第二讲：一般数据分析资料

第二讲：一般数据分析

教学目的：能应用SPSS软件进行：描述分

析、频数分析、数据探索、交叉

表分析、图形分析等

教学内容：1）描述分析

2）频数分析

3）数据探索

4）交叉表分析

教学重点：描述分析、频数分析、交叉表教学难点：数据探索、交叉表分析

教学时间：1学时

描述性统计分析Descriptive Statistics

描述性统计分析是统计分析的第一步，做好这第一步是下面进行正确统计推断的先决条件。SPSS的许多模块均可完成描述性分析，但专门为该目的而设计的几个模块则集中在Descriptive Statistics菜单中，最常用的是列在最前面的四个过程：

●Frequencies过程的特色是产生频数表；

●Descriptives过程则进行一般性的统计描述；

●Explore过程用于对数据概况不清时的探索性分析；

●Crosstabs过程则完成计数资料和等级资料的统计描述和一般的统计检验，常用的X2 检验也在其中完成。

1.1 Frequencies过程

频数分布表是描述性统计中最常用的方法之一，Frequencies过程就是专门为产生频数表而设计的。它不仅可以产生详细的频数表，还可以按要求给出某百分位点的数值，以及常用的条图、饼图等统计图。和国内常用的频数表不同，几乎所有统计软件给出的都是详细频数表，即并不按某种要求确定组段数和组距，而是按照数值精确列表。如果想用Frequencies 过程得到熟悉的频数表，请先用第3章学过的Recode过程产生一个新变量来代表所需的各

组段。

1.1.1 界面说明

Frequencies对话框的界面如图1.1a所示。选取Analyze→Descriptive Statistics →Frequencies，系统就会弹出该对话框，其各部分的功能如下：

1．Variable（s）框：左侧的变量可全部选入右侧的Variable（s）框内，一次性完成所有变量的频数分析；也可逐一选入右侧，进行分析n次分析（这样就太累了）。

2．Display frequency tables复选框：确定是否在结果中输出频数表。

图1.1a Frequencies对话框

3．Statistics：单击后弹出Statistics对话框如图1.1b，用于定义需要计算的其他描述统计量。其中：

●Percentile Values复选框组：定义需要输出的百分位数，可计算四分位数(Quartiles)、每隔指定百分位输出当前百分位数(Cut points for equal groups)、或直接指定某个百分位数(Percentiles)，如直接指定输出P2.5（即累计百分数为2.5%处的变量值）和P97.5（即累计达到97.5%处的变量值）。

●Central tendency复选框组：用于定义描述集中趋势的一组指标：均值(Mean)、中位数(Median)、众数(Mode)、总和(Sum)。

●Dispersion复选框组：用于定义描述离散趋势的一组指标：标准差(Std.deviation)、方差(Variance)、全距 (Range)、最小值(Minimum)、最大值(Maximum)、标准误(S.E.mean)。

●Distribution复选框组：用于定义描述分布特征的两个指标：偏度系数（Skewness）和峰度系数(Kurtosis)。

●Values are group midpoints复选框：当输出的数据是分组频数数据，并且具体数值是组中值时，选中该复选框，以通知SPSS，免得它犯错误。

图1.1b Frequencies的Statistics对话框

4．Charts：弹出Charts对话框，用于设定所做的统计图。

●Chart type单选钮组定义统计图类型，有四种选择：无、条图（Bar chart）、圆图(Pie chart)、直方图Histogram），其中直方图还可以选择是否加上正态曲线（With normal curve）。

●Chart Values单选钮组定义是按照频数还是按百分比做图（即影响纵坐标刻度）。

5．Format：弹出Format对话框，用于定义输出频数表的格式，不过用处不大，一般不管。

●Order by单选钮组定义频数表的排列次序，有四个选项：Ascending values为根据数值大小按升序从小到大作频数分布；Descending values为根据数值大小按降序从大到小作频数分布；Ascending counts为根据频数多少按升序从少到多作频数分布；Descending counts为根据频数多少按降序从多到少作频数分布。

●Multiple Variables单选钮组如果选择了两个以上变量做频数表，则Compare variables可以将他们的结果在同一个频数表过程输出结果中显示，便于互相比较，Organize output by variables则将结果在不同的频数表过程输出结果中显示。

●Suppress Tables more than...复选框当频数表的分组数大于下面设定数值时禁止它在结果中输出，这样可以避免产生巨型表格。

1.1.2 实例分析

例1.1 利用111.sav文件中q9（即被访问者最近一次参加促销活动的消费）的调查数据，绘制频数表、直方图，计算平均值、标准差、变异系数CV、中位数Mode、p2.5和p97.5。

●求解

上述要求中，除CV需用手工计算外，其他问题都可通过Frequencie解决。其主要操作如下：

1.从程序中打开SPSS，选择File→open→data，打开111.sav；

2.Analyze→Descriptive Statistics→Frequencies，弹出Frequencies对话框；

3.Variables框：选入q9

4.单击Statistics

5.选中Mean、Std.deviation、Median复选框

6.单击Percentiles：输入2.5：单击Add：输入9

7.5：单击Add：

7.单击Continue

8.单击Charts：

9.选中Bar charts

10.单击Continue

11.单击OK，系统即在SPSS Viewer中显示所有结果，详见结果解释。

而CV可用得到的Std. deviation 与Mean相除求得。

●问题与处理

图1.2是q9的次数分布直方图，它表明：由于q9的取值点较多，使得按变量取值分组进行的Frequencies分析表很长，绘出的直方图也因分组太多而显得不清爽，需要进一步处理。可先对q9分组，可通过重新赋值于新变量来实现，再作直方图。

F r e q u e n c y

图1.2 q9的次数分布直方图

1.1.3 结果解释

●Statistics Table

Statistics

被访问者最近一次参加促销活动的消费

表的最上方是表名，接下来是变量q9的标签——被访问者最近一次参加促销活动的消费；表的左侧是统计变量名称，右侧是统计结果。表中数据显示：样本量N 为312个，缺失值0个，平均值Mean=114.03，中位数Median=113，标准差STD=18.158，P2.5=58，P97.5=293.7。

●Frequencies Table

上表是系统对变量q9作的频数分布表（此处只列出了开头部分），Vaild右侧为原始值，Frequency为频数，Percent为各组频数占总例数的百分比（包括缺失记录在内），Valid percent为各组频数占总例数的有效百分比，Cum Percent为各组频数占总例数的累积百分比。

1.2 Descriptives过程

Descriptives过程是连续资料统计描述应用最多的一个过程，他可对变量进行描述性统计分析，计算并列出一系列相应的统计指标。这和其他过程相比并无不同。但该过程还有个特殊功能就是可将原始数据转换成标准正态评分值并以变量的形式存入数据库供以后分析。

1.2.1 界面说明

Descriptives对话框的界面如图1.3a所示。选取Analyze→Descriptive Statistics →Descriptives，系统就会弹出该对话框，其各部分的功能如下：

●Save standardized values as variables复选框：确定是否将原始数据的标准正态评分存为新变量。

●Options：Options对话框（见图1.3b）中的大部分内容均在前面Frequences过程的Statistics对话框中见过，只有最下方的Display Order单选钮组是新的，可以选择为变量列表顺序、字母顺序、均值升序或均值降序。

1.2.2 结果解释

利用111.sav文件中的q9数据，选择Analyze→Descriptive Statistics→Descriptives，在弹出的Descriptives对话框中选q9到Variable（s）框中，点击ok，即可得到如下一个典型的Descriptives过程结果统计表：

Descriptive Statistics

N Minimum Maximum Mean

Std. Deviation

被访问者最近一次参

加促销活动的消费

312 52 300 114.03 18.158 Valid N (listwise) 312

表中各统计项在前面都有解释，这里就不再啰嗦了。

图1.3a Descriptives对话框

图1.3b Descriptives中的Options对话框

1.3 Explore过程

Explore过程可对变量进行更为深入详尽的描述性统计分析，主要用于对资料的性质、分布特点等完全不清楚时，故又称之为探索性分析。它在一般描述性统计指标的基础上，增加有关数据其他特征的文字与图形描述，如茎叶图、箱图等，显得更加详细、全面，有助于用户制定继续分析的方案。

1.3.1 界面说明

Explore对话框的界面如图 1.4a所示。选取Analyze→Descriptive Statistics→Explore，系统就会弹出该对话框，其各部分的功能如下：

图1.4a Explore对话框

●Display单选钮组：用于选择输出结果中是否包含统计描述、统计图或两者均包括。

●Dependent List框：用于选入需要分析的变量。

●Factor List框：如果想让所分析的变量按某种因素取值分组分析，则在这里选入分组变量。

●Label cases by框：选择一个变量，他的取值将作为每条记录的标签。最典型的情况是使用记录ID号的变量。

●Statistics：弹出Statistics对话框（见图1.4b），用于选择所需要的描述统计量。有如下选项：

Descriptives复选框：输出平均值、中位数、众数、5%修正平均值、标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的标准误及指定的均值可信区间。

M-estimators复选框：作中心趋势的粗略最大似然确定，输出四个不同权重的最大似然确定数。

Outliers复选框：输出五个最大值与五个最小值。

Percentiles复选框：输出第5%、10%、25%、50%、75%、90%、95%位数。

图1.4b Explore中的Statistics对话框

●Plot：弹出Plot对话框（见图1.4c），用于选择所需要的统计图。有如下选项：

Boxplots单选框组：确定箱式图的绘制方式，可以是按组别分组绘制(Factor levels together)，也可以不分组一起绘制(Depentends together)，或者不绘制(None)。

Descriptive复选框组：可以选择绘制茎叶图(Stem-and-leaf)和直方图(Histogram)。

Normality plots with test复选框：绘制正态分布图并进行变量是否符合正态分布的检验。

Spread vs. Level with Levene Test单选框组：当选择了分组变量时，绘制spread-versus-level图，设置绘图时变量的转换方式，并进行组间方差齐性检验。

图1.4c Explore中的Plots对话框

●Options：用于选择对缺失值的处理方式，可以是不分析有任一缺失值的记录、不分

析计算某统计量时有缺失值的记录，或报告缺失值，如图1.4d所示。

图1.4d Explore中的Options对话框

1.3.2 结果解释

以例1.1的数据为例，按默认方式下的选择，Explore过程的输出如下：

●首先是例行的处理记录缺失值情况报告，可见312例均为有效值。

Case Processing Summary

Cases

Valid Missing Total

N Percent N Percent N Percent 被访问者最近一次参

加促销活动的消费

312 100.0% 0 .0% 312 100.0%

●其次是描述统计结果，包括平均数Mean及其95%的置信区间、中位数Median、方差Variance、标准差Std. Deviation、偏度Skewness、峰度Kurtosis等，几乎常见的描述统

计量都出现了，比较全面。

Descriptives

Statistic Std. Error

被访问者最近一次

参加促销活动的消

费

Mean 114.03 3.887

95% Confidence

Interval for Mean

Lower Bound 151.38

Upper Bound 171.18

5% Trimmed Mean 112.82

Median 113.00

Variance 4713.891

Std. Deviation 18.158

Minimum 52

Maximum 300

Range 248

●然后是茎叶图，整数位为茎，小数位为叶。这样可以非常直观的看出数据的分布范围及形态，在国外非常流行。

被访问者最近一次参加促销活动的消费 Stem-and-Leaf Plot

Frequency Stem & Leaf

11.00 0 . 55555555555

30.00 0 . 111111111111111117777777777777

32.00 0 . 88888888888888899999999999999999

25.00 1 . 0000000000000111111111111

25.00 1 . 2222222233333333333333333

27.00 1 . 444444444444444455555555555

31.00 1 . 1111111111111111117777777777777

30.00 1 . 888888888888889999999999999999

25.00 2 . 0000000000000000011111111

25.00 2 . 2222222222333333333333333

18.00 2 . 444444444444455555

17.00 2 . 11111111177777777

14.00 2 . 88888999999999

2.00 3 . 00

Stem width: 100

Each leaf: 1 case(s)

●最后还有箱式图，中间的黑粗线为均值，红框为四分位间距的范围，上下两个细线为最大、最小值。

1.4 Crosstabs过程

Crosstabs过程用于对计数资料和有序分类资料进行统计描述和简单的统计推断。在分析时可以产生二维至n维列联表，并计算相应的百分数指标。统计推断则包括了常用的X2检验、Kappa值，分层X2（X2M-H）。如果安装了相应模块，还可计算n维列联表的确切概率（Fisher's Exact Test）值。这里只介绍一些常用的。

1.4.1 界面说明

Crosstabs对话框的界面如图1.5a所示。选取Analyze→Descriptive Statistics→Crosstabs，系统就会弹出该对话框，其各部分的功能如下：

●Rows框：用于选择行*列表中的行变量。

●Columns框：用于选择行*列表中的列变量。

●Layer框：Layer指的是层，对话框中的许多设置都可以分层设定，在同一层中的变量使用相同的设置，而不同层中的变量分别使用各自层的设置。如果要让不同的变量做不同的分析，则将其选入Layer框，并用Previous和Next钮设为不同层。Layer在这里用的比较少，在多元回归中将进行详细的解释。

●Display clustered bar charts复选框：显示重叠条图。

●Suppress table复选框：禁止在结果中输出行*列表。

●Exact：针对2*2以上的行*列表设定计算确切概率的方法，可以是不计算（Asymptotic only）、蒙特卡罗模拟（Monte Carlo）或确切计算（Exact）。蒙特卡罗模拟默认进行10000次模拟，给出99%可信区间；确切计算默认计算时间限制在5分钟内。这些默认值均可更改。

图1.5a Crosstabs对话框

●Statistics：弹出Statistics对话框，用于定义所需计算的统计量,见图1.5b。

11属性数据分析

技能训练十一属性数据分析一、训练目的与要求 1．掌握属性数据分析方法。 2．掌握属性数据分析图表与原图形的组合。二、训练准备 1．训练数据：本训练数据保存于文件夹Exercise-11中。 2．预备知识：属性分析的方法。三、训练步骤与内容 1．数据准备将训练数据复制，粘贴至各自文件夹内。启动MAPGIS主程序。在主菜单界面中，点击参数按钮，在弹出的对话框中，设置工作目录最终指向Exercise-14（盘符依据各人具体情况设置）。 2．属性分析执行如下命令：空间分析?空间分析?文件?装载区文件，加载要进行属性分析的数据文件。 Step1: 加载数据文件中所提供的REGION.WP区文件执行如下命令：属性分析?单属性分类统计?立体饼图，选择属性分析类型。

Step2: 属性 Step3: 选择分类属性字段为小麦，保留属性字段为乡名、水稻、玉米Step4: 设置分类方式为分段方式 Step5: 确定，退出设置分类值域按图中所示输入

分类统计结果图 3．保存文件执行如下命令：文件?保存当前文件，换名保存属性分析所生成的图形文件，系统生成的表格文件（*.WB）不需要保存。 Step: 将缺省文件名改为“属性分析”，点击保存按钮。按此方法依次将线、区文件名均改为“属性分析” 4．文件组合执行如下命令：图形处理?输入编辑?打开已有工程文件，打开所提供的Exercise-14.MPJ，在工程文件管理窗口，点击鼠标右键，选择“添加项目”选项，将前面生成的属性分析.WT、属性分析.WL、属性分析.WP添加进此工程文件。关闭REGION.WP、POINT.WT、RIVER.WL和LINE.WL四个文件。执行如下命令：其它?整块移动，调整属性分析.WT、属性分析.WL、属性分析.WP三个图形文件的位置，使与主图位置相适应。若此三个图形与主图相比过大的话，执行如下命令：其它?整图变换?键盘输入参数，来进行调整（注意应确定REGION.WP、POINT.WT、RIVER.WL 和LINE.WL四个文件处于关闭状态）。

数据分析的常见方法

一、描述统计描述性统计是指运用制表和分类，图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。 1、缺失值填充：常用方法：剔除法、均值法、最小邻居法、比率\回归法、决策树法。 2、正态性检验：很多统计方法都要求数值服从或近似服从正态分布，所以之前需要进行正态性检验。常用方法：非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。二、假设检验 1、参数检验参数检验是在已知总体分布的条件下（一股要求总体服从正态分布）对一些主要的参数(如均值、百分数、方差、相关系数等）进行的检验。 1）U验使用条件：当样本含量n较大时，样本值符合正态分布 2）T检验使用条件：当样本含量n较小时，样本值符合正态分布 A 单样本t检验：推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别； B 配对样本t检验：当总体均数未知时，且两个样本可以配对，同对中的两者在可能会影响处理效果的各种条件方面扱为相似； C 两独立样本t检验：无法找到在各方面极为相似的两样本作配对比较时使用。 2、非参数检验非参数检验则不考虑总体分布是否已知，常常也不是针对总体参数，而是针对总体的某些一股性假设（如总体分布的位罝是否相同，总体分布是否正态）进行检验。适用情况：顺序类型的数据资料，这类数据的分布形态一般是未知的。

A 虽然是连续数据，但总体分布形态未知或者非正态； B 体分布虽然正态，数据也是连续类型，但样本容量极小，如10以下；主要方法包括：卡方检验、秩和检验、二项检验、游程检验、K-量检验等。三、信度分析检査测量的可信度，例如调查问卷的真实性。分类： 1、外在信度：不同时间测量时量表的一致性程度，常用方法重测信度 2、内在信度；每个量表是否测量到单一的概念，同时组成两表的内在体项一致性如何，常用方法分半信度。四、列联表分析用于分析离散变量或定型变量之间是否存在相关。对于二维表，可进行卡方检验，对于三维表，可作Mentel-Hanszel分层分析。列联表分析还包括配对计数资料的卡方检验、行列均为顺序变量的相关检验。五、相关分析研究现象之间是否存在某种依存关系，对具体有依存关系的现象探讨相关方向及相关程度。 1、单相关：两个因素之间的相关关系叫单相关，即研究时只涉及一个自变量和一个因变量； 2、复相关：三个或三个以上因素的相关关系叫复相关，即研究时涉及两个或两个以上的

《数据分析》练习题

《数据分析》练习题 1.一个地区某月前两周从星期一到星期五各天的最低气温依次是(单位:℃):x 1, x 2, x 3, x 4, x 5和x 1+1, x 2+2, x 3+3, x 4+4, x 5+5,若第一周这五天的平均最低气温为7℃,则第二周这五天的平均最低气温为。 2.有10个数据的平均数为12，另有20个数据的平均数为15，那么所有这30个数据的平均数是( ) A ．12 B. 15 C. 1 3.5 D. 14 3.一组数据8,8,x ,6的众数与平均数相同，那么这组数据的中位数是（） A. 6 B. 8 C.7 D. 10 4.某校在一次考试中，甲乙两班学生的数学成绩统计如下：请根据表格提供的信息回答下列问题：（1）甲班众数为分，乙班众数为分，从众数看成绩较好的是班；（2）甲班的中位数是分，乙班的中位数是分；（3）若成绩在80分以上为优秀，则成绩较好的是班；、（4）甲班的平均成绩是分，乙班的平均成绩是分，从平均分看成绩较好的是班. 5.在方差的计算公式 ()()()222 21210120202010 s x x x ??= -+-+???+-??中，数字10和20分别表示的意义可以是( ) A ．数据的个数和方差 B ．平均数和数据的个数 C ．数据的个数和平均数 D ．数据组的方差和平均数 6..如果将所给定的数据组中的每个数都减去一个非零常数，那么该数组的（） A.平均数改变，方差不变 B.平均数改变，方差改变 C.平均输不变，方差改变 D.平均数不变，方差不变 7..已知7,4,3,,321x x x 的平均数是6，则_____________321=++x x x . 8..已知一组数据-3，-2，1，3，6，x 的中位数为1，则其方差为 . 9..已知一组数据x 1,x 2,x 3,x 4,x 5的平均数是2，方差是 3 1 ，那么另一组数据3x 1－2,3x 2－2,3x 3－2, 3x 4－2,3x 5－2的平均数是和方差分别是 . 10..关于一组数据的平均数、中位数、众数，下列说法中正确的是（） A.平均数一定是这组数中的某个数 B. 中位数一定是这组数中的某个数 C.众数一定是这组数中的某个数 D.以上说法都不对分数 50 60 70 80 90 100 人数甲 1 6 12 11 15 5 乙 3 5 15 3 13 11

LFA457数据分析向导资料

LFA447数据分析向导 1．新建／打开数据库打开分析软件Proteus LFA Analysis。弹出如下界面：如果要把导入数据保存在原有的数据库中，选择数据库所在的文件夹，双击打开该数据库。如果要为导入数据新建一个数据库，选择存盘路径，在“文件名”中输入数据库文件名，点击“打开”，软件会自动创建一个新的数据库文件。随后出现数据库管理窗口：

注：LFA Proteus的数据以Access数据库文件（*.mdb）的形式进行管理。LFA447（Nanoflash）的原始数据文件（*.dat）需要导入到数据库文件中，一个数据库文件可存放多个测量数据。从数据分类管理的角度出发，一般建议为每一批样品单独创建一个数据库。 2.导入LFA447数据文件／设定材料属性点击“LFA数据库”窗口的“数据库”菜单下的“导入LFA447文件”，弹出“选择导入文件”对话框：

选择所要导入的数据文件，点击“打开”，弹出“导入–材料选择”对话框：如果在数据库中原已有该材料的信息，只需在材料列表中“选择已有材料”即可；如果是新建的数据库或原数据库中没有该材料的信息，则“定义新材料”，点击“下一步”，弹出“材料定义”对话框： LFA Proteus中每一个测试数据都有相应的材料属性定义，包含样品的名称、密度、比热表、热膨胀系数表、热扩散系数表等信息，其中比热、热膨胀与热扩散系数三个表格可通过点击“对应表”按钮进行设定。对于单层样品：如果仅仅是热扩散系数测试，三个表都不需链接，直接点击“完成”。如果除热扩散测试外还同时使用比较法计算比热，则此时先可点击“完成”，待比热计算完成后使用“导出比热表”的方法重新对材料属性中所链接的比热表进行设定。（详见LFA比热与导热系数计算方法）如果已有比热的文献值（或使用其它仪器得到的测量值），需要链接到材料属性中，以便结合热扩散测试结果进一步计算导热系数，则在“比热表”的选项卡中点击“对应表…”，弹出如下窗