基本统计分析PPT课件

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

返2回5
大样本的交叉表实例Data05-01
child/occcat80/region
观测量统计处理摘要
Case Processing Summary
Cases
Valid
Missing
Total
.
15
计算公式如下。（1）卡方统计量检验是常用的检验行列变量之间是否相关的方法。交叉列联表的卡方检验零假设是：行列变量之间独立，计算公式为
.
16
卡方统计量服从（行数−1）×（列数−1）个自由度的卡方统计，SPSS在自动计算卡方统计量后，还会给出相应的P值。
注意：使用这个统计量进行检验时，要求期望频数大于等于5。若不满足该条件需要使用精确检验法。
8
68
4.5
4.5
9
56
3.7
3.7
10
73
4.8
4.8
11
85
5.6
5.6
12
461
30.4
30.5
13
130
8.6
8.6
14
175
11.5
11.6
15
73
4.8
4.8
16
194
12.8
12.8
17
43
2.8
2.8
18
45
3.0
3.0
19
22
1.5
1.5
20
30
2.0
2.0
Total
1510
99.5
.
3
利用一维频数分布表可以对数据按组进行归类整理，形成各变量的不同水平的频数分布表和图形，以便对各变量的数据特征好观测量分布状况有一个概括的认识。
交叉表分析过程可以生成二维或多维频数表，还可以进行分类变量之间的独立性检验。
.
4
一、一维频数分布分析过程(data05-01) Analyze descriptive statistics frequencies
基本统计分析
返回
.
1
§1 频数分布分析
.
返回2
定义：频数就是一个变量在各个变量值上取值的个案数。如要了解学生某次考试的成绩情况，需要计算出学生所有分数取值，以及每个分数取值有多少个人，这就需要用到频数分析。变量的频数分析正是实现上述分析的最好手段，它可以使人们非常清楚地了解变量取值的分布情况。
.
返1回3
常用的衡量变量间相关程度的统计量是简单相关系数（参见本书有关章节），但在交叉列联表分析中，由于行列变量往往不是连续变量，不符合计算简单相关系数的前提条件。因此需要根据变量的性质，选择其他的相关系数，如Kendall等级相关系数、 Eta值等。
.
14
SPSS提供了多种适用于不同相关系数的相关关系，这些检验的零假设是：行和列变量之间彼此独立，不存在显著的相关关系。 SPSS将自动给出检验的P值，如果P值小于显著性水平0.05，那么应拒绝零假设，认为行列变量之间彼此相关。
.
返回5
选择statistics(输出统计量)对话框
如果中位数与众数相差很大，说明观测量中存在异常值
.
返回6
Charts(图形)参数选择对话框
.
返回7
频数分布表format(格式)对话框
.
返回8
Data05-01 age eudc 不同年龄人员与其受教育年限的统计表
(3) N
(6) Skewness (7) Std. Error of Skewness (8) Kurtosis (9) Std. Error of Kurtosis (10) Percentiles
100.0
(6)Missing
NA
7
wk.baidu.com
.5
(7)Total
1517 . 100.0
(4)Cumulative Percent .1 .5 .8 1.2 2.0 3.6 8.1 11.9 16.7 22.3 52.8 61.5 73.0 77.9 90.7 93.6 96.6 98.0 100.0
返1回0
age变量的直方图
.
返1回1
educ变量直方图
.
返1回2
二、交叉表分析analyze descriptive
statistics crosstabs (data05-01)
前面的分析都是对单个变量的数据分布情况进行分析。但在实际分析中，还需要掌握多个变量在不同取值情况下的数据分布情况，从而进一步深入分析变量之间的相互影响和关系，这种分析就称为交叉列联表分析。交叉列联表分析除了列出交叉分组下的频数分布外，还需要分析两个变量之间是否具有独立性或一定的相关性。要获得变量之间的相关性，仅仅靠频数分布的数据是不够的，还需要借助一些变量间相关程度的统计量和一些非参数检验的方法。
.
返2回0
.
21
选择statistics(统计量)对话框
C
X2 X2 N
V
X2
Nk 1
.
返2回2
Exact(精确检验)对话框
提供两种针对小数据量与不平衡表的检验方法
此值小于0.05则认为行、列变量存在关系
.
返2回3
Cells(显示单元格)对话框
.
返2回4
Format(格式)对话框
.
.
17
（2）Contingency coefficient：列联系数。用于名义变量之间的相关系数计算。计算公式由卡方统计量修改而得，公式为
其中，N为观测量数
其数值在0~1之间，0表示行列变量之间没有关联，1表示行列变量之间有很强的关联。
.
18
（3）Phi and Cramer‘s V：ψ系数。用于名义变量之间的相关系数计算。计算公式由卡方统计量修改而得，公式为
Statistics
(4) Valid (5) Missing
(1) Age of Respondent
1514
3
.524
(2) Highest Year of School Completed 1510
7
-.168
.063
.063
-.786
.710
.126
.126
25
32.00
12.00
50
41.00
12.00
75
60.00
15.00
.
返回9
受教育年限的频数分布表
Highest Year of School Completed
(3)Valid
(1)Frequency
(2)Percent
Percent
(5)Valid
0
2
.1
.1
3
5
.3
.3
4
5
.3
.3
5
6
.4
.4
6
12
.8
.8
7
25
1.6
1.7
数值界于0～1之间，其中K为行数和列数较小的实际数。
.
19
一个行变量和一个列变量可以形成一个二维交叉表，再指定一个分组变量作为控制变量就形成三维交叉表。如果可以指定多个行、列、控制变量，就会形成一个复杂的多维交叉表。
交叉表的数据可以是数值型或字符型变量，短字符串变量可以直接作为分类变量。