第四章 SPSS基本统计分析

合集下载

第4章-SPSS基本统计分析

第4章-SPSS基本统计分析

2016/12/25
21
基本描述统计量
描述离散程度的统计量
离散程度:指一组数据远离“中心值”的程度。 即考查所有数据相对于“中心值”分布的疏密程度。 如果数据都紧密地集中在“中心值”的周围,数 据的离散程度较小,则说明“中心值”对数据的 代表性就好; 如果数据比较松散地分布在“中心值”的周围, 数据的离散程度较大,则 “中心值”说明数据特 征是不具有代表性的。
案例

利用“大学生职业生涯规划数据”进行 以下分析:
1. 计算专业和职业认知得分的基本描述统计
量,并比较男女生的得分差异; 2. 分析是否存在专业和职业认知得分的异常 值。

应用举例
基本描述统计
以“居民储蓄调查数据”为例,对一次存(取)款金 额。有两个分析目标: 目标一:计算存(取)款金额的基本描述统计量,并对 城镇储户和农村储户进行比较 (数据拆分)
SK 0
左(负)偏态
x
M M
152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 e 169o170 171 172 173 174 175
基本描述统计量

描述陡峭程度的统计量
– 峰度(kurtosis): 描述某变量取值分布形态陡缓程

合 计
频数分析表

频数分析的任务: 编制频数分布表
用宽度相同的条形的高度或长短来表示频数分布变化的图 如果有缺省值,那 – 各组的名称 形。使用于定序和定类变量的分析 么有效百分比能更 – 频数(Frequency) 加准确地反映取值 用圆形及圆内扇形的面积来表示频数百分比变化的图形。 – 百分比(Percent) 分布状况

第四章 SPSS基本统计分析共60页文档

第四章 SPSS基本统计分析共60页文档

操作步骤:
打开数据文件“婴儿体重.sav”。打开 Descriptives主对话框,选定变量t进入 Variable栏中。
选中Save standardized values as variables复选框,要求计算变量的z值,并 保存结果到当前数据集中。
单击Options按钮,选中Mean、 Std.Deviation、Minimum、Maximum 、 Variance 项。
统计量
选择一个或多个 变量右移入 Variable(s)框。
统计图 频数输出的顺序
输出统计量对话框
Chart 对话框
按变量值的升序输出 按频数的升序输出
统计表中变量的各 项分析结果在一张 表并列显示
按各个变量组织输 出,输出结果将按 照每个变量一张表 的形式显示
控制频数表输出范围 类型的最大数目为
• 统计结果表明:本市户口家庭的人均住房面 积的均值是21.7平方米,低于外地户口家庭 26.7。无论是本市户口还是外地户口,人均住 房面积的分布均呈一定的右偏分布(两个偏 度统计量分别为2.18和1.43),且本市户口的 偏度更大些;同时,本市户口和外地户口家 庭人均住房面积均呈尖峰分布(两个峰度统 计量分别为8.3和2.1)。由此可见,本市户口 和外地户口中的大部分家庭的人均住房面积 都低于各自的平均水平,此时,仅用均值刻 画住房状况是不准确的。
(二)基本描述统计量
• 常见的基本描述统计量可以分为三大类: 1、集中趋势的描述统计量(均值、中位 值、众值); 2、离散程度的描述统计量(标准差、方 差、极差); 3、分布形态的描述统计量(偏度系数、 峰度系数)。
(三)应用举例
• 利用住房状况调查问卷数据, 对人均住房面积计算基本描 述统计量,并分别对本市户 口和外地户口家庭进行比较。 (首先进行数据拆分)

4-1.SPSS基本统计分析

4-1.SPSS基本统计分析

口”的两类调查对象在居室面积(变量a7)
上的分布差异。
具体要求—— 上述各题,均要求随机选择规定数量的 个案来进行分析。(数量的确定:用 自己学号的最后两位数乘以10,再加 上1600,所得数字为各人要分析的个 案数量。)
第二节
描述性统计分析
一、概述
SPSS的描述性统计分析过程的功能与 频数分析过程类似,但没有图形功能。
集 中 值
离散值
分布参数栏
其中,选项“values are group midpoints”,如果数据已经分组,就 按分组的数据计算中位数和百分位数。
在“Chart(图形)”对话框中,其 中“Histogram(s)(直方图)”下方的 “With normai curve(绘制正态分布曲 线)”,表示在显示的直方图中添加正 态曲线图,用于推断数据是否近似服从 正态分布。

SPSS输出的频数分布表包括的内容:
⑴频数(Frequency)
⑵百分比(Percent)
⑶有效百分比(Valid Percent)
⑷累计百分比(Cumulative Percent)
三、操作演示与例题分析1
数据:“2000某市房产抽查”数据
变量:a6房屋结构
结果呈现的内容:
⑴ 频数分布表;
⑵ 基本图形;
注意—— 不同层次变量能够适用的集中值和离散 值是不一样的。在Statistics对话框中,要 根据不同的变量选择不同的统计值。 定类变量:众值、异众比率。 定序变量:中位数、四分互差;众值、 异众比率。
定距变量:均值、极差和方差;众值、 异众比率;中位数、四分互差。
Format(格式)对话框
选择频数表中排 列顺序 用于设置频数表输出的格式 多变量框中可设定多变量 表格输出的格式

第四章SPSS基本统计分析

第四章SPSS基本统计分析
SPSS (以5种饮料购买频数.sav为例)
菜单分析
描述统计
频率
SPSS
SPSS
SPSS
SPSS
SPSS
SPSS频数分析的扩展功能
• 计算分位数 • 计算其他描述统计量 • 频数分析表格式的定义
计算集中趋势
SPSS
计算 分位 数
计算离 散程度
SPSS
频数分布格式定义
频数分析应用举例 SPSS (以居民储蓄调查数据.sav为例)
根据样本数据,产生二维或多维交叉列联表
在交叉列联表的基础上,对两两变量间是否 存在一定的相关性进行分析
目的
分析多变量不同取值下的分布,掌握多变量的联合 分布特征,进而分析变量之间的相互影响和关系
交叉列联表的主要内容
SPSS
行 变 量
列变 量
二维 交叉 列联 表 行 边 缘 分 布
列边 缘分 布
SPSS
SPSS
SPSS
SPSS
对存款金额按照户口进行拆分
SPSS
按户 口拆 分好 的数 据
SPSS
对拆分好的数据进行频数分析
SPSS
SPSS
SPSS
练习
• 现有SY-3(公司职员统计表).sav,要求对 其中的变量年龄和受教育年限进行频数分 析,结果输出中要求有四分位数、均值、 标准差、方差、最大值、最小值、数据分 布的偏度和峰度情况,输出条形图,图表 值按照频率输出,格式则按照系统默认的 方式进行,要显示频率表格。
分析
多重 响应
定义变 量集
SPSS
SPSS
分析 SPSS
多重响应
频率
SPSS
SPSS
储户的存款目的 SPSS

第4章 SPSS基本统计分析

第4章 SPSS基本统计分析
第4章 SPSS基本统计分析
▪ 4.1 频数分析 4.1.1 频数分析的目的和基本任务 4.1.2 频数分析的基本操作 4.1.3 SPSS频数分析的扩展功能 4.1.4 频数分析的应用举例
▪ 4.1.1 频数分析的目的和基本任务 ▪ 目的 ▪ 粗略把握变量值的分布状况。 ▪ 例:研究被调查者的特征(如:性别、年龄、收入) ▪ 研究被调查者对某个问题的总体看法(如:教学方式、
12
10
2
4
0.4
B
14
10
4
16
1.6
C
9
10
-1
1
0.1
D
5
10
-5Βιβλιοθήκη 252.5E10
10
0
0
0.0
∑ χ2 (fofe)2 4.6
fe
▪ 自由度:df=k-1 ▪ 在0.05的显著性水平下,查表自由度为4时的
卡方临界值为:9.488
▪ 在spss中的操作
卡方检验原理 例二
▪ 我们假设有一位社会研究者有兴趣调查高级中学学 生对于大学学历的重要性的态度。她询问了一个60 名高级中学学生的样本,接受大学教育是否变得更 加重要、更不重要或者没有变化。
户 城镇户口 口
农村户口
买东西 113
59
存钱 合计
87
200
23
82
合计
172
110
282
2
n
Cramer's V
▪ Cramer's V是基于卡 方统计量的关联性测 量。
2
V nmin(R1)(C1)
选择行、列数最小一个
收 300元以下 入 300~800 水 平 800~1500

第四章_SPSS基本统计分析

第四章_SPSS基本统计分析

S .E.of .Mean

(x X )
M
2

[ x E ( x )]2 M

n
其中: 为总体标准差,n为样本单位数
2.刻画离散程度的描述统计量
离散程度是指一组数据远离其“中心值”的程度
。 (1)如果数据都紧密地集中在“中心值”的周围,数据 的离散程度较小,说明这个“中心值”对数据的代表 性好。 (2)如果数据仅是比较松散地分布在“中心值”的周围 ,数据的离散程度较大,则此“中心值”说明数据特 征是不具有代表性的。
• 4.2.2 计算基本描述统计量的操作
(1)选择菜单Analyze-Descriptive Statistics-Descriptives,出现如下窗口:
(2)将需计算的数值型变量选择到Variable(s)框中。 (3)单击Option按钮指定计算哪些基本描述统计量,出现 如下窗口:
基本统计量 分布
基本描述统计量的应用举例
(1)利用住房状况调查数据,对人均住房面积计算 基本统计量,并分别对本市户口和外地户口进行家 庭比较。 (2)利用住房状况调查数据,分析人均住房面积是 否存在不均衡现象。
基本描述统计量的应用举例
分析: (1)不均衡现象可以通过分析是否存在大量异常值—根据 3 准则,处于3倍标准差之外的值一般为异常值。 (2)可通过对数据的标准化处理来判断。标准化的数学定义 为:
2.计算其他基本描述统计量
SPSS频数分析还能够计算其他基本统计量,其中包括: (1)描述集中趋势(Central Tendency)的基本统计量 (2)描述离散程度(Dispersion)的基本统计量 (3)描述分布形态(Distribution)的基本统计量

第4章 SPSS基本统计分析(课后练习参考)

第4章 SPSS基本统计分析(课后练习参考)

第4章 SPSS基本统计分析(课后练习参考)1、利用习题二第6题数据,采用SPSS数据筛选功能将数据分成两份文件。

其中,第一份数据文件存储常住地是“沿海或中心繁华城市”且本次存款金额在1000至5000之间的调查数据;第二份数据文件是按照简单随机抽样所选取的70%的样本数据。

第一份文件:选取数据数据——选择个案——如果条件满足——存款>=1000&存款<5000&常住地=沿海或中心繁华城市。

第二份文件:选取数据数据——选择个案——随机个案样本——输入70。

2、利用习题二第6题数据,将其按常住地(升序)、收入水平(升序)、存款金额(降序)进行多重排序。

排序数据——排序个案——把常住地、收入水平、存款金额作为排序依据分别设置排列顺序。

3、利用习题二第4题的完整数据,对每个学生计算得优课程数和得良课程数,并按得优课程数的降序排序。

计算转换——对个案内的值计数输入目标变量及目标标签,把所有课程选取到数字变量,定义值——设分数的区间,之后再排序。

4、利用习题二第4题的完整数据,计算每个学生课程的平均分以及标准差。

同时,计算男生和女生各科成绩的平均分。

方法一:利用描述性统计,数据——转置学号放在名称变量,全部课程放在变量框中,确定后,完成转置。

分析——描述统计——描述,将所有学生变量全选到变量框中,点击选项——勾选均值、标准差。

先拆分数据——拆分文件按性别拆分,分析——描述统计——描述,全部课程放在变量框中,选项——均值。

方法二:利用变量计算,转换——计算变量分别输入目标变量名称及标签——均值用函数mean完成平均分的计算,标准差用函数SD完成标准差的计算。

数据——分类汇总——性别作为分组变量、全部课程作为变量摘要、(创建只包含汇总变量的新数据集并命名)——确定5、利用习题二第6题数据,大致浏览存款金额的数据分布状况,并选择恰当的组限和组距进行组距分组。

根据存款金额排序,观察其最大值与最小值,算出组数和组距。

第四章 SPSS基本统计分析

第四章 SPSS基本统计分析
1、目的:基本统计分析往往从频数分析开始。 通过频数分析能够了解变量取值的状况,对把 握数据的分布特征是非常有用的。
例如:在问卷数据分析中,通常应首先对本次调 查的被调查者的状况,如被访者的总人数、年龄特点、 职业特点、性别特征等进行分析和总结。通过这些分 析,能够在一定程度上反映样本是否具有总体代表性, 抽样是否存在系统偏差等,并以此证明以后相关问题 分析的代表性和可信性。这些可以通过频数分析来实 现。
11
3、频数分布表格式(Format)的定义
(1)调整频数分布表中数据的输出顺序 (Order by)
频数分布表中的内容的输出顺序可 以按变量值的升序输出(Ascending values),按变量值的降序输出 (Descending values),按频数的升序输 出( Ascending counts),按频数的降 序输出( Descending counts)。
三根据五种饮料购买频可口可乐新骑士可口可乐雪碧雪碧可口可乐新骑士可口可乐雪碧雪碧杏杏仁仁露新骑士可口可乐可口可乐雪碧可口可乐新骑士可口可乐可口可乐雪碧可口可乐醒目雪碧雪碧可口可乐可口可乐雪碧雪碧雪碧可口可乐可口可乐雪碧新新骑骑士雪碧雪碧杏仁露可口可乐可口可乐雪碧雪碧杏仁露可口可乐可口可乐杏杏仁仁露可口可乐新骑士雪碧可口可乐杏仁露可口可乐新骑士雪碧可口可乐杏仁露可口可乐三根据五种饮料购买频数数据集绘制条形图和饼图

x)3
/
s3
2019年8月11日星期日
25
当分布为对称分布时,正负总偏差
相等,偏度值等于0;当分布为不对称分 布时,正负总偏差不相等,偏度值大于0 或小于0。偏度值大于0表示正偏差值大, 为正偏或称右偏;偏度值小于0表示负偏 差值大,为负偏或称左偏。偏度绝对值
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Options 对话框
在上面窗口中,用户可以指定分析多变 量时结果输出的次序(Display Order)。 其中,Variable list表示按变量在数据窗口 中从左到右的次序输出;Alphabetic表示按 字母顺序输出;Ascending Means表示按 均值升序输出;Descending Means表示按 均值降序输出。 至此,SPSS便自动计算所选变量的基 本描述统计量并显示到输出窗口中。
• 计算基本描述统计量的操作
(1)选择菜单Analyze-Descriptive Statistics- Descriptives,出现如下窗口:
(2)将需计算的数值型变量选择到Variable(s)框中。 (3)单击Option按钮指定计算哪些基本描述统计量, 出现如下窗口:
基本统计量 分布
当Variables框中有多个变量 时,此框确定其输出顺序: 按Variables框中的排列顺 序输出 按各变量的字母顺序输出 按均值的升序排列 按均值的降序排列
SPSS提供了计算任意分位数的功能,用户可以指定 将数据等分为n份(Cut points for n equal groups )。还可以直接指定分位点(Percentile)。
2、计算其他基本描述统计量
SPSS频数分析还能够计算其他基本统计 量,其中包括描述集中趋势(Central Tendency)的基本统计量、描述离散程度 (Dispersion)的基本统计量、描述分布形 态(Distribution)的基本统计量等。
(2)multiple variables单选框组:
如果选择了两个以上变量作频数表,则 compare variables可以将所有变量的结果在 同一个频数表过程输出结果中显示,便于互相比 较;organize output by variables则将结 果在不同的频数表过程输出结果中显示,每一个 变量一张表。
2、基本任务: (1)根据收集到的样本数据,产生二维或多维交叉列 联表; (2)在交叉列联表的基础上,对两两变量间是否存在 一定的相关性进行分析。 • 交叉列联表的主要内容 编制交叉列联表是交叉分组下频数分析的第一个 任务。交叉列联表是两个或两个以上的变量交叉分组 后形成的频数分布表。 例:职工基本情况数据按职称和文化程度编制的二维 交叉列联表(见下页表):
•SPSS频数分析的扩展功能
1、计算分位数(Percentile Values) 分位数是变量在不同分位点上的取值。分位点在0- 100之间。一般使用较多的是四分位点(Quartiles) ,即将所有数据按升序排序后平均等分成四份,各分位点 依次是25%,50%,75%。于是四分位数便分别是25 %,50%,75%点所对应的变量值。此外,还有八分位 数、十六分位数等。
(2)峰度(Kurtosis):描述变量取值分布 形态陡峭程度的统计量。其计算公式为:
1 n Kurtosis ( xi x )4 / S 4 3 n 1 i 1
当数据分布与标准正态分布的陡峭程度相 同时,峰度值等于0;峰度大于0表示数据的 分布比标准正态分布更陡峭,为尖峰分布;峰 度小于0表示数据的分布比标准正态分布平缓 ,为平峰分布。
(3)压缩频数分布表(Suppress tables with more than n categories) 如果变量取值的个数或取值区间的个数太 多,频数分布表将很庞大,此时可以压缩它。 SPSS默认,如果变量取值的个数或取值区间 的个数大于10,则不输出相应的频数分布表 。应用中可以修改该值。
•计算基本描述统计量的应用举例
1. 利用住房问卷调查数据,对人均住房面 积计算基本描述统计量,并分别对本市户口和 外地户口家庭进行比较。 分析:首先按照户口状况对数据进行拆分 (Split file),然后计算人均住房面积的基 本描述统计量。
•2. 利用住房问卷调查数据,分析人均住房
面积是否存在不均衡现象。
4.3 交叉分组下的频数分析
• 目的和基本任务
1、目的:交叉分组下的频数分析又称列联表分析。通 过前面的频数分析能够掌握单个变量的数据分布情况 ,在实际分析中,不仅要了解单个变量的分布特征, 还要分析多个变量不同取值下的分布,进而分析变量 之间的相互影响和关系。对于这种涉及两个或两个以 上变量分布情况的研究通常要利用交叉分组下的频数 分析来完成。
第四章
SPSS的基本统计分析
基本统计分析是统计分析的第一步,做好这第 一步是下面进行正确统计推断的先决条件,通过基 本统计分析,能够使分析者掌握数据的基本特征, 把握数据的总体分布形态。 Frequencies:频数分析过程,特色是产生频 数表(主要针对分类变量) Descriptives:数据描述过程,进行一般性的 统计描述(主要针对数值型变量) Crosstabs:多维频数分布交叉表分析(列联表 分析) Ratio statistics:比率分析
常见的刻画离散程度的描述统计量如下: (1)全距(Range):也称极差,是数据的最 大值(Maximum)与最小值(Minimum )之间的绝对离差。 (2)样本方差(Variance):也是表示变量 取值离散程度的统计量,是各变量值与算数平 均数离差平方的算术平均数。其计算公式为:
1 2 S ( xi x ) n 1 i 1
控制频数表输出的分 类数量。默认为10
Format 对话框
3、频数分布表格式(Format)的定义
(1)调整频数分布表中数据的输出顺序( Order by):频数分布表中的内容的输出顺序 可以按变量值的升序输出(Ascending values),按变量值的降序输出( Dscending counts),按频数的降序输 出( Descending counts)。
输出百分位数: 输出四分位数,显示 25%、50%、75%的百分 位数; 将数据平均分为所设定 的相等等份,可输入2— 100 的整数,如键入4则输 出第25、50、75百分位数 自定义百分位数,可输 入0—100 的整数。
集 中 趋 势 栏
离散趋势
分布形态栏
输出统计量对话框
设置频数表输出的格式 选择频数表中排 列顺序 按变量升序排 列,此为默认 按变量降序排 列 按变量各种取 值发生的频数的 升序排列 按变量各种取 值发生的频数的 降序排列 多变量框中可设定多 变量表格输出的格式
注:变量的计量尺度:
a 定类(Category Scale):只能计次 b 定序(Ordinal Scale):计次、排序 c 定距(Interval Scale):计次、排序、加减 d 定比(Ratio Scale):计次、排序、加减、乘除
(2)频数分析的第二个任务是绘制统计图
柱形图或条形图(Bar Chart):用宽度相同的条 形的高度或长短来表示频数分布变化的图形,适用 于定序和定类变量的分析。柱形图的纵坐标或横坐 标可以表示频数,也可以表示百分比。它们分为单 式图和复式图等形式。 饼图(Pie Chart):用圆形及圆内扇形的面积来 表示频数百分比变化的图形,以利于研究事物内在 结构组成等问题。扇形的面积可以表示频数,也可 以表示百分比。 直方图(Histograms):用矩形的面积来表示频 数分布变化的图形,适用于定距型变量的分析。也 可以在直方图上附加正态分布曲线,便于与正态分 布的比较
S .E.of .Mean
其中:

n

为总体标准差,n为样本单位数
2、刻画离散程度的描述统计量 离散程度是指一组数据远离其“中心值”的 程度。 如果数据都紧密地集中在“中心值”的周围 ,数据的离散程度较小,说明这个“中心值”对 数据的代表性好;相反,如果数据仅是比较松散 地分布在“中心值”的周围,数据的离散程度较 大,则此“中心值”说明数据特征是不具有代表 性的。
4.1 频数分析
• 频数分析的目的和基本任务
1、目的:基本统计分析往往从频数分析开始。通过频数分 析能够了解变量取值的状况,把握数据的分布特征,能够 反映出样本在一定程度上的代表性与可信性
2、基本任务 (1)频数分析的第一个基本任务是编制频数分布表。 频数(Frequency):即变量值落在某个区间(或某 个类别)中的次数 百分比(Percent):即各频数占总样本数的百分比 有效百分比(Valid Percent):即各频数占有效样本 数的百分比,这里有效样本数=总样本-缺失样本数 累计百分比(Cumulative Percent):即各百分比 逐级累加起来的结果。最终取值为100。
• 频数分析扩展功能的应用举例
利用住房状况调查数据进行频数分析,有 以下两个分析目标:

目标一:分析住房面积的分布情况。 目标二:对本市户口与外地户口家庭进行比较。
4.2 计算基本描述统计量
• 基本描述统计量
常见的基本描述统计量有三大类:
刻画集中趋势的统计量 刻画离中趋势的统计量 刻画分布形态的统计量
2
n
(3)样本标准差(Standard Deviation: Std Dev):表示变量取值距离均值的平均 离散程度的统计量。其计算公式为:
S
1 n 2 ( xi x ) n 1 i 1
标准差值越大,说明变量值之间的差异越 大,距均值这个“中心值”的离散趋势越大。
3、刻画分布形态的描述统计量 数据的分布形态主要指数据分布是否对称 ,偏斜程度如何,分布陡峭程度等。 刻画分布形态的统计量主要有两种: (1)偏度(Skewness):描述变量取值分布 形态对称性的统计量。其计算公式为:
分析:从分析住房面积是否有大量异常值入 手。假设人均住房面积服从正态分布,跟据3 原则,异常值通常为3个标准差范围之外的值, 可通过对数据的标准化处理来判断。标准化的数 学定义为:
xi x zi
• 通过标准化可以得到一系列新变量值,通常称为
标准化值或z分数。计算标准化值可以通过对话框 中的复选框save standardized values as variables来实现,并将结果保存在一个新变量 中。该变量的命名规则为字母z+原变量名的前七 个字符。 接下来可对新变量进行排序并浏览其标准化 值的取值情况,可以发现z分数值得绝对数大于3 的储户是存在的。对其分组为三组: z+原变量 名<-3, -3< z+原变量名<3, z+原变量名 >3并进行频数分析可以发现存款金额存在一定的 不均衡现象。
相关文档
最新文档