第三章-SPSS数据预处理(1)

合集下载

第三章 SPSS数据的预处理

第三章SPSS数据的预处理为什么查进行预处理在数据文件建立之后，通常还需要对分析的数据进行必要的预加工处理，这是数据分析过程中必不可少的一个关键步骤。

数据的预加工处理服务于数据分析和建模，主要包括以下几个问题：数据的排序变量计算数据选取计数分类汇总数据分组数据预处理的其他功能：转置、加权、数据拆分、缺失值处理、数据排秩、定义变量集。

3.1 数据的排序3.1.1数据排序的作用3.1.2 数据排序的基本操作将观测量按照统计分析的具体要求进行合理的分类整理是数据文件整理的重要工作。

仍以文件“研究生．sav”来说明，观测量分类整理的基本操作步骤如下：(1)执行Data→Sort Cases (观测量分类) 命令，打开Sort Cases对话框。

(2)从源变量列表框中选择一个或几个分类变量，单击中间的箭头按钮将它们移入Sort by框中，不妨称移入该框的变量为By变量。

选择By变量的意义是将按这个变量对观测量进行分类整理。

如果选择了几个By变量，从上至下依次称为第一By变量、第二By变量等。

分类整理将按每一个By变量层叠分类整理。

例如，选择了两个分类变量，sex为第一By变量，score为第二By变量，在sex的每一个分类中观测值将按score分类。

(3)在Sort Order栏中选择一种排序方式。

如对某分类变量选择Ascending (升序)，则在Sort by框里该变量名之后用连线连接Ascending；如选择Descending (降序)，该变量名连接Descending。

各分类变量的排序方式可以不同。

(4)以上选择确定后，单击OK，返回数据窗口，分类排序结果显示于数据窗口内。

此外，对字符串变量按分类次序大写字母将优先于小写的同一字母。

在我们引用的数本来有一个Order (序号) 变量，它的值为自然数顺序。

按照某些By变量分类后，要将文件恢复成原来的顺序，可以再用Order作为By变量执行观测量分类即可。

第三章-SPSS数据预处理(1)

数据选取的方法
按指定条件选取
随机选取选取某一区域内的样本通过筛选变量选取
诚信求是，笃学致公
3.3 数据选取
数据选取的基本步骤
选择菜单【数据->选择个案】；若使用全部个案，选中【全部个案（A）】否则可按其他方式选择部分个案。
练习：基本知识点统计.sav
（1）选择“金融学院”学生的数据作为待分析对象；（2）随机选择 50%的个案作为待分析对象。
SPSS算术表达式的操作步骤
选择菜单【转换->计算变量】；在【数字表达式（E）】输入表达式；
在【目标变量（T）】存放计算结果的变量，可以是新变量，也可以覆盖已有变量。
若希望对符合一定条件个案计算，单击【如果（I）】，选择【如果个案满足条件则包括（F）选项】，输入条件表达式。
若指定存放计算结果的变量为新变量，SPSS会自动创建；若变量已存在，则会覆盖原来旧值。
诚信求是，笃学致公
3.2 变量计算
（1）SPSS算术表达式
由常量、变量、算术运算符、圆括号、函数等组成的式子；运算符主要包括： +、-、*、/、**(乘方）；
操作对象的数据类型是数值型；
在同一算术表达式中的常量及变量的数据类型应该一致，否则无法计算。
诚信求是，笃学致公
3.2 变量计算
依次指定第二、第三等排序变量及相应排序顺序。
诚信求是，笃学致公
3.2 变量计算
变量计算的目的
派生新变量：根据职工的基本工资、失业保险和奖金派生变量“实际月收入”；变换数据的原有分布：对非正态变量的对数变换、对时间序列平稳处理；
变量计算的相关概念
SPSS算术表达式 SPSS条件表达式 SPSS函数

第3章 SPSS数据的预处理(上机1)

第三章第三章spssspss数据的预处理数据的预处理上机上机11上机作业上机作业2利用前面所做居民储蓄调查数据的数据将其按常住地升序收入水平升序存款金额降序进行多重排序
第三章 SPSS数据的预处理（上机1）
上机作业

1、实践SPSS数据的排序、计算与选取。 2、利用前面所做“居民储蓄调查数据”的数据，将其按常住地(升序)、收入水平(升序)、存款金额 (降序)进行多重排序。 3、利用前面所做“居民储蓄调查数据”的数据，采用SPSS数据筛选功能将数据分成两份文件。其中，第一份数据文件为存储常住地“沿海或中心繁华城市”且本次存款金额在1000~5000元之间的调查数据；第二份数据文件是按照简单随机抽样所选取的70%的样本数据。 4、利用前面所做“学生成绩”合并数据，计算每个学生课程的平均分和标准差同时计算男生和女生各科成绩的平均分。

第三章 SPSS数据的预处理

SPSS
第六节数据分组
• 数据分组就是根据统计研究的需要，将数据按照某种标准重新划分为不同的组别。分组目的
• 对数值型数据进行整理和粗略把握数据分布情况 • 在数据分组基础上对数据进行频数分析 • 实现数据的离散化处理
SPSS
SPSS的数据分组方法
单变量值分组组距分组分位数分组（略）
SPSS
SPSS
SPSS
SPSS
以学生成绩.sav为例
对两门课中成绩在优良以上（分数大于等于80分）的计数
SPSS
SPSS
SPSS
第五节分类汇总
• 分类汇总是按照某分类进行的汇总计算。
SPSS实现分类汇总需要明确：
• 按照哪个变量进行分类 • 对哪个变量进行汇总，并指定对哪些统计量进行计算
SPSS
第三章 SPSS数据的预处理数据的排序
变量计算数据选取计数分类汇总
数据分组
数据预处理的其他功能
SPSS
第一节数据的排序
数据排序的目的数据排序的基本操作数据排序的应用举例
数据排序的目的
SPSS
SPSS数据排序是将数据编辑窗口按照某个或多个指定变量的变量值升序或降序重新排列。
SPSS
变量计算的目的
• 数据的转换处理 • 对数据的原有分布状态进行转换
SPSS变量计算后会得到一系列新变量，需注意：
变量计算针对所有个案的，每条个案都有自己的计算结果。
变量计算的结果应保存到一个指定变量中，该变量的数据类型与计算结果的数据类型要一致。
SPSS算术表达式
SPSS • 由常量、变量、算术运算符、圆括号、函数等组成的式子
SPSS

第三章 SPSS 数据的预处理

4) 条件语句编辑
单击 if 按钮，进入条件语句编辑框，有两个单选按钮。 a) Include all cases ：对所有个案进行计算，默认选项。
b) Include if cases satisfied condition：仅对满足条件的
个案进行计算。选择这一单选按钮后，编辑框激活。 c) 在这里可以输入筛选条件。需要说明的是，每次只能编辑一个筛选条件，不能同时编辑多个筛选条件。对应工资上浮5%的条件是职称值等于1，高级工程师。在编辑框输入表达式：zc=1
3) 数据排序例
对居民储蓄存款调查数据，利用排序的方法找出城镇居民和农村居民一次性存款的最大值和最小值。操作：户口，升序；存款额，升序。
13:33:33 4
2 变量的计算
在统计分析过程中，为了更有效的反映事物的本质，有
时需要对变量的数据进行加工整理,产生新变量和计算结果。
比如计算一个变量的倍数，计算几个变量的和、差，计算变量的绝对值、平方等等。
13:33:33 19
(1) Filter out unselected cases
过滤掉没有选择的个案。这时未被选中的个案上打上斜线作为删除标记。默认选项。
(2) Copy selected cases to a new dataset
将选择了的个案存储到一个新的数据集中，这时需要在
其后的文本框中输入要存储数据集的名字。
13:33:33
条件 zc=2 zc=3 zc=4 工程师助理工程师无职称
10
这时变量sfgz所在的列将不再有缺失值。
6) 计算方法的不足
变量的计算，无法一次将不同条件的表达式集中编写，只能一个条件表达式运行一次。
13:33:33

第3章 SPSS数据的预处理

由关系运算符、变量、常量以及算术表达式组成的式子。系运算符: > (大于)、
<(小于)、=(等于)、 ~=(不等于)、 >=(大于等于)、<=(小于等于)。
如：nl>32、sr<=700。
2.复合条件表达式
又称逻辑表达式，由逻辑运算符、括号和简单
条件表达式组成。逻辑运算符:&(AND) 并且、│(OR) 或者、 ~(NOT) 非。Not运算符优先、其次and、最低是or。但可以用括号改变运算次序。如：(nl>32) and (sr<=700) (nl=32) | (sr<=700)
用分组变量值覆盖原变量（Into Same Variables），将分组结果存到一个新变量中（Into Different
Variables）。相应的操作也略有差异。通常采用第二种策略
3.6.3 数据分组的应用举例
问题：分析被调查家庭人均住房面积的分布(住房状况调查数据) 操作：
【transform】→【recode into different variables】选择分组变量“人均面积”到【numeric variable】中在【output variable】框中的【name】后输入存放分组结果的变量名，如mj，并按【change】确认。还可以在【label】后输入相应的变量名标签根据分析要求在【old and new values】内逐个定义各分组区间如果仅对符合一定条件的个案分组，则单击If按钮并输入SPSS条件表达式。否则，本步可略去
按照哪个变量（如上例中的学历、职业和年
龄段）进行分类
对哪个变量（如上例中的基本工资、消费金
额）进行汇总，并指定对汇总变量计算哪些统计量（如上例中的平均工资、平均消费金额和标准差)

第三章 SPSS数据预处理

按性别变量汇总数据
性别_1 男女年龄_1 30 35 奖金_1 600 550
原始数据
3.5 分类汇总
(2)菜单选项:
data -> aggregate
(3)说明:
多重分组时，变量名的选择顺序。生成的新文件名默认为:aggr.sav。可修改。生成的新变量名默认为原变量名后加_1。可修改。可以在新文件中存贮个分组个案数.
第三章 SPSS数据的预处理
3.1数据的排序
首先在数据窗中建立或读入一个数据文件（职工数据.sav）。按Data Sort Cases，弹出一个排序对话框(以职称为主排序变量降序，基本工资为第二排序变量的升序进行多重排序)。依据需要进行选择，然后单击 OK按纽即可。
3.1变量计算
(1)含义:
对所有或部分个案，计算若干个变量中有几个变量的值落在指定的区域内，并将结果存入新变量中。
(2)菜单选项:
transform -> count -> define value
产生计数变量
(3)指定区域的定义
Value:指定一个值 system-missing:系统缺失值 system-or user missing:系统或用户缺失值 range through:指定一个闭区域，给出最大和最小值 range: lowest through n:最小值到某个给定值 range: n through highest:某个给定值到最大值
3.7拆分数据文件
读取一个数据文件。按Data Split Files顺序逐一单击鼠
标，打开Split Files对话框。根据对数据的具体需要选择相应的选项。按Ok完成。
1.利用居民储蓄调查数据，将数据分成两个文件，一个为存储常住地在“沿海或中心繁华城市”且本次存款金额在1000~5000元之间的调查数据，二是按照简单随机抽样选取的70%的样本数据。 2.利用居民储蓄调查数据，将其按常驻地升序、收入水平升序、存款金额降序进行多重排序。 3.将学生成绩合并后数据，对每个学生计算得优课程数和得良课程数，并按得优课程数降序排序。 4.学生成绩合并后数据，计算每个学生课程的平均分和标准差，同时计算男生和女生各科成绩的平均分。 5.在居民储蓄调查数据中，如果认为“今年收入比去年增加”“预计未来一两年收入仍会增加”的人是对自己收入比较满意和乐观的人，请利用计数和数据筛选功能找到这些人。

第3 章 SPSS数据的预处理

二、计数的应用举例利用住房调查数据，分析被调查家庭中有多少比例的家庭对目前的住房满意且近几年不准备购买住房。 “住房满意”变量中，取值1为表示满意； “未来三年”，取值1表示不准备购买住房步骤： 1.选择菜单：[转换T]—[对个案内的值计数 O] 出现如下菜单

2.选择参与计数的变量到[数字变量V]框中 3.在[目标变量T]框中输入存放计数结果的变量名，并在[目标标签]框中输入变量名标签

二、数据选取的应用举例从住房状况调查数据中选取：希望仅对具有外地户口的家庭状况进行分析希望对全部样本中的5%的个案进行分析步骤： 1.选择菜单：[数据D]—[选择个案] 2.在[选择]框中选择抽样方法。[全部个案]表示全部选中，第一种抽样方案应选择“如果条件满足”，第二种方案应选择“随机个案样本”项下的“大约”项，并输入比例数5 3.指定对未选中个案的处理方式。其中，过滤掉未选定的个案F，表示系统自动增加一个变量filter_$，未被选中的个案号码变量值取0,选中的取值为1；删除未选定的个案表示未选中的个案被删除；[将选定个案复制到新数据集]，表示将筛选出的个案复制到一个新的数据编辑窗口中，应在[数据集名称]后输入新数据文件的名称。
第1节数据的排序

ቤተ መጻሕፍቲ ባይዱ

排序是将数据编辑窗口的数据按照某个或多个指定变量的变量值升序或降序排列。排序变量单值排序多重排序主排序变量／第二排序变量／。。。一、数据排序的目的便于浏览快捷找到最大值和最小值快捷发现异常值
二、排序的步骤： 1.选择菜单[数据D]—[排序个案] 2.指定主排序变量到[排序依据]框中，并选择[排列顺序]框中的选框，[升序A]表示从小到大排，[降序D]表示从大到小排。 3.如果多重排序，还要依次指定第二、第三排序变量及相应规则

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

练习：
（3）计算身高大于160，“计算机学院”学生的体质指数；
诚信求是，笃学致公
3.2 变量计算
（3）SPSS函数
算术函数
函数 abs(numbexpr) Rnd(numbexpr) Trunc(numbexpr) sqrt(numbexpr) 说明绝对值函数四舍五入函数取整函数平方根函数范例（x=2.6，y=3） ABS(y-x)=0.4 RND(x)=3 TRUNC(x)=2 SQRT(y)=1.71
3.2 变量计算
（3）SPSS函数
字符串函数
函数
Concat(strexpr,strexpr) Index(s1,s2) 范例 CONCAT(th,is)=this INDEX(‘this is’,’is’)=3
说明
将自变量连成一个新自变量 s2在s1 中第一次出现的位置自变量 s 所含文字的个数（包括特殊字符和空格）自变量 s 中的大写字母改为小写字母将自变量 s 中的小写字母改为大写字母
诚信求是，笃学致公
3.4 计数
SPSS实现计数的关键步骤
指定哪些变量参与计数，计数结果存放在哪个新变量中指定计数区间：（☆☆）单个变量值系统缺失值系统缺失值或用户缺失值给定最大值和最小值区间大于等于某个指定值的区间小于等于某个指定值的区间
诚信求是，笃学致公
数据选取的方法
按指定条件选取
随机选取选取某一区域内的样本通过筛选变量选取
诚信求是，笃学致公
3.3 数据选取
数据选取的基本步骤
选择菜单【数据->选择个案】；若使用全部个案，选中【全部个案（A）】否则可按其他方式选择部分个案。
练习：基本知识点统计.sav
（1）选择“金融学院”学生的数据作为待分析对象；（2）随机选择 50%的个案作为待分析对象。
练习：计算
体质指数（BMI）=体重（kg）÷身高^2（m）
（1）将身高单位转换为m （2）计算BMI。
诚信求是，笃学致公
3.2 变量计算
（2）SPSS条件表达式
简单条件表达式 >、 <、=、~=（不等于）、>=、<=
复合条件表达式
由逻辑运算符（NOT>AND>OR）、圆括号、简单条件表达式组成
3.2 变量计算
（3）SPSS函数
统计函数
函数
Mean(numexpr,numexpr,…) Min(value, value,…) 范例(X1=2,X2=5,X3=8) MEAN(X1,X2,X3)=5 MIN(X1,X2,X3)=1
说明
自变量的平均值自变量的最小值
Max(value, value,…)
将文件保存成 “.sav”格式文件，文件名为 “姓名+侠客行.sav”。
诚信求是，笃学致公
3.3 数据选取
根据数据分析需要，从已收集的大批量数据中按照一定的规则抽取部分数据参与分析。
数据选取的目的
提高数据分析的效率：当样本量较大时，选择部分样本代表总体。验证模型的需要：用部分数据构建模型，剩余数据验证模型的效能。（一般用于分类或预测等任务中）
诚信求是，笃学致公
SPSS 软件应用实验
诚信求是，笃学致公
推荐参考书

SPSS统计分析方法及应用（第4版）
薛薇著，电子工业出版社。

SPSS22.0统计分析应用教程，冯岩松著，清华大学出版社。

SPSS统计分析基础教程（第二版），
张文彤、邝春伟著，高等教育出版
社。

SPSS统计分析方法及应用实验教程，徐秋艳著，中国水利水电出版社。
SPSS的分位数基本步骤
选择菜单【转换->可视分箱比】；将分组变量选择到【要分箱的变量（B）】框中，单击继续；单击【生成分割点】按钮进行分隔。
练习：学生期末成绩.sav
（1）按“数学”对数据进行分位数分隔，并将新变量命名为“按数学成绩分位数分组”。
诚信求是，笃学致公
SPSS基本统计分析
将变量 s 前的字符空格删掉
将变量 s 尾部的字符char删掉 Rtrim(s,char)
诚信求是，笃学致公
3.2 变量计算
（3）SPSS函数随堂作业：
将文本文件“侠客行”导入SPSS，并以“，”将句子三个变量; 将前两个变量对应的字符串连接起来，形成上句；并将原来三个变量整理成两个变量，分别命名为“上句”、“下句”；将变量中的“--”、“ ”、“@”等无用符号剔除；求字符串“五岳”在变量“下句”中出现的位置
依次指定第二、第三等排序变量及相应排序顺序。
诚信求是，笃学致公
3.2 变量计算
变量计算的目的
派生新变量：根据职工的基本工资、失业保险和奖金派生变量“实际月收入”；变换数据的原有分布：对非正态变量的对数SS算术表达式 SPSS条件表达式 SPSS函数
计数的基本步骤
选择菜单【转换->对个案内的值计数】；选择参与计数的变量到【变量（V）】框中；单击【定义值【V】】定义计数区间，通过添加、更高、删除按钮完成计数区间的增删改；
练习：基本知识点统计.sav
（1）对“金融学院”的个案计数，并将变量命名为“金融学院”；（2）对 “方差分析”变量中1-2分的个案计数，并将变量命名为“不掌握”。
主动分类变量到【分组变量（B）】框中；
指定汇总变量到【变量摘要（S）】框中。单击【函数（F）】按钮指定对汇总变量计算哪些统计量；指定将分类汇总结果保存到何处；单击【变量名与标签（N）】按钮重新指定结果文件中的变量名。
练习：基本知识点统计.sav
（1）按“学院”对数据进行分类汇总，并将新数据集命名为“按学院汇总”；（2）对所有变量分类计算均值，观察分析不同学院在各知识点上的掌握情况。
分位数分组：由分位数决定分组区间。
诚信求是，笃学致公
3.6 数据分组
SPSS的组距分组基本步骤
选择菜单【转换->重新编码为相同变量】；将分组变量选择到【数字变量（V）】框中；单击【旧值和新值（O）】按钮进行分组区间定义。
选择菜单【转换->重新编码为不同变量】；
将分组变量选择到【数字变量（V）->输出变量】框中；在【名称】后输入存放分组结果的变量名，并单击【更改】确认；
• 频数分析 • 计算基本描述统计量 • 交叉分组下的频数分析
诚信求是，笃学致公
小结
27
诚信求是，笃学致公
谢谢！
黄佳佳 haungjj@
诚信求是，笃学致公
3.6 数据分组
数据分析就是根据统计研究的需要，将数据按照某种标准重新划分为不同的组别。在数据分组基础上进行频数分析，能够概况和体现数据的分布特征。
SPSS数据分组方法
单变量值分组：将每个变量值作为一组，适用于离散值且样本量较小的情况。组距分组：将变量依次划分为若干个区间，并将一个区间的变量值作为一组。
诚信求是，笃学致公
3.5 分类汇总
分类汇总是按照某分类分别对数据进行计算。
SPSS实现数据汇总的关键步骤
按照哪个变量（如学院）进行分类；对哪个变量（如t统计、聚类分析）进行汇总，并指定对汇总变量计算哪些统计量，如方差、平均值等。
诚信求是，笃学致公
3.5 分类汇总
数据汇总的基本步骤
选择菜单【数据->分类汇总】；
诚信求是，笃学致公
课程内容
1 • 了解数据预处理的相关功能 2 • 掌握SPSS数据排序、计数、分组 3 • 理解数据变量计算
4
5

3
诚信求是，笃学致公
SPSS数据预处理
• 数据排序 • 变量计算 • 数据选取 • 计数 • 分类汇总 • 数据分组
诚信求是，笃学致公
3.1 数据排序
Sum(numexpr,numexpr,…) Sd(numexpr,numexpr,…) Variance(numexpr,numexpr,…) Cfvar(numexpr,numexpr,…)
自变量的最大值
求和求标准差求方差求变异系数
MAX(X1,X2,X3)=8
SUM(X1,X2,X3)=15 SD(X1,X2,X3)=3 VAR(X1,X2,X3)=9 CFVAR(X1,X2,X3)=0.6
诚信求是，笃学致公
3.2 变量计算
（3）SPSS函数
缺失值函数
函数
Missing(variable) 范例 MISSING(X1)=1 MISSING(X2)=1 MISSING(X3)=0 SYSMIS(X1)=0 SYSMIS(X2)=1 SYSMIS(X3)=0 NMISS(X1,X2,X3)=2 NVALID(X1,X2,X3)=1 VALUE(X1)=X1
SPSS算术表达式的操作步骤
选择菜单【转换->计算变量】；在【数字表达式（E）】输入表达式；
在【目标变量（T）】存放计算结果的变量，可以是新变量，也可以覆盖已有变量。
若希望对符合一定条件个案计算，单击【如果（I）】，选择【如果个案满足条件则包括（F）选项】，输入条件表达式。
若指定存放计算结果的变量为新变量，SPSS会自动创建；若变量已存在，则会覆盖原来旧值。
诚信求是，笃学致公
3.2 变量计算
（1）SPSS算术表达式
由常量、变量、算术运算符、圆括号、函数等组成的式子；运算符主要包括： +、-、*、/、**(乘方）；
操作对象的数据类型是数值型；
在同一算术表达式中的常量及变量的数据类型应该一致，否则无法计算。
诚信求是，笃学致公
3.2 变量计算