第三章SPSS数据预处理
第三章 SPSS数据的预处理

第三章SPSS数据的预处理为什么查进行预处理在数据文件建立之后,通常还需要对分析的数据进行必要的预加工处理,这是数据分析过程中必不可少的一个关键步骤。
数据的预加工处理服务于数据分析和建模,主要包括以下几个问题:数据的排序变量计算数据选取计数分类汇总数据分组数据预处理的其他功能:转置、加权、数据拆分、缺失值处理、数据排秩、定义变量集。
3.1 数据的排序3.1.1数据排序的作用3.1.2 数据排序的基本操作将观测量按照统计分析的具体要求进行合理的分类整理是数据文件整理的重要工作。
仍以文件“研究生.sav”来说明,观测量分类整理的基本操作步骤如下:(1)执行Data→Sort Cases (观测量分类) 命令,打开Sort Cases对话框。
(2)从源变量列表框中选择一个或几个分类变量,单击中间的箭头按钮将它们移入Sort by框中,不妨称移入该框的变量为By变量。
选择By变量的意义是将按这个变量对观测量进行分类整理。
如果选择了几个By变量,从上至下依次称为第一By变量、第二By变量等。
分类整理将按每一个By变量层叠分类整理。
例如,选择了两个分类变量,sex为第一By变量,score为第二By变量,在sex的每一个分类中观测值将按score分类。
(3)在Sort Order栏中选择一种排序方式。
如对某分类变量选择Ascending (升序),则在Sort by框里该变量名之后用连线连接Ascending;如选择Descending (降序),该变量名连接Descending。
各分类变量的排序方式可以不同。
(4)以上选择确定后,单击OK,返回数据窗口,分类排序结果显示于数据窗口内。
此外,对字符串变量按分类次序大写字母将优先于小写的同一字母。
在我们引用的数本来有一个Order (序号) 变量,它的值为自然数顺序。
按照某些By变量分类后,要将文件恢复成原来的顺序,可以再用Order作为By变量执行观测量分类即可。
第三章 SPSS数据的预处理

SPSS
第六节 数据分组
• 数据分组就是根据统计研究的需要,将数 据按照某种标准重新划分为不同的组别。 分组目的
• 对数值型数据进行整理和粗略把握数据分布情况 • 在数据分组基础上对数据进行频数分析 • 实现数据的离散化处理
SPSS
SPSS的数据分组方法
单变量值分组 组距分组 分位数分组(略)
SPSS
SPSS
SPSS
SPSS
以学生成绩.sav为例
对两门课中成绩在优良以上 (分数大于等于80分)的计数
SPSS
SPSS
SPSS
第五节 分类汇总
• 分类汇总是按照某分类进行的汇总计算。
SPSS实现分类汇总需要明确:
• 按照哪个变量进行分类 • 对哪个变量进行汇总,并指定对哪些统计 量进行计算
SPSS
第三章 SPSS数据的预处理 数据的排序
变量计算 数据选取 计数 分类汇总
数据分组
数据预处理的其他功能
SPSS
第一节数据的排序
数据排序的目的 数据排序的基本操作 数据排序的应用举例
数据排序的目的
SPSS
SPSS数据排序是将数据编辑窗口按照某个 或多个指定变量的变量值升序或降序重新 排列。
SPSS
变量计算的目的
• 数据的转换处理 • 对数据的原有分布状态进行转换
SPSS变量计算后会得到一系列新变量,需注意:
变量计算针对所有个案的,每条个案都有自己的计算结果。
变量计算的结果应保存到一个指定变量中,该变量的数据 类型与计算结果的数据类型要一致。
SPSS算术表达式
SPSS • 由常量、变量、算术运算符、圆括号、函 数等组成的式子
SPSS
第三章 SPSS 数据的预处理

4) 条件语句编辑
单击 if 按钮,进入条件语句编辑框,有两个单选按钮。 a) Include all cases :对所有个案进行计算,默认选项。
b) Include if cases satisfied condition:仅对满足条件的
个案进行计算。选择这一单选按钮后,编辑框激活。 c) 在这里可以输入筛选条件。需要说明的是,每次只能 编辑一个筛选条件,不能同时编辑多个筛选条件。 对应工资上浮5%的条件是职称值等于1,高级工程师。 在编辑框输入表达式:zc=1
3) 数据排序例
对居民储蓄存款调查数据,利用排序的方法找出城镇居 民和农村居民一次性存款的最大值和最小值。 操作:户口,升序;存款额,升序。
13:33:33 4
2 变量的计算
在统计分析过程中,为了更有效的反映事物的本质,有
时需要对变量的数据进行加工整理,产生新变量和计算结果。
比如计算一个变量的倍数,计算几个变量的和、差,计 算变量的绝对值、平方等等。
13:33:33 19
(1) Filter out unselected cases
过滤掉没有选择的个案。这时未被选中的个案上打上斜 线作为删除标记。默认选项。
(2) Copy selected cases to a new dataset
将选择了的个案存储到一个新的数据集中,这时需要在
其后的文本框中输入要存储数据集的名字。
13:33:33
条件 zc=2 zc=3 zc=4 工程师 助理工程师 无职称
10
这时变量sfgz所在的列将不再有缺失值。
6) 计算方法的不足
变量的计算,无法一次将不同条件的表达式集中编写, 只能一个条件表达式运行一次。
13:33:33
第3章 SPSS数据的预处理

<(小于)、=(等于)、 ~=(不等于)、 >=(大于等于)、<=(小于等于)。
如:nl>32、sr<=700。
2.复合条件表达式
又称逻辑表达式,由逻辑运算符、括号和简单
条件表达式组成。 逻辑运算符:&(AND) 并且、│(OR) 或者、 ~(NOT) 非。Not运算符优先、其次and、最低 是or。但可以用括号改变运算次序。 如:(nl>32) and (sr<=700) (nl=32) | (sr<=700)
用分组变量值覆盖原变量(Into Same Variables) , 将分组结果存到一个新变量中(Into Different
Variables)。相应的操作也略有差异。通常采用第 二种策略
3.6.3 数据分组的应用举例
问题:分析被调查家庭人均住房面积的分布(住房状 况调查数据) 操作:
【transform】→【recode into different variables】 选择分组变量“人均面积”到【numeric variable】中 在【output variable】框中的【name】后输入存放分 组结果的变量名,如mj,并按【change】确认。还可 以在【label】后输入相应的变量名标签 根据分析要求在【old and new values】内逐个定义各 分组区间 如果仅对符合一定条件的个案分组,则单击If按钮并输 入SPSS条件表达式。否则,本步可略去
按照哪个变量(如上例中的学历、职业和年
龄段)进行分类
对哪个变量(如上例中的基本工资、消费金
额)进行汇总,并指定对汇总变量计算哪些 统计量(如上例中的平均工资、平均消费金 额和标准差)
第三章SPSS数据的预处理

由算术表达式、条件表达式、SPSS函数以及
SPSS变量名组成的式子。
变量计算
(5)SPSS条件表达式:由SPSS关系运算符、逻辑运算 符、SPSS函数以及SPSS变量名组成的式子。
关系运算符: > (大于)、<(小于)、=(等于)、 ~=(不等于)、>=(大于等于)、<=(小于等于)
如:nl>32、sr<=700
逻辑运算符:&(AND):并且、|(OR):或者、 ~(NOT):非
如:(nl>32) and (sr<=700) 如:(nl=32) | (sr<>700) 如: not xb=1
变量计算
(4) SPSS函数 算术函数 统计函数 分布函数 逻辑函数 字符串函数 缺失值函数 日期时间函数 其他函数
分类汇总
目标:分析各分组下样本的统计特征 手段: 按指定的分组变量值对样本分组 分别计算各组中汇总变量的基本统计量 例:对比男女职工的平均年龄和平均工资
年龄 40 35 20 奖金 1000 550 200
性别_1 男 女 年龄_1 30 35 奖金_1 600 550
性别 男 女 男
原始数据
按性别变量汇总数据
数据分组
目标:更好地了解连续型变量的分布特点 手段:组距分组 指定按哪个变量分组;定义分组区间(不重不漏); 指定存放分组结果的组标志变量 SPSS的区间 分组数,组距
职工工资的分组(850以下,851至900,901至950,951 至1000,1000以上)
变量计算的应用举例
数据选取
SPSS数据的预处理

Part 1:第三章 数据预处理
1.变量级别的数据管理 2.文件级别的数据管理(一) 3.文件级别的数据管理(二)
学习要求
学习要求
掌握变量计算、 分组合并等变量 级别的数据管理 方法
掌握记录排序、 数据汇总、数据 合并等文件级别 的数据管理方法
数据预处理的主要内容
数据预处理
❖(nl<=35)and not (zc<3)
❖ 优先级
3.3 变量计算——P51
❖ 函数:可以看做是功能体;我们告诉已知,函数给出结果 ❖ Mean函数:功能 计算平均数 ❖ Mean(语文,数学,英语) ❖ 常见函数
算数函数 统计函数:均值(mean),标准差(Sd),方差
(Variance) 与分布相关的函数 查找函数 字符函数 日期函数 缺失值函数 其他函数
…
3.3变量计算
❖ 对数据的转换处理 ❖ 针对每个个案,都有自己的结果 ❖ 算述表达式:由常量、变量、算数运算符、圆括
号和函数组成的式子。
工资*0.1 Mean(数学,语文,英语)-60
3.3 变量计算
❖ 条件表达式:由关系运算符、逻辑运算符、变量、 常量、算术表达式等组成;
❖其结果为真(1) 或者 假(0) ❖ 关系运算符: ❖ 逻辑运算符:与(且)&;或|;非~
1.在数据“概率论成绩”中生成新变量“评价”,当 成绩小于60分时为“不合格”, 60~70分之间时为“合格”, 70~80分时为“中等”, 80~90分时为“良好”, 90分以上时为“优秀”。
3.1 排序
变量的排序是指根据变量值的大小按升序或降序进行排 列,在数据 →排序个案/变量中实现
变量排序主对话框
第三章 SPSS数据预处理

按性别变量汇总数据
性别_1 男 女 年龄_1 30 35 奖金_1 600 550
原始数据
3.5 分类汇总
(2)菜单选项:
data -> aggregate
(3)说明:
多重分组时,变量名的选择顺序。 生成的新文件名默认为:aggr.sav。可修改。 生成的新变量名默认为原变量名后加_1。可修 改。 可以在新文件中存贮个分组个案数.
第三章 SPSS数据的预处理
3.1数据的排序
首先在数据窗中建立或读入一 个数据文件(职工数据.sav)。 按Data Sort Cases,弹出一 个排序对话框(以职称为主排序 变量降序,基本工资为第二排 序变量的升序进行多重排序)。 依据需要进行选择,然后单击 OK按纽即可。
3.1变量计算
(1)含义:
对所有或部分个案,计算若干个变量中有几个 变量的值落在指定的区域内,并将结果存入新 变量中。
(2)菜单选项:
transform -> count -> define value
产生计数变量
(3)指定区域的定义
Value:指定一个值 system-missing:系统缺失值 system-or user missing:系统或用户缺失值 range through:指定一个闭区域,给出最大和 最小值 range: lowest through n:最小值到某个给定 值 range: n through highest:某个给定值到最大值
3.7拆分数据文件
读取一个数据文件。 按Data Split Files顺序逐一单击鼠
标,打开Split Files对话框。 根据对数据的具体需要选择相应的 选项。 按Ok完成。
1.利用居民储蓄调查数据,将数据分成两个文件,一 个为存储常住地在“沿海或中心繁华城市”且本次存 款金额在1000~5000元之间的调查数据,二是按照简 单随机抽样选取的70%的样本数据。 2.利用居民储蓄调查数据,将其按常驻地升序、收入 水平升序、存款金额降序进行多重排序。 3.将学生成绩合并后数据,对每个学生计算得优课程 数和得良课程数,并按得优课程数降序排序。 4.学生成绩合并后数据,计算每个学生课程的平均分 和标准差,同时计算男生和女生各科成绩的平均分。 5.在居民储蓄调查数据中,如果认为“今年收入比去 年增加”“预计未来一两年收入仍会增加”的人是对 自己收入比较满意和乐观的人,请利用计数和数据筛 选功能找到这些人。
第三章 SPSS数据的预处理

为什么要进行数据的预处理
在数据文件建立之后,通常还需要对分析的数据进行必要的预加工 处理,这是数据分析过程中必不可少的一个关键步骤。 数据的预加工处理服务于数据分析和建模,主要包括以下几个方面
数据的排序 变量计算 数据选取 计数 分类汇总 数据分组 数据预处理的其他功能:转臵、加权、数据拆分、缺失值处理、数据排 秩、 定义变量集。
(4)如果希望对符合一定条件的个案进行变量计算,则 单击If按钮,出现下面的窗口,选择Include if case satisfies condition选项,然后输入条件表达式。对 不满足条件的个案,将不进行变量值计算。
3.2.6 变量计算的应用举例
1.利用职工基本情况数据,依据职称级别计算 实发工资。实发工资等于基本工资减去失业保 险,依据职称1至4等级分别上调5%,3%,2 %,1%。 分析: (1)(基本工资-失业保险)*系数 (2)选择“IF”按钮,对不同职称的职工分别计 算实发工资。
3.2.1 变量计算的目的
SPSS变量计算是在原有数据的基础上,根据用户 给出的SPSS算术表达式以及函数,对所有个案或 满足条件的部分个案,计算产生一系列新变量。 (1)变量计算是针对所有个案(或指定的部分 个案)的,每个个案都有自己的计算结果。 (2)变量计算的结果应保存到一个指定变量中, 该变量的数据类型应与计算结果的数据类型相一 致。 在变量计算过程中涉及到几个概念:SPSS算术 表达式、SPSS条件表达式和SPSS函数。
第三章 SPSS数据的预处理
第三章 数据的预处理
数据的排序 变量计算 数据选取 计数 分类汇总 数据分组 数据的预处理的其它功能
第三章 数据的预处理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
SPSS函数是事先编好并存储在SPSS软件中,能够实现某些特定计算任务的一段计算机程序。这些程序都有各自的名字称为函数名。执行这些程序段得到的计算结果称为函数值。
函数书写的具体形式为:函数名(参数)
SPSS有约180个内部函数,其中包括数学函数、逻辑函数、缺失值函数、字符串函数、日期函数等。函数表达方法是在函数名(即函数的几个关键字)后的括号中列出自变量和参数,不同的函数对自变量和参数的要求是不同的,调用之前必须明确对自变量和参数的要求,要给参数赋以恰当的数值。我们将SPSS函数列于书末的附录中供用户参考。下面仅就其中最大的一类数学函数(125多个)作简要介绍。
非中心分布函数பைடு நூலகம்
NPDF.rv_name(q,a…)
非中心概率密度函数(SPSSll.0新增)
表中rv_name代表随机变量名,CDF.rv_name(g,a,…)=P(ξ<q)=p,即对指定的自变量值q,它返回到服从相应概率分布的随机变量ξ<g的概率p。前缀为“IDF”的称为逆分布函数,即分布函数的反函数。离散型随机变量没有逆分布函数。前缀为“PDF”的称为概率函数(离散型随机变量)或概率密度函数。
中心的贝塔分布、χ2分布、Student t分布和F分布等。
各种概率函数中都依赖于数目不等的分布参数,不同分布的参数有不同的取值范围,
因此在调用分布函数时,必须给它们赋以恰当的数值。而且同名的累积分布函数、概率密
度函数、逆分布函数的参数取值是完全一致的。
形如RV.rv_name(a,…),括号内的“a,…”为分布参数,其取值与相应的累积分布函数的参数一致,功能是生成服从相应概率分布的独立观察值,即随机数。例如,对正态随机生成函数RV.NORMAL(a,b)来说,当指定了参数值以后可以产生一列按数据文件中观测量序号排列的服从正态分布的随机数。
3.2.3SPSS算术表达式
在Compute对话框中定义了计算表达式、目标函数,以及设置了计算条件后,单击主对话框的Paste按钮,系统随即打开Systax窗口,该窗口显示如下格式的命令语句。
(1)未设置计算条件情况下,COMPUTE命令语句:
COMPUTE变量名=计算表达式.
EXECUTE.
其中:
(3)在Sort Order栏中选择一种排序方式。如对某分类变量选择Ascending (升序),则在Sort by框里该变量名之后用连线连接Ascending;如选择Descending (降序),该变量名连接Descending。各分类变量的排序方式可以不同。
(4)以上选择确定后,单击OK,返回数据窗口,分类排序结果显示于数据窗口内。
(2)统计函数,即数理统计中的统计量,SPSS有7个统计函数,用于计算实变量的均值Mean(argl,arg2,…)、标准差Sd(argl,arg2,…)、变异系数CFVAR(argl,arg2,…)等。
(3)概率函数,SPSS中,给出了概率统计中几乎所有常见的随机变量的分布函数、密度函数、逆分布函数、随机数生成函数、非中心分布函数等。SPSS提供了数量约80个概率函数,它们以函数名的前缀来区分,各种前缀列于表3.3中。
第三章
为什么查进行预处理
在数据文件建立之后,通常还需要对分析的数据进行必要的预加工处理,这是数据分析过程中必不可少的一个关键步骤。数据的预加工处理服务于数据分析和建模,主要包括以下几个问题:
数据的排序
变量计算
数据选取
计数
分类汇总
数据分组
数据预处理的其他功能:转置、加权、数据拆分、缺失值处理、数据排秩、定义变量集。
单击Continue按钮对设定的条件表达式加以确认,返回Compute Variable主对话框。条件表达式的建立规则是:条件表达式中至少要包括一个关系运算符,也可以使用逻辑运算符,并且可以通过关系(或逻辑)运算符连接多个条件表达式。
各项选择确认后,单击OK。系统将根据表达式和条件计算新变量的值,并且将其结果显示到数据窗口的工作文件中
用Compute命令计算新变量步骤如下:
(1)打开数据文件,执行Transform(转换)→Compute命令,打开Compute Variable(计算变量)对话框。
(2)输入计算表达式。使用计算器板(Colculator Pad)或键盘将计算表达式输入到Numeric Expression (数值表达式)栏中,表达式中需要的SPSS函数可从Function (函数)栏中选择,通过双击鼠标左键或单击该栏上方的箭头按钮将选中者移入表达式栏。这时,栏中函数的自变量和参数用“?”提示,自变量必须选用当前工作文件中的变量,可以从源变量清单栏中选择,选中后用鼠标双击它,或单击栏边的箭头按钮输入表达式中。
SPSS的数学函数均为数值型函数。各函数的自变量可以是符合取值范围要求的数值表达式。数学函数(设arg表示自变量)中包括:
(1)算术函数,如三角和反三角函数、指数和对数函数、四舍五入函数RND(arg)、截尾函数TRUNC(arg)、求余函数MOD(arg,modulus)等。设自变量arg=-5.6,则四舍五入函数RND(—5.6)=—5、截尾函数TRUNC(—5.6)=—4。又如arg=75,则MOD(75,10)=5。
3.2
3.2.1变量计算的目的
略
3.2.2SPSS条件表达式
条件表达式(If..)及其对话框的使用。有时候,仅仅需要对一些符合某些特定条件的自变量的观察值来进行计算。例如,在记录某年级3班和6班学生成绩的数据文件中,我们只需要了解3班女同学的学习情况,需要计算她们各门功课平均成绩,即需选择满足条件“sex=0&class=3”(即三班女学生)的观测值来计算。当条件表达式“sex=0”和“class=3”同时为真时,计算平均成绩。对使表达式为假的或缺失的观测量就不计算这个值,对应于这些观测量,新变量的值为系统缺失值。
3.2.5变量计算的基本操作
统计中,建立的数据文件中包含的数据可能来自统计调查的原始测量结果,统计分析要通过研究变量之间关系来揭示现象的内在数量规律。例如,统计学中大量的相对指标的指标值是不可能通过实际测量得到的,而需要利用有联系的变量的比值计算出来,计算所得的数值就成为新变量的观测值。SPSS提供了强大的Compute (计算)功能,新变量的计算可以利用Compute对话框方便地求得。
3.
3.1.1数据排序的作用
3.1.2数据排序的基本操作
将观测量按照统计分析的具体要求进行合理的分类整理是数据文件整理的重要工作。仍以文件“研究生.sav”来说明,观测量分类整理的基本操作步骤如下:
(1)执行Data→Sort Cases (观测量分类)命令,打开Sort Cases对话框。
(2)从源变量列表框中选择一个或几个分类变量,单击中间的箭头按钮将它们移入Sort by框中,不妨称移入该框的变量为By变量。选择By变量的意义是将按这个变量对观测量进行分类整理。如果选择了几个By变量,从上至下依次称为第一By变量、第二By变量等。分类整理将按每一个By变量层叠分类整理。例如,选择了两个分类变量,sex为第一By变量,score为第二By变量,在sex的每一个分类中观测值将按score分类。
●Label:在框中给目标变量加注标签。
●Use expression as label:使用计算目标变量的表达式作为标签,这有利于统计分析时清晰地了解新变量的意义及运算关系。
在此对话框里,还可以对新变量的类型及宽度进行选择。选择确定后,单击Continue按钮,返回主对话框。
3.2.6变量计算的应用举例
SPSS的每个统计功能对话框中都设有Paste按钮,当对话框内选项设置确定以后,单击该按钮,系统按照设定的选项将需执行的命令以SPSS语法程序显示在Syntax窗口,在该窗口可以进一步地编辑,然后执行Run→All菜单命令,或者选择其中部分程序语句,执行Run→Select菜单命令。输出结果或显示于数据窗口,或显示于Output窗口。要深入了解SPSS语法命令,建议同学们在每次运行SPSS命令时,都遵照上述做法进行即可,本书将不再介绍其他语法命令。
统计学中利用已知变量计算新变量的值是经常进行的工作,下面我们应用SPSS提供的变量计算方法解决几个统计学中的问题。
此外,对字符串变量按分类次序大写字母将优先于小写的同一字母。在我们引用的数本来有一个Order (序号)变量,它的值为自然数顺序。按照某些By变量分类后,要将文件恢复成原来的顺序,可以再用Order作为By变量执行观测量分类即可。如果文件缺少这样一个变量,经过分类的文件将不能恢复原状。SPSS的许多系统数据文件中都包含一个标志观测量序号的“id'’(单词identity的头两个字母)变量,它就可以起到这个作用。
用鼠标将COMPUTE命令和EXECUTE命令选中,单击Syntax窗口工具条中的箭头按钮或执行RUN→ALL菜单命令,计算结果将显示到数据窗口。
掌握COMPUTE命令的结构后,需要执行变量计算命令时,可以直接打开Syntax窗口自行编写COMPUTE命令语句。而且允许并列多个COMPUTE命令语句,这样可以一次计算多个新变量值,大大地提高计算效率,
在Compute Variable对话框中单击If…按钮,打开If Cases条件对话框。
对话框上方有两个单选项:
●Include all cases:对所有观测量计算新变量值,相当于不设条件,为系统默认的选项。
●Include if cases satisfies condition:对满足条件的观测量计算新变量值。此时,源变量清单栏、表达式栏、函数栏同时被激活,将条件表达式输入表达式框。
COMPUTE average=(math十physical十chemical)/3.
COMPUTE average=mean(scorel to score5).
COMPUTE age=2002—birthday.
COMPUTE sales=quantity*price.