SPSS第二章

合集下载

第2章spss21教程完整版

9.
该工具是否可利用现有的数据和设备：选择一种数据挖掘工具，它
能利用现存的数据——或数据库中或文件中，也能与现有的分析和
可视化工具相兼容。你不会愿意因为不能利用现有的数据库而浪费时间和资源再新建一个。
10. 选择一种可发送一致的、高质的结果的工具：要得到准确的结果，
需利用在各种情形下都能很好工作的、适应性强的数据挖掘环境和各种数据的工具，而不是单一地为某一类型的数据或环境而设计的
2.
选择用于在商务理解和数据挖掘技术方面起到沟通作用的工具：确保工具
所用的步骤与数据挖掘的商务需要相匹配。
3.
确保工具可对现有的数据资源和格式进行操作：如果能选择一种能提取和
合并多来源、多格式数据，将会节省时间和金钱，并最大可能地得到可靠
结果的工具。这一点很重要，尤其是在数据挖掘过程的后期发现不得不从新的来源加入新的数据时。
工具。工具应该能管理任何可能有助于阐释商务问题的数据。
11. 工具的开发能力：选择一种能将结果合并入现有的和将来的操作应用中的工具，是很重要的。
12. 评估与工具相关的所有权潜在的成本。
SPSS Base
SPSS Base是一个服务于分析过程——计划、数据收集，数据获取和管理、分析、报告和开发的，有标准组件、紧密结合、全系列的产品线，也是数据挖掘程序的关键组件。首先，SPSS可以让你更快访问和分析大型数据，并且可以处
SPSS Clementine
Clementine是ISL（Integral Solutions Limited）公司开发的数据挖掘工具平台。 1999年，SPSS公司收购了ISL公司，对Clementine产品进行重新整合和开发，现在Clementine已经成为SPSS公司的又一亮点。 Clementine使你的企业在多方面受益。例如：可以改善客户获得和保持；提高客户的生命周期价值；识别并最小化风险和欺诈；缩短产品开发过程中质量维护的周期；支持科学研究。

SPSS教程第02章

第二章SPSS的数据管理第一节数据的输入2.1.1 变量的定义2.1.2 数据格式化2.1.3 数据的输入2.1.4 缺失值处理2.1.5 变量标签2.1.6 数据管理器列宽定义第二节数据的编辑2.2.1 数据的增删2.2.2 数据的整理2.2.3 数据的算术处理第三节数据文件的管理2.3.1 数据文件的调用2.3.2 数据文件的连接2.3.3 数据文件的保存统计分析离不开数据，因此数据管理是SPSS的重要组成部分。

详细了解SPSS的数据管理方法，将有助于用户提高工作效率。

SPSS的数据管理是借助于数据管理窗口和主窗口的File、Data、Transform等菜单完成的。

第一节数据的输入2.1.1 变量的定义先激活数据管理窗口，然后选Data菜单的Define Variable...命令项，弹出Define Variable对话框（见图1.1），在Variable Name:框内输入变量名，如本例为x1。

图1.1 变量定义对话框返回目录返回全书目录2.1.2 数据格式化在Define Variable对话框中点击Type...钮，弹出Define Variable Type对话框（如图1.2所示），用户可根据具体资料的属性对数据进行格式化。

Define Variable Type对话框中列出如下7种数据类型：图1.2 定义变量类型对话框1、Numeric：数值型，同时定义数值的宽度（Width），即整数部分+小数点+小数部分的位数，默认为8位；定义小数位数（Decimal Places），默认为2位。

2、Comma：加显逗号的数值型，即整数部分每3位数加一逗号，其余定义方式同数值型。

3、Dot：3位加点数值型，无论数值大小，均以整数形式显示，每3位加一小点（但不是小数点），可定义小数位置，但都显示0，且小数点用逗号表示。

如1.2345显示为 12.345,00（实际是12345E-4).4、Scientific notation：科学记数型，同时定义数值宽度（Width）和小数位数（Decimal Places），在数据管理窗口中以指数形式显示。

SPSS第2章

29
2.3 输入数据--注意事项
准确的数据是统计分析的基础。要严格控制数据录入错误。可以用EPIData、ACCESS、VFP等软件编制数据录入管理程序；由两个数据录入员独立录入，得两份独立的数据文件；再对两份数据文件进行校对；确认无误后，锁定数据文件。 SPSS可以打开这些软件生成的数据文件，然后保存为SPSS的数据文件，进行数据处理。
加入更改删除
20
2.2 变量设置--缺失值
缺失值
缺失值（Missing Value）在实际的科研工作中往往会因为某种原因使记录的数据失真，或没有测到，或没有记录。在SPSS中，字符型变量默认的缺失值为空格；数值型变量的失真数据与缺失数据，统称为“缺失值”。对缺失值在定义变量属性时应该给出明确的定义。各分析过程对缺失值的处理都有默认的方法，也可以由用户指定如何处理这些缺失值。
11
2.2 变量设置--类型
类型 SPSS变量有三种基本类型：数值型、字符型、日期型。数值型变量又按不同要求分为五种。共可定义八种类型的变量。系统默认的变量类型为标准数值型变量（Numeric）。每种类型的变量由系统给定默认长度。所谓长度指显示该变量值所占的字节数，也就是用字符数表示的显示宽度。小数点和其它定界符（／和E等）包括在总长度内。（12/31/2004，1.23E-03)
变量标签性别组别医院编号
疗效
变量值 1 2 1 2 1 2 3 1 2 3 4
变量值标签男女试验组对照组中日医院协和医院友谊医院痊愈显效好转无效
变量值标签
变量值标签是对变量所取的值附加的说明
19
2.2 变量设置--变量值标签
变量值标签

SPSS第2章

Graph
• Chart Builder • Interactive
– Bar, Dot, Line, Ribbons, Drop Lines, Area Chart, Pie (Simple, Clustered, Plotted ) – Boxplot, Error Bar – Histogram – Scatterplot
Number of Cylinders
真正的3-D图
标出误差均数可信区间的3-D图

条图图组
American
150
European
Horsepower Horsepower
100
50
0
Japanese
150
100
50
0 3 Cylinders 4 Cylinders 5 Cylinders 6 Cylinders 8 Cylinders

75

3 Cylinders 4 Cylinders 5 Cylinders 6 Cylinders 8 Cylinders
Number of Cylinders
线图
Country of Origin
150

American European Japanese
Dot/Lines show Means
用色彩标注的复式条图
150
3 4 5 6 8
Cylinder s Cylinder s Cylinder s Cylinder s Cylinder s
Hor sep owe r
100
50
0 American European Japanese

SPSS第2章

•数据选择的基本操作步骤如下：
• 1.打开要操作的数据文件 • 2. 在菜单上选择“数据（data）”菜单——选择“选择个案项（Select cases）”——呈现数据选择对话框 • 3. 数据选择对话框左面的框中呈现的是工作数据文件中的变量，可以从中选择一些变量作为被选择的变量 • 4.数据选择对话框右面的选择框中有五种不同的选择方式：
Bank3.sav。筛选出数据文件中年龄为20-30岁的男性员工的起始工作（salbeg）和现在工资（salnow）的数据，并将该文件保存在E盘中的文件夹中，起名为agg1.sav。（数据选择功能） 2、打开Bank.sav数据文件，另存为Bank3.sav。筛选出数据文件中年龄大于30岁的女性员工的起始工作（salbeg）和现在工资（salnow）的数据，并将该文件保存在E盘中的文件夹中，起名为agg2.sav。（数据选择功能）
2.2.1 单元值的查找
• 通常，已输入的数据有时需要修改，可直接用方向键或鼠标移动到要修改的单元，输入新数据。若数据文件较大，且知道要修改的数据单元的行号时，可通过查找特定行进行。 • 选择菜单“编辑”==> “ ==> “转到个案” ， • 或者 “转向个案”打开数据框
• 输入行号即可。
2.1.1 定义变量
• 该资料是定量资料，设计为成组设计，因此我们需要建立两个变量，一个变量代表血磷值，习惯上取名为X，另一个变量代表观察对象是健康人还是克山病人，习惯上取名为GROUP。
2.1.1 定义变量
现在，第一、第二列的名称均为深色显示，表明这两列已经被定义为变量，其余各列的名称仍为灰色的“var”，表示尚未使用。同样地，各行的标号也为灰色，表明现在还未输入过数据，即该数据集内没有记录。

spss学习第二章课件

SPSS将Excel工作表的第一行设定为SPSS的变量名称，【范围】文本框表示选定Excel文件导入SPSS的数据范围。
Step04：完成操作最后，单击【确定】按钮，数据即可导入成功。此时，
SPSS的数据浏览窗口中会出现相关的数据内容。
spss学习第二章
2.2 SPSS数据文件的属性
2.2.1变量名称
spss学习第二章
2.2.2变量类型
变量类型是指每个变量取值的类型。SPSS提供了三种基本数据类型：数值型、字符型和日期型。
spss学习第二章
2.2.3变量宽度
变量宽度是指在数据窗口中变量列所占的单元格的列宽度，一般用户采用系统默认选项即可。值得注意的是，如果变量宽度大于变量格式宽度，此时数据窗口中显示变量名的字符数不够，变量名将被截去尾部作不完全显示。被截去的部分用“*”号代替。
spss学习第二章
2.1.3利用数据库导入数据
打开软件后，现在菜单栏中的【文件】→【打开数据库】→【新建查询】命令，弹出【数据库向导】对话框。通过这个数据库向导窗口，用户可以选择需要打开的文件类型，并按照窗口上的提示进行相关操作。
spss学习第二章
SPSS提供了专门2.1.4从文本向导导入数据文件读取文本文件的功能。打开软件后，现在菜单栏中的【文件】
2.2.4变量小数
变量小数位数可以设置变量的小数位数，系统默认为两位。
2.2.5变量名标签
变量名标签增强变量名的可视性和统计分析结果的可读性。它可用中文，总长度可达120个字符。同时该属性可以省略，但建议最好给出变量名的标签。
spss学习第二章
2.2.6变量值标签
变量值标签是对变量的可能的取值的含义进行进一步说明。变量值标签特别对于数值型变量表示非数值型变量时尤其有用。定义和修改变量值标签，可以双击要修改值的单元格，在弹出的对话框的【值】文本框中输入变量值，在【标签】文本框中输入变量值标签，然后单击【添加】按钮将对应关系选入下边的白框中。同时，可以单击【改变】和【移动】按钮对已有的标签值进行修改和剔除。最后单击【确定】按钮返回主界面。

SPSS第二章

可以是任何字母、数字或_、@、#、$等符号。
变量最后一个字符不能是句号。变量名总长度不能超过64个字符（即32个汉字）。不能使用空白字符或其他特殊字符（如“！”、 “？”等）。

3
变量命名必须惟一，不能有两个相同的变
量名。在SPSS中不区分大小写。例如，HXH、hxh 或Hxh对SPSS而言，均为同一变量名称。图2定义变量类型对话框
也可以单击数据编辑窗口左下方的
“Variable View”标签或双击列的题头，显示变量定义视图窗口，然后单击要输出变量的行头，这时整个行被选中，然后单击鼠标右键，在其快捷菜单中选择“Clear”项。
2.5 数据文件的合并和分组
统计分析的首要任务是将数据输入到计
算机中。在数据量较大时，经常需要将一份大的数据文件分成几个小部分，分别由几个人输入，然后将若干个小的数据文件合并成一个大的数据文件。
第二章数据与数据文件
SPSS
统计分析
2.1
2.2 2.3 2.4 2.5
定义变量数据的输入与保存数据的编辑变量的操作数据文件的合并和分组
SPSS对数据的处理是以变量为前提
的，因此本章首先介绍定义变量、输入数据，再介绍保存数据、操作数据文件.
2.1 定义变量

启动SPSS后，出现如图2-1所示数据编辑窗口。由于目前还没有输入数据，因此

SPSS的保留字（Reserved Keywords）不能
作为变量的名称，如ALL、AND、WITH、OR等。
2．定义变量类型（TYPE）
单击Type相应单元中的按钮，弹出如图2-3所示的
对话框，在对话框中选择合适的变量类型并单击
“OK”按钮，即可定义变量类型。

SPSS课件02

SPSS数据文件的合并
当数据量较多时经常会把一份大的数据分成几个小的部分，有几个录入员分别录入，以期加快数据录入速度，但一份完整的数据被分别存储在几个数据文件中，如果要分析这份数据就必须首先将若干个小的数据文件合并起来。要实现两个或多个 SPSS数据文件的合并，应首先将其中的某个数据文件读入数据编辑窗口中，然后依次与其他数据文件合并。合并的方式有两种：纵向合并和横向合并。
输入要寻找观测量序号
2、按变量值定位： Edit+Find
• 将当前单元定位在某变量列的任何一个个案上 • 选择菜单 Edit---Find ，出现如下对话框 • 输入定位变量值并确认
于是， SPSS自动对指定的变量进行搜索，并将当前单元定位于定位变量值相等的第一个个案上。
插入和删除一个个案
String（字符型）
字符型也是SPSS较常用的数据类型，由一个字符串组成。如职工号码、姓名、地址等变量都可以定义为字符型数据。字符型数据的默认显示宽度为8个字符，不能够进行算术运算，并区分大小写字母。
Date（日期型）
日期型数据用来表示日期或者时间，如生日、成立日期等变量可以定义为日期型数据。显示格式：dd-mmm-yyyy；mm/dd/yyyy。
定义显示宽度
定义对齐方式
定义变量类型
变量值定义变量名标签定义度量尺度标签
定义变量类型对话框
定义变量值标签对话框
定义变量缺省值对话框
SPSS数据文件的建立练习
• 根据居民储蓄调查问卷，建立SPSS格式的数据文件。
SPSS数据的录入与编辑
1 录入定义好SPSS数据结构后，可将具体的数据输入到SPSS中，最终形成SPSS数据文件。 SPSS数据的录入操作在数据编辑窗口中的Data View卡片中实现。其操作方法与EXCEL基本类似，也是以电子表格的方式进行录入。录入带有变量值标签的数据时，可以在下拉按钮中的值标签列表中选择一个作为输入。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

们的目的是将这两个数据合并到一起。
• 增加变量有两种方式:
一是两个数据文件按观测量顺序一对一地横向合并；二是按关键变量合并，即要求两个数据文件必须有一个共同的关键变
量，两个数据文件中关键变量值相同的观测量合并为一个观测量。
1、打开数据a2-1.sav与数据a2-2.sav，我们来演示打开多个数据文件合并数据的方式。
“变量名称是否包含在文件的顶部？”选项：如果变量名称包含在文件的顶部选择“是”；没有选择“否”。本例中变量名称包含在文件顶部，选择“是”。
点击“下一步”
5、进入第3步。这里有三个选项需要设置
“第一个数据个案从哪个行号开始？”选项：该输入框用于选择数据读取的起始行，如果数据文件中包含标签，那么该数据文件的起始行就不是第一行。本例中由于第一行包含标签故输入 “2”。
– 变量名最多可包含 64 个字节，并且第一个字符必须是字母或字符 @、# 或 $ 之一。后续字符可以是字母、数字、非标点字符和句点 (.) 的任意组合。在双字节语言（例如中文）中，64 个字节通常意味着 32 个字符。
• 定义变量包括：变量名、变量类型、变量宽度、小数位数、变量标签、数值标签、缺失值、变量栏宽度、数据对齐方式、变量的度量标准。
– 度量标准，分为度量、有序和名义。这对应于统计上所讲的等距与等比、顺序、称名变量。
• 在SPSS的数据视图中，数据文件是按个案（行）和变量（列）组织的。
• 个案表示各个调查对象。
• 变量表示对调查中提出的每个问题的回答。
例子
• 问卷的组成： –指导语 –人口统计学资料 –各个分问卷
例子
在本例中，数据a2-1.sav与数据a2-2.sav的顺序是一一对应的，我们可以直接按照增加变量的第一种方式，直接点击确定合并；也可以按照关键变量来进行合并，在正式合并之前我们已经把数据按照关键变量进行升序排列。我们下面演示的是第二种按关键变量合并的方法。
• 用户可以在数据编辑器窗口进行数据输入、观察，编辑和统计分析等操作。
1、标题栏。显示窗口名称和编辑的数据文件名。如果当前数据编辑器中是一个新建的文件，其显示为“未标题1[数据集0]-SPSS Statistics数据编辑器”。
2、菜单栏包括“文件”、“编辑”、“视图”、“数据” 、“转换”、“分析”、“图形”、 “实用程序”，“附加内容”、“窗口”和“帮助”菜单，这此菜单可以实现编辑数据与变量、定义系统参数、设置显示方式、绘制图形、进行各项数据分析和查阅帮助等功能。
2、打开数据文件，开始数据的导入。
“从第一行数据读取变量名”复选框，如勾选该该复选框系统会将Excel 数据文件第一行作为变量名读入。 “工作表”下拉框：如果读取的Excel数据文件中有多个数据表用户可以在该下拉框中选择要读取的工作表。 “范围”输入框：和果用户希望读取Excel工作表中的部分数据可以在输入框中输入相应的数据范围。 “字符串列的最大宽度”输入框：该输入框用于设置字符串变量的最大宽度，直接输入自定义宽度即可。
导入完成后的效果图
第四节 SPSS中合并数据文件
可以使用两种不同的方式合并两个文件中的数据：
1、包含相同变量但不同个案的SPSS数据文件。 2、包含相同个案但不同变量的 SPSS 数据文件。
从菜单中选择：<数据>-<合并文件> 选择<添加个案>或<添加变量> ,如右图所示。
一、添加个案
• “添加个案”将数据与另外一个包含相同变量（列）但不同个案（行）的外部SPSS数据文件合并在一起。
• 在这一讲中，我们用到数据a1-1.sav与数据a1-2.sav。 • 数据a1-1.sav与数据a1-2.sav有相同的变量。我们的目的是
将这两个数据合并到一起。
1、首先打开数据a1-1.sav。从菜单中选择：<文件 >-<打开>-<数据>，打开数据a1-1.sav。
通过数据视图窗口我们发现数据 a1-1.sav中共有4个个案。我们要将数据a1-1.sav与未打开的数据 a1-2.sav进行合并。
“文本限定符是什么”选项：如果数据中有文本，需要在这里指定相应的标记符号。本例中没有，选择 “无”。
7、进入第五步
该对话框用于设置变量的名称和数据格式，用户“数据预览”表格中选择相应的变量，即可在“变量名称”输入框中输入变ห้องสมุดไป่ตู้名称在“数据格式”下拉列表中选择相应的数据格式。
8、进入第六步”。
3、常用工具按钮，显示自定义的SPSS常用工具。
4、单元格信息显示栏。该显示栏用于显示单元格位置和单元格的内容等相关信息。灰色显示的区域为提示区，显示单元格的位置，空白区域为数据编辑区，该区域内显示当前选中的单元格的内容，用户可以在该区域输入或修改相应的内容。
5、数据编辑显示区。在窗口的中部是编辑显示区，该区最左边列显示单元序列号，最上边一行显示变量名称选定的单儿格呈反色显示，其内容将出现在数据和单元格信息显示栏中，在此输入或修改单元格内容。
• 建立数据文件的步骤： –根据需要设置变量 –定义变量属性 –输入数据
第三节 SPSS其他数据格式的导入
• 在观实的分析应用中，许多数据并不是以SPSS数据格式保存的。因此我们需要能够读取这些不同格式的数据。SPSS 提供了与多种应用软们的接口，支持多种格式的数据文件格式。用户可以方便地将其他数据格式文件导入其中。
3、设置完成后，单击“确定”按钮读入Excel数据。结果如下图所示。
二、从文本文件中导入数据
1、从菜单中选择：<文件>-<打开>-<数据>，选择 Text (*.txt) 作为您要查看的文件类型。以SPSS自带的 demo.txt为例。demo.txt一般位于SPSS安装目录下的 Samples\Simplified Chinese文件夹中，笔者计算机中 SPSS是默认安装的，那么demo.txt的绝对位置就是
“如何表示个案”选项：是一行表示一个个案还是变量的特定编号表示个案。本例中是一行表示一个个案。
“您要导入多少个个案？”：是全部个案，还是前多少个个案，或者是随机导入指定数目的个案。本例中选择导入全部个案。
6、进入第四步。有两个选项需要设置。
“变量之间有哪些分隔符”选项：本例中变量之间是以“TAB”为分隔符的，因此选择“制表符”，如果变量之间是用空格、逗号或其他符号来分割的，可以做相应的选择。
– 变量类型,指定每个变量的数据类型。缺省情况下，假定所有新变量都为数值变量。可以使用“变量类型”来更改数据类型。
– 宽度（最大位数）。
– 小数位数，显示的小数位数。受宽度的限制。
– 变量标签，可以为描述性变量标签分配最多可达 256 个的字符（在双字节语言中则为 128 个字符)。变量标签可以包含空格和变量名称中所不允许的保留字符。
一、从Microsoft Excel 中读取数据
1、从菜单中选择：<文件>-<打开>-<数据>，选择 Excel (*.xls) 作为您要查看的文件类型。以SPSS自带的 demo.xls为例。demo.xls一般位于SPSS安装目录下的 Samples\Simplified Chinese文件夹中，笔者计算机中 SPSS是默认安装的，那么demo.xls的绝对位置就是 C:\Program Files\SPSSInc\Statistics17\Samples\Simplified Chinese。
从菜单中选择：<数据>-<合并文件>-<添加变量>，打开如下图所示的对话框。
• 在“打开的数据集”中选择“a2-2.sav[数据集2]”，然后点击“继续”。
2、在打开的如上图所示的对话框中，左栏“已排除的变量 ”列出的是两个文件中的同名变量。只有这样的变量一可以作为关键变量。对话框右侧“新的活动数据集”矩形框中，列出了可以在新工作数据文件中存在的变量。
如果用户希望将本次设置的文件格式作为规则保存，以便在导入类似的文本数据文件时无须重新没置，可以在“您要保存此文件格式以备以后使用吗"选项组中选择”是"，并输入文件的保存路径。
“您要粘贴语法吗？”如果用户选择“是”，那么单击完成后，会把相应的相应的语法命令粘贴到语法编辑器中。本例中选择“否”。单击“完成” 完成数据的导入。
– 值标签，您可以为每个变量值分配描述值标签。当您的数据文件使用数值代码表示非数值类别时（例如：代码 1 和 2 代表 male 和 female），此过程特别有用。
• 定义变量包括：变量名、变量类型、变量宽度、小数位数、变量标签、数值标签、缺失值、列宽、数据对齐方式、变量的度量标准。
– 缺失值将指定数据值定义为用户缺失值，并将其从大多数计算中排除。
C:\Program Files\SPSSInc\Statistics17\Samples\Simplified Chinese
2、打开数据文件，开始数据的导入
3、单击“打开”按钮，打开如下图所示的对话框
4、点击“下一步”。进入第二步，这里有两个选项要设置
“变量是如何排列的？”选项：如果用户文本文件数据中的变量是用特定符号分割开的，那么选择“分割”；如果每个变量的宽度是固定的，那么选择“固定宽度”。本例中的数据是用“TAB” 符号分割的，因此选择“分割”。
– 列宽，可以直接输入数字指定列宽。也可以通过单击并拖拽列边框来更改数据视图中的列宽。对于数值型变量，超过列宽的部分将以 “…”表示。
– 对齐方式，对齐控制着数据视图中数据值和/或值标签的显示。缺省对齐方式为数值变量在右边，字符串变量在左边。此设置只影响数据编辑器中的显示。有左对齐、右对齐、居中对齐三种方式。