【数据库】 数据的编码、录入与整理

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

10
SPSS数据分析基本步骤
建立数据文件 定义数据文件结构
数据加工整理
录入、修改、保存数据
统计分析
解释分析结果
11
二、数据处理的基本概念
12
数据的编码、录入与整理
• 原理
– 是研究者利用SPSS进行统计分析的必要前提。 – 就是把通过问卷调查获得的资料转变为SPSS能够识别的数据文件 ,为各种统计分析做好准备。
31
变量定义的信息复制
• 如果有多个变量的类型相同,可以先定义一个变量,然后 把该变量定义的信息复制给新变量 • 操作步骤:
– 先定义一个变量 – 在该变量行号上单击右键,在快捷菜单中选择“Copy” – 选择同类型新变量所在行,单击右键,在快捷菜单中选择“Paste”
28
定义变量类型、宽度及小数位数
• 在“Type”下单击单元格,打开变量类型窗口,选择变 量类型 • 常用变量类型有:
– – – – 数值型(Numeric) 日期型(Date) 货币型(Dollar) 字符型(String)
29
定义变量标签和变量值标签
• 定义变量标签
– 在“Label”下单击单元格,输入变量标签 – SPSS允许变量标签长度为255字节
• • • • • • • • • • 变量名(Name):变量的名称 变量类型(Type):变量的类型 宽度(Width):存储变量值的最大值 小数位数(Decimals):变量为数值类型时,小数后的位数 变量标签(Label):对变量名的注释。光标在变量名上时,会显示该标签 变量值标签(Values):变量标签的取值 缺失值(Missing Values):定义缺失的值,例如,当定义99为缺失值时,当该 变量的值为99时,把它认为是缺失值 显示数据的列宽(Colums):与上面“宽度”不同,它只管显示 对齐方式 (Align):左对齐、右对齐、居中 量度类型(Measure):定比变量(Scale)、定序变量(Ordinal)、定类变量 (Nominal)。只用于统计制图时坐标轴变量的区分和SPSS决策树模块的变 量定义。
• 凡是用SPSS完成的计算和统计分析, 可以不必说明算法。
6
SPSS发展
• 1968年:斯坦福大学三位学生创建了SPSS,诞生了第一个用于大型机的 统计软件 • 1975年:在芝加哥成立SPSS总部 • 1984年:首先推出了世界上第一个统计分析软件微机版本SPSS/PC+, 并使其能很快地应用于自然科学、技术科学、社会科学的各个领域。 • 1992年:推出Windows版本 • 2000年:SPSS 11.0起,SPSS全称为“Statistical Product and Service Solutions”,即“统计产品和服务解决方案” 。 • 2009年: SPSS公司宣布重新包装旗下的SPSS产品线,定位为预测统计 分析软件(Predictive Analytics Software)PASW,包括四部分:
姓名 张三 李四 王五 赵六
性别 男 女 女 男
出生日期 87-1-1 88-6-30 88-8-18 88-12-24
专业编号 01 02 03 02
21
数据处理中的操作术语
• 样本(Sample)
– 是指具有共同属性的所有研究对象,如学生的所有信息 – 样本包含多个个案,在数据表格中表示为“n行”
• 定义变量值标签
– 变量值标签是对变量的每一可能取值进一步描述,当变量是定类 或定序变量时,非常有用。变量值标签系统默认为None – 在“Values”下单击单元格,打开变量值标签窗口,输入变量值 标签
30
定义缺失值
• 在“Missing”下单击单元格,打开缺失值窗口,输入缺失值
– No missing values:没有缺失值 – Discrete missing values:定义1~3个单一数为缺失值 – Range plus one optional discrete missing values:定义指定范围 为缺失值,同时指定另外一个不在这一范围的单一数为缺失值
– 统计分析、数据挖掘 、数据采集 、企业应用服务
• 2010年: IBM收购SPSS之后,各子产品名称统一加上IBM SPSS字样: – 统计分析产品、数据挖掘产品、数据采集产品、企业应用服务
7
SPSS发展
8
SPSS发展
9
SPSS基础内容
• • • • • • • 第7讲 SPSS数据的编码、录入与整理 第8讲 统计报告 第9讲 描述性统计 第10讲 均值比较 第11讲 散点图、相关系数 第12讲 回归概念、回归系数 第13讲 SPSS综述
• 变量(Variable)
– 是指问卷中每一个问题,数据库里字段,数据表格中表示为“一列”
• 量值(Value)
– 是指问卷中的答案,也称为观测值,在SPSS系统里,单元格中的数值 就是变量值
22
三、创建数据文件
23
数据处理的流程
建立数据文件
定义数据文件结构
数据加工整理
录入、修改、保存数据
统计分析
27
定义变量名
• 在定义变量窗口中“Name”下的单元格中输入变量名 • 变量名必须以字母开头,长度不超过8个 • SPSS保留的关键词不能作为变量名
– AND、OR、NOT、WITH、TO、BY、GT、GE、LT、LE、EQ 、NE、ALL等
• SPSS中允许使用中文变量名,但尽量不要使用,以免出 现兼容性问题
– 系统缺失值
• 指计算机默认的缺失方式,如输入数据空缺、输入非法字符等 • 通常把缺失值标记为“.”
19
缺失值处理方法
• 替代法:
– 采用统计命令或在相关统计功能中利用参数替代 – 在SPSS中,执行菜单命令“Transform →Replace Missing Values”来替代缺失值
• 剔出法:
4
5
(1)不感兴趣 (2)感兴趣 (3)非常感兴趣
6
您对学英语感到厌恶:
(1)不厌恶 (2)厌恶 (3)非常厌恶
14
数据问卷编码方案
变量名 第1题 第2题 第3题-1 第3题-2 第3题-3 第4题-工作 1-男 ;0-女 1-没上过学;2-小学;3-初中;4-高中;5-大专以上 1-相貌;2-文化水准;3-气质风度;4-志同道合;5-人品;6-家庭 条件;7-个人收入;8-其他 1-相貌;2-文化水准;3-气质风度;4-志同道合;5-人品;6-家庭 条件;7-个人收入;8-其他 1-相貌;2-文化水准;3-气质风度;4-志同道合;5-人品;6-家庭 条件;7-个人收入;8-其他 1-选;0-不选 编码 男 小学 文化水准 志同道合 人品 选 样例 1 2 2 4 5 1
• 如选项A、B、C计分为1、2、3 • 如选项A、B、C、D计分为1、2、3、4
• 编码示例中的第5、6题就是属于数值型编码
– 第5题是正向数值型(被选项的程度越高,分值越大) – 第6题是反向数值型(被选项的程度越高,分值越小)
变量名 第5题 第6题 A B C(A-1,B-2,C-3) A B C(A-3,B-2,C-1) 编码 A A 样例 1 3 16
编码类型(非数值型数据)
• 非数值型数据的编码
– 非数值型数据的编码,首先要确定编码规则,然后根据规则对变 量赋予分值。
• 双值型变量的编码
– 多采用“0、1”或“1、2”来赋值 – 如编码示例中的第1题
• 多值型变量的编码 • 通常对非数值型数据编码,主要起到分组的作用,不能进 行各种算术运算
变量名 第1题 第2题 1-男 ;0-女 1-没上过学;2-小学;3-初中;4-高中;5-大专以上 编码 男 小学 样例 1 2 17
4
SPSS软件应用行业
• SPSS软件是一款在很多行业的数据分析应用中久享盛名 的统计分析工具,是世界上最早的统计分析软件。
– – – – – – – – – 应用领域 经济学 教育学 商业 金融 营销研究行业 电子商务数据统计 政府机构 其它
5
SPSS的影响力
• 在国际学术界有一条不成文的规定:
解释分析结果
24
定义变量
• 启动SPSS后进入数据编辑窗口,显示为一个空文件,输 入数据前首先要定义变量 • 定义变量主要就是定义数据文件的结构
25
定义变量的方法
• 单击数据编辑窗口左下方的“Variable View”标签或双击 列的题头(Var),打开变量定义窗口,进行变量定义。
26
定义变量的内容
– 剔除有缺失值的题目或剔除有缺失值的整份问卷
20
数据处理中的操作术语
• 个案(Cases)
– 一个研究对象就是一个个案;一个个案就是一条记录;在数据表 格中表示为“一行” – 每一个个案记录的是一个研究对象各个属性的具体数值,如学生 信息(姓名、性别、年龄等)
字段
学生表
个案
学号 0604231 0604253 0605321 0606002
编码类型(多项选择题)
• 多项选择题的编码
– 多项选择题就是题目答案的选项是多选项
变量名 编码 1-相貌;2-文化水准;3-气质风 度;4-志同道合;5-人品;6-家 庭条件;7-个人收入;8-其他 1-相貌;2-文化水准;3-气质风 度;4-志同道合;5-人品;6-家 庭条件;7-个人收入;8-其他 1-相貌;2-文化水准;3-气质风 度;4-志同道合;5-人品;6-家 庭条件;7-个人收入;8-其他 1-选;0-不选 1-选;0-不选 1-选;0-不选 样例 文化 水准 志同 道合 人品 2
(1)没上过学 (2)小学 (3)初中 (4)高中 (5)大专以上
3
您想选择下列哪些择偶条件(任选三 项):
您购买房屋时,会考虑哪些因素(任 选): 您对心理学感兴趣:
(1)相貌 (2)文化水准 (3)气质风度 (4)志同道合 (5)人品 (6) 家庭条件 (7)个人收入 (8)其他
(1)离工作地点的远近 (2)小孩所就读的学校 (3)居家附近 的环境
第4题-学校
第4题-环境 第5题 第6题
1-选;0-不选
1-选;0-不选 A B C(A-1,B-2,C-3) A B C(A-3,B-2,C-1)
不选
选 A A
0
1 1 3 15
编码类型(数值型数据)
• 数值型数据的编码
– 数值型数据的编码就是根据调查问卷的评分标准对变量赋予分值 – 通常采用三点计分、四点计分和五点计分等方式进行评分
• 数据编码概念
– 数据编码是指把需要加工处理的数据库信息,用特定的数字来表 示的一种技术。 – 根据一定数据结构和目标的定性特征,将数据转换为代码或编码 字符,在数据传输中表示数据的组成,并作为传送、接受和处理 的一组规则和约定。
Байду номын сангаас
13
数据问卷量表
序号 调查内容 选项
1
2
您的性别:
你的文化程度:
(1)男 (2)女
• 限定多选项分类法
– 限定了一次最多可以选择项目的个数; – 不能直接对题目进行编码,必须先确定最 多选择,并给每个选项建立一个变量 – 如编码示例中的第3题
第3题-1
第3题-2
4
第3题-3
5
• 任意多项二分法
– 表示每一次可以任选几个选项; – 编码方法把每一个被选项作为一个变量来 定义,每个变量只能选择“1或0” – 如编码示例中的第4题
SPSS基础与Access数据库
第七讲 数据的编码、录入与整理
1
教师信息
     姓 名:郑戟明 电 话:67703855 E-mail:shift_zjm@163.com 办公室:学院楼B421 部 门:商务信息学院计算机教学部
2
一、SPSS简介
3
SPSS的名称
• 1968年美国斯坦福大学两名研究生研制,原名SPSS,英 文名称社会科学统计软件包(Statistical Package for the Social Sciences)首字母的缩写。 • 1994-1998年间陆续并购SYSTAT等公司,统计软件的3S 指的就是SPSS、SAS、SYSTAT • 2000年改名为“Statistical Product and Service Solutions”,即“统计产品与服务解决方案” • 2010年SPSS公司被IBM并购。
第4题-工 作 第4题-学 校 第4题-环 境
选 不选 选
1 0 1
18
缺失值的概念
• 什么是缺失值
– 缺失值是指在数据采集与整理过程中丢失的内容,往往会给统计 分析带来一些麻烦和误差。
• 缺失值类型
– 用户缺失值
• 在问卷调查中把不回答的选项当作缺失值来处理 • 缺失值可用研究者能识别的数字来表示如“0、9、99”
相关文档
最新文档