SPSS 第03章 数据的描述
spss第3章

3.9 数据文件求转置
转置改变数据的结构,行列互换
打开【Transpose】对话框:【Data】 【Transpose】
选定转置变量:将源变量表列中的变量移至 【Variable】框中
选定哪个变量为新文件的变量名,如果不选,则 系统自动定为var0001 var0002等
转置时应注意变量的数据类型
第三章数据处理
第三章 数据处理
【Transform】【Rank cases】生成秩变量
【Compute】计算赋值 【Count】计数赋值 【Recode】条件赋值 【Automatic Record】自动赋值
变量 操作 产生 新变量
【Data】【Sort】排序
【Select cases】抽样 【Weight Cases】加权
选择求秩方法:按【Rank Type】按钮
3.1生成秩分变量
Rank Type
Rank. 生成变量为秩分变量。 Savage score. 新变量按指数分布,由负到正,均
值为0。 Fractional rank. 新变量值为秩分数除以有效case
的权重之和。
Fractional rank as percent. 新变量是Fractional rank的百分数。
操作将改变文件中样本的顺序
3.7 样本抽样
样本抽样:选择所需样本 P59 【Data】【Select cases】,打开对话框
选择抽样的方式: 全选: 系统默认方式--(All cases) 条件选择抽样:选择【If condition is satisfied】 【If】按钮设置条件 生成过滤变量 随机抽样: 选择【Random sample of cases】 按【Sample】按钮 生成过滤变量 指定抽样: 选择【Base on time or case range】 按【Range】按钮 过滤抽样: 以某一个变量为过滤变量,其值不为 0被选中,0为未选中.
SPSS 教程 第三章 基本分析

描述性统计分析(Descriptive Statistics)统计分析往往是从了解数据的基本特征开始的。
描述数据分布特征的统计量可分为两类:一类表示数量的中心位置,另一类表示数量的变异程度(或称离散程度)。
两者相互补充,共同反映数据的全貌。
这些内容可以通过SPSS中的“Descriptive Statistics”菜单中的过程来完成。
1 频数分析 (Descriptive Statistics - Frequencies)频数分布分析主要通过频数分布表、条形图和直方图,以及集中趋势和离散趋势的各种统计量来描述数据的分布特征。
下面我们通过例子来学习单变量频数分析操作。
1) 输入分析数据在数据编辑器窗口打开“data1-2.sav”数据文件。
2)调用分析过程在主菜单栏单击“Analyze”,在出现的下拉菜单里移动鼠标至“Descriptive Statistics”项上,在出现的次菜单里单击“Frequencies”项,打开如图3-4所示的对话框。
图3-4 “Frequencies” 对话框3)设置分析变量从左则的源变量框里选择一个和多个变量进入“Variable(s):”框里。
在这里我们选“三化螟蚁螟 [虫口数]”变量进入“Variable(s):”框。
4)输出频数分布表Display frequency tables,选中显示。
5)设置输出的统计量单击“Statistics”按钮,打开图3-5所示的对话框,该对话框用于选择统计量:图3-5 “Statistics”对话框① 选择百分位显示“Percentiles Values”栏:Quartiles:四分位数,显示25%、50%和75%的百分位数。
Cut points for 10 equal groups:将数据平分为输入的10个等份。
Percentile(s)::用户自定义百分位数,输入值0—100之间。
选中此项后,可以利用“Add”、“Change”和“Remove”按钮设置多个百分位数。
SPSS数据分析3

描述数据特征的基本概念
• 偏态分布:如果一个数据分布左右不对称, 称之为偏态分布。 正偏态分布:偏度为正,平均数>中数>众数 负偏态分布:偏度为负,平均数<中数<众数
偏态度和峰态度
偏度(Skewness):是描述数据分布对称性的统 计量,而且也是与正态分布的对称性相比较而得 到的。如果分布的偏度等于 0 ,则其数据分布的 对称性与正态分布相同;如果偏度大于 0,则其 分布为正偏或左偏;如果偏度小于0,则为负偏或 右偏。 峰度(Kurtosis):描述某变量所有取值的分布形 态的陡缓程度,而峰度对陡缓程度的度量是与正 态分布进行比较的结果。如果峰度等于 0 ,其数 据分布的陡缓程度与正态分布相同;峰度大于0, 其数据分布比正态分布更陡峭;峰度小于0,其数 据分布比正态分布更平坦。
a
Statistic .854 .826
Hale Waihona Puke Shapiro-Wilk df 899 196
Sig. .000 .000
您每 周用于 买报纸 的个 人花费 (包括 自 费订 阅费用 )约有 多 少元 (人民 币)?
a. Lilliefors Significance Corr ection
根据正态检验结果,男生组和女生组的显著性p=0.000<0.05,表 明男生组和女生组每周的报纸花费都不符合正态分布。 •【小提示】K-S方法在心理统计中经常使用,S-W在样本容量小 于50的情况下使用。
描述数据特征的基本概念
1、集中趋势:数据向中心位置靠拢的程度, 它反映了一组数据的中心位置所在。 常用关于数据集中趋势的统计量:算术平均 数(Mean),中数(Median),众数(Mode)
[例3.1](2007年心理学考研统考真题)现 有一列数据,它们是4,4,5,3,5,5,2, 这列数据的平均数、众数和全距依次是( ) A. 4 4 2 B.4 5 3 C. 5 4 4 D.5 5 1
问卷调查及统计分析方法-基于SPSS 第3章 在SPSS 中建立一般问卷调查的数据文件

3.1 一般调查问卷中常见的题型分类
• 1.名义单选题 • 2.有序单选题 • 3.多选题 • 4.排序题 • 5.单空题 • 6.多空题 • 7.多重有序(名义)单选题
1.名义单选题
• 在列出的多个没有程度、高低之分的选 项中,只能选择其中一项。如:
• 您的性别:( )。
• A.男
B.女
2.有序单选题
3.4 在SPSS中建立数据文件的实例(3)
•பைடு நூலகம்
第三步,保存数据文件。
•
建立在SPSS数据编辑窗口中的数据文件,如果不保
存,退出SPSS后就会丢失。因此,在SPSS数据编辑窗
口中建立的临时数据文件,应按【文件保存】顺序,在
【保存文件】对话框中,选择存放路径,取好文件名,单
击【保存】按钮,保存为SPSS数据文件。SPSS数据文 件的扩展名为*.sav。
2.在【类型】下面定义变量类型
单击【类型】下面的单元格,出现如图 3-2 所示的变量类型定义按钮,单击 按钮,则 弹出如图 3-3 所示的【变量类型】选项卡。
图 3-2 变量类型定义按钮
图 3-3 【变量类型】选项卡
一般而言,除调查问卷中用来核对的编号、姓名等将来在统计分析中不会使用的变量, 须定义为字符串外,其他变量都可定义为数值型。
表 3-2 对北京市体校学生调查问卷中抽取的部分题项建立数据文件时的变量定义
序号
变量名
1
编号
2
姓名
类型 字符型 字符型
变量名标签 — —
值标签 — —
测度类型 名义 名义
3.4 在SPSS中建立数据文件的实例(2)
•
第二步,逐份录入问卷调查中收集的数据资料。
第三讲 SPSS的数据描述

Female 均值 计数 2.54 91 4.33 2.60 2.57 2.67 27 42 9 215
步骤如下: 步骤如下: 表格框架(行列层及汇总变量)的设定。 表格框架(行列层及汇总变量)的设定。在 基本表的行( 基本表的行 ( Down) 、 列 ( Across) 、 单独 ) ) 表(层)(Separate tables)、摘要(汇总变 ) 摘要( 量)( Summaries)对话框中设定变量。 )对话框中设定变量。
第三讲 SPSS的数据描述 SPSS的数据描述
统计学分类: 统计学分类: 描述性统计学: 描述性统计学: 研究如何把数据用易于理 解的形式展示出来,结果可能是表格、 解的形式展示出来 ,结果可能是表格 、 图 形或者统计指标数值 推断性统计学: 推断性统计学: 利用部分数据对总体数据 的规律性做出预测和检验, 的规律性做出预测和检验 ,为了实现这一 功能, 功能,统计学家建立了大量的统计模型
注 意 : Basic tables 过 程 输 出 表 格 为 枢 轴 表 (pivot table)行、列、层可自由互换 。 )
汇总统计量添加和格式设置: 通过“ 汇总统计量添加和格式设置 : 通过 “ 统计 量(Statistic)”子对话框定义 ) 汇总变量和统计量标签排列格式的调整: 汇总变量和统计量标签排列格式的调整 : 通过“布局( 通过“布局(Layout)”子对话框定义 ) 添加汇总量:通过“总计( 添加汇总量:通过“总计(Totals)”子对 ) 话框定义 空单元格的格式设定:通过“格式 (Format)”子对话框定义 ) 标题和脚注的添加:通过“标题( 标题和脚注的添加 : 通过 “ 标题 ( Titles)” ) 子对话框定义
(grade.sav)
第三章 SPSS数据预处理

按性别变量汇总数据
性别_1 男 女 年龄_1 30 35 奖金_1 600 550
原始数据
3.5 分类汇总
(2)菜单选项:
data -> aggregate
(3)说明:
多重分组时,变量名的选择顺序。 生成的新文件名默认为:aggr.sav。可修改。 生成的新变量名默认为原变量名后加_1。可修 改。 可以在新文件中存贮个分组个案数.
第三章 SPSS数据的预处理
3.1数据的排序
首先在数据窗中建立或读入一 个数据文件(职工数据.sav)。 按Data Sort Cases,弹出一 个排序对话框(以职称为主排序 变量降序,基本工资为第二排 序变量的升序进行多重排序)。 依据需要进行选择,然后单击 OK按纽即可。
3.1变量计算
(1)含义:
对所有或部分个案,计算若干个变量中有几个 变量的值落在指定的区域内,并将结果存入新 变量中。
(2)菜单选项:
transform -> count -> define value
产生计数变量
(3)指定区域的定义
Value:指定一个值 system-missing:系统缺失值 system-or user missing:系统或用户缺失值 range through:指定一个闭区域,给出最大和 最小值 range: lowest through n:最小值到某个给定 值 range: n through highest:某个给定值到最大值
3.7拆分数据文件
读取一个数据文件。 按Data Split Files顺序逐一单击鼠
标,打开Split Files对话框。 根据对数据的具体需要选择相应的 选项。 按Ok完成。
1.利用居民储蓄调查数据,将数据分成两个文件,一 个为存储常住地在“沿海或中心繁华城市”且本次存 款金额在1000~5000元之间的调查数据,二是按照简 单随机抽样选取的70%的样本数据。 2.利用居民储蓄调查数据,将其按常驻地升序、收入 水平升序、存款金额降序进行多重排序。 3.将学生成绩合并后数据,对每个学生计算得优课程 数和得良课程数,并按得优课程数降序排序。 4.学生成绩合并后数据,计算每个学生课程的平均分 和标准差,同时计算男生和女生各科成绩的平均分。 5.在居民储蓄调查数据中,如果认为“今年收入比去 年增加”“预计未来一两年收入仍会增加”的人是对 自己收入比较满意和乐观的人,请利用计数和数据筛 选功能找到这些人。
SPSS数据分析教程-3-描述性统计分析PPT课件

.
46
条形图
.
47
饼图
.
48
帕累托图
.
49
直方图-茎叶图-箱图
描述性->探索
直方图 茎叶图 箱图
示例:数据Employ Data.sav
直方图 茎叶图 箱图
.
50
直方图和茎叶图
.
51
箱图
.
52
从旧对话框作图
重新完成上面两个例子中的图形(箱图除外)
.
53
饼图-帕累托图
SPSS数据分析 教程
.
1
第3章 描述性统计分析
—《SPSS数据分析教程》
.
2
主要内容
描述性统计分析
频率分析 对数据进行描述的图形化方法和数值方法 学习分析数据分布的方法 应用SPSS进行描述性数据分析的方法 常用统计图形的绘制方法和解释技巧 数据标准化
.
3
本章学习目标:
掌握数据分析项目的整个过程; 掌握数据的分类方法; 掌握对数据进行描述的图形化方法和数值方法; 学习分析数据分布的方法; 掌握应用SPSS进行描述性数据分析的方法; 掌握常用统计图形的绘制方法和解释技巧
平均 若i不是整数,则向上取整。
.
28
总结五数
最小值、第一个四分位数、中位数、第三个四 分位数、最大值
从这五个值可以大致看出数据分布的中心和离 散程度。而箱图则是这五个数的图形表现
.
29
3.4 分布的形状
偏度
当偏度0时,分布为正偏 或右偏,布图形在右边拖 尾,分布图有很长的右尾, 尖峰偏左
.
42
设定表格
.
43
表格:摘要统计量设置
.
SPSS第三单元描述性统计分析

SPSS应用
(3)Explore过程:计算描述统计量,通过各类统 计图等描述数据的分布类型;在描述数据分布特点 方面表现出强大的功能,能够输出常见的描述统计 量,还有箱式图、枝叶图、直方图、正态图等。 (4)Crosstabs过程:适用于由两个或两个以上变 量进行交叉分类形成的列联表,对变量之间的关联 性进行分析。
SPSS应用
茎叶图(stem-leaf plot)
将数据分离成两部分:整数部分和尾数 部分,整数部分形成图的茎,尾数部分形成 图的叶。茎叶图的排列方式与频数表有些相 似,每行由一个整数的茎和若干叶构成。左 边是茎的数值,茎宽一般标在图的下方。右 边是叶,图显示每个叶的尾数数值,同样在 图的下方标示每个叶代表几个实际观察值。 茎叶图可以非常直观地显示数据的分布范围 和形态,近年非常流行。
SPSS应用
(1)Frequencies过程:适用于连续型和离散型的 随机变量,除可以输出均值、中位数、众数、标准 差、方差、全距等样本统计量外,还可以生成频数 分布表和条形图、饼图、直方图等常用的统计图。 (2)Descriptives过程:适用于连续型随机变量, 可以输出均值、标准差、方差、全距等样本统计量。 此外,还可以将原始数据标准化后得到的数据保存 在一个新变量中,以便进一步统计分析。 Descriptives的绝大多数功能都可以由Frequencies 来实现,其操作过程、输出结果与Frequencies输出 的统计量也近似。
SPSS应用
【Display单选钮组】 用于选择输出结果中是否包含统计描述、统计图 或两者均包括。 【Dependent List框】 用于选入需要分析的变量。 【Factor List框】 如果想让所分析的变量按某种因素取值分组分析, 则在这里选入分组变量。 【Label cases by框】 选择一个变量,他的取值将作为每条记录的标签。 最典型的情况是使用记录ID号的变量。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(=<22) 44 789999999 000001112333344444 55555677789999 000011111112223333333344444 5555666666777888889999 000111111112222222333444444 55555566678888888899999 0000000111123333 555666677888999999 000222233344 5566899 22 5
43
44
一般把因变量放在纵轴上.
鼠标点 击散点 图的任 意位置 不松手, 拖动即 可旋转 散点图.
45
二、计算基本统计量
• 定性变量(定序型和定类型变量):频数分析 • 定量变量(数值型变量):描述统计分析 • 菜单选项:【分析】-> 【描述统计】
46
1、频数分析
• 目的:通过频数分析,可以产生详细的频数分布 表和常用的图形,从中能够了解变量取值的状况 ,对把握数据的分布特征非常有用。
2、计算基本描述统计量
• 目的:计算基本描述性统计量,对数据的分布特
征有更准确的认识。 • 主要适用于:定量变量 • 基本描述统计量可分为三类:
刻画集中趋势的统计量:均值、中位数、众数; 刻画离散程度的统计量:全距、方差、标准差、 均值的标准误; 刻画分布形态的统计量:偏度、峰度。
53
1、刻画集中趋势的统计量 集中趋势是指一组数据向某一中心值靠拢的倾向。
37
简单散点图
38
重叠散点图
39
矩阵散点图
40
41
旋转后的3-D散点图
42
可选入一个分组变量,则表示按该变 量的不同取值将样本数据分成若干组, 并在一张图上分别以不同颜色绘制各 组数据的散点图. (可以省略)
可指定一个标记变量,表示将标记变 量的各变量值标记在散点图的相应点 的旁边. (可以省略)
51
输出百分位数: • 四分位数:显示25%、50%、 75%的分位数; • 割点:将数据平均分为所设定 的相等等份,可输入2-100 的整 数,如键入5,则输出20%、 40%、60%和80%百分位数; • 自定义百分位数:可输入0-100 的整数。 选择频数分布表和图形 中数据的输出顺序: • 按变量值大小升序或 降序排列 • 按变量各种取值出现 的频数大小升序或降 序排列(常用于分类 数较多的定类型变量) • 多变量频数分析时, 选择不同变量的分 析结果的输出方式. • 当类别数大于设定 值,将不输出频数 52 分布表.
量,年龄和净财富均为定量变量.
• 问题:绘制直方图,分析年龄和净财富这两个变量
的数据的分布情况.
25
26
(单位:10亿美元)
27
28
4、箱图(盒形图)
• 箱图也叫箱线图,是一种用来描述数据分布的统 计图形,可以用来展现观测数据的中位数、四分 位数和极值等描述性统计量。 • 箱图类型:简单箱图、复式箱图 • 例:“rich.sav”
分组变量:职称
统计量:平均基本工资
(2) 不同职称不同学历职工的人数的差异.
分组变量:职称、学历
统计量:人数
8
简单条形图
9
简单条形图
10
复式条形图
11
堆栈条形图
12
选择定义条形高度的统计量 设定图形标题 选择缺失值的处理方式 和误差条形图的显示方 式。 选择分组变量
可以指定一个或多个分组变量 来建立图形面板,由相关的子 图构成。子图的类型相同,共 享同一个横轴,但每个图代表 不同的组,可以直观比较不同 组中相同变量的数据。 选择复合分类变量
三维散点图【3-D分布】:以立体图的形式展现
三个变量间的关系;
简单点图【简单点】:用来展示一个变量在各 个取值上的分布情况.
• 例:为研究腰围、体重和脂肪比重之间的关系, 随机调查了20个人. 数据文件:“腰围和体 重.sav”.
• 问题:腰围、体重和脂肪比重都是定量变量,利
用散点图探索这三个变量之间的关系.
• 问题:绘制箱图,分析 5 个区域富人的年龄分布
状况.
29
除离群值外的最大值
75%分位数
中位数 25%分位数
除离群值外的最小值 离群点及其个案号码
离群点:与四分位数的距离大于1.5倍的四分位数间距
30
选入要分析的变量 选入分类变量,该变量 作为分类横轴
31
5、茎叶图
• 茎叶图既能够展示数据分布的特点,又可以保留 原始数据信息. • 茎叶图包括频数、茎(Stem)、叶(Leaf)三部分. Stem Width 表示茎宽,实际观测值除以茎宽后的 整数部分和小数部分(取一位)分别为茎和叶. (因此,每行的茎和叶组成的数字再乘以茎宽, 就得到实际观测值或其近似值.) • 例:“rich.sav” • 问题:绘制各区域富人年龄的茎叶图.
10 1 case(s)
33
菜单选项:
【分析】-> 【描述统计】-> 【探索】
34
6、散点图
• 散点图是常用的表现两个变量或多个变量之间相
关关系的统计图形。
• 散点图将数据以坐标点的形式绘制在平面或空间
直角坐标系中,通过坐标点的分布情况来反映变
量之间的相关关系及其强弱程度和变化趋势。
• 通常在进行相关分析和回归分析之前,都要先绘
数据指标大小的统计图。其中分组变量的不同值
对应条的数目,条的高度由选择的统计量决定。
• 条形图类型:
简单条形图:对单个变量的各个类别进行对比
复式条形图:对两个变量交叉分类
堆栈条形图:对两个变量交叉分类
5
统计量的描述方法
• 个案组摘要(个案分组模式):根据分组变量
对所有个案进行分组,再根据分组后的个案数
0 是判断数据是 否呈正态分布的 一个重要依据.
(平峰)
57
菜单选项:【分析】->【描述统计】->【描述】
例:“Height.sav”,该数据描述了2个地区高三
男生的身高.
问题:
(1) 计算高三男生身高的基本描述统计量。
(2) 比较两个地区高三男生身高的分布差异。
xi x 将原始数据标准化的计算公式:zi s
(1)分析被调查者的观点的分布状况; opinion(观点):定类型变量 (2)分析被调查者的收入的分布状况. income(收入):定序型变量
• 注意:该数据为计数数据,在进行频数分析前, 应先按照“number”(人数)变量进行加权处理.
48
49
50
注意:该数据为计数数据, 若数据还未进行加权,应先 进行加权,再进行频数分析.
n 1 2 s2 ( x x ) n 1 i 1 i
s
1 n 2 ( x x ) i n 1 i 1
(3) 全距(极差)= 最大值 - 最小值 (4) 均值的标准误:即样本均值的标准差,度量样 s 本均值与总体均值的平均差异程度 s.e . ( x ) n 55
第三章
数据的描述
1
基本统计分析
• 对数据的分析通常是从基本统计分析入手的。通过 基本统计分析,能够使分析者掌握数据的基本统计 特征,把握数据的整体分布形态,为今后进一步的 数据建模起到重要的指导作用。
• 基本统计分析有两种方式:
绘制常见的基本统计图形(用图形展示数据分布特 点) 计算常见的基本统计量(用数值反映数据的统计特 征)
• 主要适用于:定性变量(定序型和定类型变量)
• 主要输出结果:
编制频数分布表:频数、百分比、有效百分比(
频数/(总样本量-缺失样本量))、累计百分比;
绘制统计图:条形图、饼图、直方图.
47
• 菜单选项:【分析】->【描述统计】->【频率】
• 例:“table7.sav”,该数据给出了123个被调查者 的收入、性别以及对某政策的观点的汇总结果. • 问题:
32
Age Stem-and-Leaf Plot for Region= Europe
Frequency Stem & Leaf
欧洲区域富人年龄的茎叶图
1.00 Extremes 2.00 3 . 9.00 3 . 18.00 4 . 14.00 4 . 27.00 5 . 22.00 5 . 27.00 6 . 23.00 6 . 16.00 7 . 18.00 7 . 12.00 8 . 7.00 8 . 2.00 9 . 1.00 9 .
2
一、统计图形绘制
• 定性变量(定序型和定类型变量)的图表示: 条形图、饼图等 • 定量变量(数值型变量)的图表示: 直方图、箱图、茎叶图、散点图等
• 绘制图形的菜单选项:【图形】
3
三种绘图方法
• 图表构建程序 • 图形画板模板选择程序 • 旧对话框
4
1、条形图
• 条形图是利用宽度相同的条形的高低或长短表示
24
• 例:“rich.sav” • 该数据摘自福布斯世界富豪排行榜,展示了世界最 富有的一些人的名次(Rank,为正整数,越小越富) ,所属区域 (Region ,包括北美、欧洲、亚洲和太 平 洋 、 南 美 、 非 洲 ) , 年 龄 (Age) 和 净 财 富
(NetWorth,单位为10亿美元). 其中区域为定性变
13
15
16
2、饼图
• 饼图通常用一个圆形来表示构成整体的各个部分
所占的比例情况。其中,整个圆的面积表示整体 ,圆中的扇形部分是按构成整体的各部分在整体 中所占比例的大小切割而成。 • 饼图可以直观地反映各部分与整体之间的关系、 以及各部分之间的关系。 • 例:“language.sav”该数据展示了说世界各种主 要语言(包括母语和日常使用)的人数。 • 问题:绘制饼图,分析日常使用语言的分布情况.