spss分类变量统计描述
SPSS软件学习_spss统计描述过程

11
分布曲线形状:偏度的含义
偏度:
大于0表示=正偏=右偏=均值在中位数的右边
左偏
右偏
均值 中位数 众数
众数 中位数 均值
63
12
分布曲线形状:峰度的布
峰度大于0
13
二、描述统计量过程
Frequency
Horsepower
70
60
50
40
30
20
10
Std. Dev = 38.52
Mean = 104.8
0
N = 400.00
50.0 70.0 90.0 110.0 130.0 150.0 170.0 190.0 210.0 230.0
60.0 80.0 100.0 120.0 140.0 160.0 180.0 200.0 220.0
中位数适用于任意分布类型的资料。用中 位数来描述连续变量会损失很多信息,对于 对称分布资料,优先考虑使用均数,仅仅均 数不能使用时才用中位数加以描述;
中位数对于定序变量、连续变量均可以使 用。对定序变量通常采用中位数(不是众数) 来反映更多、更精确的信息。
36
4.2.3 其它集中趋势描述指标
1. 截尾均数 数据排序 去掉最两端的数据(常用的截尾均数有5% 截尾均数,即两端去掉5%的数据,在SPSS 中Explore中可以实现)
如果截尾均数与原均数相差不大,说明 数据不存在极端值,反之相反。
37
2.几何平均数
常用于计算百分比、比率、指数、增长率等 指标的平均数
几何平均数 算术平均数 公式(要求 xi > 0 )
SPSS数据库变量的分类

SPSS数据库变量的分类数据分析通常会涉及到定量(quantitative)数据和定性(qualititative)数据,其在分析过程中的作用及相应的分析方法不尽相同。
因此在定义数据库结构时,必须明确数据库中使用的各种变量的类型(type)。
一、根据数据的运算类型不同划分1、数值型变量(numeric)在spss分析软件中,数值型是变量定义的缺省类型,可以进行所有的数值运算与统计分析。
为了更清楚地表达长数据,数值型变量可进一步划分为以下几类:1)逗号变量(comma),以逗号为三位分割符号,将数据分割开来,如123,123。
2)句点变量(dot),以逗号为小数点,以圆点为三位分割符号,如123.123,26。
3)科学计数变量(scientific notal),以10的指数形式表示,分两个部分,第一个部分为有效数字,第二个部分为10的指数值,用e表示,正指数用+号,负指数用-号,如1.23e+02代表的数值为123。
科学计数主要用于一些整数位较长的数据。
数值型变量在数据库中是最常用的,大多数的数据在没有特别要求的情况下,通常采用数值型变量定义,当数值过大,超过了定义的宽度,就会自动转变为科学计数。
2、日期型变量(date)根据年月日时分秒的组合方式不同,日期型变量有多种不同格式,在spss 中,当日期型变量定义之后,只有输入相应格式的日期数据才能被接受。
如dd.mm.yy分别代表日月年,hh:mm:ss分别代表时、分、秒。
日期型变量通常用来反映对应数据产生的日期或时间,当需要了解数据产生的日期或时间特点时,通常会定义这一数据,数据的录入可以自动产生,也可以手工录入。
3、自定义货币变量(custom currency)可以根据使用的货币单位定义货币变量的前缀(prefix)与后缀(suffix),显示方式为有效数字带定义货币变量的前缀或后缀,如0。
此变量为数值型变量,在使用多种货币销售或采购货物时,可使用此类变量。
第四讲.SPSS之数据描述

同济大学社会学系 2011年
本讲内容
各种变量的描述及在SPSS中的实现 SPSS统计图表 多分类变量的统计描述 对变量分布的检验 列联表交叉分析
各种变量的描述及在SPSS中的实现
集中趋势
在一组统计数据中,往往用其中一个数值来 代表本组数据的平均状况。
不同类型变量的集中趋势数值表示方法不同。 定类变量一般用众值(mode)来表示它的 集中趋势,定序变量用中位值(median), 定距变量和定比变量用平均值来表示 (mean)。
% within 受访者性别
116.0 2.0%
1077.0 18.3%
否
2030 2261.2 71.6%
2671 2439.8 87.3%
4701 4701.0 79.8%
T otal 2835
2835.0 100.0%
3059 3059.0 100.0%
5894 5894.0 100.0%
卡方检验结果
多分类变量即是问卷中的多选题。根据固定选或不 定选的差异,在定义多分类变量时方法稍有差异。
在固定选的多分类变量定义中,主要是累计所有可 能的取值,累积的范围是该变量的所有编码。
在不定选的多分类变量定义中,主要是累计被访者 选中的变量(编码是1的部分)。
新定义的多分类变量,不能保存,关闭数据库之后 会丢失相关信息。下次分析时需重新定义。
小结
描述性分析主要是对单维数据进行的初步统 计分析,方便研究者对数据收集的质量做总 体的了解和判断,为未来分析做准备。
列联交叉分析涉及二维或以上变量之间的相 关分析,具有一定的解释功能,具有一定的 推论性。
练习
根据自己的分析目的和要求,输出各个变量 的频次分析结果;
《SPSS数据分析与应用》第4章 描述分析

3. 基本描述统计量的SPSS实现
第三步:在“描述”对话框中, 单击【选项(O)】按钮,弹出“描述: 选项”对话框,在该对话框中指定计 算表示集中趋势、离散程度、分布形 态的基本描述统计量,同时,可以设 置【显示顺序】。勾选【平均值(M)】 【标准差(I)】【最小值(N)】【最大 值(X)】【峰度(K)】【偏度(W)】,并 选择【变量列表(B)】,如图所示。
3. 基本描述统计量的SPSS实现
第四步:如果需要对数据进行标准化处理,勾选“描述”到家了中左下角 的【将标准化值另存为变量(Z)】,将会在SPSS数据编辑器窗口保留标准化后 的新变量。此处选择对“平均薪资”进行标准化处理并保存标准化值,如图所 示。
3. 基本描述统计量的SPSS实现
第五步:解读SPSS描述统计量的计算结果。
“奇葩”直方图
锯齿型
孤岛型
(3)锯齿型:直方图内出现高度参差不齐,但整体图形保持了中间高、两边低、两 边基本对称的形状。一般是由于做直方图时,分组过多或者测量仪器误差造成的。
(4)孤岛型:在远离主分布的地方出现小的直方图,犹如孤岛,一般是业务上的非 异常因素在起作用,比如工程零部件出了问题、产品出现了某Bug等,是很值得关注的 现象。
• 它是用一系列宽度相等、高度不等 的长方形表示数据的图。
• 长方形的宽度表示数据范围的间 隔,长方形的高度表示在给定间隔 内的频数。
集中趋势、离散程度、分布形态
“奇葩”直方图
陡坡型
双峰型
(1)陡坡型:往往是数据源缺失,或者被剔除一部分后,造成断崖式的折断。用户可以适当地调整 组数,或者利用对数变换,再做出对数直方图。 (2)双峰型:直方图的图形出现了两个高峰。双峰直方图的数据来自两个总体,一般是混合了多种 数据源或者类别数据造成的。
SPSS应用二 描述统计

列合计 n j f ij , j 1 , 2 , , c . 而样本容量 n f ij
r i 1
i 1 j 1
r
c
r × c 列联表
列 行 1 2 … 1 2 … … … … c 合计
f11 f 21
…
f 12
f 22
…
f1c
f r2
…
n1
n2
…
r
合计
P25
P0
偏度和峰度系数
偏态是指大部份的数值落在平均数的哪一边, 若分配較多集中在低数值方面,是为正偏态分配 (或称右偏态分配);若分配较多集中在高数值方面, 是为负偏态分配(或称左偏态分配),正态分布的偏 态为0,SPSS计算公式为:
n SKewness (n 2)
s ( xi x )2
计算
公式: n为奇数时
MX
(
n 1 ) 2
n为偶数时
1 M X n X n ( 1) 2 (2) 2
中位数的特征
1. 计算时只利用了位置居中的测量值 优点:对极值不敏感 缺点:并非考虑到每个观测值 2. 适用于各种分布类型的资料, 特别适合于:大样本偏态分布资料 或者一端或两端无确切数值的资料
580 560 540 520 500 480 460 440 420
560 540 500 460 440
2500
520 510 500 490 480
2500
510 505 500 495 490
2500
均数
500
500
500
甲
乙 丙
离散与变异性指标
全距 四分位间距 方差 标准差 变异系数
spss-统计描述

23
SPSS12.0统计软件
例
题
数据背景:调查对象为某大专院校的大学生,文件名student.sav。主要调查 内容代码如下:性别( 1 男、 2 女),出生年、月、日(具体数字),身高 (cm),体重(kg),血型(A、AB、B、O),血型代码(1A、2B、3AB、 4O),教育背景(1重点大学本科、2普通大学本科、3大专、4中专/职校),学
Sum:求和
Dispersion:离散程度统计量 Std. deviation:标准差 Variance:方差 Minimum :最小值 Maximum:最大值
Range:全距
Distribution:分布指标 Skewness:偏度系数 Kurtosis:峰度系数 Display Order:输出排列方式 Variable list:按变量选择清单的顺序 Alphabetic:按变量的字母顺序
10
SPSS12.0统计软件
连续变量的统计描述
11
SPSS12.0统计软件
连续变量的统计描述概况
1、集中趋势 如均数、中位数、几何均数、众数、调和均数等 2、离散趋势 如全距、方差和标准差、百分位数、四分位数和四分位间 距、变异系数等
12
SPSS12.0统计软件
Descriptive过程
Analyze->Descriptive Statistics->Descriptive… 可对资料进行简单统计描述;
Lev ene Statistic d f1 1 1 1 1 d f2 2 13 2 13 2 08 .85 5 2 13 Sig. .7 60 .8 08 .8 08 .7 64
身 高
Based on Mean Based on Median Based on Median an d with ad ju sted df Based on trimmed mean
SPSS数据分析—描述性统计分析
描述性统计分析是针对数据本身而言,用统计学指标描述其特征的分析方法,这种描述看似简单,实际上却是很多高级分析的基础工作,很多高级分析方法对于数据都有一定的假设和适用条件,这些都可以通过描述性统计分析加以判断,我们也会发现,很多分析方法的结果中,或多或少都会穿插一些描述性分析的结果。
描述性统计主要关注数据的三大内容:1.集中趋势2.离散趋势3.数据分布情况描述集中趋势的指标有均值、众数、中位数,其中均值包括截尾均值、几何均值、调和均值等。
描述离散趋势的指标有频数、相对数、方差、标准差、标准误、全距、四分位间距、四分位数、百分位数、变异系数等。
注意:连续型变量和离散型变量的指标有所不同。
由于很多统计分析都有一个正态分布的假设,因此我们经常也会关注数据的分布特征,常用峰度系数和偏度系数来描述数据偏离正态分布的程度,也可以使用Bootstrap方法计算出结果与经典统计学方法计算出的结果进行对比,如果差异明显,则说明原数据呈偏态分布或存在极值SPSS用于描述性统计分析的过程大部分都在分析—描述统计菜单中,另有一个在比较均值—均值菜单,虽然这几个过程用途不同,但是基本上都可以输出常用的指标结果。
一、分析—描述统计—频率此过程可以输出连续型变量集中趋势和离散趋势的主要指标,还可以输出判断分布的直方图、峰度值和偏度值,此外,该过程最主要的作用是输出频数表,结果举例如下:二、分析—描述统计—描述看起来似乎这个过程才是正统的描述统计分析过程,实际上该过程输出的内容并不多,也没有统计图可以调用,唯一特别的是该过程可以对数据进行标准化变换,并保存为新变量。
三、分析—描述统计—探索探索性分析是对原有数据进行描述性统计的基础上,更进一步的描述数据,和前两种过程相比,它能提供更详细的结果。
四、分析—描述统计—比率该过程主要用于对两个连续变量间的比率进行描述分析输出的结果比较简单,只是指标的汇总表格,在此略去五、分析—描述统计—交叉表分类变量的描述性统计比较简单,主要就是看频数分布和构成比,基本用交叉表一个过程就可以完成,该过程虽然放在描述统计中,但是由于功能丰富,也经常被用来做列联表的推断分析。
spss描述性统计分析实验总结(3篇)
spss描述性统计分析实验总结(3篇)为期半个学期的统计学试验就要完毕了,这段以来我们主要通过excl软件对一些数据进展处理,比方抽样分析,方差分析等,经过这段时间的学习我学到了许多,把握了许多应用软件方面的学问,真正地学与实践相结合,加深学问把握的同时也熬炼了操作力量,回忆整个学习过程我也有许多体会。
统计学是比拟难的一个学科,作为工商专业的一名学生,统计学对于我们又是相当的重要。
因此,每次试验课我都坚持按时到试验室,试验期间仔细听教师讲解,看教师操作,然后自己独立操作数遍,不懂的问题会请教教师和同学,有时也跟同学商议找到更好的解决方法。
几次试验课下来,我感觉我的力量的确提高了不少。
统计学是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观看系统的数据,进展量化的分析、总结,并进而进展推断和猜测,为相关决策供应依据和参考。
它被广泛的应用在各门学科之上,从物理和社会科学到人文科学,甚至被用来工商业及政府的情报决策之上。
可见统计学的重要性,仔细学习显得相当必要,为以后进入社会有更好的竞争力,也为多把握一门学科,对自己对社会都有好处。
几次的试验课,我每次都有不一样的体会。
个人是理科出来的,对这种数理类的课程原来就很感兴趣,经过书本学问的学习和试验的实践操作更加加深了我的兴趣。
每次做试验后回来,我还会不定时再独立操作几次为了不遗忘操作方法,这样做可以加深我的记忆。
依据记忆曲线的理论,学而时习之才能保证对学问和技能的真正以及把握更久的把握。
就拿最近一次试验来说吧,我们做的是“平均进展速度”的问题,这是个比拟简单的问题,但是放到软件上进展操作就会变得麻烦,书本上只是直接给我们列出了公式,但是对于其中的原理和意义我了解的还不够多,在做试验的时候难免会有许多问题。
不惊奇的是这次试验好多人也都是不明白,操作不好,不像以前几次试验教师讲完我们就差不多把握了,但是这次好像遇到了大麻烦,由于内容比拟多又是一些没接触过的东西。
第 章 SPSS 基本统计量的描述
存 (取 )款 金 额
直方图
二、计算基本描述统计量
目的:精确把握变量的总体分布状况。 基本操作: ✓ 描述统计-频率过程:统计 ✓ 描述统计- 描述过程 ✓ 描述统计- 探索过程 ✓ 均值比较-均值 过程(分组显示) 用途:计算变量的集中趋势、离散趋势、偏度、
峰度等指标,绘制统计图。
几个过程的基本描述统计量比较
农村户口
户口
城镇户口
饼图
Frequency
100
0 0.0
Std. Dev = 10945.57 Mean = 4738.1 10000.0 20000.0 30000.0 40000.0 50000.0 60000.0 70000.0 80000.0 90000.0N10=000208.02.00
McNemar:配对计数资料的卡方检验。零假设
为两变量的阳性率无差别源自2(bc 1)2
bc
Kappa一致性检验:系数取值-1~1。测量同 一观测对象在两变量(两变量服从二项分布) 上取值的一致性程度。其绝对值越接近1,说明 一致性程度越高。一般来说:
✓ 系数>=0.7,一致性程度较高;
✓ 0.4~0.7,一致性程度一般;
卡方检验操作:统计量选项
【单元格】:用于定义列联表单元格中需 要计算的指标:
计数:是否输出实际观察数和理论数;
百分比:是否输出行百分数、列百分数以及合 计百分数;
残差:选择残差的显示方式;
【格式】:用于选择行变量是升序还是降 序排列。
结果:城乡储户的收入水平没有明显差异。
Pearson卡方值的影响因素
C
2 2 n
A11A22A12A21
R1R2C1C2
2
统计分析与Spss应用第五章(描述性统计分析)
选入需要描述的 变量,可选入多个
确定是否将原始数 据的标准正态变换 结果存为新变量。
变量列表顺序 字母顺序 均数升序 均数降序。
Descriptive Statistics N 血清总胆固醇 Valid N (listwise) Minimum Maximum 101 2.70 7.22 101 Mean Std. Deviation 4.6995 .86162
5.1.1 对话框界面及 各部分选项说明 【Display frequency tables复选框】确定是 否在结果中输出频数 表。 【Statistics钮】单击 后弹出Statistics对话 框,用于定义需要计 算的其他描述统计量。
集中趋势指标
百分位数指标
计算百分数时选此项
离散趋势指标 分布指标
1
.002
.000
Hale Waihona Puke .006.002b
.000
.005
639 61.974 d 65.957 55.621 9.398
e
40 40
.014 .006
.016b .009b .011b .003
b
.008 .003 .004 .000
.025 .016 .018 .006 .001
b
1
.002
.000
.002
descriptive statistics菜单主要内容
(1)频数分布表分析(Frequencies):其特色就是产生 频数表,对分类数据和定量资料都适用。 (2)统计描述分析(Descriptive)进行一般性描述,适 用于服从正态分布的定量资料。 (3) Explore 过程:用于对数据分布状况不清楚时的 探索性分析,它会杂七杂八给出一大堆可能用到的 统计指标和统计图,让研究者参考。 (4)Crosstabs 过程则完成计数资料和等级资料的统计 描述和一般的统计检验我们常用的X2 检验也在其中 完成 (5)Ratio过程;用于对两个连续性变量计算相对比指 标,它可以计算出一系列非常专业的相对比描述指 标。