第五章 描述性统计分析
描述性统计分析

.
20
例4-3 已知有某地城市和农村各55名10岁女生身高数 据,数据见文件4-2-1.sav,请利用Explore过程分组分 析。
.
21
4.4 列联表分析
通过频数分析能够掌握单个变量的数据分布情况。 在实际分析过程中,不仅要了解单变量的分布特征,还 要分析多个变量不同取值下的分布,掌握多变量的联合 分布特征,进而分析变量之间的相互影响和关系。当问 题涉及多个变量时,采用单纯的频数分析方法显然不 够,这时,我们需要借助交叉分组下的频数分析,又称 为列联表分析。
.
16
【界面介绍】
⑴ 选 择 菜 单 【Analyze】→【Descriptive Statistics】→ 【Explore】,进入探索性分析界面,出现如图所示的 窗口。
.
17
(2)单击【Statistics】按钮,弹出Statistics子对话框,如图 所示。该项用于选择所需要的描述统计量。
描述性统计分析
【学习提要】
对数据进行统计描述是统计分析中最基本的工作。对于 整理好的数据,通过描述性统计分析,可以挖掘出很多统计 量的特征。SPSS软件中,描述性统计分析功能主要集中在 “Descriptive Statistics”菜单。具体包括5个过程: Frequencies过程、Descriptives过程、Explore过程、 Crosstabs过程和Ratio过程。
.
26
指标的具体含义如下:
加权比例均值(Weighted mean ) • 加权比例均值属于集中趋势描述指标,是两变量均值的
比。
平均绝对离差(AAD,Average Absolute Dispersion) • AAD用于对比率变量离散程度的描述。
关于描述性统计分析

关于描述性统计分析作者:记忆de&#…文章来源:csdn blog 点击数:156 更新时间:2007-2-12在数据分析的时候,一般首先要对数据进行描述性统计分析(Descriptive Anal ysis),以发现其内在的规律,再选择进一步分析的方法。
描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形。
(1)数据的频数分析:在数据的预处理部分,我们曾经提到利用频数分析和交叉频数分析来检验异常值。
此外,频数分析也可以发现一些统计规律。
比如说,收入低的被调查者用户满意度比收入高的被调查者高,或者女性的用户满意度比男性低等。
不过这些规律只是表面的特征,在后面的分析中还要经过检验。
(2)数据的集中趋势分析:数据的集中趋势分析是用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。
各指标的具体意义如下:平均值:是衡量数据的中心位置的重要指标,反映了一些数据必然性的特点,包括算术平均值、加权算术平均值、调和平均值和几何平均值。
中位数:是另外一种反映数据的中心位置的指标,其确定方法是将所有数据以由小到大的顺序排列,位于中央的数据值就是中位数。
众数:是指在数据中发生频率最高的数据值。
如果各个数据之间的差异程度较小,用平均值就有较好的代表性;而如果数据之间的差异程度较大,特别是有个别的极端值的情况,用中位数或众数有较好的代表性。
(3)数据的离散程度分析:数据的离散程度分析主要是用来反映数据之间的差异程度,常用的指标有方差和标准差。
方差是标准差的平方,根据不同的数据类型有不同的计算方法。
(4)数据的分布:在统计分析中,通常要假设样本的分布属于正态分布,因此需要用偏度和峰度两个指标来检查样本是否符合正态分布。
偏度衡量的是样本分布的偏斜方向和程度;而峰度衡量的是样本分布曲线的尖峰程度。
一般情况下,如果样本的偏度接近于0,而峰度接近于3,就可以判断总体的分布接近于正态分布。
描述性统计分析

一、什么是描述统计分析(Descriptive Analysis)概念:使用几个关键数据来描述整体的情况描述性数据分析属于比较初级的数据分析,常见的分析方法包括对比分析法、平均分析法、交叉分析法等。
描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形。
Excel里的分析工具库里的数据分析可以实现描述性统计分析的功能。
描述性统计分析即是对数据源最初的认知,包括数据的集中趋势、分散程度以及频数分布等,了解了这些后才能去做进一步的分析。
二、常用指标均值、中位数、众数体现了数据的集中趋势。
极差、方差、标准差体现了数据的离散程度。
偏度、峰度体现了数据的分布形状。
1、均值。
均值容易受极值的影响,当数据集中出现极值时,所得到的的均值结果将会出现较大的偏差。
2、中位数:数据按照从小到大的顺序排列时,最中间的数据即为中位数。
当数据个数为奇数时,中位数即最中间的数,如果有N个数,则中间数的位置为(N+1)/2;当数据个数为偶数时,中位数为中间两个数的平均值,中间位置的算法是(N+1)/2。
中位数不受极值影响,因此对极值缺乏敏感性。
3、众数:数据中出现次数最多的数字,即频数最大的数值。
众数可能不止一个,众数不能能用于数值型数据,还可用于非数值型数据,不受极值影响。
4、极差:=最大值-最小值,是描述数据分散程度的量,极差描述了数据的范围,但无法描述其分布状态。
且对异常值敏感,异常值的出现使得数据集的极差有很强的误导性。
5、四分位数:数据从小到大排列并分成四等份,处于三个分割点位置的数值,即为四分位数,四分位数分为上四分位数(数据从小到大排列排在第75%的数字,即最大的四分位数)、下四分位数(数据从小到大排列排在第25%位置的数字,即最小的四分位数)、中间的四分位数即为中位数。
四分位数可以很容易地识别异常值。
箱线图就是根据四分位数做的图。
SPSS数据分析—描述性统计分析

SPSS数据分析—描述性统计分析描述性统计分析是一种针对数据本身的分析方法,通过使用统计学指标来描述数据的特征。
这种分析方法看似简单,但实际上却是许多高级分析的基础工作。
很多高级分析方法都对数据有一定的假设和适用条件,这些可以通过描述性统计分析来判断。
我们也会发现,许多分析方法的结果中都会穿插一些描述性分析的结果。
描述性统计主要关注数据的三个方面:集中趋势、离散趋势和数据分布情况。
描述集中趋势的指标包括均值、众数和中位数,其中均值包括截尾均值、几何均值和调和均值等。
描述离散趋势的指标包括频数、相对数、方差、标准差、标准误、全距、四分位间距、四分位数、百分位数和变异系数等。
需要注意的是,连续型变量和离散型变量的指标有所不同。
由于许多统计分析都有一个正态分布的假设,因此我们经常关注数据的分布特征。
常用峰度系数和偏度系数来描述数据偏离正态分布的程度。
也可以使用Bootstrap方法计算出结果与经典统计学方法计算出的结果进行对比,如果差异明显,则说明原数据呈偏态分布或存在极值。
SPSS用于描述性统计分析的过程大部分都在分析-描述统计菜单中,另有一个在比较均值-均值菜单。
虽然这几个过程用途不同,但基本上都可以输出常用的指标结果。
分析-描述统计-频率过程可以输出连续型变量集中趋势和离散趋势的主要指标,还可以输出判断分布的直方图、峰度值和偏度值。
此外,该过程最主要的作用是输出频数表。
分析-描述统计-描述过程输出的内容并不多,也没有统计图可以调用,唯一特别的是该过程可以对数据进行标准化变换,并保存为新变量。
分析-描述统计-探索过程是在原有数据进行描述性统计的基础上,更进一步的描述数据。
与前两种过程相比,它能提供更详细的结果。
分析-描述统计-比率过程主要用于对两个连续变量间的比率进行描述分析。
输出的结果比较简单,只是指标的汇总表格。
分析-描述统计-交叉表过程主要用于分类变量的描述性统计。
它可以完成频数分布和构成比的分析,也经常被用来做列联表的推断分析。
用Excel进行数据分析:描述性统计分析

用E x c e l进行数据分析:描述性统计分析本页仅作为文档封面,使用时可以删除This document is for reference only-rar21year.March在数据分析的时候,一般首先要对数据进行描述性统计分析(Descriptive Analysis),以发现其内在的规律,再选择进一步分析的方法。
描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形,常用的指标有均值、中位数、众数、方差、标准差等等。
接下来我们讲讲在Excel2007中完成描述性统计分析。
一、案例场景某网站的专题活动积累了一定访问数据后,需要统计流量的的均值、区间,以及给出该专题访问量差异的量化标准,借此来作为分析每天访问量的价值、参差不齐、此起彼伏一个衡量的依据。
要求得到均值、区间、众数、方差、标准差等统计数据。
二、操作步骤1、打开数据表格,这个案例中用的数据无特殊要求,只是一列数值就可以了。
2、选择“工具”——“数据分析”——“描述统计”后,出现属性设置框注:本功能需要使用Excel扩展功能,如果您的Excel尚未安装数据分析,可以参考上一篇文章《用Excel进行数据分析:数据分析工具在哪里》。
3、依次选择选项有2方面,输入和输出选项输入区域:原始数据区域,选中多个行或列,选择相应的分组方式逐行/逐列;如果数据有标志,勾选“标志位于第一行”;如果输入区域没有标志项,该复选框将被清除,Excel 将在输出表中生成适宜的数据标志;输出区域可以选择本表、新工作表或是新工作簿;汇总统计:包括有平均值、标准误差(相对于平均值)、中值、众数、标准偏差、方差、峰值、偏斜度、极差、最小值、最大值、总和、总个数、最大值、最小值和置信度等相关项目。
第K大(小)值:输出表的某一行中包含每个数据区域中的第 k 个最大(小)值。
实验五描述性统计分析

第二篇 数据分析基础实验五 描述性统计分析实验目的:了解相关系数和偏相关系数的计算方法。
实验工具:SPSS 描述性统计分析菜单项。
知识准备:一、统计整理统计整理是根据统计研究的目的,对统计调查所获得的大量原始资料(初级资料),进行科学的分类和汇总,使之条理化、系统化,得出能够反映现象总体特征的综合资料的工作过程。
统计整理的结果为统计表与统计图。
统计表主要表现为频数表,而统计图的表现形式多样,前面已经介绍了各种统计图的制作方法,此处不在专门进行介绍。
二、集中趋势的测量集中趋势是指一组数据向某一中心值靠拢的倾向,测度集中趋势也就是寻找数据一般水平的代表值或中心值。
集中趋势主要依赖各种平均指标进行反映。
1、算术平均数算术平均数又称为均值,其定义为:设1X ,2X ,…,n X 是取自某总体的一个样本,它的算术平均数∑==ni i X n X 11算术平均数有四个重要性质:①各变量值与平均数离差之和等于零;②各个变量值与平均数离差平方和为最小值;③常数的算术平均数是其本身;④对于任何两个变量x 和y ,它们的代数和的算术平均数就等于两个变量的算术平均数的代数和。
2、调和平均数调和平均数是根据标志值的倒数计算的,它是标志值倒数的算术平均数的倒数。
调和平均数的计算公式为:使用调和平均数要注意三个问题:①变量X 的取值不能为零,因为零不能作为分母,此时调和平均数无法计算;②调和平均数与算术平均数一样,易受极端值的影响③调和平均数只适用于特殊的数据情况,所以要注意区分它的适用条件。
在SPSS 中,调和平均数可以在Report 子菜单的4个报表过程中计算输出。
3、几何平均数几何平均数是n 个变量值乘积的n 次方根。
凡是现象的连乘积等于现象的总比率或总速度都可用几何平均数来计算它们的平均比率和平均速度。
其计算公式为:n n n x x x x x G ∏=⋅⋅⋅⋅= (321)式中:标志值个数。
连乘符号;各个标志值;数;几何平均------------∏n x G在SPSS 中,几何平均数可以在Report 子菜单的4个报表过程中计算输出。
SPSS数据分析—描述性统计分析

描述性统计分析是针对数据本身而言,用统计学指标描述其特征的分析方法,这种描述看似简单,实际上却是很多高级分析的基础工作,很多高级分析方法对于数据都有一定的假设和适用条件,这些都可以通过描述性统计分析加以判断,我们也会发现,很多分析方法的结果中,或多或少都会穿插一些描述性分析的结果。
描述性统计主要关注数据的三大内容:1.集中趋势2.离散趋势3.数据分布情况描述集中趋势的指标有均值、众数、中位数,其中均值包括截尾均值、几何均值、调和均值等。
描述离散趋势的指标有频数、相对数、方差、标准差、标准误、全距、四分位间距、四分位数、百分位数、变异系数等。
注意:连续型变量和离散型变量的指标有所不同。
由于很多统计分析都有一个正态分布的假设,因此我们经常也会关注数据的分布特征,常用峰度系数和偏度系数来描述数据偏离正态分布的程度,也可以使用Bootstrap方法计算出结果与经典统计学方法计算出的结果进行对比,如果差异明显,则说明原数据呈偏态分布或存在极值SPSS用于描述性统计分析的过程大部分都在分析—描述统计菜单中,另有一个在比较均值—均值菜单,虽然这几个过程用途不同,但是基本上都可以输出常用的指标结果。
一、分析—描述统计—频率此过程可以输出连续型变量集中趋势和离散趋势的主要指标,还可以输出判断分布的直方图、峰度值和偏度值,此外,该过程最主要的作用是输出频数表,结果举例如下:二、分析—描述统计—描述看起来似乎这个过程才是正统的描述统计分析过程,实际上该过程输出的内容并不多,也没有统计图可以调用,唯一特别的是该过程可以对数据进行标准化变换,并保存为新变量。
三、分析—描述统计—探索探索性分析是对原有数据进行描述性统计的基础上,更进一步的描述数据,和前两种过程相比,它能提供更详细的结果。
四、分析—描述统计—比率该过程主要用于对两个连续变量间的比率进行描述分析输出的结果比较简单,只是指标的汇总表格,在此略去五、分析—描述统计—交叉表分类变量的描述性统计比较简单,主要就是看频数分布和构成比,基本用交叉表一个过程就可以完成,该过程虽然放在描述统计中,但是由于功能丰富,也经常被用来做列联表的推断分析。
描述性统计分析讲课教案

(2)数据的集中趋势分析:数据的集中趋势分析是用来反映数据的一般水平,常用的 指标有平均值、中位数和众数等。各指标的具体意义如下:
中昊天成
数据分析
数据分析步骤 数据分析有极广泛的应用范围。典型的数据分析可能包含以下三个步: 1、探索性数据分析,当数据刚取得时,可能杂乱无章,看不出规律,通过作图、造表、 用各种形式的方程拟合,计算某些特征量等手段探索规律性的可能形式,即往什么方向 和用何种方式去寻找和揭示隐含在数据中的规律性。 2、模型选定分析,在探索性分析的基础上提出一类或几类可能的模型,然后通过进一 步的分析从中挑选一定的模型。 3、推断分析,通常使用数理统计方法对所定模型或估计的可靠程度和精确程度作出推 断。
(4)数据的分布:在统计分析中,通常要假设样本的分布属于正态分布,因此需要用 偏度和峰度两个指标来检查样本是否符合正态分布。偏度衡量的是样本分布的偏斜方 向和程度;而峰度衡量的是样本分布曲线的尖峰程度。一般情况下,如果样本的偏度 接近于0,而峰度接近于3,就可以判断总体的分布接近于正态分布。
(5)绘制统计图:用图形的形式来表达数据,比用文字表达更清晰、更简明。在 SPSS软件里,可以很容易的绘制各个变量的统计图形,包括条形图、饼图和折线图等。
据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以 求最大化地开发数据资料的功能,发挥数据的作用。是为了提取有用信息和形成结论而 对数据加以详细研究和概括总结的过程。 数据也称观测值,是实验、测量、观察、调查等的结果,常以数量的形式给出。 数据分析与数据挖掘密切相关,但数据挖掘往往倾向于关注较大型的数据集,较少侧重 于推理,且常常采用的是最初为另外一种不同目的而采集的数据。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
sfrancia varlist [if] [in]
④D’ Agostino检验
sktestdc varlist [=exp] [if exp] [in range] [, noadjust]
Page 10
STATA从入门到精通
【例5-4】下面我们依次举例说明这四个命令的使用,这里用到的数据仍 然是小时工资数据集wage1.dta。
semean 平均标准误 (sd/sqrt(n))
skewness偏度 median 中位数
iqr 四分位数间距(p75 - p25) q 等价于写p25 p50 p75
Page 5
STATA从入门到精通
【例5-2】这里使用的是wage1.dta数据集,我们说明使用tabstat计 算变量wage和log(wage)的相关统计量。
Page 15
STATA从入门到精通
【例5-6】使用数据集wage.dta,完成如下任务:
(1)得到的wage、educ、exper、tenure之间的相关系数矩阵, (2)得到的wage、educ、exper、tenure之间的协方差矩阵,
(3)sig选项给每一个相关系数做显著性检验,这个检验的原假设是 总体相关系数是0,在每一个相关系数下方标明了检验的p值。 star(.05)是为显著性超过0.05的相关系数打上星号,print(.05)则是仅 显示这些显著的相关系数,在下面的命令中我们添加这三个选项
x
x0.5 log(x) -x0.5 -x -x2 -x3
无
缓解正偏态 同上 同上 同上 同上 同上
Page 12
STATA从入门到精通
幂阶梯共有三个相关的命令,第一个命令ladder尝试表5.8所涉及到的九 种转换,然后分别进行正态性检验,这是幂阶梯最基本的命令:
ladder varname [if] [in]
format
separator(#) separator(0)
使用变量的显示格式。
每#个变量画一条分界线,默认为separator(5), 禁止使用分界线。
Page 3
STATA从入门到精通
【例5-1】现在我们利用小时工资数据集举例说明summarize的使用。 要求使用summarize命令对wage.dta执行如下操作:
接下来两个命令可以对这九种转换分别作直方图和分位正态图,以便直 观地判断各种转换的可行性,它们的格式是:
gladder varname [if] [in]
qladder varname [if] [in]
Page 13
STATA从入门到精通
【例5-5】下面我们具体说明这三个命令的使用,这里仍然使用 wage.dta数据集。
Page 9
STATA从入门到精通
②Shapiro—Wilk W检验
swilk varlist [if] [in] [, options]
该命令的选项及其含义是:generate(newvar) :产生包含W检验系 数的新变量; lnnormal:对ln(X-k)做正态性检验,其中k使得ln(X) 偏度为0。我们使用lnskew0来确定k的取值。 ③Shapiro—Francia W’检验
STATA 从入门到精通
第五章 描述性统计分析
5.1 描述性统计的原理
5.1.1定性变量
定义5.1 对给定的类,类(或组)频数是指落入这个类中的观测值的个数。 定义5.2 对给定的类,类(或组)相对频率是指落入这个类中的观测值的个数相 对于观测值总数的比例。 因此,频率和频数是描述定性变量的两个重要指标。 5.1.2.定量变量 集中趋势的度量:均值、中位数、众数。
(1)对wage、educ、exper、tenure、nonwhite、female、married 做基本的统计分析, (2)Summarize命令加上detail选项容许我们对某些重要的变量做更加 详尽的分析, (3)在summarize后使用in或者if来限制条件,可以获得对某个子样本 的描述性统计。 (4)使用outreg2命令导出描述性统计量。
by( ):另一种设置分组的方法,当分组变量过多时,利用该选项可以是图 形更加美观明了。
Page 7
STATA从入门到精通
【例5-3】我们仍以wage数据集为例,说明箱线图绘制命令的使用。
(1)首先在不加入任何选项的情况下绘制箱线图: (2)利用箱线图还可以比较不同性别的工资分布情况,
Page 2
STATA从入门到精通
5.2描述性统计量的Stata实现
使用summarize命令计算和导出描述性统计量
summarize [varlist] [if] [in] [weight] [, options]
summarize命令的选项及其含义 detail 产生更加详细的统计变量,包括偏度、峰度、最小和最 大的四个值以及各种百分位数。 meanonly 仅计算和显示平均数,本选项在编程中比较有用。
Page 8
STATA从入门到精通
5.4数据的正态性检验和数据转换
1.分位——正态图
分位——正态图的绘制的命令格式如下,
qnorm varname [if] [in] [, options]
2.正态性统计检验 这里我们介绍进行偏度—峰度检验(sktest)、D’ Agostino检验、 Shapiro—Wilk W检验和Shapiro—Francia W’检验的Stata命令。
Page 4
STATA从入门到精通
使用tabstat命令计算描述性统计量
. tabstat varlist [if] [in] [weight] [, options]
选项 mean sum range var 含义 平均数 加总 极差 方差 count / n sd 观测值数目 标准差 max/ min 最大值、最小值 cv 变异系数 (sd/mean) kurtosis p# 峰度 #%百分位数
原始(raw)
平方根(square-root) 对数(log) 平方根负倒数(negatine reciprocal root) 负倒数(negatine reciprocal) 平方负倒数(nagatine reciprocal quare) 立方负倒数(nagatine reciprocal cube)
各种正态性统计检验的命令格式和选项如下:
①偏度—峰度检验
sktest varlist [if] [in] [weight] [, noadjust]
noadjust选项用未经调整过的检验结果代替Royston (1991)对整体卡方 检验和显著性水平做调整后的结果,可能会降低检验的显著性水平, 使拒绝原假设的可能下降。
Stata的相关系数命令不仅可以得到通常的相关系数,还可以计算协方差 矩阵,更为有用的是它还提供了对缺失值的不同处理方法。 Pearson相关系数
correlate [varlist] [if] [in] [weight] [, correlate_options] pwcorr [varlist] [if] [in] [weight] [, pwcorr_options]
Page 11
STATA从入门到精通
5.4.3改变数据的分布
Stata提供了一个非 常强大的工具“幂阶 梯”(ladder of powers)可以尝试 表5-11所列的九种转 换的可能,然后依次 进行偏度——峰度检 验。
表5-11 幂转换阶梯 转换(tansfermation) 立方(cube) 平方(square) 公式 x3 x2 作用 缓解负偏态 同上
(1)首先使用stat()要求定制输出地统计指标:观测值的个数、平均 数、中位数、标准差、偏度、峰度, (2)如果在命令中加入选项col(stat)通过让统计量以列的方式呈现, 可以使结果更便于分析和对比, (3)下面我们加入by(female)选项和long选项,要求Stata根据性别 分别统计wage和lwage两个变量,并且标注变量名称:
变异程度的度量:极差、方差、标准差
相对位置的度量:标准得分 偏度和峰度:如果数据的分布是对称的,则偏度系数为0;如果偏度系数明显不等 于0,表明分布是非对称的。若偏度系数大于1或者小于-1,被称为高度偏态分布。 峰度通常是与标准正态分布比较,Stata计算的峰度系数未减3,故而是与3作比 较而不是与0作比较。若峰度系数等于3则服从标准正态分布,反之则意味着分 布比正态分布更尖或者更平。
graph box命令的选项:
over(varname[, over_subopts]):设定分组变量,变量可以是数值型或 者字符型变量,可以设置多达三个的分组变量。[, over_subopts]可以 指定用于排序的变量名称,也可以使用sort(1),则表明按照第一个分组 变量排序。默认排序方式为从小到大,在[, over_subopts]加入 descending则指定为按照中位数从大到小降序排列。
Page 6
STATA从入门到精通
ห้องสมุดไป่ตู้
5.3探测异常值——箱线图
下面的第一个命令绘制纵向图,第二个命令绘制横向图。
graph box yvars [if] [in] [weight] [, options]
graph hbox yvars [if] [in] [weight] [, options]
首先我们对wage变量进行偏度—峰度检验,
(2)接下来我们对wage变量分别进行W检验Swilk(Shapiro-Wilk W test for normality)和 W' 检验Sfrancia(Shapiro-Francia W' test for normality),
(3)最后演示D’ Agostino检验,使用的命令是sktestdc,这里我们 使用未经调整过的卡方检验,即添加noadjust选项: