xin第3章 描述统计学Ⅱ :数值方法
贾俊平 统计学 第3章 用统计量描述数据

3-6
第 3 章 用统计量描述数据
3.1 水平的度量
3.1.1 平均数 3.1.2 中位数和分位数 3.1.3 用哪个值代表一组数据?
3.1 水平的度量 3.1.1 平均数
统计学
STATISTICS (第四版)
平均数
(mean)
1. 2. 3. 4.
也称为均值,常用的统计量之一 消除了观测值的随机波动 易受极端值的影响 根据总体数据计算的,称为平均数,记为; 根据样本数据计算的,称为样本平均数, 记为x
2013-8-15
方法1:定义算法
方法2:较准确算法
(SPSS的算法)
3 - 19
统计学
STATISTICS (第四版)
四分位数的计算
(位置的确定)
n 1 2 1 2
方法3:
Q位置
其中[ ]表示中位数的位置取整。这样计算出的四分位数的 位置,要么是整数,要么在两个数之间0.5的位置上 方法4: Excel给出的四分位数位置的确定方法
对于k234该不等式的含义是至少有75的数据落在平均数加减2个标准差的范围之内至少有89的数据落在平均数加减3个标准差的范围之内至少有94的数据落在平均数加减4个标准差的范围之内323比较几组数据的离散程度离散系数32差异的度量离散系数coefficient标准差与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量单位的影响计算公式为离散系数例题分析例37评价哪名运动员的发挥更稳定发挥比较稳定的运动员是塞尔维亚的亚斯娜舍卡里奇和中国的郭文珺发挥不稳定的运动员蒙古的卓格巴德拉赫蒙赫珠勒和波兰的莱万多夫斯卡萨贡名运动员射击成绩的误差图例题分析graphserrorbarsimpledatachartaresummariesseparatevariables变量选入errorbarsbarsrepresentstandarddeviationsmultiplier框内输入所需的标准差倍数ok例子33分布形状的度量skewness统计学家kpearson于1895年首次提出
第三章_统计量描述统计

数据除了具有集 中趋势特征外, 还有分散趋势的 特征
乙商店
10 10
甲商店
0 可口 可乐 雪碧 杏 仁露 新 骑士 醒目
0 可口 可乐
雪碧
杏 仁露
新 骑士
醒目
Mo=可口可乐
Mo=可口可乐
虽然两商店软饮料购买频数的众数都是 可口可乐,但数据的离散程度不同。
23
离散趋势
二、离散趋势
乙城市 甲城市
非常不 满意
4. 均值
对组距数 据频数分 布表求均 值方法— 用组中值 代替该组 的各个值
__
x1 f1 x2 f 2 xn f n x 76 f
16
均值
4. 均值
___ xi x 0 1.所有观测值与其均值的离差之和等于0。 i 1 n
均值的性质
2.所有观测值与其均值的离差平方和最小。
2
fm
Me L x
n S 2 m1
利用两个三角形相 似原理,得到比例 关系,从中求出x
S m 1
x
i
L
11
四分位数
3. 四分位数
有50%的观测值小 于中位数
有50%的观测值 大于中位数
占25%数 据量位置 的分位数 最 小 观测值 下 四 分位数 (low quartile)
50%位置 的分位数
33 28 5 75 33 28 33 26
7
众数
由组距式频数分布表计算众数的原理
i
利用两个三角形相 似原理,得到比例 关系,从中求出x
x
f f 1
f f 1
x f f 1 i x f f 1
8
描述统计学

2. 数据汇总Summarizing Data频数分布与图形展示本章和下一章讨论有关统计描述的问题。
关于收集、组织、展示数值数据的方法。
其中包括描述各种数据分布,各种统计图形的使用,描述数据的各种指标,如平均值、期望值、方差等等。
2.1 频数分布Frequency distribution为了进行决策或推断,我们需要信息。
例如,为了进行制定有关销售方面的决策需要了解员工的实际销售情况,或者说要获得有关销售的信息。
获得了数据以后,就需要对数据进行组织,也就是将数据组织成容易观察的形式。
然后就是展示数据,通常都是以图形的方式。
最后就可以得出关于这一组数据的结论,并将这些结论用于决策。
一种常用的方式是首先获得一组原始数据。
将这组数据组织成数组,即将数据从大到小或从小到大进行排序。
然后将其总结成一组频数分布。
也就是将这一数组按一定的间隔进行计数,清点出位于每一间隔中的数据出现的次数。
这样就获得了频数表或频数分布。
频数分布就是一张显示一组数据位于每一独立区间间隔内的次数的数据表格。
频数分布也称为频数表。
频数分布又可以划分为定性数据的频数分布和定量数据的频数分布。
一般我们主要对定量数据进行频数分布研究。
为了建立一频数分布,我们需要确定: ▪ 间隔的数量,▪ 间隔的长度(或宽度),▪ 间隔的边界,或者说是划分间隔的位置 然后我们就可以清点落在每一间隔中的数值。
例:PP28表2-2显示了一个频数分布。
确定间隔长度(或宽度)的公式为:间隔数量最小值最大值估计的间隔长度-=在此,如果间隔数量选为8,则间隔的长度应该为:813.882600096500=-=估计的间隔长度当然,这个数值看起来不太好,所以可以取整为9000或10000。
如果我们不能确定应该用多少个间隔数量,则可以通过下列估计间隔长度的公式进行计算:)(322.31样本数最小值最大值间隔数长度Log +-=对于书中第27页表2-1中的例题,847120419983.2*322.3170500)160(322.312600096500=+=+-=Log 间隔数值然后是确定间隔的边界,通常我们以观察值中的最小值作为下界,最大值作为上界。
《统计学》-单薇主编-第3章 数据特征的度量 PPT

xi Me min
i1
中位数
(位置的确定)
未分组数据: 中位数位 n置 1 2
分组数据: 中位数位置n 2
数值型数据的中位数
(5个数据算例)
【例】 5个工人日产量
原始数据: 3 8 5 4 9 排 序: 3 4 5 8 9
位置
n1513 22
中位数 5
数值型数据的中位数
(6个数据的算例)
【例】:6个工人日产量
数据集中程度的度量反映 的是数据一般水平的代表值或者数 据分布的中心值。从不同的角度考 虑,集中程度的测度值有多个,我 们将一一介绍。
3.1数据集中程度的度量
3.1.1 均值 3.1.2 调和平均数 3.1.3 几何平均数 3.1.4 中位数 3.1.5 分位数 3.1.6 众数 3.1.7众数、中位数和均值的关系
i 表示众数组的组距
分组数据众数例题
众数、中位数和均值的关系
均值 中位数 众数 均值 = 中位数 = 众数
众数 中位数 均值
左偏分布
对称分布
右偏分布
众数、中位数、均值的特点和应用
1. 众数
▪ 不受极端值影响 ▪ 具有不惟一性 ▪ 数据分布偏斜程度较大时应用
2. 中位数
▪ 不受极端值影响 ▪ 数据分布偏斜程度较大时应用
原始数据: 3 8 5 4 9 11
排 序: 3 4 5 8 9 11
位置 n1613.5
22
中位数 5 8 6.5 2
分组数据的中位数公式
Me
L
N 2
Sm1 fm
i
N/2表示中位数所在位置;L表示中位数所在组的下组限; Sm-1表示中位数所在组以前各组的累积次数;fm表示中位 数所在组的次数;i表示中位数所在组的组距
第三章 统计学数据分布特征的描述

测定集中趋势指标的作用
1.反映变量分布的集中趋势和一般水平。
如用平均工资了解职工工资分布的中心,反映职工工资 的一般水平。
2.可用来比较同一现象在不同空间或不同阶段的发 展水平。
不受总体规模大小的影响; 在一定程度上使偶然因素的影响相互抵消。
3.可用来分析现象之间的依存关系。
如研究劳动者的文化程度与收入的关系。
社会经济统计中所应用的调和平均数通常是加权算 术平均数的变形。
已知各组变量值 xi 和(xi fi)而缺乏 fi 时,加权算 术平均数通常可变形为调和平均数形式来计算。
例3-4
解:
n
n
xi fi (xi fi )
x i1
i1
256 475 480
1211 100% 11.7%
x f! 1
x2 f2
... xk fk
x fi n i 1
fi i
i1
适用于各个变量值之间存在连乘积关系的场合。
主要用于计算现象的平均发展速度; 也适用于对某些具有环比性质的比率求平均。
例3-5
某企业产品的加工要顺次经过前后衔接的五道工序。本月该 企业各加工工序的合格率分别为88%、85%、90%、92%、 96%,试求这五道工序的平均合格率。
第三章 数据分布特征的描述
第一节 统计变量集中趋势的测定 第二节 统计变量离散程度的测定 第三节 变量分布的偏度与峰度 第四节 利用Excel计算描述统计
指标
第一节 统计变量集中趋势的 测定
一 测定集中趋势的指标及其作用 二 数值平均数 三 众数与中位数
一、测定集中趋势的指标及 其作用
集中趋势(Central tendency)
12 22800 0.120
统计学-第3章 数据的图表展示 学习指导

第3章(数据的图表展示)学习指导(一)数据的预处理数据预处理包括审核、筛选和排序。
1.对不同渠道取得的数据在审核内容和方法上有所不同。
直接调查取得的原始数据从完整性和准确性上去审核。
二手数据除审核其完整性和准确性外,还要审核其适用性和时效性。
2.数据的筛选包括两个方面:一是剔除错误数据;二是剔除不符合特定条件的数据。
3.数据排序是按一定的顺序将数据进行排列,以便发现数据的特征和趋势。
(二)品质数据的整理与显示品质数据的整理是对数据进行分类,计算出每一类别的频数、频率或比例、比率,并用图形进行显示。
(三)数值型数据的整理与显示品质数据的整理与显示方法都适用于数据型数据的整理与显示,但数据型数据还有一些特定的方法,而且这些方法不适用于品质数据。
(四)统计表统计表是用于显示统计数据的基本工具,由表头、行标题、列标题、数字资料以及表外附注组成。
概念练习一)单项选择题1、统计整理阶段最关键的问题是( )。
A、对调查资料的审核;B、统计分组;C、统计汇总;D、编制统计表。
2、统计分组的关键在于( )。
A、分组标志的正确选择;B、按品质标志分组;C、运用多个标志进行分组,形成一个分组体系;D、分组形式的选择。
3、某管理局对其所属企业的生产计划完成百分比采用如下分组,请指出哪项是正确的( )。
A、80-89%B、80%以下90-99%80.1-90%100-109%90.1-100%110%以上100.1-110%C、90%以下D、85%以下90-100%85-95%100-110%95-105%110%以上105-115%4、在进行组距式分组时,凡遇到某单位的标志值刚好等于相邻两组上下限的数值时,一般是( )。
A、将此值归人上限所在组;B、将此值归人下限所在组;C、将此值归人上限所在组或下限所在组均D、另行分组。
5、划分离散变量的组限时,相邻两组的组限( )。
A、必须是间断的;B、必须是重叠的;C、即可以是间断的,也可以是重叠的;D、应当是相近的。
统计学:3. 数据的定量统计描述
• 补充: 采用summarize , detail命令可以计算均数 、标准差、峰度系数、偏度系数、多个百 分位数。不加detial可以得到最大值、最小 值。
13
3.3 数据偏斜和尖削程度的统计描述
• 偏度系数 • 峰度系数
14
求偏度系数(skewness)
• 命令:
tabstat varlist [if] [in] [weight] [, options] 当option为 s(sk)时,为求变量的变异系数
17
数据的定量统计描述
1
3.1 数据集中趋势的统计描述
• 众数 • 中位数 • 平均数
2
求众数(mode)
• 方法一:命令(通过生成一个新的变量来求 众数)
egen [varname]=mode(varname)
• 举例:
use data2, clear
egen x=mode(femal)
disp x
8
求四分位差(interquartile range )
• 命令:
tabstat varlist [if] [in] [weight] [, options] 当option为 s(iqr)时,为求变量的四分位差
• 举例: use data2, clear tabstat age, s(iqr)
9
egen y=mode(age)
disp y
3
• 方法二:编程序
use data2, clear preserve //将数据表data2保留起来,未免被新数据覆盖 contract femal, freq(count) summ count //执行summ命令后,将部分统计值保存在数组r()中 keep if count = = r(max) list t varlist [if] [in] [weight] [, options] 当option为 s(sd)时,为求变量的标准差 当option为 s(v)时,为求变量的方差 • 举例: use data2, clear tabstat height, s(sd) tabstat height, s(v)
SPSS统计分析第3章 描述性统计分析(新 )
3.1 基本描述性统计量的定义及计算 3.1.3 描述总体分布形态的统计量
来自于正态总体的偏度及峰度均近似为0,可以利用偏 度和峰度的值是否接近0作为检验是否是正态分布的重要依 据。
3.2 频率分析 3.2.2 SPSS实例分析
【例3-1】以下是调查问卷中针对被调查人设置的两个问题: 1、您的家庭月收入大约是:(请包括所有工资、奖金、津贴等在内,以人 民币为单位)单选 500-1000……..1 1000-1999……2 2000-2999……3 3000-3999……4 4000-4999……5 5000-5999……6 6000-6999……7 7000-7999……8 8000-8999……9 9000-9999……10 10000及以上…11
2、 您的教育程度:(指您受过的最高或正在接受的教育程度)单选 没有受过正式教育/小学……….1 初中……………………..………2 高中/中专/技校… ……… ……..3 大专/大学非本科/高职高专……4 大学本科……………………….5 研究生及以上…………………..6 从问卷中收集到的数据如表4.1所示 , 试对收集到的数据进行频数分析
主要内容
3.1 基本描述性统计量的定义及计算 3.2 频数分析 3.3 描述性分析 3.4 探索性分析 3.5 交叉列联表分析 3.6 多选项分析
3.2 频率分析
3.2.1 基本概念及统计原理
频率就是一个变量在各个变量值上取值的个案数,分析 时不考虑其实际取值。基本统计分析往往从频率分析开始。 通过频率分析能够了解变量取值的状况,对把握数据的分布 特征是非常有用的。 例如,调查消费者拥有数码产品的数量,首先分析受访 者的总人数、家庭收入情况、受教育程度、性别等,获取样 本是否具有总体代表性、抽样是否存在系统偏差等信息。这 些可以通过频率分析来实现,经过频率分析可以得到如下结 果: (1)频率分布表:该表中包含频率、各频率占总样本数的 百分比、有效百分比、累计百分比。 (2)统计图:用统计图形展示变量的取值状况,频率分析 中提供的统计图形可以是条形图、饼图或者直方图。
吴喜之-统计学基本概念和方法-第三章数据的描述
读写数据文件
• Read.table函数
– Rt<-read.table(“house.data”,head=T)
• Scan函数
– W<-scan(“wight.data”);
• Write函数
– Write.table,write.csv
数据的图形描述
• > lines( w.density, col="blue"); • > x<- 44:76; • >lines(x, dnorm(x, mean(w), sd(w)), col="red" );
盒型图
• • 简单一些的是盒形图(boxplot,又称箱图、箱线图、盒子图)。 图左边一个是根据地区1高三男生的身高数据所绘的盒形图; 其右边的图代表另一个地区(地区2)的高三学生的身高
– Labs<-Paste(“X”,1:6,sep=“”)
• 复数向量
– X<-seq(-pi,pi,by=pi/10) – y<-sin(x) – Z<-complex(re=x,im=y) – Plot(z)
数字,字符和向量
• 将向量定义成数组
– z<-1:12,Dim(z)<-c(3,4)
• 用array构造数组
– X<-array(1:20,dim=c(4,5))
• 用matrix构造矩阵
– A<-matrix(1:15,nrow=3,ncol=5,byrow=TRUE)
数字,字符和向量
• 数组下标
– A<-1:24,dim(A)<c(2,3,4) – A[1,2:3,2:3]; A[1, ,];
第三章资料的测度与描述-统计学
n
=
n
Xi
2
X i i 1
n
2
i 1
n
0
n 1
3-23
變異數性質:
(1) 設X的母體變異數為
2 X
,平均數為X,
若Y = aX + b,a,b R,則 Y = aX + b,
Y = a2
2
2 X
,Y = |a|X
(2) ( X i )
统计学
3-1
第三章
■ 3-1 ■ 3-2 ■ 3-3 ■ 3-4 ■ 3-5 ■ 3-6 ■ 3-7
資料的測度與描述
集中趨勢量數 離勢量數 形狀 平均數與標準差的應用 枝葉圖及箱形圖 電腦範例 流程圖
3-2
透過各種蒐集方法的資料經過整理後,還 需進一步描述一群數量資料的特性,其方 法大致有:
1. 2. 3. 集中趨勢量數(measured of central tendency)。 離勢量數(measured of dispersion)。 形狀(shape)。
其中N表全部資料的個數,a表落在( - , + )之間的個數,b表落在 ( - 2, + 2 )之間的個數,c表落在( - 3, + 3 )之間的個數。
k
k
1
(,+)
至少0
2
2.5 3
( 2, + 2 )
至少75%
( 2.5, + 2.5) 至少84% ( 3 , + 3 ) 至少88.9%
3-40
• 二、經驗法則(empirical rule) • 設資料近似單峰對稱分配,則 • 1. 在平均數左右1個標準差之範圍內的觀 測值約佔68%。 • 2. 在平均數左右2個標準差之範圍內的觀 測值約佔95%。 • 3. 在平均數左右3個標準差之範圍內的觀 測值約佔99.7 %。 • 將謝比雪夫定理,經驗法則與實際結果整 理如下表: