统计学第三章单变量描述统计
统计学-单变量描述性统计

统计学-单变量描述性统计复习⼀遍统计学基础,准备spss的考试。
拿到⼀组陌⽣的数据,就像遇见⼀个陌⽣⼈,我们遇到⼀个陌⽣⼈,第⼀件事往往就是打量打量ta,处理数据也是如此。
描述性统计就是在打量⼀组数据,对数据有个⼤概对了解。
⼀般来说,对数据做三个处理:集中趋势central tendency,离散趋势dispersion tendency,分布形态distribution tendency。
虽然简单,但是最为基础,是我们后续数据分析的前提,通过对数据的描述性统计,我们才能选择合适的统计⽅法,以防误⽤。
单变量统计分析在⼀些书上⼜被叫做⼀元统计,只⾯对⼀个变量,⽅法⽐较死板固定单⼀。
part one:central tendency⼀种位置的统计量,把⼀个变量的不同观测(observation)集中到⼀个值上来表⽰。
1.mean(x-bar),算数均值(the average)⼀个东西。
——注意,使⽤时,数据要呈现正态分布,即使不满⾜,也应该要单峰&基本对称分布。
有极端值时不要选择⽤算数均值2.median,位置的中间数的值。
先找位置,再找值。
位置:(n+1)/2,奇数位置对应值,偶数?.5左右两个数字的mean。
——任意分布形态均可使⽤3.mode,众数4.其他:4.1截尾均数trimmed mean,⼜叫修正均数。
去除Max、Min5%。
好处是去掉了极端值的影响——有极端值时可以选⽤。
缺点是,10%的数据本⾝是真实信息,去掉了使得信息减少。
4.2⼏何均数 G(geometric mean)医学统计学中多使⽤,当data分布不对称,但是转换后呈现对称分布可以使⽤。
4.3调和均数mean和median相⽐,应该说mean的使⽤更⼴,使⽤的信息更全,在抽样调查中,mean的值随样本的变化⽽变化的幅度⼩,更为稳定,应该说是⼀个更好的统计量,但是⼀旦有极端值的存在,mean将会受到很⼤影响,因此此时应该使⽤median。
统计学第三章名词解释

3.1、什么是统计整理?统计整理的程序有哪些?统计整理是根据统计研究任务的要求,对统计调查阶段所取得的各项原始资料进行分类、汇总,使之系统化、条理化、科学化,得出能反映现象总体特征的综合资料的各种过程。
统计资料整理既是统计调查阶段的继续和深入,又是统计分析阶段的基础和前提,在统计工作中起着承前启后的作用。
(1)根据研究目的设计整理汇总方案。
(2)对统计调查资料进行审核、订正。
(3)进行统计分组和汇总。
(4)将汇总整理的资料编制成统计表(5)统计资料的积累、保管和公布。
3.2 统计资料审核哪些内容?统计调查资料的审查检查资料的完整性和及时性应以统计制度和调查方案为准,核实所有被调查单位的资料是否齐全,是否按规定的份数、项目和时间上报。
检查资料的准确性主要是核实调查材料的口径、计算方法、包括的范围、计量单位等是否符合要求。
检查的方法有逻辑检查和计算检查。
逻辑检查是从合理性方面去检查资料的正确性。
计算检查是通过计算,检查在计算方法、计量单位、计算结果、小计、合计、总计间的各项是否正确等等3.3、什么是统计分组?它有什么作用?统计分组根据统计研究的目的和客观现象的内在特点,按某个标志或几个标志把被研究的总体划分为若干个不同性质的组的一种统计方法。
统计分组的对象是总体。
统计分组标志可以是品质标志,也以是数量标志。
(1)划分社会经济现象的类型统计的研究对象是错综复杂的,具有各种不同的类型。
通过统计分组,可以从数量方面说明不同类型现象的数量特征,表明不同类型现象的本质和发展规律。
(2)反映现象的内部结构及其比例关系将所研究现象按某一标志进行分组,计算出各组在总体中的比重,用以说明总体内部的构成。
同时将总体各组之间进行对比,就可以反映各组之间的比例关系。
(3)分析现象之间的依存关系现象不是孤立的,而是相互依存和相互联系的.利用统计分组分析现象之间的依存关系,首先用影响标志对总体进行分组,然后计算出结果标志的数值,从而分析两个标志的联系程度和方向。
孙允午-统计学第三章

城镇电脑拥有量每百户47.2台。
农村网民对互联网各项功能应用 看网络新闻和使用搜索引擎的比例分别比城镇网民低了15和13个百分点;
但在网络音乐、游戏、影视等娱乐功能上,城乡应用程度相当。
资料来源:2007-9-9《解放日报》
M
e
f
L
2
s
m 1
f
i
3-9
m
中位数的特点
将总体次数一分为二 不受极端数值影响
四分位数
将一次数分布顺序排列并四等分,就形成 3 个 分割点。每一分割点的变量值记为M1、M2、M3 ,分别称其为第一、第二、第三个四分位数。 M1
M2 M3
Me 四分位数的确定
M M M
的位次 1
2
一 算术平均数
X
x
i 1 n
设一组数据为x1,x2,…,xn,则
x
x
1
x
2 n
x
n
i
n
(3 - 2)
设原始数据被分成k组,各组组中值为xi,各组 变量值出现的频数为fi,Σ fi=n,则
x
x f
1 k
x f x f f f f
1
1
2
2
k
k
∑ x f
i 1
例子
• 一定总体范围内粮食总产量 • 工农业总产值 • 企业单位数
分类
变量总值 按反映总体的内容分 单位总数 时期数 按反映的时间状态分 时点数 实物量 按计量单位分 价值量
指某变量观 察值之和 观察值的个数 表示一段时 期累积的总 量
统计学(第三章)

四、统计分组方法 统计分组的关键在于选择分组标志和 划分各组界限。划分各组界限,就是要在 分组标志的变异范围内,划定各相邻组之 间的性质界限和数量界限。 (一)按品质标志分组的方法 选择反映事物属性差异的标志作为分 组标志,界限比较明确,类型比较稳定。 如,企业按所有制分组、人口按性别分组 等。
(二)按数量标志分组的方法 数量标志有离散型和连续型之分,其分 组的方法和形式也不同。 1、按离散型变量标志分组其形式有2个 (单项式分组和组距式分组); 2、按连续型变量标志分组其形式只有一 个(组距式分组)。
某班级学生按性别分组 学生按性别分组 男 女 合 计 人数(人) 60 40 100
2、按数量标志分组。按数量标志分组 就是选择反映事物数量差异的数量标志作 为分组标志,并在数量标志的变异范围内 划定各组界限,将总体划分为性质不同的 若干组成部分。 3、根据分组选择标志的多少不同,统 计分组又可分为简单分组和复合分组。 简单分组。简单分组是指对统计总体 仅按一个标志进行分组。
二、统计整理的步骤 1.设计统计整理方案 2.对原始资料进行审核 3.对原始资料进行分组和汇总 4.编制统计表或绘制统计图 综上所述,设计整理方案、对原始资 料进行审核是整理的前提,统计分组是统 计整理的基础,统计汇总是统计整理的中 心环节,编制统计表或绘制统计图是统计 整理的结果。
1.2、统计分组 一、统计分组的意义 统计分组既是统计认识问题的一种基 本方法,又是统计整理工作的具体内容之 一,因此它在整个统计工作过程中具有十 分重要的作用。
4、次数分配的类型
对称分布
右偏分布
左偏分布
正J型分布
反J型分布
几种常见的频数分布
U型分布
1、钟形分布 钟形分布的特征是“中间多,两边少”,这类 分布是以平均值为中心的,越接近中心,分配的次 数越多,离中心越远,分配的次数越少,其曲线就 像一口古钟。
单变量的统计描述分析社会统计学

特点 概率密度函数关于均值对称。
偏态分布的概念与特点
概念:偏态分布是指概率密 度函数不对称于均值的情况。
特点
01
分布曲线可能有一个或多个
峰值。
02
03
分布曲线可能偏向均值的一 侧或两侧。
04
05
分布的离散程度可能大于正 态分布。
正态性与偏态性的判断与检验
判断方法
可以通过观察数据的直方图或Q-Q 图来判断数据的分布形态。正态分布 的直方图应该呈现钟形,而偏态分布 的直方图则可能呈现其他形状。
如果四分位距较大,说明数据分布较为分散,存在较大的异 常值;如果四分位距较小,说明数据分布较为集中,异常值 的影响较小。
06 正态分布与偏态分布
正态分布的概念与特点
概念:正态分布是一种连续概率分布, 其概率密度函数以均值为中心,呈钟形 对称。
曲线下的面积为1,代表所有可能结果的 概率总和。
分布曲线是单峰的,即只有一个峰值。
直方图是一种用直条矩形面积代表各组频数,各矩形面积总和代表频数的累积,以 扇形面积代表各组出现的频率的统计图。
直方图可以直观地展示数据的分布情况,帮助我们了解数据的离散程度和集中趋势。
在制作直方图时,需要选择合适的分组方法和组距,并根据数据的特征和需求进行 合理的调整。
饼图与环形图
• 饼图是一种圆形图表,用于表示各部分在总体中所 占的比例。
03
中位数主要用于描述偏态分布的数据,对于异常值不敏感。
众数
01
众数是数据中出现次数最多的数值。
02
对于未分组的数据,众数是一组数据中出现次数最多的数值;
对于分组数据,众数是某一组别的频数最高。
众数主要用于描述分类数据的集中趋势,不适用于连续型数据。
高等职业教育“十一五”规划教材《统计学》第三章课后习题及答案

高等职业教育“十一五”规划教材《统计学》第三章课后习题及答案高等职业教育“十一五”规划教材《统计学》第三章课后习题及答案一.判断题1.对于连续变量,根据“排除上限”的原则总结其组限。
对。
所谓“上组限不在内”的原则,是对连续变量分组采用重合组限时,习惯上规定一般只包括本组下限变量值的单位,而当个体的变量值恰为组的上限是时,不包括在本组。
2.统计资料的整理不仅是对原始资料的整理,而且还包括对次级资料的整理。
对。
3.确定组限时,最大组上限必须大于最大变量值,最小组下限必须小于最小变量值。
错,这意味着你也可以在封闭的小组中尝试。
4.对统计总体进行分组是由于总体各单位的“同质性”所决定的。
错,将原始数据按照某种标准化分成不同的组别。
5.对连续变量进行分组时,它们的分组极限可以用“不重叠”的形式表示。
对二.单项选择题a组的中值是550组的下限,B组的中值是550组的下限a.550b.650c.700d.750因为它是一个连续变量,所以变量的值是连续的。
由于最后一组的起始下限大于相邻组的中值,请注意这是一个递减变量序列。
一个组的最小值叫做下限。
所以这里的下限实际上是相邻群的上限。
因此,最后一组的下限=相邻组的上限,因此相邻组的上限也为600。
另一个相邻组的组中值为550,因此可以确定相邻组的组距离为100。
重新使用公式:无上限开放组的中值=下限+相邻组的组距离/2,最后一组的中值为650。
2.对一个总体选择三个标志做复合分组,按各个标志所分的组数分别为3、4、5,则所分的全部组数为(a)a、 60b。
12c。
30天。
六3.某小区居民人均月收入最高为5500元,最低为2500元,据此分为6组,形成等距数列,其组距应为(a)a、 500b。
600摄氏度。
550d。
6504.整理统计数据的主要环节是(c)a.编制统计报表b.审核汇总资料c.审核原始资料d.设计整理方案5.对于一年的收入变量序列,分组为10万元以下、10万-20万元、20万-30万元和30万元以上,则为(c)a、10万元应归入第一组b、20万元应归入第二组c、20万元应归入第三组d、30万元应归入第三组6.组号与组距的关系为(a)a.组数越多,组距越小b.级数越多,组距越大c.组数与组距无关d.组数越少,组距越小三.简答题1.简要说明统计排序的意义和内容统计整理,首先要搞清楚教材当中关于统计整理的内容,通常理解的统计整理包括制作次数分布、或者给出排秩、等级的结果,有些还可能包括对数据的类型的判别、编码和对原始数据的必要转换等.有些人认为描述统计也可以视为统计整理的内容,或者是汇总统计的内容.根据统计整理的内容再来回答其意义.主要是可以在正式的描述统计和推断统计之前,预先了解和掌握数据的大致状况,尤其是其分布和次数特征,以便根据数据的类型选择适当的统计方法(不论是描述统计还是推断统计,很重要的一点是依据数据的类型来选择统计法).有些时候,需要对数据进行必要的转换,也是为了便于后继的统计,如由量表原始数据转换成量表得分,原始数据转换成标准分数,或者转换成可统计的某种指标等.简而言之,数据整理就是服务于后续的统计过程,使原始测量数据满足统计方法的需要,为统计方法的选择提供依据。
《统计学》第三章--统计指标

常住单位是在一国经济领土上具有经济利益中
心的机构单位。
机构单位是国民经济统计的基本经济单位,它 是能以自己的名义拥有资产、发生负债、从事经济 活动并与其它实体进行交易的经济实体。
“非常住单位”——也称为“国外” 。
经济领土是由一国政府控制的地理领土组成。 我国的经济领土—— 包括我国大陆的领地、领海、领空和位于国际水 域而我国具有捕捞和海底开采管辖权的大陆架、我 国住外使馆、领馆用地, 不包括位于我国领土范围内的外国使馆、领馆用 地及国际组织用地。
保险密度=保费/人口数 金融相关度(率)=金融资产总量/GNP
每万人口医院病床数
年份
每万人口医院病床数(张/万人)
2001 2002 2003 2004 2007
23.9 23.2 23.4 24.0 26.3
强度相对数的特点
相对数是惟一有单位(且为复名数)的相对数 (有的也用无名数形式);
分子分母一般可以互换,故有正指标与逆指标之 分。
4.40 31.20 27.90 63.10
66.40
10.60
7.90 28.10 26.80 61.20
65.10
33.80 29.50 65.50
69.60
2.60 14.50
1.60 10.20
23.20 28.40
20.60 29.80
74.30 57.10
77.80 60.00
2.比例相对数——比例(结构性的比例)
•货币化程度=用货币支付的商品和劳务总量 / 全部商品和劳务总量
国家和地区
中国 日本 韩国
新加坡
美国 俄罗斯联邦
按三次产业分就业人员构成
第一产业
第二产业
第三章 变量分布特征的描述 《统计学》PPT课件

2.四分位差:四分位差作为变异程度的一种度量,能够克服 异常值的影响。它是第三个四分位数与第一个四分位数的差 值。也就是说,四分位差是中间50%的数据的全距。
Qd QU QL
四分位差弥补了全距容易受极端值影响的缺陷。剔除数据中最小25%和最 大25%的数据,反映了中间50%数据的离散趋势。数值越小,说明中间的 数据越集中;数值越大,说明中间的数据越分散。
x me mo
3.根据经验,在轻微偏态时,不论是左偏还是右偏,众数与算术平均
数的距离约等于中位数与算术平均数距离的3倍,即 mo x 3me -x
右偏分布
M0 Me x
对称分布
左偏分布
x
x Me M0
Me
M0
第二节 离中趋势的描述
所谓离中趋势,就是变量分布中各变量值背离中心值的倾向。 如果说集中趋势体现变量分布的同质性,那么离中趋势就是变 量分布变异性的体现。对离中趋势的描述就是要反映变量分布 中各变量值远离中心值的程度,以反映变量分布的特征。
H 20 3
3
15.83
20 20 20 1 1 1
18 16 14 18 16 14
2.加权调和平均数:当各组的标志总量不相等时,所计算的 调和平均数要以各组的标志总量为权数,其结果即为加权调 和平均数。
H m1 m2 m1 m2 x1 x2
k
mk
mk
mi
i 1
k mi
x x1 x2 xn 95% 92% 90% 85% 80% 88.40%
n
5
G n x1 x2 x3 xn 5 95%92%90%85%80% 88.24%
2.加权几何平均数:当计算几何平均数的各变量值出现的次 数不等,即数据经过了统计分组时,则应采用加权几何平均 数。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
107.5 112.5 117.5 122.5 127.5 132.5 137.5
—
3
246.49
739.47
5
114.49
572.45
8
32.49
259.92
14
0.49
6.86
10
18.49
184.90
6
86.49
51850
—
3100.5
16
8.0
”来反映城市居民对广告
10
5.0
关注的一般趋势,其代表
2
1.0
性不是很好
合计
200
100
四分位差(定序数据)
离散程度的测度值之一 也称为内距或四分间距 上四分位数与下四分位数之差
QD = QU - QL
反映了中间50%数据的离散程度
不受极端值的影响
用于衡量中位数的代表性
对称分布
右偏分布
数据类型与集中趋势测度值
数据类型和所适用的集中趋势测度值
数据类型 定类数据 定序数据 定距数据 定比数据
※众数
※中位数
※均值
※均值
适 用
—
四分位数
众数
调和平均数
的
—
众数
中位数 几何平均数
测
—
度
值
—
—
四分位数
中位数
—
—
四分位数
—
—
—
众数
离散趋势及其测度
数据的特征和测度(本节位置)
定类数据 定序数据 定距数据 定比数据
累计次数分布
累计频数
向上累计 将各组次数和比率,由变量值低的组向变量
值高的组逐组累计。 向下累计 将各组次数和比率,由变量值高的组向变量
值低的组逐组累计。 参照P62表3-3
数据分布的特征
集中趋势 (位置)
离中趋势 (分散程度) 偏态和峰度 (形状)
单变量 描述统计
学习提纲
频数与累计频数 集中趋势的度量 离散程度的度量 相对位置与异常值的检验 偏态与峰度的测度
频数与累计频数
频数——次数
对总体经过分组后形成各组单位数在各组间的分布。 也就是各类别中的数据个数。
频数分布——次数分布,分布数列
总体中的各个类别及其相应的频数全部展示出来的 数据集汇总表
方差和标准差
离散程度的测度值之一 最常用的测度值
X = 8.3
反映了数据的分布
4 6 8 10 12
反映了各变量值与均值的平均差异
各变量值对均值的方差小于对任意值的 方差
根据总体数据计算的,称为总体方差或标准差; 根据样本数据计算的,称为样本方差或标准差
总体方差和标准差
方差的计算公式
组距分组数据: 中位数位置 f 1
2
未分组数据的中位数(计算公式)
Me
X
N 1 2
1 2
X
N 2
X
N 2
1
当N为奇数时 当N为偶数时
定序数据中位数
【例2】根据表3-2中的数据,计算甲城市家庭对住房 满意状况评价的中位数
表2 甲城市家庭对住房状况评价的频数分布
4. 主要用于定序数据,也可用于数值型数据 ,但不能用于定类数据
四分位数(位置的确定)
未分组数据:
下四分位数(QL)位置 =
N+ 14
3(N+1) 上四分位数(QU)位置 = 4
组距分组数据:
下四分位数(QL)位置 =
N 4
上四分位数(QL)位置 =
3N 4
百分位数
P百分位数
p%的数据项的值小于等于P百分位数 (100-p)%的数据项的值大于等于P百分位
平均差(计算过程及结果)
【例6】根据第三章表3-5中的数据,计算工人日加工零件数 的平均差
表 某车间50名工人日加工零件标准差计算表
按零件数分组
105~110 110~115 115~120 120~125 125~130 130~135 135~140
合计
组中值(Xi) 107.5
频数(Fi) 3
四分位差(定序数据的算例)
【例5】根据表3-2中的数据,计算甲城市家庭对住房 满意状况评价的四分位差
表3-2 甲城市家庭对住房状况评价的频数分布
回答类别
甲城市
户数 (户)
累计频数
非常不满意
24
24
不满意
108
132
一般
93
225
满意
45
270
非常满意
30
300
合计
300
—
解:设非常不满意为1,不 满意为2, 一般为3, 满意 为 4, 非常满意为5 已知 QL = 不满意 = 2,
n
( X i X )2 min
i 1
调和平均数
集中趋势的测度值之一 均值的另一种表现形式 易受极端值的影响 用于定比数据 不能用于定类数据和定序数据 计算公式为
HM
X i Fi X i Fi Xi
X i Fi Fi
几何平均数
集中趋势的测度值之一 N 个变量值乘积的 N 次方根 适用于特殊的数据 主要用于计算平均发展速度 计算公式为
股票名称 价格 数量
购买总金额
某高速 3.5
16
某电子 4.1
12
某科技 5.6
18
某药业 9.8
3
某环保 15.6 2
合计
51
56 49.2 100.8 29.4 31.2 266.6
均值
1. 各变量值与均值的离差之和等于零
n
(Xi X) 0
i 1
2. 各变量值与均值的离差平方和最小
集中趋势的测度
定类数据:众数
定序数据:中位数和分位数
定距和定比数据:均值
众数
集中趋势测度值之一 出现次数最多的变量值 不受极端值的影响 可能没有众数或有几个众数 主要用于定类数据,也可用于定序数据和数
值型数据
数值型分组数据的众数
出现次数最多的组作为众数所在组 众数的区间范围:众数所在组的区间
数
均值
集中趋势的测度值之一 最常用的测度值 一组数据的均衡点所在 易受极端值的影响 用于数值型数据,不能用于定类数据
和定序数据
均值
设一组数据为:X1 ,X2 ,… ,XN
简单均值的计算公式为
N
X
X1 X2 XN
Xi
i 1
N
N
设分组后的数据为:X1 ,X2 ,… ,XK
数据的特征和测度
集中趋势
众数 中位数 均值
离散程度
分布的形状
异众比率 四分位差 方差和标准差 离散系数
偏态 峰度
离中趋势
数据分布的另一个重要特征
离中趋势的各测度值是对数据离散程度所作的描 述
反映各变量值远离其中心值的程度,因此也称为 离中趋势
从另一个侧面说明了集中趋势测度值的代表程度 不同类型的数据有不同的离散程度测度值
作为中心的变量值就是平均指标
同质总体中各单位某一数据所达到的一般水平
集中趋势(Central tendency)
集中趋势
不同类型的数据用不同的集中趋势测度值
一组数据向其中心值靠拢的 倾向和程度
低层次数据的集中趋势测度值适用于高层次 的测量数据,反过来,高层次数据的集中趋 势测度值并不适用于低层次的测量数据
【例4】根据下表数据,计算异众比率
表3 某城市居民关注广告类型的频数分布
广告类型
人数(人) 频率(%)
商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告
112
56.0
在 所 调 查 的 200 人 当 中 ,
51
25.5
关注非商品广告的人数占
9
4.5
44%,异众比率还是比较
大。因此,用“商品广告
105~110
3
3
110~115
5
8
115~120
8
16
120~125
14
30
125~130
10
40
130~135
6
46
135~140
4
50
合计
50
—
四分位数
1. 集中趋势的测度值之一 2. 排序后处于25%和75%位置上的值
25% 25% 25% 25%
QL
QM
QU
3. 不受极端值的影响
| Xi- X | 15.7
112.5
5
10.7
117.5
8
5.7
122.5
14
0.7
127.5
10
4.3
132.5
6
9.3
137.5
4
14.3
—
50
—
K
M D
i 1
Xi
K
X Fi
Fi
312 6.2( 4 个) 50
i 1
|Xi-X |Fi 47.1 53.5 45.6 9.8 43.0 55.8 57.2 312
乙组: 考试成绩(X ): 0 20 100 人数分布(F ):8 1 1
X甲
i=1 Xi n
X乙
i=1 Xi n
0×1+20×1+100×8