统计学第三章单变量描述统计

合集下载

应用统计学(第三章 数据的描述性分析)

应用统计学(第三章 数据的描述性分析)

累积频率 Cumulative P
0.02 0.09 0.28 0.63
0.84 0.95 1.00
a.自然值进行分组,最大值17,最小值11 b.数据主要集中在14,向两侧分布逐渐减少
(3)计量数据
100例健康男子血清总胆固醇(mol/L)测定结果
4.77 3.37 6.14 3.95 3.56 4.23 4.31 4.71 5.69 4.12 4.56 4.37 5.39 6.30 5.21 7.22 5.54 3.93 5.21 6.51 5.18 5.77 4.79 5.12 5.20 5.10 4.70 4.74 3.50 4.69 4.38 4.89 6.25 5.32 4.50 4.63 3.61 4.44 4.43 4.25 4.03 5.85 4.09 3.35 4.08 4.49 5.30 4.97 3.18 3.97 5.16 5.10 5.85 4.79 5.34 4.24 4.32 4.77 6.36 6.38 4.88 5.55 3.04 4.55 3.35 4.87 4.17 5.85 5.16 5.09 4.52 4.38 4.31 4.58 5.72 6.55 4.76 4.61 4.17 4.03 4.47 3.40 3.91 2.70 4.60 4.09 5.96 5.48 4.40 4.55 5.38 3.89 4.60 4.47 3.64 4.34 5.18 6.14 3.24 4.90
15
21
0.21
0.84
16
11
0.11
0.95
17
5
0.05
1.00
表 2-2 100只梅花鸡每月产蛋数次数分布表
每月产蛋数
11 12 13 14 15 16 17

统计学-单变量描述性统计

统计学-单变量描述性统计

统计学-单变量描述性统计复习⼀遍统计学基础,准备spss的考试。

拿到⼀组陌⽣的数据,就像遇见⼀个陌⽣⼈,我们遇到⼀个陌⽣⼈,第⼀件事往往就是打量打量ta,处理数据也是如此。

描述性统计就是在打量⼀组数据,对数据有个⼤概对了解。

⼀般来说,对数据做三个处理:集中趋势central tendency,离散趋势dispersion tendency,分布形态distribution tendency。

虽然简单,但是最为基础,是我们后续数据分析的前提,通过对数据的描述性统计,我们才能选择合适的统计⽅法,以防误⽤。

单变量统计分析在⼀些书上⼜被叫做⼀元统计,只⾯对⼀个变量,⽅法⽐较死板固定单⼀。

part one:central tendency⼀种位置的统计量,把⼀个变量的不同观测(observation)集中到⼀个值上来表⽰。

1.mean(x-bar),算数均值(the average)⼀个东西。

——注意,使⽤时,数据要呈现正态分布,即使不满⾜,也应该要单峰&基本对称分布。

有极端值时不要选择⽤算数均值2.median,位置的中间数的值。

先找位置,再找值。

位置:(n+1)/2,奇数位置对应值,偶数?.5左右两个数字的mean。

——任意分布形态均可使⽤3.mode,众数4.其他:4.1截尾均数trimmed mean,⼜叫修正均数。

去除Max、Min5%。

好处是去掉了极端值的影响——有极端值时可以选⽤。

缺点是,10%的数据本⾝是真实信息,去掉了使得信息减少。

4.2⼏何均数 G(geometric mean)医学统计学中多使⽤,当data分布不对称,但是转换后呈现对称分布可以使⽤。

4.3调和均数mean和median相⽐,应该说mean的使⽤更⼴,使⽤的信息更全,在抽样调查中,mean的值随样本的变化⽽变化的幅度⼩,更为稳定,应该说是⼀个更好的统计量,但是⼀旦有极端值的存在,mean将会受到很⼤影响,因此此时应该使⽤median。

孙允午-统计学第三章

孙允午-统计学第三章
城乡“数字鸿沟”差距达4倍。 截至2006年,农村家庭拥有的电脑数量为每百户2.7台,
城镇电脑拥有量每百户47.2台。
农村网民对互联网各项功能应用 看网络新闻和使用搜索引擎的比例分别比城镇网民低了15和13个百分点;
但在网络音乐、游戏、影视等娱乐功能上,城乡应用程度相当。
资料来源:2007-9-9《解放日报》
M
e
f
L
2

s
m 1
f
i
3-9
m
中位数的特点
将总体次数一分为二 不受极端数值影响
四分位数
将一次数分布顺序排列并四等分,就形成 3 个 分割点。每一分割点的变量值记为M1、M2、M3 ,分别称其为第一、第二、第三个四分位数。 M1
M2 M3
Me 四分位数的确定
M M M
的位次 1
2
一 算术平均数
X
x
i 1 n
设一组数据为x1,x2,…,xn,则
x
x
1
x
2 n
x
n

i
n
(3 - 2)
设原始数据被分成k组,各组组中值为xi,各组 变量值出现的频数为fi,Σ fi=n,则
x
x f
1 k
x f x f f f f
1

1
2
2
k
k

∑ x f
i 1
例子
• 一定总体范围内粮食总产量 • 工农业总产值 • 企业单位数
分类
变量总值 按反映总体的内容分 单位总数 时期数 按反映的时间状态分 时点数 实物量 按计量单位分 价值量
指某变量观 察值之和 观察值的个数 表示一段时 期累积的总 量

研究生 统计学讲义 第2讲 第3章 定量资料的统计描述

研究生 统计学讲义 第2讲 第3章 定量资料的统计描述

3.u值在-0.46~1.23范围内的面积为Ф(1.23)-Ф(- 0.46)=0.8907-0.3228=0.5679,即血清蛋白含量在 72.0g/L~78.6g/L范围内的概率为56.79%。 4. 168名健康女大学生血清总蛋白含量在72.0~ 78.6g/L范围的人数为168×56.79%=95人
493 488 483 490 454 435 412 437 334 495 ……………………………………………………………………
417 500 517 503 534 546 416 520
用途:1.揭示资料的分 布特征和分布类型。
2. 便于进一步计算统 计指标和分析处理。 3.便于发现某些特大 或特小的特异值。 图像:对称、左偏、右 偏。特征:集中、离散
1.正态随机变量的概率密度函数的形式为
f ( x)
1
2
e
( x ) 2 / 2 2
这个密度函数肯定不简单!是个坏消息.为求累积概 率分布,需要对f (x)积分.但是不存在f (x)的不定积 分.那就意味着人们不能利用微积分基本公式去计算 所需要的积分.于是用一些精确值近似代替曲线下的 实际面积,造出正态分布表.于是用一些精确值近似 代替曲线下的实际面积,造出正态分布表. 下图给出具有平均值μ和标准差σ正态密度函数图, 注意它有几个特点.
3.正态分布的应用
1.很多抽样分布如 2 分布、t 分布以正态分布为基础。
2.正态分布的规律 运用于区间估计和假设检验如 t 检验、方差分析及直 线相关分析的计算公式等。
3.二项分布、Poisson分布、t 分布的极限分布是正态分布。
4.许多医药指标如人体的某些正常生理值都可看作和近似看作服从正态 分布。医药科研中很多资料如毒物致死量、食物中毒潜伏期,剂量一效 应曲线、正常成人血铅含量等,虽不服从正态分布,但经变量变换(如取 对数)后则服从正态分布或近似正态分布,可按正态分布规律来处理

统计学(第三章)

统计学(第三章)

四、统计分组方法 统计分组的关键在于选择分组标志和 划分各组界限。划分各组界限,就是要在 分组标志的变异范围内,划定各相邻组之 间的性质界限和数量界限。 (一)按品质标志分组的方法 选择反映事物属性差异的标志作为分 组标志,界限比较明确,类型比较稳定。 如,企业按所有制分组、人口按性别分组 等。
(二)按数量标志分组的方法 数量标志有离散型和连续型之分,其分 组的方法和形式也不同。 1、按离散型变量标志分组其形式有2个 (单项式分组和组距式分组); 2、按连续型变量标志分组其形式只有一 个(组距式分组)。
某班级学生按性别分组 学生按性别分组 男 女 合 计 人数(人) 60 40 100
2、按数量标志分组。按数量标志分组 就是选择反映事物数量差异的数量标志作 为分组标志,并在数量标志的变异范围内 划定各组界限,将总体划分为性质不同的 若干组成部分。 3、根据分组选择标志的多少不同,统 计分组又可分为简单分组和复合分组。 简单分组。简单分组是指对统计总体 仅按一个标志进行分组。
二、统计整理的步骤 1.设计统计整理方案 2.对原始资料进行审核 3.对原始资料进行分组和汇总 4.编制统计表或绘制统计图 综上所述,设计整理方案、对原始资 料进行审核是整理的前提,统计分组是统 计整理的基础,统计汇总是统计整理的中 心环节,编制统计表或绘制统计图是统计 整理的结果。
1.2、统计分组 一、统计分组的意义 统计分组既是统计认识问题的一种基 本方法,又是统计整理工作的具体内容之 一,因此它在整个统计工作过程中具有十 分重要的作用。
4、次数分配的类型
对称分布
右偏分布
左偏分布
正J型分布
反J型分布
几种常见的频数分布
U型分布
1、钟形分布 钟形分布的特征是“中间多,两边少”,这类 分布是以平均值为中心的,越接近中心,分配的次 数越多,离中心越远,分配的次数越少,其曲线就 像一口古钟。

单变量的统计描述分析社会统计学

单变量的统计描述分析社会统计学

特点 概率密度函数关于均值对称。
偏态分布的概念与特点
概念:偏态分布是指概率密 度函数不对称于均值的情况。
特点
01
分布曲线可能有一个或多个
峰值。
02
03
分布曲线可能偏向均值的一 侧或两侧。
04
05
分布的离散程度可能大于正 态分布。
正态性与偏态性的判断与检验
判断方法
可以通过观察数据的直方图或Q-Q 图来判断数据的分布形态。正态分布 的直方图应该呈现钟形,而偏态分布 的直方图则可能呈现其他形状。
如果四分位距较大,说明数据分布较为分散,存在较大的异 常值;如果四分位距较小,说明数据分布较为集中,异常值 的影响较小。
06 正态分布与偏态分布
正态分布的概念与特点
概念:正态分布是一种连续概率分布, 其概率密度函数以均值为中心,呈钟形 对称。
曲线下的面积为1,代表所有可能结果的 概率总和。
分布曲线是单峰的,即只有一个峰值。
直方图是一种用直条矩形面积代表各组频数,各矩形面积总和代表频数的累积,以 扇形面积代表各组出现的频率的统计图。
直方图可以直观地展示数据的分布情况,帮助我们了解数据的离散程度和集中趋势。
在制作直方图时,需要选择合适的分组方法和组距,并根据数据的特征和需求进行 合理的调整。
饼图与环形图
• 饼图是一种圆形图表,用于表示各部分在总体中所 占的比例。
03
中位数主要用于描述偏态分布的数据,对于异常值不敏感。
众数
01
众数是数据中出现次数最多的数值。
02
对于未分组的数据,众数是一组数据中出现次数最多的数值;
对于分组数据,众数是某一组别的频数最高。
众数主要用于描述分类数据的集中趋势,不适用于连续型数据。

《统计学》第三章--统计指标

《统计学》第三章--统计指标

常住单位是在一国经济领土上具有经济利益中
心的机构单位。
机构单位是国民经济统计的基本经济单位,它 是能以自己的名义拥有资产、发生负债、从事经济 活动并与其它实体进行交易的经济实体。
“非常住单位”——也称为“国外” 。
经济领土是由一国政府控制的地理领土组成。 我国的经济领土—— 包括我国大陆的领地、领海、领空和位于国际水 域而我国具有捕捞和海底开采管辖权的大陆架、我 国住外使馆、领馆用地, 不包括位于我国领土范围内的外国使馆、领馆用 地及国际组织用地。
保险密度=保费/人口数 金融相关度(率)=金融资产总量/GNP
每万人口医院病床数
年份
每万人口医院病床数(张/万人)
2001 2002 2003 2004 2007
23.9 23.2 23.4 24.0 26.3
强度相对数的特点
相对数是惟一有单位(且为复名数)的相对数 (有的也用无名数形式);
分子分母一般可以互换,故有正指标与逆指标之 分。
4.40 31.20 27.90 63.10
66.40
10.60
7.90 28.10 26.80 61.20
65.10
33.80 29.50 65.50
69.60
2.60 14.50
1.60 10.20
23.20 28.40
20.60 29.80
74.30 57.10
77.80 60.00
2.比例相对数——比例(结构性的比例)
•货币化程度=用货币支付的商品和劳务总量 / 全部商品和劳务总量
国家和地区
中国 日本 韩国
新加坡
美国 俄罗斯联邦
按三次产业分就业人员构成
第一产业
第二产业

第三章 变量分布特征的描述 《统计学》PPT课件

第三章  变量分布特征的描述  《统计学》PPT课件

2.四分位差:四分位差作为变异程度的一种度量,能够克服 异常值的影响。它是第三个四分位数与第一个四分位数的差 值。也就是说,四分位差是中间50%的数据的全距。
Qd QU QL
四分位差弥补了全距容易受极端值影响的缺陷。剔除数据中最小25%和最 大25%的数据,反映了中间50%数据的离散趋势。数值越小,说明中间的 数据越集中;数值越大,说明中间的数据越分散。
x me mo
3.根据经验,在轻微偏态时,不论是左偏还是右偏,众数与算术平均
数的距离约等于中位数与算术平均数距离的3倍,即 mo x 3me -x
右偏分布
M0 Me x
对称分布
左偏分布
x
x Me M0
Me
M0
第二节 离中趋势的描述
所谓离中趋势,就是变量分布中各变量值背离中心值的倾向。 如果说集中趋势体现变量分布的同质性,那么离中趋势就是变 量分布变异性的体现。对离中趋势的描述就是要反映变量分布 中各变量值远离中心值的程度,以反映变量分布的特征。
H 20 3
3
15.83
20 20 20 1 1 1
18 16 14 18 16 14
2.加权调和平均数:当各组的标志总量不相等时,所计算的 调和平均数要以各组的标志总量为权数,其结果即为加权调 和平均数。
H m1 m2 m1 m2 x1 x2
k
mk
mk
mi
i 1
k mi
x x1 x2 xn 95% 92% 90% 85% 80% 88.40%
n
5
G n x1 x2 x3 xn 5 95%92%90%85%80% 88.24%
2.加权几何平均数:当计算几何平均数的各变量值出现的次 数不等,即数据经过了统计分组时,则应采用加权几何平均 数。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
表3-2 甲城市家庭对住房状况评价的频数分布
回答类别
甲城市 户数 (户) 累计频数
解:设非常不满意为1,不 满意为 2, 一般为 3, 满意 为 4, 非常满意为5 已知 QL = 不满意 = 2, QU = 一般 = 3 四分位差:
非常不满意 不满意 一般 满意 非常满意 合计
24 108 93 45 30 300
10
0×8+20×1+100×1 10
82(分) 12(分)
计算举例

某投资者某日选中5只股票的价格分别为:3.5元、 4.1元、5.6元、9.8元和15.6元。
股票名称 价格
某高速 某电子 3.5 4.1
数量
16 12
购买总金额
56 49.2
某科技
某药业 某环保 合计
5.6
9.8 15.6
3 8 16 30 40 46 50 —
四分位数


1. 集中趋势的测度值之一
2. 排序后处于25%和75%位置上的值
25%
QL
25%
25%
QM
25%
QU
3. 不受极端值的影响
4. 主要用于定序数据,也可用于数值型数据 ,但不能用于定类数据
四分位数(位置的确定)
N+ 下四分位数(QL)位置 = 1 4 3(N+1) 上四分位数(QU)位置 = 4 N 下四分位数(QL)位置 = 4 3N 上四分位数(QL)位置 = 4
【例4】根据下表数据,计算异众比率 表3 某城市居民关注广告类型的频数分布
广告类型 人数(人) 频率(%)
56.0 25.5 4.5 8.0 5.0 1.0 100
商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告 合计
112 51 9 16 10 2 200
在所调查的 200 人当中, 关注非商品广告的人数占 44%,异众比率还是比较 大。因此,用“商品广告 ”来反映城市居民对广告 关注的一般趋势,其代表 性不是很好
定序数据中位数
【例 2】根据表3-2中的数据,计算甲城市家庭对住房
满意状况评价的中位数
表2 甲城市家庭对住房状况评价的频数分布 甲城市 户数 (户) 24 108 93 45 30 300 累计频数 24 132 225 270 300 —
回答类别 非常不满意 不满意 一般 满意 非常满意 合计
数值型分组数据的中位数
单变量 描述统计
学习提纲





频数与累计频数 集中趋势的度量 离散程度的度量 相对位置与异常值的检验 偏态与峰度的测度
频数与累计频数


频数——次数
对总体经过分组后形成各组单位数在各组间的分布。 也就是各类别中的数据个数。


频数分布——次数分布,分布数列
总体中的各个类别及其相应的频数全部展示出来的 数据集汇总表 定类数据 定序数据 定距数据 定比数据
24 132 225 270 300 —
QD = QU = QL
=3–2 =1
极差

一组数据的最大值与最小值之差 离散程度的最简单测度值 易受极端值影响 未考虑数据的分布 7 8 9 10
R = max(Xi) - min(Xi) R
. = 最高组上限
7 8 9 10
计算公式为 未分组数据 组距分组数据
未分组数据:
组距分组数据:
百分位数
P百分位数
p%的数据项的值小于等于P百分位数
(100-p)%的数据项的值大于等于P百分位

均值
集中趋势的测度值之一
最常用的测度值
一组数据的均衡点所在
易受极端值的影响
用于数值型数据,不能用于定类数据
和定序数据
均值
设一组数据为:X1 ,X2 ,… ,XN 简单均值的计算公式为
- 最低组下限
平均差
离散程度的测度值之一 各变量值与其均值离差绝对值的平均数 能全面反映一组数据的离散程度 数学性质较差,实际中应用较少

计算公式为
未分组数据
组距分组数据
MD
X
i 1
N
i
X
N
MD

i 1
K
X i X fi
f
i 1
K
i
平均差(计算过程及结果)

HM
XF XF X
i i i
i i
XF F
i i
i
几何平均数
集中趋势的测度值之一 N 个变量值乘积的 N 次方根 适用于特殊的数据 主要用于计算平均发展速度 计算公式为

GM N X 1 X 2 X N N X i
i 1
N
可看作是均值的一种变形
表1 某车间50名工人日加工零件数分组表 【 例 3】
根 据 表 中 的 数 据 , 计 算 50 名 工 人 日 加 工 零 件 数 的 中位数
按零件数分组
频数(人)
累积频数
105~110 110~115 115~120 120~125 125~130 130~135 135~140 合计
3 5 8 14 10 6 4 50
集中趋势的测度
定类数据:众数
定序数据:中位数和分位数
定距和定比数据:均值
众数

集中趋势测度值之一 出现次数最多的变量值 不受极端值的影响 可能没有众数或有几个众数 主要用于定类数据,也可用于定序数据和数 值型数据
数值型分组数据的众数

出现次数最多的组作为众数所在组 众数的区间范围:众数所在组的区间
数值型分组数据的众数
表1 某车间50名工人日加工零件数分组表 【 例 1】
根 据 中 的 据 , 算 50 工 人 加 工 件 数 众数
表 数 计 名 日 零 的
按零件数分组
频数(人)
累积频数
105~110 110~115 115~120 120~125 125~130 130~135 135~140 合计
K
i
F
i 1
i
加权均值

甲乙两组各有10名学生,他们的考试成绩及其分布 数据如下:
甲组: 考试成绩(X ): 0 人数分布(F ):1 乙组: 考试成绩(X ): 0 人数分布(F ):8 20 1 20 1 100 8 100 1
X甲 X乙
Xi
i=1
Xi
i=1
n
n

0×1+20×1+100×8

— —
众数
— —
中位数
四分位数 —
几何平均数
中位数 四分位数



众数
离散趋势及其测度
数据的特征和测度(本节位置)
数据的特征和测度
集中趋势
众 数 中位数 均 值
离散程度
异众比率
分布的形状
偏 态
四分位差 方差和标准差 离散系数
峰 度
离中趋势




数据分布的另一个重要特征 离中趋势的各测度值是对数据离散程度所作的描 述 反映各变量值远离其中心值的程度,因此也称为 离中趋势 从另一个侧面说明了集中趋势测度值的代表程度 不同类型的数据有不同的离散程度测度值
数据的特征和测度
集中趋势
众 数 中位数
均 值
离散程度
异众比率 四分位差
分布的形状
偏 态
方差和标准差 离散系数
峰 度
集中趋势及其测度
集中趋势(Central tendency)


集中趋势
绝大多数总体各单位数据的次数分布都是正态分布 或近似正态分析 总体中各数据值的次数分布从两边向中间集中的趋 势
【例6】根据第三章表 3-5中的数据,计算工人日加工零件数 的平均差

按零件数分组 105~110 110~115 115~120 120~125 125~130 130~135 135~140 合计
某车间50名工人日加工零件标准差计算表
组中值(Xi) 107.5 112.5 117.5 122.5 127.5 132.5 137.5 —K 频数(Fi) 3 5 8 14 10 6 4 50
离散程度的测度
定类数据:异众比率 定序数据:四分位差 定距和定比数据:方差及标准差
相对离散程度:离散系数
异众比率(定类数据)

离散程度的测度值之一 非众数组的频数占总频数的比率 计算公式为
Vr

f f f
i i
m
fm 1 fi
用于衡量众数的代表性
异众比率(算例)
X1 X 2 X N X N
X
i 1
N
i
N
设分组后的数据为:X1 ,X2 ,… ,XK 相应的频数为: F1 , F2,… ,FK 加权均值的计算公式为
X 1 F1 X 2 F2 X N FN X F1 F2 FN
X F
i 1 K i
3 5 8 14 10 6 4 50
3 8 16 30 40 46 50 —
中位数

集中趋势的测度值之一 排序后处于中间位置上的值
50%
Me

50%
不受极端值的影响 主要用于定序数据,也可用数值型数据,但不能 用于定类数据 各变量值与中位数的离差绝对值之和最小


i 1
n
X i M e min


作为中心的变量值就是平均指标
同质总体中各单位某一数据所达到的一般水平
相关文档
最新文档