第四章 统计数据的描述

合集下载

统计学 第4章 综合指标和数据分布特征的描述

统计学 第4章 综合指标和数据分布特征的描述

G 0.95 0.92 0.90 0.85 0.80
5
0.5349 88.24%
5
例2 加权几何平均数
投资银行某笔投资的年利率是按复利计算的,25年的 年利率分配是:有1年为3%,有4年为5%,有8年为8%, 有10年为10%,有2年为15%,求平均年利率。 年本利率(%) X 年数 f
三、调和平均数 (一)基本公式
例4-1-7:某蔬菜批发市场三种蔬菜的日成交 数据如表,计算三种蔬菜该日的平均批发价格
某日三种蔬菜的批发成交数据 蔬菜 名称
批发价格 (元)
成交额(元) 成交量(公斤)
xi
1.20 0.50 0.80 —
mi
18000 12500 6400 36900
Fi
甲 乙 丙 合计
平均完成计划程度
m 1,100 110% 1 1,000 m X
2.由相对数计算平均数时加权平均数法的应用:

某公司有四个工厂,已知其计划完成程度(%)及计划产值资料如下: 工厂 计划完成程度(%) X 90 100 计划产值 (万元) F 100 200
甲 乙

丁 合计
平均完成计划程度
5000-6000
6000以上
200
180
解: 众数组为第四组
1 d M 0 = XL+ 1 2
= 4000 +
950 320 1000 (950 320) (950 200)
•加权算术平均数: •证明:
(X X ) f
0
Xf f Xf Xf 0 ( X X ) f Xf X f Xf f

统计学第4章数据特征的描述

统计学第4章数据特征的描述
优缺点
极差计算简单,但容易受到极端值的影响,不能全面 反映数据的离散程度。
四分位差
定义
四分位差是第三四分位数与第 一四分位数之差,用于反映中
间50%数据的离散程度。
计算方法
四分位差 = 第三四分位数 第一四分位数
优缺点
四分位差能够避免极端值的影 响,更稳健地反映数据的离散
程度,但计算相对复杂。
方差与标准差
统计学第4章数据特征 的描述
https://
REPORTING
• 数据特征描述概述 • 集中趋势的度量 • 离散程度的度量 • 偏态与峰态的度量 • 数据特征描述在统计分析中的应用 • 数据特征描述的注意事项
目录
PART 01
数据特征描述概述
REPORTING
WENKU DESIGN
数据特征描述在推断性统计中的应用
参数估计 假设检验 方差分析 相关与回归分析
基于样本数据特征,对总体参数进行估计,如点估计和区间估 计。
通过比较样本数据与理论分布或两组样本数据之间的差异,对 总体分布或总体参数进行假设检验。
研究不同因素对总体变异的影响程度,通过比较不同组间的差 异,分析因素对总体变异的贡献。
定义
方差是每个数据与全体数据平均数之方根,用于衡量数据的波动大小。
计算方法
方差 = Σ(xi - x̄)² / n,标准差 = √方差
优缺点
方差和标准差能够全面反映数据的离散程度,且计算相对简单,但容易受到极端值的影响。同时,方差 和标准差都是基于均值的度量,对于非对称分布的数据可能不够准确。
适用范围
适用于数值型数据,且数据之间可能 存在极端异常值的情况。
特点
中位数不受极端值影响,对于存在极 端异常值的数据集,中位数能够更好 地反映数据的集中趋势。

spss第四章描述统计简介PPT课件

spss第四章描述统计简介PPT课件
定义:设,对样本数据集合中的所有数据的排序结果为X1≤X2≤…≤Xn,n为样本容 量,则上述排序的序列中,处于“正中间位置”上的数据,称为样本中位数。
当n 为奇数时:正中间位置号码=(n+1)/2 样本中位数=X(n+1)/2
当n为偶数时:正中间位置号码=(n+1)/2是小数,处于n/2与(n/2)+1之间。 样本中位数=(Xn/2+X(n/2)+1)/2 如5位同学的学习成绩:3,3,3,4,5。中间位置是第三位,中位数:3。 如果六位同学: 3,3,4,5,5,5。中间位置是3与4位中间的位置,中位数为: (4+5)/2=4.5
第四章 描述统计量简介
2024/10/23
第三章 样本数据特征的初步分析
1
调查杭州市居民收入情况,得到
调查顾客对产品的满意第度情四况章, 获得100个样本数据,能分
样本100统个计样本量数描据,述根据这些数据,
析出哪些信息?
你最想得到哪些信息?
调查大学生群体中对手机品牌的偏 好程度,你如何描述调查结果?
• 选择Percentile Values 栏中的 选项,输出所选变量的百分值
• Dispersion(离差)栏,用于
指定输出反映变量离散程度的 统计量
• Central Tendency (集中趋势)
栏,用于指定输出反映变量集 中趋势的统计量
• Distribution (分布特征)栏,
用于指定输出描述分布形状和
如果样本容量为n,那么,某个样本值出现 的频率=该样本值出现的频次/n
2024/10/23
第三章 样本数据特征的初步分析
9
分类数据或顺序数据描述频次与 频率的图形方法

统计学原理第4章:数据特征的描述

统计学原理第4章:数据特征的描述

第四章 数据特征的描述
某公司400名职工平均工资计算表 单位:元
按月工资 组中值 职工
分组
x
人数
f
x f
比重(%)
f
f


③ ④=②×③ ⑤=③÷ 400
1100以下 1000
60
60000
15
1100-1300 1200 100 120000
25
1300-1500 1400 140 196000
35
分组
职工 人数
f
x f

1100以下 1100-1300 1300-1500 1500-1700 1700以上

1000 1200 1400 1600 1800
③ ④=②×③
60
60000
100 120000
140 196000
60
96000
40
72000
人数为权数
x x f f
544000 400
算术平均数、调和平均数、中位数、众数、几何平均数
3. 各种平均数的Excel操作
24/77
1. 集中趋势的含义
第四章 数据特征的描述
集中趋势是一组数据向其中心值靠
拢的倾向和程度
测度集中趋势就是寻找数据一般水
平的代表值或中心值
中心值 即:平均水平

25/77
2. 集中趋势的度量方法
第四章 数据特征的描述
第四章 数据特征的描述
《统计学原理》(第3版)
第四章 数据特征的描述
学习目标
第一节 总量与相对量的测度 第二节 集中趋势的测度 第三节 离散程度的测度
2/77
第一节 总量与相对量的测度

社会统计学(第4章 数据的统计量描述)

社会统计学(第4章 数据的统计量描述)

三、离散性描述指标的比较
全距(四分位数) 全距(四分位数)
粗略、快捷,不稳定, 粗略、快捷,不稳定,不能用于有样本推论总体 用于定序、定距、 用于定序、定距、定比变量
标准差(方差) 标准差(方差)
精准、相对稳定, 精准、相对稳定,可以用于由样本推论总体 用于定距、 用于定距、定比变量
全距与标准差的关系
SS Σ(X − X ) 2 S = = N N
2
方差可以描述数值偏离平均值的程度。 方差可以描述数值偏离平均值的程度。 平方处理解决了绝对值的问题。 平方处理解决了绝对值的问题。 平方处理后对偏离均值的程度更加敏感。 平方处理后对偏离均值的程度更加敏感。
二、离散性的描述指标
4.标准差: 4.标准差:将方差开平方得到的数值 标准差
二、离散性的描述指标
5.分析下列4 5.分析下列4组数据的离散性 分析下列 6]、 a[6 6 6 6 6 6 6]、b[5 5 6 6 6 7 7 ] 9]、 c[3 3 4 6 8 9 9]、d[3 3 3 6 9 9 9 ]
全距=? 全距=? 四分位数=? 四分位数=? 平均离均差= 平均离均差=? 方差=? 方差=? 标准差=? 标准差=?
三、集中性描述指标的比较
1.描述不同测量等级的变量 1.描述不同测量等级的变量
定类、定序、定距、 众 数:定类、定序、定距、定比变量的描述 中位数:定序、定距、 中位数:定序、定距、定比变量的描述 平均数:定距、 平均数:定距、定比变量的描述
三、集中性描述指标的比较
2.数据的分布形状 2.数据的分布形状 中心重合
第二节 集中性的描述指标
一、数据分布的集中性 二、集中性的描述指标 三、集中性描述指标的比较
一、数据分布的集中性

《医学统计学》第四章定性资料的统计描述

《医学统计学》第四章定性资料的统计描述

1、不要把构成比与率相混淆。即分析时不能以构成 比代率;这是常见的错误。
某文章作者根据上述资料认为,沙眼在20~组的患病率最高,以后随年 龄增大而减少。该作者把构成比当作率进行分析,犯了以比代率的错误。
2、使用相对数时分母不宜过小。分母过小时相对数 不稳定。
3、注意资料的可比性;
不同时期、不同地区、不同条件下的资料比较时应注意具有 可比性。
12965.2
46.3

265
660291.4
40.1
说明该地市区非吸烟女性饮酒者的肺癌发病率是
非吸烟女性不饮酒者的1.15倍。
3.比数比
比数比( Odds ratio ,OR) : 常用于流行病学
中病例-对照研究资料,表示病例组和对照组中的 暴露比例与非暴露比例的比值之比,是反映疾病 与暴露之间关联强度的指标。其计算公式为
一般的,两个地方的出生率、死亡率、发病率、不同级别 医院某病的治愈率等不能直接比较。
无可比性的实例:
由表2-7可见,无论有无腋下淋巴结转移,省医院的5年生存 率均高于市医院,但从总生存率看,省医院的5年生存率低于市 医院。这不符合常理。因此,省医院与市医院的总生存率就不能 直接比较(标准化后再比)。
感谢聆听

某事物或现象发生的实 际数 某事物或现象发生的所 有可能数
比例基数
公式中的“比例基数”通常依据习惯而定。
需要注意的是,率在更多情况下是一个具有时间 概念的指标,即用于说明在某一段时间内某现象 发生的强度或频率,如出生率、死亡率、发病率 、患病率等,这些指标通常是指在1年时间内发 生的频率。
例4-1 某单位在2009年有3128名职工,该单位 每年对职工进行体检,在这一年新发生高血压 病人12例,则

《统计学:思想、方法与应用》第4章 定量数据的描述方法

《统计学:思想、方法与应用》第4章 定量数据的描述方法

19:11
2
4.1 展示数据的分布
表4.1 安然公司1997-2001年股票价格变化的数据(单位:元)
一月
1998 0.78 1999 4.28
二月
0.62 4.34
三月
-0.69 2.44 -1.22 4.5
四月
-0.88 -0.28 0.47 4.56
五月
0.12 2.22
六月 七月 八月
0.75 0.81 -1.75 -0.5 2.06 -0.88 8
19:11
27
4.1.5 累积频数分布
除了对数据的分布形态有所了解,有时候我 们希望了解股价变化值低于0元的月份数量,累积 频数分布或累积频数折线图可以帮助我们获得这 样的信息。
股价变化值(元) -20~-10 频数 6 累积频数 6 由此得到
-10~0
0~10 10~20 20~30
19:11
1. 直方图:主要用于表示分组数据分布的一 种图形。 2. 用矩形的宽度和高度来表示频数分布 3. 在直角坐标中,用横轴表示数据分组,纵 轴表示频数或频率,各组与相应的频数就 形成了一个矩形,即直方图
本质上是用矩形的面积来
Excel
表示频数分布
19:11
19
4.1.2 分组数据看分布—直方图
(直方图与条形图的区别)
变量值变动区间的长度相等
异距分组 变量值变动区间的长度不完全相等
19:11
7
相关概念 组限
组距 组中值 指每组两端表示各组界限的变量值, 各组的最小值为下限,最大值为上限 每组变量值变动区间的长度,为上下 限之差
每组变量取值范围的中点数值
组中值=
19:11

Chap04_数据的描述性分析

Chap04_数据的描述性分析


i 1
n
1 xi
加权调和平均数
xH m1 m2 ...... mn m m1 m2 ...... n x1 x2 xn
m
i 1 n
n
i
mi i 1 x i
调和平均数是算术平均数的变形
xH
m
i 1 n
n
i
mi i 1 xi

x
i 1 n
n

相对指标应用的原则
1、可比性原则 (1)正确选择对比基数 (2)保持对比指标的可比性 2、相对指标与总量指标结合运用原则 3、多种相对指标结合运用原则

集中趋势
集中趋势(Central Tendency)反映 的是一组数据向某一中心值靠拢的倾向, 在中心附近的数据数目较多,而远离中心 的较少。对集中趋势进行描述就是寻找数 据一般水平的中心值或代表值。
例题
峰度
峰度(Kurtosis)是分布集中趋势高峰的形状。在 变量数列的分布特征中,常常以正态分布为标准, 观察变量数列分布曲线顶峰的尖平程度,统计上称 之为峰度。

v4

4
3
x
n i 1
i
x fi

4

i 1
n
3
fi 4
正态分布的峰度系数为0,当>0时为尖峰分布, 当<0时为平顶分布。 例题
例题
离散系数 离散程度的绝对指标 对应的平均指标
V

x
100%
是非标志的平均数和方差
π是一个比率,它表示具有某种特征的个体的 数量占总体中个体总数的比重,即总体成数。 是非标志的平均数为:

x
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

400以下 400~500 500~600 600~700 700~800 800以上
合计
22 50 66 76 56 30
300
350 450 550 650 750 850

7 700 22 500 36 300 49 400 42 000 25 500
183 400
M 0 600 1 00 33.33 (公斤) (7 6- 6 6)+( 7 6- 5 6)
合计 甲城市 户数 (户) 24 108 93 45 30 300 累计频数 24 132 225 270 300 — STAT
解:中位数的位置为 300/2=150 从累计频数看, 中位数在“一般”这 一组别中。因此
Me=一般
数值型未分组数据的中位数
(9个数据的算例)
STAT
• 【例】:9个家庭的人均月收入数据
分类数据的众数(例题分析)
STAT
某城市居民关注广告类型的频数分布
广告类型 商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告 合计
人数 (人)
112 51 9 16 10 2 200
比例 0.560 0.255 0.045 0.080 0.050 0.010 1
频率(%) 56.0 25.5 4.5 8.0 5.0 1.0 100
(10个数据的算例)
• • • • 【例】:10个家庭的人均月收入数据 原始数据: 1500 750 780 660 1080 排 序: 660 750 780 850 960 位 置: 1 2 3 4 5 850 1080 6
STAT
960 2000 1250 1630 1250 1500 1630 2000 7 8 9 10

位置
n 1 2

10 1 2
5.5
中位数
960 1080 2
1020
中位数(位置的确定)
STAT
未分组数值型数据: 中位数位置
n1 2 n 2
顺序数据: 中位数位置
未分组数据的中位数
(计算公式)
STAT
x n 1 2 Me 1 xn xn 1 2 2 2
当n为奇数时
当n为偶数时
单选题
STAT
• 有下列资料:75、78、80、82、87、90 ;其中位数是( )。 • • ①80 ②81 ③82 ④85
四分位数(quartile)
STAT
• 1. 集中趋势的测度值之一
• 2. 排序后处于25%和75%位置上的值
25%
QL
25%
25%
QM
25%
QU
户数 (户)
24 108 93 45 30 300
累计频数
24 132 225 270 300 —
QU = 一般
四分位数(位置的确定)
STAT
未分组数据:
n 1 Q L 位置 4 Q 位置 3( n 1) U 4
数值型未分组数据的四分位数 (9个数据的算例)
STAT
• • • • 【例】:9个家庭的人均月收入数据 原始数据: 1500 750 780 1080 排 序: 750 780 850 960 位 置: 1 2 3 4 850 1080 5 960 2000 1250 1630 1250 1500 1630 2000 6 7 8 9

QL 位置 QL 9 1 4 2.5 QU 位置 815 QU 4 2
f
频 数
f
f-1 f-1
f+1
f+1
M0 L
f - f 1 ( f - f 1 ) ( f - f 1 )
d
M0 U
f - f 1 ( f - f 1 ) ( f - f 1 )
d
例4.7 计算300名工人的月糖果产量的众数
员工人数 产量(公斤) (人) f 组中值 x 总产量(千 STAT 克) xf
原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排序: 750 780 850 960 1080 1250 1500 1630 2000 位置: 1 2 3 4 5 6 7 8 9

位置 n1 2 91 2 5
中位数 1080
数值型未分组数据的中位数

3(9 1) 7.5
780 850 2
1500 1630
1565
数值型未分组数据的四分位数 (10个数据的算例)
STAT
【例】:10个家庭的人均月收入数据 原始数据: 1500 750 780 660 1080 850 960 2000 1250 1630 排 序: 660 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9 10
解:这里的数据为 顺序数据。变量为 “回答类别”
甲城市中对住 房表示不满意的户 数 最 多 , 为 108 户 ,因此众数为“不 满意”这一类别, 即
Mo=不满意
合计
300
100.0
例4.7 计算300名工人的月糖果产量的众数
STAT
员工人数 产量(公斤) (人) f
组中值 x
总产量(千 克) xf
峰 态
3.1 集中趋势的测度
STAT
集中趋势(central tendency)
1. 测度集中趋势就是寻找数据水平的代表值或中心值
2. 不同类型的数据用不同的集中趋势测度值
3. 低层次数据的测度值适用于高层次的测量数据,但高层次 数据的测度值并不适用于低层次的测量数据 4. 测度值的选用取决于所掌握的数据的类型
185
合计

120
22200
简单算术平均数
STAT
设一组数据为:x1 ,x2 ,… ,xn(xN)
x1 x 2 x N N
总体均值

x
i 1
N
i
N
样本均值
x
x1 x 2 x n n

x
i 1
n
i
n
加权算术平均数
STAT
设各组的组中值为:M1 ,M2 ,… ,Mk 相应的频数为: f1 , f2 ,… ,fk 总体加权均值
400以下 400~500 500~600 600~700 700~800 800以上
合计
22 50 66 76 56 30
300
350 450 550 650 750 850

7 700 22 500 36 300 49 400 42 000 25 500
183 400
组距分组数据众数
STAT
频 数
76- 66
单选题
STAT
• 有下列资料: 产量(件) 10 11 12 13 人数(人) 5 10 20 8 • 众数是( )。 • ①12件 ②20人 ③14人 件
14 5
15 2
④12.5
单选题
• 某大学经济管理学院有1200名学生,法 STAT 学院有800名学生,医学院有320名学生 ,理学院有200名学生。在上面的描述中 ,众数是( ) • A、1200 • B、经济管理学院 • C、200 • D、理学院
STAT
M i fi
580 1395 2640 4725 3700 3315 2050 1720 900 1175
组中值(Mi)
145 155 165 175 185 195 205 215 225 235
频数(fi)
4 9 16 27 20 17 10 8 4 5
x
M
i 1
k
i
fi
n 22200 120
STAT
众数(mode)
1. 集中趋势的测度值之一 2. 出现次数最多的变量值 3. 不受极端值的影响 4. 可能没有众数或有几个众数
STAT
5. 主要用于分类数据,也可用于顺序数据和 数值型数据
众数
STAT
原始数据:
原始数据:
10
6 25
5
5
9
9 28
12
8 36 5
6
5
8
原始数据:
28
42
42
3.1 集中趋势测度
STAT
数据类型和所适用的集中趋势测度值
数据类 型 适 用 的 测 度 值 分类数据 众数 — 顺序数据 众数 四分位数 间隔数据 众数 四分位数 比率数据 众数 四分位数

— — —
中位数
— — —
中位数
中位数
算术平均数 算术平均数 — — 调和平均数 几何平均数
请问某城市居民关注广告类型的代表 值是什么?
STAT
中位数和分位数
中位数(median)
STAT
1. 集中趋势的测度值之一 2. 排序后处于中间位置上的值
50%
Me 3. 不受极端值的影响
50%
4. 主要用于顺序数据,也可用数值型数据,但不能用于分 类数据
顺序数据的中位数
甲城市家庭对住房状况评价的频数 分布 回答类别 非常不满 意 不满意 一般 满意 非常满意
某城市居民关注广告类型的频数分布 广告类型 商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告 合计 人数 (人) 112 51 9 16 10 2 200 比例 0.560 0.255 0.045 0.080 0.050 0.010 1 频率(%) 56.0 25.5 4.5 8.0 5.0 1.0 100
相关文档
最新文档