描述定量变量集中趋势的指标
定量资料统计描述——集中趋势与离散程度

度量单位不同资料之间离散度的比较; 均数相差悬殊的资料之间离散度的比较。
【例4-11】
某研究收集了100例7岁男孩的身高和体重的资料,身高均数为 123.10cm,标准差为4.71cm;体重均数为22.92kg,标准差为 2.26kg,比较这100例7岁男孩的身高和体重的变异度。
身高 CV
4.71 100 % 3.83 %
M X n1
当n为奇数时,
() 2
, 位置居中的观察值
当n为偶数时,
M
(X n ()
X n )/ ( 1)
2 ,计算出位次居中的两个观察值的均数
2
2
例:7名病人患某病的潜伏期分别为2,3,4,5,6,9,16天,求其中位数。
本例n=7,为奇数
M X 71 X 4 5(天 ) () 2
例:8名患者食物中毒的潜伏期分别为1,2,2,3,5,8,15,24小时,求其中位数。
本例n=8,为偶数
M
1
2
X 8
() 2
X 8
( 1) 2
1 2
X
4
X5
1 3 5 4(小时)
2
(二) 中位数的应用
中位数可用于各种分布的资料,在正态分布资料中,中位数等于 均数,在对数正态分布资料中,中位数等于几何均数。
中位数不受极端值的影响,因此,实际工作中主要用于不对称分 布类型的资料、两端无确切值(>100)或分布不明确的资料。
患者编号:1 2 3 4 5 6 7 8 9 ... 117 118 119 120 住院天数:1 2 2 2 3 3 4 4 5 ... 40 40 42 45
n=120,120*5%=6,为整数:
P5
集中趋势_精品文档

2500 2000 1500 1000
500 0
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85
死亡年龄(岁)
图 某地1990~1992年男性死亡年龄分布
频数分布表和频数分布图的用途
• 描述分布类型 • 描述分布的特征
集中趋势-反映资料的平均水平 离散趋势-反映资料的变异程度 • 便于发现特大、特小的可疑值 • 便于计算有关指标、统计分析与处理
差、变异系数
表 1 100例高血压患者治疗后临床记录
编号 年龄 性别 治疗组 舒张压 体温 疗效
X1 X2 X3 X4 X5
X6
1 37 男 A 11.27 37.5 显效
2 45 女 B 12.53 37.0 有效
3 43 男 A 10.93 36.5 有效
4 59 女 B 14.67 37.8 无效
频数表与频数分布
40 人 数
30
对称分布
20
10
0
124
132
140
148
156
164
身高(cm)
频数表与频数分布
偏态分布
正偏态
(positive skew)
负偏态
(negative skew)
8
10
6
Frequency Frequency
4
5
2
0
1
2
3
4
5
6
7
8
9
var5
0
1
2
3
4
5
6
7
8
9
10
频数与频数分布
手工编制表2-2步骤:
计量资料的统计指标

小结
z 同质的资料计算平均数才有意义 z 根据资料分布的特征选用适当的平均数
{ 均数:正态分布、单峰对称分布的资料 { 几何均数:等比资料、滴度资料、正偏态资料,呈对数正态分布 资料 { 中位数:理论上可用于任何分布资料,但当资料适合计算均数或 几何均数时,不宜用中位数。 (偏态分布、分布不明资料、有 不确定值的资料)
频数分布和频率分布性质
110名7岁男孩身高频数表
组段 106109112115118121124127130133-136 频数 2 6 13 21 24 17 15 9 2 1 累计频数 2 8 21 42 66 83 98 107 109 110 频率 1.82 5.45 11.82 19.09 21.82 15.45 13.64 8.18 1.82 0.91 累计频率 1.82 7.27 19.09 38.18 60 75.45 89.09 97.27 99.09 100
组
段 (1) 124 ~ 128 ~ 132 ~ 136 ~ 140 ~ 144 ~ 148 ~ 152 ~ 156 ~ 160 ~
频
数 (2) 1 2
累计频数 (3) 1 3 13 35 72 98 113 117 119 120
累计频率 (4) 0.83 2.50 10.83 29.17 60.00 81.67 94.17 97.50 99.17 100.00
频率密度图性质(n→∞)
•现(n≠110),假定在该地区随机抽了n个7岁男孩并 且n→∞,则各个组段的频率→各自的概率 •身高为各个组段的概率=各个组段的直方条面积 •各个组段的面积(概率)之和为1
频率密度图性质概率)为0.064 [118,121)的直方条面积(概率)为0.073 则身高在[115,121)的概率为 [115,121)的直方条面积= 0.064+0.073= 0.137
医学统计学总结

1、同一资料的标准差是否一定小于均数?答:均数是描述定量资料集中趋势的指标,而标准差是描述定量资料离散程度的指标,二者反映的是资料分布特征的两个不同方面。
2、极差、四分位间距、标准差、变异系数的适用范围有何异同?答:这四个指标的相同点在于均用于描述计量资料的离散程度。
不同点为:极差可用于各种分布的资料,一般常用于描述单峰对称分布小样本资料的变异程度,或用于初步了解资料的变异程度。
若样本含量相差较大,则不宜用极差来比较资料的离散程度。
四分位间距:适用于描述偏态分布资料、两端无确切值或分布不明确资料的离散程度。
标准差常用于描述对称分布,特别是正态分布或近似分布资料的离散程度。
变异系数适用于比较计量单位不同或均数相差悬殊的几组资料的离散程度。
3、x2检验用于什么?答:x2检验用于:推断两个及两个以上总体率或构成比是否有差别,两个分类变量间有无相关关系,多个率的趋势检验,以及两个率的等效检验等。
此外,也用于频数分布的拟合优度检验。
4、四格表的U检验和x2检验有何联系?答:(1)相同点:四格表的u检验的根据是正态近似原理(n足够大,∏和1-∏均不太小)。
能用四格表的u检验进行两个率比较检验的资料,都可以用x2检验。
四格表的双侧u检验与x2检验是完全等价的,两个统计量的关系为u2= x2,u20.05/2= u20.05/1.u检验和卡方检验都存在连续性矫正问题(2)不同点:①正态分布可以确定单、双侧检验界值,满足正态近似条件时,可以使用四格表的单侧u检验。
②满足四格表u检验的资料,计算两率之间的95%可信区间,尚可分析两率之差有无实际意义。
③x2检验还可以用于配对设计四格表,但这时推断∏1,∏2是否有差别的x2公式不同。
5.参数检验和非参数检验的区别何在?各有何优缺点?答:区别:参数检验,其应用条件是已知总体的分布类型,对总体参数进行估计或检验。
非参数检验,不依赖总体分布的具体形式,目的在于检验总体分布是否不同。
卫生统计学常用资料

第二节 定量资料的统计描述 图2-3 某地居民238人发汞含量(μmol/kg)分布
0,3,2,0,1,5,6,3,2,4,1,0,6, 横坐标:产前检查次数;
例2-1 1998年某山区96名孕妇产前检查次数资料: 注:组距相等时,矩形直条的高度与相应组段的频率成正比。
基于样本资料
把握资料的基本特征 对于连续型定量变量,描述集中趋势常用的统计量为算术均数、几何均数和中位数。
根据样本含量的大小确定“组段”数,一般设8-15个组段;各组段的起点和终点分别称为下限和上限,组距。 样本估计:按照升序排列的数列里, 其左侧(即
或
:观察之和
为统计推断打下基础 第一节 频数分布表、频数分布图
----从资料中获取信息最基本的方法
第二节 定量资料的统计描述
样本估计:按照升序排列的数列里, 其左侧(即
解决:频数分布表的基本思想
一、 描述集中趋势的统计指标
乱七八糟的原始数据
例2-2 抽样调查某地120名18岁~35岁健康男性 居民血清铁含量(μmol/L),数据如下:
8.65 23.02 21.61 21.31 21.46 9.97 22.73 14.94 20.18 21.62 23.07 8.40 17.32 29.64 19.69 21.69 23.90 17.45 19.08 20.52 24.14 23.77 3.04 24.22 24.13 21.53 11.09 18.89 18.26 23.29 17.67 15.38 18.61 7.40 22.55 17.55 16.10 17.98 20.13 21.00 14.56 19.89 19.82 17.48 8.37 19.50 17.08 18.12 26.02 11.34 13.81 10.25 15.94 15.83 18.54 9.26 26.13 16.99 18.89 18.46 20.87 17.51 13.12 11.75 17.40 21.36 3.77 12.50 20.40 20.30 19.38 23.11 12.67 23.02 24.36 25.61 19.53 4.37 24.75 12.73 17.25 19.09 16.79 17.19 19.32 19.59 19.12 15.31 9.47 15.51 10.86 27.81 21.65 16.32 20.75 22.11 13.17 17.55 19.26 8.48 19.83 23.12 19.22 19.22 16.72 27.90 11.74 24.66 14.18 16.52
定量变量的统计描述 PPT

2. 定组距:将全距分为若干段,称为组段。 组与组之间的距离,称为组距;用小写i 表示。
原则:(1)“组段”数一般为8-15个; (2)“组距”一般为R/10取整; (3)为计算方便根据组距采取取整数方法
本例题: 组距(i)=全距/ 预分组段= 22.22 /10=2.22≈2( umol/L )
22.73 17.45 18.26 21 13.81 17.51 12.67 17.19 20.75 27.9
14.94 19.08 23.29 14.56 10.25 13.12 23.02 19.32 22.11 11.74
20.18 20.52 17.67 19.89 15.94 11.75 24.36 19.59 13.17 24.66
3.写组段:即将全距分为若干段的过程。
原则:(1)第一组段要包括Xmin,最末组段包括 Xmax ;
12.65 18.48 19.83 23.12 19.22 19.22 16.72 27.9 11.74 24.66 14.18 16.52
目的:描述该组18-35岁健康男性居民血清铁含 量的分布规律。
问题1.该组居民血清铁含量平均值多少? 集中趋势
问题2.血清铁含量范围?最高多少?最低 多少?
问题3.血清铁含量主要集中在哪个范围?
(二)连续型变量频数表的编制方法:
步骤:
求 全 距
定 组 距
写 组 段
列 表 划 记
⒈ 求全距(Range,简记R ):是一组资料中
最大值(Xmax)与最小值(Xmin)之差,亦称极差。
7.42 20.38 18.36 14.27 14.89 24.52 17.14 14.77 21.75 12.65
二、描述平均水平统计指标 (Description of central tendency)
定量资料的统计描述

例:求下表中血清铁含量的5%、 95%位数
从表2-2可判断出5%位于“10~”这个 组段:
px = L +
i n( x%
fx
f
)
L
= 10 + 21(20×5% 4 =)10.67
6
该组血清铁资料的5%位数为10.67 (μmol/L)。
从表2-2可判断出95%位于“24~”这 个组段:
px = L +
n为奇数时: M = X n + 1
2
n为偶数时:M =
1 2
X
+
n 2
X n+ 1 2
式中X*表示将n例数据按升序排列 后的第i个数据。
上式中n为一组观察值的总个数,
n +1
n
n +1
2
2
2
均为下标,表示有序数列中观察值 的位次。
例:某药厂观察9只小鼠口服高山红 景天醇提物(RSAE)后在乏氧条件 下的生存时间(分钟)如下:
一般设10~15个组段,每个组段的 起点称“下限”,终点称“上限”;第 一组段含最小值,最末组段含最 大值。
(4) 列表
频数分布的类型:
对称分布—集中位置在正中、左右 两侧频数分布大体对称
偏态分布
正偏峰分布-集中位 置偏向数值小的一侧
负偏峰分布-集中位 置偏向数值大的一侧
定量变量的特征数
= 119.75
52例慢性肝炎患者的HBsAg滴度 的平均水平为1:119.75。
3. 中位数(median, M)
将一组观察值从小到大按顺序排 列,位次居中的观察值就称中位数。 用M表示。
中位数适用于任何一种分布的定量 资料,一般多用于描述偏态分布或 数据一端无界资料的集中趋势。
定量数据的统计描述

样本例数n较多的资料。
累计频数:本组段的频数与以前各组段的频数
相加;
累计频率:每组段的累计频数除以总例数。
公式为
Px
L
i fx
Xn 100
fL
L为百分位数所在组段的下限,i为该组段的组距,fx
为该组段的频数,fL为百分位数所在组段的前一组段
的累计频数,n为总例数。
例2-8 利用表2-2的频数表求血清铁含量的中位数。
求例2-2中某地120名正常成年男子的血清铁 含量的均数。
120名成年男子血清铁含量均数、标准差计算表(加权法)
组段
(1)
频数(f) 组中值(X0)
(2)
(3)
fX 0
(4)=(2)(3)
fX02
(5)=(3)(4)
6~
1
7
7
49
8~
3
9
27
243
10~
6
11
66
726
12~
8
13
104
1352
14~
离散趋势:从中央部分到两侧的频数分布
逐渐减少,而且血清铁含量的值参差不齐,
最低的接近6 mo/lL,最高的接近30 mo/lL, 这种现象称为离离散散趋趋势势或。变异程度是指观察
值之间参差不齐的程度。
四、频数分布的类型
频数分布
对称分布型:指集中位置在正中,左右 两侧频数分布大体对称。
偏态分布型:指集中位置偏向一侧,频数 分布不对称。
一、描述集中趋势的统计指标
平均数:描述一组同质计量资料的集中趋势;反映一组观察值 的平均水平。 常用的平均数有算术均数,几何均数和中位数。 (一)算术均数(mean):简称均数,总体均数用希腊字母µ表 示,样本均数用拉丁字母 X 表示。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
描述定量变量集中趋势的指标
定量变量集中趋势指标指的是从统计学角度分析某一变量集合中的均值、中位数等可以代表整体水平的参数。
定量变量集中趋势的主要指标有均值、中位数、众数、均方差(Standard Deviation)等。
均值:指的是一个定量变量集中所有值的算术平均数。
它反映的是一个班级、团队、企业的整体水平,均值越高说明总水平越高。
中位数:是指变量集中大小顺序排列后,所有数值排在中间位置上的数值。
中位数可以反映出一个变量集中全体成员的水平排序。
众数:指变量集中出现次数最多的数值。
众数可以表示出某一变量集的大部分成员的共同特征。
标准差:又称均方差,用于反映某一变量集合中数据偏离均值的程度。
标准差越大,变量集中数据偏离均值越多,则反映出数据分布情况越分散。
定量变量集中趋势指标也可以用来衡量某种产品质量的优劣,或者对集体行为及其协同作用进行统计分析,通过求取某些变量集中趋势指标,可以帮助企业更好地把握市场,制定科学合理的经营策略,以期在竞争中获得更大的成功。