第二节 数值变量资料的统计分析(一、二、三)

合集下载

卫生统计 2数值变量资料的统计描述

卫生统计 2数值变量资料的统计描述

2
2
4
6
11
17
13
30
22
52
19
71
15
86
9
95
4
99
1
100
100
频 数
某地区100名2岁健康男童身高的频数分布图 身高(cm)
频数表的用途
• 揭示资料的分布特征和分布类型; ✓频数分布的两个重要特征:集中趋势和
离散趋势 ✓频数分布可分为对称分布和偏态分布
• 便于发现可疑值;
• 便于进一步计算指标和统计分析处理
第二节 数值变量资料的描述指标
算术均数
集中趋势指标:平均数 几何均数
全距
中位数
四分位数间距
离散趋势指标
方差
标准差
变异系数
描述集中趋势的指标 ——平均数 average
• 算术均数(简称均数 mean)
μ: 总体均数
X :样本均数
✓计算方法 1.直接法
X X 1 X 2 X 3 Xn X
• 组距为相邻两组段下限值之差。相等组距可
用极差/组数来估计。常取全距的1/10取整做 为 组 距 。 本 例 中 若 取 组 数 为 10 , 则 18.1/10=1.81,取整为2cm,即组距定为2cm。
• 根据组距写出各组段的起点,即下限,各组 段的终点,即上限。第一组段要包括最小观
察值,最后一个组段要包括最大观察值。各 个组段要从本组的下限开始,不包括本组的 上限。
880
82
1066
84
1848
85~
19
86
1634
87~
15
88
1320
89~
9

数值变量资料的统计描述

数值变量资料的统计描述

频数,f 组中值,X
2
76
4
78
11
80
13
82
22
84
19
86
15
88
9
90
4
92
1
94
100
fX 152 312 880 1066 1848 1634 1320 810 368 94 8484
fX2 11552 24336 70400 87412 155232 140524 116160 72900 33856 8836 721208
190 302
S甲
5 1.58(毫米 / 小时) 5 1
乙组:n=5,X=2+4+6+8+10=30
X2= 22+42+62+82+102 =220
220 302
S乙
5 3.16(毫米/ 小时) 5 1
某地100名2岁健康男童身高标准差计算
身高组段 75~ 77~ 79~ 81~ 83~ 85~ 87~ 89~ 91~ 93~95 合计
89~
9
90
810
91~
4
92
93~95
1
94
合计
100( ∑ f)
368 94
8484(∑fX)
X 2 76 4 78 1180 194 84.8(cm) 100
均数的应用:
适用于对称分布资料,因为这时均 数位于分布的中心,最能反映分布的集 中趋势。
对于正态分布资料,均数更有其重 要作用。
频数分布
直方图
频数表的用途
• 揭示资料的分布特征和分布类型; 频数分布的两个重要特征:

人卫第八版《卫生学》数值变量资料的统计分析-文档资料

人卫第八版《卫生学》数值变量资料的统计分析-文档资料

集中趋势的描述
(一)算术均数(arithmetic mean)
简称均数(mean),可用于反映一组呈对称 分布的变量值在数量上的平均水平。其计算方 法有直接法和加权法 (二)几何均数(geometric mean)
用 G 表示,可用于反映一组经对数转换后 呈对称分布或数据之间呈倍数关系或近似倍数 关系资料的平均水平。其计算方法有直接法和 加权法。
正态分布的特征和曲线下面积分布规律
正态分布有以下四个方面特征: ①正态曲线在横轴上方,呈钟形曲线,两端与横 轴永不相交; ②正态分布以均数为中心,均数所在处最高,左 右对称; ③正态分布有两个参数,即均数与标准差; ④正态分布曲线下的面积分布有一定的规律性。
正态分布的应用
(一)估计变量值的频数分布
n
当标准差一定时,标准误与样本含量的平 方根成反比。当样本例数一定时,标准误 与标准差成正比。
t 分布
分布是一簇对称于0的单峰分布曲线。自 由度(实际上是样本含量n)越小,曲线 越扁平,随着自由度的增大,t 分布曲线 逐渐逼近标准正态曲线。当自由度为无穷 大时,则t 分布曲线与标准正态曲线完全 吻合。
频数
2 7 13 14 15 19 18 16 14 13 6 3 140
累计频数
2 9 22 36 51 70 88 104 118 131 137 140 —
频率(%)
1.43 5.00 9.29 10.00 10.71 13.57 12.86 11.43 10.00 9.29 4.28 2.14 100.00
均数的抽样误差与标准误
均数标准误(理论值)的计算公式是:
x
n
n 为样本例数, 式中 表示总体标准差, 为均数标准误的理论值 x

数值变量资料的统计描述

数值变量资料的统计描述
G lg1[(lg 5 lg10 lg 20 lg 640) / 8] 56.57
G 8 510 20 4080160320 640 56.57
平均抗体效价为: 1:57
(2)加权法 公式:
G lg1(
f lg X )
f
例 69例类风湿关节炎(RA)患者血清EBVVCA-lgG抗体滴度的分布见表2-4第(1)、(2)栏,求其 平均抗体滴度。
2493.89
2、应用
均数适用于对称分布,特别
是正态分布资料。
几何均数(geometric mean)
可用于反映一组经对数转换后 呈对称分布或正态分布的变量值在 数量上的平均水平。
几何均数(geometric mean)
G n X1X2 Xn
lg G

1 n
(lg
X1

lg
X2

lg X n )
算术均数
算术均数:简称均数(mean) 可用于反映一组呈对称分布的变量
值在数量上的平均水平或者说是集中 位置的特征值。
1、计算方法
(1)直接计算法 公式 : X X1 X2
n
Xn X n
举例:试计算4,4,4,6,6,8,8,8,10的均数?
X 3 4 2 6 38 110 3 231
1、揭示资料的频数分布类型
频数分布可分为对称分布和偏态分布两种类型。 对称分布:是指各组段的频数以频数最多组段 (集中位置)为中心,左右两侧大体对称。 偏态分布:是指频数最多的组段(集中位置)偏 向一侧,频数分布不对称。 正偏态:集中位置偏向数值小的一侧(左侧)。 负偏态:集中位置偏向数值大的一侧(右侧)。
频数表的编制步骤

2-数值变量资料的统计描述 ppt课件

2-数值变量资料的统计描述 ppt课件

血糖(mol/L)组段 组中值(xi)
3.60~ 3.80~ 4.00~ 4.20~ 4.40~ 4.60~ 4.80~ 5.00~ 5.20~ 5.40~5.60
合计
3.70 3.90 4.10 4.30 4.50 4.70 4.90 5.10 5.30 5.50
频数(f)
3 3 8 23 24 25 20 12 10 4 132
4.30
23
37
17.42
28.03
4.40~
4.50
24
61
18.18
46.21
4.60~
4.70
25
86
18.94
65.15
4.80~
4.90
20
106
15.15
80.30
5.00~
5.10
12
118
9.09
89.39
5.20~
5.30
10
128
7.58
96.97
5.40~5.60
5.50
4
132
(n5% 0fL) i; fm
下限值L
中位数M
上限值U
2020/10/6
26
例2.1频数表中位数的计算
血糖(mol/L)组段
3.60~ 3.80~ 4.00~ 4.20~ 4.40~ 4.60~ 4.80~ 5.00~ 5.20~ 5.40~5.60
合计
组中值(
x
)
i
3.70
3.90
4.10
4.30
中位数是第50百分位数, 用P50表示。
2020/10/6
28
频数表法
公式:
L X: 第 X百 分 位 数 所 在 组 段 下 限 fL: 小 L 于 X 各 组 段 的 累 计 频 数 iX: 第 X百 分 位 数 所 在 组 段 组 距 n: 为 总 例 数

2数值变量资料的统计描述PPT课件

2数值变量资料的统计描述PPT课件

累计频率(%) (4)=(3)/238
8.4 36.1 61.3 81.5 89.1 95.8 98.3 98.7 98.7 100.0 8
负偏态分布
某地某年恶性肿瘤死亡数
年龄组(岁) 死亡人数 累计频数 累计频率(%)
0~
5
5
0.42
10~
12
17
1.41
20~
15
32
2.66
30~
76
108
8.98
血糖 频数f 组中值X f X (4)
f X2 (5)
(1) (2) (3)
=(2)×(3) =(3)×(4)
3.60~ 3
3.7
3.80~ 3
3.9
4.00~ 8
4.1
4.20~ 23
4.3
4.40~ 24
4.5
4.60~ 25
4.7
4.80~ 20
4.9
5.00~ 12
5.1
5.20~ 10
5.3
红细胞数 3.70~ 3.90~ 4.10~ 4.30~ 4.50~ 4.70~ 4.90~ 5.10~ 5.30~ 5.50~ 5.70~5.90
划记
T
|||| 正|||| 正正正 | 正正正正 T 正正正正正 正正正正 | 正正正 | | 正|||| ||||
|
频数 2 4 9
16 22 25 21 17
5.40~5.60 4
5.5
11.1
11.2 32.8 98.9 108.0 117.5 98.0 61.2 53.0 22.0
41.07
45.63 134.48 425.27 486.00 552.25 480.20 312.12 280.90 121.00

第九章 数值变量资料的统计分析下讲解

单侧的U0.05=1.645 , U0.01=2.326
例9-11 利用表9-1的资料求95%的参考值范围
从频数分布图可以看出该资料基本符合正态分布 x 1.96S 4.411.961.07 2.31 ~ 6.51(mmol / L) 该地正常成年男子血清BUN 浓度的95%参考值范 围为2.31 ~ 6.51(mmol / L)
差异的原因:
(2)由于抽样误差造成的.(实际上 0 ,但
由于抽样误差 不能很好代表 0 )
(1)该地成年男性的血红蛋白含量与正常成年男性
的血红蛋白含量的均数不同( 0)
µ0 =140.0g/L
已知总体
µ
未知总体
x=136.0g/L S=6.0g/L
(二)假设检验的基本步骤
X t / 2, .sx
95%置信区间 x t0.05, Sx 99%置信区间 x t0.01, Sx
总体均数置信区间(可信区间)的计算
1) 已知
x u, x
95%置信区间
x 1.96 x
99%置信区间
x 2.58 x
总体均数置信区间(可信区间)的计算
X
t sx
P(t ,

X
sx
t , ) 1
t ,

X
sx
t ,
t , .sx X t , .sx
总体均数置信区间(可信区间)的计算
2)小样本或 未知----按 t 分布
X t / 2, .sx X t / 2, .sx
在 范围内的面积占 68.27% 在 1.96 范围内的面积占 95% 在 2.58 范围内的面积占 99%

卫生学-数值变量资料的统计分析


分析资料
统计学 分析
统计学 描述
统计学 推断
参数 估计
假设 检验
点估计 区间估计
150名非接触正常成年男子的尿酸浓度(mol / L )
362.6 359.7 285.9 300.2 333.6 334.0 288.8 338.5 341.9 344.6 337.5 298.3 364.2 367.1 338.1 316.9 332.7 324.0 282.6 369.8 398.7 338.7 308.9 392.1 368.7 352.6 378.2 346.1 278.6 318.3 323.2 322.6 382.1 322.6 309.6 352.0 372.5 399.8 335.6 341.1 371.0 355.9 362.7 368.1 332.4 405.6 328.8 358.8 405.9 362.7 316.3 338.7 402.6 379.4 329.6 354.6 331.4 349.6 419.5 324.6 329.8 357.8 312.0 313.6 338.7 328.6 291.3 329.7 361.8 392.4 414.9 319.7 327.6 395.8 358.9 289.4 366.2 387.4 298.4 408.7 389.8 362.5 354.9 352.7 316.6 348.9 348.7 401.6 334.6 308.9 367.0 345.6 401.6 357.1 304.6 338.5 388.2 355.8 329.4 321.1 320.4 313.5 339.8 409.4 387.4 378.5 392.0 352.7 376.2 388.4 344.6 308.6 347.0 428.7 369.1 311.4 376.3 349.4 289.2 366.8 371.0 387.5 413.6 348.7 392.7 401.0 313.6 366.8 387.2 319.7 329.4 357.5 348.5 346.8 406.6 357.6 338.7 341.6 349.8 289.4 366.2 357.5 298.4 336.8
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
相关文档
最新文档