02统计学第二章计量资料的统计描述
统计背诵版(三份整合)

统计学资料背诵版一、单选题:第二章:计量资料的统计描述1、描述一组偏态分布资料的变异度,以四分位数间距指标较好。
2、用均数和标准差可以全面描述正态分布资料的特征。
3、各观察值均加(或减)同一数后标准差不变。
4、比较某地1~2岁和5~5.5岁儿童身高的变异程度,宜用变异系数。
5、偏态分布宜用中位数描述其分布的集中趋势。
6、各观察值同乘以一个不等于0的常数后,变异系数不变。
7、正态分布的资料,均数等于中位数。
8、对数正态分布是一种右偏态分布(说明:设X变量经Y=lgX变换后服从正态分布,问X变量属何种分布?)9、横轴上,标准正态曲线下从0到2.58的面积为49.5%10、当各观察值呈倍数变化(等比关系)时,平均数宜用几何均数。
第三章:总体均数的估计与假设检验1、均数的标准误反映了样本均数与总体均数的差异。
2、两样本均数比较的t检验,差别有统计学意义时,P越小,说明越有理由认为两总体均数不同。
3、甲乙两人分别从同一随机数字表抽得30个(各取两位数字)随机数字作为两个样本,求得X1和S 12、X2和S22,则理论上由甲、乙两样本均数之差求出的总体均数95%可信区间,很可能包括04、在参数未知的正态总体中随机抽样,丨X-μ丨≥t0.05/2,vS X的概率为5%5、某地1992年随机抽取100名健康女性,算得其血清总蛋白含量的均数为74g/L,标准差为4g/L,则其95%的参考值范围为74±1.96×46、关于以0为中心的t分布,叙述错误的是相同时,丨t丨越大,P越大。
7、在两样本均数比较的t检验中,无效假设为两总体均数相等。
8、两样本均数比较作t检验时,分别取以下检验水准,犯第二类错误概率最小的是α=0.309、正态性检验,按α=0.10水准,认为总体服从正态分布,此时若推断有错,其错误的概率等于β,而β未知。
10、关于假设检验,说法正确的是采用配对t检验还是两样本t检验是由试验设计方案所决定的。
计量的统计描述2016-07-01

i50 f50
(n 2
fL)
例2-10 某地118名链球菌咽喉炎患者的潜伏期频数表见表2-6第(1)、(2)栏, 求中位数及第25 、第75 百分位数。
天数
人数 f
累计频数
累计频率(%)
(1)
(2)
12~
4
24~
17
36~
32
48~
24
60~
18
72~
12
84~
5
96~
4
108~
2
(3)
(4)
fX 2
(5)=(2)×(3)2
20.10 37.07 114.70 198.98 346.74 521.67 401.03 313.27 227.53 148.21 106.92 57.67 2493.89
计数资料频数分布表
人流次数
(1)
0 1 2 3 4 5 6 合计
人数
(2)
402 330 232 118
第三节 描述离散趋势
(变异(variation)指标)
反映数据的离散度( Dispersion )。即 个体观察值的变异程度。常用的指标有:
1. 极差(Range) (全距) 2. 百分位数与四分位数间距
Percentile and Quartile range 3. 方差 Variance 4. 标准差Standard Deviation 5. 变异系数 Coefficient of Variation
三、频数表和图的用途 1、描述频数分布的类型
对称分布:各组段的频数以频数最多组 段为中心左右两侧大体对称;
偏态分布:频数最多组段不在中心位置, 其两侧组段数不对称。
统计学第二章计量资料的统计描述

02
统计数据整理与展示方法
数据清洗与预处理技巧
80%
缺失值处理
根据数据的分布情况和实际背景 ,选择合适的缺失值填充方法, 如均值、中位数、众数等。
100%
异常值处理
采用箱线图、散点图等方法识别 异常值,并根据实际情况选择删 除、替换或保留。
分类
根据测量水平的不同,计量资料可分为离散型和连续型两类。离 散型数据只能取整数值,如人口数、医院床位数等;连续型数据 则可以取实数范围内的任何值,如身高、体重等。
计量资料特点分析
数值性
计量资料以数值形式表示,具有数量化的特点,便 于进行数学运算和统计分析。
连续性
连续型计量资料在实数范围内可以取任意值,数据 分布的连续性使得统计推断更为精确。
06
统计图表在数据可视化中应用
常见统计图表类型介绍
条形图(Bar Chart)
用于展示分类数据之间的比较,横轴表示分类,纵轴表示数量或比例。
折线图(Line Chart)
用于展示时间序列数据或连续性数据的趋势变化,横轴表示时间或类 别,纵轴表示数量或比例。
散点图(Scatter Plot)
用于展示两个变量之间的关系,横轴和纵轴分别表示两个变量,点的 位置表示变量的取值。
一组观察值中出现次数最多的数。
计算方法
应用场景
中位数计算需先将数据排序,然后取中间 位置的数;众数计算则是统计各数值出现 的次数,取出现次数最多的数。
适用于各种类型的数据,尤其适用于偏态 分布数据。中位数和众数对极端值不敏感 ,因此能较好地反映数据的集中趋势。
不同集中趋势指标比较
算术平均数、中位数和 众数都是描述数据集中 趋势的指标,但各有特 点。
研究生统计学第二章计量资料统计描述2正态分布

二、标准正态分布 如果以总频数为1,不同u值时的频数(概率)可用下式求得:
(u) 1 e , u 如果以曲线下的总面积为1,则从-∞至u的 面u积2可/2用下列积分公式求得: 2
(u) 1 ueu2/2d, u u
2
二、标准正态分布 标准正态分布u 值所对应的概率和曲线下的面积
二、标准正态分布
154
0.004181
158
0.013112
162
0.029661
166
0.048407
170
0.056992
174
0.048407
178
0.029661
182
0.013112
186
0.004181
190
0.000962
194
0.000160
女性
x
f(x)
147
0.000122
150
0.000886
研究生统计学第二章计量资料统计描述2 正态分布
第一节 第二节 第三节 第四节 第五节
第二章 计量资料的统计描述
频数分布 集中趋势的描述 离散趋势的描述 正态分布 医学参考值范围的制定
第四节 正态分布
• 正态分布的概念和特征 • 标准正态分布 • 正态分布的应用
– 正态分布是许多统计方法的理论基础 – 质量控制 – 制定医学参考值范围
Fx2e d,x x
正态分布曲线下的面积 例 设某地成年男性身高的均数为170cm,标准差为7cm,假设该地共有成年男性10 000人,
求该地身高不超过160cm者有多少人?又该地身高在160cm~180cm之间者共有多少人?
F(16)0 1 e d1 160 1 216 710720 60.0764 72
医学统计学 第二章 计量资料的统计描述

肌红蛋白含量
人数
0~
2
5~
3
10~
7
15~
9
20~
10
25~
22
30~
23
35~
14
40~
9
45~50
2
18
人数
25 20 15 10
5 0
2.5 12.5 22.5 32.5 42.5 52.5 血 清 肌 红 蛋 白(μg / m L)
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
医学统计学 第二章 计量资料的统计 描述
计量资料(定量资料、数值变量资料) 总体:有限或无限个(定量)变量值 样本:从总体随机抽取的n个变量值:
X1,X2,X3,……,Xn
n为样本例数(样本大小、样本含量)
2
统计描述——描述其分布规律 1、用频数分布表(图)
要求:大样本 如 n〉30
2、用统计指标 描述 集中趋势 离散趋势
6
➢制表步骤 了解分布
1. 求极差(range) 极差也称全 距,即最大值和最小值之差,记作R。 本例
R 5 .7 1 2 .3 5 3 .3 6 ( m m o l/L )
7
2.确定组距(i) :
组段数通常取组 10-15组 本例组距
i 3 .3 6 /1 0 0 .3 3 6 0 .3 0
累计频率(%) (4)
0
402
402
35.80
1
330
732
65.18
2
232
964
85.84
3
118
1082
96.35
4
27
统计学2 计量资料的统计描述指标课件

N
Valid
Missing
Mean
Median
Std. Deviation
Skewness
Std. Error of Skewness
Kurtosis
Std. Error of Kurtosis
Range
Percentiles
5
25
50
75
95
97.5
238 0
7.1387 6.6111a 3.3217 1.209
x
72.4
例 某地不同年龄女童的身高资料如下,比较不同 年龄女童身高的变异程度。
表 某地不同年龄女童身高(cm)的变异程度
年龄组 1-2月
例数 100
均数 56.3
标准差 2.1
变异系数 (%)
3.7
5-6月 120
66.5
2.2
3.3
3-3.5岁 300
97.2
3.1
3.2
5-5.5岁 500 107.8
ON AVERAGE 间距 3. 标准差,S 4. 变异系数,CV
变异程度指标越大,表示数据离散程度越大。
1. 极差
Range,亦称全距,即全部观察值中最大值与最 小值之差。
R = X max − X min
极差没有利用全部观察值,是简单但又粗略的变 异指标。
效价 1:4 1:8 1:16 1:32 1:64 1:128 1:256 1:512 合计
例数 f 2 3 6 9 8 14 12 6 60
G=78.79
只用平均数描述资料的弊病
It has been said that a fellow with one leg frozen in ice and the other leg in boiling water is comfortable。
卫生统计学课件 第二章 计量资料的统计描述(共33张PPT)

●计算公式: 13cm之间的占该地7岁男童的百分 比。
∑f · X=1638
双侧界值:P 2.5 ~ P 97..5 定义:又称参考值范围,是指特定健康人群的解剖、生理、生化等各种数据的波动范围。
特征: ∑(X- X)=0 估计误差之和为0。
估计的方法: 1、正态分布法
2、百分位数法
28
1.正态分布法
应用条件:正态分布或近似正态分布资料 ●计算 (双侧) 95% 正常值(医学参考值)范围公式:
(x1.96 · S,x1.96 · S )
即(x±1.96 · S ) 例:
1.96 × 3.79 )
即(156.41 cm , 171.27 cm )
1998年100名18岁健康女大学生身高的频数分布
数。 (3) 估计该地7岁男童身高在107.
确定组段:第一组段包括最小值,如本例为154 89 cm 取整数 2 cm 应用:单位不同的多组数据比较
13cm之间比的。占该地7岁男频童的数百分表(频数分布):表示各组及它们对
注意:合理分组,才能求均数,否则没有意义。
96 ·S,x 1. Q = Qu 一 Ql
单侧 上界: P 95
单侧 下界: P 5
31
习题:
1.各观察值加同一数后: A.均数不变,标准差改变 B.均数改变,标准差不
变
2.用均数和标准差可全面描述:
3.正态分布曲线下,从均数u 到u 的面积为; A.95% B.45% C. 97.5% D.47.5%
19
相关概念:离均差、离均差平方和、方差(2 S2 ) 标准差的符号: S
第二章 计量资料的统计描述

意义:越大说明离散程度越大 优点:计算简单 缺点:不能全面反映资料的离散程度;不稳定,易受 极端值影响
(二)四分位数间距(Quartile interval)
四分位数间距( Q ):将一组资料分为四等份,上四分位数QU(P75) 与下四分位数QL(P25)之差。
(四)众数(mode)
• 众数是指一组观察值中出现次数最多的那个数值。一组观察 值可以有多个众数,也可以没有众数。众数只有在数据量较 大时才有意义。众数不受极端值大小的影响,但它掩盖的信 息经常比它揭示的要多。
• 例2-1资料中有频数最大为4的6个众数,分别为131、133、135、13 8、142、145(g/L);当列成表2-1的频数分布时,由于“138~” 组的频数为21最大,因此众数为该组的组中值141.5(g/L)。
不但反映研究指标数值的稳定性和均匀性,而且反映集中 性指标的代表性。
三组同性别同年龄儿童的体重如下:
x 甲组:26 28 30 32 34 甲 = 30Kg x 乙组:24 27 30 33 36 乙 = 30Kg x 丙组:26 29 30 31 34 丙 = 30Kg
(一)全距(Range)
集中趋势和离散趋势是揭示数据分布的类型和正
确进行统计描述与统计推断的前提。
(三)异常值的识别
频数表有助于发现极小或极大的异常值。 在频数表的两端连续出现几个组段的频数为0后,又
出现一些极小值或极大值,应怀疑这些资料的准确 性,需对这些数据进一步核对和复查,若发现错误, 及时改正。
(四)有利于进一步对资料进行 统计描述与分析
2 (xi )2
N
s2
xi
x2
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Descriptions of Measurement Data
Content
1. Frequence distribution 2. Description of central
tendency 3. Measures of dispersion 4. Normal destribution 5. Range of reference value
2.360~
组段 2.30~ 2.60~ 2.90~ 3.20~ … 5.60~5.90
4.分组段划记并统计频数
L X U
2.360~
组段 (1)
2.30~ 2.60~ 2.90~ 3.20~ 3.50~ 3.80~ 4.10~ 4.40~ 4.70~ 5.00~ 5.30~ 5.60~5.90 合计
第二节 集中趋势的描述
统计上使用平均数(average)这一 指标体系来描述一组变量值的集中位置 或平均水平。 常用的平均数有:
算术均数 几何均数 中位数
一、算术均数
算术均数:简称均数(mean) 可用于反映一组呈对称分布的变量
值在数量上的平均水平或者说是集中位 置的特征值。
1、计算方法
(1)直接计算法
(2)偏态分布 :
1)右偏态分布 (skewed to the right distribution) 也称正偏态分布 (positive skewness distribution):右侧 的组段数多于左侧的
组段数,频数向右侧 拖尾
人数
25 20 15 10
5 0
13.5 19.5 25.5 31.5 37.5 43.5. 血清转氨酶(mmol/L)
三、频数表和频数分布图用途
1.描述频数分布的 类型
(1)对称分布 :若 各组段的频数以频数 最多组段为中心左右 两侧大体对称,就认 为该资料是对称分布
频数
25
20 15
10 5
0 2.45 3.05 3.65 4.25 4.85 5.45 6.10
血 清 总 胆 固 醇(mmol/L) 图 2 - 1 101 名 正 常 成 年 女 子 血 清 总 胆 固 醇 的 频 数 分 布
15
10
5
0 2.5
12.5 22.5 32.5 42.5 52.5 血 清 肌 红 蛋 白(μg / m L)
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
2.描述频数分布的特征
①变异的范围在2.30~5.90 (mmol/L)
②有明显的统计分布规律,数据主要集 中在3.50~4.70(mmol/L) 之间,尤以组段的 人数3.80~4.10 (mmol/L) 最多,且上下组段 数的频数分布基本对称。
图2-2 115名正常成年女子血清转氨酶的频数分布
2)左偏态分布 (skewed to the left distribution ) 也 称 负 偏 态 分 布 ( negative
skewness distribution ) : 左 侧 的组段数多于右侧的 组段数,频数向左侧 拖尾
人数
25
20
3.便于发现一些特大或特小的可疑值
组段
(1) 2.30~ 2.60~ 2.90~ 3.20~ 3.50~ 3.80~ 4.10~ 4.40~ 4.70~ 5.00~ 5.30~ 5.60~5.90 合计
频数f (2) 1 0 0 0 17 20 17 12 9 5 2 1 101
4.便于进一步做统计分析和处理
编制步骤如下:
1. 求极差 :
。
极差(range)也称全距,即最 大
值和最小值之差,记作R。
本例: R 5.71 2.35 3.36(mmol/L)
2.确定组距(i) : 组段数通常取组 10-15组
本例组距 i 3.36 /10 0.336 0.30
3.写组段: 组下限(L):每个组段的起点 组上限(U):每个组段的终点
公式
: X
X1 X2 L
Xn
X
n
n
式中 X1, X2,L , Xn 为所有观察值,n 为样本含量, (希腊字母,读作
sigma)为求和的符号。
例2-2 用直接法计算例2-1某单位101名正常成年 女子的血清总胆固醇的均数。
2.35 4.21 3.32 5.35 4.17 4.13 2.78 4.26 3.58 4.34 4.84 4.41 4.78 3.95 3.92 3.58 3.66 4.28 3.26 3.50 2.70 4.61 4.75 2.91 3.91 4.59 4.19 2.68 4.52 4.91 3.18 3.68 4.83 3.87 3.95 3.91 4.15 4.55 4.80 3.41 4.12 3.95 5.08 4.53 3.92 3.58 5.35 3.84 3.60 3.51 4.06 3.07 3.55 4.23 3.57 4.83 3.52 3.84 4.50 3.96 4.50 3.27 4.52 3.19 4.59 3.75 3.98 4.13 4.26 3.63 3.87 5.71 3.30 4.73 4.17 5.13 3.78 4.57 3.80 3.93 3.78 3.99 4.48 4.28 4.06 5.26 5.25 3.98 5.03 3.51 3.86 3.02 3.70 4.33 3.29 3.25 4.15 4.36 4.95 3.00 3.26
第一节 频数分布
一、频数分布表(frequency table) :
例2-1 从某单位1999年的职工体检资料 中获得101名正常成年女子的血清总胆固 醇( mmol/L )的测量结果如下,试编制 频数分布表。
2.35 4.21 3.32 5.35 4.17 4.13 2.78 4.26 3.58 4.34 4.84 4.41 4.78 3.95 3.92 3.58 3.66 4.28 3.26 3.50 2.70 4.61 4.75 2.91 3.91 4.59 4.19 2.68 4.52 4.91 3.18 3.68 4.83 3.87 3.95 3.91 4.15 4.55 4.80 3.41 4.12 3.95 5.08 4.53 3.92 3.58 5.35 3.84 3.60 3.51 4.06 3.07 3.55 4.23 3.57 4.83 3.52 3.84 4.50 3.96 4.50 3.27 4.52 3.19 4.59 3.75 3.98 4.13 4.26 3.63 3.87 5.71 3.30 4.73 4.17 5.13 3.78 4.57 3.80 3.93 3.78 3.99 4.48 4.28 4.06 5.26 5.25 3.98 5.03 3.51 3.86 3.02 3.70 4.33 3.29 3.25 4.15 4.36 4.95 3.00 3.26
频数f (2) 1 3 6 8 17 20 17 12 9 5 2 1 101
频数表:由各组段及其频数所构成的统 计表。
频数
二、频数分布图
25
20
15
10
5
0
2.45 3.05 3.65 4.25 4.85 5.45 101 名 正 常 成 年 女 子 血 清 总 胆 固 醇 的 频 数 分 布