统计学02 计量资料的统计描述

合集下载

统计学第二章计量资料的统计描述

统计学第二章计量资料的统计描述
数据。同时,还需要对数据进行质量控制和预处理,以消除误差和异常值的影响。
02
统计数据整理与展示方法
数据清洗与预处理技巧
80%
缺失值处理
根据数据的分布情况和实际背景 ,选择合适的缺失值填充方法, 如均值、中位数、众数等。
100%
异常值处理
采用箱线图、散点图等方法识别 异常值,并根据实际情况选择删 除、替换或保留。
分类
根据测量水平的不同,计量资料可分为离散型和连续型两类。离 散型数据只能取整数值,如人口数、医院床位数等;连续型数据 则可以取实数范围内的任何值,如身高、体重等。
计量资料特点分析
数值性
计量资料以数值形式表示,具有数量化的特点,便 于进行数学运算和统计分析。
连续性
连续型计量资料在实数范围内可以取任意值,数据 分布的连续性使得统计推断更为精确。
06
统计图表在数据可视化中应用
常见统计图表类型介绍
条形图(Bar Chart)
用于展示分类数据之间的比较,横轴表示分类,纵轴表示数量或比例。
折线图(Line Chart)
用于展示时间序列数据或连续性数据的趋势变化,横轴表示时间或类 别,纵轴表示数量或比例。
散点图(Scatter Plot)
用于展示两个变量之间的关系,横轴和纵轴分别表示两个变量,点的 位置表示变量的取值。
一组观察值中出现次数最多的数。
计算方法
应用场景
中位数计算需先将数据排序,然后取中间 位置的数;众数计算则是统计各数值出现 的次数,取出现次数最多的数。
适用于各种类型的数据,尤其适用于偏态 分布数据。中位数和众数对极端值不敏感 ,因此能较好地反映数据的集中趋势。
不同集中趋势指标比较
算术平均数、中位数和 众数都是描述数据集中 趋势的指标,但各有特 点。

医学统计学 第二章 计量资料的统计描述

医学统计学 第二章 计量资料的统计描述

肌红蛋白含量
人数
0~
2
5~
3
10~
7
15~
9
20~
10
25~
22
30~
23
35~
14
40~
9
45~50
2
18
人数
25 20 15 10
5 0
2.5 12.5 22.5 32.5 42.5 52.5 血 清 肌 红 蛋 白(μg / m L)
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
医学统计学 第二章 计量资料的统计 描述
计量资料(定量资料、数值变量资料) 总体:有限或无限个(定量)变量值 样本:从总体随机抽取的n个变量值:
X1,X2,X3,……,Xn
n为样本例数(样本大小、样本含量)
2
统计描述——描述其分布规律 1、用频数分布表(图)
要求:大样本 如 n〉30
2、用统计指标 描述 集中趋势 离散趋势
6
➢制表步骤 了解分布
1. 求极差(range) 极差也称全 距,即最大值和最小值之差,记作R。 本例
R 5 .7 1 2 .3 5 3 .3 6 ( m m o l/L )
7
2.确定组距(i) :
组段数通常取组 10-15组 本例组距
i 3 .3 6 /1 0 0 .3 3 6 0 .3 0
累计频率(%) (4)
0
402
402
35.80
1
330
732
65.18
2
232
964
85.84
3
118
1082
96.35
4
27

统计学2 计量资料的统计描述指标课件

统计学2 计量资料的统计描述指标课件

N
Valid
Missing
Mean
Median
Std. Deviation
Skewness
Std. Error of Skewness
Kurtosis
Std. Error of Kurtosis
Range
Percentiles
5
25
50
75
95
97.5
238 0
7.1387 6.6111a 3.3217 1.209
x
72.4
例 某地不同年龄女童的身高资料如下,比较不同 年龄女童身高的变异程度。
表 某地不同年龄女童身高(cm)的变异程度
年龄组 1-2月
例数 100
均数 56.3
标准差 2.1
变异系数 (%)
3.7
5-6月 120
66.5
2.2
3.3
3-3.5岁 300
97.2
3.1
3.2
5-5.5岁 500 107.8
ON AVERAGE 间距 3. 标准差,S 4. 变异系数,CV
变异程度指标越大,表示数据离散程度越大。
1. 极差
Range,亦称全距,即全部观察值中最大值与最 小值之差。
R = X max − X min
极差没有利用全部观察值,是简单但又粗略的变 异指标。
效价 1:4 1:8 1:16 1:32 1:64 1:128 1:256 1:512 合计
例数 f 2 3 6 9 8 14 12 6 60
G=78.79
只用平均数描述资料的弊病
It has been said that a fellow with one leg frozen in ice and the other leg in boiling water is comfortable。

卫生统计学课件 第二章 计量资料的统计描述(共33张PPT)

卫生统计学课件 第二章 计量资料的统计描述(共33张PPT)
11111,11111,11111 中位数是50%位的数值,其为百分位数的特殊形式。
●计算公式: 13cm之间的占该地7岁男童的百分 比。
∑f · X=1638
双侧界值:P 2.5 ~ P 97..5 定义:又称参考值范围,是指特定健康人群的解剖、生理、生化等各种数据的波动范围。
特征: ∑(X- X)=0 估计误差之和为0。
估计的方法: 1、正态分布法
2、百分位数法
28
1.正态分布法
应用条件:正态分布或近似正态分布资料 ●计算 (双侧) 95% 正常值(医学参考值)范围公式:
(x1.96 · S,x1.96 · S )
即(x±1.96 · S ) 例:
1.96 × 3.79 )
即(156.41 cm , 171.27 cm )
1998年100名18岁健康女大学生身高的频数分布
数。 (3) 估计该地7岁男童身高在107.
确定组段:第一组段包括最小值,如本例为154 89 cm 取整数 2 cm 应用:单位不同的多组数据比较
13cm之间比的。占该地7岁男频童的数百分表(频数分布):表示各组及它们对
注意:合理分组,才能求均数,否则没有意义。
96 ·S,x 1. Q = Qu 一 Ql
单侧 上界: P 95
单侧 下界: P 5
31
习题:
1.各观察值加同一数后: A.均数不变,标准差改变 B.均数改变,标准差不

2.用均数和标准差可全面描述:
3.正态分布曲线下,从均数u 到u 的面积为; A.95% B.45% C. 97.5% D.47.5%
19
相关概念:离均差、离均差平方和、方差(2 S2 ) 标准差的符号: S

医学统计学 第3版,02 计量资料的统计描述 试题

医学统计学 第3版,02 计量资料的统计描述 试题

第二章 计量资料的统计描述一、教学大纲要求(一)掌握内容1. 频数分布表与频数分布图 (1)频数表的编制。

(2)频数分布的类型。

(3)频数分布表的用途。

2. 描述数据分布集中趋势的指标掌握其意义、用途及计算方法。

算术均数、几何均数、中位数。

3. 描述数据分布离散程度的指标掌握其意义、用途及计算方法。

极差、四分位数间距、方差、标准差、变异系数。

(二)熟悉内容连续型变量的频数分布图:等距分组、不等距分组。

二、 教学内容精要计量资料又称为测量资料,它是测量每个观察单位某项指标值的大小所得的资料,一般均有计量单位。

常用描述定量资料分布规律的统计方法有两种:一类是用统计图表,主要是频数分布表(图);另一类是选用适当的统计指标。

(一)频数分布表的编制频数表(frequency table )用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数)。

对于离散数据,每一个观察值即对应一个频数,如某医院某年度一日内死亡0,1,2,…20个病人的天数。

如描述某学校学生性别分布情况,男、女生的人数即为各自的频数。

对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。

制作连续型数据频数表一般步骤如下:1.求数据的极差(range )。

min max X X R -= (2-1) 2.根据极差选定适当“组段”数(通常8—10个)。

确定组段和组距。

每个组段都有下限L 和上限U ,数据χ归组统一定为L ≤χ<U 。

3.写出组段,逐一划记。

频数表可用于揭示资料的分布特征和分布类型,在文献中常用于陈述资料,它便于发现某些特大或特小的可疑值,也便于进一步计算指标和统计分析处理。

(二)描述频数分布中心位置的平均指标描述中心位置的平均指标,但常因资料的不同而选取不同的指标进行描述。

1.算术均数(对称分布)算术均数(arithmetic mean )简称均数,描述一组数据在数量上的平均水平。

第二章 计量资料的统计描述

第二章 计量资料的统计描述
全距(R ):即极差,最大值与最小值之差。
意义:越大说明离散程度越大 优点:计算简单 缺点:不能全面反映资料的离散程度;不稳定,易受 极端值影响
(二)四分位数间距(Quartile interval)
四分位数间距( Q ):将一组资料分为四等份,上四分位数QU(P75) 与下四分位数QL(P25)之差。
(四)众数(mode)
• 众数是指一组观察值中出现次数最多的那个数值。一组观察 值可以有多个众数,也可以没有众数。众数只有在数据量较 大时才有意义。众数不受极端值大小的影响,但它掩盖的信 息经常比它揭示的要多。
• 例2-1资料中有频数最大为4的6个众数,分别为131、133、135、13 8、142、145(g/L);当列成表2-1的频数分布时,由于“138~” 组的频数为21最大,因此众数为该组的组中值141.5(g/L)。
不但反映研究指标数值的稳定性和均匀性,而且反映集中 性指标的代表性。
三组同性别同年龄儿童的体重如下:
x 甲组:26 28 30 32 34 甲 = 30Kg x 乙组:24 27 30 33 36 乙 = 30Kg x 丙组:26 29 30 31 34 丙 = 30Kg
(一)全距(Range)
集中趋势和离散趋势是揭示数据分布的类型和正
确进行统计描述与统计推断的前提。
(三)异常值的识别
频数表有助于发现极小或极大的异常值。 在频数表的两端连续出现几个组段的频数为0后,又
出现一些极小值或极大值,应怀疑这些资料的准确 性,需对这些数据进一步核对和复查,若发现错误, 及时改正。
(四)有利于进一步对资料进行 统计描述与分析
2 (xi )2
N
s2

xi
x2

统计学-计量资料的统计描述方法

统计学-计量资料的统计描述方法

计量资料得统计描述方法怎样表达一组数据?描述计量资料得常用指标—A 、描述平均水平(中心位置):均数X 、中位数与百分位数、几何均数G 、众数(mode) B 、描述数据得分散程度:标准差、四分位数间距、 变异系数、方差、全距(一)均数mean 与标准差standard deviation1、 (算术)均数X均数就是描述一组计量资料平均水平或集中趋势得指标。

*直接计算公式:12nX X X X X nn+++==∑应用条件:适用于对称分布,特别就是正态分布资料。

2、 中位数(median )M 与百分位数(percentile)A 、中位数M就是将一组观察值从小到大排序后,居于中间位置得那个值或两个中间值得平均值。

应用条件:用于任何分布类型,包括偏态资料、两端数据无界限得资料。

计算:n 为奇数时--1()2n M X+=n 为偶数时--()(1)2212n n M X X +⎛⎫=+ ⎪⎝⎭9人数据:12,13,14, 14, 15, 15, 15, 17, 19天B 、百分位数 就是将N 个观察值从小到大依次排列,再分成100等份,对应于X%位得数值即为第X 百分位数。

中位数就是第百分50位数。

四分位数间距(quartile range)= 第25百分位数(P25)~第75百分位数(P75)。

四分位数间距用于描述偏态资料得分散程度(代替标准差S),包含了全部观察值得一半。

百分位数计算(频数表法):(%)XX XL Xi P L nX f f =+-∑X L :第X 百分位数所在组段下限 L Σf :小于X L 各组段得累计频数X i :第X 百分位数所在组段组距n :总例数 f x :所在组段频数注:有得教材X= r ;L f ∑=C)(天155219===+X X M 8845122221415214.5()M X X X X ⎛⎫==== ⎪⎝⎭+如果只调查了前八位中学生,则:+(+)(+)天例:求频数表得第25、第75百分位数(四分位数间距)组段 频数f 累积频数∑f 56~ 2 2 59~ 5 762~ 12 19 ∑f 25 L 25 65~15 34 P 25在此68~ 25 5971~ 26 85 ∑f 75 L 75 74~19 104 P 75在此77~ 15 119 80~ 10 129 83~851 130合 计130① 确定Px 所在组段:P 25所在得组段:n X %=130×25%=32、5,65~组最终得累积频数=34,32、5落在65~组段内;P 75所在得组段:n X %=130×75%=97、5, 此值落在74~组段 ② 确定Px 所在组段得X L 、X i 、f x 、L Σf ③ P 25=65+3x[(130x25%-19)/15]=65、90P 75=74+3x[(130x75%-85)/19]=74、66四分位数间距=65、90~74、66 (次/分)3、几何均数G (geometric mean)应用:适用于成等比数列得资料,特别就是服从对数正态分布资料。

医学统计学:计量资料的统计描述

医学统计学:计量资料的统计描述

方差、标准差计算方法和意义
方差
指各数据与均数之差的平方和的平均 数,用于反映数据的术平方根,用于衡量数据偏 离均数的程度。标准差越大,数据分 布越离散。
变异系数在医学研究中应用
变异系数
指标准差与均数之比,用于比较不同单位或不同均数水平下数据的离散程度。在医学研究中,常用于评价不同指 标或不同人群间的变异程度。
分类
根据测量水平不同,可分为离散型计量资料和连续型计量资料。离散型计量资 料只能取整数值,如人口数、医院床位数等;连续型计量资料可以取实数范围 内的任何值,如身高、体重等。
计量资料特点分析
01
数值性
计量资料以数值形式表示,具有明 确的数量特征。
可比性
同类计量资料之间可以进行比较, 如不同人群的身高、体重等。
众数
一组观察值中出现次数最多的数。
应用场景
常用于描述无明显集中趋势或分布规 律资料的集中趋势,如一些分类数据 的统计描述。
04 离散程度指标解读
极差、四分位数间距计算及意义
极差
指一组数据中最大值与最小值之差, 用于反映数据的波动范围。计算简单, 但易受极端值影响。
四分位数间距
指第三四分位数与第一四分位数之差, 用于反映中间50%数据的离散程度。 较极差更稳定,不易受极端值影响。
常用统计描述方法介绍
频数分布表与直方图
通过分组和计数的方式展示数 据的分布情况,适用于连续型
变量。
集中趋势描述
包括算术均数、几何均数和中 位数等,用于描述数据的平均 水平或中心位置。
离散程度描述
包括标准差、方差和四分位数 间距等,用于描述数据的波动 范围或离散程度。
偏态与峰态描述
通过偏态系数和峰态系数等描 述数据的偏态和峰态特征,反
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
组段的频数以频数最多 组段为中心左右两侧大 体对称,就认为该资料 是对称分布
(2)偏态分布 :
1)右偏态分布 (skewed to the right distribution) 也称正偏态分布:右侧 的组段数多于左侧的组 段数,频数向右侧拖尾
2)左偏态分布
(skewed to the left distribution)也称负 偏态分布:左侧的组 段数多于右侧的组段 数,频数向左侧拖尾
(4) 划记计数:用划记法将所有数据归纳到各 组段,得到各组段的频数。
组段 (1)
3.7~ 3.9~ 4.1~ 4.3~ 4.5~ 4.7~ 4.9~ 5.1~ 5.3~ 5.5~ 5.7~5.9
合计
频数,f (2)
1 4 11 17 26 32 26 18 10 4 1 150
组中值,X (3)
组段
频数
观察结果的所有 分类
根据观察结果重 新划分
相同类别出现的 次数
分组统计
用途:1. 用于描述资料的分布特征. 2.发现一些特大或特小的可疑值 3.便于进一步做统计分析和处理
1. 频数表的编制步骤
(1)求极差(range):即最大值与最小值之差
例2.1极差:
R=5.88-3.79=2.09(1012/L)
适用条件:呈倍数关系的等比资料或对数正态分 布(正偏态)资料;如抗体滴度资料
例 血清的抗体效价滴度的倒数分别为:10、 100、1000、10000、100000,求几何均数。
G

lg
1
lg
101

lg
102

lg
103 5

lg
104

lg
105


1000
此例的算术均数为22222,显然不能代表滴度的
The graph shows one hundred values sampled from a population that follows a lognormal distribution. The left panel plots the data on a linear (ordinary) axis. Most of the data points are piled up at the bottom of the graph, where you can't really see them. The right panel plots the data with a logarithmic scale on the Y axis. On a log axis, the distribution appears symmetrical. The median and geometric mean are near the center of the data cluster (on a log scale) but the mean is much higher, being pulled up by some very large values.
2. 几何均数(geometric mean)
XG n X1X2 Xn
lg
XG

1 (lg n
X1
lg
X2

lg
Xn)
lg X n
X G lg 1
lg X n
lg 表示以10为底的对数;
lg 1表示以10为底的反对数
X 0,为正值
几何均数的适用条件与实例
小结: 集中趋势的描述——平均数
平均数:描述一组变量值的集中位置或平均水平的 指标体系。
不同的分布使用不同的指标 (算术)均数:正态或近似正态或观察值相差不大的 小样本资料 几何均数:对数正态分布或等比级数资料 中位数 :一般偏态分布(传染病发病的潜伏期)
Example If your data are sampled from a Gaussian distribution, the mean, geometric mean and median all have similar values. But if the distribution is skewed, the values can differ a lot as this graph shows:
盘编号 甲 乙 丙
1 440 480 490
580
560
2 460 490 495
540
3 500 500 500 520
4 540 510 505
500
5 560 520 510
480 460
合计
2500 2500 2500 440
均数 500 500 500 420
甲 乙丙
1.极差(Range, R) R X max X min
3.8 4.0 4.2 4.4 4.6 4.8 5.0 5.2 5.4 5.6 5.8
fX (4)= (2)×(3)
3.8 16.0 46.2 74.8 119.6 153.6 130.0 93.6 54.0 22.4 5.8 719.8
二、频数分布图
三、频数表和频数分布图用途
1.描述频数分布的类型 (1)对称分布 :若各
平均水平。对同一资料,几何均数<均数
例 某地5例微丝蚴血症患者治疗七年后用间接荧 光抗体试验测得其抗体滴度倒数分别为,10,20, 40,40,160,求几何均数。
(2)加权法
公式:
例2-5 69例类风湿关节炎(RA)患者血清EBVVCA-lgG抗体滴度的分布见表2-4第(1)、(2)栏,求 其平均抗体滴度。
符号:总体 ; 样本 X
适用条件:资料呈对称分布,尤其是正态或近似正 态。计算:
(1)直接法 X X1 X 2 X n X
n
n
(2)频数表法
X f1 X1 f2 X 2 f3 X 3 L fk X k fX i
f1 f2 f3 L fk
第三节 离散趋势的描述
例2-11 三组同龄男孩的身高值(cm)
What do you find out?
描述离散趋势的特征数(变异指标)
反映数据的离散度( Dispersion )。即个体 观察值的变异(variation)程度。常用的指标有:
1. 极差(Range) (全距) 2. 百分位数与四分位数间距
适用条件:适合各种类型的资料。尤其适合于①大 样本偏态分布的资料;②资料有不确定数值;③资 料分布不明等。
中位数计算公式与实例
先将观察值按从小到大顺序排列,再按以下公式
计算:
Md


x(n1) xn/ 2
/2

x1n / 2
2
n为奇数 n为偶数
特点:仅仅利用了中间的1~2个数据
Compute the logarithm of all values, compute the mean of the logarithms, and then take the antilog. It is a better measure of central tendency when data follow a lognormal distribution (long tail).
Percentile and Quartile range 3. 方差 Variance 4. 标准差Standard Deviation 5. 变异系数 Coefficient of Variation
例:设甲、乙、丙三人,采每人的耳垂血,然后红细胞 计数,每人数5个计数盘,得结果如下(万/mm3)
fi
Σ为求和符号,读成sigma;f :“权数”
例:计算4,4,4,6,6,8,8,8,10的 均数。
例2-2 用直接法计算例2-1某单位101名正常成年女 子的血清总胆固醇的均数。
计算101名正常成年女子的血总胆固醇的均数。
2 几何均数(geometric mean):变量对数值的算 术均数的反对数。 可用于反映一组经对数转换 后呈对称分布的变量值在数量上的平均水平。
(2) 决定组数、组段和组距:根据研究目的和 样本含量n确定。组距=极差/组数,通常分1015个组,为方便计,组距参考极差的十分之一, 再略加调整。
本例i= R /10=2.09/10=0.209≈0.2。
(3) 列出组段:第一组段的下限略小于最小值 ,最后一个组段上限必须包含最大值,其它组段 上限值忽略。
意义:反映全部变量值的变
动范围。
——变异水平指标
第二节 集中趋势的描述
计量资料(定量资料、数值变量资料) 总体:有限或无限个变量值
样本:从总体随机抽取的n个变量值: X1, X2, X3,……, Xn
n为样本例数(样本含量、样本大小、样 本含量)

一、描述集中趋势的特征数(平均指标)
总称为平均数(average),反映资料的集中趋 势( central tendency )。常用的有: 1. 算术均数(arithmetic mean),简称均数 (mean) 2. 几何均数(geometric mean) 3. 中位数 (median)
Statistics lets you analyze a set of data and make conclusions that can be generalized beyond that set of data.
第一节 频数分布
一、频数分布表(frequency table)
例2.1 某地150名正常成年男子红细胞数。 例2-2 某单位99年的职工体检资料中获得101
第二章 计量资料的统计描述
Descriptions of Measurement Data
相关文档
最新文档