第2讲计量资料统计描述
合集下载
2 计量资料的统计描述指标

M = X ⎛ n +1 ⎞ = X ⎛ 7 +1 ⎞ = X 4 = 92分
⎜ ⎟ ⎝ 2 ⎠ ⎜ ⎟ ⎝ 2 ⎠
例 在上述 7名中年知识分子 SCL - 90 总分的基础上,又 测得一名中年知识分子该总分为171,试求其中位数。
⎞ 1⎛ ⎞ 1 1⎛ M = ⎜ X n + X n ⎟ = ⎜ X 8 + X 8 ⎟ = ( X 4 + X 5 ) = 93.5分 ( +1) ( +1) 2 ⎝ (2) ⎠ 2 ⎝ (2) ⎠ 2 2 2
1. 算术均数
适用于单峰对称分布的资料,特别是正态
分布或近似正态分布的资料。
由于均数易受到极端值的影响,故不适用
于偏态分布资料的描述。
2. 中位数
中位数(median,M):是将一组观察值
由小到大排列后位次居中的观察值。
2. 中位数
直接法:
n 为奇数时
M = X ⎛ n +1 ⎞
⎜ ⎟ ⎝ 2 ⎠
例
某研究者随机抽取温州市正常成年男子120名,其红细 胞计数值(×1012/L)的频数表资料如下,求均数。
表 1 某地 120 名正常成年男子红细胞频数表 组 段 频数 频率(%) 累积频数 3.20~ 2 1.7 2 3.50~ 5 4.2 7 3.80~ 10 8.3 17 4.10~ 19 15.8 36 4.40~ 23 19.2 59 4.70~ 24 20.0 83 5.00~ 21 17.5 104 5.30~ 11 9.2 115 5.60~ 4 3.3 119 5.90~6.20 1 0.8 120 合 计 120 100.0 - 累积频率(%) 1.7 5.8 14.2 30.0 49.2 69.2 86.7 95.8 99.2 100.0 -
⎜ ⎟ ⎝ 2 ⎠ ⎜ ⎟ ⎝ 2 ⎠
例 在上述 7名中年知识分子 SCL - 90 总分的基础上,又 测得一名中年知识分子该总分为171,试求其中位数。
⎞ 1⎛ ⎞ 1 1⎛ M = ⎜ X n + X n ⎟ = ⎜ X 8 + X 8 ⎟ = ( X 4 + X 5 ) = 93.5分 ( +1) ( +1) 2 ⎝ (2) ⎠ 2 ⎝ (2) ⎠ 2 2 2
1. 算术均数
适用于单峰对称分布的资料,特别是正态
分布或近似正态分布的资料。
由于均数易受到极端值的影响,故不适用
于偏态分布资料的描述。
2. 中位数
中位数(median,M):是将一组观察值
由小到大排列后位次居中的观察值。
2. 中位数
直接法:
n 为奇数时
M = X ⎛ n +1 ⎞
⎜ ⎟ ⎝ 2 ⎠
例
某研究者随机抽取温州市正常成年男子120名,其红细 胞计数值(×1012/L)的频数表资料如下,求均数。
表 1 某地 120 名正常成年男子红细胞频数表 组 段 频数 频率(%) 累积频数 3.20~ 2 1.7 2 3.50~ 5 4.2 7 3.80~ 10 8.3 17 4.10~ 19 15.8 36 4.40~ 23 19.2 59 4.70~ 24 20.0 83 5.00~ 21 17.5 104 5.30~ 11 9.2 115 5.60~ 4 3.3 119 5.90~6.20 1 0.8 120 合 计 120 100.0 - 累积频率(%) 1.7 5.8 14.2 30.0 49.2 69.2 86.7 95.8 99.2 100.0 -
计量资料统计描述

• 几何均数(geometric mean)
• 中位数和百分位数(median percentile) 以上统称为平均数(average)常用于描述一组变量 值的集中位置,代表其平均水平或是集中位置的特征 值。
36
第37页/共138页
一、算术均数
2024/8/7
(arithmetic mean)
7
第8页/共138页
一、频数分布表
2024/8/7
(2)确定组段数和组距 • 确定组段数:
n>100,10~15组;n<100,8~10组 • 确定组距:
• 组距可以相等也可以不相等,一般采用等距分组,
• 组距=极差/组数 例1 1.99/10≈2,故组距=2mmol/L
8
第9页/共138页
一、频数分布表
第30页/共138页
中介值细胞区域出异常白细胞峰
第31页/共138页
由大量白血病细胞出现形成的单一峰
第32页/共138页
第33页/共138页
红细胞分布直方图
第34页/共138页
第35页/共138页
第36页/共138页
第二节 集中趋势的描述
2024/8/7
• 算术均数(arithmetic mean)
极大值或极小值通常将均数拉向自己
2024/8/7
46
第47页/共138页
二、几何均数
2024/8/7
(geometric mean)
• 定义:有些医学资料,如抗体滴度、细菌计数等,其频数 分布明显偏态,各观察值之间呈倍数变化(等比关系), 此时宜用几何均数反映其平均增减倍数。
• 计算方法:
• 直接法
• 加权法
• 应用:等比资料或对数正态分布资料
• 中位数和百分位数(median percentile) 以上统称为平均数(average)常用于描述一组变量 值的集中位置,代表其平均水平或是集中位置的特征 值。
36
第37页/共138页
一、算术均数
2024/8/7
(arithmetic mean)
7
第8页/共138页
一、频数分布表
2024/8/7
(2)确定组段数和组距 • 确定组段数:
n>100,10~15组;n<100,8~10组 • 确定组距:
• 组距可以相等也可以不相等,一般采用等距分组,
• 组距=极差/组数 例1 1.99/10≈2,故组距=2mmol/L
8
第9页/共138页
一、频数分布表
第30页/共138页
中介值细胞区域出异常白细胞峰
第31页/共138页
由大量白血病细胞出现形成的单一峰
第32页/共138页
第33页/共138页
红细胞分布直方图
第34页/共138页
第35页/共138页
第36页/共138页
第二节 集中趋势的描述
2024/8/7
• 算术均数(arithmetic mean)
极大值或极小值通常将均数拉向自己
2024/8/7
46
第47页/共138页
二、几何均数
2024/8/7
(geometric mean)
• 定义:有些医学资料,如抗体滴度、细菌计数等,其频数 分布明显偏态,各观察值之间呈倍数变化(等比关系), 此时宜用几何均数反映其平均增减倍数。
• 计算方法:
• 直接法
• 加权法
• 应用:等比资料或对数正态分布资料
统计学第二章计量资料的统计描述

数据。同时,还需要对数据进行质量控制和预处理,以消除误差和异常值的影响。
02
统计数据整理与展示方法
数据清洗与预处理技巧
80%
缺失值处理
根据数据的分布情况和实际背景 ,选择合适的缺失值填充方法, 如均值、中位数、众数等。
100%
异常值处理
采用箱线图、散点图等方法识别 异常值,并根据实际情况选择删 除、替换或保留。
分类
根据测量水平的不同,计量资料可分为离散型和连续型两类。离 散型数据只能取整数值,如人口数、医院床位数等;连续型数据 则可以取实数范围内的任何值,如身高、体重等。
计量资料特点分析
数值性
计量资料以数值形式表示,具有数量化的特点,便 于进行数学运算和统计分析。
连续性
连续型计量资料在实数范围内可以取任意值,数据 分布的连续性使得统计推断更为精确。
06
统计图表在数据可视化中应用
常见统计图表类型介绍
条形图(Bar Chart)
用于展示分类数据之间的比较,横轴表示分类,纵轴表示数量或比例。
折线图(Line Chart)
用于展示时间序列数据或连续性数据的趋势变化,横轴表示时间或类 别,纵轴表示数量或比例。
散点图(Scatter Plot)
用于展示两个变量之间的关系,横轴和纵轴分别表示两个变量,点的 位置表示变量的取值。
一组观察值中出现次数最多的数。
计算方法
应用场景
中位数计算需先将数据排序,然后取中间 位置的数;众数计算则是统计各数值出现 的次数,取出现次数最多的数。
适用于各种类型的数据,尤其适用于偏态 分布数据。中位数和众数对极端值不敏感 ,因此能较好地反映数据的集中趋势。
不同集中趋势指标比较
算术平均数、中位数和 众数都是描述数据集中 趋势的指标,但各有特 点。
02
统计数据整理与展示方法
数据清洗与预处理技巧
80%
缺失值处理
根据数据的分布情况和实际背景 ,选择合适的缺失值填充方法, 如均值、中位数、众数等。
100%
异常值处理
采用箱线图、散点图等方法识别 异常值,并根据实际情况选择删 除、替换或保留。
分类
根据测量水平的不同,计量资料可分为离散型和连续型两类。离 散型数据只能取整数值,如人口数、医院床位数等;连续型数据 则可以取实数范围内的任何值,如身高、体重等。
计量资料特点分析
数值性
计量资料以数值形式表示,具有数量化的特点,便 于进行数学运算和统计分析。
连续性
连续型计量资料在实数范围内可以取任意值,数据 分布的连续性使得统计推断更为精确。
06
统计图表在数据可视化中应用
常见统计图表类型介绍
条形图(Bar Chart)
用于展示分类数据之间的比较,横轴表示分类,纵轴表示数量或比例。
折线图(Line Chart)
用于展示时间序列数据或连续性数据的趋势变化,横轴表示时间或类 别,纵轴表示数量或比例。
散点图(Scatter Plot)
用于展示两个变量之间的关系,横轴和纵轴分别表示两个变量,点的 位置表示变量的取值。
一组观察值中出现次数最多的数。
计算方法
应用场景
中位数计算需先将数据排序,然后取中间 位置的数;众数计算则是统计各数值出现 的次数,取出现次数最多的数。
适用于各种类型的数据,尤其适用于偏态 分布数据。中位数和众数对极端值不敏感 ,因此能较好地反映数据的集中趋势。
不同集中趋势指标比较
算术平均数、中位数和 众数都是描述数据集中 趋势的指标,但各有特 点。
统计学2 计量资料的统计描述指标课件

N
Valid
Missing
Mean
Median
Std. Deviation
Skewness
Std. Error of Skewness
Kurtosis
Std. Error of Kurtosis
Range
Percentiles
5
25
50
75
95
97.5
238 0
7.1387 6.6111a 3.3217 1.209
x
72.4
例 某地不同年龄女童的身高资料如下,比较不同 年龄女童身高的变异程度。
表 某地不同年龄女童身高(cm)的变异程度
年龄组 1-2月
例数 100
均数 56.3
标准差 2.1
变异系数 (%)
3.7
5-6月 120
66.5
2.2
3.3
3-3.5岁 300
97.2
3.1
3.2
5-5.5岁 500 107.8
ON AVERAGE 间距 3. 标准差,S 4. 变异系数,CV
变异程度指标越大,表示数据离散程度越大。
1. 极差
Range,亦称全距,即全部观察值中最大值与最 小值之差。
R = X max − X min
极差没有利用全部观察值,是简单但又粗略的变 异指标。
效价 1:4 1:8 1:16 1:32 1:64 1:128 1:256 1:512 合计
例数 f 2 3 6 9 8 14 12 6 60
G=78.79
只用平均数描述资料的弊病
It has been said that a fellow with one leg frozen in ice and the other leg in boiling water is comfortable。
第2章计量资料的统计描述

即有序数列中,第6位上的变量值为5,故其
平均潜伏期为5天。
三、中位数和百分位数 例2-6
如上例资料在第21天又发生1例该传染病患 者,其平均潜伏期又为多少? 先将变量值按从小到大的顺序排列:2,2, 3,3,4,5,6,8,9,11,15,21。
三、中位数和百分位数
n=12,为偶数
X n X n
132.1
143.6 142.4 145.9
135.5
149.0 139.6 144.4
141.2
143.5 134.7 150.8
141.5
139.2 147.3 144.5
148.8
144.7 138.1 137.1
140.1
139.3 140.2 147.1
150.6
141.9 137.4 142.9
科学出版社卫生职业教育出版分社
X n 1
2
三、中位数和百分位数
3.计算方法
⑴直接法
当变量值个数为奇数时计算公式为
M= X n 1
2
三、中位数和百分位数
当变量值个数为偶数时计算公式为
X n X n
M=
2
1 2
符号 用M表示
三、中位数和百分位数
2.应用条件
1
偏态分布资料, 包括正偏态和负 偏态分布的资料 ,如正常人必需 微量元素含量分 布、儿童少年视 力分布等。
2
一端或两端无界 (无确定数值) 的资料,即所谓 开口资料,如传 染病平均潜伏期 等。
3
频数分布类型不 明的资料,如确 定不了资料的分 布类型,用中位 数描述集中趋势 比较稳妥。
f
=120
第二讲计量资料的统计描述

几何均数( mean) 几何均数(geometric mean)
G = n X1X2 LXn 1 ∑lg X lgG = (lg X1 + lg X2 +L+ lg Xn ) = n n lg X 1 ∑ 几何均数: 几何均数:变量 G = lg n 对数值的算术均 对数值的算术均 lg 表 以 为 的 数 数的反对数。 示 10 底 对 ; 的反对数。
2×57.5 + 5×60.5 +L+1×84.5 9311 X= = = 71.62(次 分) 2 + 5 +L+1 130
2、应用
适用于对称分布, 均数适用于对称分布,特别 是正态分布资料。 是正态分布资料。
几何均数( mean) 二、 几何均数(geometric mean) 可用于反映一组经对数 可用于反映一组经对数 转换后呈对称分布或正态分 转换后呈对称分布或正态分 布的变量值在数量上的平均 水平。 水平。
130名健康成年男子脉搏 名健康成年男子脉搏( 表2-1 130名健康成年男子脉搏(次/分)的频数分布表
脉搏组段 (1) 56~ 59~ 62~ 65~ 68 68~ 71~ 74~ 77~ 80~ 83~85 合 计 频数, f (3) 频率(%) (4)= (3)/N 累积频数 (5)=(3)↓ 累积频率 (6)=(5)/N
是否为对称分布?
50 45 40 35 30 25 20 15 10 5 0 2.45 3.05 3.65 4.25 4.85 5.45 6.10
频 数
变量
(2)偏态分布 : )
1)正偏态分布(右偏态分布):右侧的组段数多于 )正偏态分布(右偏态分布):右侧的组段数多于 ): 左侧的组段数,频数向右侧拖尾。 左侧的组段数,频数向右侧拖尾。
卫生统计学课件 第二章 计量资料的统计描述(共33张PPT)

11111,11111,11111 中位数是50%位的数值,其为百分位数的特殊形式。
●计算公式: 13cm之间的占该地7岁男童的百分 比。
∑f · X=1638
双侧界值:P 2.5 ~ P 97..5 定义:又称参考值范围,是指特定健康人群的解剖、生理、生化等各种数据的波动范围。
特征: ∑(X- X)=0 估计误差之和为0。
估计的方法: 1、正态分布法
2、百分位数法
28
1.正态分布法
应用条件:正态分布或近似正态分布资料 ●计算 (双侧) 95% 正常值(医学参考值)范围公式:
(x1.96 · S,x1.96 · S )
即(x±1.96 · S ) 例:
1.96 × 3.79 )
即(156.41 cm , 171.27 cm )
1998年100名18岁健康女大学生身高的频数分布
数。 (3) 估计该地7岁男童身高在107.
确定组段:第一组段包括最小值,如本例为154 89 cm 取整数 2 cm 应用:单位不同的多组数据比较
13cm之间比的。占该地7岁男频童的数百分表(频数分布):表示各组及它们对
注意:合理分组,才能求均数,否则没有意义。
96 ·S,x 1. Q = Qu 一 Ql
单侧 上界: P 95
单侧 下界: P 5
31
习题:
1.各观察值加同一数后: A.均数不变,标准差改变 B.均数改变,标准差不
变
2.用均数和标准差可全面描述:
3.正态分布曲线下,从均数u 到u 的面积为; A.95% B.45% C. 97.5% D.47.5%
19
相关概念:离均差、离均差平方和、方差(2 S2 ) 标准差的符号: S
●计算公式: 13cm之间的占该地7岁男童的百分 比。
∑f · X=1638
双侧界值:P 2.5 ~ P 97..5 定义:又称参考值范围,是指特定健康人群的解剖、生理、生化等各种数据的波动范围。
特征: ∑(X- X)=0 估计误差之和为0。
估计的方法: 1、正态分布法
2、百分位数法
28
1.正态分布法
应用条件:正态分布或近似正态分布资料 ●计算 (双侧) 95% 正常值(医学参考值)范围公式:
(x1.96 · S,x1.96 · S )
即(x±1.96 · S ) 例:
1.96 × 3.79 )
即(156.41 cm , 171.27 cm )
1998年100名18岁健康女大学生身高的频数分布
数。 (3) 估计该地7岁男童身高在107.
确定组段:第一组段包括最小值,如本例为154 89 cm 取整数 2 cm 应用:单位不同的多组数据比较
13cm之间比的。占该地7岁男频童的数百分表(频数分布):表示各组及它们对
注意:合理分组,才能求均数,否则没有意义。
96 ·S,x 1. Q = Qu 一 Ql
单侧 上界: P 95
单侧 下界: P 5
31
习题:
1.各观察值加同一数后: A.均数不变,标准差改变 B.均数改变,标准差不
变
2.用均数和标准差可全面描述:
3.正态分布曲线下,从均数u 到u 的面积为; A.95% B.45% C. 97.5% D.47.5%
19
相关概念:离均差、离均差平方和、方差(2 S2 ) 标准差的符号: S
第二章 计量资料的统计描述

全距(R ):即极差,最大值与最小值之差。
意义:越大说明离散程度越大 优点:计算简单 缺点:不能全面反映资料的离散程度;不稳定,易受 极端值影响
(二)四分位数间距(Quartile interval)
四分位数间距( Q ):将一组资料分为四等份,上四分位数QU(P75) 与下四分位数QL(P25)之差。
(四)众数(mode)
• 众数是指一组观察值中出现次数最多的那个数值。一组观察 值可以有多个众数,也可以没有众数。众数只有在数据量较 大时才有意义。众数不受极端值大小的影响,但它掩盖的信 息经常比它揭示的要多。
• 例2-1资料中有频数最大为4的6个众数,分别为131、133、135、13 8、142、145(g/L);当列成表2-1的频数分布时,由于“138~” 组的频数为21最大,因此众数为该组的组中值141.5(g/L)。
不但反映研究指标数值的稳定性和均匀性,而且反映集中 性指标的代表性。
三组同性别同年龄儿童的体重如下:
x 甲组:26 28 30 32 34 甲 = 30Kg x 乙组:24 27 30 33 36 乙 = 30Kg x 丙组:26 29 30 31 34 丙 = 30Kg
(一)全距(Range)
集中趋势和离散趋势是揭示数据分布的类型和正
确进行统计描述与统计推断的前提。
(三)异常值的识别
频数表有助于发现极小或极大的异常值。 在频数表的两端连续出现几个组段的频数为0后,又
出现一些极小值或极大值,应怀疑这些资料的准确 性,需对这些数据进一步核对和复查,若发现错误, 及时改正。
(四)有利于进一步对资料进行 统计描述与分析
2 (xi )2
N
s2
xi
x2
意义:越大说明离散程度越大 优点:计算简单 缺点:不能全面反映资料的离散程度;不稳定,易受 极端值影响
(二)四分位数间距(Quartile interval)
四分位数间距( Q ):将一组资料分为四等份,上四分位数QU(P75) 与下四分位数QL(P25)之差。
(四)众数(mode)
• 众数是指一组观察值中出现次数最多的那个数值。一组观察 值可以有多个众数,也可以没有众数。众数只有在数据量较 大时才有意义。众数不受极端值大小的影响,但它掩盖的信 息经常比它揭示的要多。
• 例2-1资料中有频数最大为4的6个众数,分别为131、133、135、13 8、142、145(g/L);当列成表2-1的频数分布时,由于“138~” 组的频数为21最大,因此众数为该组的组中值141.5(g/L)。
不但反映研究指标数值的稳定性和均匀性,而且反映集中 性指标的代表性。
三组同性别同年龄儿童的体重如下:
x 甲组:26 28 30 32 34 甲 = 30Kg x 乙组:24 27 30 33 36 乙 = 30Kg x 丙组:26 29 30 31 34 丙 = 30Kg
(一)全距(Range)
集中趋势和离散趋势是揭示数据分布的类型和正
确进行统计描述与统计推断的前提。
(三)异常值的识别
频数表有助于发现极小或极大的异常值。 在频数表的两端连续出现几个组段的频数为0后,又
出现一些极小值或极大值,应怀疑这些资料的准确 性,需对这些数据进一步核对和复查,若发现错误, 及时改正。
(四)有利于进一步对资料进行 统计描述与分析
2 (xi )2
N
s2
xi
x2
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
*在各层次中进行随机抽样。
*要求层内个体差异越小越好.层间差异 越大越好。
*优点是抽样误差小,不同层可采用不同 抽样方法,各层可独立进行分析。
第2讲计量资料统计描述
11
D、整群抽样
• 整群抽样不是按个体进行抽样,而是抽取由 个体组成的群体的抽样方法。如抽取的是该地 区若干个县的全体居民。整群抽样的主要持点 是以“群”为基本抽样单位。
• 抛一枚硬币,是否国徽面一定向上?明天的股市 升还是降?某患者痊愈的可能性?这些问题的答 案都不可能绝对。
• 描述随机事件发生的可能性大小的数值,常用P来 表示。
• P的大小在0—1之间,越接近于1,说明发生的可 能性越大,越接近于0,说明发生的可能性越小。
通常一个事件的发生小于5%,就叫小概率事件。
第2讲计量资料统计描述
17
前讲回顾
统计资料的类型
• 变量、变量值
三种基本类型:
计量资料, 计数资料, 等级资料
*按变量值性质——定量资料和定性资料。
第2讲计量资料统计描述
18
计量资料的统计描述
第2讲计量资料统计描述
19
主要内容
• 频数表与频数图 • 计量资料的常用统计指标
(集中趋势 离散趋势) 正态分布 • 正常值范围估计
• 频率:在实际工作中,当观察单位的例数足够多 时,可以用频率来代替概率。频率是概率的估计 值。
第2讲计量资料统计描述
16
小结
1. 统计工作的基本步骤是什么? 2. 统计资料分为几类? 特点?
判断:大学教授的年收入,欧洲的国家 数,血红蛋白含量,患者的资料情况。 3. 什么是总体? 什么是样本? 4. 基本的概率抽样方法是什么? 5. 什么是抽样误差? 如何减小? 能否避免?
第2讲计量资料统计描述
9
B 系统抽样
* 按照一定顺序机械地每隔若干个单 位抽取一个单位,又称机械抽样、
等距抽样。
*其抽样间隔=(总体数量/样本 含量),一般是随机找一个单位为起 点,以后按抽样间隔进行抽样。
第2讲计量资料统计描述
10
C 分层抽样
*先将总体中所有观察单位按主要特征(如 年龄、性别、病情轻重等)分为若干层次.
特点:没有倾向性,多次测量计算平均值 可以减小甚至消除随机测量误差。
第2讲计量资料统计描述
14
B、 抽样误差
由于抽样原因造成的样本指标与 总体指标之间的差别。
特点:有抽样,抽样误差就不 可避免。但抽样误差有规律,统 计上往往可以计算并在一定范围 内控制抽样误差。
第2讲计量资料统计描述
15
4. 频 率 与 概 率
同质个体间的差异。来源于一些未加控制 或无法控制的甚至不明原因的因素。是统 计学存在的基础。
• 从本质上说:统计学就是通过对个体变异
的研究,揭示同质事物的本质特征与规律。
第2讲计量资料统计描述
3
2. 总 体 与 样 本
• 总体---参数(parameter)
根据研究目的确定的研究对象的全体,即性质相同的 所有观察对象的集合;分为有限总体和无限总体。
可能会得到更有效的估计量 • 非概率抽样:抽样概率未知/无法计算,按主
观、有目的、为方便进行抽样;
• 不能计算抽样误差,或一般按简单随机抽样 计算误差。配额抽第2讲样计量资、料统滚计描述雪球/识别抽样 8
A 单纯随机抽样
*将调查总体的全部观察单位编号, *用抽签法或随机数字表法进行抽
样。*它是最基本的抽样方法,也是 其他抽样方法的基础。
• 大多数得不到总体数据,参数是未知的 • 估计总体结果是统计学的目的之一
第2讲计量资料统计描述
5
3. 普查 与 抽样
• 普查:全面调查,根据研究目的确定总体, 人口普查,肿瘤普查
• 是社会学/卫生防疫的指标确定的依据 • 注意时效性、变化性 • 传染病报告制度,地震伤亡等都属于普查
第2讲计量资料统计描述
• 样本---统计量(statistics) 总体中的部分;研究对象。
• 总体与样本的关系
统计学解决的问题:正确从样本特征推测总体水平。
• 抽样:从总体中选择样本的过程。 • 样本量(sample size):样本所包含的个体数目。
第2讲计量资料统计描述
4
2. 总 体 与 样 本
• 参数:总体统计学特性的数字,包括总体 均数、总体方差、总体标准差;
6
3. 普查 与 抽样
选择样本的方法:概率抽样和非概率抽样
等概率抽样 非等概率抽样
抽单 样纯
随 机
样系 统 抽
样分 层 抽
样整 群 抽
第2讲计量资料统计描述
7
概率抽样、非概率抽样
• 概率抽样:每个对象被抽中的概率是已知/可 计算的,其样本统计量是参数估计和计算误 差的基础;
• 等概率抽样:随机抽样 • 不等概率抽样:多单位被抽取的概率不同,
第2讲计量资料统计描述
20
第一节 频数表与频数图
原始计量资料
第2讲计量资料统计描述
21
一.几个基本概率
频数:当汇总大量的原始数据时,把数据按类型分组(组段), 其中每个组的数据个数,称为该组的频数。
频数表(频数分布):表示各组段频数的表格称为频数表或频数 分布。 表4-1计数P44,表4-2等级,表4-3计量 P45,
特点:具有累加性、方向性、可避免性
(2).随机误差:由于一些非人为的偶然因素使得结 果或大或小,是不确定、不可预知的。特点:无方向性、不能避。第2讲计量资料统计描述
13
A、 随机测量误差
在消除了系统误差的前提下,由于非人为 的偶然因素,对于同一样本多次测定结果不 完全一样,结果有时偏大有时偏小,没有倾 向性,这种误差叫随机测量误差。
的统计描述
第2讲计量资料统计描述
1
统计学中的几个基本概念
1、同质与变异 2、总体与样本 3、普查与抽样 4、参数与误差 5、频率与概率(小概率事件)
第2讲计量资料统计描述
2
1. 同 质 与 变 异
• 同质(homogeneity)
指事物某方面的性质、影响条件或背景相同或相 近
• 变异(variation)
• 抽样误差由小到大的依次为:
分层抽样 < 系统抽样 < 单纯随
机抽样 < 整群抽样。
思 考 题:普查和抽样有什么区别和联系?
第2讲计量资料统计描述
12
4. 误 差
误差:统计上泛指测量值与真值之差,样本指标与
总体指标之差。主要有二种:系统误差和随机误差
(随机测量误差,抽样误差)。
(1)系统误差:指数据搜集和测量过程中由于仪器不 准确、标准不规范等人为原因,造成观察结果呈倾向 性的偏大或偏小。
*要求层内个体差异越小越好.层间差异 越大越好。
*优点是抽样误差小,不同层可采用不同 抽样方法,各层可独立进行分析。
第2讲计量资料统计描述
11
D、整群抽样
• 整群抽样不是按个体进行抽样,而是抽取由 个体组成的群体的抽样方法。如抽取的是该地 区若干个县的全体居民。整群抽样的主要持点 是以“群”为基本抽样单位。
• 抛一枚硬币,是否国徽面一定向上?明天的股市 升还是降?某患者痊愈的可能性?这些问题的答 案都不可能绝对。
• 描述随机事件发生的可能性大小的数值,常用P来 表示。
• P的大小在0—1之间,越接近于1,说明发生的可 能性越大,越接近于0,说明发生的可能性越小。
通常一个事件的发生小于5%,就叫小概率事件。
第2讲计量资料统计描述
17
前讲回顾
统计资料的类型
• 变量、变量值
三种基本类型:
计量资料, 计数资料, 等级资料
*按变量值性质——定量资料和定性资料。
第2讲计量资料统计描述
18
计量资料的统计描述
第2讲计量资料统计描述
19
主要内容
• 频数表与频数图 • 计量资料的常用统计指标
(集中趋势 离散趋势) 正态分布 • 正常值范围估计
• 频率:在实际工作中,当观察单位的例数足够多 时,可以用频率来代替概率。频率是概率的估计 值。
第2讲计量资料统计描述
16
小结
1. 统计工作的基本步骤是什么? 2. 统计资料分为几类? 特点?
判断:大学教授的年收入,欧洲的国家 数,血红蛋白含量,患者的资料情况。 3. 什么是总体? 什么是样本? 4. 基本的概率抽样方法是什么? 5. 什么是抽样误差? 如何减小? 能否避免?
第2讲计量资料统计描述
9
B 系统抽样
* 按照一定顺序机械地每隔若干个单 位抽取一个单位,又称机械抽样、
等距抽样。
*其抽样间隔=(总体数量/样本 含量),一般是随机找一个单位为起 点,以后按抽样间隔进行抽样。
第2讲计量资料统计描述
10
C 分层抽样
*先将总体中所有观察单位按主要特征(如 年龄、性别、病情轻重等)分为若干层次.
特点:没有倾向性,多次测量计算平均值 可以减小甚至消除随机测量误差。
第2讲计量资料统计描述
14
B、 抽样误差
由于抽样原因造成的样本指标与 总体指标之间的差别。
特点:有抽样,抽样误差就不 可避免。但抽样误差有规律,统 计上往往可以计算并在一定范围 内控制抽样误差。
第2讲计量资料统计描述
15
4. 频 率 与 概 率
同质个体间的差异。来源于一些未加控制 或无法控制的甚至不明原因的因素。是统 计学存在的基础。
• 从本质上说:统计学就是通过对个体变异
的研究,揭示同质事物的本质特征与规律。
第2讲计量资料统计描述
3
2. 总 体 与 样 本
• 总体---参数(parameter)
根据研究目的确定的研究对象的全体,即性质相同的 所有观察对象的集合;分为有限总体和无限总体。
可能会得到更有效的估计量 • 非概率抽样:抽样概率未知/无法计算,按主
观、有目的、为方便进行抽样;
• 不能计算抽样误差,或一般按简单随机抽样 计算误差。配额抽第2讲样计量资、料统滚计描述雪球/识别抽样 8
A 单纯随机抽样
*将调查总体的全部观察单位编号, *用抽签法或随机数字表法进行抽
样。*它是最基本的抽样方法,也是 其他抽样方法的基础。
• 大多数得不到总体数据,参数是未知的 • 估计总体结果是统计学的目的之一
第2讲计量资料统计描述
5
3. 普查 与 抽样
• 普查:全面调查,根据研究目的确定总体, 人口普查,肿瘤普查
• 是社会学/卫生防疫的指标确定的依据 • 注意时效性、变化性 • 传染病报告制度,地震伤亡等都属于普查
第2讲计量资料统计描述
• 样本---统计量(statistics) 总体中的部分;研究对象。
• 总体与样本的关系
统计学解决的问题:正确从样本特征推测总体水平。
• 抽样:从总体中选择样本的过程。 • 样本量(sample size):样本所包含的个体数目。
第2讲计量资料统计描述
4
2. 总 体 与 样 本
• 参数:总体统计学特性的数字,包括总体 均数、总体方差、总体标准差;
6
3. 普查 与 抽样
选择样本的方法:概率抽样和非概率抽样
等概率抽样 非等概率抽样
抽单 样纯
随 机
样系 统 抽
样分 层 抽
样整 群 抽
第2讲计量资料统计描述
7
概率抽样、非概率抽样
• 概率抽样:每个对象被抽中的概率是已知/可 计算的,其样本统计量是参数估计和计算误 差的基础;
• 等概率抽样:随机抽样 • 不等概率抽样:多单位被抽取的概率不同,
第2讲计量资料统计描述
20
第一节 频数表与频数图
原始计量资料
第2讲计量资料统计描述
21
一.几个基本概率
频数:当汇总大量的原始数据时,把数据按类型分组(组段), 其中每个组的数据个数,称为该组的频数。
频数表(频数分布):表示各组段频数的表格称为频数表或频数 分布。 表4-1计数P44,表4-2等级,表4-3计量 P45,
特点:具有累加性、方向性、可避免性
(2).随机误差:由于一些非人为的偶然因素使得结 果或大或小,是不确定、不可预知的。特点:无方向性、不能避。第2讲计量资料统计描述
13
A、 随机测量误差
在消除了系统误差的前提下,由于非人为 的偶然因素,对于同一样本多次测定结果不 完全一样,结果有时偏大有时偏小,没有倾 向性,这种误差叫随机测量误差。
的统计描述
第2讲计量资料统计描述
1
统计学中的几个基本概念
1、同质与变异 2、总体与样本 3、普查与抽样 4、参数与误差 5、频率与概率(小概率事件)
第2讲计量资料统计描述
2
1. 同 质 与 变 异
• 同质(homogeneity)
指事物某方面的性质、影响条件或背景相同或相 近
• 变异(variation)
• 抽样误差由小到大的依次为:
分层抽样 < 系统抽样 < 单纯随
机抽样 < 整群抽样。
思 考 题:普查和抽样有什么区别和联系?
第2讲计量资料统计描述
12
4. 误 差
误差:统计上泛指测量值与真值之差,样本指标与
总体指标之差。主要有二种:系统误差和随机误差
(随机测量误差,抽样误差)。
(1)系统误差:指数据搜集和测量过程中由于仪器不 准确、标准不规范等人为原因,造成观察结果呈倾向 性的偏大或偏小。