[实用参考]抽样误差.ppt
合集下载
抽样误差与假设检验.pptx

S S 0.38 0.032(1012 / L) X n 140
标准误的用途: 标准误是抽样分布的重要特征之一,可用于衡量抽 样误差的大小,更重要的是可以用于参数的区间估 计和对不同组之间的参数进行比较。
标准差与标准误的区别与联系
意义
标准差:描述个体值间的变异,标准差较 小,表示观察值围绕均数的波动较小。 说明样本均数的代表性。
假定某年某地所有13岁女学生身高服从
N(155.4,5.32),在该总体中作100次随
机抽样,ni = 30
总体
样本n1 样本n2
样本nk
样本均数
X1
153.6
X2
153.1
····
Xk 157.7
各样本均数不相同,为什么?
从正态总体N(155.4,5.32)抽样得到的100个样本均数的频数分布
抽样分布
抽样分布示意图
三、标准误(Standard Error)
样本均数的标准差称为标准误。样本均数的变
异越小说明估计越精确,因此可以用标准误表示
抽样误差的大小:
X
n
实际中总体标准差 往往未知,故只能求得样 本均数标准误的估计值 : S
X
S
S
X
n
例4.1 在某地随机抽查成年男子140人,计算 得红细胞均数4.77×1012/L,标准差0.38 ×1012/L ,试计算均数的标准误。
第四章 抽样误差与假设检验
要求:
掌握:均数的抽样误差与标准误,t分 布的特征,t界值表,总体均数可信区间及
其与参考值范围的区别。
了解:t变换。
第一节 均数的抽样误差与标准误
一、均数的抽样误差
在医学研究中,绝大多数情况是由样本信息研究 总体。由于个体存在差异,因此通过样本推论总体 时会存在一定的误差,如样本均数 往X往不等于总 体均数 ,这种由抽样造成的样本均数与总体均数 的差异称为抽样误差。对于抽样研究,抽样误差不 可避免。
标准误的用途: 标准误是抽样分布的重要特征之一,可用于衡量抽 样误差的大小,更重要的是可以用于参数的区间估 计和对不同组之间的参数进行比较。
标准差与标准误的区别与联系
意义
标准差:描述个体值间的变异,标准差较 小,表示观察值围绕均数的波动较小。 说明样本均数的代表性。
假定某年某地所有13岁女学生身高服从
N(155.4,5.32),在该总体中作100次随
机抽样,ni = 30
总体
样本n1 样本n2
样本nk
样本均数
X1
153.6
X2
153.1
····
Xk 157.7
各样本均数不相同,为什么?
从正态总体N(155.4,5.32)抽样得到的100个样本均数的频数分布
抽样分布
抽样分布示意图
三、标准误(Standard Error)
样本均数的标准差称为标准误。样本均数的变
异越小说明估计越精确,因此可以用标准误表示
抽样误差的大小:
X
n
实际中总体标准差 往往未知,故只能求得样 本均数标准误的估计值 : S
X
S
S
X
n
例4.1 在某地随机抽查成年男子140人,计算 得红细胞均数4.77×1012/L,标准差0.38 ×1012/L ,试计算均数的标准误。
第四章 抽样误差与假设检验
要求:
掌握:均数的抽样误差与标准误,t分 布的特征,t界值表,总体均数可信区间及
其与参考值范围的区别。
了解:t变换。
第一节 均数的抽样误差与标准误
一、均数的抽样误差
在医学研究中,绝大多数情况是由样本信息研究 总体。由于个体存在差异,因此通过样本推论总体 时会存在一定的误差,如样本均数 往X往不等于总 体均数 ,这种由抽样造成的样本均数与总体均数 的差异称为抽样误差。对于抽样研究,抽样误差不 可避免。
抽样误差与假设检验(ppt 43页)

认为治疗前后有差别。
假设检验的基本思想—利用反证法的思想
利用小概率反证法思想,从问题的对立面(H0)出发间 接判断要解决的问题(H1)是否成立。然后在H0成立的条
件下计算检验统计量,最后获得P值来判断。当P小于或等 于预先规定的概率值α,就是小概率事件。根据小概率事件
的原理:小概率事件在一次抽样中发生的可能性很小,如果 他发生了,则有理由怀疑原假设H0,认为其对立面H1成立
判断观察对象的某
项指标正常与否
• 某地调查100人得收缩压均数为18.62kPa, 标准差为1.33kPa。试估计:
• 该地95%的人收缩压在什么范围? • 该地所有人收缩压的均数可能在什么范围?
假设检验的意义和步骤
(Hypothesis Test)
要求: 掌握:假设检验的基本思想和基本步
骤,样本均数与总体均数的比较,配对 资料的比较,两个样本均数的比较,假 设检验应注意的问题。
4 .7, 7 S0 .3, 8 n 140
下限: X - u /2 . S X 4 . 7 1 . 9 7 0 . 3 6 /1 8 4 . 7 ( 1 0 1 1 /L 2 0 ) 上限: X u / 2 . S X 4 . 7 1 . 9 7 0 . 3 6 /1 8 4 . 8 ( 1 0 3 1 / L 2 0 )
24
1.711 2.064 2.492 2.797
25
1.708 2.060 2.485 2.787
2①6 自由度1相.7同06时,2│.0t5│6值越2.4大79,概2率.77P9越小;
2②7 t值相同1.时70,3 t0.025/.20,2522= t02.0.2457,223=2.20.7747。1
假设检验的基本思想—利用反证法的思想
利用小概率反证法思想,从问题的对立面(H0)出发间 接判断要解决的问题(H1)是否成立。然后在H0成立的条
件下计算检验统计量,最后获得P值来判断。当P小于或等 于预先规定的概率值α,就是小概率事件。根据小概率事件
的原理:小概率事件在一次抽样中发生的可能性很小,如果 他发生了,则有理由怀疑原假设H0,认为其对立面H1成立
判断观察对象的某
项指标正常与否
• 某地调查100人得收缩压均数为18.62kPa, 标准差为1.33kPa。试估计:
• 该地95%的人收缩压在什么范围? • 该地所有人收缩压的均数可能在什么范围?
假设检验的意义和步骤
(Hypothesis Test)
要求: 掌握:假设检验的基本思想和基本步
骤,样本均数与总体均数的比较,配对 资料的比较,两个样本均数的比较,假 设检验应注意的问题。
4 .7, 7 S0 .3, 8 n 140
下限: X - u /2 . S X 4 . 7 1 . 9 7 0 . 3 6 /1 8 4 . 7 ( 1 0 1 1 /L 2 0 ) 上限: X u / 2 . S X 4 . 7 1 . 9 7 0 . 3 6 /1 8 4 . 8 ( 1 0 3 1 / L 2 0 )
24
1.711 2.064 2.492 2.797
25
1.708 2.060 2.485 2.787
2①6 自由度1相.7同06时,2│.0t5│6值越2.4大79,概2率.77P9越小;
2②7 t值相同1.时70,3 t0.025/.20,2522= t02.0.2457,223=2.20.7747。1
正态分布及抽样误差PPT课件

例
➢20 ~ 29岁正常成年男子尿酸浓度
➢求双侧95%的参考值范围:
x 350.24(mol / L), s 32.97
➢下限
➢上限
x 1.96s 350.24 32.97 285.62(mol / L)
x 1.96s 350.24 32.97 414.86(mol / L)
第32页/共73页
3 1 2
第9页/共73页
均数相等、方差不等的正态分布图 示
2
1 3
第10页/共73页
正态分布的特征
➢ 正态分布有两个参数(parameter),即位置参数(均数)和变异度参数(标准差)。 ➢ 高峰在均数处; ➢ 均数两侧完全对称。 ➢ 正态曲线下的面积分布有一定的规律。
第11页/共73页
正态曲线下的面积规律
➢X轴与正态曲线所夹面积恒等于1 。 ➢对称区域面积相等。
S(-, -X)
S( +X,)=S(-, -X)
X
第12页/共73页
正态曲线下的面积规律
➢ 对称区域面积相等。
S(-x1, -x2)
S(x1,x2)=S(-x2,-x1)
-x1 -x2
x2 x1
第13页/共73页
正态曲线下的面积规律
1
第1页/共73页
正态分布的背景-一个街头赌博游戏
为什么如此摆放奖品? 平时,我们很少有人会去关心小球下 落位置的规律性,人们可能不相信它是 有规律的。
高尔顿钉板试验
2
第2页/共73页
正态分布的背景-高尔顿钉板试验
x -8 -7 -6 -5 -4 -3 -2 -1 O1 2 3 4 5 6 7 8
这条曲线就是我们将要介绍的正态分布曲线。 3 第3页/共73页
抽样误差与假设检验培训课件(PPT49页)

抽样误差与假设检验培训课件(PPT49页)培 训课件 培训讲 义培训ppt教程 管理课 件教程ppt
抽样误差与假设检验培训课件(PPT49页)培 训课件 培训讲 义培训ppt教程 管理课 件教程ppt
t-分布
t-distribution
抽样误差与假设检验培训课件(PPT49页)培 训课件 培训讲 义培训ppt教程 管理课 件教程ppt 抽样误差与假设检验培训课件(PPT49页)培 训课件 培训讲 义培训ppt教程 管理课 件教程ppt
抽样误差的概念
定义:由抽样引起的样本统计量与总体参数 间、以及样本统计量与样本统计量之间的差 别。
原因:个体变异+随机抽样 表现:
• 样本统计量与总体参数间的差别 • 不同样本统计量间的差别
抽样试验
➢ 假设一个已知总体,从该总体中重复抽取样本 量相等(为m)的样本n次,对每个样本计算样 本统计量(均数、方差等),观察n个样本统计量 的分布规律--抽样分布规律。
抽样误差与假设检验培训课件(PPT49页)培 训课件 培训讲 义培训ppt教程 管理课 件教程ppt
抽样误差与假设检验培训课件(PPT49页)培 训课件 培训讲 义培训ppt教程 管理课 件教程ppt
例,2000年某研究者随机调查某地健康 成年男子27人,测其血红蛋白量均数为 125 g /L,标准差为15 g /L。试估计该样 本均数的抽样误差。
抽样误差与假设检验培训课件(PPT49页)培 训课件 培训讲 义培训ppt教程 管理课 件教程ppt
抽样误差与假设检验培训课件(PPT49页)培 训课件 培训讲 义培训ppt教程 管理课 件教程ppt
标准误的概念(standard error)
样本均数的标准差称为均数的标准误。 ➢ 均数的标准误表示样本均数的变异度。
均数的抽样误差PPT课件

第二个要素是“精确性”,常用可信区间的长度(CL,CU)来表示,当
然长度越小越好。精确性与变量的变异度大小、样本例数和1- 的取值 有关。当1- 的取值确定后,可信区间的长度受限于个体变异和样本含
量,个体变异越大区间越宽,样本越小区间越宽,反之区间越窄。
例:某年级学生总人数800人,通过计算其中50人 的医学统计学考试成绩来估计其总体均数。
抽样n=50, X =75.00。估计μ= ?。
①μ=75.00
可能性
②μ=70.00~80.00 可能性
③μ=65.00~85.00 可能性
24
二、t 检验
统计分析
统计描述
是用统 计指标、统计表 和统计图描述资 料的分析规律及 其数量特征。
统计推断
包括“总体 参数估计”和“ 假设检验”两个 内容。
本例自由度:ν-1=25-1=24; t0.05,24,经查表得t0.05,24 = 2.064 则
S X + t0.05,24 × X =73.6 + 2.064×6.5/ 25 = 76.3次/分
X
-
t0.05,24
×
S X
=
73.6
-
2.064×6.5/
25 = 70.9次/分
即该地区正常男子脉搏总体均数的95%可信区间为:
可能高,也可能低
双侧检验
肯定不会低(或高)
单侧检验
H1 : μ>μ0 μ<μ0 μ1 >μ2 μ1< μ2
33
17
2)小样本可信区间估计--t分布法:
x
总体均数95%可信区间估计计算公式:
X
t
0.05,
S X
总体均数99%可信区间估计计算公式:
《抽样误差》课件

抽样误差的控制方法
1
增加样本容量
通过增加样本容量来减小随机误差,使样本更能代表整体总体。
2
提高调查质量
采用合适的调查方法和严格的调查流程,减小系统误差的发生。
3
优化抽样方案
选择合适的抽样方法和样本设计,以减小误差并提高整体调查质量。
案例分析
对比不同抽样方法的误差
通过对不同抽样方法的误差进行对比分析,选择最 适合的方法。
如何选择合适的抽样方法
根据调查的目的和样本特点,选择合适的抽样方法 以减小误差。
总结
1 抽样误差的重要性
2 如何有效地控制抽样误差
了解抽样误差的特点和影响,可以保证研究和调 查的有效性和可靠性。
通过增加样本容量、提高调查质量和优化抽样方 案,可以有效地控一些与抽样误差相关的经典论文,深入了解抽样误差理论和方法。
《抽样误差》PPT课件
抽样误差是研究和调查中不可避免的问题。本课程将介绍抽样误差的背景、 常见的抽样方法、误差类型以及控制方法,并通过案例分析进行进一步探讨。
概述
抽样误差的定义
抽样误差是由于从一个样本中得出结论,而这个样 本只是整体总体的一个子集,因此存在一定的误差。
抽样误差的产生原因
抽样误差的产生主要受样本选择方式、样本大小和 样本的代表性等因素的影响。
常见的抽样方法
1 简单随机抽样
2 分层抽样
从总体中随机选择样本,使每个个体都有相等的 概率被选中。
将总体分为几个层次,然后在每个层次内进行随 机抽样。
3 整群抽样
4 系统抽样
将总体分为若干个不相交的群体,然后从选择的 群体中抽取样本。
在总体中选择一个初始样本,然后按照一定的规 则选择后续的样本。
统计基础课件——抽样误差

(二)概率
一个随机试验有许多可能的事件,我们不 仅想知道它们有哪些可能的事件,而且还想知道 某些事件出现的可能性的大小,并希望将这一可 能性用数值描述出来。为了定量地描述随机事件, 人们引入了一个描述随机事件发生可能性大小的 统计数据——随机事件的概率。某一随机事件发 生的次数占所有随机事件发生次数的比率就是该 事件的概率。许多数学家、统计学家对概率及其 计算作出了巨大的贡献,提出了概率论的公理化 体系。概率论,就是研究随机事件规律性的科学。
表4-3 成数抽样误差计算表
使用寿命 元件质量 抽检数 比重(成数)
(小时)
(个) ( % )
900以下 不合格 1
900~950 不合格 2
950~1000 不合格 6
1000~1050 合格
35
1050~1100 合格
第二节 抽样误差
一、随机事件与概率 (一)随机事件 在相同条件下,每次试验可能出现也可能不出现的状态称为
随机事件。 例如,掷一对骰子,两颗骰子落下时总共有多少种状态呢? 白色骰子能够以6种状态中任何一种状态落下:
譬如当白色骰子显示 时,黑色骰子仍有6种状态落下:
这里,骰子落下所呈现的每种状态称为随机事件。
行实割实测,计算结果: x = 6千克,Sx = 0.1千克,试计算重复
抽样误差。
已知:n = 1000 ,Sx = 0.1;求:μx =?
解:μx =
= S 2 x n
= x2 0.12 = 0.01 =0.00316(千克)
n
1000 1000
(2)样本成数的抽样误差
样本成数抽样误差μp等于总体成数除以样本单位数的平方根x
X 2 N n
n N 1
《均数的抽样误差》PPT课件

若仅知样本均数及标准误的估计值,且样本较小 时,用标准误的估计值来代替标准误,误差较大 ,需要改用t值来推算可信区间。
精选ppt
6
二、t值与t分布 样本均数与总体均数间的差如以均数标准误 的估 计值的倍数来表示,此倍数即为t值
t x
Sx
从正态分布总体中抽取若干个样本含量相同的样 本,每个样本各计算一个t值,如抽取的样本很多 时,可发现t值的分布是以0为中心,两侧对称的 类似正态分布的一种分布。即t distribution。
t分布曲线的峰度kurtosis:受n的影响。当n小时, 曲线低平;n越大越接近正态分布。即t 分布曲线 是随自由度的大小而有规律地变动的。
精选ppt
7
degree of freedom: ν=n-1 (读:nu)
t分布曲线不是一条曲线而是一簇曲线
t 分布曲线与横轴间的面积有规律:
两侧外部面积为5%及1%的界限的t值常用t0.05(ν)、 t0.01(ν)表示 自由度趋于∞时,t分布趋向于均数为0,标准差为 1的标准正态分布。一般情况下t分布曲线较正态 分布低平,因而t0.05(ν)≥1.96, t0.01(ν)≥2.58 t值与P值呈反向关系:t越大,则P越小;反之亦 然。|t|≥ t0.05(ν),P≤0.05
抽取一定数量的观察单位作为样本进行抽样研究,
通过样本指标来说明总体特征,这种从样本获取
总体信息的过程,称~
精选ppt
2
二、均数的标准误
数理统计推论和中心极限定理central limit theorem 表明:(1)从正态总体N(μ,σ)中,随机抽
取例数为n的样本,样本均数 x 也服从正态分布;
(2)从均数为μ,标准差为σ的正态或偏态总体, 抽取例数为n的样本,样本均数 的x总体均数也 为μ,标准差用 表 x示。通常将样本统计量的 标准差称为标准误standard error, SE, 样本均 数的标准差即均数标准误standard error of mean, SEM。
精选ppt
6
二、t值与t分布 样本均数与总体均数间的差如以均数标准误 的估 计值的倍数来表示,此倍数即为t值
t x
Sx
从正态分布总体中抽取若干个样本含量相同的样 本,每个样本各计算一个t值,如抽取的样本很多 时,可发现t值的分布是以0为中心,两侧对称的 类似正态分布的一种分布。即t distribution。
t分布曲线的峰度kurtosis:受n的影响。当n小时, 曲线低平;n越大越接近正态分布。即t 分布曲线 是随自由度的大小而有规律地变动的。
精选ppt
7
degree of freedom: ν=n-1 (读:nu)
t分布曲线不是一条曲线而是一簇曲线
t 分布曲线与横轴间的面积有规律:
两侧外部面积为5%及1%的界限的t值常用t0.05(ν)、 t0.01(ν)表示 自由度趋于∞时,t分布趋向于均数为0,标准差为 1的标准正态分布。一般情况下t分布曲线较正态 分布低平,因而t0.05(ν)≥1.96, t0.01(ν)≥2.58 t值与P值呈反向关系:t越大,则P越小;反之亦 然。|t|≥ t0.05(ν),P≤0.05
抽取一定数量的观察单位作为样本进行抽样研究,
通过样本指标来说明总体特征,这种从样本获取
总体信息的过程,称~
精选ppt
2
二、均数的标准误
数理统计推论和中心极限定理central limit theorem 表明:(1)从正态总体N(μ,σ)中,随机抽
取例数为n的样本,样本均数 x 也服从正态分布;
(2)从均数为μ,标准差为σ的正态或偏态总体, 抽取例数为n的样本,样本均数 的x总体均数也 为μ,标准差用 表 x示。通常将样本统计量的 标准差称为标准误standard error, SE, 样本均 数的标准差即均数标准误standard error of mean, SEM。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第七章 参数估计
Sampling Error & Estimation of Parameter
南方医科大学生物统计学系
Department of Biostatistics Southern Medical University
主要内容
抽样误差与标准误 t分布 可(置)信区间
变异
“世界上没有两片完全相同的叶子” ----植物学家
问题:如何度量抽样误差的大小?
抽样误差
由表1可见,各个样本均数`Xi 并不等于相应的
总体均数5.00,相互间也不完全相同。
由数理统计可证明,这些样本均数服从均数为
μ(本例为5.00),标准差为σ X的正态分布。
其中,σX的计算公式为:
X
n
一种统计量
抽样误差
标准误( Standard Error, SE)
方法
方法来控制。
SE 统计量的标准差 表示抽样误差大小
增大样本含量可减少
算式
X 2 X 2 / n
S
n 1
用途
随n 增大
求参考值范围 渐趋于稳定
S S/ n X 求可信区间 渐趋于0
t分布
t Distribution
t分布的发现
早在1875年,德国天文学家、测 量学家F.R.Helmert 就在数学上
频数 3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
450
400
与n成反比,n↑,S`X↓;
350 300 250
200
n→∞时, S`X →0,而S
150 100 50
趋近于稳定。
0
频数
450
450
400 350
400
正态分布N(5.00,0.502) 的总体,单位1012/L。
用计算机模拟从该总体中随机抽样,每次抽10 例组成一个样本,重复100次抽样。结果见表1。
抽样实验
表1 正常成年男子红细胞计数抽样实验结果
样本号
红细胞计数
X
S
1 5.59 5.11 4.26 5.11 4.74 … 5.55 5.04 0.44
统计学上将样本均数`X、样本率P等统计量
的标准差称为标准误,它可用于说明抽样误差的 大小。
抽样误差
样本均数的标准误:即样本均数的标准差, 说明样本均数抽样误差的统计指标。
总体: __ 0.50 / 10 0.16
X
n
样本:
S __
__
X
X
S n
不同样本量抽样实验结果图示
该式已经不服从标准正态分布了, 而是
抽样误差
由数理统计的中心极限定理可知,无论原始 总体为何种分布, 只要它具有总体均数μ和标准
差σ,当样本含量足够大时(n≥60),`X都近似
服从均数为μ , 标准差为σ`X 的正态分布。
中心极限定理(central limit theorem)
样本均数X~N (, 2 / n)
x
n
抽样误差
由 X
可见:
n
当样本量n一定时,σ 越大,即个体变异 越大,则样本均数的抽样误差σX 就越大;
反之, 当σ 固定时,n越大, 则σ X 就越小。
样本均数的分布
若原始分布服从正态分布,则其样本均数服 从正态分布。
若原始分布不服从正态分布,当样本量够大 时(如n>60),其样本均数一般服从正态分布 (中心极限定理)。
任一分布 的总体
当n足够大, 样本均数逐渐 趋于正态分布
x
X
抽样误差
这一点具有很高的实用价值的。因为在实 际工作中,许多医学测量结果,我们并不知道它 的确切分布。有了这条性质,就可以利用正态 分布原理对其特征进行推断。
标准差 VS 标准误
内容
SD
性质
表示个体变异大小
控制 个体变异或自然变异300
250
250
200
200
150
150
100
100
50
50
0
0
3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
均数
n5
均数
n 30
均数
频数 3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
2 4.65 4.65 5.59 5.70 4.46 … 5.32 5.03 0.52
3 4.56 4.87 5.21 4.53 4.53 … 4.23 4.71 0.33
4 4.08 4.73 4.84 4.88 4.65 … 5.33 4.66 0.46
:
:
:: : :
100 5.16 4.49 5.26 5.02 4.64 … 4.56 4.90 0.29
抽样误差
由于抽样而引起的样本指标(统计量)与 总体指标(参数)的差异。
属随机误差:
特点:①无倾向性;②不可避免。
统计学的分析思路
总体 population
sampling
样本 sample
inferring
抽样误差
在实际工作中, 由于各种条件所限, 一般不 可能也没有必要观察总体中的每一个个体, 常常 是通过抽样来进行研究的。虽然抽样误差是不可 避免的, 但其大小是可以度量的。
“世界的丰富多彩来源于其多样性” ----哲学家
“个体差异是生物医学领域里普遍存在的现象” ----医学家
统计学就是研究变异(variation)的科学。
抽样误差
联系? 变 异 ---- 抽样误差
(variation)---- (sampling error)
抽样实验
例1: 假定某地正常成年男子的红细胞计数服从
抽样实验
总体
__
4.66 0.57
__
X2
S2
X1 S1
__
X 100
S100
抽样误差
由于事物间普遍存在着变异,由此产生了 这么一个现象:
由于抽样而引起的误差 —— 抽样误差
抽样误差
定义: 抽样误差(sampling error):是指由
于样本的随机性引起的统计量与参数的差别, 或同一总体的相同统计量之间的差别。
发现了t分布。
1908年Gosset以Student为笔名
发表的论文,提出了t分布的概
念,从而开创了小样本统计推 断的新纪元。
希尔米特 哥赛特
t分布
标准化变换
抽样实验中,各个`X 也服从总体均数
标准差为
n
的正态分布,对各个`Xi也做
一下标准化变换 X
t分布
在实际工作中,通常是未知的, 用各个 样本标准差Si估计 ,则得到
Sampling Error & Estimation of Parameter
南方医科大学生物统计学系
Department of Biostatistics Southern Medical University
主要内容
抽样误差与标准误 t分布 可(置)信区间
变异
“世界上没有两片完全相同的叶子” ----植物学家
问题:如何度量抽样误差的大小?
抽样误差
由表1可见,各个样本均数`Xi 并不等于相应的
总体均数5.00,相互间也不完全相同。
由数理统计可证明,这些样本均数服从均数为
μ(本例为5.00),标准差为σ X的正态分布。
其中,σX的计算公式为:
X
n
一种统计量
抽样误差
标准误( Standard Error, SE)
方法
方法来控制。
SE 统计量的标准差 表示抽样误差大小
增大样本含量可减少
算式
X 2 X 2 / n
S
n 1
用途
随n 增大
求参考值范围 渐趋于稳定
S S/ n X 求可信区间 渐趋于0
t分布
t Distribution
t分布的发现
早在1875年,德国天文学家、测 量学家F.R.Helmert 就在数学上
频数 3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
450
400
与n成反比,n↑,S`X↓;
350 300 250
200
n→∞时, S`X →0,而S
150 100 50
趋近于稳定。
0
频数
450
450
400 350
400
正态分布N(5.00,0.502) 的总体,单位1012/L。
用计算机模拟从该总体中随机抽样,每次抽10 例组成一个样本,重复100次抽样。结果见表1。
抽样实验
表1 正常成年男子红细胞计数抽样实验结果
样本号
红细胞计数
X
S
1 5.59 5.11 4.26 5.11 4.74 … 5.55 5.04 0.44
统计学上将样本均数`X、样本率P等统计量
的标准差称为标准误,它可用于说明抽样误差的 大小。
抽样误差
样本均数的标准误:即样本均数的标准差, 说明样本均数抽样误差的统计指标。
总体: __ 0.50 / 10 0.16
X
n
样本:
S __
__
X
X
S n
不同样本量抽样实验结果图示
该式已经不服从标准正态分布了, 而是
抽样误差
由数理统计的中心极限定理可知,无论原始 总体为何种分布, 只要它具有总体均数μ和标准
差σ,当样本含量足够大时(n≥60),`X都近似
服从均数为μ , 标准差为σ`X 的正态分布。
中心极限定理(central limit theorem)
样本均数X~N (, 2 / n)
x
n
抽样误差
由 X
可见:
n
当样本量n一定时,σ 越大,即个体变异 越大,则样本均数的抽样误差σX 就越大;
反之, 当σ 固定时,n越大, 则σ X 就越小。
样本均数的分布
若原始分布服从正态分布,则其样本均数服 从正态分布。
若原始分布不服从正态分布,当样本量够大 时(如n>60),其样本均数一般服从正态分布 (中心极限定理)。
任一分布 的总体
当n足够大, 样本均数逐渐 趋于正态分布
x
X
抽样误差
这一点具有很高的实用价值的。因为在实 际工作中,许多医学测量结果,我们并不知道它 的确切分布。有了这条性质,就可以利用正态 分布原理对其特征进行推断。
标准差 VS 标准误
内容
SD
性质
表示个体变异大小
控制 个体变异或自然变异300
250
250
200
200
150
150
100
100
50
50
0
0
3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
均数
n5
均数
n 30
均数
频数 3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
2 4.65 4.65 5.59 5.70 4.46 … 5.32 5.03 0.52
3 4.56 4.87 5.21 4.53 4.53 … 4.23 4.71 0.33
4 4.08 4.73 4.84 4.88 4.65 … 5.33 4.66 0.46
:
:
:: : :
100 5.16 4.49 5.26 5.02 4.64 … 4.56 4.90 0.29
抽样误差
由于抽样而引起的样本指标(统计量)与 总体指标(参数)的差异。
属随机误差:
特点:①无倾向性;②不可避免。
统计学的分析思路
总体 population
sampling
样本 sample
inferring
抽样误差
在实际工作中, 由于各种条件所限, 一般不 可能也没有必要观察总体中的每一个个体, 常常 是通过抽样来进行研究的。虽然抽样误差是不可 避免的, 但其大小是可以度量的。
“世界的丰富多彩来源于其多样性” ----哲学家
“个体差异是生物医学领域里普遍存在的现象” ----医学家
统计学就是研究变异(variation)的科学。
抽样误差
联系? 变 异 ---- 抽样误差
(variation)---- (sampling error)
抽样实验
例1: 假定某地正常成年男子的红细胞计数服从
抽样实验
总体
__
4.66 0.57
__
X2
S2
X1 S1
__
X 100
S100
抽样误差
由于事物间普遍存在着变异,由此产生了 这么一个现象:
由于抽样而引起的误差 —— 抽样误差
抽样误差
定义: 抽样误差(sampling error):是指由
于样本的随机性引起的统计量与参数的差别, 或同一总体的相同统计量之间的差别。
发现了t分布。
1908年Gosset以Student为笔名
发表的论文,提出了t分布的概
念,从而开创了小样本统计推 断的新纪元。
希尔米特 哥赛特
t分布
标准化变换
抽样实验中,各个`X 也服从总体均数
标准差为
n
的正态分布,对各个`Xi也做
一下标准化变换 X
t分布
在实际工作中,通常是未知的, 用各个 样本标准差Si估计 ,则得到