抽样误差_PPT幻灯片

合集下载

[实用参考]抽样误差.ppt

[实用参考]抽样误差.ppt
第七章 参数估计
Sampling Error & Estimation of Parameter
南方医科大学生物统计学系
Department of Biostatistics Southern Medical University
主要内容
抽样误差与标准误 t分布 可(置)信区间
变异
“世界上没有两片完全相同的叶子” ----植物学家
问题:如何度量抽样误差的大小?
抽样误差
由表1可见,各个样本均数`Xi 并不等于相应的
总体均数5.00,相互间也不完全相同。
由数理统计可证明,这些样本均数服从均数为
μ(本例为5.00),标准差为σ X的正态分布。
其中,σX的计算公式为:
X


n
一种统计量
抽样误差
标准误( Standard Error, SE)
方法
方法来控制。
SE 统计量的标准差 表示抽样误差大小
增大样本含量可减少
算式
X 2 X 2 / n
S
n 1
用途
随n 增大
求参考值范围 渐趋于稳定
S S/ n X 求可信区间 渐趋于0
t分布
t Distribution
t分布的发现
早在1875年,德国天文学家、测 量学家F.R.Helmert 就在数学上
频数 3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
450
400
与n成反比,n↑,S`X↓;
350 300 250
200
n→∞时, S`X →0,而S
150 100 50

抽样误差和可信区间-幻灯片(1)

抽样误差和可信区间-幻灯片(1)

均数之差可信区间的计算
正常组
肝炎组
1=?
2=? 1- 2 =?
均 数:273.18ug/dL 标准差:9.77ug/dL
均 数: 231.86ug/dL 标准差:12.17ug/dL
X1X242.32
合并方差与均数之差的标准误
❖ 合并方差(方差的加权平均)
sC 2 (n11n)1s 12 n2(n 221)s22
❖ 每一自由度下的t分布曲线都有其自身分布规律。t界值 表。
t分布曲线下的面积
f (x)
nn21n1
x2 n
n12
2
-t 0 t
t界值表
单侧:
P(t <-tα,ν)= α或 P(t >tα,ν)= α 双侧:
-t 0 t
P(t <-tα/2,ν)+ P(t >tα/2,ν)= α 即:P(-tα/2,ν<t <tα/2,ν)= 1-α [例] 查t界值表得t值表达式
可信区间的定义
❖ 按一定的概率或可信度(1-α)用一个区间 来估计总体参数所在的范围,该范围通 常称为参数的可信区间或者置信区间 (confidence interval,CI),预先给定的概 率(1-α)称为可信度或者置信度 (confidence level),常取95%或99%。
❖ 可信区间(CL, CU )是一开区间 CL、CU 称 为可信限
❖ 这里的95%,指的是方法本身!而不
是某个区间! ❖ 总体参数虽未知,但却是固定的值,
而不是随机变量值 。
95%可信区间的含义
按这种方法 构建的可信区 间,理论上平 均每100次,有 95 次 可 以 估 计 到总体参数。

抽样误差与假设检验.pptx

抽样误差与假设检验.pptx
S S 0.38 0.032(1012 / L) X n 140
标准误的用途: 标准误是抽样分布的重要特征之一,可用于衡量抽 样误差的大小,更重要的是可以用于参数的区间估 计和对不同组之间的参数进行比较。
标准差与标准误的区别与联系
意义
标准差:描述个体值间的变异,标准差较 小,表示观察值围绕均数的波动较小。 说明样本均数的代表性。
假定某年某地所有13岁女学生身高服从
N(155.4,5.32),在该总体中作100次随
机抽样,ni = 30
总体
样本n1 样本n2
样本nk
样本均数
X1
153.6
X2
153.1
····
Xk 157.7
各样本均数不相同,为什么?
从正态总体N(155.4,5.32)抽样得到的100个样本均数的频数分布
抽样分布
抽样分布示意图
三、标准误(Standard Error)
样本均数的标准差称为标准误。样本均数的变
异越小说明估计越精确,因此可以用标准误表示
抽样误差的大小:
X
n
实际中总体标准差 往往未知,故只能求得样 本均数标准误的估计值 : S
X
S
S
X
n
例4.1 在某地随机抽查成年男子140人,计算 得红细胞均数4.77×1012/L,标准差0.38 ×1012/L ,试计算均数的标准误。
第四章 抽样误差与假设检验
要求:
掌握:均数的抽样误差与标准误,t分 布的特征,t界值表,总体均数可信区间及
其与参考值范围的区别。
了解:t变换。
第一节 均数的抽样误差与标准误
一、均数的抽样误差
在医学研究中,绝大多数情况是由样本信息研究 总体。由于个体存在差异,因此通过样本推论总体 时会存在一定的误差,如样本均数 往X往不等于总 体均数 ,这种由抽样造成的样本均数与总体均数 的差异称为抽样误差。对于抽样研究,抽样误差不 可避免。

抽样误差与假设检验(ppt 43页)

抽样误差与假设检验(ppt 43页)
认为治疗前后有差别。
假设检验的基本思想—利用反证法的思想
利用小概率反证法思想,从问题的对立面(H0)出发间 接判断要解决的问题(H1)是否成立。然后在H0成立的条
件下计算检验统计量,最后获得P值来判断。当P小于或等 于预先规定的概率值α,就是小概率事件。根据小概率事件
的原理:小概率事件在一次抽样中发生的可能性很小,如果 他发生了,则有理由怀疑原假设H0,认为其对立面H1成立
判断观察对象的某
项指标正常与否
• 某地调查100人得收缩压均数为18.62kPa, 标准差为1.33kPa。试估计:
• 该地95%的人收缩压在什么范围? • 该地所有人收缩压的均数可能在什么范围?
假设检验的意义和步骤
(Hypothesis Test)
要求: 掌握:假设检验的基本思想和基本步
骤,样本均数与总体均数的比较,配对 资料的比较,两个样本均数的比较,假 设检验应注意的问题。
4 .7, 7 S0 .3, 8 n 140
下限: X - u /2 . S X 4 . 7 1 . 9 7 0 . 3 6 /1 8 4 . 7 ( 1 0 1 1 /L 2 0 ) 上限: X u / 2 . S X 4 . 7 1 . 9 7 0 . 3 6 /1 8 4 . 8 ( 1 0 3 1 / L 2 0 )
24
1.711 2.064 2.492 2.797
25
1.708 2.060 2.485 2.787
2①6 自由度1相.7同06时,2│.0t5│6值越2.4大79,概2率.77P9越小;
2②7 t值相同1.时70,3 t0.025/.20,2522= t02.0.2457,223=2.20.7747。1

第四章抽样误差与区间估计.ppt

第四章抽样误差与区间估计.ppt

Z X
Z变换
标准正态分布
N(0,12)
均数 X
N(, 2 n)
Z X n
标准正态分布
N(0,12)
Student t分布
t X X ,
S n SX
v n 1 自由度:n-1
2020-11-9
感谢你的观看
10
f(t)
ν─>∞(标准正态曲线)
ν=5
ν=1
f (t) ( 1) 2 (1 t 2 / )( 1) 2
0.1580
250
200
150
100
50
0 3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
均数
n 30; SX 0.0920
感谢你的观看
频数
450 400 350 300 250 200 150 100
50 0 3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19 均数
第四章 抽样误差与区间估计
2020-11-9
感谢你的观看
1
第一节 均数的抽样误差与标准误
例如,从总体均数 =4.83×1012/L、标准差 =0.52×1012/L 的正态分布总体
N(4.83, 0.522)中,随机抽取 10 人为一个样本(n=10),并计算该样本的均数、标
准差。如此重复抽取 100 次( g =100),可得到 100 份样本,可得到 100 对均数
( 2)
-5.0
-4.0
-3.0
-2.0
-1.0
0.0

抽样误差与参数估计-38页PPT文档资料

抽样误差与参数估计-38页PPT文档资料
• 在n确定的情况下,准确度↑,精确度↓;
• 在兼顾准确度和精确度时,一般取95%可信 区间;
• 在可信度确定的情况下,增加样本例数,可 提高精确度;
两样本均数之差的分布与标准误
• 从两个正态总体 N (1, 1 2),N (2, 2 2)
中随机抽样,分别得n1、X 1 、s1和 n2、X 2 、s2 则:
Parameter estimation
Hypothesis testing
Point estimation
Interval estimation
• 点估计(point estimation):就是用样本指 标直接地估计总体指标。
• 总体均数

X
• 总体率

p
• 即样本均数和样本率分别是总体均
X/2 XX/2 X
P(/2X /2)1 X
X/2/ n
n足够大,用样本标准 差S来估计σ
• 例7-4:已知某样本的 X 5.03 ,s=0.52, n=10,试计算该总体正常成年男子平均红细 胞计数的95%可信区间。
• 解:v=9,α=0.05(双侧),查t界值表,得
S X S / n 0 .5 2 / 1 0 0 .1 6 4
/ n 0 .5 0 /1 0 0 .1 5 8 X
• 实际工作中,只能根据一份样本计算出 一个标准误说明抽样误差的大小,即 估计μ的可靠程度
• 例7-3: 2019年,在某地20岁应征男青 年中随机抽取85人,平均身高为171.2cm, 标准差为5.3cm,计算当地20岁应征男青 年身高的标准误。
1. 未知时,按t分布的原理
tt/2,和 tt/2,的概率之和为α
P ( t/2 ,tt/2 ,) 1

均数的抽样误差PPT课件

均数的抽样误差PPT课件

第二个要素是“精确性”,常用可信区间的长度(CL,CU)来表示,当
然长度越小越好。精确性与变量的变异度大小、样本例数和1- 的取值 有关。当1- 的取值确定后,可信区间的长度受限于个体变异和样本含
量,个体变异越大区间越宽,样本越小区间越宽,反之区间越窄。
例:某年级学生总人数800人,通过计算其中50人 的医学统计学考试成绩来估计其总体均数。
抽样n=50, X =75.00。估计μ= ?。
①μ=75.00
可能性
②μ=70.00~80.00 可能性
③μ=65.00~85.00 可能性
24
二、t 检验
统计分析
统计描述
是用统 计指标、统计表 和统计图描述资 料的分析规律及 其数量特征。
统计推断
包括“总体 参数估计”和“ 假设检验”两个 内容。
本例自由度:ν-1=25-1=24; t0.05,24,经查表得t0.05,24 = 2.064 则
S X + t0.05,24 × X =73.6 + 2.064×6.5/ 25 = 76.3次/分
X
-
t0.05,24
×
S X
=
73.6
-
2.064×6.5/
25 = 70.9次/分
即该地区正常男子脉搏总体均数的95%可信区间为:
可能高,也可能低
双侧检验
肯定不会低(或高)
单侧检验
H1 : μ>μ0 μ<μ0 μ1 >μ2 μ1< μ2
33
17
2)小样本可信区间估计--t分布法:
x
总体均数95%可信区间估计计算公式:
X
t
0.05,
S X
总体均数99%可信区间估计计算公式:

抽样误差与假设检验培训课件(PPT 49页)

抽样误差与假设检验培训课件(PPT 49页)
点值估计(point estimation):例,120名成 年男子血清铁含量的均数是18.57。那么,该总体 范围(这个地区)的成年男子血清铁含量的均数就 是18.57。这种方法虽简单,但未考虑抽样误差, 一般不用。
区间估计(interval estimation)
也称置信区间。利用样本信息给出一个区间,并 同时给出按预先给定的概率估计该区间包含总体 均数的可能范围。 可信度:给定的概率称为可信度。用 1 表 示。通常取99%、95%。
山区男子脉搏的总体均数与一般成年男子的脉搏均 数不相等,差异可能是由地域等因素引起的——提 示山区男子与一般男子是两个不同的总体。
假设检验
——通过对假设作出取舍抉择来达到解决问题的目的
A.山区男子脉搏的总体均数与一般成年男子的脉搏均数
相等
无差异假设、零假设 H0(null hypothesis)
3. 确定P值,下结论。
P 值的概念
指从H0规定的总体中随机抽样抽得等于或大于 (或等于或小于)现有样本统计量的概率。
-2.045
2.045
本章总结
conclusion
样本均数的分布:
由中心极限定理及大数定理得出:
若原变量X服从正态分布,随机抽取样本含 量为n的样本均数 X 也服从正态分布。
即使从偏态总体中随机抽样,当n足够大( n>50),样本均数也近似服从正态分布。
这个定理不仅具有理论价值,而且具有很 高的实用价值。因为在实际工作当中,许多医 学测量结果并不知道它的确切分布,有了这个 性质,就可以利用正态分布的原理对其特征进 行统计推断。
t分布方法
应用条件:总体方差未知,样本量小
例4.2 某医师测的40名老年性慢性支气管炎病人尿中17-酮类固 醇排出量均数为15.19umol/d,标准差为5.03umol/d,试估计该 种病人尿17-酮类固醇排出量总体均数的95%可信区间。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
缩小。
16
NTU 2012
中心极限定理(central limit theorem)
Case 1:
从正态分布总体N (μ,σ) 中随机抽样(每个样本的含量 为n ),可得无限多个样本,每个样本计算样本均数,
则样本均数也服从正态分布。
– 样本均数的均数为 μ;

样本均数的标准差为 x
n

17
NTU 2012
抽样误差的表现
样本均数和

总体均数间

的差别 X i




样本均数和

样本均数间
的差别 X i X j
7
NTU 2012
抽样误差的规律性
抽样误差是不可避免的! 抽样误差是有规律的!
既然抽样误差是有规律的,那么它的 分布规律到底是怎样的?
8
NTU 2012
模拟试验
假设一个已知总体,从该总体中抽样,对每个 样本计算样本统计量(均数、方差等),观察样 本统计量的分布规律--抽样分布规律。
n=2
X Population A
X
X Population B
X Population C
X Population D
n=4
X
X
n=10
X
n=25
Sampling Distribution of sample means
Sampling Distribution of sample means
Sampling Distribution of sample means
20
与样本含量的关系
NTU 2012
n 越大,均数的均数就越接近总体均数; n 越大,变异越小,分布越窄;
对称分布接近正态分布的速度,大于非对称分布。 分布越偏,接近正态分布所需样本含量就越大。
21
NTU 2012
抽样误差的规律性(1)
均数的抽样误差规律:
– 在样本含量足够大时,无论总体分布如何,其均数的 分布趋于正态分布(大数定律)
主要内容(Content)
NTU 2012
抽样误差及其规律性 标准误 抽样分布与t分布 总结
1
NTU 2012
了解抽样误差规律的重要性
总体
随机 抽样
同质个体、个体变异
样本
代表性、抽样误差
总体参数
未知
样本统计量
统计 推断
已知
风险
2
NTU 2012
两种研究思路
概率论:已知总体样本具有什么性质? 统计学:已知样本总体具有什么性质?
Sampling Distribution of sample means
14
NTU 2012
从正态总体中随机抽样,其样本均数服从正态分 布;
从任意总体中随机抽样,当样本含量足够大时, 其样本均数的分布逐渐逼近正态分布;
样本均数之均数的位置始终在总体均数的附近; 随着样本含量的增加,样本均数的离散程度越来
标准误的意义
NTU 2012
反映了样本统计量(样本均数,样本率)分布的离散 程度,体现了抽样误差的大小。
标准误越大,说明样本统计量(样本均数,样本率) 的离散程度越大,即用样本统计量来直接估计总体参 数越不可靠。反之亦然。
标准误的大小与标准差有关,在例数n一定时,从标
准差大的总体中抽样,标准误较大;而当总体一定时, 样本例数越多,标准误越小。说明我们可以通过增加 样本含量来减少抽样误差的大小。
– 不同的样本含量对上述性质的影响如何?
10
NTU 2012
从已知正态总体中抽样
μ =0 σ =1
X =0.3747
S= 1.2473
X =0.0681
S =0.7245
样本含量n =10 抽样次数m =1000
X =-0.1703 S = 0.9248
11
NTU 2012
A Simulation Study
概率论:规律性中的随机性 统计学:随机性中的规律性
3
NTU 2012
NTU 2012
NTU 2012
抽样误差的定义
【定义】由于个体变异的存在,在抽样研究中产生 样本统计量和总体参数之间的差异,称为抽样误 差(sampling error)。
各种参数都有抽样误差,这里我们以均数为研究对象
6
NTU 2012
考察:
– 不同的分布 – 不同的样本含量
对统计量的影响。
9
均数的模拟试验
NTU 2012
从不同总体中进行抽样,观察均数的抽样分布规律。 – 正态分布总体 – 对数正态分布总体 – U型分布总体
考察: – 样本均数的均数与总体均数有何关系? – 样本均数的标准差与总体标准差有何关系? – 样本均数的分布形状如何?
越小,表现为样本均数的分布范围越来越窄,其 高峰越来越尖。
15
均数的抽样误差之特点
NTU 2012
各样本均数未必等于总体均数; 样本均数间存在差异; 样本均数的分布很有规律,围绕总体均数,中间
多两边少,左右基本对称; 样本均数的变异范围较之原变量的变异范围大大
缩小; 随着样本含量的增加,样本均数的变异范围逐渐
SAMPLE 1:x11 x12 x13 x14...x1n
X1
原始
SAMPLE 2:x21 x22 x23 x24...x2n
X2
总体
μ
k个样本均数的频数分布图
SAMPLE k:xk1 xk2 xk3 xk4...xkn
Xk
12
NTU 2012
模拟试验
随机现象的模拟系统
13
NTU 2012
Sampling distribution for means
中心极限定理(central limit theorem)
Case 2:
从非正态(nonnormal)分布总体(均数为μ,方差为σ)
中随机抽样(每个样本的含量为n ),可得无限多个样
本,每个样本计算样本均数,则只要样本含量足够
大(n >50),样本均数也近似服从正态分布。
– 样本均数的均数为 μ;

样本均数的标准差为 x
n

18
NTU 2012
标准误(standard error)
样本统计量的标准差称为标准误。 样本均数的标准差称为均数的标准误。 均数的标准误表示样本均数的变异度。
x
n
当总体标准差未知时,用样本标准差代替,
s
sx
n
前者称为理论标准误,后者称为样本标准误。
19
– 在样本含量较小时: 总体为正态分布时:正态分布 总体为非正态分布时:?
22
NTU 2012
正态分布的标准化变化
若 X ~ N(μ,σ) , 则
X ~ N(0,1。)

X~N(,X),

u X ~ N(0,1)

X
23
NTU 2012
.2
从N(0,1)中1000次抽样的 u 值的分布(n=4)
相关文档
最新文档