医学统计学第4讲抽样误差与t分布-45页文档资料

合集下载

第4讲抽样误差与t分布

第4讲抽样误差与t分布
单侧:P(t≤-t,)=或P(t≥t,)= 双侧:P(t≤-t/2,)+P(t≥t/2,)=
• 图中非阴影部分面积的概率为,
P(-t/2,<t<t/2,)=1-
PPT文档演模板
第4讲抽样误差与t分布
•t分布的界值
•t,
•自由度
•检验水准 •(尾端概率)
• 在t 检验中很重要
PPT文档演模板
第4讲抽样误差与t分布
n=10 5.00 0.50 5.00
n=30 5.00 0.50 5.00
均数标准差
0.2212 0.1580 0.0920
0.2236 0.1581 0.0913
PPT文档演模板
第4讲抽样误差与t分布
3个抽样实验结果图示
PPT文档演模板
第4讲抽样误差与t分布
非正态分布抽样
• 分别从各总体中抽取10000个样本含量为 n的样本,计算每个样本的均数,并绘制 频数分布图。
•从均数为 ,标准差为s的正态总体中随
机抽取例数为n的样本,样本均数的总体均
数为 ,标准差为sx
PPT文档演模板
第4讲抽样误差与t分布
PPT文档演模板
•中心极限定理
第4讲抽样误差与t分布
标准误的定义
•样本统计量(如均数)也服从一定的分布。
•与描述观测值离散趋势的指标类似,样本 统计量的标准差就反映了从某个总体中随机 抽样所得样本之均数分布的离散程度。
PPT文档演模板
第4讲抽样误差与t分布
•抽样误差的规律 性—正态分布抽样
• 从正态分布总体N(5.00,0.502)中,每 次随机抽取样本含量n=5,并计算其均数与
标准差;重复抽取1000次,获得1000份样本 ;计算1000份样本的均数与标准差,并对 1000份样本的均数作直方图。

4 第四章 均数的抽样误差与t分布

4 第四章  均数的抽样误差与t分布
数值变量资料的统计推断
统计推断包括两个方面: 统计推断包括两个方面: 参数估计( 1、参数估计(总体均数的可信区 间估计) 间估计) 假设检验(均数的假设检验) 2、假设检验(均数的假设检验) 两样本均数必较( 检验、 ⑴、两样本均数必较(u检验、 检验) t检验) 多样本均数必较( 检验) ⑵、多样本均数必较(F检验)
t分布
(t - distribution) distribution)
从正态总体中随机抽取含量为n 从正态总体中随机抽取含量为n的若 干样本,由样本算得样本均数x 干样本,由样本算得样本均数x,x服从 正态分布, 则称为正态变量。若已知µ 正态分布,x则称为正态变量。若已知µ, 但未知σ 为了应用方便,可用s代替σ 但未知σ,为了应用方便,可用s代替σ, 求得σ 的估计值S 正态变量x 求得σx的估计值Sx,正态变量x可作变量 变换:t=(x变量变成t变量。 变换:t=(x-µ)/Sx, x变量变成t变量。每 个样本x可算得一个t变量, 个样本x可算得一个t变量,所有可能含量 的样本的t值构成t变量总体, 分布。 为n的样本的t值构成t变量总体,即t分布。
可信区间的两个要素
1.准确度 反映在可信度1 1.准确度:反映在可信度1–α的大 准确度: 小上,即区间包含总体均数的概率大小。 小上,即区间包含总体均数的概率大小。 概率越大越准确。 概率越大越准确。 2.精度 反映在可信区间的长度上。 2.精度:反映在可信区间的长度上。 精度: 长度越小越精密。 长度越小越精密。 在 n 确定的情况下,二者是矛盾的。 确定的情况下,二者是矛盾的。 (α ↓, tα.ν ↑) 如提高可信度 ,则区间变 在可信度确定的情况下, 长。在可信度确定的情况下,增加样本 减小区间长度, 例数 (SX ↓, tα,减小区间长度,提高 ↓) .ν 精度。 精度。

医学统计学课件:抽样误差

医学统计学课件:抽样误差

9
.15
樣本均數服從正態分佈
.1
.05
0
正態總體分佈
80.0
90.0
100.0 Sample Mean
110.0
120.0
從N(100,62)中隨機抽樣,樣本含量為4的 1000個樣本均數的頻數分佈圖
10
Sampling distribution for means
n=2 n=4
X Population A
24
t分佈的性質
t分佈為一簇單峰分佈曲線。 t分佈以0為中心,左右對稱。
t分佈與自由度v有關,自由度越小,t分佈的峰越
低,而兩側尾部翹得越高;自由度逐漸增大時,t 分佈逐漸逼近標準正態分佈;當自由度為無窮大 時,t分佈就是標準正態分佈。 每一自由度下的t分佈曲線都有其自身分佈規律。t 界值表 。
標準誤的大小與標準差有關,在例數n一定時,從 標準差大的總體中抽樣,標準誤較大;而當總體 一定時,樣本例數越多,標準誤越小。說明我們 可以通過增加樣本含量來減少抽樣誤差的大小。
17
抽樣誤差的規律性(1)
• 均數的抽樣誤差規律:
– 在樣本含量足夠大時,無論總體分佈如何,其 均數的分佈趨於正態分布(大數定律)
– 抽樣誤差是不可避免的! – 抽樣誤差是有規律的!
5
模擬試驗
• 假設一個已知總體,從該總體中抽樣,對 每個樣本計算樣本統計量(均數、方差等), 觀察樣本統計量的分佈規律--抽樣分佈 規律。
• 考察:
– 不同的分佈 – 不同的樣本含量
對統計量的影響。
6
均數的模擬試驗
• 從不同總體中進行抽樣,觀察均數的抽樣分佈規 律。 – 正態總體 – 偏三角分佈總體 – 均勻分佈總體 – 指數分佈總體 – 雙峰分佈總體

抽样误差和假设检验t检验PPT讲稿

抽样误差和假设检验t检验PPT讲稿

样本均数的标准差,也称为标准误 ,反映了样本均数间的离散程度, 也反映了样本均数与总体均数的差 异。
例4.1 某市随机抽查12岁男孩100人,得身高均数139.6cm,标准差 6.85cm,计算标准误。
sx
s 6.85 0.685(cm) n 100
当前你正在浏览到的事第五页PPTT,共六十七页。
p(t / 2( )
x
sx
t / 2( ) )
1
• 对上式进行变换,得置信度为1-α的总体均数可信区间
的通式为:
x t / 2( ) sx x t / 2( ) sx
• 习惯将上式写成:
(x t /2( ) sx , x t /2( ) sx )
当前你正在浏览到的事第二十页PPTT,共六十七页。
(3) 越小,则
越大,t值越分散,和N(0, 1)
s 相比,集中在这部分的比例越少,尾部翘得越
高。
x
当前你正在浏览到的事第十页PPTT,共六十七页。
第四章 抽样误差与假设检验
当前你正在浏览到的事第十一页PPTT,共六十七页。
第四章 抽样误差与假设检验
t 分布(与u 分布 比较的特点)
当前你正在浏览到的事第十二页PPTT,共六十七页。
• 反证法:当一件事情的发生只有两种可能A和B,为
了肯定其中的一种情况A,但又不能直接证实A,这 时否定另一种可能B,则间接的肯定了A。
• 小概率事件原理: 小概率事件在一次抽样中不可能发生.
• 概率论:事件的发生不是绝对的,只是可能性大小而已。
即,带有风险性的推断.
当前你正在浏览到的事第三十二页PPTT,共六十七页。
一、点估计
第四章 抽样误差与假设检验

抽样误差及t检验PPT课件

抽样误差及t检验PPT课件

如样本均数的标准差称为均数的标准误, x
n
均数的标准误表示样本均数的变异度
当总体标准差未知时,用样本方差代替,s x 前者称为理论标准误,后者称为样本标准误
s n
因为标准差S随着样本含量的增加而趋于稳定,故增 加样本含量可以降低抽样误差。
-
7
• n 越大,均数的均数就越接近总体均数;
• n 越大,变异越小,分布越窄;
区间。
3、与样本含量
• 标准差是随着样本含量- 的增多,逐渐趋于稳定。 9 • 标准误是随着样本含量的增多,逐渐减少。
与标准差的关系
• 首先,标准差和标准误都是变异指标,说明个 体之间的变异用标准差,说明统计量之间的变
联 异用标准误。
• 其次,当样本含量不变时,标准差大,标准误
系 亦越大,均数的标准误与标准差成正比。
抽样误差及t检验
盛法林,华海峰
-
1
抽样误差的概念
• 抽样研究的过程中,样本统计量与总体参数间的差异称为抽样误差。
这在抽样研究中是不可避免的。

抽样误差的表现形式:
• 异
1)总体参数与样本统计量之间的差异;如μ与 X 之间的差
• 差异
2)样本统计量与样本统计量之间的差异;如X 与X 之间的
-
2
• 理论上,如果进行n次抽样,可能会得到n 个各个不相同的样本统计量。如果我们的 抽样方法一致的话则n多个统计量之间存在 着规律可循。
-
5
均数的抽样误差及标准误
• 各样本均数未必等于总体均数; • 样本均数间存在差异;
• X 的分布很有规律,围绕着,中间多,两边少,
左右基本对称; • 样本均数的变异范围较之原变量的变异范围大大

医学统计学:抽样误差和 t 分布

医学统计学:抽样误差和 t 分布
α的可信区间(confidence interval, CI),又称置
信区间 。这种估计方法称为区间估计。
均数的可信区间
P(−tα / 2,ν < t < tα / 2,ν ) = 1− α
P(x − tα /2,ν sX < µ < x + tα /2,ν sX ) = 1− α
总体均数的(1-α )可信区间定义为:
X − u0.10 × s X = 142.67 − 1.64 × 0.5477 = 141.77(cm)
X
+ u0.10
×s
X
= 142.67 + 1.64 × 0.5477 = 143.57(cm)
即该地12岁男孩平均身高的90%可信区间为:141.77~143.57(cm), 可认为该地12岁男孩平均身高在141.77~143.57(cm)之间。
200
0.676 0.843 1.286 1.653 1.972 2.345 2.601 2.839 3.131 3.340
500
0.675 0.842 1.283 1.648 1.965 2.334 2.586 2.820 3.107 3.310
1000
0.675 0.842 1.282 1.646 1.962 2.330 2.581 2.813 3.098 3.300
-t
0
t
0.005 0.01
63.657 9.925 5.841 4.604 4.032
0.0025 0.001
0.005 0.002
127.321 318.309
14.089 7.453 5.598 4.773
22.327 10.215 7.173 5.893

新编文档-医学统计学第4章-精品文档

新编文档-医学统计学第4章-精品文档
的总体均数也为,标准差用X 表示,则X可按下式计算:
X = n
X~ N( , 2)

X
~ N( ,2 n


X = n
S SX= n
第二节 t分布
一. t分布的概念
X~ N( , 2)
X~ N( ,n2 )

2
X- ~ N(0,n )
X- ~ N(0, 1 ),即u分布。 / n 用S代替,得到
data temp2; set temp; g=10**(ybar); down=10**(ybar-1.96*s); upper=10**(ybar+1.96*s); drop ybar; drop s; proc print data=temp2; run;
OBS X F Y
1 4 1 0.60206 2 8 7 0.90309 3 16 10 1.20412 4 32 31 1.50515 5 64 33 1.80618 6 128 42 2.10721 7 256 24 2.40824 8 512 3 2.70927 9 1024 1 3.01030
2.两者的计算公式有差别:可信区间用了标准误,参考值范 围用了标准差。
补充题 152例麻疹患儿病后血清抗体滴度倒数的分布如下,试 作总体几何均数的点值估计和95%区间估计。
152例麻疹患儿病后血清抗体滴度倒数的分布
滴度倒数 1 2 4 8 16 32 64 128 256 512 1024 合计
人 数 0 0 1 7 10 31 33 42 24 3
OBS N G DOWN UPPER
1 152 72.3856 61.5620 85.1122
附表2 t界值表通式: 单侧:P(t -t ,)= , 或P(t t ,)= , 双侧: P(t -t /2,) + P(t t /2,)= , 图中非阴影部分面积的概率为: P( -t /2, < t < t /2,)= 1-

抽样误差与抽样分布概述ppt(48张)

抽样误差与抽样分布概述ppt(48张)

表 4-2 样本量为 25 从 N(72.5,6.32)共随机抽取 10 个样本

样 样 最最抽

本 本 小大样

n=9
均 标 值值误

数准


1 65 68 68 76 84 6480 63 84 72.4 8.6 63 84 -0.10
2 74 61 65 75 67 78 72 70 67 69.9 5.4 61 78 -2.60
每次抽取10000个样本并计算各自的样本均 数
以10000个样本均数作为一个新的样本制作 频率密度分布图
72 74 74 73 66 67 80 73 64 75 78 69
4 74 80 76 64 66 71 82 78 67 79 56 64 6571.6 7.1 56 83-0.90
69 74 64 66 62 75 71 80 83 77 76 71
5 75 72 79 74 76 65 80 71 74 75 79 74 7373.5 4.4 65 80 1.00
72 81 60 76 77 69 73 74 76 71 76 79
10 79 82 75 64 77 74 73 67 67 84 79 78 7373.9 6.8 60 84 1.40
80 83 78 76 60 80 79 72 72 66 61 69
6
x
1 10
10 i 1
xi
1 10
7 74 67 71 77 70 61 66 70 73 69.9 4.8 61 77 -2.60
8 62 73 80 64 84 66 74 69 76 72.0 7.4 62 84 -0.50
9 73 68 62 73 73 69 76 71 68 70.3 4.1 62 76 -2.20
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

tXX, vn1
S n SX 由W.S. Gosset提出
t= x- s/ n
对于不同的n,有不同的t分布曲线。 X (n-1)称为 t分布的自由度
自由度分别为1、5、 ∞时的 t 分布
f(t) =∞(标准正态曲线)
=5
0.3
=1
0.2
0.1
-4 -3 -2 -1 0 1 2 3 4
t分布的特征:
0
0
50
50
100
100
Байду номын сангаас
150
150
200
200
频数 频数
250
250
n10;SX0.1580
400 350 300
n5;SX 0.2212
400 350 300
450
450
3个抽样实验结果图示
非正态分布抽样
• 分别从各总体中抽取10000个样本含量为 n的样本,计算每个样本的均数,并绘制 频数分布图。
n=5 5.00 0.50 4.99
n=10 5.00 0.50 5.00
n=30 5.00 0.50 5.00
均数标准差
Sn
0.2212
0.1580 0.0920
n
0.2236 0.1581 0.0913
均数
0
50
100
频数
3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
基本手段
直接推断(参数估计) 间接推断(假设检验)
总体参数的估计
• 均数的抽样误差 • t分布 • 总体均数的估计
抽样误差的定义
• 假如事先知道某地七岁男童的平均身高为119.41cm。为了 估计七岁男童的平均身高(总体均数),研究者从所有符 合要求的七岁男童中每次抽取100人,共计抽取了三次。
统计推断
总体
抽取部分观察单位
样本
参数
统计推断
统计量
如:总体均数
总体标准差
如:样本均数 X 样本标准差S
在医疗卫生实践和医学研究中,往往难以对所要 研究的总体进行全部观察,通常从总体中随机抽 取样本进行观察,然后由样本的信息去推断总体 特征,这种研究方法叫做抽样研究方法。
用样本的信息去推断总体特征,这种分析方法称 为统计推断。
抽样误差产生的条件
• 抽样研究 • 个体变异
样本均数和

总体均数间

的差别 X i




样本均数和

样本均数间
的差别 X i X j
抽样误差是不可避免的,可以通过保证总体 的同质性及增大样本含量来缩小抽样误差。
抽样误差的规律 性—正态分布抽样
从正态分布总体N(5.00,0.502)中,每 次随机抽取样本含量n=5,并计算其均数与
标准差;重复抽取1000次,获得1000份样本 ;计算1000份样本的均数与标准差,并对 1000份样本的均数作直方图。
按上述方法再做样本含量n=10、样本含 量n=30的抽样实验;比较计算结果。
抽样试验(n=5)
抽样试验(n=10)
抽样试验(n=30)
1000份样本抽样计算结果
总体的 总体标 均数的 均数 准差 均数
μ=119.41cm σ= 4.38cm
X 118.21cm s=4.45cm
X 120.81cm s=4.33cm
X 120.18cm s=4.90cm
三次抽样得到了不同的结果!!!! 原因何在????
No Variation! No Sampling Error!
如果没有个体变异……
如果没有抽样研究…… No Random sampling!
• n分别取2、4、10、25。
偏三角分布抽样
均匀分布
指数分布
双峰分布
• 从正态总体中随机抽样,其样本均数服从正 态分布;
• 从任意总体中随机抽样,当样本含量足够大 时,其样本均数的分布逐渐逼近正态分布;
• 样本均数之均数的位置始终在总体均数的附 近;
• 随着样本含量的增加,样本均数的离散程度 越来越小,表现为样本均数的分布范围越来 越窄,其高峰越来越尖。
用途:
(1)衡量样本均值的可靠性 (2)估计总体均值的可信区间 (3)用于均数的假设检验
t分布
随机变量X N(,2)
u X
u变换
均数 X
N(, 2) x
u X n
tXX, vn1
S n SX
t变换
标准正态分布
N(0,12)
标准正态分布
N(0,12) Student t分布 自由度ν=n-1
No Sampling Error!
• 三次抽样得到了不同的结果,原因何在?
不同男童的 身高不同
每次抽到的 人几乎不同
个体变异
随机抽样
抽样误差
【定义】由于个体变异的存在,在抽 样研究中产生样本统计量和总体参数 之间的差异,称为抽样误差 (sampling error)。
各种参数估计都有抽样误差,这里我们以 均数为研究对象
中心极限定理
从正态总体中随机抽取例数为n的样本,样 本均数x也服从正态分布,即使从偏态总体 中抽样,只要样本例数足够大,如n>50, 样本均数x也近似正态分布。
从均数为 ,标准差为的正态总体中随机
抽取例数为n的样本,样本均数的总体均数
为 ,标准差为x
中心极限定理
标准误的定义
样本统计量(如均数)也服从一定的分布。
与描述观测值离散趋势的指标类似,样本统 计量的标准差就反映了从某个总体中随机抽 样所得样本之均数分布的离散程度。
用样本统计量的标准差来反映抽样误差的大 小。又称标准误(standard error)。
x 标准误 x = / n sx = s / n
n100,4.38cm
x
4.380.438cm
n 100
标准误的意义
反映了样本统计量(样本均数,样本率)分布的 离散程度,体现了抽样误差的大小。
标准误越大,说明样本统计量(样本均数,样本率) 的离散程度越大,即用样本统计量来直接估计总体 参数越不可靠。反之亦然。
标准误的大小与标准差有关,在例数n一定时,从 标准差大的总体中抽样,标准误较大;而当总体一 定时,样本例数越多,标准误越小。说明我们可以 通过增加样本含量来减少抽样误差的大小。
①t分布为一簇单峰分布曲线。
150
200
250
300
n30;SX0.0920
450 400 350
均数
均数
3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
相关文档
最新文档