研-统计3抽样误差t分布
参数估计的基础(8)

可信区间和可信限
❖ 可信区间(confidence interval 简记为CI) 可信区间是以上下可信限为界的一个范围。例如 95%的可信区间为(171.97,173.49)cm。
❖ 可信限( confidence limit 简记为CL) 可信限是指上限和下限两个点值。如171.97为下限
结果报告:可将点值估计和区间估计同时写出 如 172.72(171.97,173.49)cm
例
该市19岁健康男大学生的身高的95%置信区间 (171.3,173.1)cm
总体均数可信区间的估计
可信 区间
已知
未知 但n足够大
未知 且n小
95% Sx
X±1.96x
X±1.96Sx
99% Sx
X±2 0.05( ) X±t 0.01()
(二)、总体概率的置信区间
表3.1 100个样本均数
173.22 172.06 170.89 174.07 172.60 173.14 172.61 172.26 171.93 172.85
175.23 173.76 174.77 172.57 171.76 172.74 173.36 173.69 171.10 173.40
呈正态分布; ④样本均数变异范围较原变量变异范
围大大缩小,这100个样本均数的 均数为167.69cm、标准差为1.69cm。
在非正态分布总体中可进行类似抽样。
数理统计推理和中心极限定理表明:
从 N (, 2 )中随机抽取n例的样本,样本均数 X也服从
正态分布,且
x
~
N
(,
2 x
)
即使从非正态总体中抽取样本,当n足够大(n>30),
本例n=27,S=15
研统计3抽样误差t分布

研统计3抽样误差t分布
• 正态曲线下面积的分布规律的应用: • 一、确定医学参考值范围 • 意义:是正常人指标测定值的波动范围,可用于
划分正常,或异常。
• 步骤:1、抽样 2、控制测量误差 3、取单侧或双 侧 4、选定合适的百分界限 5、资料正态性检验
• 6、进行参考值估计 • 常用方法: • 正态分布法,对数正态分布法,百分位数法
• 标准正态分布 N(0,1).
PPT文档演模板
研统计3抽样误差t分布
• 正态分布的特征和分布规律:
• (1)曲线在x轴的上方,与x轴不相交,当x=μ 时,曲线位于最高点。 f(u=0)=0.3989
• (2)曲线关于直线x=μ左右对称。
• (3)正态分布有两个参数:均数,标准差;标准正 态的参数分别为:0, 1
• 很多医学资料呈偏态分布,经过对数变换 (用原始数据的对数值lgx代替x)后,服从正 态分布,就说 x服从对数正态分布。
• 如:环境中若干有害物质的浓度,食品中有 些农药的残留量,某些临床检验结果,某些 疾病的潜伏期,医院病人的住院天数,都呈 偏态分布。但对数转换后,为正态分布。按 照正态分布规律处理。
研统计3抽样误差t分布
PPT文档演模板
研统计3抽样误差t分布
No Image
PPT文档演模板
研统计3抽样误差t分布
•对称分布
•正(右)偏分布
•负(左)偏分布
•几种常见的频数分布
PPT文档演模板
研统计3抽样误差t分布
• 正态分布之所以重要, 三个主要原因:
• 1. 正态分布在分析上较易处理。
• 2. 正态分布之概率密度函数(p.d.f., probability density function)的图形为钟形曲 线(bell-shaped curve), 对称, 很适合当做不少 事件之机率模式。
T分布3

2,两个样本均数比较的u 检验 两个样本均数比较的u
▲目的:由两个样本均数的差别推断两样本 目的: 所代表的总体均数间有无差别. 所代表的总体均数间有无差别. ▲计算公式及意义: 计算公式及意义: u 统计量 适用条件: ▲ 适用条件: (1) 已知 可计算两个样本均数及它们的标准差 ; ) 已知/可计算两个样本均数及它们的标准差 (2) 两个样本例数都不少于 ) 两个样本例数都不少于100. .
28
例题: 例题: p. 29, 例4 已知: 已知: (1) 一个总体均数:114.0 mmHg ; 一个总体均数: (2) 一个样本均数:119.8 mmHg ; 一个样本均数: (3) 可计算出样本标准误: 可计算出样本标准误: (4) n = 100;
假设检验: 假设检验:
▲ 建立假设: 建立假设: 检验假设:高原地区20-29岁健康女子收缩压均数 检验假设:高原地区 岁健康女子收缩压均数 与一般20-29岁健康女子收缩压均数相同; 岁健康女子收缩压均数相同; 与一般 岁健康女子收缩压均数相同 备择假设 :高原地区 高原地区20-29岁健康女子收缩压均数与 岁健康女子收缩压均数与 一般20-29岁健康女子收缩压均数不同; 岁健康女子收缩压均数不同; 一般 岁健康女子收缩压均数不同 确定显著性水平( ):0.05 ▲ 确定显著性水平( α ):
误差越小, 误差越小,用样本均数估计总体均数的可靠性越 大.
与样本量的关系: 一定, ,标准误↓ 与样本量的关系:S 一定,n↑,标准误
6
第二节
t 分布
大样本,小样本概念: 大样本,小样本概念:30 , 50 , 100. . 量变引起质变:当样本容量较大时, 量变引起质变:当样本容量较大时,其统计量的抽 样分布近似为正态分布.随着N的增大 的增大, 样分布近似为正态分布.随着 的增大,越来越接近 于正态分布(样本均数的分布). 于正态分布(样本均数的分布). 但当样本量小于100时,抽样分布不能再用正态分布 时 但当样本量小于 来近似,随着N的减小 与正态分布的差别越来越大, 的减小, 来近似,随着 的减小,与正态分布的差别越来越大, 需要用小样本理论来解释(样本均数的分布) 需要用小样本理论来解释(样本均数的分布) .
抽样分布与参数估计

三、t分布曲线下的面积分布规律
自由度为 的t分布曲线
t 分布曲线下 的整个面积为1, t 分布曲线下从a到b 的面积为t值分布 在此范围内的百分 比,即t值落在此 范围内的概率P。
双侧:由于t分布以0为中心对称,即 P(t≤- t, )= P(t≥ t, )= /2 于是有P(- t, ≤t≤ t, )=1-
sx
u X
X
t X =n-1
s X
u分布 t分布
二、t分布图形的特点
• 1. t分布是一簇曲线。 t分布有一个参数, 即自由度 ,与标准差的自由度一致。
• 2. t分布曲线以0为中心,左右对称; 越小, t变量值的离散程度越大,曲线越扁平。
• 3. t分布曲线较标准正态曲线要扁平些(高 峰低些,两尾部翘得高些), 逐渐增大, t分布曲线逐渐的逼近于标准正态曲线,若 =,则t分布曲线和标准正态曲线完全吻 合。
参数估计在统计方法中的地位
统计方法
描述统计
推断统计
点值估计
参数估计
假设检验
区间估计
一、基本概念
➢ 参数估计:用样本统计量来估计总体参数。
点值估计:不计抽样误差,直接用样本均数来 估计μ。
区间估计:根据抽样误差的规律,按一定的概 率估计总体均数的所在范围。统计上习惯用95% 或99%可信区间表示总体均数可能所在范围。
第一节 均数的抽样误差 第二节 t分布 第三节 总体均数可信区间的估计
一、抽样研究:从总体中随机抽取部分 观察单位构成样本,用样本信息去 推断总体特征的研究方法。
统计推断的过程
总体
样
样本统计量
本
例如:样本均
值、比例
二、抽样误差:在抽样研究中,因抽样造 成的样本统计量与样本统计量、样本统计 量与总体参数的差值。
统计学中的抽样误差分布

统计学中的抽样误差分布在统计学中,抽样误差是指样本统计量与总体参数之间的差异。
当我们从总体中抽取一个样本,并用样本统计量来估计总体参数时,由于抽取的样本并不是总体的全部,因此存在抽样误差。
抽样误差的分布是统计学中一个重要的概念,它描述了抽样误差的概率分布情况。
本文将介绍统计学中的抽样误差分布。
一、抽样误差的产生原因抽样误差的产生主要有以下几个原因:1. 随机抽样:在统计学中,我们通常采用随机抽样的方法来获取样本。
由于样本是从总体中随机选择的,因此样本与总体之间的差异是不可避免的。
2. 样本大小:样本大小对抽样误差有影响。
样本越大,抽样误差越小;样本越小,抽样误差越大。
3. 总体分布的形状:总体分布的形状也会对抽样误差的分布产生影响。
当总体呈正态分布时,抽样误差往往服从正态分布。
二、抽样误差的分布在统计学中,常见的抽样误差分布有以下几种:1. 正态分布:当总体分布是正态分布,并且样本大小足够大时,根据中心极限定理,样本均值的抽样误差大致服从正态分布。
这也是许多统计推断方法的基础。
2. t分布:在实际应用中,当总体分布未知且样本大小较小的情况下,我们通常使用t分布来描述样本均值的抽样误差。
3. 二项分布:在二项分布中,我们关注的是成功与失败的次数。
当样本来自二项分布总体时,样本比例的抽样误差可以用二项分布来描述。
4. 指数分布:在某些情况下,我们关注的是事件发生的时间间隔。
当事件按照指数分布发生时,我们可以使用指数分布来描述事件发生时间的抽样误差。
三、抽样误差的影响抽样误差的分布对统计推断和决策具有重要影响:1. 置信区间:在统计推断中,我们常常需要给出一个参数的置信区间。
抽样误差的分布决定了置信区间的宽度,即置信水平的精度。
2. 假设检验:在假设检验中,我们常常需要计算p值来判断统计显著性。
抽样误差的分布决定了p值的计算方式。
3. 决策风险:在决策分析中,我们常常需要权衡风险和效益。
抽样误差的分布决定了决策的可靠性和风险程度。
标准误、t 分布

教 学 内 容 标准误 t分布
二、 t 分布: 三)、应用: 2、t 检验--- 3)、两样本均数的比较: A)、两小样本比较: 检验步骤: 1、建立假设,确定检验水准α 及单双侧 H0:无效假设:(两总体相同)该地急性克山病患者和健康人 的血磷值是否相同, μ 1= μ 2 H1:备择假设:(两总体不同) μ 1 ≠ μ 2 α =0.05 (双侧) 2、选择和计算统计量值: SX1-X2 = t = ( X1-X2 )/SX1-X2 [SC2(1/n1+1/n2)]1/2 = (1.521-1.085)/0.1729 =2.522 3、确定P值:按 v = v1+v2 = n1+n2-2 = 11+13-2 = 22 查t界值 表,得: P < 0.02 4、判断结果: P < 0.05 (α ), 故H1成立, 即该地急性克山病患者和健康人 的血磷值不同。
教 学 内 容 标准误 t分布
二、 t 分布: 三)、应用: 2、t 检验: 3)、两样本均数的比较: A)、两小样本比较: t = (X1-X2)/SX1-X2 B)、两大样本比较: t = (X1-X2)/SX1-X2
v=n1+n2-2 v=n1+n2-2
SX1-X2 = ( S12/n1+S22/n2 )1/2 例: 抽查了25--29岁正常人群的RBC数(mmol/L) 其中男性156人,得均数为4.561,标准差为0.548 ;女性74人,得均数为4.222,标准差为0.442。问 该人群男、女的RBC数有无不同? 已知样本1 已知样本2 问题: 两样本所属总体 均数是否相同?(μ 1= μ 是否成立 ?)
教 学 内 容 标准误 t分布
二、 t 分布: 三)、应用: 2、t 检验--- 1)、样本均数与总体均数比较:
4 第四章 均数的抽样误差与t分布

统计推断包括两个方面: 统计推断包括两个方面: 参数估计( 1、参数估计(总体均数的可信区 间估计) 间估计) 假设检验(均数的假设检验) 2、假设检验(均数的假设检验) 两样本均数必较( 检验、 ⑴、两样本均数必较(u检验、 检验) t检验) 多样本均数必较( 检验) ⑵、多样本均数必较(F检验)
t分布
(t - distribution) distribution)
从正态总体中随机抽取含量为n 从正态总体中随机抽取含量为n的若 干样本,由样本算得样本均数x 干样本,由样本算得样本均数x,x服从 正态分布, 则称为正态变量。若已知µ 正态分布,x则称为正态变量。若已知µ, 但未知σ 为了应用方便,可用s代替σ 但未知σ,为了应用方便,可用s代替σ, 求得σ 的估计值S 正态变量x 求得σx的估计值Sx,正态变量x可作变量 变换:t=(x变量变成t变量。 变换:t=(x-µ)/Sx, x变量变成t变量。每 个样本x可算得一个t变量, 个样本x可算得一个t变量,所有可能含量 的样本的t值构成t变量总体, 分布。 为n的样本的t值构成t变量总体,即t分布。
可信区间的两个要素
1.准确度 反映在可信度1 1.准确度:反映在可信度1–α的大 准确度: 小上,即区间包含总体均数的概率大小。 小上,即区间包含总体均数的概率大小。 概率越大越准确。 概率越大越准确。 2.精度 反映在可信区间的长度上。 2.精度:反映在可信区间的长度上。 精度: 长度越小越精密。 长度越小越精密。 在 n 确定的情况下,二者是矛盾的。 确定的情况下,二者是矛盾的。 (α ↓, tα.ν ↑) 如提高可信度 ,则区间变 在可信度确定的情况下, 长。在可信度确定的情况下,增加样本 减小区间长度, 例数 (SX ↓, tα,减小区间长度,提高 ↓) .ν 精度。 精度。
统计学 第三章抽样与抽样分布

=10
= 50 X
总体分布
n= 4
x 5
n =16
x 2.5
x 50
X
抽样分布
从非正态总体中抽样
结论:
从非正态中体中抽样,所形成 的抽样分布最终也是趋近于正态分 布的。只是样本容量需要更大些。
总结:中心极限定理
设从均值为,方差为 2的一个任意总体中抽 取容量为n的样本,当n充分大时(超过30),样本 均值的抽样分布近似服从均值为μ、方差为σ2/n的
总体
样本
参数
统计量
总体与样本的指标表示法
总体参数
样本统计量
(Parameter) (Sample Statistic)
容量 平均数 比例 方差 标准差
N
n
X
x
p
2
s2
s
小练习
某药品制造商感兴趣的是用该公司开发的某 种新药能控制高血压人群血压的比例。进行了一 项包含5000个高血压病人个体的研究。他发现用 这种药后80%的个体,他们的高血压能够被控制。 假定这5000个个体在高血压人群中具有代表性的 话,回答下列问题: 1、总体是什么? 2、样本是什么? 3、识别所关心的参数 4、识别此统计量并给出它的值 5、我们知道这个参数的值么?
正态分布
一个任意分 布的总体
x
n
当样本容量足够 大时(n 30) , 样本均值的抽样 分布逐渐趋于正 态分布
x
X
总体分布
正态分布
非正态分布
大样本 小样本 大样本 小样本
正态分布
正态分布
非正态分布
三 中心极限定理的应用
中心极限定理(Central Limit theorem) 不论总体服从何种分布,从中抽取
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 正态分布的密度函数:式中μ为均数;σ为标
准差;π为圆周率;е为自然对数的底,即
2.71828。以上均为常数,仅x为变量。
f (x)
1
2
( 1 )[ ( x ) ]2
e2
(1)
x
Байду номын сангаас
• 标准正态分布: • 为了应用方便,常将式进行变量变换,即:u
• 如:环境中若干有害物质的浓度,食品中有 些农药的残留量,某些临床检验结果,某些 疾病的潜伏期,医院病人的住院天数,都呈 偏态分布。但对数转换后,为正态分布。按 照正态分布规律处理。
例题
• 某市某年调查200例正常人血铅含量(ug/100g,双 硫腙分光比色法),试估计血铅值的95%上限。
lg1( X lg x 1.645S lg x)
变换. 所得到的新变量u的分布即为标准正态 分布。
• u的含义:变量到均数间的距离相当于标准差 的倍数。
u x
x
标准正态分布的概率密度函数:
(u)
1
(u2 )
e2
(2)
2
u
• u变换后,μ=0,σ=1,使原来的正态分布变 换为标准正态分布(standard normal distribution)亦称u分布。
• 正态曲线下面积的分布规律
• 正态曲线下,横轴上一定区间的面积,等于该区 间的频数发生的概率(即所有随机事件发生的概 率)。面积可用积分求得。
• F(x)为正态变量X 的累积分布函数,反映正态曲
线下,自- 到x的面积,即左侧累积面积。
F (x) 1
e dx x
( 1 )[ x ]2 2
2
• 标准正态分布 N(0,1).
• 正态分布的特征和分布规律:
• (1)曲线在x轴的上方,与x轴不相交,当x=μ 时,曲线位于最高点。 f(u=0)=0.3989
• (2)曲线关于直线x=μ左右对称。
• (3)正态分布有两个参数:均数,标准差;标准正 态的参数分别为:0, 1
• (4)正态分布的面积分布有一定规律。
X 1.96S
• 3、将样本的均数、标准差数值代入计算,得出 范围。
X 1.96S 4.653 1.96 0.401
(3.87 ~ 5.44)
• 对数正态分布(log normal distribution):
• 很多医学资料呈偏态分布,经过对数变换 (用原始数据的对数值lgx代替x)后,服从正 态分布,就说 x服从对数正态分布。
月30日于不伦瑞克,卒于1855年2月23日于哥 廷根,德国著名数学家、天文学家、大地测 量学家、物理学家。被认为是最重要的数学 家,并有数学王子的美誉。
• 正态分布用N(µ, 2 )表示,其位置与均数有关, 形状与标准差有关。
• 医学现象许多呈正态分布,或近似正态分布:如 正常人的生理,生化指标变量,等
(normal distribution)
• 概念: 频数分布以均数为中心,左右两侧基 本对称,靠近均数两侧频数较多,离均数愈 远,频数愈少,形成一个中间多,两侧逐渐 减少的对称分布。
• 是一种连续型分布。又称高斯分布。 • (Johann Carl Friedrich Gauss,生于1777年4
(3)
(u) 1
u
(u2 )
e 2 du
2
(4)
• 统计学家已经按 (4) 编成了附表,标准正态分 布曲线下的面积。应用时注意:
• (1)当总体μ , σ已知时,先计算u值,再用u 值查表,得出所求区间面积占总面积的比例。如 果未知,常分别用样本均数和样本标准差来估计。
• (2)曲线下对称于0的区间,面积相等。如:区
面积
(或概率)
-1__+1 -1.96__+1.96
68.27% 95.00%
-2.58__+2.58 99.00%
双侧概率
(-1,1),68.27%
(-1.96,1.96),95%
(-2.58,2.58),99%
单侧概率
• 正态曲线下面积的分布规律的应用: • 一、确定医学参考值范围 • 意义:是正常人指标测定值的波动范围,可用于
间(- ,-2.58)与区间(2.58, )的面积
相等。
• (3)曲线下横轴上的总面积为100% 或为1。
• 根据后两个特征,可计算右侧累积面积。
正态分布和标准正态分布曲线下面积分布规律
正态分布
μ -1σ__μ +1 σ μ–1.96σ__μ+1.96σ μ –2.58σ__μ+2.58σ
标准正态分布
划分正常,或异常。
• 步骤:1、抽样 2、控制测量误差 3、取单侧或双 侧 4、选定合适的百分界限 5、资料正态性检验
• 6、进行参考值估计 • 常用方法: • 正态分布法,对数正态分布法,百分位数法
适用对 象
95%正常值范围的估计
双侧界限
单侧上界
单侧下界
正态分 布法
正态、 近似正 态
X 1.96S X 1.645S X 1.645S
• 资料服从对数正态分布,求血铅对数值的均数, 标准差。
lg1(1.1545 1.645 0.2679) lg1(1.5952) 39(ug /100g)
• 二、确定概率分布:
• 例:某市2000年110名7岁男童身高,已知均数
• X =119.95厘米,标准差S=4.72厘米,估计:该 地7岁男童身高在110厘米以下者占该地7岁男童 总数的百分数。
从直方图到正态曲线的过渡
对称分布
正(右)偏分布
负(左)偏分布
几种常见的频数分布
• 正态分布之所以重要, 三个主要原因:
• 1. 正态分布在分析上较易处理。
• 2. 正态分布之概率密度函数(p.d.f., probability density function)的图形为钟形曲 线(bell-shaped curve), 对称, 很适合当做不少 事件之机率模式。
对数正 态法
对数正 态、近 似正态
lg1( X lg x 1.96S lg x)
lg1( X lg x 1.645S lg x)
lg1( X lg x 1.645S lg x)
百分位 数法
偏态
P2.5 ~ P97.5
P95
P5
单侧下限 单侧上限
正常值范围的上下限
双侧界限
• 例:用正态分布法求血糖值95%的参考值范围。 • 解:1、求样本的均数4.653、标准差0.401。 • 2、按照双侧95%范围,确定参考值范围为: