3-33区间估计-PPT课件
合集下载
区间估计 (3)ppt课件

当两样本为成对资料时,在置信度为P=1- α 时,两总体平均数差数µ 1-µ 2的置信区间可估 计为:
0+1.96x
临界值
u x
P ( 1 . 96 x 1 . 96 ) 0 . 95 x x
P ( x 1 . 96 ) P ( x 1 . 96 ) 0 . 05 x x
P ( 2 . 58 x 2 . 58 ) 0 . 99 x x
当为大样本时,不论总体方差σ2为已 知或未知,可以利用样本平均数 x 和总体 方差σ2作出置信度为P=1-α的中体平均数 的区间估计为:
( L x u , L x u ) 1 2 x x
其置信区间的下限L1和上限L2为
L u 1 x x
L u 2 x x
总体平均数的点估计L为:
L x tsx
tа为正态分布下置信度P=1- α时的t临界值
蛋白质含量的点估计为:
L x u 14 . 5 1 . 96 0 . 50 14 . 5 0 . 98 x
说明小麦蛋白质含量有95%的把握落在13.52%~ 15.48%的区间里。
P ( x 2 . 58 ) P ( x 2 . 58 ) 0 . 01 x x
P ( x 1 . 96 x 1 . 96 ) 0 . 95 x x
P ( x 2 . 58 x 2 . 58 ) 0 . 99 x x
总体平均数的点估计未知时,
σ2需由样本方差s2来估计,于是置信度为P
=1-α的总体平均数μ的置信区间可估计为
( x t s , x t s ) x x
区间估计ppt课件

极端值处理问题
剔除极端值
在数据分析前,对极端值进行识别和处理,如采用箱线图、Zscore等方法剔除异常值。
转换数据
对数据进行适当的转换,如对数转换、平方根转换等,使极端值的 影响减小。
使用稳健统计量
采用对极端值不敏感的稳健统计量进行区间估计,如中位数、截尾 均值等。
多重比较问题
控制比较次数
在实验设计和数据分析阶段,合理控制比较次数,避免不必要的 多重比较。
02
抽样分布与中心极限定理
抽样分布概念及类型
抽样分布概念
从总体中随机抽取一定数量的样本,统计量的分布称为抽样分布。
常见抽样分布类型
正态分布、t分布、F分布、卡方分布等。
中心极限定理内容及应用
中心极限定理内容
当样本量足够大时,无论总体分布如何,样本均值的分布将近似于正态分布。
中心极限定理应用
在统计学中,中心极限定理是推断统计的理论基础,常用于区间估计、假设检验 等。
构造方法
根据样本均值、标准差和样本量,结 合正态分布或t分布的性质,可以构造 出总体均值的置信区间。
比例p置信区间构建方法
二项分布与比例估计
01
当总体服从二项分布时,样本比例是总体比例的一个良好估计
量。
置信区间的构造
02
利用样本比例、样本量和二项分布的性质,可以构造出总体比
例的置信区间。
注意事项
03
配对样本t检验原理及应用
原理
配对样本t检验是通过比较同一组样本在不同条件下的均值差异来检验两个总体均值是否存在显著差 异的方法。其原假设为两个总体均值相等,备择假设为两个总体均值不等或大于/小于另一个总体均 值。
应用
配对样本t检验适用于前后测量、两种处理方法等配对设计的数据分析。例如,在医学领域,可以通过 配对样本t检验来比较同一种药物在不同剂量下的疗效差异;在教育领域,可以通过配对样本t检验来 比较同一种教学方法在不同班级中的教学效果差异。
概率论区间估计(课堂PPT)

14.6,15.1,14.9,14.8,15.2,15.1 (1)试求该天产品的平均直径EX的点估计; (2)若已知方差为0.06,试求该天平均直径EX的置信
区间:=0.05;=0.01。
解 (1)由矩法估计得EX的点估计值为
E ¶ X x 1 1 4 .6 1 5 .1 1 4 .9 1 4 .8 1 5 .2 1 5 .1 1 4 .9 5
由抽取的9个样本,可得 S 0 .1 8x 2 1 .4n 9
由 10.95得 0.05 查表得 t0.025(8)2.306
t2(8)Sn2.3060.1 980.13836
全部口杯的平均重量的置信区间为(21.26,21.54)
11
P127例5与P126例3的比较:
解 由题设可知:平均消费额X~N(,2)
1( X1,X2,…,Xn ), 2( X1,X2,…,Xn ), 使得P{1 << 2}=1- ,则称随机区间( 1 , 2 )为 参数的置信度(或置信水平)为1- 的置信区间。
1——置信下限 2——置信上限
4
几点说明
1、参数的置信水平为1-的置信区间( 1, 2) 表示该区间有100(1-)%的可能性包含总体参 数的真值。
1
区间估计的思想
点估计总是有误差的,但没有衡量偏差程度的量, 区间估计则是按一定的可靠性程度对待估参数给出一个 区间范围。
引例 设某厂生产的灯泡使用寿命X~N(,1002),现 随机抽取5只,测量其寿命如下:1455,1502,1370, 1610,1430,则该厂灯泡的平均使用寿命的点估计值为
x 1 1 4 5 5 1 5 0 2 1 3 7 0 1 6 1 0 1 4 3 0 1 4 7 3 .4
区间:=0.05;=0.01。
解 (1)由矩法估计得EX的点估计值为
E ¶ X x 1 1 4 .6 1 5 .1 1 4 .9 1 4 .8 1 5 .2 1 5 .1 1 4 .9 5
由抽取的9个样本,可得 S 0 .1 8x 2 1 .4n 9
由 10.95得 0.05 查表得 t0.025(8)2.306
t2(8)Sn2.3060.1 980.13836
全部口杯的平均重量的置信区间为(21.26,21.54)
11
P127例5与P126例3的比较:
解 由题设可知:平均消费额X~N(,2)
1( X1,X2,…,Xn ), 2( X1,X2,…,Xn ), 使得P{1 << 2}=1- ,则称随机区间( 1 , 2 )为 参数的置信度(或置信水平)为1- 的置信区间。
1——置信下限 2——置信上限
4
几点说明
1、参数的置信水平为1-的置信区间( 1, 2) 表示该区间有100(1-)%的可能性包含总体参 数的真值。
1
区间估计的思想
点估计总是有误差的,但没有衡量偏差程度的量, 区间估计则是按一定的可靠性程度对待估参数给出一个 区间范围。
引例 设某厂生产的灯泡使用寿命X~N(,1002),现 随机抽取5只,测量其寿命如下:1455,1502,1370, 1610,1430,则该厂灯泡的平均使用寿命的点估计值为
x 1 1 4 5 5 1 5 0 2 1 3 7 0 1 6 1 0 1 4 3 0 1 4 7 3 .4
概率论区间估计PPT课件

2
(n
1)
第23页/共25页
作业 P131 5,7,8,9,14,15*
预习 第10章 1~5节
第24页/共25页
感谢您的观看!
第25页/共25页
(1)方差已知,对均值的区间估计
构造U-统计量,反查标准正态分布表, 确定U的双侧分位数
u 2
得EX的区间估计为
X
u
2
,
n
X u 2
n
第18页/共25页
小结
总体服从正态分布的均值或方差的区间估计 假设置信水平为1- (2)方差未知,对均值的区间估计
构造T-统计量,查t-分布临界值表, 确定T的双侧分位数
5
第1页/共25页
可以认为该种灯泡的使用寿命在1473.4个单位时间左右, 但范围有多大呢?又有多大的可能性在这“左右”呢?
如果要求有95%的把握判断在1473.4左右,则由U统计 量可知
U X ~ N 0,1
n
由
P
X
0.95
n
查表得 1.96
0.95
X 1.96 X 1.96
由 X
构造T-统计量
~ t(n 1)
Sn
T X
Sn
当置信水平为1-时,由
P T t 2(n 1) 1
查t-分布表确定
t 2 (n 1)
从而得的置信水平为1-的置信区间为
X
S n
t
2
(n
1) ,
X
S n
t
2
(n
1)
第9页/共25页
例3 某厂生产的一种塑料口杯的重量X被认为服从正态 分布,今随机抽取9个,测得其重量为(单位:克): 21.1,21.3,21.4,21.5,21.3,21.7,21.4,21.3, 21.6。试用95%的置信度估计全部口杯的平均重量。
3-33区间估计-PPT课件

解:已知X~N(,102),n = 25, 1- = 95%, u1-/2=1.96。根据样本数据计算得: 。由于是正态总体,且方差已知。总 x 105 . 36 体均值 在 1- 置信水平下的置信区间为
xu 1 2
Байду номын сангаас
10 105 .36 1 .96 n 25 105 .36 3 .92 101 .44 ,109 .28
2 2 ( n 1 ) S ( n 1 ) S 2 , 2 ( n 1 ) ( n 1 ) 1 2 2 注:两边开方即得到 的置信区间
( 3 )
(4) 当 已知时, 方差 2 的 置信区间(这种情况在实际中很少 ) 2 n X 2 i ~ (n ) , 由概率 取枢轴量 Q
α(0< α <1),对任意的θΘ,有
ˆ P { } 1 L
则称 ˆ L 是θ 的置信水平为 1- α的(单侧)置信下限.
ˆ ˆ( 定义4: 设 是统计量, 若对给定的 ,..., X ) U UX 1 n
α(0<α<1), 对任意的θΘ, 有
ˆ} P { 1 U
总体方差的区间估计 (例题分析)
【例 3 】一家食品生产企业以生产袋装食品为主,现从 某天生产的一批食品中随机抽取了25袋,测得每袋重量 如下表所示。已知产品重量的分布服从正态分布。以 95%的置信水平建立该种食品重量方差的置信区间 。
解:已知n=25,1-=95% ,根据样本数据计算得 s2 =93.21
投保人平均年龄的置信区间为37.37岁~41.63岁
五. 总体比率的置信区间 (大样本)
• 总体比率 Population Proportion : p ˆ • 样本比率 Sample Proportion: p 如果是大样本,则:
区间估计与统计指数ppt课件

42
第九章 统计指数
【例】计算销售总额的变动并对其进行因素分析。
计 商品 量 名称 单
位
甲米
销售量
基期 报告期
Q0 Q1
1000 2000
价格(元)
基期 报告期
P 0 P1
8
7
乙
公 斤
3000
4000
6
5
丙 个 5000 6000 10
9
合计 — —
—
—
—
销售额(元)
Q 0 P0
8000
Q1 P1
47
二、抽样组织设计
(一)简单随机抽样
简单随机抽样,也称纯随机抽样,它是按照随机 原则直接从总体N个单位中抽取容量为n个单位的样 本。
纯随机抽样的取样方法:
① 直接抽取法 ② 抽签法
③ 随机数表法
可编辑课件PPT
48
(二)分层抽样
分层抽样又叫分类抽样(stratified sampling)或类 型抽样。它是按与调查目的有关的某个主要标志将总体 划分为若干层(或类),然后从各层中按随机原则分别 抽取一定数目的单位构成样本。
第七章 抽样与抽样分布
2013.10.21
可编辑课件PPT
1
内容框架
内容框架
一、抽样分布定理
大样本时总体均值的估计
小样本时总体均值的估计
二、区间估计
大样本时总体均值的区间估计
小样本时总体可编均辑课值件PPT的区间估计
2
回顾:中心极限定理
可编辑课件PPT
3
一、抽样分布定理
可编辑课件PPT
4
可编辑课件PPT
5
一、抽样分布定理
可编辑课件PPT
第四讲区间估计(ppt30).pptx

第四讲
区间估计
1
区间估计
总体均值 总体比例 总体方差
2
联合食品公司的案例
1)所有客户一次购买金额的平均值是多少? (29.4449)
2)所有使用信用卡的客户一次购买金额的平均 值是多少?(40.8768)
3)使用信用卡的客户占的比例是多少?(0.22)
3
我们的估计值离真值有多远?
我们希望通过样本的信息给出一个范围, 使这个范围按足够大的概率包含我们所 感兴趣的参数。
本标准差代替; 3)对进行判断或者猜测:比如全距的1/4作为估计。
为什么用正态分布的/2分位数而不用t分布?
20
样本容量的确定(3)
对于总体比率来说:
(z )2 p(1 p) n 2
E2
如何确定p? 1)类似对的确定方法; 2)使用p=0.5,此时p(1-p)最大,从而高估
样本容量。
21
联合食品公司的例子
E=? P=? n=(1.96)2*0.5*0.5/0.052=384.16385
n=(1.96)2*0.22*0.78/0.052=263.7264
23
总体方差的区间估计
正态总体时, (n 1)s2
2
~
2 (n 1)
24
P{
2 1
/
2
(n
1)
(n 1)s2
2
2 / 2 (n 1) } 1
0.22 1.96 0.22 0.78 /100 0.22 0.081 或者(0.14, 0.30)
问题:是否符合大样本的条件? 进一步的问题:如果嫌精度不够怎麽办?
16
影响区间长度的因素
Data Variation Sample Size n
区间估计
1
区间估计
总体均值 总体比例 总体方差
2
联合食品公司的案例
1)所有客户一次购买金额的平均值是多少? (29.4449)
2)所有使用信用卡的客户一次购买金额的平均 值是多少?(40.8768)
3)使用信用卡的客户占的比例是多少?(0.22)
3
我们的估计值离真值有多远?
我们希望通过样本的信息给出一个范围, 使这个范围按足够大的概率包含我们所 感兴趣的参数。
本标准差代替; 3)对进行判断或者猜测:比如全距的1/4作为估计。
为什么用正态分布的/2分位数而不用t分布?
20
样本容量的确定(3)
对于总体比率来说:
(z )2 p(1 p) n 2
E2
如何确定p? 1)类似对的确定方法; 2)使用p=0.5,此时p(1-p)最大,从而高估
样本容量。
21
联合食品公司的例子
E=? P=? n=(1.96)2*0.5*0.5/0.052=384.16385
n=(1.96)2*0.22*0.78/0.052=263.7264
23
总体方差的区间估计
正态总体时, (n 1)s2
2
~
2 (n 1)
24
P{
2 1
/
2
(n
1)
(n 1)s2
2
2 / 2 (n 1) } 1
0.22 1.96 0.22 0.78 /100 0.22 0.081 或者(0.14, 0.30)
问题:是否符合大样本的条件? 进一步的问题:如果嫌精度不够怎麽办?
16
影响区间长度的因素
Data Variation Sample Size n
最新课件第十一部分区间估计

为了弥补这些不足,我们希望估计出一个范围,并知道 该范围包含真实值的可靠程度.这样的范围通常以区间的形式 给出,同时还要给出该区间包含参数θ真实值的可靠程度.这 种形式的估计称之为区间估计.
第一节 置信区间
对于给定值 (0< <1), 若由样本 (X1, X 2,, X n ) 确定的 统计量 ( X1, X 2,, X n ) , 对于任意 满足
n
n
的 1-置信区 [X-间 kσ,为 Xk: σ]
n
n
第二节 正态总体下的置信区间
单个正态总体N(μ,σ2)的情形
2. σ2未知时
用S*作的估计
1
2
t0
2
t0
得到枢轴函数为 , T n(X S*)~t(n1)
取 kt1-/2(n1), P(T | |k)1
的 1 -置信[X 区 -1 t 2(n 间 1 )S n *,X 为 t1 2(n : 1 )S n *]
二、方差的估计(方差σ2的置信区间)
X1,X2,…,Xn为取自N(μ,σ2)的样本,求σ2的1-α置信区间
1. μ已知时
σ2
1n ni1(Xi
)2是2的点估计, 2 且 n22
~2(n)
因此2是枢轴函数 , 容易找 a到 b使 , 得
P(a2b)1
一 此般 时a 取 对 2的 χ1 α 2 2(-应 n 置 )的 χ ,1 2 b 信 α 2(n区 )[χ1 n 2 σ α 间 (2n,χ n )为 α 2 σ (2n ]):
布. (3)对给定的置信度1 ,根据 G( X1, X 2 ,, X n; )
的分布定出分位点 a 和 b,使得
Pa G( X1, X 2 ,, X n ) b 1
第一节 置信区间
对于给定值 (0< <1), 若由样本 (X1, X 2,, X n ) 确定的 统计量 ( X1, X 2,, X n ) , 对于任意 满足
n
n
的 1-置信区 [X-间 kσ,为 Xk: σ]
n
n
第二节 正态总体下的置信区间
单个正态总体N(μ,σ2)的情形
2. σ2未知时
用S*作的估计
1
2
t0
2
t0
得到枢轴函数为 , T n(X S*)~t(n1)
取 kt1-/2(n1), P(T | |k)1
的 1 -置信[X 区 -1 t 2(n 间 1 )S n *,X 为 t1 2(n : 1 )S n *]
二、方差的估计(方差σ2的置信区间)
X1,X2,…,Xn为取自N(μ,σ2)的样本,求σ2的1-α置信区间
1. μ已知时
σ2
1n ni1(Xi
)2是2的点估计, 2 且 n22
~2(n)
因此2是枢轴函数 , 容易找 a到 b使 , 得
P(a2b)1
一 此般 时a 取 对 2的 χ1 α 2 2(-应 n 置 )的 χ ,1 2 b 信 α 2(n区 )[χ1 n 2 σ α 间 (2n,χ n )为 α 2 σ (2n ]):
布. (3)对给定的置信度1 ,根据 G( X1, X 2 ,, X n; )
的分布定出分位点 a 和 b,使得
Pa G( X1, X 2 ,, X n ) b 1
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
注1: 对参数θ作区间估计,就是要设法找出两个
只依赖于样本的界限(构造统计量) ˆ L 和 ˆU
一旦有了样本,就把θ估计在区间
[ˆL , ˆU ]内 .
注2: 置信水平 1- α 的频率解释: 在很多次的区间
估计的观测值中, 至少有 100 (1- α)% 次包含θ.
置信区间 (95% 的置信区间)
注: (常用点估计)
总体均值 μ 的点估计为 X ;
总体方差σ2 的点估计为 S 2 ; 总体方差σ 的点估计为 S 。
三、单个正态总体的置信区间
求参数 的置信度为 1 的置信区间.
例如: 设 X1,…, Xn 是取自 N(,2) 的样本, 2已知 ,
1、明确问题,是求哪个参数的置信区间? 置信水平是多少?
选择这样的 c, d, 使得两个尾部概率各为α/2, 即:
P ( G c ) P ( G d )/ α 2 ,
这样的置信区间称为等尾置信区间. 这是在G的分布为 偏态分布场合常采用的方法. 如:
p(x)
α/2
2 2
X~2(n )
α/2
(n )
2 1 2
(n)
x
单个正态总体置信区间常用公式 (1) 方差 2已知, 的置信区间
ˆ ˆ ˆ ˆ ( X ,..., X ) ( X ,..., X )
满足
ˆ} P { 1 L U
则称区间 [ˆL , ˆU ] 是θ 的置信水平(置信度)为1- α的置 信区间(confidence interval).
ˆL 和 ˆU 分别称为(双侧)置信下限和置信上限.
点估计值
重复构造出 的 20 个置信区间
注3: 要求θ以很大的可能被包含在区间 [ˆL , ˆU ]
ˆ ) 要尽可能大 .也就是 内,即概率 P ( L U
要求估计尽量可靠.
估计的精度要尽可能的高. 即要求区间长度
ˆU
L
尽可能短.
可靠度与精度是一对矛盾,一般是在保证可靠度 的条件下尽可能提高精度.
置信区间的意义:估计抽样误差
1 95 %
( 置信区间过宽,虽然包含 真值,但抽样误差过大: ( 置信区间也有可 能不覆盖真值: 实际工作时的情形, 只有一次抽样: 置信度高,则结论更可靠 ( )
x
)
x
) )
x x
(
有时在实际中常用的还有单侧置信区间:
ˆ ˆ( ,..., X )是统计量, 若对给定的 定义3: 设 L LX 1 n
2
注1: 满足置信度要求的 c, d 通常不唯一.若有可能, 应选
ˆ L ) 达到最短的 c 与 d , 这在 G 的分 择平均长度 E( U
布为单峰且对称分布通常容易实现.
p(x) 0.95
c c c
d
0.95
x x
d
0.95
0
d
x
c =-d
注2: 实际中, 选平均长度最短的 c, d 很难实现. 因此常
解: 选 的点估计为 X ,
2、寻找未知 参数的一个良 好估计.
3、寻找一个待估参数和样本的函数,要求其 分布为已知.
取 枢 轴 量 G
x
n
~ N(0, 1)
4、对于给定的置信水平, 根据G 的分布,确定一个区间, 使得G 取值于该区间的概率为置信水平.
对给定的置信水平1- α,查正态分布表得 u 1
则称 ˆ U 是θ 的置信水平为1- α的(单侧)置信上限.
思考: 如果一条广告说,某药品的有效率为 80%,其误差为正负3%,你相信这条广告 吗?这条广告的发布者隐瞒了什么信息?
二、置信区间的求法----枢轴量法
在求置信区间时最常用的方法是枢轴量法. 步骤如下:
1、设法构造一个样本和θ的函数 G = G( X1 ,…., Xn ,θ) , 使得 G 的分布为已知(即不依赖于未知参数). 称 G 为枢轴量.
第三节
区间估计
一、置信区间的定义
二、置信区间的求法 — 枢轴量法
三、单个正态总体参数的置信区间 四、大样本置信区间 五、两个正态总体下的置信区间
一、 区间估计的定义
定义1: 设θ是一个待估参数,对给定的α (0<α<1), 若由样本 X1, X2,…, Xn 确定的两个统计量
L L1 n U U1 n
α(0< α <1),对任意的θΘ,有Biblioteka ˆ P { } 1 L
则称 ˆ L 是θ 的置信水平为 1- α的(单侧)置信下限.
ˆ ˆ( 定义4: 设 是统计量, 若对给定的 ,..., X ) U UX 1 n
α(0<α<1), 对任意的θΘ, 有
ˆ} P { 1 U
[ x
u ,x u ] 1 2 1 2 n n
也可简记为
σ [x u1α 2 ] n
注:我们总是希望置信区间尽可能短.
在概率密度为单峰且对称的情形,一般当 c =-d 时 求得的置信区间的长度为最短.
在概率密度不对称的情形,如 分布, F分布,习惯上仍取对称(即等尾)的 分位点来计算未知参数的置信区间.
0.4 0.3 0.2 0.1 -2 u 1
2
,
-1
1
2
u 1 2
2
使
P { |
x | u } 1 1 2 n
5、变形可得 未知参数的置 信区间.
变形为
P { x u x u } 1
n
1 2
n
1 2
于是所求μ的置信度为1-α 的置信区间为
[ xu , xu ]
1 2
n
1 2
n
( 1 )
(2) 方差 2未知 , 的置信区间
S S x t ( n 1 ) ,x t ( n 1 ) 1 1 2 n n 2 ( 2 )
(3) 当 未知时, 方差 2 的置信区间
2、适当地选择两个常数 c、d, 使对给定的α(0< α<1), 有
P ( c G d )1, α
ˆ 3、将 c G d进行不等式变形化为 L
ˆ , 则有 , U
ˆ) P ( 1 L U
最后的
[ˆL , ˆU ]
就是θ 的水平为1- α的置信区间.