第五讲-2 参数估计与假设检验

合集下载

第5章参数估计和假设检验

第5章参数估计和假设检验

dp
p
1 p
解得p的最大似然估计值


1 n
n i 1
xi

x
p的最大似然估计量为


1 n
n i 1
Xi

X
已知例2.总体服从参数为λ的普阿松分布,x1 , x2 ,, xn 为 的
一组样本观测值,求参数λ的最大似然估计.
解:X的分布律为:
P{X k} k e , k 0,1
0
0 x ( 0)
x0
今从中抽取了容量为10的一个样本,数
据为:1050、 1100、 1080、 1200、 1300、1250、 1340、
1060、 1150、 1150 ,求参数 的最大似然估计值
解:似然函数为
n
e L( ) exi
n n x
i 1
)

D( X
2
)

2 2n
所以lim P(| X | ) 0 n
即X 是总体均值E(X)= μ的相合估计量.
总体数学期望和方差的点估计
在实际中,常常以样本均值作为总体均值的
点估计,以样本方差作为总体方差的点估计.
期望的点估计
(1)无偏性
X

1 n
n i1
Xi
(2)样本容量越大,估计值 越 有效
验结果出现的可能性最大
(1).若总体X是离散型,其分布律P{X x} p(x; ), 的形式为已知,为待估参数,是可能取值
的范围。
设X1,, X n是来自X的样本;则X1,, X n的联合分布律:
n
p(xi ; )

参数估计与假设检验ppt课件

参数估计与假设检验ppt课件

n
p ( x z
2

2018/10/22
xz 2
) 1 n
n
/2
1-
/2
-z值
0
统计量 临界值
13
5.1.3 点估计量与区间估计
3、区间估计
(3)区间估计的图示
xz 2 x
- 2.58x -1.65 x

x


n

+1.65x
2018/10/22
12
5.1.3 点估计量与区间估计
3、区间估计
(2)置信区间的构造 当总体服从正态分布N(μ,σ2)时(σ2已知),来自该总体 的所有容量为n的样本的均值x也服从正态分布,x 的数 学期望为μ,方差为σ2/n。即x~N(μ,σ2/n)
置信水平
p( x



z )
2
1
1)首先对所要研究的总体进行概率抽样,通过
随机样本获取相关统计量,然后利用这些统计量 与总体参数之间的联系(获得统计量的分布), 利用有关统计方法计算估计量,估计总体参数。 2)由此可以看出,统计量与总体参数、估计量 的不同:总体参数通常是未知的常数,是待估计 的量;统计量是根据样本计算的函数,通常是随 机变量(对于总体而言);估计量是用来对总体 参数进行估计的统计量。
参数估计与假设 检验
统计推断(Statistical inference)
统计推断就是根据随机样本的实际数据, 对总体的数量特征作出具有一定可靠程度的估 计和判断。统计推断的基本内容有参数估计和 假设检验两方面。概括地说,研究一个随机变 量,推断它具有什么样的数量特征,按什么样 的模式来变动,这属于估计理论的内容,而推 测这些随机变量的数量特征和变动模式是否符 合我们事先所作的假设,这属于检验理论的内 容。参数估计和假设检验的共同点是它们都对 总体无知或不很了解,都是利用样本观察值所 提供的信息,对总体的数量特征作出估计和判 断,但两者所要解决问题的着重点及所用方法 有所不同。

概率论第5章 参数估计与假设检验

概率论第5章 参数估计与假设检验

n
da
ln( x1 x2 xn )
a的极大似然估计量


n 1
ln( X1 X 2 X n )
例设总体x 的 概率密度为
l2 xelx , x 0
p( x;l )
0 ,
其它
求未知参数l 的矩估计量和极大似然估计量.

v1 Ex

xp( x)dx
ak

1 n
n i 1
X
k i
解联立方程
用方程组的解ˆi 分别作为 参数 i 的估计量(i 1,2,k),
这个估计量称为矩估计量,
其观察值称为矩估计值.
例1 设总体x 的均值m 和方差s 2均为未知, 又设 X1, X2 ,…, Xn 是一个样本, 求m 和s 2的矩估计量.

v1 Ex m ,
a1

1 n
n i 1
Xi

X
mˆ vˆ1 a1 X ,
总体均值 m 的矩估计量为样本均值X
s 2 v2 v12
sˆ 2

vˆ2
vˆ12
a2
a12

1 n
n i 1
X
2 i

X2
S~2 ,
总体方差s 2 的矩估计量为样本方差S~2
例2 设总体x在[0, ]上服从均匀分布, 其中 ( > 0)未知, (X1, X2, …, Xn)是来自总体 x 的样本, 求 的估计量.
mˆ1, mˆ2 , mˆ3均为m的无偏估计量
Dmˆ1

4
1 25
4s
i 1
l的极大似然估计量 lˆ 2

第五讲参数估计与假设检验

第五讲参数估计与假设检验

33
第二节 假设检验——引言
参数估计可以用于推断某个未知总体参数取值 的可能范围,在实际工作中还会遇到这样的问 题:某种药物中有效成分含量是否符合国家规 定的标准值?两种药物治疗某种疾病的有效率 是否存在差异?某个变量的分布是否服从某种 理论分布等等。要回答这类问题,需要使用统 计推断的另一类重要方法——假设检验 (hypothesis test)来解决。
假设事 件A成 立 推导
中医药统计学与软件应用
曹治清
成都中医药大学管理学院 数学与统计教研室 czq9771@
第5讲 参数估计与假设检验
参数估计
假设检验
正态性检验与数据转换
参数估计的电脑实验
2
第5讲 参数估计与假设检验—引言
在研究医药现象的总体特征时通常采用抽样研 究,即从总体中随机抽取部分观察单位作为样 本进行研究,根据得到的样本信息对未知总体 的分布和数量特征作出以概率形式表述的非确 定性估计和判断,这种研究方法称为统计推断。 统计推断是现代统计学的核心内容,包括两个 重要方面:参数估计和假设检验。
16
第一节 参数估计——均数的抽样误差与标准误
如果抽样来自的总体非正态总体,则样本含量n 较小时,样本均数的分布并非正态分布,而样本 量足够大(n≥50)时,样本均数的分布近似于 正态分布。
17
标准误与标准差的联系和区别
标准差 1. 都是描述变异程度的指标 联 系 意 义 产 生 区 别 应 用 标准误
27
第一节 参数估计——区间估计
计算方法

(1)总体标准差 已知 (2)总体标准差
X Z / 2 X
X Z / 2 X
未知,但样本量足够大时
X Z / 2 S X

参数估计与假设检验(2)

参数估计与假设检验(2)

X

0
数学期望(均值)。
6
因此一个自然的想法就是,用样本均值
X
1 n
n
来X i估计未
i 1
知参数 (即总体的均值),得到未知参数 的一个估计量
为 ,ˆ 1 其X中
X
。1 n n i1
Xi
对于给定的样本值,计算出未知参数 的一个估计值为
ˆ 1
x
1 9
9 i 1
xi
1 (168 9
130
第 5 章 参数估计与假设检验 (§5.1 ~5.5)
统计推断是统计学的重要内容。它大致可以分为两类:估 计问题与假设检验问题。且每类问题又可以分为参数估计与假 设检验和非参数估计与假设检验。本章将介绍参数估计与参数 假设检验的基本知识。
一方面,在一些实际问题中,研究对象的总体分布类型往 往可以从理论或实际经验中得到,而未知的只是分布中的参数。 例如,由中心极限定理和实际经验知道:表示人体身高的随机 变量 X 近似地服从正态分布 N( , 2 ),其中参数 ,2 未知; 表示纺织厂细纱机上的断头次数的随机变量 Y 近似地服从参数 为 的泊松分布 P( ) ,其中参数 未知;……
16
例 5.5 设总体 X 的期望 和方差 2 都存在,( X1 ,X2 )是容
量为
3
2
1 3
X的哪1 样个12本是X,2总说体明期统望计量的最有效1 的 14估X计1 量43 。X 2
,
2
1 2
X1
1 2
X2
解 依题意 EX1 = EX2 = EX = ,DX1 = DX2 = DX = 2 ,且 X1 ,
2
2
5
8
2

参数估计和假设检验

参数估计和假设检验
抽样分布
X
n =16
一般的,当总体服从 N(μ,σ2 )时,来自该总体的容量为n的样本的均值X也服从正态分布,X 的期望为μ,方差为σ2/n。即X~N(μ,σ2/n)。
中央财经大学统计学院*
中心极限定理
f(X)
X
小样本
从均值为,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。
3,4
3,3
3,2
3,1
3
2,4
2,3
2,2
2,1
2
4,4
4,3
4,2
4,1
4
1,4
4
1,3
3
2
1
1,2
1,1
1
第二个观察值
第一个 观察值
所有可能的n = 2 的样本(共16个)
抽样分布的一个演示:重复抽样时样本均值的抽样分布(3)
各样本的均值如下表,并给出样本均值的抽样分布
x
样本均值的抽样分布
比重复抽样时的必要样本量要小。 式中n0是重复抽样时的必要样本容量。
中央财经大学统计学院*
样本量的确定(实例1)
需要多大规模的样本才能在 90% 的置信水平上保证均值的误差在 ± 5 之内? 前期研究表明总体标准差为 45.
n
Z
E
=
=
=

2
2
2
2
2
2
(1
645)
(45)
(5)
219.2
220
.
向上取整
当 时总体比例的置信区间可以使用正态分布来进行区间估计。(样本比例记为 ,总体比例记为π)

统计学--假设检验(第五章)-(1)-2

统计学--假设检验(第五章)-(1)-2

左侧检验:
×
抽样分布
Region of Rejection
拒绝H0
置信水平
1 -
Region of Non rejection
临界值
H0
观察到的样本统计量
【例3】一家研究机构估计,某城市中家庭拥有汽车的比例超 过30%。为验证这一估计是否正确,该研究机构随机抽取 了一个样本进行检验。试陈述用于检验的原假设与备择 假设。
36.6
36.9
36.7
37.2
36.3
37.1
36.7
36.8
37.0
37.0
36.1
37.0
根据样本数据,计算的平均值为36.8oC,标准差为0.36oC 根据参数估计方法,健康成年人平均体温的95%的置信区
间为(36.7,36.9) 研究人员发现这个区间内并没有包括37oC! 因此,提出了“不应该再把37oC作为正常人体温的一个有
解:研究者抽检的意图是倾向于证实这种洗涤剂的平均
净含量并不符合说明书中的陈述。
建立的原假设和备择假设为:
H0 : 500 H1 : < 500
<提出假设>
【例3】一家研究机构估计,某城市中家庭拥有汽车的比例超 过30%。为验证这一估计是否正确,该研究机构随机抽取 了一个样本进行检验。试陈述用于检验的原假设与备择 假设。
传统上,做出决策所依据的是样本统 计量,现代检验中人们直接使用由统计量
算出的犯第一类错误的概率,即所谓的P
值。
注:假设检验不能证明原假设正确。
① 假设检验只提供不利于原假设的证据。当拒绝原假设时, 表明样本提供的证据证明它是错误的;当没有拒绝原假设时 ,我们也不说“接受原假设”,因为没法证明原假设是正确 的

第五章参数估计和假设检验PPT课件

第五章参数估计和假设检验PPT课件

抽样
X ~ N(, 2)
n,S2
则 (n 1)S 2 / 2 ~ 2 (n 1)
当 n 30, 2分布趋近于正态分布
若X ~ x2 (n 1) 则 Z 2 2 2(n 1)
两个样本方差之比的抽样分布
从两个正态总体中分别独立抽样所得到的两个样本方 差之比的抽样分布。
抽样
X1
~
N
(
1
,
2 1
极大似然估计是根据样本的似然函数对总体参数进行 估计的一种方法 。
其实质就是根据样本观测值发生的可能性达到最大这 一原则来选取未知参数的估计量θ,其理论依据就是 概率最大的事件最可能出现。
区间估计
估计未知参数所在的可能的区间。 P(ˆL<<ˆU ) 1
评价准则
一般形式
置信度 精确度
(ˆ △)<<(ˆ △) 或 ˆ △
2
2
2
n
Z
2
2
Pq

2 pˆ
Z
2
PqN
n
2
N

2 pˆ
Z
2
Pq
2
假设检验
基本思想 检验规则 检验步骤 常见的假设检验 方差分析
基本思想
•小概率原理:如果对总体的某种假设是真实的,那么不利于 或不能支持这一假设的事件A(小概率事件) 在一次试验中几乎不可能发生的;要是在一次 试验中A竟然发生了,就有理由怀疑该假设的 真实性,拒绝这一假设。
参数的区间估计
待估计参数
已知条件
置信区间 ˆ △
总体均值 (μ)
正态总体,σ2已知 正态总体,σ2未知
非正态总体,n≥30
X Z / n
2
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

5.假设检验的基本思想
•反证法 根据研究目的建立假设H0,先假设H0是正确 的,再分析样本提供的信息是否支持H0,即在H0成立 的条件下计算检验统计量,查表获得相应P值。如果H1 成立,P值就小。当P小于或等于预先给定的概率0.05, 则为小概率事件。小概率事件在一次抽样中发生的可能 性很小,如果它发生了,则有理由怀疑原假设可能不成 立,认为它的对立面成立。所以,查表得到的P值小于 0.05,则H1成立。 •小概率事件原理 小概率事件(P≤0.05)在一次抽样中发 生的可能性很小,如果它发生了,则有理由怀疑H0的 正确性,认为H1成立。。
1
P
t / 2,
t
t / 2,
若P , 按所取检验水准 , 拒绝 H 0 , 接受 H1 ,下“有差别”的结论。其统计学依 据是,在 H 0 成立的条件下,得到现有检验结 果的概率小于 ,因为小概率事件不可能在 一次试验中发生,所以拒绝 H 0 。
7. I型错误和II型错误-补充
拒绝原假设。 • 常取 = 0.05或0.01。可根据不同研究目
的给予不同设置。
4.假设检验的基本概念
• 1.6单侧检验、双侧检验和临界值 单侧检验:检验统计量是一维的,拒绝域是小于(或大于)某 给定数的所有数值的集合。若从专业上看一种方法结果不可 能低于或高于另一种方法结果,此时应该用单侧检验。如静 电除尘效率高于布袋除尘效率。H1只含有大于号或小于号, 采用单侧检验。 双侧检验:检验统计量是一维的,拒绝域是小于第一个给定数 而大于第二个给定数的所有数值的集合。H1同时含有大于号 和小于号,采用双侧检验。如H1为μ1≠μ2,则H0为μ1>μ2或 μ1<μ2。双侧检验较保守和稳妥,一般采用。 临界值:作为上述拒绝域界限的给定数。
4.假设检验的基本概念
• 4.3参数检验和非参数检验
• 检验统计量的分布函数依赖于观测值的分布函数的类型, 称为参数检验。
• 反之称非参数检验。 • • • • 参数检验:正态分布和方差齐性。 非参数检验:不满足。 一元分析的参数法有:u检验,t检验,方差分析, 一元分析的非参数方法有:符号检验,符号秩检验, Wilcoxon秩和检验,Manny-Whitney检验,KruskalWallis检验,Friedman检验。
2、总体均数可信区间的计算
(2)总体方差未知且样本容量较小,按t分布
双侧 单侧
s s , x t / 2,v x t / 2,v n n
X t , SX X t , SX
对于非正态总体,只要样本足够大, 仍可按上式计算置信区间
பைடு நூலகம்
2、总体均数可信区间的计算
2、总体均数可信区间的计算
2.2 两总体均数之差的1–α可信区间
从总体标准差相等,总体均数不等的两个正态总体进行随 机抽样,若两样本的样本含量、均数、标准差分别用
n1、 X1、S1和n2、 X2、S2 表示,则两总体均数之差的双侧1-α可信
区间为
双侧
( X1 X 2 ) t / 2 , S X 1 X 2
•什么是置信度? •什么是显著性水平?
在实际工作中,只能根据一次试验结果计
算一个可信区间,就认为该区间包含了相应 总体参数,该结论犯错误的概率≤ 。
可信区间一旦形成,它要么包含总体参数,
要么不包含总体参数,二者必居其一,无概 率可言。可信度是事前概率。
评价可信区间估计的优劣:
正确性:可信度1,即区间包含总体参数
P≤,按检验水准,拒绝H0,接受H1;P>,按检验水准,不拒绝H0,无统计学意 义(统计结论),不拒绝H0不等于接受H0。
按所取检验水准 0.05, 则拒绝H0,接受H1,差异有统计学意义(统 计结论),可以认为矿区新生儿的头围均数与一般新生儿不同,矿 区新生儿的头围小于一般新生儿。
若P ,不拒绝H0,但不能下“无差别”或“相等”的 结论,只能下“根据目前试验结果,尚不能认为有差别” 的结论。
例,通过以往大规模调查,已知某地一般新生儿的 头围均数为 34.50cm,标准差为 1.99cm。为研究某矿 区新生儿的发育状况,现从该地某矿区随机抽取新 生儿55人,测得其头围均数为 33.89cm,问该矿区新 生儿的头围总体均数与一般新生儿头围总体均数是 否不同?
6.假设检验的基本步骤
6.1建立检验假设,确立检验方法
8 8.4
9
10
11
肝大指数
正常儿头围与矿区儿头围均数 (所拟合的两个正态曲线各按100%面积绘制)
大,小;大,小。增加n可同时缩小,。
可取单尾亦可取双尾。
II型错误的概率大小用表示, 只取单尾,
值的大小一般未知,须在知道两总体差值 (如12等)、及n 时,才能算出。 1称检验效能(power of a test),过去称把 握度。为当两总体确有差异,按检验水准 所能发现该差异的能力。1只取单尾。 拒绝H0,只可能犯I型错误,不可能犯II型 错误;不拒绝H0,只可能犯II型错误,不 可能犯I型错误。
4.假设检验的基本概念
4.4拒绝域 所使用的统计量可能取值的集合的某个子集合。如果根 据观测值得出的统计量的数值属于这个集合,拒绝原假 设,否则接受原假设。
双尾检验时,拒绝域的两侧边界是检验统计量的临界值。
1
P
t /2,
t
t /2,
4.假设检验的基本概念
• 1.5检验水准 • 称显著性水准,是预先规定的概率值,它 确定了小概率事件的标准。 • 当原假设正确时,检验水平是检验统计量 落入拒绝域的概率,而被拒绝的概率的最 大值,记为。也就是一旦检验水平,就
预先给定的概率(1)称为置信度,常取95%或99%。
置信区间通常由两个数值构成,称可信限(confidence limit, CL)
可信下限(L)
μ
可信上限(U)
(θ1,θ2)是参数θ的置信区间,是一个范围;α为显著性 水平,一般为5%;
•(1-α)表明判断总体参数落在置信区间的可信程度, 由全部样本指标所确定的所有置信区间中平均有95%的 估计区间包括了总体参数θ,另外有5%的区间没有包括 总体参数θ。
两均数之差的标准误
自由度v=(n1-1)+(n2-1)=n1+n2-2
单侧 (1 2 ) ( X1 X 2 ) t , S X1 X 2
( 1 2 ) ( X1 X 2 ) t , S X 1 X 2
3.参考值范围
• 参考值范围指正常值范围。由于存在个体差异,环 境数据并非常在一定范围内波动,故采用环境参考 值范围作为判定正常与异常的参考标准。 • 通常采用双侧参考值范围制定下侧和上侧值。 • 通常使用的环境参考值范围有90%,95%和99%,常 用的是95%。
双侧-方差未知
a为风险系数
表示区间以95%(a=0.05)的可靠性包含总体,实际均值不在该区间的可能性为0.05
n n S S , x u / 2 x u / 2 n n
单侧-方差已知 单侧-方差未知
X u , X 或 X u , S X X u , X 或 X u , S X
有一个 。 参考值范围用于估计个体值的分布范围, 个体值有很多 。
95%可信区间中的95%是可信度,即所求可
信区间包含总体参数的可信程度为95%。 95%参考值范围中的95%是一个比例,即 所求参考值范围包含了95%的正常值。
4.假设检验的基本概念
4.1假设检验(hypothesis testing) 又称显著性检验。通常先对总体的参数或分布 作出某种假设,然后用适当的方法根据样本对 总体提供的信息,推断此假设应当被拒绝或接 受。 经常被用来比较不同处理所产生的效应之间的 差别是否具有统计学意义。
• 可能发生的两类错误
假设检验的结果 拒绝H0 不拒绝H0 I型错误() 推断正确(1) 推断正确(1) II型错误()
客观实际 H0成立 H0不成立即H1成立
第二类错误 =漏诊率 (假阴性率)
正常儿头围 H0 矿区儿头围 H1
第一类错误 =误诊率 (假阳性率)
4
5
6 6.1 7.0
为单样本t检验
t (33.89 34.50) /(1.99 / 55) 2.273
6.假设检验的基本步骤
6.5 计算与统计量对应的P值,做出推断
P值是决策的依据。 P值的定义:在零假设成立的条件下,出现统计量目前值及更不利 于零假设数值的概率。 根据计算得到的统计量,查临界值表即可得到相应的P概率值。 本例:V=54,查t临界值表,得到0.005<P<0.01,得到P<0.05, 根据获得的事后概率P,与事先规定的概率—检验水准进行比较, 看其是否为小概率事件而得出结论。
3、参考值范围
• 偏态分布法
• 样本量足够大,通常大于100 • 双侧,1-a参考值范围: P
即P2.5-P97.5之间的值
100 / 2
~P 100 100 / 2
P • 单侧,1-a参考值范围: P 100 或 100100
3、可信区间与参考值范围的区别
可信区间用于估计总体参数,总体参数只
假设样本来自某一特定总体,无效假设和备择假设。据资料类型, 确定要使用的检验方法。H0:μ=34.50,H1:μ≠34.50
6.2单双侧检验的确定
根据专业知识和所要解决的问题。通常选择双侧检验。
6.3确立检验水准
根据需要,确定 =0.05或0.01。此处为0.05.
6.4计算检验统计量
根据变量和资料类型、设计方案、统计推断的目的、是否满足特定 条件等(如数据的分布类型)选择相应的检验统计量。计算样本与 总体的偏离程度. 所有检验统计量都是在H0成立条件下计算来的。 有的检验不需要计算统计量,而直接计算P值。
相关文档
最新文档