第五章 统计估计和假设检验

合集下载

5第五章(二)统计推断概述2假设检验基本原理

5第五章(二)统计推断概述2假设检验基本原理

13:06:12
16
统计结论:
1 检验统计量绝对值 <临界值0.05,则相伴概 率 P>0.05,接受H0 ,差异不显著;
2 临界值0.05<检验统计量绝对值 <临界值0.01, 则相伴概率 0.01<P<0.05,否定H0 ,差异 显著; 3 检验统计量绝对值 >临界值0.01,则相伴概 率 P<0.01,否定H0 ,差异极显著;
(2)相伴概率P:是指在原假设成立时检验统计 量值及所有比它更极端的可能值出现的概率之 和(P---)
13:06:12 15
假设检验的基本步骤
统计结论:
- 差异不显著:在=5%水平下, 检验统计量的观察值落在接受域中, - 差异显著:在=5%水平下,检 验统计量的观察值落在否定域中 - 差异极显著:在=1%水平下, 检验统计量的观察值落在否定域中
Biostatistics and Experimental Design
畜牧、兽医专业
生物统计 附 试验设计
13:06:12
1
统计推断概述内容1小节
一 二 三 四 五 统计推断的概念 抽样分布的概念 统计量的概率分布-抽样分布 正态总体样本平均数的抽样分布 参数估计
13:06:12
2
统计推断概述内容2
13:06:12
18
举例说明
(2)计算检验统计量
Z=
x- m
8.7 - 9 = = - 3.162 2 s n 2.5/ 10
13:06:12
19
(3)确定否定域:
若取 =5%,否定域为Z > 1.96 或 Z < 1.96,临界值U0.05=1.96 ,Z = -3.162 < -1.96,统 计量Z落入否定区,否定H0,相伴概率P<0.05 结论:该场猪的平均背膘厚与9mm差异显著

第5章 统计假设检验(新)

第5章 统计假设检验(新)
样本误差x - μ0=380-360=20,落在( -19.6 , 19.6 )之外、 ( -25.8 , 25.8 )之内,所 以可在5%的差异显著水平上否定H0, 两品种差异达显著水平,新品种显著高于老品 种。得到这一结论的可靠度为95%。
方法3:根据u值直接判断——简化方法。
当 u ≥ 1.96 时,样本误差x - μ一定落在(-1.96σx,1.96σx) 之外, 且P(u) ≤ 0.05,可在5%的差异显著水平上否定H0。 当 u ≥ 2.58 时,样本误差x - μ一定落在 (-2.58σx,2.58σx) 之外, 且P(u) ≤ 0.01,可在1%的差异显著水平上否定H0。 13
4
举例:
1.某地一般小麦品种产量为360kg/mu
引进品种在10个田块种植,平均产量为380kg/mu
问:新品种与原品种在产量上有无本质差异。
2.在同一田块种植小麦,重复5次:
肥料A ,产量500kg/mu 肥料B ,产量520kg/mu
问:肥料B的效果是否比A好?
统计假设:
1.对单个样本平均数与原总体相比较的假设: H0 : μ= μ0 = 360 ; H A : μ ≠μ 0
有一批菠菜,抽16个样品,测得其平均含量378mg/kg 问:这批菠菜是否合格?
分析: 采用左尾检验来检验例1. 采用右尾检验来检验例2.
15
例1: 某氮肥品种的含N量≥为360g/kg为合格产品,标准差σ=40g/kg

有一批产品,抽16个样品,测得其平均含量343g/kg 问:这批产品是否合格?
2.对两个样本平均数相比较的假设: H0 : μ1= μ 2 ; H A : μ 1 ≠μ 2
5
二、差异显著或不显著

统计学第五章课后题及答案解析

统计学第五章课后题及答案解析

第五章一、单项选择题1.抽样推断的目的在于()A.对样本进行全面调查B.了解样本的基本情况C.了解总体的基本情况D.推断总体指标2.在重复抽样条件下纯随机抽样的平均误差取决于()A.样本单位数B.总体方差C.抽样比例D.样本单位数和总体方差3.根据重复抽样的资料,一年级优秀生比重为10%,二年级为20%,若抽样人数相等时,优秀生比重的抽样误差()A.一年级较大B.二年级较大C.误差相同D.无法判断4.用重复抽样的抽样平均误差公式计算不重复抽样的抽样平均误差结果将()A.高估误差B.低估误差C.恰好相等D.高估或低估5.在其他条件不变的情况下,如果允许误差缩小为原来的1/2,则样本容量()A.扩大到原来的2倍B.扩大到原来的4倍C.缩小到原来的1/4D.缩小到原来的1/26.当总体单位不很多且差异较小时宜采用()A.整群抽样B.纯随机抽样C.分层抽样D.等距抽样7.在分层抽样中影响抽样平均误差的方差是()A.层间方差B.层内方差C.总方差D.允许误差二、多项选择题1.抽样推断的特点有()A.建立在随机抽样原则基础上 B.深入研究复杂的专门问题C.用样本指标来推断总体指标 D.抽样误差可以事先计算E.抽样误差可以事先控制2.影响抽样误差的因素有()A.样本容量的大小 B.是有限总体还是无限总体C.总体单位的标志变动度 D.抽样方法E.抽样组织方式3.抽样方法根据取样的方式不同分为()A.重复抽样 B.等距抽样 C.整群抽样D.分层抽样 E.不重复抽样4.抽样推断的优良标准是()A.无偏性 B.同质性 C.一致性D.随机性 E.有效性5.影响必要样本容量的主要因素有()A.总体方差的大小 B.抽样方法C.抽样组织方式 D.允许误差范围大小E.要求的概率保证程度6.参数估计的三项基本要素有()A.估计值 B.极限误差C.估计的优良标准 D.概率保证程度E.显著性水平7.分层抽样中分层的原则是()A.尽量缩小层内方差 B.尽量扩大层内方差C.层量扩大层间方差 D.尽量缩小层间方差E.便于样本单位的抽取三、填空题1.抽样推断和全面调查结合运用,既实现了调查资料的_______性,又保证于调查资料的_______性。

第五章线性回归模型的假设与检验

第五章线性回归模型的假设与检验

⎟⎟⎠⎞
于是
βˆ1 = ( X1′X1)−1 X1′y1 , βˆ2 = ( X 2′ X 2 )−1 X 2′ y2
应用公式(8.1.9),得到残差平方和
和外在因素.那么我们所要做的检验就是考察公司效益指标对诸因素的依赖关系在两个时间 段上是否有了变化,也就是所谓经济结构的变化.又譬如,在生物学研究中,有很多试验花费 时间比较长,而为了保证结论的可靠性,又必须做一定数量的试验.为此,很多试验要分配在 几个试验室同时进行.这时,前面讨论的两批数据就可以看作是来自两个不同试验室的观测 数据,而我们检验的目的是考察两个试验室所得结论有没有差异.类似的例字还可以举出很 多.
而刻画拟合程度的残差平方和之差 RSSH − RSS 应该比较小.反过来,若真正的参数不满足
(5.1.2),则 RSSH − RSS 倾向于比较大.因此,当 RSSH − RSS 比较大时,我们就拒绝假设(5.1.2),
不然就接受它.在统计学上当我们谈到一个量大小时,往往有一个比较标准.对现在的情况,我
们把比较的标准取为 RSS .于是用统计量 (RSSH − RSS) RSS 的大小来决定是接受假设
(5.1.2),还是拒绝(5.1.2). 定理 5.1.1 对于正态线性回归模型(5.1.1)
(a )
RSS
σ2
~
χ2 n− p
(b )
若假设(8.1.2)成立,则 (RSSH
− RSS)
σ2
~
χ2 n− p
得愈好.现在在模型(5.1.1)上附加线性假设(5.1.2),再应用最小二乘法,获得约束最小二乘估计
βˆH = βˆ − ( X ′X )−1 A′( A( X ′X )−1 A′)−1 ( Aβˆ − b)

统计学习题区间估计假设检验..

统计学习题区间估计假设检验..

统计学习题区间估计假设检验..第五章抽样与参数估计一、单项选择题1、某品牌袋装糖果重量的标准是(500±5)克。

为了检验该产品的重量是否符合标准,现从某日生产的这种糖果中随机抽查10袋,测得平均每袋重量为498克。

下列说法中错误的是( B )A、样本容量为10B、抽样误差为2C、样本平均每袋重量是估计量D、498是估计值2、设总体均值为100,总体方差为25,在大样本情况下,无论总体的分布形式如何,样本平均数的分布都服从或近似服从趋近于( D )A、N(100,25)B、N(100,5/n)C、N(100/n,25)D、N(100,25/n)3、在其他条件不变的情况下,要使置信区间的宽度缩小一半,样本量应增加( C )A、一半B、一倍C、三倍D、四倍4、在其他条件不变时,置信度(1–α)越大,则区间估计的( A )A、误差范围越大B、精确度越高C、置信区间越小D、可靠程度越低5、其他条件相同时,要使抽样误差减少1/4,样本量必须增加( C )A、1/4B、4倍C、7/9D、3倍6、在整群抽样中,影响抽样平均误差的一个重要因素是( C )A、总方差B、群内方差C、群间方差D、各群方差平均数7、在等比例分层抽样中,为了缩小抽样误差,在对总体进行分层时,应使( B )尽可能小A、总体层数B、层内方差C、层间方差D、总体方差8、一般说来,使样本单位在总体中分布最不均匀的抽样组织方式是( D )A、简单随机抽样B、分层抽样C、等距抽样D、整群抽样9、为了了解某地区职工的劳动强度和收入状况,并对该地区各行业职工的劳动强度和收入情况进行对比分析,有关部门需要进行一次抽样调查,应该采用( A )A、分层抽样B、简单随机抽样C、等距(系统)抽样D、整群抽样10、某企业最近几批产品的优质品率分别为88%,85%,91%,为了对下一批产品的优质品率进行抽样检验,确定必要的抽样数目时,P应选( A )A、85%B、87.7%C、88%D、90%二、多项选择题1、影响抽样误差大小的因素有( ADE )A、总体各单位标志值的差异程度B、调查人员的素质C 、样本各单位标志值的差异程度D 、抽样组织方式E 、样本容量2、某批产品共计有4000件,为了了解这批产品的质量,从中随机抽取200件进行质量检验,发现其中有30件不合格。

概率论与数理统计第五章统计检验

概率论与数理统计第五章统计检验

第五章统计检验1.学习要求、重点难点本章要求深刻理解统计检验的基本思想,统计检验的基本概念和基本步骤。

重点理解统计检验中常犯的两类错误,小概率原理在统计检验中的应用。

在做参数统计检验的时候合理选择原假设与备择假设。

特别是总体方差已知或者未知的情况下,选择恰当的统计量是统计检验正确与否的关键。

2.内容提要在前一章中,我们介绍了参数估计的方法. 在生产实践和科学研究中,还有另一类重要的统计推断问题——统计检验,又称为假设检验。

其思想有点类似于数学中“反证法”,它是对总体的分布或者参数作出某种假设,然后根据所得样本检验这个假设是否成立。

假设检验根据假设对象不同,分为非参数和参数的假设检验。

非参假设检验针对总体分布假设所做的检验,而参数假设检验是在总体分布已知的情况下,对未知参数假设进行的检验。

本章主要介绍的后者。

后文提到的统计检验(假设检验)如不加说明均指参数的假设检验。

本章要求掌握以下几个基本概念。

(一)统计检验的涵义统计检验是先对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程,是利用样本的实际资料检验事先对总体某些数量特征所做的假设是否可信的一种统计分析方法。

该推理方法有两个重要的特点:(1)用了反证法的思想。

(2)利用小概率事件在一次实验中基本不发生的原理。

(二)原假设与备择假设统计检验是从总体参数所做的一个假设开始的,假设一般包括两个部分:原假设H和备择假设1H。

(1)原假设H研究者想要收集证据予以反对的假设,原假设又称虚无假设或零假设,它常是根据已有的资料,或经过周密考虑后确定的。

一般来说,原假设建立的依据都是已有的、具有稳定性的,从经验看,不会被轻易否定的。

统计检验的目的,就在于作出决策:接受原假设还是拒绝原假设。

(2)备择假设H1研究者想要收集证据予以支持的假设,也称研究假设或者择一假设,即原假设被否定之后应选择的、与原假设逻辑对立的假设。

(三)统计检验中的两类错误如果原假设是正确的,由于样本的随机性,这时我们做出了拒绝原假设的决策,从而犯了错误。

《生统》第五章 假设检验-t检验

表5-4 粤黄鸡饲养试验增重 饲料 A B 8 8 ni 增 重(g) 720、710、735、680、690、705、700、705 680、695、700、715、708、685、698、688
ni
检验步骤:
1、提出无效假设与备择假设 H0:μ1=μ2,HA: μ1 ≠ μ2 2、计算 t 值
表5-2 非配对设计资料的一般形式
处理 1 2 观察值xij x11, x12,… x1j X21, x22,… x2j 样本含量ni n1 n2i 平均数 总体平均数 μ1 μ2
x1 x2
显著性检验的基本步骤:
(一)提出无效假设与备择假设 (二)计算值 计算公式为:
t x1 x 2 S x1 x2
结论:差异极显著
二、配对设计两样本平均数 差异显著性检验
1、自身配对 2、同源配对 配对设计两样本平均数差异显著性检验的基本步骤: (一)提出无效假设与备择假设 (二)计算 t 值
d t Sd
Sd Sd n
d d
n(n 1)
2

d
2
n(n 1)
( d ) 2 / n
检验步骤:
2、计算 t 值
S x1 x2
( x1 x1 ) 2 ( x2 x2 ) 2 ( 1
(n1 1) (n 2 1)
n1

1 ) n2
1、提出无效假设与备择假设
sx1 x2
2 S12 (n1 1) S2 (n2 1) 1 1 (n1 1) n2 1) n1 n2
|t|<t0.05, |t|≥ t0.01 , 则 P>0.05 则 P≤0.01 差异不显著 差异显著 差异极显著 t0.01 ≤|t|< t0.05 ,则 0.01<P≤0.05

医学统计学第七版教材第五章总结

医学统计学第七版教材第五章总结假设检验1.试述假设检验中α与P的联系与区别。

区别:(1)α值是事先确定的一个小的概率值。

为一次检验中,甘愿冒的风险。

(2)P值是在H,成立的条件下,出现当前检验统计量以及更极端状况的概率。

为一次检验中,实际冒的风险。

联系:以t检验为例,P、α都可以用t分布尾部面积大小表示。

Kα时,拒绝H。

假设,差异有统计学意义。

2.试述假设检验与置信区间的联系与区别。

联系:区间估计与假设检验是由样本数据对总体参数做出统计学推断的两种主要方法。

区别:置信区间用于说明量的大小,即推断总体参数的置信范围;假设检验用于推断质的不同,即判断两总体参数是否不等。

3.怎样正确运用单侧检验和双侧检验?需要根据数据的特征及专业知识进行确定。

若比较甲、乙两种方法有无差异,则应选用双侧检验。

若需要区分何者为优,,则应选用单侧检验。

在没有特殊专业知识说明的情况下,一般采用双侧检验即可。

4.试述两类错误的意义及其关系。

(1)Ⅰ类错误:如果检验假设H。

实际是正确的,由样本数据计算获得的检验统计量得出拒绝H。

的结论,此时就犯了错误,统计学上将这种拒绝了正确的零假设H。

(弃真)的错误称为Ⅰ类错误。

I类错误的概率用α表示。

(2)Ⅱ类错误:若检验假设H。

原本不正确(H正确),由样本数据计算获得的检验统计量得出不拒绝H。

(纳伪)的结论,此时就犯了Ⅱ类错误。

Ⅱ类错误的概率用β表示。

5.简述假设检验的基本思想。

假设检验是在局成立的前提下,从样本数据中寻找证据来拒绝H。

、接受H,的一种“反证”方法。

如果从样本数据中得到的证据不足,则只能不拒绝H,暂且认为H,成立,即样本与总体间的差异仅仅是由于抽样误差所引起。

拒绝H。

是根据某个界值,即根据小概率事件确定的。

所谓小概率事件是指如果比检验统计量更极端(即绝对值更大)的概率较小,比如小于等于0.05,则认为零假设的事件在某一次抽样研究中不会发生,此时有充分理由拒绝H。

,即有足够证据推断差异具有统计学意义。

第5章_假设检验


面向21世纪 课程教材
第五章
假设检验
第二节
某研究者估计本市居民家庭电脑拥有率为30%。现随机调查了200个家庭,其 中68家拥有电脑。试问研究估计是否可信?( =10%) 提出假设:原假设:Ho:P=0.3; 备择假设:Ha:p≠0.3
样本比例 P=m/n=68/200=0.34 由于样本容量相当大,因此可近似采用Z检验法 p p0 0.34 0.3 z 1.194 p (1 p ) 0.34 0.66 n 200
面向21世纪 课程教材
第五章
假设检验
第二节
2.方差检验过程 (1)提出原假设Ho和备择假设Ha。
2 H0 : 2 0
2 Ha : 2 0
(2)构造检验统计量:
(n 1) s 2

2
~

2
(n-1)
2 2分布。 在Ho成立的条件下,统计量 服从自由度为n-1的
(3)确定显著性水平。 (4)规定决策规则。 在双侧检验的情况下,拒绝区域在两侧,如果检验统计量大于右侧临界 值,或小于左侧临界值,则拒绝原假设。若是单侧检验,拒绝区域分布 在一侧,具体左侧还是右侧,可根据备择假设Ha的情况而定。 (5)进行判断决策。
面向21世纪 课程教材
第五章
假设检验
第二节
某厂采用自动包装机分装产品,假定每包重量报从正态分 布,每包标准重量为1000克,某日随机抽查9包,测得样本 平均重量为986克,标准差为24克,试问在0.05的检验水平 上,能否认为这天自动包装机工作正常?
;H 根据题意,提出假设: H0 : 1000 1: 1000

面向21世纪 课程教材
第二节 总体均值、比例和 方差的假设检验

假设检验

第五章假设检验本章介绍假设检验的基本概念以及参数检验与非参数检验的主要方法。

通过学习,要求:1.掌握统计检验的基本概念,理解该检验犯两类错误的可能;2.熟练掌握总体均值与总体成数指标的各种检验方法;包括:z 检验、t 检验和p-值检验;4.掌握基本的非参数检验方法,包括:符号检验、秩和检验与游程检验;5.能利用Excel 进行假设检验。

第一节假设检验概述一、假设检验的基本概念假设检验是统计推断的另一种方式,它与区间估计的差别主要在于:区间估计是用给定的大概率推断出总体参数的范围,而假设检验是以小概率为标准,对总体的状况所做出的假设进行判断。

假设检验与区间估计结合起来,构成完整的统计推断内容。

假设检验分为两类:一类是参数假设检验,另一类是非参数假设检验。

本章分别讨论这两类检验方法。

进行假设检验,首先要对总体的分布函数形式或分布的某些参数做出假设,然后再根据样本数据和“小概率原理”,对假设的正确性做出判断。

这种思维方法与数学里的“反证法”很相似,“反证法”先将要证明的结论假设为不正确的,作为进一步推论的条件之一使用,最后推出矛盾的结果,以此否定事先所作的假设。

反证法所认为矛盾的结论,也就是不可能发生的事件,这种事件发生的概率为零,该事件是不能接受的现实。

其实,我们在日常生活中,不仅不肯接受概率为0的事件,而且对小概率事件,也持否定态度。

比如,虽然偶尔也有媒体报导陨石降落的消息,但人们不必担心天空降落的陨石会砸伤自己。

所谓小概率原理,即指概率很小的事件在一次试验中实际上不可能出现。

这种事件称为“实际不可能事件”。

小概率的标准是多大?这并没有绝对的标准,一般我们以一个所谓显著性水平α(0<α<1)作为小概率的界限,α的取值与实际问题的性质有关。

所以,统计检验又称显著性检验。

下面通过一个具体例子说明假设检验是怎样进行的。

【例5-1】消费者协会接到消费者投诉,指控品牌纸包装饮料存在容量不足,有欺骗消费者之嫌。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

63 第五章 统计估计和假设检验 统计学的基本问题就是根据样本所提供的信息对总体的分布以及分布的数字特征作出统计推断。统计推断包括两大部分:一是统计估计,二是假设检验。 统计估计问题就是根据样本的数字特征来估计总体参数的数字特征,因此通常也称作参数估计。参数估计根据所得出结论的方式不同有两种形式:点估计和区间估计。 假设检验就是对关于总体分布的一些数字特征或分布函数所做的假设进行检验,以判断其正确性。假设检验也分为两类:一类是对总体分布的一些数字特征进行检验,称为参数假设检验;另一类是要求根据样本所提供的信息对关于分布函数的假设进行检验,此时只检验分布,而不对参数作检验,这称作非参数的假设检验。非参数检验将在第六章进行讨论,本章着重讨论参数检验。

第一节 点估计

一、点估计的极大似然法

点估计就是以单个数据对总体参数值作出估计。若未知的总体参数为,这时是一个未知的常数。我们根据抽样样本的观察值构造一个统计量(xxxn12,,,)来估计总体参数。由于抽样的随机性,统计量是

一个随机变量。点估计就是将的具体值作为的估计值。显然,这样做必然会有误差产生。这种误差就称为抽样误差。 极大似然法是一种对参数点估计的重要方法之一。我们先用一个例子说明其原理。 例5-1。设有一批产品,质量上分为正品与次品。产品的次品率有两种估计:0.1和0.4,今随机抽样15件产品,发现只有一件是次品。现根据这一抽样情况,来决定用哪一种次品率来估计更为可靠呢? 记 A =“抽取15件产品,只有一件是次品”,设抽得正品用X=0,抽得次品用X=1来表示。 64

抽样结果只有 X=0 与 X=1 两种情形,于是,可得事件 A发生的概率为: P(A)= 其中:是这批产品的次品率。 若次品率=0.1,则P(A)=0914.×0.1=0.0229  若次品率=0.4,则P(A)=0614.×0.4=0.0003。 现在事件A 既然在一次观察中就发生了,直观地我们可以认为事件A发生的概率P(A)不会小,故应选择使P(A)较大的次品率作为产品的次品率的估计更为可靠些。 由于0.0229>0.0003,故应选择0.1作为产品的次品率比选择0.4更可靠些。 把上例推广到一般的情形,我们就可以得到极大似然法的一般原理。设nxxx,,,21

是取

自密度函数为f(x, )的总体的一组样本。其中:x和都为参数,待估计。的极大似然估计的基本思路是,若记A =“一次观察中,所得一组样本的样本值为(nxxx,,,21

)”。现在在一次观察中A发生了,即P(A)应尽可能地大,即应在

所有可能取值的集合中选出一个使P(A)达到最大值的作为 65

的估计值。此时的又称为的极大似然估计值。由于nxxx,,,21

相互独立,且都与X具有相同的分布,由此可以得到,P(A)就相当于事件:

XxXxXxnn1122,,, 同时发生的概率,也就是P(A)=,记为

L()=L(), 于是有: L()= L()称为的似然函数。求极大似然值的问题就是求似然函数L()的最大

值问题,根据微分学的结果,L()取到最大值的必要条件是它对的导数为零。因为ln L()与L()取得极大值的点相同,为计算方便,我们通常就用对数似然方程

来求解最大似然估计值。 在我们上述例子中,f(1, )=,f(0,)=1-,于是得到似然函数:

L()=141511,iixf 66

令ddL=0,舍去ˆ=1,得的最大似然估计值151ˆ=0.067。 实际上,151ˆ正是在15次抽样中得到一次次品的频率,用频率估计概率,当n充分大时无疑是合理的。 例5-2。从一个正态总体中抽取容量为n的样本,求总体参数及2的极大似然估计。 解:构造似然函数



2221exp21inx



2221ln2ln2lnixnnL

为了求和,使ln的极大,令 解上述方程得到:

所以得到和的极大似然估计量为: ,ˆx 2221

ˆ

niSxxn

 67

二、估计量好坏的评选标准 前面讨论了如何利用极大似然法来求参数的估计量。但对于同一个参数可以用不同的方法来求其估计量,于是,在参数估计中就存在怎样选择一个比较好的统计量来推断总体参数的理论问题。那么,什么样的估计量是好的估计量呢。这就有一个如何对估计进行评价的问题。请看下面一个例子。 例5-3。假如某一建设单位购进了一批建筑用的线材,就需要了解这批线材的平均抗拉强度是多少。现在要通过抽样,选择样本的某个函数(统计量)来推断总体指标值。由于随机原因,每次抽取样本的测量结果是不同的。如果样本容量为3,抽取4组样本,测得结果如表5-1所示。 表5-1 一组抽样样本的观察值 样本值 样本顺序 x1 x3 均值

1 900 999 1011 970 2 995 1050 1105 1065 3 1010 941 890 947 4 950 910 1140 1000

为了说明的方便起见,我们假定,实际上μ=1000公斤,当然这在事先是不知道的。我们要求利用样本信息来推断总体指标,并使其误差最小。第一组样本的中位数最接近总体指标,第二组样本是最小值最接近总体指标,第三组样本是最大值最接近总体指标,第四组样本是均值刚好等于总体指标。于是就产生了一个问题,在大量的实验中,究竟采用哪一个指标来推断总体指标更合理呢? 评价点估计的结果通常有无偏性、有效性和一致性等标准。 1. 无偏性 无偏性的含义是个别样本由于随机原因可能偏大或偏小,然而一个好的估计量从平均上看应该等于所估计的那个指标,其直观意义是估计量的值应在参数的真值周围摆动而无系统误差。一般地,无偏性的定义为:设为被估计参数,若有估计量

(nxxx,,,21 ),对一切n,有ˆE=,则称ˆ为的无偏估计量。 若ˆE-=b,则称b为估计量ˆ的偏差。若b≠0,则称ˆ为的有偏估计量。如果0nblin,则称ˆ为的渐近无偏估计量。

不论是重复抽样或不重复抽样,也不论样本容量大小,样本均值及样本比例都是总体均值和总体比例的无偏估计,即PPEXEˆ,,但样本方差2nS并不是总体方差2的无偏估计量。这是因为如果我们把2nS定义为 68

2nS=21xxni,则:

212211xxEnxxnESE

iniin



niixnxxxEn12221





22222222

1121nnnnnnnxnExnExEni



产生偏差的原因是总体方差的无偏估计应该是nxi22,但抽样时由于μ是未知的,因而用估计量x来代替。根据最小平方原理,变量X距样本均值x的离差平方和为最小,因此2xxi就小于2ix,从而用x代替μ计算的方差就低估了2,为了得到2的无偏估计,令 Snxxi2211

这时,由于ES22,Snxxi2211就是2的无偏估计了。

样本方差与2nS之差称为偏差。但当n很大时20n,所以它是渐近无偏差估计。当样本容量很大时,也可以直接用样本方差作为总体方差的估计值。但如样本容量较小时偏差就比较大了。

图5-1 估计的无偏性和有效性 2. 有效性 即使是符合无偏性要求的估计统计量,在抽取个别样本时也会产生误差。为了使误差尽量地小,要求估计量围绕其真值的变动愈小愈好,也就是说要求统计量的离散程度要小,或 69

者说其方差要小。一般地,有效性的定义为:设、是未知参数的两个估计量,若对任意的正常数c,有,则称比有效。有效性反映了估计量分布的集中程度,估计量的分布越是集中在参数真值附近,则其估计效率越高,如图5-1所示。

但是为了方便起见,在实际上有效性可定义为:、是未知参数的两个无偏估计量,若用V(),V()分别表示各自的方差,若V()/V()<1,则称比有效。 例如,对正态总体,利用样本均值x及样本中位数M来估计总体的均值时,均为无偏估计,那末哪一个更有效呢?

均值的抽样分布为x~,Nn2,统计上可以证明中位数的分布为 70

MNnc~,22

,由于。这就说明比有效,

即用样本均值x来估计总体的均值比用中位数来估计总体的均值效率高。换句话说,用中位数来估计总体均值的平均误差要比用样本均值来估计总体均值时的更大。如果用中位数作为估计量要达到与以样本均值作为估计量同样可靠的程度,就要增加样本。设用均值估计的样

本为n1,中位数估计的样本为n2,设其估计效率相等,即方差相等,则21222nn,

由此得到n2=1.57n1,即用中位数估计时要比用样本均值来估计时多抽57%的样本单位。 3. 一致性 这就是要使统计量随样本容量n的增加,不断趋近于总体指标。在n→∞(有限总体n→

N)时,估计值与总体参数完全一致。一般地,点估计的一致性定义如下:设 (nxxx,,,21

)为未知参数的估计量,若依概率收敛于

,则为的一致估计量。 现在来看样本均值这一统计量是否符合一致性的要求。根据切比雪夫等式:

相关文档
最新文档