第4章 参数估计
教育与心理统计学 第四章 抽样理论与参数估计考研笔记-精品

第四章抽样理论与参数估计第一节抽样理论的基本知识分层抽样,又叫分层随机抽样,这种抽样方法是按照总体已有的某些特征,承认总体中已有的差异,按差异将总体分为几个不同的部分,每一部分称为一个层,在每一个层中实行简单随机抽样。
它充分利用了总体的已知信息,因而是一种非常适用的抽样方法,其样本代表性及推论的精确性一般优于简单随机抽样。
分层的原则是层与层之间的变异越大越好,各层内的变异要小。
试述分层抽样的原则和方法?分层抽样是按照总体上已有的某些特征,将总体分成几个不同部分,在分别在每一部分中随机抽样。
分层的总的原则是:各层内的变异要小,而层与层之间的变异越大越好。
在具体操作中,没有一成不变的标准,研究人员可根据研究需要依照多个分层标准,视具体情况而定。
⑷两阶段随机抽样两阶段随机抽样首先将总体分成M个部分,每一部分叫做一个"集团"(或"群"),第一步从M个集团中随机抽取m个"集团”作为第一阶段样本,第二步是分别从所选取的m个"集团”中抽取个体(g构成第二阶段样本。
一般而言,两阶段抽样相对于简单随机抽样,标准误要大些,但是,两阶段抽样简便易行,节省经草贼,因而它是大规模调查研究中常被使用的抽样方法。
例如,如果我们要了解全国城市初中二年级学生的身高,第一步我们可以从全国几百个城市中随机抽取几十个城市作为第一阶段的样本。
第二步,在第一阶段随机抽取出来的城市中再随机抽取初中二年级的学生。
(二)非旃抽样非概率抽样不是完全按随机原则选取样本,有方便抽样、判断抽样。
方便抽样是由调查人员自由、方便地选择被调查者的非随机选样。
判断抽样是通过某些条件过滤,然后选择某些被调查者参与调查的抽样法。
当采取非概率抽样的方法选取样本时,研究者要说明采用此种方取样的原因以及对研究结果可能造成的影响。
第二节抽样分布[统计量分布、基本随机变量函数的分布]总体:又称母全体、全域,指具有某种特征的一类事物的全体。
第四章中心极限定理与参数估计

当 n 很大时,近似地服从正态分布.
第四章 中心极限定理与参数估计
例 1、对敌人的防御工事进行 80 次轰炸,每次轰炸命中目标炸弹 数目的数学期望为 2,方差为 0.8,且各次轰炸相互独立,求在 80 次轰炸中有 150 颗~170 颗炸弹命中目标的概率。 解:第 i 次轰炸命中目标炸弹的数目 X i (i 1,2,,80) 都是离散型随机
根据随机变量数学期望的性质,计算数学期望
80
80
80
E( X ) E( X i ) E( X i ) 2 160
i 1
i 1
i 1
第四章 中心极限定理与参数估计
由于离散型随机变量变量 X 1 , X 2 ,, X 80 相互独立,根据随机
变量方差的性质,计算方差
80
80
80
D( X ) D( X i ) D( X i ) 0.8 64 82
分大时,离散型随机变量 X 近似服从参数为 np, npq ( p q 1)
的正态分布,即近似有离散型随机变量 X ~ N(np, npq) 定理4.22表明:
正态分布是二项分布的极限分布, 当n充分大时, 可 以利用该定理来计算二项分布的概率.
随机变量 X 的取值在数学期望 E(X ) 附近的密集程度越低。
第四章 中心极限定理与参数估计
(3)在使用切贝谢夫不等式时,要求随机变量 X 的数学期望 E( X ) 与方差 D( X ) 一定存在,这时无论随机变量 X 的概率分布已知或未
知,都可以对事件 X E(X ) 发生的概率进行估计。 2、切贝谢夫不等式的应用举例 例1、 已知电站供电网有电灯 10000 盏,夜间每一盏灯开灯的概率 皆为 0.8,且它们开关与否相互独立,试利用切贝谢夫不等式估计夜 晚同时开灯的灯数在 7800 盏~8200 盏之间的概率。
参数估计的一般步骤

参数估计的一般步骤引言:参数估计是统计学中一项重要的任务,它用于根据样本数据来推断总体参数的值。
参数估计的一般步骤包括确定估计方法、选择样本、计算估计值和进行推断。
本文将详细介绍参数估计的一般步骤,并以人类的视角进行描述,使读者更好地理解和应用这些步骤。
一、确定估计方法在参数估计中,首先需要确定合适的估计方法。
估计方法可以分为点估计和区间估计两种。
点估计方法通过单个数值来估计参数的值,例如最大似然估计和矩估计。
区间估计方法则通过一个区间来估计参数的范围,例如置信区间估计。
选择合适的估计方法是参数估计的第一步。
二、选择样本在确定了估计方法后,接下来需要选择合适的样本进行参数估计。
样本应当具有代表性,能够反映总体的特征。
为了保证样本的代表性,可以使用随机抽样方法来选择样本。
通过合理选择样本,可以减小估计误差,提高参数估计的准确性。
三、计算估计值在选择好样本后,需要计算参数的估计值。
对于点估计方法,可以使用最大似然估计或矩估计等方法来计算参数的估计值。
对于区间估计方法,可以使用置信区间估计来计算参数的范围。
计算估计值时,需要根据样本数据和估计方法进行相应的计算,确保估计结果的准确性。
四、进行推断在计算得到估计值后,需要进行推断,即根据估计值对总体参数进行推断。
对于点估计方法,可以直接使用估计值作为总体参数的估计值。
对于区间估计方法,可以使用置信区间来表示总体参数的范围。
通过推断可以了解总体参数的可能取值范围,帮助做出正确的决策和预测。
总结:参数估计的一般步骤包括确定估计方法、选择样本、计算估计值和进行推断。
在进行参数估计时,需要选择合适的估计方法和样本,计算出估计值,并进行相应的推断。
参数估计在统计学中扮演着重要的角色,它帮助我们根据样本数据来推断总体参数的值,从而更好地了解和应用统计学。
通过本文的介绍,希望读者能够更好地理解和应用参数估计的一般步骤。
第四章 参数估计

x
n
总体标准差,若 未知,可用样本
标准差代替
36
总体均值的置信区间引例
(2 未知)
例:某商场从一批袋装食品中随机抽取10袋,测得 每袋重量(单位:克)分别为789,780,794, 762,802,813,770,785,810,806,要 求以95%的把握程度,估计这批食品的平均每袋 重量的区间范围。假定食品重量服从正态分布。
0.95,Z/2=1.96
x Z 2
n
,
x
Z
2
n
26 1.96 6 ,26 1.96 6
100
100
24.824,27.176
我们可以95%的概率保证平均每天 参加锻炼的时间在24.824~ 27.176 分钟之间。
一般置信水平
一般使用的置信水平是:90%, 95%, 99%
Confidence Level
▪ 总体服从正态分布,且总体方差(2)已知 ▪ 如果不是正态分布,可以由正态分布来近似 (n 30)
2. 使用正态分布统计量Z
Z
x s
m ~ N (0,1)
n
3. 总体均值 在1-置信水平下的置信区间为
s
s
x
Za 2
,x n
Za 2 n
总体均值的置信区间
(2 已知)
抽样极限误差:
s x Za 2 n
❖ 定理1
当总体 X ~ N ( m , s 2 ) 时,抽自该总体
的简单随机样本 x1 , x 2 , , x n 的样本平均数
服从数学期望为 ,方差为 s2的正态分布,
n
即 x ~ N (m, s2 ) 。
n
Z x ~ N (0,1) n
参数估计

(2)再用样本k阶矩代替相应的总体k阶矩
上一页
下一页
返回
设 总 体X ~ N ( , 2 ), , 2 未 知 , 设 例1: ( X 1 , X 2 ,..., X n )为 来 自 总 体 的 样 本 , 求 X 与 2的 矩 估 计 量 。
解:先建立待估参数与总体矩的关系
维随机变量,样本的联合概率密度为:
f ( x1 , x2 ,, xn ) f X 1 ( x1 ) f X 2 ( x2 ) f X n ( xn )
f ( x1 , ) f ( x2 , ) f ( xn , ) f ( xi , )
i 1
n
显然上式也为θ的函数,记作 L( ),即
L( ) f ( xi , )
i 1 n
我们称 L( ) 为似然函数。
小结:
似然函数
n p( x i ; ) i 1 L( ) n f ( x i ; ) i 1
由上可知,求极大似然估计值就是求使 L( ) 取最大的θ值。 下面我们用例子来说明求解极大似然估计值的步骤。
6
3
[ x dx x dx]
2 3 0 0
2
用样本k阶矩代替相应的总体k阶矩,得θ的矩估计量:
ˆ 2X
2)将数据代入,得θ的矩估计值为:
ˆ 2x 2 1 xi 8.9 8 i 1
8
计 算 器 的 使 用
例3:设总体X在区间[a,b]上服从均匀分布, a , b
实为 发生的概率。
根据极大似然原理,
概率大的事件在一次观测中更容易发生。
现在只做一次抽样, 事件 { X 1 x1 , X 2 x2 ,, X n xn } 故 认为其概率较大。 认为其概率较大。 也即我们应选择 使 L( ) 取最大值。 我们把使 L( ) 取最大值的 值称为 的极大 竟然发生了,
(04)第4章 参数估计

(2)99%的置信区间是多少?
(3)若样本容量为40,而观测的数据不变,则 95%的置信区间又是多少?
5 - 31
统计学
STATISTICS
总体均值的区间估计
(例题分析)
12, s 4.1
解:(1)已知n=15, 1- = 95%, =0.05 ,x
统计学
STATISTICS
总体均值的区间估计
统计学
STATISTICS
大样本的估计方法
不论总体是不是服从正态分布,在大样本 (n 30)时,样本均值均服从正态分布。 若已知 2 x
x ~ N ( ,
总体均值 在1- 置信水平下的置信区间为
n
)
z
n
~ N (0,1)
z 2
有效性:对同一总体参数的两个无偏点估计量, 有更小标准差的估计量更有效
ˆ P( )
ˆ1 的抽样分布
B A
ˆ2 的抽样分布
ˆ
5 - 11
ˆ ˆ1 是比 2 更有效,是一个更好的估计量
统计学
STATISTICS
有效性
(efficiency)
x1 x2 x3 样本均值 x 3 x1 2 x2 3x3 和 x1 6
统计学
STATISTICS
第 4 章 参数估计
4.1 参数估计的基本原理 4.2 一个总体参数的区间估计 4.4 样本容量的确定
5-1
统计学
STATISTICS
4.1 参数估计的一般问题
4.1.1 估计量与估计值 4.1.2 点估计与区间估计 4.1.3 评价估计量的标准
统计学(第三版)课后答案 袁卫等主编

统计学第一章1.什么是统计学?怎样理解统计学与统计数据的关系?答:统计学是一门收集、整理、显示和分析统计数据的科学。
统计学与统计数据存在密切关系,统计学阐述的统计方法来源于对统计数据的研究,目的也在于对统计数据的研究,离开了统计数据,统计方法以致于统计学就失去了其存在意义。
2.简要说明统计数据的来源答:统计数据来源于两个方面:直接的数据:源于直接组织的调查、观察和科学实验,在社会经济管理领域,主要通过统计调查方式来获得,如普查和抽样调查。
间接的数据:从报纸、图书杂志、统计年鉴、网络等渠道获得。
3.简要说明抽样误差和非抽样误差答:统计调查误差可分为非抽样误差和抽样误差。
非抽样误差是由于调查过程中各环节工作失误造成的,从理论上看,这类误差是可以避免的。
抽样误差是利用样本推断总体时所产生的误差,它是不可避免的,但可以控制的。
4.答:(1)有两个总体:A品牌所有产品、B品牌所有产品(2)变量:口味(如可用10分制表示)(3)匹配样本:从两品牌产品中各抽取1000瓶,由1000名消费者分别打分,形成匹配样本。
(4)从匹配样本的观察值中推断两品牌口味的相对好坏。
第二章、统计数据的描述思考题1描述次数分配表的编制过程答:分二个步骤:(1)按照统计研究的目的,将数据按分组标志进行分组。
按品质标志进行分组时,可将其每个具体的表现作为一个组,或者几个表现合并成一个组,这取决于分组的粗细。
按数量标志进行分组,可分为单项式分组与组距式分组单项式分组将每个变量值作为一个组;组距式分组将变量的取值范围(区间)作为一个组。
统计分组应遵循“不重不漏”原则(2)将数据分配到各个组,统计各组的次数,编制次数分配表。
2.解释洛伦兹曲线及其用途答:洛伦兹曲线是20世纪初美国经济学家、统计学家洛伦兹根据意大利经济学家帕累托提出的收入分配公式绘制成的描述收入和财富分配性质的曲线。
洛伦兹曲线可以观察、分析国家和地区收入分配的平均程度。
3. 一组数据的分布特征可以从哪几个方面进行测度?答:数据分布特征一般可从集中趋势、离散程度、偏态和峰度几方面来测度。
参数估计的一般步骤

参数估计的一般步骤
参数估计是统计学中的一种方法,用于根据样本数据估计总体参数的值。
它是一个重要的统计推断技术,可以帮助我们了解和描述总体的特征。
参数估计的一般步骤如下:
1. 确定研究对象和目标参数:首先,我们需要明确研究对象是什么,需要估计的是哪个参数。
例如,我们可能希望估计某个产品的平均寿命,那么研究对象是产品,目标参数是平均寿命。
2. 收集样本数据:为了进行参数估计,我们需要收集一定数量的样本数据。
样本应该能够代表总体,并且必须是随机选择的,以避免抽样偏差。
3. 选择合适的估计方法:根据研究对象和目标参数的不同,我们可以选择不同的估计方法。
常见的估计方法包括点估计和区间估计。
点估计给出一个单一的数值作为参数的估计值,而区间估计给出一个范围,以表明参数估计值的不确定性。
4. 计算估计值:根据选择的估计方法,我们可以使用样本数据计算出参数的估计值。
例如,对于平均寿命的估计,我们可以计算样本的平均值作为总体平均寿命的估计值。
5. 评估估计的准确性:估计值的准确性可以通过计算估计的标准误
差或置信区间来评估。
标准误差反映了估计值与真实参数值之间的差异,而置信区间提供了参数估计值的不确定性范围。
6. 解释和应用估计结果:最后,我们需要解释估计结果并应用于实际问题中。
根据估计结果,我们可以得出结论,做出决策或提出建议。
参数估计是一种重要的统计推断方法,可以帮助我们了解总体特征并做出准确的推断。
通过正确的步骤和方法,我们可以获得可靠的参数估计结果,并将其应用于实际问题中。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
取8人。假设两种方法组装时间符合正态 分布,方差不相等。以95%的置信水平 建立置信区间
28.3 30.1
… 30
27.6
… 26.5
(x1 32.5 s12 15.996 x2 28.8
( s12
s
2 2
)2
v
n1 n2
13.188
(s12
/ n1 )2
(
s
2 2
/ n2 )2
样本量太小,精度太低,极限误差太大
满足精度或误差范围内,样本量越小越好, 即必要样本量,最小样本量 方法是反推
允许误差用E表示
E z
2
E z
2
z2 2
2
n 2
n
E2
(1 )
n
z2 (1 )
n
2 E2
拥有工商管理学士学位的大学毕业生年薪的 标准差大约为2000,置信水平为0.95,允 许误差为400,事先估算应抽取多大样本
5.82 7.22 46 33
1 2 (86 78) 1.96
5.82 7.22 46 33
5.03 1 2 10.97
小样本:方差未知但相等
方差未知,就需要事先估计 总体方差的合并估计量
s
2 p
(n1
1)s12 (n2 1)s22 n1 n2 2
/ n2 )2
n1 1
n2 1
再根据分布推导(x1 x2) t (v) 2
s12 n1
s22 n2
1 2
(x1 x2 ) t (v) 2
s12 s22 n1 n2
为估计两种方法对组装产品时间的差异, 第一种方法抽取12工人,第二种方法抽 方法1 方法2
正态总体方差已知
x ~ N(, 2 )
n
x
z
~
N (0,1)
抽样误差标准差
n
n
x z
2
n
x
z
2
n
z
2
抽样允许误差(极限误差、误差范围)
n
x z
2
n
置信下限x
z
2
置信上限
n
一家食品生产企业以生产袋装食品为主,每天的产量大
约为8000袋左右,按规定每袋的重量应为100克。现 进行抽检,按重复抽样随机抽取25袋,如表,已知产品 重量服从正态分布,总体标准差为10克。估计该天产品 平均重量的置信区间,置信水平为95%
计算、背诵
理解
95%的区间包含参数,5%的区间不包 含参数
抽取一个样本 构造的特定区间 无法知道此区间是否包含参数
此概率不是用来描述特定区间包含参数的可 能性的
可以知道在多次抽样得到的区间中有多少个 区间包含了参数
评价估计量的标准
无偏 有效 一致
4.2 一个总体参数的区间估计
正态总体方差已知 正态总体方差未知大样本 正态总体方差未知小样本
x z
2
s n
x
z
2
s n
一家保险公司收集由36位投保人组成的随机样本,投保人 年龄如下。估计投保人年龄90%的置信区间
23 36
…
…
…
…
42
34 39
…
…
…
50 32
方差未知小样本
方差未知则用样本标准差代替总体标准差 小样本则用t分布代替正态分布
x t
2
s n
x t
n1
n2
( p1 p2 ) z
2
p1 (1 n1
p1 )
p2 (1 n2
p2 )
1
2
( p1
p2 )
z
2
p1(1 p1) p2 (1 p2 )
n1
n2
某电视节目收视率调查中,在农村随机调查400 人,有32%收看了该节目;在城市随机调查 500人,有45%收看了该节目。以95%的置信 水平估计城市与农村收视率差的置信区间。
麦当劳餐馆在7星期内抽取49名顾客的消费额 (元)如下,求在概率90%的保证下,顾客平均 消费额的估计区间。
15 24 38 26 30 42 18 30 25 26 34 44 20 35 24 26 34 48 18 28 46 19 30 36 42 24 32 45 36 21 47 26 28 31 42 45 36 24 28 27 32 36 47 53 22 24 32 46 26
某公司从职工中抽取600人调查知其中 486人在银行有存款,存款金额平均每 人3400元,标准差500元,以95.45% 的可靠性推断全体职工中有储蓄存款者 所占比率的区间范围
4.3 两个总体参数的区间估计
关心的是两个总体参数的差
不要差太大或太小
不太关心两个参数的具体取值
借钱 分独立样本
大样本 小样本
区间估计:是指在点估计的基础上,给出总体 参数估计的区间范围
区间通常由样本统计量加减抽样误差得到。
根据样本统计量的抽样分布能够对统计量与参数的 接近程度给出一个概率度量
x 根据样本均值的抽样分布, 落在 两侧一个标准
差范围内的概率为0.6827,两个标准差范围内的 概率为0.9545,三个标准差范围内的概率为 0.9973
第4章 参数估计
4.1 估计量与估计值
参数估计:用样本统计量去估计总体参 数
估计量:用来估计总体参数的统计量的 名称
估计值:用来估计总体参数的统计量的 具体数值
4.1.2 点估计与区间估计
点估计:用样本估计量的值直接作为总体参数 的估计值
如要估计一批零件的椭圆度,根据抽样资料知零件 椭圆度为0.034mm,可以认为这一批零件的椭圆 度也是0.034mm
d z
2
sd n
1 2
d
z
2
sd n
d t (n1)
sd n
1 2 d t (n1)
sd n
10位学生分别作A卷、 试卷A 试卷B
B卷,成绩如下,建
78
71
立两试卷平均分之差
63 …
44 …
95%的置信区间
…
…
d d 11
85
77
55
39
n
sd
(d d )2 6.53 n 1
t (n1) t0.05(101) 2.262
2
2
d t (n1) 2
sd n
1
2
d
t (n1) 2
sd n
11
2.262
6.53 10
1
2
11
2.262
6.53 10
6.33 1 2 15.67
5.其他条件不变,当可靠度大于0.6827时, 抽样极限误差( )
A、大于抽样平均误差 B、小于平均误差
C、等于抽样平均误差 D、与抽样平均误差的大小 关系依样本容量而定
11.用简单随机重复抽样方法抽取样本单位, 如果要使抽样平均误差降低50%,则样本容量 扩大到原来的( )。
A、2倍 B、3倍 C、4倍
0.45(1 0.45) 500
1
2
(0.32 0.45) 1.96
0.32(1 0.32) 0.45(1 0.45)
400
500
6.68% 1 2 19.32%
4.4 样本量的确定
参数估计之前,必须先要确定适当的样 本量
样本量太大,提高精度,但是受到费用、 数据限制
2000 E 400 z 1.96
2
z2 2
n
2 E2
1.962 20002 4002
96.04 97
根据以往统计,某产品合格率为0.9,现要求允 许误差为0.05,在95%的置信水平下,应抽取 多少产品合适
课堂练习
某市开展职工家计调查,根据历史资料 该市职工家庭平均每人年收入的标准差 为250元,而家庭消费的恩格尔系数为 65% 。现在用重复抽样的方法,要求 95.45%的概率保证下,平均收入的极 限误差不超过20元,恩格尔格系数的极 限误差不超过4% ,求必要样本量。
(1 )
n
p z
2
p(1 n
p)
p
z
2
p(1 p) n
某城市要估计下岗职工中女职工所占比 率,随机抽取100位下岗职工,其中65 人为女性。以95%的置信水平估计下岗 职工中女职工的比例
练习
在4000件成品中抽取200件进行检查, 结果有废品8件,概率为0.9545,估计 这批成品废品量的范围
4.2.2 总体比率的区间估计
比率:某种分类占全部的比例
学生成绩
人数
不及格的比率 有存款的人数比例 喜欢看某电视节目的比率
z p ~ N (0,1) (1 )
60以下 60-70 70-80 80-90 90-100
n
p z
2
(1 )
n
p
z
2
3 5 10 5 2
p1 0.32 p2 0.45 z 1.96
2
( p1 p2 ) z
2
p1 (1 n1
p1)
p2 (1 n2
p2 )
1 2
( p1