参数估计
第三章 参数估计

第三章参数估计重点:1.总体参数与统计量2.样本均值与样本比例及其标准误差难点:1.区间估计2.样本量确实定知识点一:总体分布与总体参数统计分析数据的方法包括:描绘统计和推断统计〔第一章〕推断统计是研究如何利用样本数据来推断总体特征的统计学方法,包括参数估计和假设检验两大类。
总体分布是总体中所有观测值所形成的分布。
总体参数是对总体特征的某个概括性的度量。
通常有总体平均数〔μ〕总体方差〔σ2〕总体比例〔π〕知识点二:统计量和抽样分布总体参数是未知的,但可以利用样本信息来推断。
统计量是根据样本数据计算的用于推断总体的某些量,是对样本特征的某个概括性度量。
统计量是样本的函数,如样本均值〔〕、样本方差〔 s2〕、样本比例〔p〕等。
构成统计量的函数中不能包括未知因素。
由于样本是从总体中随机抽取的,样本具有随机性,由样本数据计算出的统计量也就是随机的。
统计量的取值是根据样本而变化的,不同的样本可以计算出不同的统计量值。
[例题·单项选择题]以下为总体参数的是( )a.样本均值b.样本方差c.样本比例d.总体均值答案:d解析:总体参数是对总体特征的某个概括性的度量。
通常有总体平均数、总体方差、总体比例题·判断题:统计量是样本的函数。
答案:正确解析:统计量是样本的函数,如样本均值〔〕、样本方差〔〕、样本比例〔p〕等。
构成统计量的函数中不能包括未知因素。
[例题·判断题]在抽样推断中,作为推断对象的总体和作为观察对象的样本都是确定的、唯一的。
答案:错误解析:作为推断对象的总体是唯一的,但作为观察对象的样本不是唯一的,不同的样本可以计算出不同的统计量值。
〔一〕样本均值的抽样分布设总体共有n个元素,从中随机抽取一个容量为n的样本,在重置抽样时,共有n n种抽法,即可以组成n n不同的样本,在不重复抽样时,共有个可能的样本。
每一个样本都可以计算出一个均值,这些所有可能的抽样均值形成的分布就是样本均值的分布。
五种估计参数的方法

五种估计参数的方法在统计学和数据分析中,参数估计是一种用于估计总体的未知参数的方法。
参数估计的目标是通过样本数据来推断总体参数的值。
下面将介绍五种常用的参数估计方法。
一、点估计点估计是最常见的参数估计方法之一。
它通过使用样本数据计算出一个单一的数值作为总体参数的估计值。
点估计的核心思想是选择一个最佳的估计量,使得该估计量在某种准则下达到最优。
常见的点估计方法有最大似然估计和矩估计。
最大似然估计(Maximum Likelihood Estimation,简称MLE)是一种常用的点估计方法。
它的核心思想是选择使得样本观测值出现的概率最大的参数值作为估计值。
最大似然估计通常基于对总体分布的假设,通过最大化似然函数来寻找最优参数估计。
矩估计(Method of Moments,简称MoM)是另一种常用的点估计方法。
它的核心思想是使用样本矩和总体矩之间的差异来估计参数值。
矩估计首先计算样本矩,然后通过解方程组来求解参数的估计值。
二、区间估计点估计只给出了一个参数的估计值,而没有给出该估计值的不确定性范围。
为了更全面地描述参数的估计结果,我们需要使用区间估计。
区间估计是指在一定的置信水平下,给出一个区间范围,该范围内包含了真实参数值的可能取值。
常见的区间估计方法有置信区间和预测区间。
置信区间是对总体参数的一个区间估计,表示我们对该参数的估计值的置信程度。
置信区间的计算依赖于样本数据的统计量和分布假设。
一般来说,置信区间的宽度与样本大小和置信水平有关,较大的样本和较高的置信水平可以得到更准确的估计。
预测区间是对未来观测值的一个区间估计,表示我们对未来观测值的可能取值范围的估计。
预测区间的计算依赖于样本数据的统计量、分布假设和预测误差的方差。
与置信区间类似,预测区间的宽度也与样本大小和置信水平有关。
三、贝叶斯估计贝叶斯估计是一种基于贝叶斯理论的参数估计方法。
它将参数看作是一个随机变量,并给出参数的后验分布。
贝叶斯估计的核心思想是根据样本数据和先验知识来更新参数的分布,从而得到参数的后验分布。
概率论 第七章 参数估计

L( ) max L( )
称^为
的极大似然估计(MLE).
求极大似然估计(MLE)的一般步骤是:
(1) 由总体分布导出样本的联合概率分布 (或联合密度);
(2) 把样本联合概率分布(或联合密度)中自变 量看成已知常数,而把参数 看作自变量, 得到似然函数L( );
(3) 求似然函数L( ) 的最大值点(常常转化 为求ln L( )的最大值点) ,即 的MLE;
1. 将待估参数表示为总体矩的连续函数 2. 用样本矩替代总体矩,从而得到待估参
数的估计量。
四. 最大似然估计(极大似然法)
在总体分布类型已知条件下使用的一种 参数估计方法 .
首先由德国数学家高斯在1821年提出。 英国统计学家费歇1922年重新发现此
方法,并首先研究了此方法的一些性质 .
例:某位同学与一位猎人一起外出打猎.一只 野兔从前方窜过 . 一声枪响,野兔应声倒下 .
p值 P(Y=0) P(Y=1) P( Y=2) P(Y=3) 0.7 0.027 0.189 0.441 0.343 0.3 0.343 0.441 0.189 0.027
应如何估计p?
若:只知0<p<1, 实测记录是 Y=k
(0 ≤ k≤ n), 如何估计p 呢?
注意到
P(Y k) Cnk pk (1 p)nk = f (p)
第七章 参数估计
参数估计是利用从总体抽样得到的信息 估计总体的某些参数或参数的某些函数.
仅估 计一 个或 几个 参数.
估计新生儿的体重
估计废品率
估计降雨量
估计湖中鱼数
…
…
参数估计问题的一般提法:
设总体的分布函数为 F(x, ),其中为未 知参数 (可以是向量).从该总体抽样,得样本
第7章参数估计

x 1 0
f P 1-p
x
xf f
1 p 0 (1 p) p (1 p)
p
2 (x x)2 f (1 p)2 p (0 p)2 (1 p)
f
p (1 p)
似然函数常简记为L或 L 1,2, ,k
未知参数的函数。
38
若有 ˆi (x1, x2,..., xn ) i 1, 2, k 使得
L x1, x2,..., xn;ˆ1, ˆ 2,
, ˆ k
max L (1 ,2 , ,k )
x1, x2,..., xn; 1, 2,
, k
则 ˆi (X1, X2,..., Xn) 为参数θi的极大似然估计量。
中选出一个使样本观察值出现的概率为最大的 ˆ 作
为θ的估计量。
称 ˆ 为θ 的极大似然估计量。
37
2.似然函数的数学表达式
设X1,X2,…Xn是取自总体X的一个样本,样本的联合密度 (连续型)或联合分布律 (离散型)为 :
f (x; 1,2 , , k )
定义似然函数为:
n
L L x1,..., xn; 1, 2, , k f xi; 1, 2, , k i 1 x1, x2 ,..., xn 给定的样本观察值
§7.1.4抽样误差
1.误差:调查结果与实际值之间的差异 抽样调查中的误差
登记性误差(非抽样误差) 误差代表性误差随系机统误误差差((抽非样抽误样差误)差)
2.抽样误差—由于抽样的随机性而产生的 样本指标对总体指标的代表性误差。抽样误 差可以计算并加以控制,但不可以避免。
第五章 参数估计

1
X 2 t n1 n2 2
2
2 Sp
n1
n2
X
1
X 2 z
2
2 S12 S 2 n1 n2
2 Sp
2 2 n1 1S1 n2 1S 2
n1 n2 2
20
例题:
分别在城市1和城市2中随机抽取n1=400, n2=500的职工进行调查,经计算两城市职工的 平均月收入及标准差分别为X1=1650元,
22
思考题:
一个研究机构做了一项调查,以确定稳定的吸 烟者每周在香烟上的消费额。他们抽取49位固 定的吸烟者,发现均值为20元,标准差5元。
1.总体均值的点估计是多少?
2.总体均值μ的95%置信区间是什么?
23
思考题解答:
1.总体均值的点估计是20元。
2.总体均值μ的95%置信区间: 随机变量X表示每周香烟消费额,由题意可知,X=20, S=5,1-α=0.95,α=0.05;n=49 属于大样本,σ 未知以S估计。总体均值μ的95%置信区间为
P z Z z 1 2 2
P L U 1
X P z z 1 2 2 n
Step3:将上面等式进行等价变换即可。
P L U 1
第五章 参数估计
第五章 参数估计
利用样本数据对总体特征进行推断,通常在以下 两种情况下进行:
当总体分布类型已知(如:正态),根据样本数据对 总体分布的未知参数进行估计或检验。参数估 计或参数检验。(如:μ或σ为何?) 当总体分布类型未知或知道很少,根据样本数据 对总体的未知分布的形状或特征进行推断。非参 数检验。(如:是否正态分布?是否随机?)
第四章 参数估计

x
n
总体标准差,若 未知,可用样本
标准差代替
36
总体均值的置信区间引例
(2 未知)
例:某商场从一批袋装食品中随机抽取10袋,测得 每袋重量(单位:克)分别为789,780,794, 762,802,813,770,785,810,806,要 求以95%的把握程度,估计这批食品的平均每袋 重量的区间范围。假定食品重量服从正态分布。
0.95,Z/2=1.96
x Z 2
n
,
x
Z
2
n
26 1.96 6 ,26 1.96 6
100
100
24.824,27.176
我们可以95%的概率保证平均每天 参加锻炼的时间在24.824~ 27.176 分钟之间。
一般置信水平
一般使用的置信水平是:90%, 95%, 99%
Confidence Level
▪ 总体服从正态分布,且总体方差(2)已知 ▪ 如果不是正态分布,可以由正态分布来近似 (n 30)
2. 使用正态分布统计量Z
Z
x s
m ~ N (0,1)
n
3. 总体均值 在1-置信水平下的置信区间为
s
s
x
Za 2
,x n
Za 2 n
总体均值的置信区间
(2 已知)
抽样极限误差:
s x Za 2 n
❖ 定理1
当总体 X ~ N ( m , s 2 ) 时,抽自该总体
的简单随机样本 x1 , x 2 , , x n 的样本平均数
服从数学期望为 ,方差为 s2的正态分布,
n
即 x ~ N (m, s2 ) 。
n
Z x ~ N (0,1) n
(04)第4章 参数估计

(2)99%的置信区间是多少?
(3)若样本容量为40,而观测的数据不变,则 95%的置信区间又是多少?
5 - 31
统计学
STATISTICS
总体均值的区间估计
(例题分析)
12, s 4.1
解:(1)已知n=15, 1- = 95%, =0.05 ,x
统计学
STATISTICS
总体均值的区间估计
统计学
STATISTICS
大样本的估计方法
不论总体是不是服从正态分布,在大样本 (n 30)时,样本均值均服从正态分布。 若已知 2 x
x ~ N ( ,
总体均值 在1- 置信水平下的置信区间为
n
)
z
n
~ N (0,1)
z 2
有效性:对同一总体参数的两个无偏点估计量, 有更小标准差的估计量更有效
ˆ P( )
ˆ1 的抽样分布
B A
ˆ2 的抽样分布
ˆ
5 - 11
ˆ ˆ1 是比 2 更有效,是一个更好的估计量
统计学
STATISTICS
有效性
(efficiency)
x1 x2 x3 样本均值 x 3 x1 2 x2 3x3 和 x1 6
统计学
STATISTICS
第 4 章 参数估计
4.1 参数估计的基本原理 4.2 一个总体参数的区间估计 4.4 样本容量的确定
5-1
统计学
STATISTICS
4.1 参数估计的一般问题
4.1.1 估计量与估计值 4.1.2 点估计与区间估计 4.1.3 评价估计量的标准
参数估计

参数估计
参数估计就是用样本统计量来推算总体参 数,有点估计和区间估计两种方法。 一、参数估计的理论基础 按正态分布理论对参数进行估计。 正态分布的主要特征有: 1.以总体平均数为中心两侧呈对称分布,即 1.以总体平均数为中心两侧呈对称分布,即 样本平均数大于或小于总体平均数的概率完全相 等,就是说样本平均数的正离差与负离差出现的 可能性完全相等。
2.样本平均数越接近总体平均数,其出现的 2.样本平均数越接近总体平均数,其出现的 可能性越大;反之样本平均数越远离总体平均数, 其出现的可能性越小。这种可能性数学上称为概 率F(t),也就是可靠性。与概率对应的数值称为 ),也就是可靠性。与概率对应的数值称为 概率度,即抽样误差扩大的倍数,用字母t表示。 概率F(t)与概率度t 的对应函数关系如图4-2所 的对应函数关系如图4 示。
30
f x
25 20
( )
15
10
5
0
-4 -3 -2 -1 0 1 2 3 4
x
-3t
x 3 x 2
-2t
x
-1t
0 68.27% 95.45% 99.73% F(t)
X
x + x + 2
1t
2t
x + 3
3t
图4 - 2
正态分布概率图
图4-2显示样本平均数与总体平均数的平均误差不超过1μ的 显示样本平均数与总体平均数的平均误差不超过1 概率为0.6827,不超过2 的概率为0.9545,不超过3 概率为0.6827,不超过2μ的概率为0.9545,不超过3μ的概率为 0.9973。即: 0.9973。即: 当t =1时,F(t) = 0.6827 =1时, 当t =2时,F(t) = 0.9545 =2时, 当t =3时,F(t) = 0.9973 =3时, 概率度t与概率F(t)的对应关系是:概率F(t)越大,则概率 度t值越大,估计的可靠性越高,样本统计量与总体参数之间正 负离差的变动范围也越大。对于t每取一个值,概率保证程度F(t) 有一个唯一确定的值与之对应。因此人们制定正态分布概率表 有一个唯一确定的值与之对应。因此人们制定正态分布概率表 (见书后附页)供大家查找。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
例题分析
x t s
2
n
105 .36 2.06 105 .36 3.99
9.66 25
101 .37 ,109 .35
该食品平均重量的置信区间为:
101.37g~109.35g
该食品平均重量的置信区间为:
101.44g~109.28g
例题分析:PHstat
PHstat>Confidence Intervals>Estimate for the Mean, sigma unknown
两所中学高考英语平均分数之差的置信区间为 5.03分~10.97分
均值差的区间估计:T分布
Intermediate Calculations Sample Proportion Z Value Standard Error of the Proportion Interval Half Width Confidence Interval Interval Lower Limit
95%
0.65 -1.959 0.0476 0.093 0.5565
该城市下岗职工中女性比例的置信 区间为:55.65%~74.35%
例题分析:PHstat
PHstat>Confidence Intervals>Estimate for the proportion
Sample Size Number of Successes 100 65
Confidence Level
Sample Standard Deviation Sample Mean Sample Size Confidence Level Intermediate Calculations t Value Interval Half Width Confidence Interval Interval Lower Limit
Confidence Level 80% 90% 95% 98% 99% 99.8% 99.9% Critical value z 2 1.28 1.645 1.96 2.33 2.57 3.08 3.27
例题分析
为分析产品重量是否符合标准,某企业从一批产品中随机抽 取25袋,测得每袋重量如下。已知产品重量服从正态分布, 且总体标准差为 10g 。试估计该批产品平均重量的置信区间 ,置信水平为95%
区间估计
随机样本 总体
(均值, μ, 未知)
均值 x = 50
置信水平 我有 95%的把 握相信总体均 值μ介于40和 60之间
样本
置信水平(Confidence Level)
用随机样本重复构造置信区间,所有区间中包 含总体参数的比例称为置信水平 表示为 (1- 为总体参数未在区间内的比例 常用的置信水平值有 99%, 95%, 90% 相应的 为0.01,0.05,0.10
Data Population Standard Deviation Sample Mean Sample Size 10 105.36 25
Confidence Level
Intermediate Calculations Standard Error of the Mean Z Value Interval Half Width
例:95%的置信区间
点估计值
重复构造出的20个置信区间
一个总体参数的区间估计
总体参数 符号表示 样本统计量
均值
比例
x
p
2
p
s
2
方差
总体均值估计:正态总体&方差已知
总体均值 在1- 置信水平下的置信区间为
x z 2
x z 2 n n
x z 2 n z 2为临界值,z ~ N (0,1),可查标准正态分布表 确定;
标准正态分布
标准正态分布
t (df = 13)
t 分布
t (df = 5)
z
x
t 分布与标准正态分布的比较
不同自由度的t分布
t
例题分析
为分析产品重量是否符合标准,某企业从一批产品中随机抽 取25袋,测得每袋重量如下。已知产品重量服从正态分布, 试估计该批产品平均重量的置信区间,置信水平为95%
25袋产品的重量 112.5 102.6 100.0 116.6 136.8 101.0 107.5 123.5 95.4 102.8 103.0 95.0 102.0 97.8 101.5 102.0 108.8 101.6 108.6 98.4 100.5 115.6 102.2 105.0 93.3
x t
2
s x t n
2
s n
s x t 2 n t 2为临界值,t ~ t (n 1),可查t分布表确定; s为样本标准差,替代总 体标准差
t 分布
t分布是近似正态分布的一种对称分布,但更平坦和 分散。t分布依赖于自由度(n-1),随着自由度的增 大,逐渐趋近于正态分布
95%
6.19 15 2.13
Interval Half Width
Confidence Interval Interval Lower Limit Interval Upper Limit
13.19
1476.80 1503.20
总体比例的区间估计:大样本
总体比例p在1-置信水平下的置信区间为
某城市想要估计 下岗女性职工比 例,随机地抽取 了 100 名 下 岗 职 工,其中 65 人为 女性。试以 95% 的置信水平估计 该城市下岗职工 中女性比例的置 信区间
p z
2
p (1 p ) n
65%(1 65%) 65% 1.96 100 65% 9.35% 55.65%,74.35%
Interval Upper Limit
0.7434
总体方差的区间估计:正态总体
总体方差 2在1- 置信水平下的置信区间为
2 2 ( n 1 ) s (n 1) s 2 2 2 1 2 (n 1) 2 (n 1) 2 2 ( n 1 ) 为置信区间下限临界值 ,查 分布表确定; 2
例题分析:PHstat
PHstat>Confidence Intervals>Estimate for the population variance
可使用Excel中的 STDEV函数计算
Data
Sample Size
Sample Standard Deviation Confidence Level Results Interval Lower Limit for Variance Interval Upper Limit for Variance
总体标准差; n 样本容量; x 样本均值
确定临界值:置信水平 = 95%
1 0.95 0.05
Z 2 Z 0.025 1.96Βιβλιοθήκη 0.0250.950
0.025
Z0.025 = -1.96
临界值
Z0.025 = 1.96
临界值
正态分布常用置信水平及临界值
95%
2 -1.959 3.9199
Confidence Interval
Interval Lower Limit Interval Upper Limit 101.44 109.27
例题分析:PHstat
输入样本数据
总体均值估计:正态总体&方差未知
总体均值 在1- 置信水平下的置信区间为
24.76 1490 16
Sample Standard Deviation Sample Mean Sample Size
Confidence Level
Intermediate Calculations Standard Error of the Mean Degrees of Freedom t Value
12,22已知时,1-2的置信区间为
( x1 x 2 ) z 2
2 12 2 n1 n2
12,22未知时,1-2的置信区间为
( x1 x2 ) z 2
2 s12 s2 n1 n2
2 ( s12 , s2 为样本方差)
例题分析
某地区教育管理部门想 估计两所中学高考英语 平均分数之差。在两所 中学随机抽取两个样本 ,有关数据如右表 。建 立两所中学平均分数之 差95%的置信区间
例题分析
x z 2
10 105.36 1.96 n 25 105.36 3.92
该食品平均重量的置信区间为: 101.44g~109.28g
例题分析:PHstat
PHstat>Confidence Intervals>Estimate for the Mean, sigma known
p z 2 p(1 - p) p(1 - p) p p z 2 n n
p (1 - p ) p z 2 n z 2为临界值,z ~ N (0,1),可查标准正态分布表确定; p为样本比例; 大样本:np 5; n(1 p) 5
例题分析
25袋产品的重量 112.5 102.6 100.0 116.6 136.8 101.0 107.5 123.5 95.4 102.8 103.0 95.0 102.0 97.8 101.5 102.0 108.8 101.6 108.6 98.4 100.5 115.6 102.2 105.0 93.3
25