第五章比率估计与回归估计
05第五章 比估计与回归估计

证明:
1 f 1 N V ( R) [ (Yi RX i ) 2 ] 2 nX N 1 i 1
N 1 f 1 2 { [ ( Y Y ) R ( X X )] } i i 2 nX N 1 i 1
N N N 1 f 1 2 2 2 { [ (Yi Y ) R ( X i X ) 2 R (Yi Y )( X i X )]} 2 nX N 1 i 1 i 1 i 1
ˆ Y RS
L yh ˆ X h Y Rh(X 已知) h x h h h L
ˆ 为Y 在分层随机抽样中,若每层的样本量 nh 都较大,则 Y RS 的近似无偏估计。其方差为:
ˆ ) N 2 (1 f h ) ( S 2 R 2 S 2 2 R S S ) V (Y RS h yh h xh h h yh xh nh h
1 f ˆ V ( R) 2 nX
(y
i 1
N
i
Rxi ) 2
N 1
1 f 2 2 2 ( S R S y x 2 RS yx ) 2 nX
1 f 2 2 2 ( S R S y x 2 RS y S x ) 2 nX
比率估计的近似方差的证明 ˆ R y R y Rx R x x ˆ R y Rx 当 n 足够大时,x X 将其代入上式分母,得 R X 于是 ˆ R) 1 [ E ( y ) R E ( x )] 1 (Y RX ) 0 E(R X X ˆ ) R。这时 V ( R ˆ ) E(R ˆ R ) 2 1 E ( y Rx ) 2 因此,当 n 足够大时, E( R 2
第五章比估计与回归估计(抽样调查理论与方法-北京商学

现儿子的身高有回到家族平均身高的趋势,因而把所得关系 式称为回归方程,于是回归的名词就沿用下来了。
)
2
N
(Yi
Y
)
2
i1
i1
如果简单随机样本为( xi , yi ) (i 1, 2, , n) ,则Cov( X ,Y )
及 的估计为:
S xy
1 n1
n i 1
( xi
x)( yi
y)
(5.3)
n
( xi x)( yi y)
ˆ
i 1 1
1
(5.4)
n
(
xi
2 x)
v(Rˆ )
1 f nx 2
(sY2 Rˆ 2sX2 2Rˆ sXY )
v(
yR
)
1
n
f
( sY2
Rˆ 2
s
2 X
2Rˆ sXY )
v( yR )
N 2 (1 n
f
) (sY2
Rˆ 2 sX2
2Rˆ sXY
)
那么, R,Y ,Y 的置信水平为(1 )的置信区间分别为:
(
Rˆ
u1
2
v(Rˆ )
yi X (i 1, 2, , n) 的平均数,因此Rˆ 的分布可近似正态分布
Rˆ R
因此,可利用
近似标准正态分布获得 R 的置信区间
Var(Rˆ )
chap 比估计与回归估计

Chap5比估计与回归估计教学要求:重难点:引语:(请学生回顾)前面介绍过的目标量有四个类型:总体均值、总体总量、总体比例、两个指标的总数或均值的比值R,在简单随机抽样和分层抽样中讨论的目标都是前三类,且它们本质上是一类,相互之间可类推。
本章讨论第四类目标量比值R的估计,这是第一个问题。
比如服装消费支出占总支出的比值,在校儿童对全体儿童的比重。
其次前面所用的估计量是简单估计,它只涉及所估计的指标本身。
如果有另一个与Y关系密切(比例关系或线性回归关系)的指标X可作为辅助变量,来构造另一类估计量,即比估计量或回归估计量,来提高估计精度,这是第二问题。
如调查每月每户平均消费,消费通常与每户人口数密切相关,可用每户人口数作为辅助变量,先估计每月每户平均消费与每户人口数的比值R,然后利用已知的每户平均人口,就可得到每月每户平均消费的估计值。
由于这两个问题之间存在密切的内在关系,因此放在这一章节一起讨论。
5.1比估计1. 基本概念考虑到有两个指标量Y和X,不妨将总体记为⎭⎬⎫⎩⎨⎧N N X X X Y Y Y ,...,, ,... 2,12,1,对应样本为⎭⎬⎫⎩⎨⎧n n x x x y y y ,...,,...,2,12,1,如果要估计的是总体比值X YXY R ==,则总体比值R可用样本的比值 xyR ∆=ˆ进行估计,该估计量称为比值估计量.当调查指标仅为Y,X为辅助变量时,在∑==Ni iXX 1或NXX Ni i∑==1已知时,Y 和Y可用X R y R ˆ∆= X R N y N Y RR ˆˆ==∆分别进行估计,称为比(比率)估计量.这三者通称为比估计量,它们之间只相差一个常数,相互之间可推导,研究时只选择一个即可.2. 性质我们知道简单估计量是无偏估计,其均值误差等于其方差.但对于比估计量却不具有无偏性,而是渐近无偏.其均值误差与方差有差异,但偏倚不大.可证:对于简单随机抽样,当n 很大时,R RE ≈)ˆ( 1)(1)ˆ()ˆ(122--⋅-≈≈∑=N RX YX n fR V R MSE Ni i i简要证明: xx R y R x y R R-=-=-ˆ 当n 很大时,x X ≈,代入上式分母中,有[]0)(1)()(1)()ˆ(=-=-=-≈-X R Y Xx RE y E X X x R y E R RE 所以,当n 很大时R RE ≈)ˆ(.此时 222()ˆˆˆ()()()E y Rx V R MSE R E R R X-≈=-≈ 对每个总体单元,令),...,2,1(N i RX Y G i i i =-=,对每个样本单元有),...,2,1(n i Rx y g i i i =-=,则其总体均值和样本均值分别为0=-=X R Y G x R y g -=因而 ==-22)()(g E x R y E )()()(2g V g E g V =+=21G S nf -1)(112---=∑=N G G n fNi i 1)(112---=∑=N RX Y nfNi i i所以,当n 很大时 1)(1)ˆ()ˆ(122--⋅-≈≈∑=N RX YXn fR V RMSE Ni i i此方差的估计量可采用1)ˆ(1)ˆ(1221--⋅-≈∑=n x R yXn fRv ni ii或 1)ˆ(1)ˆ(1222--⋅-≈∑=n x R yx n fRv ni ii说明:这两个方差估计量很难比较谁优谁劣,对不同总体有不同结论。
抽样调查——比估计

一个国家或地区的恩格 尔系数R
城乡居民家庭人均收入及恩格尔系数
年份 城镇居民家庭人均 可支配收入(元) 农村居民家庭人 均纯收入(元) 城镇居民家庭恩 格尔系数 (%) 农村居民家庭恩 格尔系数(%)
1978
343.4
133.6
57.5
67.7
3.比估计与简单估计的比较
(1)当n足够大时,Y 的比估计y R的方差为: 1 f 2 2 V ( yR ) (S y 2 RS x S y R 2 S x ) n 1 f 2 (2)Y 的简单估计y的方差为:V ( y ) Sy n
(1) (2)得: V ( y) V ( yR ) 1 f 1 f 2 2 2 Sy (S y 2 RS x S y R 2 S x ) n n
S d2 2 2 n S 解得:n X V2 0 ,其中n0 2d n0 Sd X V 1 1 N NX 2V
2 Sd 可以通过以往的资料估 计,
也可以通过试点调查时 抽一个容量为 n, 的样本, 1 n 2 ˆ 由s ( y R x ) i i n 1 i 1
i 1 2
10
y
i 1
i
4463 , xi 4066 , yi xi 4245
2
10
10
ˆ R
y x
i 1 i 1 10
10
i 1
i 1
i
187 1.05 178
i
2 2 2 ˆ ˆ ˆ ( y R x ) y 2 R y x R x i i i i i i 31.265 2 i 1 i 1 i 1 i 1
05比估计与回归估计

yr
Variable ybar yr
N 2000 2000
Mean 309409 309817
Median 308093 309806
StDev 28889 2664
SE Mean 646 60
Variable ybar yr
Minimum 228803 301659
Maximum 420038 320089
ˆ 因R的分布有偏,可通过 来构造R的置信区间。 d d y Rx . d y Rx ~ N (0, 1) 1 f 2 1 f 2 S y R 2 S x2 2 RSyx Sd n n P ( u1 / 2 w u1 / 2 ) 1 w 解不等式 u1 / 2 w u1 / 2 便可得R的置信度近似为 的置信区间。 1
ˆ -R y -R y-Rx R x x xX ˆ R ) 1 [ E ( y ) RE ( x )] 0 E(R X ˆ ) MSE ( R) E ( R R) 2 1 E ( y Rx ) 2 ˆ ˆ V (R X2 1 f 2 2 E ( y Rx ) S n
C8
例. 美国农业普查的资料
总体:3044个县(去掉了数据缺失的34个县) yi=第i个县1992年全部农场的面积(英亩); xi=第i个县1987年全部农场的面积。
Y 943336889 R 0.980404 X 962192213
从中抽取n=200的SRS,则 布如上图所示。
ˆ R y / x 的抽样分
R R
ˆ 根据上节Th5.1.1中 R 的期望、均值来证明
3. 比估计量优于简单估计的条件
Th 5.2.2 对于SRS,在 n 较大时,若 C x (2C y ) ˆ 则 V (YR ) V ( y )。其中 C x S x X 为变量 x 的总体 变异系数,C y S y Y 为变量 y 的总体变异系数。
比率估计和回归估计

Ratio and Regression Estimator引例:1802年,拉普拉斯想要估计法国的人口数目。
他获得了一个遍布全国范围的30个社区(commune )的样本,截至1802年9月23日总共有2037615居民。
在包括1802年9月23日以前的三年中,215599个新生儿在30个commune 。
拉普拉斯认为30个commune 的每年注册的新生儿数为215599/3=71866.33。
把2037615按照71866.33 来分,拉普拉斯估计每年每28.35人里有一个注册新生儿。
具有众多人口的乡镇也就可能有同样众多的注册新生儿,通过用28.35乘以全法国年度新生儿总数来估计得出法国人口总数。
调查中都有辅助信息,抽样框也通常有每个单元额外的信息,这些信息能被用来提高我们的估计精度。
一、为什么要使用比率估计/回归估计利用总体的辅助信息提高估计的精度。
辅助指标的选择:第一,辅助指标应该与调查指标有较好的正的相关关系。
第二,x y的抽样分布较ux y 的抽样分布变动性要小得多。
第三,辅助指标的总体总量或总体均值已知。
比率估计、回归估计需要有足够的样本量才能保证估计的有效。
有偏估计:当样本量足够大时,估计的偏倚趋于0。
简单地想要估计一个比率:假定总体由面积不同农业用地构成,i y i =地谷物的产量,i x i =地的面积,B=每亩谷物的平均产量。
想要估计一个总体总数,但总体大小N 是未知的。
但是我们知道,于是可以通过y N t y =ˆ来估计N,由此我们可以使用不同于总数N 的方法而是采用辅助变量来进行测量。
要估计渔网中长度长于12cm 的鱼的总数,抽取一个鱼的随机样本,估计长度长于12cm 的鱼所占的比例,用鱼的总数N 乘以这个比例即可得到,但如果N 未知不能使用。
能称量渔网中鱼的总重量。
鱼的长度与其重量相关。
xt yt x yr =ˆ调整来自样本的估计量以便它们反映人口统计学的总量。
在一所具有4000名学生的大学提取一个400个学生的简单随机样本,此样本可能包含240个女性,160个男性,且其中被抽中的84名女性和40名男性计划以教学为毕业后的职业。
05-第五章_比估计与回归估计

ˆ ) = E( R ˆ ) - R = 2.20137 - 2.2 = 0.00137 B( R
3
ˆ 的均方误差为: 而R ˆ ) = E (R ˆ - R) 2 MSE ( R ˆ 2 - 2R ˆR + R 2 ) = E (R ˆ 2 ) - E (2 R ˆ R) + E ( R 2 ) = E (R ˆ 2 ) - 2 RE ( R ˆ) + R2 = E (R = 1 15 ˆ 1 15 ˆ 2 + R2 R - 2R å R å 15 j =1 15 j =1
= 0.0012575
ˆ 的方差为: 故R
ˆ ) = MSE ( R ˆ ) - B( R ˆ ) 2 = 0.0012556 V (R
ˆ 的值乘以 X = 5 至于比估计量 y R 的偏倚,均方误差及方差直接可将有关 R
或X
2
[
]
= 25 得到:
ˆ ) ´ 5 = 0.00685 B( y R ) = B( R ˆ ) ´ 25 = 0.03144 MSE ( y R ) = MSE ( R ˆ ) ´ 25 = 0.03139 V ( y R ) = V (R ˆ 及 y 都是有偏的,但偏倚不大,从而均方误差与方差的值 上面结果表明 R R
(
)
2
5
其中关键为求出 E y - Rx
(
) ,下面为具体过程。
2
对每个总体单元,令 Gi = Yi - RX i , i = 1,2, , N ,则
G= =
1 N 1 N
åG
i =1 N i =1
N
i
å (Y
i
- RX i )
N ö 1æ N = ç å Yi - å RX i ÷ N è i =1 i =1 ø
比估计与回归估计在分层抽样中的应用

比估计与回归估计在分层抽样中的应用摘要:本文主要探讨了在分层抽样中,估计与回归估计的应用。
首先,我们介绍了分层抽样的基本概念和方法,然后详细阐述了估计和回归估计的基本原理和应用。
我们发现,在分层抽样中,估计和回归估计可以有效地提高样本的代表性和估计的准确性。
此外,我们还讨论了估计和回归估计在实际应用中可能遇到的问题和挑战,以及如何解决这些问题。
最后,我们通过实证研究验证了估计和回归估计在分层抽样中的有效性。
关键词:分层抽样;估计;回归估计;样本代表性;估计准确性;问题与挑战;实证研究。
一、引言1 研究背景和意义在研究背景和意义上,分层抽样是一种复杂而有效的抽样方法,它的主要目标是从复杂的总体中抽取出具有代表性的研究样本。
这种方法特别适用于总体情况复杂,各单位之间差异较大,单位较多的情况。
具体来说,分层抽样将总体按照某种共同特性或属性划分为多个较小的子组或层,再从每个层内独立随机抽取样本。
估计与回归估计作为统计学中的核心概念,其主要目标是根据样本数据来估计或预测一个未知的总体参数。
在分层抽样的背景下,估计和回归估计的应用变得尤为重要。
因为通过这两个方法,我们可以有效地提高样本的代表性和估计的准确性,进而更准确地对总体进行推断和预测。
然而,在实际应用中,我们可能会遇到一些问题和挑战,如如何选择合适的分层变量,如何处理层间异质性等问题。
因此,如何解决这些问题,优化估计和回归估计在分层抽样中的应用,是本研究的重要任务。
最后,我们将通过实证研究来验证估计和回归估计在分层抽样中的有效性。
2 研究目的和方法2.1研究目的2.1.1对比估计与回归估计在分层抽样中的优劣:通过对比研究,明确哪种估计方法在分层抽样中更有效,或者在不同情况下哪种方法更适用。
2.1.2探讨分层抽样中估计与回归估计的应用:研究如何在分层抽样中应用比估计和回归估计,以及如何根据实际情况选择合适的估计方法。
2.1.3为分层抽样中的估计方法提供理论支持和实践指导:通过对比研究,为分层抽样中的估计方法提供理论依据和实践指导,帮助相关领域的研究者和实践者更好地理解和应用这些方法。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
理论上可以证明,R?, yR ,Y?R 分别为 R,Y ,Y 的近似无
偏估计量,而且对于比率估计量,其方差主要取决于 Yi 与 RX i 之间的差异,当 Yi ? RX i 时,估计量方差将很小。 换言之,比率估计量将有很高的精度。这告诉我们,只 有当两个变量大致成正比例关系时,应用比率 估计量才能使估计精度有较大改进。
5
? 三、 比率估计量方差的估计与置信区间
对于一般的n,比率估计量呈右偏分布,只有
当n>30,
C
<0.1,
x
C
y
<0.1这些条件同时满足时才
能直接用正态分布构造置信区间。 R 的置信区间为
[
]
[ R? ? u? se(R?), R? ? u? se(R?)]
2
2
其中 u? 是标准正态分布的上α /2分位点,0<α <
? 基于这种考虑利用已知的辅助变量信息构造比率估计量就 可使估计精度加以改进。
3
第二节 比率估计
?
一、比率估计量
设对有两个调查变量Y 和X 的总体进行简单随机抽样 ,分别以y,
x表示样本总值 ,以
y , x表示样本均值,以 R? ? y ? y 为样 xx
本比率 ,用 作R? 为总体比率R的估计称为的比率估计 。
精度有较大提高。若
CY
≈
C
,则只需当ρ
2
第一节 问题的提出
? 在许多实际问题中常常涉及两个调查变量(指标) Y 和X 。 对于包含个抽样单元的总体除了对总体信息进行估计外,常 常要估计总体比率R。总体比率在形式上总是表现为两个变 量总值或均值之比。 在涉及两个变量的抽样调查中,有两种情况需要应用比率 估计量。一种情况是利用双变量样本对总体比率进行估计需 应用比率估计量,此时两个变量均为调查变量。另一种情况 是一个变量为调查变量,另一个变量表现为与调查变量有密 切关系的辅助变量,在对调查变量总体总值、总体均值等目 标量进行估计时,利用已知的辅助变量信息构造比率估计量 可以改进估计的精度。
? yi =18459,
i?1
i ?1
i?1
12
? yi2 =30405031,
i?1
y =1538.25,
12
? yi xi =27016552
i?1
Y?R = R? X = 18459 ×86436=97573.52(万元) 16352
v(Y?R ) ?
N 2 (1? n
f)
n
? ( yi ? R?x i )2
y i 853 1835 1028 1512 2286 1354 1826 1721 958 1648 1904 1534
试估计今年总产值,并给出标准差的估计。
9
解答过程
以去年产值变量为辅助变量构造比率估计量计算可得
12
?
xi
=16352,
12
?
xi2 =24043730,
x
=1362.67,
12
18
35%
16
30%
14
12
25%
10
20%
8
`
15%
6
10%
4
2
5%
0
0%
50-60
70-80
90-100
第五章
比率估计与回归估计
本章要点
本章讨论了简单随机抽样和分层随机抽样下比率估计量 和回归估计量的构造及性质。要求:
①掌握总体比率、比率估计量及回归估计量的概念。 ②了解比率估计量、回归估计量的偏倚、方差及方差的 估计量。 ③掌握应用比率估计量及回归估计量的条件。
i?1
n?1
? R? ? 56(2 1- 12 ) 12
=
56 ( yi2 +
12 ?11
i?1
2 12 xi2 -2 R?
12
? yi xi )=909860.5376
i ?1
i ?1
se ( Y? R )=953.87
10
? 四、 比率估计量优于简单估计量的条件
定量分析计算表明,并非任何情况下比率估计量都优于简单估计量, 只有当调查变量与辅助变量有较高的正相关性时比率估计量才能使估计
8
案例二
?
某系统有 56 个企业,去年全系统总产值 86436 万元。为估计今年总产值,
当年年底在所辖全部企业中随机抽取 12 个企业进行调查得如下资料,其中 xi ,
y i 分别为去年和当年产值。
企业
12
表 5-3 12 个企业两年产值
3456789
10 11 12
xi
764 1642 957 1324 2131 1176 1618 1532 834 1432 1728 1214
N
? ? ? ? ? v2
(
R?)
=
1? nx
f
2
n
( yi ? R?xi )2
n
i ?1
=
n
n?1
(n ? 1)(
n
n
n
( yi2 ? R?2 xi2 ? 2R? yi xi )
xi ) 2 i?1
i?1
i? 1
i?1
? ? ? 将 n=33,
33
R? =7.33 及
yi2 =28224,
33
xi2 =533, 33
2
1。类似可得 Y 、Y的置信区间。
6
案例一
在某地区抽取由 33 个住户组成的简单随机样本,对每户调查两个指标:
xi ——第 i 户人口数,
经计算得
33
?i?1 xi =123
yi ——第 i 户一天用于食品支出的费用,
33
? yi
i?1 =907.2
33
? xi2
i?1 =533
33
? yi2
i?1 =28224
33
? yi xi
i?1 =3595.5
试估计该地区平均每人一天用于食品的支出,并求其置信水平 95%
的置信区间。
7
解 答过程
N
? Yi
设该地区共有 N 户,要估计的是 R ?
i?1 N
,
? Xi
i?1
33
? yi
= R?
i?1 33
? xi
? 907.2 =
123
7.33
i?1
N 很大, f ? n ≈0,
比率估计量除了使用调查变量样本信息外,还要使用辅助变量
总体信息与样本信息,而且是非线性估计量。这类估计量称为复杂
估计量。由于比率估计量使用的信息比简单估计量多,因而有可能
比简单估计量有更高的精度。同时由于比率估计量是非线性估计量,
因而对其性质的研究比对简单估计量要复杂得多。
4
? 二、比率估计量的偏倚与均方误差
yi xi =3595.5 代入得
i?1
i?1
i?1
v2 (R?) =0.285156,
se ( R? )= v(R?) =0.534
=1.96,[ 1-? =0.95, u ?
R? - u ? se ( R? ), R? + u ? se ( R? )]=[6.28,8.38]
2
2
2
故该地区人均每天食品支出 7.33 元,区间估计为[6.28,8.38]元。