05第五章 比估计与回归估计
第五章比率估计与回归估计

理论上可以证明,R?, yR ,Y?R 分别为 R,Y ,Y 的近似无
偏估计量,而且对于比率估计量,其方差主要取决于 Yi 与 RX i 之间的差异,当 Yi ? RX i 时,估计量方差将很小。 换言之,比率估计量将有很高的精度。这告诉我们,只 有当两个变量大致成正比例关系时,应用比率 估计量才能使估计精度有较大改进。
5
? 三、 比率估计量方差的估计与置信区间
对于一般的n,比率估计量呈右偏分布,只有
当n>30,
C
<0.1,
x
C
y
<0.1这些条件同时满足时才
能直接用正态分布构造置信区间。 R 的置信区间为
[
]
[ R? ? u? se(R?), R? ? u? se(R?)]
2
2
其中 u? 是标准正态分布的上α /2分位点,0<α <
? 基于这种考虑利用已知的辅助变量信息构造比率估计量就 可使估计精度加以改进。
3
第二节 比率估计
?
一、比率估计量
设对有两个调查变量Y 和X 的总体进行简单随机抽样 ,分别以y,
x表示样本总值 ,以
y , x表示样本均值,以 R? ? y ? y 为样 xx
本比率 ,用 作R? 为总体比率R的估计称为的比率估计 。
精度有较大提高。若
CY
≈
C
,则只需当ρ
2
第一节 问题的提出
? 在许多实际问题中常常涉及两个调查变量(指标) Y 和X 。 对于包含个抽样单元的总体除了对总体信息进行估计外,常 常要估计总体比率R。总体比率在形式上总是表现为两个变 量总值或均值之比。 在涉及两个变量的抽样调查中,有两种情况需要应用比率 估计量。一种情况是利用双变量样本对总体比率进行估计需 应用比率估计量,此时两个变量均为调查变量。另一种情况 是一个变量为调查变量,另一个变量表现为与调查变量有密 切关系的辅助变量,在对调查变量总体总值、总体均值等目 标量进行估计时,利用已知的辅助变量信息构造比率估计量 可以改进估计的精度。
第五章 比估计与回归估计(抽样理论与方法,河南财政学院)

ˆ) d 1 / 2 V(Y R
1 / 2 2 S d2 2 2 2 n d 0 1 / 2 S d 解得:n ,其中 n 0 2 d2 1 / 2 S d2 1 n0 1 N Nd 2
河南财经学院
例:某公司有1000名职工,为了估计职工今年与去年病假工时的比 率,要抽一个容量为n的简单随机样本进行调查。先随机抽了10人 作试点调查,数据如下: 编号 1 2 去年病假工时 12 24 今年病假工时 13 25
N
2 ( Y RX ) i i i 1
N
N 1
1 f n
N
2 ( Y RX ) 0 i i i 1
N 1
ˆ y 对于简单随机抽样, Y 的简单估计为 Y 1 f ˆ V (Y ) n 河南财经学院
2 ( Y Y ) i i 1
N 1
1 f 2 (2 RS x S y R 2 S x )〉 0 n
RS x Sx / X Cx 〉 2 S y 2 S y / Y 2C y 1 特别若C x C y,则〉 ,即比估计较相应的简 单估计更精确。 2
河南财经学院
4.估计R时样本量的确定:
ˆ 的方差上限为V , 如果R
2 2 i 1 i 1 i 1
10
10
10
2
xi 31.265
2 i 1
70
1 10 ˆ x ) 2 3.474 s d ( yi R i 9 i 1 16300 已知X 16300 , X 16 .3 1000 d2 0.012 5 V 2 . 603 10 1 / 2 1.96 2
xi 242 .0, xi 4706 .54
比率估计和回归估计

Ratio and Regression Estimator引例:1802年,拉普拉斯想要估计法国的人口数目。
他获得了一个遍布全国范围的30个社区(commune )的样本,截至1802年9月23日总共有2037615居民。
在包括1802年9月23日以前的三年中,215599个新生儿在30个commune 。
拉普拉斯认为30个commune 的每年注册的新生儿数为215599/3=71866.33。
把2037615按照71866.33 来分,拉普拉斯估计每年每28.35人里有一个注册新生儿。
具有众多人口的乡镇也就可能有同样众多的注册新生儿,通过用28.35乘以全法国年度新生儿总数来估计得出法国人口总数。
调查中都有辅助信息,抽样框也通常有每个单元额外的信息,这些信息能被用来提高我们的估计精度。
一、为什么要使用比率估计/回归估计利用总体的辅助信息提高估计的精度。
辅助指标的选择:第一,辅助指标应该与调查指标有较好的正的相关关系。
第二,x y的抽样分布较ux y 的抽样分布变动性要小得多。
第三,辅助指标的总体总量或总体均值已知。
比率估计、回归估计需要有足够的样本量才能保证估计的有效。
有偏估计:当样本量足够大时,估计的偏倚趋于0。
简单地想要估计一个比率:假定总体由面积不同农业用地构成,i y i =地谷物的产量,i x i =地的面积,B=每亩谷物的平均产量。
想要估计一个总体总数,但总体大小N 是未知的。
但是我们知道,于是可以通过y N t y =ˆ来估计N,由此我们可以使用不同于总数N 的方法而是采用辅助变量来进行测量。
要估计渔网中长度长于12cm 的鱼的总数,抽取一个鱼的随机样本,估计长度长于12cm 的鱼所占的比例,用鱼的总数N 乘以这个比例即可得到,但如果N 未知不能使用。
能称量渔网中鱼的总重量。
鱼的长度与其重量相关。
xt yt x yr =ˆ调整来自样本的估计量以便它们反映人口统计学的总量。
在一所具有4000名学生的大学提取一个400个学生的简单随机样本,此样本可能包含240个女性,160个男性,且其中被抽中的84名女性和40名男性计划以教学为毕业后的职业。
5第五章比估计与回归估计

RS X 1 S X X 1 C X 2 SY 2 SY Y 2 CY
(5.12)
(5.12)表明,如果变量X与Y正相关,且相关程度非常密 切的话,那么比估计的精度高于简单随机抽样的精度。如果 相关程度不那么密切( C X 2CY ),此时已知的X信息并 没有较多地提供Y的信息,借助X来推断 Y 也许会“帮倒忙” 假如X与Y是负相关,则更不能采用比估计方法,此时应采用 所谓乘积估计,即: x y x y p N yp , y (5.13) X X 当 n 充分大时,且满足:
如果简单随机样本为( xi , yi ) (i 1, 2,, n) ,则 Cov( X , Y ) 及 的估计为:
S xy
1 n ( xi x )( yi y ) n 1 i 1
(5.3)
ˆ
(x
i 1
n
i
x )( yi y )
1 2 1 2
(5.4)
1 SX X 1 CX 2 SY Y 2 CY
成立
(5.14)
Var ( yR ) Var ( y )
例5.1 某县小麦种植面积为218756亩,分布在N=576个村,为 估计全县产量,随机无放回地抽取n=24个村,所得数据如下
村i
1 2 3 4 5 6 7 8 9 10 11 12
数值例子例52某地区有976个自然村根据该地区的地貌将各村所属耕地划为三种类型各村按类型上报了耕地面积以亩计算为核实这些上报数据采用按比例分配的分层随机抽样方法在每一种类型中抽取若干村进行实测核实倘若以x表示上报数据以y表示实测数据抽样结果如下表
第五章 §1
一、问题的提出
比估计与回归估计 概述
前面讨论的简单随机抽样和分层抽样,我们所关心的参 数都是单指标的,给出的估计量也是线性形式。这一章我们 将要讨论比较复杂的情况,我们关心的参数不再是单指标的 而是两个或两个以上的指标。此时,遇到的统计量不再是线 性形式,往往呈现出非线性形式,比如两个变量之比,或呈 现变量之间的回归关系。 所谓回归关系就是变量之间的关系不是确定的,是带有 随机影响的。比如身高和体重的关系,身高增加时,一般来 说,体重也会增加,但又不能说一定如此。要确定身高和体
抽样调查——比估计

一个国家或地区的恩格 尔系数R
城乡居民家庭人均收入及恩格尔系数
年份 城镇居民家庭人均 可支配收入(元) 农村居民家庭人 均纯收入(元) 城镇居民家庭恩 格尔系数 (%) 农村居民家庭恩 格尔系数(%)
1978
343.4
133.6
57.5
67.7
3.比估计与简单估计的比较
(1)当n足够大时,Y 的比估计y R的方差为: 1 f 2 2 V ( yR ) (S y 2 RS x S y R 2 S x ) n 1 f 2 (2)Y 的简单估计y的方差为:V ( y ) Sy n
(1) (2)得: V ( y) V ( yR ) 1 f 1 f 2 2 2 Sy (S y 2 RS x S y R 2 S x ) n n
S d2 2 2 n S 解得:n X V2 0 ,其中n0 2d n0 Sd X V 1 1 N NX 2V
2 Sd 可以通过以往的资料估 计,
也可以通过试点调查时 抽一个容量为 n, 的样本, 1 n 2 ˆ 由s ( y R x ) i i n 1 i 1
i 1 2
10
y
i 1
i
4463 , xi 4066 , yi xi 4245
2
10
10
ˆ R
y x
i 1 i 1 10
10
i 1
i 1
i
187 1.05 178
i
2 2 2 ˆ ˆ ˆ ( y R x ) y 2 R y x R x i i i i i i 31.265 2 i 1 i 1 i 1 i 1
05比估计与回归估计

yr
Variable ybar yr
N 2000 2000
Mean 309409 309817
Median 308093 309806
StDev 28889 2664
SE Mean 646 60
Variable ybar yr
Minimum 228803 301659
Maximum 420038 320089
ˆ 因R的分布有偏,可通过 来构造R的置信区间。 d d y Rx . d y Rx ~ N (0, 1) 1 f 2 1 f 2 S y R 2 S x2 2 RSyx Sd n n P ( u1 / 2 w u1 / 2 ) 1 w 解不等式 u1 / 2 w u1 / 2 便可得R的置信度近似为 的置信区间。 1
ˆ -R y -R y-Rx R x x xX ˆ R ) 1 [ E ( y ) RE ( x )] 0 E(R X ˆ ) MSE ( R) E ( R R) 2 1 E ( y Rx ) 2 ˆ ˆ V (R X2 1 f 2 2 E ( y Rx ) S n
C8
例. 美国农业普查的资料
总体:3044个县(去掉了数据缺失的34个县) yi=第i个县1992年全部农场的面积(英亩); xi=第i个县1987年全部农场的面积。
Y 943336889 R 0.980404 X 962192213
从中抽取n=200的SRS,则 布如上图所示。
ˆ R y / x 的抽样分
R R
ˆ 根据上节Th5.1.1中 R 的期望、均值来证明
3. 比估计量优于简单估计的条件
Th 5.2.2 对于SRS,在 n 较大时,若 C x (2C y ) ˆ 则 V (YR ) V ( y )。其中 C x S x X 为变量 x 的总体 变异系数,C y S y Y 为变量 y 的总体变异系数。
比估计与回归估计共49页文档

1、纪律是管理关系的形式。——阿法 纳西耶 夫 2、改革如果不讲纪律,就难以成功。
3、道德行为训练,不是通过语言影响 ,而是 让儿童 练习良 好道德 行为, 克服懒 惰、轻 率、不 守纪律 、颓废 等不良 行为。 4、学校没有纪律便如磨房里没有水。 ——夸 美纽斯
5、教导儿童服从真理、服从集体,养 成儿童 自觉的 纪律性 ,这是 儿童道 德教育越轨。——华盛顿 17、一个人即使已登上顶峰,也仍要自强不息。——罗素·贝克 18、最大的挑战和突破在于用人,而用人最大的突破在于信任人。——马云 19、自己活着,就是为了使别人过得更美好。——雷锋 20、要掌握书,莫被书掌握;要为生而读,莫为读而生。——布尔沃
END
比估计与回归估计在分层抽样中的应用

比估计与回归估计在分层抽样中的应用摘要:本文主要探讨了在分层抽样中,估计与回归估计的应用。
首先,我们介绍了分层抽样的基本概念和方法,然后详细阐述了估计和回归估计的基本原理和应用。
我们发现,在分层抽样中,估计和回归估计可以有效地提高样本的代表性和估计的准确性。
此外,我们还讨论了估计和回归估计在实际应用中可能遇到的问题和挑战,以及如何解决这些问题。
最后,我们通过实证研究验证了估计和回归估计在分层抽样中的有效性。
关键词:分层抽样;估计;回归估计;样本代表性;估计准确性;问题与挑战;实证研究。
一、引言1 研究背景和意义在研究背景和意义上,分层抽样是一种复杂而有效的抽样方法,它的主要目标是从复杂的总体中抽取出具有代表性的研究样本。
这种方法特别适用于总体情况复杂,各单位之间差异较大,单位较多的情况。
具体来说,分层抽样将总体按照某种共同特性或属性划分为多个较小的子组或层,再从每个层内独立随机抽取样本。
估计与回归估计作为统计学中的核心概念,其主要目标是根据样本数据来估计或预测一个未知的总体参数。
在分层抽样的背景下,估计和回归估计的应用变得尤为重要。
因为通过这两个方法,我们可以有效地提高样本的代表性和估计的准确性,进而更准确地对总体进行推断和预测。
然而,在实际应用中,我们可能会遇到一些问题和挑战,如如何选择合适的分层变量,如何处理层间异质性等问题。
因此,如何解决这些问题,优化估计和回归估计在分层抽样中的应用,是本研究的重要任务。
最后,我们将通过实证研究来验证估计和回归估计在分层抽样中的有效性。
2 研究目的和方法2.1研究目的2.1.1对比估计与回归估计在分层抽样中的优劣:通过对比研究,明确哪种估计方法在分层抽样中更有效,或者在不同情况下哪种方法更适用。
2.1.2探讨分层抽样中估计与回归估计的应用:研究如何在分层抽样中应用比估计和回归估计,以及如何根据实际情况选择合适的估计方法。
2.1.3为分层抽样中的估计方法提供理论支持和实践指导:通过对比研究,为分层抽样中的估计方法提供理论依据和实践指导,帮助相关领域的研究者和实践者更好地理解和应用这些方法。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
由方差 相关系数
1 N S = ∑ (Yi Y ) 2 N 1 i =1
2 y
1 N S = ( X i X )2 ∑ N 1 i =1
2 x
ρ=
E (Yi Y )( X i X ) E (Yi Y ) 2 E ( X i X ) 2
=
∑ (Y
i =1
N
i
Y )( X i X )
(2)比估计方法,对抽样调查单元是有条件的,通 常是用组成总体的最基层单位为调查单元. (3)比估计只适用于有限总体,因为只有有限总体 才可能计算出为比估计所需要的辅助变量的总体 总和与总体均值. (4)当每个单元的调查变量与辅助变量的比例(一 般要求为正比例)十分稳定,且变异很小时,比估 计就具有十分精确的估计效果,只要抽取少量的 样本单元,就可得到满意的结论. (5)在比估计时,出于估计精度方面的要求,选择 辅助变量时,须与调查变量的关系愈密切愈好, 至少要求相关系数在1/2以上.
2 (1 f h ) 2 2 2 V (YRS ) ≈ ∑ N h ( S yh + Rh S xh 2 Rh ρ h S yh S xh ) nh h L
当各层的总体方差未知时,方差的估计量:
2 (1 f h ) 2 2 2 V (YRS ) ≈ ∑ N h ( s yh + Rh s xh 2 Rh rh s yh s xh ) nh h 1 Y的估计量的方差(或方差估计量)乘以 N 2 即可得出 Y 的估 L
三,各层分别比估计量与联合比估计量的比较 从偏倚的角度看,各层分别比估计量YRS的偏倚较大,从方 V 差的角度看,除了各层比率Rh均相等时, (YRS ) = V (YRC ) 外, 一般只要各层的样本量均较大时,各层比估计更加有效. 即有: V (YRC ) > V (YRS ) 因此,当 n h 均大时,用分别比估计量 YRS .否则用联合比估 计量 YRC 较好
X
注意到 y Rx 是 d i = yi Rxi 的样本均值,且d i 的总体均值D = Y RX = 0 因此 1 1 1 f 2 V ( R ) ≈ 2 E (d ) 2 = 2 Sd X X n
1 1 f 1 = 2 X n 1 N 1 1 f 1 N ∑ D = X 2 n N 1 ∑ (Yi RX i ) 2 i =1 i =1
二,总体比率的估计
设总体有N个单元,对每个单元考虑两个指标Y(调查指标)和X(辅助 变量).抽取容量为n的简单随机样本,则总体比率R的估计量为:
y y (样本比率) R = = x x
总体比率为 R =
Y Y = X X
比率估计是有偏的,但当样本量 n ( n → N )增大时,偏倚逐渐趋于零. 其方差为:
( N 1) S y S x
当总体方差未知时,可用样本方差替代,以估计方差.此 N 时: 2
1 f V1 ( R) = nX 2
∑(y
i =1
i
Rxi )
n 1
=
1 f 2 2 ( s y + R 2 s x 2 Rs yx ) 2 nX
或(X 未知时)
1 f V2 ( R ) = nx 2
N 2 i
证明:
1 f 1 N V ( R) = [ ∑ (Yi RX i ) 2 ] nX 2 N 1 i =1
N 1 f 1 = { [∑ (Yi Y ) R ( X i X )]2 } nX 2 N 1 i =1
N N N 1 f 1 2 2 2 = { [∑ (Yi Y ) + R ∑ ( X i X ) 2 R ∑ (Yi Y )( X i X )]} 2 nX N 1 i =1 i =1 i =1
L
其方差估计量为:
L ) ≈ W 2 (1 f h ) ( s 2 + R 2 s 2 2 R r s s ) V (YRC ∑ h n yh c xh c h yh xh h h
2 (1 f h ) 2 2 2 V (YRC ) ≈ ∑ N h ( s yh + Rc s xh 2 Rc rh s yh s xh ) nh h L
四,比估计量与简单估计量的比较 对简单随机抽样,若n足够大,则当
ρ>
1 Sx X 1 Cx × = × 2 Sy Y 2 Cy
时,有: V (YR ) < V ( y )
S Cx = x 其中: X
Cy = Sy Y
分别为总体中x与y的变异系数.
证明:∵n足够大时,对比估计量有: 证明
(1 f ) 2 2 V (YR ) ≈ ( S y + R 2 S x 2 Rρ S y S x ) n
比估计中,辅助变量可以是上次普查或调查时与调查变量 相应的数据(即调查变量的前期或历史资料);也可以是对 调查变量的粗略估计;或者是表示单元规模的某个量. 为了充分发挥比估计的优越性,在应用比估计时应考虑两 应用比估计时应考虑两 条: 一是选与调查变量有较密切的正相关关系的变量作为辅助 变量.因为如果辅助变量与调查变量的关系不密切,各自 独立变化,则对比估计起不了应有的辅助作用. 二是样本容量要比较大.因为比估计是有偏倚的,只有当 样本容量n比较大时,其偏倚才能比较小,比估计才更加 有效.
其中X 或 X必须已知. E (YR ) ≈ Y 当n充分大时 E (YR ) ≈ Y 即YR与YR分别是 Y 与 Y 的近似无偏估计. 其方差为:
1 f × V (YR ) = X 2V ( R ) ≈ n
=
( y i Rxi ) 2 ∑
i =1
N
N 1
=
1 f 2 2 ( S y + R 2 S x 2 RS yx ) n
五,样本容量的确定
估计总体比率时如果允许 R 的最大方差为V,当n充分大时, 由
1 f S 2 V ( R) ≈ d nX 2
Sd
1 N = ( y i Rxi ) 2 ∑ N 1 i =1
2
得
V = 1 f 2 Sd nX 2
Sd X 2V n= 2 Sd 1+ NX 2V
估计总体均值时,如果允许 YR 的最大方差为V, 1 f 2 S d 所以: 由于 V =
1 f 2 2 ( S y + R 2 S x 2 RρS y S x ) n
V (YR ) ≈ N 2V (YR ) = N 2 X 2V ( R)
≈
N (1 f ) × n
2
∑(y
i =1
N
i
Rxi ) 2
N 1
N 2 (1 f ) 2 2 = ( S y + R 2 S x 2 RρS y S x ) n
(
L L L yh = W Y = W yh X = 1 YRS ∑ h Rh ∑ h ∑ X h X h 及X h h N h xh xh h h
已知)
(
已知)
y YRS = ∑ h X h = ∑ YRh h xh h
L
L
Xh
在分层随机抽样中,若每层的样本量 nh 都较大,则 YRS为Y 的近似无偏估计.其方差为:
第五章 比估计与回归估计
第一节 第二节 第三节 第四节
比估计的一般形式 分层比估计 回归估计的一般形式 分层回归估计
第一节 比估计的一般形式
一,比估计综述 比估计是依据调查变量与辅助变量间的比率来对 总体有关参数进行估计和推断.通常简称比估计. 同简单估计相比,比估计具有以下特点: (1)在比估计中,除调查变量外,还需要了解与调 查变量有关的辅助变量,并且要求辅助变量的总 体均值或总体总和必须事先已知.充分利用辅助 变量带来的信息估计总体参数,比单纯用调查变 量资料会有更好的效果.
第三节 回归估计的一般形式
一,回归估计概述 回归估计就是根据样本各单元调查变量与辅助变量间的关系构 造回归方程,并据回归系数对总体有关参数进行估计. 如果在回归估计中只有一个辅助变量,则所进行的估计称为一 元回归估计,若同时采用多个辅助变量综合进行估计,则称为 多元回归估计.多元回归估计比一元回归估计效果更好,但更 复杂.这里只介绍一元回归中的线性回归估计. 回归估计的主要特点有: 回归估计的主要特点有: 同比估计一样,回归估计充分利用了有关的辅助变量资料以有 效地提高估计的精度;回归估计中要求辅助变量的总体均值或 总和事先已知;回归估计一般只适用于有限总体,因为只有有 限总体才可能计算出辅助变量的总体均值和总和;回归估计量 一般优于比估计量和简单估计量.特别地当回归系数等于总体 比率(即总体回归直线通过原点)时,回归估计量与比估计量的 效果相同,当调查变量与辅助变量间的相关系数ρ=0时,回归 估计与简单估计的效果相同.
∑(y
i =1
n
i
Rx i ) 2
=
n 1
1 f 2 2 ( s y + R 2 s x 2 Rs yx ) nx 2
其中
sy
2
s yx
1 n 1 n 2 2 = sx = ∑ ( yi y ) ∑ ( xi x ) 2 n 1 i =1 n 1 i =1 1 n = ∑ ( yi y )( xi x ) n 1 i =1
n
Sd n= V 2 S 1+ d NV
2
~ V ~ 估计总体总和时,如果允许 YR的最大方差为 V ,将 V = 2 N
代入上式,则得:
N 2Sd ~ V n= 2 NS d 1+ ~ V
2
第二节 分层比估计
分层随机抽样中的比估计量有两种形式:先构造 各层比估计,再加权平均——各层分别比估计; 先加权平均,再构造比估计——联合比估计. 一,各层分别比估计 各层分别比估计是先对各层分别进行比估计,然 后按层权加权平均,以得出总体参数的估计,即:
其方差估计量为:
1 f V (YR ) = n ( y i Rx i ) 2 ∑