比率估计回归估计(抽样技术——蒋妍)

合集下载

抽样技术中的比率估计法

文章编号：０８— ２５２０）１０２０１０８４（０７０ — ０９— ３
抽样技术中的比率估计法
张娅莉王燕
（阳职业技术学院，信河南信阳４４０）６００
摘要：在抽样技术比例估计与均值估计的基础上，提出了抽样技术的比率估计法，并对其作了详细的分
ｐｂｅｏｓａｉｔｅｅｒｔｆａｐｅｉｅｒａｌ，ａｒｖｄｆｒｌｏｅｍｅｏｆａｏｅｔｔｒｉｏｒｌｍｆｎｔｂｌｗｈｎｔａｏｏｍｌｄｆｒｇｅｔｎｉｏｅｍｕａｆｒｔｔｄｏｔｉｉｉｙｈｉｓｓｙｍｐｏｈｈｒｉｓｍａｏｓ
随着社会的发展，息成为各种管理和决策信的重要依据．但是由于种种限制，人们不可能对所有的信息进行全面研究．抽样调查作为获取信息的手段和方式，既具备全面调查所不具备的快速
经济的特点，又具有重点调查和典型调查所缺少的优势．因此，对抽样方法的研究也引起了人们广
＿ｖ
＝
Ｎ
泛的关注．文对抽样论中颇有应用前景的比率本估计法作了简要介绍，同时，出了一些自己的见提
解．
专时，随机项可以彼此抵消，蠡＝．即互０也即是
如果蠡很小，近似地得到尺专．们把＿可以＝我ｙ
和的比值称为比率，总体比率的计算公式为尺
ｐｔｆｒｒｙｍｅｓｏｌｔｒｇｗｉｈＣｅｕｅｔｅｅｅｔｏｏｓａａＩｈｓｗｙｅｔｒａｃｒｃｓａｕｗａｄｂａｆｃｕｅｉ，ｈｃａｒｄｃｆｆｎｉｅｄｔ．ｎｔｉａ，ｂｔｃｕａｙｉ．ｏｎｓｎｎｈｃｅｃｅｏ．ｉｄｈｖＫｅｒｓｓｐｅｔｈｏｏ；ｒｔｔｔｒｌｓｅｎｙｗｏｄ：ａｌｅｎｌｇａｉｅｉｍｃｙｏｓｍａｏ；ｃｕｔｒｇｉ

nonsampling error 抽样技术——蒋妍

项目无回答对每个缺失值都寻找一个或多个尽可能与其类似的插补值。一般的插补模型可以表示为： Z = f(X) + e

式中，Z是插补值，X是无回答单位的辅助变量向量，f() 是辅助数据的某一函数，e是残差。插补法的效率如何，取决于插补值与原无回答数据的相似程度。
插补法

根据插补值是否包括残差，插补法可分为确定性插补和随机性插补。根据确定插补值时是否使用辅助变量，将插补法分为使用辅助变量插补法和不使用辅助变量插补法。使用辅助信息的插补法又可根据信息来源分为热卡法和冷卡法。热卡法（Hot-Deck）中的辅助信息来自当前调查，冷卡法（Cold-Deck）中的辅助信息来自以前的同类调查或其它已有的关于无回答单位的相关资料。根据对每个缺失值的插补值的数，插补法又可分为单一插补法（ single imputation ）和多重插补法（multiple imputation）。

为了对个体无回答进行调整，该调查利用了入户未访问调整因子WHHNAF （within-household noninterview adjustment factor）。NCVS访员们收集了无回答者的人口统计信息，使用该信息可将所有人划分到24个加权调整单元中去。而这些单元是根据受访者的年龄、与户主的关系以及户主的种族等进行定义的
回归法
通过建立y与辅助变量间的回归方程来补入缺失的y值。优点：方法简单，对无回答的估计效果好，对每个被插补变量，可以利用不同的预测变量缺点：如果没有随机误差项，可能导致高估；可能造成多重共线性；可能降低方差。

ˆ Pi log 2.56 0.0896 age ˆ 1 Pi

比率估计法

比率估计法简介在统计学中，比率估计法是一种用来估计总体比率的方法。

比率是指总体中某个特定类别的个体数与总体规模之间的比值。

比如，在人口统计学中，我们关心某个国家的男性和女性的比例；在市场调研中，我们关心某个产品的市场占有率。

比率估计法基于从总体中随机抽取样本的方法。

通过对样本的观察，我们可以利用样本中的比例来估计总体的比例。

比率估计法有多种形式，其中最常用的是点估计和区间估计。

点估计点估计是指根据样本数据，直接计算出总体比率的估计值。

估计值通常以样本比率的形式给出。

样本比率是指样本中满足某个条件的个体数与样本规模之间的比值。

点估计的优点是简单直接，可以通过简单的计算得到一个估计值。

但是，点估计的缺点是没有给出总体比率的不确定性程度，无法提供置信区间。

点估计的计算公式如下：p̂=x n其中，p̂为总体比率的估计值，x 为样本中满足条件的个体数，n 为样本规模。

区间估计区间估计是指根据样本数据，给出总体比率的估计区间。

估计区间包含了总体比率的真实值的可能范围。

区间估计的优点是可以提供总体比率的不确定性程度，使得我们可以评估估计值的可靠程度。

区间估计的缺点是计算较为复杂，需要使用统计方法进行推导。

区间估计的计算过程通常使用正态分布或二项分布进行，具体方法需要根据样本的具体情况进行选择。

在具体计算时，需要给定一个置信水平，通常为95%或99%。

置信水平是指给定样本数据，重复进行抽样和估计的过程中，估计区间包含真实值的比例。

区间估计的计算公式如下：p̂±Z √p̂(1−p̂)n其中，p̂为总体比率的估计值，Z 为与置信水平相对应的分位数，n 为样本规模。

总结比率估计法是一种用来估计总体比率的方法。

通过随机抽取样本，并对样本数据进行观察和统计，可以得到总体比率的估计值以及估计的不确定性程度。

点估计直接计算估计值，简单直接；区间估计则给出了估计区间，评估估计值的可靠程度。

比率估计法在统计学和市场调研中应用广泛，可以帮助我们了解总体的特征和趋势，做出合理的决策。

比率估计回归估计(抽样技术——蒋妍)

1 15 2 V ( y ) yi E ( y ) 97.87 15 i 1
B( yR ) E( yR ) Y 0.31356
MSE( yR ) V ( yR ) B2 ( yR ) 2.92
• 简单估计是无偏的，而比估计是有偏的。 • 简单估计量的方差远远大于比估计量的方差，比估计的偏差不大，其均方误差也比简单估计的小得多。 • 因此对这个总体，比估计比简单估计的效率高。
1 f 2 V y Sy n
1 f 2 1 f 2 2 V yR S y R 2 S x 2 RS yx S y R 2 S x2 2 RS y S x n n

比率估计量优于简单估计量的条件是：
2 R2 Sx 2RS y Sx 0
6 10 46 平均值 4.5 18
y yR X x
y x
i i
X
1 15 E ( yR ) yRi 17.686 15 i 1
1 2 V ( yR ) yRi E ( yR ) 2.82 15 i 1
15
1 15 E ( y ) yi 18 15 i 1
后者的总体均值为Y
故（2）式成立
其样本估计量：
1 f 2 2 2 ( y Lr ) ( s y 0 s x 2 0 s yx ) n
(3)
性质：
A： y Lr 是 Y 的无偏估计 B： ( y Lr ) 是 V ( y Lr ) 的无偏估计 C： 0 的最佳值是
如果每一层样本量都比较大，各层R相差较大，则分别比率估计量的方差小于联合比率估计量的方差。但当每层的样本量不太大时，还是采用联合比率估计量更可靠些，因为这时分别比率估计量的偏倚很大，从而使总的均方误差增大。

比率估计抽样的原理和应用

比率估计抽样的原理和应用1. 什么是比率估计抽样比率估计抽样是一种常见的统计抽样方法，用于估计总体中的某一个特定比率。

在比率估计抽样中，通过对样本进行观察和测量，得到样本中某个特定属性的比率，并以此推断总体中的相同属性的比率。

2. 比率估计抽样的原理比率估计抽样的原理基于无偏性和有效性的要求。

在比率估计抽样中，首先要保证样本是从总体中随机选择的，以保证样本的无偏性。

然后，通过对样本中的个体进行观察和测量，得到样本中某个特定属性的比率。

最后，利用统计学中的方法和技巧，将样本中的比率推断到总体中，从而得到总体的比率估计。

3. 比率估计抽样的应用比率估计抽样在实际应用中有着广泛的应用。

以下是一些常见的应用场景：3.1 市场调研市场调研是比率估计抽样的常见应用之一。

通过对一定规模的样本进行调研，可以了解到市场中某种产品或服务的受欢迎程度、购买意愿、满意度等信息。

通过对样本中的比率进行推断，可以估计全体消费者的相关比率。

3.2 社会调查社会调查也是比率估计抽样的重要应用领域之一。

通过对样本中的人群进行调查，可以了解到社会中某种观点、态度或行为的比率。

通过对样本中的比率估计，可以推断全体人群的相关比率。

3.3 质量控制在质量控制领域，比率估计抽样也有着重要的应用。

通过对一定数量的产品进行抽样检验，可以了解到产品的合格比率、不良比率等信息。

通过对样本中的比率进行推断，可以估计生产批次或全体产品的相关比率。

3.4 健康调查健康调查是比率估计抽样的另一个重要应用领域。

通过对一定规模的样本进行调查和测量，可以了解到人群中某种疾病的患病率、风险因素的比率等信息。

通过对样本中的比率进行推断，可以估计全体人群的相关比率。

4. 比率估计抽样的步骤比率估计抽样一般包括以下步骤：4.1 确定研究目标在进行比率估计抽样前，需要明确研究的目标和需要估计的比率。

4.2 选择适当的抽样方法根据研究的目标和研究对象的特点，选择适当的抽样方法，如简单随机抽样、分层抽样、整群抽样等。

比率估计量

《抽样技术》第四章
王学民编
第四章比率估计量
§4.1 §4.2 §4.3 §4.4 §4.5 §4.6 §4.7 §4.8

偏差和它的影响比率的估计比率估计量比率估计量的近似方差从一个样本估计方差置信区间比率估计量与单元均值的比较分层随机抽样中的比率估计量
ˆ 的估计值为 V Y R

N 2 1 f 2 ˆ 2 2 ˆ s y R sx 2 Rs yx n 1 n yi y xi x 是yi与xi的样本协方其中 s yx n 1 i 1 差，它是Syx的无偏估计。

1 f 2 2 2 ˆ V R S R S x 2 RS yx 2 y nX

定理2 总体总值Y，总体均值 Y，以及总体比率 R=Y/X的比率估计量分别是 y y y ˆ ˆ YR X , yR X , R x x x 对一个容量为n的简单随机样本（n很大）有
N 2 Y RX 2 i i N 1 f ˆ V Y i 1 R n N 1
§4.5 从一个样本估计方差

N 2 Yi RX i 2 N 1 f i 1 ˆ V YR n N 1

习惯上取 i 1

n
ˆ yi Rx i n 1

2
作为 i 1
Y RX
i i
N
2
N 1

可估计为
1 f 2 ˆ2 2 ˆ ˆ s R s R s 2 Rs y x yx nx 2 当 X 已知时，也可估计为 1 f 2 ˆ2 2 2 ˆ ˆ s1 R s R s 2 Rs y x yx nX 2

比率估计法

比率估计法比率估计法是一种重要的统计方法，主要用于分析投资项目的风险和收益。

由于各种原因，如数据隐私、公开信息有限等，直接对投资项目的价值进行估计变得非常困难。

因此，比率估计法应运而生，成为一种广泛应用的替代方法。

比率估计法主要通过对投资项目的财务比率进行估算，来评估项目的风险和收益水平。

财务比率通常包括盈利能力比率、偿债能力比率和运营能力比率等。

通过将这些比率的估算值与行业标准或公认水平进行比较，可以得出一个合理的相对价值，从而为投资者提供参考。

比率估计法的优势在于其简便性和可靠性。

由于财务数据通常较为容易获取，因此，投资者可以迅速通过对财务数据的收集和整理，来计算出相应的比率数值。

此外，比率估计法并未对财务数据进行过多的假设，因此，得出的结果相对较为准确。

然而，比率估计法也存在一定局限性。

首先，由于财务数据可能存在一定程度的误差或遗漏，因此，比率估计法的结果仅供参考，投资者不应将其作为投资决策的唯一依据。

其次，比率估计法仅关注财务指标，而忽略了项目其他方面的信息，如管理团队、市场前景等，因此，投资者在进行投资决策时，还应当充分考虑其他因素。

为了弥补这些局限性，投资者可以采用多种方法对投资项目进行综合评估。

首先，对投资项目的财务比率进行更加详细和深入的剖析，从而减小因财务数据误差而产生的影响。

其次，通过对项目的其他方面进行充分调查，如管理团队、市场前景等，从而为投资者提供更全面的信息。

最后，投资者还可以通过与其他投资者进行交流，了解市场对于投资项目的看法，从而为投资者提供更有价值的参考。

总之，比率估计法是一种重要的统计方法，可以作为投资者进行投资决策的有力依据。

然而，投资者应当充分了解比率的局限性，采取多种手段对投资项目进行综合评估，从而提高投资决策的准确性。

同时，投资者还应该关注投资项目的其他方面，如管理团队、市场前景等，为投资者带来更丰富的投资回报。

比率估计的名词解释

比率估计的名词解释比率估计是统计学中的一种常用方法，用于根据样本数据推断总体的特征。

它是通过计算不同群体之间的比率来进行估计，从而揭示总体的分布和特征。

本文将对比率估计的概念、应用场景和计算方法进行详细解释，并探讨其在实际问题中的意义和局限性。

一、比率估计的概念比率估计是统计学中重要的参数估计方法之一。

所谓比率，是指两个相关群体之间数量上的关系，可以是两个互斥事件之间的比率，也可以是两个不互斥事件之间的比率。

在估计过程中，我们通常使用样本数据来推断总体的比率。

比率估计的目标是根据样本的统计结果，推断出总体中某一特征的比例。

二、比率估计的应用场景比率估计广泛应用于各个领域，具有丰富的应用场景。

以下列举几个常见的应用示例。

1. 市场调研：比率估计可以用于估计不同市场的消费者群体中，对某一产品的购买比例。

通过抽样一部分消费者，并了解他们对产品的偏好和购买行为，可以推断整个市场的购买比例，为制定营销策略提供依据。

2. 医学研究：比率估计可以在临床研究中发挥重要作用。

例如，对于某种疾病的发病率，我们可以通过抽样患者群体，并观察其具体情况，从而估计总体患病率。

这对医生了解病情、预防控制和治疗方案的制定都具有重要意义。

3. 教育评估：比率估计可以用于教育领域的评估，例如统计学习成绩的比率。

通过抽样学生群体，并对其进行考试和测评，可以推断全体学生的学习水平，从而更好地指导教学和评估教育质量。

三、比率估计的计算方法在比率估计中，我们通常使用样本比例来估计总体比例。

样本比例是指在样本中具有某一特征的个体数与样本总个体数之间的比值。

根据中心极限定理，当样本容量足够大时，样本比例的抽样分布会逼近于正态分布。

根据这一原理，我们可以使用置信区间来估计总体比例。

置信区间是用于描述估计值的不确定性范围的统计概念。

在比率估计中，置信区间给出了总体比例真值所在的可能范围。

通常，我们使用95%的置信水平来构造置信区间，这意味着在一百次实验中，大约有95次的置信区间会包含总体比例的真实值。

《抽样技术与应用》教学大纲

《抽样技术与应用》课程教学大纲课程代码：090542020课程英文名称：Sampling Technique and Application课程总学时：48 讲课：40 实验：8 上机：0适用专业：应用统计学大纲编写（修订）时间：2017.6一、大纲使用说明（一）课程的地位及教学目标抽样技术与应用是应用统计学专业学生的一门专业选修课。

开设本课程的目的是为了满足日后学生参加统计调查实践工作的需要。

1994年，我国进一步提出建立以周期性普查为基础，以经常性调查为主体，重点调查、科学核算等为补充的统计调查方法体系的目标模式，这标志着抽样调查将逐步成为我国最主要的统计调查方法，应用的广度和深度也将进一步加强。

通过本课程的教学，使学生系统掌握抽样技术的基本理论、方法和技能。

（二）知识、能力及技能方面的基本要求1.基本知识：掌握简单随机抽样、分层随机抽样、整群抽样、多阶段抽样、系统抽样、二重抽样、不等概率抽样的基本概念、基本原理。

2.基本能力：要求掌握各种分析方法的应用场合、条件、程序、要点；熟知活的各种抽样估计结果的步骤和结果的含义。

3.基本技能：要求具有对一般实际场合和具体情况选择合适的抽样方法、制定抽样方案的能力。

（三）实施说明1. 本大纲主要依据应用统计学专业2017版教学计划、应用统计学专业专业建设和特色发展规划和沈阳理工大学编写本科教学大纲的有关规定及相关学校使用的《抽样技术与应用教学大纲》并根据我校实际情况进行编写的。

2. 课程学时总体分配表中的章节序号在授课过程中可酌情调整顺序，课时分配仅供参考。

打“*”号的章节可删去或选学。

3. 建议本课程采用课堂讲授、讨论、上机实验相结合的方法开展教学，通过习题课和讨论等方式强化重点，通过分散难点，使学生循序渐进的掌握。

4．教学手段：建议采用多媒体等现代化手段开展教学。

（四）对先修课的要求本课的先修课程：概率论与数理统计。

要求学生取得概率论与数理统计课程学分。

注会《审计》知识点：均值估计抽样、比率估计抽样

注会《审计》知识点：均值估计抽样、比率估计抽样
为了方便备战2013注册会计师考试的学员，中华会计网校论坛学员精心为大家分享了注册会计师考试各科目里的重要知识点，希望对广大考生有帮助。

均值估计抽样：均值估计抽样是以样本平均数代替总体平均数。

如果总体未分层，那么总体中的各个体之间的悬殊就比较大，抽取的样本可能不小心抽到一个比较大的个体（或者是一个极小的个体），这样都会严重影响样本的平均数，使之不具代表性，以这个平均数作为总体的平均数将会带来严重的误差，为了得到准确的结果，必须大规模样本才可以。

所以未对总体进行分层的情况下，不宜使用均值估计抽样。

比率估计抽样：样本错报/样本总金额=推断的总体错报/总体总金额比率估计抽样是指以样本的实际金额与账面金额之间的比率关系来估计总体实际金额与账面金额之间的比率关系，然后再以这个比率去乘总体的账面金额，从而求出估计的总体实际金额的一种抽样方法。

错报与总体金额存在变动关系，因此样本错报与样本总金额的比和总体错报与总体总金额的比才是相等的关系。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

u u
^
^
^
yLr y (X x) y (x X) ˆ Y N y
Lr Lr
) 0, 则yLr y (srs ；若令
y , 若 R 则yLr y x (X x) yR （估）令比计
回归估计应用的两种情况：
1.
事先确定
Chapter 4 Ratio and Regression Estimator
怎样估计你的英语词汇量？
• 1802年，拉普拉斯想要估计法国的人口数目。他获得了一个遍布全国范围的30commune的样本，截至1802 年9月23日总共有2，037615居民。在包括1802年9月23 日以前的三年中，215599个新生儿在30个commune。 • 拉普拉斯认为30个commune的每年注册的新生儿数为 215599/3=71866.33.把2037615按照71866.33来分，拉普拉斯估计每年每28.35人里有一个注册新生儿。 • 具有众多人口的乡镇也就可能有同样众多的注册新生儿，通过用28.35乘以全法国年度新生儿总数来估计得出法国人口总数。 • 调查中都有辅助信息，抽样框也通常有每个单元额外的信息，这些信息能被用来提高我们的估计精度。
• 简单地想要估计一个比率 :假定总体由面积不同农业用地构成， yi =i地谷物的产量, xi ：i地的面积，B=每亩谷物的平均产量
^
ty Ny
• 想要估计一个总体总数，但总体大小N是未知的。但是我们知道,于是可以通过来估计N, 由此我们可以使用不同于总数N的方法而是采用辅助变量来进行测量。 • 要估计渔网中长度长于12cm的鱼的总数，抽取一个鱼的随机样本，估计长度长于12cm的鱼所占的比例，用鱼的总数N乘以这个比例即可得到，但如果N未知不能使用。 • 能称量渔网中鱼的总重量。鱼的长度与其重量相关。 t yr y tx
i
Yi
Xi
i
Yi
Xi
1 2 3
780 1500 1005
100 50 50
6 7 8
2170 1823 1450
120 150 80
4
5
376
600
10
20
9
10
158
1370
20
50
• 该县船舶在调查月完成货运量的比率估计为 y 1123.2
ˆ YR x X 65 154626 2671937
1 Sx X Cx 2 S y Y 2Cy
正高度相关
2.比率估计成为最优线性无偏估计的条件 (1). yi 与 x 的关系是过原点的直线 (2). yi 对这条直线的方差与 x 成比例。则比率估计是最优线性无偏估计(BLUE)。
i i
• 【例4.2】某县在对船舶调查月完成的货运量进行调查时，对运管部门登记的船舶台帐进行整理后获得注册船舶2860艘，载重吨位154626吨，从2860艘船舶中抽 i 取了一个的简单随机样本，调查得到样本船舶调查月完成的货运量及其载重吨位如下表（单位：吨），要推算该县船舶调查月完成的货运量。
设的确定值为0 ， 0 是一常数，则：
yLr y 0 ( X x)
（1）
V ( y Lr
1 f 1 ) n N 1
2 y

N
[( Y i Y ) 0 ( X i X )] 2
1 f (S n
S
2 0
2 x
2 0S
yx
)
(2)
因为 E ( ylr ) E ( y ) 0 E ( X x ) Y 而 y lr 又可表为y i 0 ( X xi ) 的样本均值
2 1 3
简单估计 2 6 9.5 15 23.5 7 10.5 16 24.5 14.5 20 28.5 23.5 32 37.5
3 3 11 4 5 18 5 8 29
比估计 18 18 17.1 16.875 21.15 15.75 15.75 16 20 16.3 16.36 19.73 16.27 19.2 18.75
比率估计的近似方差 ˆ ˆ ) V ( XR) X V ( R)
2
ˆ ) E ( R R) 2 ˆ V (R
当 R>0.5 时,比估计比 srs 有更高的精度。 1
1 f 1 Y RX 1 f S R S 2 RS VR yx 1 nX nX N
6 10 46 平均值 4.5 18
y yR X x
y x
i i
X
1 15 E ( yR ) yRi 17.686 15 i 1
1 2 V ( yR ) yRi E ( yR ) 2.82 15 i 1
15
1 15 E ( y ) yi 18 15 i 1
2

1 f 1 n ˆ ˆ v1 ( R) ( yi Rxi )2 nX 2 n 1 i 1
ˆ ) 1 f ( s 2 2 Rsxy R 2 sx ) ˆ ˆ 2 v2 ( R y nx 2
三、比率估计的效率
• 1.与简单估计的比较简单估计量无偏，而比率估计量渐近无偏。因此这里只比较当ｎ比较大的情形。
bined Ratio estimator
分别比率估计量要求每一层的样本量都比由y 估 y ， x 估 x 。计由计
h st h st
较大，如果达不到这个要求，则它的偏倚可能比较大，这时使用联合比率估计量。 combined ratio estimator
y RC
y st ˆ X RC X x st
ˆ y st X Ny R X ˆ YRC RC C x st
方差的比较
Wh2 2 2 2 ˆ 垐 YRs V (YRS ) N 2 ( S yh Rh S xh 2 Rh S yxh ) nh Wh2 2 ˆ 2 垐 YRc V (YRC ) N 2 ( S yh Rc2 S xh 2 Rc S yxh ) nh
ˆ ˆ •V如果各层的样本量不小的话，则可以采用 ( y R ) V ( XR) X 2V ( R) 各层分别进行比率估计，将各层加权汇总 ˆ ˆ V (YR ) N 2 X 2V ( R) 得到总体指标的估计，这种方式称为分别当 R>0.5 时,比估计比 srs 有更高的精度。比率估计量。separate ratio estimator
分层抽样下，比估计有两种方法： 1.Separate Ratio estimator
r1
y x
1
, r2
1
y x
2 2
,
…….
rL
y x
L L
(h=1,2,…..L)
yh yRS h yRh h W W Xh xh
ˆ Ny yh X Y ˆ YRS RS h Rh xh
x
u
二、比率估计的性质
E (r R) 1 f 2 ( S x S y RS x ) nX 2
偏倚量会小，如果：样本量n 很大抽样比n/N很大 x u 很大 S x很小相关系数R接近于1
2 V ( yR ˆ ˆ V (YR ) N 2 X 2V ( R)
1
Xi
2 1 3
3 3 11
4 5 18
5 8 29
6 10 46
平均值 4.5 18
0 1
Yi
2 C6 15 样本
yR
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
1 0 1
1，2 1，3 1，4 1，5 1，6 2，3 2，4 2，5 2，6 3，4 3，5 3，6 4，5 4，6 5，6
如果每一层样本量都比较大，各层R相差较大，则分别比率估计量的方差小于联合比率估计量的方差。但当每层的样本量不太大时，还是采用联合比率估计量更可靠些，因为这时分别比率估计量的偏倚很大，从而使总的均方误差增大。
^
六 R 、 egression E ator stim
y
reg
B0 B1x y B1( x x)
为什么要使用比率估计/回归估计
• 利用总体的辅助信息提高估计的精度。
–辅助指标的选择：辅助指标应该与调查指标有较好的正的相关关系。y 的抽样分布较 y 的抽样分布变动性要小得多。 xu x –辅助指标的总体总量或总体均值已知。
• 比率估计、回归估计需要有足够的样本量才能保证估计的有效。
–有偏估计：当样本量足够大时，估计的偏倚趋于0。
^ x
• 调整来自样本的估计量以便它们反映人
口统计学的总量。
• 在一所具有4000名学生的大学提取一个 400个学生的简单随机样本，此样本可能包含240个女性，160个男性，且其中被抽中的84名女性和40名男性计划以教学为毕业后的职业。
4000 124 1240 400
84 40 2700 1300 1270 240 160
y x
• 比率估计量被用来对无回答进行调整 • 设抽取一个行业的样本：令yi为i行业花费在健康保险上的金额，xi为i行业的雇员数。假定对总体中的每个行业xi均已知。我们希望一个行业花费在健康保险上的金额与雇员数相关。某些行业在调查中可能涉及不到。估计保险费用的总花销时调整无回答的方法之一是用总体数 X 乘以比率 y
分层抽样下，比估计有两种方法： X 1.Separate Ratio estimator N 2 2 2 2 y1 y2 yL i y x r1 ,2 r2 , i 2 rL x1 x2 ……. x L (h=1,2,…..L) i1