《抽样技术》第四章-比率估计量
抽样技术课后习题答案

12
160
1700
3
170
2000
13
180
2000
4
150
1500
14
130
1400
5
160
1700
15
150
1600
6
130
1400
16
100
1200
7
140
1500
17
180
1900
8
100
1200
18
100
1100
9
110
1200
19
170
1800
10
140
1500
20
120
1300
20
试估计平均每户家庭订报份数及总的订报份数,以及估计量的方差。
解:由题意得到 , , ,
故 (份)
(份)
(份)
于是由以上的计算结果得到平均每户的订报份数为1.875,估计量方差为0.00391875。该辖区总的订阅份数为7500,估计量方差为62700。
4.2
某工业系统准备实行一项改革措施。该系统共有87个单位,现采用整群抽样,用简单随机抽样抽取15个单位做样本,征求入选单位中每个工人对政策改革措施的意见,结果如下:
1
42
6.2
11
60
6.3
2
51
5.8
12
52
6.7
3
49
6.7
13
61
5.9
4
55
4.9
14
49
6.1
5
47
5.2
15
57
6.0
比率估计

分层抽样下,比率估计有两方法:
1.Separate Ratio estimator yL y y 2 rL , r , r2 xL x2 ……. x
1 1 1
(h=1,2,…..L)
y RS Wh y Rh
yh Wh Xh xh
ˆ Ny Y RS RS
yh ˆ X h Y Rh xh
bined Ratio estimator
联合比率估计量
combined ratio estimator
y RC
y st ˆ X X R C x st
ˆ Y RC
y st ˆ X X Ny RC R C x st
N (1 f ) 2 11 ˆ v Y s y 3.43303 10 n
2
ˆ s Y
ˆ ) 585921 v(Y
ˆ) v ( Y R ˆ deff 0.6135 ˆ) v(Y
效率:
分层随机抽样下的比率估计
•如果各层的样本量不小的话, 则可以采用各层分别进行比率 估计,将各层加权汇总得到总 体指标的估计,这种方式称为 分别比率估计量。separate
(1)按分别比率估计量估计
ˆX ˆ R Y RS
2 h 1 h h
0.959859 171400 1.049725 102900 272536.6
2 Nh (1 f h ) 2 2 2 ˆ ˆ s R yh h s xh 2 Rs yxh nh h 1 2
比率估计的效率 (与简单估计比较)
简单估计量无偏,而比率估计量渐近无偏。当n比较大
1 f 2 V y Sy n 1 f 2 2 2 V yR S y R S x 2 RS yx n
抽样技术第四习题答案

第2章2.1 解:()1 这种抽样方法是等概率的。
在每次抽取样本单元时,尚未被抽中的编号为1~64的这些单元中每一个单元被抽到的概率都是1100。
()2这种抽样方法不是等概率的。
利用这种方法,在每次抽取样本单元时,尚未被抽中的编号为1~35以及编号为64的这36个单元中每个单元的入样概率都是2100,而尚未被抽中的编号为36~63的每个单元的入样概率都是1100。
()3这种抽样方法是等概率的。
在每次抽取样本单元时,尚未被抽中的编号为20 000~21 000中的每个单元的入样概率都是11000,所以这种抽样是等概率的。
2.3 解:首先估计该市居民日用电量的95%的置信区间。
根据中心极限定理可知,在大_y E y y -=近似服从标准正态分布, _Y 的195%α-=的置信区间为y z y z y y αα⎡⎡-+=-+⎣⎣。
而()21f V y S n-=中总体的方差2S 是未知的,用样本方差2s 来代替,置信区间为,y y ⎡⎤-+⎢⎥⎣⎦。
由题意知道,_29.5,206y s ==,而且样本量为300,50000n N ==,代入可以求得 _21130050000()2060.6825300f v y s n --==⨯=。
将它们代入上面的式子可得该市居民日用电量的95%置信区间为7.8808,11.1192⎡⎤⎣⎦。
下一步计算样本量。
绝对误差限d 和相对误差限r 的关系为_d rY =。
根据置信区间的求解方法可知____11P y Y r Y P αα⎫⎪⎧⎫-≤≥-⇒≤≥-⎨⎬⎩⎭根据正态分布的分位数可以知道1P Z αα⎫⎪⎪≤≥-⎬⎪⎪⎭,所以()2_2r Y V y z α⎛⎫⎪= ⎪⎝⎭。
也就是2_2_222/221111r Y r Y S n N z S n N z αα⎡⎤⎛⎫⎢⎥⎛⎫⎪⎛⎫⎝⎭⎪⎢⎥-=⇒=+ ⎪ ⎪⎢⎥⎝⎭⎝⎭⎢⎥⎣⎦。
把_29.5,206,10%,50000y s r N ====代入上式可得,861.75862n =≈。
第4章 比率

第4章 比率、回归与差值估计 4.1 引言一、概念与作用 (一)概念当调查的目标量是总体比率时,必须借助于调查变量与辅助变量之间的关系来提高估计的精度。
社会经济现象的复杂性,决定了不能单纯依靠调查变量对总体进行简单估计,而需要依靠与调查变量相关的辅助变量来研究复杂现象的方法,称为比率估计或回归估计。
这是一种非线性估计方法。
线性关系与非线性关系的区别1、线性关系只有一种,而非线性关系则千变万化,不胜枚举。
2、线性是非线性的特例,它是简单的比例关系,各部分的贡献是相互独立的;而非线性是对这种简单关系的偏离,各部分之间彼此影响,发生偶合作用,这是产生非线性问题 。
(二)特点同简单估计相比,比估计具有以下特点:1、在比估计或回归估计中,除调查变量外,还需要了解与调查变量有关的辅助变量,并且要求辅助变量的总体均值或总体总和必须事先已知。
充分利用辅助变量带来的信息估计总体参数,比单纯用调查变量资料会有更好的效果。
2、比估计或回归估计方法,对抽样调查单元是有条件的,通常是用组成总体的最基层单位为调查单元。
3、比估计或回归估计只适用于有限总体,因为只有有限总体才可能计算出为比估计所需要的辅助变量的总体总和与总体均值。
4、当每个单元的调查变量与辅助变量的比例(一般要求为正比例或正相关)十分稳定,且变异很小时,比估计或回归估计就具有十分精确的估计效果,只要抽取少量的样本单元,就可得到满意的结论。
5、在比估计或回归估计时,出于估计精度方面的要求,选择辅助变量时,须与调查变量的关系愈密切愈好,至少要求相关系数在1/2以上。
(三)应用条件1、要有相应的辅助资料可以利用;2、要求推断的便利与辅助变量之间存在着相关关系;3、要求样本容量足够大。
三、 符号说明 ∑==N i iX X 1总体总量:总体均值:总体方差:总体协方差: 样本均值:样本方差:样本协方差:总体相关系数:样本相关系数: §4.2 比率估计简单随机抽样下的比率估计定义:比率估计—是指当调查的目标量是总体比率时,依据调查变量与辅助变量间的比率来对总体有关参数进行估计和推断。
比率估计法

比率估计法简介在统计学中,比率估计法是一种用来估计总体比率的方法。
比率是指总体中某个特定类别的个体数与总体规模之间的比值。
比如,在人口统计学中,我们关心某个国家的男性和女性的比例;在市场调研中,我们关心某个产品的市场占有率。
比率估计法基于从总体中随机抽取样本的方法。
通过对样本的观察,我们可以利用样本中的比例来估计总体的比例。
比率估计法有多种形式,其中最常用的是点估计和区间估计。
点估计点估计是指根据样本数据,直接计算出总体比率的估计值。
估计值通常以样本比率的形式给出。
样本比率是指样本中满足某个条件的个体数与样本规模之间的比值。
点估计的优点是简单直接,可以通过简单的计算得到一个估计值。
但是,点估计的缺点是没有给出总体比率的不确定性程度,无法提供置信区间。
点估计的计算公式如下:p̂=x n其中,p̂为总体比率的估计值,x 为样本中满足条件的个体数,n 为样本规模。
区间估计区间估计是指根据样本数据,给出总体比率的估计区间。
估计区间包含了总体比率的真实值的可能范围。
区间估计的优点是可以提供总体比率的不确定性程度,使得我们可以评估估计值的可靠程度。
区间估计的缺点是计算较为复杂,需要使用统计方法进行推导。
区间估计的计算过程通常使用正态分布或二项分布进行,具体方法需要根据样本的具体情况进行选择。
在具体计算时,需要给定一个置信水平,通常为95%或99%。
置信水平是指给定样本数据,重复进行抽样和估计的过程中,估计区间包含真实值的比例。
区间估计的计算公式如下:p̂±Z √p̂(1−p̂)n其中,p̂为总体比率的估计值,Z 为与置信水平相对应的分位数,n 为样本规模。
总结比率估计法是一种用来估计总体比率的方法。
通过随机抽取样本,并对样本数据进行观察和统计,可以得到总体比率的估计值以及估计的不确定性程度。
点估计直接计算估计值,简单直接;区间估计则给出了估计区间,评估估计值的可靠程度。
比率估计法在统计学和市场调研中应用广泛,可以帮助我们了解总体的特征和趋势,做出合理的决策。
第四章 抽样技术

• (五)多阶段抽样
– 含义:multistage sampling-----即先抽大的调 查单元,在大单元中抽小单元,再在小单元 中抽更小的单元。如:我国的城市职工家计 调查,采用三阶段抽样,先城市-基层单位调查户。
第四章 抽样技术
– 应用:在复杂、大规模的市场调查中。
• (六)抽样技术的选用原则
• (四)常用术语
– 1.总体(population)与样本(sample) – 2.总体指标和样本指标
• 总体指标-------反映总体数量特征的指标,有总 体平均数µ,总体比例P, 总体方差 σ 2
第四章 抽样技术
– 样本指标------又称样本估计量或统计量,用 以估计和推断相应总体指标的综合指标,有 样本平均数 x ,样本比例p ,样本方差S2。
第四章 抽样技术
• 成数------分总体成数与样本成数 • 含义------总体中具有某种特征的单位占全部单 位的比例,称总体成数(总体比例) • 如:产品的合格率,市场占有率等。 • 样本成数的抽样分布
– 当从总体中抽出一个容量为n的样本时,样本中具有 某种特征的单位数x服从二项分布,即有x~B(n, π),且 有E(x)=n π V(x)=n π(1- π). – 因而样本比例p=x/n也服从二项分布,且有: – E(p)=E(x/n)= π – V(p)=V(x/n)=1/n π(1- π)
第四章 抽样技术
第四章 抽样技术
第四章 抽样技术
本章要点
• 1.抽样调查的含义、特点与程序; • 2.随机抽样技术的类型及其各自的特点、 方法; • 3.非随机抽样技术的类型及其各自的特 点、方法; • 4.抽样误差的含义及其计算方法 。
第四章 抽样技术
比率估计抽样的原理和应用

比率估计抽样的原理和应用1. 什么是比率估计抽样比率估计抽样是一种常见的统计抽样方法,用于估计总体中的某一个特定比率。
在比率估计抽样中,通过对样本进行观察和测量,得到样本中某个特定属性的比率,并以此推断总体中的相同属性的比率。
2. 比率估计抽样的原理比率估计抽样的原理基于无偏性和有效性的要求。
在比率估计抽样中,首先要保证样本是从总体中随机选择的,以保证样本的无偏性。
然后,通过对样本中的个体进行观察和测量,得到样本中某个特定属性的比率。
最后,利用统计学中的方法和技巧,将样本中的比率推断到总体中,从而得到总体的比率估计。
3. 比率估计抽样的应用比率估计抽样在实际应用中有着广泛的应用。
以下是一些常见的应用场景:3.1 市场调研市场调研是比率估计抽样的常见应用之一。
通过对一定规模的样本进行调研,可以了解到市场中某种产品或服务的受欢迎程度、购买意愿、满意度等信息。
通过对样本中的比率进行推断,可以估计全体消费者的相关比率。
3.2 社会调查社会调查也是比率估计抽样的重要应用领域之一。
通过对样本中的人群进行调查,可以了解到社会中某种观点、态度或行为的比率。
通过对样本中的比率估计,可以推断全体人群的相关比率。
3.3 质量控制在质量控制领域,比率估计抽样也有着重要的应用。
通过对一定数量的产品进行抽样检验,可以了解到产品的合格比率、不良比率等信息。
通过对样本中的比率进行推断,可以估计生产批次或全体产品的相关比率。
3.4 健康调查健康调查是比率估计抽样的另一个重要应用领域。
通过对一定规模的样本进行调查和测量,可以了解到人群中某种疾病的患病率、风险因素的比率等信息。
通过对样本中的比率进行推断,可以估计全体人群的相关比率。
4. 比率估计抽样的步骤比率估计抽样一般包括以下步骤:4.1 确定研究目标在进行比率估计抽样前,需要明确研究的目标和需要估计的比率。
4.2 选择适当的抽样方法根据研究的目标和研究对象的特点,选择适当的抽样方法,如简单随机抽样、分层抽样、整群抽样等。
比率估计的名词解释

比率估计的名词解释比率估计是统计学中的一种常用方法,用于根据样本数据推断总体的特征。
它是通过计算不同群体之间的比率来进行估计,从而揭示总体的分布和特征。
本文将对比率估计的概念、应用场景和计算方法进行详细解释,并探讨其在实际问题中的意义和局限性。
一、比率估计的概念比率估计是统计学中重要的参数估计方法之一。
所谓比率,是指两个相关群体之间数量上的关系,可以是两个互斥事件之间的比率,也可以是两个不互斥事件之间的比率。
在估计过程中,我们通常使用样本数据来推断总体的比率。
比率估计的目标是根据样本的统计结果,推断出总体中某一特征的比例。
二、比率估计的应用场景比率估计广泛应用于各个领域,具有丰富的应用场景。
以下列举几个常见的应用示例。
1. 市场调研:比率估计可以用于估计不同市场的消费者群体中,对某一产品的购买比例。
通过抽样一部分消费者,并了解他们对产品的偏好和购买行为,可以推断整个市场的购买比例,为制定营销策略提供依据。
2. 医学研究:比率估计可以在临床研究中发挥重要作用。
例如,对于某种疾病的发病率,我们可以通过抽样患者群体,并观察其具体情况,从而估计总体患病率。
这对医生了解病情、预防控制和治疗方案的制定都具有重要意义。
3. 教育评估:比率估计可以用于教育领域的评估,例如统计学习成绩的比率。
通过抽样学生群体,并对其进行考试和测评,可以推断全体学生的学习水平,从而更好地指导教学和评估教育质量。
三、比率估计的计算方法在比率估计中,我们通常使用样本比例来估计总体比例。
样本比例是指在样本中具有某一特征的个体数与样本总个体数之间的比值。
根据中心极限定理,当样本容量足够大时,样本比例的抽样分布会逼近于正态分布。
根据这一原理,我们可以使用置信区间来估计总体比例。
置信区间是用于描述估计值的不确定性范围的统计概念。
在比率估计中,置信区间给出了总体比例真值所在的可能范围。
通常,我们使用95%的置信水平来构造置信区间,这意味着在一百次实验中,大约有95次的置信区间会包含总体比例的真实值。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
N 2 1 f n
s
2 y
Rˆ 2sx2
2 Rˆ s yx
其中syx
1 n 1
n i1
yi
y xi
x
是yi与xi的样本协方
差,它是Syx的无偏估计。
❖
V
Rˆ
1 nX
f
2
S
2 y
R
2
S
2 x
2RS yx
可估计为
s22
nh n
N h Sdh
L
NhSdh
h1
❖ 在实际应用中,常常采用近似公式
nh n
Nh
L
Xh
Nh Xh
或
h1
nh n
Nh X h
L
NhXh
h1
本的结论。
§4.5 从一个样本估计方差
❖
V YˆR
N 2 1
f
N i1
Yi
RXi 2
n N 1
n yi Rˆxi 2
N
Yi RXi 2
❖ 习惯上取 i1
作为 i1
的样本估
n 1
N 1
计值,它是有偏的。
§4.7 机抽样的大样本中,如
Sx X cv xi 2 Sy Y 2cv yi
则比率估计量YˆR 比用由简单扩充得的估计量 Yˆ Ny 有较小的方差。
§4.8 分层随机抽样中的比率估计量
❖ 一、分别比率估计量 ❖ 二、组合比率估计量 ❖ 三、分别估计量与组合估计量的比较 ❖ 四、采用比率估计量时的最优分配
Rˆ
1 nX
f
2
N
Yi
RX
i
2
i1
N 1
❖ 上述中括号中的式子也可表达为
N
Yi RXi 2
i1
N 1
S
2 y
R
2
S
2 x
2 RS yx
S
2 y
R
2
S
2 x
2RSySx
❖ 作为一条工作规则,如样本容量n≥30,而且大到足
以使 cv x 0.1, cv y 0.1 ,则就可应用上述大样
的1−α置信区间分别为:
Y : YˆR u 2s YˆR
Y : yR u 2s yR
R : Rˆ u 2s Rˆ
❖ 小样本情形下需假定 x, y 近似服从二元正态分布。
例4.1
❖ 交通运输统计中有三个重要的指标,即运量、周转 量与平均运距,其中平均运距是总周转量除以运量 所得的商。为估计公路载货汽车的平均运距,在总 体中用简单随机抽样抽取32辆货车,记录每辆车在 一个月内的运量 xi(单位吨)与周转量yi (单位吨公里) ,如下表所示,试估计平均运距R并给出它90%的 置信区间。
一、分别比率估计量
YˆRs
L h1
yh xh
Xh
L h1
yh xh
Xh
其中yh, xh是第h层样本的总值,Xh是第h层Xhi的总值
。
❖ 定理4 设在每层抽取一个独立的简单随机样本,而 且各层的样本容量都是大的,则
V YˆRs
L
N
2 h
1 fh
h1
二、组合比率估计量
L
L
Yˆst Nh yh , Xˆ st Nhxh
h1
h1
❖ 组合比率估计量
YˆRc
Yˆst Xˆ st
X
yst xst
X
Rˆc X
其中yst Yˆst N , xst Xˆ st N是从一个分层样本求得 总体均值的估计值。
❖ 定理5 若总的样本容量n是大的,则
Rˆ
1 nx
f
2
s
2 y
Rˆ 2sx2
2 Rˆ s yx
当 X 已知时,也可估计为
s12
Rˆ
1 f nX 2
s
2 y
Rˆ 2sx2
2 Rˆ s yx
§4.6 置信区间
❖ 当n很大时,即n 30, cv x 0.1, cv y 0.1,Y , Y , R
V YˆRc
L Nh2 1 fh
h1
nh
S
2 yh
R
2S
2 xh
2RhS yhSxh
其估计量为
s2 YˆRc
L
N
2 h
1 fh
h1
nh
s
2 yh
Rˆc2sx2h
2 Rˆc s yxh
三、分别估计量与组合估计量的比较
❖ 1.偏差的比较 分别估计量的偏差相对较大,组合估计量的偏差相 对较小。
❖ 2.方差的比较 分别估计量的方差相对较小,组合估计量的方差相 对较大。
❖ 3.所需样本容量的大小 分别估计量的方差公式只有当各层nh都足够大时, 才能使用。组合估计量的方差公式只需总的n足够大 即可使用。
❖ 若各层Rh大致相同,则建议采用组合估计量,否则 建议采用分别估计量。
❖ 若每一层都有一个大样本(或小样本),则建议采 用分别估计量(或组合估计量)。
§4.2 比率的估计
❖ 在住户调查中,要估计每个成年女子化妆品的平均 费用。令
Xi——第i个家庭的成年女子数 Yi——第i个家庭成年女子化妆品的总费用 i=1,2,⋯,N
每个成年女子化妆品的平均费用为
N
总的费用 R 总的成年女子数
Yi
i1 N
Xi
Y X
Y X
i1
则相应的样本估计量是
❖ 作为一条工作规则,若 B 0.1 (即 B 0.1),
则偏差的影响是可以略而不计的。
二、使用有偏估计量的两种原因
❖ ⑴ 在一些最平常的问题中,特别是在比率的 估计中,比较方便而又合适的估计量都是有 偏的;
❖ ⑵即使就概率抽样中的那些无偏估计量来说 ,计量的误差和无回答也会使我们从数据中 计算得的数值产生偏差。
§4.1 偏差和它的影响
❖ 一、有偏估计 ❖ 二、使用有偏估计量的两种原因
一、有偏估计
❖ 设 ˆ是θ的有偏估计,即E ˆ m ,B m , 称为ˆ 的偏差。记V ˆ 2 ,则 MSE ˆ V ˆ B2 2 B2
。
❖
⑴
比率估计量 YˆR
y x
X,
yR
y x
X,
Rˆ
y x
是一致估
计。
❖ ⑵ YˆR , yR , Rˆ是有偏估计;当n很大时,它们是近似无 偏的。
❖ ⑶ 当n很大时,Rˆ y : N , 。
x
❖ 定理2 总体总值Y,总体均值 Y,以及总体比率
R=Y/X的比率估计量分别是
YˆR
《抽样技术》第四章
王学民 编
第四章 比率估计量
❖ §4.1 偏差和它的影响 ❖ §4.2 比率的估计 ❖ §4.3 比率估计量 ❖ §4.4 比率估计量的近似方差 ❖ §4.5 从一个样本估计方差 ❖ §4.6 置信区间 ❖ §4.7 比率估计量与单元均值的比较 ❖ §4.8 分层随机抽样中的比率估计量
Rˆ
V
Rˆ
1 nX
f
2
Yi RXi 2
i1
N 1
1 nX
f
2
S
2 y
R
2
S
2 x
2 RS yx
1 nX
f
2
S
2 y
R
2
S
2 x
2RSySx
其中
Syx
1 N 1
N i1
Xi X
Yi Y
称为有限总体的协方差,
Syx
y x
X,
yR
y x
X,
Rˆ y x
对一个容量为n的简单随机样本(n很大)有
V
YˆR
N 2 1
f
N i1
Yi
RX i 2
n N 1
V
yR
1
n
f
N
Yi
RX
i
2
i1
N 1
V
SxSy
N
Xi X Yi Y
i1
N
Xi
X
2
N
Yi
Y
2
i1
i1
称为有限总体的相关系数。
注
1
N 1
N i1
Yi
RX i
2
1 N 1
N i1
Yi
Y
R Xi
X
2
1 N 1
N i1
Yi
Y
2
R2 Xi
四、采用比率估计量时的最优分配
V