第五章比估计与回归估计(抽样调查理论与方法-北京商学
市场调查与预测第5章

分段抽样(Multi-stage sampling)又称多级抽样或多阶段抽样,就是 把从总体中抽取样本的过程分成两个或多个阶段进行的抽样方法。
它是在总体内个体单位数量较大,而彼此间的差异不太大时,先将总 体各单位按一定标志分成若干群体,作为抽样的第1阶段单位,并依 照随机原则,从中抽出若干群体作为第1阶段样本;然后将第1阶段样 本又分成若干小群体,作为抽样的第2阶段单位,从中抽出若干群体 作为第2阶段样本,依此类推,可以有第3阶段、第4阶段……直到满 足需要为止。最末阶段抽出的样本单位的集合,就是最终形成的总体 样本。
可编辑ppt
24
③循环等距抽样。当N为有限总体而且N不能被n所整除, 也即K不是一个整数,这时K只能取一个比较接近的整数, 这时用直线系统抽样就可能产生偏误。采用循环系统抽样
方法,将总体排成首尾相接的循环园形,用同样的方法确 定间隔K,K可以取最接近的整数,在1~N中抽取一个随 机起点,然后每隔K个单元抽取,直到抽满为止。
可编辑ppt
23
②对称等距抽样。 当n为偶数时要从N个单元中抽取n个样本单元, 先将总体N个单元分成n/2个组使得每组包含2K个单元,
然后在1~K中随机地确定抽样地点,按下面的公式在每 组中抽取距该组两端等距离的两个单元。
当n为奇数时,仍按上式进行,但j在取到[(n-1)/2]-1为 止,并要增加靠近终 端的一个样本单元:[i+(n-1)K]
(2)分层抽样的特点
①可同时对子总体进行参数估计。
②便于依托行政管理机构进行组织和实施,同时还可根据各层 的不同特点采用不同的抽样方式。
③可使样本在总体中分布更加均匀,从而具有更好的代表性。
第五章 比估计与回归估计(抽样理论与方法,河南财政学院)

ˆ) d 1 / 2 V(Y R
1 / 2 2 S d2 2 2 2 n d 0 1 / 2 S d 解得:n ,其中 n 0 2 d2 1 / 2 S d2 1 n0 1 N Nd 2
河南财经学院
例:某公司有1000名职工,为了估计职工今年与去年病假工时的比 率,要抽一个容量为n的简单随机样本进行调查。先随机抽了10人 作试点调查,数据如下: 编号 1 2 去年病假工时 12 24 今年病假工时 13 25
N
2 ( Y RX ) i i i 1
N
N 1
1 f n
N
2 ( Y RX ) 0 i i i 1
N 1
ˆ y 对于简单随机抽样, Y 的简单估计为 Y 1 f ˆ V (Y ) n 河南财经学院
2 ( Y Y ) i i 1
N 1
1 f 2 (2 RS x S y R 2 S x )〉 0 n
RS x Sx / X Cx 〉 2 S y 2 S y / Y 2C y 1 特别若C x C y,则〉 ,即比估计较相应的简 单估计更精确。 2
河南财经学院
4.估计R时样本量的确定:
ˆ 的方差上限为V , 如果R
2 2 i 1 i 1 i 1
10
10
10
2
xi 31.265
2 i 1
70
1 10 ˆ x ) 2 3.474 s d ( yi R i 9 i 1 16300 已知X 16300 , X 16 .3 1000 d2 0.012 5 V 2 . 603 10 1 / 2 1.96 2
xi 242 .0, xi 4706 .54
抽样调查与调查方法教学大纲

抽样调查与调查方法教学大纲课程属性:公共基础/通识教育/学科基础/专业知识/工作技能,课程性质:必修、选修一、课程介绍1.课程描述:抽样调查是经济工作中,对所研究总体取得数量化信息非常重要的工具,目前在世界各国的实践中得到了广泛的应用,被誉为20世纪最伟大的科技成果之一。
本课程针对高年级经济学类专业学生开设。
课程包括抽样技术中部分内容:抽样技术概述;抽样技术基本概念;简单随机抽样;分层随机抽样;比率估计;不等概率抽样。
通过课程学习,要求学生掌握抽样调查的若干基本理论和方法,能够利用这些理论方法并借助计算机软件对实际问题进行抽样调查和对总体进行区间估计。
2.设计思路:本课程引导高年级经济学类专业学生通过计算机模拟抽样调查作业,掌握抽样调查的设计和估计的技术。
课程内容的选取基于学生“掌握了概率论与数理统计”和“统计学”。
先修课程:概率论与数理统计;统计学。
后置课程:市场预测与管理决策。
主要课程内容如下第一章概述本章主要介绍抽样调查概述、含义、程序与作用,以及抽样调查的产生与发展,人口方面的调查,经济方面的调查,社会方面的调查和其他调查。
第二章抽样调查的基本概念本章介绍了总体与样本的相关概念,及两者之间的关系,估计量与抽样分布,优良估计量的标准,抽样分布定理,抽样误差与置信区间,样本设计的内容,样本设计原则,设计效应与样本量的确定等抽样调查中的基本概念。
第三章简单随机抽样本章介绍了放回简单随机抽样(考虑顺序、不考虑顺序),不放回简单随机抽样(考虑顺序、不考虑顺序),不放回与放回简单随机抽样的比较,简单随机样本的抽选方法(抽签法、随机数法),总体均值的简单估计,总体总值的简单估计,总体比例的简单估计,样本量的确定,确定样本量主要考虑的因素, 估计总体均值(总值)的样本量确定, 估计总体比例的样本量确定。
第四章分层抽样本章主要对分层抽样的方式、估计量及其性质、样本量的确定及分配、设计效果等进行系统介绍。
主要内容有:分层抽样与分层随机抽样、分层抽样的特点与作用、层的划分原则、总体均值的估计、总体总值的估计、总体比例的估计、样本量的分配、样本量的确定、分层抽样设计效果分析。
第五节比估计跟回归估计(抽样调查理论跟方法-北京商学

假如X与Y是负相关,则更不能采用比估计方法,此时应采用 所谓乘积估计,即:
yp
x y X
,
当 n 充分大时,且满足:
y%p
N
x y X
(5.13)
1 SX X 1 CX
361
3
208.2
608
4
158.5
444
5
110.2
298
6
123.3
349
7
157.7
416
8
154.2
428
9
98.7
258
10
112.7
347
11
125.5
351
12
60.3
158
13
105.7
308
14
80.5
217
15
163.0
492
16
98.7
280
17
137.8
378
18
141.2
386
所谓回归关系就是变量之间的关系不是确定的,是带有 随机影响的。比如身高和体重的关系,身高增加时,一般来 说,体重也会增加,但又不能说一定如此。要确定身高和体 重的关系,一般用回归的方法。这类问题首先是由英国统计 学家高尔顿研究儿子的身高与父亲身高关系时提出的,他发
现儿子的身高有回到家族平均身高的趋势,因而把所得关系 式称为回归方程,于是回归的名词就沿用下来了。
X% 218756 X 218756 379.7847 576
所以该县平均亩产小麦估计为:
Rˆ y 130.625 0.358245(吨 亩) x 364.625
抽样调查的理论与方法参考答案

抽样调查的理论与方法参考答案一、填空题1 随机原则 概率估计 总体数量特征 非全面调查2 调查对象的全部单位 全及总体 有限总体 无限总体3 单位数目 30个4 总体数量特征 确定()∑-=N i Y Y i N 1215 样本数量特征 随机变量 ()∑-=-Ni y y i n 1211统计量6 有顺序不重复抽样 无顺序不重复抽样7 比值比较 差值比较8 偶然性 规律性9 不可能事件 必然事件10 常数 统计规律性11 稳定性 稳定值12 随机因素 所有可能事件13 离散随机变量 连续随机变量14 非负 115 统计量 样本平均数16 不重复抽样 重复抽样17 代表性误差 反比关系18 正比关系 反比关系19 概率度(平均误差μ的倍数) 固定 误差范围(允许误差,误差置信限)20 总体相应指标值 {}αθθθ-=≤≤121P21 精确程度 可靠程度 置信系数 可靠程度22 样本平均数 区间估计 所在区间 抽样调查资料对比全面调查资料23 总体均值 总体方差24 )1(2N n n -δ或)1(2N n n S -, )1(1)1()1(N n n P P n P P ----或, )1()1(N n n P P Z --或)1(1)1(Nn n P P Z ---25 总体的方差 要求的概率保证程度 给定的抽样误差范围26 样本方差27 固定的顺序和间隔 选择排队标志28 有关标志排队法 无关标志排队法29 抽取样本方便易行 样本单位在总体中均匀地分布30 随机原则 系统偏差31 随机原则 较好的代表性32 各系统样本内部方差的平均值sy ωα2 sy ωα2 各系统样本的内部方差 系统样本 内部各单位的差别33 各部分K 个个体 各个部分的差别 系统样本内部的差异34 单纯随机抽样 抽样原理35 总体在第i 层的权数或权重 每一层的总体单位数 总体单位数36 比较均匀 层内方差37 选择分层标志 调查的核心项目 与调查项目关系密切的项目 引起分散的主要原因 38 各个单位标志值的差异 最小 该层标志变异指标39 越少 调查费用40 调查费用 抽样误差41 层内方差 层间方差42 调查变量 层数的选择43 单纯随机抽样 全面调查44 各群内部调查变量的各个标志值 各个群内部各个标志值 总体的群45 被调查总体 均匀 总体可能取到的值46 均匀分布在总体各个部分 低于 群内部差别大而群间差别小47 各个群内部单位数相等 总体单位 群平均数Y 随机抽样估计48 总体单位数49 大样本50 总体单位 抽样群数 抽样群数51 横向 纵向52 有偏 抽样分布53 增大相关系数ρ的值,X 、Y 的相关程度54 分别比估计 组合比估计55 线性 回归方程 样本指标 总体指标56 辅助变量的选择 较好的线性 有关资料57 性质不同 密切线性关系 基期指标58 回归系数b 样本相关系数 越高59 r=0 r ≠060 等于 小于61 小于 分别回归估计 组合回归估计62 居民家计调查 居民家庭63 三阶段系统抽样 系统抽样64 抽取各阶段样本 实割实测 推算产量65 近三年粮食平均亩产 当年预计亩产 相应总体各单位的累计播种面积 累计播种面积样本单位数66 抽样误差 调查误差 实割实测67 系统抽样68 中轴对称69 多阶段抽样 系统抽样 双重抽样70 整群随机抽样 系统抽样二、单项选择题1 C2 A3 B4 D5 A6 B7 A8 B9 C 10 C 11 B 12 B 13 D14 B 15 C 16 C 17 B 18 C 19 C 20 C 21 B 22 B 23 C 24 C 25 A 26 C 27 B 28 D 29 D 30 A 31 B 32 C 33 C三、简答题1 抽样调查是建立在随机原则基础上,从总体中抽取部分单位进行调查,并依据概率估计原理,应用所得到的资料,对总体的数量特征进行推断的一种调查方法。
抽样调查——比估计

一个国家或地区的恩格 尔系数R
城乡居民家庭人均收入及恩格尔系数
年份 城镇居民家庭人均 可支配收入(元) 农村居民家庭人 均纯收入(元) 城镇居民家庭恩 格尔系数 (%) 农村居民家庭恩 格尔系数(%)
1978
343.4
133.6
57.5
67.7
3.比估计与简单估计的比较
(1)当n足够大时,Y 的比估计y R的方差为: 1 f 2 2 V ( yR ) (S y 2 RS x S y R 2 S x ) n 1 f 2 (2)Y 的简单估计y的方差为:V ( y ) Sy n
(1) (2)得: V ( y) V ( yR ) 1 f 1 f 2 2 2 Sy (S y 2 RS x S y R 2 S x ) n n
S d2 2 2 n S 解得:n X V2 0 ,其中n0 2d n0 Sd X V 1 1 N NX 2V
2 Sd 可以通过以往的资料估 计,
也可以通过试点调查时 抽一个容量为 n, 的样本, 1 n 2 ˆ 由s ( y R x ) i i n 1 i 1
i 1 2
10
y
i 1
i
4463 , xi 4066 , yi xi 4245
2
10
10
ˆ R
y x
i 1 i 1 10
10
i 1
i 1
i
187 1.05 178
i
2 2 2 ˆ ˆ ˆ ( y R x ) y 2 R y x R x i i i i i i 31.265 2 i 1 i 1 i 1 i 1
05比估计与回归估计

yr
Variable ybar yr
N 2000 2000
Mean 309409 309817
Median 308093 309806
StDev 28889 2664
SE Mean 646 60
Variable ybar yr
Minimum 228803 301659
Maximum 420038 320089
ˆ 因R的分布有偏,可通过 来构造R的置信区间。 d d y Rx . d y Rx ~ N (0, 1) 1 f 2 1 f 2 S y R 2 S x2 2 RSyx Sd n n P ( u1 / 2 w u1 / 2 ) 1 w 解不等式 u1 / 2 w u1 / 2 便可得R的置信度近似为 的置信区间。 1
ˆ -R y -R y-Rx R x x xX ˆ R ) 1 [ E ( y ) RE ( x )] 0 E(R X ˆ ) MSE ( R) E ( R R) 2 1 E ( y Rx ) 2 ˆ ˆ V (R X2 1 f 2 2 E ( y Rx ) S n
C8
例. 美国农业普查的资料
总体:3044个县(去掉了数据缺失的34个县) yi=第i个县1992年全部农场的面积(英亩); xi=第i个县1987年全部农场的面积。
Y 943336889 R 0.980404 X 962192213
从中抽取n=200的SRS,则 布如上图所示。
ˆ R y / x 的抽样分
R R
ˆ 根据上节Th5.1.1中 R 的期望、均值来证明
3. 比估计量优于简单估计的条件
Th 5.2.2 对于SRS,在 n 较大时,若 C x (2C y ) ˆ 则 V (YR ) V ( y )。其中 C x S x X 为变量 x 的总体 变异系数,C y S y Y 为变量 y 的总体变异系数。
比估计与回归估计

Y的回归估计为: ylr y (0 X x)
当0 0时,ylr y(即回归估计为简单估计)
当0 1时,ylr y (X x)(即回归估计为差估计)
当0
Rˆ
y x
时,ylr
y
y(X x
x)
y x
X
RˆX
(即回归估计为比估计)
• 性质1:E(Yˆlr) Y
• 性 2 : V 质 ( y l) r 1 n f( S y 2 20 S x y 0 2 S x 2 )
2(.比1)估比计估的计性是质有:偏对的于,简但单当随n机大抽时样,,E(Rˆ) R
N
(2)
MSE
(
Rˆ )
V (Rˆ )
1 nX
f
2
i 1
(Yi RX i )2 N 1
1 f nX 2(S源自2 y2RS xy
R2Sx2)
1 nX
f
2
(
S
2 y
2RSxS y
R2Sx2)
证明:(1) Rˆ R y R y Rx
i1
i1
10
10
10
yi2 4463, xi2 4066, yixi 4245
i1
10
i1
i1
Rˆ
i 1 10
yi xi
187 178
1.05
i 1
10
10
10
70
( yi Rˆxi )2 yi2 2Rˆ yi xi Rˆ 2 xi2 31.265
i1
i1
i1
如果置信度1为的绝对误差限d为,
当n大时,V(YˆR)
1 n
f
Sd2,其中Sd2
1 N 1
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
前面讨论的简单随机抽样和分层抽样,我们所关心的参 数都是单指标的,给出的估计量也是线性形式。这一章我们 将要讨论比较复杂的情况,我们关心的参数不再是单指标的 而是两个或两个以上的指标。此时,遇到的统计量不再是线 性形式,往往呈现出非线性形式,比如两个变量之比,或呈 现变量之间的回归关系。
Rˆ y
y
x X (1 x X )
X
利用Taylor展开式,有
Rˆ
y x
y X
1
x
X X
xX X
2
y X
1
xX X
x
X X
2
(5.7)
当 n 相当大时, x 与 X 相当接近,而 X 是常数,又 y 是Y 的
(5.12)
2SY 2 SY Y 2 CY
(5.12)表明,如果变量X与Y正相关,且相关程度非常密 切的话,那么比估计的精度高于简单随机抽样的精度。如果
相关程度不那么密切( CX 2CY ),此时已知的X信息并 没有较多地提供Y的信息,借助X来推断 Y 也许会“帮倒忙”
假如X与Y是负相关,则更不能采用比估计方法,此时应采用 所谓乘积估计,即:
村i 产量yi (吨) 面积xi (亩)
村i 产量yi (吨) 面积xi (亩)
1
112.0
302
2
129.1
361
3
208.2
608
4
158.5
444
5
110.2
298
6
123.3
349
7
157.7
416
8
154.2
428
9
98.7
258
10
112.7
347
11
125.5
351
12
60.3
158
13
假如 X 或 X 已知,总体平均数 Y 与总体总和 Y 的比估计
量定义为:
yR
Rˆ
X
y x
X
y x
X
(5.5)
yR
Rˆ
X
y x
X
y x
X
(5.6)
通常的比估计是指 (5.5) 式与 (5.6) 式,而 Rˆ 则称为比值R 的
估计。
由 (5.5) 式与 (5.6) 式可知, yR与 yR 的习性主要依赖于估计量 Rˆ ,因此在不少场合,我们常用 Rˆ 来说明。
当 n 充分大时,
Var( yR )
1 f n
( SY2
R2
S
2 X
2RSXY )
而
Var( y) 1 f n
SY2
欲使 Var( yR ) Var( y) ,仅需
R
2
S
2 X
2RSXY
0
或
R2
S
2 X
2R SX SY
0
即
RSX 1 SX X 1 CX
尽管x, y 分别是X ,Y 的无偏估计,由于 Rˆ 的非线性形式,因 此 Rˆ 关于 R 是有偏的,从而 yR , yR 关于Y ,Y 也是有偏的。
一个合理的估计量,应该随着样本容量 n 的增加,估计量的 期望与参数之差应该越来越小并渐渐趋于零,即“渐近无偏”
比估计是否渐近无偏呢?
将比估计Rˆ y x 表示为:
设总体分为 k 层,第 h 层的样本均值记为yh , xh,在该层 中 Yh与Yh的比估计记为 yRh , yRh,又记X h和X h为第 h 层中指标
X的平均数与总和, SY2h , SX2h与 SYXh 分别为该层中Y , X 的方差 和协方差,若 S 换为 s ,Y , X换为 y, x ,则显然表示该层样本
§1 比估计及其性质
设有一个二元变量的总体 ( X ,Y ):( X1,Y1 ),( X2 ,Y2 ), ,( X N ,YN ) 有 4 个参数是我们所熟悉的:
X、Y ————指标 X、Y 的平均数
S
2 X
1 N 1
N
(Xi
i 1
X )2
SY2
1 N 1
N
(Yi
i 1
Y )2
yRS 是Y 的渐近无偏估计量:
k
E( yRS ) E( yRh ) Y
(5.17)
h1
各层的抽样又是独立进行的,由(5.10)式,可以近似得到 yRS
的方差或均方误差,当各个 nh都相当大时:
MSE( yRS ) Var( yRS )
k
N
2 h
(1
h1
nh
fh ) (SY2h
S
2 X
2RSXY )
(5.8) (5.9) (5.10)
公式(5.8)、(5.9)、(5.10)为我们提供了Var(Rˆ ),Var( yR ),Var( yR )
的估计量的形式。具体计算时,只要将
S
2 X
,
SY2
,
S
XY
,
R分别换为
sX2 , sY2 , sXY , Rˆ 即可。我们将由此得到的估计量分别记为:
v( y)
N 2 (1 n
f
)
s
2 y
14734359
显然,yR的方差远远小于 y 的方差。理由很清楚!小麦亩产
量与土地拥有量呈现正相关,且相关程度相当密切,因此,
在抽样调查中对每个村了解有关产量和土地亩数,利用已知
该县土地的固有已知数,能比较精确地推断总产量。事实上
在实际操作中人们正是这样去做的!
105.7
308
14
80.5
217
15
163.0
492
16
98.7
280
17
137.8
378
18
141.2
386
19
152.5
428
20
142.5
390
21
136.7
376
22
153.2
432
23
93.0
261
24
179.8
483
每个村有两个指标:面积 xi和产量 yi ,即:( xi , yi )
i 1
1
1
(5.2)
N
(Xi
X
)
2
N
(Yi
Y
)
2
i1
i1
如果简单随机样本为( xi , yi ) (i 1, 2, , n) ,则Cov( X ,Y )
及 的估计为:
S xy
1 n1
n i 1
( xi
x)( yi
y)
(5.3)
MSE( yRc ) Var( yRc )
k h1
Nh2(1 nh
fh ) (SY2h
R2
S
2 Xh
2R
SYXh )
(5.23)
其中R Y X 为总体的比值。
(5.22)表明, yRc 是 Y 的渐近无偏估计,(5.23)与(5.18)非常相 似,唯一不同的是在(5.18)中用的是各层的比值 Rh ,而(5.23) 中用的是总体的比值 R 。
的方差和协方差。
我们可以得到有关总体 Y 和 Y 的分别比估计为:
yRS
k
Wh yRh
h1
k
Wh
h1
yh xh
Xh
1 N
k h1
yh xh
Xh
(5.15)
yRS
N
yRS
k h1
yh xh
Xh
k h1
yRh
(5.16)
由上节可知,各层中的 yRh 是Yh的渐近无偏估计量,因此
v( Rˆ )
1 f nx 2
( sY2
Rˆ 2
s
2 X
2Rˆ sXY
)
v(
yR
)
1
n
f
( sY2
Rˆ
2
s
2 X
2Rˆ sXY )
v( yR )
N 2 (1 n
f
) (sY2
Rˆ
2
s
2 X
2Rˆ sXY
)
那么, R,Y ,Y 的置信水平为(1 )的置信区间分别为:
Rh2
S
2 Xh
Rh
2RhSYXh )
Yh Xh
(5.18)
(5.17), (5.18)告诉我们,即使每层 nh相当大,但如果层数k
比较大,由于误差的积累,yRS 产生的偏倚与误差可能相当 大。
2、联合比估计
将 X ,Y 分别进行分层估计,然后相比即得总体的两个
指标平均数之比的估计:
Rˆ c
n
( xi x)( yi y)
ˆ
i 1 1
(5.4)
1
n
( xi
2 x)
n
(
yi
2 y)
i1
i1
在讨论比估计之前,先考察总体的两个平均数之比,即