抽样调查理论与方法

统计学原理-第六章抽样调查(复旦大学第六版)

全体。其单位数用N来表示。
2．样本总体：简称样本，是从全及总体中随机
抽取出来，代表全及总体部分单位的集合体。单位数用n表示。
5
二．全及指标和抽样指标
（一）全及指标
X 总体平均数： X N 总体成数：P
2
XF 或X F Q＝
2 2
N1 N N
（X－X）总体方差：＝总体标准差：＝（X－X）
（一）考虑顺序的不重复抽样数目
N! A N ( N 1)(N 2) ( N n 1) ( N n)! 4 3 2 1 2 例如A4 12 2 1
n N
（二）考虑顺序的重复抽样数目
B N
n N 2 4
n 2
例如 B 4 16
10
（三）不考虑顺序的不重复抽样数目
Ex X
28

2、一致性当抽样单位数充分大时，抽样指标和未知的总体指标之间的绝对离差为任意小的可能性也趋于必然性。
x X 任意小
3、有效性
即用抽样指标估计总体指标，要求作为优良估计量方差应该比其他估计量的方差小。

2
x X f
2
f

2
x X f
x
x E ( x)
2
18
说明：根据数理统计理论，在重复抽样条件下，抽样平均误差与全及总体的标准差成正比例关系。与抽样总体单位平方根成反比关系。
19
在不重复抽样情况下，抽样平均误差计算公式如下：
x x

N n 250 4－2 ( )＝（）＝9.13(件) n N 1 2 4－1
2
N
X X F 或 F X X F 或 F

统计学原理第七章抽样调查

29
合
计
x A 2 x A ( d ) f ( d )f d σ f f
2
256 72 σ 50 11504 50 53.63 200 200
2
30
第三节全及指标的推断
一、全及指标的点估计
22
不具有某一标志的单位数用N0表示。 ► 总体成数和标准差与样本成数和标准差的计算方法相同。只是总体指标用大写字母表示，样本指标用小写字母表示。例如： ► 具有某一标志的单位数占总体的比重：
N1 P N
总体成数
n1 p n
样本成数
不具有某一标志的单位数占总体的比重：
N0 Q 1 P N
13
► 2.
（二）中心极限定律 ► 1. 独立同分布中心极限定理：证明不论变量总体服从何种分布，只要它的数学期望和方差存在，从中抽取容量为n 的样本，则这个样本的总和或平均数是个随机变量，当n 充分大时，样本的总和或平均数趋于正态分布.
► 2.
德莫佛-拉普拉斯中心极限定理：证明属性总体的样本成数和样本方差，在n足够大时，同样趋于正态分布。
σ N n σ n μx ( ) μx (1 ) n N 1 n N
2 2
总体单位总数
样本单位总数
抽样比例
21
（一）抽样成数的抽样平均误差μp ► 属性总体的标志值是用文字表示的，且标志只有两个取值，非此即彼，故将属性总体的标志称为“交替标志”或“是非标志”。 ► 交替标志也可以计算平均数（即成数）和标准差。为了计算交替标志的平均数和标准差必须将交替变异的标志过渡到数量标志。 ► 交替标志仍以x表示，设：x =1表示单位具有某一标志， x = 0表示单位不具有某一标志。具有某一标志的单位数用N1表示；

抽样调查理论与方法金勇进(第二版)-第2章-简单随机抽样

N
X
2
n
N
1
i 1
(Y i R X i )
2
定理的方差为：

Y 2.7：对于简单随机抽样，n较大时， R N y R
N 1 2 1 f 2 V (Y R ) N (Yi R X i ) n N 1 i 1

推论 2.12：对于简单随机抽样，n较大时， Y y 的方差为：
n N
n N
【例2.1】

设总体有5个单元（1、2、3、4、5），按不放回简单随机抽样的方式抽取2个单元，则所有可能的样本为个：
1，2
1，3 1，4 1，5
2，3
2，4 2，5
3，4
3，5
4，5
【例2.2】

设总体有5个单元（1、2、3、4、5），按放回简单随机抽样的方式抽取2个单元，则所有可能的样本为25个（考虑样本单元的顺序）：
i
Y X

Y X
r

n
yi xi
i 1
y x
i 1

i 1
简单估计量
1 Y y n

n
yi
y1 y 2 y n n
i 1
N Y Ny n

n
yi
i 1
a 1 P p n n

n
yi y Y
i 1
ˆ R

【例2.5】

根据例【2.4】的数据和结果，比较两种思路下对应的方差估计结果。
2.4 回归估计量及其性质
属于简单估计量，不属于比率估计量。

引理的期望为：
2.3：对于简单随机抽样，n较大时， R r

抽样调查理论及方法

《市场调查》：第六章抽样调查理论及方法一、抽样调查（Sampling Survey）意义抽样调查为科学研究方法中重要技术之一，是指就所要研究的某特定现象之母群体中，依随机原理抽取一部份作为样本（Sample），以为研究母群体（Population）之依据。

将样本研究结果，在抽样信赖水准内，推算母群体可能特性以为决策之参考。

抽样调查之优点：１．利用抽样技术及机率理论，可获得既定精确估计值，以代表母群体特征。

２．节省调查人力，物力，时间及经费。

３．经由少数优秀人员施予特殊训练及配合特殊设备，施行调查，可得较深入且正确调查结果。

故在实地市场调查中，抽样调查为一不可或者之工具。

抽样调查基本目的乃在信息之搜集作成结论，以供决策参考。

有效抽样调查应具有准则有下：１．有效原则抽样调查应该（１）符合调查目的之需要，（２）所获信息价值应超过所支付成本。

２．可测量原则抽样的正确程度必须能够测量，否则抽样调查就失去意义。

３．简单原则抽样调查必须保持简单性要求。

俾使抽样调查顺利进行，以避免不必要之节外生枝。

二、抽样调查的基本术语１母群体（Population）在调查研究中，调查研究对象的集合体。

调查台北市中学生，则在台北市上课之５４所中学生总数，便是调查研究之母群体。

２抽样架构（Sampling frame）整体抽样单位的详细名单，以供抽样之用。

例如以台北市医师为抽样单位，则台北市医师公会名册，便是抽样架构。

如果以学校班级为抽样单位，则学校６０班班级名册便是抽样构架。

抽样架构有三种型态：具体的抽样架构：每一个抽样单位名字皆列成表册，可以直接按表册名字抽取样本。

抽象的抽样架构：没有抽样单位之名册，只要符合调查之条件就有被抽样之可能。

例如在百货公司举行消费者抽样，随然没有抽样名册，但是抽样架构却冥冥中隐约出现。

阶段式抽样架构：在采用分段抽样中，依抽样阶段之不同，产生不同之抽样架构。

３抽样单位（Sampling unit）在抽样架构上排列的名单之个别单位。

抽样调查理论与方法金勇进(第二版)第4章等概率整群抽样和多阶段抽样

县总产量，计算抽样误差。调查资料如下：
样本乡编号
村庄数 Mi
作物总产量（乡） yi（万公斤）
种植面积（乡） xi（亩）
yi yi M
1.4667 1.2667 1.1615 1.55 1.265 1.1143 1.2381 1.079 1.0903 1.3882 ——
i
1 2 3 4 5 6 7 8 9 10 合计
Yˆ N n y 1

i 1 n
yi
33 10
( 2 2 .0 2 3 .6 ) 8 4 8 .4 3
n
y i 2 5 .7 1
i 1
v ( Yˆ )
N (1 f )
2

i 1
n
( yi y ) n 1
2
1 5 6 7 .9
n
ˆ s (Y )
S
2
故又可写为：
2
N
(Y
M
ij
Y )( Y ik Y )
2

( NM 1 )( M 1 ) S
用简单随机抽样方法抽取n个群，每个群内的M个单元全部进入样本，则等群抽样均值估计量 y 的方差可用群内相关系数近似表示
1 M
2
V (y)
V (y)
1 f nM
v( y ) 1 f nM
Yˆ NM y
2 2 V ( Yˆ ) V ( NM y ) N M V ( y )
sb
2
总体总值的估计量及其方差
ˆ ) N 2 M 2v( y ) v (Y
【例4.1】

在一次对某中学在校零花钱的调查中，以宿舍作为群进行整群抽样。每个宿舍都有M=6名学生。用简单随机抽样在全部N=315间宿舍中抽取n=8个宿舍。全部48个学生上周每人的零花钱 y ij 及相关计算数据如表4-2所示。试估计该学校学生平均每周的零花钱 Y ，并给出其95% 的置信区间。

抽样调查理论与方法金勇进(第二版)第3章-分层随机抽样

h 1

L

定理 3.3：对于分层随机抽样，的估 Y 计量 yst 具有如下性质：
E yst Y
ˆ W 2 1 fh S 2 V yst W V Yh h n h h 1 h 1 h
L L 2 h 2 2 L Wh2 S h Wh2 S h nh Nh h 1 h 1 L
2013-8-10
18
3.3 比率估计量及其性质

两种途径：

分别比估计：对每层样本分别考虑比估计量，然后对各层的比估计量进行加权平均，即先“比” 后“加权”；联合比估计：对比率的分子和分母分别加权计算出总体均值或总体总量的分层估计量，然后用对应的分层估计量来构造比估计，即先“加权”后 “比”。
2013-8-10
5
符号说明 (关于第h层的记号 )

层号
h 1,2, , L
单元总数
Nh
nh y hi
Wh
样本单元数
第 i 个单元的值
层权
抽样比
1 Yh Nh
Nh 2 h
y
i 1
Nh
hi
总体均值
样本均值
nh fh Nh
Nh N
2 1 S y hi Yh N h 1 i 1
1 yh nh
y
i 1
nh
hi
总体方差
样本方差
2013-8-10
1 nh 2 sh y hi y h 2 nh 1 i1
6
3.2 简单估计量及其性质
3.2.1 总体均值的简单估计及其性质

分层样本，总体均值 Y 的估计
WY 1 Yst h h N h 1

抽样调查的理论与方法参考答案

抽样调查的理论与方法参考答案一、填空题 1随机原则概率估计总体数量特征非全面调查 2调查对象的全部单位全及总体有限总体无限总体 3单位数目 30个 4总体数量特征确定()∑-=N i Y Y i N 121 5样本数量特征随机变量 ()∑-=-N i y y i n 1211统计量 6有顺序不重复抽样无顺序不重复抽样 7比值比较差值比较 8偶然性规律性 9不可能事件必然事件 10常数统计规律性 11稳定性稳定值 12随机因素所有可能事件 13离散随机变量连续随机变量 14非负 1 15统计量样本平均数 16不重复抽样重复抽样 17代表性误差反比关系 18正比关系反比关系 19概率度(平均误差μ的倍数) 固定误差范围(允许误差，误差置信限) 20总体相应指标值 {}αθθθ-=≤≤121P 21精确程度可靠程度置信系数可靠程度 22样本平均数区间估计所在区间抽样调查资料对比全面调查资料 23总体均值总体方差 24)1(2N n n -δ或)1(2Nn n S -， )1(1)1()1(Nn n P P n P P ----或， )1()1(N n n P P Z --或)1(1)1(N n n P P Z --- 25总体的方差要求的概率保证程度给定的抽样误差范围 26样本方差 27固定的顺序和间隔选择排队标志 28有关标志排队法无关标志排队法 29抽取样本方便易行样本单位在总体中均匀地分布30随机原则系统偏差 31随机原则较好的代表性 32各系统样本内部方差的平均值sy ωα2 sy ωα2 各系统样本的内部方差系统样本内部各单位的差别 33各部分K 个个体各个部分的差别系统样本内部的差异 34单纯随机抽样抽样原理 35总体在第i 层的权数或权重每一层的总体单位数总体单位数 36比较均匀层内方差 37选择分层标志调查的核心项目与调查项目关系密切的项目引起分散的主要原因 38各个单位标志值的差异最小该层标志变异指标 39越少调查费用 40调查费用抽样误差 41层内方差层间方差 42调查变量层数的选择 43单纯随机抽样全面调查 44各群内部调查变量的各个标志值各个群内部各个标志值总体的群 45被调查总体均匀总体可能取到的值 46均匀分布在总体各个部分低于群内部差别大而群间差别小 47各个群内部单位数相等总体单位群平均数Y 随机抽样估计 48总体单位数 49大样本 50总体单位抽样群数抽样群数 51横向纵向 52有偏抽样分布 53增大相关系数ρ的值，X 、Y 的相关程度 54分别比估计组合比估计55线性回归方程样本指标总体指标56辅助变量的选择较好的线性有关资料57性质不同密切线性关系基期指标58回归系数b 样本相关系数越高 59r=0 r ≠0 60等于小于61小于分别回归估计组合回归估计 62居民家计调查居民家庭 63三阶段系统抽样系统抽样64抽取各阶段样本实割实测推算产量65近三年粮食平均亩产当年预计亩产相应总体各单位的累计播种面积累计播种面积样本单位数66抽样误差调查误差实割实测67系统抽样68中轴对称 69多阶段抽样系统抽样双重抽样 70整群随机抽样系统抽样二、单项选择题 1 C 2 A 3 B 4 D 5 A 6 B 7 A 8 B 9 C 10 C 11 B 12B 13 D14 B 15 C 16 C 17 B 18 C 19 C 20 C 21 B 22 B 23 C 24C 25 A 26 C 27 B 28 D 29 D 30 A 31 B 32 C 33 C三、简答题 1抽样调查是建立在随机原则基础上，从总体中抽取部分单位进行调查，并依据概率估计原理，应用所得到的资料，对总体的数量特征进行推断的一种调查方法。

第三章简单随机抽样(抽样调查理论与方法-北京商学院,

100，95，92，88，83，75，71，62，60，50
平均分为77.6。先从中任选3个为一组样本，其选法共有120种
每种选法都有概率1/120。以4组样本为例(100,95,92)，(100,83,
50)，(88,83,62)，(62,60,50)它们的样本平均数分别为95.67，
77.67，77.67，57.33。从抽样调查的角度来看，我们希望抽到第二或第三组样
(3.6)
N 1 n
Nn
对随机有放回抽样，由于各次抽取是相互独立的，由概率论的知识可以求得，此时：
2
Var( y) n
1 S2 （或 (1 ) ） (3.7)
Nn
比较(3.6)式与(3.7)式，发现同样用样本平均数来估计总体平均数，它们都是无偏估计，但随机无放回时的方差小于随机
有放回时的方差。 y 的方差表示新盒子的离散程度，也就是表示了 y 取值范围的大小，方差小表明 y 取值远离中心Y 的可能性较小，这样随机的一组样本得到 y 的实现值距Y 很近
相当小，此时(3.6)式告诉我们 y 的方差将随着 n 的减少而增大，此时 1－f 在 1 附近，对Var( y)的影响不大。事实上，
抽取样本越少，抽样误差越大。
可见实际抽样调查中用 y 估计Y 所产生的随机误差，也即 y 的方差，主要受到样本容量 n 的影响，因子1－f 的影响
几乎可以忽略。
当然，影响 y 的方差的另一个重要因素是 2或 S 2。设
通常取决于总体单元个数N，满足10m1 N 10m。记m个骰子按约定颜色而确定的顺序读得随机数R0，若R0 N，则此 R0即为一次合格的随机数；否则予以放弃，重新摇取，直
到取到n个合格的随机数为止。 ③利用计算机产生随机数：不少现成的统计软件都可提供此类服务。但必须指出，这样产生的随机数一般不能保证其随机性，称为“伪随机数”。因此，提倡前述方法产生随机数。

金勇进(第二版)抽样调查理论与方法-绪论

统计量是根据样本的n个单元的变量值计算出的一个量，也叫估计量，用于对总体参数的估计。常用的估计量: （1）均值估计；（2）总值估计；（3）比例估计；（4）比率估计。统计量是随机变量,结果取决于抽样设计和被选入样本的总体基本单元的特定组合。
估计量方差、偏差、均方误差（1）

估计量方差：估计量分布的方差，它是从平均意义上说明估计值与待估参数的差异状况，也是我们对抽样方案进行评价的标准之一。

2

2
抽样误差与非抽样误差

抽样误差：抽样误差是由于抽取样本的随机性造成的样本值与总体值之间的差异，只要采用抽样调查，抽样误差就不可避免。抽样误差是一个一般的概念，它可以用不同的量值来表示。例如：估计量方差或估计量标准差。
抽样误差
样本量
非抽样误差：是相对于抽样误差而言的，它不是由于抽样的随机性，而是由于其它多种原因引起的估计值与总体参数之间的差异。 •包括：抽样框误差、计量误差、无回答误差等
多阶段抽样

例如，全国性调查，省；市或县；街道、镇、或乡，等等。在大规模的抽样调查中，特别是当抽样单元为各级行政单位时，通常都采用多阶段抽样。优点：

样本单位相对集中，实施调查比较方便，可以节省调查费用；抽样时并不需要全部低级单位的抽样框。
系统抽样

系统抽样是将N个总体单位按一定顺序排列，先随机抽取一个单位作为样本的第一个单元，然后按某种确定的规则抽取样本的其它单元。其中最简单也是最常用的规则是等间隔抽取。所以系统抽样又称等距抽样。

依赖研究者个人的经验和判断；无法估计和控制抽样误差，无法用样本的量化数据来推断总体。

35第8章抽样调查理论与方法

《统计学》第8章抽样调查理论与方法
8-11
概率抽样
(probability sampling)
又称随机抽样，是指依据随机原则，按照某种事先设计的程序，从总体中抽取部分单元的抽样方法
特点
✓ 按一定的概率以随机原则抽取样本
抽取样本时使每个单位都有一定的机会（概率）被抽中
“随机”不等于“随便” “随机”不等于“等概率” ✓ 用样本指标数值去推断总体的指标数值
✓ 抽样调查会产生抽样误差，这个误差可以计算，并且可以加以控制
2020/3/25
《统计学》第8章抽样调查理论与方法
8-12
概率抽样 (probability sampling)
概率抽样被视为狭义的抽样调查，在实践中被广泛加以采用，通常所谓的抽样调查，均指概率抽样调查。
概率抽样有多种形式：简单随机抽样、分层抽样、系统抽样、整群抽样等。
2020/3/25
《统计学》第8章抽样调查理论与方法
8-6
便利抽样
是根据调查者的方便与否来抽取样本的一种非概率抽样方法。典型的形式是“拦截式”调查。调查过程中由调查员依据方便的原则，自行确定入抽样本的单位
✓调查员在街头、公园、商店等公共场所进行拦截调查
✓厂家在出售产品柜台前对路过顾客进行的调查
8-15
分层抽样
(stratified sampling)
一般选择“平均型” 、“众数型”、“特殊型” 单元作为样本
样本量小及样本不易分门别类挑选时有其较大的优越性
由于其估计精度严重依赖于研究者对调查对象的了解程度、判断水平和对结果的解释情况，所以，一般不轻易地用于对总体进行数量方面的判断
2020/3/25
《统计学》第8章抽样调查理论与方法