分层随机抽样概论

合集下载

04-第四章_分层随机抽样

L
下面讨论估计量的期望与方差。（1）对于一般分层抽样
ˆ ）也对于一般的分层抽样，若 Y h 是 Y h 的无偏估计量，则 Y st （或 Y st
是 Y （或 Y ）的无偏估计：
Ù
Ù
E (Y st ) = å Wh E (Y h ) = Y
h =1
Ù
L
Ù
ˆst ) = NE (Y st ) = N Y = Y E (Y
L
2 L Sh S2 - å Wh2 h nh h =1 Nh
=å
简便公式
2 L Wh2 Sh W S2 -å h h nh N h =1 h =1
V ( y st ) = V (å Wh y h )
h =1
L
= å Wh2V ( y h )
h =1 L
L
= å Wh2
h =1
Sh2 (1 - f h ) nh
åN
h =1
L
h
=N。
Wh =
Nh 称为层权，它也是已知的。 N
以 Yhi 表示第 h 层总体的第 i 个单元的指标值，以 yhi 表示第 h 层样本的第 i 个单元的指标值。
Yh =
1 Nh 1 nh
åY
i =1 nh i =1
Nh
hi
表示第 h 层的总体均值，
yh =
åy
hi
表示第 h 层的样本均值（其中 nh 是第 h 层的样本量），
h =1 h =1 h =1 L L Ù L Ù Ù
Ù
3
（2）对于分层随机抽样
Ù
特别对于分层随机抽样，Y h 一般均取为简单估计：层样本均值 y h ，因此 Y 的简单估计为：

抽样技术-分层随机抽样概述

19
W1

N1 N

200 2850

0.07018
f1

n1 N1

10 200

0.05
1 n1
y1 n1 i1 y1i 39.5
s12

1 n1 1
n1 i 1
y1i y1 2 1624.722
同理，求得： y2 105
s22 2166.667
y3 165
2020/3/10
17
性质3：对于分层随机抽样，的一个无偏估计为：
V Yˆ
v Yˆ
L

N
2 h
v
yh
h1

L h1
N
2 h
1 fh nh
s
2 h
2020/3/10
18
例3.1
调查某地区的居民奶制品年消费支出，以居民户为抽样单元，根据经济及收入水平将居民户划分为4层，每层按简单随机抽样抽取10户，调查获得如下数据（单位：元），要估计该地区居民奶制品年消费总支出及其 95%的置信区间。
Wh
Nh N 第 h 层的
层权
fh
nh Nh
第 h 层的
抽样比
Yh
1 Nh
Nh
Yhi
i 1
第 h 层的
总体均值
yh
1 nh
nh i1 yhi
第 h 层的
样本均值
6
记号
Yh
yh
S
2 h
s h2
公式
Nh
Yhi NhYh
i 1
代表的含义
第 h 层的

2-1-3分层抽样4

1 L yst = ∑ Wh yh (或 = ∑ N h yh ) 或 N h =1 h =1 ~ 的无偏估计可选为：总体总和 Y 的无偏估计可选为：
L
(4.2)
% yst = N ⋅ yst = N ⋅ ∑ Wh yh = ∑ N h yh
h =1 h =1
L
L
(4.3)
的方差为：估计量 y st 的方差为： L Var ( yst ) = Var ( ∑ Wh yh ) 由于各个小盒子的抽样过程是相互独立的，故各个 yh相互由于各个小盒子的抽样过程是相互独立的，独立，由独立随机变量之和的方差计算公式，独立，由独立随机变量之和的方差计算公式，有
含义的层权抽样比总体均值样本均值
记号公式
Yh
yh
2 Sh
2 sh
∑Y
i =1
Nh
hi
= N hYh
∑y
i =1
nh
hi
= nh yh
(Yhi − Yh )2 ∑
i =1
Nh
( yhi − yh )2 ∑
i =1
nh
Nh −1
nh − 1
代表的第 h 层的第 h 层的第 h 层的第 h 层的含义总体总量样本总量总体方差样本方差
h=1 i =1 L
h =1
L
(4.5)
(4.5)式两端各除以－1)，假如各层的单元数 N h都很大，当式两端各除以(N－，都很大，式两端各除以近似认为：近似认为： N h ≈ N h − 1 ≈ N h = W (4.6) h
N −1
N −1
N
因此直接来自总体的简单随机抽样平均数的方差大约为：因此直接来自总体的简单随机抽样平均数的方差大约为： L 1 1 L 2 2 Var ( y ) = ( − ) ∑ Wh Sh + ∑ Wh (Yh − Y ) (4.7) n N h =1 h =1 (4.7)式花括弧内第一项为各个小盒子方差的加权和，而第二式花括弧内第一项为各个小盒子方差的加权和，式花括弧内第一项为各个小盒子方差的加权和项则表示了各小盒子之间的差异平方和。比较(4.4)和(4.7)，项则表示了各小盒子之间的差异平方和。比较和，那么易见(4.4)式变为若取 nh n = Wh ，那么易见式变为 1 1 L 2 Var ( yst ) = ( − )∑ Wh S h n N h =1

【抽样调查】分层随机抽样

【抽样调查】分层随机抽样第2部分：分层随机抽样⽬录概述分层随机抽样的思路：当N ,n 都较⼤，总体单元之间的差异也较⼤时，简单随机抽样会出现⾼成本、低精度情形，解决⽅法是将总体划分为若⼲个⼦总体、减少总体单元之间的差异。

假设在各个⼦总体内已经满⾜实施简单随机抽样的条件，则可以在各个⼦总体内独⽴地进⾏简单随机抽样，再将各个⼦总体参数的估计值进⾏加权，得到总体参数的估计。

分层抽样的概念：层：如果⼀个包含N 个单位的总体可以分成不重不漏的L 个⼦总体，即每个单元必定属于且仅属于⼀个⼦总体，则这样的⼦总体称为层。

有N 1+⋯+N L =N 。

分层抽样：在每⼀层中独⽴进⾏抽样，总的样本由各层样本组成，总体参数⼜按照各层样本参数的汇总作出估计。

有n 1+⋯+n L =n 。

分层随机抽样：每层的样本，都独⽴地按照简单随机抽样进⾏，这样的分层抽样称为分层随机抽样。

符号规定：h ：层。

从⽽N h 代表第h 层的单位总数，n h 代表第h 层的样本数。

i ：层内单位号。

从⽽Y hi 代表第h 层第i 个总体单元，y hi 代表第h 层第i 个样本单元。

W h ：层权，即W h =N h N 。

f h ：层内抽样⽐，即f h =n hN h 。

¯Yh,Y h,S 2h：层内总体参数（均值、总值与⽅差）。

¯y h ,y h ,s 2h：层内样本参数（样本均值、样本总值与样本⽅差）。

简单估计量分层抽样⾸先根据各层的样本，计算出各层均值¯Y h的适当估计值ˆ¯Y h ，然后再使⽤总体层权加权平均，得到总体均值¯Y 的估计，即ˆ¯Y st =L∑h =1W h ˆ¯Y h =1N L∑h =1N h ^¯Y h .对于分层随机抽样，每⼀层的ˆ¯Y h就是h 层的样本均值¯y h ，即ˆ¯Y st =L∑h =1W h ¯y h =1N L∑h =1N h ¯y h .注意这⾥的线性形式。

抽样技术-分层随机抽样概述

抽样技术-分层随机抽样概述介绍在实际调查和研究中，我们往往无法对所研究的总体进行全面调查，而需要通过抽样的方式来获取一局部样本数据。

而抽样技术是统计学中非常重要的一个概念，它可以帮助我们从总体中选择样本，通过对样本进行分析和研究，得出对总体的结论。

分层随机抽样是抽样技术中的一种常用方法，它将总体按照一定的特征进行分组，然后从每个组中随机选择一局部样本进行调查。

这种方法可以提高样本的代表性，使得样本更能够反映总体的情况。

分层随机抽样的步骤分层随机抽样包括以下几个步骤： 1. 第一步，确定抽样的总体。

需要明确需要研究的总体是什么，例如某个地区的人群、某家企业的员工等等。

2. 第二步，将总体进行分层。

根据需要研究的特征，将总体进行分组，例如按照性别、年龄、职业等特征进行分层。

3. 第三步，确定每层的样本大小。

根据实际情况和研究的要求，确定每个分层的样本大小，使得每个分层的样本能够充分反映该层的特征。

4. 第四步，进行随机抽样。

在每个分层中，通过随机抽样的方式选择样本。

常用的随机抽样方法有简单随机抽样、系统抽样等。

5. 第五步，收集数据并进行分析。

通过对样本进行调查和数据收集，得到研究所需的数据。

然后可以进行数据分析和统计，得出对总体的结论。

分层随机抽样的优势分层随机抽样相比于其他抽样方法，具有以下优势： 1. 提高样本的代表性。

通过将总体进行分层，可以保证每个分层中都有足够数量的样本，从而使得样本更能够代表总体的特征。

2. 控制误差。

由于每个分层中的样本都是随机选择的，因此可以在一定程度上控制抽样误差，提高调查结果的准确性和可信度。

3. 适用性广泛。

分层随机抽样可以适用于各种调查和研究场景，无论是人口统计学调查、市场调研还是医学研究等，都可以采用这种抽样方法。

分层随机抽样的局限性分层随机抽样虽然具有很多优势，但也存在一些局限性： 1. 难以应对动态总体。

如果总体的分层特征随着时间的推移发生变化，那么分层随机抽样可能无法准确反映总体的情况。

分层随机抽样

抽样均按简单随机抽样进行，求全市年平均户收入的估计及其 90%的置信区间。
解：计算层权： W1=N1/N=0.137, W2=N2/N=0.863。 (1) y st W1 y1 W2 y 2 0.137 15180 0.863 9856 10585.39
(2)求v( y st )
6 第 h 层抽样比为：
nh fh Nh
第二节简单估计量及其性质
一、对总体均值与总量的估计
（一）对总体均值与总量的估计 1 对一般分层抽样：
ˆ WY ˆ, Y hh st
h 1 L
ˆ Y ˆ Y st h
h 1
L
ˆ , 则： ˆ NY 如果每个Y h h h ˆ ˆ Y NY
s( y st ) v( y st ) 142.312 1 90%, 1.645 全市年户均收入Y 的90%的置信区间为 10585.39 1.645 142.312，即： [10351.29元， 10819.49元]
二、对总体比例（成数）的估计
1 成数 P 或总数 A 的估计: 层比例 Ph=Ah/Nh , Qh=1－Ph 层样本比例 ph=ah/nh , qh=1－ph Ah 与 ah 是第 h 层总体及样本中具有所研究特征的单元数。
st st
2 对一般的分层抽样：
ˆ 是Y 的无偏估计，若Y h h ˆ (Y ˆ )也是Y (Y )的无偏估计：则Y
st st
由于各层的抽样是相互独立的，因此： ˆ ) V( W Y ˆ ) W 2V (Y ˆ) V (Y h h h st
h 1 h 1 L L
ˆ ) V (Y ˆ) V (Y st h

抽样技术分层随机抽样

抽样技术：分层随机抽样引言在数据分析中，抽样是一种常见的技术，用于从总体中选择一部分样本进行研究和分析。

抽样的目的是获得对总体的准确、可靠的估计，同时降低研究成本和时间。

然而，在实际应用中，总体往往是复杂多样的，包含不同属性或特征的子群体。

这时，分层随机抽样就是一种有效的抽样技术，可以提高抽样的精确性和代表性。

本文将介绍分层随机抽样的概念、步骤和应用。

什么是分层随机抽样?分层随机抽样是一种按照总体的分层结构进行抽样的方法。

总体根据某种特征或属性被划分为若干层，然后从每一层中随机选择一部分样本，构成最终的样本集。

这种抽样方法能够充分考虑总体内部的差异，保证样本对总体的代表性和准确性。

分层随机抽样的步骤分层随机抽样一般包括以下几个步骤：步骤1：总体划分层首先，需要根据某种特征或属性将总体划分为若干层。

层与层之间应具有较大的差异，而层内部的差异应尽可能小。

步骤2：确定每层的样本量和抽样比例根据抽样的目标和总体的特点，可以确定每一层的样本量。

通常情况下，样本量应当足够大，以获得准确的统计结果。

同时，需要确定每一层的抽样比例，比例应考虑到层内部的差异和样本数量。

步骤3：随机抽样在每一层内，根据抽样比例，从层内随机选择样本。

随机抽样可以保证样本的无偏性和代表性。

步骤4：组成样本集将每一层内抽取的样本进行组合，形成最终的样本集。

样本集应能够反映总体的属性和特征。

分层随机抽样的优点相比于简单随机抽样和系统抽样，分层随机抽样具有以下优点：提高估计的精确性分层随机抽样可以将总体划分为若干个层，然后分别从每一层抽取样本。

这样做有助于充分考虑总体内部的差异，提高估计的精确性。

降低误差由于分层随机抽样将样本分布在不同层中，可以降低抽样误差和估计误差，从而提高研究结论的可靠性。

保证样本的代表性分层随机抽样能够从每一层中抽取样本，使样本更具代表性。

这样可以在不损失总体属性和特征的情况下，降低样本的偏差。

分层随机抽样的应用分层随机抽样在社会调查、市场研究、医学研究等领域有着广泛的应用。

分层随机抽样概论(PPT 50张)

4
2019/2/15
例题

例如，对全国范围汽车运输的抽样调查，调查目的不仅要推算全国货运汽车完成的运量，还要推算不同经济成分（国有、集体、个体）汽车完成的运量。为组织的方便，首先将货运汽车总体按省分层，由各省运输管理部门负责省内的调查工作。各省再将省内拥有的汽车按经济成分分层。为提高抽样效率，再对汽车按吨位分层。例如，某高校对学生在宿舍使用电脑的情况进行调查，根据经验，本科生和研究生拥有电脑的状况差异较大。因此，在抽样前对学生按本科生和研究生进行分层是有必要的。
st
W 2 VY VY h h s t
h 1

L

只要对各层估计无偏，则总体估计也无偏。

各层可以采用不同的抽样方法，只要相应的估计量是无偏的，则对总体的推算也是无偏的。
8
2019/2/15
证明性质1
由于对每一层有 L L ˆ ˆ ˆ E Y E W Y W E Y st hh h h 因此， h 1 1 h L L L 1 1 Y W Y N Y Y Y h h h h h N N N h 1 h 1 h 1 估计量的方差 L L L L ˆ ˆ ˆ ˆ 2ˆ V Y V W Y W V Y 2 W W Cov Y , Y st h h h h h k hk h 1 h 1 h 1 k h 由于各层是独立抽取的，因此上式第二项中的协方差全 L 为0，从而有
二、分层原则：
总体中的每一个单元一定属于并且只属于某一个层，而不可能同时属于两个层或不属于任何一个层。

1.估计：层内单元具有相同性质，通常按调查对象的不同类型进行划分。 2.精度：尽可能使层内单元的指标值相近，层间单元的差异尽可能大，从而达到提高抽样估计精度的目的。 3.估计和精度：既按类型、又按层内单元指标值相近的原则进行多重分层，同时达到实现估计类值以及提高估计精度的目的。 4.实施：抽样组织实施的方便，通常按行政管理机构设置进行分层。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第三章分层随机抽样
第一节分层随机抽样的定义、使用场合以及符号第二节估计量及其性质第三节样本量的分配原则第四节样本量的确定第五节分层抽样的若干问题
2021/1/2
1
第一节引言
一、定义
在抽样之前，先将总体N个单元划分成L个互不
不重重复的子总体，每个子总体称为层，它们的大
不漏小分别为 N1, N2 ,, N L ，这个层合起来就是
层居民户
总数
1
2
1
200
10
40
2
400
50 130
3
750 180 260
4
1500
50
35
样本户奶制品年消费支出
3
4
5
6
7
8
9
10
0 110
15
10
40
80
90
0
60
80 100
55 160
85 160 170
110
0 140
60 200 180 300 220
15
0
20
30
25
10
30 25
2021/1/2
18
W1
N1 N
200 2850
0.07018
f1
n1 N1
1
10 0.05 n1 20N0 2850
y1 n1 i1 y1i 39.5
nh 10
s12
1 n1 1
n1 i 1
y1i y1 2 1624.722
W2
N2 N
400 2850
0.14035
f2
n2 N2
2021/1/2
h1
9
性质2：对于分层随机抽样， yst 是 Y
的无偏估计，yst 的方差为：
V
yst
L
Wh2V
h1
yh
L
Wh2
h1
1 fh nh
S
2 h
2021/1/2
10
证明性质2：
对于分层随机抽样，各层独立进行简单随机抽
样，对每一层有 Eyh Yh
因此，由性质1，有
E
y
2.精度：尽可能使层内单元的指标值相近，层间单元的差异尽可能大，从而达到提高抽样估计精度的目的。
3.估计和精度：既按类型、又按层内单元指标值相近的原则进行多重分层，同时达到实现估计类值以及提高估计精度的目的。
4.实施：抽样组织实施的方便，通常按行政管理机构设置进行分层。
2021/1/2
确定样本量：总的样本量，各层样本量
估计量的方差不仅与各层的方差有关，还和各层所分配的样本量有关。
实际工作中有不同的分配方法，可以按各层单元数占总体单元数的比例分配，也可以采用使估计量总方差达到最小、费用最小。
2021/1/2
26
【例3.1】
调查某地区的居民奶制品年消费支出，以居民户为抽样单元，根据经济及收入水平将居民户划分为4层，每层按简单随机抽样抽取 10户，调查获得如下数据（单位：元），要估计该地区居民奶制品年消费总支出及估计的标准差。
3
750 1 1
0
0 0 0 1 0 10
4 1500 1 0
0
0 0 0 0 0 00
2021/1/2
24
解：由上表可得， p1 0.2 p2 0.2 p3 0.4 p4 0.1
根据前面对各层层权 Wh及抽样比 fh 的计算结果，可得各层估计量的方差：
v p1
1
f1
p1q1 n1 1
st
L
Y
V yst Wh2V yh
h1
由第二章性质2，得 V L
因此 V yst Wh2V
h1
yh yh
1 fh
L nh Wh2
h1
S
2 h
1 fh nh
S
2 h
2021/1/2
11
性质3：对于分层随机抽样， V yst 的一个
无偏估计为：
v yst
L
Wh2v yh
总数
权数
1
2000
0.2
2
3000
0.3
3
5000
0.5
估计方差
标准差
常数与权数与方
分配
成比例
差成比例
20 100
60 49
30 100
90 110
34 100
150 141
3.86
3.09 3.11
与Whsh
正比 40 90 170 3
Wshh
2021/1/2
29
一、比例分配
按各层单元数占总体单元数的比例，也就是按各层的层权进行分配.
0.0169
v p3
1
f
3
p3q3 n3 1
0.0263
v p2 1
v p4 1
f
f
2
4
p2q2 0.0173
np24
1
q4
0.0099
n4 1
因此，该地区居民拥有家庭电脑比例的估计为：
pst
4
Wh ph
h 1
1 N
4
Nh ph
h 1
1 2850
200 0.2 400 0.2 750 0.4 1500 0.1
2021/1/2
27
层居民户总数
权数
1
200 0.07
2
400 0.14
3
750 0.26
4 1500 0.53
2021/1/2
nh nwh
方差
常数
与权数成
Wh
sh
40.3
分配
10
比例
3
46.5 10
6
90.6 10
11
13.9 10
20
s 与 Wh h
正比 3
7
23
7
28
层居民户
Ph Qh nh
L
Wh2 1 f h
h1
Ph Qh nh
2021/1/2
22
性质9：对于分层随机抽样，V pst 的一个无偏估计为：
v pst
L
Wh2v ph
h1
1
L
N
2 h
1
fh
N2 h1
nh
sh2
L
Wh2 1 f h
h1
phqh nh 1
2021/1/2
分层抽样不仅能对总体指标进行推算，而且能对各层指标进行推算。
层内抽样方法可以不同，而且便于抽样工作的组织。
2021/1/2
3
二、分层原则：
总体中的每一个单元一定属于并且只属于某一个层，而不可能同时属于两个层或不属于任何一个层。
1.估计：层内单元具有相同性质，通常按调查对象的不同类型进行划分。
Yst
L WhYh
h1
1 N
L N hYh
h1
分层随机样本，总体均值Y 的简单估计
yst
L
Wh yh
h1
1 N
L
Nh yh
h1
2021/1/2
7
估计量的性质
性质1：对于一般的分层抽样，如果 Yh是 Yh 的
无偏估计（ h 1,2,, L
估计。 Yst 的方差为：
），则
Yst
是 Y 的无偏
例如，某高校对学生在宿舍使用电脑的情况进行调查，根据经验，本科生和研究生拥有电脑的状况差异较大。
因此，在抽样前对学生按本科生和研究生进行分层是有必要的。
2021/1/2
5
三、符号说明 (关于第h层的记号 )
层号
h 1,2,, L
1 Nh
Yh N h i1 yhi
S
2 h
1 Nh 1
2021/1/2
19
4
Yˆ N h yh h1 200 39.5 400 105 750 165 1500 24
209650
v Yˆ
4
N 2 Wh2v
h 1
yh
4 h 1
N
2 h
1 fh nh
sh2
5.93 108
s Yˆ v Yˆ 23208
Yˆ ts Yˆ 209650 2 23208
23
例3.2
在例3.1的调查中，同时调查了居民户拥有家庭电脑的情况，获得如下数据（单位：台），
要估计该地区居民拥有家庭电脑的比例及估计的标准差。
层居民
样本户拥有家庭电脑情况
户总数
1
2
3
4 5 6 7 8 9 10
1
200 0 0
0
1 0 0 0 1 00
2
400 0 1
0
0 0 0 0 0 10
2021/1/2
16
性质6：对于分层随机抽样， V Yˆ 的一个
无偏估计为：
v Yˆ
L
N
2 h
v
yh
h1
L h1
N
2 h
1 fh nh
s
2 h
2021/1/2
17
例3.1
调查某地区的居民奶制品年消费支出，以居民户为抽样单元，根据经济及收入水平将居民户划分为4层，每层按简单随机抽样抽取10户，调查获得如下数据（单位：元），要估计该地区居民奶制品年消费总支出及估计的标准差。
21
性质8：对于分层随机抽样， pst 是 P 的无偏估计，
V
ph
N h nh PhQh Nh 1 nh