分层随机抽样概论

合集下载

04-第四章_分层随机抽样

04-第四章_分层随机抽样

L
下面讨论估计量的期望与方差。 (1)对于一般分层抽样
ˆ )也 对于一般的分层抽样,若 Y h 是 Y h 的无偏估计量,则 Y st (或 Y st
是 Y (或 Y )的无偏估计:
Ù
Ù
E (Y st ) = å Wh E (Y h ) = Y
h =1
Ù
L
Ù
ˆst ) = NE (Y st ) = N Y = Y E (Y
L
2 L Sh S2 - å Wh2 h nh h =1 Nh

简便公式
2 L Wh2 Sh W S2 -å h h nh N h =1 h =1
V ( y st ) = V (å Wh y h )
h =1
L
= å Wh2V ( y h )
h =1 L
L
= å Wh2
h =1
Sh2 (1 - f h ) nh
åN
h =1
L
h
=N。
Wh =
Nh 称为层权,它也是已知的。 N
以 Yhi 表示第 h 层总体的第 i 个单元的指标值,以 yhi 表示第 h 层样本的 第 i 个单元的指标值。
Yh =
1 Nh 1 nh
åY
i =1 nh i =1
Nh
hi
表示第 h 层的总体均值,
yh =
åy
hi
表示第 h 层的样本均值(其中 nh 是第 h 层的样本量) ,
h =1 h =1 h =1 L L Ù L Ù Ù
Ù
3
(2)对于分层随机抽样
Ù
特别对于分层随机抽样,Y h 一般均取为简单估计:层样本均值 y h ,因 此 Y 的简单估计为:

抽样技术-分层随机抽样概述

抽样技术-分层随机抽样概述

19
W1

N1 N

200 2850

0.07018
f1

n1 N1

10 200

0.05
1 n1
y1 n1 i1 y1i 39.5
s12

1 n1 1
n1 i 1
y1i y1 2 1624.722
同理,求得: y2 105
s22 2166.667
y3 165
2020/3/10
17
性质3:对于分层随机抽样, 的一个无偏估计为:
V Yˆ
v Yˆ
L

N
2 h
v
yh
h1

L h1
N
2 h
1 fh nh
s
2 h
2020/3/10
18
例3.1
调查某地区的居民奶制品年消费支出,以居民户为抽样 单元,根据经济及收入水平将居民户划分为4层,每层 按简单随机抽样抽取10户,调查获得如下数据(单位: 元),要估计该地区居民奶制品年消费总支出及其 95%的置信区间。
Wh
Nh N 第 h 层的
层权
fh
nh Nh
第 h 层的
抽样比
Yh
1 Nh
Nh
Yhi
i 1
第 h 层的
总体均值
yh
1 nh
nh i1 yhi
第 h 层的
样本均值
6
记号
Yh
yh
S
2 h
s h2
公式
Nh
Yhi NhYh
i 1
代表的含 义
第 h 层的

2-1-3分层抽样4

2-1-3分层抽样4

1 L yst = ∑ Wh yh (或 = ∑ N h yh ) 或 N h =1 h =1 ~ 的无偏估计可选为: 总体总和 Y 的无偏估计可选为:
L
(4.2)
% yst = N ⋅ yst = N ⋅ ∑ Wh yh = ∑ N h yh
h =1 h =1
L
L
(4.3)
的方差为: 估计量 y st 的方差为: L Var ( yst ) = Var ( ∑ Wh yh ) 由于各个小盒子的抽样过程是相互独立的,故各个 yh相互 由于各个小盒子的抽样过程是相互独立的, 独立,由独立随机变量之和的方差计算公式, 独立,由独立随机变量之和的方差计算公式,有
含义 的层权 抽样比 总体均值 样本均值
记号 公式
Yh
yh
2 Sh
2 sh
∑Y
i =1
Nh
hi
= N hYh
∑y
i =1
nh
hi
= nh yh
(Yhi − Yh )2 ∑
i =1
Nh
( yhi − yh )2 ∑
i =1
nh
Nh −1
nh − 1
代表的 第 h 层的 第 h 层的 第 h 层的 第 h 层的 含义 总体总量 样本总量 总体方差 样本方差
h=1 i =1 L
h =1
L
(4.5)
(4.5)式两端各除以 -1),假如各层的单元数 N h都很大,当 式两端各除以(N- , 都很大, 式两端各除以 近似认为: 近似认为: N h ≈ N h − 1 ≈ N h = W (4.6) h
N −1
N −1
N
因此直接来自总体的简单随机抽样平均数的方差大约为: 因此直接来自总体的简单随机抽样平均数的方差大约为: L 1 1 L 2 2 Var ( y ) = ( − ) ∑ Wh Sh + ∑ Wh (Yh − Y ) (4.7) n N h =1 h =1 (4.7)式花括弧内第一项为各个小盒子方差的加权和,而第二 式花括弧内第一项为各个小盒子方差的加权和, 式花括弧内第一项为各个小盒子方差的加权和 项则表示了各小盒子之间的差异平方和。比较(4.4)和(4.7), 项则表示了各小盒子之间的差异平方和。比较 和 , 那么易见(4.4)式变为 若取 nh n = Wh ,那么易见 式变为 1 1 L 2 Var ( yst ) = ( − )∑ Wh S h n N h =1

【抽样调查】分层随机抽样

【抽样调查】分层随机抽样

【抽样调查】分层随机抽样第2部分:分层随机抽样⽬录概述分层随机抽样的思路:当N ,n 都较⼤,总体单元之间的差异也较⼤时,简单随机抽样会出现⾼成本、低精度情形,解决⽅法是将总体划分为若⼲个⼦总体、减少总体单元之间的差异。

假设在各个⼦总体内已经满⾜实施简单随机抽样的条件,则可以在各个⼦总体内独⽴地进⾏简单随机抽样,再将各个⼦总体参数的估计值进⾏加权,得到总体参数的估计。

分层抽样的概念:层:如果⼀个包含N 个单位的总体可以分成不重不漏的L 个⼦总体,即每个单元必定属于且仅属于⼀个⼦总体,则这样的⼦总体称为层。

有N 1+⋯+N L =N 。

分层抽样:在每⼀层中独⽴进⾏抽样,总的样本由各层样本组成,总体参数⼜按照各层样本参数的汇总作出估计。

有n 1+⋯+n L =n 。

分层随机抽样:每层的样本,都独⽴地按照简单随机抽样进⾏,这样的分层抽样称为分层随机抽样。

符号规定:h :层。

从⽽N h 代表第h 层的单位总数,n h 代表第h 层的样本数。

i :层内单位号。

从⽽Y hi 代表第h 层第i 个总体单元,y hi 代表第h 层第i 个样本单元。

W h :层权,即W h =N h N 。

f h :层内抽样⽐,即f h =n hN h 。

¯Yh,Y h,S 2h:层内总体参数(均值、总值与⽅差)。

¯y h ,y h ,s 2h:层内样本参数(样本均值、样本总值与样本⽅差)。

简单估计量分层抽样⾸先根据各层的样本,计算出各层均值¯Y h的适当估计值ˆ¯Y h ,然后再使⽤总体层权加权平均,得到总体均值¯Y 的估计,即ˆ¯Y st =L∑h =1W h ˆ¯Y h =1N L∑h =1N h ^¯Y h .对于分层随机抽样,每⼀层的ˆ¯Y h就是h 层的样本均值¯y h ,即ˆ¯Y st =L∑h =1W h ¯y h =1N L∑h =1N h ¯y h .注意这⾥的线性形式。

抽样技术-分层随机抽样概述

抽样技术-分层随机抽样概述

抽样技术-分层随机抽样概述介绍在实际调查和研究中,我们往往无法对所研究的总体进行全面调查,而需要通过抽样的方式来获取一局部样本数据。

而抽样技术是统计学中非常重要的一个概念,它可以帮助我们从总体中选择样本,通过对样本进行分析和研究,得出对总体的结论。

分层随机抽样是抽样技术中的一种常用方法,它将总体按照一定的特征进行分组,然后从每个组中随机选择一局部样本进行调查。

这种方法可以提高样本的代表性,使得样本更能够反映总体的情况。

分层随机抽样的步骤分层随机抽样包括以下几个步骤: 1. 第一步,确定抽样的总体。

需要明确需要研究的总体是什么,例如某个地区的人群、某家企业的员工等等。

2. 第二步,将总体进行分层。

根据需要研究的特征,将总体进行分组,例如按照性别、年龄、职业等特征进行分层。

3. 第三步,确定每层的样本大小。

根据实际情况和研究的要求,确定每个分层的样本大小,使得每个分层的样本能够充分反映该层的特征。

4. 第四步,进行随机抽样。

在每个分层中,通过随机抽样的方式选择样本。

常用的随机抽样方法有简单随机抽样、系统抽样等。

5. 第五步,收集数据并进行分析。

通过对样本进行调查和数据收集,得到研究所需的数据。

然后可以进行数据分析和统计,得出对总体的结论。

分层随机抽样的优势分层随机抽样相比于其他抽样方法,具有以下优势: 1. 提高样本的代表性。

通过将总体进行分层,可以保证每个分层中都有足够数量的样本,从而使得样本更能够代表总体的特征。

2. 控制误差。

由于每个分层中的样本都是随机选择的,因此可以在一定程度上控制抽样误差,提高调查结果的准确性和可信度。

3. 适用性广泛。

分层随机抽样可以适用于各种调查和研究场景,无论是人口统计学调查、市场调研还是医学研究等,都可以采用这种抽样方法。

分层随机抽样的局限性分层随机抽样虽然具有很多优势,但也存在一些局限性: 1. 难以应对动态总体。

如果总体的分层特征随着时间的推移发生变化,那么分层随机抽样可能无法准确反映总体的情况。

分层随机抽样

分层随机抽样

抽样均按简单随机抽样进行,求全市年 平均户收入的估计及其 90%的置信区间。
解: 计算层权: W1=N1/N=0.137, W2=N2/N=0.863。 (1) y st W1 y1 W2 y 2 0.137 15180 0.863 9856 10585.39
(2)求v( y st )
6 第 h 层抽样比为:
nh fh Nh
第二节 简单估计量及其性质
一、对总体均值与总量的估计
(一)对总体均值与总量的估计 1 对一般分层抽样:
ˆ WY ˆ, Y hh st
h 1 L
ˆ Y ˆ Y st h
h 1
L
ˆ , 则: ˆ NY 如果每个Y h h h ˆ ˆ Y NY
s( y st ) v( y st ) 142.312 1 90%, 1.645 全市年户均收入Y 的90%的置信区间为 10585.39 1.645 142.312,即: [10351.29元, 10819.49元]
二、对总体比例(成数) 的估计
1 成数 P 或总数 A 的估计: 层比例 Ph=Ah/Nh , Qh=1-Ph 层样本比例 ph=ah/nh , qh=1-ph Ah 与 ah 是第 h 层总体及样本中具有 所研究特征的单元数。
st st
2 对一般的分层抽样:
ˆ 是Y 的无偏估计, 若Y h h ˆ (Y ˆ )也是Y (Y )的无偏估计: 则Y
st st
由于各层的抽样是相互独立的,因此: ˆ ) V( W Y ˆ ) W 2V (Y ˆ) V (Y h h h st
h 1 h 1 L L
ˆ ) V (Y ˆ) V (Y st h

抽样技术分层随机抽样

抽样技术分层随机抽样

抽样技术:分层随机抽样引言在数据分析中,抽样是一种常见的技术,用于从总体中选择一部分样本进行研究和分析。

抽样的目的是获得对总体的准确、可靠的估计,同时降低研究成本和时间。

然而,在实际应用中,总体往往是复杂多样的,包含不同属性或特征的子群体。

这时,分层随机抽样就是一种有效的抽样技术,可以提高抽样的精确性和代表性。

本文将介绍分层随机抽样的概念、步骤和应用。

什么是分层随机抽样?分层随机抽样是一种按照总体的分层结构进行抽样的方法。

总体根据某种特征或属性被划分为若干层,然后从每一层中随机选择一部分样本,构成最终的样本集。

这种抽样方法能够充分考虑总体内部的差异,保证样本对总体的代表性和准确性。

分层随机抽样的步骤分层随机抽样一般包括以下几个步骤:步骤1:总体划分层首先,需要根据某种特征或属性将总体划分为若干层。

层与层之间应具有较大的差异,而层内部的差异应尽可能小。

步骤2:确定每层的样本量和抽样比例根据抽样的目标和总体的特点,可以确定每一层的样本量。

通常情况下,样本量应当足够大,以获得准确的统计结果。

同时,需要确定每一层的抽样比例,比例应考虑到层内部的差异和样本数量。

步骤3:随机抽样在每一层内,根据抽样比例,从层内随机选择样本。

随机抽样可以保证样本的无偏性和代表性。

步骤4:组成样本集将每一层内抽取的样本进行组合,形成最终的样本集。

样本集应能够反映总体的属性和特征。

分层随机抽样的优点相比于简单随机抽样和系统抽样,分层随机抽样具有以下优点:提高估计的精确性分层随机抽样可以将总体划分为若干个层,然后分别从每一层抽取样本。

这样做有助于充分考虑总体内部的差异,提高估计的精确性。

降低误差由于分层随机抽样将样本分布在不同层中,可以降低抽样误差和估计误差,从而提高研究结论的可靠性。

保证样本的代表性分层随机抽样能够从每一层中抽取样本,使样本更具代表性。

这样可以在不损失总体属性和特征的情况下,降低样本的偏差。

分层随机抽样的应用分层随机抽样在社会调查、市场研究、医学研究等领域有着广泛的应用。

分层随机抽样概论(PPT 50张)

分层随机抽样概论(PPT 50张)
4
2019/2/15
例题


例如,对全国范围汽车运输的抽样调查,调查目的不 仅要推算全国货运汽车完成的运量,还要推算不同经 济成分(国有、集体、个体)汽车完成的运量。 为组织的方便,首先将货运汽车总体按省分层,由 各省运输管理部门负责省内的调查工作。 各省再将省内拥有的汽车按经济成分分层。 为提高抽样效率,再对汽车按吨位分层。 例如,某高校对学生在宿舍使用电脑的情况进行调查, 根据经验,本科生和研究生拥有电脑的状况差异较大。 因此,在抽样前对学生按本科生和研究生进行分层 是有必要的。
st
W 2 VY VY h h s t
h 1

L


只要对各层估计无偏,则总体估计也无偏。

各层可以采用不同的抽样方法,只要相应的估计量 是无偏的,则对总体的推算也是无偏的。
8
2019/2/15
证明性质1
由于对每一层有 L L ˆ ˆ ˆ E Y E W Y W E Y st hh h h 因此, h 1 1 h L L L 1 1 Y W Y N Y Y Y h h h h h N N N h 1 h 1 h 1 估计量的方差 L L L L ˆ ˆ ˆ ˆ 2ˆ V Y V W Y W V Y 2 W W Cov Y , Y st h h h h h k hk h 1 h 1 h 1 k h 由于各层是独立抽取的,因此上式第二项中的协方差全 L 为0,从而有
二、分层原则:
总体中的每一个单元一定属于并且只属于某一个层,而不可能同时属于两个 层或不属于任何一个层。




1.估计:层内单元具有相同性质,通常按调查对 象的不同类型进行划分。 2.精度:尽可能使层内单元的指标值相近,层间 单元的差异尽可能大,从而达到提高抽样估计精 度的目的。 3.估计和精度:既按类型、又按层内单元指标值 相近的原则进行多重分层,同时达到实现估计类 值以及提高估计精度的目的。 4.实施:抽样组织实施的方便,通常按行政管理 机构设置进行分层。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三章 分层随机抽样
第一节 分层随机抽样的定义、使用场合以及符号 第二节 估计量及其性质 第三节 样本量的分配原则 第四节 样本量的确定 第五节 分层抽样的若干问题
2021/1/2
1
第一节 引 言
一、定义
在抽样之前,先将总体N个单元划分成L个互不
不重 重复的子总体,每个子总体称为层,它们的大
不漏 小分别为 N1, N2 ,, N L ,这个层合起来就是
层 居民户
总数
1
2
1
200
10
40
2
400
50 130
3
750 180 260
4
1500
50
35
样本户奶制品年消费支出
3
4
5
6
7
8
9
10
0 110
15
10
40
80
90
0
60
80 100
55 160
85 160 170
110
0 140
60 200 180 300 220
15
0
20
30
25
10
30 25
2021/1/2
18
W1
N1 N
200 2850
0.07018
f1
n1 N1
1
10 0.05 n1 20N0 2850
y1 n1 i1 y1i 39.5
nh 10
s12
1 n1 1
n1 i 1
y1i y1 2 1624.722
W2
N2 N
400 2850
0.14035
f2
n2 N2
2021/1/2
h1
9
性质2:对于分层随机抽样, yst 是 Y
的无偏估计,yst 的方差为:
V
yst
L
Wh2V
h1
yh
L
Wh2
h1
1 fh nh
S
2 h
2021/1/2
10
证明性质2:
对于分层随机抽样,各层独立进行简单随机抽
样,对每一层有 Eyh Yh
因此,由性质1,有
E
y
2.精度:尽可能使层内单元的指标值相近,层间 单元的差异尽可能大,从而达到提高抽样估计精 度的目的。
3.估计和精度:既按类型、又按层内单元指标值 相近的原则进行多重分层,同时达到实现估计类 值以及提高估计精度的目的。
4.实施:抽样组织实施的方便,通常按行政管理 机构设置进行分层。
2021/1/2
确定样本量:总的样本量,各层样本量
估计量的方差不仅与各层的方差有关, 还和各层所分配的样本量有关。
实际工作中有不同的分配方法,可以按 各层单元数占总体单元数的比例分配, 也可以采用使估计量总方差达到最小、 费用最小。
2021/1/2
26
【例3.1】
调查某地区的居民奶制品年消费支出, 以居民户为抽样单元,根据经济及收入 水平将居民户划分为4层,每层按简单随 机 抽 样 抽 取 10户 , 调 查 获得如 下数据 (单位:元),要估计该地区居民奶制 品年消费总支出及估计的标准差。
3
750 1 1
0
0 0 0 1 0 10
4 1500 1 0
0
0 0 0 0 0 00
2021/1/2
24
解:由上表可得, p1 0.2 p2 0.2 p3 0.4 p4 0.1
根据前面对各层层权 Wh及抽样比 fh 的计算结果,可得各层估计量的方差:
v p1
1
f1
p1q1 n1 1
st
L
Y
V yst Wh2V yh
h1
由第二章性质2,得 V L
因此 V yst Wh2V
h1
yh yh
1 fh
L nh Wh2
h1
S
2 h
1 fh nh
S
2 h
2021/1/2
11
性质3:对于分层随机抽样, V yst 的一个
无偏估计为:
v yst
L
Wh2v yh
总数
权数
1
2000
0.2
2
3000
0.3
3
5000
0.5
估计方 差
标准 差
常数 与权数 与方
分配
成比例
差成 比例
20 100
60 49
30 100
90 110
34 100
150 141
3.86
3.09 3.11
与Whsh
正比 40 90 170 3
Wshh
2021/1/2
29
一、比例分配
按各层单元数占总体单元数的比例,也 就是按各层的层权进行分配.
0.0169
v p3
1
f
3
p3q3 n3 1
0.0263
v p2 1
v p4 1
f
f
2
4
p2q2 0.0173
np24
1
q4
0.0099
n4 1
因此,该地区居民拥有家庭电脑比例的估计为:
pst
4
Wh ph
h 1
1 N
4
Nh ph
h 1
1 2850
200 0.2 400 0.2 750 0.4 1500 0.1
2021/1/2
27
层 居民 户总 数
权数
1
200 0.07
2
400 0.14
3
750 0.26
4 1500 0.53
2021/1/2
nh nwh
方差
常 数
与权 数成
Wh
sh
40.3
分 配
10
比例
3
46.5 10
6
90.6 10
11
13.9 10
20
s 与 Wh h
正比 3
7
23
7
28
层 居民户
Ph Qh nh
L
Wh2 1 f h
h1
Ph Qh nh
2021/1/2
22
性质9:对于分层随机抽样,V pst 的一个无偏估计为:
v pst
L
Wh2v ph
h1
1
L
N
2 h
1
fh
N2 h1
nh
sh2
L
Wh2 1 f h
h1
phqh nh 1
2021/1/2
分层抽样不仅能对总体指标进行推算, 而且能对各层指标进行推算。
层内抽样方法可以不同,而且便于抽样 工作的组织。
2021/1/2
3
二、分层原则:
总体中的每一个单元一定属于并且只属于某一个层,而不可能同时属于两个 层或不属于任何一个层。
1.估计:层内单元具有相同性质,通常按调查对 象的不同类型进行划分。
Yst
L WhYh
h1
1 N
L N hYh
h1
分层随机样本,总体均值Y 的简单估计
yst
L
Wh yh
h1
1 N
L
Nh yh
h1
2021/1/2
7
估计量的性质
性质1:对于一般的分层抽样,如果 Yh是 Yh 的
无偏估计( h 1,2,, L
估计。 Yst 的方差为:
),则
Yst
是 Y 的无偏
例如,某高校对学生在宿舍使用电脑的情况进行调查, 根据经验,本科生和研究生拥有电脑的状况差异较大。
因此,在抽样前对学生按本科生和研究生进行分层 是有必要的。
2021/1/2
5
三、符号说明 (关于第h层的记号 )
层号
h 1,2,, L
1 Nh
Yh N h i1 yhi
S
2 h
1 Nh 1
2021/1/2
19
4
Yˆ N h yh h1 200 39.5 400 105 750 165 1500 24
209650
v Yˆ
4
N 2 Wh2v
h 1
yh
4 h 1
N
2 h
1 fh nh
sh2
5.93 108
s Yˆ v Yˆ 23208
Yˆ ts Yˆ 209650 2 23208
23
例3.2
在例3.1的调查中,同时调查了居民户拥有家 庭电脑的情况,获得如下数据(单位:台),
要估计该地区居民拥有家庭电脑的比例及估计 的标准差。
层 居民
样本户拥有家庭电脑情况
户总 数
1
2
3
4 5 6 7 8 9 10
1
200 0 0
0
1 0 0 0 1 00
2
400 0 1
0
0 0 0 0 0 10
2021/1/2
16
性质6:对于分层随机抽样, V Yˆ 的一个
无偏估计为:
v Yˆ
L
N
2 h
v
yh
h1
L h1
N
2 h
1 fh nh
s
2 h
2021/1/2
17
例3.1
调查某地区的居民奶制品年消费支出,以居民户为抽 样单元,根据经济及收入水平将居民户划分为4层,每 层按简单随机抽样抽取10户,调查获得如下数据(单 位:元),要估计该地区居民奶制品年消费总支出及 估计的标准差。
21
性质8:对于分层随机抽样, pst 是 P 的无偏估计,
V
ph
N h nh PhQh Nh 1 nh
相关文档
最新文档