抽样技术第七章整群抽样ppt课件

合集下载

第七章 抽样调查技术

第七章 抽样调查技术

13
一、简单随机抽样

(一)具体操作步骤:
第一,对总体的每个单位进行编号,总体单位数 为10,000的总体可编为00 001到期10,000号;

第二,在随机数码表(一般的数理统计书中都有 此表)中从任意一个编号数开始,向上、向下或 跳跃选取编号,在00 001和10,000之间选出200个 (样本单位数);
5
2015/12/22
(二)样本总体


概念: 也称抽样总体(sampled population)或者“子 样”、“样本”,是指从全及总体中抽取出来的 单位集合。 大样本与小样本: 样本总体通常是有限总体,它所包含的的总 体单位数目称为样本容量(通常用英文字母n来表 示)。一般来说,样本单位数达到或者超过30个 称为大样本,而在30个以下的称为小样本。
第二,等距抽样的效率取决于对总体进行 排列时所使用的标志值。在等距抽样中, 调研人员假设总体是有序的。

2015/12/22
23
三、分层抽样

(一)分层抽样的具体步骤 (二)分层抽样的方法 (三)分层指标的选择 (四)分层抽样的优缺点 (五)分层抽样适用的范围
2015/12/22
24

假如我们要进行北京市居民家用电器的拥 有状况调查,采用整群抽样方法,那么, 我们在北京市3,600个居民委员会中随机抽 取20个居委会,这20个居委会中的所有户都 成为我们的调查样本。
2015/12/22
32
(二)采用整群抽样的原因


原因一:当缺少基本单位的名单而难以 直接从总体中抽取所要调查的基本单位。 原因二:即使容易获得个体的抽样框, 但从费用上考虑,直接从个体抽样获得 的样本可能比较分散。 原因三:采用整群抽样是抽样调查本身 目的的需要。 原因四:如果某些总体的各个子总体之 间的差异不大。

《抽样统计》PPT课件

《抽样统计》PPT课件
分层抽样可以提高抽样调查结果的精度, 或者在一定条件下减少样本的单位数 以节约调查费用. 因为分层抽样在总体中散布得更均匀, 大大降低了出现极端数 值的风险, 故其样本对这个总体也有较高的代表性, 可看出, 对总体分层后, 总 体方差可以理解为层内方差和层间方差两部分, 在分层抽样时, 其与层间无关.
11/9/2020
三. 重复抽样与不重复抽样
从N个总体单位中抽取n个组成样本, 有重复抽样与不重复抽样两种抽取方法. 重复抽样是: 每抽出一个个体进行调查登记后, 放回去, 再抽下一个, 直到抽取登 记n个为止. 采用这种抽样方法时, 每次每个单位被抽出的机会都是1/N.
不重复抽样的方法是: 每次抽出一个单位进行调查登记后, 不再放回去, 因此 凡是前面已经抽到过的单位,以后不会再被抽到.
故两种方式下可能抽到的样本个数M为
(1) 在重复抽样方法下:
M=N n,
(2) 在不重复抽样方法下:
11/9/2020
M
C
n N
=
n!
N! N r
n!
四. 抽样误差与抽样标准误差
统计中误差有两类, 一是登记性误差, 即在点数, 测量,登记, 计算,抄录等 过程中产生的误差, 二是代表性误差, 即用非全面资料推算或代替总体指标时产生 的误差.代表性误差又分为系统性与偶然性两种, 系统性误差是指没有遵守随机原 则而有意选取变量值较大或较小单位组成样本造成的误差, 这是应当避免的. 偶 然性误差是遵守了随机原则仍会产生的不可避免的误差.
来确定
n
Z 2P(1 2
P)
Z 2 P(1 P )N n N 2 Z 2 P(1 P )
(重复抽样) (不重复抽样)
11/9/2020

整群抽样

整群抽样

当各群所含次级单元数相等时,就称群
的大小相等;当各群所含次级单元数不 相等时,就称群的大小不相等。
第二节 群规模相等时的估计
一、符号说明 二、估计量 三、整群抽样效率分析

一、符号说明
设总体有N个群,每个群包含的单元数M相等 (或相近). 符号: 总体群数: N 样本群数:n 总体第 i 群中第 j 个单元的指标值: Yij 样本第 i 群中第 j 个单元的指标值: yij 第 i 群中的单元数: M i

注意: 整群抽样的随机性体现在群与群间不重 叠,也无遗漏,群的抽选按概率确定。 如果把每一个群看作一个单位,则整群 抽样可以被理解为是一种特殊的简单随 机抽样。 整群抽样是由一阶抽样向多阶段抽样过 渡的桥梁.此章介绍的是单阶段整群抽样.

(二)特点 优点: 1. 抽样框编制得以简化。
M1 M 2 ... M N M
它们之间的关系为:
1 2 2 S [( N 1) Sb N ( M 1) S w ] NM 1
2
M 仍为M ,不难 将 Y 改为 y ,n 代替 N ,由于是整群抽样, 得到样本方差平方和的关系式:
1 2 2 s [( n 1) sb n( M 1) sw ] nM 1
二、估计量

(一)均值估计量的定义
若群的抽取是简单随机的,且群的大小(M)相等, 则总体均值的估计为:
1 n y yi n i 1 i 1 j 1 nM
n
M
yij
(二)估计量 y 的性质

性质1
y 是 Y 的无偏估计
Y E( y) Y M

性质2
y 的方差为:

(抽样检验)第七章整群抽样

(抽样检验)第七章整群抽样

第七章整群抽样第一节整群抽样概述一、整群抽样的概念整群抽样是先将总体各单元划分成若干群(组),然后以群为单位,从中随机抽取一部分群,对中选群内的所有单元进行全面调查。

确切地说,这种抽样组织形式应称为单级整群抽样。

如果总体中的单元可以分成多级,则可以对前几级单元采用多阶抽样,而在最后一阶中对该阶抽样单元所包含的全部个体(最基本单元)进行调查,这种抽样称作多级整群抽样。

本章只讨论单级整群抽样。

设总体被划分为N群,第i群含有Mi个次级单元,全部总体次级抽样单元数记为M0,即M0=∑M i。

当诸Mi都相等时,称为等群;否则,称为不等群。

采用整群抽样的两个理由:- 抽选群能大大降低数据收集的费用,当总体的分布比较广且调查采用面访时更是如此;- 从总体中直接抽选个体在实际中并不总是可行的(没有关于个体的抽样框);有时,抽选单元组成群体组更简便易行(如整个住户)。

整群抽样包括两步:首先,总体被分为群;然后,在总体中抽取群的样本并访问群中的所有单元。

如果总体单元是自然分成组或群的,创建一个这种关于群的抽样框并对它们进行抽样比创建总体中所有单元的名录框更为容易。

或者,无法得到关于总体中所有单元的名录框,但却有这些单元分布地域的地图,因而可以创建地域框。

群的抽取可以采用简单随机抽样、系统抽样或PPS抽样等各种不同的方法。

二、群的划分问题整群抽样策略的统计效率取决于群内单元的相似程度有多大,每个群中有多少单元,及抽中群的数量。

同分层抽样一样,整群抽样的前提是先要对总体进行分群。

关于群的划分,有两个问题:一是如何定义群,即当群并非是一个自然形成的单位时,确定每个群的组成;二是如何确定群的规模即群的大小。

分层抽样是在各层都进行随机抽样,“层是缩小了的总体”,抽样单元仍然是总体基本单元。

这决定了分层的原则是:尽量缩小层内差异,而扩大层间差异。

而整群抽样只是在各群之间抽取一部分群进行调查,并在抽中的群内作全面调查。

因此,群间差异的大小直接影响到抽样误差的大小,而群内差异的大小则不影响抽样误差。

抽样调查-整群抽样培训课件

抽样调查-整群抽样培训课件
(M1)(NM1)S2
总体中第i群的个体均值:
Y i Yi M
样本中第i群的群均值:
yi
yi M
总体中的群均值:
Y n Yi
N i 1
样本中的群均值:
y
n
yi
n i 1
总体中的个体均值:
N Mi
Y
Yij
M i1 j1
0
总体方差: 样本方差:
S2M 0 11iN 1jM 1(YijY)2
s2 n 1
n mi
名学生。用简单随机抽样在全部N=315间宿舍中抽取
n=8间宿舍。全部48个学生上周每人的零花钱 及
相关计算数据如下表。试估计该学校学生平均每周
y ij
的零花钱 ,并名学生每周零花钱支出额
i
y ij
yi
s
2 i
解:已知 故
N31 ,n5 8,M6,fn0.02,54 N
二、群的划分
整群抽样中的群大致可分为两类:
一类是根据行政或地域形成的群体,如学校企业和街道,对此采 用整群调查是为了方便调查,节约费用。 另一类群则是调查人员人为确定的,如将一大块面积划分若干块 较小面积的群,这时就需要考虑如何划分群,以使在相同调查费 用下调查误差最小。
群划分的一般原则 为了提高精度,划分群时应力争使同一群内各单元之间的差异尽可 能大,以避免同一群内各单元提供重复信息.这个原则与分层抽样中 划分层的原则恰好相反.由此看来,整群抽样和分层抽样是针对不同 总体结构而提出的两种不同抽样方法.
Vsr(sy)(1N nM M )n S2M 1nfM S2
但如果该整体被等分为N个规模为M的群,定义
为群内相关系数,描述同一群内成对个体单元之间

第7章抽样

第7章抽样
29
随机抽样技术的优缺点
(1) 优点 ①随机抽样是从总体中按照随机原则抽取一部分单位进行的 调查。 ②随机抽样技术能够计算调查结果的可靠程度。 (2) 不足 ① 对所有调查样本都给予平等看待,难以体现重点。 ② 抽样范围比较广,所需时间长,参加调查的人员和费用多。 ③ 需要具有一定专业技术的专业人员进行抽样和资料分析。 一般调查人员难以胜任。 ④抽样框难以构建。 ⑤比其他概率抽样精确度低,标准差较大。 30
24
1.简单随机抽样 • 又称纯随机抽样,即对总体单位不进行任何分组 排列,仅按随机原则直接从总体中抽取样本,以 使总体中的每一个单位均有同等的被抽取的机会。
• 这是最基本,最简单的的机率抽样方法。它易于 理解,样本结果可以推断总体,大多数统计推论 方法都假定数据是由简单随机抽样法法获得的。
25
1.简单随机抽样 • 每个单位被选取的机会是相同的。就好像把各个 单位的名字写在大小相同的纸上,放到一个箱子 中,由我们抽取,每个个案都有被抽到的可能, 而且机会相同。如平日常见的摸彩或摇奖,在数 学上则会利用随机数表来抽取样本。
第七章
抽样
1
本章的学习目标 一、抽样的概念
二、抽样的基本过程
三、概率抽样
四、非概率抽样
五、样本量的确定
六、 PPS抽样简介
七、 KISH表的运用
2
一、抽样的概念
3
(一)什么是抽样?
• 抽样就在我们的日常生活中。抽血化验,尝试水 温,窥一斑而知全豹。
• 抽样,就是从研究总体中抽取一部分的过程。 • 抽样调查,就是从研究总体中抽取一部分代表加 以调查研究,然后用所得结果推论和说明总体的 特性。这也称为推论统计。
2.等距抽样
• 又称系统抽样或机械抽样。 • 具体做法: • 1)将总体的所有单位按一定顺序排列起来; • 2)计算抽样间隔R=N/n;

(标准抽样检验)第七章整群抽样

(标准抽样检验)第七章整群抽样

(标准抽样检验)第七章整群抽样第七章整群抽样第一节整群抽样概述一、整群抽样的概念整群抽样是先将总体各单元划分成若干群(组),然后以群为单位,从中随机抽取一部分群,对中选群内的所有单元进行全面调查。

确切地说,这种抽样组织形式应称为单级整群抽样。

如果总体中的单元可以分成多级,则可以对前几级单元采用多阶抽样,而在最后一阶中对该阶抽样单元所包含的全部个体(最基本单元)进行调查,这种抽样称作多级整群抽样。

本章只讨论单级整群抽样。

设总体被划分为N群,第i群含有Mi个次级单元,全部总体次级抽样单元数记为M0,即M0=∑M i。

当诸Mi都相等时,称为等群;否则,称为不等群。

采用整群抽样的两个理由:-抽选群能大大降低数据收集的费用,当总体的分布比较广且调查采用面访时更是如此;-从总体中直接抽选个体在实际中并不总是可行的(没有关于个体的抽样框);有时,抽选单元组成群体组更简便易行(如整个住户)。

整群抽样包括两步:首先,总体被分为群;然后,在总体中抽取群的样本并访问群中的所有单元。

如果总体单元是自然分成组或群的,创建一个这种关于群的抽样框并对它们进行抽样比创建总体中所有单元的名录框更为容易。

或者,无法得到关于总体中所有单元的名录框,但却有这些单元分布地域的地图,因而可以创建地域框。

群的抽取可以采用简单随机抽样、系统抽样或PPS抽样等各种不同的方法。

二、群的划分问题整群抽样策略的统计效率取决于群内单元的相似程度有多大,每个群中有多少单元,及抽中群的数量。

同分层抽样一样,整群抽样的前提是先要对总体进行分群。

关于群的划分,有两个问题:一是如何定义群,即当群并非是一个自然形成的单位时,确定每个群的组成;二是如何确定群的规模即群的大小。

分层抽样是在各层都进行随机抽样,“层是缩小了的总体”,抽样单元仍然是总体基本单元。

这决定了分层的原则是:尽量缩小层内差异,而扩大层间差异。

而整群抽样只是在各群之间抽取一部分群进行调查,并在抽中的群内作全面调查。

抽样技术第七章整群抽样ppt课件

抽样技术第七章整群抽样ppt课件

完整最新版课件
36
完整最新版课件
37
此课件下载可自行编辑修改,供参考! 感谢您的支持,我们努力做得更好!
N2 1
n
f
1
n
n 1 i1
yi2
n
yi
i1 n
mi
i1
2
n i1
mi2
2
n
yi
i1 n
mi
i1
n i1
mi
yi
❖ V YˆR 的大小主要取决于Y1, ,YN 之间的差异的大小
。在多数实际情形中,Y1, ,YN的差别不是很大。
完整最新版课件
28
三、总体比例的估计
注:
XM ,XiM i,X Yii P i,RP
完整最新版课件
31
❖ 例7.4 为估计城市居民中男、女性别的比例,用简
单随机抽样抽取n=56户,每户的人口数mi;,男性 与女性人口数ai与bi的数据见下表。试对男、女性别 比例分别作出估计(1−f可忽略),并估计deff的值。
完整最新版课件
32
完整最新版课件
完整最新版课件
11
三、群内相关系数与设计效应
❖ 群内相关系数
c
E(Yij Y)(Yik Y) E(Yij Y)2
❖ 上式中的分子为
NM
(Yij Y )(Yik Y )
i1 jk
NM (M 1) 2
完整最新版课件
12
上式中的分母为
NM
i1
(Yij
j1
Y)2
NM1S2
NM
NM
故有
NM
2 (Yij Y)(Yik Y)
p±uα/2s(p)
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

NM
NM
故有 可推得
NM
2
(Yij Y )(Yik Y )
c
i1 jk
(M 1)(NM 1)S 2
c
1
NMSw2 (NM 1)S 2
1
Sw2 S2
13
ρc可估计为
ˆc

sb2
sb2 (M
sw2 1) sw2
y 的方差可写成如下形式:
《抽样技术》第七章
1
第七章 整群抽样
§7.1 概述 §7.2 群大小相等的情形 §7.3 群大小不相等的情形 §7.4 按与群大小成比例的不等概率抽样抽群
2
§7.1 概述
设总体由N个大单元,即初级单元组成,每个初级 单元又由若干个较小的次级单元或二级单元组成。 从总体中按某种方式抽取n个初级单元,观测其中所 包含的所有次级单元。这种抽样称为整群抽样。确 切地说,应称为单阶整群抽样。
1N N 1 i1
Yi Y
2 1 f nM
Sb2
s2 y 1 f
n
1 n
n 1 i1
yi y 2
1 f nM
sb2
其中f=n/N为抽样比。可见,sb2 是Sb2的无偏估计。
8
当n足够大时,总体均值Y 的置信度为1−α的置信区 间为:
y u 2s y
例7.1 在一次某城市居民小区居民食品消费量调查 中,以每个楼层(相当于居民小组)为群进行整群抽 样。每个楼层都有M=8个住户。用简单随机抽样在 全部N=510个楼层中抽取n=12个楼层。全部96个 样本户人均月食品消费额yij及按楼层的平均数yi 与 标准差si ,如下表所示。试估计该居民小区人均食 品消费额的户平均值 ,并给出其0.95的置信区间。
如果总体中的单元可以分成多级,则可以对前几级 单元采用多阶抽样,而在最后一阶中对该级抽样单 元(称为整群抽样单元或简称为群 )中所包含的全 部最低级单元进行观测,即是多阶整群抽样。
3
采用整群抽样的理由: (1)缺少次级单元的抽样框 (2)实施便利,节省费用
群划分的原则: 群的划分应尽可能使群与群之间的差异小,而群内 差异则愈大愈好。这样,每个群都具有足够好的代 表性。如果所有的群都相似,那么抽少数群就可获 得相当好的精度。
yij yi
2
S2

1 NM

1

N
Sw2
7
二、总体均值的估计
机Y1样, 本,Y。N 构故成y 一 1n个in总1 y体i 是,Yy1,
, yn 是它的一个简单随
1 N
N
Yi
i1
的无偏估计,且
V y 1 f n
11
三、群内相关系数与设计效应
群内相关系数
c

E(Yij Y E(Yij
)(Yik Y Y )2
)
上式中的分子为
NM
(Yij Y )(Yik Y )
i1 jk
NM (M 1) 2
12
上式中的分母为
NM
i1
(Yij Y )2
j 1

NM
1S2
居民小组)为群的群内相关系数与设计效应。
15
四、总体比例的估计
设总体中具有某种特征的单元的比例为P,总体第i 个群的比例为Pi (i=1, ⋯, N) ,则有
N
P
Ai
i1
NM

1 N
N
Pi
i1
又设样本群数为n,样本第i群中具有某种特征单元
yij是样本第i群中第j个次级单元的观测值 (i=1, ⋯, n;j=1, ⋯, M)。
第i群的总值:
M
M
Yi Yij , yi yij
j 1
j 1
第i群的平均值: Yi Yi M , yi yi M
平均群总值:
1 N
1n
Y

N
Yi ,
i1
y n i1 yi
6
均值:
Y

1 NM
N i 1
M
Yij
j 1

Y M

1 N
N
Yi ,
i 1
总方差(总均方):
y

1 nM
n i 1
M
yij
j 1

y M

1 n
n i 1
yi
S2 1
NM
NM 1 i1 j1
Yij Y
2
,
s2 1
nM
nM 1 i1 j1
M
1 c
1
M
1 c

当群内均方S
2 w

0时,ρc=1;
当群内均方与总方差相等,即 Sw2 S 2 时,
ρc=−1/(NM−1)≈0;
当 Sw2 S 2时,ρc<0。

ρc的取值范围是
1, M 1
1

例7.2 估计例7.1中居民食品消费支出调查以楼层(
2
yij y
群间均方:
Sb2

M N 1
N i 1
Yi Y
2
,
群内均方:
sb2

M n 1
n i 1
yi y 2
Sw2 N
1 M 1
NM
Yij Yi
i1 j1
2
,
sw2 n
1 M 1
nM i1 j1
V y 1 f
n
NM 1 M 2 N 1
S
2
1


M
1 c
1 f nM
S 2 1 M
1 c
对简单随机抽样
Vran y

1 f nM
S2
14
设计效应
deff

Vy Vran y

NM
M N
1
1
1
实际中,一般群内差异小而群间差异大。 至于群规模的选择,一是取决于精度与费用之间的
平衡,二是从抽样实施的组织管理等因素来考虑。
4
§7.2 群大小相等的情形
一、记号 二、总体均值的估计 三、群内相关系数与设计效应 四、总体比例的估计
5
一、记号
记Yij为总体第i群中第j个次级单元的观测值 (i=1, ⋯, N;j=1, ⋯, M,M是群的大小);
9
10
解 N=510, n=12, M=8, f=0.02344
y

1 12
12 i1
yi

2620.5 12

218.375
s2
y

112 510 12
1 12 1
12 i1

yi

y 2
144.3089
s y 144.3089 12.013
故Y 的0.95置信区间为 218.375±1.96×12.013=(194.83, 241.92)
相关文档
最新文档