第四章 分层抽样(抽样调查理论与方法-北京商学院 李平)
抽样调查培训课程.pptx

目录
第一章 引言 第二章 简单随机抽样 第三章 不等概抽样 第四章 分层抽样 第五章 多阶抽样 第六章 整群抽样与系统抽样 第七章 二相抽样
§1.1 大规模抽样调查
§1.2 有限总体抽样的样本分布
§1.3 概率抽样的几种基本 的抽样方法
抽样调查的意义与分类 总体与样本 抽样调查的操作流程
入样概率
性质1: 记一个可能样本为s,样本出现概率为 p(s),则有
p(s) 1
s
对任一单元Yk,
即为Yk的入样概率。
入样概率
性质2: 定理1 对总体{Y1 ,Y2 ,… ,YN} 抽取一个样 本量为n的无重复样本(即同一单元不在 样本中重复出现),对任一抽样设计,记 Yk的入样概率为 ,记两个单元Yk,Yl同 时入样的 概率为 ,则有:
常见待估计总体特征
N
1、总体总值N或Y Yk , k 1
常见待估计总体特征
总体总值、均值、比例的统一关系:
总体总值、比例都可以用均值来表示
对估计量的要求
偏量 以样本统计量w估计总体的数字特征W, B(w)=E(w-W)=E (w)-W 称为偏量。
均方偏差MSE(mean square erro) MSE(w)=E(w-W)2=var(w)+B2(w)
总体与样本
抽样框与抽样单元:其单元满足“与实际总 体的每个单元之间存在确定的对应关系, 凭借这种对应关系可以找到实际总体中特定 的一个或一些单元”条件的实际总体的映射总 体称为抽样框,构成映射总体的单元称为抽 样单元。
抽样框可认为是一个目录性清单。其形式可 为:名单、手册、地图、数据库等。 抽样框必须是有序的,其包含的抽样单元务 必“不重不漏”。 抽样单元不仅是“影子”,还指“实体”, 又称样本单元或样本点,不一定是基本单元, 可划分、分级。
第六章 二重抽样(抽样调查理论与方法-北京商学院 李平)

2
1 n s yx ( y2 j y )( x2 j x ) n 1 j 1
例6.2 某县共有200个村,现要估计去年全县平均每村交售肉 猪的头数。已知肉猪的交售头数与生猪年终存栏数之间有较高 的相关性,而存栏头数的资料容易取得。采用二重比估计的方 法,先抽取80个村作为第一重样本,得年终平均每村的生猪存 栏数为1080头。然后在这80个村中又选了13个村作为第二重样 本,分别统计了年终的存栏数和交售头数,资料见下表。
二重抽样的用途很多,以下对几个方面进行叙述。 当为了提高抽样效率,打算使用某些抽样或者估计方法, 但又不知道某些必要的辅助信息时,二重抽样可以发挥很大 作用。分层抽样需要事先将总体单元分成层,进行估计时需 要知道层权,在构造比估计或回归估计时要求知道辅助变量 的总体总和或均值。在缺少这种辅助信息的情况下,就可以 使用二重抽样先抽一个大样本以获取这些信息,然后再对较 小的第二重样本进行实际调查并利用第一重样本中所得信息 改善估计量的精度。这里有一个费用问题,一般情况下,第 一重抽样的费用应该是非常低廉的,由此而增加的费用可以 通过提高估计量的精度而得到益处进行补偿,否则采用二重 抽样就不值得了。 有时候,调查的总体只是一个大总体中的小总体,但我 们对这个小总体却知之甚少,甚至连小总体的单元数都不知 道。在这种情况下,就可以使用二重抽样,从总体单元中筛 选主调查的对象。
试估计该县去年全年平均每村交售肉猪的头数,并计算其标 准差。
村i
1 2 3 4 5 6 7 8 9 10 11 12 13
年终生猪存栏头数( x2 j )
550 720 1500 1020 620 980 928 1200 1350 1750 670 729 1530
(6.6)
第七章 不等概率抽样(抽样调查理论与方法-北京商学院,李平)

2 Z i (7.19)
1 1 ij 2 Z i Z j ( ) D 1 2Zi 1 2Z j 1 1 Zi Z j ( ) D 1 2Zi 1 2Z j
(7.20)
Durbin方法中的 i , ij 与Brewer方法中的 i , ij 完全一样 这表明两种不等概率抽样方法其实是等价的。
既然是不等概率抽样,那么就应该在抽样之前给总体中 的每一个单元赋予一定的抽取概率,在放回抽样的每一次抽 取中,设第 i 个单元入样的概率为 Z i (0 Z i 1, i 1, 2, , N ) N 且 Z i 1,按此规定有放回地独立抽取 n 次,形成所谓 i 1 的多项抽样。
(7.6)
(7.7)
§2
不放回的不等概率抽样
上一节讲述了有放回不等概率抽样,无论从实施上还是 从估计计算以及精度估计都显得十分方便。但是,一个单元 被抽中两次以上总会使样本的代表性打折扣,从而引起抽样 误差的增加。因此,实际调查工作者一般倾向于使用不放回 形式。
最简单的不放回不等概率抽样方式自然会想到逐一抽样 这在第一次抽样时不会发生问题,但在抽第二个样本时面临 的情况与有放回时大不相同,余下的 ( N-1 ) 个单元以什 么样的概率参与第二次抽样就是个问题;再在抽第三个样本 时又面临新问题,如此下去,一是抽样实施的复杂,二是估 计量及其方差计算的复杂,因此,在本节仅讨论 n固定,尤 其是n=2时的情形。同时,我们只对使总体中每个单元的入 ps 样概率严格地与其“大小”成比例感兴趣,这就是所谓的 抽样。
i
1 2 3 4 5 6 7 8
Mi
30 M i
累计
代码
2/5 1/2 2/3 4/3 8/5 3/5 2/3 1
社会调查研究方法——第4章抽样PPT课件

2021/3/25
授课:XXX
6
总体与样本
总体
2021/3/25
样 本
授课:XXX
样本统计量 例如:样本均 值、比例、方 差
7
(4)抽样单位(sampling unit) 就是我们可以单独从总体中抽取出来的基本单位 。 一个理想的抽样框的要求是,它应该尽可能地 与目标总体相一致。 一般而言,如果总体中的每个元素在清单上分 别只出现一次,且清单上又没有总体以外的其 他元素出现,则该清单就是一个完备的抽样框 。在完备的抽样框中,每个元素必须且只能同 一个号码对应。
▪ 本次调查以湖北的宜城市和荆门市的部分乡镇的 移民为总体,采用判断抽样方法选取调查对象。由
于该项调查的指导者王茂福教授对宜城一带较熟 悉且得到荆门地区移民局的热情支持,所以我们首
选了这两个地区。此次调查总样本为427人。 其中宜城市为328人,占总样本的55.7%,荆 门市为189人,占总样本的44.3%。
▪ 其他类似的偶遇抽样还有: ▪ 在街口拦住过往行人进行调查;
▪ 在图书馆阅览室对当时正在阅读的读者进行调查; 在商店门口、展览大厅、电影院等公众场所向进出 往来的顾客、观众进行的调查;
▪ 利用报刊杂志向读者进行调查;
▪ 老师以他所教的班级的学生作为调查样本的调查等 等。
2021/3/25
授课:XXX
授课:XXX
19
实例:“丹江口水库移民生活满意度的调查”,载《社 会》2002年6月,作者:陆青华。
▪ 这次我们调查的对象是1978年前因丹江口水库工 程而迁出的移民,着重是了解他们的生活状况以及 对移民生活的满意程度,希望通过对移民们生活中 这一敏感而又关键的问题的把握,为改善移民工作 提供一些有价值的参考意见。
第四章专题学习活动-抽样调查

第四章专题学习活动-抽样调查引言抽样调查是社会科学研究中的一种常用方法,通过对样本数据的分析,可以推断出总体的特征或者关系。
本文档旨在介绍第四章专题研究活动中的抽样调查方法,包括抽样原理、抽样方法和调查过程。
抽样原理抽样原理指的是从总体中选取一部分样本进行调查,通过对样本的研究结果,来了解总体的特征。
抽样原理的关键在于代表性,即样本要能准确地反映出总体的特点。
在抽样过程中,需要考虑以下几个因素:- 总体特征的确定:明确研究对象的范围和特征,以便选择合适的抽样方法和样本。
- 抽样误差的控制:通过合理的抽样方法和样本大小,尽量减小抽样误差。
- 抽样方式的随机性:抽样过程需要使用随机抽样的方法,确保每个样本有平等的机会被选中。
抽样方法抽样方法可以分为概率抽样和非概率抽样两大类。
概率抽样是指通过随机抽样的方法来选择样本,从而保证每个样本有相等的选择机会,具有统计学意义。
常见的概率抽样方法有以下几种:- 简单随机抽样:每个样本有相等的被选中机会,适用于总体规模较小的情况。
- 系统抽样:按照一定的规则选择样本,比如每隔一定间隔选择一个样本。
- 分层抽样:将总体划分为若干层,从每一层中随机抽取样本。
- 整群抽样:将总体划分为若干群,从每一群中选择全部样本进行调查。
非概率抽样则不满足随机抽样的要求,样本选择过程可能存在主观因素,不能推广到整个总体。
常见的非概率抽样方法有以下几种:- 方便抽样:选择那些容易获得的样本。
- 判断抽样:根据研究者的判断选择样本。
- 意向抽样:选择那些对研究感兴趣的样本。
- 配额抽样:根据总体的特征设定一定数量的样本。
调查过程在进行抽样调查时,需要经过以下几个步骤:1. 确定调查目标:明确调查的目标和研究问题。
2. 设计调查问卷:根据研究问题设计合适的调查问卷。
3. 样本选择:根据抽样方法选择样本,并进行抽样。
4. 数据收集:通过面对面访谈、电话调查、网络问卷等方式收集数据。
5. 数据分析:对收集到的数据进行统计学分析,并得出结论。
《现代社会调查方法》第四章抽样

第一节 抽样的意义与作用
2、抽样的作用
抽样作为人们从部分认识整体这一过程的关键 环节,其基本作用是向人们提供一种实现“由 部分认识总体”这一目标的途径和手段。 在社会调查中,抽样主要是解决的是调查对象 的选取问题,即如何从总体中选出一部分对象 作为总体的代表的问题。
两个例子
1984年的美 国总统大选
第二节 概率抽样的原理与程序
概率抽样的两项优点:
概率样本更具代表性,可避免各种偏见和减少误差 概率理论使我们能够估计样本的精确度和代表性
概率抽样之所以能够保证样本对总体的代表性, 其原理就在于它能够很好地按总体内在结构中 所蕴涵的各种随机事件的概率来构成样本,使 样本称为总体的缩影。
第二节 概率抽样的原理与程序
随机抽样:同等、独立
第二节 概率抽样的原理与程序
在概率抽样的过程中,我们总是要求保 证总体中的每一个个体都有同等的机会 入选样本,而且,任何一个个体的入选 与否,与其他个体毫不相关,互不影响。
随机事件与概率
确定性现象:必然发生的。 必然事件:在一定条件下必然发生的。 如:在一个大气压下,水在100摄氏度时必然沸腾。
分层抽样
整群抽样
多段抽样
其他抽样技术
按比例
不按比例
图 抽样分类
第三节 概率抽样方法
一、简单随机抽样(simple random sampling)
又称纯随机抽样,是按照等概率原则直接从含 有N个元素的总体中抽取n个元素组成样本 (N>n),常用的办法是抽签。
另外方法是利用随机数表进行抽样。
第三节 概率抽样方法
第四章 分层抽样(抽样调查理论与方法-北京商学院 李平)

下面给出 y st 的近似置信区间
1 1 2 2 2 S h 是未知的 )Wh S h 中的 由于 Var ( yst ) ( Nh h 1 nh
k
1 nh 2 ( yhi yh )2 用该层中的样本方差进行估计,即 sh nh 1 i 1
于是
1 1 1 2 2 v ( yst ) ( )Wh sh 2 Nh N h 1 nh
(4.9)
2 ( N N h ) Sh 呢?这种情 h 1
况的发生实质上意味着分层在精度上不如简单随机抽样。
N h (Yh Y )2 恰好表示各层之间差异平方和 其实,
h 1
k
1 N
2 2 ( N N h ) Sh (1 Wh ) Sh 在一定程度上表示各层内 h 1
nh 1 yst Wh yh ( nh h 1 h 1 n
k
k
1 k nk yhi ) n yhi y i 1 h 1 i 1
(4.15)
nk
(4.14)
N yst N yst N y y n
显然估计量具有相当简洁的形式。
根据这个原则,可以使每层的样本量 nh与该层的大小N h 成比例,即: nh N h n N 或 f h f (h 1, 2,, k ) (4.13)
采用这种分配样本量的方法称为比例分配。
我们知道,简单随机抽样中总体的每一个单元入样的概 率即为抽样比 f n N 。因而,按比例分配而在各层中进行 简单随机抽样的分层方法实际上使总体中任何一个单元入样 的概率都为 f n N ,对于这种等概率抽取的样本,此时:
而事后分层中是个随机变量从而也是随机变量为判断的效果须求平均我们不加证明给出结果pstvar449449式右边第一项恰好为按比例分配分层抽样时样本平均数的方差第二项显然是由于事后分层所引起的方差的增加量假如n相当大的话该项自然趋于很小因此当n足够大时事后分层的精度相当于按比例分配的事先分层时的精度
第三章简单随机抽样(抽样调查理论与方法-北京商学院,

100,95,92,88,83,75,71,62,60,50
平均分为77.6。先从中任选3个为一组样本,其选法共有120种
每种选法都有概率1/120。以4组样本为例(100,95,92),(100,83,
50),(88,83,62),(62,60,50)它们的样本平均数分别为95.67,
77.67,77.67,57.33。 从抽样调查的角度来看,我们希望抽到第二或第三组样
(3.6)
N 1 n
Nn
对随机有放回抽样,由于各次抽取是相互独立的,由概率论 的知识可以求得,此时:
2
Var( y) n
1 S2 (或 (1 ) ) (3.7)
Nn
比较(3.6)式与(3.7)式,发现同样用样本平均数来估计总体平 均数,它们都是无偏估计,但随机无放回时的方差小于随机
有放回时的方差。 y 的方差表示新盒子的离散程度,也就是 表示了 y 取值范围的大小,方差小表明 y 取值远离中心Y 的 可能性较小,这样随机的一组样本得到 y 的实现值距Y 很近
相当小,此时(3.6)式告诉我们 y 的方差将随着 n 的减少而增 大,此时 1-f 在 1 附近,对Var( y)的影响不大。事实上,
抽取样本越少,抽样误差越大。
可见实际抽样调查中用 y 估计Y 所产生的随机误差,也 即 y 的方差,主要受到样本容量 n 的影响,因子1-f 的影响
几乎可以忽略。
当然,影响 y 的方差的另一个重要因素是 2或 S 2。设
通常取决于总体单元个数N,满足10m1 N 10m。记m个 骰子按约定颜色而确定的顺序读得随机数R0,若R0 N,则 此 R0即为一次合格的随机数;否则予以放弃,重新摇取,直
到取到n个合格的随机数为止。 ③利用计算机产生随机数:不少现成的统计软件都可提供此 类服务。但必须指出,这样产生的随机数一般不能保证其随 机性,称为“伪随机数”。因此,提倡前述方法产生随机数。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
h
k
(Yhi Yh Yh Y )2 (Yhi Yh ) N h (Yh Y )2
2 h 1 i 1 k Nh
i 1 k Nh
h 1 i 1
k
2 ( N h 1) Sh N h (Yh Y )2 h 1 h 1
Var ( y ) Var ( y st ) 1 1 1 k 1 2 ( ) N h (Yh Y ) N n N N 1 h 1
1 是否会有 N h (Yh Y ) h 1
k 2 h
1 k y st Wh yh (或 N h y h ) N h 1 h 1 ~ 总体总和 Y 的无偏估计可选为:
k
(4.2)
~ Ny N W y y st h h N h yh st
h 1 h 1
k
k
(4.3)
估计量 y st 的方差为:
Var ( yst ) Var ( Wh yh )
16
2 3 4
3
6.5 21.5 57.5
1 产生这种结果的原因 3 k 3 在于对该总体的分层 2 2 N h (Yh Y ) 5(Yh 3) 10 不合理。可见合理的 h 1 h 1 k 3 1 2 分层对体现分层抽样 2 (1 Wh ) S h (1 ) Sh 57 的优点至关重要! 3 h1 h 1 N h 5 ( h 1, 2, 3) , Wh
不管那种抽样方法,如果总体总和的无偏估计可以像 (4.15)式那样写成样本总和的常数倍,那么这种样本(或估 计量)称为自加权的或等加权的。
按比例分配的分层抽样就是自加权的,它的有关总体平均数 估计以及估计量的方差计算与估计,上一节已经进行了讨论 2、最优分配 自加权的比例分配方法使得估计量呈现简单形式,并且 在直观上与实用上都使人们感觉到它的合理性与方便。但是 它没有回答是否在给定费用下能使估计量的方差达到最小或 对给定 y st 的方差大小时能使总费用达到最小。分层抽样中 的样本量在各层中分配力求使得上述问题得到解决,这样的 分配称为最优分配。
2 2
(4.12)
§2
比例分配及最优分配
简单随机抽样只需根据调查精度的要求与费用的限制来 确定抽样容量的大小。而分层抽样则提出另一个重要的问题 一旦确定 n ,又如何在各层中分配抽样容量 nh,其中有一些 问题需要考虑,比如在各层中各有精度的要求以及费用的限 制,由于各层具有各自的鲜明特点,其花费自然不同,因而 在样本容量的分配上必须带有经济观点。另一个重要因素是 由于 nh的不同而带来数据处理的困难。我们的样本量分配必 须尽可能地使估计量及其方差估计具有较简单的形式,从而 使数据汇总工作量趋小,做到省时省力。 1、比例分配 由于我们假设每层的单元数 N h 为已知,合理且自然的 想法是哪个层的单元数多则相应抽取的样本量也大。
第四章 分 层 抽 样 §1 分层抽样及估计量
简单随机抽样是最基本的抽样手段,在一些小型的抽样 调查中被人们采纳。所谓小型是指总体容量N 较小,当总体 容量N 较大时,不便采用简单随机抽样方法。这时,分层抽 样将起到作用。 根据调查的要求,将总体 N 划分为若干个子总体N 1 , N 2 , , N k(通常用总体或子总体的容量大小来表示总体或子 总体本身),实质上是将总体分为 k 层。独立地在各层中 进行抽样,称为分层抽样。如果在各层中的抽样都是简单随 机进行,则称为分层随机抽样,所得的样本称为分层随机样 本。 总体如何分层是一门学问。
k
2 sh N h ( N h nh ) n h 1 h k
(4.11) 注意到 y st是各层样本平均数的加权和,只要 N h , nh与N h nh 适当大,各层样本平均数都可正态近似,因此 y st 也可正态 近似,这样得到 Y 的 (1 ) 的近似置信区间为:
( yst u1 v ( y st ) , y st u1 v ( y st ) )
下面给出 y st 的近似置信区间
1 1 2 2 2 S h 是未知的 )Wh S h 中的 由于 Var ( yst ) ( Nh h 1 nh
k
1 nh 2 ( yhi yh )2 用该层中的样本方差进行估计,即 sh nh 1 i 1
于是
1 1 1 2 2 v ( yst ) ( )Wh sh 2 Nh N h 1 nh
1 Yi N i 1
N
1 Yhi N h 1 i 1
k
Nh
N Y
h 1
k
h h
W hYh
h 1
k
(4.1)
从盒子模型观点看,这是一个大盒子装有 k 个小盒子,第 h 个小盒子中的单元值是Yh1 , Yh 2 , , YhN h,小盒子的平均数 2 是 Yh ,方差是 S h ,该小盒子在大盒子里所占的权为Wh ,分 层随机抽样是指从每个小盒子里按一定份额 nh(h 1,2, , k n1 n2 nk n )作随机无放回抽样。 由第三章知道, y h 是 Yh 的无偏估计量,因此,由(4.1)式 可知, Y 的一个无偏估计量自然地选为:
N Nh
h 1
k
第 h 层的单元标志值记为 Yhi ( i 1,2, , N h ) ,从该层抽 取的样本记为 yhi ( i 1,2, , nh ) ,第 h 层子总体的总体平均 ~ y h ,其和 ~h y 数为 Yh ,子总体之和为 Yh ,样本平均数记为
再记 Wh N h N ,表示第 h 层在总体中的权重,一般假定它 是已知的。 f h nh N h 表示 h 层中的抽样比。
2 S h (Yhi Yh ) 2 ( N h 1) 2 sh ( yhi yh ) 2 ( nh 1) i 1 i 1 nh Nh
第 h 层层内方差 第 h 层样本方差
2、参数的估计量
假定我们想估计总体的平均数 Y ,获取的样本是分层 随机样本。将 Y 写为:
1 Y N
(4.9)
2 ( N N h ) Sh 呢?这种情 h 1
况的发生实质上意味着分层在精度上不如简单随机抽样。
N h (Yh Y )2 恰好表示各层之间差异平方和 其实,
h 1
k
1 N
2 2 ( N N h ) Sh (1 Wh ) Sh 在一定程度上表示各层内 h 1
k
k
2 Wh S h 因此第二项 表示考虑有限总体修正因子引起的 N h 1 方差减少。 k
如果不用分层抽样,而用大盒子中的简单随机抽样的平均 数来估计总体平均数,此时方差为: 1 1 2 Var ( y ) ( ) S n NN N
而 ( N 1) S (Yi Y ) (Yhi Y )2
h 1
k
k
差异的平方和。
如果分层使得各层的中心离总体中心比较近,而各层中单元 又比较分散,那么不利于分层抽样的“不幸现象”就会发生。
下面构造这样的一个例子:
例4.1 假设总体 N=15, 分层k=3,数值如下表
h
1 2 3
i
1
2
3
4
5
Yh
Y
2 Sh
0 -1
-2
-1 -2
-3
2 3
4
5 6
5
4 9
h 1
k
由于各个小盒子的抽样过程是相互独立的,故各个 yh相互 独立,由独立随机变量之和的方差计算公式,有
1 1 2 ) Wh2 Sh Var ( yst ) W Var ( yh ) ( Nh h 1 nh h 1
2 h
2 2 k Wh2 Sh Wh2 Sh nh Nh h 1 h 1 2 2 k k Wh2 Sh Wh S h (4.4) nh N h 1 h 1 2 k Wh2 S h (4.4)式的第一项 恰好为从各个小盒子里随机有放 nh h 1 回抽样时得到的 y st的方差计算公式,而现在是无放回抽样 k
1 1 k 因此 Var ( y ) Var ( yst ) ( ) Wh (Yh Y )2 0 n N h 1
(4.8)
也即至少当 nh n Wh时,分层抽样的误差比简单随机抽样 的误差小。相差的部分几乎恰恰只与各层之间的差异平方 和有关。分层抽样的优点在于通过各层的独立抽样过程而 减少了由于各层之间的差异所造成的误差。 设想一下,如果各小盒子之间没有任何差异,那么各小 盒子的平均数 Yh应当一致,此时各层之间的差异平方和为零 因而分层抽样与简单随机抽样的误差相同,也就是说,分层 与不分层并无不同之处。这个事实告诉我们,为了取得分层 的效果,必须注意层与层之间要有较显著的差异。当然并不 是讲在总体中分辨不出各有特色的层时就一定不用分层抽样 不过那时的得益在于组织管理上的方便而不表现在精度上。 上述讨论是在所有的 N h都较大的假设下,利用近似式 (4.6)进行的,如不考虑近似因素,仍设nh n Wh,则有
nh 1 yst Wh yh ( nh h 1 h 1 n
k
k
1 k nk yhi ) n yhi y i 1 h 1 i 1
(4.15)
nk
(4.14)
N yst N yst N y y n
显然估计量具有相当简洁的形式。
根据这个原则,可以使每层的样本量 nh与该层的大小N h 成比例,即: nh N h n N 或 f h f (h 1, 2,, k ) (4.13)
采用这种分配样本量的方法称为比例分配。
我们知道,简单随机抽样中总体的每一个单元入样的概 率即为抽样比 f n N 。因而,按比例分配而在各层中进行 简单随机抽样的分层方法实际上使总体中任何一个单元入样 的概率都为 f n N ,对于这种等概率抽取的样本,此时: