多阶段抽样案例

合集下载

抽样调查第8章多阶段抽样18210

置信度为95%的置信区间为：160800±1.96×9216 在上面的方差估计式中，第一项是主要的，第二项要小得多!
返回
（二）对总体比例的估计
如果要估计总体中具有所研究特征的二级单元数占全体全体二级单元数的比例，则
P
1 N
N
Pi
i1
1 NM
N i1
Ai
式中，Ai 为第i个初级单元中具有所研究特征的二级单元
(1)多阶段抽样保持了整群抽样的样本比较集中、便于调查、节约费用等优点。
(2)多阶段抽样不需要编制所有小单元的样本框。
三、抽选方法与推断原理
多阶段抽样时，每一个阶段的抽样可以相同，也可以不同。它通常与分层抽样、整群抽样、系统抽样结合使用。多阶段抽样时，抽样是分步进行的，因此，讨论估计量的均值及其方差时，需要分阶段进行这要
S 2 2i
M
1 i
1
Mi j 1
(Yij
Y i )2,
s 2 2i
1 mi 1
mi
( yij
j 1
yi )2
返回
二、估计量及其性质
（一）对初级单元进行简单随机抽样
如果二阶抽样中每个阶段都采用简单随机抽样，并且每个初级单元中二级单元的抽样是相互独立的，则对总体总和的估计可以采用简单估计，也可以考虑采用比率估计。
表中红字为抽中的房号。这时，初级单元有15个，每个初级单元拥有二级单元 12个。首先将单元从1到15编号，在15单元中随机抽取 5个单元，分别是1，6，9，12，13号；然后在被抽中的单元中，进行第二次抽样，即分别在12户居民户中随机抽取4户。
一、符号说明
初级单元和初级单元拥有的二级单元个数：N，M 第一阶段和第二阶段抽样的样本量：n ,m

等概率整群抽样和多阶段抽样

• 样本方差
s2 1
n
nM 1 i1
M j 1
yij y 2
• 样本群间方差
•
sb2
样本群内方差

M n 1
n i
( yi y)2
sw2

1 n(M 1)
n i
M j
yij yi 2
4.2 等概率整群抽样
1. 群规模相等时的估计
均值估计量
• 总体中的各群规模不等采用不等概率的方法抽取群
符号说明
• N: 总体群数 • n: 样本群数 • Yij: 总体第i群的第j单位数值 • yij: 样本中第i群的第j单位数值 • Mi: 第i群规模（单位个数） • 本节，M1＝ M2 ＝……＝MN ＝M
Mt: 总体单位总数
N
M t M i i 1
Ey Y M Y
定理2 y 的方差为
N
2
V (y) 1 f
Yi Y
i 1
n
N 1
1 f nM
S
2 b
证明：由于 y My ，又
N
2
M 2V ( y) V ( y) 1 f
Yi Y
i 1
n N 1
故
N
2
ˆ

sb2
sb2 sw2 (M 1)sw2

926.63 220.79 926.63 (6 1)220.79
0.348
deff 1 (M 1)ˆ
1 (6 1) 0.348 2.74
表明为达到同样的估计精度,整群抽样的样本量大约为简单随机抽样样本量的2.74倍.

教育科研方法基础之抽样调查法论文

教育科研方法基础之抽样调查法一、抽样调查的三个典型案例案例一：第三次全国国民阅读与购买倾向抽样调查北京美兰德信息公司与中国出版科学研究所合作，调查我国居民阅读情况，调查覆盖了图书、杂志、报纸、音像、电子出版物、网络等出版门类，分析近年来我国国民的阅读目的、阅读兴趣、阅读偏好、购买行为，以及各类出版物市场容量等等，并对近期图书市场的发展趋势进行预测。

调查采用严格的地图块抽样方法，调查样本覆盖全国14个省份、21个城市，共回收8000多个城乡居民样本，调查质量得到客户的高度好评。

案例二：美兰德公司关于感冒药市场的抽样调查客户是世界制药业50强之一，并且是最早在中国建立合资药厂的国外制药公司。

其旗下的某著名品牌，在中国曾经畅销十多年，但由于受一突发事件的影响，该品牌遭到主管部门停产、停销的处理。

为了扭转这一不利局面，该公司决定对原有产品进行改进，在此基础上对该产品进行重新包装，对原有品牌名称进行调整，以便重新上市，夺回原有市场。

美兰德公司在该品牌主要销售区的20个省（市）内，采用分层不等概率多阶段抽样方法抽取样本，由访问员携问卷入户对5000名用户的进行访问。

调查结果显示，该产品原有品牌在居民心目中知名度仍然极高，总体印象较好。

但突发事件对城市居民的购买和使用还是有一定影响。

在这种情况下，美兰德公司建议继续使用原有品牌名称，但在原名称前加一个“新”字，以区别原有产品。

该公司接受了美兰德公司的建议。

产品重新上市后，销量大幅增加，达到预期效果。

案例三：《文学文摘》为预测1936年美国总统进行的抽样调查《文学文摘》是美国一个很有名的刊物，1936年《文学文摘》预测美国总统选举结果时发生了重大失误。

当年的两位总统候选人，一位是民主党的罗斯福，一位是共和党的兰登，当时大多数民意测验、新闻机构和政治观察家都预测罗斯福会获胜，但《文学文摘》与众不同，它预测兰登会以57%的优势战胜罗斯福。

但最后的结果却是罗斯福以62%：38%的压倒性优势当选。

抽样方法案例

附件二：国家卫生服务总调查样本地区和样本个体的抽取方法一、概述１.１国家卫生服务总调查抽查的原则是既要兼顾调查设计的科学性即样本地区和样本个体对全国和不同类型地区有足够的代表性，又不致于过多增加样本量而加大调查的工作量，即经济有效的原则。

１.２抽样的方法是多阶段分层整群随机抽样法。

第一阶段分层是以县（市或市区）为样本地区；第二阶段分层是以乡镇（街道）为样本地区；第三阶段分层以村为样本地区；最后是住户为样本个体。

二、第一阶段分层整群抽样２.１第一阶段抽样着重解决两个基本问题：一是由于全国各县、市差异极大，如何确定第一阶段分层的基准；二是抽样比例，多大的县、市样本量能经济有效地代表全国和不同类型的地区。

２.２第一阶段分层基准的确定第一阶段分层的指标是通过专家咨询法和逐步回归法筛选的１０个与卫生有关的社会经济、文化教育、人口结构和健康指标。

１０个指标的主成份分析结果如表１。

表⒈主要社会经济和人口动力学指标的主成份因子模型从主成份分析中可以看出主成份１与绝大多数变量有十分显著的关联，意义十分明确，而且代表 10 个变量整体信息的 51.22％。

其值的大小可以综合反映一个地区社会经济、文化教育、人口及其健康的发展。

因此，确定主成份１为分层的基准称它为分层因子。

２.３第一阶段的聚类分层在计算各县、市分层因子的得分后，用 K-Means聚类分析方法将总体分为组间具有异质性和组内具有同质性的五类地区即五层。

聚类分层的结果第一层有 201 个县（市或市区），占整个县（市或市区）的 8.2％；第二层有 650个县（市或市区），占 26.5％；第三层有 698 个县（市或市区），占 28.5％；第四层有 691个县（市或市区），占 28.2％；第五层有 212，占 8.6％。

表⒉显示了各层因子得分和选择的社会经济等变量的均值，可见各层呈明显的梯度。

可以认为，第一层所在的市县，是社会经济、文化教育和卫生事业发展以及人群健康状况好的地区，第二层是比较好的地区，第三层是一般性地区，第四层是比较差，第五层是差的地区。

随机分组原理与方法案例

随机分组原理与⽅法案例简单随机抽样，也叫纯随机抽样。

就是从总体中不加任何分组、划类、排队等，完全随机地抽取调查单位。

特点是：每个样本单位被抽中的概率相等，样本的每个单位完全独⽴，彼此间⽆⼀定的关联性和排斥性。

简单随机抽样是其它各种抽样形式的基础。

通常只是在总体单位之间差异程度较⼩和数⽬较少时，才采⽤这种⽅法。

适⽤于总体量⼤、差异程度较⼤的情况。

先将总体单位按其差异程度或某⼀特征分类、分层，然后在各类或每层中再随机抽取样本单位。

分层抽样实际上是科学分组、或分类与随机原则的结合。

分层抽样有等⽐抽样和不等⽐抽样之分，当总数各类差别过⼤时，可采⽤不等⽐抽样。

除了分层或分类外，其组织⽅式与简单随机抽样和等距抽样相同。

随机抽样设计⼀、纯随机抽样：对总体的所有容量不做任何的分类和排队，完全按随机原则逐个抽取样本容量。

纯随机抽样的常⽤抽样⽅法1）抽签法：将总体容量全部加以编号，并编成相应的号签，然后将号签充分混合后逐个抽取，直到抽到预定需要的样本容量为⽌。

缺点：总体容量很多时，编制号签的⼯作量很⼤，且很难掺和均匀。

2）随机数字法：⽤字母顺序或⾝份证号等任何⽅便的⽅法对总体容量编者按号，利⽤随机数表从1到总体容量N中随机抽取n（样本容量数）个数，遇到那些不在编号⾥的数字需跳过。

⼆、等距抽样：先将总体各单位按某⼀有关标志（或⽆关标志）排队，然后相等距离或相等间隔抽取样本单位。

根据需要抽取的样本单位数（n）和全及总体单位数（N），可以计算出抽取各个样本单位之间的距离和间隔，即：K=N/n，然后按此间隔依次抽取必要的样本单位。

等距抽样的⼀个例⼦某企业有职⼯5000名，现要随机抽取100⼈进⾏家庭收⼊⽔平调查。

抽取⽅法：按与研究⽬的⽆直接关系的姓名笔划对总体进⾏排列，把总体划分为K=5000/100=50个相等的间隔，在第1⾄第50⼈中随机抽取⼀名，如抽到第10名，后⾯间隔依次抽取第60，110，160，210，…直到4960为⽌，总共抽取50同名职⼯组成⼀个抽样总体。

第二章抽样方法-PPT文档资料

在一次抽样中，抽样框的数目是与抽样单位的层次相对应的。
上面的例子中有三个层次的抽样单位：学校、班级、学生，则对应的抽样框也应有三个：全部学校的名单、抽取的学校样本中的全部班级的名单、抽取班级中的所有学生的名单。
4、参数值与统计值：参数值也称总体值，它是关于总体中某一变量的综合描述，或者说是总体中所有个体的某种特征的综合数量表现。在统计中最常见的总体值是某一变量的平均值例如：平均年龄、平均收入等。总体值只有通过对总体中的每一个个体都进行调查或测量才能得到。
5、抽样误差：总体的异质性和样本与总体范围的差异性，在用样本的统计值去推算总体的参数值时总会有偏差，这种偏差就是抽样误差。它是样本代表性大小的一个标准。
当总体相当大时，可能被抽取的样本非常多，不可能列出所有的实际抽样误差，而用平均抽样误差来表征各样本实际抽样误差的平均水平。
抽样误差是指样本指标值与被推断的总体指标值之差。主要包括：样本平均数与总体平均数之差；样本成数与总体成数之差。
2、可测性原则。
可测性原则指的是抽样设计能够从样本自身计算出有效的估计或者抽样变动的近似值。在研究中通常用标准误来表示。通常，只有概率样本在客观上才是可测的，即概率样本可以计算出有效的估计值或抽样变动的近似值。但是，概率抽样也并不自动保证可测性。比如，从一个具有周期性变化的总体中选出一个系统样本，就不能保证这种可测性。
一、抽样的基本术语
抽样：是通过抽取总体中的部分单元，收集这些单元的信息，运用数理统计的原理和方法，对总体进行推断的一种手段。
总体
抽取样本推断总体
样本
1、总体与样本。总体是指研究对象的全体，它是由研究对象中的单元组成的。总体中单元的数目称作总体容量。

抽样调查理论与方法金勇进(第二版)第4章等概率整群抽样和多阶段抽样

县总产量，计算抽样误差。调查资料如下：
样本乡编号
村庄数 Mi
作物总产量（乡） yi（万公斤）
种植面积（乡） xi（亩）
yi yi M
1.4667 1.2667 1.1615 1.55 1.265 1.1143 1.2381 1.079 1.0903 1.3882 ——
i
1 2 3 4 5 6 7 8 9 10 合计
Yˆ N n y 1

i 1 n
yi
33 10
( 2 2 .0 2 3 .6 ) 8 4 8 .4 3
n
y i 2 5 .7 1
i 1
v ( Yˆ )
N (1 f )
2

i 1
n
( yi y ) n 1
2
1 5 6 7 .9
n
ˆ s (Y )
S
2
故又可写为：
2
N
(Y
M
ij
Y )( Y ik Y )
2

( NM 1 )( M 1 ) S
用简单随机抽样方法抽取n个群，每个群内的M个单元全部进入样本，则等群抽样均值估计量 y 的方差可用群内相关系数近似表示
1 M
2
V (y)
V (y)
1 f nM
v( y ) 1 f nM
Yˆ NM y
2 2 V ( Yˆ ) V ( NM y ) N M V ( y )
sb
2
总体总值的估计量及其方差
ˆ ) N 2 M 2v( y ) v (Y
【例4.1】

在一次对某中学在校零花钱的调查中，以宿舍作为群进行整群抽样。每个宿舍都有M=6名学生。用简单随机抽样在全部N=315间宿舍中抽取n=8个宿舍。全部48个学生上周每人的零花钱 y ij 及相关计算数据如表4-2所示。试估计该学校学生平均每周的零花钱 Y ，并给出其95% 的置信区间。

阶段抽样案例

阶段抽样案例在质量管理中，抽样是一种常用的方法，而阶段抽样则是其中的一种特殊形式。

阶段抽样是指将一个过程分成若干个阶段，每个阶段都进行抽样检验，以便及时发现问题并进行调整。

下面我们通过一个实际案例来说明阶段抽样的应用。

某电子产品生产厂家为了保证产品质量，采用了阶段抽样的质量检验方法。

该厂家生产的电子产品分为三个关键生产阶段，零部件生产、组装和包装。

为了确保产品质量，他们在每个阶段都进行了抽样检验。

在零部件生产阶段，工作人员每隔一小时从生产线上抽取10个零部件进行检验，以确保零部件的质量符合标准。

如果发现问题，他们会立即停止生产线，并对问题进行分析和处理，以防止不合格品流入下一个阶段。

在组装阶段，工作人员每隔两小时从生产线上抽取20台组装好的产品进行检验。

同样，如果发现问题，他们会立即停止生产线，并对问题进行分析和处理，以确保产品质量。

最后，在包装阶段，工作人员每隔三小时从生产线上抽取30个包装好的产品进行检验。

同样，如果发现问题，他们会立即停止生产线，并对问题进行分析和处理，以确保产品质量。

通过阶段抽样的方法，该电子产品生产厂家及时发现了生产过程中的问题，并及时进行了调整，从而保证了产品质量。

这种方法不仅能够提高产品质量，还能够减少不合格品的流入，节约了成本，提高了生产效率。

在实际应用中，阶段抽样可以根据具体情况进行调整。

例如，可以根据生产过程的复杂程度和产品的重要性来确定每个阶段的抽样数量和频率。

此外，还可以根据历史数据和经验来不断优化阶段抽样的方法，以适应不断变化的生产环境。

综上所述，阶段抽样是一种有效的质量管理方法，能够帮助企业及时发现问题并进行调整，保证产品质量。

通过合理调整抽样数量和频率，以及不断优化方法，可以进一步提高产品质量，降低成本，提高生产效率。

因此，在质量管理中，阶段抽样具有重要的应用价值。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

进行n次独立抽样，第i个局级单位被抽中ni次，则在该局级
单位抽取ni 个基层单位
为什么要做这样
的变换？
进行n’=n/2次独立抽样，第i个局级单位被抽中ni’次，则在该局级单位抽取ni =2ni’个基层单位
大中专院校层的一阶抽样（n=12）
确定样本量
总体
层
11个层（局）
油田层
二级单位
基层单位
非油田层 7个层
分层
这一层包含400个基层单位，有必要将其细分细分层
编
类别
号
干部人数
抽取的理论值调查的基层单位数
1 油田和勘探单位
309174
400.11
400
2 管道运输单位 15993
20.70
20
3 建设工程公司
3003
3.89
4
非
4
机械厂
5369
6.95
6
油田
5 供应办事处
526
0.68
2
层
6 大中专院校
石
油
干
部
数
中财在校生
抽样方法
与人数成比例的不等概率抽样
第一阶抽样
第二阶抽样
将总公司所属的单位按性质进行分类，以类为层，在层内抽取局级单位
在抽中的局级单位中抽取基层单位
第三阶抽样
在抽中的基层单位中抽取干部
确定样本量
总体
层
抽样方案整体流程
11个层（局）
油田层
二级单位
基层单位
非油田层 7个层
总体
层
11个层（局）
油田层
二级单位
基层单位
非油田层 7个层
局级单位
第二阶抽样（πPS系统抽样）
步顺序排列，列出相应的干部人数，计算累计人数，设总数为M
设在该局级（或二级）单位中需要抽取的基层单位数为m，计算抽样间距k=M/m（若不是整数，则四舍五入取整数）
华北石油管理局（层1.3）抽取二级单位
华北石油管理局下属43个二级单位干部总数28413人需抽取基层单位38个抽样方法：在1~28413之间随机抽取38个随机数，确定每次的随机数对应的二级单位，统计38次抽样中各二级单位被抽中的次数ni。例如：二级单位勘探四公司需抽取3个基层单位。
确定样本量
在1~k 之间产生一个随机数 r，则r，r+k，…， r+（n-1）k所对应的基层单位为抽中的基层单位
华北石油管理局勘探四公司的第二阶抽样
勘探四公司被抽中，且在其中应抽取n=3个基层单位，计算该公司所有20个基层单位的累计干部人数表14.1.4.docx
第三阶抽样（基层单位抽人）
要求：每个基层单位抽取10人方法：等概率系统抽样步骤：
局级单位
确定样本量
设P为按某种准则分类的干部在全体干部中所占的比例在给定置信度下，设P的最大允许绝对误差为d 通过样本获得的总体P的估计值为
确定样本量
每个基层单位中调查10人，在全公司中应抽取基层单位数为450 个
确定样本量
总体
层
11个层（局）
油田层
二级单位
基层单位
非油田层 7个层
局级单位
9240
11.96
12
7
科研院所
3296
4.27
4
8 机关及其他
1122
1.45
2
合计
347723
450.00
450
细分层中的特殊处理
层号
1.11.1 1.11.2
1.11.3 1.11.4 1.11.5 1.11.6 1.11.7 1.11.8 1.11.9 1.11.10 1.11.11 总计
设该基层单位有干部人数M人，则抽样间距 k=M/10（若k不为整数，则四舍五入使其为整数）产生一个1~10范围内的随机数r，则按该单位干部名册的顺序，第r，r+k，…，r+9k个干部即为抽中需调查的人员
统计调查案例分析
DisTchuasnskionYoTui!me
单位名称
干部人数累计人数
滇黔桂勘探局冀东勘探开发
公司浙江勘探处安徽勘探公司长庆勘探局玉门管理局青海管理局
延长油矿吉林管理局江苏勘探局河南勘探局
2765
425
377 564 11564 5089 5405 1035 9576 4207 8768 49775
2765
3190
3567 4131 15695 20784 26189 27224 36800 41007 49775
统计调查案例分析
石油系统干部现状抽样调查
第六组：薛嘉丁雪张敏王莹蒋晚秋
抽样方法
整个石油系统的干部分属总公司各大小单位中，分布在全国各选地择，什对么所抽有样干方部法进呢行？简要单考随虑机哪抽些样因是素不？可能的。针对石油系统干部分布情况，采用分层多阶不等概率抽样方法。
9776
中
350,000
随机数 337 3204
11072 19931
45830
抽取基层单位
6
2 26 12
20 66
确定样本量
总体
层
11个层（局）
油田层
二级单位
基层单位
非油田层 7个层
局级单位
非油田层一阶抽样
抽样方法：PPS（抽取的局级单位数与单位干部人数成比例）设：该层有N个局级单位，需要抽取n个基层单位在局级单位中分配基层单位数量：
局级单位
油田层的一阶抽样
与非油田层基本相同，唯一不同的是：油田本身已经是局级单位，而每个油田下属的二
级单位数量较大，故不要求二级单位内抽取的基层单位数必须是偶数。因此若该油田需抽取n个基层单位，则进行n次独立的PPS抽样。第i个二级单位被抽中的次数ni，即是在该二级单位中需要抽取n个基层单位。