第八章---整群抽样
08-第八章_整群抽样

i = 1,2, , N ; j = 1,2,, M 。记 y ij 为样本第 i 群中第 j 的小单元(次级
单元)的指标值, i = 1,2, , n ; j = 1,2, , M ,又 f =
n 是抽样比。 N
Yi = å Yij , y i = å y ij
j =1 j =1
M
M
分别是总体和样本中第 i 群的指标和,简称为群和。
过程完毕。 在求出了总体均值 Y 的无偏估计量 y 及其方差 V ( y ) 后,我们现在求估 计量方差的估计量 v( y ) 。 容易知道, v( y ) = 过程如下: 因为对群的抽样是简单随机的, 若将 Y i =
1- f 2 sb nM Yi 看作是单元指标值, 则Y i M
的样本方差
2 sb S2 2 2 是总体方差 b 的无偏估计,从而 sb 是 Sb 的无偏估计。也 M M
N
N
M
因为中间项等于零
N é M ù ( Y Y )( Y Y ) = ( Y Y ) (Yij - Y i )ú i i i ê åå å å ij i =1 j =1 i =1 ë j =1 û N M
= å (Y i - Y ) × 0
i =1
N
=0
所以平方和的分解式变为
åå (Yij - Y ) 2 = åå (Yij - Y i ) 2 + åå (Y i - Y ) 2
过程如下: 如果将 Z i =
1 M (Yij - Y i ) 2 作为单元的指标值,则它的样本均值 å M - 1 j =1
n M 1 n é 1 M 1 2ù 2 y y = ( ) ( yij - y i )2 = sw åê å ij i ú n( M - 1) åå n i =1 ë M - 1 j =1 i =1 j =1 û
抽样理论与方法:整群抽样

7.1 概述
一、整群抽样(cluster sampling)的定义: 由若干个基本单元所组成的集合称为群。将总体 划分为若干群,然后以群为抽样单元,从总体中随 机抽取一部分群,对抽中的群中的所有基本单元进 行调查的一种抽样技术。 严格来讲也称为单阶整群抽样。
二、特点: 1.可以简化抽样框的编制。 2.实施调查便利,节省费用。 3.但通常比简单随机抽样的抽样误差大。 三、分群的原则:群内单元差异大,群间差异 小。 这样,被抽到的群代表性好,整群抽样的效率 就高。
( 3)P的估计 : 总体小单元的指标值Yij只能取0或1。 YP
Y
i 1 j1
N
M
ij
NM
A
i 1
N
i
NM
n i 1 i
i 1 n
N
Ai N
M
n
P
i 1
N
i
N
i
nM nM n n E( y ) Y E(p ) P即p是P的无偏估计。 1 f 1 N 2 V(p) ( Y Y ) i n N 1 i 1 1 f 1 N 2 (Pi P) n N 1 i 1 1 f 1 n 2 v(p) ( y y ) n n 1 i 1 i 1 f 1 n 2 ( p p ) , 且E( v(p) ) V(p)。 i n n 1 i 1
y 1 1 f 1 n 2 v(y ) v( ) 2 v(y ) ( y y ) M M nM 2 n 1 i 1 i 1 f M n 1 f 2 2 ( y y ) sb i nM n 1 i 1 nM 是V(y )的无偏估计。
08整群抽样

8.3群大小不等的整群抽样
一、记号
M i 表示群的大小,M 0 M i为总体中小单元的总数。
i 1 N
群和: 第i群的 平均数: 平均
Yi Yij
j 1
Mi
yi yij
j 1
Mi
Yi Yi Mi
yi yi Mi 1 n y yi n i 1
ij
1 Y N 群和: 按小 单元 的均值: Y
估计量 1 ˆ Y Ny N yi n i 1 估计量的理论方差
2 1 N 2 1 f ˆ) N V (Y Yi Y n N 1 i 1 n
估计量的方差估计 ˆ ) N 1 f 1 y y 2 v(Y i n n 1 i 1
n 2
1 f 1 n 2 v (Y ) N yi y 2 nM 0 n 1 i 1
群内方差 群间方差
1 N S M Yi Y N 1 i 1
2 b
2
故 则
2 N ( M 1) S w ( N 1) Sb2 S2 , 若 NM 1 NM , N 1 N , NM 1 2 ( M 1) S w Sb2 2 S M
三、设计效应
2
为对这两个方差作比较,需对( NM 1) S 2作分解:
三、设计效应
Y
N M i 1 j 1
ij
Y
2 w
2
Yij Yi M Yi Y
N M 2 N i 1 j 1 i 1
2
记
N M 2 1 S yij Yi N ( M 1) i 1 j 1
整群抽样

(Yij Y )(Yik Y )
i 1 j k
NM ( M 1) / 2 2 (Yij Y )(Yik Y )
i 1 j k N M
MN
( M 1)( NM 1) S 2
M ( N 1) Sb2 ( NM 1) S 2 c ( M 1)( NM 1) S 2
ˆ) 1 f ˆ V (Y V (Y ) 2 M0 nM 2
(Y Y )
i 1 i
N
2
N 1
ˆ) 1 f ˆ v(Y v(Y ) 2 M0 nM 2
(y
i 1
n
i
y )2
n 1
按简单随机抽样抽群,采用比率估计量
对群进行简单随机抽样,总体均值的比估计量为
ˆ YR
1 Y N
Y
j 1
N
i
为总体的“群和平均”。 为样本的“群和平均”。
1 y y yi n j 1
Y 1 N M Y Yij 为总体均值。 M NM i 1 j 1 y 1 n M y yij 为样本均值。 M nM i 1 j 1
N M 1 S (Yij Y )2 NM 1 i 1 j 1 2
ˆ 是无偏估计,其方差为 Y HH
N N Y M 1 2 2 i 0 ˆ ) Z ( Y ) V (Y M ( Y Y ) i i HH i n i 1 Zi n i 1 V (Yˆ ) 的一个无偏估计为
HH
v(YHH )
ˆ
n yi ˆ 2 M 02 n 1 2 ( Y ) ( y y ) i HH n(n 1) i 1 zi n(n 1) i 1
统计学第八章 抽样推断

②
和P的使用及使用条件
(1)σ2取最大值;(2)P取接近于0.5的值
(3)可以用样本 s或2 代p替;(4)可以用估计值或实验值代替。
计算例题:
在10000只电池中,随机抽检1%的产品进行检查,检查结果如下:
电流强度 (安培) 4-4.5 4.5-5 5-5.5 5.5-6 6-6.5 6.5-7
2
f
P 2N 0 1 P 2 N1
f
N
P2N0 1 P2 N1 P2Q 1 P2 P
N
N
P2Q Q2P PQP Q PQ P1 P
例(1):已知某产品的合格率为95%,则其标准差为:
0.951 0.95 21.79%.
2、样本指标(统计量)
根据样本总体各单位的数量标志值或属性计算所得的指 标,称为样本指标。样本指标通常包括:
统计指标 抽样平均数 抽样成数 抽样平均数的标准差 抽样成数的标准差 抽样平均数的方差
抽样成数的方差
未分组资料
x x n
p n1 n
sx
xx 2
n
分组资料
x xf f
sx
x
2
x
f
f
sP p(1p)
s2
2
xx
x
n
sP2 p(1 p)
s2
2
xx f
x
f
四、抽样方法(P151)
(二)抽样极限误差的意义
(三)抽样极限误差的计算
平均数的抽样极限误差
Δx
t
μ x
成数的抽样极限误差
Δp
t
μ p
正态分布图示
68.27%
95.45%
99.73%
第八章 抽样调查与推断

第8章抽样调查与推断【教学内容】本章主要阐述:抽样调查的概念、特点、作用和几个基本概念;影响抽样误差的主要因素;抽样调查几种主要组织方式及其抽样平均误差的计算;抽样估计推断;点估计和区间估计;必要抽样数目的确定。
【教学目标】1、理解抽样误差的影响因素;2、掌握抽样调查的概念、特点和作用;3、掌握抽样平均误差的计算方法、抽样估计推断和必要抽样数目的确定原理及方法;4、初步具备在实际工作中正确运用抽样方法搜集资料并据以做出准确推断的能力。
【教学重点、难点】1、抽样调查的特点和作用;2、抽样调查的组织方式和方法;3、抽样误差的概念与计算;4、抽样推断方法;5、必要抽样数目的确定方法。
第一节抽样调查的一般问题一、抽样调查的概念、特点与作用(一)抽样调查的概念与特点概念:抽样调查又称抽样推断或抽样估计,它是从总体中按随机原则抽取一部分单位进行观测,并根据这部分单位的资料推断总体数量特征的一种方法。
特点:(1)按随机原则抽取调查单位。
(2)由部分推断全体。
(3)抽样误差可以事先计算并加以控制。
(二)抽样调查的作用1、用于不可能进行全面调查的无限总体。
2、用于不可能进行全面调查而又需要了解全面情况的现象。
3、用于不必要进行全面调查的现象。
4、用于对全面调查的资料进行评价与修正。
5、用于工业生产过程的质量控制。
二、抽样调查中的几个基本概念(一)全及总体和抽样总体1.全及总体全及总体简称总体或母体,它是指所要调查研究对象的全体。
2.抽样总体抽样总体也称样本或子样,它是指在全及总体中按随机原则抽取的那部分单位所构成的集合体。
(二)总体指标和样本指标1.总体指标总体指标也称为母体参数或全及指标,它是根据全及总体各单位的标志值或标志特征计算的,反映总体某种属性的综合指标。
2.样本指标样本指标也称样本统计量或抽样指标,它是根据抽样总体各单位的标志值或标志特征计算的综合指标。
三、抽样调查的组织方式(一)简单随机抽样概念:简单随机抽样也叫纯随机抽样,它对总体单位不作任何分类排序(队),而是直接从总体中随机抽取一部分单位来组成样本的抽样组织方式。
整群抽样的名词解释
整群抽样的名词解释整群抽样,又称为群体抽样或者区块抽样,是一种常用的统计调查方法。
它是指在一个总体被划分为若干个互不重叠的群体或区块后,从每个群体或区块中随机选择一部分作为样本,以代表整个总体。
通过对这些样本进行观察、测量或调查,得到统计数据,并从中进行总体特征的推断。
整群抽样的使用可以在众多领域中发现,比如社会学、市场调查、地理学、教育学等。
在实际应用中,整群抽样通常用于大规模人口普查、大型调研项目、投票调查或者对特定群体的概况了解等情况。
那么为什么要选择整群抽样呢?其理论基础在于群体内的个体之间存在相似性或相关性,而不同群体之间存在差异性。
通过选择每个群体的一部分作为样本,我们可以在保证样本的代表性的同时减少调查的成本和工作量。
同时,整群抽样还可以提高样本的效率,这是因为在群体内进行调查的效率通常高于对个体进行调查。
然而,尽管整群抽样有诸多优势,但是在实际应用中也有一些注意事项。
首先,选择合适的群体划分是整群抽样的重要环节。
群体应该是有明确边界的,并且总体中的每个个体应该属于一个且仅属于一个群体。
如果群体之间的差异较大,那么总体的推断可能存在一定误差。
其次,正确的选择群体大小也是重要的。
如果群体的大小太小,那么样本的代表性可能会下降,从而影响到总体的推断。
相反,如果群体的大小过大,那么在调查过程中的工作量和费用可能会过高。
另外,对于整群抽样会遇到的聚类效应需要特别关注。
聚类效应是指群体内个体之间的相似性或相关性导致样本中的个体之间存在聚集现象。
如果聚类效应严重,那么在数据分析时需要考虑聚类效应的影响并进行相应的修正。
最后,整群抽样在实际应用中也面临着时间和经济的限制。
在某些情况下,可能由于时间和经费的限制,只能选择部分群体进行抽样。
在这种情况下,需要对群体进行合理的选择,以保证所选群体的代表性。
综上所述,整群抽样是一种常用的统计调查方法,通过选择一部分群体作为样本来代表整个总体,并通过对样本进行观察、测量或调查,得到统计数据并进行总体特征的推断。
第八章检验策略
假设有某种成品零件分别装在10个零件箱中,每箱各装 100个,总共1000个。如果想从中抽取100个零件作为样本 进行测试研究,那么应该怎样运用上述4种抽样方法。
(1)简单随机抽样
将10箱零件混合在一起,并将零件从1-1000进行编号,然 后用查随机数表或抽签的方法从中抽出编号毫无规律的100 个零件组成样本。
——当使用多次抽样方案时,如果该批用第3样本 检验时已被接收,则给转移分加3分;否则将转移 分重新设定为0。
计数调整型抽样方案
检查水平
——反映批量(N)与样本大小(n)之间的关系, 由“样本大小字码表“规定。
——特殊检查水平和一般检查水平 ——除非特别规定,通常采用一般检查水平II。
S-1
计数调整型抽样方案
放宽检验
以上条件同时成立
检验开始
连续不超过5批有 2批不可接收
累计5批 不可接收
放宽 检验
正常 检验
加严 检验
暂停 检验
•一批放宽检验未被接收 •生产过程不稳定 •主管质量部门认为有必
要回到正常检验
以上任一条件成立
连续5批 可被接收
质量达到或 超过要求, 主管质量部
门同意
调整型抽样方案的转移规则ISO2859-1
抽样方案的操作特性
——合格质量水平(Acceptable Quality Level) 有时也记为AQL
——极限质量水平(Limiting Quality Level)
L( p) 1 p p0
L( p)
p p1
62-91中给出=0.05,
计量抽样方案:是定量地检验从批中随 机抽取的样本,利用样本数据计算统计 量,并与判定标准比较,以判断产品批 是否合格的活动。
《市场调查与预测》第八章 抽样设计(28P)
▪ 分层抽样在操作上分为四种方法:比例分层、纽 曼分层、德明分层和多次分层。
2020/6/24
17
概率抽样方法
❖4.整群抽样(Cluster Sampling)
▪ 指首先将调查总体区分为若干群,然后采用SRS方法 抽出部分群作样本,最后对这些样本群进行全面调查。 即,两段整群抽样。在两段整群抽样中,如果不对所 抽样本群进行全面调查,而是进一步将这些群划分为 若干小群,然后按照随机原则抽出一部分群进行全面 调查,就形成所谓的三段整群抽样。
▪ 整群抽样有以下主要优点:
• 由于样本相对集中,整群抽样能大大降低数据收集的费用。 • 当总体单位自然聚合成群时,创建地域抽样框较容易;
• 对于研究变量而言,若群内单元差异大且群间差异小,则整 群抽样策略比SRS的统计效率更高。
2020/6/24
18
概率抽样方法
❖5.与个体大小成比例的概率抽样(PPS)
▪ 使用前须评估要素:所需费用;涵盖范围;更新频率; 来源稳定性;定义一致性;合法且正式的关系。
2020/6/24
8
抽样框架的类型
❖2.区域框
▪ 区域框是指个体由地理区域构造的一种特殊的 名录框,调查总体则由这些地理区域组成。
▪ 区域框适用于以下所述两种情况:
• 当调查本质就是地理性质的; • 或者调查机构不能获得一个适当的名录框。
▪ 时效性: 时效应该用抽样框架的更新日期与调查标准 日期的接近程度来计量。
▪ 费用大小: 1)衡量为建立抽样框花费的总费用。2) 将建立抽样框的费用与本次调查总费用进行比较。
2020/6/24
12
8.3 抽样方法
初中数学 什么是整群抽样 如何进行整群抽样
初中数学什么是整群抽样如何进行整群抽样整群抽样(cluster sampling)是一种抽样方法,它将人口或样本分为若干个群体或簇,并从中随机选择一部分群体作为样本。
在学习初中数学时,了解整群抽样的概念和方法可以帮助我们更好地理解统计学和概率论的应用。
一、整群抽样的定义和原理整群抽样是一种分层抽样方法,它将人口或样本按一定的特征分为不同的群体。
这些群体应该具有一定的内部相似性,而不同群体之间应有一定的差异性。
整群抽样的目的是通过从不同群体中选择样本来代表整体人口或样本,以便进行统计推断。
整群抽样的原理基于两个假设:1. 群体内的个体之间具有较高的相似性;2. 不同群体之间的差异性相对较大。
通过选择代表性群体作为样本,我们可以在减小样本规模的同时保留整体人口或样本的特征。
二、整群抽样的步骤进行整群抽样需要以下步骤:1. 群体的划分:确定将人口或样本划分为不同的群体。
群体应具有内部相似性和外部差异性。
例如,如果我们要研究某个城市的学生,可以将学生按学校划分为不同的群体。
2. 群体的选择:从划分的群体中随机选择一部分作为样本。
确保选择的样本能够代表整体群体的特征。
3. 样本内部的随机选择:在选择的群体内,需要进行进一步的随机抽样,以确保从每个群体中选择的个体具有代表性。
可以使用简单随机抽样或其他抽样方法。
4. 数据收集:对选定的样本进行数据收集。
这可以是通过调查问卷、观察或其他数据收集方法完成的。
5. 数据分析:对收集到的数据进行统计分析,并根据样本结果推断整体人口或样本的特征。
三、整群抽样的优缺点整群抽样有以下优点:1. 减少样本规模:相对于简单随机抽样,整群抽样可以减小样本规模,节省时间和成本。
2. 保留群体特征:通过选择代表性的群体作为样本,整群抽样可以更好地保留整体人口或样本的特征。
然而,整群抽样也有一些缺点:1. 群体内的个体差异:群体内的个体可能存在一定的差异,这可能导致样本的代表性有所降低。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
( NM )2 1 f n
NM 1 M 2 ( N 1)
S
2
[1
(
M
NM 1 ( N 1)
S 2[1 (M
1)c ]
此时,s2就可以看作是S 2的近似无偏估计了。
再引进一个群内相关的记号c ,这个概念的重要性在于
它可以度量群内次级单元的差异程度,因为我们已经知道群 内单元的差异大就可能保证样本的代表性,如何划分群实质 上是一个抽样方案的设计问题。易见设计的效应好还是差在
相当程度上与这个c 有关。c 的定义为:
§1 群大小相等的整群抽样
首先讨论群大小相等时的简单情况。所谓群的大小相等 主要指群内次级单元的个数相等,假定关于群的抽取是随机 无放回的。
首先引进一些必要的记号:
Yij ——表示第 i 群中第 j 个次级单元
i 1, 2, , N; j 1, 2, , M
yij ——表示样本中第 i 群中第 j 个次级单元的观测值
sb2
与
sw2
分别是
S
2 b
与
S
2 w
的
无偏估计,于是得到 S 2的无偏估计为:
Sˆ 2
1 [(N NM 1
1)sb2
N(M
1)sw2 ]
(8.3)
当 N 相当大时,该估计可近似写为:
Sˆ 2 sb2 (M 1)sw2 M
(8.4)
从(8.2)式可知,若 n 也足够大的话, s2也可写成(8.4)形式,
c
1
S
2 w
S2
(8.10)
由(8.8)以及(8.10)可得 c 的估计
ˆc
sb2
sb2 sw2 (M 1)sw2
(8.11)
由(8.11)也可以发现,考虑N相当大时,当 c
0
,
S
2 b
与S
2 w
几乎相等,也就是说群间方差几乎与群内方差一样,实际上
指出了我们对群的划分完全是随机进行的。如果群内小单元
1 f n
1 n1
n
( yi
i 1
y )2
(8.16)
NM
总体总和 Y
Yij NM Y 的无偏估计为:
i 1 j1
y
NM y NM 1 nM
n i 1
M j 1
yij
N1 n
n i 1
M j 1
yij
其方差为:
Var( y) ( NM )2Var( y)
Var( y)
1 f n
NM 1 M 2 ( N 1)
S
2[1
(
M
1)c ]
(8.12)
当N足够大时,近似有
f n N
Var( y) 1 f nM
S 2[1 (M
1)c ]
(8.13)
另外,我们还可以提供一个关于Var( y ) 的无偏估计:
v( y)
M N 1
N
(Yi
i 1
Y )2
—群间差异平方和
S
2 w
1 N (M 1)
N i 1
M j 1
(Yij Yi )2 —群内差异平方和
将Y 改为 y ,将N改为n则为相应的样本指标值
它们之间的关系为:
S2
1 NM
[( N 1
1)Sb2
N(M
1)Sw2 ]
要比抽同样数量的次级单元的简单随机抽样的精度低。倘
若要想获得相同的精度,那么整群抽样的样本量必须是简
单随机抽样样本量的 1 ( M 1)c 倍。这个事实提供
给我们确定整群抽样的样本量的方法。
1、估计量及其方差
总体平均数 Y
其方差为:
的无偏估计是
y 1 nM
n i 1
M
yij
j 1
何控制对于估计的精度颇有影响,这就涉及到设计效应的讨
论。根据设计效应的定义,我们必须考虑与整群抽样同等规
模的简单随机抽样,由于整群抽样调查的对象是次级单元,
因此考虑在拥有NM个次级单元的总体中抽取容量为nM的简
单随机样本,计算所得的平均数(为统一且方便起见,记为
yr)的方差为:
1 f Var( yr ) nM
(8.1)
将Y 改为 y ,n 代替N ,由于是整群抽样,M仍为M ,不难
得到样本方差平方和的关系式:
s2
1 [(n nM 1
1)sb2
n( M
1)sw2
]
(8.2)
s2可作为S 2的估计,但不是无偏估计。这是因为次级单元是
在抽到的群内普查,此时样本不是简单随机的。
由于群的选取是简单随机的,因此
1 (M
1)c
M(N ( NM
1)Sb2 1)S 2
(8.7)
当N足够大时,近似有
c ( Sb2 S 2 ) ( M 1)S 2
(8.8)
( NM 1)S 2 ( N 1)Sb2 N ( M 1)SW2 (8.9)
把 (8.9) 代入上面两式,当N足够大时,近似有
i 1, 2, , n; j 1, 2, , M
M
Yi Yij —第 i 群总和 j 1
Yi Yi M —第 i 群平均值
1 N M
Y
NM
i 1
Yij
j 1
—总体平均值
S2
1 NM 1
N i 1
M
(Yij
j 1
Y )2
—总体差异平方和
Sb2
指标都相等,则
S
2 w
0 ,此时,c
1
。
由(8.11)可知, c 0 的情况最多只能到 1 (M 1) ,此时 群间毫无诧异,任意抽取几个群都可以作为总体的真实写照
因此,c的取值范围应当在 [1 (M 1) , 1] 之间。
设计效应
已经指出在整群抽样中,如何划分群、群的大小规模如
S2
群大小相等的整群抽样的设计效应为:
deff Var( y ) Var( yr ) 1 ( M 1)c (8.17)
(8.17)式右端 M 1 是显然的,否则就不是整群抽样。实
际问题中,很难做得划分的群互相之间很少差异,因此一
般有c 0 ,这就是说,整群抽样的精度在大多数情形下
c
E(Yij Y )(Yik Y ) E(Yij Y )2
(8.5)
MM
具体计算得
2
(Yij Y )(Yik Y )
c
i 1 jk
(M 1)(NM 1)S 2
(8.6)
c 在一定程度上反映了群内单元的差异,当然这种差异
一般是相对于群间差异而言的。它可以用总体方差 S 与群 间方差 Sb2 来表示: