抽样技术第4章_整群抽样
抽样技术期末知识点(附考点大题)

抽样期末知识点汇总一.绪论(一)抽样调查抽样调查是指非全面调查的总称。
只要是从研究的对象中抽取部分单位加以调查,用来说明全体,就统称为抽样调查。
(广义)选样方法:非概率抽样&概率抽样1.非概率抽样抽样方法:目的抽样、判断抽样、任意抽样、方便抽样、配额抽样(盖洛普民意测验、自愿样本原因:(1)受客观条件限制,无法进行严格的随机抽样。
(2)为了快速获得调查结果。
(3)在调查对象不确定,或无法确定的情况下采用,例如,对某一突发(偶然)事件进行现场调查等。
(4)总体各单位间离散程度不大,且调查员具有丰富的调查经验时。
优点:成本低,而且容易完成;缺点:不能对估计的精度作出客观、准确的说明。
2.概率抽样(狭义抽样调查)按照概率统计的原理,从研究的总体中按随机原则来抽选样本,通过对样本的调查获取数据,以此来对总体的特征作出估计推断;对推断中可能出现的抽样误差可以从概率的意义上加以控制。
特点:(1)对于一个具体的调查,要求总体中的每一个单元都有一个已知的非零概率被抽中。
(2)抽取样本的方法必须是随机的。
(3)根据样本来计算估计值的方法,应符合抽样的方法确定合适的估计量。
(4)能够以一定的概率控制抽样误差的范围。
概率抽样:等概率抽样&不等概率抽样(二)抽样调查的常用概念1. 目标总体:可简称为总体,是指所要研究对象的全体,或者说是希望从中获取信息的总体,它是由研究对象中所有性质相同的个体所组成,组成总体的各个个体称作总体单元或单位。
2.抽样总体:指从中抽取样本的总体。
3.抽样框:抽样总体的具体表现。
通常抽样框是一份包含所有抽样单元的名单。
4.总体参数:总体的特征。
5. 统计量(估计量):样本观察值的函数。
6.抽样误差:由于抽样的非全面性和随机性所引起的偶然性误差。
7.非抽样误差:由随机抽样的偶然性因素以外的原因所引起的误差。
8.抽样误差表现形式:抽样实际误差、抽样标准误和抽样极限误差。
9. 抽样标准误(S ),抽样方差(V ),V=S 210.偏差:样本估计量的数学期望与总体真值间的离差,ˆˆE()-()ˆB θθθ=。
抽样理论与方法:整群抽样

7.1 概述
一、整群抽样(cluster sampling)的定义: 由若干个基本单元所组成的集合称为群。将总体 划分为若干群,然后以群为抽样单元,从总体中随 机抽取一部分群,对抽中的群中的所有基本单元进 行调查的一种抽样技术。 严格来讲也称为单阶整群抽样。
二、特点: 1.可以简化抽样框的编制。 2.实施调查便利,节省费用。 3.但通常比简单随机抽样的抽样误差大。 三、分群的原则:群内单元差异大,群间差异 小。 这样,被抽到的群代表性好,整群抽样的效率 就高。
( 3)P的估计 : 总体小单元的指标值Yij只能取0或1。 YP
Y
i 1 j1
N
M
ij
NM
A
i 1
N
i
NM
n i 1 i
i 1 n
N
Ai N
M
n
P
i 1
N
i
N
i
nM nM n n E( y ) Y E(p ) P即p是P的无偏估计。 1 f 1 N 2 V(p) ( Y Y ) i n N 1 i 1 1 f 1 N 2 (Pi P) n N 1 i 1 1 f 1 n 2 v(p) ( y y ) n n 1 i 1 i 1 f 1 n 2 ( p p ) , 且E( v(p) ) V(p)。 i n n 1 i 1
y 1 1 f 1 n 2 v(y ) v( ) 2 v(y ) ( y y ) M M nM 2 n 1 i 1 i 1 f M n 1 f 2 2 ( y y ) sb i nM n 1 i 1 nM 是V(y )的无偏估计。
第四章 抽样

主讲人: 张建鹏 要内容
一、抽样的意义与作用 二、概率抽样的原理与程序 三、概率抽样方法 四、非概率抽样方法 五、样本规模与抽样误差
2
一、抽样的意义与作用
1. 相关概念 (1). 总体(population):构成它的所有元素的集合 N 表示。元素则是构成总体的基本的单元。 如:海医学生新闻获得方式调查 某市居民家庭生活状况 (2). 样本(sample):从总体中按一定方式抽取的一部 分元素的集合。用n表示 如:从海医1万名学生中,按一定方式抽取300人进行 调查,这300人构成该总体的一个样本。
28
分层(最佳)抽样法
定义:又称非比例抽样法,根据各层样本标准差 的大小确定各层的样本数目的方法。 计算公式为:
ni = n * ( N i Si / ∑ N i Si )
(1)
式中:ni ----- 各类型应抽选的样本单位数 n ----- 样本单位数 Ni ----- 各类型的调查单位数 Si ----- 各类型调查单位数的样本标准差
14
抽样设计的五个步骤 1)定义目标总体 (如上述案例中正在上学的 年龄在8-17岁的年轻人) 2)制定抽样框 (例如上述案例中的所有县及 县内的城市和城镇) 3)选择一种抽样技术 (如上述案例中的三段 分层概率抽样) 4)实际抽取样本 (样本容量,1000名;执行 抽样过程和对调查员指令) 5)评估样本质量 (如检测样本平均年龄是否 与全国普查数据一致或接近)
33
整群抽样与分层抽样的比较
特征 样本来源 抽样目的 划分原则 整群抽样 一个或几个 不提高成本而提 高抽样效率 分层抽样 所有层 不提高成本而提 高精度
群中的个体异质, 层中个体同质, 群间同质 层间异质
第四章整群抽样

1 (M 1)c
上面结果意味着:按同样的样本量(以次级单元计) 整群抽样的方差约为简单随机抽样的方差的 1 (M 1)c 倍。换句话说,为了获得同样的精度,整群抽样的样本 量必须是简单随机抽样的样本量的 1 (M 1)c 倍。
20
第21页/共49页
群内相关系数
NM
2
(Yij Y )(Yik Y )
• Def.1 一般地说,如果总体中所有较小的基本单元可 以以某种形式组成数量较少但规模较大的单元;或反 过来说,每个“大”单元都由若干“小”单元组成, 称这些 “大”单元为初级(抽样)单元(primary sampling unit),“小”单元为次级(抽样)单元 (secondary sampling unit).
Deff = (所考虑抽样设计估计量的方差)/(相同样 本量下简单随机抽样估计量的方差)
18
第19页/共49页
设计效应值愈大,表明它的效率愈低。若deff>1,表明
所考虑的抽样设计的效率不如简单随机抽样;若deff<1,
表明该抽样设计的效率比简单随机抽样高。
在整群抽样中,我们在前面已经指出:如何划分群以
27
第28页/共49页
(3) 若 令为简单随机抽样的样本量 则
nsrs
即可达到整群抽样96户样本量相同的估计精度
Mn nsrs deff
812 20(户) 4.7
28
第29页/共49页
群规模不相等的整群抽样
一、等概抽样,简单估计 二、等概抽样,加权估计 三、等概抽样,比率估计 四、例子
29
8 230,205,187,176,212,253,189,240 211.50 27.48
9 274,208,195,307,264,258,210,309 253.13 44.52
(04)第4章+抽样与抽样分布

4-6
统计学
STATISTICS
例题分析
♦ 假定我们刚刚已取了飞机制造所用的铆钉的25个 假定我们刚刚已取了飞机制造所用的铆钉的25个
一组的样本。检测铆钉的抗剪强度,破坏每个铆 钉所需的力是响应变量。对这组样本,可以求得 各种描述性的测量(均值、方差等)。 ♦ 然而,我们的感兴趣的是总体,并不是样本自身。 被测试的铆钉在测试时已被破坏,不能再用在飞 机的制造上,所以我们肯定不能测试所有的铆钉。 我们必须从这组样本或几组这样的样本来决定总 体的某些特性。 ♦ 因此,我们必须设法推断信息,也即基于样本的 观测结果作出总体的推断
(例题分析) 例题分析)
计算出各样本的均值,如下表。 计算出各样本的均值,如下表。并给出样本均 值的抽样分布
4 - 32
样本均值的抽样分布
统计学
STATISTICS
(例题分析) 例题分析)
【例】设一个总体,含有4个元素(个体) ,即总体单位 设一个总体,含有4个元素(个体) 数N=4。4 个个体分别为x1=1,x2=2,x3=3,x4=4 。总 个个体分别为x 体的均值、 体的均值、方差及分布如下 总体分布
4 - 17
统计学
STATISTICS
分层抽样
分层抽样
统计学
STATISTICS
(stratified sampling) sampling)
♦ 分层抽样:在抽样之前先将总体的单位按 分层抽样:
某种特征或某种规则划分为若干层(类), 然后从不同的层中独立、随机地抽取一定 数量的单位组成一个样本,也称分类抽样 数量的单位组成一个样本,也称分类抽样 sampling) (stratified sampling) ♦ 在分层或分类时,应使层内各单位的差异 尽可能小,而使层与层之间的差异尽可能 大
第四章 抽样调查

抽样分布原理
(一)基本符号 1.总体 A = {a1 , a2 ,, aN }, A = N . 1.总体 2.从总体中抽取n个对象构成样本,共有k个样 2.从总体中抽取n个对象构成样本,共有k 本,设样本的符号为:
A1 , A2 ,, Ak , k = C , Ai = n, i = 1, 2,, k
本章复习思考题
1,什么叫抽样?从总体中抽样样本需满足哪些 条件? 2,简单随机抽样?机械抽样?抽样调查法的性 质?随机抽样的原则? 3,抽样误差?影响抽样误差大小的因素?抽样 误差与调查误差,系统误差的区别? 4,抽样分布?平均误差?抽样分布原理? 5,教材第三章课后习题P84的第二题,P85的第 ,教材第三章课后习题P84的第二题,P85的第 四题,P86的第六题. 四题,P86的第六题.
(三)问卷设计的原则 (三)问卷设计的原则 题意清楚,明确,易懂;口语化;避免一题两问;避免 诱导;公正客观;逻辑一致性;完整性(问题和备选 答案);不要用否定形式提问;不要直接询问敏感性 问题. (四)问卷的结构 1,四结构说:标题(简明扼要,概括专项调查的主 题);指导语(包括调查的目的和意义;问题及备选 答案的必要解释,调查须知及其他事项说明等;如涉 及需为被调查者保密的内容,需申明予以保密);主 体内容(内容不宜过多,过繁,应根据需要而确定); 结束语(提出几个开放性的问题或让被试提出对本研 究的建设性的意见;表示对被试合作的感谢). 2,六结构说:在四结构说的基础上,加上被调查者的 基本信息;作业证明的记载.
无限总体时, 有限总体时,
σ σx = n
σ N n σx = × N 1 n
对于有限总体,样本容量与总体容量的 比n/N称为抽样比例. n/N称为抽样比例. 一般认为,n/N<0.05时,就可以省略修 一般认为,n/N<0.05时,就可以省略修 正系数.
第4章-等概率整群抽样和多阶段抽样

4.1.1 定义
整群抽样(cluster sampling)是将总体 划分为若干群,然后以群(cluster)为抽 样单元,从总体中随机抽取一部分群,对 被选群内的所有单元进行调查的一种抽样 技术。
2024/7/17
3
例
欲估计某高校大学生拥有手机数量,大学共有40000 名学生,10000个宿舍(每个宿舍4名学生)。
V (ˆ) E1 E2 (ˆ)2 E1 V2 (ˆ ) E1E2 (ˆ)2 V1 E2 (ˆ) E1 V2 (ˆ )
4.3.3 等概率两阶段抽样的符号说明
表4-5
4.3.4 初级单元(PSU)规模相等的 两阶段抽样
定理4.5 对于初级单元规模相等的两阶段抽样 ,如果两个阶段都是简单随机抽样,且对每个 初级单元,第二阶抽样是相互独立进行的,则 对总体均值 Y 的无偏估计为:
定理 4.1:y 是 Y 的无偏估计,即
Ey Y
定理 4.2: y 的方差为:
V ( y) 1 f n
1N N 1 i1
Yi Y
2
1 f nM
Sb2
定理 4.3:V ( y) 的样本估计为:
v( y) 1 f nM
sb2
Yˆ NMy V (Yˆ) V (NMy) N 2M 2V ( y) v(Yˆ) N 2M 2v( y)
(NM 1)(M 1)S 2
用简单随机抽样方法抽取n个群,每个群内的M个
单元全部进入样本,则等群抽样均值估计量 y 的方
差可用群内相关系数近似表示
N
2
V (y)
1 V(y) 1 f
Yi Y
i 1
M2
nM 2 N 1
1 f n
(NM 1) M 2 (N 1)
第四章 抽样技术

• (五)多阶段抽样
– 含义:multistage sampling-----即先抽大的调 查单元,在大单元中抽小单元,再在小单元 中抽更小的单元。如:我国的城市职工家计 调查,采用三阶段抽样,先城市-基层单位调查户。
第四章 抽样技术
– 应用:在复杂、大规模的市场调查中。
• (六)抽样技术的选用原则
• (四)常用术语
– 1.总体(population)与样本(sample) – 2.总体指标和样本指标
• 总体指标-------反映总体数量特征的指标,有总 体平均数µ,总体比例P, 总体方差 σ 2
第四章 抽样技术
– 样本指标------又称样本估计量或统计量,用 以估计和推断相应总体指标的综合指标,有 样本平均数 x ,样本比例p ,样本方差S2。
第四章 抽样技术
• 成数------分总体成数与样本成数 • 含义------总体中具有某种特征的单位占全部单 位的比例,称总体成数(总体比例) • 如:产品的合格率,市场占有率等。 • 样本成数的抽样分布
– 当从总体中抽出一个容量为n的样本时,样本中具有 某种特征的单位数x服从二项分布,即有x~B(n, π),且 有E(x)=n π V(x)=n π(1- π). – 因而样本比例p=x/n也服从二项分布,且有: – E(p)=E(x/n)= π – V(p)=V(x/n)=1/n π(1- π)
第四章 抽样技术
第四章 抽样技术
第四章 抽样技术
本章要点
• 1.抽样调查的含义、特点与程序; • 2.随机抽样技术的类型及其各自的特点、 方法; • 3.非随机抽样技术的类型及其各自的特 点、方法; • 4.抽样误差的含义及其计算方法 。
第四章 抽样技术
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
另一种方法是按一定方法抽取一定数量的 居民楼,譬如说15栋或20栋楼,然后对这 些楼中的每个住户都进行调查,根据调查 结果来估计整个居民区的电信宽带用户比 例。
4.1 概述
一、整群抽样(cluster sampling)的定义: 由若干个基本单元所组成的集合称为群。将总体 划分为若干群,然后以群为抽样单元,从总体中随 机抽取一部分群,对抽中的群中的所有基本单元进 行调查的一种抽样技术。 严格来讲也称为单阶整群抽样。
第四章 等概率整群抽样和多阶 段抽样
一个新建的居民区由近百栋居民楼组成, 其中住户总数达数千户。欲用抽样调查方 法估计该居民区现有的电信宽带用户比例, 考虑以下两种抽样方法。 一种是用简单随机抽样抽取一定样本量的 住户,譬如说一共抽取n=250户进行调查, 然后对全居民区的住户的电信宽带用户比 例进行估计。
2
1 f 1 N N ( ) Yi Y 2 n N 1 i 1 v(Y) v(NM y ( NM ) 2 v( ) ) y
2 1 f 1 n 2 N ( ) ) y i y 且E( v(Y) V(Y)。 n n 1 i 1 2
y 1 V(y V( ) 2 V(y ) ) M M 1 f 1 N 1 f 1 N (Yi Y 2 ) (Y i Y 2 ) 2 nM N 1 i 1 n N 1 i 1 1 f M N 1 f 2 2 ( Y i Y) nM S b nM N 1 i 1
1 N 2 Si N i 1
1 n 2 si n i 1
二、估计量: 1.群规模相等时,对群的抽样采取简单随机抽样,将群 和Yi作为群的指标值
则总体看作Y1, ,YN 样本:y 1, ,y n Y的估计为: y Y
y
i 1
n
i
n 1 f 2 1 f 1 N V(y ) Sy (Yi Y 2 ) n n N 1 i 1
y
i 1 j1
n
M
nM 样本的群间方差 : M n s ( y i y )2 n 1 i 1
2 b
样本的群内方差 : s
2 w n M 1 ( y ij y i )2 n( M 1) i 1 j1
S
2 w
N M 1 ( Yij Y i )2 N( M 1) i 1 j1
1.在大规模抽样调查中,常常没有或很 难编制出包括总体所有次级单元在内的抽 样框,而整群抽样则不需要编制庞大的抽 样框。 当总体单元自然聚合成群(例如:住户、 学校)时,整群抽样比简单随机抽样或系 统抽样更容易。
2.在样本单元数相同的条件下,整群抽样与简 单随机抽样相比,样本单元的分布相对较集中, 虽然样本的代表性较差,但调查组织实施过程更 加便利,同时还可以大大地节省调查费用。因此, 实际工作中,在权衡费用和精度之后,有时宁可 适当增加一些样本单元数,也采用整群抽样方法。 如果对于调查变量而言,群内单元差异较大,而 不同群的差异较小,整群抽样策略比简单随机抽 样的统计效率更高。(例如为估计性别比采用按户 的整群抽样)。
样本第i群的群和y i
y
j1 n i
M
ij
总体群和的均值 Y
N M
Y
N
ij
样本群和的均值 y
y
i 1
n
ij
总体均值 Y
Y
i 1 j1
NM 总体的群间方差 : M N S ( Y i Y )2 N 1 i 1 总体的群内方差 :
2 b
样本均值 y
y 1 1 f 1 n v(y v( ) 2 v(y ) ) (y i y 2 ) 2 M M nM n 1 i 1 1 f M n 1 f 2 2 ( y i y) nM sb nM n 1 i 1 是V(y )的无偏估计。
(1)Y的估计为 : Y y且E( y ) Y。 1 f 1 N 1 f 2 V( ) y ( i Y 2 Y ) Sb n N 1 i 1 nM M N 其中S ( ) Yi Y 2 N 1 i 1
2 i 1 j1 N i 1 j1 N 2 Yij Y ) M(Y i Y 2 ( ) i i 1 j1 i 1 M N M N M
yi
s
2 i
n 8, N 315 1 Y y n M 2 sb n 1
n
y
i 1
n
i
98.17
i 1
2 (y i y) 928.6648
1 f 2 (y) v sb 18.8558 nM (y) (y) 4.3423 s v Y的置信度为95%的置信区间为: y z (y), z (y) y 0.25 s 0.25 s 即89.66, 106.6变量,若群内单元有趋同性,则整 群抽样的统计效率比简单随机抽样低, (这正是通常遇到的情况),但对此项效 率的损失可通过增加群的抽取个数来弥补;
通常无法提前知道调查总样本量,因为在进行
调查前,我们通常不知道一个群内到底有多少 个单元; 调查的组织比其他方法复杂; 方差估计可能比简单随机抽样更为复杂。
3.整群抽样的随机性体现在群与群间不 重叠,也无遗漏,群的抽选按概率确定。 4.如果把每一个群看作一个单位,则整 群抽样可以被理解为是一种特殊的简单随 机抽样。 5.整群抽样也是多阶段抽样的前提和基 础。
6.整群抽样有特殊的用途。有些现象的研究, 如果直接调查作为基本单元的个体,很难说明问 题,必须以一定范围所包括的基本单元为群体, 进行整群抽样,才能满足调查的目的。如人口普 查后的复查、要想估计出普查的差错率,只有通 过对一定地理区域内的人口群体作全面调查才行。 类似地诸如人口出生率、流动率等调查都需要采 用整群抽样。 7.整群抽样要求分群后各群所含次级单元数目 应该确知,否则会给抽样推断带来不便。
1、取决于精度与费用之间的平衡 。 2、从抽样实施的组织管理等因素来考虑。 群的规模选得大,则费用省而精度差;群的 规模选得小,则精度高而费用大。 因此:需要选择最优的群数量和大小,同时使总 费用最小。这方面除了依靠实践经验外,还可对 假定的方差函数与费用函数作理论上的最优选择。
五、整群抽样的特点
2 b
1 f 1 n 1 f 2 v( ) y ( i y 2 y ) sb n n 1 i 1 nM 且E( v( ) V( )。 y ) y ( 2)Y的估计为 : Y NM y且E( Y ) Y。 1 f 1 N V(Y) V(NM y ( NM ) ) ( ) Yi Y 2 n N 1 i 1
i 1 n
群间方差
Sb
2
N 1
M 2
sb
2
n1
M
方差
2
S2
2
( Yij Y)
i 1 j1
N
NM 1
2 2
s2
(y ij y 2 )
i 1 j1
n
nM 1
并且s w 是S w 的无偏估计,s b 是S b 的无偏估计。
总体离差平方和的分解: (Yij Y Yij Y i Y i Y 2 ) ( )
yp
y
i 1 j1
n
M
ij
a
i 1
ai
M
p
i 1
例:在一次对某寄宿中学在校生零花钱的调查中,以宿 舍作为群进行整群抽样。每个宿舍有6个学生。用简单 随机抽样在全部315间宿舍中抽取8间宿舍。样本数据 如下:
宿舍1 宿舍2 学生1 学生2 学生3 58 83 74 91 83 79 宿舍3 123 89 94 宿舍 4 99 105 98 宿舍5 宿舍6 宿舍7 宿舍8 110 99 132 111 100 116 120 115 117 96 80 63
( 3)P的估计 : 总体小单元的指标值Yij只能取 0或1。 YP
Y
i 1 j1
N
M
ij
NM
A
i 1
N
i
NM
n i 1 i
i 1 n
N
Ai N
M
n
P
i 1
N
i
N
i
nM nM n n E( y ) Y E(p ) P即p是P的无偏估计。 1 f 1 N V(p) (Y i Y 2 ) n N 1 i 1 1 f 1 N 2 ( Pi P) n N 1 i 1 1 f 1 n v(p) (y i y 2 ) n n 1 i 1 1 f 1 n 2 (p i p), E( v(p) V(p)。 且 ) n n 1 i 1
学生4
学生5 学生6
82
66 87
111
101 69
109
79 80
107
129 90
87
99 124
99
107 105
99
106 120
130
105 86
试估计该学校平均每个学生每周的零花钱,并给出置信 度为95%的置信区间。
解:
宿舍1 学生1 学生2 学生3 学生4 学生5 学生6 58 83 74 82 66 87 75.00 125.6 0 宿舍2 91 83 79 111 101 69 89.00 233.6 0 宿舍3 123 89 94 109 79 80 95.67 299.0 7 宿舍4 99 105 98 107 129 90 104.6 7 177.8 7 宿舍5 110 99 132 87 99 124 108.5 0 287.5 0 宿舍6 111 100 116 99 107 105 106.3 3 42.27 宿舍7 120 115 117 99 106 120 112.8 3 72.57 宿舍8 96 80 63 130 105 86 93.33 527.8 7