第4章整群抽样

合集下载

社会调查方法04抽样(二)

社会调查方法04抽样(二)

高收入层样本数目:200 ×1200000/4000000=60户 中收入层样本数目:200 ×2400000/4000000=120户 低收入层样本数目:200 ×400000/4000000=20户
分层抽样的适用性

1.当一个总体内部分层明显时,分层抽样 能够克服简单随机样和等距抽样的缺点。
2.分层抽样可以提高总体参数估计的精确 度。 3.有些研究不仅要了解总体的情况,而且 还要了解某些类别的情况。 4.便于行政管理。同一层可看作一个总体, 因此每层可由专人进行管理。
比较分层抽样和整群抽样分层抽样整群抽样样本每层均要选取子样本作为总样本的一部分只选择某几个子群作为整体的代表层的划分具有较高的代表群间异质性低层与层的关系层的划分具有较高的代表性即层之间异质性高群间异质性低层内性质层内则尽可能同质群内异质性高变量选择研究变量的选择与研究问题高度相关研究变量与研究问题相关思考和讨论??对北京市现住人口进行调查由于流动人口的不确定性很难得到现住人口的住户清单

(三)因总体单位排列不同导致的不同 抽样
1. 无序抽样——总体按与调查项目无关的指标 排列,如住户调查按照门牌号码抽 评价:容易忽视总体已有信息(与简单随机抽 样一样)
2. 有序抽样——总体按与调查项目有关的指标 排列,如住户调查按照平均收入抽 评价:样本单位容易偏大或偏小

(三)因总体单位排列不同导致的不同抽样
三. 分层抽样(Stratified Sampling)

1.分层抽样的内涵: 分层抽样是将总体N依照某一种或某几种特征分 为几个子总体(层),然后从每一层中采取简 单随机抽样或等距抽样方式抽取一个个子样本 n1,n2……将这些子样本合在一起即为总体样本n。 ★ 使用什么分层变量? 一般是选择与调查目标变量高度相关的变量。 ★ 要协调层的数量和每层样本量 ★ 分层抽样适用于总体数目较多,异质,一 个或多个变量可能影响调查结果的情况,且对 所研究的总体有详细的名单。分层后,每层同 质,层之间不同质,然后在每层按照比例抽。

第四章 抽样

第四章 抽样
第四章 抽 样
主讲人: 张建鹏 要内容
一、抽样的意义与作用 二、概率抽样的原理与程序 三、概率抽样方法 四、非概率抽样方法 五、样本规模与抽样误差
2
一、抽样的意义与作用
1. 相关概念 (1). 总体(population):构成它的所有元素的集合 N 表示。元素则是构成总体的基本的单元。 如:海医学生新闻获得方式调查 某市居民家庭生活状况 (2). 样本(sample):从总体中按一定方式抽取的一部 分元素的集合。用n表示 如:从海医1万名学生中,按一定方式抽取300人进行 调查,这300人构成该总体的一个样本。
28
分层(最佳)抽样法
定义:又称非比例抽样法,根据各层样本标准差 的大小确定各层的样本数目的方法。 计算公式为:
ni = n * ( N i Si / ∑ N i Si )
(1)
式中:ni ----- 各类型应抽选的样本单位数 n ----- 样本单位数 Ni ----- 各类型的调查单位数 Si ----- 各类型调查单位数的样本标准差
14
抽样设计的五个步骤 1)定义目标总体 (如上述案例中正在上学的 年龄在8-17岁的年轻人) 2)制定抽样框 (例如上述案例中的所有县及 县内的城市和城镇) 3)选择一种抽样技术 (如上述案例中的三段 分层概率抽样) 4)实际抽取样本 (样本容量,1000名;执行 抽样过程和对调查员指令) 5)评估样本质量 (如检测样本平均年龄是否 与全国普查数据一致或接近)
33
整群抽样与分层抽样的比较
特征 样本来源 抽样目的 划分原则 整群抽样 一个或几个 不提高成本而提 高抽样效率 分层抽样 所有层 不提高成本而提 高精度
群中的个体异质, 层中个体同质, 群间同质 层间异质

第四章整群抽样

第四章整群抽样

1 (M 1)c
上面结果意味着:按同样的样本量(以次级单元计) 整群抽样的方差约为简单随机抽样的方差的 1 (M 1)c 倍。换句话说,为了获得同样的精度,整群抽样的样本 量必须是简单随机抽样的样本量的 1 (M 1)c 倍。
20
第21页/共49页
群内相关系数
NM
2
(Yij Y )(Yik Y )
• Def.1 一般地说,如果总体中所有较小的基本单元可 以以某种形式组成数量较少但规模较大的单元;或反 过来说,每个“大”单元都由若干“小”单元组成, 称这些 “大”单元为初级(抽样)单元(primary sampling unit),“小”单元为次级(抽样)单元 (secondary sampling unit).
Deff = (所考虑抽样设计估计量的方差)/(相同样 本量下简单随机抽样估计量的方差)
18
第19页/共49页
设计效应值愈大,表明它的效率愈低。若deff>1,表明
所考虑的抽样设计的效率不如简单随机抽样;若deff<1,
表明该抽样设计的效率比简单随机抽样高。
在整群抽样中,我们在前面已经指出:如何划分群以
27
第28页/共49页
(3) 若 令为简单随机抽样的样本量 则
nsrs
即可达到整群抽样96户样本量相同的估计精度
Mn nsrs deff
812 20(户) 4.7
28
第29页/共49页
群规模不相等的整群抽样
一、等概抽样,简单估计 二、等概抽样,加权估计 三、等概抽样,比率估计 四、例子
29
8 230,205,187,176,212,253,189,240 211.50 27.48
9 274,208,195,307,264,258,210,309 253.13 44.52

(04)第4章+抽样与抽样分布

(04)第4章+抽样与抽样分布

4-6
统计学
STATISTICS
例题分析
♦ 假定我们刚刚已取了飞机制造所用的铆钉的25个 假定我们刚刚已取了飞机制造所用的铆钉的25个
一组的样本。检测铆钉的抗剪强度,破坏每个铆 钉所需的力是响应变量。对这组样本,可以求得 各种描述性的测量(均值、方差等)。 ♦ 然而,我们的感兴趣的是总体,并不是样本自身。 被测试的铆钉在测试时已被破坏,不能再用在飞 机的制造上,所以我们肯定不能测试所有的铆钉。 我们必须从这组样本或几组这样的样本来决定总 体的某些特性。 ♦ 因此,我们必须设法推断信息,也即基于样本的 观测结果作出总体的推断
(例题分析) 例题分析)
计算出各样本的均值,如下表。 计算出各样本的均值,如下表。并给出样本均 值的抽样分布
4 - 32
样本均值的抽样分布
统计学
STATISTICS
(例题分析) 例题分析)
【例】设一个总体,含有4个元素(个体) ,即总体单位 设一个总体,含有4个元素(个体) 数N=4。4 个个体分别为x1=1,x2=2,x3=3,x4=4 。总 个个体分别为x 体的均值、 体的均值、方差及分布如下 总体分布
4 - 17
统计学
STATISTICS
分层抽样
分层抽样
统计学
STATISTICS
(stratified sampling) sampling)
♦ 分层抽样:在抽样之前先将总体的单位按 分层抽样:
某种特征或某种规则划分为若干层(类), 然后从不同的层中独立、随机地抽取一定 数量的单位组成一个样本,也称分类抽样 数量的单位组成一个样本,也称分类抽样 sampling) (stratified sampling) ♦ 在分层或分类时,应使层内各单位的差异 尽可能小,而使层与层之间的差异尽可能 大

[高等教育]现代社会调查 第四章 抽样

[高等教育]现代社会调查  第四章 抽样
27
3.分层抽样
——又称类型抽样,它是先将总体中的所有单位按某种特征或标 志(如性别、年龄、职业或地域等)划分成若干类型或层次,然后 再在各个类型或层次中采用简单随机抽样或系统抽样的办法抽取 一个子样本,最后,将这些子样本合起来构成总体的样本。 操作方法:
将总体中的所有单位按某种特征或标志(如性别、年龄、职业或地
特点 简单随机抽样 一阶段抽样 系统抽样
分层抽样
整群抽样 多阶段抽样 多段抽样 PPS抽样
样本一次直接从 总体中抽出
样本分多阶段从 总体中抽出
17
1.简单随机抽样
——是概率抽样的最基本形式,它是按等概率原则直 接从含有N个元素的总体中随机抽取n个元素组成样本 (N>n)。
常用方法:直接抽样法、抽签法、随机数表法
25
当抽样间距(K=N/n)不是整数时:
循环等距抽样法 A+K A A+2K
A+3K
A+4K
A+(n-1)K
调整直线等距抽样 如:N=2580, n=300, 则K=8.6
……
调整:在1-86之间选择整数的随机起点,如27;将小数 点调回,得到非整数的随机起点2.7,由此得到号码:2.7, 11.3, 19.9, 28.5,……。将小数点后面的部分略去,就是迁 中单位的号码:2, 11, 19, 28, …… 26
抽5个区
抽4个区 抽3个区
抽12所学校
抽10所学校 抽10所学校
每所学校抽20名教师
每所学校抽30名教师 每所学校抽40名教师
方案8
方案9
根据抽取对象的具体方式的不同,把抽样分为概率抽 样和非概率抽样。
6
抽样的类型

第4章-等概率整群抽样和多阶段抽样

第4章-等概率整群抽样和多阶段抽样

4.1.1 定义
整群抽样(cluster sampling)是将总体 划分为若干群,然后以群(cluster)为抽 样单元,从总体中随机抽取一部分群,对 被选群内的所有单元进行调查的一种抽样 技术。
2024/7/17
3

欲估计某高校大学生拥有手机数量,大学共有40000 名学生,10000个宿舍(每个宿舍4名学生)。
V (ˆ) E1 E2 (ˆ)2 E1 V2 (ˆ ) E1E2 (ˆ)2 V1 E2 (ˆ) E1 V2 (ˆ )
4.3.3 等概率两阶段抽样的符号说明
表4-5
4.3.4 初级单元(PSU)规模相等的 两阶段抽样
定理4.5 对于初级单元规模相等的两阶段抽样 ,如果两个阶段都是简单随机抽样,且对每个 初级单元,第二阶抽样是相互独立进行的,则 对总体均值 Y 的无偏估计为:
定理 4.1:y 是 Y 的无偏估计,即
Ey Y
定理 4.2: y 的方差为:
V ( y) 1 f n
1N N 1 i1
Yi Y
2
1 f nM
Sb2
定理 4.3:V ( y) 的样本估计为:
v( y) 1 f nM
sb2
Yˆ NMy V (Yˆ) V (NMy) N 2M 2V ( y) v(Yˆ) N 2M 2v( y)
(NM 1)(M 1)S 2
用简单随机抽样方法抽取n个群,每个群内的M个
单元全部进入样本,则等群抽样均值估计量 y 的方
差可用群内相关系数近似表示
N
2
V (y)
1 V(y) 1 f
Yi Y
i 1
M2
nM 2 N 1
1 f n
(NM 1) M 2 (N 1)

第四章 抽样技术

第四章 抽样技术

• (五)多阶段抽样
– 含义:multistage sampling-----即先抽大的调 查单元,在大单元中抽小单元,再在小单元 中抽更小的单元。如:我国的城市职工家计 调查,采用三阶段抽样,先城市-基层单位调查户。
第四章 抽样技术
– 应用:在复杂、大规模的市场调查中。
• (六)抽样技术的选用原则
• (四)常用术语
– 1.总体(population)与样本(sample) – 2.总体指标和样本指标
• 总体指标-------反映总体数量特征的指标,有总 体平均数µ,总体比例P, 总体方差 σ 2
第四章 抽样技术
– 样本指标------又称样本估计量或统计量,用 以估计和推断相应总体指标的综合指标,有 样本平均数 x ,样本比例p ,样本方差S2。
第四章 抽样技术
• 成数------分总体成数与样本成数 • 含义------总体中具有某种特征的单位占全部单 位的比例,称总体成数(总体比例) • 如:产品的合格率,市场占有率等。 • 样本成数的抽样分布
– 当从总体中抽出一个容量为n的样本时,样本中具有 某种特征的单位数x服从二项分布,即有x~B(n, π),且 有E(x)=n π V(x)=n π(1- π). – 因而样本比例p=x/n也服从二项分布,且有: – E(p)=E(x/n)= π – V(p)=V(x/n)=1/n π(1- π)
第四章 抽样技术
第四章 抽样技术
第四章 抽样技术
本章要点
• 1.抽样调查的含义、特点与程序; • 2.随机抽样技术的类型及其各自的特点、 方法; • 3.非随机抽样技术的类型及其各自的特 点、方法; • 4.抽样误差的含义及其计算方法 。
第四章 抽样技术

第四章 抽样

第四章 抽样

• 3.设计抽样方案 • 4.制定抽样框
– 制定抽样框就是依据已经明确界定的总体范围,收集总体中全部抽样单位 的名单,并统一编号。
• 5.实际抽取样本 • 6.样本评估
– 样本评估就是对样本的质量和代表性进行检验,其目的是防止因样本的偏 差过大而导致的失误。
– 实际抽取样本就是在上述几个步骤的基础上,严格按照所选定的抽样方法, 从抽样框中抽取一个个的抽样单位,构成样本。
运用:
• 从侨光分校的7000位学生中,抽取100位学 生进行调查查,以研究学生对学校教学条 件的满意度。之前所做的普查表现出的对 学校教学条件的平均满意度为85%,现通 过抽查统计后的满意度为80%。 • 请说出本次抽查中的总体、样本、抽样元 素、抽样单位、抽样框、参数值、统计值、 抽样误差。
二、抽样的作用
• 分类抽样有着突出的优点: 第一,分类抽样能够克服简单随机抽样的缺 点,适用于总体内个体数目较多,结构较复杂, 内部差异较大的情况。 第二,精确度较高。 第三,便于对不同层面的问题进行探索。 第四,便于分工,使工作效率提高。 分类抽样的缺点是,如何分类通常由人们主 观判定,因此要求调查者具备较高的素质与能力, 并且必须事先对总体各单位的情况有较多的了解, 而它们在实际工作中有时难以完全实现,这就会 影响分类的科学性和精确性。
三、抽样的类型
• 概率抽样 • 非概率抽样
– 根据抽取对象的具体方式,人们把抽样分为许多不同 的类型。总的来说,各种抽样都可以归为概率抽样与 非概率抽样两大类。这是两种有着本质区别的抽样类 型。概率抽样是依据概率论的基本原理,按照随机原 则进行的抽样,因而它能够避免抽样过程中的人为误 差,保证样本的代表性;而非概率抽样则主要是依据 研究者的主观意愿、判断或是否方便等因素来抽取对 象,它不考虑抽样中的等概率原则,因而往往产生较 大的误差,难以保证样本的代表性。 概率抽样与非概率抽样又各自包括了许多具体类 型。分别适用于不同调查对象。联系实际认识概率抽 样的不同类型及其适用性是掌握抽样方法的关键。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
具有某特征的次级单元的总体比例: 1 N 1 N P Ai Pi NM i 1 N i 1 具有某特征的次级单元的样本比例:
1 p nM 1 n ai pi n i 1 i 1
n
1 并令: A N

A
i 1
N
i
1 n a ai n i 1
定理4.2.2 在整群抽样中,若群的大小相等, 且对群进行简单随机抽样,则:
yij , i 1, 2,, n; j 1, 2,, M
总体第i个群的指标总值(简称群和):
Yi Yij , i 1, 2,, N
j 1 M
样本第i个群的指标总值(简称群和):
yi yij , i 1, 2,, n
j 1 M
总体第i个群的指标均值(简称群均值):

记:
总体第i个群中具有某特征的次级单元数: Ai , i 1, 2,, N 样本第i个群中具有某特征的次级单元数: ai , i 1, 2,, n
总体第i个群中具有某特征的次级单元所占比例: Ai Pi , i 1, 2,, N Mi
样本第i个群中具有某特征的次级单元所占比例: ai pi , i 1, 2,, n mi

书上P118例4-1
例 某厂近两年来积压了某种零件100箱,每箱20 只。最近有用户要货,急需估计100箱中有多少报 废零件,以尽快安排生产及时供应用户。现随机抽 取5箱,对箱中的零件全部检查,结果如下表。 (1)对零件的废品率作点估计,并估计其标准差; (2)对100箱中的废品数作点估计,并估计其标准 差。
m0 mi 样本中的次级单元数:
i 1 N
n
1 总体的平均群大小: M N
M
i 1
i
1 n 样本的平均群大小:m mi n i 1

对指标Y:
Yij , i 1, 2,, N; j 1, 2,, Mi
总体第i个群中第j个次级单元的指标值:
样本第i个群中第j个次级单元的指标值:
a ˆ P ˆ p 是P的无偏估计量 M 1 1 f 1 N 1 f 1 N 2 2 V ( p) 2 ( A A ) ( P P ) i i M n N 1 i 1 n N 1 i 1
n n 1 1 f 1 1 f 1 2 2 ˆ ( p) V ( a a ) ( p p ) i i M 2 n n 1 i 1 n n 1 i 1 是V ( p)的无偏估计量

记:
总体第i个群中具有某特征的次级单元数: Ai , i 1, 2,, N 样本第i个群中具有某特征的次级单元数: ai , i 1, 2,, n
总体第i个群中具有某特征的次级单元所占比例: Ai Pi , i 1, 2, , N M
样本第i个群中具有某特征的次级单元所占比例: ai pi , i 1, 2, , n M
显然有:
Y MY
Y NY NMY
y My
y ny nMy
Yi MYi , i 1,2,, N
yi Myi , i 1, 2,, n

定理4.2.1 在整群抽样中,若群大小相等, 且对群进行简单随机抽样,则:
ˆ y Y ˆ y 是Y 的无偏估计量 M
N Y Y Y M0 M
Y NY M 0Y
y ny


按简单随机抽样抽取n个群
在群大小不等的情形,如果对群的抽取仍是 简单随机的,介绍下面两种处理方法:
(1)简单估计
(2)用群大小作辅助变量的比估计

定理4.3.1 在整群抽样中,若对群进行简单 随机抽样,且 M 0 已知,则:
ˆ N y Y y 是Y 的无偏估计量 ˆ M0 M ˆ ˆ Y ˆ M 0Y Ny是Y的无偏估计量 ˆ 1 1 f 1 N 2 V (Y ) 2 ( Y Y ) i M n N 1 i 1

定理4.3.4 在整群抽样中,若对群进行简单 随机抽样,且 M 0已知,则当n足够大时:
ˆ y ˆ YR ˆ M 0YR M 0 是Y的近似无偏估计量 m
N 1 f 1 2 ˆ )N V (Y ( Y YM ) R i i n N 1 i 1 N 1 f 1 2 2 N2 M ( Y Y ) i i n N 1 i 1 2
n f 设总体含有N个群,样本中有n个群, N
为抽样比
总体第i个群的大小,即总体第i个群中的次级 Mi , i 1, 2,, N 单元数: 样本第i个群的大小,即样本第i个群中的次级 mi , i 1, 2,, n 单元数:
总体中的次级单元数:M 0 M i
i 1
N

定理4.2.1 在整群抽样中,若群大小相等, 且对群进行简单随机抽样,则:
n 1 1 f 1 2 ˆ( y) V ( y y ) i M 2 n n 1 i 1 1 f 1 n 2 ( y y ) 是V ( y )的无偏估计量 i n n 1 i 1 n 1 f 1 2 ˆ (Y ˆ) N 2 V ( y y ) i n n 1 i 1 1 n 2 1 f 2 ˆ )的无偏估计量 ( NM ) ( y y ) 是V (Y i n n 1 i 1
yij , i 1, 2,, n; j 1, 2,, mi
总体第i个群的指标总值(简称群和):
Yi Yij , i 1, 2,, N
j 1 Mi
样本第i个群的指标总值(简称群和):
yi yij , i 1, 2,, n
j 1 mi
总体第i个群的指标均值(简称群均值):
1 Yi M
Y , i 1, 2,, N
j 1 ij
M
样本第i个群的指标均值(简称群均值):
1 yi M
y , i 1, 2,, n
j 1 ij
M
群和的总体均值(总体的平均群和):
1 N 1 N M Y Yi Yij N i 1 N i 1 j 1
1 Yi Mi
Y , i 1, 2,, N
j 1 ij
Mi
样本第i个群的指标均值(简称群均值):
1 yi mi
y , i 1, 2,, n
j 1 ij
mi
群和的总体均值:
1 N 1 N Mi Y Yi Yij N i 1 N i 1 j 1
群和的样本均值:
1 n 1 n mi y yi yij n i 1 n i 1 j 1
次级单元的总体均值:
N 1 N Mi Y Yij Yi M 0 i 1 j 1 i 1
M
i 1
N
i
群均值的样本均值:
1 n 1 n 1 y yi n i 1 n i 1 mi
定理4.3.2 在整群抽样中,若对群进行简单 随机抽样,且 M 0已知,则:
N a ˆ P a 是P的无偏估计量 ˆ M0 M
N 1 1 f 1 2 ˆ) V (P ( A A ) i M 2 n N 1 i 1
n 1 1 f 1 2 ˆ (P ˆ) ˆ )的无偏估计量 V ( a a ) 是V ( P i 2 M n n 1 i 1
y
j 1
mi
ij
总体总值:
Y Yi Yij
i 1 i 1 j 1 N N Mi
样本总值:
y yi yij
i 1 i 1 j 1 n n mi
显然有:
M0 M N m0 m n
Yi Yi , i 1, 2,, N Mi yi yi , i 1, 2,, n mi
ˆ Y ˆ Ny NMy是Y的无偏估计量
1 1 f 1 N 1 f 1 N 2 2 V ( y) 2 ( Y Y ) ( Y Y ) i i M n N 1 i 1 n N 1 i 1
N N 1 f 1 1 f 1 2 2 2 ˆ) N 2 V (Y ( Y Y ) ( NM ) ( Y Y ) i i n N 1 i 1 n N 1 i 1
y
i 1 j 1
n
M
ij
总体总值:
Y Yi Yij
i 1 i 1 j 1
N
N
M
样本总值:
y yi yij
i 1 i 1 j 1 n n M
注:在群大小相等的情形下,y 也是次级单元 的样本均值,但在群大小不等的情形,y 不 是次级单元的样本均值
群和的样本均值(样本的平均群和):
1 n 1 n M y yi yij n i 1 n i 1 j 1
次级单元的总体均值:
1 N 1 Y Yi N i 1 NM
Y
i 1 j 1
N
M
ij
群均值的样本均值:
1 n 1 y yi n i 1 nM
抽中的箱号 箱内废品数 14 4 20 4 50 3 89 3 95 3Fra bibliotek作

习题4.1
4.3 群大小不等的情形
在大多数实际问题中,整群抽样时群的大小 是不相等的,有如下几种处理方法:

1 (1)用 M N
M 代替M i,按群相等的情形处理,
i 1 i
N
一般用于群大小相差不多的情况 (2)将总体中的群按照大小进行分层,使每一层内 的群大小基本相等,在各层中进行的整群抽样可 以按照群大小相等的情形处理,再结合分层抽样 的知识就可对总体情况作出推断

定理4.3.3 在整群抽样中,若对群进行简单 随机抽样,则当n足够大时:
相关文档
最新文档