第七章不等概率抽样
第七章 抽样调查技术

13
一、简单随机抽样
(一)具体操作步骤:
第一,对总体的每个单位进行编号,总体单位数 为10,000的总体可编为00 001到期10,000号;
第二,在随机数码表(一般的数理统计书中都有 此表)中从任意一个编号数开始,向上、向下或 跳跃选取编号,在00 001和10,000之间选出200个 (样本单位数);
5
2015/12/22
(二)样本总体
概念: 也称抽样总体(sampled population)或者“子 样”、“样本”,是指从全及总体中抽取出来的 单位集合。 大样本与小样本: 样本总体通常是有限总体,它所包含的的总 体单位数目称为样本容量(通常用英文字母n来表 示)。一般来说,样本单位数达到或者超过30个 称为大样本,而在30个以下的称为小样本。
第二,等距抽样的效率取决于对总体进行 排列时所使用的标志值。在等距抽样中, 调研人员假设总体是有序的。
2015/12/22
23
三、分层抽样
(一)分层抽样的具体步骤 (二)分层抽样的方法 (三)分层指标的选择 (四)分层抽样的优缺点 (五)分层抽样适用的范围
2015/12/22
24
假如我们要进行北京市居民家用电器的拥 有状况调查,采用整群抽样方法,那么, 我们在北京市3,600个居民委员会中随机抽 取20个居委会,这20个居委会中的所有户都 成为我们的调查样本。
2015/12/22
32
(二)采用整群抽样的原因
原因一:当缺少基本单位的名单而难以 直接从总体中抽取所要调查的基本单位。 原因二:即使容易获得个体的抽样框, 但从费用上考虑,直接从个体抽样获得 的样本可能比较分散。 原因三:采用整群抽样是抽样调查本身 目的的需要。 原因四:如果某些总体的各个子总体之 间的差异不大。
抽样技术第七章整群抽样ppt课件

11
三、群内相关系数与设计效应
群内相关系数
c
E(Yij Y E(Yij
)(Yik Y Y )2
)
上式中的分子为
NM
(Yij Y )(Yik Y )
i1 jk
NM (M 1) 2
12
上式中的分母为
NM
i1
(Yij Y )2
j 1
NM
1S2
1N
1N
Y
M0
i1
Yij
j 1
M0
Yi
i1
M0
M iYi
i1
21
二、按简单随机抽样抽群
1.简单估计 2.比估计 3.总体比例的估计
22
1.简单估计
在大多数情形,群大小Mi是不相等的。此时,若Mi 相差不多,则仍可按§7.2中的方法处理,用平均群
大 则小这种M方法N1精iN1度M较i 差代。替M。反之,若Mi相差较多,
n
1 n
n 1 i1
yi y 2
1 f nM
sb2
其中f=n/N为抽样比。可见,sb2 是Sb2的无偏估计。
8
当n足够大时,总体均值Y 的置信度为1−α的置信区 间为:
y u 2s y
例7.1 在一次某城市居民小区居民食品消费量调查 中,以每个楼层(相当于居民小组)为群进行整群抽 样。每个楼层都有M=8个住户。用简单随机抽样在 全部N=510个楼层中抽取n=12个楼层。全部96个 样本户人均月食品消费额yij及按楼层的平均数yi 与 标准差si ,如下表所示。试估计该居民小区人均食 品消费额的户平均值 ,并给出其0.95的置信区间。
抽样技术第七章整群抽样ppt课件

NM
NM
故有 可推得
NM
2
(Yij Y )(Yik Y )
c
i1 jk
(M 1)(NM 1)S 2
c
1
NMSw2 (NM 1)S 2
1
Sw2 S2
13
ρc可估计为
ˆc
sb2
sb2 (M
sw2 1) sw2
y 的方差可写成如下形式:
《抽样技术》第七章
1
第七章 整群抽样
§7.1 概述 §7.2 群大小相等的情形 §7.3 群大小不相等的情形 §7.4 按与群大小成比例的不等概率抽样抽群
2
§7.1 概述
设总体由N个大单元,即初级单元组成,每个初级 单元又由若干个较小的次级单元或二级单元组成。 从总体中按某种方式抽取n个初级单元,观测其中所 包含的所有次级单元。这种抽样称为整群抽样。确 切地说,应称为单阶整群抽样。
1N N 1 i1
Yi Y
2 1 f nM
Sb2
s2 y 1 f
n
1 n
n 1 i1
yi y 2
1 f nM
sb2
其中f=n/N为抽样比。可见,sb2 是Sb2的无偏估计。
8
当n足够大时,总体均值Y 的置信度为1−α的置信区 间为:
y u 2s y
例7.1 在一次某城市居民小区居民食品消费量调查 中,以每个楼层(相当于居民小组)为群进行整群抽 样。每个楼层都有M=8个住户。用简单随机抽样在 全部N=510个楼层中抽取n=12个楼层。全部96个 样本户人均月食品消费额yij及按楼层的平均数yi 与 标准差si ,如下表所示。试估计该居民小区人均食 品消费额的户平均值 ,并给出其0.95的置信区间。
统计学原理第七章 抽样调查

合
计
x A 2 x A ( d ) f ( d )f d σ f f
2
256 72 σ 50 11504 50 53.63 200 200
2
30
第三节 全及指标的推断
一、全及指标的点估计
22
不具有某一标志的单位数用N0表示。 ► 总体成数和标准差与样本成数和标准差的计 算方法相同。只是总体指标用大写字母表示, 样本指标用小写字母表示。例如: ► 具有某一标志的单位数占总体的比重:
N1 P N
总体成数
n1 p n
样本成数
不具有某一标志的单位数占总体的比重:
N0 Q 1 P N
13
► 2.
(二)中心极限定律 ► 1. 独立同分布中心极限定理:证明不论变量 总体服从何种分布,只要它的数学期望和方 差存在,从中抽取容量为n 的样本,则这个 样本的总和或平均数是个随机变量,当n 充 分大时,样本的总和或平均数趋于正态分布.
► 2.
德莫佛-拉普拉斯中心极限定理:证明属性 总体的样本成数和样本方差,在n足够大时, 同样趋于正态分布。
σ N n σ n μx ( ) μx (1 ) n N 1 n N
2 2
总体单位总数
样本单位总数
抽样比例
21
(一)抽样成数的抽样平均误差μp ► 属性总体的标志值是用文字表示的,且标志 只有两个取值,非此即彼,故将属性总体的 标志称为“交替标志”或“是非标志”。 ► 交替标志也可以计算平均数(即成数)和标 准差。为了计算交替标志的平均数和标准差 必须将交替变异的标志过渡到数量标志。 ► 交替标志仍以x表示,设:x =1表示单位具有 某一标志, x = 0表示单位不具有某一标志。 具有某一标志的单位数用N1表示;
《统计学原理》课件第七章抽样调查

第二节 抽样调查的基本概念
全及总体(总体) 样本总体(样本)
几组基 本概念
重复抽样 不重复抽样
大数定律 中心极限定理
4 -7
研究对象
抽 取 方 法
重复考虑顺序 不重复不考虑 顺序
研
究 原
总体分布 样本分布 抽样分布
理
一、全及总体和样本总体
全及总体:也称总体。指所要认识对象的全体。 用N表示有限总体的单位数,称总体容量。
m
lim p n
n
p
ε
1
贝努大数定律对于抽样调查的意义:
从理论上解释了用频率代替概率的理论依据, 即随着抽样单位数n的增加,事件A发生的频率接近 于事件A发生的概率。
4 - 18
大数定律特点
大数定律论证了抽样平均数趋近于总体平均 数的趋势,这为抽样推断提供了重要依据。 但是:
抽样平均数和总体平均数的离差究竟有多大? 离差的分布状况怎样? 离差不超过一定范围的概率究竟有多少?
(二)抽样成数的抽样平均误差
重复抽样: 不重复抽样:
p
p1 p
n
p
p1 p 1 n
n N
说明:实际应用中,平均数和成数的标准差一般是 未知的,通常采用如下方式解决 (1)用过去调查的资料 (2)样本方差的资料代替总体方差 (3)用小规模调查资料 (4)用估计材料
4 - 30
【进上例行者】测为试合某(1,格灯)平资品泡均料,厂使如计对用下算10时。这00按批0间个质灯:x产量泡品规的进定时x行ff,间寿灯抽命2泡样12检10使平40测0用均0,寿误随1命差0机5在和7(抽小1合0取时格002)率小%样的时本平以
按照随机原则 从调查对象中抽取一部分单位进行 观察,并运用数理统计的原理,以被抽取的那部分 单位的数量特征为代表,对总体做出数量上的推断 分析
第七章抽样

第七章抽样一、抽样与抽样调查抽样:是一种选择调查对象的程序和方法。
抽样调查:就是从研究对象的整体中选出一部分代表加以调查研究,然后用所得结果推论和说明总体的特征。
优点:社会学中第一次采用抽样方法的调查是A.L.Bowleg于第一次世界大战前在英格兰和威尔士所做的五城镇调查。
二战后,随着计算机技术的发展抽样调查法得到迅速推广,目前已成为社会调查的主流。
与整体调查(普查)比,抽样调查具有下列优越性。
第一、调查费用低。
抽样调查由于调查的仅仅是整体的一部分,因此,所需费用较整体调查低。
例如,我国第三次人口普查,动用普查人员710万,正式调查期间还动员了1000万干部群众参加,耗资约4亿元。
第二、速度快。
时间往往是最重要的,特别是某些社会现象需要及时了解,随时掌握。
第三、范围广。
由于上述两个特点,抽样调查可广泛用于各个领域,各种课题。
第四、可获得内容丰富的资料。
普查通常只了解少量项目,无法进行深入分析。
例如人口普查,我国1953年的第一次人口普查,只有姓名与户主的关系、性别、年龄、民族、住址六个项目,1982年的第三次人口普查,调查项目也只增加到19个。
第五、准确性高。
整体调查往往需要大批访问员,而这些访问员,有许多是缺乏经验和专业训练的,这往往会降低调查质量。
4、注意事项:抽样调查的成功首先要求所选取的样本能够代表总体,所谓代表性就是说,所选取的样本从调查要研究的总体特征看,能再现总体的结构。
在社会研究中,任何个体之间都存在着差异,任何部分都无法完全代表总体,因此,无论采用什么样的选取部分的方法,无论做得多么仔细,没有也不可能抽出毫无偏差的代表总体的所有特点和关系的样本。
这也就是说,在用样本来概括总体时,总要有误差,它的大小可以反映出样本代表性的高低。
对于研究人员来说,重要的不是没有误差,而是能知道误差的大小和控制它的大小。
有两个因素可以减少抽样误差。
首先,大样本比小样本产生的误差小。
其次,从同质的总体中抽取样本比从异质总体中抽取样本所产生的抽样误差要小。
第七章 抽样调查

数据计算出样本均值(平均耐用时间)
x=1055小时,样本成数(合格率) p=91% 依据样本统计量可以对总体参数进行估 计(估计方法将在第三节介绍)。
六、抽样推断的基本原理
样本指标 1、理论基础: 大数定律 中心极限定理 2、抽样估计的基本要求:
无偏性、有效性、一致性
总体指标
第二节 抽样组织方式
对无限总体不能采用全面调查。
另外,有些产品的质量检查具有破坏性,不可能进行全面调
查,只能采用抽样调查。 从理论上讲,有些现象虽然可以进行全面调查,但实际上没 有必要或很难办到,也要采用抽样调查
抽样调查可以用于工业生产过程的质量控制。
三、抽样推断的内容
(一)参数估计。特点是不知道总体的数量特征,
X
x
2
K
p
P p
K
2
抽样平均数平均误差的计算公式:
采用重复抽样:
x
n
此公式说明,抽样平均误差与总体标准差成正 比,与样本容量成反比。(当总体标准差未知 时,可用样本标准差代替)
例:假定抽样单位数增加 2 倍、0.5倍时, 抽样平均误差怎样变化?
解:抽样单位数增加 2 倍,即为原来的 3 倍
1 则: x 0.577 3n 3
即:当样本单位数增加2倍时,抽样平均误差为原来的0.577倍。 抽样单位数增加 0.5倍,即为原来的 1.5倍
则:
1 x 0.8165 1.5n 1.5
即:当样本单位数增加0.5倍时,抽样平均误差为原来的0.8165 倍。
例:某施工班组5个工人的日工资分别为:34、38、
例:
某厂生产一种新型灯泡共2000只,随机抽出400只作耐 用时间试验,测试结果平均使用寿命为4800小时,样 本标准差为300小时,求抽样推断的平均误差? 已知:
第7章抽样

随机抽样技术的优缺点
(1) 优点 ①随机抽样是从总体中按照随机原则抽取一部分单位进行的 调查。 ②随机抽样技术能够计算调查结果的可靠程度。 (2) 不足 ① 对所有调查样本都给予平等看待,难以体现重点。 ② 抽样范围比较广,所需时间长,参加调查的人员和费用多。 ③ 需要具有一定专业技术的专业人员进行抽样和资料分析。 一般调查人员难以胜任。 ④抽样框难以构建。 ⑤比其他概率抽样精确度低,标准差较大。 30
24
1.简单随机抽样 • 又称纯随机抽样,即对总体单位不进行任何分组 排列,仅按随机原则直接从总体中抽取样本,以 使总体中的每一个单位均有同等的被抽取的机会。
• 这是最基本,最简单的的机率抽样方法。它易于 理解,样本结果可以推断总体,大多数统计推论 方法都假定数据是由简单随机抽样法法获得的。
25
1.简单随机抽样 • 每个单位被选取的机会是相同的。就好像把各个 单位的名字写在大小相同的纸上,放到一个箱子 中,由我们抽取,每个个案都有被抽到的可能, 而且机会相同。如平日常见的摸彩或摇奖,在数 学上则会利用随机数表来抽取样本。
第七章
抽样
1
本章的学习目标 一、抽样的概念
二、抽样的基本过程
三、概率抽样
四、非概率抽样
五、样本量的确定
六、 PPS抽样简介
七、 KISH表的运用
2
一、抽样的概念
3
(一)什么是抽样?
• 抽样就在我们的日常生活中。抽血化验,尝试水 温,窥一斑而知全豹。
• 抽样,就是从研究总体中抽取一部分的过程。 • 抽样调查,就是从研究总体中抽取一部分代表加 以调查研究,然后用所得结果推论和说明总体的 特性。这也称为推论统计。
2.等距抽样
• 又称系统抽样或机械抽样。 • 具体做法: • 1)将总体的所有单位按一定顺序排列起来; • 2)计算抽样间隔R=N/n;
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2、拉希里法(二次抽取法,Lahiri,印度)
• 设总体单元数为N,单元规模为Mi,记: ◎ 在1-N范围内产生一个随机数,设为j; ◎ 在1-M*范围内的随机数m • 如果m<=Mj,则第j个单元为被抽中的样本单元; 如果m>Mj,则第j个单元未被抽中。 此时需要重复上述步骤,另行抽取一组【j,m】。直到抽满n 个样本单元为止。
◎在不能直接对基本的较小单元抽样的情形下,与其它抽样结 合,完成对大的单元的抽样
• 在上述情形下,不等概率抽样的主要优点是可以大大提高估计 的精度,较少抽样误差。
• 一个必要的约束条件是对总体的每一个单元,都要已知一个辅 助变量用于确定其入样概率或两个单元同时入样的概率
三、不等概率抽样的分类
• 不等概率抽样有很多,布鲁尔与哈尼夫在1983年专著《不等概 率抽样》中曾列举了50多种方法。不过真正常用的在10种左右
§7.2 放回不等概率抽样
一、多项抽样与PPS抽样 二、PPS抽样的实施 三、PPS抽样的估计
一、多项抽样与PPS抽样
• 设总体包含N个单元,对其进行放回抽样。设在每次抽样中, 抽到第i个单元的概率为Zi(i=1,2,…,N), 独立进行n次这种抽样,共抽到n个单元(有可能重复),则称 这种不等概率抽样为多项抽样(multinominal sampling) • 特别地,当总体中每个单元具有一个说明其“大小”或“规模”的 度量Mi时,则可将每个单元的入样概率取为:
◎分层抽样:按规模分层,大型抽样比高、小型抽样比低 ◎目录抽样:少数大单元普查而大多数小单元进行抽样 ◎不等概率抽样
• 不等概率抽样(sampling with unequal probability)是指在抽 取样本之前给总体中的每一个单元赋予一定的入样概率,从而 保证大的(重要的)单元抽到的概率大,而小的(不重要的) 的单元抽到的概率小。这里每个单元被赋予的入样概率通常与 某个辅助变量有关(比如单元规模等)
※ 估计量的性质 • 汉森-赫维茨估计量是总体总和的无偏估计: • 汉森-赫维茨估计量的方差为:
• 当n>1时,这一方差的无偏估计为:
证明:设随机变量 且:
则:
是n次独立观测值yi/zi的样本平均数 则由数理统计(放回简单随机抽样),有:
而样本方差:
是
的无偏估计
从而:
• 【例5.4,P169; 例5.5,P171】
• 这些方法按其实施方法或特性可以分成许多不同的类型
◎按抽样过程中被抽到的单元是否被放回总体而分为放回抽样和 不放回抽样。常用的是放回抽样。
◎按单元的入样概率是否严格地与单元大小成比例,还有最终杨 本量n是固定还是随机的。
◎不放回的抽样,按样本单元抽取方式还可以分为逐个抽取法、 重抽法、系统抽取法等等。
三、PPS抽样的估计
• 对于放回不等概率抽样,对于总体总量Y,汉森-赫维茨提出 如下估计量(Hansen-Hurwitz,1943):
• 特别地,对PPS抽样: 有:
• 意义:将Y理解为商店销售额,度量M理解为商店人数,则: 第i个样本商店的人均销售额。 所有样本商店的人均销售额的平均。 所有商店的销售总额
第七章不等概率抽样
2ቤተ መጻሕፍቲ ባይዱ20年4月23日星期四
第七章 不等概率抽样
§7.1 概述 §7.2 放回不等概率抽样 §7.3 不放回不等概率抽样*
§7.1 概述
一、不等概率抽样的提出与含 义 二、不等概率抽样的使用和优 点 三、不等概率抽样的分类
一、不等概率抽样的提出与含义
• 前述概率抽样方式,具有“等概率” 的特点。 ◎简单随机抽样下总体中每一个单元的入样概率均相等 ◎分层随机抽样下,层内每一个单元的入样概率均相等 ◎特别地,按比例分配的分层随机抽样对于总体中每一个单元 的入样概率均相等
#总体均值的估计 • 基于汉森-赫维茨总和估计量基础上的总体均值的估计量为:
• 方差: • 方差估计:
§7.3 无放回不等概率抽样
一、包含概率与πPS抽样 二、πPS抽样的估计 三、πPS抽样的实施
一、包含概率与πPS抽样
• 放回不等概率抽样中,每个单元的入样概率Zi是关键 • 不放回不等概率抽样中,每个单元被包含到样本的概率πi及 任意两个单元都包含到样本的概率πij都起着重要的作用,它 们统称为包含概率(inclusion probability)
• 不等概率抽样是抽样理论发展的产物。
◎代表性抽样:主观、有意识的抽样
◎等概率的随机抽样:每个单元平等
◎分层抽样:不同层不等概率,但层内等概率
◎不等概率抽样:单元具有不等地位
二、不等概率抽样的使用和优点
• 不等概率抽样通常用于以下三种情况: ◎需要估计总体总量但总体单元规模相差很大的情况
◎抽样审计
• 等概率抽样的基本出发点是将总体(或层)中的每一个单元看 作是平等的,不“偏向”也不“疏远”某些特定的单元
• 如果总体单元差异不大,这种方式既简单也合理
• 但是如果总体单元相差较大,等概率抽样效果不一定好 ◎例如估计昆明市商业零售总额,大型商场、中型超市和小型
商店的差别非常明显,平等对待显然不合理 • 对这一情况,处理方式有多种:
此时每个单元在每次抽样中的入样概率与单元大小成比例,称 这种特殊的多项抽样为与大小成比例的概率抽样(sampling with probability proportional to size),简称PPS抽样。
二、PPS抽样的实施
1、代码法(累积总和法,汉森-赫维茨法,1943)
• 设总体有N个单元,其规模度量为Mi,不妨设Mi为整数(否则 可以乘以一个常数使其成为整数)。记Mi之和为M0,则可以设 置M0个代码,其中第i个单元相应的有Mi个代码。其代码的具 体范围可以采用累积方法获得。具体而言:第1个单元拥有代码 1-M1,第2个单元拥有代码M1+1-M1+M2,……,第i个单元 拥有代码:
•设总体容量为N,样本量n(固定),包含概率具有以下性质:
◎所有N个单元的入样概率之和为n,即: