第七章 不等概率抽样(抽样调查理论与方法北京商学院李平)PPT课件
合集下载
样本的确定 -非概率抽样.ppt

• 7.3.2约定式方法
• --认为某一个约定或某一个数量就是正确的样本量, 如1000-2000名调研者。但可能忽略了与所要进行的 研究相关的情况,而且往往进行研究所花费比使用正 确的样本容量要高的多。
• 7.3.3成本基础法
• 将成本作为确定样本容量的基础。
• 7.3.4 统计分析法
• ----一般地在大样本概率抽样中,不超过2000的样本 就可以代表无限大的总体
✓ --等比例类型抽样 ✓ --不等比例性抽样;大学教育质量的评价:一般地大
四的学生的评价最为稳定或相似,而一年级新生的 评价则可能最不一致。因此四年级的学生少抽,新 生则多抽。
7.1.5 整群抽样
• ----分群原则: • 扩大群间差异,减少群内差异 • ----缺点:相对于简单抽样,整群抽样抽样误差较,抽
7.2.1便利抽样
• 顾名思义,便利抽样是因为便利。 • 例如,一家食品公司的研发部门可能经常让员工对其开发
的新产品进行初步测试。固然这个方法看上去有很大的偏 差,然而他们不要求雇员评估现有的产品或与竞争对手的 产品进行比较。他们要求雇员提供总的感觉如成色、脆度、 油腻度等。 • 在类似情况下,便利抽样是获取必要信息的有效而实用的 方法。在进行试探性调研时,既缺乏经验而又急需真实数 据的近似值时,这种方法很实用。
谢谢观赏
You made my day!
我们,还在路上……
样估计精度低。因为整群抽样抽样单位相对集中,在 总体中分布不太均匀,对总体的代表性差一些。
7.2 非概率抽样
• 含义:指总体中的成员被选为样本的概率是未知的。 • 一般而言,任何不满足概率抽样要求的抽样都被归
为非概率抽样,非概率抽样的缺点是不能计算抽样 误差,这意味着评估非概率抽样的总体质量有很大 的困难。
统计学课件-第七章抽样调查

分层抽样特点
03
04
05
适用于总体内部差异较 大的情况,能够提高样 本的代表性。
可以根据各层的具体情 分层抽样能够降低抽样 况采用不同的抽样方法, 误差,提高估计的精度。 灵活性强。
分层标准选择与确定
选择分层标准的原则
各层之间具有明显的 区分度,避免出现重 复或遗漏。
与调查目的密切相关, 能够反映总体内部差 异的标志。
3
灵活性高,可以在不同阶段采用不同的抽样方法 和技术。
多阶段抽样优缺点分析
• 节约成本,减少调查人员和资源的需求。
多阶段抽样优缺点分析
抽样误差可能增加
01
由于多阶段抽样的复杂性,可能导致抽样误差的增加。
对抽样设计的要求较高
02
需要仔细设计和规划每个阶段的抽样方法和样本量分配,以确
保抽样的有效性和代表性。
抽样调查作用
抽样调查虽然是非全面调查,但它的目的却在于取得反映总体情况的信息资料, 因而,也可起到全面调查的作用。
抽样方法与类型
抽样方法
简单随机抽样、系统抽样、分层抽样和整群抽样。
抽样类型
概率抽样和非概率抽样。
抽样误差与置信水平
抽样误差
是指由于随机抽样的偶然因素使样本各单位的结构不足以代 表总体各单位的结构,而引起抽样指标和全局指标的绝对离 差。
成本考虑
当总体差异较大时,简单随机抽样的 精度可能受到影响。
对于大规模调查,简单随机抽样可能 需要较高的成本。
实施难度
在某些情况下,获取完整的抽样框可 能较为困难。
03 分层抽样技术及应用
分层抽样原理及特点
01
02
分层抽样原理:将总体 按照某种特征或标志分 成若干层,然后从每一 层中随机抽取一定数量 的样本,最后将这些样 本合并起来构成总体的 样本。
抽样调查-不等概抽样培训课程模板ppt

11
738
累计
M
×10
i
6
151
166
303
381
531
631
667
727
738
__
代码
1~6 7~151 152~166 167~303 304~381 382~531 532~631 632~667 668~727 728~738
__
返回
先在[1,738]中产生一个随机数为354,再 在[1,738]中产生第二个随机数为553,最后 产生第三个随机493。则它们所对应的第5, 7,6号单元被抽中。
返回
§5.2 放回不等概抽样
一、只抽取一个样本单元(n=1)的不等概抽样
为了便于了解不等概抽样的基本思想,我们先看 一个总体已知,只抽取一个样本单元的例子。
【例】一个城市有四个超市营业面积从100平方米 到1000平方米不等(见下表),我们的目标是通过抽 取一家超市来估计这四个超市上个月的总营销量。通 常超市面积越大则销售量越大,因此,我们选择的入 样概率与超市的营业面积成正比。
(1)逐个抽取法。每次从总体未被抽中的单元中 以一定的概率取一个样本单元。
(2)重抽法。以一定的概率逐个进行放回抽样, 如果抽到重复单元,则放弃所有抽到的单元,重新抽取。
(3)全样本抽取法。对总体每个单元分别按一定 概率决定其是否入样。这种方法的样本量是随机的,事 先不能确定。
(4)系统抽样法。将总体单元按某种顺序排列, 根据样本量确定抽样间距k,在[1,k]中产生一个随机数。
(3,121), M 3 =15< m121, 舍弃,重抽;
(8,50), M 8 =36< m50, 舍弃,重抽;
(7,77), M 7 =100≥ m77,第7号单元入样;
抽样技术之不等概率抽样概述ppt(67张)

不等概率抽样的分类
放回不等概抽样:按照总体单元的规模大小来确定在每次抽 中的概率。抽取后放回总体,再进行下一次抽样,每次抽
样都是独立的。这种抽样称为放回不等概抽样(sampling with probabilities proportional to sizes,简称PPS抽样)
• 不放回的不等概抽样:每次在总体中对每个单元按入样概 率进行抽样,抽出的样本不再放回总体,因此,在抽取了 第一个单元后,余下的单元再以什么概率被抽取就较复杂。 这种抽样不是独立的,无论是抽样方法还是方差估计,都 要比放回抽样繁复得多。不放回抽样通常称为πPS抽样。
7
10
100
631 532~631
8
3.6
36
667 632~667
9
6
60
727 668~727
10
1.1
11
738 728~738
=73.8
738
假设在[1,738] 中等概产生第一个随机数为354,再在[1,738]中产生第二 个随机数为553,最后在[1,738]中产生第三个随机数为493,则它们所对 应的第5,7,6号单元被抽中。
不等概率抽样的特点
1、凡需使用不等概率抽样的场合,必须提供总体单 元的某种辅助信息。 例如:每个单元的“大小”度量Mi。注意:比估计 和回归估计是估计方法用到了辅助信息,本章是抽 样方法用到辅助信息.
2、不等概率抽样的主要优点是由于使用了辅 助信息,提高了抽样策略的统计效率, 能 显著地减少抽样误差。
例5.1 设某个总体有10个单元,相应的单元大小及其代码 数如下表,在其中产生一个n=3的样本。
i
Mi
Mi*10
累计
代码
第七章 不等概率抽样(抽样调查理论与方法-北京商学院,李平)

2 Z i (7.19)
1 1 ij 2 Z i Z j ( ) D 1 2Zi 1 2Z j 1 1 Zi Z j ( ) D 1 2Zi 1 2Z j
(7.20)
Durbin方法中的 i , ij 与Brewer方法中的 i , ij 完全一样 这表明两种不等概率抽样方法其实是等价的。
既然是不等概率抽样,那么就应该在抽样之前给总体中 的每一个单元赋予一定的抽取概率,在放回抽样的每一次抽 取中,设第 i 个单元入样的概率为 Z i (0 Z i 1, i 1, 2, , N ) N 且 Z i 1,按此规定有放回地独立抽取 n 次,形成所谓 i 1 的多项抽样。
(7.6)
(7.7)
§2
不放回的不等概率抽样
上一节讲述了有放回不等概率抽样,无论从实施上还是 从估计计算以及精度估计都显得十分方便。但是,一个单元 被抽中两次以上总会使样本的代表性打折扣,从而引起抽样 误差的增加。因此,实际调查工作者一般倾向于使用不放回 形式。
最简单的不放回不等概率抽样方式自然会想到逐一抽样 这在第一次抽样时不会发生问题,但在抽第二个样本时面临 的情况与有放回时大不相同,余下的 ( N-1 ) 个单元以什 么样的概率参与第二次抽样就是个问题;再在抽第三个样本 时又面临新问题,如此下去,一是抽样实施的复杂,二是估 计量及其方差计算的复杂,因此,在本节仅讨论 n固定,尤 其是n=2时的情形。同时,我们只对使总体中每个单元的入 ps 样概率严格地与其“大小”成比例感兴趣,这就是所谓的 抽样。
i
1 2 3 4 5 6 7 8
Mi
30 M i
累计
代码
2/5 1/2 2/3 4/3 8/5 3/5 2/3 1
第七 抽样与抽样估计PPT课件

有某种特征的单位x数 服从二项分布x,即B(有n P
~ E(X,) n),P 且有V (X ) nP(1 P) ,
p x/n
因此样本比例
也服从二项分布,且有:
E( p) E( x) 1 E(x) P nn
x1
1
V ( p) V ( ) V (x) P(1 P)
n n2
n
n nP n(1 P)
若希望抽样估计有较高的精确度,即置信区间范 围缩小,则必须降低估计的把握度。
即:抽样估计要求的把握度越高,则抽样允许误 差越大,精确度越低;反之则相反。
n
N
第14页/共59页
抽样极限误差
①样本平均数的抽样极限误差:以绝对值形式表
示的样本平均数的抽样误差的可能范围,用符号表示
为:
x x
即: x
x
x
说明样本均值以确定的总体均值为中心,在 x
之间变动。在实际抽样估计中是以样本均值推断总体
均值的区间范围,因此,可将上述不等式做如下变换:
代表性误差:以样本指标推断总体指标时产 生的代表 性程度的差异。
偏差/系统误差:由于 破坏随机原则而产生
随机性误差/抽样误差**:即 使遵循随机原则以样本指标 代表总体指标时的偏差
第10页/共59页
(六)抽样误差
2.抽样误差
抽样误差是指不包括登记性误差和系统性误差在内的随机误差,它衡 量了抽样估计的精确度。
样本容量:样本中的单位数,用n表示 大样本和小样本:n≥30时称大样本,n<30称小样本
**应用:在班级40名学生中随机选取15人进行健康 状况调查,说明其中的总体、样本及容量
第4页/共59页
二、抽样及抽样估计中的相关概念
抽样技术7不等概率抽样69页PPT

抽样技术7不等概率抽样
16、人民应该为法律而战斗,就像为 了城墙 而战斗 一样。 ——赫 拉克利 特 17、人类对于不公正的行为加以指责 ,并非 因为他 们愿意 做出这 种行为 ,而是 惟恐自 己会成 为这种 行为的 牺牲者 。—— 柏拉图 18、制定法律法令,就是为了不让强 者做什 么事都 横行霸 道。— —奥维 德 19、法律是社会的习惯和思想的结晶 。—— 托·伍·威尔逊 20、人们嘴上挂着的法律,其真实含 义是财 富。— —爱献 生
56、书不仅是生活,而且是现在、过 去和未 来文化 生活的 源泉。 ——库 法耶夫 57、生命不可能有两次,但许多人连一 次也不 善于度 过。— —吕凯 特 58、问渠哪得清如许,为有源头活水来 自己的 无知。 ——笛 卡儿
拉
60、生活的道路一旦选定,就要勇敢地 走到底 ,决不 回头。 ——左
16、人民应该为法律而战斗,就像为 了城墙 而战斗 一样。 ——赫 拉克利 特 17、人类对于不公正的行为加以指责 ,并非 因为他 们愿意 做出这 种行为 ,而是 惟恐自 己会成 为这种 行为的 牺牲者 。—— 柏拉图 18、制定法律法令,就是为了不让强 者做什 么事都 横行霸 道。— —奥维 德 19、法律是社会的习惯和思想的结晶 。—— 托·伍·威尔逊 20、人们嘴上挂着的法律,其真实含 义是财 富。— —爱献 生
56、书不仅是生活,而且是现在、过 去和未 来文化 生活的 源泉。 ——库 法耶夫 57、生命不可能有两次,但许多人连一 次也不 善于度 过。— —吕凯 特 58、问渠哪得清如许,为有源头活水来 自己的 无知。 ——笛 卡儿
拉
60、生活的道路一旦选定,就要勇敢地 走到底 ,决不 回头。 ——左
概率抽样和非概率抽样概率抽样PPT精选文档

,写上1-10000号,从中随机(或按随机数
)抽取200张,被抽中的居民即为样本。
42
特点
简单、直观 对参数进行估计比较方便
局限性
当总体量很大时,不易构造抽样框 抽出的单位很分散 没有利用其它辅助信息
43
分层抽样
将抽样单位按某种规则划分为不
同的层,然后从不同的层中独立、随机地
抽取样本。
重点调查
总体单位
调查单位
只调查重点单位(单位 数不多但其标志量占标 志总量比重较大的单位)
32
统计调查的组织方式
在对调查对象有一定了解的基础上,
典型调查 有意识地选择少数典型单位 进行
调查的一种非全面调查组织方式
一定条件下能估计总体指 作 标数值 用 可以补充全面调查的不足
可以用来研究新生事物
局 不能确定推断的把握程度, 限 无法计算和控制推断误差
数值型数据表示事物的数量特征,定量数 据或数量数据(qualitative data)。
对不同类型的数据,采用的统计方法可能 有所不同 。
10
4、截面数据(cross-sectional data)
在相同或近似相同的时间点上收集的数 据
描述现象在某一时刻的变化情况 比如,2002年我国各地区的国内生产总
51
系统抽样
定义:将个体按一定顺序排列,在规定的 范围内随机地抽取一个单位作为初始单位 ,然后按事先规定好的规则确定其它样本 单位
优点:操作简便
缺点:对总体参数的估计比较复杂
52
系统抽样的步骤
(1) 将总体单位排列。
(2) 决定抽样间距(总体单位数/样本数)。
(3) 采用简单随机抽样法抽出一个单位作为起点 。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
且 E(yHH)Y ,即 y H H 是总体总和 Y 的无偏估计。
Var(yHH)n 1iN 1Zi(Y Zii Y)2
(7.6)
Var( yHH ) 的无偏估计为
v(yH H)n(n 11)i n1(z yii yH H)2
(7.7)
8
§2 不放回的不等概率抽样
上一节讲述了有放回不等概率抽样,无论从实施上还是 从估计计算以及精度估计都显得十分方便。但是,一个单元 被抽中两次以上总会使样本的代表性打折扣,从而引起抽样 误差的增加。因此,实际调查工作者一般倾向于使用不放回 形式。
7
2、Hansen-Hurwitz (汉森—赫维茨)估计量
若 y1, y2, , yn是按 Z i为入样概率的多项抽样而得的样 本数据,它们相应的 Z i 值自然记为 z1,z2, ,zn ,则对总
体总和, Hansen-Hurwitz 给出了如下的估计量:
yHH
1 n
n i 1
yi zi
(7.4)
最简单的不放回不等概率抽样方式自然会想到逐一抽样 这在第一次抽样时不会发生问题,但在抽第二个样本时面临 的情况与有放回时大不相同,余下的 ( N-1 ) 个单元以什 么样的概率参与第二次抽样就是个问题;再在抽第三个样本 时又面临新问题,如此下去,一是抽样实施的复杂,二是估 计量及其方差计算的复杂,因此,在本节仅讨论 n固定,尤 其是n=2时的情形。同时,我们只对使总体中每个单元的入
例如,要了解上海地区钢铁企业的景气状况,总体有上 钢一厂、三厂、五厂……等等,再加上宝钢。由于宝钢规模 极大,它是否景气对整个上海地区钢铁工业起着至关重要的 作用。而在抽样中将它与其它规模较小的单位处于同等地位 就会既不公正又使抽样推断结果有较大可能发生大的偏差。 这个例子提示我们,若对总体单元进行不等概率抽样,使得 “大”单元入样概率大,“小”单元入样概率小,这里的“ 大”、“小”与我们所关心的调查指标有着密切的关系。
(1)代码法 它适合于 N不太大的情形。假定所有的 M i 为整数,倘若 在实际中存在 M i 不是整数的话,则可以乘以一个倍数使一切 M i为整数(对一般的多项抽样,也总可找到整数 M 0 ,使一切
M 0 Z i成为整数)。对于具整数 M i的第 i 个单元赋予一个与 M i
相等的代码数,见表7—1。
既然是不等概率抽样,那么就应该在抽样之前给总体中
的每一个单元赋予一定的抽取概率,在放回抽样的每一次抽
取中,设第
且
N
i1
Zi
1
i 个单元入样的概率为 Z i(0Z i 1 ,i 1 ,2 , ,N )
,按此规定有放回地独立抽取 n 次,形成所谓
的多项抽样。
2
假设第 i 个单元在 n次抽样中被抽中 t i 次,则(t1,t2, ,tN)
5
例7.1 设某总体共有N=8个单元,相应 M i及代码如表所示
i
Mi
30 Mi
累计
代码
1
2/5
12
12 1~12
2
1/2
15
27 13~27
3
2/3
20
47 28~47
4
4/3
40
87 48~87
5
8/5
48
135 88~135~153
7
2/3
20
173 154~173
商店销售额等,或者感兴趣的调查指标在上一次普查时的数
据也可以作为其单元大小的一种度量。记 M 为i 第 i 个单元的
“大小”,并记M0
N
i 1
Mi
3
则可取 Zi Mi M0
此时多项抽样体现了每次抽样时单元的入样概率与单元的大 小成比例,即为pps抽样。
多项抽样是最简单的不等概率抽样,它的实施方法通常 有两种,以pps抽样为例。
1
不等概率抽样又分为有放回与无放回两种情况。我们最 关心也是最重要的情形是抽样容量 n固定时,单元入样的概 率(不放回抽样)或每次抽样的概率(有放回抽样)与单元
的大小严格成比例。这种情况下的有放回抽样称为 p p s 抽样
不放回抽样称为 p s 抽样。
§1 放回的不等概率抽样
1、多项抽样、 p p s 抽样及其实施方法
每次抽取 1~N 中一个随机整数 i 及 1~M *内一个随机整数 m ,如果M i m ,则第 i 个单元入样;若 M i m,则按前面 步骤重抽 ( i , m ) ,显然,第 i 个单元的入样与否受到m 的影 响,只有 M i m时它才入样,因此第 i 个单元入样的概率与
M i的大小成正比,此时 Zi Mi M0
是一个随机向量,其联合分布为:
n! t1!t2!
tN!Z1t1Z2t2
ZtN N
N
ti n
i1
(7.1)
这是我们熟悉的多项分布,多项抽样其名正出于此。
多项分布(7.1)具有如下性质:
V Ea(rti()ti)nZniZi(1Zi) i1,2, ,N Cov(ti,tj)nZiZj ij
倘若单元有一个数值度量其大小,诸如职工人数、工厂产值
第七章 不等概率抽样
到目前为止,我们所讨论的两种抽样方法—简单随机抽 样和分层抽样都有一个共同的特点:总体或层中每个个体被 抽中入样的概率都是相同的。对于各单元所处地位几乎 “ 平等” 的总体,这种抽样原则既公正又方便。但在许多社 会经济活动中并非所有单元地位相同,这时就需要采用不等 概率抽样方法。
8
1
30
203 174~203
M0 203
6
若取 n=3,在1~203中随机有放回地产生3个随机整数,不 妨设为45、89、101,则第 3 个单元入样一次,第 5 个单 元入样 2 次。
(2)Lahiri(拉希里) 方法 当 N 相当大时,累计的 M 0 将很大,给代码法的实施带
来很多不方便。Lahiri提出下列方法:令 M* m 1iaN x{Mi}
4
表7—1
pps 抽样时各单元的代码数
单元 i 单元大小M i
代码数
1
M1
2
M2
1,2, ,M1
M 1 1 ,M 1 2 , ,M 1 M 2
N 1
N 1
N 1
N
MN
M i1, M i2, , M iM NM 0
i 1
i 1
i 1
每次抽样前,先在整数 1,2, , M0里面随机等可能的选 取一个整数,设为m ,若代码 m 属于第 j个单元拥有的代码 数,则第 j个单元入样。整个过程重复 n次,得到 n个单元 入样(当然存在重复的可能性)构成 pps 样本。