抽样调查第3章 不等概抽样

合集下载

抽样技术课后习题答案

抽样技术课后习题答案
1700
12
160
1700
3
170
2000
13
180
2000
4
150
1500
14
130
1400
5
160
1700
15
150
1600
6
130
1400
16
100
1200
7
140
1500
17
180
1900
8
100
1200
18
100
1100
9
110
1200
19
170
1800
10
140
1500
20
120
1300
20
试估计平均每户家庭订报份数及总的订报份数,以及估计量的方差。
解:由题意得到 , , ,
故 (份)
(份)
(份)
于是由以上的计算结果得到平均每户的订报份数为1.875,估计量方差为0.00391875。该辖区总的订阅份数为7500,估计量方差为62700。
4.2
某工业系统准备实行一项改革措施。该系统共有87个单位,现采用整群抽样,用简单随机抽样抽取15个单位做样本,征求入选单位中每个工人对政策改革措施的意见,结果如下:
1
42
6.2
11
60
6.3
2
51
5.8
12
52
6.7
3
49
6.7
13
61
5.9
4
55
4.9
14
49
6.1
5
47
5.2
15
57
6.0

统计学第3章-概率、概率分布与抽样分布

统计学第3章-概率、概率分布与抽样分布
3-15
互斥事件及其概率
(例题分析)

解:由于每一枚硬币出现正面或出现反面的概率 都是1/2,当抛掷的次数逐渐增大时,上面的4个 简单事件中每一事件发生的相对频数 (概率)将近 似等于 1/4 。因为仅当 H1T2 或 T1H2 发生时,才会 恰好有一枚硬币朝上的事件发生,而事件 H1T2 或 T1H2 又为互斥事件,两个事件中一个事件发 生或者另一个事件发生的概率便是 1/2(1/4+1/4) 。 因此,抛掷两枚硬币,恰好有一枚出现正面的概 率等于 H1T2 或 T1H2 发生的概率,也就是两种事 件中每个事件发生的概率之和
解:设 A = 某住户订阅了日报 B = 某个订阅了日报的住户订阅了晚报
依题意有:P(A)=0.75;P(B|A)=0.50
P(AB)=P(A)·P(B|A)=0.75×0.5=0.375
3-31
独立事件与乘法公式
(例题分析)
【例】从一个装有3个红球2个白球的盒子里摸球 (摸出后球不放回),求连续两次摸中红球的概率
3-17
互斥事件的加法规则
(例题分析)
【例】抛掷一颗骰子,并考察其结果。求出其点 数为1点或2点或3点或4点或5点或6点的概率
解:掷一颗骰子出现的点数(1,2,3,4,5,6)共有
6个互斥事件,而且每个事件出现的概率都为1/6 根据互斥事件的加法规则,得
P(1或2或3或4或5或6) P(1) P(2) P(3) P(4) P(5) P(6) 1 1 1 1 1 1 1 6 6 6 6 6 6


合计
从这200个配件中任取一个进行检查,求 (1) 取出的一个为正品的概率 (2) 取出的一个为供应商甲的配件的概率 (3) 取出一个为供应商甲的正品的概率 (4) 已知取出一个为供应商甲的配件,它是正品的概率

社会调查之抽样

社会调查之抽样
抽样单位就是一次直接的抽样所使用的基本单位. 抽样单位有时与构成总体的元素是相同的.
5.抽样框(Sampling Frame)
——抽样框也叫抽样范围是指一次抽样时总体中 所有抽样单位的名单.
6.参数值( Parameter )
也称总体指标值,它是关于总体中某一变量的综 合描述,或者说是总体中所有元素的某种特征 的综合数量表现. 在统计中最常见的参数值时总体某一变量的平均 数, 需要注意的是,参数值只有对总体中的每 一个元素都进行调查或测量才能得到.
2、方便抽样 (Accidental or Convenience Sampling)
——又称任意抽样、偶遇抽样,是指样本的选择完 全根据调查人员的方便来确定,研究者将其在一 定时间内,一定环境里所能遇见或接触到的人均选 入样本的方法 “街头拦截式访问”
特点:
1)假定母体的特性是相同的 2)实施简单,速度较快,比较节省费用 3)抽样误差较大,结果的代表性差,有很大的 偶然性
§2 概率抽样方法
——概率抽样是使总体内的所有个体具有相同的被 抽入样本的概率.这样的样本被称为随机样本.随 机抽样是由等概率地随机抽取的个体所组成.由 于是以概率为依据,所以能避免抽样过程中的人 为误差.保证样本的代表性. 概率抽样可以分为简单随机抽样,等距抽样,分层抽 样,整群抽样,以及多阶段抽样.
3、配额抽样 (Quota Sampling )
——又称定额抽样,是指对母体根据一定标准或某种特性分成 不同群体并事先分配各群体的样本数量,然后再由调查人员 按分配的样本数量在群体内主观地抽取样本 它与分层随机抽样相似,也是按调查对象的某种属性或特征将 总体中所有个体分成若干类或层,然后在各层中抽样,样本中 各层所占的比例与它们在总体中所占的比例一样.但是不同 的是分层抽样中各层子样本是随机抽取的,而定额抽样中各 层的子样本是非随机抽取的.

第三章抽样调查设计习题

第三章抽样调查设计习题

第三章抽样调查设计习题班级学号姓名一.单项选择题:(从下列备选答案中选出1个正确答案,将标号写在题后的括号里)1.我国统计调查方法体系中是以必要的周期性普查为基础,以经常性的()为主体。

A. 重点调查B. 全面报表C. 抽样调查D. 科学推算2.在抽样调查时,对总体不作任何处理,按随机原则抽取调查单位的组织形式称为()。

A.纯随机抽样 B.系统抽样 C.整群抽样 D.分层随机抽样3.在购买力调查中,按收人多少由低至高排列,也可用与调查项目无关的标志为依据,如按户口册、姓名笔划多少排列,然后每隔相等距离抽样,这种抽样方法是()。

A.纯随机抽样 B.系统抽样 C.整群抽样 D.分层随机抽样4.把调查总体分为若干个群体,然后用纯随机抽样法,对抽中群的单位进行全面调查的技术是()。

A.纯随机抽样 B.系统抽样 C.整群抽样 D.分层随机抽样5.把调查总体按其属性不同分为若干层次(或类型),然后在各层(或类型)中随机抽取样本的技术是()。

A.纯随机抽样 B.系统抽样 C.整群抽样 D.分层随机抽样6.如果抽样调查的目的是为了推断总体数值,在抽取样本单位时必须遵守()。

A.随机原则 B.非随机原则 C.系统性原则 D.及时性原则7.在进行概率抽样时,其前提条件是要具备()。

A.较多的调查人员 B.充足的经费 C.固定的样本数 D.抽样框8.调研人员从工作方便出发,在调查对象范围内随意抽选一定数量的样本进行调查,这种抽样方法是()。

A.任意抽样 B.判断抽样 C.配额抽样 D.整群抽样9.抽签法一般用于()方法中。

A.纯随机抽样B. 判断抽样C. 配额抽样D.滚雪球抽样10.抽样调查的主要目的在于()。

A.了解总体的基本情况 B.用样本指标推断总体指标C.对样本进行全面调查 D.了解样本的基本情况二.多项选择题:(在备选答案中选出2~5个正确答案,将标号在题后的括号里)1.下列关于抽样调查正确说法有()。

A、它是一种非全面调查B、按照随机原则选取调查单位C、会存在着抽样误差D、目的在于取得样本指标E、是一种全面调查2.概率抽样的类型主要有()。

概率抽样的五种方法

概率抽样的五种方法

方法播报概率抽样包括有简单随机抽样、系统抽样(等距抽样)、分层抽样(类型抽样)、整群抽样、多段抽样、PPS抽样和户内抽样。

例如:简单随机抽样简单随机抽样是一种广为使用的概率抽样方法。

是最完全的概率抽样。

如前面提到的,随机抽样就是总体中每个单位在抽选时有相等的被抽中的机会。

在简单随机抽样条件下,抽样概率公式为:抽样概率=样本单位数∕总体单位数例如,如果总体单位数为10000 ,样本单位数为400 ,那么抽样概率为4 %。

简单随机抽样的优点在于,它看起来简单,并且满足概率抽样的一切必要的要求,保证每个总体单位在抽选时都有相等的被抽中的机会。

简单随机抽样可以通过电话随机拨号功能完成这个步骤,可以从电脑档案中挑选调查对象。

同样,简单随机抽样会遇到“样本可能分布不均匀”以及“没有好的抽样框”等问题。

友邦顾问在简单随机抽样过程中常使用的技巧为“抽签法”和“随机表”法。

等距抽样在定量抽样调查中,等距抽样常常代替简单随机抽样。

由于该抽样方法简单实用,所以应用普遍。

等距抽样得到的样本几乎与简单随机抽样得到的样本是相同的。

等距抽样的基本做法是,将总体中的各单元先按一定的顺序排列、编号,然后决定一个间隔,并在此间隔基础上选择被调查的单位个体。

样本距离可通过下面公式确定:样本距离=总体单位数∕样本单位数例如,假设你使用本地电话本并确定样本距离为100 ,那么100 个中取1 个组成样本。

这个公式保证了整个列表的完整性。

等距抽样方式随意用一个起点,例如,如果你把一本电话本作为抽样框,必须随意取出一个号码决定从该页开始翻阅。

假设从第5 页开始,在该页上再另选一个数决定从该行开始。

假定选择从第3 行开始,这就决定了实际开始的位置。

等距抽样方式相对于简单随机抽样方式最主要的优势就是经济性。

等距抽样方式比简单随机抽样更为简单,花的时间更少,并且花费也少。

使用等距抽样方式最大的缺陷在于总体单位的排列上。

一些总体单位数可能包含隐蔽的形态或者是“不合格样本”,调查者可能疏忽,把它们抽选为样本。

第三章-简单随机抽样

第三章-简单随机抽样
不放回也称不重复抽样,每次从总体中随机抽取 一个样本单位,经调查观测后,不再将该单位放 回总体参加下一次抽样,然后再在剩下的总体单 位中随机抽取下一个样本单位进行调查观测,直 到抽够n个样本单位为止。
N!
考虑顺序可能的样本为 N n !
每个样本被抽中的概率为 ( N n)! N!


s2 1358.41, v( y) (1 f )s2 / n 37.6444, se( y) 6.1355
对该校大学生某月电信消费人均支出额的估计为 53.64元,在置信度95%下,临界值1.96,可以说以 95%的把握说明该校大学生该月的人均支出在 [53.64+(-)1.96*6.1355],即41.61~65.67元。
n 1
2n
正态近似产生的误差 主要与nP有关,特别 当nP比较小时,产生 的误差甚大,在95% 置信度下,P<0.5时正 态分布需要的最小nP 值与n值如下表。
P
nP
0.5
0.4
0.3
0.2
0.1
0.05
0
n
15
30
20
50
24
80
40 200
60 600
70 1400
80 无穷
试以95%的置信度估计上例大学生月电信消费超 过80元的人数及其比例。
N n S2 N n
nN
为调查某校大学生的电信消费水平,在全 校N=15230名学生用简单随机抽样抽取 n=36名学生,调查上月电信支出数据。试 以95%的置信度估计该校大学生该月电信 消费的平均支出额。
样本序号 消费元/月 样本序号 消费
样本序号 消费
1
45
13

统计学 第三章抽样与抽样分布

统计学 第三章抽样与抽样分布

=10
= 50 X
总体分布
n= 4
x 5
n =16
x 2.5
x 50
X
抽样分布
从非正态总体中抽样
结论:
从非正态中体中抽样,所形成 的抽样分布最终也是趋近于正态分 布的。只是样本容量需要更大些。
总结:中心极限定理
设从均值为,方差为 2的一个任意总体中抽 取容量为n的样本,当n充分大时(超过30),样本 均值的抽样分布近似服从均值为μ、方差为σ2/n的
总体
样本
参数
统计量
总体与样本的指标表示法
总体参数
样本统计量
(Parameter) (Sample Statistic)
容量 平均数 比例 方差 标准差
N
n
X
x
p
2
s2
s
小练习
某药品制造商感兴趣的是用该公司开发的某 种新药能控制高血压人群血压的比例。进行了一 项包含5000个高血压病人个体的研究。他发现用 这种药后80%的个体,他们的高血压能够被控制。 假定这5000个个体在高血压人群中具有代表性的 话,回答下列问题: 1、总体是什么? 2、样本是什么? 3、识别所关心的参数 4、识别此统计量并给出它的值 5、我们知道这个参数的值么?
正态分布
一个任意分 布的总体
x
n
当样本容量足够 大时(n 30) , 样本均值的抽样 分布逐渐趋于正 态分布
x
X
总体分布
正态分布
非正态分布
大样本 小样本 大样本 小样本
正态分布
正态分布
非正态分布
三 中心极限定理的应用
中心极限定理(Central Limit theorem) 不论总体服从何种分布,从中抽取

PPS抽样——精选推荐

PPS抽样——精选推荐

第六章 不等概率抽样第一节 等概率抽样概述一、不等概率抽样的必要性在简单随机抽样中,总体(或层)中的每个单元入样的概率都相等。

但是在许多实际问题中,我们还需要使用不等概率抽样。

一种情况是调查的总体单元与抽样总体的单元可能不一致; 另一种需要用到不等概率抽样的情况是,抽样单元在总体中所占的地位不一致;第三种需用不等概率抽样的情况是为了改善估计量的特性。

二、不等概率抽样的主要分类不等概率抽样可按多种原则进行分类。

放回抽样与不放回抽样。

对于不放回抽样,按其样本单元抽取方式的不同又可分为:逐个抽取法;重抽法;系统抽取法;全样本方法。

三、不等概率抽样的特点不等概率抽样的主要优点是由于使用了辅助信息,提高了抽样策略的统计效率,与简单随机抽样甚至与分层抽样相比,能显著地减少抽样误差。

不等概率抽样有以下的缺点:抽样框中的所有单元,都要有高质量的、能用作大小度量的辅助信息;抽样框的创建比简单随机抽样和系统抽样成本高,更复杂,因为需要度量和存储总体中每一个单元的大小;并非在任何情况下都能使用,因为并不是每一个总体都有稳定且与主要调查变量相关的有关大小或规模的度量;抽样及估计(特别对不放回抽样)相当复杂; 当单元大小度量不准确或不稳定时不适用,此时更好的办法是将单元按大小分组并使用分层抽样。

第二节 放回不等概率抽样一、多项抽样多项抽样是一种最简单的不等概率抽样。

它是从容量为N 的总体中有放回地进行独立抽样,每次抽样中,使抽到第i 个单元的概率为Z i ,i =1,2,…,N ,11Nii Z==∑,连续抽n 次,从而抽到n 个单元。

若记i t 为总体中第i 个单元在n 次抽样中被抽到的次数,显然对每个i 都有:0i t n ≤≤,且1Ni i t n ==∑。

作为随机变量(1t ,2t ,…,N t ),它的联合分布即是以下的多项分布:121212!!!!N t t t NN n Z Z Z t t t 这就是多项抽样这个术语的来源。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
最大规模法 (由统计学家Lahiri最先提出)
1、求规模测度的最大值 M max{ X 1 , X 2 ,, X N } 2、从{ 1,2, … , N }抽取随机数a,同时独立地从 {1,2,…,M}中抽取随机数b,若
b Xa
则第a个单元入样,否则此次抽取无单元入样. 3、重复2,直至抽得n个单元.
估值法
Horvitz-Thompson估计 (HT估计)
yi ˆ 总体总数Y的估计值为 YHT
i 1 n
yi ˆ 定理3.2.1 对πPS抽样, HT估计YHT 是总体总
i 1
i
n
i
数Y的无偏估计 .其均方偏差为
ˆ VY HT
i 1
N

N
(1 i )Yi 2
例2 以下列概率从总体{1,2,3,4,5}中抽取容量为2的 样本.
p1 p2 0.1, p3 0.2, p4 p5 0.3
例3 一村庄有8个果园,分别有果树50,30,65, 80,140,44,20,100棵,要调查该村庄水果总 产量,以正比于果树棵数的概率取3个果园作样本.
Yi 1 ˆ V (YPPS) pi Y n i 1 pi
N
2
Yi Y j 1 ˆ ) p p V (Y PPS i j n i 1 j i p p j i
N N
2
PPS抽样的估值法
ˆ )的一个无偏 定理3.1.2 在有放回PPS抽样下,V (Y PPS ˆ ) 估计为 v(Y pps yi ˆ 1 YPPS n(n 1) i 1 pi
pi
Xi
X
PPS抽样的实现方法
累积和法的另一种形式
从[0,1]中取均匀分布随机数r,
若r [0, p1 ], 第 1个单元入样;
若 r ( p j , p j ], 第i个单元入样, i 2,3,, N
j 1 j 1 i 1 i
重复以上步骤,直至抽得n个单元.PS抽样的概念 π proportion to size.
每次抽取后抽中的单元不放回,要求各单元的入样 概率正比于规模测度
修正概率
要使每个单元的入样概率pi X i , 在不同的抽取次 (i 1,2,, N ; k 1,2, n) 数必须给一个修正概率pik
不等概πPS抽样的实现
Sen-Midzuno抽样方法
大体思路 解决样本量超过2的麻烦,使πi近似地正比于Xi 实现步骤
1、以概率pi 抽取第一个样本单元
2、从剩下的N-1个单元中,抽取容量为n-1的简单随 机样本(不放回)
n 1 i pi (1 pi ) pi ( f很小时) N 1 n 1 N n n2 ij ( pi p j ) N 1 N 2 N 2
ij
不等概πPS抽样的实现
Durbin抽样方法
大体思路 第一次抽取概率正比于pi,调整第二次的抽取概 率,使总的入样概率正比于Xi
实现步骤
1、以概率pi pi 抽取第一个样本单元
2、取出第一个样本单元后不放回,当第一个样本 单元为U j时,以概率pi抽取第二个样本单元
不等概πPS抽样的实现
Xi 令pi , i 表示U i的入样概率 X pi (1 pi ) 1、以概率pi D 抽取第一个样本单元 (1 2 pi ) N N pi pi (1 pi ) 1 i 1,2,, N , D 1 2 1 2 p ( 1 2 p ) i 1 i 1 i i
n 2
2 n yi 1 2 ˆ n Y PPS n(n 1) i 1 p i
一般无放回不等概抽样比有放回效率高,但理论方 法麻烦复杂.实践中,N较大,f 不太大时,均利用上述 定理进行估值和误差计算. 无放回PPS抽样的实现:在前面方法中去掉重复单 元即可.
不等概πPS抽样的实现
实现步骤
2、取出第一个样本单元后不放回,当第一个样本 单元为U j时,以概率pi抽取第二个样本单元 pi pi (i j ) 1 p j
i 2 pi
Ui ,U j同时入样的概率为:
2 pi p j D (1 pi p j ) (1 2 pi )(1 2 p j )
1 1 pi pi 1 2 p 1 2 p i j 1 1 pk k j 1 2 pk 1 2 p j
N
,i j
i 2 pi
Ui ,U j同时入样的概率为:
pi p j 1 1 ij D 1 2 pi 1 2 p j
ˆ v1 Y HT
i 1

n
(1 i )

2 i
n
y 2
2 i i 1 j i
i j
n
n
( ij i j )
i j ij
2
yi y j
ˆ v2 Y HT
i 1 j i

n

ij yi y j ij j i
例题与练习
练习1 某部门要了解所属8500家生产企业当月完 成的利润,该部门手头已有一份去年各企业完成产 量的报告,将其汇总得到所属企业去年完成的产量 为3676万吨。考虑时间因素,准备采用抽样调查来 推算当月完成的利润。根据经验,企业的产量和利 润相关性较强,且企业的特点是规模和管理水平差 异比较大,通常大企业的管理水平较高,因此采用 与去年产量成比例的pps抽样,从所属企业中抽出 一个样本量为30的样本。估计当月的利润及其标准 差。 练习2 某企业欲估计上季度每位职工的平均病假天 数。该企业共有8个分厂,现用pps抽样抽取三个分 厂为样本,并以95%的置信度计算其置信区间。
Xi pi Xi NM
PPS抽样的实现方法
目录抽样
X 1、计算抽样间隔 K (假定K为整数); n
2、从{ 1,2, … , K }抽取随机数R1,由K确定R2=R1+K, R3=R1+2K,…,Rn=R1+(n-1)K ; 3、根据Ri所在位置确定入样单元:
Ri [1,2, , X 1 ]时,U1入样
实现步骤
1、设总体有N nM k (0 k n)个单元,将总体随机 分成n个群,k个群有M 1个单元,n k个群有M个单元
2、在每一群中,以正比于规模测度的概率抽取一个 单元,每群一个单元组成样本量为n的样本
在第t群中,抽中单元U i的概率为: Xi ,U i 属于t群 pti Z t U i不属于t群 0,
例题与练习
例3 一村庄有8个果园,分别有果树50,30,65, 80,140,44,20,100棵,要调查该村庄水果总 产量.如果实地调查得第 5,第8、第3号三个果园的 4 产量(单位:10 千克)分别为15,12,7,计算 该村八个果园的总产量的估计量和估计量的均方偏 差。再用简单估值法进行估计,并比较两个结果的 优劣。
例题与练习
练习1 设某个总体有N=10个样本,相应的单元大小 Mi及其代码数如表所示,用PPS法抽取一个n=3的 样本。
PPS抽样的估值法
定理3.1.1 在有放回PPS抽样下,
n yi 1 ˆ YPPS n i 1 pi
是总体总数Y Yi的无偏估计.该估计的均方偏差
i 1
N
为:
m 1 m m 1 Ri X j 1, X j 2, , X j 时,U m 入样 j 1 j 1 j 1 i 1,2, , n, m 2,3,, N
例题与练习
例1 某县有32个乡,每个乡参加分配人口数如表, 要调查人均收入,用累积和法抽取8个乡作为样本.
PPS抽样的概念
PPS抽样的概念
Probability proportion to size. 各单元被抽取的概率正比于规模测度
pi X i , 一般 pi
Xi
X
i 1
N
i
每次抽取后放回抽中的单元再作下次抽取.
PPS抽样的实现方法
累积和法
1、求规模测度的累积和 X
X
i 1
N
i
2、对自然数集合{ 1,2, … , X }作有放回简单随机抽 样,根据抽得随机数a决定入样单元.若
a {1,2,, X1}, 则第一个单元入样
若a { X j 1, X j 2,, X j },
j 1 j 1 j 1 i 1 i 1 i
则第i个单元入样,i =2,3,…, N 3、重复2,直至抽得n个单元.
§3.1 PPS抽样 §3.2 不等概πPS抽样
§3.3 Rao-Hartley-Cochran 随机分群抽样
PPS抽样的概念 PPS抽样的实现方法 PPS抽样的估值法 最优规模测度
PPS抽样的概念
PPS抽样的使用背景
调查一城市企业的产值,各企业单位是抽样单元, 企业规模差异很大,有不同的资产. 调查某一地区小麦产量,以村为抽样单元,但各村 拥有的麦地面积不一样. 调查某商贸集团的销售额,以其下辖各超市为抽样 单元,各超市的销售人员数量不等。
最优规模测度
Yi 1 ˆ 要使V (YPPS) pi Y 达到最小,有: n i 1 pi
N 2
X i Yi
可见,应利用与Yi 近似于正比例的变量X i 作规 模测度.
一般,选择合适的规模测度可提高估计精度.
不等概πPS抽样的概念 不等概πPS抽样的实现 估值法
Z t为第t群全体单 元规模测度之和
估 值 法
定理3.3.1 在上述随机分群抽样下,记第t群抽出的样本 单元为yit , 其对应的抽取概率为ptit , 则估计量 n y ˆ it Y RHC t 1 ptit
相关文档
最新文档