第八章 系统抽样
合集下载
讲稿8-系统抽样.ppt

二、系统抽样特点
优点:
简便 易于控制 有潜在分层功能
弱点:
有时估计量是有偏的 抽样误差计算上比较复杂
三、抽样类型
1. 按无关标志排列 2. 按有关标志排列 3.自然排列
四、与其他抽样方式的关系
设 N n.k
Y1
Yk 1 ….. Y(n1)k 1
Y2 Yk2 …..
Y(n1)k 2
.
.
.
.
.
.
nKV
( ysy )
K
(
n
1)
S
2 wsy
得:V ( y sy )
(N
1)S 2 N
K
(n N
1)
S
2 wsy
系统抽样优于简单随机抽样的条件为:
(N
1)S2 N
K(n1) N
Sw2sy
Nn N
S2 n
即当
K(n1)Sw2sy
[(N
1)
N n]S2 n
K(n1)S2
sy 就是S2wsy>S2, 效率高于srs
= n ( yr Y )2
( yrj yr )2
kn
= nkV ( ysy )
( yrj yr )2
(1)
令
S
2 wsy
1 k (n 1)
k
n
( yrj yr )2
系统样本 内方差
kn
则 K (n
1)
S
2 wsy
( yrj yr )2 代入(1)
便有
(N
1)S 2
Chap7 系统抽样
Systematic sampling
第一节 概述
第一节 概述
系统抽样_PPT课件

分析:本题考查系统抽样的概念,系统抽样适用于个体数较多 但均衡的总体. 解析:因C选项事先不知道总体,抽样方法不能保证每个个体 按事先规定的机会抽取. 答案:C
变式训练2:系统抽样又称为等距抽样,从N个个体中抽取n个个体为样
本,抽样距为 k [ N ]
n
(取整数部分),从第一段1,2,…,k个号码中随机
解析:由题意知,抽取的样本号码首项为3,间隔为6,依次取 10个.
8.某工厂有1003名工人,从中抽取10人参加体检,试用系统抽 样进行具体实施. 分析:由于总体容量不能被样本容量整除,需先剔除3名工人,
使得总体容量能被样本容量整除,取 k 1000 100, 然后 10
再利用系统抽样的方法进行. 解:(1)将每个人编一个号由0001至1003; (2)利用随机数表法找到3个号将这3名工人排除; (3)将剩余的1000名工人重新编号0001至1000;
(3)系统抽样比简单随机抽样的应用范围更广.
题型一 系统抽样的概念
例1:为了解1200名学生对学校某项教改试验的意见,打算从
中抽取一个容量为30的样本,考虑采用系统抽样,则分段的间
隔k为( )
A.40
B.30
C.20
D.12
解析:N=1200,n=30,∴ k N 1200 40. n 30
答案:C
2.中央电视台的动画城节目为了对本周的热心小观众给予奖
励,要从确定编号的一万名小观众中抽取十名幸运小观众,现
采用系统抽样的方法抽取,其组容量为( )
A.10
B.100
C.1000
D.10000
解析:其组容量为
10000 10
1000.
答案:C
3.下列说法错误的个数是( )
系统抽样》课件

减小抽样误差的方法
采用更科学的抽样方法、增加样本量、提高样本代表性等。
非抽样误差
非抽样误差的定义
01
由于非随机因素引起的误差,如调查员的主观偏见、调查方法
的缺陷等。
非抽样误差的来源
02
调查员的主观偏见、调查方法的缺陷、数据处理的错误等。
减小非抽样误差的方法
03
加强调查员的培训和监督、采用更科学的调查方法、加强数据
的质量控制等。
05
CHAPTER
系统抽样的应用案例
某品牌的市场调研系统抽样应用
总结词:高效准确
详细描述:某品牌在进行市场调研时,采用系统抽样方法,按照一定的间隔从总 体中抽取样本,大大提高了调研效率和准确性,为品牌的市场策略制定提供了有 力支持。
某大学的学生满意度调查系统抽样应用
总结词:覆盖全面
详细描述
起始样本的选择可以采用随机方式或指定方式。随机方式可以借助随机数生成器 等工具进行,而指定方式则需要根据研究目的和实际情况进行合理设定。
进行样本抽取
总结词
在确定总体、样本、抽样间隔和起始样本后,即可按照系统 抽样的规则进行样本抽取。
详细描述
按照设定的抽样间隔和起始样本,依次进行样本抽取,直至 达到所需的样本量。在抽取过程中,应保持随机性和代表性 原则,确保样本的有效性。
详细描述:某大学采用系统抽样方法进行学生满意度调查,确保了样本的代表性和广泛性,调查结果能够全面反映学生的需 求和意见,为学校改进教学质量和管理提供了重要依据。
某城市的居民消费水平调查系统抽样应用
总结词:科学合理
详细描述:某城市进行居民消费水平调查时,采用系统抽样方法,按照居民分布和人口比例进行抽样 ,确保了样本的科学性和合理性,为城市经济发展规划和政策制定提供了有力支持。
采用更科学的抽样方法、增加样本量、提高样本代表性等。
非抽样误差
非抽样误差的定义
01
由于非随机因素引起的误差,如调查员的主观偏见、调查方法
的缺陷等。
非抽样误差的来源
02
调查员的主观偏见、调查方法的缺陷、数据处理的错误等。
减小非抽样误差的方法
03
加强调查员的培训和监督、采用更科学的调查方法、加强数据
的质量控制等。
05
CHAPTER
系统抽样的应用案例
某品牌的市场调研系统抽样应用
总结词:高效准确
详细描述:某品牌在进行市场调研时,采用系统抽样方法,按照一定的间隔从总 体中抽取样本,大大提高了调研效率和准确性,为品牌的市场策略制定提供了有 力支持。
某大学的学生满意度调查系统抽样应用
总结词:覆盖全面
详细描述
起始样本的选择可以采用随机方式或指定方式。随机方式可以借助随机数生成器 等工具进行,而指定方式则需要根据研究目的和实际情况进行合理设定。
进行样本抽取
总结词
在确定总体、样本、抽样间隔和起始样本后,即可按照系统 抽样的规则进行样本抽取。
详细描述
按照设定的抽样间隔和起始样本,依次进行样本抽取,直至 达到所需的样本量。在抽取过程中,应保持随机性和代表性 原则,确保样本的有效性。
详细描述:某大学采用系统抽样方法进行学生满意度调查,确保了样本的代表性和广泛性,调查结果能够全面反映学生的需 求和意见,为学校改进教学质量和管理提供了重要依据。
某城市的居民消费水平调查系统抽样应用
总结词:科学合理
详细描述:某城市进行居民消费水平调查时,采用系统抽样方法,按照居民分布和人口比例进行抽样 ,确保了样本的科学性和合理性,为城市经济发展规划和政策制定提供了有力支持。
系统抽样

(三)根据各单元原有的自然 位置进行排序
例如:学生按学号抽样,入户调查根据 街道门牌号按一定间隔抽取等。 这种自然状态的排列有时与调查标志有 一定的联系,但又不完完一致,这主要 是为了抽样方便。
四、系统抽样的特点
优点: 1.简便易行,容易确定样本单元
等距抽样简单明了,快速经济,操作灵活方便,使用面广, 是单阶段抽样中变化最多的一种抽样技术。 在某些场合下甚至可以不用抽样框。例如若要对公路旁的树 木进行病虫害调查,确定每 20 棵数检查一棵,只要在初始被 检树确定后,每隔 20 棵检查一棵即行,根本不需要在事先对 公路旁的所有树木进行编号,或者不需要知道抽样框即所有 树木的棵数。 在我国,等距抽样已成了最主要、最基本的抽样方式,一些 大规模的抽样调查,如农产量抽样调查、城乡住户调查、人 口抽样调查、产品质量抽样检查中都普遍采用了等距抽样。
三、排序标志
等距抽样需要有作为排序依据的辅助标志。 排序标志各式各样,可自由选择,但归纳起 来,可分为两类,即无关标志和有关标志, 它们对等距抽样的作用和相应的估计精度各 有不同的影响。
(一)按无关标志排队 (无序系统抽样)
即各单元的排列顺序与所研究的内容无关. 如研究人口的收入状况时,按身份证号码、按 门牌号码排序非常方便,一般说来,这些号码 与调查项目没有关系,因此可以认为总体单元 的次序排列是随机的 无关标志排序的等距抽样也称无序等距抽样。
k 1 2 2 V ( ysy ) E ( ysy Y ) ( yr Y ) k r 1
性质2 用样本(群)内方差 S 2 表示系统抽 wsy 样估计量的方差: ( N 1) 2 k (n 1) 2 V ( ysy ) S S wsy N N
8.4.2系统抽样

∵
=
∴取每段间隔为20,将编号分成50段,规定各段抽取第16个顺序
号的学生,得到容量为50的样本.其学生号码依次为
16,36,56,76, …,996.
与简单随机抽样相比,系统抽样有哪些优点与缺点?
优点:可避免抽到的样本集中在一定的范围,而另有一些范围没有抽到的现象.
缺点:抽取过程较繁锁.
(3)确定第一个编号:在第一段编号中用简单随机抽样随机抽取一个编号(如 = );
(4)取样:从每一段中将编号15,115,215,…,915共10个号码选出,由这 10个号码所对
应的工人担任质量监督员.
新授
系统抽样的特点:
(1)个体数目比较多;
(2)把总体分成均衡的若干部分,分段间隔相等,在第一
3.学校从一年级800名学生中采用系统抽样方法抽取50名学生做牙齿健康检查,设计
抽样方案.
解:抽样方案如下:
(1)编号:将这800名学生随机编号为1至800;
(2)分段:取间隔 =
= ,将总体分为50段,每段含有16个个体,即第一段号码
为1至16,第二段号码为17至32,……,第五十段号码为785至800;
(3)确定第一个编号:在第一段编号中用简单随机抽样随机抽取一个编号(如 = );
(4)取样:从每一段中将编号7,23,39…,791共50个号码选出,由这50名学生做牙齿
健康检查.
4.某职业院校为了解一年级新生的健康状况,从1000名新生中,利用系统抽样抽取50
名学生进行技能测试,若将这1000名学生随机编号,在抽取的50名学生中,编号落在
(560,800]内的人数是多少?
解:抽样分段间隔 =
系统抽样课件

06 系统抽样的软件实现
软件工具介绍
SPSS
广泛使用的统计软件,提供系统抽样的功能 。
Stata
专为统计和数据分析而设计的软件,支持系 统抽样操作。
R
自由软件,拥有强大的统计分析能力,支持 系统抽样。
软件实现步骤
数据导入软件
将数据导入所选软 件中。
执行抽样
软件自动按照设定 的样本间隔进行抽 样。
确定样本间隔
根据总体大小和样 本量计算样本间隔 。
选择系统抽样命令
在软件中调用系统 抽样命令。
案例二
在Stata中实现系统抽样,分析某地区经济 增长情况。
案例一
使用SPSS进行系统抽样,调查大学生心理 健康状况。
案例三
使用R进行系统抽样,研究消费者购买行为 模式。
与简单随机抽样的比较
简单随机抽样是从总体中随机抽取样本,而系统抽样则是有目的地按照一定间隔抽取样 本,两者各有优缺点。简单随机抽样的优点是操作简单,适用于任何类型的总体,但样 本代表性可能受个体差异影响;系统抽样的优点是样本代表性好、操作简便,但适用范
围有限,仅适用于总体容量较大且个体差异较小的样本调查。
系统抽样按照一定的规则,从总体中抽取一定数量的样本 ,然后对这些样本进行调查和分析,得出市场数据。这种 方法能够保证样本的随机性和代表性,从而减少误差,提 高调查结果的准确性和可靠性。
科学实验
科学实验是一种通过实验来验证假设或发现新知识的科学研究方法。系统抽样在此场景中可以用来选 取实验对象,从而保证实验结果的准确性和可靠性。
首先需要明确研究的总体范围,包括总体中的个体数量和特 性。
确定抽样间隔
根据总体大小和样本量,计算出抽样的间隔,确保样本的代 表性。
《系统抽样》课件

详细描述
例如,在心理学研究中,研究者可能会选择 一部分被试进行实验或调查,并采用系统抽 样方法确保样本的代表性和可靠性。这种抽 样方法能够为研究者提供较为准确和可靠的 实验结果或数据,从而支持其学术观点或理 论。
需要精确估计的场景
在某些需要精确估计的场景中,例如 预测市场趋势、评估产品性能等,需 要采用系统抽样来保证样本的代表性 和准确性。
系统抽样适用于需要精确估计的场景 ,例如市场预测、产品质量评估等。
04
系统抽样的优缺点
优点
样本代表性
系统抽样能够保证样本的代表性,因为它在总体中均匀地选取样 本,避免了由于主观判断或随机性导致的偏差。
详细描述
全国人口普查通常采用系统抽样方法,按照地理位置、行政区域或人口分布等标准,将全国划分为若干个样本小 区,然后按照固定的间隔或比例从每个小区中抽取一定数量的样本进行调查。这种抽样方法能够保证样本的代表 性和广泛性,从而得到较为准确和全面的数据。
实例二:市场调查
总结词
市场调查中经常采用系统抽样方法,从 目标市场中按照一定的规则和标准抽取 具有代表性的样本进行调查。
系统抽样适用于大规模的普查或市场调查,例如全国人口普查、消费者调查等。
长期跟踪研究
在长期跟踪研究中,例如研究某一群体的健康状况、行为 习惯等,需要定期对研究对象进行抽样调查。系统抽样可 以按照固定的时间间隔对研究对象进行抽取,便于长期跟 踪研究。
系统抽样适用于长期跟踪研究,例如流行病学研究、社会 学研究等。
与分层抽样相比,系统抽样不需要对总体进行分层,操作相 对简单,但分层抽样可以根据不同层的特点进行有针对性的 调查,因此在实际应用中需要根据具体情况选择合适的抽样 方法。
02
《系统抽样》课件

所以抽取的号码是63.
因第7组抽取的号码个位数字应是3,
解析:依编号顺序平均分成的10个小组分别为0~9, 10~19, 20~29, 30~39, 40~49,50~59,60~69,
70~79,80~89,90~99.
这个样本的号码依次是6,18,29,30,41,52,63,74,85,96.
思考:
(1)下列抽样中不是系统抽样的是 ( ) A、从标有1~15号的15个小球中任选3个作为样本,先在1~5号球中用抽签法抽出l号,再将号码为l+5,l+10的球也抽出 ; B、工厂生产的产品,用传送带将产品送入包装车间的过程中,检验人员从传送带上每隔五分钟抽一件产品检验 ; C、搞某市场调查,规定在商场门口随机抽一个人进行询问,直到调查到事先规定的调查人数为止. D、电影院调查观众的某一指标,邀请每排(每排人数相等)座位号为14的观众留下来座谈。
C
系统
2
3
4
1
数学运用
例5、某单位在岗职工共624人,为了调查工人用于上班途中的时间,决定抽取10%的工人进行调查。试采用系统抽样方法抽取所需的样本.
解:
将624名职工用随机方式进行编号;
从总体中剔除4人(剔除方法可以用随机数表法),将剩余的620名职工重新编号(分别为000,001,002,…, ,并分成62段;
有
系统抽样比简单随机抽样的应用范围更广.
系统抽样比简单随机抽样更容易实施,可节约抽样成本;
系统抽样与简单随机抽样比较,有何优、缺点?
点评:
系统抽样的效果会受个体编号的影响,而简单随机抽样的效果不受个体编号的影响;系统抽样所得样本的代表性和具体的编号有关,而简单随机抽样所得样本的代表性与个体的编号无关.如果编号的个体特征随编号的变化呈现一定的周期性,可能会使系统抽样的代表性很差.例如学号按照男生单号女生双号的方法编排,那么,用系统抽样的方法抽取的样本就可能会是全部男生或全部女生.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2
第一节
抽样方式
3
一、系统抽样的基本思想
对于一个容量为N的总体,首先,将总体中各单 位按某种顺序编为从1到A 的号码。若要从中抽出一 个容量为n的样本,则应先从编号为1到k(k<N)的k个 单位中,随机地抽取一个单位,然后,按照一定的 规律,如每隔k个单位抽出一个单位等,顺次地抽出 n个样本单位。
N n S2 v y N n
17
以上分析告诉我们,等距抽样时样本内各单位的差异较大, 抽样精度较高;反之,抽样精度就低。这与下面进一步考察等 距样本内一对单位之间的相关系数后所得揭露是一致的。 在同一等距样本内,两个单位之间的总体相关系数为:
w
E yij Y
总的来说,等距抽样估计量的方差大小主要与总体内各单位的 排列状况有关。 1. 总体内各单位的排列是随机的,这时 w 0,当N充分大时, V y sy V y。值得注意的是:当n、k给定时,等距抽样估计量 的方差 V y sy 仅有k个自由度,它与简单随机抽样估计量的方差一 般不相等。但对任意给定的N个单位 X1 , X 2 ,… X N , 其不同的 全排列方法有N!种,每种情况为一个随机排列的有限总体。对这
r jk , N r jk 1
j=0,1,2,„,n/2-1(n为偶数)
1 r jk , N r jk 1, r n 1 k 2
j=0,1,2,…,(n-1)/2-1(n为奇数)
14
第二节 等概率系统抽样的 估计量及其方差
15
一.估计量
N
V Y
Y
N i 1
Y
2
2 N 2 1
12
10
当总体呈线性趋势时,样本观测值可能会偏低或偏高,产生 “趋向性的偏差”,对此统计学家们采用了很多方法来弥补这一不 足。 (一)首尾校正法 即将不加权的均值估计量改为加权的估计,加权时样本中所 有中间单位的权数都是1,但对样本的第一个和最后一个单位赋予 不同的权。若设我们在1到k中所抽到的随机数是i,则首尾两个单 位的权数就是:
k
n
rj
Y
二.估计量的方差
估计量 y sy 的方差为:
v y sy E y i. Y
y
2 k i 1
i.
Y
2
1 k Pi y i. Y K i 1
2
16
2 Swsy S2
2 S 记等距样本内的方差为 wsy ,
S
2 wsy
k n 1 yij y i. k n 1 i 1 j 1
K K 2
2K K 2
n 1 K
K 2
K jK 2
j=0,1,2,…,n-1
12
(三)对称系统抽样法
1984年1月,我国国家统计局在《农村抽样调查网点 抽选方案》(初稿)中,决定采用“有关标志排队等距抽 样方法”。这里应当指出,我国所采用的方法,从方法上 讲属于平衡系统抽样法类型,下面分别介绍这两种方法。 1.平衡系统抽样法(分组对称抽样法) 在总体单位数为n×k的线性趋势排列总体中,对应 于抽样单位数n,计算一个正整数K(k为抽样距离)。对 号码得K作随机抽样。若第r号单位入样(1≤r≤K),则 2K-r+1, 2K+r, 4K-r+1, 4K+r,„„, (n-2)K+r, nK-r+1 号单位皆入样。按这种抽样方法所取得的样本称为平衡系 统抽样样本。 平衡系统抽样法的抽样模型为
特别:n=1时,上式中的等号才成立。
19
第三节 估计量方差的样本估计
20
一、纯随机抽样估计法
从平均意义上讲,无序等距抽样类似于简单随机抽样,故 估计量的方差为: 2
v y sy
8
Yi
四、有序排列下的系统抽样
简称有序等距抽样,是指用与调查目的有关的标志值作为 总体各单位排队的依据,在排队后的基础上再进行系统抽样。 当总体各单位标志值按由大到小的变化趋势排列后,总体 被改造为完全或近似地呈递增或递减的线性趋势总体。这是总 体各单位标志值 Yi 与其排队顺序i(i=1,3,…,N)之间, 为一种完全或近似的现行趋势关系,可用直线方程表示为:
E yij Y
y
ik
Y
2
N!个有限总体,等距抽样平均数来说相当于简单随机抽样。
18
2. 当总体内各单位的排列顺序具有依数值由大到小的线性趋势 时,从中抽取的等距样本单位差异较大,一般有 w 0 ,如 N也较大,可知:
V y sy V y
比较以上各式(N>k),故可得如下结论,在总体内各单位 的排列具有线性趋势时,一般有下列关系存在: V y st V y sy V y
r 2 jk,2( j 1)k r 1
j=0,1,2,…,n/2-1
13
2.修正系统抽样法(总体对称抽样法)
在总体单位数为n×k的线性趋势排列总体中,对应 于抽样单位数n,计算一个正整数K(k为抽样距离)。对 号码1至K作随机抽样。若第r号单位入样(1≤r≤K), 则K+r, 2K+r, „„, (n-1)K-r+1, nK-r+1号单位皆 入样。按这种抽样方法所取得的样本称为修正系统抽样 样本。 平衡系统抽样法的抽样模型为:
设系统抽样的随机起点值为r,则其相应系统样本的均值为:
1 n 1 n y sy yrj Yrj n j 1 n j 1
为总体均值 Y 的估计量。 当N=n k时,可以证明这个估计量是无偏的。
E y sy
1 k 1 yr k r 1 nk
y
r 1 j 1
18 16 14 12 10 8 6 4 2 0 50-60 70-80
35% 30% 25% 20%
`
15% 10% 5% 0% 90-100
第八章
系统抽样
本章要点
本章将对系统抽样这种具有简便易行、样 本分布均匀、估计效率较高等多方面优点的 抽样组织方式进行介绍,以便在实践中灵活 加以应用。具体要求: ①正确理解系统抽样的基本思想和方式; ②掌握系统抽样的估计量及其性质; ③熟知系统抽样估计量方差的样本估计方 式; ④对系统抽样的相关问题有所了解。
n 2i K 1 i 2 n 1 K
其中,“+”号用于样本的第一个单位,“-”号用于样本 的最末一个单位,则对于任意的i,这两个权数之和为2。可以证 明,若总体是一个由线性趋势排列所构成的,且N=nk,则加权 的线性系统样本的均值就是总体均值的无偏估计量。
nK 1 nK 1 E y E Y 2 2
(二)总体单位排序与其标志值的大小有某种周 期性的关系
当总体各单位的排列顺序与其标志值的大小有某种周期性的 关系时,就有可能出现样本各单位的标志值都是一个相同数字的 情况。在这种情况下,系统样本对总体完全没有代表性。为了防 止出现这种情况,在采用线性系统抽样时,应注意避免抽样的规 律与现象变动的周期相一致。
Yi i
Yi
(i=1,3,…,A)
作变换
U i 即: Ui i
则总体按新变量 Ui i 排列为:
1 K+1 … (n-1)K+1 2 … i K +2 … K+i … … … (n-1)K+2 … (n-1)K+i … K … 2K … … nK
9
易证新变量 Ui i
6
三、总体单位排序与系统抽样的关系
(一)总体单位随机排序
对于总体各单位的某一种特定的排列顺序,线性系统抽样的 效果可能优于简单随机抽样,也可能劣于简单随机抽样,无法预 言。但从一个容量为N的总体来讲,就其全部总体单位所有的N! 种排列顺序而言,线性系统抽样的平均估值精度等于简单随机抽 样估值的精度。因此,在这种情况下,线性系统抽样的估计效率 与简单随机抽样估计效率相同。在抽样实践中,总体各单位按随 机顺序排列下的线性系统抽样,称为无关标志排队等距抽样。
二、系统抽样的基本方式
系统抽样与其他抽样方法所不同的一个最显著 的特点,就是系统抽样只需要抽取一个样本单位, 然后按照某种规律,顺次地得到整个样本。这里所 提到的“某种规律”,就是指样本单位抽取的一种 事先的规定和安排。在此基础上,系统抽样又可以 划分为若干种具体的系统抽样方法。其中,线性系 统抽样是一种最基本的方法 。
(四)总体各单位按某种“负相关”的趋势排列
这里又分为两种情况:一种是总体各单位的标志值奇数层顺 排列而偶数层反排列;另一种是总体中上一半单位的标志值顺排 列而下一半单位的标志值反排列。实际上,在这种负相关趋势排 列的情况下,线性系统抽样法的估值精度最高。后面我们将说明: 对于这种负相关趋势采用线性系统抽样法与对线性趋势总体采用 对称系统抽样法的效果完全相同。因此,对线性趋势总体下的系 统抽样或称为有序排列下的系统抽样的研究是十分重要的。
4
(一)线性系统抽样
即对于一个容量为A的总体,欲从中抽出一个容 量为n的样本。首先将总体各单位按任意的顺序排列 并编号,然后计算一个正整数 k=N/n (这里假定A 是a的整数倍,称k 为抽样距离),将总体分为n段, 每段包含k 个总体单位。再从第一段的k个单位中, 随机抽出一个单位,假设其编号为第r号,然后每隔 k个单位抽出一个单位,即编号为r+k, r+2k, „, r+(n-1)k单位皆被抽中。 线性系统抽样法的抽样模型为: r + (j-1)k (j = 1,2,„,n; r为随机数)
2
第一节
抽样方式
3
一、系统抽样的基本思想
对于一个容量为N的总体,首先,将总体中各单 位按某种顺序编为从1到A 的号码。若要从中抽出一 个容量为n的样本,则应先从编号为1到k(k<N)的k个 单位中,随机地抽取一个单位,然后,按照一定的 规律,如每隔k个单位抽出一个单位等,顺次地抽出 n个样本单位。
N n S2 v y N n
17
以上分析告诉我们,等距抽样时样本内各单位的差异较大, 抽样精度较高;反之,抽样精度就低。这与下面进一步考察等 距样本内一对单位之间的相关系数后所得揭露是一致的。 在同一等距样本内,两个单位之间的总体相关系数为:
w
E yij Y
总的来说,等距抽样估计量的方差大小主要与总体内各单位的 排列状况有关。 1. 总体内各单位的排列是随机的,这时 w 0,当N充分大时, V y sy V y。值得注意的是:当n、k给定时,等距抽样估计量 的方差 V y sy 仅有k个自由度,它与简单随机抽样估计量的方差一 般不相等。但对任意给定的N个单位 X1 , X 2 ,… X N , 其不同的 全排列方法有N!种,每种情况为一个随机排列的有限总体。对这
r jk , N r jk 1
j=0,1,2,„,n/2-1(n为偶数)
1 r jk , N r jk 1, r n 1 k 2
j=0,1,2,…,(n-1)/2-1(n为奇数)
14
第二节 等概率系统抽样的 估计量及其方差
15
一.估计量
N
V Y
Y
N i 1
Y
2
2 N 2 1
12
10
当总体呈线性趋势时,样本观测值可能会偏低或偏高,产生 “趋向性的偏差”,对此统计学家们采用了很多方法来弥补这一不 足。 (一)首尾校正法 即将不加权的均值估计量改为加权的估计,加权时样本中所 有中间单位的权数都是1,但对样本的第一个和最后一个单位赋予 不同的权。若设我们在1到k中所抽到的随机数是i,则首尾两个单 位的权数就是:
k
n
rj
Y
二.估计量的方差
估计量 y sy 的方差为:
v y sy E y i. Y
y
2 k i 1
i.
Y
2
1 k Pi y i. Y K i 1
2
16
2 Swsy S2
2 S 记等距样本内的方差为 wsy ,
S
2 wsy
k n 1 yij y i. k n 1 i 1 j 1
K K 2
2K K 2
n 1 K
K 2
K jK 2
j=0,1,2,…,n-1
12
(三)对称系统抽样法
1984年1月,我国国家统计局在《农村抽样调查网点 抽选方案》(初稿)中,决定采用“有关标志排队等距抽 样方法”。这里应当指出,我国所采用的方法,从方法上 讲属于平衡系统抽样法类型,下面分别介绍这两种方法。 1.平衡系统抽样法(分组对称抽样法) 在总体单位数为n×k的线性趋势排列总体中,对应 于抽样单位数n,计算一个正整数K(k为抽样距离)。对 号码得K作随机抽样。若第r号单位入样(1≤r≤K),则 2K-r+1, 2K+r, 4K-r+1, 4K+r,„„, (n-2)K+r, nK-r+1 号单位皆入样。按这种抽样方法所取得的样本称为平衡系 统抽样样本。 平衡系统抽样法的抽样模型为
特别:n=1时,上式中的等号才成立。
19
第三节 估计量方差的样本估计
20
一、纯随机抽样估计法
从平均意义上讲,无序等距抽样类似于简单随机抽样,故 估计量的方差为: 2
v y sy
8
Yi
四、有序排列下的系统抽样
简称有序等距抽样,是指用与调查目的有关的标志值作为 总体各单位排队的依据,在排队后的基础上再进行系统抽样。 当总体各单位标志值按由大到小的变化趋势排列后,总体 被改造为完全或近似地呈递增或递减的线性趋势总体。这是总 体各单位标志值 Yi 与其排队顺序i(i=1,3,…,N)之间, 为一种完全或近似的现行趋势关系,可用直线方程表示为:
E yij Y
y
ik
Y
2
N!个有限总体,等距抽样平均数来说相当于简单随机抽样。
18
2. 当总体内各单位的排列顺序具有依数值由大到小的线性趋势 时,从中抽取的等距样本单位差异较大,一般有 w 0 ,如 N也较大,可知:
V y sy V y
比较以上各式(N>k),故可得如下结论,在总体内各单位 的排列具有线性趋势时,一般有下列关系存在: V y st V y sy V y
r 2 jk,2( j 1)k r 1
j=0,1,2,…,n/2-1
13
2.修正系统抽样法(总体对称抽样法)
在总体单位数为n×k的线性趋势排列总体中,对应 于抽样单位数n,计算一个正整数K(k为抽样距离)。对 号码1至K作随机抽样。若第r号单位入样(1≤r≤K), 则K+r, 2K+r, „„, (n-1)K-r+1, nK-r+1号单位皆 入样。按这种抽样方法所取得的样本称为修正系统抽样 样本。 平衡系统抽样法的抽样模型为:
设系统抽样的随机起点值为r,则其相应系统样本的均值为:
1 n 1 n y sy yrj Yrj n j 1 n j 1
为总体均值 Y 的估计量。 当N=n k时,可以证明这个估计量是无偏的。
E y sy
1 k 1 yr k r 1 nk
y
r 1 j 1
18 16 14 12 10 8 6 4 2 0 50-60 70-80
35% 30% 25% 20%
`
15% 10% 5% 0% 90-100
第八章
系统抽样
本章要点
本章将对系统抽样这种具有简便易行、样 本分布均匀、估计效率较高等多方面优点的 抽样组织方式进行介绍,以便在实践中灵活 加以应用。具体要求: ①正确理解系统抽样的基本思想和方式; ②掌握系统抽样的估计量及其性质; ③熟知系统抽样估计量方差的样本估计方 式; ④对系统抽样的相关问题有所了解。
n 2i K 1 i 2 n 1 K
其中,“+”号用于样本的第一个单位,“-”号用于样本 的最末一个单位,则对于任意的i,这两个权数之和为2。可以证 明,若总体是一个由线性趋势排列所构成的,且N=nk,则加权 的线性系统样本的均值就是总体均值的无偏估计量。
nK 1 nK 1 E y E Y 2 2
(二)总体单位排序与其标志值的大小有某种周 期性的关系
当总体各单位的排列顺序与其标志值的大小有某种周期性的 关系时,就有可能出现样本各单位的标志值都是一个相同数字的 情况。在这种情况下,系统样本对总体完全没有代表性。为了防 止出现这种情况,在采用线性系统抽样时,应注意避免抽样的规 律与现象变动的周期相一致。
Yi i
Yi
(i=1,3,…,A)
作变换
U i 即: Ui i
则总体按新变量 Ui i 排列为:
1 K+1 … (n-1)K+1 2 … i K +2 … K+i … … … (n-1)K+2 … (n-1)K+i … K … 2K … … nK
9
易证新变量 Ui i
6
三、总体单位排序与系统抽样的关系
(一)总体单位随机排序
对于总体各单位的某一种特定的排列顺序,线性系统抽样的 效果可能优于简单随机抽样,也可能劣于简单随机抽样,无法预 言。但从一个容量为N的总体来讲,就其全部总体单位所有的N! 种排列顺序而言,线性系统抽样的平均估值精度等于简单随机抽 样估值的精度。因此,在这种情况下,线性系统抽样的估计效率 与简单随机抽样估计效率相同。在抽样实践中,总体各单位按随 机顺序排列下的线性系统抽样,称为无关标志排队等距抽样。
二、系统抽样的基本方式
系统抽样与其他抽样方法所不同的一个最显著 的特点,就是系统抽样只需要抽取一个样本单位, 然后按照某种规律,顺次地得到整个样本。这里所 提到的“某种规律”,就是指样本单位抽取的一种 事先的规定和安排。在此基础上,系统抽样又可以 划分为若干种具体的系统抽样方法。其中,线性系 统抽样是一种最基本的方法 。
(四)总体各单位按某种“负相关”的趋势排列
这里又分为两种情况:一种是总体各单位的标志值奇数层顺 排列而偶数层反排列;另一种是总体中上一半单位的标志值顺排 列而下一半单位的标志值反排列。实际上,在这种负相关趋势排 列的情况下,线性系统抽样法的估值精度最高。后面我们将说明: 对于这种负相关趋势采用线性系统抽样法与对线性趋势总体采用 对称系统抽样法的效果完全相同。因此,对线性趋势总体下的系 统抽样或称为有序排列下的系统抽样的研究是十分重要的。
4
(一)线性系统抽样
即对于一个容量为A的总体,欲从中抽出一个容 量为n的样本。首先将总体各单位按任意的顺序排列 并编号,然后计算一个正整数 k=N/n (这里假定A 是a的整数倍,称k 为抽样距离),将总体分为n段, 每段包含k 个总体单位。再从第一段的k个单位中, 随机抽出一个单位,假设其编号为第r号,然后每隔 k个单位抽出一个单位,即编号为r+k, r+2k, „, r+(n-1)k单位皆被抽中。 线性系统抽样法的抽样模型为: r + (j-1)k (j = 1,2,„,n; r为随机数)
2