03第三章 简单随机抽样
合集下载
Chap03简单随机抽样

N i j
(Yi
Y
)(Yj
Y
)
1 nN
1
n 1 N 1
N i 1
(Yi
Y
)2
n 1 N 1
N i 1
(Yi
Y
2 )
1 n
N N
n
1 N 1
N i 1
(Yi
Y
)2
1 f S2
n
证明Ⅱ:仍引进随机变量 ai :
N 1 n 1
N n
n N
ˆ
f
E(ai )
n N
f
(3.5)
借助 ai ,样本均值 y 可以表示成:
y
1 n
N i 1
aiYi
(3.6)
E( y) 1
n
N
E(ai )Yi
i 1
1 n
n N
N
Yi
i 1
Y
推论: Y 的简单估计量Yˆ Ny 也是无偏的,即: E(Ny ) Y
所有可能的样本求平均: E( y)
N 1 y n
N n
个样本中,包含特定单元
Yi
的样
本数为
N 1 n 1
,也有同样多样
本含有任何其他单元,因此
y 1
n
( y1
y2
yn )
1 n
N 1 n 1
数,则编号为这些随机数的 n 个单元组成一个简单随机样本。
随机数的产生可使用随机数骰子或随机数表。
图 3.1 随机数骰子 随机数骰子:标上 0~9 数字的正 20 面体(每个数字出现在两面)
第三章-简单随机抽样

不放回也称不重复抽样,每次从总体中随机抽取 一个样本单位,经调查观测后,不再将该单位放 回总体参加下一次抽样,然后再在剩下的总体单 位中随机抽取下一个样本单位进行调查观测,直 到抽够n个样本单位为止。
N!
考虑顺序可能的样本为 N n !
每个样本被抽中的概率为 ( N n)! N!
s2 1358.41, v( y) (1 f )s2 / n 37.6444, se( y) 6.1355
对该校大学生某月电信消费人均支出额的估计为 53.64元,在置信度95%下,临界值1.96,可以说以 95%的把握说明该校大学生该月的人均支出在 [53.64+(-)1.96*6.1355],即41.61~65.67元。
n 1
2n
正态近似产生的误差 主要与nP有关,特别 当nP比较小时,产生 的误差甚大,在95% 置信度下,P<0.5时正 态分布需要的最小nP 值与n值如下表。
P
nP
0.5
0.4
0.3
0.2
0.1
0.05
0
n
15
30
20
50
24
80
40 200
60 600
70 1400
80 无穷
试以95%的置信度估计上例大学生月电信消费超 过80元的人数及其比例。
N n S2 N n
nN
为调查某校大学生的电信消费水平,在全 校N=15230名学生用简单随机抽样抽取 n=36名学生,调查上月电信支出数据。试 以95%的置信度估计该校大学生该月电信 消费的平均支出额。
样本序号 消费元/月 样本序号 消费
样本序号 消费
1
45
13
N!
考虑顺序可能的样本为 N n !
每个样本被抽中的概率为 ( N n)! N!
s2 1358.41, v( y) (1 f )s2 / n 37.6444, se( y) 6.1355
对该校大学生某月电信消费人均支出额的估计为 53.64元,在置信度95%下,临界值1.96,可以说以 95%的把握说明该校大学生该月的人均支出在 [53.64+(-)1.96*6.1355],即41.61~65.67元。
n 1
2n
正态近似产生的误差 主要与nP有关,特别 当nP比较小时,产生 的误差甚大,在95% 置信度下,P<0.5时正 态分布需要的最小nP 值与n值如下表。
P
nP
0.5
0.4
0.3
0.2
0.1
0.05
0
n
15
30
20
50
24
80
40 200
60 600
70 1400
80 无穷
试以95%的置信度估计上例大学生月电信消费超 过80元的人数及其比例。
N n S2 N n
nN
为调查某校大学生的电信消费水平,在全 校N=15230名学生用简单随机抽样抽取 n=36名学生,调查上月电信支出数据。试 以95%的置信度估计该校大学生该月电信 消费的平均支出额。
样本序号 消费元/月 样本序号 消费
样本序号 消费
1
45
13
初级1 -第三章简单随机抽样

n
n
n 1 N 1 n N
n 1 N 1
二、实施方法 • 抽签 制作N个同质的签,充分混合。从中一次抽出n个签, 或者先抽出一个签但不放回,再抽下一个签直到抽 满n个签为止。抽出的这n个签对应的单元入选样本, 这是不放回简单随机抽样;若从充分混合的N个签 中抽取一个,记录后放回,再抽取下一个,如此进 行,直到抽满n个为止,则是放回简单随机抽样。 抽签法的实施起来比较麻烦,尤其是当总体单元数 N较大时,所以该方法的使用场合为当总体单元数 N比较小,签的制作比较方便时。
第三章 简单随机抽样
第一节
基本问题
一、什么是简单随机抽样
从 N个单元的总体中抽取 n个单元组成的样本。总体单元数为 N,
样本量为 n。 若抽样是放回的,每次都是从 个总体单元中随机抽取1个单元,独 立重复抽取n次,得到 个单元组成的样本,叫做放回简单随机抽样。 若抽样是不放回的,每次都是从剩下的总体单元中随机抽取1个单 元,相继依次抽取n次,得到n个单元组成的样本,叫做不放回简单 随机抽样。
精度margin of error
对精度的要求通常以允许最大绝对误差
差限)或允许最大相对误差 (相对误差限)来表 示。
r
d(绝对误
d 1 P
P r 1
样本量足够大时,可用正态分布近似
ˆ tS ˆ d t V
2
第三章 基本概念
N n N 1
N n N
为 修正系数
2
为 S 修正系数
n f ,称抽样比, N
2
令
N n 1 f 有限总体调整系数 故, N 2
S V ( y ) (1 f ) n
n
n 1 N 1 n N
n 1 N 1
二、实施方法 • 抽签 制作N个同质的签,充分混合。从中一次抽出n个签, 或者先抽出一个签但不放回,再抽下一个签直到抽 满n个签为止。抽出的这n个签对应的单元入选样本, 这是不放回简单随机抽样;若从充分混合的N个签 中抽取一个,记录后放回,再抽取下一个,如此进 行,直到抽满n个为止,则是放回简单随机抽样。 抽签法的实施起来比较麻烦,尤其是当总体单元数 N较大时,所以该方法的使用场合为当总体单元数 N比较小,签的制作比较方便时。
第三章 简单随机抽样
第一节
基本问题
一、什么是简单随机抽样
从 N个单元的总体中抽取 n个单元组成的样本。总体单元数为 N,
样本量为 n。 若抽样是放回的,每次都是从 个总体单元中随机抽取1个单元,独 立重复抽取n次,得到 个单元组成的样本,叫做放回简单随机抽样。 若抽样是不放回的,每次都是从剩下的总体单元中随机抽取1个单 元,相继依次抽取n次,得到n个单元组成的样本,叫做不放回简单 随机抽样。
精度margin of error
对精度的要求通常以允许最大绝对误差
差限)或允许最大相对误差 (相对误差限)来表 示。
r
d(绝对误
d 1 P
P r 1
样本量足够大时,可用正态分布近似
ˆ tS ˆ d t V
2
第三章 基本概念
N n N 1
N n N
为 修正系数
2
为 S 修正系数
n f ,称抽样比, N
2
令
N n 1 f 有限总体调整系数 故, N 2
S V ( y ) (1 f ) n
简单随机抽样 课件

探要点、究所然
探究点一:随机抽样
思考 3 在 1936 年美国总统选举前,一份颇有名气的杂志的工作人员对兰顿和罗斯 福两位候选人做了一次民意测验.调查者通过电话簿和车辆登记簿上的名单给一 大批人发了调查表.调查结果表明,兰顿当选的可能性大(57%),但实际选举结果 正好相反,最后罗斯福当选(62%).你认为预测结果出错的原因是什么? 答 在 1936 年电话和汽车只有少数富人拥有,仅抽取这些富人作为民意调查的个 体,导致样本的代表性不强,所以由样本数据得出的结论可能不正确.
探究点二:简单随机抽样的基本思想
思考 1 假设你作为一名食品卫生工作人员,要对某食品店内的一批小包装饼干进行 卫生达标检验,你准备怎样做? 答 从中抽取一定数量的饼干作为检验的样本.为了获取高质量的样本可以将 这批小包装饼干放入一个不透明的袋子中,搅拌均匀,然后不放回地摸取.
探要点、究所然
探究点二:简单随机抽样的基本思想
探要点、究所然
探究点三:抽签法
例 2 某卫生单位为了支援抗震救灾,要在 18 名志愿者中选取 6 人组成医疗小组去 参加救治工作,请用抽签法设计抽样方案. 解 方案如下: 第一步,将 18 名志愿者编号,号码为 01,02,03,…,18. 第二步,将号码分别写在相同的纸条上,揉成团,制成号签. 第三步,将得到的号签放到一个不透明的盒子中,充分搅匀.
简单随机抽样
填要点、记疑点
1.简单随机抽样的定义 设一个总体含有 N 个个体,从中逐个 不放回 地抽取 n 个个体作为样本(n≤N),如果 每次抽取时总体内的各个个体被抽到的机会都 相等 ,就把这种抽样方法叫做简单随
机抽样.
2.简单随机抽样的分类
简单随机抽样
抽签法 随机数法
应用抽样技术课后习题答案.

应用抽样技术答案
第二章 抽样技术基本概念
2.7(1)抽样分布: 3 3.67 4.33 5 5.67 6.33 7
1/10 1/10 2/10 2/10 2/10 1/10 1/10 (2)期望为5,方差为4/3 (3)抽样标准误1.155 (4)抽样极限误差2.263 (5)置信区间(3.407,7.933)
第三章 简单随机抽样
3.3为调查某中学学生的每月购书支出水平,在全校 名学生中,用不放回简单随机抽样的方法抽得一 个的样本。对每个抽中的学生调查其上个月的购 书支出金额 (如表1所示)。
(1)在95%的置信度下估计该校学生该月平均购书支 出额;
(2)试估计该校学生该月购书支出超出70元的人数;
(3)如果要求相对误差限不超过10%,以95%的置信 度估计该校学生该月购书支出超出70元的人数比 例,样本量至少应为多少。
故 n ≈ 92.26 ≈93
4.8 解 已知W1=0.7,W2=0.3,p1=1/43,p2=2/57 (1)简单随机抽样 (1+2)/100=0.03 V(P)(1)=0.03*0.97/99=0.0002937 (2)事后分层 Σ0.7*1/43+0.3*2/57=0.0268 V() =Σ2[(1—)/(—1)] =0.72*[1/42](1/43)(42/43)+0.32*[1/56](2/57)(55/57) =0.00031942
由此可计算得:
n0
t2q r2 p
1.962 0.733 0.01 0.267
1054.64
n = n0/[1+(n0—1)] = 1054.64/[1+1053.64/1750]=658.2942 = 659
计算结果说明,至少应抽取一个样本量为659的简单随机样本,才能 满足95%置信度条件下相对误差不超过10%的精度要求。
第二章 抽样技术基本概念
2.7(1)抽样分布: 3 3.67 4.33 5 5.67 6.33 7
1/10 1/10 2/10 2/10 2/10 1/10 1/10 (2)期望为5,方差为4/3 (3)抽样标准误1.155 (4)抽样极限误差2.263 (5)置信区间(3.407,7.933)
第三章 简单随机抽样
3.3为调查某中学学生的每月购书支出水平,在全校 名学生中,用不放回简单随机抽样的方法抽得一 个的样本。对每个抽中的学生调查其上个月的购 书支出金额 (如表1所示)。
(1)在95%的置信度下估计该校学生该月平均购书支 出额;
(2)试估计该校学生该月购书支出超出70元的人数;
(3)如果要求相对误差限不超过10%,以95%的置信 度估计该校学生该月购书支出超出70元的人数比 例,样本量至少应为多少。
故 n ≈ 92.26 ≈93
4.8 解 已知W1=0.7,W2=0.3,p1=1/43,p2=2/57 (1)简单随机抽样 (1+2)/100=0.03 V(P)(1)=0.03*0.97/99=0.0002937 (2)事后分层 Σ0.7*1/43+0.3*2/57=0.0268 V() =Σ2[(1—)/(—1)] =0.72*[1/42](1/43)(42/43)+0.32*[1/56](2/57)(55/57) =0.00031942
由此可计算得:
n0
t2q r2 p
1.962 0.733 0.01 0.267
1054.64
n = n0/[1+(n0—1)] = 1054.64/[1+1053.64/1750]=658.2942 = 659
计算结果说明,至少应抽取一个样本量为659的简单随机样本,才能 满足95%置信度条件下相对误差不超过10%的精度要求。
03第三章 简单随机抽样(SRS)

总体均值的比估计 总体总值的比估计 总体均值的回归估计
ˆ y RX ˆ YR R
ˆ ˆ ˆ YR RX NRX
ˆ Ylr y ( X x )
总体总值的回归估计
ˆ Ylr y ( X x) N y ( X x )
抽样可以是放回的,也可以是不放回的。如果 抽样比非常小,则放回抽样与不放回抽样实际 上是差不多的。一般情况下,不放回抽样的结 果更精确,实际操作也更方便些。在本课程中, 除非特别指明,抽样都是指不放回的。
简单随机抽样一般有抽签法和随机数法 两种实施方法。
7
简单随机抽样的抽样规则:
1)按随机原则取样,在取样时排除任何主 观因素选择抽样单元,避免任何先入为主 的倾向性,防止出现系统误差。 2)每个抽样单元被抽中的概率都是已知或 事先确定的,或者事先可以计算出来。 3)每个抽样单元的概率都相等,即简单随 机抽样属于一种等概率随机抽样。
所有概率抽样的出发点和理论基础都是简单随 机抽样。简单随机抽样是一种一步抽样法,它 保证样本量为n的每个可能的样本都有相同的 被抽中的概率p=n/N。 简单随机抽样有三个相互等价的定义:
4
定义1: 从总体的N个单元中,一次整批抽取n个单元 ,使任何一个单元被抽中的概率都相等,任何n个不同 单元组成的组合被抽中的概率也都相等,这种抽样称 为简单随机抽样。 定义2:从总体中的N个单元中,逐个不放回地抽取单 元,每次抽取到尚未入样的任何一个单元的概率都相 等,直到抽足n个单元为止,这样所得的n个单元组成 一个简单随机样本。 定义3:按照从总体的N个单元中抽取n个单元的所有 n n C N个样本,从C N 个样 可能不同的组合构造所有可能的 本随机抽取1个样本,使每个样本被抽到的概率都等于 n 1/C N ,这种抽样称为简单随机抽样
必修三简单随机抽样

适用场景:适用于各种需要随机抽样的场景, 如市场调研、民意调查等。
注意事项:在使用简单随机抽样时,需要 注意保证每个样本单元被选中的概率相等, 同时要保证样本的随机性和代表性。
感谢您的耐心观看
汇报人:
在实验设计中的应用
简单随机抽样可以用于实验设计 的样本选择
确保样本的随机性和代表性
减少实验误差,提高实验的准确 性和可靠性
在医学、生物学、社会科学等领 域广泛应用
简单随机抽样的注意事 项
样本的代表性和广泛性
确保样本的随机性:每个样本都有相等的概率被选中,避免主观偏见和倾向性。
样本量要足够:足够的样本量可以提高结果的稳定性和可靠性。
样本要具有代表性:确保样本能够反映目标总体的特征和趋势,避免出现偏差。
考虑样本的广泛性:尽可能涵盖目标总体的各种不同类型和特征,提高样本的多样性和全面 性。
样本的规模和分布
样本规模:应足够 大,以保证结果的 准确性和可靠性
样本分布:应具有 代表性,能够反映 总体特征,避免偏 见和误差等 方法
添加副标题
简单随机抽样的概念、方法 和应用
汇报人:
目录
CONTENTS
01 添加目录标题
02 简单随机抽样的概 念
03 简单随机抽样的方 法
04 简单随机抽样的应 用
05 简单随机抽样的注 意事项
06 简单随机抽样的优 缺点
添加章节标题
简单随机抽样的概念
定义和特点
定义:简单随机抽样是从总体中随机抽取一定数量的样本,每个样本 被选中的概率相等。
缺点
简单随机抽样不适用于总体分布不 均匀的情况
添加标题
添加标题
添加标题
添加标题
简单随机抽样不适用于总体中存在 大量离群值的情况
第三章简单随机抽样(抽样调查理论与方法-北京商学院,

100,95,92,88,83,75,71,62,60,50
平均分为77.6。先从中任选3个为一组样本,其选法共有120种
每种选法都有概率1/120。以4组样本为例(100,95,92),(100,83,
50),(88,83,62),(62,60,50)它们的样本平均数分别为95.67,
77.67,77.67,57.33。 从抽样调查的角度来看,我们希望抽到第二或第三组样
(3.6)
N 1 n
Nn
对随机有放回抽样,由于各次抽取是相互独立的,由概率论 的知识可以求得,此时:
2
Var( y) n
1 S2 (或 (1 ) ) (3.7)
Nn
比较(3.6)式与(3.7)式,发现同样用样本平均数来估计总体平 均数,它们都是无偏估计,但随机无放回时的方差小于随机
有放回时的方差。 y 的方差表示新盒子的离散程度,也就是 表示了 y 取值范围的大小,方差小表明 y 取值远离中心Y 的 可能性较小,这样随机的一组样本得到 y 的实现值距Y 很近
相当小,此时(3.6)式告诉我们 y 的方差将随着 n 的减少而增 大,此时 1-f 在 1 附近,对Var( y)的影响不大。事实上,
抽取样本越少,抽样误差越大。
可见实际抽样调查中用 y 估计Y 所产生的随机误差,也 即 y 的方差,主要受到样本容量 n 的影响,因子1-f 的影响
几乎可以忽略。
当然,影响 y 的方差的另一个重要因素是 2或 S 2。设
通常取决于总体单元个数N,满足10m1 N 10m。记m个 骰子按约定颜色而确定的顺序读得随机数R0,若R0 N,则 此 R0即为一次合格的随机数;否则予以放弃,重新摇取,直
到取到n个合格的随机数为止。 ③利用计算机产生随机数:不少现成的统计软件都可提供此 类服务。但必须指出,这样产生的随机数一般不能保证其随 机性,称为“伪随机数”。因此,提倡前述方法产生随机数。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
首先,在理论上最符合随机原则.对此可有二 种理解:一种是总体中各个单位被抽中的机会 相等.设总体有N个单位,各单位被抽中的概 1 率均为 N.另一种是总体中各个样本被抽中的 概率相等.我们知道,一个总体N中可以抽取 许多个容量为n 的样本,通常情况下按组合形 n C N个样本,那么,在一次抽样中,某个样 式有 1 本被抽中的概率为C ,这个概率对每个可能的 样本都相等.简单随机抽样遵循这种等可能性 原则,为进行抽样估计,计算抽样误差,提供 了重要前提条件.
Y3 + Y4 2
可见,样本均值 y 是 Y 的一个无偏估计量,因为
1 Yi + Y j 1 3 4 E ( y ) = ∑∑ ( ) = ∑∑ (Yi + Y j ) 2 12 i =1 j i i =1 j i 6
3 4
而每个单元均可能在三个样本内出现,故
1 4 E ( y ) = ∑ 3Yi = Y 12 i =1
颜色 蓝 绿 红 白 黄 合计
人的编号 1 14 28 15 25 18 2 26 21 12 23 18 3 20 15 20 20 25 4 12 21 22 19 26
期望 数字 20 20 20 20 20 100
100 100 100 100
可见四个人都对颜色存在偏好,如第一个人偏爱绿色, 第二个人偏爱蓝色等.这种由于对颜色偏好所引起的偏估 类型,可称之为颜色偏误. 结论:随意抽样≠随机抽样
n N
其次,它是设计其他更复杂抽样形式的基础. 例如,设计分层抽样,将总体划分为若干层, 然后对各个层实施简单随机抽样.对一个非常 大的总体,需要分若干个阶段进行抽样.例如, 进行全国性抽样调查,第一阶段可以由全国抽 取若干个省份,第二阶段再由抽中的省份抽取 若干个县(市);第三阶段再由抽中的县(市)抽 取若干个乡(街道);第四阶段再由抽中的乡 (街道)抽取若干个村(居委会)等等.在这种多 阶段抽样中,每个阶段中抽取样本单位均可采 用简单随机抽样方法.
1,随机数表及其使用方法 随机数表是由0到9的10个阿拉伯数字进行随机排列 组成的表. 所谓随机排列,即每个数字都是按等概和重复独立 抽取的方式排定的. 随机数表的用途很多,不仅可以组织等概样本,也 可组织不等概样本. 简单随机抽样属等概率抽样,在使用随机数表时, 要注意以下几点: ①每次使用时,确定使用哪页及哪行哪列的数字为 起点,必须是随机的. ②设总体容量为N,若N的位数为r,则一定要从r位 数中抽取.遇到1至N的数可直接使用;遇到其它的 数不能直接使用.
再次,是衡量其他抽样效果的比较标准.抽样 效果首先体现在抽样误差的大小上.而反映或 者比较某一抽样形式的误差大小,需要有一个 比较指标,这通常采用抽样设计效果指标 Deff, 这个抽样设计效果是以某一抽样形式的方差与 简单随机抽样的方差进行对比,设前者为V(θ1) , 后者为V(θ0),那么,抽样设计效果为:
-
样本编号 1 2 3 4
样 本 U1 U2 U3 U4
样本观测值 Y1 Y2 Y3 Y4
Y 的估计值
Y1 Y2 Y3 Y4
YY
Y1- Y Y2- Y Y3- Y Y4- Y
由上述分析可知
1 E (Y ) = ∑ Yi = Y 4
1 MSE (Y ) = ∑ (Yi Y ) 2 = σ 2 4
③当r≥2时,可从含有起点数字左边的r位数开始,也可从右边的r 位数开始.可从起点开始向下抽取,也可向右抽取.但一经确定使 用哪一种方式,就必须用一种方式抽取全部单元号,中途不能变更. ④在重复抽样时,遇到重复的数字应重复使用;在不重复抽样时, 遇到重复的数字应舍去不用. 随机数表法一般分下述几步: 第一步:确定起点页码; 第二步:确定起点的行数与列数; 第三步:确定所抽样本单元的号码. 快速抽取的常用方法有: 余数法.如果N是个r位数,由1到 随机取一个数R,而 是N的最大 N′ N r位整倍数,则编号等于R除N所得余数的单元便被选中. ′ 商数法; 修正余数法; 修正商数法; 独立选择数位法.
第三章 简单随机抽样
第一节
简单随机抽样概述
一,简单随机抽样的概念
定义之一:简单随机抽样就是从总体N个抽样单元中,一次 A =( N ) 种不同的样本被抽到 抽取n个单元时,使全部可能的 n 的概率均相等,即都等于1/A. 定义之二:简单随机抽样是从总体的N个抽样单元中,每次 抽取一个单元时,使每一个单元都有相等的概率被抽中, 连续抽n次,以抽中的n个单元组成简单随机样本. 按简单随机抽样,抽到的样本称为简单随机样本. 简单随机抽样是一种最简单,最基本的抽样组织形式.它 适用于均匀总体,即具有某种特征的总体单位均匀地分布 于总体的各个部分.简单随机抽样具有下列优点:
三,简单随机抽样的方法评估
1.简单随机抽样对总体不加任何限制,等概率地从总 体中直接抽取样本,是最简单,最单纯的抽样技术, 它具有计算简便的优点,是研究其它复杂抽样技术的 基础,也是比较各种抽样技术之间估计效率的标准, 同时,从理论上讲简单随机抽样在各种抽样技术中是 贯彻随机原则最好的一种,并且数学性质很简单,是 等概率抽样的特殊类型. 2.因为是等概率抽取样本,所以要求总体在所研究的 主要标志上同质性或齐性(共性)较好,也即总体要比 较均匀;要求样本容量要比较大,以保证样本对总体 具有充分的代表性.但是,在社会经济现象中,这种 均匀总体是很少见的.因此,实际工作中很少单纯使 用简单随机抽样方法.
由四个单元中不放回抽取2个单元的可能结果
样本 样本观测值 样本均值 U1 U2 Y1 ,Y2 U1 U3 Y1 ,Y3 U1 U4 Y1 ,Y4 U2 U3 Y2 ,Y3 U2 U4 Y2 ,Y4 U3 U4 Y3 ,Y4
Y1 + Y2 2
Y1 + Y3 2
Y1 + Y4 2
Y2 + Y3 2
Y2 + Y4 2
第二节
总体参数的估计
一,基本原理 U U U 设总体包含有 U 1, 2, 3, 4 四个单元,其观测值分别 Y Y Y 为 Y1 , 2 ,3 , 4 ,则总体均值为=( Y1 + Y2 + Y3 + Y4 )/4. 现用简单随机抽样法抽一个单元并以其观测值来估计 总体均值,则这四个单元每个都是可能的样本,而每 个可能样本被抽中的概率均为四分之一.每个样本观 测值本身就可以当作总体均值的一个估计值.显然, 根据不同样本估计的结果与总体均值之间通常并不一 致,而是存在一个的误差.下表列出了抽到不同样本 时的结果:
所以,是Y 的无偏估计量.的均方误差(MSE)为 Y Y
即总体方差.又因为 Y是Y 的无偏估计量,因此,估计量的 方差等于均方误差,即
2 ) = σ 2 = σ ( 4 1) V (Y 1 4 1
若用不放回简单随机抽样法从上例的总体中抽取2个单元 组成样本,则可以得到 U 1U 2 ,U 1U 3 ,U 1U 4 ,U 2U 3 ,U 2U 4 ,U 3U会有不同的估计结果,如表所示:
2,随机数骰子及其使用方法 随机数骰子是由均匀材料制成的正二十面体(通常的骰子 是正六面体,即正方体),面上刻有0-9的数字各2个.
两个有名的试验
试验一:随意数试验. 让六个人写下100个自己随意想到的三位数,将这些数内 的0,1,…,9数字列成次数分布表. 可见,六个人都对数字存在偏好,如第一个人更加偏好 数字4,3,0;第二个人则偏好数字1,8,4;等等.这 种由于数字偏好所引起的偏估类型可称之为数字偏误.
数字 0 1 2 3 4 5 6 7 8 9 合计
人的编号 1 50 29 20 50 55 20 30 12 25 9 300 2 1 48 19 39 40 18 26 39 42 28 300 3 38 30 28 34 28 31 26 32 30 23 300 4 29 57 31 34 29 15 27 35 23 20 300 5 34 33 20 24 15 30 31 42 44 27 300 6 59 27 22 24 27 25 15 35 37 29 300
二,估计量
1,总体均值和总和的简单估计量 在简单随机抽样条件下,总体均值的简单估计量为: n
Y =y=
∑y
i
i
可以证明,样本均值是总体均值的无偏估计,即:
E( y) = Y
n
因此总体总和的简单估计量为:
Y = Ny = N ∑ yi
i n
n
N = n
∑y
i
n
i
其中N/n也称作膨胀因子.
2,总体比例的简单估计量 抽样调查中,经常需估计总体中具有某种特性的单元总数 及其在总体中所占的比例(即成数). 设总体中的N个抽样单元按其是否具有某种特性可分成D和 D′ D 两类,D类具有某种特性, ′类不具有某种特性.D类有N1 个单元, ′类有 N 0个单元,则: D
n 式中, 为某一抽样形式的样本单位数, n′ 表示 在相同的抽样方差下,采用简单随机抽样形式所需要 n 的样本单位数.在上面的例子中, =100户, =0.51, Deff 所以, =100÷0.51=196 n′
二,简单随机抽样的具体实施方法 (一)抽签法 抽签法是先对总体N个抽样单元分别编上1到N的 号码,再制作与之相对应的N个号签并充分摇匀 后,从中随机地抽取n个号签(可以是一次抽取n 个号签,也可以一次抽一个号签,连续抽n次), 与抽中号签号码相同的n个单元即为抽中的单元, 由其组成简单随机样本. (二)随机数法 随机数法就是利用随机数表,随机数骰子或计算 机产生的随机数进行抽样.
V (θ1 ) Deff = V (θ )
0
这个设计效果Deff 取反指标的形式.若Deff 值大 于等于1,即V (θ1 ) ≥V(θ0 ),则抽样估计效果较差; 反之,Deff 小于l,即V(θ1) <V(θ0),则抽样估计效果 较好.
例如,用分层抽样从某企业抽100个职工户,调查每 户平均收入,得到抽样方差 V1 =25,以相同的单位数 用简单随机抽样形式,得到抽样方差V 0=49,则抽样 设计效果为: Deff =25÷49=0.51 这表明在同样抽取100户条件下,用分层抽样优于简 Deff 单随机抽样.并且,可以利用抽样设计效果 计算 有效单位数 n′: n n′ = Deff