第三章简单随机抽样

Chap03简单随机抽样

N i j
(Yi
Y
)(Yj
Y
)

1 nN
1
n 1 N 1
N i 1
(Yi
Y
)2
n 1 N 1

N i 1
(Yi
Y
2 )

1 n

N N
n

1 N 1
N i 1
(Yi
Y
)2
1 f S2
n
证明Ⅱ：仍引进随机变量 ai ：
N 1 n 1

N n

n N
ˆ
f
E(ai )
n N

f
(3.5)
借助 ai ，样本均值 y 可以表示成:
y

1 n
N i 1
aiYi
(3.6)
E( y) 1
n
N
E(ai )Yi
i 1
1 n
n N
N
Yi
i 1
Y
推论： Y 的简单估计量Yˆ Ny 也是无偏的，即: E(Ny ) Y
所有可能的样本求平均: E( y)
N 1 y n

N n

个样本中，包含特定单元
Yi
的样
本数为

N 1 n 1
，也有同样多样
本含有任何其他单元，因此
y 1
n
( y1
y2

yn )

1 n

N 1 n 1
数，则编号为这些随机数的 n 个单元组成一个简单随机样本。
随机数的产生可使用随机数骰子或随机数表。
图 3.1 随机数骰子随机数骰子：标上 0～9 数字的正 20 面体（每个数字出现在两面）

应用抽样技术课后习题答案

=(0.0907,0.4433)
N1的95%的置信区间为: (159，776) 95%的置信区间为 (159，的置信区间为:
(3)N=1750，n=30， (3)N=1750，n=30，n1=8, t=1.96, p=0.267, q=1q=1-0.267=0.733 由此可计算得： t 2q 1.962 × 0.733 n0 = 2 = =1054.64 r p 0.01× 0.267 n = n0/[1+(n0—1)/N] = 1054.64/[1+1053.64/1750]=658.2942 = 659 计算结果说明，至少应抽取一个样本量为659的简单随机样本，才能满足95%置信度条件下相对误差不超过10%的精度要求。
t=1.96 (2)易知，N=1750，n=30， n = 8 1 n 8 N − n 1750 − 30 1− f p= 1 = = 0.267 = = = 0.03389 n −1 (n −1)N 29 ×1750 n 30
pq = p(1 − p) = 0.267 × 0.733 = 0.1957
5.5 证明：由（5.6）得：
V ( yR ) ≈ 1− f n (Yi − RX i )2 ∑
i =1 N
N −n 2 令 Sd = V , Nn
2 d
N −1
=
N −n 2 Sd Nn
则n(NV + S ) = NS ，
2 d
S 2 NSd 从而n = = V 2 2 NV + Sd Sd 1+ NV
第五章比率估计与回归估计
5.2 N＝2000, n＝36, 1－α＝0.95, t＝1.96, ˆ f = n/N＝0.018， v(R) = 0.000015359， ˆ se(R) ＝0.00392 置信区间为[40.93%,42.47%]。置信区间为[40.93%,42.47%]。

第三章抽样的原理及类型

五、抽样设计得原则
1、目得性原则 2、可行性原则 3、高效性原则
第三节样本规模与抽样误差
一、样本规模及其计算
1所、含定元义素:样得本多规少模。又确称定样样本本容规量模,就指是得每就一是项样具本体中得社会调查所必须解决得问题之一。
不能少于100个元素
2、简单随机抽样中样本规模计算公式: a,推论总体平均数
4、实际抽取样本
实际抽取样本得工作就就是在上述几个步骤得基础上,严格按照所选定得抽样方法,从抽样框中抽取一个个得抽样单位,构成样本。依据抽样方法得不同,以及依据抽样框就是否可以事先得到等因素,实际得抽样工作既可能在研究者到达实地之前就完成,也可能需要到达实地后才能完成。即既可能先抽好样本,再下去直接对预先抽好得对象进行调查或研究;也可能一边抽取样本一边就开始调查或研究。
继续保持安静
置信区间
指在一定得置信度下,样本统计值与总体参数值之间得误差范围。反映得就是抽样得精确性程度。
二、抽样得作用
向人们提供一种实现“由部分认识整体”这一目标得途径和手段。
日常生活中得抽样
第二节抽样得类型与抽样程序
一、抽样得类型从大得方面看,各种抽样都可以归为概率
抽样与非概率抽样两大类,这就是两种有着本质区别得抽样类型。
抽样
从组成某个整体得所有元素得集合中,按一定得方式选择或抽取一部分元素得过程。
比如,从1000户家庭构成得总体中,按一定得方式抽取一个由100户家庭构成得样本得过程。
抽样单位
抽样单位就就是一次直接得抽样所使用得基本单位。抽样单位与构成总体得元素有时就是相同得,有时又就是不同得。
如从32万名大学生抽取1000大学生,单个大学生既就是元素,又就是抽样单位;但就是,抽取40个班级(假定正好就是1000名)时,抽样单位与构成总体得元素就不一样了。

第三章-简单随机抽样

不放回也称不重复抽样，每次从总体中随机抽取一个样本单位，经调查观测后，不再将该单位放回总体参加下一次抽样，然后再在剩下的总体单位中随机抽取下一个样本单位进行调查观测，直到抽够n个样本单位为止。
N!
考虑顺序可能的样本为 N n !
每个样本被抽中的概率为 ( N n)! N!

s2 1358.41, v( y) (1 f )s2 / n 37.6444, se( y) 6.1355
对该校大学生某月电信消费人均支出额的估计为 53.64元，在置信度95%下，临界值1.96，可以说以 95%的把握说明该校大学生该月的人均支出在 [53.64+(-)1.96*6.1355],即41.61~65.67元。
n 1
2n
正态近似产生的误差主要与nP有关，特别当nP比较小时，产生的误差甚大，在95% 置信度下，P<0.5时正态分布需要的最小nP 值与n值如下表。
P
nP
0.5
0.4
0.3
0.2
0.1
0.05
0
n
15
30
20
50
24
80
40 200
60 600
70 1400
80 无穷
试以95%的置信度估计上例大学生月电信消费超过80元的人数及其比例。
N n S2 N n
nN
为调查某校大学生的电信消费水平，在全校Ｎ＝15230名学生用简单随机抽样抽取 n=36名学生，调查上月电信支出数据。试以95%的置信度估计该校大学生该月电信消费的平均支出额。
样本序号消费元/月样本序号消费
样本序号消费
1
45
13

统计学第三章抽样与抽样分布

=10
= 50 X
总体分布
n= 4
x 5
n =16
x 2.5
x 50
X
抽样分布
从非正态总体中抽样
结论：
从非正态中体中抽样，所形成的抽样分布最终也是趋近于正态分布的。只是样本容量需要更大些。
总结：中心极限定理
设从均值为，方差为 2的一个任意总体中抽取容量为n的样本，当n充分大时（超过30），样本均值的抽样分布近似服从均值为μ、方差为σ2/n的
总体
样本
参数
统计量
总体与样本的指标表示法
总体参数
样本统计量
(Parameter) (Sample Statistic)
容量平均数比例方差标准差
N
n
X
x
p
2
s2
s
小练习
某药品制造商感兴趣的是用该公司开发的某种新药能控制高血压人群血压的比例。进行了一项包含5000个高血压病人个体的研究。他发现用这种药后80%的个体，他们的高血压能够被控制。假定这5000个个体在高血压人群中具有代表性的话，回答下列问题： 1、总体是什么？ 2、样本是什么？ 3、识别所关心的参数 4、识别此统计量并给出它的值 5、我们知道这个参数的值么？
正态分布
一个任意分布的总体
x
n
当样本容量足够大时(n 30) ，样本均值的抽样分布逐渐趋于正态分布
x
X
总体分布
正态分布
非正态分布
大样本小样本大样本小样本
正态分布
正态分布
非正态分布
三中心极限定理的应用
中心极限定理(Central Limit theorem) 不论总体服从何种分布，从中抽取

初级1 -第三章简单随机抽样

n
n
n 1 N 1 n N
n 1 N 1
二、实施方法 • 抽签制作N个同质的签，充分混合。从中一次抽出n个签，或者先抽出一个签但不放回，再抽下一个签直到抽满n个签为止。抽出的这n个签对应的单元入选样本，这是不放回简单随机抽样；若从充分混合的N个签中抽取一个，记录后放回，再抽取下一个，如此进行，直到抽满n个为止，则是放回简单随机抽样。抽签法的实施起来比较麻烦，尤其是当总体单元数 N较大时，所以该方法的使用场合为当总体单元数 N比较小，签的制作比较方便时。
第三章简单随机抽样

第一节
基本问题
一、什么是简单随机抽样
从 N个单元的总体中抽取 n个单元组成的样本。总体单元数为 N，
样本量为 n。若抽样是放回的，每次都是从个总体单元中随机抽取1个单元，独立重复抽取n次，得到个单元组成的样本，叫做放回简单随机抽样。若抽样是不放回的，每次都是从剩下的总体单元中随机抽取1个单元，相继依次抽取n次，得到n个单元组成的样本，叫做不放回简单随机抽样。
精度margin of error
对精度的要求通常以允许最大绝对误差
差限）或允许最大相对误差（相对误差限）来表示。
r
d（绝对误
d 1 P
P r 1

样本量足够大时，可用正态分布近似
ˆ tS ˆ d t V
2
第三章基本概念
N n N 1
N n N
为修正系数
2
为 S 修正系数
n f ，称抽样比， N
2
令
N n 1 f 有限总体调整系数故， N 2
S V ( y ) (1 f ) n

第三章抽样设计

一、方便抽样
又称任意抽样。一般由调研人员从工作的方便出发，在调研对象的范围内随意抽取一定数量的样本进行调查。
最常用的两种方法是“街头拦截法” 最常用的两种方法是“街头拦截法”和 “空间抽样法” 空间抽样法” 特点：节约费用和时间，但样本的信息不适用于总体参数的推断。
注意：
方便抽样一般用于非正式的探索性调查，只有在调查总体各单位之间的差异不大时，抽取的样本才有较高的代表性。
抽取样本的数量
允许误差％ 1 2 3 4 5 6 7 可信程度（把握程度）％ 95 99 9600 16589 2400 4147 1067 1849 600 1037 384 663 267 461 196 339
一、简单随机抽样
适用范围：调查总体中各个体之间差异程度较小的情况下，或者调研对象不明，难以分组、分类的情况。常用方法：１、抽签法２、随机数表法
二、系统抽样
又称等距抽样，就是先将调查总体的各个体按照一定的标志排列起来，然后按照固定的顺序和一定间隔来抽取样本个体。
排队的标志有两种：１、按调查项目有关的标志排队２、按调查项目无关的标志排队
(独立控制配额)按年龄分组: 独立控制配额)按年龄分组:
按年龄分组 18-29岁 18-29岁 30-40岁 30-40岁 41-55岁 41-55岁 56岁 56岁合计人数 40 60 70 30 200
按性别分组
性别人数 100 100 200
男
女
合计
相互控制配额抽样
合计 40 60 70 30 收入性别年龄 18-29岁 18-29岁 30-40岁 30-40岁 41-55岁 41-55岁 56岁以上 56岁以上合计高男 3 6 6 3 18 女 4 5 6 3 18 中男 7 11 13 6 37 女 8 11 13 5 37 低男 9 13 16 7 45 女 9 14 16 6 45

第3章抽样分布

样本方差s2
s2取值的概率
0.0 0.5
4/16 6/16
2
4.5
39
4/16
2/16
0.00 0.0 0.5 s的取值 2.0 4.5
(用Excel计算2分布的概率)
1. 利用Excel提供的CHIDIST统计函数，计算2分布右单尾的概率值
2. 语法为 CHIDIST(x,df) ，其中 df 为自由度， x 是随机变量的取值 3. 给定自由度和统计量取值的右尾概率，也可以利用“插入函数”命令来实现 4. 计算自由度为8，统计量的取值大于10的概率
σ2 =1.25
23
x 2.5
x2 0.625
样本均值的抽样分布
当总体服从正态分布N(μ,σ2)时，来自该总体的所有容量为n的样本的均值x也服从正态分布，x 的数学期望为μ，方差为σ2/n。即x～N(μ,σ2/n)
=10
n=4 x 5 n =16 x 2.5
37
2分布
(图示)
选择容量为n 的不同容量样本的抽样分布
n=1 n=4 n=10
总体
简单随机样本

计算样本方差s2
计算卡方值
n=20
2 = (n-1)s2/σ2
计算出所有的
2
2值
38
2分布
(例题的图示)
16个样本方差的分布
s取值的概率
0.40 0.35 0.30 0.25 0.20 0.15 0.10 0.05
13
三种不同性质的分布
1 2 3
14
总体分布样本分布抽样分布
总体分布
(population distribution)