统计学第六章抽样调查

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

❖ 区间估计
点估计
❖ 从总体中抽取一个样本,根据该样本的 统计量对总体的未知参数作出一个数值 点的估计
▪ 例如: 用样本均值作为总体未知均值的估计 值就是一个点估计
❖ 点估计没有给出估计值接近总体未知参数 程度的信息
点估计
❖ 常用的点估计量有:

落在总体均值某一区间内的样本
x = Zx
x_
有偏样本方差和标准差是总体方差和标准差的一致、 有效估计量,但不是无偏估计量
无偏样本方差和标准差是总体方差和标准差的一致、 有效、无偏估计量
评价估计量的三个评价标准
❖ 无偏性 ❖ 有效性 ❖ 一致性
估计量的优良性准则——无偏性
❖ 无偏性:估计量的数学期望等于被估计的总 体参数
P( X )
无偏
有偏
A
C
X
估计量的优良性准则——有效性
有效性:一个方差较小的无偏估计量称为一个更
有效的估计量。如,与其他估计量相比,样本均值 是一个更有效的估计量
P(X )
均值的抽样分布
B
中位数的抽样分布
A
X
估计量的优良性准则——一致性
❖ 一致性:随着样本容量的增大,估计量越来越接
近被估计的总体参数
P(X )
较大的样本容量
从1、2 、3、4中随机抽取2个的样本数
重复抽样考虑顺序
16
1、1 2、1 3、1 4、1
1、2 2、2 3、2 4、2
1、3 2、3 3、3 4、3
1、4 2、4 3、4 4、4
从1、2 、3、4中随机抽取2个的样本数
不重复抽样考虑顺序 12
2、1 3、1 4、1
1、2
3、2 4、2
1、3 2、3
n
N
例题2
xf
x
f
8400 200
42
s (x x)2 f 12200 7.81
f
200
2 (1 n ) 7.812 (1 200 ) 0.55
x
n
N
200
2000
例题3
❖某冷库的10万只冻鸡合格率为97%, 如果按重复抽样与不重复抽样各抽 取1000只和2000只,分别计算抽样 平均误差。
抽样误差
❖抽样误差
❖ 抽样误差是指不包括登记性误差和系统 性误差在内的随机误差,它衡量了抽样 估计的精确度。
抽样误差
误 登记性误差 差
系统性误差 代表性误差
随机误差
实际误差 平均误差
抽样误差
❖ 与抽样误差有关的三个概念
抽样实际误差:指在某一次具体抽样中,样 本指标值与总体参数真实值之间的偏差。
(x)
2
n
不重复简单随机抽样:
(x) 2 ( N n) 2 (1 n )
n N 1 n N
其中, 2 为总体方差;
N n 为不重复抽样的修正因子。
N 1
抽样平均误差
❖ 样本成数的抽样平均误差
重复抽样条件下
( p) P(1 P)
n
不重复抽样条件下:
( p) P(1 P) (1 n )
对普查或全面调查统计资料的质量进行检查和修 正;
抽样方法适用于对大量现象的观察,即组成事物 总体的单位数量较多的情况
利用抽样推断的方法,可以对于某种总体的假设 进行检验,判断这种假设的真伪,以决定取舍。
抽样的基本概念
❖ 抽样涉及的基本概念有:
总体与样本(见第一章) 总体参数与样本统计量 重复抽样与不重复抽样
抽样调查
❖ 抽样调查的特点
遵守随机原则: 无人为因素、公正、公平
用抽样指标推断总体的指标: 方便、快捷、节约费用
抽样误差可以事先计算并加以控制 准确、能够满足调查目的的要求
抽样调查的适用范围
实际工作不可能进行全面调查观察,而又需要了 解其全面资料的事物;
虽可进行全面调查观察,但比较困难或并不必要;
置信下限
置信上限
区间估计
设总体参数为 ,由样本确定的两个统计量,
对于给定的,有
P(1 2 ) 1
则称 (1,2 )为参数的置信度为 1 的置信 区间,该区间的两个端点 1,2 分别称为置信
下限和置信上限,统称为置信限。 为显著
性水平,1 则称为置信度。
置信水平
❖ 总体未知参数落在区间内的概率,表示 为 (1 -
为显著性水平,是总体参数未在区间内 的概率
❖ 常用的置信水平值有 99%, 95%, 90%, 相应的 为0.01,0.05,0.10
区间与置信水平
均值的抽样分布
x
/2
1-
/2
X
x
(1 - ) % 区间包含了 % 的区间未包含
总体均值的置信区间 (2 已知)
❖ 假定条件
总体服从正态分布,且总体方差(2)已知 如果不是正态分布,可以由正态分布来近似 (n 30)
,试建立该种零件平均长度的置信区间, 给定置信水平为0.95。
❖ 解:已知x ~N(,0.152),x=2.14, n=9, 1 = 0.95,Z/2=1.96,总体均值的置信区
间为
x Z 2
n
,
x
Z
2
n
21.4
1.96
0.15 9
,21.4
1.96
0.15 9
21.302,21.498
❖ 使用正态分布统计量Z
Z x ~ N (0,1) n
❖ 总体均值 在1-置信水平下的置信区间为
x Z 2
n , x Z 2
n
总体均值的区间估计
(正态总体:实例)
【例】某种零件长度服从正态分布,从该 批产品中随机抽取9件,测得其平均长度
为21.4 mm。已知总体标准差 =0.15mm
抽样调查
学习提纲
❖ 抽样调查的基本问题 ❖ 简单随机抽样 ❖ 抽样推断 ❖ 抽样数目的确定 ❖ 其他抽样
统计推断的过程
总体

样本统计量

例如:样本均
值、比例、方

抽样调查
❖ 抽样调查与普查 ❖ 抽样调查的意义
一般所讲的抽样调查,即指狭义的抽样调查 (随机抽样)
按照随机原则从总体中抽取一部分单位进行 观察,并运用数理统计的原理,以被抽取的 那部分单位的数量特征为代表,对总体作出 数量上的推断分析。
非概率抽样:又称非随机抽样,是指从研究的目 的和需要出发,根据调查者的经验或判断,从总 体中有意识地抽取部分单位构成样本。
应用举例:重点调查、典型调查应为非概率抽样。
抽样调查的基本概念
重复抽样:又称有放回的抽样,从总体中 抽取样本时,每次被抽中的单位都再被 放回总体中参与下一次抽样。
不重复抽样:又称无放回的抽样,总体中 随机抽选的单位经观察后不放回到总体 中,即不再参加下次抽样。
pˆ -tu p ≤P ≤ pˆ + tu p
成数的置信区间
❖ 假定条件 两类结果 总体服从二项分布 可以由正态分布来近似
数的比例称为样本成数,记作p p=n1/n
样本成数
❖ 样本成数的方差
样本成数的无偏方差(n<=30)
s
2 p
n n 1
p(1
p)
样本成数的有偏方差(n>30)
s02p p(1 p)
❖ 样本成数的标准差
样本成数
❖ 样本成数的性质
❖ x1,x2……xn的各标志值中有n1个值为1,有n0个
值为0,所以:
- 2.58x
-1.65 x
+1.65x + 2.58x
x
-1.96 x
+1.96x
90%的样本
95% 的样本
99% 的样本
区间估计
❖ 根据一个样本的观察值给出总体参数的估计范围 ❖ 给出总体参数落在这一区间的概率 ❖ 例如: 总体均值落在50~70之间,置信度为 95%
置信区间
样本统计量 (点估计)
抽样平均误差
❖ 抽样估计效果好坏,关键是抽样平均误差的 控制。抽样平均误差小,抽样效果从整体上 看就是好的;否则,抽样效果就不理想。
❖ 抽样平均误差受以下几方面的因素影响:
总体的变异性,即与总体的标准差大小有关 样本容量 抽样方法 抽样的组织形式
抽样平均误差
❖ 实际抽样推断中采用的公式(*)
重复简单随机抽样:
抽样极限/允许误差:又称置信区间,是指一 定概率下抽样误差的可能范围,说明样本估 计量在总体参数周围变动的范围,记作Δ。
抽样平均误差
❖ 抽样平均误差
所有可能的样本指标与总体指标之间的平均 差异程度,即样本估计值的标准差。
反映抽样平均数的所有可能值对总体平均数
的平均离散程度,记作 (x)。
抽样平均误差和抽样极限误差分为在简单随 机抽样条件下,重复抽样和不重复抽样两种 情况
解:已知 x=26, =6,n=100, 1- =
0.95,Z/2=1.96
x Z 2
n , x Z 2
n
26 1.96
6 ,26 1.96 100
6 100
24.824,27.176
结论:我们可以95%的概率保证平均每天参加锻炼 的时间在24.824~27.176 分钟之间
成数的区间估计 p tu p
4、3
1、4 2、4 3、4
从1、2 、3、4中随机抽取2个的样本数
重复抽样不考虑顺序 10
1、1
1、2 2、2
1、3 2、3 3、3
1、4 2、4 3、4 4、4
从1、2 、3、4中随机抽取2个的样本数
不重复抽样不考虑顺序
1、2
1、3 2、3
6
1、4 2、4 3、4
抽样调查的组织形式
❖ 简单随机抽样 ❖ 类型随机抽样 ❖ 等距抽样 ❖ 整群抽样
x
1 n
n i 1
xi
n1 n
p
成数是一种特殊的平均数
总体中具有某个属性的单位占全体单位的比重
样本成数p是总体成数P的无偏、一致、有效估计量
样本成数的无偏方差是成数总体方差的无偏估计量
例题1
❖某市有140 000户,从中随机抽取40 户,每户家庭人口数如P243表9-2, 试用这一样本资料估计全市每户平 均人口数,3人家庭在全市户数中所 占的比例和标准差
❖ 这些概念是统计学特有的,体现了统计学的 基本思想与方法。
抽样调查的基本概念
❖ 总体:由被调查对象的全部单位所构成的集
合体 总体单位数用N表示。
❖ 抽样总体:抽取出来调查观察的单位。
抽样总体的单位数用n表示。 n ≥ 30 大样本 n < 30 小样本
抽样估计的概念和特征
❖抽样估计:在抽样调查的基础上,利用 样本的数据资料计算样本指标,以样本 特征值对总体特征值做出具有一定可靠 程度的估计和判断。
A
B
较小的样本容量
X
成数
❖ 总体成数
每个总体单位标志值设为0或1 1:具有某种属性的总体单位标志值 0:不具有某种属性的总体单位标志值 总体中具有某种特征的单位占全部总体单位
数的比例称为总体成数,记作P 成数总体方差:P(1-P)
总体成数和样本成数
❖ 样本成数
从成数总体中抽取样本容量为n的样本 样本中具有此种特征的单位占全部样本单位
❖ 通常有以下四种组织形式:
直接抽选法
总体单位不编号,不编制抽样框
抽签法
对总体所有单位进行编号,且签需外形一致
随机数表法
总体所有单位编号,使用随机数表抽样
计算机模拟法
将随机数字编程
简单随机抽样
❖ 总体和样本的平均数
❖ 总体和样本的方差和标准差
有偏(n>30) 无偏(n≤30)
❖ 数理统计表明:
抽样极限误差
❖ 样本平均数的抽样极限误差:以绝对值形式 表示的样本平均数的抽样误差的可能范围, 用符号表示为:
x x
即:
x
x
x
百度文库
抽样极限/允许误差
❖ 样本成数的抽样极限误差:以绝对值形式表 示的样本比例的抽样误差的可能范围,用符 号表示为:
p P p
即:
Pp p Pp
❖ 点估计
抽样估计
简单随机抽样调查
❖ 简单随机抽样
从总体单位中不加任何分组、排队,完全随 机地抽取调查单位。
❖ 评价:
简单易行,最符合随机原则,是抽样调查的 基本形式
❖ 适用情况:
当总体单位数不多且分布比较均匀,或总体 单位之间数量特征值差异较小,或总体单位 有现成的编号时,采用这种方式比较适宜。
简单随机抽样调查
抽样估计的特征
❖抽样估计是由部分推断总体的一种认识方法。 ❖抽样估计建立在随机取样的基础上。 ❖抽样估计运用的是不确定的概率估计方法 ❖抽样估计的误差可以事先计算并加以控制。
抽样调查的基本概念
❖ 总体参数和样本统计量
❖ 所谓推断,就是用样本指标来推断总体指标
用抽样平均数x 推断总体平均数X
用抽样成数p推断总体成数P
总体参数和样本统计量符号
总体参数
总体容量: N 总体平均数:
总体成数: P 总体方差: 2 总体标准差:
样本统计量
样本容量: n 样本平均数: x
样本成数: p 样本方差: S 2 样本标准差: S
抽样调查的基本概念
❖ 概率抽样与非概率抽样
概率抽样:又称随机抽样,是按随机原则抽取样 本单位。本章所指的均为概率抽样。
结论:我们可以95%的概率保证该种零件的平均长度在 21.302~21.498 mm之间
总体均值的区间估计
(非正态总体:实例)
【例】某大学从该校学生中随机抽取100 人,调查到他们平均每天参加体育锻炼 的时间为26分钟。试以95%的置信水平 估计该大学全体学生平均每天参加体育 锻炼的时间(已知总体方差为36小时) 。
相关文档
最新文档