第七章 抽样推断与检验

合集下载

第七章 抽样设计与推断(改)

第七章  抽样设计与推断(改)

第七章抽样设计与推断第一节抽样设计一、抽样推断与抽样设计的概念(一)抽样推断抽样推断(Sampling inference)是在抽样调查的基础上,利用样本的实际资料计算样本指标(统计量),并据以推算总体相应特征值(总体参数)的一种统计分析方法。

抽样推断具有如下特点:第一,抽样推断是建立在随机取样的基础上。

按随机原则抽取样本单位,是抽样推断的前提。

所谓随机原则就是在抽选调查单位的过程中,完全排除人为的主观因素的干扰,以保证使现象总体中的每一个个体都有一定的可能性被选中。

换句话讲,哪些单元能够被选作调查单位纯属偶然因素的影响所致。

这里需说明几点:①随机并非“随意”。

随机是有严格的科学含义的,可用概率来描述,而“随便”仍带有人为的或主观的因素,它不是一个科学的概念;②随机原则不等于等概率原则;③随机原则一般要求总体中每个单元均有一个非零的概率被抽中;④抽样概率对总体参数的估计有影响。

只有坚持抽取的随机原则,才能使被抽中单位的频数分布类型与调查对象相同,从而增强被抽中单位对总体的代表性,达到推断总体的目的。

第二,抽样推断是由部分推算整体的—种认识方法。

即对抽取的调查单位进行调查研究,取得调查单位的实际资料,计算出调查单位的指标数值,并据以推断和估计总体的指标数值。

第三,抽样推断以概率论中的大数法则和中心极限定理为理论依据。

第四,抽样误差可以事先计算和控制。

抽样调查除具有十分明显的特色之外,还在实际应用过程中发挥着突出的作用。

其一,抽样调查能够解决全面调查所无法解决的现象的调查问题。

在实际工作中,对某些现象常常可能一方面需要了解其全面情况,另一方面又由于现象自身的特性决定了无法通过全面调查获取资料。

此时,只有使用抽样调查。

该类现象主要有:(1)产品质量的破坏性检验。

如轮胎的里程寿命试验,青砖的抗折耐压试验,炮弹的杀伤力试验,弹簧的抗拉强度试验等等。

(2)无限总体的调查。

无限总体所包含的总体单位数目无限多个,无法一一调查。

(抽样检验)第七章整群抽样最全版

(抽样检验)第七章整群抽样最全版

(抽样检验)第七章整群抽样第七章整群抽样第壹节整群抽样概述壹、整群抽样的概念整群抽样是先将总体各单元划分成若干群(组),然后以群为单位,从中随机抽取壹部分群,对中选群内的所有单元进行全面调查。

确切地说,这种抽样组织形式应称为单级整群抽样。

如果总体中的单元能够分成多级,则能够对前几级单元采用多阶抽样,而在最后壹阶中对该阶抽样单元所包含的全部个体(最基本单元)进行调查,这种抽样称作多级整群抽样。

本章只讨论单级整群抽样。

设总体被划分为N群,第i群含有Mi个次级单元,全部总体次级抽样单元数记为M0,即M0=∑M i。

当诸Mi都相等时,称为等群;否则,称为不等群。

采用整群抽样的俩个理由:-抽选群能大大降低数据收集的费用,当总体的分布比较广且调查采用面访时更是如此;-从总体中直接抽选个体在实际中且不总是可行的(没有关于个体的抽样框);有时,抽选单元组成群体组更简便易行(如整个住户)。

整群抽样包括俩步:首先,总体被分为群;然后,在总体中抽取群的样本且访问群中的所有单元。

如果总体单元是自然分成组或群的,创建壹个这种关于群的抽样框且对它们进行抽样比创建总体中所有单元的名录框更为容易。

或者,无法得到关于总体中所有单元的名录框,但却有这些单元分布地域的地图,因而能够创建地域框。

群的抽取能够采用简单随机抽样、系统抽样或PPS抽样等各种不同的方法。

二、群的划分问题整群抽样策略的统计效率取决于群内单元的相似程度有多大,每个群中有多少单元,及抽中群的数量。

同分层抽样壹样,整群抽样的前提是先要对总体进行分群。

关于群的划分,有俩个问题:壹是如何定义群,即当群且非是壹个自然形成的单位时,确定每个群的组成;二是如何确定群的规模即群的大小。

分层抽样是在各层都进行随机抽样,“层是缩小了的总体”,抽样单元仍然是总体基本单元。

这决定了分层的原则是:尽量缩小层内差异,而扩大层间差异。

而整群抽样只是在各群之间抽取壹部分群进行调查,且在抽中的群内作全面调查。

(抽样检验)第七章整群抽样

(抽样检验)第七章整群抽样

第七章整群抽样第一节整群抽样概述一、整群抽样的概念整群抽样是先将总体各单元划分成若干群(组),然后以群为单位,从中随机抽取一部分群,对中选群内的所有单元进行全面调查。

确切地说,这种抽样组织形式应称为单级整群抽样。

如果总体中的单元可以分成多级,则可以对前几级单元采用多阶抽样,而在最后一阶中对该阶抽样单元所包含的全部个体(最基本单元)进行调查,这种抽样称作多级整群抽样。

本章只讨论单级整群抽样。

设总体被划分为N群,第i群含有Mi个次级单元,全部总体次级抽样单元数记为M0,即M0=∑M i。

当诸Mi都相等时,称为等群;否则,称为不等群。

采用整群抽样的两个理由:- 抽选群能大大降低数据收集的费用,当总体的分布比较广且调查采用面访时更是如此;- 从总体中直接抽选个体在实际中并不总是可行的(没有关于个体的抽样框);有时,抽选单元组成群体组更简便易行(如整个住户)。

整群抽样包括两步:首先,总体被分为群;然后,在总体中抽取群的样本并访问群中的所有单元。

如果总体单元是自然分成组或群的,创建一个这种关于群的抽样框并对它们进行抽样比创建总体中所有单元的名录框更为容易。

或者,无法得到关于总体中所有单元的名录框,但却有这些单元分布地域的地图,因而可以创建地域框。

群的抽取可以采用简单随机抽样、系统抽样或PPS抽样等各种不同的方法。

二、群的划分问题整群抽样策略的统计效率取决于群内单元的相似程度有多大,每个群中有多少单元,及抽中群的数量。

同分层抽样一样,整群抽样的前提是先要对总体进行分群。

关于群的划分,有两个问题:一是如何定义群,即当群并非是一个自然形成的单位时,确定每个群的组成;二是如何确定群的规模即群的大小。

分层抽样是在各层都进行随机抽样,“层是缩小了的总体”,抽样单元仍然是总体基本单元。

这决定了分层的原则是:尽量缩小层内差异,而扩大层间差异。

而整群抽样只是在各群之间抽取一部分群进行调查,并在抽中的群内作全面调查。

因此,群间差异的大小直接影响到抽样误差的大小,而群内差异的大小则不影响抽样误差。

第七章 抽样推断

第七章  抽样推断

抽样平均误差是指一个抽样方案的所有 可能样本的某统计量与总体相应指标的离 差的平均值。
因在现实的抽样中,我们只能取得一个 样本,不可能也没必要获得全部所有可能 样本,所以抽样平均误差也不可能通过所 有样本来直接计算。但从统计量的分布律 中我们已经知道:统计量是以总体相应指 标为期望值。抽样平均误差实质上就是该 统计量在其概率分布中的标准差。
总体也称为全及总体或母体。是指所要认识 的对象全体,它由具有某种共同性质的许多单 位所组成。总体的单位数通常都是很大的,甚 至是无限的。一般用大写字母N表示总体单位 数。
总体按其中包含的单位数可以分为有限总体 和无限总体。
(二)样本
样本也称为样本总体或子样。它是作为全及总 体的一个代表而存在的。样本中也有许多个体, 组成样本的单位也称为样本单位。样本中所包含 的单位数称为样本容量,通常用n表示。
例:从已有某种顺序(如学号顺序)的 1000人 中要抽取50人为样本进行调查,则比值为5%,也 就是每20人中抽1人。首先从1—20号中以简单随 机方式抽取一个号码,比如抽中12号,当第一个 号码确定后,以后要抽的单位就都确定了,32, 52,…,992。这50个号码所代表的人构成的样 本就是等距抽样的一个样本。
四、总体指标和样本指标
样本是总体的代表,所以总体指标和样 本指标是一一对应的。总体指标也称为总 体参数,是不变的、未知的,也是客观存 在的。样本指标也称为样本统计量,通过 调查,是可以知道的,但每个样本的样本 指标是不完全相同的,也就是说样本指标 是一个随机变量。
假定总体由X1, X2, …, XN组成 。 样本由x1,x2, …,xn 组成。
不重复抽样:
不考虑顺序的可能样本 重复抽样:

第七章 抽样推断

第七章 抽样推断

x x X x x
第七章 抽样推断
p p P p p
合适统计量 的估计值 合理的允 许误差 可接受的 置信度水平
t
概率度
5-40
• 区间估计的三要素 估计区间覆盖 总体参数真值 的概率 F(t)
• 区间估计的特点: • 不指出参数的确定数值,而是在一定的概 率保证程度下指出参数的可能范围。 • 估计的可靠程度可知,即为概率保证程度
X
区间估计的两个基本要求: 置信度 精确度
• 希望置信度尽可能大,精确度尽可能高。 • 但在样本容量n一定时,两者矛盾。
一般在给定的概率保证程度下,尽可能 提高估计的精度(通过降低标准误)。
第七章 抽样推断
抽样极限误差(精度) 与概率保证程度(可靠程度) 99.73%
95.45% 68.27%
3 x 2x x
抽样推断包括三方面的内容:
1、抽样。按照随机原则从总体中抽取部分调查 单位(样本)。
2、 构造统计量 。对样本资料进行加工计算, 获得既能反映样本特征又能用于推断总体的样本数 据。 3、推断。运用概率估计方法,以一定的可靠 性推断总体指标数值。
二、抽样推断的特点 1、按随机原则抽取样本单位 2、用部分推断总体 3、抽样推断的误差可以事先计算并加以控 制 4、运用概率估计方法
实际上就是对估计量可允许取的最高值或最 低值进行了限制

ˆ ˆ Biblioteka 例子• 要估计某乡粮食亩产,从8000亩粮食作物中,用不 重复抽样抽取400亩,求得平均亩产为450公斤。如 果确定抽样极限误差为5公斤,这就要求某乡粮食 亩产为450〒5公斤,即在445公斤到455公斤之间。
x
i 1 n

经济统计学第7章抽样调查

经济统计学第7章抽样调查
CHAPTER ONE
参数的假设检验是根据样本,对总体参数某种假设的正确性作出判断。 可以分别提出两种假设: 前一种不能轻易拒绝的假设为原假 设,后一种为备选假设。假设检验就是根据样本,检验 是否成立, 不成立就接受备选假设 。
一、基本思想: 小概率原则:认为在一次实验中 小概率事件几乎是不可能发生的,小概率事件的概率为显著性水平 。
一个总体的检验
Z 检验 (单尾和双尾)
t 检验 (单尾和双尾)
Z 检验 (单尾和双尾)
2检验 (单尾和双尾)
均值
一个总体
比例
方差
总体方差已知时的均值检验 (双尾 Z 检验)
均值的双尾 Z 检验 (2 已知)
假定条件 总体服从正态分布 若不服从正态分布, 可用正态分布来近似(n30) 原假设为:H0: =0;备择假设为:H1: 0
单侧检验 (原假设与备择假设的确定) 例如,某灯泡制造商声称,该企业所生产的灯泡的平均使用寿命在1000小时以上
除非样本能提供证据表明使用寿命在1000小时以下,否则就应认为厂商的声称是正确的 建立的原假设与备择假设应为
H0: 1000 H1: < 1000
第二节
一个正态总体参数的假设检验
-10
100
20
25
-5
25
30
30
0
0
离差
40
35
5
25
50
40
10
100
10
25
-5
25
20
30
0
0
30
35
5
25
40
40
10
100
50
45
15

《统计学》第七章(抽样调查)

《统计学》第七章(抽样调查)

20
(1)以99.73%的概率保证程度估计这批茶叶平均每包重量的 范围,以便确定平均重量是否达到规格要求。
第七章 抽样调查
第一节 抽样调查概述 第二节 抽样估计 第三节 抽样的组织形式
1
第一节 抽样调查概述 一、抽样调查的含义
(一)抽样推断的含义 抽样调查是按随机原则,从全部研究对象中抽取一
部分单位进行观察,并根据样本的实际数据,对总体的 数量特征做出具有一定可靠程度的估计和判断,从而达 到对全部研究对象的认识的一种统计方法。其中心问题 是如何根据已知的部分资料来推断未知的总体情况。
(3)抽样总体标准差和抽样总体方差。
说明抽样总体之间标志值变异程度的指标,叫做抽样
总体标准差。抽样总体标准差的平方称为抽样总体方
差(简称样本方差)。其计算公式为:
s
2
xx n
2
s2 x x n
20
一个总体可以抽取许多个样本,而样本不同, 抽样指标的数值也各不相同。可见,抽样指标的数 值不是惟一确定的。因为抽样指标是样本变量的函数, 是随机可变的变量。也就是说,由 样本观测值所决定的 统计量是随机变量。
x=2*60=120
8480~8720
(2) up=3.1%
p=6.2%
68.8%~81.2%
50
例4,某外贸公司出口一种茶叶,规定每包规格不低于150克。 现在用不重复抽样的方法抽取其中1%进行检验,其结果如下:
每包重量 (克)
包数
148~149
10
149~150
20
150~151
50
151~152
21
(三)重复抽样和不重复抽样 1.重复抽样(重置抽样) 采用这种方法抽取样本单位的特点是:同一单位 有多次重复被抽中的机会,并且总体单位数目始 终不变,每个单位抽中或抽不中的机会在各次都 是相同的。

第七章 抽样推断与检验

第七章 抽样推断与检验

样本平均数与样本成数的抽样极限误差
用 x 、 p 分别表示样本平均数与样本成数的 抽样极限误差 x x x x
Pp p Pp
上式说明:由于总体参数是未知数,而统计量是可测算的,因 此,抽样误差范围的实际意义是被估计总体指标落在由抽样指 标所确定的范围,即落在以下范围内
其平均数和方差分别为
它是一个是 非标志
N 0 N N1 N1 P ,Q 1 P N N N
N1 P P N
PQ P1 P
2 P
第一节
c)是根据样本各单位标志值 或标志属性计算的综合指标。与常用的总体参数 相对应,有样本平均数、样本方差和样本成数等。 以小写字母表示。
第三节
假设检验
一、假设检验的基本原理 二、总体的均值的假设检验 三、总体成数的假设检验
第三节
假设检验 一、假设检验的基本原理
假设检验(Hypothesis testing)是利用样本的 实际资料检验事先对总体某些数量特征所作的假 设是否可信的一种统计分析方法。 假设检验是从总体参数所做的一个假设开始 的。假设一般包括两部分:原假设H0和备择假设 H1。
第七章抽样推断与检验
学习内容
学习重点
第一节 抽样中的几个基本概念 第二节 参数估计 第三节 假设检验 第四节 抽样设计 1、参数估计 2、假设检验
假设检验的基本原理和方法
学习难点
第一节
抽样中的几个基本概念
一、抽样推断 二、参数和统计量 三、重复抽样和不重复抽样 四、抽样误差
第一节
抽样中的几个基本概念 抽样推断
P
P 1 P n
p1 p n 1 n N
重复抽样的条件下
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(一)抽样推断
料计算样本指标,并据以推算总体相应特征的值一种统计 分析方法。
抽样推断是在抽样调查的基础上,利用样本的实际资
统计推断的过程
总体
样 本
样本统计量 例如:样本均 值、比例、方 差
抽样推断的特点
第一,建立在随机取样的基础上,按随机原则抽样 第二,是由部分推算整体的一种认识方法 第三,以大数法则和中心极限定理为理论依据 第四,抽样误差可以事先计算和控制
P
当 N 很大时


某灯泡厂从一天所生产的产品10,000个中抽取100个 检查其寿命,得平均寿命为2000小时,根据以往资 料σ=20小时,试求抽样平均误差。
重复抽样:
x
不重复抽样:

2

20
2
(小时) 2
n
100

x

2
(1
n N
)
20
2
(1
100 10000
) 1.99(小时)
P(X )
B A
较小的样本容量

X
3.有效性

ˆ1 , ˆ 2为 的两个无偏估计量, ˆ1的方差小于 ˆ 2
的方差,即V( ˆ1 )< V( ˆ2 )则称
ˆ1 是较 ˆ2 有效的估计量。
有效性
一个方差较小的无偏估计量称为一个更有效的
估计量。
如,与其他估计量相比,样本均值是一个更有效的
2



2
无偏性

估计量的数学期望等于被估计的总体参数
P( X ) 无偏 有偏
A
C

X
2.一致性
• 对于任意给定的ε>0,有
lim P { ˆ } 1
对于这种极限,我们称估计量 ˆ 依概率收敛于 。
一致性 •
随着样本容量的增大,估计量越来越接近被 估计的总体参数
较大的样本容量
2 2 2
例2
某笔厂月产10000支金笔,以前多次抽样调查,一等 品率为90%、92%、96%和94%,现在要求误差范围在2% 之内,可靠程度达95.45%,问必须抽取多少单位数?
解: N 10000,P 90%, p 2% 重复抽样: n t P(1-P) p
2 2 2
F (t ) 95.45% 900(支)
解: N 4000, 0.2,t 3, 1.5 n t N
2 2
N t
2 2
2

3 (1.5) 4000
2 2
(0.2) 4000 3 (1.5)
2 2
2
450(人)
若误差范围缩小
2 2
1 2
(即0.1M ), 则 1344(人)
3
n
3 (1.5) 4000 (0.1) 4000 3 (1.5)
n
100

某玻璃器皿厂某日生产15000只印花玻璃杯, 现按重复抽样方法从中抽取150只进行质量检验, 有147只合格,试求这批印花玻璃杯合格率的抽样 平均误差。
p 147 150 p p(1 p ) n 0.98 (1 0.98) 150 1.14% 98%
若按不重复抽方式:
x
n
t p 1 p
2

2 p
不重复抽样
n t N
2 2
Nx t
2 2
2
n
t p 1 p N
2
N
2 p
t p 1 p
2
例1
建筑工地打土方工人4000人,需测定平均每人工 作量,要求误差范围不超过0.2M3,并需有99.73%保证 程度。根据过去资料σ为1.5M3、1.36M3和1.48M3,求 样本数应是多少?如果误差范围缩小一半,其他条件不 变,样本数又应是多少?
(二)抽样平均误差
抽样平均误差就是用来反映抽样误差的一 般水平的指标。通常用符号δ来表示。 用 x 表示平均数的抽样平均误差; p 表示成数的抽样平均误差。
M表示可能出现的样本种数
x

x
M
2
p
M
P
2
p
1、平均数的抽样平均误差(简单随机抽样)
重复抽样: 不重复抽样:
第七章抽样推断与检验
第一节
抽样设计
第二节
第三节
参数估计
假设检验
1
学习目的和要求
明确抽样推断的概念、特点; 了解几种基本的抽样推断方式; 熟练掌握参数的区间估计方法; 了解假设检验的基本原理和方法。
2
学习重点
1、参数估计 2、假设检验
3
学习难点
假设检验的基本原理和方法
第一节
抽样设计
一、抽样推断与抽样设计的概念
Px Z /2 x Z /2 1 a n n
1
a
则称区间(θ1,θ2)为总体指标θ的臵信区间,
臵信概率为1
a
a 为显著性水平,
θl是臵信下限,θ2是臵信上限。
(一)总体均值的区间估计 (二)总体成数的区间估计 (三)总体方差的区间估计
(一)总体均值的区间估计 进行总体均值的区间估计,要考虑三个问题: • • • 首先是总体分布形式 其次是总体方差是否已知 再次是样本容量n的大小
1、重复抽样: 2、不重复抽样:
1 N
1 1 1 、 、 ...... N N 1 N 2 N n 1
四、几种基本的抽样方式 (一)简单随机抽样(纯随机抽样)
简单随机抽样是按随机原则直接从总体N个
单位中抽取n个单位作为样本。 在抽样之前要求对总体各单位加以编号,然 后用抽签的方式或根据《随机数字表》来抽必要 的单位数。简单随机抽样是抽样中最基本的抽样 组织形式,它适用于均匀总体。
(一)影响因素 用户对抽样推断可靠程度和精确度的要求。 不同的抽样组织方式。 不同的抽样组织方法。 总体变量值的差异程度。 按上述依据确定的抽样单位数,还要结合调查人 力、物力和财务的许可情况加以适当调整。
(二)必要抽样单位数的计算(简单随机抽样) 重复抽样
n t
2 2 2

X


n
2


n

X


n
2
N n N 1
当总体单位数N很大时

X


n 1 n N
2
2、成数的抽样平均误差(简单随机抽样)
重复抽样:
P
P 1 P n
不重复抽样:
P 1 P N n n N 1 p 1 p n 1 n N
估计量
P(X )
均值的抽样分布
B
A
中位数的抽样分布

X
二、区间估计
区间估计是用一个区间去估计未知参数, 即把未知参数值估计在某两个界限之间。 对于待估参数θ,找出样本的两个统计量θ1和θ2, 使被未知参数θ落在区间(θ1,θ2)内的概率为1-α, 0<α<1为已知的。即

P 1 2
(二)类型抽样(分层抽样)
类型抽样在抽样之前,先将总体N个抽样
单位按某一标志分为k个组,然后在各组内分 别独立的进行随机抽样。
(三)等距抽样(机械抽样)
等距抽样先将总体各抽样单元按某一
标志和顺序排队,然后每隔一定的间隔抽 取一个单元组成样本进行调查。 (1)无关标志:选择标志与抽样调查内容无关。 (2)有关标志:选择标志与抽样调查内容有关。


P 表示总体成数P的估计量,
2 ˆ 表示总体方差 2 的估计量,则点估计的基本公式为:
x

p P

ˆ =S2
2
(二)点估计量优劣的标准
1.无偏性

ˆ为未知参数 的估计量,若估计量
ˆ 的期望等于未知参数的真值,即
E (ˆ )
则称 ˆ
为 的无偏估计量。
E x Ep P E S n 1
t

x
(t为概率度)
t t
x

p
p
概率度t 1 1.96 2 3
臵信概率F(t) 0.6827 0.95 0.9545 0.9973
(四)抽样误差的影响因素:
1. 总体标志的变异程度。
2. 抽样单位数目的多少。
3. 不同的抽样方法。
4. 不同的抽样组织形式。
六、必要抽样单位数的确定
性计算的综合指标。
与常用的总体参数相对应,有样本平均数、 样本方差和样本成数等。
统计量如何计算?
x

n
x

xf f
2
S
2
x x
n n1 n

x x f
2
f
xp p S
2 p
P 1 P
三、重复抽样和不重复抽样
抽样的基本方法有重复抽样和不重复抽样两种。
第二节
参数估计
参数估计就是利用实际调查计算的样本统计量 来估计相应的总体指标的数值。
点估计 区间估计
一、点估计
(一)点估计量的方法 参数点估计的基本特点是,根据总体指标的 结构形式设计样本指标(统计量)作为总体参数的 估计量,并以样本指标的实际值直接作为相应 总体参数的估计值。 设 表示总体平均数 的估计量,
它有什么作用?
抽样推断的主要应用场合
1、在不可能进行全面调查的时候 2、实施全面调查困难时 3、为了节省调查的人力、费用和时间 4、抽样调查的结果可被用来检验和修正全面调查的结果 5、对工业生产过程的稳定性进行检测并实现质量控制 6、对总体的某些假设进行控制
相关文档
最新文档