2016统计基础知识(高教版 娄庆松编)课件:第四章 抽样技术概述

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(四)与其他调查方式结合运用,互相补充与核对。 如,抽样技术与普查相结合可以检查核对普查数据的准确 性;与重点调查相结合,有利于掌握总体数量特征。 (五)进行假设检验,判断真伪。 如,某项新工艺、新配方或农业新品种在生产中的推广是否 具有显著价值,可通过抽样推断进行假设检验,决定是采用还是 放弃。 四、抽样技术中的几个基本概念 (一)抽样框 是指供抽样所使用的所有调查单位的详细名单。如,从5万 名职工中随机抽取300名职工组成一个样本,则5万职工的名册就 是抽样框。 抽样框有以下形式: 1.名单抽样框,即以名册或清单形式列出总体所有单位。如, 学生名册、企业名录、职工名单、住户名单、村庄名单、社区名 单等等。
2.区域抽样框,按自然地域划分并排列出总体所有单位。如, 一片土地划分为若干地块并编号、一片森林划分为若干林区并编 号等。 3.时间表抽样框,按时间顺序排列总体单位。如,流水线生 产的产品质量检验,把一天划分为若干时段并按顺序排列。 抽样框的编制是抽样调查的前提条件,要求不重不漏来保证 样本对总体的代表性。 (二)总体和样本 总体指所要研究现象的整体用字母N表示。如,从一万平方 米小麦中抽取500平方米进行产量调查,则N=10000平方米。 样本,指从总体中抽取的样本单位数,用字母n表示。如, 上例中n=500平方米 (三)大样本和小样本 大样本和小样本是根据样本容量多少来划分。n≥30时为大 样本,n<30时为小样本。

查 理 总
总体指标
样本指标
(四)抽样设计 是指从研究总体中抽取样本之前,预先确定抽样方案。将调 查资料使用者、抽样专家、活动组织者和数据处理人员召集起来 协商探讨共同确定抽样方案。基本内容有:1.确定目的、任务和 要求;2.确定抽样框和样本单位;3.确定组织方式和抽取样本单 位的方法;4.确定估计精度要求;5.确定抽样数目和估计方法; 6.确定总体方案和工作程序。 二、抽样技术的特点 (一)在调查单位的抽取上,遵循随机原则。 随机原则使样本单位的抽取不受任何主观因素影响,使所抽 取的样本变量分布与总体变量分布相类似,从而保证样本的代表 性和估计的无偏性。 (二)在调查功能上,用样本数据估计总体数据。 抽样调查是非全面调查,它具有从部分到总体、由具体到一 般的推断功能。
1
25
) 0.04 0.08 0.12 0.16 0.20 0.16 0.12 0.08 0.04 1.00

f f
0.200.160.120.080.040 12
13 14 图4-4
15 16 17 18 19 变量分布频率图
20
x ( 元)
图4-4显示样本平均数变量数列呈现正态对称分布形态。 根据表4-2计算样本平均数的平均数和方差,见表4-3。
(三)在推断手段上,以概率估计方法进行总体推断。 抽样估计是以概率论为基础的估计方法,用样本数据估计总 体数据时,其可靠性用一定概率保证程度来说明。例如,用城市 居民样本数据估计某电视节目的收视率、用居民样本数据估计全 市居民家庭收支情况等等。 (四)在推断理论上,用大数定律的中心极限定理为基础。 中心极限定理证明随着样本单位数的增加,样本变量分布趋 向正态分布,样本平均数接近总体平均数、样本标准差接近总体 标准差,从而为用样本数据估计总体相应数据提供了科学的理论 依据和方法。 (五)在推断效果上,抽样误差可以计算并加以控制。 用样本数据估计总体相应数据会存在一定误差,根据中心极 限定理和正态分布规律,抽样误差可以事先计算出来并可以控制, 从而使抽样估计具有一定的可靠程度。
图4-2
掷两颗骰子时的36种事件
二、抽取样本单位的方法和抽样误差 根据每次从总体中抽取一个样本单位进行调查登记后,是否 再把这个样本单位放回原总体中去,抽取样本单位方式有重复抽 样和不重复抽样两种方法。 (一)重复抽样 重复抽样也称回置抽样,它是从总体N个单位中随机抽取一 个容量为n的样本,每次从总体中随机抽到一个单位就看成一次 试验,连续进行n次试验组成一个样本。每次抽取并记录事件后 把被抽中的单位放回总体中重新参加下次抽取。这样,总体单位 数不变,已经被抽中的样本单位仍然有同等机会再被抽中。 1.样本平均数的变量分布和抽样平均误差 样本平均数的变量分布是由总体中全部可能样本平均数的取 值和与之相应的概率组成。 例如,某班组A、B、C、D、E五个工人的日基本工资分别为: 12、14、16、18、20元。下面计算出总体平均数和总体方差:
-1 0 1 2 3 4 —
1 0 1 4 9 16 —
4 0 4 12 18 16 100
下面计算:
样本均值的均值
xf x = f
= 400/25 = 16(元) = 100/25 = 4(元)
样本均值的方差
x x

f
2
f
2
样本均值标准差
x x f
f
100 = 25
第一节
抽样技术概念
一、抽样技术的涵义 抽样技术是统计学的重要分支,它已经成为当今世界上最重 要的统计方法。它广泛应用于社会、经济、科技和自然等各个领 域,成为现代统计学中发展最快、最活跃的一个分支。 抽样技术的完整概念应包括对样本的调查和对总体数据的估 计两个方面。这里首先介绍抽样调查,然后介绍总体数据估计的 基本理论和方法。 (一)抽样调查 它是一种非全面调查,是根据随机原则从总体中抽取部分单 位进行调查。这部分单位称为样本。而这部分单位数目的多少不 是随心所欲确定的,是根据一定原则和要求用科学的方法计算来 确定。所谓随机原则,就是可能性原则,是指在抽取样本单位时, 完全排除人们的主观愿望,使总体中的每个单位机会均等,抽中 与否全凭偶然。
E,C 20,16 x =18 E,D 20,18 x =19 E,E 20,20 x =20
将表4-1整理成样本平均数变量分布数列表4-2和变量分布频 率图如图4-4。
表4-2 样本平均数变量分布数列 14 15 16 17 18 19 20 合计
均值 x
12
13
频数f
频率P(
x
1
2
3
4
5
4
3
2
(四)参数和统计量 1.参数 2 总体平均数用 X 表示,总体标准差用σ 表示,总体成数用P 表示,这些数据在抽样技术称为参数。由于总体是唯一确定的, 总体参数也是唯一确定的。 2.统计量 样本平均数用 x 表示,样本标准差用s表示,样本成数用p表 示,这些数据在抽样技术称为统计量。 成数指总体或样本中具有某种属性的单位数占全部单位数的 比重。如,一片森林中病株数的比重、一批产品中合格品比重、 一片农作物中缺苗断垄数比重、某市居民拥有电脑户比重、某电 视节目收视率等等。 本节小结: (一)样本是从总体中随机的一部分单位。 (二)参数是总体数量特征,是用样本统计量估计出来的。 (三)统计量是由样本变量直接计算得到的。
第二节
抽样调查和抽样误差
一、随机事件与概率 (一)随机事件 在相同条件下,每次试验可能出现也可能不出现的状态称为 随机事件。 例如,掷一对骰子,两颗骰子落下时总共有多少种状态呢? 白色骰子能够以6种状态中任何一种状态落下:
譬如当白色骰子显示
时,黑色骰子仍有6种状态落下:
这里,骰子落下所呈现的每种状态称为随机事件。
统计基础知识
编 者 娄庆松
第四章
第一节 第二节 第三节
抽样技术概述
抽样技术概念 抽样调查和抽样误差 参数估计
第四章
抽样技术概述
学习要点
一、理解和掌握抽样调查的概念、特点和作用。 二、掌握抽样技术中常用的基本概念。 三、熟练掌握抽样平均误差的概念、影响因素和计算方法 四、熟练掌握极限抽样误差的概念和计算方法。 五、掌握必要抽样数目的意义和计算。 六、了解全及总体总量指标的推算和抽样调查组织方式。
=
4
= 2(元)
x x 栏内各数值:-4、-3、-2、-1、0、1、2、3、4,称抽 样个体误差;样本均值方差和样本均值标准差称抽样平均误差。
综上全部演示过程,可以得到两个重要结论: 1.重复抽样的样本均值 x 的均值 x 等于总体均值X ,即: x = X = 16(元)
2.抽样平均误差等于总体方差的1/n,即:
(二)抽样估计 抽样估计是在抽样调查的基础上,利用样本数据根据概率论 来估计总体相应数据的统计分析方法。 (三)抽样技术 总体、总体指标、样本、样本指标、抽样误差、概率估计等 概念构成了抽样技术中的最基本范畴。它们的关系如图4-1。
图4-1 抽样技术关系图 随机取样

反 映


调 整 汇 概率估计
表4-3
x
重复抽样样本平均数的平均数和方差计算表
12 13 14
f 1 2 3Байду номын сангаас
x
f ( x- x ) ( x - x ) 12 -4 16

2
( x - x ) •f 16 18 12
2
26 42
-3 -2
9 4
15 16 17 18 19 20 合计
4 5 4 3 2 1 25
60 80 68 54 38 20 400
三、抽样技术的作用 由于抽样技术具有费用低、时效强、准确度高、应用范围广 等优点,抽样技术广泛应用于众多领域。 (一)用于那些不能或难以采用全面调查的情况。 无限总体,如宇宙探测、大气监测或生态保护等的调查;动 态总体,如产品质量监测、物价管理等的调查;范围大,分布过 散的有限总体,如居民收支调查、水中鱼苗调查、森林木材蓄积 量等调查。 (二)用于不宜全面调查,而须了解总体数据的情况。 如,灯泡、轮胎等产品的耐用时间破坏性质量检验;饮料食 品等品尝性检验;人体血液等健康性检验等。 (三)用于采集灵敏度高、时效强、时间要求紧迫的资料。 如市场动态、商品交易额、股市行情、抢险救灾和战时物资 质量检验等。
C,C 16,16 x =16 C,D 16,18 x =17 C,E 16,20 x =18
D,A 18,12 x =15 D,B 18,14 x =16
D,C 18,16 x =17 D,D 18,18 x =18 D,E 18,20 x =19
E,A 20,12 x =16 E,B 20,14 x =17
总体工人日平均工资 X =(12+14+16+18+20)/5 =16(元) 总体工人日工资方差:
σ
2
X
= [(12-16) +(14-16) +(16-16) (18-16) +(20-16) ]/5 = 8(元)
2
2
2
2
2
用重复抽样的方法从五人中随机抽2人组成样本,即样本容 量a=2,调查记录后再放回总体中去重新参加下次抽取。那么,可 能会有几种组合形式的样本呢?根据排列组合法共有25个样本, 各样本的日平均工资可列表4-1显示,重复抽样过程见图4-3。
(二)概率
一个随机试验由许多可能的事件,我们不仅想知道它们有 那些可能的事件,而且还想知道某些事件出现的可能性的大小, 并希望将这一可能性用数值描述出来。为了定量地描述随机事件, 人们引入了一个描述随机事件发生可能性大小的统计数据——随 机事件的概率。某一随机事件发生的次数占所有随机事件发生次 数的比率就是该事件的概率。许多数学家、统计学家对概率及其 计算作出了巨大的贡献,提出了概率论的公理化体系。概率论, 就是研究随机事件规律性的科学。 图4-2中显示出两颗骰子出现的可能事件有6×6=36种。它们 都是等可能的,所以每一个事件都有36次中一次机会。
图4-3 重复抽样过程示意图 总体
(AA)(BA)(CA)(DA)(EA)(AC)(BC)(CC)(DC)(EC) (AB)(BB)(CB)(DB)(EB)(AD)(BD)(CD)(DD)(ED) (AE)(BE)(CE)(DE)(EE)
表4-1
样本组合及样本平均数
A,A 12,12 x =12 A,B 12,14 x =13
A,C 12,16 x =14 A,D 12,18 x =15 A,E 12,20 x =16
B,A 14,12 x =13 B,B 14,14 x =14
B,C 14,16 x =16 B,D 14,18 x =16 B,E 14,20 x =17
C,A 16,12 x =14 C,B 16,14 x =15
x x f
2
f
= n
X X 1
N
2
4(元)= 8/2(元)
x x f
2
f
1 = n
X X
N
2
2(元) = 4/2(元) 因此,统计学将样本均值与总体均值之间的平均离差的1/n 称为抽样平均误差简称抽样误差,以μ 表示。换言之,抽样误差 等于总体方差除以样本单位数之商的平方根,即:
相关文档
最新文档