统计学原理 李洁明 第六章 抽样调查
统计学第六章抽样调查

Part
05
系统抽样技术
系统抽样原理及步骤
• 系统抽样原理:系统抽样是一种等距抽样方法,它首先确定一个抽样间隔,然后在总体中按照这个间隔进行抽 样。这种方法适用于总体单位排列有序且周期性变化的情况。
系统抽样原理及步骤
01
系统抽样步骤
02
确定总体范围和抽样框;
03
计算抽样间隔,确定样本量;
系统抽样原理及步骤
01
03 02
分层标准选择与确定方法
• 以调查对象的某些自然特征或社会特征作 为分层标准。
分层标准选择与确定方法
专家判断法
依靠专家经验判断选择合 适的分层标准。
数据分析法
通过对历史数据或相关数据的 分析,找出影响调查指标的主 要因素,作为分层标准。
试验法
通过试验确定不同分层标准 对调查结果的影响程度,选 择最优的分层标准。
缺点
由于样本可能被重复抽取,导致样本的代表性降 低。
缺点
操作相对复杂,需要记录已经抽取过的样本。
简单随机抽样优缺点分析
操作简单
简单随机抽样的操作过程相对简单,易于理解和实施。
等概率原则
保证了每个单位被抽中的机会相等,避免 具有代表性:当样本量足够大时,简单随机抽样可以获得具有代表性的样本。
整群抽样优缺点比较
• 适用于某些特定情况:对于某些总体分布不均匀或难以划分的情况,整群抽样 可能更为适用。
整群抽样优缺点比较
抽样误差较大
01
由于是以群为单位进行抽样,可能导致抽样误差较大。
样本代表性不足
02
如果群的划分不合理或随机性不足,可能导致样本代表性不足。
对群内个体差异考虑不足
03
统计学原理:第6章 抽样调查

x = t m = 0.26(克)
置信区间(150.04,150.56)
2) p = 70%
mp =
0.7 0.3 = 4.56% 100
p = 3 4.56% =13.68%
置信区间:(56.32%,83.68)
3)
t = = 0.15 = 1.72
m 0.0872
F(1.72) = 91.46%
第六章
第六章 抽样调查
抽样调查
教学内容与要求
1、理解抽样调查的意义、特点及有关的基本概念; 2、理解并掌握抽样误差、平均抽样误差、极限误
差的涵义与计算,理解影响抽样误差的因素。 3、掌握区间估计的基本要素与计算过程和方法; 4、理解常见抽样组织形式的应用特点与有关参数
的计算,必要样本单位数的确定; 5、掌握总体参数的假设检验
2、考虑顺序的重复抽样
BnN = Nn
3、不考虑顺序的不重复抽样
Cn N
=
AnN n!
=
N(N 1)(N n!
n
1)
4、不考虑顺序的重复抽样
Dn N
=
Cn Nn1
=
(N
n
1)(N
n
2)N
n!
四、抽样调查的理论依据
第六章 抽样调查
大数法则
如果被研究的总体是由相互独立的随机因素构成,而每个 因素对总体的影响都相对的小,则这些因素加以综合平均,因 素的个别影响将相互抵消,而显现出它们的共同倾向,使总体 具有稳定的性质。
6.2 抽样调查的基本概念和理第六论章 抽依样调据查
一、全及总体和抽样总体
全及总体 ▪ 所要认识对象的全体。是具有统一 性质的许多单位的集合体(N)
统计学原理-第六章 抽样调查(复旦大学第六版)

2.样本总体:简称样本,是从全及总体中随机
抽取出来,代表全及总体部分单 位的集合体。单位数用n表示。
5
二.全及指标和抽样指标
(一)全及指标
X 总体平均数: X N 总体成数:P
2
XF 或X F Q=
2 2
N1 N N
(X-X) 总体方差: = 总体标准差:= (X-X)
(一)考虑顺序的不重复抽样数目
N! A N ( N 1)(N 2) ( N n 1) ( N n)! 4 3 2 1 2 例如A4 12 2 1
n N
(二)考虑顺序的重复抽样数目
B N
n N 2 4
n 2
例如 B 4 16
10
(三)不考虑顺序的不重复抽样数目
Ex X
28
2、一致性 当抽样单位数充分大时,抽样指标和未知 的总体指标之间的绝对离差为任意小的可能性 也趋于必然性。
x X 任意小
3、有效性
即用抽样指标估计总体指标,要求作为优良估 计量方差应该比其他估计量的方差小。
2
x X f
2
f
2
x X f
x
x E ( x)
2
18
说明:根据数理统计理论,在重复抽样条件下, 抽样平均误差与全及总体的标准差成正比例关系。 与抽样总体单位平方根成反比关系。
19
在不重复抽样情况下,抽样平均误差计算公式如下:
x x
N n 250 4-2 ( )= ( ) =9.13(件) n N 1 2 4-1
2
N
X X F 或 F X X F 或 F
统计学课件 第六章 抽样调查

三、抽样框:是包括全部抽样单位的名单框架。编制抽样框是实施抽样的基础。抽样框的好坏通常会直接 影响到抽样的随机性和调查的效果。
样本变量(x) 40、50 40、70 40、80 50、40 50、70 50、80 70、40 70、50 70、80 80、40 80、50 80、70 —
样本平均数 45 55 60 45 60 65 55 60 75 60 65 75 720
X(4 05 07 08)0 46(元 0 )
x i 平均数离差
普遍存在的。 抽样平均数也是一种随机变量和的分布,因此在抽样单位数 n充分大的条件下,抽样平均数也趋近于
正态分布,这为抽样误差的概率估计提供了一个极为有效而且方便的条件。
§3 抽样平均误差
一、抽样实际误差:
xX
二、抽样平均误差:是抽样平均数(或抽样成数)的标准差。它反映抽样平均数(或抽样成数)
与总体平均数(或总体成数)的平均误差程度。
x
xi X 2 样本可能数目
三、抽样估计的一般原理
(一)、抽样估计的特点: ➢ 抽样估计是在逻辑上运用归纳推理而不是运用演绎推理。 ➢ 抽样估计是在方法上运用不确定的概率估计法而不是确定的数学分析法。 ➢ 抽样估计的估计结论存在着一定的抽样误差。
(二)、抽样估计的优良标准
➢ 无偏性:用抽样指标估计总体指标要求抽样指标的平均数等于被估计的总体指标。
—
960
统计学原理(第五版)

统计资料 也叫统计信息,是统计部门或单位进行工作所搜集、 整理、编制的各种统计数据资料的总称。
各商业企业某月销售额资料 (单位:万元)
10,60,40,80,130,70 50,98,200……
台阶,而且各月投资增速呈现逐渐走高的趋势.年初(前2 月)虽然仅增长12.3%,但在此后各月,累计投资增速均 以0.4—1.0个百分点的幅度递增(见图1)。
图1:2009年广东固定资产投资完成情况 ……
感悟统计(之二)
• 撑死的人比饿死的人多! • 据统计,肥胖并发脑血栓和心衰的发病率比正
常体重者高一倍,患冠心病者多2~5倍,高血 压发病率多2~6倍,合并糖尿病者高4倍,合并 胆石症者高4~6倍。美国生命保险协会的统计 调查结果显示,超重25%和35%的肥胖症者的 死亡率比正常人高28%和50%,表明肥胖程度 和死亡率呈正相关。美国每年因肥胖伴有冠心 病、高血压、高血脂、糖尿病和脑血管意外而 死亡的人数大约有30万人。
[1]编第一个15国比较统计 表[2]第一个用几何图形来 表现统计资料 第一次把概率论和数理统计 方法应用于社会经济统计 *Engel法则
第一章 绪论
第一节 统计学的产生和发展
我国统计学的发展情况
解放前,我国统计主要照搬数理统计学的 一套。统计理论与统计实践完全脱节。
解放后,照搬了苏联社会经济统计学,批判 了数理统计学,这对我国统计体系的建立和 社会主义建设起到了一定的促进作用,但有 些偏激。
20世纪中叶,英国统计学家Ronald Aylmer Fisher(1890-1962)等 人分别对F统计量、极大似然估计、方差分析等理论进行了大量的探讨 ,从而建立起了推断统计学的庞大的学科体系。
《第六章抽样》PPT课件_OK

• (三)两种分类交叉
• 1.考虑顺序的不重复抽样
ANn N (N 1)(N 2)
(N n 1) N ! (N n)!
• 2.考虑顺序的重复抽样
BnN = Nn
• 3.不考虑顺序的不重复抽样
•
4.不C考Nn 虑 顺AnNn!序 的(N重Nn复!)!n抽! 样N
(N
1)
( n!
N
n
1)
DNn
①有12块小麦地,每块1亩。 6块处于丘陵地带,亩产量(斤)分别为:300 330 330 340 370 370 。 6块处于平原地带,亩产量(斤)分别为:420 420 450 460 490 520。 抽查4块,测定12块地的平均亩产量,计算其抽样 误差。
②设亩产在350以上的为高产田,抽查4块,测定12 块地高产田的比重,计算其抽样误差。 用类型抽样,每类抽2块
7
第六章 抽样推断—基本问题
四、抽样推断的有关概念
• (一)全及总体和抽样总体 • 1.全及总体 • 所要认识对象的全体 • 总体单位数: N • (1)有限总体 • (2)无限总体 • 2.抽样总体 • 所抽取的一部分单位 • 样本单位数: n • (1)大样本 • (n≥30) • (2)小样本(n<30)
C
n N
n1
An N n1 n!
(N n 1)! (N n 1 n)!n!
12
第六章 抽样推断—基本问题
六、抽样的组织方式
• 1.简单随机抽样 • (1)概念 • 对总体单位不作任何分类或排队,完全按随机原则逐
个地抽取样本单位。 • (2)优缺点 • 最符合随机性原则。 • 当总体规模很大时,难以操作。 • 总体内部差异较大时,不能保证抽中的样本单位在总
第六章抽样调查习题答案

第六章抽样调查习题答案一、单项选择题1、 C2、 A3、 D4、 D5、C6、 D7、 C8、 A9、 D 10、A11、 D 12、 C 13、 B 14、 A 15、A16、 B 17、 B 18、 D 19、 A 20、A21、 A 22、 D 23、 D 24、 B 25、A二、判断题1、 CD2、 AE3、 BCD4、 ABDE5、ABD6、 AB7、 ABCD8、 AC9、 ABCD三、判断题1、×2、√3、√4、√5、√6、×7、√8、×9、√ 10、√11、× 12、√ 13、√ 14、× 15、×16、√ 17、√ 18、×四、填空题1、随机、部分、总体2、计算、控制3、重复、不重复4、大于5、点估计、区间估计6、增加到4倍、减少三分之二、减少四分之三 7、大样本、小样本 8、正、反五、复习思考题1、影响抽样误差的主要因素有哪些?答:影响抽样误差大小的因素主要有:(1)总体单位的标志值的差异程度。
差异程度愈大则抽样误差愈大,反之则愈小。
(2)样本单位数的多少。
在其他条件相同的情况下,样本单位数愈多,则抽样误差愈小。
(3)抽样方法。
抽样方法不同,抽样误差也不相同。
一般说,重复抽样比不重复抽样,误差要大些。
(4)抽样调查的组织形式。
抽样调查的组织形式不同,其抽样误差也不相同,而且同一组织形式的合理程度也会影响抽样误差。
2、什么是抽样调查?它有哪些特点?答:抽样调查是根据部分实际调查结果来推断总体标志总量的一种统计调查方法,属于非全面调查的范畴。
它是按照科学的原理和计算,从若干单位组成的事物总体中,抽取部分样本单位来进行调查、观察,用所得到的调查标志的数据以代表总体,推断总体。
(1)只抽取总体中的一部分单位进行调查。
(2)用一部分单位的指标数值去推断总体的指标数值(3)调查样本是按随机的原则抽取的,在总体中每一个单位被抽取的机会是均等的,因此,能够保证被抽中的单位在总体中的均匀分布,不致出现倾向性误差,代表性强。
统计学原理第五版李洁明著知识点总结

统计学知识点第一章绪论1、统计包含三种涵义(1)统计工作:一种调查研究活动。
资料搜集、整理和分析。
统计资料:即统计信息,工作成果。
包括统计数据和分析报告。
统计学:研究如何搜集、整理、分析数据资料的一门方法论科学。
(2)统计资料:对现象的数量进行搜集、整理和分析的活动过程。
统计资料:通过统计实践活动取得的说明对象某种数量特征的数据原始资料:直接从各调查单位搜集的用来反映个体特征的数据资料次级资料:由原始资料加工得到的在一定程度上能反映总体特征的数据资料(3)统计学:是研究总体一定条件下的数量特征及其规律性的方法论学科统计学的性质:统计学是通用的方法论科学;统计学使用大量观察和归纳推理的方法,得出对事物总体的综合认识;统计学结合现象的“质”研究现象的“量”特点:数量性(统计研究过程是从质和量的辩证统一中研究现象的数量特征,从数量上认识事物的性质和规律)、总体性(统计所研究的是由同类事物构成的群体现象的数量特征)、具体性、社会性2、统计学的分类理论统计学:研究的内容是统计的一般理论和方法,包括描述统计学、推断统计学应用统计学:研究的内容是运用于某一特定领域的统计问题,国民经济统计学、社会统计学、人口统计学3、统计研究方法(1)方法论——大数定律(2)统计研究的基本方法大量观察法:是指对所研究的事物的全部或足够数量进行观察的方法。
它可以使影响个体的偶然因素相互抵消,显示出现象的一般特征。
其数理依据是反映随机现象基本规律的大数定律。
诸如,各种基本的、必要的统计报表、普查、重点调查和抽样调查等。
统计描述法:指通过对客观实际的调查了解,并对搜集到的数据进行加工整理、综合分析,从而计算出各种能反映总体数量特征的综合指标,借以反映现象总体的总量规模、结构比例、速度快慢等实际状况。
统计描述的内容包括统计分组法、综合指标法和统计模型法。
统计推断法:是以一定的置信标准要求,根据样本数据来判断总体数量特征的归纳推理的方法。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
x1
1,2,4
x2
1,2,5
x3
3,4,5
x4
1,3,5
x5
2,3,5
x6
x7
x8
x9
x10
抽样方法和样本可能数目
抽样方法 样本数目与样本容量有关,也与抽样方法有关, 样本数目与样本容量有关,也与抽样方法有关,样本 容量既定,则样本数目取决于抽样的方法。 容量既定,则样本数目取决于抽样的方法。 重复抽样 抽样方式不同 不重复抽样 样本要求不同 考虑顺序抽样
▼全及总体特征的描述 描述总体的特征一般采用均值和标准差。 描述总体的特征一般采用均值和标准差。 全及总体是确定的,唯一的,因此全及指标也是确定的, ☆全及总体是确定的,唯一的,因此全及指标也是确定的, 唯一的。 唯一的。 变量总体: X = ∑X 变量总体: N
σ=
∑( X − X)
N
2
σ 2为总体方差
n N
不考虑顺序的不重复抽样
N(N − 1)⋯(N − n + 1) N! C = = n ! n (N − n)! !
n N
考虑顺序的重复抽样
n BN = N n
不考虑顺序的重复抽样
n n DN = CN +n−1
抽样调查的理论依据
大数定律:证明了抽样平均数(成数) 大数定律:证明了抽样平均数(成数)趋近于总体平均 成数)的趋势。 数(成数)的趋势。 1)独立同分布大数定律: 独立同分布大数定律: 2)贝努力大数定律: 贝努力大数定律: 中心极限定律: 中心极限定律:证明了多个随机变量和的分布趋近于正 态分布。抽样平均数就是一种随机变量。 态分布。抽样平均数就是一种随机变量。 1)独立同分布中心极限定律: 独立同分布中心极限定律: 拉普拉斯中心极限定律: 2)德莫佛—拉普拉斯中心极限定律: 德莫佛 拉普拉斯中心极限定律
n
x=
∑x
i =1
i
n ( xi − x)2 ∑
i =1 n
S=
n
S2称为样本方差
对于分组资料采用加权的计算公式。(见第三章) 对于分组资料采用加权的计算公式。(见第三章) 。(见第三章
属性总体: 属性总体:
n1 p= n S = p(1− p) =
pq
n0 q= n p + q =1
n1 具有某种属性 , n0 不具有某种属性
n N
▼抽样总体(样本)特征的描述 抽样总体(样本) 抽样总体(样本)特征也是通过均值和标准差来描述的。 抽样总体(样本)特征也是通过均值和标准差来描述的。 不是确定的、唯一的,因此抽样指标也不是确定的、 不是确定的、唯一的,因此抽样指标也不是确定的、唯 一的,是样本变量的函数,是随机变量。 一的,是样本变量的函数,是随机变量。 变量总体: 变量总体:
▼抽样的目的就是通过观察样本的特征来推断总体的特征, 抽样的目的就是通过观察样本的特征来推断总体的特征, 即用样本平均数用来推断总体平均数, 即用样本平均数用来推断总体平均数,而样本标准差作为总 体标准差估计值(当总体标准差未知) 体标准差估计值(当总体标准差未知)用来计算总体平均数 的估计区间(置信区间)。 的估计区间(置信区间)。
第三节
抽样平均误差
抽样误差的概念和理解 抽样误差: 抽样误差:来源于登记性误差和代表性误差 登记性误差 调查误差或工作误差,指在调查、编辑、编码、 调查误差或工作误差,指在调查、编辑、编码、汇 总过程中由于观察、测量、登记、 总过程中由于观察、测量、登记、计算上的差错或被调 查者提供虚假资料而引起的误差。 查者提供虚假资料而引起的误差。 这种误差的直接表现就是标志特征,从而使所计算的统计量 偏离其真实值。 偏离其真实值。 登记性误差存在于所有的统计调查中, 登记性误差存在于所有的统计调查中,而且调查的范 围越大、调查单位越多,产生误差的可能性越大。 围越大、调查单位越多,产生误差的可能性越大。 登记性误差与测量工具的精度、测量技术、 登记性误差与测量工具的精度、测量技术、调查人员 的责任心、被调查者的合作态度等密切相关。 的责任心、被调查者的合作态度等密切相关。
∆p → 属性总体抽样极限误差 σ →总体标准差
x
→变量总体抽样极限误差
基本概念
全及总体:所要认识对象的全体。 全及总体:所要认识对象的全体。 变量总体:数量标志; 变量总体:数量标志; 一般以N表示全及总体的单位总数, X 一般以N表示全及总体的单位总数, 表示全及 σ 总体的平均数, 表示全及总体的标准差。 总体的平均数, 表示全及总体的标准差。 属性总体:品质标志; 属性总体:品质标志; 具有某种属性的单位占总体单位总数的比重, 具有某种属性的单位占总体单位总数的比重,称为 总体成数P 标准差也用σ表示。 总体成数P,标准差也用σ表示。
▼随机误差可以分为实际误差和抽样平均误差 实际误差:样本指标与总体指标之间的差别,无法计算。 实际误差:样本指标与总体指标之间的差别,无法计算。 抽样平均误差:所有样本平均指标的标准差。可以计算。 抽样平均误差:所有样本平均指标的标准差。可以计算。 登记性误差 抽样中的 总误差 代表性误差
偏差:系统性误差 偏差: 随机误差: 随机误差:偶然误差
抽样调查概述 基本概念及理论依据 抽样平均误差 抽样推断——均值的推断 抽样推断 均值的推断 抽样方案的设计 必要抽样单位数的确定
第一节 抽样调查概述
概念
广义:抽取部分单位观察,并根据观察结果推断总体。 广义:抽取部分单位观察,并根据观察结果推断总体。 非随机抽样: 非随机抽样: 通过主观判断, 通过主观判断,选取若干个有代表性的单位来推 断总体。 断总体。 随机抽样: 随机抽样: 保证总体中每个单位具有同等机会被抽中机会, 保证总体中每个单位具有同等机会被抽中机会, 抽取样本,并推断总体。 抽取样本,并推断总体。 狭义:按照随机原则抽取部分单位观察, 狭义:按照随机原则抽取部分单位观察,并运用数理统计 原理,由部分对总体做出数量上的推断分析。 原理,由部分对总体做出数量上的推断分析。 一般地,属于随机抽样。 一般地,属于随机抽样。
某全及总体由1 六个数字构成。 例 某全及总体由1、2、3、4、5六个数字构成。 全及总体: 全及总体:1、2、3、4、5。假设样本容量为3,则从 假设样本容量为3 全及总体中采用不考虑顺序不重复的简单随机抽样, 全及总体中采用不考虑顺序不重复的简单随机抽样,可以 抽取出10个抽样总体,这样就有10个样本平均数. 10个抽样总体 10个样本平均数 抽取出10个抽样总体,这样就有10个样本平均数. 1,2,3 1,3,4 1,4,5 2,3,4 2,4,5
n → 样本单位数(样本容量 样本单位数( ) x → 样本均值 p → 样本成数 S → 样本标准差
▼样本容量:一般样本容量大于30的称为大样本,小于30 样本容量:一般样本容量大于30的称为大样本,小于30 30的称为大样本 个单位数的称为小样本。 个单位数的称为小样本。 一般地,一个全及总体中,可以抽取多个抽样总体, 一般地,一个全及总体中,可以抽取多个抽样总体,即 抽样总体不是唯一的, 抽样总体不是唯一的,全部样本的可能数目与每个样本的 容量以及抽样方法有关。 容量以及抽样方法有关。 抽样比: 抽样比:
N1 属性总体: P = 属性总体: = 1− Q N σ = P(1− P) = PQ
N0 Q= N P +Q =1
N1 具有某种属性 , N0 不具有某种属性
抽样总体(样本):从全及总体随机抽取得部分单位的集合 抽样总体(样本):从全及总体随机抽取得部分单位的集合 ): 体。 一般地, 一般地, x → 样本变量
实际误差
抽样平均误差
▼抽样平均误差的影响因素 主要受到三个因素影响: 主要受到三个因素影响: 全及总体标志变动程度σ 总体标志值变动越大, 全及总体标志变动程度σ2。总体标志值变动越大, 抽样平均误差越大,反之则越小。 抽样平均误差越大,反之则越小。 抽样单位数(样本容量)的多少n 其他条件不变, 抽样单位数(样本容量)的多少n。其他条件不变, 抽取的单位数越多,抽样平均误差越小,反之越大。 抽取的单位数越多,抽样平均误差越小,反之越大。 抽样组织的方式和抽样组织形式。 抽样组织的方式和抽样组织形式。
第六章 抽样调查
问题: 问题: 1、某研究人员想要了解杭州在校大学生每周的自习时间, 、某研究人员想要了解杭州在校大学生每周的自习时间, 然而对于一个拥有几十万大学生的城市来说, 然而对于一个拥有几十万大学生的城市来说,他的调查经 费是远远不够的,那么这项调查还能进行吗?如果能进行, 费是远远不够的,那么这项调查还能进行吗?如果能进行, 他该怎么进行,并判断结论的可靠性呢? 他该怎么进行,并判断结论的可靠性呢? 2、某企业想调查消费者对它的产品的认知程度,如何进 、某企业想调查消费者对它的产品的认知程度, 行,并判断结论的可靠性呢? 并判断结论的可靠性呢?
特 点
只抽取部分单位; 只抽取部分单位; 用部分推断总体; 用部分推断总体; 抽样遵循随机原则; 抽样遵循随机原则; 会产生抽样误差,但误差可以计算和控制。 会产生抽样误差,但误差可以计算和控制。
统计误差
统计数字与实际数量之间的差别。 统计数字与实际数量之间的差别。 登记误差: 登记误差: 调查误差或工作误差,指在登记、 调查误差或工作误差,指在登记、汇总计算过程中 产生的误差。(可以避免的) 。(可以避免的 产生的误差。(可以避免的) 代表性误差: 代表性误差: 用部分去推断总体产生的误差。(一般不可避免) 。(一般不可避免 用部分去推断总体产生的误差。(一般不可避免)
不考虑顺序抽样 以上结合为四种抽样方法:考虑顺序的重复抽样、 以上结合为四种抽样方法:考虑顺序的重复抽样、考 虑顺序的不重复抽样、 虑顺序的不重复抽样、不考虑顺序的重复抽样和不考虑顺 序的不重复抽样。 序的不重复抽样。
不同抽样方法的样本可能数目 考虑顺序的不重复抽样
N! A = N(N − 1)⋯(N − n + 1) = (N − n)!