第5章抽样与抽样估计
社会调查研究方法教案第5章 抽样

第5章抽样(8学时)第一节抽样的意义与作用一、抽样的概念1.总体总体(population)通常与构成它的元素共同定义:总体是构成它的所有元素的集合,元素则是构成总体的最基本单位。
2.样本样本(sample)就是从总体中按一定方式抽取出的—部分元素的集合。
或者说一个样本就是总体的一个子集。
3.抽样明白了总体和样本的概念,再来理解抽样的概念就十分容易了。
所谓抽样(sampling),指的是从组成某个总体的所有元素的集合中,按一定的方式选择或抽取一部分元素(即抽取总体的一个子集)的过程,或者说,抽样是从总体中按一定方式选择成抽取样本的过程。
4.抽样单位抽样单位(sampling unit)就是一次直接的抽样所使用的基本单位。
抽样单位与构成总体的元素有时是相同的,有时又是不同的。
5.抽样框抽样框(sampling frame)又称做抽样X围,它指的是一次直接抽样时总体中所有抽样单位的。
6.参数值参数值(parameter)也称为总体值,它是关于总体中某一变量的综合描述,或者说是总体中所有元素的某种特征的综合数量表现。
在统计中最常见的总体值是某一变量的平均值,7.统计值统计值(statistic)也称为样本值,它是关于样本中某一变量的综合描述,或者说是样本中所有元素的某种特征的综合数量表现。
样本值是从样本的所有元素中计算出来的,它是相应的总体值的估计量。
二、抽样的作用在社会研究中,抽样主要解决的是对象的选取问题,即如何从总体中选出一部分对象作为总体的代表的问题。
本章一开始我们就说过,一项社会研究若能对总体中的全部个体都进行了解,那当然是很好的。
但实际上广大研究人员在时间、经费、人力等方面遇到难题,甚至陷入困境,从而不得不在庞大的总体与有限的时间、人力、经费这二者之间寻求平衡。
以现代统计学和概率论为基础的现代抽样理论,以及不断发展、不断完善的各种抽样方法.正好适应了社会研究的发展和应用的需要,成为社会研究知识体系中必不可少的一部分内容。
第5章--抽样分布与参数估计教案资料

(5)
(5.5)
(6)
(6.5)
(7)
(7.5)
(8)
(8.5)
(9)
9
9,1
9,2
9,3
9,4
9,5
9,6
9,7
9,8
9,9
9,10
(5)
(5.5)
(6)
(6.5)
(7)
(7.5)
(8)
(8.5)
(9)
(9.5)
10
10,1
10,2
10,3
10,4
10,5
10,6
10,7
10,8
10,9
10,10
数是 ,标准差是 ,从这个总体中抽出一 个容量是 n 的样本,则样本平均数 X 也服从 正态分布,其平均数 E( X ) 仍为 ,其标准
差为 。 X 5-19
从正态分布的再生定理可以看出,只要总体 变量服从正态分布,则从中抽取的样本,不管n 是多少,样本平均数都服从正态分布。但是在 客观实际中,总体并非都是正态分布。对于从 非正态分布的总体中抽取的样本平均数的分布 问题,需要由中心极限定理来解决。
第5章--抽样分布与参数估计
第一节 抽样的基本概念与数学原理
一、有关抽样的基本概念 二、大数定理与中心极限定理
5-2
一、有关抽样的基本概念
(一)样本容量与样本个数 1.样本容量。样本是从总体中抽出的部分
单位的集合,这个集合的大小称为样本容量, 一般用n表示,它表明一个样本中所包含的单 位数。
lim
n
1 n
p
n
i 1
X
i
1
(5.5)
5-17
大数定理表明:尽管个别现象受偶然因 素影响,有各自不同的表现。但是,对总体 的大量观察后进行平均,就能使偶然因素的 影响相互抵消,消除由个别偶然因素引起的 极端性影响,从而使总体平均数稳定下来, 反映出事物变化的一般规律。
第五章 抽样

• 二是抽样要求不同:配额注重量的分配, 而判断抽样注重质的分配 • 三是抽样方法不同:配额抽样的方法复杂 精密,而判断抽样的方法简单、易行。
(二)独立控制配额抽样
• 独立控制配额抽样规定按独立的控制特征 分配并抽取样本。 • 例如,假设某调查项目需要对客户进行调 查,选定的控制特征为年龄、性别、和收 入三种,确定的样本数为360个。其独立控 制配额抽样如下表:
五、抽样数目的确定
• 第一,总体中各单位之间标志值的变异程 度; • 第二,允许误差的大小,允许误差又称为 极限误差或最大可能误差,是抽样误差的 范围。用 ∆ 来表示,公式为 ∆ =tµ ,式中t代 表概率度是指扩大或缩小抽样误差范围的 倍数, µ 代表抽样误差。 • 第三,不同的抽样方法也会影响抽样数目。
• 2、分层随即抽样:是把调查总体按其属性不 、分层随即抽样: 同分为若干层次然后在各层中随即抽取样本的 技术。例如:调查人口,可按年龄、收入、职 业、居住位置等标志划分不同的阶层。 • 3、分群随即抽样:又称整群抽样,是把调查 、分群随即抽样: 总体区分为若干个群体,按后用单纯随机抽样 法,从中抽取某些群体进行全面调查的技术。 • 4、系统随即抽样 、系统随即抽样:又称等距离抽样,它是在 总体中先按一定标志顺序排列,并根据总体单 位数和样本单位数计算出抽样距离,然后按相 同的距离或间隔抽选样本单位的技术。
四、固定样本连续抽样调查法
• (一)固定样本连续调查法的含义和特点 • 定义:是把选定的样本单位固定下来,长 期进行调查。 • 优点:调查对象稳定,可以及时、全面取 得各种可靠的资料;费用低效果好。 • 缺点:调查对象登记、记账的工作量很大, 长年累月记录,负担较重。
• • • • • • • •
二、分层随即抽样技术及其应用
社会调查研究方法教案第章 抽样

第5章抽样(8学时)第一节抽样的意义与作用一、抽样的概念1.总体总体(population)通常与构成它的元素共同定义:总体是构成它的所有元素的集合,元素则是构成总体的最基本单位。
2.样本样本(sample)就是从总体中按一定方式抽取出的—部分元素的集合。
或者说一个样本就是总体的一个子集。
3.抽样明白了总体和样本的概念,再来理解抽样的概念就十分容易了。
所谓抽样(sampling),指的是从组成某个总体的所有元素的集合中,按一定的方式选择或抽取一部分元素(即抽取总体的一个子集)的过程,或者说,抽样是从总体中按一定方式选择成抽取样本的过程。
4.抽样单位抽样单位(samplingunit)就是一次直接的抽样所使用的基本单位。
抽样单位与构成总体的元素有时是相同的,有时又是不同的。
5.抽样框抽样框(samplingframe)又称做抽样范围,它指的是一次直接抽样时总体中所有抽样单位的名单。
6.参数值参数值(parameter)也称为总体值,它是关于总体中某一变量的综合描述,或者说是总体中所有元素的某种特征的综合数量表现。
在统计中最常见的总体值是某一变量的平均值,7.统计值统计值(statistic)也称为样本值,它是关于样本中某一变量的综合描述,或者说是样本中所有元素的某种特征的综合数量表现。
样本值是从样本的所有元素中计算出来的,它是相应的总体值的估计量。
二、抽样的作用在社会研究中,抽样主要解决的是对象的选取问题,即如何从总体中选出一部分对象作为总体的代表的问题。
本章一开始我们就说过,一项社会研究若能对总体中的全部个体都进行了解,那当然是很好的。
但实际上广大研究人员在时间、经费、人力等方面遇到难题,甚至陷入困境,从而不得不在庞大的总体与有限的时间、人力、经费这二者之间寻求平衡。
以现代统计学和概率论为基础的现代抽样理论,以及不断发展、不断完善的各种抽样方法.正好适应了社会研究的发展和应用的需要,成为社会研究知识体系中必不可少的一部分内容。
第5章__抽样推断

抽样误差的影响因素
(1)总体各单位标志变异程度。 (2)样本容量的大小。 (3)抽样方法。 (4)抽样的组织形式。
四、抽样极限误差
含义:
抽样极限误差指在进行抽样估计时,根据研究对象的变 异程度和分析任务的要求所确定的样本指标与总体指标 之间可允许的最大误差范围。
计算方法:
它等于样本指标可允许变动的上限或下限与总体指标 之差的绝对值。
则:
x
n
10 1(公斤) 100
即:当根据样本学生的平均体重估计全部学生的平均 体重时,抽样平均误差为1公斤。
例题二解 已知: N 2000, n 400, x 4800, 300
则:
x
n
300 15(小时) 400
x
2 1 n
3002 1
400
13.42(小时)
n N
-20
400
-15
225
-5
25
0
0
-15
225
-10
100
0
0
5
25
-5
25
0
0
10
100
15
225
0
0
5
25
15
225
20
400
0
2000
样本平均数的平均数( x )
x
样本可能数目
960 16
60元
所以 (x) X
样抽样平均误差x
x (x)2
样本可能数目
2000 11.18元 16
四个工人工资分别为40、50、70、80元
抽样平均误差 x
n
15.81 11.18元 2
第五章 抽样法

抽样的作用
抽样调查能够解决全面调查无法或难以解决的问
题。
抽样调查可以补充和订正全面调查的结果。
抽样调查方法可以用于生产过程中产品质量的检
查和控制。 抽样调查方法可以用于对总体的某种假设进行检 验,以判断这种假设的真伪,决定行动的取舍。
抽样中的几个基本术语
总体(Population):调查研究的事物或现象的全体 个体(Item unit):组成总体的每个元素
一、抽样的概念、特点、作用 二、抽样中的基本术语 (一)总体和样本 (二)参数和统计量 (三)样本容量和样本个数 (四)重复抽样和不重复抽样 (五)概率抽样与非概率抽样 (六)抽样框 三、抽样误差
抽样的概念 特点
(一)概念 抽样调查是按照随机原则从全部研究对象中抽取 一部分单位进行观察,并依据获得的数据对全部研 究对象的数量特征做出具有一定可靠性的估计和判 断.达到对现象总体认识的一种方法. (二)特点 它是按照随机原则从总体中抽取样本。 它是由部分推算整体的一种方法。 它是运用概率估计的方法。 抽样误差可事先计算并加以控制。
抽样中的几个基本术语
X
i 1 N
总体均值
X
i
N
或
X F
i 1 K i
K
i
F
i 1
i
标准差
X
N i 1
i
X
2
N
或
X
K i 1
i K
X Fi
i
2
F
i 1
抽样中的几个基本术语
总体方差
2
( X i X )2
i 1
N
N
或
( X i X ) 2 Fi
医用数理统计方法课件第五章抽样估计

医用数理统计方法课件第五章 抽样估计
简介
抽样估计的基本概念和方法
本章介绍抽样估计的基本概念和方法,包括点估计和区间估计。点估计涵盖 最大似然估计、矩估计和贝叶斯估计;区间估计包括置信区间和可靠区间的 定义和计算方法。
点估计
最大似然估计
最大似然估计是一种重要的点估计方法,通过寻找使样本观测概率最大的参数值来进行估计。举例说明最大似 然估计在医学研究中的应用。
置信区间是用于估计总体参数范围的一种方法,提供了对估计结果的不确定性的度量。介绍置信区间的概念、 构造方法和在医学研究中的实际应用。
可靠区间
可靠区间是一种用于估计样本大小和统计误差之间关系的方法。讨论可区间的概念、构造方法以及在医学研 究中的应用案例。
总结
本章内容总结,重点强调抽样估计在医学研究中的应用和意义。抽样估计是一种重要的统计推断方法,能够为 研究者提供准确可靠的参数估计,以支持科学研究的发展。
矩估计
矩估计是一种常用的统计推断方法,基于样本矩与总体矩之间的对应关系进行参数估计。详细介绍矩估计的概 念、估计方法和在医学研究中的应用。
贝叶斯估计
贝叶斯估计是一种基于贝叶斯定理的统计推断方法,结合了先验信息和样本信息进行参数估计。探讨贝叶斯估 计的概念、估计方法和在医学研究中的应用。
区间估计
置信区间
统计学习题第五章_抽样与抽样估计答案

第五章抽样与抽样估计复习题一、填空题1、在实际工作中,人们通常把n≥30 的样本称为大样本,而把n<30 的样本称为小样本。
2、在抽样估计中,常见的样本统计量有样本均值、样本比例、样本标准差或样本方差以及它们的函数。
3、在研究目的一定的条件下,抽样总体是唯一确定的,而样本则有许多个。
4、在抽样调查中,登记性误差和系统性误差都可以尽量避免,而抽样误差则是不可避免的,但可以计算并加以控制。
5、在抽样估计中,抽样估计量是指用于估计总体参数的样本指标(统计量),评价估计量优劣的标准有无偏性、有效性和一致性。
二、选择题单选题:1、在其它条件不变的情况下,要使抽样平均误差为原来的1/3,则样本单位数必须((2))(1)增加到原来的3倍(2)增加到原来的9倍(3)增加到原来的6倍(4)也是原来的1/32、在总体内部情况复杂,且各单位之间差异程度大,单位数又多的情况下,宜采用((3))(1)简单随机抽样(2)等距抽样(3)分层抽样(4)整群抽样3、某厂产品质量检查,确定按5%的比率抽取,按连续生产时间顺序每20小时抽1小时的全部产进行检验,这种方式是((4))(1)简单随机抽样(2)等距抽样(3)分层抽样(4)整群抽样4、其它条件一定,抽样推断的把握程度提高,抽样推断的准确性就会((2))(1)提高(2)降低(3)不变(4)不一定降低5、在城市电话网的100次通话中,通话持续平均时间为3分钟,均方差为分钟,则概率为时,通话平均持续时间的抽样极限误差为((2))(1)(2)(3)(4)6、假定11亿人口大国和100万人口小国的居民年龄变异程度相同,现在各自用重复抽样方法抽取本国人口的1%计算平均年龄,则平均年龄抽样平均误差((3))(1)两者相等(2)前者比后者大(3)前者比后者小(4)不能确定大小多选题:1、降低抽样误差,可以通过下列那些途径((2)(4)(5))(1)降低总体方差(2)增加样本容量。
(3)减少样本容量(4)改重复抽样为不重复抽样(5)改简单随机抽样为类型抽样2、抽样推断中的抽样误差((1)(5))(1)是不可避免要产生的(2)是可以通过改进调查方法来消除的(3)只有调查后才能计算(4)即不能减少,也不能消除(5)其大小是可以控制的3、抽样极限误差((1)(2)(4))(1)是所有可能的样本指标与总体指标之间的误差范围(2)也叫允许误差 (3)与所做估计的概率保证程度成反比 (4)通常用来表示抽样结果的精确度 4、影响样本容量的因素有((1)(2)(3)(4)(5) ) (1)总体方差(2)所要求的概率保证程度 (3)抽样方法(4)抽样的组织形式(5)允许误差法范围的大小 5、不重复抽样的抽样平均误差( (2)(4) )(1)总是大于重复抽样的抽样平均误差 (2)总是小于重复抽样的抽样平均误差(3)有时大于,有时小于重复抽样的平均误差(4)在Nn很小时,几乎等于重复抽样的抽样平均误差 6、从3000名职工中随机抽取400名调查收入水平,共抽了( (1) (3) (5) ) (1)一个样本 (2)400个样本(3)一个样本总体 (4)400各样本总体 (5)400个样本单位 7、简单随机抽样一般适合于( (1)(3) (5) )(1)具有某种标志的单位均匀分布的总体 (2)具有某种标志的单位存在不同类型的总体 (3)现象的标志变异程度较小的总体 (4)不能形成抽样框的单位 (5)总体单位可以编号的总体三、简答题1、 什么是抽样平均误差影响抽样平均误差的因素有哪些答:抽样平均误差是所有可能的样本指标与被估计的总体参数之间的平均离差,即样本指标的标准差。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
同时,由于n/N=30/2500=0.012<=0.05,因此样本 标准差为
又由于n·p=300.6=18, n(1-p)=30 0.4=12 因此,样本比例服从如下正态分布:
p ~ N (0.6, 0.089 2 )
四、点估计量的性质:估计量优劣的衡量 用样本统计量(sample statistics)可以作为其对 应的总体的点估计量(point estimator)。 但要估计总体的某一指标,并非只能用一个样本 指标,而可能有多个指标可供选择,即对同一总体 参数,可能会有不同的估计量。
由于样本标准差与总体标准差及样本容量有关:
x n 因此,样本容量增大,样本均值标准差变小,从而 使样本分布峰度变高,于是在相同区间内,概率分 布线下的面积变大,提高了样本均值落在该区间的 可能性。
▼注意:
1、所有可能的样本均值的平均数等于总体均值, 而与样本容量无关。
2、点估计往往是在总体方差已知的情况下进行 的。
样本均值的标准差可用来测度样本均值与总 体均值的“距离”,即可用来计算可能的误差, 它也被称为均值标准误(standard error of the mean)。
3、样本均值抽样分布的实际应用
样本统计量的估计值与其所要测度的总体参数值之间的 绝对差距,被称为抽样误差(sampling error)。
400个 样本
支持人数: 160
推断
支持该候选人的选民 占全部选民的比例:
160/400=40%
抽样估计方法主要用在下列两种情况:
1、对所考查的总体不可能进行全部测度; 2、从理论上说可以对所考查的总体进行全部测 度,但实践上由于人力、财力、时间等方面的原因, 无法(不划算)进行全部测度。
注意: ●抽样估计只得到对总体特征的近似测度,因此, 抽样估计还必须同时考察所得结果的“可能范围” 与“可靠程度”。
根据中心极限定理有:当样本容量增大时 (大样本),样本比例抽样分布趋向于以样本 期望值为中心、以样本方差为方差的正态分布。
经验上,当下面两个条件满足时,与p相关的样本 为大样本:
n·p>=5
n(1-p)>=5
在例3中,由于全体中层干部接受过培训的人数比 例为P=0.6,因此样本比例期望值为p=0.6;
二、点估计(Point Estimation)
在例3中,假如随机抽取了一个容量为30的样本:
Annual Salary Management Training Program?
49094.3
Yes
53263.9
Yes
49643.5
Yes
…
…
假如根据该样本求得的年薪样本平均数、标准差及参 加过培训计划人数的比例分别为:
在总体单位数为N的总体中抽取容量为n的样本, 样本个数可能有:
1、考虑顺序的不重复抽样:N(N-1)(N-2)…(N-n+1)
2、考虑顺序的重复抽样:Nn
3、不考虑顺序的不重复抽样:CNn
N! n!(N
n)!
4、不考虑顺序的重复抽样:
Cn N n1
在社会经济统计中,往往采用的是较大总体 (视为无限总体)下的无序不重复抽样。
参数是总体的数值特征 A parameter is a numerical characteristic of a population。
如:例3中的中层干部平均年薪,年薪标准差及受培训人数 所占比例均为该公司中层干部这一总体的参数。
●抽样估计就是要通过样本而非总体来估计总体参数。
一、简单随机抽样(Simple Random Sampling)
(ˆ )
(二)抽样平均误差:
所有可能样本估计值与相应总体参数的平均差 异程度:
(三)抽样极限误差 一定概率下抽样误差的可能范围(也称允许误 差):
▼注意: 1、统计学上往往用抽样极限误差来测度抽
样误差的大小或者说测度点估计的精度。 原因:总体参数值往往并不知道,因此,
实际抽样误差与抽样平均误差也往往无法求出, 但在抽样分布大体知道的情况下,抽样极限误 差是可以估计出来的。
抽样分布能够用来提供抽样误差大小的可能性(概率)。
在例3中,如果人事部经理认为 在一次抽样中所得到的中层干部的 平均年薪与总体均值(51800$)误 差在500元以内,他就可以接受样本 估计值。则问题归结为在一次抽样 中,误差在500元以内的可能性(概 率)有多大?
x
由于样本容量为30,可认为样本均值服从正态分布,因 此,上述问题即为求一次抽样的样本均值点落在区间 [51300, 52300]内的概率,即求下图中阴影部分的面积。
该例中:52300对应的标准正态分布中的点为:
(52300-51800)/730.3=0.68
查标准正态分布表:上述区间的面积为
0.2518+0.2518=0.5036
表明:在上述简 单随机抽样中,只 有50%的概率使得 样本均值与总体实 际均值的误差不超 过500元。
4、样本容量与样本均值分布的关系
作为一个好的点估计量,统计量必须具有如下性质: 无偏性、有效性、一致性
1、无偏性(Unbiasedness):样本估计量的 均值等于被估总体参数的真值;
2、有效性(Efficiency):好的点估计量应具有较小 的方差;
3、一致性(Consistency):当样本容量增大时, 估计量依概率收敛于总体参数的真值。
正是抽样分布及其特征使得用样本统计量估计 总体参数的“精确程度”能够给予概率上的描述。
可靠度
精确度
(一)样本平均数的抽样分布 (Sampling Distribution of x )
1、样本均值抽样分布的形状
考察样本均值的概率分布形式。分两种况: 1)总体分布已知且为正态分布; 2)总体分布未知;
同样地,如果多次抽样,则可得到多个不同的结果。 表4.1是一个假设的经过500次抽样后的布,
0.3 相 对 0.2 频 数
0.1
图4.1 500个 x 的相对频数分布
这里, x 的相对频数分布,就称为 x 的抽样分布。
一般地,样本统计量的可能取值及其取值概率所 形成的概率分布,统计上称为抽样分布(sampling distribution)。
样本均值(标准差/比例)称为总体均值(标准差 /比例)的点估计量(point estimator);
样本均值(标准差/比例)的具体数值称为总体均 值(标准差/比例)的点估计值(point estimate)。
由于点估计量是由样本测算的,因此也称为样本 统计量。
三、抽样分布
在上述某公司30个中层干部的简单随机抽样中,如果再 一次抽样的样本与前一次的不同,则可得到另外的平均年 薪样本均值、标准差以及受训干部的比例。
简单随机抽样可根据总体的有限性或无限性分为 有限总体随机抽样与无限总体随机抽样。
有限总体简单随机抽样: 每个样本点(个体)能以相同的概率被抽出。
无限总体简单随机抽样: 1、每一个体来自同一总体; 2、每一个体是独立抽取的。
注意: 在有限总体的简单随机抽样中,由抽样是否具有可重
复性,又可分为重复抽样与不重复抽样。而且,根据抽样 中是否排序,所能抽到的样本个数往往不同。
(二)样本比例的抽样分布(Sampling Distribution of p)
在经济与商务的许多场合,需要用样本比例p对 总体比例P进行统计推断。
样本比例的抽样分布是样本比例所有可能值的 概率分布。
The sampling distribution of p is the probability distribution of all possible values of the sample proportion p.
因此统计上常称容量在30(含30)以上的样本 为大样本(large-sample-size)。
I Population Distribution
x
Sampling distribution
of x x
(n=2)
Sampling
distribxution
of
x
(n=5)
Sampling
distribxution
(1)当总体分布已知且为正态分布或接近正态 分布时,则无论样本容量大小如何,样本均值 都为正态分布。
(2)当总体分布未知时,需要用到中心极限定 理(Central limit Theorem)
对容量为n 的简单随机样本,样本均值的分布 随样本容量的增大而趋于正态分布。
经验上验证,当样本容量等于或大于30时,无 论总体的分布如何,样本均值的分布则非常接近正 态分布。
例1 一汽车轮胎制造商生产一种被认为寿命更长的新型轮胎。
120个 样本
测试
平均里程: 36,500公里
新轮胎 推断 平均寿命:
36,500公里
例2:某党派想支持某一候选人参选美国某州议员,为了决定 是否支持该候选人,该党派领导需要估计支持该候选人的民众 占全部登记投票人总数的比例。由于时间及财力的限制:
x xi / n 1554420/ 30 51814.00
s (xi x)2 /(n 1) 325009260/ 29 3347.72
p 19 / 30 0.63
则可用上述结果分别代表2500名中层干部的平 均年薪、年薪的标准差及受训比例。
上述估计总体参数的过程被称为点估计(point estimation);
可以证明: 样本均值、样本比例、样本标准差: 无偏、有效、一致
注:样本二阶中心矩:不具有无偏性
第二节 抽样误差与区间估计
一、抽样误差(Sampling Error) 一个样本可以得到总体参数的一个点估计,该 点估计值与总体参数真值之间的差异,即为抽样误 差。有三个相互联系的概念: (一)实际抽样误差: