抽样调查理论与方法 金勇进(第二版)-第2章-简单随机抽样
抽样技术课后习题_参考答案_金勇进

第二章习题2.1判断下列抽样方法是否是等概的:(1)总体编号1~64,在0~99中产生随机数r ,若r=0或r>64则舍弃重抽。
(2)总体编号1~64,在0~99中产生随机数r ,r 处以64的余数作为抽中的数,若余数为0则抽中64.(3)总体20000~21000,从1~1000中产生随机数r 。
然后用r+19999作为被抽选的数。
解析:等概抽样属于概率抽样,概率抽样具有一些几个特点:第一,按照一定的概率以随机原则抽取样本。
第二,每个单元被抽中的概率是已知的,或者是可以计算的。
第三,当用样本对总体目标进行估计时,要考虑到该样本被抽中的概率。
因此(1)中只有1~64是可能被抽中的,故不是等概的。
(2)不是等概的【原因】(3)是等概的。
2.2抽样理论和数理统计中关于样本均值y 的定义和性质有哪些不同?300户进行,现得到其日用电平均值=y 9.5(千瓦时),=2s 206.试估计该市居民用电量的95%置信区间。
如果希望相对误差限不超过10%,则样本量至少应为多少?解:由已知可得,N=50000,n=300,5.9y =,2062=s 该市居民用电量的95%置信区间为[])(y [2y V z N α±=[475000±1.96*41308.19]即为(394035.95,555964.05) 由相对误差公式y)(v u 2y α≤10%可得%10*5.9206*n50000n 1*96.1≤- 即n ≥862欲使相对误差限不超过10%,则样本量至少应为8622.4某大学10000名本科生,现欲估计爱暑假期间参加了各类英语培训的学生所占的比例。
随机抽取了两百名学生进行调查,得到P=0.35,是估计该大学所有本科生中暑假参加培训班的比例的95%置信区间。
解析:由已知得:10000=N 200=n 35.0=p 02.0==Nnf 又有:35.0)()(===∧p p E p E 0012.0)1(11)(=---=∧p p n fp V该大学所有本科学生中暑假参加培训班的比例95%的置信区间为:])()([2∧∧±P V Z P E α代入数据计算得:该区间为[0.2843,0.4157]2.5研究某小区家庭用于文化方面(报刊、电视、网络、书籍等)的支出,N=200,现抽取一个容量为20的样本,调查结果列于下表:编号 文化支出 编号 文化支出 1 200 11 150 2 150 12 160 3 170 13 180 4 150 14 130 5 160 15 100 6 130 16 180 7 140 17 100 8 100 18 180 9 110 19 170 1024020120估计该小区平均的文化支出Y ,并给出置信水平95%的置信区间。
抽样技术课后习题_参考答案_金勇进

第二章习题2.1判断下列抽样方法是否是等概的:(1)总体编号1~64,在0~99中产生随机数r ,若r=0或r>64则舍弃重抽。
(2)总体编号1~64,在0~99中产生随机数r ,r 处以64的余数作为抽中的数,若余数为0则抽中64.(3)总体20000~21000,从1~1000中产生随机数r 。
然后用r+19999作为被抽选的数。
解析:等概抽样属于概率抽样,概率抽样具有一些几个特点:第一,按照一定的概率以随机原则抽取样本。
第二,每个单元被抽中的概率是已知的,或者是可以计算的。
第三,当用样本对总体目标进行估计时,要考虑到该样本被抽中的概率。
因此(1)中只有1~64是可能被抽中的,故不是等概的。
(2)不是等概的【原因】(3)是等概的。
2.2抽样理论和数理统计中关于样本均值y 的定义和性质有哪些不同? 抽样理论 概率统计 定义∑==ni i y n y 11性质 1.期望()()()()Y C P E NNC N C ===∑∑==n n 1i n i 1i i i 1y y y2.方差()()()[]()i C i i i P y E y y V n N21∑=-==()()[]nNC i iiCy E y n N121∑=-()21S nf -=1.期望()⎪⎭⎫ ⎝⎛=∑=n i i y n E y E 11()∑==ni y E 1i n 1[]μμ==n n12.方差()[]2μ-=i y E y V 211⎥⎦⎤⎢⎣⎡-=∑=n i i y n E μ()ny n 122i σμ=-=E2.3为了合理调配电力资源,某市欲了解50000户居民的日用电量,从中简单随机抽取了300户进行,现得到其日用电平均值=y 9.5(千瓦时),=2s 206.试估计该市居民用电量的95%置信区间。
如果希望相对误差限不超过10%,则样本量至少应为多少?解:由已知可得,N=50000,n=300,5.9y =,2062=s1706366666206*300500003001500001)()ˆ(222=-=-==s nf N y N v YV 19.413081706366666(==)y v 该市居民用电量的95%置信区间为[])(y [2y V z N α±=[475000±1.96*41308.19]即为(394035.95,555964.05) 由相对误差公式y)(v u 2y α≤10%可得%10*5.9206*n50000n 1*96.1≤- 即n ≥862欲使相对误差限不超过10%,则样本量至少应为8622.4某大学10000名本科生,现欲估计爱暑假期间参加了各类英语培训的学生所占的比例。
211简单随机抽样(公开课)ppt课件

样本容量
03
样本中包含的个体数目。
简单随机抽样原理
01
02
03
04
简单随机抽样定义
按照等概率原则从总体中抽取 样本的抽样方法。
实现方式
抽签法、随机数表法等。
优点
操作简单、易于理解;适用于 总体单位数量不多、个体差异
不大的情况。
缺点
当总体单位数量较多时,可能 导致抽取的样本分布不均匀,
影响推断结果的准确性。
确定研究目标
样本来源
明确医学研究的目的和假设,如某种疾病 的治疗方法比较等。
根据研究目标,确定样本来源,如医院、 诊所、社区等。
抽样方法
数据收集与分析
采用简单随机抽样的方法,从样本来源中 随机抽取一定数量的患者作为研究对象。
对患者进行诊断和治疗,收集数据并进行 统计分析,以评估治疗方法的疗效和安全 性。
控制误差范围
确定置信水平
根据实际需求,选择合适的置信水平,如95%或99%。
计算置信区间
根据样本统计量和置信水平,计算置信区间,以评估样本估计总体 参数的可靠性。
控制抽样误差
通过增加样本数量、改进抽样方法等措施,减小抽样误差,提高估计 精度。
避免偏见影响
01
避免主观选择样本
确保样本的选择不受主观意识影响,避免选择偏向于某一特征的样本。
02
保证数据处理公正
在数据处理和分析过程中,保持客观公正的态度,避免对数据进行主观
篡改或解释。
03
考虑潜在影响因素
在设计和实施抽样调查时,充分考虑可能影响结果的潜在因素,并采取
相应的措施加以控制。例如,在调查消费者满意度时,需要考虑不同年
龄段、性别、地域等因素对结果的影响。
抽样调查第2章简单随机抽样ppt课件

将读取到的随机数对应的个体作为样本,并记录其编号。
计算机模拟法
编号
选择随机数生成器
设置参数
生成随机数
筛选样本
将总体的个体编号,并将 编号数据输入计算机。
在计算机中选择一个合适 的随机数生成器。
根据需要设置随机数生成 器的参数,如生成随机数 的范围、数量等。
使用随机数生成器生成 一定数量的随机数。
详细记录每个被抽中样本的信息和特征,如 姓名、性别、年龄、职业等。
处理异常情况
保密原则
如遇到无法联系或拒绝接受调查的样本,需 按照预先设定的方案进行处理,如替换或重 新抽取等。
在整个抽样过程中,需严格遵守保密原则, 确保被调查者的隐私不被泄露。
05
数据分析与结果解读
数据整理与初步分析
1 2
数据来源与采集方式
根据生成的随机数,从总 体中筛选出对应的个体作 为样本,并记录其编号。 如果需要,还可以对样本 进行进一步的处理和分析。
03
样本容量确定与误差控制
样本容量确定原则及方法
原则
在满足调查精度和可靠性的前提下, 尽可能减少样本容量,以节约成本和 提高效率。
方法
根据总体大小、总体方差、调查精度要 求等因素,采用适当的统计公式或经验 法则来确定样本容量。
01
介绍点估计和区间估计的概念、方法和应用场景,并比较其优
缺点。
假设检验的基本原理
02
阐述假设检验的基本原理和步骤,包括原假设和备择假设的设
定、检验统计量的选择、显著性水平的确定等。
常用统计检验方法
03
介绍常用的统计检验方法,如t检验、F检验、卡方检验等,并
说明其应用场景和注意事项。
抽样技术课后习题_参考答案_金勇进

第二章习题2.1判断下列抽样方法是否是等概的:(1)总体编号1~64,在0~99中产生随机数r ,若r=0或r>64则舍弃重抽。
(2)总体编号1~64,在0~99中产生随机数r ,r 处以64的余数作为抽中的数,若余数为0则抽中64.(3)总体20000~21000,从1~1000中产生随机数r 。
然后用r+19999作为被抽选的数。
解析:等概抽样属于概率抽样,概率抽样具有一些几个特点:第一,按照一定的概率以随机原则抽取样本。
第二,每个单元被抽中的概率是已知的,或者是可以计算的。
第三,当用样本对总体目标进行估计时,要考虑到该样本被抽中的概率。
因此(1)中只有1~64是可能被抽中的,故不是等概的。
(2)不是等概的【原因】(3)是等概的。
2.2抽样理论和数理统计中关于样本均值y 的定义和性质有哪些不同?300户进行,现得到其日用电平均值=y 9.5(千瓦时),=2s 206.试估计该市居民用电量的95%置信区间。
如果希望相对误差限不超过10%,则样本量至少应为多少?解:由已知可得,N=50000,n=300,5.9y =,2062=s 该市居民用电量的95%置信区间为[])(y [2y V z N α±=[475000±1.96*41308.19]即为(394035.95,555964.05) 由相对误差公式y)(v u 2y α≤10%可得%10*5.9206*n50000n 1*96.1≤- 即n ≥862欲使相对误差限不超过10%,则样本量至少应为8622.4某大学10000名本科生,现欲估计爱暑假期间参加了各类英语培训的学生所占的比例。
随机抽取了两百名学生进行调查,得到P=0.35,是估计该大学所有本科生中暑假参加培训班的比例的95%置信区间。
解析:由已知得:10000=N 200=n 35.0=p 02.0==Nnf 又有:35.0)()(===∧p p E p E 0012.0)1(11)(=---=∧p p n fp V该大学所有本科学生中暑假参加培训班的比例95%的置信区间为:])()([2∧∧±P V Z P E α代入数据计算得:该区间为[0.2843,0.4157]2.5研究某小区家庭用于文化方面(报刊、电视、网络、书籍等)的支出,N=200,现抽取一个容量为20的样本,调查结果列于下表:编号 文化支出 编号 文化支出 1 200 11 150 2 150 12 160 3 170 13 180 4 150 14 130 5 160 15 100 6 130 16 180 7 140 17 100 8 100 18 180 9 110 19 170 1024020120估计该小区平均的文化支出Y ,并给出置信水平95%的置信区间。
东北林业大学《抽样技术》第一章抽样调查概述

其次,抽样的随机原则必须保证总体中每 个单位或每个样本都有相同的中选或不中选 的可能性,所以,随机原则也称为同等可能 性原则。 3.抽样方法运用不确定的概率估计法 抽样估计是运用概率论的原理,研究样本 统计量,即样本指标的概率分布,并估计出 由具体的样本指标来代表总体指标其误差不 超过一定范围的可靠程度究竟有多大 。
所谓随机原则,首先表现在取样时必须保证总体 中每个单位的中选或不中选都不受任何主观因素的 影响,单位的抽取既不取决于调查者的爱好愿望, 也不决定于被调查者的合作态度,而完全由许多随 机因素的实际情况来决定。 所谓随机因素,是指在一定条件下,某种因素可 能出现,也可能不出现;出现的数量可能多一些, 也可能少一些;这些因素都对事件的结果起某些作 用,但都不起决定的作用。在一次试验中,许多因 素作用的共同倾向就形成了事件的一种结局。如果 把取样的规则和这种结局联系起来,就称为随机原 则。
二、我国抽样调查的历史发展
北京大学许宝禄教授(1910~1970)。他在数学及概率论方面 造诣很深,早在1938~1945年间,就在抽样推断和多元分析 等领域发表了一系列出色的论文;对样本协方差矩阵的分布, 高斯一马尔科夫模型中方差的最优估计。一元线性假设似然 检验等等理论问题作出了独特的贡献。他的《抽样论》讲义 系统地论述了随机抽样法、分层抽样法、二阶抽样法、集团 抽样法(即整群抽样)和系统抽样法(即等距抽样)的原理。 1943~1944年清华大学陈达教授主持了云南户籍示范人口普 查,并按现代抽样方式抽取部分人口以核对普查结果,这是 我国第一次抽样调查。此后,在1946年上海工人生活状况调 查中又应用了抽样调查方法,以更详细的项目来补充普查。 但总的说来,在解放以前我国抽样方法的应用是很少的。
《抽样技术与应用》教学大纲

《抽样技术与应用》课程教学大纲课程代码:090542020课程英文名称:Sampling Technique and Application课程总学时:48 讲课:40 实验:8 上机:0适用专业:应用统计学大纲编写(修订)时间:2017.6一、大纲使用说明(一)课程的地位及教学目标抽样技术与应用是应用统计学专业学生的一门专业选修课。
开设本课程的目的是为了满足日后学生参加统计调查实践工作的需要。
1994年,我国进一步提出建立以周期性普查为基础,以经常性调查为主体,重点调查、科学核算等为补充的统计调查方法体系的目标模式,这标志着抽样调查将逐步成为我国最主要的统计调查方法,应用的广度和深度也将进一步加强。
通过本课程的教学,使学生系统掌握抽样技术的基本理论、方法和技能。
(二)知识、能力及技能方面的基本要求1.基本知识:掌握简单随机抽样、分层随机抽样、整群抽样、多阶段抽样、系统抽样、二重抽样、不等概率抽样的基本概念、基本原理。
2.基本能力:要求掌握各种分析方法的应用场合、条件、程序、要点;熟知活的各种抽样估计结果的步骤和结果的含义。
3.基本技能:要求具有对一般实际场合和具体情况选择合适的抽样方法、制定抽样方案的能力。
(三)实施说明1. 本大纲主要依据应用统计学专业2017版教学计划、应用统计学专业专业建设和特色发展规划和沈阳理工大学编写本科教学大纲的有关规定及相关学校使用的《抽样技术与应用教学大纲》并根据我校实际情况进行编写的。
2. 课程学时总体分配表中的章节序号在授课过程中可酌情调整顺序,课时分配仅供参考。
打“*”号的章节可删去或选学。
3. 建议本课程采用课堂讲授、讨论、上机实验相结合的方法开展教学,通过习题课和讨论等方式强化重点,通过分散难点,使学生循序渐进的掌握。
4.教学手段:建议采用多媒体等现代化手段开展教学。
(四)对先修课的要求本课的先修课程:概率论与数理统计。
要求学生取得概率论与数理统计课程学分。
金勇进(第二版)抽样调查理论与方法-绪论

统计量是根据样本的n个单元的变量值计算出的一个量, 也叫估计量,用于对总体参数的估计。 常用的估计量: (1)均值估计; (2)总值估计; (3)比例估计; (4)比率估计。 统计量是随机变量,结果取决于抽样设计和被选入样本的 总体基本单元的特定组合。
估计量方差、偏差、均方误差(1)
估计量方差:估计量分布的方差,它是从平均 意义上说明估计值与待估参数的差异状况,也 是我们对抽样方案进行评价的标准之一。
2
2
抽样误差与非抽样误差
抽样误差:抽样误差是由于抽取样本 的随机性造成的样本值与总体值之间 的差异,只要采用抽样调查,抽样误 差就不可避免。 抽样误差是一个一般的概念,它 可以用不同的量值来表示。例如: 估计量方差或估计量标准差。
抽 样 误 差
样本量
非抽样误差:是相对于抽样误差而言的,它不是由 于抽样的随机性,而是由于其它多种原因引起的估 计值与总体参数之间的差异。 •包括:抽样框误差、计量误差、无回答误差等
多阶段抽样
例如,全国性调查,省;市或县;街道、镇、 或乡,等等。 在大规模的抽样调查中,特别是当抽样单元 为各级行政单位时,通常都采用多阶段抽样。 优点:
样本单位相对集中,实施调查比较方便,可以节 省调查费用; 抽样时并不需要全部低级单位的抽样框。
系统抽样
系统抽样是将N个总体单位按一定顺序排列, 先随机抽取一个单位作为样本的第一个单元, 然后按某种确定的规则抽取样本的其它单元。 其中最简单也是最常用的规则是等间隔抽取。 所以系统抽样又称等距抽样。
依赖研究者个人的经验和判断; 无法估计和控制抽样误差,无法用样本的量化数据 来推断总体。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
X
2
n
N
1
i 1
(Y i R X i )
2
定理 的方差为:
Y 2.7:对于简单随机抽样,n较大时, R N y R
N 1 2 1 f 2 V (Y R ) N (Yi R X i ) n N 1 i 1
推论 2.12:对于简单随机抽样,n较大时, Y y 的方差为:
n N
n N
【例2.1】
设总体有5个单元(1、2、3、4、5), 按不放回简单随机抽样的方式抽取2个单 元,则所有可能的样本为个:
1,2
1,3 1,4 1,5
2,3
2,4 2,5
3,4
3,5
4,5
【例2.2】
设总体有5个单元(1、2、3、4、5),按放回 简单随机抽样的方式抽取2个单元,则所有可 能的样本为25个(考虑样本单元的顺序):
i
Y X
Y X
r
n
yi xi
i 1
y x
i 1
i 1
简单估计量
1 Y y n
n
yi
y1 y 2 y n n
i 1
N Y Ny n
n
yi
i 1
a 1 P p n n
n
yi y Y
i 1
ˆ R
【例2.5】
根据例【2.4】的数据和结果,比较两种思路下对应的 方差估计结果。
2.4 回归估计量及其性质
属于简单估计量,不属于比率估计量。
引理 的期望为:
2.3:对于简单随机抽样,n较大时, R r
E (R) E r R
(1) 不是无偏的; (2)但在某种条件下,R 是近似无偏的。
R
定理 2.6:对于简单随机抽样,n较大时, 的期望为: E ( y ) X R Y
n n N N
n N
符号
Y 1 N
大写符号表示总体的标志值, 用小写符号表示样本的标志值
样
y 1
总 体
本
Y
i 1
N
i
Y1 Y 2 Y N N
n
n
yi
y1 y 2 y n n
i 1
Y
Y
i 1
N
i
Y1 Y 2 Y N
是总体协方差
S yx
的无偏估计。
2.3 比率估计量及其性质
主要变量 Y 与Y有关的辅助变量 X
辅助变量必须与主要变量高度相关 辅助变量与主要变量之间的相关关系整体上相当 稳定 辅助变量的总体总值或总体均值必须是已知的, 或是容易获得的 辅助变量的信息质量更好,或信息更容易取得即 调查成本更低。 比率估计量一般用来估计主要 变量的总体总值和总体均值
5 4
6 6
7 6
8 15
9 0
10 8
yi
y
1
n
n
yi
50 10
5
s
2
i 1
n 1
1
n
( yi y)
2
172 9
19 . 1111
i 1
ˆ Y y 5
vy 1 f n s
2
1 0 .1 10
1 9 .1 1 1 1 1 .7 2
co v( y , x ) 1 f n
1 N
N
S yx
式中, S
yx
Y 1
i 1
i
Y
X
i
X
为总体协方差。
定理 2.4:简单随机抽样的方差
s
2
y n 1
i 1
1
n
i
y
2
是总体方差
S
2
的无偏估计。
推论 2.7:对于简单随机抽样,
1 f 2 V (Y ) v ( y ) s n
ˆ ) V (r ) 1 1 f (S 2 2 RSS R 2 S 2 ) V (R x x 2 X n ˆ ) 1 f (S 2 2 RSS R 2S 2 ) V ( yR ) V ( XR x x n 2 1 f 2 2 2 V (Y R ) N (S 2 RSS x R S x ) n
Yi Y
2
i 1
定理2.2:对于简单随机抽样,y 的方差
V
y
1 f n
S
2
评价调查成功 与否的重要指标
其中, 1
f
称为有限总体校正系数。(未入样率)
估计量的方差 V y 是衡量估计量精度的 度量。影响估计量方差的因素主要是样本量n, 未入样率 1-f和总体方差 。2 S
在简单随机抽样的条件下,只有通过加大 样本量来提高估计量的精度。
推论 为: 推论 为:
Y 2.4:对于简单随机抽样, N y
的方差
2 1 f 2 V (Y ) N S n
2.5:对于简单随机抽样, P p
的方差
1 f 1 V (P) N P (1 P ) n N 1
比率估计、回归估计需要有足够的样本量才能 保证估计的有效性。
有偏估计:当样本量足够大时,估计的偏倚趋于0。
符号定义
总体均值的比率估计量:
y 1 YR y R X XR x N
总体总值的比率估计量:
y YR N YR N y R X XR x
R
第2章 简单随机抽样(SRS)
2.1定义与符号
抽样总体
样本容量
简单随机抽样也称为纯随机抽样。 从含有 N 个单元的总体中抽取 n 个单元组成 样本,如果抽样是不放回的,则所有可能的样 本有 C 个,若每个样本被抽中的概率相同,都 为 1 C ,这种抽样方法就是简单随机抽样。 称 n N 为抽样比,记为 f 。
N N 1
引理2.2 从总体规模为N的总体中抽取一个样本量为n 的简单随机样本,若对总体中的每个单元 Y i ,引进 a Y a 随机变量 a i(Y i 入样, i 1 ; i 不入样, i 0 ),则
E (ai ) V (ai ) n N n N n N N n N ( N 1) (1 n N ) f (1 f ) N 1 ( i , j 1, 2, ...., N ; i j ) f (1 f ) ( i 1, 2, ...., N ) f ( i 1, 2, ...., N )
cov( a i , a j )
定理 2.1:对于简单随机抽样,作为 的简单估计, y 是无偏的,即 Y
E (Y ) E y Y
Y
始终成立。
推论 为: 推论 为:
E (Y ) E N y N Y Y
Y 2.1:对于简单随机抽样, N y
R R
V ( yR )
1 f n N
1
1
i 1
N
(Yi R X i )
2
设:
S yx SS x
是Y和X的总体相关系数 Y的相对方差(变异系数)
SS x YX
C
2
S Y
2 2
C yx
S yx YX
2 2
Y与X的相对协方差
Cx
2
Sx X
X的相对方差(变异系数)
定义2.1 从总体的N个单元中,一次整批抽取n个单元 ,使任何一个单元被抽中的概率都相等,任何n个不同 单元组成的组合被抽中的概率也都相等,这种抽样称为 简单随机抽样。 定义2.2 从总体的N个单元中,逐个不放回地抽取单元 ,每次抽取到尚未入样的任何一个单元的概率都相等, 直到抽足n个单元为止,这样所得的n个单元组成一个简 单随机样本。 定义2.3 按照从总体的N个单元中抽取n个单元的所有 可能不同的组合构造所有可能的 C 个样本,从 C 个样 本随机抽取1个样本,使每个样本被抽到的概率都等于 1 C , 这种抽样称为简单随机抽样。
2
X x
2 2
1 f n
2 ˆ ˆ2 2 ( s 2 R s xy R s x )
【例2.4】
在20世纪90年代初的一项工资研究中,人们发现IT行 业中,从业者的现薪与起薪之间相关系数 高达0.88, 已知某IT企业474名员工的平均起薪为17016.00/年, 现根据对100个简单随机抽样方式选出的员工现薪的调 查结果,估计该企业员工的现薪平均水平。
的期望
2.2:对于简单随机抽样, P p
的期望
E (P) E p P
2.3:对于简单随机抽样,n较大时, r R
推论 的期望为:
E (R) E r R
对于有限总体的方差定义 :
2
1 N
Y
i 1
N
i
Y
2
S
2
N
1
1
N
是 V ( y ) 的无偏估计。
推论 2.8:
V (Y ) v ( N y ) N
2
(1 f ) n
s
2
是 V (Y ) 的无偏估计。
推论 2.9:对于简单随机抽样,