(应用统计学经济与管理中的数据分析)第六章抽样调查基础

合集下载

统计学第六章抽样调查

统计学第六章抽样调查

Part
05
系统抽样技术
系统抽样原理及步骤
• 系统抽样原理:系统抽样是一种等距抽样方法,它首先确定一个抽样间隔,然后在总体中按照这个间隔进行抽 样。这种方法适用于总体单位排列有序且周期性变化的情况。
系统抽样原理及步骤
01
系统抽样步骤
02
确定总体范围和抽样框;
03
计算抽样间隔,确定样本量;
系统抽样原理及步骤
01
03 02
分层标准选择与确定方法
• 以调查对象的某些自然特征或社会特征作 为分层标准。
分层标准选择与确定方法
专家判断法
依靠专家经验判断选择合 适的分层标准。
数据分析法
通过对历史数据或相关数据的 分析,找出影响调查指标的主 要因素,作为分层标准。
试验法
通过试验确定不同分层标准 对调查结果的影响程度,选 择最优的分层标准。
缺点
由于样本可能被重复抽取,导致样本的代表性降 低。
缺点
操作相对复杂,需要记录已经抽取过的样本。
简单随机抽样优缺点分析
操作简单
简单随机抽样的操作过程相对简单,易于理解和实施。
等概率原则
保证了每个单位被抽中的机会相等,避免 具有代表性:当样本量足够大时,简单随机抽样可以获得具有代表性的样本。
整群抽样优缺点比较
• 适用于某些特定情况:对于某些总体分布不均匀或难以划分的情况,整群抽样 可能更为适用。
整群抽样优缺点比较
抽样误差较大
01
由于是以群为单位进行抽样,可能导致抽样误差较大。
样本代表性不足
02
如果群的划分不合理或随机性不足,可能导致样本代表性不足。
对群内个体差异考虑不足
03

第6章抽样设计

第6章抽样设计

第四节 抽样误差与样本量
• 一、调查误差的概念与种类 • 调查误差是指调查的结果和客观实际情况的出入和差数。
一般有两种误差存在, 即非抽样误差和抽样误差。 • 非抽样误差是基于抽样之外的许多其它原因而产生的误差。
• 抽样误差是指一个样本的测定值与对该变量真值之间的差 异,抽样误差无特定偏向,其误差大小主要受以下三个因 素影响:
• 单位顺序的排列方式有两种: 一种是排列顺 序与调查项目无关。另一种是按与调查项 目有关标志排队。
• 三、分层抽样
• 分层抽样又叫类型抽样, 它是先将总体 所有单位按某一重要标志进行分类(层), 然后再各类(层)中采用简单随机抽样或 等距抽样方式抽取样本单位的一种抽样方 式。
• 分层抽样比简单随机抽样和机械抽样更 为精确, 能够通过对较少的抽样单位的调查, 得到比较准确的推断结果, 特别是当总体较 大、内部结果复杂时, 分层抽样常能取得令 人满意的效果。同时, 分层抽样在对总体推 断的同时, 还能获得对每层的推断。
• (二)特点
• 与全面调查相比,抽样调查具有以下三个 显著特点:
• 1、经济
• 与全面调查相比,抽样调查的样本量大大 减少,从而可以显著地节约人力、物力和 财力。
• 2、高效
• 由于抽样调查只对总体中少量单位进行调 查,故能十分迅速地得到调查讨论。
• 3.准确
• 抽样调查是调查部分总体单位,数目较少,
• 第一,被研究总体各单位标志值的变异程度。 • 第二,抽样的样本量。 • 第三,抽样调查的组织方式。
• 二、样本量 • 在开始组织抽样调查之前,确定抽多少样本单位是个很重
要的问题。 • (一)影响样本量的因素 • 抽样调查的样本量取决于以下几个因素: • 1、被调查对象标志的差异程度 • 2、允许误差数值的大小 • 3、调查结果的可靠程度 • 4、抽样的方法 • 5.抽样的组织形式

统计学第六章 抽样法

统计学第六章  抽样法
31
第六章 抽样法
序号
1 2 3 4
5 6 7 8
9 10 11 12
13 14 15 16 合计
样本变量x
40、40 40、50 40、70 40、80
50、40 50、50 50、70 50、80
70、40 70、50 70、70 70、80
80、40 80、50 80、70 80、80

x
x E(x)
总体
研究如何利用 样本数据来 推断总体特 征。
内容包括:参 数估计和假 设检验。
目的:对总体
特征作出推
样 本
断。
这是推断统计学研 究的问题
5
第六章 抽样法
描述统计与推断统计的关系
反映客观 现象的数

概率论
(包括分布理论、大 数定律和中心极限定
理等)
样本数
描述统计
推断统计

总体数 据
(统计数据的搜集 、整理、显示和分
13
第六章 抽样法
第二节 有关抽样的基本概念(2)
(二)抽样总体
也称子样,样本或样本总体,它是从全 及总体中随机抽取出来的,代表全及总体的 那部分单位的集合体。抽样总体的单位数称 为样本容量,用n表示,对于N来说,n是很 小的。
总体
样 本
14
第六章 抽样法
第二节 有关抽样的基本概念(3)
• 二 全及指标和抽样指标p.249 (一) 全及指标
研究总体中 的品质标志
总体成数 P N1
N
总体成数标准差 P
P1 P
17
第六章 抽样法
第二节 有关抽样的基本概念(5)
(二)抽样指标
抽样指标是由样本总体各单位标志值 或标志特征计算的综合指标,也称统计量。 与全及指标相对应有:样本平均数,样本 标准差;样本成数,样本成数的标准差。

经济应用统计学-第六章抽样推断

经济应用统计学-第六章抽样推断

非参数检验优缺点总结
• 易于理解和实现:非参数检验方法通常基于直观和易于理解的思想,计算和实现相对简单。
非参数检验优缺点总结
检验效能较低
与参数检验方法相比,非参数检 验方法的检验效能通常较低,即 当原假设为真时,非参数检验方 法更容易犯第二类错误(接受原 假设)。
对数据信息的利用不 充分
非参数检验方法通常只利用数据 的部分信息(如排序信息),而 忽略了数据的其他有用信息(如 数值大小),因此可能无法充分 利用数据信息。
两配对样本非参数检验
包括Wilcoxon 符号秩次检验、McNemar 检验 等方法,用于比较同一总体内两个配对样本的差 异是否显著。
两独立样本非参数检验
包括Mann-Whitney U 检验、Kruskal-Wallis H 检验等方法,用于比较两个独立样本所来自的 总体的分布位置或分布形状是否存在差异。
考虑样本量大小
在选择置信水平时,应充分考虑样本量的大小。当样本量较小时,应选择较低的置信水平以避免过大的估计误差;当 样本量较大时,可以选择较高的置信水平以获得更精确的估计结果。
参考相关文献或行业标准
在选择置信水平时,可以参考相关领域的文献或行业标准,了解通常采用的置信水平及其依据。这有助 于确保研究结果的可比性和可靠性。
04
假设检验原理与步骤
假设检验基本概念阐述
原假设与备择假设
原假设通常是研究者想要推翻的 假设,而备择假设则是研究者希 望证实的假设。
检验统计量与拒绝域
检验统计量是根据样本数据计算出 的用于检验原假设的统计量,而拒 绝域则是根据显著性水平和检验统 计量的分布确定的,当检验统计量 落入拒绝域时,我们拒绝原假设。
单侧检验
当研究者对备择假设的方向有明确预期时,即备择假设只可能大于或小于原假设时,应选择单侧检验 。例如,在比较两种药物疗效的研究中,如果研究者预期新药疗效优于旧药,则应选择单侧检验。

统计学原理 李洁明 第六章 抽样调查

统计学原理 李洁明 第六章  抽样调查
n N
不考虑顺序的不重复抽样
N(N − 1)⋯(N − n + 1) N! C = = n ! n (N − n)! !
n N
考虑顺序的重复抽样
n BN = N n
不考虑顺序的重复抽样
n n DN = CN +n−1
抽样调查的理论依据
大数定律:证明了抽样平均数(成数) 大数定律:证明了抽样平均数(成数)趋近于总体平均 成数)的趋势。 数(成数)的趋势。 1)独立同分布大数定律: 独立同分布大数定律: 2)贝努力大数定律: 贝努力大数定律: 中心极限定律: 中心极限定律:证明了多个随机变量和的分布趋近于正 态分布。抽样平均数就是一种随机变量。 态分布。抽样平均数就是一种随机变量。 1)独立同分布中心极限定律: 独立同分布中心极限定律: 拉普拉斯中心极限定律: 2)德莫佛—拉普拉斯中心极限定律: 德莫佛 拉普拉斯中心极限定律
特 点
只抽取部分单位; 只抽取部分单位; 用部分推断总体; 用部分推断总体; 抽样遵循随机原则; 抽样遵循随机原则; 会产生抽样误差,但误差可以计算和控制。 会产生抽样误差,但误差可以计算和控制。
统计误差
统计数字与实际数量之间的差别。 统计数字与实际数量之间的差别。 登记误差: 登记误差: 调查误差或工作误差,指在登记、 调查误差或工作误差,指在登记、汇总计算过程中 产生的误差。(可以避免的) 。(可以避免的 产生的误差。(可以避免的) 代表性误差: 代表性误差: 用部分去推断总体产生的误差。(一般不可避免) 。(一般不可避免 用部分去推断总体产生的误差。(一般不可避免)
x1
1,2,4
x2
1,2,5
x3
3,4,5
x4
1,3,5
x5

应用统计学:经济与管理中的数据分析(PDF)

应用统计学:经济与管理中的数据分析(PDF)
n
x1
log
x2
log
xn
1 n
n i 1
log
xi
3-7
• 例:某钢厂2004年的钢产量为100万吨,2005年的钢产 量为110万吨,2006年为132吨,2007年为165吨。试求 该钢厂2005~2007年钢产量的年平均发展速度。
xG 3 x1 x2 x3 3 110%120%125% 118.17%
一、数值平均数:算术平均数(arithmetic mean)
• 定义:一个数据集的算术平均数,称为平均数, 也称为均值(mean)。
n
x
所有x值之和 观察值个数
xi
i 1
n
• 优点:最简单、最常用的数据集中趋势代表值。 • 缺点:容易受极端数值的影响。 • 均值的解释:数据集分布“质量中心”。
3-3
3-13
• 确定四分位数: • ① 以递增顺序排列原数据(即从小到大排列) • ② 计算项次数i
i p n 100
• 计算Q1,取p=25; • 计算Q2,取p=50; • 计算Q3,取p=75。 • ③ 若i为整数,则取第i、i+1项的平均值; • 若i为非整数,则取i向上取整。
3-14
§3.2 数据分布离散程度的测度 (Measures of Data Variation)
• 品质数据:异众比率 • 数量数据:极差 • 数量数据:四分位差 • 数量数据:方差 • 数量数据:标准差 • 数量数据:变异系数
一、品质数据:异众变化率(Variation Ratio)
• 定义:非众数组的频数占总频数的比例。 众数组的频数
合计
组中值(x i) 频数(f i)
775

第6章抽样估计

第6章抽样估计

二、抽样误差的测度
(一)抽样实际误差 (二)抽样平均误差
新编统计学 Statistics
抽样平均误差是抽样平均数或抽样成数 的标准差,反映了抽样指标与总体指标的平 均误差程度。
抽样平均误差的计算公式
抽样平均数 的平均误差
x
x

2
X
M
新编统计学 Statistics
抽样成数 平均误差
p
新编统计学 Statistics
公式表示: Z
x Z/2x
p Z/2p
第三节 抽样估计的方法
一、点估计
新编统计学 Statistics
总体参数点估计的特点 总体参数优良估计的标准
无偏性 一致性 有效性
二、区间估计
新编统计学 Statistics
总体参数区间估计的特点:
新编统计学
3.计算抽样极限误差:
Statistics
P ZP 1 .9 6 0 .01 0 9 .08 388
4.计算总体P的置信区间:
上限: pp 25 .63 %
下限: pp 17 .87 %
即:以95%的把握程度估计该地区农户中拥有 彩电的农户在 17.87%至25.63%之间。
问题一
已知:N=5000
N=400
新编统计学 Statistics
n1 87(1)0.95
1.计算样本成数:
pn1 8721 .75 % n 400
2.计算抽样平均误差:
p
p1p 1n
n N
0.217 0 5 .782 15 40 00.0198 400 500 0
已知: n=100 x=58 σ=10
则: 101(公斤 )

第六章 抽样调查(梁应)

第六章 抽样调查(梁应)

二、抽样误差的影响因素:
1. 全及总体标志变异程度。——正比关系 2. 抽样单位数目的多少。——反比关系 3. 不同的抽样方式。 4. 不同的抽样组织形式。
抽样误差的作用: 1. 在于说明样本指标的代表性大小。
误差大,则样本指标代表性低; 误差小,则样本指标代表性高; 误差等于0,则样本指标和总体指标一样大。
2 N n

n N1
但实际中, 往往N很大,n很小,故改用下列公式:
2
n
(1 )
x
n
N
上例中,若为不重复抽样,则:
400 (1
100 ) 1.99(小时)
x 100 10000
(二) 成数的抽样平均误差
已证明得:成数的方差为p(1-p) 在重复抽样情况下:
p(1 p)
p
n
在不重复抽样情况下:
4.抽样方法适用于对大量现象的观察,即组成事物总
体的单位数量较多的情况;
5.利用抽样推断的方法,可以对于某种总体的假设进
行检验,判断这种假设的真伪,以决定取舍。
第二节 抽样调查的基本概念及理论依据
一、 全及总体和抽样总体(总体和样本)
全及总体:所要调查观察的全部事物。
总体单位数用N表示。
抽样总体:抽取出来调查观察的单位。
修正系数
R R
1r ,当R的数目较大时,可用(1
r R
)来代替。
整群抽样的抽样平均误差计算公式为:
x
2x (1 r ) rR
p
p2 (1 r ) rR

假如某一机器大量生产某一种零件,现每隔一小时抽取5分钟 产品进行检验,用以检查产品的合格率,检查结果如下:
合格率
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

4
一、抽样单元和抽样框
为使抽样能够实施,同时也为了具体抽样的便利,通常将总体划分成互不重叠且有穷尽的 若干部分,每个部分称为一个抽样单元(sampling unit)。
抽样单元不一定就是组成整体的最小单位。如在电视剧收视率抽样调查中,可以将每个电 视观众作为抽样单元,也可以将每个拥有电视机的家庭作为抽样单元;在人口变动量抽样 调查中可以将县、乡(街道)或居委会(村)都作为抽样单元。抽样单元可以是自然形成的, 例如各级行政单位、机关、学校、工厂以至个人;也可以是人为划分的,例如在田地调查 中,将整块田地划分为边长一米的方形小块作为抽样单元。
抽样单元有大小之分。一个大的抽样单元(例如省)可以分成若干个小的抽样单元(例如县) ,前者称为初级单元或一级单元(primary sampling unit),后者称为次级单元或二级单元 (secondary sampling unit)。这些概念对于理解较复杂的抽样方法,例如多阶抽样与整 群抽样,非常重要。
12
第三节 分层随机抽样
13
一、层数确定与样本量分配
(一)确定层数的基本思想 (二)每层样本量的分配
1. 比例分配 2. 最优分配 3. 奈曼最优分配(Neyman optimum allocation)
14
二、估计量及其性质
(一)估计量
1. 简单估计 2. 比估计
(1) 分别比估计: (2) 联合比估计:
样本中包含的抽样单元数 称为样本量(size of the sample),样本量与总体单元总数 之比 称为抽样比(sampling fraction)。须强调,在复杂抽样中 是指该抽样中的最基本的单元 的数量。
在总体中按抽样单元进行概率抽样时,需要一份有关抽样单元的名册、清单或地图。记录 或表明总体所含全部(初级)抽样单元或一个较大的抽样单元所包含的全部次一级抽样单元 的这种名册、清单或地图称为抽样框(sampling frame)。在抽样框中,每个抽样单元都被 编上号。抽样框是设计并实施一个抽样方案所必须具备的基础资料。一旦某个单元被选中 ,也需要根据抽样框找到这个单元,从而能够实施调查。
抽样可以逐个进行,即每次只从总体中抽取一个个体(或单元),也可以整个样本 一次同时抽取。在逐个抽取时,每次被抽到的个体可以不放回也可以重新放回 整体中去,前者称为不放回抽样(sampling without replacement),后者称为 放回抽样(sampling with replacement)。如果整个样本一次同时抽取也是一种 不放回抽样。另外,当抽取总体中的每个个体时,个体被抽中的概率可以是相 等的,也可以是不等的。前者称为等概率抽样(sampling with equal probabilities),后者称为不等概率抽样(sampling with unequal probabilities)。
9
一、样本容量的确定
(一)参数为总体总和或总体均值的情形 (二)参数为总体比例的情形
10
二、估计方法
(一)估计方法
1. 简单估计 2. 比估计
(二)估计量的无偏性
(1) 总体均值 (2) 总体总值 (3) 总体比例 (4) 总体比率
11
三、方差与区间估计
1. 总体特征的方差的简单估计 2. 比估计量的方差估计
Hale Waihona Puke 5二、误差误差一般理解为估计值与真实值之间的差异。误差 越小,估计量的精度越高。
抽样调查中的误差来源主要有两个,一种是非抽样 误差(non-sampling error),它是指由于调查中获 得的原始数据不准确(例如测量误差)、抽样框有缺 陷(抽样框中的抽样单元有重复或遗漏)、或在调查 中由于种种原因无法得到符合抽样设计方案的全部 样本数据(例如部分调查对象拒绝回答问题)等原因 引起的。
3
第一节 基 本 概 念
抽样调查涉及的概念比较多。首先对抽样(sampling)做一个大的分类:概率抽 样(probability sampling)和非概率抽样(non-probability sampling),其中概 率抽样又可以称为随机抽样(random sampling)。概率抽样具有以下几个基本 特点:①能够确切地定义(或区分)不同的样本,即能够明确表明一个确定的样本 包含哪些个体;②对每个可能的样本,都赋予一个被抽到的概率;③通过某种 随机形式从总体中抽取一个样本,使这个样本被抽中的概率等于所赋予的概率 ;④从样本估计总体参数时需要与抽样概率相联系。概率抽样的优点在于可以 估计抽样误差,可获得估计的精度。非概率抽样主要依赖主观判断,或根据操 作方便的原则进行。非概率抽样一般不能估计其抽样误差。本章的重点是概率 抽样,对非概率抽样只讨论系统抽样。
抽样调查误差的另一来源是抽样误差(sampling error),它是由于我们用局部的样本数据对整体的 总体参数进行估计所引起的误差。
6
三、精度、信度与效度
7
图6-1描述了ABC三种抽样调查对各自的总体均值参数的估 计情况,图中的空心圆圈表示均值参数真值的位置,而散点 表示了抽样样本。从图中可以直观地看到,A偏倚小(可以理 解成样本“重心”和均值参数真值位置之间的系统性误差) 而样本的方差(可以理解为调查中的随机误差)大,称这样的 抽样调查效度(validity)高而信度(reliability)低;B的系统性 误差大而随机误差小,称这样的抽样调查效度差而信度高; 相比之下,C的系统误差与随机误差都小,即均方误差小, 精度高。
8
第二节 简单随机抽样
简单随机抽样(simple random sampling)有两种等价的定 义:第一,从总体 个单元中,一次抽取 个单元,使全部可 能的 种不同的结果每种被抽到的概率都等于 ,通过这种抽 样得到的样本叫做简单随机样本,样本容量为 ;第二,从 总体 个单元中,逐个不放回地抽取单元,每次抽取到尚未 入样中的任何一个单元的概率都相等,直到抽足 个单元为 止,这样所得的 个单元也组成一个简单随机样本。图6-2形 象地表示了简单随机抽样。
(二)估计量的性质
1. 简单估计 2. 比估计
相关文档
最新文档