第6章抽样推断解读
统计学基础课件(第六章抽样推断)

统计学基础
第六章 抽样推断
其中一类是登记性误差,即在调查过程中由于观察、 测量、登记、计算上的差错所引起的误差,这类误差 是所有统计调查都可能发生的。
另一类是代表性误差,即样本各单位的结构不足以 代表总体而引起的误差。
Fundamentals of Statistics
统计学基础
第六章 抽样推断
第六章 抽样推断
第六章 抽样推断
Fundamentals of Statistics
统计学基础
第六章 抽样推断
教学目的与要求:
抽样估计是抽样调查的继续, 它提供了一套利用抽样资料来 估计总体数量特征的方法。通 过本章的学习,要理解和掌握 抽样估计的概念、特点,抽样 误差的含义、计算方法,抽样 估计的置信度,推断总体参数 的方法,能结合实际资料进行 抽样估计。
(只有两种表现)
Fundamentals of Statistics
总体成数
P=
N1 N
成数标准差 p
P 1 P 统计学基础
第六章 抽样推断
样本指标是根据样本各单位标志值或标志属性
计算的综合指标。
x
=
∑x n
研究数 样本平均数
x
=
∑xf ∑f
量标志
样本标准差
x
2
x
n
x
x
2
x
f
f
研究品 质标志
含义: 抽样极限误差是指样本指标和总体指标之间抽
样误差的可能范围。由于总体指标是一个确定的 数,而样本指标则是围绕着总体指标左右变动的 量,它与总体指标可能产生正离差,也可能产生 负离差,样本指标变动的上限或下限与总体指标 之差的绝对值就可以表示抽样误差的可能范围, 我们将这种以绝对值形式表示的抽样误差可能范 围称为抽样极限误差。
统计学基础课件(第六章抽样推断)

Fundamentals of Statistics
统计是指这种偶然性代表性误差。 即按随机原则抽样时,在没有登记性误差和系统性误 差的条件下单纯由于不同的随机样本得出不同估计量 而产生的误差。抽样误差是抽样调查所固有的,是无 法避免与消除的,但可以运用数学方法计算其数量界 限,并通过抽样设计程序控制其范围,所以这种抽样 误差也称为可控制误差。 需要指出,抽样误差不是 固定不变的数,它的数值是随样本不同而变化的,所 以它也是随机变量。
重复抽样 AA AB AC AD BA BB BC BD CA CB CC CD DA DB DC DD
N n = 42 =16 (个样本)
Fundamentals of Statistics
统计学基础
第六章 抽样推断
不重复抽样
N(N-1)(N-2)……. 4×3 = 12(个样本)
Fundamentals of Statistics
Fundamentals of Statistics
统计学基础
第六章 抽样推断
本章主要内容 •抽样推断概述 •抽样误差 •抽样估计的方法 •样本容量的确定
Fundamentals of Statistics
统计学基础
第第一六章节抽样推抽断样推断概述
一、抽样推断的概念和特点 概念
抽样推断是在抽样调查的基础上,用样 本实际资料计算样本指标,并据以推算总 体相应的数量特征的一种统计分析方法。
代表性误差的发生有以下两种情况:
一种是由于违反抽样调查的随机原则,如有意地多选较好的 单位或较坏的单位进行调查。这样做,所据以计算的抽样指标 必然出现偏高或偏低现象,造成系统性的误差。系统性误差和 登记性误差都是不应当发生的,是可以也应该采取措施避免发 生或将其减小到最小限度。
统计学第六章抽样与抽样估计

三、整群抽样及其抽样估计
三、整群抽样及其抽样估计 1.整群抽样的概念 2.整群抽样估计
例3 某商场有某种饮料500箱,每箱6瓶,现随机抽取10箱检查 每瓶的含菌量数,测得这10箱的平均每瓶含菌数分别为:90、 80、65、85、75、70、60、65个。要求以95%的置信度推 断这批饮料的平均含菌数的区间?(教材P108)
置信上限=96%+1.3%=97.3%上限=96%-1.3%=94.7% 以68.27%的置信度估计全部产品合格率的区间 为94.7%至97.3%
解:N=10000, N1=4000, N2=6000, n1=n2 =100, p1=94%, p2=98%,z=1
等距抽样及其抽样估计 等距抽样的概念 无关标志排队等距抽样 其抽样误差按简单随机抽样的抽样误差公式近似计算。 有关标志排队等距抽样 其抽样误差按分层抽样的抽样误差公式近似计算。 半距起点等距抽样 对称起点等距抽样
抽样极限误差 概念 又称允许误差。指样本指标与总体指标之间产生抽样误差被允许的最大可能范围。 抽样极限误差的计算
(三)抽样误差的概率度
(四)抽样估计的置信度
基于概率估计的要求,抽样极限误差通常需要以抽样平均误差为标准单位来衡量。 极限误差除以抽样平均误差得到的相对数称为概率度。用Z表示。
指样本指标与总体指标误差不超过一定范围的概率保证程度。抽样误差的概率就是概率度Z的涵数,即:
几个总体参数的无偏、有效、一致点估计 样本平均数估计量是总体平均数的无偏、有效、一致估计,即 样本比例是总体比例的无偏、有效、一致估计,即
总体方差的无偏估计是:
三、总体参数的区间估计 (一)区间估计的概念要点 1.根据一个样本的观察值给出总体参数的估计范围 2.给出总体参数落在这一区间的概率 3.例如: 总体均值在50~70之间,置信度为 95% 置信区间 置信下限 置信上限 样本统计量 (点估计)
第六章_抽样分布及总体平均数的推断

第四节 总体平均数的显著性检验
总体平均数的显著性检验是指对样本平 均数与总体平均数之间的差异进行的显著性 检验。若检验的结果差异显著,可以认为该 样本不是来自当前的总体,而来自另一个、 与当前总体存在显著差异的总体。即,该样 本与当前的总体不一致。
.
一、总体平均数显著性检验的原理
检验的思路是:假定研究样本是从平均 数为μ的总体随机抽取的,而目标总体的平 均数为μ0,检验μ与μ0之间是否存在差异。 如果差异显著,可以认为研究样本的总体不 是平均数为μ0的总体,也就是说,研究样本 不是来自平均数为μ0的总体。
Xt11 0.01
S n 1
Xt11 0.01
S n 1
2
2
2.9 9 1 3 .1 7 0 3 .9 62 6 2.9 9 1 3 .1 7 0 3 .9 62
1 1 2
1 1 2
2.6 240 3.3 594 .
③总体正态,σ未知,大样本
平均数的抽样分布接近于正态分布,
用正态分布代替t分布近似处理:
XZ
2
SnXZ 2
S n
(9.3)
.
例题3:从某年高考中随 机抽取102份作文试卷,算得 平均分数为26,标准差为1.5, 试估计全部考生作文成绩95 %和99%的置信区间。
.
解:学生高考分数假定是从正态总体 中抽出的随机样本,而总体的标准差σ未 知,样本平均数与总体平均数离差统计量 呈t分布。但是由于样本容量较大
从呈t分布。
于是需用t分布来估计该校三年级学生阅
读能力总体平均数95%和99%的置信区间。
.
由原始数据计算出样本统计量为
X 29.917
S3.926
当P=0.95时, t11 2.201 0.0 5
第6章 抽样调查(1)

33
1、由于总体单位总数未 知,因此采用重复抽样 公式。又总体标 准差未知,采用过去资 料最大标准差作为估计 值。
x
n
0.12 0.0219 (升) 30
n1 30 2 2、合格率p 93.3% n 30 S P p(1 p) 93.3% (1 93.3%) 6.25%
根据质量标 准,使用寿 命800小时及 以上者为合 格品,计算 产品平均合 格率和标准 差。
14
全及指标
X XF X N F
P N1 N
X
2
( X X )2
N
( X X )2 F F
X
(X X )
N
2
(X X ) F F
2
P 2 P(1 P)
31
例 上题中,如果寿命低于9000小时的产品是不合格品,计 算不合格率(合格率)的抽样平均误差。
不合格率:
n1 90 x p 18% n 500
Sp
p(1 p)
Sp
0.18 (1 0.18) 38.4%
重复抽样下:
p
p
Sp n
0.384 1.7% n 500
3
特 点
遵循随机原则抽取部分单位 ;
用样本推断总体;
会产生抽样误差,但误差可以计算和控制。
4
随机原则的实现
统 计 学 概 论
是将总体中每个单位的编号写在外形完全 一致的签上,将其搅拌均匀,从中任意抽 抽签法 选,签上的号码所对应的单位就是样本单 位。 将总体中每个单位编上号码,然后使 用随机数表,查出所要抽取的调查单 随机数表法 位。
经济应用统计学-第六章抽样推断

非参数检验优缺点总结
• 易于理解和实现:非参数检验方法通常基于直观和易于理解的思想,计算和实现相对简单。
非参数检验优缺点总结
检验效能较低
与参数检验方法相比,非参数检 验方法的检验效能通常较低,即 当原假设为真时,非参数检验方 法更容易犯第二类错误(接受原 假设)。
对数据信息的利用不 充分
非参数检验方法通常只利用数据 的部分信息(如排序信息),而 忽略了数据的其他有用信息(如 数值大小),因此可能无法充分 利用数据信息。
两配对样本非参数检验
包括Wilcoxon 符号秩次检验、McNemar 检验 等方法,用于比较同一总体内两个配对样本的差 异是否显著。
两独立样本非参数检验
包括Mann-Whitney U 检验、Kruskal-Wallis H 检验等方法,用于比较两个独立样本所来自的 总体的分布位置或分布形状是否存在差异。
考虑样本量大小
在选择置信水平时,应充分考虑样本量的大小。当样本量较小时,应选择较低的置信水平以避免过大的估计误差;当 样本量较大时,可以选择较高的置信水平以获得更精确的估计结果。
参考相关文献或行业标准
在选择置信水平时,可以参考相关领域的文献或行业标准,了解通常采用的置信水平及其依据。这有助 于确保研究结果的可比性和可靠性。
04
假设检验原理与步骤
假设检验基本概念阐述
原假设与备择假设
原假设通常是研究者想要推翻的 假设,而备择假设则是研究者希 望证实的假设。
检验统计量与拒绝域
检验统计量是根据样本数据计算出 的用于检验原假设的统计量,而拒 绝域则是根据显著性水平和检验统 计量的分布确定的,当检验统计量 落入拒绝域时,我们拒绝原假设。
单侧检验
当研究者对备择假设的方向有明确预期时,即备择假设只可能大于或小于原假设时,应选择单侧检验 。例如,在比较两种药物疗效的研究中,如果研究者预期新药疗效优于旧药,则应选择单侧检验。
第六章 抽样分布解读
第六章抽样分布数理统计的核心问题是由样本推断总体,即统计推断问题。
具体方法是利用从总体中所抽取的样本信息来对总体做出科学的推断。
这就需要由样本信息形成推断总体的统计量,而统计量是随机变量,通过前面学习概率论的基本知识,我们知道随机现象可以通过随机变量的概率分布和数字特征来描述,但是在很多实际问题中,我们所研究的随机变量的概率分布和数字特征是未知的。
例如,某中药厂要了解生产药品的质量,需要掌握药丸的崩解时间、药片的溶解速度,如果把这批药品全部进行检验,就可以得到其分布函数以及有关的数字特征,但这一检验是破坏性的,故无实际意义。
有的指标的获得虽然不是破坏性的,如蜜丸的丸重、质量等,但获取这些指标的工作量大,要耗费人力物力,所以也难以实现。
可行的办法是通过抽样检查,对部分产品进行试验分析,进而推断出整批产品的情况,即应用数理统计的原理,从局部推断总体的规律性。
第一节基本概念一、总体与样本定义6-1 在数理统计中,把研究对象的全体称为总体,总体中的每个元素称为个体。
总体和样本是数理统计中两个最基本的概念,例如,我们要考察某药品企业生产的某批针剂的质量,则该批针剂的全体就是一个总体,其中的每一只针剂都是这个总体的一个个体。
在实际问题中,我们不能笼统地研究所关心的对象,只考察它的某一项数值指标,而是要对总体的一个或者若干个数值指标进行研究,例如,考察针剂质量,我们要了解它的有效期、药物含量等。
总体可分为有限总体和无限总体两类。
如果总体所包含的观察单位是有限的,则称该总体为有限总体。
如果总体所包含的观察单位是无限的,且没有明确的时间与空间范围则称为无限总体。
例如,用某种中药治疗高血压病人,那么高血压病人究竟有多少,显然没有确切的数字,这样的观察单位就是没有明确时间与空间范围的无限总体。
为了研究总体,需要从总体中抽出若干个个体,这就有了样本的概念。
定义6-2 在一个总体X 中抽取n 个个体n X X X ,,,21 ,这n 个个体称为总体X 的一个容量为n 的样本;样本中所含个体的数目n 称为样本含量,根据样本容量n 的大小,我们可以将统计问题划分为大样本问题和小样本问题,但大样本、小样本没有严格的界定标准,视统计量和统计问题的要求而定。
第六章抽样估计
3. 在总体单位数N和样本容量n一定的条件下,样本 可能数目与抽样方法有关。而在同一抽样方法下, 又由于对被抽中的几个单位考虑顺序与否,从而 有不等的样本可能数目。
可能样本数目的计算公式
不重复抽样
考虑 顺序
ANn
N! (N n)!
影响样本代表性的因素:
1、总体分布的离散程度的大小。(用方差δ 表示)
2、抽样单元数的多少(或称样本容量的大小)。
3、抽样方法(重复抽样和不重复抽样)。
参数与统计量
在统计学中约定俗成,将用来描述总体的 特征的综合指标称为总体的参数;
将用来描述样本特征的指标称为样本统计 量。
总体参数 总体单位数=N 总体平均数=X 总体成数=p 总体标准差=δ 总体方差=δ
由于抽样指标值随着样本的变动而变动,它本身是 个随机变量,因而抽样指标和总体指标的误差仍然 是个随机变量,不能保证误差不超过一定范围的这 件事是必然的,而只能给以一定程度的概率保证。
抽样估计置信度就是表明抽样指标和总体指标的误 差不超过一定范围的概率保证程度。
落在总体均值某一区间内的样本
X
x- 3 x- 2 x-
第一节 抽样调查的基本概念
一、样本及其代表性 二、参数和估计量 三、样本可能数目 四、抽样框与抽样单位
样本及其代表性(概念要点)
样本(sample):又称样本总体或子样,就是从
总体中随机抽取出来并用来代表总体的那部分单 位所构成的新的小总体或集合体。对于一个具体 的抽样问题,总体是唯一确定的,而样本则不是 唯一的。
已知给定的置信度要求,推算极限 误差的可能范围
计算步骤是:
6第六章 抽样分布及总体平均数的推断
师大附小二年级中48个学生的身高
135 134 129 133 131 131 131 134 124 132 122 124 127 131 137 132 134 138 124 132 128 136 127 120 131 120 121 144 128 133 128 127 126 130 122 128 127 125 127 131 135 127 127 133 130 132 132 129
6.2.2 区间估计
(2)区间估计的原理
区间估计的原理是样本分布理论。在计算区间 估计值、解释估计的正确概率时,依据是该样本统 计量的分布规律及样本分布的标准误(SE)。
下面以平均数的区间估计为例,说明如何根据 平均数的样本分布及平均数分布的标准误(SE), 计算置信区间和解释成功估计的概率。
。
6.2.2 区间估计
•从总体中抽取25人,计算其平均成绩,该平均成绩 在128到132间的概率有多大;
•从总体中抽取25人,计算其平均成绩,该平均成绩 以总体平均数为中心,95%概率下的分布范围
•从总体中抽取25人,计算其平均成绩,该平均成绩 由高到低95%概率下的分布范围;
•从总体中抽取25人,计算其平均成绩,最高5%的 平均成绩的范围。
师大附小二年级80个学生的身高
身高(1)
组中值(2)
频数(3)
115-
116.5
1
118-
119.5
3
121-
122.5
8
124-
125.5
10
127-
128.5
20
130-
131.5
19
133-
134.5
12
136-
统计学教学课件:第六章 抽样推断
已知: N 5000, 300小时,x 25小时
F (t) 95% t 1.96
重复抽样:
二、区间估计
总体指标的推断(置信区间):
x x X x x pp P pp
说明在一定可能下,总 体指标落在抽样指标的 一定范围内。
置信区间: X [x x , x x ]
P [ p p, p p ]
置信区间是统计意义上的,即一定概率下,总体指标所 落在的区间长度,等于两倍的抽样极限误差。
第四节 全及指标的推断
抽样调查的目的是为了用样本指标推断总 体指标。对总体指标的估计有两种,一种是点 估计,一种是区间估计。
一、点估计(又称“定值估计”)
——不考虑抽样误差,直接用样本指标代替全及指标。即:
X x;P p
点估计不能说明误差大小,意义不大;而采用区间估 计,可以将误差控制在一定的范围内(即说明总体指标 在某一范围内的可能性大小) 。
1. 概念:先将总体单位按某一有关标志分类(组),再按
随机原则从各类(组)中抽取样本的组织形式。
(1)样本容量n的 分配方法:
① 等比例抽取
② 不等比例抽取 (标志变异大的组多抽,反之少抽。)
组与组之间是全面调查(组间方差不影响 ) (2)特点:
组内是非全面调查(组内方差影响 )
注:类型抽样的误差常小于简单随机抽样。
原则:
节省人力、物力、财力;
保证抽样推断能达到预期的可靠程度和精确 度的要求下,确定一个适当的样本容量。
确定必要抽样单位数n的依据
1、总体被研究标志的变异程度(变异大多抽,小则少抽) 2、抽样误差的范围(精确程度)(范围大少抽,小则多抽) 3、抽样推断的可靠程度(可靠程度高多抽,反之少抽)