第2讲 抽样分布与参数估计

合集下载

抽样分布与参数估计

抽样分布与参数估计

抽样分布与参数估计首先,我们来了解什么是抽样分布。

在统计学中,抽样分布是指从总体中多次抽样得到的样本统计量的分布。

假设我们的总体是指所有感兴趣的个体的集合,而样本是从总体中选取的一部分个体。

抽样分布的形状和性质取决于总体的分布和样本的大小。

通过分析抽样分布,可以得到有关总体参数的有用信息。

例如,我们想要知道一些城市成年人的平均年收入。

在实际情况下,我们无法调查每个人的收入情况,因此我们需要从总体中随机抽取一部分个体作为样本,并计算他们的平均年收入。

如果我们多次从总体中抽取样本并计算平均年收入,然后绘制这些平均值的分布图,我们就可以得到平均年收入的抽样分布。

这个抽样分布将给我们提供有关总体平均年收入的估计和推断。

接下来,我们将讨论参数估计。

参数估计是指使用样本数据来估计总体参数的过程。

总体参数是用于描述总体特征的数值,如总体平均值、总体标准差等。

通过从总体中抽取样本,并计算样本统计量,我们可以利用样本统计量来估计总体参数。

常用的参数估计方法有点估计和区间估计。

点估计是指用单个数值来估计总体参数,例如用样本均值来估计总体均值。

点估计给出了一个单一的值,但不能提供关于估计的精度的信息。

因此,我们常常使用区间估计。

区间估计是指给出一个区间,这个区间内有一定的置信水平使得总体参数落在这个区间内的概率最高。

区间估计能够向我们提供关于估计的精确程度的信息。

区间估计依赖于抽样分布的性质。

中心极限定理是制定抽样分布理论的一个重要原则。

根据中心极限定理,当样本容量足够大时,样本均值的抽样分布将近似于正态分布。

这使得我们可以使用正态分布的性质来计算置信区间。

构建置信区间的一种常用方法是使用样本均值的标准误差。

标准误差是样本均值的标准差,它用来衡量样本均值和总体均值之间的误差。

根据正态分布的性质,当样本容量足够大时,样本均值与总体均值之间的误差可以用标准误差来估计。

通过计算标准误差并结合正态分布的性质,我们可以得到样本均值的置信区间。

第5章--抽样分布与参数估计教案资料

第5章--抽样分布与参数估计教案资料

(5)
(5.5)
(6)
(6.5)
(7)
(7.5)
(8)
(8.5)
(9)
9
9,1
9,2
9,3
9,4
9,5
9,6
9,7
9,8
9,9
9,10
(5)
(5.5)
(6)
(6.5)
(7)
(7.5)
(8)
(8.5)
(9)
(9.5)
10
10,1
10,2
10,3
10,4
10,5
10,6
10,7
10,8
10,9
10,10
数是 ,标准差是 ,从这个总体中抽出一 个容量是 n 的样本,则样本平均数 X 也服从 正态分布,其平均数 E( X ) 仍为 ,其标准
差为 。 X 5-19
从正态分布的再生定理可以看出,只要总体 变量服从正态分布,则从中抽取的样本,不管n 是多少,样本平均数都服从正态分布。但是在 客观实际中,总体并非都是正态分布。对于从 非正态分布的总体中抽取的样本平均数的分布 问题,需要由中心极限定理来解决。
第5章--抽样分布与参数估计
第一节 抽样的基本概念与数学原理
一、有关抽样的基本概念 二、大数定理与中心极限定理
5-2
一、有关抽样的基本概念
(一)样本容量与样本个数 1.样本容量。样本是从总体中抽出的部分
单位的集合,这个集合的大小称为样本容量, 一般用n表示,它表明一个样本中所包含的单 位数。
lim
n
1 n
p
n
i 1
X
i
1
(5.5)
5-17
大数定理表明:尽管个别现象受偶然因 素影响,有各自不同的表现。但是,对总体 的大量观察后进行平均,就能使偶然因素的 影响相互抵消,消除由个别偶然因素引起的 极端性影响,从而使总体平均数稳定下来, 反映出事物变化的一般规律。

抽样分布与参数估计

抽样分布与参数估计

三、t分布曲线下的面积分布规律
自由度为 的t分布曲线
t 分布曲线下 的整个面积为1, t 分布曲线下从a到b 的面积为t值分布 在此范围内的百分 比,即t值落在此 范围内的概率P。
双侧:由于t分布以0为中心对称,即 P(t≤- t, )= P(t≥ t, )= /2 于是有P(- t, ≤t≤ t, )=1-
sx
u X
X
t X =n-1
s X
u分布 t分布
二、t分布图形的特点
• 1. t分布是一簇曲线。 t分布有一个参数, 即自由度 ,与标准差的自由度一致。
• 2. t分布曲线以0为中心,左右对称; 越小, t变量值的离散程度越大,曲线越扁平。
• 3. t分布曲线较标准正态曲线要扁平些(高 峰低些,两尾部翘得高些), 逐渐增大, t分布曲线逐渐的逼近于标准正态曲线,若 =,则t分布曲线和标准正态曲线完全吻 合。
参数估计在统计方法中的地位
统计方法
描述统计
推断统计
点值估计
参数估计
假设检验
区间估计
一、基本概念
➢ 参数估计:用样本统计量来估计总体参数。
点值估计:不计抽样误差,直接用样本均数来 估计μ。
区间估计:根据抽样误差的规律,按一定的概 率估计总体均数的所在范围。统计上习惯用95% 或99%可信区间表示总体均数可能所在范围。
第一节 均数的抽样误差 第二节 t分布 第三节 总体均数可信区间的估计
一、抽样研究:从总体中随机抽取部分 观察单位构成样本,用样本信息去 推断总体特征的研究方法。
统计推断的过程
总体

样本统计量

例如:样本均
值、比例
二、抽样误差:在抽样研究中,因抽样造 成的样本统计量与样本统计量、样本统计 量与总体参数的差值。

第二节 抽样估计的基本方法

第二节  抽样估计的基本方法

面向21世纪 课程教材
第四章
抽样与抽样估计
第二节

(四)影响抽ห้องสมุดไป่ตู้误差的因素
1、总体各单位的差异程度(即标准差 的大小) : 越大,抽样误差越大; 2、样本单位数的多少n : 越大,抽样 误差越小; 3、抽样方法:不重复抽样的抽样误差 比重复抽样的抽样误差小; 4、抽样组织方式:简单随机抽样的误 差最大。
面向21世纪 课程教材
第四章
抽样与抽样估计
第二节

(三)估计量优劣的标准 评价估计量的优劣常用下列三个标准。 1.无偏性 2.有效性 3.一致性 点估计的优点是简单、具体明确。但由于样本 的随机性,从一个样本得到的估计值往往不会 恰好等于实际值,总有一定的抽样误差。而点 估计本身无法说明抽样误差的大小,也无法说 明估计结果有多大的把握程度。
xf
336 812 2160 2852 2688 2376 816 560 12600
x x f
2
588 700 648 92 84 648 600 784 4144

面向21世纪 课程教材
第四章
抽样与抽样估计
第二节

解:
xf 12600 126件 x 100 f x x f 4144 6.47件 s 99 f 1
126 1.203 X 126 1.203
,
1000126 1.203 N X 1000126 1.203
即该企业工人人均产量在124.797至 127.203件之间,其日总产量在124797至 127203件之间,估计的可靠程度为95﹪。
面向21世纪 课程教材
但对于某一项调查来说,根据客观要求,一般应 有一个允许的误差限,也就是说若抽样误差在这 个限度之内,就认为是可允许的,这一允许的误 差限度就称为极限误差。

数理统计: 参数估计方法

数理统计: 参数估计方法
23
引例
设总体 X 服从参数为 的指数分布, 未知,
X1 , X 2 , , X n 是来自X的样本, x1 , x2 , , xn 是
相应的样本值,求 的矩估计量和矩估计值.
解 因为 E( X ) 所以 用样本矩替换总体矩, 得 的矩估计量
ˆ

1 n
n i 1
Xi

X
(
x)

1

e

x

,
x0
0,
其他.
但参数 未知。已知参数的取值范围,记为 。
给出样本的一组观察值,如何推断总体的分布?
【思路】给出 的估计,则得到对总体分布的推断。
【方法】根据一定的原则,从 中找到一个值(点) 作为的 估计。
点估计
2
点估计定义
设总体 X 的分布函数 F ( x; ) 的形式为已知,
的估计量.
4
二、估计量的评选标准 1. 无偏性
定义 若 X1, X 2 ,, X n 为总体 X 的一个样本,
是包含在总体 X 的分布中的待估参数, 若估计量ˆ ˆ( X1 , X 2 ,, X n )的数学期望 E(ˆ) 存在, 且对于任意 有
E(ˆ) 则称ˆ 是 的无偏估计量,否则称为有偏的.
(2) lim S 2 2 a.s. (强大数定律) n
即样本方差是总体方差2的强相合估计, 也是相合估计.
12
C. 样本标准差
其观察值:
S
S2
1 n1
n i 1
Xi

X
2
;
s
1 n1
n i 1
( xi

抽样的基本概念

抽样的基本概念

中心极限定理
(图示)
中心极限定理:设从均值为,方差为 2的一个任意总
体中抽取容量为n的样本,当n充分大时,样本均值的抽 样分布近似服从正态分布。
一个任意分 布的总体
当样本容量足够 大时(n >30) , 样本均值的抽样 分布逐渐趋于正 态分布
X
抽样平均误差
1.重复抽样条件下,记算公式为: 2.不重复抽样条件下,计算公式为:
设总体中 N 个总体单位某项标志的标志值分别
为 X1, X 2 , X N ,其中具有某种属性的有 N1个 单位,不具有某种属性的有 N0个单位,则
⒈ 总体平均数(又叫总体均值): ⒉ 总体标准差: ⒊ 总体方差:
⒋ 总体比例: ⒌ 是非标志总体的标准差:
P P1 P 当P 0.5时, P有最大值
3.小于总体标准差 4.与样本容量的关系
抽样分布
更大样本 容量的抽 样分布
某个样本 容量的抽 样分布
x
n
X
P119例4-5
某班组有5个工人,他们的单位工时工资分别是4、6、8、10 、12元,总体服从于正态分布。现用重复抽样方式从5个工 人中抽出2人,计算样本的平均工时工资的抽样平均误差。
解:总体分布的平均数与方差分别是:
练习:计算样本比例的抽样平均误差
1、某县人口10万人,用简单随机不重复抽样 方法抽取1/10的人口进行调查,得知男性 人口比重为51%,求男性人口比重的抽样平 均误差。
2、对某乡进行简单随机重复抽样调查,抽出 100个农户进行调查,得知年收入在1800元 以上的占95%,求农户年收入在1800元以上 比重的抽样平均误差。
第4章 抽样估计
第一节 抽样的基本概念 第二节 抽样分布与中心极限定理 第三节 总体参数估计 第四节 抽样方案的设计与实施*

参数估计基础

参数估计基础
p =黑球数/50 每次摸出黑球的比例p服从二项分布,表示为:
p ~ B(n,π), 给定n=50, π =0.20. 共抽取100个样本,计算黑球的比例, p1,p2,…,p100.结果见表5-3。
表5-3 从B(n=50 =0.20)抽取的100 个样本频率的频数分布
黑球比例(%) 8.010.012.014.016.018.020.022.024.026.0-
试估计:该样本频率的抽样误差。 已知:p=41.5%,n=776,代入公式(5-4)得到标准误估 计值:
S pp 1 n p 0 .4 1 5 7 1 7 6 0 .4 1 5 0 .0 1 7 7 或 1 .7 7 %
标准误的估计值较小,说明用样本患病率 41.5%估计总体患病率的可靠性较好。
组段(cm) 152.6~
153.2~ 153.8~ 154.4~ 155.0~ 155.6~ 156.2~ 156.8~ 157.4~ 158.0~158.6
合计
频数 1
4 3 19 25 23 18 4 1 2 100
频率(%) 1.0
4.0 3.0 19.0 25.0 23.0 18.0 4.0 1.0 2.0 100.0
= 时,t分布就完全等于标准正态分布。 3、标准正态分布有两个固定常数(0,1),t分 布只有一个参数 。
❖ 练习:
❖ 1、ν=10,双侧尾部面积为0.05的t界值是?
❖ 2、ν=100,单侧尾部面积为0.05的t界值是?
❖ 3、ν=∞,双测尾部面积和单侧尾部面积分别 为0.05的界值是?
❖1、t 0.05/2,10=2.228
两侧越分散; ➢ 随着 逐渐增大,t分布逐渐逼近标准正态分布;
当 趋于 时,t分布就完全成为标准正态分布。

参数估计

参数估计

6. 参数估计6.1. 参数估计概述统计学包括四个方面的问题,其中之一就是统计推断。

所谓统计推断就是指,如果有一个总体,其分布和统计量都不知道,如一批生产出来的产品的质量。

这样就需要对其进行推断,如一批灯泡的平均使用寿命是多少,是否为合格品等。

统计推断就是解决这些问题。

统计推断分为两个方面,一方面是参数估计,另一方面是假设检验。

6.1.1.参数估计所谓参数估计就是通过对样本的研究,来确定总体的统计量。

其中又可分为点估计和区间估计两类。

点估计就是估计出总体的某一统计量的确切值,如总体的均值、方差等。

通常可以通过样本的相应值来进行估计。

如:样本的平均值∑=i X nx 1是总体平均值的估计量; 样本的方差为∑=--=ni i x x n s 122)(11是总体方差的估计量; 点估计的优点在于它能明确地给出所估计的参数。

但是一般说来,估计的数值与实际值之间是肯定会有误差存在的。

在实际工作中常常需要对这种误差进行衡量,也就是说还需要确定这个估计值的精度,或误差范围和可信程度。

因此就产生了区间估计的问题。

区间估计是通过样本来估计总体参数可能位于的区间。

例如说一批产品的平均使用寿命为1000小时,这仅仅是一个点估计,还需要说明大多数产品(95%)的使用寿命的上限和下限值,比如说位于800~1200小时之间,这就是一个区间估计值。

因此,在进行区间估计时,除了要给出一个区间值外,还需要同时指明可以信赖的程度,即在进行区间估计时,需要确定的是αθθθ-=<<1)ˆˆ(21p ,其中α为事先给定的一个很小的正数,如0.10, 0.05, 0.01或0.001等,称之为显著水平;1-α称为参数θ的置信概率,或置信水平。

θ1和θ2为所估计的参数θ的区间范围的上下限。

其含为我们有100(1-α)%的把握相信所估计的参数θ位于θ1和θ2的区间范围内。

6.1.2.估计量的评价标准对于所给出的估计来说,有些是好的,有些则不是。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

B
A
中位数的抽样分布

X
估计量的优良性准则
(一致性)
一致性:随着样本容量的增大,估计量越来越接 近被估计的总体参数
P(X )
较大的样本容量
B A
较小的样本容量

X
区间估计
区间估计
(概念要点)
1. 根据一个样本的观察值给出总体参数的估计范围 2. 给出总体参数落在这一区间的概率
3. 例如: 总体均值落在50~70之间,置信度为 95%
一. 点估计 二. 点估计的优良性准则 三. 区间估计
参数估计的方法
估 计 方 法



区间估计
矩估计法 顺序统计量法 最大似然法 最小二乘法
被估计的总体参数
总体参数 均值 一个总体 比例 方差 均值之差 两个总体 比例之差 方差比 符号表示
用于估计的 样本统计量

P
x ˆ p
s2 x1 x2 ˆ1 p ˆ2 p
x 2.5
2 x 0.625
样本均值的抽样分布 与中心极限定理
当总体服从正态分布N ~ (μ,σ2 )时,来自该总体的所 有容量为n的样本的均值X也服从正态分布,X 的 数学期望为μ,方差为σ2/n。即X~N(μ,σ2/n)
=10
n=4 x 5 n =16 x 2.5
总体均值的区间估计
(非正态总体:实例)
解:已知 x = 26, =6 , n=100, 1- = 【例】某大学从该 0.95,Z/2=1.96 校学生中随机抽取 100 人 , 调 查 到 他 x Z 2 , x Z 2 们平均每天参加体 n n 育锻炼的时间为 26 6 6 分钟。试以 95 %的 ,26 1.96 26 1.96 100 100 置信水平估计该大 学全体学生平均每 24.824,27.176 天参加体育锻炼的 我们可以 95 %的概率保证平均每天 时间(已知总体方 参加锻炼的时间在 24.824 ~ 27.176 差为36小时)。 分钟之间
总体、个体和样本
(概念要点)
总体(Population):调查研究的事物或现象的全体
个体(Item unit):组成总体的每个元素 样本(Sample):从总体中所抽取的部分个体 样本容量(Sample size):样本中所含个体的数量
样本均值的抽样分布
抽样分布
(概念要点)
1. 所有样本指标(如均值、比例、方差等) 所形成的分布称为抽样分布
总体均值的区间估计
(实例)
【例】从一个 正态总体中抽 取一个随机样 本, n = 25 ,其均值x = 50 , 标 准 差 s = 8。 建立 总体均值 的 95% 的置信区 间。
解:已= 0.95,t/2=2.0639。 s n 1 s n 1 , x t 2 x t 2 n n
95% 的样本
99% 的样本
置信水平
1. 总体未知参数落在区间内的概率 2. 表示为 (1 -

为显著性水平,是总体参数未在区间内 的概率 相应的 为0.01,0.05,0.10
3. 常用的显著性水平值有 99%, 95%, 90%

区间与置信水平
均值的抽样分布
/2
x
1-
置信区间 样本统计量 (点估计)
置信下限
置信上限
置信区间估计
(内容)
置信区间
均 值 2 已知 2 未知
比例
方差
落在总体均值某一区间内的样本
X = Zx

_ x
- 2.58x
-1.65 x
+1.65x
+ 2.58x
X
-1.96 x
+1.96x
90%的样本
两个样本方差比的抽样分布
设X1,X2,… ,Xn1是来自正态总体N~(μ1,σ12 )的 一个样本, Y1 , Y2 , … , Yn2 是来自正态总体 N~(μ2,σ22 ) 的 一 个 样 本 , 且 Xi(i=1,2,… , n1) , Yi(i=1,2, …,n2)相互独立,则
s

2 x 2 1
/2
x
(1 - ) % 区间包含了
X
% 的区间未包含
影响区间宽度的因素
1. 数据的离散程度,用 来测度
x 2. 样本容量, n
3. 置信水平 (1 - ),影响 Z 的大小
第三节 总体均值和总体比例 的区间估计
一. 总体均值的区间估计 二. 总体比例的区间估计 三. 样本容量的确定
均值和方差

X
i 1
N
总体分布
.3
i
N
N i 1
2.5
2
2 ( X ) i
N
1.25
.2 .1 0
1 2 3 4
样本均值的抽样分布
(一个例子)
现从总体中抽取n=2的简单随机样本,在重复 抽样条件下,共有42=16个样本。所有样本的结果 如下表
所有可能的n = 2 的样本(共16个) 第一个 观察值 第二个观察值 1 2 3 4
T 统计量的分布
设X1,X2,…,Xn1是来自正态总体N~(μ1,σ12 )的一个 样本, 称 n( X ) 为统计量,它服从自由度为(n-1)的t 分布 T S
t 分布
标准正态分布
t (df = 13)
正态分布
t (df = 5)
Z
X
t 分布与正态分布的比较
不同自由度的t分布
t
第二节 参数估计基本方法
2. 是一种理论概率分布 3. 随机变量是 样本统计量

样本均值, 样本比例等
4. 结果来自容量相同的所有可能样本
样本均值的抽样分布
(一个例子)
【例】设一个总体,含有4个元素(个体),即总体单 位数 N=4 。 4 个个体分别为 X1=1 、 X2=2 、 X3=3 、 X4=4 。总体的均值、方差及分布如下
= 50
X
x 50
X
总体分布
抽样分布
中心极限定理
(图示)
中心极限定理:设从均值为,方差为 2的一个任意总 体中抽取容量为n的样本,当n充分大时,样本均值的抽 样分布近似服从均值为μ、方差为σ2/n的正态分布
一个任意分 布的总体
x
n
当样本容量足够 大时(n 30) , 样本均值的抽样 分布逐渐趋于正 态分布
抽样分布与参数估计
参数估计在统计方法中的地位
统计方法
描述统计 推断统计
参数估计
假设检验
统计推断的过程
总体
样 本
样本统计量
例如:样本均 值、比例、方 差
抽样与参数估计
1、 2、 3、 4、 5、 抽样与抽样分布 参数估计基本方法 总体均值和总体比例的区间估计 两个总体均值及两个总体比例之差的估计 正态总体方差及两正态总体方差比的区间 估计
s s
2 1 2 2
2 1 2
P 1P 2

2 1
2 2
如果现在睡觉, 你会做梦; 如果现在学习, 你将会圆梦。
点估计
点估计
(概念要点)
1. 从总体中抽取一个样本,根据该样本的统计 量对总体的未知参数作出一个数值点的估计
例如: 用样本均值作为总体未知均值的估计值 就是一个点估计
式中:M为样本数目 比较及结论:1. 样本均值的均值(数学期望)等于总体均值
2. 样本均值的方差等于总体方差的1/n
样本均值的分布与总体分布的比较
总体分布
.3
P(x)
抽样分布
.3 .2 .1 0
.2 .1 0
1
2
3
4
1.0 1.5 2.0 2.5 3.0 3.5 4.0 x
= 2.5
σ2 =1.25
总体
不同容量样本的抽样分布
n=1 n=4 n=10
简单随机样本


计算样本方差S2
计算卡方值
n=20
2 = (n-1)S2/σ2
计算出所有的
2
2值
均值的标准误
1. 所有可能的样本均值的标准差,测度所 有样本均值的离散程度
2. 小于总体标准差 3. 计算公式为
x n
两个样本方差比的抽样分布
总体均值的区间估计
(2已知)
总体均值的置信区间
(2 已知)
1. 假定条件

总体服从正态分布,且总体方差(2)已知 如果不是正态分布,可以由正态分布来近似 (n 30)
2. 使用正态分布统计量Z x Z ~ N (0,1) n 3. 总体均值 在1-置信水平下的置信区间为 , x Z 2 x Z 2 n n
2 sx 12 2 2 ~ F (n1 1, n2 1) sy 2
s
2 y 2 2
将F(n1-1 , n2-1 )称为第一自由度为(n1-1),第二 自由度为(n2-1)的F分布
两个样本方差比的抽样分布
不同样本容量的抽样分布
(1,10) (5,10) (10,10)
F
T 统计量的分布
.2 .3 P(x)
.1
0 1.0 1.5 2.0 2.5 3.0 3.5 4.0 x
样本均值的抽样分布
所有样本均值的均值和方差
1.0 1.5 4.0 x 2.5 M 16
i 1
n
x
i 1
n
i
2 x
2 ( x ) i x
M (1.0 2.5) 2 (4.0 2.5) 2 2 0.625 16 n
相关文档
最新文档