第五讲 抽样分布与参数估计
抽样分布与参数估计

抽样分布与参数估计首先,我们来了解什么是抽样分布。
在统计学中,抽样分布是指从总体中多次抽样得到的样本统计量的分布。
假设我们的总体是指所有感兴趣的个体的集合,而样本是从总体中选取的一部分个体。
抽样分布的形状和性质取决于总体的分布和样本的大小。
通过分析抽样分布,可以得到有关总体参数的有用信息。
例如,我们想要知道一些城市成年人的平均年收入。
在实际情况下,我们无法调查每个人的收入情况,因此我们需要从总体中随机抽取一部分个体作为样本,并计算他们的平均年收入。
如果我们多次从总体中抽取样本并计算平均年收入,然后绘制这些平均值的分布图,我们就可以得到平均年收入的抽样分布。
这个抽样分布将给我们提供有关总体平均年收入的估计和推断。
接下来,我们将讨论参数估计。
参数估计是指使用样本数据来估计总体参数的过程。
总体参数是用于描述总体特征的数值,如总体平均值、总体标准差等。
通过从总体中抽取样本,并计算样本统计量,我们可以利用样本统计量来估计总体参数。
常用的参数估计方法有点估计和区间估计。
点估计是指用单个数值来估计总体参数,例如用样本均值来估计总体均值。
点估计给出了一个单一的值,但不能提供关于估计的精度的信息。
因此,我们常常使用区间估计。
区间估计是指给出一个区间,这个区间内有一定的置信水平使得总体参数落在这个区间内的概率最高。
区间估计能够向我们提供关于估计的精确程度的信息。
区间估计依赖于抽样分布的性质。
中心极限定理是制定抽样分布理论的一个重要原则。
根据中心极限定理,当样本容量足够大时,样本均值的抽样分布将近似于正态分布。
这使得我们可以使用正态分布的性质来计算置信区间。
构建置信区间的一种常用方法是使用样本均值的标准误差。
标准误差是样本均值的标准差,它用来衡量样本均值和总体均值之间的误差。
根据正态分布的性质,当样本容量足够大时,样本均值与总体均值之间的误差可以用标准误差来估计。
通过计算标准误差并结合正态分布的性质,我们可以得到样本均值的置信区间。
统计学课件第5-7章概率分布、抽样分布及参数估计剖析.

概率分布、抽样分布及参数估计
Probability Distributions & Sampling Distributions
& Parameter Estimation
Wednesday, January 16, 2019
Statistical Research Office
1
本部分主要研究的问题有:
● 遵循随机性原则 --- 体现在在每一层抽选中;
● 每一层内应包含足够多的个体;
● 在同等条件下,抽样误差要小于简单随机抽 样和系统抽样的抽样误差。
Wednesday, January 16, 2019 Statistical Research Office 12
Wednesday, January 16, 2019
Statistical Research Office
7
●
常用的随机抽样组织方式
► 简单随机抽样(Simple random sampling)
►分层随机抽样(Stratified sampling)
►系统随机抽样(Systematic sampling)
►整群随机抽样 (Cluster sampling) 常用的随机抽样方法: ►重复抽样 (Sampling with replacement) ►不重复抽样(Sampling without replacement)
8
Wednesday, January 16, 2019
Statistical Research Office
★ 简单随机抽样 -定义:从总体中,按照随机的原则,使得总体 中每个个体都有同等被选中的机会,而先后抽 出的n个个体作为一个容量为n的样本。
第5章--抽样分布与参数估计教案资料

(5)
(5.5)
(6)
(6.5)
(7)
(7.5)
(8)
(8.5)
(9)
9
9,1
9,2
9,3
9,4
9,5
9,6
9,7
9,8
9,9
9,10
(5)
(5.5)
(6)
(6.5)
(7)
(7.5)
(8)
(8.5)
(9)
(9.5)
10
10,1
10,2
10,3
10,4
10,5
10,6
10,7
10,8
10,9
10,10
数是 ,标准差是 ,从这个总体中抽出一 个容量是 n 的样本,则样本平均数 X 也服从 正态分布,其平均数 E( X ) 仍为 ,其标准
差为 。 X 5-19
从正态分布的再生定理可以看出,只要总体 变量服从正态分布,则从中抽取的样本,不管n 是多少,样本平均数都服从正态分布。但是在 客观实际中,总体并非都是正态分布。对于从 非正态分布的总体中抽取的样本平均数的分布 问题,需要由中心极限定理来解决。
第5章--抽样分布与参数估计
第一节 抽样的基本概念与数学原理
一、有关抽样的基本概念 二、大数定理与中心极限定理
5-2
一、有关抽样的基本概念
(一)样本容量与样本个数 1.样本容量。样本是从总体中抽出的部分
单位的集合,这个集合的大小称为样本容量, 一般用n表示,它表明一个样本中所包含的单 位数。
lim
n
1 n
p
n
i 1
X
i
1
(5.5)
5-17
大数定理表明:尽管个别现象受偶然因 素影响,有各自不同的表现。但是,对总体 的大量观察后进行平均,就能使偶然因素的 影响相互抵消,消除由个别偶然因素引起的 极端性影响,从而使总体平均数稳定下来, 反映出事物变化的一般规律。
样本均值一定服从正态分布

3.
常用的置信水平值有 99%, 95%, 90%
总体均值区间的一般表达式
1.
2.
3.
总体均值的置信区间是由样本均值加减估计误差 得到的 估计误差由两部分组成:一是点估计量的标准误 差,它取决于样本统计量的抽样分布。二是估计 时所要求置信水平,统计量分布两侧面积的分位 数值,它取决于事先所要求的可靠程度 总体均值在置信水平下的置信区间可一般性地表 达为 样本均值±分位数值×样本均值的标准误差
3
本讲内容
■有关概念 ■抽样分布 ■参数估计 ♦单一总体均值估计 ♦单一总体比率估计 ♦两个总体均值之差估计 ♦两个总体比率差异估计 ■确定样本容量
4
有关概念
参数与统计量
统计误差
5
参数与统计量
参数:反应总体分布特征的指标统称为
总体参数,简称参数。常用的有
, , 和
2
统计量:反应样本分布特征的指标统称
n
服从标 准正态分布
X n
结论:
X S/ n
服从t 分布
样本均值抽样分布总结
总体分布
正态分布
非正态分布
大样本
小样本
大样本
小样本
正态分布
非正态分布
15
两个样本均值之差的抽样分布
从两个总体中分别独立的抽取样本容量
分别为n1和n2的两个样本,在重复选取 容量为n1和n2的样本时,由两个样本均 值之差的所有可能形式的相对频数构成 它们分布形态,也称为两个样本均值之 差的抽样分布.
N 1
) (不退还抽样)
18
假设一则关于公务旅游的报纸广告的达中率是7%。对单位客户随机
抽取800户,问对样本客户达中率在8.3%以上的概率有多大。 解:已知π=0.07,n=800,
05抽样分布与参数估计a共47页文档

x
2 (Nn)
n N1
• 2.样本平均数的分布规律
– (1)若总体服从正态分布,则无论样本容 量如何,样本均值服从正态分布;
– (2)若总体为非正态分布,样本为大样本 ( n≥30),样本均值近似服从正态分布
样本统计量的抽样分布
• (二)样本比例的抽样分布
– 当样本容量足够大时(np ≥5),样本比例 近似服从正态分布,其数学期望为总体比例 P
1 概率 x t2 下 sn : x t2
1 概率 xZ 2 下 n: xZ 2n
抽样极限误差
(二)总体方差未知
样本平均数服从正态分布,但要用样本方差代替 总体方差。此时其标准化后的样本统计量
x
服从自由度为n-1的t分布(大样本时可以正S x态分布近似
处理)。则有:
做不等式的等价P 变( 换t 后2(得n :1 )xS xt2(n 1 ) )1
二、抽样推断的有关概念
• (一)总体和样本
• 1、总体(N)
– 所要认识对象的全体。有限总体 和 无限总体
• 2、样本(n)
– 所抽取的一部分单位。
– (1)大样本(n>30) – (2)小样本(n≤30)
(二)样本容量与样本个数
• 1.样本容量
– 是一个样本中所包含的单位数。
• 2.样本个数
– 即样本可能数目。是指从一个总体中可能抽取 多少个样本。与抽样方法有关。
• 方法:
–抽签法
–随机数表法
2、类型抽样(分层抽样、分类抽样)
• (1)概念:将总体全部单位按某个标志分成 若干个类型组,然后从各类型组中采用简单
随机抽样方式或其它方式抽取样本单位。
• (2)样本单位数在各类型组中的分配方式
统计学(李荣平)2014-5

P{t>tα(n)}= h(t;n)dt
t (n)
的数tα(n)为t(n)分布的上α分为点。 例:查表求:t0.05(8), t0.95(8)
o
t (n)
第一节 抽样分布
(三)F 分布
设 U ~ 2(n1 ),V ~ 2(n2 ), 且设 U,V 独立,则称随机变量
F U / n1 V / n2
保证质量,规定σ≤0.6mm时,认为生产过程处于良好控制
状态。为此,每隔一定时间抽取20个零件作为一个样本,并
计算样本方差S2。若P{S2≥c } ≤0.01(此时σ=0.6mm),
则认为生产过程失去控制,必须停产检查,问:
(1)C为何值时,S2≥c的概率才小于或等于0.01? (2)若取得的一个样本的标准差S=0.84,生产过程是
第五章 抽样分布与参数估计
主
第一节 抽样分布
要 内
第二节 参数点估计
容
第三节 区间估计
第一节 抽样分布
一、随机样本
总体与个体:试验全部可能的观测值叫总体;试验的 每一个观测值叫个体。
样本容量与样本个数:样本中包含的单位数叫样本容 量;从一个总体中可能抽取多少个样本叫样本个数。
总体容量:总体中所包含的个体数。 有限总体和无限总体:总体容量可数的称有限总体, 不可数的称无限总体。 重置抽样(重复抽样)和无重置抽样(不重复抽样)
X
1 n
n i 1
Xi
为样本均值;称统计量
S 2
1 n1
n i1
(Xi
X )2
为 样本方差 ,称统计量 S
S2
1n
( X X ) 2 为样本标准差 ;统计量
n 1 i1 i
统计学课件05第5章抽样与参数估计

反映样本数据的集中趋势和平均水平。
样本方差
定义
样本方差是每个样本数据与样本均值差的平方和的平均值,即 $s^2 = frac{1}{n} sum_{i=1}^{n} (x_i - overline{x})^2$。
计算方法
先计算每个样本数据与样本均值的差,然后将差平方,最后求和平 均。
作用
反映样本数据的离散程度和波动情况。
样本量的确定
根据调查目的和精度要求确定样 本量:精度要求越高,需要的样
本量越大。
根据总体规模和抽样方法确定样 本量:总体规模越大,需要的样 本量越大;分层或整群抽样较简 单随机抽样需要的样本量更大。
根据调查资源确定样本量:资源 有限时,需要在满足调查目的和 精度要求的前提下,合理确定样
本量。
02 参数估计
大数定律的数学表达
设随机变量X1,X2,...,Xn是相互独立的,且具有相同的分布函数F(x),则对于任意正实数ε,有 lim(n->∞)P(|X1+X2+...+Xn/n-E(X))/ε)=0,其中E(X)是随机变量X的期望值。
大数定律的实例
在抛硬币实验中,随着实验次数的增加,正面朝上的频率将趋近于0.5。
中心极限定理
中心极限定理定义
中心极限定理是指在大量独立同分布的随机变量中,不论 这些随机变量的分布是什么,它们的平均值的分布总是趋 近于正态分布。
中心极限定理的数学表达
设随机变量X1,X2,...,Xn是相互独立的,且具有相同的分布 函数F(x),则对于任意实数x,有lim(n->∞)P(∑Xi≤x)=∫(∞->x)F(t)dt。
样本分布的性质
无偏性
如果样本统计量的数学期 望等于总体参数,则该统 计量是无偏的。
第五章抽样分布与参数估计

第五章抽样分布与参数估计
•七、抽样调查中的几个基本概念
•(一)全及总体与样本总 体
•1.全及总体是指根据调查目的所确定的研究对象全体.简称 为总体.常用 N 表示总体单位数。
•2.样本总体是指根据随机原则从总体中抽取一部分单位所 组成的整体.常用 n 表示样本单位数(样本容量)。
•1.点估计
•点估计也叫定值估计,就是以所抽样本资料为依据, 直接根据所选择的估计量对总体指标作出一个确定值 的估计,同时表明估计的精度和概率保证程度。
•或
•2.区间估计
•区间估计就是以点估计为依据,用一个具有一定可靠 程度的区间范围来估计总体指标。
第五章抽样分布与参数估计
•对总体平均数的区间估计为:
•或 •对总体成数的区间估计为:
•或
第五章抽样分布与参数估计
•第三节 必要样本容量的确定
• 抽样调查理论中,样本容量 n 的确定具有 实实在在的意义。 n 过大,违背抽样调查的 宗旨, n 过小,则抽样误差偏大,无法作出 精确的估计。
第五章抽样分布与参数估计
•一、影响因素
•1.总体标志变动度
•各调查单位标志值之间的差异越 大•抽样分布越分散 •抽样误差越大 •若想满足一定的精度要求 , 则必要样本量就越多
•具体排队时又分
•按无关标志排队 •按有关标志排队
第五章抽样分布与参数估计
•5.多阶段随机抽样
• 多阶段随机抽样是将一次抽样后得到的样本当作总 体再次进行随机抽样,得到第二次抽样样本,然后再如 此进行下去的抽样方式。 •例如:我国农产量调查就采用五阶段抽样方式。省抽县、 县抽乡、乡抽村、村抽地块、地块抽样本点,对样本点进行 实割实测的调查方法。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
■由于
当n 30
■单一总体平均数的置信区间的临界值仍为
46
当X服从正态分布,未知,n 30
X X Z (标准正态值) t s s n n
单一总体平均数的置信区间的临界值为
X t
s n
47
T分布(背景材料)
t分布又称学生分布(STUDENT分布)由 英国统计学家威廉西利.戈塞特于1908年 提出,他当时受雇于爱尔兰首都的一家 啤酒厂,由于该厂不允许雇员用自己的 名字发表成果,于是他采用了学生这个 笔名发表文章,阐述他发明的小样本理 论。
郑州市大瓶装纯水市场容量的估计 ( 点估计 ) 市场容量估计
(点估计,297,319)
家庭用水总量 88,565
单位用水总量 208,754
用水家庭数占所有 家庭户数的比重 估计值=8.3%
平均月用水总量 估计值=3.26
用水单位数占所有 单位的比重 估计值=33.8%
平均月用水总量 估计值=43.4
32
问题
用适当的描述统计方法分析变速箱数据 建立变速箱失效汽车总体的在变速箱失效之前 行使的平均里程的95%的置信区间。并给出这 个区间估计的管理解释。 根据一些经历过变速箱失效的车主们的意见来 讨论你的统计结果的含义? 如果该公司想在误差为5000英里,估计变速箱 失效汽车总体在变速箱失效时所行使的均值里 程的95%的置信区间,则应该抽取多少条维修 记录? 为了更充分地评价变速箱失效问题,你还需要 收集哪些信息?
第五讲 抽样分布与参数估计
1
【教学目的和要点】
▼通过本讲学习,学生应该掌握构 建样本平均数和样本比例的抽样分 布以及掌握如何根据样本的信息推 断总体的信息。
2
本讲内容
■有关概念 ■抽样分布 ■参数估计 ♦单一总体均值估计 ♦单一总体比率估计 ♦两个总体均值之差估计 ■确定样本容量
3
有关概念
参数与统计量
用水户数估计值 8.3%×327314户 =27167户
用水单位数量的估计 14230×33.8% =4810
38
区间估计
•区间估计的定义
•区间估计的原理
•区间估计的程序
•单一总体平均数的区间估计
•单一总体比率的区间估计
•两个总体均值之差的区间估计
39
区间估计的定义
♦ 区间估计是在一定的置信系数的 保证下,根据统计量得到的一个 取值范围去估计总体的参数。
26
参数估计案例2----哈佛大学
哈佛大学每年收到7,000个优秀学生的入学申请, 申请表中包含了大量申请人的信息。包括个人 学术能力测试(SAT)成绩和是否是本州居民。
入学主管需要知道下面一些信息:
平均SAT成绩
本州居民比例
27
简单随机抽样的数据
No. Applicant SAT Score In-State 1 Bonnie Reight 1025 Yes 2 Willie Neilson 950 Yes 3 Fannie Lennox 1090 No 4 Derek Clapton 1120 Yes 5 Winona Driver 1015 Yes . . . . . . . . 50 Kevin Costmore 965 No Total 49,850 34 Yes
E p E x / n 1 E x 1 n n n
V p V x
n 1 n V x 1 n
2
1 n 1 2
n
V p 1 n
21
比率的抽样分布
n1 p n
2
( X )
N
s
2
(x x) ( x) n 1
2
6
统计误差
非抽样误差 统计误差 登记性误差 非随机性误差 抽样误差: 随机性误差 可以度量和控制
7
抽样分布
样本统计量的概率分布称为抽样分布。
用以描述抽样误差的规律性,是统计推 断的理论基础。
8
样本平均数的概率分布的引出
12
有关统计量的抽样分布
单一样本均值的抽样分布
两个样本均值之差的抽样分布
样本比率的抽样分布
13
X 的抽样分布
单一样本均值的抽样分布
正态分布再生定理 中心极限定理
两样本均值差异的抽样分布
14
正态分布再生定理
■当总体服从正态分布时(分布规律全部知 道),从中抽取样本容量为n的样本,样本均 值一定服从正态分布。 ■样本均值的期望值和方差?它们与总体的 期望值和方差有何关系
对样本数据的汇总提 供了样本均值 X 的值
25
参数估计案例1 EAI公司的参数估计问题
EAI公司的人事主管正在制定一项公司25000名人员的 简报。其中包括中层管理人员的人均年薪和公司中已 完成管理培训项目的管理人员所占的比率。
想知道的指标为:参数:
,
实际可以得到的数据为统计量
X 51814 p 0.63(19/30 ) n 30
35
常用的优良估计量
我们用 X 来点估计总体均值 . s 来点估计总体标准差 . p 来点估计总体比例π.
36
调查数据
家庭用户 单位用 151 51 33.8% 43.4桶 7.29
37
户
样本容量 用水单位 800 66
用水单位占样本容量的比重 8.3% 样本平均月用水量 样本用水量的标准差 3.26桶 2.94
从而
2 X X
1 2
12
n1
2 2
n2
X 1 X 2 ~ ( 1 2 ,
12
n1
2 2
n2
)
18
二项分布概率函数
如果
X 是一个随机变量服从二项分布,样本 容量为 n,事件发生的概率为 p,则
n! P( X x) p x (1 p ) n x ( x!)( n x)!
设某二项分布总体,总体比率为 ,若从该总体 中随机抽取样本容量为n的样本,当样本容量足够 大( n 5, n(1 )5 )时, 样本比率p的抽样 分布近似为正态分布,即:
p ~ N ( , p ~ N ( ,
(1 )
n n
) (退还抽样) ) (不退还抽样)
22
(1 ) N n
30
参数估计案例4:都市研究公司
该公司是一家消费者研究组织,它设计调查对消 费者所使用的大量的产品和服务进行评估。在 某一项调研中,该公司调查消费者对A城市某 一主要制造商生产的汽车的性能的满意度感兴 趣。分发给制造商所生产的一种最大型号小汽 车用户的调查表表明,许多人抱怨该车的变速 箱过早出现问题。为了更好地了解变速箱的缺 陷问题,该公司采用由A城市一家变速箱维修 公司所提供的变速箱维修的样本数据
40
区间估计的基本原理
X
如果有
那么有
z
X p 2 2 0.9544 n
n
p( X 2 X 2 ) 0.9544 n n
有95.44%的把握估计区间
包含总体均值
X 2
X
, X 2 X
16
两个样本均值之差的抽样分布
从两个总体中分别独立的抽取样本容量
分别为n1和n2的两个样本,在重复选取 容量为n1和n2的样本时,由两个样本均 值之差的所有可能形式的相对频数构成 它们分布形态,也称为两个样本均值之 差的抽样分布.
17
两个样本均值之差的抽样分布 (大样本)
两个总体均值之差,即 E ( x1 x2 ) 1 2 其分布的方差为各自的方差之和,即
样本均值的期望值等于总体均值 方差(有退还抽样、无退还抽样)
(退还抽样)
(不退还抽样)
15
中心极限定理
■设某总体的元素总量为N,期望值为 ,标 准差为 ;若从该总体中随机抽取样本容量为 n的样本,当n很大(n>30)时,则样本平均数 的抽样分布近似为正态分布,即:
(退还抽样) (不退还抽样)
9
EAI公司的抽样问题
EAI公司的人事主管正在制定一项公司25000名人员的 简报。其中包括中层管理人员的人均年薪和公司中已 完成管理培训项目的管理人员所占的比率。
想知道的指标为:参数:
,
实际可以得到的数据为统计量
X 51814 p 0.63(19/30 ) n 30
10
11
41
区间估计的几个关键概念
置信系数 1 使人相信区间包含总体均值的 概率,一般取 0.90,0.95,0.99.它的大小说明估计的 把握性的大小(Z=1.65 1.96 2.58). 置信区间:在一定概率的保证下,包含总体均值的区 间,区间的宽窄说明估计精度的大小.区间越宽,估计 的精度就小;否则就大.
其中x=0, 1, 2, …, n。
19
二项分布的均值和标准差
如果X是一个服从二项分布的随机变量,样本
容量为n,成功概率为p,则其均值、方差和 标准差分别为:
X np
2 X np(1 p)
X np(1 p)
20
二项分布的均值和标准差
我们有时更加关心出现成功的比率x/n
N 1
样本均值抽样分布总结
总体分布
正态分布
非正态分布
大样本
小样本
大样本
小样本
正态分布
非正态分布