应用统计学第3章抽样分布

合集下载

抽样与抽样分布

抽样与抽样分布在统计学中，抽样是一种常用的数据收集方法，通过从总体中选择一部分样本来进行研究和分析。

抽样的目的是通过样本来推断总体的特征和性质。

在进行抽样时，我们需要了解抽样的方法和抽样分布的概念。

一、抽样方法1. 无偏抽样无偏抽样是指所有样本有相同被选中的机会。

这样可以确保样本的代表性，从而减小样本估计值和总体真值之间的误差。

常见的无偏抽样方法包括简单随机抽样、系统抽样和分层抽样等。

2. 有偏抽样有偏抽样是指样本的选择并不具有相等的机会。

这样可能导致样本的代表性不足，从而产生较大的估计误差。

有时，有偏抽样也可以用于特定的研究目的，但需要明确地说明和分析偏差带来的影响。

二、抽样分布1. 抽样分布的概念抽样分布是指统计量在各个可能样本上的取值分布。

统计量可以是样本均值、样本方差等。

抽样分布的性质对于进行统计推断和假设检验非常重要。

2. 样本均值的抽样分布样本均值的抽样分布在中心极限定理的条件下近似服从正态分布。

中心极限定理指出，当样本容量足够大时，无论总体分布如何，样本均值的抽样分布都会接近正态分布。

3. 样本比例的抽样分布样本比例的抽样分布在满足一些条件的情况下也近似服从正态分布。

这些条件包括样本容量足够大、总体比例接近0.5以及样本与总体之间的独立性等。

4. 样本方差的抽样分布样本方差的抽样分布不服从正态分布。

通常情况下，样本方差的抽样分布呈右偏态，即偏度大于0。

为了得到样本方差的抽样分布，可以使用抽样分布的近似分布，如卡方分布。

三、应用案例抽样与抽样分布的方法和理论在实际统计学中有广泛的应用。

以下是一些常见的应用案例：1. 调查研究在进行调查研究时，我们经常需要从总体中选择一部分样本进行问卷调查或面访。

通过利用抽样与抽样分布的方法，我们可以将样本的调查结果推广到总体中，从而得到总体的特征和性质。

2. 假设检验假设检验是统计学中常用的推断方法之一。

通过比较样本统计量与假设的总体参数值，我们可以判断假设的合理性。

统计学第3章-概率、概率分布与抽样分布

3－15
互斥事件及其概率
(例题分析)

解：由于每一枚硬币出现正面或出现反面的概率都是1/2，当抛掷的次数逐渐增大时，上面的4个简单事件中每一事件发生的相对频数 (概率)将近似等于 1/4 。因为仅当 H1T2 或 T1H2 发生时，才会恰好有一枚硬币朝上的事件发生，而事件 H1T2 或 T1H2 又为互斥事件，两个事件中一个事件发生或者另一个事件发生的概率便是 1/2(1/4+1/4) 。因此，抛掷两枚硬币，恰好有一枚出现正面的概率等于 H1T2 或 T1H2 发生的概率，也就是两种事件中每个事件发生的概率之和
解：设 A = 某住户订阅了日报 B = 某个订阅了日报的住户订阅了晚报
依题意有：P(A)=0.75；P(B|A)=0.50
P(AB)=P(A)·P(B|A)=0.75×0.5=0.375
3－31
独立事件与乘法公式
(例题分析)
【例】从一个装有3个红球2个白球的盒子里摸球 (摸出后球不放回)，求连续两次摸中红球的概率
3－17
互斥事件的加法规则
(例题分析)
【例】抛掷一颗骰子，并考察其结果。求出其点数为1点或2点或3点或4点或5点或6点的概率
解：掷一颗骰子出现的点数(1，2，3，4，5，6)共有
6个互斥事件，而且每个事件出现的概率都为1/6 根据互斥事件的加法规则，得
P(1或2或3或4或5或6) P(1) P(2) P(3) P(4) P(5) P(6) 1 1 1 1 1 1 1 6 6 6 6 6 6

合计
从这200个配件中任取一个进行检查，求 (1) 取出的一个为正品的概率 (2) 取出的一个为供应商甲的配件的概率 (3) 取出一个为供应商甲的正品的概率 (4) 已知取出一个为供应商甲的配件，它是正品的概率

统计学之抽样与抽样分布

的抽样分布
统计推断的过程
• 总体均值
m=?
• 从总体中抽取 • 样本容量为 n 的样本
• 用作为m 的点估计
• 计算样本平均值
的抽样分布
的抽样分布是指所有可能的样本平均值的概率分布
的期望值
E( ) = = 总体平均值
的抽样分布
的标准差
•
有限总体
无限总体
• 当 n/N < .05时，可以将一个有限总体看作是无限
统计学之抽样与抽样分布
2020年4月29日星期三
Chapter 7
抽样和抽样分布
本章主要内容
简单随机抽样点估计抽样分布样本平均值的抽样分布样本比例的抽样分布抽样方法
•n = 100
•n = 30
统计推断
统计推断的目的是利用样本的信息推断总体的信息总体是指感兴趣的所有元素的集合样本是总体的一个子集通过样本统计量对总体参数进行估计只要抽样方法恰当，通过样本统计量可以对总体参数进行很好的估计
也就是说，样本平均值在总体平均值+/-10分范围内的概率为0.5036
•面积 = 2(.2518) = .5036
• 的抽样分布
•980 •990•1000
的抽样分布
的抽样分布是指所有可能的样本比例的概率分布的期望值
p = 总体比例
的抽样分布
的标准差有限总体
无限总体
• 也称为样本比例的标准误
总体
•
称为有限总体校正因子.
• 也称为样本均值的标准误
的抽样分布
中心极限定理：只要样本容量足够大 (n > 30)，不管总体服从什么分布，样本平均值都可以认为近似服从正态分布。

统计学第三章抽样与抽样分布

=10
= 50 X
总体分布
n= 4
x 5
n =16
x 2.5
x 50
X
抽样分布
从非正态总体中抽样
结论：
从非正态中体中抽样，所形成的抽样分布最终也是趋近于正态分布的。只是样本容量需要更大些。
总结：中心极限定理
设从均值为，方差为 2的一个任意总体中抽取容量为n的样本，当n充分大时（超过30），样本均值的抽样分布近似服从均值为μ、方差为σ2/n的
总体
样本
参数
统计量
总体与样本的指标表示法
总体参数
样本统计量
(Parameter) (Sample Statistic)
容量平均数比例方差标准差
N
n
X
x
p
2
s2
s
小练习
某药品制造商感兴趣的是用该公司开发的某种新药能控制高血压人群血压的比例。进行了一项包含5000个高血压病人个体的研究。他发现用这种药后80%的个体，他们的高血压能够被控制。假定这5000个个体在高血压人群中具有代表性的话，回答下列问题： 1、总体是什么？ 2、样本是什么？ 3、识别所关心的参数 4、识别此统计量并给出它的值 5、我们知道这个参数的值么？
正态分布
一个任意分布的总体
x
n
当样本容量足够大时(n 30) ，样本均值的抽样分布逐渐趋于正态分布
x
X
总体分布
正态分布
非正态分布
大样本小样本大样本小样本
正态分布
正态分布
非正态分布
三中心极限定理的应用
中心极限定理(Central Limit theorem) 不论总体服从何种分布，从中抽取

统计学抽样与抽样分布

查费用
3. 需要包含所有低阶段抽样单位的抽样框；同时由于
实行了再抽样，使调查单位在更广泛的范围内展开
4. 在大规模的抽样调查中，经常被采用的方法
概率抽样（小结）
非概率抽样
n也叫非随机抽样，是指从研究目的出发，根据调查者的经验或判断，从总体中有意识地抽取若干单位构成样本。
n重点调查、典型调查、配额抽样（是按照一定标准或一定条件分配样本单位数量，然后由调查者在规定的数额内主观地抽取样本）、方便抽样（指调查者按其方便任意选取样本。如商场柜台售货员拿着厂家的调查表对顾客的调查）等就属于非随机抽样。
样本分量：其中每一个Xi是一个随机变量，称为样本分量。
样本观察值：一次抽样中所观察到的样本数据x1、x2、 x3称为样本观察值。对于某一既定的总体，由于抽样的方式方法不同，样本容量也可大可小，因而，样本是不确定的、而是可5
一、几个概念
（二）样本总体与样本指标
样本指标（统计量）。在抽样估计中，用来反映样本总体数量特征的指标称为样本指标，也称为样本统计量或估计量，是根据样本资料计算的、用以估计或推断相应总体指标的综合指标。
3
总体和参数（续）
通常所要估计的总体指标有
X
NX
一、几个概念
（二）样本总体与样本指标
样本总体。简称样本（Sample），它是按照随机原则，从总体中抽取的部分总体单位的集合体。
样本容量：样本中所包含的个体的数量，一般用n表示。在实际工作中，人们通常把n≥30的样本称为大样本，而把n<30的样本称为小样本。
（二）抽样平均误差（抽样标准误）
抽样平均误差是反映抽样误差一般水平的指标（因为抽样误差是一个随机变量，它的数值随着可能抽取的样本不同而或大或小，为了总的衡量样本代表性的高低，就需要计算抽样误差的一般水平）。通常用样本估计量的标准差来反映所有可能样本估计值与其中心值的平均离散程度。

概率与统计中的抽样分布与假设检验

概率与统计中的抽样分布与假设检验概率与统计是一门研究随机事件及其规律的学科，其中抽样分布与假设检验是概率与统计学中至关重要的概念。

本文将介绍抽样分布的概念及其重要性，并探讨假设检验的原理和应用。

一、抽样分布在统计学中，抽样是指从总体中选取一部分样本进行观察和测量，通过对样本的分析和推断，得出对总体特征的结论。

而抽样分布则是在多次抽取样本的基础上得到的一组统计量的概率分布。

抽样分布的重要性在于它为统计推断提供了理论基础。

根据中心极限定理，当样本容量足够大时，样本均值的抽样分布近似服从正态分布。

这意味着通过对样本数据的分析，我们可以对总体特征进行合理的推断和估计。

二、假设检验假设检验是概率与统计学中常用的分析方法，用于检验关于总体参数的某种假设。

它基于样本数据，通过比较样本统计量与假设值之间的差异，来判断是否拒绝或接受某个假设。

假设检验的基本步骤包括：1. 建立原假设（H0）和备择假设（H1）：原假设通常是关于总体特征的某种陈述，而备择假设则是与原假设相对立的假设。

2. 选择适当的检验统计量：根据具体问题选择合适的统计量进行计算和分析。

3. 确定显著性水平（α）：显著性水平是进行假设检验时预先设定的一个界限，用来判断是否拒绝原假设。

通常将显著性水平设定为0.05或0.01。

4. 计算检验统计量的观察值：通过对样本数据进行计算，得到实际的检验统计量的值。

5. 判断检验统计量的观察值是否落在拒绝域内：拒绝域是指在显著性水平下，根据分布函数得到的一组临界值。

如果观察值落在拒绝域内，则拒绝原假设；否则，接受原假设。

6. 得出结论：根据判断结果，对于原假设的合理性进行结论。

假设检验在实际问题中有着广泛的应用。

例如，在医学研究中，可以使用假设检验来判断新药物是否对疾病有显著疗效；在工商管理中，可以使用假设检验来判断某种市场策略是否能够提高销售业绩。

总结：概率与统计中的抽样分布与假设检验是概率与统计学的重要概念。

3-理论分布与抽样分布

68-95-99.7规则
➢ 正态分布有其特定的数据分布规则： ▪ 平均值为, 标准差为σ的正态分布 ▪ 68%的观察资料落在的1σ之内 ▪ 95%的观察资料落在的2σ之内 ▪ 99.7%的观察资料落在的3σ之内
19
20
三、68-95-99.7规则
68.26% 的资料 95.45% 的资料 99.73% 的资料 -3 -2 -1 0 1 2 3 -3s -2s -s +s +2s +3s
体称为样本平均数的抽样总体。其平均数和标准差分
别记为和。x
s x
是样s x本平均数抽样总体的标准差，简称标准误 (standard error)，它表示平均数抽样误差的大小。统计学上已证明x总体的两个参数与x 总体的两个参数有如下关系：
u=(x-μ)／σ
x～N(0,1)
上一张下一张主页退12出
3.3.3 正态分布的概率计算 1. 标准正态分布的概率计算
设u服从标准正态分布，则u在[u1，u2 ）内取值的概率为：
＝Φ(u2)－Φ(u1)
(3-16)
Φ(u1)与Φ(u2)可由附表1查得。
上一张下一张主页退13出
例如，u=1.75时，由附表1可以查出 Φ(1.75)=0.95994
图3-6 μ相同而σ不同的3个正态分布比较大 8
（6）分布密度曲线与横轴所围成的区间面积为1，即：
（7）正态分布的次数多数集中在平均数μ的附近，离均数越远，其相应次数越少，在3σ以外的极少，这就是食品工业控制中的3σ 原理的基础。
上一张下一张主页退 9出
3.3.2 标准正态分布
上一张下一张主页退16出
(1) P(u＜-1.64)=0.05050 (2) P (u≥2.58)=Φ(-2.58)=0.024940 (3) P (｜u｜≥2.56)

3 理论分布与抽样分布

【例3.7】已知u～N(0，1)，试求： (1) P(u＜-1.64)＝?
(2) P (u≥2.58)=?
(3) P (｜u｜≥2.56)=? (4) P(0.34≤u＜1.53) =?
(1) P(u＜-1.64)=0.05050
(2) P (u≥2.58)=Φ(-2.58)=0.024940
加减不同倍数σ区间的概率)是经常用到的。
P(μ-σ≤x＜μ+σ)= 0.6826
P(μ-2σ≤x＜μ+2σ) = 0.9545 P (μ-3σ≤x＜μ+3σ) = 0.9973
P (μ-1.96σ≤x＜μ+1.96σ) = 0.95
P (μ-2.58σ≤x＜μ+2.58σ)= 0.99
在数理统计分析中，不仅注意随机变量x落在平均数加减不同倍数标准差区间（μ-kσ , μ+kσ）之内的概率，更关心的是x落在此区间之外的概率。
二项分布---二项分布的定义及其特点
二项分布的应用条件：（1）各观察单位只具有相互对立的一种结果，如合格或不合格，生存或死亡等等，非此即彼；（2）已知发生某一结果 (如死亡) 的概率为p，其对立结果的概率则为1-P=q，实际中要求p 是从大量观察中获得的比较稳定的数值；（3）n次观察结果互相独立，即每个观察单位的观察结果不
P (-2.58≤u＜2.58)=0.99
标准正态分布的三个常用概率如图示
u变量在上述区间以外取值的概率分别为： P(｜u｜≥1)=2Φ(-1)=1- P(-1≤u＜1) =1-0.6826=0.3174 P(｜u｜≥2)=2Φ(-2) =1- P（-2≤u＜2） =1-0.9545=0.0455 P(｜u｜≥3)=1-0.9973=0.0027 P(｜u｜≥1.96)=1-0.95=0.05 P(｜u｜≥2.58)=1-0.99=0.01

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

min(
X
1
,
X
2
,
X
3
,
X
4
)
，1
2
4 i 1
X
2 i
，|
X4
X1 |中哪些是统计量，哪
些不是统计量，为什么？
上一页
下一页
返回本章首页
第三章抽样分布
第三章抽样分布
主
第一节随机样本
要
第二节抽样分布
内
容
本章小节
上一页
下一页
返回本章首页
第三章抽样分布
第一节随机样本
在统计学中，我们研究的问题一般集中在研究对象的某一数量指标。比如某型号的电子元器件的寿命、一批某种产品的合格率等。因而，需要考虑通过与这一数量指标相联系的随机试验，来对这一数量指标进行试验或观测。
上一页
下一页
返回本章首页
第三章抽样分布
4. F 分布
P(F F ) F f (x)dx (0 1)
F分布图上一页
F
下一页
图3-4 返回本章首页
第三章抽样分布
5. 基4于.正3 态样总本体平样均本数的的均抽值样与方分差布的分布
有限总体
有限总体若采取有放回抽样，则与无限总体等价。有限总体容量为N而采取无放回抽样，且n/N≤0.1，仍可视为无限总体，而当n/N>0.1时则
第三章抽样分布
3.t 分布
设 X ~ N(0,1) ，Y ~ 2 (n)，且设X与 Y 独立，则称统计量
T X Y /n
为服从自由度为n 的 t 分布，记为t ~ t(n) 。可以证明，当 n 充分大时，t 分布趋向于标准正
态分布。
上一页
下一页
返回本章首页
第三章抽样分布
3. t分布（Students 分布）
计量
2
X
2 1 n
为服从自由度为n 的 2 分布，记为 2 ~ 2(n)
2 的一个重要性质：可加性
上一页
下一页
返回本章首页
第三章抽样分布
2. χ 2分布
χ2分布图上一页
下一页
图3-2 返回本章首页
第三章抽样分布
查表：
2. χ 2 分布
对于给定的α，0<α<1，可在 χ分2 布表中查得，即
为样本方差，称统计量 S
S2
1 n 1
n i 1
(Xi
X )2
为样本标准差；统计量
Ak
1 n
n
X
k i
,
k
i 1
1,2,
称为样本 k 阶原点矩；统计量
Bk
1 n
n
(Xi
i 1
X)k ,k
2,3,
称为样本的 k 阶中心矩。
这些统计量的观测值分别为
(3.2.3) (3.2.4)
x
1 n
n i 1
xi
， s2
1n n 1 i1 (xi
x)2
，s
1 n 1
n i 1
( xi
x)2
，
ak
1 n
n i 1
xik
（ k 1,2,
）， bk
1 n
n
(xi
i 1
x)k
（ k 2,3,
）。
上一页
下一页
返回本章首页
第三章抽样分布
第二节抽样分布
二、几个常用的抽样分布
抽样分布的定义统计量的分布称为抽样分布。来自正态总体的几个常用统计量的分布，已有一些重要的结果（人们已经获得这些统计量的具体的分布密度函数）。下面介绍来自正态总体的几个常用统计量的分布。
上一页
下一页
返回本章首页
第三章抽样分布
（四）基于正态总体样本的均值与方差的分布
设 X1, X 2, , X n 来自正态总体 N (, 2 )的样本， X , S 2 分别为样本的均值和方差。则
X ~ N (, 2 );
n
(n 1)S 2 ~ 2 (n 1); 2
X ~ t(n 1)
S/ n
如果Xi ~ N(i ,i2)(i 1,2,n), 且相互独立。对于常数，有ai下式成立：
n
n
n
X i ~ N ( i , i 2 )
i1
i1 i1
aX i
~
N
(a
i
,
a
2
2 i
)
上一页
下一页
返回本章首页
第三章抽样分布
2. 2 分布
设 X1,
X
2 ,
,
X
是来自总体
n
N (0,1)
的样本，则称统
P 2( n ) 2
f ( x,n )dx
x2
例如即指
χ
2 0.1
(10)
15.987
P 2 (10 ) 15.978 f ( x;n )dx 0.1 15.978
上一页
下一页
返回本章首页
第三章抽样分布
2 分布具有下面的性质：
1 2 分布的可加性
设 12
~
2
(n1
最常用的统计量是所谓的样本矩。设 X1, X 2 , , X n 是来自总体 X 的一
个样本， x1, x2 , , xn 是这一样本的观测值，称统计量
X
1 n
n i 1
Xi
为样本均值；称统计量
S 2
1n n 1 i1 ( X i
X )2
(3.2.1) (3.2.2)
上一页
下一页
返回本章首页
第三章抽样分布
上一页
下一页
返回本章首页
第三章抽样分布
几种与正态分布有关的概率分布
正态分布
几
种
χ 2 分布
概
率
分布
F分布
t分布
上一页
下一页
返回本章首页
第三章抽样分布
1. 正态分布
若随机变量X的概率密度函数
f (x)
1
e ,
(
x) 2 2
2
2
x
记为 X ~ N (, 2 )
上一页
下一页
返回本章首页
➢ 对于实际应用中的比率问题，给出了大样本下的抽样分布。
上一页
下一页
返回本章首页
第三章抽样分布
思考题
在总体 N(, 2 ) 中抽取样本 X1, X 2 , X 3, X 4 ，其中已知而
4
2 未知。在样本的函数： X i ， X1 X 2 3 ， i 1
min(
因此采用简单随机抽样保证随机样本与总体具有相同的概率分布。
上一页
下一页
返回本章首页
第三章抽样分布
4.1 关于抽样的基本概念
样本统计量与抽样分布:
在简单随机抽样中，样本具有随机性，样本的
参数 x,s2等也会随着样本不同而不同，故它们是样
本的函数，记为g（x1, x2,……, xn），称为样本统计量。
量，即
P{X x} p x (1 p)1x , x 0,1
(3.1.1)
上一页
下一页
返回本章首页
第三章抽样分布
4.1 关于抽样的基本概念
从总体中抽取有限个个体对总体进行观测的过程叫做抽样。
在相同的条件下我们对总体 X 进行 n 次重复的、独立的观测，将 n 次观测结果按试验的次序记为 X1, X 2 , , X n ，由于 X1, X 2 , , X n 是对随机变量 X 观测的结果，且每次观测是在相同的条件下独立进行的，故可以认为 X1, X 2 , , X n 是相互独立的，且都是与总体 X 具有相同分布的随机变量。这样得到的 X1, X 2 , , X n 称为来自总体 X 的一个简单随机样本， n 称为这个样本的容量。当 n 次观测结束后，我们就得到一组实数 x1, x2 , , xn ，它们依此是随机变量 X1, X 2 , , X n 的观测值，称为样本值。
上一页
下一页
返回本章首页
第三章抽样分布
设
X1, X 2 , , X n1
为来自正态总体
N
(1,
2 1
)
的样本，
Y1,Y2 , ,Yn2
为来自正态总体
N
(
2
,
2 2
)
的样本
，
X , S12
Y
,
S
2分别为两个样本的均值和方差。则
2
当 1 2 时，则
S12
2 2
/ S22
/ 12
~
F(n1 1, n2
统计量的概率分布称为抽样分布（Sample distribution）
上一页
下一页
返回本章首页
第三章抽样分布
第一节随机样本
例如，检验从某一条生产线上生产出来的产品是次品还是正品，我们以 0 表示产品为正品，以 1 表示产品为次品。假设
出现次品的概率为 p （常数），那么总体是由一些“0”和“1” 组成，这一总体对应一个具有参数为 p 的（0-1）分布的随机变
非标准正态分布向标准正态分布的转化
若 X ~ N(, 2 )
标准化因子
X
U
则U∽N（0，1）
上一页
下一页
返回本章首页
第三章抽样分布
查表
1. 正态分布
当u大于零时，可查正态分布表
但如果u<0时，则可由式φ（-u）=1-φ(u)
求出
上一页
下一页
返回本章首页