数理统计第六章
概率论与数理统计(06)第6章 统计量及其抽样分布

σx =
σ
n
当样本容量足够 大时( 大时(n ≥ 30) , 样本均值的抽样 分布逐渐趋于正 态分布
6 - 11
µx = µ
xቤተ መጻሕፍቲ ባይዱ
x 的分布趋 于正态分布 的过程
6 - 12
6.4 正态总体 6.3.1 χ2分布 6.3.2 t 分布 6.3.3 F 分布
6 - 13
χ2 分布
第六章 样本与统计量
6.1引言 6.1引言
数理统计学: 运用概率论的基础知识,对要研究的随机现象进行 多次观察或试验,研究如何合理地获得数据资料, 建立有效的数学方法,根据所获得的数据资料,对 所关心的问题作出估计与检验。
6-1
§6.2总体与样本 6.2总体与样本
对某一问题的研究对象全体称为总体。 组成总体的某个基本单元,称为个体。 总体可以是具体事物的集合,如一批产品。 也可以是关于事物的度量数据集合,如长度测量。 总体可以包含有限个个体,也可以包含无限个个体。 有限总体在个体相当多的情况下,可以作为无限 总体进行研究。 总体中的个体,应当有共同的可观察的特征。该 特征与研究目的有关。
6 - 16
χ2分布
(图示) 图示)
n=1 n=4 n=10
n=20
6 - 17 不同容量样本的抽样分布
χ2
t 分布
6 - 18
t 分布
1. 高 塞 特 (W.S.Gosset) 于 1908 年 在 一 篇 以 (W. “Student”(学生)为笔名的论文中首次提出 Student”(学生)
X ~ N(µ,σ ) ,则
2
χ2分布
2. 3.
z=
X −µ
Y=z
概率与数理统计第六章

t
x
y
W {T t (n 1)}
2021/3/11
t
x 16
6.2.1 单个正态总体均值的假设检验
例6.2 正常人的脉搏平均每分钟72次,某医生测得10例四乙基铅 中毒患者的脉搏数(次/分)如下:54,67,68,78,70,66, 67,70,65,69.已知人的脉搏次数服从正态分布.试问四乙基铅
在取6份水样,测定该有害物质含量,得如下数据: 0.530‰,0.542‰,0.510‰,0.495‰,0.515‰,0.530‰
能否据此抽样结果说明有害物质含量超过了规定? 0.05
练习2 一公司声称某种类型的电池的平均使用寿命至少为21.5小 时,有一实验室检验了该公司制造的6套电池,得到如下的寿命数 据(单位:小时):19 18 22 20 16 25 设电池寿命服202从1/3/正11 态分布,试问这种类型的电池寿命是否低于该18 公
即提出假设: H0 : p 0.02 若 H0 正确,则取到次品为小概率事件.
2021/3/11
在一次试验中, 小概率事件是 几乎不可能发 生的.
小概率原理
2
6.1 假设检验的基本概念
2. 两类错误
犯了“弃真”错误 第一类错误
犯了“纳伪”错误 第二类错误
P(拒绝H0 | H0为真)
P(接受H0 | H0为假)
注意:我们总把含 有“等号”的情形 放在原假设.
在原假设 H0 为真的前提下,确定统计量
U
X 0
~
N (0,1)
n
2021/3/11
因为X
~
N
,
2
n
,
所以
X
~
N (0,1)
第六章 数理统计的基本概念

1 n 2 S S ( X X ) i n 1 i 1
2
(4) 样本k阶(原点)矩
1 n k Ak X i n i 1
k 1, 2,
k 2,3,
(5) 样本k阶中心矩
1 n Bk ( X i X )k n i 1
§2
常用统计量的分布
统计量的分布称为抽样分布.下面介绍三种由 正态总体演化而来的统计量的分布:
• 从二战后到现在,是统计学发展的第三个时期,这是一个在 前一段发展的基础上,随着生产和科技的普遍进步,而使这 个学科得到飞速发展的一个时期,同时,也出现了不少有待 解决的大问题.
学科奠基者
数理统计作为一个进一步完善的数学学科的奠基者是英国人费歇尔。他1909 年入剑桥大学,攻读数学物理专业,三年后毕业。毕业后,他曾去投资办工 厂,又到加拿大农场管过杂务,也当过中学教员。1919年,他开始对生物统 计学产生了浓厚的兴趣,参加罗萨姆斯泰德试验站的工作,致力于数理统计 在农业科学和遗传学中(费歇尔1890—1962)的应用研究。 年轻的费歇尔主要的研究工作是用数学将样本的分布给以严格的确定。 在一般人看来枯燥乏味的数学,常能带给研究者极大的慰藉,费歇尔热衷于 数理统计的研究工作,后来的理论研究成果有:数据信息的测量、压缩数据 而不减少信息、对一个模型的参数估计等。 最使科学家称赞的工作则是试验设计,它将一切科学试验从某一个侧面 “科学化”了,不知节省了多少人力和物力,提高了若干倍的工效。 费歇尔培养了一个学派,其中有专长纯数学的,有专长应用数学的。在30- 50年代费歇尔是统计学的中心人物。1959年费歇尔退休后在澳大利亚度过了 最后三年。
若 x1 , x2 , , xn 是样本的观察值, 则 g ( x1 , x2 , xn ) 是 g ( X 1 , X 2 , X n )
概率论与数理统计-第六章

这200人的年龄数据。
总体:北京市民的年龄 随机变量:年龄X
个体:张三28岁;李四5岁;
样本:{ 28;5;14;56;23;2;39;…;69} 样本容量:200
抽样:随机抽取200人进行调查的过程
6
例2:为了确定工厂生产的电池电量分布情况,在
产品中随机抽取500个,测量其电量。记录了
x
0
F n1 , n2
F分布的分位数
x
F分布的上α分位点
对于给定的 , 0 1, 称满足条件
F n1 , n2
f x; n1 , n2 dx 的点F n1 , n2
为F n1 , n2 分布的上 分位数。F n1 , n2 的值可查F 分布表
17
不易计算!
18
抽样分布 —— 任意统计量 Q = g (X1, X2, …, Xn ) 的分布函数 抽样分布的计算: 多维随机变量(独立、同分布)的函数的分布 函数的计算问题。
得到统计量 Q 的抽样分布,就可以用来解决
关于总体 X 的统计推断问题。
19
关于随机变量独立性的两个定理
解:(1)作变换 Yi
显然Y1 , Y2 ,
2 n i 1
Xi
, Yn相互独立,且Yi N 0,1 i 1, 2,
Xi
i 1, 2,
,n
,n
于是 (
) Yi 2 2 n
2 i 1
28
n
(2)
2 ( X X ) X1 X 2 ~ N (0, 2 2 ), 1 2 2 ~ 2 (1) 2
概率论与数理统计第6章

第六章6.4 在例6.2.3 中, 设每箱装n 瓶洗净剂. 若想要n 瓶灌装量的平均阻值与标定值相差不超 过0.3毫升的概率近似为95%, 请问n 至少应该等于多少? 解:因为1)3.0(2)/3.0|/(|)3.0|(|-Φ≈<-=<-n nnX P X P σσμμ依题意有,95.01)3.0(2=-Φn ,即)96.1(975.0)3.0(Φ==Φn于是 96.13.0=n ,解之得 7.42=n 所以n 应至少等于43.6.5 假设某种类型的电阻器的阻值服从均值 μ=200 欧姆, 标准差σ=10 欧姆的分布, 在一个电子线路中使用了25个这样的电阻.(1) 求这25个电阻平均阻值落在199 到202 欧姆之间的概率; (2) 求这25个电阻总阻值不超过5100 欧姆的概率. 解:由抽样分布定理,知nX /σμ-近似服从标准正态分布N (0,1),因此(1) )25/10200199()25/10200202()202199(-Φ--Φ≈≤≤X P)5.0(1)1()5.0()1(Φ+-Φ=-Φ-Φ=5328.06915.018413.0=+-= (2) )204()255100()5100(≤=≤=≤X P X P X n P 9772.0)2()25/10200204(=Φ=-Φ≈6。
8 设总体X ~N (150,252), 现在从中抽取样本大小为25的样本, {140147.5}P X ≤≤。
解: 已知150=μ,25=σ,25=n ,)25/25150140()25/251505.147()5.147140(-Φ--Φ≈≤≤X P)5.0()2()2()5.0(Φ-Φ=-Φ--Φ= 2857.09615.09772.0=-=第六章《样本与统计量》定理、公式、公理小结及补充:。
《数理统计》第6章§4正态总体的置信区间

区间。
其他非正态分布的影响
03
非正态分布可能导致置信区间的形状和范围与正态分
布不同,需要特别注意。
05
置信区间的应用实例
金融数据的置信区间分析
股票价格的预测
通过分析历史股票价格数据,利 用正态总体置信区间估计股票价 格的未来走势,为投资者提供参 考。
总体方差的置信区间
总结词
总体方差的置信区间是用来估计未知的总体 方差的一个区间范围,基于样本方差和自由 度。
详细描述
在正态分布的假设下,总体方差的置信区间 可以通过样本方差和自由度计算得出。具体 来说,对于给定的置信水平(如95%),我 们可以使用以下公式来计算总体方差的置信 区间:$left(frac{text{样本方差}}{text{自由 度}} pm text{统计量}right)^2$,其中统计量
许多自然现象的观测数据都服从或近似服从 正态分布,如人的身高、考试分数等。
假设检验
在许多统计假设检验中,正态分布是重要的 理论基础。
参数估计
利用正态分布的性质进行参数的点估计和区 间估计,如均值和方差的估计。
线性回归分析
在回归分析中,正态分布用于解释因变量的 变异和建立预测模型。
02
置信区间的概念
流行病学研究
在流行病学研究中,利用置信区间分析疾病发病率 、患病率等指标,为制定公共卫生政策提供依据。
诊断试验评价
在评价诊断试验的性能时,使用置信区间分 析试验结果的准确性,为医生提供可靠的诊 断依据。
市场调查数据的置信区间分析
市场份额预测
通过对市场调查数据进行置信区间分析,预测产品在市场 中的份额和潜在增长空间。
概率论与数理统计第六章总结

概率论与数理统计第六章总结概率论与数理统计是数理学科中的重要分支,其应用广泛,涉及到许多领域,如工程、物理、自然科学、医学、经济学等等。
第六章主要讲述了离散型随机变量的概率分布、期望值、方差及其应用。
首先我们了解到离散型随机变量是指取值有限或者可以无限但是可以和自然数一一对应的随机变量,即不连续的随机变量。
其中概率分布的概念是很重要的,它告诉我们每种随机变量取值的可能性大小,从而可以计算一些重要的数值。
比如期望值,期望值是随机变量取值的平均值,它可以用概率分布函数计算得到。
期望值可以给我们一个随机变量所处于某个状态的平均位置,或者它对某个事件发生的平均贡献。
方差也是一个非常重要的概念,它是随机变量值与其期望值之差的平方的期望值。
方差表示了随机变量的分布范围,也就是它们取值的变化程度。
方差越大,代表随机变量距离其期望值越远,该随机变量取值的范围也相应较大。
求期望值和方差的过程中有一些公式会显著提高计算效率,比如线性变换的公式、缩放变换的公式、Chebyshev不等式等等。
这些公式的应用有助于简化计算,并且能帮助我们更容易地理解问题。
我们还讨论了一些常见离散型随机变量的概率分布,比如伯努利分布、二项分布、泊松分布等等。
这些分布的出现在实际问题中都有着很重要的意义,比如伯努利分布描述了实验只有两种可能结果的概率分布,比如是/否、头/尾等等。
而二项分布则描述了实验中成功的概率和试验次数的关系,给我们解决实际问题提供了基础。
除了离散型随机变量,我们还可以研究连续型随机变量的概率分布以及相应的数学理论。
这些知识在实际应用中也具有重要意义。
比如在统计财务账目时,需要研究一些连续型随机变量的概率分布,以便预测下一期客户付款时间的分布情况。
又比如在流量预测中,需要研究一些连续型随机变量的概率分布,以便预测某个时间段内的网络流量。
总之,离散型随机变量理论是概率论的核心内容,对于理解整个概率论课程和进行实际应用都有着重要的意义。
概率论与数理统计第六章总结

概率论与数理统计第六章总结一、概述在概率论与数理统计的第六章中,主要介绍了随机变量的概率分布以及常见的概率分布模型。
本章内容是概率论与数理统计的重点和难点之一,对于理解和应用概率统计的基本理论和方法具有重要意义。
二、随机变量的概率分布1. 随机变量及其概率分布的概念•随机变量是对随机试验结果的数值化描述,它的取值不仅依赖于随机试验的结果,还受到机会因素的影响。
•概率分布描述了随机变量可能取值的概率大小。
常用的概率分布有离散型和连续型两种。
2. 离散型随机变量及其概率分布•离散型随机变量的取值是有限或可列的,它的概率分布可以用概率质量函数来描述。
•常见的离散型随机变量包括伯努利随机变量、二项分布、泊松分布等。
3. 连续型随机变量及其概率分布•连续型随机变量的取值是无限的,它的概率分布可以用概率密度函数来描述。
•常见的连续型随机变量包括均匀分布、正态分布等。
三、常见概率分布模型1. 二项分布•二项分布是指在 n 重伯努利试验中,成功的次数服从的概率分布。
其概率质量函数为二项式系数与成功概率的乘积。
•二项分布在实际应用中常用于描述成功次数的分布情况,如抽样调查中的样本中某一特征出现的次数。
2. 泊松分布•泊松分布是定义在非负整数集上的概率分布,它描述了在一段时间或空间内事件发生的次数。
其概率质量函数为事件发生率与时间(或空间)长度的乘积。
•泊松分布常用于描述罕见事件发生的次数,如单位时间内电话呼叫次数、一段时间内事故发生次数等。
3. 正态分布•正态分布是最重要的连续型概率分布模型之一,也称为高斯分布。
它的概率密度函数呈钟形曲线,对称于均值。
•正态分布在实际应用中广泛存在,如身高体重、测量误差、考试成绩等符合正态分布的情况较多。
4. 指数分布•指数分布是定义在非负实数集上的连续型概率分布,它描述了连续时间间隔或空间间隔内事件发生的情况。
其概率密度函数呈指数下降曲线。
•指数分布在实际应用中常用于描述无记忆性随机事件的发生情况,如设备失效时间、极端天气事件的间隔等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
f ( x ; n1 , n2 )
n1 20
n2
n2 25
n2 10
o
x
二、上α分位点
定义:设随机变量X的概率密度为 f(x),对于
3)总体、样本、样本值的关系
事实上我们抽样后得到的资料都是具体的、
确定的值. 如我们从某班大学生中抽取10人测量
身高,得到10个数,它们是样本取到的值而不是
样本. 我们只能观察到随机变量取的值而见不到
随机变量.
统计是从手中已有的资料 — 样本值,去推断 总体的情况 — 总体分布F(x)的性质. 样本是联系二者的桥梁 总体分布决定了样本取值的概率规律,也就是 样本取到样本值的规律,因而可以由样本值去推断 总体.
体.
二、样本
简单随机样本
1)抽样和样本
为推断总体分布及各种特征,按一定规则从总 体中抽取若干个体进行观察试验,以获得有关总体 的信息,这一抽取过程称为 “抽样”,所抽取的部 分个体称为样本. 样本中所包含的个体数目称为
样本容量.
样本的抽取是随机的,每个个体是一个随机 变量.容量为n的样本可以看作n维随机变量,用 X1,X2,…,Xn表示. 而一旦取定一组样本,得到的是n个具体的 数 (x1,x2,…,xn),称其为样本的一个观察值,简 称样本值 .
1 k Ak X i n i 1 n 1 k Bk ( X i X ) n i 1
k=1,2,…
n
它们的观察值分别为:
1 n x xi n i 1 1 k ak xi n i 1
由大数定律可知:
n
1 2 s ( xi x) n i 1
2
n
1 bk ( x i x ) k n i 1
2 2 χ1 χ2 ~ χ 2 (n1 n2 )
2 这个性质称为 分布的可加性.
2 2
2、t 分布
定义: 设X~N( 0 , 1 ) , Y~ χ (n) ,且 X 与 Y 相互 X 独立,则称变量 t Y n
2
所服从的分布为自由度为 n 的 t 分布.记为t~t (n).
t 的概率密度为:
总体:
所研究的对象的某个(或某些)数量指标的全体称为 总体,它是一个随机变量(或多维随机变量),记为X . X 的分布函数和数字特征称为总体分布函数 和总体数字特征.
例如:研究某批灯泡的寿命时,总体X是这批 灯泡的寿命,而其中每个灯泡的寿命就是个体。
总体
个体
每个 灯泡的寿命
又如:研究某批国产轿车每公里的耗油量时,总
3、F分布
2 2 X ~ χ ( n ), Y ~ χ ( n2 ), X 与 Y 相互独立, 定义: 设 1
则称统计量
X n1 F Y n2
服从自由度为n1及 n2 的F分布,n1称为第一自由度, n2称为第二自由度,记作 F~F(n1,n2) .
1 Y n2 ~F(n2,n1) 由定义可见, F X n1
n
1 1 F v
n
* 特别地,若X 有密度函数f(x) ,则X n 和 X 1*
的密度函数分别为
f n u nf u F u
n 1
f1 v nf v 1 F v
n 1
第三节
抽样分布
N(0,1), 则称随机变量:
χ X1 X 2 X n
2
2
2
2
2
所服从的分布为自由度为 n 的 χ 分布,记为
χ ~ χ (n)
2
2
χ 分布的概率密度为
n y 1 1 n2 y2 e 2 f ( y ) 2 Γ( n 2) 0
2
y0 其它
其中, ( x) 0 t
t2 h( t ) (1 ) n Γ ( n 2 ) nπ Γ [( n 1 ) 2 ]
n 1 2
t(x;n)
n=10 n=4 n=1
o
x
t分布的概率密度函数关于t=0对称,且
当n充分大时(n≥30),其图形与标准正态分布的
概率密度函数的图形非常接近.但对于较小的n,
t 分布与N (0,1)分布相差很大.
F u
n
(2)最小项统计量 X 的分布函数记为 F1 v ,则
* 1
F1 v P X v 1 P X v
* 1 * 1
1 P X1 v, X 2 v,, X n v
1 P X v
n
1 n k Ak X i 依概率收敛于 E( X k ) n i 1
例1. 从一批相同的电子元件中随机地抽出8个,测得使用
寿命(单位:小时)分别为:2300,2430,2580,2400,
2280,1960,2460,2000,试计算样本均值、样本方差及
样本二阶矩.
n 1 解: x x i 2301 .25 (小时) n i 1
是统计量,而 若 a , 2 已知, 则
几个常用的统计量
样本均值
它反映了总体方差 的信息
它反映了总体均值 的信息
1 X Xi n i 1
n 1 2 2 S (Xi X ) n i 1
n
样本方差
它反映了总体 k 阶矩 的信息
样本k阶原点矩 样本k阶中心矩
它反映了总体 k 阶 中心矩的信息
组成总体的每个元素称为个体.
总体
…
研究某批灯泡的质量
然而在统计研究中,人们关心总体仅仅是关心
其每个个体的一项(或几项)数量指标和该数量指标
在总体中的分布情况.
量指标的全体就是总体. 某批 灯泡的寿命
这时,每个个体具有的数
国产轿车每公里 的耗油量
该批灯泡寿命的 全体就是总体
国产轿车每公里耗油量 的全体就是总体
2
样本方差的性质
1 Xi X ( 1) n i 1
( 2) 记
n
2
2 1 n 2 Xi X n i 1
S
2 n 1
1 Xi X n 1 i 1
n
2
则
S
2 n 1
n 2 S n 1
(3) 若总体X的方差存在,则
n 1 E S DX n
n x
定理表明:当样本容量n充分大时,经验分布函数
Fn(x) 几乎一定会充分趋近总体分布函数F(x),这是
用样本来推断总体的理论依据.
二、样本均值和方差的性质
1 样本均值的性质
( 1) ( 2)
X
n i 1
i
X 0
若总体X的均值和方差存在,且
则
1 2 E X a, D X n
当说到“X1,X2,…,Xn是取自某总体的样本”时,
若不特别说明,就指简单随机样本.
设X1,X2,…,Xn 是总体X的一个简单随机样本,
1)若X为离散型总体,其分布律是p(x),则X1,X2,…,Xn的
联合分布律为 p(x1) p (x2) … p (xn) 2)若X为连续型总体,其概率密度是f(x),则X1,X2,…,Xn 的联合分布律为 f (x1) f (x2) … f (xn)
2
E S
2 n 1
DX
三、极值的分布
设总体X的分布函数为F(x), X1 , X 2 ,, X n为其样本
* X (1)最大项统计量 n 的分布函数记为 Fn u ,则
* Fn u P X n u
P X1 u, X 2 u,, X n u
例如: X ~ N(a, σ), a, σ 是未知参数,
X 1 , X 2 ,, X n 是X 的一个样本, 则
2 X i, i=1 n
5X3 4X5 3
1 n 2 X - a 不是统计量. 2 i σ i=1 1 n 2 X - a 也是统计量. 2 i σ i=1
2
显然 χ 分布的概率密度图形随自由度的不同而 Nhomakorabea有所改变.
χ 分布的性质:
性质1. 设 χ ~ χ ( n), 则 E( χ ) n, D( χ ) 2n
2 2 2 2 2 χ 性质2. 设 χ ~ χ (n1 ), χ ~ χ (n2 ), 且 1 与 2 1 2 2 2 2
2
χ 相互独立,则
{X≤x}在n次观察中出现的次数为vn(x),于是事
件{X≤x}发生的频率为:
vn ( x ) Fn ( x ) n
x
称 Fn(x) 为样本分布函数或经验分布函数.
定理(格列汶科)当n→∞时,经验分布函数 Fn(x) 依概率1关于x一致收敛与总体分布函数,即
P{lim sup | Fn ( x ) F ( x ) | 0} 1
第一节
数 理 统 计 的 分 类
基本概念
描述统计学
对随机现象进行观测、试验,以取得 有代表性的观测值
推断统计学
对已取得的观测值进行整理、分析, 作出推断、决策,从而找出所研究的对象 的规律性
一、总体和个体
二、样本 二、统计量 简单随机样本
一、总体和个体
一个统计问题总有它明确的研究对象. 研究对象的全体称为总体(母体),
一、统计学中的三大分布
二、上α 分位点
三、抽样分布定理
一、统计学中三大分布
抽样分布 统计量是样本的函数,而样本是随机 变量,故统计量也是随机变量,因而就有 一定的分布,它的分布称为“抽样分 布” . 下面介绍三个来自正态总体的抽样分布.
1、 χ
2
分布