第六章数理统计学的基本概念
概率与统计学课件-第六章-数理统计的基本概念2-1

�总体与样本
基本概念: 总体:研究的问题所涉及的对象的全体 个体:总体中的每个成员 样本:从总体中抽取部分个体 样本容量:样本所包含的个体数量 样本观测值:
数的属性 样本的二重性 随机变量的属性
设X1,X2, …,Xn为总体X的一个容量为 n的 样本。若它满足 独立性,即X1,X2, …,Xn 相互独立; 同分布性,即每个 Xi都与总体X服从相 同的分布. 则称这样的样本为简单随机样本,简称为 样本。
�统计量
设是总体X的样本,g(X1,X2, …,Xn)是样本 的实值函数,且不包含任何未知参数,则 称g(X1,X2, …,Xn)为统计量。
例2.若X1,X2, X3是来自总体X~N(μ, σ 2)的 其中参数μ未知, σ2已知,则
X 1 X 3 − 3µ , X12 + 4 X 22 + 5µ 都不是统计量
�定理
若X1,X2, …,Xn是来自总体X的样本,设X 的分布函数为 F(x),则样本X1,X2, …,Xn的 联合分布函数为
n
∏ F (x )
i i =1
例1.若X1,X2, …,Xn是来自总体X的样本,设 X的分布函数为 F(x),则样本 X1,X2, …,Xn的联合分布函数为
⎧ n − λ xi (1 − e ), xi > 0(i = 1, 2,⋯ , n) ⎪∏ F ( x1 , x2 ,⋯ , xn ) = ⎨ i =1 ⎪ 0 , 其他 ⎩
1/8, 25 ≤ x<27 2/8, 27 ≤ x<30 3/8, 30 ≤ x<33 Fn(x)= 5/8, 33 ≤ x<35 6/8, 35 ≤ x<45 7/8, 45 ≤ x<65 1, 65 ≤ x
第六章 数理统计的基本概念pdf_(一)基本要求

.第六章 数理统计基本概念
一、基本要求、重点与难点
(一)基本要求
1.理解总体、个体、简单随机样本和统计量的概念。掌握样本均值和样本 方差的计算。
(2)设 X ~ χ 2 (n) ,则 E(X)=n,D(X)=2n .
若 X ~ χ 2 (n) ,对于α (0 < α < 1) ,称满足 P( X > χα2 (n)) = α的点χα2 (n) 为 χ 2 (n) 分布的
上侧α 分位点。当 n>45 时,R.A.Fisher 证明了下面的近似公式
( ) χα2
(n)
≈
1 2
uα +
2
2n −1 ,
其中 uα 为标准正态分布的上侧α 分位点。
2、 自由度为 n 的 t 分布:
定义设 X1, X2 独立,X1~N(0,1), X2~ χ 2 (n) ,则称
T (n) = X1 X 2 n
的分布是自由度为 n 的 t 分布,简记为 t(n) ,亦称为学生(student)分布。这种分布是英国人 w.s.Gosset 在 1908 年以笔名”student”发表的,它是数理统计中最重要的分布之一。 命题 设 T(n)是自由度为 n 的 t 分布,则它的概率密度函数为:
2.会列出分组数据统计表。 3.了解X2-分布、t-分布和F-分布的定义及性质。了解分位数的概念并会查
表计算。 4.掌握正态总体的抽样分布规律。
(二)重点
1.样本均值和样本方差的计算。 2.分组数据统计表。 3.正态总体的抽样分布规律。
概率论与数理统计-6

一、统计量
定义1 设X1, X2, …, Xn是总体X的样本,样本函数g(X1, X2, …, Xn)是样 本的实体函数,且不含有任何未知参数,则称这类样本函数g(X1, X2, …, Xn)为统计量。
由于样本具有二重性,统计量作为样本的函数也具有二重性,即对 一次具体的观测或试验,它们都是具体的数值,但当脱离开具体的某 次观测或试验,样本是随机变量,因此统计量也是随机变量。
n i 1
( xi
x )2
1n (
n 1 i1
xi2
nx 2 )
。
(3)样本标准差
S
S2
1 n 1
n i 1
(Xi
X
)2
它的观测值记为 s
s2
1 n 1
n i 1
( xi
x )2
。
(6-5)
(4)样本k阶原点矩
Ak
1 n
n i 1
X
k i
(k
1,2 ,3,
)
它的观测值记为 ak
解 将样本的观察值由小到大排列为 1 2 3 3 4 4 4 5 6 8
所以样本的频率分布如表所示
X
1
2
3
4
5
6
8
fn
0.1
0.1
0.2
0.3
0.1
0.1
0.1
例1 设总体服从泊松分布,容量为10的样本观察值如下:
214 3 5 6 4 8 4 3 试构造样本的分布函数F10(x)。
例1 设随机变量 X ~ (0 ,1) 分布,求D(X)。
解 因为 X ~ (0 ,1)
所以 又
E(X ) p E( X 2 ) 0 (1 p) 12 p p
数理统计基本概念

P{6.262 χ 2 24.996}
2 2
P{χ 6.262} P{χ 24.996}
0.975 0.05 0.925
注意 应注意分布表的定义与查法!
#
数理统计基本概念
3.自由度为 n的 t 分布 作笔名发表文章.
T~t(n)
又称学生氏分布--第一个研究者以Student
( X 1 , X 2 , , X n ) ~ ( 2 ) e
n 2 2
i 1
( xi )2 2 2
n
数理统计基本概念
四、统计量 定义6.1.2 设X1 , X2 , ·, Xn是总体X的样本, · · T为n元实值函数,若样本的函数 T=T(X1 , X2 , ·, Xn) · · 是随机变量且不含未知参数,称 T为统计量. 对相应的样本值( x1 , x2 , … , xn ) ,称 t =T( x1 , x2 , … , xn )
理
统
计
的
引
入
数理统计基本概念
某厂生产的一批产品中次品率为 p 。从中 抽取10件产品装箱。 概
1)没有次品的概率 2)平均有几件次品
率
3)为以 0.95的概率保证箱中 有10件正品,箱中至少要装多 少件产品。
数
理
统
计
的
引
入
数理统计基本概念
所有这些问题的关键是 p 是已知的! 如何获取 p ? 这就是数理统计的任务了!
定的α(0<α<1),数uα满足
P{ X u } ,
(C ) u1 ;
数理统计的基本概念

n 1 2
, x .
t 分布的概率密度图形
图形关于 x 0 对称, lim f ( x; n) 0 , 且 x 当 n 充分大时,f (x; n) 趋近于标准正态 分布的概率密度。
定理 4: X 1, 2, , n 是抽自正态总体 设 X X
若总体 X 是离散型的,其分布律为:
则样本的联合分布为
§6.2 抽样分布
6.2.1 统计量的概念 由样本推断总体的某些情况时,需要对样本进行“ 加工”,构造出若干个样本的已知 (确定)的函数, 其作用是把样本中所含的某一方面的信息集中起来 。 这种不含任何未知参数的样本的函数称为统计量。 它是完全由样本所决定的量。 定义2:设 X 1 , X 2 , , X n 是来自总体X的样本, g( X 1 , X 2 , , X n ) 是样本 X 1 , X 2 , , X n 的函数,如果 g( X 1 , X 2 , , X n ) 中不包含任何未知参数,则称它 是一个统计量。
1 (0.82)
1 0.7939 0.2061
X ~ N (0, 22 ), X1 , X 2 , X3 , X 4 为其样本,求a,b 例2:总体
(2). (n 1)S / ~ (n 1)
2
X (1). X ~ N ( , / n), 或 ~ N (0,) ; 1 / n 2 2 2
2
X (3). X 与 S 相互独立; (4). ~ t(n 1). S/ n
定理5:设X1, X2, …, Xm 与Y1, Y2, …, Yn分别来自总体 2 两样本独立, X ~ N ( 1 , 12 )和Y ~ N ( 2 , 2 )的样本, 2 S12 / S2 则有 F 2 ~ F ( m 1, n 1). 2 1 / 2 定理6*:设X1, X2, …, Xm 与Y1, Y2, …, Yn分别来自
概率论与数理统计 第六章--数理统计的基本概念

F分布性质2 若X ~t(n),则X2~F(1,n)
例4.设X1,X2, …,Xn是来自正态总体N(0,1) 的样本,试问c=( )统计量
c
2 X i 3 i 1 n
X
i 4
2 i
服从F分布?
抽样分布的分位点
设α为给定的常数,且0<α<1.若存在χα2(n)使
P ( n)
分位点的性质
(1) u1 u (2)
t1 (n) t (n)
1 (3) F (m, n) F1 (n, m)
回顾1. 设X1 ,X2 ,X3, X4是来自总体N(0,4)的简单 随机样本,X=a(X1-2 X2)2+b(3X3 -4X4)2,问当 a,b为何值时,统计量X服从 2分布 .
Max=1572, Min=738, 组数=6 组距=(Max-Min)/6=139140 取a0=735, 则分组区间及相关数据如下
组序 1 2 分区区间 (735,875] (875,1015] 频数 6 8 频率 0.2 0.27 累计频率 0.2 0.47
3
4 5 6 合计
(1015,1155]
2
所服从的分布为自由度为 n 的 分布 记为
2
~ (n)
2 2
分布的密度函数为
2
n x 1 1 n2 x2 e 2 f ( x; n ) 2 ( n 2 ) 0
x0 x0
其中伽玛函数 ( x )通过积分
( x ) e t dt, x 0 0 来定义.
(1155,1295] (1295,1435] (1435,1575]
9
4 2 1 30
0.3
习题解答 - 第六章 数理统计基本概念

么值时, η 服从 χ 分布?并给出自由度。
2
解答:因 ξ1 ,L , ξ 4 是 N (0, 2 ) 的一个样本,所以 a (ξ1 − 2ξ 2 ) 与 b (3ξ3 − 4ξ 4 ) 相互独立,
2
且由例 3.16 可知它们分别服从 N (0, 20a ) 、 N (0,100b) ,要使 η 服从 χ 分布,只要
_ _
σ2
n
, E (S 2 ) = σ 2 。 (1)因
ξ
B(k , p) , 则 E (ξ ) = μ = kp, D (ξ ) =
_
_
_
σ2
n
_
=
kp(1 − p ) , E ( S 2 ) = σ 2 = kp(1 − p ) ; n =
(2)因 ξ
π (λ ) ,则 E (ξ ) = μ = λ , D(ξ ) =
i =1
10
N (0, 0.32 ) ,所以 ξ 0.3
N (0,1) ,即从中抽取的容量为 10 的样本,去
10 10
我们有
∑ (ξ 0.3)2
i =1
10
χ 2 (10) ,所以 0.05 = P{∑ ξ 2 > λ} = P{∑ (ξ / 0.3) 2 >
i =1 i =1
λ
0.09
}
查表可知
_ 1 1 11 [∑ ni ⋅ xi2 − n( x) 2 ] = (8 ⋅ 02 + 5 ⋅12 + 7 ⋅ 32 + 3 ⋅ 42 + 2 ⋅ 62 − 25 ⋅ 22 ) = , 3 24 n −1 _ 1 n − 1 2 24 11 b2 = [∑ ni ⋅ xi2 − n( x) 2 ] = s = ⋅ = 3.52 n n 25 3
第六章 数理统计的基本概念

1 n 2 S S ( X X ) i n 1 i 1
2
(4) 样本k阶(原点)矩
1 n k Ak X i n i 1
k 1, 2,
k 2,3,
(5) 样本k阶中心矩
1 n Bk ( X i X )k n i 1
§2
常用统计量的分布
统计量的分布称为抽样分布.下面介绍三种由 正态总体演化而来的统计量的分布:
• 从二战后到现在,是统计学发展的第三个时期,这是一个在 前一段发展的基础上,随着生产和科技的普遍进步,而使这 个学科得到飞速发展的一个时期,同时,也出现了不少有待 解决的大问题.
学科奠基者
数理统计作为一个进一步完善的数学学科的奠基者是英国人费歇尔。他1909 年入剑桥大学,攻读数学物理专业,三年后毕业。毕业后,他曾去投资办工 厂,又到加拿大农场管过杂务,也当过中学教员。1919年,他开始对生物统 计学产生了浓厚的兴趣,参加罗萨姆斯泰德试验站的工作,致力于数理统计 在农业科学和遗传学中(费歇尔1890—1962)的应用研究。 年轻的费歇尔主要的研究工作是用数学将样本的分布给以严格的确定。 在一般人看来枯燥乏味的数学,常能带给研究者极大的慰藉,费歇尔热衷于 数理统计的研究工作,后来的理论研究成果有:数据信息的测量、压缩数据 而不减少信息、对一个模型的参数估计等。 最使科学家称赞的工作则是试验设计,它将一切科学试验从某一个侧面 “科学化”了,不知节省了多少人力和物力,提高了若干倍的工效。 费歇尔培养了一个学派,其中有专长纯数学的,有专长应用数学的。在30- 50年代费歇尔是统计学的中心人物。1959年费歇尔退休后在澳大利亚度过了 最后三年。
若 x1 , x2 , , xn 是样本的观察值, 则 g ( x1 , x2 , xn ) 是 g ( X 1 , X 2 , X n )
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第六章数理统计的基本概念一、教学要求1.理解总体、个体、简单随机样本和统计量的概念,掌握样本均值、样本方差及样本矩的计算。
2.了解分布、t分布和F分布的定义和性质,了解分位数的概念并会查表计算。
3.掌握正态总体的某些常用统计量的分布。
4.了解最大次序统计量和最小次序统计量的分布。
本章重点:统计量的概念及其分布。
二、主要内容1.总体与个体我们把研究对象的全体称为总体(或母体),把组成总体的每个成员称为个体。
在实际问题中,通常研究对象的某个或某几个数值指标,因而常把总体的数值指标称为总体。
设x为总体的某个数值指标,常称这个总体为总体X。
X的分布函数称为总体分布函数。
当X为离散型随机变量时,称X的概率函数为总体概率函数。
当X为连续型随机变量时,称X的密度函数为总体密度函数。
当X服从正态分布时,称总体X为正态总体。
正态总体有以下三种类型:(1)未知,但已知;(2)未知,但已知;(3)和均未知。
2.简单随机样本数理统计方法实质上是由局部来推断整体的方法,即通过一些个体的特征来推断总体的特征。
要作统计推断,首先要依照一定的规则抽取n个个体,然后对这些个体进行测试或观察得到一组数据,这一过程称为抽样。
由于抽样前无法知道得到的数据值,因而站在抽样前的立场上,设有可能得到的值为,n维随机向量()称为样本。
n称为样本容量。
()称为样本观测值。
如果样本()满足(1)相互独立;(2) 服从相同的分布,即总体分布;则称()为简单随机样本。
简称样本。
设总体X的概率函数(密度函数)为,则样本()的联合概率函数(联合密度函数为)3. 统计量完全由样本确定的量,是样本的函数。
即:设是来自总体X 的一个样本,是一个n元函数,如果中不含任何总体的未知参数,则称为一个统计量,经过抽样后得到一组样本观测值,则称为统计量观测值或统计量值。
4. 常用统计量(1)样本均值:(2)样本方差:(3)样本标准差:它们的观察值分别为:这些观察值仍分别称为样本均值、样本方差和样本标准差。
(4)样本(k阶)原点矩11,1,2,nkk iiA X kn===∑L(5)样本(k阶)中心矩11(),2,3,nkk iiB X X kn==-=∑L其中样本二阶中心矩211(),nk iiB X Xn==-∑又称为未修正样本方差。
(6)顺序统计量将样本中的各个分量由小到大的重排成(1)(2)()nX X X≤≤≤L则称(1)(2)(),,nX X XL为样本顺序统计量,()(1)nX X-为样本的极差。
(7)样本相关系数:112211()()()()11()()n ni i i ii ixy n nx yi ii ix x y y x x y yrS Sx x y yn n====----==--∑∑∑∑其中:,x y分别为数据,i ix y的样本均值,,x yS S分别为样本a标准差。
5、直方图与箱线图(1)直方图先将所有采集的数据进行整理,得到顺序统计量,找出其中的最小值(1)x,最大值()nx,即所有的数据都落在区间(1)(),nx x⎡⎤⎣⎦上,现取区间(1)(),nx k x k⎡⎤-+⎣⎦(其中k 可取0.5,1.5等),该区间能覆盖区间(1)(),n x x ⎡⎤⎣⎦,将区间(1)(),n x k x k ⎡⎤-+⎣⎦等分为m 个小区间(先取一个区间,其下限比最小的数据稍小,其上限比最大的数据稍大,然后将这一区间等分为m 个小区间,通常n 较大时m 取1020:,当50n <时则m 取56:。
若m 取得过大,则会出现某些区间内频数为零,分点通常取比数据精度高一位,以避免数据落在分点上),小区间的长度记为∆,(1)()()()n x k x k l m+--∆==,∆称为组距,小区间的端点称为组限,数出数据落在每个小区间内的数据的频数i f ,算出频率(1,2,)i fi l n=L ,然后自左至右依次在各个小区间上做以(1,2,)if n i l =∆L 为高的小矩形,这样的图形就称其为频率直方图。
显然这种小矩形的面积就等于数据落在该小区间的频率(1,2,)i fi l n=L ,直方图的外廓曲线接近于总体X 的概率密度曲线。
(2)p 分位数定义 设有容量为n 的样本观察值12,,,n x x x L ,样本(01)p p <<分为数记为p x ,它具有以下性质:(1)至少有np 个观察值小于或等于p x ;(2)至少有(1)n p -个观察值大于或等于p x样本p 分位数可按以下法则求得:将12,,,n x x x L 按从小到大的顺序排成(1)(2)()n x x x ≤≤≤L01,若np 不是整数,则只有一个数据满足定义中的两点要求,这一数据位于大于np 的最小整数处,即为位于[]1np +处的数。
02,若np 是整数,则1,np np x x +都符合性质要求,故p x 取1,np np x x +的平均值。
综上可得:[](1)()(1)12np p np np x x x x ++⎧⎪=⎨⎡⎤+⎪⎣⎦⎩ np np 不是整是整特别的:1()20.51()()2212n n n x x med x x ++⎧⎪⎪==⎨⎡⎤⎪+⎢⎥⎪⎣⎦⎩ n n 奇偶0.25分位数又称为第一四分位数,又记为1Q ;0.75分位数又称为第三四分位数,又记为3Q(3)箱线图:数据集的箱线图是由箱子和直线组成的图形,它是在基于以下5个数据的图形概括:最小值13,,,,Min Q M Q 最大值Max ,做法如下:(1)画一水平数轴,在轴上标记最小值13,,,,Min Q M Q 最大值Max ,在数轴上方画一个上下侧平行于数轴的矩形箱子,箱子的左右两侧分别位于13,Q Q 的上方,在M 点的上方画一条垂直线段,线段位于箱子的内部;(2)自箱子的左侧中点引一条水平线直至最小值上方;在同一水平高度自箱子右侧引一条水平线直至最大值上方。
箱线图完成。
在数据集中某一个观察值不寻常的大于或小于该数集中的其他数据,称为疑似异常值。
第一四分位数1Q 与第三四分位数3Q 之间的距离:31IQR Q Q =-称为四分位数间距,若数据小于131.5 1.5Q IQR Q IQR -+或大于,就认为他是疑似异常值。
将上述箱线图的做法修改如下: (1’)同(1)(2’)计算31IQR Q Q =-,若一个数据小于131.5 1.5Q IQR Q IQR -+或大于,则认为它是一个异常值,并以*表示; (3’) 自箱子的左侧中点引一条水平线直至数据中除去疑似异常值之后的最小值上方,再自箱子的右侧中点引一条水平线直至数据中除去疑似异常值之后的最大值上方;这样做出的箱线图称为修正箱线图。
6关于Γ分布(1)Γ(Gamma )函数 10(),(0)x x e dx s αΓα+∞--=>⎰它具有以下运算性质:(1)();()(1)!,;n n n N ΓααΓαΓ+==-∈ 特别地:(1)1Γ=1()2Γ= 1201()2x x e dx Γ+∞--=⎰2,2t x t dx tdt =⇒==2221200011()222xt t t x e dx e tdt e dt e dt t Γ+∞+∞+∞+∞------∞====⎰⎰⎰⎰g g 令222222()()()t t s t I e dt I e dt eds e dt +∞+∞+∞+∞-----∞-∞-∞-∞=⇒==⎰⎰⎰⎰220r d erdr I πθπ+∞-==⇒=⎰⎰ 所以1()2Γ=(2)设随机变量X 服从Γ分布,即:(,)X Γαθ:,其密度函数为:11()()0x x e f x αθαθΓα--⎧⎪=⎨⎪⎩0x qita > 0,0αθ>>定理:设随机变量X ,Y 都服从Γ分布且相互独立,即:(,)X Γαθ:,(,)X Γβθ:其密度函数分别为:11()()0x X x e f x αθαθΓα--⎧⎪=⎨⎪⎩0x qita > 0,0αθ>>11()()0y Y y e f y αθαθΓα--⎧⎪=⎨⎪⎩0y qita > 0,0βθ>>则Z X Y =+服从参数为,αβθΓ+的分布,即:(,)X Y Γαβθ++: 7、经验分布函数设12,,n X X X L 是总体F 的一个样本,用(),()S x x -∞<<+∞表示12,,n X X X L 中不大于x 的随机变量的个数,定义经验分布函数为:1()(),()n F x S x x n=-∞<<+∞例题1:设总体F 有一个样本值1,2,3,则经验分布函数为:30,11,123()2,2331,3x x F x x x <⎧⎪≤<⎪=⎨≤<⎪⎪≥⎩例题2:设总体F 有一个样本值1,1,2,则经验分布函数为:30,12(),1231,2x F x x x <⎧⎪=≤<⎨⎪≥⎩格里汶科定理:(1933年)对于任意一实数x ,当n →∞时,()n F x 以概率1收敛于分布函数()F x {}lim sup ()()01n n x P F x F x →∞-∞<<+∞-==8. 三个重要分布 (1)分布设为独立标准正态变量,称随机变量的分布为自由度为n 的分布,记为。
其密度函数为:112221()2()20n x n x e n f x Γ--⎧⎪⎪=⎨⎪⎪⎩00x x >≤性质:(1)若22(),n χχ:则22(),()2E n D n χχ==因为(0,1)i X N :所以:()0,()1i i E X D X == 2()()1i i E X D X == 221()()n i i E E X n χ===∑又 24224()()(())()1312,(1,2,)i ii i D X E X E X E X i n =-=-=-==L其中:22224433222 111()()2222t t t itE X t e dt t e d t deπππ+∞+∞+∞----∞-∞-∞==--=-⎰⎰⎰g g g2222 33322222 113()222t t t t t de t de e dt t e dt πππ+∞+∞+∞----+∞-∞-∞-∞-∞⎡⎤=--==⎢⎥⎢⎥⎣⎦⎰⎰⎰g g22222222 333()3 222t t t ttde te e dt e dt πππ+∞+∞+∞----+∞-∞-∞-∞-∞⎡⎤=-=--==⎢⎥⎢⎥⎣⎦⎰⎰⎰(2)2χ分布的可加性设22221122(),()n nχχχχ::,并且相互独立,则有:2221212()n nχχχ++:(3)2χ分布的分位点对于给定的正数(01)αα<<,称满足条件222()(())()nP n f x dxααχχχα+∞>==⎰的点2()nαχ为2()nχ分布的上α分位点。