多元正态分布

合集下载

第二章多元正态分布

第二章多元正态分布

第二章多元正态分布(一)教学目的通过本章的学习,要求对多元分布的基本概念有所了解,掌握多元正态分布数字特征及其参数估计,尤其是多元正态分布的假设检验。

(二)基本要求要求了解多元分布的基本概念,掌握多元正态分布的参数估计和假设检验。

(三)教学要点1、多维随机向量的边缘密度、条件分布、数字特征2、多元正态分布数字特征及其参数估计3、三个常用的抽样分布4、正态分布总体均值向量的检验(四)教学时数3课时(五)教学内容1、多元分布的基本概念2、多元正态分布数字特征及其参数估计3、三个常用的抽样分布及多元正态分布的假设检验第一节多元分布的基本概念多元统计分析主要方法是建立在多元正态分布的假设之上的。

而多元正态分布又是多元分布中应用最广泛的一种.为此,在介绍多元统计分析方法之前,首先有必要介绍多元正态分布的有关内容.另外,多元统计分析涉及到的都是随机向量或着将多个随机向量放在一起组成的随机矩阵。

为此,学习多元正态分布还需要首先从随机向量的基本概念开始。

多元统计分析,简称多元分析,是指当总体的分布是多维(多元)概率分布时,处理该类总体的数理统计理论和方法的总称,是统计学中的一个重要的分支学科。

早在19世纪就出现了处理二维正态总体的一些方法,但系统地处理多维概率分布总体的统计分析问题,则开始于20世纪。

人们常把1928年维希特(Wishart)分布的导出作为多元分析成为一个独立学科的标志。

20世纪30年代,R。

A。

费希尔、H。

霍特林、许宝騄以及S.N。

罗伊等人做出了一系列奠基性的工作,使多元统计分析在理论上得到了迅速的进展。

20世纪40年代,多元分析在心理、教育、生物等方面获得了一些应用。

由于应用时常需要大量的计算,加上第二次世界大战的影响,使其发展停滞了相当长的时间。

50年代中期,随着电子计算机的发展和普及,它在地质、气象、标准化、生物、图像处理、经济分析等许多领域得到了广泛的应用,也促进了理论的发展。

一、随机向量我们知道,所谓随机变量通俗理解就是“其值随机会而定”的变量.比如,在某厂大批产品中随机地抽取出100个,其中所含废品数X 就是一个随机变量。

多元正态分布

多元正态分布
1 (2 )
p 2

12
1 1 exp ( x ) ( x ) 2
1
( 这里Σ=AA′,
1 1 1 ( AA ) ( A ) A )
§2.2 多元正态分布的定义
定义2.2.4 若 p 维随机向量X=(X1,X2…Xp)′的联合密 度函数为
⑤ 写出X=AU+μ的密度函数: 1 1 f X ( x) exp u u J (u x) p 2 (2 ) 2 1 1 2 1 1 1 exp [ A ( x )][ A ( x )] p 2 (2 ) 2
§2.2 多元正态分布的定义
1. 多元正态分布的定义
2. 多元正态分布的性质
§2.2 多元正态分布的定义
在一元统计中,若U~N(0,1),则U的任意线性变 换X=σU+μ~N(μ,σ2)。利用这一性质,可以从标准 正态分布来定义一般正态分布: 若U~N(0,1),则称X =σU+μ的分布为一般正态分 布,记为X ~N(μ, σ2 )。 此定义中,不必要求σ>0,当σ退化为0时仍有意 义。把这种新的定义方式推广到多元情况,可得 出多元正态分布的第一种定义。
故 X2 0 2 0 1 Y X 3 ~ N ( 0 , 0 3 0 ). 2 1 0 1 X1
§2.2 多元正态分布的性质
(3) 设Z=2 X1-X2+3X3,试求随机变量Z的分布. Z=2 X1-X2+3X3 =(2,-1,3)X=CX 2 故有: z C x (2,1,3) 0 4 0 2 z C xC 1 1 0 2 2 (2,1,3) 1 2 0 1 1,0,9 1 0 0 3 3 3 29 所以 Z ~ N(4,29).

第二章 多元正态分布

第二章 多元正态分布

Σ11 Σ= Σ 21
Σ12 k Σ 22 k − p
µ1 k µ= µபைடு நூலகம்2 p − k
x1 k x= x 2 p − k
则给定 x 2 时 x1 的条件分布为 N k ( µ1⋅2 , Σ11⋅2 ) ,其中
µ1⋅2 = µ1 + Σ12 Σ −1 (x 2 − µ 2 ). 22
7.033 2.168 3.540 4.981 2.874 30.530 Σ=
1.681 1.276 4.638 3.107
1.276 5.213 1.161 2.939 5.864 19.532 1.851 4.069 3.860 4.525 27.363
p 元正态分布;
若 rank(A) < p( p ≤ q),则Σ−1不存在, = Au + µ是退化 x
p元正态分布,不存在密度函数。
1 0 例:设随机向量 u ~ N2 (0, I ) , = Au, = 0 1 ,则 x 的分布是 A x 退化的三元正态分布。 1 1
1 1 =I = O 1
二、一般的正态分布 设随机向量 x = (x1, x2 ,L, xp )′ ,若其的密度函数为
f (x1, x2 ,L, xp ) = (2π )
− ∞ < xi < +∞
协方差为
−p 2
Σ
−1 2
1 exp[− (x − µ)′Σ−1(x − µ)] 2
1 0 1 0 1 0 11 0 1 = 0 1 1 Σ = AA′ = 0 1 1 1 1 1 1 2 1 0 1 0 1 1 = 1 1 + 0 1 = 2 −1−1 = 0 Σ= 1 2 1 1 1 1 2

多元统计分析——多元正态分布

多元统计分析——多元正态分布

一、多元正态分布的定义
1、一元正态分布的定义 若变量 X 的概率密度为:
x 2
2 2
1 f x e 2
, 0 ,
则称 X 服从一元正态分布,记为 X ~ N , 2 。 我们可以将上式改写为:


f x 2

1 2
1 exp x ' 2 2
量 X 的相关阵为
R rij p p
其中
rij
Var X i Var X j
covX i , X j

ij ii Байду номын сангаасj
i, j 1,2,, p
另证明:标准化数据的协方差阵正好是原始指标的相 关阵
第2节
多元正态分布
一、多元正态分布的定义 二、均值向量和协方差阵的估计 三、维希特(Wishart)分布 四、统计距离
三、多元变量的独立性
定义 3 两个随机向量 x 和 y 相互独立的充要条件为:
PX x, Y y PX x PY y
对任意的 x, y
若 F x, y 为 x, y 的联合分布函数; G x 和 H y 分别为 x 和 y 的分布函数, 则 x 与 y 独立当且仅当 F x, y G x H y 若 X ,Y ' 有密度函数 f x, y , g x 和 h y 分别表示 X 和 Y 的分布密度, X 和 Y 用 则 独立当且仅当


X 1 X 2 X p q
q
μ 1 μ 2 μ p q
q
11 21
12 21 p q

多元正态分布

多元正态分布
nlp n 2 nln | |1t(r 1S)
2 22
仅当x时等号成立
n
( x(i) )( x(i) )'
i 1
n
( x(i) x x )( x(i) x x )( x(i) x ) [ ( x(i) x )]( x )
f(x 1 , xp )(2)1 p 1 /2ex 1 2 p (x μ ) 1 (x μ )
其中, x(x1,xp),μ 是p维向量 是p阶
正定矩阵,则称X服从p维正态分布,记为 X~Np(μ,)
定义2:独立标准正态变量 X1,Xm 的有限线性组合

a p1 a p2 a pm
定义3:若随机向量X的特征函数为: (t)expitμ12tt 其中t为实向量,则称X服从p元正态分布。特征函数定义的
优点在于可以包含 0 的情况。
特别地,二元正态分布: X (X 1 ,X 2 )~ N 2 (μ , ),
n l2 p n n l| n | 1 t( r 1 S n 1 ( x )x () ) 2 22
n l2 p n n l| n | 1 t( r 1 S ) n ( x ) 1 '( x )) 222 2
(1, 2) ,
2 11
1122
1122
2 22

EX1 1, EX2 2,
(10,20,1)
Var(
X1)

2 11
Var(
X2
)

222,
(X1, X2) cov(X1, X2) 1122

第三讲多元正态分布

第三讲多元正态分布

p
f ( x)dx 1
9
边缘分布函数及边缘密度函数
用途:
判断
随机变量的 独立性
多元向量的独立性
独立的充分必要条件:
F ( x1, x2 , xq , xq1,, x p ) F ( x1,, xq )F ( xq1,, x p )

f ( x1, x2 , xq , xq1,, x p ) f ( x1,, xq ) f ( xq1,, x p )
AX ~ Ns ( A, AAT ) 且对任何 s 维常数向量 d , X d ~ N p ( d , ) 。
考虑 AX d 的情形?
(3) 、 若 X ~ N p (, ),将 X , , 作如下剖分:
X X ( 2) X pq
11 12 ( 2) 21 22 p q p q 则 X (1) ~ Nq ( (1) , 11 ) , X ( 2) ~ N pq ( (2) , 22 ) 。
19
相关系数矩阵
若 X ( X1, X 2 , X p )T 的协方差阵存在,且每一 个分量的方差大于0,则称随机向量X 的相关阵为
1 12 R 1p
其中
12
1
2 p
1 p 2 p 1
ij
第一章 多元正态分布
多元正态分布及参数估计


基础知识 统计距离和马氏距离 多元正态分布 均值向量和协方差阵的估计 几种常用的抽样分布
2
基础知识

随机向量 分布密度函数 多元变量的独立性 随机向量的数字特征
3
随机变量(random variable)

多元正态分布

多元正态分布
欧氏距离还有一个缺点,这就是当各个分量 为不同性质的量时,“距离”的大小竟然与指 标的单位有关。
2020/4/8
目录 上页 下页 返回 结束
20
§1.2 统计距离和马氏距离
例如,横轴 代表重量(以kg为单位),纵轴 代表长度(以cm为单位)。有四个点A、B、C、D见 图1.1,它们的坐标如图1.1所示
§1.1.4 随机向量的数字特征
2、随机向量 自协方差阵
称它为 维随机向量 的协方差阵,简称为 的协
方差阵。称
为 的广义方差,它是协差阵的行
列式之值。
2020/4/8
13
目录 上页 下页 返回 结束
§1.1.4 随机向量的数字特征
3、随机向量X 和Y 的协差阵

分别为 维和
维随机向量,它们之间的协方差阵定义为一个 矩
证明参见文献[4],p.33。
2、多元正态分布随机向量X的任何一个分量子集的分布(称为X的
边缘分布)仍然遵从正态分布。而反之,若一个随机向量的任何边缘分
布均为正态,并不能导出它是多元正态分布。
例如,设
有分布密度
容易验证, 正态分布。
2020/4/8
,但
显然不是
34
目录 上页 下页 返回 结束
§ 1.3.2 多元正态分布的性质
于1936年引入的距离,称为“马氏距离”。
2020/4/8
目录 上页 下页 返回 结束
23
§1.2 统计距离和马氏距离
下面先用一个一维的例子说明欧氏距离与马氏距离在概 率上的差异。
设有两个一维正态总体
G1
:
(1
,
2 1
)和G2
:
(2
,

§1-5 多元正态分布

§1-5 多元正态分布

, xm ) , ym ) y1 g1 ( x1, x1 h1 ( y1, y g ( x , x h ( y , , x ) ym ) m 1 m m 1 , m m
f Y1 ,,Ym ( y1, , ym ) ( x1, , xm ) f X 1 ,, X m ( h1 ( y1, , y m ), , hm ( y1, , y m )) ( y1, , ym )
二.多元正态分布的基本定理
回顾与拓展:随机向量变换的概率密度函数
, Xm) , Ym ) Y1 g1 ( X 1, X 1 h1 ( Y1, Y g ( X , X h ( Y , Xm) Ym ) m 1 , m 1 , m m
Y1 Y p1 Y 2
1 2
V11 V V 21
V12 V22
则Y1与Y2 独立的充分必要条件是 V12 0
三.多元正态分布的性质
思考题
设 ( X1, X2, …, Xn ) 是抽自总体 X ~ N( , ² )的 样本,试问 X = ( X1, X2, …, Xn ) ´服从什么分布?
正态分布 或 Gauss分布。记为 X∼ N(, ² )
( x )2 2 2
一.多元正态分布的定义 标准正态分布
设 X∼ N(, ² ),当 = 0, = 1 时, 称 X 服从标准正态分布,记为 X ∼ N(0,1 ) 标准正态分布的概率密度为
x2 2
( x)
§1-5
多元正态分布
一.多元正态分布的定义
二.多元正态分布的基本定理 三.多元正态分布的性质
一.多元正态分布的定义
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

16
§1.2 统计距离和马氏距离
欧氏距离 马氏距离
2016/1/14
目录 上页 下页 返回
结束
17
§1.2 统计距离和马氏距离 欧氏距离
在多指标统计分析中,距离的概念十分重要,样品间的不 少特征都可用距离去描述。大部分多元方法是建立在简单 的距离概念基础上的。即平时人们熟悉的欧氏距离,或称 d ( 0, p ) ( x x ) (1.14) 直线距离.如几何平面上的点 p=(x1,x2)到原点 O=(0,0)的 欧氏距离,依勾股定理有
图1-2
2016/1/14
目录 上页 下页 返回 结束
23
§1.2 统计距离和马氏距离
由图1-2可看出,从绝对长度来看,A点距左面总体G1近些, 即A点到 比A点到1 要“近一些”(这里用的是欧氏距离,比 较的是A点坐标与 到 值之差的绝对值),但从概率观点来 看,A点在 右侧约4 处,A点在 的左侧约3 处,若以标 准差的观点来衡量,A点离 2 比A点离 要“近一些”。显然, 后者是从概率角度上来考虑的,因而更为合理些,它是用坐标 差平方除以方差(或说乘以方差的倒数),从而化为无量纲数, 推广到多维就要乘以协方差阵∑的逆矩阵 ,这就是马氏 距离的概念,以后将会看到,这一距离在多元分析中起着十分 重要的作用。
2
2016/1/14
目录 上页 下页 返回
24
结束
§1.2 统计距离和马氏距离
马氏距离
设X、Y从均值向量为μ,协方差阵为∑的总体G中抽 取的两个样品,定义X、Y两点之间的马氏距离为
2 dm ( X, Y) ( X - Y)/ Σ 1 ( X - Y)
(1.21)
定义X 与总体G 的马氏距离为
-1 2 d2m ( X, G) ( X - μ/)/ Σ -1 ( X - μ ) dm ( X, G ) ( X - μ) Σ ( X - μ)
2 1 2 1/ 2 2
2016/1/14
目录 上页 下页 返回
结束
18
§1.2 统计距离和马氏距离
但就大部分统计问题而言,欧氏距离是不 能令人满意的。这里因为,每个坐标对欧氏距 离的贡献是同等的。当坐标轴表示测量值时, 它们往往带有大小不等的随机波动,在这种情 况下,合理的办法是对坐标加权,使得变化较 大的坐标比变化小的坐标有较小的权系数,这 就产生了各种距离。 欧氏距离还有一个缺点,这就是当各个分量 为不同性质的量时,“距离”的大小竟然与指 标的单位有关。
结束
3
§1.1多元分布的基本概念
§1.1.1 §1.1.2 §1.1.3 §1.1.4
随机向量 分布函数与密度函数 多元变量的独立性 随机向量的数字特征
目录 上页 下页 返回
结束
4
§1.1.1
随机向量
假定所讨论的是多个变量的总体,所研究的数据是同 时观测 个指标(即变量),又进行了 次观测得到的, 把这 个指标表示为 常用向量
(1.22) (1.22)
2016/1/14
25
目录 上页 下页 返回
结束
【例1.1】
已知一个二维正态总体G的分布为
求点 和 解:由假设可得
至均值
的距离
从而
2016/1/14
26
如果用欧氏距离,则有
两者相等,而按马氏距离两者差19倍之多。 我们知道本例的分布密度是
A和B两点的密度分别是
容易验证, 正态分布。
,但
显然不是
2016/1/14
33
目录 上页 下页 返回
结束
§ 1.3.2
多元正态分布的性质
3、多元正态向量 的任意线性变换仍然遵从多元正 态分布。即设 ,而m维随机向量 ,其中 是 m×p阶的常数矩阵,b是m维的常向量。则m维随机向量Z也是正态的, 且 。即Z遵从m元态分布,其均值向量为A μ +b A ,协差 b 阵为 。 4、若 ,则
§1.1.2
分布函数与密度函数
描述随机变量的最基本工具是分布函数,类似地 描述随机向量的最基本工具还是分布函数。 定义1.2 设 X=(x1,x2…xp)’是以随机向量,它的多元分 布函数是
X (x1, x2 ,, x p )
式中: 多元分布函数的有关性质此处从略。
2016/1/14
目录 上页 下页 返回
第一章 多元正态分布
§1.1 §1.2 §1.3 §1.4 §1.5 多元分布的基本概念 统计距离和马氏距离 多元正态分布 均值向量和协方差阵的估计 常用分布及抽样分布
目录 上页 下页 返回
结束
1
第一章 多元正态分布
一元正态分布在统计学的理论和实际应用中都有 着重要的地位。同样,在多变量统计学中,多元正态 分布也占有相当重要的位置。原因是: 许多随机向量确实遵从正态分布,或近似遵从正态分 布; 对于多元正态分布,已有一整套统计推断方法,并且 得到了许多完整的结果。 讨论:为什么现实中有那么多的 数据服从正态分布?
遵从
元正态分布,也称X为P元
|∑|为协差阵∑的行列式。
2016/1/14
目录 上页 下页 返回
31
结束
§ 1.3.1
定理1.1:设
多元正态分布的定义

定理1.1将正态分布的参数μ和∑赋于了明确的 统计意义。有关这个定理的证明可参见文献[3]。 多元正态分布不止定义1.5一种形式,更广泛 地可采用特征函数来定义,也可用一切线性组合 均为正态的性质来定义等,有关这些定义的方式 参见文献[3]。
p
存在,我们定义随机向量X的均值为:
(1 . 6 )
是一个p维向量,称为均值向量. 当 为常数矩阵时,由定义可立即推出如下性质:
2016/1/14
目录 上页 下页 返回
11
结束
§1.1.4
随机向量的数字特征
2、随机向量 自协方差阵
称它为 维随机向量 的协方差阵,简称为 的协 方差阵。称 为 的广义方差,它是协差阵的行 列式之值。
目录 上页 下页 返回
结束
2
第一章 多元正态分布
多元正态分布是最常用的一种多元概率 分布。除此之外,还有多元对数正态分布,多 项式分布,多元超几何分布,多元 分布、 多元 分布、多元指数分布等。本章从多维 变量及多元分布的基本概念开始,着重介绍多 元正态分布的定义及一些重要性质。
目录 上页 下页 返回
表示对同一个体观测的 个变量。若观测了 个个体,则可得到如下表1-1的数据,称每一个个 体的 个变量为一个样品,而全体 个样品形成一 个样本。
5
目录 上页 下页 返回 结束
§1.1.1
横看表1-1,记 它表示第
随机向量
, 列的元素
个样品的观测值。竖看表1-1,第
表示对
序号
1 2 n
第个变量
变量
x np
结束
8
Hale Waihona Puke §1.1.2定义1.3:设 非负的函数 ,使得
分布函数与密度函数
= ,若存在一个
对一切 密度 并称
成立,则称 (或 为连续型随机向量。
P
)有分布
一个p维变量的函数f(· )能作为 R 中某个随机向量 的分布密度,当且仅当
2016/1/14
目录 上页 下页 返回
9
结束
§1.1.3
多元变量的独立性
若为定值,随着 若 给定,则 为
2016/1/14
的变化其轨迹为一椭球面,是 到 的马氏距离。
2016/1/14
目录 上页 下页 返回
结束
22
§1.2 统计距离和马氏距离
下面先用一个一维的例子说明欧氏距离与马氏距离在概 率上的差异。 设有两个一维正态总体 G1 : ( 1 , 12 )和G2 : ( 2 , 22 。若有 ) 一个样品,其值在A处,A点距离哪个总体近些呢?由 图1-2
2016/1/14
目录 上页 下页 返回
结束
29
§1.3 多元正态分布
§1.3.1 §1.3.2 §1.3.3 多元正态分布的定义 多元正态分布的性质 条件分布和独立性
2016/1/14
目录 上页 下页 返回
结束
30
§ 1.3.1
多元正态分布的定义
定义1.5:若 元随机向量 的概率密度函数为:
则称 正态变量。记为
2016/1/14 32
目录 上页 下页 返回
结束
§1.3.2 多元正态分布的性质
1、如果正态随机向量 的协方差阵 ∑是对角阵,则X 的各分量是相互独立的随机变量。 证明参见文献[4],p.33。
2、多元正态分布随机向量X的任何一个分量子集的分布(称为X的 边缘分布)仍然遵从正态分布。而反之,若一个随机向量的任何边缘分 布均为正态,并不能导出它是多元正态分布。 例如,设 有分布密度
定义1.4:两个随机向量 X 和 Y 称为是相互独立的,若
成立。若 为 的联合分布函 数, 分别为 和 的分布函数,则 与 独立 当且仅当 F ( x , y ) G ( x ) H ( y ) (1.4) 若 有密度 的分布密度,则 和 ,用 独立当且仅当 分别表示 和 (1.5) 注意:在上述定义中, X 和 Y 的维数一般是不同的。
的n次观测数值。下面为表1-1
… … … …
2016/1/14
6
目录 上页 下页 返回
结束
§1.1.1
随机向量
因此,样本资料矩阵可用矩阵语言表示为:
若无特别说明,本书所称向量均指列向量
定义1.1 设 的向量
2016/1/14
目录 上页 下页 返回
为p个随机变量,由它们组成 称为随机向量。
7
结束
2016/1/14 19
相关文档
最新文档