第二章 多元正态分布及其抽样分布
多元统计分析:第二章 多元正态分布及

9
第二章 多元正态分布及参数的估计
§2.1 随机向量—
若Σ≥0(非负定),必有p×q矩阵A1使得
Σ=A1A1′
1 O 其中A1 1 (q p). O q 这里记Γ=(Γ1 | Γ2) , Γ1为p×q列正交阵(p ≥ q).
如例2.1.1,证明了X1,X2均为一元正态 分布,但由(X1,X2) 联合密度函数的形式易见 它不是二元正态.
24
第二章 多元正态分布及参数的估计
§2.2 多元正态分布性质2的推论
1 2 2 ( x1 x2 ) 2 1 2 2 ( x1 x2 ) 2
例2.1.1 (X1,X2)的联合密度函数为
12
第二章 多元正态分布及参数的估计
多元正态分布的性质1 在一元统计中,若X~N(μ,σ2),则X的特征函数为 §2.2
φ(t)=E(eitX)=exp[itμ-t 2σ2 /2]
(t ) E (e )
itX
1 2
e
( x )2 itx 2 2
e
dx
u ( x ) /
性质1的证明
根据随机向量特征函数的定义和性质,经计算即可 得出X的特征函数为 ΦX(t)= E(eitX)= E(eit (AU+μ) ) it AU 令t′A=s′=(s ,…s ) q 1
exp(it ) E(e ) i ( s1U1 s qU q ) exp( it ) E (e ) isqU q is1U1 exp( it ) E (e e )
是对称非负定阵. 即 =´ , ´ ≥0 (为任给的p维常量).
理论分布和抽样分布

所构成,其中事件A包含有m个基本事件,
则事件A的概率为m/n,即
P(A)=m/n
这样定义的概率称为古典概率。
13
2.1 概率的统计学意义
例如,在有两个孩子的家庭中,孩子性别
的组成有四种类型。即:男男、男女、女
男、女女。它们是四个基本事件,而且是
互不相容且等可能的,那么两个男孩的事
件A1为四个基本事件(n)中的一个(m) , A1的概率
27
第二章 理论分布和抽样分布
将Y的一切可能y1值 y2 , ,…,以及取得这些 值的概率p( y1) 、p( y2 ) …,排列起来, 就构成了 离散型随机变量的概率分布(probabiit distribution)。
表2-2 离散型随机变量的概率分布表。
Y
y1
y2
…
P(yi) p( y1 ) p( y2 )
本章在介绍概率论中最基本的两个概念——事件、概 率的基础上,重点介绍生物科学研究中常用的几种随 机变量的概率分布:间断性变数总体的理论分布:二 项分布、泊松分布;连续性变数总体的理论分布,即 正态分布; 从这两类理论分布中抽出的样本统计数的
分布,即抽样分布和t分布。
2
2.1 概率的统计学意义
一、事 件 1. 必然现象与随机现象 在自然界与生产实践和科学试验中,人们会观察到各种
这里的0.05或0.01称为小概率标准,生物 试验研究中通常使用这两个小概率标准。
21
2.3 理论分布
事件的概率表示了一次试验某一个结果发 生的可能性大小。若要全面了解试验,则 必须知道试验的全部可能结果及各种可能 结果发生的概率,即必须知道随机试验的 概率分布(probability distribution)。为 了深入研究随机试验 ,我们先引入随机变 量(random variable)的概念。
第二章多元正态分布及其抽样分布

若 rank (A) p( p q),则Σ1不存在,x Au 是退化 p元正态分布,不存在密度函数。
1 0
例:设随机向量 u ~ N 2 (0, I ) ,x Au ,A 0 1 ,则 x 的分布是
f (x1, x2 , , xp )
n
i1
1
2
exp(
1 2
xi2
)
(2 ) p
2 exp( 1 2
p i 1
xi2 )
ui i 1,2,, p
其中的
u (u1, u2 ,, u p )
均值为 E(u) (Eu1,Eu2, ,Eup ) 0
协方差矩阵为
u12 u1u2 u1u p
2
xi
其中 x ( x1, x2 ,, x p ) 的均值为E (x) (1, 2 ,, p )
协方差为
(x1 1)2
E (x2
2
)( x1
2)Leabharlann (x1 1)(x2 2 ) (x2 2 )2
(x1 1)(xp p )
(x2 2 )(xp p )
(xp
Σ1
Σ1 11 0
0
Σ1 22
Σ Σ11 Σ22
Σ1
Σ1 11
Σ
1 22
f
(
x1,
x2
,,
x
p
)
(2
)
p
2
1 2
exp[
1 2
(x
μ)Σ 1
(x
μ)]
(2 ) p 2 Σ11 1 2 Σ22 1 2
exp[
多元统计分析第二章 多元正态分布

第2章 多元正态分布多元正态分析是一元正态分布向多元的自然推广。
多元正态分布是多元分析的基础,多元分析的许多理论都是建立在多元正态总体基础上的。
虽然实际的数据不一定恰好是多元正态的,但是正态分布常常是真实的总体分布的一种有效的近似。
所以研究多元正态分布在理论上或实际上都有重大意义。
限于篇幅,本章仅简介多元正态简单理论,细节可参看王学民(2004),张尧庭(2002),余锦华(2005),Richard (2003),朱道元(1999)等。
现实世界的许多问题都可以纳入正态理论的范围内,正态分布可以作为许多统计量的近似的抽样分布。
2.1随机向量2.1.1随机向量定义2.1.1:称每个分量都是随机变量的向量为随机向量。
类似地,所有元素都是随机变量的矩阵称为随机矩阵。
设()1,,p X X X '= 是1p ⨯随机向量,其概率分布函数定义为:(){}111,,,,p p p F x x P X x X x =≤≤ ,1,,p x x 为任意实数多元分布函数()1,,p F x x 有如下性质: (1)()10,,1p F x x ≤≤ ;(2)()1,,p F x x 是每个变量,1,2,,i x i p = 的非降右连续函数; (3)(),,1F ∞∞= ;(4)()()()211,,,,,,,0p p F x x F x x F x -∞=-∞==-∞= 。
多元分布和一元分布一样也分为离散型和连续型。
连续型随机向量()1,,pX X X '= 的分布函数可以表示为 : ()()1111,,,,px x p p p F x x f t t dt dt -∞-∞=⎰⎰,()1,,pp x x R ∈ (2.1)称()1,,p f x x 是()1,,p X X X '= 的多元联合概率密度,简称多元概率密度或多元密度。
多元概率密度()1,,p f x x 有以下性质: (1)()1,,p f x x 非负; (2)()11,,1p p f x x dx dx ∞∞-∞-∞=⎰⎰ ;(3)()()111,,,,p p p nF x x f x x x x ∂=∂∂2.1.2边缘分布、条件分布和独立性 边缘分布设()1,,p X X X '= 是p 维连续型随机向量,由其q 个分量组成的向量()1X (不妨设()()11,,q X X X '= )的分布称为的边缘分布,其边缘概率密度为:()()()1111,,,,X q p q p f x x f x x dx dx ∞∞+-∞-∞=⎰⎰ (2.2)条件分布设()1,,p X X X '= 是p 维连续型随机向量,()()11,,q X X X '= ,()()()()2112,,,,,0q p X q p X X X f x x ++'=> ,在给定()2X 的条件下,()1X 的条件概率密度函数为:()()()()21111,,,,,,,,p q q p X q p f x x f x x x x f x x ++=(2.3)独立性设()1,,n X X 是连续型随机向量,则1,,n X X 相互独立当且仅当()()()111,,n n X X n f x x f x f x = 对任意1,,n x x 成立。
多元正态分布(新)

1 X12 n
X 22
X n2
X
2
X
X1 p X 2 p X np
X
p
样本离差阵
n
S pp ( X (i) X )( X (i) X ) i 1
X i1 X1
0
)
二元正态分布曲面(
11
2,
2 22
4, 12
0.75
)
为X1和X2的相关系数。
当 0 时X1与X2不相关,对于正态分布来说不相关和独立
等价。因为此时:
f (x1, x2)
2
1
11
22
exp{
( x1
1)2 (x2
2121
2 22
2
样本协方差矩阵
V 1S n
或
V 1 S n 1
样本离差阵用样本资料阵表示为:
S
X (In
1 n
1n1n
)
X
因为
n
S ( X (i) X )( X (i) X ) i 1
n
( X (i)
X
)(
X
(i
)
X
)
i 1
n
(X
(
i
)
X
(i
)
X (i) X
二、多元正态分布的性质
性质1:若 X (X1,X p) ~ Np(μ,,) 是对角矩阵,则 X1,X p 相互独立。
多元正态分布的检验精品PPT课件

139..2376
199.26 88.38
S d
88.38
418.61
T 2 11 9.36
13.27
0.0055 0.0012
00.0.0002162 139..2376 13.6
取 0.05,求得
n2 i 1
yi
s12
1 n1 1
n1 i 1
( xi
x)2,
s22
1 n2 1
n2 i 1
( yi
y)2
sw2
1 n1 n2 2
(n1 1)s12 (n2 1)s22
或检验统计量:
F
t2
1 n1
1 n2
1
xy sw
2
x
y
1 n1
1 n2
s2w
1
x
y
当F Fα(1,n1 n2 2)时,拒绝H 0
i
2
n
i
i
2
n
i 的T 2 联合置信区间为:
1
1
Xi
T
S2 ii n
i
Xi
T
S2 ii n
i 的Bonferroni 联合置信区间为:
1
1
Xi
t (n 1)
2p
S2 ii n
i
Xi
t (n 1)
2p
S2 ii n
§2.2 两个正态总体均值 的成组比较
一元情形的回顾
设 x1, x2 ,, xn1和 y1, y2 ,, yn2 分别取自于
F
(
p,
n1
n2
p
1).
均值差的T2置信区间
两个p维总体均值差 11 12,21 22,, p1 p2 的10(0 1)% T 2 联合置信区间为:
多元统计分析多元正态分布

因子分析可以用于数据的降维、分类和解释变量之间的复杂关系。
03
04
多元正态分布的聚类分析
K-means聚类
一种无监督的机器学习算法,通过迭代过程将数据划分为K个集群,使得每个数据点与其所在集群的中心点之间的平方距离之和最小。
总结词
K-means聚类是一种常见的聚类分析方法,其基本思想是:通过迭代过程将数据划分为K个集群,使得每个数据点与其所在集群的中心点之间的平方距离之和最小。具体步骤包括:随机选择K个中心点,将每个数据点分配给最近的中心点所在的集群,然后重新计算每个集群的中心点,并重复此过程直到中心点不再发生变化或达到预设的迭代次数。
定义与性质
性质
定义
均值向量
描述多元正态分布的期望值,表示分布的中心位置。
协方差矩阵
描述多元正态分布的各变量之间的方差和协方差,表示分布的散布程度和变量间的相关性。
维数
描述多元正态分布中随机变量的个数,不同维数的多元正态分布具有不同的形态和性质。
多元正态分布的参数
统计分析
多元正态分布在统计分析中广泛应用,如回归分析、因子分析、聚类分析等。
KNN分类
06
多元正态分布的可视化技术
总结词
主成分分析(PCA)是一种常用的多元统计分析方法,用于降维和数据可视化。
总结词
PCA可视化能够揭示数据中的模式和趋势,帮助我们理解数据的内在结构和关系。
详细描述
通过将数据投影到主成分上,我们可以将高维数据可视化为一组二维或三维图形,从而更直观地观察数据的分布、中心、离群值和聚类等特征。
逻辑回归分类
VS
支持向量机(SVM)是一种有监督学习算法,用于解决分类问题。在多元正态分布的背景下,支持向量机通过找到能够将不同类别的数据点最大化分隔的决策边界来实现分类。
多元统计分析多元正态分布

为X的方差或协方差矩阵
D(X) 或∑
X,Y的协方差矩阵
定义7
设X=( X1,…,Xp )´Y=( Y1,…,Yp )´称
Cov(X,Y)=E(X-E(X))(Y-E(Y))´
Cov(X1, Y1) Cov(X1, Y2) … Cov(X1, Yp)
= Cov(X2, Y1) Cov(X2, Y2) … Cov(X2, Yp)
合并距离最近的两类为一新类 计算新类与当前各类的距离。再合并、计算, 直至只有一类为止
画聚类图,解释
类与类之间的距离
1.最短距离法(single linkage) 2.最长距离法(complete linkage) 3.中间距离法(median method) 4.重心法(centroid method) 5.类平均法(average linkage) 6.可变类平均法(flexible-beta method) 7.可变法 8.离差平方和法(Ward's minimumvariance method)
(2)相似系数
研究样品间的关系常用距离,研究指标( 变量)间的关系常用相似系数。 相似系数常用的有:夹角余弦与相关系数
2、对指标(变量)分类(R型)
相似系数的定义
夹角余弦(Cosine)
相似矩阵
变量间相似矩阵
相关系数
ij
( x x )( x x )
1 i i j j n
Vij=
样本相关矩阵定义
R=(rij)p×p
rij =
3、 µ 和∑的估计及性质
最大似然法求出µ 和∑的估计量为
估计量的性质
1、 ,
,
是μ的无偏估计量
不是Σ的无偏估计量
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Σ Σ11 Σ22
f ( x1 , x2 , , x p ) ( 2 )
(2 )
p 2
p 2
1 Σ22
1 exp[ (x μ)Σ 1 (x μ)] 2
1 2
Σ11
1 2
Σ22
1 (x1 μ1 ) Σ 1 11 exp[ (x1 μ1 ) (x2 μ 2 ) ] 1 2 Σ22 (x2 μ 2 )
n
六、x ~ N p (μ, Σ) ,则(x - μ)Σ-1 (x - μ) ~ 2 ( p)分布。
y Σ (x μ) Var(y ) Var[ Σ (x μ)] Σ Var(x μ)Σ
1 2 1 2 1 2
1 2
Σ ΣΣ Ι
2 y是p维标准正态分布,故yy服从( p)分布。
服从p维正态分布,且均值向量为
E ( x ) ( Ex1 , Ex 2 , , Ex p ) ( 1 , 2 , , p )
x的协方差矩阵为
Var (x) E(x )(x )
E AuuA
AE uu A
AIA
AA Σx
系数,定义为
ij.k 1,, p
ij.k 1,, p ii.k 1,, p jj .k 1,, p
它度量了在值 xk 1 ,, xp给定的条件下,xi 与 x j ( i, j k )相关性的强弱。
例 设X~N6( ,),其协方差矩阵为,计算偏相 关系数。
7.033 2.168 3.540 4.981 2.874 30.530
为 x 2 给定的条件下 x1 数学期望。
1 Σ11.2 Σ11 Σ12Σ 22 Σ21是x 2的条件下x1的条件协条件协方差。
十二、偏相关系数
矩阵Σ11.2称为条件协方差矩阵,它的元素用 ij.k 1,, p 表示。是当 x2 给定的条件下,xi 与 x j( i, j k )的偏相关
证:
令
x1 x I 0 x2 z Σ 21Σ
1 11
x1 I x2
I
x1 1 Σ Σ I 0 var cov(x1,z) 21 11 x2
x1 I 0 var x2 Σ11 I 0 Σ 21
1 2
1 1 1 exp[ (x1 μ1 )Σ11 (x1 μ1 ) ( x 2 μ 2 )Σ 22 ( x 2 μ 2 )] 2 1 1 k / 2 2 ( 2 ) 11 exp[ (x1 μ)Σ 1 (x1 μ)] 2
Байду номын сангаас11
.( 2 )
1 0 1 0 1 1 0 1 Σ AA 0 1 0 1 1 0 1 1 1 1 1 1 2 1 0 1 1 1 0 1 Σ 0 1 1 2 11 0 1 2 1 1 1 1 2
i 1 n
N ( 0,1)
u (u1 , u 2 , , u p ) 密度函数为
1 1 exp( xi2 ) 2 2
(2 )
p 2
1 p 2 exp( xi ) 2 i 1
ui
i 1, 2, , p
其中的
u ( u1 , u 2 , , u p )
1 2
1 2
七、将 x, , 作如下的分块:
11 21 12 k 1 k 22 k p 2 p k
x1 k x x 2 p k
子 x1 , x2 向量相互独立,当且仅当 12 0。 证:必要性
Σ11 Σ Σ 21
Σ12 k Σ 22 k p
μ1 k μ μ 2 p k
x1 k x x 2 p k
则给定 x 2 时 x1 的条件分布为 N k ( 12 , 112 ) ,其中
1 μ12 μ1 Σ12Σ 22 (x 2 μ 2 ).
xi
其中 x ( x1 , x 2 , , x p ) 的均值为 E ( x ) ( 1 , 2 , , p ) 协方差为
( x1 1 ) 2 ( x1 1 )( x2 2 ) ( x1 1 )( x p p ) 2 ( x )( x ) ( x ) ( x )( x ) 2 2 1 2 2 2 2 2 p p E 2 ( x )( x ) ( x )( x ) ( x ) 1 1 p p 2 2 p p p
(2 )
p 2
Σ11
1 2
Σ22
1 2
(x1 μ1 ) 1 1 1 exp[ (x1 μ1 )Σ11 ( x 2 μ 2 )Σ 22 ] 2 (x 2 μ 2 )
(2 )
p 2
Σ11
1 2
Σ22
1, 2, , n 相互独立, 五、设 x1 , x 2 , , x n , x i ~ N p ( i , i ) i,
且,则对任意 n 个常数 k1 , , k n ,有
i 1
ki x i
n
~ N p ( i , k i2 i ).
i 1 i 1
n
p 元正态分布;
-1存在,x
Au 是非退化
若 rank ( A ) p ( p q ) ,则Σ 1不存在, x Au 是退化
p 元正态分布,不存在密度函数。
1 0 例:设随机向量 u ~ N 2 ( 0, I ) , A 0 1 ,则 x 的分布是 x Au , 退化的三元正态分布。 1 1
Σ
21
Σ
1 11
I
Σ12 1 Σ Σ 21 11 Σ 22
I
Σ11
1 Σ12 Σ11 Σ12 I
Σ12 Σ12 0
1 所以x1与x2 Σ21Σ11 x1相互独立。
十一、将 x, , 作如下的分块:
常数矩阵,b为 r 维的常数向量,则
y ~ N r ( C b , C C )
四、设 x ~ N p ( , ) ,则 x 的任何子向量也服从多元正态 分布,其均值为 的相应子向量,协方差为 的相应子矩 阵。
x1 k x x2 p k μ1 k μ μ2 p k Σ11 Σ Σ 21 Σ12 k Σ 22 p k
p 2
值得注意
设随机向量 u ~ N q (0, I ) , μ 是常数向量,A 是一 个 p * q 的常数矩阵,则 x Au 服从正态分布,记 为 x ~ N p ( , ) ,其中 A A ( p * p ) 若 rank ( A ) p ( p q ),则Σ
1 1 I 1
二、一般的正态分布
设随机向量 x ( x1 , x 2 , , x p ) ,若其的密度函数为
f ( x1, x2 ,, x p )
(2 )
p 2
Σ
1 2
1 exp[ (x - μ)Σ -1 (x - μ)] 2
其密度函数为
J (u x ) A
1
AA
1 2
f ( x1 , x2 , , x p )
1 1 1 (2 ) exp[ ( x μ) A A ( x μ)] | J | 2 1 1 2 p 2 (2 ) Σ exp[ ( x μ )Σ 1 ( x μ )] 2
第二章 多元正态分布及其抽样分布
内
第一节 第二节 第三节 第四节
容
多元正态分布的定义 多元正态的性质 多元正态参数的极大似然估计 多元正态的样本分布
第一节
多元正态分布的定义
一、标准多元正态分布
设随机向量
u ( u1 , u 2 , , u p )
其分量独立同分布于 则
f ( x1 , x2 , , x p )
称 x ( x1 , x 2 , , x p ) 服从均值为E(X),协方差为的正态分布。
三、一般的p维正态和p维标准正态的关系 设 x Au ,其中 A 是一个 p 阶非退化 矩阵, u (u1 , u 2 , , u p ) 服从 p 维标准正态分布,则
x Au
均值为 E(u) (Eu1 ,Eu 2 , ,Eu p ) 0
协方差矩阵为
u12 u1u 2 u1u p 2 u u u u u 2 1 2 2 p Var (u) E(uu) E 2 u u u u u p 2 p p 1
又
x1和 x2相互独立
Σ12 E[(x1 μ1 )( x2 μ 2 )] Σ12 E(x1 μ1 )E( x 2 μ 2 )] Σ12 0
充分性
Σ12 0
1 Σ 11 1 Σ 0
0 1 Σ 22
1 Σ 11 1 Σ
第二节
多元正态分布的性质
一、多元正态分布的特征函数
1 (t ) exp(it t t ) 2
二、x是一个服从p维正态分布,当且仅当它的任何
线性函数 ax 服从一元正态分布N p (μ , Σ )。
三、 X服从 p 维正态分布,则 y Cx b ,其中C为 r p