13讲协方差,相关系数,矩,正态分布
§4.3协方差和相关系数

故 Cov( X ,Y ) = 0
D( X )D(Y )
但由=0并不一定能推出X和Y 独立. 请看下例.
例3. 设X服从(-1/2, 1/2)内的均匀分布,而Y=cos (X),求X, Y的相关系数.
解:不难求得 Cov(X,Y)=0.
( 因E(X ) 0, E( XY )
DE((XXY) ) DE(Y[X)E(2YC)]ov(EX[Y,EY()X )] E(X )E(Y)
对任意常数E(aX,Yb )有 E(X )E(Y )
Cov(aX ,bY) E[(aX E(aX ))(bY E(bY))] abE[(X E(X ))(Y E(Y ))] abCov(X ,Y )
E[( X E(X ))k (Y E(Y ))l ] (k,l 1, 2,)
为 k l 阶混合中心矩.
E(X ) D(X ) Cov(X ,Y )
1 阶原点矩 2 阶中心矩 2 阶混合中心矩
对于二维r.v ( X1,,X记2 )
c11 E[( X1 E( X1 ))2 ] D( X1)
0 , | y | 1
f (x, y) fX (x) fY ( y) ( | x | 1, | y | 1)
X ,Y 不独立 又因为
fX (x), 均fY (为y)偶函数
E(
X
)
xf
X
(x)dx
0
E(Y
)
yfY
(
y)dy
0
E(
XY
)
xyf
(x,
y)dxdy
1
xydxdy 0
x2 y2 1
E{[X E(X )][aX b E(aX b)]}
概率统计:数学期望、方差、协方差、相关系数、矩

概率统计:数学期望、方差、协方差、相关系数、矩摘要:最近在学习机器学习/数据挖掘的算法,在看一些paper的时候经常会遇到以前学过的数学公式或者名词,又是总是想不起来,所以在此记录下自己的数学复习过程,方便后面查阅。
1:数学期望数学期望是随机变量的重要特征之一,随机变量X的数学期望记为E(X),E(X)是X的算术平均的近似值,数学期望表示了X的平均值大小。
∙当X为离散型随机变量时,并且其分布律为P(X=x k) =pk ,其中k=1,2,…,n;则数学期望(要求绝对收敛).∙当X为连续型随机变量时,设其概率密度为f(x),则数学期望为(要求绝对收敛).2: 方差数学期望给出了随机变量的平均大小,现实生活中我们还经常关心随机变量的取值在均值周围的散布程度,而方差就是这样的一个数字特征。
设X是随机变量,并且E{[X-E(X)2]}存在,则称它为X的方差,记为D(X)。
∙当X为离散型时,D(x) = .∙当X为连续型时,D(x) = .方差的算术平方根为X的标准差。
另外,D(X) = E{[X-E(X)2]} 经过化解可得D(X) = E(X2) – [E(X)]2 .我们一般计算的时候常用这个式子。
3:协方差对于二维的随机变量(X,Y),我们还要讨论它们的相互关系,协方差就是一个这样的数字特征。
因为E{[X-E(X)][Y-E[Y]]} = E(XY) – E(X)E(Y).又当X,Y相互独立的时候E(XY) = E(X)E(Y).这意味着若E{[X-E(X)][Y-E[Y]]} ≠ 0 ,则X与Y是存在一定关系的。
我们把E{[X-E(X)][Y-E[Y]]} 称为随机变量X与Y的协方差。
记为Cov(X,Y).即:Cov(X,Y) = E{[X-E(X)][Y-E[Y]]}4:相关系数协方差在某种意义上是表示了两个随机变量间的关系,但是Cov(X,Y)的取值大小与X,Y的量纲有关,不方便分析,所以为了避免这一点,我们用X,Y的标准化随机变量来讨论。
4.3 协方差与相关系数及矩与协方差矩阵

由f ( x , y ) f X ( x ) fY ( y )可得X与Y不独立.
注意 1、设有随机变量X,Y,下列事实是等价的:
(1) cov( X ,Y ) 0
( 2) X与Y不相关
( 3) E ( XY ) E ( X ) E (Y ) (4) D( X Y ) D( X ) D(Y )
性质6 若X ,Y相互独立, 则cov( X ,Y ) 0;
性质7 若U ,V为随机变量, 且E (U 2 ), E (V 2 )都存在, 则
[ E (UV )]2 E (U 2 ) E (V 2 );
取U X E ( X ),V Y E (Y ), 则有 [cov( X ,Y )]2 D( X ) D(Y ).
定义3 若 cov( X ,Y ) 0或 XY 0,
则称随机变量X与Y不相关.
几点说明:
(1) cov( X ,Y ) E ( XY ) E ( X ) E (Y ), cov( X , X ) D( X ).
( 2)离散型 : cov( X ,Y ) [ xi E ( X )][ y j E (Y )] pij .
定义2
设( X ,Y )是二维随机变量 若 cov( X ,Y ), D( X ), D(Y )都 , cov( X ,Y ) 存在, 且D( X ) 0, D(Y ) 0, 则称 为随 D( X ) D(Y ) 机变量X与Y的相关系数或标准协方 , 记为 XY ,即 差
XY
cov( X ,Y ) . D( X ) D(Y )
ex3.设随机变量X的概率分布密度为 1 x f ( x) e x , 2 (1)求X的数学期望E(X)和方差D(X). (2)求cov(X,|X|),并问X与|X|是否不相关? (3)问X与|X|是否相互独立?为什么? 1 x 解 (1) EX xf ( x )dx x e dx 0, 2 DX E[ X E ( X )]2 E ( X 2 )
第十三讲协方差与相关系数

• 图中的点群向右上方倾斜,点的y坐标随 坐标的 图中的点群向右上方倾斜,点的 坐标随 坐标随x坐标的 增加而增加。 是云团的中心。 增加而增加。(E(X),E(Y)), 是云团的中心。D(X)与 与 D(Y)只描述了 和Y各自的离散程度,缺少一个能 只描述了X和 各自的离散程度 各自的离散程度, 只描述了 够刻划云团XY线性关系的量 线性关系的量。 够刻划云团 线性关系的量。
•
−1 (x −µ1)2 (x −µ1)(y −µ2) (y −µ2)2 解:f (x, y) = exp −2ρ + 2 2 2 2 2(1− ρ ) σ1 σ1σ2 σ2 2πσσ2 1− ρ 1 1
2 1
• X服从 N ( µ1 , σ ) Y服从 N(µ2,σ ) • E(X)= µ1 , D(X)= σ 12 , E(Y)= µ 2 , D(Y)= σ
• 协方差矩阵的意义:在多元正态分布中, 协方差矩阵的意义:在多元正态分布中, 只要知道所有的一阶矩 协方差矩阵, 一阶矩和 只要知道所有的一阶矩和协方差矩阵,分 布就确定了。 布就确定了。
X1 X2 记X = ⋮ X n
µ1 E ( X 1 ) µ2 E(X 2 ) µ = = ⋮ ⋮ µ E(X ) n n
服从以2为参数的泊松分 设X~ π ( 2) , 即X服从以 为参数的泊松分 ~ 服从以 布,Z=3X-2 , 求COV(X,Z) 。 • 解:COV(X,Z)=COV(X,3X-2) • =3COV(X,X)-2COV(X,1) • COV(X,X)=E{[X-E(X)][X-E(X)]}=D(X)=2 (Poisson分布 分布) 分布 • Cov(X,1)=E{[X-E(X)][1-E(1)]} • =E{[X-E(X)].0}=0 • Cov(X,Z)=3×2-2×0=6 × ×
概率论--方差、协方差和相关系数

2021/5/23
26
一般地, ||1
若 | | 1 ,称 与 完 全 线 性 相 关 。 若 0 ,称 与 不 相 关 。 若 0 | | 1 ,表 明 与 近 似 有 线 性 关 系 。 0 时 ,称 与 正 相 关 , 0 时 ,称 与 负 相 关 。 当 与 独 立 时 , 由 于 - E 与 - E 独 立 。
平均抗拉强度都是126
若最低抗拉强度要求为110,
第二批质量较差。
在平均值或期望值相同的情况下,
随机变量的离散程度也是分布的一个特征。
一 般 考 虑 随 机 变 量 对 E 的 偏 离 程 度 。
2021/5/23
4
由此可见,研究随机变量与其均值的偏离程度是十 分必要的.那么,用怎样的量去度量这个偏离程度呢?
求D() 解 法 一 : 1 0 1
P 0.180.540.28
E ( ) ( 1 ) 0 . 1 8 0 0 . 5 4 1 0 . 2 8 0 . 1 E ( ) 2 ( 1 ) 2 0 . 1 8 0 2 0 . 5 4 1 2 0 . 2 8 0 . 4 6
2021/5/23
28
部分资料从网络收集整 理而来,供大家参考,
感谢您的关注!
2 8.5 8.8 9 9.2 9.5 P 0.2 0.2 0.2 0.2 0.2 两者的平均长度是相同的,均为9 第二批零件更好。 因为它的误差相对较小。
2021/5/23
2
例2,某零件的真实长度为a,现用甲、
乙两台仪器各测量10次,将测量结果X用坐
标上的点表示如图:
• • • •• a•• • • •
协方差和相关系数
2021/5/23
4.3协方差和相关系数

XY ,即
XY
Co(vX,Y) D(X) D(Y)
注 :1 .X和 YC(X o,Y v )有相,同 表的 示符 同
2.相关系数就是标准化的随机变量
XE(X)与YE(Y)的协方差
D(X)
D(Y)
相关系数的性质: |XY|≤1
当且仅当X与Y之间有线性关系时, 等号成立
即 | XY |=1a,b,使P{Y=aX+b}=1 说明: XY刻划X,Y之间的线性相关程度
|XY|1,则X,Y越接近线性关系 |XY|=1,则X,Y存在线性关系 当XY=0时,称X与Y不相关,则X,Y没
有线性关系
注: 不相关与相互独立:
X与Y独立Cov(X,Y)=0
XY=0
X与Y不相关 但反之不成立
若(X,Y)~正态分布,则X与Y不相关
等价于X,Y相互独立 XY=
例1 设(X,Y)的概率密度为
4.3 协方差和相关系数
一、协方差 二、相关系数
一、协方差
定义: 称E{[XE(X)][YE(Y)]}为X与Y 的
协方差,记为Cov(X,Y) ,即 Cov(X,Y)=E{[XE(X)][YE(Y)]}
协方差可了解两个变量之间之间 的关系(变化趋势在平均意义上而言):
若X取值比较大(X>E(X)),Y也较大 (Y>E(Y)) ,这时Cov(X,Y)>0
Cov(X,Y)
[x i E (X )] yj [E (Y )p ]ij ij 连续型随机变量的协方差:
Cov(X,Y)
[xE (X )]y [E (Y )f](x ,y)dx
协方差的性质: 1. Cov(X,X)=D(X); Cov(Y,Y)=D(Y) 2. Cov(X,Y)=Cov(Y,X) 3. Cov(a1X+b1,a2Y+b2)=a1a2Cov(X,Y)
第13讲 协方差及相关系数 矩及协方差矩阵

因此
2 2 3 2 Eη E(ξ 2, 因ξ 而 i ξ ) 3 i ξ ~ N(0, ), 3 3 i1
2
1 1 cov(ξ ξ ) E[(ξ 0, i ξ , i ξ ) ξ ] E(ξ i ξ ) E ξ 3 3 即ξ 而它们都是正态分布, i ξ 与 ξ 互不相关,
则
ρ XY
Cov(X,Y) D(X) D(Y)
称为随机变量X与Y的相关系数. XY是一个无量纲的量.
现证明||1
令X'=X-EX,Y'=Y-EY, 则X',Y'都是期望值为0的随机变量. 对于任给的实数t, 相信E(X'+tY')20, 即 EX'2+2tE(X'Y')+t2EY'20, 即是说关于t的一元二次方程 EX'2+2tE(X'Y')+t2EY'2=0最多只有单个实根或者没有实根, 也就说明判别式 b2-4ac0
四、矩
定义 设X和Y是随机变量, 若 E(Xk), k=1,2,... 存在, 称它为X的k阶原点矩, 简称k阶矩. 若 若 E{[X-E(X)]k}, k=1,2,... E(XkYl), k,l=1,2,...
存在, 称它为X的k阶中心矩.
存在, 称它为X和Y的k+l阶混合矩.
若
E{[X-E(X)]k[Y-E(Y)]l}, k,l=1,2,...
定理
两个随机变量X和Y呈线性关系的充分必要条件,
是它们的相关系数的绝对值为1, 即 ||=1
而另一方面, 如果X与Y相互独立, 则它们的相关系数必为0,
4.3(协方差及相关系数、矩)

所以
XY
Cov( X , Y ) 19 / 400 133 0.87 D( X ) D(Y ) 153/ 2800 153
4.3.2
相关系数
下面不加证明地给出相关系数的两条性质:
x
x
x2
3 xdydx 9 / 20, E(Y ) E( X )
2
1
0
x
x2 x
3 ydydx 9 / 20, 3 x 2dydx 9 / 35,
x2 x
3 xydydx 1 / 4,
1
0
x2
x2
3 y 2dydx 9 / 35,
D( X ) E( X 2 ) [ E( X )]2 9 / 35 (9 / 20)2 153/ 2800 ,
功能:返回多个区域array1,array2,array3, ... 对
应数值乘积之和.
(2) 函数MMULT的使用格式: MMULT(array1,array2) 功能:返回两数组的矩阵乘积.结果矩阵的行数 与array1的行数相同,列数与array2的列数相同.
实验步骤:
(1) 整理数据如图4-5所示.
(5) 计算协方差Cov(X,Y)
在单元格B14中输入公式:=B10-B11*B12
(6) 计算相关系数XY
在单元格B15中输入公式:=B14/SQRT(D11*D12)
即得结果如图4-8所示.
图4-8 计算结果
第四章 随机变量的数字特征
【分赌本问题解答】
1654年法国有个职业赌徒 De Meré 向数学家 Pascal提出了一个使他苦恼了很久的问题:甲乙两 人各出赌注50法郎赌博,约定谁先赢3局,就赢得 全部的100法郎,假定两人赌技相当,且每局无平 局.如果当甲赢了两局,乙赢了一局时,因故要 中止赌局,问如何分100法郎的赌注才算公平? 这个问题在当时引起了许多人的兴趣,显然平 均分对甲不公平,全部归甲对乙又不公平.合理的 分法当然是按照一定的比例,甲多分些,乙少分些, 那么如何确定分配比例呢?
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
§4.4 n元正态分布的几条重要性质: 元正态分布的几条重要性质: (1). X =(X1, X2, …, Xn) ' 服从 n 元正态分布
对一切不全为 0 的实数 a1, a2, …, an, a1X1+ a2 X2+ …+ an Xn 服从正态分布。 服从正态分布。
(2). 若 X=(X1,X2, …,Xn)'服从 元正态分布, 服从n 服从 元正态分布, Y1,Y2,…,Yk 是 Xj (j=1, 2,…, n)的线性组合 的线性组合, … … 的线性组合 服从k 则(Y1,Y2, …, Yk)'服从 元正态分布。 服从 元正态分布。 这一性质称为正态变量的线性变换不变性。 这一性质称为正态变量的线性变换不变性。
i=1 i=1
n
n
协方差的大小在一定程度上反映了X 协方差的大小在一定程度上反映了 和Y 相互间的关系,但它还受X 相互间的关系,但它还受 和Y 本身度量单位 的影响。 例如: 的影响。 例如: Cov(aX, bY) = ab Cov(X, Y). 为了克服这一缺点, 为了克服这一缺点,对协方差进行标准 化,这就引入了相关系数 。
x2 +y2 ≤ 1 − 1 1
1−y xdx dy =π ∫−1 y ∫− 1−y
2 2
= ∫−10 dy = 0.
1
所以,Cov(X, Y)= E(XY)-E(X) E(Y) = 0 . 所以, 此外, 此外,Var(X) > 0, Var(Y) > 0 . 不相关。 所以, , 所以,ρXY = 0,即 X 与 Y 不相关。 但是, 与 不独立 不独立。 但是,X与Y不独立。
Cov( X,Y) ρ= = 0; Var( X )Var(Y)
并不一定能推出X和 独立。 但ρ=0 并不一定能推出 和 Y 独立。 反例: 反例:
例 1:设 (X,Y) 服从单位 D={ (x, y): x2+y2≤1} : 上的均匀分布,证明: 。 上的均匀分布,证明: ρXY = 0。 证明: 证明
4.3.2 相关系数 定义2: 设Var(X) > 0, Var(Y) > 0, 则称 定义
Cov(X, Y) Var(X ) Var(Y)
ρXY =
为随机变量X 为随机变量 和Y 的相关系数 。 在不致引起混淆时, 在不致引起混淆时,记 ρXY 为 ρ 。
相关系数性质
(1). | ρ |≤1;
概率论与数理统计 第十三讲
主讲教师: 主讲教师:张冬梅副教授 浙江工业大学理学院
§4.3 协差与相关系数
对于二维随机向量(X,Y), 除了其分量X 对于二维随机向量 , 除了其分量 的期望与方差之外, 还有一些数字特征, 和Y 的期望与方差之外 还有一些数字特征 用以刻画X与 之间的相关程度 之间的相关程度, 用以刻画 与Y之间的相关程度,其中最主要 的就是协方差和相关系数。 的就是协方差和相关系数。 4.3.1 协方差 定义1: 存在, 定义 :若 E{[ X-E(X)][Y-E(Y)]} 存在, 则称其为X 的协方差,记为Cov(X,Y), 即 则称其为 与Y 的协方差,记为 Cov(X, Y) = E{[ X-E(X)][Y-E(Y) ]}. (1)
证:由方差与协方差关系,对任意实数 有 由方差与协方差关系,对任意实数b, 0≤Var(Y-bX)=b2Var(X)-2b Cov(X,Y ) +Var(Y ), 利用韦达定理得到 1-ρ 2≥ 0, 所以 | ρ |≤1。 。
(2). X 和Y 独立时 ρ=0,但其逆不真; 独立时, ,但其逆不真; 独立时, 由于当 X 和 Y 独立时,Cov(X, Y)= 0 . 所以, 所以,
协方差性质 (1). Cov(X, Y) = Cov(Y, X); ; (2). 设 a, b, c, d 是常数,则 是常数, Cov( aX+b, cY+d ) = ac Cov(X, Y) ; (3). Cov(X1+X2, Y)= Cov(X1, Y) + Cov(X2, Y) ; (4). Cov(X, Y) =E(XY)-[E(X)][E(Y)] , 相互独立时, 当 X 和 Y 相互独立时,Cov(X, Y)=0; ; (5). Var(X+Y)=Var(X)+Var(Y)+2Cov(X, Y) .
(3). 设(X1,X2, …,Xn)服从 元正态分布,则 服从n元正态分布 服从 元正态分布, “X1, X2, …, Xn 相互独立” 等价于 相互独立” “X1,X2, …,Xn两两不相关”。 两两不相关”
设随机变量X和 相互独立 相互独立, 例2: 设随机变量 和Y相互独立,且X~N(1, 2), Y~N(0, 1)。求 Z = 2X-Y+3 的概率密度。 的概率密度。 。 相互独立, 解: 由X~N(1,2), Y~N(0,1),且X与Y相互独立 , 与 相互独立 服从正态分布, 知 Z=2X-Y+3 服从正态分布,且 E(Z) = 2E(X)-E(Y)+3 = 2-0+3=5 , Var(Z) = 4Var(X)+Var(Y) = 8+1 = 9, 故,Z~N(5, 32) .
§4.3 矩与协方差矩阵
4.3.1 矩 定义1: 是随机变量, 定义 :设X是随机变量 若E(Xk) 存在 是随机变量 (k =1, 2, …), 则称其为 的 k 阶原点矩;若 则称其为X 阶原点矩; E{[X-E(X)]k} 存在 = 1,2, …), 则称其为 存在(k 则称其为X 阶中心矩。 的 k 阶中心矩。 易知: 易知:X 的期望 E(X) 是 X 的一阶原点 方差Var(X) 是 X 的二阶中心矩。 的二阶中心矩。 矩,方差
Z 的概率密度为
1 fZ (z) = e 3 2π
( z−5)2 − 18
, − ∞ < z < ∞.
小结
协方差及相关系数的概念、性质和计算; 协方差及相关系数的概念、性质和计算; 随机变量矩(k 阶原点矩、 阶中心矩); 随机变量矩 阶原点矩、 k 阶中心矩 ; n 元正态分布的概念和三条重要性质。 元正态分布的概念和三条重要性质。
性质(5)可推广到 个随机变量的情形 性质 可推广到n个随机变量的情形: 可推广到 个随机变量的情形:
Var(∑Xi ) = ∑Var(Xi ) + 2∑∑ (Xi , X j ) . Cov
i=1 i=1 i< j
n
n
两两独立, 若 X1, X2, …, Xn 两两独立,则
Var(∑Xi ) = ∑Var(Xi ) .
(3). |ρ|=1
存在常数a, 存在常数 b(b≠0), ,
以概率1 使 P{ Y = a+bX } = 1 ,即 X和 Y以概率 和 以概率 线性相关。 线性相关。
前面, 我们已经看到: 前面 我们已经看到: 独立, 不相关;但由X 若X 与Y 独立,则X 与Y 不相关;但由 不相关,不一定能推出X与 独立 独立。 与Y 不相关,不一定能推出 与Y独立。 但对下述情形,独立与不相关是一回事: 但对下述情形,独立与不相关是一回事: 服从二维正态分布, 若(X, Y )服从二维正态分布,则X 与Y 独 服从二维正态分布 立的充分必要条件是X与 不相关 不相关。 立的充分必要条件是 与Y不相关。
1/π, (x, y) ∈D, f (x, y) = . 0, (x, y)∉D
E( X ) = =π
x2 + y2 ≤ 1 1 − 1
∫∫ x/π dxdy
∫−1 ∫−
1−y2 1−y2
x dx dy
= ∫ 10dy = 0, −
1
同样, E(Y)=0, 同样,得 E( )=0, E(XY) = ∫∫ (xy/π) dxdy