4-4协方差和相关系数
协方差cov与相关系数公式

协方差cov与相关系数公式协方差(covariance)和相关系数(correlation coefficient)是统计中常用于描述两个随机变量之间关系的概念。
协方差度量了两个变量的变动趋势是否一致,而相关系数则更进一步地衡量了两个变量的线性相关程度。
1.协方差:协方差是用来衡量两个随机变量的变动程度是否相似。
假设有两个随机变量X和Y,其协方差定义为:cov(X,Y) = E[(X - E[X])(Y - E[Y])],其中E[]表示期望值。
协方差的正负号表示了X和Y之间的线性关系的方向,具体解释如下:-当协方差为正时,表示X和Y的变动趋势是一致的,即X增加时Y也增加,或者X减少时Y也减少。
-当协方差为负时,表示X和Y的变动趋势是相反的,即X增加时Y减少,或者X减少时Y增加。
-当协方差接近于0时,表示X和Y之间没有线性关系,即X和Y之间的变动趋势是独立的。
2.相关系数:相关系数是衡量两个随机变量之间线性关系强弱的度量。
相关系数的取值范围是[-1,1],其定义为:ρ(X,Y) = cov(X,Y) / (σ(X)σ(Y)),其中σ(表示标准差。
相关系数衡量了两个变量之间的线性关系程度,具体解释如下:-当相关系数接近于1时,表示X和Y之间存在强正向线性关系,即X增加时Y也增加,或者X减少时Y也减少。
-当相关系数接近于-1时,表示X和Y之间存在强负向线性关系,即X增加时Y减少,或者X减少时Y增加。
-当相关系数接近于0时,表示X和Y之间没有线性关系,即X和Y 之间的变动趋势是独立的。
相关系数的计算可以通过协方差和标准差来获得。
相关系数是对协方差进行标准化的产物,因此可以消除量纲对结果的影响。
3.协方差和相关系数的关系:相关系数是协方差的一种标准化形式,通过除以两个变量的标准差来消除量纲。
相关系数一定在[-1,1]的范围内取值,而协方差的范围很大,因此相关系数更容易从其值直观地判断两个变量之间的关系。
协方差和相关系数之间的关系可以使用下面的公式表示:ρ(X,Y) = cov(X,Y) / (σ(X)σ(Y)) = cov(X,Y) /(sqrt(var(X))sqrt(var(Y))),其中var(表示方差。
概率论教学课件第四章4.4协方差与相关系数

一、协方差
对于二维随机变量(X,Y),讨论描述X与Y之间相互 依赖关系的数字特征.
X与Y相互独立 E[(X EX )(Y EY )] 0
或者:E[(X EX )(Y EY )] 0 X与Y一定不相互独立
定义1. 若E[(X EX )(Y EY )]存在, 则称E[(X EX )(Y EY )]为X与Y的协方差.
(连续型).
-
3
或者用以下公式计算
Cov(X , Y ) E(XY ) EX EY
Cov (X , Y ) E[(X EX )(Y EY )]
E(XY XEY YEX EXEY ) E(XY ) EX EY EX EY EX EY E(XY ) EX EY
4
定义2* 设 DX 0 , DY 0,称X,Y的标准化随机变量
X , Y 的协方差 Cov ( X , Y ) 为X与Y的相关系数.
记 为 XY , 即
XY Cov( X , Y ) E( X Y ) EX EY E( X Y )
E[( X EX )(Y EY )] Cov( X ,Y ) .
其逆命题不真!
注:若Cov X,Y 0,即E XY EXEY,则X与Y不相互独立.
4. D(X Y ) DX DY 2Cov(X , Y ).
5
例4.14 设二维随机变量(X,Y )的联合分布列为
XY 0 1 pi 0 0.2 0.3 0.5 1 0.5 0 0.5
p j 0.7 0.3
1 R
2
R
dx
R
R2 x2
xydy
R2 x2
0,
Cov(X , Y ) E(XY ) EXEY 0 00 0 .
8
Cov(X , Y ) E(XY ) EXEY 0 .
协方差与相关系数

• 任意两个随机变量X与Y的和的方差为 D(X+Y)=D(X)+D(Y)+2Cov(X,Y)
协方差的性质
1. C ov(X,X)D (X)
2. C o v(X ,Y ) C o v(Y ,X ) 3. C o v (a X ,b Y ) a b C o v ( Y ,X )a,b是常数
• 性质3:若X与Y相互独立,则ρXY=0.
• 性质1:随机变量X和Y的相关系数满足|ρXY|≤1.
证明 则
令 XXE(X) YYE(Y)
D (X)
D (Y)
X 2 Y(E{X [E D((X X))D ]Y([Y )E(Y)]} 2 )
(E {X [E (X )]Y [E (Y )]} 2 [ )E (X * Y *2 )] D (X ) D (Y )
XY
Co(vX,Y) 0 D(X) D(Y)
§2.2 相关系数的含义
• 考虑以X的线性函数a+bX来近似表示Y.以均方误差
e=E{[Y-(a+bX)]2}
=E(Y2)+b2E(X2)+a2-2bE(XY)+2abE(X)-2aE(Y)
来衡量以a+bX近似表达Y的好坏程度.e的值越小表示
a+bX与Y的近似程度越好.为此令
=E{[a(X-E(X))][b(Y-E(Y))]} =abE{[X-E(X)][Y-E(Y)]} =abCov(X,Y)
• 定理:Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z) 证明 Cov(X+Y,Z)
=E{[(X+Y)-E(X+Y)][Z-E(Z)] = E{[(X-E(X))+(Y-E(Y))][Z-E(Z)]} = E{[X-E(X)][Z-E(Z)]
协方差公式 相关系数

协方差公式相关系数
协方差(covariance)定义为:
cov(x,x)=var(x)协方差是对x与y之间联动关系的一种测度,即测量x与y的同步性。
当x与y同时出现较大值或者较小值时,cov>0,二者正相关。
若x出现较大值时y出现较小值,cov<0,二者负相关。
该相关关系并不意味着因果关系
计算方式:
e为期望算子,\mu 为总体平均值。
从该式中我们可以发现,cov的大小与x、y的大小有关。
为
了无量纲化,要对其进行标准化。
就有了相关系数的概念。
相关系数定义为:
就是协方差除了xy各自的标准差,这样才能刻画xy之间联动性的强弱。
这里需要注意的是,相关系数应该叫线性相关系数,它只能反映线性关系。
为何只能是线性关系的测度?
证明:
给出一个线性函数,y=a+bx (b \ne0 ,x的方差存在)
则,
所以,当x与y完全线性的时候,总有相关系数为1或者为-1.
扩展到一般线性模型:y=a+bx+ \varepsilon
其中, \varepsilon满足e(\varepsilon)=0,var (\varepsilon)=\sigma^{2}
同理可证,
这里,相关系数与1之间的偏离程度就受
\sigma_{\varepsilon}^{2}/\sigma_{x}^{2} 的影响。
所以它衡量的只是线性关系,绝对值不会超过1。
协方差及相关系数及其性质

3. 说明
(1) X 和 Y 的相关系数又称为标准协方差, 它是一个 无量纲的量. (2) 若随机变量 X 和 Y 相互独立 Cov(X ,Y ) E{[X E( X )][Y E(Y )]}
E[X E( X )]E[Y E(Y )] 0. (3) 若随机变量 X 和 Y 相互独立
协方差及相关系数及其性质
一、协方差与相关系数的概念及性质 二、相关系数的意义
一、协方差与相关系数的概念及性质
1. 问题的提出
若随机变量 X 和 Y 相互独立,那么 D( X Y ) D( X ) D(Y ).
若随机变量 X 和 Y 不相互独立 D( X Y ) ?
D( X Y ) E( X Y )2 [E( X Y )]2 D( X ) D(Y ) 2E{[X E( X )][Y E(Y )]}. 协方差
例1
设
( X ,Y
)
~
N
(
μ1
,
μ2
,
σ12
,
σ
2 2
,
ρ),
试求
X
与Y
的
相关系数.
解 由 f (x, y)
1
2πσ1σ2 1 ρ2
1 exp2(1 ρ2 )
(
x
μ1 )2 σ12
2ρ(
x
μ1)( y σ1σ2
μ2
)
(
y
μ2 σ22
)2
fX (x)
1
e ,
(
x μ1 2σ12
D( X Y ) D( X ) D(Y ) 2E{[ X E( X )][Y E(Y )]}
D( X ) D(Y ) 2Cov( X ,Y ) D( X ) D(Y ).
协方差和相关系数

§4.4 协方差和相关系数随机变量的数字特征,包括数学期望、方差、协方差和相关系数等。
协方差和相关系数是考虑两个随机变量之间的某种关系。
协方差的意义不太直观,它考察两个随机变量(随机向量)与各自均值之差的加权平均值,相关系数则是考虑两个随机变量取值之间的关系。
1. 协方差定义:对两个随机变量X 、Y ,称E X EX Y EY [()()]--为X 与Y 的协方差,记为Cov (X , Y ),即 C o vX Y E X EX Y EY (,)[()()]=-- 2. 相关系数定义:对两个随机变量X 、Y ,称C o vX YD X D Y (,)()()为X 与Y 的相关系数或标准协方差,记为ρXY ,即ρXY Cov X Y D X D Y =(,)()()3. 方差、协方差的运算性质(1) D X Y D X D Y Cov X Y ()()()(,)+=++2 (2) Cov X Y E XY E X E Y (,)()()()=-⋅ 推论:若随机变量X 、Y 独立,则 Cov X Y XY (,)==ρ0Problem :若Cov X Y XY (,)==ρ0,则X 、Y 是否独立? (3) Cov X Y Cov Y X (,)(,)= (4) Cov aX bY abCov X Y (,)(,)=(5) Cov X X Y Cov X Y Cov X Y (,)(,)(,)1212+=+Cov X X Y Cov X Y Cov X Y (,)(,)(,)1212-=-4. 相关系数的性质(1) 柯西-许瓦兹(Cauchy-Schwarz)不等式:对任意两个随机变量X 、Y ,若E X E Y ()()22<∞<∞ , ,则 (())()()E XY E X E Y 222≤⋅ 证明:对任意实数t ,有q t E X tY E X t E Y tE XY ()(())()()()=+=++≥222220 因此,二次方程q t ()=0的判别式 440222(())()()E XY E X E Y -⋅≤即(())()()E XY E X E Y 222≤⋅ 证毕。
相关系数与协方差的关系

探究协方差与相关系数罗燕摘要:协方差),(Y X Cov 是描述二维随机变量两个分量间相互关联程度的一个特征数,如果将协方差相应标准化变量就得到相关系数),(Y X Corr 。
从而可以引进相关系数),(Y X Corr 去刻画二维随机变量两个分量间相互关联程度。
且事实表明,相关系数明显被广泛应用。
本文的目的在于从协方差与相关系数的关系的角度去探讨协方差与相关系数的优缺点,并具体介绍协方差和相关系数这两个描述二维随机变量间相关性的特征数。
关键字:协方差),(Y X Cov 相关系数),(Y X Corr 相互关联程度1 协方差、相关系数的定义及性质设(X ,Y )是一个二维随机变量,若E{ [ X-E(X) ] [ Y-E(Y) ] }存在,则称此数学期望为X 与Y 的协方差,并记为Cov(X,Y)=E{ [ X-E(X) ] [ Y-E(Y) ] },特别有Cov(X,X)=)(X Var 。
从协方差的定义可以看出,它是X 的偏差“X-E(X) ”与Y 的偏差“Y-E(Y)”的乘积的数学期望。
由于偏差可正可负,故协方差也可正可负,也可为零,其具体表现如下:·当Cov(X,Y)>0时,称X 与Y 正相关,这时两个偏差 [ X-E(X) ] 与[ Y-E(Y) ] 同时增加或同时减少,由于E(X)与E(Y)都是常数,故等价于X 与Y 同时增加或同时减少,这就是正相关的含义。
·当Cov(X,Y)<0时,称X 与Y 负相关,这时X 增加而Y 减少,或Y 增加而X 减少,这就是负相关的含义。
·当Cov(X,Y)=0时,称X 与Y 不相关。
也就是说,协方差就是用来描述二维随机变量X 与Y 相互关联程度的一个特征数。
协方差Cov(X,Y)是有量纲的量,譬如X 表示人的身高,单位是米(m ),Y 表示人的体重,单位是公斤(k g ),则Cov(X,Y)带有量纲(m ·kg )。
协方差及相关系数

=0
ρX X
所以 X 与 X 不相关
( 3 ) 独立性由其定义来判断
对于任意的常数 a > 0 , 事件 ( X < a ) ( X < a ), 且 P ( X < a ) > 0 , P ( X < a ) < 1,因此有 P( X < a, X < a) = P( X < a) P ( X < a)P( X < a) < P( X < a) 所以 P ( X < a , X < a ) ≠ P ( X < a ) P ( X < a ) 故 X 与 X 不独立
Cov ( X , Y ) = E ( XY ) EXEY = pq Cov ( X , Y ) ρ XY = =1 DX DY
例2 设 ( X ,Y ) ~ N ( μ1, σ12,μ2,σ22,ρ), 求 ρXY 解
令 x μ1
Cov ( X ,Y ) = ∫
σ1 y μ2 =t σ2
=s
ξ ,η 为 X , Y的线性组合
所以 ξ ,η 都服从正态分布 N ( 0, + b )σ ) (a
2 2 2
在正态分布中 , 不相关与独立是等价的
所以当 a = b 时, ξ ,η 独立 当 a ≠ b 时, ξ ,η 不独立
( 3) 当ξ ,η 相互独立时 , 即a 2 = b 2 , ξ ,η 都服从
例1 已知 X ,Y 的联合分布为 X Y 1 0 p 0 0 q 1 0 0 < p <1 p+q=1
求 Cov (X ,Y ), ρXY 解 X P 1 p 0 q Y P 1 p 0 q XY P 1 p 0 q
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 2 EX , EY , E ( X ) , E (Y ) 和 E ( XY)
其中: DX E( X 2 ) ( EX )2 , DY E(Y 2 ) ( EY )2
Cov ( X , Y )= E ( XY ) EXEY .
对于常见分布, EX , EY , DX , DY 可以直接得到.
i 1 n n n 1 n i 1 2 i 1 j i 1
[Cov ( X , Y )] DXDY .
•4
例 4.3
设随机变量 X 与 Y 的方差均为正.求
X Cov( DX
Y X , DY DX
Y ). DY
X X X Y 解 原式 Cov( , ) Cov( , ) DX DX DX DY Y X Y Y Cov( , ) Cov( , ) DY DX DY DY 1 1 Cov( X , X ) Cov( X , Y ) DX DX DY 1 1 Cov(Y , X ) Cov(Y , Y ) DY DY DX 1 1 DX DY 1 1 0 . DX DY
Cov ( ai X i , b jY j ) aib j Cov ( X i , Y j ) .
i 1 j 1 i 1 j 1
m
n
m
n
性质 4.6
推论 4.2
性质 4.7
D( X Y ) DX DY 2Cov( X , Y ) .
D( X i ) DX i 2 Cov ( X i , X j ) .
*
求 E( X Y ) .
*
*
X EX Y EY ). 解 E( X Y ) E( DX DY E[ ( X EX )(Y EY )] Cov ( X , Y ) DX DY DX DY XY .
* *
•10
例 4.7 设随机变量 X 与 Y 的相关系数 XY 0.5 ,且 DX 1 ,
2 4 , DX , 3 9 5 20 EY , DY , 9 81 1 2 E ( XY ) 2 1 , 9 9
所以
XY
2 2 5 9 3 9 4 20 9 81
4 5 27 5 . 4 20 9 81
•8
例 4.5 设二维随机变量 ( X , Y ) 在区域 G {( x, y) 0 x 1,
1 n 量,且均服从 N (0,1) .记 X X i , Yn X n X .分 n i 1 别计算 Cov ( X1 , Yn ) 和 Cov ( X n , Yn ) .
•6
1 例 4.4 设随机变量 X ~ B(2, ), Y X 1 ,求 XY . 3 1 2 4 解法一 由于 X ~ B (2, ) ,故 EX , DX . 3 3 9 0 1 2 0 1 0 2 又 X ~ 4 4 1 , 故 Y ~ 4 5 , XY X X 1 ~ 8 1 , 9 9 9 9 9 9 9 5 20 2 得 EY , DY , E ( XY ) ,所以 9 81 9
•5
二.相关系数
定义 4.2 设 ( X , Y ) 为二维随机变量,如果 DX 0, DY 0 ,就
Cov ( X , Y ) 称 为随机变量 X 与 Y 的 相关系数 .记为 XY 或 , DX DY Cov ( X , Y ) 即 . XY DX DY
【注】计算相关系数 XY ,需要事先计算五个数学期望
•11
2、相关系数的性质
性质 4.8
性质 4.9
XY 1,即 XY 1,1 .
XY 1 的充要条件为存在常数 a, b (a 0) ,使得 1, a 0, X 与Y 正相关 PY aX b 1 .且 XY . 1, a 0. X 与Y负相关 【注 1】 XY 越大(越小) , X 与 Y 线性关系越强(越弱) . XY , ab 0, 性质 4.10 对任意非零常数 a , b ,有 ( aX )(bY ) XY , ab 0, 进而有 ( aX )(bY ) XY .
设随机变量 X 与 Y 的相关系数 XY 存在,则下列结 ⑵ XY
0;
⑶ Cov ( X , Y ) 0 ;
⑷ E ( XY ) EXEY ;
⑸ D( X Y ) DX DY .
定理 4.2
如果随机变量 X 与 Y 相互独立,且 X 与 Y 的相关
系数 XY 存在,则 X 与 Y 不相关.
利用数学期望的性质,有
Cov ( X , Y ) E ( XY YEX XEY EXEY )
E( XY ) EXEY EXEY EXEY E( XY ) EXEY ,
所以得协方差的简化计算公式
Cov ( X , Y ) E( XY ) EXEY .
•1
3 2 2 19 DY ( ) .故 XY 14 5 350
x2 y x} 上服从均匀分布.求 XY .
35 . 38 1 19 20 350
1 20
•9
例 4.6 设随机变量 X 与 Y 的相关系数为 XY ,记
X EX Y EY * ,Y , X DX DY
【注 3】 如果 X 与 Y 不相关,则 X 与 Y 未必 相互独立,即定 .. 理 4.2 的逆命题不成立. 【注 4】定理 4.2 等价于本章性质 1.4 和, Y ) ~ U (G) ,其中平面区域 G
{( x, y) x2 y2 1} ,问 X 与 Y 是否相互独立?是否不相关?
p j
0
1
13 23
1
pi
问 X 与 Y 是否相互独立?又是否不相关?
1 解 由于 P{ X 1, Y 0} 0 P{ X 1}P{Y 0} , 9 所以 X 与 Y 不相互独立. 2 又可计算得 EX 0, EY , E ( XY ) 0 , 3 故有 E ( XY ) EXEY ,所以 X 与 Y 不相关.
§4 协方差和相关系数
一、协方差 1.协方差的概念
定义 4.1 设 ( X , Y ) 为二维随机变量,如果 E[( X EX )(Y EY )] 存在,就称之为 X 与 Y 的 协方差.记为 Cov ( X , Y ) ,即
Cov ( X , Y ) E[( X EX )(Y EY )] .
o 1 E ( XY ) xy 6dxdy 6 dx 2 xydy , 0 x 4 G
1 x
1
x
1 1 2 1 所以 Cov ( X , Y ) . 4 2 5 20
•3
2、协方差的性质
性质 4.1
性质 4.2 性质 4.3
Cov ( X , X ) DX .
•2
例 4.2 设二维随机变量 ( X , Y ) 在区域 G {( x, y) 0 x 1,
x2 y x} 上服从均匀分布.求 Cov ( X , Y ) . 6, ( x, y) G, 解 由题意知, ( X , Y ) 的密度函数为 f ( x, y) 其它. 0, 1 x 1 (1,1) EX x 6dxdy 6 dx 2 xdy , y 0 x 2 G 1 x 2 G EY y 6dxdy 6 dx 2 ydy , 0 x 5 G
6,( x, y) G, 解 由本节例 4.2 知, ( X , Y ) 的密度函数为 f ( x, y) 0, 其它. 1 2 1 且已计算得 EX , EY , Cov ( X , Y ) ,y (1,1) 2 5 20 1 x 3 G 2 2 2 E ( X ) x 6dxdy 6 dx 2 x dy , 0 x 10 o 1 x G 3 3 1 1 2 2 E (Y ) y 6dxdy ,所以 DX ( ) 2 , 10 2 20 14 G
DV D (X Y ) DX DY Cov 2 X ( Y, ) 1 4 2 1 3
C ov(U, V) Cov(2 X Y , X Y) 2 DX DY Cov (X , Y)
,
所以
21 4 1 3 , 3 UV 0 . 5 . 3 12
【注 2】由于 XY 与权重 a , b 的绝对值数值(不考虑符号)无关, 因此 XY 比 Cov ( X , Y ) 更好地反映了 X 与 Y 线性关系的程度.
•12
定义 4.3 如果 XY
定理 4.1 论是等价的 ⑴ X 与 Y 不相关;
0 ,就称随机变量 X 与 Y 不相关.
G
EY y
G
1
dxdy 0 , E ( XY ) xy
G
1
dxdy 0 ,
•14
故有 E ( XY ) EXEY ,所以 X 与 Y 不相关.
例 4.10 设二维随机变量 ( X , Y ) 的分布律为
X
Y
1 0 13 13
0 13 0 13
1 0 13 13