协方差和相关系数的计算公式
协方差与相关系数

其余均方误差
e
D(Y
)(1
2 XY
).
从这个侧面也
能说明 XY 越接近1,e 越小. 反之, XY 越近于0,
e 就越大, Y与X的 线性相关性越小.
完
例3 设 ( X ,Y ) 的分布律为
X
Y
2 1 1 2 P{Y yi }
1
0 1/4 1/4 0
1/ 2
4
1/4 0 0 1/4 1/2
D(Y
)[1
2 XY
],
D(Y
)1
[cov( X ,Y )]2 D( X )D(Y )
D(Y
)[1
2 XY
],
由于方差
D(Y
)
是正的,
故必有
1
2 XY
0,
所以
XY 1.
性质2. 若 X 和 Y 相互独立,则 XY 0;
注意到此时 cov( X ,Y ) 0, 易见结论成立.
注: X 与Y 相互独立
完
例4 设 服从 [ , ] 上的均匀分布, 且
X sin , Y cos
判断 X 与 Y 是否不相关, 是否独立.
解
由于
E( X )
1
2
sind 0,
E(Y
)
1
2
cosd 0,
而
E(
XY
)
1
2
sin cosd 0.
2
因此
E( XY ) E( X )E(Y ),
从而 X 与 Y 不相关. 但由于 X 与 Y 满足关系:
完
例2 设连续型随机变量 ( X ,Y ) 的密度函数为
f
(
x,
协方差与相关系数

= ρσ 1σ 2
ρ xy =
ρσ 1σ 2 = =ρ σ 1σ 2 D ( X ) D (Y )
Cov ( X , Y )
ρ=0, ,
从而说明二维正态分布随机变量X, 相互独立 从而说明二维正态分布随机变量 ,Y相互独立 相互独立与不相关是等价的. 即X,Y相互独立与不相关是等价的. , 相互独立与不相关是等价的
山东农业大学
概率论与数理统计
主讲人:程述汉 苏本堂
设二维( 例2 设二维(X,Y)随机变量的密度函数为
π π 1 cos( x + y ), 0 ≤ x ≤ , - ≤ y ≤ 0 f ( x, y ) =Y )
1 2 0 π 解 因为 E ( X ) = ∫ ∫ π x cos( x + y )dxdy = ≈ 0.7854, 2 0 -2 4 π 2 1 2 0 2 π π 2 D( X ) = ∫ ∫ π x cos( x + y)dxdy -[ E( X )] = + 2 ≈ 0.1876 2 0 -2 16 2 同理可得 E (Y ) ≈ 0.7854, D(Y ) ≈ 0.1876, 1 π 0 π 2 E ( XY ) = ∫ ∫ π xy × cos( x + y )dxdy1 ≈ -0.5708, 2 0 -2 2 cov( X , Y ) = E ( XY ) - E ( X ) E (Y )
2aE[Y E (Y )][ X E ( X )] + 2 E[Y E (Y )][ E (Y ) aE ( X ) b]
2 aE [ X E ( X )][ E (Y ) aE ( X ) b ]
= D(Y ) + a D( X ) + [ E (Y ) aE ( X ) b] 2a cov( X , Y )
方差、标准差、协方差、相关系数

方差、标准差、协方差、相关系数定义:用来衡量一组数据的离差。
在统计描述中,方差用于计算每个变量(观察值)与总体均值之间的差异。
公式: \sigma^{2}=\frac{\Sigma(X-\mu)^{2}}{N}为样本方差,X为变量,为样本均值,N为样本例数。
2、标准差定义:标准差(Standard Deviation),是离均差平方的算术平均数的算术平方根,用σ表示。
标准差也被称为标准偏差,或者实验标准差,在概率统计中最常使用作为统计分布程度上的测量依据。
公式: \sigma=\sqrt{\frac{\Sigma(X-\mu)^{2}}{N}} 变异系数: C_{v}=\frac{\sigma}{\mu} ,其中 \mu 指数据的平均数3、协方差定义:协方差(Covariance)用于衡量两个变量的总体误差。
如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。
如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
公式1: C o v(X,Y)=E[(X-E[X])*(Y-E[Y])]\\=E[XY]-2E[X]E[Y]+E[X]E[Y]\\=E[XY]-E[X]E[Y]公式2: Cov=E[(X-\mu_{x})(Y-\mu_{y})] ------该公式易于理解公式2---可以有如下理解:如果有X,Y两个变量,每个时刻的“X值与其均值之差”乘以“Y值与其均值之差”得到一个乘积,再对这每时刻的乘积求和并求出均值。
注:1.协方差可以反映两个变量之间的合作关系以及变化趋势是否一致。
向同一个方向或方向变化。
2.X变大,同时Y也变大,说明两个变量是同向变化的,这时协方差就是正的。
3.X变大,同时Y变小,说明两个变量是反向变化的,这时协方差就是负的。
4.从数值上看,协方差越大,两个变量的同向程度越大。
协方差相关系数公式推导

协方差相关系数公式推导一、协方差公式推导。
1. 定义。
- 设X和Y是两个随机变量,E(X)表示X的期望,E(Y)表示Y的期望。
- 协方差Cov(X,Y)=E[(X - E(X))(Y - E(Y))]。
2. 展开推导。
- 首先将(X - E(X))(Y - E(Y))展开得到XY - XE(Y)-YE(X)+E(X)E(Y)。
- 然后求期望E[(X - E(X))(Y - E(Y))]=E(XY - XE(Y)-YE(X)+E(X)E(Y))。
- 根据期望的线性性质E(A + B)=E(A)+E(B),可得:- E(XY - XE(Y)-YE(X)+E(X)E(Y))=E(XY)-E(XE(Y))-E(YE(X)) +E(E(X)E(Y))。
- 因为E(X)和E(Y)是常数,所以E(XE(Y)) = E(Y)E(X),E(YE(X))=E(X)E(Y),E(E(X)E(Y)) = E(X)E(Y)。
- 最终得到Cov(X,Y)=E(XY)-E(X)E(Y)。
3. 样本协方差推导(对于样本数据x_1,x_2,·s,x_n和y_1,y_2,·s,y_n)- 样本均值¯x=(1)/(n)∑_i = 1^nx_i,¯y=(1)/(n)∑_i = 1^ny_i。
- 样本协方差s_xy=(1)/(n - 1)∑_i = 1^n(x_i-¯x)(y_i - ¯y)。
- 展开(x_i-¯x)(y_i-¯y)=x_iy_i - x_i¯y-y_i¯x+¯x¯y。
- 对其求和并求期望类似前面的推导过程,最终得到样本协方差的表达式。
二、相关系数公式推导。
1. 定义。
- 相关系数ρ_XY=(Cov(X,Y))/(√(D(X))√(D(Y))),其中D(X)是X的方差,D(Y)是Y的方差。
- 方差D(X)=E[(X - E(X))^2]=E(X^2)-E^2(X),同理D(Y)=E[(Y -E(Y))^2]=E(Y^2)-E^2(Y)。
相关系数的三种计算公式

相关系数的三种计算公式
相关系数r的计算公式是ρXY=Cov(X,Y)/√[D(X)]√[D(Y)]。
公式描述:公式中Cov(X,Y)为X,Y的协方差,D(X)、D(Y)分别为X、Y的方差。
若Y=a+bX,则有:
令E(X) =μ,D(X) =σ。
则E(Y) = bμ+a,D(Y) = bσ。
E(XY) = E(aX + bX) = aμ+b(σ+μ)。
Cov(X,Y) = E(XY)E(X)E(Y) = bσ。
缺点
需要指出的是,相关系数有一个明显的缺点,即它接近于1的程度与数据组数n相关,这容易给人一种假象。
因为,当n较小时,相关系数的波动较大,对有些样本相关系数的绝对值易接近于1。
三个相关性系数(pearson, spearman, kendall)反应的都是两个变量之间变化趋势的方向以及程度,其值范围为-1到+1,0表示两个变量不相关,正值表示正相关,负值表示负相关,值越大表示相关性越强。
相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母r表示。
由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔逊相关系数。
相关系数的绝对值越大,相关性越强:相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱
相关系数0.8-1.0 极强相关
0.6-0.8 强相关
0.4-0.6 中等程度相关
0.2-0.4 弱相关
0.0-0.2 极弱相关或无相关
对于x,y之间的相关系数r :
当r大于0小于1时表示x和y正相关关系当r大于-1小于0时表示x和y负相关关系。
协方差和相关系数的计算

E( XY ) E( X )E(Y )
D( X Y ) D( X ) D(Y )
X,Y 相互独立 X,Y 不相关. 若 X,Y 服从二维正态分布,X,Y 相互独立 X,Y 不相关.
在例1中已知 X ,Y 的联合分布为
pij X 1 Y
1
p
0
0
0 0 < p <1
0 p+q=1
q
E( X ) p, E(Y ) p, D( X ) pq, D(Y ) pq,
XY 1
cov( X ,Y ) 0
PY E(Y ) X E( X ) 1
D(Y )
D(X )
PY X 1
XY 1
cov( X ,Y ) 0
PY E(Y ) X E( X ) 1
D(Y )
D(X )
PY X 1
XY 0
X,Y 不相关
cov( X ,Y ) 0
2
dsdt
令s tu
1 2
t(
t
u)e
u2 2(1
2
1t2 )2
dudt
2 1 2
1 2
e du t e dt
u2 2 (1
2
)
2
1t2 2
2 1 2
1 2
XY
若 ( X,Y ) ~ N (1,12,2,22,),则X,Y
相互独立
X,Y 不相关.
例3 设 X,Y 相互独立,且都服从 N (0, 2), U = aX + bY,V= aX - bY,a,b为常数,且都不为零, 求UV .
若 XY 0, 称 X,Y 不相关.
无量纲 的量
协方差和相关系数的计算
概率论与数理统计协方差和相关系数

X -1 0 1
pk 3/8 2/8 3/8
Y -1 0 1
pk 3/8 2/8 3/8
E( X ) (1) 3 0 2 1 3 0 同理 E(Y ) 0
8
8
8
1
②说明E(:XY虽)然 Cov(Xx,iYy)=j p0i,j 但1
i,i1
P{ X
1P{ X0 8 0}
10,Y101} P{8Y 0} 8
=相关系数刻划了X和Y间“线性相关”的程度.
=
2021/4/4
8
8
皮肌炎图片——皮肌炎的症状表现
数
• 皮肌炎是一种引起皮肤、肌肉、
字
心、肺、肾等多脏器严重损害的, 全身性疾病,而且不少患者同时
伴有恶性肿瘤。它的1症状表现如 特 下:
• 1、早期皮肌炎患者,还往往伴 征 有全身不适症状,如-全身肌肉酸
=ቤተ መጻሕፍቲ ባይዱ
2021/4/4
3
3
§3 协方差和相关系数 Covariance and
correlation coefficient
2021/4/4
4
一、协方差
1、定对于义向: 量设X(和X,YY,)是期一望随和机方向差量只,反称映E{了[X变-E(量X)各][Y自-E(的Y)情]} 况,没有
相互之间的关系。 若X、Y相互独立, E{[X-E(X)][Y-E(Y)]}=0, 因此为EX{[与X-YE的(X)协][Y方-E差(Y,)记]} 作在C一ov定(程X,度Y上)反,映即了X与Y之间的关系,称为X 与Y的协方差。 Cov(X,Y)= E{[X-E(X)][Y-E(Y)]}
② 若 E X E( X ) k 存在,则称之为X的 k阶中心矩
协方差和相关系数

§4.4 协方差和相关系数随机变量的数字特征,包括数学期望、方差、协方差和相关系数等。
协方差和相关系数是考虑两个随机变量之间的某种关系。
协方差的意义不太直观,它考察两个随机变量(随机向量)与各自均值之差的加权平均值,相关系数则是考虑两个随机变量取值之间的关系。
1. 协方差定义:对两个随机变量X 、Y ,称E X EX Y EY [()()]--为X 与Y 的协方差,记为Cov (X , Y ),即 C o vX Y E X EX Y EY (,)[()()]=-- 2. 相关系数定义:对两个随机变量X 、Y ,称C o vX YD X D Y (,)()()为X 与Y 的相关系数或标准协方差,记为ρXY ,即ρXY Cov X Y D X D Y =(,)()()3. 方差、协方差的运算性质(1) D X Y D X D Y Cov X Y ()()()(,)+=++2 (2) Cov X Y E XY E X E Y (,)()()()=-⋅ 推论:若随机变量X 、Y 独立,则 Cov X Y XY (,)==ρ0Problem :若Cov X Y XY (,)==ρ0,则X 、Y 是否独立? (3) Cov X Y Cov Y X (,)(,)= (4) Cov aX bY abCov X Y (,)(,)=(5) Cov X X Y Cov X Y Cov X Y (,)(,)(,)1212+=+Cov X X Y Cov X Y Cov X Y (,)(,)(,)1212-=-4. 相关系数的性质(1) 柯西-许瓦兹(Cauchy-Schwarz)不等式:对任意两个随机变量X 、Y ,若E X E Y ()()22<∞<∞ , ,则 (())()()E XY E X E Y 222≤⋅ 证明:对任意实数t ,有q t E X tY E X t E Y tE XY ()(())()()()=+=++≥222220 因此,二次方程q t ()=0的判别式 440222(())()()E XY E X E Y -⋅≤即(())()()E XY E X E Y 222≤⋅ 证毕。