常用相关分析方法及其计算

合集下载

16种常用的数据分析方法-相关分析

16种常⽤的数据分析⽅法-相关分析相关性分析研究现象之间是否存在某种依存关系，对具体有依存关系的现象探讨相关⽅向及相关程度。

相关分析是⼀种简单易⾏的测量定量数据之间的关系情况的分析⽅法。

可以分析包括变量间的关系情况以及关系强弱程度等。

如：⾝⾼和体重的相关性；降⽔量与河流⽔位的相关性；⼯作压⼒与⼼理健康的相关性等。

相关性种类客观事物之间的相关性，⼤致可归纳为两⼤类：⼀、函数关系函数关系是两个变量的取值存在⼀个函数来唯⼀描述。

⽐如销售额与销售量之间的关系，可⽤函数y=px（y表⽰销售额，p表⽰单价，x表⽰销售量）来表⽰。

所以，销售量和销售额存在函数关系。

这⼀类关系，不是我们关注的重点。

⼆、统计关系统计关系，指两事物之间的⾮⼀⼀对应关系，即当变量x取⼀定值时，另⼀个变量y虽然不唯⼀确定，但按某种规律在⼀定的范围内发⽣变化。

⽐如：⼦⼥⾝⾼与⽗母⾝⾼、⼴告费⽤与销售额的关系，是⽆法⽤⼀个函数关系唯⼀确定其取值的，但这些变量之间确实存在⼀定的关系。

⼤多数情况下，⽗母⾝⾼越⾼，⼦⼥的⾝⾼也就越⾼；⼴告费⽤花得越多，其销售额也相对越多。

这种关系，就叫做统计关系。

按照相关表现形式，⼜可分为不同的相关类型，详见下图:相关性描述⽅式描述两个变量是否有相关性，常见的⽅式有3种：1.相关图（典型的如散点图和列联表等等）2.相关系数3.统计显著性⽤可视化的⽅式来呈现各种相关性，常⽤散点图，如下图：相关性分析步骤Step1：相关分析前，⾸先通过散点图了解变量间⼤致的关系情况。

如果变量之间不存在相互关系，那么在散点图上就会表现为随机分布的离散的点，如果存在某种相关性，那么⼤部分的数据点就会相对密集并以某种趋势呈现。

如上图，展现了平时成绩与能⼒评分之间的关系情况：X增⼤时，Y会明显的增⼤，说明X和Y之间有着正向相关关系。

Step2：计算相关系数散点图能够展现变量之间的关系情况，但不精确。

还需要通过相关分析得到相关系数，以数值的⽅式精准反映相关程度。

数据分析中的相关性分析方法与应用

数据分析中的相关性分析方法与应用数据分析在当今信息时代扮演着至关重要的角色。

它可以帮助我们理解数据之间的关系，揭示隐藏的模式和趋势。

在数据分析中，相关性分析是一种常用的方法，用于确定变量之间的关联程度。

本文将探讨相关性分析的方法和应用。

一、相关性分析的基本概念相关性是指两个或多个变量之间的关系程度。

它可以帮助我们了解变量之间的相互作用，并预测未来的趋势。

相关性分析通常通过计算相关系数来衡量。

常用的相关系数包括皮尔逊相关系数、斯皮尔曼相关系数和切比雪夫相关系数等。

1. 皮尔逊相关系数皮尔逊相关系数是最常用的相关系数之一，用于衡量两个连续变量之间的线性关系。

它的取值范围为-1到1，其中1表示完全正相关，-1表示完全负相关，0表示无相关。

通过计算样本数据的协方差和标准差，可以得出皮尔逊相关系数。

2. 斯皮尔曼相关系数斯皮尔曼相关系数用于衡量两个变量之间的等级关系。

它不要求变量呈现线性关系，而是通过将数据转换为等级来计算相关系数。

斯皮尔曼相关系数的取值范围也是-1到1，其中1表示完全正相关，-1表示完全负相关，0表示无相关。

3. 切比雪夫相关系数切比雪夫相关系数是一种非参数相关系数，用于衡量两个变量之间的最大差异。

它不依赖于数据的分布情况，适用于任何类型的数据。

切比雪夫相关系数的取值范围为0到1，其中0表示无相关，1表示完全相关。

二、相关性分析的应用相关性分析在各个领域都有广泛的应用。

以下是几个常见的应用场景。

1. 金融领域在金融领域，相关性分析可以帮助投资者了解不同资产之间的关系，从而制定更有效的投资策略。

例如，通过分析股票价格和利率之间的相关性，投资者可以预测股票市场的变化。

2. 市场营销在市场营销中，相关性分析可以帮助企业了解不同变量对销售额的影响程度。

通过分析广告投放、促销活动和销售额之间的相关性，企业可以优化市场策略，提高销售绩效。

3. 医学研究在医学研究中，相关性分析可以帮助研究人员了解不同变量之间的关系，从而揭示疾病的发病机制和预测疾病的风险。

相关性分析的五种方法

相关性分析的五种⽅法相关分析（Analysis of Correlation）是⽹站分析中经常使⽤的分析⽅法之⼀。

通过对不同特征或数据间的关系进⾏分析，发现业务运营中的关键影响及驱动因素。

并对业务的发展进⾏预测。

本篇⽂章将介绍5种常⽤的分析⽅法。

在开始介绍相关分析之前，需要特别说明的是相关关系不等于因果关系。

相关分析的⽅法很多，初级的⽅法可以快速发现数据之间的关系，如正相关，负相关或不相关。

中级的⽅法可以对数据间关系的强弱进⾏度量，如完全相关，不完全相关等。

⾼级的⽅法可以将数据间的关系转化为模型，并通过模型对未来的业务发展进⾏预测。

下⾯我们以⼀组⼴告的成本数据和曝光量数据对每⼀种相关分析⽅法进⾏介绍。

以下是每⽇⼴告曝光量和费⽤成本的数据，每⼀⾏代表⼀天中的花费和获得的⼴告曝光数量。

凭经验判断，这两组数据间应该存在联系，但仅通过这两组数据我们⽆法证明这种关系真实存在，也⽆法对这种关系的强度进⾏度量。

因此我们希望通过相关分析来找出这两组数据之间的关系，并对这种关系进度度量。

1，图表相关分析（折线图及散点图）第⼀种相关分析⽅法是将数据进⾏可视化处理，简单的说就是绘制图表。

单纯从数据的⾓度很难发现其中的趋势和联系，⽽将数据点绘制成图表后趋势和联系就会变的清晰起来。

对于有明显时间维度的数据，我们选择使⽤折线图。

为了更清晰的对⽐这两组数据的变化和趋势，我们使⽤双坐标轴折线图，其中主坐标轴⽤来绘制⼴告曝光量数据，次坐标轴⽤来绘制费⽤成本的数据。

通过折线图可以发现，费⽤成本和⼴告曝光量两组数据的变化和趋势⼤致相同，从整体的⼤趋势来看，费⽤成本和⼴告曝光量两组数据都呈现增长趋势。

从规律性来看费⽤成本和⼴告曝光量数据每次的最低点都出现在同⼀天。

从细节来看，两组数据的短期趋势的变化也基本⼀致。

经过以上这些对⽐，我们可以说⼴告曝光量和费⽤成本之间有⼀些相关关系，但这种⽅法在整个分析过程和解释上过于复杂，如果换成复杂⼀点的数据或者相关度较低的数据就会出现很多问题。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

二、常用相关分析方法及其计算
在教育与心理研究实践中，常用的相关分析方法有积差相关法、等级相关法、质量相关法，分述如下。

（一）积差相关系数
1. 积差相关系数又称积矩相关系数，是英国统计学家皮尔逊（Pearson ）提出的一种计算相关系数的方法，故也称皮尔逊相关。

这是一种求直线相关的基本方法。

积差相关系数记作XY r ，其计算公式为
∑∑∑===----=
n
i i
n i i
n
i i
i
XY Y y X x Y y X x r 1
2
1
2
1
)
()()
)(( (2-20)
式中i x 、i y 、X 、Y 、n 的意义均同前所述。

若记X x x i -=,Y y y i -=，则（2-20）式成为
Y
X XY S nS xy
r ∑= (2-21)
式中n
xy ∑称为协方差，n
xy ∑的绝对值大小直观地反映了两列变量的一致性程
度。

然而，由于X 变量与Y 变量具有不同测量单位，不能直接用它们的协方差
n
xy ∑来表示两列变量的一致性，所以将各变量的离均差分别用各自的标准差
除，使之成为没有实际单位的标准分数，然后再求其协方差。

即：
∑∑⋅=
=
)()(1Y
X Y
X XY S y
S x n S nS xy
r
Y X Z Z n
∑⋅=
1
(2-22) 这样，两列具有不同测两单位的变量的一致性就可以测量计算。

计算积差相关系数要求变量符合以下条件：（1）两列变量都是等距的或等比的测量数据；（2）两列变量所来自的总体必须是正态的或近似正态的对称单峰分布；（3）两列变量必须具备一一对应关系。

2. 积差相关系数的计算
利用公式 (2-20)计算相关系数，应先求两列变量各自的平均数与标准差，再求离中差的乘积之和。

在统计实践中，为方便使用数据库的数据格式，并利于计算机计算，一般会将(2-20)式改写为利用原始数据直接计算XY r 的公式。

即： ∑∑∑∑∑∑∑---=
2
22
2
)
()
(i i
i i
i
i i i XY y y n x x n y x y x n r (2-23)
（二）等级相关
在教育与心理研究实践中，只要条件许可，人们都乐于使用积差相关系数来度量两列变量之间的相关程度，但有时我们得到的数据不能满足积差相关系数的计算条件，此时就应使用其他相关系数。

等级相关也是一种相关分析方法。

当测量得到的数据不是等距或等比数据，而是具有等级顺序的测量数据，或者得到的数据是等距或等比的测量数据，但其所来自的总体分布不是正态的，出现上述两种情况中的任何一种，都不能计算积差相关系数。

这时要求两列变量或多列变量的相关，就要用等级相关的方法。

1. 斯皮尔曼(Spearman)等级相关
斯皮尔曼等级相关系数用R r 表示，它适用于两列具有等级顺序的测量数据，或总体为非正态的等距、等比数据。

斯皮尔曼等级相关的基本公式如下： )
1(612
2--=∑n n D r R (2-24)
式中：
Y X R R D -=____________对偶等级之差； n ____________对偶数据个数。

如不用对偶等级之差，而使用原始等级序数计算，则可用下式 )]1()
1(4[13+-+⋅-=∑n n n R R n r Y
X R (2-25) 式中：
X R ___________X 变量的等级； Y R ____________Y 变量的等级；
n ____________对偶数据个数。

(2-25)式要求∑∑=Y X R R ，∑∑=2
2Y
X R R ，从而保证22Y X S S =。

在观测变量中没有相同等级出现时可以保证这一条件。

但是，在教育与心理研究实践中，搜集到的观测变量经常出现相同等级。

在这种情况下，∑∑=Y X R R 的条件仍可得
到保证，但∑∑=2
2Y
X R R 的条件则不能得到满足。

在有相同等级出现的情况下，∑2
R
随相同等级数目的逐渐增多而有规律地减少，其减少的规律如下：
12
)
1(2-=t t c
其中：
c ___________差数值（几个相同等级出现的∑2R 与没有相同等级出现的∑2
R
之差）；
t ____________某一等级的相同数。

当一列变量中有多个相同等级出现时，他们的差数值为：
∑∑-=12)
1(2t t c
从而，在出现相同等级情况下，计算斯皮尔曼等级相关系数的公式为：
∑∑∑∑
∑⋅-+=2
2
2222
y
x D y x r Rc (2-26)
式中：
∑∑---=12)
1(12)1(222
t t n n x ；
∑∑---=12)
1(12)1(222
t t n n y ；
n ____________对偶数据个数。

t ___________各列变量相同等级数； D ____________对偶等级差数；
2. 肯德尔W 系数（肯德尔和谐系数）
肯德尔W 系数又称肯德尔和谐系数，是表示多列等级变量相关程度的一种方法，它适用于两列以上等级变量。

肯德尔和谐系数用W 表示，其公式为 )(12
13
n n K SS W n Ri
-=
(2-27)
式中： Ri SS ___________
i
R 的离差平方和；
2
2
)()(∑∑∑-
=-=n
R R R R SS i
i i Ri
n
R R i i 2
2
)(∑∑-
=
K ___________等级变量的列数或评价者数目；
n ____________被评价对象数目。

肯德尔W 系数基于这么一种思想：当K 个评价者对几件事物进行等级评定，如果K 个评价者的意见完全一致，则n 个i R 分别为K ,K 2,K 3,··· ，nK ,··· ，
2
)
1(+=
n K R ， )(12
1]4)1(6)12)(1([
)(3
2222
n n K n n n n n K R R SS i Ri -=+-++=-=∑，
此时的1=W ；若如果K 个评价者的意见完全不一致，则0=Ri SS ，此时的0=W ；如果K 个评价者的意见存在一定的关系，但又不是完全一致，则0≠Ri SS 。

因此，肯德尔W 系数的变化范围为10≤≤W ，当我们得到一个不等于0的肯德尔W 系数，它仅表明了相关程度，由于0≥W ，对相关的方向尚需从实际资料中分析得出。

（三）质量相关
在教育与心理研究实践中，我们常将一列变量按事物的某一属性划分种类，而另一列变量则为等比或等距的测量数据，这种情况下求得的相关，称为质量相关。

1. 点双列相关
点双列相关适用于双列变量中一列为来自正态总体的等距或等比的测量数据；另一列为二分称名变量，即按事物的某一性质只能分为两类互相独立的变量，如男与女、文盲与非文盲等。

点双列相关的计算公式为 pq S X X r X
q
p pb -= (2-29)
式中：
p ___________二分称名变量中取某一值的变量比例； q ___________二分称名变量中取另一值的变量比例；
p X ___________等距（比）变量中与p 对应的那部分数据的平均值； q X ___________等距（比）变量中与q 对应的那部分数据的平均值； X
S ___________
全部等距（比）变量的标准差。

点双列相关在教育与心理统计研究中作为选择题的区分度指标。

2. 双列相关
双列相关系数适用于两列变量均为来自正态总体的等距（比）变量；而其中一列被认为地划分为两个类别的数据。

双列相关系数的计算公式为
Y pq
S X X r X q p b ⋅
-= (2-30) 式中：
p X ___________等距（比）变量中与p 对应的那部分数据的平均值； q X ___________等距（比）变量中与q 对应的那部分数据的平均值；
p ___________二分称名变量中取某一值的变量比例； q ___________二分称名变量中取另一值的变量比例；
X ___________标准正态曲线下p 与q 交界点的Y 轴高度
（可查正态分布表得出）。

双列相关在教育与心理统计研究中常作为问答题或主观题的区分度指标。

如有侵权请联系告知删除，感谢你们的配合！。

常用相关分析方法及其计算

16种常用的数据分析方法-相关分析

相关分析的实验原理和方法

相关性分析的方法

相关性分析方法2篇

相关性分析有哪些方法

数据分析中的相关性分析方法与应用

相关分析及其在实证研究中的应用

相关性分析的五种方法