相关系数种类
第7章 相关分析与回归分析(含SPSS)

四、偏相关分析
(一) 偏相关分析和偏相关系数 偏相关分析也称净相关分析,它在控制其他变量 的线性影响的条件下分析两变量间的线性相关性, 所采用的工具是偏相关系数(净相关系数)。
偏相关分析的主要用途是根据观测资料应用偏相 关分析计算偏相关系数,可以判断哪些解释变量对 被解释变量的影响较大,而选择作为必须考虑的解 释变量。这样在计算多元回归分析时,只要保留起 主要作用的解释变量,用较少的解释变量描述被解 释变量的平均变动量。
(7.7)
偏相关系数的取值范围及大小含义与相关系数相 同。
2、对样本来自的两总体是否存在显著的偏相关 进行推断。
(1)提出原假设:两总体的偏相关系数与零无显 著差异。
(2)选择检验统计量。偏相关系数的检验统计量 为 t 统计量。 (3)计算检验统计量的观测值和相伴概率 p 。
(4)给定显著性水平 ,并作出决策。如果相 伴概率值小于或等于给定的显著性水平,则拒绝 原假设;如果相伴概率值大于给定的显著性水平, 则不能拒绝原假设。
(二)偏相关系数在SPSS中的实现
1、建立或打开数据文件后,进入Analyze→ Correlate →Partial主对话框,如图7-6所示。
图7-6 偏相关分析主对话框
2、选择分析变量送入Valiables框,选择控制变
量进入Controlling for框。
3、在Test of Significance 栏中选择输出偏相
图7-7 偏相关分析的选项对话框
(1)Statistics 统计量选择项,有两个选项: ①
Means and standard deviations 复选项,要求
SPSSZero-order correlations 复选项,要求显示零阶
相关系数种类

相關係數種類(一) Pearson 積差相關(K. Pearson product-moment correlation ;r ) 1.X 變數:等距、比率變數(連續變數) 2.Y 變數:等距、比率變數(連續變數) 3.公式:∑∑∑∑∑∑∑∑∑---=--===Ny y Nx x yx xy N S NS y y x x S S C NZ Zr i i i i yx yx xy yxxy 2222)()())((4.特性:數值穩定、標準誤小。
5.例:工作時數與收入的關係。
(二) Spearman 等級相關(Spearman rank correlation ;r s ) 1.X 變數:次序變數 2.Y 變數:次序變數 3.公式:(1) 未有相同等級者:)1(6122--=∑N N D r s (D 為二變數對稱之等級差)(2) 有相同等級者:∑∑∑∑∑-+=222222yx D y x r s∑∑--=Tx NN x 1232∑∑--=Ty NN y 1232123tt T -=∑ t :表示得到相同等第的人數。
4.特性:適用於二個評分者評N 件作品,或同一位評分者,先後二次評N 件作品。
5.例:兩位評審對N 件學生作品之評定。
(三) Kendall 等級相關(Kendall ’s coefficient of rank correlation ;τ(tau)) 1.X 變數:人為次序變數 2.Y 變數:人為次序變數 3.公式:)1(21-=N N S τ S :等第失序量數; N :被評者的人數或作品件數4.特性:相當簡便5.例:兩位評審對N 件學生作品之評定。
(四) Kendall 和諧係數(the Kendall ’s coefficient of concordance ;W ) 1.X 變數:次序變數2.Y 變數:次序變數3.公式:(1) 未有相同等級者:)(12132N N K SW -⋅⋅=;222)()(∑∑∑-=-=R R NR R S i i i(2) 有相同等級者:∑--⋅⋅=T K N N K SW )(12132 ; 123tt T -=∑ ;)3(≥KK :評分者人數;N :被評者的人數或作品件數4.特性:特別適用於評分者間信度(interjudge reliability );考驗多位評審者對N 件作品評定等第之一致性。
各种相关系数介绍与对比

各种相关系数介绍与对比各种相关系数介绍与对比按照变量的不同测量层次对各种相关系数简单介绍:1、定类变量——定类变量用于测量两个定类变量的相关系数,主要有Lambda 与T au-y两种。
(1)Lambda(λ)系数分为:对称形式——用于测量两个变量间的关系是对等的,即无自变量与因变量之分。
非对称形式——测量两个变量间的关系有自变量与因变量之分。
(2) Tau-y系数:用于测量变量间非对称关系的。
2、定序变量——定序变量如果测量两个定序尺度变量间的关系,可用Gamma系数、dyx系数和斯皮尔曼等级相关系数。
(1)Gamma(G)系数:分析两个变量间的对等关系,即无自变量与因变量之分。
(2)dyx系数:等级相关系数,两个变量间的关系是非对称的。
(3)斯皮尔曼(Spearman)等级相关系数(ρ):考虑单个个案在两个变量上的等级差异,测量两变量间对等相关关系。
3、定距变量——定距变量测量两个定距变量相关系数的最常用指标是皮尔森(Pearson)相关系数(γ)。
(要求N≥50而且两个变量的分布应近似于正态分布。
)4、定类变量——定距变量两个变量中,自变量为定类变量,因变量为定距变量时,采用相关比率来测量两者间相关程度。
(又称eta平方系数 E)5、定类变量——定序变量对一个定类变量例如性别,与一个定序变量例如收入水平关系的分析:第一,用theta系数(θ),专门测量定类变量与定序变量间关系有无和强度,非对称关系。
第二,采用λ系数和Tau-y系数,即将定序变量作为定类变量处理。
6、定序变量——定距变量处理一个定序变量例如教育水平,与一个定距变量如年均收入之间的关系,采用二种办法:第一,将定序变量看作定类变量,采用相关比例测量法。
第二,将定序变量看作定距变量,采用γ相关系数。
小结:在分析两个变量关系时,选择哪种相关系数,主要考虑两个方面:1、变量的测量层次;2、变量关系的类别,即是对等的还是非对称的。
16种常用的数据分析方法-相关分析

16种常⽤的数据分析⽅法-相关分析相关性分析研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关⽅向及相关程度。
相关分析是⼀种简单易⾏的测量定量数据之间的关系情况的分析⽅法。
可以分析包括变量间的关系情况以及关系强弱程度等。
如:⾝⾼和体重的相关性;降⽔量与河流⽔位的相关性;⼯作压⼒与⼼理健康的相关性等。
相关性种类客观事物之间的相关性,⼤致可归纳为两⼤类:⼀、函数关系函数关系是两个变量的取值存在⼀个函数来唯⼀描述。
⽐如销售额与销售量之间的关系,可⽤函数y=px(y表⽰销售额,p表⽰单价,x表⽰销售量)来表⽰。
所以,销售量和销售额存在函数关系。
这⼀类关系,不是我们关注的重点。
⼆、统计关系统计关系,指两事物之间的⾮⼀⼀对应关系,即当变量x取⼀定值时,另⼀个变量y虽然不唯⼀确定,但按某种规律在⼀定的范围内发⽣变化。
⽐如:⼦⼥⾝⾼与⽗母⾝⾼、⼴告费⽤与销售额的关系,是⽆法⽤⼀个函数关系唯⼀确定其取值的,但这些变量之间确实存在⼀定的关系。
⼤多数情况下,⽗母⾝⾼越⾼,⼦⼥的⾝⾼也就越⾼;⼴告费⽤花得越多,其销售额也相对越多。
这种关系,就叫做统计关系。
按照相关表现形式,⼜可分为不同的相关类型,详见下图:相关性描述⽅式描述两个变量是否有相关性,常见的⽅式有3种:1.相关图(典型的如散点图和列联表等等)2.相关系数3.统计显著性⽤可视化的⽅式来呈现各种相关性,常⽤散点图,如下图:相关性分析步骤Step1:相关分析前,⾸先通过散点图了解变量间⼤致的关系情况。
如果变量之间不存在相互关系,那么在散点图上就会表现为随机分布的离散的点,如果存在某种相关性,那么⼤部分的数据点就会相对密集并以某种趋势呈现。
如上图,展现了平时成绩与能⼒评分之间的关系情况:X增⼤时,Y会明显的增⼤,说明X和Y之间有着正向相关关系。
Step2:计算相关系数散点图能够展现变量之间的关系情况,但不精确。
还需要通过相关分析得到相关系数,以数值的⽅式精准反映相关程度。
第五章 相关系数

=9.48
将以上数值代入公式(4.1)
r N x Y
xy =
285 .1 =0.56 10 5.34 9.48
所以,语文测验成绩与英语测验成绩之间的相关系数 r=0.56。
2、用原始观测值求r 利用基本公式求r,麻烦且结果不够精确。 可用原始观测值直接求r,公式为: X Y XY N (5.3) r X Y X N Y N 或者
2 2 2 2
r
N X 2 ( X ) 2 N Y 2 ( Y ) 2
N XY X Y
(5.4)
式中 , 、Y分别为两变量的观测值, X
N为观测值的对数
实际上,这两个公式是由公式(5.1)推导出来的。 X , Y Y , x X X , 把 X N N (Y Y ) 2 (X X ) 和 ,以及 代入公 y Y Y
不完全相关:由两列变量成对的观测值的坐标
点不在一条直线上,呈椭圆形。 零相关:指两变量间没有相关关系,即当一 变量变化时,另一变量不显示出变化倾向, 或即使有变化,也无一定规律。
不完全正相关
不完全负相关
零相关
从散布图的形状,我们可以大 约地看出变量间相关程度的强弱、 方向或性质,但并不能得知其相关 的确切程度。 为精确了解变量间的相关程度, 还需进行进一步的统计分析,求出 描述变量间相关程度的量数,即相 关系数。
r N X 2 ( X 2 ) N Y 2 ( Y ) 2 (5.5) N X Y X Y
式中, X 是 X 变量各数值与其估计平均数
之差; Y 是
Y 变量各数值与其估计平均数之差。
练习:以上述资料为例,假定X变量的估计平均数 为70,Y变量的估计平均数为72,计算相关系数.
三种相关系数

三种相关系数
1. 皮尔逊相关系数(Pearson correlation coefficient):用于衡量两个变量之间线性关系的强度和方向。
其取值范围为-1到1,取值为正表示正相关,取值为负表示负相关,取值为0表示无关系。
2. 斯皮尔曼相关系数(Spearman correlation coefficient):用于衡量两个变量之间的关联程度,但不需要假定变量之间是线性关系。
它将每个变量的值替换为它们在所考虑的数据集中的秩,然后计算这些秩之间的皮尔逊相关系数。
3. 切比雪夫相关系数(Chebyshev correlation coefficient):用于衡量两个变量之间的相似程度,通常用于比较两个分布或向量之间的相似性。
它等于两个向量之间的最大差异除以变量的范数之和。
如果取值为1,则表示两个向量完全不同,如果取值为0,则表示两个向量完全相同。
SPSS的相关分析和回归分析

n
( Xi X )(Yi Y )
r
11
n
n
( Xi X )2 (Yi Y )2i 1i 1源自2021/3/611
计算相关系数
(一)相关系数 (3)种类:
n
n
Di2 (Ui Vi )2
i 1
i 1
R
1
6 n(n2
Di2 1)
• Spearman相关系数:用来度量定序或定类变量间的线性相
第八章 SPSS的相关分析和回归分 析
2021/3/6
1
概述
(一)相关关系
(1)函数关系:(如:销售额与销售量;圆面积和圆半径.)
是事物间的一种一一对应的确定性关系.即:当一 个变量x取一定值时,另一变量y可以依确定的关 系取一个确定的值
(2)统计关系:(如:收入和消费;身高的遗传.)
事物间的关系不是确定性的.即:当一个变量x取 一定值时,另一变量y的取值可能有几个.一个变 量的值不能由另一个变量唯一确定
300
•散点图在进行相
200
关分析时较为粗略
100
领导(管理)人数
2021/3/6
0
Rsq = 0.7762
8 200 400 600 800 1000 1200 1400 1600 1800
普通职工数
计算相关系数
(一)相关系数 (1)作用:
– 以精确的相关系数(r)体现两个变量间的线性 关系程度.
2021/3/6
17
计算相关系数
(五)应用举例
• 通过27家企业普通员工人数和管理人员数,利用 相关系数分析人数之间的关系
– *表示t检验值发生的概率小于等于0.05,即总体无相 关的可能性小于0.05;
相关系数 -PPT

2
2 2 X X ( X ) = ∑ ∑ −
(∑ X ) 2 N
N
r=
X ∑Y ∑ ∑ XY −
2 ( ) X ∑ 2 − ⋅ X ∑ N 2 Y ( ) ∑ 2 Y − ∑ N
17
下面是10名学生身高与体重的测量结果,问身 高与体重的关系如何?
18
解:已知n=10,利用原始分数计算积差相关的公式得:
X p −Xq 88.4 − 74.8 rpb = ⋅ pq = × 0.5 × 0.5 = 0.766 代入公式得 : st 8.88
答:第5题与总分相关较高,相关系数为0.766,即第5题的答对答错 与总分有一致性。也可以说该题的区分度较高。 44
小练习
为了检验一种新的学习方法的效果,心理学家随机地将 一个有8名学生分成两组,每组有4个人。训练后,两组 的测验分数如下: 训练 9 7 6 10 未训练 4 7 3 6
35
肯德尔W系数计算公式
2 ( ) R ∑ i 2 R − ∑ i s N W = = 1 1 K 2 (N 3 − N ) K 2 (N 3 − N ) 12 12
Ri -每一被评事物K个等级之和, N-被评价事物的数目,即等级数, K-评价者的数目或等级变量的列数。 肯德尔W系数的取值范围:[0,1]
常用于问答题(主观题)的区分度指标。
当二分变量为真正的二分变量,或不清楚其分布形态 时,使用点二列相关。
48
二列相关
计算公式:
X p − X q pq ⋅ rb = st y
y:为标准正态分布中p值对应的高度,查正态分布表能得到
49
例:下表为10名考生一次测验的卷面总分和一道问答题 的得分,试求该问答题的区分度(该问答题满分为10 分, 因此得6分及以上则认为该题通过)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
相关系数种类
(一) Pearson 积差相关(K. Pearson product-moment correlation ;r ) 1.X 变数:等距、比率变量(连续变量) 2.Y 变数:等距、比率变量(连续变量) 3.公式:∑∑∑∑∑∑∑∑∑-
-
-=
--==
=
N
y y
N
x x
y
x xy N S NS y y x x S S C N
Z Z r i i
i i
y
x y
x xy y
x
xy
2
22
2
)()())((
4.特性:数值稳定、标准误小。
5.例:工作时数与收入的关系。
(二) Spearman 等级相关(Spearman rank correlation ;r s ) 1.X 变数:次序变数 2.Y 变数:次序变数 3.公式:
(1) 未有相同等级者:)1(612
2
--=∑N N D r s (D 为二变量对称之等级差) (2) 有相同等级者:∑∑∑∑∑-+=
2
2
2
22
2y
x D y x r s
∑∑--=Tx N
N x 1232
∑∑--=Ty N
N y 1232
123t
t T -=∑ t :表示得到相同等第的人数。
4.特性:适用于二个评分者评N 件作品,或同一位评分者,先后二次评N 件作品。
5.例:两位评审对N 件学生作品之评定。
(三) Kendall 等级相关(Kendall’s coefficient of rank correlation ;τ(tau)) 1.X 变数:人为次序变数 2.Y 变数:人为次序变数 3.公式:)1(2
1
-=
N N S τ S :等第失序量数; N :被评者的人数或作品件数
4.特性:相当简便
5.例:两位评审对N 件学生作品之评定。
(四)
Kendall 和谐系数(the Kendall’s coefficient of concordance ;W )
1.X 变数:次序变数
2.Y 变数:次序变数
3.公式:
(1) 未有相同等级者:)(12
1
32N N K S
W -⋅⋅=
;
2
2
2
)()(∑∑∑-=-
=R R N
R R S i i i
(2) 有相同等级者:∑--⋅⋅=
T K N N K S
W )(12
1
32 ; 12
3t
t T -=∑ ;)3(≥K
K :评分者人数;N :被评者的人数或作品件数
4.特性:特别适用于评分者间信度(interjudge reliability );考验多位评审者对N 件作品评定等第之一致性。
5.例:多位评审对N 件学生作品之评定。
(五) Kappa 一致性系数(K coefficient of agreement ;K ) 1.X 变数:类别变项 2.Y 变数:类别变项
3.公式:Kappa 一致性系数是评分者实际评定一致的次数百分比与评分者理论上评定的最大可能次数百分比的比率(林清山,1992)。
公式为:
)
(1)()(E P E P A P K --=
P (A ):K 位评分者评定一致的百分比;11])1(1[)(11
2
---=∑∑==K n K NK A P N i m
j ij
N :总人数; K :评分者人数; m :评定类别; n :细格资料
P (E ):K 位评分者理论上可能评定一致的百分比;当评分者的评定等第完全一致时,则K=1,当评分者的评定等第完全不一致时,则K=0。
∑==m j j P E P 12
)( ; NK C P j
j = ;∑==N i ij j n C 1
4.特性:前述之肯得尔和谐系数,所论之评分者所评定对象是限定在可评定出等第的,亦即是可
以排列出次序的。
然而,在有些情况下是无法将被评定对象列出等级次序的,而仅能将其归于某一类别,此时,就必须使用Kappa 一致性系数,来表示评分者间一致性的关系。
5.例:K 位精神科医师,将N 名病患,经诊断后归类至m 个心理疾病类别中。
(六) 二系列相关(biserial correlation ;r bis ) 1. X 变数:人为二分变量(名义变量) 2. Y 变数:连续变量(等距、比率变量)
3. 公式:y
q
p S X X rbis t q p ⋅⋅
-= 4. 特性:项目分析时使用;标准误大;有可能出现r bis 大于1。
5. 例:智商与学业成绩及格与否的关系。
(七) 点二系列相关(point-biserial correlation ;r pq ) 1.X 变数:真正二分变量(名义变量) 2.Y 变数:连续变量 3.公式:pq S X X r t
q
p pq -=
p X :表第一类之平均数;q X :表第一类之平均数;St :表全体分数之标准偏差;
p :表第一类人数之百分比;q :表第二类人数之百分比。
4.特性:标准误较r bis 小。
5.例:性别(男、女)与收入的关系。
(八)
φ相关(phi coefficient ;φ)
1.X 变数:真正二分变量(名义变量)
2.Y 变数:真正二分变量(名义变量)
3.公式:)
)()()((D B C A D C B A AD
BC q p q p p p p y
y x
x y x xy ++++-=
-=
φ
4.特性:与卡方考验有密切关系。
5.例:父母对子女的管教方式(权威式、民主式)。
(九) 列联相关(contingency coefficient ;C ) 1.X 变数:真正二分以上名义变量 2.Y 变数:真正二分以上名义变量
3.公式:2
2
χ
χ+=N C , C 的最大值为m m 1- ,N 为总人数 4.特性:与卡方考验有密切关系。
5.例:人民(老师、学生)对于实施政策的态度(同意、无意见、不同意)。
(十) 四分相关(tetrachoric correlation ;tet )
1.X 变数:人为二分名义变量(原始数据为等距变量)
2.Y 变数:人为二分名义变量(原始数据为等距变量)
3.公式:)1180cos(AD BC
r o
tet +
=
4.例:学业成绩(及格、不及格)与智商(高、低)的关系。
(十一) 净相关(Partial correlation ;r 12.3) 1.X 变数:连续变量 2.Y 变数:连续变量
3.公式:22321323131231211r r r r r r --⋅-=⋅ (显著性考验t =3
12
3
123
12--⋅⋅N r r )
4.特性:去除与二变量皆有关的重要影响因素,可以求得纯粹二变量间的关系。
5.例:去掉智力的影响,求数学与国文成绩的相关。
(十二) 曲线相关或相关比(correlation ratio ;η) 1.X 变数:连续变量 2.Y 变数:连续变量 3.公式:t
b
xy SS SS =
η 4.特性:随着X 变量增加,Y 变量先增加,待增加至某一阶段后,反而开始下降,此二者之关系即称为曲线相关或相关比。
5.例:工作效率与焦虑的关系。
综合以上各项相关系数的变量类型,归纳汇整如表14-1所示:
表14-1 各类相关细述之适用变数整理
一、积差相关系数之特性
(一)11+≤≤-r 。
(二)相关系数之数值与N (个数)之大小有密切关系。
1. 由公式y
x xy S NS XY r ∑=
可得知N 是决定相关系数r 值大小的重要因素之一。
2. 仅看r 值之大小,仍不能说两个变量之间有高相关或低相关(因为有可能是机率所造成),尚须再考虑样本个数(N )与显著水平(α)的大小。
(1) 一般而言,N 愈小,相关系数r 值必须愈大,方能说此二个变量间有相关存在;相反
地,N 愈大时,相关系数不需太大,吾人也可说两个变量间有相关存在。
(2) α愈小,则相关系数值必须愈大,方能说其有相关存在。
如表14-2所示:
表14-2 α、N 与r 的关系表
(三)相关的程度不是与r 成正比。
相关系数只是表示二变项之间关系密切与否的指标,故不能将
相关系数视为比率或等距变数。
如:r 1=.80,r 2=.20,则不可说r 1之值为r 2之四倍。
(四)有关系存在,但不表示一定有因果关系。
两事件同时发生,或一前一后发生,吾人仅能说两
事件有相关关系,但不一定即有因果关系存在。