SPSS的相关分析
SPSS统计分析第章相关分析(共26张PPT)

7.3 偏相关分析
(4) SPSS实现举例
【例7-3】 下表是四川绵阳地区3年生中山柏的数据,分析月生长 量与月平均气温、月降雨量、月平均日照时数、月平均湿度4个气 候因素中哪些因素有关。
月 份
月生 月平均 长量 气温
月降 雨量
月平均日 照时数
月平均 湿度
月份
月生 长量
月平均 气温
月降 雨量
月平均日 月平均 照时数 湿度
方位或大小等)。定序变量的相关系数用斯皮尔曼(Spearman)相关系 数和肯德尔(Kendall’s )相关系数来衡量。
Spearman相关系数及Z统计量
n
6
D
2 i
r
1
i1
n (n 2
1)
Z r n1
Kendall’s等级相关系数 及Z统计量
(UV) 2
n(n1)
Z
9n(n 1) 2(2n 5)
7.4 距离分析
相似性测度
对于定距数据主要使用皮尔逊相关系数和夹角余弦距离; 对于二值数据的相似性测度主要包括简单匹配系数、Jaccard相似性 指数、Hamann相似性测度等20余种。
其中的距离又分为个案(观测记录)之间的距离和变量之间的 距离两种。
(3) 分析步骤
距离分析中不存在假设检验问题,主要是通过SPSS自动计算
Spearman相关系数及Z统计量
Pearson 相关性
偏相关分析的任务就是在研究两个变量之间的线性相关关系时控制可能对其产生影响的变量,这种相关系数称为偏相关系数。
当≤|r时视为中度相关;
r r r r r r r r 当其偏|中相r时的 关说x距分y明离析,变z又的量分任之为务间个就的案是相(在关观研性测究x很记两y弱录个。)变2之量间之xz的间距的y离线z 和性变相2量关之关间系的时距控离制两可x种能y,。对z1其z2产生影响的变量x,y,这z1种2相关系xz数1称,z为2偏y相z2关,2系z1数。
SPSS相关分析

第一次 第二次 第三次
1 0.140 0.135 0.141
2 0.138 0.140 0.142
3 0.143 0.142 0.137
4 0.141 0.136 0.140
5 0.144 0.138 0.142
6 0.137 0.140 0.143
【Compute Distances单项选择框组】 其中有两个选择,Between cases表达作变量内部观察
一般选中。此时P<0.05旳系数值旁会标识一种星号, P<0.01旳则标识两个星号。 【Options钮】 Statistics复选框组 可选旳描述统计量。它们是: Means and standard deviations每个变量旳均数和原则 差
Cross-product deviations and covariances各对变量 旳交叉积和以及协方差阵
化学 90.00 99.00 70.00 78.00 88.00 88.00 75.00 98.00 98.00 99.00 89.00 98.00 88.00 60.00 87.00 87.00 88.00 79.00
在上面旳成果中,变量间两两旳有关系数是用方阵旳形式给 出旳。每一行和每一列旳两个变量相应旳格子中就是这两个 变量有关分析成果成果,共分为三列,分别是有关系数、P 值和样本数。因为这里只分析了两个变量,所以给出旳是 2*2旳方阵。由上表可见本身旳有关系数均为1,而数学和 化学旳有关系数为0.742,P<0.001,有非常明显旳统计 学意义。
3.2.3 有关分析——Correlate菜单
Bivariate过程:用于进行两个/多种变量间旳参数/非参数 有关分析,假如是多种变量,则给出两两有关旳分析成果。 这是Correlate子菜单中最为常用旳一种过程。
SPSS第10章相关分析

第10章相关分析 (225)1 双变量相关分析 (225)1.1 双变量相关分析的数据特征 (225)1.2 皮尔逊相关系数 (225)1.3 肯德尔相关系数 (228)1.4 例题3 (230)2 偏相关关系 (232)2.1 偏相关关系 (232)2.2 例题 (232)3 距离相关分析 (234)3.1 特征 (234)3.2 主要参数 (235)3.3 例题 (235)3.4 实例介绍 (237)第10章相关分析相关分析是研究变量之间关系密切程度的一种统计方法,包括双变量相关分析、偏相关分析和距离相关分析。
1 双变量相关分析1.1 双变量相关分析的数据特征当某一个事物存在着多个变量时,而各个变量之间呈数量关系时,可以用双变量相关分析来研究,并做出统计学推断。
双变量相关分析可以输出两两变量之间的相关系数,相关系数的种类有皮尔逊相关系数、肯德尔相关系数、斯皮尔曼等级相关系数等。
1.2 皮尔逊相关系数X和Y有线性函数关系,两变量间的相关系数是+1~-1,相关系数没有单位。
1.2.1 例题133名产妇进行产前检查,测定X1-X6六项指标,试计算X1-X4的皮尔逊相关系数。
1.2.2 SPSS过程Data,analyze,correlate,打开bivariate对话框,选择x1-x4→variables,选择pearson 相关系数,two-tail,flag significant correlations,打开options对话框,means and standard deviations,exclude case pairwirs,continue,ok.two-tail,双尾检验;Flag significant correlations:用星号显示有显著性相关的相关系数;Exclude case pairwirs:剔除有缺失值的配对变量;Cross-product deviations and covarances:显示每一对变量的离均差交叉积与协方差。
SPSS数据分析—相关分析

相关系数是衡量变量之间相关程度的度量,也是很多分析的中的当中环节,SPSS 做相关分析比较简单,主要是区别如何使用这些相关系数,如果不想定量的分析相关性的话,直接观察散点图也可以。
相关系数有一些需要注意的地方:1、两变量之间存在相关,仅意味着存在关联,并不意味着因果关系。
2、相关系数不能进行加减乘除运算,没有单位,不同的相关系数不可比较3、相关系数大小容易受到数据取值区间大小和数据个数大小的影响。
4、相关系数也需要进行检验确定其是否有统计学意义相关系数的假设检验中H0:相关系数=0,变量间没有相关性H1:相关系数≠0,变量间有相关性相关系数很多,我们一般根据变量的类型进行选择,我们知道变量类型由低级到高级可以分为定类、定序、定距、定比四种类型,而变量的数据类型则可以分为连续型或者离散型,注意不要混淆一、定距、定比变量,基本上也就是连续变量一般使用pearson相关系数,也称为积差相关系数,是一种线性相关系数,使用最为广泛,适用条件是两变量需要为线性关系,并且都来自正态分布总体,且要求成对出现二、定序、定距、定比变量一般使用spearman等级相关系数也称为秩相关系数,该系数利用了变量的次序信息,而且对原始数据没有过多要求,因此比pearson相关系数使用范围更广,它利用两变量的秩次大小作为分析依据,也可以认为是基于秩次的pearson相关系数,当数据不符合pearson相关系数的要求时,可以选择使用spearman相关系数,但是如果是定距或定比变量,还是建议用pearson相关系数,spearman 相关系数的效能略低。
三、只限定序变量1.Gamma相关系数2.Kendall等级相关系数,分为τ-a,τ-b,τ-c三种3.Somer's D相关系数四、定类变量定类变量的相关性大都是根据卡方值衍生而来1、person卡方实际上也就是卡方检验2.列联系数3.φ-Phi系数4.Cramer's V系数mbda(λ)系数6.Goodman and Kruskal的Tau-y系数五、二分类变量1.相对危险度RR值2.优势比OR值=========================================================熟悉了各种相关系数的情况之后,我们来看一下在SPSS中的操作1.分析—描述性统计—交叉表此过程一般用来分析列联表的,由于数据的组成大多是列联表形式,因此该过程包含了很多种相关系数2.分析—相关—双变量此分析为简单相关分析,是最常用的相关分析。
Spss 的相关分析

3、矩阵散点图
矩阵散点图以方形矩阵的形式分别显示多对变量间的统计关系。矩阵散点图的关键是弄清各矩阵单元中的横纵变量。以3×3的矩阵散点图为例。变量分别 ,矩阵散点图的横纵变量如下表(括号中的前一个变量作为纵轴变量,后一个变量作为横轴变量)
矩阵散点图坐标变量示意
Spss的相关分析
一、相关的概念
相关分析是分析客观事物之间的数量分析方法,明确客观事物之间有怎样的关系对理解和运用相关分析是极为重要的。
客观事物之间的关系大致可归纳为两大类关系,它们是函数关系和统计关系。相关分析是用来分析事物之间统计关系的方法。
所谓函数关系指的是两事物之间的一种一一对应关系,即当一个变量 取一定值时,另一变量 可以依确定的函数取唯一确定的值。
四、计算相关系数
1、相关系数的特点
虽然散点图能够直观地展现变量之间的统计关系,但不准确。
相关系数以数值的方式很精确地反映了两个变量间线性相关的强弱程度。利用相关系数进行变量间线性关系的分析通常需要完成以下两大步骤:
第一、计算样本相关系数 。
利用样本数据计算样本相关系数。样本相关系数反映了两变量间线性相关程度的强弱。对不同类型的变量应采用不同的相关系数指标,但它们的取值范围和含义都是相同的,即
Spss将自动计算Kendall 相关、 检验统计量的观测值和对应的概率P值。
适用条件:
(1)只有两列变量,且具有等级变量性质,具有线性关系的资料,主要用于解决等级和顺序数据的相关问题;
(2)即使是属于等距或等比性质的变量,若按其取值大小,赋以等级或顺序,亦可计算等级相关。
(3)不对数据的整体分布状态做要求,不管数据是不是正态分布,都可以用等级相关计算相关关系。
SPSS-相关分析

SPSS-相关分析相关分析(⼆元定距变量的相关分析、⼆元定序变量的相关分析、偏相关分析和距离相关分析)定义:衡量事物之间,或称变量之间线性关系相关程度的强弱并⽤适当的统计指标表⽰出来,这个过程就是相关分析变量之间的关系归纳起来可以分为两种类型,即函数关系和统计关系。
相关分析的⽅法较多,⽐较直接和常⽤的⼀种是绘制散点图。
图形虽然能够直观展现变量之间的相关关系,但不很精确。
为了能够更加准确地描述变量之间的线性相关程度,可以通过计算相关系数来进⾏相关分析总体相关系数,记为ρ;样本相关系数,记为 r。
统计学中,⼀般⽤样本相关系数 r 来推断总体相关系数相关系数的取值范围在1和+1之间,即1≤r≤+1若0<r≤1,表明变量之间存在正相关关系,即两个变量的相随变动⽅向相同;若-1≤r<0,表明变量之间存在负相关关系,即两个变量的相随变动⽅向相反;当|r| =1时,其中⼀个变量的取值完全取决于另⼀个变量,两者即为函数关系;若 r= +1,表明变量之间完全正相关;若 r= -1,表明变量之间完全负相关。
当r= 0时,说明变量之间不存在线性相关关系,但这并不排除变量之间存在其他⾮线性关系的可能。
根据经验可将相关程度分为以下⼏种情况:若r≥0.8 时,视为⾼度相关若0.5≤r<0.8 时,视为中度相关当0.3≤r<0.5 时,视为低度相关当 r<0.3 时,说明变量之间的相关程度极弱,可视为不相关⼆元变量的相关分析是指通过计算变量间两两相关的相关系数,对两个或两个以上变量之间两两相关的程度进⾏分析。
1.⼆元定距变量的相关分析定义:通过计算定距变量间两两相关的相关系数,对两个或两个以上定距变量之间两两相关的程度进⾏分析。
定距变量:⼜称为间隔(interval)变量,它的取值之间可以⽐较⼤⼩,可以⽤加减法计算出差异的⼤⼩。
Pearson简单相关系数⽤来衡量定距变量间的线性关系对Pearson简单相关系数的统计检验是计算t统计量SPSS操作2.⼆元定序变量的相关分析定序变量:⼜称为有序(ordinal)变量、顺序变量,它取值的⼤⼩能够表⽰观测对象的某种顺序关系(等级、⽅位或⼤⼩等)Spearman和Kendall's tua-b等级相关系数⽤以衡量定序变量间的线性相关关系,它们利⽤的是⾮参数检验的⽅法。
第七章 SPSS的相关分析

单因素方差分析
当一个变量为定类变量,另一变量为定距 变量时,两变量间是否有关,通常以分组 平均数比较的方法来考察。即按照定类变 量的不同取值来分组,看每个分组的定距 变量的平均数是否有差异。不同组间的平 均数差异越小,两个变量间的关系越弱; 相反,平均数差异越大,变量间关系越强。
单因素方差分析的基本步骤
最后,对不同看法进行分析。如果显著性 水平设为0.05,则概率值小于0.05,拒绝原 假设,认为本市户口和外地户口对未来三 年是否打算买房的看法是不一致的。
在列联表中,这一定理就具体转化为:若 两变量无关,则两变量中条件概率应等于 各自边缘的概率乘积。反之,则两变量有 关,或称两变量不独立。
由此可见,期望值(独立模型)与观察值 的差距越大,说明两变量越不独立,也就 越有相关。因此,卡方的表达式如下:
X
2
j i
( O ij E ij ) 2 E ij
第七章
相关分析与检验
主要内容
方差分析回顾 相关分析的概念
列联分析
简单相关分析
偏相关分析
方差分析回顾
概念:方差分析是从因变量的方差入手,研究诸 多自变量中哪些变量是对因变量有显著影响的变 量,对因变量有显著影响的各个自变量其不同水 平以及各水平的交互搭配是如何影响因变量的。 方差分析认为因变量的变化受两类因素的影响: 第一,自变量不同水平所产生的影响; 第二,随机变量所产生的影响。这里的随机变量指 那些人为很难控制的因素,主要指试验过程中的 抽样误差。
卡方的取值在0~∞之间。卡方值越大,关 联性越强。在SPSS中,有Pearson X2和 相似比卡方(Likelihood Ratio X2 )两种。
SPSS统计分析第七章相关分析

例二
四川绵阳地区3年生中山柏的数据。分析月生长量与 月平均气温、月降雨量、月平均日照时数、月平均湿 度四个气候因素哪个因素有关。Month:月份,hgrow: 生长量,temp:月平均气温,rain: 月降雨量,hsun: 月平均日照时数,humi: 月平均湿度。 数据编号data10-05 分析变量:hgrow(生长量)与hsun(月平均日照时 数) 控制变量:humi(月平均湿度)、rain(月降雨量)、 temp(月平均气温)
两个或若干变量之间或两组观测量之间的关 系有时也可以用相似性或不相似性来描述。 相似性测度用大数值表示很相似,较小的数 值表明相似性小。不相似性使用距离或不相 似性来描述。大值表示相差甚远。
三、相关系数统计意义的检验
由于我们通常是通过抽样方法;利用样本研 究总体的特性。由于抽样误差的存在,样本 中两个变量间相关系数不为0,不能说明总体 中这两个变量间的相关系数不是0,因此必须 经过检验。检验的零假设是:总体中两个变 量间的相关系数为0。SPSS的相关分析过程 给出这假设成立的概率。
但实际上,如果对体重相同的人,分析身高 和肺活量。是否身高值越大,肺活量越大呢? 结论是否定的。正是因为身高与体重有着线 形关系,体重与肺活量才存在线形关系,因 此,得出身高与肺活量之间存在较强的线形 关系的错误结论。偏相关分析的任务就是在 研究两个变量之间的线形相关关系时控制可 能对其产生影响的变量。
一、相关分析的概念
相关分析是研究变量间密切程度的一种常用统计方法。 线性相关分析研究两个变量间线性关系的程度。 相关系数是描述这种线性关系程度和方向的统计量, 通常用r表示。相关系数r没有单位;其值在-l~+1之 间。当数值愈接近-l或+1之间时,关系愈紧密,接近 于0时,关系愈不紧密。 对其数值可以从小到大排列的数据才能计算其相关系 数。例如不能计算宗教信仰与颜色喜好之间的关系。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第8章SPSS的相关分析学习目标:1.明确相关关系的含义以及相关分析的主要目标。
2.掌握散点图的含义,熟练掌握绘制散点图的具体操作。
3.理解简单相关系数、Spearman相关系数、Kendall相关系数的基本原理,熟练掌握计算各种相关系数的具体操作,能够读懂分析结果。
4.理解偏相关系分析的主要目标以及与相关分析之间的关系,熟练掌握偏相关分析的具体操作,能够读懂分析结果。
8.1 相关分析相关分析是分析客观事物之间关系的数量分析方法,明确客观事物之间有怎样的关系对理解和运用相关分析是极为重要的。
客观事物之间的关系大致可归纳为两大类关系,它们是函数关系和统计关系。
相关分析是用来分析事物之间统计关系的方法。
所谓函数关系指的是两事物之间的一种一一对应的关系,即荡一个变量x取一定值时,另一变量y可以依确定的函数取唯一确定的值。
例如,商品的销售额与销售量之间的关系,在单价确定时,给出销售量可以唯一地确定出销售额,销售额与销售量之间是一一对应的关系,且这个关系可以被y=Ρx(y表示销售额,Ρ表示单价,x表示销售量)这个数学函数精确地描述出来。
客观世界中这样的函数关系有很多,如圆面积和圆半径、出租车费和行程公里数之间的关系等。
另一类普遍存在的关系是统计关系。
统计关系指的是两事物之间的一种非一一对应的关系,即当一个变量x取一定值时,另一变量y无法依确定的函数取唯一确定的值。
例如,家庭收入和支出、子女身高和父母身高之间的关系等。
这些事物之间存在一定的关系,但这些关系却不能像函数关系那样可用一个确定的数字函数描述,且当一个变量x取一定值时,另一变量y的值可能有若干个。
统计关系可再进一步划分为线性相关和非线性相关关系。
线性相关又可分为正线性相关和负线性相关。
正线性相关关系指两个变量线性的相随变动方向相同,而负线性相关关系指两个变量线性的相随变动方向相反。
事物之间的函数关系比较容易分析和测度,而事物之间的统计关系却不像函数关系那样直接,但确实普遍存在,并且有的关系强,有的关系弱,程度各有差异。
如何测度事物间统计关系的强弱是人们关注的问题。
相关分析正是一种简单易行的测度事物之间统计关系的有效工具。
绘制散点图和计算相关系数是相关分析最常用的工具,他们的互相结合能够达到较为理想的分析效果。
8.2绘制散点图8.2.1散点图的特点绘制散点图是相关分析过程中极为常用且非常直观的分析方式。
它将数据以点的形式画在直角平面上。
通过观察散点图能够直观地发现变量间的统计关系以及它们的强弱程度和数据对的可能走向。
在实际分析中,散点图经常表现出某些特定的形状。
如绝大多数的数据点组成类似于“橄榄球”的形状,或集中形成一根“棒状”,而剩余的少数数据点零散地分布在四周。
通常“橄榄球”和“棒状”代表了数据对的主要结构和特征,可以利用曲线将这种主要结构的轮廓描绘出来,使数据的主要特征更突显。
图8—1是常见的几种散点图以及反映出的统计关系的强弱程度。
8.2.2 散点图的应用举例在利用SPSS绘制散点图之前,应先将数据按一定方式组织起来。
对每个变量应设置相应的SPSS变量。
案例8—1利用第2章案例2—1的住房状况问卷调查数据,分析家庭收入与打算购买的住房面积之间存在怎样的统计关系。
具体数据在可供下载的压缩包中,文件名为“住房状况调查.sav”。
这里,首先利用散点图进行初步分析。
SPSS绘制散点图的基本操作步骤如下:(1)选择菜单:【Graphs】→【Scatter】于是出现如图8—2所示的窗口。
(2)选择散点图的类型。
SPSS提供了四种类型的散点图。
(3)根据所选择的散点图类型,按Define按钮对散点图作具体定义。
不同类型的散点图具体的定义选项略有差别。
一、简单散点图(Simple)简单散点图是表示一堆变量间统计关系的散点图。
应定义的选项主要有:●指定某个变量为散点图的纵轴变量,选入【Y Axis】框中。
●指定某个变量为散点图的横轴变量,选入【X Axis】框中。
●可指定作为分组的变量到【Set Markers by】框中,表示按该变量的不同取值将样本数据分成若干组,并在一张图上分别以不同颜色绘制若干个散点图。
该项可以省略。
●可指定标记变量到【Label Cases by】框中,表示将标记变量的各变量值标记在散点图的相应点的旁边。
该项可以省略。
这里,选择简单散点图,操作窗口如图8—3所示。
二、重叠散点图(Overlay)重叠散点图是表示多对变量间统计关系的散点图。
应定义的选项主要有:●两个变量为一对,指定绘制哪些变量间的散点图。
其中,前一个变量作为图的纵轴变量,后一个变量作为图的横轴变量,并可通过Swap pair按钮进行横纵轴变量的调换。
●可指定标记变量到【Label Case by】框中。
含义同简单散点图。
三、矩阵散点图(Matrix)矩阵散点图以放行矩阵的形式分别显示多对变量间的统计关系。
矩阵散点图的关键是弄清各矩阵单元中的纵横变量。
以3×3的矩阵散点图为例,变量分别x1,x2,x3,矩阵散点图的横纵变量如表8—1所示(括号中的前一个变量作为纵轴变量,后一个变量作为横轴变量)。
对角线的格子中显示参与绘图的若干个变量的名称,应特别注意这些变量所在的行和列,它们决定了矩阵散点图中各单元的横纵坐标。
例如,x3在第三行第三列的格子上,则第三行上的所有图形都以x3为纵轴,第三列上的所有图形都以x3为横轴。
应定义的选项主要有:●指定参与绘图的若干个变量到【Matrix Variables】框中。
选择变了的先后顺序决定了矩阵对角线上变量的排列顺序。
●可指定分组变量到【Set Markers by】框中。
同简单散点图。
●可指定标记变量到【Label Cases by】框中。
同简单散点图。
四、三维散点图(3—D)三维散点图以立体图的形式展现三对变量间的统计关系。
应定义的选项主要有:●置顶三个变量为散点图各轴的变量,分别选入X Axis,Y Axis,Z Axis框中。
●可指定分组变量到【Set Markers by】框中。
同简单散点图。
●可指定标记变量到【Label Cases by】框中。
同简单散点图。
家庭收入与计划购买住房面积的简单散点图如图8—4所示。
由图8—4粗略可知大部分的数据点集中在一定区域中,有少部分数据点“脱离”整体数据较远,家庭收入与计划购买的住房面积之间存在一定正的弱相关关系。
由于案例样本量比较大,因此散点图中的点很密集,在一定程度上影响了图形观察效果。
为此,可以对该散点图进行调整,在其基础上绘制葵花式散点图。
葵花式散点图通常将集中在一起的数据点的中心作为“花心”,以“花瓣”的多少表示“花心”周围数据点的多少。
为绘制葵花式散点图应在SPSS输出窗口中选中相应的散点图形,进入SPSS的图形编辑窗口。
鼠标双击图形空白处,出现如图8—5所示的窗口。
在图8—5所示的窗口中,选中【Show Sunflowers】选项,表示绘制葵花式散点图。
图8—6就是家庭收入与计划购买住房面积的葵花式散点图,其中用圆圈住的是数据点较为密集的位置。
进一步,如果我们希望得到能够代表数据对主要结构和特征的“棒状”,可以再编辑该散点图,选中【Total】项并选择如何得到“棒状”的方式。
一般可选择线性回归(Linear regression)、二项式回归(Quardratic)或三项式回归(Cubic regression)方法。
这里,我们采用了线性回归方法,如图8—7所示。
散点图编辑结果如图8—8所示。
8.3 计算相关系数8.3.1 相关系数的特点虽然散点图能够直观地展现变量之间的统计关系,但并不精确。
相关系数以数值的方式很精确地反映了两个变量间线性相关的强弱程度。
利用相关系数进行变量间线性关系的分析通常需要完成以下两大步骤:第一,计算样本相关系数γ。
利用样本数据计算样本相关系数。
样本相关系数反映了两变量间线性相关程度的强弱。
对不同类型的变量应采用不同的相关系数指标,但它们的取值范围和含义都是相同的,即●相关系数γ的取值在-1~+1之间。
●γ>0表示两变量存在真的线性相关关系;γ<0表示两变量存在负的线性相关关系。
●γ=1表示两变量存在完全正相关关系;γ=-1表示两变量存在完全负相关关系;γ=0表示两变量不存在线性相关关系。
●|γ|>0.8表示两变量之间具有较强的线性关系;|γ|<0.3表示两变量之间的线性相关关系较弱。
第二,对样本来自的两总体是否存在显著的线性关系进行推断。
由于存在抽样的随机性和样本数量较少等原因,通常样本相关系数不能直接用来说明样本来自的两总体是否具有显著的线性相关性,而需要通过假设检验的方式对样本来自的总体是否存在显著的线性相关关系进行统计推断。
基本步骤是:●提出原假设,即两总体无显著的线性关系,存在零相关。
●选择检验统计量。
对不同类型的变量应采用不同的相关系数,对应也应采用不同的检验统计量。
具体内同间后面的讨论。
●计算检验统计量的观测值和对应的概率Ρ-值。
●决策。
如果检验统计量的概率Ρ-值小于给定的显著性水平α,则不能拒绝原假设,可以认为两总体存在零相关。
8.3.2 相关系数的种类对不同类型的变量应采用不同的相关系数来度量,常用相关系数主要有Pearson简单相关系数、Spearman相关系数和Kendallτ相关系数等。
一、Pearson简单相关系数Pearson简单相关系数用来度量定距型变量间的线性相关关系。
如测度收入和储蓄、身高和体重、工龄和收入等变量间的线性相关关系时可用Pearson简单相关系数,它的数学定义为:式中,n为样本数;xi和yi分别为两变量的变量值。
由式(8.1)可进一步得知简单相关系数,也即式(8.2)说明简单相关系数是n个xi和yi分别标准化后的积的平均数。
于是可知简单相关系数有以下几个特点:●X和y在式(8.1)或式(8.2)中式对称的,说明x与y的相关系数等同于y与x的相关系数。
●由于相关系数是x和y标准化后的结果,因此简单相关系数是无量纲的。
●对x和y作线性变换后可能会改变它们之间相关系数的符号(相关的方向),但不会改变相关系数的值。
●相关系数能够用于度量两变量之间的线性关系,但它并不是度量非线性关系的有效工具。
Pearson简单相关系数的检验统计量为t统计量,其数学定义为:式中,t统计量服从n—2个自由度的t分布。
SPSS将自动计算Pearson简单相关系数、t检验统计量的观测值和对应的概率Ρ-值。
二、Spearman等级相关系数Spearman等级相关系数用来度量定序变量间的线性相关关系。
该系数的设计思想与Pearson简单相关系数完全相同,仍然可依照(8.1)计算,相应点指标特征也想死。
然而在计算Spearman等级相关系数时,由于数据为非定距的,因此计算时并不直接采用原始数据(xi,yi),而是利用数据的秩,即将两变量的秩(Ui,Vi)代替(xi,yi)带入式(8.1)中,于是其中的xi和yi的取值范围被限制在1~n之间,且式(8.1)可被简化为:式中,。