浅析相关系数及其应用
相关系数及其应用

相关系数及其应用摘要:在自然界、工农业生产一级科学试验研究中,许多事物或现象彼此之间存在相互依赖、相互制约的依存关系,这些依存关系,有的十分密切,有的不很密切。
为了研究这个依存关系,我们用变量来解释,对于变量之间的不确定关系,我们称为相关关系,其密切程度用相关系数刻画。
关键词:相关关系;相关系数;随机变量;线性关系。
1.相关系数的介绍相关表和相关图可反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间相关的程度。
著名统计学家卡尔·皮尔逊设计了统计指标——相关系数。
相关系数是用以反映变量之间相关关系密切程度的统计指标。
相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。
依据相关现象之间的不同特征,其统计指标的名称有所不同。
如将反映两变量间线性相关关系的统计指标称为相关系数(相关系数的平方称为判定系数);将反映两变量间曲线相关关系的统计指标称为非线性相关系数、非线性判定系数;将反映多元线性相关关系的统计指标称为复相关系数、复判定系数等。
1.1 相关系数的几种定义:相关关系是一种非确定性的关系,相关系数是研究变量之间线性相关程度的量。
由于研究对象的不同,相关系数有如下几种定义方式。
简单相关系数:又叫相关系数或线性相关系数,一般用字母P 表示,用来度量两个变量间的线性关系。
复相关系数:又叫多重相关系数。
复相关是指因变量与多个自变量之间的相关关系。
例如,某种商品的季节性需求量与其价格水平、职工收入水平等现象之间呈现复相关关系。
典型相关系数:是先对原来各组变量进行主成分分析,得到新的线性关系的综合指标,再通过综合指标之间的线性相关系数来研究原各组变量间相关关系。
1.2 相关系数的性质:{}1P Y a bX =+=;中度相关。
(2)推论:若Y a bX =+,则有1,00,01,0XYb b b ρ>⎧⎪==⎨⎪-<⎩ 证明: 令()()2,E X D X μσ==,则()()22,E Y b a D Y b μσ=+=,()()()222E XY E aX bX a b μσμ=+=++,()()()()2,Cov X Y E XY E X E Y b σ=-=,若0b =,则0XY ρ=。
【doc】浅议相关系数与偏相关系数的使用

【doc】浅议相关系数与偏相关系数的使用浅议相关系数与偏相关系数的使用们r乞11,,浅议相关系数与偏相关系数的使用韩雪峰相关分析是经济统计学的重要内容之一.在相关分析中,人们通常利用两个经济变量之间的简单相关系数(即相关系数)和一个经济变量与多个经济变鼍之间的复相关系数来分析和测定这些经济变量之间的线性相关程度,并据此进行线性回归分析,预测和控制等.1=程度的量.相关系数越大,表明变量之问的线性相关程度越高;相关系数越小,表明变量之间的线性相关程度越低.在很多情况下,人们利用相关系数的大小来解释变量间相互联系的大小.相关系数的大小,有时确实刻划了变量之间相互联系的程度. 例如,每个家庭对某种商品的平均年需求量d与该我们知道,相关系数是刻划变量之河线性相关商品的价值p之间的一组调查数据如下:一,表I价格PI(元)1222.32.52.62.833.33.5'需求量dI(公斤)53.532.72.42.52】.51.21.2 计算价格P与需求量d之间的相关系数r,d= 一0.987,对p与d进行一元性回归,得线性回归方程.d=6.45--I.58p经过F检验知,价格P与需求量d之间的线性关系极其显着.这表明价格p与需求量d之间有极其明显的线性关系.由回归方程可以看出,.随着价格P的上升,需求量d下降,这是符合经济理论和经济规律的在这里,相关系数r,d=一0.987,既表明了价格上升需求量下降的关系,又刻划了价格P与需求量d内在联系的程度.但是,在实际应用中,有时相关系数的大小, 并不能刻划变量之问内在联系的大小.如果我们盲目地根据一个很高的相关系数推断两个变量之间有必然的内在联系或很强的因果关系,这是不可靠的?甚至是错误的.例如,1980年至l988年某省总人口互和按l98O年不变价格计算的国民收入如表 2:计算x与y的相关系数,,=o.989,即人口x与国民收入y之间高度正相关.亦郎x越大,Y也越大.如果我们把这个高度相关理解为两个变量的内在联素或因果关系?就会得出这样的结论:要想提高某省的国民收入,只需大量增加人口.这无论从经济理论,还是从日常生活哲理来说.都是极其荒谬彝表2时间(t)j总人口x(万人)国民收入y(亿元)..——.........—........—........................———.....—.—————.———...........一,, 1980l98ll9821983l984l985l986I987l98822ll223l225822702285229823512336235777.2.91.2g7.8I21.7l36.3I46.6l56.2l81.6205.3的.笔者认为,人口与国民收入之间不应该有什么本质的内在联系.但是,是什么原因导致了人口与国民收入具有如此高度的正相关系呢只要我们认真研究就会发现,人口与国民收入都与另一个变量—一时间t有联系?它们都随着时间t的变化而变化,而且都是同方向变化的.我们计算人口x与时间t的相关系数rt=0.998.国民收入r与时间t的相关季数r,t=o.99I.可看出人口,国民收入y都与时间t高度正相关,芷是由于人口和国民收入都与时间t高度互相关?所以导致了人口与国民收入之间也高度芷相关.这就告诉我们,两个经济变量之间的高度相关关系?有时并不是这两个经济变量本身的内在联系性所决定的,它完全有可能由另外 ?ll?一个变量的媒介作用而形成高度相关.既然相关系数不能完全准确地刻划两个经济变量之间的内在线性联系,那么_f-卜么量才能准确的刻划两个经济变之问的内在联系呢?笔者认为,偏相关系数可能更加准确地刻划两个经济变量之间的内在联系.偏相关系数是在研究多个相互联系的变帚时,令其余的变量固定不变,来描述其中两个变晕之间的梢关关系的最.偏相关系数除掉了两个变帚随其他变量的变化而变化的因素,只剩下这两个变量变化的内在联系部分.所以,用偏相关系数来刻划两个经济变量之的内在线性联系更合理,更可靠.对丁三个变量xl,2,x3,固定其中一个变箍,求弓外两个变量的偏相关系数.为:r...!ij二?——"一~/z?^,,z(i?j?k=1?2?3)其中r;j'.k表示第k个变量固定时,第i个变量和第j个变毽的偏相关系数,ij,ik,n表示两个变量之间的简单相关系数.我们以上讨论的人口与国民收入的关系..如果我们令时间t固定不变,计算人口x与国民收入Y偏相关系数: r一::x!._一^,,1一rxt.?^,,1一r,l2098—9--0.旦!旦.一991^,,.丽)z.^,,1.;0.1667由此可以看出,如果去掉时间t变动的因素,人口x 与国民收入y之间的偏相关系数很小.如果我们利用统计方法对人口x与国民收入Y的偏相关系数为零的假设Ho:P,.t=0进行检验.由于t,.t=rx,二_t^,,n—k,t(n-k)^,,1--rx,.I其中n为样本数(这里n=9),k为变量数(这里 k=3).计算'to.1三66'(7:=0.414l,对于水平口=0.05,查t分布临界值: ta(6)t0.025(6)=2.4469,由于20.414】<2.4469故接受H0,即认为人口x与国~/ky2问的偏相关系数为零,亦即当时间t固定不变时,人口x与国民收入y之间没有什么内在的必然线性联系,人口遗多未必国民收入越高.这是比较合平实际的结论. 由以上实例可以看出,在相关分析中,我们切不可只根据相关系数很大,就以为两个经济变量之间有内在的线性关系或因果关系.因为相关系数只表明两个变量的共变联系,尽管这种共变联系有时也体现了两个变量的内在联系(如物价和需求量),但在很多情况下,这种共变联系是由某个或某些变量的变化所引起的.所以,我们在研究经济变量之间的相关关系时,当由样本计算的两个变量的相关系数很大时,哦们要认真检查一下这种相关是否与经济理论和经济意义相符合,如果不符,一定是由于其他变化的变化所引起的.这时, 我们就需要研究和探索引起这两个变量高度相关的变量.去掉这些变量变化影响因素,计算偏相关系数,最后确定这两个变量之间是否有内在线性联系.特别是对时问序列经济变量,一定要考虑去掉时间因素的偏相关系数,否则,就会导致荒谬的结论当我们研究多个经济变量时,时计算其中两个变量之间的相关系数与经济理论和经济意义相符,但由于其他变量影响的作用,这个相关系数可能扩大或缩0,.这时,通过偏相关系数与相关系数的比较,来确定这两个变量之间的联系程度会得出更加真实的结论.,(作者单位:甘肃经济管理干部学院)垣曲县重用乡镇统计千部_在最近结束的乡镇换届中,垣曲县委非常重视统计工作,大批统计干部被提拔使用,全县17个乡镇中,有8个乡镇的8名统计人员被提拔为副乡(镇)长.统计工作锻炼才,出人才,在当地被传为佳话.,垣曲县委组织部毕爵红王小虎,,垣曲县统计局郭政民张云旭,.1.2.I。
统计学中相关系数的解释与应用

统计学中相关系数的解释与应用咱们来聊聊统计学里的相关系数吧。
这相关系数啊,就像是两个人之间的关系探测器。
你看啊,在生活里,我们经常会发现一些事情好像是有关系的。
比如说,气温和冰淇淋的销量。
天气越热,冰淇淋卖得就越多。
那这两者之间到底有多紧密的联系呢?这时候相关系数就派上用场了。
相关系数的数值呢,就在 -1到1之间晃悠。
如果相关系数是1啊,这就好比是一对形影不离、完全同步的好伙伴。
就像两个人,不管做什么都一模一样,一个往东,另一个绝不可能往西。
比如说,一个人的身高和他影子的长度在特定条件下就有点这种感觉。
在中午阳光直射的时候,身高越高,影子就越长,而且几乎是成比例增长的,这时候它们的相关系数就接近1呢。
那要是相关系数是 -1呢?这就像是两个对着干的冤家。
一个涨,另一个就必定跌。
就像跷跷板的两端,一头上去,另一头肯定下来。
比如说,你在市场上,一种商品的价格和它的需求量在某些情况下就有点这种关系。
价格涨得越高,需求量就越低,两者之间就好像被一根无形的线牵着,方向完全相反,这时候相关系数就接近 -1了。
还有一种情况呢,相关系数是0。
这就像马路上两个毫无关系的陌生人,各走各的路,互不影响。
比如说,你今天穿的衣服颜色和大街上汽车的流量,这两者之间基本上没有什么联系。
你的衣服是红的也好,蓝的也罢,汽车该来来,该走走,它们之间的相关系数就接近0。
在实际应用里,相关系数可太有用了。
比如说在商业领域,商家想知道广告投入和销售额之间的关系。
如果相关系数比较高,接近1,那就说明广告投入多,销售额就会相应地增多。
那商家就知道这广告不能停,得加大投入啊。
再比如说在教育领域,想看看学生的学习时间和成绩之间的关系。
要是相关系数比较低,接近0,那就说明学习时间和成绩可能没有太大关系,也许就得从学习方法或者其他方面找原因了。
不过呢,相关系数也不是万能的。
有时候,它只能告诉我们两个变量之间有联系,但不能说明是一个变量导致了另一个变量的变化。
相关系数的定义和直观意义

相关系数含义:1、简单相关系数:又叫相关系数或线性相关系数。
它一般用字母r 表示。
它是用来度量定量变量间的线性相关关系。
2、复相关系数:又叫多重相关系数。
复相关是指因变量与多个自变量之间的相关关系。
例如,某种商品的需求量与其价格水平、职工收入水平等现象之间呈现复相关关系。
3、偏相关系数:又叫部分相关系数。
部分相关系数反映校正其它变量后某一变量与另一变量的相关关系,校正的意思可以理解为假定其它变量都取值为均数。
偏相关系数的假设检验等同于偏回归系数的t检验。
复相关系数的假设检验等同于回归方程的方差分析。
4、典型相关系数:是先对原来各组变量进行主成分分析,得到新的线性无关的综合指标,再用两组之间的综合指标的直线相关系敷来研究原两组变量间相关关系。
5、可决系数是相关系数的平方。
意义:可决系数越大,自变量对因变量的解释程度越高,自变量引起的变动占总变动的百分比高。
观察点在回归直线附近越密集。
相关系数意义:相关系数的取值范围系数一般都是在数字前面作为一个领头的应用。
2、相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母r 表示。
由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔逊相关系数。
3、相关表和相关图可反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间相关的程度。
相关系数是用以反映变量之间相关关系密切程度的统计指标。
相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。
4、需要说明的是,皮尔逊相关系数并不是唯一的相关系数,但是最常见的相关系数,以下解释都是针对皮尔逊相关系数。
5、依据相关现象之间的不同特征,其统计指标的名称有所不同。
如将反映两变量间线性相关关系的统计指标称为相关系数(相关系数的平方称为判定系数);将反映两变量间曲线相关关系的统计指标称为非线性相关系数、非线性判定系数;将反映多元线性相关关系的统计指标称为复相关系数、复判定系数等。
相关系数理解与计算

相关系数理解与计算在统计学和数据分析领域中,相关系数是一种用来衡量两个变量之间线性关系强弱的统计量。
在实际数据分析中,理解和计算相关系数是至关重要的,因为它可以帮助我们了解变量之间的关联程度,从而为数据分析和决策提供重要参考依据。
什么是相关系数相关系数是描述两个变量之间关系密切程度的量化指标,通常用r表示。
当相关系数为正时,表示两个变量之间呈正相关关系,即随着一个变量的增加,另一个变量也随之增加;当相关系数为负时,表示两个变量之间呈负相关关系,即随着一个变量的增加,另一个变量会减小;当相关系数接近于0时,表示两个变量之间没有线性关系,或者说关系较弱。
相关系数的计算方法常用的相关系数计算方法包括皮尔逊相关系数和斯皮尔曼相关系数。
皮尔逊相关系数适用于连续变量且满足正态分布的情况,其计算公式为:其中,n为样本量,X和Y分别为两个变量的取值,表示求和。
斯皮尔曼相关系数适用于不满足正态分布或数据类型为等级变量的情况,它通过对原始数据的等级进行计算来衡量变量之间的关系。
相关系数的解释在实际数据分析中,相关系数的取值范围在-1到1之间。
一般来说,相关系数绝对值越接近1,代表两个变量之间的关系越强;当相关系数接近于0时,则表示两个变量之间没有线性关系。
需要注意的是,相关系数只能衡量变量之间的线性关系,对于非线性关系或离群值的影响并不敏感。
因此,在实际数据分析中,除了计算相关系数外,还需要结合数据特点和背景进行综合分析。
相关系数的应用相关系数广泛应用于各个领域的数据分析中。
在金融领域,相关系数可以用来衡量不同证券之间的相关性,帮助投资者进行资产配置和风险管理;在医学研究中,相关系数可以用来分析疾病因素之间的关联,为疾病防控和治疗提供依据。
总之,相关系数作为一种重要的统计量,在数据分析和决策中发挥着重要作用。
通过理解和计算相关系数,我们可以更好地把握数据之间的关系,从而为科学研究和实践应用提供有力支持。
以上是关于相关系数理解与计算的简要介绍,希望对您有所帮助!。
协方差与相关系数深度剖析

协方差与相关系数深度剖析协方差与相关系数是统计学中两个重要的概念,它们可以帮助我们理解变量之间的关系、相互影响程度以及变量之间的变化趋势。
在本文中,我们将对协方差与相关系数进行深入剖析,探讨它们的定义、计算方法、重要性以及实际应用。
什么是协方差?协方差是衡量两个随机变量如何一起变化的统计量。
对于两个随机变量X和Y,它们之间的协方差可以用以下公式表示:其中,和分别是变量X和Y的第i个观测值,和分别是变量X和Y的均值,n为样本容量。
协方差的数值可以为正、负或零。
当协方差为正时,表示X和Y呈正向关系,即两者一起增加或减少;当协方差为负时,表示X和Y呈负向相关,即一个增加时,另一个减少;当协方差为零时,表示X和Y之间没有线性关系。
什么是相关系数?相关系数是协方差的标准化版本,它衡量了变量之间的线性关系强度。
相关系数的取值范围在-1到1之间,当相关系数接近1时,表示变量之间呈正相关;当相关系数接近-1时,表示变量之间呈负相关;当相关系数接近0时,表示变量之间没有线性关系。
相关系数可以通过协方差和各自的标准差计算得出:其中,为X和Y的相关系数,和分别为X和Y的标准差。
协方差与相关系数的比较分析在实际应用中,协方差和相关系数都可以用来衡量变量之间的关系,但相关系数更具优势,因为它消除了量纲的影响,使得不同变量之间的比较更加客观。
此外,相关系数的取值范围在-1到1之间,便于解释两个变量之间的线性关系程度,更直观。
另外,协方差受到变量单位的影响,所以在比较不同数据集时可能会出现偏差。
而相关系数消除了这种影响,使得其在不同数据集之间的比较更加准确。
协方差与相关系数的应用协方差与相关系数在金融领域、经济学、生物学等各个领域都有着重要的应用。
在金融领域,可以用相关系数来衡量不同证券之间的相关性,从而构建投资组合。
在生物学领域,相关系数可以用来分析基因之间的相关性,帮助科研人员理解基因调控网络等。
总的来说,协方差与相关系数是统计学中重要的工具,它们能够帮助我们理解变量之间的关系,预测未来趋势,并在各个领域中发挥重要作用。
统计中的相关性及应用

统计中的相关性及应用相关性是指变量之间的关联程度,它用于度量两个或多个变量之间的关联程度。
在统计学中,相关性是一个重要的概念,它可以帮助我们理解和揭示变量之间的关系,从而进行更准确的预测和决策。
相关性的度量可以使用各种统计方法,其中最常用的是相关系数。
常见的相关系数包括皮尔逊相关系数、斯皮尔曼等级相关系数和刑事者相关系数等。
这些相关系数的取值范围一般在-1到1之间,其中正值表示正相关关系,负值表示负相关关系,而接近0的值表示无关系。
相关性的应用非常广泛,它在各个领域都发挥着重要的作用。
下面我将从几个方面介绍相关性在不同领域的应用。
首先,在经济学和金融学中,相关性可以帮助我们了解不同经济因素之间的关系。
通过分析相关系数,我们可以确定哪些因素对经济增长和金融市场的波动起着重要作用。
例如,在投资组合理论中,相关性被用来确定多个资产之间的相关关系,从而帮助投资者进行风险管理和资产配置。
其次,在医学和生物学研究中,相关性可以揭示不同因素对健康和疾病发展的影响。
通过研究相关性,我们可以确定与疾病发生相关的生活方式、遗传因素和环境因素等。
例如,在流行病学研究中,相关性可以用来确定吸烟和癌症之间的关系,从而提供有关预防和控制癌症的策略。
此外,在市场营销和市场调研中,相关性可以帮助我们了解不同变量对消费者行为和市场需求的影响。
通过分析相关性,我们可以确定哪些因素对特定产品或服务的需求有积极或负面的影响。
例如,在广告效果研究中,相关性可以用来确定广告投放对销售额的影响,从而帮助企业优化广告策略。
最后,在社会科学研究中,相关性可以帮助我们了解不同社会因素之间的相互关系。
通过研究相关性,我们可以确定哪些因素对教育成就、犯罪率和社会不平等等社会问题起重要作用。
例如,在教育研究中,相关性可以用来确定学生家庭背景、学校资源和学业成绩之间的关系。
综上所述,相关性在统计学中是一个重要的概念,它帮助我们理解和揭示变量之间的关系。
相关性的应用非常广泛,在经济学、金融学、医学、生物学、市场营销和社会科学等领域都有重要的作用。
相关系数的理解与计算

相关系数的理解与计算相关系数是统计学中用来衡量两个变量之间关联程度的指标,它可以帮助我们了解两个变量之间的线性关系强弱。
在实际应用中,相关系数被广泛用于数据分析、市场研究、金融领域等各个领域。
本文将介绍相关系数的概念、计算方法以及如何解读相关系数的大小。
### 1. 相关系数的概念相关系数是用来衡量两个变量之间关联程度的统计量,通常用符号$r$表示。
相关系数的取值范围在-1到1之间,其中:- 当相关系数$r$接近1时,表示两个变量之间存在强正相关关系,即一个变量增大时,另一个变量也随之增大;- 当相关系数$r$接近-1时,表示两个变量之间存在强负相关关系,即一个变量增大时,另一个变量会减小;- 当相关系数$r$接近0时,表示两个变量之间不存在线性关系,即两个变量之间不相关。
### 2. 相关系数的计算方法计算两个变量之间的相关系数通常使用皮尔逊相关系数(Pearson correlation coefficient),计算公式如下:$$ r = \frac{\sum_{i=1}^{n}(X_i - \bar{X})(Y_i -\bar{Y})}{\sqrt{\sum_{i=1}^{n}(X_i - \bar{X})^2\sum_{i=1}^{n}(Y_i - \bar{Y})^2}} $$其中,$X_i$和$Y_i$分别表示两个变量的观测值,$\bar{X}$和$\bar{Y}$分别表示两个变量的均值,$n$表示样本数量。
### 3. 相关系数的解读在实际应用中,我们通常根据相关系数的大小来判断两个变量之间的关系强弱:- 当$|r| \geq 0.8$时,表示两个变量之间存在很强的相关关系;- 当$0.5 \leq |r| < 0.8$时,表示两个变量之间存在中等程度的相关关系;- 当$0.3 \leq |r| < 0.5$时,表示两个变量之间存在较弱的相关关系;- 当$|r| < 0.3$时,表示两个变量之间几乎没有相关关系。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
浅析相关系数及其应用
摘要:相关系数是衡量观测数据之间相关程度的一个指标,相关关系是一种非确定性的关系,相关系数是研究变量之间线性相关程度的量,一般情况下,相关系数越大表明相关程度就越高。
本文阐述一下相关系数的概念、意义、分类及应用。
关键词:相关系数概念意义分类应用
在处理测量数据时,经常要研究变量与变量之间的关系。
这一种关系一般可分为两类,一类是函数相关,.另一类是统计相关,研究统计相关的方法有回归分析和相关分析。
这两种方法既有区别又有联系。
它们的区别在于,前者讨论的是一个非随机量和一个随机变量的情形,而后者讨论的两个都是随机变量的情形。
在科学研究中,我们不但要了解一个变量的变化情况,更要进一步了解一个变量与另一个变量之间的关系.变量之间的常见关系有两种:一是确定性函数关系,变量之间的关系可以用函数表示;二是非确定性相关关系,变量之间有一定的关系,但不能完全用函数表达,变量间只存在统计规律.相关和回归是研究变量间线性关系的重要方法.
一、相关系数的几种定义
相关关系是一种非确定性的关系,相关系数是研究变量之间线性相关程度的量。
样本相关系数用r表示,由于研究对象的不同,相关系数有如下几种定义方式。
1、简单相关系数:又称皮尔逊相关系数,又叫相关系数或线性相关系数,一般用字母P 表示,是用来度量变量间的线性关系的量。
2、复相关系数:又叫多重相关系数。
复相关是指因变量与多个自变量之间的相关关系。
例如,某种商品的季节性需求量与其价格水平、职工收入水平等现象之间呈现复相关关系。
3、典型相关系数:是先对原来各组变量进行主成分分析,得到新的线性关系的综合指标,再通过综合指标之间的线性相关系数来研究原各组变量间相关关系。
二、相关系数的意义
相关系数是衡量观测数据之间相关程度的一个指标,一般情况下,相关系数越大表明相关程度就越高。
但是,相关系数只有相对意义,没有绝对意义。
也就
是说,0.99 不代表相关程度一定就高,0.4 也不代表相关程度一定就低,这与样本空间的大小有关。
实际工作中,只要相关关系显著,不必刻意追求高的相关系数。
不同样本空间大小对应一个临界相关系数值,若统计值高于它,就代表相关关系显著,否则,为不显著。
若有30 组数据,临界相关系数为0.361,0.4 的相关系数就代表相关关系显著; 若只有3 组数据,临界相关系
数为0.997,0.99 的相关系数仍代表相关关系不显著。
因此,统计相关系数时必须与临界相关系数对比之后才有意义。
许多人在做相关分析时,得到了0.9 的相关系数,就得出相关关系很好的结论,实在是太离谱了,因为0.9 很可能代表相关关系极不显著。
三、相关系数的性质
相关系数的值介于–1与+1之间,即–1≤r≤+1。
其性质如下:
1、当r>0时,表示两变量正相关,r<0时,两变量为负相关。
2、当|r|=1时,表示两变量为完全线性相关,即为函数关系。
3、当r=0时,表示两变量间无线性相关关系。
4、当0<|r|<1时,表示两变量存在一定程度的线性相关。
且|r|越接近1,两变量间线性关系越密切;|r|越接近于0,表示两变量的线性相关越弱。
5、一般可按三级划分:|r|<0.4为低度线性相关;0.4≤|r|<0.7为显著性相关;
0.7≤|r|<1为高度线性相关。
四、根据变量不同的直线相关系数的分类
在实践中,由于变量的特点不同,常使用不同的相关系数来描述变量间的相关程度。
教育研究中常用的描述变量间直线相关程度的量数主要有积差相关系数、等级相关系数、点二列相关系数和rф系数等。
1、积差相关系数
英国著名统计学家皮尔逊(K Pearson)跟随英国著名科学家高尔顿(F Galton)在合作研究有关人类身高遗传问题的过程中,提出了“回归”的概念以及积差相关分析方法。
对于两个连续的变量(比率变量或等距变量),例如父辈的身高变量和子辈的身高变量之间有什么连带关系;学生的体重与身高变量之间有什么连带关系;不同学科成绩之间有什么样的相互关联;人的智力发展水平同学业成就之间相关程度如何等等,通过观测研究,可以用积差相关分析的方法,
定量地描述两个变量之间的相关强度与方向。
2、等级相关系数
●概念
等级相关是指以等级次序排列或以等级次序表示的变量之间的相关。
等级相关法,不受变量总体分布形态的限制,在科研中应用很广。
常用的等级相关方法主要有斯皮尔曼等级相关和肯德尔和谐系数。
等级相关法适用于具有等级特征的数据资料间的相关分析,也适用于变量间具有线性关系或虽是测量数据但个数较少或不符合正态分布情况下的相关分析。
●优缺点
适用范围广泛,斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关来进行研究。
一组能用积差相关计算的数据,如果改用等级相关,精确度会低于积差相关。
凡符合积差相关条件的,最好不要用等级相关计算。
3、点二列相关系数
如果求相关的两列变量中,其中一个变量是正态连续变量,而另一个变量是实质的二分名义变量,即按照事物性质划分为两类的变量,如男与女、是与非等,或者二分变量来自的总体是否正态连续变量不清楚,描述这样两个变量之间相关程度的方法称为点二列相关。
点二列相关应用:鉴定题目的区分度。
多用于是非题测验时评价测验内部的一致性,即评价测验中某一问题与测验总成绩之间是否具有一致性。
4、rф系数
当相关联的两变量至少有一个实质是二分型的,描述这样两个变量的相关程度用rф系数。
求rф系数,要求同一组资料按两个标志分类,且每个标志下只有两个点值,表明变量的某种属性,并把资料整理成2×2列联表的形式。
五、相关系数的缺点
需要指出的是,相关系数有一个明显的缺点,即它接近于1的程度与数据组数n相关,这容易给人一种假象。
因为,当n较小时,相关系数的波动较大,对
有些样本相关系数的绝对值易接近于1;当n较大时,相关系数的绝对值容易偏小。
特别是当n=2时,相关系数的绝对值总为1。
因此在样本容量n较小时,我们仅凭相关系数较大就判定变量x与y之间有密切的线性关系是不妥当的。
六、相关系数的应用--应注意的几个问题
1、相关系数的取值范围在-1.00至+1.00之间,即-1≤r≤+1。
相关系数的正负号表示相关的方向性,正值表示正相关,负值表示负相关。
相关的程度则以相关系数绝对值的大小来表示。
如相关系数r=0.76和r=-0.76时,相关程度均为0.76,也就是说相关程度上一样的。
2、相关系数是一个比值,不具有等距单位,不是相关量的等单位的度量,所以相关系数之间不能做加、减、乘、除运算。
例如r=0.4 和 r=0.8,当时不能说后者是前者相关程度的两倍,也不能说前者是后者相关程度的二分之一。
3、两变量间存在相关,并不一定存在因果关系,不能以相关程度为依据判断事物间联系的性质,而要从事物的本质方面进行分析,以便的出科学的结论。
4、研究相关,一般要求大样本的成对变量,尤其积差相关系数受样本容量的大小及样本取值范围的影响较大,因此在求积差相关时成对的变量个数以不少于30为好。
5、由于样本相关系数受抽样误差的影响,因此,由样本计算的相关系数需通过显著性检验才能确定是否真正有意义。
参考文献
[1]李传亮.相关系数的意义[J].四川成都:西南石油大学石油工程学院,2010.
[2]朱昌平.相关系数的引出与其意义的理解[J].上海:华东师大学数学系2003级教育硕士,2001(7).
[3]陈炳为,许碧云.等级资料的多项相关、直线相关及秩相关系数的比较[J].现代预防医学 2009 (17) :3206-3207.
[4]谢文采.关于如何确定样本相关系数(r)相关程度的商榷[J].山西农业大学1988(2).
[5]杨遵庆.等级相关系数方法的应用[J].北京商学院学报,1985(2).
[6]李秀敏,江卫华.相关系数与相关性度量[J].河北石家庄:河北科技大学理学院, 2006(12)。