SAS讲义 第三十课Spearman等级相关分析
斯皮尔曼等级相关系数一教学文稿

Spearman Rank(斯皮尔曼等级)相关系数1、简介在统计学中,斯皮尔曼等级相关系数以Charles Spearman命名,并经常用希腊字母ρ(rho)表示其值。
斯皮尔曼等级相关系数用来估计两个变量X、Y之间的相关性,其中变量间的相关性可以使用单调函数来描述。
如果两个变量取值的两个集合中均不存在相同的两个元素,那么,当其中一个变量可以表示为另一个变量的很好的单调函数时(即两个变量的变化趋势相同),两个变量之间的ρ可以达到+1或-1。
假设两个随机变量分别为X、Y(也可以看做两个集合),它们的元素个数均为N,两个随即变量取的第i(1<=i<=N)个值分别用X i、Y i表示。
对X、Y进行排序(同时为升序或降序),得到两个元素排行集合x、y,其中元素x i、y i分别为X i在X中的排行以及Y i在Y中的排行。
将集合x、y中的元素对应相减得到一个排行差分集合d,其中d i=x i-y i,1<=i<=N。
随机变量X、Y之间的斯皮尔曼等级相关系数可以由x、y或者d计算得到,其计算方式如下所示:由排行差分集合d计算而得(公式一):由排行集合x、y计算而得(斯皮尔曼等级相关系数同时也被认为是经过排行的两个随即变量的皮尔逊相关系数,以下实际是计算x、y的皮尔逊相关系数)(公式二):以下是一个计算集合中元素排行的例子(仅适用于斯皮尔曼等级相关系数的计算)这里需要注意:当变量的两个值相同时,它们的排行是通过对它们位置进行平均而得到的。
2、适用范围斯皮尔曼等级相关系数对数据条件的要求没有皮尔逊相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关系数来进行研究。
3、Matlab实现源程序一:斯皮尔曼等级相关系数的Matlab实现(依据排行差分集合d计算,使用上面的公式一)[cpp]view plaincopy1.function coeff = mySpearman(X , Y)2.% 本函数用于实现斯皮尔曼等级相关系数的计算操作3.%4.% 输入:5.% X:输入的数值序列6.% Y:输入的数值序列7.%8.% 输出:9.% coeff:两个输入数值序列X,Y的相关系数10.11.12.if length(X) ~= length(Y)13. error('两个数值数列的维数不相等');14.return;15.end16.17.N = length(X); %得到序列的长度18.Xrank = zeros(1 , N); %存储X中各元素的排行19.Yrank = zeros(1 , N); %存储Y中各元素的排行20.21.%计算Xrank中的各个值22.for i = 1 : N23. cont1 = 1; %记录大于特定元素的元素个数24. cont2 = -1; %记录与特定元素相同的元素个数25.for j = 1 : N26.if X(i) < X(j)27. cont1 = cont1 + 1;28. elseif X(i) == X(j)29. cont2 = cont2 + 1;30. end31. end32. Xrank(i) = cont1 + mean([0 : cont2]);33.end34.35.%计算Yrank中的各个值36.for i = 1 : N37. cont1 = 1; %记录大于特定元素的元素个数38. cont2 = -1; %记录与特定元素相同的元素个数39.for j = 1 : N40.if Y(i) < Y(j)41. cont1 = cont1 + 1;42. elseif Y(i) == Y(j)43. cont2 = cont2 + 1;44. end45. end46. Yrank(i) = cont1 + mean([0 : cont2]);47.end48.49.%利用差分等级(或排行)序列计算斯皮尔曼等级相关系数50.fenzi = 6 * sum((Xrank - Yrank).^2);51.fenmu = N * (N^2 - 1);52.coeff = 1 - fenzi / fenmu;53.54.end %函数mySpearman结束源程序二:使用Matlab中已有的函数计算斯皮尔曼等级相关系数(使用上面的公式二)[cpp]view plaincopy1.coeff = corr(X , Y , 'type' , 'Spearman');注意:使用Matlab自带函数计算斯皮尔曼等级相关系数时,需要保证X、Y均为列向量;Matlab自带的函数是通过公式二计算序列的斯皮尔曼等级相关系数的。
SAS学习系列21.-相关分析

21. 相关分析相关分析和回归分析是研究变量与变量间相互关系的重要方法。
相关分析是研究两个或两组变量之间的线性相关情况,回归分析是拟合出变量间的表达式关系。
(一)Pearson直线相关一、适用于两个变量均为服从正态分布,每对数据对应的点在直角坐标系中(即散点图)呈现直线趋势。
做相关分析时,要注意剔除异常值;相关关系不一定是因果关系。
二、用相关系数r∈[-1,1]来表示相关程度的大小:r>0: 正相关;r<0: 负相关;r=0: 不相关;r=1: 完全正相关;r=-1: 完全负相关。
相关程度的判断标准:看相关系数的平方r2,若r2<0.5,结果无实际价值。
注:相关系数只是刻画直线相关(Y=X2相关系数≠1)。
三、假设检验1. H0: 总体相关系数ρ=0;H1: ρ≠0;计算r值,P值,若P值≤α,则在显著水平α下拒绝H0;2. 若H0成立,从ρ=0的总体中抽样,所得到的样本相关系数r 呈对称分布(近似正态分布),此时可用t 检验。
3. 必要时对相关系数做区间估计从相关系数ρ≠0的总体中抽样,样本相关系数的分布是偏态的。
用Z变换后,服从某种正态分布,估计z,再变换回r.(二)Spearman等级相关,也称Spearman秩相关对于不符合正态分布的资料,不用原始数据计算相关系数,而是将原始观察值由小到大编秩,然后根据秩次来计算秩相关系数r s, 以此来说明两个变量间相关关系的密切程度。
适用于某些不能准确地测量指标值而只能以严重程度、名次先后、反映大小等定出的等级资料;也适用于某些不呈正态分布或难于判断分布的资料。
关于编秩将各X i由小到大编秩得R Xi(1,…n),当遇到相等的值时要用平均秩,例如X2=X4,按编秩为3和4,应该取平均秩R x2=R x4=(3+4)/2=3.5假设检验H0: 总体相关系数ρs=0;H1: ρs≠0;计算r值,P值,若P值≤α,则在显著水平α下拒绝H0;另外,Kendall等级相关系数τ∈[-1,1],也可以对两个变量作等级相关分析,而且可对多个变量作等级相关分析。
斯皮尔曼相关系数

要知道什么是斯皮尔曼等级相关(Spearman Rank Correlation),先了解什么是斯皮尔曼等级相关。
斯皮尔曼等级相关是根据等级资料研究两个变量间相关关系的方法。
它是依据两列成对等级的各对等级数之差来进行计算的,所以又称为“等级差数法”。
斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关来进行研究。
下面就来谈谈斯皮尔曼等级相关系数~~~~~~~~~~~~~~
斯皮尔曼等级相关系数是反映两组变量之间联系的密切程度,它和相关系数r一样,取值在-1到+1之间,所不同的是它是建立在等级的基础上计算的。
等级相关系数亦称为“秩相关系数”,是反映等级相关程度的统计分析指标。
常用的等级相关分析方法有Spearman等级相关和Kendall等级相关等。
等级相关系数的计算步骤:
1、把数量标志和品质标志的具体表现按等级次序编号。
2、按顺序求出两个标志的每对等级编号的差。
3、按下式计算相关系数:Rs=1-[6*∑Di^2/(n*n^2-1)]其中:等级相关系数记为rs,di为两变量每一对样本的等级之差,n为样本容量。
等级相关系数与相关系数一样,取值-1到+1之间,rs为正表示正相关,rs 为负表示负相关,rs等于零为零相关,区别是它是建立在等级的基础上计算的,较适用于反映序列变量的相关。
等级相关系数和通常的相关系数一样,它与样本的容量有关,尤其是在样本容量比较小的情况下,其变异程度较大,等级相关系数的显著性检验与普通的相关系数的显著性检验相同。
Spearman's Rank 史皮尔曼等级相关系数

Level of Measurement
Nominal Scale:
Eg. China, USA, HK,…….
Ordinal Scale:
Eg. Low, Medium, High, Very High,….
Interval Scale:
Eg. 27oC, 28oC, 29oC,…..
Ratio Scale
Reilly’s Break-point
i
Where j = trading centre j i = trading centre i x = break-point = distance between i and j Pi = population size of i Pj = population size of j = break-point distance from j to x
Spearman’s Rank
spearman’s where : rs = spearman s coefficient Di = difference between any pair of ranks N = sample size
Spearman’s Rank
Spearman’s Rank (Examples)
Spearman’s Rank (Examples)
Calculation rs
Comments:
Reilly’s Break-point雷利裂點公
式
Reilly proposed that a formula could be used to calculate the point at which customers will be drawn to one or another of two competing centers.
系统和数据分析Spearman等级相关分析

第三十课 Spearman 等级相关分析一、 秩相关的Spearman 等级相关分析前面介绍了使用非参数方法比较总体的位置或刻度参数,我们同样也可以用非参数方法比较两总体之间的相关问题。
秩相关(rank correlation )又称等级相关,它是一种分析和等级间是否相关的方法。
适用于某些不能准确地测量指标值而只能以严重程度、名次先后、反应大小等定出的等级资料,也适用于某些不呈正态分布或难于判断分布的资料。
设和分别为和各自在变量X 和变量Y 中的秩,如果变量X 与变量Y 之间存在着正相关,那么X 与Y 应当是同时增加或减少,这种现象当然会反映在(,)相应的秩(,)上。
反之,若(,)具有同步性,那么(,)的变化也具有同步性。
因此:∑∑==-==n i ni i i i Q R d d 1122)((30.1)具有较小的数值。
如果变量X 与变量Y 之间存在着负相关,那么X 与Y 中一个增加时,另一个在减小,具有较大的数值。
既然由(,)构成的样本相关系数反映了X 与Y 之间相关与否的信息,那么在参数相关系数的公式),(Y X r 中以和分别代替和,不是同样地反映了这种信息吗?基于这种想法,Charles Spearman 秩相关系数),(Q R r s 应运而生:∑∑∑∑∑∑∑----=22)1()1()1)(1(),(i i i i i ii i s Q n Q R n R Q n Q R n R Q R r (30.2)),(Q R r s 与),(Y X r 形式上完全一致,但在),(Q R r s 中的秩,不管X 与Y 取值如何,总是只取1到之间的数值,因此它不涉及X 与Y 总体其他的内在性质,例如,秩相关不需要总体具有有限两阶矩的要求。
由于:2)1(2111+=+++==∑∑==n n n Q R ni i n i i 6)12)(1(212221212++=+++==∑∑==n n n n Q Rni i ni i因此,公式(30.2)可以化简为:)1(61)1()(612222--=---=∑∑n n d n n Q R r i i i s (30.3)显然在=时,秩相关系数达到最大值+1。
相关分析SAS

1.CORR过程的语句组成* Proc corr options;* Var 变量表;With 变量表;Partial 变量表;By 变量表;2.语句说明(1)选择项optionsPearson 计算通常的pearson相关系数,即直线相关系数,是缺省值。
Spearman 计算spearman等级(秩)相关系数。
Nomiss 将带有某一变量缺失值的观测值从所有计算中除去。
Nosimple 取消打印每个变量的简单描述统计量。
(2)with 语句。
指明配对的变量名。
与var语句配合使用,var语句列出相关矩阵上部出现的变量,with 语句列出左侧出现的变量。
使用with 语句后,把变量分成with组和非with 组,只计算两组间两两对应变量的相关系数。
(3)partial语句。
作偏相关分析时,指定相对固定的那些变量,此时自动激活nomiss项。
注意,partial 语句指定的变量名不能出现在var或with语句中。
10女中学生肺活量相关数据。
Data corr1;Input x1 x2 x3 y ;Label x1=’体重X1/kg ’x2=’胸围X2/cm’x3=’呼吸差X3/cm’ y=’肺活量/ml’;Cards;35 60 0.7 160040 74 2.5 260040 64 2.0 210042 71 3.0 265037 72 1.1 240045 68 1.5 220043 78 4.3 275037 66 2.0 160044 70 3.2 275042 65 3.0 2500;RUN;PROC print label;run;proc corr;var x1 x2 x3 y;proc corr nosimple;var y;with x1 x2 x3;proc corr nosimple;var y;with x2 x3; patial x1; run;。
斯皮尔曼等级相关系数简称

斯皮尔曼等级相关系数简称斯皮尔曼等级相关系数(Spearman's rank correlation coefficient)是一种衡量变量之间相关性的统计指标。
它是根据等级顺序而不是实际数值大小来计算的,因此可以用来分析非线性关系和非正态分布的变量。
斯皮尔曼等级相关系数的取值范围在-1到1之间,其中-1表示完全负相关,1表示完全正相关,0表示没有线性相关。
斯皮尔曼等级相关系数的计算公式为:ρ = 1 - (6Σd^2) / (n^3 - n)其中,ρ为斯皮尔曼等级相关系数,d是两个变量的等级差异,n是观测样本的数量。
斯皮尔曼等级相关系数的应用非常广泛。
首先,在心理学研究中,它常用于衡量两个变量之间的相关性,例如分析个体的智力和成绩之间的关系。
其次,在市场研究中,斯皮尔曼等级相关系数可以被用来评估产品的市场与销售之间的关联性。
此外,在医学研究中,斯皮尔曼等级相关系数可以用来分析疾病的发病率和某种风险因素之间的关系。
斯皮尔曼等级相关系数与皮尔逊相关系数相比,更适用于非正态数据和有序数据分析。
因为等级相关系数基于数据的秩次而非实际数值,所以可以忽略异常值的影响,并且不需要数据满足特定的分布假设。
这使得斯皮尔曼等级相关系数成为一个更稳健、有效的分析工具。
当我们计算斯皮尔曼等级相关系数时,需要注意以下几点。
首先,样本量必须足够大,以保证结果的可靠性。
其次,排除异常值可能对结果产生的影响,因此我们需要先对数据进行检验和处理。
此外,我们还需要注意数据的等级是基于某种标准还是基于个人主观判断。
最后,斯皮尔曼等级相关系数只能衡量变量之间的线性相关性,不能解释因果关系。
综上所述,斯皮尔曼等级相关系数是一种有指导意义的统计指标,适用于分析非线性关系和非正态分布的变量。
它在各个领域都有广泛的应用,既可以用于学术研究,又可以用于实际问题的解决。
在使用时,我们需要注意样本量、异常值、数据等级和相关性的解释。
通过正确地应用斯皮尔曼等级相关系数,我们可以更好地理解变量之间的关系,为决策和预测提供更准确的依据。
斯皮尔曼等级相关系数一

Spearman Rank(斯皮尔曼等级)相关系数1、简介在统计学中,斯皮尔曼等级相关系数以Charles Spearman命名,并经常用希腊字母ρ(rho)表示其值。
斯皮尔曼等级相关系数用来估计两个变量X、Y之间的相关性,其中变量间的相关性可以使用单调函数来描述。
如果两个变量取值的两个集合中均不存在相同的两个元素,那么,当其中一个变量可以表示为另一个变量的很好的单调函数时(即两个变量的变化趋势相同),两个变量之间的ρ可以达到+1或-1。
假设两个随机变量分别为X、Y(也可以看做两个集合),它们的元素个数均为N,两个随即变量取的第i(1<=i<=N)个值分别用X i、Y i表示。
对X、Y进行排序(同时为升序或降序),得到两个元素排行集合x、y,其中元素x i、y i分别为X i在X中的排行以及Y i在Y中的排行。
将集合x、y中的元素对应相减得到一个排行差分集合d,其中d i=x i-y i,1<=i<=N。
随机变量X、Y之间的斯皮尔曼等级相关系数可以由x、y或者d计算得到,其计算方式如下所示:由排行差分集合d计算而得(公式一):由排行集合x、y计算而得(斯皮尔曼等级相关系数同时也被认为是经过排行的两个随即变量的皮尔逊相关系数,以下实际是计算x、y的皮尔逊相关系数)(公式二):以下是一个计算集合中元素排行的例子(仅适用于斯皮尔曼等级相关系数的计算)这里需要注意:当变量的两个值相同时,它们的排行是通过对它们位置进行平均而得到的。
2、适用范围斯皮尔曼等级相关系数对数据条件的要求没有皮尔逊相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关系数来进行研究。
3、Matlab实现源程序一:斯皮尔曼等级相关系数的Matlab实现(依据排行差分集合d计算,使用上面的公式一)[cpp]view plaincopy1.function coeff=mySpearman(X,Y)2.%本函数用于实现斯皮尔曼等级相关系数的计算操作3.%4.%输入:5.%X:输入的数值序列6.%Y:输入的数值序列7.%8.%输出:9.%coeff:两个输入数值序列X,Y的相关系数10.11.12.if length(X)~=length(Y)13.error('两个数值数列的维数不相等');14.return;15.end16.17.N=length(X);%得到序列的长度18.Xrank=zeros(1,N);%存储X中各元素的排行19.Yrank=zeros(1,N);%存储Y中各元素的排行20.21.%计算Xrank中的各个值22.for i=1:N23.cont1=1;%记录大于特定元素的元素个数24.cont2=-1;%记录与特定元素相同的元素个数25.for j=1:N26.if X(i)<X(j)27.cont1=cont1+1;28.elseif X(i)==X(j)29.cont2=cont2+1;30.end31.end32.Xrank(i)=cont1+mean([0:cont2]);33.end34.35.%计算Yrank中的各个值36.for i=1:N37.cont1=1;%记录大于特定元素的元素个数38.cont2=-1;%记录与特定元素相同的元素个数39.for j=1:N40.if Y(i)<Y(j)41.cont1=cont1+1;42.elseif Y(i)==Y(j)43.cont2=cont2+1;44.end45.end46.Yrank(i)=cont1+mean([0:cont2]);47.end48.49.%利用差分等级(或排行)序列计算斯皮尔曼等级相关系数50.fenzi=6*sum((Xrank-Yrank).^2);51.fenmu=N*(N^2-1);52.coeff=1-fenzi/fenmu;53.54.end%函数mySpearman结束源程序二:使用Matlab中已有的函数计算斯皮尔曼等级相关系数(使用上面的公式二)[cpp]view plaincopy1.coeff=corr(X,Y,'type','Spearman');注意:使用Matlab自带函数计算斯皮尔曼等级相关系数时,需要保证X、Y均为列向量;Matlab 自带的函数是通过公式二计算序列的斯皮尔曼等级相关系数的。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三十课 Spearman 等级相关分析一、 秩相关的Spearman 等级相关分析前面介绍了使用非参数方法比较总体的位置或刻度参数,我们同样也可以用非参数方法比较两总体之间相关问题。
秩相关(rank correlation )又称等级相关,它是一种分析i x 和i y 等级间是否相关的方法。
适用于某些不能准确地测量指标值而只能以严重程度、名次先后、反映大小等定出的等级资料,也适用于某些不呈正态分布或难于判断分布的资料。
设i R 和i Q 分别为i x 和i y 各自在变量X 和变量Y 中的秩,如果变量X 与变量Y 之间存在着正相关,那么X 与Y 应当是同时增加或减少,这种现象当然会反映在(i x ,i y )相应的秩(i R ,i Q )上。
反之,若(i R ,i Q )具有同步性,那么(i x ,i y )的变化也具有同步性。
因此∑∑==-==n i ni i i i Q R d d 1122)((30.1)具有较小的数值。
如果变量X 与变量Y 之间存在着负相关,那么X 与Y 中一个增加时,另一个在减小,d 具有较大的数值。
既然由(i x ,i y )构成的样本相关系数反映了X 与Y 之间相关与否的信息,那么在参数相关系数的公式),(Y X r 中以i R 和i Q 分别代替i x 和i y ,不是同样地反映了这种信息吗?基于这种想法,Charles Spearman 秩相关系数),(Q R r s 应运而生:∑∑∑∑∑∑∑----=22)1()1()1)(1(),(i i i i i ii i s Q n Q R n R Q n Q R n R Q R r (30.2)),(Q R r s 与),(Y X r 形式上完全一致,但在),(Q R r s 中的秩,不管X 与Y 取值如何,总是只取1到n 之间的数值,因此它不涉及X 与Y 总体其他的内在性质,例如秩相关不需要总体具有有限两阶矩的要求。
由于2)1(2111+=+++==∑∑==n n n Q R ni i n i i 6)12)(1(212221212++=+++==∑∑==n n n n Q R ni i n i i因此公式(30.2)可以化简为)1(61)1()(612222--=---=∑∑n n d n n Q R r i i i s (30.3)显然在i R =i Q 时,秩相关系数s r 到达最大值+1。
又因为i i i i i i i i Q R n n n Q R Q R Q R ∑∑∑∑∑-++=-+=-23)12)(1(2)(222而iiQ R ∑在每对iR +iQ =1+n 时到达最小值,最小值求法为i i i i Q R Q R n ∑∑∑∑++=+2)1(222所以最小的iiQ R ∑为6)12)(1(2)1(2++-+n n n n n 最大的2)(∑-i i Q R 为3)1()1(3)12)(1(222-=+-++n n n n n n n故秩相关系数s r 的最小值为1-2=-1。
在原假设i R 和i Q 不相关的情况为真时,即秩相关系数为0时,s r 的期望值s r μ为0,样本的方差为2122--=n r s s r s(30.4)自由度为2-n 且分布关于零点对称。
当≥n 10时,s r 的样本分布可以标准化为近似的t 分布)2(~1221022---=---=-=n t r n r n r r s r t sss s r r s ssμ (30.5)例30.1某公司想要知道是否职工期望成为好的销售员而实际上就能有好的销售记录。
为了调查这个问题,公司的副总裁仔细地查看和评价了公司10个职工的初始面试摘要、学科成绩、推荐信等材料,最后副总裁根据他们成功的潜能给出了单独的等级评分。
二年后获得了实际的销售记录,得到了第二份等级评分,见表30.1中的第1到4列所示。
统计问题为是否职工的销售潜能与开始二年的实际销售成绩一致。
表30.1 职工的销售潜能与销售成绩的秩相关分析 职工编号潜能等级i R销售成绩成绩等级i Qi i i Q R d -= 2i d1 2 400 1 1 1 2 4 360 3 1 1 3 7 300 5 2 4 4 1 295 6 -5 25 5 6 280 7 -1 1 6 3 350 4 -1 1 7 10 200 10 0 0 8 9 260 8 1 1 9 8 220 9 -1 1 105385239 =∑2id44Spearman 秩相关系数),(Q R r s 的计算过程见表4.10中的第5到6列所示,最后计算结果为7333.0)1100(10)44(61)1(6122=--=--=∑n n d r i s表明潜能与成绩之间是较强的正相关,高的潜能趋向于好的成绩。
秩相关系数),(Q R r s 原假设为0的t 检验统计量为05.3)7333.0(12107333.02=--=t查表自由度为8,t =3.05的双侧p =0.0158。
在0.05显著水平上,t 分布的上临界点为2.30,由于3.05>2.30,所以拒绝秩相关系数为0的原假设,接受潜能与成绩之间存在秩相关。
二、 Corr 相关过程Corr 相关过程用于计算变量之间的相关系数,包括Pearson (皮尔逊)的乘积矩相关和加权乘积矩相关。
还能产生三个非参数的关联测量:Spearman 的秩相关,Kendall 的tau-b 和Hoeffding 的相关性度量D 。
该过程也可以计算偏相关等一些单变量的描述性统计量。
1. Corr 过程说明proc corr 过程一般由下列语句控制:proc corr data=数据集 <选项>;var 变量列表; with 变量列表 ; partial 变量列表 ; weight 变量 ; freq 变量 ; By 变量列表 ; run ;proc corr语句调用corr过程,且是唯一必须的语句。
如果只使用proc corr这一条的语句,过程计算输入数据集中所有数值变量之间的相关系数。
其余语句是供选择的。
2. proc corr语句的选项●outp=数据集名——产生含有Pearson相关系数的一个新数据集。
●outs=数据集名——产生含有Spearman等级相关系数的一个新数据集。
●outk=数据集名——产生含有Kendallτb相关系数的一个新数据集。
●outh=数据集名——产生含有Hoeffding D统计量的一个新数据集。
●pearson——要求计算通常的pearson乘积矩相关系数,是缺省值。
●hoeffding——要求计算并输出Hoeffding 的D统计量。
●kendall——要求计算并输出Kendallτb相关系数。
●spearman——要求计算并输出Spearman等级相关系数。
●vardef=df | weight | wgt | wdf——指定计算方差时的除数:df(自由度n–1),weight或wgt(权重之和),n(观察数),wdf(权重之和-1)。
缺省值为df。
●cov——计算协方差–方差矩阵。
●sscp——要求输出平方和与交叉积和。
●csscp——要求输出偏差平方和与交叉积和。
●best=数值——对每个变量输出指定个数的绝对值最大的相关系数。
●noprint——禁止所有打印输出。
●noprob——禁止输出同这些相关有联系的显著性概率。
●nosimple——对原始数据执行标准方差分析。
●rank——要求按绝对值从高到低的次序对每个变量输出相关系数。
●nocorr——抑制Pearson相关的计算及输出。
●nomiss——将带有某一变量缺失值的观测值从所有计算中除去。
●nosimple——不输出每个变量的简单描述性统计量。
3. var语句该语句列出要计算相关系数的变量。
例如var a b c;则计算a和b,a和c,b和c三对变量之间的相关系数。
4. with语句为了得到变量间的特殊组合的相关系数,该语句和var语句联合使用。
用var语句列出的变量在输出相关阵的上方,而用with语句列出的变量竖在相关阵左边。
例如var a b;with x y z;则生成x和a,y和a,z和a,x和b,y和b,z和b。
5. partial语句为了计算Pearson偏相关,Spearman偏秩相关,Kendall偏tau-b,用该语句给出偏出去(即固定)的变量名。
6. weight语句为了计算加权的乘积矩相关系数,用该语句给出权数变量名。
该语句仅用于Pearson相关。
7. freq语句当规定freq语句时,输入数据集中的每个观察假定代表n个观察,其中n是该观察中freq 变量中的值。
观察的总数规定为freq变量值的和。
8. by语句使用by语句能够获得用by变量定义的分组观察的独立分析结果。
三、实例分析例30.1的SAS程序如下:data study.persons ;input x y @@;y=400-y;cards;2 400 4 360 7 300 1 295 6 2803 350 10 200 9 260 8 220 5 385;proc corr data=study.persons spearman;var x;with y;run;程序说明:建立输入数据集persons ,要注意实际数据所表示的等级次序大小与SAS系统中自动给出的等级次序大小的不同。
输入变量x,获得从1到10的数据,表示潜能等级从最高到最低,而输入变量y,获得从最大销售额400到最小销售额220,转换销售成绩等级应该是从高到低,即从1到10。
但在SAS系统中把销售成绩数值从小到大按等级值从1到10给予。
因此需要颠倒变量x或变量y中数值大小的次序,本程序用最大销售额400减去原来的销售额实现次序颠倒,即语句y=400-y。
等级相关与一般参数相关一样仍然调用corr过程,只需要在选择项中指定为何种等级相关,我们选择计算spearman秩相关系数。
var语句列出要计算相关系数的第一个变量x,with语句必须要与var语句联合使用,列出的要计算相关系数的第二变量y。
主要结果见表30.2所示。
Correlation Analysis1 'WITH' Variables: Y1 'VAR' Variables: XSimple StatisticsVariable N Mean Std Dev Median Minimum Maximum Y 10 95.000000 67.905163 102.500000 0 200.000000 X 10 5.500000 3.027650 5.500000 1.000000 10.000000Spearman Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 10XY 0.733330.0158表30.2 用corr过程进行多样本输出结果结果说明:Spearman等级相关系数为0.73333,是一个比较大的正相关系数。