双变量关联性分析(研)

广东医学院公共卫生学院

统计与流行病学教研室

黄志刚

?前面描述性统计及假设检验只涉及到一个变量,如体重、红细胞数、血压下降值等,着重于描述某一变量的统计特征或比较该变量的组间差别。?在大量的医学问题研究中常常还要分析两个随机变量之间的关系,如体重与肺活量、年龄与血压之间是否存在线性联系,此联系是正向还是负向以及联系的程度如何?

?如果两个连续型变量X和Y 都随机变动且不分主次,可通过线性相关(linear correlation)分析来估计它们之间可能存在的线性联系的方向与程度。

?两个随机变量X 和Y ,可以是对同一观察单位同时测量X 与Y 的数值,也可以是测量成对观察单位的同一变量或不同变量的数值,而产生一对观察值。

?为讨论父子身高间的线性相关程度,南方某地在应届中学毕业生花名册中随机抽取20 名男生,分别测量他们和他们的父亲的身高(cm),得样本资料如下表所示:

?考察相关性最简单而直观的办法是散点图(scatter plot)

?以两条互相垂直的座标轴分别表示两个变量,n 对观察值对应于座标平面的n 个点,便构成一幅散点图。

散点图

第一节直线相关

一、概述

概念

又称简单相关或Pearson相关分析,用于研究具有直线关系的两个变量间相关关系的密切程度与相关方向的一种统计分析方法

应用条件

要求两个变量均服从正态分布

(双变量正态分布)

相关系数的意义及计算

又称积差相关系数或Pearson相关系数,说明具有直线关系的两个变量间相关关系的密切程度与相关方向的指标

r表示样本相关系数,ρ表示总体相关系数

?没有单位,取值介于-1与1之间

?相关方向用正负号表示

?相关的密切程度用绝对值表示

()()()()

22

xy xx yy

l x x y y r l l x x y y --=

=

--∑∑∑

?-1 ≤ r ≤1

r 值为正——正相关

为负——负相关

|r|=1 ---完全相关

r=0 ---零相关

相关关系密切程度的判断

低度相关

中度相关

高度相关

4

.0≤r 7

.04.0<

.0≥r

相关关系图示

变量相关关系的类型

?【例12-1】2000年测得某地16名7岁男孩体重与胸围资料,见表12-1。

表12-1 2000年某地16名7岁男孩体重与胸围资料编号12345678 910111213141516体重(kg)24.527.023.528.523.026.726.824.6

24.819.719.517.220.019.020.221.0

胸围(cm)61.062.060.064.059.358.458.658.7

58.556.055.654.553.052.058.057.0

散点图

计算例12-1中体重与胸围间相关系数

●计算基础数据,并列成相关系数计算表

●求出、、、、(见表12-2)

代入公式,求出相关系数

∑x ∑y ∑2x ∑2

y ∑xy r

表12-2 2000年某地16名7岁男孩体重与胸围相关系数计算表

编号(1)x体重(kg)

(2)

y胸围(cm)

(3)

x2

(4)=(2)2

y2

(5)=(3)2

xy

(6)=(2)×(3)

124.561.0600.253721.001494.50 227.062.0725.003844.001674.00 323.560.0552.253600.001410.00 428.564.0812.254096.001824.00………………1520.258.0408.043364.001171.60 1621.057.0441.003249.001197.00

合计366.0926.68548.3053813.5621332.38∑x∑y∑2x∑2y∑xy

?x 的离均差平方和

?y 的离均差平方和

?x 与y 间的离均差积和

()()2

2

2

yy y l y y y

n

=-=-

∑∑∑()()2

2

2

xx x l x x x

n

=-=-

∑∑∑()()()()xy x y l x x y y xy n

=--=-

∑∑∑∑

22

366926.6

21332.38160.8343366926.68548.3053813.561616r ?-

==????-- ???

?

???()()()()

2

2

xy xx yy

l x x y y r l l x x y y --=

=

--∑∑∑

第十一章双变量统计分析

第^一章双变量统计分析 在社会学研究中,不但要了解一个变量的情况,更要进一步了解一个变量与另一个变量之间的关系。在这一讲中我们介绍几种双变量的统计分析方法。 一、交互分类表 交互分类表又称列联表,是指同时依据两个变量的值,将所研究的个案分类。交互分类的目的是将两变量分组,然后比较各组的分布状况,以寻找变量间的关系。 1、条件次数表:表10-1是交互分类表的一个例子: (1)表中的次数分布是同时根据文化水平和工资收入而定,如大专以上高收入的有26人。从表中可以清楚地知道每种文化水平的工资收入的次数分布,因此这样的表又称为条件次数表。在表的最下一行和最右一列分别是不同文化水平和不同收入的总次数,称为边缘次数,它们的分布情况称为边缘分布;表中的其它次数,称为条件次数,每一条件下的分布称为条件分布。 (2)条件次数表有大小之分,计算的方法,通常是将因变量的数目乘上自变量的数目。如果我们将因变量放在表的旁边,将自变量放于表的上端,则表的大小就是横行数目(rows简写r)乘上纵行数目(columns简写c),即表的大小=r X C。这个先后次序的用意是表示前者(因变量)是受后者(自变量)影响的。 要注意的是,3X 2表不同于2X 3表,因为前后两个数值代表不同的变量,包含不同类别数。

2、条件百分表: 条件次数表中的数字是绝对数字,由于各个类别的基数不同,相互之间无法进行比较,因而不能看出两变量之间的关系。为克服条件次数表的这一缺点,使各个类别之间可以比较,应将表中的绝对数字转变成相对数字——百分数,这样制成的表称为条件百分表。如上表可改成百分表为: 在计算条件百分表时,最好能依据下列准则: (1)每个表的顶端要有表号和标题。加上表号,可以方便讨论和减少混乱。简明标题,能使读者容易领会表内统计数值的意义。 (2)绘表时所用的线条,要尽可能简短。舍去不必要的线条,可以节省绘制的功夫,也会令人对表中的数值一目了然。 (3)在表上层的自变量每个值之下的%号,表示下列的数值是百分率。如果表内每个数值都附有%符号,就太繁复了。 (4)计算百分比表通常是按照自变量的方向,因为研究的目的是要了解自变量对因变量的影响,理应计算在不同的自变量情况下,因变量的变化如何。如上表是要分析教育水平对工资收入的影响,各个百分率所表示的,是在不同的教育水平中的工资收入情况。如果教育水平不同,工资收入也不同,就表示教育对工资是有影响的了。 (5)表下层括弧内的数值,表示在计算百分率时所依据的个案总数。写出这些数值,可以使我们知道各列百分率的基础,同时也使我们可以随时将百分率数值变回原来的次数值。

excel两个工作表双变量分析

lklangzi| 2008-12-4 19:27

然后表二的数据在E,F,G,H,I 列(行列交叉处为空白,即E1),整个数据范围为E1:I8 然后在E1输入 =FV(B2,60,B1) 然后选中E1:I8 点击双变量求解菜单 在行引用中输入B1,列引用中输入B2 ************* 如果不明白,可以发消息给我,我发个样表给你 如果在表2中的数据象上面的一样,那在B2中输入: =FV($A2/12,60,B$1) 不知是不是这个意思? ? 2008-12-04 20:27 ? 回复 ? ? lklangzi ? 21位粉丝 ? 6楼 谢谢。我知道答案后会一地时间 和大家分享。也请大家多帮帮我。 ? 2008-12-04 20:27 ? 回复 ? 行天2000 ? 4位粉丝 ? 7楼 再看了下楼主的要求,似乎有两种理解。“每月存款额”变化是指一 个人每个月存的钱不同呢,还是不同的人每月存的钱(一个人每个 月存的钱相同)不同?另外,“年利率”是每年都在变化,还是在60个月中是固定不变的? ? 2008-12-04 21:18 ? 回复 ? ? lklangzi 8楼

假设你表一的数据在A,B两列(共4行,文字在A列.数字在B列) 你将它复制到表二的A1:B4 然后表二的数据在E,F,G,H,I列(行列交叉处为空白,即E1),整个数据 范围为E1:I8 然后在E1输入 =FV(B2,60,B1) 然后选中E1:I8 点击双变量求解菜单 在行引用中输入B1,列引用中输入B2 上面这个好像就是这道题的最好解答了。 双变量好像不能在两个表格里计算。

非参数双变量相关分析方法

通讯作者:陈平雁 非参数双变量相关分析方法Spearman 和 Kendall 的Monte Carlo 模拟比较 南方医科大学公共卫生与热带医学学院生物统计学系(510515) 胡 军 张 超 陈平雁 提 要 目的 对Spear man 和K endall s tau -b 两种非参数双变量相关分析方法在偏态分布和等级变量条件下进行模拟比较。方法 应用SAS 9 13软件编程,采用M onte Carlo 方法,设置不同偏态分布类型、样本量及总体相关系数,比较两种非参数方法的样本相关系数及相对误差的大小。结果 Spear man 方法较之Kendall 方法,估计的相关系数与总体相关系数更为接近,且相对误差更小。结论 在双变量为偏态分布和等级变量条件下,Spearman 法优于Kendall 方法。 关键词 非参数相关 模拟研究 Spear man 法 K endall s tau -b 法 对于双变量相关分析,无论是教科书还是权威统计软体SAS 及SPSS 等,通常介绍的方法为Pearson 积差相关系数,Spearman 和Kendall s tau -b 秩相关系数。Pearson 相关适用于双变量正态分布的数据, Spearman 和Kendall s 秩相关适用于等级资料、非双变量正态分布的资料以及分布不确定的数据 1-5 。 一般而言,当资料服从双变量正态分布时,使用Pear -son 法是无可争议的,而且较非参数方法效率高也是无争议的。但在偏态分布或等级变量条件下,Spear -man 法和Kendall 法两种非参方法何者为优却未见报道。为此,本研究拟对两方法进行模拟比较,以期为资料分析时选择方法提供参考。 模拟研究方法 采用Monte Carlo 方法,利用SAS 中IML 矩阵运算模块及随机数函数从双变量偏态分布总体进行抽样。总体相关系数 设置为0 3、0 6及0 9。样本量n 设置为10、30、60及100。在每个总体中按样本量的不同重复抽样2000次,而后计算并比较各种条件下样本相关系数与总体相关系数的相对误差,即 相对误差=(r - )/ 。 偏态分布双变量数据的获得可参照Fleishman 的研究结果 6 ,由标准正态分布进行转换,其公式为: Y =a +bz +cZ 2+dZ 3 其中Y 为服从一定偏度和峰度的偏态分布随机变量,Z 为标准正态分布随机变量,a 、b 、c 、d 为参数,a =-c 。本研究设置两种偏态分布类型: 偏度系数 1=0 75,峰度系数 2=1 2; 1=2, 2=7。 等级资料数据的生成,先由SAS 中IM L 矩阵运算模块及随机数函数从双变量标准正态分布总体进行抽样,而后将连续型计量数据划分为等级资料。具体作法如表1。 表1 标准正态分布数据转化为等级资料的具体设置 连续性变量等级变量 X -21-22 8 结 果 1 双变量偏态分布 图1和图2描绘了不同参数组合下Spearman 法(方法S)和Kendall 法(方法K)的相对误差。由两图可见,两种偏度和峰度系数设置的结果相近。样本相关系数r 均低于总体相关系数 。样本量的变化对结果影响不大。随总体相关系数的不同,Spearman 法变化不大;Kendall 法则有较大波动,总体相关系数愈小相对误差愈大。Spearman 法的相对误差明显小于Kendall 法,即Spearman 方法的样本相关系数r 均比Kendall 方法更接近总体相关系数 。 图1 偏态分布下Spear man 与K endall 方法相对误差 对比图( 1=0 75, 2=1 2) 590 中国卫生统计2008年12月第25卷第6期

第十一章双变量统计分析

第十一章双变量统计分析 在社会学研究中,不但要了解一个变量的情况,更要进一步了解一个变量与另一个变量之间的关系。在这一讲中我们介绍几种双变量的统计分析方法。 一、交互分类表 交互分类表又称列联表,是指同时依据两个变量的值,将所研究的个案分类。交互分类的目的是将两变量分组,然后比较各组的分布状况,以寻找变量间的关系。 1、条件次数表:表10-1是交互分类表的一个例子: 表10-1 500名工人的文化水平与工资收入交互分类表(人) (1)表中的次数分布是同时根据文化水平和工资收入而定,如大专以上高收入的有26人。从表中可以清楚地知道每种文化水平的工资收入的次数分布,因此这样的表又称为条件次数表。在表的最下一行和最右一列分别是不同文化水平和不同收入的总次数,称为边缘次数,它们的分布情况称为边缘分布;表中的其它次数,称为条件次数,每一条件下的分布称为条件分布。 (2)条件次数表有大小之分,计算的方法,通常是将因变量的数目乘上自变量的数目。如果我们将因变量放在表的旁边,将自变量放于表的上端,则表的大小就是横行数目(rows简写r)乘上纵行数目(columns简写c),即表的大小=r ×c。这个先后次序的用意是表示前者(因变量)是受后者(自变量)影响的。要注意的是,3×2表不同于2×3表,因为前后两个数值代表不同的变量,包含

不同类别数。 2、条件百分表: 条件次数表中的数字是绝对数字,由于各个类别的基数不同,相互之间无法进行比较,因而不能看出两变量之间的关系。为克服条件次数表的这一缺点,使各个类别之间可以比较,应将表中的绝对数字转变成相对数字——百分数,这样制成的表称为条件百分表。如上表可改成百分表为: 表10-2 500名工人文化水平与工资收入的交互百分表(%) 在计算条件百分表时,最好能依据下列准则: (1)每个表的顶端要有表号和标题。加上表号,可以方便讨论和减少混乱。简明标题,能使读者容易领会表内统计数值的意义。 (2)绘表时所用的线条,要尽可能简短。舍去不必要的线条,可以节省绘制的功夫,也会令人对表中的数值一目了然。 (3)在表上层的自变量每个值之下的%号,表示下列的数值是百分率。如果表内每个数值都附有%符号,就太繁复了。 (4)计算百分比表通常是按照自变量的方向,因为研究的目的是要了解自变量对因变量的影响,理应计算在不同的自变量情况下,因变量的变化如何。如上表是要分析教育水平对工资收入的影响,各个百分率所表示的,是在不同的教育水平中的工资收入情况。如果教育水平不同,工资收入也不同,就表示教育对工资是有影响的了。 (5)表下层括弧内的数值,表示在计算百分率时所依据的个案总数。写出这些

第十一章 两变量关联性分析

第十一章两变量关联性分析习题 一、是非题 1、Pearson相关系数的假设检验.苦结论为不拒绝H0,可以认为两变量间无关系. () 2、在同样样本量的情况下.Pearson相关系数|r|越接近1(P<0.05).说明两变量间直线关系越密切. ( ) 3、计算关联系数时两随机变量不能为无序分类资料. () 4、|r|越大(P<0.05),说明X对Y的影响幅度越大. () 5、ρ≠0,意味着X和Y之间的因果关系成立. () 二、选择题 1.下列式中可以取负值的是: A.l xx B.l xy C.l yy D.关联系数 2.直线相关系数的假没检验,其自由度为: A.n B.n-1 C.n-2 D.2n-1 3.计算Pearson相关系数要求: A.应变量Y是正态变量.而自变量X可以不满足正态的要求 B.自变量X是正态变量.而应变量Y可以不满足正态的要求 C.应变量Y是定量指标.而自变量X可以是任何类型的数据 D.两变量都要求为满足正态分布规律的随机变量 4.两组资料进行相关性分析.一个r0.01,v1>r1>r0.05,v1,另一个r2>r0.01,v2,可认为:A.第l组资料两变量关系密切

B.第2组资料两变量关系密切 C.很难说哪一组变量关系密切 D.t r1>t r2 三、筒答题 1.r、r s和列联系数的应用条件有何不同? 2.应用线性相关分析时应该意哪些问题? 3.线性相关分析的基本步骤是什么? 4.关联性分析的χ2检验与两个或多个频数分布比较的χ2检验的设计和意义有什么区别? 5.线性相关分析中绘制散点图的目的是什么?能否用散点图来代替相关系数?

SPSS双变量相关性分析

数学建模SPSS 双变量相关性分析 关键词:数学建模相关性分析SPSS 摘要:在数学建模中,相关性分析是很重要的一部分,尤其是在双变量分析时, 要根据变量之间的联系建立评价指标,并且通过这些指标来进行比对赋值而做出 评价结果。本文由数学建模中的双变量分析出发, 首先阐述最主要的三种数据分 析:Pearson 系数,Spearman 系数和Kendall 系数的原理与应用,再由实际建模 问题出发,阐述整个建模过程和结果。 相关性分析是指对两个或多个具备相关性的变量元素进行分析, 从而衡量两 个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才 可以进行相关性分析。相关性不等于因果性,也不是简单的个性化,相关性所涵 盖的范围和领域几乎覆盖了我们所见到的方方面面,相关性在不同的学科里面的 定义也有很大的差异。 双变量相关分析中有三种数据分析:Pearson 系数,Spearman 系数和Kendall 系数。 Pearson 相关系数用来衡量两个数据集合是否在一条线上面,它用来衡量定 距变量间的线性关系。如衡量国民收入和居民储蓄存款、身高和体重、高中成绩 和高考成绩等变量间的线性相关关系。 当两个变量都是正态连续变量,而且两者 之间呈线性关系时,表现这两个变量之间相关程度用积差相关系数,主要有 Pearson 简单相关系数r 。 X X Y Y r ------------------------------------- 2 — 2 \ X X Y Y Spearman 相关系数又称秩相关系数,是利用两变量的秩次大小作线性相关 分析,对原始变量的分布不作要求,属于非参数统计方法,适用范围要广些。对 于服从Pearson 相关系数的数据亦可计算 Spearman 相关系数,但统计效能要低 一些。Spearman 相关系数的计算公式可以完全套用 Spearman 相关系数计算公式, 但公式中的x 和y 用相应的秩次代替即可。 设有n 组观察对象,将Xi 、Yi (i=1,2,…,n )分别由小到大编秩。并用 Pi 表示Xi 的秩,Qi 表示Yi 的秩 两者秩和为: 两者平均秩为: 秩相关系数r s 计算公式为: l XY l XX I YY n(n + 1) 2 =(n + 1) =2 Pave

实验四双变量资料的统计分析(精)

实验五双变量资料的统计分析 一、某单位研究代乳粉营养价值时,用大白鼠做实验,得到大白鼠进食量(g 和体重增加量 (g的数据如下: 8只大白鼠的进食量(g 和体重增加量(g 鼠号 1 2 3 4 5 6 7 8 进食量 X 800 780 720 867 690 787 934 750 体重增加量 Y 185 158 130 180 134 167 186 133 1、此资料有无可疑的异常点? 2、求直线回归方程并对回归系数作假设检验。 3、试估计进食量为 900克时,大白鼠的体重平均增加多少,计算其 95%的可信 区间,并说明其含义。 4、求进食量为 900克时,个体 Y 值的 95%容许区间,并解释其意义。 二、 10名 20岁男青年身高与前臂长如下: 身高 (cm Y 170 173 160 155 173 188 178 183 180 165 前臂长 (cm X 45 42 44 41 47 50 47 46 49 43 1、计算相关系数并对其进行假设检验。 2、计算总体相关系数的 95%可信区间。 3、计算身高 Y 对前臂长 X 的回归方程及前臂长 X 对身高 Y 的回归方程,并分 别对两回归系数进行假设检验。 三、思考题及名词解释

1、相关系数与回归系数的联系和区别? 2、直线回归分析时怎样确定自变量和因变量? 3、剩余标准差的意义与用途? 4、某资料 n=100, X 与 Y 的相关系数 r=0.2,查 r 界值表,得 P<0.05,可否认为 X 与 Y 有较密切的相关关系? 5、直线相关与直线回归的区别及联系? 6、试总结从样本数据判断总体回归关系是否成立的统计方法有哪些? ? 7、现有根据 10对数 据算出的直线回归方程:Y?2.1?0.8X ,只有 X 和 Y 的 均数,标准差,而原始数据丢失时如何判断回归方程是否成立? 8、在应用直线回归方程进行预测时,为什么一般不主张外延? 9、相关系数回归系数剩余标准差

第十一章两变量关联性分析实习指导(定)资料

第十章 两变量关联性分析 [教学要求] 了解:利用散点图分析样本相关系数可能出现的各种假象,并作出合理解释。 熟悉:对不同类型的变量,用不同的统计方法去分析它们之间的关系。 掌握:利用散点图确定两个定量变量之间有否线性关系;能把握利用Pearson 积差相关、Spearman 等级相关的应用条件并能计算相应的相关系数,同时进行假设检验;对分类计数频数表资料的两变量间的关联性作定量分析。 [重点难点] 第一节 线性相关 对服从正态分布的两变量随机样本,可通过绘制散点图,观察发现有线性趋势之后,进而计算Pearson 积差相关系数; ∑∑∑===----==n i n i n i yy xx xy y y x x y y x x l l l r 112 2 1)()())(( 对积差相关系数r 的假设检验可用查表法或t 检验。 这里要注意的是不可用相关系数检验所得P 值的大小来判断有否线性关系。一定要先绘制散点图,看出两变量间有线性趋势时,再计算积差相关系数,这应该视为一种规范的做法。 第二节 秩相关 对不满足正态分布的两变量随机样本,可采用Spearman 秩相关来分析。这里的不满足正态分布包括非正态变量,也包括总体分布规律未知的变量;不满足正态分布的可以是双变量中的一个,也可以是两个。 教材中的例10-5是研究2~7岁急性白血病患儿的血小板数与出血症状程度之间的相关性,其中,血小板数是定量资料,是否正态暂且不论,而出血症状是一个等级资料,因而这一对变量不满足

Pearson 积差相关的应用条件,只能采用秩相关性系数作相关的量化分析。 Spearman 秩相关系数或等级相关系数的计算公式同Pearson 积差相关系数的计算公式形式上一样,但在计算秩相关性时不再用原来的数据,而是对两变量分别排序编秩,以各数据对应的秩次代入Pearson 积差相关系数的计算公式中去计算;秩相关系数用s r 表示,对其检验也是用查表法或t 检验。若以i p 表示X i 秩次;i q 表示Y i 的秩次,d i =i p -i q 表示成对秩次的差值,则Spearman 秩相关系数的计 算也可采用下式: )1(6112 --=∑=n n d r n i i s 显然Pearson 积差相关与Spearman 秩相关之间有联系也有区别。 主要联系是: 1.两者都可用于刻划两变量间线性相关的方向与密切程度,其取值范围与数值大小的统计学意义解释也相同。 2.两者都要求个体间满足独立性。 3.Spearman 秩相关系数的计算可采用对秩次的Pearson 积差相关系数的计算来实现。 4.样本量大时,两者的假设检验方法近似。 主要区别是: 1.Pearson 积差相关要求数据服从正态分布,属于参数统计量;而Spearman 秩相关系不要求正态分布,属于非参数统计量。 2.两者总体参数的假设检验方法不完全相同(主要是s ρρ与的分布不同)。 第三节 分类变量的关联性分析 首先要明了这里分析的资料是按两种属性分类的频数表资料,含配对分类频数资料。包括双向无序和单向有序两种类型。这些资料都可用2χ的独立性检验和列联系数来考察和刻划两变量间的关联性。这里要注意的是本章所介绍的关联性分析的2χ检验所用的公

怎样分析变量间的关系汇总

变量间的相关关系 一、变量间关系的度量 1.变量间的关系: 函数关系:(1)是一一对应的确定关系 (2)设有两个变量 相关关系:(1)变量间关系不能用函数关系精确表达(2)变量间存在着一定的客观规律 二、相关的种类 1.完全相关、不完全相关、不相关 2.正相关与负相关

3.线性相关与非线性相关 4.单相关与复相关 三、用图形来显示变量间的关系 做散点图 四、测度变量间的关系强度----计算相关系数 1. 相关系数的概念 是在线性相关的情况下,用来说明相关关系密切程度的统计分析指标。 2. 相关系数的计算: 3. 根据相关系数判断相关的程度 ()[]() [] ∑∑∑∑∑∑∑---= 2 2 2 2 y y n x x n y x xy n γ

相关系数的取值是在+1和-1之间,即11+≤≤-r 。若10+≤≤r ,表示X 与Y 之间存在正的相关关系,若01≤≤-r ,表示X 与Y 之间存在负的相关关系;若r-+1,,表示X 、Y 之间为完全正相关关系,若r=-1,表示X 与Y 之间为完全负相关关系,当r=0时,表示Y 的取值与X 无关,即二者之间不存在线性相关关系,但不能说明两者之间没有任何关系。它们可能会存在非线性相关关系。 五、总体中也存在这样的关系吗?----假设检验 1. 为什么要对相关系数进行显著性检验? 因为两个变量之间存在相关关系是根据样本计算出来得出的结论,这一结论是否正确还吸引仅仅系检验,相关系数是一个随机变量,由于是随机的,所以具有一定的偶然性,两个不相关的变量,其相关系数也可能较高,要从样本相关系数判断总体中是否也有这样的关系,则

双变量关联性分析

第十三章双变量关联性分析 在医学研究中,常会观察到两个变量之间在数量上存在某种协同变化的关系,例如随着体内凝血酶浓度的升高,其凝血时间随之降低等。这类关系在统计学上称为两个随机变量之间的关联性。如何判断两变量间的关联性是否确实存在,以及如何描述关联的方向与密切程度是本章所要介绍的内容。需要指出的是,关联性只反映变量间数量上的关系,但数量上的关联并不表示专业上的因果关系,其是否反映了变量间的因果关系还需其他手段加以确认。本章介绍两个定量变量间的直线相关和两个分类变量间关联性的统计分析方法。 第一节直线相关 一、直线相关的概念及其统计描述 例13.1 某医师测量了15名正常成年人的体重(kg)与CT双肾体积(ml)大小,数据如表13.1所示。据此回答两变量是否有关联?其方向与密切程度如何? 表13.1 15名正常成年人体重和双肾体积的测量值 编号体重(kg) 双肾体积(ml) 1 43 217.22 2 74 316.18 3 51 231.11 4 58 220.96 5 50 254.70 6 65 293.84 7 54 263.28 8 57 271.73 9 67 263.46 10 69 276.53 11 80 341.15 12 48 261.00 13 38 213.20 14 85 315.12 15 54 252.08 初步判断两变量间关系最直观有效的方法就是在平面直角坐标系中绘图,其中一个变量用x表示,另一变量用y表示,在平面直角坐标系中可绘制这些实测

点的分布情况,称为散点图(scatter plot),如图13.1所示。 体重(kg) x 图13.115名正常成年人体重和双肾体积的散点图 由上图可见,两变量的散点分布大致呈直线趋势,其数量变化的方向相同。在统计学上两个随机变量之间呈直线趋势的关系被称为直线相关(linear correlation),又称简单相关(simple correlation),其性质可由图13.2所示散点图作直观说明。 (a) (b) (c) (d) 图13.2 常见的散点图 图13.2(a)、(b)中散点近似呈椭圆形分布,其变化趋势接近一直线,其中图13.2(a)中两变量同时增大或减小,变化趋势同向,称为正相关(positive correlation)。图13.2(b)中一个变量随着另一个变量的增大而减小,变化趋势相反,称为负相关(negative correlation)。如全部数据点恰好散布在一条直线上,称为完全相关,这种特殊情况在实际医学研究中并不存在。图13.2(c)中各点总的趋势杂乱无章或大致呈圆形散布,则该两变量间无相关,也称零相关(zero correlation)。图13.2(d)中各点散布也非直线趋势,亦属无相关,由于统计学中提到的相关通常是指直线相关,故无相关是指无直线关系,但可能存在非直线相关。 二、相关系数的意义及计算 双 肾 体 积 ( m l ) y

相关文档
最新文档