第九章相关分析与Correlate过程

合集下载

第九章双变量相关与回归分析

X Y X X Y Y XY
n
二、直线回归中的统计推断

回归方程的假设检验：有方差分析和t检验方法。总体回归系数β的可信区间利用回归方程进行估计和预测
例题
SPSS操作分析步骤如下
1、建立数据文件
•建立两个变量： X变量：年龄，数值型 Y变量：尿肌酸含量，数值型
2、统计分析
（1）散点图的制作
graph scatter simple
通过散点图可看出两个变量间不具有直线趋势而是有曲线趋势，可通过曲线拟合方法来刻画两变量间数量上的依存关系。
（2）曲线拟合的菜单操作
analyze
regression
Curve estimation主对话框
（

适用于两变量间关系为非直线形式，可以通过曲线拟合方法来刻画两变量间数量上的依存关系。毒理学动物试验中动物死亡率与给药剂量的关系、细菌繁殖与培养时间的关系等情况。
例题
SPSS操作分析步骤如下
1、建立数据文件
•建立两个变量： X变量：住院天数，数值型 Y变量：预后指数，数值型
第六章双变量相关与回归分析

例如：为了研究微量元素锰在胆固醇合成中的作用，探讨大鼠肝脏中胆固醇含量和锰含量之间是否存在直线关系？这种关系为随着锰含量的增加，胆固醇的含量是增加还是减少呢?——直线相关问题
第一节直线相关

直线相关：又称简单相关，是研究两个变量间线性关系的一种常用统计方法。直线相关分析的是两变量之间是否存在直线相关关系，以及相关的方向和程度。直线相关系数又称Pearson相关系数，使描述两变量线性相关关系程度和方向的统计量。作直线相关分析要求资料服从双变量正态分布。对于不符合双变量正态分布的资料，不能直接计算Pearson 相关系数，可用非参数统计方法，即计算Kendall相关系数或Spearman相关系数。

第九章相关分析与Correlate过程

3200
11
7300
4.1
2800
• 试对月平均家庭收入、离市中心距离和有三居室住宅月租金三个变量进行相关分析。
§9.2 Correlate过程
• SPSS统计分析过程： 1、建立数据文件eg91.sav。 2、单击菜单“Analyze”中的“Correlate”的
“Bivariate”选项，弹出如P175，图7－1.
在该对话框中：
Correlation Coefficients：列出相关分析类型。 Pearson：为通常所指的相关系数（r）。 Kendell’s tau-b：为非参数资料的相关系数， Spearman：为非正态分布资料的相关系数。
若参与分析的变量是连续变量，选择Kendall’s tau-b或 Spearman相关，则系统自动对连续变量的值先求秩，再计算其秩分数间的相关系数。
第九章相关分析与Correlate过程
－教材第七章
§9.1 相关分析概念和方法
相关分析是研究变量间密切程度并用适当的统计
指标表示出来的一种常用统计方法。即是研究现象之间是否存在某种依存关系，并对具体有依存关系的现象探讨其相关方向以及相关程度，是研究随机变量之间的相关关系的一种统计方法。
变量之间的关系归纳起来可分为两种类型：
• |r|>0.8：强相关；|r|<0.3：弱相关，可视为不相关
• 注意：
–相关系数只是一个比率值，并不具备与相关变量相同的测量单位。
–相关系数r受变量取值区间大小及样本数目的影响较大，一般计算相关的成对数据的数目不应少于30对。
–来自于不同群体且不同质的事物的相关系数不能进行比较。
–对于不同类型的数据，计算相关系数的方法也不相同。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

–单击菜单“Analyze”中的“Correlate”的 “Partial”选项，弹出如P180，图7－4.
§9.2 Correlate过程
• 偏相关分析结果表： • 类似见P183，表7-8，7-9. • 结果显示：在控制变量“有三居室的住宅月租金”的条
件下，变量“月平均家庭收入”与“离市中心距离”的偏相关系数为0.614，其sig.=0.059>0.05，其结论与简单相关系数不同。
在该对话框中：
Correlation Coefficients：列出相关分析类型。 Pearson：为通常所指的相关系数（r）。 Kendell’s tau-b：为非参数资料的相关系数， Spearman：为非正态分布资料的相关系数。
若参与分析的变量是连续变量，选择Kendall’s tau-b或 Spearman相关，则系统自动对连续变量的值先求秩，再计算其秩分数间的相关系数。
§9.1.3 相关系数的分类
• 两个变量的相关系数的计算方法有：（P173，2）
– Pearson简单线性相关系数：是衡量两个定距变量（连续变量）关系的线性关系。利用两组秩次测量两个变量间相关程度。如：身高和体重、国民收入和居民储蓄存款等。
– Spearman等级相关系数：考察两个变量中至少一个为定序变量时的相关关系，利用两组秩次测量两个变量间相关程度。它适合有序数据或不满足正态分布假设的等间距数据。如：学历与收入之间的关系。
– Options按钮：见图7－2
• Statistics：有两个统计量输出的选项。只有选择了Pearson相关分析方法时才可选择。
– Means and standard deviations：要求计算并输出均值与标准差。 – Cross-product deviations and covariances：要求计算并输出叉积离差
§9.2.2 偏相关分析
• 偏相关分析：是指当两个变量同时与第三个变量相关时，将第三个变量的影响剔除，只分析另外两个变量之间相关程度的过程。。
• 偏相关分析的工具是计算偏相关系数r12. • 对于例9.1的数据进行偏相关分析。对“月平
均家庭收入”与“离市中心距离”的相关分析。 • 其SPSS软件实现操作：
§9.1.2 描述相关关系的方法
• 相关关系的描述方法有：
–散点图：将数据以点的形式绘制在直角平面上，比较直观，可用来发现变量间的关系和可能的趋势。
• 散点图在进行相关分析时较为粗略。
–相关系数：以精确的相关系数体系变量间的线性关系程度。
• 如果相关系数是根据总体全部数据计算的，称为总体相关系数，记为ρ；
矩阵和协方差矩阵。
• Missing Values：缺失值处理方法。
§9.2 Correlate过程
• 该例中由于三个变量都是定量变量，故对它们进行相关分析时，应计算Pearson简单相关系数。
• 结果分析：
–类似于 P178，表7－3 描述统计结果表。
–类似于P178，表7－4 相关分析结果表。三个Sig.值均小于所给定的显著性水平，从而可以得出两
9.2.3 距离分析
• 简单相关分析和偏相关分析都对所分析的数据背景有一定程度的了解。
• 但在实际中有时会遇到：在分析前对数据所代表的专业背景知识尚不充分，就需要先对各个指标或者实例的差异性、相似程度进行考察，先对数据有一个初步了解，然后再根据结果考虑如何进行深入分析。
9.2.3 距离分析
相关系数
相关系数r属于[-1,+1]。
• 若0<r≤1，表明变量之间存在正相关关系，即两个变
量的相随变动方向相同；
• 若-1≤rபைடு நூலகம்0，表明变量之间存在负相关关系，即两个变
量的相随变动方向相反。
• r＝1：完全正相关；r＝－1：完全负相关；这
两种情况说明变量之间存在函数关系。
• r＝0：无线性关系，但不能排除变量之间存在其他非线性关系的可能。
• 偏相关系数更能反映两个变量间的本质联系，故常用于多元线性回归分析之中，以便分析自变量的共线性是否排除。
§9.1.5 相关系数的检验
• 为了判断r对ρ的代表性大小，需要对相关系数进行假设检验。
–（1）首先假设总体相关性为零，即H0为两总体无显著的线性相关关系。
–（2）其次，计算相应的统计量，并得到对应的相伴概率值Sig.，如果Sig.小于或等于指定的显著性水平，则拒绝H0，认为两总体存在显著的线性相关关系；否则，不能拒绝H0，以为两总体不存在显著的线性相关关系。
2、Partial -- 偏相关分析，计算两个变量间在控制了其
他变量的影响下的相关关系，对相关系数也进行检验，检验的零假设为：相关系数为0
3、Distance-- 相似性测度，对变量或观测量进行相似
性或不相似性测度
§9.2 简单相关分析的SPSS操作
• 例：在一项关于城市租房的研究中，调查了11个小区的情况，资料如下表所示：
• 函数关系：一个变量的值能够在其他变量取值确定的情况下，按某种函数关系唯一确定。如圆面积和圆半径，销售量和销售额。
• 相关关系（统计关系）：变量直接存在某种关系，但一个变量的值不能由另一个变量的值唯一确定。如收入和消费，身高和遗传。
相关关系不象函数关系那么直接，但普遍存在，且有强有弱。
相关分析的目的
• |r|>0.8：强相关；|r|<0.3：弱相关，可视为不相关
• 注意：
–相关系数只是一个比率值，并不具备与相关变量相同的测量单位。
–相关系数r受变量取值区间大小及样本数目的影响较大，一般计算相关的成对数据的数目不应少于30对。
–来自于不同群体且不同质的事物的相关系数不能进行比较。
–对于不同类型的数据，计算相关系数的方法也不相同。
3200
11
7300
4.1
2800
• 试对月平均家庭收入、离市中心距离和有三居室住宅月租金三个变量进行相关分析。
§9.2 Correlate过程
• SPSS统计分析过程： 1、建立数据文件eg91.sav。 2、单击菜单“Analyze”中的“Correlate”的
“Bivariate”选项，弹出如P175，图7－1.
第九章相关分析与Correlate过程
－教材第七章
§9.1 相关分析概念和方法
相关分析是研究变量间密切程度并用适当的统计
指标表示出来的一种常用统计方法。即是研究现象之间是否存在某种依存关系，并对具体有依存关系的现象探讨其相关方向以及相关程度，是研究随机变量之间的相关关系的一种统计方法。
变量之间的关系归纳起来可分为两种类型：
• 相关分析的目的：通过具体的数量描述，呈现出研究变量之间相互关系的密切程度及其变化规律，探求相互关系的研究模式，以利于统计预测和推断，为作出正确决策提供参考依据。
相关分析的作用（P172）
• 相关分析的作用是多方面的，具体概括为：
– 1、判断变量之间有无联系。 – 2、确定选择相关关系的表现形式及相关分
– Kendall秩相关系数：与等级相关一样，考察两个变量中至少一个为定序变量的相关关系。分析时考虑了结点（秩次相同的）影响。
相关分析的类型
• 根据研究的目的不同，或变量的类型不同，采用不同的相关分析方法。
• 常用的相关分析方法有： • 简单相关分析（Bivariate） • 偏相关分析（Partial） • 距离分析（Distances）
• 弱相关：变量间有关系但不明显。例，近年来我国耕种面积与产量。
• 零相关：变量间不存在任何关系。例某班学生的学习成绩与年龄。
§9.1.1 相关关系的分类
• 相关关系的分类：
– 从相关变量方向分：
• 正相关：变量变化的方向一致，即变量同时增加或减少。 • 负相关：变量变化的方向相反，即变量间一个增加，另一个却减少
• 距离相关分析是：对观测量之间或变量之间相似或不相似的程度的一种测量。
• 距离相关分析可用于同一变量内部各个取值间，以考察其相互接近程度；也可用于变量间，以考察预测值对实际值的拟合优度。
• 距离相关分析的结果给出的不是常用的P值，而是各变量或记录之间的距离大小，以供用户自行判断相似性。
距离相关分析根据统计量不同分为以下两种：
• 该图中可选择检验变量（Variables）、分析类型（Compute Distances）、测度类型（Measure）。
小区编号
月平均家庭收入/元
离市中心距离/km
有三居室的住宅月租金/元
1
3400
7.5
1500
2
3700
6.3
1600
3
3900
5.0
1800
4
4200
3.6
2200
5
4100
4.5
2000
6
4500
4.8
2050
7
4000
3.8
2300
8
5200
4.0
2500
9
6200
3.3
3000
10
6800
3.0
§9.2 Correlate过程
• 在Analyze+Correlate下的三个子菜单：
1、Bivariate--相关分析，计算指定的两个变量间的相关
关系，可选择Pearson相关、Spearman和Kendall 相关；同时对相关系数进行检验，检验的零假设为：相关系数为0（不相关）。给出相关系数为0的概率。
析方法。 – 3、把握相关关系的方向与密切程度。 – 4、预测变量间的变化、评价测量量具的信
度和效度及项目的区分度等。
§9.1.1 相关关系的分类

第九章相关分析与Correlate过程

相关分析(Correlate)

相关与回归分析CorrelationandRegression

相关分析(Correlate)

相关分析和回归分析的实现过程

相关分析(Correlation Analysis)

相关分析与回归分析方案

第九章双变量相关与回归分析

第九章相关分析与Correlate过程

第九章 相关分析与Correlate过程

相关分析(Correlate)

相关与回归分析CorrelationandRegression

相关分析(Correlate)

相关分析和回归分析的实现过程

相关分析(Correlation Analysis)

相关分析与回归分析方案

第九章双变量相关与回归分析

第九章 相关分析与Correlate过程

第九章相关分析与Correlate过程

第九章相关分析与Correlate过程