第八章相关与回归分析

第八章相关与回归分析

客观现象总是普遍联系和相互依存的,分析认识变量之间的依存关系是统计学研究的重要内容之一。在方差分析中我们讨论了分类型变量与数值型变量的关系,本章将讨论数值型变量之间的关系,主要内容是:测度数值型变量之间关系紧密程度的相关系数及其检验、揭示变量间依存关系的回归方程的建立及其显著性检验。

第一节相关分析与回归分析概述

一、变量间的关系

客观现象总是相互联系和相互依存的,客观现象之间的数量联系大致分为两种:函数关系和相关关系。

当一个变量或几个变量取一定的值时,另一个变量有确定的值与之对应,我们称这种关系为函数关系。例如,在价格P一定的情况下,某种商品的销售收入Y与该商品的销售量X 之间的关系可用Y=PX表示,当销售量取一定的值时,销售收入有确定的值与之对应,这就是函数关系。一般把作为影响因素的变量称为自变量,把发生对应变化的变量称为因变量。

当一个变量或几个变量取一定的值时,与之对应的另一个变量的取值不确定,但它仍然按照某种规律在一定的范围内变化,这种变量之间非严格的依存关系我们称为相关关系,记

为()ε+

y,其中x为自变量,y为因变量。例如:人们的收入和消费、劳动生产率与=x

f

工资水平、商品流通规模与流通费用、企业的产值与投入的原材料、劳动力、资金等之间都存在着相互依存关系,但却不是绝对的唯一确定关系,它们都属于相关关系。

函数关系与相关关系之间并无严格的界限。由于有测量误差及各种随机因素的干扰,有函数关系的变量间可能表现为相关关系;在对变量之间的联系有深刻了解之后,相关关系可用函数关系来描述。

本章要讨论的是现象之间的相关关系。

二、相关关系的种类

从不同的角度出发,相关关系可做如下的分类。

(一)根据自变量的多少可以分为单相关、复相关和偏相关

两个变量之间的相关关系,称为单相关;两个以上变量的相关关系称为复相关。例如,企业的产值与投入的原材料、劳动力、资金等变量之间的关系就是一种复相关。在复相关关系讨论中,若我们仅讨论结果变量与某一个因素变量之间的关系而假定其它变量不变时,称关于这两个因素之间的相关关系为偏相关。在本章,我们只讨论单相关的有关问题。

(二)根据相关关系的形态不同分为线性相关和非线性相关

当一个变量X发生变动,另一个变量Y随之发生大致均等的变动,从图像上近似地表现为直线形式,这种相关称为线性相关或直线相关。例如,在一定的范围内,人均消费水平与人均收入水平之间通常表现为直线相关关系。若变量之间的相关关系呈曲线形式则称为非线性(或曲线)相关。例如:从人的生命全过程看,年龄与医疗费支出呈非线性相关关系。在本章我们只讨论线性相关的问题。

(三)根据根据变量间变化方向的不同可分为正相关和负相关

若变量之间的变化方向一致,即一个变量的值增加(或减少),另一个变量的值也随之

增加(或减少),这样的关系称为正相关。例如工业总产值和利税额、家庭消费支出和收入等即为正相关。若变量之间变化方向相反,即一个变量的数值增大(或减小),另一个变量的数值却减小(或增大),这样的关系称为负相关。例如劳动生产率提高则产品成本降低、产品成本降低则企业利润增加等。

三、相关分析与回归分析的内容

相关分析和回归分析是研究相关关系的两种基本方法。所谓相关分析,就是用一个指标来表明现象间相互依存关系的密切程度。所谓回归分析,就是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。

相关分析和回归分析有密切的联系,它们不仅具有共同的研究对象,而且在具体应用时,常常必须相互补充。相关分析需要回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的相关程度。只能当变量之间存在高度相关时,进行回归分析寻求其相关的具体形式才有意义。

(一)相关分析与回归分析的内容

相关分析和回归分析是研究相关关系的两种基本方法。

相关分析要讨论的内容是:判断现象之间是否存在相关关系;如果存在相关关系,则要进一步判断相关关系的种类和关系的紧密程度;关系的紧密程度是用相关系数来刻划,但往往我们是用样本数据计算相关系数,这种相关系数是否能真实地反映总体的相关程度,还必须进行显著性检验。

回归分析要研究的内容是:在相关分析的基础上,建立反映变量间依存关系的数学模型即回归方程;对回归方程进行显著性检验。由于我们是在定性判断的基础上选择的回归模型,并且是根据样本资料建立的回归方程,可能定性判断不恰当,可能样本数据的随机性影响回归方程的真实性和可靠性,因此必须对回归方程进行显著性检验。

(二)相关分析与回归分析的区别与联系

回归分析和相关分析相互联系又存在明显的区别,其区别主要表现在:

1.分析的内容不同。相关分析的主要研究内容是现象之间有无相关关系及关系的密切程度,而回归分析主要研究现象之间数量关系的依存形式,即建立回归方程,并用方程对现象进行预测。

2.变量的地位不同。进行相关分析时,两个变量的地位是平等的,不必区分自变量和因变量,而回归分析则一定要明确哪个是自变量,哪个是因变量。

3.变量的性质不同。相关分析中所有变量均为随机变量,而回归分析中因变量为随机变量,自变量可以为确定性变量,也可以是随机变量。

相关分析和回归分析之间的联系表现为,它们的研究对象相同,都是对具有相关关系的现象进行分析研究,而且在应用时常常相互补充。相关分析需要回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象间数量变化的相关程度,只有在变量间存在较高的相关关系时,进行回归分析才有意义。由于以上原因,一些统计学书籍将相关分析和回归分析称为相关关系分析或相关分析。

以下我们将逐一讨论简单的线性相关和一元线性回归分析的基本理论和方法。

第二节相关分析

一、相关关系的描述

相关分析是确定变量之间是否存在相关关系以及何如描述这种关系的强度。

相关分析是根据已有的数据确定变量之间是否存在相关关系以及何如描述这种关系的强度。相关分析的方法主要分为定性判断和定量分析两类。定性判断就是从定性角度分析和

判断现象之间是否具有相关关系以及相关关系的类型。这种分析和判断所依据的是对现象的了解和对有关的理论知识、专业知识的掌握,以及一定的社会实践经验。定量分析就是在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数与判定系数等方法,来判断现象之间相关的方向、形态及密切程度。

(一)相关表

相关表是一种反映变量相关关系的统计表。将某一变量按其取值的大小排列,然后再将与其相关的另一变量的对应值平行排列,便可得到简单的相关表。

【例8-1】根据表8-1的现金收入与现金支出数据,我们选择10个省份的人均现金支出和现金收入资料,编制的相关表如表8-2:

表8-2 10个省现金支出和现金收入的相关表亿元

现金收入和支出的依存关系,我们可以绘制相关图。

(二)相关图

以变量X为横轴,Y为纵轴建立的直角坐标系,将相关表上每一对应的具体数值)

,

x

(y 用散点标出来而形成的图称为相关图称或散点图。利用散点图,可以直观、形象地表现变量之间的相互关系。图8-1是表明现象间不同关系的散点图。

图8-1 不同关系形态的散点图

【例8-2】根据表8-1的资料绘制散点图。

解:用Excel 绘制的散点图如下(具体操作步骤参见第三章统计数据的整理)。

图8-2 2006年1季度现金支出与现金收入散点图

从散点图可以看出,现金收入和现金支出之间存在正的线性相关关系。 二、相关系数

从散点图可以直观地判断两个变量之间有无相关关系,并对变量间的关系类型有大致的了解。但散点图不能准确反映变量之间的关系密切程度。当变量之间呈线性关系时,其相关关系的密切程度可用相关系数来刻划。

(一)相关系数的计算

相关系数是一个相对指标,若相关系数是根据总体全部数据计算得出,称为总体相关系数,记做ρ;若是根据样本数据计算得到的,则称为样本相关系数,记做r 。样本相关系数的计算公式为:

∑∑∑-⋅---==22)()()

)(()()()

,(y y x x y y x x y D x D y x Cov r (8.1)

公式中的),(y x Cov 为x 和y 的协方差,)(x D 为x 的方差,)(y D 为y

的方差。公式(A )正的线性相关 (B )负的线性相关

(C )曲线相关 (D )不相关

(8.1)可以变形为以下计算公式: ()()2222∑∑∑∑∑∑∑-⋅--=y y n x x n y

x xy n r (8.2)

【例8-3】根据表8-1的资料计算相关系数。

解:相关系数r 的计算复杂,一般用Excel 计算,其具体步骤如下:

第1步:顺次点击【工具】、【数据分析】、【相关系数】、【确定】;

2步:填写相关系数对话框。在【输入区域】引用输入的数据,本例为B1:C32;勾选【标志位于第一行】;在【输出区域】中引用一个单元格,本例为D1。见图8-5。

图8-3 填写相关系数对话框

第3步:点击【确定】,得到相关系数的结果,见表8-3。

表8-3 2006年1季度现金收入和现金支出相关系数表

支出 收入 支出

1 0.963744 收入 0.963744 1

(二)相关系数r 的性质:

为了充分认识和运用相关系数r ,对其性质做如下总结。

1.相关系数r 的取值范围在-1和+1之间,即:–1≤r ≤1。

2.若r 为正,则两变量呈正线性相关;若r 为负,则两变量呈负线性相关。

3.如果1=||r ,则表示两个变量完全线性相关,即为函数关系。如果0=r ,则表示两个变量没有线性关系。应该注意:0=r 只能说明两个变量没有线性关系,而不能说明两个变量没有关系,因为有可能它们之间存在曲线相关关系。

4.相关系数r 的绝对值越接近于1,表示相关程度越强;越接近于0,表示相关程度越弱。用相关系数判断两变量线性相关关系密切程度的具体标准为:

300.||<≤r ,称为微弱相关;

5030.||.<≤r ,称为低度相关;

8050.||.<≤r ,称为显著相关;

180<≤||.r ,称为高度相关。

必须指出,以上关于相关系数的性质和判断变量关系密切程度的标准必须建立在对相关系数的显著性检验基础之上。

三、相关系数的显著性检验

一般情况下,总体相关系数ρ是未知的,通常根据样本相关系数r 来近似估计ρ。由于r 是根据样本计算得到的,它受到抽样误差的影响,因此对于不同的样本,计算出的r 也不同,因此r 是一个随机变量。能否根据样本的相关系数说明总体的相关程度?这就需要考察r 的可靠程度,也就是要对r 进行显著性检验。为此,我们必须认识r 的抽样分布。

(一)r 的抽样分布

为了对样本相关系数r 的显著性进行检验,需要参考r 的抽样分布。当样本数据来自正态总体,且样本容量n 很大时,r 的抽样分布近似服从正态分布。当总体相关系数ρ的绝对值很小甚至等于0时,这种趋势是明显的,而当ρ值远离0且样本容量不够大时,r 的抽样分布会呈现出一定的偏态。因为r 的取值是围绕在ρ周围的,当ρ的绝对值很大时,例如99.0=ρ,r 的值应以0.99为中心分布。从r 的性质知r 的取值范围在+1到-1之间,所以一边的变化以+1为限,离中心的变化距离为0.01,而另一边的变化是以-1为限,距离为1.99,两边的变化距离不等,自然r 的抽样分布就不对称。但当ρ值接近0时,两边的变化距离大致相等,此时r 的抽样分布就接近对称。可见,r 的抽样分布是随着总体相关系数ρ和样本容量n 的大小而变化的。

当ρ为较大的正数时,r 呈现左偏分布;当ρ为较大的负数时,r 呈现右偏分布。只有当ρ接近0时,才近似对称。若样本容量n 充分大后,r 是近似服从正态分布的随机变量。 而我们讨论的往往是关系较强的,总体相关系数ρ的绝对值都较大,而且样本容量往往都不够大,用样本相关系数r 去估计ρ时,假定r 服从正态分布是不合适的。此时r 的分布服从费歇尔提出的t 分布假设,且该检验既适用于小样本也适用于大样本。

应当注意,当r 的绝对值很小而样本容量n 又很大时,总是能通过检验的。这时并不能说明两变量之间具有线性关系。所以在相关程度很低时,检验没有多大意义。

(二)r 的显著性检验

r 显著性检验的具体步骤如下:

第一步:提出假设:假设样本是从一个不相关的总体中抽样的,即:

0010≠=ρρ:;:H H

第二步:计算检验的统计量:

)2n (t ~||---=212

r n r t (8.3)

第三步:进行统计决策。根据给定的显著性水平α和自由度2-=n df ,查t 分布表,得到临界值)2(2-n t α。若2

||αt t >,则拒绝原假设0H ,表明总体的两个变量之间存在显

著的线性关系。

【例8-4】以5%的显著性水平,检验全国各省区2006年1季度现金收入与现金支出之间的相关系数是否显著。

第一步:提出假设:假设样本是从一个不相关的总体中抽样的,

0010≠=ρρ:;:H H

第二步:计算检验的统计量。将表8-3的数据代入t 检验统计量公式,得:

5920967440123196744012

22..|.|||=--=--=r n r t

第三步:进行决策。根据给定的显著性水平α=0.05和自由度29231=-=df ,查t 分布表,得到0452********.)(.=-t 。由于0452259202

050...=>=t t ,所以拒绝原假设0H ,

表明现金支出和现金收入之间存在显著的正线性相关关系。

第三节 一元线性回归分析

在变量之间的相关程度很高的基础上,应进行回归分析,以考察变量之间的因果关系,并通过建立数学模型——回归方程来更深入的反映自变量变化对因变量的影响。

回归分析将讨论以下几个方面的具体问题:

1.利用已知的样本数据,确定变量之间的数学模型——回归方程;

2.对模型中的参数以及模型的可靠程度进行检验。

一、一元线性回归模型

在回归分析中,我们把作为结果的变量称为因变量,也就是在模型中被预测或被解释的变量,用y 表示;把作为原因的变量称为自变量,用x 表示。例如,在分析现金支出与现金收入的关系中,我们需要了解的是在将来一定现金收入的条件下,现金支出将达到的水平。因此,现金支出是被预测的变量即因变量y ,而用来预测现金支出的现金收入就是自变量x 。这里我们只讨论一元线性回归,即只有一个自变量,且因变量与自变量之间为线性相关关系。

对于具有线性关系的变量y x ,,可以用一个线性方程即一元线性模型来刻划它们之间的关系。一元线性模型为:

εββ++=x y 10 (8.4)

在这个模型中,线性主部)(x 10ββ+反映由x 变化而引起的y 的线性变化;而随机项ε反映了除此之外由随机因素造成的对y 的影响,是不能由线性主部所能解释的变异因素。

(一)回归的经典假设

1.自变量x 是确定性变量,不是随机变量;如果不满足这一假定,可能会产生随机解释变量。

2.随机误差项ε服从0均值和等方差的正态分布:

n i V a r E i i ,,,)()( 210

2===σεε (8.5) ),(~20σεN (8.6)

3.随机误差项在不同样本点之间是独立的,不存在序列相关:

n j i j i C o v j i ,,,,),( 210=≠=εε (8.7)

以上这些基本假定是德国数学家高斯最早提出的,也称为高斯经典假设。满足以上标准假定的一元线性回归模型称为标准的一元线性回归模型。

(二)总体回归方程模型

根据回归模型的经典假设,ε的期望值等于零,因此y 的期望值

x y E 10)(ββ+= (8.8)

也就是说总体回归模型是描述的x 取一定值,所对应的y 的期望。

总体回归模型的图形是一条唯一确定的直线。0β是该直线的截距,

也就是当x 取0时y 的期望值;1β是直线的斜率,它表示当x 每变动一个单位,y 的平均变化量,通常1β称为回归系数。

(三)样本回归方程

总体回归模型是我们需要求取的,而我们仅有样本信息。所以我们首先用样本信息估计出样本回归模型,然后用统计方法推断出总体回归模型。样本回归模型又称为估计的回归方程,样本回归模型如下:

x y 1

0ββˆˆˆ+= (8.9) 公式中的0

βˆ和1βˆ是样本的统计量,用以推断总体回归方程的参数0β和1β。 二、参数的最小二乘估计

若能算出统计量0βˆ和1βˆ,样本回归方程就确定了。如何求取0

βˆ和1βˆ呢,常用的是最小二乘法。在给定的一组样本观测值n i y x i i ...2,1),(=之下,要求样本回归方程尽可能好

的拟合这组值,就是要求代表真实值的散点到样本回归直线的距离之和最小,即因变量的真

值i y 与回归直线上的估计值i y

ˆ之差的平方和最小: )ˆ,ˆ()ˆˆ()ˆ1

02102ββββQ x y y y i i i i =--=-∑∑( (8.10) 当样本观测值n i y x i i ...,),(21=已知时,上式是关于0

βˆ和1βˆ的二元函数。对于多元函数最小值的求取,运用多元微积分中的极值定理,容易得到:

⎪⎪⎩⎪⎪⎨

⎧-=--=∑∑∑∑∑x

y x x n y x xy n 10221βββˆˆ)())((ˆ (8.11) 在一组已知的样本观测值之下,运用最小二乘法即可求得参数0

βˆ和1βˆ,于是可得到最优拟合直线——样本的回归方程。参数1βˆ称为回归系数,表示自变量每变动一个单位因

变量平均的变动值。

【例8-5】根据表8-1全国各省2006年1季度现金收入与现金支出数据,求现金支出对现金收入的估计回归方程。

根据公式(8.11)得:

⎪⎩⎪⎨⎧==353.2757

ˆ559621.0ˆ01ββ 于是得到估计回归方程:

x y

559621.02757.353ˆ+=

回归系数559621.0ˆ1

=β,表示现金收入每增加一亿元,现金支出平均增加0.559621亿元。 回归分析的计算量大,用手工计算很麻烦,在实际工作中,可以运用统计软件来处理。下面我们结合上述例子,说明Excel 操作的具体步骤。

我们将2006年1季度各区期内现金支出和期内现金收入输入到Excel 工作表中的B2:C32单元格,然后按以下步骤进行操作:

第1步:顺次点击【工具】、【数据分析】、【回归】、【确定】。

第2步:填写“回归”对话框。在【Y 值输入区域】中引用B1:B32;在【X 值输入区域】中引用C1:C32;勾选【标志】;在【置信度】中给出所需的数值(默认值为95%);在【输出区域】中引用一个单元格,比如D1。见图8-4。

图8-4 填写回归对话框

第3步:点击【确定】,得到输出的结果,见表8-6。

表8-4 Excel 输出的回归分析结果

Excel 输出的回归分析结果包括以下三部分内容:

第一部分是“回归统计”。该部分给出了回归分析中的一些常用统计量,包括相关系数(Multiple R )、判定系数2R (R Square )、调整后的判定系数2R (Adjusted )、标准误差、观察值的个数等。

第二部分是“方差分析”,该部分给出了自由度(df ),回归平方和、残差平方和、总平方和、回归和残差的均方、检验统计量、F 检验的显著性水平。“方差分析”部分的主要作用是对整个方程拟合程度做显著性检验,后面我们会详细介绍。

第三部分列出了模型中参数的估计值以及对这些估计值进行检验的数值,包括回归方程的截距0β、斜率1β以及截距和斜率的标准误差、用于检验回归系数的t 统计量,P 值,以及截距和斜率的置信区间。

我们要讨论的内容其计算结果在这里都有体现。

三、回归直线的拟合优度

回归直线i

i x y 10ˆˆˆββ+=在一定程度上描述了变量y 和x 之间的数量关系,由此可根据自变量x 的取值来估计或预测因变量y 的取值。但估计或预测的精度将取决于回归直线对观测数据的拟合程度。如果各观测数据的散点围绕回归直线越紧密,说明回归直线对观测数据的拟合程度越好,反之越差。我们把回归直线和各观测点的接近程度称为回归直线对数据的拟合优度。为了量化拟合优度,需要计算判定系数。为了说明判定系数的含义,我们需要对因变量的变差进行分解。

(一)因变量变差的分解

因变量y 的取值是有差异的,y 取值的这种不同称为变差。变差的产生来源于两个方面:一是由于自变量x 的不同取值造成;二是除x 以外的其它因素(例如测量误差等)的影响。对一个具体的观测值来说,变差的大小可以用实际观测值y 与因变量的均值y 之差(y y -)来表示。

图8-5 变差分解图

从图8-7可以看出,每个观测点的变差都可以分解为两部分,即:

)ˆ()ˆ(y y y y y y -+-=- (8.12) 将等式两边平方,并对所有点求和,有

∑∑∑--+-+-=

-)y ˆ)(ˆ(2)ˆ()ˆ()(i 2

2

2

y y y y y y y y y i i i

i i i 可以证明,0)ˆ)(ˆ(=--∑y y y

y i i i ,因此有 ∑∑∑-+-=

-2

22

)ˆ()ˆ()(y y

y

y

y y

i

i i

i

(8.13)

式子的左边的∑-2

)(y y 称为总平方和SST ,它可分解为两部分,其中2ˆ()i y

y -∑是回归值ˆi y 与均值y 的离差平方和,根据样本回归方程,估计值i i x y 10ˆˆˆββ+=,因此可以把)ˆ(y y i -看做由于自变量x 的变化引起的y 的变化,而其平方和∑

-2

)ˆy y i (反映了y 的总离差中由于x 与y 线性关系引起的y 的变化部分,它是可以由回归直线来解释的i y 离差部分,称为回归平方和,记做SSR 。另一部分∑-2)ˆ(i i y

y 是各观测值与回归值的剩余误差的平方和,它是除了x 对y 的线性影响之外的其它因素对y 离差的作用,称为残差平方和,记为SSE 。这三个平方和的关系为:

总平方和=回归平方和+残差平方和,即

SSE SSR SST += (8.14) 这是总变差的绝对数表达关系,其相对数表达为: S S T

S S E S S T

S S R +=

1 (8.15)

(二)判定系数

回归直线拟合的好坏取决于回归平方和SSR 和残差平方和SSE 的大小,或SSR 和SSE 在总平方和SST 中所占比重的大小。对于确定的样本,总平方和SST 是常数,则回归平方和SSR 和残差平方和SSE 是此消彼涨的关系。我们以回归平方和SSR 在总平方和SST 中所占比重这个相对指标作为判定回归直线拟合好坏的指标,并将这一指标定义为判定系数,记做2

R

SST

SSE SST

SSR R

-

==

12

(8.16)

若所有观测点都落在回归线上,残差平方和SSE =0,则2R =1,即是完全拟合;若y

的变化与x 无关,x 与y 的离差完全没有关系,那么此时y y

i =ˆ,且2R =0。可见2R 的取值范围是[0,1]。2R 越接近1,表明回归平方和占总平方和的比重越大,回归直线与各观测值越接近,用x 的变化解释y 值离差的部分就越多,回归直线的拟合效果就越好;反之,2R 越接近0,回归直线的拟合程度就越差。

可以证明:在一元线性回归时,判定系数2R 就是相关系数r 的平方(多元线性回归不具有这一规律)。这一结论不仅可以使我们能从相关系数直接计算判定系数,也可以使我们进一步理解相关系数的意义。相关系数r 与回归系数1ˆβ具有相同的正负号,实际上,相关系数r 也从另一个角度说明了回归直线的拟合优度。

【例8-6】计算全国各省区2006年1季度现金收入与现金支出回归方程的判定系数,并解释其意义。

利用表8-4Excel 输出的回归分析结果可知,总平方和SST =6946600,回归平方和

SSR =6452023,残差平方和SSE =494576.8。根据公式(8.16)得到:

%88.92928803.06946600

64520232

====SST

SSR R

也可以根据相关系数求得:

()()9288.0963744

.02

22

===r R

判定系数的实际意义是:在现金支出中,有92.88%可以由现金收入与现金支出之间

的线性关系来解释。或者说,在现金支出的变动中,有92.88%是由现金收入的变动引起的,说明现金支出和现金收入的回归方程的拟合优度很高。

(三)估计标准误差

回归直线的拟合优度是由SSR 在总平方和SST 中的比重(判定系数)来度量的。而残

差平方和SSE 可以说明样本观察值i y 与回归估计值ˆi y

之间的差异程度,从另一个角度说明回归直线的拟合优度。

将残差平方和SSE 除以其自由度n-2,可以得到残差均方,记为MSE ,MSE 的平方根称为估计标准误差,记为y S 。

M S E n SSE S y =-=

2

(8.17)

由于回归方程中用了两个统计量0

βˆ和1βˆ,故SSE 的自由度为2-n 。 估计标准误差是对误差项ε的标准差σ的估计,即在排除了x 的影响后y 的随机波动

的一个估计量。在对因变量y 进行预测估计时,它反映了用样本回归方程预测y 值的误差

大小。若样本观察值与回归直线距离越近,则y S 越小,回归直线的代表性越好,运用回归方程做预测就越准确。可见它可以从另一个角度来说明回归直线的拟合优度。

四、回归模型的显著性检验

在根据样本数据建立一元线性回归模型的过程中,我们是在一系列假设条件下进行的。比如:两变量间存在线性关系、随机误差项ε是一个服从0均值、等方差的正态分布随机变量等。这些假设是否成立,需要通过检验才能证实。回归模型显著性检验主要检验两个方面的内容,一是线性关系的检验,二是回归系数的检验。显著性检验不仅说明我们建立的回归模型是否真实反映了两个变量之间的关系,也关系到对因变量做预测的准确程度。

(一)线性关系的检验

线性关系的检验就是要检验两个变量之间用线性模型εββ++=x y 10表示是否合适。为检验两个变量之间的线性关系是否显著,我们需要构造用于检验的统计量。两个变量的线性关系是否显著,其实质就是讨论因变量y 的总变差是不是主要由两个变量的这种线性关系引起的,即总变差平方和中回归平方和与残差平方和的比值大小。

该统计量的构造是以回归平方和(SSR )以及残差平方和(SSE )为基础的。将SSR 除以其自由度(自变量的个数p ,一元线性回归中自由度为1)的结果称为回归均方,记为

MSR ;将SSE 除以其自由度(1--p n ,一元线性回归中自由度为2-n )的结果称为残

差均方,记为MSE 。如果原假设成立(010=β:H ,两个变量之间的线性关系不显著,即回归方程设定不成立),则MSR /MSE 的抽样分布服从分子自由度为1、分母自由度为2-n 的F 分布,即

)2n ,1(F ~)

2/(1/-=-=

MSE

MSR n SSE SSR F (8.18)

当原假设010=β:H 成立时,MSR /MSE 的值应接近1,即线性关系不显著。 若原假设010=β:H 不成立,MSR /MSE 的值将变得无穷大。因此,较大的

MSR /MSE 值将导致拒绝原假设0H ,可以断定变量x 和y 之间存在显著的线性关系。

线性关系检验的具体步骤如下:

第一步:提出假设: 010=β:H 两个变量之间的线性关系不显著; 第二步:计算检验统计量F : )2n ,1(F ~)

2/(1/-=-=

MSE

MSR n SSE SSR F

第三步:做出决策。确定显著性水平α,并根据分子自由度11=df 和分母自由度22-=n df 查F 分布表,得到临界值αF 。若αF F >,拒绝0H ,表明两个变量之间的线性关系是显著的;若αF F <,不拒绝0H ,即没有证据表明两个变量之间的线性关系显著。

【例8-7】检验全国各省区2006年1季度现金支出和现金收入一元线性回归模型线性关系的显著性。(α=0.05) 解:第一步:提出假设

010=β:H 现金支出和现金收入之间的线性关系不显著

第二步:计算检验统计量F 。 3207.37837

.17054645202329

/8.4945761/6452023)

2/(1/==

=

-=

n SSE SSR F

第三步:做出决策。根据显著性水平α=0.05、分子自由度1df =1和分母自由度2922=-=n df ,查F 分布表,得到临界值184.=αF 。由于αF F >,故拒绝0H ,表明

现金支出和现金收入之间的线性关系是显著的。

实际上,在Excel 输出结果的第二部分即方差分析表中,给出了线性关系显著性检验的全部结果。除了给出检验统计量的F 值之外,还给出了Significance F ,它相当于用于检验的P 值。除了可以用F 统计量进行决策外,还可利用Significance F 决策,具体方法是:将“Significance F ”的值与给定的显著性水平α进行比较,如果Significance αF ,不拒绝原假设0H ,即没有证据表明因变量y 与自变量x 之间有显著的线性关系。在表8-4的输出结果中,Significance F=3.48867E-18050.=<α,说明现金支出和现金收入之间存在显著的线性关系,这与用F 检验统计量得到的结论相同。

(二)回归系数的检验

回归系数的显著性检验是要检验自变量对因变量的影响是否显著。在一元线性回归模型

εββ++=x y 10中,如果回归系数01=β,回归直线是一条水平线,表明因变量y 的取

值不依赖自变量x 。但是若01≠β,也不能肯定地得出两个变量之间存在线性关系的结论,这要看这种关系是否具有统计意义上的显著性。回归系数的检验就是检验回归系数1β是否等于零。为检验原假设010=β:H 是否成立,需要构造用于检验的统计量。为此,我们需要讨论回归系数1β的抽样分布。

样本回归方程的1ˆβ是总体回归方程参数1β的统计量,由于先假设随机扰动项ε服从正态分布,可以证明:

))

(,(~ˆ∑-x x

N i

2

1

ββ (8.19)

其中的2

σ是误差项ε的方差

若2σ已知,根据概率论知识可以对1ˆβ做标准化处理使得生成新的随机变量服从标准正态分布,就可以用z 检验方法对总体回归系数进行假设检验。但是2σ是未知的,通常我们用

2

2-∑n e i

作为2σ的无偏估计量。当样本为小样本时,是服从t 分布的,即

)(~ˆˆ

21

1

1--n t S βββ (8.20)

公式中的1

βˆS 是1ˆβ的估计标准差

∑∑--=

)

()(ˆ22

2

1

n x x

e

S i

i β (8.21)

即该统计量服从自由度为2-n 的t 分布。若回归方程通过检验,两变量间具有线性

性,则01=β,统计量t 为:

1

1ββˆ

ˆS t =

(8.22)

回归系数显著性检验的步骤是:

第一步:提出假设:

010=β:H , 011≠β:H

第二步:计算检验统计量t :

1

1ββˆ

ˆS t =

第三步:做出决策。根据显著性水平α和自由度df =2-n 查t 分布表,找到相应的临界值2

αt ,若2

||αt t >,拒绝原假设0H ,表明自变量x 对因变量y 的线性影响是显著的,即

存在线性关系;如果2

||αt t <,则不拒绝0H ,即没有证据表明自变量x 对因变量y 的影响

是显著的。

也可用P 值与设定的显著性水平α比较。若α>P ,则接受原假设,也就是认可自变

量变化对因变量没有任何影响。若α

表8-4的Excel 输出的回归分析结果的第三部分给出了t 检验统计量和P 值。 下面用例子来说明具体的检验过程

【例8-8】检验现金支出和现金收入回归方程中回归系数1β的显著性。(α=0.05) 解:第一步:提出假设

010=β:H , 011≠β:H

第二步:计算检验统计量t :

450471902877

055962101

1...ˆˆ

==

=

ββS t

第三步:做出决策。根据显著性水平050.=α和自由度29231=-=df ,查t 分布表,得到临界值045222

.=αt 。由于0452.245047.19025.0=>=t t ,故拒绝原假设0H 。若用P

值来检验,本例中,05.01849.3=<-=αE P ,所以拒绝0H ,表明现金支出的变化很大程度上依赖现金收入。

在进行显著性检验时,有以下两点需要注意:

第一,我们通常只对回归系数1β做检验,对于回归方程中的截距0β没有检验的必要。因为截距0β是否为0只表明回归方程经不经过原点。对整个回归方程的估计以及后面的预测都没有影响。

第二,在一元回归中对整个方程拟合好坏的F 检验与对回归系数1β的t 检验虽用了不同的统计量,但原假设与备择假设都是相同的。原因是一元回归中自变量的个数只有一个。而多元回归当自变量个数多于一个时,这两种检验的意义是不同的,F 检验是检验多元回归方程整体的显著性,而t 检验则是对各个回归系数的检验。整个模型可能不能通过检验,但是其中某些回归系数却可能通过检验。

回归分析的主要目的是根据所建立的估计的回归方程进行预测或控制。在回归分析通过各种检验之后,我们就可以用它来完成这一目的了。所谓预测,就是根据自变量x 的取值来预测因变量y 的取值,比如,根据现金收入与现金支出的回归方程,给出一个具体的现金数值,就可以预测现金支出的具体数值。而控制则恰恰相反,它是根据因变量y 的取值,求得自变量x 的取值。用回归方程预测的方法有点预测方法和区间预测方法,本章不对其进行讨论。

统计学基础 第八章 相关与回归分析

统计学基础第八章相关与回归分析 【教学目的】 1.掌握相关系数的测定和性质 2.明确相关分析与回归分析的特点 3.建立回归直线方程,掌握估计标准误差的计算 【教学重点】 1.相关关系、相关分析和回归分析的概念 2.相关系数计算 3.回归方程的建立和依此进行估计和预测 【教学难点】 1.相关分析和回归分析的区别 2.相关系数的计算 3.回归系数的计算 4.估计标准误的计算 【教学时数】 教学学时为8课时 【教学内容参考】 第一节相关关系 一、相关关系的含义 宇宙中任何现象都不是孤立地存在的,而是普遍联系和相互制约的。这种现象间的相互联系、相互制约的关系即为相关关系。 相关关系因其依存程度的不同而表现出相关程度的差别。有些现象间存在着严格的数据依存关系,比如,在价格不变的条件下销售额量之间的关系,圆的面积与半径之间的关系等等,均具有显著的一一对应关系。这些关系可由数学中的函数关系来确切的描述,因而也可以认为是一种完全相关关系。有些现象间的依存关系则没有那么严格。当一种现象的数量发生变化时,另一种现象的数量却在一定的范围内发生变化,比如身高与体重的关系就是如此。一般来说,身高越高,体重越重,但二者之间的关系并非严格意义上的对应关系,身高1.75米的人,对应的体重会有多个数值,因为影响体重的因素不只身高而已,它还会受遗传、饮食习惯等因素的制约和影响。社会经济现象中大多存在这种非确定的相关关系。 在统计学中,这些在社会经济现象之间普遍存在的数量依存关系,都成为相关关系。在本章,我们主要介绍那些能用函数关系来描述的具有经济统计意义的相关关系。 二、相关关系的特点 1.现象之间确实存在数量上的依存关系 如果一个现象发生数量上的变化,则另一个现象也会发生数量上的变化。在相互依存的两个变量中,可以根据研究目的,把其中的一个变量确定为自变量,把另一个对应变量确定为因变量。例如,把身高作为自变量,则体重就是因变量。 2.现象之间数量上的关系是不确定的 相关关系的全称是统计相关关系,它属于变量之间的一种不完全确定的关系。这意味着一个变量虽然受另一个(或一组)变量的影响,却并不由这一个(或一组)变量完全确定。例如,前面提到的身高和体重之间的关系就是这样一种关系。 三、相关关系的种类 现象之间的相互关系很复杂,它们涉及的变动因素多少不同,作用方向不同,表现出来的形

第八章相关与回归分析

第八章相关与回归分析 客观现象总是普遍联系和相互依存的,分析认识变量之间的依存关系是统计学研究的重要内容之一。在方差分析中我们讨论了分类型变量与数值型变量的关系,本章将讨论数值型变量之间的关系,主要内容是:测度数值型变量之间关系紧密程度的相关系数及其检验、揭示变量间依存关系的回归方程的建立及其显著性检验。 第一节相关分析与回归分析概述 一、变量间的关系 客观现象总是相互联系和相互依存的,客观现象之间的数量联系大致分为两种:函数关系和相关关系。 当一个变量或几个变量取一定的值时,另一个变量有确定的值与之对应,我们称这种关系为函数关系。例如,在价格P一定的情况下,某种商品的销售收入Y与该商品的销售量X 之间的关系可用Y=PX表示,当销售量取一定的值时,销售收入有确定的值与之对应,这就是函数关系。一般把作为影响因素的变量称为自变量,把发生对应变化的变量称为因变量。 当一个变量或几个变量取一定的值时,与之对应的另一个变量的取值不确定,但它仍然按照某种规律在一定的范围内变化,这种变量之间非严格的依存关系我们称为相关关系,记 为()ε+ y,其中x为自变量,y为因变量。例如:人们的收入和消费、劳动生产率与=x f 工资水平、商品流通规模与流通费用、企业的产值与投入的原材料、劳动力、资金等之间都存在着相互依存关系,但却不是绝对的唯一确定关系,它们都属于相关关系。 函数关系与相关关系之间并无严格的界限。由于有测量误差及各种随机因素的干扰,有函数关系的变量间可能表现为相关关系;在对变量之间的联系有深刻了解之后,相关关系可用函数关系来描述。 本章要讨论的是现象之间的相关关系。 二、相关关系的种类 从不同的角度出发,相关关系可做如下的分类。 (一)根据自变量的多少可以分为单相关、复相关和偏相关 两个变量之间的相关关系,称为单相关;两个以上变量的相关关系称为复相关。例如,企业的产值与投入的原材料、劳动力、资金等变量之间的关系就是一种复相关。在复相关关系讨论中,若我们仅讨论结果变量与某一个因素变量之间的关系而假定其它变量不变时,称关于这两个因素之间的相关关系为偏相关。在本章,我们只讨论单相关的有关问题。 (二)根据相关关系的形态不同分为线性相关和非线性相关 当一个变量X发生变动,另一个变量Y随之发生大致均等的变动,从图像上近似地表现为直线形式,这种相关称为线性相关或直线相关。例如,在一定的范围内,人均消费水平与人均收入水平之间通常表现为直线相关关系。若变量之间的相关关系呈曲线形式则称为非线性(或曲线)相关。例如:从人的生命全过程看,年龄与医疗费支出呈非线性相关关系。在本章我们只讨论线性相关的问题。 (三)根据根据变量间变化方向的不同可分为正相关和负相关 若变量之间的变化方向一致,即一个变量的值增加(或减少),另一个变量的值也随之

第八章-相关与回归分析

第八章相关与回归分析 一 1. 进行相关分析,要求相关的两个变量( A. 都是随机的 B. C. 一个是随机的,一个不是随机的 D. 2. 相关关系的主要特征是( A. B. 某一现象的标志与另一标志之间存在着一定的关系,但它们不是确定的关系 C. D. 某一现象的标志与另一标志之间存在着函数关系3. 相关分析是研究( A. 变量之间的数量关系 B. C.变量之间相互关系的密切程度 D. 4. 相关关系的取值范围是( A. r=0 B. -1≤r≤0 C. 0≤r≤1 D. -1≤r≤1 5. 现象之间相互依存关系的程度越低,则相关系数( A. 越接近于0 B. 越接近于-1 C. 越接近于1 D. 越接近于0.5 6. 当所有观察值都落在回归直线上,则x与y之间的相关系数()。 A. r=0 B. -1

A. 没有相关关系 B. 线性相关关系越弱 C. 负相关关系越强 D. 11. 下列直线回归方程中,肯定错误的是( A. y=2+3x,r=0.88 B. y=4+5x,r=0.55 C. y=-10+5X,R=-0.90 D. y=-100-0.9x,r=-0.83 12. 正相关的特点是( A. B. C. D. 13. 下列现象的相关密切程度高的是( A. 某商店的职工人数与商品销售额之间的相关系数为0.87 B. 流通费用率与商业利润率之间的相关系数为-0.94 C. 商品销售额与商业利润率之间的相关系数为0.51 D. 商品销售额与流通费用率之间的相关系数为-0.81 14. 计算估计标准误差的依据是( A. 因变量的数列 B. C. 因变量的回归变差 D. 15. 两个变量间的相关关系称为( A. 单相关 B. 复相关 C. 无相关 D. 16. 从变量之间相关的方向看,可分为( A. 正相关与负相关 B. C. 单相关与复相关 D. 17. 从变量之间相关的表现形式看,可分为()。 A. 正相关与负相关 B. C. 单相关与复相关 D. 18. 物价上涨,销售量下降,则物价与销售量之间属( A. 无相关 B. 负相关 C. 正相关 D. 19. 相关系数是( A. 适用于线性相关 B. C. 既适用于单相关也适用于复相关 D. 20. 估计标准误差是反映(

第8章相关与回归分析课后习题答案

第8章相关与回归分析课后习题答案 8.1(1)利用Excel计算结果可知,相关系数为0.948138 XY r=,说明相关程度较高。(2)计算t统计量 2.681739 8.436851 0.317859 t==== 给定显著性水平=0.05,查t分布表得自由度n-2=10-2=8的临界值tα为2.306,显然2 t t α >,表明相关系数r在统计上是显著的。 8.2 利用Excel中的”数据分析”计算各省市人均GDP和第一产业中就业比例的相关系数为:-0.34239,这说明人均GDP与第一产业中就业比例是负相关,但相关系数只有-0.34239,表明二者负相关程度并不大。 相关系数检验: 在总体相关系数0 = ρ的原假设下,计算t统计量: 0.34239 1.9624 r t -⨯ ===- 查t分布表,自由度为31-2=29,当显著性水平取05 .0 = α时,2αt=2.045;当显著性水平取0.1 α=时,2αt=1.699。 由于计算的t统计量的绝对值1.9624小于α t =2.045,所以在05 .0 = α的显著性水平下,不能拒绝相关系数0 = ρ的原假设。即是说,在05 .0 = α的显著性水平下不能认为人均GDP与第一产业中就业比例有显著的线性相关性。 但是计算的t统计量的绝对值1.9624大于2α t =1.699,所以在0.1 α=的显著性水平下,可以拒绝相关系数0 = ρ的原假设。即在0.1 α=的显著性水平下,可以认为人均GDP与第一产业中就业比例有一定的线性相关性。 8.3设当年红利为Y,每股账面价值为X 建立回归方程12 i i i Y X u ββ =++ 估计参数为 ^ 0.4797750.072876 i i Y X =+ 参数的经济意义是每股账面价值增加1元时,当年红利将平均增加0.072876元。 序号6的公司每股账面价值为19.25元,增加1元后为20.25元,当年红利可能为:^ 0.4797750.07287620.25 1.955514 i Y=+⨯=(元) 8.4(1)数据散点图如下:

第八章 相关分析与回归分析习题答案

第八章 相关分析与回归分析习题参考答案 一、名词解释 函数关系:函数关系亦称确定性关系,是指变量(现象)之间存在的严格确定的依存关系。在这种关系中,当一个或几个相互联系的变量取一定的数值时,必定有另一个且只有一个变量有确定的值与之对应。 相关关系:是指变量(现象)之间存在着非严格、不确定的依存关系。在这种关系中,当一个或几个相互联系的变量取一定的数值时,可以有另一变量的若干数值与之相对应。这种关系不能用完全确定的函数来表示。 相关分析:相关分析主要是研究两个或者两个以上随机变量之间相互依存关系的方向和密切程度的方法,直线相关用相关系数表示,曲线相关用相关指数表示,多元相关用复相关系数表示。 回归分析:回归分析是研究某一随机变量关于另一个(或多个)非随机变量之间数量关系变动趋势的方法。其目的在于根据已知非随机变量来估计和预测随机变量的总体均值。 单相关:单相关是指仅涉及两个变量的相关关系。 复相关:复相关是指一个变量对两个或者两个以上其他变量的相关关系。 正相关:正相关是指两个变量的变化方向是一致的,当一个变量的值增加(或减少)时,另一变量的值也随之增加(或减少)。 负相关:负相关是指两个变量的变化方向相反,即当一个变量的值增加(或减少)时,另一个变量的值会随之减少(或增加)。 线性相关:如果相关的两个变量对应值在直角坐标系中的散点图近似呈一条直线,则称为线性相关。 非线性相关:如果相关的两个变量对应值在直角坐标系中的散点图近似呈现出某种曲线形式,则为非线性相关。 相关系数:相关系数是衡量变量之间线性相关密切程度及相关方向的统计分析指标。取值在-1到1之间。两个变量之间的简单样本相关系数的计算公式为: ()() n i i x x y y r --∑ 二、单项选择 1.B; 2.D; 3.D; 4.C; 5.A; 6.D 。 三、判断题(正确的打“√”,错误的打“×”) 1.×; 2.×; 3.√; 4.×; 5.×; 6.×; 7.×; 8.√. 四、简答题 1、什么是相关关系?相关关系与函数关系有什么区别? 答:相关关系,是指变量(现象)之间存在着非严格、不确定的依存关系。在这种关系中,当一个或几个相互联系的变量取一定的数值时,可以有另一变量的若干数值与之相对应。

第八章 相关分析与回归分析

第八章相关分析与回归分析 一、单项选择题(以下每小题各有四项备选答案,其中只有一项是正确的。) 1.根据散点图8-1,可以判断两个变量之间存在( )。 A.正线性相关关系B.负线性相关关系 C.非线性关系D.函数关系 [答案] A 2.假设某品牌的笔记本市场需求只与消费者的收入水平和该笔记本的市场价格水平有关。则在假定消费者的收入水平不变的条件下,该笔记本的市场需求与其市场价格水平的相关关系就是一种( )。 A.单相关B.复相关C.偏相关D.函数关系 [答案] C [解析] 在某一现象与多种现象相关的场合,假定其他变量不变,专门考察其中两个变量的相关关系称为偏相关。在假定消费者的收入水平不变的条件下,该笔记本的市场需求与其市场价格水平的关系就是一种偏相关。 3.相关图又称( )。 A.散布表B.折线图C.散点图D.曲线图 [答案] C [解析] 相关图又称散点图,是指把相关表中的原始对应数值在乎面直角坐标系中用坐标点描绘出来的图形。 4.下列相关系数取值中错误的是( )。 A.-0.86 B.0.78 C.1.25 D.0 [答案] C [解析] 相关系数r的取值介于-1与1之间。 5.如果相关系数r=0,则表明两个变量之间( )。 A.相关程度很低B.不存在任何关系 C.不存在线性相关关系D.存在非线性相关关系 [答案] C [解析] 相关系数r是根据样本数据计算的度量两个变量之间线性关系强度的统计量。如果相关系数r=0,说明两个变量之间不存在线性相关关系。 6.当所有观测值都落在回归直线上,则两个变量之间的相关系数为( )。 A.1 B.-1 C.+1或-1 D.大于-1,小于+1 [答案] C [解析] 当所有观测值都落在回归直线上时,说明两个变量完全线性相关,所以相关系数为+1或-1。即当两个变量完全正相关时,r=+1;当两个变量完全负相关时,r=-1。 7.对于回归方程,下列说法中正确的是( )。 A.只能由自变量x去预测因变量y B.只能由因变量y去预测自变量x C.既可以由自变量x去预测因变量y,也可以由变量因y去预测自变量x D.能否相互预测,取决于自变量x和变量因y之间的因果关系 [答案] A

相关分析与回归分析

相关分析与回归分析 一、相关分析 相关分析是研究两个或两个以上随机变量之间的相互依存关系的紧密程度的。相关系数r 是表明两个定距或定比变量间关系程度的量数,其取值范围在-1到+之间。当r 为负值时,说明变量X 与变量Y 的变化方向相反。即当X 增大时,Y 减少;当X 减少时,Y 增大;当r 为正值时,说明两变量的变化方向相同。|r|=1时,称X 与Y 完全相关;r=0时,则称二者完全不相关;|r|越接近1,说明关系强度越大,越接近0,则说明关系强度越小。相关系数r 的计算公式为: ∑∑∑∑∑∑∑-?-?-= ] )([])([)()(2 2 2 2 Y Y n X X n Y X XY n r (公式1-1) 下面我们举例说明相关系数r 的计算方法: 代入公式得: 986.0) 127017730010()115177910(1270 11517270102 2 ≈-??-??-?= r 说明说明这10名工人的工龄与收入之间存在着非常强的正相关关系。 下面介绍一下如何在Excel 上求得相关系数。 [1]首先进行原始数据的录入,并将工作表保存为“相关分析1”(见图1)。 [2]在单元格A12输入“合计”;选中单元格B2——B11,之后鼠标点击自动求和按钮(如图2所示)。 [3] 用鼠标选中B12——F12区后,点击编辑菜单下的“填充”项,再点击“向右填充”,得到如图3所示的结果。 [4]在单元格C13、C15、 C16分别输入“分子项”、“分母项”、“相关系数”,在单元格D13输入公式“=A11*D12-B12*C12”,在单元格D14、E14分别输入公式“=A11*E12-B12^2”、“=A11*F12-C12^2”,在单元格D15、D16中分别输入“=(D14*E14)^(1/2)”、=ROUND(D13/D15,3),执行后结果如图4所示。

第八章 相关与回归分析习题

第八章相关与回归分析 练习题 一、填空题 1.相关关系依影响因素的多少分为和;依相关方向不同分为和;依相关的表现形式不同分为和。 2.在判定现象相关关系密切程度时,主要用进行一般性判断,用进行数量上的说明。 3.两个变量之间的相关关系称为;在具有相关关系的两个变量中,当一个变量的数值由小变大,而另一个变量的数值却由大变小时,这两个变量之间的关系称为。 4.进行分析时,首先要确定哪个是自变量,哪个是因变量,在这一点上与分析不同。 5.估计标准误差是与之间的标准差,它是说明的综合指标。 6.相关系数的取值范围是。 7.完全相关即是关系,其相关系数为。 8.相关系数是用于反映条件下,两变量相关关系的密切程度和方向的统计指标。 9.直线相关系数等于零,说明两变量之间;直线相关系数等于1,说明两变量之间;直线相关系数等于-1,说明两变量之间。 10.对现象之间变量的研究,统计是从两个方面进行的,一方面是研究变量之间关系的,这种研究称为相关关系;另一方面是研究关于自变量和因变量之间的变动关系,用数学方程式表达,称为。 11.回归方程y=a+bx中的参数a是, b是。在统计中估计待定参数的常用方法是。 12.求两个变量之间非线性关系的回归线比较复杂,在许多情况下,非线性回归问题可以通过化成来解决。 13.用来说明回归方程代表性大小的统计分析指标是。 二、单项选择题 l. 相关分析研究的是( )。 A.变量间的相互依存关系 B.变量间的因果关系 C.变量间严格的一一对应关系 D.变量间的线性关系 2.下列情况中称为正相关的是( ) A.随一个变量增加,另一个变量减少 B.随一个变量减少,另一个变量增加 C.随一个变量增加,另一个变量相应增加 D.随一个变量增加,另一个变量不变 3.相关系数的取值范围是( )。 A.一1<r<1 B.0<r<1 C.一l≤r≤1 D. r>1 4.相关系数等于零表明两个变量( )。 A.是严格的函数关系 B.不存在相关关系 C.不存在线性相关关系 D.存在曲线相关关系 5.相关分析对资料的要求是( )。 A.两个变量均为随机的 B.两个变量均不是随机的 C.自变量是随机的,因变量不是随机的 D.自变量不是随机的,因变量是随机的 6.估计标准误差是反映( )。

第八章直线相关与回归分析

第十章一元回归与相关分析 概述:许多问题需要研究多个变量之间的关系,例如生物的生长发育速度就与温度,营养,湿度等许多因素有关。 相关关系:两变量X,Y均为随机变量,任一变量的每一可能值都有另一变量的一个确定分布与之对应。 回归关系:X是非随机变量(如施肥)或随机变量(如穗长),Y是随机变量,对X的每一确定值x i都有Y的一个确定分布与之对应。 区别:1.相关中的两个变量地位对称,互为因果;回归中X是自变量,Y是因变量。 两种意义不同,分析的数学概念与推导过程不同,但如果使用共同标准即使y的残差平方和最小(最小二乘法),可得到相同的参数估计式。因此主要讨论X为非随机变量(不包含有随机误差)的情况,所得到的参数估计式也可用于X为随机变量的情况。 2.分析目的不同。回归分析是建立X与Y之间的数学关系式,用于预测;而相关分析研究X与Y两个随机变量之间的共同变化规律,例如当X增大时Y如何变化,以及这种共变关系的强弱。 分类: 从两个变量间相关(或回归)的程度分三种: (1)完全相关。一个变量的值确定后,另一个变量的值可通过公式求出(函数关系);生物学研究中不太多见。 (2)不相关。变量之间完全没有任何关系。一个变量的值不能提供另一个变量的任何信息。(3)统计相关(不完全相关)。介于上述两情况之间。知道一个变量的值通过某种公式就可以提供另一个变量的均值的信息。一个变量的取值不完全决定另一个变量的取值,但可或多或少地决定它的分布。科研中最常遇到。 研究“一因一果”,即一个自变量与一个依变量的回归分析称为一元回归分析; 研究“多因一果”,即多个自变量与一个依变量的回归分析称为多元回归分析。 一元回归分析又分为直线回归分析与曲线回归分析两种;多元回归分析又分为多元线性回归分析与多元非线性回归分析两种。 对两个变量间的直线关系进行相关分析称为直线相关分析; 研究一个变量与多个变量间的线性相关称为复相关分析;研究其余变量保持不变的情况下两个变量间的线性相关称为偏相关分析。 注意:1.相关与回归只是一种工具,不是不相干的数据拼凑在一起。 2.除X、Y等需研究的因素外,其他的要严格控制一致。(身高与胸围的关系要控 制体重) 3.对子一般在5对以上 4.需限制自变量范围,结果不能随意外延。 第一节一元线性回归 (一)直线回归方程的建立 对于两个相关变量,一个变量用x表示,另一个变量用y表示,如果通过试验或调查获得两个变量的n对观测值: (x1,y1),(x2,y2),……,(x n,y n)

第八章SPSS的相关分析和回归分析

第八章SPSS的相关分析和回归分析 第八章是关于SPSS的相关分析和回归分析的内容。在统计学中,相 关分析和回归分析是两个重要的方法,可以用来研究变量之间的关系和预 测未来的数值。 相关分析是研究两个或更多变量之间关系的方法。在SPSS中,使用 相关统计分析功能可以计算变量之间的相关系数。相关系数反映了变量之 间的线性关系的强度和方向。它可以是正的,表示两个变量呈正相关关系;也可以是负的,表示两个变量呈负相关关系;还可以是零,表示两个变量 之间没有线性关系。相关分析可以帮助我们了解变量之间的关系,为进一 步的研究提供基础。 回归分析是研究变量之间因果关系的方法。在SPSS中,使用回归分 析功能可以建立一个数学模型,根据已知的自变量的数值来预测因变量的 数值。回归分析可以帮助我们研究变量之间的因果关系,预测未来的数值,并进行决策和规划。在回归分析中,自变量可以是连续变量或者分类变量,因变量必须是连续变量。 在进行相关分析和回归分析之前,我们需要先导入数据。在SPSS中,可以通过导入Excel或者CSV文件的方式将数据导入到软件中。导入数据后,我们可以对数据进行描述性统计分析,包括计算均值、标准差、最小值、最大值等。描述性统计分析可以帮助我们了解数据的分布和变异情况。 在进行相关分析时,我们需要先选择需要分析的变量,然后点击相关 统计分析功能。在相关分析中,SPSS会输出相关系数矩阵和散点图。相 关系数矩阵可以帮助我们了解变量之间的相关关系,散点图可以帮助我们 直观地观察变量之间的关系。

在进行回归分析时,我们需要选择一个自变量和一个因变量,然后点击回归分析功能。在回归分析中,SPSS会输出回归方程、回归系数和模型的显著性等结果。回归方程可以帮助我们建立预测模型,回归系数可以帮助我们了解自变量对因变量的影响,模型的显著性可以帮助我们判断回归模型的拟合程度。 除了一元回归分析外,SPSS还提供了多元回归分析功能,可以分析多个自变量对一个因变量的影响。多元回归分析比一元回归分析更复杂,但也更强大。通过多元回归分析,我们可以探索多个自变量对因变量的相对重要性,并建立更准确的预测模型。 在使用SPSS进行相关分析和回归分析时,我们需要注意一些统计学上的假设和前提条件。例如,相关分析和回归分析都是基于线性关系的假设,如果变量之间存在非线性关系,我们需要考虑其他分析方法。此外,我们还需要对数据进行清洗和转换,确保数据质量和符合分析要求。 总之,SPSS是一款功能强大的统计软件,可以进行相关分析和回归分析。在实际应用中,我们可以使用SPSS来研究变量之间的关系,进行预测和决策。熟练掌握SPSS的相关分析和回归分析功能,对于统计学和数据分析领域的研究和实践都具有重要意义。

第八章 线性相关与回归分析

第八章线性相关与回归分析 一、选择题 1.下列关系属于线性负相关的是( ) A.吸烟与健康的关系 B.身高与手长 C.父母的身高与子女身高的关系 D.数学成绩与物理成绩的关 答案:A 2.相关系数为零时,表明两个变量间( ) A.无直线相关关系 B.无相关关系 C.无曲线相关关系 D.中度相关关系 答案:B 3.两个变量间的线性相关关系愈不密切,相关系数r值就愈接近( ) A.0 B.1 C.-1 D.-1或1 答案:A 4.根据回归方程y=a+bx( ) A.能否相互预测,取决于变量x和变量y之间的因果关系 B.只能由变量y去预测变量x C.可以由变量x去预测变量y,也可以由变量y去预测变量x D.只能由变量x去预测变量y 答案:A 5.相关关系是指变量间的 A.严格的函数关系 B.简单关系和复杂关系 C.严格的依存关系 D.不严格的依存关系 E.无正确选项 答案:D 6.进行简单直线回归分析时,总是假定 A.变量是非随机变量、因变量是随机变量 B.两变量都是随机变量 C.自变量是随机变量、因变量是确定性变量 D.两变量都不是随机变量 E.无正确选项 答案:A 7.回归方程y=123+1.5x中的回归系量数值表明:当白量每增上个单位时,因交量 A.增加1.5个单位 B.平均增加1.5个单位 C.增加123个单位

D.平均增加123个单位 E.无正确选项 答案:B 8.设某种产品产量为1000件时,其生产成本为30000元,其中固定成本6000元,则总生产成本对产量的元线性回归方程为 A.y=6+0.24x B.y=6000+24x C.y=24000+6x D .y=24+6000x E.无正确选项 答案:B 9.在回归分析中,要求对应的两个变量 A.都是随机变量 B.不是对等关系 C.是对等关系 D.都不是随机变量 E.无正确选项 答案:B 10.下列现象的相关密切程度高的是 A.某商店的职工人数与商品销售额之间的相关系数为0.87 B.流通费用率与商业利润率之间的相关系数为-0.94 C.商品销售额与商业利润率之间的相关系数为0.51 D.商品销售额与流通费用率之间的相关系数为-0.81 E.无正确选项 答案:B 11.相关系数r=0表示 A.不存在关系 B.存在非线性相关关系 C.相关程度很低 D.不存在线性相关关系 E.无正确选项 答案:D 12.相关系数r=-1表示 A.无相关关系 B.存在完全负相关 C.两变量独立 D.存在完全正相关 E.无正确选项答案:B 13.若物价上涨,商品的需求量相应减少,那么物价与商品需求量之间的关系为 A.不相关 B.负相关 C.正相关 D.复相关 E.无正确选项 答案:B 14.回归估计标准误差的计量单位与 A.自变量单位相同 B.因变量单位相同 C.相关系数单位相同 D.自变量和因变量的单位都不同 E.无正确选项 答案:B 15.在回归分析中,「检验主要用来检验 A.相关系数的显著性 B.回归系数的显著性 C.线性关系的显著性 D.估计标准误差的显著性 E.无正确选项 答案:C 16.某研究者测定58个中学生的体重,询问了他们每天睡眠时间,做直线相关分析,其自由度为 A.1 B.2 C.56 D.57 E.无正确选项 答案:C 17.若分析肺活量和身高之间的数量关系,拟用身高值预测肺活量值,则采用 A.相关分析 B.直线回归分忻 C.多元回归分析 D.无法确定 E.以上都不是 答案:B

相关分析与回归分析

相关分析和回归分析 一、相关分析 (一)相关的概念 两个变量之间不精确、不稳定的变化关系称为相关关系。两个变量之间的变化关系,既表现在变化方向上,又表现在密切程度上。 (二)相关的种类 1、从变化方向上划分 正相关:一个变量增大,另一个变量对应值也随之增大;或另一个变量值减小,另一个变量对应值也随之减小,两列变量变化方向相同。负相关:一个变量增大,另一个变量对应值也随之减少;或一个变量值减小,另一个变量对应值也随之增大,两列变量变化方向相反。零相关:两变量值的变化方向无规律。 2、从变量相互关系的程度上划分 无论两个变量的变化方向是否一致,凡密切程度高的称为强相关或高度相关;密切程度一般的称为中度相关;密切程度弱的称为弱相关或低度相关。 (三)相关散布图 它是表示两种事物之间的相关性及联系的模式。以直角坐标的横轴表示x列变量,纵轴表示y列变量,在相关的两变量对应值的垂直相交处画点,构成相关散布图。

相关散布图的用途: 1、判断相关是否直线式 2、判断相关密切程度高低 3、判断相关变化方向 (四)相关系数 用来描述两个变量相互之间变化方向及密切程度的数字特征量称为相关系数。一般用r 表示。 注: (1)相关系数的数值范围是1r 0≤≤。 (2)从r 的正负以及绝对值的大小,可以表明两个变量之间变化的方向及密切程度。“+”、“—”号表示变化方向(“+”号表示 图5-3(a ) 高度相关 图5-3b 低度相关 图5-4(a ) 正相关 图5-4(b ) 负相关 图5-2(a) 曲线相关 图5-2(b) 直线相关

变化方向一致,即正相关;“—”号表示变化方向相反,即负相关)r 的绝对值表示两变量之间的密切程度(即强度)。绝对值越接近1,表示两个变量之间关系越密切;越接近0,表示两个变量之间关系越不密切。 (3)相关系数只能描述两个变量之间的变化方向及密切程度,并不能揭示两者之间的内在本质联系。另外若两变量相关系数为0,只能表示两变量间没有线性关系,也可能存在曲线关系,即r=0,并不意味着两变量是独立的。 (五)积差相关 1.积差相关的概念 当两个变量都是正态连续变量,且两者之间呈线性关系时,表示这两个变量之间的相关称为积差相关。 2.积差相关的适用条件 (1)两变量均应由测量得到的连续性数据(量—量数据)。 (2)两个变量的总体都呈是正态分布,或接近正态的单峰对称 分布。 3.积差相关系数的定义公式 积差相关系数就是两个变量标准分数乘积之和除以n 所得之商。 用公式可表示为:()() Y X Y X n Y -Y X -X n Y -Y X -X r σσσσ∑=???? ?????? ??∑= 在此:X σ表示X 变量的样本标准差, Y σ表示Y 变量的样本标准差。

(罗良清)统计学(第二版)思考与练习答案:第八章相关与回归分析习题参考答案

1 二、计算与分析题 1.根据下列资料编制直线回归方程并计算估计标准误差。 (1)已知8.29.0362522====a r y x σσ 解:b=x bx a Y r x y 08.18.2ˆ,08.15 69.0+=+==⨯=σσ 62.281.01612=-=-≈r S y y σ (2)已知X 、Y 两变量,6.1=xx xy L L ,y σ是x σ的两倍,求相关系数r=? 解:r=8.02 6.1==yy xx xy L L L 2.某家俱厂生产家俱的总成本与木材耗用量有关,根据记录资料如下表: 月 份 1 2 3 4 5 6 7 木材耗电量(千米) 2.4 2.1 2.3 1.9 1.9 2.1 2.4 总成本(千克) 3.1 2.6 2.9 2.7 2.8 3.0 3.2

2 (1)建立以总成本为因变量的回归直线方程。 (2)计算回归方程的估计标准误差。 (3)计算相关系数,判断其相关程度。 解:(1)=a+bx=1.27+0.768x (2)=1592.022=-∑-∑-∑=n xy b y a Y S y (3)r=y x b σσ=0.754 3、广告的作用测定:在现代营销战中,广告的作用功不可没。受娃娃哈集团的委托,时代统计调查事务所调查研究了1995-2004年期间的娃娃哈集团的广告投入力度与平均销量的问题。其有数据资料整理如下表所示。 年份 广告费用(万元) 平均销量(百万箱) 1995 1996 1997 1998 1999 8 9 12 15 16 8.00 10.40 10.67 12.35 14.23

3 2000 2001 2002 2003 200 4 17 18 19 21 23 15.54 16.42 18.70 19.50 22.87 (1)分析娃娃哈集团平均销量的变动规律。 (2)测算广告费用与平均销量之间的相关关系与密切程度。 (3)建立广告费用与平均销量之间的回归方程,并预测当广告费用为25万元时,其平均销量水平。 (4)从统计角度简述直线趋势方程与线性回归方程的不同之处。 解:(1)娃娃哈集团平均销量的大致呈线性变动规律。 (2)r=y x xy σσσ=0.972 (3)=+=bx a Y ˆ0.348+0.919x 32.2325919.0348.0ˆ=⨯+=Y

第八章SPSS的相关分析和线性回归分析

第八章SPSS的相关分析和线性回归分析第八章涵盖了SPSS中的两个重要统计方法,即相关分析和线性回归 分析。相关分析用于探索两个或多个变量之间的关系,而线性回归分析则 用于建立变量之间的线性关系模型。本文将详细介绍这两种方法,以及如 何在SPSS中进行相关分析和线性回归分析。 一、相关分析 相关分析是用来研究两个或多个变量之间关系的一种统计方法。其基 本思想是通过计算相关系数来度量变量之间的相关性强弱。常用的相关系 数有Pearson相关系数和Spearman秩相关系数。 1. Pearson相关系数: Pearson相关系数用于度量两个连续变量之间的线性关系强度和方向。相关系数的取值范围在-1到+1之间,其中-1表示完全负相关,+1表示完 全正相关,0表示无相关性。在SPSS中进行Pearson相关分析的步骤如下: a. 打开数据集并选择"Analyze" -> "Correlate" -> "Bivariate"。 b.将待分析的变量移动到右侧的变量框中。 c. 选择"Options"并勾选"Means and standard deviations"和"Correlation matrix",然后点击"OK"。 2. Spearman秩相关系数: Spearman秩相关系数用于度量两个变量之间的单调关系。它是通过 对变量的秩次进行计算得到的。其取值范围也是-1到+1,含义与Pearson 相关系数类似。在SPSS中进行Spearman秩相关分析的步骤如下:

a. 打开数据集并选择"Analyze" -> "Correlate" -> "Bivariate"。 b.将待分析的变量移动到右侧的变量框中。 c. 在"Correlation Coefficients"下拉菜单中选择"Spearman",然 后点击"OK"。 线性回归分析是用来建立和验证变量之间线性关系的方法。它可以量 化自变量对因变量的影响程度,并进行统计显著性检验。线性回归分析的 基本模型为:Y=β0+β1*X+ε,其中Y是因变量,X是自变量,β0和 β1分别是截距和斜率,ε是误差项。 在SPSS中进行线性回归分析的步骤如下: a. 打开数据集并选择"Analyze" -> "Regression" -> "Linear"。 b. 将因变量移动到"Dependent"框中,将自变量移动到"Independent(s)"框中。 c. 选择"Statistics"并勾选"Estimates"、"Model fit"和"Collinearity diagnostics",然后点击"OK"。 在线性回归分析结果中,我们可以关注以下几个重要的统计指标: 1.截距和斜率的估计值:它们表示了线性关系的强度和方向。 2.相关系数和决定系数:相关系数表示自变量和因变量之间的线性关 系的强度,决定系数则表示线性模型所解释的因变量变异的百分比。 3.显著性检验:根据显著性水平判断自变量对因变量的影响是否显著。

(整理)第八章相关与回归分析

第八章相关分析 ●第一节相关分析概述 ●第二节直线相关关系的测定 ●第三节回归分析 第一节相关分析概述 ●一、相关关系的概念 ●现象相互之间的数量关系可以从形式上分为两种类型:一类是严格的确定性的函数关 系,另一类是不严格的不确定性的相关关系。 ●相关关系是现象之间确实存在有数量上的依存关系,但这种数量上的关系是不确定的。函数关系的例子 ▪某种商品的销售额(y)与销售量(x)之间的关系可表示为y = px (p 为单价) ▪圆的面积(S)与半径之间的关系可表示为S= R2 ▪企业的原材料消耗额(y)与产量(x1) 、单位产量消耗(x2) 、原材料价格(x3)之间的关系可表示为y = x1 x2 x3 函数关系 1.是一一对应的确定关系 2.设有两个变量x 和y ,变量y 随变量x 一起变化,并完全依赖于x ,当变量x 取 某个数值时,y 依确定的关系取相应的值,则称y 是x 的函数,记为y = f (x),其中x 称为自变量,y 称为因变量 3.各观测点落在一条线上 相关关系(几个例子) 相关关系的例子 ▪父亲身高(y)与子女身高(x)之间的关系 ▪收入水平(y)与受教育程度(x)之间的关系 ▪粮食亩产量(y)与施肥量(x1) 、降雨量(x2) 、温度(x3)之间的关系 ▪商品的消费量(y)与居民收入(x)之间的关系 ▪商品销售额(y)与广告费支出(x)之间的关系 相关关系 1.变量间关系不能用函数关系精确表达 2.一个变量的取值不能由另一个变量唯一确定 3.当变量x 取某个值时,变量y 的取值可能有几个 4.各观测点分布在直线周围 二、相关关系的种类 (1)相关关系按涉及的变量的多少分为单相关、复相关和偏相关。 单相关就是两个变量之间的相关关系。是研究一个因变量与一个自变量的依存关系。 复相关就是多个变量之间的相关关系。是研究一个因变量与两个或两个以上自变量的依存关系。 偏相关就是在复相关研究中,如果假定其它变量不变,仅研究某一个变量对另一个变量的依存关系。 (2)相关关系按方向不同分为正相关和负相关。 正相关是指变量之间存在着同向变动的相关关系,即当一个变量的数值有小变大,另一个变量的数值也相应地由小变大 负相关是指变量之间存在着反向变动的相关关系,即当一个变量的数值有小变大,另一个变量的数值却由大变小。 (3)相关关系按表现的形式不同分为线性相关和非线性相关。 当一个变量变动时,另一个变量也随之发生大致均等的变动,从图形上看,二者对

(整理)第八章相关与回归分析

(整理)第八章相关与回归分析 第八章相关与回归分析 一、单项选择题(下列每小题备选答案中,只有一个符合题意的正确答案) 1、下面现象间的关系属于相关关系的是( )。 A 、圆的周长和它的半径之间的关系 B 、价格不变条件下,商品销售额与销售量之间的关系 C 、家庭收入愈多,其消费支出也有增长的趋势 D 、正方形面积和它的边长之间的关系 2、若物价上涨,商品的需求量相应减少,则物价与商品需求量之间的关系为 ( )。 A 、不相关 B 、负相关 C 、正相关 D 、复相关 3、配合回归直线方程对资料的要求是( )。 A 、因变量是给定的数值,自变量是随机的 B 、自变量是给定的数值,因变量是随机的 C 、自变量和因变量都是随机的 D 、自变量和因变量都不是随机的 4、在回归直线方程bx a y c +=中,b 表示( )。 A 、当x 增加一个单位时,y 增加A 的数量 B 、当y 增加一个单位时,x 增加b 的数量 C 、当x 增加一个单位时,y 的平均增加量 D 、当y 增加一个单位时,x 的平均增加量 5、每一吨铸铁成本(元)倚铸件废品率(%)变动的回归方程为:y c =56+8x, 这意味 着( )。

A 、废品率每增加1%,成本每吨增加64元 B 、废品率每增加1%,成本每吨增加8% C 、废品率每增加1%,成本每吨增加8元 D 、废品率每增加1%,则每吨成本为56元 6、某校对学生的考试成绩和学习时间的关系进行测定,建立了考试成绩倚学习时 =180-5x,该方程明显有误,错误在于( )。 间的直线回归方程为:y c A、 A值的计算有误,b值是对的 B、 b值的计算有误,A值是对的 C、 A值和b值的计算都有误 D、自变量和因变量的关系搞错了 7、变量x与y之间的负相关是指() A、x数值增大时y值也随之增大 B、x数值减少时y值也随之减少 C、x数值增大(或减少)时y值也随之减少(或增大) D、y的取值几乎不受x取值的影响 8、在一元线性回归方程^yi=A+bxi中,回归系数b的实际意义是() A、当x=0时,y的期望值 B、当x变动一个单位时,y的平均变动数额 C、当x变动一个单位时,y增加的总数额 D、当y变动一个单位时,x的平均变动数额 9、相关关系是指现象之间确实存在着数量上的相互依存关系,但具体关系值() A、易确定 B、不固定 C、固定 D、不变的

第八章相关与回归分析

第八章相关与回归分析 第八章相关分析 ●第一节相关分析概述 ●第二节直线相关关系的测定 ●第三节回归分析 第一节相关分析概述 ●一、相关关系的概念 ●现象相互之间的数量关系可以从形式上分为两种类型:一类是严格的确定性的函数关 系,另一类是不严格的不确定性的相关关系。 ●相关关系是现象之间确实存在有数量上的依存关系,但这种数量上的关系是不确定的。函数关系的例子 某种商品的销售额(y)与销售量(x)之间的关系可表示为y = px (p 为单价) 圆的面积(S)与半径之间的关系可表示为S= R2 企业的原材料消耗额(y)与产量(x1) 、单位产量消耗(x2) 、原材料价格(x3)之间的关系可表示为y = x1 x2 x3 函数关系 1.是一一对应的确定关系 2.设有两个变量x 和y ,变量y 随变量x 一起变化,并完全依赖于x ,当变量x 取 某个数值时,y 依确定的关系取相应的值,则称y 是x 的函数,记为y = f (x),其中x 称为自变量,y 称为因变量 3.各观测点落在一条线上 相关关系(几个例子) 相关关系的例子 父亲身高(y)与子女身高(x)之间的关系 收入水平(y)与受教育程度(x)之间的关系 粮食亩产量(y)与施肥量(x1) 、降雨量(x2) 、温度(x3)之间的关系

商品的消费量(y)与居民收入(x)之间的关系 商品销售额(y)与广告费支出(x)之间的关系 相关关系 1.变量间关系不能用函数关系精确表达 2.一个变量的取值不能由另一个变量唯一确定 3.当变量x 取某个值时,变量y 的取值可能有几个 4.各观测点分布在直线周围 二、相关关系的种类 (1)相关关系按涉及的变量的多少分为单相关、复相关和偏相关。 单相关就是两个变量之间的相关关系。是研究一个因变量与一个自变量的依存关系。 复相关就是多个变量之间的相关关系。是研究一个因变量与两个或两个以上自变量的依存关系。 偏相关就是在复相关研究中,如果假定其它变量不变,仅研究某一个变量对另一个变量的依存关系。 (2)相关关系按方向不同分为正相关和负相关。 正相关是指变量之间存在着同向变动的相关关系,即当一个变量的数值有小变大,另一个变量的数值也相应地由小变大 负相关是指变量之间存在着反向变动的相关关系,即当一个变量的数值有小变大,另一个变量的数值却由大变小。 (3)相关关系按表现的形式不同分为线性相关和非线性相关。 当一个变量变动时,另一个变量也随之发生大致均等的变动,从图形上看,二者对应点分布近似地在一条直线附近,这种相关关系就称为线性相关关系。 当一个变量变动时,另一个变量也随之发生变动,但从图形上看,二者对应点分布 近似地在一条曲线附近,这种相关关系就称为非线性相关关系。 (4)相关关系按相关程度不同分为完全相关、不完全相关和不相关。 完全相关就是当一个变量的变动完全由另一个变量的变动所决定。

相关主题
相关文档
最新文档