相关和回归分析
第八章 相关与回归分析
第一节 相关关系及其种类
一、相关分析的意义
相关与回归分析,是统计学中最有适应价值的一个分支,在科学研究、社会经济管理等若干方面,都能够发挥重要的作用。
世界是普遍联系的有机整体,现象之间存在着相关依存、相互制约的关系,每一个现象的运动、变化和发展,与其周围的现象相互联系和相互影响着。比如,销售规模扩大了,相应地会降低产品的销售成本,价格的上升,将导致供应量的增加,但与此同时,可能会压制消费水平,适当地增加土地耕作深度、施肥量,有利于农作物产出的提高,投入的学习时间与取得的成绩一般呈现出正向关系,数学课学得好则计算机也会学得好一些,身材高的父母,他们的子女的身高也相对较高,降低储蓄的利率,可能会引起存款量的减少,一个人接受教育的程度,与他的劳动效率有着千丝万缕的联系,工作年限长的工人,由于动作熟练和经验丰富,因此比起新手其生产效率将高出一截等等。通过对现象间的这些关系的研究,可以帮助人们找到现象变化内在与外在的影响因素及其发生机制,进而达到认识规律的目的。如果能够准确地把握住这些规律,借以估计、预测和控制,就可以对决策活动和科学研究给予帮助与指导。
相关关系又叫统计关系,它是指现象之间客观存在的相互依存关系。这种关系,只是大致的、从总体上而言的,并不是说某一现象的每一变化,都一定会引起与它有联系的另一现象的同样的变化,换句话,就是一个现象发生了变化,另一现象可能暂时无反应,或者该现象没变,但另一现象却有些变化,可是如果从更大的截面上观察,似乎又存在着某些必然的联系。比如,生产规模与经济效益有联系,但有可能的情况是,规模小的企业不见得单位产品成本就一定比规模大的低甚至低多少,父母身材高的小孩他的身高不会肯定就比父母身材矮的小孩的身材高。那么,说规模和效益、高身材与低身材父母的遗传关系的规律,不过是从普遍的事实中概括出来的。
统计学是研究客观现象数量方面的,从数量角度研究现象间的相互依存关系,需要把它们转化为变量的描述和处理。因此。统计相关分析,也可以说就是研究变量与变量之间的关系。变量间的关系可分为两大类,一类是确定性关系,可以用数学上的函数表达式来说明,例如,圆的面积与圆的半径,其函数式为2
r S π=,一旦半径r 给出了,圆的面积就唯一得到了确定,再比如,物体下落的距离与时间的关系为22
1
gt h =
,时间t 的值,也是与距离h 的值一一对应的。除了这类确定性关系外,变量间的另
一类关系为不确定性关系,如果用X 表示产量、价格、利息率、身高、工龄等,用Y 表示单位成本、供应量、储蓄存款余额、体重、劳动生产率,则X 与Y 间的关系,是不好用一个确定的数学表达式加以刻
画的。因此,有时人们也把相关关系解释成,变量间表现出来的不确定性关系。
二、相关关系的种类包括:
1、按存在的形式分,有线性相关与非线性相关。其中,线性相关是指变量间的关系呈现出一条近似直线或平面。最简单的线性关系,就是两个变量间的直线关系。非线性关系,是指变量间的关系呈现出近似的曲线或曲面,像指数曲线、抛物线等形状的相关关系,便是非线性相关。
图1.1 线性相关关系散点图
图1.2 曲线相关关系散点图
2、按相关关系的方向分,有正相关和负相关。当一个变量值增大时,另一个变量也相应会增大,或者一个变量的值减小,另一个变量的值也随之减小,则称变量间的这种变化关系为正相关关系。如果一个变量的值增大,而另一个变量的值反而减小,或者一个变量值减小,另一个变量值却在上升,那么这种相关关系为负相关关系。图1.1中的(a)和图1.2中的(b)为正相关,图1.1中的(b)和图1.2中的(a)为负相关。
3、按相关关系的程度分,有完全相关、不完全函数关系和完全不相关。完全相关就是数学中的函数关系,它可作为相关关系的一种特殊情况。完全不相关,表明现象之间虽然存在各种间接的联系,但不是统计上所说的相关关系。介于这两者之间的关系,即是一般所说的相关关系,它又可化分为高度相关关系、中等程度的相关关系和低度相关关系。
图1.3 完全相关关系散点图
图1.4 不完全函数关系散点图
图1.5 完全不相关关系散点图
4、按一次研究的变量个数的多少分,有简单相关关系和多重相关关系。反映两个变量之间的相关关系,称为简单相关关系或一元相关关系。如果同时研究多个变量之间的相关关系,则称为多重相关关系。
5、按依存关系的情况分,有单向因果关系、互为因果关系和模糊因果关系等。变量间一个是“果”,其余为“因”,因果关系十分明确,那么这种相关关系称为因果相关关系,如产量与施肥量的关系,是施肥量影响着农作物的产量,而不是产量影响着施肥量,所以产量是施肥量的结果,施肥量是产量增减的原因。如果现象间彼此存在着相互作用,一个现象既是另一现象作用的结果,同时又可作为另一现象结果的影响因素,则称这两种现象间存在着互为因果关系,如钢材的抗拉强度和抗压强度的关系便是如此。假如现象间的因果关系很不明晰,像企业的产品产量与能源消耗量之间的关系,就可称之为模糊因果关系。狭义的相关关系分析,主要研究互为因果关系和模糊因果关系的情况。
第二节相关分析的基本方法
相关分析的内容相当广泛,按照K〃皮尔逊的说法,统计学的目的在于讨论和研究不成函数关系的两个或两个以上变量的相关关系。在这里,我们只介绍最基本的简单相关关系的分析方法。
一、统计表示法
将现象之间的相关关系,用统计表格形式来反映,这种相关关系的描述方法称作统计表示法。用来表示相关关系的统计表称为相关表。常见的相关表包括:简单相关表、单变量分组相关表和双变量分组相关表等。
1、简单相关表。把解释变量X与解释变量Y成对的数据,按解释变量X值的大小顺序排列在一张
统计表中,就得到简单相关表。
[例2.1]10家百货商场的人均销售额与利润率资料为:
人均销售额(万元): 6 5 8 1 4 7 6 3 3 7
利润率(%): 12.6 10.4 18.5 3.0 8.1 16.3 12.3 6.2 6.6 16.8
试编制相关表,并简要说明人均销售额与利润率的关系。
解:这是一个两变量的相关分析问题,人均销售额为解释变量,利润率为解释变量,又由于数据个数不多,所以只要编制简单相关表就行了。具体结果如下:
表2.1 人均销售额与利润率相关表
从表2.1中可以看出,人均销售额与利润率之间存在正相关关系,人均销售额大的,利润率也相应较高。
2、单变量分组相关表。在原始资料比较多时,需要进行分组,编制分组相关表。这样做,可以更清晰地揭示现象之间的相关关系。对解释变量X进行分组,计算各组的频数和各组中解释变量Y值的平均数,在此基础上编制而成的相关表,称为单变量分组相关表。
[例2.2]根据[例2.1]中的资料,编制单变量分组相关表。
解:表2.1的人均销售额栏中,有重复的数字,可以借助频数将表编制得更简洁些。
表2.2 人均销售额与利润率相关表
3、双变量分组相关表。对解释变量X和解释变量Y同时进行分组,并列出交叉组对应的频数,按此编制出的相关表,就是双变量分组相关表。
表2.3 双变量分组相关表
编制双变量分组相关表时,行和列交叉的地方,是两个变量取值同时发生的频数。另外,为了能将描述的结果与相关图对应起来,需把解释变量放在行,并把它的值按从小到大的顺序排列,而把解释变量放在列,并把解释变量的值按照从大到小的顺序进行排列。
二、统计图示法
借助统计图反映现象间的相关关系,具有简明直观的特点,它不仅能反映现象之间的关系及其相关程度,而且还能一目了然地揭示相关关系的方向和相关关系的模式。统计相关与回归分析模型的建构,传统上的做法是以经验和理论为依据的,从20世纪70、80年代始,通过对样本数据的分析建模,逐渐引起人们的兴趣和重视。从这一点上讲,统计相关图对统计相关与回归分析模型的建立无疑是有帮助的。
将两个变量X、Y成对的资料,在平面直角坐标系中描绘出来,所得到的散点图,称为统计相关图。那么,用相关图来反映变量X、Y之间的相关关系,称为相关分析的统计图示法。
相关图的绘制方法:
第一步,先作一个平面直角坐标系。
第二步,确定变量间的因果关系。
第三步,以水平轴表示解释变量,用纵轴表示解释变量。
第四步,把解释变量X和解释变量Y成对的数据,作为坐标系中的每一个点,分别描绘出来就得到相关图。
第五步,为清晰起见,有时还要求用一条直线或曲线,近似描绘出点的分布轨迹。
[例2.3]某学校校长想了解学生入学平均成绩与毕业时累积学分之间的关系,随机抽选了10名毕业生的学籍资料,得到的数据如下:
入学平均考分: 91 74 85 96 69 63 60 82 79 86
累积平均学分: 3.8 2.6 3.4 3.8 2.22.32.13.13.2 3.7
试根据上述资料绘出入学成绩与获得学分的统计相关图,并给出简要的分析。
解:根据经验,入学平均成绩与在校学习时获得的学分,是存在某种关系的,其中,入学成绩是解释变量,获得的学分可看作解释变量。作出的相关图如下:
图2.1 入学成绩与获得的学分相关图图2.2 广告费与营业收入相关图
由图2.1可以看出,学生入学成绩与在校学习成绩存在着正的线性相关关系,且相关程度比较高,因此学校应正视招生工作和加强学校的培养。
[例2.4]一大型家具制造公司,在14个城市的试营业额及广告费用资料如下(单位:百万元):
试由上面的资料绘制相关图。
解:广告是产品促销的重要手段,广告投入一般会影响产品的销售情况,所以可把广告费X 看成解释变量,营业额Y 作为解释变量。绘制出来的相关图见图4.2。图4.2显示出,广告投入与营业额之间存在着正线性相关关系,这表明对于家具类商品,广告效果是明显的。
三、相关系数
相关系数是反映两个变量线性相关关系的一个重要的统计指标。根据总体资料计算的相关系数,称为总体相关系数,用记号ρ表示,由样本资料计算的相关系数,称为样本相关系数,用r 表示。严格地讲,相关系数只能用于衡量具有线性关系的两个变量间的相关关系,但在实际应用时,人们往往较少考虑这个条件是否得到满足。
),(),...,,(),,(2211n n Y X Y X Y X 为变量X 与Y 的观察样本,X 与Y 分别为X 、Y 的样本均值,则相关系
数的计算公式是:
∑
∑
∑===----=
n
i i n
i i n
i i i y y x x y y x x r 1
21
2
1
)()
()
)(( (2.1)
上述公式是K 〃皮尔逊提出来的,故有时又叫做皮尔逊相关系数。
由于公式(2.1)的分子是变量与它们的算术平均数离差积的和,如果我们定义:
∑=--=n
i i i
xy
y y x x
n
S 1
2
))((1 (2.2) 为协方差,那么式(2.1)又可写成:y
x xy S S S r 2=
,其中,x S 为X 的标准差,y S 为Y 的标准差。
方差和标准差都是正数,但协方差2xy S 却不见得如此。若2
xy S <0,r 也小于0,表明变量X 与Y 存在负相关关系,若2xy S >0,r 也大于0,说明X 与Y 是正相关关系。所以,相关关系的方向,主要取决于协方差2xy S 是取正值还是取负值。
相关系数r 的值在—1与1之间,即有1≤r 。r 值的大小,可以用来反映相关关系的强弱程度。r
值越大,说明相关程度越高,反之,r 越小,则说明相关程度越低。特别地,当r=1或r=-1时,表明现象之间存在完全相关关系,r=0时,说明现象之间完全没有相关关系。对于相关关系的强弱程度,通常有个经验标准可供参考:r ≤0.3时,可认为基本上不存在相关关系,0.3<r ≤0.5为低度相关,0.5<r ≤0.8为显著相关,0.8<r <1为高度相关。
直接按式(2.1)来计算相关系数往往比较麻烦,如果X 、Y 除不尽作四舍五入处理,还容易造成较大的计算误差。相关系数的简捷计算公式为:
∑∑∑∑∑∑∑=======---=
n
i i n
i i
n
i i n
i i
n
i i
n i i
n i i
i y y
n
x x
n
y x y x n
r 1
2
1
21
2
1
211
1
)
(
)
(
)
)(( (2.3)
[例2.5]试根据[例2.3]中的资料,计算入学成绩与所得学分的相关系数。
解:用X 表示入学平均成绩,Y 表示学习期间的累积平均学分。有关计算,可以在表上作业:
表2.4 相关系数计算表
由公式(2.3)得:
2
1
1
221
1
21
1
1
)(
)(
)
)((∑
∑
∑
∑
∑∑∑-======---=
n
i i n
i i n
i i n
i i n
i i
n i i
n i i
i y y n
x x n
y x y x n
r
963
.02.3028.961078562889102
.307859.24391022=-?-??-?=
计算结果说明,入学成绩与平均获得的学分呈高度正相关,相关系数为0.963。
第三节回归分析概念及其内容
一、回归分析与相关分析的关系
回归分析是关于变量间客观存在的相关关系描述模型及其性质讨论和应用的统计方法的总称。
回归分析与相关分析既有区别又有联系,它们的区别主要表现在:
第一,相关分析说明的是两个变量之间的相互依存关系,因而它只是变量间相关关系的反映和描述性解释,而回归分析带有平均、期望的含义。举个例子,父辈的身高会影响子女的身高,究竟二者的关系有多大,计算相关系数就可以得到说明,那么回归的意思是指,高个子父辈其子女的身材也高,但高过父辈身高的情况普遍比较少,矮个子父辈的子女的身高相对较低,但他们的子女的身高又有普遍超过他们身高的倾向,人的身高总是趋向某个平均数,据此不难看出,相关与回归的原始含义是不同的。
第二,相关分析一般要求变量X与Y的地位对等,而且都是随机变量。可是回归分析中,需要根据现象之间客观存在的依存关系的逻辑顺序,区分哪一个是解释变量,哪一个是解释变量。解释变量是随机变量,解释变量是可控变量或普通变量。
第三,在相关分析中,要求变量X和变量Y皆服从正态分布,可是在回归分析中,仅要求给定X 时,Y的条件分布是正态分布。
第四,进行相关分析时,一般要求对X的所有取值,Y的方差或标准差相同,对Y的所有取值,X 的方差或标准差也要相同,但在经典的回归分析中,只要求Y的条件分布的方差保持同一,即所谓等方差性问题。
第五,相关分析仅限于两个变量间的相关关系的场合,回归分析却没有这样的限制。
回归分析与相关分析也存在着联系,表现为:
第一,相关分析是回归分析的前提和基础。通常,在确定了现象之间存在的相关关系及其形式后,才好有针对性进入回归分析。如果相关关系不显著,就没有必要进行回归分析,即使勉强进行回归分析,其实际意义也不大。
第二,回归分析是相关分析的继续和深入。相关分析的结果仅能说明现象之间相关关系的大小和有无,了解这一点还远远不够。在相关分析的基础上进行回归分析,可以进行估计、预测和控制,二者结合起来,才能够发挥相关分析更大的作用。
第三,回归分析与相关分析存在数量上的等价关系。利用回归分析求出相关关系,是相关系数的一种计算方法,反之从相关系数出发,也可方便地计算出回归系数。在统计检验方面,凡是回归模型代表性强的,相关系数就显著,若是回归模型代表性差,相关关系就不显著。或者,如果相关系数通过了
显著性检验,那么回归方程的代表性就好,相关系数r的值越大,回归分析的效果越理想,否则,回归方程的代表性和回归分析的效果就较差,甚至毫无价值可用。
以上所述的相关分析和回归分析的关系,主要是从狭义的相关与回归概念方面来讲的,而且仅着眼于现象之间简单的线性关系。从广义上理解,相关分析和回归分析基本上溶于一体,也就是说是一码事。
二、回归分析的内容
回归分析作为统计学方法的一个重要组成部分,它包括的内容相当广泛,从涉及到的变量的多少,有一元回归分析和多元回归分析,从回归模型的函数形式,有线性回归分析和非线性回归分析,从依据资料的测量水平,有数值回归分析和混合资料回归分析,从资料的时间属性,有静态资料回归分析和动态时间序列回归分析,以及二者兼有的“桌面”资料回归分析,从变量X、Y的分布模型是否确定,有参数回归分析与非参数回归分析等。下面,仅就回归模型的建立过程及其应用问题作一个大致的介绍。
回归模型的建立过程,需要经历以下几个步骤:
第一,在定性和定量分析的基础上,确定变量以及它们之间的相关关系。定性分析是指,根据相关学科的理论、专业知识和经验,对现象与现象之间的内在联系所作的研究。定量分析是指依据大量的统计数据,对现象之间客观存在的数量关系和数量表现规律,进行反映和发现。现象之间的联系,往往是比较复杂的,那么通过定性和定量研究,能够帮助人们对问题有个深入的了解和掌握,从而有利于正确地提出合适的数学模型。
第二,建立回归分析模型。利用模型进行研究,是许多学科中经常用到的方法,模型是对客观现象的本质特征及其变化规律的一种描述、模仿或抽象。模型的种类很多,回归分析模型属于数学模型,而且是一个随机数学模型,形式上表现为函数方程式,结构上由变量和参数组成。建立回归模型,需要处理好二个方面的问题,一是模型描述的逼真性,另一是模型描述的简洁性,追求模型的逼真性,势必要引进许多变量,这将导致模型的复杂化和表述上的困难,如果追求模型的简洁性,虽然有利于求解,但由此会造成模型逼真度的降低。好的回归分析模型,需要将二者兼顾起来。
第三,参数的求解。对模型中的参数进行求解,是模型进一步具体化的过程。对于同类性质的问题,都可以用一个一般的回归方程来描述,只有在根据特定问题的资料,求出模型的参数之后,该模型才适用对这个问题的研究。回归分析中,模型求解常用的方法包括最小二乘估计、极大似然估计等。
第四,回归模型的显著性检验。回归模型初步确立后,在利用它进行估计、预测和控制之前,还需要对它的代表性强弱程度作出分析。解释变量即解释变量发生疏漏,解释变量与解释变量的相关关系不明显,实际中的解释变量与解释变量的关系形式与提出的模型存在较大的差异等,如果这些情况发生了,回归模型的代表性就会变得不理想,那么用这样的模型进行估计、预测和控制,效果肯定不会太好。
回归模型的显著检验,主要是对回归模型中的参数,以及模型的相关关系进行显著性推断。
第五, 回归模型的修正和改进问题。如果回归模型没有通过显著性检验,说明拟定的模型存在着问题,因而要重新回过头来,查找原因并进行妥善的修改,直至能确立较为满意或最优的回归模型为止。 建立回归分析模型,不是最终的目的,关键是利用已建立起来的模型达到估计、预测和控制的意图。因此,回归分析模型的应用问题,构成回归分析的另一大内容,包括:
第一, 回归估计。回归估计的含义是,根据回归分析模型,对于给定的解释变量X 的值,去推测解释变量Y 的可能取值。经常人们不加区分地使用“估计”与“预测”,事实上细细比较一下,这两个词的词义还是有点差别的。一般地,对于横截面样本资料和时间序列的内插问题,要用估计一词。回归分析的统计估计,主要研究解释变量的均值估计和点值估计,其中,又可细分为均值的点估计和区间估计,点值的点估计和区间估计。
第二, 回归预测。时间序列的外推问题,称为回归预测。进行回归预测时,解释变量的值一般在样本数据的范围之外。由于回归模型主要依据样本确定的,因此,如果解释变量的值与样本的时间范围相差较大,那么预测结果的可靠性和合理性将大大降低,这是作回归预测研究时,必须要注意的问题。
第三, 控制分析。回归控制是回归估计和回归预测的反问题,它主要研究给定解释变量的值,确定解释变量取值的变化范围。
第四节 线性回归分析
一、一元线性回归分析
1、一元线性回归模型及其假定条件
()11,y x ,()22,y x ,…,()n n y x ,为一组成对观察值,则称X 与Y 之间的下列关系:
i i i x y εβα++= n i ,...,2,1= (4.1)
为一元线性回归模型,其中,y 为被解释变量,x 为解释变量,α、β为参数,α表示截距,β为回归参数,ε为随机项。
一元线性回归模型的经典假定条件是:
(1)i ε服从正态分布。这个假定在理论上是合理的,因为i ε表示模型中未加考虑的所有对i y 有影响的各因素共同作用的情况,这些因素可能很多,但它们每一个对i y 的作用都比较小,那么由中心极限定理和统计大数定律知,i ε是近似服从正态分布的。i ε是否服从正态分布,或者是否要求这样的假设,对于回归模型参数的最小二乘估计,往往不那么重要,也可以有也可以无,但对回归参数的区间估
计、假设检验,乃至回归方程的代表性分析却是必需的。
(2)E (i ε)=0。该假定要求,随机项i ε的统计分布的均值应等于0。这个假定很容易得到满足。假定式(4.1)中()()0≠=c c E i ε,那么将式(4.1)改写成:()()c x c y i i i -+++=εβα,令c +='αα,
c i i -='εε,则有'++'=i i i x y εβα,这时候显然有0=??
? ?
?'
i E ε。
(3)()2σε=i Var 。这个假设称为等方差性要求,它表明对于i x 被解释变量i y 分布的离散程度是一
样的。如果()2
i i Var σε=,21σ,22σ,〃〃〃,2i σ不完全相等,那就不能平等地对待21,y y …,n y 。实际
问题中,关于等方差的要求常常不能得到满足,因此,如何处理回归分析中的异方差问题,构成了回归分析的专门研究内容之一。
(4)()
0,=j i Cov εε。这个假设要求,只有i x 才能对i y 产生系统影响,如果不是这样,则影响i y 的不仅有i x ,还包括1-i x 和1-i y 等。()
0,=j i Cov εε()j i ≠称非自相关假定,关于自相关问题,也是回归分析的专门问题之一。
(5)()0,=i i x Cov ε。这一假定要求i x 与i ε不存在相关关系。如果i x 与i ε是相关的,那将不利于我们最终确定出X 与Y 的经验回归方程,同样会导致问题的复杂化。
符合以上假定条件的一元线性回归模型,称为一元线性经典回归模型,它可简单地表示成:
??
?++=),0(2
σεεβαN x y i
i
i i 或直接简写成:
i y ~()2,σβαi x N +, n i ,,2,1 =
X 与Y 的相关关系,可以理解为对于每一个X 的值i x ,它对应于i y 取值的一个分布。i x 不能完全准确地确定出i y 的值,但从统计意义上讲,希望由i x 能估计出i y 的平均值()i y E ,即寻找()i y E 与i x 之间的函数关系式。通过前面对一元线性回归的理论模型及其假定条件的讨论,我们知道()i i x y E βα+=,如果根据样本资料求出α、β的估计,则有:
i
i x y βα???+=,n i ,...,2,1= (4.2) 式(4.2)称为经验回归方程。一般地,我们就用经验回归方程式去估计理论回归方程()i i x y E βα+=。
2、回归参数估计量的导出
最小二乘法和极大似然估计法,是导出回归参数估计量最常用的两种方法,下面分别加以介绍。 (1)最小二乘法
对于i i i x y εβα++=,用α
?和β?分别估计α、β,则得到: i i
i x y εβα????++= n i ,...,2,1= 其中,i x βα??+为i y 的估计i y ?,i ε?为回归残差或称为i ε的估计。i ε?与i ε的性质有所不同,i ε?是i ε在样本中的反映,因而是能够观察的。直观地理解,如果α
?、β?是α和β的优良估计,则一定满足:
Min y
y
n
i i i
n i i =-=∑∑==1
1
??ε 从数学意义上讲,上式等价于下式:
()()Min y
y
n
i i i
n
i i =-=∑∑==2
1
2
1
??ε (4.3) 但式(4.3)在数学处理上却方便得多。通常,由式(4.3)出发确定参数估计量的方法,称为最小二乘估计法,由最小二乘法导出的估计量,称为最小二乘估计量。
把i y ?换成i
x βα??+代入式(4.3)得:
()()
Min x y
n
i i
i
n
i i =+-=∑∑==2
1
2
1
???βαε
对上式求关于α
?、β?的导数得:
()
(
)
()1??2???1
2
1-+-=?+-?∑∑==n
i i
i n
i i
i x y x y βαα
βα ()∑=+--=n
i i
i
x y 1
??2
βα
(4.4)
()
=?+-?∑=β
βα???2
1
n
i i
i x y ()
()i
n
i i i x x y -+-∑=1
??2βα =()
∑=+--n
i i
i i i x x x y 1
2??2βα (4.5) 根据极值定理,式(4.3)等价于令式(4.4)和式(4.5)等于0的联立方程:
()()??
???=∑+--=∑+--==0??20??2112n
i i i n
i i i i i x y x x x y βαβα
经过处理得:
?????∑∑∑∑∑=====+=+=n
i i n i i n
i i n i i n i i i x n y x x y x 1
1
12
11
????βαβα (4.6)
式(4.6)称为正则方程,由式(4.6)解出α
?、β?,得到: ????
?
???
?
-=---=
∑
∑==x
y x x y y x x
n
i i n
i i i
βαβ
1
2
1
)())(( (4.7)
这样,我们便得到了回归模型中的参数α、β估计量的表达式。
(2)极大似然估计法
()11,y x ,()22,y x ,…,()n n y x ,为一组样本观察值,对于每一对()i i y x ,,存在:
i i i x y εβα++=, 且i ε~()
2,0σN ,n i ,...,2,1=
那么1y ,2y ,…,n y 的联合密度函数为:
()βα,;,...,,21n y y y L
()?
?????---∏==2
212exp 21
σβασπi i n
i x y ()??
?
???????---????
??=∑=n
i i i n
x y 1
22
21exp 21βασ
σ
π
根据极大似然估计原理,若要保证上式达到极大值要求,仅需使
()∑=--n
i i i x y 1
2
βα取极小值即可。同样道理,可得α、β的极大似然估计量:
????
?
???
?-=---=
∑∑==x
y x x
y y x x
n
i i
n
i i i
βαβ
1
2
1
)
())((
从以上结果可知,由最小二乘估计和极大似然估计所得到的参数α、β的估计量α
?和β?,它们在形式上是完全一致的。
在上一节中曾提到过相关分析与回归分析之间存在着数量上的等价关系问题,现在有了回归系数
β的估计量,我们可以更明确地作出解释。
()()
()∑∑==---=n
i i n
i i i x x y y x 12
1
?β
()()
()
()
()()
∑-∑-?
∑-∑-∑--=
=====n
i i n
i i n
i i n
i i n
i i i x x y y y y x x y y x x 1
2
12
1
2
1
2
1
x
y s s r ?= (4.8)
另一方面,又有:
y
x
s s r ?=β? (4.9)
如果X 与Y 互为因果关系,x y ?β?表示Y 对X 的回归系数,y
x ?β?表示X 对Y 的回归系数,那么有: y
x x y r
???±=ββ?? (4.10)
r 的符号取决于回归系数x y ?β?与y
x ?β?取值的正负。 3、估计量的优良性质
由最小二乘和极大似然估计法导出的α、β估计量α?和β?具有如下的统计性质: (1)线性。α
?、β?为i ε的线性函数:
β?∑=+=n
i i i k 1
εβ (4.11)
其中,()
∑=--=
n
i i
i i x
x
x
x k 1
2
。
α
?∑='+=n
i i i k 1
εα (4.12)
其中,i i k x n
k -=
'1
。 (2)无偏性。α
?、β?分别是α和β的无偏估计。 (3)最佳性。α
?、β?是α、β的最优估计。 对这一性质,我们来作点解释。 令∑=='n
i i
i y
c 1
?β
是β的无偏估计,则有:
()
???
?
??='∑
=n i i i y c E E 1?β
()???
?
??++=∑
=n i i i i x c E 1εβα
∑∑==+=n
i i i n
i i
x c c
1
1
β
α
β= (4.13)
因此一定存在:
?????=∑=∑
==0111
n
i i n i i i c x c (4.14)
β
'?的方差: ()
???
?
??='∑
=n i i i y c Var Var 1?β
∑==n
i i
c
1
22
σ
()[]2
12
∑=+-=n
i i i i
k k c
σ
()()[]
∑=+-+-=n i i i i i i i
k k c k k c
1
2222σ
()()???
?
????+
-+
-=∑
∑
∑===n
i i n
i i i i n
i i i k k c k k c 121
1
22
2σ ()
()()?
?
??
??
??
??????--
--++-=∑
∑∑
∑∑
∑======n
i i n i i n i i n
i i i n
i i n
i i i
x x x x c x x c k k c
121
2
1
121221
2
2
12σσσ 由式(4.14)得:
()
()∑∑==+-='n
i i
n
i i i
k
k c
Var 1
2
2
1
22?σ
σβ
只有当i i k c =时,()
β'?Var 的值最小,且为∑=n
i i k 1
22σ。而∑=n i i k 1
22σ恰好为β?的方差,所以∑=+=n
i i
i k 1
?εββ为β最小无偏估计。同样的道理,可说明α?也是α的最小方差无偏估计(请读者自行完成证明过程)。
4、回归参数的估计和检验
对回归参数α、β作估计和检验,首先要了解它们的估计量α
?和β
?的抽样分布。 α
?、β?都是关于i ε的线性函数,所以α?、β?服从正态分布。 由于()
ββ=?E ,且()
β'?Var =∑=n
i i
k 1
22σ,因此有: β?~??
? ??∑=n
i i k N 122,σβ
因为()
∑=--=
n
i i
i i x x
x
x k 1
2
,那么有:
()∑
∑∑===??????
?
?
?--=n i n
i i i n i i x x x
x k 12
12
12 ()
∑=-=
n
i i
x x
1
2
1
这样又有:
β?~()??
???
? ??-∑=n
i i x x N 122
,σβ (4.15) 同理可得:
α?~N (α,()?????
?
??????-+∑=n i i x x x n 12221σ) (4·16) 在α
?、β?的方差中,都有同样的未知参数2σ,要到达对α、β推断的目的,还需要估计出2σ。为此,让我们来分析一下回归残差平方和:
∑
=???? ?
?
∧-=n
i i y y SSE 12
()∑=--=
n
i i
i
x y 12
??βα
()()()
∑=---=n
i i i
x x y y
1
2
?β
()()()()()
∑=-+----=
n
i i
i i i
x x y y x x y y
1222?2ββ
()
()()()∑∑∑===-+----=
n
i i i
n
i i n
i i
x x y y x x y y
1
221
1
2
??2ββ
()()()∑∑∑===-+-?--=n
i i
n
i i n i i x x x x y y 1
222
1
1
2
???2βββ
()()∑∑==---=n
i i
n i i x x y y 1
221
2
?β 那么有:
()()()??
? ??---=∑∑==n
i i
n i i x x y y E SSE E 12212?β ()()()∑∑==--??
? ??-=n
i i
n i i x x E y y E 1
2
212?β
(4·
17) 分别来讨论式(4·17)右边的第一项和第二项:
()???
??-∑=n i i y y E 12??
? ??-=∑=212y n y E n i i
()
()
212y nE y E n
i i -=∑=
()[]()()()??
????+-+=
∑=2
12
)()var(y E y Var n y E y n
i i
i
()
[]
(
)?
??
? ?
?++-++=
∑=2
2
1
2
2
x n n x n
i i βασβασ
()()???
?????-+-=∑
=2
122
2
1x n x n n i i βσ
()()
∑=-+-=n
i i
x x n 1
2
2
2
1β
σ (4·18)
()()
[()()()]()
∑∑==-+=-n
i i n
i i x x E Var x x E 1
2
2
1
2
2
???ββ
β
()()∑∑==-?????
?
??+-=n i i n i i x x x x 12
212
2
βσ
()∑=-+=n
i i x x 12
2
2
β
σ (4·19) 将式(4·18)、(4·19)代入式(4·17)得:
()SSE E ()()()∑∑==--??
? ??-=n
i i
n i i x x E y y E 12
212?β
()()
()??
????-+--+-=∑∑==n
i i n
i i
x x x x
n 122
21
2
2
2
1βσβ
σ
()22σ-=n
这表明
2
-n SSE 是2
σ的无偏估计。 此外,还可以证明定理:
2
σ
SSE
~()22
-n χ
,且与β?相互独立 (4·
20) (1)回归参数α的区间估计和假设检验 由式(4·16)可进一步得到:
()
∑=-+-n
i i
x x
x
n
1
2
2
1
?σ
αα
~()1,0N
又因为:
2
σ
SSE
~()22
-n χ
根据t 分布的定义:
()∑=-+
--n i i
x x x
n
n SSE 1
2
2
12?αα ~ ()2-n t (4·21)
对于给定的臵信水平α-1,α的双侧估计区间为:
()()()()?????
??
?
???????
???????? ?
?
-+
-?-+??????? ??
-+
-?--∑∑=-=-n
i i
n
i i x x
x n n SSE n t x x x n n SSE n t 1
2
2
2
11
2
22
1122?,122?αααα (4·
22) 对于假设:
0:0=αH ,0:1≠αH
在显著性水平α下的检验否定域: