方差分析及回归分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第九章 回归分析
教学要求 1.一元线性回归及线性相关显著性的检验法,利用线性回归方程进行预测。 2.可线性化的非线性回归问题及简单的多元线性回归。 ⏹ 本章重点:理解线性模型,回归模型的概念,掌握线性模型中参数估计的最小二乘法估计法。
⏹ 教学手段:讲练结合 ⏹ 课时分配:6课时
§9.1 一元线性回归
回归分析是研究变量之间相关关系的一种统计推断法。
例如,人的血压y 与年龄x 有关,这里x 是一个普通变量,y 是随机变量。Y 与x 之间的相依关系f(x)受随机误差ε的干扰使之不能完全确定,故可设有:
ε+=)(x f y (9.1) 式中f(x)称作回归函数,ε为随机误差或随机干扰,它是一个分布与x 无关的随机变量,我们常假定它是均值为0的正态变量。为估计未知的回归函数f(x),我们通过n 次独立观测,得x 与y 的n 对实测数据(x i ,y i )i=1,……,n ,对f(x)作估计。
实际中常遇到的是多个自变量的情形。
例如 在考察某化学反应时,发现反应速度y 与催化剂用量x 1,反应温度x 2,所加压力x 3等等多种因素有关。这里x 1,x 2,……都是可控制的普通变量,y 是随机变量,y 与诸x i 间的依存关系受随机干扰和随机误差的影响,使之不能完全确定,故可假设有:
ε+=),,,(21k x x x f y Λ (9.2) 这里ε是不可观察的随机误差,它是分布与x 1,……,x k 无关的随机变量,一般设其均值为0,这里的多元函数f(x 1,……,x k )称为回归函数,为了估计未知的回归函数,同样可作n 次独立观察,基于观测值去估计f(x 1,……,x k )。
以下的讨论中我们总称自变量x 1,x 2,……,x k 为控制变量,y 为响应变量,不难想象,如对回归函数f(x 1,……,x k )的形式不作任何假设,问题过于一般,将难以处理,所以本章将主要讨论y 和控制变量x 1,x 2,……,x k 呈现线性相关关系的情形,即假定
f(x 1,……,x k )=b 0+b 1x 1+……+b k x k 。
并称由它确定的模型 (9.1) (k=1)及(9.2)为线性回归模型,对于线性回归模型,估计回归函数f(x 1,……,x k )就转化为估计系数b 0、b i (i=1,……,k) 。
当线性回归模型只有一个控制变量时,称为一元线性回归模型,有多个控制变量时称为多元线性回归模型,本着由浅入深的原则,我们重点讨论一元的,在此基础上简单介绍多元的。
§9.1.1 一元线性回归
一、一元线性回归的数学模型
前面我们曾提到,在一元线性回归中,有两个变量,其中x 是可观测、可控制的普通变量,常称它为自变量或控制变量,y 为随机变量,常称其为因变量或响应变量。通过散点图或计算相关系数判定y 与x 之间存在着显著的线性相关关系,即y 与x 之间存在如下关系:
y=a+bx+ε (9.3) 通常认为 ε~N (0,σ2)且假设σ2与x 无关。将观测数据(x i ,y i )(i=1,……,n)代入(9.3)再注意样本为简单随机样本得:
)
,0(,)
,,1(21σεεεN n i bx a y n i i i 独立同分布ΛΛ=++= (9.4)
称(9.3)或(9.4)(又称为数据结构式)所确定的模型为一元(正态)线性回归模型。对其进行统计分析称为一元线性回归分析。
不难理解 模型(9.4)中EY=a+bx ,若记y=E(Y),则y=a+bx,就是所谓的一元线性回归方程,其图象就是回归直线,b 为回归系数,a 称为回归常数,有时也通称a 、b 为回归系数。
我们对一元线性回归模型主要讨论如下的三项问题:
(1) 对参数a ,b 和σ2进行点估计,估计量b a
ˆ,ˆ称为样本回归系数或经验回归系数,而x b a y
ˆˆˆ+=称为经验回归直线方程,其图形相应地称为经验回归直线。 (2) 在模型(9.3)下检验y 与x 之间是否线性相关。
(3) 利用求得的经验回归直线,通过x 对y 进行预测或控制。 二、a 、b 的最小二乘估计、经验公式
现讨论如何根据观测值(x i ,y i ),i=1,2,……,n 估计模型(9.2)中回归函数f(x)=a+bx 中的回归系数。
采用最小二乘法,记平方和
∑=--=n
t t t bx a y b a 1
2)(),(Q (9.5)
找使Q(a.b)达到最小的a 、b 作为其估计,即
),(min )ˆ,ˆ(b a b a
Q Q = 为此,令⎪⎪⎪⎩⎪⎪⎪⎨⎧=--==--=∑∑==0)(220
][2211
n t t t t n
t t t x bx a y bx a y a 2b
Q 2Q
Λ 化简得如教材所示的方程组(称为模型的正规方程) 解得⎪⎪⎩⎪⎪⎨⎧===x b y a
L L b xx
xy ˆˆˆ (9.6)
(9.6)所示的b a
ˆ,ˆ分别称为a 、b 的最小二乘估计,式中 ()
∑∑∑===-=-=n i n
i n i i i i xx x n x x x L 11
212
2)(1
a.b
∑∑∑∑==-=--=n i n
i n
i n
i i i i i xy y x n y x y y x x L 111
1))((1))((
称x b a y
ˆˆˆ+=为经验回归(直线方程),或经验公式。 例1 某种合成纤维的强度与其拉伸倍数有关。下表是24个纤维样品的强度与相应的拉伸倍数的实测记录。试求这两个变量间的经验公式。
将观察值(x i ,y i ),i=1,……,24在平面直角坐标系下用点标出,所得的图称为散点图。从本例的散点图看出,强度y 与拉伸倍数x 之间大致呈现线性相关关系,
一元线性回归模型是适用y 与x 的。现用公式(9.6)求b a
ˆ,ˆ,这里n=24 946
.1171.11324
1
93.650756
.1301.1135.127241
6.731266.1525.127241
61.8296
.731,
93.650,
61.8291.113,5.1272222=⨯-==⨯⨯-==⨯-
======∑∑∑∑∑yy xy xx i
i
i
i
i i L L L y
x y x
y x
∴15.0ˆˆ859.0ˆ=-===x b y a
L L b xx
xy 由此得强度y 与拉伸倍数x 之间的经验公式为 x y
859.015.0ˆ+= 三、最小二乘估计b a ˆ,ˆ的基本性质 定理9.1 一元线性回归模型(9.4)中,a 、b 的最小二乘估计b a
ˆ,ˆ满足: