回归分析(5)
考点5,回归分析与独立性检验

考点五 回归分析与独立性检验考点要揽◆会做两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系。
◆了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程。
◆了解独立性检验(只要求22⨯列联表)的基本思想、方法及其简单应用。
◆了解回归分析的基本思想、方法及其简单应用。
命题趋向◆以选择题和填空题的形式考查线性回归系数或利用线性回归方程进行预测,在给出临界值的情况下判断两个变量是否有关。
◆在解答题中与频率分布结合考查线性回归方程的建立及应用和独立性检验的应用。
备考策略◆系统掌握有关概念◆能熟练的运用公式求线性回归系数一、回归分析(一)回归直线方程: a x b yˆˆˆ+=,其中()()()∑∑∑∑====--=---=ni ini ii ni ini i ix n xyx n yx x xy y x xb 1221121ˆx b y aˆˆ-=,()y x ,称为样本中心点,因而回归直线过样本中心点. (二)样本相关系数()r用来衡量两个变量之间线性相关关系的方法.()()()()∑∑∑===----=ni ni iini i iy yx xy y x xr 11221当0>r 时,表明两变量正相关;当0<r ,表明两变量负相关. r 越接近1,表明两变量的线性相关性越强; r 越接近0,表明两变量的线性相关关系几乎不存在,通常当75.0>r 时,认为两个变量有很强的线性相关关系.理解总结(一)线性回归分析一般情况下,在尚未断定两个变量之间是否具有线性相关关系的情况下,应先进行相关性检验,在确认具有线性相关关系后,再求回归直线方程.回归分析的一般步骤为:1.从一组数据出发,画出散点图,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义;2.如果具有线性相关关系,求出回归方程a x b yˆˆˆ+=,其中a ˆ是常数项, b ˆ是回归系数;3.根据回归方程,由一个变量的值,预测或控制另一个变量的值.(二)估计线性回归模型中的未知参数aˆ和b ˆ时,一般利用最小二乘法.其计算公式为:()()()⎪⎪⎩⎪⎪⎨⎧-=--=---=∑∑∑∑====x b y ax n x yx n yx x x y y x xb ni i ni ii ni i ni i iˆˆˆˆ1221121其中∑==n i i x n x 11,∑==ni i y n y 11.对此公式不要求记忆,但要会用.高考导航例 1 假设关于某设备使用年限x 和所支出的维修费用y (万元)有如下的统计资若由资料知y 对x 呈线性相关关系.试求:(1)线性回归方程a x b yˆˆˆ+=的回归系数b a ˆ,ˆ; (2)估计使用年限为10时,维修费用是多少?解题思路求回归直线方程的计算量较大,需要细心、谨慎地计算.可以通过列表,计算出∑=ni i i y x 1,∑=ni i x 12,x ,y ,后将这些量代入公式计算.于是23.14590ˆ2=⨯-=b,08.0423.15ˆˆˆ=⨯-=-=x b y a . (2)回归直线方程为38.1208.023.1ˆ=+=x y. 当10=x 时, 38.12ˆ=y,即估计使用10年时,维修费用是12.38万元.二、独立性检验(一)独立性检验的概念一般地,假设有两个分类变量X 和Y ,它们的值域分别为{}21,x x 和{}21,y y ,我们利用随机变量()()()()()d b c a d c b a bc ad n K ++++-=22来确定在多大程度上可以认为“两个分类变量有关系”,这种方法称为两个分类变量的独立性检验. (二)独立性检验的基本思想独立性检验的基本思想类似于反证法.要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立.在该假设下我们构造的随机变量2K 应该很小,如果由观测数据计算得到的2K 的观测值k 很大,则在一定程度上说明假设不合理. 具体比较如下表:假设1H :“X 与Y 有关系”,可按如下步骤判断结论1H 成立的可能性:1.通过等高条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度.2.利用独立性检验来考查两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度,具体做法是:(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界a ,然后通过下表确定临界值0k .(2)由公式()()()()()d b c a d c b a bc ad n K ++++-=22,计算2K 的观测值k .(3)如果0k k ≥,就推断“X 与Y 有关系”.这种推断犯错误的概率不超过a ;否则,就认为在犯错误的概率不超过a 的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有足够证据支持结论“X 与Y 有关系”. 理解总结根据独立性检验的基本思想,可知对于2K 的观测值k ,存在一个正数0k 为判断规则的临界值,当0k k ≥,就认为“两个分类变量之间有关系”;否则就认为“两个分类变量没有关系”.在实际应用中,我们把0k k ≥解释为有()()%100102⨯≥-k KP 的把握认为“两个分类变量之间有关系”;把0k k <解释为不能以()()%100102⨯≥-k K P 的把握认为“两个分类变量之间有关系”,或者样本观测数据没有提供“两个分类变量之间有关系”的充分证据. 高考导航例1 (1)下列关系中不是相关关系的是 ( )(A)产品投入的广告费与产品的销售量.(B)数轴上的点与实数x.(C)人的身高与体重的大小.(D)一天中的湿度与气温的高低.(2)对分类变量X与Y的随机变量2K的值,下列说法正确的是 ( )(A)2K越大,“X与Y有关系”可信度越小.(B)2K越小,“X与Y有关系”可信度越小.(C)2K越接近于0,“X与Y无关”程度越小.(D)2K越大,“X与Y无关”程度越大.解题思路(1)观察给出的两个量之间是否是函数关系、是否具备一定的联系,是否没有关系,从而可以判断出各种关系.(2)2K是反映变量X与Y是否有相关关系的一个重要参数.解析:(1)A项产品投入的广告费与产品的销售量、C项的人的身高与体重的大小、D项的一天中的湿度与气温的高低之间都是有一定的联系但是是不确定性的关系,故为相关关系.B项数轴上的点与实数x之间为确定的函数关系.例2 为了比较注射A、B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.(1)甲、乙是200只家兔中的2只,求甲、乙分在不同组的概率;(2)下表1和表2分别是注射药物A和B后的试验结果.(疱疹面积单位:2mm);②完成下面22⨯列联表,并回答能否有%9.99的把握认为“注射药物A 后的疱疹面积与注射药物B 后疱疹面积有差异”.表3疱疹面积小于270mm 疱疹面积不小于270mm 合计注射药物A =a =b 注射药物B =c=d合计=n附: ()()()()()d b c a d c b a bc ad n K ++++-=22()02k K P ≥0.10 0.05 0.025 0.010 0.0010k2.7063.841 5.024 6.635 10.828解题思路(1)将甲、乙两只家兔分在不同组,可在剩余的198只中选99只,也就是将剩余的分为两组,然后再将甲乙两只分在两个组中即可;(2)第①问画频率分布直方图时,应该首先计算出相应的频率,要注意其纵轴为频率与组距的比值;在频率分布直方图中,中位数将小矩形的面积分为相等的两部分,据此可以估计中位数所在的范围;第②问可以根据给出的频数分布表得到22⨯列联表,然后利用给定的公式和对应表来确定其可信程度.【解析】(1)甲、乙两只家兔分在不同组的概率为: 1991001002009919812==C C C P . (2)①在频率分布直方图中,中位数两边对应的小长方形的面积相等,都等于0.5,可以看出注射药物A 后的疱疹面积的中位数在65至70之间,而注射药物B 后的疱疹面积的中位数在70至75之间,所以注射药物A 后疱疹面积的中位数小于注射药 物B 后疱疹面积的中位数. ②表3:疱疹面积小于270mm 疱疹面积不小于270mm 合计注射药物A 70=a 30=b 100 注射药物B 35=c65=d100合计10595 200=n()56.24951051001006530657020022≈⨯⨯⨯⨯-⨯=K 由于828.102>K ,所以有%9.99的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”. 迁移应用1、(2009宁夏海南卷理科)对变量x ,y 有观测数据()i i y x ,()10,,2,1 =i ,得散点图1;对变量v u ,有观测数据()i i v u ,()10,,2,1 =i ,得散点图2. 由这两个散点图可以判断。
回归分析练习试题和参考答案解析

1 下面是7个地区2000年的人均国内生产总值(GDP)和人均消费水平的统计数据:求:(1)人均GDP作自变量,人均消费水平作因变量,绘制散点图,并说明二者之间的关系形态。
(2)计算两个变量之间的线性相关系数,说明两个变量之间的关系强度。
(3)求出估计的回归方程,并解释回归系数的实际意义。
(4)计算判定系数,并解释其意义。
α=)。
(5)检验回归方程线性关系的显著性(0.05(6)如果某地区的人均GDP为5000元,预测其人均消费水平。
(7)求人均GDP为5000元时,人均消费水平95%的置信区间和预测区间。
解:(1)可能存在线性关系。
(2)相关系数:系数a模型非标准化系数标准系数t Sig.相关性B标准误差试用版零阶偏部分1(常量).003人均GDP.309.008.998.000.998.998.998 a. 因变量: 人均消费水平有很强的线性关系。
(3)回归方程:734.6930.309y x=+系数a模型非标准化系数标准系数t Sig.相关性回归系数的含义:人均GDP没增加1元,人均消费增加元。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%注意:图标不要原封不动的完全复制软件中的图标,要按规范排版。
系数(a)模型非标准化系数标准化系数t显著性B标准误Beta1(常量)人均GDP(元)%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%(4)模型汇总模型R R 方调整 R 方标准估计的误差1.998a.996.996a. 预测变量: (常量), 人均GDP。
人均GDP对人均消费的影响达到%。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%注意:图标不要原封不动的完全复制软件中的图标,要按规范排版。
模型摘要模型R R 方调整的 R 方估计的标准差1.998(a)%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%(5)F检验:Anova b模型平方和df均方F Sig.1回归.6801.680.000a 残差5总计.7146a. 预测变量: (常量), 人均GDP。
回归分析法

1
§5-1 一元线性回归
一、什么叫回归分析
(一)两种不同类型的变量关系、函数与相关
简单的说,回归分析就是一种处理变量与变量之间关系的 数学方法。 例:自由落体运动中,物体下落的距离S与所需时间t之间,有 如下关系
S
1 2 gt 2
(0 t T )
2
变量S的值随t而定,这就是说,如果t给了固定值, 那么S的值就完全确定了 这种关系就是所谓的函数关系或确定性关系
(二)相关系数检验法
由U ( yi y ) U [(a bxi ) (a b x )]2
2 i=1 N i=1 N ^ _ N _
b ( xi x) 2
2 i=1
_
代入 Lyy [( yi yi ) ( yi y )]2整理后可得
i=1
23
相关系数临界值表 n-2 0.05
1 2 3 4 5 6 7 8 9 10
0.01
1.000 0.990 0.959 0.917 0.874 0.834 0.798 0.765 0.735 0.708
n-2 0.05
11 12 13 14 15 16 17 18 19 20
0.01
0.684 0.661 0.641 0.623 0.606 0.590 0.575 0.561 0.549 0.537
6
设y* a bx是平面上的一条任意直线,(xi , yi )(i 1,2, ..., N )是变量x,y的一组观测数据。 那么,对于每一个xi,在直线y* a bx上确可以确定一 个yi a bxi的值,yi 与xi处实际观测值yi的差: yi yi yi (a bx) 就刻画了yi与直线偏离度
空间分析原理与应用:第五章 空间回归分析

来自表2-1总体的两个随机样本
两个独立样本的回归线
总体回归线与样本回归线
Y
.Y1
需 求 量
. e1
u1
Yˆi b1 b2 Xi
.Yˆ1
EY | X B1 B2 Xi
A
..un Yn . en
Yˆn
0
X1 价格
Xn
X
5.2.6 “线性”回归的特殊含义
解释变量线性与参数线性
1. 解释变量线性 非线性举例:
y
y
000.5yy 0.5y 0 y
1 2 3 4 5
000...555yyy334
2 y
1
0.5y 5
0.5y 5
0.5y 4
(3 1)
式(3 1)表示变量y *用其他区域的y进行解释的线性关系,可写成:
y Cy
(3 2)
其中,是需要估计的回归参数,反映了样本数据内在的空间
模式的有效描述,因此需要引入能够描述空间自相关和空 间非平稳性的项,克服回归模型的缺陷。 • 空间关系的描述需要借助空间权重(邻接)矩阵。
空间邻接矩阵为:
0 1 0 0 0
1 0 0 0 0
W 0 0 0 1 1
(8)
0 0 1 0 1
0 0 1 1 0
行标准化为:
0 1 0 0 0
1 0 0 0 0
5.2.2 总体回归函数
例子:不同家庭收入水平下的学生数学SAT成绩
家庭年收入与数学S.A.T分数
总体回归函数PRF
E(Y | X i ) B1 B2 X i
(2-1)
Y的条件期望,可简写为E(Y)
B1和B2是参数(parameters),也称回归系数 (regression coefficients)。
回归分析

回归分析1、回归分析的概念在工农业生产和科学研究中,常常需要研究变量之间的关系。
变量之间的关系可以分为两类:确定性关系、非确定性关系。
确定性关系就是指存在某种函数关系。
然而,更常见的变量之间的关系存在着某种不确定性。
例如:商品的销售量与当地人口有关,人口越多,销售量越大,但它们之间并没有确定性的数值关系,同样的人口,可能有不同的销售量。
这种既有关联,又不存在确定性数值关系的相互关系,就称为相关关系。
回归分析就是研究变量之间相关关系的一种数理统计分析方法。
在回归分析中,主要研究以下几个问题: (1)拟合:建立变量之间有效的经验函数关系; (2)变量选择:在一批变量中确定哪些变量对因变量有显著影响,哪些没有实质影响; (3)估计与检验:估计回归模型中的未知参数,并且对模型提出的各种假设进行推断; (4)预测:给定某个自变量,预测因变量的值或范围。
根据自变量个数和经验函数形式的不同,回归分析可以分为许多类别。
2、一元线性回归⏹ 回归系数的最小二乘估计已知(x1, y1),(x2 ,y2),...,(xn, yn),代入回归模型得到: 一元线性回归模型给定一组数据点(x1, y1),(x2 ,y2),...,(xn, yn),如果通过散点图可以观察出变量间大致存在线性函数关系,则可以建立如下模型:其中a,b 称为一元线性回归的回归系数;ε表示回归值与测量值之间的误差。
针对该模型,需要解决以下问题: (1)如何估计参数a,b 以及σ2; (2)模型的假设是否正确?(3)如何应用所求的回归方程对试验指标进行预测。
⏹ 回归系数的最小二乘估计已知(x1, y1),(x2 ,y2),...,(xn, yn),代入回归模型得到: 采用最小二乘法(即使观测值与回归值的离差平方和最小):⎩⎨⎧++=),0(~2σεεN bX a Y 2,~(0,),1,2,...,i i i i y a bx N i n e e s =++=1221111112111(,)2[()]0min (,)[()](,)2[()]011ˆˆˆn i i n n i i i i n i i i i i i n i i n n i i ii i n n n i i i ii i i Q a b y a bx a Q a b y a bx Q a b x y a bx b a y b x y n n na b x y a x b x x y e ==========ì锒ï=--+=ïï¶ï==-+ íï¶ï=--+=ïï¶ïî=-=-ìïï+=ïïï揶íïï+=ïïïîå邋åå邋邋1111221ˆ1n i n n n i i i ixy i i i nn xxbx x y x y L n b L ====ìïïïïïïïïí-ïï==ïïïå邋⏹ 回归系数估计量的性质⏹ 样本相关系数及其显著性检验显然:样本相关系数R 的符号决定于Lxy ,因此与相关系数b 的符号一致。
Chapter5 多元回归分析:

u的正态性意味着在给定x的条件下y的分布是正态的。
u是不可观测的,因此考虑y的分布 是否是正态的则容易的多。
不幸的是有很多例子表明y的分布不是正态 分布的
例如一些明显偏态的变量:在 某一特定年份中被捕的青年数 量(大部分人不会被捕)
正态分布假定不会影响OLS称为最优线性无 偏估计量,但t统计量和F统计量是否服从t 分布和F分布则与正态分布假定有关。
5.2.1 Central Limit Theorem
利用中心极限定理我们可以证明OLS估计量满 足渐进正态性 (asymptotically normal)
渐进正态性的含义是: P(Z<z)F(z) as n , or P(Z<z) F(z)
中心极限定理表明任何(具有有限方差的)总 体 的一个随机样本的均值经过标准化以后都服 从渐进标准正态分布。
考察吸烟量(cigs)对婴儿体重产生的影响, 观测值共1388个。
当我们使用前一半观测值共694个得到βcigs估 计量标准误约为0.0013,当我们使用全部观测
值时标准误为0.00086
se ˆ j c j n c j se ˆ j n,
足以说明cj是一个不依 赖于样本容量的常数
0.0013 694 0.0342 0.0320 0.00086 1388
还是方差最小的 因此我们说OLS统计量是渐进有效的 注意,OLS统计量的最小方差性是依赖于同
方差假定的,同方差性不满足OLS统计量未 必是方差最小的。
5.2.3 Lagrange Multiplier statistic
在大样本情况下,无需正态假定我们也可以 运用t和F统计量。
但有时我们也可以用其他的方法检验多元排 除约束。
回归分析
1
p
e1
e
e2
en
1 x11
X
1
x12
1 x1n
xp1
xp2
xpn
• 我们得到的是一组实测p个变量的样本,利用这 组样本(n次抽样)对上述回归模型进行估计, 得到的估计方程为多元线性回归方程,记为:
nb0
b
n i 1
xi
n i 1
yi
n
n
n
b0
i 1
xi
b
i 1
xi 2
i 1
xi
yi
(3)
(3)式称为求回归系数的标准方程组。
回归系数也可直接表示为:
b0 y bx
n
b
xi yi nxy
气温T 0.9 1.2 2.2 2.4 -0.5 2.5 -1.1 0 6.2 2.7 3.2 -1.1 2.5 1.2 1.8 0.6 2.4 2.5 1.2 -0.8
环流指标 32 25 20 26 27 24 28 24 15 16 24 30 22 30 24 33 26 20 32 35
气温T
• 方差分析表明,预报量y的变化可以看成由 前期因子x的变化所引起的,同时加上随机 因素e变化的影响,这种前期因子x的变化影 响可以用回归方差的大小来衡量。如果回 归方差大,表明用线性关系解释y与x的关系 比较符合实际情况,回归模型比较好。
(4)式两边同时乘以n变成各变量离差平方和的关系。
回归分析
逐步回归的基本思想和步骤:
开始
对不在方程中的变 量考虑能否引入?
能
引入变量
否
对已在方程中的变
量考虑能否剔除?
能 剔除变量
否 筛选结束
例2、大春粮食产量的预报模型
某地区大春粮食
产量 y 和大春粮 食播种面积x1、 化肥用量x2、肥 猪发展头数x3、
水稻抽穗扬花期
降雨量x4的数据
如下表,寻求大
春粮食产量的预
变量筛选方法的选择应注意
• 1.变量选择不仅仅是数学问题,不能脱离研究的目的进行。 • 2.最好多做尝试,对不同方法之间所结果的差异认真思考。
Statistics 对话框
X轴或Y轴中有一 个是因变量
标准化的预测值 标准化的残差 删除的残差 修正后的预测值。 用户的残差
用户的删除的残 差
Plots 对话框
报模型。
Y 309.0 400.0 454.0 520.0 516.0 459.0 531.0 558.0 607.0 541.0 597.0 558.0 619.0 618.0 742.0 805.0 859.0 855.0
X1 137.0 148.0 154.0 157.0 153.0 151.0 151.0 154.0 155.0 155.0 156.0 155.0 157.0 156.0 159.0 164.0 164.0 156.0
操作步骤:Analyze→Regression →Linear… →Statistics→Model fit Descriptives
衡量多元线性回归方程的标准
• 1.复相关系数R与校正复相关系数Rad • 2.剩余标准差S
强影响点的诊断及对策
诊断方法: • 1.散点图 • 2.残差诊断指标 • 3.稳健回归方法的使用 • 对策: • 1.去除 • 2.变量变换 • 3.非参数分析 • 4.采用加权最小二乘法
Regression(回归分析)
Fitted Value
• 残差的值上/下的平均值为 ‘0’, Data是Random分布的 因此残差是正规性的.
回归分析例题-单回归分析
5. 最后画回归线 Minitab Menu : Stat / Regression / Fitted Line Plot
回归分析例题-单回归分析
5. 最后画回归线 Minitab Menu : Stat / Regression / Fitted Line Plot
Normal Probability Plot
Residual
0
5
.999
残差(Residual)是检验回归方程法是否适用 的一种Tool.其判断依据如下: 1) 残差的平均应始终为 ‘0’ 2) 残差应正态分布 3) 残差要Random分布 (不能有倾向性)
.99 .95
Probability
.80 .50 .20 .05 .01 .001 -5 0 5
R-Sq(adj) = 87.3%
我们要找的函数式是?
Analysis of Variance Source Regression Residual Error Total 9 Source x1 x2 DF 1 1 DF SS MS 2 332.07 166.04 7 36.33 5.19 368.40 Seq SS 313.04 19.03 F 32.00 P 0.000
回归分析例题-中回归分析(2)
实行结果
Stepwise Regression: y versus x1, x2, x3, x4 Alpha-to-Enter: 0.15 Alpha-to-Remove: 0.15 Response is y on 4 predictors, with N = 13 Step Constant x4 T-Value P-Value x1 T-Value P-Value x2 T-Value P-Value S R-Sq R-Sq(adj) C-p 8.96 67.45 64.50 138.7 2.73 97.25 96.70 5.5 1 117.57 -0.738 -4.77 0.001 2 103.10 -0.614 -12.62 0.000 1.44 10.40 0.000 3 71.65 -0.237 -1.37 0.205 1.45 12.41 0.000 0.416 2.24 0.052 2.31 98.23 97.64 3.0 1.47 12.10 0.000 0.662 14.44 0.000 2.41 97.87 97.44 2.7 4 52.58
第三章 回归分析
第三章 回归分析一)基本概念在客观世界中变量间的关系可分为 =E ε S=S 0 +vtS=S 0 +vt+ε 有统计规律关系CW—R 28 变量间有非确定关系无统计规律关系 ①砼R 28——C W 有统计关系,相同CW测出的R 28 不一定完全相等。
②砼R 28与砼的孔隙率和孔隙分布有一定关系;但相同孔隙率、孔隙分布。
R 28不一定完全相等。
③年龄与血压有一定关系;相同的年龄,血压不一定完全相同。
这种自变量取一定的值时,因变量的值不确定,但有一定关系。
我们称为相关关系。
当自变量可以随意指定时(随意取定值时)这种自变量称为可控变量(CW、年龄) 当自变量不能随意取定值(像孔隙率、孔隙分布)称为不可控自变量。
当自变量为可控变量时,变量间的关系的分析称为回归分析。
自变量为一个时称为一元回归;自变量为两个以上时为多元回归。
σσ二)一元线性回归模型设X 是可控自变量,Y 是依赖于X 的随机变量,它们的关系是Y=α+βX+εε 其中a 、b 是常数;b 称为回归系数。
ε服从正态分布),0(2σN数学期望:EY=E(a+bx+ε)-Y=a+bx 称为Y 对X 的回归直线方程,①通过X i 与Y i 的测定值求出方程 两个问题②已知Y=a+bx ,检验X i 与Y i 是否符合该关系式 1)求一元线型回归方程对自变量X i ,因变量Y i 作n 次试验;其结果如下:X X 1 X 2 ------ X n Y 0 Y 1 Y 2 ------ Y n ① 确定X-Y 的关系类型建立X-Y 作坐标图,将试验结果在坐标中表达出来,对其进行初步判断,确定关系类型。
② 判断为Y=a+bx 时,求a 和b 常数,作离差平方和: Q =2211()()nni i i i i i Y y Y a bx ==-=--∑∑要使试验值与Y=a+bx 相近似,有 ∑--==ni Q i i x b a Y 12min )(L 21()nxx i i x x ==-∑∑==---=∂∂n i i i x Y b a a Q 10)(2 L 21()nyy i i Y Y ==-∑ ∑==---=∂∂n i i i i x Y x b a b Q10)(2 ))((1Y x Y x L i n i i xy --=∑= a=Y bX -210ni iiii x Y a x b x=-∑-∑=∑2()0i i i i xY Y bx x b x ∑--∑-∑= 2()()0i i i i i xY Y x b x x x ∑-∑-∑+∑=b=LL XX X Y X xxxy iiii iX Y =+-∑∑∑∑22)检验一元线型回归模型是否成立要检验一元线型回归模型是否成立,理论需要检验:①x 取各个固定值时,Y 都服从正态分布,而分布还依赖于x,且方差相等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
而知。 为此,研究者选用二元二次多项 式回归模型 2 y 0 1 x1 2 x2 11 x1
2 22 x2
12 x1 x2
并检验交互效应和风险反感度的二次 效应。
2016/5/10 28
序号
x1
x2
y
1
2 3 4
66.29
40.964 72.996 45.01
7
5 10 6
196
63 252 84
5
6
57.204
26.852 38.122 35.84
4
5 4 6
126
14 49 49
数 据 表
7 8
9
10 11 12
75.796
37.408 54.376 46.186
9
5 2 7
266
49 105 98
13
14 15 16
第10章 非线性回归
线性回归的理论较为成熟,应用 也较为广泛。但当被解释变量与解释 变量之间呈某种曲线关系时,就必须 用非线性回归。 本章首先介绍可线性化的非线性 回归,然后介绍多项式回归,最后简 要介绍了一般的非线性回归模型。
2016/5/10 2
§1 可线性化的非线性回归
1. 线性化的含义及途径 因为线性回归的“线性”是针对 参数而言,而不是针对自变量而言, 所以有些非线性回归模型可以通过变 量代换转化为线性回归模型。 例如, bx y 0 1e (b已知)
首先做三元线性回归,结果如下:
2016/5/10 37
线性回归
2016/5/10
38
显然,回归效果极差。 可将所有项选入,然后选择逐步 回归法,结果如下:
2016/5/10
39
逐步回归
2016/5/10
40
2016/5/10
41
2016/5/10
42
具体回归方程为 y 16.170 9.017 x1 0.400 x2
2016/5/10 11
(1) 双曲函数 x 1 1 y 即 ab ax b y x
2016/5/10
12
(2) S型函数II
1 y x a be
2016/5/10
13
此函数显然有两条渐近线y=0和y =1/a。 S 型函数有多种,其共同特点是 曲线首先缓慢增长,在达到某点后迅 速增长,在超过某点后又缓慢增长, 最终趋于一个稳定值。 S 型函数在许多领域都有广泛的 应用,例如产品的销售量、农作物的
例10.1 对下表中的GDP数据进行 非线性回归。 解 首先做数据散点图。 分析->回归->曲线估计。 分别选线性和复合函数进行回归, 结果见下。
2016/5/10
16
年份 1981
t 1
y 4862.4
y1 4296.35
e 566.05
1982
1983 1984 1985
2
3 4 5
5294.7
46.13
30.366 39.06 79.38
4
3 5 1
77
14 56 245
17
2016/5/10
52.766
55.916
8
6
133
133
29
18
为了清楚地看到各项对回归的贡 献,使显著性检验更加明确,采用逐 个引入自变量的方法。 2 2 首先由x1和x2的值求出 x1 , x2 , x1 x2 的值,然后用下列方法依次引入变量 2 2 x1 , x2 , x1 , x2 , x1 x2 : 先选入y和x1, 然后下一张,再选 入x1, x2 , 然后再下一张, 再选入x1 , x2 ,
2016/5/10 14
生长、病毒的传播速率与时间的关系 等都可以用S型函数研究。 SPSS 中的 S 型函数 y=exp(b0+b1/t) 当b1<0时属通常意义的S型函数; 当b1 >0时不属通常意义的S型函数。 另外, SPSS 中的 Logistic 函数也 是S型函数。
2016/5/10 15
1994
1995 1996 1997
2016/5/10
14
15 16 17
46759.4
58478.1 67884.6 74462.6
42331.77
50477.13 60189.80 71771.35
4427.63
8000.97 7694.80 2691.25
1998
18
79395.7
85581.38
2016/5/10 22
Origin拟合效果图
90000
60000
adj. R 0.9934
2
B
30000
0
0
8
16
A
2016/5/10
23
§2 多项式回归
多项式回归是一种较为重要的非 线性回归模型,有较广泛的应用。 1. 几种常见的多项式回归模型
常见的多项式回归模型有一元二 次模型 2 y 0 1 x 11 x
和一元三次模型
y 0 1 x 11 x 111 x
2 3
2016/5/10 25
三次及以上的多项式回归模型较 少使用,因为此时回归系数的解释比 较困难,回归模型的数值稳定性也不 太高,不利于应用。 多元多项式回归比较复杂,较少 使用。二元多项式回归模型为
y 0 1 x1 2 x2
其标准化形式为
2 0.0135 x1 x3 0.0799 x2
y 16.170 1.825 x1 0.264 x2 0.203 x1 x3
2 2.710 x2
2016/5/10
43
从标准化回归方程中可以看出, 2 四个变量的作用由大到小依次为:x2 x1 , x2 , x1 x3 。 根据回归方程分析,提取时间还 有必要延长; 提取温度和提取液pH值 有交互作用,且系数为正,故较高的 温度更有利于提取蛋白; pH 值应稍 低些更佳。
-6185.68
17
数据散点图
2016/5/10
18
线性回归
2016/5/10
19
指数回归
2016/5/10
20
回归效果图
2016/5/10
21
需要说明的是,回归分析的一个 重要应用是预测,而预测的方法有多 种,如拟合 ( 回归 ) 、灰色模型、时间 序列和神经网络等。 相比较而言, Origin 的拟合功能 更强,提供了更多的线型,可以图形 的帮助下选择较合适的线型。
2016/5/10 44
由于本例中最好的实验条件是 x1 13.1, x2 48.0, x3 60 根据前述分析,影响蛋白提取浓度的 最主要因素是提取时间,提取时间应 在48h以上;提取液pH值是第二重要 因素, pH 值应比 13.10 再低些;提取 温度应该控制在60º C以上。
2016/5/10 45
2016/5/10 5
y 0 1 x1 p x p
对模型3,可先两边取对数,得 ln y ln a bx 然后再令
பைடு நூலகம்
y ln y, 0 ln a, 1 b 原模型化为线性回归模型 y 0 1 x
2016/5/10 6
2016/5/10 36
数据表
x1 10.00 1.56 13.10 6.00 0.86 12.40 3.00 x2 32.00 8.00 48.00 24.00 2.00 40.00 16.00 x3 100.00 80.00 60.00 45.00 35.00 20.00 10.00 y 8.50 5.80 73.60 2.20 8.30 19.60 3.50
34
具体回归方程为 y 62.349 0.840 x1
5.685 x2 其标准化形式为 0.164 x2
2 0.037 x1
y 62.349 0.164 x1
2 0.785 x1
2016/5/10
35
例10.3 用均匀设计法研究从烤烟 中提取粗蛋白的实验条件。目标变量 y 是提取的蛋白质尝试,三个实验因 子分别为:提取液pH值x1,提取时间 x2的,提取温度x1。 采用U7(73)均匀设计表, 试验安排 与结果如下表:
类似于例 10.3 寻找最优生产条件 的问题在医药、食品行业较为常见。 解决此类问题较适当的方法是将试验 设计方法与回归分析方法相结合—— 响应面分析。 相关内容见下学期的试验设计与 分析课程。
2016/5/10 46
§3 非线性回归模型
1. 非线性最小二乘估计 非线性回归模型一般可记为 yi f xi , i , i 1,2,, n T xi xi 1 , xi 2 ,, xik 其中 yi 是因变量, 是自变量, 是未知 0 ,1 ,, p i 是随机误差项并满足独 参数向量, 立同分布假设,即
(1) 新引进的自变量只能依赖于 原始变量,而不能与未知参数有关。 若模型 1 中的 b 未知,则模型 1 不能线 性化。 可线性化的非线性回归模型称为 本质线性回归模型,不可线性化的非 线性回归模型称为本质非线性回归模 型。
2016/5/10 7
(2) 非线性化模型能否线性化不 仅与回归函数的形式有关,而且与误 差项的形式也有关。 例如,模型 3 的误差项为乘性误 差项,可以线性化,而模型 4 的误差 项为加性误差项,不可以线性化。 在对非线性回归模型进行线性化 时,总是假定误差项满足可线性化条
y 0 1 x p x
p
2016/5/10 4
y ae e
bx