1.1.1 线性回归模型与随机误差
Chapter1线性回归模型的OLS估计

第1章线性回归模型考察多个自变量对一个因变量的影响。
比如,施肥量、土质与农业产量的关系,受教育年数、工龄、性别对收入的影响,警察数量、下岗职工对城市犯罪率的影响等。
以双变量为例。
x1、x2对y存在影响,同时x1和x2之间也存在相关关系。
如图所示。
1.1 模型设定假定变量yt与k个变量xt j, j = 1, … , k,存在线性关系。
多元线性回归模型表示为,yt 0 1x1t kxkt u t 1.1其中yt是被解释变量(因变量),xj t是解释变量(自变量),ut是随机误差项,i, i = 0, 1, … , k是回归参数(通常未知)。
这说明xj t, j = 1, … , k, 是yt的重要解释变量。
ut代表其他影响yt变化的随机因素。
给定一个样本(yt , xt1, xt2 ,…, xt k),t = 1, 2, …, T,上述模型表示为,1x11 y11x12y2yT (T 1) 1x1Txj1 xk1xj2 xk2xjT xkT0 u1u1 2 1.2 k uT (T 1) (k 1) 1T (k 1)令1 y11y2y , X1y T (T 1)x11x12 x1Txj1xj2 xjTxk1 xk2xkT T (k 1)0 u1u21β , uuT (T 1) k (k 1 )1则(3.3) 式可以写为,y = X + u 1.31.2 参数估计1.2.1 参数的点估计1.最小二乘法(OLS)设残差平方和用Q表示,ˆ)‟(y Xβˆ)ˆ‟uˆ=(y yˆ)‟(y yˆ) (y XβQ=uˆ‟X‟y y‟Xβˆ βˆ‟X‟Xβˆ 1.4 y‟y βˆ βˆ‟X‟Xβˆ y‟y 2y‟Xβˆ‟X‟y是一个标量,所以有βˆ‟X‟y y‟Xβˆ。
求Q对βˆ‟的一阶偏导数,并令其为上式中,因为β零,Qˆ 0 1.5 2X‟y 2X‟Xβ β化简得,ˆ X‟y X‟Xβ假定1 解释变量之间线性无关。
28(补充)用矩阵解释一元线性回归-教学辅导

28(补充)用矩阵解释一元线性回归-教学辅导一.一元线性回归的一般形式设随机变量y 与一般变量1x 的线性回归模型为011y x ββε=++其中0β是未知参数,称为回归常数(regression constant),1β为回归系数(regression coefficient).y 称为因变量,而1x 是可以精确测量并可以控制的一般变量,称为自变量(impendent),对于随机误差我们常假定2()0var()E εεσ=⎧⎨=⎩ 称011()E y x ββ=+为理论回归方程(regression equation ).在对未知参数做区间估计或假设检验时,还需要假定误差无从正态分布,即201~(,)y N x ββσ+由于01,ββ均未知,需要我们从手中的数据(,),1,2,,i i x y i n = 出发进行估计.在收集数据时,我们一般要求观察独立的进行,及假定12,,,n y y y 相互独立,综合上述诸项假设,我们可以给出最简单,最常用的一元线性回归的统计模型:12,1,2,,0i o i i i y x i nNββεεσ=++=⎧⎪⎨⎪⎩ 各独立同分布,其分布为(,) 化为矩阵y X βε=+ (1.1)其中12n y y y y ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦12111n x x X x ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦ 01βββ⎡⎤=⎢⎥⎣⎦12n εεεε⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦ 矩阵X 是2n ⨯矩阵,称X 为回归设计矩阵或资料矩阵.在实验设计中,X 的元素是预先设定并可以控制的,人的主观因素可作用于其中,因而称X 为设计矩阵.二. 回归参数的普通最小二乘法(the least-squares estimate )对于(1.1)式矩阵形式表示的回归模型y X βε=+,所谓最小二乘法,就是寻找参数01,ββ的估计值01ˆˆ,ββ,使离差平方和201011(,)()ni i i Q y x ββββ==--∑达到极小,即寻找01ˆˆ,ββ满足20111ˆˆˆˆ(,)()niii Q y x ββββ==--∑ (1.2) 01201,1min()ni i i y x ββββ==--∑ 依照(1.2)式求出的01ˆˆ,ββ就称为回归参数01,ββ的最小二乘估计. 从(1.2)式求出01ˆˆ,ββ是一个求极值问题.由于Q 是关于01,ββ的非负二次函数,因而它的最小值总是存在的.根据微积分中求极值的原理,01ˆˆ,ββ应满足下列方程组 0011ˆ0110ˆ0111|2()0|2()0ni i i ni i i i Qy x Q y x x ββββββββββ====∂⎧=---=⎪∂⎪⎨∂⎪=---=⎪∂⎩∑∑ (1.3) 以上方程组经整理后,得用矩阵(matrix)形式表示的正规方程组(formal equations )ˆ()0X y X β'-= 移项得ˆX X X y β''= (1.4) 当1()X X -'存在时,即得回归参数的最小二乘估计为1ˆ()X X X y β-''= (1.4) 称011ˆˆy x ββ'=+ (1.6) 为经验回归方程(experience regression eqution ).三、回归值(regression values )与残差(Residual)在求出回归参数的最小二乘估计后,可以用经验回归方程(1.6)计算因变量的回归值与残差.称01ˆˆi iy x ββ'=+ (1.7) 为观测值(1,2,...,)i y i n =的回归拟合值,简称回归值或拟合值.相应地,称向量12ˆˆˆˆˆ(,,...,)n yX y y y β'==为因变向量12(,,...,)n y y y y '=的回归值.由1ˆ()X X X y β-''=可得1ˆˆ()yX X X X X y β-''== (1.8) 由(1.7)式可以看到,矩阵1()X X X X -''的作用是把因变量向量y 变为拟合值向量ˆy,从形式上看是给y 戴上了一顶帽子“^”,因而形象地称矩阵1()X X X X -''为帽子矩阵,记为H ,于是ˆyHy =.显然帽子矩阵1()X X X X -''是n 阶对称矩阵,同时还是幂等矩阵,即2H H =.帽子矩阵H 也是一个投影阵,从代数学的观点看,ˆy是y 在自变量X 生成的空间上的投影,这个投影过程就是把y 左乘H ,因此称H 为投影阵.帽子矩阵1()H X X X X -''=的主对角线元素记为ii h ,可以证明,帽子矩阵H 的迹为1()2nii i tr H h ===∑ (1.9)(1.9)式的证明只需根据迹的性质()()tr AB tr BA =,因而11()(())(())tr H tr X X X X tr X X X X --''''==2()2tr I == 称ˆi i i e y y=- (1.10) 为(1,2,...,)i y i n =的残差.称12ˆ(,,...,)n e e e e y y'==-为回归残差向量.将ˆy Hy =代入得,()e y Hy I H y =-=-.记cov(,)(cov(,))i j n n e e e e ⨯=为残差向量e 的协方差阵,或称为方差阵,记为()D e .因而()cov(,)D e e e =cov((),())I H y I H y =-- ()cov(,)()I H y y I H '=-- 2()()n I H I I H σ'=-- 2()I H σ=-于是有2()(1),1,2,...,i ii D e h i n σ=-= (1.11)根据(1.3)式可知,残差满足关系式i i i e e x ⎧=⎪⎨=⎪⎩∑∑ (1.12) 即残差的平均值为0,残差对每个自变量的加权平均为0.(1.12)式可以用矩阵表示为0X e '=.误差项方差2σ的无偏估计为211ˆ()22e S e e n n σ'==-- 2112n i i e n ==-∑ (1.13)(1.13)式的证明只需注意211()()nnii i i E eD e ===∑∑,然后再用(1.11)式和(1.9)式即可.前边在由正规方程组求ˆβ时,要求1()X X -'必须存在,即X X '是一非奇异矩阵 ||0X X '≠由线性代数可知X X '为2阶满秩矩阵 ()2rank X X '=必须有()2rank X ≥而X 为2n ⨯阶矩阵,于是应有2n ≥定理8.4.3:设1,,n y y 相互独立,且()201,i i y N x ββσ+ ,,则有(1)()22/2e S n σχ-,(2)若0H 成立,则有()22/1R S σχ,(3)R S 与e S ,y 独立(或1β∧与e S ,y 独立). 证明 取n n ⨯的正交矩阵A ,具有如下形式:111212,12,22,12(/(/(/1/1/nn n n nn a a a a a a A x x x x x x ---⎛⎫⎪⎪ ⎪=---⎝⎭\由正交性,可得如下一些约束条件20,0,,1,2,,2ijij j ij jjjaa x a i n ===-∑∑∑0,12,ikjk kaa i j n =≤<≤-∑这里共有(2)n n -未知参数,约束条件有23(1)(2)(3)/22n n n n -⎛⎫-+=-+ ⎪⎝⎭个,只要3,n ≥未知参数个数就不少于约束条件数,因此必定有解.令1112,22j j j n j j j j n n j i j a y z y a y z y Z AY A x x y z y y -⎛⎫⎪ ⎪⎪⎛⎫⎛⎫ ⎪ ⎪ ⎪ ⎪⎪ ⎪==== ⎪ ⎪ ⎪- ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎪⎪⎪⎝⎭∑∑ 其中11()()ˆ,n l x x y x x y y z ----====n i z y == 则Z 仍服从正态分布,且期望与协差阵分别为()20100,(),)T nEZ Var Z AVar Y A I x σβββ⎛⎫ ⎪⎪⎪=== ⎪⎪⎪+⎭这表明12,,,nz z z 相互独立,122,,,n z z z - 的共同分布为221(0,),()n N z N σβσ-201),).n z N x ββσ+由于2222,iiT R e z yS ny S S ny ==+=++∑∑而11ˆn n z z -===,于是有222122,n e z z z S -+++= 所以,,e R S S y 三者相互独立.并有22221/(/)(2)n e i i S z n σσχ-==-∑在10β=时,2221/(/)(1),R n S z σσχ-=证明完成.四.回归参数的最大似然估计(maximum likelihood estimation ).对(1.1)式所表示的模型y X βε=+2~(0,)n N I εσ即ε遵从多变量的正态分布,那么y 的概率分布为2~(,)n y N X I βσ这时,似然函数为/22/221(2)()exp(()())2n n L y X y X πσββσ--'=--- (1.14)其中的未知参数是2βσ和,最大使然估计就是选取使似然函数L 达到最大的2ˆˆβσ和.要使L 达到最大,对(1.12)式两边同时取自然对数,得221ln ln(2)ln()()()222n n L y X y X πσββσ'=----- (1.15)在(1.15)式中,仅在最后一项中含有β,显然使(1.15)式达到最大,等价于使()()y X y X ββ'--达到最小,这又完全与最小二乘法一样.故在正态假定下,回归参数MLE β的与最小二乘法完全相同,即1ˆ()X X X y β-''= 误差项方差2MLE σ的为211ˆ()L e S e e n nσ'== 这是2σ的有偏估计,但它满句一致性.在大样本的情况下,是2σ的近似无偏估计量. 五.参数估计量的性质性质1 ˆβ是随机向量y 的一个线性变换 无论应用最小二乘发还是MLE,我们得到回归系数向量β的估计量为1ˆ()X X X y β-''= 性质2 ˆβ是β的无偏估计. 证明:1ˆ()(())E E X X X y β-''= 1()()X X X E y -''= 1()()X X X E X βε-''=+ 1()X X X X β-''= β=这一性质与一元线性回归0ˆβ和1ˆβ无偏性的性质相同. 性质3 21ˆ()()D X X βσ-'= 证明:ˆˆˆ()cov(,)D βββ= ˆˆˆˆ((())(()))E E E ββββ'=-- ˆˆ(()())E ββββ'=-- 11((())(()))E X X X y X X X y ββ--'''''=--11((()())(()()))E X X X X X X X X βεββεβ--'''''=+-+- 11((())(()))E X X X X X X εβεβ--'''''=-- 11(()())E X X X X X X εε--''''= 11()()()X X X E X X X εε--''''= 121()()()n X X X E I X X X σ--'''=21()X X σ-'= 当1p =时即为一元线性回归的情况,此时1211ni i nni i i i nx X X x x ===⎡⎤⎢⎥⎢⎥'=⎢⎥⎢⎥⎣⎦∑∑∑ 211111()||n ni i i i ni i x x X X X X x n ==-=⎡⎤-⎢⎥⎢⎥'='⎢⎥-⎢⎥⎣⎦∑∑∑ 21111n ni i i i nxx i i x x nL x n ===⎡⎤-⎢⎥⎢⎥=⎢⎥-⎢⎥⎣⎦∑∑∑2111n i i xx xx xx xx x x nL L x L L =⎡⎤-⎢⎥⎢⎥=⎢⎥-⎢⎥⎣⎦∑ 再由001011ˆˆˆvar()cov(,)ˆ()ˆˆˆcov(,)var()D βββββββ⎡⎤=⎢⎥⎢⎥⎣⎦ 即可得1.21211ˆvar()var()()n i i ni j j x x y x x β==⎛⎫⎪- ⎪= ⎪- ⎪⎝⎭∑∑ 221()njj xx σ==-∑2.22021()ˆvar()(i x n x x βσ⎡⎤=+⎢⎥-⎢⎥⎣⎦∑ 3.201ˆˆcov(,)xxx L ββσ=- ˆβ的方差阵ˆ()D β也记为ˆˆcov(,)ββ,因而也称作ˆβ的协方差阵,它是回归系数1ˆβ方差的推广,反映了估计量ˆβ的波动大小.由于ˆ()D β是1()X X -'乘上2σ,而1()X X -'一般为非对角矩阵,所以ˆβ的分量01ˆˆ,ββ之间有一定的联系,因而根据ˆ()D β可以分析ˆβ各分量的波动以及各分量之间的相关程度.有此性质还可以看出回归分析向量ˆβ的稳定状况不仅与随机误差的方差2σ有关,而且还与设计矩阵X 有关,即时要想使估计量的方差小,采集样本数据时就不能太集中.所以这对设计矩阵的构造有一定指导意义.为了分析ˆβ各分量之间的相关程度,更方便的工具是采用ˆβ的相关阵.01ˆˆˆ(,)βββ'=的相关阵为ˆˆ1ˆ()ˆˆ1R β⎡⎤⎢⎢=⎢⎥⎥⎦11xx⎡⎢⎢⎢=⎢⎢⎥⎢⎥⎢⎥⎣⎦五.正规方程组将(1.3)和(1.4)所表示的关于参数估计值的线性代数方程组称为正规方程组.这是一个重要的概念,在后续课程中有重要的作用,所以在此予以强调.(1.3)可以从另外一种思路来导出.对011y x ββε=++所示的模型,用每个解释变量分别乘以模型的两边,并对所有样本点求和,即得到011011()0()0ni i i i ni i i i i y x y x x ββεββε==⎧---=⎪⎪⎨⎪---=⎪⎩∑∑ 再对方程的两边求期望,有011011()()()(())ni i i i ni i i i i i E y E x E y x E x x ββεββε==⎧=++⎪⎪⎨⎪=++⎪⎩∑∑ 利用()0()0,1,2,,ˆ(),1,2,,i i i ijE E x j k E j k εεββ=====得到011011ˆˆ()()ˆˆ()(())ni i i i ni i i i i i E y E x E y x E x x ββεββε==⎧=++⎪⎪⎨⎪=++⎪⎩∑∑ 即为(1.3).在这个过程中,利用了ˆ(),1,2,,i j E j k ββ== .把ˆjβ作为估计量,它是随机变量;在样本观测值已经给出后,由样本观测值计算得到的是参数的点估计值,这时,它是一个数值.在正规方程组中,将它作为估计值看待.上述过程采用矩阵形式可以简洁地描述.用每个解释变量分别乘以模型Y XB N =+ 的两边,并对所有样本点求和,即得到X Y X XB X N '''=+再对方程的两边求期望,有()()()E X Y E X XB E X N '''=+得到正规方程组(2.3.8)ˆX Y X Y β''= 上述导出正规方程的方法,实际上是构造一组等于0的矩条件,根据这组矩条件求得参数估计量,这就是在近30年发展的广大矩估计方法(GMM ).由于这里是用解释变量乘方程两边而构造矩条件,因此它等价于最小二乘法.也就是说,最小二乘法是广义矩估计方法的一种特例.五.样本容量问题从建模需要来讲,当然是样本容量越大越好,这是显而易见的.这里需要讨论的是满足基本要求的样本容量和最小样本容量.1. 最小样本容量所谓“最小样本容量”,即从最小二乘原理和最大或然原理出发,欲得到参数估计量,不管其质量如何,所要求的样本容量的下限.从参数估计量1ˆ()X X X Y β-''= 中可以看到,欲使ˆβ存在,必须使得1()X X -'存在.为使得1()X X -'存在,必须满足 0X X '≠即矩阵()X X '为2阶满秩矩阵.而矩阵乘积的秩不超过各个因子矩阵的秩,即()min((),())R AB R A R B ≤其中符号R 表示矩阵的秩.所以,只有当()2R X ≥时,矩阵()X X '才为2阶满秩矩阵.而X 为2n ⨯阶矩阵,其秩最大为2,此时必须有2n ≥即样本容量必须不少于模型中解释变量的数目(包括常数项).这就是最小样本容量.2. 满足基本要求的样本容量虽然1n k ≥+当时可以得到参数估计量,但除了参数估计量质量不好以外,一些建立模型所必须的后续工作也无法进行.例如,参数的统计检验要求样本容量必须足够大,Z 检验在n <30时不能应用;,检验为检验变量显著性的最常用方法,经验表明,当8n k -≥时t 分布较为稳定,检验才较为有效.所以,一般经验认为,当30n >或者至少3(1)n k >+时,才能满足模型估计的基本要求.如果出现样本容量较小,甚至接近“最小样本容量”,那么只依靠样本信息是无法完成模型估计的.这时需要引人非样本信息,例如先验信息和后验信息,并采用其他估计方法,例如贝叶斯(Bayes )估计方法,才能完成模型的参数估计.六.相关习题EXAMPLE A Let us consider fitting a straight line, 01y x ββ=+,to points (,)i i y x ,where 1,,i n = ,in this case12n y y Y y ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦12111x x X x ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦ 12n y y Y y ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦12111x x X x ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦ 10112011011ny x y x Y X y x βββββββ--⎡⎤⎢⎥--⎢⎥-=⎢⎥⎢⎥--⎣⎦Returning to the general case, if we differentiate S with respect to each k β and set thederivatives equal to zero, we see that the minimizers 01ˆˆ,,p ββ- satisfy the p linear equations0111,1111ˆˆˆn n ni p i p i i i i n x x y βββ--===+++=∑∑∑0111,11111ˆˆˆ,1,,1n n n nik i ik p ik i p i ik i i i i x x x x x y x k p βββ--====+++==-∑∑∑∑These p equations can be written in matrix fromˆT T X X X Y β= and are called the normal equations. If TX X is nonsingular, the formal solution is1ˆ()T T X X X Y β-= We stress that this is a formal solution; computationally, it is sometimes unwise even to form thenormal equations since the multiplications involved in forming TX X can introduce undesirableround-off error. Alternative methods of finding the least squares solution ˆβare developed in Problems 6 and 7 at the end of this chapter.The following lemma gives a criterion for the existence and uniqueness of solutions of the normal equations.例题:让我们考虑一下一条直线,01y x ββ=+,对于点(,)i i y x ,1,,i n = 在这个例题中12n y y Y y ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦12111x x X x ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦ 10112011011ny x y x Y X y x βββββββ--⎡⎤⎢⎥--⎢⎥-=⎢⎥⎢⎥--⎣⎦ 回到一般情况,如果我们把每个k β和S 做区分,设置这些衍生出去的为0,我们发现最小的01ˆˆ,,p ββ- 满足p 的线性方程 0111,1111ˆˆˆnnni p i p i i i i n x x y βββ--===+++=∑∑∑0111,11111ˆˆˆ,1,,1n n n nik i ik p ik i p i ik i i i i x x x x x y x k p βββ--====+++==-∑∑∑∑这些p 方程能被写成矩阵形式ˆT T X X X Y β= 而且被叫做一般方程.如果TX X 是非退化的,这个形式的解为1ˆ()T T X X X Y β-= 我们强调那是一个一般的解;推算出,形成一个一般方程有时是不明智的因为在做TX X 的乘法时会介入修正误差.改变寻找最小量两乘法的方法去解决ˆβ被解决在这章最后的问题6和7.以下的引理给出了对于一般方程存在和唯一的解决的一个评判标准.EXAMPLE B Returning to Example A on fitting a straight line, we have111111T n n x X X x x x ⎡⎤⎡⎤⎢⎥=⎢⎥⎢⎥⎣⎦⎢⎥⎣⎦1211ni i n ni i i i n x x x ===⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦∑∑∑11121111()()i i T nn ni i ii i i X X n y x x n ==-===⎢⎥⎢⎥=⎢⎥--⎢⎥⎣⎦∑∑∑ 11n i i Tni i i y X Y x y ==⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦∑∑ Thus,01ˆˆβββ⎡⎤=⎢⎥⎢⎥⎣⎦1()TTX X X Y -=2111211111()n nn i i i i i i nn nn i i ii i i i i i x x y n y x x n x y =======⎡⎤⎡⎤-⎢⎥⎢⎥⎢⎥⎢⎥=⎢⎥⎢⎥--⎢⎥⎢⎥⎣⎦⎣⎦∑∑∑∑∑∑∑ 21111211111()()()()1()()()n n n ni ii i i i i i i nn n n ni i i i i i i i i i i x y x x y n y x n x y x y =========⎡⎤-⎢⎥⎢⎥=⎢⎥--⎢⎥⎣⎦∑∑∑∑∑∑∑∑∑ Which agrees with the earlier calculation.出处:E04 Mathematical Statistics and Data Analysis(2ed)by John A. Rice Duxbury 1994 549/672EXAMPLE B 回到例子A 的一条直线上来, 我们有111111T n n x X X x x x ⎡⎤⎡⎤⎢⎥=⎢⎥⎢⎥⎣⎦⎢⎥⎣⎦1211nii n ni i i i n x x x ===⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦∑∑∑11121111()()i i T nn ni i ii i i X X n y x x n ==-===⎢⎥⎢⎥=⎢⎥--⎢⎥⎣⎦∑∑∑ 11n i i Tni i i y X Y x y ==⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦∑∑ 因此,01ˆˆβββ⎡⎤=⎢⎥⎢⎥⎣⎦1()TTX X X Y -=2111211111()n nn i i i i i i nn nn i i ii i i i i i x x y n y x x n x y =======⎡⎤⎡⎤-⎢⎥⎢⎥⎢⎥⎢⎥=⎢⎥⎢⎥--⎢⎥⎢⎥⎣⎦⎣⎦∑∑∑∑∑∑∑ 21111211111()()()()1()()()n n n ni ii i i i i i i nn n n ni i i i i i i i i i i x y x x y n y x n x y x y =========⎡⎤-⎢⎥⎢⎥=⎢⎥--⎢⎥⎣⎦∑∑∑∑∑∑∑∑∑ 这是符合先前的计算的.出处:E04 Mathematical Statistics and Data Analysis(2ed)by John A. Rice Duxbury 1994 550/6721.考虑线性模型1112122312322y y y βεββεββε=+⎧⎪=-+⎨⎪=++⎩ 假设1ε、2ε、3ε相互独立同分布2(0,)N σ.试求 (1)1β及2β的最小二乘估计(2)12ˆˆˆ(,)βββ'=的协方差矩阵 (3)2σ的无偏估计解:1122310,,2112y Y y X y βββ⎛⎫⎛⎫⎛⎫ ⎪ ⎪===- ⎪ ⎪ ⎪⎝⎭ ⎪ ⎪⎝⎭⎝⎭(1)11123231231223ˆ(),10606,(),051052,21(2)ˆ6ˆˆ1(2)5X X X Y X X X X y y y X Y y y y y y y y ββββ--''=⎛⎫ ⎪⎛⎫''==⎪ ⎪ ⎪⎝⎭⎪⎝⎭++⎛⎫'= ⎪-+⎝⎭⎛⎫++ ⎪⎛⎫== ⎪⎪ ⎪ ⎪⎝⎭-+ ⎪⎝⎭(2)221206ˆˆ(,)()05Cov X X σββσσ-⎛⎫ ⎪ ⎪'== ⎪ ⎪⎝⎭(3)123231231123121212310110(2)6ˆˆ211(2)1251(2)ˆ61131ˆˆ231515ˆˆ2112961530ˆˆ()()()10e y y y Y X y y y y y y y y y y y Q Y YY Y Y I X X X X YY ββββββ-⎛⎫⎛⎫++ ⎪⎪==- ⎪⎪ ⎪ ⎪-+ ⎪⎝⎭⎝⎭⎛⎫++ ⎪⎛⎫ ⎪ ⎪ ⎪ ⎪=+-=- ⎪ ⎪⎪ ⎪+⎝⎭ ⎪-+ ⎪⎝⎭'=--'''⎡⎤=-⎣⎦'=1122332221231213211163601131010315150011729330305116361213151517163030521213615303310Y y y y y y y y y y y y y y y y ⎡⎤⎛⎫⎢⎥ ⎪⎛⎫⎢⎥⎪ ⎪⎢⎥⎪-- ⎪⎢⎥ ⎪ ⎪⎢⎥⎪⎝⎭⎢⎥ ⎪- ⎪⎢⎥⎝⎭⎣⎦⎛⎫-- ⎪'⎛⎫⎛⎫ ⎪ ⎪ ⎪ ⎪=-⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭ ⎪- ⎪⎝⎭=++--+3 2σ的无偏估计为剩余方差20ˆσ,本例中3n =,于是 2ˆe e Q σ=. 出处:概率统计教学参考书 中山大学 杨维权邓集贤 450/533 例9.32.设22,1,2,...,1,2,...2,1,2...i i m i m i m i m i y i my i m y i nθεθφεθφε++++=+==++==-+= 假定i ε之间互不相关,且有2()0,(),1,...,2i i E D i m n εεσ===+试求θ和φ的最小二乘估计,试证当2m n =时,ˆθ和ˆφ互不相关.解:()111221212ˆˆ,ˆ1...1 1...11...1,0...0 1...12...2.........,4(2)1(2)213m m mm m n L X Y X Y y y y y y y m n m n L m n m n m mn θβφ-+++-⎛⎫'== ⎪ ⎪⎝⎭⎛⎫'= ⎪--⎝⎭'=+--⎛⎫= ⎪--++⎝⎭当2m n =时,则有(2)(3)ˆˆ,1ˆ()3y y y θβφ⎛⎫⎛⎫ ⎪== ⎪ ⎪ ⎪- ⎪⎝⎭⎝⎭其中512(2)21(3)41221,51,21.ˆˆˆˆ(),(),(,)0.56ni i nn i i nn k k y y n y y n y y n D D Cov n n σσθφθφ=+=+=======∑∑∑()ˆˆˆ,,ˆ0θφθφρ=所与以不相关. 出处: 概率统计教学参考书 中山大学 杨维权邓集贤 487/533 第7题。
回归分析的基本思想及其初步应用

、回归分析的基本思想及其初步应用————————————————————————————————作者:————————————————————————————————日期:新课标数学选修1-21.1回归分析的基本思想及其初步应用(教师用书独具)●三维目标1.知识与技能通过典型案例的探究,了解回归分析的基本思想,会对两个变量进行回归分析,明确解决回归模型的基本步骤,并对具体问题进行回归分析以解决实际应用问题.了解最小二乘法的推导,解释残差变量的含义,了解偏差平方和分解的思想,了解判断刻画模型拟合效果的方法——相关指数和残差分析.掌握利用计算器求线性回归直线方程参数及相关系数的方法.2.过程与方法通过收集数据作散点图,分析散点图,求回归直线方程,分析回归效果,利用方程进行预报.3.情感、态度与价值观培养学生利用整体的观点和互相联系的观点来分析问题,进一步加强数学的应用意识,培养学生学好数学、用好数学的信心,加强与现实生活的联系,以科学的态度评价两个变量的相互关系.●重点难点重点:回归分析的基本方法、随机误差e的认识、残差图的概念、用残差及R2来刻画线性回归模型的拟合效果.难点:回归分析的基本方法、残差概念的理解及拟合效果的判定、非线性回归向线性回归的转化.教学时要以残差分析为重点,突出残差表和R2的计算,通过举例说明相关关系与确定性关系的区别,说明回归分析的必要性及其方法.借助例题使学生掌握作散点图、求回归直线方程的方法,通过作残差图、计算R2让学生掌握拟合效果的判断方法.对于非线性回归问题重点在如何转换,引导学生分析总结转化方法和技巧,从而化解难点.(教师用书独具)●教学建议本节课建议教师采取探究式教学,把“关注知识”转向“关注学生”,在教学过程中,把“给出知识”的过程转变为“引起活动,让学生探究知识的过程”,把“完成教学任务”转向“促进学生发展”,让学生成为课堂上的真正主人.在教学中,知识点可由学生通过探索“发现”,让学生充分经历探索与发现的过程,并引导学生积极解决探索过程中发现的问题.教学中不要以练习为主,而是定位在知识形成过程的探索,例题的解答也要由学生探讨、教师点拨,共同完成.要注重数学的思想性,如统计思想、随机观念、函数思想、数形结合的思想方法等,引导学生体验数学中的理性精神,加强数学形式下的思考和推理能力.●教学流程创设问题情境,引出问题,引导学生探讨,从而引出回归分析、线性回归模型、刻画回归效果的有关概念及解决方法.利用填一填的形式,使学生自主学习本节基础知识,并反馈了解,对理解有困难的概念加以讲解.引导学生在学习基础知识的基础上分析回答例题1的问题,并总结规律方法,完成变式训练.引导学生分析例题2,根据图中的数据计算系数,求出回归方程,列出残差表,求出R2并判断拟合效果,完成变式训练.完成当堂双基达标,巩固所学知识及应用方法,并进行反馈矫正.归纳整理,进行课堂小结,整体认识本节所学知识,强调重点内容和规律方法.通过老师启发引导,完成例题3,并要求学生借鉴例题3的解法完成变式训练.引导学生分析例题3,让学生作出散点图,观察相关性,引出问题,即如何使问题转化为相关关系并用线性回归分析二者关系.课标解读1.会用散点图分析两个变量是否存在相关关系.(重点) 2.会求回归方程,掌握建立回归模型的步骤,会选择回归模型.(重点、难点)线性回归模型【问题导思】一台机器由于使用时间较长,生产的零件有一些会有缺陷.按不同转速生产出有缺陷的零件的统计数据如下:转速x(转/秒)1614128每小时生产有缺陷的零件数y(件)119851.在平面直角坐标系中作出散点图.【提示】2.从散点图中判断x和y之间是否具有相关关系?【提示】有.3.若转速为10转/秒,能否预测机器每小时生产缺陷的零件件数?【提示】可以.根据散点图作出一条直线,求出直线方程后可预测.(1)回归直线方程:y^=b^x+a^,其中:b^=∑i=1n(x i-x)(y i-y)∑i=1n(x i-x)2,a^=y-b^x,x=1n∑i=1nx i,y=1n∑i=1ny i.(2)变量样本点中心:(x,y),回归直线过样本点的中心.(3)线性回归模型:y=bx+a+e,其中e称为随机误差,a和b是模型的未知参数,自变量x称为解释变量,因变量y称为预报变量.刻画回归效果的方式残差对于样本点(x i,y i)(i=1,2,…,n)的随机误差的估计值e^i=y i-y^i,称为相应于点(x i,y i)的残差残差图利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图残差图法残差点比较均匀地落在水平的带状区域内,说明选用的模型比较适合,这样的带状区域的宽度越窄,说明模型拟合精度越高残差平方和残差平方和为∑i=1n(y i-y^i)2,残差平方和越小,模型拟合效果越好相关指数R2R2=1-∑i=1n(y i-y^i)2∑i=1n(y i-y)2,R2表示解释变量对预报变量变化的贡献率,R2越接近于1,表示回归的效果越好回归分析的有关概念有下列说法:①线性回归分析就是由样本点去寻找一条直线,使之贴近这些样本点的数学方法;②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系^=b^x+a^,可以估计和观测变量的取值和变化趋势;④因表示;③通过回归方程y为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.其中正确命题的个数是()A.1B.2C.3D.4【思路探究】可借助于线性相关概念及性质逐一作出判断.【自主解答】①反映的正是最小二乘法思想,故正确.②反映的是画散点图的作用,也正确.③解释的是回归方程y^=b^x+a^的作用,故也正确.④是不正确的,在求回归方程之前必须进行相关性检验,以体现两变量的关系.【答案】 C1.解答例1中④时,必须明确具有线性相关关系的两个变量间才能求得一个线性回归方程,否则求得的方程无实际意义.因此必须先进行线性相关性判断,后求线性回归方程.2.回归分析的过程:(1)随机抽取样本,确定数据,形成样本点;(2)由样本点形成散点图,判断是否具有线性相关关系;(3)由最小二乘法确定线性回归方程; (4)由回归方程观察变量的取值及变化趋势.关于变量y 与x 之间的回归直线方程叙述正确的是( ) A .表示y 与x 之间的一种确定性关系 B .表示y 与x 之间的相关关系 C .表示y 与x 之间的最真实的关系D .表示y 与x 之间真实关系的一种效果最好的拟合【解析】 回归直线方程能最大可能地反映y 与x 之间的真实关系,故选项D 正确.【答案】 D线性回归分析已知某种商品的价格x (元)与需求量y (件)之间的关系有如下一组数据:x 14 16 18 20 22 y1210753求y 关于x 的回归直线方程,并说明回归模型拟合效果的好坏.【思路探究】 回归模型拟合效果的好坏可以通过计算R 2来判断,其值越大,说明模型的拟合效果越好.【自主解答】 x =15(14+16+18+20+22)=18, y =15(12+10+7+5+3)=7.4,∑i =15x 2i =142+162+182+202+222=1 660,∑i =15x i y i =14×12+16×10+18×7+20×5+22×3=620,所以b^=∑i=15x i y i-5x y∑i=15x2i-5x2=620-5×18×7.41 660-5×182=-1.15,a^=7.4+1.15×18=28.1,所以所求回归直线方程是y^=-1.15x+28.1.列出残差表:y i-y^i00.3-0.4-0.10.2y i-y 4.6 2.6-0.4-2.4-4.4所以∑i=15(y i-y^i)2=0.3,∑i=15(y i-y)2=53.2,R2=1-∑i=15(y i-y^i)2∑i=15(y i-y)2≈0.994,所以回归模型的拟合效果很好.1.回归直线方程能定量地描述两个变量的关系,系数a^,b^刻画了两个变量之间的变化趋势,其中b^表示x变化一个单位时,y的平均变化量.利用回归直线可以对问题进行预测,由一个变量的变化去推测另一个变量的变化.2.线性回归分析中:(1)残差平方和越小,预报精确度越高.(2)相关指数R2取值越大,说明模型的拟合效果越好.某运动员训练次数与运动成绩之间的数据关系如下:次数(x)34650成绩(y)34851(1)作出散点图;(2)求出线性回归方程;(3)作出残差图,并说明模型的拟合效果;(4)计算R2,并说明其含义.【解】(1)作出该运动员训练次数(x)与成绩(y)之间的散点图,如图所示.(2)可求得x=39.25,y=40.875,∑i=18x2i=12 656,∑i=18y2i=13 731,∑i=18x i y i=13 180,∴b^=∑i=18(x i-x)(y i-y)∑i=18(x i-x)2=∑i=18x i y i-8x y∑i=18x2i-8x2≈1.041 5,a^=y-b^x=-0.003 875,∴线性回归方程为y^=1.041 5x-0.003 875.(3)作残差图如图所示,由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适.(4)相关指数R2=0.985 5.说明了该运动员的成绩的差异有98.55%的可能性是由训练次数引起的.非线性回归分析下表为收集到的一组数据:x 21232527293235y 711212466115325(1)作出x与y的散点图,并猜测x与y之间的关系;(2)建立x与y的关系,预报回归模型并计算残差;(3)利用所得模型,预报x=40时y的值.【思路探究】(1)画出散点图或进行相关性检验,确定两变量x、y是否线性相关.由散点图得x、y之间的回归模型.(2)进行拟合,预报回归模型,求回归方程.【自主解答】(1)作出散点图如图,从散点图可以看出x与y不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数函数曲线y=c1e c2x的周围,其中c1、c2为待定的参数.(2)对两边取对数把指数关系变为线性关系,令z=ln y,则有变换后的样本点应分布在直线z=bx+a,a=ln c1,b=c2的周围,这样就可以利用线性回归模型来建立y与x之间的非线性回归方程了,数据可以转化为:x 21232527293235z 1.946 2.398 3.045 3.178 4.190 4.745 5.784 求得回归直线方程为z^=0.272x-3.849,∴y^=e0.272x-3.849.残差如下表:y i711212466115325y^i 6.44311.10119.12532.95056.770128.381290.325 e^i0.557-0.101 1.875-8.9509.23-13.38134.675(3)当x=40时,y=e0.272x-3.849≈1 131.两个变量不具有线性关系,不能直接利用线性回归方程建立两个变量的关系,可以通过变换的方法转化为线性回归模型,如y=c1e c2x,我们可以通过对数变换把指数关系变为线性关系,令z=ln y,则变换后样本点应该分布在直线z =bx+a(a=ln c1,b=c2)的周围.有一个测量水流量的实验装置,测得试验数据如下表:i 1234567水高h(厘米)0.7 1.1 2.5 4.98.110.213.5 流量Q(升/分钟)0.0820.25 1.811.237.566.5134根据表中数据,建立Q与h之间的回归方程.【解】由表中测得的数据可以作出散点图,如图.观察散点图中样本点的分布规律,可以判断样本点分布在某一条曲线附近,表示该曲线的函数模型是Q=m·h n(m,n是正的常数).两边取常用对数,则lg Q=lg m+n·lg h.令y=lg Q,x=lg h,那么y=nx+lg m,即为线性函数模型y=bx+a的形式(其中b=n,a=lg m).由下面的数据表,用最小二乘法可求得b^≈2.509 7,a^=-0.707 7,所以n≈2.51,m≈0.196.i h i Q i x i=lg h i y i=lg Q i x2i x i y i10.70.082-0.154 9-1.086 20.0240.168 32 1.10.250.041 4-0.602 10.001 7-0.024 93 2.5 1.80.397 90.255 30.158 30.101 64 4.911.20.690 2 1.049 20.476 40.724 2 58.137.50.9085 1.574 00.825 4 1.430 0 610.266.5 1.0086 1.822 8 1.017 3 1.838 5 713.5134 1.130 3 2.127 1 1.277 6 2.404 3∑ 4.022 5.140 1 3.780 7 6.642 于是所求得的回归方程为Q=0.196·h2.51.没有理解相关指数R 2的意义而致误关于x 与y 有如下数据:x 2 4 5 6 8 y3040605070为了对x 、y 两个变量进行统计分析,现有以下两种线性模型:甲模型y ^=6.5x +17.5,乙模型y ^=7x +17,试比较哪一个模型拟合的效果更好.【错解】 ∵R 21=1-∑i =15(y i -y ^i )2∑i =15(y i -y )2=1-1551 000=0.845.R 22=1-∑i =15(y i -y ^i )2∑i =15(y i -y )2=1-1801 000=0.82.又∵84.5%>82%,∴乙选用的模型拟合的效果更好.【错因分析】 没有理解R 2的意义是致错的根源,用相关指数R 2来比较模型的拟合效果,R 2越大,模型的拟合效果越好,并不是R 2越小拟合效果更好.【防范措施】 R 2=1-∑i =1n(y i -y ^i )2∑i =1n (y i -y )2,R 2越大,残差平方和越小,从而回归模型的拟合效果越好.在线性回归模型中,R 2表示解释变量对于预报变量变化的贡献率,R2越接近1,表示回归的效果越好(因为R2越接近1,表示解释变量和预报变量的线性相关性越强).从根本上理解R2的意义和作用,就可防止此类错误的出现.【正解】R21=1-∑i=15(y i-y^i)2∑i=15(y i-y)2=1-1551 000=0.845,R22=1-∑i=15(y i-y^i)2∑i=15(y i-y)2=1-1801 000=0.82,84.5%>82%,所以甲模型拟合效果更好.1.在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后,可以通过残差e^1,e^2,…,e ^n 来判断模型拟合的效果,判断原始数据中是否存在可疑数据.这方面的分析工作称为残差分析.2.我们还可以用相关指数R 2来反映回归的效果,其计算公式是:R 2=1-∑i =1n(y i -y ^i )2∑i =1n (y i -y )2.显然,R 2取值越大,意味着残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R 2表示解释变量对于预报变量变化的贡献率.1.已知x 和y 之间的一组数据x 0 1 2 3 y1357则y 与x 的线性回归方程y ^=b ^x +a ^必过点( ) A .(2,2) B .(32,0) C .(1,2)D .(32,4)【解析】 ∵x =14(0+1+2+3)=32,y =14(1+3+5+7)=4, ∴回归方程y ^=b^x +a ^必过点(32,4).【答案】 D2.(2013·青岛高二检测)在下列各组量中:①正方体的体积与棱长;②一块农田的水稻产量与施肥量;③人的身高与年龄;④家庭的支出与收入;⑤某户家庭的用电量与电价.其中量与量之间的关系是相关关系的是( )A .①②B .②④C .③④D .②③④【解析】①是函数关系V=a3;⑤电价是统一规定的,与用电量有一定的关系,但这种关系是确定的关系.②③④中的两个量之间的关系都是相关关系,因为水稻的产量与施肥量在一定范围内是正比、反比或其他关系,并不确定;人的身高一开始随着年龄的增加而增大,之后则不变化或降低,在身高增大时,也不是均匀增大的;家庭的支出与收入有一定的关系,在一开始,会随着收入的增加而支出也增加,而当收入增大到一定的值后,家庭支出趋向于一个常数值,也不是确定关系.【答案】 D3.下列命题正确的有________.①在线性回归模型中,e是bx+a预报真实值y的随机误差,它是一个可观测的量;②残差平方和越小的模型,拟合的效果越好;③用R2来刻画回归方程,R2越小,拟合的效果越好;④在残差图中,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,若带状区域宽度越窄,说明拟合精度越高,回归方程的预报精度越高.【解析】对于①随机误差e是一个不可观测的量,③R2越趋于1,拟合效果越好,故①③错误.对于②残差平方和越小,拟合效果越好,同理当残差点比较均匀地落在水平的带状区域时,拟合效果越好,故②④正确.【答案】②④4.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据:x 345 6y 2.534 4.5(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测技改后生产100吨甲产品比技改前少消耗多少吨标准煤.(参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 【解】 (1)如下图.(2)∑i =14x i y i =3×2.5+4×3+5×4+6×4.5=66.5,x =3+4+5+64=4.5,y =2.5+3+4+4.54=3.5,∑i =14x 2i =32+42+52+62=86.b ^=66.5-4×4.5×3.586-4×4.52=66.5-6386-81=0.7, a^=y -b ^x =3.5-0.7×4.5=0.35, 因此,所求的线性回归方程为y ^=0.7x +0.35.(3)根据回归方程预测,现在生产100吨产品消耗的标准煤的数量为0.7×100+0.35=70.35(吨),故耗能减少了90-70.35=19.65(吨标准煤).一、选择题1.在画两个变量的散点图时,下面叙述正确的是( ) A .预报变量在x 轴上,解释变量在y 轴上 B .解释变量在x 轴上,预报变量在y 轴上C .可以选择两个变量中任意一个变量在x 轴上D .可以选择两个变量中任意一个变量在y 轴上【解析】 结合线性回归模型y =bx +a +e 可知,解释变量在x 轴上,预报变量在y 轴上,故选B.【答案】 B2.(2013·泰安高二检测)在回归分析中,相关指数R 2的值越大,说明残差平方和( )A .越大B .越小C .可能大也可能小D .以上均错【解析】 ∵R 2=1-∑i =1n(y i -y ^i )2∑i =1n (y i -y )2,∴当R 2越大时,∑i =1n(y i -y ^i )2越小,即残差平方和越小. 【答案】 B3.设变量y 对x 的线性回归方程为y ^=2-2.5x ,则变量x 每增加一个单位时,y 平均( )A .增加2.5个单位B .增加2个单位C .减少2.5个单位D .减少2个单位【解析】 回归直线的斜率b ^=-2.5,表示x 每增加一个单位,y 平均减少2.5个单位.【答案】 C4.(2012·湖南高考)设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确...的是( ) A .y 与x 具有正的线性相关关系B.回归直线过样本点的中心(x,y)C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kgD.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg【解析】由于线性回归方程中x的系数为0.85,因此y与x具有正的线性相关关系,故A正确.又线性回归方程必过样本中心点(x,y),因此B正确.由线性回归方程中系数的意义知,x每增加1 cm,其体重约增加0.85 kg,故C正确.当某女生的身高为170 cm时,其体重估计值是58.79 kg,而不是具体值,因此D不正确.【答案】 D5.在判断两个变量y与x是否相关时,选择了4个不同的模型,它们的相关指数R2分别为:模型1的相关指数R2为0.98,模型2的相关指数R2为0.80,模型3的相关指数R2为0.50,模型4的相关指数R2为0.25.其中拟合效果最好的模型是()A.模型1 B.模型2C.模型3 D.模型4【解析】相关指数R2能够刻画用回归模型拟合数据的效果,相关指数R2的值越接近于1,说明回归模型拟合数据的效果越好.【答案】 A二、填空题6.在研究身高和体重的关系时,求得相关指数R2≈________,可以叙述为“身高解释了64%的体重变化,而随机误差贡献了剩余的36%”,所以身高对体重的效应比随机误差的效应大得多.【解析】结合相关指数的计算公式R2=1-∑i=1n(y i-y^i)2∑i=1n(y i-y)2可知,当R2=0.64时,身高解释了64%的体重变化.【答案】0.647.调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y^=0.254x+0.321.由回归直线方程可知,家庭年收入每增对x的回归直线方程:y加1万元,年饮食支出平均增加________万元.^=0.254(x+1)+0.321,与y^=0.254x+0.321相【解析】以x+1代x,得y减可得,年饮食支出平均增加0.254万元.【答案】0.2548.已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则回归直线方程是________.【解析】由斜率的估计值为1.23,且回归直线一定经过样本点的中心(4,5),可得y^-5=1.23(x-4),即y^=1.23x+0.08.^=1.23x+0.08【答案】y三、解答题9.某省2013年的阅卷现场有一位质检老师随机抽取5名学生的总成绩和数学成绩(单位:分)如下表所示:学生 A B C D E总成绩(x)482383421364362数学成绩(y)7865716461(1)作出散点图;(2)对x与y作回归分析;(3)求数学成绩y对总成绩x的回归直线方程;(4)如果一个学生的总成绩为500分,试预测这个学生的数学成绩.【解】(1)散点图如图所示:(2)x =2 0125,y =3395,∑5i =1x 2i =819 794,∑5i =1y 2i =23 167,∑5i =1x i y i =137 760. ∴r =错误! ·错误!)=错误!≈0.989.因此可以认为y 与x 有很强的线性相关关系. (3)回归系数b^=∑5i =1x i y i -5 x y ∑5i =1x 2i -5x2=0.132 452,a^=y -b ^x =14.501 315.∴回归方程为y ^=0.132 452x +14.501 315.(4)当x =500时,y ^≈81.即当一个学生的总成绩为500分时,他的数学成绩约为81分.10.(2012·福建高考)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x (元) 8 8.2 8.4 8.6 8.8 9 销量y (件)9(1)求回归直线方程y ^=bx +a ,其中b =-20,a =y -b x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)【解】 (1)由于x =16(8+8.2+8.4+8.6+8.8+9)=8.5,y=16(90+84+83+80+75+68)=80,又b=-20,所以a=y-b x=80+20×8.5=250,从而回归直线方程为y^=-20x+250.(2)设工厂获得的利润为L元,依题意得L=x(-20x+250)-4(-20x+250)=-20x2+330x-1 000=-20(x-8.25)2+361.25.当且仅当x=8.25时,L取得最大值.故当单价定为8.25元时,工厂可获得最大利润.11.在关于人的脂肪含量(百分比)和年龄的关系的研究中,研究人员获得了一组数据如下表:年龄x23273945657586061脂肪含量y 9.517.821.225.927.526.328.229.630.231.430.833.535.234.6 (1)作出散点图,并判断y与x是否线性相关.若线性相关,求线性回归方程;(2)求相关指数R2,并说明其含义;(3)给出37岁时人的脂肪含量的预测值.【解】(1)散点图如图所示.由散点图可知样本点呈条状分布,脂肪含量与年龄有比较好的线性相关关系,因此可以用线性回归方程来刻画它们之间的关系.设线性回归方程为y ^=b^x +a ^,则由计算器算得b^≈0.576,a ^≈=-0.448, 所以线性回归方程为y ^=0.576x -0.448. (2)残差平方和: ∑i =114e ^2i =∑i =114(y i -y ^i )2≈37.78.总偏差平方和:∑i =114(y i -y -)2≈644.99.R 2=1-37.78644.99≈0.941.R 2≈0.941,表明年龄解释了94.1%的脂肪含量变化.(3)当x =37时,y ^=0.576×37-0.448≈20.9,故37岁时人的脂肪含量约为20.9%.(教师用书独具)为研究重量x (单位:克)对弹簧长度y (单位:厘米)的影响,对不同重量的6个物体进行测量,数据如下表所示:x 51015202530y 7.258.128.959.9010.911.8(1)作出散点图并求回归方程;(2)求出R2;(3)进行残差分析.【思路探究】(1)由表作出散点图,求出系数值,即可写出回归方程.(2)列出残差表,计算R2,由R2的值判断拟合效果.(3)由(2)中残差表中数值,进行回归分析.【自主解答】(1)散点图如图.x=16(5+10+15+20+25+30)=17.5,y=16(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,∑i=16x2i=2 275,∑i=16x i y i=1 076.2.计算得,b^≈0.183,a^≈6.285,所求线性回归方程为y^=6.285+0.183x.(2)列表如下:y i-y^i0.050.005-0.08-0.0450.040.025y i-y-2.24-1.37-0.540.41 1.41 2.31所以∑i =16 (y i -y ^i )2≈0.013 18,∑i =16(y i -y )2=14.678 4.所以,R 2=1-0.013 1814.678 4≈0.999 1,回归模型的拟合效果较好.(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与拉力成线性关系.建立回归模型的基本步骤: (1)确定解释变量和预报变量;(2)画散点图,观察是否存在线性相关关系; (3)确定回归方程的类型,如y =bx +a ; (4)按最小二乘法估计回归方程中的参数;(5)得结果后分析残差图是否异常,若存在异常,则检查数据是否有误,或模型是否合适.假设关于某设备的使用年限x (年)和所支出的维修费用y (万元)有关的统计资料如下表所示.使用年限x 2 3 4 5 6 维修费用y2.23.85.56.57.0若由资料知y 对x 呈线性相关关系.试求: (1)线性回归方程y ^=b^x +a ^的回归系数a ^、b ^;(2)求相关指数R2;(3)估计使用年限为10年时,维修费用是多少?【解】(1)由已知数据制成下表.i 12345合计x i2345620y i 2.2 3.8 5.5 6.57.025 由此可得x=4,y=5,b^=∑i=15(x i-x)(y i-y)∑i=15(x i-x)2=1.23,a^=y-b^x=5-1.23×4=0.08,∴y^=1.23x+0.08.(2)R2=1-∑i=15(y i-y^i)2∑i=15(y i-y)2=1-0.65115.78≈0.958 7.(3)回归直线方程为y^=1.23x+0.08,当x=10(年)时,y^=1.23×10+0.08=12.38(万元),即估计使用10年时维修费用是12.38万元.。
计量经济学第2章 一元线性回归模型

15
~ ~ • 因为 2是β2的线性无偏估计,因此根据线性性, 2 ~ 可以写成下列形式: 2 CiYi
• 其中αi是线性组合的系数,为确定性的数值。则有
E ( 2 ) E[ Ci ( 1 2 X i ui )]
E[ 1 Ci 2 Ci X i Ci ui ]
6
ˆ ˆ X )2 ] ˆ , ˆ ) [ (Yi Q( 1 2 i 1 2 ˆ ˆ X 2 Yi 1 2 i ˆ ˆ 1 1 2 ˆ ˆ ˆ ˆ [ ( Y X ) ] 1 2 i Q( 1 , 2 ) i ˆ ˆ X X 2 Yi 1 2 i i ˆ ˆ 2 2
16
~
i
i
• 因此 ~ 2 CiYi 1 Ci 2 Ci X i Ci ui 2 Ci ui
• 再计算方差Var( ) 2 ,得 ~ ~ ~ 2 ~ Var ( 2 ) E[ 2 E ( 2 )] E ( 2 2 ) 2
C E (ui )
2 i 2 i
i
~
i
i
i
i
E ( 2 Ci ui 2 ) 2 E ( Ci ui ) 2
i
2 u
C
i
2 i
i
~ ˆ)的大小,可以对上述表达式做一 • 为了比较Var( ) 和 Var( 2 2
些处理: ~ 2 2 2 2 Var ( 2 ) u C ( C b b ) i u i i i
8
• 2.几个常用的结果
• (1) • (2) • (3) • (4)
《应用回归分析》课后题答案解析

.
《应用回归分析》部分课后习题答案
第一章 回归分析概述
1.1 变量间统计关系和函数关系的区别是什么? 答:变量间的统计关系是指变量间具有密切关联而又不能由某一个或某一些变量 唯一确定另外一个变量的关系,而变量间的函数关系是指由一个变量唯一确定另 外一个变量的确定关系。
1.2 回归分析与相关分析的联系与区别是什么? 答:联系有回归分析和相关分析都是研究变量间关系的统计学课题。区别有 a. 在回归分析中,变量 y 称为因变量,处在被解释的特殊地位。在相关分析中,变 量 x 和变量 y 处于平等的地位,即研究变量 y 与变量 x 的密切程度与研究变量 x 与变量 y 的密切程度是一回事。b.相关分析中所涉及的变量 y 与变量 x 全是随机 变量。而在回归分析中,因变量 y 是随机变量,自变量 x 可以是随机变量也可以 是非随机的确定变量。C.相关分析的研究主要是为了刻画两类变量间线性相关的 密切程度。而回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归 方程进行预测和控制。
1 3
即为:(2.49,11.5)
33,7+2.353 1 3
33)
0
N
(0
,
(
1 n
(x)2 Lxx
)
2
)
t
0 0
0 0
(
1
(
x)2
)
2
1 (x)2
n Lxx
n Lxx
服从自由度为 n-2 的 t 分布。因而
P |
0 0
1 (x)2
| t /2 (n 2) 1
n Lxx页脚源自 ..1330 6.1
3
(5)由于 1
N
(1,
第2章习题

3. 美国各航空公司业绩的统计数据公布在《华尔街日报 1999 年年鉴》(The Wall Street Journal Almanac 1999)上。航班正点到达的比率和每 10 万名乘客投诉的次数的数据如下。
航空公司名称
航班正点率(%)
投诉率(次/10 万名乘客)
西南(Southwest)航空公司
D (X,Y)
16. 以 Y 表示实际观测值, Yˆ 表示 OLS 估计回归值,则用 OLS 得到的样本回归直线
Yˆ i=βˆ0 + βˆ1Xi 满足( )
∑ A (Yi-Yˆ i)=0 ∑ B (Yi-Yi)2=0 ∑ C (Yi-Yˆ i)2=0 ∑ D (Yˆ i-Yi)2=0
17. 若一正常商品的市场需求曲线向下倾斜,则可断定( ) A 它具有不变的价格弹性 B 随需求量增加,价格下降 C 随需求量增加,价格上升 D 需求无弹性
6. 在总体回归直线 E(Yˆ )=β0 + β1X 中, β1表示( ) A 当 X 增加一个单位时,Y 增加 β1 个单位 B 当 X 增加一个单位时,Y 平均增加 β1 个单位 C 当 Y 增加一个单位时,X 增加 β1 个单位 D 当 Y 增加一个单位时,X 平均增加 β1 个单位
7. 最小二乘准则是指使(
C Yi=βˆ0 + βˆ1Xi + ei
D Yˆ i=βˆ0 + βˆ1Xi + ei
E E(Yi )=βˆ0 + βˆ1Xi
4. Yˆ 表示 OLS 估计回归值,u 表示随机误差项。如果 Y 与 X 为线性相关关系,则下列哪些
是正确的(
)
A Yi=β0 + β1Xi
B Yi=β0 + β1Xi+ui
回归分析的基本思想与初步应用

1.1回归分析的基本思想及其初步应用(第1课时)教案教材:人民教育出版社A版选修1-2第2页到第4页授课教师:广东省惠州市第一中学刘健【教学目标】在《数学③(必修)》之后,学生已经学习了两个变量之间的相关关系,包括画散点图,最小二乘法求回归直线方程等内容.在人教A版选修1-2第一章第一节“回归分析的基本思想及其初步应用”这一节中进一步介绍回归分析的基本思想及其初步应用.这部分内容《教师用书》共计4课时,第一课时:介绍线性回归模型的数学表达式,解释随机误差项产生的原因,使学生能正确理解回归方程的预报结果;第二课时:从相关系数、相关指数和残差分析角度探讨回归模型的拟合效果,以及建立回归模型的基本步骤;第三课时:介绍两个变量非线性相关关系;第四课时:回归分析的应用. 本节课是第一课时的内容.1、知识目标认识随机误差;2、能力目标(1)会使用函数计算器求回归方程;(2)能正确理解回归方程的预报结果.3、情感目标通过本节课的学习,加强数学与现实生活的联系,以科学的态度评价两个变量的相关性,理解处理问题的方法,形成严谨的治学态度和锲而不舍的求学精神.培养学生运用所学知识,解决实际问题的能力.教学中适当地利用学生合作与交流,使学生在学习的同时,体会与他人合作的重要性.【教学重点】随机误差e的认识【教学难点】随机误差的来源和对预报变量的影响【教学方法】启发式教学法【教学手段】多媒体辅助教学【教学流程】复习引入教师操作作业【教学过程设计】【教学反思】通过本节课的教学实践,我再次体会到什么是由“关注知识”转向“关注学生”,在教学过程中,注意到了由“给出知识”转向“引起活动”,由“完成教学任务”转向“促进学生发展”,课堂上的真正主人应该是学生.一堂好课,师生一定会有共同的、积极的情感体验.本节课的教学中,知识点均是学生通过探索“发现”的,学生充分经历了探索与发现的过程.教学中没有以练习为主,而是定位在知识形成过程的探索,注重数学的思想性,如统计思想、随机观念、函数思想、数形结合的思想方法等,引导学生体验数学中的理性精神,加强数学形式下的思考和推理.几点注明:1、复习引入时教师做示范——提供5组身高与体重的数据,用Excel展示如何画散点图、用最小二乘法求线性回归方程.随机抽样并列表如下:2、计算机做散点图的步骤如下:(1)进入Excel软件操作界面,在A1,B1分别输入“身高”和“体重”,在A,B 列输入相应的数据.(2)点击“图表向导”图标,进入“图表类型”对话框,选择“标准类型”中的“XY散点图”,单击“下一步”.(3)在“图表向导”中的“图表数据源”对话框中,选择“系列”选项,单击“添加”按钮添加系列1,在“X值”栏中输入身高所在数据区域,在“Y值”栏中输入体重所在数据区域,单击“下一步”.(4)进入“图表向导”中的图表选项对话框,对图表的一些属性进行设置. (5)单击“完成”按钮.注:也可以直接使用我们提供的文件来给学生演示,相对节约课堂时间.3、学生使用函数计算器求回归方程的过程如下:(学生还会使用更先进的计算器) 4、课堂使用的数据如下高二女生前15组数据列表:MODE SHIFT CLR =1 13 , DT 165 49 ,DT17565, DT 165 58 , DT 157 51 , DT 170 53 SHIFT CLR SHIFT CLR 2 ==1 (进入回归计算模式)(清除统计存储器)(输入五组数据)所以回归方程为 yˆ0.673x-56.79 (计算参数a) (计算参数b)高二女生中间15组数据列表:高二女生后15组数据列表:课本P2例题1 女大学生8组数据列表:例1.1.1回归分析的基本思想及其初步应用(第1课时)教案说明教材:人民教育出版社A版选修1-2第2页至第4页授课教师:广东省惠州市第一中学刘健1、设计理念《数学课程标准》明确指出:有效的数学学习活动不能单纯地模仿与记忆,动手实践、自主探索与合作交流,可以促进学生自主、全面、可持续的发展,是学生学习数学的重要方式.为使教学真正做到以学生为本,我对教材P2—P3的知识进行了适当地重组和加工,力求给学生提供研究、探讨的时间与空间,让学生充分经历“做数学”的过程,促使学生在自主中求知,在合作中获取,在探究中发展.2、授课内容的数学本质与教学目标定位回归分析,是一种从事物因果关系出发进行预测的方法.操作中,是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式),预测今后事物发展的趋势.然而,所建立的回归方程与样本点的分布之间还存在有差异,这一差异就是我们本节课学习的主要内容:随机变量.本课的教学目标为:①知识目标认识随机误差e;②能力目标(1)会使用函数计算器求回归方程;(2)能正确理解回归方程的预报结果.③情感目标通过本节课的学习,加强数学与现实生活的联系,以科学的态度评价两个变量的相关性,理解处理问题的方法,形成严谨的治学态度和锲而不舍的求学精神.培养学生运用所学知识,解决实际问题的能力.教学中适当地利用学生合作与交流,使学生在学习的同时,体会与他人合作的重要性.3、学习本课内容的基础以及应用本课内容安排在《数学3(必修)》之后,学生已经学习了两个变量之间的相关关系,包括画散点图,会利用最小二乘法求回归直线方程等内容.以此为基础,进一步讨论一元线性回归模型,分析产生模型中随机误差项的原因,从而让学生了解线性回归模型与函数模型之间的区别与联系,体会统计思维与确定性思维的区别与联系.通过本节课的学习,为后继课程了解偏差平方和分解思想和相关指数的含义、了解相关指数 R2和模型拟合的效果之间的关系、了解残差图的作用,体会什么是回归分析、回归分的必要性,都起到铺垫作用.在本节课的教学中,学生使用了函数计算器,教师则利用电脑Excel表格完成对数据的整理,需要学生有一定的动手能力.4、学习本课内容时容易了解与容易误解的地方由于学生对必修3中的线性回归知识已经熟悉,会抽取样本、会画散点图、会利用最小二乘法求出线性回归方程,所以本节课学生容易了解:(1)从散点图看出,样本点呈条状分布,体重与身高具有线性相关关系,因此可以用线性回归方程来近似刻画它们之间的关系.(2)可以发现样本点并不完全落在回归方程上,有随机误差存在.(3)容易理解由一条回归方程预测到的身高172cm的女生体重不是都一样,它只是一个平均值.在学习过程中,相对不易理解的地方有:(1)对于随机误差的来源,学生是能够从样本的个体差异上来理解的,但是对于由用线性回归模型近似真实模型所引起的误差,学生理解还是有一定困难的.(2)随机误差对预报变量的影响,学生从感性上很好理解,当然是随机误差越小越好.但是从理性上认识,怎样从数据上刻画出随机误差是否变小了呢?学生还有困难.5、本节课的教法特点以及预期效果分析5.1 改造创新教师通过分析教材和学生认知规律,创造性地使用教材,做到既重视教材,更重视学生.具体说来有以下改造:(1)创设生活情景.利用学生的“体检经验”设置问题,既没有脱离课本例题1的相关内容,又能激发学生对数学的亲切感,引发学生看个究竟的冲动,兴趣盎然地投入学习.(2)充分体现随机观念.课本上仅仅希望利用8组数据就要学生体会到统计的思想和后继课程中回归分析的必要性,实在是为难学生了.在本课教学设计学生操作时强调“增多数据,加强比较”. 帮助学生体会“不同事件(如课本例1女大学生和高二女生)”,则统计结果不同、“同一事件(如都是高二女生),采样不同结果也不同”的基本事实.(3)教师的作用. 在这节课里,教师在学生操作结束后,利用更多数据的操作,形成一个与学生结果的对比,这一操作与展示为学生创造了新的思维增长点,引领学生进入更深层领悟.5.2 问题性本课教学以问题引导学习活动,通过恰时恰点地提出问题,提好问题,给学生提问的示范,使他们领悟发现和提出问题的艺术,引导他们更加主动和有兴趣地学,逐步培养学生的问题意识,孕育创新精神.例如,在“结果的分析”中的问题4、“预测出的体重值都不同,那么它还有参考价值吗?”目的是让学生充分认识随机误差e的来源和对预报变量的影响,而这一问题的提出,立刻吸引学生细细体会随机观念,同时激发出学生的好奇心,提升深入探求的欲望.5.3 合作、探究的学习方式本节课的合作学习体现在两个方面:除了体现在每个小组内部成员之间,还体现在整堂课的教学结构上.小组成员内部提倡“不同的人作不同的事”,面对不同分组,学生可以自主选择的不同工作,动手带动动脑,遇到小的问题,通过探讨和帮助,能做到“学生的问题由学生自己解决”,促进对某一问题更清晰的认识,还能感受到团结合作的好处与必要.同时,每个小组的劳动成果共同构成课堂教学需要的多条回归方程,组与组之间的合作推动整节课的比较与区分得以实现.5.4教学手段本课积极将数学课程与信息技术进行整合,采用多种技术手段,特点主要体现如下:(1)以PPT 为操作平台,界面活泼,操作简单,能有效支持多种其它技术;(2)教师用Excel图表展示,直观形象,节约时间,帮助学生顺利完成学习内容;(3)学生使用函数计算器动手操作,求出回归方程.本课预期:(1)学生可以很好地复习使用函数计算器求回归方程,虽然在要求学生自己操作前教师有一个示例,但是还是会有一少部分人不会使用,所以在教学前要有一定的思想准备,和必要措施.(2)在分析各个组的预测结果为什么有差异时,由于个体经验不同,对问题的挖掘深度产生不同,这时教师的启发引导可能会十分必要,不能完全由学生漫无目的的“讨论”,使学生活动流于形式.(3)“结果分析”前,由学生展示操作成果,这些结果已经够用来说明问题,教师不要急于参与.在“结果分析”的第4个问题中引入教师利用电脑求出的由45 组数据得到的回归方程,让学生再一次通过比较得到新的思考点——怎样知道自己模拟的回归方程身高变化对体重变化影响有多大呢?这样会使学生自然而然渴望进一步了解相关回归分析的知识,为后继课程做好伏笔.对于体现本节课承上启下的作用,可能更好一些.。
《应用回归分析》课后习题答案

答:选择模型的数学形式的主要依据是经济行为理论,根据变量的样本数据作出解释变量与被解释变量之间关系的散点图,并将由散点图显示的变量间的函数关系作为理论模型的数学形式。对同一问题我们可以采用不同的形式进行计算机模拟,对不同的模拟结果,选择较好的一个作为理论模型。
df
均方
F
显著性
组间
(组合)
1231497.500
7
175928.214
5.302
.168
线性项
加权的
1168713.036
1
1168713.036
35.222
.027
偏差
62784.464
6
10464.077
.315
.885
组内
66362.500
2
33181.250
总数
1297860.000
9
由于 ,拒绝 ,说明回归方程显著,x与y有显著的线性关系。
.212
.586
1.708
a.因变量: y
(6)可以看到P值最大的是x3为0.284,所以x3的回归系数没有通过显著检验,应去除。
去除x3后作F检验,得:
Anovab
模型
平方和
df
均方
F
Sig.
1
回归
12893.199
2
6446.600
11.117
.007a
残差
4059.3.500
.724
.433
.212
.586
1.708
a.因变量: y
(2)
所以三元线性回归方程为
模型汇总
模型
R