逐步回归分析计算法

逐步回归分析计算法
逐步回归分析计算法

前面我们介绍了通过回归的基本思想是将变量逐一引入回归方程,先建立与y相关最密切的一元线性回归方程,然后再找出第二个变量,建立二元线性回归方程,…。在每一步中都要对引入变量的显著性作检验,仅当其显著时才引入,而每引入一个新变量后,对前面已引进的变量又要逐一检验,一旦发现某变量变得不显著了,就要将它剔除。这些步骤反复进行,直到引入的变量都是显著的而没有引入的变量都是不显著的时,就结束挑选变量的工作,利用所选变量建立多元线性回归方程。为实现上述思想,我们必须在解方程组的同时,求出其系数矩阵的逆矩阵。为节约内存,计算过程中在消去x k时用了如下变换公式——求解求逆紧凑变换。

一、求解求逆紧凑变换

求解求逆紧凑变换记作L k,其基本变换关系式为:

(2-3-30) 当对(2-3-27)的增广矩阵

(2-3-31)

依次作L1,L2,…,L m-1变换后,所得矩阵的前m-1列,便是系数矩阵的逆矩阵,最后一列便是(2-3-27)的解,即

求解求逆紧凑变换具有以下性质:

(1) 若对作了L k1, L k2,…,L k L变换,则得如下子方程组

(2-3-32)

的解及相应的系数矩阵的逆矩阵,其中k1,k2,…,k l互不相同,若记

L k1L k2…L k l,则

(2-3-33)

,j=1,2,…,l

(2) L i L j=L j L i,即求解求逆紧凑变换结果与变换顺序无关。

(3) L k L k=

(4) 若,ij=1,2,…,m-1,记

L k1L k2…L k l

则中的元素具有以下性质:

式中上行为对作了变换L i,L j或两个变换均未作过;下行为对作过变换L i和L j之一。

二、逐步回归的计算过程

逐步回归计算过程就是反复对增广矩阵作L k变换,并利用变换性质将选变量与作检验等步骤结合起来。

为了检验方便,对再增加一行,使其变成对称方阵,并记作R(0),即

(2-3-34)

选变量具体步骤如下:

1.选第一个变量

选第一个变量就是从m-1个一元线性回归方程

(i=1,2,…,m-1) (2-3-35)

中找一个回归平方和最大的方程。这里为了符号明确起见,以记作回归系数,上标(1)表示第一步计算。

由变换性质1可知,对R(0)作了L i变换后,有

(2-3-36)

(2-3-37)

因此Z i的偏回归平方和为

(2-3-38)

由第二章偏回归平方和的意义可知,此一元线性回归方程对应的剩余

平方和为

(2-3-39)

从而对Z I的系数作显著性检验的F比是

(2-3-40)

由于是的单调递增函数,故要找i=1,2,…,m-1的最大值,只要找出i=1,2,…,m-1的最大值即可。

则只需对V K1(1)计算F k1(1),对给定的α,当F k1(1)>Fα(1,n-2)时,引入变量Z k1。

引入第一个变量的步骤可总结如下:

(1)对i=1,2,…,m-1,计算

(2)令

(3)计算

(4)若F1(1)>Fα(1,n-2),引入变量Z k1,对R(0)作L k1变换,且记

R(1)=L k1R(0)=

2.选第二个变量

这一步相当于从m-2个方程

i=1,2,…,m-1, i≠j (2-3-41) 中去选一个方程出来,使加入的Z i具有最大的偏回归平方和。由变换性质1可知,这时需对R(0)作L k1变换,故不论选那个方程,均需对R(0)作L k1变换,因而引入Z k1后就已作好这一变换。与选第一个变量相似,这一步的计算可如下进行:

(1)对i=1,2,…,m-1,计算

(2)令

(3)计算

(4)当F1(2)>Fα(1,n-3),引进变量Z k2,并对R(1)作变换L k2,且记R(2)= L k2 R(1) =;如果F1(2)

3 .当引入第二个变量Z k2后,需对原已引入的变量Z k1的显著性重新作检验。

由于已对R(0)作了变换L k1, L k2,故从R(2)可直接写出二元线性回归方程:

(2-3-44)

此时Z k1的偏回归平方和为

(2-3-45)

此二元线性回归方程的剩余平方和为

(2-3-46)

因而对Z k1作检验的F比为

(2-3-47)

若F2(2)>Fα(1,m-3),则保留,可进一步考虑选入新变量;若F2(2)

综上所述,这一步的步骤是:

(1)计算

(2)计算

(3)若F2(2)>Fα(1,n-3),则考虑引入第三个变量;若F2(2)

4.一般地,假设经过l步变换后引人了变量Z k1Z k2…Z kl,紧接着又引入了Z kl+1,其中k1k2…k l+1互不相同,而R(0)经过L k1,L k1,…,L k l+1后变成

接下去我们需对原已引入的变量Z k1,Z k2,…,Z k l重新检验,看有无需剔除的,步骤如下:

(1)计算,j=1,2,…l (2-3-48)

(2)令;

(3)计算(2-3-49) (4)若,则对R(l+1)作变换L k,重新考虑还有无其他变量要剔除;若,则接下去考虑能否引入新变量。

引入新变量步骤如下:

(1)计算, (2-3-50)

(2)令

(3)计算(2-3-51)

(4)若,则对R(l+1)作变换L k,再考虑旧变量是否要剔除;若则结束选变量的工作。

如果选上Z k1,Z k2,…,Z kl变量后,没有变量可剔除,也没有变量

可引入,且R(0)经过变换L k1,L k2,…,L kl后变成R(l)=(),则此时可求出y关于x k1,x k2,…,x kl的回归方程。按(2-3-24)式:

(2-3-52)

从而得回归方程

此方程对应的

(2-3-53)

复相关系数:

(2-3-54)

三、举例

例2-3-1表是某种水泥凝固时放出热量(卡/克)与水泥四种成分: 3CaO?Al2O3(x1)、3CaO?SiO2(x2)、4CaO?Al2O3?FeO3(x3)、2CaO?SiO2(x4)含量(%)测定结果,现在我们用逐步回归法建立其关系式。

表2-3-1 某种水泥凝固时放出热量(卡/克)与四种成分关系

首先我们计算各变量的平均值

(其中 记作 )并由(2-3-16)

式计算偏差平方和的算术根σi (i=1,2,3,4,5),结果列于下表:

由(2-3-26)式计算出相关系数矩阵:R

(0)

=

下面进行选变量与作检验: 第一步:l =0(这里

l 表示开始时计算方程中所含变量的个数);

首先用(2-3-38)式计算四个变量的偏回归平方和

, i=1,2,3,4

得:

对其作F检验。由(2-3-40)式

故可引入X4,对R(0)作L4变换,由(2-3-30)式,得R(1)=

第二步:l=1

i=1,2,3计算,由(2-3-42)式得

,

对其作F检验,由(2-3-43)式

故可引入X1,对R(1)作L1变换,由(2-3-30)式得R(2)=

第三步:l=2

由于引入新变量,需先对x4重新作检验,由(2-3-45)式得

对其作F检验,由(2-3-47)式得

故保留x4,继续引入新变量

对i=2,3计算,由(2-3-50)式得

对其作F检验,由(2-3-51)式

故引入x2,对R(2)作L2变换:

第四步:l=3

由于引入了x2,故需对x1,x4重作检验,首先由(2-3-48)式对i=1,4计算

(j=1,4)

故对作F检验,由式(2-3-49)得

故剔除x4,对R(3)作L4变换,得

第五步:l=2

由于剔除了x4,现在方程中只有x1和x2两个自变量。是否还需要剔除;需要作进一步检验,对i=1,2计算。由(2-3-48)式,得

其中最小,故对它作F检验。由(2-3-49)式

故无变量剔除。

注意,在这一步的剔除检验中所用l实际为l-1。

再考虑能否引入新变量,计算(i=3,4)由(2-3-50)得

这里较大,但它刚被剔除,不能引入,至此挑选变量工作结束。下面建立回归方程

由(2-3-52)式

最终得回归方程

由(2-3-53)式可得此方程的各类平方和

由(2-3-54)式复相关系数为

回归分析与因子分析之比较

回归分析与因子分析之比较 刘婷玉 数学与统计学院06级 【摘 要】回归分析与因子分析是数理统计中常用的两种数据处理方法,本文对他们进行比较,分析了两种方法的区别与联系,各自的使用和适用范围,对教学质量的提高及在实际中对于有效选择此两种统计方法提供了依据。 【关键词】回归分析 因子分析 比较 一、 问题提出 回归分析和因子分析都是研究因变量与因子间关系的一种数据处理方法,在模型上看,只是因子结构不一样,他们之间到底有什么内在联系,值得我们研究并加以利用。 二、 问题分析 1、 统计模型和类型 多元线性回归模型表示方法为 i ki k i i i ki i i i k k u X b X b X b b Y n i X X X Y n u X b X b X b b Y +++++==+++++=ΛΛΛΛ221102122110,,2,1) ,,,,(得:个样本观测值 其解析表达式为:

???????+++++=+++++=+++++=n kn k n n n k k k k u X b X b X b b Y u X b X b X b b Y u X b X b X b b Y ΛΛ ΛΛΛΛΛΛΛ2211022222121021121211101 多元模型的矩阵表达式为 ??????? ??+???????? ????????? ? ?=??????? ??u u u b b b b X X X X X X X X X Y Y Y n k kn k k n n n M M M ΛΛΛM M M M 2121021222211121121111 ??????? ??=???????? ??=??????? ??=?????? ? ??=+=u u u b b b b X X X X X X X X X Y Y Y n k kn k k n n n U B X Y U XB Y M M M ΛΛΛM M M M 2121021222211121121111 一般地,设X=(x1, x2, …,xp)’为可观测的随机变量,且有 i m im i i i i e f a f a f a X +?+???+?+?+=2211μ 。在因子分析中,p 维的变量向量x 被赋予一个随机结构,x =α+Af+ε具体也可以写成以下形式: 111112211 221122222 1122m m m m p p p pm m p x a f a f a f x a f a f a f x a f a f a f μεμεμε-=++++-=++++-=++++L L L L L (1) 其中α是p 维向量,A 是p ×r 参数矩阵,f 是r 维潜变量向量,称为

matlab建立多元线性回归模型并进行显著性检验及预测问题

matlab建立多元线性回归模型并进行显着性检验及预测问题 例子; x=[143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164]'; X=[ones(16,1) x]; 增加一个常数项Y=[88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102]'; [b,bint,r,rint,stats]=regress(Y,X) 得结果:b = bint = stats = 即对应于b的置信区间分别为[,]、[,]; r2=, F=, p= p<, 可知回归模型y=+ 成立. 这个是一元的,如果是多元就增加X的行数! function [beta_hat,Y_hat,stats]=regress(X,Y,alpha) % 多元线性回归(Y=Xβ+ε)MATLAB代码 %? % 参数说明 % X:自变量矩阵,列为自变量,行为观测值 % Y:应变量矩阵,同X % alpha:置信度,[0 1]之间的任意数据 % beta_hat:回归系数 % Y_beata:回归目标值,使用Y-Y_hat来观测回归效果 % stats:结构体,具有如下字段 % =[fV,fH],F检验相关参数,检验线性回归方程是否显着 % fV:F分布值,越大越好,线性回归方程越显着 % fH:0或1,0不显着;1显着(好) % =[tH,tV,tW],T检验相关参数和区间估计,检验回归系数β是否与Y有显着线性关系 % tV:T分布值,beta_hat(i)绝对值越大,表示Xi对Y显着的线性作用% tH:0或1,0不显着;1显着 % tW:区间估计拒绝域,如果beta(i)在对应拒绝区间内,那么否认Xi对Y显着的线性作用 % =[T,U,Q,R],回归中使用的重要参数 % T:总离差平方和,且满足T=Q+U % U:回归离差平方和 % Q:残差平方和 % R∈[0 1]:复相关系数,表征回归离差占总离差的百分比,越大越好% 举例说明 % 比如要拟合y=a+b*log(x1)+c*exp(x2)+d*x1*x2,注意一定要将原来方程线化% x1=rand(10,1)*10; % x2=rand(10,1)*10; % Y=5+8*log(x1)+*exp(x2)+*x1.*x2+rand(10,1); % 以上随即生成一组测试数据 % X=[ones(10,1) log(x1) exp(x2) x1.*x2]; % 将原来的方表达式化成Y=Xβ,注意最前面的1不要丢了

matlab多元线性回归模型

云南大学数学与统计学实验教学中心 实验报告 一、实验目的 1.熟悉MATLAB的运行环境. 2.学会初步建立数学模型的方法 3.运用回归分析方法来解决问题 二、实验内容 实验一:某公司出口换回成本分析 对经营同一类产品出口业务的公司进行抽样调查,被调查的13家公司,其出口换汇成本与商品流转费用率资料如下表。试分析两个变量之间的关系,并估计某家公司商品流转费用率是6.5%的出口换汇成本. 实验二:某建筑材料公司的销售量因素分析 下表数据是某建筑材料公司去年20个地区的销售量(Y,千方),推销开支、实际帐目数、同类商品

竞争数和地区销售潜力分别是影响建筑材料销售量的因素。1)试建立回归模型,且分析哪些是主要的影响因素。2)建立最优回归模型。 提示:建立一个多元线性回归模型。

三、实验环境 Windows 操作系统; MATLAB 7.0. 四、实验过程 实验一:运用回归分析在MATLAB 里实现 输入:x=[4.20 5.30 7.10 3.70 6.20 3.50 4.80 5.50 4.10 5.00 4.00 3.40 6.90]'; X=[ones(13,1) x]; Y=[1.40 1.20 1.00 1.90 1.30 2.40 1.40 1.60 2.00 1.00 1.60 1.80 1.40]'; plot(x,Y,'*'); [b,bint,r,rint,stats]=regress(Y,X,0.05); 输出: b = 2.6597 -0.2288 bint = 1.8873 3.4322 -0.3820 -0.0757 stats = 0.4958 10.8168 0.0072 0.0903 即==1,0?6597.2?ββ,-0.2288,0?β的置信区间为[1.8873 3.4322],1,?β的置信区间为[-0.3820 -0.0757]; 2r =0.4958, F=10.8168, p=0.0072 因P<0.05, 可知回归模型 y=2.6597-0.2288x 成立. 1 1.5 2 2.5 散点图 估计某家公司商品流转费用率是6.5%的出口换汇成本。将x=6.5代入回归模型中,得到 >> x=6.5; >> y=2.6597-0.2288*x y = 1.1725

多因素分析

多因素分析 温州医学院环境与公共卫生学院叶晓蕾

概念 多因素分析是同时对观察对象的两个或两个以上的变量进行分析。 常用的统计分析方法有: 多元线性回归、Logistic回归、COX比例风险回归模型、因子分析、主成分分析,等。

多变量资料数据格式 例号X1X2…X p Y 1X11X12…X1p Y1 2X21X22…X2p Y2 ┆┆┆…┆┆ n X n1X n2…X np Y n Y为定量变量——Linear Regression Y为二项分类变量——Binary Logistic Regression Y为多项分类变量——Multinomial Logistic Regression Y为有序分类变量——Ordinal Logistic Regression Y为生存时间与生存结局——Cox Regression

第十五章多元线性回归 (multiple linear regressoin) P.261 Y,X——直线回归 Y,X1,X2,…X m——多元回归(多重回归) 例:欲研究血压受年龄、性别、体重、性格、 职业(体力劳动或脑力劳动)、饮食、吸烟、 血脂水平等因素的影响。

β0为回归方程的常数项(constant),表示各自变量均为0时y 的平均值; m 为自变量的个数; β1、β2、βm 为偏回归系数(Partial regression coefficient )意义:如β1表示在X 2、X 3…… X m 固定条件下,X 1 每增减一个单位对Y 的效应(Y 增减β个单位)。 e 为去除m 个自变量对Y 影响后的随机误差,称残差(residual)。 e X X X Y m m +++++=ββββ 22110多元回归方程的一般形式 一、多元回归模型

多元回归分析matlab剖析

回归分析MATLAB 工具箱 一、多元线性回归 多元线性回归:p p x x y βββ+++=...110 1、确定回归系数的点估计值: 命令为:b=regress(Y , X ) ①b 表示???? ?? ????????=p b βββ?...??10 ②Y 表示????????????=n Y Y Y Y (2) 1 ③X 表示??? ??? ????? ???=np n n p p x x x x x x x x x X ...1......... .........1 (12) 1 22221 11211 2、求回归系数的点估计和区间估计、并检验回归模型: 命令为:[b, bint,r,rint,stats]=regress(Y ,X,alpha) ①bint 表示回归系数的区间估计. ②r 表示残差. ③rint 表示置信区间. ④stats 表示用于检验回归模型的统计量,有三个数值:相关系数r 2、F 值、与F 对应的概率p. 说明:相关系数2 r 越接近1,说明回归方程越显著;)1,(1-->-k n k F F α时拒绝0H ,F 越大,说明回归方程越显著;与F 对应的概率p α<时拒绝H 0,回归模型成立. ⑤alpha 表示显著性水平(缺省时为0.05) 3、画出残差及其置信区间. 命令为:rcoplot(r,rint) 例1.如下程序. 解:(1)输入数据. x=[143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164]'; X=[ones(16,1) x]; Y=[88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102]'; (2)回归分析及检验. [b,bint,r,rint,stats]=regress(Y ,X) b,bint,stats 得结果:b = bint =

统计学多元回归分析方法

多元线性回归分析 在数量分析中,经常会看到变量与变量之间存在着一定的联系。要了解变量之间如何发生相互影响的,就需要利用相关分析和回归分析。回归分析的主要类型:一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析以及逻辑回归分析等。 1.1 回归分析基本概念 相关分析和回归分析都是研究变量间关系的统计学课题。在应用中,两种分析方法经常相互结合和渗透,但它们研究的侧重点和应用面不同。 在回归分析中,变量y称为因变量,处于被解释的特殊地位;而在相关分析中,变量y与变量x处于平等的地位,研究变量y与变量x的密切程度和研究变量x与变量y的密切程度是一样的。 在回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量;而在相关分析中,变量x和变量y都是随机变量。 相关分析是测定变量之间的关系密切程度,所使用的工具是相关系数;而回归分析则是侧重于考察变量之间的数量变化规律,并通过一定的数学表达式来描述变量之间的关系,进而确定一个或者几个变量的变化对另一个特定变量的影响程度。 具体地说,回归分析主要解决以下几方面的问题。 (1)通过分析大量的样本数据,确定变量之间的数学关系式。

(2)对所确定的数学关系式的可信程度进行各种统计检验,并区分出对某一特定变量影响较为显著的变量和影响不显著的变量。 (3)利用所确定的数学关系式,根据一个或几个变量的值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确度。 作为处理变量之间关系的一种统计方法和技术,回归分析的基本思想和方法以及“回归(Regression)”名称的由来都要归功于英国统计学F·Galton(1822~1911)。 在实际中,根据变量的个数、变量的类型以及变量之间的相关关系,回归分析通常分为一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析和逻辑回归分析等类型。 1.2 多元线性回归 1.2.1 多元线性回归的定义 一元线性回归分析是在排除其他影响因素或假定其他影响因素确定的条件下,分析某一个因素(自变量)是如何影响另一事物(因变量)的过程,所进行的分析是比较理想化的。其实,在现实社会生活中,任何一个事物(因变量)总是受到其他多种事物(多个自变量)的影响。 一元线性回归分析讨论的回归问题只涉及了一个自变量,但在实际问题中,影响因变量的因素往往有多个。例如,商品的需求除了受自身价格的影响外,还要受到消费者收入、其他商品的价格、消费者偏好等因素的影响;影响水果产量的外界因素有平均气温、平均日照

matlab与统计回归分析 (1)

一Matlab作方差分析 方差分析是分析试验(或观测)数据的一种统计方法。在工农业生产和科学研究中,经常要分析各种因素及因素之间的交互作用对研究对象某些指标值的影响。在方差分析中,把试验数据的总波动(总变差或总方差)分解为由所考虑因素引起的波动(各因素的变差)和随机因素引起的波动(误差的变差),然后通过分析比较这些变差来推断哪些因素对所考察指标的影响是显著的,哪些是不显著的。 【例1】(单因素方差分析)一位教师想要检查3种不同的教学方法的效果,为此随机地选取水平相当的15位学生。把他们分为3组,每组5人,每一组用一种方法教学,一段时间以后,这位教师给15位学生进行统考,成绩见下表1。问这3种教学方法的效果有没有显著差异。 表1 学生统考成绩表 方法成绩 甲75 62 71 58 73 乙71 85 68 92 90 丙73 79 60 75 81 Matlab中可用函数anova1(…)函数进行单因子方差分析。 调用格式:p=anova1(X) 含义:比较样本m×n的矩阵X中两列或多列数据的均值。其中,每一列表示一个具有m 个相互独立测量的独立样本。 返回:它返回X中所有样本取自同一总体(或者取自均值相等的不同总体)的零假设成立的概率p。

解释:若p值接近0(接近程度有解释这自己设定),则认为零假设可疑并认为至少有一个样本均值与其它样本均值存在显著差异。 Matlab程序: Score=[75 62 71 58 73;81 85 68 92 90;73 79 60 75 81]’; P=anova1(Score) 输出结果:方差分析表和箱形图 ANOVA Table Source SS df MS F Prob>F Columns 604.9333 2 302.4667 4.2561 0.040088 Error 852.8 12 71.0667 Total 1457.7333 14 由于p值小于0.05,拒绝零假设,认为3种教学方法存在显著差异。 例2(双因素方差分析)为了考察4种不同燃料与3种不同型号的推进器对火箭射程(单位:海里)的影响,做了12次试验,得数据如表2所示。 表2 燃料-推进器-射程数据表 推进器1 推进器2 推进器3 燃料1 58.2 56.2 65.3 燃料2 49.1 54.1 51.6 燃料3 60.1 70.9 39.2 燃料4 75.8 58.2 48.7 在Matlab中利用函数anova2函数进行双因素方差分析。 调用格式:p=anova2(X,reps)

MATLAB---回归预测模型

MATLAB---回归预测模型 Matlab统计工具箱用命令regress实现多元线性回归,用的方法是最小二乘法,用法是: b=regress(Y,X) [b,bint,r,rint,stats]=regress(Y,X,alpha) Y,X为提供的X和Y数组,alpha为显著性水平(缺省时设定为0.05),b,bint 为回归系数估计值和它们的置信区间,r,rint为残差(向量)及其置信区间,stats是用于检验回归模型的统计量,有四个数值,第一个是R2,第二个是F,第三个是与F对应的概率 p ,p <α拒绝 H0,回归模型成立,第四个是残差的方差 s2 。 残差及其置信区间可以用 rcoplot(r,rint)画图。 例1合金的强度y与其中的碳含量x有比较密切的关系,今从生产中收集了一批数据如下表 1。 先画出散点图如下: x=0.1:0.01:0.18; y=[42,41.5,45.0,45.5,45.0,47.5,49.0,55.0,50.0]; plot(x,y,'+') 可知 y 与 x 大致上为线性关系。

设回归模型为 y =β 0 +β 1 x 用regress 和rcoplot 编程如下: clc,clear x1=[0.1:0.01:0.18]'; y=[42,41.5,45.0,45.5,45.0,47.5,49.0,55.0,50.0]'; x=[ones(9,1),x1]; [b,bint,r,rint,stats]=regress(y,x); b,bint,stats,rcoplot(r,rint) 得到 b =27.4722 137.5000 bint =18.6851 36.2594 75.7755 199.2245 stats =0.7985 27.7469 0.0012 4.0883 即β 0=27.4722 β 1 =137.5000 β0的置信区间是[18.6851,36.2594], β1的置信区间是[75.7755,199.2245]; R2= 0.7985 , F = 27.7469 , p = 0.0012 , s2 =4.0883 。 可知模型(41)成立。 观察命令 rcoplot(r,rint)所画的残差分布,除第 8 个数据外其余残差的置信区间均包含零点第8个点应视为异常点,

Matlab多变量回归分析教程

本次教程的主要内容包含: 一、多元线性回归 2# 多元线性回归:regress 二、多项式回归 3# 一元多项式:polyfit或者polytool 多元二项式:rstool或者rsmdemo 三、非线性回归 4# 非线性回归:nlinfit 四、逐步回归 5# 逐步回归:stepwise 一、多元线性回归 多元线性回归: 1、b=regress(Y, X ) 确定回归系数的点估计值

2、[b, bint,r,rint,stats]=regress(Y,X,alpha)求回归系数的点估计和区间估计、并检验回归模型 ①bint表示回归系数的区间估计. ②r表示残差 ③rint表示置信区间 ④stats表示用于检验回归模型的统计量,有三个数值:相关系数r2、F值、与F对应的概率p 说明:相关系数r2越接近1,说明回归方程越显著;时拒绝H0,F越大,说明回归方程越显著;与F对应的概率p<α时拒绝H0 ⑤alpha表示显著性水平(缺省时为0.05) 3、rcoplot(r,rint)画出残差及其置信区间 具体参见下面的实例演示 4、实例演示,函数使用说明 (1)输入数据 1.>>x=[143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164]'; 2.>>X=[ones(16,1) x]; 3.>>Y=[88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102]'; 复制代码 (2)回归分析及检验 1. >> [b,bint,r,rint,stats]=regress(Y,X) 2. 3. b = 4. 5. -1 6.0730 6.0.7194 7. 8. 9.bint =

回归分析与因子分析之比较

回归分析与因子分析之比较 刘婷玉数学与统计学院 06 级 【摘要】回归分析与因子分析是数理统计中常用的两种数据处理方法,本文对他们进行比较,分析了两种方法的区别与联系,各自的使用和适用范围,对教学质量的提高及在实际中对于有效选择此两种统计方法提供了依据。 【关键词】回归分析因子分析比较 一、问题提出 回归分析和因子分析都是研究因变量与因子间关系的一种数据处理 方法,在模型上看,只是因子结构不一样,他们之间到底有什么内在联系,值得我们研究并加以利用。 二、问题分析 1、统计模型和类型 多元线性回归模型表示方法为 Y b0b1 X 1b2 X 2b k X k u n 个样本观测值(Y,X 1i , X 2 i ,, X ki )i 1,2, , n i 得: Y b 0b X 1 i b X 2 i b X ki u i i12k 其解析表达式为 :

Y 1 b 0 b 1 X 11 b 2 X 21 b k X Y 2 b 0 b 1 X 12 b 2 X 22 b k X k 1 u 1 k 2 u 2 Y n b b 1 X 1n b 2 X 2 n b k X kn u n 多元模型的矩阵表达式为 Y 1 1 X Y 2 1 X Y n 1 X YXB U 11 12 1 n X X X 21 22 2 n X X X k1 b 0 u 1 b 1 k 2 u 2 b 2 kn b k u n Y 1 1 X 11 X Y Y 2 1 X 12 X X Y n 1 X 1 n X b 0 u 1 b 1 U u 2 B b 2 21 22 2 n X X X k 1 k 2 kn b k u n 一般地,设 X=(x1 , x2, ?,xp) ’为可观测的随机变量,且有 X i i a i 1 f 1 a i 2 f 2 a im f m e i 。在因子分析中, p 维的变量 向量 x 被赋予一个随机结构, x = α+Af+ε具体也可以写成以下形式: x 1 a 11 f 1 a 12 f 2 a 1m f m 1 x 2 a 21 f 1 a 22 f 2 a 2 m f m 2 x p a p1 f 1 a p 2 f 2 a pm f m p (1) 其中 α是 p 维向量, A 是 p ×r 参数矩阵, f 是 r 维潜变量向量,称为

matlab中回归分析实例分析

1.研究科研人员的年工资与他的论文质量、工作年限、获得资助指标之间的关系.24位科研人员的调查数据(ex81.txt): 设误差ε~(0,σ 2 ), 建立回归方程; 假定某位人员的观测值 , 预测年工资及置信度为 95%的置信区间. 程序为:A=load('ex81.txt') Y=A(:,1) X=A(1:24,2:4) xx=[ones(24,1) X] b = regress(Y,X) Y1=xx(:,1:4)*b x=[1 5.1 20 7.2] s=sum(x*b) 调出Y 和X 后,运行可得: b = 17.8469 1.1031 0.3215 1.2889 010203(,,)(5.1,20,7.2)x x x =

x = 1.0000 5.1000 20.0000 7.2000 s = 39.1837 所以,回归方程为:Y= 17.8469+1.1031X1+0.3215X2+1.2889X3+ε 当 时,Y=39.1837 2、 54位肝病人术前数据与术后生存时间(ex82.txt,指标依次为凝血值,预后指数,酵素化验值,肝功能化验值,生存时间). (1) 若用线性回归模型拟合, 考察其各假设合理性; (2) 对生存是时间做对数变换,用线性回归模型拟合, 考察其各假设合理性; (3) 做变换 用线性回归模型拟合, 考察其各假设合理性; (4) 用变量的选择准则,选择最优回归方程 010203 (,,)(5.1,20,7.2)x x x =0.0710.07 Y Z -=

(5)用逐步回归法构建回归方程 程序为:A=load('ex82.txt') Y=A(:,5) X=A(1:54,1:4) xx=[ones(54,1) X] [b,bint,r,rint,stats]=regress(Y,xx) 运行结果为: b = -621.5976 33.1638 4.2719 4.1257 14.0916 bint = -751.8189 -491.3762 19.0621 47.2656 3.1397 5.4040 3.0985 5.1530 -11.0790 39.2622

因素分析法的计算例题多因素分析法研究

因素分析法的计算例题多因素分析法研究 多因素分析法研究 WTT为大家整理的相关的多因素分析法研究资料,供大家参考选择。 多因素分析 研究多个因素间关系及具有这些因素的个体之间的一系列统计分析方法称为多元(因素)分析。主要包括: 多元线性回归(multiple linear regression) 判别分析(disoriminant analysis) 聚类分析(cluster analysis) 主成分分析(principal ponent analysis) 因子分析(factor analysis) 典型相关(canonical correlation) logistic 回归(logistic regression) Cox 回归(COX regression) 1、多元回归分析(multiple linear regression) 回归分析是定量研究因变量对自变量的依赖程度、分析变量之间的关联性并进行预测、预报的基本方法。研究一个因变量对几个自变量的线性依存关系时,其模型称为多元线性回归。函数方程建立有四种方法:全模型法、向前选择法、向后选择法、逐步选择法。 全模型法其数学模型为:ebbbb++++=ppxxxyL22110 式中 y 为因变量, pxxxL21, 为p个自变量,0b为常数项,pbbbL21,为待定参数,

称为偏回归系数(partial regression coefficient)。pbbbL21,表示在其它自变量固定不变的情况下,自变量Xi 每改变一 个单位时,单独引起因变量Y的平均改变量。多因素分析法研究 e为随机误差,又称残差(residual), 它是在Y的变化中不能为自变量所解释的部分 例如:1、现有20名糖尿病病人的血糖(Lmmoly/,)、胰岛素(LmUx/,1)及生长素(Lgx/,2m)的数据,讨论血糖浓度与胰岛素、生长素的依存关系,建立其多元回归方程。 逐步回归分析(stepwise regression analysis) 在预先选定的几个自变量与一个因变量关系拟合的回归中,每个自变量对因变量变化所起的作用进行显著性检验的结果,可能有些有统计学意义,有些没有统计学意义。有些研究者对所要研究的指标仅具有初步知识,并不知道哪些指标会有显著性作用,只想从众多的变量中,挑选出对因变量有显著性意义的因素。 一个较理想的回归方程,应包括所有对因变量作用有统计学意义的自变量,而不包括作用无统计学意义的自变量。建立这样一个回归方程较理想的方法之一是逐步回归分析(stepwise regression analysis)

应用回归分析 matlab程序自相关

4.13 表中是某软件公司月销售额数据,其中,x为总公司的月销售额(万元);y为某分公司的月销售额(万元)。 (1)用普通最小二乘法建立x和y的回归方程。 (2)用残差图及DW检验诊断序列的自相关性。 (3)用迭代法处理序列相关,并建立回归方程。 (4)用一阶差分法处理数据,并建立回归方程。 (5)比较以上各方法所建回归方程的优良性。 序号x y 序号x y 1 127.3 20.96 11 148.3 24.54 2 130.0 21.40 12 146.4 24.28 3 132.7 21.96 13 150.2 25.00 4 129.4 21.52 14 153.1 25.64 5 135.0 22.39 15 157.3 26.46 6 137.1 22.76 16 160. 7 26.98 7 141.1 23.48 17 164.2 27.52 8 142.8 23.66 18 165.6 27.78 9 145.5 24.10 19 168.7 28.24 10 145.3 24.01 20 172.0 28.78 (1)aa_size=size(aa,1) >> x=[ones(aa_size,1),aa(:,1)]; >> y=aa(:,2); >> b_est=inv(x'*x)*x'*y; b_est b_est = -1.4348 0.1762 (2) y_est=x*b_est; >> b1=y-y_est; >> plot(b1,'ro') p01=sum(b1(1:(aa_size-1)).*b1(2:(aa_size))); >> p02=sqrt(sum(b1(1:(aa_size-1)).^2)*sum(b1(2:aa_size).^2)); >> p=p01/p02 DW=2*(1-p) DW = 0.6793

多因素分析 案例

多因素分析案例 案例1 某医生为研究乳腺癌彩超血流显像的相关因素,检测了121例乳腺癌患者,其中血流丰富者68个,中等血流者48个,无血流者5个。选择患者的年龄、乳腺癌的大小、组织学分类、导管内癌和浸润性导管癌组织学分级及雌激素受体,孕酮受体等因素,进行了多因素logistic回归分析。结果显示,对血流程度有影响的因子,其作用从大到小依次为:肿块大小(OR=5.931),肿块分好程度(低分化OR=4.318,中分化OR=1.681),患者年龄(OR=0.949)。其余因素对血流程度无影响。 问题: 本案例中的涉及到了哪些变量?分别属于什么类型?因变量自变量分别是什么? 本案例可否用直线相关或者回归分析?为什么? 在进行多因素logistic回归前,是否应该先进行单因素分析?如何分析? 单因素logistic回归分析与多因素logistic回归分析有何区别?能否直接做多因素logistic回归分析? 得到logistic回归分析结果后,如何解释?如何应用这个结果? 案例2 某研究者观察了确诊后采取同样方案进行化疗的26例急性混合型白血病患者,欲了解某种不良染色体是否会影响患者病情的缓解,于是将治疗后120天内症状是否缓解作为结果变量y(缓解=0,未缓解=1),有无不良染色体chr(有=1,无)作为研究因素,数据收集后(详细数据见表19-5)进行一系列统计分析,请结合以下问题,对分析结果进行恰当的评价。

表19-5 急性混合型白血病患者化疗后观察数据 age bl cd chr sex t y age bl cd chr sex t y 28 0 0 1 0 3 0 48 1 0 1 1 15 0 33 1 1 1 1 120 1 48 1 0 1 0 120 1 35 0 0 1 0 7 0 48 1 0 1 0 120 1 39 0 0 1 0 5 0 49 1 0 0 0 120 1 40 0 0 1 0 16 0 54 1 1 0 0 120 0 42 0 0 1 0 2 0 55 0 1 0 1 12 0 42 1 1 0 1 120 1 57 1 1 0 1 116 0 43 0 1 1 1 120 1 60 1 1 0 1 109 0 44 0 0 1 0 4 0 61 0 1 1 0 40 0 44 0 0 1 0 19 0 62 0 0 1 0 16 0 44 0 1 1 0 120 1 62 0 1 1 0 118 0 45 1 0 0 0 108 0 63 1 1 0 0 120 1 47 0 0 1 0 18 0 74 0 0 1 0 7 0 (1)按照有无不良染色体分组比较缓解率,考虑到例数较小,采用Fisher精确概率法,得到P值为0.667,此时的结论如何? (2)考虑到有无不良染色体并非研究人员可以随机分配的处理,所以比较组之间其它影响患乾缓解的因素不一定均衡,因而需要考虑平衡其他可能的影响因素的作用。于是该研究者进一步查阅了相关文献,追加记录了患者的年龄age(岁)、骨髓原幼细胞数分组bl (大于等于50%=1,小于50%=0)、CD34表达式cd(阳性=1,阴性=0)、性别sex(男=1,女=0)这几个变量(数据见表19-5),采用多因素logistic模型分析,经逐步法近α=0.10水准得到表19-6中的结果。此时的结论又如何? 表19-6 急性混合型白血病患者化疗后观察数据的逐步logistic回归分析结果 回归系数标准误X2 自由度P值RR Bl 常数项-1.872 0.760 6.073 1 0.014 0.154 综合上述分析过程,你对此项研究的设计、资料收集及统计分析方法的选择有何评论? 案例3 某研究者为探讨帕金森病(PD)与吸烟的关系,采用以人群为基础的病例-对照研究,调查某市PD病例共114例,以及对照205例(性别、民族及居住于与病例相匹配)。采用非条件logistic回归分析,结果见表18-12。请根据所提供信息,分析该研究中存在的主要统计学缺陷。

上海房价影响因素的多元线性回归分析

上海房价影响因素的多元线性回归分析 1:研究目的和意义 我国房地产市场从20世纪90年代开始建立到如今已经颇具规模,对我国的经济增长产生了很大的影响,甚至成为了国民经济的支柱型产业。但是近年来,房价的飞速发展又不得不引起我们的重视,在促进经济增长的同时,带来的一系列结构性问题将对房地产行业的健康发展甚至国民经济的可持续发展带来影响。因此研究商品房价格的影响因素,有助于科学的把握房地产市场的发展规律,对整个国民经济都具有很大的意义。 2:研究内容和方法 本文主要以上海为中国房地产市场的代表城市进行分析,通过对1999年至2007年的相关经济数据整理建立起多元线性回归模型。 从理论上来讲,房价的波动主要受宏观经济影响,包括地区生产总值,城镇人均可支配收入,建设成本,城市人口密度,货币政策,土地价格以及房地产开发投资额等指标。这里主要选取商品房平均售价作为因变量,城镇人均可支配收入,城市人口密度,以及房地产开发投资额作为自变量来进行分析,通过多元回归方法来了解商品房价格的影响因素 3:多元回归模型的建立及数据分析 3.1:多元线性回归模型的建立

数据来源:上海统计年鉴 国研网整理 设定三个自变量指标分别为:城镇人均可支配收入1x ,城市人口密度2x ,房地产开发投资额3x ,商品房平均售价y 作为因变量,并建立如下的多元线性回归模型: 其中0β,1β,2β,3β分别为未知参数, ε为剩余残差,与三个自变量无关。服从N(0, 2σ). 3.2:回归模型的检验 (一)模型拟合度检验 见下表二分析结果: 表二:模型拟合度检验 由上表可以看出,其R 值和R Square 值都很接近于1,所以其模型拟合度较好。 (二)方差分析显著性F 检验 见下表三方差分析表: 表三:方差分析表 由上表可以看到F 值为72.325,SIG 值为0.000,显然小于0.05,说明因变量分别与自变量存在真实的线性关系,显著性检验通过。 (三)变量显著性t 检验 见下表三相关系数表: 表四:Coefficients 表 由表知,只有城镇人均可支配收入的SIG 值小于0.05,但是其VIF 值却大于10,另外发现城市人口密度以及房地产开发投资额和商品房均价呈负相关,显然在经济实际上不合理。综合判断,自变量间存在多重共线性。通过相关性检验观察变量间的的相关系数均很接近于1(见下表五),说明确实存在较强的共线性。 表五:变量间的相关系数 3.3:多重共线性问题的解决以及回归模型修正 多重共线性的解决一般可以从数据处理和统计方法这两方面入手。 数据处理方面可以通过增加样本量来解决,但是由于房地产市场从90年代末才逐步发展,相关统计数据有限。所以我们通过采用逐步回归(stepwise )统计方法来对回归进行修正。 通过逐步回归后发现,只有城镇人均可支配收入与商品房销售均价表现了良好的正相关性,并且通过了相关的检验。分别如下表所示:综合SIG 值,F 值,VIF 值都符合检验通过的标准。 表六 方差分析 表七 t 检验 但是从经济意义上来看,房价与房地产开发投资额应该会呈一定的正相关关系,只是由于样本数据太少,或者相关政策的不稳定性导致其检验不显著。而城市人口密度的不显著反而可以理解。因为上海随着其的经济发展,确实会吸引很多外

利用MATLAB进行回归分析及应用

利用MATLAB进行回归分析 一、实验目的: 1.了解回归分析的基本原理,掌握MATLAB实现的方法; 2. 练习用回归分析解决实际问题。 二、实验内容: 题目1 社会学家认为犯罪与收入低、失业及人口规模有关,对20个城市的犯罪率y(每10万人中犯罪的人数)与年收入低于5000美元家庭的百分比1x、失业率2x和人口总数3x(千人)进行了调查,结果如下表。 (1)若1x~3x中至多只许选择2个变量,最好的模型是什么? (2)包含3个自变量的模型比上面的模型好吗?确定最终模型。 (3)对最终模型观察残差,有无异常点,若有,剔除后如何。 理论分析与程序设计: 为了能够有一个较直观的认识,我们可以先分别作出犯罪率y与年收入低于5000美元家庭的百分比1x、失业率2x和人口总数 x(千人)之间关系的散点图,根据大致分布粗略估计各因素造 3 成的影响大小,再通过逐步回归法确定应该选择哪几个自变量作为模型。

编写程序如下: clc; clear all; y=[11.2 13.4 40.7 5.3 24.8 12.7 20.9 35.7 8.7 9.6 14.5 26.9 15.7 36.2 18.1 28.9 14.9 25.8 21.7 25.7]; %犯罪率(人/十万人) x1=[16.5 20.5 26.3 16.5 19.2 16.5 20.2 21.3 17.2 14.3 18.1 23.1 19.1 24.7 18.6 24.9 17.9 22.4 20.2 16.9]; %低收入家庭百分比 x2=[6.2 6.4 9.3 5.3 7.3 5.9 6.4 7.6 4.9 6.4 6.0 7.4 5.8 8.6 6.5 8.3 6.7 8.6 8.4 6.7]; %失业率 x3=[587 643 635 692 1248 643 1964 1531 713 749 7895 762 2793 741 625 854 716 921 595 3353]; %总人口数(千人) figure(1),plot(x1,y,'*'); figure(2),plot(x2,y,'*'); figure(3),plot(x3,y,'*'); X1=[x1',x2',x3']; stepwise(X1,y) 运行结果与结论:

Matlab实现多元回归实例

Matlab 实现多元回归实例 (一)一般多元回归 一般在生产实践和科学研究中,人们得到了参数(),,n x x x =???1和因变量y 的数据,需要求出关系式()y f x =,这时就可以用到回归分析的方法。如果只考虑 f 是线性函数的情形,当自变量只有一个时,即,(),,n x x x =???1中n =1时,称 为一元线性回归,当自变量有多个时,即,(),,n x x x =???1中n ≥2时,称为多元线性回归。 进行线性回归时,有4个基本假定: ① 因变量与自变量之间存在线性关系; ② 残差是独立的; ③ 残差满足方差奇性; ④ 残差满足正态分布。 在Matlab 软件包中有一个做一般多元回归分析的命令regeress ,调用格式如下: [b, bint, r, rint, stats] = regress(y,X,alpha) 或者 [b, bint, r, rint, stats] = regress(y,X) 此时,默认alpha = 0.05. 这里,y 是一个1n ?的列向量,X 是一个()1n m ?+的矩阵,其中第一列是全1向量(这一点对于回归来说很重要,这一个全1列向量对应回归方程的常数项),一般情况下,需要人工造一个全1列向量。回归方程具有如下形式: 011m m y x x λλλε=++???++ 其中,ε是残差。 在返回项[b,bint,r,rint,stats]中, ①01m b λλλ=???是回归方程的系数; ②int b 是一个2m ?矩阵,它的第i 行表示i λ的(1-alpha)置信区间; ③r 是1n ?的残差列向量; ④int r 是2n ?矩阵,它的第i 行表示第i 个残差i r 的(1-alpha)置信区间; 注释:残差与残差区间杠杆图,最好在0点线附近比较均匀的分布,而不呈现一定的规律性,如果是这样,就说明回归分析做得比较理想。 ⑤ 一般的,stast 返回4个值:2R 值、F_检验值、阈值f ,与显著性概率相关的p 值(如果这个p 值不存在,则,只输出前3项)。注释:

第十七章多因素回归分析简介

第十七章多因素回归分析的Stata实现 例17-4 某研究者为了研究某种避孕药对人体血糖的影响,分别在正在使用这种避孕药的人群、6个月前曾经使用过这种避孕药的人群、从未使用过避孕药的人群中各随机抽取6人。考虑到血糖可能与年龄有关,所以该研究者不仅测定了这18位对象的血糖,而且也记录了这18位对象的年龄,具体资料见表17-4。请根据研究问题作统计分析。 表17-4 三种避孕药使用情况下的年龄(X,岁)与血糖水平(Y,mg%) 现服药者曾服药者从未服药者 X Y X Y X Y 20 120 24 126 28 135 21 122 26 130 32 137 23 124 27 132 34 138 23 126 29 131 35 137 24 125 29 134 35 139 24 127 30 136 37 144 本研究的问题是比较三种用药情况下的血糖平均水平是否不同,因此首先考虑以下总体均数的情况。 解:Stata数据如下:

Stata命令如下: reg y x g1 g2 结果: g1代表曾服药者和未服药者的比较,p=0.773,说明曾服药者和未服药者血糖平均水平没有差别。g2代表现服药者和未服药者的比较,p=0.260,说明现服药者和未服药者血糖平均水平没有差别。 接着比较曾服药者和现服药者: test g1= g2 结果: P=0.1252,曾服药者和现服药者血糖平均水平没有差别。

例17-5为了研究影响肥胖者瘦素(Leptin)的主要危险因素,某研究者调查了某医院肥胖门诊的500名肥胖就诊者的瘦素、年龄、体重指数、总胆固醇、甘油三酯、是否患糖尿病、是否患高血压、饮食、运动、服药情况等,并用逐步线性回归模型分析影响瘦素的主要因素。为了简化问题,仅取自变量为年龄(X1,岁)、体重指数(X2,kg/m2)、总胆固醇(X3,mmol/L)、是否患糖尿病(X4,患糖尿病为1,不患糖尿病为0)和是否患高血压(X5,患高血压为1,不患高血压为0),应变量为瘦素(Y,ng/ml)。为了说明的方便,这里仅从500名肥胖就诊者中随机取30例,具体数据如表17-11所示,试用逐步线性回归分析寻找主要的影响因素。 表17-11 例17-5的数据 Stata数据如下: X1X2X3X4X5Y 63 31 14.1 0 0 10.4 43 27.7 8.5 1 0 6.5 51 27.6 11.8 1 1 9.3 57 30.7 12.9 1 0 11.1 49 27.9 8.8 0 0 7.1 38 29.5 6.2 0 1 6.7 57 28.5 11.6 0 1 8.6 34 26.8 5.3 0 0 3 44 29.3 9 0 0 6.9 62 29.5 14.7 1 0 11.4

相关文档
最新文档