Matlab实现多元回归实例
Matlab 多元线性回归

/输出结果如图所示:/
因 此 我 们 可 得 bˆ0 = −16.0730, , bˆ1 = 0.7194.
bˆ0 的置信区间 ( − 33.7071, 1.5612) ,
bˆ1 的置信区间 (0.6047, 0.834). r2 = 0.9282, F = 180.9531, p = 0.0000.
多元线性回归模型的一般形式为:
Yi =β0 +β1X1i +β2X2i + +βk Xki +μi , i=1,2, ,n
(1)
其中 k 为解释变量的数目, β j ( j = 1,2, ,k) 称为回归系数(regression coefficient)。上
式也被称为总体回归函数的随机表达式。它的非随机表达式为:
Matlab 多元线性回归
1、 多元线性回归
在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。事实上,一种现象 常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一 个自变量进行预测或估计更有效,更符合实际。
在实际经济问题中,一个变量往往受到多个变量的影响。例如,家庭消费支出,除了受 家庭可支配收入的影响外,还受诸如家庭所有的财富、物价水平、金融机构存款利息等多种 因素的影响,表现在线性回归模型中的解释变量有多个。这样的模型被称为多元线性回归模 型。(multivariable linear regression model )
在 Matlab 图示所示:
/输出结果如图所示:/
bˆ0 = 62.4054, bˆ0 的置信区间 ( − 99.1786, 223.9893) , bˆ1 = 1.5511, bˆ1 的置信区间 (−0.1663, 3.2685) , 因此我们可得 bˆ2 = 0.5102, , bˆ2 的置信区间 (−1.1589, 2.1792) , bˆ3 = 0.1019, bˆ3 的置信区间 (−1.6385, 1.8423) , bˆ4 = −1441. bˆ4 的置信区间 (−1.7791, 1.4910). r2 = 0.9824, F = 111.4792, p = 0.0000. p < 0.05,回归模型 y = −62.4054 +1.5511x1 + 0.5102x2 +0.1019x3 -0.1441x4成立.
Matlab实现多元的回归实例

Matlab 实现多元回归实例(一)一般多元回归一般在生产实践和科学研究中,人们得到了参数(),,n x x x =⋅⋅⋅1和因变量y 的数据,需要求出关系式()y f x =,这时就可以用到回归分析的方法。
如果只考虑f 是线性函数的情形,当自变量只有一个时,即,(),,n x x x =⋅⋅⋅1中n =1时,称为一元线性回归,当自变量有多个时,即,(),,n x x x =⋅⋅⋅1中n ≥2时,称为多元线性回归。
进行线性回归时,有4个基本假定: ① 因变量与自变量之间存在线性关系; ② 残差是独立的; ③ 残差满足方差奇性; ④ 残差满足正态分布。
在Matlab 软件包中有一个做一般多元回归分析的命令regeress ,调用格式如下:[b, bint, r, rint, stats] = regress(y,X,alpha) 或者[b, bint, r, rint, stats] = regress(y,X) 此时,默认alpha = 0.05. 这里,y 是一个1n ⨯的列向量,X 是一个()1n m ⨯+的矩阵,其中第一列是全1向量(这一点对于回归来说很重要,这一个全1列向量对应回归方程的常数项),一般情况下,需要人工造一个全1列向量。
回归方程具有如下形式:011m m y x x λλλε=++⋅⋅⋅++其中,ε是残差。
在返回项[b,bint,r,rint,stats]中, ①01m b λλλ=⋅⋅⋅是回归方程的系数;②int b 是一个2m ⨯矩阵,它的第i 行表示i λ的(1-alpha)置信区间; ③r 是1n ⨯的残差列向量;④int r 是2n ⨯矩阵,它的第i 行表示第i 个残差i r 的(1-alpha)置信区间; 注释:残差与残差区间杠杆图,最好在0点线附近比较均匀的分布,而不呈现一定的规律性,如果是这样,就说明回归分析做得比较理想。
⑤ 一般的,stast 返回4个值:2R 值、F_检验值、阈值f ,与显著性概率相关的p 值(如果这个p 值不存在,则,只输出前3项)。
matlab建立多元线性回归模型并进行显著性检验及预测问题

matlab建立多元线性回归模型并进行显著性检验及预测问题例子;x=[143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164]';X=[ones(16,1) x]; 增加一个常数项 Y=[88 85 88 91 92 93 93 95 96 98 97 9698 99 100 102]'; [b,bint,r,rint,stats]=regress(Y,X) 得结果:b = bint = stats = 即对应于b的置信区间分别为[,]、[,]; r2=, F=, p= p<, 可知回归模型 y=+ 成立. 这个是一元的,如果是多元就增加X的行数!function [beta_hat,Y_hat,stats]=regress(X,Y,alpha)% 多元线性回归(Y=Xβ+ε)MATLAB代码%% 参数说明% X:自变量矩阵,列为自变量,行为观测值% Y:应变量矩阵,同X% alpha:置信度,[0 1]之间的任意数据% beta_hat:回归系数% Y_beata:回归目标值,使用Y-Y_hat来观测回归效果% stats:结构体,具有如下字段% =[fV,fH],F检验相关参数,检验线性回归方程是否显著% fV:F分布值,越大越好,线性回归方程越显著% fH:0或1,0不显著;1显著(好)% =[tH,tV,tW],T检验相关参数和区间估计,检验回归系数β是否与Y有显著线性关系% tV:T分布值,beta_hat(i)绝对值越大,表示Xi对Y显著的线性作用% tH:0或1,0不显著;1显著% tW:区间估计拒绝域,如果beta(i)在对应拒绝区间内,那么否认Xi对Y显著的线性作用% =[T,U,Q,R],回归中使用的重要参数% T:总离差平方和,且满足T=Q+U% U:回归离差平方和% Q:残差平方和% R∈[0 1]:复相关系数,表征回归离差占总离差的百分比,越大越好% 举例说明% 比如要拟合 y=a+b*log(x1)+c*exp(x2)+d*x1*x2,注意一定要将原来方程线化% x1=rand(10,1)*10;% x2=rand(10,1)*10;% Y=5+8*log(x1)+*exp(x2)+*x1.*x2+rand(10,1); % 以上随即生成一组测试数据% X=[ones(10,1) log(x1) exp(x2) x1.*x2]; % 将原来的方表达式化成Y=Xβ,注意最前面的1不要丢了% [beta_hat,Y_hat,stats]=mulregress(X,Y,%% 注意事项% 有可能会出现这样的情况,总的线性回归方程式显著的=1),% 但是所有的回归系数却对Y的线性作用却不显著=0),产生这种现象的原意是% 回归变量之间具有较强的线性相关,但这种线性相关不能采用刚才使用的模型描述,% 所以需要重新选择模型%C=inv(X'*X);Y_mean=mean(Y);% 最小二乘回归分析beta_hat=C*X'*Y; % 回归系数βY_hat=X*beta_hat; % 回归预测% 离差和参数计算Q=(Y-Y_hat)'*(Y-Y_hat); % 残差平方和U=(Y_hat-Y_mean)'*(Y_hat-Y_mean); % 回归离差平方和T=(Y-Y_mean)'*(Y-Y_mean); % 总离差平方和,且满足T=Q+UR=sqrt(U/T); % 复相关系数,表征回归离差占总离差的百分比,越大越好[n,p]=size(X); % p变量个数,n样本个数% 回归显著性检验fV=(U/(p-1))/(Q/(n-p)); % 服从F分布,F的值越大越好fH=fV>finv(alpha,p-1,n-p); % H=1,线性回归方程显著(好);H=0,回归不显著% 回归系数的显著性检验chi2=sqrt(diag(C)*Q/(n-p)); % 服从χ2(n-p)分布tV=beta_hat./chi2; % 服从T分布,绝对值越大线性关系显著tInv=tinv+alpha/2,n-p);tH=abs(tV)>tInv; % H(i)=1,表示Xi对Y显著的线性作用;H(i)=0,Xi 对Y的线性作用不明显% 回归系数区间估计tW=[-chi2,chi2]*tInv; % 接受H0,也就是说如果在beta_hat(i)对应区间中,那么Xi与Y线性作用不明显stats=struct('fTest',[fH,fV],'tTest',[tH,tV,tW],'TUQR',[T,U,Q,R]) ;。
多元回归分析报告matlab

回归分析MATLAB 工具箱一、多元线性回归多元线性回归:p p x x y βββ+++=...110 1、确定回归系数的点估计值: 命令为:b=regress(Y, X ) ①b 表示⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=p b βββˆ...ˆˆ10②Y 表示⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=n Y Y Y Y (2)1③X 表示⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=np n n p p x x x x x x x x x X ...1............ (1) (12)12222111211 2、求回归系数的点估计和区间估计、并检验回归模型:命令为:[b, bint,r,rint,stats]=regress(Y,X,alpha) ①bint 表示回归系数的区间估计. ②r 表示残差.③rint 表示置信区间.④stats 表示用于检验回归模型的统计量,有三个数值:相关系数r 2、F 值、与F 对应的概率p.说明:相关系数2r 越接近1,说明回归方程越显著;)1,(1-->-k n k F F α时拒绝0H ,F 越大,说明回归方程越显著;与F 对应的概率p α<时拒绝H 0,回归模型成立.⑤alpha 表示显著性水平(缺省时为0.05) 3、画出残差及其置信区间. 命令为:rcoplot(r,rint) 例1.如下程序. 解:(1)输入数据.x=[143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164]'; X=[ones(16,1) x];Y=[88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102]'; (2)回归分析及检验.[b,bint,r,rint,stats]=regress(Y,X) b,bint,stats得结果:b = bint =-16.0730 -33.7071 1.5612 0.7194 0.6047 0.8340 stats =0.9282 180.9531 0.0000即7194.0ˆ,073.16ˆ10=-=ββ;0ˆβ的置信区间为[-33.7017,1.5612], 1ˆβ的置信区间为[0.6047,0.834]; r 2=0.9282, F=180.9531, p=0.0000,我们知道p<0.05就符合条件, 可知回归模型 y=-16.073+0.7194x 成立. (3)残差分析,作残差图. rcoplot(r,rint)从残差图可以看出,除第二个数据外,其余数据的残差离零点均较近,且残差的置信区间均包含零点,这说明回归模型 y=-16.073+0.7194x 能较好的符合原始数据,而第二个数据可视为异常点.(4)预测及作图.z=b(1)+b(2)*xplot(x,Y,'k+',x,z,'r')二、多项式回归(一)一元多项式回归.1、一元多项式回归:1121...+-++++=m m m m a x a x a x a y(1)确定多项式系数的命令:[p,S]=polyfit(x,y,m)说明:x=(x 1,x 2,…,x n ),y=(y 1,y 2,…,y n );p=(a 1,a 2,…,a m+1)是多项式y=a 1x m +a 2x m-1+…+a m x+a m+1的系数;S 是一个矩阵,用来估计预测误差. (2)一元多项式回归命令:polytool(x,y,m) 2、预测和预测误差估计.(1)Y=polyval(p,x)求polyfit 所得的回归多项式在x 处的预测值Y ;(2)[Y,DELTA]=polyconf(p,x,S,alpha)求polyfit 所得的回归多项式在x 处的预测值Y 及预测值的显著性为1-alpha 的置信区间Y ±DELTA ;alpha 缺省时为0.5.例1. 观测物体降落的距离s 与时间t 的关系,得到数据如下表,求s. (关于t 的回归方程2解法一:直接作二次多项式回归. t=1/30:1/30:14/30;s=[11.86 15.67 20.60 26.69 33.71 41.93 51.13 61.49 72.90 85.44 99.08 113.77 129.54 146.48];[p,S]=polyfit(t,s,2) 得回归模型为:1329.98896.652946.489ˆ2++=t t s解法二:化为多元线性回归. t=1/30:1/30:14/30;s=[11.86 15.67 20.60 26.69 33.71 41.93 51.13 61.49 72.90 85.44 99.08 113.77 129.54 146.48];T=[ones(14,1) t' (t.^2)'];[b,bint,r,rint,stats]=regress(s',T); b,stats得回归模型为:22946.4898896.651329.9ˆt t s++= 预测及作图:Y=polyconf(p,t,S)plot(t,s,'k+',t,Y,'r')(二)多元二项式回归多元二项式回归命令:rstool(x,y,’model ’, alpha)说明:x 表示n ⨯m 矩阵;Y 表示n 维列向量;alpha :显著性水平(缺省时为0.05);model 表示由下列4个模型中选择1个(用字符串输入,缺省时为线性模型):linear(线性):m m x x y βββ+++= 110purequadratic(纯二次):∑=++++=nj j jjm m x x x y 12110ββββinteraction(交叉):∑≤≠≤++++=mk j k j jkm m x x x x y 1110ββββquadratic(完全二次):∑≤≤++++=mk j k j jkm m x x x x y ,1110ββββ例1. 设某商品的需求量与消费者的平均收入、商品价格的统计数据如下,建立回归模型,预测平均收入为1000、价格为6时的商品需求量. 需求量 10075 80 70 50 65 90 100 110 60收入 1000 600 1200500 300 400 1300 1100 1300 300 价格 5 7 6 6 8 7 5 4 3 9解法一:选择纯二次模型,即2222211122110x x x x y βββββ++++=.直接用多元二项式回归:x1=[1000 600 1200 500 300 400 1300 1100 1300 300]; x2=[5 7 6 6 8 7 5 4 3 9];y=[100 75 80 70 50 65 90 100 110 60]'; x=[x1' x2'];rstool(x,y,'purequadratic')在左边图形下方的方框中输入1000,右边图形下方的方框中输入6,则画面左边的“Predicted Y ”下方的数据变为88.47981,即预测出平均收入为1000、价格为6时的商品需求量为88.4791.在画面左下方的下拉式菜单中选”all ”, 则beta 、rmse 和residuals 都传送到Matlab 工作区中.在Matlab 工作区中输入命令:beta, rmse 得结果:beta =110.5313 0.1464 -26.5709 -0.0001 1.8475 rmse =4.5362故回归模型为:2221218475.10001.05709.261464.05313.110x x x x y +--+=剩余标准差为4.5362, 说明此回归模型的显著性较好.解法二:将2222211122110x x x x y βββββ++++=化为多元线性回归:X=[ones(10,1) x1' x2' (x1.^2)' (x2.^2)'];[b,bint,r,rint,stats]=regress(y,X); b,stats结果为: b =110.5313 0.1464 -26.5709 -0.00011.8475 stats =0.9702 40.6656 0.0005三、非线性回归 1、非线性回归:(1)确定回归系数的命令:[beta,r,J]=nlinfit(x,y,’model ’, beta0)说明:beta 表示估计出的回归系数;r 表示残差;J 表示Jacobian 矩阵;x,y 表示输入数据x 、y 分别为矩阵和n 维列向量,对一元非线性回归,x 为n 维列向量;model 表示是事先用m-文件定义的非线性函数;beta0表示回归系数的初值.(2)非线性回归命令:nlintool(x,y,’model ’, beta0,alpha) 2、预测和预测误差估计:[Y,DELTA]=nlpredci(’model ’, x,beta,r,J)表示nlinfit 或nlintool 所得的回归函数在x 处的预测值Y 及预测值的显著性为1-alpha 的置信区间Y ±DELTA. 例1. 如下程序.解:(1)对将要拟合的非线性模型y=a x b e /,建立m-文件volum.m 如下:function yhat=volum(beta,x) yhat=beta(1)*exp(beta(2)./x); (2)输入数据: x=2:16;y=[6.42 8.20 9.58 9.5 9.7 10 9.93 9.99 10.49 10.59 10.60 10.80 10.60 10.90 10.76];beta0=[8 2]'; (3)求回归系数:[beta,r ,J]=nlinfit(x',y','volum',beta0); beta (4)运行结果:beta =11.6036 -1.0641 即得回归模型为:xey 10641.16036.11-=(5)预测及作图:[YY,delta]=nlpredci('volum',x',beta,r ,J); plot(x,y,'k+',x,YY,'r')四、逐步回归1、逐步回归的命令:stepwise(x,y,inmodel,alpha)说明:x 表示自变量数据,m n ⨯阶矩阵;y 表示因变量数据,1⨯n 阶矩阵;inmodel 表示矩阵的列数的指标,给出初始模型中包括的子集(缺省时设定为全部自变量);alpha 表示显著性水平(缺省时为0.5).2、运行stepwise 命令时产生三个图形窗口:Stepwise Plot,Stepwise Table,StepwiseHistory.在Stepwise Plot窗口,显示出各项的回归系数及其置信区间.(1)Stepwise Table窗口中列出了一个统计表,包括回归系数及其置信区间,以及模型的统计量剩余标准差(RMSE)、相关系数(R-square)、F值、与F对应的概率P.例1. 水泥凝固时放出的热量y与水泥中4种化学成分x1、x2、x3、 x4有关,今测得一组数据如下,试用逐步回归法确定一个线性模型.解:(1)数据输入:x1=[7 1 11 11 7 11 3 1 2 21 1 11 10]';x2=[26 29 56 31 52 55 71 31 54 47 40 66 68]';x3=[6 15 8 8 6 9 17 22 18 4 23 9 8]';x4=[60 52 20 47 33 22 6 44 22 26 34 12 12]';y=[78.5 74.3 104.3 87.6 95.9 109.2 102.7 72.5 93.1 115.9 83.8 113.3 109.4]';x=[x1 x2 x3 x4];(2)逐步回归.①先在初始模型中取全部自变量:stepwise(x,y)得图Stepwise Plot 和表Stepwise Table.图Stepwise Plot中四条直线都是虚线,说明模型的显著性不好.从表Stepwise Table中看出变量x3和x4的显著性最差.②在图Stepwise Plot中点击直线3和直线4,移去变量x3和x4.移去变量x3和x4后模型具有显著性虽然剩余标准差(RMSE)没有太大的变化,但是统计量F的值明显增大,因此新的回归模型更好.(3)对变量y和x1、x2作线性回归.X=[ones(13,1) x1 x2];b=regress(y,X)得结果:b =52.57731.46830.6623故最终模型为:y=52.5773+1.4683x1+0.6623x2或这种方法4元二次线性回归clc;clear;y=[1.84099 9.67 23.00 38.12 1.848794 6.22 12.22 19.72 1.848794 5.19 10.09 15.31 ];X1=[60.36558 59.5376 58.89861 58.74706 60.59389 60.36558 59.2 58.2 60.36558 59.97068 59.41918 58. X2=[26.1636 26.35804 26.82438 26.91521 25.90346 25.9636 27.19256 27.42153 26.1636 26.07212 26.5872 X3=[0.991227 0.994944 0.981322 0.98374 1.011865 0.991227 1.074772 1.107678 0.991227 0.917904 1.06043 X4=[59.37436 58.54265 57.91729 57.69332 59.58203 59.37436 57.76722 57.42355 59.37436 59.05278 58.3587format short gY=y'X11=[ones(1,length(y));X1;X2;X3;X4]'B1=regress(Y,X11)% 多元一次线性回归[m,n]=size(X11)X22=[];for i=2:nfor j=2:nif i<=jX22=([X22,X11(:,i).*X11(:,j)]);elsecontinueendendendX=[X11,X22];B2=regress(Y,X)% 多元二次线性回归[Y X*B2 Y-X*B2]plot(Y,X11*B1,'o',Y,X*B2,'*')hold on,line([min(y),max(y)],[min(y),max(y)]) axis([min(y) max(y) min(y) max(y)])legend('一次线性回归','二次线性回归')xlabel('实际值');ylabel('计算值')运行结果:Y =1.8419.672338.121.84886.2212.2219.721.84885.1910.0915.31X11 =1 60.366 26.164 0.99123 59.3741 59.538 26.358 0.99494 58.5431 58.899 26.824 0.98132 57.9171 58.747 26.915 0.98374 57.6931 60.594 25.903 1.0119 59.5821 60.366 25.964 0.99123 59.3741 59.2 27.193 1.0748 57.7671 58.2 27.422 1.1077 57.4241 60.366 26.164 0.99123 59.3741 59.971 26.072 0.9179 59.0531 59.419 26.587 1.0604 58.3591 58.891 27.061 1.1239 57.767B1 =1488.9-4.3582-9.6345-61.514-15.359m =12n =5B2 =3120.4-7129.2-622.23-362.71-105.061388.1120.25199.25379.58170.48-796.41ans =1.841 1.8449 -0.0039029.67 9.67 1.0058e-00923 23 1.397e-00938.12 38.12 3.539e-0101.8488 1.8488 1.6394e-0096.22 6.227.2643e-01012.22 12.22 2.6077e-01019.72 19.72 -2.0489e-0101.8488 1.8449 0.0039025.19 5.19 1.4529e-00910.09 10.09 1.0803e-00915.31 15.31 4.0978e-010由图形可以看出,多元二次线性回归效果非常好,即,相当于Y=3120.4*X1 -7129.2 *X2 + 0*X3+ 0*X4 -622.23*X1*X1 -362.71*X1*X2 -105.06*X1*X3 + 1388.1*X1*X4 +120.25*X2*X2+ 199.25 *X2*X3+ 379.58*X2*X4 + 170.48*X3*X3+ 0*X3*X4 -796.4。
matlab建立多元线性回归模型并进行显著性检验及预测问题

matlab建立多元线性回归模型并进行显着性检验及预测问题例子;x=[143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164]';X=[ones(16,1) x]; 增加一个常数项Y=[88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102]'; [b,bint,r,rint,stats]=regress(Y,X) 得结果:b = bint = stats = 即对应于b的置信区间分别为[,]、[,]; r2=, F=, p= p<, 可知回归模型y=+ 成立. 这个是一元的,如果是多元就增加X的行数!function [beta_hat,Y_hat,stats]=regress(X,Y,alpha)% 多元线性回归(Y=Xβ+ε)MATLAB代码%?% 参数说明% X:自变量矩阵,列为自变量,行为观测值% Y:应变量矩阵,同X% alpha:置信度,[0 1]之间的任意数据% beta_hat:回归系数% Y_beata:回归目标值,使用Y-Y_hat来观测回归效果% stats:结构体,具有如下字段% =[fV,fH],F检验相关参数,检验线性回归方程是否显着% fV:F分布值,越大越好,线性回归方程越显着% fH:0或1,0不显着;1显着(好)% =[tH,tV,tW],T检验相关参数和区间估计,检验回归系数β是否与Y有显着线性关系% tV:T分布值,beta_hat(i)绝对值越大,表示Xi对Y显着的线性作用% tH:0或1,0不显着;1显着% tW:区间估计拒绝域,如果beta(i)在对应拒绝区间内,那么否认Xi对Y显着的线性作用% =[T,U,Q,R],回归中使用的重要参数% T:总离差平方和,且满足T=Q+U% U:回归离差平方和% Q:残差平方和% R∈[0 1]:复相关系数,表征回归离差占总离差的百分比,越大越好% 举例说明% 比如要拟合y=a+b*log(x1)+c*exp(x2)+d*x1*x2,注意一定要将原来方程线化% x1=rand(10,1)*10;% x2=rand(10,1)*10;% Y=5+8*log(x1)+*exp(x2)+*x1.*x2+rand(10,1); % 以上随即生成一组测试数据% X=[ones(10,1) log(x1) exp(x2) x1.*x2]; % 将原来的方表达式化成Y=Xβ,注意最前面的1不要丢了% [beta_hat,Y_hat,stats]=mulregress(X,Y,%% 注意事项% 有可能会出现这样的情况,总的线性回归方程式显着的=1),% 但是所有的回归系数却对Y的线性作用却不显着=0),产生这种现象的原意是% 回归变量之间具有较强的线性相关,但这种线性相关不能采用刚才使用的模型描述,% 所以需要重新选择模型%C=inv(X'*X);Y_mean=mean(Y);% 最小二乘回归分析beta_hat=C*X'*Y; % 回归系数βY_hat=X*beta_hat; % 回归预测% 离差和参数计算Q=(Y-Y_hat)'*(Y-Y_hat); % 残差平方和U=(Y_hat-Y_mean)'*(Y_hat-Y_mean); % 回归离差平方和T=(Y-Y_mean)'*(Y-Y_mean); % 总离差平方和,且满足T=Q+UR=sqrt(U/T); % 复相关系数,表征回归离差占总离差的百分比,越大越好[n,p]=size(X); % p变量个数,n样本个数% 回归显着性检验fV=(U/(p-1))/(Q/(n-p)); % 服从F分布,F的值越大越好fH=fV>finv(alpha,p-1,n-p); % H=1,线性回归方程显着(好);H=0,回归不显着% 回归系数的显着性检验chi2=sqrt(diag(C)*Q/(n-p)); % 服从χ2(n-p)分布tV=beta_hat./chi2; % 服从T分布,绝对值越大线性关系显着tInv=tinv+alpha/2,n-p);tH=abs(tV)>tInv; % H(i)=1,表示Xi对Y显着的线性作用;H(i)=0,Xi对Y的线性作用不明显% 回归系数区间估计tW=[-chi2,chi2]*tInv; % 接受H0,也就是说如果在beta_hat(i)对应区间中,那么Xi与Y线性作用不明显stats=struct('fTest',[fH,fV],'tTest',[tH,tV,tW],'TUQR',[T,U,Q,R]);。
matlab多元回归方程系数求解

matlab多元回归方程系数求解英文回答:To solve a multiple regression equation in MATLAB, you can use the "regress" function. This function takes in two arguments: the dependent variable and the independent variables. The dependent variable should be a column vector, and the independent variables should be a matrix where each column represents a different independent variable.Here's an example to illustrate how to use the "regress" function in MATLAB:matlab.% Create a sample dataset.x1 = [1; 2; 3; 4; 5];x2 = [2; 4; 6; 8; 10];y = [5; 10; 15; 20; 25];% Create a matrix of independent variables.X = [ones(size(x1)), x1, x2];% Solve the multiple regression equation.[b, bint, r, rint, stats] = regress(y, X);In this example, we have two independent variables (x1 and x2) and one dependent variable (y). We create a matrix X that includes a column of ones (for the intercept term) and the two independent variables. Then, we use the "regress" function to solve the multiple regression equation.The function returns several outputs. The "b" variable contains the estimated coefficients of the regression equation. In this case, b will be a column vector with three elements, representing the intercept term and thecoefficients for x1 and x2. The "bint" variable containsthe confidence intervals for the coefficients. The "r" variable contains the residuals (the differences betweenthe observed and predicted values), and the "rint" variable contains the confidence intervals for the residuals. Finally, the "stats" variable contains additionalstatistics, such as the R-squared value and the F-statistic.中文回答:要在MATLAB中求解多元回归方程,可以使用"regress"函数。
regress()函数

一、回归分析1.多元线性回归在Matlab统计工具箱中使用命令regress()实现多元线性回归,调用格式为b=regress(y,x)[b,bint,r,rint,stats]= regess(y,x,alpha)其中因变量数据向量y和自变量数据矩阵x按以下排列方式输入对一元线性回归,取k=1即可。
alpha为显著性水平(缺省时设定为0.05),输出向量b,bint为回归系数估计值和它们的置信区间,r,rint为残差及其置信区间,stats是用于检验回归模型的统计量,有三个数值,第一个是R2,其中R是相关系数,第二个是F统计量值,第三个是与统计量F对应的概率P,当P<α时拒绝H0,回归模型成立。
画出残差及其置信区间,用命令rcoplot(r,rint)实例1:已知某湖八年来湖水中COD浓度实测值(y)与影响因素湖区工业产值(x1)、总人口数(x2)、捕鱼量(x3)、降水量(x4)资料,建立污染物y的水质分析模型。
(1)输入数据x1=[1.376, 1.375, 1.387, 1.401, 1.412, 1.428, 1.445, 1.477]x2=[0.450, 0.475, 0.485, 0.500, 0.535, 0.545, 0.550, 0.575]x3=[2.170 ,2.554, 2.676, 2.713, 2.823, 3.088, 3.122, 3.262]x4=[0.8922, 1.1610 ,0.5346, 0.9589, 1.0239, 1.0499, 1.1065, 1.1387]y=[5.19, 5.30, 5.60,5.82,6.00, 6.06,6.45,6.95](2)保存数据(以数据文件.mat形式保存,便于以后调用)save data x1 x2 x3 x4 yload data (取出数据)(3)执行回归命令x =[ones(8,1),];[b,bint,r,rint,stats] = regress得结果:b = (-16.5283,15.7206,2.0327,-0.2106,-0.1991)’stats = (0.9908,80.9530,0.0022)即y= -16.5283 + 15.7206xl + 2.0327x2 - 0.2106x3 + 0.1991x4R2 = 0.9908,F = 80.9530,P = 0.00222.非线性回归非线性回归可由命令nlinfit来实现,调用格式为[beta,r,j] = nlinfit(x,y,'model’,beta0)其中,输人数据x,y分别为n×m矩阵和n维列向量,对一元非线性回归,x为n维列向量model是事先用m-文件定义的非线性函数,beta0是回归系数的初值,beta是估计出的回归系数,r是残差,j是Jacobian矩阵,它们是估计预测误差需要的数据。
matlab实现多元逐步回归算法

自己编写的多元逐步回归分析算法matlab程序,在matlab工具箱中已经提供了一个可视化的图形界面分析窗口,但是一些具体的参数还不能直接得到,这里自己编写了一个小程序,希望对需要的能够提供一定的帮助。
共两个文件:dyzbhg.m和xiaoqu.m第一个函数dyzbhg.mfunction dyzbhg(xy)%多元逐步回归分析%作者:唐世星%2006.11.20%xy为待输入的原始数据,按照先x后y按列排列的数组%如:x1 x2 x3 x4 y等等%clc;%clear all;%计算离差阵R(m,m)[n,m]=size(xy);%F1=0;F2=0;%disp('均值为:')xy_aver=mean(xy)%求均值for i=1:mfor j=1:iR(i,j)=0;for k=1:nR(i,j)=R(i,j)+(xy(k,i)-xy_aver(i))*(xy(k,j)-xy_aver(j));endR(j,i)=R(i,j);endSR(i)=sqrt(R(i,i));%计算对角线元素的平方根end%disp('************ Deviation Matrix & Value of SR (离差阵R&SR) ***********') %输出离差阵R,及SR%[R SR']%计算相关系数R(m,m)for i=1:mfor j=1:iR(i,j)=R(i,j)/(SR(i)*SR(j));R(j,i)=R(i,j);endend%disp('********** Correlation Coefficient Matrix (相关系数阵R) **********')%输出相关系数阵R %Rflag=1;%是否重复进行逐步回归的标志while(flag)disp('******** Stepwise Regression Analysis Start *************')F1=input('剔除门坎值:F1=');F2=input('引入门坎值:F2=');S=0;%计算步数L=0;%引入方程的自变量个数FQ=n-1;%残差平方和的自由度disp('************** Discriminant Value of Contribution V **************')Imin(1)=0;Imax=1:m-1;%定义已引入(最小)和未引入(最大)变量的序号inn=0;outt=0;%引入和剔除的变量的顺序号while(1)% pauseVN=1E+08;%已引入方程的自变量贡献的最小值VX=0;%未引入方程的自变量贡献的最大值IN=0;%贡献最小的已引入的自变量序号IX=0;%贡献最大的未引入的自变量序号S=S+1;disp(['--------- step = ' int2str(S) '------------'])%输出步骤数for i=1:m-1if R(i,i)<1E-08continueend% disp(['VMAX=' int2str(VX) '; IMAX=' int2str(IX)]) %输出Vmax=VX;Imax=IX;V(i)=R(m,i)^2/R(i,i);%计算已引入的变量的方差贡献if V(i)>=0if V(i)>VX %寻找未引入变量方差贡献的最大值for in=1:length(Imax)if i==Imax(in)VX=V(i);IX=i;endendendendif abs(V(i))for out=1:length(Imin)if i==Imin(out)VN=abs(V(i));IN=i;endendend%disp(['方差贡献:V=' num2str(V(i)) 'VX=' num2str(VX) 'IX=' int2str(IX) 'VN=' num2str(VN) 'IN=' int2 str(IN)])end% Imax(inn+1)=IX;inn=inn+1;t=find(Imax==IX);Imax(t)=[];disp(['******** 方差贡献V **********' num2str(V)])disp(['VMAX=' num2str(VX) '; IMAX=' int2str(IX)]) %输出Vmax=VX;Imax=IX;% disp(['VMIN=' num2str(VN) '; IMIN=' int2str(IN)]) %输出Vmin=VN;Imin=IN; if S==1disp(['S=' int2str(S)]) %输出S=1elsedisp(['VMIN=' num2str(VN) '; IMIN=' int2str(IN)]) %输出Vmin=VN;Imin=IN; endif S==1%||S==2||S==3FE=VX*(n-L-2)/(R(m,m)-VX);disp(['FE=' num2str(FE)]) %输出FEif FE<F1if L~=0disp('Neither Delete Out Nor Select In!')elsedisp('May Be Smaller F1 And F2')disp('The Stepwise Regression Analysis End!')break;%程序结束endelseL=L+1;FQ=FQ-1;K=IX;disp(['X' int2str(K) ' Be Selected In'])Imin(outt+1)=IX;outt=outt+1;disp(['L = ' int2str(L) ])R=xiaoqu(R,K) %调用子函数,执行消去变换if L~=m-1continue;enddisp('Already Selecting End')break;endelse%计算剔除变量的F检验值FT=VN*(n-L-1)/R(m,m);disp(['剔除变量的F检验值' num2str(FT)])if FT>=F2FE=VX*(n-L-2)/(R(m,m)-VX);disp(['***FE=' num2str(FE)]) %输出FEif FE<F1if L~=0disp('Neither Delete Out Nor Select In!')disp('The Stepwise Regression Analysis End!')break;%程序结束elsedisp('May Be Smaller F1 And F2')disp('The Stepwise Regression Analysis End!')break;%程序结束endelseL=L+1;FQ=FQ-1;K=IX;disp(['X' int2str(K) ' Be Selected In'])disp(['L = ' int2str(L) ])Imin(outt+1)=IX;outt=outt+1;R=xiaoqu(R,K) %调用子函数,执行消去变换if L~=m-1continue;enddisp('Already Selecting End')break;endelseL=L-1;FQ=FQ+1;K=IN;disp(['X' int2str(K) ' Be Deleted Out'])disp(['L = ' int2str(L) ' (No. of Variable Selected)'])R=xiaoqu(R,K) %调用子函数continueendendend%输出相应的计算结果for i=1:m-1kk=R(i,m)*R(m,i);if kk<0B(i)=R(i,m)*SR(m)/SR(i);elseB(i)=0;endendB0=xy_aver(m);for i=1:m-1B0=B0-B(i)*xy_aver(i);enddisp(['回归系数为:' num2str(B0) ' ' num2str(B)])disp('回归方程为:')disp(['Y=' num2str(B0)])for i=1:m-1if B(i)~=0if B(i)>0disp(['+' num2str(B(i)) 'X' int2str(i)]);elsedisp([num2str(B(i)) 'X' int2str(i)]);endendendQ=SR(m)^2*R(m,m);%残差平方和disp(['Sum of SQuares of Residual Error(残差平方和) Q = ' num2str(Q)])S=SR(m)*sqrt(R(m,m)/FQ);%剩余标准差disp(['Standard Deviation(剩余标准差,即模型误差的均方根) S = ' num2str(S)])RR=sqrt(1-R(m,m));%复相关系数disp(['Multiple Correlation Coefficient(复相关系数) R = ' num2str(RR)])FF=FQ*(1-R(m,m))/(L*R(m,m));%回归方程显著性检验的F值disp(['F Value for Test of Regression(回归方程显著性检验,即回归模型的统计量) F = ' num2str(FF)]) %F=SH*(m-n-1)/(SX*n);%F-统计量%PROB = 1 - fcdf(FF,m,n-length(Imin)-1)%与统计量F对应的概率Pfor i=1:m-1CC=R(i,i)*R(m,m);T(i)=R(i,m)/sqrt(CC/FQ);%各回归系数的t检验值R1(i)=R(i,m)/sqrt(CC+R(i,m)^2);%各自变量的偏相关系数enddisp(['t Test Value of Argument(各回归系数的t检验值):' num2str(T)])disp(['Partial Corre.Coeffi.Ofargu.(各自变量的偏相关系数):' num2str(R1)])%for i=1:n% y(i)=B0;% for j=1:m-1% y(i)=y(i)+B(j)*xy(i,j);% end% E(i)=xy(i,m)-y(i);% PC(i)=E(i)/xy(1,m)*100;%end%x=1:length(xy);%disp(' No. 回归值误差误差百分比%') %[x' y' E' PC']flag=input('是否重新进行逐步回归分析(1:是;0:否):'); end第二个函数xiaoqu.mfunction R=xiaoqu(R,k)%多元逐步回归分析%对R作消去变换%作者:唐世星%2006.11.20G=1/R(k,k);m=length(R);for i=1:mfor j=1:mif i~=k&j~=kR(i,j)=R(i,j)-R(i,k)*R(k,j)*G;endendendfor i=1:mR(k,i)=R(k,i)*G;R(i,k)=-R(i,k)*G;endR(k,k)=G;。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Matlab 实现多元回归实例(一)一般多元回归一般在生产实践和科学研究中,人们得到了参数(),,n x x x =⋅⋅⋅1和因变量y 的数据,需要求出关系式()y f x =,这时就可以用到回归分析的方法。
如果只考虑f 是线性函数的情形,当自变量只有一个时,即,(),,n x x x =⋅⋅⋅1中n =1时,称为一元线性回归,当自变量有多个时,即,(),,n x x x =⋅⋅⋅1中n ≥2时,称为多元线性回归。
进行线性回归时,有4个基本假定: ① 因变量与自变量之间存在线性关系; ② 残差是独立的; ③ 残差满足方差奇性; ④ 残差满足正态分布。
在Matlab 软件包中有一个做一般多元回归分析的命令regeress ,调用格式如下:[b, bint, r, rint, stats] = regress(y,X,alpha) 或者[b, bint, r, rint, stats] = regress(y,X) 此时,默认alpha = 0.05. 这里,y 是一个1n ⨯的列向量,X 是一个()1n m ⨯+的矩阵,其中第一列是全1向量(这一点对于回归来说很重要,这一个全1列向量对应回归方程的常数项),一般情况下,需要人工造一个全1列向量。
回归方程具有如下形式:011m m y x x λλλε=++⋅⋅⋅++其中,ε是残差。
在返回项[b,bint,r,rint,stats]中, ①01m b λλλ=⋅⋅⋅是回归方程的系数;②int b 是一个2m ⨯矩阵,它的第i 行表示i λ的(1-alpha)置信区间; ③r 是1n ⨯的残差列向量;④int r 是2n ⨯矩阵,它的第i 行表示第i 个残差i r 的(1-alpha)置信区间; 注释:残差与残差区间杠杆图,最好在0点线附近比较均匀的分布,而不呈现一定的规律性,如果是这样,就说明回归分析做得比较理想。
⑤ 一般的,stast 返回4个值:2R 值、F_检验值、阈值f ,与显著性概率相关的p 值(如果这个p 值不存在,则,只输出前3项)。
注释:(1)一般说来,2R值越大越好。
(2)人们一般用以下统计量对回归方程做显著性检验:F_检验、t_检验、以及相关系数检验法。
Matlab软件包输出F_检验值和阈值f。
一般说来,F_检验值越大越好,特别的,应该有F_检验值f>。
(3)与显著性概率相关的p值应该满足p alpha>,则说明回归<。
如果p alpha方程中有多余的自变量,可以将这些多余的自变量从回归方程中剔除(见下面逐步回归的内容)。
这几个技术指标说明拟合程度的好坏。
这几个指标都好,就说明回归方程是有意义的。
在Matlab软件包中分析是否具有线性关系,并作图观察,M—文件opt_hanmilton_1987:x1=[2.23,2.57,3.87,3.10,3.39,2.83,3.02,2.14,3.04,3.26,3.39,2.35,2.76,3.90,3.16];x2=[9.66,8.94,4.40,6.64,4.91,8.52,8.04,9.05,7.71,5.11,5.05,8.51,6.59,4.90,6.96];y=[12.37,12.66,12.00,11.93,11.06,13.03,13.13,11.44,12.86,10.84,11.20,11.56,10.83,12 .63,12.46];corrcoef(x1,y);corrcoef(x2,y);plot3(x1,x2,y,'*');得到结果:ans =1.0000 0.00250.0025 1.0000 ans =1.0000 0.4341 0.4341 1.0000即,corrcoef(x1,y)=0.0025,corrcoef(x2,y)=0.4341,说明没有非常明显的单变量线性关系。
图形如下:也看不出有线性关系,但是,旋转图形,可以看出所有点几乎在一个平面上。
这说明,,1,2y x x 在一个平面上,满足线性关系:1122a x a x b y a ε⋅+⋅+⋅=+或者,换成一个常见的形式 01122y a a x a x ε=+⋅+⋅+其中,ε是残差。
于是,在Matlab 软件包中做线性多元回归,写一个M —文件opt_regress_hamilton :x1=[2.23,2.57,3.87,3.10,3.39,2.83,3.02,2.14,3.04,3.26,3.39,2.35,2.76,3.90,3.16]'; x2=[9.66,8.94,4.40,6.64,4.91,8.52,8.04,9.05,7.71,5.11,5.05,8.51,6.59,4.90,6.96]'; y=[12.37,12.66,12.00,11.93,11.06,13.03,13.13,11.44,12.86,10.84,11.20,11.56,10.83,12.63,12.46]'; e=ones(15,1); x=[e,x1,x2];[b,bint,r,rint,stats]=regress(y,x,0.05) rcoplot(r,rint)其中,rcoplot (Residual case order plot )表示画出残差与残差区间的杠杆图。
执行后得到:b =-4.51543.09701.0319bint =-4.6486 -4.38223.0703 3.12381.0238 1.0399r =0.0113-0.0087-0.0102-0.00690.0101-0.0106-0.0037-0.01050.0049-0.01360.00570.0163-0.00230.01100.0071rint =-0.0087 0.0314-0.0303 0.0128-0.0301 0.0098-0.0299 0.0162-0.0106 0.0308-0.0313 0.0102-0.0252 0.0178-0.0299 0.0089-0.0174 0.0272-0.0331 0.0058-0.0161 0.0275-0.0027 0.0354-0.0236 0.0190-0.0079 0.0299-0.0156 0.0298stats =1.0e+004 *0.0001 3.9222 0 0.0000即,124.515 3.097 1.0319y x x =-++。
置信度95%,且2 1.0,_R F ==检验值392220>,与显著性概率.α=005相关的0.00000.05p =<,这说明,回归方程中的每个自变量的选取,都是有意义的。
残差杠杆图:从杠杆图看出,所有的残差都在0点附近均匀分布,区间几乎都位于[]0.03,0.03-之间,即,没有发现高杠杆点,也就是说,数据中没有强影响点、异常观测点。
综合起来看,以上回归结果(回归函数、拟合曲线或曲面)近乎完美。
(二)逐步回归假设已有数据X 和Y ,在Matlab 软件包中,使用stepwise 命令进行逐步回归,得到回归方程n n Y a X a X a X ε=++⋅⋅⋅++1122,其中ε是随机误差。
stepwise 命令的使用格式如下:stepwise(X,Y)注意:应用stepwise 命令做逐步回归,数据矩阵X 的第一列不需要人工加一个全1向量,程序会自动求出回归方程的常数项(intercept )。
在应用stepwise 命令进行运算时,程序不断提醒将某个变量加入(Move in )回归方程,或者提醒将某个变量从回归方程中剔除(Move out )。
注释:①使用stepwise 命令进行逐步回归,既有剔除变量的运算,也有引入变量的运算,它是目前应用较为广泛的一种多元回归方法。
②在运行stepwise(X,Y)命令时,默认显著性概率.α=005。
例2(Hald,1960)Hald 数据是关于水泥生产的数据。
某种水泥在凝固时放出的热量Y (单位:卡/克)与水泥中4种化学成分所占的百分比有关:::::x Cao Al o x Cao Sio x Cao Al o Fe o x Cao Sio ⋅⋅⋅⋅⋅1232232323423342求出关系式()Y f X =。
解:(1)本问题涉及的数据是5维的,不能画图观察。
先做异常值分析。
X=[7,26,6,60;1,29,15,52;11,56,8,20;11,31,8,47;7,52,6,33;11,55,9,22;3,71,17,6;1,31,22,44;2,54,18,22;21,47,4,26;1,40,23,34;11,66,9,12;10,68,8,12];Y=[78.5,74.3,104.3,87.6,95.9,109.2,102.7,72.5,93.1,115.9,83.8,113.3,109.4]'; A=[X,Y]; mahal(A,A)程序执行后得到结果: ans =5.6803 3.64846.7002 3.3676 3.3839 4.4300 4.0080 6.5067 3.08497.5016 5.1768 2.4701可以认为数据都是正常的。
(2)一般多元回归。
在Matlab 软件包中写一个M —文件opt_cement_1:X=[7,26,6,60;1,29,15,52;11,56,8,20;11,31,8,47; 7,52,6,33;11,55,9,22;3,71,17,6;1,31,22,44; 2,54,18,22;21,47,4,26;1,40,23,34;11,66,9,12; 10,68,8,12];Y=[78.5,74.3,104.3,87.6,95.9,109.2,102.7,72.5, 93.1,115.9,83.8,113.3,109.4]';a1=ones(13,1);A=[a1,X];[b,bint,r,rint,stat]=regress(Y,A)rcoplot(r,rint)程序执行后得到:b =62.40541.55110.51020.1019-0.1441bint =-99.1786 223.9893-0.1663 3.2685-1.1589 2.1792-1.6385 1.8423-1.7791 1.4910r =0.00481.5112-1.6709-1.72710.25083.9254-1.4487-3.17501.37830.28151.99100.9730-2.2943rint =-4.0390 4.0485-3.2331 6.2555-5.3126 1.9707-6.5603 3.1061-4.5773 5.0788-0.5623 8.4132-6.0767 3.1794-6.8963 0.5463-3.5426 6.2993-3.0098 3.5729-2.2372 6.2191-4.1338 6.0797-6.9115 2.3228stat =0.9824 111.4792 0.0000 5.9830以及残差杠杆图:于是,我们得到:62405415511051020101901441=+++-Y x x x x.....1234并且,残差杠杆图显示,残差均匀分布在0点线附近,在stat返回的4个值中,R2=0.9824,说明模型拟合的很好。