应用回归分析课程设计

基于多元线性回归模型对我国钢铁生产的分析

摘要:钢铁工业是国民经济中最重要的基础原材料产业和重要支撑产业。本文根据我国钢材产量为研究对象,选取可能影响钢材产量的粗钢产量、发电量、房屋建筑面积、总能源消耗、铁路运输量、对建筑工程的投资和汽车生产量七个因素,运用多元线性回归分析建立模型,先运用普通最小二乘估计求回归系数再对方程进行异方差、自相关、和多重共线性诊断,用迭代法消除了自变量之间的自相关。对于多重共线性问题,先是用逐步回归和剔除变量的方法,最终转变为用岭回归剔除粗钢产量和发电量两个变量解决

多重共线性,建立最终的岭回归方程:43000007388.0000002198.0731553041.2?x x y

++-= 765000837960.0000009249.0000010632.0x x x +++以其探究最后进入回归方程的几个变

量在影响钢材生产方面孰轻孰重,达到学习与生活结合的效果。

关键词:多元线性回归 异方差 自相关 多重共线性 逐步回归 岭回归

一、引言

中国的钢铁工业历经50年的发展,特别是改革开放30年以来有了巨大的进步,取得了举世瞩目的成就。钢铁工业的钢产量增加速度加快、技术水平得到明显提高,产品结构不断调整,成为名副其实的钢铁大国。1996年我国钢产量首次超过1亿吨大关,跃居世界第一位,此后我国产量一直保持世界排名第一的位置。2002年实现钢产量 1.8亿吨,到2003年钢产量突破2亿吨,达到22234万吨,2004年全国共产钢27279万吨,比上年增长22.7%,生铁、钢材的产量分别达到创记录的25185万吨与29723万吨(含重复材),同比增长均在20%以上。在钢材品种和质量方面,已经逐步形成能冶铁包括高温合金、精密合金再内的1000多个钢材品种,轧制和加工包括板、带、管、型、线等各种形状的4万多个品种规格的钢材;各项技术经济指标明显提高。

钢铁行业是国民经济的支柱产业,是加快实现工业化的先导产业,其在拉动上下游产业发展、扩大城乡劳动力就业以及推动区域经济发展等方面做出了重要的贡献。虽然整个现代化建设以传统原材料为主的状况已经发生改变,但钢铁行业对我国来说仍然是基础工业,直接影响着国民经济的健康发展。可以说钢铁行业的稳定发展是实现我国新型工业化战略目标的关键一环,其发展水平的高低是衡量我国工业化水平和综合国力高低的重要标志。随着国际产业的转移和我国国民经济的快速发展,我国钢铁工业取得了巨大成就。本文研究了粗钢产量、发电量、房屋建筑面积、总能源消耗量、铁路运输量、对建筑工程的投资以及汽车生产总量7个变量对钢材生产量的影响,以及它们之间的关系;以此可以看出这7个指标中哪些指标对钢材生产量有着驻足轻重的关系,哪些指标对钢铁产量的影响相对较弱。由此,可以看出怎么样才能使钢材产量更上一层楼,让钢铁事业有着更加长足且辉煌的发展。

二、模型假设

1、假设选取的自变量指标能基本上全面反映钢铁生产;

2、假设选取的年份期间没有大的金融市场波动;

3、假设随机误差),0(~2σεN 。

三、符号说明

1、y 表示钢材产量;

2、x1表示粗钢产量;

3、x2表示发电量;

4、x3表示房屋建筑面积;

5、x4表示总能源消耗;

6、x5表示铁路运输量 ;

7、x6表示对建筑工程投资 ;

8、x7表示汽车生产总量;

9、ε表示模型的随机误差项。

四、模型分析与建立

4.1多元线性回归模型

1.多元线性回归模型的一般形式

设随机变量y 与一般变量p x x x ,,,21 的线性回归模型为

εββββ+++++=p p x x x y 22110 (4.1)

其中,p βββ,,,10 是1+p 个未知参数,0β称为回归常数,p ββ,,1 称为回归系数。y 称为被解释变量(因变量),p x x x ,,,21 是p 个可以精确测量并控制的一般变量,称为解释变量(自变量)。 ε是随机误差,与一元线性回归一样,对随机误差项我们常假定

???==2)var(0

)(σεεE (4.2)

εββββ+++++=p p x x x y E 22110)( (4.3)

为理论回归方程。

对一个实际问题,如果我们获得n 组观测数据),,2,1(),,,(;21n i y x x x i ip i i =,则线性回归模型(4.1)式可表示为

??

?

????+++++=+++++=+++++=n np p n n n p p p p x x x y x x x y x x x y εββββεββββεββββ 2211022222211021112211101 (4.4) 写成矩阵形式为

εβ+=X y (4.5)

其中

???????

??=n y y y y 21 ??????????????=np n n p p x x x x x x x x x X 212222********* ???????

?????????=p βββββ 210 ????????????????=n εεεεε 210 (4.6) X 是一个)1(+?p n 阶矩阵,称为回归设计矩阵或资料矩阵。

2.多元线性回归模型的基本假定

为了方便地进行模型的参数估计,对回归方程(4.4)式有如下一些基本假定:

(1)解释变量p x x x ,,,21 是确定性变量,不是随机变量,且要求

n p X rank <+=1)(。这里的n p X rank <+=1)(,表明设计矩阵X 中的自变量列之间不相关,样本量的个数应大于解释变量的个数,X 是一满秩矩阵。

(2)随机误差项具有零均值和等方差,即

??

???=??

?≠====n j i j i j i n

i E j i i ,,2,1,,,0,),cov(,,2,1,0)(2 σεεε (4.7) 这个假定常称为高斯—马尔柯夫条件。0)(=i E ε,假设观测值没有系统错误,随机

误差项i ε的平均值为0。随机误差项i ε的协方差为0,表明随机误差项在不同的样本点

之间是不相关的(在正态假定下即为独立的),不存在序列相关,并且有相同的精度。

(3)正态分布的假定条件为

??

?=相互独立n i n i N εεεσε,,,,,2,1),,0(~212 (4.8)

对于多元线性回归的矩阵模型(4.5)式, 这个条件便可表示为

),0(~2

n I N σε (4.9) 由上述假定和多元正态分布的性质可知,随机变量y 服从n 维正态分布,回归模型(4.5)式的期望向量

β

X y E =)( (4.10) n I y 2)var(σ= (4.11)

因此

),(~2

n I X N y σβ (4.12) 4.2回归参数的普通最小二乘估计

线性回归方程确定后的任务是利用已经收集到的样本数据,根据一定的统计拟合准则,对方程中的各个参数进行估计。普通最小二乘就是一种最为常见的统计拟合准则,在该准则下得到的回归参数的估计称为回归参数的普通最小二乘估计。

对于(4.5)式表示的回归模型εβ+=X y ,所谓最小二乘法,就是寻找参数p

ββββ,,,,210 的估计值p ββββ?,,?,?,?210 ,使离差平方和

2221101210)(),,,,(ip p i i n

i i p x x x y

Q ββββββββ-----=∑= 达到极小,即寻找

p

ββββ?,,?,?,?210 满足 2221101210)(),,,,(ip p i i n i i p x x x y

Q ββββββββ-----=∑=

21

22110,,,)(min 210∑=-----=n

i ip p i i i x x x y p ββββββββ (4.13)

依照(4.13)式求出的p ββββ?,,?,?,?210 就称为回归参数p

ββββ,,,,210 的最小二乘估计。

p

p x x x y ββββ?????22110++++= (4.14) 为经验回归方程。

五、案例分析

5.1数据说明

原始数据(见附录1))选取1990-2010年间钢材产量(y )、粗钢产量(1x )、发电

量(2x )、房屋建筑面积(3x )、总能源消耗(4x )、铁路运输量(5x )、对建筑工程投

资(6x )和汽车生产总量(7x )八个指标,以钢材产量为因变量,其余七个为自变量,

研究钢材产量(y )与粗钢产量(1x )、发电量(2x )、房屋建筑面积(3x )、总能源消

耗(4x )、铁路运输量(5x )、对建筑工程投资(6x )和汽车生产总量(7x )之间的关

系。数据来源国家统计局网站统计年鉴。

5.2求解分析

5.2.1直接进入法

表1 模型汇总

模型汇总b 模型

R R 方 调整 R 方 标准 估计的误差 Durbin-Watson 1 1.000a 1.000 .999 529.455 2.560 由表1可以看出调整后的决定系数999.02=R ,说明回归方程的拟合优度比较好。

表2 方差分析表

Anova b 模型

平方和 df 均方 F Sig. 1 回归

1.099E10 7 1.569E9 5598.148 .000a 残差

3644196.517 13 280322.809 总计 1.099E10 20

由表2方差分析表可以看出,F 检验的检验值F=5598.148非常大,再看F 检验的P 值=1.41E-21≈0.000,可知此回归方程高度显著,即做出7个自变量整体对因变量y 产生显著线性影响的判断所犯错误的概率仅为1.41E-21≈0.000。

表3 系数表

系数a 模型

非标准化系数

标准系

数 t Sig. B 的 95.0% 置信区间 B 标准 误

差 试用版 下限 上限 1 (常量) -6831.055 3995.65

-1.710 .111 -15463.132 1801.021 粗钢产量 .915 .114

.722 8.026 .000 .669 1.161 发电量 .541 .436 .255 1.242 .236

-.400 1.482 房屋建筑面

-.016 .019 -.133 -.815 .430 -.058 .026 总能源消耗

-.051 .030 -.158 -1.689 .115 -.115 .014 铁路运输量

.052 .027 .113 1.900 .080 -.007 .111 对建筑工程

投资

.112 .029 .223 3.865 .002 .049 .175 汽车生产总

-.822 2.865 -.017 -.287 .779 -7.011 5.366

此时得到的回归方程为:

7654321822.0112.0052.0051.0016.0541.0915.0055.6831?x x x x x x x y -++--++-=

首先看t 检验结果, j β的t 统计量)7,,2,1( =j t j 及其相应的p 值就是上表第五列

(Sig.)的结果。我们可以发现显著性水平05.0=α时只有粗钢产量(1x )和对建筑工

程投资(6x )通过了显著性检验。尽管回归方程的显著性检验高度显著,但也会出现有

某些自变量j x (甚至每个j x )对y 无显著影响的情况。

接着看看回归系数的置信区间除了有粗钢产量(1x )系数95%置信区间[0.669,1.161]

和对建筑工程投资(6x )系数95%置信区间[0.049,0.175]不包含0,这也反映了回归

系数的不合理。

再看回归系数的正负情况,房屋建筑面积(3x )、总能源消耗(4x )和汽车生产总量(7x )的回归系数为负,显然回归系数不合理。

那么究竟是什么原因导致回归方程出现上述结果呢,我们猜想可能是下列原因导致的。

(1)异方差和自相关

在回归模型的基本假设中,假定随机误差性n εεε,,

, 21具有相同的方差,独立或不相关,即对于所有样本点,有

??

??????=≠====n j i j i j i n i E j i i ,,2,1,,0,),cov(,,2,1,0)(2 σεεε 但在建立实际问题的回归模型时,经常存在于此假设相违背的情况,一种是计量经济建模中常说的异方差性,即)var()var(j i εε≠,当j i ≠时另一种是自相关性,即

0)(cov ≠j i εε,,当j i ≠时,异方差带来的问题:

当一个回归问题存在异方差时,如果仍用普通最小二乘发估计位置参数,将引起不良后果,特别是最小二乘估计量不再具有最小方差的优良性,即最小二乘估计的有效性被破坏了。

当存在异方差时,参数向量β?的方差大于在同方差条件下的方差,如果用普通最小二乘发估计参数,将出现低估β?的真是方差的情况,进一步将导致高估回归系数的t 检验值,可能造成本来不显著的某些回归系数变成显著。这将给回归方程的应用效果带来一定影响。

当存在异方差是,普通最小二乘估计存在以下问题:

1、参数估计值虽然是无偏的,但不是最小方差线性无偏估计。

2、参数的显著性检验失效。

3、回归方程的应用效果极不理想。

自相关带来的问题:

当一个线性回归模型的随机误差项存在序列相关时,就违背了线性回归方程的基本假设,如果仍然直接用普通最小二乘法估计未知参数,将会产生严重后果,一般情况下,序列自相关性会带来下列问题:

1、最小二乘估计量仍然是线性的和无偏的。

2、最小二乘估计量不是有效的,即OLS 估计量的方差不是最小的,估计量不是最优线性无偏估计量(BLUE)。

3、OLS 估计量的方差是有偏的。用来计算方差和OLS 估计量标准误的公式会严重的低估真实的方差和标准误,从而导致t 值变大,使得某个系数表面上显著不为零,但事实却相反。

4、t 检验和F 检验不是可信的。

5、计算得到的误差方差2σ=df SSE /(残差平方和/自由度)是真实2σ的有偏估计量,并且很可能低估了真实的2σ。

6、计算的2R 也不能真实的反映实际2R 。

7、计算的预测方差和标准误差通常是无效的。

(2)多重共线性

多元线性回归有一个基本假设,就是要求设计矩阵X 的秩1)(+=p X rank ,即要求X 中的列向量之间线性无关。如果存在不全为零的1+p 个数p c c c c ,,,,210 ,使得

,022110=++++ip p i i x c x c x c c n i ,,2,1 = (5.1)

则自变量p x x x ,,,21 之间存在完全多重共线性。在实际问题中,完全的多重共线性并不

多见,常见的是(5.1)式近似成立的情况,即存在不全为零的1+p 个数p c c c c ,,,,210 ,使得

,022110≈++++ip p i i x c x c x c c n i ,,2,1 = (5.2)

当自变量p x x x x ,,,,210 存在(5.2)式的关系时,称自变量p x x x x ,,,,210 之间存在多重

共线性(multi-collinearity ),也称为复共线性。

多重共线性到来的影响:

(1)完全共线性下参数估计量不存在

(2)近似共线性下OLS 估计量非有效,多重共线性使参数估计值的方差增大,

)1/(12r -为方差扩大因子(Variance Inflation Factor, VIF)

(3)参数估计量经济含义不合理

(4)变量的显著性检验失去意义,可能将重要的解释变量排除在模型之外

(5)模型的预测功能失效。变大的方差容易使区间预测的“区间”变大,使预测失去意义。

5.3 方程的异方差、自相关以及多重共线性诊断

5.3.1异方差诊断

这里使用等级相关系数法检验,计算残差绝对值||i e (见附录2)与自变量i x 的相

关性时采用Spearman 等级相关系数,而不采用Pearson 简单相关系数,这是由于等级相关系数可以反映非线性相关的情况,而简单相关系数不能如实反映非线性相关情况。

表4 异方差检验表

相关性 残差

绝对

粗钢产量 发电量 房屋建筑面积 总能源消耗 铁路运输量 对建筑工程投资 汽车生产总量 残差绝对值 Pearson

相关性

1 .197 .200 .178 .238 .226 .057 .071 显著性

(双侧)

.392 .385 .439 .300 .324 .807 .760 N

21 21 21 21 21 21 21 21 **. 在 .01 水平(双侧)上显著相关。

由表4可得等级相关系数s r 很P 值,因为在显著性水平05.0=α下,每个p 值都大于05.0=α,认为残差绝对值||i e 与自变量i x 不显著相关,即认为不存在异方差。 5.3.2自相关诊断

这里我们采用DW 检验。可以用SPSS 算出DW 的值,结果如表5。

表5 自相关检验表

模型汇总b

模型

R R 方 调整 R 方 标准 估计的误

差 Durbin-Watson 1 1.000a 1.000 .999 529.455 2.560 由表5我们可以得到DW=2.56,查DW 表,n=21,k=8,显著性水平05.0=α,得29.2,637.0==U L d d 。由L U d DW d -≤≤4-4,可知不能判定残差是否有自相关。下面

借助图示检验法来判定自相关性。

1、绘制1,-t t e e 的散点图。用)(1,-t t e e )

(21,,3,2 =t 作为散布点绘图。

图1 1,-t t e e 的残差散点图

从图1我们不能看出大部分点落在Ⅰ,Ⅲ象限或者是Ⅱ,Ⅳ象限,不能判定随即扰动项t ε存在自相关性。

2、绘制按照时间顺序回归残差项t e 的图形。

图2 时间序列残差散点图

t e 1-t e

t

t e

从图2可以看出t e 随着t 的变化逐次有规律地变化,呈现锯齿形,表明t e 存在负

相关,随机扰动项t ε存在负的序列相关。

5.3.3 消除自相关

这里我们用迭代法消除自相关,需要求出t y '和t i x ,',其中

???-='-='--1,,1t t i t

i t t t x x x y y y ρρ 7,,2,1 =i (5.3) (5.3)式中自相关系数ρ是未知的,用DW 21

-1?≈ρ来估计ρ,计算出ρ后,带

入(5.3)式,计算变换因变量t y '和变换自变量t i x ,'(见附录3),然后用变换得到自变量

和因变量作普通最小二乘回归,看看自相关是否消除。

表6 迭代后的自相关检验表

模型汇总b 模型

R R 方 调整 R 方 标准估计的误差 Durbin-Watson 1 1.000a 1.000 1.000 515.8203064 2.423 由表6我们可以得到DW=2.423,查DW 表,n=20,k=8,显著性水平05.0=α,得339.2,595.0==U L d d 。由L U d DW d -≤≤4-4,可知不能判定残差是否有自相关。下面

仍然借助图示检验法来判定自相关性。

1、绘制1,-t t e e 的散点图。用)(1,-t t e e )

(21,,3,2 =t 作为散布点绘图。

图3 1,-t t e e 的残差散点图

从图3我们不能看出大部分点落在Ⅰ,Ⅲ象限或者是Ⅱ,Ⅳ象限,不能判定随即扰

1-t e

t e

动项t ε存在自相关性。

2、绘制按照时间顺序回归残差项t e 的图形。

图4时间序列残差散点图

从图4可以看出t e 随着t 的变化并没有呈现有规律地变化,不能看出t e 存在自相关。

即认为同归迭代法变换后消除了自相关。

5.3.4多重共线性诊断

这里采用方差扩大因子和条件数检验回归方程的多重共线性。方差扩大因子法中,当10≥j VIF 时,就说明自变量j x 与其与自变量之间有严重的多重共线性,且这种多重共

线性可能会过度地影响最小二乘估计。条件数法中,当100<≤k 时,没有多重共线性;10010<≤k 时,存在较强的多重共线性;100≥k 时,存在严重的多重共线性。用SPSS 可以直接得到上述结果,见表7和表8。

表7 方差扩大因子检验表

系数a 模型

非标准化系数

标准系

数 t Sig. 共线性统计量 B 标准 误

差 试用版 容差 VIF 1 (常量) -8976.210 4630.99

8

-1.938 .076 粗钢产量 .893 .112 .706 7.962 .000 .002 480.432

t

t

e

由表7可以看出发电量(2x ),房屋建筑面积(3x )的方差扩大因子很大,分别为

464.23932=VIF ,039.15943=VIF ,远远超过10,说钢材生产回归方程存在着严重的多

重共线性。

表8 条件数检验表

共线性诊断a 发电量 .701 .422 .329 1.662 .122 .000 2393.46

4

房屋建筑面

-.023 .019 -.193 -1.195 .255 .001 1594.039 总能源消耗

-.051 .026 -.160 -1.970 .072 .002 400.533 铁路运输量

.048 .026 .106 1.876 .085 .005 193.811 对建筑工程

投资

.117 .026 .228 4.443 .001 .006 161.371 汽车生产总

量 -.609 2.867 -.012 -.212 .835 .005 193.369 模型 维数 特征值 条件索引 方差比例

(常量) 粗钢产量 发电量 房屋建筑面积 总能

源消

铁路运输量 对建筑工程投资 汽车生产总量 1 1 7.448

1.00

0 .00 .00 .00 .00 .00 .00 .00 .00 2 .520 3.78

5

.00 .00 .00 .00 .00 .00 .00 .00 3 .026 16.9

20 .00 .00 .00 .00 .00 .00 .02 .02

4 .003 50.1

27 .00 .11 .00 .03 .00 .00 .06 .06

5 .002 55.5

08 .00 .02 .00 .01 .00 .00 .57 .43

6 .000 163.

105 .01 .02 .01 .01 .66 .37 .06 .23

由表8,从条件数看到,最大的条件数8k =329.135,说明自变量间存在严重的多重共线

性,这与方差扩大因子法的结果一致。

5.3.5消除多重共线性

由表7可以看到,变量之间的多重共线性比较严重,我们先用逐步回归的方法剔除一些变量。用普通最小二乘回归对迭代法得到的数据进行分析,输出结果如表9。

表9 逐步回归后的多重共线性检验表

系数a 7 .000 200.

702 .96 .52 .00 .04 .33 .54 .28 .01

8 6.876E-5 329.

135 .02 .32 .98 .92 .01 .09 .01 .26 模型

非标准化系数

标准

系数 t Sig. 共线性统计量 B 标准 误

差 试用版 容差 VIF 1 (常量) -4710.276 573.699 -8.210 .000

粗钢产量 1.262 .015 .999 82.663 .000 1.000

1.000 2 (常量)

-2851.513 291.878 -9.770 .000 粗钢产量 1.023 .025 .809 41.448 .000 .059 16.976 对建筑工程

投资

.100 .010 .195 10.000 .000 .059 16.976 3 (常量) -10606.04

6 3599.508 -2.94

7 .009

粗钢产量 .880 .070 .696 12.633 .000 .006 164.541 对建筑工程

投资 .106 .009 .207 11.170 .000 .054 18.613

可以看到回归方程保留了三个自变量,而方差扩大因子321VIF VIF VIF 和,均比较大,说

明自变量之间仍存在多重共线性。由于1VIF 最大,剔除粗钢产量这个变量在用普通最小

二乘回归得到表10。

表10 剔除变量后的多重共线性检验表

系数a 模型

非标准化系数

标准系

数 t Sig. 共线性统计量 B 标准 误

差 试用版 容差 VIF 1 (常量) -52728.167 4358.372 -12.09

8

.000 铁路运输量 .305 .022 .665 13.682 .000

.081 12.385 对建筑工程

投资 .175 .025 .343 7.048 .000 .081 12.385

由表10可以看到方差扩大因子10385.1221>==VIF VIF ,依然存在多重共线性,此时回

归方程只剩下两个自变量了,再剔除自变量的话就和实际问题不符合了,所以用剔除解释变量消除多重共线性的方法不可行。鉴于此我们用另外一种变换—岭回归,消除多重共线性,重新建立回归方程。

5.4岭回归法

5.4.1岭回归的定义

当自变量间存在多重共线性,|X X '|≈0时,设想给X X '加上一个正常数矩阵kI )0(>k 那么X X '+kI 接近奇异的程度就会比X X '接近奇异的程度小得多。考虑到变量的量纲问题,先要对数据标准化,标准化后的设计矩阵仍用X 表示,定义y X kI X X k '+'=-1)()(?β

称为β的岭回归估计,其中,k 称为岭参数。由于假设X 已经标准化,所以X X '就是自变量样本相关阵。y 可以标准化也可以未标准化,如果y 也经过

标准化,那么计算的实际是标准化岭回归估计。)(?k β

作为β的估计应比最小二乘估计β?稳定,当0=k 时的岭回归估计)0(?β

就是普通的最小二乘估计。因为岭参数k 不是唯一确定的,所以得到的岭回归估计)(?k β

实际是回归参数β的一个估计族。 铁路运输量 .047 .022 .102 2.160 .046 .008 120.042

5.4.2岭迹法

岭迹法的直观考虑是,如果最小二乘估计看来有不合理之外,如估计值以及正负号不符合经济意义,希望能通过采用适当的岭估计)

来加以一定程度的改善,岭参数k

(?k

值的选择就是尤为重要。选择k值的一般原则是:

(1)各回归系数的岭估计基本稳定;

(2)用最小二乘估计时符号不合理的回归系数,其岭估计的符号变得合理。

(3)回归系数没有不合乎经济意义的绝对值;

(4)残差平方和增大不太多。

岭迹法与传统的基于残差方法相比,在概念上来说是完全不同的,岭迹法对于分析各变量之间的作用和关系是有帮助的。

5.4.3岭回归选择变量的原则:

1、在岭回归的计算中,假定设计矩阵X已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量。

2、当k值较小时,标准化岭回归系数的绝对值并不是很小,但是不稳定,随着k的增加迅速趋于零,像这样岭回归系数不稳定,震动趋于零的自变量可以予以剔除。

3.去掉标准化岭回归系数很不稳定的自变量。如果有若干个岭回归系数不稳定,究竟去掉几个,去掉哪几个,这并无一般原则可循,这需根据去掉某个变量后重新进行岭回归分析的效果来确定。

5.4.4 用岭回归选择变量建立回归方程

对迭代法得到的数据进行分析,SPSS进行岭回归程序如下:

INCLUDE'E:\SPSS19.0\SPSS\Samples\English\Ridge regression.sps'. RIDGEREG DEP=y/ENTER x1 x2 x3 x4 x5 x6 x7.

得到图5岭迹图。

图5 岭迹图

可以看到,变量3x 的岭回归系数)?3k (β从负值迅速变成正值,|)?|1

k (β和|)?|3k (β都迅速减少。从岭回归的角度看,1x 与3x 只要保留一个就可以了。其余变量的岭回归系数相对稳

定。在这里我们决定剔除1x ,用y 与其余六个自变量作岭回归。把领参数步长改为0.02,范围减小到0.4。修改后的语句如下:

INCLUDE'E:\SPSS19.0\SPSS\Samples\English\Ridge regression.sps'.

RIDGEREG DEP=y/ENTER x2 x3 x4 x5 x6 x7

/START=0.0/STOP=0.4/INC=0.02.

得到岭迹图6。

岭迹图6

由图6看,变量2x 和变量3x 的岭回归系数依然不稳定,剔除2x ,范围减小到0.2再分析,

语法如下:

INCLUDE'E:\SPSS19.0\SPSS\Samples\English\Ridge regression.sps'.

RIDGEREG DEP=y/ENTER x3 x4 x5 x6 x7

/START=0.0/STOP=0.2/INC=0.02.

结果如图7。

岭迹图7

从岭迹图7看,岭参数k 在0.04~0.1之间时,岭参数已经基本稳定,当k=0.08时,996.02 R 仍然很大,因而可以选取岭参数k=0.08。重新作岭回归,语法如下: INCLUDE'E:\SPSS19.0\SPSS\Samples\English\Ridge regression.sps'.

RIDGEREG DEP=y/ENTER x3 x4 x5 x6 x7

/k=0.08

计算结果如表11。

表11 k=0.08的岭回归结果

Mult R .998045

RSquare .996093

Adj RSqu .994698

SE 2129.130623

ANOVA table

df SS MS F value Sig F

Regress 5.000 1.62E+010 3.24E+009 713.8648164 .0000000

Residual 14.000 63464761 4533197.2

B SE(B) Beta B/SE(B)

X3 .000002198 .000000164 .000018359 .001338742

X4 .000007388 .000000560 .000023065 .001319257

X5 .000010632 .000000797 .000023194 .001334201

X6 .000009249 .000000956 .000018122 .000967485

X7 .000837960 .000095618 .000016448 .000876364

Constant -2.731553041 .216522090 .000000000 -.001261559

得到y 对76543,,,,x x x x x 的标准化岭回归方程为

76543000016448.0000018122.0000023194.000002306.0000018359.0?x x x x x y ++++= 未标准化的岭回归方程为

76543000837960.0000009249.0000010632.0000007388.0000002198.0731553041.2?x x x x x y

+++++-=

5.5结果分析

我们用上述岭回归的方法消除了自变量之间的多重共线性,并且得到了岭回归方程,各个岭回归系数也都为正值,与实际情况向符合,说明钢材生产量主要与房屋建筑面积(3x )、总能源消耗(4x )、铁路运输量(5x )、对建筑工程投资(6x )和汽车生产

总量(7x )五个指标有关。从最后得到的标准化岭回归方程可以用于比较最后进入回归方

程的五个自变量对钢铁生产的影响程度大小,岭回归系数越大那么对钢铁生产的影响也就越大,可以看出铁路运输量对钢铁生产的影响比较大。我们还可以从未标准化的岭回归方程解释五个自变量对钢铁生产的作用。

六、模型评价与推广

6.1 模型评价

6.1.1 优点

本文以多元线性回归建立模型,分别选用了等级相关系数法诊断异方差;图示检验法和DW 检验法诊断自相关迭代法消除自相关;方差和扩大因子法诊断多重共线性岭回归法消除多重共线性最终建立岭回归方程。用多元线性回归模型得到的回归方程能很明白的说明问题,容易理解。

数据分析论文

成绩评定表 课程设计任务书

摘要 汇率是在商品交易和货币运动越出国界时产生的,是一国货币价值在国际的又一表现。因为一国货币汇率受制于经济、政治、军事和心理等因素的影响,这些因素彼此之间既相互联系又相互制约,而且在不同时间,各因素产生作用的强度也会出现交替变化,所以很难准确地找出究竟哪些因素影响着一国货币汇率的变化,在开放经济中,汇率是一种重要的资源配置价格。汇率的失衡或错估,不仅会破坏经济的外部平衡,而且会给国内宏观经济稳定和经济可持续增长带来一系列不利影响。 另外,汇率的变化还能对人们的日常生活和企业的生产销售生产较大的影响。所以,对影响汇率的因素进行分析和探讨,对于指导汇率政策的制定、预测汇率变化趋势、优化投资策略,以及研究与汇率有关的生活消费等问题都有重要的应用价值。spss在经济、管理、医学及心理学等方面的研究起着很重要的作用,在我国的国民经济问题中,增加农民收入是我国扩大内需的关键,通过运用SPSS分析方法对我国人民币及其影响因素的相关分析以便能够更好地了解我国的汇率的情况。 关键词:spss;汇率;影响因素;回归

目录 1问题分析 (1) 2数据来源 (1) 3数据定义 (2) 4数据输入 (2) 5变量的标准化处理 (2) 5.1描述性分析选入变量及参数设置 (2) 5.2描述性分析 (2) 5.3描述性分析结果输出 (2) 6.1描述性分析选入变量及参数设置 (3) 6.2线性回归分析 (4) 7进一步的分析和应用 (11) 总结 (14) 参考文献 (14)

汇率影响因素分析 1问题分析 汇率是在商品交易和货币运动越出国界时产生的,是一国货币价值在国际上的又一表现。因为一国货币汇率受制于经济、政治、军事和心理等因素的影响,这些因素彼此之间既相互联系又相互制约,而且在不同时间,各种因素产生作用的强度也会出现交替变化,所以很准确地找出究竟哪些因素影响着一国货币汇率的变化。 在开放经济中,汇率是一种重要的资源配置价格。汇率的失衡或错估,不仅会破坏经济的外部平衡,而且会给国内宏观经济稳定和经济可持续增长带来一系列不利影响。另外,汇率的变化还能对人们的日常生活和企业的生产销售产生较大的影响。所以,对影响汇率的因素进行分析和探讨,对于指导汇率政策的制定、预测汇率变化趋势、优化投资策略,以及研究与汇率有关的生产消费等问题都有重要的应用价值。 2数据来源 所用数据参考自“人民币汇率研究”(陈瑨,CENET网刊,2005)、“汇率决定模型与中国汇率总分析”(孙煜,复旦大学<经济学人>,2004)和“人民币汇率的影响因素与走势分析”(徐晨,对外经济贸易大学硕士论文,2002),其中通货膨胀率、一年期名义利率、美元利率和汇率4个指标的数据来自于<中国统计年鉴>(2001,中国统计出版社);2000年的部分数据来自于国家统计局官方网站。

回归分析课程设计

应用回归分析 课程设计指导书 一、课程设计的目的 (1)巩固应用回归分析的理论知识,掌握其思想精髓; (2)运用回归分析研究方法,加强解决实际问题的能力; ( 3)熟练使用spss 软件对数据进行回归分析。 二、设计名称:研究货运总量y (万吨)与工业总产值x1 (亿元)、农业总产值 x2(亿元)、居民非商品支出x3 (亿元)的关系 三、设计要求 (1)正确运用spss软件对数据进行处理 (2)正确分析数据,尝试选择不同的模型拟合数据 ( 3)课程设计中,遇到问题要翻阅课本去努力解决问题 (4)要有耐心,对于模型的显著性和回归系数都要进行检验 ( 5 )认真并独立完成 四、设计过程 (1)思考课程设计的目的,寻找来源真实的数据 ( 2)上网搜集并整理数据资料 ( 3)根据数据确定研究对象 ( 4)应用统计软件来处理数据信息 ( 5 )选择通过各种检验的线性模型 (6)写出相应的实验报告,并对结果进行分析 五、设计细则 ( 1 )搜集数据阶段,数据不能过于繁杂,也不能太少; (2)做课程设计前,认真看书和笔记,及平时的实验报告,掌握丰富的理论; ( 3)有耐心,不紧不慢;要细心,一丝不苟; ( 4)写报告书时,语言简洁易懂又不失完整,尤其操作过程要正确完整,要 清楚明了。分析结果要正确与实际问题背景相符。 六、说明 (1)书写报告时,有些特殊的数学符号需要利用Mathtype (公式编辑器)这款小软件进行编辑; (2)有些spss输出表格不整齐,需要导出在Excel中,然后在复制到word文 档里; ( 3) 认真仔细的完成课程设计

课程设计任务书

设计名称:研究货运总量y (万吨)与工业总产值x1 (亿元)、农业总产值 x2(亿元)、居民非商品支出x3 (亿元)的关系 日期:2011年11月13日 (1)设计内容:研究货运总量y (万吨)与工业总产值x1 (亿元)、农业总产值)x3 数据见表如下: x2( 2)求y关于x1,x2,x3的三元线性回归方程; (3)对所求的得方程做拟合优度检验; (4)对回归方程做显著性检验; (5)对每一个回归系数做显著性检验; (6)如果有的回归系数没有通过显著性检验,将其剔除,重新建立回归方程,再作回归方程的显著性检验和回归系数的显著性检验; (7)求出每一个回归系数的置信水平为95%的置信区间; 8)求标准化方程; 设计目的与要求: 目的:(1)巩固课本上学到的知识,提高处理实际问题的能力; (2)掌握对多元线性回归问题的模型选择; (3)对软件输出的结果要学会分析 要求:(1)熟练使用SPSS软件对回归数据进行模型拟合; (2)认真独立完成 设计环境或器材、原理与说明: 设计环境和器材:计算机,Mini tab软件,课本,笔记 设计原理与说明: (1)多元回归分析中,检验回归系数是否为0的时候,先用F检验,考虑整体回归系数,再对每个系数是否为零进行t检验 (2)t检验:

电气14级四个班级虚拟仪器课程设计题目2015秋季2016.1.18-22

12级《虚拟仪器》课程设计任务书 一、设计题目及任务 学生按分组组别从以下对应题目号中选择一题进行设计。 1.粮仓管理系统设计(利用labVIEW)(3-4人) 1)一个粮仓系统有五个独立的粮仓,假设粮仓中各有一个控制节点,用来测量其内部温度及湿度,并有两个执行机构,分别用于打开通气窗口及打开风扇。 2)假设五个粮仓的数据都汇聚在一个集中节点,该节点将数据传至上位监控计算机(串行口)。(数据协议自定,要将五个节点区分开) 3)设计一个监控界面,用于实时监控五个粮仓的实时数据。并保留每天的数据。可以按日期及指定的粮仓来查询数据,并显示历史曲线。 4)用户可以设置报警线,当温度超过报警线时,要求下传数据,启动相应的执行机构。 并在控制面板中有所显示。 5)要求用实际串口完成。(可以在另一个电脑上用串口调试助手,模拟集中节点) 2.利用声卡的数据采集与输出(LabVIEW)(3-4人) 1)通过话筒,利用声卡采集一段声音 2)显示该段声音的频率分析,分析特点,并存储起来。 3)试着根据存储的声音特色,区别不同的人。 4)存储不同的声音,利用声卡实现回放。 3.虚拟仪器的网络控制(3-4人) 1)设计一个程序控制8个外设小灯的点亮方式,要求两种方式A:每个小灯间隔时间T,依次亮,时间T可调,并循环。B:先1.3.5.7.9亮隔时间T,2.4.6.8.10亮,并循环,T 可调。 2)要求主面板与硬件的8个小灯同步。 3)通过网络在另一台计算机上控制此程序的运行(利用LabVIEW的DateSocket技术) 4.基于NI数据采集卡的虚拟示波器(3-4人) 1):波形来自外来的信号发生器(可以外接,也可以仿真) 2:通过采集此信号(波形采集) 3):主界面要求为一个典型的示波器界面,各个调节按钮的功能应该均具备。 4):要求显示波形的特征量。 5:)存储并回放波形。 5.动态分析仪(3-4人) 1):设计一个典型系统的动态响应的过度过程的分析仪。 2):输入为:单位阶跃、单位斜坡、单位加速度、脉冲输入、正弦。 3):系统为典型的一阶系统和二阶系统。相关参数可调 4):当用户在主界面输入不同的输入及系统时,要求输出其动态响应的时域及频域分析。 5):如果在上述系统中加入延时环节(延时时间可调),对应的动态响应应如何? 6.基于NI数据采集卡的虚拟信号放生器(3-4人)

回归分析方法及其应用中的例子

3.1.2 虚拟变量的应用 例3.1.2.1:为研究美国住房面积的需求,选用3120户家庭为建模样本,回归模型为: 123log log P Y βββ++logQ= 其中:Q ——3120个样本家庭的年住房面积(平方英尺) 横截面数据 P ——家庭所在地的住房单位价格 Y ——家庭收入 经计算:0.247log 0.96log P Y -+logy=4.17 2 0.371R = ()() () 上式中2β=0.247-的价格弹性系数,3β=0.96的收入弹性系数,均符合经济学的常识,即价格上升,住房需求下降,收入上升,住房需求也上升。 但白人家庭与黑人家庭对住房的需求量是不一样的,引进虚拟变量D : 01i D ?=?? 黑人家庭 白人家庭或其他家庭 模型为:112233log log log log D P D P Y D Y βαβαβα+++++logQ= 例3.1.2.2:某省农业生产资料购买力和农民货币收入数据如下:(单位:十亿元) ①根据上述数据建立一元线性回归方程:

? 1.01610.09357y x =+ 20.8821R = 0.2531y S = 67.3266F = ②带虚拟变量的回归模型,因1979年中国农村政策发生重大变化,引入虚拟变量来反映农村政策的变化。 01i D ?=?? 19791979i i <≥年 年 建立回归方程为: ?0.98550.06920.4945y x D =++ ()() () 20.9498R = 0.1751y S = 75.6895F = 虽然上述两个模型都可通过显着性水平检验,但可明显看出带虚拟变量的回归模型其方差解释系数更高,回归的估计误差(y S )更小,说明模型的拟合程度更高,代表性更好。 3.5.4 岭回归的举例说明 企业为用户提供的服务多种多样,那么在这些服务中哪些因素更为重要,各因素之间的重要性差异到底有多大,这些都是满意度研究需要首先解决的问题。国际上比较流行并被实践所验证,比较科学的方法就是利用回归分析确定客户对不同服务因素的需求程度,具体方法如下: 假设某电信运营商的服务界面包括了A1……Am 共M 个界面,那么各界面对总体服务满意度A 的影响可以通过以A 为因变量,以A1……Am 为自变量的回归分析,得出不同界面服务对总体A 的影响系数,从而确定各服务界面对A 的影响大小。 同样,A1服务界面可能会有A11……A1n 共N 个因素的影响,那么利用上述方法也可以计算出A11……A1n 对A1的不同影响系数,由此确定A1界面中的重要因素。 通过两个层次的分析,我们不仅得出各大服务界面对客户总体满意度影响的大小以及不同服务界面上各因素的影响程度,同时也可综合得出某一界面某一因素对总体满意度的影响大小,由此再结合用户满意度评价、与竞争对手的比较等因素来确定每个界面细分因素在以后工作改进中的轻重缓急、重要性差异等,从而起到事半功倍的作用。 例 3.5.4:对某地移动通信公司的服务满意度研究中,利用回归方法分析各服务界面对总体满意度的影响。 a. 直接进入法 显然,这种方法计算的结果中,C 界面不能通过显着性检验,直接利用分析结果是错误

概率论与数理统计课程设计_一元线性回归分析

沈阳理工大学课程设计论文成绩评定表

课程设计任务书

沈阳理工大学课程设计论文 摘要 数理统计是具有广泛应用的数学分支,在生产过程和科学实验中,总会遇到多个变量,同一过程中的这些变量往往是相互依赖,相互制约的,也就是说他们之间存在相互关系,这种相互关系可以分为确定性关系和相关关系。变量之间的确定性关系和相关关系在一定条件下是可以相互转换的。本来具有函数关系的变量,当存在试验误差时,其函数关系往往以相关的形式表现出来相关关系虽然是不确定的,却是一种统计关系,在大量的观察下,往往会呈现出一定的规律性,这种函数称为回归函数或回归方程。回归分析是一种处理变量之间相关关系最常用的统计方法,用它可以寻找隐藏在随机后面的统计规律。确定回归方程,检验回归方程的可信度等是回归分析的主要内容。按回归模型类型可划分为线性回归分析和非线性回归分析。 本文利用概率纶与数理统计中的所学的回归分析知识,对用切削机房进行金属品加工时为了适当地调整机床,测量刀具的磨损速度与测量刀具的厚度间的关系建立数学模型,利用这些数据做出刀具厚度x关于时间y的线性回归方程,并MATLAB 与EXCEL软件对验数据进行分析处理,得出线性回归系数与拟合系数等数据,并用F检验法检验了方法的可行性,同时用分布参数置信区间和假设检验问题,得出了刀具厚度x关于时间y的线性关系显著,并进行了深入研究,提出了小样本常用分布参数的置信区间与假设检验的解决方法。 关键词:统计量法;置信区间;假设检验;线性关系;回归分析

目录 一.设计目的 (1) 二.设计问题 (1) 三.设计原理 (1) 四.方法实现 (5) 五.设计总结 (14) 参考文献 (15) 致谢 ...................................................... 错误!未定义书签。

电子电路设计与制作教学大纲

《电子电路设计与制作》教学大纲1.课程中文名称:电子电路设计与制作 2.课程代码: 3.课程类别:实践教学环节 4.课程性质:必修课 5.课程属性:独立设课 6.电子技术课程理论课总学时:256总学分:16 电子电路设计与制作学时:3周课程设计学分:3 7.适用专业:电子信息类各专业 8.先修课程:电路分析基础、模拟电子技术、数字电子技术、PCB电路设计一、课程设计简介 实验课、课程设计、毕业设计是大学阶段既相互联系又相互区别的三大实践性教学环节。实验课是着眼于实验验证课程的基本理论,培养学生的初步实验技能;毕业设计是针对本专业的要求所进行的全面的综合训练;而课程设计则是针对某几门课程构成的课程群的要求,对学生进行综合性训练,培养学生运用课程群中所学到的理论学以致用,独立地解决实际问题。电子电路设计与制作是电子信息类各专业必不可少的重要实践环节,它包括设计方案的选择、设计方案的论证、方案的电路原理图设计、印制板电路(即PCB)设计、元器件的选型、元器件在PCB板上的安装与焊接,电路的调试,撰写设计报告等实践内容。电子电路设计与制作的全过程是以学生自学为主,实践操作为主,教师的讲授、指导、讨论和研究相结合为辅的方式进行,着重就设计题目的要求对设计思路、设计方案的形成、电路调试和参数测量等展开讨论。 由指导教师下达设计任务书(学生自选题目需要通过指导教师和教研室共同审核批准),讲解示范的案例,指导学生各自对自己考虑到的多种可行的设计方案进行

比较,选择其中的最佳方案并进行论证,制作出满足设计要求的电子产品,撰写设计报告。需要注意是,设计方案的原理图须经Proteus软件仿真确信无误后,才能进行印刷电路图的制作,硬件电路的制作,以避免造成覆铜板、元器件等材料的浪费。电路系统经反复调试,完全达到(或超过)设计要求后,再完善设计报告。设计的整个过程在创新实验室或电子工艺实验室中完成。 二、电子电路设计与制作的教学目标与基本要求 教学目标: 1、通过课程设计巩固、深化和扩展学生的理论知识,提高综合运用知识的能力,逐步提升从事工程设计的能力。 2、注重培养学生正确的工程设计思想,掌握工程设计的思路、内容、步骤和方法。使学生能根据设计要求和性能参数,查阅文献资料,收集、分析类似电路的性能,并通过设计、安装、焊接、调试等实践过程,使电子产品达到设计任务书中要求的性能指标的能力。 3、为后续的毕业设计打好基础。课程设计的着眼点是让学生开始从理论学习的轨道上逐渐转向实际运用,从已学过的定性分析、定量计算的方法,逐步掌握工程设计的步骤和方法,了解工程设计的程序和实施方法;通过课程设计的训练,可以给毕业设计提供坚实的铺垫。 4、培养学生获取信息和综合处理信息的能力,文字和语言表达能力以及协调工作能力。课程设计报告的撰写,为今后从事技术工作撰写科技报告和技术文件打下基础。 5、提高学生运用所学的理论知识和技能解决实际问题的能力及其基本工程素质。 基本要求: 1、能够根据设计任务和指标要求,综合运用电路分析、电子技术课程中所学到的理论知识与实践操作技能独立完成一个设计课题的工程设计能力。 2、会根据课题需要选择参考书籍,查阅手册、图表等有关文献资料。能独立思考、深入钻研课程设计中所遇到的问题,培养自己分析问韪、解决问题的能力。

数理统计课程设计一元线性回归

二氧化碳吸附量与活性炭孔隙结构的线性回归分析 摘要:本文搜集了不同孔径下不同孔容的活性炭与CO2吸附量的实验数据。分别以同一孔径下的不同孔容作为自变量,CO2吸附量作为因变量,作出散点图。选取分布大致呈直线的一组数据为拟合的样本数据.对样本数据利用最小二乘法进行回归分析,参数确定,并对分析结果进行显著性检验。同时利用ma tl ab 的r egress 函数进行直线拟合。结果表明:孔径在3。 0~ 3. 5 nm 之间的孔容和CO2吸附量之间存在较好的线性关系。 关键字:活性炭 孔容 CO2吸附量 m atla b 一、问题分析 1。1.数据的收集和处理 本文主要研究同一孔径的孔容的活性炭和co2吸附量之间的线性关系,有关实验数据是借鉴张双全,罗雪岭等人的研究成果[1]。以太西无烟煤为原料、硝酸钾为添加剂,将煤粉、添加剂和煤焦油经过充分混合后挤压成条状,在600℃下炭化15 min,然后用水蒸气分别在920℃和860℃下活化一定时间得到2组活性炭,测定了CO2吸附等温线,探讨了2组不同工艺制备的活性炭的C O2吸附量和孔容的关系.数据如下表所示: 表1:孔分布与CO2吸附值 编号1~12是在不同添加剂量,温度,活化时间处理下的对照组。因为处理方式不同得到不同结果是互不影响的,可以看出C O2的吸附量的值是互相独立 编号 孔容/(11 10L g μ--?) CO 2吸附 量 1/()mL g -? 0。5~0。8nm 0.8~1.2nm 1。2~1。8nm 1.8~2。2nm 2.2~2。2n m 2。5~3。0nm 3.0~3。5 nm 1 7.18 16.2 24.4 75.2 70 96 115 64 2 6.59 14.4 18.4 53.7 50 85。6 91 55.1 3 4.5 4 11 18.9 71 6 5 78.3 91 53.7 4 5.13 13.4 29。9 10。3 90 7 6 122 53。 7 5 4.16 10.5 18。9 83.8 78 80。5 113 61。7 6 4。92 12。1 23.4 81.6 72 56 99 53.6 7 5.0 8 12.6 23.8 93.5 86 77.8 122 65。5 8 5.29 13 25。1 88.4 69 66.4 107 57。7 9 7.47 16.9 26.9 46。4 78 93.2 107 58.2 10 5.44 13 21.4 44.1 91 98.6 137 76。6 11 1。81 64。6 18.3 53.1 114 110 142 75 12 1.24 27.7 39。5 126 114 98。6 183 98.7

数理统计结课论文

数理统计中回归分析的探究与应用

回归分析问题探究 摘要 本文主要针对数理统计中的回归分析问题,通过对一元线性回归、多元线性回归以及非线性回归原理的探究,分别运用了SPSS和MATLAB软件进行实例分析以及进一步的学习。 首先,通过变量之间关系的概念诠释引出回归函数;其次,针 对回归函数,分别对一元线性回归原理上的学习,了解并会运用这三种线性回归模型、参数估计和回归系数的显著性检验来处理和解决实际的一元线性回归问题;接着,对多元线性回归和非线性回归进行学习,掌握它们与一元线性回归在理论和实践的联系与区别;然后,通过实际问题运用SPSS进行简单的分析,熟悉SPSS软件的使用步骤和分析方法,能够运用SPSS进行简单的数理分析;最后,用MATLAB编程来处理线性回归问题,通过多种方法进行比较,进行线性回归拟合计算并输出Logistic模型拟合曲线。 关键词:回归分析;一元线性回归;多元线性回归;非线性回归;SPSS;MATLAB

一、回归概念 一般来说,变量之间的关系大致可以分为两类:一类是确定性的,即变量之间的关系可以用函数的关系来表达;另一类是非确定性的,这种不确定的关系成为相关关系。相关关系是多种多样的,回归分析就是研究相关关系的数理统计方法。它从统计数据出发,提供建立变量之间相关关系的近似数学表达式——经验公式的方法,给出相关行的检验规则,并运用经验公式达到预测与控制的目的。 如随机变量Y与变量x(可能是多维变量)之间的关系,当自变量x确定后,因变量Y 的值并不跟着确定,而是按照一定的停机规律(随机变量Y的分布)取值。这是我们将它们之间的关系表示为 其中是一个确定的函数,称之为回归函数,为随机项,且。回归分析 的任务之一就是确定回归函数。当是一元线性函数形时,称之为一元线性回归;当 是多元线性函数形时,称之为多元线性回归;当是非线性函数形时,称之为非线性回归。 二、回归分析 2.1 一元线性回归分析 2.1.1 一元线性回归模型 设随机变量Y与x之间存在着某种相关关系,这里x是可以控制或可以精确测量的普通变量。对于取定的一组不完全相同的值做独立实验得到n对观察值 一般地,假定x与Y之间存在的相关关系可以表示为 , 其中为随机误差且,未知,a和b都是未知参数。这个数学模型成为医院 线性回归模型,称为回归方程,它所代表的直线称为回归直线,称b为回归系数。 对于一元线性回归模型,显然有。

回归分析方法应用实例

4、回归分析方法应用实例 在制定运动员选材标准时,理论上要求先对不同年龄的运动员,各测试一个较大的样本,然后,计算出各年龄的平均数、标准差,再来制定标准。 但是,在实际工作中,有时某些年龄组不能测到较大的样本。这时能不能使用统计的方法,进行处理呢? 我们遇到一个实例。测得45名11至18岁男田径运动员的立定三级跳远数据。其各年龄组人数分布如表一。由于受到许多客观因素的限制,一时无法再扩大样本,因此决定使用统计方法进行处理。 第一步,首先用原始数据做散点图,并通过添加趋势线,看数据的变化趋势是否符合随年龄增长而变化的趋势,决定能否使用回归方程制定标准。如果趋势线不符合随年龄增长而变化的趋势,或者相关程度很差就不能用了。 本例作出的散点图如图1,图上用一元回归方法添加趋势线,并计算出年龄和立定三级跳远的: 一元回归方程:Y=2.5836+0.3392 X 相关系数 r=0.7945(P<0.01) 由于从趋势线可以看出,立定三级跳远的成绩是随年龄增加而逐渐增加,符合青少年的发育特点。而且, 相关系数r=0.7945,呈高度相关。因此,可以认为计算出的一元回归方程,反映了11至18岁男运动员年龄和立定三级跳远成绩的线性关系。决定用一元回归方程来制定各年龄组的标准。 第二步,用一元回归方程:Y=2.5836+0.3392 X 推算出各年龄的立定三级跳远回归值,作为各年龄组的第2等标准。 第三步,用45人的立定三级跳远数据计算出标准差为:0.8271。由于在正态分布下,如把平均数作为标准约有50%的人可达到标准,用平均数-0.25标准差制定标准则约有60%的人可达到,用平均数+0.25、+0.52、+0.84标准差制定标准约有40%、30%、20%的人可达到标准。本例用各年龄组回归值-0.25标准差、+0.25标准差、+0.52标准差、+0.84标准差计算出1至5等标准如表2、图2。

应用回归分析

第五章 自变量选择对回归参数的估计有何影响 答:全模型正确而误用选模型时,我们舍去了m-p 个自变量,用剩下的p 个自变量去建立选模型,参数估计值是全模型相应参数的有偏估计。选模型正确而误用全模型时,参数估计值是选模型相应参数的有偏估计。 自变量选择对回归预测有何影响 (一)全模型正确而误用选模型的情况 估计系数有偏,选模型的预测是有偏的,选模型的参数估计有较小的方差,选模型的预测残差有较小的方差,选模型预测的均方误差比全模型预测的方差更小。 (二)选模型正确而误用全模型的情况 全模型的预测值是有偏的,全模型的预测方差的选模型的大,全模型的预测误差将更大。 如果所建模型主要用于预测,应该用哪个准则来衡量回归方程的优劣 答:应该用自由度调整复决定系数达到最大的准则。当给模型增加自变量时,复决定系数也随之增大,然而复决定系数的增大代价是残差自由度的减小,自由度小意味着估计和预测的可靠性低。应用自由度调整复决定系数达到最大的准则可以克服样本决定系数的这一缺点,把2 R 给予适当的修正,使得只有加入“有意义”的变量时,经过修正的样本决定系数才会增加,从而提高预测的精度。 试述前进法的思想方法。 解:主要是变量由少到多,每次增加一个,直至没有可引入的变量为止。 具体做法是:首先将全部m 个自变量,分别对因变量y 建立m 个一元线性回归方程,并分别计算这m 个一元回归方程的m 个回归系数的F 检验值,记为 111 12{,,,} m F F F ,选其最大者 1111 12max{,, ,} j m F F F F =,给定显著性水平α,若 1(1,2) j F F n α≥-,则首先将 j x 引入回 归方程,假设 1 j x x =。其次,将 12131(,),(,),,(,)m y x x x x x x 分别与建立m-1个二元线性 回归方程,对这m-1个回归方程中 23,, ,m x x x 的回归系数进行F 检验,计算F 值,记为 222 23{,, ,} m F F F ,选其最大的记为 2222 23max{,, ,} j m F F F F =,若 2(1,3) j F F n α≥-,则 接着将j x 引入回归方程。以上述方法做下去。直至所有未被引入方程的自变量的F 值均小

用结点电压法求解含源网络-电路分析基础课程设计

用结点电压法求解含源网络 周全(5030309773) 结点电压法是一种运用范围较广的分析方法,用结点电压法分析含源网络时需要注意的是: 1.列方程前,应把实际电压源模型等效变换为实际电流模型; 2.理想电压源去路中的电流不能忽略 3.与理想电流源串联的元件应看成短路; 4.将受控源按独立源处理,并用结点电压表示其控制量 一、常规题: 例:列出图中电路的结点电压方程 解:取与理想电压源去路所连的两个结点之一的①为参考结点,这时结点②的 电压=1V ,可作为已知量,因此不必列写结点②的结点电压方程,对结点③,④的结点电压方程为: 2322341(11)330.5111(11)30.50.20.51n n n n n n u u u u u u ?+++=+??++++=???????? 2?4 补充方程 2n u u =? 把 u 2=1V 和 u 2=-u n4 代入方程组,整理即得 3434293 n n n n u u u u +=???+=??

二、用结点电压分析法求解电路时碰到的非常规情况: 用结点电压分析法求解的常规情况很多书上都有相应的题目,但我在做题时发现了一道用节点电压法解。 例:用结点电压法求解图示电路u 和u 3 解:选结点③为参考结点,对①,②列方程 121211(21)2(11)5n n n n n u u u u u u +?=???++=??=? 1u 0 整理以上方程可得 12123262n n n n u u u u ?=???+=? 可以看出,该方程无解,此题说明,当电路中含有受控源时,有可能解不存在,而对一个实际的物理系统来说,解应该是存在的,这道题当时做时很容易想为什么解不出,却没想到这题模型本来就是不合实际电路的,而答案正是要我们发现这一点,所以我觉得这道题还是很巧妙的。

应用统计学结课论文

《应用统计学》结课论文——浅析人口自然增长率与经济发展的关系 系别:工程管理 专业:工程管理 班级:B110804班 姓名: 学号:

浅析人口自然增长率与经济发展的关系 工程管理 B110804班 摘要:十八届三中全会为解决中国老龄化问题,使中国人口稳定分布出台了“单独二胎”政策。早在上个世纪70年代为控制人口增长我国开展了计划生育政策使当时的人口增长率迅速降下降,接近世代更替水平。此后,人口自然增长率很大程度上与经济的发展等各方面的因素相联系,与经济生活息息相关。本文从经济方面出发,研究国民收入和人均JDP对人口自然增长率的影响,运用回归方程更加形象具体的展现经济水平对人口的影响。 关键字:人口自然增长率;国民收入;人均JDP;回归方程; 引言: 影响中国人口自然增长率的因素有很多,但据主要因素可能有:(1)从宏观经济上看,经济整体增长是人口自然增长的基本源泉;(2)居民消费水平,它的高低可能会间接影响人口增长率。(3)文化程度,由于教育年限的高低,相应会转变人的传统观念,可能会间接影响人口自然增长率(4)人口分布,非农业与农业人口的比率也会对人口增长率有相应的影响。(5)男女性别比例,现有的男女性别比例可能会影响下一代的人口增长率。 为了全面反映中国“人口自然增长率”的全貌,选择人口增长率作为被解释变量,以反映中国人口的增长;选择“国民收入”和“人均GDP”作为经济整体增长的代表,暂不考虑文化程度、人口分布还有男女比例的影响。 一、模型设定 1、理论分析 人口增长与经济发展的关系问题是一个长期以来一直困扰人类和社会发展的问题,只是不同时期问题的侧重点不同而已。有些理论强调人口增长对经济发展的消极影响,有些则强调积极影响。 对于人口增长与经济发展的关系问题的讨论最有影响的文献当推马尔萨斯在1798年发表的《人口论》。马尔萨斯的先验假设是,粮食生产充其量以算术级数增长,而人口(如果没有其他因素的制约)将以几何级数增长,其结果是产生大量的“过剩人口”。这种过剩人口只能以饥荒、瘟疫、战争等消极手段或独身、节欲等积极手段来消除。马尔萨斯的人口论隐含:1)人口增长受到粮食供应或土地等自然资源的约束,当因人口增长过快造成失衡

应用回归课程教学设计

应用回归分析 课程设计报告 课程:应用回归分析 题目:人均可支配收入的分析年级:11金统 专业:金融统计 学号: 姓名: 指导教师: 徐州师范大学 数学科学学院

基于多元线性回归模型对我国城镇居民家 庭人均可支配收入的分析 摘要:收入分配和消费结构都是国民经济的重要课题居民消费的主要来源 是居民收入而消费又是拉动经济增长的重要因素。本文将通过多远统计分析方法对我国各地区城镇居民收入的现状进行分析。通过分析找出我国城镇居民收入特点及其中存在的不足。城镇居民可支配收入是检验我国社会主义现代化进程的一个标准。本文根据我国城镇居民家庭人均可支配收入为研究对象,选取可能影响我国城镇居民家庭人均可支配收入的城乡居民储蓄存款年底余额、城乡居民储蓄存款年增加额、国民总收入、职工基本就业情况、城镇居民家庭恩格尔系数(%)5个因素,运用多元线性回归分析建立模型,先运用普通最小二乘估计求回归系数再对方程进行异方差、自相关、和多重共线性诊断,用迭代法消除了自变量之间的自相关。对于多重共线性问题,先是用逐步回归和剔除变量的方法,最终转变为用方差扩大因子法城乡居民储蓄存款年增加额剔除城镇居民家庭恩格尔系数(%) 解决多重共线性,建立最终回归方程 432108.0039.0012.0470.5305x x x y +++-=∧ 标准化回归方程 ** 3*24108.0863.0031.0x x x y ++=∧ 以其探究最后进入回归方程的几个变量在影响城镇居民收入孰轻孰重,达到学习与生活结合的效果。分析出影响城镇居民收入的主要原因,并对模型联系实际进行分析,以供国家进行决策做参考。 关键词:多元线性回归 异方差 自相关 多重共线性 逐步回归 方差扩 大因子 (一)引言: 改革开放以来我国的国民经济增长迅速居民的收入水平也大幅提高但居

用矩阵方法使网孔分析法通解-电路分析基础课程设计

用矩阵方法使网孔分析法通解 黄明康 5030309754 F0303025 在网络电路的学习中,我们一般使用结点分析法与网孔分析法。我们知道他们有各自的用途,但其实如果使用得当,只用其中的一个方法就可以解所有目前已经可解得网络电路。而在我看来这得当的使用就是巧妙运用数学。之所以如此,我认为是因为结点分析法的基础KCL与网孔分析法的基础KVL是相容的,即可以用结点分析法的地方就可以用网孔分析法解题。 先来看个例子,从网孔分析法说起,如图(1)所示,是一个非常适合用结点分析法与网孔分析法解题的网络。 正如上课时所做的,我们用网孔分析法解之,以im1、im2、im3为支路电流列出回路的矩阵方程,方程如式(2)。

最左边的矩阵是各回路的电阻矩阵,解出此方程,再根据VCR就能得出整个网路电路的各个参数。由于篇幅所限,也由于这已是大家皆知的常规方法,对于为何使用这种方法及其可用性、使用方法等在此不再冗述。 而我关心的是,这种方法是在这么一个可以说是完美的电路网络中运用的,所以一旦电路中的某个器件变了,可能使这种方法不可用。而其实上课时已经提出了这种问题,也给出了改进了的解题方法——运用网路电路的一些性质化解电路成可用网孔分析法的电路。 但这种方法在解题中会使不熟练的我不经意中掉入“陷阱”。我更愿意用以下的方法用数学解题,这样可以使我们不必太过计较概念。 对于我的方法,也请先看一个例子,如图(3): 这样,这个电路就不能单纯的运用网孔分析法了。那么按之前所述,运用网路电路的一些性质化解电路成可用网孔分析法的电路,然后解之,正如图(4)

a 和图(4) b 中所示过程。 然后得出电阻网络矩阵方程,解出所要的量。 对于以上的例题,也有所谓的虚网孔电流法如式(5): 其实,虚网孔电流法仅仅只是根据我们在网孔分析法的引出中得出的规律重新又列出了简单的方程组,这跟我们最初想要使用结点分析法和网孔分析法的初衷不符,初衷是按给出的网络电路图直接写出矩阵方程。这样就使我们可以更好的应对复杂的网络。 当然,也正是虚网孔电流法使我想起了网孔分析法的一般矩阵解法。仍就看图(3):

回归分析课程设计(最终版)

回归分析课程设计 (题目) (副标题) 指导教师 学院名称专业名称 设计提交日期年月

目录 1.课程设计简述-------------------------------------------------------2 2.多元线性回归-------------------------------------------------------3 3.违背基本假设的情况------------------------------------------------5 3.1 异方差性-------------------------------------------------------5 3.2 自相关性-------------------------------------------------------6 3.3 异常值检验-----------------------------------------------------6 4.自变量的选择与逐步回归--------------------------------------------7 4.1 所有子集回归---------------------------------------------------7 4.2 逐步回归--------------------------------------------------------8 5.多重共线性的情形及其处理-----------------------------------------10 5.1 多重共线性诊断------------------------------------------------10 5.2 消除多重共线性------------------------------------------------11 6.岭回归--------------------------------------------------------------12 7.主成分回归----------------------------------------------------------14 8.含定性变量的回归模型------------------------------------------------ 9.附录(程序代码)-----------------------------------------------------

多元线性回归实例分析

SPSS--回归-多元线性回归模型案例解析!(一) 多元线性回归,主要是研究一个因变量与多个自变量之间的相关关系,跟一元回归原理差不多,区别在于影响因素(自变量)更多些而已,例如:一元线性回归方程为: 毫无疑问,多元线性回归方程应该为: 上图中的x1, x2, xp分别代表“自变量”Xp截止,代表有P个自变量,如果有“N组样本,那么这个多元线性回归,将会组成一个矩阵,如下图所示: 那么,多元线性回归方程矩阵形式为: 其中:代表随机误差,其中随机误差分为:可解释的误差和不可解释的误差,随机误差必须满足以下四个条件,多元线性方程才有意义(一元线性方程也一样) 1:服成正太分布,即指:随机误差必须是服成正太分别的随机变量。 2:无偏性假设,即指:期望值为0 3:同共方差性假设,即指,所有的随机误差变量方差都相等 4:独立性假设,即指:所有的随机误差变量都相互独立,可以用协方差解释。 今天跟大家一起讨论一下,SPSS---多元线性回归的具体操作过程,下面以教程教程数据为例,分析汽车特征与汽车销售量之间的关系。通过分析汽车特征跟汽车销售量的关系,建立拟合多元线性回归模型。数据如下图所示:

点击“分析”——回归——线性——进入如下图所示的界面:

将“销售量”作为“因变量”拖入因变量框内,将“车长,车宽,耗油率,车净重等10个自变量拖入自变量框内,如上图所示,在“方法”旁边,选择“逐步”,当然,你也可以选择其它的方式,如果你选择“进入”默认的方式,在分析结果中,将会得到如下图所示的结果:(所有的自变量,都会强行进入) 如果你选择“逐步”这个方法,将会得到如下图所示的结果:(将会根据预先设定的“F统计量的概率值进行筛选,最先进入回归方程的“自变量”应该是跟“因变量”关系最为密切,贡献最大的,如下图可以看出,车的价格和车轴跟因变量关系最为密切,符合判断条件的概率值必须小于0.05,当概率值大于等于0.1时将会被剔除)

电子课程设计报告书写要求

电子课程设计报告书写要 求 Prepared on 22 November 2020

电子课程设计报告书写要求 (以数字电子钟为例) 1、封面(按以前的封面格式) 2、任务书 3、正文 一、数字电子钟总体设计方案 依据数字电子钟的任务要求,设计的总体方案如图1-1所示 图1-1 数字电子钟总体方案 (下面对总体原理进行说明)。。。。。。 二、各模块原理设计和分析 1、时基电路模块设计 本设计的时基电路模块由两个独立分模块组成,一个是由555定时器和RC 构成的秒脉冲电路;另一个是由的晶振和CD4060构成的振荡器,分频器构成的2Hz时基电路。 (1)555构成的秒脉冲电路 设计的555秒脉冲电路如图2-1所示 (电路工作原理阐述。。。。。。) (画出555振荡波形参考课件,给图标2-2) 参数计算 (列出振荡周期表达式,给定R80、R81和C10参数计 算周期) (2)晶振和CD4060构成的振荡分频电路 本设计采用频率为的晶振和CD4060构成精确的时基电路,见图2-3。 电路原理。。。。。。

由于晶振的频率为=215Hz,通过CD4060的14级分频输出为2Hz,必须再经过一次2分频才能实现秒脉冲,设计的2分频电路如图2-4所示。。。。。。。 图 2-4 晶振秒脉冲时基电 路 2、计时电路模块设计 该模块分别由” 秒”计数电路、”分”计 数电路和”小时”计数电路构成;秒和分都是60进制,小时是24进制,设计采用CD4518做计数器。 (1) CD4518计数器分析 CD4518是双8421-BCD编码同步加法计数 器如图2-5所示。 。。。。。。 列出CD4518的功能表和时序图(2-6)和 文字说明 (2)60进制电路设计 分和秒都是60进制,电路原理和 结构相同。60进制电路如图2-7所示。 电路原理。。。。。。 (3)24进制电路设计

应用回归分析课程设计

课程设计报告 课程:应用回归分析学号: 姓名: 班级:12金统 教师:周勤 江苏师范大学 科文学院

《应用回归分析》 课程设计指导书 一、课程设计的目的 1. 加深理解本课程的研究方法、思想精髓,提高解决实际问题的能力,熟 练掌握SPSS常用统计软件的应用。 2. 通过学习达到熟练掌握一元线性回归建模过程,熟悉一元线性回归建模 步骤;掌握模型选择,参数估计,模型检验,模型优化和模型预测的方法。 3. 掌握诊断序列自相关性(或异方差性)的方法,并能给出消除自相关性 (或异方差性)的方法。 4. 能够根据历史数据,对未来走势作出预测;可以处理一些简单的经济问 题。 二、设计名称: 检验1949年-2012年农林牧渔业总产值和农业产值之间的关系。 三、设计要求 1.数据来源要真实,必须注明数据的出处。 2.尽量使用计算机软件分析,说明算法或过程。 3.必须利用到应用回归分析的统计知识。 4.独立完成,不得有相同或相近的课程设计。 四、设计过程 1.思考研究课题,准备搜集数据。 2.确立课题,利用图书馆、上网等方式方法搜集数据。 3.利用机房实验室等学校给予的便利措施开始分析处理数据。 4.根据试验结果,写出课程设计报告书。 5.对实验设计报告书进行完善,并最终定稿。 五、设计细则 1.利用的统计学软件主要为SPSS,因为其方便快捷,功能也很强大,界面美 观。 2.对Word文档进行编辑的时候,有些特殊的数学符号需要利用Mathtype这 款小软件进行编辑。 3.数据来自较权威机构,增加分析的准确性与可靠性。 4.力求主题突出,观点鲜明,叙述简洁明了。 六、说明 1.数据来源于江苏统计年鉴2013; 2.所选取数据可能不会涉及到所学的各种分析方法,本课程设计最后会对此 情况作出解释。 3.本课程设计中,取显著性水平为 =0.05,对于分析中需要用到的数据做 加粗处理

应用回归课程论文

四川理工学院 《应用回归分析课程设计》报告 题目: 中国地方财政教育支出的影响因素分析 学生:雷鹏程何君李西京 曾学成白俊明 专业:统计学 指导教师:张海燕 四川理工学院理学院 二零一四年十二月

摘要 本文主要研究中国地方财政教育支出主要的影响因素,针对影响地方财政教育支出的主要因素进行了分析。选取了5个影响指标作为方程的初始自变量,建立起了影响地方财政教育支出的线性回归模型,利用SPSS软件对地方财政教育支出进行初步线性回归分析,以及利用逐步回归方法解决了自变量之间的多重共线性,并对模型的异方差进行了检验和自相关性的检验,进而得到修正后的回归模型,并对回归模型进行了分析,得到方程效果良好的结论,指出模型的应用价值。在此基础上同时给出相应的政策与建议。 关键字:多元线性回归、逐步回归、自相关。

一、问题提出 改革开放以来,随着经济的快速增长,中国各级政府对教育的投入不断增加。2012年中央和地方公共财政预算、政府性基金预算用于教育的预算支出21994亿元,达到了占国内生产总值4%的目标。据财政部公布的数据,2011年,全国中央和地方财政的教育支出16497亿元,占全部财政支出的15.1%,其中,中央财政教育支出999亿元,地方财政支出15498亿元。在全国中央和地方财政的教育支出中,地方财政的教育支出约占94%,地方财政支出是财政教育经费的主要来源。然而,由于各地区社会经济发展差异较大,各地区财政的教育支出水平也差异明显。2011年人均地方财政教育支出最低的湖南仅为819.99元,北京是湖南的3.14倍。为了研究影响中国地方财政教育支出差异的主要原因,分析地方财政教育支出增长的数量规律,预测中国地方财政教育支出的增长趋势,需要建立起经济回归模型,。 二、模型设定 为了全面反映中国地方财政教育经费支出的差异,选择地方财政教育支出为被解释变量。根据对影响中国地方财政教育支出主要因素的分析,选择“地区生产总值”作为地区经济规模的代表;各地区居民对教育模式的需求,选择各地区“年末人口数量”作为代表。选择“居民平均每人教育现金消费”代表居民对教育质量的需求;选择居民教育消费价格指数作为价格变动影响的因素,地方政府教育投入的能力与意愿难以直接量化,选择“教育支出在地方支出中的比重”作为其代表。以国家统计局已经公布的2011年31个省份的数据为样本从《中国统计年鉴2012》可以收集到数据。 三、模型建立与求解 鉴于数据的可获性以及影响的重要性,对于地方财政教育支出的主要影响因素我们主要选取了以下五个影响因素:地区生产总值、年末人口数、居民平均每人教育现金消费、CPI(居民消费价格指数)、教育支出在地方财政支出中的比重。我们的数据来源于国家统计公布的2011年31个省份为数据样本参考附录表[1],经过对这31个省份的经济数据进行分析,设定“地区生产总值”为1x ,年末人口数为2x ,居民平均每人教育现金消费为3x ,CPI 为4x ,教育支出在地方财政支出中的比重为5x ,作为自变量;地方财政教育支出设为y ,作为因变量。根据

相关文档
最新文档