概率论与数理统计课程设计_一元线性回归分析

概率论与数理统计课程设计_一元线性回归分析
概率论与数理统计课程设计_一元线性回归分析

沈阳理工大学课程设计论文成绩评定表

课程设计任务书

沈阳理工大学课程设计论文

摘要

数理统计是具有广泛应用的数学分支,在生产过程和科学实验中,总会遇到多个变量,同一过程中的这些变量往往是相互依赖,相互制约的,也就是说他们之间存在相互关系,这种相互关系可以分为确定性关系和相关关系。变量之间的确定性关系和相关关系在一定条件下是可以相互转换的。本来具有函数关系的变量,当存在试验误差时,其函数关系往往以相关的形式表现出来相关关系虽然是不确定的,却是一种统计关系,在大量的观察下,往往会呈现出一定的规律性,这种函数称为回归函数或回归方程。回归分析是一种处理变量之间相关关系最常用的统计方法,用它可以寻找隐藏在随机后面的统计规律。确定回归方程,检验回归方程的可信度等是回归分析的主要内容。按回归模型类型可划分为线性回归分析和非线性回归分析。

本文利用概率纶与数理统计中的所学的回归分析知识,对用切削机房进行金属品加工时为了适当地调整机床,测量刀具的磨损速度与测量刀具的厚度间的关系建立数学模型,利用这些数据做出刀具厚度x关于时间y的线性回归方程,并MATLAB 与EXCEL软件对验数据进行分析处理,得出线性回归系数与拟合系数等数据,并用F检验法检验了方法的可行性,同时用分布参数置信区间和假设检验问题,得出了刀具厚度x关于时间y的线性关系显著,并进行了深入研究,提出了小样本常用分布参数的置信区间与假设检验的解决方法。

关键词:统计量法;置信区间;假设检验;线性关系;回归分析

目录

一.设计目的 (1)

二.设计问题 (1)

三.设计原理 (1)

四.方法实现 (5)

五.设计总结 (14)

参考文献 (15)

致谢 ...................................................... 错误!未定义书签。

沈阳理工大学课程设计论文

一.设计目的

了解一元回归方程,回归系数的检验方法及应用一元回归方程进行预测的方法;学会应用MATLAB软件进行一元回归实验的分析方法。同时更好的了解概率论与数理统计的知识,熟练掌握概率论与数理统计在实际问题上的应用,并将所学的知识结合Excel对数据的处理解决实际问题。本设计是利用一元线性回归理论对用切削机房进行金属品加工时为了适当地调整机床,测量刀具的磨损速度与测量刀具的厚度间的关系建立数学模型,并用Excel分析工具库中的回归分析软件进行解算。

二.设计问题

用切削机床进行金属加工时,为了适当地调节机床,需要测定刀具的磨损速

由此,我们利用这些数据做出刀具厚度x关于时间y的线性回归方程。三.设计原理

在实际问题中,经常会出现两个变量之间的相关关系不是线性的(即直线

型),而是非线性的(即曲线型)。设其中有两个变量x 与y ,我们可以用一个

确定函数关系式:)(x y x

=

大致的描述y 与x 之间的相关关系,函数)(x u 称为y 关于x

的回归函数,

方程)(x u y

=称为y 关于x

的回归方程。

一元线性回归处理的是两个变量

x 与y 之间的线性关系,可以设想y 的值由两部分构成:一部分由自变量x 的线性影响所致,表示x 的线性函数

bx

a +;另一部分则由众多其他因素,包括随机因素的影响所致,这一部

分可以视为随机误差项,记为

ε。可得一元线性回归模型

ε++=bx a y (1)

式中,自变量x 是可以控制的随机变量,成为回归变量;固定的未知参数a,b 成为回归系数;y 称为响应变量或因变量。由于ε是随机误差,根据中心极限

定理,通常假定),0(~2

σεN ,2σ是未知参数。

确定y 与x 之间的关系前,可根据专业知识或散点图,选择适当的曲线

回归方程,而这些方程往往可以化为线性方程或者就是线性方程,因此我们可以用线性方程:

bx

a y +=大致描述变量

y 与x

之间的关系;

1)模型回归系数的估计

为了估计回归系数,假定试验得到两个变量

x 与y 的n 个数据对

(),3,2,1,,n i

y x i i =我们将这n 对观测值代入式(1)

,得

n i bx a y n i i ,3,2,1, =++=ε

这里n εεε,,,21 互独立的随机变量,均服从正态分布,即

n ,1,2,3i ),~N(0,2 =σε

回归系数估计的方法有多种,其中使用最广泛的是最小二乘法,即要求选

取的

a ,

b , 的值使得述随机误差ε 的平方和达到最小,即求使得函数

()()∑∑==--=

=

n

i i i

n

i i

bx a y b a Q 1

2

2

1

取得最小值的

a ,

b 。

由于()b a Q

,是a ,b 的二元函数,利用微积分中的函数存在极值的必要

条件,分别对()b a Q ,求a ,b 偏导数,并令其为0,构成二元一次方程组

∑==--n

i

i i bx a y 0

0)(,

∑===--0

1

0)(i i

i i i x bx a y ,

化简后得到如下正规方程组 ,)(11∑∑===

+n

i n

i

i i y b x na a .)()(1

1

1

2

∑∑∑====

+n

i

i i n i n

i i i y x b x a x 解方程组得到总体参数

b a ,估计量

∑∑-=

i i

x n

b

n

a y 1

?1

?,∑∑∑∑∑--=

2

2

)

(?i i i i i i x x n y x y x n b

这里, )2,1(和n i y x i i =均已有的观测数据。 由此得到回归方程

x b

a y ??+= 带入观测i x ,得到值i y 称为回归预测值。方程的直线称为回归直线。

2)回归方程显著性检验

建立一元线性回归方程当且仅当变量之间存在线性相关关系时才是有意义的,因此必须对变量之间的线性相关的显著性进行检验,即对建立的回归模型进行显著性检验。

我们首先引入几个概念:

(1) ∑=-=

n

i

T y y SS 1

i 2)(,称为T SS 总偏差平方和,它表示观测值i y 总的

分散程度;

(2) ∑=-=

n

i

R y y SS 1

i 2)?(,称R SS 为回归平方和,它是由回归变量x 的变

化引起的,放映了回归变量x 对变量y 线性关系的密切程度;

(3) ∑=-=

n

i i E y y SS 1

i 2

)?(,称E SS 为残差(剩余)平方和,它是由观测误差等其他因素起误差,它的值越小说明回归方程与原数据拟合越好。

可以证明下列关系成立 E R T

SS SS SS +=

∑=-n

i

y y 1

i 2

)(=∑=-n

i y y 1

i 2

)?(+ ∑=-n

i i y y 1

i 2)?(

我们主要考虑回归平方和在总偏差和中所占的比重,记T

R

SS SS R =

2。(0<=R<=1 ),称R 为复相关系数,用R 的大小来评价模型的有效性,R 越大,则反映回归变量与相应变量之间的线性函数关系越密切。引入F 统计量。

定义)

2(-=

n SS SS F E

R ,可知F~F (1,n-2).对于给定的显著水平a(一般这里

取0.05或0.01),查表可得临界值F a (1,n-2)

如果F> F α(1,n-2),则认为y 与x 之间的线性关系显著;如果F<= F α(1,n-2),则认为y 与x 之间的线性关系不显著,或者不存在线性关系,在实际应用中也可以通过F 对应的概率P<α来说明y 与x 之间的线性相关性显著。

3)回归系数的置信区间

回归方程(1)的回归系统^

a ,^

b 是一个点估计值,给定置信水平1-α后,可得到他们对应的置信区间,并且回归区间越短越好,如果摸个回归系数的置信区间包含0点,则说明该回归变量的影响不显著,需要进一步地修改回归方程,尽量是每个回归系数的置信区间都不包含0点。

4)利用模型预测

在对所建立的回归模型进行相关程度检验与分析之后,如果预测变量y 与相关变量x 的每一个给定值x 0,带入回归模型,就可以求得一个相对应的回归预测值0^

y ,0^

y 称为模型的点估计值。

四.方法实现

(1)输入数据,并输入作散点图命令:

>> y=[30 29.1 28.4 28.1 28.0 27.7 27.5 27.2 27.0 26.8 26.5 26.3 26.1 25.7 25.3 24.8 24.0 23.7 23.1 22.9 22.6 22.3 22.1 21.7 21.5 21.3 21.0 20.6 20.3 20.1];

>> x=[0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29];

>> plot(x,y,'*')

生成图(1),可以看出x 和y 大体成线性关系。

图 1 散点图(横轴:X 纵轴Y)(2)作一元回归分析,输入:

>> n=length(y);

>> X=[ones(n,1),x'];

>> [b,bint,r,rint,s]=regress(y',X);

>> b,bint,s

b =

29.5501

-0.3329

bint =

29.3326 29.7676

-0.3458 -0.3200

s =

1.0e+003 *

0.0010 2.8019 0 0.0001

一元回归方程为:

x y 3329.05501.29-=

从几个方面都可以检验模型是有效的:F 检验-P -接近于0;1β的置信区间不含零点;α

()F F <=1960.428,195.0,F 为统计量观测值,所以X 与Y 的相关性显著。

残差及其置信区间作图代码输入: rcoplot(r,rint)

结果如图2所示:

5

10

15

20

25

30

-1

-0.8-0.6-0.4-0.200.20.40.60.8

1Residual Case Order Plot

R e s i d u a l s

Case Number

图 2 残差图(横轴:削磨时间 纵轴:残差分析值)

所谓残差是指实际观察值与回归估计值的差,残差分析就是通过残差所提供的信息,分析出数据的可靠性、周期性或其它干扰。从残差图可以

看出,数据的残差离零点较近,且残差的置信区间均包含零点,这说明回归模型

x y 3329.05501.29-=能很好的符合原始数据。

(3)讲上面的回归系数估计值5501.29?0=β,3329.0-?1=β带入回归方程,刀具磨损速度的测试中,对时间间隔为30/h 的刀具厚度进行预测,得到

19.5631?0=y 。

在05.0=α,刀具的厚度预测区间简化为??????+---s u y s u y 210210?,?αα,输入计

算指令:

>> t1=19.5631-norminv(0.0975,0,1)*sqrt(sum(r.^2)/16) t1 =

20.0742

>> t2=19.5631+norminv(0.0975,0,1)*sqrt(sum(r.^2)/16) t2 =

19.0520

即时间间隔为30/h 的刀具磨损速度测试中,刀具厚度的置信度为0.95的预测区间为[]

0742.20,0520.19。

也可以用命令:

>> y=[30 29.1 28.4 28.1 28.0 27.7 27.5 27.2 27.0 26.8 26.5 26.3 26.1 25.7 25.3 24.8 24.0 23.7 23.1 22.9 22.6 22.3 22.1 21.7 21.5 21.3 21.0 20.6 20.3 20.1];

>> x=[0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29];

>> polytool(x,y,1,0.05)

作出散点图及拟合曲线,并对30=x 时的y 进行预报,结果如图 3 所示。

图 3 散点图及拟合曲线

如图3所示,红线表示为数据离合区间,蓝色“+”表示为数据散点分布,绿色表示为拟合曲线。

(4)下面用Excel“分析工具库”提供的“回归”工具,找出线性回归方程,并检验其显著性。

1、具体步骤如下:

1>在【工具】菜单中选中【数据分析】,则会弹出【数据分析】对话框,然后“分析工具”中选择“回归”选项,如图二所示。单击【确定】后,则弹出【回归】对话框,如图<5>所示。

2>填写【回归】对话框。如图<6>所示,该对话框的内容较多,可以根据需要,选择相关项目。

在“X值输入区域”内输入队因变量数据区域的引用,该区域必须有单列数据组成,如本题中组分B;在“Y只输入区域”输入对自变量数据区域的引用,如本题中组分C。

“标志”:如果输入区域的第一行中包含标志项,则选中此复选框,本题中的输入区域包含标志项;如果在输入区域中没有标志项,则应清楚此复选框,Excel 将在输出表中生成合适的数据标志。

“置信度”:如果需要在汇总输出表中包含附件的置信度信息,则选中此复选框,然后在右侧的编辑框中,输入所要使用的置信度。Excel默认的置信度为95%,相当于显著性水平a=0.05。

“常数为零”:如果要强制回归线通过原点,则选中此复选框。

“输出选项”:选择“输出区域”,在此输出对输出表左上角单元格的引用。

3>“残差”:如果需要以残差输出表形式查看残差,则选中此复选框。“标准残差”:如果需要在残差输出表中包含标准残差,则选中此复选框。“残差图”:如果需要生成一张图表,绘制每个自变量及其残差,则选中此复选框。

“线性拟合图”:如果需要为预测值和观察值生成和观测值生车一个图表,则选中此复选框。

“正态概率图”:如果需要绘制正态概率图,则选中此复选框。

图 4 散点图

图 5 Excel数据分析工具

图<5>Excel数据分析工具

图 6 回归分析工具界面

回归分析工具运行结果:

Multiple R 0.995041

R Square 0.990106

Adjusted R

Square 0.989752

标准误差0.298135

观测值30

表 2 回归统计

表2中,“Multiple R”是线性回归的系数“R Square”是拟合系数“Adjusted R Square”调整后的拟合系数。

df SS MS F Significance

F

回归分

析 1 249.0449 249.0449 2801.898 1.29E-29 残差28 2.488762 0.088884

总计29 251.5337

表 3 方差分析

Coefficients 标准误差t Stat P-value Lower

95%

Upper

95%

下限

95.0%

Intercept 29.55011 0.106197 278.2575 9.73E-50 29.33257 29.76764 29.3325 X Variable 1 -0.33288 0.006289 -52.933 1.29E-29 -0.34576 -0.32 -0.3457

表4 回归分析结果1

RESIDUAL OUTPUT PROBABILITY OUTPUT

观测

值预测Y残差标准残

差百分比排位Y

129.550110.449892 1.535734 1.66666720.1 229.21723-0.11723-0.40016520.3 328.88435-0.48435-1.653348.33333320.6 428.55146-0.45146-1.541111.6666721 528.21858-0.21858-0.746151521.3 627.8857-0.1857-0.6339118.3333321.5 727.55282-0.05282-0.1803121.6666721.7 827.21994-0.01994-0.068072522.1 926.887060.112940.38552828.3333322.3 1026.554180.2458210.83912531.6666722.6 1126.22130.2787020.9513663522.9 1225.888420.411583 1.40496338.3333323.1 1325.555540.544464 1.8585641.6666723.7 1425.222650.477345 1.6294464524 1524.889770.410226 1.40033148.3333324.8 1624.556890.2431070.8298651.6666725.3 1724.22401-0.22401-0.764685525.7 1823.89113-0.19113-0.6524458.3333326.1 1923.55825-0.45825-1.5642661.6666726.3 2023.22537-0.32537-1.110676526.5 2122.89249-0.29249-0.9984268.3333326.8 2222.55961-0.25961-0.8861871.6666727 2322.22673-0.12673-0.432597527.2 2421.89385-0.19385-0.661778.3333327.5 2521.56096-0.06096-0.208181.6666727.7

2621.228080.0719170.2454938528 2720.89520.1047980.35773488.3333328.1 2820.562320.0376790.12861991.6666728.4 2920.229440.070560.240869529.1 3019.896560.2034410.69445798.3333330

表 5 回归分析结果残差与标准残差

观测值预测 Y 残差

1 29.55011 0.449892

2 29.2172

3 -0.11723

3 28.88435 -0.48435

4 28.55146 -0.45146

5 28.21858 -0.21858

6 27.885

7 -0.1857

7 27.55282 -0.05282

8 27.21994 -0.01994

9 26.88706 0.11294

10 26.55418 0.245821

11 26.2213 0.278702

12 25.88842 0.411583

13 25.55554 0.544464

14 25.22265 0.477345

15 24.88977 0.410226

16 24.55689 0.243107

17 24.22401 -0.22401

18 23.89113 -0.19113

19 23.55825 -0.45825

20 23.22537 -0.32537

21 22.89249 -0.29249

22 22.55961 -0.25961

23 22.22673 -0.12673

24 21.89385 -0.19385

25 21.56096 -0.06096

26 21.22808 0.071917

27 20.8952 0.104798

28 20.56232 0.037679

29 20.22944 0.07056

30 19.89656 0.203441

表6 回归分析结果3

图 7 EXCEL 处理数据得出的散点图

图 8 用EXCEL 处理数据得出的残差分布图

由表3所知,若保留四位有效数字,该回归方程的截距是29.5501,斜率为-0.3329,所以所回归方程的表达式为:x y 3329.05501.29-=;根据回归统计结果,知决定系数9898.0=x 即相关系数9231.0=r ,说明自变量与因变量之间有较高的相关性;根据方差分析的结果,F=2801.9,有效的F<0.01,所以建立的回归方程非常显著。

在表五中,除了列出了回归系数,还有标准误差等项目。其中“标准误差”表示的事对应回归系数的标准误差,其中偏回归系数的标准误差。“t Stat ”就是t 检验时的统计量t ;如果多元线性回归,则可直接根据“t Stat ”的大小,判断因素的主次顺序。“P-value ”表示t 检验偏回归系数不显著的概率,如果P-value<0.01,则可认为该系数对应的变量对试验结果影响非常显著(* *),如果0.01< P-value <0.05,则可认为该系数对应的变量对试验结果影响显著(*);对于常数项,P-value 则表示常数项为零的几率。

五.设计总结

通过对概率论与数理统计的这道实际问题的解决,不仅使我更加深刻的理解

了概率论与数理统计的基础知识,而且使我对这些知识在实际中的应用产生了浓厚的兴趣,同时对我学习好概率论与数理统计这门课有很大帮助。在实现这道题的过程中我应用了Excel软件,学会了该软件的一些新的应用,更加熟练的操作该软件进行一些数据上的处理。

参考文献

[1]沈恒范.概率论与数理统计教程[M].第四版.北京:高等教育出版社,2003.4:140-196

[2]朱燕堂、赵选民、徐伟.应用概率统计方法[M].第2版.西北工业大学出版社,2000年元月.西安

[3]章栋恩、马玉兰、李双、徐元平.MATLAB高等数学数据分析[M].西北工业大学出版社,2002.北京

excel一元及多元线性回归实例

野外实习资料的数理统计分析 一元线性回归分析 一元回归处理的是两个变量之间的关系,即两个变量X和Y之间如果存在一定的关系,则通过观测所得数据,找出两者之间的关系式。如果两个变量的关系大致是线性的,那就是一元线性回归问题。 对两个现象X和Y进行观察或实验,得到两组数值:X1,X2,…,Xn和Y1,Y2,…,Yn,假如要找出一个函数Y=f(X),使它在 X=X1,X2, …,Xn时的数值f(X1),f(X2), …,f(Xn)与观察值Y1,Y2,…,Yn趋于接近。 在一个平面直角坐标XOY中找出(X1,Y1),(X2,Y2),…,(Xn,Yn)各点,将其各点分布状况进行察看,即可以清楚地看出其各点分布状况接近一条直线。对于这种线性关系,可以用数学公式表示: Y = a + bX 这条直线所表示的关系,叫做变量Y对X的回归直线,也叫Y对X 的回归方程。其中a为常数,b为Y对于X的回归系数。 对于任何具有线性关系的两组变量Y与X,只要求解出a与b的值,即可以写出回归方程。计算a与b值的公式为:

式中:为变量X的均值,Xi为第i个自变量的样本值,为因变量的均值,Yi为第i个因变量Y的样本值。n为样本数。 当前一般计算机的Microsoft Excel中都有现成的回归程序,只要将所获得的数据录入就可自动得到回归方程。 得到的回归方程是否有意义,其相关的程度有多大,可以根据相关系数的大小来决定。通常用r来表示两个变量X和Y之间的直线相关程度,r为X和Y的相关系数。r值的绝对值越大,两个变量之间的相关程度就越高。当r为正值时,叫做正相关,r为负值时叫做负相关。r 的计算公式如下: 式中各符号的意义同上。 在求得了回归方程与两个变量之间的相关系数后,可以利用F检验法、t检验法或r检验法来检验两个变量是否显著相关。具体的检验方法在后面介绍。

回归分析课程设计

应用回归分析 课程设计指导书 一、课程设计的目的 (1)巩固应用回归分析的理论知识,掌握其思想精髓; (2)运用回归分析研究方法,加强解决实际问题的能力; ( 3)熟练使用spss 软件对数据进行回归分析。 二、设计名称:研究货运总量y (万吨)与工业总产值x1 (亿元)、农业总产值 x2(亿元)、居民非商品支出x3 (亿元)的关系 三、设计要求 (1)正确运用spss软件对数据进行处理 (2)正确分析数据,尝试选择不同的模型拟合数据 ( 3)课程设计中,遇到问题要翻阅课本去努力解决问题 (4)要有耐心,对于模型的显著性和回归系数都要进行检验 ( 5 )认真并独立完成 四、设计过程 (1)思考课程设计的目的,寻找来源真实的数据 ( 2)上网搜集并整理数据资料 ( 3)根据数据确定研究对象 ( 4)应用统计软件来处理数据信息 ( 5 )选择通过各种检验的线性模型 (6)写出相应的实验报告,并对结果进行分析 五、设计细则 ( 1 )搜集数据阶段,数据不能过于繁杂,也不能太少; (2)做课程设计前,认真看书和笔记,及平时的实验报告,掌握丰富的理论; ( 3)有耐心,不紧不慢;要细心,一丝不苟; ( 4)写报告书时,语言简洁易懂又不失完整,尤其操作过程要正确完整,要 清楚明了。分析结果要正确与实际问题背景相符。 六、说明 (1)书写报告时,有些特殊的数学符号需要利用Mathtype (公式编辑器)这款小软件进行编辑; (2)有些spss输出表格不整齐,需要导出在Excel中,然后在复制到word文 档里; ( 3) 认真仔细的完成课程设计

课程设计任务书

设计名称:研究货运总量y (万吨)与工业总产值x1 (亿元)、农业总产值 x2(亿元)、居民非商品支出x3 (亿元)的关系 日期:2011年11月13日 (1)设计内容:研究货运总量y (万吨)与工业总产值x1 (亿元)、农业总产值)x3 数据见表如下: x2( 2)求y关于x1,x2,x3的三元线性回归方程; (3)对所求的得方程做拟合优度检验; (4)对回归方程做显著性检验; (5)对每一个回归系数做显著性检验; (6)如果有的回归系数没有通过显著性检验,将其剔除,重新建立回归方程,再作回归方程的显著性检验和回归系数的显著性检验; (7)求出每一个回归系数的置信水平为95%的置信区间; 8)求标准化方程; 设计目的与要求: 目的:(1)巩固课本上学到的知识,提高处理实际问题的能力; (2)掌握对多元线性回归问题的模型选择; (3)对软件输出的结果要学会分析 要求:(1)熟练使用SPSS软件对回归数据进行模型拟合; (2)认真独立完成 设计环境或器材、原理与说明: 设计环境和器材:计算机,Mini tab软件,课本,笔记 设计原理与说明: (1)多元回归分析中,检验回归系数是否为0的时候,先用F检验,考虑整体回归系数,再对每个系数是否为零进行t检验 (2)t检验:

多元统计分析课程设计教学文案

多元统计分析课程设 计

主成分分析法在我国居民生活质量状况 综合评价中的应用

内容摘要: 改革开放以来,我国各地区间的经济发展速度有着明显差别,而人民的生 活质量也因此产生了不同,本文用主成分分析法,选取多个指标,对全国31个省市居民的生活质量进行了简单的分析。 关键词:数据选取数据分析主成分分析 使用软件:SPSS

一主成分分析 1.主成分分析定义 主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数 几个综合指标。在实证问题研究中,为了全面、系统地分析问题,我们必须考 虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之 间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重 叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息 量较多。 2.主成分分析法方法简介 主成分分析法是一种数学变换的方法, 它把给定的一组相关变量通过线性变换转成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。 在数学变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一 主成分,第二变量的方差次大,并且和第一变量不相关,称为第二主成分。依 次类推,I个变量就有I个主成分。 其中Li为p维正交化向量(Li*Li=1),Zi之间互不相关且按照方差由大到小排列,则称Zi为X的第I个主成分。设X的协方差矩阵为Σ,则Σ必为半正定对称矩阵,求特征值λi(按从大到小排序)及其特征向量, 可以证明,λi所对应的正交化特征向量,即为第I个主成分Zi所对应的系数向量Li,而Zi的方差贡献率定义为λi/Σλj,通常要求提取的主成分 的数量k满足Σλk/Σλj>0.85。 3.主成分分析主要目的 是希望用较少的变量去解释原来资料中的大部分变异,将我们手中许多 相关性很高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始 变量个数少,能解释大部分资料中的变异的几个新变量,即所谓主成分,并

一元线性回归案例spss

下图为25个职业人群的肺癌死亡指数(100=平均水平)和抽烟指数(100=平均水平)。 职业抽烟指数肺癌死亡指数 农业、林业工人77.0 84.0 挖掘、采石工人110.0 118.0 玻璃陶器制造者94.0 120.0 天然气、化工生产者117.0 123.0 锻造锻压工人116.0 135.0 电气及电子工人102.0 101.0 工程及相关行业人员111.0 118.0 木工业工人93.0 113.0 建筑工人113.0 141.0 皮革业工人92.0 104.0 服装业工人91.0 102.0 造纸印刷业工人107.0 102.0 纺织业工人102.0 93.0 其他产品制造者112.0 96.0 油漆工、装潢工110.0 137.0 发动机、起重机等操作员115.0 113.0 食品行业工人104.0 112.0 交通运输业工人115.0 128.0 库管员等105.0 114.0 服务业场所工人105.0 111.0 文书办事员87.0 81.0 销售员91.0 88.0 行政、经理人员76.0 61.0 艺术家、科学家66.0 55.0 其他劳动力113.0 123.0

散点图呈线性关系 令Y=肺癌死亡指数,X=抽烟指数,做线性回归分析如下: 表2中R=0.839 表示两变量高度相关 R方=0.703 表示拟合较好,散点相对集中于回归线 表3中sig.<0.05 则自变量与因变量具有显著的线性关系,即可以用回归模型表 示 表4中自变量sig.<0.05 则自变量对因变量的线性影响是显著的 由此得到抽烟指数及肺癌死亡指数的一元回归方程: Y=-24.421+1.301X 即抽烟指数每变动一个单位则肺癌死亡指数平均变动1.301个单位

一元线性回归模型案例分析

一元线性回归模型案例分析 一、研究的目的要求 居民消费在社会经济的持续发展中有着重要的作用。居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。改革开放以来随着中国经济的快速发展,人民生活水平不断提高,居民的消费水平也不断增长。但是在看到这个整体趋势的同时,还应看到全国各地区经济发展速度不同,居民消费水平也有明显差异。例如,2002年全国城市居民家庭平均每人每年消费支出为6029.88元, 最低的黑龙江省仅为人均4462.08元,最高的上海市达人均10464元,上海是黑龙江的2.35倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,居民的收入水平、就业状况、零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定 我们研究的对象是各地区居民消费的差异。居民消费可分为城市居民消费和农村居民消费,由于各地区的城市与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城市居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。所以模型的被解释变量Y 选定为“城市居民每人每年的平均消费支出”。 因为研究的目的是各地区城市居民消费的差异,并不是城市居民消费在不同时间的变动,所以应选择同一时期各地区城市居民的消费支出来建立模型。因此建立的是2002年截面数据模型。 影响各地区城市居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。因此这些其他因素可以不列入模型,即便它们对居民消费有某些影响也可归入随即扰动项中。为了与“城市居民人均消费支出”相对应,选择在统计年鉴中可以获得的“城市居民每人每年可支配收入”作为解释变量X。 从2002年《中国统计年鉴》中得到表2.5的数据: 表2.52002年中国各地区城市居民人均年消费支出和可支配收入

数理统计课程设计一元线性回归

二氧化碳吸附量与活性炭孔隙结构的线性回归分析 摘要:本文搜集了不同孔径下不同孔容的活性炭与CO2吸附量的实验数据。分别以同一孔径下的不同孔容作为自变量,CO2吸附量作为因变量,作出散点图。选取分布大致呈直线的一组数据为拟合的样本数据.对样本数据利用最小二乘法进行回归分析,参数确定,并对分析结果进行显著性检验。同时利用ma tl ab 的r egress 函数进行直线拟合。结果表明:孔径在3。 0~ 3. 5 nm 之间的孔容和CO2吸附量之间存在较好的线性关系。 关键字:活性炭 孔容 CO2吸附量 m atla b 一、问题分析 1。1.数据的收集和处理 本文主要研究同一孔径的孔容的活性炭和co2吸附量之间的线性关系,有关实验数据是借鉴张双全,罗雪岭等人的研究成果[1]。以太西无烟煤为原料、硝酸钾为添加剂,将煤粉、添加剂和煤焦油经过充分混合后挤压成条状,在600℃下炭化15 min,然后用水蒸气分别在920℃和860℃下活化一定时间得到2组活性炭,测定了CO2吸附等温线,探讨了2组不同工艺制备的活性炭的C O2吸附量和孔容的关系.数据如下表所示: 表1:孔分布与CO2吸附值 编号1~12是在不同添加剂量,温度,活化时间处理下的对照组。因为处理方式不同得到不同结果是互不影响的,可以看出C O2的吸附量的值是互相独立 编号 孔容/(11 10L g μ--?) CO 2吸附 量 1/()mL g -? 0。5~0。8nm 0.8~1.2nm 1。2~1。8nm 1.8~2。2nm 2.2~2。2n m 2。5~3。0nm 3.0~3。5 nm 1 7.18 16.2 24.4 75.2 70 96 115 64 2 6.59 14.4 18.4 53.7 50 85。6 91 55.1 3 4.5 4 11 18.9 71 6 5 78.3 91 53.7 4 5.13 13.4 29。9 10。3 90 7 6 122 53。 7 5 4.16 10.5 18。9 83.8 78 80。5 113 61。7 6 4。92 12。1 23.4 81.6 72 56 99 53.6 7 5.0 8 12.6 23.8 93.5 86 77.8 122 65。5 8 5.29 13 25。1 88.4 69 66.4 107 57。7 9 7.47 16.9 26.9 46。4 78 93.2 107 58.2 10 5.44 13 21.4 44.1 91 98.6 137 76。6 11 1。81 64。6 18.3 53.1 114 110 142 75 12 1.24 27.7 39。5 126 114 98。6 183 98.7

多元统计分析课程设计

多元统计分析课程 设计

多元统计分析课程设计 题目:《因子分析在环境污染方面的应用》 姓名:王厅厅 专业班级:统计学级2班 学院:数学与系统科学学院 时间: 1月 3 日

目录 1.摘要: (1) 2.引言: (1) 2.1背景 (1) 2.2问题的研究意义 (1) 2.3方法介绍 (2) 3.实证分析 (10) 3.1指标 (10) 3.2原始数据 (10) 3.3数据来源 (13) 3.4分析过程: (13) 4.结论及建议 (25) 5.参考文献 (26)

1.摘要: 中国的环境问题,由于中国政府对环境问题的关注,环境法律日趋完善,执法力度加大,对环境污染治理的投人逐年有较大幅度的增加,中国环境问题已朝着好的方面发展。 可是,仍存在着环境问题,主要体现在环境污染问题,其中主要为水污染和大气污染。 关键词:环境污染水污染大气污染因子分析2.引言: 2.1背景: 中国的环境保护取得了明显的成就,部分地区环境质量有所改进。可是,从整体上看,中国的环境污染仍在加剧,环境质量还在恶化。大气二氧化硫含量居高不下,境质量呈恶化趋势,固体废弃物污染量大面广,噪声扰民严重,环境污染事故时有发生。据中国社会科学院公布的一项报告表明:中国环境污染的规模居世界前列。 2.2问题的研究意义:

为分析比较各地环境污染特点,利用因子分析对环境污染的各个指标进行降维处理并得到影响环境的内在因素,进一步对环境污染原因及治理措施进行分析,让更多的人认识到环境的重要性,准确把握各地区环境治理方法以及针对不同地区制定不同的政策改进环境问题,这对综合治理环境问题具有重要意义。 2.3方法介绍 因子分析的意义:变量间的信息的高度重叠和高度相关会给统计方法的应用设置许多障碍。为解决此问题,最简单和最直接的解决方案是削减变量个数,但这必然会导致信息丢失和 信息不完全等问题的产生。为此人们希望探索一种更有效地解决方法,它既能大幅减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。因子分析正是这样一种能够有效降低变量维数的分析方法。 因子分析的步骤: ·因子分析的前提条件:要求原有变量之间存在较强的相关关系。 ·因子提取:将原有变量综合成少数几个因子是因子分析的核心内容。

案例分析 一元线性回归模型

案例分析报告 (2014——2015学年第一学期) 课程名称:预测与决策 专业班级:电子商务1202 学号: 2204120202 学生姓名:陈维维 2014 年 11月 案例分析(一元线性回归模型) 我国城镇居民家庭人均消费支出预测 一、研究目的与要求 居民消费在社会经济的持续发展中有着重要的作用,居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。从理论角度讲,消费需求的具体内容主要体现在消费结构上,要增加居民消费,就要从研究居民消费结构入手,只有了解居民消费结构变化的趋势和规律,掌握消费需求的热点和发展方向,才能为消费者提供良好的政策环境,引导消费者合理扩大消费,才能促进产业结构调整与消费结构优化升级相协调,才能推动国民经济平稳、健康发展。例如,2008年全国城镇居民家庭平均每人每年消费支出为11242.85元,?最低的青海省仅为人均8192.56元,最高的上海市达人均19397.89元,上海是黑龙江的2.37倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定?

我研究的对象是各地区居民消费的差异。居民消费可分为城镇居民消费和农村居民消费,由于各地区的城镇与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城镇居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。 所以模型的被解释变量Y选定为“城镇居民每人每年的平均消费支出”。 因为研究的目的是各地区城镇居民消费的差异,并不是城镇居民消费在不同时间的变动,所以应选择同一时期各地区城镇居民的消费支出来建立模型。因此建立的是2008年截面数据模型。影响各地区城镇居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。因此这些其他因素可以不列入模型,即便它们对居民消费有某些影响也可归入随即扰动项中。 为了与“城镇居民人均消费支出”相对应,选择在统计年鉴中可以获得的“城市居民每人每年可支配收入”作为解释变量X。 以下是2008年各地区城镇居民人均年消费支出和可支配收入表

spss课程设计报告毕业用资料

课程设计 设计题目:上海公路客运量需求预测与分析课程名称:运输统计与分析 学院:交通运输工程学院 专业:交通运输 班级: 学生姓名: 学号: 指导教师:

课程设计(学年论文)任务书 课程名称:运输统计与分析 适用对象:交通运输工程 一、课程设计(论文)目的 《运输统计与分析》课程设计作为独立的教学环节,是交通运输本科专业的必修课。其目的是,通过本课程设计实践,培养学生理论联系实际思想,加深统计分析基本理论与基本知识的理解,学会收集或调查行业统计数据,切实掌握各种统计分析方法,并能灵活运用统计软件在计算机上实现,正确解释和分析运行结果,培养运用各种统计分析方法解决交通运输领域内实际问题的能力。 二、课程设计(论文)题目与内容 本课程设计(论文)主要任务为:针对交通运输领域内某一主题,设计调查表调查或查询相关统计数据,根据本课程讲授内容选择一种或多种合适的统计分析方法,运用SPSS建立模型分析问题。题目自拟,但题名一般要包含主题与统计方法。且必须与交通运输相关,选题主题主要包括: 1.运输市场定位研究 2.运输需求分析与预测 3.政策或技术方法实施效果评价 4.交通行为选择 5.影响因素分析 6.聚类分析 7.服务质量评价

8. 自选 三、课程设计(论文)基本要求 报告内容原则上不少于8000字,其正文至少包括如下几个方面的内容: 1.问题背景(问题的提出、必要性与意义,该问题目前常用的分 析手段与方法,本设计采用的方法) 2.数据采集 (含数据采集方式、描述性分析、统计图表) 说明:调查分析则必须包含调查方案,其它数据原则上必须说明出处。 3.统计模型与分析 (包含模型原理、SPSS操作步骤、输出结果及分析) 4.总结 5.附录数据清单 四、课程设计(论文)时间及进度安排 1.时间:两周:2011-2012学年第二学期第十九、二十周 2.进度安排: 确定主题;调查、收集数据:2天 数据分析与预处理、描述性统计分析:2天 分析方法原理及选择:3天 SPSS操作及结果分析:4天 解决实际问题或建议:2天 撰写报告、总结:1天 (此部分同学们可以按照自己设计具体内容,详细安排)

多元线性回归模型案例分析

多元线性回归模型案例分析 ——中国人口自然增长分析一·研究目的要求 中国从1971年开始全面开展了计划生育,使中国总和生育率很快从1970年的降到1980年,接近世代更替水平。此后,人口自然增长率(即人口的生育率)很大程度上与经济的发展等各方面的因素相联系,与经济生活息息相关,为了研究此后影响中国人口自然增长的主要原因,分析全国人口增长规律,与猜测中国未来的增长趋势,需要建立计量经济学模型。 影响中国人口自然增长率的因素有很多,但据分析主要因素可能有:(1)从宏观经济上看,经济整体增长是人口自然增长的基本源泉;(2)居民消费水平,它的高低可能会间接影响人口增长率。(3)文化程度,由于教育年限的高低,相应会转变人的传统观念,可能会间接影响人口自然增长率(4)人口分布,非农业与农业人口的比率也会对人口增长率有相应的影响。 二·模型设定 为了全面反映中国“人口自然增长率”的全貌,选择人口增长率作为被解释变量,以反映中国人口的增长;选择“国名收入”及“人均GDP”作为经济整体增长的代表;选择“居民消费价格指数增长率”作为居民消费水平的代表。暂不考虑文化程度及人口分布的影响。 从《中国统计年鉴》收集到以下数据(见表1): 表1 中国人口增长率及相关数据

, 设定的线性回归模型为: 1222334t t t t t Y X X X u ββββ=++++ 三、估计参数 利用EViews 估计模型的参数,方法是: 1、建立工作文件:启动EViews ,点击File\New\Workfile ,在对 话框“Workfile Range ”。在“Workfile frequency ”中选择“Annual ” (年 年份 @ 人口自然增长率 (%。) 国民总收入 (亿元) 居民消费价格指数增长 率(CPI )% 人均GDP (元) 1988 15037 1366 1989 … 17001 18 1519 1990 18718 1644 1991 【 21826 1893 1992 26937 2311 1993 . 35260 2998 1994 48108 4044 1995 — 59811 5046 1996 70142 5846 1997 ~ 78061 6420 1998 83024 6796 1999 【 88479 7159 2000 98000 7858 2001 [ 108068 8622 2002 119096 9398 2003 : 135174 10542 2004 159587 12336 2005 、 184089 14040 2006 213132 16024

回归分析课程设计(最终版)

回归分析课程设计 (题目) (副标题) 指导教师 学院名称专业名称 设计提交日期年月

目录 1.课程设计简述-------------------------------------------------------2 2.多元线性回归-------------------------------------------------------3 3.违背基本假设的情况------------------------------------------------5 3.1 异方差性-------------------------------------------------------5 3.2 自相关性-------------------------------------------------------6 3.3 异常值检验-----------------------------------------------------6 4.自变量的选择与逐步回归--------------------------------------------7 4.1 所有子集回归---------------------------------------------------7 4.2 逐步回归--------------------------------------------------------8 5.多重共线性的情形及其处理-----------------------------------------10 5.1 多重共线性诊断------------------------------------------------10 5.2 消除多重共线性------------------------------------------------11 6.岭回归--------------------------------------------------------------12 7.主成分回归----------------------------------------------------------14 8.含定性变量的回归模型------------------------------------------------ 9.附录(程序代码)-----------------------------------------------------

多元统计分析 课程设计

多元统计分析课程设计 题目:《因子分析在环境污染方面的应用》 姓名:王厅厅 专业班级:统计学2014级2班 学院:数学与系统科学学院 时间:2016年1月 3 日

目录 1.摘要: (1) 2.引言: (1) 2.1背景 (1) 2.2问题的研究意义 (1) 2.3方法介绍 (2) 3.实证分析 (10) 3.1指标 (10) 3.2原始数据 (10) 3.3数据来源 (13) 3.4分析过程: (13) 4.结论及建议 (25) 5.参考文献 (26)

1.摘要: 中国的环境问题,由于中国政府对环境问题的关注,环境法律日趋完善,执法力度加大,对环境污染治理的投人逐年有较大幅度的增加,中国环境问题已朝着好的方面发展。但是,仍存在着环境问题,主要体现在环境污染问题,其中主要为水污染和大气污染。 关键词:环境污染水污染大气污染因子分析 2.引言: 2.1背景: 我国的环境保护取得了明显的成就,部分地区环境质量有所改善。但是,从整体上看,我国的环境污染仍在加剧,环境质量还在恶化。大气二氧化硫含量居高不下,境质量呈恶化趋势,固体废弃物污染量大面广,噪声扰民严重,环境污染事故时有发生。据中国社会科学院公布的一项报告表明:中国环境污染的规模居世界前列。 2.2问题的研究意义: 为分析比较各地环境污染特点,利用因子分析对环境污染的各个指标进行降维处理并得到影响环境的内在因素,进一步对环境污染原因及治理措施进行分析,让更多的人认识到环境的重要性,准确把

握各地区环境治理方法以及针对不同地区制定不同的政策改善环境问题,这对综合治理环境问题具有重要意义。 2.3方法介绍 因子分析的意义:变量间的信息的高度重叠和高度相关会给统计方法的应用设置许多障碍。为解决此问题,最简单和最直接的解决方案是削减变量个数,但这必然会导致信息丢失和 信息不完全等问题的产生。为此人们希望探索一种更有效地解决方法,它既能大幅减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。因子分析正是这样一种能够有效降低变量维数的分析方法。 因子分析的步骤: ·因子分析的前提条件:要求原有变量之间存在较强的相关关系。 ·因子提取:将原有变量综合成少数几个因子是因子分析的核心内容。 若存在随机向量)(),,(1p q F F F q ≤'= 及),,(1' =p εεε ,使 ??????????+????????????????????=??????????p q pq p q p F F a a a a X X εε 1111111 简记为ε+=AF X ,且 (1)q I F D F E ==)(,0)((标准化); (2) ?? ? ?? ?????==221)(,0)(p D E σσεε (中心化);

应用回归分析课程设计

课程设计报告 课程:应用回归分析学号: 姓名: 班级:12金统 教师:周勤 江苏师范大学 科文学院

《应用回归分析》 课程设计指导书 一、课程设计的目的 1. 加深理解本课程的研究方法、思想精髓,提高解决实际问题的能力,熟 练掌握SPSS常用统计软件的应用。 2. 通过学习达到熟练掌握一元线性回归建模过程,熟悉一元线性回归建模 步骤;掌握模型选择,参数估计,模型检验,模型优化和模型预测的方法。 3. 掌握诊断序列自相关性(或异方差性)的方法,并能给出消除自相关性 (或异方差性)的方法。 4. 能够根据历史数据,对未来走势作出预测;可以处理一些简单的经济问 题。 二、设计名称: 检验1949年-2012年农林牧渔业总产值和农业产值之间的关系。 三、设计要求 1.数据来源要真实,必须注明数据的出处。 2.尽量使用计算机软件分析,说明算法或过程。 3.必须利用到应用回归分析的统计知识。 4.独立完成,不得有相同或相近的课程设计。 四、设计过程 1.思考研究课题,准备搜集数据。 2.确立课题,利用图书馆、上网等方式方法搜集数据。 3.利用机房实验室等学校给予的便利措施开始分析处理数据。 4.根据试验结果,写出课程设计报告书。 5.对实验设计报告书进行完善,并最终定稿。 五、设计细则 1.利用的统计学软件主要为SPSS,因为其方便快捷,功能也很强大,界面美 观。 2.对Word文档进行编辑的时候,有些特殊的数学符号需要利用Mathtype这 款小软件进行编辑。 3.数据来自较权威机构,增加分析的准确性与可靠性。 4.力求主题突出,观点鲜明,叙述简洁明了。 六、说明 1.数据来源于江苏统计年鉴2013; 2.所选取数据可能不会涉及到所学的各种分析方法,本课程设计最后会对此 情况作出解释。 3.本课程设计中,取显著性水平为 =0.05,对于分析中需要用到的数据做 加粗处理

多元统计分析课程设计题目知识分享

多元统计分析课程设 计题目

课程设计题目 1. 下表给出了1991年我国30个省、区、市城镇居民的月平均消费数据,所考 察的八个指标如下(单位均为元/人) X1 :人均粮食支出; X2 :人均副食支出; X3 :人均烟酒茶支出; X4 :人均其他副食支出; X5 :人均衣着商品支出; X6 :人均日用品支出; X7 :人均燃料支出; X8 :人均非商品支出; 问题: (1)求样品相关系数矩阵R; (2)从R 出发做主成分分析,求各主成分的贡献率,及前两个主成分的累积贡献率; (3)求出前两个主成分并解释其意义.按第一主成分将30个省、区、市排序,结果如何? 表一 1991年我国30个省、区、市城镇居民的月平均消费数据 省市X1 X2 X3 X4 X5 X6 X7 X8 1 山西8.35 23.53 7.51 8.6 2 17.42 10.00 1.04 11.21 2 内蒙古9.25 23.75 6.61 9.19 17.77 10.48 1.72 10.51 3 吉林8.19 30.50 4.72 9.78 16.28 7.60 2.52 10.32 4 黑龙江7.73 29.20 5.42 9.43 19.29 8.49 2.52 10.00 5 河南9.42 27.93 8.20 8.14 16.17 9.42 1.55 9.76 6 甘肃9.16 27.98 9.01 9.32 15.99 9.10 1.82 11.35 7 青海10.06 28.64 10.52 10.05 16.18 8.39 1.96 10.81 8 河北9.09 28.12 7.40 9.62 17.26 11.12 2.49 12.65 9 陕西9.41 28.20 5.77 10.80 16.36 11.56 1.53 12.17 10 宁夏8.70 28.12 7.21 10.53 19.45 13.30 1.66 11.96 11 新疆 6.93 29.85 4.54 9.49 16.62 10.65 1.88 13.61 12 湖北8.67 36.05 7.31 7.75 16.67 11.68 2.38 12.88 13 云南9.98 37.69 7.01 8.94 16.15 11.08 0.83 11.67 14 湖南 6.77 38.69 6.01 8.82 14.79 11.44 1.74 13.23

回归分析课程设计

课程设计报告 课程名称应用回归分析 实验学期2010 年至2011 年第二学期所在学院理学院年级专业班级 学生姓名学号自评成绩教师评成绩 学生姓名学号自评成绩教师评成绩 学生姓名学号自评成绩教师评成绩 学生姓名学号自评成绩教师评成绩 学生姓名学号自评成绩教师评成绩指导教师

目录 1.前言 (3) 2.问题简述 (3) 3.多元线性回归 (4) 4.违背基本假设情况 (7) 4.1 多元加权最小二乘估计 (7) 4.2 自相关性问题及其处理 (8) 5.自变量选择与逐步回归 (12) 5.1 所有子集回归 (12) 5.1.1 最优R a2法 (12) 5.1.2 最优C p法 (12) 5.2 逐步回归 (13) 5.2.1 前进法 (13) 5.2.2 后退法 (14) 5.2.3 逐步回归法 (17) 6.多重共线性的情形及其处理 (18) 6.1 多重共线性的诊断 (18) 6.1.1 方差扩大因子法 (18) 6.1.2 特征根判定法 (19) 6.2消除多重共线性 (19) 6.3 主成分回归 (23) 7.岭回归 (24) 8.含定性变量的回归模型 (28) 8.1自变量中含有定性变量的回归模型的应用 (28) 8.2 Logistic回归模型 (34) 8.3 Probit回归模型 (35) 9. 总结 (36)

1.前言 本文以“汽车耗油量消耗因素”的数据为载体,在SPSS软件环境下,验证及梳理了《应用回归分析》中的数据分析方法和实验原理。本文主要利用了多元线性回归、最小二乘法估计、逐步回归、多重共线性诊断及消除、岭回归分析、定性变量回归等一系列的方法对数据进行处理,通过在实践中学习、学习中相互促进讨论,达到加深学生对《应用回归分析》的理解,提高学生对相关统计软件的应用能力的效果。 2.问题简述 为研究决定汽车的汽油消耗的因素,收集了30种型号的汽车数据。其中包括每辆汽车的汽油消耗量(Y),以英里/加仑为单位,以及另外11个反映物理、机械特征的变量,如下表中数据的来源是1975年的Motor Trend杂志,变量的定义在表1中给出。 表1 变量定义 变量定义 Y 英里/加仑 X1 排气量(立方英寸) X2 马力 X3 扭矩(英尺.磅) X4 压缩比 X5 后轴动力比 X6 化油器(筒形) X7 变速档数 X8 整体长度(英寸) X9 宽度(英寸) X10 重量(磅) X11 传动类型(1=自动,0=手动)

统计学课程设计报告

统计学课程设计报告 统计学的一个重要任务就是对各种各样的检查和实验课作出计划、实施和评价。以下是统计学课程设计报告,欢迎阅读。 面对匆匆到来的21世纪,严峻的挑战和难得的机遇使任何学科都需调整自己的位置,重新审视和制定自己的发展目标。市场经济的理论和实践对统计信息的需求急剧增加,对统计学理论和方法提出了更高的要求。前苏联模式的统计学面对市场经济的需求已显得无能为力;现代市场经济的理论与时代的潮流使中国人文社会科学、财经管理类学者的弱点暴露无遗。中国几千年的优秀文化会给中国学者思辨性的思维以深厚的底蕴,但也留下了忽视形式逻辑的弊端。先秦诸子以来,我国学者的思辨性思维是较为发达的,但这些思辨性思维常常缺乏经验事实做基础,空泛的议论较多,实质性的内容较少,逻辑推理的思维方式淡化,更不追求严密的公理化体系,以至于我国人文社会科学、财经管理类学者面对现代社会经济的发展有力不从心之感。 邓小平同志曾向教育界指出:“教育要面向现代化、面向世界、面向未来。”社会主义市场经济体制的建立和现代化的实现,最终取决于国民素质的提高和人才的培养,这就要求转变以分数为核心的单纯知识性教学的应试教学为以全面提高人才素质为核心的素质教学过一大批统计学家的

艰苦努力,我国统计界终于发生了质的变化和飞跃。1992年11月,国家技术监督局正式批准统计学为一级学科,国家标准局领布的学科分类标准已将统计列为一级学科, 1998年教育部进行的专业调整也将统计学归入理学类一级学科,一级学科的地位表明统计学既不是数学的子学科,也不是经济学的子学科,统计学就是统计学。统计学一级学科的地位表明中国统计在与国际接轨的进程中迈出了重要一步。 面向21世纪,中国的人文社会科学、财经管理类学者肩负着时代的重托。社会发展问题,国际竞争力问题,金融、投资风险问题,人口与社会保障问题,经济持续增长问题,环境保护问题等等,这些都迫切地等待着我们去深入研究。这些问题的研究都将借助于统计方法与技术的应用而获得成功。 教育是培养人的一种社会活动,它同社会的发展及受教育者本身的发展有着密切的联系。素质教育,强调教育活动在教育人的过程中,要以人为中心,教育活动不仅仅只是传授学生知识和技能,同时要注重学生在生理、心理、道德、品质、文化修养等各个方面的综合提高,使学生的身心、修养、知识与能力得到全面发展。在高等教育阶段,由于大部分学生在毕业后将走向社会,加入社会劳动者的行列,因而,为就业而准备的知识与技能的专业教育被强化了,而与未来就业关系不是很直接的人文教育方面则相对地弱化了。然而,在科技发展日益加快,高等教育逐渐大众化的今天,未来经

多元统计分析课程设计

. 主成分分析法在我国居民生活质量状况综合评价中的应用

. 内容摘要:而人民的生活改革开放以来,我国各地区间的经济发展速度有着明显差别,个省31质量也因此产生了不同,本文用主成分分析法,选取多个指标,对全国市居民的生活质量进行了简单的分析。数据分析主成分分析关键词:数据选取SPSS 使用软件: .. . 主成分分析一 1.主成分分析定义把多指标转化为少数几主成分分析也称主分量分析,旨在利用降维的思想,个综合指标。在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众因这些涉及的因素一般称为指标,在多元统计分析中也称为变量。多影响因素。并且指标之间彼此有为每个变量都在不同程度上反映了所研究问题的某些信息,在用统计一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。多会增加计算量和增加分析问题的复杂性,人方法研究多变量问题时,变量太 们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。 2. 主成分分析法方法简介它把给定的一组相关变量通过线性主成分分析法是一种 数学变换的方法, 在这些新的变量按照方差依次递减的顺序排列。变换转成另一组不相关的变量,称为第一主成使第一变量具有最大的方差,数学变换中保持变量的总方差不变,依次类推,称为第二主成分。分,第二变量的方差次大,并且和第一变量不相关,个变量就有I个主成分。I之间互不相关且按照方Zi1),维正交化向量(Li*Li =其中Li为pΣ,X的协方差矩阵为X的第I个主成分。设差由大到小排列,则称Zi为λi(按从大到小排序)及其特征向Σ必为半正定对称矩阵,求特征值则

所对ZiI量,可以证明,λi所对应的正交化特征向量,即为第个主成分λi/Σλj,通常要求提取的的方差贡献率定义为Li,而Zi应的系数向量Σλk/Σ λj>0.85。k满足主成分的数量主成分分析主要目的3. 是希望用较少的变量去解释原来资料中的大部分变异,将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始变量个数少,能解释大部分资料中的变异的几个新变量,即所谓主成分,并用以解释资料的综合性指标。由此可见,主成分分析实际上是一种降维方法。 二问题背景及数据 问题及背景1. 生活质量我国居民生活水平不断提高,背景:随着生产力水平的不断提高,我国各地居民的生受各地生产力发展水平不平衡的影响,但是,也在不断改善。活质量也表现为不平衡。.. . 问题:利用主成分分析法对我国31个省市、自治区居民的生活状况进行评价分析。为全面分析各地居民生活状况,可选取如下指标体系进行反应:职工人均工资、人均居住面积、城市人均用水普及量、城市煤气普及量、人均拥有道路面积、人均绿地公共面积、批发零售贸易商品销售总额、旅游外汇收入。 2.数据

多元线性回归模型的案例讲解

多元线性回归模型的案 例讲解 Document number:NOCG-YUNOO-BUYTT-UU986-1986UT

1. 表1列出了某地区家庭人均鸡肉年消费量Y 与家庭月平均收入X ,鸡肉价格P 1,猪肉价格P 2与牛肉价格P 3的相关数据。 年份 Y/ 千克 X/元 P 1/(元/千克) P 2/(元/千克) P 3/(元/千克) 年份 Y/ 千克 X/元 P 1/(元/千克) P 2/(元/千克) P 3/(元/ 千克) 1980 397 1992 911 1981 413 1993 931 1982 439 1994 1021 1983 459 1995 1165 1984 492 1996 1349 1985 528 1997 1449 1986 560 1998 1575 1987 624 1999 1759 1988 666 2000 1994 1989 717 2001 2258 1990 768 2002 2478 1991 843 (1) 求出该地区关于家庭鸡肉消费需求的如下模型: 01213243ln ln ln ln ln Y X P P P u βββββ=+++++ (2) 请分析,鸡肉的家庭消费需求是否受猪肉及牛肉价格的影响。 先做回归分析,过程如下: 输出结果如下:

所以,回归方程为: 123ln 0.73150.3463ln 0.5021ln 0.1469ln 0.0872ln Y X P P P =-+-++ 由上述回归结果可以知道,鸡肉消费需求受家庭收入水平和鸡肉价格的影响,而牛肉价格和猪肉价格对鸡肉消费需求的影响并不显着。 验证猪肉价格和鸡肉价格是否有影响,可以通过赤池准则(AIC )和施瓦茨准则(SC )。若AIC 值或SC 值增加了,就应该去掉该解释变量。 去掉猪肉价格P 2与牛肉价格P 3重新进行回归分析,结果如下: Variable Coefficient Std. Error t-Statistic Prob.?? C LOG(X) LOG(P1) R-squared ????Mean dependent var Adjusted R-squared ????. dependent var . of regression ????Akaike info criterion Sum squared resid ????Schwarz criterion Log likelihood ????F-statistic Durbin-Watson stat ????Prob(F-statistic)

相关文档
最新文档