数学建模之统计回归模型.

数学建模之统计回归模型.
数学建模之统计回归模型.

数学建模大作业

摘要

某公司想用全行业的销售额作为自变量来预测公司的销售额,题目给出了1977—1981此公司的销售额和行业销售额的分季度数据表格。通过对所给数据的简单分析,我们可以看出:此公司的销售额有随着行业销售额的增加而增加的趋势,为了更加精确的分析题目所给的数据,得出科学的结论,从而达到合理预测的目的。我们使用时间序列分析法,参照课本统计回归模型例4,做出了如下的统计回归模型。

在问题一中,我们使用MATLB数学软件,画出了数据的散点图,通过观察散点图,发现公司的销售额和行业销售额之间有很强的线性关系,于是我们用线性回归模型去拟合,发现有很好的拟合性。但是这种情况下,并没有考虑到数据的自相关性,所以我们做了下面几个问题的分析来对这个数学模型进行优化。

在问题二中,通过建立了公司销售额对全行业销售额的回归模型,并使用DW检测诊断随机误差项的自相关性。通过计算和查DW表比较后发现随即误差存在正自相关,也就是说前面的模型有一定的局限性,预测结果存在一定的偏差,还有需要改进的地方。

在问题三中,因为在问题二中得出随即误差存在正自相关,为了消除随机误差的自相关性,我们建立了一个加入自相关后的回归模型。并对其作出了分析和验证,我们发现加入自相关后的回归模型更加合理。通过使用我们建立的模型对公司的销售额进行预测,发现和实际的销售额很接近,也就是说模型效果还不错。

关键词:销售额、回归模型、自相关性

一、问题提出

某公司想用全行业的销售额作为自变量来预测公司的销售额,下表给出了1977-1981年公司销售额和行业销售额的分季度数据(单位:百万元).

(1)画出数据的散点图,观察用线性回归模型拟合是否合适。

(2)监理公司销售额对全行业销售额的回归模型,并用DW检验诊断随机误差项的自相关性。

二、基本假设

假设一:模型中ε(对时间t )相互独立。

三、符号说明

公司销售额:y (百万)

行业销售额:x (百万) 概念介绍:

1.自相关:自相关(auto correlation ),又称序列相关(serial correlation )是指总体回归模型的随机误差项之间存在的相关关系。即不同观测点上的误差项彼此相关。

2.置信区间:如果P (a b x ≤≤)=1-α,α=0.1或0.05,则称区间[a,b]为x 的置信度为1-α的置信区间。

3.时间序列:时间序列法是一种定量预测方法,亦称简单外延方法。时间序列即按时间的推移或排布会对规律的变化有所影响。

四、问题分析

问题一:表中的数据是以时间为顺序的。由于前期的销售额对后期的投资一般有明显的影响,从而对后期的后期的销售额造成影响。因此在此模型中应考虑到存在自相关,我们可以先建立基本的回归模型,然后再进行自相关性诊断,并建立新的回归模型。

问题二:在问题一之后,就可以接着求出问题二,然后利用DW 检验诊断随机误差项的自相关性。

问题三:进行了自相关诊断后,将自相关加入模型中,建立消除了随机误差项自相关性的回归模型。

五、模型的建立与求解

5.1 问题一

5.1.1 问题一的分析

表中数据是以时间为序的,建立基本的回归模型。

5.1.2 问题一模型的建立

基本回归模型:

设该公司第t 时间的公司销售额为t y ,行业销售额为t x 。为了大致分析t y 和t x 的关系,首先利用表中的数据作出t y 对t x 关系作出散点图,如下(见图中的“+”):做散点图:

可以看出,随着行业销售额的增加,公司销售额增大,而且两者有很强的线性关系,图中的直线说明两者呈线性模型,因此本题用线性回归模型拟合非常合适。 5.2 问题二

5.2.1 问题二的分析

从问题一中的图形可以看出,随着行业销售额的增加,公司销售额增大,而且两者有很强的线性关系,图中的直线说明两者呈线性模型,因此可建立一元线性回归模型。

5.2.2 问题二模型的建立

由题意建立一元线性回归模型

t t t x y εββ++=10 (1) 模型(1)中除了行业销售额和公司销售额的影响外,影响t y 的其他因素都包含在随机误差t ε内,这里假设t ε(对t 相互独立)且服从均值为零的正态分布N(0, )。

5.2.3 问题二模型的求解

根据表中的数据。对模型(1)直接利用MATLAB 统计工具箱求解(具体算法见附录),得到的回归系数估计值及置信区间(置信水平α=0.05)、检验统计量R ,F ,p 的结果见下表:

t t x y 1763.04548.1+-= (2)

用MATLAB 中rstool 命令得到的交互式画面见图 (1) ,由此可以得出不同水平下的预测值及其置信区间。通过左下方的Export 下拉式菜单。可以输出模型的统计结果。

图1

自相关性诊断与处理方法 从表面上来看得到的基本模型(2)拟合度(R )非常之高,接近你

100%,应该很满意了,但是,这个模型并没有考虑到我们的数据是一个时间序列(将原表中的数据打乱不影响模型(2)的结果)。实际上对于时间序列数据做回归分析时,模型的随机误差t ε有可能存在相关性,违背模型关于t ε(对时间t )相互独立的基本假设,其他相关因素对公司销售额的影响肯能也有时间上的延续,包含在随机误差t ε中,即随机误差t ε会出现自相关性。

残差^

t t t y y e -=可以作为随机误差t ε的估计值,画出t e 1~-t e 的散点图,能够从直观上判断t ε的自相关性。模型(2)的残差可在计算过程中得到表1,以及数据t e 1~-t e 的图见图 2

图 2

为了对ε的字相关性做定量的诊断,并在确诊后得到新的结果,我们考虑如下模型

t t t x y εββ++=10 ,t t t u +=-1ρεε (3)

其中ρ是自相关系数,|ρ|≤1,t u 相互独立且服从均值为0的正态分布。

若ρ=0,则退化为普通的回归模型;若ρ>0,则随机误差t ε存在正的自相关;若ρ<0,则随机误差t ε存在负的自相关。

利用D-W 检验诊断自相关现象如下: 利用MATLAB 算出:

0y =0.0980 1y =0.1326 DW=0.7388 ^

ρ=0.6306 (具体程序见附录)

因为DW ≈2(1-^

ρ),11^

≤≤-ρ所以 0≤DW ≤4,若^

ρ的估计值在0附近,则DW 的值在2附近,t ε的自相关行很弱,若^

ρ在正负1附近,则DW 接近0或4,t ε的自相关性很强。

5.2.4 问题二结果的分析及验证

要根据DW 的具体数值确定t ε是否存在自相关,查D-W 分布表,可以得到检验的临界值d L

和d U ,然后根据区间来确定。

利用表1给出的残差t e ,根据以上式子可得出DW=0.7388,对于显著性水平α=0.05,n=20,k=2,查D-W 分布表,得到检验的临界值d L =1.2和d U =1.4 .现在DW

ρ=0.6306。 5.3

问题三

5.3.1 问题三的分析

题目要求建立消除了随机误差项目自相关性后的回归模型,即是加入了自相关后的回归模型,下面我们将自相关性加入问题中。

5.3.2 问题三模型的求解

加入自相关后的回归模型 ^

ρ

=2

1DW -

做变换 1*--=t t t y y y ρ ,1,1*--=t t t x x x ρ (4) 则模型(3)转化为

t t t u x y ++=*11*0*ββ ,)1(0*

0ρββ-= (5)

其中t u 相互独立且服从均值为零的正态分布,所以(5)是普通回归模型。

以^

ρ的估计值带入(3)和(4)做变换,利用变换后的数据*t y ,*

1t x 估计模型(5)的参数,得到的表见表2,还可以得出剩余标准差rmse=0.08828. 最后将模型(5)的变量还原为原始变量。得到的结果如下

1,1,11^

1096.01738.06306.03951.0---++-=t t t t x x y y

(6)

表 2

5.3.4 问题三结果的分析及验证

当然应该对模型(6)也作一次自相关检验,即诊断随机误差t u 是否还存在自相关,从模型(6)的残差可以计算出DW=1.65,对于显著水平α=0.05,n=19,k=2,查D-W 分布表,得到检验的临界值d L =1.2和d U =1.40 .现在U U d DW d -<<4,可以认为随机误差不存在自相关。一次经变换得到的回归模型(6)是适用的。

结果及其预测

从机理上看,对于带滞后性的经济规律作用下的时间序列数据,加入自相关的模型(6)更为合理,我们将模型(1)与模型(6)的计算值t y ^

与实际数据t y 的比较,以及两个模型的残差t e ,表示在表 3 中

表 3

六、模型的评价与推广

模型的评价与推广:此模型从最初的线性回归模型到DW检验诊断随机误差的自相关性,再到最后的消除了随机误差项自相关性后的回归模型,模型逐步得到了优化。最后的结果预测可以看出,我们建立的这个模型的可靠性是非常高的。预测公司的销售额可以为公司的制定相应的生产计划或者购货数量提供依据,鉴于该模型的可靠性非常稳定,我们可以把此模型推广到公司其他产品的销售额或者某产品的市场销售额的预测。

同时,通过这学期的建模课程的学习嘛,我们发现团队精神是数学建模是否取得好成绩的最重要的因素,一队三个人要相互支持,相互鼓励。切勿自己只管自己的一部分(数学好的只管建模,计算机好的只管编程,写作好的只管论文写作),很多时候,一个人的思考是不全面的,只有大家一起讨论才有可能把问题搞清楚,因此无论做任何板块,三个人要一起齐心才行,只靠一个人的力量,要写出一篇高水平的文章几乎是不可能的。其实建模的过程就是大家互相鼓励,共同勉励的一个阶段,我们组从最开始的模拟训练时就十分注重团队的分工协作,在作业中都会总结教训,改进方法。另外我们还根据每个人的特长来进行分工,做到发挥优势,长短互补的效果。

七、参考文献

《数学模型》(第三版)姜启源谢金星叶俊高等教育出版社,2003年8月

数学建模上课课件:统计回归模型

《应用回归分析》何晓群,刘文清中国人民大学出版社,2001

网上资源 DW表

MATLAB运行程序

附录1:

>>

x=[127.3,130.0,132.7,129.4,135,137.1,141.2,142.8,145.5,145.3,148.3,146.4,150.2,153.1,157.3,160.7,164.2,165.6 ,168.7,171.7]';y=[20.96,21.4,21.96,21.52,22.39,22.76,23.48,23.66,24.1,24.01,24.54,24.3,25,25.64,26.36,26.98,27 .52,27.78,28.24,28.78]';yy=-1.4548+0.1763*x

yy =20.9882

21.4642

21.9402

21.3584

22.3457

22.7159

23.4388

23.7208

24.1969

24.1616

24.6905

24.3555

25.0255

25.5367

26.2772

26.8766

27.4937

27.7405

28.2870

28.8159

附录2:

>>

x=[127.3,130.0,132.7,129.4,135,137.1,141.2,142.8,145.5,145.3,148.3,146.4,150.2,153.1,157.3,160.7,164.2,165.6 ,168.7,171.7]';yy=-1.4548+0.1763*x ;y=[20.96,21.4,21.96,21.52,22.39,22.76,23.48,23.66,24.1,24.01,24.54,24.3, 25,25.64,26.36,26.98,27.52,27.78,28.24,28.78]';e=y-yy;e1=e(2:20,:);e2=e(1:19,:);

y0=sum((e1-e2).^2);

y1=sum(e1.^2);DW=y0/y1;p=1-0.5*DW

p =

0.6306

>>

>>

x=[127.3,130.0,132.7,129.4,135,137.1,141.2,142.8,145.5,145.3,148.3,146.4,150.2,153.1,157.3,160.7,164.2,165.6 ,168.7,171.7]';yy=-1.4548+0.1763*x ;y=[20.96,21.4,21.96,21.52,22.39,22.76,23.48,23.66,24.1,24.01,24.54,24.3, 25,25.64,26.36,26.98,27.52,27.78,28.24,28.78]';e=y-yy;e1=e(2:20,:);e2=e(1:19,:);

y0=sum((e1-e2).^2)

y0 =

0.0980

>>

x=[127.3,130.0,132.7,129.4,135,137.1,141.2,142.8,145.5,145.3,148.3,146.4,150.2,153.1,157.3,160.7,164.2,165.6 ,168.7,171.7]';yy=-1.4548+0.1763*x ;y=[20.96,21.4,21.96,21.52,22.39,22.76,23.48,23.66,24.1,24.01,24.54,24.3,

25,25.64,26.36,26.98,27.52,27.78,28.24,28.78]';e=y-yy;e1=e(2:20,:);e2=e(1:19,:);

y0=sum((e1-e2).^2);

y1=sum(e1.^2)

y1 =

0.1326

>>

x=[127.3,130.0,132.7,129.4,135,137.1,141.2,142.8,145.5,145.3,148.3,146.4,150.2,153.1,157.3,160.7,164.2,165.6 ,168.7,171.7]';yy=-1.4548+0.1763*x ;y=[20.96,21.4,21.96,21.52,22.39,22.76,23.48,23.66,24.1,24.01,24.54,24.3, 25,25.64,26.36,26.98,27.52,27.78,28.24,28.78]';e=y-yy;e1=e(2:20,:);e2=e(1:19,:);

y0=sum((e1-e2).^2);

y1=sum(e1.^2);DW=y0/y1

DW =

0.7388

>>

>>

x=[127.3,130.0,132.7,129.4,135,137.1,141.2,142.8,145.5,145.3,148.3,146.4,150.2,153.1,157.3,160.7,164.2,165.6 ,168.7,171.7]';yy=-1.4548+0.1763*x ;y=[20.96,21.4,21.96,21.52,22.39,22.76,23.48,23.66,24.1,24.01,24.54,24.3, 25,25.64,26.36,26.98,27.52,27.78,28.24,28.78]';y2=y(2:20,:)

y3=y(1:19,:)

x2=x(2:20,:);x3=x(1:19,:);y4=y2-y3*p;

x4=x2-x3*p

y2 =

21.4000

21.9600

21.5200

22.3900

22.7600

23.4800

23.6600

24.1000

24.0100

24.5400

24.3000

25.0000

25.6400

26.3600

26.9800

27.5200

27.7800

28.2400

28.7800

y3 =

20.9600

21.4000

21.9600

21.5200

23.4800

23.6600

24.1000

24.0100

24.5400

24.3000

25.0000

25.6400

26.3600

26.9800

27.5200

27.7800

28.2400

x4 =

49.7254

50.7227

45.7201

53.4011

51.9698

54.7455

53.7601

55.4511

53.5485

56.6747

52.8829

57.8810

58.3847

60.7560

61.5075

62.8635

62.0564

64.2736

65.3187

>>

x=[127.3,130.0,132.7,129.4,135,137.1,141.2,142.8,145.5,145.3,148.3,146.4,150.2,153.1,157.3,160.7,164.2,165.6 ,168.7,171.7]';yy=-1.4548+0.1763*x ;y=[20.96,21.4,21.96,21.52,22.39,22.76,23.48,23.66,24.1,24.01,24.54,24.3, 25,25.64,26.36,26.98,27.52,27.78,28.24,28.78]';y2=y(2:20,:)

y3=y(1:19,:)

x2=x(2:20,:);x3=x(1:19,:);y4=y2-y3*p;

x4=x2-x3*p;[b1,bint1,r1,rint1,stats1]=regress(y4,[ones(19,1),x4])

y2 =

21.4000

21.9600

21.5200

23.4800

23.6600

24.1000

24.0100

24.5400

24.3000

25.0000

25.6400

26.3600

26.9800

27.5200

27.7800

28.2400

28.7800

y3 =

20.9600

21.4000

21.9600

21.5200

22.3900

22.7600

23.4800

23.6600

24.1000

24.0100

24.5400

24.3000

25.0000

25.6400

26.3600

26.9800

27.5200

27.7800

28.2400

b1 =

-0.3951

0.1738

bint1 =

-0.7481 -0.0422

0.1675 0.1800 r1 =

-0.0627

0.0466

0.1227

0.0099

-0.0929

-0.0602

-0.0971

-0.0535

0.0311

0.0140

0.1250

0.0294

0.0648

-0.0218

0.0379

-0.0513

0.0170

rint1 =

-0.1941 0.0688

-0.0886 0.1817

0.0163 0.2291

-0.2012 0.0721

-0.1337 0.1448

-0.1317 0.1516

-0.2252 0.0395

-0.1986 0.0782

-0.2284 0.0343

-0.1928 0.0858

-0.1083 0.1705

-0.1277 0.1556

-0.0003 0.2503

-0.1091 0.1679

-0.0693 0.1988

-0.1573 0.1137

-0.0981 0.1739

-0.1814 0.0788

-0.1128 0.1468

stats1 =

1.0e+003 *

0.0010 3.4621 0 0.0000

>>

>>

>>

y=[20.96,21.4,21.96,21.52,22.39,22.76,23.48,23.66,24.1,24.01,24.54,24.3,25,25.64,26.36,26.98,27.52,27.78,28.2 4,28.78]';yy=-1.4548+0.1763*x;x=[127.3,130.0,132.7,129.4,135,137.1,141.2,142.8,145.5,145.3,148.3,146.4,150. 2,153.1,157.3,160.7,164.2,165.6,168.7,171.7]';x2=x(2:20,:);x3=x(1:19,:);y3=y(1:19,:);yyy=-0.3951+0.6306*y3+ 0.1738*x2-0.1096*x3;yyyy=yy(2:20,:);e1=yyyy-yyy

e1 =

0.0000

0.0252

-0.0403

-0.1105

-0.0401

-0.0330

-0.0337

0.0349

0.0529

0.0952

0.0851

0.0377

0.0200

-0.0553

-0.0405

-0.0501

-0.0035

-0.0063

0.0509

>>

y=[20.96,21.4,21.96,21.52,22.39,22.76,23.48,23.66,24.1,24.01,24.54,24.3,25,25.64,26.36,26.98,27.52,27.78,28.2 4,28.78]';yy=-1.4548+0.1763*x;x=[127.3,130.0,132.7,129.4,135,137.1,141.2,142.8,145.5,145.3,148.3,146.4,150. 2,153.1,157.3,160.7,164.2,165.6,168.7,171.7]';x2=x(2:20,:);x3=x(1:19,:);y3=y(1:19,:);yyy=-0.3951+0.6306*y3+ 0.1738*x2-0.1096*x3;yyyy=yy(2:20,:);e1=yyyy-yyy;e=y-yy;ee=e(2:20,:)

ee =

-0.0642

0.0198

0.1616

0.0443

0.0441

0.0412

-0.0608

-0.0968

-0.1516

-0.1505

-0.0555

-0.0255

0.1033

0.0828

0.1034

0.0263

0.0395

-0.0470

-0.0359

>>

y=[20.96,21.4,21.96,21.52,22.39,22.76,23.48,23.66,24.1,24.01,24.54,24.3,25,25.64,26.36,26.98,27.52,27.78,28.2 4,28.78]';yy=-1.4548+0.1763*x;x=[127.3,130.0,132.7,129.4,135,137.1,141.2,142.8,145.5,145.3,148.3,146.4,150. 2,153.1,157.3,160.7,164.2,165.6,168.7,171.7]';x2=x(2:20,:);x3=x(1:19,:);y3=y(1:19,:);yyy=-0.3951+0.6306*y3+ 0.1738*x2-0.1096*x3

yyy =

21.4642

21.9150

21.3987

22.4562

22.7560

23.4718

23.7545

24.1619

24.1087

24.5953

24.2705

24.9878

25.5168

26.3325

26.9171

27.5437

27.7440

28.2933

28.7650

>>

>>

yy=-1.4548+0.1763*x;x=[127.3,130.0,132.7,129.4,135,137.1,141.2,142.8,145.5,145.3,148.3,146.4,150.2,153.1,1 57.3,160.7,164.2,165.6,168.7,171.7]';yy=-1.4548+0.1763*x

yy =

20.9882

21.4642

21.9402

21.3584

22.3457

22.7159

23.4388

23.7208

24.1969

24.1616

24.6905

24.3555

25.0255

25.5367

26.2772

26.8766

27.4937

27.7405

28.2870

28.8159

>>

y=[20.96,21.4,21.96,21.52,22.39,22.76,23.48,23.66,24.1,24.01,24.54,24.3,25,25.64,26.36,26.98,27.52,27.78,28.2 4,28.78]';yy=-1.4548+0.1763*x;x=[127.3,130.0,132.7,129.4,135,137.1,141.2,142.8,145.5,145.3,148.3,146.4,150. 2,153.1,157.3,160.7,164.2,165.6,168.7,171.7]';x2=x(2:20,:);x3=x(1:19,:);y3=y(1:19,:);yyy=-0.3951+0.6306*y3+ 0.1738*x2-0.1096*x3;e1=yyyy-yyy;t=2:20;subplot(1,2,1);plot(y2,yyy,'+')

hold on;yyyy=yy(2:20,:);plot(y2,yyyy,'o')

hold off;subplot(1,2,2);plot(t,ee,'+')

hold on;plot(t,e1,'o')

数学建模方法模型

数学建模方法模型 一、统计学方法 1 多元回归 1、方法概述: 在研究变量之间的相互影响关系模型时候用到。具体地说:其可以定量地描述某一现象和某些因素之间的函数关系,将各变量的已知值带入回归方程可以求出因变量的估计值,从而可以进行预测等相关研究。 2、分类 分为两类:多元线性回归和非线性线性回归;其中非线性回归可以通过一定的变化转化为线性回归,比如:y=lnx 可以转化为 y=u u=lnx 来解决;所以这里主要说明多元线性回归应该注意的问题。 3、注意事项 在做回归的时候,一定要注意两件事: (1) 回归方程的显著性检验(可以通过 sas 和 spss 来解决) (2) 回归系数的显著性检验(可以通过 sas 和 spss 来解决) 检验是很多学生在建模中不注意的地方,好的检验结果可以体现出你模型的优劣,是完整论文的体现,所以这点大家一定要注意。 4、使用步骤: (1)根据已知条件的数据,通过预处理得出图像的大致趋势或者数据之间的大致关系; (2)选取适当的回归方程; (3)拟合回归参数; (4)回归方程显著性检验及回归系数显著性检验 (5)进行后继研究(如:预测等)

2 聚类分析 1、方法概述 该方法说的通俗一点就是,将 n个样本,通过适当的方法(选取方法很多,大家可以自行查找,可以在数据挖掘类的书籍中查找到,这里不再阐述)选取 m 聚类中心,通过研究各样本和各个聚类中心的距离 Xij,选择适当的聚类标准,通常利用最小距离法(一个样本归于一个类也就意味着,该样本距离该类对应的中心距离最近)来聚类,从而可以得到聚类结果,如果利用sas 软件或者 spss 软件来做聚类分析,就可以得到相应的动态聚类图。这种模型的的特点是直观,容易理解。 2、分类 聚类有两种类型: (1) Q型聚类:即对样本聚类; (2) R型聚类:即对变量聚类; 通常聚类中衡量标准的选取有两种: (1) 相似系数法 (2) 距离法 聚类方法: (1) 最短距离法 (2) 最长距离法 (3) 中间距离法 (4) 重心法 (5) 类平均法 (6) 可变类平均法 (7) 可变法

数学建模统计模型

数学建模

论文题目: 一个医药公司的新药研究部门为了掌握一种新止痛剂的疗效,设计了一个药物试验,给患有同种疾病的病人使用这种新止痛剂的以下4个剂量中的某一个:2 g,5 g,7 g和10 g,并记录每个病人病痛明显减轻的时间(以分钟计). 为了解新药的疗效与病人性别和血压有什么关系,试验过程中研究人员把病人按性别及血压的低、中、高三档平均分配来进行测试. 通过比较每个病人血压的历史数据,从低到高分成3组,分别记作,和. 实验结束后,公司的记录结果见下表(性别以0表示女,1表示男). 请你为该公司建立一个数学模型,根据病人用药的剂量、性别和血压组别,预测出服药后病痛明显减轻的时间.

一、摘要 在农某医药公司为了掌握一种新止痛药的疗效,设计了一个药物实验,通过观测病人性别、血压和用药剂量与病痛时间的关系,预测服药后病痛明显减轻的时间。我们运用数学统计工具m i n i t a b软件,对用药剂量,性别和血压组别与病痛减轻

时间之间的数据进行深层次地处理并加以讨论概率值P (是否<)和拟合度R-S q的值是否更大(越大,说明模型越好)。 首先,假设用药剂量、性别和血压组别与病痛减轻时间之间具有线性关系,我们建立了模型Ⅰ。对模型Ⅰ用m i n i t a b 软件进行回归分析,结果偏差较大,说明不是单纯的线性关系,然后对不同性别分开讨论,增加血压和用药剂量的交叉项,我们在模型Ⅰ的基础上建立了模型Ⅱ,用m i n i t a b软件进行回归分析后,用药剂量对病痛减轻时间不显着,于是我们有引进了用药剂量的平方项,改进模型Ⅱ建立了模型Ⅲ,用m i n i t a b 软件进行回归分析后,结果合理。最终确定了女性病人服药后病痛减轻时间与用药剂量、性别和血压组别的关系模型: Y=1x 3x 1x 3x 2 1 x 对模型Ⅱ和模型Ⅲ关于男性病人用m i n i t a b软件进行回归分析,结果偏差依然较大,于是改进模型Ⅲ建立了模型Ⅳ,用m i n i t a b软件进行回归分析后,结果合理。最终确定了男性病人服药后病痛减轻时间与用药剂量、性别和血压组别的关系模 型:Y=1x1x 3x 2 1 x关键词止痛剂药剂量性别病痛减轻时 间

数学建模的基本步骤

数学建模的基本步骤 一、数学建模题目 1)以社会,经济,管理,环境,自然现象等现代科学中出现的新问题为背景,一般都有一个比较确切的现实问题。 2)给出若干假设条件: 1. 只有过程、规则等定性假设; 2. 给出若干实测或统计数据; 3. 给出若干参数或图形等。 根据问题要求给出问题的优化解决方案或预测结果等。根据问题要求题目一般可分为优化问题、统计问题或者二者结合的统计优化问题,优化问题一般需要对问题进行优化求解找出最优或近似最优方案,统计问题一般具有大量的数据需要处理,寻找一个好的处理方法非常重要。 二、建模思路方法 1、机理分析根据问题的要求、限制条件、规则假设建立规划模型,寻找合适的寻优算法进行求解或利用比例分析、代数方法、微分方程等分析方法从基本物理规律以及给出的资料数据来推导出变量之间函数关系。 2、数据分析法对大量的观测数据进行统计分析,寻求规律建立数学模型,采用的分析方法一般有: 1). 回归分析法(数理统计方法)-用于对函数f(x)的一组观测值(xi,fi)i=1,2,…,n,确定函数的表达式。 2). 时序分析法--处理的是动态的时间序列相关数据,又称为过程统计方法。 3)、多元统计分析(聚类分析、判别分析、因子分析、主成分分析、生存数据分析)。 3、计算机仿真(又称统计估计方法):根据实际问题的要求由计算机产生随机变量对动态行为进行比较逼真的模仿,观察在某种规则限制下的仿真结果(如蒙特卡罗模拟)。 三、模型求解: 模型建好了,模型的求解也是一个重要的方面,一个好的求解算法与一个合

适的求解软件的选择至关重要,常用求解软件有matlab,mathematica,lingo,lindo,spss,sas等数学软件以及c/c++等编程工具。 Lingo、lindo一般用于优化问题的求解,spss,sas一般用于统计问题的求解,matlab,mathematica功能较为综合,分别擅长数值运算与符号运算。 常用算法有:数据拟合、参数估计、插值等数据处理算法,通常使用spss、sas、Matlab作为工具. 线性规划、整数规划、多元规划、二次规划、动态规划等通常使用Lindo、Lingo,Matlab软件。 图论算法,、回溯搜索、分治算法、分支定界等计算机算法, 模拟退火法、神经网络、遗传算法。 四、自学能力和查找资料文献的能力: 建模过程中资料的查找也具有相当重要的作用,在现行方案不令人满意或难以进展时,一个合适的资料往往会令人豁然开朗。常用文献资料查找中文网站:CNKI、VIP、万方。 五、论文结构: 0、摘要 1、问题的重述,背景分析 2、问题的分析 3、模型的假设,符号说明 4、模型的建立(局部问题分析,公式推导,基本模型,最终模型等) 5、模型的求解 6、模型检验:模型的结果分析与检验,误差分析 7、模型评价:优缺点,模型的推广与改进 8、参考文献 9、附录 六、需要重视的问题 数学建模的所有工作最终都要通过论文来体现,因此论文的写法至关重要:

数学建模-数据的统计分析

数学建模与数学实验 课程设计 学院数理学院专业数学与应用数学班级学号 学生姓名指导教师 2015年6月

数据的统计分析 摘要 问题:某校60名学生的一次考试成绩如下: 93 75 83 93 91 85 84 82 77 76 77 95 94 89 91 88 86 83 96 81 79 97 78 75 67 69 68 84 83 81 75 66 85 70 94 84 83 82 80 78 74 73 76 70 86 76 90 89 71 66 86 73 80 94 79 78 77 63 53 55 (1)计算均值、标准差、极差、偏度、峰度,画出直方图;(2)检验分布的正态性; (3)若检验符合正态分布,估计正态分布的参数并检验参数; 模型:正态分布。 方法:运用数据统计知识结合MATLAB软件 结果:符合正态分布

一. 问题重述 某校60名学生的一次考试成绩如下: 93 75 83 93 91 85 84 82 77 76 77 95 94 89 91 88 86 83 96 81 79 97 78 75 67 69 68 84 83 81 75 66 85 70 94 84 83 82 80 78 74 73 76 70 86 76 90 89 71 66 86 73 80 94 79 78 77 63 53 55 (1)计算均值、标准差、偏差、峰度,画出直方图; (2)检验分布的正态性; (3)若检验符合正态分布,估计正态分布的参数并检验参数。 二.模型假设 假设一:此组成绩没受外来因素影响。 假设二:每个学生都是独自完成考试的。 假设三:每个学生的先天条件相同。 三.分析与建立模型 像类似数据的信息量比较大,可以用MATLAB 软件决绝相关问题,将n 名学生分为x 组,每组各n\x 个学生,分别将其命为1x ,2X ……j x 由MATLAB 对随机统计量x 进行命令。此时对于直方图的命令应为 Hist(x,j) 源程序为: x1=[93 75 83 93 91 85 84 82 77 76 ] x2=[77 95 94 89 91 88 86 83 96 81 ] x3=[79 97 78 75 67 69 68 84 83 81 ]

数学建模竞赛统计回归分析相关练习题

1. 一个班有7名男性工人,他们的身高和体重列于下表 请把他们分成若干类并指出每一类的特征。这里身高以米为单位,体重以千克为单位。 2.有两种跳蚤共10只,分别测得它们四个指标值如表。 样本号甲种乙种 X3 X4 X1 X2 X3 X4 X1 X 2 1 189 245 137 163 181 305 184 209 2 192 260 132 217 158 237 13 3 188 3 217 276 141 192 18 4 300 166 231 4 221 299 142 213 171 273 162 213 5 171 239 128 158 181 297 163 224 1)用距离判别法建立判别准则。 2)问(192, 287, 141,198 和(197, 303, 170, 205 各属于哪一种? 3.考察温度x对产量y的影响,测得下列10组数据: 求y关于x的线性回归方程,检验回归效果是否显著,并预测 x=42C时产量的估值 4. 在研究化学动力学反应过程中,建立了一个反应速度和反应物 %-备 含量的数学模型,形式为y — 1 +卩2为+ P3X 2 +P4X3 其中i…,飞是未知参数,X1,X2,X3是三种反应物(氢,门戊烷, 异构戊烷)的含量,y是反应速度?今测得一组数据如表,试由此确定参数订…宀

序号反应速度y 氢X1 n戊烷X2 异构戊烷X3 1 8.55 470 300 10 2 3.79 285 80 10 3 4.82 470 300 120 4 0.02 470 80 120 5 2.75 470 80 10 6 14.39 100 190 10 7 2.54 100 80 65 8 4.35 470 190 65 9 13.00 100 300 54 10 8.50 100 300 120 11 0.05 100 80 120 12 11.32 285 300 10 13 3.13 285 190 120 5. 主成分与卡方检验已课件为主

数学建模各种分析报告方法

现代统计学 1.因子分析(Factor Analysis) 因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量),以较少的几个因子反映原资料的大部分信息。 运用这种研究技术,我们可以方便地找出影响消费者购买、消费以及满意度的主要因素是哪些,以及它们的影响力(权重)运用这种研究技术,我们还可以为市场细分做前期分析。 2.主成分分析 主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用:a,了解数据。(screening the data),b,和cluster analysis一起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。 主成分分析和因子分析的区别 1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组合。 2、主成分分析的重点在于解释个变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。 3、主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。 4、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,的主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不同的因子。 5、在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设定,只要是特征值大于1的因子进入分析),而指定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。 和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这中情况也可以使用因子得分做到。所以这中区分不是绝对的。 总得来说,主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用:a,了解数据。(screening the data),b,

数学建模方法和步骤

数学建模的主要步骤: 第一、模型准备 首先要了解问题的实际背景,明确建模目的,搜集必需的各种信息,尽量弄清对象的特征. 第二、模型假设 根据对象的特征和建模目的,对问题进行必要的、合理的简化,用精确的语言作出假设,是建模至关重要的一步.如果对问题的所有因素一概考虑,无疑是一种有勇气但方法欠佳的行为,所以高超的建模者能充分发挥想象力、洞察力和判断力,善于辨别主次,而且为了使处理方法简单,应尽量使问题线性化、均匀化. 第三、模型构成 根据所作的假设分析对象的因果关系,利用对象的内在规律和适当的数学工具,构造各个量间的等式关系或其它数学结构.这时,我们便会进入一个广阔的应用数学天地,这里在高数、概率老人的膝下,有许多可爱的孩子们,他们是图论、排队论、线性规划、对策论等许多许多,真是泱泱大国,别有洞天.不过我们应当牢记,建立数学模型是为了让更多的人明了并能加以应用,因此工具愈简单愈有价值. 第四、模型求解 可以采用解方程、画图形、证明定理、逻辑运算、数值运算等各种传统的和近代的数学方法,特别是计算机技术.一道实际问题的解决往往需要纷繁的计算,许多时候还得将系统运行情况用计算机模拟出来,因此编程和熟悉数学软件包能力便举足轻重. 第五、模型分析 对模型解答进行数学上的分析."横看成岭侧成峰,远近高低各不?quot;,能否对模型结果作出细致精当的分析,决定了你的模型能否达到更高的档次.还要记住,不论那种情况都需进行误差分析,数据稳定性分析. 数学建模采用的主要方法有: (一)、机理分析法:根据对客观事物特性的认识从基本物理定律以及系统的结构数据来推导出模 型. 1、比例分析法:建立变量之间函数关系的最基本最常用的方法. 2、代数方法:求解离散问题(离散的数据、符号、图形)的主要方法. 3、逻辑方法:是数学理论研究的重要方法,对社会学和经济学等领域的实际问题,在决策,对策等学科中得到广泛应用. 4、常微分方程:解决两个变量之间的变化规律,关键是建立“瞬时变化率”的表达式. 5、偏微分方程:解决因变量与两个以上自变量之间的变化规律. (二)、数据分析法:通过对量测数据的统计分析,找出与数据拟合最好的模型 1、回归分析法:用于对函数f(x)的一组观测值(xi,fi)i=1,2,…,n,确定函数的表达式,由于处理的是静态的独立数据,故称为数理统计方法. 2、时序分析法:处理的是动态的相关数据,又称为过程统计方法. 3、回归分析法:用于对函数f(x)的一组观测值(xi,fi)i=1,2,…,n,确定函数的表达式,由于处理的是静态的独立数据,故称为数理统计方法.

数学建模常用统计方法

数学建模常用统计方法 1.1多元回归 1、方法概述: 在研究变量之间的相互影响关系模型时候,用到这类方法,具体地说:其可以定量地描述某一现象和某些因素之间的函数关系,将各变量的已知值带入回归方程可以求出因变量的估计值,从而可以进行预测等相关研究。 2、分类 分为两类:多元线性回归和非线性线性回归;其中非线性回归可以通过一定的变化转化为线性回归,比如:y=lnx 可以转化为 y=u u=lnx来解决;所以这里主要说明多元线性回归应该注意的问题。 3、注意事项 在做回归的时候,一定要注意两件事: (1) 回归方程的显著性检验(可以通过sas和spss来解决) (2) 回归系数的显著性检验(可以通过sas和spss来解决) 检验是很多学生在建模中不注意的地方,好的检验结果可以体现出你模型的优劣,是完整论文的体现,所以这点大家一定要注意。 4、使用步骤: (1)根据已知条件的数据,通过预处理得出图像的大致趋势或者数据之间的大致关系; (2)选取适当的回归方程; (3)拟合回归参数; (4)回归方程显著性检验及回归系数显著性检验 (5)进行后继研究(如:预测等)

这种模型的的特点是直观,容易理解。 这体现在:动态聚类图可以很直观地体现出来~ 当然,这只是直观的一个方面~ 2、分类 聚类有两种类型: (1) Q型聚类:即对样本聚类; (2) R型聚类:即对变量聚类; 聚类方法: (1) 最短距离法 (2) 最长距离法 (3) 中间距离法 (4) 重心法 (5) 类平均法 (6) 可变类平均法 (7) 可变法 (8) 利差平均和法 在具体做题中,适当选取方法; 3、注意事项 在样本量比较大时,要得到聚类结果就显得不是很容易,这时需要根据背景知识和 相关的其他方法辅助处理。 还需要注意的是:如果总体样本的显著性差异不是特别大的时候,使用的时候也要 注意~

数学建模中统计学常用方法.

1.1多元回归 1、方法概述: 在研究变量之间的相互影响关系模型时候, 用到这类方法, 具体地说:其可以定量地描述某一现象和某些因素之间的函数关系,将各变量的已知值带入回归方程可以求出因变量的估计值,从而可以进行预测等相关研究。 2、分类 分为两类:多元线性回归和非线性线性回归; 其中非线性回归可以通过一定的变化转化为线性回归, 比如:y=lnx 可以转化为 y=u u=lnx来解决;所以这里主要说明多元线性回归应该注意的问题。 3、注意事项 在做回归的时候,一定要注意两件事: (1 回归方程的显著性检验(可以通过 sas 和 spss 来解决 (2 回归系数的显著性检验(可以通过 sas 和 spss 来解决 检验是很多学生在建模中不注意的地方, 好的检验结果可以体现出你模型的优劣, 是完整论文的体现, 所以这点大家一定要注意。 4、使用步骤: (1根据已知条件的数据,通过预处理得出图像的大致趋势或者数据之间的大致关系; (2选取适当的回归方程; (3拟合回归参数; (4回归方程显著性检验及回归系数显著性检验 (5进行后继研究(如:预测等

这种模型的的特点是直观,容易理解。 这体现在:动态聚类图可以很直观地体现出来! 当然,这只是直观的一个方面! 2、分类 聚类有两种类型: (1 Q 型聚类:即对样本聚类; (2 R 型聚类:即对变量聚类; 聚类方法: (1 最短距离法 (2 最长距离法 (3 中间距离法 (4 重心法 (5 类平均法 (6 可变类平均法 (7 可变法 (8 利差平均和法 在具体做题中,适当选取方法; 3、注意事项

在样本量比较大时,要得到聚类结果就显得不是很容易,这时需要根据背景知识和相关的其他方法辅助处理。还需要注意的是:如果总体样本的显著性差异不是特别大的时候,使用的时候也要注意! 4、方法步骤 (1首先把每个样本自成一类; 2选取适当的衡量标准,得到衡量矩阵,比如说:距离矩阵或相似性矩阵,找到矩阵中最小的元素,将该元素对应的两个类归为一类, (4重复第 2步,直到只剩下一个类; (4重复第 2步,直到只剩下一个类; 补充:聚类分析是一种无监督的分类,下面将介绍有监督的“分类” 。 我简单说明下,无监督学习和有监督学习是什么 无监督学习:发现的知识是未知的 而有监督学习:发现的知识是已知的 有监督学习是对一个已知模型做优化,而无监督学习是从数据中挖掘模型 他们在分类中应用比较广泛 (非数值分类 如果是数值分类就是预测了,这点要注意 1.3数据分类 1、方法概述

数学建模统计模型图文稿

数学建模统计模型文件管理序列号:[K8UY-K9IO69-O6M243-OL889-F88688]

数学建模

论文题目: 一个医药公司的新药研究部门为了掌握一种新止痛剂的疗效,设计了一个药物试验,给患有同种疾病的病人使用这种新止痛剂的以下4个剂量中的某一个:2 g,5 g,7 g和10 g,并记录每个病人病痛明显减轻的时间(以分钟计). 为了解新药的疗效与病人性别和血压有什么关系,试验过程中研究人员把病人按性别及血压的低、中、高三档平均分配来进行测试. 通过比较每个病人血压的历史数据,从低到高分成3组,分别记作0.25,0.50和0.75. 实验结束后,公司的记录结果见下表(性别以0表示女,1表示男). 请你为该公司建立一个数学模型,根据病人用药的剂量、性别和血压组别,预测出服药后病痛明显减轻的时间.

一、摘要 在农某医药公司为了掌握一种新止痛药的疗效,设计了一个药物实验,通过观测病人性别、血压和用药剂量与病痛时间的关系,预测服药后病痛明显减轻的时间。我们运用数学统计工具 m i n i t a b软件,对用药剂量,性别和血压组别与病痛减轻

时间之间的数据进行深层次地处理并加以讨论概率值P(是否<0.05)和拟合度R-S q的值是否更大(越大,说明模型越好)。 首先,假设用药剂量、性别和血压组别与病痛减轻时间之间具有线性关系,我们建立了模型Ⅰ。对模型Ⅰ用m i n i t a b软件进行回归分析,结果偏差较大,说明不是单纯的线性关系,然后对不同性别分开讨论,增加血压和用药剂量的交叉项,我们在模型Ⅰ的基础上建立了模型Ⅱ,用m i n i t a b软件进行回归分析后,用药剂量对病痛减轻时间不显着,于是我们有引进了用药剂量的平方项,改进模型Ⅱ建立了模型Ⅲ,用m i n i t a b软件进行回归分析后,结果合理。最终确定了女性病人服药后病痛减轻时间与用药剂量、性别和血压组别的关系模型: Y=31.8-3.491x+56.13x -9.321x 3x +0.2621x 对模型Ⅱ和模型Ⅲ关于男性病人用m i n i t a b软件进行回归分析,结果偏差依然较大,于是改进模型Ⅲ建立了模型Ⅳ,用 m i n i t a b软件进行回归分析后,结果合理。最终确定了男性病人服药后病痛减轻时间与用药剂量、性别和血压组别的关系模型: Y=32.8-4.021x+0.9551x 3x 2 1 x 关键词止痛剂药剂量性别病痛减轻时间

数学建模之统计回归模型

数学建模大作业

摘要 某公司想用全行业的销售额作为自变量来预测公司的销售额,题目给出了1977—1981此公司的销售额和行业销售额的分季度数据表格。通过对所给数据的简单分析,我们可以看出:此公司的销售额有随着行业销售额的增加而增加的趋势,为了更加精确的分析题目所给的数据,得出科学的结论,从而达到合理预测的目的。我们使用时间序列分析法,参照课本统计回归模型例4,做出了如下的统计回归模型。 在问题一中,我们使用MATLB数学软件,画出了数据的散点图,通过观察散点图,发现公司的销售额和行业销售额之间有很强的线性关系,于是我们用线性回归模型去拟合,发现有很好的拟合性。但是这种情况下,并没有考虑到数据的自相关性,所以我们做了下面几个问题的分析来对这个数学模型进行优化。 在问题二中,通过建立了公司销售额对全行业销售额的回归模型,并使用DW检测诊断随机误差项的自相关性。通过计算和查DW表比较后发现随即误差存在正自相关,也就是说前面的模型有一定的局限性,预测结果存在一定的偏差,还有需要改进的地方。 在问题三中,因为在问题二中得出随即误差存在正自相关,为了消除随机误差的自相关性,我们建立了一个加入自相关后的回归模型。并对其作出了分析和验证,我们发现加入自相关后的回归模型更加合理。通过使用我们建立的模型对公司的销售额进行预测,发现和实际的销售额很接近,也就是说模型效果还不错。 关键词:销售额、回归模型、自相关性 一、问题提出 某公司想用全行业的销售额作为自变量来预测公司的销售额,下表给出了1977-1981年公司销售额和行业销售额的分季度数据(单位:百万元). (1)画出数据的散点图,观察用线性回归模型拟合是否合适。 (2)监理公司销售额对全行业销售额的回归模型,并用DW检验诊断随机误差项的自相关性。

数学建模_四大模型总结

四类基本模型 1 优化模型 1.1 数学规划模型 线性规划、整数线性规划、非线性规划、多目标规划、动态规划。 1.2 微分方程组模型 阻滞增长模型、SARS 传播模型。 1.3 图论与网络优化问题 最短路径问题、网络最大流问题、最小费用最大流问题、最小生成树问题(MST)、旅行商问题(TSP)、图的着色问题。 1.4 概率模型 决策模型、随机存储模型、随机人口模型、报童问题、Markov 链模型。 1.5 组合优化经典问题 ● 多维背包问题(MKP) 背包问题:n 个物品,对物品i ,体积为i w ,背包容量为W 。如何将尽可能多的物品装入背包。 多维背包问题:n 个物品,对物品i ,价值为i p ,体积为i w ,背包容量为W 。如何选取物品装入背包,是背包中物品的总价值最大。 多维背包问题在实际中的应用有:资源分配、货物装载和存储分配等问题。该问题属于NP 难问题。 ● 二维指派问题(QAP) 工作指派问题:n 个工作可以由n 个工人分别完成。工人i 完成工作j 的时间为ij d 。如何安排使总工作时间最小。 二维指派问题(常以机器布局问题为例):n 台机器要布置在n 个地方,机器i 与k 之间的物流量为ik f ,位置j 与l 之间的距离为jl d ,如何布置使费用最小。 二维指派问题在实际中的应用有:校园建筑物的布局、医院科室的安排、成组技术中加工中心的组成问题等。 ● 旅行商问题(TSP) 旅行商问题:有n 个城市,城市i 与j 之间的距离为ij d ,找一条经过n 个城市的巡回(每个城市经过且只经过一次,最后回到出发点),使得总路程最小。 ● 车辆路径问题(VRP) 车辆路径问题(也称车辆计划):已知n 个客户的位置坐标和货物需求,在

数学建模统计模型

数学建模统计模型集团标准化工作小组 #Q8QGGQT-GX8G08Q8-GNQGJ8-MHHGN#

数学建模

论文题目: 一个医药公司的新药研究部门为了掌握一种新止痛剂的疗效,设计了一个药物试验,给患有同种疾病的病人使用这种新止痛剂的以下4个剂量中的某一个:2 g,5 g,7 g和10 g,并记录每个病人病痛明显减轻的时间(以分钟计). 为了解新药的疗效与病人性别和血压有什么关系,试验过程中研究人员把病人按性别及血压的低、中、高三档平均分配来进行测试. 通过比较每个病人血压的历史数据,从低到高分成3组,分别记作,和. 实验结束后,公司的记录结果见下表(性别以0表示女,1表示男). 请你为该公司建立一个数学模型,根据病人用药的剂量、性别和血压组别,预测出服药后病痛明显减轻的时间.

一、摘要 在农某医药公司为了掌握一种新止痛药的疗效,设计了一个药物实验,通过观测病人性别、血压和用药剂量与病痛时间的关系,预测服药后病痛明显减轻的时间。我们运用数学统计工具m i n i t a b软件,对用药剂量,性别和血压组别与病痛减轻

时间之间的数据进行深层次地处理并加以讨论概率值P(是否<)和拟合度R-S q的值是否更大(越大,说明模型越好)。 首先,假设用药剂量、性别和血压组别与病痛减轻时间之间具有线性关系,我们建立了模型Ⅰ。对模型Ⅰ用m i n i t a b软件进行回归分析,结果偏差较大,说明不是单纯的线性关系,然后对不同性别分开讨论,增加血压和用药剂量的交叉项,我们在模型Ⅰ的基础上建立了模型Ⅱ,用m i n i t a b软件进行回归分析后,用药剂量对病痛减轻时间不显着,于是我们有引进了用药剂量的平方项,改进模型Ⅱ建立了模型Ⅲ,用m i n i t a b软件进行回归分析后,结果合理。最终确定了女性病人服药后病痛减轻时间与用药剂量、性别和血压组别的关系模型: Y=1x 3x 1x 3x 2 1 x 对模型Ⅱ和模型Ⅲ关于男性病人用m i n i t a b软件进行回归分析,结果偏差依然较大,于是改进模型Ⅲ建立了模型Ⅳ,用m i n i t a b软件进行回归分析后,结果合理。最终确定了男性病人服药后病痛减轻时间与 用药剂量、性别和血压组别的关系模型:Y=1x1x 3x 2 1 x关键词止痛 剂药剂量性别病痛减轻时间

数学建模实验-数据统计分析与回归分析

实验报告(二) 课程名称数学实验与数学建模 实验项目用matlab进行数据统计分析与回归分析实验环境PC机、MATLAB 题号 2 班级/姓名/学号 指导教师 实验日期 成绩

实验二 利用Matlab 进行数据统计分析与回归分析 班级: 姓名: 学号: 一、实验目的:掌握利用软件Matlab 进行回归分析和分布的拟合检验。 二、实验内容:利用Matlab 软件进行线性回归、多项式回归及非线性回归,具体包括回归方程中参数的估计,预测值的计算,画残差图等。并且掌握利用软件找出数据符合的概率分布。 三、实验题目: 1、混凝土的抗压强度随养护时间的延长而增加,现将一批混凝土做成12个试块,记录了养护日期x ( 日)及抗压强度y(kg/m 2)的数据。 求:ln y a b x =+型回归方程。 plot(x,y,'k+',x,z,'r')

2、电影院调查广告费用和报纸广告费用对每周收入的影响,得到下面的数据,建立回归模

3、编写出教材第75页得到表3-11中的数据所用的Matlab程序,和P72图3-10所用的Matlab 程序。 x=[ones(30,1) x1 x2 (x2.^2) (x1.*x2)]; [b,bint,r,rint,stats]=regress(y,x); b,bint,stats

X=[ones(30,1) x1 (x2.^2)]; [b,bint,r,rint,stats]=regress(y,X); aa=polyfit(x2,y,2); x3=5.25:0.05:7.25; y2=polyval(aa,x3); plot(x2,y,'k+',x3,y2,'r') 4、仿照教材P57页例题自编数据进行分布拟合检验。题目:某校60名学生的一次考试成绩如下: 93 75 83 93 91 85 84 82 77 76 77 95 94 89 91 88 86 83 96 81 79 97 78 75 67 69 68 84 83 81 75 66 85 70 94 84 83 82 80 78 74 73 76 70 86 76 90 89 71 66 86 73 80 94 79 78 77 63 53 55 程序: (1)数据输入 s1=[93 75 83 93 91 85 84 82 77 76]; s2=[77 95 94 89 91 88 86 83 96 81]; s3=[79 97 78 75 67 69 68 84 83 81]; s4=[75 66 85 70 94 84 83 82 80 78]; s5=[74 73 76 70 86 76 90 89 71 66]; s6=[86 73 80 94 79 78 77 63 53 55]; s=[s1 s2 s3 s4 s5 s6];

数学建模多元统计分析

.

实验报告 一、实验名称 多元统计分析作业题。 二、实验目的 (一)了解并掌握主成分分析与因子分析的基本原理和简单解法。 (二)学会使用matlab编写程序进行因子分析,求得特征值、特征向量、载荷矩阵等值。(三)学会使用排序、元胞数组、图像表示最后的结果,使结果更加直观。 三、实验内容与要求

四、实验原理与步骤 (一)第一题: 1、实验原理: 因子分析简介: (1) 1.1 基本因子分析模型 设p维总体x=(x1,x2,....,xp)'的均值为u=(u1,u2,....,u3)',因子分析的一般模型为 x1=u1+a11f1+a12f2+........+a1mfm+ε1 x2=u2+a21f1+a22f2+........+a2mfm+ε2 ......... xp=up+ap1f1+fp2f2+..........+apmfm+εp 其中,f1,f2,.....,fm为m个公共因子;εi是变量xi(i=1,2,.....,p)所独有的特殊因子,他们都是不可观测的隐变量。称aij(i=1,2,.....,p;j=1,2,.....,m)为变量xi的公共因子fi上的载荷,它反映了公共因子对变量的重要程度,对解释公共因子具有重要的作用。上式可以写为矩阵形式 x=u+Af+ε

其中A=(aij)pxm 称为因子载荷矩阵;f=(f1,f2,....,fm)'为公共因子向量;ε=(ε1,ε2,.....εp)称为特殊因子向量 (2) 1.2 共性方差与特殊方差 xi的方差var(xi)由两部分组成,一个是公共因子对xi方差的贡献,称为共性方差;一个是特殊因子对xi方差的贡献,称为特殊方差。每个原始变量的方差都被分成了共性方差和特殊方差两部分。 (3) 1.3 因子旋转 因子分析的主要目的是对公共因子给出符合实际意义的合理解释,解释的依据就是因子载荷阵的个列元素的取值。当因子载荷阵某一列上各元素的绝对值差距较大时,并且绝对值大的元素较少时,则该公共因子就易于解释,反之,公共因子的解释就比较困难。此时可以考虑对因子和因子载荷进行旋转(例如正交旋转),使得旋转后的因子载荷阵的各列元素的绝对值尽可能量两极分化,这样就使得因子的解释变得容易。 因子旋转方法有正交旋转和斜交旋转两种,这里只介绍一种普遍使用的正交旋转法:最大方差旋转。这种旋转方法的目的是使因子载荷阵每列上的各元素的绝对值(或平方值)尽可能地向两极分化,即少数元素的绝对值(或平方值)取尽可能大的值,而其他元素尽量接近于0. (4) 1.4 因子得分 在对公共因子做出合理解释后,有时还需要求出各观测所对应的各个公共因子的得分,就比如我们知道某个女孩是一个美女,可能很多人更关心该给她的脸蛋、身材等各打多少分,常用的求因子得分的方法有加权最小二乘法和回归法。 注意:因子载荷矩阵和得分矩阵的区别: 因子载荷矩阵是各个原始变量的因子表达式的系数,表达提取的公因子对原始变量的影响程度。因子得分矩阵表示各项指标变量与提取的公因子之间的关系,在某一公因子上得分高,表明该指标与该公因子之间关系越密切。简单说,通过因子载荷矩阵可以得到原始指标变量的线性组合,如X1=a11*F1+a12*F2+a13*F3,其中X1为指标变量1,a11、a12、a13分别为与变量X1在同一行的因子载荷,F1、F2、F3分别为提取的公因子;通过因子得分矩阵可以得到公因子的线性组合,如F1=a11*X1+a21*X2+a31*X3,字母代表的意义同上。 (5) 1.5 因子分析中的Heywood(海伍德)现象 如果x的各个分量都已经标准化了,则其方差=1。即共性方差与特殊方差的和为1。也就是说共性方差与特殊方差均大于0,并且小于1。但在实际进行参数估计的时候,共性方差

数学建模方法之统计回归总结

统计回归总结 由于客观事物内部规律的复杂及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规律的数学模型。所以我们通过对数据的统计分析,找出与数据拟合最好的模型。 我们通过实例讨论如何选择不同类型的模型,对软件得到的结果进行分析,对模型进行改进: 回归分析步骤如下: ●收集一组因变量和自变量的数据 ●选定因变量和自变量之间的模型,利用数据最小二乘准则计算模 型中的系数 ●利用统计分析方法对不同的模型进行比较找出与数据拟合得最好 的模型 ●判断这组模型是否适合于这组数据诊断有无不适合回归模型的异 常数据 ●利用模型对因变量做出预测与解释 实例分析 一、牙膏的销售量 题目: 收集了30个销售周期本公司牙膏销售量、价格、广告费用,及同期其它厂家同类牙膏的平均售价,请根据对数据的处理建立牙膏销售量与价格、广告投入之间的模型预测在不同价格和广告费用下的牙

膏销售量。 分析与假设 根据对题目中数据进行处理,作散点图分析(MATLAB )应用格式 Plot(x,y,’’) Plotfit(x,y,1),其中x 表示y 模型建立与求解 假设y ~公司牙膏销售量,x 1~其它厂家与本公司价格差 (1)x 2~公司广告费用 (2)将(1)、(2)式子联立可以得到 εββ++=110x y εβββ+++=2 22210x x y ε ββββ++++=22322110x x x y

(3) y~被解释变量(因变量) x1,x2~解释变量(回归变量,自变量) β0,β1,β2,β3~回归系数 ε~随机误差(均值为零的正态分布随机变量) 利用MATLAB工具求解可以得到。 格式如下 [b,bint,r,rint,stats]=regress(y,x,alpha) 输入: y~n维数据向量 x=[1 x1 x2 x22 ]~n×4数据矩阵,第一列为全1向量 alpha(置信水平,0.05) 输出: b~β的估计值 bint~b的置信区间 r ~残差向量y-xb rint~r的置信区间 Stats~检验统计回归模型;检验统计量:R2,F,p 注:其中R2越接近1越好,F远超过F检验的临界值,p远小于α=0.05 则可行

数学建模中统计学常用方法

1.1多元回归 1、方法概述: 在研究变量之间的相互影响关系模型时候,用到这类方法,具体地说:其可以定量地描述某一现象和某些因素之间的函数关系,将各变量的已知值带入回归方程可以求出因变量的估计值,从而可以进行预测等相关研究。 2、分类 分为两类:多元线性回归和非线性线性回归;其中非线性回归可以通过一定的变化转化为线性回归,比如:y=lnx 可以转化为 y=u u=lnx来解决;所以这里主要说明多元线性回归应该注意的问题。 3、注意事项 在做回归的时候,一定要注意两件事: (1)回归方程的显著性检验(可以通过sas和spss来解决) (2)回归系数的显著性检验(可以通过sas和spss来解决) 检验是很多学生在建模中不注意的地方,好的检验结果可以体现出你模型的优劣,是完整论文的体现,所以这点大家一定要注意。 4、使用步骤: (1)根据已知条件的数据,通过预处理得出图像的大致趋势或者数据之间的大致关系; (2)选取适当的回归方程; (3)拟合回归参数; (4)回归方程显著性检验及回归系数显著性检验 (5)进行后继研究(如:预测等) 这种模型的的特点是直观,容易理解。 这体现在:动态聚类图可以很直观地体现出来! 当然,这只是直观的一个方面! 2、分类 聚类有两种类型: (1) Q型聚类:即对样本聚类; (2) R型聚类:即对变量聚类; 聚类方法: (1)最短距离法 (2)最长距离法 (3)中间距离法 (4)重心法 (5)类平均法 (6)可变类平均法 (7)可变法 (8)利差平均和法 在具体做题中,适当选取方法; 3、注意事项 在样本量比较大时,要得到聚类结果就显得不是很容易,这时需要根据背景知识和相关的其他方法辅助处理。还需要注意的是:如果总体样本的显著性差异不是特别大的时候,使用的时候也要注意! 4、方法步骤 (1)首先把每个样本自成一类; 2)选取适当的衡量标准,得到衡量矩阵,比如说:距离矩阵或相似性矩阵,找到矩阵中最小的元素,将该元素对应的两个类归为一类, (4)重复第2步,直到只剩下一个类; (4)重复第2步,直到只剩下一个类; 补充:聚类分析是一种无监督的分类,下面将介绍有监督的“分类”。 我简单说明下,无监督学习和有监督学习是什么

数学建模数据分析题

中国矿业大学数学建模常规赛竞赛 承诺书 我们仔细阅读了中国矿业大学数学建模常规赛论文格式规范和2016年中国矿业大学数学建模常规赛通知。我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。 我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或资料(包括网上资料),必须按照规定的参考文献的表述方式列出,并在正文引用处予以标注。在网上交流和下载他人的论文是严重违规违纪行为。 我们以中国矿业大学大学生名誉和诚信郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理。 我们授权中国矿业大学数学建模协会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。 我们的参赛队号:25 参赛队员(打印并签名):1. 易阳俊 2. 令月霞 3. 刘景瑞 日期: 2016 年 10 月日 (请勿改动此页内容和格式。此承诺书打印签名后作为纸质论文的封面。以上内容请仔细核对,如填写错误,论文可能被取消评奖资格。)

中国矿业大学数学建模常规赛竞赛 编号专用页 评阅统一编号(数学建模协会填写):

题目:数据的分析问题 摘要 本文需要解决的问题是如何根据就诊人员体内7种元素含量来判别某人是否患有疾病G和确定哪些指标是影响人们患疾病G的主要因素。通过解读题目可知,此类问题为典型的分析判别问题。我们先对数据进行了预处理,剔除了有异常数据的样本,然后采用元素分布判别法、马氏距离判别法和Fisher判别法,应用Excel、SPSS和MATLAB等软件来对某人是否患病进行判别,并通过绘制7种元素含量的折线图等来确定患该疾病的主要因素,最后应用综合判别法对之前的结论进行了检验。 对于问题一,在对数据预处理之后,我们删除了序号为10这个高度异常数据样本,然后我们分别采用元素分布判别法、马氏距离判别法和Fisher判别法对49个已知病例进行判别。对于元素分布判别法,我们通过数据预处理知道7种元素含量分布均符合正态分布,然后我们确定了以均值为大致中心的元素正常含量范围,得出其判别准确度为96%;对于马氏距离判别法,通过编写MATLAB程序(见附录)来进行判别,得出其判别准确度为90%;对于Fisher判别法,通过SPSS软件来进行判别,得到线性判别函数,其判别准确度为96%; 针对问题二:我们运用问题一中建立的三个判别模型对25名就诊人员(见附录)的化验结果进行检验,判别结果如下表1: 行对分析,我们初步判定元素4与元素5是影响人们患疾病G的主要因素,然后用方法一的三种判别方法进行检验,其准确度在85%以上; 对于问题四,我们根据问题三得出的主要因素,分别用三种判别方法对25名就诊人员进行判别,再与问题二的判别结果进行对比,可知它们判断结果之间的差异性最高为24%。 对于问题五,由于三种判别法都有不足,所以我们采用了综合判别法,将三种判别方法的结果进行综合判断,最终我们通过主要因素进行判别的差异性下降到了12%,与问题一的判断结果的一致性达到了88%。 关键词:马氏距离判别,Fisher判别,综合判别,MATLAB,SPSS

相关文档
最新文档