数学建模中常用的数据处理方法

数学建模中常用的数据处理方法
数学建模中常用的数据处理方法

一、市场占有率问题(红色为常用信息)

一个企业的销售量(或销售额)在市场同类产品中所占的比重。直接反映企业所提供的商品和劳务对消费者和用户的满足程度,表明企业的商品在市场上所处的地位。市场份额越高,表明企业经营、竞争能力越强。市场份额根据不同市场范围有4种测算方法:

1.总体市场份额。指一个企业的销售量(额)在整个行业中所占的比重。

2.目标市场份额。指一个企业的销售量(额)在其目标市场,即它所服务的市场中所占的比重。一个企业的目标市场的范围小于或等于整个行业的服务市场,因而它的目标市场份额总是大于它在总体市场中的份额 。

3.相对于3个最大竞争者的市场份额。指一个企业的销售量和市场上最大的 3个竞争者的销售总量之比。如:一个企业的市场份额是30%,而它的3个最大竞争者的市场份额分别为20%,10%,10%,则该企业的相对市场份额就是30%÷40%=75%,如4个企业各占25%,则该企业的相对市场份额为33%。一般地,一个企业拥有33%以上的相对市场份额,就表明它在这一市场中有一定实力。

4.相对于最大竞争者的市场份额。指一个企业的销售量与市场上最大竞争者的销售量之比。若高于100%,表明该企业是这一市场的领袖。

二、顾客满意度问题(红色为常用信息)

2.1 顾客满意度概述

确定顾客满意程度的指标和顾客满意级度是对顾客满意度进行测量控制的关键问题。顾客满意度是评价企业质量管理体系业绩的重要手段。为此,要科学确定顾客满意度的指标和满意度的级度并对顾客满意度进行测量监控和分析,才能进一步改进质量管理体系。

2.2 顾客的需求结构

要建立一组科学的顾客满意程度的评价指标,首先要研究顾客的需求结构。经对顾客作大量调查分析,顾客需求的基本结构大致有以下几个方面: 1.品质需求:包括性能、适用性、使用寿命、可靠性、安全性、经济性和美学(外观)等;

2.功能需求:包括主导功能、辅助功能和兼容功能等;

3.外延需求:包括服务需求和心理及文化需求等;

4.价格需求:包括价位、价质比、价格弹性等。

组织在提供产品或服务时,均应考虑顾客的这4种基本需求。但是,由于不同国家地区、不同的消费人群对这些需求有不同的需求强度。在消费后又存在一个满意水平的高低。当顾客需求强度高时,稍有不足,他们就会有不满或强烈不满,当需求强度要求低时,只需低水平的满足即可。

例如,购买彩色电视机,由于人们收入水平和消费心理的不同,对电视机的功能、款式、价格有不同的需求强度。收入丰厚的人们,喜欢高档名牌,因此对品质和功能需求的强度要求就高,而对价格需求不强烈。也就是说,当品质和功能不满足他们的要求时,就会产生不满或强烈不满。对低收入工薪族,他们消费心理追求价廉物美,以实惠为原则,因此对价格和服务的需求强度要求高,价格高、服务差,是他们产生不满的主要因素。而对功能需求强度则不强烈。

因此,企业应该根据不同的顾客需求,确定主要的需求结构,以满足不同层次顾客的要求,使顾客满意。

2.3 顾客满意指标

满意,是对需求是否满足的一种界定尺度。当顾客需求被满足时,顾客便体验到一种积极的情绪反映,这称为满意,否则即体验到一种消极的情绪反映,这称为不满意。

顾客满意,是指顾客对某一事项已满足其需求和期望的程度的意见,也是顾客在消费后感受到满足的一种心理体验。

顾客满意指标,是指用以测量顾客满意程度的一组项目因素。

要评价顾客满意的程度,必须建立一组与产品或服务有关的、能反映顾客对产品或服务满意程度的产品满意项目。由于顾客对产品或服务需求结构的强度要求不同,而产品或服务又由许多部分组成,每个组成部分又有许多属性;如果产品或服务的某个部分或属性不符合顾客要求时,他们都会作出否定的评价,产生不满意感。

2.4 顾客满意级度

顾客满意级度指顾客在消费相应的产品或服务之后,所产生的满足状态等次。

前面所述,顾客满意度是一种心理状态,是一种自我体验。对这种心理状态也要进行界定,否则就无法对顾客满意度进行评价。心理学家认为情感体验可以按梯级理论进行划分若干层次,相应可以把顾客满意程度分成七个级度或五个级度。

七个级度为:很不满意、不满意、不太满意、一般、较满意、满意和很满意。

五个级度为:很不满意、不满意、一般、满意和很满意。

五个级度的参考指标类同顾客满意级度的界定是相对的,因为满意虽有层次之分,但毕竟界限模糊,从一个层次到另一个层次并没有明显的界限。之所以进行顾客满意级度的划分,目的是供企业进行顾客满意程度的评价之用。

2.5 顾客满意度的分值与加权

为了能定量地进行评价顾客满意程度,可对顾客满意七个级度,给出每个级度得分值,并根据每项指标对顾客满意度影响的重要程度确定不同的加权值,这样即可对顾客满意度进行综合的评价。

例如,某企业对其产品的质量、功能、价格、服务、包装、品位进行顾客满意调查,按七个级度,从很不满意到很满意的分值分配表如表1:

调查结果如表2:

从计算结果可以看出,该产品的顾客满意度得分是23.3,属于“较满意”的产品。但是,由于顾客对每个属性的要求程度不同,因此,应根据顾客对评价指标的重要程度进行分值加权,则更能科学地反映出顾客的满意程度。同例,该企业对质量、功能、价格、服务、包装、品位,根据其对顾客满意的影响程度确定的加权值分别为0.3、0.1、0.35、0.15、0.05; 则其满意度=i i x k ∑,见表3:

显然两种方法计算的结果是不同的,加权法为40,处于满意水平,而简单分值法仅为23.3,处于较满意水平。而实质上,顾客对产品的总体感受应是满意水平。所以利用加权法更能准确的反映顾客的满意状态。加权法的加权值,企业可以根据经验、专家评定或调查等方法进行确定。

2.6 顾客满意信息的收集与分析

IS09004:2000的8.2.1.2条中对如何收集顾客满意信息的方式、内容及渠道都作了较具体提示。

收集顾客满意信息的方式是多种多样,包括口头的和书面的。企业应根据信息收集的目的、信息的性质和资金等来确定收集信息的最佳方法。收集顾客满意信息的渠道有7个方面: 1.顾客投诉

2.与顾客的直接沟通 3.问卷和调查 4.密切关注的团体 5.消费者组织的报告 6.各种媒体的报告 7.行业研究的结果

标准要求,企业应对顾客满意信息的收集进行策划,确定责任部门,对收集方式、频次、分析、对策及跟踪验证等作出规定。

收集顾客满意信息的目的是针对顾客不满意的因素寻找改进措施,进一步提高产品和服务质量。因此,对收集到的顾客满意度信息进行分析整理,找出不满意的主要因素,确定纠正措施并付之实施,以达到预期的改进目标。 在收集和分析顾客满意信息时,必须注意两点:

1.顾客有时是根据自己在消费商品或服务之后所产生的主观感觉来评定满意或不满意。因此,往往会由于某种偏见、情绪障碍和关系障碍,顾客心中完全

满意的产品或服务他们可能说很不满意。此时的判定也不能仅靠顾客主观感觉的报告,同时也应考虑是否符合客观标准的评价。

2.顾客对产品或服务消费后,遇到不满意时,也不一定都会提出投诉或意见。因此,企业应针对这一部分顾客的心理状态,利用更亲情的方法,以获得这部分顾客的意见。

三、异常数据的挖掘和处理[1 ]

在预测与决策时,经常需要对所要研究的对象进行分析和收集数据,从大量的统计数据中找规律,而这些数据真实与否直接影响分析结论的科学性。在多数情况下会发现,统计来的数据是按照某一规律且起伏并不是很大,但其中都可能混有“异常数据”,这些异常数据是由异常因素(例异常时间、干扰或误差等)造成的与大多数观察值不一致。有些异常值可能是在统计时度量或执行错误所得到的,在分析过程中应剔除的,但有些数据非任何统计错误所致不能简单地剔除,否则可能导致重要的隐藏信息丢失[2,特别有些异常数据非常有价值,若剔除则可能影响到结论的科学性。因此,对于异常数据的挖掘及处理(利用)是值得研究的问题。 ]

3.1 异常数据的挖掘方法

所谓数据挖掘就是按照既定的目标, 对大量的统计数据进行探索, 揭示隐藏其中的规律并进一步将之模型化的一种先进有效的方法。对异常数据的挖掘我们认为实际上就是识别统计数据是否为异常值,挖掘过程实际上是识别过程,可以用以下几种方法进行挖掘:

3.1.1 3σ检测法[2

]一般统计数据若没有明显的上升或下降趋势(若是时间序列一般为平稳的时间序列),都分布在其均值周围,标准差σ能反映其离散程度。统计数据可以是来自某一总体的样本。如果是一般总体,可以由概率统计中的切贝谢夫不等式知道,对于任意的0ε>,有:

2

2{()}P X E X σεε

?≥≤

特别地有,22

1

{()3}(3)9P 即统计数据与其均值的偏差超过3X E X σσσ?≥≤=,σ的;若总体为正态的,比例不超过1/则由不等式9{()3}2[1(3)]P X E X σ?≥=?=

,即在正态分布下,统计数据与平均值的离差大于Φ0.0273σ的仅为0.27%,所以

可将那些有均值之差的绝对值超过3σ的统计数据视为异常数据。

根据概率论中的中心极限定理,大多数总体在统计数据比较多时服从正态分布,因此3σ检测法在实际中比较常用。当然它的局限性是只适用于单维异常数

据的挖掘。

例如:下面列出了86个伊特拉斯坎(Etruscan)人男子的头颅的最大宽度(单位:141148 132 138 154 172 150 142 115

用MATLAB可以求得:测量数据的均值mm),检验此次调查的数据是否存在异常:

146 155 158 150 140 147 148 144 150 149 145 149 158 143 141 144 144 126 140 144 142 141 140 145 135 147 146 141 136 140 146 142 137 148 154 137 139 143 140 131 143 141 149 148 135 148 152 143 144 141 143 147 146 150 132 142 142 143 153 149 146 149 138 142 149 142 137 134 144 146 147 140 142 140 137 152 145 143.77X =,7.34σ=。运用3σ准则,所有测量数据均应在[33X X ]σσ?+,范围内,即[x 121.74∈,165.80]。我们发现这可能是由于测量时的某些客观条件的影响

是研究分类问题的一种多元统计分析方法。在聚类分析的据变换,常用的方法有:

数据中的172和115不在上述范围内,所致,因此可视为异常数据。

3.1.2 聚类分析法[3]聚类分析又称群分析,过程中,将样品或变量按相互之间距离的大小或由相似系数反映出的相近性聚成若干类,常用的距离有欧氏距离、马氏距离、兰氏距离等,马氏距离可以排除指标之间相关性的干扰且不受量纲的影响,最为实用。根据聚类的结果,距离较小或相似系数大的可以聚为一类,但最终聚成几类,并没有严格的限制。如果存在几个样品,聚合成哪一类都不合适,或与其它样品的距离都比较远,那么就可断定这些样品数据为异常数据。

1、数据在聚类分析之前要进行数*

①中心化变换: ij ij j x x x =? (1,2,,;1,2,,)i n j m ==L L ,变换后的数据均

值为0,而协方差不变;

②标准化变换:*

ij j

ij

j

x x x s ?=

m (1,2,,;1,2,,)i n j ==L L ,其中是标准差;

变换后的数据,每个变量的样本均值为0,标准差为1,而且标准化变换后的数据③极差标准化变换:j s 与变量的量纲无关;

*ij j ij

j

x x x R ?=

m (1,2,,;1,2,,)i n j ==L L ,其中j R 是极

差;极差为1,且变换后的数据,每个变量的样本均值为0,1ij x <,在以后的分析计算中可以减少误差的产生,同时变换后的数据也是无量纲的量;

④极差正规化变换:*1min ij ij

t n

j

ij

x x R ≤≤x ?=

m (1,2,,;1,2,,)i n j ==L L ,变换后的

数据,极差为1,也是无量纲的量;

⑤对数变换:*

01x ≤≤ij (0;1,2,,;1,2,,)ij x i n j >==L L *

ln()ij ij x x =m ,它可将具有指

数特征的数据结构变换为线性数据结构。

它们的主要做用时吧非线性数据结构变为线性数据结构,以适应某些统计方法的需要。

它的基本步骤如下:

离)矩阵

。此时类间的距离就是样品间的距离(即),此外,还有平方根变换,立方根变换等,2、由聚类分析法的基本思想,即可得出①数据变换:常用的数据变换方法在上面已经详细举出。数据变换的目的时为了便于计算和比较,或改变数据的结构;

②计算n 各样品两两间的距离,得到样品间的距离(常用欧式距(0)D ;

③初始(第一步:1i =)n 个样品各自构成一类,类的个数k n =,第i 类

({)i i G X =然后对样品}(1,2,,i n =L ()i )(1)(D D =0)X (1,2,,)i n =L 执行并类过程④和⑤;

(1)i D ?④对步骤③得到的距离矩阵,合并类间距离最小的两类为一新类,此时类的总个数减少一类,即k 1k n i =?+;

⑤计算新类与其它类的距离,得到新的距离矩阵,若合并后的总个数仍大于1,重复步骤④和⑤;

1.1中的头颅的最大宽度的数据,按照聚类方法的步骤得到

k ⑥画谱系聚类图;

⑦决定分类个数及各类的成员。

3、举例:同样使用3.谱系图为:

140140141L 158172

158142137

126115L L

L L L

L

当时,即分为三类时,,,,

为:

我们发现这三类相互之间的距离都比较远,且远远大于了时的距离,根据聚类分析法的思想可断定115和172为异常数据。这与前面的3k =此时的距离矩阵(3)1{115}G =(3)

2{126,,158}G =L (3)3{172}G =(84)D (3)

1G (3)2G (3)

3G (3)

1G (3)

3G (3)

2

G 11

6300

14

3k >3σ检测法得出了相3.1.3 回归分析法

对收集来的统计数据大多数是符合某种规律或服从某种分布的,首先对原始数据作变换(开方法、对数法等)并同时认为这些数据都满足线性回归模型,对数据进行回归。在回归分析下,可以从残差分析和影响分析判断。残差分析法是用模型进行预测得到残差,从残差中发现那些拟合效果差的来判别哪些数据是异常值;影响分析主要是探察对统计推断(如估计或预测)有较大影响的试验数据,我们期望每组数据对统计推断有一定影响但不要过大,若某组数据的影响过大,则是一种很常用的数据统计分析方法,这里不再详细说明其基本步,仅用举例的形式说明其在已成数据挖掘中的应用。

品的销量进行调查,并考虑有关的四个因素:同的结论。

包含这组数据的经验回归方程与不包含这组数据的经验回归方程差异较大,于是经验回归方程关于这组数据就不具有稳定性,就可以认为这组数据出现异常。

回归分析骤Y X 例如:对某种商-居民可1支配收入指数,2X -该商品的平均价格指数,3X -该商品的社会保有量,4X -其他消费品平均价格指数。下面是调查数据:

1X 82.9 88 99.9 105.3120.7131 148.2161.8 174.2 184.72X 92 93 96 94 100 101 105 112 112 112 3X 17.1 21.3 25.1 29 34 40 44 49 51 53 3X

94 96 97 97 100 101 104 109 111 111 Y

8.4

9.6

10.4

11.4

12.2

14.2

15.8

17.9

19.6

20.8

我们运用MATLAB回归工具箱,键入以下命令:

clear;clc;

x1=[82.9 88 99.9 105.3 120.7 131 148.2 161.8 174.2 184.7]; x2=[92 93 96 94 100 101 105 112 112 112]; 3=.1 2 2529 30 4 5]; x4=[94 96 97 97 100 101 104 109 111 111];

X=[ones(1,10);x1;x2;x3;x4]; =y inv X')[b,bint,r,rint,stats]=regress(y',X') figure()

coplot(r,rint)

x [17 1.3.1 4 4 4 49 1 53y=[8.4 9.6 10.4 11.4 12.2 14.2 15.8 17.9 19.6 20.8]; A *X'*(X*;

r 由返回的决定系数20.9976R =、F 统计量值F 514.1=、统计量对应的概率值型的残差F ()0p F =可以看出,该回归模型的回归效果是显著的。并且得到回归模图,如图所示:

由图可以看出,第5组数据的残差最大,已经超过了其置信区间的范围,因此可以判定第5组数据是异常数据。

3.2 异常数据的处理方法

可以根据以上的方法把异常数据挖掘出来,异常数据挖掘出后,就需要正确处理这些异常数据。有些确实是误差引起的或无用的干扰引起的可以把它剔除,但有些非常重要的信息必须留下。对收集来的数据,分析其特征,然后通过以下几种方法处理:

3.2.1 异常数据的剔除

在处理实验数据的时候,我们常常会遇到个别数据偏离预期或大量统计数据[]+结果的情况,如果我们把这些数据和正常数据放在一起进行统计,可能会影响实

验结果的正确性,如果把这些数据简单地剔除,又可能忽略了重要的实验信息。里重要的问题是如何判断异常数据,然后将其剔除。判断和剔除异常数据是数据处理中的一项重要任务,目前的一些方法还不是十分完善,有待进一步研究和一个置信概率,并确定一个置信限,凡超过此限的误差,就认它不属于随机误差范围,将其视为异常数据剔除。

是区别异常数据由偶然误差还是系统误差造成的问题。若是这探索。

目前人们对异常数据的判别与剔除主要采用物理判别法和统计判别法两种方法。物理判别法就是根据人们对客观事物已有的认识,判别由于外界干扰、人为误差等原因造成实测数据偏离正常结果,在实验过程中随时判断,随时剔除。统计判别法是给定为剔除异常数据实质上人为因素的偶然误差就应剔除,如果没有足够的理由证实是偶然过失造成的时候,应对数据进行统计处理,采用一定的检验方法来决定取舍。

1、3σ准则(拉依达准则)

若可疑数据d x 与样本数据之算术平均值的偏差的绝对值大于3倍(2倍)的标准偏差,即:

3d x x σ?>

则应将d x 从该组数据中剔除,至于选择3倍的标准偏差3s 还是2倍的标准差2s 与显著性水平α有关,显著性水平α表示的是检验出错的几率为α,或检验的可置信度为1α?。3s 相当于显著水平为0.01,2s 相当于显著水平=0.05。

2、格拉布斯准则

d x 时,选取一定的显著性水平α用格布斯准则检验可疑数据拉,若:

(,)d x x G n s α?≥

则应将d x d x —测量数据;x —测量数据平均值;—s 从该组数据中剔除,中:式贝塞尔公式计算的标准差;(,)G n α称为格拉布斯检验临界值,可查相关表格得到。

以上准则是以数据按正态分布为前提的,当偏离正态分布,特别是测量次数少时,判断的可靠性就差。因此,对粗大误差除用剔除准则外,要保证测量条件稳定,防止因环境条件剧烈变化而产生的突变影响。 狄克逊研究了次测量结果,按其数值大小排列成如下次序:

很3、狄克逊(dixon)法

n (1)(2))(x x x ≤≤≤L n

当()x i 服从正态分布时用不同的公式求得f 值,

再经过查表,得到相应的临界,进行比较。若计算值大于(f n 值,)α视为异常值,舍弃;再对剩余数值进行检验,

直到没有异常值为止。狄克逊通过模拟实验认为:7n ≤,使用10f ;0,81n ≤≤用11f ;1113n ≤≤,用21f ;14n ≥,用22f 效果好。

4、肖维勒准则

对相同精度相互独立测量所得数值,若测量值d x 满足:d n d x x x ωσ?>时,即异常剔除;为值,应式中n ω与测量值的测试次数有关。

5、将可n t 检验法

疑值d x 以外的值当作一个总体,并假定该总体呈正态分布(严格来说,样本是否是正态的需要进行判断,但在实际应用中,可以将很多样本近似认为是

d x d x 正态的),而将可疑值当作一个样本容量为1的特殊总体。如果与其余值同属一个总体,则它与其余值之间不应有显著性差异,由d x 计算得到统计量k 。

d x x

k ?s

=

式中 :i x 为可疑值s 以样本数据算术平均值;差。分布表所得的值进行比较,外的为可疑值以外的样本数据标准将值与查t 大于显著性水平α(α常取0.05)下的t 检验值,则表明d x 的出现是一个小概率事件,可以考虑为异常值,将其舍去。 例题:对某进行等度测量得到一组测量数据: 10.002,10.102,10.203, 10.204,10.208,10.218,10.220,10.228,10.230,10.232,10.302,10.312,10.320,10.342,10.346,分别用以上四种方法判断并剔除异常值,取置信概率95%(即精0.05α=是)

计算或查表得出:,(0.05 2.41G 0.0192=,10.2313x ,15)=σ=,150.1943ω=,

(0.05,)0.525f =,(0.05,14)0.546f 15=,查t 分布表得 2.1315t k =。

①拉依达准则:20.1824σ=,10.00210.23132σ?>,1.1010.2313202σ?>,又因为0.05α=,所以10.002和10.102应剔除;

②格拉布斯准则:10.00210.2313(,)G n ασ?>,10.00210.2313(,)G n ασ?>,所以10.002和10.102应剔除;

(3)(1)

0.6321(0.05,15)(2)(③狄克逊法:1)

x n x x f f x ?=

=>??,需要剔除数据,剔除

10.002后,(3(005,14)x f <,因据)(1)

0.4679.(2)(1)

x f x n x ?=

=??此剔除需数为

④肖维勒准则:10.002;15ω10.00210.2313σ?>,1510.00210.2313ωσ?>,因此可以剔除10.002,除去可疑数据后的数据的标准差为

,10.002和10.102;

⑤t 检验法:可疑数据为0.0680s =110.00210.2313

? 3.37210.0680t k k ==>,因此须剔除;剩余数据中可疑数

,据为10.102,0.0680s =110.10210.2313

3.31720.0558

t k k ?=

=>,因此10.102也可

剔除。

综上,我们用所有的方法对数据中的异常数据做了合理的剔除,各种方法的

结果基本相同。在实际运用中可选取一中或几种对数据挖掘中的异常数据判定并进行合理的剔除。 3.2.回归模型法主要是针对收集的数据按照以上方法可以判断出哪些是异常数据,然后认这些异常数据是异常时期发生的虚拟变量的方法。

因此,

2 回归模型法

为,通过建立回归模型在模型中引入设虚拟变量=?若是单变量时间序列i D 10i D ?? 异常时期

正常时期

i y ,则总体回归模型为:01i i i y b b D ε=++,其中i ε为随i y 0i y b =机干扰项;若是多变量时间序列,受多变量影响,则总体回归模型为:

1122i i m 1i b m m i b x b x b x D i ε+++++++L ,其中m 为变量个数,i ε为随机干扰项。 3.2.3 其它方法简介

在数据处理时我们常用的方法是根据上面的异常数据判断准则做出准确的判断,然后根据实际情况对部分异常数据做剔除处理;但有时的数据可能包含有中要的信息,因此我们还有以下几种异常数据处理的方法。由于其针对性比较强,而且实际操作时需要许多经验值,因此①经验修正法。由工作人员根据长期积累的经验对数据进行修正;

②分时段设定闭值判别法。对不同时段区间内的数据,参照其波动范围分别设定最大、最小团值,然后对区间内的各数据进行筛选。该法可以将异常数据筛选出行剔除或用正常曲线置换; ④数据对比法。将某一时刻的数据与其前后时刻的数据进行比较,如果差值异常数据,如果偏差大于某一阀值,则取平均值代替;

异常数据的挖掘方法与处理研究.商业研究. 2007[2] 与测试技术2007[4] 这样通过虚拟变量的引入, 能够反映出异常时期异常数据的影响程度,准确反映所研究问题的变化规律,最终进行预测。

如果剔除则可能出现信息丢失的情况,这里只简单介绍方法。

来。对筛选出的异常数据,可运用③④⑤⑥方法进行修正;

③曲线置换法。对有突变事件的异常数据进大于某一值,则认为是⑤插值法。运用多种插值算法对数据进行识别和修正;

⑥概率统计法。先采用方法②,对多数异常数据进行筛选和修正,然后对余下的部分异常数据用置信区间的方法进行识别和修正。

[1] 张珍花 路正南.经济(5):46-48.

黄守坤.异常数据挖掘及在经济欺诈发现中的应用.统计与决策. 2003(4):32-33.

[3] 叶川 伍川辉 张嘉怡.计量测试中异常数据剔除方法比较.计量.34(7):26-27.

盛骤 谢式千 潘承毅.概率论与数理统计.北京:高等教育出版社.2001.12 [5] 高慧璇.应用多元统计分析.北京:北京大学出版社.2005.1

建立数学建模案例分析

§15.4锁具装箱问题 [学习目标] 1.能表述锁具装箱问题的分析过程; 2.能表述模型的建立方法; 3.会利用排列组合来计算古典概型; 4.会利用Mathematica求解锁具装箱问题。 一、问题 某厂生产一种弹子锁具,每个锁具的钥匙有5个槽,每个槽的高度从{1,2,3,4,5,6}6个数(单位从略)中任取一数。由于工艺及其它原因,制造锁具时对5个槽的高度有两个要求:一是至少有3个不同的数;二是相邻两槽的高度之差不能为5。满足上述两个条件制造出来的所有互不相同的锁具称为一批。销售部门在一批锁具中随意地抽取,每60个装一箱出售。 从顾客的利益出发,自然希望在每批锁具中不能互开(“一把钥匙开一把锁”)。但是,在当前工艺条件下,对于同一批中两个锁具是否能够互开,有以下实验结果:若二者相对应的5个槽的高度中有4个相同,另一个槽的高度差为1,则可能互开;在其它情况下,不可能互开。 团体顾客往往购买几箱到几十箱,他们会抱怨购得的锁具中出现互开的情形。现请回答以下问题: 1.每批锁具有多少个,能装多少箱? 2.按照原来的装箱方案,如何定量地衡量团体顾客抱怨互开的程度(试对购买一、二箱者给出具体结果)。 二、问题分析与建立模型 因为弹子锁具的钥匙有5个槽,每个槽的高度从{1,2,3,4,5,6}这6个数中任取一数,且5个槽的高度必须满足两个条件:至少有3个不同的数;相邻两槽的高度之差不能为5。所以我们在求一批锁具的总数时,应把问题化为三种情况,即5个槽的高度由5个不同数字组成、由4个不同数字组成、由3个不同数字组成,分别算出各种情况的锁具个数,然后相加便得到一批锁具的总个数。在分别求这三种情况锁具个数的时候,先求出满足第1个条件的锁具个数再减去不满足第2个条件的锁具个数。在求这三种情况锁具个数的时候,主要依靠排列组合的不尽相异元素的全排列公式。 下面用一个5元数组来表示一个锁具: Key=(h1,h2,h3,h4,h5) 其中h i表示第i个槽的高度,i=1,2,3,4,5。此5元数组表示一把锁,应满足下述条件: 条件1:h i∈{1,2,3,4,5,6},i = 1,2,3,4,5。

对中国大学生数学建模竞赛历年成绩的分析与预测

2012年北京师范大学珠海分校数学建模竞赛 题目:对中国大学生数学建模竞赛历年成绩的分析与预测 摘要 本文研究的是对自数学建模竞赛开展以来各高校建模水平的评价比较和预测问题。我们将针对题目要求,建立适当的评价模型和预测模型,主要解决对中国大学生数学建模竞赛历年成绩的评价、排序和预测问题。 首先我们用层次分析法来评价广东赛区各校2008年至2011年及全国各大高校1994至2011年数学建模成绩,从而给出广东赛区各校及全国各大高校建模成绩的科学、合理的评价及排序;其次运用灰色预测模型解决广东赛区各院校2012年建模成绩的预测。 针对问题一,首先我们对比了2008到2011年参加建模比赛的学校,通过分析我们选择了四年都参加了比赛的学校进行合理的排序(具体分析过程见表13),同时对本科甲组和专科乙组我们分别进行排序比较。在具体解决问题的过程中,我们先分析得出影响评价结果的主要因素:获奖情况和获奖比例,其中获奖情况主要考虑国家一等奖、国家二等奖、省一等奖、省二等奖、省三等奖,我们采用层次分析法,并依据判断尺度构造出各个层次的判断矩阵,对它们逐个做出一致性检验,在一致性符合要求的情况下,通过公式与matlab求得各大学的权重,总结得分并进行排序(结果见表11);在对广东赛区各高校2012建模成绩预测问题中,我们采用灰色预测模型,我们以华南农业大学为例,得到该校2012年建模比赛获奖情况为:省一等奖、省二等奖、省三等奖及成功参赛奖分别为5、9、8、8(其它各高校预测结果见表10)。 针对问题二,我们对全国各院校的自建模竞赛活动开展以来建模成绩排序采用与问题一相同的数学模型,在获奖情况考虑的是全国一等奖、全国二等奖。运用matlab求解,结果见表12。 针对问题三,我们通过对一、二问排序的解答及数据的分析,得出在对院校进评价和预测时还应考虑到各院的师资力量、学校受重视程度、学生情况、参赛经验等因素,考虑到这些因素,为以后评价高校建模水平提供更可靠的依据。 关键词:层次分析法权向量灰色预测模型模型检验 matlab

数学建模案例分析--对策与决策方法建模6决策树法

§6 决策树法 对较为复杂的决策问题,特别是需要做多个阶段决策的问题,最常用的方法是决策树法。决策树法是把某个决策问题未来发展情况的可能性和可能结果所做的预测用树状图画出来。其步骤如下: 1、用方框表示决策点。从决策点画出若干条直线或折线,每条线代表一个行动方案,这样的直线或折线称为方案枝。 2、在各方案枝的末端画一个园圈,称为状态点,从状态点引出若干直线或折线,每条线表示一个状态,在线的旁边标出每个状态的概率,称为概率枝。 3、把各方案在各个状态下的损益期望值算出标记在概率枝的末端。 4、把计算得到的每个方案的损益期望值标在状态点上,然后通过比较,选出损益期望值最小的方案为最优方案。 例1某厂准备生产一种新产品,产量可以在三种水平n1、n2、n3中作决策。该产品在市场上的销售情况可分为畅销、一般和滞销三种情况,分别为S1、S2、S3。通过调查,预测市场处于这三种情况的概率分别为0.5、0.3、0.2。三种决策在各种不同市场情况下的利润见下表: 表1 基于各种决策的各种市场情况的利润表(万元) 我们可以计算每种决策下利润的期望值: 实行在水平n1下生产的利润的期望值为:90×0.5+30×0.3-60×0.2=42 实行在水平n2下生产的利润的期望值为:60×0.5+50×0.3-10×0.2=43 实行在水平n3下生产的利润的期望值为:10×0.5+9×0.3-6×0.2=6.5 由于在水平n2下生产利润的期望值最大,因而应选择产量水平n2生产。 可以应用决策树帮助解决这样的决策问题,把各种决策和情况画在图1上: 图1

图中的方框(□)称为决策点,圆圈(○)称为状态点,从方框出发的线段称为对策分支,表示可供选择的不同对策。在圆圈下面的线段称为概率分支,表示在此种对策下可能出现的各种情况。在概率分支上注明了该情况出现的概率。在每一个概率分支的末端注明了对应对策和对应情况下的收益(利润)。在计算时,我们把相应的期望值写在相应的状态点旁边,再由比较大小后选择最优决策,在图上用∥表示舍弃非最优的对策,并在决策点上注明最优决策所对应的期望利润。 图2 利用决策树还可以解决多阶段的决策问题。 例2 某公司在开发一种新产品前通过调查推知,该产品未来的销售情况分前三年和后三年两种情况。因此生产该产品有两种可供选择的方案:建造大厂和建造小厂。如果建造大厂,投资费用5000万元,当产品畅销时,每年可获利2000万元,当产品滞销时,每年要亏损120万元。如果建造小厂,投资费用1000万元,当产品畅销时,每年可获利300万元,当产品滞销时,每年仍可获利150万元。若产品畅销可考虑在后三年再扩建,扩建投资需2000万元,随后三年每年可获利1000万元;也可不再扩建。预测这六年该产品畅销的概率为0.6,滞销的概率为0.4。试分析该公司开发新产品应如何决策? 根据问题的各种情况可以画出决策树如下:这是一个两阶段的决策问题。注意到图中有两个决策点,反映建小厂的方案中可以分成前三年和后三年两个阶段,并在后三年还要做出一次决策。 图3 把各种数据填到图适当的位置后,由后向前计算获利的期望值。由图可见应采用决策:建造大厂。 500 900 1000*3=3000 300*3=900 6.5

数学建模中常见的十大模型

数学建模常用的十大算法==转 (2011-07-24 16:13:14) 转载▼ 1. 蒙特卡罗算法。该算法又称随机性模拟算法,是通过计算机仿真来解决问题的算法,同时可以通过模拟来检验自己模型的正确性,几乎是比赛时必用的方法。 2. 数据拟合、参数估计、插值等数据处理算法。比赛中通常会遇到大量的数据需要处理,而处理数据的关键就在于这些算法,通常使用MA TLAB 作为工具。 3. 线性规划、整数规划、多元规划、二次规划等规划类算法。建模竞赛大多数问题属于最优化问题,很多时候这些问题可以用数学规划算法来描述,通常使用Lindo、Lingo 软件求解。 4. 图论算法。这类算法可以分为很多种,包括最短路、网络流、二分图等算法,涉及到图论的问题可以用这些方法解决,需要认真准备。 5. 动态规划、回溯搜索、分治算法、分支定界等计算机算法。这些算法是算法设计中比较常用的方法,竞赛中很多场合会用到。 6. 最优化理论的三大非经典算法:模拟退火算法、神经网络算法、遗传算法。这些问题是用来解决一些较困难的最优化问题的,对于有些问题非常有帮助,但是算法的实现比较困难,需慎重使用。 7. 网格算法和穷举法。两者都是暴力搜索最优点的算法,在很多竞赛题中有应用,当重点讨论模型本身而轻视算法的时候,可以使用这种暴力方案,最好使用一些高级语言作为编程工具。 8. 一些连续数据离散化方法。很多问题都是实际来的,数据可以是连续的,而计算机只能处理离散的数据,因此将其离散化后进行差分代替微分、求和代替积分等思想是非常重要的。 9. 数值分析算法。如果在比赛中采用高级语言进行编程的话,那些数值分析中常用的算法比如方程组求解、矩阵运算、函数积分等算法就需要额外编写库函数进行调用。 10. 图象处理算法。赛题中有一类问题与图形有关,即使问题与图形无关,论文中也会需要图片来说明问题,这些图形如何展示以及如何处理就是需要解决的问题,通常使用MA TLAB 进行处理。 以下将结合历年的竞赛题,对这十类算法进行详细地说明。 以下将结合历年的竞赛题,对这十类算法进行详细地说明。 2 十类算法的详细说明 2.1 蒙特卡罗算法 大多数建模赛题中都离不开计算机仿真,随机性模拟是非常常见的算法之一。 举个例子就是97 年的A 题,每个零件都有自己的标定值,也都有自己的容差等级,而求解最优的组合方案将要面对着的是一个极其复杂的公式和108 种容差选取方案,根本不可能去求解析解,那如何去找到最优的方案呢?随机性模拟搜索最优方案就是其中的一种方法,在每个零件可行的区间中按照正态分布随机的选取一个标定值和选取一个容差值作为一种方案,然后通过蒙特卡罗算法仿真出大量的方案,从中选取一个最佳的。另一个例子就是去年的彩票第二问,要求设计一种更好的方案,首先方案的优劣取决于很多复杂的因素,同样不可能刻画出一个模型进行求解,只能靠随机仿真模拟。 2.2 数据拟合、参数估计、插值等算法 数据拟合在很多赛题中有应用,与图形处理有关的问题很多与拟合有关系,一个例子就是98 年美国赛A 题,生物组织切片的三维插值处理,94 年A 题逢山开路,山体海拔高度的插值计算,还有吵的沸沸扬扬可能会考的“非典”问题也要用到数据拟合算法,观察数据的

数学建模案例分析

案例分析1: 自行车外胎的使用寿命 问题: 目前,自行车在我国是一种可缺少的交通工具。它小巧、灵活、方便、易学,而且价格适中,给广大居民带来了不小的益处。但是,自行车也有令人头痛的地方,最常见的问题莫过于扎胎了。扎胎的原因有很多,但相当一部分是由于外胎磨损,致使一些玻璃碴、小石子很容易侵入、扎破内胎。为了减少不必要的麻烦,如何估计自行车外胎的寿命,及时更换? 分析: 分析角度:由于题目里未明确指出我们是应从厂家角度,还是应从用户角度来考虑这个问题,因此需要我们自己做出合理判断。若从厂家角度,我们面对的应当是一大批自行车外胎的平均寿命的估计。这样的估计要求一定精确度和相对明确的使用环境;而从用户角度来说,面对的仅是个人的一辆车,不需要很高的精确度,这样的寿命估计更简单,易于随时了解,下面仅从用户角度进行分析。 产品的使用者需要了解产品的寿命,是基于安全性及更换的费用来考虑的。我们将这两个标准作为主要标准来分析,首先值得注意的两个关键性问题是如何定义寿命、何时为寿命的终止。寿命的定义要做到科学,直观,有可比性,在航空工业中航天飞机的使用寿命是用重复使用的次数来衡量,而工厂机器设备的寿命则以连续工作的时间来定义。本题外胎的寿命亦可用时间来表征,但由于外胎的寿命直接与其磨损速度相关;而磨损速度又与使用频率及行驶速度相互联系,致使外胎的寿命不一定与使用时间成正比(这种非正比关系使我们不能拿一辆—天跑200公里的自行车与一天只跑1公里的自行车进行寿命比较),降低了可比性。如换成自行车的路程寿命来比较,就好得多。产品寿命是在安全性和更换费用相互制约下达到的一个点,在这个点上,外胎的安全系数降到用户不可接受的最低值,更换费用(寿命越长,在一定意义上更换费用越低)也达到了最大限度的节省。 弄清了上面两个问题后,我们继续明确建立模型需要解决哪些问题及建立模型的重点难点。 自行车使用过程中,一来影响因素多,二来这些因素之间彼此相关,十分复杂,要做到比较准确地估计使用寿命,不但要对外胎的性能有相当的了解,而且对使用环境更不能忽视。当然我们由于是站在用户角度上来考虑的,相对地就可忽略一些次要的影响因素。 这样的数学模型面对着两个主要问题。一、自行车使用寿命与外胎厚度的关系,二、外胎能够抵御小石子破坏作用的最小厚度。后者可处理得相对简略些(如只考虑一块具有一般特征的小石子对外胎的破坏作用),而重点(也是难点)是第一个问题。车重、人重、轮胎性质(力学的、热学的、甚至化学的)和自行车使用频率等都左右着它们的关系。这么多相关因素,不必一一都加以考虑(用户是不会在意这么多的),有些因素,可以先不考虑,在模型的改进部分再作修改,采取逐步深入的方法,如:摩擦损耗有滑动摩擦和滚动摩擦损耗两种,由于滚动摩擦占用的时间(或路程)显然占绝对优势,因此可重点考虑。但滑动摩擦造成的一次损坏又比滚动摩擦大,在刹车使用过频的情况下,就不能不考虑了。 最后,需对得出的结果用简单清晰的文字进行说明,以供用户参考。 案例分析2:城市商业中心最优位置分析 问题: 城市商业中心是城市的基本构成要素之一。它的形成是一个复杂的定位过程。商业中心的选址涉及到各种因素制约,但其中交通条件是很重要的因素之一。即商业中心应位于城市“中心”,如果太偏离这一位置,极有可能在城市“中心”地带又形成一个商业区,造成重复建设。 某市对老商业中心进行改建规划,使居民到商业中心最方便。如果你是规划的策划者,如何建立一个数学模型来解决这个问题。

数学建模中常见的十大模型

数学建模中常见的十大 模型 Document serial number【KKGB-LBS98YT-BS8CB-BSUT-BST108】

数学建模常用的十大算法==转 (2011-07-24 16:13:14) 1. 蒙特卡罗算法。该算法又称随机性模拟算法,是通过计算机仿真来解决问题的算法,同时可以通过模拟来检验自己模型的正确性,几乎是比赛时必用的方法。 2. 数据拟合、参数估计、插值等数据处理算法。比赛中通常会遇到大量的数据需要处理,而处理数据的关键就在于这些算法,通常使用MATLAB 作为工具。 3. 线性规划、整数规划、多元规划、二次规划等规划类算法。建模竞赛大多数问题属于最优化问题,很多时候这些问题可以用数学规划算法来描述,通常使用Lindo、Lingo 软件求解。 4. 图论算法。这类算法可以分为很多种,包括最短路、网络流、二分图等算法,涉及到图论的问题可以用这些方法解决,需要认真准备。 5. 动态规划、回溯搜索、分治算法、分支定界等计算机算法。这些算法是算法设计中比较常用的方法,竞赛中很多场合会用到。 6. 最优化理论的三大非经典算法:模拟退火算法、神经网络算法、遗传算法。这些问题是用来解决一些较困难的最优化问题的,对于有些问题非常有帮助,但是算法的实现比较困难,需慎重使用。 7. 网格算法和穷举法。两者都是暴力搜索最优点的算法,在很多竞赛题中有应用,当重点讨论模型本身而轻视算法的时候,可以使用这种暴力方案,最好使用一些高级语言作为编程工具。

8. 一些连续数据离散化方法。很多问题都是实际来的,数据可以是连续的,而计算机只能处理离散的数据,因此将其离散化后进行差分代替微分、求和代替积分等思想是非常重要的。 9. 数值分析算法。如果在比赛中采用高级语言进行编程的话,那些数值分析中常用的算法比如方程组求解、矩阵运算、函数积分等算法就需要额外编写库函数进行调用。 10. 图象处理算法。赛题中有一类问题与图形有关,即使问题与图形无关,论文中也会需要图片来说明问题,这些图形如何展示以及如何处理就是需要解决的问题,通常使用MATLAB 进行处理。 以下将结合历年的竞赛题,对这十类算法进行详细地说明。 以下将结合历年的竞赛题,对这十类算法进行详细地说明。 2 十类算法的详细说明 蒙特卡罗算法 大多数建模赛题中都离不开计算机仿真,随机性模拟是非常常见的算法之一。 举个例子就是97 年的A 题,每个零件都有自己的标定值,也都有自己的容差等级,而求解最优的组合方案将要面对着的是一个极其复杂的公式和108 种容差选取方案,根本不可能去求解析解,那如何去找到最优的方案呢随机性模拟搜索最优方案就是其中的一种方法,在每个零件可行的区间中按照正态分布随机的选取一个标定值和选取一个容差值作为一种方案,然后通过蒙特卡罗算法仿真出大量的方案,从中选取一个最佳的。另一个例子就是去年的彩票第二问,要求设计一种更好的方案,首先方案的优劣取决于很多复杂的因素,同样不可能刻画出一个模型进行求解,只能靠随机仿真模拟。

最新数学建模数据分析题

中国矿业大学数学建模常规赛竞赛 承诺书 我们仔细阅读了中国矿业大学数学建模常规赛论文格式规范和2016年中国矿业大学数学建模常规赛通知。我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。 我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或资料(包括网上资料),必须按照规定的参考文献的表述方式列出,并在正文引用处予以标注。在网上交流和下载他人的论文是严重违规违纪行为。 我们以中国矿业大学大学生名誉和诚信郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理。 我们授权中国矿业大学数学建模协会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。 我们的参赛队号:25 参赛队员(打印并签名):1. 易阳俊 2. 令月霞 3. 刘景瑞 日期: 2016 年 10 月日 (请勿改动此页内容和格式。此承诺书打印签名后作为纸质论文的封面。以上内容请仔细核对,如填写错误,论文可能被取消评奖资格。)

中国矿业大学数学建模常规赛竞赛 编号专用页 评阅统一编号(数学建模协会填写):

题目:数据的分析问题 摘要 本文需要解决的问题是如何根据就诊人员体内7种元素含量来判别某人是否患有疾病G和确定哪些指标是影响人们患疾病G的主要因素。通过解读题目可知,此类问题为典型的分析判别问题。我们先对数据进行了预处理,剔除了有异常数据的样本,然后采用元素分布判别法、马氏距离判别法和Fisher判别法,应用Excel、SPSS和MATLAB等软件来对某人是否患病进行判别,并通过绘制7种元素含量的折线图等来确定患该疾病的主要因素,最后应用综合判别法对之前的结论进行了检验。 对于问题一,在对数据预处理之后,我们删除了序号为10这个高度异常数据样本,然后我们分别采用元素分布判别法、马氏距离判别法和Fisher判别法对49个已知病例进行判别。对于元素分布判别法,我们通过数据预处理知道7种元素含量分布均符合正态分布,然后我们确定了以均值为大致中心的元素正常含量范围,得出其判别准确度为96%;对于马氏距离判别法,通过编写MATLAB 程序(见附录)来进行判别,得出其判别准确度为90%;对于Fisher判别法,通过SPSS软件来进行判别,得到线性判别函数,其判别准确度为96%; 针对问题二:我们运用问题一中建立的三个判别模型对25名就诊人员(见附录)的化验结果进行检验,判别结果如下表1: 行对分析,我们初步判定元素4与元素5是影响人们患疾病G的主要因素,然后用方法一的三种判别方法进行检验,其准确度在85%以上; 对于问题四,我们根据问题三得出的主要因素,分别用三种判别方法对25名就诊人员进行判别,再与问题二的判别结果进行对比,可知它们判断结果之间的差异性最高为24%。 对于问题五,由于三种判别法都有不足,所以我们采用了综合判别法,将三种判别方法的结果进行综合判断,最终我们通过主要因素进行判别的差异性下降到了12%,与问题一的判断结果的一致性达到了88%。 关键词:马氏距离判别,Fisher判别,综合判别,MATLAB,SPSS

数学建模案例分析-- 插值与拟合方法建模1数据插值方法及应用

第十章 插值与拟合方法建模 在生产实际中,常常要处理由实验或测量所得到的一批离散数据,插值与拟合方法就是要通过这些数据去确定某一类已经函数的参数,或寻求某个近似函数使之与已知数据有较高的拟合精度。插值与拟合的方法很多,这里主要介绍线性插值方法、多项式插值方法和样条插值方法,以及最小二乘拟合方法在实际问题中的应用。相应的理论和算法是数值分析的内容,这里不作详细介绍,请参阅有关的书籍。 §1 数据插值方法及应用 在生产实践和科学研究中,常常有这样的问题:由实验或测量得到变量间的一批离散样点,要求由此建立变量之间的函数关系或得到样点之外的数据。与此有关的一类问题是当原始数据 ),(,),,(),,(1100n n y x y x y x 精度较高,要求确定一个初等函数)(x P y =(一般用多项式或分段 多项式函数)通过已知各数据点(节点),即n i x P y i i ,,1,0,)( ==,或要求得函数在另外一些点(插值点)处的数值,这便是插值问题。 1、分段线性插值 这是最通俗的一种方法,直观上就是将各数据点用折线连接起来。如果 b x x x a n =<<<= 10 那么分段线性插值公式为 n i x x x y x x x x y x x x x x P i i i i i i i i i i ,,2,1,,)(11 1 11 =≤<--+--= ----- 可以证明,当分点足够细时,分段线性插值是收敛的。其缺点是不能形成一条光滑曲线。 例1、已知欧洲一个国家的地图,为了算出它的国土面积,对地图作了如下测量:以由西向东方向为x 轴,由南向北方向为y 轴,选择方便的原点,并将从最西边界点到最东边界点在x 轴上的区间适当的分为若干段,在每个分点的y 方向测出南边界点和北边界点的y 坐标y1和y2,这样就得到下表的数据(单位:mm )。 根据地图的比例,18 mm 相当于40 km 。

数学建模-数据的统计分析

数学建模与数学实验 课程设计 学院数理学院专业数学与应用数学班级学号 学生姓名指导教师 2015年6月

数据的统计分析 摘要 问题:某校60名学生的一次考试成绩如下: 93 75 83 93 91 85 84 82 77 76 77 95 94 89 91 88 86 83 96 81 79 97 78 75 67 69 68 84 83 81 75 66 85 70 94 84 83 82 80 78 74 73 76 70 86 76 90 89 71 66 86 73 80 94 79 78 77 63 53 55 (1)计算均值、标准差、极差、偏度、峰度,画出直方图;(2)检验分布的正态性; (3)若检验符合正态分布,估计正态分布的参数并检验参数; 模型:正态分布。 方法:运用数据统计知识结合MATLAB软件 结果:符合正态分布

一. 问题重述 某校60名学生的一次考试成绩如下: 93 75 83 93 91 85 84 82 77 76 77 95 94 89 91 88 86 83 96 81 79 97 78 75 67 69 68 84 83 81 75 66 85 70 94 84 83 82 80 78 74 73 76 70 86 76 90 89 71 66 86 73 80 94 79 78 77 63 53 55 (1)计算均值、标准差、偏差、峰度,画出直方图; (2)检验分布的正态性; (3)若检验符合正态分布,估计正态分布的参数并检验参数。 二.模型假设 假设一:此组成绩没受外来因素影响。 假设二:每个学生都是独自完成考试的。 假设三:每个学生的先天条件相同。 三.分析与建立模型 像类似数据的信息量比较大,可以用MATLAB 软件决绝相关问题,将n 名学生分为x 组,每组各n\x 个学生,分别将其命为1x ,2X ……j x 由MATLAB 对随机统计量x 进行命令。此时对于直方图的命令应为 Hist(x,j) 源程序为: x1=[93 75 83 93 91 85 84 82 77 76 ] x2=[77 95 94 89 91 88 86 83 96 81 ] x3=[79 97 78 75 67 69 68 84 83 81 ]

数学建模缺失大数据补充及异常大数据修正

题目:数据的预处理问题 摘要 关键词:多元线性回归,t检验法,分段线性插值,最近方法插值,三次样条插值,三次多项式插值

一、问题重述 1.1背景 在数学建模过程中总会遇到大数据问题。一般而言,在提供的数据中,不可避免会出现较多的检测异常值,怎样判断和处理这些异常值,对于提高检测结果的准确性意义重大。 1.2需要解决的问题 (1)给出缺失数据的补充算法; (2)给出异常数据的鉴别算法; (3)给出异常数据的修正算法。 二、模型分析 2.1问题(1)的分析 属性值数据缺失经常发生甚至不可避免。 (一)较为简单的数据缺失 (1)平均值填充 如果空值为数值型的,就根据该属性在其他所有对象取值的平均 值来填充缺失的属性值;如果空值为非数值型的,则根据众数原 理,用该属性在其他所有对象的取值次数最多的值(出现频率最 高的值)来补齐缺失的属性值。 (2) 热卡填充(就近补齐) 对于包含空值的数据集,热卡填充法在完整数据中找到一个与其 最相似的数据,用此相似对象的值进行填充。 (3) 删除元组 将存在遗漏信息属性值的元组删除。 (二)较为复杂的数据缺失 (1)多元线性回归 当有缺失的一组数据存在多个自变量时,可以考虑使用多元线性回归模型。将所有变量包括因变量都先转化为标准分,再进行线性回归,此时得到的回归系数就能反映对应自变量的重要程度。 2.2问题(2)的分析 属性值异常数据鉴别很重要。 我们可以采用异常值t检验的方法比较前后两组数据的平均值,与临界值相

2.3问题(3)的分析 对于数据修正,我们采用各种插值算法进行修正,这是一种行之有效的方法。 (1)分段线性插值 将每两个相邻的节点用直线连起来,如此形成的一条折线就是分段线性插值函数,记作()x I n ,它满足()i i n y x I =,且()x I n 在每个小区间[]1,+i i x x 上是线性函数()x I n ()n i ,,1,0???=。 ()x I n 可以表示为 ()x I n 有良好的收敛性,即对于[]b a x ,∈有, 用 ()x I n 计算x 点的插值时,只用到x 左右的两个节点,计算量与节点个数n 无关。但n 越大,分段越多,插值误差越小。实际上用函数表作插值计算时,分段线性插值就足够了,如数学、物理中用的特殊函数表,数理统计中用的概率分布表等。 (2) 三次多项式算法插值 当用已知的n+1个数据点求出插值多项式后,又获得了新的数据点,要用它连同原有的n+1个数据点一起求出插值多项式,从原已计算出的n 次插值多项式计算出新的n+1次插值多项式很困难,而此算法可以克服这一缺点。 (3)三次样条函数插值[4] 数学上将具有一定光滑性的分段多项式称为样条函数。三次样条函数为:对于[]b a ,上的分划?:n x x x a

数学建模各种分析报告方法

现代统计学 1.因子分析(Factor Analysis) 因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量),以较少的几个因子反映原资料的大部分信息。 运用这种研究技术,我们可以方便地找出影响消费者购买、消费以及满意度的主要因素是哪些,以及它们的影响力(权重)运用这种研究技术,我们还可以为市场细分做前期分析。 2.主成分分析 主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用:a,了解数据。(screening the data),b,和cluster analysis一起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。 主成分分析和因子分析的区别 1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组合。 2、主成分分析的重点在于解释个变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。 3、主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。 4、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,的主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不同的因子。 5、在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设定,只要是特征值大于1的因子进入分析),而指定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。 和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这中情况也可以使用因子得分做到。所以这中区分不是绝对的。 总得来说,主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用:a,了解数据。(screening the data),b,

数学建模方法和步骤

数学建模的主要步骤: 第一、模型准备 首先要了解问题的实际背景,明确建模目的,搜集必需的各种信息,尽量弄清对象的特征. 第二、模型假设 根据对象的特征和建模目的,对问题进行必要的、合理的简化,用精确的语言作出假设,是建模至关重要的一步.如果对问题的所有因素一概考虑,无疑是一种有勇气但方法欠佳的行为,所以高超的建模者能充分发挥想象力、洞察力和判断力,善于辨别主次,而且为了使处理方法简单,应尽量使问题线性化、均匀化. 第三、模型构成 根据所作的假设分析对象的因果关系,利用对象的内在规律和适当的数学工具,构造各个量间的等式关系或其它数学结构.这时,我们便会进入一个广阔的应用数学天地,这里在高数、概率老人的膝下,有许多可爱的孩子们,他们是图论、排队论、线性规划、对策论等许多许多,真是泱泱大国,别有洞天.不过我们应当牢记,建立数学模型是为了让更多的人明了并能加以应用,因此工具愈简单愈有价值. 第四、模型求解 可以采用解方程、画图形、证明定理、逻辑运算、数值运算等各种传统的和近代的数学方法,特别是计算机技术.一道实际问题的解决往往需要纷繁的计算,许多时候还得将系统运行情况用计算机模拟出来,因此编程和熟悉数学软件包能力便举足轻重. 第五、模型分析 对模型解答进行数学上的分析."横看成岭侧成峰,远近高低各不?quot;,能否对模型结果作出细致精当的分析,决定了你的模型能否达到更高的档次.还要记住,不论那种情况都需进行误差分析,数据稳定性分析. 数学建模采用的主要方法有: (一)、机理分析法:根据对客观事物特性的认识从基本物理定律以及系统的结构数据来推导出模 型. 1、比例分析法:建立变量之间函数关系的最基本最常用的方法. 2、代数方法:求解离散问题(离散的数据、符号、图形)的主要方法. 3、逻辑方法:是数学理论研究的重要方法,对社会学和经济学等领域的实际问题,在决策,对策等学科中得到广泛应用. 4、常微分方程:解决两个变量之间的变化规律,关键是建立“瞬时变化率”的表达式. 5、偏微分方程:解决因变量与两个以上自变量之间的变化规律. (二)、数据分析法:通过对量测数据的统计分析,找出与数据拟合最好的模型 1、回归分析法:用于对函数f(x)的一组观测值(xi,fi)i=1,2,…,n,确定函数的表达式,由于处理的是静态的独立数据,故称为数理统计方法. 2、时序分析法:处理的是动态的相关数据,又称为过程统计方法. 3、回归分析法:用于对函数f(x)的一组观测值(xi,fi)i=1,2,…,n,确定函数的表达式,由于处理的是静态的独立数据,故称为数理统计方法.

数学建模步骤

数学建模的基本步骤 一、数学建模题目 1)以社会,经济,管理,环境,自然现象等现代科学中出现的新问题为背景,一般都有一个比较确切的现实问题。 2)给出若干假设条件: 1. 只有过程、规则等定性假设; 2. 给出若干实测或统计数据; 3. 给出若干参数或图形等。 根据问题要求给出问题的优化解决方案或预测结果等。根据问题要求题目一般可分为优化问题、统计问题或者二者结合的统计优化问题,优化问题一般需要对问题进行优化求解找出最优或近似最优方案,统计问题一般具有大量的数据需要处理,寻找一个好的处理方法非常重要。 二、建模思路方法 1、机理分析根据问题的要求、限制条件、规则假设建立规划模型,寻找合适的寻优算法进行求解或利用比例分析、代数方法、微分方程等分析方法从基本物理规律以及给出的资料数据来推导出变量之间函数关系。 2、数据分析法对大量的观测数据进行统计分析,寻求规律建立数学模型,采用的分析方法一般有: 1). 回归分析法(数理统计方法)-用于对函数f(x)的一组观测值(xi,fi)i=1,2,…,n,确定函数的表达式。 2). 时序分析法--处理的是动态的时间序列相关数据,又称为过程统计方法。 3)、多元统计分析(聚类分析、判别分析、因子分析、主成分分析、生存数据分析)。 3、计算机仿真(又称统计估计方法):根据实际问题的要求由计算机产生随机变量对动态行为进行比较逼真的模仿,观察在某种规则限制下的仿真结果(如蒙特卡罗模拟)。 三、模型求解: 模型建好了,模型的求解也是一个重要的方面,一个好的求解算法与一个合

适的求解软件的选择至关重要,常用求解软件有matlab,mathematica,lingo,lindo,spss,sas等数学软件以及c/c++等编程工具。 Lingo、lindo一般用于优化问题的求解,spss,sas一般用于统计问题的求解,matlab,mathematica功能较为综合,分别擅长数值运算与符号运算。 常用算法有:数据拟合、参数估计、插值等数据处理算法,通常使用spss、sas、Matlab作为工具. 线性规划、整数规划、多元规划、二次规划、动态规划等通常使用Lindo、Lingo,Matlab软件。 图论算法,、回溯搜索、分治算法、分支定界等计算机算法, 模拟退火法、神经网络、遗传算法。 四、自学能力和查找资料文献的能力: 建模过程中资料的查找也具有相当重要的作用,在现行方案不令人满意或难以进展时,一个合适的资料往往会令人豁然开朗。常用文献资料查找中文网站:CNKI、VIP、万方。 五、论文结构: 0、摘要 1、问题的重述,背景分析 2、问题的分析 3、模型的假设,符号说明 4、模型的建立(局部问题分析,公式推导,基本模型,最终模型等) 5、模型的求解 6、模型检验:模型的结果分析与检验,误差分析 7、模型评价:优缺点,模型的推广与改进 8、参考文献 9、附录 六、需要重视的问题 数学建模的所有工作最终都要通过论文来体现,因此论文的写法至关重要:

数学建模数据分析题

承诺书 我们仔细阅读了中国矿业大学数学建模常规赛论文格式规范和2016年中国矿业大学数学建模常规赛通知。我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。 我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或资料(包括网上资料),必须按照规定的参考文献的表述方式列出,并在正文引用处予以标注。在网上交流和下载他人的论文是严重违规违纪行为。 我们以中国矿业大学大学生名誉和诚信郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理。 我们授权中国矿业大学数学建模协会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。 我们的参赛队号:25 参赛队员(打印并签名):1.易阳俊 2.令月霞 3.刘景瑞 日期: 2016年 10 月日 (请勿改动此页内容和格式。此承诺书打印签名后作为纸质论文的封面。以上内容请仔细核对,如填写错误,论文可能被取消评奖资格。)

编号专用页 评阅统一编号(数学建模协会填写):

题目:数据的分析问题 摘要 本文需要解决的问题是如何根据就诊人员体内7种元素含量来判别某人是否患有疾病G和确定哪些指标是影响人们患疾病G的主要因素。通过解读题目可知,此类问题为典型的分析判别问题。我们先对数据进行了预处理,剔除了有异常数据的样本,然后采用元素分布判别法、马氏距离判别法和Fisher判别法,应用Excel、SPSS和MATLAB等软件来对某人是否患病进行判别,并通过绘制7种元素含量的折线图等来确定患该疾病的主要因素,最后应用综合判别法对之前的结论进行了检验。 对于问题一,在对数据预处理之后,我们删除了序号为10这个高度异常数据样本,然后我们分别采用元素分布判别法、马氏距离判别法和Fisher判别法对49个已知病例进行判别。对于元素分布判别法,我们通过数据预处理知道7种元素含量分布均符合正态分布,然后我们确定了以均值为大致中心的元素正常含量范围,得出其判别准确度为96%;对于马氏距离判别法,通过编写MATLAB 程序(见附录)来进行判别,得出其判别准确度为90%;对于Fisher判别法,通过SPSS软件来进行判别,得到线性判别函数,其判别准确度为96%; 针对问题二:我们运用问题一中建立的三个判别模型对25名就诊人员(见附录)的化验结果进行检验,判别结果如下表1: 行对分析,我们初步判定元素4与元素5是影响人们患疾病G的主要因素,然后用方法一的三种判别方法进行检验,其准确度在85%以上; 对于问题四,我们根据问题三得出的主要因素,分别用三种判别方法对25名就诊人员进行判别,再与问题二的判别结果进行对比,可知它们判断结果之间的差异性最高为24%。 对于问题五,由于三种判别法都有不足,所以我们采用了综合判别法,将三种判别方法的结果进行综合判断,最终我们通过主要因素进行判别的差异性下降到了12%,与问题一的判断结果的一致性达到了88%。 关键词:马氏距离判别,Fisher判别,综合判别,MATLAB,SPSS

数学建模案例分析--灰色系统方法建模2灰色预测模型GM(1-1)及其应用

§2 灰色预测模型GM(1,1)及其应用 蠕变是材料在高温下的一个重要性能。处于高温状态下的材料长期受到载荷作用时,即使其载荷较低,并且在短时间的高温拉伸试验中材料不发生变形,但在此情况下仍会有微小的蠕变,极端的情况下,甚至会使材料发生破坏。高温材料多应用于各种车辆的发动机及冶金厂中各种设备上,如果因蠕变引起破坏,可能造成很大的事故。 为了保证设备的安全可靠,在某一使用温度下,预先知道该材料对不同载荷应力下断裂的时间是很重要的。过去,人们都是通过蠕变试验测量断裂时间。而做蠕变试验时,需要很长时间才能得到结果,即使通过试验得出的数据,也只是对某几个具体试样而言,存在很大的偶然性,不能代表普遍的规律。如果将实测的数据用灰色系统理论来处理,可以预测在某一温度下的任何载荷应力的断裂时间。 一、灰色预测模型GM (1,1) 建模步骤如下: (1)GM (1,1)代表一个白化形式的微分方程: u aX dt dX =+)1() 1( (1) 式中,u a ,是需要通过建模来求得的参数;) 1(X 是原始数据) 0(X 的累加生成(AGO )值。 (2)将同一数据列的前k 项元素累加后生成新数据列的第k 项元素,这就是数据处理。表示为: ∑==k n n X k X 1 )0() 1()()( (2) 不直接采用原始数据) 0(X 建模,而是将原始的、无规律的数据进行加工处理,使之变得较有规 律,然后利用生成后的数据列来分析建模,这正是灰色系统理论的特点之一。 (3)对GM (1,1),其数据矩阵为 ???? ?? ? ? ?+--+-+-=1)]()1([5.01)]3()2([5.01)]2()1([5.0)1()1()1()1()1()1(N X N X X X X X B (3) 向量T N N X X X Y )](,),3(),2([)0()0()0( = (4)作最小二乘估计,求参数u a , N T T Y B B B u a 1)(?-=??? ? ??=α (4) (5)建立时间响应函数,求微分方程(1)的解为 a u e a u X t X at +-=+-))1(()1(?)0()1( (5)

数学建模之数据处理 03 版

在某海域测得一些点(x,y)处的水深z由下表给出,船的吃水深度为5英尺, (2)在矩形区域(75,200)*(-50,150)作二维三次插值法; (3)做海底曲面图; (4)作出水深小于5的海域范围,即z=5的等高线。 解: 解答: Matlab程序: x=[129,140,103.5,88,185.5,195,105,157.5,107.5,77,81,162,162,117.5]; y=[7.5,141.5,23,147,22.5,137.5,85.5,-6.5,-81,3,56.5,-66.5,84,-33.5]; z=[-4,-8,-6,-8,-6,-8,-8,-9,-9,-8,-8,-9,-4,-9]; xi=75:10:200; yi=-50:10:150; figure(1) z1i=griddata(x,y,z,xi,yi','nearest'); % 最邻近插值 surfc(xi,yi,z1i) xlabel('X'),ylabel('Y'),zlabel('Z') figure(2) z2i=griddata(x,y,z,xi,yi'); % 双线性插值 surfc(xi,yi,z2i) xlabel('X'),ylabel('Y'),zlabel('Z') figure(3) z3i=griddata(x,y,z,xi,yi','cubic'); % 双三次插值 surfc(xi,yi,z3i) xlabel('X'),ylabel('Y'),zlabel('Z') figure(4) subplot(1,3,1),contour(xi,yi,z1i,4,'b'); subplot(1,3,2),contour(xi,yi,z2i,4,'r'); subplot(1,3,3),contour(xi,yi,z3i,4,'g'); figure(5) % z=5的等高线 contour(xi,yi,z3i,7,'r');

相关文档
最新文档