数学建模案例分析消费分布规律的分类概率统计方法建模
数学建模中的概率统计模型1

残差及其置信区间可以用rcoplot(r,rint)画图。
3、将变量t、x、y的数据保存在文件data中。 save data t x y 4、进行统计分析时,调用数据文件data中的数 据。 load data 方法2 1、输入矩阵:
data=[78,79,80,81,82,83,84,85,86,87; 23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4; 41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0]
线性模型 (Y , X , I n ) 考虑的主要问题是: (1) 用试验值(样本值)对未知参数 和 2 作点估计和假设检验,从而建立 y 与
x1 , x 2 ,..., x k 之间的数量关系;
(2)在 x1 x01 , x2 x02 ,..., xk x0 k , 处对 y 的值作预测与控制,即对 y 作区间估计.
1 ( x0 x ) 2 ˆ 1 d n t (n 2) n Lxx 2
Q ˆ n2
2
设y在某个区间(y1, y2)取值时, 应如何控制x 的取值范围, 这样的问题称为控制问题。
可线性化的一元非线性回归 需要配曲线,配曲线的一般方法是: • 先对两个变量x和y 作n次试验观察得画出 散点图。 • 根据散点图确定须配曲线的类型。 • 由n对试验数据确定每一类曲线的未知参数 a和b采用的方法是通过变量代换把非线性 回归化成线性回归,即采用非线性回归线 性化的方法。
数学建模方法归类(很全很有用)

在数学建模中常用的方法:类比法、二分法、量纲分析法、差分法、变分法、图论法、层次分析法、数据拟合法、回归分析法、数学规划(线性规划,非线性规划,整数规划,动态规划,目标规划)、机理分析、排队方法、对策方法、决策方法、模糊评判方法、时间序列方法、灰色理论方法、现代优化算法(禁忌搜索算法,模拟退火算法,遗传算法,神经网络)。
用这些方法可以解下列一些模型:优化模型、微分方程模型、统计模型、概率模型、图论模型、决策模型。
拟合与插值方法(给出一批数据点,确定满足特定要求的曲线或者曲面,从而反映对象整体的变化趋势):matlab可以实现一元函数,包括多项式和非线性函数的拟合以及多元函数的拟合,即回归分析,从而确定函数;同时也可以用matlab实现分段线性、多项式、样条以及多维插值。
在优化方法中,决策变量、目标函数(尽量简单、光滑)、约束条件、求解方法是四个关键因素。
其中包括无约束规则(用fminserch、fminbnd实现)线性规则(用linprog实现)非线性规则、(用fmincon实现)多目标规划(有目标加权、效用函数)动态规划(倒向和正向)整数规划。
回归分析:对具有相关关系的现象,根据其关系形态,选择一个合适的数学模型,用来近似地表示变量间的平均变化关系的一种统计方法(一元线性回归、多元线性回归、非线性回归),回归分析在一组数据的基础上研究这样几个问题:建立因变量与自变量之间的回归模型(经验公式);对回归模型的可信度进行检验;判断每个自变量对因变量的影响是否显著;判断回归模型是否适合这组数据;利用回归模型对进行预报或控制。
相对应的有线性回归、多元二项式回归、非线性回归。
逐步回归分析:从一个自变量开始,视自变量作用的显著程度,从大到地依次逐个引入回归方程:当引入的自变量由于后面变量的引入而变得不显著时,要将其剔除掉;引入一个自变量或从回归方程中剔除一个自变量,为逐步回归的一步;对于每一步都要进行值检验,以确保每次引入新的显著性变量前回归方程中只包含对作用显著的变量;这个过程反复进行,直至既无不显著的变量从回归方程中剔除,又无显著变量可引入回归方程时为止。
数学建模中的概率统计方法选讲

数学建模中的概率统计方法选讲案例一:常用分布及中心极限定理与“DVD 在线租赁”问题(2005B )“DVD 在线租赁”为2005年全国大学生建模竞赛的B 题,原题参见附件中的文件“2005B ”。
现考虑问题(1):网站正准备购买一些新的DVD ,通过问卷调查1000个会员,得到了愿意观看这些DVD 的人数(表1给出了其中5种DVD 的数据)。
此外,历史数据显示,60%的会员每月租赁DVD 两次,而另外的40%只租一次。
假设网站现有10万个会员,对表1中的每种DVD 来说,应该至少准备多少张,才能保证希望看到该DVD 的会员中至少50%在一个月内能够看到该DVD ?如果要求保证在三个月内至少95%的会员能够看到该DVD 呢?问题(1)的分析与求解:可以通过“点估计”的方法,得到抽样的1000名会员租赁上述5种DVD 的概率为● 通过1000个样本来推断10万个会员的“总体”: 假设随机变量,否则种个会员租第第⎩⎨⎧=,0,1DVDj i ij ξ 其中10000,...,2,1=i . 显然,ij ξ服从两点分布,即j ij p P ==)1(ξ,而上表就给出了这些概率的估计值。
进一步,设∑==Ni ij j 1ξη,10000=N ,即表示10000人中愿意租赁第j 张DVD 的人数,显然,随机变量),10000(~j j p B η。
● 由De Moivre —Laplace 中心极限定理,如果准备了)5.0(j E η张DVD ,则满足至少jη5.0人看到该DVD 的概率(可靠性)为5.0)0(}0)5.0()5.0(5.0{)}5.0(5.0{=Φ≈≤-=≤j j j j j D E P E P ηηηηη显然,为了增加右边的可靠性,比如,增加到0.99,则由等式99.0)33.2(})5.0()5.0()5.0()5.0(5.0{}5.0{=Φ≈-≤-=≤j j j j j j D E X D E P X P ηηηηηη,可知)1(100002133.25000)5.0(33.2)5.0(j j j j j p p p D E X -⨯⨯+=+=ηη如何考虑“60%的会员每个月会租赁DVD 两次,40%的会员每个月会租赁DVD 一次”的问题?方法一:10万人的60%为6万人,每个月租赁两次,即12万次;40%为4万人,每月租赁一次,即4万次,合计每月有16万人次的租赁,对于第j 张DVD ,能否类似地假设为∑==Mi ij j 1ξη,16000=M ,而且随机变量),16000(~j j p B η,然后再求?答案是否定的,因为),16000(~j j p B η不再成立。
基于衡阳市大学生消费问题数学模型的建立与分析

0 00
Z 00 .0 0 2 0 0 .0 0 1 00 .0 0 50 00 10 O 0 0 l 0 0 、0 0
0.00 O .0 O 0. 0 0
0 00 0. 0 O 2 0. 0 0 l0 0 0 l 0. 0 0 5 0. 0 0
科
郭 德安
科教 文化 f f f
高 欢 唐 利 华
基于衡阳市大 学生消费问 题数学模型的建立与分析
( 阳师范学院 , 衡 湖南 衡 阳 4  ̄o ) 2 oo
摘 要:以衡 阳市大学生为依托, 通过对衡 阳市大学生的实际进行 问卷调查, 获取到样本数据进行数据统计建立 多变量线性回归模 型, 从定量 和 定 性 的 角度 研 究 了大学 生 的 消 费去 向 与有 消费 水 平之 间的 内在 联 系。 关键词: 消费模型 ; 回归分析 ; 消费倾向 ; 政策建立
引言 大学 生所受教育 的经历和所处 的特 殊环 境及特定 的年龄阶段, 使得他们成为社会上一
表 1衡阳市大学生的生活费用去向与消费情况( 月 元,
编 号
4 .0 0 00
40 O 0 0 8 0 0 .0 0 4 5 0 .0 0
个特殊的消费群体 , 就年龄来说, 他们是成年人, 而且是有 文化 的人 ; 但从经济上来说, 大多数 绝
4 0 . O O 0
l2O 0 0
20 O .O O 20 0. 0 0 l 0. 0 0 0
4 0.0 0
40 0 .0 O
40 0. 0 0
i0 0 00
4 0 .0 0 3 0 .0 0 6 0 .0 0
高校学生还 是经 济上的“ 未独立 ” 的人 , 依靠 父 母以及家庭的 、 学校的 、 国家的经济支持来完成 其学业 . 根据经济学理论建立 大学生的生活 费 用来源 与消费情况 之问的多 变量线性 回归模 型, 和大学生 的消费去 向与消费情况之 间的多 变量线性 回归模 型 , 通过 问卷 调查, 进行定 量 分析, 研究二者之间的内在联 系, 评价大学 准确 生消费水平 与收入来源 及消费 去向之 间的变 动趋 势, 后进行 比较 , 出拟 合优度 更 高的 然 得 模型 , 而为学校 与社会 引导大学生 消费提 供 从 依据 。 l影 响 大 学生 消费 水平 的 因素 西方经济学认为, 消费水平受收入水 平、 价 格、 利润 、 收入分配、 消费者的资产 、 消费者年龄 构成及制度 、 观念 、 习惯等多种 因素 的影 响. 大 学生由于受时代变化的影响 , 在个人消费 、 个人 收入 问题 上 与 以往 有 了很 大 的 不 同 ,而 凯 思 斯 的消费理论认为, 在影响消费的诸 多因素 中, 收 入是影响消费的最重要 的因素 ,依此可建立消 费水平的计量经济模 型如下:
大学生消费问题数学模型层次分析

大学生消费问题的层次分析模型1.问题的提出及相关问题的分析大学生的消费结构是指大学生所消费的各种消费资料之间的比例关系.全面细致地了解大学生的消费状况具有重要的现实意义.关注大学生的消费行为,引导大学生科学消费,可以使大学生在校时合理使用有限的经济收入,进行科学消费.因此帮助大学生树立起适度、合理的消费观念,对于促进经济的发展和社会进步有着重要的意义.1.1目前大学生的消费来源当今大学生的经济来源主要包括:家庭供给、家教兼职、特困补助和奖学金.大学生由于其自身社会角色的限制,没有独立的经济来源,主要靠家庭供给.大学生消费收入差距悬殊,主要受家庭收入的影响.1.2目前大学生的消费状况目前大学生的消费主要由生活消费、学习消费、娱乐消费三部分构成.生活消费,如吃饭、购置生活必需品;学习消费,如学习用品等;娱乐消费,如购物、旅游等.随着生活水平的提高和网络信息化的发展,大学生消费呈现出多样化.在市场经济的今天,大学生的消费形式、内容、消费心理以及消费观念都发生了显着的变化.大学生传统必需型消费呈明显下降趋势,如饮食消费、衣着消费所占比例下降,其他形式的消费比例逐渐增加.学习消费主要集中在购买学习参考书、英语和计算机等级考试等和学习工具上.娱乐消费主要表现为休闲、旅游等方面,并呈上涨趋势.通讯消费主要表现在手机话费、上网等方面.大学生的人际交往消费、恋爱消费也成为日常支出的一个重要方面.1.3研究目的了解当代大学生消费的基本情况,发现大学生日常消费中存在的一些问题,为大学生的消费提供正确合理的建议指导,帮助大学生确立正确的消费观.2数据说明与符号约定2.1数据说明以韶关学院学生为调查的对象,通过问卷调查所得数据,调查问卷的原始数据见附录.问卷是通过对60名韶关学院学生随机发放,并收回有效问卷52份而得.由调查的统计结果可知:在校大学生平均的月总支出为514.8077,学习支出为64.42308元,食物支出占301.7308元,衣着支出为62.5元,通讯支出为39.32692元,娱乐支出为51.05769元.家庭月人均收入不同的在校大学生在月总支出和其他各项具体支出方面存在差异,在校大学生的月总支出主要用于食物支出、其他方面的支出相对较少,这反应了当代大学生的消费仍然是以物质消费为基础,这是由在校大学生的非独立经济地位决定的. 2.2符号约定y y 为学生的平均月消费(元)1x 1x 为学生每月由家庭提供的收入(元)2x 2x 为学生每月做家教等兼职所获取的收入(元) 3x 3x 为学生每月的特困补助的收入(元)0β0β为自发性消费321,,βββ边际消费倾向 ε表示其它随机因素的影响. A 因素对目标的判断矩阵λA 的最大特征值A 的最大特征值所对应的特征向量*a a 的权重向量,即用a 的每个元素除以各元素之和所得的矩阵1B 费用对决策准则的判断矩阵 2B 健康对决策准则的判断矩阵 3B 心理对决策准则的判断矩阵4B 发展对决策准则的判断矩阵i λi B 的最大特征值()4,3,2,1 i =i b i B 的最大特征值所对应的特征向量()4,3,2,1 i = i b i b 的权重向量,即用i b 的每个元素除以各元素之和所得的矩阵()4,3,2,1 i =A CI A 的一致性指标i CI i B 的一致性指标()4,3,2,1 i =Z CI 因素的一致性指标 A RI A 的平均随机一致性指标i RI i B 的平均随机一致性指标()4,3,2,1 i =A CR A 的一致性判断指标,规定小于0.1时,说明满足一致性准则 Z CR 因素的一致性判断指标,规定小于0.1时,说明满足一致性准则ω准则的权重向量,我们用以判断各种准则的支出比例3消费问题的数学模型我们利用调查所得的数据进行了统计分析和数学建模.具体模型步骤如下:3.1消费函数的计量模型多元线性回归模型εββββ++++=3322110x x x y 应用MATLAB 得到回归方程为:解得9225.02=R ,5127.1900=F .其中2R 为复相关系数,0F 为F 检验的临界值,0()P F F >为观察值F 大于临界值0F 的概率,且在显着性水平01.0=α下0)(0=>F F P ,越接近0表示回归方程在在显着性水平0.01α=下回归越显着,这表明回归结果非常合理. 3.2层次分析模型将决策的目标、考虑的因素和决策对象按它们之间的相互关系分为最高层、中间层和最低层,绘出层次结构图.根据考察的实际情况,层次结构图1为:图1层次结构图其中最高层为消费,即应怎样消费.最低层分为学习、饮食、衣着、通讯、娱乐五个方面,即我们的消费应在学习、饮食、衣着、通讯、娱乐五个方面按照怎样的比例消费.中间层分为费用、健康、心理、发展四个因素.费用是指价格的高低对决策的影响;健康是指对身体的有利或有害程度对决策的影响;心理是指个人消费的不同动机,包括正常动机和不良动机对决策的影响;发展是指个体为了满足今后成长、进步等要求而不断增长自身修养和素质的一种预期投资对决策的影响.构造判断矩阵:每一个具有向下隶属关系的元素作为判断矩阵的第一个元素(位于左上角),隶属于它的各个元素依次排列在其后的第一行和第一列.表1重要性标度含义表⎪⎪⎪⎪⎪⎭⎫⎝⎛=171571171311715513511A 计算A 的特征根0E A λ-= A 有最大特征根0735.4=λ,对应的特征向量为 首先求解齐次线性方程()0E A X λ-=解得特征向量为:⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=7118.00791.06761.01731.0a ,归一化,得⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=*4340.00482.04122.01055.0a 对所得的数据进行一致性检验,步骤如下: (1).计算一致性指标(2)查表确定相应的平均随机一致性指标RI表2平均随机一致性指标RI 表当RI <0.1时,认为判断矩阵的一致性是可以接受的,RI >0.1时,认为判断矩阵不符合一致性要求,需要对该判断矩阵进行重新修正. 故:A 有比较合理的一致性. 第二步,备选对象对决策准则的判断矩阵是 费用对决策准则的判断矩阵可作以下假设:1B 有最大特征根和对应特征向量2828.51=λ,⎪⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=1337.00603.02708.08225.04781.01b 归一化,得⎪⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=*0822.00371.01665.05057.02939.01b健康对决策准则的判断矩阵可作以下假设:2B 有最大特征根和对应特征向量2182.52=λ,⎪⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=2948.00626.01737.09282.01324.02b 归一化,得⎪⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=*1852.00393.01091.05831.00832.02b心理对决策准则的判断矩阵可作以下假设3B 有最大特征根和对应特征向量0032.53=λ,⎪⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=4764.02101.06432.02156.05184.03b 归一化,得⎪⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=*2308.01018.03117.01045.02512.03b发展对决策准则的判断矩阵可作以下假设:4B 有最大特征根和对应特征向量0246.54=λ,⎪⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=1833.00993.01833.03548.08927.04b 归一化,得⎪⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=*1070.00580.01070.02071.05210.04b所以,令于是对象对目标的排序: 模型分析:排列的一致性检验: 令:所以,有合理的一致性.所以,()T0757.01243.00861.06027.01034.0=即:消费按照学习:饮食:衣着:通讯:娱乐应为()0757.01243.00861.06027.01034.03.3自身消费模型结合自身的情况,我的月总支出,学习支出,饮食支出:衣着支出:通讯支出:娱乐支出分别是:600,80:350:50:80:40,即比例是0.1333;0.5833;0.0833;0.1333;0.06674模型的优缺点本文给出了大学生消费问题的模型,即层次分析模型.此模型由于是关系到个人的决策问题所以多少带有个人的主观意识,如文章中的成对比较矩阵很大成分上就是作者本人的意见,但是它通过了一致性检验以及符合当今社会的常规,所以此模型还是可行的.6参考文献[1]刘来福.数学模型与数学建模.?北京:北京师范大学出版社,1997[2]李海涛.MATLAB程序设计教程.高等教育出版社[3]袁震东等.数学建模简明教程[M].哈尔滨:华东师范大学出版社,2001[4]姜启源等.数学模型(第三版)[M].北京:高等教育出版社,2003[5]杨启帆等.数学建模[M].北京:浙江大学出版社,1999[6]梁国业等.数学建模[M].北京:冶金工业出版社,2004[7]王兵团.数学建模基础[M].北京:清华大学出版社,2004.[8]甘应爱.高校毕业生就业手册[M].北京:中山大学大学出版社,2005[9]武小莉.加强大学生正确消费观的培养.山西高等学校第15卷第12期20037附录7.1调查问卷大学生消费调查问卷1.您的家庭人均月收入为()A.400以下B.400—800C.800-1200D.1200-1600E.1600以上2.您的月消费额大概为多少()A.300以下B.300-500C.500-700D.700-1000E.1000以上?3.您每月由家庭提供的收入是()A.200以下B.200-400C.400-600D.600-800E.800以上?4.您每月做家教等兼职所获取的收入是()A.100以下B.100-200C.200-300D.300-400E.400以上5.您每月平均的特困生补助的收入是()A.50以下B.50-100C.100-150D.150-200E.200以上6.您每学期学习方面的花费(包括文具、书籍、复印、培训班)()A.100以下B.100-200C.200-300D.300-400E.400以上7.您每月饮食方面支出(包括零食饮料)大概为多少()A.250以下B.250-350C.350-450D.450-600E.600以上8.您花在服饰方面平均每个月的消费是()A.50以下B.50-100C.100-200D.200-300E.300以上9.您每月用于娱乐方面(看电影,购买游戏光盘,CD等)的支出()A.基本不花费B.50以下C.50-100D.100-200E.200以上10.您拥有手机吗?如果有,每个月话费支出为多少?如果没有,请回答下一题.A.50以下B.50-100C.100-150D.150-200E.200以上11.您每月用于通讯方面的支出为多少(仅限于使用电话卡的情况)()A.20以下B.20-40C.40-60D.60-80E.80以上12.您花费的资金主要来自()A.勤工俭学B.在外做家教C.给企业打工D.主要从家里拿钱E.其他13.您觉得您现在每月消费情况如何()A.高得惨不忍睹B.偏高C.刚刚好D.偏低E.低得一塌糊涂注:本问卷共发放60份,收回有效问卷52份.发放以我们周围的同学为主,基本上做到了随机发放.7.2数据的统计表3有关数据统计表(单位:元)人均收入月总支出家庭提供家教补助学习食物衣着通讯娱乐300 250 250 80 100 20 200 20 5 5 300 250 200 100 70 50 200 30 10 10 300 300 300 100 70 60 250 30 20 20 300 300 200 100 70 40 200 20 20 20 350 300 250 100 70 50 200 20 20 10 400 300 250 100 100 100 250 50 30 50 400 300 300 0 0 50 200 20 20 10 400 350 300 100 70 70 200 30 25 25 400 400 400 100 100 50 250 50 30 20 400 400 400 0 70 50 250 50 30 20 450 450 400 50 70 60 250 50 50 40 500 350 400 180 50 50 200 50 30 20 500 500 500 0 0 50 300 50 50 50 550 500 300 100 100 80 300 50 40 30 600 370 400 150 70 55 230 40 20 30 600 400 600 0 70 55 250 50 25 30 650 450 450 0 0 50 250 50 50 50700 450 500 300 100 70 260 55 35 30 700 450 450 100 70 70 300 30 20 30 700 500 500 0 0 50 300 50 50 50 700 500 500 0 0 50 300 50 50 50 750 500 500 0 0 80 300 50 40 30 750 500 500 0 0 80 300 60 40 20 800 450 500 120 120 80 250 70 20 30 800 450 500 100 0 50 250 50 50 50 800 500 600 200 100 50 300 60 40 50 800 700 600 150 50 100 500 80 80 50 900 500 500 200 80 75 270 60 35 60 900 500 500 0 0 40 300 80 40 40 1000 500 600 0 0 60 300 50 60 30 1000 550 600 100 0 85 300 50 45 70 1000 600 700 0 80 50 350 60 40 100 1000 650 700 150 0 60 350 70 20 150 1100 650 600 150 50 60 350 70 20 150 1100 700 800 120 0 90 370 115 25 85 1100 750 800 0 0 80 380 150 40 100 1200 700 700 150 0 55 350 140 50 105 1200 700 800 200 100 70 380 120 30 100 1300 800 900 80 0 45 400 180 55 120 1400 600 800 0 50 40 350 80 55 75 1500 600 600 0 0 80 300 20 30 20 1500 600 600 0 0 60 400 60 40 40 1600 600 600 0 0 80 400 50 50 20 1600 750 800 100 70 70 400 120 40 120 1700 550 600 0 0 70 350 50 30 50 1800 700 700 0 0 80 400 100 60 60 2000 500 700 0 0 50 250 60 60 30 2000 600 400 0 0 100 350 50 50 50 2100 600 60 0 0 80 350 50 70 50 2100 700 700 0 0 100 400 100 50 50 2200 500 500 0 0 50 300 50 50 50 2500 700 700 0 0 100 300 100 100 100 6.3回归分析编程clearx=[ 250 80 100; 250 100 100; 400 180 50;400 150 70;600 0 70;500 300 100;500 120 120;600 200 100;600 150 50;500 200 80;600 100 0;700 0 80;700 150 0;600 150 50;600 200 100;800 120 0;800 0 0;700 150 0;800 300 100;800 100 100;600 100 100;700 100 0;900 0 50;900 80 0;800 0 50;900 200 0;1000 100 0;1000 0 80;1200 0 100;1100 150 0;1200 200 0;900 150 70;1100 100 70;1200 180 0;900 100 0;1200 0 70;1500 0 0;800 180 0;1100 0 0;1000 200 0;400 100 50;1200 200 0;1100 150 0;1300 200 0;900 180 0;1500 0 0;1600 0 0;1500 300 0;1500 100 0;1500 180 0;1500 200 0;1800 100 0;];x1=[x,ones(52,1)];y=[250300350370400450450500700500550600650650700700750700700750500650700800600850900700900950100075090012008001100130070090011006001100950150010001200110015001200140015001600];[b,bint,r,rint,stats]=regress(y,x1,0.01)bstats。
数学建模 第二章 概率统计模型

参数检验
• 回归系数的检验,即检验每个解释变量对响应变量的影响是否有 统计学上的意义。若有m个回归系数 ,假设检验为:
• 常用的回1归,L系,数m检验方法有Wald统计量:
H0 : b j = 0 H1 : b j ? 0 (j 1,2,L ,m)
• 式中分子为解释变量的参数估计值,分母为参数估计值Wald的标
第二章 概率统计模型
一个例子
• 二战时期,,为了提高飞机的防护能力,英国的科学家、 设计师和工程师决定给飞机增加护甲.
• 为了不过多加重飞机的负载,护甲必须加在最必要的地 方,那么是什么地方呢?
• 统计学家将每架中弹但仍返航的飞机的中弹部位描绘在 图纸上,然后将这些图重叠,形成了一个密度不均的弹 孔分布图.
成一类。
• K均值聚类
K均值聚类首先人为确定分类数,起步于一个初始的分类,然后 通过不断的迭代把数据在不同类别之间移动,直到最后达到预 定的分类数为止。
• 第一步 将所有的样品分成K个初始类; • 第二步 逐一计算每一样品到各个类别中心点的距离,把
各个样品按照距离最近的原则归入各个类别,并计算新 形成类别的中心点。 • 第三步 按照新的中心位置,重新计算每一样品距离新的 类别中心点的距离,并重新进行归类,更新类别中心点。 • 第四步 重复第三步,直到达到一定的收敛标准,或者达 到分析者事先指定的迭代次数为止。
• 模型求解: • 1. 抽取[0,1]之间均匀分布的随机数,确定这次模拟路口停红灯
的车数,例如,抽到0.732,则这个数落在区间(0.671,0.857) 的范围里,所以这次模拟停车数为3; • 2. 计算红灯转为绿灯后,在绿灯延续期间d(如题设5分钟)内, 这部车以速度u通过道口共需时间t=(50/50)*3(分钟),如果 t>d,那么道口发生堵塞,在本次模拟中t=3分钟,没有发生堵塞; • 3. 抽取随机数很多次,如10000次,记下其中多少次发生堵塞, 从而估算出道口发生堵塞的概率。
2021数学建模中三种统计分析法的运用范文2

2021数学建模中三种统计分析法的运用范文 摘要: 多元统计分析方法是被广泛应用的一种数据处理方法,包括主成分分析、因子分析以及独立成分分析,这三种统计分析方法可以应用在多变量、大数据的处理过程当中。
现阶段,数学建模竞赛得到了许多院校的重视,而许多建模竞赛的题目都要进行数据的预处理,因此,可以将三种统计分析方法应用在数学建模数据分析当中。
本文主要对主成分分析、因子分析以及独立成分分析方法进行简介,进一步研究了三种统计分析方法在数据建模中的应用。
关键词: 主成分分析;因子分析; 独立成分分析; 数学建模; 数学建模竞赛等与样本数据相关的问题都需要进行数据的统计预处理,在此过程中,涉及的数据以及变量较多,因此增加了数据处理的复杂程度,在处理时希望把多变量转换为较少的综合变量,从而能够反映出相应的变量信息。
而主成分分析、因子分析以及独立成分分析方法可以处理多变量、大样本的数据信息,同时能够进行降维处理,在数学建模竞赛当中得到了较为广泛的应用。
因此,对这三种统计分析方法进行研究具有实际的应用意义。
一、三种统计分析方法简介 (一)主成分分析 主成分分析法(PCA)就是指通过正交变换,把分量相关的多个变化转化为分量不相关的综合变量的过程。
其中,被选择出来的变量叫作主成分,可以对数据的各种指标进行解释;而综合变量不仅要能够反映出原变量的信息,还要保证互不相关。
主成分分析法是一种数学变换方法,在变换的过程中,变量的方差是不变的,还要以方差递减的形式把变换后的综合变量进行排序。
(二)因子分析 因子分析法(FA)是主成分分析法的推广,主要是把原始的变量通过一些公共的因子变量来表示,是一种研究把多个观测变量转变为少数的不相关的综合变量的一种统计分析方法。
此种方法主要针对在大量观测数据当中得到一部分有价值的、难以直接测量的、相对独立的因子。
(三)独立成分分析 独立成分分析法(ICA)是主成分分析法以及因子分析法的延伸,此种方法应用效果较好,一旦其他的统计方法失效,那么依然可以找出支持观测数据的内在因子。
数学建模思想在“概率统计”教学中应用的实例分析-文档资料

数学建模思想在“概率统计”教学中应用的实例分析引言随着社会的发展,科学技术的进步,在教学中,传统的教学方法已经不能适应当前的人才培养需求,概率统计在日常工作和生活中,应用的范围较广,也越来越重要,为了更好的实现概率统计教学,提高学生的学习兴趣和学习能力,需要创新教学方法。
在概率统计教学中,应用数学建模思想,是教学方法的创新,在教学中引入新的教学元素,可以提高学生的学习兴趣,提高学生的动手能力,加深学生对概率统计知识的理解和掌握,所以本次从数学建模思想在概率统计教学中的应用实例进行分析研究。
一、数学建模思想在概率统计教学中的应用意义概率统计是一门理论性、实践性等较强的学科,在统计学、经济学等方面的应用,越来越广泛和深入,随着科学技术的发展,在概率统计教学中,传统的教学方法和教学模式已经无法使用时代的发展和社会对人才培养的需求,为此需要对概率统计教学的方法进行创新改革。
数学建模思想在概率统计教学中的应用,可以帮助学生运用数学思想,将概率统计教学相关的内容与实际问题结合,有助于培养学生的概率统计应用能力。
在概率统计教学中,应用数学建模思想,可以加深学生对知识的理解[1]。
例如在指数分布教学中,以飞机的等待时间为例进行分析,在某个机场的飞机跑道上来了一架飞机之后,跑道就在等待下一辆飞机的到来,设在(0,t)时间内,该跑道上飞机道路的架数,为,求第二架飞机到来的等待时间h的分布函数?在概率统计教学中,数学建模思想的应用,可以提高学生的学习兴趣,同时又将学生的知识面扩展,实现了理论与实践的结合,实现概率统计教学的目的。
在教学中还有很多例子可以应用,可以让学生学会举一反三,对学生的创新能力、思维能力进行培养和锻炼。
在概率统计教学中,应用数学建模思想,可以引用先进的教学技术、开展教学实验课,增强学生的动手能力,例如运用计算机技术、统计软件等,让学生参与其中,动手运用,在增强学生概率统计的理论知识的同时,也增强了学生的应用实践能力。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
§7 消费分布规律的分类
为研究辽宁、浙江、河南、甘肃、青海5省份在某年城镇居民生活消费的分布规律,需要用调查资料对这5个省分类.数据见下表:
其中,X 1:人均粮食支出; X 2:人均副食品支出;
X 3:人均烟、酒、茶支出; X 4:人均其它副食品支出;
X 5:人均衣着商品支出; X 6:人均日用品支出;
X 7:人均燃料支出; X 8:人均非商品支出.
在科学研究、生产实践、社会生活中,经常会遇到分类的问题.例如,在考古学中,要将某些古生物化石进行科学的分类;在生物学中,要根据各生物体的综合特征进行分类;在经济学中,要考虑哪些经济指标反映的是同一种经济特征;在产品质量管理中,要根据各产品的某些重要指标而将其分为一等品,二等品等等.
这些问题可以用聚类分析方法来解决.
聚类分析的研究内容包括两个方面,一是对样品进行分类,称为Q 型聚类法,使用的统计量是样品间的距离;二是对变量进行分类,称为R 型聚类法,使用的统计量是变量间的相似系数. 设共有n 个样品,每个样品i x 有p 个变量,它们的观测值可以表示为
n i x x x x pi i i i ,,2,1),,,,(21 ==
一、样品间的距离
下面介绍在聚类分析中常用的几种定义样品i x 与样品j x 间的距离.
1、 Minkowski 距离 m m p k kj ki j i x x
x x d 11
][),(∑=-= 2、绝对值距离 ∑=-=p k kj ki j i x x
x x d 1),(
3、欧氏距离 21
21][),(∑=-=p k kj ki j i x x
x x d
二、变量间的相似系数
相似系数越接近1,说明变量间的关联程度越好.常用的变量间的相似系数有
1、 夹角余弦
∑∑∑===∙=n k n k jk ik n k jk
ik ij x x
x x r 11
221)()( 2、 相关系数
∑∑∑===-∙---=n k n k j jk i ik n k j jk i ik ij x x x x
x x x x r 11
2)(2)(1)()()()()
)(( 值得注意的是,当指标的测量值相差较大时,直接使用以上各式计算距离或相似系数常使数值较小的变量失去作用,为此需应先对数据进行标准化,然后再用标准化的数据来计算.标准化的具体方法是:
p k n i s x x x k
k ki ki ,,2,1,,,2,1,* ==-= 其中 p k x x n s x n x n
i k ki k n i ki k ,,2,1,)(11,11
21 =--==∑∑== 三、类与类之间的距离
用p G 和q G 分别代表两个类,它们所包含的样品个数分别记为p n 和q n ,类p G 和q G 之间的距离记为),(q p G G D .下面给出三种最常用的定义方法.
1、最短距离 ),(min ),(q j p i ij q p G x G x d G G D ∈∈=
类与类之间的最短距离有如下的递推公式,设r G 为由p G 和q G 合并所得,则r G 与其它类),(q p k G k ≠的最短距离为
)},(),,({min ),(k q k p k r G G D G G D G G D =
2、最长距离 ),(max ),(q j p i ij q p G x G x d G G D ∈∈=
类与类之间的最长距离有如下的递推公式,设r G 为由p G 和q G 合并所得,则r G 与其它类),(q p k G k ≠的最长距离为
)},(),,({max ),(k q k p k r G G D G G D G G D =
3、类平均距离 ∑∑∈∈=p i q j G x G x ij q p q p d n n G G D 1
),(
类与类之间的类平均距离有如下的递推公式,设r G 为由p G 和q G 合并所得,则r G 与其它类),(q p k G k ≠的类平均距离
),(),(),(k q r q k p r p
k r G G D n n G G D n n G G D +=,其中 q p r n n n +=.
以上类与类之间的距离,不但适用于Q 型聚类,同样也适合于R 型聚类,这只要将ij d 用变量间的相似系数ij r 代替就行了.为简单起见以下均记成ij d .
系统聚类法是目前最流行的方法.
有了样品间的距离(或变量间的相似系数)以及类与类之间的距离后,便可进行系统聚类,基本步骤如下:
1、n 个样品(或p 个变量)一开始看作n 类(p 类),计算两两之间的距离(或相似系数),构成一个对称矩阵()n n ij d D ⨯=0,此时显然有pq q p d G G D =),(;
2、选择0D 中对角线元素以外的下三角部分中的最小元素(相似系数矩阵则选择对角线元素以外的最大者),设其为),(q p G G D ,则将p G 和q G 合并为一个新类r G .在0D 中划去p G 和q G 所对应的两行与两列,并加入由新类r G 与剩下的未聚合的各类之间的距离所组成的一行和一列,得到一个新的矩阵1D ,它是降低了一阶的对称矩阵;
3、由1D 出发,重复步骤2得到对称矩阵2D ,依此类推,直到n 个样品(或p 个变量)聚为一个大类为止;
4、在合并过程中记下两类合并时样品(或变量)的编号以及合并两类时的距离(或相似系数)的大小,并绘成聚类图,然后可根据实际问题的背景和要求选定相应的临界水平以确定类的个数.
上面是一个Q 型聚类问题,现在用系统聚类法来解决.将每个省份看成一个样品,并以1,2,3,4,5分别表示辽宁、浙江、河南、甘肃、青海5省,计算样品间的欧氏距离,得到如下的距离矩阵0D
{1} {2} {3} {4} {5}
⎪⎪⎪⎪⎪⎪⎭
⎫ ⎝⎛=021.251.354.2380.12020.206.2412.13063.2480.13067.1100D 下面给出采用最短距离法的聚类过程:首先将5个省各看成一类,即令)5,4,3,2,1(},{==i i G i .从0D 可以看出,其中最小的元素是20.2})3{},4({43==d D ,故将3G 和4G 合并成一类6G ,然
后利用递推公式计算6G 与1G ,2G ,5G 之间的最短距离.
12.13)12.13,80.13min{},min{})1{},4,3({4131===d d D
06.24)06.24,63.24min{},min{})2{},4,3({4232===d d D
21.2)21.2,51.3min{},min{})5{},4,3({4535===d d D
在0D 中划去{3},{4}所对应的行和列,并加上新类{3,4}到其它类距离作为新的一行一列,得到 {3,4} {1} {2} {5}
⎪⎪⎪⎪⎪⎭
⎫ ⎝⎛=054.2380.1221.2067.1106.24012.1301D 重复上面的步骤,依次可得到相应的距离矩阵如下:
{3,4,5} {1} {2}
,
067.1154.23080.1202⎪⎪⎪⎭
⎫ ⎝⎛=D
{3,4,5} {1,2} ⎪⎪⎭
⎫ ⎝⎛=080.1203D 最后将5个省合并为一大类,画出聚类图如下:
辽宁
11.67
浙江
12.80 河南
2.20
甘肃
2.21
青海
由此可见,分成三类比较合适,即辽宁和浙江各为一类,河南、甘肃、青海为一类. 若类与类之间的距离用最长距离或类平均距离,也会得到相同的结论.。