全国数学建模竞赛b题优秀论文
《2024年2016年全国大学生数学建模竞赛B题解题分析与总结》范文

《2016年全国大学生数学建模竞赛B题解题分析与总结》篇一一、引言2016年全国大学生数学建模竞赛B题,是一道涉及复杂系统分析与优化的实际问题。
该题目要求参赛者运用数学建模的方法,对给定的问题进行深入分析,并寻求最优解决方案。
本文将对B 题的解题过程进行详细分析,并总结经验教训。
二、题目概述B题主要围绕某大型网络公司的员工分配问题展开。
公司需根据员工的能力、需求以及项目的要求,合理分配员工到各个项目组,以实现公司整体效益的最大化。
该问题涉及到多目标决策、优化算法以及复杂系统分析等多个方面。
三、解题分析1. 问题理解:首先,我们需要对题目进行深入理解,明确问题的背景、目标和约束条件。
在这个阶段,我们需要对员工的能力、需求以及项目的要求进行详细的分析,为后续的建模打下基础。
2. 数学建模:根据问题的特点,我们选择建立多目标决策模型。
模型中,我们将员工的能力、需求以及项目的要求作为决策变量,以公司整体效益作为目标函数。
同时,我们还需要考虑各种约束条件,如员工数量的限制、项目需求的满足等。
3. 算法设计:在建立模型后,我们需要设计合适的算法来求解模型。
在这个阶段,我们选择了遗传算法和模拟退火算法进行求解。
遗传算法能够在大范围内搜索最优解,而模拟退火算法则能够在局部范围内进行精细搜索,两种算法的结合能够更好地求解该问题。
4. 求解与优化:在算法设计完成后,我们开始进行求解与优化。
首先,我们使用遗传算法对模型进行粗略求解,得到一组初步的解决方案。
然后,我们使用模拟退火算法对初步解决方案进行优化,以得到更优的解决方案。
在优化过程中,我们还需要不断调整模型的参数和算法的参数,以获得更好的求解效果。
5. 结果分析:在得到求解结果后,我们需要对结果进行分析。
首先,我们需要对结果进行验证,确保结果的正确性和有效性。
然后,我们需要对结果进行敏感性分析,分析各种因素对结果的影响程度。
最后,我们需要提出一些管理建议和改进措施,以帮助公司更好地解决实际问题。
数学建模优秀论文

(数学建模B题)北京水资源短缺风险综合评价参赛队员:甘霖(20093133,数学科学学院)李爽(20093123,数学科学学院)崔骁鹏(20091292,计算机科学学院)参赛时间:2011年4月30 - 5月13日承诺书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则. 我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。
如有违反竞赛规则的行为,我们将受到严肃处理。
我们参赛选择的题号是(从A/B/C/D 中选择一项填写):B所属学校(请填写完整的全名):黑龙江大学参赛队员:1.甘霖2、李爽3、崔骁鹏日期:2011 年5月12日目录1.摘要 -----------------------------------------42.关键词 ---------------------------------------43.问题重述 ---------------------------------------54.模型的条件和假设 ------------------------------55.符号说明 --------------------------------------56.问题的分析及模型的建立 ------------------------66.1问题一的分析与求解 -----------------------66.2问题二的分析与求解 -----------------------106.3问题三的分析与求解 -----------------------186.4问题死的求解 -----------------------------217.模型的评价 ------------------------------------238.参考文献 --------------------------------------239.附录 ------------------------------------------23北京水资源短缺风险综合评价甘霖﹑李爽﹑崔骁鹏【摘要】本文针对水资源短缺风险问题求出主要风险因子,并建立了水资源短缺风险评价模型,以北京为实例,做出了北京1979年到2009年的水资源短缺风险的综合风险评价,划分出了风险等级,以评价水资源短缺风险的程度。
全国大学生数学建模竞赛b题全国优秀论文

基于打车软件的出租车供求匹配度模型研究与分析摘要目前城市“出行难”、“打车难”的社会难题导致越来越多的线上打车软件出现在市场上。
“打车难”已成为社会热点。
以此为背景,本文将要解决分析的三个问题应运而生。
本文运用主成分分析、定性分析等分析方法以及部分经济学理论成功解决了这三个问题,得到了不同时空下衡量出租车资源供求匹配程度的指标与模型以及一个合适的补贴方案政策,并对现有的各公司出租车补贴政策进行了分析。
针对问题一,根据各大城市的宏观出租车数据,绘制柱形图进行重点数据的对比分析,首先确定适合进行分析研究的城市。
之后,根据该市不同地区、时间段的不同特点选择多个数据样本区,以数据样本区作为研究对象,进行多种数据(包括出租车分布、出租车需求量等)的采集整理。
接着,通过主成分分析法确定模型的目标函数、约束条件等。
最后运用spss软件工具对数据进行计算,求出匹配程度函数F与指标的关系式,并对结果进行分析。
针对问题二,在各公司出租车补贴政策部分已知的情况下,综合考虑出租车司机以及顾客两个方面的利益,分别就理想情况与实际情况进行全方位的分析。
在问题一的模型与数据结果基础上,首先分别从给司机和乘客补贴两个角度定性分析了补贴的效果。
重点就给司机进行补贴的方式进行讨论,定量分析了目前补贴方案的效果,得出了如果统一给每次成功的打车给予相同的补贴无法改善打车难易程度的结论,并对第三问模型的设计提供了启示,即需要对具有不同打车难易程度和需求量的区域采取分级的补贴政策。
针对问题三,在问题二的基础上我们设计了一种根据不同区域打车难易程度和需求量来确定补贴等级的方法。
设计了相应的量化指标,以极大化各区域打车难易程度降低的幅度之和作为目标,建立该问题的规划模型。
目的是通过优化求解该模型,使得通过求得的优化补贴方案,能够优化调度出租车资源,使得打车难区域得到缓解。
通过设计启发式原则和计算机模拟的方法进行求解,并以具体案例分析得到,本文方法相对统一的补贴方案而言的确可以一定程度缓解打车难的程度。
大学生数学建模竞赛B题优秀论文

关于高等教育学费标准的评价及建议摘要本文通过对近几年来学费变化的研究,综合分析影响学费变化的五个要素,引入了三个变因:学校属性、专业类型、地域差异对学费的影响,对其合理性进行了定量的分析和评价。
首先,我们基于层次分析法建立了模型一。
模型一以五个要素,即教育市场供求关系、全国家庭支付承受力、国家财政及相关社会捐助、个人收益率、教育成本为方案层。
对于教育市场的供求关系我们用灰色预测GM(1,1)模型预测出未来几年的招生人数,用蛛网模型求解稳定的价格点为3225.51 元;对于国家财政及相关社会捐助,我们用回归分析得出其效应关系。
模型一以效率和公平两个标准作为准则层,应用极差归一化思想,构造指标函数,综合建立成对比较矩阵。
我们定义学费合理化指数为目标层,经准则层,得出五个要素对学费合理化指数的组合权重向量。
考虑到成对比较矩阵仍有一定主观因素,我们用熵值取权法修正组合权重向量。
最后,拟合出最佳学费曲线及其波动区间,其中 2007 年的结论值为 3370.75 元。
模型一的突出优点是客观可信,美中不足的是结论为一个平均最优值,没有考虑其他变因的影响,使用的局限性较大。
然后,我们基于学校属性、专业类型、地域差异三个变因对结论的影响建立了模型二。
评价了这三个变因对五个要素的综合影响,修正了五个要素对学费合理化指数的影响,使得结论更趋于合理,应用范围更加广泛。
修正后通过若干数据的检验,得出平均最佳学费约为 3000 元。
基于这两个模型,以及对高校学费现状的了解,我们提出三点主要建议: 1.鼓励高校开拓资金来源渠道,学习国外筹款方式,如发行教育彩票等; 2.建议国家增加助学贷款发放力度,并能够分类别基于不同金额的贷款,并出台一些补贴政策弥补不同地区的差异; 3.大力扶持民办高等院校发展,实现高等教育大众化,这样不仅缓解高等院校招生压力,并且能够促进高校教育健康发展。
本文的特色在于基于翔实丰富的资料,根据五个要素及三个变因的分析,建立了一种合理的高校学费评价体系,其拥有适用性广,稳定性好,灵敏度高等特点,对三个变因,即学校属性、专业类型、地域差异进行了深入定量的分析,并根据模型结论给提出了我们的一些可行性建议。
《2024年2016年全国大学生数学建模竞赛B题解题分析与总结》范文

《2016年全国大学生数学建模竞赛B题解题分析与总结》篇一一、引言全国大学生数学建模竞赛(CUMCM)是衡量各高校数学类学科学生学习与实践能力的标志性竞赛之一。
其中,B题以真实问题的复杂性吸引了广大参赛选手的关注。
本文将对B题的具体题目内容、解题过程、常见方法和误区进行分析,并结合实例对竞赛结果进行总结,以期为其他参赛同学提供一定的参考。
二、题目分析B题通常关注某一实际领域的复杂问题,涉及多个因素的综合考量。
其要求参赛者通过建立数学模型,解决实际问题。
具体问题包括某个地区的旅游经济预测和资源合理配置。
针对此问题,首先需要对旅游业的各项数据进行详细分析,然后构建适当的数学模型,并使用合适的数学工具和软件进行计算和模拟。
三、解题过程1. 数据收集与分析:收集该地区的历史旅游数据,包括游客数量、消费水平、旅游景点分布等。
同时,分析该地区的经济、文化、交通等影响旅游业的因素。
2. 模型构建:根据收集的数据和实际情况,选择合适的数学模型进行建模。
常见的模型包括时间序列预测模型(如ARIMA 模型)、多元回归模型等。
3. 模型求解与验证:利用数学软件(如MATLAB、SPSS等)对模型进行求解,并对模型的预测结果进行验证。
验证方法包括与历史数据进行对比、进行敏感性分析等。
4. 资源合理配置:根据预测结果和实际情况,制定合理的资源分配方案,如旅游景点的开发策略、交通设施的优化配置等。
四、常见方法与误区1. 常见方法:在建模过程中,应选择合适的数学模型和方法。
对于时间序列预测问题,常用的有ARIMA模型、指数平滑法等;对于多元回归问题,则需要考虑各因素之间的相互关系。
同时,还应充分利用计算机技术进行数据分析和模拟。
2. 误区提示:在建模过程中,要避免陷入一些常见的误区。
例如,过分追求模型的复杂性和精确度而忽视模型的实用性和可解释性;忽视数据的预处理和清洗工作;忽略模型的验证和修正等。
五、实例分析以某次B题竞赛的优秀解决方案为例,详细分析其解题过程和关键点。
全国大学生数学建模竞赛B题优秀论文

(1) 表示客流量随时间的变化值,R、RW、RG分别表示上海国际旅游入境人数本底值、外国游客入境人数本底值、港澳台游客入境人数本底值;
(2)R1表示2010年1、2、3、4、11、12月上海国际旅游入境实际人数,R2表示世博会期间上海国际旅游入境实际人数,RZ表示2010年上海国际旅游总入境实际人数;
最后,通过对模型结果的分析,量化评估上海世博会的影响力。从世博会对以上各个指标的贡献率可以看出:世博会极大地促进了旅游业的发展,并且对上海的财政收入做出了巨大的贡献。在分析所得结果的基础上,客观评价此模型,并指出其优点和缺点。
关键词:上海 世博会 影响力 本底趋势线 内插值
1.问题重述
2010年上海世博会是首次在中国举办的世界博览会。从1851年伦敦的“万国工业博览会”开始,世博会正日益成为各国人民交流历史文化、展示科技成果、体现合作精神、展望未来发展等的重要舞台。请你们选择感兴趣的某个侧面,建立数学模型,利用互联网数据,定量评估2010年上海世博会的影响力。
2.模型的假设与符号说明
2.1模型的假设
2010年上海世博会作为一场世界级的盛宴,要对其影响力进行定量评估,尚存在一些不确定因素。故为了研究方便,我们给出以下假设:
(1)假设世博会不受偶然事件严重冲击和干扰;
(2)假设旅游人数只受主要因素影响,其他一些因素可以忽略,比如天气等因素;
(3)假设世博会期间每月游览总人数波动不大,非世博会期间每月游览总人数波动也不大。
第二步,用Excel的指数模型、乘幂模型和SPSS的指数-三角函数复合模型 、直线-逻辑线增长复合模型 、直线-三角函数复合模型 对各个指标进行拟合,确定有关参数,获得各个指标的趋势线模型和方程,并计算各年的本底值;
《2024年2016年全国大学生数学建模竞赛B题解题分析与总结》范文

《2016年全国大学生数学建模竞赛B题解题分析与总结》篇一一、引言2016年全国大学生数学建模竞赛(CUMCM)是面向全国各高校学生的大型数学建模类比赛。
在众多赛题中,B题以其复杂的实际问题背景和深入的应用数学知识引起了广泛关注。
本文旨在针对B题的解题过程进行详细分析,并做出相应的总结。
二、题目概述B题主要描述了一个实际生活中遇到的问题:基于网络平台的交通流量预测。
题目要求参赛者根据历史交通流量数据,分析交通流量的变化规律,并建立数学模型进行预测。
三、解题分析1. 数据收集与预处理首先,我们需要收集相关的历史交通流量数据。
这些数据可能包括时间、地点、交通流量等信息。
收集到的原始数据需要进行清洗和预处理,例如去除异常值、缺失值等,以获得更为准确的数据。
2. 建立数学模型根据数据的特点和问题需求,我们选择合适的数学模型进行建模。
考虑到交通流量与时间的关系较为密切,我们可以选择时间序列分析模型,如ARIMA模型等。
此外,考虑到不同地点之间的交通流量可能存在相互影响,我们还可以引入空间相关性分析,如空间自回归模型等。
3. 模型优化与验证建立数学模型后,我们需要对模型进行优化和验证。
这包括调整模型的参数、对模型进行诊断分析等。
我们可以通过对比模型的预测值与实际值,计算误差指标(如均方误差、平均绝对误差等)来评估模型的性能。
同时,我们还可以使用交叉验证等方法来验证模型的稳定性。
4. 模型应用与结果展示最后,我们将建立的数学模型应用于实际问题中,对未来的交通流量进行预测。
我们将预测结果以图表等形式进行展示,方便评委和观众理解。
同时,我们还可以对结果进行解释和讨论,说明模型的优点和局限性。
四、总结通过本文总结:经过详细的分析与探讨,针对2016年全国大学生数学建模竞赛B题,我们采取了有效的解决策略。
从数据收集与预处理到模型建立与优化,每一步都紧密联系实际,充分考虑了交通流量数据的特性和问题需求。
在建模过程中,我们选择了合适的时间序列分析模型和空间相关性分析模型,旨在捕捉交通流量的变化规律。
B题:电工杯数学建模竞赛获奖论文

1.预测每次航行各周预订舱位的人数,完善各航次每周实际预订人数非完全 累积表 sheet2。要求至少采用三种预测方法进行预测,并分析结果。
2.预测每次航行各周预订舱位的价格,完善每次航行预订舱位价格表 sheet3。 3.依据附件中表 sheet4 给出的每周预订价格区间以及每周意愿预订人数,预 测出公司每周给出的预订平均价格。 4.依据附件中表 sheet1-sheet4,建立邮轮每次航行的最大预期售票收益模型, 并计算第 8 次航行的预期售票收益。 5.在头等、二等舱位未满的情况下,游客登船后,可进行升舱(即原订二等 舱游客可通过适当的加价升到头等舱,三等舱游客也可通过适当的加价升到头等 舱、二等舱)。建立游客升舱意愿模型,为公司制定升舱方案使其预期售票收益 最大。
3.模型的假设与符号说明
3.1 模型的假设
1.假设邮轮旅游不存在高峰期,邮轮票价、预定人数等保持平稳状态; 2.假设题目表格中给出的平均价格在价格浮动比之内; 3.假设邮轮各个舱位预定平均价格和距离邮轮出发时间的关系保持一致; 4.假设意愿预定人数和实际预定人数的转换只和价格、舱位种类有关。 5.假设游客上船之后升舱没有任何手续费; 6.假设每个舱位中的人数和舱位的价格成反比例关系,并且三种舱位的比例 关系相同;
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于最小二乘法的碎纸片拼接复原数学模型摘要首先对图片进行灰度化处理,然后转化为0-1二值矩阵,利用矩阵行(列)偏差函数,建立了基于最小二乘法的碎纸片拼接数学模型,并利用模型对图片进行拼接复原。
针对问题一,当两个数字矩阵列向量的偏差函数最小时,对应两张图片可以左右拼接。
经计算,得到附件1的拼接结果为:08,14,12,15,03,10,02,16,01,04,05,09,13,18,11,07,17,00,06。
附件2的拼接结果为:03,06,02,07,15,18,11,00,05,01,09,13,10,08,12,14,17,16,04。
针对问题二,首先根据每张纸片内容的不同特性,对图片进行聚类分析,将209张图片分为11类;对于每一类图片,按照问题一的模型与算法,即列偏差函数最小则进行左右拼接,对于没有拼接到组合里的碎纸片进行人工干预,我们得到了11组碎纸片拼接而成的图片;对于拼接好的11张图片,按照问题一的模型与算法,即行偏差函数最小则进行上下拼接,对于没有拼接到组合里的碎纸片进行人工干预。
我们最终经计算,附件3的拼接结果见表9,附件4的拼接结果见表10。
针对问题三,由于图片区分正反两面,在问题二的基础上,增加图片从下到上的裁截距信息,然后进行两次聚类,从而将所有图片进行分类,利用计算机自动拼接与人工干预相结合,对所有图片进行拼接复原。
经计算,附件5的拼接结果见表14和表15该模型的优点是将图片分为具体的几类,大大的减少了工作量,缺点是针对英文文章的误差比较大。
关键字:灰度处理,图像二值化,最小二乘法,聚类分析,碎纸片拼接一、问题重述碎纸片的拼接复原技术在司法鉴定、历史文献修复与研究、军事情报获取以及故障分析等领域都有着广泛的应用。
近年来,随着德国“斯塔西”文件的恢复工程的公布,碎纸文件复原技术的研究引起了人们的广泛关注。
传统上,拼接复原工作需由人工完成,准确率较高,但效率很低。
特别是当碎片数量巨大,人工拼接很难在短时间内完成任务。
随着计算机技术的发展,人们试图开发碎纸片的自动拼接技术,以提高拼接复原效率。
对于一页印刷文档,针对不同的破碎方法,讨论下列三个问题:(1)将给定的一页印刷文字文件纵切,建立碎纸片拼接复原模型和算法,并针对附件1、附件2给出的中、英文各一页文件的碎片数据进行拼接复原。
(2)对于碎纸机既纵切又横切的情形,设计碎纸片拼接复原模型和算法,并针对附件3、附件4给出的中、英文各一页文件的碎片数据进行拼接复原。
(3)对于双面打印文档,研究如何进行碎纸片的拼接复原问题。
附件5给出的是一页英文印刷文字双面打印文件的碎片数据。
要求尝试设计相应的碎纸片拼接复原模型与算法,并就附件5的碎片数据给出拼接复原结果。
二、模型的基本假设(1)待拼接的碎纸片来自同一页印刷文字文件。
(2)待拼接复原的碎纸片是规整的矩形。
(3)模型中的碎纸片长度、宽度和面积都相等。
(4)附件中照片都是同标准拍摄。
三、符号说明,209)=1,2,,209),209)=1,2,,209)=1,2,,209)四、问题分析将不规则的文档碎纸片进行拼接,一般是利用碎纸片的边缘曲线,尖点、尖角、面积等几何特征,搜索与之匹配的相邻碎纸片。
但对于边缘形状相似的碎纸片,这种基于边界几何特征的拼接方法失效,拼接时不但要考虑待拼接碎纸片边缘是否匹配,还要判断碎片内的字迹断线或碎片内的文字内容是否匹配。
本问题给定的碎纸片有以下几个特点: 1、每一张碎纸片都是规整的矩形;2、所有的碎纸片的长度、宽度都相等,形状是完全一样的;3、每一张碎纸片里都包含着文字(汉字、英文),不存在空白的碎纸片;4、不同的碎纸片之间没有重叠部分。
由于碎纸片的形状相同,因而不能针对碎纸片的几何特征建立数学模型;碎纸片间无重叠,也不能利用图像融合技术进行图像配准。
根据上述分析,我们考虑将图片进行数字化处理,根据每张碎纸片上的边缘文字特征进行匹配,也就是利用图片边缘文字的像素进行最优化匹配。
五、模型的建立与求解5.1问题一的建模与算法由于碎纸片本身不具有体现其拼接特性的数字特征,我们需要将其数字化、矩阵化,将问题转化为矩阵之间的相关性。
5.1.1图片的灰度处理利用photoshop 软件,将附件中所给的BMP 格式的图片转化成JPG 格式,去除图片的多彩性。
为了对碎纸片进行数字化,我们将图像进行灰度处理,取出图像中每一个像素点的灰度值,灰度值的大小与像素点颜色的红绿蓝成分有关。
根据文献[1],每个像素点的=0.30+0.59+0.11⨯⨯⨯灰度值红色绿色蓝色,即0.300.590.11Gray r g b =⨯+⨯+⨯,其中,,,r g b 的取值范围是0~255。
问题一将同一页印刷文字文件纵切为19张图片(见图1),根据实际情况,我们将每张图片设置为198072⨯格式,于是,每张图片对应一个198072⨯的灰度矩阵。
图1附件1未进行拼接的19张碎纸片5.1.2图片的二值化处理将图片进行灰度处理以后,每个像素的灰度值介于0~255之间。
灰度值不能直接用于文字图片的拼接,还须进行二值化处理。
将图片放入直角坐标系,规定:若(,)x y 点的像素灰度值大于或等于T ,该点用数值1表示,并将其设定为白色;若(,)x y 点的像素灰度值小于T ,该点用数值0表示,并将其设定为黑色。
由此得到像素点的二值化函数:其中,T 为预先设定的全局灰度阈值。
于是,每张图片的灰度矩阵转化为下列198072⨯的0,1数字矩阵:1117219801198072a a A a a ⨯⨯⨯⎛⎫⎪=⎪ ⎪⎝⎭,其中5.1.3最小二乘法1、图片左右拼接的数学模型设,A B 分别表示左右放置的两张图片对应的数字矩阵,定义前一个矩阵的最后一列与后一个矩阵的第一列之间的偏差函数为:其中,(,72),(,1)A i B i 分别表示矩阵,A B 第72列和第1列的元素。
对于给定的矩阵A ,若存在矩阵B ,使得A 与B 之间的偏差函数(,)f A B 达到最小,则称A 与B 可以匹配,此时A 与B 对应的图片可以左右拼接。
2、图片上下拼接的数学模型类似地,设,C D 分别表示上下放置的两张图片对应的数字矩阵,定义上面矩阵的最后一行与下面矩阵的第一行之间的偏差函数为:其中,(1980,),(1,)C j D j 分别表示矩阵,C D 第1980行和第1行的元素。
对于给定的矩阵C ,若存在矩阵D ,使得C 与D 之间的偏差函数(,)h C D 达到最小,则称C 与D 可以匹配,此时C 与D 对应的图片可以上下拼接。
我们称上述基于数字矩阵之间列(或行)距离的图片拼接模型为最小二乘法拼接复原模型。
5.1.4算法与求解(一)算法思想第一步,对附件中的19幅图片分别进行灰度处理,然后取灰度阈值125T =,进行二值化,得到19个0,1数字矩阵,即图片的数字化。
第二步,对上述19个数字矩阵进行检测,若存在一个矩阵的最左侧一列元素全是1,根据破碎图片的特点,则该图片即为从左边起第一张碎纸片,记为1A 。
第三步,计算1A 与其余18张图片对应矩阵的列偏差值。
若存在2A ,使得12(,)f A A 达到最小,则2A 即位第二张图片。
重复上述的步骤,依次得到所有碎纸片的排列,即可拼接成完整图片。
(二)附件1、2的拼接复原结果 附件1和附件2的拼接顺序如下表:(附件1的算法程序见附录一,复原图片见附录二;附件2的算法程序见附录三,复原图片见附录四)5.2问题二的模型建立与算法 5.2.1图片的数字化处理步骤一:将附件所给的BMP 格式图片转换成JPG 格式的图片; 步骤二:对图片进行灰度处理; 步骤三:然后进行二值化处理;最后,得到209张图片的数字化矩阵。
5.2.2聚类分析对于碎纸机既纵切又横切的情形,与问题一仅纵切相比,图片变小,因而每张图片包含的信息量明显变小,如果仅利用最小二乘法,碎片之间的匹配不唯一。
为了解决这个问题,我们利用聚类分析法,对碎片先进行分类。
经观察测试,原始文档碎片具有下列特点:(1)字体大小:字体的最大高度和最大宽度一致。
(2)切割的均匀性:同方向的切割线平行,图片大小均相等,沿纵横方向按直线切割。
(3)文字的行距:文字的行间距等同,段落间距为定值。
为了对209幅图片进行聚类分析,如图2所示,我们定义聚类指标如下:i a 表示图片上端裁接处的字体长度,我们称之为裁截文字长度;i b 为行间距;ic 表示图片上端文字与切割线之间的空白距离,我们称之为裁截空白距离;id 为字体高度,其中,=1,2,,209i 。
图2图片聚类指标示意图令i i i D a b =+或i i i D c d =+,称i D 为第i 张图片的裁截距(=1,2,,209)i ,由图2,如1212,a a b b ≠=,则12D D ≠。
一般地,图片从上往下看,不同的裁截线形成的裁截文字长度不同,文字间的行间距相同,所以,如果裁接处的文字长度不相等,那么文字与空白间距之和就不相等。
根据i D 的不同取值,下面对图片进行分类。
根据二值化矩阵的特点以及文字的特征,只要存在文字,则矩阵的某一行元素一定存在0元素,且在文字之间的元素为1。
如下图所示:图3文字特征图利用matlab 软件进行编程,将每个图片的裁截文字长度、行间距、裁截空白距离、字体高度以及裁截距的结果以excel 的形式输出到表格之中。
(程序见附录五)按裁接距进行聚类分析,使用spss软件分析处理后,得到聚类中心分布图如下所示:所示:根据聚类结果发现,并不能将图片平均分成11个组。
这时需要增加信息量来更好地进行分类,进一步观察图2,我们可以发现:图片的上端裁截处可能是文字,也可能D可能相等,此时通过图片上端裁截处是空白还是文字加以人工分为空白。
但是裁截距i类。
用matlab将数据导出到excel中并进行分析,结果如下:图4分析结果由图4可以看出:图片大体分为11个组别,为了得到更精确地聚类结果,通过spss 软件,我们再次确立聚类中心如下图所示:通过上面两次聚类,确立了两个不同聚类中心。
利用第一次确立的裁接距的聚类中心对图片进行初步分类,然后利用裁截文字或者裁接空白再次进行判别,最终将图片分组。
如下表所示:(以上的算法都是在matlab软件下操作,程序见附件六)成了115.2.3图片的拼接模型、算法与求解(一)算法思想下面我们分两步来做,第一步,对每组碎纸片进行拼接;第二步,将各组进行拼接。
最终完成文件复原。
在已知文件切为11×19的碎纸片情况下,将图片进行聚类分析得到了11个组后。
利用碎纸片左右边缘为空白的特点判断出文件左侧11个碎纸片,再利用问题一模型和算法,对每个组进行匹配拼接,可得到11个拼接好的图片,之后仍然按照问题一的模型和算法将这11张图片拼接成完整的图片。