2013高教社杯全国大学生数学建模竞赛-B题论文
2013全国数学建模竞赛B题优秀论文

基于最小二乘法的碎纸片拼接复原数学模型摘要首先对图片进行灰度化处理,然后转化为0-1二值矩阵,利用矩阵行(列)偏差函数,建立了基于最小二乘法的碎纸片拼接数学模型,并利用模型对图片进行拼接复原。
针对问题一,当两个数字矩阵列向量的偏差函数最小时,对应两张图片可以左右拼接。
经计算,得到附件1的拼接结果为:08,14,12,15,03,10,02,16,01,04,05,09,13,18,11,07,17,00,06。
附件2的拼接结果为:03,06,02,07,15,18,11,00,05,01 ,09,13, 10,08,12,14,17,16,04。
针对问题二,首先根据每张纸片内容的不同特性,对图片进行聚类分析,将209张图片分为11类;对于每一类图片,按照问题一的模型与算法,即列偏差函数最小则进行左右拼接,对于没有拼接到组合里的碎纸片进行人工干预,我们得到了11组碎纸片拼接而成的图片;对于拼接好的11张图片,按照问题一的模型与算法,即行偏差函数最小则进行上下拼接,对于没有拼接到组合里的碎纸片进行人工干预。
我们最终经计算,附件3的拼接结果见表9,附件4的拼接结果见表10。
针对问题三,由于图片区分正反两面,在问题二的基础上,增加图片从下到上的裁截距信息,然后进行两次聚类,从而将所有图片进行分类,利用计算机自动拼接与人工干预相结合,对所有图片进行拼接复原。
经计算,附件5的拼接结果见表14和表15该模型的优点是将图片分为具体的几类,大大的减少了工作量,缺点是针对英文文章的误差比较大。
关键字:灰度处理,图像二值化,最小二乘法,聚类分析,碎纸片拼接一、问题重述碎纸片的拼接复原技术在司法鉴定、历史文献修复与研究、军事情报获取以及故障分析等领域都有着广泛的应用。
近年来,随着德国“斯塔西”文件的恢复工程的公布,碎纸文件复原技术的研究引起了人们的广泛关注。
传统上,拼接复原工作需由人工完成,准确率较高,但效率很低。
特别是当碎片数量巨大,人工拼接很难在短时间内完成任务。
2013B数学建模国赛论文

dist Oder
跳变距离,与英文字母之间的行距和字母大小相关
存储图片拼合顺序的矩阵 拼接正确数目比 标准化处理后的变量 样本与聚类中心的欧式距离 效率因子
(0)
z ij
min F
(t)
五、模型的建立与求解
一、模型一的建立与求解 1.1 基于 canny 边缘检测算子的二值化处理 Canny 边缘检测是高斯函数的一阶导数,是对信噪比与定位能力的乘积的最优化 逼近算子,广泛运用于图像处理和模式识别问题中。在本题中,需要通过获取每个字 的边界来获取其位置信息,所以利用 Canny 算子进行边缘检测,确定每个字的边界。 Canny 算子的边缘检测最优性与以下标准有关: (1)好的信噪比,即非边缘点判为边缘点或将边缘点判为非边缘点的概率低。信噪 比越大,则边缘提取质量越好。 (2)好的定位性能,即检测出的边缘点要尽可能在实际边缘的中心。 (3)对单一边缘具有唯一响应,并且对虚假边缘响应应得到最大抑制。 算法步骤如下:
M [ x, y ] G x ( x, y ) 2 G y ( x, y ) 2
[ x, y ] arctan(Gx ( x, y ) / G y ( x, y )) M [ x, y ] 反映了图像的边缘强度, [ x, y ] 反映了图像的边缘方向。使得 M [ x, y ] 取得局部 最大值的方向角 [ x, y ] ,就反映了边缘的方向。
三、模型假设
1.假设每一个字体的大小可有一个正方形将其完全包含,而且这个正方形的长宽是固 定值。 2.假设和每个包含字的正方形都并行排列 (其底边在一条直线上) , 即不可能出现正方 形的底边在这条直线的下方或者是上方。 3.假设人工干预所做的处理都是有效的
3
四、符号说明
2013全国数学建模竞赛题目A-B

2013高教社杯全国大学生数学建模竞赛题目(请先阅读“全国大学生数学建模竞赛论文格式规范”)A题车道被占用对城市道路通行能力的影响车道被占用是指因交通事故、路边停车、占道施工等因素,导致车道或道路横断面通行能力在单位时间内降低的现象。
由于城市道路具有交通流密度大、连续性强等特点,一条车道被占用,也可能降低路段所有车道的通行能力,即使时间短,也可能引起车辆排队,出现交通阻塞。
如处理不当,甚至出现区域性拥堵。
车道被占用的情况种类繁多、复杂,正确估算车道被占用对城市道路通行能力的影响程度,将为交通管理部门正确引导车辆行驶、审批占道施工、设计道路渠化方案、设置路边停车位和设置非港湾式公交车站等提供理论依据。
视频1(附件1)和视频2(附件2)中的两个交通事故处于同一路段的同一横断面,且完全占用两条车道。
请研究以下问题:1.根据视频1(附件1),描述视频中交通事故发生至撤离期间,事故所处横断面实际通行能力的变化过程。
2.根据问题1所得结论,结合视频2(附件2),分析说明同一横断面交通事故所占车道不同对该横断面实际通行能力影响的差异。
3.构建数学模型,分析视频1(附件1)中交通事故所影响的路段车辆排队长度与事故横断面实际通行能力、事故持续时间、路段上游车流量间的关系。
4.假如视频1(附件1)中的交通事故所处横断面距离上游路口变为140米,路段下游方向需求不变,路段上游车流量为1500pcu/h,事故发生时车辆初始排队长度为零,且事故持续不撤离。
请估算,从事故发生开始,经过多长时间,车辆排队长度将到达上游路口。
附件1:视频1附件2:视频2附件3:视频1中交通事故位置示意图附件4:上游路口交通组织方案图附件5:上游路口信号配时方案图注:只考虑四轮及以上机动车、电瓶车的交通流量,且换算成标准车当量数。
附件3视频1中交通事故位置示意图附件4附件5上游路口信号配时方案本题附件1、2的数据量较大,请竞赛开始后从竞赛合作网站“中国大学生在线”网站下载:试题专题页面:/service/jianmo/index.shtml试题下载地址:/service/jianmo/sxjmtmhb/2013/0525/969401.shtml2013高教社杯全国大学生数学建模竞赛题目(请先阅读“全国大学生数学建模竞赛论文格式规范”)B题碎纸片的拼接复原破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。
大学生数学建模竞赛B题优秀论文

关于高等教育学费标准的评价及建议摘要本文通过对近几年来学费变化的研究,综合分析影响学费变化的五个要素,引入了三个变因:学校属性、专业类型、地域差异对学费的影响,对其合理性进行了定量的分析和评价。
首先,我们基于层次分析法建立了模型一。
模型一以五个要素,即教育市场供求关系、全国家庭支付承受力、国家财政及相关社会捐助、个人收益率、教育成本为方案层。
对于教育市场的供求关系我们用灰色预测GM(1,1)模型预测出未来几年的招生人数,用蛛网模型求解稳定的价格点为3225.51 元;对于国家财政及相关社会捐助,我们用回归分析得出其效应关系。
模型一以效率和公平两个标准作为准则层,应用极差归一化思想,构造指标函数,综合建立成对比较矩阵。
我们定义学费合理化指数为目标层,经准则层,得出五个要素对学费合理化指数的组合权重向量。
考虑到成对比较矩阵仍有一定主观因素,我们用熵值取权法修正组合权重向量。
最后,拟合出最佳学费曲线及其波动区间,其中 2007 年的结论值为 3370.75 元。
模型一的突出优点是客观可信,美中不足的是结论为一个平均最优值,没有考虑其他变因的影响,使用的局限性较大。
然后,我们基于学校属性、专业类型、地域差异三个变因对结论的影响建立了模型二。
评价了这三个变因对五个要素的综合影响,修正了五个要素对学费合理化指数的影响,使得结论更趋于合理,应用范围更加广泛。
修正后通过若干数据的检验,得出平均最佳学费约为 3000 元。
基于这两个模型,以及对高校学费现状的了解,我们提出三点主要建议: 1.鼓励高校开拓资金来源渠道,学习国外筹款方式,如发行教育彩票等; 2.建议国家增加助学贷款发放力度,并能够分类别基于不同金额的贷款,并出台一些补贴政策弥补不同地区的差异; 3.大力扶持民办高等院校发展,实现高等教育大众化,这样不仅缓解高等院校招生压力,并且能够促进高校教育健康发展。
本文的特色在于基于翔实丰富的资料,根据五个要素及三个变因的分析,建立了一种合理的高校学费评价体系,其拥有适用性广,稳定性好,灵敏度高等特点,对三个变因,即学校属性、专业类型、地域差异进行了深入定量的分析,并根据模型结论给提出了我们的一些可行性建议。
最新高教社杯全国大学生数学建模竞赛b题汇总

2013高教社杯全国大学生数学建模竞赛B题车道被占用对城市道路通行能力的影响摘要车道被占用是指因交通事故、路边停车、占道施工等因素,导致车道或道路横断面通行能力在单位时间内降低的现象。
由于城市道路具有交通流密度大、连续性强等特点,一条车道被占用,也可能降低路段所有车道的通行能力,即使时间短,也可能引起车辆排队,出现交通阻塞。
如处理不当,甚至出现区域性拥堵。
对于问题一,本文提高结果的精准度,结合两种方法进行研究,且两种方法的结果十分吻合。
由于实际通行能力是建立在基本通行能力和可能通行能力之上的,所以在求解实际通行能力之前,需要算出基本通行能力和可能通行能力,针对问题一创建了一张流程图,并借助软件加以拟合。
对实际通行能力计算,得出实际通行能力的变化过程,根据GREENSHIELD K-V线性算法得出道路越堵,车速越慢,则实际通行能力就越差,反之就会较好。
对于问题二,因为所占的车道不同,并且给的条件中有说明左转车流比例和右转车流比例不同,那只需验证两者是否存在显著性差异,运用配对样本t检验的方法就是要先满足这一方法的两个前提条件,首先必须验证是否满足正态分布,经过SPSS软件的验证可以得出符合正态分布。
然后再进行配对,从配对的结果中可以看出存在显著性差异,再结合左右转的车流量比例,更加可以看出存在显著性差异。
对于问题三,主要是对所推出来的回归方程的判断和分析因变量和各因子之间的关系,在本问中要先求出排队长度,排队长度是根据堵塞密度,进出车辆数之间的差值来求解,再根据最小二乘法来判断所假设的这一模型是否符合多元线性回归关系,本问中得出符合多元线性回归关系。
再在排队长度和最小二乘法的基础之上,运用SPSS软件,在进行结果分析时得出实际通行能力对于排队长度没有影响,所以可以剔除,而事故持续时间和上游车流量对排队长度都有明显的影响,然后得出他们的相关系数,求出最后的相关方程式。
对于问题四,题目中给出了事故发生点到上游路口的距离为140米,并且上游车流量为1500pcu/h,结合视频1中多次出现的120米这一个顶点,推算出120米内大概最大的堵塞车流量,然后按比例分配推算出140米的最大堵塞车流量,视频1中的可以通过加权平均来求出平均的实际通行能力,则事故持续时间就是要靠140米的最大堵塞车流量和平均实际通行能力来计算,最后得出事故持续时间为2.37min。
数学建模国赛2013年b题

数学建模国赛2013年b题【最新版】目录一、数学建模国赛 2013 年 b 题概述二、题目背景与要求三、题目分析与解题思路四、解答过程与结果五、总结与启示正文【一、数学建模国赛 2013 年 b 题概述】数学建模国赛是一项面向全国大学生的竞赛活动,旨在培养学生的创新意识、团队协作精神和实际问题解决能力。
2013 年的 b 题是关于传染病传播的动力学模型,要求参赛选手运用数学方法对传染病的传播进行建模和预测。
【二、题目背景与要求】传染病在全球范围内造成了巨大的经济损失和人员伤亡。
因此,研究传染病的传播规律,预测疫情发展趋势,对制定防控措施具有重要意义。
2013 年 b 题要求参赛选手建立一个传染病传播的动力学模型,并根据实际数据进行参数估计和模型验证,最终预测疫情在未来一段时间内的传播情况。
【三、题目分析与解题思路】传染病传播的动力学模型主要包括三个基本要素:感染者、易感者和康复者。
根据题目给出的数据,我们需要建立一个包含这三个要素的数学模型,并利用相关数学方法对模型进行求解。
【四、解答过程与结果】解答过程主要包括以下几个步骤:1.根据题目描述,确定感染者、易感者和康复者之间的转换关系。
2.根据实际数据,建立初始值和边界条件。
3.利用微分方程等数学方法,求解模型。
4.对模型进行参数估计和模型验证。
5.根据模型预测疫情在未来一段时间内的传播情况。
通过以上步骤,我们可以得到传染病在未来一段时间内的传播趋势,从而为政府和相关部门制定防控措施提供科学依据。
【五、总结与启示】数学建模国赛 2013 年 b 题的解答过程充分体现了数学方法在解决实际问题中的应用价值。
通过参加此类竞赛,学生可以提高自己的数学素养、团队协作精神和创新能力。
数学建模美赛B题论文

2013建模美赛B题思路数学建模美赛B题论文摘要水资源是极为重要生活资料,同时与政治经济文化的发展密切相关,北京市是世界上水资源严重缺乏的大都市之一。
本文以北京为例,针对影响水资源短缺的因素,通过查找权威数据建立数学模型揭示相关因素与水资源短缺的关系,评价水资源短缺风险并运用模型对水资源短缺问题进行有效调控。
首先,分析水资源量的组成得出影响因素。
主要从水资源总量(供水量)和总用水量(需水量)两方面进行讨论。
影响水资源总量的因素从地表水量,地下水量和污水处理量入手。
影响总用水量的因素从农业用水,工业用水,第三产业及生活用水量入手进行具体分析。
其次,利用查得得北京市2001-2008年水量数据,采用多元线性回归,建立水资源总量与地表水量,地下水量和污水处理量的线性回归方程yˆ=-4.732+2.138x1+0.498x2+0.274x3根据各个因数前的系数的大小,得到风险因子的显著性为rx1>rx2>rx3(x1, x2,x3分别为地表水、地下水、污水处理量)。
再次,利用灰色关联确定农业用水、工业用水、第三产业及生活用水量与总用水量的关联程度ra =0.369852,rb= 0.369167,rc=0.260981。
从而确定其风险显著性为r a>r b>r c。
再再次,由数据利用曲线拟合得到农业、工业及第三产业及生活用水量与年份之间的函数关系,a=0.0019(t-1994)3-0.0383(t-1994)2-0.4332(t-1994)+20.2598;b=0.014(t-1994)2-0.8261t+14.1337;c=0.0383(t-1994)2-0.097(t-1994)+11.2116;D=a+b+c;预测出2009-2012年用水总量。
最后,通过定义缺水程度S=(D-y)/D=1-y/D,计算出1994-2008的缺水程度,绘制出柱状图,划分风险等级。
我们取多年数据进行比较,推测未来四年地表水量和地下水量维持在前八年的平均水平,污水处理量为近三年的平均水平,得出2009-2012年的预测值,并利用回归方程yˆ=-4.732+2.138x1+0.4982x2+0.274x3计算出对应的水资源总量。
2013年数学建模美赛B题论文

2013建模美赛B题思路摘要水资源是极为重要生活资料,同时与政治经济文化的发展密切相关,北京市是世界上水资源严重缺乏的大都市之一。
本文以北京为例,针对影响水资源短缺的因素,通过查找权威数据建立数学模型揭示相关因素与水资源短缺的关系,评价水资源短缺风险并运用模型对水资源短缺问题进行有效调控。
首先,分析水资源量的组成得出影响因素。
主要从水资源总量(供水量)和总用水量(需水量)两方面进行讨论。
影响水资源总量的因素从地表水量,地下水量和污水处理量入手。
影响总用水量的因素从农业用水,工业用水,第三产业及生活用水量入手进行具体分析。
其次,利用查得得北京市2001-2008年水量数据,采用多元线性回归,建立水资源总量与地表水量,地下水量和污水处理量的线性回归方程yˆ=-4.732+2.138x1+0.498x2+0.274x3根据各个因数前的系数的大小,得到风险因子的显著性为r x1>r x2>r x3(x1, x2,x3分别为地表水、地下水、污水处理量)。
再次,利用灰色关联确定农业用水、工业用水、第三产业及生活用水量与总用水量的关联程度r a=0.369852,r b= 0.369167,r c=0.260981。
从而确定其风险显著性为r a>r b>r c。
再再次,由数据利用曲线拟合得到农业、工业及第三产业及生活用水量与年份之间的函数关系,a=0.0019(t-1994)3-0.0383(t-1994)2-0.4332(t-1994)+20.2598;b=0.014(t-1994)2-0.8261t+14.1337;c=0.0383(t-1994)2-0.097(t-1994)+11.2116;D=a+b+c;预测出2009-2012年用水总量。
最后,通过定义缺水程度S=(D-y)/D=1-y/D,计算出1994-2008的缺水程度,绘制出柱状图,划分风险等级。
我们取多年数据进行比较,推测未来四年地表水量和地下水量维持在前八年的平均水平,污水处理量为近三年的平均水平,得出2009-2012年的预测值,并利用回归方程yˆ=-4.732+2.138x1+0.4982x2+0.274x3计算出对应的水资源总量。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
碎纸片的拼接复原摘要本文利用Manhattan距离,聚类分析,图像处理等方法解决了碎纸片的拼接复原问题。
由于碎纸机产生的碎纸片是边缘规则且等大的矩形,此时碎纸片拼接方法就不能利用碎片边缘的尖角特征等基于边界几何特征的拼接方法,而要利用碎片内的字迹断线或碎片内的文字位置搜索与之匹配的相邻碎纸片。
拼接碎片前利用数学软件MATLAB软件对碎片图像进行数据化处理,得到对应的像素矩阵,后设置阈值对像素矩阵进行二值化处理,得到相应的0-1矩阵。
下面分别对三个问题的解决方法和算法实现做简单的阐述:问题一,分别对附件1和附件2的碎片数据进行处理得到相应的0-1矩阵,依次计算某个0-1矩阵最右边一列组成向量与其他所有0-1矩阵的最左边向量的Manhattan距离,可以得到某个最小距离值、说明最小距离值对应的碎片是可与基准碎片拼接的,最终得到碎片拼接完整的图像。
问题二,同样对于附件3和附件4中的碎片数据进行处理得到相应的数值矩阵,并计算得到每个碎片顶部空白高度和文字高度,即指每行像素点都为255的行数、一行中存在像素点为非255的行数,根据空白高度和文字高度对碎片进行聚类分类,聚类阀值取3像素,得到11组像素矩阵,进而得到11类可能在同一行的碎片类。
其中对附件4中的英文的处理中,我们还采用水平像素投影累积的方法,进一步分类出可能在同一行的碎片类。
用问题一的方法,计算Manhattan 距离可以对每一类碎片按次序排列好,得到11行已经排列好的碎片,再应用曼哈顿距离在竖直方向上进行聚合得到完整的图像。
问题三,首先,对于附件5中的碎片数据我们采用正反相接,本文将b面最左边的一列像素拼接到a面最右边的一列像素的下面,构成360×1的向量,再把其他的碎片采用相同的办法得到360×1的向量,再用问题一的方法,计算出各碎片之间的Manhattan距离。
其次,根据每个碎片顶部的空白高度或者文字高度对碎片进行区间分类,得到22组矩阵,然后应用曼哈顿距离将得到的22组矩阵聚成两类,每类各包含两面的11组矩阵,最后利用Manhattan距离在竖直方向上进行聚合得到完整的图像。
本文最后,我们根据算法的效率实现进行了改进和优化,实现算法的移植性、灵活性、运行效率等得以提升。
关键词:曼哈顿距离,聚类分析,二值化处理一、问题重述破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。
传统上,拼接复原工作需由人工完成,准确率较高,但效率很低。
特别是当碎片数量巨大,人工拼接很难在短时间内完成任务。
随着计算机技术的发展,人们试图开发碎纸片的自动拼接技术,以提高拼接复原效率。
请讨论以下问题:1. 对于给定的来自同一页印刷文字文件的碎纸机破碎纸片(仅纵切),建立碎纸片拼接复原模型和算法,并针对附件1、附件2给出的中、英文各一页文件的碎片数据进行拼接复原。
如果复原过程需要人工干预,请写出干预方式及干预的时间节点。
复原结果以图片形式及表格形式表达。
2. 对于碎纸机既纵切又横切的情形,请设计碎纸片拼接复原模型和算法,并针对附件3、附件4给出的中、英文各一页文件的碎片数据进行拼接复原。
如果复原过程需要人工干预,请写出干预方式及干预的时间节点。
复原结果表达要求同上。
3. 上述所给碎片数据均为单面打印文件,从现实情形出发,还可能有双面打印文件的碎纸片拼接复原问题需要解决。
附件5给出的是一页英文印刷文字双面打印文件的碎片数据。
请尝试设计相应的碎纸片拼接复原模型与算法,并就附件5的碎片数据给出拼接复原结果,结果表达要求同上。
二、问题分析我们从附件中的碎片数据可知由于碎纸机产生的碎纸片边缘是规则的,此时碎纸片计算机拼接方法就不能利用碎片边缘的尖点特征、尖角特征、面积特征等基于边界几何特征的拼接方法,而要利用碎片内的字迹断线或碎片内的文字内容是否匹配搜索与之匹配的相邻碎纸片并进行拼接。
首先,我们对碎片内图像进行数据化处理,得到对应的像素值矩阵;然后,我们设置阈值对像素值矩阵进行二值化处理得到相应的数值矩阵;最后,由于曼哈顿距离公式计算快、数值小,数值矩阵与数值矩阵之间应用最小曼哈顿距离对碎纸片进行拼接复原。
问题一中碎纸机破碎纸片只有纵切,每页纸被切为19条碎片,经过处理可以得到19个数值矩阵。
对于每个数值矩阵,我们依次取出最左边一列从上至下各格的值组成一个向量,同样我们依次取出最右边一列从上至下各格的值组成一个向量。
计算出每一数值矩阵的左边向量与所有非同源数值矩阵的右边向量的曼哈顿距离,再将得到的距离值进行排序,当某个距离值最小时、说明相应的左边向量与右边向量的匹配率最大,则该距离对应的左、右边认为是可拼接的。
若得到的最小距离值不止一个,则此时需要进行人工干预。
问题二是对碎纸机既纵切又横切的情形进行讨论,比问题一多了横切条件,此时每页纸被切为209个碎片。
首先,我们利用文件最左边碎片与最上面碎片的特殊性对这209个碎片进行聚类,得到两类特殊的碎片,分别是文件最左边一列碎片和最上面一行碎片,然后类似于问题一的处理方法,应用最小曼哈顿距离对每一类碎片按正确顺序拼接,此后对其余碎片再应用最小曼哈顿距离逐一进行拼接,直至剩余所有的碎片都拼接上。
问题三中,题目要求考虑双面打印文件的碎纸拼接复原问题的解决方案,此时每页纸虽然也是被切为209个碎片,但每个碎片却有正反两面,因此经过处理得到418个数值矩阵,,此时我们分别对每一面各自进行类似问题一的处理,然后综合每一面的聚类情况再应用最小曼哈顿距离对双面碎纸片进行拼接复原。
三、模型假设1. 假设碎纸机破碎纸片(纵切或横切)得到的碎纸片是规则且边缘是整齐的等大的矩形;2.假设我们对文档碎纸片拼接复原不考虑碎片边缘的尖点特征、尖角特征、面积特征等基于边界几何特征;3.假设附件中给出的所有中、英文文件中的文字排版是按标准格式排版的。
4.假设附件中给出的所有中、英文字符都是统一格式,且内容为普通文章。
四、符号说明五、模型建立与求解5.1 问题一(曼哈顿距离)➢ 模型一的建立题目要求对于给定的来自同一页印刷文字文件的碎纸机破碎纸片(仅纵切)建立碎纸片拼接复原模型和算法,并且要对中、英文各一页文件的碎片数据分别进行拼接复原。
首先,我们利用数学软件MATLAB 软件将19条碎片数据化,得到19个像素值矩阵,像素值的变化范围是从0变化到255,此时我们设置127τ=为阈值对像素值矩阵进行二值化处理,当矩阵某位置像素值小于等于τ时,则将对应位置的数值设为0;当矩阵某位置像素值大于τ时,则将对应位置的数值设为127。
这样我们就得到19个二值化了的数值矩阵iA ,对于每个数值矩阵iA ,我们依次取出最左边一列从上至下各格的值组成一个向量,记为iX ,同样的我们依次取出最右边一列从上至下各格的值组成一个向量,记为i Y 。
计算出每一数值矩阵的左边向量与所有非同源数值矩阵的右边向量的曼哈顿距离(,)i j d X Y 。
➢ 模型一的求解对于得到的向量12(,,...,)(1,2,...,)Ti i i ik X x x x k m ==和向量12(,,...,)(1,2,...,)Ti i i ik Y y y y k n ==,两向量的曼哈顿距离为1(,)||(,1,2,...,)ni j ik jk k d X Y x y i j m i j ==-=≠∑且。
可求出附件1碎片与碎片之间的曼哈顿距离,如下表所示。
表1 附件1碎片与碎片间的曼哈顿距离从而可得到附件1碎片序号按复原后顺序如下表所示。
表2 附件1碎片序号复原后顺序附件1碎片复原图片如附录中图8.1所示。
同法可求出附件2碎片与碎片之间的曼哈顿距离,如下表所示。
表3 附件2碎片与碎片间的曼哈顿距离从而可得到附件2碎片序号按复原后顺序如下表所示。
表4 附件2碎片序号复原后顺序附件2碎片复原图片如附录中图8.2所示。
问题一人工干预情况如下表所示。
表5 问题一人工干预情况5.2 问题二(Manhattan 距离)➢ 模型二的建立在中文文件中,两个连续的汉字中间的空白间隔所占像素宽度与其左边或者右边的汉字所占像素宽度的比值最大的约为213,则对于每一行文字,碎纸机纵切未切到文字的概率为213,对于每两行文字碎纸机纵切未切到文字的概率为4169,而对于每三行文字碎纸机纵切未切到文字的概率更小,可以忽略不计,所以对于总共209个碎片,每个碎片上面的文字至少有两行(碎片上不完整的一行也算一行),所以出现某个碎片上面的文字完全没被碎纸机切割到(即文字完整无缺)的概率至多为4169,我们把这样的碎片称之为干扰碎片。
我们知道,整篇文件的最上面一行字的上边缘是空白的,我们可以利用此特殊性对209个碎纸片进行聚类,可以得到一个特殊的类,即碎纸片上边缘为空白的类,此类碎纸片个数大于等于11;出现个数大于11的情形即为混入上面提到的干扰碎片,此概率最大不超过4169,可知此类碎纸片应该拼接在文件最上面一行,应用最小曼哈顿距离对此类碎片按正确顺序拼接。
同理可聚类出另一个特殊的类,即碎纸片左边缘为空白、拼接在文件最左边一列的类,并且也应用最小曼哈顿距离对此类碎片按正确顺序拼接。
然后以此拼接好的第一行和第一列碎片为基准,再应用最小曼哈顿距离拼接其余剩下的碎片,最后拼接复原出原中文文件。
在英文文件中,一个英文单词中两个连续的英文字母中间的空白间隔所占像素宽度与其左边或者右边的英文字母所占像素宽度的比值最大的约为111,则对于每一行英文单词,碎纸机纵切未切到英文单词的概率为111,对于每两行英文单词碎纸机纵切未切到英文单词的概率为1121,而对于每三行英文单词碎纸机纵切未切到英文单词的概率为,然后同上述中文文件的分析过程可知,此时对拼接在文件最左边一列归类时混入上面提到的干扰碎片的概率最大不超过,最后拼接复原出原英文文件。
➢模型二的求解我们利用SPSS软件根据每个碎片顶部空白高度或者文字高度的不同,应用聚类分析方法将碎片聚成11类,结果如下图所示。
图1 根据碎片顶部文字高度聚类图2 根据碎片顶部空白高度聚类结合上面的聚类图,可得出附件3的乱序矩阵,如下表所示。
表6 附件3的乱序矩阵同样的方法可得出附件4的乱序矩阵,如下表所示。
表7 附件4的乱序矩阵然后我们先求出附件3碎片与碎片之间的曼哈顿距离,从而得到附件3碎片序号按复原后顺序如下表所示。
表8 附件3碎片序号复原后顺序附件3碎片复原图片如附录中图8.3所示。
同法我们再求出附件4碎片与碎片之间的曼哈顿距离,从而得到附件4碎片序号按复原后顺序如下表所示。
表9 附件4碎片序号复原后顺序附件4碎片复原图片如附录中图8.4所示。
问题二人工干预情况如下表所示。
5.3 问题三(曼哈顿距离)➢模型三的建立问题三在问题二的基础上继续加大碎片拼接复原难度,此时我们对双面碎纸片进行类似问题一的处理,得到418个数值矩阵,我们根据每个碎片顶部的空白高度或者文字高度对碎片进行区间分类,得到22组矩阵,再根据曼哈顿距离将得到的22组矩阵聚成两类,每类各包含某一面的11组矩阵,然后综合每一面的聚类情况再应用最小曼哈顿距离对双面碎纸片进行拼接复原。