2013全国数学建模竞赛B题优秀论文
高教社杯全国大学生数学建模竞赛B题论文

碎纸片的拼接复原摘要本文利用Manhattan距离,聚类分析,图像处理等方法解决了碎纸片的拼接复原问题。
由于碎纸机产生的碎纸片是边缘规则且等大的矩形,此时碎纸片拼接方法就不能利用碎片边缘的尖角特征等基于边界几何特征的拼接方法,而要利用碎片内的字迹断线或碎片内的文字位置搜索与之匹配的相邻碎纸片。
拼接碎片前利用数学软件MATLAB软件对碎片图像进行数据化处理,得到对应的像素矩阵,后设置阈值对像素矩阵进行二值化处理,得到相应的0-1矩阵。
下面分别对三个问题的解决方法和算法实现做简单的阐述:问题一,分别对附件1和附件2的碎片数据进行处理得到相应的0-1矩阵,依次计算某个0-1矩阵最右边一列组成向量与其他所有0-1矩阵的最左边向量的Manhattan距离,可以得到某个最小距离值、说明最小距离值对应的碎片是可与基准碎片拼接的,最终得到碎片拼接完整的图像。
问题二,同样对于附件3和附件4中的碎片数据进行处理得到相应的数值矩阵,并计算得到每个碎片顶部空白高度和文字高度,即指每行像素点都为255的行数、一行中存在像素点为非255的行数,根据空白高度和文字高度对碎片进行聚类分类,聚类阀值取3像素,得到11组像素矩阵,进而得到11类可能在同一行的碎片类。
其中对附件4中的英文的处理中,我们还采用水平像素投影累积的方法,进一步分类出可能在同一行的碎片类。
用问题一的方法,计算Manhattan 距离可以对每一类碎片按次序排列好,得到11行已经排列好的碎片,再应用曼哈顿距离在竖直方向上进行聚合得到完整的图像。
问题三,首先,对于附件5中的碎片数据我们采用正反相接,本文将b面最左边的一列像素拼接到a面最右边的一列像素的下面,构成360×1的向量,再把其他的碎片采用相同的办法得到360×1的向量,再用问题一的方法,计算出各碎片之间的Manhattan距离。
其次,根据每个碎片顶部的空白高度或者文字高度对碎片进行区间分类,得到22组矩阵,然后应用曼哈顿距离将得到的22组矩阵聚成两类,每类各包含两面的11组矩阵,最后利用Manhattan距离在竖直方向上进行聚合得到完整的图像。
2013年全国大学生数学建模竞赛B题全国一等奖论文

碎纸片的拼接复原【摘要】破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。
本文主要解决碎纸机切割后的碎纸片拼接复原问题。
针对第一问,附件1、2分别为沿纵向切割后的19张中英文碎纸片,本文在考虑破碎纸片携带信息量较大的基础上,利用MATLAB对附件1、2的碎纸片图像分别读入,以数字矩阵的方式进行存储。
利用数字矩阵中包含图像边缘灰度这一特征,本文采用贪心算法的思想,在首先确定原文件左右边界的基础上,以Manhattan距离来度量两两碎纸片边界差异度,利用计算机搜索依次从左往右搜寻最匹配的碎纸片进行横向配对并达成排序目的。
最终,本文在没有进行人工干预,成功地将附件1、2碎纸片分别拼接复原,得到复原图片见附录2.1、2.2,纵切中文及英文结果表分别如下:为先对本文3、第4行及第9Spearman拼接复原1. 对于给定的来自同一页印刷文字文件的碎纸机破碎纸片(仅纵切),建立碎纸片拼接复原模型和算法,并针对附件1、附件2给出的中、英文各一页文件的碎片数据进行拼接复原。
如果复原过程需要人工干预,请写出干预方式及干预的时间节点。
复原结果以图片形式及表格形式表达。
2. 对于碎纸机既纵切又横切的情形,请设计碎纸片拼接复原模型和算法,并针对附件3、附件4给出的中、英文各一页文件的碎片数据进行拼接复原。
如果复原过程需要人工干预,请写出干预方式及干预的时间节点。
复原结果表达要求同上。
3. 上述所给碎片数据均为单面打印文件,从现实情形出发,还可能有双面打印文件的碎纸片拼接复原问题需要解决。
附件5给出的是一页英文印刷文字双面打印文件的碎片数据。
请尝试设计相应的碎纸片拼接复原模型与算法,并就附件5的碎片数据给出拼接复原结果,结果表达要求同上。
二、模型假设1. 假设原题附件给出的破碎纸片图像是完好无损的。
2. 假设原题附件给出的破碎纸片仅包含纯文字内容(中英文),不含表格线等。
3. 假设原题附件给出的破碎纸片在切割时无油墨损失。
2013国赛优秀数模论文

车道被占用对城市道路通行能力的影响摘要本文主要研究交通事故占用车道对城市道路通行能力的影响.针对问题一,首先求出道路的基本通行能力,结合道路基本通行能力与定义的交通事故修正系数求得出事故发生后的实际通行能力.用SPSS软件采用Mann-Whitney U检验方法对事故发生前的实际通行能力值与事故发生后的实际通行能力值进行两独立样本检验,结果表明两者存在显著性差异.再作图观察实际通行能力值变化趋势,且对其分三个阶段进行描述,得到事故发生起伏期的实际通行能力变化很大,交通事故发生后实际通行能力在调整期相对稳定;稳定期曲线趋于平缓,实际通行能力基本稳定.针对问题二,由于在同一横断面发生的两次交通事故所占车道不同时,利用SPSS 软件对两起交通事故的实际通行能力值进行两配对样本检验,采用Wilcoxon配对秩检验方法得到:随时间的推移,两次事故发生后的实际通行能力的变化有显著性差异.然后计算两次事故稳定期车流量的比值为37%:63%,而右转与左转的流量比为38%:62%,说明左、右转流量的不同是造成两次交通事故对应的实际通行能力差异的直接原因.针对问题三,首先根据实际通行能力、上游车流量定义出拥堵系数;然后通过讨论拥堵系数与事故路段车辆排队长度之间的关系,确定了事故路段车辆排队长度与实际通行能力、事故持续时间以及上游车流量之间关系的积分模型;最后考虑到从视频中统计出的是离散型数据,因此将上述积分模型进行离散化处理,求出了事故发生后该路段部分时刻的排队长度的具体值,通过与视频中实际的排队长度进行比较,从而检验了模型的准确性.针对问题四,为了求出估算车队排队长度将到达上游路口的时间,建立了两个模型对其进行对比求解.从问题1得出的实际通行能力的数据可以拟合出其与时间的关系函数,进而得出不同时间段的实际通行能力值.模型A中,将上游车流量定为1500pcu/h,通过排队长度模型的求解得到排队长度达到140米时,持续时间为18min.模型B首先检验得到第一次交通事故发生后的上游车流量符合泊松分布.通过对实际情况的MATLAB实验仿真求出满足泊松分布的上游车流量在一小时内的随机分布数组,并将其代入排队长度模型进行求解,得到结果在1240s时,修正后的排队长度达到140米,即认为在事故持续时间20.5min左右时,车辆排队长度到达上游路口.通过对比得到,模型B较模型A更为贴近实际.关键词:两独立样本检验;Mann-Whitney U检验;Wilcoxon配对秩检验;拥堵系数;MATLAB仿真一、问题的重述车道被占用是指因交通事故、路边停车、占道施工等因素,导致车道或道路横断面通行能力在单位时间内降低的现象.由于城市道路具有交通流密度大、连续性强等特点,一条车道被占用,也可能降低路段所有车道的通行能力,即使时间短,也可能引起车辆排队,出现交通阻塞.如处理不当,甚至出现区域性拥堵.车道被占用的情况种类繁多、复杂,正确估算车道被占用对城市道路通行能力的影响程度,将为交通管理部门正确引导车辆行驶、审批占道施工、设计道路渠化方案、设置路边停车位和设置非港湾式公交车站等提供理论依据.视频1(附件1)和视频2(附件2)中的两个交通事故处于同一路段的同一横断面,且完全占用两条车道.请研究以下问题:1.根据视频1(附件1),描述视频中交通事故发生至撤离期间,事故所处横断面实际通行能力的变化过程.2.根据问题1所得结论,结合视频2(附件2),分析说明同一横断面交通事故所占车道不同对该横断面实际通行能力影响的差异.3.构建数学模型,分析视频1(附件1)中交通事故所影响的路段车辆排队长度与事故横断面实际通行能力、事故持续时间、路段上游车流量间的关系.4.假如视频1(附件1)中的交通事故所处横断面距离上游路口变为140米,路段下游方向需求不变,路段上游车流量为1500pcu/h,事故发生时车辆初始排队长度为零,且事故持续不撤离.请估算,从事故发生开始,经过多长时间,车辆排队长度将到达上游路口.二、问题的分析按照题目要求,本文主要研究因交通事故车道被占用对城市道路通行能力的影响.交通事故发生后,由于发生事故的车辆对自己所行驶车道造成堵塞,使得该横断面实际通行能力有很大变化;而对于不同交通事故发生后堵塞不同车道的情况,同一横断面交通事故所占车道不同,该横断面实际通行能力也会有差异;不同状况的交通事故所造成的道路堵塞,对路段车辆排队长度也有很大的影响.2.1问题一的分析问题一要求描述视频中交通事故发生至撤离期间,事故所处横断面实际通行能力的变化过程.通过对附件视频1的观察,交通事故发生后,两辆相撞的车在第一时间对自己所行驶车道(第二、三车道)造成堵塞(附件3中所标注右转车道为车道一,直行车道为车道二,左转车道为车道三),仅剩唯一的第一车道可以通行.这导致事故所处横断面的实际通行能力有很大的变化.根据题目提供的视频附件,提取相关数据.通过对视频中所提供数据进行分析,统计以10秒为组距驶入驶出固定路段的车辆数.根据统计得到的数据,求出事故发生前道路的实际通行能力,并以此作为基准.再拟定事故发生后所处横断面的实际通行能力指标,求出从交通事故发生至事故撤离整个期间内的实际通行能力值.分析比较事故发生前的实际通行能力与事故发生后的实际通行能力的差异,说明发生事故后对道路通行能力的影响.再对事故发生后的各个实际通行能力值作散点图,观察其变化趋势,分阶段描述发生交通事故的整个期间,事故所处横断面实际通行能力的变化.2.2问题二的分析对于问题二中所要求的,分析说明同一横断面交通事故所占车道不同对该横断面实际通行能力影响的差异.根据两段附件视频可知,第一次交通事故的发生造成第二、三车道被堵塞,只有第一车道可以通行;第二次交通事故的发生造成第一、二车道被堵塞,只有第三车道可以通行.根据题目的附件三可知,第一车道为右转车道,通行流量比例为21%,第三车道为左转车道,通行流量比例为35%,即两条车道的通行流量是有差异的,就有可能造成两起交通事故实际通行能力的差异.为比较所占车道不同对实际通行流量的影响,首先按第一问求实际通行能力的思路进行求解,得到各时间段车流量的实际通行能力.然后进一步分析自发生事故起,两起交通事故的实际通行能力随时间推移有无显著性差异.对于产生差异的原因,从各车道流量不同的角度出发,说明车流量对实际通行能力的影响.2.3问题三的分析问题三中要求构建数学模型分析交通事故所影响的路段车辆排队长度与事故横断面实际通行能力、事故持续时间、路段上游车流量间的关系.根据实际情况可知,当道路实际通行能力降低,而车流量较大时,道路车辆的排队现象越容易出现.车辆的排队长度与事故横断面实际通行能力、事故持续时间、路段上游车流量这三个变量均有很大关系.为研究该问题,建立用实际通行能力、上游车流量、事故持续时间表示排队长度的数学模型.事故发生后,道路横断面可供通车辆通行的车道减少,在很大程度上减弱了道路实际通行能力,使得车辆从路段上游驶入已知路段时的速度大于车辆驶出事故横断面的平均速度.当事故路段上游的车驶入该路段时发现路段内原有的车还没有驶离事故横断面,未驶出的车辆积少成多,就会导致该路段的拥堵.为此,定义一个拥堵系数来描述t时刻车辆进入拥堵队列的可能性大小.又由于本题道路的横断面有三条车道,且下游转道车流量的比例分别为21%,44%,35%,因此道路拥堵时,按照车流量比例最大的车道上的队列长度作为车辆排队长度计算,用微分确定单位时间内的车辆排队长度,最后建立积分模型得到排队长度的表达式,进行离散化处理,求出不同时间段的排队长度的具体值.2.4 问题四的分析问题四假设交通事故所处横断面距离上游路口变为140米,已知上游车流量和初始排队长度,要求估算车队排队长度将到达上游路口的时间.从问题1得出的实际通行能力的数据可以拟合出其与时间的关系函数,进而得出不同时间段的实际通行能力值.再分别建模模型A 、B 对此问题进行求解.模型A 中根据题意将上游车流量恒定为1500pcu/h ,再通过得到的实际通行能力值及排队长度进行求解.模型B 考虑到实际中路口上游车流量不可能在一小时内为一定值,分析在上游车流量为1500pcu/h 的情况下,车流量在一小时内连续的时间段内的车流量分布情况,所以先要得出在视频1中在交通事故发生后的上游车流量分布规律,进而求出1500pcu/h 的车流量在一小时的随机分布数组,并对实际情况的实验仿真.最后将各时间段实际通行能力值,上游车流量代入第三问模型的函数表达式中,得到各时间段的排队长度,计算第一次排队长度达到140米的时间.三、模型的假设1.假设题目中的发生的两个交通事故处于同一路段的同一横断面,且发生事故后完全占用两条车道;2.假设只考虑四轮及以上机动车、电瓶车的交通流量,且换算成标准车当量数;3.假设公交车及大巴车的的车长为标准小汽车车身长度的二倍;4.假设本文所研究的道路平坦,不考虑因发生交通事故的车辆造成道路堵塞以外的其它道路障碍.四、符号的说明1T :缺失数据的第一时间段;n T :缺失数据的第n 时间段 (42或 n );1N :驶入等待通行区域的车辆数;2N :驶出等待通行区域的车辆数;3N :标志性车辆前至事故发生地点的车辆数;4N :标志性车辆至等待通行区域的上游边界的车辆数;N : 缺失数据的补全值;11N :事故发生前驶入等待通行区域的车辆数;12N :事故发生前驶出等待通行区域的车辆数;13N :事故发生前等待通行区域内车辆数;11'N :事故发生前上一时间段驶入等待通行区域的车辆数;12'N :事故发生前上一时间段驶出等待通行区域的车辆数;13'N :事故发生前上一时间段等待通行区域内车辆数;21N :事故发生后驶入等待通行区域的车辆数;22N :事故发生后驶出等待通行区域的车辆数;N:事故发生后等待通行区域内车辆数;23'N:事故发生后上一时间段驶入等待通行区域的车辆数;21'N:事故发生后上一时间段驶出等待通行区域的车辆数;22'N:事故发生后上一时间段等待通行区域内车辆数;23U:正常通行时间内所处横断面的实际通行能力;1U:在交通事故影响下所处横断面的实际通行能力;2T:单位时间;hQ:基本通行能力;U:事故后实际通行能力;l:等待通行区域车辆排队长度;W:路段上游车流量;N:单位时间最大车流量;t:事故持续时间;:拥堵系数;v:汽车通过事故横断面的平均速度.五、模型的建立与求解5.1问题一:事故发生至撤离期间断面通行能力的变化问题一要求描述视频中交通事故发生至撤离期间,事故所处横断面实际通行能力的变化过程.针对此问题,具体求解分为以下三个步骤:Step1:根据统计得到的数据,求出事故发生前道路的实际通行能力;Step2:拟定事故发生后所处横断面实际通行能力指标,求出从交通事故发生至发生事故车辆撤离整个期间内的实际通行能力;Step3:分析比较以上两种情况的实际通行能力,并对其进行差异性检验;Step4:对事故发生后的实际通行能力值作图,通过适当的分析,分阶段描述在各不同阶段事故所处横断面实际通行能力的变化过程.5.1.1模型的准备1.通过视频统计数据为进行严谨详细的问题求解,首先从题目所给出的视频附件中统计详细数据.附件1中的视频记录了2013年2月28日16:38:39~17:03:50期间某路段的道路通行情况,视频共26分58秒,包括发生交通事故前的第一段正常通行时间,发生交通事故至撤离现场期间在事故影响下的实际通行时间,以及撤离后的第二段正常通行时间.第一段正常通行时间从16:38:39开始,大约持续了四分钟;发生交通事故至撤离现场时间为16:42:32~17:01:21,大约持续了19分钟.通过观察视频1中道路上车辆行驶的情况,将事故发生地点至其上游120米处划为等待通行区域的规定路段,由于统计每秒进出等待通行区域车辆数的过程时间太短,不利于统计数据,因此划定以10秒为统计时间间距,选定进出等待通行区域的参考系,根据城市道路工程设计规范内的车辆换算表,可知小汽车为1辆标准车辆,大客车换算为2辆标准车]1[.以此分别统计出每10秒驶入规定路段的车辆数及同时间段内驶出该规定路段的车辆数.2.缺失数据处理(1)由于视频1中事故发生后16:49:40~16:50:10与16:54:00~16:54:10两个时间段的影像被剪去,造成数据缺失.本文通过以标志性车辆为参考系,统计缺失数据的时间段中两个时间点1T 与n T 画面中出现的车辆数3N 与4N ,3N 为标志性车辆前至事故发生地点的车辆数,4N 为标志性车辆至等待通行区域的上游边界的车辆数. 其中1T 至n T 共经过了n 个时间间距.为补全数据,本文通过对统计的两时间点内的车辆数进行做差求平均值,得出缺失的数据均为均值N :n N N 34N -=. 补全数据结果如下:表1 补全数据表5.1.2模型的建立与求解道路通行能力是指道路上某一点某一车道或某一横断面处,单位时间内可能通过的最大交通实体(车辆或行人)数,用辆/h 或用辆/昼夜或辆/秒表示,车辆多指小汽车,当有其它车辆混入时,均采用等效通行能力的标准车辆(小汽车)为单位(pcu ). 影响道路通行能力的主要因素是道路条件、交通条件和交通外环境等.基本通行能力是指在理想的道路、交通、控制和环境条件下,理论上所能通行的最大小时交通量.实际通行能力是指在设计或评价某一具体路段时,根据该设施具体的公路几何构造、交通条件以及交通管理水平,按实际公路条件、交通条件等进行相应对基本通行能力进行修正后的小时交通量]1[.实际通行能力的计算是假定没有偶然事件发生的情况下进行的.实际交通系统中,路段可以服务的最大交通量除了受车道宽度、侧向净空等确定性因素以外,还受许多随机性因素影响,如交通事故,自然灾害、恶劣天气、道路维护等]2[.由于本文研究的对象是同一条道路,并且车道的宽度均为3.25m ,以及其他确定性因素均相同.由于研究的时间相差不大(26分钟),所以自然灾害、恶劣天气、道路维护等随机性因素均相同.因此,此路段的实际通行能力只受交通事故的影响.模型的具体建立求解过程如下:1.实际通行能力的确定实际通行能力是由道路的基本通行能力乘上若干个对其造成影响的修正系数而得到的,由于此路段的实际通行能力只受交通事故的影响,故设定交通事故修正系数来对发生交通事故后道路基本通行能力进行修正,修正后的基本通行能力即为发生交通事故后道路的实际通行能力.(1)确定交通事故修正系数f通过对视频1中事故发生至撤离的数据采集,得到了每10秒驶入等待通行区域的车辆数1N 以及驶出的车辆数2N 的数据,进而分别统计出进入等待通行区域的车流量与驶出等待通行区域的车流量.由统计结果可发现,当道路拥堵严重时,从上游路口进入该路段的车辆数会在很大程度上减少(初步分析出现这种状况的原因是由于红绿灯以及车主主观对道路的判断放弃从该路段上通行),而进出路段的车流量之比却很大,与实际通行能力相悖,因此无法直接用进出路段的车流量之比来表示事故发生后道路的实际通行能力.为此,结合道路实际情况以及上述统计结果,本文以每10秒内驶出等待通行区域的车辆数比上相同时间段等待通行区域内的车辆数来反映事故发生后的实际通行能力.处于等待通行区域的车辆越多,则实际通行能力越小,联系视频中出现的情形,当道路拥堵严重时,进入该路段的车辆数会减少,反映事故发生后的实际通行能力并不受进入车辆数的影响,而取决与等待的车辆数,因此此指标克服了上述矛盾的情况.交通事故前的第一段正常通行时间内的交通事故修正系数用1f 表示,驶入等待通行区域的车辆数为11N ,驶出此区域的车辆数为12N ,在区域内停留的车辆数为13N ,上一时间段的相应指标量分别表示为11'N ,12'N ,13'N ,定义1f 为:1312111213111'''N N N N N N f -+==; 设发生交通事故至撤离现场期间在事故影响下所处横断面的实际通行能力用2f 表示,驶入等待通行区域的车辆数为21N ,驶出的车辆数为22N ,在区域内停留的车辆数为23N ,上一时间段的相应指标量分别表示为21'N ,22'N ,23'N ,定义2f 为:2322212123212'''N N N N N N f -+==; 由于事故发生后某一时间段仍可能出现等待通行区域内的车辆数为0,即023=N .又因为22N 可能为0时,其交通事故修正系数求得为0,但事实上此处有两种可能:一是因为堵塞严重无车通过,交通事故修正系数为0;二是因为等待通行区域内无车通过,交通事故修正系数为1(表示正常通过),故产生歧义,所以采用加“1”的方法进行处理.采用加“1”法对实际通行能力影响较小,即23N 、22N 均加1后,再求两者之间的比仍可作为交通事故修正系数.因此本文采取加“1”法进行修正其交通事故系数,既消除歧义,又反映了实际通行能力.经过加“1”法修正后:事故发生前修正系数:1'''111'1312111213111+-++=++=N N N N N N f ; 事故发生后修正系数: 1'''111'2322212123212+-++=++=N N N N N N f . (2)确定基本通行能力Q由附件3图中可知,道路同一方向横断面上的三条车道,每条车道的宽度为固定的3.25m,根据查阅相关资料,宽度为3.25m 的车道最大通行速度为60km/h,当道路通行速度为60km/h 时,查表可知该段道路的一般基本通行能力为1800pcu/h ]3[.由于基本通行能力是指在理想状态下,理论上所能通行的最大小时交通量,为进一步确定已知道路基本通行能力,根据基本通行能力定义,道路基本通行能力为道路理想状态下单位时间h T 内,可能通过的最大车辆数N ,得到计算已知道路基本通行能力的公式:)/(h pcu T N Q h=; 设事故发生前没有任何堵塞的情况下道路为理想状态,且在此时间段内(不考虑堵车),通过该路段的车辆中,根据发生交通事故前道路上行驶的车流量统计数据,每10秒通过规定的120m 路程的车辆最大值为5辆,代入公式计算得:)(180********h / pcu ss pcu T N Q h===; (3)求解发生事故后实际通行能力U 根据相关资料]2[由基本通行能力与修正系数计算实际通行能力的关系公式为:f Q U ⨯=.2.事故发生前后实际通行能力的差异分析比较以上两组统计值,即未发生交通事故时的实际通行能力值和发生交通事故期间的道路实际通行能力值.由于视频所给出的两个时期时间长短不一致,故统计出的数值个数不同,并且我们对其总体分布不甚了解,两独立样本的非参数检验是在对总体的分布不了解的情况下,通过对独立样本的Mann-Whitney U 检验分析来推断样本来自的两个总体的分布等是否存在显著性差异的方法]4[.因此本文通过SPSS 采用两独立样本检验法来对这两组数据样本进行差异性检验(具体操作步骤及详细结果见附录1):表2 发生交通事故前后实际通行能力独立样本检验结果表检验统计量a实际通行能力Mann-Whitney U 344.500Wilcoxon W 7484.500Z -5.170渐近显著性(双侧) .000a. 分组变量: 是否发生车祸由上表知,采用Mann-Whitney U 检验,渐近显著性(双侧)值为0.000,小于0.01,因此拒绝原假设,认为发生车祸的前后的实际通行能力指标存在极显著差异.得出结论:由于突发的交通事故,对原来正常的道路通行能力有显著性影响,对比道路正常通行能力和事故期间的实际通行能力,可知交通事故的发生使得道路通行能力明显下降.3. 结果分析对事故发生后的实际通行能力值作图,并分阶段描述在各不同阶段事故所处横断面实际通行能力的变化过程.根据统计出的交通事故发生至事故撤离整个期间内的实际通行能力值,做出散点图如下:图1 第一起交通事故发生后实际通行能力变化图由图像观察可得,事故发生初期0~200秒的实际通行能力变化很大,定为交通事故发生后实际通行能力的起伏期;200~400秒相对稳定可设为交通事故发生后实际通行能力的调整期;400秒以后曲线趋于平缓,事故发生后的实际通行能力趋于稳定.对于事故发生初期实际通行能力起伏较大的原因,根据视频的显示,初步分析其原因为红绿灯的变化及上下班高峰期的影响,而对于后期实际通行能力趋于稳定的原因,是由于出现了交通堵塞,开始进行排队通过,且随着排队的车辆数目量增多,红绿灯对平稳期的通行影响逐渐较小.4.红绿灯的影响通过上诉的结果分析,可知红绿灯对实际通行能力有一定的影响,本文将以红绿灯的相位时间为统计时间间距对视频1中进出等待通行区域的车辆数进行统计.选定进出等待通行区域的参考系,以此分别统计出每30秒进入规定路段的车辆数及同时间段内驶出该规定路段的车辆数.将进入规定的等待通行区域对应的时间化为1,2,3, (26)做出实际通行能力与对应时间的关系图,如下:图2 实际通行能力与红绿灯对应时间的关系图通过对实际通行能力与对应时间的关系图的观察,可知在1~16的时间内,实际通行能力呈起伏状,红绿灯的相位周期为1分钟,整个阶段内红灯为峰值,绿灯为谷值.而在17~26的时间内,开始进行排队,实际通行能力趋于稳定,因此红绿灯对事故发生后前期有较显著变化,而对事故发生后末期并不影响.5.2问题二:交通事故所占车道不同对通行能力的影响问题二要求分析说明同一横断面交通事故所占车道不同对该横断面实际通行能力影响的差异.针对此问题,具体求解为以下三个步骤:Step1:拟定发生事故后事故所处横断面实际通行能力,求出从交通事故发生至事故撤离整个期间内的实际通行能力;Step2:对两次交通事故发生后,随时间的推移,对相同时段的道路实际通行能力值用SPSS软件两配对样本检验进行显著性差异分析;Step3:画图比较分析,说明两次交通事故发生所占车道不同对该横断面实际通行能力影响的差异.5.2.1模型的准备为对问题进行严谨详细的求解,首先从题目所给出的视频附件中统计详细数据.针对问题中所提出的对比两起事故在发生之后对道路实际通行能力的影响,我们仅对发生交通事故至撤离现场这一阶段进行数据统计.发生交通事故至撤离现场阶段的时间为。
2013全国大学生数学建模竞赛B题获奖论文(国二)

(论文纸质版与电子版中的以上信息必须一致,只是电子版中无需签名。以上内容 请仔细核对,提交后将不再允许做任何修改。如填写错误,论文可能被取消评奖资格。) 日期: 2013 年 9 月 16 日
赛区评阅编号(由赛区组委会评阅前进行编号):
2013 高教社杯全国大学生数学建模竞赛
编 号 专 用 页
赛区评阅编号(由赛区组委会评阅前进行编号):
赛区评阅记录(可供赛区评阅时使用): 评 阅 人 评 分 备 注
全国统一编号(由赛区组委会送交全国前编号):
全国评阅编号(由全国组委会评阅前进行编号):
关于碎纸片拼接问题的探讨
摘要
碎纸片的拼接在许多领域有重要应用, 由于传统的人工拼接方式效率低且精确度不 高,所以人们试图开发碎纸片的自动拼接技术,以提高拼接复原效率。本文通过建立数 学模型针对不同拼接情况提出具体解决方案。 对于问题一,由于贪婪算法有局部最优带来整体最优的特点,所以本文建立基于贪 婪算法的纵切碎纸片拼接优化模型Ⅰ。首先,将图像信息用像素矩阵 A 表示,将图片的 拼接问题转化为图片边缘像素列的匹配问题。其次,由于拼接方案与图片的排列位置有 关, 所以选取 0-1 变量 xij 为决策变量; 选取拼接缝上各点像素之差的和最小为目标函数; 由于英文字母等图像信息在拼接缝处不对称, 故在目标一的基础上选取拼接缝上各点与 相邻上下两点的像素之差的和最小为目标函数二; 以图片边缘必须含有字迹信息为约束 条件,以此建立纵切优化模型Ⅰ。然后,基于贪婪算法的准则选取边缘信息量最大的图 片为基准对其左右进行拼接,再以新拼接的图片为基准重复上述操作。最后,可得中英 文拼接完整图且无需人工干预; 若图片边缘信息均为空白则要等到其他图片拼接完成后 再在剩下的空缺处填补此类图片。结果表明,可以完成对碎纸片的准确拼接。 对于问题二,选取文字特征如下:汉字的字高以及字宽是确定的,在拼接时通过记 录边缘像素列宽度以判断拼接后是否满足字高字宽的约束,而英文字母的高度不一致, 但通过像素列可知同行字母的中心点位于同一直线上, 故可利用拼接后字母中心点是否 共线判断能否拼接。在求解过程中采用降维的思想,建立基于 3 个子模型的纵横切拼接 优化模型Ⅱ。第一步,对图片按横切行分类,选取纸片第 1 行中首次出现字迹的上下端 位置 xi1、xi2 为决策变量;选取不同纸片间(xi1-xj1)与(xi2-xj2)的和最小为目标函数;以拼接 后字高 s 为约束条件,建立子模型 a。第二步,对每行中纸片进行行内拼接,继承模型 Ⅰ中的思想,新增字宽、字间距及行间距等条件的约束,建立子模型 b。第三步,拼接 m 行纸片构成完整图像,同样利用模型Ⅰ中思想,新增字高、页边距等限制,建立子模 型 c。对于拼接过程中出现的边缘无字迹信息以及不符合文字特征的情况,对其进行人 工拼接。在验证过程中,由于英文字母高度不一致但字母中心点位置固定,故通过设定 字母中心点位置的阈值来判断图片隶属的行数。经验证,中文拼接共需要 14 次人工干 预,英文拼接需要 24 次人工干预。 对于问题三,要拼接双面纵横切的 m×n 的碎纸片,二维拼接问题升级为三维,同 样采用降维的思想,建立基于 3 个子模型的纵横切双面拼接优化模型Ⅲ。第一步,将同 张图片的正反面组合成一幅图像,由于打印的字号以及行间距是确定的,所以一张图片 正反面首行文字中心点距离页面顶端的距离之差随之固定,且能够反映图片的特征, 故 选取图片正反面首行的字中心点距离页面顶端的距离 xi1 和 xi2 为决策变量;选取同一横 切行中各图片 xi1 − xi 2 的差值之和最小为目标函数; 对于每一行中 xi1 − xi 2 要满足设定的 阈值限制,以此建立子模型(1)。第二步,将处于同一横切行中的组合图片重新拆分, 依 据问题二中模型 b 中的方法进行行内拼接。第三步,依据问题二中的模型 c 中的方法进 行行间拼接。最后,利用所给图片进行验证可得完整图像。其中, 124b 和 015a 两张图 片拼接处出现异常。 最后,本文对所建模型进行了客观的评价,并结合实际对模型的推广加以分析。
全国大学生数学建模竞赛b题全国优秀论文

基于打车软件的出租车供求匹配度模型研究与分析摘要目前城市“出行难”、“打车难”的社会难题导致越来越多的线上打车软件出现在市场上。
“打车难”已成为社会热点。
以此为背景,本文将要解决分析的三个问题应运而生。
本文运用主成分分析、定性分析等分析方法以及部分经济学理论成功解决了这三个问题,得到了不同时空下衡量出租车资源供求匹配程度的指标与模型以及一个合适的补贴方案政策,并对现有的各公司出租车补贴政策进行了分析。
针对问题一,根据各大城市的宏观出租车数据,绘制柱形图进行重点数据的对比分析,首先确定适合进行分析研究的城市。
之后,根据该市不同地区、时间段的不同特点选择多个数据样本区,以数据样本区作为研究对象,进行多种数据(包括出租车分布、出租车需求量等)的采集整理。
接着,通过主成分分析法确定模型的目标函数、约束条件等。
最后运用spss软件工具对数据进行计算,求出匹配程度函数F与指标的关系式,并对结果进行分析。
针对问题二,在各公司出租车补贴政策部分已知的情况下,综合考虑出租车司机以及顾客两个方面的利益,分别就理想情况与实际情况进行全方位的分析。
在问题一的模型与数据结果基础上,首先分别从给司机和乘客补贴两个角度定性分析了补贴的效果。
重点就给司机进行补贴的方式进行讨论,定量分析了目前补贴方案的效果,得出了如果统一给每次成功的打车给予相同的补贴无法改善打车难易程度的结论,并对第三问模型的设计提供了启示,即需要对具有不同打车难易程度和需求量的区域采取分级的补贴政策。
针对问题三,在问题二的基础上我们设计了一种根据不同区域打车难易程度和需求量来确定补贴等级的方法。
设计了相应的量化指标,以极大化各区域打车难易程度降低的幅度之和作为目标,建立该问题的规划模型。
目的是通过优化求解该模型,使得通过求得的优化补贴方案,能够优化调度出租车资源,使得打车难区域得到缓解。
通过设计启发式原则和计算机模拟的方法进行求解,并以具体案例分析得到,本文方法相对统一的补贴方案而言的确可以一定程度缓解打车难的程度。
2013全国数学建模竞赛B题优秀论文.

基于最小二乘法的碎纸片拼接复原数学模型摘要首先对图片进行灰度化处理,然后转化为0-1二值矩阵,利用矩阵行(列)偏差函数,建立了基于最小二乘法的碎纸片拼接数学模型,并利用模型对图片进行拼接复原。
针对问题一,当两个数字矩阵列向量的偏差函数最小时,对应两张图片可以左右拼接。
经计算,得到附件1的拼接结果为:08,14,12,15,03,10,02,16,01,04,05,09,13,18,11,07,17,00,06。
附件2的拼接结果为:03,06,02,07,15,18,11,00,05,01,09,13,10,08,12,14,17,16,04。
针对问题二,首先根据每张纸片内容的不同特性,对图片进行聚类分析,将209张图片分为11类;对于每一类图片,按照问题一的模型与算法,即列偏差函数最小则进行左右拼接,对于没有拼接到组合里的碎纸片进行人工干预,我们得到了11组碎纸片拼接而成的图片;对于拼接好的11张图片,按照问题一的模型与算法,即行偏差函数最小则进行上下拼接,对于没有拼接到组合里的碎纸片进行人工干预。
我们最终经计算,附件3的拼接结果见表9,附件4的拼接结果见表10。
针对问题三,由于图片区分正反两面,在问题二的基础上,增加图片从下到上的裁截距信息,然后进行两次聚类,从而将所有图片进行分类,利用计算机自动拼接与人工干预相结合,对所有图片进行拼接复原。
经计算,附件5的拼接结果见表14和表15该模型的优点是将图片分为具体的几类,大大的减少了工作量,缺点是针对英文文章的误差比较大。
关键字:灰度处理,图像二值化,最小二乘法,聚类分析,碎纸片拼接一、问题重述碎纸片的拼接复原技术在司法鉴定、历史文献修复与研究、军事情报获取以及故障分析等领域都有着广泛的应用。
近年来,随着德国“斯塔西”文件的恢复工程的公布,碎纸文件复原技术的研究引起了人们的广泛关注。
传统上,拼接复原工作需由人工完成,准确率较高,但效率很低。
特别是当碎片数量巨大,人工拼接很难在短时间内完成任务。
(完整word版)2013年数学建模b题

精心整理碎纸片的拼接复原【摘要】:碎纸片拼接技术是数字图像处理领域的一个重要研究方向,把计算机视觉和程序识别应用于碎纸片的复原,在考古、司法、古生物学等方面具有广泛的应用,具有重要的现实意义。
本文主要结合各种实际应用背景,针对碎纸机绞碎的碎纸片,基于计算机辅助对碎纸片进行自动拼接复原研究。
针对问题1,依据图像预处理理论,通过matlab程序处理图像,将图像转化成适合于计算机处理的数字图像,进行灰度分析,提取灰度矩阵。
对于仅纵切的碎纸片,根据矩阵的行提取理论,将。
建中的任一列与矩阵值,序列号。
将程序进行循环操作,得到最终的碎片自动拼接结果。
、;分别作为新生成的矩阵、。
,将矩阵中的任一列分别与矩阵中每一列代入模型,所得p值对应的值即为横排序;将矩阵中的任一行分别于矩阵中的任一行代入模型,所得q值对应的值即为列排序。
循环进行此程序,得计算机的最终运行结果。
所得结果有少许误差,需人工调制,更正排列顺序,得最终拼接结果。
针对问题3,基于碎纸片的文字行列特征,采用遗传算法,将所有的可能性拼接进行比较,进行择优性选择。
反面的排序结果用于对正面排序的检验,发现结果有误差,此时,进行人工干预,调换碎纸片的排序。
【关键词】:灰度矩阵欧式距离图像匹配自动拼接人工干预一、问题重述破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。
传统上,大量的纸质物证复原工作都是以人工的方式完成的,准确率较高,但效率很低。
特别是当碎片数量巨大,人工拼接不但耗费大量的人力、物力,而且还可能对物证造成一定的损坏。
随着计算机技术的发展,人们试图把计算机视觉和模式识别应用于碎纸片复原,开展对碎纸片自动拼接技术的研究,以提高拼接复原效率。
试讨论一下问题,并根据题目要求建立相应的模型和算法:、附件4(1)(2)(3)(4)纸片的自动拼接。
问题1:根据图像预处理理论,通过程序语言将图像导入matlab程序,对图像进行预处理,将碎纸片转换成适合于计算机处理的数字图像形式,并对数字图像进行灰度分析,提取灰度矩阵。
2013年深圳数学建模B题:深圳关内外交通拥堵探究与治理

TCI netword AinΒιβλιοθήκη VHTi qiVi
Li
VHTlinkK
MSC
ASC
VHT
VMT
五、模型建立
5.1 问题一 交通需求是指出于各种目的的人和物在社会公共空间中以各种方式进行的 空间移动(即交通)的需求,它具有需求时间和空间的不均匀性、需求目的的差 异性等特征。伴随着城市居住人口的增长和经济的迅速发展, 人们对出行质量的 要求也逐渐提高。城市机动车保有量持续攀升,居民出行机动化水平升高,交通
四、符号说明
TCI day
TCI
TCI road
时间段 i 时的感观判断值 交通拥堵指数 道路的该天的交通拥堵指数 整体交通拥堵指数 该路段的车道数 道路的时间段数 统计路段内时间 i 段的车辆行驶时间 统计时段 i 内的平均交通量 路段 i 上车辆的行驶速度 这段道路长度 该等级道路中路段 i 的车辆行驶时间 边际社会成本 平均社会成本 车辆行驶时间 车辆行驶里程
三、问题假设
假设 1:车辆在经过某段道路的时候所走的路程是一定的,转向另外一个路 口所用时间相同; 假设 2: 附录给出的数据可以代表深圳各关口整体交通数据且数据真实有效; 假设 3:车辆在行驶过程中交通灯转换时间忽略不计; 假设 4:排除交通事故发生、自然灾害、恶劣天气、阻塞发生时车辆状态等 的影响; 假设 5:仅考虑深圳关口类外机动车辆,忽略其他影响不大的交通工具的影 响。
一、问题重述
交通拥堵是目前中国各大城市面临的共同难题,但拥堵的成因各不相同,因 而需要在摸清规律的基础上有针对性地提出解决方案。由于历史的原因, 深圳由 关内关外两个区域组成。关外由宝安、龙岗两个行政区和光明新区、龙华新区、 坪山新区、大鹏新区四个功能区组成;关内含罗湖、福田、南山、盐田四个行政 区。关外与关内由自然山丘隔开,沟通关内外的主要通道有宝安大道 / 新安 (22.548005,113.902194 ) 、107 国道南头(22.552058,113.910531) 、同安路荔
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于最小二乘法的碎纸片拼接复原数学模型摘要首先对图片进行灰度化处理,然后转化为0-1二值矩阵,利用矩阵行(列)偏差函数,建立了基于最小二乘法的碎纸片拼接数学模型,并利用模型对图片进行拼接复原。
针对问题一,当两个数字矩阵列向量的偏差函数最小时,对应两张图片可以左右拼接。
经计算,得到附件1的拼接结果为:08,14,12,15,03,10,02,16,01,04,05,09,13,18,11,07,17,00,06。
附件2的拼接结果为:03,06,02,07,15,18,11,00,05,01,09,13,10,08,12,14,17,16,04。
针对问题二,首先根据每张纸片内容的不同特性,对图片进行聚类分析,将209张图片分为11类;对于每一类图片,按照问题一的模型与算法,即列偏差函数最小则进行左右拼接,对于没有拼接到组合里的碎纸片进行人工干预,我们得到了11组碎纸片拼接而成的图片;对于拼接好的11张图片,按照问题一的模型与算法,即行偏差函数最小则进行上下拼接,对于没有拼接到组合里的碎纸片进行人工干预。
我们最终经计算,附件3的拼接结果见表9,附件4的拼接结果见表10。
针对问题三,由于图片区分正反两面,在问题二的基础上,增加图片从下到上的裁截距信息,然后进行两次聚类,从而将所有图片进行分类,利用计算机自动拼接与人工干预相结合,对所有图片进行拼接复原。
经计算,附件5的拼接结果见表14和表15该模型的优点是将图片分为具体的几类,大大的减少了工作量,缺点是针对英文文章的误差比较大。
关键字:灰度处理,图像二值化,最小二乘法,聚类分析,碎纸片拼接一、问题重述碎纸片的拼接复原技术在司法鉴定、历史文献修复与研究、军事情报获取以及故障分析等领域都有着广泛的应用。
近年来,随着德国“斯塔西”文件的恢复工程的公布,碎纸文件复原技术的研究引起了人们的广泛关注。
传统上,拼接复原工作需由人工完成,准确率较高,但效率很低。
特别是当碎片数量巨大,人工拼接很难在短时间内完成任务。
随着计算机技术的发展,人们试图开发碎纸片的自动拼接技术,以提高拼接复原效率。
对于一页印刷文档,针对不同的破碎方法,讨论下列三个问题:(1)将给定的一页印刷文字文件纵切,建立碎纸片拼接复原模型和算法,并针对附件1、附件2给出的中、英文各一页文件的碎片数据进行拼接复原。
(2)对于碎纸机既纵切又横切的情形,设计碎纸片拼接复原模型和算法,并针对附件3、附件4给出的中、英文各一页文件的碎片数据进行拼接复原。
(3)对于双面打印文档,研究如何进行碎纸片的拼接复原问题。
附件5给出的是一页英文印刷文字双面打印文件的碎片数据。
要求尝试设计相应的碎纸片拼接复原模型与算法,并就附件5的碎片数据给出拼接复原结果。
二、模型的基本假设(1)待拼接的碎纸片来自同一页印刷文字文件。
(2)待拼接复原的碎纸片是规整的矩形。
(3)模型中的碎纸片长度、宽度和面积都相等。
(4)附件中照片都是同标准拍摄。
三、符号说明,209)=1,2,,209),209)=1,2,,209)=1,2,,209)四、问题分析将不规则的文档碎纸片进行拼接,一般是利用碎纸片的边缘曲线,尖点、尖角、面积等几何特征,搜索与之匹配的相邻碎纸片。
但对于边缘形状相似的碎纸片,这种基于边界几何特征的拼接方法失效,拼接时不但要考虑待拼接碎纸片边缘是否匹配,还要判断碎片内的字迹断线或碎片内的文字内容是否匹配。
本问题给定的碎纸片有以下几个特点:1、每一张碎纸片都是规整的矩形;2、所有的碎纸片的长度、宽度都相等,形状是完全一样的;3、每一张碎纸片里都包含着文字(汉字、英文),不存在空白的碎纸片;4、不同的碎纸片之间没有重叠部分。
由于碎纸片的形状相同,因而不能针对碎纸片的几何特征建立数学模型;碎纸片间无重叠,也不能利用图像融合技术进行图像配准。
根据上述分析,我们考虑将图片进行数字化处理,根据每张碎纸片上的边缘文字特征进行匹配,也就是利用图片边缘文字的像素进行最优化匹配。
五、模型的建立与求解5.1问题一的建模与算法由于碎纸片本身不具有体现其拼接特性的数字特征,我们需要将其数字化、矩阵化,将问题转化为矩阵之间的相关性。
利用photoshop软件,将附件中所给的BMP格式的图片转化成JPG格式,去除图片的多彩性。
为了对碎纸片进行数字化,我们将图像进行灰度处理,取出图像中每一个像素点的灰度值,灰度值的大小与像素点颜色的红绿蓝成分有关。
根据文献[1],每个像素点的=0.30+0.59+0.11⨯⨯⨯灰度值红色绿色蓝色,即=⨯+⨯+⨯,Gray r g b0.300.590.11其中,,,r g b的取值范围是0~255。
问题一将同一页印刷文字文件纵切为19张图片(见图1),根据实际情况,我们将每张图片设置为198072⨯的灰度矩阵。
⨯格式,于是,每张图片对应一个198072图1 附件1未进行拼接的19张碎纸片将图片进行灰度处理以后,每个像素的灰度值介于0~255之间。
灰度值不能直接用于文字图片的拼接,还须进行二值化处理。
将图片放入直角坐标系,规定:若(,)x y 点的像素灰度值大于或等于T ,该点用数值1表示,并将其设定为白色;若(,)x y 点的像素灰度值小于T ,该点用数值0表示,并将其设定为黑色。
由此得到像素点的二值化函数:1,(,),(,)0,(,),Gray x y T w x y Gray x y T >⎧=⎨<⎩其中,T 为预先设定的全局灰度阈值。
于是,每张图片的灰度矩阵转化为下列198072⨯的0,1数字矩阵:1117219801198072a a A a a ⨯⨯⨯⎛⎫⎪=⎪ ⎪⎝⎭,其中1, 1,0, 0.ij a ⎧=⎨⎩代表空白的像素点代表有文字的像素点5.1.3最小二乘法1、图片左右拼接的数学模型设,AB 分别表示左右放置的两张图片对应的数字矩阵,定义前一个矩阵的最后一列与后一个矩阵的第一列之间的偏差函数为:1(,)i f A B ==其中,(,72),(,1)A i B i 分别表示矩阵,A B 第72列和第1列的元素。
对于给定的矩阵A ,若存在矩阵B ,使得A 与B 之间的偏差函数(,)f A B 达到最小,则称A 与B 可以匹配,此时A 与B 对应的图片可以左右拼接。
2、图片上下拼接的数学模型类似地,设,C D 分别表示上下放置的两张图片对应的数字矩阵,定义上面矩阵的最后一行与下面矩阵的第一行之间的偏差函数为:721(,)j h C D ==其中,(1980,),(1,)C j D j 分别表示矩阵,C D 第1980行和第1行的元素。
对于给定的矩阵C ,若存在矩阵D ,使得C 与D 之间的偏差函数(,)h C D 达到最小,则称C 与D 可以匹配,此时C 与D 对应的图片可以上下拼接。
我们称上述基于数字矩阵之间列(或行)距离的图片拼接模型为最小二乘法拼接复原模型。
5.1.4算法与求解(一)算法思想第一步,对附件中的19幅图片分别进行灰度处理,然后取灰度阈值125T =,进行二值化,得到19个0,1数字矩阵,即图片的数字化。
第二步,对上述19个数字矩阵进行检测,若存在一个矩阵的最左侧一列元素全是1,根据破碎图片的特点,则该图片即为从左边起第一张碎纸片,记为1A 。
第三步,计算1A 与其余18张图片对应矩阵的列偏差值。
198011(,)i f A B ==∑若存在2A ,使得12(,)f A A 达到最小,则2A 即位第二张图片。
重复上述的步骤,依次得到所有碎纸片的排列,即可拼接成完整图片。
(二)附件1、2的拼接复原结果 附件1和附件2的拼接顺序如下表:(附件1的算法程序见附录一,复原图片见附录二;附件2的算法程序见附录三,复原图片见附录四)表2 附件1拼接顺序表3 附件2拼接顺序5.2问题二的模型建立与算法 5.2.1图片的数字化处理步骤一:将附件所给的BMP 格式图片转换成JPG 格式的图片; 步骤二:对图片进行灰度处理; 步骤三:然后进行二值化处理;最后,得到209张图片的数字化矩阵。
5.2.2聚类分析对于碎纸机既纵切又横切的情形,与问题一仅纵切相比,图片变小,因而每张图片包含的信息量明显变小,如果仅利用最小二乘法,碎片之间的匹配不唯一。
为了解决这个问题,我们利用聚类分析法,对碎片先进行分类。
经观察测试,原始文档碎片具有下列特点:(1)字体大小:字体的最大高度和最大宽度一致。
(2)切割的均匀性:同方向的切割线平行,图片大小均相等,沿纵横方向按直线切割。
(3)文字的行距:文字的行间距等同,段落间距为定值。
为了对209幅图片进行聚类分析,如图2所示,我们定义聚类指标如下:i a 表示图片上端裁接处的字体长度,我们称之为裁截文字长度; i b 为行间距;ic 表示图片上端文字与切割线之间的空白距离,我们称之为裁截空白距离;id 为字体高度,其中,=1,2,,209i 。
图2 图片聚类指标示意图令i i i D a b =+或i i i D c d =+,称i D 为第i 张图片的裁截距(=1,2,,209)i ,由图2,如1212,a a b b ≠=,则12D D ≠。
一般地,图片从上往下看,不同的裁截线形成的裁截文字长度不同,文字间的行间距相同,所以,如果裁接处的文字长度不相等,那么文字与空白间距之和就不相等。
根据i D 的不同取值,下面对图片进行分类。
根据二值化矩阵的特点以及文字的特征,只要存在文字,则矩阵的某一行元素一定存在0元素,且在文字之间的元素为1。
如下图所示:图3 文字特征图利用matlab 软件进行编程,将每个图片的裁截文字长度、行间距、裁截空白距离、字体高度以及裁截距的结果以excel 的形式输出到表格之中。
(程序见附录五)按裁接距进行聚类分析,使用spss 软件分析处理后,得到聚类中心分布图如下所示:所示:根据聚类结果发现,并不能将图片平均分成11个组。
这时需要增加信息量来更好地进行分类,进一步观察图2,我们可以发现:图片的上端裁截处可能是文字,也可能D可能相等,此时通过图片上端裁截处是空白还是文字加以人工分为空白。
但是裁截距i类。
用matlab将数据导出到excel中并进行分析,结果如下:Array图4 分析结果由图4可以看出:图片大体分为11个组别,为了得到更精确地聚类结果,通过spss 软件,我们再次确立聚类中心如下图所示:通过上面两次聚类,确立了两个不同聚类中心。
利用第一次确立的裁接距的聚类中心对图片进行初步分类,然后利用裁截文字或者裁接空白再次进行判别,最终将图片分成了11组。
如下表所示:(以上的算法都是在matlab软件下操作,程序见附件六)由上表可以看出大部分图片已经分出组别,其中有4个组达到了19张图片,有6个组有18张图片,仅缺少一张图片。