一种适用于智能手机端试卷评阅的图像识别算法

合集下载

一种适用于移动设备在线阅卷的答题卡自动识别算法

收稿日期：２０１８０４０３；修回日期：２０１８０４２４。基金项目：四川省教育厅科技成果转化重大培育项目（１４ｚｄ１１０２）；西南科技大学龙山学术人才科研支持计划（１７ＬＺＸ４２５）；西南科技大学研究生创新基金（１７ｙｃｘ０５３）。作者简介：孙琳（１９９５），女，四川广安人，硕士研究生，主要从事机器视觉与高精密测量技术研究工作方向的研究。陈念年（１９７７），男，硕士，副教授，硕士研究生导师，主要从事机器视觉高精密测量、图像处理方向的研究。
犃犫狊狋狉犪犮狋：Ｔｈｅｍａｒｋｉｎｇｍｅｔｈｏｄｂａｓｅｄｏｎｉｎｔｅｌｌｉｇｅｎｔｍｏｂｉｌｅｄｅｖｉｃｅｃａｎｗｏｒｋｆａｓｔｗｉｔｈｏｕｔｓｐｅｃｉａｌｅｑｕｉｐｍｅｎｔ，ｒｅｄｕｃｅｃｏｓｔｓａｎｄｉｎｃｒｅａｓｅｔｈｅｍｏｂｉｌｉｔｙｏｆｍａｒｋｉｎｇｗｏｒｋ．Ｔｏｓｏｌｖｅｔｈｅｐｒｏｂｌｅｍｗｈｅｎｕｓｉｎｇａｍｏｂｉｌｅｄｅｖｉｃｅｆｏｒｍａｒｋｉｎｇ，ｓｕｃｈａｓｓｈａｄｏｗｓ，ｒｅｆｌｅｃｔｉｏｎｓ，ｔｉｌｔｅｄ－４５°ｔｏ４５°ａｎｄｓｏｏｎ，ｔｈｉｓａｒｔｉｃｌｅｄｅｓｉｇｎｅｄａｎｄｉｍｐｌｅｍｅｎｔｅｄａｓｅｔｏｆｓｈｅｅｔａｕｔｏｍａｔｉｃｉｄｅｎｔｉｆｉｃａｔｉｏｎａｌｇｏｒｉｔｈｍ．Ｔｈｅａｌｇｏｒｉｔｈｍｉｓｍａｉｎｌｙｄｉｖｉｄｅｄｉｎｔｏｔｈｒｅｅｐａｒｔｓ：ｉｍａｇｅｐｒｅｐｒｏｃｅｓｓｉｎｇ，ｉｄｅｎｔｉｆｙｒｅｇｉｏｎａｌｏｒｉｅｎｔａｔｉｏｎａｎｄｓｅｇｍｅｎｔａｔｉｏｎ，ｓｈｅｅｔｃｏｎｔｅｎｔｒｅｃｏｇｎｉｔｉｏｎ．Ｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｉｎｄｉｆｆｅｒｅｎｔｏｐｅｒａｔｉｎｇｓｙｓｔｅｍｓ（ＰＣ，Ａｎｄｒｏｉｄ，ＩＯＳ）：ｔｈｅｒｅｃｏｇｎｉｔｉｏｎｒａｔｅｏｆｔｈｅａｌｇｏｒｉｔｈｍｉｓ１００％，ａｎｄｔｈｅｄｅｔｅｃｔｉｏｎｒａｔｅｏｆａｂｎｏｒｍａｌｆｉｌｌｉｎｇｉｓ９３．６％；ｔｈｅｒｅｃｏｇｎｉｔｉｏｎｓｐｅｅｄｉｓｌｅｓｓｔｈａｎ２ｓ，ｓａｔｉｓｆｙｉｎｇｔｈｅｒｅａｌ－ｔｉｍｅｒｅｑｕｉｒｅｍｅｎｔ；ｉｔｃａｎｂｅｃｏｍｐｉｌｅｄａｎｄｒｕｎｕｎｄｅｒｄｉｆｆｅｒｅｎｔｏｐｅｒａｔｉｎｇｓｙｓｔｅｍｓｗｉｔｈｏｕｔｍｏｄｉｆｉｃａｔｉｏｎ，ｔｈｕｓｉｍｐｒｏｖｉｎｇｔｈｅｕｎｉｖｅｒｓａｌｉｔｙａｎｄｃｏｍｐａｔｉｂｉｌｉｔｙｏｆｔｈｅｐｒｏｇｒａｍ．Ａｔｐｒｅｓｅｎｔ，ｔｈｉｓａｌｇｏｒｉｔｈｍｈａｓｂｅｅｎｓｕｃｃｅｓｓｆｕｌｌｙａｐｐｌｉｅｄｔｏａｅｄｕｃａｔｉｏｎｅｎｔｅｒｐｒｉｓｅｏｎ－ｌｉｎｅＡＰＰ．

一种无需答题卡的试卷自动阅卷处理方法及系统[发明专利]

(10)申请公布号 (43)申请公布日 2014.11.12C N 104143094A (21)申请号 201410321944.9(22)申请日 2014.07.08G06K 9/20(2006.01)G06K 9/62(2006.01)(71)申请人北京彩云动力教育科技有限公司地址100000 北京市海淀区上地信息路2号1号楼24层24D(72)发明人陈炽昌莫剑斌崔勇阚长鑫吴金龙(74)专利代理机构深圳市君胜知识产权代理事务所 44268代理人王永文刘文求(54)发明名称一种无需答题卡的试卷自动阅卷处理方法及系统(57)摘要本发明提供的一种无需答题卡的试卷自动阅卷处理方法及系统，通过使用图像模糊识别的方法首先对扫描到的试卷图像进行定位，然后从定位完成的试卷图像中识别出已作答试卷上的客观题区域和主观题区域，利用手写体数字或字母的识别技术对客观题区域的答案和手写学号的识别进行自动阅卷，并将主观题区域的图像上传到服务器进行网上阅卷。

本发明提供的方法及系统，无需采用答题卡，在进行考试时，考生可以直接在试卷上答题，不仅减少学校纸张的浪费、节约了学校制作答题卡的时间，同时由于考生无需填涂答题卡，因此也节约了考生的答题时间，为大型考试提供了方便。

(51)Int.Cl.权利要求书2页说明书5页附图1页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书2页说明书5页附图1页(10)申请公布号CN 104143094 A1.一种无需答题卡的试卷自动阅卷处理方法，其特征在于，包括：A、扫描未作答试卷，获取未作答试卷上客观题和主观题对应区域的数据信息，并将所述数据信息存储在模糊分类器中；B、扫描已作答试卷，以存储在模糊分类器中的所述数据信息识别出已作答试卷上的客观题和主观题的区域；C、使用手写体数字或字母识别技术识别出已作答试卷上客观题区域对应图像中包含的答卷信息，将答卷信息与预先存储的正确答案信息进行比对，输出比对结果，并将主观题区域所对应的图像上传到服务器进行网上阅卷。

基于智能手机的试卷分数统计系统及其使用方法[发明专利]

专利名称：基于智能手机的试卷分数统计系统及其使用方法专利类型：发明专利
发明人：曾宪文,曹伟
申请号：CN201910289387.X
申请日：20190411
公开号：CN109871908A
公开日：
20190611
专利内容由知识产权出版社提供
摘要：本发明提出一种基于智能手机的试卷分数统计系统，包括系统入口、图像采集模块、图像处理模块以及分数统计模块；进入系统入口后，图像采集模块调用智能手机的摄像头对答题卡中的评分区域进行拍摄或读取设备中已有的图像，拍摄成功后，跳转至图像处理模块；图像处理模块包括图像预处理模块、图像校正模块以及图像识别模块，由图像预处理模块先对图像进行预处理，再由图像校正模块对图像进行校正，完成之后，由图像识别模块对图像进行识别，用户确认无误后，将识别的分数保存到系统中；分数统计模块对识别的分数按照既定的程序进行统计，并将统计的分数显示在界面上。

该系统充分利用智能手机的摄像、存储等功能，对评分区的分数进行识别和统计。

申请人：上海电机学院
地址：200240 上海市闵行区江川路690号
国籍：CN
代理机构：上海伯瑞杰知识产权代理有限公司
代理人：王一琦
更多信息请下载全文后查看。

人工智能图像处理中的图像识别方法

人工智能图像处理中的图像识别方法人工智能的快速发展带来了许多令人兴奋的技术，其中之一就是图像识别。

图像识别是指通过计算机算法和模型来识别和理解图像中的内容和特征。

在人工智能图像处理领域，图像识别方法起到了至关重要的作用，不仅可以帮助我们自动分析和理解大量的图像数据，还可以应用于各种领域，如医疗诊断、无人驾驶和安全监控等。

在人工智能图像处理中，图像识别方法有多种，下面将介绍其中几种常用的方法。

1. 特征提取特征提取方法是图像识别中最基础的方法之一。

它通过计算机算法从图像中提取出有用的特征信息，然后使用这些特征信息来进行识别。

常用的特征提取方法包括边缘检测、角点检测和纹理分析等。

这些方法能够帮助识别出图像中的局部特征，从而实现对图像的整体识别。

2. 深度学习深度学习是近年来兴起的图像识别方法之一。

它是一种基于人工神经网络的方法，通过多层次的神经网络模型来模拟人脑的学习和处理过程。

深度学习的优势在于能够自动学习特征和模式，不需要手动设计特征提取算法。

而且，深度学习还能够处理大规模的图像数据，并具有很强的泛化能力。

3. 卷积神经网络卷积神经网络（Convolutional Neural Network，CNN）是一种特殊的深度学习模型，专门用于图像处理和图像识别。

卷积神经网络通过多个卷积层和池化层来逐渐提取图像的特征，并利用全连接层进行最终的分类和识别。

在图像识别领域，卷积神经网络已经取得了显著的成果，例如在图像分类、目标检测和人脸识别等方面。

4. 支持向量机支持向量机（Support Vector Machine，SVM）是一种经典的机器学习方法，在图像识别中也得到了广泛应用。

SVM 通过构建一个超平面来实现对图像的分类和识别。

它的核心思想是把图像数据映射到高维空间中，然后找到一个最优的超平面，使得不同类别的图像能够被分隔开来。

SVM不仅能够处理二分类问题，还能够通过一些技巧处理多分类问题。

5. 集成学习集成学习是一种将多个分类器或回归器组合起来的方法，用于提高图像识别的准确性和鲁棒性。

一种结合机器视觉和语义分析的智能阅卷评分方法

专利名称：一种结合机器视觉和语义分析的智能阅卷评分方法专利类型：发明专利
发明人：胡为民,郑喜
申请号：CN202111578858.2
申请日：20211222
公开号：CN113971805A
公开日：
20220125
专利内容由知识产权出版社提供
摘要：本发明公开了一种结合机器视觉和语义分析的智能阅卷评分方法，包括：手写体识别阶段；对输入的试卷扫描图像进行缩放；对缩放后的试卷扫描图像进行预处理，得到缩放后的试卷图像手写体文字的连通域；根据连通域中的手写体文字，得到单字符文本；对所有单字符文本进行校验和修正，得到试卷作答文本；智能评分阶段；根据试卷作答文本和标准答案文本，得到试卷作答文本向量和标准答案文本向量；计算试卷作答文本向量和标准答案文本向量之间的相似度，得到试卷作答文本和标准答案文本之间的匹配程度，匹配程度为最终题目作答得分；该方法提升了手写体文字识别的准确性，实现了智能阅卷评分，提高了教学事务中主观题阅卷评分的工作效率。

申请人：深圳市迪博企业风险管理技术有限公司
地址：518000 广东省深圳市福田区深南大道1006号国际创新中心A栋6楼西
国籍：CN
代理机构：北京惟盛达知识产权代理事务所(普通合伙)
代理人：董鸿柏
更多信息请下载全文后查看。

一种适用于智能手机的图像识别算法

一种适用于智能手机的图像识别算法桂振文;刘越;陈靖;王涌天;徐志伟【摘要】针对目前常用的图像识别算法运算复杂和内存占用量大,不能很好的应用于移动平台等问题,本文提出了一种适用于智能手机的图像识别算法:首先,通过使用BRISK特征点检测算法提取图像特征和低字节的FREAK描述符对特征进行表述,解决了特征检测时间长和特征描述符内存占用大的问题;其次,将智能手机的重力信息添加到图像特征中改善了BRISK特征的区分能力,解决了相似结构特征难以区分的问题;最后,建立描述符的多级索引,实现相似描述符的快速查找,解决了描述符匹配问题.实验结果表明,本文提出的算法能有效地运行在资源受限的智能手机上实现对场景的实时识别.【期刊名称】《电子学报》【年(卷),期】2014(042)008【总页数】8页(P1487-1494)【关键词】图像识别;FREAK算法;BRISK算法;智能手机【作者】桂振文;刘越;陈靖;王涌天;徐志伟【作者单位】北京理工大学计算机学院,北京100081;北京理工大学光电学院北京市混合现实与新型显示工程技术研究中心,北京100081;北京理工大学光电学院北京市混合现实与新型显示工程技术研究中心,北京100081;北京理工大学计算机学院,北京100081;北京理工大学光电学院北京市混合现实与新型显示工程技术研究中心,北京100081;北京理工大学光电学院北京市混合现实与新型显示工程技术研究中心,北京100081【正文语种】中文【中图分类】TP3911 引言图像识别是计算机视觉领域中最活跃的研究课题之一，主要研究目标在于利用计算机的强大运算能力，帮助人类自动处理海量物理信息，识别各种不同模式的目标代替人的部分脑力劳动.图像识别综合了很多学科内容，其中包括计算机科学与技术、物理学、统计学以及神经生物学等，广泛应用于地质勘探、图像遥感、机器人视觉、生物医学等多个领域.图像识别技术在个人计算机以及嵌入式终端设备上也已有很多成熟的应用案例，随着手机功能的不断增强，该技术也逐渐被应用到智能手机.但智能手机本身的弱处理能力和低内存的局限性对计算复杂的识别算法提出了考验. 图像识别的基本原理是：首先对目标图像进行特征点检测,然后再对特征点进行描述,最后通过特征点匹配来确定目标图像对应样本库中最相似的图像.关于智能手机上大规模图像识别目前有两种研究思路：一种思路是依靠客户-服务器(C/S)模型，只在智能终端获取图像和显示结果，而在PC端完成特征点提取、匹配等计算量大的复杂算法，通过无线通信进行交互，这种方法易受到无线网络的影响，在网络拥塞的情况下效果较差.如文献[1]通过在智能终端获取带GPS信息的图像发送到服务器端进行识别.文献[2,3]在PC端采用分层单词树(Hierarchical-VOC)的算法实现大规模图像的快速识别.文献[4,5]通过采用机器学习SVM的方法实现大规模图像的高准确率的识别.另一种思路对复杂算法进行优化和改进，在智能手机上完成图像识别算法.如文献[6]通过降低的图像特征提取、特征描述和匹配的计算复杂性，实现了智能手机端上的小规模图像识别.文献[7]通过Hash函数将高维的特征向量进行的压缩，用30bit的汉明码来表示高维特征，用汉明距离来度量描述符相似，仅用一条汉明指令就能很快进行特征点匹配.对于特征点检测，研究者提出了大量的特征点检测算法.例如：Schmid等[8]提出Harris-Laplace算法，将Harris和高斯拉普拉斯函数相结合，先检测多尺度的Harris特征点，然后用高斯拉普拉斯函数取局部极值剔除冗余点，缺点是计算量大.黄波等[9]提出归一化直方图仿射不变量检测算法，从目标图像中提取直方图仿射不变量特征,对光照和视角变化具有良好的适应性，但是检测速度较慢.Leutenegger等[10]提出的BRISK(Binary Robust Invariant Scalable Keypoints)算法，使用基于尺度空间的快速角点检测算法,在连续尺度空间内检验相邻区域灰度变化显著的点作为角点，再通过非极大值抑制以及尺度空间曲线插值来获得具有亚像素精度的特征点信息，速度和稳定性都较好.对于特征点描述，为了使局部区域的特征能够对旋转、尺度缩放、光照和轻量级的仿射变换保持不变.研究者提出了很多局部特征点描述算法，常见的有以下一些：SIFT(Scale-Invariant Feature Transform)[11]、SURF(Speeded Up Robust Features)[12] 特征描述对于图像变化都具有鲁棒性，但缺点在于描述符维数高，因而导致了后续的搜索和匹配占用内存多而且速度较慢，无法直接移植到智能终端.最近提出的BRIEF(Binary Robust Independent ElementaryFeatures)[13],ORB(ORiented Brief)[14],FREAK(Fast Retina Keypoint)[15]特征描述，都采用了二进制字符串作为描述符，降低了描述符的维度，无需考虑类似SIFT和SURF等高维特征矢量在欧氏空间的匹配复杂度.BRIEF的缺点在于不具备旋转不变性、对噪声敏感、不具备尺度不变性.ORB在BRIEF基础上增加了对特征主方向的计算，因此具有旋转不变性.FREAK的描述符延续了ORB的思路，但在采样点对的选择方法上不同，它使用了固定的采样点模式，采用预先定制的固定空间采样模式，有助于提高描述符的可重复性.对于特征点匹配，一般采用某种代价函数或者距离函数来进行度量，它和特征空间密切相关.采用代价函数判断相似性的如Ferns算法[16]通过对特征点进行后验概率判断,确定特征点所归属的类，需要大量的学习样本才能生成准确率比较高的判定树，并且在训练的时候会占用大量内存，如果对于单个场景识别智能手机还能承受，但对于多个场景该类算法不仅运行速度较慢，还会影响其它程序.关于距离度量相似性的分为欧式距离度量和汉明距离度量.近似最近邻(Approximate Neighbor Neareast)方法如K-means[17]，采用欧式距离度量，但是该方法在特征向量维度较高时，计算复杂度也在增大.Brisk[10]，Freak[15]采用汉明距离度量,只需要简单的异或操作，速度非常之快，比较适合智能手机端的硬件条件.根据以上所述，本文提出了一种适用于智能手机的识别算法，通过使用Brisk提点算法和Freak描述算子解决了智能手机本身的处理能力和内存容量问题,再通过带重力方向的Brisk特征点降低了图像内部相似特征误匹配问题；最后，建立描述符多索引结构，完成相似描述符的快速查找.实验结果表明,该算法识别速度快，内存的占用量少，识别准确率也较高，适合移动平台的视觉搜索.2 智能手机终端的特征点检测2.1 智能手机平台目前智能手机发展非常迅速，基本上都集成高速处理芯片、大容量存储器、内置了百万像素的摄像头和WIFI无线局域网接口卡，甚至一些高端的设备中还集成了大量传感器如GPS定位传感器和加速度传感器等.这些性能不断提高的硬件设备，给计算机视觉和图像处理领域带来了新的发展空间，许多原来运行在PC上的计算机视觉算法，通过改进和优化，能有效的运行的智能终端的平台上.但是，相对于现在配备高速处理芯片和大容量存储芯片的服务器，智能手机还存在以下不足：较低的图像分辨率、缺少专门的图形加速器、没有浮点运算单元、尤其是低端处理器和低容量存储器等，限制了在智能手机上进行复杂运算和大规模计算. 针对智能手机存在的以上问题，本节后续部分的特征点检测和特征点描述算法分别从计算量和内存空间两方面进行考虑，使算法满足计算量小、占用空间低等特性，适合运行在智能手机上.2.2 特征点检测特征点就是图像局部区域中变化最剧烈的部分，本文采用提点速度快,计算量小的BRISK特征点检测算法，适合智能手机平台的同时兼顾了提点算法的实时性. BRISK检测算法由Leuteneggert[10]提出，通过搜索图像尺度空间中非极大值抑制的角点来实现.BRISK算法首先在图像各尺度层搜索突出性的角点，作为预备特征点；再对预备特征点集，在其尺度空间相邻的上下两层的邻域内实行非极大值抑制，剔除一些非极大值的点，剩下的就是在尺度空间的邻域中具有独特性的唯一的特征点.BRISK算法使用AGAST[18]算法在离散尺度空间中的每一层搜寻角点，使用像素亮度作为比较指标，衡量待测点的突出性.突出性的度量为FAST得分，计算公式为：(1)(2)其中V为FAST响应得分,Sbrightness为邻域点的亮度集合，Sdarkness为邻域点的暗度集合,I为不同点的灰度，Ic为中心像素点，Ix为邻域像素点，τ为衡量显著与否的灰度差阈值.如果中心点与邻域点的亮度差小于τ，便认为中心点与邻域亮度相近，即不满足显著亮或暗的条件.而邻域的选择则要根据应用平台以及需求来定，常用的有5-8、8-12、9-16的模板.如图1所示，在AGAST-9-16的模板下，在待测点同层的16个点组成的邻域中，当FAST响应得分不小于9(即至少有9个邻域点的灰度全大于或者全小于待测的中心点的亮度)时，便认为中心点在邻域中具有突出性，将纳入预备特征点中.将尺度空间中所有搜索到的角点作为预备特征点，再对所有预备特征点在尺度邻层实施非极大值抑制.最后被确认为特征点的像素点Pσ，它在尺度空间的上下邻层中对应的点Pσ-1和Pσ+1在其各自的尺度层上也应该具有突出性，而且Pσ的FAST响应得分应该比Pσ-1和Pσ+1都要高,确保特征点在尺度空间中的独特性. 2.3 Gravity-aware BRISK特征点由于直接使用BRISK对拍摄图像进行匹配效果并不理想，尤其是拍摄建筑物等存在大量相似结构的物体，BRISK算法无法区分图像里面的相似结构，本文中没有使用原始BRISK特征信息.文献[19]描述在场景内部存在相似特征或接近一致的特征，单靠从图像像素强度得出的梯度主方向方向，将难以区分相似特征点的误匹配问题.如图2左边部分，场景的四个角区域，对应于4个不同的自然特征，但是按照特征点像素强度主方向进行规范化后，变成了相同的特征.这种现象明显增加了特征点的误匹配率，也降低了描述符的区分能力.智能手机上的众多的传感器为提取更有区分能力的图像特征点提供了条件，利用重力在一定程度能够解决上述的问题.如图2右边部分，按照重力方向对齐后，4个局部特征的归一化区域之间的差异更加明显.所以，将重力方向加入特征点的描述中，明显的解决了自然特征的匹配问题.本文提出Gravity-Aware BRISK的特征点，将摄像机坐标系中的重力方向依据摄像机成像模型投射到图像平面，得到特征点的重力方向，对特征点沿重力方向对齐，计算重力方向与特征点邻域像素强度的主方向之间夹角，将其作为特征点的一个描述.原理如图2下面部分所示.带重力方向的特征点匹配时，首先进行夹角相似性判定，设定一个阈值，判断夹角差的绝对值小于这个阈值；再进行传统的最短距离查找.它在一定程度上克服了传统BRISK算法对于相似结构的特征点难以区分的缺点，也节省了描述符匹配时间，在性能上优于传统的BRISK算法.普通的智能手机带有：加速度传感器、姿态传感器和陀螺仪(gyroscope)等传感设备.加速度传感器为每一帧图像提供了重力方向，用三维的矢量表示，如g=[gx,gy,gz]T，通常在摄像机坐标系中对g进行归一化‖g‖=1，并将重力矢量投影到图像所在二维平面上，通过式(3)计算投影平面的图像像素点p重力方向图像中点p=[u,v,1]T处的重力方向向量为d=p′-p(3)其中d=[du,dv,0]T为点p处的重力方向，p′由下式计算得出：p′=[wu′,wv′,w]T=p+Kg(4)其中为手机相机的内参矩阵.d也可以通过一种计算量较小的近似方法求得：d∝[gx(pu-u)+fugx,gx(pv-v)+fvgy,0]T由d可计算出图像中像素点重力方向的角度为(5)其中[pu,pv]T是主点坐标，fu、fv是水平与垂直方向的焦距.3 特征点的描述本文选用FREAK描述符，而没有选择SIFT、SURF、BRISK等描述符，在文献[15]中阐述了前者计算速度相比后三种更快、内存负载更低的，鲁棒性更好.FREAK[15]是一种二值描述符，采用固定的采样模式，以特征点为中心的较近邻域内放置的采样点密度较大，而且每个采样点的高斯核参数较小；而离特征点较远的边缘区域，采样点的密度小而且高斯核参数较大.这与我们平日感受中的距离视野中心越远的物像越模糊的主观经验相符.FREAK特征主方向的计算方法与BRISK类似，都使用局部梯度来表示特征主方向，但不同之处在于计算梯度的采样点对的选取，后者使用长距离的采样点对，而前者则选用如图3所示，简单的相对于中心点对称的几组采样点对.特征主方向的梯度的计算公式如下：(6)其中I(Pj,σj)和I(Pi,σi)分别代表高斯平滑后的一对采样点的亮度，C是用来计算梯度的采样点对总集,M为C中采样点对数,Pj和Pi为一对采样点的空间坐标矢量.求出主方向后，把采样模式点集沿特征点K旋转θg=arctan2(gy,gx)，开始构建描述符D：(7)为特征点K沿主方向对齐后，邻域内的一对采样点，N是描述子长度.而T满足：(8)FREAK使用43个采样点，生成43×42=1118比特的描述符，通过比较点总方差最大的标准对采用点对进行筛选，最终的确定FREAK描述符只有512比特的长度.4 特征点匹配传统的描述符匹配算法都是将描述符与所有的样本描述符进行比较，来确定相似描述符.在样本图像较多的情况下，传统算法的描述符匹配时间成线性增长，对实时性要求较高的图像识别系统是不能接受的.本文实现了一种相似描述符的快速查找方法，只用比较部分描述符.4.1 相似描述符的快速查找首先，对512位的FREAK描述符用图4所示的方式切分为多个互不相交子段描述符，每个子段长为8位，一共64个子段；再对子段描述符建立如图5所示的二级级索.图5的一级索引为子段号，二级索引为8位的二进制向量(00000000～11111111)对每个样本描述先进行分段，每个子段根据子段号和子段描述符对应的二进制索引找到相应的倒排链表，将描述符标识和所在图像标识生成一个节点插入到链表中.但是，为了节省存储空间和方便后续进行与操作，本文采用图6中的方式将所有样本图像的描述符存储在一个数组中，图像对应描述符在数组中的开始和结束序号与该图像进行绑定，将数组中元素序号作为描述符ID号插入到倒排链表中.这样通过序号不仅可以快速找到描述符，而且可以定位对应的图像.根据以上思想，优化原有二级索引的倒排链表，以索引值为聚类中心，满足汉明距离值小于等于都插入到倒排链表中.实现相似描述符查找时，先将查询描述符进行分段，找到每个子段对应的倒排链表，再对链表中的ID集合进行与操作，如式(9).设子段1,子段2,…,子段n，对应倒排链表的集合为D1,D2,…,Dn，U为子段描述符对应ID集合的交集.U=D1∪D2∪…∪Dn(9)最后，将查询描述符与U中ID对应的描述符进行逐个比较，找出满足式(10)样本描述符为相似描述符.(|αi-βj|<θth)&&(rmin<Rth)(10)αi,βj分别为查询描述和样本描述符重力方向与像素强度主方向的夹角，θth为夹角阈值，rmin为U中样本描述符与查询描述符最近的距离，Rth为汉明阈值.4.2 识别目标确定当完成查询图像的描述符匹配以后，需要判断相似特征点的数目占样本图像和查询图像本身的比重是否大于设定的阈值来决定是否查找到成功匹配的样本.计算查询图像A的特征向量集与训练图像库中所有特征向量集的匹配点数目，选定匹配点数目最多的一张图像B，测试匹配率，当匹配率大于设定一个阈值为匹配成功的图像.设匹配率阈值为Mth，A与B的特征点数目为k1和k2，匹配点数目为m.如果满足下式：(11)则说明两张图像的匹配程度较高，匹配成功.该样本图像即为对应的匹配目标. Rth和Mth的不同取值会造成识别效果的差异，将在实验部分给出实验数据以决定最好的取值组合.5 实验验证5.1 实验条件实验用到的智能手机为：HTC(919d)，CPU频率(1.9GHz)，RAM(2GB)，操作系统为Android 4.2,外用存储设备为32G的MicroSD.实验数据为两组数据集：一组为我们用智能手机采集的带有重力方向信息的1000个室外场景图像，每个场景采集5个不同视角的图像，一共5000副图像，部分示例图像，如图7所示；另一组国际图像标准库UKBench[19]，不带有任何传感器信息，仅包含2550个不同的物体，每个物体包括4个从不用的角度拍摄的图像，一共10200幅图像，如图8所示.5.2 实验过程算法的流程如图9所示，分为训练阶段和在线识别阶段.训练阶段将所有的图像进行降分辨率处理，统一转换为320×240.对智能手机采集带有重力方向的户外图像集，提取brisk特征点，生成Freak特征描述符；选取前100个响应值较大特征点计算像素强度主方向与重力方向的夹角；最后，建立多级索引表，并将索引表信息存储到文件中.下次使用该算法时，只需要将索引表载入内存，就可以进行识别，减少对样本的重复性训练.而对不带有重力信息的UKBench库中图像，仅计算特征描述符，将夹角全都设置为0.在线识别阶段：首先通过智能手机采集图像的视觉信息和重力方向信息；再提取特征点，计算特征描述符和特征方向与重力主方向的夹角，然后进行图像匹配.5.3 算法性能在图像识别算法中，通常从训练时间、训练内存占用、识别时间和识别精度四个指标来衡量算法的性能.(1)训练时间是从特征点提取到描述符建立消耗的时间.(2)训练内存占用是训练阶段内存消耗的最大值.(3)识别时间是从开捕获视频开始到智能终端出现结果的时间.(4)识别精度为智能终端成功识别的次数与总识别次数的比值.本文在智能手机上实现了提出的算法，并从上面提出的四个方面对算法进行对比.每次实验我们随机选取不同的场景，每个场景的所有图像为训练样本.实验结果取10次测试的平均值.测试方法为开启智能手机摄像头读入查询图像，提取特征信息，在样本库中查找相似图像；如果返回的相似图像与待识别图像属于同一场景的便视为识别成功，否则视为失败.5.3.1 特征点检测时间和数量对比图10为任意拍摄一张室外场景图像进行降分辨率处理，生成三张分辨率为640×480,320×240,160×120的图像.表1是本文算法对三张图像的进行特征点计算的时间和检测特征点的数量，可以看出提点和描述符的总时间是非常短的.表1 不同分辨率图像的特征点检测分辨率提点时间(ms)描述时间(ms)特征点数640×48021.0526.83916320×24017.6321.08653160×12013.0618.723705.3.2 图像训练占用时间和内存对比图11是算法训练所占用时间和内存对比.从图11(a)得出，本文的算法在最大样本图像数量时占用内存最大值不超过30M,相对于2G内存的智能手机，不影响其他程序性能.从图11(b)得出，本文算法的样本图像的训练时间为200s左右，能迅速完成图像的训练.实验结果证明，本文算法训练图像的内存占用和时间消耗都较小适用于移动终端.5.3.3 图像识别时间和精度对比表2,图12是在智能手机采集图像数据集上的测试结果.表2是在300个场景，1500张样本图像下，进行图像识别实验统计出的算法各个步骤的平均消耗时间，可以看出查询一张图像的时间非常短，小于300ms,表明本文算法实时性较好，因为依靠智能手机本身的识别算法相比传统的C/S架构的视觉算法来说，减少了通过无线网络传输数据的延时.图12是本文算法取不同参数阈值在不同规模图像库上识别精度的比较.在样本图像较少时，算法都有较好的识别精度；在样本图像增大到1000时，算法的识别率都保持在70%以上；但是随着样本库的持续增大，识别精度都有下降的趋势，同时汉明距离阈值的增加，误匹配点也在增加，使识别精度有所下降.匹配率阈值对识别精度也有影响，在室外建筑变化较大的图像特征匹配点数目较少的情况下，设置较高的匹配率阈值反而是很多正确匹配的图像被过滤掉.本文实验结果表明，本文算法在汉明阈值R为40，匹配的特征夹角差的阈值θ为30，比率M为20%效果最好.表2 查询图像的平均搜索时间执行步骤时间(ms)特征点检测21.08特征点描述2.17匹配218.36总计241.61表3是在标准图像识别库UKBench数据集上的测试结果.从表3得出本文算法的识别时间始终保持在1s以内，不影响用户的体验.因此，通过在公开的标准数据集上的实验再次验证了本文算法的有效性，既能进行快速识别，同时保持较高的识别精度.表3 UKBench数据集图像测试结果UKBench10050010002000时间(ms)精度(%)时间(ms)精度(%)时间(ms)精度(%)时间(ms)精度(%)本文算法65.2882.6168.4276.3274.0663.5632.9156.86 结论与展望本文提出了一种适用于智能手机上图像识别算法，解决了在智能手机上实现大规模图像识别的问题.在特征提取方面，提出带重力方向的BRISK特征点和用FREAK 进行描述；在目标匹配方面，首先使用方向夹角过滤相似特征的误匹配点，提高了识别精度，再通过判断匹配特征点占查询图像和样本图像的双比重，来确定是否成功匹配，进一步保证了识别的准确性.实验结果证明，该识别算法可在智能手机平台上有效运行.本文算法也有不足之处，没有对描述符进行压缩和利用特征点的空间关系优化匹配算法.下一步的研究工作是实现描述符的高比率压缩和利用特征点空间关系重排匹配结果.参考文献【相关文献】[1]D Chen,G Baatz,K Koeser.City-scale landmark identification on mobiledevices[A].Proceedings of 24th IEEE International Conference on Computer Vision and Pattern Recognition[C].Piscataway:IEEE,2011.737-744.[2]Xiaoyu Wang,MingYang,Timothee Cour.Contextual weighting for vocabular Tree based image retrieval[A].Proceedings of the 13th IEEE International Conference on Computer Vision[C].Piscataway:IEEE,2011.209-216.[3]赵永威,郭志刚,李弼程,等.基于随机化视觉词典组和上下文语义信息的目标检索方法[J].电子学报,2012,40(12):2473-2479.Zhao Yong-wei,Guo Zhi-gang,Li Bi-cheng,et al.Object retrieval method based on randomized visual dictionaries and contextual semantic information[J].Acta Electronica Sinica,2012,40(12):2473-2479.(in Chinese).[4]R Muralidharan,C Chandrasekar.3D object recognition using multiclass support vector machine-k-nearest neighbor supported by local and global feature[J].Journal of Computer Science,2012,8(8):1380-1388.[5]袁杰,魏宝刚,王李冬.一种综合PHOG 形状和小波金字塔能量分布特征的图像检索方法[J].电子学报,2011,39(9):2115-2119.Yuan Jie,Wei Bao-gang,Wang Li-dong.An image retrieval method synthesizing PHOG shape description and wavelet pyramid energy distribution[J].Acta ElectronicaSinica,2011,39(9):2115-2119.(in Chinese).[6]Wagner D,Reitmayr G,Mulloni A,et al.Real-time detection and tracking for augmented reality on mobile phones[J].IEEE Transaction on Visualization and Computer Graphics,2010,16(3):355-368.[7]Jae-Pil Heo,YoungWoon Lee,Junfeng He,et al.Spherical hashing[A].Proceedings of the 25th IEEE International Conference on Computer Vision and PatternRecognition[C].Washington:IEEE,2012.2957-2964.[8]Mikolajczyk K,Schmid C.Scale and affine invariant interest pointdetectors[J].International Journal of Computer Vision,2004,60(1):63-86.[9]黄波,赵继印,郑蕊蕊,等.基于多尺度自卷积归一化直方图的仿射不变量模式识别[J].电子学报,2011,39(1):65-68.Huang Bo,Zhao Ji-yin,Zheng Rui-rui,et al.Affine invariant pattern recognition based on。

ocr识别试卷

ocr识别试卷
OCR（Optical Character Recognition，光学字符识别）是一种技术，可以将图像或文档中的文本转换成可编辑的文本格式。

使用OCR 技术来识别试卷可以提高效率，减少手动输入的工作。

以下是使用OCR 识别试卷的一般步骤：
1. 获取试卷图像：首先，需要获取试卷的图像。

这可以通过扫描纸质试卷或者拍摄试卷照片来实现。

确保图像清晰，以提高OCR 的准确性。

2. 选择OCR工具：选择适当的OCR工具或软件。

有很多商业和免费的OCR工具可供选择，例如Tesseract、Adobe Acrobat等。

根据你的需求和试卷的特性选择适合的工具。

3. 导入图像：将试卷图像导入选择的OCR工具。

这通常涉及使用工具提供的导入功能或者界面。

4. 设置识别参数：根据试卷的语言、字体等特性，设置OCR 工具的相应识别参数。

一些OCR工具提供了自动识别参数的功能。

5. 运行OCR识别：运行OCR工具进行试卷识别。

工具将尝试识别图像中的文本并将其转换成计算机可编辑的文本格式。

6. 校对和修正：检查OCR结果，校对识别准确性。

OCR技术可能会在某些情况下出现错误，尤其是在图像质量较差或字体特殊的情况下。

7. 导出文本或数据：一旦确认OCR识别准确，可以将文本导出为可编辑的文档，如Word或文本文件。

如果试卷包含表格或特殊格式，还可以考虑导出相关数据。

请注意，OCR技术的准确性受多种因素影响，包括图像质量、文本复杂性和字体等。

因此，在使用OCR识别试卷时，建议进行仔细的校对和验证，以确保识别的准确性。

ocr 识别试卷

ocr 识别试卷OCR识别试卷随着科技的不断发展，OCR（Optical Character Recognition）光学字符识别技术逐渐渗透到各个领域。

在教育领域，OCR识别在试卷批改方面具有巨大的潜力和优势。

本文将探讨OCR识别试卷技术的特点、应用及其在教育中的价值。

一、OCR识别试卷技术的特点OCR识别试卷技术是一种利用计算机视觉和模式识别算法，将纸质试卷上的文字、图像等信息转化为可编辑或可搜索的电子文档的技术。

与传统的手动批改试卷相比，OCR识别试卷具有以下特点：1.高效准确：OCR技术能够快速而准确地将纸质试卷上的信息转换为电子文档，大大提高了批改效率。

2.无偏批改：OCR识别试卷技术不会受到人为因素的影响，消除了主观评分的偏见，确保每位学生的试卷都能得到公正评分。

3.数据分析：通过OCR识别试卷，可以方便地进行数据分析，了解学生的整体水平和学科掌握情况，为教学提供科学依据。

二、OCR识别试卷的应用领域1.高校招生考试：OCR识别试卷技术可以应用于高校招生考试，实现自动化批改，大大降低人工成本，确保评卷公正。

2.中小学考试：对于中小学考试而言，OCR识别试卷技术能够减轻教师的工作负担，提高批改效率，使学生能够及时了解自己的成绩。

3.职业资格考试：使用OCR识别试卷技术对职业资格考试进行批改，可以提高批改速度和准确性，为考生提供更加精确的成绩。

三、OCR识别试卷在教育中的价值1.提高教学效果：OCR识别试卷技术可以帮助教师及时了解学生的学习情况，指导教学内容和方式，从而提高教学效果。

2.节约人力资源：传统的手动批改试卷需要大量的人力资源，而OCR识别试卷可以实现自动批改，减少了教师的工作量，提高了工作效率。

3.促进教育公平：OCR识别试卷技术可以消除主观评分的偏见，确保每位考生都能够得到公正评分，促进教育的公平性。

四、OCR识别试卷的优化与挑战尽管OCR识别试卷技术在教育领域有着广泛的应用前景，但仍需持续优化和面临一些挑战。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

参考文献：
[1]王绪.文本图像处理与表格图像识别算法研究[D].解放军信息工程大学,2010. [2]汤方义.基于OpenCV和CUDA的车牌识别系统的软件设计与实现 [D].吉林大学,2011.
基金项目：本文为湖南省教育厅一般课题《基于改进的十三点特征提取算法的app智能评阅系统研究》（编号15c0163）的阶段性研究成果。作者简介：李莹（1984-），女，湖南益阳人，长沙医学院信息工程学院讲师，硕士，研究方向为计算机软件。
一、引言
图像识别主要研究如何利用计算机的运算能力，来处理海量的图片信息，在各种不同情况下进行识别，以替代人的部分脑力劳动，正广泛应用于图像遥感、地址勘探、机器人视觉、医学医疗等领域。随着近年来，手机功能的不断丰富，特别是手机硬件的不断升级，为图像识别嵌入到智能手机中的应用带来了契机。但相比较传统电脑而言，智能手机在处理器和内存上不存在优势，因此，对计算复杂的识别算法还是有一定的局限性，故研究一种适用智能手机的图像识别算法变得非常必要。
二、手写字符识别的难点
对于考试阅卷系统来讲，虽然客观题只存在4个英文字符，但在识别上仍然存在以下困难： 1.由于书写上的随意性，造成同一字符的字型字体有着很大的变化。 2.字符之间不存在相关联的语义，因此不存在通过后续处理进行识别纠错的可能。
三、基于智能手机终端的图像识别算法
（一）智能手机平台目前智能手机发展迅速，硬件发展也非常快，基本上手机摄像头的像素都有百万以上，这就为计算机视觉和图像处理领域带来了新的发展空间，许多以前只能在PC机上的视觉算法，通过一定的改进和优化后，也能在智能手机平台上运行了。但考虑到智能手机平台的硬件还是无法与PC机相提并论，故提出一种针对智能手机平台的改进的十三点特征点识别算法。（二）图像预处理 1. 图像灰度化处理手机摄像头拍摄到的是彩色图像，需要大量的空间来存储，而计算机处理彩色图像的效率比较低，故考虑先对图像进行灰度化处理，以提高识别效率。常用的灰度化处理方法有：加权平均法、平均值法和最大值法。由于需要使用到 OpenCV，故使用其提供的cvCvtColor函数来进行本系统中图片的灰度化处理。 2. 图像的去噪图像的噪声常常来源于图像获取和对图像的处理过程中。首先，考虑本系统是使用智能手机的照相机来获取图像，必须考虑到不同光照条件与传感器温度不均对图像产生大量噪声。其次，在进行图像基本操作中也可能会产生噪声。本系统中使用了OpenCV中平滑处理函数cvSmooth（）来去噪。 3. 图像二值化所谓的二值化就是采用分段线性灰度拉伸的方法对图像
进行处理，图像二值化处理后，可将图像的黑点和图像白色分割开来。而OpenCV则提供了简单阀值化Threshold（）和自适应阀值化AdaptiveThreshold（）二种方法，本系统采用了基本二值桦算法结合RC阀值选取算法来进行。（三）十三点特征提取算法首先，尝试将目标图像进行划分，通过搜索后划分成8 个区域，然后计算每个区域中黑色像素点的数量，再统计所划分的区域内黑色像素点占整个区域像素点的百分比，通过这种方式得到8各特征点；接下来，统计水平方向上中间两行上黑色像素点占到整行像素的百分比，得到2个特征点；再接下来，统计垂直方向上中间两列三黑色像素点占到整列像素的百分比，得到2个特征点，最后，统计整个图像三所有黑色像素点占整个图像像素的百分比，得到1个特征点，一共合计13个特征点。与传统模板提取法比较，十三点提取算法虽然很难得到 100% 的准确率，但对于识别简单的 A 、 B、C、D四个字符的准确率已经可以达到系统使用的需要。（四）匹配识别特征点提取之后，则需要对手写字符进行识别。考虑到是在智能手机终端上使用，故选择模板匹配中的最近邻算法进行字符识别。本系统中采用先将标准的书写方式作为模板录入到系统模板库中，然后利用图像间的最短距离作为判别函数。接着将特征点利用最近邻匹配算法进行对比，对每个字母先用了3个模板和24各测试集。考虑到每个学生书写风格会有不同，造成不同字体的出现，以及光照条件、纸张质地等对图像识别也会造成影响，故对手写字符的识别必要难以得到100%的准确率。
四、系统运行环境
本系统是在android平台下运行，所以采用了Java开发工具Eclipse作为开发环境，JDK版本为1.7.0_45.具体参数如下： Android版本号：4.0.4 内核版本：3.0.15-570657-user OpenCV库版本号：2.4.5 OpenCV Manager版本号：2.7（ARM v7 with Neon）通过实验，本方法能较好提供识别率，达到系统使用的目的。
2016年第28期
青年时代
YOUTH Βιβλιοθήκη IMES. 人文社会 .一种适用于智能手机端试卷评阅的图像识别算法
李莹
长沙医学院湖南长沙 410000 摘要：随着智能手机的不断普及，人们使用智能手机终端来处理各类事务得以实现。本研究尝试开发基于智能手机终端的试卷评阅系统，提出了改进的十三点特征提取算法运用在对图像的识别上，达到实现试卷智能评阅的目的，通过实验证明是切实可行，取得了较好的效果。关键词：android；手写识别；图像识别算法
93