基于编码的甲骨文识别技术研究

合集下载

基于SVM的甲骨文字识别

基于SVM的甲骨文字识别刘永革;刘国英【摘要】甲骨文作为古文字还没有进入国家标准也没有进入国际标准,所以甲骨文字在出版物上是以图片出现,这给检索带来了困难;同时使用大数据进行甲骨文考释的过程中,需要大量的已标注的甲骨图像数据库,而人工标注耗时耗力,且只有甲骨文专家能够完成这项任务,基于以上两个原因,甲骨文字图片的识别变得越来越重要,本文采用支持向量机分类技术研究甲骨文字图片的识别技术,通过试验证明达到88%的准确率.【期刊名称】《安阳师范学院学报》【年(卷),期】2017(000)002【总页数】3页(P54-56)【关键词】甲骨文;支持向量机;识别【作者】刘永革;刘国英【作者单位】安阳师范学院计算机与信息工程学院,河南安阳455000;安阳师范学院计算机与信息工程学院,河南安阳455000【正文语种】中文【中图分类】TP317.1甲骨文作为古文字还没有进入国家标准也没有进入国际标准，所以甲骨文字在出版物上是以图片出现，这给检索带来了困难；同时使用大数据进行甲骨文考释的过程中，需要大量的已标注的甲骨图像数据库，而人工标注耗时耗力，且只有甲骨文专家能够完成这项任务，基于以上两个原因，甲骨文字图片的识别变得越来越重要，国内外研究文字识别的成果很多，但是研究甲骨文图像识别的不多，一是因为甲骨文是古文字，二是甲骨拓片上文字背景噪声比较大，三是甲骨文异体字比较多，所以甲骨文的图像识别有一定难度。

支撑向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中。

甲骨文字存在大量的异形体，且有很多甲骨字在已出土的甲骨片中只出现几次，因此甲骨文字的识别需要一个满足小样本的识别方法。

因此，在项目执行过程中，我们采用支撑向量机进行甲骨文字识别。

在我们的前期研究中已经建立了甲骨文图文资料库，该库中包含6199个已经经过甲骨文专家标示过的甲骨文字。

甲骨文信息处理导论

甲骨文信息处理导论甲骨文是中国历史上最早的文字，它记录了商代的政治、经济、社会和文化方面的丰富信息。

随着时代的变迁，甲骨文成为了人们研究古代文化和历史的重要资料。

针对甲骨文的特点和研究需求，已经逐渐发展出了许多甲骨文信息处理技术，本文将围绕甲骨文信息处理导论进行分步骤阐述甲骨文信息处理相关知识。

1、甲骨文基础知识甲骨文是中国历史上最早的文字，用于商代的政治、经济、社会和文化的记录。

它包括6000多个句子，涵盖了丰富的信息。

随着时间的推移，甲骨文编码也经历了多种变化。

甲骨文的编码方式较为特殊，通常由由龟甲、兽骨刻写而成，刻文较小且含义繁多，需要进行识别、分类、翻译等处理方式。

2、甲骨文信息处理技术甲骨文信息处理技术包括图像处理、文字识别、语言翻译等方面。

其中，最关键的是文字识别技术，它可以将甲骨文刻文转换为数字或文字，从而便于后续的数据处理、存储和分析。

甲骨文的识别具有以下特点：比较难识别，因为每个刻文都有不同的形状和位置，且古代的书写方式较为固定；以及需要对分形结构的概念有一定的了解，因为甲骨文的每个字符都是由块状结构组成的，因此需要进行逐层分析。

3、甲骨文信息处理的应用随着信息技术的不断发展，甲骨文信息处理的应用范围也在不断扩展。

首先，它可以用于文化遗产及历史文本的数字化保护。

甲骨文是中国文化的重要组成部分，进行数字化保护可以避免遗失和文物破坏带来的影响；其次，它可以用于历史文献的数字化处理。

甲骨文是中国历史的重要文物，可以作为历史文献材料进行研究；再次，它可以用于汉字的演化研究。

甲骨文是汉字的前身，因此对于汉字的历史演化研究具有重要的价值。

综上所述，甲骨文信息处理导论是从事甲骨文研究和信息处理的重要参考书，它具有重要的指导意义。

甲骨文信息处理技术在文化遗产保护、历史史料数字化、汉字演化研究等方面起着重要作用，值得广泛应用和推广。

基于字形拓扑结构的甲骨文输入编码研究

维普资讯
第２２卷第４期２００８年７月
中文信息学报
ＪＯＵＲＮＡＬＯＦＣＨＩＮＥＳＮＦＯＲＭＡＴＩＥＩＯＮＲＯＣＥＳＮＧＰ
Ｊ１，２０ｕ．０８
形和一个符号串或一个数字串对应起来，而把甲从
１引言
甲骨文信息化处理是古文字信息化处理的一个重要研究领域，甲骨文信息化处理的过程中，在甲骨文字库的建设是一个核心的问题。在实现了将甲骨
文章编号：１０ — ０７２Ｏ）４０２ — ６０３０７（Ｏ８０ — １３０
基于字形拓扑结构的甲骨文输入编码研究
顾绍通ｈ，马小虎，亦鸣ｈ杨。
（．徐州师范大学语言研究所，江苏徐州２ｌ１；．语言科学与神经认知工程江苏省重点实验室，苏徐州２ｌ１；１２１６２江２１６
问题。
关键词：算机应用；计中文信息处理；拓扑结构；甲骨文；输入；编码
中图分类号：ＴＰ３１９文献标识码：Ａ
ＴｏｏｏｉａａｓｄＩｕｅｈｄＣｏｎｆＪａｕｎｐｌｇｃｌＦｒｍｅＢａｅｎｐｔＭｔｏｄｉｇｏｉｇｗｅ
ｖｄｓｔｙＯｉｐｔｉｇｕｎ：（）Ｇｌｐｏｉｇｉｐｔｍｅｈｄ（）ＨａｚＳｅｌｇｃｄｎｎｕｔｏ．ｉｅｗｏｗａｓｔｎｕａｗｅＪ１ｙｈｃｄｎｎｕｔｏ；２ｎｉｐｌｎｏｉｇｉｐｔｍｅｈｄｉＫｅｒｓｏｕｅｐｌａｉｎｙｗｏｄ：ｃｍｐｔｒａｐｉｔ；Ｃｉｅｅｉｆｒｔｎｐｏｅｓｎｃｏｈｎｓｎｏｍａｉｒｃｓｉｇ；ｔｐｌｇｃｌｒｍｅｉｕｎ；ｉｐｔｍｅｈｄｏｉｇｏｏｏｏｉａｆａ；Ｊａｗｅｇｎｕｔｏ；ｃｄｎ

机器学习技术在甲骨文破译中的应用与探索

机器学习技术在甲骨文破译中的应用与探索甲骨文作为一种古老的文字形式，具有极高的历史和文化价值，对于了解古代的政治、宗教、社会等方面提供了重要的线索。

然而，由于甲骨文的文字形状独特、多样，加之文字本身的累赘复杂，传统的甲骨文破译工作一直以来都面临着巨大的挑战。

近年来，随着机器学习技术的发展与智能化工具的应用，探索利用机器学习技术在甲骨文破译中的应用已成为研究的热点之一。

本文将就机器学习技术在甲骨文破译方面的应用与探索进行讨论。

一、机器学习算法介绍机器学习算法是指通过计算机从大量数据中学习和提取规律，进而进行预测、分类、聚类等任务的一种算法。

在甲骨文破译中，机器学习算法可以被用于自动识别甲骨文中的字形、编码、文字之间的关系等，从而辅助破译工作的进行。

常见的机器学习算法有支持向量机(Support Vector Machine, SVM)、卷积神经网络(Convolutional Neural Network, CNN)、递归神经网络(Recurrent Neural Network, RNN)等。

这些算法通过训练模型，从而能够根据已有的数据进行自动识别和预测。

二、机器学习技术在甲骨文破译中的应用1. 字形识别甲骨文中的字形千姿百态，因此识别和分类字形一直是传统甲骨文破译的难点之一。

而利用机器学习技术，可以通过对大量的甲骨文数据进行训练，构建字形模型，从而实现自动识别和分类。

例如，研究人员可以收集大量甲骨文图像数据，对这些数据进行预处理，并使用卷积神经网络等算法进行训练。

通过训练后的模型，可以自动识别出甲骨文中的不同字形，从而为破译工作提供有力的支持。

2. 文字编码识别甲骨文的编码方式多种多样，每种编码方式都代表着不同的含义和语义。

传统的甲骨文破译工作需要依靠专家根据经验进行编码的解读，这既费时费力，也容易出错。

利用机器学习技术，可以通过训练模型，使其自动识别甲骨文中的编码方式，并提供相应的解读。

例如，通过对已有甲骨文数据进行编码和标注，利用递归神经网络等算法训练模型，可以自动识别并解读甲骨文中的编码方式，减少破译工作的主观性和随意性。

甲骨文数字化处理研究进展

甲骨文数字化处理研究进展顾绍通【摘要】甲骨文数字化处理是当前古文字信息化处理的重要方面.文章首先阐述了甲骨文数字化处理研究的现实意义,接着介绍了甲骨文数字处理研究中字形拟合、字形编码以及甲骨文字体艺术变形等方面所取得的研究成果,分析了当前研究中的存在的问题,最后结合已有的研究成果,对未来的研究方向做了展望.【期刊名称】《广西民族大学学报（自然科学版）》【年(卷),期】2008(014)001【总页数】3页(P80-82)【关键词】甲骨文;数字处理;拟合;编码;变形【作者】顾绍通【作者单位】徐州师范大学,语言研究所,江苏,徐州,221116【正文语种】中文【中图分类】TP391自1899年金石学家王懿荣发现甲骨文至今已经有一百多年的历史了，甲骨文以其自身独特的魅力引起了众多学者的研究兴趣，现在已发展成为一门与历史学、考古学、文字学、文献学等学科有密切关系的一门学科——甲骨学.一百多年来，先后有十万余片甲骨文出土，经过几代学者的搜集、整理，绝大部分已经公布于世.经过几代学者的共同努力，认识或基本认识的甲骨文字约占总数的2/5，并在此基础上编纂出版了一批工具书.百年之中，人才辈出，专著数以百计，论文数以千计[1].这些著录书籍对于甲骨文的研究、传播起了很大作用.作为我国迄今发现的最早的一种成熟文字系统，甲骨文具有极其重要的学术价值和文化遗产保护价值.如何借助先进的计算机技术对其进行数字化，以有效保护、展示和方便使用，具有重要的现实意义.甲骨文的数字化处理包括3个方面:(1)将甲骨文点阵字形转化为计算机可以识别和处理的轮廓字形；(2)对甲骨文字形进行编码，使得甲骨文字形可以像现代汉字一样在计算机屏幕上显示出来；(3)甲骨文字体和其他字体风格融合的艺术变形.1 甲骨文字形的数字化拟合技术将甲骨文点阵字形转化为曲线轮廓字形，实现甲骨文字形的数字化，首先面临的问题是选择何种字形描述技术.在甲骨文字形拟合方面，1994年郑芳林等人[2]采取三次B样条曲线来拟合还原甲骨文字符，开发了一个造字系统.在MS-DOS环境下，该系统可以对包括ASCII字符、汉字和甲骨文字形进行处理.但是，这种曲线拟合方法与Windows环境下的TrueType字形描述方法有所不同，二者不能相互兼容.2003年肖明等人[3]利用HIGH-LOGIC公司的TrueType曲线轮廓造字软件，按照直线和二次B样条曲线拟合算法，自动将扫描的点阵图形抽成尽可能接近原稿的数字化信息(曲线轮廓)，生成一个独立的可运行于Windows、Linux环境下的TTF格式字库.但是，HIGH-LOGIC公司的TrueType曲线轮廓造字软件主要是针对只有较少字符的西方文字设计的，对数目巨大的中文字库支持还存在许多局限，如存在生成字形速度不快，生成的字形容易变形等缺点.2003年，李胜明、谭支鹏[4]采用三次样条B-spline 曲线拟合还原字符轮廓技术对甲骨文字形进行处理.但这种方法无法对甲骨文字形进行前期预处理.2004年马小虎等人[5]开发出了一个针对甲骨文字形特点的字形处理系统.在算法上，该系统采取顺序对曲线上的每个点与它左右两边相邻点的夹角求平均值的方法，来增加特征点提取的精确度，以及使用对缓慢弯曲的较长曲线插入一个额外特征点的方法，提高了字形拟合的精度.该系统可以通过移动控制点、导引点来修改字形的形状，对字形拟合可以进行精确的控制.不仅可以对点阵字形进行拟合，还可以对点阵字形进行适当的预处理，提高了字形质量.2 甲骨文字形的编码将甲骨文点阵字形转化为曲线轮廓字形并制作甲骨文字库后，随之而来的问题是，如何将甲骨文字形从字库中调出来，这就要对甲骨文字形进行编码.甲骨文的编码包括甲骨文字形的内码和甲骨文字形的外码.甲骨文字形的内码，即甲骨文字形的机内码，在计算机系统内部存储、处理甲骨文字形时所用的代码.甲骨文字形的外码，即甲骨文字形的输入码，是为了通过键盘字符把甲骨文字形输入计算机而设计的一种编码,它按照某种规则将每一个甲骨文字形和一个符号串或一个数字串对应起来，从而把甲骨文字形输入计算机中.2.1 甲骨文字形的内码Unicode发布以后，使用Unicode字符集对甲骨文字形进行编码成了首选.Unicode是一种双字节编码机制的字符集，包含符号6811个，汉字20902个，韩文拼音11172个，造字区6400个，保留20249个，共计65534个. Unicode同现在流行的代码页最显著不同点在于：Unicode是两字节的全编码，对于ASCII字符它也使用两字节表示.代码页是通过高字节的取值范围来确定是ASCII字符，还是汉字的高字节.如果发生数据损坏，某处内容破坏，则会引起其后汉字的混乱.Unicode则一律使用两个字节表示一个字符，最明显的好处是它简化了汉字的处理过程.Unicode使用平面来描述编码空间，每个平面分为256行，256列，相对于两字节编码的高低两个字节.Unicode的第一个平面，称为Basic MultilingualPlane(基本多文种平面)，简称BMP，由于BMP仅用两个字节表示，所以倍受青睐.其中 A-ZONE为拼音文字编码区，拉丁文、阿拉伯文、日文的平假名及片假名等都在此区编码.CJK Extension A 和CJK为汉字区域共计27487个汉字.Y1即彝文，位于O-ZONE保留待将来使用.Hangul即韩文.EUDC为用户私有区，用户可以根据需要自己定义此区的编码.R-ZONE为限制使用区，一些兼容字符、特殊字符均放在此区.UNICODE定义BMP中的D800-DFFF为代理区(Surrogate Zone),其中D800-D8FF为高半代理(high surrogate), DC00-DFFF为低半代理(low surrogate).从两个区域分别取一个编码，组成一个4字节的代理对来表示一个编码字符，此即为UTF-16.利用UTF-16机制，UNICODE扩充了1024*1024个字符，相应于OO-OF平面，并且将02平面分配给了CJK Extension B.Microsoft在Windows 2000已实现了 UTF-16.2.2 甲骨文字形的外码通常根据提取汉字特征的类别不同，将编码方案划分为3类：(1)按照字形特征进行编码，称为形码，如五笔字型编码.1996年李继明[6]提出了甲骨文象形编码方案，该编码方案利用甲骨文构字部件象形的特点，利用26个英文字母以及10个数字对甲骨文字形进行编码.1999年，肖明等人[7]运用模糊数学和面向对象Petri 网方法研究甲骨文的部件(字根)形成和码元的确定规则，使用25个英文字母和7个阿拉伯数字作为码元，与甲骨文中的五百多个字根相对应，实现一字一码的编码方案.2003、2004年肖明等人[3,8]对甲骨文象形码的编码方法进行了研究，认为甲骨文编码的最佳码长大致接近于3.形码从甲骨文构字部件象形的角度出发对甲骨文进行编码，并没有利用音方面的属性，存在重码较多的问题.(2)按照汉字的字音特征进行编码，称为音码，例如智能ABC编码方案.(3)将汉字的形、音特征结合起来进行编码，称为形音码.2002年尚君[9]通过对1056个甲骨文字头，2602个字形进行部件拆分，统计归纳出341个基本部件.采取以形码拆分为基础，以成字部件为依据的形音码结合的设计方案.2003年，周晓文[10]利用小篆造字软件拟合甲骨文字形，设计了甲骨文字库，并对其进行了编码，对2600余字形拆码分析而归纳出341个常用基本部件.但是，上述方案所归纳出的构字部件均是针对部分甲骨文字形分析得出，并不全面.2006年马小虎等人[11]通过对《殷墟甲骨刻辞类纂》[12]甲骨文字形进行分析和整理，从中整理出了569个甲骨文字根，将其分别编置在标准键盘的26个键位上.将这些字根与键盘上的字母联系起来，通过26个字母就可以输入《殷墟甲骨刻辞类纂》中3673个甲骨文(含异体字合文).但是，这种方法会带来很大的记忆负担.3 甲骨文字体的艺术变形甲骨文本身作为最古老的文字体系，在殷商时代它的艺术价值只是处于从属地位，受当时书写工作的制约，其风格和特征表现出一种波动性.作为汉字书法艺术的一种形式，其风格也应该是多样化的，因而后来出现了使用纸笔创作的现代甲骨文书法.到了数字时代，甲骨文也加入到数字书法的家族中，表现出了独特的艺术魅力.2007年马小虎等人[13]针对甲骨文字形特殊的几何特征和拓朴结构，提出了一种基于曲线轮廓描述的甲骨文笔段提取和字体变形方法.首先使用二次Bezier曲线拟合甲骨文字形轮廓，然后利用拟合曲线提取轮廓特征点，找出甲骨文笔段，根据笔段特征将其进行分类，再提取各种不同风格书体的笔段轮廓生成模板，最后按照轮廓模板变形甲骨文笔段从而生成新的字形.该方法使用轮廓提取笔段，避免了传统的细化方法容易造成畸变的问题.同时，该方法将甲骨文笔画拆解为笔段，这些最基本的笔段在现代汉字中同样存在.既保持了字体的书法特征，又解决了甲骨文和现代汉字结构差异大而无法合成的问题.该文是基于字形笔段的字体变形，对于图画性强的文字，变形的效果不再明显.另外，该变形方法只解决了笔画变形，并没有涉及到甲骨文字形间架结构的变形，使得该变形方法存在一定的局限性.4 发展方向目前问世的甲骨文字库只是通用甲骨文字库，所收录字形只是出土甲骨的一部分，还不能完全解决甲骨文信息化处理的所有问题.如果要实现对甲骨文学术研究的全面支持，全面、彻底地实现甲骨文的信息化处理，研究对象将扩大到所有出土甲骨的字形，全甲骨文字库的建设将是一个必须解决的问题.在全甲骨文字库建设过程中，字形的确定以及编码也是一个需要深入研究的问题.甲骨文字形风格独特，如何将甲骨文字形特点与其他更多的字体风格相融合,开发出具有全新的字体风格的甲骨文艺术字形,也是一个值得研究的领域.5 结语目前，古文字信息处理的研究方兴未艾，甲骨文作为我国最古老的成熟文字系统，它的信息化处理研究开始受到人们的重视.在甲骨文信息化处理的研究中，甲骨文的基础理论研究有待加强，特别是要加强对甲骨文字形考释、分期、整理的研究，为甲骨文的信息化奠定基础.当然，反过来甲骨文信息化处理研究对甲骨文基础理论研究也将起到很大的促进作用.总之，甲骨文字形的数字化及编码，是甲骨文信息化处理的基础研究工作，这一问题的解决必将为甲骨学的发展以及信息时代甲骨文知识的传播起到很好的促进作用.[参考文献]【相关文献】[1]陈炜湛．近二十年来的甲骨文研究[J].汕头大学学报，2001，(1).[2]郑芳林，鱼滨．一个通用造字系统及在甲骨文中的应用[C]∥中国青年计算机研究新进展.西安：西北工业大学出版社，1994.[3]肖明，赵慧，甘仲惟．甲骨文象形码编码方法研究[J]. 中文信息学报，2003，(5)：60-65.[4]李胜明，谭支鹏．建立甲骨文字库中的字处理技术[J].微机发展，2003，(6)：104-106.[5]马小虎，黄文帆，顾绍通，等．甲骨文点阵字形转换为甲骨文轮廓字形的方法[J].语言科学，2004，(3)：3-11.[6]李继明．计算机文字信息处理技术新探——甲骨文象形码设计方案[J].中文信息学报，1996，(3)：18-29．[7]肖明，胡金柱，赵慧．面向对象的Petri网方法及其在甲骨文编码中的应用[J].华中师范大学学报(自然科学版)，1999，(4)：495-499.[8]肖明，赵慧，甘仲惟．甲骨文象形码编码的模糊数学模型研究[J].计算机工程与设计，2004，(3)：358-361.[9]尚君．甲骨文编码研究[D].硕士毕业论文，2002.[10]周晓文．古文字字库的设计与实现[J].民俗典籍文字研究，2003，第1辑，375-380.[11]Xiaohu MA, Shaotong GU, Yiming YANG. Digitization Processing And Input Method Coding Of JIAGUWEN[J].Journal of Computational Information Systems, Volume 2, Number 2, 2006.[12]Xiaohu MA, Xuexue Fan. Study on Automatic Generating New Style Jiaguwen Basedon Outline Description[J].Journal of Computational Information Systems, Volume 3, Number 3, 2007.[13]姚孝遂，肖丁．殷墟甲骨刻辞类纂[M].北京：中华书局，1989.。

基于构件的甲骨文字编码器设计与实现

及显示，由于甲骨文年代久远，以对于中具体所处的相对位置。为早期文字，但所作由
甲骨文无论从音或是义上人们都很难完全于时代较早的关系，上书写物质条件等个 “ 一个 ” 钮来选择待编码的甲骨加和下按
文构件的形成，．Ｅ平台下实现了可视构件为２１，级构件为６个，级构件在ＮＴ９个三１四
一
化的甲骨文数字化编码，实现了对５０多为６。并００个甲骨文字的有效编码。
码的从属层次关系。于构件方位编辑视对图，功能非常明确，来添加、除、改构用删修件位名和方位编码。
视图窗口由２Ｔｂ成。户可以选择不介ａ组用
人们开始高度重视甲骨文的计算机处理方２２构件方位．
同的Ｔａ进入编码视图和构建方位编辑视ｂ构件方位就是指某一构件在整个字形图。在编码视图中，户可以点击 “ 一用上
２１Ｎ００Ｏ１５ａｄＴｅｈｏｏｙＩｎｖｔｏｒｌｎｃｎｌｇｎｏａｉｎＨｅａｄ
基于构件的甲骨文字编码器设计与实现 ① 技术创新
李东琦刘永革（阳师范学院计算机与信息工程学院甲骨文信息处理重点实验室安
把握，年来一直没能对甲骨文进行有效限制，多甲骨文的构件方位多种多样，目前研文字。选择某一个甲骨文字后，图右半当视地编码。实上，何一种文字都自成体究得出大体２种甲骨文字构件方位。事任５部分的两个列表框中就会显示出该甲骨字系，一套确定的构成规律，们的构形部２３构件层级有它．的构成部件。户通过选择一个构件，后用然件尤其如此。甲骨文也不例外，它的构件亦

基于分形几何的甲骨文字形识别方法

０引言
甲骨文是书写在龟甲和兽骨上的文字，是我国迄今发现的最早的一种成熟文字系统。
甲骨文字形的输入可以采用编码输入或者识别输入的方法。目前对甲骨文字形采用编码输人的方案已有多种，如基于甲骨文字形动态描述库的输入方法口］、可视化甲骨文输入法ｌ２］、基于拓扑结构的输
顾绍通
（江苏师范大学语言科学与艺术学院，江苏徐州２２１００９）摘要：甲骨文是流行于我国古代商朝的成熟文字系统，本质上是一种平面图形，笔画和结构不是非常稳定。很多字形具有图画性质，难以区分明显的结构，难写难记。已有的编码输入方法受众面小，效率很低，使用受限。该文分析了甲骨文字形的分形性质，在此基础上，通过字形的重心建立二维平面直角坐标系，将甲骨文字形的平面图形划分为四个象限。利用分形几何的原理，通过计算字形以及各个象限的分形维数，将甲骨文字形形式化为一组分形描述码。再通过与甲骨文字形的分形特征库进行配准，从而识别甲骨文字形。实验结果显示，利用分形几何可以较好地识别甲骨文字形。关键词：甲骨文；分形几何；分形维数；识别中图分类号：ＴＰ３９１文献标识码：Ａ

基于语义构件的甲骨文模糊字形的识别方法

基于语义构件的甲骨文模糊字形的识别方法
高峰;吴琴霞;刘永革;熊晶
【期刊名称】《科学技术与工程》
【年(卷),期】2014(014)030
【摘要】针对殷墟甲骨文字整理过程中大量模糊字形难以识别的问题,提出了一种基于语境的统计分析和Hopfield网络相结合的模糊匹配识别方法.该方法利用语境分析生成的候选字库得到对应的甲骨文语义构件向量,然后结合基于Hopfield网络的识别结果计算待识别的甲骨文模糊字的匹配度,根据匹配度确定目标甲骨字.实验表明,该方法对部分甲骨拓片的模糊甲骨字识别效果较好.
【总页数】5页(P67-70,86)
【作者】高峰;吴琴霞;刘永革;熊晶
【作者单位】安阳师范学院计算机与信息工程学院甲骨文信息处理重点实验室,安阳455002;安阳师范学院计算机与信息工程学院甲骨文信息处理重点实验室,安阳455002;安阳师范学院计算机与信息工程学院甲骨文信息处理重点实验室,安阳455002;安阳师范学院计算机与信息工程学院甲骨文信息处理重点实验室,安阳455002
【正文语种】中文
【中图分类】TP391.41
【相关文献】
1.基于拓扑配准的甲骨文字形识别方法 [J], 顾绍通
2.基于甲骨文字形动态描述库的甲骨文输入方法 [J], 栗青生;吴琴霞;王蕾
3.基于Capsule网络的甲骨文构件识别方法 [J], 鲁绪正;蔡恒进;林莉
4.基于分形几何的甲骨文字形识别方法 [J], 顾绍通
5.基于语义构件的甲骨文字库自动生成技术研究 [J], 吴琴霞;栗青生;高峰
因版权原因，仅展示原文概要，查看原文内容请购买。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

二甲骨文识别技术
甲骨文识别技术可以定义为一种视觉识别技术，它是基于甲骨文的特征信息进行搜索定位的一种视觉识别技术。用户使用手机或相机等带有摄像头的工具采集含有甲骨文字的图像，随后系统自动在该图像上进行检测，进而对检测到的甲骨文进行识别，最后提供该甲骨文的原始拓片或近似拓片信息以及相关研究成果。这一系列相关技术，包括程序和具体甲骨材料，有机地构成了甲骨文识别技术。该技术的智能性体现在基于图像搜索而非基于文本搜索，因此不需过多依赖用户的甲骨文已有知识。同时，在识别时不受用户拍摄时可能产生的个体行为或客观外在因素的影响，如甲骨文拓片的ｐ旋ｏｉ转ｎｔ、）缩，或放光、平照移影（响ＲＳ（ｉＴｌｌ：ｕｒｍｏｉｔｎａａｔｉｔｉｏｏｎｎ、）ｓ，ｃａ或ｌｉｎ杂ｇ物ａｎ场ｄｔ景ｒａ（ｎｃｌｓｌｕａｔｔｔｉｅｏｒｎ））与，或噪用声户，甚视至点于即甲图骨像文仿射字／本投身影被变部换分（ｖｉ遮ｅｗ挡（ｏｃｃｌｕｓｉｏｎ）等等。
１
Байду номын сангаас
中国文字研究·第二十九辑
Ｍａｃｈｉｎｅ，ＳＶＭ①）的理论建立知识库，实现简单的甲骨文字形相似性分析分类和识别，主要代表有：史小松《基于支持向量机的甲骨文字结构分析研究》（２０１０）②、孙莹莹《基于混合核ＬＳＳＶＭ的古汉字图像识别》（２０１５）③、刘永革等《基于ＳＶＭ的甲骨文字识别》（２０１７）④。不过，甲骨文虽然是成熟的文字系统，但毕竟处于汉字早期阶段，除了异体字众多，低频字高度集中外，还有很多甲骨文字属于未考释字。该方法主要适用于模式识别领域，在解决图画特征明显，结构不清晰的甲骨文字上还有困难。另外，该方法对甲骨文字的旋转、缩放、平移、遮挡等识别率不高，算法处理尚有空间，同时在存储和计算时耗费大量的机器内存和运算时间，运行效率较低。（５）还有的学者尝试深度学习（核心算法是卷积神经网络）技术，辅以草图识别技术，建立甲骨文文字数据库。主要代表有：高峰等《ＲｅｃｏｇｎｉｔｉｏｎｏｆＦｕｚｚｙＣｈａｒａｃｔｅｒｓｏｎＯｒａｃｌｅｂｏｎｅＩｎｓｃｒｉｐｔｉｏｎｓ》（２０１５）⑤、王长虎《ＢｕｉｌｄｉｎｇＨｉｅｒａｒｃｈｉｃａｌＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｏｒＯｒａｃｌｅＣｈａｒａｃｔｅｒａｎｄＳｋｅｔｃｈＲｅｃｏｇｎｉｔｉｏｎ》（２０１６）⑥、微软亚洲研究院（２０１７）⑦采用ＭｉｎｄＦｉｎｄｅｒ（草图识别技术）系统，建立起一个拥有包括２６０类、２万甲骨文文字的数据库。不过，该方法适合大数据，简单的应用神经网络无法在甲骨文识别上取得较好的效果，模型的过拟合严重，无法泛化。数据集中分类数目过多，且在分类的类目下面仍然存在大量的异体字，能够为网络提供特征提取的样本过少。因此，目前甲骨文识别研究尚无法完全提取甲骨文字的主要特征，尚未得出完全符合甲骨文字实际情况的算法，且使用范围受到一定的限制。高速、精确及立体化、智能化应该是未来甲骨文识别技术发展的重要方向。
③ 王晓丽：《高精度曲线轮廓甲骨文字形生成系统的研究与实现》，硕士学位论文，苏州大学，２０１０年。
④ ６７页⑤。
⑥
吴栗青琴生霞、、吴栗琴青霞生、：杨《基玉于星有：《向甲笔骨段文甲字骨形文动输态入描方述法库的及设其计字与形实生现成》，技《计术算研机究应》，用《北》２０京１２大年学，学第报２３（７自４—然２科３７７学页版。）》２０１３年，第６１— 栗青生、杨玉星、王爱民：《甲骨文识别的图同构方法》，《计算机工程与应用》２０１１年，第１１２—１１４页。
基金项目：该项目获得教育部重点研究基地重大项目古文字专题数据库系列（课题编号：１８ＪＪＤ７４０００４）、２０１８年度孔子学院建
设课①②题（课李周题锋新编伦、周号、：新李ＣＩ伦锋Ｋ：、Ｔ华《０甲１星６骨）城支文等持自：。动《甲识骨别文的计图算论机方识法别》，方《电法子研科究》学，《学复刊旦》１学９９报６（年自，然第科４１学—版４７）》页１９。９６年第５期，第４８１—４８６页。
［古文字研究］
基于编码的甲骨文识别技术研究
陈婷珠吴少腾吴江李淋
【摘要】随着ＡＩ领域的崛起，如何利用机器视觉高效、准确地识别图像目标，近年来已成为国内外学者研究的重点。目前，国内外学者对甲骨文的图像识别进行了大量研究，但在识别精度、识别时间和抗干扰能力等方面仍有发展空间，尤其是现有甲骨文识别技术对专家的依赖性高而甲骨文信息共享普及率则相对较低。针对上述问题，本文以殷墟小屯村中村南甲骨为实验基础，提出基于编码的甲骨文识别技术，即在图像预处理计算过程中，把甲骨文图像转换为编码，并在此基础上提出甲骨文识别系统的设计与实现方法。【关键词】编码；甲骨文；图像识别技术【作者简介】陈婷珠，女，上海交通大学人文学院副研究员，研究方向为甲骨文字学。吴少腾、吴江和李淋为上海机械与动力工程学院本科生和研究生，研究方向为视觉与图像识别。（上海２０００３０）
一问题的提出
甲骨文作为一种古老文字，对于它的识别处理与研究常常遇到种种困难和挑战。目前，国内外学者对甲骨文识别技术的研究主要有以下几类。（１）有的学者从字形出发，利用笔画方向和长度等字形特征，采用无向或有向笔段和笔元技术以描述甲骨文字形，主要代表有李锋等《甲骨文自动识别的图论方法》（１９９６）①、《甲骨文计算机识别方法研究》（１９９６）②，王晓丽《高精度曲线轮廓甲骨文字形生成系统的研究与实现》（２０１０）③，栗青生等《基于有向笔段甲骨文输入方法的设计与实现》（２０１２）④、《甲骨文字形动态描述库及其字形生成技术研究》（２０１３）⑤、《甲骨文识别的图同构方法》（２０１１）⑥。这种方法将甲骨文字形进行矢量描述，建立了甲骨文字形描述库，为古文字的数字化编辑提供了一个新思路。不过，由于甲骨文字形线条极其复杂，不存在现代汉字一般意义上的笔画概念，人类在识别甲骨文上往往是整体输入方式，而非一个个笔画。因此，采用这种方法的分类率并不高，尚无法真正意义上为甲骨文进行机器识别分类。（２）有的学者利用拓扑结构或图形分类进行分析，如顾绍通《基于拓扑配准的甲骨文字形识别方法》（２０１６）⑦、吕肖庆等《一种基于图形识别的甲骨文分类方法》（２０１０）⑧。（３）有的学者基于语义进行分类，如高峰等《基于语义构件的甲骨文模糊字形的识别方法》（２０１４）⑨。（４）有的学者利用甲骨文字结构等特征，采用语料库和支持向量机（ＳｕｐｐｏｒｔＶｅｃｔｏｒ
⑦ ９６页⑧。
顾吕肖绍庆通、：李《基沫于楠拓、蔡扑凯配伟准等的：甲《一骨种文基字于形图识形别识方别法的》，甲《计骨算文机分与类数方字法工》，程《北》２０京１６信年息，科第技２０大０１学—学２０报０６（自页然。科学版）》２０１０年，第９２—
⑨ 高峰、吴琴霞、刘永革等：《基于语义构件的甲骨文模糊字形的识别方法》，《科学技术与工程》２０１４年，第６７—７０、８６页。