藏文字库标准符合性自动检测方案设计与实现
基于自顶向下剖析算法的藏语句法分析系统的研究与实现

2018年第8期信息通信2018 (总第188 期)INFORMATION & COMMUNICATIONS (Sum. No 188)基于自顶向下剖析算法的藏语句法分析系统的研究与实现相毛吉,安见才让(青海民族大学,青海西宁8100〇7)摘要:句法分析是自然语言处理(Natural Language Procession,NLP)领域中的关键问题之一,同时它也是公认的一个研究 难题,其主要任务是自动分析出句子的语法结构,也就是说,将一个线性序列的句子转换成一个结构化的句法树。
藏语 句法分析是藏语自然语言处理的重点。
它的发展能带动其他后继工程如机器翻译、问答系统、信息抽取等的发展。
为了 实现具有可行的,有效的藏文句法系统。
文章在Windows平台上使用Visual Studio 2015开发工具及C#语言研究并设 计实现了基于自顶向下剖析算法的藏语句法分析系统,该系统通过小规模的藏语句子进行测试并验证了句法分析准确 率达到了可以使用的水平。
关键词:自顶向下剖析;藏语句法分析;生成树中图分类号:H214 文献标识码:A 文章编号:1673-1131(2018)08-0092-02〇引言藏语句法研究的时间虽不短,但是到目前还没有可以共 用的藏语句法系统。
并且对句法分析的过程用人工分析是非 常复杂而成本又高。
因此,对于藏语句法的研究并设计具有 实用性的藏文句法系统已迫在眉睫。
该系统根据藏语句法的特殊性,对藏语的基本句型进行 人工句法分析标注,进一步研究基于自顶向下剖析算法的句 法结构,并且在分析过程中生成句法树。
1藏语句法分析算法1.1基于乔姆斯基范式的现代藏语语法规则为了用短语结构语法来描述和生成自然语言,乔姆斯基 提出了乔姆斯基范式:任何的由上下文无关语法生成的语言,均可由重写规则为A—BC或A—a的生成,其中A, B, C是非 终极符号,a是终极符号。
具有这样的重写规则的上下文无关 语法,它的句法树均可简化为二元形式,这样就可以采用二分 法来分析自然语言,采用二叉树来表示自然语言的句子结构。
藏文文本编码识别方法研究

藏文文本编码识别方法研究春燕;曲珍【摘要】讨论了藏文编码识别与转换中的关键问题,介绍了藏文结构特点和统计学特征以及各种可能的识别准则,并进行分析比较.确定了使用以藏文的音节点间距规律和高频音节为特征的识别方法对方正Windows、方正Dos、同元、华光Windows、华光Dos、班智达、ASCII的藏文编码方案、ISO/IEC10646基本集、国家标准扩充集A的藏文编码识别,能够正确地将藏文文本与其他语言进行区分.在对目标样本的测试中,该算法的识别率可达100%.%This paper discusses critical problems with Tibetan encoding identification and conversion. Accordingto Tibetan character structural and its statistical characteristics, it introduces various possible recognition rules, and the results are analyzed and compared. Used characteristics of distance regulation and high frequency between Tibetan syllables to determination encoding identification of FOUNDER Windows, FOUNDER Dos, Tonguer, HURGURNG Windows, HURGURNG Dos, Pandita, the Tibetan encoding based on ASCII, ISO/IEC10646 basic set and Tibetan coded character sets-Extension A, can correctly distinguish Tibetan text with other languages. The rate of recognition reaches 100% using these algorithms on the test documents.【期刊名称】《计算机工程与应用》【年(卷),期】2013(049)001【总页数】4页(P141-144)【关键词】藏文编码;藏文编码识别;音节点【作者】春燕;曲珍【作者单位】西藏大学计算机科学与技术系,拉萨850012;西藏大学计算机科学与技术系,拉萨850012【正文语种】中文【中图分类】TP391.1对藏文文本的识别由两部分实现:一是识别该文本是否为藏文文本,二是识别该藏文文本所使用的编码方案。
藏文字库设计中OpenType特征标记的应用研究

整 的书写 整体 的字形 称 为基 本 字 形 ( ae l h ; B s y )把 gp
位于基本字形 以上的部分称为基 一上部分 ; 而位于
O eTp pn ye的 字库 中通 过 设 置 相 应 的标 记 和预
基本字形以下的部分称为基一下部分。 辅音字母在 定义标记的内容来得到想要 的字形。 pn ye O eTp 字库 组合叠加时 , 有的会“ 变形 ” 用另一个字形代替原 中可 以设 置 四种 标 记 , 字 符 标  ̄ Sf tas、 ( 即 E(c p g)语 i t 来 的辅音字形 ) ,而有 的不管是否组合都只有一个 言标 ̄ (agaeas、 E L nug t )特征标记 (et eas以及 g Fa rt ) u g 字形。 在组合字符 中, 用于开始组合的 , 叠加在最上 基线 标 记 ( ae n g )1 B sl e as【 i t 8 。 面的辅音字母称为前导辅音 (ed os at ; h a no n )除前 c n s 字符标记用于识别所设计 的字符在 U i d 编 nc e o
中图分 类号 : P 1 . T 3 72
1 前 言
文献 标识 码 : 文 章编 号 :0 5 5 3 (0 8)1 0 9 0 A 10 —7 82 0 0— 2 — 4
U 0B ) , + F F 嘲 这些辅音字 符 以组合 和非组合两种方 式来构成藏字。非组合辅音字符与前导辅音字符使
点, 微软 V s 操作 系统的推 出, ia t 把藏文等几种少数 民族 文字的处理推到 了一个新的阶段 , Vs 但 i t a自身只 带了一个藏文白体 字库 , 不能满足 用户对字体的需求。文章分析 了 O eT p 特征标记在藏文字库设计 pn y e
藏文文本分类技术研究综述

藏文文本分类技术研究综述苏慧婧,群诺(西藏大学信息科学技术学院,西藏拉萨850012)摘要:该文介绍了藏文文本分类技术的研究与进展。
首先对现阶段常用的文本表示以及文本特征选择方法进行了分析和比较,接着回顾了藏文在机器学习方面的分类算法特点,深入讨论了不同算法应用在藏文文本分类技术上的研究情况,最后指出了当前藏文文本分类所面临的问题和挑战,并对未来的研究提出了建议。
关键词:藏文文本分类;文本表示;特征选择;机器学习中图分类号:TP391文献标识码:A文章编号:1009-3044(2021)04-0190-03开放科学(资源服务)标识码(OSID):Summary of Research on Tibetan Text Classification TechnologySU Hui-jing,QUN Nuo(School of Information Science and Technology,Tibet University,Lhasa850000,China)Abstract:This article introduces the research and development of Tibetan text classification technology.First,it analyzes and com⁃pares the commonly used text representation and text feature selection methods at this stage,then reviews the characteristics of Ti⁃betan classification algorithms in machine learning,and discusses the application of different algorithms in Tibetan text classifica⁃tion technology.Finally,it points out the current problems and challenges of Tibetan text classification,and puts forward sugges⁃tions for future research.Key words:Tibetan text classification;text representation;feature selection;machine learning自然语言是人们日常使用的语言,是人类学习生活的重要工具。
央金藏文分词系统

1央金藏文分词系统史晓东*2卢亚军**3*厦门大学人工智能研究所 361005E-mail:**************.cn**西北民族大学科研处 730030E-mail:*****************摘要:藏文分词是藏文信息处理的一个基本步骤,本文描述了我们将一个基于HMM的汉语分词系统segtag移植到藏文的过程,取得了91%的准确率。
又在错误分析的基础上,进行了训练词性的取舍、人名识别等处理,进一步提高了准确率。
关键字:藏文分词、自然语言处理、HMMA Tibetan Segmentation System – YangjinXiaodong Shi*, and Yajun Lu***Institute of Artificial Intelligence, Xiamen University, Xiamen 361005, China**Northwest University for Nationalities, Lanzhou 730030, ChinaAbstract: We described the porting of a Chinese segmentation system to handle Tibetan. The F-measure of the new Yangjin system is above 91% over a test corpus although the training corpus is relatively small. We also described more processing upon error analysis which led to further improvement.Keywords:Tibetan Segmentation, natural language processing, HMM1 引言随着少数民族语言(主要是藏、维、蒙)到汉语的机器翻译研究逐渐进入人们的视野实验,相关的少数民族语言基础法分析工具也亟待完善。
藏文古籍字丁数据集半自动标注方法

藏文古籍字丁数据集半自动标注方法发布时间:2023-02-03T07:53:11.910Z 来源:《中国科技信息》2022年第9月第18期作者:曹宇豪邢鹏辉叶欢[导读] 藏文古籍字丁数据集是用机器学习技术进行藏文古籍字符识别的数据基础。
曹宇豪邢鹏辉叶欢西南民族大学四川成都 610225;摘要:藏文古籍字丁数据集是用机器学习技术进行藏文古籍字符识别的数据基础。
传统的藏文古籍字丁数据集采用人工标注方式构建,其中画标注框任务与输入类别名任务因串行进行而耗时较长,并且输入的类别名为藏文字丁,这导致人工标注的方法存在标注时间长和标注门槛高的问题。
对此,本文提出了一种半自动标注方法:将画标注框和输入类别名两项串行任务并行化,其中由具备藏文输入能力的标注者完成输入类别名任务,其余标注者完成画标注框任务;通过标注框的中心点坐标信息对标注框进行行间排序和行内排序,分割、整合倾斜古籍图像对标注框进行行纠正,排序好的标注框赋予对应的目标类别名,从而整合得到完整的目标标注信息。
该方法不仅可为藏文古籍字丁数据集标注缩短时间和降低门槛,而且可为其他文种的古籍文字数据集标注提供有益参考。
关键词:图像标注;深度学习;藏文字丁;藏文古籍引言数据标注[1]是对未经过处理的初级数据进行加工处理,并转换为机器可以识别的过程。
根据标注数据类型的不同可分为文本标注、语音标注、图像标注和视频标注。
图像标注作为其中的一个重要部分,是图像分类、语义分割、目标检测、字符识别等相关高级任务的基础。
由于这些相关任务大部分需要成千上万的标注图像,并且传统人工标注存在着成本高、效率低的问题,因此半自动标注逐渐成为许多学者的研究热点,如:郭乔进等[2]提出了基于目标跟踪算法的半自动图像标注框架;;文献[3]提出了一种融合检测和跟踪算法的视频目标半自动标注框架。
区别于常见的自然图像数据集,如ImageNet数据集、COCO数据集等,藏文古籍字丁数据集由于标注目标为藏文字丁[4],故在标注过程中需要输入的类别名为藏文字丁,而藏文字丁相较于汉字和英文更加小众。
藏文字笔画编码排序的设想

藏文字笔画编码排序的设想刘城;黄鹤鸣;李继文【摘要】藏文字符排序将被广泛应用于藏文文字信息处理的各个方面,包括字、词典的排序、系统软件和其他应用软件.试图对藏文的书写笔画排序规则做出较为正确、合理的归纳和富有逻辑性的描述,目的是为了找到一种在计算机里自动实现藏文笔画排序的算法模型,并打破了藏文字符仅依赖于音节部首结构排序的传统思维定式和框架.%Tibetan sort will be widely used in every aspect of Tibetan language text information processing,including word,dictionary sequence,system software and other application software.This paper attempts to describe Tibetan writing stroke sorting rules which make more correct,reasonable induction,the purpose is to find a sorting algorithm model that could realize automatically the Tibetan strokes character.And which break the framework in Tibetan character syllable sequence depends only on the syllable key radical structure sorting traditional of thinking.【期刊名称】《计算机系统应用》【年(卷),期】2013(022)005【总页数】3页(P18-20)【关键词】藏文;笔画编码;笔画;模式识别;音节【作者】刘城;黄鹤鸣;李继文【作者单位】青海师范大学计算机学院,西宁810008;青海师范大学计算机学院,西宁810008;青海师范大学计算机学院,西宁810008【正文语种】中文藏文的字母和其它符号有一定的笔顺, 藏文 1的笔顺有些和汉文字的笔顺一样, 按照笔顺写, 字才写得漂亮. 不过, 笔顺作为规则是活的, 各种教材里的英文字母笔顺体样式就多种多样, 汉字笔顺也时有调整, 所以对藏文的标准不唯一, 是正常现象.1 常见藏文字体的笔画样式概述首先我们来分析以下列出的3套体系的藏文印刷体笔顺, 各有一些差别(包括声调符号). 不难看出他们的字体样式会有所不同, 但字的笔画是近似的. 三类分别为: 一是带有箭头笔画指向的版本藏文字书写,见图1; 二是藏族朋友们初学时, 教师常教的一种藏文字书写笔画顺序, 见图2; 三是藏文报刊、教科书的上的书写版本, 见图3. 图1 带有箭头笔画指向的藏文字书写方式图2 教师常教的一种藏文字书写笔画图3 藏文报刊、教科书的上的书写版本通过上面公认的三套体系的藏文书写版本, 因人而异的会喜欢自己的一套书写藏文的笔画顺序, 作为写惯了中韩文日文的学者朋友们, 肯定会将其与其他文字的书写笔画或方式进行对比, 不难看出, 藏文的笔画字体有其独特的特点是: 每个字母最上一笔是横直的, 字母排列时.上端必须在一条直线上, 形似平顶帽. 由于这种字体多用作刊印书籍、录、写文章的字体, 也成出版字体, 另一种笔顺书写则很随意.对于每一个了解和熟悉藏文字的人, 笔画和书写是习得文字的前提, 因此采取笔画编码形成的输入方法不但规范而且易于掌握, 无需强记, 真正可以做到计算机汉字输入如同写字, 得心应手.2 计算机藏文字笔画编码具有它的科学性计算机藏文字编码包括字库编码和输入法编码两类[1]; 其中输入法编码分为, 键盘输入法编码和非键盘输入法编码; 在键盘输入法编码中主要有音节编码和字型编码两大类. 经过长期深入研究和实践, 我们认为计算机藏文输入法采取笔画编码具有其它方法难以逾越的优势, 它能最有效地解决无法用藏文音符编码输入所有藏文的问题, 它能最有效地解决以往字型类编码难学难记的问题.同样是拼音文字的现代藏文, 也有其科学的、明确的、传统的排序规则, 只是由于现代藏文在字符结构构成、拼写方法和书写走向等方面与英文有所不同,使得对现代藏文排序规则的描述相比英文字符排序要多些步骤.任何一种语言文字都有自己的排序规则, 人们在使用该语言文字时都习惯性的有种共识和规范. 人们在使用这熟知和共同遵守的规则, 可以对各种字符、词典和字、词表以及查找其中的字符进行编排. 例如:英文作为在世界范围内最普遍实用的语言文字, 有其自身的排序规则要求. 在众多程序设计语言的库函数中也都有其字符(串)比较函数(模块), 这样对程序员编程来说很方便, 也更有利于广大用户的使用.3 藏文字的笔画规范3.1 藏文字笔画顺序具有很强的规范性汉字的笔画编码在上世纪八十年代风行一时, 此文的思路基本上按照这个思路进行编码, 因为汉藏文字属于同一体系, 所以从原则上这是讲得通的: 由于国家语言文字委员会对藏文字定有《现代藏文通用字笔顺规范》, 小学藏语文教学必教笔画顺序, 因此采取笔画编码是书写藏文字的人都可接受和掌握, 它不要求什么特殊的记忆, 只要会写的人就能使用, 这点与汉字的笔画编码的理由一致. 汉字的笔画编码已经在被人们广泛使用, 所以藏文字笔画顺序具有很强的规范性.在实际编码中, 由于藏文字结构具有较强的规律性,但是藏文字很少有完全相同的, 个别笔画的使用常常凝聚在部分组合上, 而且藏文字的单音节字符笔画多的达到 6画以内, 按照标准四键编码, 如不进行有效合理的处理, 重码率[1]难以降低. 因此在制定编码技术过程中,必须着重根据藏文字的笔画分布规律, 结构规律, 普通人群的识字规律对所有藏文字笔画和结构以及词组进行充分整理和分析, 确定符合人机行为学的编码规则.藏文字本身由简单的藏文基本音节构成, 也可以看成是由基本笔画通过不同顺序和笔画数组合构成,笔画和笔画顺序完全相同的藏文字极少, 这就使得我们有针对性地采取一定的措施之后, 笔画编码是能够有效地控制编码重码率的.3.2 藏文字笔画的结构藏文字笔画分布规律要求最合理的定义使用的笔画, 在汉字笔画中包括“横、竖、撇、捺、点、折、弯钩、提”, 而在藏文字中这些笔画的使用率各不相同,有些使用率很低, 以30个基字单音节为例研究藏文文字笔画的使用频率分别为: 横的使用率为96.67%、撇的使用率为20.02%、捺的使用率为6.67%竖的使用率为 33.3%、弯钩的使用率为 10.03%、提的使用率为3.33%. 因此需要科学的归类和组合笔画才能最合理的代表藏文字组字信息, 以均匀分布笔画编码.其中结构规律要求最直观的是定义藏文字字型,并科学的确定笔画分配, 藏文字字型包括“左右型、上下型、左中右型、上中下型、独体型”等等, 由于藏文字字符串笔画数多, 笔画编码必须根据字型分配笔画,此时必须考虑编码的重码率, 这一点很重要, 任何编码如果重码率太高, 就意味着输入时需要更多的选择,输入效率不高是一个方案被淘汰的主要原因之一, 因此在藏文字字型选择越多则编码重码率就易于下降,但规则就相对复杂, 因此应尽可能的简单化. 设计补充藏文字笔画编码是由于部分藏文字笔画较少, 不足以编辑四码; 采取两种方法共同补充, 一是按标准藏文音节字母顺序补充, 二是重新按藏文字书写笔画补充, 从而确保了会使用藏文字汉化音的和会藏文字笔画的人均可以方便灵活使用.4 藏文字符音节构成部件的基本字符Unicode现代藏文编码字符集为现代藏文分配的编码空间是从OFOO至OFFF. 其中, 对现代藏文字符的音节是按类连续编码的, 字符的分类规则和排放顺序完全依照现代藏文传统的排序方法. 针对藏文字符的30个辅音字母连续分配于OF4O至0F69之间, 4个元音符号分配于OF71至OF7D之间. 因此, 比较现代藏文字符音节间各构件时, 不需要再为辅音字母和元音字符编码进行编码, 直接比较其字符音节的编码值. 根据Unicode国际字符集编码原则, 现代藏文的上加字音节必定都为非组合用字符区的字符, 下加字音节则都为组合用字符区的字符, 通过代码值就可以正确反映它们的排序顺序. 藏文字符音节构成部件的基本字符具体如下表1:表1 藏文字符音节基本字符表?因此, 要设计符合规范的现代藏文字排序模块, 必须使之完全基于Unicode现代藏文编码字符集及其编码原则, 本文就是基于 Unicode现代藏文编码字符集标准进行应用设计构思的[2-5]. 在藏文字中“横竖撇捺点折弯钩提”对其笔画部首进行编码, 将会很省计算机的内存空间, 处理数据的时间度将会降低. 这样更方便、更有效的字符编码排序的趋势也将会更快捷和简单化.5 对现代藏文字笔画编码排序顺序的构思现代藏文排序将被广泛应用于现代藏文字符的字处理的各个方面, 包括字、词典的排序、系统软件和其他应用软件. 目的是在 Unicode国际字符编码的标准下, 实现一种在计算机里自动分割现代藏文单音节排序的算法模型. 采用藏文笔画编码的排序前提还是要依赖于藏文基本字符音节的科学排序规则.现代藏文字笔画分部有如下表2:表2 现代藏文字笔画分部?掌握藏语知识的人, 他们对现代藏文语言文字的传统人工排序规则很熟悉, 他们能很快的进行编排和查找现代藏文词典. 可是想要在计算机中实现对这一传统的排序规则做一个简单明了而又富有逻辑性的描述却具有一定的挑战性. 现代藏文字符音节的排序是指依照一定的规则, 对输入单个现代藏文音节结构部件进行优先级的排序, 从而指出现代藏文单音节的各个结构部件, 为进一步的多音节现代藏文排序提供很好的参考与实现. 对现代藏文字笔画编码排序顺序则需要把藏文字的基本音节字符掌握清楚, 在其基础上作进一步的细化, 这样藏文字笔画编码排序规则就易于程序设计及算法优化了.参考文献【相关文献】1 张学涛.汉字的笔画、部件、偏旁和基本字四大组成部分—中文信息名词标准化概念探讨.计算机中文环境,1995,(7).2 黄鹤鸣,达飞鹏.基于排序的现代藏文音节判定.计算机应用,2009,29(7).3 黄鹤鸣,赵晨星.对DUCET 中部分藏文字母排序码的商榷.计算机工程与应用,2008,44(29).4 扎西次仁.藏文的排序规则及其计算机自动排序的实现.中国藏学,1999,4.5 春燕,曲珍.藏文文本编码识别方法研究.计算机工程与应用,2011,10.6 珠杰,欧珠.基于藏文编码GB的藏文排序方法研究.西藏大学学报(自然学科报版),2008,5.7 江荻,康才晙.书面藏语排序的数学模型及算法.计算机学报,2004,4.8 江荻,燕海雄.藏文字符的分类与功能描述.西藏研究,2010,10(5).9 王华,丁晓青.一种多字体印刷藏文字符识别方法计算机工程,2004,30(13).。
基于字典的藏文分词系统实现研究

基于字典的藏文分词系统实现研究作者:格桑多吉乔少杰何泽东来源:《电子技术与软件工程》2015年第15期摘要随着对语言文字信息处理研究工作的不断加深,藏文信息处理技术也逐渐从字信息处理走向了语言信息处理。
跟日语、汉语、韩语等语种的信息处理相同,藏文自动分词( Tibetan Automatic Word Segmentation)是藏文信息处理中的一项必不可少的基础性工作,在此基础上才能划分短语、抽取概念以及分析主题,以至自然语言理解,最终实现智能化。
对于不同应用环境,藏文自动分词需要采用最合适的算法,本文通过对藏语语料的统计分析和藏语词的分布特点、语法功能的研究,提出了设计开发基于词典库的藏文自动分词系统,力求为藏文输入法研究、藏文电子词典建设、藏文字词频统计、搜索引擎的设计和实现、机器翻译系统的开发、网络信息安全、藏文语料库建设以及藏语语义分析研究奠定基础。
【关键词】藏文信息处理技术藏文自动分词分词系统1 藏文分词研究现状随着中国西藏地区的科技和文化逐步发展,涉及到藏文信息的应用正在得到越来越多的关注和使用,基于藏文信息处理技术的应用因此应时而生。
其中出现了包括藏文输入法,藏文电子词典,藏文搜索引擎,藏文机器翻译系统等大量的基于藏文信息的应用。
但是,由于这些应用都需要藏文分词作为先决条件,这使得藏文分词的工作量急剧上升,而人工分词会耗费大量的人力物力,而且已经远远不能满足这些应用的需求和增长。
在这样的时代背景下,藏文自动分词的研究价值就体现出来了。
藏文自动分词可以为藏文输入法提供联想率最高的单词,可以为藏文电子词典提供藏语语料,可以为藏文搜索引擎提供关键词,为藏文机器翻译提供断句等等。
可见,藏文自动分词是藏文自然语言理解的一项基础性工程,也是一项必不可缺的工作。
藏语自然语言理解在机器翻译、信息检索、智能输入、校对、自动摘要、自动分类和词典编纂等领域有着广泛的应用价值。
藏文自然语言处理可以借鉴亲属语言汉语分词研究的已有成果和成功经验。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
藏文字库标准符合性自动检测方案设计与实现刘瀚猛;芮建武;白真龙;吴健【摘要】软件产品的标准符合性测试是衡量产品质量与性能的重要方法.本文根据藏文字符集标准与字型标准,按软件产品的可用性原则,分析与定义了藏文字库标准符合性检测的含义与内容.本文提出了实施藏文字库标准符合性测试的方案与算法,实现了藏文字库测试程序.测试结果表明本文的检测方案可行、完整,也为其他文字的字库标准符合性检测提供了很好的途径.【期刊名称】《中文信息学报》【年(卷),期】2008(022)003【总页数】5页(P124-128)【关键词】计算机应用;中文信息处理;藏文;字库;标准符合性;测试【作者】刘瀚猛;芮建武;白真龙;吴健【作者单位】中国科学院,软件研究所,中国科学院,研究生院,北京,100190;中国科学院,软件研究所,中国科学院,研究生院,北京,100190;北京科技大学,北京,100083;中国科学院,软件研究所,中国科学院,研究生院,北京,100190【正文语种】中文【中图分类】TP3911 引言标准符合性检测指对产品的功能、性能等指标进行测试,并与相关国家标准或行业标准所规定指标进行对比,以判断其是否符合标准的规定与要求。
软件产品的标准符合性检测目的是通过测试验证软件产品是否达到了标准中规定的各项指标。
字库的制作是按一定规则进行的,一套完整的字库在面市前要经过多个流程才能完成。
特别是中文、藏文等复杂文字字库,更是复杂繁琐,每个笔画及细节都需要仔细处理。
一个字库的产生基本包含字稿、扫描、数字化拟合、修字等步骤。
其中的某些步骤是很浩大的工程,在制作过程中很难保证不出现错误,难以确保字库中的每个编码的字型都一定符合国家的相应标准。
经过调研发现:虽然国家目前已经制定发布了很多藏文信息处理标准,但是还没有针对藏文字库标准符合性的检测工具出现。
如果要对字库进行检测,只能采用人工检测,检测效率低下,人力资源成本很高(藏文常用字有接近2 000个,藏文佛经中使用的字则接近10 000个)。
因此,研究设计藏文标准符合性自动检测的方案是一个实用且非常重要的课题。
本文从藏文信息处理的角度出发,按照国家的相应标准,分析与定义了藏文字库符合性自动检测的内容,提出了测试藏文字库的方法。
最后通过试验,取得了很好的效果。
2 藏文字库标准符合性的检测内容藏文信息处理标准包括以下标准: (1)字符集与编码标准包括GB 16959-1997(信息交换用藏文编码字符集“基本集”[1])、GB/T 20542-2006(信息技术藏文编码字符集“扩充集A”[2]); (2)字型标准包括GB/T 16960.1-1997(藏文编码字符集(基本集)24×48点阵字型--第1部分:白体) [3],以及正在报批的“藏文编码字符集(基本集及扩充集A)24×48点阵字型——吾坚琼体” [4]。
由于“扩充集B”[5]仍在报批过程中,所以本文不讨论“扩充集B”编码范围。
但是,本文的设计方法理论上可以用在“扩充集B”编码范围上。
根据电子工业标准化研究所信息处理产品标准符合性检测中心的规范CTC/S-QD-005-01(《GB 18030-2000 检测规范——操作系统》) [6],和藏文信息处理标准的内容,藏文字型标准符合性检测包括:完整性检测和一致性检测。
所谓完整性就是指被测字库中的编码范围覆盖了国家相关标准中要求包含的所有编码,比如“基本集”;所谓一致性就是指藏文编码对应的藏文字型要符合国家相关标准中定义的字型,比如国家藏文白体字型标准。
需要注意的是:一致性的满足是建立在完整性满足之上的,如果被测字库没有满足完整性要求,那么该字库的一致性也就无从谈起。
经调研后发现,一个藏文字库只有覆盖了“扩充集A”国家藏文编码标准才是可用的。
根据“扩充集A”的说明,“扩充集A”可以有两种实现级别。
实现级别1不使用“动态组合”方式,编码字符数据元素内不包含组合用字符的编码表示,即“扩充集A”的编码和藏文字型是一对一的关系。
实现级别2使用组合用字符,即“动态组合”方式,也就是多对一方式,多个“基本集”编码作为一个输入序列对应一个“扩充集A”藏文字型。
我们在测试完整性时,就需要检查被测藏文字库是否完全覆盖了“基本集”和“扩充集A”中的所有编码。
在测试一致性时,也以符合相应字型标准在“基本集”和“扩充集A”编码范围上的字型要求为中心。
所以,下文中讨论的测试范围都是“基本集”加“扩充集A”中所有的字型。
3 检测方案的设计鉴于国内藏文信息处理的发展现状以及技术方面的原因,藏文编码字符集标准的制订经历了一个曲折的过程,具有一定的特殊性。
对于“扩充集A”国家编码标准的支持来说,字库厂商在设计字库时就可能采用两种不同的形式:一种是采用“动态组合”方式,字库中编码只覆盖“基本集”,依靠“基本集”字型的组合来得到“扩充集A”中的字型,这种方式一般实现为OpenType字库格式;另一种不使用“动态组合”方式,即直接在字库中包含“扩充集A”编码,“基本集”和“扩充集A”的编码和藏文字型是都是一对一的关系,这种方式一般实现为TrueType字库格式。
对于TrueType字库A,可以简单地通过系统API取得字库A覆盖的编码范围,这样就能很直接地检查出字库A是否符合藏文字库符合性检测中关于完整性的要求。
对OpenType字体来说,检测方法有所不同。
查阅Microsoft公司的在线OpenType specification,我们可以知道它是TrueType 格式的扩展延伸。
使用OpenType字体格式中的GSUB与GPOS表格,可以实现字库中字型的多对一、一对多和多对多的替换与组合,并能够实现复杂的字型定位。
对藏文字库来说,使用OpenType字体格式可以通过使用“基本集”的编码“动态组合”出所有“扩充集A”中的字型。
这样,对于OpenType藏文字库B,通过同样的方法,即使检测出字库B只覆盖了藏文“基本集”中的编码,却不能说字库B不符合完整性要求。
这就增加了藏文字库标准符合性检测的复杂性。
针对这种情况,我们提出了一种新的想法,通过使用模式识别中的相关理论,以字库生成的字型为依据,来设计藏文字库的检测方案。
如果对于一个藏文字型,字库生成的字型和标准字型通过我们的算法比较后得出的相似度太低,我们就认为:该字库(1)要么字型设计上不符合标准(未达到一致性标准);(2)要么根本未实现该字型(未达到完整性标准)。
因为根据Microsoft的在线OpenType规范,对于字库中未定义的编码,字库将显现下面三个图形中的一个:具体的方案设计包括如下步骤:获取被测字型的图形、求得字型的图形特征、计算相似度。
下面具体说明各个步骤。
3.1 获取被测字型的图形首先设置被测字库为当前使用字库,然后向字体引擎输入一个藏文编码或者一串藏文编码序列并截取字体引擎生成的最后字型为标准Bitmap文件。
需要说明的是:对于“基本集”中的字型来说,无论是TrueType字库还是OpenType字库,我们输入的都是该字型对应的编码;对于“扩充集A”中的字型来说,如果是TrueType字库,我们输入的就是该字型对应的编码,如果是OpenType字库,我们输入的则是该字型对应的一串“基本集”藏文编码序列。
3.2 求得字型的图形特征被测字型图形和标准字型图形的比较可以归结为被测字型图形的特征和标准字型图形的特征的比较。
提取字型图形特征的具体实现如下:1) 剪裁为了将取特征的重点放在图形中的藏文字型上,我们将藏文字型周围的空白区域剪裁掉。
下文中我们分别称标准图形和被测图形经过剪裁后的图形为标准剪裁图形和被测剪裁图形。
图1 剪裁操作2) 归一化剪裁后的两幅图形(标准剪裁图形和被测剪裁图形)要进行归一化操作。
所谓规一化就是把两幅图形都放缩到相同的尺寸。
归一化主要目的是为了减少图形间的大小差异,我们所做的是把所有剪裁图形的大小归一化成64×64大小。
如下图所示。
图2 归一化操作3) 分割归一化后的图像将归一化后的图形进行分割,在我们的操作中,将归一化后的图像分割为8×8个小图像(即每个小图像的分辨率为8×8像素)。
如果不分割的话,我们的操作单元就是一个像素点,那我们将得到原图的一个64×64维的特征向量,这样虽然精细但是效率较差。
分割后,我们的操作单元是一个8×8像素的小图像,通过对这个小图像求出一个特征值来表示这个小图像使得我们最后得到的整个图像的特征将是一个8×8维的特征向量,既照顾到精细性又减轻了复杂度。
图3 分割图像操作4) 提取特征点和计算特征值这部分操作是参考了汉字识别领域的成熟算法 [7],针对我们分割后的一个小图像进行的。
首先将这个小图像转换成一个8×8的矩阵表示,即小图像上的每一个像素点对应矩阵中的一个元素。
矩阵中每一个元素的取值为0或1,其中0表示白点,1表示黑点。
以图4分割后的第一行第三列的小图像和第一行第五列的小图像为例,经过提取特征点操作后会分别得到如下的矩形数据(为了方便观察,将图3中的和放大了4倍显示在图4中):图4 投影取得特征点得到小图像的特征点矩形数据后,我们使用了Gaussian 滤波器(这里用Gabor 滤波器的Gaussian包络表示)来计算特征值。
其中具体过程如公式(1)、(2)。
(2)其中,设参数。
其中波长λ=8,N=2λ。
公式(1)的作用是对矩形中的8×8个元素对应的像素点分配它们的权值。
公式(2)使用公式(1)计算出的矩形中每个元素的权值乘以每个元素的实际值(0或1),从而得出小图像的特征值(即以每个小矩形中心点为采样点,以N×N为区域的所有像素点经过Guassian滤波器加权后的和值)。
使用Gaussian 滤波器分配权值思想是基于以下几点考虑的: (1)只靠小图像中黑点的个数不足以十分清晰地区分两个小图像。
例如图4中的两个小图像,虽然两个小图像显然不同,但是可以看出它们包含的黑点的个数相差不大;(2)藏文中弧形结构很多,方向性信息并不是很明确,不像中文字横平竖直,所以使用方向作为特征效果不好;(3) 使用Gaussian 滤波器分配权值,其目的是把注意力集中在小图像中黑点的分布上。
例如,图4中两个小图像中的黑点个数相近,但分布差别很大,这样,通过公式(1)和(2)求出的特征值也有较大差别;(4) 在模式识别领域,Gabor 特征已经被证明是一非常好的针对图像识别的特征,比如说它在虹膜识别和文字识别上都非常成功,因此也能应用在藏文的检测上。
5) 计算原图像的特征向量通过对这8×8个小图像进行提取特征点和求特征值操作,我们得到了64个特征值,它们组成了原字型图像的一个64维的特征向量。