机器翻译用藏文自动分词探究
基于AdaBoost模型的藏文文本分类研究与实现

基于AdaBoost模型的藏文文本分类研究与实现目前,藏文大量文献资源已数字化和信息化,通过分类技术对文本进行分类,有利于文献工作者对文献的管理,同时阅读者更能快速方便的查询相关文献。
由于藏语语言结构复杂,在自然语言处理领域,人们对其研究时间相对较短,在文本分类处理中,目前还没有一个相对成熟的分类体系,其原因主要是用于分类实验的语料和模型相对较少,即使有些模型也做了实验研究,但是分类效果却不是很理想,阻碍了分类技术的发展,因此本文通过网络收集一定规模的语料并结合当前相对成熟的机器学习AdaBoost分类模型对藏文文本进行了研究与实现,实验结果表明该模型提升了对藏文文本的处理能力以及具有良好的分类性能。
本文在研究国内外文本分类的基础上,结合藏语语言本身的特点,把数量不同的多类别样本和当前较为认可的多类型特征作为模型的数据来源,以机器学习中相对成熟的分类模型为核心,建立完成了基于AdaBoost模型的藏文文本分类系统,通过测试达到了预期效果,本文研究成果如下。
1.由于当前研究与实验的藏文语料相对较少,所以本文70000多篇语料由个人收集所得并分为7个类别,然后通过文本预处理共形成4392个规范样本,最终完成了对样本集的构建工作。
2.把N-Gram和词共4种特征作为提取的对象,利用特征频度排序算法、信息增益算法、信息增益添加算法和前向逐步回归算法依次从成千上万个特征中选取了100个左右具有明显类别区分的特征作为本文实验所用特征,提高了模型的分类效率。
3.对KNN、GaussianNB、Logistic回归和SVM常规分类模型进行研究和实验,为本文强分类模型的构建作前期探索,探索中验证了上述分类模型具有稳定的分类性能。
4.通过学习AdaBoost模型对文本分类的原理,提出利用上述(3)所列4种机器学习分类模型替换原AdaBoost分类模型中使用迭代算法获取弱分类模型的方法,同时利用排列组合数学算法,共生成11种AdaBoost分类模型并通过5-CV实验结果表明,以一码元、二码元和词为特征的11种分类模型的分类精确率和召回率都达到了90%以上,最低的三码元特征模型的分类精确率和召回率也达到了88%,其中以一码元为特征且基于4种机器学习模型共同组合的AdaBoost模型分类精确率与召回率分别达到了96%和95%,并通过基于AdaBoost模型的多模式分类实验对比,显示出该模型具有良好的分类性能。
藏语语料库词语分类体系及标记集研究

工的主要 目的是使 计算机能够对藏语语料 库 中的截语 词语 进行 自动切 分和 自动 标注 . 该 丈在 对 大规模 藏语语 料
库进 行 自动切分 和人 工分析的基拙上提 出了一个成语 词语 分类 体 系和标记 集. 根据 藏语 语料 库 和计 算机 自动切
分和标注 的实际禽要 , 在 藏语词语分类体 系的构建上 , 采用先分应 实 , 再确定大 类 , 在 大类 的基础上 分 出小类 , 再分 出不 同深度 的子 类
A 加 tr c a
nd
l U niversity , Q i n g hai, X i ni n g 8 10 00 8 , C h i n a)
t : F or th e au tom a ti e seg m en t a ti on and P O S tag ging , th i s pa per P ro po ses a T i b etan w o rd eateg o ry system an d
e y w on l K s : eom p uter ap p l ieati on ; C h i n ese inf o r m ati on pr o ees:i ng , eo rP u s;T ibetan ph rases ; ea teg o ry ; m ark g ath erin g
习 研 可 苦 习 q百 呵
v气 月 可 等);
决 可冷 自 勺如 :
5. 形 容词 类 (A ) (形容词 a 气 .
气 ,气 一 两q 长 1西 可 沂 , ,二 ,二 T 等; 状 态 词 ;飞 叭 油勺 如:舒 补 勺忿 叮 叨 禽 二 补 和弓 万 习 等);
6. 副 词 类 ( n ) ( 副 词 d 勺 月 , 气 可 a角 盯 1如: 万石 l q日 愁 , 奋 气 伸 和衡 等); 7. 叹 词 类 (E ) ( 叹 词 e . 气 叮 月 , 马 气 1如 :
基于双语对齐句型库的藏汉机器翻译方法研究

基于双语对齐句型库的藏汉机器翻译方法研究通过藏汉双语句子中词语序列异同点的比较,研究藏汉双语句型对齐方法,建立了一个小规模藏汉对齐句型库和对照词典库,在此基础上提出了基于藏汉双语对齐句型库的机器翻译算法。
标签:机器翻译藏语句型对照词典双语对齐句型库一、藏、汉句子中词语序列的对比分析藏汉两种语言在语法(包括词序、虚词的运用、动词的形态变化)上的区别,给藏汉双语对齐句型库的构建带来了一定的难度。
除了在句子的词序和词数上变化上有明显的区别外,在虚词的运用和动词的形态变化上也不同。
例如:5.汉语动词没有形态变化,而藏语动词具有形态变化在藏文文法中,对动词的形态变化、及物性及分类等方面的研究很丰富,是藏语动词的复杂性增强。
据统计,现代藏语动词1453个,其中,756个动词本身有形态变化,而汉语动词没有形态变化,这给藏汉对齐句型库的建设和规范化带来了汉语与藏语动词的比较。
例如:实例例6中的藏语动词以”/”分开的四个形态分别是动词的未来式、现在式、过去式、命令式。
在建立藏汉对齐字形库时,第1种对齐句型因词性、词序都相同,容易建立,但对第2、3、4、5、6种对齐句型的处理就变得相对复杂,将在后续内容中详细描述。
二、对照词典的设计与句型库的建设1.对照词典的设计与实现基于双语对齐句型库的藏汉机器翻译方法研究需要设计实现一个添加了详细词性标记的藏汉对照词典的设计与实现。
本文涉及的机器翻译方法,需要一个对照词典的支持,而这个对照词典不是一般意义上的简单对照词典,而是一个添加了词性标记的对照词典。
表3-1为其基本结构和功能:因页面大小,此处只列举了整个对照词典的一小部分内容,第一行中除”word”以外的其他英文标记表示词性,它们分别表示连词(cd)、及物动词现在式(vt)、动名词(nv)、及物动词过去式(vi)、随立名(nn)、指示代词(rz)、属格助词(gz)、使格助词(gx)、位格助词(gl),对照词典里的词性种类及数目远不止这些,总共有80余个词性。
藏语文语转换系统关键技术的研究

2 藏 语 文 本 预 处 理
2 . 1 藏 文分词
藏 文分词 是 藏文信 息处 理 的一项基 础性 工作 。它
换系统 就显 得尤 为 重 要 。 同时 , 藏 语 文语 转 换 的实 现 将 会大 大 丰富藏 族地 区人 民 的生活 , 拓宽 信息 获取 、 发
布 和交 流 的渠道 , 对 藏 族 地 区 的社 会 稳 定 、 民族 团结 、 和谐进 步 有着重 要 意义 。
1 . 2 语音 合成历 史及 现状 回顾
是将 连 续 的藏 文文 本按 照一定 的算 法根 据藏 语语 法规 则切 分成 词 的过 程 。藏文 分 词 作 为语 音合 成 、 机 器 翻 译、 语 音识别 等研 究工作 的必 要前 提 , 在藏 文信 息处 理 领 域 很 是 重 要 。 下 面 本 文 就 藏 文 分 词 来 加 以 探 讨
行 了相关 文献 的研 究 和实 验 , 但 对 藏 语 语 音研 究 还 不
够深 入 , 国外对 藏语 语音 合成 方面 也未 曾有 相关报 告 。
答系统 , 电子邮件 的语音服务 以及残疾人语音辅助等
领 域 。藏语 文语转 换 系统 的研究 及应 用具 有很 重要 的 意义 , 尤其 是对 于藏 族地 区 的幼儿 和老人 , 藏语 文语 转
藏文分词方法跟其他语言分词方法类似, 都可以
用 基于 规则 的或 基于统 计 的方法 , 目前 , 作 者 阅读 过 的
诸 多文 献 中 , 处 理藏 文分 词 大 多 是用 基 于规 则 的正 向 最大 匹配上 加格 助词 的正 向最 大 匹配 , 另 外 有 逆 向的
在 2 0 世纪末 , 可训练 的语 音合 成 方法 诞 生 。而后 又
藏文文本分类技术研究综述

藏文文本分类技术研究综述苏慧婧,群诺(西藏大学信息科学技术学院,西藏拉萨850012)摘要:该文介绍了藏文文本分类技术的研究与进展。
首先对现阶段常用的文本表示以及文本特征选择方法进行了分析和比较,接着回顾了藏文在机器学习方面的分类算法特点,深入讨论了不同算法应用在藏文文本分类技术上的研究情况,最后指出了当前藏文文本分类所面临的问题和挑战,并对未来的研究提出了建议。
关键词:藏文文本分类;文本表示;特征选择;机器学习中图分类号:TP391文献标识码:A文章编号:1009-3044(2021)04-0190-03开放科学(资源服务)标识码(OSID):Summary of Research on Tibetan Text Classification TechnologySU Hui-jing,QUN Nuo(School of Information Science and Technology,Tibet University,Lhasa850000,China)Abstract:This article introduces the research and development of Tibetan text classification technology.First,it analyzes and com⁃pares the commonly used text representation and text feature selection methods at this stage,then reviews the characteristics of Ti⁃betan classification algorithms in machine learning,and discusses the application of different algorithms in Tibetan text classifica⁃tion technology.Finally,it points out the current problems and challenges of Tibetan text classification,and puts forward sugges⁃tions for future research.Key words:Tibetan text classification;text representation;feature selection;machine learning自然语言是人们日常使用的语言,是人类学习生活的重要工具。
藏文信息处理的原理与应用电子版

藏文信息处理的原理与应用电子版引言藏文是中国少数民族中使用的一种重要文字,它承载着藏族人民的文化遗产和思想智慧。
为了更好地进行藏文信息的处理和应用,电子版的藏文信息处理技术应运而生。
本文将介绍藏文信息处理的原理和应用,以及电子版在这个过程中的作用。
藏文信息处理的原理1. Unicode编码Unicode是一种全球统一的字符编码标准,它为不同文字和符号提供了唯一的数字编码,包括了藏文字符。
Unicode编码使得计算机能够正确地处理藏文字符,并能够在不同的平台上进行正确显示和编辑。
2. 字符转换由于藏文的特殊性,需要将其转换为计算机能够处理的格式,一种常见的方式是将藏文字符转换为Unicode编码。
这样可以在计算机上进行相应的处理和操作,比如搜索、排序、保存等。
3. 分词在进行藏文信息处理时,常常需要将文本拆分成词语的形式进行处理。
分词是将一段藏文文本按照词语为单位进行划分的过程。
分词可以提取有用的信息,帮助进行词频统计、文本分类和信息检索等操作。
4. 语言模型语言模型是指对自然语言中的词序列概率进行建模的方法。
通过语言模型,我们可以对藏文文本进行预测和生成。
语言模型可以用于机器翻译、自动摘要、对话系统等应用中,为藏文信息处理提供了更多的可能性。
藏文信息处理的应用1. 机器翻译机器翻译是将一种语言的文本转换为另一种语言的过程。
对于藏文这样的特殊语言,采用机器翻译可以极大地减少人工翻译的工作量,并且提高翻译的效率。
通过将藏文转换为计算机可处理的格式,机器翻译可以在不同语言之间进行自动翻译。
2. 文本分析文本分析是对文本信息进行提取、分析和理解的过程。
在藏文信息处理中,文本分析可以帮助我们更好地理解藏文文本的含义和结构,比如提取关键信息、聚类相似文本、情感分析等。
文本分析可以应用于网络舆情监测、情报分析、文本挖掘等方面。
3. 信息检索信息检索是指在大规模文本数据集中查找符合用户需求的文档或信息的过程。
对于藏文信息处理来说,信息检索可以帮助用户快速、准确地找到想要的藏文文档。
央金藏文分词系统
1央金藏文分词系统史晓东*2卢亚军**3*厦门大学人工智能研究所 361005E-mail:**************.cn**西北民族大学科研处 730030E-mail:*****************摘要:藏文分词是藏文信息处理的一个基本步骤,本文描述了我们将一个基于HMM的汉语分词系统segtag移植到藏文的过程,取得了91%的准确率。
又在错误分析的基础上,进行了训练词性的取舍、人名识别等处理,进一步提高了准确率。
关键字:藏文分词、自然语言处理、HMMA Tibetan Segmentation System – YangjinXiaodong Shi*, and Yajun Lu***Institute of Artificial Intelligence, Xiamen University, Xiamen 361005, China**Northwest University for Nationalities, Lanzhou 730030, ChinaAbstract: We described the porting of a Chinese segmentation system to handle Tibetan. The F-measure of the new Yangjin system is above 91% over a test corpus although the training corpus is relatively small. We also described more processing upon error analysis which led to further improvement.Keywords:Tibetan Segmentation, natural language processing, HMM1 引言随着少数民族语言(主要是藏、维、蒙)到汉语的机器翻译研究逐渐进入人们的视野实验,相关的少数民族语言基础法分析工具也亟待完善。
藏文翻译系统的研发与实现
藏文翻译系统的研发与实现随着中国与藏区交流的不断增加,对藏文翻译系统的需求也越来越大。
然而,由于汉藏语系的不同,藏文语法的复杂性以及字母的独特性,要实现高质量的藏文翻译并不容易。
因此,本文将探讨一下目前藏文翻译系统的研发与实现。
一、藏文基础知识要了解藏文翻译系统的研发,我们需要首先了解一些藏文的基础知识。
藏文是一种借用了梵文的字母表,一个字母通常代表一个音节。
藏文中还有表示词性和语法关系的后缀,这使得藏文的语法非常复杂。
藏文中还有很多词汇是由词根和后缀组成的,因此藏文单词的长度通常比较长。
此外,不同的字母组合在一起代表不同的音节,这也增加了藏文翻译系统的难度。
二、藏文翻译系统的研发由于藏文的特殊性,目前的翻译系统很难满足人们的需要。
因此,一些专家和学者正在研发新的藏文翻译系统,以提升翻译的质量和准确性。
目前的藏文翻译系统主要分为两种,即基于规则的系统和统计机器翻译系统。
基于规则的系统依靠人工编写的规则来进行翻译,这种方法需要大量的人工投入,但是可以比较好地解决藏文翻译中的一些语法和语义问题。
统计机器翻译系统是另一种常见的翻译方法,它利用大量的双语语料库进行训练,然后通过概率模型来估计最适合的翻译结果。
这种方法比较适合解决一些翻译中的词汇和单词组合问题。
三、实现藏文翻译系统的挑战实现藏文翻译系统面临很多挑战,其中最大的挑战是藏文的语法和词汇系统。
藏文的语法比较复杂,有很多种类型的词缀和语法现象需要处理。
这就要求翻译系统需要对语法和词汇系统有很好的了解,才能进行正确和合理的翻译。
此外,藏文单词的长度比较长,这也是困扰藏文翻译系统开发者的一大难题。
翻译系统需要能够分离一个长单词的词根和后缀,同时还要识别不同的字母组合代表的不同音节,才能进行正确的翻译。
四、未来的发展方向虽然藏文翻译系统还存在许多问题和挑战,但是我们相信在不久的将来,随着技术的不断进步和现有翻译系统的不断完善,藏文翻译质量会不断提高,为汉藏交流提供更好的帮助。
班智达汉藏公文翻译系统中基于二分法的句法分析方法研...
班智达汉藏公文翻译系统中基于二分法的句法分析方法研究才藏太 李延福(青海师范大学藏文智能信息处理中心 中国 青海 西宁 810008)caizangt@摘要机器翻译系统是一种典型的自然语言处理系统,语言技术是机器翻译系统中居于核心地位的技术,实用化的机器翻译系统一般是采用自然限制的受限语言的翻译,且以基于规则的方法为主流方法。
本文结合863项目《班智达汉藏公文机器翻译系统》的研制实践,论述了词项信息同语法规则相结合的原则,提出了以动词为中心的句法分析二分法,从而在受限语言的范围内,为建立有较大适应性的机器翻译规则系统,有效地提高机器翻译语法分析的效率提供了有益的方法。
关键词:机器翻译二分法语句结构句法分析1、引言随着计算机技术的不断普及,如何将大量的汉语和外语的科技信息、教材、参考读物、科普读物等及时地翻译成藏语,进而为广大藏区科技、教育、文化事业服务已成为制约广大藏区社会经济发展的关键问题。
在汉藏科技翻译人员极端缺乏的今日,班智达汉藏机器翻译系统的研制和推广应用必将有助于促进这一问题的尽快解决。
在机器翻译系统中,语言技术是居于核心地位的技术,因而讨论机器翻译系统的句法分析问题便是一个重要的问题。
机器翻译的方法有多种,但基于规则和词典的方法仍然是到目前为止的一直采用的主流方法。
我们研制的863项目班智达汉藏公文机器翻译系统是采用基于规则的翻译系统。
机器翻译进行的是两个语言无限集之间的转换,在现有的科学水平之下,计算机科学还不能从理论上证明,用一个有限的机器翻译规则系统来进行原语和译语的无限集之间的转换的可能性,因此实践上比较可行的办法是采用自然限制的受限语言。
我们研制的班智达汉藏公文机器翻译系统就是一种受限语言的机器翻译系统。
2、系统结构班智达汉藏机器翻译系统由科技系统、公文系统和电子词典三部分组成,采用C++语言在Windows环境下实现。
考虑到实际应用中用户的需要,系统设有译前和译后编辑功能。
基于LSTM的藏文词拼写检查技术研究
摘要文本的自动校对是自然语言处理的基础工作之一,旨在用计算机对文本中存在的错误进行分析和改正的工作,目的是让计算机能够自动的将有错误的文本恢复为正确文本。
拼写检查是利用计算机快速的检测文本中的错误,能够提高文本校对的效率,是文本校对中采用的一种首选技术。
英、汉文本的拼写检查技术已取得了丰硕的成果,并广泛地应用于各种字处理软件。
与英、汉文本的拼写检查技术相比,藏文文本的拼写检查技术还处于起步阶段,其研究在藏语语料库建设、语音识别、文字识别等诸多方面具有广泛的应用价值。
本文借鉴英、汉文本的拼写检查技术,通过分析藏文文本中的错误类型和藏文拼写检查研究现状,提出了基于TC_LSTM(Tibetan Characters LSTM,TC_LSTM)语言模型的藏文词拼写检查方法。
主要内容包括:(1)建立了实验语料藏语目前没有统一的语言模型训练和测试实验语料,因此我们利用爬虫技术从藏文网站中获取了大小为186MB,包含15147315个音节的藏文文本语料,并对其进行了预处理,得到了较高质量的实验语料。
(2)构建TC_LSTM语言模型藏文是字的序列,字与字之间有明确的分割标记,但词与词之间没有显示分割标记,藏文文本分词还存在诸多问题,因此提出了以字为输入单位的TC_LSTM 语言模型,并实验验证了其有效性。
实验表明TC_LSTM语言模型在测试集上的困惑度比传统的Bigram和Trigram语言模型分别降低了74和18,其效果比Bigram和Trigram语言模型得到了显著的提升。
(3)设计藏文词拼写检查算法提出了基于TC_LSTM语言模型的藏文词拼写检查方法,设计了基于TC_LSTM语言模型的藏文词拼写检查算法,并实验验证了算法的有效性。
实验表明,基于TC_LSTM的词拼写检查最高准确率、召回率和F值分别达到了97.20%、85.89%和79.09%,最高准确率、召回率和F值比Bigram分别提高了11.87%、3.46%和1.85%,基于TC_LSTM语言模型的藏文词拼写检查方法的性能优于Bigram语言模型。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
机器翻译用藏文自动分词探究官却多杰【摘要】According to the Tibetan and Chinese Machine Translation pretreatment process, put forward phrases as segmentation unit, so as to reduce the complexity of the Tibetan word segmentation algorithm. The test can improve the effect of Tibetan and Chinese Machine Translation effectively, meet Tibetan and Chinese Machine Translation source text pretreatment requirements.%针对藏汉机器翻译过程中的藏文预处理,提出切分单元尽可能短语化,从而降低藏文分词算法的复杂度。
经测试能有效提高藏汉机器翻译的效果,符合藏汉机器翻译源文预处理的需求。
【期刊名称】《电子测试》【年(卷),期】2015(000)022【总页数】3页(P46-48)【关键词】机器翻译;藏文;自动分词【作者】官却多杰【作者单位】青海师范大学民族师范学院,青海共和,813000【正文语种】中文【中图分类】TP391在藏汉机器翻译过程中,首先要对源文藏文部分进行分词预处理。
源文切分粒度直接影响分词算法的复杂度,单纯意义的分词算法将会以词为单位进行自动切分,尽可能切分到最细小的词语单元。
但在藏汉机器翻译时,切分粒度太小则翻译单元随之增加,并且需要进一步考虑这些细小的翻译单元在目标语言中的位置。
由此可知,采用纯粹的分词算法进行藏汉机器翻译源文预处理,既增加了分词算法的复杂度,又降低了藏汉机器翻译的效率。
本文提出在藏汉机器翻译源文预处理时,藏文分词粒度尽可能短语化,与翻译词典中最长的词条匹配,减少翻译单元和语序调整等额外的开销,从而缩短预处理时间并有效提高藏汉机器翻译的效率和质量。
文章借鉴陈玉忠等人提出的基于格助词和接续特征的书面藏文自动分词方案[1],首先对藏文进行预处理,对文本中的非藏文部分进行切分;其次,对纯藏文部分进行处理,根据藏文标点符号和格助词将上一步得到内容进行更加详细的划分;最后对切分中出现的歧义和未登录词进行识别并及时处理,从而确保切分的准确性,将所有的小段切分结果进行重新组成,形成最后的输出结果。
文章进行分词算法研究的主要目的是对藏汉机器翻译中的源文部分进行预处理工作,机器翻译用藏文分词算法不仅要尽可能多的认词,同时需要兼顾后续翻译时能够找到切分出的词汇译文,因此该分词算法所用的词典不能简单的考虑到分词,同时也应该充分考虑其收录的词汇是否具有译文。
考虑到这些因素,词典收录了《新编藏文字典》和《藏汉大辞典》的词条,其中多数藏文词汇都有相应的汉文译文。
在进行自动分词研究的过程中主要使用哈希表进行词典构造。
哈希表的元素查找速度不受表中元素个数的影响,元素查找速度较快。
[2]在保留与词典匹配的最长块的前提下,依据藏文文法中各类格助词的特性和藏文标点符号将纯藏文文本进行切分,对切分结果进一步进行消除切分歧义和识别未登录词的工作,得到更加精确的切分结果,从而避免机器翻译中的错误。
3.1 格助词切分对藏文进行分词的核心在于结合藏文字、词、句各类形式特征来确定格助词及其接续特征规则的识别。
因此,在进行藏文分词的过程中如何准确的实现对格助词划分关系到分词的最终效果。
(1)切分“”的基本思想为:若文本中出现“”,就需要结合其前一个音节遵循表1中添接规则进行判断,如果是格助词则按照添接规则进行划分。
(2)切分“”的基本思想为:假如在需要进行自动分词的文本中出现“”,就需要结合前一个音节,按照表2中的规则进行判断,如果符合格助词添接规则,再与其后一至两个音节字组词根据词典判断是否成词,若不成词则确定为格助词予以切分。
(3)切分“”的基本思想为:由于“”添接在无后加字和后加字为“”的音节后面,所以若是文本中出现“”,需要首先把“”和其黏着的音节进行分离,在此基础上对已经分离出来的音节是否为无上、下加字的双字丁且无元音进行判别工作,如果是就可以将其判定为后加字为“”的音节字,故而在此音节后添加字母“”,并将“”切分,若不是则直接切分。
(4)切分“”的基本思想为:切分“”时用“还原法[3]”进行切分,由于“”可作为后加字,导致切分不可避免会发生错误,对本来应该是后加字的“”也有可能进行切分,并且“”也可以做为再后加字,这导致本来应该是再后加字的“”也有可能会被切分。
为了正确切分“”,文章在进行研究时将与“”组合出现频度较高的词汇作为标记进行切分。
3.2 正向最大匹配分词算法设计利用词典对藏文分词时采用正向最大匹配方法,将被切分段从第一个音节开始直到末尾都假设为词在词典中进行查找,直至发现以该音节为起点的最长词然后切分,用同样的思路将剩下部分进一步进行切分。
在完成藏文分词工作之后,还需要将所有切分的小段进行重新组合。
切分过程如表3所示,假如在进行切分时,需要进行切分的文中的成词词条都没有在词典中收录,就需要对表中所有的需要进行查询的词条进行查找,遍历一次后确定没有没有匹配词条,就将待切文本作为一块。
在对藏文进行分词时经常会遇到切分歧义和未登录现象,这两个问题对藏文分词的最终准确性会产生影响。
因此,在进行藏文分词时,解决好歧义消除并对未登录词进行自动识别,对提高藏文分词的准确性有十分重要的作用。
4.1 歧义消除切分歧义是汉语自动分词研究中的一大难题[4],藏文分词中也同样存在这样的问题,由于藏文词也存在多义性,并且在词与词之间没有自然切分的标记,因此通过程序对藏文文本进行自动分词,难免会出现歧义现象。
在对藏文文本进行自动分词时经常出现的歧义主要有交集歧义和组合型歧义两种,如“”,可切分为“”或“”,又如“”,可被切分为“”或“”。
在检测到歧义的基础上才能采取有效的措施消除歧义现象,使切分工作更加准确。
文章在进行研究的过程中通过正向最大匹配得到分词的初步结果,在进行分词的过程中只通过正向最大匹配工作是无法确认是否产生切分歧义的。
故此为了及时发现并解决切分歧义问题,在进行正向最大匹配的基础上还需要进行一次逆向最大匹配,如果所得结果不一致则表明出现了切分歧义。
这种方法主要应用到交集型歧义现象检测中,而对于组合型歧义则很难起到应有的效果。
为此,在进行汉文分词研究时,使用正向最小匹配以及逆向最大匹配的方法,则不仅能对检测交集型歧义字段起到有效作用,还能够对组合型歧义字段进行有效识别[5]。
而这种方法在藏文分词中是否也能起到较好的效果需要进一步验证。
虽然在进行实际切分时,双向匹配存在检测盲区,但是仍旧有比较高的切分歧义检测能力并且是十分容易实现的。
文章在藏文自动分词过程中,主要采用双向匹配检测切分时存在的歧义。
藏文切分歧义消除还目前没有具有权威性的研究成果,采用何种方法检测并解决在藏文分词中出现的切分歧义,没有系统的理论成果和方法进行借鉴。
文章在进行研究的过程中,也只是对这一问题进行初步探讨,通过对真实的藏文文本进行多次测试,表明文章中经过预处理以及分词处理后所得到的分词结果准确率比较高,因此可以将其做为进行藏汉机器翻译时对藏文的预处理工具。
文章在研究过程中没有对歧义检测以及如何消除歧义进行进一步深入的研究,而主要是借鉴了汉语在进行自动分词中消除歧义以及检测歧义的方法,对藏文进行自动分词时出现的歧义进行参照性设想。
至于能否讲汉语自动分词中消解歧义所使用的方法直接引入藏文自动分词歧义消解的过程中,还需要进行跟进一步的研究和论证工作。
4.2 未登录词处理在进行自动分词时,如果存在没有收录的词汇,就必定会出现不能够识别的词汇,这些词汇指的就是未登录词。
在汉文自动分词研究中对未登录的术语词,利用大规模语料提炼出N元汉字串的分布由机器自动生成候选表,在此基础上通过人工选出新词并添加到词表中,再通过词典对未登录词汇进行识别。
在处理没有登录的专有名词时,首先按专有名词库中的统计知识以及归纳知识中的特定结构规则,猜测可能成为专有名词的汉字串并给出其置信度,之后使用对该给专有名词表示意义的紧邻上下文信息,以及全局统计量和局部统计量,进行进一步的鉴定[6]。
藏文分词未登录词的识别需要不断拓展和深入研究藏文词频信息、术语信息等的统计工作,并结合藏文自身的语法特征进行识别。
本文在进行研究的过程中主要以探讨的形式对藏文自动分词的过程中出现的歧义现象进行尝试性消除,并且在这个过程中对未登录词进行了简单的处理,实践证明本文中未登录词的识别方法有一定实际作用。
在文章进行研究的过程中充分借鉴了前人的研究成果,根据藏文文法的独特特点,设计并实现了切分精度较高的藏文自动分词算法,实践证明文章提出的藏文自动分词方法具有一定的实用性,这为进行藏汉机器翻译源文预处理提供了技术上的保障。
【相关文献】[1]陈玉忠,李保利,俞士汶,兰措吉.基于格助词和连续特征的藏文自动分词方案.语言文字应用,2003,1:75-82[2]雍俊海. Java程序设计教程.北京:清华大学出版社.2007:148-149[3]才智杰.藏文自动分词系统中紧缩词的识别.中文信息学报,2009,23(1):35-37[4]孙茂松,邹嘉彦.汉语自动分词研究评述.当代语言学,2001,3(1):22-32[5]苗夺谦,卫志华.中文文本信息处理的原理与应用.北京:清华大学出版社,2007:34-37[6]孙茂松,邹嘉彦.汉语自动分词研究评述.当代语言学,2001,3(1):22-32.。