藏汉翻译系统实验

合集下载

藏汉翻译系统实验 - ICT NLP GROUP

藏汉翻译系统实验 - ICT NLP GROUP

藏汉翻译系统及系统融合实验1 新旧语料的对比实验新语料是评测以来一直不断修正过并且使用最新的前处理脚本的语料。

旧语料是去年经过过滤的12月份语料。

原则说,新语料效果更好,实验结果表明,旧语料更好一些。

系统Chiero 开发集(650)测试集(517)新语料51.85 40.10旧语料52.80 41.122 新旧语言模型的对比实验新语言模型是目前评测使用的语言模型,旧语言模型是去年12月份的语言模型。

实验结果表明,可能由于分词等原因,两种语言模型效果差不多。

系统Chiero 开发集(650)测试集(517)新语言模型48.38 39.38旧语言模型51.85 40.103 修正ICTCLAS分词工具EditSegmentor的实验使用的语料是去年12月份的语料,下面是使用EditSegmentor的实验效果,结果表明,使用EditSegmentor会降低系统的性能。

系统Chiero 开发集(650)测试集(517)未使用52.80 41.12使用50.66 39.344 不同对齐实验使用的语料是去年12月份的语料,针对Mose-giza,berkeley对齐以及5月份采用的对齐工具进行对比实验,实验结果表明,Moses Giza的性能要更好一些,建议使用Moses Giza。

系统Chiero 开发集(650)测试集(517)目前采用50.72 37.28Berkeley对齐52.85 40.31Moses Giza 52.80 41.125 系统融合1)相关系统融合程序的bug修复。

2)各个单系统的nbest处理程序的开发。

3)词典文件格式处理程序的开发。

4)系统融合训练以及测试的脚本开发。

注:相关工具的目录为: /home3/jwb/zhb/CWMT2013/toolsChieroNbest是处理Chiero的Nbest文件的程序。

MosesNbest是处理Moses系统的Nbest文件的程序。

基于双语对齐句型库的藏汉机器翻译方法研究

基于双语对齐句型库的藏汉机器翻译方法研究

基于双语对齐句型库的藏汉机器翻译方法研究通过藏汉双语句子中词语序列异同点的比较,研究藏汉双语句型对齐方法,建立了一个小规模藏汉对齐句型库和对照词典库,在此基础上提出了基于藏汉双语对齐句型库的机器翻译算法。

标签:机器翻译藏语句型对照词典双语对齐句型库一、藏、汉句子中词语序列的对比分析藏汉两种语言在语法(包括词序、虚词的运用、动词的形态变化)上的区别,给藏汉双语对齐句型库的构建带来了一定的难度。

除了在句子的词序和词数上变化上有明显的区别外,在虚词的运用和动词的形态变化上也不同。

例如:5.汉语动词没有形态变化,而藏语动词具有形态变化在藏文文法中,对动词的形态变化、及物性及分类等方面的研究很丰富,是藏语动词的复杂性增强。

据统计,现代藏语动词1453个,其中,756个动词本身有形态变化,而汉语动词没有形态变化,这给藏汉对齐句型库的建设和规范化带来了汉语与藏语动词的比较。

例如:实例例6中的藏语动词以”/”分开的四个形态分别是动词的未来式、现在式、过去式、命令式。

在建立藏汉对齐字形库时,第1种对齐句型因词性、词序都相同,容易建立,但对第2、3、4、5、6种对齐句型的处理就变得相对复杂,将在后续内容中详细描述。

二、对照词典的设计与句型库的建设1.对照词典的设计与实现基于双语对齐句型库的藏汉机器翻译方法研究需要设计实现一个添加了详细词性标记的藏汉对照词典的设计与实现。

本文涉及的机器翻译方法,需要一个对照词典的支持,而这个对照词典不是一般意义上的简单对照词典,而是一个添加了词性标记的对照词典。

表3-1为其基本结构和功能:因页面大小,此处只列举了整个对照词典的一小部分内容,第一行中除”word”以外的其他英文标记表示词性,它们分别表示连词(cd)、及物动词现在式(vt)、动名词(nv)、及物动词过去式(vi)、随立名(nn)、指示代词(rz)、属格助词(gz)、使格助词(gx)、位格助词(gl),对照词典里的词性种类及数目远不止这些,总共有80余个词性。

藏汉翻译技巧研究报告

藏汉翻译技巧研究报告

藏汉翻译技巧研究报告研究报告:藏汉翻译技巧一、引言藏汉翻译是将藏语文本转化为汉语文本的过程,涉及到语言、文化和认知等多个领域的知识。

本报告旨在探讨一些常用的藏汉翻译技巧,以帮助翻译人员在处理藏语文本时提高翻译质量。

二、上下文理解上下文理解是一项重要的技巧,对于准确翻译藏语文本至关重要。

通过仔细阅读和分析上下文,翻译人员可以更好地理解作者的意图,并准确传达信息。

此外,了解不同领域的专业术语和上下文背景也是提高翻译的关键。

三、等效表达在藏汉翻译过程中,翻译人员需要寻找汉语的等效表达,以准确传达原文的含义。

有时候,直译可能无法完全表达原文的意思,因此翻译人员需要动态调整语言表达方式,以达到最合适的翻译效果。

四、文化转换藏汉翻译涉及到两种不同的文化背景,因此在翻译过程中,翻译人员需要充分考虑目标文化的习惯和传统。

充分理解目标文化的背景可以帮助翻译人员选择更合适的词汇和表达方式,使翻译结果更易于被目标读者理解和接受。

五、平衡准确性与流畅性翻译的目标是准确传达原文的意思,但同时也需要保持译文的流畅性和自然性。

在藏汉翻译中,翻译人员需要权衡准确性和流畅性,尽可能地找到一个平衡点。

译文不应只是死板地堆砌单词和短语,而应具备自然流畅的汉语表达。

六、词语选择词语选择是翻译的核心环节之一。

在进行藏汉翻译时,翻译人员需要仔细选择适当的词语,以准确传达原文的语义。

对于涉及特定领域的文本,翻译人员还需要了解相关的术语和表达方式,从而提高翻译的准确性。

七、参考文献和工具在进行藏汉翻译时,翻译人员可以借助各种参考文献和工具,以提高翻译效率和质量。

这些参考文献和工具可以提供词汇、短语、句型等方面的帮助,同时也可以为翻译人员提供文化背景和专业知识的支持。

八、结论本报告主要探讨了一些常用的藏汉翻译技巧,包括上下文理解、等效表达、文化转换、平衡准确性与流畅性、词语选择以及参考文献和工具的使用。

这些技巧可以帮助翻译人员提高翻译质量,准确传达原文的意思,并使译文更加符合目标文化读者的习惯和要求。

基于WAMP的藏汉英互译在线词典的设计与实现

基于WAMP的藏汉英互译在线词典的设计与实现

码 。 经 测 试 , 在 线词 典 根 据 用 户 的 需 要 , 入 单 字 和 词 就 可 以 在 藏 汉 英 三 语 问 交 互 查 询 并 快 速 检 索 到 对 应 的 译 该 输
词 。词 典 采 用 B S结 构 , 的 实现 有 助 于藏 汉 英 三语 间 的 交 流 和 学 习 。 / 它 关 键 词 : 文 ;在 线 词 典 ; AMP; / 藏 W B S结 构 ;数 据 库
wh c sn AM P a e in p a f r ,a d as ie u h p cfcd sg t o n h i o eo h h — ih u ig W s ad sg l to m n lo g v s o t e s e i e i n me h d a d t e man c d f e t e t i t s u u a a a e a d t e q e y p g . Th x e i n r v d t a t e t e o l e d c i n r a n t n l e u n t e a r sd tb s n h u r a e e e p rme t p o e h h h n i i t a y c n i s a t r t r h n o y c r e tt i n u lwo d ( b t n o r c rl g a i r s Ti ea ,Ch n s n g ih f r t e q e y e t r d b h u t m e . Th i t n r s i e e a d En l ) o h u r n e e y t e c s o r s e dci a y i o
6 4
中 文 信 息 学 报
线 多语 词典 通 过十 余 年 来 的 迅 速发 展 , 已经 初 见 规 模 , 成 了各具 特色 的 在线 词典 资源 , 形 部分 在线 词典 已经 商品化 。相 较 之 下 , 文单 语 及 多 语 在 线 词 藏 典 仍 处于起 步 阶段 , 过 网络 能 够 搜 索 到 的藏 文 单 通 语 或 多语 在线 词 典很 少 。近 年来 , 着 时代 的发 展 随

藏文翻译系统的研发与实现

藏文翻译系统的研发与实现

藏文翻译系统的研发与实现随着中国与藏区交流的不断增加,对藏文翻译系统的需求也越来越大。

然而,由于汉藏语系的不同,藏文语法的复杂性以及字母的独特性,要实现高质量的藏文翻译并不容易。

因此,本文将探讨一下目前藏文翻译系统的研发与实现。

一、藏文基础知识要了解藏文翻译系统的研发,我们需要首先了解一些藏文的基础知识。

藏文是一种借用了梵文的字母表,一个字母通常代表一个音节。

藏文中还有表示词性和语法关系的后缀,这使得藏文的语法非常复杂。

藏文中还有很多词汇是由词根和后缀组成的,因此藏文单词的长度通常比较长。

此外,不同的字母组合在一起代表不同的音节,这也增加了藏文翻译系统的难度。

二、藏文翻译系统的研发由于藏文的特殊性,目前的翻译系统很难满足人们的需要。

因此,一些专家和学者正在研发新的藏文翻译系统,以提升翻译的质量和准确性。

目前的藏文翻译系统主要分为两种,即基于规则的系统和统计机器翻译系统。

基于规则的系统依靠人工编写的规则来进行翻译,这种方法需要大量的人工投入,但是可以比较好地解决藏文翻译中的一些语法和语义问题。

统计机器翻译系统是另一种常见的翻译方法,它利用大量的双语语料库进行训练,然后通过概率模型来估计最适合的翻译结果。

这种方法比较适合解决一些翻译中的词汇和单词组合问题。

三、实现藏文翻译系统的挑战实现藏文翻译系统面临很多挑战,其中最大的挑战是藏文的语法和词汇系统。

藏文的语法比较复杂,有很多种类型的词缀和语法现象需要处理。

这就要求翻译系统需要对语法和词汇系统有很好的了解,才能进行正确和合理的翻译。

此外,藏文单词的长度比较长,这也是困扰藏文翻译系统开发者的一大难题。

翻译系统需要能够分离一个长单词的词根和后缀,同时还要识别不同的字母组合代表的不同音节,才能进行正确的翻译。

四、未来的发展方向虽然藏文翻译系统还存在许多问题和挑战,但是我们相信在不久的将来,随着技术的不断进步和现有翻译系统的不断完善,藏文翻译质量会不断提高,为汉藏交流提供更好的帮助。

班智达汉藏公文翻译系统中基于二分法的句法分析方法研...

班智达汉藏公文翻译系统中基于二分法的句法分析方法研...

班智达汉藏公文翻译系统中基于二分法的句法分析方法研究才藏太 李延福(青海师范大学藏文智能信息处理中心 中国 青海 西宁 810008)caizangt@摘要机器翻译系统是一种典型的自然语言处理系统,语言技术是机器翻译系统中居于核心地位的技术,实用化的机器翻译系统一般是采用自然限制的受限语言的翻译,且以基于规则的方法为主流方法。

本文结合863项目《班智达汉藏公文机器翻译系统》的研制实践,论述了词项信息同语法规则相结合的原则,提出了以动词为中心的句法分析二分法,从而在受限语言的范围内,为建立有较大适应性的机器翻译规则系统,有效地提高机器翻译语法分析的效率提供了有益的方法。

关键词:机器翻译二分法语句结构句法分析1、引言随着计算机技术的不断普及,如何将大量的汉语和外语的科技信息、教材、参考读物、科普读物等及时地翻译成藏语,进而为广大藏区科技、教育、文化事业服务已成为制约广大藏区社会经济发展的关键问题。

在汉藏科技翻译人员极端缺乏的今日,班智达汉藏机器翻译系统的研制和推广应用必将有助于促进这一问题的尽快解决。

在机器翻译系统中,语言技术是居于核心地位的技术,因而讨论机器翻译系统的句法分析问题便是一个重要的问题。

机器翻译的方法有多种,但基于规则和词典的方法仍然是到目前为止的一直采用的主流方法。

我们研制的863项目班智达汉藏公文机器翻译系统是采用基于规则的翻译系统。

机器翻译进行的是两个语言无限集之间的转换,在现有的科学水平之下,计算机科学还不能从理论上证明,用一个有限的机器翻译规则系统来进行原语和译语的无限集之间的转换的可能性,因此实践上比较可行的办法是采用自然限制的受限语言。

我们研制的班智达汉藏公文机器翻译系统就是一种受限语言的机器翻译系统。

2、系统结构班智达汉藏机器翻译系统由科技系统、公文系统和电子词典三部分组成,采用C++语言在Windows环境下实现。

考虑到实际应用中用户的需要,系统设有译前和译后编辑功能。

融合单语语言模型的藏汉机器翻译方法研究

融合单语语言模型的藏汉机器翻译方法研究

网络机器翻译模型,最后将藏语单语语言模型融合到藏汉神经网络机器翻译中。实验表明,该方法能显著提升藏
汉神经网络机器翻译质量。基线系统藏语到汉语的BLEU值为21.1,汉语到藏语的BLEU值为1& 6,融合藏语单
语语言模型后,藏语到汉语的BLEU值为24.5,汉语到藏语的BLEU值为23.3,比原有基线系统的BLEU值分别
o引言
早期的语言模型和机器翻译方法受限于人工构 建的规则,由于语言的复杂性和多样性,基于规则的 方法需要构建规模庞大的规则库才能刻画语言的特 性,但规则库的维护和复杂性又依赖于人类专家的 经验和知识,无法对语言现象进行完备的描述。为 解决规则机器翻译的缺陷和不足,基于统计的机器 翻译研究开始涌现,其方法是通过大规模的标注语
3. Department of Computer Science» Tsinghua University, Beijing 100084, China)
Abstract: To better utilize the monolingual Tibetan texts in Tibetan-Chinese neural machine translation( NMT), we propose to pre-train a Tibetan neural language model and then integrate it into a Transformer-based Tibetan-Chinese NMT model. Experiments indicate our approach can boost the Tibetan-Chinese results from 21. 1 to 24. 5, and the Chinese-Tibetan form 18. 6 to 23. 3 in terms of BLEU score. Keywords: Tibetan;language model;machine translation;fusion;neural net

藏汉翻译中遇到的问题和措施探究

藏汉翻译中遇到的问题和措施探究

藏汉翻译中遇到的问题和措施探究摘要:语言是人与人之间进行沟通交流的重要桥梁,而所处不同地域,其地域语言同样存在明显差异,语言文化是联系各族各区人际关系的基础。

在当前交流密切的藏汉民族之间,随着愈发频繁的商业贸易交流,藏汉文化之间的沟通交流随之紧密。

因此,藏汉翻译工作对于两族文化的交流尤为重要,解决当前藏汉翻译上的问题至关重要。

关键词:语言文化;藏汉文化;藏汉翻译一、藏汉翻译的原则语言翻译是一种基于语文应用,并且由技术性和创造性两者相结合的脑力劳动,也是一种关于社会文化交流的活动。

翻译的目的是为了输入或输出一种新的文化,包括新的思想、新的技术等。

各民族或各国之间采取输入亦或是输出的交流模式,即文化交流,不但对社会的发展,而且对语言的发展,也会带来深远的影响。

在藏汉翻译的过程中,联系翻译理论,对藏汉翻译提出对应要求是必然的。

关于翻译的原则和标准,我国近代史上提出翻译标准而且影响最大的是严复。

他在译察《天演论》时所写的《译例言》中说:“事三难信达雅。

求其信已大难矣。

”严复提出的“信、达、雅”,虽然并未被列为具体的翻译标准,但长期以来,其已成为公认的翻译标准。

而当前人们在提到“信、达、雅”时,除了“信”的含义和严复提出的相同,即翻译内容“忠实”外,“达”和“雅”的含义往往已经改变或者作出了其他新的解释。

藏汉翻译应保持原作品的思想内容不变,针对译文阐述的中心思想,保证完整地将其运用另一语言进行翻译,这是藏汉翻译的第一个原则“内容忠实”。

在确保译文表现得思想内容并未改变得情况下,翻译工作者在藏汉翻译过程中,应认真分析观察译文得结构、语言风格以及行文笔调,译文工作的进行需要保证译文与原作品在风格、笔调上的统一性质,这是藏汉翻译的第二个原则“语言通顺”。

最后,在译文与原作平保持一致的思想、写作风格、用语笔调的同时,译文应对照原作品的表述,进行流畅地翻译表达,保证译文流畅自然地表述藏汉翻译的第三个原则“风格相当”。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
系统版本
开发集(650)
测试集(500)
服务器版本
ICTCHIERO
52.80
41.12
实验结果:上一次蔡洽吴做过实验,并无差别,只是时间快慢的差别。
6利用命名实体词典修正ICTCLAS分词
大约7000句/秒,效率是O(10n).
如果随着词典规模的增大,可以很好的弥补ICTCLAS对于命名实体的分词上的不足。
4 GIZA工具不同版本对比
系统版本
开发集(650)
测试集(500)
目前采用
50.72
37.28
Moses Giza
52.80
41.12
实验结果:使用目前版本的GIZA降低了翻译系统的性能,测试集约降了4个点,开发集降了2.1个点。Moses Giza效果要更好一些。
5服务器版本chiero和12月ict-chiero对比
藏汉翻译系统实验
1藏汉双语语料标点处理
双引号、单引号、尾部连续标点以及开头不合法标点的处理
系统Chiero
开发集
测试集(1250)
短语表3.6G
52.02
31.62(0.2↑)
实验结果:测试集上升了0.2个点,说明对于语料的细节处理提升了翻译系统的性能。
尾部非成对标点删除进行实验
系统Chiero
开发集(650)
人名:
<不久前阿诺德向艾丽斯求婚。
---
>不久前阿诺德向艾丽斯求婚。
地名:
<佛罗伦萨是文艺复兴的圣地。
---
>佛罗伦萨是文艺复兴的圣地。
成语:
<忠言逆耳,良药苦口
---
>忠言逆耳,良药苦口
对于翻译系统的影响,目前正在进行相关的实验。
测试集(1250)
短语表3G
51.11
30.31
实验结果:不管在开发和测试集上都降低了,说明去除尾部标点的方法对于藏语不适合。
2藏汉新老开发集的对比实验
系统Chiero
开发集(650)
测试集(1250)
老的开发集(650)
52.02
31.62
新开发集(1259)
60.86
32.56
实验结果:在使用新开发集进行调参的情况下,开发集和测试集性能都提升了。由于之前开发集650句,不能很好的覆盖语料中的情况,新的开发集具有更好的覆盖。
3重现孙萌2012年12月藏汉翻译系统
系统Chiero
开发集(650)
测试集(50后
52.80
41.12
实验说明:开发集有34.9%的在训练集中出现,过滤后因此降低了5.6个点。由于赵老师的测试集没有进行测试,据李响统计,测试集和训练集有重合,因此12月份的结果偏高。
相关文档
最新文档