《三类翻译技术的比较与创新.》

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

三类翻译技术的比较与创新

时至今日,在世界范围内,计算机语言文字信息处理。都是对各种语言文字的字符进行编码,称内码或字符代码。然后以这些字符代码作记录,形成各种语言文字的文本文件。语言文字的信息处理,例如输入、贮存、传输、打印、识别,以致机器翻译,都是面向这种文本文件,针对字符和字符代码进行的。

语言文字的本质是表意,句子是表达完整语意的基本单位。发明人经过20年来对句子表意的探讨以及相应的编程实践,发现不同语言文字的句子与句子之间存在着句骼等共同的表意构件。多语种句子的表意是以句骼等这些共同的表意构件实现的。然而,本项目属于机器翻译,而是“基于表意构件”的一种全新的计算机语言文字处理方法软件。这是一项不可低估的技术创新,正如一些专家所指,计算机自然语言处理问题的瓶颈不在计算机,而在于语言文字方面。例如字、词、词组的多义性,致使基于规则的机器翻译(MT)至今仍“语义障碍”而译文质量太差。在“基于表意构件”这里,字、词、词组都变成了单义;具体说来,在句骼框架内,字、词、词组都是单义的。这就可以避开“语义障碍”而获得更好的效果。传统的机器翻译软件有基于规则的机器翻译、翻译记忆二类(前二者的混合型除外),现简介后进行对比,以显示本项目的技术创新:

一、传统基于规则的机器翻译:

基于规则的机器翻译(machine translation,MT),MT的原理是让计算机以“字→词→短语→句”的步骤逐个节点分析最后深入源句的底层(语义表示),然后又以如此的逆过程得出目句。首先得确定源语每个字或单词的词性、与另一个字或单词是否可组成词或短语,再根据规则和相应词典将相邻单词组成许可的各种短语。如确定“an arrow”为名词短语NP,再到下一个节点与介词like组成介词短语。如此一步一步,逐个节点分析判断词法、词义,最后到达源语底层。然后,再以相应的逆过程得出目语句子。如图1:

这就是与计算机同龄的基于规则的机器翻译、MT。它的优点是自动化化程度高,速度快。缺点:其一是将语言现象归纳为规则不容易,好不容易归纳出来的规则常常因为词汇的更换、语序的改变而失效。其二是以“字→词→词组→短语→句”的过程分析。在这个过程中,不可避免地的是字、词的多义性;计算机不懂语义,无耐之下只好凭借几率,直接影响译文质量。其三是以“字→词→词组→短语→句”的过程分析与综合,与句子的骨架(框架)不相符,往往由于句子骨架或框架的缺失而使译句不可读。

正因为上述“缺骨架、几率词义、规则难”三大难点难以避免,MT的译文往往令人啼笑皆非;译得满屏汉字往往中国人读不懂;其软件只能仅为外文盲和外文很差的用户提供参考。

二、翻译记忆

翻译记忆(Translation Memory,TM),上世纪90年代德国的TRADOS开始使用。原理很简单。基于数据库,将翻译过的材料以源目语句子对为单位存入数据库。翻译时系统自动对电子文档进行分析,100%匹配的句子可以自动替换,部分匹配的句子可根据匹配度提出翻译建议,由译者修改编辑后作为译句。

翻译记忆优点是译文质量高,可以用于专业翻译。其成功之处是让计算机做了它能够胜任的事。由于专业领域文本的重复率有30%甚至更高,所以在专业翻译场合得到了应用与推广。

缺点是只能供具有独立翻译能力的人员使用,大部分文本仍需要人工翻译;其次是对不足100%相似度的句子提供给用户修改编辑,操作烦琐,往往修改一句不如重新翻译一句快捷。

翻译记忆与MT相比,仅是在MT上述三个缺点不可避免时,翻译记忆以人力为代价,获得了专业应用,没有突破性进展。可称道的成功之处是让计算机做了它能够胜任的事。

三、基于表意构件的专业翻译:

本项目基于表意构件的专业翻译,翻译时让计算机对源语句子进行句骼搜索;得到与之匹配的源、目语一对句骼。然后,把源语句子对号入座地套入源语句骼;再将其各个句舱的内容转移到目语句骼上。最后对各个句舱进行源、目语的词串转换,可以得到高质量的译句。如图2:

基于表意构件的专业翻译是基于多种技术综合性的机器翻译。它首创地发掘和利用表意构件;继承并发扬了MT 和翻译记忆之长:

1)将翻译记忆成功之道“让计算机做了它能够胜任的事”拓展为让计算机记住表意构件,做它能够胜任的事;

2)句骼和舱模这两种表意构件,来自多语种句子的骨架(框架)部分,避免了如同MT缺骨架之难;

3)基于句骼等表意构件,在句骼框架内,词变成了单义,这就避免了如同MT以字组词、凭几率选词义之难;

4)句骼和舱模两种构件包含着句子的语法结构,能确定好每个词语在译句中的位置,能翻译出准确的句子;

5)句骼等表意构件能利用软件技术,人机交互进行提取,具备普通大学毕业外语水平加上相应专业知识的人就可以信任,并且可以长时期使用;与MT的“规则难”相比,正好相反而成为一种理想状态;

6)基于句骼等表意构件,不必像MT那样多层次的逐个节点分析判断词义,仅在以句骼句舱形式给出时,一个层次解决词汇的多义性难题;巧妙地成为“机译人校”模式,机器可以利用“句骼对句舱的选择和制约”作用,加上在MT那里成熟的人工智能进行预选,给出后由译者来校对更正。

四、三种翻译技术性能比较:

下面对传统的机器翻译,MT、翻译记忆和本项目表意构件翻译,三种翻译技术性能比较如下:

三种翻译技术性能比较

五、表意构件翻译技术的创新点:

表意构件翻译技术继传统机器翻译,MT、翻译记忆之后;扬长避短,继承并发展了两者的优点,关键技术创新点有:

1.利用句骼等表意构件拆分源语句子

利用句骼等表意构件拆分源语句子很简单,只要根据源语句子查询句骼库,得到匹配的句骼之后,将源语句子对号入座地套入其中,源语句子就被分成句骼、句舱、意群串等;其中如果有大句舱,再进行一个查询舱模、套入舱模的运作整个源语句子就被拆分成句骼、句舱、舱模、舱眼、意群串等表意构件。正因为它们是表意构件,不必再拆分就可以转换生成目句。

本技术方法基于句骼等表意构件,以句骼等表意构件组建数据库。比翻译记忆以句对组建数据库更先进,其一可以利用句骼等表意构件拆分源语句子,翻译记忆的句对记忆做不到。同时也比传统机器翻译MT更先进,利用句骼等表意构件拆分源语句子,取代了MT的繁琐的由“字→词→短语→句”的步骤逐个节点分析判断词义;这就避开了语

相关文档
最新文档