机器翻译难点所在_张政

合集下载

统计机器翻译中的技术难点及新思路

统计机器翻译中的技术难点及新思路

统计机器翻译中的技术难点及新思路随着全球化进程加速,语言障碍已经成为了国际交流的重要问题,因此,翻译技术的发展日益在人们的关注中受到重视。

其中,机器翻译作为一项前沿技术不断地推进和创新,极大地促进了人类社会的发展。

本文将介绍在机器翻译领域中,统计机器翻译所面临的技术难点及其新思路。

一、统计机器翻译技术简介统计机器翻译是指通过计算机处理大量翻译句子的数据,从中总结规律并进行语言规则的建模,以期实现自动化的翻译工作。

采用统计机器翻译技术,需要先将输入的源语言文本进行语言对齐和词对齐的操作,再通过机器翻译模型的训练,生成目标语言文本。

统计机器翻译的训练分为三个阶段:语言模型训练、翻译模型训练和译文生成。

二、统计机器翻译中的技术难点1.语言壁垒问题机器翻译在处理语言上有很大的限制,由于不同语言之间的语言结构、语义及单词之间的差异,机器翻译在处理不同语种之间的翻译时常常出现难以处理的问题,而这种问题也是传统的规则模型无法解决的。

2.训练数据的不足统计机器翻译中需要大量的语料库进行训练,以寻找源语言和目标语言之间的对应关系,但由于语料库质量的不稳定,训练数据的有限性问题成为其技术上的重大难点之一。

3.翻译模型的提升机器翻译的翻译模型为了达到更高的翻译质量和准确性,需要对目前的翻译模型进行深度学习,以更精细的分析和理解语言信息,提高翻译效果。

三、新思路1.深度学习模型目前,人工智能技术快速发展,深度学习已经成为机器翻译领域的一个重要方向。

神经网络模型是深度学习模型的主要表示方式,有研究表明,神经网络模型可以更好地处理语言结构和语义之间的关系,提高了翻译模型的准确性。

2.多模态机器翻译由于人类表达与语音、图像、视频等多模态上下文环境有密切关系,机器翻译从文本到多模态的翻译有望成为一个新的发展方向,可以加强对于不同场景的理解和翻译。

3.知识图谱知识图谱是一种将各种类型的语义知识精细组织成为一个庞大的语义网络形态的信息形态,可以解决机器翻译中大量的知识缺失问题,为翻译质量提供更高的准确性和精度。

如何解决机器翻译中的生成错误和一致性问题,提高翻译结果的准确性和连贯性

如何解决机器翻译中的生成错误和一致性问题,提高翻译结果的准确性和连贯性

如何解决机器翻译中的生成错误和一致性问题,提高翻译结果的准确性和连贯性机器翻译作为人工智能领域的一个重要研究方向,在近年来取得了长足的进展。

然而,随着翻译系统的普及和应用范围的不断扩大,一些生成错误和一致性问题也逐渐显现出来,影响着翻译结果的准确性和连贯性。

因此,解决这些问题成为了当前机器翻译领域的一个重要研究课题。

一、机器翻译中的生成错误问题在机器翻译中,生成错误是一个比较普遍的问题。

这些错误可能源自于语言文法的差异、词汇歧义、语义模糊等多方面的因素。

为了解决这些问题,研究人员提出了一系列解决方案。

首先,可以通过引入上下文信息来提高翻译结果的准确性。

传统的翻译系统往往只考虑当前句子的内容,而忽略了上下文的语境信息。

通过增加上下文信息的引入,可以有效减少生成错误的发生,提高翻译的准确性。

其次,利用深度学习技术可以有效缓解生成错误问题。

深度学习技术可以自动提取语言特征,从而更好地模拟人类翻译过程,减少生成错误的概率。

将深度学习技术与传统翻译模型相结合,可以取得更好的翻译效果。

此外,多语言联合训练也是一种有效的解决方案。

通过将多种语言的数据进行联合训练,可以使翻译系统更加全面地学习各种语言之间的语法规律和语义关系,从而减少生成错误的发生。

二、机器翻译中的一致性问题除了生成错误外,一致性问题也是机器翻译中一个值得关注的难题。

在翻译过程中,由于句子结构、表达习惯等方面的差异,翻译系统往往难以保持翻译结果的一致性,影响了翻译结果的连贯性和可理解性。

为了解决一致性问题,首先需要建立一个全面的语言模型。

只有在深入理解各种语言之间的语言规律和语义层面的差异后,才能有效解决一致性问题。

因此,在构建翻译系统时,需要充分考虑各种语言之间的差异,建立相应的语言模型。

其次,可以通过引入人类编辑的方式来提高翻译结果的一致性。

人类编辑可以帮助翻译系统及时发现并修正一致性问题,确保翻译结果的质量。

与此同时,也可以通过机器学习技术自动生成一致性检查工具,帮助翻译系统自动检测和修正翻译结果的一致性问题。

机器翻译技术的实际效果和不足

机器翻译技术的实际效果和不足

机器翻译技术的实际效果和不足第一章:引言机器翻译技术是人工智能领域中的一个重要分支,它的出现和发展为人类解决语言交流障碍提供了一种全新的可能性。

随着机器学习、深度学习和人工智能等技术的不断进步,机器翻译技术正在不断地发展和完善。

本文将围绕机器翻译技术的实际效果和不足进行探讨。

第二章:机器翻译技术的实际效果机器翻译技术的出现和发展,使得翻译工作离我们更加近了。

与传统的人工翻译相比,机器翻译技术的一大优势是速度快。

在大量的翻译工作中,机器翻译技术能够迅速地完成翻译并输出结果,大大提高了工作效率。

同时,机器翻译技术也能够做到与人类翻译相似的准确度。

在翻译长篇大论的文章或者专业性强的文献时,机器翻译技术也能够做到很好的效果。

从这些角度看,机器翻译技术的实际效果是非常显著的。

第三章:机器翻译技术的不足然而,在实际应用过程中,机器翻译技术还存在许多不足之处。

首先,机器翻译技术的精度还不能和人类翻译相媲美。

在翻译中,机器翻译技术有时无法理解句子的语境和意思,导致翻译出现大量的不准确和甚至误导性的结果。

其次,机器翻译技术对语言和文化的理解能力也有限。

在翻译方面,语言和文化背景的差异经常导致误解和歧义。

最后,机器翻译技术的处理能力还存在一定的限制。

特别是在处理长篇大论或者专业性较强的文章时,机器翻译技术常常会出现混乱和错误的现象。

第四章:机器翻译技术的未来趋势虽然机器翻译技术还存在许多不足之处,但随着人工智能技术的不断发展,机器翻译技术的未来前景也非常广阔。

未来,机器翻译技术将更加注重语言和文化的理解和处理,从而提高翻译的准确度。

同时,在处理长篇大论或者专业性较强的文章时,未来的机器翻译技术也会更加出色。

除此之外,未来机器翻译技术也将更多地聚焦于自然语言处理技术的研究和推广,进一步提高机器翻译技术的处理能力和翻译质量。

第五章:结论总之,机器翻译技术的出现为人类解决语言交流障碍提供了一种全新的可能性。

机器翻译技术的实际效果和不足是我们探讨的核心问题。

机器翻译技术的应用与挑战

机器翻译技术的应用与挑战

机器翻译技术的应用与挑战随着全球化进程的加速和信息技术的迅速发展,机器翻译技术的应用已经成为了当今社会中不可或缺的一部分。

机器翻译技术的应用不仅可以为多语言社交、商务活动提供便利,也可以帮助文化交流、学术研究等方面更好地发挥作用。

但同时,机器翻译技术的应用也面临着一系列挑战,如语言表达的多样性、文化差异等方面的问题,如何克服这些挑战,提高机器翻译技术的质量,成为当前亟需解决的问题。

机器翻译技术在社交与商务活动中的应用是非常明显的。

如今,随着全球化的不断推进,人们经常会涉及到不同语言的交流,旅游、商务洽谈、国际交往等活动都需要进行翻译。

使用机器翻译技术可以解决这个问题,使得人们在交流时,不用担心语言障碍造成的交流不畅,同时也可以提高跨语言交流的效率。

例如,欧盟已经使用机器翻译技术为欧盟成员国之间的合作提供了更便捷的工具,让各国之间的合作更加紧密。

而在文化交流与学术研究方面,机器翻译技术也起到了重要的作用。

作为世界上不同语言和文化之间的枢纽,翻译在人类文化传承中扮演了重要的角色。

而机器翻译技术的出现,使得传统的翻译方式发生了较大的变革,大大提高了翻译效率和准确度。

这极大地加强了不同语言和文化之间的交流,推动了文化的多元发展和学术的研究进展。

例如,由于链带翻译技术的出现,学术研究中跨语言的文献阅读和转译变得更加容易,大大提高了学术研究的效率。

但是,机器翻译技术在应用过程中也面临着一系列的挑战。

最大的难点在于语言的多样性和文化差异。

不同的语言和文化之间存在巨大的差异,机器翻译系统有可能会出现语义转换不准确、机器语言不通顺、负面情感传递不清等问题。

另一个挑战是人工翻译与机器翻译的差异,因为机器缺乏人类的直觉和情感,所以有时机器翻译的效率和准确度还远远不如人工翻译。

为了解决这些挑战,需要开发出更加智能的机器翻译技术。

首先需要提高机器翻译系统对多样化语言和文化的识别能力以及对翻译质量的掌控能力,使得机器翻译系统可以更好地辨别文化差异以及语言表达的意义。

机器翻译中中英文语言难点分析

机器翻译中中英文语言难点分析

机器翻译中中英文语言难点分析随着全球化的发展和国际交往的日益频繁,语言交流成为社会发展的一个重要指标。

而在现代信息社会,机器翻译的应用已成为语言交流的重要手段之一。

然而,在翻译过程中,中英两种语言之间存在着很多难点,这些难点也极大地影响着机器翻译的准确性和效率。

本文将从语言难点的角度,分析机器翻译中中英文的翻译难题,探讨如何提高机器翻译的质量和准确性。

1、语法难点语法是语言的重要组成部分,语法规则的正确运用对于翻译的正确性和流畅性起着至关重要的作用。

而中英语言的语法结构有很大的差异,这也是机器翻译中经常遇到的一个难点。

例如,在英文中形容词通常位于名词前,如“a red car”,而在汉语中形容词通常位于名词后,如“红色的汽车”。

这种语法结构上的差异,容易导致机器翻译输出的不准确性。

因此,对于机器翻译来说,学习并正确运用中英两种语言的语法规则是至关重要的。

2、词汇难点词汇是语言的最基本单位,同时也是翻译中最基础和重要的部分。

然而,中英两种语言的词汇表达也有很大的差异,这给机器翻译带来了极大的困难。

例如,中文中的一个词汇通常可以表示多个不同的意思,如“信”可以表示信件、相信等多种不同的意思;而英语中的一个单词通常只有一个特定的含义。

这个例子说明了中英两种语言之间翻译的词汇不对应性,容易导致机器翻译中的歧义和误解。

3、语义难点语义是语言传达信息的重要手段,它是人类理解语言意义的重要基础。

而中英语言之间的语义差异也是机器翻译中常见的一个难点。

由于中英两种语言的传统和文化背景不同,它们表达同一含义的方式也不同。

例如“饭”用英语翻译时可能会翻译成“rice”或者“meal”,这就需要根据语境和许多方面进行判断和理解。

此外,还有一些单词在中英文中的含义有明显的区别,如“面子”这个中文单词,在英语中很难找到一个准确的对应,这就需要机器翻译需要尽可能的考虑语义上的差异,使翻译结果更接近原文的含义。

4、翻译难点除了语言难点,翻译本身也是机器翻译中的一个难点。

机器翻译之难点及实例分析

机器翻译之难点及实例分析

机器翻译之难点及实例分析机器翻译是人工智能技术的一个分支,旨在使用计算机来自动完成人类语言之间的翻译工作。

机器翻译有很多难点,主要有以下几点:1.语言的复杂性:人类语言具有极高的复杂性,包括语法、句法、语义等各方面。

这使得机器翻译需要处理大量的信息,并在翻译过程中正确地理解语言的含义。

2.不同语言之间的差异:不同语言之间存在巨大的差异,包括语法结构、语义、文化背景等。

这使得机器翻译需要充分了解不同语言之间的差异,并在翻译过程中克服这些差异。

3.语言的多样性:人类语言具有极高的多样性,包括不同地区、不同时期、不同文化背景等。

这使得机器翻译需要充分了解语言的多样性,并在翻译过程中克服这种多样性。

下面是一个具体的机器翻译例子:原文:The cat is sitting on the windowsill.翻译:猫坐在窗台上。

在这个例子中,机器翻译需要正确地理解英文中的句法结构,并将其翻译为汉语中的对应句法结接下来我继续讲述机器翻译的一些难点。

4.语言的模糊性:人类语言中存在许多模糊性,包括拓展含义、暗示、双关语等。

这使得机器翻译需要充分了解语言的模糊性,并在翻译过程中克服这种模糊性。

5.语言的隐喻:人类语言中常常使用隐喻来表达意思,这使得机器翻译需要理解隐喻的含义,并能够将其翻译为对应的语言。

6.语言的情感色彩:人类语言中常常具有情感色彩,这使得机器翻译需要充分了解语言的情感色彩,并在翻译过程中正确地表达这种情感。

7.语言的文化差异:不同的文化中有着不同的习俗、文化观念和价值观,这使得机器翻译需要充分了解语言的文化差异,并在翻译过程中正确地表达这种差异。

总的来说,机器翻译是一项极具挑战性的技术,需要解决许多复杂的问题。

但是,随着人工智能技术的不断发展,机器翻译技术也在不断提升。

翻译技术研究现状问题与展望

翻译技术研究现状问题与展望

翻译技术研究现状问题与展望
近年来,随着自然语言处理技术的发展,机器翻译技术得到了迅速进展,取得了日益优秀的翻译质量。

然而,在实际中,机器翻译还存在一些问题和挑战。

首先,机器翻译仍然无法完成某些复杂的语言任务。

例如,对于多义词和歧义词的处理、非常规语言和口语表达、文化和隐喻等涉及人类常识和常见经验的问题,机器翻译的表现仍然欠佳。

其次,机器翻译在语言本身的难点方面还存在一些问题。

例如,汉语单个汉字可以有不同的发音、不同的意义,而且汉语定语和谓语的位置可以互换,这使得机器翻译需要更加智能的处理手段实现高质量的翻译。

再次,机器翻译在多语种处理方面也面临许多挑战。

机器翻译需要同时考虑多种语言之间的相似性和差异性,同时在这些语言之间建立起映射性质的关系。

这对于多语言翻译的准确性和连贯性都提出了更高的要求。

最后,机器翻译在应用和实践中,是否能够被广泛应用并受到大家的认可,还需要进一步的研究和实践探索。

综合分析,当前机器翻译技术面临的主要问题是如何结合语言学、计算机科学、人工智能等多个学科领域的研究成果,来提高翻译的准确性和自然度。

未来的研究方向主要是加强自然语言处理和深度学习等技术的应用,同时提高机器翻译系统的深度和广度,建立更加稳定、可靠、实用的机器翻译技术平台。

翻译技术在远东国际军事法庭庭审记录翻译中的应用

翻译技术在远东国际军事法庭庭审记录翻译中的应用

翻译技术在远东国际军事法庭庭审记录翻译中的应用1◎徐 英1 引 言随着跨文化交际活动的不断扩大,翻译需求急剧增加,质量和效率要求也不断提高。

面对高强度高要求的翻译任务,传统的人工翻译方式早已无法满足翻译产业的需求。

于是人们便开始借助技术的力量,寻求对传统翻译作业方式的革命。

信息技术、大数据和云计算技术的发展,无疑促进了翻译行业的巨大变化,呈现出技术运用的时代特征(王华树、王少爽,2016)。

傅敬民(2015:37)认为“现代意义的翻译,是融合了翻译技术的翻译,是在翻译技术支撑下的翻译。

翻译技术已经成为翻译领域不容忽视甚至难以分割的重要组成部分”。

为此,笔者结合真实案例,探讨翻译技术在远东国际军事法庭庭审记录翻译中的应用。

2 翻译技术随着信息技术的发展,计算机新算法以及大数据技术的出现,使机器翻译技术取得了巨大突破, 越来越受到人们的关注,也得到了翻译业界的广泛认可。

机器翻译技术的应用场景越来越多,已经成为翻译从业人员高效生产的重要途径之一。

在人工智能技术盛行的时代,翻译技术的迅猛发展对翻译行业和翻译活动本身均产生了巨大影响。

翻译技术的应用改变了传统的翻译模式,提高了译员工作效率,提升了翻译行业的生产效率,掌握翻译技术已成为现代翻译行业从业人员的必备技能。

早在2001年,德国的Frank Austermühl就曾详细阐述了信息化时代对翻译工作在信息技术工具方面的要求,要求译者会主动运用互联网搜索、搜集整合和利用语言与翻译数字资源、术语管理、语料库制作与利用、翻译记忆管理、本地化工具、机器翻译等多项技术。

根据这一要求,王华树和王少爽(2016)把翻译技术归结于以下五个方面的1 基金项目:浙江越秀外国语学院2020年度校级线上线下混合式教学改革项目“基于多平台资源的线上线下混合在《计算机辅助翻译》课程中的应用”。

语言与文化论坛 2020年 (第二辑)技术能力:计算机基本技能、信息检索技能、CAT工具应用技能、术语能力和译后编辑技能。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1 引言 世界上第一台电子计算机问世不久 , 美国科 学家韦弗 ( W. Weaver ) 和英 国工程 师布斯 ( A. D. Boo th) 就提出利用计算机进行语言自动翻译 的想法。 1954 年 , 美国进行了世界上第一次计算 机 翻 译 ( 通 常 称 作 机 器 翻 译, 即 M achine T ranslat ion, 简 称 M T , 或 者 F ully Aut omat ic H igh Q ualit y M achine T r anslat ion, 简 称 FAH QM T ) 系统的公开演示。该系统很小, 只有 250 条俄语词汇 , 6 条语法规则以及精心挑选 的 49 个俄语翻译例句, 但它向世人展示了 M T 的可 行性。这次试验有限的成功为人类的梦想插上了 翅膀 , 人们对 M T 的 未来充满乐观 , 似乎高质 量 的机器翻译近在咫尺。英国曾有报道说 : 操作员 坐在电子翻译器前, 从十几种语言中任选一种, 比 如法语, 他打字的速度有多快 , 翻译过来的匈牙利 语或 者俄 语 打 印 在 磁带 上 的 速 度 就有 多 快。 ( H ut chins 1986: 30) 这幅美好的前景激发了人们 对 MT 研 究的 热情 , 世 界各地 纷纷 斥巨 资进 行 MT 的研究。但时至今日, M T 的现实并不 像人 们所期待的那样美 好。国际上著 名的 MT 评 论 家哈钦斯先生不久前指出 : M T 译文质量至今并 没有取得实质性进展 , 很多 50 多年前未解决的问 题如今依然存 在。 ( 董振东 2000) 我国著名 学者 冯志伟先生也说 : 从已经推出 的实用化 M T 系 统的译文质量来看, 还不十分令人满意 , 对于一些 简单的句子, 译文一般不会有大问题, 但对于一些 稍长的句子, 或结构稍复杂的句子 , 译文质量就不 能令人 满 意, 有 时 简 直 是 不可 卒 读。 ( 冯 志 伟 2001: 55) 社会科学院刘倬研究员认为 M T 的译 文质量没有明显的提高。 ( 见黄河燕 2002: 1) 鉴于 M T 目前这 种尴 尬的 境地 , 有 必要 认
同( 俞士汶 1996: 16) 。这种语义的形式化描述非 常困难, 至少在不远的将来很难有突破。 多义性( m ult imeaning) 是自然语言的特点之 一。多义识别一直是自然语言处理中最基本、 也 是最难解决的问题之。它几乎表现在语言的各 个方面, 其中也包含由于语用因素造成的语句多 义或语句 模糊性 ( fuzziness) 。说话人可以用同 一句话表达不同的意思。反过来, 对于同一句话 , 不同的听话人也会有不同的反应。人与人用自然 语言进行交流是在一定的环境中进行的, 交流知 识背景一定有共同的部分 , 交流的目的大体上也 有预设。如 今天是星期六 , 可以表示丈夫提醒 妻子 今天不必上班 、 孩子 提醒父母 带他去 公 园 、 莘莘学子 希望睡个懒觉 , 还可以表示雇员 提醒老板 今天工作就是加班 等等。这种言外之 意及其背后的条件及语境 , 在目前情况下无法用 形式化的方法精确地描述出来 , 完全使用与上下 文无关的语法公式来描写语言 , 其数量是难以控 制的 , 而且使用句法树 ( g rammar t ree) 也无法充 分表达句子的逻辑语义。 汉英 M T 系统 做 这 类 分 析 时, 困难 更 大。 如: ( 1) 汉语缺乏印欧语言那样丰富的形态 ; ( 2) 汉语的语素、 单词和词组之间的界限很模糊; ( 3) 汉语的词类和句法成分之间没有明确的一一对应 关系 ; ( 4) 汉语中的虚词虽然有重要的句法功能 , 但在很多情况下又可以省略; ( 5) 汉语句子成分 和语义关系之间也没有明确的一一对应关系 ; ( 6) 汉语书面语没有分词连写 , 即字与字之间没有空 格, 按句连写的书面汉语丢失了较多的语言信息 , 所以汉语的计算机信息处理任务更加艰巨。 语言文字的熵( entropy) 是自然语言信息和知识 处理中极为关心的一个问题。它最早的概念来源于 热力学, 指热能的变化量除以温度所得的商, 表示热 量转化为功的程度, 后来香农把它用于信息论, 表示 信息传输中信息的量。汉字的熵为 9. 65 比特( 陈原 2003: 163) 。与拼音文字相比, 汉字的熵要高得多。 从信息论的角度看, 如此大的熵对于通讯技术和汉 字的信息处理都极为不利。 自然语言是人类最伟大的发明之一 , 极其复 杂。按照巴尔特 ( R. Bart hes) 的解释, 除人类 的 自然语言以外 , 我们至今还没有发现任何其他更 为复杂的符号系统( 丁尔苏 2000: 4) 。实际上 , 索 绪尔在他的 普通语言学教程 中早就指出: 语言 可以说是一种只有复杂项的代数 , 语言的实际 情况是我们无论从哪一方面去研究, 都找不到简 单的东西 ; 随时随地都是这种相互制约的各项要
2005 年第 5 期 总第 93 期
外 语研究 F or eign L ang uages Research
2005, Seria l
5 93
机器翻译难点所在
张 政
*
( 北京工商大学外语系 , 北京 100037)
摘 要 : 机器翻译经 历了 50 多年的曲折历程 , 已取得了长足的进展 , 但困扰机器翻译译文 质量的瓶 颈依旧存
在。作者从语言学、 翻译学、 文化学、 计算机科学的角度分析、 论述了机器翻译中的难 点 , 指出提高机器翻译译 文质量的艰巨性、 复杂性和长期性 , 以及今后的研发思路。 关键词 : 机 器翻译 ; 难点 ; 形式语法 ; 语言学 中图分类号 : H059 文献标识码 : A 文章编号 : 1005- 7242( 2005) 05- 0059- 04
MT 所 面 对 的 难 题 之 一 就 是 语 言 消 岐 ( disambiguit ion) 。自然语言在词汇、 句法、 语义、 语用等各个层面都充满歧义。冯志伟 ( 2001: 246 - 271) 给出了 22 种歧义结构 , 詹卫东等( 1999: 3) 也列举了大量的歧义格式。在词汇层面上, 词汇 的歧义主要是一 词多义, 如 英语单词 bank 可以 指 银行 、 储藏所 , 也可以指 河岸 、 沙洲 , t ear 既可表示 眼泪 , 也可表示 撕破 , 汉语中的 好 也是容易引起歧义的词, 无论是英语还是汉 语, 这种一词多义现象比比皆是。另一种情况是, 一个句子可以表示多个意思, 即句子本身是歧义 的。如 不需要进口小学生字典 , 没有上下文 , 可 以理解为 不需要进口( 进口作动词) 、不需要进 口的 ( 进口作名词 ) 、小学生的字典 、小的学生 字典 四种含义。英语中常见的结构歧义之一是 and ( 和) 结构, 如 t he y oung m en and w omen, 它 即可表示 年轻的男人和女人 , 也可表示 年轻的 男人和年轻的女人 。这种歧义结构看似简单, 机 器却无法识别, 有人戏谑地说 , 谁能克服这个难题 , 就应该获诺贝尔奖 , MT 消歧中的困难 , 由此可见 一斑。 中国和西方国家在生存条件和环境、 历史和 传统、 思想方式等方面都存在很大差异 , 这种差异 必然反映在中西语言上。王力先生在 中国语法 理论 一书 中提 出形 合和意 合两 个概 念, ( 王力 1954/ 2000: 310) , 指出 汉语里多用意合法, 联结 成分并非必要 ; 西方多用形合法, 联结成分在大多 数情况下是不可少的。 汉语句子的结构也可称为 并列 , 语义单位并列展开 , 表示关系的连接词、 介 词、 代词、 限定词或说明成分的定语和状语较之英 语用得很少。句子之间的衔接主要靠语义, 各语 义单位之间的关系通过结构内在的暗示 , 通过读 者的理解来贯穿联系。形式上较松散 , 灵活随意, 而又富于弹性。断句也没有严格明确的界限, 有 时一个段落为 一句。汉语的语 法成分界 定不明 确, 句子的形式化特征不明显。汉语的语法比西 洋语法更为复杂和隐蔽, 存在于隐性的语义关系 中( 荣晶 2000: 84) 。汉语里 , 意义上的关联就是 语词搭配起来的粘合剂, 结构类型并不取决于词 类的性质 , 而取决于语义的关联。所以, 汉语 M T 理论的研究不可能没有对语义的研究 , 但语义的 形式化描述更复杂、 更模糊。比如 动词+ 形容词 + 了 结构, 仅从语法的层面 , 很难分析下去 : 砍 光了 ( 语 义 上主 语 指 砍 的 受 事, 如 树砍 光 了 ) 、砍累了 ( 人砍累了 ) 、 砍钝了 ( 刀、 工 具砍钝了 ) 、 砍痛 了 ( 手砍痛了 ) 、 砍坏了 ( 受事的 东 西砍坏 了 ) 、 砍多 了 ( 东 西 砍多 了 ) 。由于补语的指向不同 , 句子暗含的意义不
*
本文得到北京市优秀人才专项和北京市留学人 员科技活动项目择优资助。
59
16) 。英语成语翻译本身比较困难 , 但人工译者一 般不会闹出这样的笑话。机器出现这种情况并不 奇怪 , 因为即使在同属印欧语系的英、 法、 德语之 间单词互译, 让机器做出准确、 恰当的选择也非易 事。英 语 中 的 知 道 ( know ) , 对 应 的 法 语 是 conna t re 和 sav oir, 但两者的含义不同。英语中 的 墙 ( w all) , 译 成德语时首先要确定是 内墙 还是 外墙 。英语中一个 set, 对应的汉语译文有 上百种。与汉字 开 搭配的用法有 开工、 开河、 开灯、 开始、 开天辟地、 开诚布公、 开宗明义 等, 也 有一百多个, 对应的英语译文数目就可想而知了。 如何取舍 , 并不容易 , 更何况大多数情况下 , 翻译 根本不是简单的字比句次 , 人工翻译也不是一对 一的机械转 换。汉语 的 一箭双雕 译成英语 是 kill t wo birds w it h one st one( 一块石头打死两只 鸟) , 法语是 f air e d une pierre deux coups( 一块石 头打两处 ) , 俄语是 一枪打死两只兔子 , 而在德 语中则是 一拍打死两只苍蝇 , 不同语言表达的 基本含意相 同, 但形象 及表达形式却 迥然不同。 再如英语 w ear ( 穿、 戴 ) , w ear a t ie, 就不能译 成 穿领带 , 因此译文还受习惯表达的制约。要让 机器翻译通顺 , 就必须在机器的词典库里详细地 标注、 限定 , 这样的一部词典要尽可能包括详尽的 语言学知识, 如词法、 形态、 句法、 语义、 语用等, 甚 至还要包括必要的常识, 这些丰富的信息只有通 过适当的处理 , 才能为机 器所用, 或 者说让机 器 懂得 人类语言。而 巴 希莱尔 ( Bar H illel ) 认 为, 在机器内部建立一部通用的百科全书, 这纯属 空 想, 几 乎 不 值 得 进 一 步 考 虑 ( . . . ut t erly chimerical and hardly deserves any f urt her discussion) ( H ut chins 1986: 155) 。即 使有 了 这 样一部包罗万象的字典, 机器的选择仍然存在问 题。例 如 英 语 中 the appearance of t he m an under t he tr ee w it h a bro ken branch near t he edge of t he r oad in t he t ow n w ith a market 这个 短语的 排列 组 合有 429 种选 项 ( 冯 志伟 2001: 224) , 要让 机器挑出一个 正确的, 其 难度可想 而 知。 这些问题说明 , 我们还要对语言与思维、 文化、 翻译等之间的密切关系进行更深入的研究, 特别是 要注重语言的形式化描述, 在句法、 语义描述方面 要更细, 建立更丰富完善的知识库, 在词性标注、 词 汇语义标注、 句法标注、 语料库的规模和加工方面 多下工夫。 2 2 自然语言的复杂性 歧义 ( ambiguity ) 是自然语 言中普遍存在 的 现象 , 其实质是同一语言形式可能具有不同的意 义, 这也是自然语言与人工语言的不同之一, 所以 60
相关文档
最新文档