编译:《机器翻译基本分类与基本工作原理》

合集下载

机器翻译原理

机器翻译原理

机器翻译原理机器翻译是指利用计算机技术进行自然语言翻译的过程,它是人工智能领域的一个重要应用。

机器翻译的原理涉及到语言学、计算机科学和统计学等多个学科领域,其核心是通过计算机对源语言进行分析和理解,然后生成目标语言的文本。

在这个过程中,机器翻译系统需要克服诸多挑战,如语言的歧义性、语法结构的差异、上下文的理解等问题。

机器翻译的原理主要包括以下几个方面:1. 语言分析,机器翻译系统首先需要对源语言进行词法、句法和语义分析,以理解句子的结构、词语的含义和句子之间的关系。

这一步骤涉及到自然语言处理和计算语言学等领域的知识,需要利用词法分析器、句法分析器和语义分析器等工具来实现。

2. 知识表示,在语言分析的基础上,机器翻译系统需要将理解的信息转化为计算机能够处理的形式,即知识表示。

这一步骤涉及到语义网络、本体论和语义推理等技术,旨在构建一个能够表达语言知识的结构化模型。

3. 翻译规则,机器翻译系统需要根据语言分析和知识表示的结果,生成源语言到目标语言的翻译规则。

这些规则可以是基于规则的,也可以是基于统计的,其目的是将源语言的结构和含义转化为目标语言的结构和含义。

4. 目标语言生成,最后,机器翻译系统根据翻译规则生成目标语言的文本。

这一步骤涉及到语言生成和语言表达等技术,需要考虑目标语言的语法、词汇和语用等方面的要求。

总的来说,机器翻译的原理是基于对源语言的分析和理解,然后根据翻译规则生成目标语言的文本。

在这个过程中,机器翻译系统需要利用语言学和计算机科学等多个学科的知识,通过各种技术手段来实现自然语言翻译的目标。

当然,机器翻译仍然面临诸多挑战,如语言的多义性、长距离依赖、语境的理解等问题,这也是机器翻译领域需要不断探索和创新的方向之一。

总的来说,机器翻译的原理是基于对源语言的分析和理解,然后根据翻译规则生成目标语言的文本。

在这个过程中,机器翻译系统需要利用语言学和计算机科学等多个学科的知识,通过各种技术手段来实现自然语言翻译的目标。

机器翻译技术的原理与应用

机器翻译技术的原理与应用

机器翻译技术的原理与应用机器翻译(Machine Translation)是指使用计算机程序将一种语言翻译成另一种语言的过程。

随着机器学习和自然语言处理技术的进步,机器翻译也变得越来越普遍。

在本文中,我们将探讨机器翻译技术的原理和应用。

一、机器翻译的原理机器翻译的原理包括两个步骤:分词和翻译。

下面我们将分别介绍这两个步骤。

1.分词在机器翻译中,首先需要将待翻译的文本分成一个个单独的词汇。

这个过程称为分词(Tokenization)。

对于英语等空格分隔的语言,分词比较简单,可以使用空格分隔符进行分词。

但是对于中文等不带空格分隔的语言,分词就比较复杂。

中文分词需要使用一些特定的算法来划分词汇,常用的算法有最大匹配、正向最大匹配、逆向最大匹配和双向最大匹配等。

2.翻译翻译是机器翻译的核心步骤之一。

在翻译过程中,机器将待翻译的句子转换成目标语言的对应句子。

这个过程涉及到自然语言处理和机器学习技术。

自然语言处理(Natural Language Processing)是一种计算机科学和人工智能领域的交叉学科,致力于将自然语言与计算机之间的交互更加流畅和自然。

在机器翻译中,自然语言处理技术用于分析和处理原始文本,包括分词、停用词处理、词性标注、命名实体识别等。

机器学习(Machine Learning)是一种人工智能的分支,致力于构建自动化系统,能够从数据中学习和进行预测。

在机器翻译中,机器学习技术用于建立统计模型,从原始语料库中学习翻译规律。

常用的机器学习算法有朴素贝叶斯、决策树、支持向量机和神经网络等。

机器翻译的方式有多种,包括基于规则的机器翻译、统计机器翻译和神经机器翻译等。

其中,神经机器翻译是最近几年发展迅速的技术,它使用神经网络结构,可以通过对大量语言数据的学习来提高翻译质量。

二、机器翻译的应用机器翻译技术可以应用于各种场合,包括科技、商务、文化交流等。

下面我们将分别介绍机器翻译在这些场合的应用。

机器翻译的工作原理

机器翻译的工作原理

机器翻译的工作原理机器翻译(Machine Translation,MT)是一种通过计算机程序将一种自然语言的文本转化为另一种自然语言的文本的技术。

随着人工智能的发展,机器翻译在跨语言交流和信息传递中发挥着越来越重要的作用。

那么,机器翻译的工作原理是什么呢?机器翻译的工作原理可以大致分为两个阶段:语言分析和语言生成。

在语言分析阶段,机器翻译系统会对源语言文本进行分析和理解,以获取其中的语义和结构信息。

在语言生成阶段,系统会根据分析得到的信息,生成与源语言文本等价的目标语言文本。

首先,让我们看看语言分析阶段。

在这个阶段,机器翻译系统会对源语言文本进行词法分析、句法分析和语义分析。

词法分析是指将源语言文本划分为一个个词汇单位,这些词汇单位可以是单词、短语或者更大的语言单位。

句法分析是指分析句子的结构和语法关系,以理解句子中各个成分之间的关系。

语义分析是指理解句子的意义和语义关系,以获取句子的语义信息。

为了进行语言分析,机器翻译系统通常会使用统计机器翻译(Statistical Machine Translation,SMT)或神经机器翻译(Neural Machine Translation,NMT)等方法。

在统计机器翻译中,系统会根据大规模的双语平行语料库,学习源语言和目标语言之间的映射关系,以便在翻译时进行参考。

而在神经机器翻译中,系统会使用深度神经网络来建模源语言和目标语言之间的映射关系,以实现更加准确和流畅的翻译。

接下来,让我们来看看语言生成阶段。

在这个阶段,机器翻译系统会根据语言分析得到的信息,生成与源语言文本等价的目标语言文本。

这个过程通常涉及到词汇替换、句法重组和语义转换等操作。

词汇替换是指将源语言文本中的词汇替换为目标语言中的对应词汇。

句法重组是指根据目标语言的语法规则,重新组织句子的结构和语法关系。

语义转换是指根据目标语言的语义规则,转换句子的意义和语义关系。

在语言生成阶段,机器翻译系统通常会使用一些规则和模型来帮助生成目标语言文本。

机器翻译的技术原理和应用效果

机器翻译的技术原理和应用效果

机器翻译的技术原理和应用效果随着互联网的飞速发展,跨语言交流的需求不断增加。

传统的人工翻译已经难以满足大规模、高速的翻译需求。

这时机器翻译就成为了一种重要的选择。

本文将介绍机器翻译的技术原理和应用效果。

机器翻译的技术原理机器翻译是借助计算机来实现翻译的过程。

其实现的基本原理是通过计算机语言模型、统计模型和神经网络模型等方式,将源语言中的句子转化为目标语言中的句子。

1. 计算机语言模型计算机语言模型是实现机器翻译的基础。

计算机语言模型主要是通过对语言的统计学建模,将语言规则表示成数学模型。

语言模型首先需要对源语言和目标语言进行语言分析,然后在语料库中寻找文本中单词、短语、句子等的概率分布。

当计算机把句子输入进来后,它会根据这些概率分布计算出翻译的可能性,再根据句子翻译的可能性进行排序,从而实现机器翻译。

2. 统计模型统计模型是机器翻译中非常重要的一部分。

统计模型主要是利用翻译对齐语料来统计翻译的概率。

在统计模型中,源语言和目标语言的句子可以通过语料库中的翻译对齐语料来进行匹配。

匹配后,计算机可以根据翻译的频率和可能性来确定句子的翻译。

由于机器翻译的翻译效果主要取决于语料库中的对齐语料,因此对齐语料的数量和质量都会直接影响翻译的效果。

3. 神经网络模型神经网络模型是机器翻译中的新一代模型。

神经网络模型主要是通过组合多个线性转换来实现翻译。

神经网络模型包括编码器、解码器和注意力机制。

编码器主要是将源语言的句子转换为向量表示,解码器主要是通过对向量表示的转换和注意力机制来生成目标语言的句子。

神经网络模型主要优点是可以同时考虑更多的句子上下文信息,从而既能够提高翻译的准确性,又能够提高翻译的速度。

机器翻译的应用效果机器翻译作为一项先进的技术,在各个领域都有着广泛的应用。

以下是机器翻译在不同领域的应用效果。

1. 旅游业随着国际旅游的发展,语言障碍成为一个不可避免的问题。

机器翻译在旅游业中的应用,可以帮助游客快速、准确地翻译行程细节、饮食菜单、沟通交流等信息,从而使游客减少沟通障碍,更好地享受旅行。

机器翻译技术的工作原理

机器翻译技术的工作原理

机器翻译技术的工作原理机器翻译(MT)技术已经成为我们日常生活中不可或缺的一部分。

尽管它的发展历史还很短,但随着自然语言处理技术的不断发展和提高,机器翻译技术在翻译、交流、商务和政治等方面都发挥着重要作用。

本文将全面介绍机器翻译技术的工作原理。

机器翻译的基本概念机器翻译是一种能够自动将源语言文本转化为目标语言文本的技术。

其中,源语言文本是需要翻译的输入文本,目标语言文本则是翻译输出的文本。

机器翻译技术基本上分为两种类型:基于规则的机器翻译和基于数据的机器翻译。

基于规则的机器翻译基于规则的机器翻译(RBMT)是机器翻译的最早形式之一。

它的基本思想是为两种不同语言设计一个规则集,这些规则涉及到它们之间的语言结构映射。

要进行RBMT翻译,必须先将源语言文本转化为一系列根据规则进行转化的中间层形式,再将中间层形式转化为目标语言文本。

这两个步骤都依赖于手动编写的规则集。

基于规则的机器翻译的工作原理可以分为四个步骤:1. 分析:通过分析源语言文本,获得其语言结构和语义信息。

2. 转化:将分析结果转化为中间层形式,中间层形式包含关于源语言和目标语言之间的对应信息。

3. 生成:在中间层形式之上应用规则,生成与源语言相等的目标语言文本。

4. 合成:对生成的目标语言文本进行后处理,以生成人类可读的最终翻译结果。

基于数据的机器翻译基于数据的机器翻译(SMT)以不同于RBMT的方式进行,它不是基于人工编排的规则,而是通过分析已有的双语语料库,利用统计模型和机器学习技术来学习两种语言之间的转换模式。

SMT的基本原理是通过在两种语言之间建立概率模型来进行翻译。

基于数据的机器翻译的工作原理可以分为五个步骤:1. 对齐:已有的双语语料库是两种语言之间的平行句子形式,这些句子需要进行对齐,以便生成源语言和目标语言之间的句子对。

2. 训练:生成源语言和目标语言之间的概率模型,这需要使用训练数据集,通常使用已经对齐的双语语料。

3. 解码:对于源语言输入,将其转化为目标语言输出的过程,可以通过解码算法来完成,常见的算法是基于搜索或基于图的方法。

机器翻译的基本原理和方法

机器翻译的基本原理和方法

机器翻译的基本原理和方法机器翻译的发展与普及带来了巨大的便利,而则是支撑其运行的核心。

近年来,随着人工智能技术的不断进步和发展,机器翻译的翻译质量和速度也在不断提高,逐渐成为人们生活中不可或缺的重要工具。

本文将详细探讨机器翻译的基本原理和方法,解析其背后的技术原理,探讨其在实际应用中的优缺点,并展望未来机器翻译的发展趋势。

首先,我们来讨论机器翻译的基本原理。

机器翻译是利用计算机技术将一种自然语言的文本转换成另一种自然语言的文本的过程。

其基本原理是通过将源语言的文本转化成中间表示,再将中间表示转化成目标语言的文本。

在这一过程中,机器翻译系统需要进行多个步骤的处理,包括分析源语言文本、生成目标语言文本和进行语言转换等。

在这些步骤中,涉及到词汇的识别、句法分析、语义理解等多个方面的技术。

其次,我们来探讨机器翻译的方法。

机器翻译方法主要包括基于规则的方法、基于统计的方法和基于深度学习的方法。

基于规则的方法是指通过人工编写规则来进行翻译,这种方法需要大量的人力和时间来编写规则,难以满足不同语言之间的翻译需求。

基于统计的方法是指通过大量的语料库数据来进行翻译,通过统计分析来确定翻译结果。

而基于深度学习的方法则是利用神经网络模型来进行翻译,通过训练模型来获取语言之间的映射关系,从而实现翻译。

在实际应用中,机器翻译的优点包括速度快、可扩展性强、成本较低等。

由于机器翻译是基于计算机技术的处理,因此可以实现快速翻译,满足人们实时翻译的需求。

同时,机器翻译系统可以通过不断训练和学习来提高翻译质量,具有良好的可扩展性。

另外,相对于人工翻译,机器翻译成本较低,可以帮助人们节省翻译费用。

然而,机器翻译也存在一些缺点。

首先是翻译质量不稳定,尤其是在涉及到专业领域或长文本翻译时,机器翻译系统的翻译质量不如人工翻译。

其次是词语歧义和语言习惯的问题,机器翻译系统难以准确理解词语的多义性和语言的习惯表达方式,导致翻译结果不准确。

另外,机器翻译的适用范围有限,无法完全替代人工翻译,尤其是在涉及到文化差异等方面的翻译时,机器翻译系统难以胜任。

机器翻译的工作原理

机器翻译的工作原理

机器翻译的工作原理随着全球化的发展和各国之间交流的增加,翻译在促进不同语言和文化之间的沟通和理解方面起着重要作用。

传统的人工翻译无疑是一项艰巨而耗时的任务,而机器翻译的出现为我们提供了更为高效和便捷的选择。

本文将介绍机器翻译的工作原理。

机器翻译是利用计算机技术将一种语言的文本自动转化为另一种语言的文本的过程。

它基于人工智能和自然语言处理等技术,通过分析和处理大量的语言数据,自动进行翻译,并输出合理的翻译结果。

首先,机器翻译的工作需要大量的语言资源作为输入。

这些资源包括双语平行语料库、双语词典、专业术语数据库等等。

这些语料库提供了丰富的语言数据,作为机器学习的基础。

其次,机器翻译一般采用统计机器翻译或神经网络机器翻译的算法。

统计机器翻译是以统计和概率为基础的方法,通过计算不同翻译选项出现的概率来选择最合适的翻译结果。

神经网络机器翻译则是基于深度学习算法,通过神经网络的训练和运算能力来进行翻译。

在具体的翻译过程中,机器翻译首先对输入的源语言进行分词和词性标注。

这一步骤将源语言的文本划分为一个个独立的词元,为后续的处理提供基础。

然后,机器翻译通过参考语料库中的翻译数据,利用统计模型或神经网络模型进行翻译。

具体而言,统计机器翻译通过计算不同翻译选项的得分,选择概率最大的翻译结果。

而神经网络机器翻译通过神经网络的训练和调整,将输入的源语言转化为目标语言的翻译结果。

然而,机器翻译并非完美无缺。

尽管它在增加翻译效率和提供快速结果方面具有优势,但与人工翻译相比,机器翻译仍然存在一些限制和挑战。

首先,机器翻译对语言的理解和语境的把握还有待加强。

尽管其基于大量的语料库进行训练和学习,但在处理复杂的文本和语义问题时,仍然难以达到人工翻译的准确性和细腻度。

其次,机器翻译面临技术限制和资源限制。

机器翻译的算法和模型需要不断的优化和更新,以适应不同语言和文化之间的特点和变化。

此外,机器翻译所需的大量语言资源和计算资源也是一项挑战,限制了其在实际应用中的广泛推广和使用。

机器翻译的原理与方法

机器翻译的原理与方法

机器翻译的原理与方法随着全球化的加速,各种语言之间的交流变得越来越频繁,对于企业、政府机构及普通人来说,熟练掌握多种语言已经成为受人欢迎的技能之一。

但是,在实际应用中,翻译仍然是一个相当耗时且繁琐的过程,因此机器翻译的应用越来越受到欢迎。

本文将介绍机器翻译的原理与方法。

一、机器翻译的原理机器翻译是指利用计算机技术进行翻译的过程。

目前,通常采用的原理是统计机器翻译,它采用了依据大规模平行语料库进行翻译的方式。

统计机器翻译是通过根据源语言和目标语言之间的大量同义、近义以及多义等词汇之间的对应关系,来进行翻译的。

其中最核心的是语言模型和翻译模型。

语言模型主要是为了计算在所有可能的翻译候选中,哪一种翻译候选最具有可信度。

翻译模型则是识别每一个源语言单词到目标语言单词之间的对应关系,同时也会考虑上下文信息等因素。

通过利用摩尔格拉夫评分方法来计算结果,并将可信度最高的翻译候选输出作为最终的翻译结果。

二、机器翻译的方法机器翻译根据其方法的不同,可以分成多种类型,如基于规则的机器翻译、基于统计的机器翻译和基于神经网络的机器翻译等。

其中,基于规则的机器翻译属于传统的机器翻译方法,它主要是通过人工编码、具体规则和语法知识等方法来进行翻译。

随着计算机技术的发展,基于规则的机器翻译方法已经逐渐被基于统计的机器翻译取代。

基于统计的机器翻译是指通过算法来建立源语言和目标语言之间的统计模型,通过分析词汇、句法和上下文等方面的语言规律,来实现翻译。

目前被广泛采用的机器翻译系统,如Google翻译、百度翻译等,都是基于统计的机器翻译。

另外,近年来,随着深度学习技术的不断发展,人工智能领域也提出了一种新的机器翻译方法,即基于神经网络的机器翻译。

该方法通过构建相应的神经网络模型,且采用了“编码器-解码器”的框架,将源语言与目标语言的信息进行编码和解码,从而实现自动翻译。

与基于规则和统计的机器翻译相比,基于神经网络的机器翻译具有自动学习能力和大规模处理能力等优势。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

机器翻译基本分类与基本工作原理编译:洪洁传神语联网网络科技股份有限公司多语工程中心编译:洪雷中国科学院大学外语系文章来源:多语工程技术研究中心《云翻译技术》第12期,转载请注明出处摘要本篇综述对机器翻译基本工作原理和基本分类进行了归纳总结,并且对机器翻译的未来发展方向进行了初步探讨。

关键词机器翻译工作原理分类机器翻译(Machine Translation,MT)是建立在多学科基础上的综合学科,现代理论语言学的发展,计算机科学的进步,信息学和概率统计学的应用,对机器翻译的发展和演变产生了重要影响。

机器翻译的基本思想是利用计算机对自然语言进行翻译,而各种机器翻译系统采用的技术和理念不尽相同;面对各种各样的机器翻译系统,文献上有各种分类方式。

本文根据所应用的基本工作原理对机器翻译系统分类作一综述。

1.基本类型的机器翻译系统:现有的机器翻译系统按照其基本工作原理,可以分为基于规则的(Rule-Based)机器翻译,基于实例的(Example-Based)机器翻译和统计型的(Statistical)机器翻译这三种基本类型。

1.1.基于规则的机器翻译系统(Rule-Based Machine Translation, RBMT):其基本工作原理基于一个假设,即语言无限的句子可以由有限的规则推导出来。

基于这个假设的机器翻译方法又可以分为三类:直接翻译法(Direct Translation),中间语言法(Interlingual Approach),和转换法(Transfer Approach)。

它们都需要用到大规模的双语词典,需要用到源语言推导规则,语言转换规则和目标语言生成规则;其不同点在于对语言进行的分析深度不同。

如直译法几乎不需要进行语言分析,中间语言法和转换法需要对源语言和目标语言进行某种程度的语言分析。

1.1.1直接翻译法(Direct Translation):这种翻译方法直接对源文字中的字词进行逐个翻译,译后文字顺序按照原文顺序进行排列。

这是基于规则的机器翻译的最早的工作方法。

这种译法简单、直观,其弊端也是明显的:由这种方法得到的翻译结果质量很不令人满意。

人们已经逐渐不再使用这种直接翻译法。

1.1.2中间语言法(Interlingual Approach):这种翻译方法对源语言文字进行透彻的语言分析,将其转化为一种中间语言表达形式,进而由这种中间语言(Interlingua)进一步生成和输出符合目标语言语法规则的文字。

这种中间语言是一种非自然语言,即不是任何国家地区人们使用的语言;而且它是一种没有歧义的表达方式。

此外,中间语言不是唯一的,不同的系统采用不同的中间语言。

任意一种语言经由中间语言译为其它任意一种语言,理论上这种中间语言法是最有效率的一种翻译方式。

假定世界上总共有n种自然语言,使用中间语言法,只需2n个模块就可以解决所有自然语言之间的互译问题。

不使用中间语言,这些语言间的互译则需要n(n-1)个模块。

当n大于3时,2n小于n(n-1)。

我们知道,世界上的自然语言种类远大于3,因此2n个模块的数量远小于n(n-1)个模块的数量。

1.1.3转换法(Transfer Approach):这种翻译方法先对源语言文字进行一定程度的语言分析,去除语法的因素,生成源语言的中间表达方式,然后经由转换,生成目标语言的中间表达方式,再由目标语言的中间表达方式生成和输出符合目标语言语法规则的文字。

目前来说,转换法的语言分析和实现方法在三种方法中最为复杂,得到的翻译质量在三种方法中也是最好的,是目前商业上最常使用的翻译方法,在商业上最为成功。

在许多基于规则的机器翻译系统中,由语言学家辅助编写一系列关于源语言和目标语言的语法规则,以及将源语言数据转换为目标语言数据的转换规则。

然而使用全人工来制作这些规则非常昂贵、费时,而且易于出错。

一个解决方法便是将以往的历史翻译结果作为资源库,其中的源语言文字和它对应的目标语言译文作为例子,从中尝试提取出恰当的规则。

方法之一是对源文字和目标语言译文作人工标记以示关联。

Sato 和Nagao[1]研发出一个系统,用“平面依赖关系树”来表示源语言文字和目标语言文字。

这种关系树型数据结构是计算机高效识别的一种形式。

通常用两个层次代表源语言和目标语言之间的关联:第一层次依赖于文字的表面形式(如字、词顺序),用于源语言的分析和目标语言的生成;第二层次依赖于字词间的语义关联,用于从源语言向目标语言的转换。

这种机器翻译系统在基于规则的机器翻译基础上,利用了实例库的优势。

随着大量历史翻译结果的积累,出现了基于实例的机器翻译系统,人们将这些已经完成的翻译结果作为资源库,利用到机器翻译中来。

1.2.基于实例的机器翻译(Example-Based Machine Translation,EBMT):其基本工作原理是基于类比(Analogy)的原则,从实例库中匹配出与源文字片段最相似的文字片段,取出实例文字片段对应的目标语言翻译结果,进行适当的改造,最终得出完整的翻译结果。

基于实例的机器翻译其核心思想最早由Mako Nagao 提出[2],他提出:人们在翻译简单句子时并不作深层语言分析,而是翻译。

首先把源句子分解成若干片段,然后将这些片段译为目标语言,每个片段的翻译都是通过与例句做匹配以类比的原则得到的,最后将这些译后句子组合成一个长句子。

1.2.1.实例库的构成:实例库也称为语料库(Corpus),由已经完成的翻译结果构成。

这些现成的翻译结果也称为语料,包括人工翻译的结果和经过人工编辑的机器翻译结果。

语料库由双语对构成,包括源语言文字片段和目标语言译文文字片段两部分。

这些翻译结果要先经过拆分和对齐处理,才可以成为语料库中的可用语料。

因此语料库也称为平行双语语料库(Parallel Corpus)。

拆分和对齐目前有多种形式,如句子水平的对齐和短语水平的对齐。

对齐的文字片段大小的选择,会直接影响匹配的效率和翻译结果。

1.2.2.语料拆分的碎片化问题:Nirenburg等(1993)指出,在基于实例的机器翻译系统(EBMT)中,实例语料存在一个文字片段长度和相似度之间的一个矛盾。

文字片段越长,越不易得到一个相似度高的匹配;文字片段越短,越可能得到一个大致匹配,但是得到低质量翻译结果的风险也越大。

比如由段落划分边界产生的重叠问题以及不恰当的划分导致的翻译质量下降。

直观上似乎是选择以句子为单位划分得到的语料对比较好,有诸多优势如:句子的边界划分清楚,一些简单句子的结构清晰。

然而在实际应用中,以句子为单位并不是最恰当的方式。

实践证明匹配和重组过程需要使用更加短小的片段[3]。

(当然,这些研究结果是以欧美语系语言之间的翻译研究结果为基础的。

)1.2.3.实例库定制:实例语料的的范围和质量影响着基于实例的机器翻译系统(EBMT)的翻译质量水平。

在某特定领域获取高质量语料可以大大提高机器翻译在此领域的翻译质量,称为语料(实例)库的定制。

1.3. 统计型机器翻译系统(Statistical MT):IBM公司的Brown在1990年首先将统计模型用于法-英机器翻译。

其基本思想是:把机器翻译问题看成是一个噪声信道问题,然后用信道模型来进行解码。

翻译过程被看作是一个解码的过程,进而变成寻求最优翻译结果的过程。

基于这种思想的机器翻译重点是定义最合适的语言概率模型和翻译概率模型,然后对语言模型和翻译模型的概率参数进行估计。

语言模型的参数估计需要大量的单语语料,翻译模型的参数估计需要大量平行双语语料。

统计机器翻译的质量很大程度上取决于语言模型和翻译模型的性能,此外,要找到最优的译文,还需要有好的搜索算法。

简单说,统计机器翻译首先建立统计模型,然后使用实例库中的实例对统计模型进行训练,得到需要的语言模型和翻译模型用于翻译。

统计型机器翻译,除了基于噪声信道理论的系统以外,还有基于最大熵方法的系统。

博格(A.L.Berger)在1996年提出自然语言处理中“最大熵方法”(Maximum Entropy Approach)。

德国人奥赫(Franz Joseph Och)等发现,把IBM公司的统计机器翻译基本方程式中的翻译模型转变为反向翻译模型,总体的翻译正确率并没有降低,由此,他们提出基于最大熵方法的机器翻译模型。

统计型机器翻译取得了一定的成绩,然而纯统计设计却不能解决所有困难。

统计型的方法不考虑语言的语义、语法因素,单纯用数学的方法来处理语言问题,有着巨大的局限性。

于是人们开始探索基于统计方法和其它翻译方法的联合应用。

如统计的和基于实例的机器翻译系统,统计的和基于规则的机器翻译系统,等等。

2. 综合类型的机器翻译系统:以上三个基本机器翻译系统各有优势和长处,同时又不可避免的具有某种缺陷和局限性。

如基于规则的机器翻译系统(RBMT)可以准确的描述语言学特征和规律,然而制定适用和完备的语言规则却不是一件容易的事;基于实例的机器翻译系统(EBMT)可以充分利用已有的翻译结果,但是实例库的维护需要大量的人工和费用;统计型的机器翻译(Statistical MT)可以缓解知识获取的瓶颈问题,但是纯数学的方法难于完全解决语言中的复杂问题。

为进一步提高机器翻译系统的翻译水平,人们综合以上几个基本类型的优势,又发明了混合型机器翻译系统(Hybrid MT),多引擎机器翻译系统(Multi-Engine MT)和提出了基于知识的机器翻译系统(Knowledge-Based MT)的理论。

2.1混合型机器翻译系统(Hybrid MT):翻译过程使用两种或以上机器翻译原理。

比如:基于规则的机器翻译方法的核心是构造完备的、适应性较强的规则系统。

如何得到完备和适应性强的规则系统成为研究焦点。

使用传统的方法,语法规则库的建立需要大量的人力、物力,大量的语言语法规则之间往往存在着不可避免的冲突,规则的完备性和适应性不能得到保证。

随着人们翻译工作的进行,生成大量已完成的翻译结果,形成大量语料。

人们想到了使用统计方法从现有语料中自动提取我们需要的语言语法信息。

从实例中抽取语言转换规则,将基于实例的机器翻译作为研究技术来建立语言规则基础,而不是单纯用来进行类比翻译。

通过一个归纳的过程,从大量例句中提出抽象的规则 [4][5]。

这样传统的基于规则的机器翻译方法发展成为以规则为基础,语料库为辅助的机器翻译方法。

这种翻译模型可以称之为混合型机器翻译系统(Hybrid MT)。

2.2多引擎机器翻译系统(Multi-Engine MT):这种机器翻译系统的基本思想是几架机器翻译引擎同时进行并行翻译,并行翻译的这几架翻译引擎分别基于不同的工作原理,给出多个翻译结果,然后通过某种机制或算法筛选并生成最优翻译结果进行输出。

相关文档
最新文档