机器翻译研究综述

合集下载

open-vocabulary综述

open-vocabulary综述

open-vocabulary综述Open-vocabulary综述随着自然语言处理技术的不断发展,open-vocabulary(开放词汇)成为了一个备受关注的研究领域。

传统的自然语言处理任务通常是基于预定义的词汇表进行的,而open-vocabulary则是指在处理文本时不受限于预定义词汇表的范围,可以涵盖任意的词汇。

在传统的NLP任务中,预定义的词汇表通常只包含一定数量的词汇,并且这些词汇是根据人为规则和语言学知识进行选择的。

然而,在现实世界中,词汇是无穷无尽的,新的词汇不断涌现,人类语言的变化和发展也使得传统的词汇表很难涵盖所有的情况。

这就需要我们在处理文本时能够处理未知的词汇,即open-vocabulary。

在open-vocabulary中,一种常见的方法是采用基于统计的方法,例如n-gram模型。

n-gram模型可以根据已有的文本数据进行统计,得到不同长度的词组的概率分布,从而对未知的词汇进行预测。

另一种方法是基于神经网络的方法,例如word2vec和BERT。

这些模型可以通过训练大规模的语料库来学习词汇的分布式表示,从而能够更好地处理未知的词汇。

除了词汇的处理,open-vocabulary还涉及到其他方面的问题。

例如,在命名实体识别任务中,传统的方法通常是基于预定义的实体类别进行识别,而open-vocabulary则可以处理更加广泛的实体类别。

在机器翻译任务中,open-vocabulary可以处理未知的单词和短语,从而提高翻译的质量。

在信息抽取任务中,open-vocabulary 可以处理未知的关系类型和实体类型,从而提高抽取的准确性。

然而,open-vocabulary也面临一些挑战和限制。

首先,open-vocabulary需要大规模的文本数据进行训练,这对于资源有限的情况下可能是一个问题。

其次,open-vocabulary需要处理未知的词汇,这可能会导致一些歧义和错误。

二进制翻译研究综述

二进制翻译研究综述

二进制翻译研究综述目录1. 内容概括 (2)1.1 研究背景 (2)1.2 研究意义 (3)1.3 研究目标 (5)1.4 研究方法与结构 (5)2. 二进制翻译简介 (6)2.1 二进制的概念 (7)2.2 二进制翻译的挑战 (8)2.3 二进制翻译的研究现状 (9)3. 翻译技术发展 (10)3.1 传统的翻译技术 (12)3.2 机器翻译技术 (13)3.3 深度学习在翻译中的应用 (14)4. 二进制翻译的研究方法 (15)4.1 语料库建设 (17)4.2 机器学习方法 (18)4.3 神经网络模型 (19)4.4 研究展望 (20)5. 应用领域的探索 (22)5.1 计算机科学领域 (23)5.2 物理学领域 (24)5.3 信号处理领域 (25)6. 面临的挑战与问题 (26)6.1 数据处理问题 (28)6.2 系统优化问题 (29)6.3 翻译质量评估 (31)7. 案例分析 (31)7.1 领域特定案例 (32)7.2 跨语言翻译研究 (33)8. 未来趋势与展望 (34)8.1 技术发展预测 (35)8.2 应用领域拓展 (37)9. 结论与建议 (38)1. 内容概括二进制翻译研究综述主要介绍了二进制翻译领域的研究现状和发展趋势。

该文首先概述了二进制翻译的基本概念、应用领域及其重要性。

对现有的二进制翻译理论和方法进行了梳理和评价,包括源代码分析、中间代码生成、优化策略等方面。

文章还从语言学视角和计算机科学视角分析了二进制翻译的多元研究方法。

在此基础上,探讨了当前研究的热点问题和挑战,如自动翻译的准确性、效率问题,以及二进制翻译在跨文化交流中的特殊挑战等。

对二进制翻译的未来发展方向进行了展望,强调了在人工智能、自然语言处理等领域的应用前景以及对于全球软件开发和国际技术交流的重要影响。

整个综述旨在为读者提供一个关于二进制翻译研究的全面视角,以便更好地理解和推动该领域的发展。

翻译机器评分的研究综述

翻译机器评分的研究综述
di s cus s ed t he mai n al g ori t hms o f a ut oma t i c mac hi ne t ra ns l ati o n s c o re a pp li ca ti ons , s u mmari ze d t he bas i S o f pr e vi o us s ucc es s f ul e xp eri e nce s an d de si gne d a s ys te m o f a ut omat i c tr ans l a ti on e v al ua ti on i n s i mul a ti on b ase d
m a r k e d b y m a n p o w e r . A s i t r e q u i r e s a l o t o f m a n p o w e r a n d r e s o u r c e s . s o m e r e s e a r c h i n s t i t u t e s t r y t o R & D a u t o m a t i c a l l y t r a n s l a t e d r a t i n g s y s t e m t o s u b s t i t u t e t h e m a n u a l t r a n s l a t i o n s c o r e s y s t e m . T h i S a r t i c l e m a i n l y
词库区域 内, 这个区域即为给分点的集合。 将此 词组与被测译文 2 翻译 自动评 价系统 设计
进行匹配, 在被测译文中会找 到一个 出现这组关键词几率较 大 在 这里设计 的是一个主要针对于C E T 考试翻译 模块的 自动

快速总结相关研究综述范文

快速总结相关研究综述范文

摘要:随着信息技术的飞速发展,人工智能(AI)已成为全球科技竞争的焦点。

本文从人工智能的发展历程、主要技术领域、应用场景以及面临的挑战等方面,对人工智能领域的相关研究进行综述。

一、发展历程人工智能的发展历程可分为四个阶段:理论探索阶段、技术突破阶段、应用探索阶段和产业应用阶段。

从20世纪50年代至今,人工智能经历了从理论研究到技术突破,再到产业应用的全过程。

二、主要技术领域1. 深度学习:深度学习是近年来人工智能领域的重要突破,包括卷积神经网络(CNN)、循环神经网络(RNN)和生成对抗网络(GAN)等。

2. 自然语言处理(NLP):NLP是人工智能领域的核心之一,包括文本分类、情感分析、机器翻译、问答系统等。

3. 计算机视觉:计算机视觉是人工智能领域的重要分支,包括目标检测、图像识别、图像分割等。

4. 机器学习:机器学习是人工智能的基础,包括监督学习、无监督学习、半监督学习等。

5. 强化学习:强化学习是使机器通过与环境交互来学习的一种方法,广泛应用于游戏、机器人控制等领域。

三、应用场景1. 金融领域:智能投顾、风险管理、反欺诈等。

2. 医疗领域:疾病诊断、药物研发、健康管理等。

3. 教育:个性化教学、智能评测、教育资源分配等。

4. 交通:自动驾驶、智能交通管理、交通信号控制等。

5. 语音助手:智能客服、智能家居、语音识别等。

四、面临的挑战1. 数据隐私与安全:随着人工智能技术的广泛应用,数据隐私与安全问题日益突出。

2. 算法偏见与公平性:算法偏见可能导致不公平的决策,影响人工智能的公正性。

3. 技术伦理与道德:人工智能技术可能引发伦理道德问题,如机器人的权利、人工智能的决策责任等。

4. 跨学科融合:人工智能技术涉及多个学科领域,需要跨学科的研究与合作。

总结:人工智能领域的研究取得了丰硕的成果,但在实际应用中仍面临诸多挑战。

未来,人工智能技术将继续向深度学习、多模态、跨学科融合等方面发展,为人类社会带来更多福祉。

机器翻译国外发展阶段研究综述

机器翻译国外发展阶段研究综述

机器翻译国外发展阶段研究综述作者:叶雨婷陈达来源:《文存阅刊》2017年第20期摘要:当涉及法律文书、政府文件等类型的文本或翻译任务量繁重的文本时,人工翻译仍具有一定的局限性,因此辅以机器翻译就成为了必然。

本文对国外机器翻译发展阶段进行研究并形成综述。

关键词:机器翻译;发展;综述随着世界各国联系日益密切,如何在语言和文化背景有所差异的情况下实现顺利交流就尤为重要,尤其是当涉及到关于法律文书、政府文件等类型的文本时,由于其文本特性,人工翻译具有一定的局限性。

因此,我们就需要借助机器翻译来顺利完成翻译任务。

鉴于机器翻译日益凸显的重要性和越来越广泛的应用,本文对机器翻译国外发展阶段进行了研究并形成综述。

一、兴起:1946年——20世纪60年代前半期。

1946年,世界上第一台公认的数字电子计算机诞生,人们开始考虑用计算机代替人工从事文本翻译工作。

1949年,韦弗的《备忘录》极大激发了人们对于机器翻译研究的兴趣。

到20世纪50年代初期,大批来自欧洲和美国的研究人员开始从事这项工作;另一方面,该研究也吸引了大量来自政府和公司等行业的投资。

1954年,在IBM的协助下,美国乔治城大学采用基于计算机的机器翻译系统,首次成功完成机器翻译试验,将机器翻译推入了新的发展阶段。

虽然此时机器翻译仍存在一些问题,但人们乐观地认为只要扩大词汇量和转变语法规则就能解决机器翻译存在的问题。

20世纪50年代中期到20世纪60年代前半期,由于美苏在军事、政治、经济等方面竞争激烈,两国都在机器翻译方面投入了大量资金和技术支持;欧洲其他国家出于经济发展和地缘政治的需要也对机器翻译研究十分重视。

因此,机器翻译在这一时期虽刚起步,但发展非常迅速。

二、停滞:20世纪60年代中期——20世纪70年代中期。

尽管社会各界对于机器翻译研究投入了大量资金和技术支持,但收效甚微。

因此,越来越多的投资者开始渐渐失去耐心;另外,在当时语言知识和计算机技术都有所欠缺的情况下,越来越多的人也开始质疑自动翻译的可能性。

机器翻译技术研究报告

机器翻译技术研究报告

机器翻译技术研究报告摘要:机器翻译技术是一项重要的人工智能应用,旨在实现不同语言之间的自动翻译。

本研究报告综述了机器翻译技术的发展历程、主要方法和应用现状,重点探讨了神经机器翻译模型的优势和挑战。

通过对相关研究的分析和总结,提出了未来机器翻译技术研究的方向和发展趋势。

1. 引言机器翻译技术是将一种语言的文本自动转化为另一种语言的技术。

随着全球化的发展和跨国交流的增加,机器翻译技术在商业、政府和学术领域中扮演着重要角色。

近年来,随着深度学习的兴起,神经机器翻译模型逐渐成为主流方法,取得了显著的研究进展。

2. 机器翻译方法2.1 统计机器翻译统计机器翻译是机器翻译的经典方法之一,其基本思想是通过对大规模双语语料进行统计分析,建立源语言和目标语言之间的概率模型。

该方法在翻译质量和效率方面取得了一定的成果,但受限于特征工程和数据稀疏性问题,其翻译结果仍然存在一定的局限性。

2.2 神经机器翻译神经机器翻译是近年来兴起的一种基于深度学习的机器翻译方法。

它利用神经网络模型,通过将源语言句子映射到目标语言句子的概率分布,实现翻译任务。

神经机器翻译模型具有端到端的特点,能够自动学习输入和输出之间的对应关系,大大简化了传统机器翻译方法中的特征工程过程。

该方法在翻译准确性和语义表达方面取得了显著的提升。

3. 神经机器翻译模型3.1 编码器-解码器模型编码器-解码器模型是神经机器翻译的核心架构,它由两个主要部分组成:编码器和解码器。

编码器负责将源语言句子编码为一个固定长度的向量表示,解码器则根据该向量表示生成目标语言句子。

编码器和解码器通常采用循环神经网络(RNN)或者注意力机制来实现。

3.2 注意力机制注意力机制是神经机器翻译模型中的重要组成部分,它解决了长句子翻译和翻译中的对齐问题。

注意力机制通过对源语言句子的不同部分进行加权,使得解码器能够更好地关注源语言句子中与当前翻译位置相关的信息。

基于注意力机制的模型在翻译结果的流畅性和准确性方面具有明显优势。

机器翻译技术研究综述及未来发展方向

机器翻译技术研究综述及未来发展方向

机器翻译技术研究综述及未来发展方向一、前言随着全球化的深入与信息化的发展,翻译行业面临着越来越大的挑战。

传统的翻译方式已经难以满足快速高效、多语种、大规模的翻译需求。

在这样的背景下,机器翻译技术应运而生,为翻译行业带来了全新的变革。

本文将综述机器翻译技术的研究现状及未来发展方向。

二、机器翻译技术发展历程早期的机器翻译技术采用的是基于规则的方法,即利用人工制定的翻译规则,将源语言文本转换成目标语言文本。

但是,由于规则的复杂性、文化差异等种种因素,基于规则的机器翻译技术的翻译质量并不理想。

为了解决这个问题,研究人员开始尝试基于统计学习的机器翻译技术。

基于统计学习的机器翻译技术主要是通过分析大量的源语言和目标语言之间的对应关系,来建立概率模型,再根据该概率模型对源语言文本进行翻译。

其中,最具代表性的是基于短语的机器翻译技术。

短语指的是一组有意义的词语,包括名词、动词、形容词等。

短语翻译模型将源语言和目标语言分别表示成一个个短语,然后通过翻译模型来计算这些短语的对应关系,最终得出目标语言文本。

三、机器翻译技术的发展现状目前,机器翻译技术已经取得了很大的进展。

已有的一些商业化机器翻译系统如Google翻译、百度翻译等,其翻译质量已经可以胜任日常口语交流或一般文件阅读等任务。

但是,对于涉及专业术语、文化背景等领域的翻译,机器翻译技术还需要进一步提升。

近年来,深度学习技术的兴起,使得机器翻译技术得到了新的发展。

深度学习技术主要是通过模仿人脑神经元的工作方式,来进行信息处理和学习。

它具有对大规模数据自动学习的能力,能够有效提升机器翻译的翻译质量。

其中,基于神经网络的机器翻译技术已经成为研究的热点之一。

四、机器翻译技术发展趋势机器翻译技术未来的发展方向主要包括如下几个方面:1. 模型的优化目前机器翻译技术主要采用的是基于序列到序列模型(Seq2Seq)的方式。

但是,这种模型对长文本的翻译效果仍然不够理想。

未来的研究方向是设计新型的翻译模型,提高机器翻译的长文本翻译效果。

低资源语言机器翻译技术研究综述

低资源语言机器翻译技术研究综述

低资源语言机器翻译技术研究综述随着全球化的发展,机器翻译在跨语言交流中扮演着越来越重要的角色。

然而,对于一些低资源语言来说,由于数据量有限,传统的机器翻译技术往往无法取得理想的效果。

因此,研究者们致力于开发适用于低资源语言的机器翻译技术,以提高翻译质量和效率。

一、低资源语言的挑战低资源语言指的是在机器翻译任务中,可用于训练和测试的语料资源非常有限的语言。

这些语言通常拥有少量的平行语料,而且缺乏大规模的双语语料库。

由于数据稀缺,低资源语言机器翻译面临着以下挑战:1. 数据稀缺:缺乏足够的平行语料用于训练机器翻译模型,这导致了翻译质量的下降。

2. 语言差异:低资源语言与高资源语言之间存在着巨大的语言差异,包括语法结构、词汇表和句法规则等方面的差异,这增加了机器翻译的难度。

3. 词汇表限制:低资源语言的词汇表通常较小,其中可能缺乏一些专业术语和新兴词汇,这给机器翻译带来了困扰。

二、低资源语言机器翻译技术针对低资源语言的机器翻译技术主要包括以下几个方面:1. 基于迁移学习的方法:迁移学习通过利用高资源语言的翻译模型来帮助低资源语言的机器翻译。

这种方法通过将高资源语言的翻译模型进行适应性调整,以适应低资源语言的特点,从而提高翻译质量。

2. 基于无监督学习的方法:无监督学习是指在没有标注数据的情况下进行学习。

对于低资源语言,由于缺乏平行语料,传统的有监督学习方法无法应用。

因此,无监督学习成为一种有效的解决方案。

该方法通过利用大规模的单语语料,通过自学习的方式来进行机器翻译。

3. 基于强化学习的方法:强化学习是一种通过与环境交互来学习最佳行为的机器学习方法。

在低资源语言机器翻译中,强化学习可以用于优化翻译模型的参数,以提高翻译质量。

4. 基于知识库的方法:知识库是一种存储结构化知识的数据库。

对于低资源语言,由于缺乏大规模的平行语料,可以利用知识库中的句子对来进行机器翻译。

这种方法通过将知识库中的句子对进行翻译,并将其用于训练机器翻译模型,以提高翻译质量。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

机器翻译综述1.引言1.1机器翻译的历史现代机器翻译的研究应该是从20世纪50年代开始,但是早在这以前很多人已经提出了相应的想法,甚至是远在古希腊时期就有人提出要用机器来进行语言翻译的想法。

在1946年,美国宾夕法尼亚大学的两位科学家设计并制造了世界上第一台电子计算机。

与此同时,英国工程师同美国洛克菲勒基金会副总裁韦弗在讨论计算机的应用范围时,就提出了利用计算机实现语言的自动翻译的想法。

在1949年,韦弗发表了一份名为《翻译》的备忘录,正式提出了机器翻译问题。

他提出了两个主要观点:第一,他认为翻译类似于解读密码的过程。

第二,他认为原文与译文“说的是同样的事情”,因此,当把语言A翻译为语言B时,就意味着从语言A出发,经过某一“通用语言”或“中间语言”,可以假定是全人类共同的。

在这一段时间由于学者的热心倡导,实业界的大力支持,美国的机器翻译研究一时兴盛起来。

1964年,美国科学院成立语言自动处理咨询委员会,调查机器翻译的研究情况,给出了“在目前给机器翻译以大力支持还没有多少理由”的结论,随后机器翻译的研究就陷入了低潮期。

直到70年代以后机器翻译的研究才重新进入了一个复苏期,随后机器翻译的发展又迎来了繁荣期1.2机器翻译的主要内容经过50多年的发展,在机器翻译领域中出现了很多的研究方法,总结如下:●直接翻译方法●句法转换方法●中间语言方法●基于规则的方法●基于语料库的方法➢基于实例的方法(含模板、翻译记忆方法)➢基于统计的方法在当前的研究中,更多的是基于统计的方法进行的,因为基于统计的方法可以充分的利用计算机的计算能力,并且并不需要过多的语言学知识作为支撑,可以让更多的计算机科学家投入到实用系统的研究中,极大的促进了统计机器翻译的发展。

下面对各个方法逐一的进行介绍。

2.机器翻译主要方法2.1直接翻译方法所谓直接翻译方法就是从句子的表层出发,将单词、词组、短语甚至是句子直接置换成目标语言译文,有时进行一些简单的词序调整实现翻译,并不进行深层次的句法和语义分析。

直接翻译方法也是早期翻译系统常用的方法。

在1954年,美国乔治敦大学用IBM计算机进行了首次机器翻译的实验后来IBM提出的统计机器翻译模型也可以认为是采用了这一思想。

这种方法只能是作为研究初期的一种方法,因为方法本身就是一个很成熟的方法,举例如下:How are you?直接翻译结果:怎么是你How old are you?直接翻译结果:怎么老是你从这个翻译结果就可以看到直接翻译方法的结果是非常不好的,直接翻译方法仅能满足特定译文生成的需要,比如说只在语言特点较为相似的语言之间的翻译效果较好。

对于像英汉语言这样差异较大的语言的翻译就不能使用直接翻译的方法。

鉴于直接翻译方法在机器翻译研究中的局限性,现如今几乎没有人继续在这个方法上进行进一步的研究,所以该方法只是在50、60年代作为机器翻译的起始研究方法存在。

2.2句法转换方法1957年,美国学者V. Yingve在Framework for Syntactic(句法翻译框架)中提出了句法转换方法。

整个过程分为“分析”、“转换”、“生成”三个阶段,分别如下:分析:将将源语言句子转换成源语言申城结构;在分析的过程中,有相关分析和独立分析两类。

所谓相关分析就是在分析时需要考虑目标语言的特点。

而独立分析就是分析过程与目标语言无关。

转换:将源语言深层结构转换为目标语言的深层结构;生成阶段:由目标语言深层结构生成目标语言句子;生成过程也有两类:相关生成和独立生成。

即相关生成是在生成时需要考虑语言的特点,而独立生成的生成过程与源语言无关。

理想的转换方法应该做到独立分析和独立生成,这样在进行多语言机器翻译的时候可以大大的减少分析和生成的工作量。

但独立分析和独立生成同样也会造成翻译质量的下降。

转换方法的优点是可以较好的保持原文结构,产生的译文结构与原文结构关系密切,尤其对于语言现象已知或句法结构规范的源语言句子具有较强的处理能力和较好的翻译效果。

主要不足就是:分析规则由人工编写,工作量大,规则的主观性强,规则的一致性难以保障,不利于系统扩充[1]。

2.3中间语言方法中间语言翻译方法首先将源语言句子分析成一种与具体语言无关的通用语言或中间语言,然后再由中间语言得到目标语言。

整个翻译过程分为“分析”和“生成”两个部分。

中间语言的优点在于进行多语种翻译的时候,只需要对每种语言分别开发一个分析模块和一个生成模块,模块总数为2*n,相比之下,如果采用转换方法就需要对每两种语言之间都开发一个转换模块,模块总数为n*(n-1)。

虽然基于中间语言的机器翻译方法能够减少系统实现的工作量,但是如何定义和设计中间语言的表达式并不是一件容易的事情,中间语言在语义表达的准确性、完整性、鲁棒性和领域的可移植性等诸多方面都存在问题[1]。

在基于中间语言机器翻译的基础之上,文献[2]采用统计的方法实现源语言到中间语言的转换和中间语言到目标语言的转换,用以实现一个语音到语音的翻译系统。

这种方法从思想方法上已经属于基于统计的范畴,但在技术方法上依然属于中间语言的方法。

现在纯粹基于中间语言的方法现在也很少能够引起研究人员的关注。

2.4基于规则的机器翻译方法自从乔姆斯基的转换生成语法提出后,基于规则的方法一直就是机器翻译研究的主流,乔姆斯基认为一种语言无限的句子可以由有限的规则推导出来[3]。

后来法国著名机器翻译专家沃古瓦(B. Vauquois)教授把基于语言规则的机器翻译方法的翻译过程总结为如下图形,这个图形又被称为“机器翻译金字塔”[4]:图1 机器翻译金字塔基于规则的方法的优点在于直观,能够表达精确地语言学家的知识,而且规则的颗粒度有很强的可伸缩性:(1)大颗粒度的规则具有很强的概括能力;(2)小颗粒度的规则具有精细的描述能力。

能够处理复杂的结构和进行深层次的理解,系统适应性较强,不依赖于具体的训练语料。

基于规则的方法同样也存在问题:(1)规则是由人制定的,主观因素重;(2)规则的覆盖性较差,特别是细粒度的规则很难总结的比较全面;(3)没有很好的办法解决规则之间的冲突。

文献[3]中提到复杂特征集和合一运算[5]的提出使用更细粒度、更加准确的知识表示形式来描述规则。

同时针对确定性规则降低了系统的鲁棒性的缺点,概率上下文无关文法[6]从全局最优的角度考虑,产生最优的翻译结果[3]。

随着这些方法的引入,传统的基于规则的机器翻译方法逐步向以规则为基础、语料库方法为辅助的更高层次的机器翻译方法的研究。

2.5基于语料库的方法在基于规则的机器翻译方法的研究面临一定的问题的情况下,很多学者就开始研究是否可以不依赖于人工制定的规则来进行机器翻译,即从大量语料中学习翻译知识。

基于语料库的翻译方法拥有无需人工编写规则、从语料库中学习得到的知识比较客观、从语料库中学习到的知识的覆盖性比较好的优点。

但同时,基于语料库的翻译方法同样也存在一定的问题:(1)翻译系统性能依赖于语料库;(2)数据稀疏问题严重;(3)语料库中不大容易得到大颗粒度的高概括性知识。

所以说在机器翻译的众多方法中没有哪种方法可以说自己是没有缺点的,只是不同的方法在不同的应用领域中有各自的优点。

目前基于语料库的方法主要有基于实例的机器翻译和基于统计的机器翻译两种方法[7]。

2.5.1基于实例的机器翻译方法日本学者长尾真(Makoto Nagao)提出了基于实例的机器翻译方法[8]。

在基于实例的机器翻译系统中,系统的知识来源是双语对照的翻译实例库,实例苦衷主要有两个字段,一个字段保存源语言句子,另一个句子保存与之对应的译文。

每输入一个源语言句子时,系统把这个句子同实例库中的源语言句子进行比较,找出与这个句子最为相似的句子,并模拟与这个句子相对应的译文,最后输出译文。

该方法的优点是:(1)直接使用对齐的语料库作为知识表现形式,知识库的扩充非常简单;(2)不需要进行深层次的语言分析,也可以产生高质量的译文。

缺点是覆盖率低,实用的翻译系统需要的实例库的规模极大(百万句对以上)。

2.5.2基于记忆的机器翻译方法在基于实例方法的基础上,日本学者佐藤聡(Satoshi Sato)提出了一个衍生的方法——基于记忆的翻译方法[9]。

基于翻译的方法是基于实例方法的特例,同样都需要建立一个实例库,但是作为衍生方法,同样有其独特之处。

该方法的基本思想为:把已经翻译过的句子保存起来;在翻译一个新句子的时候,直接到语料库中查找,如果发现相同的句子,直接输出译文,否则交给人去翻译,但可以通过系统提供一个相似的句子作为参考译文。

该方法的优缺点主要有:●翻译质量有保证;●随着使用时间的增长,匹配成功率逐步提高;●特别适用于重复率高的文本翻译,例如公司的产品说明书;●与语言无关,适用于各种语言对;●缺点是在刚开始使用时匹配成功率不高,无法给出较为合理的参考译文。

2.5.3基于统计的机器翻译方法如果说在机器翻译研究的初期,基于规则的方法是主流,吸引了大部分的研究人员的注意力的话,那现在就是基于统计方法大显身手的时候,目前基于规则的方法的研究依然在进行,只不过,更多的是作为统计机器翻译方法的补充方法。

其基本思想是为翻译过程建立模型,把翻译理解为搜索问题,即从所有可能的译文中选择概率最大的译文,而同为基于语料库方法的实例翻译方法则无需建立统计模型。

在基于实例的翻译方法中,语言知识表现为实例本身,而统计机器翻译汇总,翻译知识表现为模型参数[7]。

基于统计方法的优点:1)无需人工编写规则,利用语料库直接训练得到机器翻译系统;2)系统开发周期短;3)只要有足够多的语料,很容易适应新的领域或者语种。

缺点是:1)时空开销大,进行模型参数的计算需要消耗较多的计算资源;2)数据稀疏问题严重,当语料缺乏或语料的覆盖面不够全的时候就容易出现无法统计出需要的语言知识的情况;3)对语料库依赖严重,所有的工作都建立在语料库的基础上,好的语料库可以产生较好的翻译结果,反之就会影响到翻译质量。

4)有时需要规则的方法进行辅助基于统计的机器翻译方法主要有以下3种:➢基于词的统计机器翻译➢基于短语的机器翻译➢基于句法的统计机器翻译下面就是这3种方法的详细介绍。

2.5.3.1基于词的统计机器翻译在基于统计的机器翻译方法中首先发展起来的就是基于词的机器翻译方法。

IBM公司的Peter F. Brown 等人在1990年提出了基于统计的机器翻译方法,他们使用的就是基于词的机器翻译方法[10]。

他们为翻译建立了概率模型,在文献中他们使用的英语句子和法语句子之间的翻译作为实例。

假设人一个英语句子e和法语句子f,我们定义f翻译成e的概率为:于是将f翻译成e的问题就变成求解问题:.通过提出噪声信道模型将以上计算公式改写为其中P(E)为语言模型,反应“E像一个英语句子”的程度:称为流利度。

相关文档
最新文档