机器翻译研究现状

合集下载

机器翻译技术的现状与未来发展

机器翻译技术的现状与未来发展

机器翻译技术的现状与未来发展近年来,随着人工智能技术的不断发展,机器翻译技术也在不断突破与完善。

而在如今的全球化时代,翻译成为了人们日常生活和商业活动中不可或缺的一部分。

因此,机器翻译技术的发展也备受关注。

一、机器翻译技术的现状机器翻译技术的出现可以追溯到上个世纪50年代,当时的机器翻译技术主要采用的是基于规则的方法,即将待翻译的文本通过转化为计算机可处理的形式,再根据语法规则转化为目标语言。

但这种方法存在着多种限制,比如只适用于某些特定语种、在处理长句子或复杂结构时效果较差等。

随着人工智能技术的日益成熟,神经网络机器翻译技术逐渐成为了主流。

神经网络机器翻译技术是通过构建一个多层神经网络模型,将待翻译的文本和目标语言互相转换,同时通过反向传播算法优化模型,从而达到最佳翻译效果。

目前,机器翻译技术在翻译新闻报道、商业文档、电子邮件等特定场景下已经取得了较好的应用效果。

同时,一些在线翻译工具如百度翻译、谷歌翻译等也在不断完善和升级,提供更精准、自然的翻译服务。

二、面对的挑战虽然机器翻译技术已经取得了较大的进步,但仍然面临种种挑战。

首先,机器翻译技术在处理特定领域的文本时效果较好,但在处理文学作品、难以理解的长句等情况下依然存在着较大的翻译误差。

其次,机器翻译技术仍存在着语言特征差异等问题。

比如在翻译中文的时候,某些不同的汉字可能有多种不同的意思,甚至同一个汉字在不同的语境下也可以有不同的意义。

这些特征差异可能导致翻译误差。

另外,机器翻译技术的泛化能力仍然很有限。

即使是同样语种的不同地域的文化差异也会影响翻译的准确度。

三、发展趋势与未来展望随着翻译需求的不断增加,机器翻译技术在未来必然会得到更多的投入和研究。

未来的发展趋势之一是机器翻译技术的深度学习。

在神经网络模型的基础上,通过不断训练和优化模型,使得机器翻译技术可以更加准确、自然地翻译。

同时,相信未来机器翻译技术发展的重要方向之一是多语种翻译技术。

机器翻译技术的现状和未来发展趋势

机器翻译技术的现状和未来发展趋势

机器翻译技术的现状和未来发展趋势随着全球化进程的加速,人类的交流需求越来越高,而语言壁垒却给交流带来了无法逾越的障碍。

机器翻译技术的出现解决了这一难题,让人类交流变得更加无缝便利。

本文将探讨机器翻译技术的现状和未来发展趋势。

一、机器翻译技术的现状机器翻译技术是一种将一种语言的文本转换成另一种语言的过程。

不同于人工翻译,机器翻译由计算机系统完成。

机器翻译技术的优点在于,它可以快速高效地翻译大量的文本,而且可以根据需要进行实时翻译,具有很高的灵活性。

然而,机器翻译技术的发展历程也充满了曲折与挫折。

早期的机器翻译技术受限于计算机处理能力和语言处理技术的不足,翻译效果很差。

但随着计算机技术和人工智能技术的发展,机器翻译技术变得越来越成熟和优秀。

例如谷歌翻译等机器翻译工具已经可以实现基本的翻译需求。

然而,机器翻译技术目前仍面临一些挑战。

一些语言之间的语言差异比较大,翻译起来较为困难。

一些语言中存在大量的歧义和多义词,这使得翻译词汇选择变得更加困难。

此外,许多语言中有大量的文化隐喻和表达方式,这也极大地增加了机器翻译的难度。

二、机器翻译技术的未来发展趋势机器翻译技术的发展趋势一直很明显:它将越来越接近人工翻译的效果。

在未来,机器翻译技术将面临着三个主要挑战。

1. 机器翻译技术需要表现得更加人性化机器翻译技术的翻译效果仍然比人工翻译差。

如果机器翻译技术想要在市场中取得更好的表现,它必须表现得更加人性化,这包括提高翻译质量和增加定制化服务。

机器翻译技术将提供更高质量的翻译,以及更多的翻译选择。

2. 语言差异问题依然存在虽然机器翻译技术在语言差异问题上得到了很大的改善,但这个问题还远远没有解决。

在未来,机器翻译技术需要更加深入地了解不同语言之间的差异,以便更准确地进行翻译。

3. 文化隐喻和表达方式的翻译问题仍然存在文化隐喻和表达方式是机器翻译技术面临的另一个难题。

这些隐喻和表达方式在语言中非常常见,但对于非本国人来说却很难理解。

机器翻译技术的现状与发展前景

机器翻译技术的现状与发展前景

机器翻译技术的现状与发展前景近年来,随着全球化的进程不断加速,翻译需求越来越大,因此机器翻译技术也得到了蓬勃发展。

随着人工智能技术的快速发展,机器翻译的技术也在不断地进化,同时也出现了新的问题。

本文旨在探讨机器翻译技术的现状与发展前景。

一、机器翻译技术现状机器翻译(Machine Translation, MT)是一种利用计算机和自然语言处理技术实现从一种自然语言翻译到另一种自然语言的自动化工具。

随着人工智能技术的不断发展,机器翻译技术也得到了飞速的发展。

当下,机器翻译技术主要有两种实现方式:1. 基于规则的机器翻译(Rule-Based Machine Translation,RBMT):这种机器翻译技术是通过编写翻译规则和语法规则等来实现的,其核心是将一种语言的语法、词汇等细节转化为另一种语言的,对翻译文本进行全面细致的分析和解释,然后将其按照一定规则进行转化从而达到翻译的效果。

2. 基于统计的机器翻译(Statistical Machine Translation,SMT):这种机器翻译技术是通过运用统计算法,运用大量的语料库来训练机器翻译模型,将概率模型引入从而增强了机器翻译的准确性和可靠性。

统计机器翻译模型经常采用贝叶斯方法来推断出翻译结果,因此,在自然语言处理、机器学习等一些理论的支撑下,统计机器翻译已经成为了机器翻译领域最重要的研究方向之一。

现在,越来越多的公司和机构利用机器翻译技术满足其跨文化的沟通需求。

例如,Google翻译、百度翻译、腾讯翻译等都是基于机器翻译技术而开发的在线翻译平台。

二、机器翻译技术面临的挑战尽管机器翻译技术已经有了巨大的发展,但是翻译效果却还不能完全替代人工翻译,该技术依然面临着以下几个方面的挑战:1. 翻译质量不可控:机器翻译技术的翻译质量主要取决于所使用的语料库的质量和数量,可靠的语料库并不一定能够满足所有的翻译需求,这导致机器翻译技术的翻译质量难以持续稳定。

机器翻译技术的现状与展望

机器翻译技术的现状与展望

机器翻译技术的现状与展望现代科技不断带来革新,机器翻译技术作为其中的重要组成部分,也正在不断的发展和优化之中。

机器翻译技术的出现,为许多人的交流造桥梁,也让翻译工作更加智能化和高效化。

今天,本文将介绍机器翻译技术的现状与展望,探讨它的优点和不足之处,并提出机器翻译的未来发展方向与建议。

一、机器翻译技术的现状机器翻译技术,早在1950年就开始引入计算机科学领域,此后一直在经历着不断地改进和发展。

目前,全世界大多数的国际组织、公司或者政府都在使用机器翻译技术来解决翻译问题。

随着人工智能的技术发展,机器翻译技术也逐渐呈现出了以下的特点:1、语言难度越来越复杂机器翻译技术在语言难度上有所提高,它可以更好地处理较为复杂的语言文本,如专业领域、较为正式的语体和口语化的语言表达等。

2、实现语言逆向处理机器翻译技术在逆向处理方面也有所提高,现在的机器翻译技术已经具备了非常优秀的自动识别源语言和目标语言的能力。

无论是英文、法文、俄文或者中文等各种语言,机器翻译技术都可以很好地实现语言逆向翻译处理。

3、新技术改善翻译体验新技术的引入也让机器翻译技术的翻译方式更加智能和直观。

例如,语音输入和语音翻译技术的出现,使得用户可以轻松地进行口语翻译。

机器翻译技术的逐步成熟,为人们的生活、工作等场景提供了更为便捷、高效、准确的翻译服务。

二、机器翻译技术的展望随着物联网、大数据等技术的普及和进步,机器翻译技术将会更为全面地普及和使用。

未来机器翻译技术的发展趋势将会呈现以下几个方向:1、语言自然度的提高机器翻译技术的语言自然度将会随着技术的发展逐渐提高,它将会更好地模仿人类翻译的方式,逐渐成为一种更为逼真和流畅的语言表达方式。

2、根据用户需求实现个性化翻译社交媒体等互联网平台中,人们的语言表达方式各异,个性化的不同需求也形成了不同的语境和习惯。

未来的机器翻译技术可以根据用户的个性化需求,进行自动化翻译,实现更加智能化的翻译效果。

3、与其他技术的融合未来的机器翻译技术将会与其他技术融合,如人工智能、大数据等技术,逐渐实现各种复杂场景下的语言表达和翻译。

机器翻译技术研究综述及未来发展方向

机器翻译技术研究综述及未来发展方向

机器翻译技术研究综述及未来发展方向一、前言随着全球化的深入与信息化的发展,翻译行业面临着越来越大的挑战。

传统的翻译方式已经难以满足快速高效、多语种、大规模的翻译需求。

在这样的背景下,机器翻译技术应运而生,为翻译行业带来了全新的变革。

本文将综述机器翻译技术的研究现状及未来发展方向。

二、机器翻译技术发展历程早期的机器翻译技术采用的是基于规则的方法,即利用人工制定的翻译规则,将源语言文本转换成目标语言文本。

但是,由于规则的复杂性、文化差异等种种因素,基于规则的机器翻译技术的翻译质量并不理想。

为了解决这个问题,研究人员开始尝试基于统计学习的机器翻译技术。

基于统计学习的机器翻译技术主要是通过分析大量的源语言和目标语言之间的对应关系,来建立概率模型,再根据该概率模型对源语言文本进行翻译。

其中,最具代表性的是基于短语的机器翻译技术。

短语指的是一组有意义的词语,包括名词、动词、形容词等。

短语翻译模型将源语言和目标语言分别表示成一个个短语,然后通过翻译模型来计算这些短语的对应关系,最终得出目标语言文本。

三、机器翻译技术的发展现状目前,机器翻译技术已经取得了很大的进展。

已有的一些商业化机器翻译系统如Google翻译、百度翻译等,其翻译质量已经可以胜任日常口语交流或一般文件阅读等任务。

但是,对于涉及专业术语、文化背景等领域的翻译,机器翻译技术还需要进一步提升。

近年来,深度学习技术的兴起,使得机器翻译技术得到了新的发展。

深度学习技术主要是通过模仿人脑神经元的工作方式,来进行信息处理和学习。

它具有对大规模数据自动学习的能力,能够有效提升机器翻译的翻译质量。

其中,基于神经网络的机器翻译技术已经成为研究的热点之一。

四、机器翻译技术发展趋势机器翻译技术未来的发展方向主要包括如下几个方面:1. 模型的优化目前机器翻译技术主要采用的是基于序列到序列模型(Seq2Seq)的方式。

但是,这种模型对长文本的翻译效果仍然不够理想。

未来的研究方向是设计新型的翻译模型,提高机器翻译的长文本翻译效果。

机器翻译技术的现状与未来发展

机器翻译技术的现状与未来发展

机器翻译技术的现状与未来发展在当今全球化的时代,交流变得日益频繁和紧密,不同语言之间的障碍愈发凸显。

机器翻译技术作为打破语言藩篱的重要手段,正经历着快速的发展和变革。

如今,机器翻译技术已经取得了显著的进步。

从最初简单的基于规则的翻译系统,到如今基于深度学习的神经网络翻译模型,机器翻译的质量和准确性有了质的提升。

在当前的现状中,以谷歌、百度等为代表的科技巨头在机器翻译领域投入了大量的资源,并取得了令人瞩目的成果。

这些主流的机器翻译系统能够处理多种语言对的翻译任务,包括常见的英语、汉语、法语、德语等,甚至一些小语种也在逐渐被覆盖。

机器翻译技术的应用场景也越来越广泛。

在国际贸易中,商家可以通过机器翻译快速了解海外客户的需求和市场信息,促进商业合作。

对于旅行者来说,借助手机上的翻译应用,能够在异国他乡较为顺畅地交流,解决基本的出行和生活问题。

在学术研究领域,学者可以快速获取国外的研究成果,推动知识的传播和创新。

然而,尽管机器翻译技术已经取得了很大的成就,但仍然存在一些不足之处。

首先是语言的复杂性和多义性。

许多词语在不同的语境中有着不同的含义,机器翻译有时难以准确地理解和选择合适的释义。

例如,“苹果”这个词,在一般语境中可能指水果,但在特定的语境中,可能指的是苹果公司或其他与“苹果”相关的特定概念。

其次,文化背景和习惯用语的差异也是机器翻译面临的挑战。

不同的语言往往蕴含着独特的文化内涵和习惯表达方式,机器翻译可能无法完全捕捉和传达其中的微妙之处。

比如,一些成语、谚语和俚语的翻译,往往难以做到精准和传神。

再者,机器翻译在处理长难句和复杂的语法结构时,也容易出现错误或不自然的翻译。

对于一些专业领域的文本,如法律文件、医学报告等,机器翻译的准确性和专业性还有待提高。

那么,未来机器翻译技术将如何发展呢?可以预见的是,技术的不断进步将进一步提升机器翻译的质量。

随着人工智能技术的不断发展,特别是深度学习算法的优化和改进,机器翻译模型将能够更好地理解和处理自然语言,提高翻译的准确性和流畅性。

机器翻译技术的现状和未来发展

机器翻译技术的现状和未来发展

机器翻译技术的现状和未来发展随着全球化的发展,语言barrier也越来越成为人们遇到的一个难题。

但是,随着机器翻译技术的不断发展,现在已经可以看到一些解决方案,这正是机器翻译技术的成果。

本文旨在深入探讨机器翻译技术的现状和未来发展。

一、机器翻译技术的现状现在,机器翻译技术已经在各个领域得到了广泛的应用,例如商业、教育、政府和媒体等。

在商业领域,机器翻译技术被用于翻译商业合同和其它相关文档。

在教育领域,机器翻译技术被用于辅助学生学习外语。

在政府领域,将政府文件、条例、法律文书等翻译成多种语言是机器翻译技术的重要应用领域。

在媒体领域,则是利用机器翻译技术来翻译新闻、时事报告和其它文章,以便更全面地报道全球事情。

尽管机器翻译技术已经发展了几十年,但它目前还不能做到像人类翻译一样完美。

机器翻译存在以下问题:1. 语法与语义问题:机器翻译的语法与语义表达还非常生硬,容易产生歧义,无法传达深层次的语言含义。

2. 多义词问题:人类语言中有许多多义词,尤其在中文中更加普遍。

机器翻译系统在遇到多义词时非常困难,因为机器翻译系统无法通过上下文来判断单词的实际含义。

3. 文化差异问题:机器翻译系统无法从语言的文化差异中获取符号和隐含含义,无法充分理解翻译内容。

二、机器翻译技术的未来发展现代计算机和数据处理技术的发展为机器翻译技术的未来发展带来了极大的希望。

人工智能和自然语言处理等领域的技术进步将推动机器翻译技术的发展。

1. 深度学习和神经网络深度学习和神经网络技术可以通过学习巨大的语料库,从而更好地处理语言数据,它可以为机器翻译系统提供更多的背景信息和语境。

在未来,我们希望机器翻译技术可以通过深度学习和神经网络学习深层次的语言语义,充分理解人类语言的含义,从而使机器翻译具有更准确的语法和语义表达。

2. 搭建全球化语料库平台发展全球化语料库平台将会是机器翻译技术必须面对的重要挑战之一。

构建一个丰富、广泛的语言资源库可以帮助机器翻译系统更好地应对多种语言和不同领域的语言语境。

机器翻译技术的现状与趋势

机器翻译技术的现状与趋势

机器翻译技术的现状与趋势现代科学技术的发展有很多的亮点和看点,其中机器翻译技术就是其中的一大看点。

这种技术的出现,不仅可以方便翻译工作者的工作,还可以让人类在语言交流方面的障碍变得更加低。

今天,我们就来谈一谈这种技术的现状及其未来的发展趋势。

一、机器翻译技术现状机器翻译技术是指将一种语言的文字、语音或者表情转换成另外一种语言的文字、语音或者表情的一种技术。

目前,机器翻译技术已经进展较快,不仅可以帮助用户快速的翻译一篇文章,还可以将大量的语言进行截断、分析、翻译等等,让翻译工作变得更加快捷和准确。

机器翻译的原理主要是通过识别和提取语料库中的单词和语言模板,根据当前翻译所用的语言建立语料库,然后将其转化为目标语言。

随着计算机技术的进步,机器翻译技术可以应用在很多不同领域上,例如教育、商业、娱乐等等。

目前,机器翻译技术已经被广泛应用到了商业、科技、外交等领域中,并且得到了不同程度的应用和认可。

例如,谷歌、百度等技术巨头都已经推出了自己的机器翻译工具,在应用中也取得了不俗的成绩。

二、机器翻译技术的发展趋势虽然机器翻译技术发展迅猛,但它还有一些缺陷。

例如,在翻译中会出现语言不新颖的问题,这会导致翻译的效果不尽如人意。

此外,虽然机器翻译技术能够完成翻译工作,但它却无法像人类一样感知背景,也无法理解上下文,因此它在语义理解、自然语言处理等方面还有很大的发展空间。

未来,机器翻译的发展趋势主要表现在以下几个方面:1.加入人工智能技术机器翻译需要更广泛、更准确的语境,这就需要更精细、更强大的人工智能技术。

未来,随着人工智能技术的不断发展,机器翻译技术也将更加完善和高效。

2.加强中文机器翻译技术的研究中文与西方语言的形式、语境、表达方式存在着诸多差异,对机器翻译技术的要求也不一样。

特别是在中文文化和语言上,机器翻译要面临更大的挑战。

因此,未来需要加强对中文机器翻译技术的研究。

3.加强大数据的应用提高机器翻译技术的质量,需要一个完整、规范、多样化的语料库。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

机器翻译研究现状史晓东mandel@http://210.34.19.21412 July 2004 于复旦大学大纲⏹从863评测谈起⏹机器翻译:流行的和过时的⏹统计机器翻译及其趋势⏹机器翻译和机助翻译⏹厦门大学统计机器翻译讨论班从863评测谈起去年的机器翻译评测结果:(英译汉)单位国防科大/厦大哈工大机译华建中软对话 5.9201 5.0898 6.7251 5.4604篇章 5.7897 4.9034 6.6558 6.1942去年的机器翻译评测结果:(汉译英)单位CCID国防科大/厦大哈工大机译华建中软对话 5.9489 5.4694 5.55677.7722 6.0575篇章 5.3401 4.8462 4.6474 6.3113 5.5097JHU Chinese-English MT score:我的简单评测:采用NIST mt-eval version 10 的简单数据⏹nist sample tst: 4.0011⏹neon 汉英(a piece of shit) : 2.8849⏹华建译通英汉双向超智能版(2002):3.1963评测驱动系统:不容置疑⏹自动评测让我们知道什么是最好的系统⏹但是,目前(863也好,NIST也好),国内外所有的评测数据(至少是汉英)都不完全公开。

⏹难以在一个公正的平台上来重现评测结果,从而更快地促进技术进步⏹仅仅是钱的问题?⏹系统甚至迎合评测进行训练(Och 2003)不是结论⏹就汉英系统而言,国外的已经超过国内的。

USC, CMU, JHU, RWTH Aachen, IBM,哪一个都是响当当的名字⏹国内,华建?,自动化所?哈工大?,中软?东北大学?计算所?北大? 清华?⏹华建在产业化方面取得了很大的成功。

国内的通病是研究气氛不太活跃。

机器翻译:流行的和过时的⏹Data-driven MT, esp. SMT is now in Vogue⏹传统的基于规则的系统,在学术会议上不再有人提起⏹商业化MT:虽然规则系统仍在中流地位,但SMT打着旗号咆哮崛起SMT的雄心(摘自Language Weaver 公司)显然,事情往往不是那么简单⏹SMT从40年代末Weaver就提出。

1990年IBM的Brown等人才精确描述并加以实现。

1996年IBM突然放弃。

1999年JHU讨论班以后渐渐中兴。

现在则如日中天。

但是,SMT并不能解决一切问题。

⏹螺旋式上升是一切事物发展的规律,新事物的成长总是伴随着对旧事物的矫枉过正SMT的优缺点⏹优点⏹无需人工干预,利用语料库直接训练得到机器翻译系统。

可以利用海量语料库;⏹系统开发周期短;⏹由于采用语言模型,译文质量机器味少;⏹缺点⏹时空开销相对大;⏹需要较大的语料库,翻译结果受语料库影响很大,对训练语料库中未出现的语言现象处理不好;⏹缺乏深层次理解,解决深层或长距离相关性比较困难经典的统计机器翻译⏹基于信源信道思想的IBM模型⏹IBM的Peter Brown等人首先提出⏹目前影响最大⏹几乎成为统计机器翻译的同义词IBM 统计机器翻译基本方程式⏹设从源语言S 翻译为目标语言T ,给定s ,求t ⏹P.Brown 称上式为统计机器翻译基本方程式⏹语言模型:P(t)⏹翻译模型:P(s|t)⏹语言模型反映流利度(fluency ,达)⏹翻译模型反映忠实度(adequacy ,信)⏹从可能的译文中求出最佳译文,称为decoding )|()(max arg t s P t P t=τ两个模型好于单用翻译模型⏹如果直接采用翻译模型,就需要根据上下文建立复杂的上下文条件概率模型,条件变量包括翻译、词序变化等⏹如果采用两个模型,翻译模型可以相对简单:⏹如翻译模型:可以不考虑上下文而只考虑单词之间的翻译概率⏹语言模型:一般采用n元模型,也可采用PCFG等引入隐含变量:对齐a 翻译模型与对齐∑=ata sPtsP)|,()|(对齐:建立源语言句子和目标语言句子的翻译单位之间的对应关系,以便与计算翻译概率。

IBM模型中,建立的是word for word的翻译模型IBM提出了5个翻译模型⏹Model 1仅考虑word for word 的互译概率⏹Model 2加入了词的位置变化的概率⏹Model 3加入了一个词翻译成多个词的概率⏹Model 4:位置变化依赖于前一位置以及对应的译词⏹Model 5:nondeficient version of Model 4IBM Model 3!/!m)l,aj,|d(j eaj)|t(fj ei)|i n(10 e) | f P(a,00aj :j 1m 1j l 1i 20000φφφφφφφ∏∏∏∏≠===--=li im m p p CIBM翻译模型的参数训练⏹GiZA++,Och所写⏹可以免费下载SMT decoding⏹经典的算法:stack decoder, 借自语音识别。

改进:A*搜索⏹贪心搜索:从一个可能性较大的翻译进行改进⏹转化为邮递员问题(TSP),用动态规划求解, Beam搜索IBM方法的问题⏹词对词的翻译:翻译三角形的最低层次⏹没有短语的概念,没有词法(taken,took,take都是不同的词汇),非对称性(只能一对多,不能多对一),n元语言模型太简单(无法描述非局部限制),......统计机器翻译趋势:翻译三角形:Vauquois pyramidIBM model 1-5王野翊的改进⏹背景:德英口语翻译系统⏹语法结构差异较大⏹数据稀疏(训练数据有限)⏹改进:两个层次的对齐模型⏹粗对齐:短语之间的对齐⏹短语识别⏹细对齐:短语内词的对齐⏹词语聚类:基于互信息的方法⏹A*搜索⏹结果⏹机器翻译的正确率提高:错误率降低了11%⏹提高了整个系统的效率:搜索空间更小,速度更快Och等人的改进⏹背景:VerbMobil的一个模块⏹改进⏹语言模型:基于类的五元语法,回退法平滑⏹基于类的模型:词语自动聚类(解决数据稀疏)⏹翻译模型:基于对齐模板(Alignment Template)的方法⏹模板: 类的序列⏹短语对齐:模板对齐+词汇选择⏹用双向HMM 对齐模型得到对齐模板Yamada和Knight的改进⏹基于语法的翻译模型(Syntax-based TM):⏹输入是源语言句法树,输出是目标语言句子⏹翻译的过程:reorder,insert,translate⏹每个内部结点的子结点随机地重新排列⏹在每一个结点的左边或右边随机插入一个单词⏹左、右插入和不插入的位置取决于父结点和当前结点标记⏹插入哪个词的概率只与被插入词有关,与位置无关⏹对于每一个叶结点进行翻译:词对词的翻译概率⏹输出译文句子Translation Model⏹基于最大熵的统计机器翻译模型⏹源于基于特征的自然语言理解(IBM的Papineni)⏹RWTH Aachen的Och提出⏹也称为log-linear modelsTranslation Model(2)假设从句子f 翻译成e ,h 1(e,f), …, h M (e,f)分别是e 、f 上的M 个特征函数,λ1, …,λM 是与这些特征分别对应的M 个参数,那么直接翻译概率可以用以下公式给出:∑∑∑===≈'11...]),'(exp[/]),(exp[ )|()|Pr(1e Mm m m M m m m f e h f e h f e p f e M λλλλTranslation Model(3)对于给定的f ,其最佳译文e 可以用以下公式表示:∑===Mm m m e ef e h f e e 1)},({max arg )}|{Pr(max arg λTranslation Model(4)⏹取以下特征和参数时等价于IBM信源信道模型:仅使用两个特征:⏹h1(e,f)=p(e)⏹h2(e,f)=p(f|e)⏹λ1=λ2=1Direct Maximum Entropy Translation Model(5)参数训练最优化后验概率准则:这个判断准则是凸的,存在全局最优(但存在over-fitting风险)考虑多个参考译文:Direct Maximum Entropy Translation Model(6)⏹Och采用的一些特征函数:⏹Pr(e),Pr(f|e),Pr(e|f);⏹句子长度:对于产生的每一个目标语言单词进行惩罚(注意IBM模型给予短句子更多的概率);⏹其他语言模型:如一个基于类的语言模型;⏹词典特征:计算给定的输入输出句子中有多少词典中存在的共现词对。

⏹动词短语个数是否相符⏹....(其他语法、语义、语用特征)Direct Maximum Entropy Translation Model(7)⏹经典的信源信道模型只有在理想的情况下才能达到最优,对于简化的语言模型和翻译模型,取不同的参数值实际效果更好;⏹最大熵方法扩充了统计机器翻译的思路:允许选择有区别性的语言和翻译特征函数。

最大熵方法和短语对齐成了SMT系统的两大基本特征⏹CMU的机器翻译系统(Vogel)⏹JHU的机器翻译系统(Byrne)⏹MIT的机器翻译系统(Koehn)趋势预测⏹SMT的成功很大程度上来自记忆短语翻译,但是如何处理新的未出现的短语呢?⏹建立更多的数据相关性模型:如上下文依赖关系(句内和句间)特征函数的引入⏹一句话:箭尾渐渐向翻译三角形的顶端移动,或综合不同路径我的一些想法 对短语的重新认识对短语的重新认识我的一些想法(2)分解+合成:把不同的特征分层次处理:如时态的处理,可以从SMT中独立出来。

不同的语言特征应该采用不同的(概率或非概率)模型来解释,而不是采用一个混沌的一体化模型(holistic model)我的一些想法(3)⏹A practical MT system is (Prof Sinha): RBMT (x%) + EBMT(y%) +KBMT(z%) +SMT(w%)=> HMT (Hybrid MT)||=> MEMT⏹我认为不是组合,而是融合机器翻译与机助翻译⏹虽然SMT近期取得了很大成功,但是显然MT还有很长的路要走⏹MAT对于专业翻译人员来说,更加实用,如TRADOS公司的Translator’s workbench在本地化行业中大名鼎鼎⏹但是,没有充分利用Internet我们目前完成了一个新的辅助翻译系统⏹多引擎MT提供参考译文⏹通过对等网络在联机翻译用户之间共享翻译库,效率随着翻译用户的数量增多而提高⏹目前版本可以免费下载:http://210.34.19.214/xmcat.rar厦门大学统计机器翻译讨论班⏹目的:⏹在国内造成研究统计机器翻译的气氛⏹目前虽然GIZA++公开了训练的源代码,但是只能运行在linux平台上⏹世界上没有人公开decoder的源代码⏹因此,我们想做一个在windows平台上的公开一切源代码的SMT工具箱主要内容⏹系统地研究SMT的国内外文献⏹在Windows平台上实现所有的主要算法,包括训练和解码,在适当的时候进行源代码公开(GPL),促进SMT的发展⏹建立一个集评测工具和评测数据的平台,使得大家可以共享和比较⏹目标:向开发最好的汉英系统前进任务艰巨⏹但是,我们的实力和JHU的1999年SMT 讨论班相差太大,显然与JHU2003讨论班也不可同日而语,因为我们都是新手⏹我们唯一的优点是没有任何包袱。

相关文档
最新文档