机器翻译技术的研究和应用综述

机器翻译技术的研究和应用综述
机器翻译技术的研究和应用综述

机器翻译技术的研究和应用综述

ACM Matrix_68

摘要:随着互联网的日益发展,网络信息的激增,国际社会交流愈加频繁,机器翻译已成为克服交流时所产生的语言障碍的重要手段之一。本文回顾机器翻译研究的历史,介绍典型的机器翻译方法,在分析机器翻译内涵的基础上,阐述了机器翻译的现状,探讨了机器翻译所面临的问题及机器翻译的发展趋势,对统计以及机器学习方法在机器翻译中的应用进行了描述;论文还介绍了当前机器翻译评测技术;最后对机器翻译进行总结和展望。

关键字:机器翻译;自然语言;基于规则;基于统计;基于实例;混合策略;机器学习

1引言

近年来,自然语言处理的研究已经成为热点,而机器翻译作为自然语言研究领域的一个重要分支,同时也是人工智能领域的一个课题,同样为大家所关注。当电子计算机1946年问世的时候,人们就提出了机器翻译的想法,并且在1954年进行了第一次机器翻译试验。然而与后来的各种语言信息处理研究和应用(语言信息检索、文本自动分类、自动文摘、信息提取等等)相比,机器翻译却是进展最慢的。

从上个世纪40年代英国工程师Booth 和美国工程师Weaver提出利用计算机进行翻译的想法,到50年代欧美国家投入大量的人力、物力致力于机器翻译的研究,再到60年代ALPAC置疑报告的提出,机器翻译走向沉寂。

学者们倾其大半生精力、商家投入为数可观的资金,经历五十多年不懈的研究和开发,得到的成果或者产品却常常不能令人满意。最近的二十年,随着语言学理论的发展、计算机技术的进步以及统计学和机器学习

方法在自然语言处理领域中的广泛应用,人们对机器翻译本身的应用背景、目标等也有了更加准确的认识,机器翻译在此背景下取得了长足的发展,基于统计、基于实例等新的机器翻译方法也都是在这一时期出现,一些机器翻译系统也从实验室走向了市场。

本文第二节介绍了机器翻译的历史现状;第三节介绍了机器翻译面临的问题;第四节介绍几种经典的机器翻译方法;第五节给出近期机器翻译的发展趋势,介绍基于混合策略的机器翻译方法,对统计机器学习在机器翻译中的应用进行总结;第六节讨论当前机器翻译的评测系统;最后,对机器翻译研究进行总结和展望。

2机器翻译的历史现状

机器翻译的研究历史可以追溯到20世纪三四十年代。20世纪30年代初,法国科学家G.B.阿尔楚尼提出了用机器来进行翻译的想法。1933年,苏联发明家П.П.特罗扬斯基设计了把一种语言翻译成另一种语

言的机器,并在同年9月5日登记了他的发明;但是,由于30年代技术水平还很低,他的翻译机没有制成。1946年,第一台现代电子计算机ENIAC诞生,随后不久,信息论的先驱、美国科学家W.Weaver和英国工程师A.D.Booth在讨论电子计算机的应用范围时,于1947年提出了利用计算机进行语言自动翻译的想法。1949年,W.Weaver发表《翻译备忘录》,正式提出机器翻译的思想。走过六十年的风风雨雨,机器翻译经历了一条曲折而漫长的发展道路,学术界一般将其划分为如下四个阶段:

2.1机器翻译的开创期(1947-1964)

1954年,美国乔治敦大学(GeorgetownUniversity)在IBM公司协同下,用IBM-701计算机首次完成了英俄机器

翻译试验,向公众和科学界展示了机器翻译的可行性,从而拉开了机器翻译研究的序幕。

从20世纪50年代开始到20世纪60年代前半期,机器翻译研究呈不断上升的趋势。美国和前苏联两个超级大国出于军事、政治、经济目的,均对机器翻译项目提供了大量的资金支持,而欧洲国家由于地缘政治和经济的需要也对机器翻译研究给予了相

当大的重视,机器翻译一时出现热潮。这个时期机器翻译虽然刚刚处于开创阶段,但已经进入了乐观的繁荣期。

2.2机器翻译的受挫期(1964-1975)

1964年,为了对机器翻译的研究进展作出评价,美国科学院成立了语言自动处理咨询委员会(AutomaticLanguageProcessingAdvisoryC ommittee,简称ALPAC委员会),开始了为期两年的综合调查分析和测试。

1966年11月,该委员会公布了一个题为《语言与机器》的报告(简称ALPAC报告),该报告全面否定了机器翻译的可行性,并建议停止对机器翻译项目的资金支持。这一报告的发表给了正在蓬勃发展的机器翻译当

头一棒,机器翻译研究陷入了近乎停滞的僵局。无独有偶,在此期间,中国爆发了“十年文革”,基本上这些研究也停滞了。机器翻译步入萧条期。

2.3机器翻译的恢复期(1975-1989)

进入70年代后,随着科学技术的发展和各国科技情报交流的日趋频繁,国与国之间的语言障碍显得更为严重,传统的人工作业方式已经远远不能满足需求,迫切地需要计算机来从事翻译工作。同时,计算机科学、语言学研究的发展,特别是计算机硬件技术的大幅度提高以及人工智能在自然语言处

理上的应用,从技术层面推动了机器翻译研究的复苏,机器翻译项目又开始发展起来,各种实用的以及实验的系统被先后推出,例如Weinder系统、EURPOTRA多国语翻译系统、TAUM-METEO系统等。

而我国在“十年浩劫”结束后也重新振作起来,机器翻译研究被再次提上日程。“784”工程给予了机器翻译研究足够的重视,80年代中期以后,我国的机器翻译研究发展进一步加快,首先研制成功了KY-1和MT/EC863两个英汉机译系统,表明我国在机器翻译技术方面取得了长足的进步。

2.4机器翻译的新时期(1990至今)

随着Internet的普遍应用,世界经济一体化进程的加速以及国际社会交流的日

渐频繁,传统的人工作业的方式已经远远不能满足迅猛增长的翻译需求,人们对于机器翻译的需求空前增长,机器翻译迎来了一个新的发展机遇。国际性的关于机器翻译研究的会议频繁召开,中国也取得了前所未有的成就,相继推出了一系列机器翻译软件,例如“译星”、“雅信”、“通译”、“华建”等。在市场需求的推动下,商用机器翻译系统迈入了实用化阶段,走进了市场,来到了用户面前。

3机器翻译面临的问题

3.1影响机器翻译质量的核心是歧义的处理。

在词汇的层面上,词汇的歧义主要是一词多义,如英语单词“note”可以指“笔记”、“短信”、“注释”、“纸币”等。

以下是词汇歧义的例子:原文:

Thank-younotesareheart-warming.机器译文:感谢笔记温暖人心。人工译文:感谢信温暖人心。在结构层面上,常见的结构歧义有and(和)结构,如nicegirlsandboys,它既可表示“好女孩和男孩”,也可表示“好女孩和好男孩”,这种歧义只有人工翻译才能消除,计算机无法识别此歧义,可见歧义的处理是影响机器翻译质量的关键。

3.2人类翻译目标集中于目标语言

如果有必要的话,译者会采用灵活的方式以使翻译传情达意,有的时候会使用意译的方法,这是机器翻译所无法达到的。以文学翻译为例,文学翻译是“传达作者的全部意图,即作者对在读者思想感情上产生艺术作用的全部意图……”。即使对于专业翻译工作者来说,文学翻译也不是件容易的事,

更何况是对于没有任何认知能力的机器。由于机器没有思维、推理、判断能力,缺乏人工译者的综合知识和长期积淀下来的文化知识等,无法对原文产生全面的了解,做的只是机械转码,无法突破思维障碍。要获得地道完整的译文,必须对机器译文进行人工修改、加工。

4典型的机器翻译方法和技术

4.1基于规则的机器翻译方法

从Chomsky提出转换生成文法之后,基于规则的方法一直是机器翻译研究的主流,Chomsky认为一种语言无限的句子可以由有限的规则推导出来。早期的机器翻译系统,从体系结构上可以分为直译式、转换式和中间语言式,它们的不同之处在于对源语言分析的深度,它们的相同点是都需要大规模的双语词典、大量的源语言推导规则、语言转换规则和目标语言生成规则。其中,转换式的基于规则方法对源语言分析得比较深,它涉及到词汇结构分析、语法分析、语义分析,并完成词汇、语法、语义三层结构从源语言到目标语言的转换,而且转换式的方法又充分考虑了源语言和目标语言之间的特征联系,它比中间语言方法更容易获得高质量的翻译结果。因此,转换式的方法更多地被应用在早期的机器翻译系统中,整个翻译过程被分为:源语言分析部分,转换部分和目标语生成部分。而早期的系统,如德国西门子的METAL系统、美国的SYSTRAN系统、日本日立公司的ATHENE系统以及中国中软公司的HY-1汉英系统,都是基于转换的机器翻译系统。

基于规则的机器翻译的优点在于:规则可以很准确的描述出一种语言的语法构成,并且可以很直观的表示出来。机器可以按照一组规则来理解它面对的自然语言,这组规则包含了不同语言层次的规则,包括用以对源语言进行描述的源语言分析规则、用以对源语言/目标语言之间的转换规则以及用于生成目标语的生成规则。但是,规则库的建立需要花费大量的人力和物力,即使如此,规则的完备性仍然不能得到保证,规则库很难覆盖所有的语言现象。基于上述问题,如何自动地获取语言规则、如何更好的表示规则以及如何更好地增强系统的适应能力成为研究人员关注的焦点。

随着大量语料库的产生,统计方法为我们提供了很好的从已有的语言资源中自动得到我们所需要的语言信息的工具。复杂特征集和合一运算的提出也使得我们能以更细的粒度、更加准确的知识表示形式来描述规则,而词汇化的信息也更多的来自于标注语料库。针对确定性规则降低了系统的鲁棒性的弱点,概率上下文无关文法从全局最优的角度考虑,产生最优的翻译结果,为机器翻译系统的实用化奠定了基础。随着这些方法的引入,传统的基于规则的机器翻译方法研究逐步发展成为对以规则为基础、语料库方法为辅助的高性能机器翻译方法的研究。

4.2基于统计的机器翻译方法

除了在某些特定的受限领域,基于规则的机器翻译,取得了比较好的效果(如Isabelle1987所做的天气预报翻译)之外,在大部分的实验中,基于规则的机器翻译远远没有达到人们的要求。

而随着语料库语言学的发展和统计学、信息论在自然语言处理领域的应用,人们尝试着用统计的方法进行机器翻译的研究。对于机器翻译来说,基于统计的方法可以从两个层面上来理解,一种是指某些概率统计的方法在具体的机器翻译过程中的应用,比如用概率统计的方法解决词性标注的问题、词义消歧的问题等,这些问题我们将在本文的3.2部分讨论。另一种较狭义的理解是指纯粹的基于统计的机器翻译,翻译所需的所有知识都来源于语料库本身。这一节我们主要介绍这种纯统计的机器翻译方法。IBM的Brown在1990年首先将最初应用于语音识别领域的统计模型用于法英机器翻译。基本思想是:用信道模型把机器翻译看作一种解码的过程。

基于统计的机器翻译的关键首先是定义最适合的语言概率模型和翻译概率模型,其次,需要从已经存在的语言资源中,对语言模型和参数模型的概率参数进行估计。

早期的语言模型基本上采用二元、三元

模型,语言模型的参数估计需要大量的单语语料库,二元模型参数通过两个词的搭配频率来计算,三元模型参数则通过计算相邻三元词的出现频率进行估计。近年来,基于统计的机器翻译翻译采用基于语法的语言模型,利用树库训练语言模型参数。

尽管统计机器翻译在语音识别领域取得了一定的成功,但是它需要大量的双语语料库,而且存在着数据稀疏问题。因此,如何构建大规模的对齐双语语料库以及找到比较好的平滑算法进行准确的参数估计,成了基于统计机器翻译系统实现中的关键问题。除此之外,要找到最优的译文,也需要好的搜索算法。统计机器翻译的质量很大程度上取决于语言模型和翻译模型,而最初的统计模型很少考虑语言的特征信息,对一些特定语言所特有的语言特征分析得不够。

例如,在英语的词汇形态分析中,对单词“see”和“saw”,原型和过去型完全按照不同的词汇进行参数估计,这就造成了对语言模型和翻译模型构建的不准确性。IBM 将一些浅层的词汇信息结合到统计模型当中去,FranzJosef在ACL’02上发表的文章介绍的基于最大熵的统计机器翻译方法中,训练模型中也充分考虑了源语言和目标语言的语言特征。语言特征的引入,提高了基于统计的机器翻译的性能,同时也对语料库的标注提出了更高的要求,这从某种意义上说也是基于规则的机器翻译方法和基于统计机器翻译方法的融合,或者说是统计方法在处理语言学问题上的延伸,体现了下面我们要介绍的基于混合策略的机器翻译方法研究的必要性。

4.3基于实例的机器翻译方法

基于实例的机器翻译思想最早由Nagao 提出,其基本思想是,在已有的源语言实例句库中,待翻译句子按照类比原理匹配出最相似的实例句,取出实例句对应的目标语句子,进行适当的改造,最终得出待翻译句子所相应的目标语句子。

对于基于实例的系统,首先,待翻译句子需要从翻译记忆库中找出最相似的源语言句子,一般根据词典或者语言的本体知识(Ontology),根据句子中词汇或者词类之间的语义距离来计算句子的相似度,Federica在2002年的一篇文章概述了基于实例机器翻译相似度的计算方法以及句子匹配算法。基于实例的机器翻译系统的翻译质量取决于翻译记忆库的规模和覆盖率。因此如何构建大规模翻译记忆库成为基于实例的机器翻译研究的关键问题。对于双语语料对齐研究,Gale等描述了基于长度和基于偏移量的语料库的句子和段落对齐方法,Kay提出了基于词汇特征的句子对齐方法。

现阶段,由于缺少大规模的双语对齐语料库,基于实例的机器翻译方法匹配率并不是很高,而基于实例的机器翻译如果匹配成功,可以获得高质量的译文,因此基于实例的机器翻译一般和基于规则的机器翻译结合使用,Satoshi就提出了基于规则和基于实例相结合的机器翻译方法,产生了比较好的翻译结果。

对于匹配命中率过低的问题,我们试着做到短语级的双语对齐,以提高匹配命中率,通过短语结构的局部匹配,组合相应的目标语句子框架,完成句子的翻译,这种方法进而泛化为基于模板(Template-based)的机器翻译,通过大规模的双语语料,自动抽取翻译模板,翻译过程匹配模板库。这种方法增加了匹配的命中率,模板库规模比实例库要小,因此也提高了系统的效率。

而模板的自动获取仍然是翻译的关键。基于实例的机器翻译方法依然面临着很多的问题,对于相似度计算,如果计算词类或者短语级的相似度,则需要首先对我们的翻译记忆库本身进行标注。而且很难定义一个相似度标准选出最合适的相似句,此外随着翻译记忆库规模的扩大,需要一个高速的查询匹配算法,同时需要在增加翻译记忆库的规模、提高匹配率的同时,保证翻译记忆库的冗余度。

在机器翻译研究的过程中,各种机器翻译方法层出不穷,其它的还有基于模式的机器翻译、基于神经网络的机器翻译、基于对话的机器翻译、基于原则的机器翻译等等,由于这些方法不是主流,本文就不再一一介绍。现有的各种机器翻译方法在现阶段的机

器翻译研究中被广泛采用,它们之间已经没有严格的界限。

基于规则的机器翻译方法结合语料库的方法,大量使用统计方法获取语言信息,而基于统计的机器翻译和基于实例的机器翻译更是相互渗透,这两种方法统称为基于语料库的方法,因为它们同样依靠双语语料库。

5近期机器翻译的发展趋势

机器翻译的质量虽然不能和人工翻译相提并论,但有许多优势是人工翻译所不具备的。我国著名计算语言学与机器翻译专家董振东说:“美国要开发一种口语翻译机,专门用来审讯与美国人语言不通的塔利班俘虏。如果用人来做翻译,由于语言不通,即使翻译被塔利班收买,对美国人信口胡说,美国人也不会知道,而机器就不可能出现这种情况。这机器现在有没有发明出来,能到什么翻译水平还不得而知,但这至少是一个相当好的发展领域。”因此,发挥机器翻译的自身优势是决定机器翻译发展趋势的重要因素之一。机器翻译的发展趋势是解决人工智能的技术问题。“假设要从人工智能上有所突破,那只能在神经网络和模糊计算上寻找出路。”为了探索人工智能,使电脑模仿人脑,进行更多的智力劳动,模糊计算便应运而生。神经网络和模糊计算都是通过对人脑的结构和推理方式的模拟来实现计算机的智能化。“只有人脑才能和人脑相比”——这看似废话,对于机器翻译来说,却是技术上真正意义上的突破口。

6当前机器翻译的评测系统

机器翻译的评测技术对机器翻译的研究和发展具有重要的意义,有了评测,我们才可以评价各种机器翻译方法的优劣,并且为机器翻译方法的改进提高知道。我们也可以通过评测评价机器翻译系统的性能,因此机器翻译评测技术同样是机器翻译研究领域的一个重要课题。

机器翻译的评测方式现阶段有两种:人工评测和自动评测。其中人工评测包括:译文用词是否准确;是否忠于原文的语法语义;以及译全率、流利度等等。

人工评测主要是以译文的用词、语法、语义等为标准来判断译文是否忠实于原文,评测比较精准,同时具有主观性。

目前机器翻译的自动评测标准主要有IBM的BLEU标准和NIST提出的NIST标准。BLEU方法是一种基于N-Gram的自动评测方法,它的主要思想是统计共现的N元词的个数,即比较在参考译文中和系统的翻译结果中共现的N元词的个数,一元词的共现代表了翻译的忠实度,表明原文中有多少词被翻译过来。二元以上的共现反映了译文的流利度。BLEU方法还引入长度惩罚因子,考虑了译文长度对翻译质量的影响。IBM的研究报告说明BLEU的评测效果和人工评测效果比较一致。

目前的机器翻译评测基本上采取人工评测和自动评测相结合的方法。

7总结与展望

本文系统的介绍了机器翻译的研究方法,对基于规则、基于统计、基于实例的机器翻译方法进行了分析和评价;同时介绍了基于混合策略的机器翻译方法,对统计机器学习方法在机器翻译中的应用进行了总结;分析了机器翻译评测技术。

在机器翻译发展的几十年里,机器翻译取得了很大的进展,特别是最近的十五年,各种机器翻译技术不断出现。网络的兴起,也给机器翻译提供了新的应用背景,一些实用化的机器翻译系统出现在市场上,如在线翻译,网页、电子邮件的翻译等等。同时,机器翻译依然面临很多的问题,如:知识获取问题、歧义问题以及如何更好的认识语言特征规律等。直到现在,ALPAC 提出的报告仍然有值得我们反思的地方。我们应该重新审视机器翻译的终结目标,即全自动获得高质量的翻译,由于语言之间的差别涉及到语言文化上、社会背景上的差异,完全意义上

的全自动翻译并不是一个现实的目标,我们需要对目标进行重新的定位。现阶段的机器翻译,应该起着辅助人工的作用,在某些受限领域寻求突破,机器翻译应该作为一个工具,而不是一个独立的系统,去给自然语言处理的其它任务服务,比如数据挖掘、信息检索等,去寻求新的应用场景,比如移动电话的短信翻译、电视的字幕翻译、各种信息的多语发布等等。机器翻译始终是一项有挑战性的工作,值得我们锲而不舍地去深入研究。

参考文献

[1]Research on Machine Translation Evaluation 1990, 16(2):79-85

[2]戴新宇,尹存燕,陈家骏,郑国梁 . 2010. 机器翻译研究现状与展望. 中文信息学报

24(4).

[3]刘群. 机器翻译研究新进展, 2007

[4]李平. 2012. 基于Internet的人机互助机器翻译技术的研究 [J] . 中文信息学报 , 22(4).

[5]刘树杰 . 基于半监督学习的统计机器

翻译研究: webCAT[J]. 计算机工程与应

用 . 2012.41(4).

[6]李颖洁. 基于词素短语的维汉机器翻译

技术研究与实现. 哈尔滨工程大学报. 2011.24(1).

[7]张宇,哈尔滨工业大学,基于混淆网络的机器翻译系统融合技术研究,2013.

[8]王晓伟,基于机器翻译的查询结果Rerank技术,2011.

[9冯志伟,基于语料库的机器翻译系统, 2010.

[10]和为,刘占一,面向机器翻译的复述技术研究,2012.

[11]刘乐茂,统计机器翻译判别式训练方法研究,2013.

[12]王海峰,多策略的机器翻译,2005.

[13]张卫晴,张政,从机器翻译评测看机器

翻译发展,清华大学出版社,2008.

[14]岳春芳,王丽君,张天伟,机器翻译中的问题与对策,中文信息学报,2005.[15]刘群,统计机器翻译综述,2009.

[16]王厚峰,基于实例的机器翻译,2003.

机器翻译技术的现状及发展

机器翻译技术的现状及发展 篇一:翻译技术领域的现状与展望 翻译技术领域的现状与展望 作者/王华伟闫栗丽 翻译技术在中国的发展起步相对较晚,但近年来随着中国在全球化进程中扮演着越来越重要的角色,催生了对翻译技术发展的强烈需求。中国翻译行业在借鉴国外同行经验的基础上,于2007~2008年间在翻译技术领域取得了一系列成就,也还存在一些亟需改进的方面,而这也势必对我国的翻译行业产生深远的影响。 1. 国家政策的扶持和行业协会的推动 翻译技术的发展直接关乎整个翻译行业的翻译质量及效率,具备巨大的行业经济效益。对此,科技部、财政部都给与了足够的重视并拨出专项资金进行扶持。在 2008年的科技型中小企业技术创新基金扶持计划中,中文及多语种处理软件及基于先进语言学理论的中文翻译软件等赫然在列。而中国译协也在 2008年的第 18届世界翻译大会上专门辟出了翻译工具、术语管理和翻译标准等分论坛,着力推动翻译技术的探讨与发展。 2. 词典型翻译软件百花齐放 词典是使用范围最广的工具,它以使用便利的优势,几乎占据了每个计算机的桌面,无论语言学习者还是专业翻译人员,几乎都是必备工具。词典的发展从最早的单机版本发展至今,已经有很多种产品

类型,我们可以见到的有:电子词典、在线词典、手机词典等。“金山词霸”的网络版本“爱词霸”在这两年获得了长足的发展,如爱词霸网络释义、谷歌金山词霸等一系列特色功能的相继推出,将词典型翻译软件的应用领域从传统的桌面计算机拓展到网络、手机等,并取得了显著的成功。另外,类似Google这样的搜索引擎,因为信息量大,检索便利而成为很多专业翻译人员查词的重要辅助工具。 值得一提的是,最新推出的基于用户发布词汇的词典编撰系统之前的词典都是以各大出版社公开发行的词典中的词条作为主要数据库来源,为用户提供查询上的便利。但是传统出版词典的方式存在发布周期长、词汇更新慢的缺陷。互联网的出现,加快了信息传播的速度,也提高了用户对新词更新的速度要求,为了方便新词汇的发布,词典编纂系统也就应运而生了。这是一种基于用户的词典发布系统,用户可自由发起词典编纂项目,自发组织人员参与项目,发起人可以按照需要给小组成员分配不同的权限,将词汇添加等基本工作和审核人员明确区分,既确保了词典的专业性,也实现了专业语料的适时更新和发布。 3. 机器翻译应用软件融入普通网民生活 谷歌语言工具的推出打破了互联网语言的藩篱,用户可以方便简捷地将目标语言的网页转化成自己的母语进行浏览。事实上,这也是机器翻译软件的一个应用领域,而国内的相关软件如金山快译等,专注于为普通网民提供更为友好的英中日网站浏览体验,并在亚洲语言的机器翻译应用方面积累了大量的经验。其他如华建等长期从事机器

机器翻译

机器翻译 1 概述 机器翻译(machine translation),又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。它是自然语言处理(Natural Language Processing)的一个分支,与计算语言学(Computational Linguistics )、自然语言理解( Natural Language Understanding)之间存在着密不可分的关系。 2 国内外现状 机器翻译思想的萌芽关于用机器来进行语言翻译的想法,远在古希腊时代就有人提出过了。在17世纪,一些有识之士提出了采用机器词典来克服语言障碍的想法。笛卡(Descartes)和莱布尼兹(Leibniz)都试图在统一的数字代码的基础上来编写词典。在17世纪中叶,贝克(Cave Beck)、基尔施(Athanasius Kircher)和贝希尔(Johann JoachimBecher)等人都出版过这类的词典。由此开展了关于“普遍语言”的运动。维尔金斯(JohnWilkins)在《关于真实符号和哲学语言的论文》(An Essay towards a Real Character andPhilosophical Language, 1668)中提出的中介语(Interlingua)是这方面最著名的成果,这种中介语的设计试图将世界上所有的概念和实体都加以分类和编码,有规则地列出并描述所有的概念和实体,并根据它们各自的特点和性质,给予不同的记号和名称。本世纪三十年代之初,亚美尼亚裔的法国工程师阿尔楚尼(G.B. Artsouni)提出了用机器来进行语言翻译的想法,并在1933年7月22日获得了一项“翻译机”的专利,叫做“机械脑”(mechanical brain)。这种机械脑的存储装置可以容纳数千个字元,通过键盘后面的宽纸带,进行资料的检索。阿尔楚尼认为它可以应用来记录火车时刻表和银行的帐户,尤其适合于作机器词典。在宽纸带上面,每一行记录了源语言的一个词项以及这个词项在多种目标语言中的对应词项,在另外一条纸带上对应的每个词项处,记录着相应的代码,这些代码以打孔来表示。机械脑于1937年正式展出,引起了法国邮政、电信部门的兴趣。但是,由于不久爆发了第二次世界大战,阿尔楚尼的机械脑无法安装使用。1903年,古图拉特(Couturat)和洛(Leau)在《通用语言的历史》一书中指出,德国学者里格(W. Rieger) 曾经提出过一种数字语(Zifferngrammatik),这种语法加上词典的辅助,可以利用机械将一种语言翻译成其他多种语言,首次使用了“机器翻译” (德文是ein mechanisches Uebersetzen)这个术语。 真正对机器翻译进行研究应该说是从布恩和韦弗开始的。他们研究的是自动词典万, 从1954年1月7日公开展示的IBM701型计算机开始, 机器翻译进人一个繁荣发展的时期。从那时起, 很多国家都投人了大量的人力、物力从事这方面的研究和开发。随着 Internet 的普遍应用,世界经济一体化进程的加速以及国际社会交流的日渐频繁,传统的人工作业的方式已经远远不能满足迅猛增长的翻译需求,人们对于机器翻译的需求空前增长,机器翻译迎来了一个新的发展机遇。国际性的关于机器翻译研究的会议频繁召开,中国也取得了前所未有的成就,相继推出了一系列机器翻译软件,例如“译星” 、“雅信” 、“通译” 、“华建”等。在市场需求的推动下,商用机器翻译系统迈入了实用化阶段,走进了市场,来到了用户面前。 中国机器翻译研究起步于1957年,是世界上第4个开始搞机器翻译的国家,60年代中期以后一度中断,70年代中期以来有了进一步的发展。现在,中国社会科学院语言研究所、中国科学技术情报研究所、中国科学院计算技术研究所、黑龙江大学、哈尔滨工业大学等单位都

机器翻译技术介绍

机器翻译技术介绍
常宝宝 北京大学计算语言学研究所 chbb@https://www.360docs.net/doc/98398767.html,

什么是机器翻译
研究目标:研制出能把一种自然语言(源语言)的文 本翻译为另外一种自然语言(目标语言)的文本的计 算机软件系统。 制造一种机器,让使用不同语言的人无障碍地自由交 流,一直是人类的一个梦想。 随着国际互联网络的日益普及,网上出现了以各种语 言为载体的大量信息,语言障碍问题在新的时代又一 次凸显出来,人们比以往任何时候都更迫切需要语言 的自动翻译系统。 但机器翻译是一个极为困难的研究课题,无论目前对 它的需求多么迫切,全自动高质量的机器翻译系统 (FAHQMT)仍将是人类一个遥远的梦。

机器翻译的基本方法
机器翻译的基本方法 ? 基于规则的机器翻译方法 ? 直接翻译法 ? 转换法 ? 中间语言法 ? 基于语料库的机器翻译方法 ? 基于统计的方法 ? 基于实例的方法 ? 混合式机器翻译方法
目前没有任何 一种方法能实现机 器翻译的完美理 想,但在方法论方 面的探索已经使得 人们对机器翻译问 题的认识更加深 刻,而且也确实带 动了不少不那么完 美但尚可使用的产 品问世。
20世纪90年代以前,机器翻译方法的主流一直是基于规则的方 法,不过,统计方法后来居上,目前似乎已成主流方法,从学术 研究的角度看,更是如此。(Google translate)

机器翻译的基本方法
20世纪90年代以前,机器翻译方法的主流一直是基于 规则的方法,因此基于规则的方法也称为传统的机器 翻译方法。 直接翻译法 ? 逐词进行翻译,又称逐词翻译法(word for word translation) ? 无需对源语言文本进行分析 ? 对翻译过程的认识过渡简化,忽视了不同语言之间 在词序、词汇、结构等方面的差异。 ? 翻译效果差,属于早期过时认识,现已无人采用 How are you ? 怎么 是 你 ? How old are you ? 怎么 老 是 你 ?

离心技术综述

离心技术 离心技术,是蛋白质、酶、核酸及细胞亚组分分离的最常用的方法之一,也是生化实验室中常用的分离、纯化或澄清的方法。尤其是超速冷冻离心已经成为研究生物大分子实验室中的常用技术方法。 概况 离心技术是利用物体高速旋转时产生强大的离心力,使置于旋转体中的悬浮颗粒发生沉降或漂浮,从而使某些颗粒达到浓缩或与其他颗粒分离之目的。这里的悬浮颗粒往往是指制成悬浮状态的细胞、细胞器、病毒和生物大分子等。离心机转子高速旋转时,当悬浮颗粒密度大于周围介质密度时,颗粒离开轴心方向移动,发生沉降;如果颗粒密度低于周围介质的密度时,则颗粒朝向轴心方向移动而发生漂浮。常用的离心机有多种类型,一般低速离心机的最高转速不超过6000rpm,高速离心机在25000rpm以下,超速离心机的最高速度达30000rpm以上。 根据离心原理,可设计多种离心方法,常见下列三大类型:差速离心法。 通过逐步增加相对离心力,使一个非均相混合液内形状不同的大小颗粒分步沉淀。 密度梯度离心法。

离心前,离心管内先装入分离介质(如蔗糖、甘油等),使形成连续的或不连续的密度梯度介质,然后加入样品进行离心,具体又可分为: 1)速度区带离心法。 2)预制梯度等密度离心法。 3)自成梯度等密度离心法。 沉降平衡离心法。 根据被分离物质的浮力密度差别进行分离,所用的介质起始密度约等于被分离物质的密度,介质在离心过程中形成密度梯度,被分离物质沉降或上浮到达与之密度相等的介质区域中停留并形成区带。 离心机(centrifuge)是实施离心技术的装置。离心机的种类很多,按照使用目的,可两类,即制备型离心机和分析型离心机。前者主要用于分离生物材料,每次分离样品的容量比较大,后者则主要用于研究纯品大分子物质,包括某些颗粒体如核蛋白体等物质的性质,每次分析的样品容量很小,根据待测物质在离心场中的行为(可用离心机中的光学系统连续地监测),能推断其纯度、形状和相对分子质量等性质。两类离心机由于用途不同,故其主要结构也有差异。通常所使用的离心机根据转子转速大小的不同可分为普通离心机、高速离心机和超速离心机三类。

机器翻译研究现状与展望1 Machine TranslationPast,Present,future

机器翻译研究现状与展望1 戴新宇,尹存燕,陈家骏,郑国梁 (南京大学计算机软件新技术国家重点实验室,南京 210093) (南京大学计算机科学与技术系,南京 210093) 摘要:本文回顾机器翻译研究的历史,介绍典型的机器翻译方法,包括:基于规则、基于统计以及基于实例的机器翻译方法;针对机器翻译的研究现状,详细介绍和分析了基于混合策略的机器翻译方法,对统计以及机器学习方法在机器翻译中的应用进行了描述;论文还介绍了当前机器翻译评测技术;最后对机器翻译进行总结和展望。 关键字:机器翻译,基于规则,基于统计,基于实例,混合策略,机器学习 Machine Translation:Past,Present,future Dai Xinyu, Yin Cunyan, Chen Jiajun and Zheng Guoliang (State Key Laboratory for Novel Software Technology, Department of Computer Science & Technology Nanjing University, Nanjing 210093) Abstract:This paper firstly presents the history of machine translation, and introduces some classical paradigms of machine translation: RBMT, SBMT and EBMT. Secondly, we introduce the recent research on machine translation, and describe the hybrid strategies on machine translation in detail, and discuss the applications of machine learning for machine translation. We also analyze the current techniques about evaluation on machine translation. Finally, we draw a conclusion and prospect on the research of machine translation. Keywords:Machine Translation, RBMT, SBMT,EBMT, HSBMT, Machine Learning. 1本论文工作得到863课题资助(编号:2001AA114102, 2002AA117010-04) 戴新宇博士生,主要研究自然语言处理;尹存燕助教,主要研究自然语言处理;陈家骏教授,博士生导师,主要研究自然语言处理、软件工程;郑国梁教授,博士生导师,主要研究软件工程。

离心技术的应用

离心技术的应用 离心技术(centrifugal technique)是根据颗粒在作匀速圆周运动时受到一个外向的离心力的行为而发展起来的一种分离技术。这项技术应用很广,诸如分离出化学反应后的沉淀物,天然的生物大分子、无机物、有机物,在生物化学以及其它的生物学领域常用来收集细胞、细胞器及生物大分子物质。 一、基本原理的分类 (一)基本原理 ⒈离心力(centrifugal force,Fc)离心作用是根据在一定角度速度下作圆周运动的任何物体都受到一个向外的离心力进行的。离心力(Fc)的大小等于离心加速度ω2X与颗粒质量m的乘积,即: 其中ω是旋转角速度,以弧度/秒为单位;X是颗粒离开旋转中心的距离,以cm为单位;m是质量,以克为单位。 ⒉相对离心力(relative centrifugal force,RCF)由于各种离心机转子的半径或者离心管至旋转轴中心的距离不同,离心力而受变化,因此在文献中常用“相对离心力”或“数字×g”表示离心力,只要RCF值不变,一个样品可以在不同的离心机上获得相同的结果。 RCF就是实际离心场转化为重力加速度的倍数。 式中X为离心转子的半径距离,以cm为单位;g为地球重力加速度 (980cm/sec2);n为转子每分钟的转数(rpm)。 在上式的基础上,Dole和Cotzias制作了与转子速度和半径相对应的离心力的转换列线图,见图16-4,在用图16-4将离心机转数换成相对离心力时,先在离心机半径标尺上取已知的离心机半径和在转数标尺上取已知的离心机转数,然后将这两点间划一条直线,在图中间RCF标尺上的交叉点,即为相应的离心力数值。例已知离心机转数为2500rpm,离心机的半径为7.7cm,将两点连接起来交于RCF标尺,此交点500×g即是RCF值。

人工智能与机器翻译期末复习题

一、名词解释(5X3‘)15’ 1.兼类(P121):一个单词既可以作名词动词又可以作其他词类 2.机器翻译:用计算机软件代替人做的书面翻译 3.组合型歧义:一个字与前面的字成词,与后面的字成词,合起来也成词。 4.交集型歧义(P117):一个字与前面的字成词,与后面的字也成词。 5.人工智能:用计算机硬件、软件模拟人的行为,解决人类目前尚未认识清楚的问题。 6.人工智能软件的三大技术:知识表示、知识推理、知识获取。 7.语料库:单词、短语和句子组成的数据库。 8.知识工程:包括人工智能软件技术的工程。(知识工程是以知识为基础的系统,就 是通过智能软件而建立的专家系统) 9.深度学习:一步一步在丰富起来的特征规律引导下,由浅入深完成推理的方法。 10.语用分析:分析成语和习惯用语的方法。 二、题解P36 例2.1 、2.2 例2.1 设有下列语句: (1)高山比他父亲出名。 (2)刘水是计算机系的一名学生,但他不喜欢编程序。 (3)人人爱劳动。 为了用谓词公式表示这些语句,应先定义谓词: BIGGER(x,y):x比y出名 COMPUTER(x):x是计算机系的学生 LIKE(x,y):x喜欢y LOVE(x,y):x爱y

M(x):x是人 定义函数father(x)表示从x到其父亲的映射此时可用谓词公式把上述三个语句表示为:(1)BIGGER(高山,father(x)) (2)COMPUTER(刘水)∧∽LIKE(刘水,程序) (3)(?x)(M(x) →LOVE(x,劳动)) 例2.2 设有下列语句: (1)自然数都是大于零的整数。 (2)所有整数不是偶数就是奇数。 (3)偶数除以2是整数。 定义谓词如下: N(x):x是自然数 I(x):x是整数 E(x):x是偶数 O(x):x是奇数 GZ(x):x大于零 另外,用函数S(x)表示x除以2。此时,上述三个句子可用谓词公式表示为: (?x)(N(x) →GZ(x)∧I(x)) (?x)(I(x) →E(x)∨O(x)) (?x)(E(x) →I(S(x))) 三、论述(4X5‘)20’ 1.阐述深度、广度、代价驱动搜索方法。(P68) 答:广度优先搜索法:对全部节点沿广度进行横向扫描,按各节点生成的先后次序,

机器翻译研究综述

机器翻译综述 1.引言 1.1机器翻译的历史 现代机器翻译的研究应该是从20世纪50年代开始,但是早在这以前很多人已经提出了相应的想法,甚至是远在古希腊时期就有人提出要用机器来进行语言翻译的想法。 在1946年,美国宾夕法尼亚大学的两位科学家设计并制造了世界上第一台电子计算机。与此同时,英国工程师同美国洛克菲勒基金会副总裁韦弗在讨论计算机的应用范围时,就提出了利用计算机实现语言的自动翻译的想法。在1949年,韦弗发表了一份名为《翻译》的备忘录,正式提出了机器翻译问题。他提出了两个主要观点: 第一,他认为翻译类似于解读密码的过程。 第二,他认为原文与译文“说的是同样的事情”,因此,当把语言A翻译为语言B时,就意味着从语言A出发,经过某一“通用语言”或“中 间语言”,可以假定是全人类共同的。 在这一段时间由于学者的热心倡导,实业界的大力支持,美国的机器翻译研究一时兴盛起来。 1964年,美国科学院成立语言自动处理咨询委员会,调查机器翻译的研究情况,给出了“在目前给机器翻译以大力支持还没有多少理由”的结论,随后机器翻译的研究就陷入了低潮期。直到70年代以后机器翻译的研究才重新进入了一个复苏期,随后机器翻译的发展又迎来了繁荣期 1.2机器翻译的主要内容 经过50多年的发展,在机器翻译领域中出现了很多的研究方法,总结如下:●直接翻译方法 ●句法转换方法 ●中间语言方法 ●基于规则的方法 ●基于语料库的方法 基于实例的方法(含模板、翻译记忆方法) 基于统计的方法 在当前的研究中,更多的是基于统计的方法进行的,因为基于统计的方法可以充分的利用计算机的计算能力,并且并不需要过多的语言学知识作为支撑,可以让更多的计算机科学家投入到实用系统的研究中,极大的促进了统计机器翻译的发展。 下面对各个方法逐一的进行介绍。

机器翻译技术的探讨

机器翻译技术的探讨 六院五队-徐允鹏-12060143 摘要随着国际交流的日益增多,在计算机、互联网等相关技术日新月异的基础上,机器翻译的技术与应用得到了蓬勃发展。本文详细探讨了基于规则的机器翻译方法、基于语料库的机器翻译方法和混合式机器翻译方法,并讲述了机器翻译的评估方法,最后介绍了机器翻译技术的最新进展。 关键词:机器翻译;基于规则;语料库;评估方法 1.机器翻译概述 随着国际化交流的普遍性,信息通信的日益膨胀,高效的处理不同领域各种语言之间的互译已成为当代人们的普遍需求。翻译是解决自然语言之间通信障碍最直接最有效的方法。传统的翻译工作都是通过专业翻译人员完成,利用语言学知识进行自然语言之间的互译,帮助人们实现信息通信。伴随着计算机技术的成熟与自然语言处理技术的不断进步,利用机器翻译系统帮助人们快速获取外文信息代替人工翻译已成为一种必然的趋势。 机器翻译(machine translation),又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。它是自然语言处理(Natural Language

Processing)的一个分支,与计算语言学(Computational Linguistics )、自然语言理解(Natural Language Understanding)之间存在着密不可分的关系[1]。 机器翻译是21世纪要解决的科技难题之一,主要困难是自然语言在各个层次上的歧义性。研究机器翻译具有重要的实践意义和理论意义。国际间的合作与交流,语言的差异是一个非常重要的障碍,各行各业的人们面对大量他们不熟悉的语言的文档资料,如果单纯的依靠人工翻译,这些日益的待翻译材料将是一种非常沉重的负担,而机器翻译可大幅度减轻这种负担。同时,机器翻译对于了解人类语言和思维的基本机制,探讨人工智能技术有着重要的意义。 2.机器翻译方法 人们一直在寻求更好的解决机器翻译问题的方法,目前机器翻译方法主要有基于规则的机器翻译,基于语料库的机器翻译和混合式机器翻译方法。 2.1基于规则的机器翻译方法 2.1.1基于分析和转换的机器翻译方法 人作翻译时,把一个源语言句子译成目标语言句子,设计到四个基本操作:目标语言单词的检索、调序、删词、增词;机器翻译系统的过程包括检索、分析、转换和生成主要四个阶段,这被称为基于分析和转换的机器翻译系统,也被认为是模拟人类翻译活动最恰当的机

离心机关键技术及发展情况综述

离心机关键技术及发展情况综述 离心机关键技术及发展情况综述 离心机是将样品进行分离的仪器,广泛应用干生物医学、石油化工、农业、食品卫生等领域,它利用不同物质在离心力场中沉淀速度的差异,实现样品的分析分离。离心机自问世以来,历经低速、调整、超速的变迁,其进展主要体现在离心设备和离心技术两方面,二者相辅相成。从转速看,台式离心机基本属于低速、高速离心机的范畴,因此具有低速和高速离心机的技术特点,其结构主要由电机驱动系统、制冷系统、机械系统、转头和系统控制等几部分组成,与落地式离心机相比只不过是尺寸和容量小一点罢了。通用台式离心机的发展已经模糊了低速、高速、微量和大容量离心机的界线,众多的转头为科研人员提供相当广泛的应用范围,成为科研实验室首选机型。 本文将结合国内外流行的台式离心机.着重从功能结构,介绍台式离心机的关键技术及其进展,并希望通过国内外流行机型的技术总结和比较,提供有益的选型建议。 1、交流变频调速将逐步取代直流调速 转速调节系统是离心机的核心部分,由控制、功率驱动和电机三大要素组成,主要是控制电机的转速。在离心机的发展进程中直流调速功不可没,其主要特点是具有良好的起制动、调速范围宽、结构简单、成本低、理论和实践都比较成熟等,因此八十年代前在离心机中得到广泛的应用较成熟等,因此八十年代前在离心机中得到广泛的应用,至今仍在应用和不断的改进,例如长沙维尔康湘鹰离心机新推出的转超速离心机,改进了直流电机铜头和碳刷的耐磨性,以延长电机的寿命和碳刷的更换周期等。 可控硅相控直流调速是经典的直流调速方案,结构简单、技术成熟,基本满足离心机调速的需求,因此在国内外离心机中得到广泛的应用。其主要缺点是,整流波形差、电流脉动大、轻负载时易出现断流现象、为维持直流电机电流的连

浅谈机器翻译存在的问题

机器翻译及其问题浅析 摘要:由于信息技术高速发展,国际交流日益频繁,如何克服语言障碍已经成为国际社会共同面对的问题,而人工翻译的方式已经远远不能满足需求。利用机器翻译协助人们快速获取信息已成为必然趋势,但机器翻译仍存在一些影响译文可读性和准确性的问题。本文将简单介绍机器翻译并对常见问题进行浅析。 关键词:机器翻译问题语法应用 一、引言 机器翻译(Machine Tanslation,简称MT),又称自动翻译,是利用计算机来进行不用的自然语言之间的翻译,它是自然语言处理(Natural Language Processing)的一个分支,与计算语言学(Computational Linguistics )、自然语言理解(Natural Language Understanding)之间存在着密不可分的关系。它是横跨语言学、数学、计算机科学、翻译学及人工智能等的综合学科,也是信息时代语言应用的一个重要领域。 二、机器翻译的简介 (一)机器翻译简史 人类在近代就萌发了机器翻译的梦想,但是真正把设想付诸现实还是因为计算机的诞生和计算机技术的发展。机器翻译的研究历史课追溯到20世纪四五十年代。1946年第一台现代电子计算机ENIAC诞生,同一年,美国科学家韦弗(W. Weaver)和英国工程师布斯(A. D. Booth)在讨论电子计算机的应用范围时,提出了利用计算机进行语言自动翻译的想法。1949年,韦弗(W. Weaver)发表《翻译备忘录》,正式提出机器翻译的思想。经过六十年的曲折发展,到目前互联网的普遍应用,以及人们对翻译需求的迅猛增长,给机器翻译带来新的发展机遇。我国相继推出了一系列的机器翻译软件如“译星”、“雅信”、“通译”、“华建”等。在市场需求的推动下,商用机器翻译系统迈入了实用化阶段,走进了市场,来到了用户面前。 (二)机器翻译的主要方法 机器翻译的过程一般可简化为三个阶段:原文分析、原文译文转化和译文生成。表象上,机器翻译的核心问题是翻译的准确性;实质上,体现在技术层面则是机器翻译系统采用的方法论问题。在方法论层面,机器翻译系统可分为基于规则(Rule-Based )和基于语料库(Corpus-Based)两大类。 基于规则(Rule-Based )就是由词典和语法规则库构成翻译知识库。尽管语言学家经过长期努力创建了含有成千上万条规则的规则库,覆盖了相当大范围的语言现象,但却难以

机器翻译技术的现状及发展

机器翻译技术的现状及发展 摘要:本文在分析机器翻译内涵的基础上,阐述了机器翻译的历史和现状,探讨了机器翻译所面临的问题及机器翻译的发展趋势。 关键词:机器翻译;自然语言;发展趋势 1.引言 《圣经.创世纪》中第十一章巴别塔:“耶和华说:看哪,他们成为一样的人民,都是一样的言语,如今既作起这事来,以后他们所要作的事就没有不成就的了。我们下去,在那里变乱他们的口音,使他们的言语彼此不通。于是耶和华使他们从那里分散在全地上;他们就停工,不造那城了。因为耶和华在那里变乱天下人的言语,使众人分散在全地上,所以那城名叫巴别(就是变乱的意思)[1]。”这只是圣经故事,但告诉我们语言的不同确实是人们交流的极大障碍,因此人们一直在寻找打破语言障碍的途径和办法。翻译则能克服语言障碍,使得不同语言人们之间能相互交流。谭载喜在他的《西方翻译简史》一书中提到我国的翻译史时说:孔子周游列国,在各地言语发音不尽相同,彼此交流甚少的当时,也不得不通过象寄之才(即翻译人员)以“达其意,通其欲”。随着互联网的日益发展,网络信息的激增,国际社会交流愈加频繁,机器翻译已成为克服交流时所产生的语言障碍的重要手段之一。

2.机器翻译的定义 计算机翻译通常叫机器翻译(Machine Translation或MT),即全自动高质量机器翻译(Fully Automatic High Quality Machine Translation,简称FAHQMT或MT),就是人类利用计算机进行自然语言间的相互翻译,利用软件实现从一种自然语言文本到另一种自然语言文本的翻译[2]。 3.机器翻译的历史与现状 在古希腊时代就有人提出利用机械装置来进行语言翻译的想法,其中之一是如何用机械手段来分析自然语言。17世纪,人们首次提出使用机械字典克服语言障碍的设想。1903年,古图拉特(Couturat)和洛(Leau)在《通用语言的历史》一书中指出,德国学者里格(W.Rieger)首次使用了“机器翻译”(Machine Translation)这个术语。1952年在美国麻省理工学院(MIT)召开了第一届国际机器翻译会议,标志着机器翻译正式迈出了第一步。1978年在中科院计算机所的一台64K容量的计算机上成功地进行了20个标题的机器翻译测试。1987年在日本箱根举行了第一届机器翻译峰会(MT Summit),并决定以后每两年轮流在亚、欧、美定期举行。20世纪90年代后,随着微机的普及,相继出现了多种翻译软件,例如金山公司的词霸系列,实达铭泰的东方快车系列,Trados 翻译软件等。到目前为止,由于计算机科学、语言学研究的发展,特别是计算机硬件技术的大幅度提高以及人工智能在自然语言处理上的应用,机器翻译已经取得了相当大的进步,不过,机器翻译的水平距理想的“全自动高质量(FAHQ)”的目标还有很远的距离[3]。4.机器翻译面临的问题 4.1影响机器翻译质量的核心是歧义的处理。在词汇的层面上,词汇的歧义主要是一词多义,如英语单词“note”可以指“笔记”、“短信”、“注释”、“纸币”等。以下是词汇歧义的例子: 原文:Thank-you notes are heart-warming. 机器译文:感谢笔记温暖人心。人工译文:感谢信温暖人心。 在结构层面上,常见的结构歧义有and(和)结构,如nice girls and boys, 它既可表示“好女孩和男孩”,也可表示“好女孩和好男孩”,这种歧义只有人工翻译才能消除,计算机无法识别此歧义,可见歧义的处理是影响机器翻译质量的关键。 4.2人类翻译目标集中于目标语言,如果有必要的话,译者会采用灵活的方式以使翻译传情达意,有的时候会使用意译的方法,这是机器翻译所无法达到的。 以文学翻译为例,文学翻译是“传达作者的全部意图,即作者对在读者思想感情上产生艺术作用的全部意图……”。即使对于专业翻译工作者来说,文学翻译也不是件容易的事,更何况是对于没有任何认知能力的机器。笔者曾让机器翻译了下面几句:以下是美国19世纪著名作家爱默森长篇散文Beauty中的原句。 原文:"But this beauty of Nature which is seen and felt as beauty, is the least part." —Beauty Ralph Waldo Emerson 机器译文:但是这哪个看见并且作为美丽感到的自然的美丽,是最小部分。 夏济安译文:可是凡是耳目所能辨认出来的美,只是自然之美的最低部分。 以下是美国著名作家马克.吐温早期创作的一则优秀短篇小说《竞选州长》中的原句。原文:"I hauled down my colors and surrendered." —Running For Governor Mark Twain 机器译文:我沿着我的颜色拖并且投降。 张有松译文:我偃旗息鼓,甘拜下风。 以上机器译文荒唐可笑。由于机器没有思维、推理、判断能力,缺乏人工译者的综合知识和长期积淀下来的文化知识等,无法对原文产生全面的了解,做的只是机械转码,无法突破思维障碍。要获得地道完整的译文,必须对机器译文进行人工

第四章 离心技术

第四章 离心技术 离心机是利用物体高速旋转时产生强大的离心力,使置于该旋转体中的悬浮颗粒发生沉降或漂浮,从而使某些颗粒达到浓缩或与其他颗粒分离之目的。离心机的种类繁多,用途各异,本章只介绍生物离心机的基本原理、方法及其在医学检验上的应用。 一、离心理论 1、离心分离的原理 将处于悬浮状态的细胞、细胞器、病 毒和生物大分子等称为―颗粒‖。每个颗粒 都有一定大小、形状、密度和质量。当离 心机转子高速旋转时这些颗粒在介质中 发生沉降或漂浮,它的沉降速度与作用在 颗粒上的力的大小和力的方向有关。颗粒 除受到离心力(F c )外,还受到颗粒在介质 中移动时的摩擦阻力(F f )、与离心力方向 相反的浮力(F B )、颗粒处于重力场之下的 重力(F g )和与重力方向相反的浮力(F b )。各 力的作用方向见图4—1。此外,颗粒还受 到周围介质小分子的作用力,当颗粒很小 时,介质分子对颗粒的作用力十分明显,要使这种小颗粒沉降,需要更大的离心力。本节只讨论比介质分子大得多的颗粒,因此介质作用力不予考虑。下面将对各个力作详细的分析。 1)离心力 离心力(F c )的大小等于离心加速度ω2R 与颗粒质量m 的乘积,即: F c =mω2R (4–1) 其中ω是旋转角速度(弧度/秒),R 是颗粒离旋转中心的距离(cm ),m 是质量(克)。 2)重力 重力(F g )是颗粒质量与重力加速度的乘积用下式表示: F g =mg (4–2) 重力的方向与离心力的方向互相垂直,同离心力相比显得十分小,可以忽略不计。例如:离开旋转中心12cm 的颗粒,在N =1,000转/分时离心,产生的离心力比重力大134倍。因为: F c /F g =mω2R/mg =ω2R/g =(2πN/60)2R/980=(2×3.1416×1000/60)2×12/980=134 如在超速离心机中进行离心分离,其离心力更大,重力更可以忽略不计。同时颗粒由重力而产生的浮力(F b )也可忽略不计。 3)介质的摩擦阻力 b F g F C F B F f

机器翻译技术的研究和应用综述

机器翻译技术的研究和应用综述 ACM Matrix_68 摘要:随着互联网的日益发展,网络信息的激增,国际社会交流愈加频繁,机器翻译已成为克服交流时所产生的语言障碍的重要手段之一。本文回顾机器翻译研究的历史,介绍典型的机器翻译方法,在分析机器翻译内涵的基础上,阐述了机器翻译的现状,探讨了机器翻译所面临的问题及机器翻译的发展趋势,对统计以及机器学习方法在机器翻译中的应用进行了描述;论文还介绍了当前机器翻译评测技术;最后对机器翻译进行总结和展望。 关键字:机器翻译;自然语言;基于规则;基于统计;基于实例;混合策略;机器学习 1引言 近年来,自然语言处理的研究已经成为热点,而机器翻译作为自然语言研究领域的一个重要分支,同时也是人工智能领域的一个课题,同样为大家所关注。当电子计算机1946年问世的时候,人们就提出了机器翻译的想法,并且在1954年进行了第一次机器翻译试验。然而与后来的各种语言信息处理研究和应用(语言信息检索、文本自动分类、自动文摘、信息提取等等)相比,机器翻译却是进展最慢的。 从上个世纪40年代英国工程师Booth 和美国工程师Weaver提出利用计算机进行翻译的想法,到50年代欧美国家投入大量的人力、物力致力于机器翻译的研究,再到60年代ALPAC置疑报告的提出,机器翻译走向沉寂。 学者们倾其大半生精力、商家投入为数可观的资金,经历五十多年不懈的研究和开发,得到的成果或者产品却常常不能令人满意。最近的二十年,随着语言学理论的发展、计算机技术的进步以及统计学和机器学习 方法在自然语言处理领域中的广泛应用,人们对机器翻译本身的应用背景、目标等也有了更加准确的认识,机器翻译在此背景下取得了长足的发展,基于统计、基于实例等新的机器翻译方法也都是在这一时期出现,一些机器翻译系统也从实验室走向了市场。 本文第二节介绍了机器翻译的历史现状;第三节介绍了机器翻译面临的问题;第四节介绍几种经典的机器翻译方法;第五节给出近期机器翻译的发展趋势,介绍基于混合策略的机器翻译方法,对统计机器学习在机器翻译中的应用进行总结;第六节讨论当前机器翻译的评测系统;最后,对机器翻译研究进行总结和展望。 2机器翻译的历史现状 机器翻译的研究历史可以追溯到20世纪三四十年代。20世纪30年代初,法国科学家G.B.阿尔楚尼提出了用机器来进行翻译的想法。1933年,苏联发明家П.П.特罗扬斯基设计了把一种语言翻译成另一种语 言的机器,并在同年9月5日登记了他的发明;但是,由于30年代技术水平还很低,他的翻译机没有制成。1946年,第一台现代电子计算机ENIAC诞生,随后不久,信息论的先驱、美国科学家W.Weaver和英国工程师A.D.Booth在讨论电子计算机的应用范围时,于1947年提出了利用计算机进行语言自动翻译的想法。1949年,W.Weaver发表《翻译备忘录》,正式提出机器翻译的思想。走过六十年的风风雨雨,机器翻译经历了一条曲折而漫长的发展道路,学术界一般将其划分为如下四个阶段: 2.1机器翻译的开创期(1947-1964) 1954年,美国乔治敦大学(GeorgetownUniversity)在IBM公司协同下,用IBM-701计算机首次完成了英俄机器

机器翻译的现状和发展趋势_岳涛

72 计算机教育 2005.4 人/才/培/养/与/就/业机器翻译(Machine Trans-lation)是通过计算机来实现不同自然语言之间的翻译。机器翻译是自然语言处理(Natural LanguageProcessing)的一个分支,机器翻译与计算语言学(ComputationalLinguistics)、自然语言理解(Natural Language Understanding)存在着密不可分的关系。机器翻译的研究与发展取决于计算机科学、数学、语言学、人工智能等多学科的发展,因此机器翻译可以说是一个跨学科的综合性系统工程。人类步入21世纪以来,随着国际互联网(Internet)的迅猛发展,网络信息急剧膨胀,国际交流日益频繁以及地球村的形成,机器翻译正在逐渐成为克服人们之间进行交流时所面临的语言障碍的重要手段,同时也面临着很大的市场机遇和挑战。 历史的回顾 从美国人维弗(Warren?Weaver)于1949年发表《翻译》备忘录并正式提出机器翻译的思想以来,机器翻译已经走过了50多个风风雨雨的春秋。在这期间,机器翻译可以说经历了一条曲折而漫长的 发展道路。 1954年,在美国乔治敦大学(Georgetown University)进行了 人类历史上的第一次机器翻译的公开演示。尽管演示尚不算很成功,但是它却具有划时代的意义,因为它拉开了人们研究机器翻译 的序幕。 从20世纪50年代开始到20世纪60年代的前半期,机器翻译的研 究呈不断上升的趋势。美国和前苏联两个超级大国出于军事和政治经济目的,纷纷对机器翻译项目提供了大量的资金支持,而欧洲国家由于地缘政治和经济的需要也对机器翻译研究给予了相当大的重视。 1966年,美国科学院发表的ALPAC报告使当时正在蓬勃发展的机器翻译陷入了停滞的状态。现在来看,该报告是非常片面、狭隘和短视的。 从20世纪60年代中后期到整个70年代,整个机器翻译领域处于一个相对平稳发展的时期,而在某些国家,特别是加拿大和欧盟,机器翻译的研究却取得了比较显著的进步。尤其是在加拿大,由于双语文 化的影响,政府积极支持机器翻译的研发工作,1976年,加拿大蒙特利尔大学与加拿大联邦政府翻译局联合开发了提供天气预报服务的实用性机器翻译系统TAUM-METEO,该系统的成功开发标志着 机器翻译已经在某些领域达到了实用化的程度。 进入20世纪80年代以来,由于计算机科学、语言学研究的发展,特别是计算机硬件技术的大幅度提高以及人工智能在自然语言处理上的应用,机器翻译在全世界范围内开始复苏,并在随后的90年代取得了长足的进步。 20世纪90年代以来的机器翻译技术的新进展 1.机器翻译的分类 进入20世纪90年代,机器翻译领域的的研究方法基本上可以分为两大类,即基于规则(Rule-Based)和基于语料库(Corpus-Based)的方法。基于规则的方法又可以分为基于转换的方法和基于中间语言的方法,基于语料库的方法又可以分为基于统计的方法和基于实例的方法。传统的基于规则的方法又可以 机器翻译的现状和发展趋势 中国软件与技术服务股份有限公司 岳涛/文 ◆ 课外新知 ◆

搭建属于自己的机器翻译系统

搭建属于自己的机器翻译系统——MTI专业“技术小白”走进小牛翻译开源社区的心得 搭建属于自己的机器翻译系统 ——MTI专业“技术小白”走进小牛翻译开源社区的心得首先,自我介绍一下。我是一个MTI(翻译硕士)专业、没有计算机编程背景、没有机器翻译理论基础的菜鸟,任职于一家网络科技公司的市场部门,之前的工作中需要做些翻译工作,有时候求助百度翻译、有道翻译等免费的机器翻译系统来解决问题,但是对于一些涉及我们商业机密的数据,由于担心泄密,只能借助于有道词典查查词,然后再自己形成翻译结果。很早之前我就想,要是能有自己的机器翻译系统就好了。 我心目中的翻译技术大牛、对外经贸大学的崔启亮老师曾在微博中给MTI的学生提建议,“学好翻译技术,有前途。对于仍在迷茫MTI的同学,我建议学机器翻译设计与开发,走出迷茫。”非常非常幸运的是,我一个东大毕业的同学告诉我,东北大学自然语言处理实验室(国内搞机器翻译最好的团队之一)联合沈阳雅译网络技术有限公司推出了“小牛翻译开源社区”,社区中有一项内容,就是教不懂机器翻译的人学习“快速搭建自己的机器翻译系统”。于是,我走进社区,按照社区里的相关说明,亲身体验了搭建过程。下面,我想谈谈这个被誉为“目前国内首个以机器翻译为核心的交流平台”的菜鸟级用户体验。 小牛翻译开源社区里提供了统计机器翻译开源系统的全部代码。我了解了一下,NiuTrans开源系统在国际上比较有名,据说是目前国际上能够支持统计机器翻译模型最全的两套统计机器翻译系统之一(另一套是爱丁堡大学的Moses)。这些内容对MT(机器翻译)的专业学者应该很有用吧,但是对于我这个非科班出身的人来说,其实会完全忽略这部分内容。我还是讲讲我在社区里的真正收获——快速搭建实用的机器翻译系统。 一、搭建过程详细说明 需要说明的是,我是在在网页指导与人工指导下才在自己的电脑(Windows7 64位系统,硬盘500G,内存8G)上成功搭建机器翻译系统的。解释一下为什么我不仅看了网页上操作指导,还需要人工指导。身为“技术小白”的我,虽然网页上的操作指导写的很规范,但是第一次接触这么“高大上”的东西,还是有点小紧张的。于是,我加入了小牛翻译开源社区的QQ群(群号群主很热心的帮我讲解,在服务方面我的用户体验很好。下面我就与大家分享我如何一步步完成在自己电脑上搭建机器翻译系统的。

机器翻译现状

机器翻译的现状与发展 摘要:随着经济全球化的飞速发展以及人类命运共同体的提出,各国之间人民之间的交流必将日益频繁,各个国家语言之间转换需求也必定与日俱增,人为地学习千百种语言实在不易,机器翻译的作用也就越来越受到重视。它涉及计算机语言学、数学和语言学等各个学科,其中语言学为其提供了机译数据库和技术支撑。然而,目前机器翻译还存在许多不足,需要多方面深入研究。本文对机器翻译发展历程、研究方法、存在问题及其应对方法进行了综述,以期机器翻译更进一步发展。 关键词:机器翻译;发展历程;研究方法;语言学理论;问题;应对方法 机器翻译是通过计算机来实现不同自然语言之间的转换,也称为自动翻译,一般是指自然语言之间的部分句子或全文的翻译。它作为应用语言学的一个分支,是建立在语言学、数学和计算机科学基础上的跨学科研究。由于需要通过电脑数据库和翻译软件来完成操作,因此,机器翻译的发展与计算机科学、数学、人工智能、语言学等各学科的发展密不可分,可以说,机器翻译的推进需要这些学科的技术支撑和理论支持。人类进入21世纪以来,随着经济的发展,国际交流合作日益频繁,对机器翻译的需求日益增大。机器翻译是规避国家间交流障碍的有效手段,但作为综合性的学科,它的发展受到多方面牵制,因此需要相关研究人员和学者对其相关学科进行更深入的研究。 1机器翻译发展历史 机器翻译的历史最早可以追溯到20世纪30年代相关学者提出其雏形,如今处于高速发展的阶段。然而在初期机器翻译受到过阻碍,一度陷入低潮期。直到移动互联网时代的到来,一方面,随着计算机网络技术快速发展,人们要求用计算机实现语言翻译的愿望越来越强烈。另一方面自1990年统计机器翻译模型提出以来,基于大规模语料库的统计翻译翻译方法迅速发展,机器翻译再次成为人们关注的热门研究课题,取得了一些令人瞩目的成果。但是,在机器翻译飞速发展的同时,也遇到了很多难题,在目前的技术条件下翻译的质量还不能够达到人们的期望的程度,想让机器让人类一样去理解和分析语言还远不能行。在当今信息大数据时代,机器翻译正发挥越来越重要的作用。 机器翻译的发展可以归结为以下几个发展阶段: 1.1机器翻译人员的独立工作阶段 20世纪50年代初期,随着第一台计算机的问世,美国的科学家W.Weaver和英国工程师A.D. Booth就发表了翻译备忘录,提出了利用计算机进行翻译的设想。随后,通过不懈的努力和试验,美国的乔治伦敦大学和IBM公司合力推出了首个MT系统,为各国的机器翻译奠定了坚实的实践基础。但是由于受到计算机硬件局限性的限制,尤其是内存不足和存储速度慢,以及缺乏高级编程语言,研究人员无法完全依赖机器来完成大规模、高质量的翻译任务。同时,由于研究是在没有句法学家和语义学家的协助下独立进行的,翻译的质量难以保证。 在这样的背景下,早期研究者意识到,无论开发出什么样的系统都只能产生出低质量的输出,因此专家建议,先发展对有控制的语言进行翻译,并限定于某些特定领域。 1.2进入高质量的翻译输出 20世纪60年代,受到改进了的计算机硬件和编程语言的鼓舞,研究人员对机器翻译产生了盲目的乐观。编程语言在句法分析上取得的长足进步让翻译人员感受到了技术革新的成果,他们相信机器翻译有巨大的前景,几年之内就可以达到高质量的输出,这一乐观论调很快传遍了全世界。研究人员还提出假设:机器翻译的目标是产出高质量翻译的全自动系统。研究的重点在于寻求完善的翻译理论和方法。 1.3翻译软件和工具的发展 20世纪70年代以来,随着科技发展和各国间频繁交流,大规模翻译需求日益增加,对计算机翻译的依赖更加突出,机器翻译进入了新的发展阶段。实用性翻译和软件系统如雨后春笋频频出现,如Weinder系统、EURPOTRA多国种翻译系统、TAUM-METEO系统等。80年代产生了大量连接网络和大容量存储的微型计算机,各种翻译工具也应运而生,如词典和术语资料库、多语文字处理、词汇和术语资源的管理、信息传递的

相关文档
最新文档