机器翻译
机器翻译及其翻译步骤

机器翻译及其翻译步骤机器翻译(MachineTranslation,MT),指的是由电脑程序实现的自动文字翻译技术,它可以在不进行人工介入的情况下,将源文自动翻译成目标语言。
机器翻译技术已经成为翻译领域最受关注的一个话题,它具有准确、快速等优点,可以有效解决因文字的不通而造成的误解和误传的现象。
机器翻译的步骤包括:分词、语法分析、句子改写、翻译完成。
首先是分词,它指的是将一句话中的汉字分解成单独的词,以便电脑程序能够识别该句的意思。
在机器翻译中,分词是翻译的关键步骤,因此分词精准度的高低直接影响翻译结果的准确性与可信度。
接着是语法分析,它指的是利用若干文字学知识,运用语法规则对汉字分解出来的词语及短语进行解析,以确定句子中词语的排列关系及句法结构,这也是机器翻译的一个关键步骤。
紧接着是句子改写,它是基于语法分析的基础上,利用源语言的语法结构与目标语言的语法结构差别,将句子改写成适用于目标语言的形式,这一步将影响最终翻译结果的准确性。
最后是翻译完成,它是机器翻译中最关键的步骤,也是传统机器翻译中最不可缺少的步骤。
翻译完成是根据句子改写的基础上,按照源语言的意思转译成目标语言,将最终的翻译结果输出来。
机器翻译技术的发展,使得准确快速的机器翻译变得可能。
由于它比传统的人工翻译更加快捷,容易被广泛的应用,如在海外文字交流中,可以有效处理中文和英文等。
此外,机器翻译也可以被应用于机器翻译系统中,自动生成多种语言之间的相互翻译,便于用户阅读多种不同语言文章,从而更好的了解多元化的文化和思想。
综上所述,机器翻译是一种很重要的技术,不仅可以提高翻译的准确度,而且还可以提高翻译的速度。
它的应用广泛,可以解决许多问题,是人类获取和传播资讯的重要途径。
然而,机器翻译仍有一定的局限性,尤其是文字表达比较模糊时,它的准确性就不高,需要使用到人工翻译。
所以,未来,结合机器翻译和人工翻译,可以更好的帮助人们进行跨语言的文字交流。
机器翻译方法

机器翻译方法机器翻译(Machine Translation,MT)是指利用计算机技术实现自然语言之间的翻译。
随着人工智能技术的快速发展,机器翻译已经成为解决语言交流障碍的有效工具。
本文将介绍几种常见的机器翻译方法,并分析它们的优缺点。
一、基于规则的基于规则的机器翻译方法是早期机器翻译技术的主要方法之一。
它通过事先构建一系列的翻译规则,然后根据这些规则将源语言文本转换成目标语言文本。
这种方法需要大量的人工工作,主要包括:1. 构建词汇库:将源语言词汇与目标语言词汇一一对应。
2. 编写规则:根据语法规则和词汇库,编写一系列的翻译规则。
3. 设计规则匹配算法:将源语言文本与规则进行匹配,并生成目标语言文本。
优点:基于规则的机器翻译方法可以实现精确的翻译,尤其在语法规则复杂的语言对之间效果较好。
缺点:构建规则和词汇库需要耗费大量时间和人力,且对语言灵活性要求较高,无法处理多义词和歧义的情况。
二、基于统计的基于统计的机器翻译方法通过分析大规模的双语语料库,学习源语言与目标语言之间的统计规律,从而实现自动翻译。
主要步骤包括:1. 建立双语语料库:收集大规模的源语言和目标语言平行语料,如新闻报道、书籍等。
2. 分词与对齐:将源语言和目标语言文本进行分词,并进行句子级别的对齐。
3. 训练模型:利用统计算法,根据对齐的双语语料库,学习源语言和目标语言之间的翻译模型。
4. 解码翻译:根据学习到的翻译模型,将源语言文本翻译成目标语言文本。
优点:基于统计的机器翻译方法可以自动学习源语言和目标语言之间的翻译规律,无需人工构建规则和词汇库。
缺点:对于生僻词和长句等复杂情况,效果不如基于规则的机器翻译方法。
三、基于神经网络的近年来,随着深度学习的广泛应用,基于神经网络的机器翻译方法逐渐兴起。
该方法通过构建深层神经网络模型,直接将源语言文本映射到目标语言文本,实现端到端的翻译。
主要步骤包括:1. 构建编码器-解码器模型:编码器将源语言文本映射到一个语义空间,解码器将语义空间中的信息转换为目标语言文本。
什么是机器翻译,它们在翻译和跨语言沟通中有哪些应用?

什么是机器翻译,它们在翻译和跨语言沟通中有哪些应用?随着人们对于多语言交流的需求增加,机器翻译越来越受到人们的关注。
机器翻译是一种通过计算机程序实现从一种语言到另一种语言的自动翻译。
在翻译和跨语言沟通中,机器翻译已经发挥了重要的应用价值。
究竟机器翻译与人工翻译的区别在哪里?机器翻译有哪些应用呢?下面根据以上问题进行详细探讨。
一、机器翻译与人工翻译的区别首先,机器翻译和人工翻译最本质的区别就在于:机器翻译是由计算机程序完成的自动化过程,而人工翻译则是由人对原始与目标语言之间的语义和文化进行理解,并进行翻译的过程。
人类翻译的过程远比机器翻译繁琐复杂,但同时也更具有文化、语言等方面的补充和优势。
二、机器翻译的应用在现代社会中,机器翻译已经应用于文本、语音和多媒体翻译等多个领域。
下面列举几个机器翻译的应用场景。
1、文本翻译机器翻译在文本翻译领域的应用较为广泛,主要包括机器翻译软件、网站和应用程序等。
例如百度翻译、谷歌翻译、有道翻译等,这些翻译工具都可以进行多国语言之间的互相翻译,并且有一定的准确性,可以满足人们日常生活和工作中的翻译需求。
2、语音翻译随着语音识别技术的不断发展,机器翻译在语音翻译领域的应用也不断扩展。
目前,一些具有语音输入和翻译功能的移动应用程序已经问世,例如微软翻译、百度翻译、谷歌翻译等,用户只需要通过语音输入即可完成语言互换。
3、口译翻译机器翻译在口译翻译领域的应用也越来越广泛。
在国际会议、商务谈判等场合,通过机器翻译实现各国语言的互通已经成为翻译市场的趋势之一。
例如,在一些展会中,不需要聘请外籍翻译员,只需要使用机器翻译即可为客户提供实时翻译服务。
4、跨国电商随着跨境电商的火爆,机器翻译已经成为商家翻译商品描述、交流等的必备工具之一。
通过机器翻译完成商品信息的翻译,可以为消费者提供更加完善的购物体验,同时也为商家节省了翻译费用。
5、跨语言社交跨语言社交已经成为现代人一种新的社交方式。
机器翻译的技术和优缺点

机器翻译的技术和优缺点机器翻译是一种基于计算机技术的翻译方式,其实现原理是通过软件程序将一种语言自动转换成另一种语言。
随着人工智能、大数据等技术的不断发展,机器翻译在翻译行业中扮演着越来越重要的角色。
本文将从机器翻译的技术原理、优点和局限性三个方面来进行探讨。
一、技术原理机器翻译的技术原理主要分为三种类型:基于规则的机器翻译、统计机器翻译以及深度学习机器翻译。
基于规则的机器翻译,是一种利用专家制定的语言规则和语法规则实现翻译的技术,需要人工编写的规则非常严谨。
这种方法的翻译准确率相对较高,但需要大量的人工干预和专业知识,而且只适用于有限的语言对。
统计机器翻译,是一种通过大量双语语料库来训练计算机学习翻译模板的方法。
具体来说,就是通过分析一种语言和另一种语言的对应翻译样本,以此建立由输入语言到输出语言之间的映射模型。
这种方法的翻译速度较快,适用范围也比较广,但是需要大量的语料库支持,翻译结果质量的优劣取决于训练的质量和句子之间的相似度。
深度学习机器翻译则是近年来出现的一种高级翻译技术。
在这种方式中,计算机需要学习如何进行翻译。
通过深度学习技术建立神经网络,让计算机从资料库中学习翻译,从而能够进行人类水平的翻译。
这种方式的翻译效果比前两种都要好,可以适用于多语言和多领域的翻译,但是需要大量的训练数据,建立好的神经网络也会消耗大量的计算资源。
二、优点机器翻译具有明显的优点,其最大的优势在于高效性和低成本。
首先,机器翻译可以进行大量翻译工作,不需要休息和休假。
与人工翻译相比,机器翻译可以快速地翻译大量的文件、文章和网站。
这不仅节约了时间,还可以为翻译公司提供更快、更准确、更高质量的翻译服务。
其次,机器翻译是可以降低翻译成本的。
相比人工翻译,机器翻译不需要支付工资、保险和福利等社会成本。
当然,机器翻译并不是所有情况下都能降低成本,因为有时由于翻译质量不好、翻译错误或存在文化差异等原因需要重新修订翻译结果,这需要道德、专业和人工等资源来完成。
机器翻译的历史发展及现状

机器翻译的历史发展及现状机器翻译(Machine Translation,MT)是指利用计算机技术和算法将一种自然语言的文本转换为另一种自然语言的文本的过程。
它的历史发展可以追溯到20世纪40年代末的“象限论”计算机翻译试验。
随着技术的不断进步,机器翻译在过去几十年中取得了显著的发展,并在现代社会中扮演着重要的角色。
机器翻译起源于第二次世界大战期间的机密研究计划。
早期的机器翻译系统主要基于基于模板和规则的方法,这些方法使用预定义的词典和语法规则来进行翻译。
然而,由于人类语言的复杂性和多样性,这些系统很快面临着困难。
人工编写和维护规则也变得越来越困难,因为语言的变化和演化速度很快。
20世纪90年代,统计机器翻译(Statistical Machine Translation,SMT)的兴起带来了新的突破。
SMT利用大量的文本数据来建立源语言和目标语言之间的统计模型。
这些模型基于语言之间的概率分布,可以自动学习词汇和语法规则之间的关联。
SMT在大规模语料库的支持下,取得了较好的翻译效果,成为机器翻译的主流方法。
然而,SMT方法仍然存在一些问题。
首先,它对大量的并行语料库的依赖使得训练时间较长且耗费大量的计算资源。
其次,SMT方法在处理长文本和复杂句子结构时表现不佳。
这些问题引发了新的研究方向,即基于神经网络的机器翻译。
2014年,Google发布了基于神经网络的机器翻译系统,称为谷歌神经机器翻译(Google Neural Machine Translation,GNMT)。
GNMT采用了编码-解码(Encoder-Decoder)结构,使用深度神经网络来建模源语言和目标语言之间的映射关系。
GNMT表现出了显著的翻译质量提升,尤其在处理长文本和复杂句子时表现优异。
基于神经网络的机器翻译系统的优势在于其端到端的训练方式,可以自动学习源语言和目标语言之间的关联,而无需手工定义规则。
此外,它还可以通过使用更大规模的数据和更深层次的网络来进一步提升翻译质量。
机器翻译的工作原理

机器翻译的工作原理机器翻译(Machine Translation,MT)是一种通过计算机程序将一种自然语言的文本转化为另一种自然语言的文本的技术。
随着人工智能的发展,机器翻译在跨语言交流和信息传递中发挥着越来越重要的作用。
那么,机器翻译的工作原理是什么呢?机器翻译的工作原理可以大致分为两个阶段:语言分析和语言生成。
在语言分析阶段,机器翻译系统会对源语言文本进行分析和理解,以获取其中的语义和结构信息。
在语言生成阶段,系统会根据分析得到的信息,生成与源语言文本等价的目标语言文本。
首先,让我们看看语言分析阶段。
在这个阶段,机器翻译系统会对源语言文本进行词法分析、句法分析和语义分析。
词法分析是指将源语言文本划分为一个个词汇单位,这些词汇单位可以是单词、短语或者更大的语言单位。
句法分析是指分析句子的结构和语法关系,以理解句子中各个成分之间的关系。
语义分析是指理解句子的意义和语义关系,以获取句子的语义信息。
为了进行语言分析,机器翻译系统通常会使用统计机器翻译(Statistical Machine Translation,SMT)或神经机器翻译(Neural Machine Translation,NMT)等方法。
在统计机器翻译中,系统会根据大规模的双语平行语料库,学习源语言和目标语言之间的映射关系,以便在翻译时进行参考。
而在神经机器翻译中,系统会使用深度神经网络来建模源语言和目标语言之间的映射关系,以实现更加准确和流畅的翻译。
接下来,让我们来看看语言生成阶段。
在这个阶段,机器翻译系统会根据语言分析得到的信息,生成与源语言文本等价的目标语言文本。
这个过程通常涉及到词汇替换、句法重组和语义转换等操作。
词汇替换是指将源语言文本中的词汇替换为目标语言中的对应词汇。
句法重组是指根据目标语言的语法规则,重新组织句子的结构和语法关系。
语义转换是指根据目标语言的语义规则,转换句子的意义和语义关系。
在语言生成阶段,机器翻译系统通常会使用一些规则和模型来帮助生成目标语言文本。
机器翻译的使用技巧
机器翻译的使用技巧机器翻译(Machine Translation,简称MT)是指使用计算机自动将一种语言的文本转化为另一种语言的过程。
随着人工智能和自然语言处理技术的快速发展,机器翻译在日常生活和工作中越来越被广泛使用。
本文将介绍一些机器翻译的使用技巧,帮助您更好地利用机器翻译工具。
首先,机器翻译虽然能够提供快速的翻译结果,但并不意味着它可以完全替代人工翻译。
因此,在使用机器翻译时,我们需要注意以下几点:1. 理解机器翻译的限制:虽然机器翻译系统已经取得了很大的进步,但仍然存在一些限制。
机器翻译可能会出现错误的翻译、不准确的语法和错误的词汇选择等问题。
因此,在使用机器翻译时,我们需要有一个清晰的认识,知道何时适合使用机器翻译,何时需要人工翻译。
2. 温故知新,多语种学习:机器翻译的应用并不局限于英语和汉语之间的翻译,它可以支持多种语言的互译。
因此,我们可以利用机器翻译工具来学习其他语种,提高自己的跨语言交流能力。
同时,通过对比机器翻译和人工翻译的结果,我们还可以更好地发现并纠正自己在其他语种翻译上的问题。
接下来,我们将介绍一些使用机器翻译的技巧,帮助您更好地使用机器翻译工具:3. 选择合适的机器翻译工具:市场上有很多提供机器翻译服务的工具和平台,如Google Translate、百度翻译、有道翻译等。
在选择机器翻译工具时,我们可以根据自己的需求和评估工具的翻译质量、界面友好度、支持的语种种类等因素进行选择。
4. 深入了解机器翻译系统设置:许多机器翻译工具都提供了一些可调节的设置选项,例如,可以选择是否转换文本的语种、选择翻译模式(例如,普通模式、术语模式、逐句模式等)。
通过深入了解不同的设置选项,我们可以根据实际需求对机器翻译进行更精准的控制,提高翻译质量。
5. 利用上下文信息进行翻译:机器翻译系统通常会根据上下文信息来翻译句子。
因此,在使用机器翻译时,我们可以提供更多的上下文信息,以帮助机器翻译更准确地理解和翻译句子。
机器翻译技术的工作原理
机器翻译技术的工作原理机器翻译(MT)技术已经成为我们日常生活中不可或缺的一部分。
尽管它的发展历史还很短,但随着自然语言处理技术的不断发展和提高,机器翻译技术在翻译、交流、商务和政治等方面都发挥着重要作用。
本文将全面介绍机器翻译技术的工作原理。
机器翻译的基本概念机器翻译是一种能够自动将源语言文本转化为目标语言文本的技术。
其中,源语言文本是需要翻译的输入文本,目标语言文本则是翻译输出的文本。
机器翻译技术基本上分为两种类型:基于规则的机器翻译和基于数据的机器翻译。
基于规则的机器翻译基于规则的机器翻译(RBMT)是机器翻译的最早形式之一。
它的基本思想是为两种不同语言设计一个规则集,这些规则涉及到它们之间的语言结构映射。
要进行RBMT翻译,必须先将源语言文本转化为一系列根据规则进行转化的中间层形式,再将中间层形式转化为目标语言文本。
这两个步骤都依赖于手动编写的规则集。
基于规则的机器翻译的工作原理可以分为四个步骤:1. 分析:通过分析源语言文本,获得其语言结构和语义信息。
2. 转化:将分析结果转化为中间层形式,中间层形式包含关于源语言和目标语言之间的对应信息。
3. 生成:在中间层形式之上应用规则,生成与源语言相等的目标语言文本。
4. 合成:对生成的目标语言文本进行后处理,以生成人类可读的最终翻译结果。
基于数据的机器翻译基于数据的机器翻译(SMT)以不同于RBMT的方式进行,它不是基于人工编排的规则,而是通过分析已有的双语语料库,利用统计模型和机器学习技术来学习两种语言之间的转换模式。
SMT的基本原理是通过在两种语言之间建立概率模型来进行翻译。
基于数据的机器翻译的工作原理可以分为五个步骤:1. 对齐:已有的双语语料库是两种语言之间的平行句子形式,这些句子需要进行对齐,以便生成源语言和目标语言之间的句子对。
2. 训练:生成源语言和目标语言之间的概率模型,这需要使用训练数据集,通常使用已经对齐的双语语料。
3. 解码:对于源语言输入,将其转化为目标语言输出的过程,可以通过解码算法来完成,常见的算法是基于搜索或基于图的方法。
机器翻译
发 展 道 路
机器翻译的研究历史可以追溯到 20 世纪三四十年代。 20世纪30年代初,法国科学家G.B.阿尔楚尼提出了用机 器来进行翻译的想法。1933年,苏联发明家П.П.特罗 扬斯基设计了把一种语言翻译成另一种语言的机器,并 在同年9月5日登记了他的发明;但是,由于30年代技术 水平还很低,他的翻译机没有制成。1946 年,第一台 现代电子计算机 ENIAC 诞生,随后不久,信息论的先 驱、美国科学家 W. Weaver 和英国工程师A. D. Booth 在讨论电子计算机的应用范围时,于1947年提出了利用 计算机进行语言自动翻译的想法。1949年,W. Weaver 发表《翻译备忘录》 ,正式提出机器翻译的思 想。走过六十年的风风雨雨,机器翻译经历了一条曲折 而漫长的发展道路,学术界一般将其划分为如下四个阶 段:开创期(1947-1964),受挫期(1964-1975), 恢复期(1975-1989),新时期(1990至今)
基于实例的机器翻译
即不经过深层分析,仅仅通过已有的经验知识, 通过类比原理进行翻译。其翻译过程是首先将 源语言正确分解为句子,再分解为短语碎片, 接着通过类比的方法把这些短语碎片译成目标 语言短语,最后把这些短语合并成长句。对于 实例方法的系统而言,其主要知识源就是双语 对照的实例库,不需要什么字典、语法规则库 之类的东西,核心的问题就是通过最大限度的 统计,得出双语对照实例库。
机器翻译
机器翻译(machine translation),又称为自动 翻译,是利用计算机把一种自然源语言转变为另 一种自然目标语言的过程,一般指自然语言之间 句子和全文的翻译。它是自然语言处理 (Natural Language Processing)的一个分支, 与计算语言学(Computational Linguistics )、 自然语言理解( Natural Language Understanding) 之间存在着密不可分的关系。
Machine translation
基本概念
机器翻译
人工翻译
发展历史
翻译方法
总结展望
1、一句一句处理,并不参考上 下文; 2、对源语言的分析只是求解句 法关系,完全不是意义上的理 解译文转换是基于源语言的句 法结构的,受源语言的句法结 构的束缚; 3、翻译只是句法结构和词汇的 机械对应。
1、先通读全文,前后照 应; 2、译文基于对源语言的理 解,不受源语言的句法结构 的束缚; 3、人工翻译是一个在创造 的过程。
基于统计的机器翻译方
法把机器翻译看成是一 个信息传输过程,用一 种信道模型对机器翻译 进行解释。这种思想认
基于实例的机 器翻译
基于实例的翻译方法不
经过深层分析,仅仅通 过已有的经验知识,通 过类比原理进行翻译。 其翻译过程是首先将源
发展历史
标语言的转换,它采取 了一系列的分析和转换
的生成层次,使一个源
翻译方法
议频繁召开,中国也取得了前所未有 的成就,相继推出了一系列机器翻译
2016
机器翻译迅猛发 展,商用机器翻 译软件翻入实用
软件,例如“译星” 、 “雅信” 、
“通译” 、 “华建”等。在市场需
总结展望
求的推动下,商用机器翻译系统迈入 了实用化阶段,走进了市场,来到了 用户面前。
化阶段。
翻译方法
基本概念
助人类完成某些翻译工 作,而不是完全替代 人,人与机器翻译系统 之间应该是互补的关 系,而不是相互竞争。
中 ,就能使译文的语篇性更强 ,使
语言的三大功能 ,即概念功能、人 际功能和篇章功能 表现得更加突 出。
发展历史
机器翻译还不成熟(in state-of-the-art),需要的
翻译方法
是人与系统的配合,而
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
机器翻译1 概述机器翻译(machine translation),又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。
它是自然语言处理(Natural Language Processing)的一个分支,与计算语言学(Computational Linguistics )、自然语言理解( Natural Language Understanding)之间存在着密不可分的关系。
2 国内外现状机器翻译思想的萌芽关于用机器来进行语言翻译的想法,远在古希腊时代就有人提出过了。
在17世纪,一些有识之士提出了采用机器词典来克服语言障碍的想法。
笛卡(Descartes)和莱布尼兹(Leibniz)都试图在统一的数字代码的基础上来编写词典。
在17世纪中叶,贝克(Cave Beck)、基尔施(Athanasius Kircher)和贝希尔(Johann JoachimBecher)等人都出版过这类的词典。
由此开展了关于“普遍语言”的运动。
维尔金斯(JohnWilkins)在《关于真实符号和哲学语言的论文》(An Essay towards a Real Character andPhilosophical Language, 1668)中提出的中介语(Interlingua)是这方面最著名的成果,这种中介语的设计试图将世界上所有的概念和实体都加以分类和编码,有规则地列出并描述所有的概念和实体,并根据它们各自的特点和性质,给予不同的记号和名称。
本世纪三十年代之初,亚美尼亚裔的法国工程师阿尔楚尼(G.B. Artsouni)提出了用机器来进行语言翻译的想法,并在1933年7月22日获得了一项“翻译机”的专利,叫做“机械脑”(mechanical brain)。
这种机械脑的存储装置可以容纳数千个字元,通过键盘后面的宽纸带,进行资料的检索。
阿尔楚尼认为它可以应用来记录火车时刻表和银行的帐户,尤其适合于作机器词典。
在宽纸带上面,每一行记录了源语言的一个词项以及这个词项在多种目标语言中的对应词项,在另外一条纸带上对应的每个词项处,记录着相应的代码,这些代码以打孔来表示。
机械脑于1937年正式展出,引起了法国邮政、电信部门的兴趣。
但是,由于不久爆发了第二次世界大战,阿尔楚尼的机械脑无法安装使用。
1903年,古图拉特(Couturat)和洛(Leau)在《通用语言的历史》一书中指出,德国学者里格(W. Rieger) 曾经提出过一种数字语(Zifferngrammatik),这种语法加上词典的辅助,可以利用机械将一种语言翻译成其他多种语言,首次使用了“机器翻译” (德文是ein mechanisches Uebersetzen)这个术语。
真正对机器翻译进行研究应该说是从布恩和韦弗开始的。
他们研究的是自动词典万, 从1954年1月7日公开展示的IBM701型计算机开始, 机器翻译进人一个繁荣发展的时期。
从那时起, 很多国家都投人了大量的人力、物力从事这方面的研究和开发。
随着 Internet 的普遍应用,世界经济一体化进程的加速以及国际社会交流的日渐频繁,传统的人工作业的方式已经远远不能满足迅猛增长的翻译需求,人们对于机器翻译的需求空前增长,机器翻译迎来了一个新的发展机遇。
国际性的关于机器翻译研究的会议频繁召开,中国也取得了前所未有的成就,相继推出了一系列机器翻译软件,例如“译星” 、“雅信” 、“通译” 、“华建”等。
在市场需求的推动下,商用机器翻译系统迈入了实用化阶段,走进了市场,来到了用户面前。
中国机器翻译研究起步于1957年,是世界上第4个开始搞机器翻译的国家,60年代中期以后一度中断,70年代中期以来有了进一步的发展。
现在,中国社会科学院语言研究所、中国科学技术情报研究所、中国科学院计算技术研究所、黑龙江大学、哈尔滨工业大学等单位都在进行机器翻译的研究;上机进行过实验的机器翻译系统已有十多个,翻译的语种和类型有英汉、俄汉、法汉、日汉、德汉等一对一的系统,也有汉译英、法、日、俄、德的一对多系统(FAJRA系统)。
此外,还建立了一个汉语语料库和一个科技英语语料库。
中国机器翻译系统的规模正在不断地扩大,内容正在不断地完善。
近来, 我国机器翻译的研究也发展很快。
几年来许多公司都推出了高科技机器翻译软件, 如天津通译、中软译星和北京高立翻译软件等。
最近, 南京月亮公司、实达铭泰公司、雅信译霸公司都先后推出汉化软件翻译产品。
中国科学院计算所等单位联合开发研制了“智能型英汉翻译系统”。
该系统实现了对原文的语法、语义和常识的一体化分析, 具有面向多文种翻译软件环境。
我国台湾地区的“功学电脑自动翻译系统” , 可使用户在“电子资讯”、“历史法律”、“军事”等方面进行计算机翻译。
机器翻译的发展如雨后春笋展现出勃勃生机。
3 主要方法基于规则( Rule-Based )的机译系统系统划分机译系统可划分为基于规则( Rule-Based )和基于语料库(Corpus-Based)两大类。
前者由词典和规则库构成知识源;后者由经过划分并具有标注的语料库构成知识源,既不需要词典也不需要规则,以统计规律为主。
机译系统是随着语料库语言学的兴起而发展起来的,世界上绝大多数机译系统都采用以规则为基础的策略,一般分为语法型、语义型、知识型和智能型。
不同类型的机译系统由不同的成分构成。
抽象地说,所有机译系统的处理过程都包括以下步骤:对源语言的分析或理解,在语言的某一平面进行转换,按目标语言结构规则生成目标语言。
技术差别主要体现在转换平面上。
语法型机译系统研究重点是词法和句法,以上下文无关文法为代表,早期系统大多数都属这一类型。
语法型系统包括源文分析机构、源语言到目标语言的转换机构和目标语言生成机构3部分。
源文分析机构对输入的源文加以分析,这一分析过程通常又可分为词法分析、语法分析和语义分析。
通过上述分析可以得到源文的某种形式的内部表示。
转换机构用于实现将相对独立于源文表层表达方式的内部表示转换为与目标语言相对应的内部表示。
目标语言生成机构实现从目标语言内部表示到目标语言表层结构的转化。
语义型系统研究重点是在机译过程中引入语义特征信息,以Burtop提出的语义文法和Charles Fillmore提出的格框架文法为代表。
语义分析的各种理论和方法主要解决形式和逻辑的统一问题。
利用系统中的语义切分规则,把输入的源文切分成若干个相关的语义元成分。
再根据语义转化规则,如关键词匹配,找出各语义元成分所对应的语义内部表示。
系统通过测试各语义元成分之间的关系,建立它们之间的逻辑关系,形成全文的语义表示。
处理过程主要通过查语义词典的方法实现。
语义表示形式一般为格框架,也可以是概念依存表示形式。
最后,机译系统通过对中间语义表示形式的解释,形成相应的译文。
知识型系统目标是给机器配上人类常识,以实现基于理解的翻译系统,以Tomita提出的知识型机译系统为代表。
知识型机译系统利用庞大的语义知识库,把源文转化为中间语义表示,并利用专业知识和日常知识对其加以精练,最后把它转化为一种或多种译文输出。
智能型系统目标是采用人工智能的最新成果,实现多路径动态选择以及知识库的自动重组技术,对不同句子实施在不同平面上的转换。
这样就可以把语法、语义、常识几个平面连成一有机整体,既可继承传统系统优点,又能实现系统自增长的功能。
这一类型的系统以中国科学院计算所开发的IMT/EC系统为代表。
基于语料库(Corpus-Based)的机译系统机器翻译的研究是建立在语言学、数学和计算机科学这3门学科的基础之上的。
语言学家提供适合于计算机进行加工的词典和语法规则,数学家把语言学家提供的材料形式化和代码化,计算机科学家给机器翻译提供软件手段和硬件设备,并进行程序设计。
缺少上述任何一方面,机器翻译就不能实现,机器翻译效果的好坏,也完全取决于这3个方面的共同努力。
整个机器翻译的过程可以分为原文分析、原文译文转换和译文生成3个阶段。
在具体的机器翻译系统中,根据不同方案的目的和要求,可以将原文译文转换阶段与原文分析阶段结合在一起,而把译文生成阶段独立起来,建立相关分析独立生成系统。
在这样的系统中,原语分析时要考虑译语的特点,而在译语生成时则不考虑原语的特点。
在搞多种语言对一种语言的翻译时,宜于采用这样的相关分析独立生成系统。
也可以把原文分析阶段独立起来,把原文译文转换阶段同译文生成阶段结合起来,建立独立分析相关生成系统。
在这样的系统中,原语分析时不考虑译语的特点,而在译语生成时要考虑原语的特点,在搞一种语言对多种语言的翻译时,宜于采用这样的独立分析相关生成系统。
还可以把原文分析、原文译文转换与译文生成分别独立开来,建立独立分析独立生成系统。
在这样的系统中,分析原语时不考虑译语的特点,生成译语时也不考虑原语的特点,原语译语的差异通过原文译文转换来解决。
在搞多种语言对多种语言的翻译时,宜于采用这样的独立分析独立生成系统。
迄今存在和正在研制的机器翻译系统按其加工的深度可以分为3种类型:第1类是以词汇为主的机器翻译系统;第2类是以句法为主的机器翻译系统;第3类是以语义为主的机器翻译系统。
第1类机器翻译系统从美国乔治敦大学的机器翻译试验到50年代末的系统,基本上属于第1类机器翻译系统。
它们的特点是:①以词汇转换为中心,建立双语词典,翻译时,文句加工的目的在于立即确定相应于原语各个词的译语等价词;②如果原语的一个词对应于译语的若干个词,机器翻译系统本身并不能决定选择哪一个,而只能把各种可能的选择全都输出;③语言和程序不分,语法的规则与程序的算法混在一起,算法就是规则。
由于第一类机器翻译系统的上述特点,它的译文质量是极为低劣的,并且,设计这样的系统是一种十分琐碎而繁杂的工作,系统设计成之后没有扩展的余地,修改时牵一发而动全身,给系统的改进造成极大困难。
第2类机器翻译系统60年代以来建立的机器翻译系统绝大部分是第2类机器翻译系统。
它们的特点是:①把句法的研究放在第一位,首先用代码化的结构标志来表示原语文句的结构,再把原语的结构标志转换为译语的结构标志,最后构成译语的输出文句;②对于多义词必须进行专门的处理,根据上下文关系选择出恰当的词义,不容许把若干个译文词一揽子列出来;③语法与算法分开,在一定的条件之下,使语法处于一定类别的界限之内,使语法能由给定的算法来计算,并可由这种给定的算法描写为相应的公式,从而不改变算法也能进行语法的变换,这样,语法的编写和修改就可以不考虑算法。
第2类机器翻译系统不论在译文的质量上还是在使用的方便上,都比第1类机器翻译系统大大地前进了一步。
第3类机器翻译系统70年代以来,有些机器翻译者提出了以语义为主的第3类机器翻译系统。