_统计机器翻译_述评_冯志伟
024036机器翻译技术及应用

机器翻译技术及应用王海峰东芝(中国)研究开发中心关键词:机器翻译 评测引言语言是人类进行交流的工具,语言不通会阻碍人们之间进行交流。
于是,人类在克服语言交流障碍的过程中发展了语言之间的翻译,产生了翻译学。
用机器来帮助甚至替代人工翻译是人类长久以来的一个梦想。
最原始的机器翻译思想可以追溯到17世纪关于机械词典的构想。
韦弗(Weaver)1949年的著名备忘录1则标志着基于现代计算机的机器翻译正式登上历史舞台。
机器翻译既涉及到人类对自身语言和思维方式的认知,又涉及到人工智能、信息论、知识工程和软件工程等很多技术领域,是一个多项技术深度交叉的学科。
机器翻译也是一门独立的学科。
它既具有自身的发展规律,同时又需要在多种学科基础上综合发展。
本文将在简要回顾机器翻译发展史的基础上,全面论述机器翻译方法,然后介绍牵引机器翻译技术发展的两驾马车:科学评测和实际应用,最后进行总结2。
机器翻译发展回顾机器翻译发展至今,经历了1954年之前的草创期、1954~1966年的高期望期、1967~1976年的沉寂期、1976~1989年的复苏期以及1989年之后的发展期等5个不同的历史时期。
1954年,美国IBM公司和乔治敦大学合作开发的机器翻译原型系统第一次向人们展示了一个现实的机器翻译系统。
这不仅使各国从事机器翻译研究的学者们倍受鼓舞,而且还吸引了大量的政府机构的资金投入。
第一代机译系统都是采用直接法,主要以词典为驱动,辅以较低层次上的语法分析和语义特征的使用。
1966年的ALPAC3报告指出,机器翻译速度慢,准确率低,比人工翻译花费多,且不能马上实用。
为此,各类机器翻译项目纷纷下马,机器翻译研究陷入低谷。
从70年代中期开始,基于规则的第二代机器翻译的方法逐渐成熟,机器翻译研究重现生机。
第二代方法的主导思想是面向句法、基于规则的转换策略。
80年代末开始,在国际交流日益增多的环境下,随着计算机、互联网等相关技术日新月异的发展,机器翻译的技术与应用也呈现出了蓬勃生机。
冯志伟:“巴别塔”上的中国计算语言学先锋

“落后分子”编码,55和机器翻译。
师从国际计算语言学学会首任主席沃古瓦,他倍加珍惜宝贵的学习研究机会,给自己规定了“887工作制”:每天8点上班,晚上8点下班,一周7天工作无休。
留法期间,他利用当时先进的大型计算机进行了大规模的基于规则的语言学研究,提出了多叉多标记树形图模型,并在此基础上研制出了世界上第一个从汉语到多种外语的机器翻译系统—“汉-法、英、日、俄、德”多语种翻译系统。
在布拉格的会议上,冯志伟介绍的正是这一具有里程碑意义的研究成果。
几年后,冯志伟调入国家语委语言文字应用研究所(现属教育部)担任计算语言学研究室主任,同时在中国科学院软件研究所担任兼职研究员;后又赴德国从事术语数据库研究,研制成世界上第一个中文术语数据库。
1998年退休后,冯志伟仍心系学术研究、胸怀国际交流。
2000-2002年,他赴韩国科学技术院担任客座教授、为博士生授课;2005年,与人合译出版《自然语言处理综论》;2011-2015年,参与修订汉语拼音出海的国际标准《中文罗马字母拼写法》ISO-7098;他还对国内外自然语言处理的研究成果进行了系统梳理,写成了基于规则与基于统计的自然语言处理方法的专著《自然语言计算机形式分析的理论与方法》,后又应世界上最大的科技出版社之一—德国斯普林格出版社邀约,将这本书译成英文出版。
如今,一直致力于利用跨专业之砖砌筑“巴别塔”的冯老也没有忘记沟通中外的初心。
“面对新技术带来的新形势和新变化,应当学习翻译技术,把新技术也纳入到翻译工作中。
人工智能翻译成绩巨大,应当提倡‘机器翻译+译后编辑’,加强译后编辑的作用,实现机器翻译与人工翻译和谐共处、相得益彰。
”冯老还提出建议,作为国际传播的一部分,有必要加强古代典籍汉译外语资料库建设。
在讲述自己担任ISO-7098国际标准国际工作组组长和应邀出版译作的经历时,冯老还不忘感慨和叮嘱几句:“做国际传播,一定要知己知彼,了解对方的情况”“要尊重对方的意愿,不要强加于对方”……唯有热爱:“我得到精神上的满足”“中国的计算语言学早期做的人少。
基于短语和句法的统计机器翻译

基于短语和句法的统计机器翻译冯志伟【期刊名称】《燕山大学学报》【年(卷),期】2015(039)006【摘要】The development process of statistical machine translation ( SMT) is described in this paper,and the noisy channel model in SMT,phrase-based SMT and syntax-based SMT are introduced.In order to give impetus to MT,the rationalist approach and the empiricist approach should be combined.%回顾了统计机器翻译发展的历程,讨论了噪声信道模型、基于短语的统计机器翻译和基于句法的统计机器翻译,主张把理性主义方法和经验主义方法结合起来,以推进机器翻译的进一步发展.【总页数】10页(P546-554,560)【作者】冯志伟【作者单位】杭州师范大学外国语学院,浙江杭州311121【正文语种】中文【中图分类】TP391【相关文献】1.短语统计机器翻译的句法调序模型 [J], 薛永增;李生;赵铁军;杨沐昀2.依存句法语言模型对短语统计机器翻译性能的影响 [J], 董人菘;王华;张晓钟;余正涛;张涛3.基于短语的统计机器翻译中短语表的过滤 [J], 狄萍;周宥良;贡正仙;周国栋4.基于短语的统计机器翻译中汉维短语对抽取算法改进 [J], 任高举;吐尔根·伊布拉音;艾山·吾买尔5.利用句法短语改善统计机器翻译性能 [J], 孙水华;丁鹏;黄德根因版权原因,仅展示原文概要,查看原文内容请购买。
浅谈机器翻译存在的问题

机器翻译及其问题浅析摘要:由于信息技术高速发展,国际交流日益频繁,如何克服语言障碍已经成为国际社会共同面对的问题,而人工翻译的方式已经远远不能满足需求。
利用机器翻译协助人们快速获取信息已成为必然趋势,但机器翻译仍存在一些影响译文可读性和准确性的问题。
本文将简单介绍机器翻译并对常见问题进行浅析。
关键词:机器翻译问题语法应用一、引言机器翻译(Machine Tanslation,简称MT),又称自动翻译,是利用计算机来进行不用的自然语言之间的翻译,它是自然语言处理(Natural Language Processing)的一个分支,与计算语言学(Computational Linguistics )、自然语言理解(Natural Language Understanding)之间存在着密不可分的关系。
它是横跨语言学、数学、计算机科学、翻译学及人工智能等的综合学科,也是信息时代语言应用的一个重要领域。
二、机器翻译的简介(一)机器翻译简史人类在近代就萌发了机器翻译的梦想,但是真正把设想付诸现实还是因为计算机的诞生和计算机技术的发展。
机器翻译的研究历史课追溯到20世纪四五十年代。
1946年第一台现代电子计算机ENIAC诞生,同一年,美国科学家韦弗(W. Weaver)和英国工程师布斯(A. D. Booth)在讨论电子计算机的应用范围时,提出了利用计算机进行语言自动翻译的想法。
1949年,韦弗(W. Weaver)发表《翻译备忘录》,正式提出机器翻译的思想。
经过六十年的曲折发展,到目前互联网的普遍应用,以及人们对翻译需求的迅猛增长,给机器翻译带来新的发展机遇。
我国相继推出了一系列的机器翻译软件如“译星”、“雅信”、“通译”、“华建”等。
在市场需求的推动下,商用机器翻译系统迈入了实用化阶段,走进了市场,来到了用户面前。
(二)机器翻译的主要方法机器翻译的过程一般可简化为三个阶段:原文分析、原文译文转化和译文生成。
宗成庆统计自然语言处理1一书序言

宗成庆《统计自然语言处理》1一书序言冯志伟我在1996年出版的《自然语言的计算机处理》中,曾经说过:“自然语言处理(Natural Language Processing, NLP)就是利用计算机为工具对人类特有的书面形式和口头形式的语言进行各种类型处理和加工的技术。
”2这个定义是正确的,它的缺点是比较笼统。
我一直不太满意这个定义。
后来,我在1999年出版的《计算机进展》(Advanced in Computers)第47卷上,看到了美国计算机科学家马纳瑞斯(Bill Manaris)在《从人-机交互的角度看自然语言处理》一文给自然语言处理提出的如下定义:“自然语言处理可以定义为研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科。
自然语言处理要研制表示语言能力(linguistic competence)和语言应用(linguistic performance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。
”这个定义的英文如下:“NLP could be defined as the discipline that studies the linguistic aspects of human-human and human-machine communication, develops models of linguistic competence and performance, employs computational frameworks to implement process incorporating such models, identifies methodologies for iterative refinement of such processes/models, and investigates techniques for evaluating the result systems.”3马纳瑞斯的这个定义更加完善,把自然语言处理的研究过程也清楚地反映出来了。
统计机器翻译介绍

统计机器翻译介绍统计机器翻译的基本原理是利用统计学方法来建立两种语言之间的翻译模型。
这种方法不仅可以考虑单词的对应关系,还可以考虑短语、句子甚至整个篇章之间的对应关系。
通过学习大量的双语语料库,统计机器翻译可以自动学习两种语言之间的对应关系,从而实现自动翻译的功能。
统计机器翻译在实际应用中已经取得了很大的成功。
它可以被应用在各种不同的领域,包括互联网翻译、商务翻译、科技翻译等。
通过利用大量的双语语料库,统计机器翻译可以实现高质量的翻译,比如谷歌翻译等就是基于统计机器翻译的系统。
尽管统计机器翻译已经取得了很大的成功,但它也存在一些局限性。
比如对于一些复杂的文本结构或语言之间的差异性处理能力有限,翻译质量可能会有所下降。
此外,由于统计机器翻译是基于大量的数据训练的,对于某些语言对来说可能会面临数据稀缺的问题。
总的来说,统计机器翻译是一种基于数据的翻译模型,通过学习大量的双语语料库来实现自动翻译功能。
虽然它已经取得了很大的成功,但仍然存在一些局限性需要不断改进。
随着技术的不断发展,我们相信统计机器翻译的翻译质量将会不断提高。
统计机器翻译是一种利用大量双语语料库进行翻译的方法,从而实现自动翻译的功能。
它的基本原理是通过统计学方法建立两种语言之间的翻译模型,以及使用这些模型来进行翻译。
统计机器翻译已经被广泛应用于互联网翻译、商务翻译、科技翻译等多个领域,并且在一定程度上取得了成功。
统计机器翻译的核心思想是通过学习大量双语语料库,来建立两种语言之间的对应关系。
这种方法不仅可以考虑单词的对应关系,还可以考虑短语、句子甚至整个篇章之间的对应关系。
通过统计分析这些双语语料库,统计机器翻译系统可以自动学习两种语言之间的翻译规律,并利用这些规律来进行翻译。
这种方法的优势是可以自动处理大规模且复杂的双语数据,并且可以在数据训练后实现高质量的翻译。
在实际应用中,统计机器翻译已经被广泛应用于多个领域。
例如,在互联网翻译领域,谷歌翻译等翻译系统就是基于统计机器翻译的。
冯志伟,1939年4月生,云南省昆明市人,计 - 中国

载《新华书目报》·《科技新书目》第919期,A05版,《科技人物》专栏,2010年12月9日出版乔姆斯基与冯志伟合影(2010年)冯志伟 与数理语言学共舞冯志伟,1939年4月生,云南省昆明市人,计算语言学家,专门从事语言学和计算机科学的跨学科研究。
他先后在北京大学和中国科学技术大学研究生院两次研究生毕业,获双硕士学位。
先后到法国格勒诺布尔理科医科大学、德国夫琅禾费研究院(FhG)新信息技术与通信系统研究所、德国特里尔大学语言文学院、德国康斯坦茨高等技术学院国际术语学和应用语言学中心(CiTaL)、桑夏自然语言处理研究院、韩国科学技术院(KAIST)电子工程与计算机科学系(EECS)学习、工作。
现为国家教育部语言文字应用研究所研究员、博士生导师、学术委员会委员。
跨学科奇才语言学家冯志伟教授是极为罕见的跨学科奇才。
过去的著名语言学家有的只懂社会科学,不懂自然科学;许多人只懂古代汉语、现代汉语或普通语言学,一般只着重研究汉语的语音、词汇、语法或文字等某一个方面的问题,研究的问题和领域比较单一;他们中的一些佼佼者,至多也只懂得两三门外语,视野不够开阔,语言的纵横向对比研究都不够,有一定的局限性。
而冯志伟先生却懂得理科中的数学、物理、化学和计算机科学,又懂得语言学中的古代汉语、现代汉语、文字学、音韵学和普通语言学,深研过汉、英、法、德、俄、日等语言的语音、词汇和语法的自动处理,并把各方面的知识紧密地结合起来综合应用,在计算机上加以实现,成为文理兼通的语言学专家。
冯志伟教授不但在国外著名大学的电子工程与计算机科学系讲授理科的“机器翻译的方法和技术研究”、“自然语言处理的算法研究”、“计算语言学专题研究”等艰深的博士课程,而且还在国内外大学的中文系讲授“汉魏六朝散文”、“唐诗”、“宋词”、“古代汉语”、“现代汉语”、“汉字的历史与结构”等饶有风趣的课程,他还能给学生们辅导英、德、法、俄、日等外国语课程,提高学生们的外语口语表达能力和书面写作能力。
从机器翻译到计算机辅助翻译的发展现状研究

从机器翻译到计算机辅助翻译的发展现状研究何兴建成都体育学院摘要:机器翻译,又称自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。
它是自然语言处理的一个分支,与计算语言学、自然语言理解之间存在着密不可分的关系。
我们所熟知并广泛使用的互联网翻译,包括谷歌翻译、有道翻译、百度翻译等,都是机器翻译服务。
本文从机器翻译的发展历程入手,分析它的优势和不足,并引入计算机辅助翻译进行对比研究。
最后,本文通过引入语料库和大数据的概念,探讨了机器翻译技术后续的发展方向,以便更好地为译者服务。
关键词机器翻译;计算机辅助翻译;语料库;大数据Abstract Machine translation, also known as automatic translation, is a process from a natural source language to another natural target language via computer. As a branch of natural language processing, machine translation has an inseparable relationship with computational linguistics and natural language understanding. Internet translation has widely been used by us. Such as Google Translation, Youdao Translation, Baidu Translation, etc., are all machine translation services. Starting from the development process of machine translation, this paper analyzes its advantages and disadvantages, and then introduces computer aided translation (CAT). Finally, through introducing the concept of corpus and big data, this paper discusses the follow-up development direction of CAT technology, in order that it can give better service for translators.Key words machine translation (MT); computer aided translation (CAD); corpus; big data1. 研究背景:机器翻译简介和发展历程随着国际贸易的发展和经济全球化的崛起,使得市场对专业翻译人才的需求不断增大。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第4章 “基于词的翻译模型”重点介绍了IBM 模型。IBM 模型1只使用了 词汇翻译概率,模型2增加了绝对对齐模型(absolute alignment model),模 型 3 增加了繁衍率模型(fertility model),模型4将 绝 对 对 齐 模 型 替 换 为 相 对 对 齐 模 型(relative alignment model),模型5修正了 模 型 中 的 缺 陷,将 概 率 值 分 配 给 那 些不可能的对齐。
第 一 部 分 讲 述 统 计 机 器 翻 译 的 基 础 知 识 ,介 绍 了 机 器 翻 译 的 历 史 、基 本 语 言 学 知 识 、概 率 论 知 识 等 。
第1章 “绪论”简要叙述了机器翻译发展的历史,特别说明了统计机器翻译 的 背 景 以 及 最 新 发 展 ,介 绍 了 统 计 机 器 翻 译 的 应 用 状 况 ,提 供 了 一 份 丰 富 的 语 言 资源清单。本章着重指出,机器 翻 译 技 术 的 应 用 价 值 将 随 着 翻 译 质 量 的 提 升 而 提 升 ,机 器 翻 译 并 不 要 求 译 文 的 完 美 ,粗 略 的 译 文 也 可 以 传 递 信 息 ,因 此 ,也 是 有 实用价值的。
第2章 “词、句子和语料”介绍了等 基础知识,简要描述了齐夫定律、短语结构语法、依存语法、词汇功能语法、组 合 范畴语法等形 式 化 模 型,特 别 指 出 语 体 和 领 域 的 差 别 会 影 响 统 计 机 器 翻 译 的 效果。
第3章 “概率论”介绍了概率论的 基 本 概 念,如 均 值、方 差、二 项 分 布、正 态 分布、联合概率、条件概率、熵 等。 这 些 概 念 对 于 本 书 后 面 部 分 要 讲 述 的 统 计 机 器翻译非常重要。
第8章 “评测”讲述如何评测机器翻译 系 统 的 性 能。 由 于 源 语 言 中 的 一 个 句子可能有很多不同的正确翻译,因此译文评测是个很困难的问题。 在评测时, 可以提供一些参考译文,但不 能 期 望 机 器 翻 译 系 统 精 确 地 将 机 器 译 文 与 参 考 译 文进行匹配。机器 翻 译 系 统 的 性 能 评 测 的 根 据 是 忠 实 度 (adequacy)和 流 利 度 (fluency)。忠实度用于评测译文中包 含 了 多 少 原 文 要 表 达 的 意 思,流 利 度 用 于 评测译文是否流利。不同的人工评测者在评分时会根据自己的标准给译文打 分 ,因 此 有 必 要 规 范 这 样 的 评 分 使 之 具 有 可 比 性 。 在 评 测 机 器 翻 译 系 统 时 ,除 了 考虑译文质量指标外,还 要 考 虑 翻 译 系 统 的 速 度、规 模、集 成 性 能、领 域 适 应 性 等。在使用人工评测方法对机器翻译系统的机器译文与参考译文进行对比时, 还应考虑单词的准确率和召回率。
2013 年 7 月
外 语 教 学 与 研 究 (外 国 语 文 双 月 刊 )
July 2013
第45卷 第4期 Foreign Language Teaching and Research (bimonthly) Vol.45No.4
《统计机器翻译》述评
杭州师范大学 冯志伟
Philipp Koehn.2009.Statistical Machine Translation.Cambridge:Cam- bridge University Press.xi+446pp.
第5章 “基于短语的翻译模型”介绍了基于短语的统计机器翻译模型,这种 模 型 把 短 语 作 为 翻 译 的 单 元 。 在 短 语 翻 译 表 中 ,短 语 之 间 是 一 一 映 射 的 ,也 可 能 存在调序。短语翻译表可以从 词 对 齐 中 通 过 机 器 学 习 而 自 动 得 到,与 词 对 齐 一 致的所有短语偶对都被添加到短语翻译表中。本章还介绍了一种可以直接从双 语平行语料中自动学习短语对齐的替代方法。在短语翻译表中可能存在调序, 因 此 ,本 章 还 介 绍 了 一 个 简 单 的 基 于 距 离 的 调 序 模 型 ,给 出 了 一 个 词 汇 化 的 调 序 模型,并使用对数线性模型 来 融 合 短 语 模 型 中 不 同 的 模 型 组 件。 在 扩 展 原 始 的 翻 译 模 型 时 ,可 以 引 入 额 外 的 模 型 组 件 ,这 些 组 件 包 括 :双 向 翻 译 概 率 、词 汇 化 加 权 、词 惩 罚 和 短 语 惩 罚 。
· 631 ·
2013 年 外 语 教 学 与 研 究 第 4 期
解 码 器 的 搜 索 图 转 换 为 词 格 (word lattice),就 可 抽 取 出 译 文 ;词 格 还 可 用 来 产 生 n-best的译文列 表。 统 计 机 器 翻 译 的 判 别 式 训 练 属 于 有 监 督 学 习 (supervised learning)。训练时需要 准 备 一 组 源 语 言 的 输 入 句 子 和 与 之 对 应 的 候 选 译 文 集 合,候选译文中至少有一个 被 标 记 为 正 确 的。 任 何 一 个 现 代 统 计 机 器 翻 译 系 统 在 训 练 时 都 包 含 参 数 调 节 过 程 ,用 来 为 重 要 的 系 统 参 数 设 置 最 优 值 ,尤 其 是 对 数 线性模型中的参数权重,用 于 对 相 关 子 模 型 的 分 布 建 模。 当 前 统 计 机 器 翻 译 中 一个富有挑战的研究课题是大规模判别式训练方法。在大规模判别式训练中, 概 率 估 计 完 全 被 特 征 和 特 征 值 替 代 ,因 而 在 这 样 的 模 型 中 ,使 用 的 特 征 数 目 达 数 百万之多。与判别 式 训 练 相 关 的 是 后 验 方 法 (posterior methods),这 种 后 验 方 法主要研究在 最 佳 候 选 译 文 样 本 集 上 的 概 率 分 布,使 用 最 小 贝 叶 斯 风 险 解 码 (minimum Bayes risk decoding),选 择 出 一 个 与 大 多 数 高 概 率 译 文 相 似 的 译 文 。
2.内 容 简 介
本书 作 者 Philipp Koehn 是 英 国 爱 丁 堡 大 学 信 息 学 院 讲 师,他 是 欧 洲 EuroMatrix项目的协调人(EuroMatrix现已发展成 EuroMatrixPlus,Philipp Koehn也参加了这个 项 目 ),他 与 机 器 翻 译 领 域 的 知 名 公 司 如 Systran 和 Asia Online等从事过合作研究,有 十 多 年 的 统 计 机 器 翻 译 经 验,亲 自 见 证 了 统 计 机 器翻译的发展过程,他对于 统 计 机 器 翻 译 的 历 史 和 现 状 有 清 楚 的 了 解。 本 书 不 仅全面介绍了统计机器翻译的 基 础 知 识 和 核 心 方 法,还 探 讨 了 统 计 机 器 翻 译 中 的 一 些 前 沿 研 究 问 题 ,系 统 总 结 了 当 前 统 计 机 器 翻 译 发 展 的 最 新 成 果 ,是 一 本 学 习统计机器翻译的好书。
第三部分讲述统计机器翻 译 的 前 沿 研 究,包 括 判 别 式 训 练 的 方 法 以 及 统 计 机器翻译中整合语言学信息的方法。
第9章 “判别式 训 练”介 绍 判 别 式 训 练 (discriminative training)以 及 对 翻 译 任 务 进 行 建 模 的 方 法 。 判 别 式 训 练 使 用 重 排 序 法 (re-ranking),首 先 利 用 基 线 模型产生候选译文,然后再 使 用 额 外 的 特 征 选 择 出 最 佳 译 文。 把 统 计 机 器 翻 译
第7章 “语言模型”介绍高效使用语言 模 型 的 方 法。 使 用 语 言 模 型 可 为 每 个给定的英语单词序列计算出 一 个 概 率,用 于 表 示 该 序 列 在 英 语 中 被 表 达 的 可 能性,从而帮助机器翻译系 统 产 出 流 利 的 译 文。 可 以 将 语 言 模 型 问 题 分 解 为 一 系列利用n元组的统计信息来预测单词的问题。这样的语言模型叫做马尔可夫 链。在马尔可夫链中,只有前面有限的 n-1个单词状态会影响当前单词的状态, n的大小 叫 做 语 言 模 型 的 阶;大 小 为 1、2 和 3 的 n 元 组 分 别 叫 做 一 元 组 (uni- grams)、二元组(bigrams)和三元组(trigrams)。由于在 有 限 的 训 练 语 料 中 无 法 观察到所有可能的 n元组,必须 处 理 数 据 稀 疏 的 问 题。 可 以 通 过 平 滑 经 验 计 数 的方法来处理数据稀疏的问题。
第6章 “解码”介绍了统计机器翻译中的解码算法,对于一个给定的输入句
· 630 ·
冯 志 伟 《统 计 机 器 翻 译 》述 评
子使用解码算法进行搜索,就 可 以 找 到 最 有 可 能 的 翻 译 结 果。 由 于 搜 索 空 间 具 有指数级的算法复杂度,需 采 用 启 发 式 搜 索 方 法。 本 章 描 述 了 从 输 入 到 输 出 构 建 翻 译 的 过 程 ,并 将 其 作 为 搜 索 算 法 的 动 因 。 在 统 计 机 器 翻 译 中 ,对 于 给 定 的 输 入 句 子 ,必 须 处 理 很 多 翻 译 选 项 ;搜 索 是 建 立 在 一 连 串 的 翻 译 假 设 上 完 成 的 ,从 没 有 翻 译 任 何 单 词 的 空 假 设 开 始 ,进 行 假 设 扩 展 ,以 建 立 新 的 假 设 。 翻 译 假 设 重 组可以减少搜索空间。本章还 提 出 了 一 种 组 织 栈 解 码 的 启 发 式 方 法,根 据 已 经 翻译过的外语单词的数量在假设栈里对翻译假设进行组织。利用剪枝策略对栈 空间进行压缩,介绍了直方 图 剪 枝 和 阈 值 剪 枝 两 种 剪 枝 方 法。 本 章 还 介 绍 了 一 些其他启发式搜索算法,例如,基于覆盖栈的柱搜索算法、A* 搜索 算 法 和 贪 婪 爬 山解码算法。本章最后还介绍了有限状态转换机工具包。