统计机器翻译--基于噪声信道模型--IBM的5个翻译模型74页PPT

合集下载

机器翻译和计算机辅助翻译 ppt课件

机器翻译和计算机辅助翻译  ppt课件

ppt课件
2
一、机器翻译简史
机器翻译的研究历史可以追溯到20世纪四五十年代,学界一般将其划分为如下四个阶 段: 1.开创期(1946-1964)
1954年,美国乔治敦大学(Georgetown University)在IBM公司协同下,用IBM701计算机首次完成了英俄机器翻译试验,向公众和科学界展示了机器翻译的可行性, 从而拉开了机器翻译研究的序幕。 中国开始这项研究也并不晚,早在1956年,国家就把这项研究列入了全国科学工作发 展规划,课题名称是“机器翻译、自然语言翻译规则的建设和自然语言的数学理论”。 1957年,中国科学院语言研究所与计算技术研究所合作开展俄汉机器翻译试验,翻译 了9种不同类型的较为复杂的句子。 从20世纪50年代开始到20世纪60年代前半期,机器翻译研究呈不断上升的趋势。
ppt课件
6
二 机器翻译的优缺点
弊端:很粗糙,使用者必须先作译前编辑;相应地会增加成 本,进而导致成本高于人的翻译。
优点:一、准确无误地完成了翻译定额;二、译文也将随着 语言学家和程序编制人员探索如何更好地处理语言而得到改 进;三、成本也正在稳定下降;四、有助于全世界的学者及 时了解现代发展的情况。
了全球化进程。
提高翻译效率 随着机器翻译研究水平不断提高,翻译领域也取
得了前所未有的成就。在我们的翻译工作中,我们可以借助各种翻译系统 或软件完成翻译任务,这样可以提高翻译的速度和准确度,提高了翻译工作
的效率。
促进其他领域发展 机器翻译涉足数学、计算机科学、语言学、
翻译学等多门学科领域,需要这些学科强劲的发展,丰厚的成果作基础,从 而促进了这些领域的发展。
ppt课件
7
一、尚无法做到确认不同讲话人的等值 语音

Statistical Machine Translation

Statistical Machine Translation

目标语言
English
f
e
一句话 n句话
噪声信道模型
噪声信道模型(The Noisy-Channel Approach)
由定义我们可以看出噪声信道模型所组成的两部分: 1、语言模型(language-model):P(e) 2、翻译模型(translation-model):P(f|e)
噪声信道模型
翻译模型的参数将在讲 IBM模型2的定义中提到
IBM模型2
在介绍IBM模型2之前我们先引入对位变量(Alignments variables)这个概念
通过对对位变量的引入,机器翻译我们可以大致的看做如下的转换: translation
IBM模型2
IBM模型2
引入了对位模型之后就来介绍IBM模型2的内容
IBM模型2
目标模型:
IBM模型2
独立假设:
模型参数
IBM模型2
模型参数
参数估计
在进行参数估计之前我们定一些变量如下:
ห้องสมุดไป่ตู้
单词e与单词f 对齐的次数
法语第i个单词 与英语第j个单 词对齐的次数
单词e与任何法语 单词对齐的次数
英语句子与法 语句子同时出 现的次数
IBM模型1
假设:
总结
统计机器翻译的过程就是将源语言(f)翻译成目标语言(e), 为了求P(e|f)的最大概率利用贝叶斯法则转换成求P(e)与P(f|e), P(e)可通过链式法则求解,在求解P(f|e)的过程中引入了对位向 量概念,通过对位向量将P(f|e)分解成t(f|e)与q(j|i,l,m)的乘积, 通过最大似然估计将t于q的求解转化成次数之间的关系,总体步 骤如下: 1、计算各个参量的次数; 2、通过参量的次数求解t与q; 3、循环步骤1与步骤2,直至t与q收敛; 4、通过t与q求解P(e|f)的最大概率。

基于噪声信道模型统计机器翻译的学习笔记

基于噪声信道模型统计机器翻译的学习笔记

基于噪声信道模型的SMT学习笔记理论翻译系统源语言:e(英语) 目标语言:f(法语) 从f翻译到e本来人们想说e结果在说的过程中受到类似噪声的干扰,结果说出了f。

所以我们必须得将f还原成与e最相似的语句。

这个过程就是噪声信道的模型。

统计机器翻译就是对于给定的f,找到相应的e,使P(e|f)最大,为argmax P(e|f) 。

e通过贝叶斯公式得:P(e|f) =P(e)*P(f|e)/P(f);则argmax P(e|f) = argmax P(e) * P(f|e)。

e eP(f)与e无关,所以P(f)可以忽略。

这样P(e|f)就有两个因素决定(1) P(e),(2) P(f|e);其中P(e)表示e在该语言中的流利度,也就是是否符合该语言的语法规则;P(f|e)表示e翻译成f的概率。

之所以不直接估计P(e|f),主要有两个原因:(1) 可以将e和f分别看作是疾病和症状,那么从e推出f(P(f|e))比较可行,而很难从f推出e(P(e|f))。

(2) 引入P(e),这样翻译出来的语句更像人话。

这样一个SMT系统的任务就分成了三部分:(1) 估计P(e),即语言模型(2) 估计P(f|e),即翻译模型(3) 用一个合适的算法找到一个e使得P(e) * P(f|e)最大(至少是尽可能大)。

翻译模型提供的是一些语言单词,而忽略这些单词之间的相对顺序;语言模型的作用就是找出符合该语言语法规则的顺序。

语言模型估记P(e)的值一般是基于现有的语言“数据库”,该数据库存储的是日常生活中人们所说的一些语句,这些语句通常都符合语法规则。

num(k) = k在该数据库中出现的次数。

(1)P(e)=num(e) / 数据库中语句的总数。

但是会出现一个不好的现象就是:e是一条好的语句,但是没在该数据库中出现过,所以其次数为0,从而P(e)也为0。

这样e就会被认为是差语句而被抛弃。

为了解决这个问题将引入一个平滑系数。

统计机器翻译

统计机器翻译

统计机器翻译来自维基百科,免费的百科全书统计机器翻译(SMT)是一种机器翻译的模型,译文在统计模式的基础上生成,而统计模式所需的参数来自于对双语文本语料库的分析。

机器翻译中基于统计的方法与基于规则的方法和基于实例的方法相对。

统计机器翻译的最初想法由Warren Weaver在1949年〔1〕提出,其中包括对Claude Shannon 的信息理论。

统计机器翻译在1991年时由IBM公司的托马斯•J•沃森研究中心的研究者们再次提出,并且对近些年来重新唤起人们对机器翻译的兴趣作出重大贡献。

到2006年为止,它已经是研究最广泛的机器翻译模型。

优势统计机器翻译相对于最常被人们谈论的传统模型的优势如下:•更好地利用资源o存在着大量可被机器读取的格式的自然语言。

o通常,统计机器翻译系统不是针对于任何具体的语言配对。

o基于规则的翻译系统需要对语言规则的手动开发,这样不仅成本很高,而且通常对其它语言不适用。

•更多的自然语言翻译资料统计机器翻译的想法来自于信息理论。

本质上来说,文档的翻译在基于可能性的p(e | f),其中的本国语言(例如英语)字符“e”就是对外国语言(例如法语)中字符“f”的翻译。

一般来说,这些可能性都是利用参数估算的技术实现。

将贝叶斯法则应用于p(e | f)这个外语字符译成母语字符的可能性,会得到这一可能性,其中的翻译模型p(f | e)表示母语字符是对外语字符的翻译的可能性,而语言模型p(e)表示那个母语字符出现的可能性。

从算术上来说,发现最佳译文也就是选取出现概率最高的那个。

要严格执行这一过程就必须对母语中所有字符e *进行穷举搜索。

有效搜索就是机器解码器要做的工作,利用外语字符、启发式的或其它方法来限制搜索范围,同时保证合意的译文质量。

质量和所耗时间之间的这种交换在语音识别方面也可以看到。

翻译系统不能将所有的母语字符串和它们的译文都存储起来,所以只能对文档进行逐句翻译,但即使这样也还是不够的。

统计机器翻译

统计机器翻译

统计机器翻译熊德意,何中军,刘群1.概述统计机器翻译,又称为数据驱动(data-driven)的机器翻译。

其思想其实并不新鲜。

早在1949年,Weaver发表的以《翻译》为题的备忘录中就提出:“当我阅读一篇用俄语写的文章的时候,我可以说,这篇文章实际上是用英语写的,只不过它是用另外一种奇怪的符号编了码而已,当我在阅读时,我是在进行解码。

”这实际上就是基于信源信道思想的统计机器翻译方法的萌芽。

早期的机器翻译系统通常都建立在对词类和词序分析的基础之上,分析中经常使用统计方法,只是后来以Chomsky转换生成语法为代表的理性主义方法兴起后,统计机器翻译方法几乎不再被人使用。

上世纪90年代初期,IBM的Brown等人提出了基于信源信道思想的统计机器翻译模型,并且在实验中获得了初步的成功,引起了研究者广泛的关注和争议。

不过由于当时计算能力等多方面限制,真正开展统计机器翻译方法研究的人并不多,统计机器翻译方法是否真正有效还受到人们普遍的怀疑。

基于句法的方法词源语言目标语言图1统计机器翻译金字塔但是,进入21世纪以来,在学习、生活和工作中,人们日益发现,不同语言之间的交流越来越频繁。

无论是口语还是书面形式的交流,无不对机器翻译提出了更加严峻迫切的要求。

而另一方面,计算能力也获得了突飞猛进,互联网的发展和普及,以及双语国家、联合国的多语存档,为我们提供了数以千万句的双语平行语料,这些为统计机器翻译方法奠定了必要的基础。

于是,越来越多的研究人员开始投入到统计机器翻译的研究中,并取得了成功(在美国国家标准和技术研究所(NIST)信息部语音组主持的机器翻译国际评测1中,从2002年到2005年,统计机器翻译连续四年取得好成绩[1]),统计方法也逐渐成为国际上机器翻译研究的主流方法之一。

目前统计机器翻译方法主要分为三类:第一类是基于词的(word-based ),以单词作为翻译的基本单位,不考虑上下文信息和人类语言学知识;第二类是基于短语的(phrase-based),它将翻译的粒度从单词扩展到短语,能够较好的解决局部上下文依赖问题,提高了翻译的流利度和准确率;第三类是基于句法的(syntax-based ),将句法结构信息引入翻译过程,这种方法是当前研究的一个热点。

机器翻译实例分析PPT课件

机器翻译实例分析PPT课件

这次创新研修我只是对两个比较有名气,口碑好,业界公 认数据库比较全面的在线翻译网站进行了评测。除了这两个网 站,还有很多大大小小的网站加入了在线翻译的竞争行列中, 竞争的结果无疑会促进在线机器翻译技术的发展,使得机器翻 译在效率和准确率上再上一个台阶。
22
2020/1/15
就已有的成就来看,在线翻译工具的译文质量离机器翻译的 终极目标仍相差甚远。中国数学家、语言学家周海中教授曾 在论文《机器翻译五十年》中指出:要提高机译的质量,首 先要解决的是语言本身问题而不是程序设计问题;单靠若干程 序来做机译系统,肯定是无法提高机译质量的。同时,他还 指出:在人类尚未明了大脑是如何进行语言的模糊识别和逻 辑判断的情况下,机译要想达到“信、达、雅”的程度是不可能 的。这也是制约机译质量提高的一大瓶颈。
4.在中世纪,欧洲教堂采用大的内部空间和吸声系数低的墙面,以产生长混响 声,造成神秘的宗教气氛。 B:In the middle ages, European church with large inner space and the sound absorption coefficient of low wall, in order to produce growth and mixing sound, resulting in the religious atmosphere of the mysterious. G:In the Middle Ages, European churches with large interior space and low absorption coefficient of the wall, in order to generate long reverberation, resulting in a mysterious religious atmosphncient Romans’【是创造了罗马人】,严重失误。 ②‘壮丽’谷歌采用了‘stunning’而查常见为‘壮丽’。

统计语言模型

统计语言模型

例子
p(我是一个学生) p(我,是,一, 个,学生) p(我) p(是 | 我) p(一 | 我,是) p(个 | 我,是,一) p(学生 | 我,是,一, 个)
Markov链
有限的记忆能力
不考虑太“旧”的历史
只记住前n-1个词,
称为n-1阶Markov链近似
这里:C()为 在训练语料库中出现次数。

模型作用:计算概率。P(wn
|
w1w2 ... wn 1 )

c(w1w2...wn ) c( w1w2 ... wn 1 )
模型训练:在训练语料库中统计获得n-gram的频度信息
参数训练系统
语料 库
分词
分词 语料
参数 估计
语言 模型
系统 词表
wi i n1
的出现概率为:
p GT
(wiin1
)

r*

r*
r 0
。 nr 不能为零,本身需要平滑。
Good-Turing 估计公式中缺乏利用低元模型对高元模型进行插值的思想,它通
常不单独使用,而作为其他平滑算法中的一个计算工具。
3、线性插值平滑 (Linear Interpolation)
p(我是一个学生) p(我,是,一, 个,学生) p(我) p(是 | 我) p(一 | 我,是) p(个 | 是,一) p(学生 | 一, 个)
N-gram模型
N-gram模型:相当于n-1阶Markov链。
“n-gram” = n个词构成的序列, w 1w 2...w n
I
I
P(O)
I
信源-信道模型的应用
信源-信道模型

(2) 统计机器翻译

(2)  统计机器翻译
NLPR, CAS-IA 2006.5.9 宗成庆:《自然语言理解》讲义
10.2.1 统计翻译基本原理
噪声信道模型
一种语言T (信道意义上的输入,翻译意义上的目标 语言) 由于经过一个噪声信道而发生变形,从而在信道的 另一端呈现为另一种语言 S (信道意义上的输出,翻译意 义上的源语言)。翻译问题实际上就是如何根据观察到的 S,恢复最为可能的T 问题。这种观点认为,任何一种语 言的任何一个句子都有可能是另外一种语言中的某个句子 的译文,只是可能有大有小[Brown et. al, 1990]。 噪声信道 T
NLPR
Le(1) renard(2) rapide(2) saut(4) par(5) –(6) dessus(7) le(8) chien(9) parasseux(10)
P(S , A | T ) =
ε
(8 + 1)
10
× [ p( Le | The) × p(renard | fox) × L× p( parasseux| lazy)]
NLPR
Le1 programme2
NLPR, CAS-IA
a3
été4
mis5 en6 application7
宗成庆:《自然语言理解》讲义
2006.5.9
10.2.1 统计翻译基本原理
不妨,我们用A(S, T) 表示源语言句子S与目
NLPR
标语言句子 T 之间所有对位关系的集合。在目标 语言句子 T 的长度(单词的个数)为 l,源语言句 子S的长度为m 的情况下,T和S的单词之间有l×m 种不同的对应关系。由于一个对位是由词之间的 对应关系决定的,并且不同的对应方式应该是 2l×m的子集,因此,A(S, T)中共用2l×m 种对位。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
相关文档
最新文档