统计机器翻译简介57页PPT文档
统计机器翻译

统计机器翻译熊德意,何中军,刘群1.概述统计机器翻译,又称为数据驱动(data-driven)的机器翻译。
其思想其实并不新鲜。
早在1949年,Weaver发表的以《翻译》为题的备忘录中就提出:“当我阅读一篇用俄语写的文章的时候,我可以说,这篇文章实际上是用英语写的,只不过它是用另外一种奇怪的符号编了码而已,当我在阅读时,我是在进行解码。
”这实际上就是基于信源信道思想的统计机器翻译方法的萌芽。
早期的机器翻译系统通常都建立在对词类和词序分析的基础之上,分析中经常使用统计方法,只是后来以Chomsky转换生成语法为代表的理性主义方法兴起后,统计机器翻译方法几乎不再被人使用。
上世纪90年代初期,IBM的Brown等人提出了基于信源信道思想的统计机器翻译模型,并且在实验中获得了初步的成功,引起了研究者广泛的关注和争议。
不过由于当时计算能力等多方面限制,真正开展统计机器翻译方法研究的人并不多,统计机器翻译方法是否真正有效还受到人们普遍的怀疑。
基于句法的方法词源语言目标语言图1统计机器翻译金字塔但是,进入21世纪以来,在学习、生活和工作中,人们日益发现,不同语言之间的交流越来越频繁。
无论是口语还是书面形式的交流,无不对机器翻译提出了更加严峻迫切的要求。
而另一方面,计算能力也获得了突飞猛进,互联网的发展和普及,以及双语国家、联合国的多语存档,为我们提供了数以千万句的双语平行语料,这些为统计机器翻译方法奠定了必要的基础。
于是,越来越多的研究人员开始投入到统计机器翻译的研究中,并取得了成功(在美国国家标准和技术研究所(NIST)信息部语音组主持的机器翻译国际评测1中,从2002年到2005年,统计机器翻译连续四年取得好成绩[1]),统计方法也逐渐成为国际上机器翻译研究的主流方法之一。
目前统计机器翻译方法主要分为三类:第一类是基于词的(word-based ),以单词作为翻译的基本单位,不考虑上下文信息和人类语言学知识;第二类是基于短语的(phrase-based),它将翻译的粒度从单词扩展到短语,能够较好的解决局部上下文依赖问题,提高了翻译的流利度和准确率;第三类是基于句法的(syntax-based ),将句法结构信息引入翻译过程,这种方法是当前研究的一个热点。
机器翻译实例分析PPT课件

这次创新研修我只是对两个比较有名气,口碑好,业界公 认数据库比较全面的在线翻译网站进行了评测。除了这两个网 站,还有很多大大小小的网站加入了在线翻译的竞争行列中, 竞争的结果无疑会促进在线机器翻译技术的发展,使得机器翻 译在效率和准确率上再上一个台阶。
22
2020/1/15
就已有的成就来看,在线翻译工具的译文质量离机器翻译的 终极目标仍相差甚远。中国数学家、语言学家周海中教授曾 在论文《机器翻译五十年》中指出:要提高机译的质量,首 先要解决的是语言本身问题而不是程序设计问题;单靠若干程 序来做机译系统,肯定是无法提高机译质量的。同时,他还 指出:在人类尚未明了大脑是如何进行语言的模糊识别和逻 辑判断的情况下,机译要想达到“信、达、雅”的程度是不可能 的。这也是制约机译质量提高的一大瓶颈。
4.在中世纪,欧洲教堂采用大的内部空间和吸声系数低的墙面,以产生长混响 声,造成神秘的宗教气氛。 B:In the middle ages, European church with large inner space and the sound absorption coefficient of low wall, in order to produce growth and mixing sound, resulting in the religious atmosphere of the mysterious. G:In the Middle Ages, European churches with large interior space and low absorption coefficient of the wall, in order to generate long reverberation, resulting in a mysterious religious atmosphncient Romans’【是创造了罗马人】,严重失误。 ②‘壮丽’谷歌采用了‘stunning’而查常见为‘壮丽’。
(2) 统计机器翻译

10.2.1 统计翻译基本原理
噪声信道模型
一种语言T (信道意义上的输入,翻译意义上的目标 语言) 由于经过一个噪声信道而发生变形,从而在信道的 另一端呈现为另一种语言 S (信道意义上的输出,翻译意 义上的源语言)。翻译问题实际上就是如何根据观察到的 S,恢复最为可能的T 问题。这种观点认为,任何一种语 言的任何一个句子都有可能是另外一种语言中的某个句子 的译文,只是可能有大有小[Brown et. al, 1990]。 噪声信道 T
NLPR
Le(1) renard(2) rapide(2) saut(4) par(5) –(6) dessus(7) le(8) chien(9) parasseux(10)
P(S , A | T ) =
ε
(8 + 1)
10
× [ p( Le | The) × p(renard | fox) × L× p( parasseux| lazy)]
NLPR
Le1 programme2
NLPR, CAS-IA
a3
été4
mis5 en6 application7
宗成庆:《自然语言理解》讲义
2006.5.9
10.2.1 统计翻译基本原理
不妨,我们用A(S, T) 表示源语言句子S与目
NLPR
标语言句子 T 之间所有对位关系的集合。在目标 语言句子 T 的长度(单词的个数)为 l,源语言句 子S的长度为m 的情况下,T和S的单词之间有l×m 种不同的对应关系。由于一个对位是由词之间的 对应关系决定的,并且不同的对应方式应该是 2l×m的子集,因此,A(S, T)中共用2l×m 种对位。
机器翻译基础ppt课件

1
1.2.1 什么是机器翻译?
• 机器翻译(machine translation),又称 机译(MT),是利用计算机把一种自然语 言转变成另一种自然语言的过程。用以 完成这一过程的软件叫做机器翻译系统。
– 文本机器翻译 – 语音机器翻译
2
1.2.1 什么是机器翻译?
• 机器辅助翻译(Machine Aided Translation 或Computer Aided Translation,简称MAT 或CAT)
机器翻译的未来可以概括为: • 前途光明,道路曲折 • 没有最好,只有更好 • 路漫漫兮,其修远兮
16
1.3 机器翻译路在何方?
• 危机 机器翻译比起10年前,可以说相当繁荣了。但 是在这繁荣的后面,却存在着危机。前面说到 的ALPAC报告曾给机器翻译带来的创伤如今似 乎已被抚平了。但实际上它的阴影始终会时不 时地再出现在机译研究者的头上。如今随着有 越来越多的机译系统走向市场,政府部门感到 在这种情况下如果还要投资攻关似乎有点名不 正言不顺了。而商家则只是想现在该是把现成 的技术包装包装就可以赚钱的时候了。
17
1.3 机器翻译路在何方?
• 研究者的尴尬: “你估计开发出产品要多长时间?你的系统正确
率如何?”. 如何回答?“正确率大约在百分之五十左右”?
18
1.3 机器翻译路在何方?
• 挑剔者的挖苦与讽刺: "MT?不是machine translation,而是mad translation (疯子的翻译) " "满篇英文难不住,满篇中文看不懂"
20
1.3.1 机器翻译与人工翻译的区别
机译过程: • 一句一句处理,处理第一句时不知道第二句的
基于统计的机器翻译ppt课件

例句:We do chicken right.
1.我们做鸡是对的。 2.我们做鸡正点耶 。 3.我们就是做鸡的,我们有做鸡的权利。 4.我们只做鸡的右半边。 5.我们可以做鸡,对吧? 6.我们行使了鸡的权利。 7.我们只做右边的鸡。 8.我们让鸡向右看齐。 9.我们只做正版的鸡! 10.只有朝右才是好鸡。 11.我们有鸡的权利! 12.只有我们可以做鸡! 13.我们“正在”做鸡好不好? 14.向右看,有鸡。 15.我们让鸡变右撇子。 16.我们一定要把鸡打成右派! 17.我们做的是“右派”的鸡!(麦当劳做的是“左派”的鸡!) 18.我们只做右撇子鸡! 19.我们干鸡的右边。 20.我们把鸡搞正!(原来是 歪的) 21.我们“躲”在鸡的右怀里。 22.我们做鸡,怎么啦 ? 23.鸡的左边留给麦当劳干。 24.我们知道怎么做鸡。 25.我们知道如何做“鸡”。 26.鸡做得对! 27.你知道我们正在做鸡。 28.我们只做正点的鸡! 29 我们烹鸡的方式最正确。/ 我们是烹鸡专家。
TM所面对的用户通常是“专家”,既懂双语,又懂专业。
挑剔者的挖苦与讽刺: “MT?不是machine translation, 而是mad translation(疯子的翻译)”
应用:Google 的在线翻译已为人熟知,其背后的技术即为基于统计的机 器翻译方法,基本运行原理是通过搜索大量的双语网页内容,将其作为 语料库,然后由计算机自动选取最为常见的词与词的对应关系,最后给 出翻译结果。 此外,常用的,基于统t提供的一项文段和网页全文翻译功能网站,作 为Bing服务品牌的一部分。
基本思想:在已经收集的双语实例库中找出 与待翻译部分最相似的翻译实例,再对实例 的译文通过替换,删除或增加等一系列变形 操作,实现翻译。
机器翻译简介 整理页PPT文档

2.受挫期(1964-1975)
1964年,为了对机器翻译的研究进展作出评价,美国科学 院成立了语言自动处理咨询委员会(Automatic Language Processing Advisory Committee,简称ALPAC委员会), 开始了为期两年的综合调查分析和测试。
1966年11月,该委员会公布了一个题为《语言与机器》 的报告(简称ALPAC报告),该报告全面否定了机器翻译 的可行性,并建议停止对机器翻译项目的资金支持。这一报 告的发表给了正在蓬勃发展的机器翻译当头一棒,机器翻译 研究陷入了近乎停滞的僵局。无独有偶,在此期间,中国爆 发了“十年文革” ,基本上这些研究也停滞了。机器翻译 步入萧条期。
MT, the abbreviation of machine translation, is a sub-field of computational linguistics that investigates the use of software to translate text or speech from one natural language to another.
例1:The sight and sound of our jet planes filled me with special longing.
科智系统:我们的喷气式飞机的情景和声音使我充满 特别的渴望。
功学系统:我们的喷射机的景象和声音充满我以(和) 特别的longing。
参考译文:看到我们的喷气式飞机,听到隆隆的机声, 令我特别神往。
例4:I had a car stolen yesterday. 金山快译:我昨天偷一辆汽车。 东方快车:我把了一辆汽车昨天被偷窃。 例5:I used to have three cars. I couldn’t keep them all in my small
机器翻译简介整理PPT共51页

机器翻译简介整理
21、没有人陪你走一辈子,所以你要 适应孤 独,没 有人会 帮你一 辈子, 所以你 要奋斗 一生。 22、当眼泪流尽的时候,留下的应该 是坚强 。 23、要改变命运,首先改变自己。
24、勇气很有理由被当作人类德性之 首,因 为这种 德性保 证了所 有其余 的德性 。--温 斯顿. 丘吉尔 。 25、梯子的梯阶从来不是用来搁脚的 ,它只 是让人 们的脚 放上一 段时间 ,以便 让别一 只脚能 够再。 ——德 谟克利 特 67、今天应做的事没有做,明天再早也 是耽误 了。——裴斯 泰洛齐 68、决定一个人的一生,以及整个命运 的,只 是一瞬 之间。 ——歌 德 69、懒人无法享受休息之乐。——拉布 克 70、浪费时间是一桩大罪过。——卢梭
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
NLP课题组例会报告
2002-12-6
Head Transducer MT (1)
Head Transducer(中心词转录机)是一 种Definite State Automata(有限状态自 动机) 与一般的有限状态识别器的区别:
每一条边上不仅有输入,而且有输出; 不是从左至右输入,而是从中心词往两边输
统计机器翻译的优缺点
优点
无需人工编写规则,利用语料库直接训练得到机器 翻译系统;(但可以使用语言资源)
系统开发周期短; 鲁棒性好; 译文质量好;
缺点
时空开销大; 数据稀疏问题严重; 对语料库依赖性强; 算法研究不成熟。
NLP课题组例会报告
2002-12-6
基于平行概率语法的统计机器 翻译模型
链语法:可以处理长距离依赖
PCFG(要使用句法标记)
NLP课题组例会报告
基于平行概率语法的统计机器翻译模型 基于信源信道思想的统计机器翻译模型
IBM的Peter Brown等人首先提出 目前影响最大 几乎成为统计机器翻译的同义词
基于最大熵的统计机器翻译模型
源于基于特征的自然语言理解 Och提出,获ACL2019最佳论文
NLP课题组例会报告
2002-12-6
入
NLP课题组例会报告
2002-12-6
Head Transducer MT(2)
例子:一个可以将任何{a,b} 组成的串倒置的Head Transducer
a:a 0:0
a:a -1:+1
b:b 0:0
b:b -1:+1
NLP课题组例会报告
2002-12-6
Head Transducer MT(3)
比赛星期三开始。 The game will start on Wednesday。
NLP课题组例会报告
2002-12-6
Inversion Transduction
Grammar(2)
规则形式:
A→[BC] A→<BC> A → x/y
产生源语言和目标语言串分别为:
BC BC:词序相同 BC CB:词序交换 x y:词典
语言模型反映“ S 像一个句子”的程度:流利 度
翻译模型反映“T像S”的程度:忠实度
联合使用两个模型效果好于单独使用翻译模型, 因为后者容易导致一些不好的译文。
NLP课题组例会报告
2002-12-6
ቤተ መጻሕፍቲ ባይዱ
语言模型与翻译模型
考虑汉语动词“打”的翻译:有几十种对应的 英语词译文:
打人,打饭,打鱼,打毛衣,打猎,打草稿,……
所有的语言知识(词典、规则)都表现 为Head Transducer; Head Transducer可以嵌套:一个Head Transducer的边是另一个的识别结果; 纯统计的训练方法;对齐的结果是依存 树:不使用词性和短语类标记; Chart句法分析器。
NLP课题组例会报告
2002-12-6
Inversion Transduction Grammar(1)
程。
注意,源语言S是噪声信道的输入语言,目标 语言T是噪声信道的输出语言,与整个机器翻 译系统的源语言和目标语言刚好相反。
NLP课题组例会报告
2002-12-6
统计机器翻译基本方程式
Sarm gP a(S x )P (T|S)
S
P.Brown称上式为统计机器翻译基本方程式
语言模型:P(S) 翻译模型:P(T|S)
三个问题:
语言模型P(S)的参数估计 翻译模型P(T|S)的参数估计 解码(搜索)算法
NLP课题组例会报告
2002-12-6
语言模型
把一种语言理解成是产生一个句子的随机 事件
语言模型反映的是一个句子在一种语言中 出现的概率
语言模型
N元语法 P(S)=p(s0)*p(s1|s0)*…*p(Sn|Sn-1…Sn-N)
统计机器翻译简介
NLP课题组例会报告
刘群 liuqunict.ac
2002-12-6
统计机器翻译方法的特点
利用语料库作为知识来源
区别于规则方法: 无需人工编写规则
建立完整的统计模型
区别于实例方法或模板方法: 必须为整个翻译过程建立统计模型
NLP课题组例会报告
2002-12-6
统计机器翻译的分类
链接约束:源语言骨架和目标语言骨架的非终 结符子结点通过使用相同的序号建立对应关系, 具有对应关系的非终结符互为翻译。
NLP课题组例会报告
2002-12-6
信源-信道模型
P(S)
S
P(T|S)
T
假设目标语言文本T是由一段源语言文本S经过
某种奇怪的编码得到的,那么翻译的目标就是
要将T 还原成S,这也就是就是一个解码的过
如果直接采用翻译模型,就需要根据上下文建 立复杂的上下文条件概率模型
如果采用信源-信道思想,只要建立简单的翻 译模型,可以同样达到目标词语选择的效果:
翻译模型:不考虑上下文,只考虑单词之间的翻译 概率
语言模型:根据单词之间的同现选择最好的译文词
NLP课题组例会报告
2002-12-6
统计机器翻译的三个问题
基本思想
两种语言建立一套平行的语法规则,
规则一一对应 两套规则服从同样的概率分布
句法分析的过程决定了生成的过程
主要模型
Alshawi的基于Head Transducer的MT模型 吴德恺的Inverse Transduction Grammar(ITG) Takeda的Pattern-based CFG for MT
NLP课题组例会报告
2002-12-6
Pattern-based CFG for
MT (2)
中心词约束:对于上下文无关语法规则中右部 (子结点)的每个非终结符,可以指定其中心 词;对于规则左部(父结点)的非终结符,可 以直接指定其中心词,也可以通过使用相同的 序号规定其中心词等于其右部的某个非终结符 的中心词;
NLP课题组例会报告
2002-12-6
Pattern-based CFG for
MT (1)
每个翻译模板由一个源语言上下文无关 规则和一个目标语言上下文无关规则 (这两个规则称为翻译模板的骨架), 以及对这两个规则的中心词约束和链接 约束构成;
举例:
S:2 → NP:1 岁:MP:2 了 ──────────── S:be → NP:1 be year:NP:2 old