(2) 统计机器翻译
机器翻译的发展历程

机器翻译的发展历程机器翻译(Machine Translation,简称MT)是指利用计算机和相关的技术,将一种语言的文本自动转化为另一种语言的文本的过程。
它的发展历程可以概括为以下几个阶段:1. 早期阶段机器翻译的起源可以追溯到20世纪50年代。
当时,计算机还处于早期阶段,科学家们开始尝试利用计算机来进行翻译。
早期的机器翻译系统基于规则和字典,通过对源语言和目标语言之间的语法和词汇知识进行编码,来实现自动翻译。
尽管这些系统存在很多限制,但为机器翻译的发展奠定了基础。
2. 统计机器翻译阶段20世纪90年代,随着计算能力的提升和大规模语料库的建立,统计机器翻译(Statistical Machine Translation,简称SMT)成为主流。
SMT基于大量的双语平行语料,通过统计模型研究源语言和目标语言之间的概率分布,从而实现翻译。
SMT取得了很大的突破,并在实际应用中取得了一定的成功。
3. 神经机器翻译阶段在近年来,随着深度研究的兴起,神经机器翻译(Neural Machine Translation,简称NMT)成为机器翻译的新热点。
NMT使用神经网络模型,通过端到端的研究方法进行翻译。
与传统的SMT相比,NMT能够更好地处理句子的结构和语义,翻译质量有了显著提升。
4. 强化研究和迁移研究近年来,强化研究和迁移研究等技术被应用于机器翻译中,进一步提升了翻译质量和效果。
强化研究可以通过与环境的交互研究,提高翻译系统的自主决策能力。
迁移研究则可以将已经研究到的知识和模型迁移到新的任务中,从而提高机器翻译的效率和准确性。
5. 基于预训练模型的机器翻译最近,基于预训练模型的机器翻译方法逐渐受到重视。
这些方法利用大规模的无标注语料进行预训练,然后通过微调的方式进一步优化翻译质量。
这种方法在一些任务和语言对上已经取得了很好的效果。
总的来说,机器翻译经历了从规则和字典到统计模型,再到神经网络模型的发展过程。
人工智能的几大领域及发展方向

人工智能的几大领域及发展方向人工智能(Artificial Intelligence,简称AI)是指机器能够模拟和实现人类智能的一门技术。
它涉及到许多领域,包括机器学习、数据挖掘、自然语言处理、计算机视觉等。
随着科技的发展和应用场景的不断扩展,人工智能在社会生活的各个领域中都起到越来越重要的作用。
本文将对人工智能的几大领域及发展方向进行探讨。
一、机器学习机器学习是人工智能的核心技术之一,它的主要任务是让计算机通过自我学习提高预测或执行的准确性。
它可以分为监督式学习、无监督式学习、半监督式学习和强化学习四个方向。
1.监督式学习监督式学习是指给计算机输入一组数据和对应的“正确答案”,让计算机通过学习找到数据中的规律,以准确预测未知数据的“正确答案”。
例如,当我们输入一组照片并给出它们的标签(照片里是狗还是猫),让计算机学习后,计算机会在看到新的照片时自动识别出照片中的是狗还是猫。
2.无监督式学习无监督式学习是指不给计算机输入“正确答案”,而是通过学习数据间的相关性和差异性找到其中规律。
例如,当我们输入一组照片但不指定它们的标签,让计算机学习后,计算机会自己找到其中相似的照片并进行分类。
3.半监督式学习半监督式学习是指给计算机输入一部分数据和对应的“正确答案”,另一部分数据没有“正确答案”,让计算机通过学习找到数据中的规律,以预测这部分数据的“正确答案”。
例如,当我们给出一部分照片和它们的标签,另一部分给出照片但没有标签,让计算机学习后,计算机会通过学习其中的规律来对未标记的照片进行分类。
4.强化学习强化学习是指让计算机在不断的试错中,通过不断地调整行动策略,从而找到最优的决策方案。
例如,让计算机在玩棋类游戏时不断地进行尝试,通过不断地调整棋谱,从而提升计算机在玩棋类游戏中的水平。
随着技术的发展,机器学习在金融、医疗、农业、工业制造等领域都有着广泛的应用,未来机器学习将会越来越成为人工智能的基石。
二、自然语言处理自然语言处理(Natural Language Processing,简称NLP)是指让计算机能够理解人类的语言,并能够像人一样产生和使用语言的一门技术。
统计机器翻译

统计机器翻译简介统计机器翻译(Statistical Machine Translation,SMT)是一种基于统计模型的机器翻译方法,是目前最常用的机器翻译方法之一。
它基于语言模型、翻译模型和调序模型这三项组成的模型对源语言句子进行翻译。
统计机器翻译通过统计分析大量已经人工翻译好的双语平行语料库,从中推算出最适合当前句子的翻译结果。
工作流程统计机器翻译的工作流程可以分为以下几个步骤:1.数据准备:准备双语平行语料库以及目标语言的语言模型训练数据。
2.训练语言模型:将目标语言的单语数据进行训练,产生目标语言的语言模型。
3.训练翻译模型:使用双语平行语料库训练翻译模型,建立翻译模型。
4.训练调序模型:根据双语平行语料库训练调序模型,建立调序模型,用于调整翻译结果的顺序。
5.解码:使用建立好的模型对源语言句子进行翻译,生成目标语言句子。
模型介绍在统计机器翻译中,语言模型(Language Model,LM)用于衡量目标语言句子的串联概率。
翻译模型(Translation Model,TM)用于衡量将源语言句子翻译为目标语言句子的准确性。
调序模型(Reordering Model)用于调整翻译结果中词语的顺序。
语言模型通常是通过n-gram算法来建立的,它可以计算一个句子的概率。
翻译模型通常使用条件概率来衡量两个词序列之间的翻译概率。
调序模型通常是对翻译结果中的词语进行排序,以获得较为自然的翻译结果。
优缺点统计机器翻译的优点包括以下几个方面:1.算法成熟:统计机器翻译方法经过多年的发展和研究,已经成为机器翻译领域的主流方法,其算法相对成熟稳定。
2.对语境进行考虑:统计机器翻译方法通过训练大量平行语料库,可以更好地考虑源语言句子和目标语言句子之间的上下文关系,从而得到更准确的翻译结果。
3.可解释性强:统计机器翻译方法基于统计模型,可以解释每个词汇或短语的翻译概率,对于调试和分析翻译结果非常有用。
然而,统计机器翻译也存在一些缺点:1.对平行语料库的依赖性强:统计机器翻译方法需要大量的平行语料库进行训练,因此对于某些语种或领域的翻译任务,可能由于缺乏足够的平行语料库而表现不佳。
机器翻译技术的发展历程

机器翻译技术的发展历程随着全球化和人们对跨国交流的需求增加,翻译行业成为了不可替代的一部分。
然而,传统的人工翻译方式在效率和成本方面都存在问题。
因此,机器翻译技术的发展成为了必不可少的一项工作。
那么,机器翻译技术的发展历程是怎样的呢?第一阶段:早期机器翻译技术20世纪50年代,人们开始尝试用计算机技术进行翻译。
这些早期的机器翻译系统主要基于词汇和语法规则的匹配,采用的是基于结构的翻译方法。
这种方法是基于语言结构,将输入的原文分解为词汇、短语和句子,再通过规则和词典来进行翻译。
然而,这种方法的局限性非常大,只能进行简单的翻译,并且容易失真。
因此,它很快就被放弃了。
第二阶段:统计机器翻译技术80年代,随着计算机技术和语言学的发展,机器翻译技术迎来了第二个发展阶段。
这一阶段的核心思想是基于统计的方法,即通过大量的平行语料库来训练和提高机器翻译的效果。
这种方法是基于数据的,根据语言间的概率关系来进行翻译。
因此,统计机器翻译技术可以处理更加复杂的语言结构和语义关系,并且在一定程度上能够实现准确的翻译。
第三阶段:深度学习翻译技术近年来,随着深度学习技术的发展,机器翻译技术又迈入了一个新的阶段。
深度学习是一种基于神经网络的机器学习技术,其核心思想是通过大量数据的训练,来提高机器的预测和判断能力。
因此,深度学习翻译技术可以更加准确地理解和翻译语言。
现在的机器翻译技术采用的是深度学习算法中的神经网络模型,它可以处理更加复杂的语言语义和上下文信息,并且拥有更高的翻译准确率。
另外,深度学习技术也可以对输入和输出的数据进行预处理,从而达到更好的翻译效果。
未来展望随着机器翻译技术的不断发展,人工对机器翻译的干预将会越来越少,机器翻译可以做到更加准确和快速。
另外,随着语音识别和自然语言处理技术的不断发展,机器翻译也将更加普及,成为日常生活和商业领域中不可缺少的一环。
总之,机器翻译技术的发展已经经历了从基于规则到基于统计再到基于深度学习的三个阶段。
机器翻译技术教程及常见问题解答

机器翻译技术教程及常见问题解答一、机器翻译技术教程机器翻译(Machine Translation, MT)指利用计算机软件将一种语言的文字自动转化成另一种语言的文字的技术。
它在跨语言沟通、文本翻译等领域有着广泛的应用。
本文将介绍机器翻译的基本原理和常见的机器翻译技术。
1. 基本原理机器翻译的基本原理是将一种语言的句子转化为另一种语言的句子。
它通过对源语言句子的分析和理解,然后根据目标语言的语法和语义规则生成对应的句子。
具体而言,机器翻译可以分为以下几个步骤:(1)句法分析:对源语言句子进行分词、词性标注等处理,以获取句子的基本结构和语法信息。
(2)句子理解:利用句法分析的结果,推断句子的语义信息,包括句子的主题、动作、时间等。
(3)目标语言生成:根据句子理解的结果和目标语言的语法规则,生成对应的目标语言句子。
(4)优化和后处理:对生成的目标语言句子进行优化和后期处理,以增强翻译质量。
2. 常见的机器翻译技术(1)统计机器翻译(Statistical Machine Translation, SMT):统计机器翻译是目前应用最广泛的机器翻译技术之一。
它基于大规模的双语语料库进行训练,通过统计算法来建立源语言和目标语言之间的映射关系。
(2)神经网络机器翻译(Neural Machine Translation, NMT):神经网络机器翻译是近年来兴起的一种机器翻译技术。
它基于神经网络模型,通过训练来学习源语言和目标语言之间的映射关系。
(3)混合机器翻译(Hybrid Machine Translation, HMT):混合机器翻译是将多种机器翻译技术相结合的一种方法。
通过将统计机器翻译和神经网络机器翻译等不同的技术进行集成,可以提高翻译质量。
3. 机器翻译工具和平台目前市面上有许多机器翻译工具和平台可以帮助用户进行翻译任务。
例如,Google Translate、百度翻译、有道翻译等都是比较知名的机器翻译工具。
英语翻译 分类(一)

英语翻译分类(一)英语翻译分类1. 口译口译是指将一种语言的口头表达转化为另一种语言的口头表达的翻译形式。
口译可以分为同声传译和交替传译两种形式。
•同声传译:指在演讲会议等场合,即时将讲话者所说的内容翻译成另一种语言,并通过耳机传递给听众。
同声传译要求译员具备快速反应和较高的专业素养。
•交替传译:指讲话者说一段话后停顿,然后由译员将其翻译成另一种语言。
交替传译常用于小型会议、商务谈判等场合。
2. 笔译笔译是指将一种语言的书面表达转化为另一种语言的书面表达的翻译形式。
笔译涉及的领域广泛,常见的包括文学、学术、法律、商务等。
•文学翻译:将文学作品从原文翻译成另一种语言,保持原作的风格、特点和意境。
文学翻译要求译者不仅对语言文化有深入理解,还需要有较高的文学才能。
•学术翻译:将学术论文、研究报告等从一种语言翻译成另一种语言,保持原文的准确性和专业性。
学术翻译要求译者对相关学科领域有深入了解,并具备翻译学术文献的能力。
•法律翻译:将法律文件、法规条款等从一种语言翻译成另一种语言,保持法律意义的准确性和法律语言的规范性。
法律翻译要求译者熟悉法律专业术语和法律体系,具备良好的法律素养。
•商务翻译:将商务文件、商务谈判等从一种语言翻译成另一种语言,保持商务用语的准确性和商务文化的妥当性。
商务翻译要求译者具备商业常识和跨文化沟通技巧。
3. 机器翻译机器翻译是指使用计算机等自动化设备进行翻译的技术和方法。
机器翻译通过分析源语言和目标语言之间的句法结构和语义关系,自动将源语言的内容转化为目标语言。
机器翻译具有高效性和大规模处理能力,但仍面临语义理解和文化差异等挑战。
•统计机器翻译:基于大规模并行语料库的统计模型,通过计算句子的概率分布进行翻译。
统计机器翻译依赖大量的双语平行语料,准确性受限于语料库的质量和覆盖范围。
•神经机器翻译:基于神经网络模型的机器翻译,通过训练深度神经网络来建模源语言和目标语言之间的映射关系。
统计机器翻译介绍

统计机器翻译介绍统计机器翻译的基本原理是利用统计学方法来建立两种语言之间的翻译模型。
这种方法不仅可以考虑单词的对应关系,还可以考虑短语、句子甚至整个篇章之间的对应关系。
通过学习大量的双语语料库,统计机器翻译可以自动学习两种语言之间的对应关系,从而实现自动翻译的功能。
统计机器翻译在实际应用中已经取得了很大的成功。
它可以被应用在各种不同的领域,包括互联网翻译、商务翻译、科技翻译等。
通过利用大量的双语语料库,统计机器翻译可以实现高质量的翻译,比如谷歌翻译等就是基于统计机器翻译的系统。
尽管统计机器翻译已经取得了很大的成功,但它也存在一些局限性。
比如对于一些复杂的文本结构或语言之间的差异性处理能力有限,翻译质量可能会有所下降。
此外,由于统计机器翻译是基于大量的数据训练的,对于某些语言对来说可能会面临数据稀缺的问题。
总的来说,统计机器翻译是一种基于数据的翻译模型,通过学习大量的双语语料库来实现自动翻译功能。
虽然它已经取得了很大的成功,但仍然存在一些局限性需要不断改进。
随着技术的不断发展,我们相信统计机器翻译的翻译质量将会不断提高。
统计机器翻译是一种利用大量双语语料库进行翻译的方法,从而实现自动翻译的功能。
它的基本原理是通过统计学方法建立两种语言之间的翻译模型,以及使用这些模型来进行翻译。
统计机器翻译已经被广泛应用于互联网翻译、商务翻译、科技翻译等多个领域,并且在一定程度上取得了成功。
统计机器翻译的核心思想是通过学习大量双语语料库,来建立两种语言之间的对应关系。
这种方法不仅可以考虑单词的对应关系,还可以考虑短语、句子甚至整个篇章之间的对应关系。
通过统计分析这些双语语料库,统计机器翻译系统可以自动学习两种语言之间的翻译规律,并利用这些规律来进行翻译。
这种方法的优势是可以自动处理大规模且复杂的双语数据,并且可以在数据训练后实现高质量的翻译。
在实际应用中,统计机器翻译已经被广泛应用于多个领域。
例如,在互联网翻译领域,谷歌翻译等翻译系统就是基于统计机器翻译的。
机器翻译技术的现状与发展前景

机器翻译技术的现状与发展前景近年来,随着全球化的进程不断加速,翻译需求越来越大,因此机器翻译技术也得到了蓬勃发展。
随着人工智能技术的快速发展,机器翻译的技术也在不断地进化,同时也出现了新的问题。
本文旨在探讨机器翻译技术的现状与发展前景。
一、机器翻译技术现状机器翻译(Machine Translation, MT)是一种利用计算机和自然语言处理技术实现从一种自然语言翻译到另一种自然语言的自动化工具。
随着人工智能技术的不断发展,机器翻译技术也得到了飞速的发展。
当下,机器翻译技术主要有两种实现方式:1. 基于规则的机器翻译(Rule-Based Machine Translation,RBMT):这种机器翻译技术是通过编写翻译规则和语法规则等来实现的,其核心是将一种语言的语法、词汇等细节转化为另一种语言的,对翻译文本进行全面细致的分析和解释,然后将其按照一定规则进行转化从而达到翻译的效果。
2. 基于统计的机器翻译(Statistical Machine Translation,SMT):这种机器翻译技术是通过运用统计算法,运用大量的语料库来训练机器翻译模型,将概率模型引入从而增强了机器翻译的准确性和可靠性。
统计机器翻译模型经常采用贝叶斯方法来推断出翻译结果,因此,在自然语言处理、机器学习等一些理论的支撑下,统计机器翻译已经成为了机器翻译领域最重要的研究方向之一。
现在,越来越多的公司和机构利用机器翻译技术满足其跨文化的沟通需求。
例如,Google翻译、百度翻译、腾讯翻译等都是基于机器翻译技术而开发的在线翻译平台。
二、机器翻译技术面临的挑战尽管机器翻译技术已经有了巨大的发展,但是翻译效果却还不能完全替代人工翻译,该技术依然面临着以下几个方面的挑战:1. 翻译质量不可控:机器翻译技术的翻译质量主要取决于所使用的语料库的质量和数量,可靠的语料库并不一定能够满足所有的翻译需求,这导致机器翻译技术的翻译质量难以持续稳定。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
10.2.1 统计翻译基本原理
噪声信道模型
一种语言T (信道意义上的输入,翻译意义上的目标 语言) 由于经过一个噪声信道而发生变形,从而在信道的 另一端呈现为另一种语言 S (信道意义上的输出,翻译意 义上的源语言)。翻译问题实际上就是如何根据观察到的 S,恢复最为可能的T 问题。这种观点认为,任何一种语 言的任何一个句子都有可能是另外一种语言中的某个句子 的译文,只是可能有大有小[Brown et. al, 1990]。 噪声信道 T
NLPR
Le(1) renard(2) rapide(2) saut(4) par(5) –(6) dessus(7) le(8) chien(9) parasseux(10)
P(S , A | T ) =
ε
(8 + 1)
10
× [ p( Le | The) × p(renard | fox) × L× p( parasseux| lazy)]
NLPR
Le1 programme2
NLPR, CAS-IA
a3
été4
mis5 en6 application7
宗成庆:《自然语言理解》讲义
2006.5.9
10.2.1 统计翻译基本原理
不妨,我们用A(S, T) 表示源语言句子S与目
NLPR
标语言句子 T 之间所有对位关系的集合。在目标 语言句子 T 的长度(单词的个数)为 l,源语言句 子S的长度为m 的情况下,T和S的单词之间有l×m 种不同的对应关系。由于一个对位是由词之间的 对应关系决定的,并且不同的对应方式应该是 2l×m的子集,因此,A(S, T)中共用2l×m 种对位。
NLPR
第十章 机器翻译 (2/3)
NLPR, CAS-IA
2006.5.9
宗成庆:《自然语言理解》讲义
NLPR
2、统计机器翻译
NLPR, CAS-IA
2006.5.9
宗成庆:《自然语言理解》讲义
10.2.1 统计翻译基本原理
基本思想
NLPR
1947年 Weaver 提出“解读密码(解码)”的思想。 1990年 IBM 的 Peter F. Brown 等人在《计算语 言学》(Computational Linguistics) 杂志发表的论文 “统计机器翻译方法”[Brown, 1990]和1993年他们 发表在该杂志的 “ 统计机器翻译的数学:参数估 计” [Brown, 1993]两篇文章奠定了统计机器翻译 的基础。
2006.5.9
宗成庆:《自然语言理解》讲义
10.2.1 统计翻译基本原理
源语言句子 变换处理 全局搜索:在所有的 t 中搜索使 p (t1l ) × p ( s1m | t1l ) 最大的结果 变换处理 目标语言句子
NLPR, CAS-IA 2006.5.9 宗成庆:《自然语言理解》讲义
NLPR
P(S, A | T ) = P(m | T )∏P(a j | a1j−1 , s1j−1 , m,T )P(s j | a1j , s1j−1 , m,T )
j =1 m
(1)
实际上,P(S, A|T) 可以写成多种形式的条件概 率的乘积,(1)式只是其中的一种。
NLPR, CAS-IA 2006.5.9 宗成庆:《自然语言理解》讲义
NLPR, CAS-IA
2006.5.9
宗成庆:《自然语言理解》讲义
10.2.1 统计翻译基本原理
对于一个给定的句对(S|T),我们可以假定所 有的单词对(sj, ti) 之间存在着对应关系。那么,用 来刻画这些对应关系的模型叫做对位模型 (alignment model)。
NLPR
NLPR, CAS-IA
(l + 1)
a1 =0 am =0 j =1
j
我们需要知道所有词对(s|t) 的对应概率p使得 翻译概率P(S|T) 最大,并且对于每一个给定的单 词t满足以下约束条件:
∑ p( s | t ) = 1
s
NLPR, CAS-IA
2006.5.9
宗成庆:《自然语言理解》讲义
10.2.2 IBM-1 翻译模型
10.2.1 统计翻译基本原理
翻译概率P(S|T)的计算
关键问题是怎样定义目标语言句子中的词与源 语言句子中的词之间的对应关系。 假设英语与法语的翻译对:
(Le programme a été mis en application | And the (1) program (2) has (3) been(4) implemented (5, 6, 7)) And1 the2 program3 has4 been5 implemented6
(4)
NLPR, CAS-IA 2006.5.9 宗成庆:《自然语言理解》讲义
10.2.2 IBM-1 翻译模型
(4) 式给我们提供了一种利用迭代过程求解极大值
NLPR
的思路:给翻译概率一个任意的初始估计值,我们 可以计算出等式右边的值,并可以利用这个值作为 新的p(s|t) 的估计值。这个重复进行的迭代过程正是 期望最大化(Expectation Maximization, EM)算法: 借助于(2)式,我们可以将(4)式写成如下形式:
l 1
p(s1m | t1l )
p (t )
l 1
词汇处理模型 对位模型 语言模型
10.2.1 统计翻译基本原理
基本的数学问题
NLPR
求解联合概率分布P(S =S, A =A, T =T),其中, S,T 分别表示源语言和目标语言字符串随机变量, A 为S 与T 之间的对位关系的随机变量。S, A, T 分别 表示随机变量 S, A, T 的一个具体取值。
约定用l, m 分别表示目标语言句子的长度和源语言句子 的长度,现在我们约定L 和M 分别表示长度l 和m 的随机变 量。在不引起混淆的情况下,我们一般用P(S, A, T) 替代 P(S =S, A=A, T =T )。
NLPR, CAS-IA 2006.5.9 宗成庆:《自然语言理解》讲义
10.2.1 统计翻译基本原理
p( s | t ) = λt−1 ∑ P( S , A | T )∑ δ ( s, s j )δ (t , ta j )
3) 假定 P(a j | a1j −1 , s1j −1 , m, T ) 仅依赖于sj 和 t a j 。
参数有两个:1) ε ≡ P(m | T ) ;2) 给定 t a j 的情况下单词 sj 的翻译概率(translation probability):
p(s j | t a j ) ≡ P(s j | a1j , s1j −1 , m, T )
j =1 m
=
ε
(l +1)
m
∏ p(s
j =1
m
j
| ta j )
(2)
宗成庆:《自然语言理解》讲义
NLPR, CAS-IA
2006.5.9
10.2.2 IBM-1 翻译模型
(2)式的理解:
null The(1) quick(2) fox(3) jumps(4) over(5) the(6) lazy(7) dog(8)
NLPR, CAS-IA 2006.5.9
NLPR
S
宗成庆:《自然语言理解》讲义
10.2.1 统计翻译基本原理
源语言句子:
NLPR
S = s 1m ≡ s 1 s 2 L s m
目标语言句子: T = t 1l ≡ t 1 t 2 L t l
P(T ) P( S | T ) P(T | S ) = P( S ) ) T = arg max P (T ) P ( S | T )
10.2.2 IBM-1 翻译模型
数,因此,我们不能保证这些参数之间总是互相 独立的。因此,在遵循如下三个假设的情况下, 我们得到翻译模型1 (记作IBM-1): 1) 假定P(m|T) 与目标语言T和源语言的句子长度m 无关,那么, ε ≡ P(m | T ) 是一个比较小的常量;
NLPR
在上面的(1)式中,由于等号右边有太多的参
NLPR, CAS-IA 2006.5.9 宗成庆:《自然语言理解》讲义
NLPR
10.2.2 IBM-1 翻译模型
如何估计IBM-1的翻译概率? 根据 (1) 式和上面的假设,在给定目标语言句 子的情况下,源语言句子和对位关系的联合似然 率为:
P(S , A | T ) = P(m | T )∏ P(a j | a1j −1 , s1j −1 , m, T ) P(s j | a1j , s1j −1 , m, T )
共10项
NLPR, CAS-IA
2006.5.9
宗成庆:《自然语言理解》讲义
10.2.2 IBM-1 翻译模型
NLPR
由于对位关系由1到m个aj 的具体值所决定,而 每个aj 的取值可以是0到l 之间的任意数,因此, m l l ε P( S | T ) = L ∑∏ p(s j | t a ) (3) m ∑
10.2.1 统计翻译基本原理
估计语言模型概率 P(T)
给定句子: t = t 1 t 2 L t l
l 1
NLPR
概率:
P(t1l ) = P(t1 )P(t2 | t1 )LP(tl | t1t2 Ltl −1 )
n-gram 问题,不再赘述。
NLPR, CAS-IA
2006.5.9
宗成庆:《自然语言理解》讲义
NLPR, CAS-IA
2006.5.9
宗成庆:《自然语言理解》讲义
10.2.2 IBM-1 翻译模型