基于非连续短语的统计翻译模型研究
【国家自然科学基金】_基于短语的统计机器翻译_基金支持热词逐年推荐_【万方软件创新助手】_20140803

2013年 科研热词 推荐指数 统计机器翻译 3 韵律结构信息 1 调序 1 语音学 1 计算语言学 1 汉蒙统计机器翻译 1 有限语料 1 数词后处理 1 形式化句法 1 层次短语模型 1 基于层次短语的翻译模型 1 向量空间模型 1 动词短语 1 上下文信息 1
2014年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
2010年 序号 1 2 3 4 5 6 7 8 9 10
科研热词 推荐指数 统计机器翻译 3 短语抽取 3 汉维短语对 2 机器翻译 2 诗歌生成 1 词汇相似度 1 翻译模型 1 绝句评测 1 基于短语的统计机器翻译 1 人工智能 1
2011年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
科研热词 统计机器翻译 重排序模型 调序 语言模型 规则 蒙汉机器翻译 翻译模型 统计模型 短语表过滤 短语翻译 短语粘结度 特征抽取 汉蒙统计机器翻译 机器翻译 最大熵 形态学 形态切分 基于句法的翻译模型 基于句法的翻译方法 c-value
推荐指数 3 1 1 1 1 1 1 1 1 1源自1 1 1 1 1 1 1 1 1 1
2009年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
科研热词 推荐指数 统计机器翻译 6 机器翻译 4 基于短语的统计机器翻译 3 人工智能 3 模糊匹配 2 同步树替换文法 2 预先翻译 1 非连续介词短语 1 错误敏感 1 词对齐 1 评价标准 1 结构异构 1 结构对齐 1 组合分类器 1 短语模板 1 相似度 1 模板抽取 1 树到树模型 1 异构对应 1 对数线性模型 1 基于词的方法 1 基于短语的方法 1 基于实例的机器翻译 1 基于句法的方法 1 同步树序列替换文法 1 同步文法 1 句法限制 1 句法调序 1 口语翻译 1 全局调序 1 人机交互 1 aer 1
统计机器翻译中的短语翻译技术研究

统计机器翻译中的短语翻译技术研究在当今日益发展的全球化时代,跨语言交流已经越来越重要,而统计机器翻译技术作为机器智能领域的重要研究点,也越来越受到人们的关注。
其中,短语翻译技术是统计机器翻译技术中的重要组成部分,它通过借鉴语言之间的相似性,将源语言的短语转换为目标语言的短语,从而提高翻译的准确性和效率。
一、什么是短语翻译技术短语翻译技术是统计机器翻译技术中的重要组成部分,它主要用于将源语言中的短语转换为目标语言中的短语。
在这个过程中,统计机器翻译系统会利用文本语料库中的统计信息,推断出源语言中的短语和目标语言中的短语之间的对应关系,从而进行翻译。
二、短语翻译技术优势短语翻译技术相对于单词翻译技术来说,有很多的优势。
首先,短语翻译技术可以有效地解决一些单词翻译技术无法解决的问题,比如在某些情况下,同一单词在不同的上下文环境中可能会有不同的含义,这时就需要使用短语翻译技术来实现上下文的关联性。
其次,短语翻译技术可以有效地减少翻译系统中的歧义,提高翻译的准确性和效率。
三、短语翻译技术实现方法在实现短语翻译技术时,主要有以下两种方法:1. 基于词对齐的方法基于词对齐的方法是最早的短语翻译方法之一,它主要采用词对齐算法进行短语翻译。
该方法首先需要对源语言和目标语言之间的词进行对齐,然后通过将相邻的词组合成短语的方式来完成短语翻译。
这种方法的优点是简单、容易实现,但对于一些具有复杂语言结构的文本进行翻译时,效果不太理想。
2. 基于短语对齐的方法基于短语对齐的方法是目前应用最广泛的短语翻译方法之一,它可以通过利用文本语料库中的统计信息快速地推断出源语言中的短语和目标语言中的短语之间的对应关系。
该方法不需要事先进行词对齐,可以直接将源语言中的短语和目标语言中的短语进行对应,从而大大提高了翻译的准确性和效率。
四、短语翻译技术的应用短语翻译技术具有广泛的应用场景,比如在机器翻译、语音识别、自然语言处理等领域中都有着重要的作用。
基于短语的统计机器翻译中汉维短语对抽取算法改进

齐 . 有 的考 虑 了 非 连 续 短 语 的 抽 取 . 中 0 h基 于 词 还 其 c 对 齐 的短 语 抽 取 算 法 是 使 用 最 多 的
词语对 齐 词 语对 齐语 料库
1 基 于 短 语 的统 计 机 器 翻 译
方 法 , 单 词 映 射 到 词 类 中 ;tpa oe[ 出 了并 将 Se hnV gl 提 2 ] 不 基 于 Vt b 词 对 齐模 型 的新 的 短 语 对 齐 方 法 .把 短 i ri e 语 对 齐 作 为 一 个 句 子 分 割 问题 : 彦 青 【 出 一 种 基 于 何 提 松弛尺度的短语抽取 方法 , 松 了完全相容 的限制 . 放 可 以保 证 为 更 多 的 源 短 语 找 到 目标 短 语 : 静 0 h算 强 在 c 法 基 础 上 提 出 了解 决 局 部 连 续 短 语 抽 取 的方 法 .能 够
收 稿 日期 :0 0 0 — 9 2 1 — 3 2 修 稿 日期 : 0 0 4 8 2 1 —0 —0
作 者 简 介 : 高举 ( 9 9 , , 南平 顶 山人 , 士 研 究 生 , 究方 向 为 计 算机 应 用 及 信 息 处 理 任 t 7 一) 男 河 硕 研
现代 计 算 机
表 明 , 进后 的短 语抽 取 算 法 能 够抽 取 出更 多 汉维 短语 对 , 高短语 翻 译 对抽 取 的 效 果 。 改 提
关 键 词 :基 于 短 语 的 统 计 机 器 翻 译 ;短 语 抽 取 ;汉 维 短 语 对 ;翻 译 模 型
0 引
言
翻译概率最 大的输 出句 子。这 个搜 索过程在统计 机器 翻译 中又称为解码 。
基于短语的汉蒙统计机器翻译研究

1 引言
关 于汉蒙机器翻 译 , 曾经做过基于规则 的研究 _ 1 _ 和基于实 例 的研究 。但是由于语言资源不足 , 研究人员和资金短缺 , 以 及蒙古语言本身的复杂性等原因 , 汉蒙机器翻译的研 究进展 比
较缓 陧。 近几年 , 随着统计方法在机器翻译领域的成功应用 , 统 计 机 器 翻译 已经 成 为机 器 翻 译 的 主 流方 法 。同 时 , 统 计 机 器 在 翻译领域 , 有很多开 源工 具供研究人员免费使用 , 促进 了统 这 计机器翻译的快速发展 。 在现有汉蒙机器翻译研究的技术和资 源基础上 , 结合统计机器 翻译 的开 源工具 , 开展 了基于 短语的 汉蒙机器翻译研究 。
K e wor s: p r s Chies M o g la sa it a ma hie r n lto a tm ai e l a in; r hoo ia y d h a e; n e n o in ttsi l c c n ta sa in; uo tc vau to mo p lgc l
D :037 /i n10 — 3 1 0 01. 1 文 章 编 号 :0 2 8 3 (0 0 1— 18 0 文 献 标 识 码 : 中 图 分类 号 :P 9 . OI 1. 8 .s. 2 83 . 1. 0 7 jsБайду номын сангаас0 2 44 10 — 3 12 1 )4 03 — 5 A T 31 2
1内蒙古师范大学 计算机与信息工程 学院 , . 呼和浩特 0 0 2 10 2 2 蒙古大学 蒙古学学院 , 内 呼和浩特 0 0 2 10 1
3 蒙古师范大学 网络中心 , 内 呼和浩特 0 0 2 10 2
1C l g f C mp tr a d I fr t n E gn e n ,n e n o i o ma Un v ri , h o 1 0 2, h n . ol e o o ue n no mai n i e r g I n r Mo g l N r l e o i a ie s y Ho h t 0 0 2 C ia t 2 S h o f Mo g l n S u is I n r Mo g l i e s y Ho h t 0 0 2 , h n .c o l o n oi td e ,n e n oi Un v r i , h o 1 0 1 C i a a a t
《基于层次短语模型的蒙—汉统计机器翻译研究》范文

《基于层次短语模型的蒙—汉统计机器翻译研究》篇一一、引言随着信息技术的迅猛发展,机器翻译技术已经成为语言处理领域的研究热点。
其中,统计机器翻译技术以其准确性高、灵活性强的特点,得到了广泛的应用。
蒙—汉统计机器翻译作为跨语言信息交流的重要手段,其重要性不言而喻。
本文将针对基于层次短语模型的蒙—汉统计机器翻译进行研究,探讨其技术原理、方法及实现过程。
二、层次短语模型概述层次短语模型是一种基于短语的统计机器翻译模型,其核心思想是将句子划分为多个短语,并对每个短语进行翻译。
该模型在翻译过程中,充分考虑了短语之间的层次关系和语法结构,从而提高了翻译的准确性和流畅性。
三、蒙—汉统计机器翻译技术原理蒙—汉统计机器翻译技术主要基于双语语料库和统计学习方法。
首先,通过收集大量的蒙汉双语语料,建立双语词典和短语表。
然后,利用统计学习方法,如隐马尔可夫模型、最大熵模型等,对双语语料进行训练,得到翻译模型。
最后,通过将待翻译的蒙文句子与翻译模型进行匹配,得到对应的汉文翻译结果。
四、基于层次短语模型的蒙—汉统计机器翻译方法基于层次短语模型的蒙—汉统计机器翻译方法主要包括以下步骤:1. 预处理:对蒙文原句进行分词、词性标注等处理,以便后续分析。
2. 短语划分:将蒙文原句划分为多个短语,并根据语法关系确定各短语的层次结构。
3. 翻译模型训练:利用大量双语语料和统计学习方法,对蒙古语与汉语的翻译进行建模。
4. 翻译结果生成:根据短语划分的结果和训练好的翻译模型,对每个短语进行逐一翻译,生成对应的汉文结果。
5. 翻译结果优化:根据语言学的知识和翻译原则,对生成的翻译结果进行后处理和优化。
五、实验与分析为了验证基于层次短语模型的蒙—汉统计机器翻译的效果,我们进行了大量实验。
实验结果表明,该模型在蒙—汉翻译任务中取得了较好的效果,翻译准确率和流畅性均有所提高。
同时,我们还对模型的性能进行了分析,探讨了不同因素对模型性能的影响。
六、结论与展望本文研究了基于层次短语模型的蒙—汉统计机器翻译技术。
《基于层次短语模型的蒙—汉统计机器翻译研究》范文

《基于层次短语模型的蒙—汉统计机器翻译研究》篇一一、引言随着全球化的不断深入,不同语言之间的交流日益频繁。
其中,蒙文与汉文之间的翻译需求也日益增加。
为了满足这一需求,基于统计的机器翻译技术得到了广泛的应用。
本文将探讨基于层次短语模型的蒙—汉统计机器翻译的研究,旨在提高翻译的准确性和效率。
二、蒙—汉翻译的背景与挑战蒙文和汉文在语法结构、词汇和表达方式等方面存在较大差异,这使得蒙—汉翻译成为一项具有挑战性的任务。
传统的翻译方法主要依赖于人工翻译,然而这种方法效率低下,难以满足大规模的翻译需求。
因此,研究基于统计的机器翻译方法,特别是基于层次短语模型的蒙—汉统计机器翻译方法具有重要意义。
三、层次短语模型及其在蒙—汉翻译中的应用层次短语模型是一种基于短语的统计机器翻译模型。
该模型通过将句子划分为短语单位,并利用短语表和翻译概率进行翻译。
在蒙—汉翻译中,层次短语模型能够更好地处理语言间的差异,提高翻译的准确性。
具体而言,层次短语模型在蒙—汉翻译中的应用包括以下几个方面:1. 短语划分:将蒙文句子和汉文句子分别划分为短语单位,为后续的翻译提供基础。
2. 短语对齐:通过计算短语之间的相似度,将蒙文短语和汉文短语进行对齐。
3. 概率计算:利用训练数据中的短语对及其上下文信息,计算各个短语的翻译概率。
4. 生成译文:根据已计算的翻译概率和一定的优化策略,生成最终的译文。
四、研究方法与实验结果本研究采用基于层次短语模型的统计机器翻译方法,对蒙—汉翻译进行了实验研究。
实验数据包括大量的平行语料库和单语语料库。
通过训练模型,我们得到了以下实验结果:1. 短语划分与对齐:通过自动化的方法实现了蒙文和汉文的短语划分与对齐,提高了翻译的准确性和效率。
2. 翻译概率计算:利用大量的训练数据,计算了各个短语的翻译概率,为生成译文提供了依据。
3. 译文生成与评估:根据已计算的翻译概率和优化策略,生成了蒙—汉译文。
通过人工评估和自动评估的方法,我们发现该方法的翻译准确率较高,能够较好地处理语言间的差异。
基于短语的统计翻译模型的研究与应用的开题报告

基于短语的统计翻译模型的研究与应用的开题报告一、研究背景及意义随着全球化的进程,跨语言交流的需求越来越大。
为了满足这种需求,机器翻译(Machine Translation,MT)成为了一个热门的研究领域,也是一个具有挑战性的问题。
目前,机器翻译主要分为基于规则的机器翻译、基于统计的机器翻译和基于神经网络的机器翻译三种。
其中,基于统计的机器翻译目前是最流行的一种方法。
基于短语的统计翻译模型作为一种常见的统计机器翻译模型,通过利用双语语料库进行统计,将短语和短语之间的对应关系作为翻译过程的基本单元,以此完成机器翻译的任务。
基于短语的统计翻译模型具有翻译效果好、速度快、并且易于实现等优点。
因此,这种方法被广泛应用于机器翻译的实践中。
然而,随着研究的深入,基于短语的统计翻译模型仍存在一些问题,比如过度依赖对齐信息、无法处理长距离依赖等,影响了其翻译质量。
因此,对基于短语的统计翻译模型进行改进和优化,提高其翻译质量和性能,具有重要意义和价值。
二、研究内容和目标本课题将基于短语的统计翻译模型作为研究对象,重点研究如何优化模型中的两个模型部分:短语提取模型和翻译模型,以期提高其翻译质量和效率。
具体研究内容包括:1.基于词对齐的短语提取模型改进。
目前的短语提取模型基于词对齐,存在对齐错误传递和对称性等问题。
本课题将尝试采用非对称的短语对提取方法,从而减少对齐错误对翻译结果的影响。
2.翻译模型的改进。
本课题将探索一些新的方法,如基于主题模型的翻译模型、基于神经网络的翻译模型等,以期提高翻译质量和速度。
3.基于短语的统计翻译系统的开发。
本课题将基于所提出的研究成果,实现一个基于短语的统计翻译系统,以便于其在实际应用中的推广和应用。
本课题的主要目标是:通过优化基于短语的统计翻译模型,提高其翻译质量和效率,为跨语言交流提供更加可靠的技术支持。
三、研究方法和技术路线本课题将采用以下研究方法和技术路线:1.文献综述。
对基于短语的统计翻译模型相关的文献进行综述和分析,了解其应用现状和存在的问题。
利用句法短语改善统计机器翻译性能

利用句法短语改善统计机器翻译性能孙水华;丁鹏;黄德根【摘要】短语表是基于短语的统计机器翻译系统的一个核心组成部分,基于启发式方法抽取到的短语表受单词对齐错误和未对齐词的影响严重,同时抽取到的短语也并非句法意义上的短语.该文提出一种基于EM(Expecta-tion-maximization)算法的双语句法短语抽取方法来抽取双语句法短语,此方法可以通过不断迭代的方式使各参数值达到最优.通过加入双语句法短语、增加新特征、重新训练三种不同的方法,将获得的双语句法短语与基于短语的统计机器翻译方法结合以提高统计机器翻译系统的性能.结果表明:三种方法都不同程度提高了译文的BLEU(BiLingual Evaluation Understudy)值,其中增加新特征方法提高了0.64个点.【期刊名称】《中文信息学报》【年(卷),期】2015(029)002【总页数】8页(P95-102)【关键词】统计机器翻译;EM算法;双语句法短语【作者】孙水华;丁鹏;黄德根【作者单位】大连理工大学计算机科学与技术学院,辽宁大连116024;福建工程学院信息科学与工程学院,福建福州350118;大连理工大学计算机科学与技术学院,辽宁大连116024;大连理工大学计算机科学与技术学院,辽宁大连116024【正文语种】中文【中图分类】TP391自P Koehn 等提出从基于词的对位中启发式学习短语翻译对[1]的方法以来,基于短语的统计机器翻译方法受到广泛关注,性能也不断提高。
基于短语的统计机器翻译方法利用相邻词组合成的短语作为基本单位,在训练阶段获得短语表,在解码阶段利用短语表来获得候选翻译。
但是短语表中的短语并非句法意义上的短语,不能充分利用语言的句法信息,而且基于启发式的短语抽取方法是以词对齐为基础来抽取短语对,词对齐错误和大量的词语对空[2]引进大量的无效短语使短语表变得很大。
为此,研究者又提出基于句法的统计机器翻译方法,以源语言句法树或是目标语言句法树作为训练语料,形成了树到串[3]、串到树[4]、树到树[5]等机器翻译方法。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第21卷 第1期2007年1月中文信息学报JOU RNAL OF CH INESE INFORM AT ION PROCESSIN GV ol.21,No.1Jan.,2007文章编号:1003-0077(2007)01-00101-08基于非连续短语的统计翻译模型研究张大鲲,张玮,冯元勇,孙乐(中国科学院软件研究所中文信息处理中心,北京100080)摘 要:目前统计机器翻译的主流方法仍然是基于短语的翻译模型。
然而,该模型并没有考虑对非连续短语的处理。
本文提出了一种基于非连续短语的统计翻译模型,利用该模型可以使翻译的基本单元从连续短语扩展到带有间隔的非连续短语,以更好地解决词语翻译时的上下文依赖问题。
同时,由于该方法抽取的短语数量较少,也使得解码的效率得到了提高。
实验表明,在效率提高的情况下,非连续短语模型可以取得与层次型短语模型相当的翻译结果。
关键词:人工智能;机器翻译;非连续短语;统计机器翻译;短语模型中图分类号:T P391 文献标识码:AResearch on Non -contiguous Phrase -based Model for S tatistical Machine TranslationZH AN G Da -kun,ZH AN G Wei,FENG Yuan -yong,SU N Le(Chinese Infor matio n P ro cessing Center,Institute o f Softw are,Chinese Academ y of Sciences,Beijing 100080,China)Abstract:T he phr ase -based stat istical machine translat ion mo del is still the most popular model nowadays.Ho wever ,non -contig uo us phrases are not taken int o acco unt in t his model.A st at istical machine tr anslatio n mo del based o n non -contig uous phrases is proposed in this paper.T he units of translation ar e ex tended fro m co ntiguous phrases to phrases with interv als in o rder to take adv ant age of the context dependence.With the less numbers o f phrases,the efficiency o f the deco der in o ur model is also impr oved.Ex per iment s show t hat w ith a better eff iciency the t ranslatio n r esults of our non -contig uous phrase -based model and hier archical mo del are comparable.Key words:artificial intellig ence;machine tr anslat ion;no n -contig uous phr ase;statistical machine tr anslatio n;phrase -based model收稿日期:2006-07-28 定稿日期:2006-10-20基金项目:国家自然科学基金资助项目(60203007)作者简介:张大鲲(1980)),男,博士生,主要研究方向为统计机器翻译。
1 引言基于短语的统计翻译模型[1~4]近年来逐渐取代了基于词的模型[5],成为统计机器翻译方法的主流。
翻译的基本单元从词过渡到短语,可以更好地解决词在翻译时对上下文的依赖问题。
基于短语模型的方法在翻译时将邻近的词串作为一个整体进行处理,因此词之间的重排序问题变成了短语内部的问题,降低了翻译模型的复杂程度,翻译质量有所提高。
尽管这里的短语可以是任意词串,不要求必须是符合语法习惯的短语,但是却要求是连续的词串,因此,具体地这种方法也可以称为/基于连续短语0的翻译模型。
以非连续短语作为处理单元的方法在信息检索[6]中取得了比较好的效果。
Simard 等人首先将非连续短语方法用于统计机器翻译模型[7],翻译质量得到了一定程度的改善。
然而Sim ard 所使用的非连续短语模型,要求短语内部的间隔(g ap)部分,必须是严格的词,因此在他们的模型中非连续短语的长度是固定的。
比如:短语turn the light o n 和turn the left light on 在利用Sim ar d 的模型表示时,得到turn r r on 和turn r r r on(r 表示任意1个词)两个不同的短语。
这样的短语形式不够灵活,中文信息学报2007年且数量巨大。
本文的方法将这种短语扩展为一种短语turn s on(s表示任意1个或多个词),增强了模型的适应能力,同时调整了解码部分的设计以适应非连续短语的翻译。
本文的基本思想源自Simard[7]和Chiang提出的基于层次型短语的翻译模型[8]。
非连续短语的间隔部分(s)也可以是短语,甚至整个句子都可以看作是短语(连续的和非连续的)的组合,比如:/他说,0可以翻译成/H e said that,0,这样就能够在更高的层次上模拟整句的翻译过程,从而更好地处理短语之间的重排序和上下文依赖问题。
与层次型短语模型相比,非连续短语方法抽取的短语结构简单,数量大大减少,因此带来了计算时间和空间上的优势,这一点尤其在利用最小错误率方法[9]调整特征函数的权重时有明显体现。
实验数据表明,在节省时间和空间的情况下,使用非连续短语方法的翻译质量也略有提高。
非连续短语方法和Och提出的基于模版的翻译方法[10]的不同点在于:Och的方法主要是将词到词类的一个泛化,我们的方法不包含词类的概念。
本文其他部分的安排如下:第2部分给出非连续短语的定义和抽取方法;第3部分详细介绍基于log-linear模型的非连续短语模型;第4部分是对解码器进行改进的描述;第5部分是实验设计和结果分析;最后是结论和对未来工作的展望。
2非连续短语使用非连续短语对基于短语的翻译模型进行扩展,目的是使模型具有更强的扩展性。
比如:双语句对/请开灯0和/please turn the lig ht o n0,/他向她做鬼脸0和/he m ade a face to her0,如果能识别出句子中的短语/开,0等价于短语/turn, on0,短语/向,做鬼脸0等价于短语/made a face to,0,则可以提高模型对语言的适应能力,更好地对词与词之间的关系进行建模,得到更准确的翻译结果。
2.1定义在非连续短语方法中,首先需要区分基本短语和扩展短语的概念。
基本短语即普通的连续词串,不包含作为占位符的非终结符①;扩展短语即包含占位符的非连续短语。
沿用Zens[11]对双语短语的定义,如果一个双语短语对内部的所有词,只和该短语对内的词存在对齐关系,而不和任意一个短语对外的词存在对齐关系,我们称其为基本短语。
如图1所示,根据图1 (a)中的词语对齐关系可以得到图1(b)中的基本短语(由于短语数量的问题,这里不考虑包含对空词的短语)。
基本短语BP的形式化描述如公式(1),对于句子对(f J1;e I1)和相应的对齐矩阵A,基本短语表示为:BP(f J1,e I1,A)={(f j+m j,e i+n i):P(i c,j c)I A:j[j c[j+m\i[i c[i+n}(1)如果〈f,e〉和〈C,A〉是基本短语对,且f= f1C f2,e=e1A e2,则f1s f2和e1s e2是一个扩展短语对(s表示任意1个或多个词),即非连续短语对,图1(c)是根据图1(b)得到的非连续短语,抽取算法见2.2节。
2.2非连续短语抽取翻译模型的基础是短语对列表,短语对的质量也直接决定着最终的翻译质量,因此如何从双语句对齐语料中,获得短语对列表是首先需要解决的问题。
目前抽取短语的方法有Och提出的基于改进的词对齐抽取方法[12],这种方法也是基于短语的翻译模型广泛采用的方法[4,8]。
此外,也有直接计算短语对列表和相应概率值的方法[3],以及利用非负矩阵分解抽取短语的方法[13]。
本文方法是对第一种方法的改进。
Och的短语抽取方法:首先利用GIZA++对双语语料进行词对齐的双向训练(中)英,英)中),分别取两次训练结果的交集和并集,再从交集出发,扩展每个对齐点的邻近点,其上限是对齐结果的并集,形成如图1(a)所示的对齐矩阵。
依次循环每一个可能的词语组合,如果符合基本短语的定义,则添加到基本短语列表中[12](图1(b)中的短语按照抽取的顺序排列)。
在抽取基本短语对之后,可以进行扩展短语的抽取,只需要去掉词串必须是连续的这一限制即可。
非连续短语的抽取过程是一个动态程序过程。
算法描述如图2所示。
同样,为了保证解码阶段的效率,需要限制基本短语和扩展短语的长度,本文分别取10和5(s的长度为1);对非连续短语还有一个额外的约束,即102①这里的占位符和非终结符用s表示,指非连续短语的间隔部分,可以是任意的词或连续词串;终结符是指词。
1期张大鲲等:基于非连续短语的统计翻译模型研究图1 非连续短语示例要求非连续短语对内的终结符(词)之间至少存在一个原始的对齐关系,保证所得到的短语对存在一定的词语关联。
图1(c)为根据短语抽取算法得到的扩展短语列表,表中第一列为生成该条扩展短语的基本短语编号,方便后面短语概率的计算。
2.3 短语概率计算Och 等人在计算基本短语概率的时候,认为句子中的短语是均分的,即每个短语的权重为1,短语对的概率为短语出现次数的相对频率:<(Âf |¸e )=count (Âf ,¸e )E Âf count(Âf ,¸e )(2)这里的count 值在短语权重为1时和短语出现的次数相同。
扩展短语的概率计算同样分为两部分:权重分配和概率计算。
由于基本短语之间相互组合可以得到多个扩展短语,多个基本短语组合也可以得到同一个扩展短语,所以扩展出的这些短语平均分得基本短语的权重值,由不同的基本短语所得的权重需要进行累加,作为第一步的权重分配结果。