英汉双语平行语料库人工对齐方法说明

合集下载

利用Trados进行平行语料库的句对齐

就在几年前，语料库研究对高校生，甚至许多高校老师而言都是一个新鲜事物。而现在，随着ＭＴＩ专业的不断推广，许多大学相继开设了与语料库研究相关的课程，如“ 语料库语言学、计算机辅助翻译 ” 等，众多高校老师进入到这一相对较新的领域进行研究，一部分高校毕业生也开始以此方向作为论文选题，语料库研究正以蓬勃之势迅速发展。对于语料库的定义，杨慧中指出，所谓语料库是指在随机采样的基础上收集的有代表性的真实语言材料的集合，是语言运用的样本。通过有关语料库的论文统计可以看出，语料库研究实实在在在翻译对比、翻译教学、译员培养、语言学研究等方面发挥了重要作用。目前一些大型翻译公司，如传神，都有专门的语料库部门，并雇用专员负责入库文件的校对和录入工作。笔者在这里所提及的语料库，主要是指双语语料库下的一个类别，即平行语料库。平行语料库中含有大量真实译语言研究和语言对比研究提供了良好的基础。
还可在“ 匹配 ” 栏下进行设定，提刘克强也并未明确指出具体的方法。对齐在此之前，升对齐准确率，并在“ 导出” 栏下选择格式后导出的ｔｘｔ文本如下：＜ＴｒＵ＞为“ 翻译记忆库交换格式（ＴＭＸ） ” 。ＷｉｎＡｌｉｇｎ＜Ｑｕａｌｉｔｙ＞８５自动对源语文件和目标语文件进行句对＜ＣｒＵ＞ＡＬＩＧＮ！齐，如两种语言断句一致，则对齐准确率会＜ＣＲＤ＞０４０９２０１３，１１：５５非常高。此外，ＷｉｎＡｌｉｇｎ支持手工调整，调＜ＳｅｇＬ＝ＥＮ－ＵＳ＞１．１４ＪＯＩＮＴＡＮＤ整的方法也非常简单。利用ＷｉｎＡｌｉｇｎ将双ＳＥＶＥＲＡＬＬＩＡＢＩＬＩＴＹ语文件完全对齐后，选择“ 导出文件对 ” ，注导出” 栏中对格式进行正确选＜ＳｅｇＬ＝ＺＨ－ＣＮ＞｛＼ｆ３１．１４｝共同的意必须在 “

汉英篇章结构平行语料库的对齐标注研究

ｂｉｌｉｎｇｕａｌｔｅｘｔ．Ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｓｓｕｃｈａｎａｌｉｇｎｍｅｎｔａｎｄａｎｎｏｔａｔｉｏｎｓｔｒａｔｅｇｙ，ｔｈｅｓｔｒｕｃｔｕｒａｌａｎｄｒｅｌａｔｉｏｎａｌａｌｉｇｎ —
ａｎｄｓｔｒｕｃｔｕｒａｌａｌｉｇｎｍｅｎｔ．ＴｈｅｓｔｒａｔｅｇｙｗｉｔｈｔｈｅｈｅｌｐｏｆｃｏｒｒｅｓｐｏｎｄｉｎｇａｎｎｏｔａｔｉｏｎｓｏｆｔｗａｒｅａｎｄｔｈｅｓｏｌｕｔｉｏｎｓｔＯｔｈｅ
篇章结构平行语料库的核心理论基础。该文提出“ 结构对齐，关系对齐” 的对齐标注策略，应用于切分对齐、层次结
构对齐、关系对齐、中心对齐等环节，实现了对齐和标注并行、单位对齐和结构对齐共进的平行语料库工作模式。
ｍｅｎｔ，ｗｈｉｃｈｉｓｔｈｅｔｈｅｏｒｅｔｉｃａｌｂａｓｉｓｏｆＣｈｉｎｅｓｅ — Ｅｎｇｌｉｓｈｄｉｓｃｏｕｒｓｅｓｔｒｕｃｔｕｒｅｐａｒａｌｌｅｌｃｏｒｐｕｓ．ＴｈｉｓｓｔｒａｔｅｇｙｉｓａｐｐｌｉｅｄｔＯｔｈｅｃｏｒｐｕｓｂｕｉｌｄｉｎｇｐｒｏｃｅｓｓ，ｉｎｃｌｕｄｉｎｇｓｅｇｍｅｎｔａｌ，ｓｔｒｕｃｔｕｒａｌ，ｒｅｌａｔｉｏｎａｌ，ａｎｄｃｅｎｔｒａｌａｌｉｇｎｍｅｎｔ，ｈａｖｉｎｇａｃｈｉｅｖｅｄａｎｏｐｅｒａｔｉｏｎｍｏｄｅｏｆｐａｒａｌｌｅｌｃｏｒｐｓａｌｏｎｇｗｉｔｈａｌｉｇｎｍｅｎｔａｎｄａｎｎｏｔａｔｉｏｎｗｏｒｋｉｎｇｔｏｇｅｔｈｅｒ，ａｓｗｅｌｌｕｎｉｔａｌｉｇｎｍｅｎｔ

上海外语教育出版社英汉双语平行句对语料库的构建

摘要上海外语教育出版社英汉双语平行句对语料库建设是该社承担的上海市科委课题“双语词典编纂系统的研发”的子课题。

该语料库是该社双语词典编纂系统的在线辅助语料库之一，为双语词典编纂提供英汉平行句对例证，并为词典编纂提供语言统计信息、分析信息等。

文章综述了该语料库的设计和构建过程，内容涉及语料的采集、加工、标注、检索等方面，同时也探讨今后如何进一步开发与利用该语料库。

关键词平行语料语料库建设双语词典编纂系统上海外语教育出版社（以下简称“外教社”）承担的上海市科委课题“双语词典编纂系统的研发”是上海市政府扶持辞书编纂出版数字化的重大科研项目，该课题的总体目标是开发一个基于语料库的数字化双语词典编纂出版系统，其子课题之一就是构建一个服务于双语词典编纂、经过深加工的、通用共时并在句子层面对齐的英汉双语书面语语料库。

该语料库以英语为原语、以汉语为译语，以xml（extensible markup language）为标注语言，对英语原文语料的标注做到分词（tokenization）、主词标注（lemmatization）及词性赋码（part ofspeech tagging），对汉语译文语料的标注做到分词及词性赋码。

基于该语料库，词典编纂者及词典用户可以通过在线检索平台提取有效的词典例证，统计具体词语的词频信息，了解词汇的分布情况，获得具体词语或结构的用法信息（包括语义、语法、搭配等方面）。

经过三年多的建设，该语料库一期工程已建成收录68万英汉双语平行句对的语料库，总字数达5455万。

本文将综述该语料库的设计和构建过程，内容涉及语料的采集、加工、标注、检索等方面。

一、语料库前期设计课题研究开始时，外教社课题组与各合作单位进行了较为广泛的调查工作，并以此为基础制订了详细的语料库建设实施方案，确定语料库设计阶段的主要任务为：（1）确定标注语言；（2）确立语料选取的原则及语料来源；（3）制订语料储存方案与各项工作流程；（4）编制语料库技术开发需求规约。

双语平行语料库的制作流程

Step 5.利用ParaConc软件对双语语料库进行检索统计。步骤如下：
1.运行ParaConc269软件，如下图：
2.点击“File”,在下拉列表中选择“Load Corpus Files”，如下图：
3.在Align format处，选择“Start/stop tags”，如下图：
4.点击“add”，分别添加Step 4中得到的中文txt文本和英文txt文本。如下图：
3.点击“导出”，如下图：
点击“确定”，关闭该软件。
4.找到导出文本所在文件夹，可以看到txt格式的中文文本和英文文本，打开中文文本，如下图：
点击“文件”，选择“另存为”，如下图：
在“编码”处可看到当前编码为“UTF-8”，点击，在下拉列表中选择“ANSI”，如下图：
选择“是”，关闭记事本。
注意：与英文txt文本不同，中文txt文本必须经过这一步改成ANSI格式。若文件数量大，也可使用编码批量转换软件。
点击“OK”，双语语料库制作完成。
Step 6.在该语料库中执行“搜索”功能。例如，查询“shall”在该语料库中对应的中文翻译。
1.点击“Search”，在下拉列表中选择“search”。在跳出的选框中输入“shall”,如下图：
点击”OK”，即可得到搜索结果，如下图：
2.可将搜索结果保存下来：保持该搜索界面不变，点击“Search”，选择“Save as File”，如下图：
点击“文件”→“另存为”txt文本，如下图：
点击“保存”，关闭Heartsome TMX Editor。
Step 4.利用TMX-ParaConV软件，从上一步得到的txt中英文本中分别导出中文txt文本和英文txt文本。步骤如下：
1.运行TMX-ParaConV，如下图：

双语平行语料库的制作流程

双语平行语料库的制作流程
1.数据收集：首先需要收集源语言和目标语言的文本数据。

可以通过
多种方式来收集数据，例如爬取网页内容、使用现有的翻译软件或者借助
专业翻译人员进行翻译。

2.文本对齐：在收集到源语言和目标语言的文本数据后，需要进行文
本对齐。

文本对齐是将源语言和目标语言的句子按照语义和结构进行对应，创建文本对。

这个过程可以手动完成，也可以使用自动对齐工具来辅助完成。

4.词对齐：在文本对齐之后，为了进一步提高平行语料库的质量，可
以进行词对齐。

词对齐是在句子级别基础上，将源语言和目标语言的词语
进行对齐，创建词级对齐。

5.质量评估：对于制作好的双语平行语料库，需要进行质量评估。

可
以通过对比机器翻译的质量、翻译准确度等指标来评估平行语料库的质量。

6.更新和维护：制作好的双语平行语料库需要定期进行更新和维护，
以保持其质量和实用性。

可以定期收集新的源语言和目标语言的文本数据，并进行文本对齐、清洗和词对齐等操作。

同时，也可以通过删除低质量的
文本对来优化平行语料库。

总结起来，制作双语平行语料库的流程包括数据收集、文本对齐、清
洗和预处理、词对齐、质量评估以及更新和维护。

这个过程需要耗费一定
的时间和精力，但制作好的双语平行语料库对于机器翻译、自然语言处理
等领域的研究和应用具有重要意义。

双语平行语料库对齐技术述评

双语平行语料库对齐技术述评对齐的双语语料库在机器翻译、词义消歧和双语词典编撰等领域都非常有用。

语料对齐的单位由大到小，有篇章、段落、句子、短语、词等不同的层次。

粒度越小，提供的语言信息就越多，应用的价值也就越大。

然而平行语料库的自动对齐并非是一件容易的事情。

由于语料大都来自人工翻译，句子之间并不都是一对一的翻译模式，还有一对多、多对多的翻译模式。

这种复杂性加大了对齐的难度，特别是对更细粒度级别的对齐。

由于语言之间存在着差异，找到固定的对应翻译很难，再加上文本预处理工具难以保证处理效果，以及一些电子文本的噪声纷繁复杂，这都增加了对齐的难度。

而对于英汉两种差别很大的语言来说，目前的语料库对齐算法并不一定完全适用于汉英语料库的对齐。

本文首先回顾了当前国外平行语料库的对齐技术，然后分析了国内在对齐中所使用的技术，旨在为本研究所今后构建小型汉英平行语料库提供一个技术支持。

1 目前平行语料库对齐技术的现状1.1 句子级对齐技术在各级对齐研究中，其中最为重要且较为成熟的自动对齐技术是句子一级的对齐。

句子级对齐的方法主要有三种：①基于长度的方法(length-based)(Brown et al,1991; Gale & Church, 1991a)；②基于词汇的方法(lexical-based)(Kay & Roscheisen, 1993)；③混合法(combination)(Tan & Nagao, 1995; Wu,1994)。

基于长度的方法最早是由Brown和Gale提出，虽然他们的算法都是由源文本中句子长度和译文本中的句子长度有很大的正相关这一观察得出，但其侧重点却不同。

Brown的算法以词为单位计算句子的长度，而Gale和Church则是以字符为单位计算句子的长度。

他们分别用各自的算法对加拿大议会会议所录英法双语语料库进行了对齐实验，准确率达96~97%。

然而该方法在处理复杂句子的对齐(如2∶1或2∶2的句子对齐,或非直译和省略的句子)以及不同语系的句子对齐时，准确率却并不高，而且此算法一旦出错，便不可能自动纠正。

中英句子对齐双语语料库建设——技术报告

“中英句子对齐双语语料库建设”技术报告中科院自动化研究所模式识别国家重点实验室北京1000801研究目标和内容本课题的研究目标是：对中英文篇章对齐的双语文本进行段落对齐、句子对齐加工，建立一个大规模具有统一标准和规范的、多领域、多体裁、句子级对齐的双语语言信息和知识库。

具体研究内容包括：●借助互联网等其他媒体搜集中英文篇章级对齐的双语文本，并进行必要的预处理。

●参照都柏林核元数据元素集制订了双语语料文本标注规范，在973标准讨论会上进行讨论通过。

●大规模文本句子对齐方法：面向多领域多体裁，采用基于双语词典的句子对齐方法进行了文本对齐，并对如何提高对齐精度做了进一步的研究和探讨。

●自动评价：对双语文本句子对齐结果实现自动评价。

目前完成的句子对齐双语语料库可以有以下几方面的应用：➢作为重要的语言资源，为基于统计的各种双语语言建模、分析提供必要的训练数据。

➢可以为机器翻译、跨语言信息检索等领域抽取双语词对、短语对提供真实文本标注素材。

2相关研究现状国内外很多研究机构都致力于双语语料库的建设，并利用这些语料库进行广泛的研究。

加拿大的议会会议录（Canadian Hansards）是非常著名的英法双语语料库，许多最初的基于双语语料库的研究都是在该语料库基础上进行的[1][2]。

有关汉外双语语料库建设及其研究，香港科技大学收集和加工了香港立法委员会的会议记录，形成汉英双语语料库[3]。

此外，北京大学、东北大学、哈尔滨工业大学的研究人员也建立了一定规模的汉英双语语料库[7][8][9]。

但目前汉外双语语料库规模比较小，加工规范也不统一，从而影响了双语语料库知识获取的研究。

实现各个层次的对齐是双语语料库建设的一项重要内容。

本文主要讨论汉英双语句子级对齐技术。

句子对齐方法基本可以分为三类：◆基于长度的方法：最初由Brown[1]和Gale[2]提出，其依据是两种语言译文的长度满足一定比例关系。

他们在英法双语的加拿大议会会议录上取得了较好的对齐效果；清华大学和哈尔滨工业大学的研究人员分别将基于长度的方法应用于Microsoft NT 3.5 Server安装指南和法律文献的汉英双语句子对齐，获得的试验结果。

人工智能翻译系统的多语种处理技巧

人工智能翻译系统的多语种处理技巧在处理多语种的翻译任务时，人工智能翻译系统需要采用一些特定的技巧和方法，以确保翻译结果准确无误、流畅易读。

本文将介绍人工智能翻译系统在多语种处理方面的一些技术和策略。

一、语言对齐技术在处理多语种翻译时，首先需要进行语言对齐，即将源语言和目标语言之间的对应关系进行匹配。

语言对齐技术可以根据句子结构、词义和语法等特征，将源语言和目标语言中的句子进行对齐，为后续的翻译工作提供基础。

二、双语语料库的构建为了提高翻译系统的准确性和效果，需要构建双语语料库，即源语言和目标语言的平行语料库。

双语语料库中包含了大量的句子对，可以用于翻译系统的训练和调优，使其具备更好的翻译能力。

构建双语语料库的方法主要有手工翻译、自动对齐和在线爬取等。

三、多语言词典的应用在进行多语种翻译时，多语言词典是非常重要的资源。

多语种词典中包含了各个语言之间的词汇对应关系，可以帮助系统准确理解源语言句子中的词汇，并将其正确翻译为目标语言。

多语言词典的构建可以通过手工整理、自动对齐和在线收集等方式进行。

四、语法和语言规则的处理不同语言之间存在着差异，包括句子结构、语法规则以及语言习惯等方面。

为了准确翻译不同语言的句子，人工智能翻译系统需要充分考虑这些差异，并建立相应的语法和语言规则。

通过分析源语言句子的结构和语法特征，系统可以更好地理解其含义，并将其转化为目标语言相应的表达方式。

五、上下文和语境的处理在进行多语种翻译时，上下文和语境的处理是非常关键的。

由于不同语言之间可能存在歧义，只考虑单个句子的翻译容易导致误解。

因此，人工智能翻译系统需要综合考虑上下文和语境的信息，以准确理解和翻译源语言句子。

这可以通过利用统计机器翻译和神经网络等技术来实现。

六、后编辑和质量评估尽管人工智能翻译系统在处理多语种任务时已经能够取得较好的效果，但仍然存在一些翻译错误和不准确的情况。

为了提高翻译结果的质量，可以引入后编辑和质量评估的环节。

利用Trados的WinAlign进行汉英平行语料库的句对齐

参考文献
［】ＢｋｒＭ．ｏｐｒｒｎｌｔｎｓｕｉ：１ａｅ，Ｃｒｏａｉｔａｓｉｔｄｅｎａｏｓ
Ａｎｏｖｒｉｗｎｄｓｅｖｅａｏｍｅｓｇｇｓｉｎｓｆｒｕｅｔｏｏ
ｆｔｒｒｓａｃ［】Ｔａｇｔ７：２ｕｕｅｅｅｒｈＪ．ｒｅ，／２２３～
ａｓｒｓｎｏｎｄｐａｅｐａｎｓｔｉｒａｅａｍｅｓ’ ｉｏｎｃｅｓｆｒｒ
￡Ｒ断ｌｌｉＰ；啜
鐾酗ｉ神
髫
滞
图１
① 基金项目：文系作者主持的云南省教育厅科学研究基金项目“ 语常用动词及其英译的聚类研究 ” 部分成果，项目编号为本汉的该０Ｃ４１４。此对项目资助方表示衷心的感谢。７０８在
２４３．
［】ＫａＭ．ｎｓｈｉｎ，Ｔｘ—ｔａｓ２ｙ，ａｄＲｏｃｅｓＭ．ｅｔｒｎ — ｅｌｔｏａｉｎｎ［】ＣｍｐｔｔｏａａｉｎｌｇｍｅｔＪ．ｏｕａｉｎｌ活。Ｌｎｕａｉｓ１９，９１：２～１２ｉｇｉｔｃ，９３１（）１１４．英：Ｔｈｅｓａｅａｏｔｆｅｔｅｍｅ－ｔｔｄｐｓｅｆｃｉａ［】王克非．型双语对应语料库的设计与ｖ３新ｓｒｓｏｎｃｅｓｉｕｔｎｔａｒｃｔｅｕｅｔｉｒａｅｎｐｉｏｇｉｕｌｕｒ构建【】中国翻译，０４６Ｊ．２０，．

基于英汉平行语料库的双语词对齐系统

摘要统计机器翻译的核心是双语平行语料库，需要对大量的平行语料库进行统计分析，从而构建出翻译模型。

双语词对齐是统计机器翻译系统中关键的一步，词对齐的准确率将直接影响翻译系统的性能。

此外，经过标注词对齐信息的语料具有很大的应用价值。

它能为词典编撰、跨语言信息检索和语义消歧等自然语言处理任务提供重要的支撑。

因此，如何获取高质量的双语词对齐信息具有很大的研究价值。

现有的词对齐方法往往通过统计信息进行对齐，没有充分考虑不同语言之间的语言特征。

在训练过程中通常需要大量的标注好的词对齐数据，而人工标注的对齐数据又太少，不能满足训练需求。

传统的词对齐模型考虑的词汇特征是稀疏的，从而导致语料中低频词的对齐效果较差。

本文针对以上问题，采用深度学习的方法进行词对齐的研究，主要工作如下：(1) 研究基于循环神经网络的词对齐方法。

该方法将传统的隐马尔可夫模型融入循环神经网络中，并且考虑句子的上下文信息，利用词汇的相似性，将句子中的低频词用意思相近的常用词代替，通过常用词找到与目标语言词的对应关系，从而得到低频词的词对齐信息。

模型采用无监督的学习方式，省去了人工标注词对齐语料的成本。

实验结果表明，该方法改善了词对齐的质量。

(2) 提出融入依存关系的词对齐方法。

该方法需要对输入的句子进行依存关系分析。

通过双向长短期记忆神经网络提取上下文的词向量特征，并引入注意力机制调控特征的融合，最终得到分析效果较好的依存分析器。

然后将双语训练语料通过分析器标注出依存关系。

使用依存关系信息、词性标记信息作为特征，融入对数线性模型中，从而得到词对齐信息。

(3) 在词对齐的基础上，实现基于短语的统计机器翻译系统，该系统主要包括翻译模型的训练、语言模型的训练、解码等模块。

将本文的翻译系统与当前常用的在线翻译平台进行对比分析。

关键词：词对齐，平行语料库，神经网络，统计机器翻译AbstractThe core of statistical machine translation is bilingual parallel corpus, which requires statistical analysis of a large number of parallel corpus to construct a translation model. Bilingual word alignment is a key step in statistical machine translation system. The accuracy of word alignment will directly affect the performance of the translation system. In addition, the corpus of the word alignment information has great application value. It can provide important support for natural language processing tasks such as dictionary compilation, cross-language information retrieval and semantic disambiguation. Therefore, how to obtain high-quality bilingual word alignment has great research value.The existing word alignment methods are often aligned by statistical information, without fully considering the linguistic characteristics between different languages. In the training process, a large number of labeled words are usually required to align the data, while the manually labeled alignment data is too small to meet the training requirements. The traditional word alignment model considers the lexical features to be sparse, which results in poor alignment of low-frequency words in the corpus. In view of the above problems, this thesis uses deep learning method to study word alignment. Specifically, this work mainly consists of the following three aspects:(1) Research on word alignment method based on Recurrent Neural Networks. This method incorporates the traditional Hidden Markov Model into the Recurrent Neural Networks. By considering the context information of sentences and using the similarity of vocabulary, the low-frequency words in the sentence are replaced by the common words with similar meanings. Through this common word, the corresponding relationship with the target language words can be found, and the alignment information of low-frequency words can be obtained. The model adopts unsupervised learning method, which saves the cost of manual tagging alignment corpus. The experimental results show that this method improves the quality of word alignment.(2) This thesis proposes a word alignment method that incorporates dependency relation. This method requires dependency analysis of the input sentences. The Bi-directional Long Short-Term Memory is used to extract the word embedding features of context, and the Attention Mechanism is introduced to control the fusion of features.重庆邮电大学硕士学位论文Finally, the dependent analyzer with better analysis results is obtained. And the bilingual training corpus is labeled with dependency relationship through this analyzer. Dependency relation information and part of speech information are used as features and integrated into a log-linear model to obtain word alignment information.(3) On the basis of word alignment, a phrase-based statistical machine translation system is implemented, which mainly includes the training of translation model, training of language model, and decoding module. The translation system in this thesis is compared with the commonly used online translation platform.Keywords: word alignment, parallel corpus, neural network, statistical machine translation目录目录图录 .............................................................................................................................. V II 表录 . (IX)注释表 (X)第1章绪论 (1)1.1 词对齐的研究背景及意义 (1)1.2 词对齐的国内外研究现状 (3)1.3 词对齐的难点 (5)1.4 本文研究内容及组织结构 (6)1.4.1 研究内容 (6)1.4.2 组织结构 (6)第2章词语对齐研究方法概述 (8)2.1 词语对齐的定义 (8)2.2 基于统计方法的词对齐研究 (9)2.2.1生成式词对齐学习方法 (9)2.2.2判别式词对齐学习方法 (11)2.3 基于深度学习的词对齐研究 (12)2.3.1前馈神经网络 (12)2.3.2注意力机制 (13)2.4 词向量表征 (16)2.4.1 分布式表征 (16)2.4.2 Word2vec词向量模型 (17)2.5 本章小结 (18)第3章基于循环神经网络的词对齐方法 (19)3.1 循环神经网络 (19)3.2 词汇的相似性 (21)3.3 基于RNN的词语对齐模型 (22)重庆邮电大学硕士学位论文3.4 预训练词向量 (24)3.5 模型参数训练 (25)3.6 实验与结果分析 (26)3.6.1 实验设置及实验环境 (26)3.6.2 评价指标及结果分析 (26)3.7 本章小结 (28)第4章融入依存关系的词对齐模型 (30)4.1 依存句法分析 (30)4.2 长短期记忆网络 (31)4.3引入注意力机制的依存分析模型 (33)4.3.1 特征模板 (33)4.3.2依存句法分析算法 (34)4.3.3词向量特征 (35)4.3.4引入注意力机制的联合模型 (37)4.4融入依存关系的词对齐方法 (38)4.4.1 对数线性模型 (38)4.4.2 特征函数 (39)4.5依存分析模型训练及实验分析 (40)4.5.1 Dropout方法 (40)4.5.2 模型参数训练及实验数据 (41)4.5.3 实验结果与分析 (41)4.6融入特征约束的词对齐模型训练及实验分析 (43)4.6.1 模型参数训练 (43)4.6.2 搜索过程 (44)4.6.3 实验结果与分析 (44)4.7 本章小结 (45)第5章统计机器翻译系统的实现 (47)5.1 翻译系统框架 (47)5.2 翻译系统的模块训练 (48)5.2.1 短语翻译模型的训练 (48)5.2.2 语言模型的训练 (52)5.3 翻译系统的解码 (52)5.4 翻译系统的结果展示 (54)5.5 本章小结 (57)第6章总结与展望 (58)6.1 工作总结 (58)6.2 工作展望 (59)参考文献 (60)致谢 (65)攻读硕士学位期间从事的科研工作及取得的成果 (66)图录图1.1 统计机器翻译系统框架 (3)图1.2 习惯用语的词对齐 (5)图2.1 词对齐示例 (8)图2.2 句对长度为2时所有可能的词对齐示例 (9)图2.3前馈神经网络结构图 (13)图2.4 Encoder-Decoder框架 (14)图2.5 引入注意力机制的Encoder-Decoder框架 (15)图2.6 注意力分配系数计算 (16)图2.7 CBOW和Skip-gram模型结构图 (18)图3.1 循环神经网络结构图 (20)图3.2 循环神经网络按时间序列展开 (20)图3.3 词对齐实例 (22)图3.4 基于RNN的词对齐模型 (23)图3.5 不同窗口大小对应的F值 (28)图4.1 依存句法结构图 (30)图4.2 LSTM单元结构 (31)图4.3 标准分析动作抽取算法 (35)图4.4 bi-LSTM提取词向量特征 (36)图4.5 引入attention的bi-LSTM模型框架 (37)图4.6dropout rate计算实验 (43)图5.1 统计机器翻译系统流程图 (47)图5.2 短语翻译模型训练流程 (49)图5.3 平行双语句对 (49)图5.4 数据处理流程图 (50)图5.5 短语抽取示例 (51)图5.6 短语翻译概率表 (51)重庆邮电大学硕士学位论文图5.7 解码流程图 (53)图5.8 翻译假设堆栈示例 (54)图5.9 谷歌翻译结果展示 (54)图5.10有道翻译结果展示 (55)图5.11百度翻译结果展示 (55)图5.12 本文系统翻译结果展示 (56)图5.13第三、四章翻译结果对比 (57)表录表录表3.1 实验配置环境 (26)表3.2 不同词对齐模型的实验结果 (27)表3.3 不同词对齐模型对翻译系统的影响 (28)表4.1 元特征模板 (34)表4.2 数据集划分 (41)表4.3 各模型对比实验结果 (42)表4.4 引入不同特征的实验结果 (45)注释表注释表MBMT Memory-based Machine Translation，基于记忆的机器翻译EBMT Example-based Machine Translation，基于实例的机器翻译SMT Statistical Machine Translation，统计机器翻译NNMT Neural Network Machine Translation，神经网机器络翻译HMM Hidden Markov Model，隐马尔可夫模型DNN Deep Neural Network，深度神经网络RNN Recurrent Neural Network，循环神经网络BLSTM Bi-directional Long Short-Term Memory，双向长短期记忆FNN Feedforward neural network，前馈神经网络MLP FMultilayer Perceptron，多层感知机BP Back Propagation，反向传播CNN Convolutional Neural Network，卷积神经网络CBOW Continuous Bag-of-Words，连续词袋BPTT Back Propagation Through Time，短语结构语法PSG Phrase Structure Grammar，对比估算LSTM Long Short Term Memory，长短期记忆SGD Stochastic gradient descent，随机梯度下降UAS Unlabeled Attachment Score，无标记依存正确率LAS Labeled Attachment Score，带标记依存正确率第1章绪论第1章绪论1.1 词对齐的研究背景及意义随着网络技术日新月异的发展，互联网正在全面融入经济社会中的各个领域，引领了社会生产新变革，自然语言技术也得到了蓬勃发展。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

英汉双语平行语料库人工对齐方法说明
1．概述
半自动英汉双语平行语料库的对齐分为两个过程：
第一个过程是先将两种语言的文本分成句子，每个句子占一行。

句子定义为：以句号、问号、感叹号、分号结尾的一串字符，或以句号+引号、问号+引号、感叹号+引号等结尾的一串字符。

“行”的概念是一串以回车换行符结尾的字符。

这个过程可以采用任何一种具有“查找”和“替换”功能的文字处理软件来完成，也可以编程由计算机自动完成。

第二个过程是在第一个过程产生的结果的基础上以手工方式将两种语言的文本在句子水平上对齐。

这一过程要采用UltraEdit软件来辅助完成。

在句子水平上对齐两种语言的文本，除了要注意以上对“句子”和“行”的定义以外，还应遵循一个重要的原则，即：如果两种语言的文本在句子的切分上有差异，应尽量保持原文句子不动，调整译文以适应原文。

为了能从双语平行语料库中获取更多的信息，还需要在对齐过程中插入少量的标记，例如：分译标记、合译标记、混译标记和移动标记等。

此外，为了便于以后的检索，对于过长的句子还要在适当的地方将长句截短成两个或更多的小句。

2．人工对齐的方法
2.1打开文件
先用UltraEdit软件将两个已经分为句子的文本文件打开，在该软件的工具栏的“窗口”下拉菜单中点“水平平铺”选项，使两个打开的文本同时显示在屏幕上。

为了操作方便，一般把原文放在上半屏，把译文放在下半屏。

（见图1）
2.2 上下移动文本
为了能够对齐两种语言的文本，在操作过程中需要不断地上下移动文本。

移动文本可以用鼠标移动窗口右边的滑块来完成。

也可以将光标放在某一行，然后用鼠标的中间滚轮来上下移动。

2.3 同步移动上下两个窗口中的文本
在“窗口”下拉菜单中选“同步”选项，就可以同步移动上下两个窗口中文本，极大地方便人工对齐的操作。

图1：用UltraEdit同时打开两种语言的文本。

2.4 译文句子的合并
如上所述，对齐的原则是尽量保持原文不变。

因此，如果译文的句子和原文不符，就需要调整译文，使其能与原文对齐。

如果原文的一句话在译文中被拆成两句话，即译文分为两行（见图2），应该将译文中的光标放在第二行的开始处，然后按“倒格键”（Backspace），将第二行拉回到上一行
的结尾处，使译文的两句处于同一行上。

如果译文是英语，将第二行拉回到上一行时，要注意第一行末尾的标点符号与原来
第二行的第一个单词之间应该有一个空格。

如果没有，应按一下“空格键”（Spacebar）加入一个空格。

然后在两句之间加入一个“分译”标记-SEPA-。

分译标记后要加入一个空格（见图3）。

图3. 译文按照原文合并在一行上，在原拆分处加“分译”标记-SEPA-。

如果译文是汉语，第一行末尾的标点与第二行第一个汉字之间没有空格。

如果有空格要删除。

同时，也要加入“分译”标记，但是标记的前后没有空格。

合并两行还可以采用另一种方法，可以先将光标放在第一行的末尾，然后按“删除键”（Delete）将第二行“拉”到上一行来。

但是，也要注意空格问题和加入“分译”标记。

2.5 译文句子的拆分
如果原文的两句话在译文中被译作一句话（见图4），应该先确定在译文中拆分的位置，然后将光标放在译文需要拆分的字或词之后，按“回车键”（Enter）即可将译文拆成两行。

拆分后应在第二行的开始处加上“合译”标记-MERG-，表示译文原来是合译成一句话。

如果译文是英语，应该在“合译”标记后面加一个空格，如果译文是汉语则可不加空格（见图5）。

图4. 原文两句，译文为一句。

图5. 译文按照原文拆成两部分，在合并处加“合译”标记-MERG-。

2.6 混译的处理
由于英汉两种语言的差异很大，而其译者采用的翻译方法也不尽相同。

有些情况下，译者不是按照原文的表达方式和顺序来行文，而是将原文中几句话的意思混在一起然后再翻译出来，因此我们很难确定译文中准确的拆分点（见图6）。

在这种情况下，为了能够准确对齐原文和译文的句子，有必要适当调整原文，直到译文能将所有的意思都包括进去为止。

同时，还要在混译的译文前面加上“混译”标记-MIX-（见图7）。

图6. 译文采用混译法，无法按照原文拆分成两句。

图7. 适当将相关的原文合并到一行，使译文的意思都能包括进去。

在混译的译文
前面加上混译标记-MIX-.
注意：混译是指译文将原文两个或多个句子的意思混合在一个句子里译出。

如果译文是将对应原文的一个句子的意思先后顺序颠倒或混合，不用加注混译标记。

2.7 译文的部分移动
有时译文并未按照原文的顺序行文，而且如果按照2.6的方法来处理，会使一行变得相当长，给以后的检索带来困难（见图8）。

图8. 译文中的put in Fan ...与原文“范博文忽然冷冷地插进来说，”位置有差别。

如果将原文的四行合并成一行，并将译文也合并成一行，会使一行太长，给以后的
检索造成困难。

在这种情况下，应该根据原文移动一部分译文的位置，使其符合原文的顺序，并在移动的地方做上“移动”标记。

移动标记由两部分构成：[-]表示有内容从此处移走；[+……]表示这部分是从别处（即前面的[-]号处）移来的。

“+”号后面空一格，后面是移走的内容（见图9）。

图9. 译文中的“put in Fan ...”移到与原文“范博文忽然冷冷地插进来说，”相应
的位置，并加了“移动”标记。

3．其他标记
除了上面第二节中使用的标记外，在对齐过程中还会使用到一些其他的标记，分别
说明如下
3.1 截短标记
有时原文一句话太长，会给语料库使用者在检索时造成困难（见图10）。

图10. 原文一句话太长，会给以后的检索造成困难。

因此，必要时可在原文某处将原文的一句话截短成两个或更多的部分，同时译文也随之发生变化。

但是，要注意应在原文和译文中都加注截短标记-DIVI-。

截短标记加在每一个截短的句子的开始处，但是要注意句首不加注（见图11）。

注意，在图11的例子中，在原文的第二个和第三个截短处恰好是译文采用分译的地方（译文分别以“分号”和“句号”断开）。

在这种情况下，译文中保留原分译标记-SEPA-。

3.2 未译标记
有时由于种种原因，译文会不完整，如漏译或故意不译等。

为了使原文和译文能够对齐，需要在未译的地方加一个未译标记[NT]。

如果是一个整句未译，未译标记占一行。

如果是一句话中的某一部分未译，则未译标记放在未译处，不占一行（见图12和图13）。

用了未译标记[NT]。

在此例中，未译标记不占一整行。

图13. 原文中的“到底还没讲出来呀！”未在译文中出现，因此使用了未译标记[NT]。

在此例中，未译标记占一整行。

3.3 增添标记
在对齐两种语言原文和译文的过程中，我们经常会发现在译文中会出现一些原文中没有的内容。

这可能是由于译者为了使意思更加明确或由于别的原因而加了一些附加说明性的内容。

出现这种情况时，可以将增添的内容用增添标记[ ] 括起来（见图14）。

注意，增添部分不能独占一行，也不使用其他标记。

4．小窍门
在做对齐工作的时候，由于要加注不同的标记，需要键入不同的字母，这样会降低对齐的速度。

可以通过一些小窍门来简化加注标记的方法。

例如，在分译标记或合译标记时，可以先用简单的字符来代替，例如，在凡是需要标记合译的地方都用“#”号代替。

在对齐工作完成之后，利用文字处理软件的查找和替换功能来查找“#”号，并将其全部替换成-MERG-，这样做既方便又快捷。