英汉双语平行语料库人工对齐方法说明

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

英汉双语平行语料库人工对齐方法说明

1.概述

半自动英汉双语平行语料库的对齐分为两个过程:

第一个过程是先将两种语言的文本分成句子,每个句子占一行。句子定义为:以句号、问号、感叹号、分号结尾的一串字符,或以句号+引号、问号+引号、感叹号+引号等结尾的一串字符。“行”的概念是一串以回车换行符结尾的字符。这个过程可以采用任何一种具有“查找”和“替换”功能的文字处理软件来完成,也可以编程由计算机自动完成。

第二个过程是在第一个过程产生的结果的基础上以手工方式将两种语言的文本在句子水平上对齐。这一过程要采用UltraEdit软件来辅助完成。

在句子水平上对齐两种语言的文本,除了要注意以上对“句子”和“行”的定义以外,还应遵循一个重要的原则,即:如果两种语言的文本在句子的切分上有差异,应尽量保持原文句子不动,调整译文以适应原文。

为了能从双语平行语料库中获取更多的信息,还需要在对齐过程中插入少量的标记,例如:分译标记、合译标记、混译标记和移动标记等。此外,为了便于以后的检索,对于过长的句子还要在适当的地方将长句截短成两个或更多的小句。

2.人工对齐的方法

2.1打开文件

先用UltraEdit软件将两个已经分为句子的文本文件打开,在该软件的工具栏的“窗口”下拉菜单中点“水平平铺”选项,使两个打开的文本同时显示在屏幕上。为了操作方便,一般把原文放在上半屏,把译文放在下半屏。(见图1)

2.2 上下移动文本

为了能够对齐两种语言的文本,在操作过程中需要不断地上下移动文本。移动文本可以用鼠标移动窗口右边的滑块来完成。也可以将光标放在某一行,然后用鼠标的中间滚轮来上下移动。

2.3 同步移动上下两个窗口中的文本

在“窗口”下拉菜单中选“同步”选项,就可以同步移动上下两个窗口中文本,极大地方便人工对齐的操作。

图1:用UltraEdit同时打开两种语言的文本。

2.4 译文句子的合并

如上所述,对齐的原则是尽量保持原文不变。因此,如果译文的句子和原文不符,就需要调整译文,使其能与原文对齐。

如果原文的一句话在译文中被拆成两句话,即译文分为两行(见图2),应该将译文中的光标放在第二行的开始处,然后按“倒格键”(Backspace),将第二行拉回到上一行

的结尾处,使译文的两句处于同一行上。

如果译文是英语,将第二行拉回到上一行时,要注意第一行末尾的标点符号与原来

第二行的第一个单词之间应该有一个空格。如果没有,应按一下“空格键”(Spacebar)加入一个空格。然后在两句之间加入一个“分译”标记-SEPA-。分译标记后要加入一个空格(见图3)。

图3. 译文按照原文合并在一行上,在原拆分处加“分译”标记-SEPA-。

如果译文是汉语,第一行末尾的标点与第二行第一个汉字之间没有空格。如果有空格要删除。同时,也要加入“分译”标记,但是标记的前后没有空格。

合并两行还可以采用另一种方法,可以先将光标放在第一行的末尾,然后按“删除键”(Delete)将第二行“拉”到上一行来。但是,也要注意空格问题和加入“分译”标记。

2.5 译文句子的拆分

如果原文的两句话在译文中被译作一句话(见图4),应该先确定在译文中拆分的位置,然后将光标放在译文需要拆分的字或词之后,按“回车键”(Enter)即可将译文拆成两行。拆分后应在第二行的开始处加上“合译”标记-MERG-,表示译文原来是合译成一句话。如果译文是英语,应该在“合译”标记后面加一个空格,如果译文是汉语则可不加空格(见图5)。

图4. 原文两句,译文为一句。

图5. 译文按照原文拆成两部分,在合并处加“合译”标记-MERG-。

2.6 混译的处理

由于英汉两种语言的差异很大,而其译者采用的翻译方法也不尽相同。有些情况下,译者不是按照原文的表达方式和顺序来行文,而是将原文中几句话的意思混在一起然后再翻译出来,因此我们很难确定译文中准确的拆分点(见图6)。

在这种情况下,为了能够准确对齐原文和译文的句子,有必要适当调整原文,直到译文能将所有的意思都包括进去为止。同时,还要在混译的译文前面加上“混译”标记-MIX-(见图7)。

图6. 译文采用混译法,无法按照原文拆分成两句。

图7. 适当将相关的原文合并到一行,使译文的意思都能包括进去。在混译的译文

前面加上混译标记-MIX-.

注意:混译是指译文将原文两个或多个句子的意思混合在一个句子里译出。如果译文是将对应原文的一个句子的意思先后顺序颠倒或混合,不用加注混译标记。

2.7 译文的部分移动

有时译文并未按照原文的顺序行文,而且如果按照2.6的方法来处理,会使一行变得相当长,给以后的检索带来困难(见图8)。

图8. 译文中的put in Fan ...与原文“范博文忽然冷冷地插进来说,”位置有差别。

如果将原文的四行合并成一行,并将译文也合并成一行,会使一行太长,给以后的

检索造成困难。

在这种情况下,应该根据原文移动一部分译文的位置,使其符合原文的顺序,并在移动的地方做上“移动”标记。移动标记由两部分构成:[-]表示有内容从此处移走;[+……]表示这部分是从别处(即前面的[-]号处)移来的。“+”号后面空一格,后面是移走的内容(见图9)。

图9. 译文中的“put in Fan ...”移到与原文“范博文忽然冷冷地插进来说,”相应

的位置,并加了“移动”标记。

3.其他标记

除了上面第二节中使用的标记外,在对齐过程中还会使用到一些其他的标记,分别

说明如下

3.1 截短标记

有时原文一句话太长,会给语料库使用者在检索时造成困难(见图10)。

图10. 原文一句话太长,会给以后的检索造成困难。

因此,必要时可在原文某处将原文的一句话截短成两个或更多的部分,同时译文也随之发生变化。但是,要注意应在原文和译文中都加注截短标记-DIVI-。截短标记加在每一个截短的句子的开始处,但是要注意句首不加注(见图11)。

注意,在图11的例子中,在原文的第二个和第三个截短处恰好是译文采用分译的地方(译文分别以“分号”和“句号”断开)。在这种情况下,译文中保留原分译标记-SEPA-。

3.2 未译标记

有时由于种种原因,译文会不完整,如漏译或故意不译等。为了使原文和译文能够对齐,需要在未译的地方加一个未译标记[NT]。如果是一个整句未译,未译标记占一行。

相关文档
最新文档