平行语料库制作流程
浅谈如何快速搭建英汉双语平行语料库与平行语料库检索平台

浅谈如何快速搭建英汉双语平行语料库与平行语料库检索平台语料库不仅在商业领域有着重要的作用,在翻译学研究、语用学研究以及实践教学等领域都有重要的作用。
语料库研究与应用是以语料库建设为前提,语料库建设是所有环节中最为重要的一个环节。
语料库在商业领域与科研教学领域的应用与研究的快速发展,得益于语料库建设的技术手段日益成熟,同时语料库也呈现出多样化的应用与实践。
本文通过深度探索语料库建设与应用的前沿技术发展与应用情况,重点介绍建立英汉语料库以及平行语料库应用平台所需技术支持以及详细的语料库建设与应用操作细则。
标签:语料库建设;语料库应用;双语平行语料库语料库分为单语语料库、双语语料库以及多语语料库,语料库是语言实际应用过程中产生的语言数据,例如图书的翻译、商业文件的翻译以及新闻报告的翻译等语言数据都是形成语料库的基本语料材料。
目前的研究主要是基于双语语料库的制作与应用,双语语料库也是最为广泛使用以及数量最多的语料库种类之一,语料库的存放是以数据库的形式存在为主,形成真正的语料库需要经过收集、转化、降噪、对齐、审校等诸多步骤,形成最终可用的语料库。
语料库的建设目的是多样化的,语料库的来源也是极其广泛,其中尤为重要的环节就是语料的对齐,语料对齐的速度直接决定了语料库制作的效率。
高质量的语料库是进行语料库制作与应用的基础,语料库的质量会直接影响最终的应用效果。
一、研究意义语料库的研究与应用目前在商业领域已经有了突飞猛进的发展,特别是近两年神经网络的发展,语料库对于机器翻译的发展奠定了基础,极大提高了目前谷歌、百度、搜狗、有道以及必应等机器翻译引擎的质量。
不仅如此,商业领域的巨头包括强生、中石化、微软、阿里巴巴以及腾讯等诸多公司都在不同程度的基于语料库提升在各自特定領域的机器翻译引擎质量,其中阿里巴巴的机器翻译引擎已经为中国众多企业将成千上万的商品推向全球市场提供了翻译支持。
不仅如此,语料库在学术、科研以及教学实践等应用方面都有着举足轻重的作用,利用语料库可以进行语用学、翻译学、译者行为、语言风格等多方面学术科研;同时语料库在教学中也广泛应用,通过语料库进行教学应用,教师可以将学生的翻译作业整理成语料库,利用语料库检索功能,学生可以进行自查自纠,教师也可以通过制作学生翻译作业的语料库寻找共性问题进行讲解,帮助学生解决翻译实践中产生的问题。
双语平行语料库的制作流程

1.运行ParaConc269软件,如下图:
2.点击“File”,在下拉列表中选择“Load Corpus Files”,如下图:
3.在Align format处,选择“Start/stop tags”,如下图:
4.点击“add”,分别添加Step 4中得到的中文txt文本和英文txt文本。如下图:
3.点击“导出”,如下图:
点击“确定”,关闭该软件。
4.找到导出文本所在文件夹,可以看到txt格式的中文文本和英文文本,打开中文文本,如下图:
点击“文件”,选择“另存为”,如下图:
在“编码”处可看到当前编码为“UTF-8”,点击,在下拉列表中选择“ANSI”,如下图:
选择“是”,关闭记事本。
注意:与英文txt文本不同,中文txt文本必须经过这一步改成ANSI格式。若文件数量大,也可使用编码批量转换软件。
点击“OK”,双语语料库制作完成。
Step 6.在该语料库中执行“搜索”功能。例如,查询“shall”在该语料库中对应的中文翻译。
1.点击“Search”,在下拉列表中选择“search”。在跳出的选框中输入“shall”,如下图:
点击”OK”,即可得到搜索结果,如下图:
2.可将搜索结果保存下来:保持该搜索界面不变,点击“Search”,选择“Save as File”,如下图:
点击“文件”→“另存为”txt文本,如下图:
点击“保存”,关闭Heartsome TMX Editor。
Step 4.利用TMX-ParaConV软件,从上一步得到的txt中英文本中分别导出中文txt文本和英文txt文本。步骤如下:
1.运行TMX-ParaConV,如下图:
双语平行语料库的制作流程

双语平行语料库的制作流程
1.数据收集:首先需要收集源语言和目标语言的文本数据。
可以通过
多种方式来收集数据,例如爬取网页内容、使用现有的翻译软件或者借助
专业翻译人员进行翻译。
2.文本对齐:在收集到源语言和目标语言的文本数据后,需要进行文
本对齐。
文本对齐是将源语言和目标语言的句子按照语义和结构进行对应,创建文本对。
这个过程可以手动完成,也可以使用自动对齐工具来辅助完成。
4.词对齐:在文本对齐之后,为了进一步提高平行语料库的质量,可
以进行词对齐。
词对齐是在句子级别基础上,将源语言和目标语言的词语
进行对齐,创建词级对齐。
5.质量评估:对于制作好的双语平行语料库,需要进行质量评估。
可
以通过对比机器翻译的质量、翻译准确度等指标来评估平行语料库的质量。
6.更新和维护:制作好的双语平行语料库需要定期进行更新和维护,
以保持其质量和实用性。
可以定期收集新的源语言和目标语言的文本数据,并进行文本对齐、清洗和词对齐等操作。
同时,也可以通过删除低质量的
文本对来优化平行语料库。
总结起来,制作双语平行语料库的流程包括数据收集、文本对齐、清
洗和预处理、词对齐、质量评估以及更新和维护。
这个过程需要耗费一定
的时间和精力,但制作好的双语平行语料库对于机器翻译、自然语言处理
等领域的研究和应用具有重要意义。
双语平行语料库的制作流程

双语平行语料库的制作流程1.数据收集:首先需要收集双语文本数据。
可以通过多种渠道获得,包括网络爬虫、公开数据库、专业机构的数据集等。
收集到的数据应涵盖各个领域的文本,以便在不同领域的实际应用中使用。
2.预处理:收集到的数据通常需要进行预处理,以确保数据的质量和一致性。
预处理的步骤包括:-分割句子:根据标点符号或换行符将文本分割成句子。
-标准化:将数据转换为统一的格式,如转换为小写、标准化日期和数字格式等。
-分词:将句子划分成单词或短语的序列,通常使用现有的分词工具。
3.对齐:对齐是将双语文本进行匹配的过程,以确定源语言和目标语言之间的对应关系。
常见的对齐方法包括基于规则的对齐和基于统计的对齐。
在基于规则的对齐中,研究人员根据语言对之间的特征和规则手动对齐句子。
而基于统计的对齐则利用计算机算法自动匹配句子。
4.清洗:对齐后,需要对语料进行清洗,以去除低质量的对齐数据和噪声。
常见的清洗方法包括:-去除标点符号和特殊字符。
-去除长度不一致的句对。
-去除重复数据和重复句子。
-去除机器翻译和错误对齐的数据。
5.评估:评估是对制作的平行语料进行质量检查的步骤。
评估通常包括两个方面:- 句子级评估:比较源语言和目标语言之间的对齐质量,判断对齐是否准确。
可以使用BLEU(Bilingual Evaluation Understudy)等自动评估指标来评估翻译质量。
-文本级评估:评估语料库的覆盖度、平衡性和多样性等。
可以通过检查词汇表的覆盖范围、领域和主题的分布来评估。
6.存储和管理:制作好的双语平行语料库需要进行存储和管理。
可以使用数据库、文件系统或特定的双语平行语料库管理工具来存储和管理平行语料库。
此外,还可以使用标记文件格式(如XML或JSON)对语料进行标注,以便更好地进行检索和利用。
总结起来,制作双语平行语料库的流程包括数据收集、预处理、对齐、清洗和评估等多个步骤。
每个步骤都需要仔细进行,以确保制作出高质量的双语平行语料库,以支持各种自然语言处理任务的研究和应用。
汉意意汉文学平行语料库的研制

语料库语言学 2020年 第7卷 第2期汉意意汉文学平行语料库的研制*北京外国语大学 余丹妮提要:北京外国语大学汉意意汉文学平行语料库是首个以意大利语经典文学作品及其汉语译本、汉语经典文学作品及其意大利语译本为语料创建的双语双向平行语料库。
语料库研制的主要环节包括语料文本的搜集与选择、语料电子化、语料对齐与语料检索功能的实现。
本语料库基于互联网进行部署,向相关领域的学习者、译员及研究人员开放,有助于促进汉语—意大利语文学翻译的教学与研究,以期进一步推动中国文学的对外翻译。
关键词:汉意意汉文学平行语料库、意大利语、文学翻译1. 引言双语平行语料库的建设与研究已有近30年的历史。
20世纪90年代初,世界上第一个双语库在加拿大建成(王克非、黄立波 2012:3)。
平行语料库的开发与研制是语料库翻译学取得新突破的数据和方法基础,其潜力有待激发(王克非、黄立波 2012:8)。
目前,平行语料库涉及的语言主要为英语,比如德英文学文本平行语料库(GEPCOLT)、隆德大学开发的英语—瑞典语双向平行语料库(ESPC)、博洛尼亚大学开发的英语—意大利语双向平行语料库(CEXI)等(王克非、黄立波 2012)。
目前仍未发现汉语与意大利语作为句对的双语平行语料库以及相关研究。
自2019年3月,我国与意大利签署《“一带一路”倡议谅解备忘录》以来,中意两国在各领域的合作日益加深,意汉文学翻译领域及翻译教学的需求不断增长。
1980—2017年,37年间,在意大利仅以书籍形式出版的中国文学译作就有260部(吴菡、吴志杰 2018)。
在这一背景下,汉意意汉文学平行语料库CIICLPC的创建具有紧迫性和必要性,将为两国的文学翻译研究、文学交流与语言教学等提供突破性的数据共享平台,为现有翻译研究提供可靠的数据支撑,更系统地推进意汉翻译研究。
* 本文系教育部人文社科青年项目“意汉双向平行语料库的构建与研究”(19YJC740044)、北京外国语大学一流学科建设自主选题重点项目“意大利语语言学研究概论”(YY19ZZA022)和北京外国语大学一流学科建设自主选题重点项目“汉语—欧洲非通用语双语平行语料库”(YY19ZZA021)的阶段性成果。
古今汉语平行语料库的语料构建-2019年精选文档

古今汉语平行语料库的语料构建一缘起“汉语是世界上正在使用的语言中最古老的语种之一。
汉语古籍无论是数量还是涉及的范围及其历史跨度,在世界上都是无与伦比的。
”①灿烂悠久的中国思想文化,通过这些典籍得以保存、传承,在历经千载的延续过程中,又得后人的认识和研究,融入新的内涵,由此构筑了中国的古代文明。
今天,这些承载着中华民族灿烂文明的典籍仍在被广泛地使用着,尤其在人文学科领域的应用价值更是显而易见。
同时,随着大众文化水平的提高、经济的发展与对外往来的增加,越来越多的非专业人士希望深入了解中国传统的思想文化,但古代汉语与现代汉语之间存在着的明显差异使得很多现代人难以理解以古汉语为载体的传统典籍。
有鉴于此,我们提出要建设一个大型、开放的古今汉语平行语料库及其应用平台,为古籍整理和翻译(含机器翻译或机器辅助翻译)、古代汉语教学与研究以及辞书编纂提供基础资源,为需要了解中国传统思想文化的普通读者及相关学科的专家提供阅读、翻译、检索、统计服务,并为与现有的汉英双语语料库的对接奠定基础,从而为实现古汉语和英语的翻译(含机器翻译或机器辅助翻译)创造条件。
平行语料原指使用不同语言撰写、相互间具有“翻译关系”的文本,本文将其延展为基于同一语言且不同历史时期兼具有“翻译关系”的文本,就汉语而言,即指“古今汉语”。
平行语料库已被系统地应用到自然语言处理中,包括建立翻译记忆、编纂词典和双语术语表、跨语言信息检索、计算机辅助教学、语言对比研究等。
国外涉及汉语的平行语料库中影响较大的是与Freiburg-LOB Corpus of British English (即FLOB 平行对应的汉语语料库LCM②(The Lan caster Corpus of Ma ndarin Chinese )。
国内的主要研究有北京大学计算语言学研究所的汉英双语语料库以及北京外国语大学拥有的目前国内最大的双语平行语料库(含汉英和汉日两个库)等[1] 。
英汉社论平行语料库

英汉社论平行语料库1.引言1.1 概述概述部分:随着全球化的发展,英汉社论的重要性日益凸显。
社论作为一种新闻类文体,承载着媒体的立场和观点,并在舆论场中发挥着重要的作用。
因此,对于英汉社论的研究和理解具有重要的意义。
为了更好地研究英汉社论,建立一个英汉社论平行语料库是至关重要的。
英汉社论平行语料库是指收集和整理一定数量的英语社论与对应的中文翻译,以便进行对照和分析。
这样的平行语料库可以帮助研究人员深入了解英汉社论的语言特点、文体特征以及表达方式等。
建立英汉社论平行语料库的目的有两个方面。
首先,它可以作为翻译研究的重要资源,帮助翻译人员更好地进行英汉社论的互译。
其次,它可以为社会科学研究提供依据,例如新闻传播学、语言学和文化研究等领域的学者可以通过对英汉社论平行语料库的分析来揭示社论对于公众舆论形成的影响。
本文将从概述、文章结构和目的三个方面对英汉社论平行语料库进行全面介绍。
首先,我们将简要概述英汉社论的背景和重要性。
然后,我们将详细介绍英汉社论平行语料库的定义和意义。
接着,我们将讨论建立英汉社论平行语料库的方法和步骤,包括语料的采集、整理以及语言特征的标注。
最后,我们将展望英汉社论平行语料库的应用前景,并对整篇文章进行总结和展望。
通过对英汉社论平行语料库的研究和应用,我们可以更好地理解英汉社论的特点和规律,并且为相关领域的学术研究和实际应用提供支持和参考。
希望本文能够为英汉社论平行语料库的建设和应用提供启示,并促进跨文化交流和研究的发展。
1.2 文章结构本文将按照以下结构进行阐述和探讨英汉社论平行语料库的相关内容:1. 引言:首先,我们将概述本文的研究背景和意义,明确本文的研究目的。
通过引言部分,读者可以初步了解到本文所要探讨的问题及其重要性。
2. 正文:正文是本文的核心部分,旨在详细介绍英汉社论平行语料库的定义、意义、以及建立方法和步骤。
2.1 英汉社论平行语料库的定义和意义:首先,我们将解释什么是英汉社论平行语料库,即在英汉两种语言中,相互对应的社论文本的语料库。
双语平行语料库的制作流程

双语平行语料库的制作流程Step 1. 用ABBYY Aligner软件对齐中英双语文档,并导出tmx文本。
步骤如下:1.启动ABBYY Aligner,如下图:2.点击“文件图标”导入英文文档点击这里添加英文文档英文文档导入后会自动弹出对话框,在对话框中选择中文文档导入,如下图:3.点击Align,利用该软件自动对齐,结果如下图:Align接下来需要手动修改,将文档中没有对齐的地方整理对齐。
(为了确保准确和高效,建议首先整理上图中标色部分,这是该软件自动识别标出的有可能没有对齐的句子。
把这些修改完后,再从头到尾检查一遍,修改其余没检测出来的未对齐句子。
)修改后如图:4.点击Export to TMX,保存对齐之后的tmx文本Step 2. 利用trados软件,将Step 1中的tmx文本导入记忆库,并从记忆库中导出新的tmx文本。
步骤如下:1.启用SDL Trados Studio 2011,如下图:2.点击左上角“升级翻译记忆库”点击“添加文件”,点击“关闭”点击“是”。
3.打开该翻译记忆库,则左侧“翻译记忆库”下方出现该记忆库。
选中该记忆库,右击,选择“导出”完成,关闭Trados。
Step 3. 利用Heartsome TMX Editor软件,对上一步中得到的tmx文本“降噪”。
步骤如下:1.运行Heartsome TMX Editor,如下图:2.点击“文件”,选择“打开TMX文件”,如下图:选择从trados记忆库中导出的tmx文本,点击“打开”,如下图:3.点击“编辑”,在下拉列表中选择“清除所有标记”,如下图:点击“确定”,“降噪”完成。
4.点击“文件”→“保存”。
5.从文件夹中找到该文本,用记事本打开,如图:点击“文件”→“另存为”txt文本,如下图:点击“保存”,关闭Heartsome TMX Editor。
Step 4. 利用TMX-ParaConV软件,从上一步得到的txt中英文本中分别导出中文txt文本和英文txt文本。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
平行语料库制作流程
说明:在邹颂兵先生、孟令子博士的基础上,由李涛、李晓倩讨论完成,期间胡慧婷也参与讨论,给予了很好的建议。
这个流程对于有些老师和同学,实在没有必要这么繁琐,有些步骤可以利用一些软件一次性解决,推荐两款软件试用,文本整理器;PowerGREP。
之所以如此繁琐,是想让大家更加详细的了解整个建库流程以及为什么这么做。
当然在建库过程中还会遇到更多的问题,大家可以尝试自己去解决。
)
1.语料采集(目的不同,方法各异)
2.去噪(Emeditor)
(1)消除回车和空行:\n\s*——空(\n表示新行;\s表示空格,*表示0个或多个;之所以加上\s*是为了避免回车键前面有空格。
)
(2)去空格英文\s+ 替换为空格(\s表示空格,+表示1个或更多。
该表达式意思表明如果原来有1个空格,就替换为1个空格,如果多于1个空格,仍然替换为1个空格。
之所以如此,是因为英文单词之间是有1个空格存在的。
)中文\s*替换为空(\s表示空格,*表示0个或更多。
该表达式意思表明如果原来有0个空格,就替换为0个空格,如果多于1个空格,仍然替换为0个空格。
之所以如此,是因为汉字之间是有0个空格存在的。
)
3.分词
英文Claws
中文ICTCLAS (可以选择二级标准,北大标准)
中文分词校对常见:人名标注为/nr,(如小说《首席》里,人名飘雪被标注为“飘/v雪/n”; 可以统一替换为“飘雪/nr”); 地名/ns;
4.标点符号处理
英语标点符号全部替换成单个标点。
(因为Claws标注后的英文标点及其标注显示为“标点_标点”;以问号?为例,即“?_?”;更改后,变为“?”即可。
特别注意省略号,因为Claws标注后的省略号及其标注显示为“._.._.._.”其中第一个“._.”和后面两个“._.._.”之间换行了,这样在添加<seg>标志是会造成默认三个英语句号标识。
两种解决方案:1.替换句号之前查找“._.\n ._.._.”(选择正则表达式一栏),替换成“---”(什么符号都可以,自己知道意思即可,但整个语料库建设里一般会涉及多人,所以大家要统一);2.如果先替换句号,就直接查找“. \n ..”(选择正则表达式一栏),替换成“---”。
建议所有查找和替换操作都从文本中复制以免格式不匹配。
中文标点符号全部转成英文状态下的半角格式并去除其词性标注/w。
(ICTCLAS标注后的中文标点及其标注显示为“标点/w”;以问号?为例,即“?/w”;更改后,变为“?”即可。
特别提醒:一些中文特有的标点符号如“……”;“破折号”;“、”“《》”等,我们认为可以分别替换成“---”(三个);“--”(两个);“/”;“<>”)
问题:(可以专门查找省略号,然后自己判定是否是句子结束标志;也可以忽略,在对齐校对的时候做。
)
“我……我……我怎么了?”这个时候……并不是一句话的结束。
“啊……”这个时候……是一句话的结束。
4.添加对齐标志(中英文一致)
考虑到有时在对话中句号、问号和叹号加上了引号,即.”、?”、!”,也代表一句话的结束,因此我们建议分三步添加对齐标志:(1)用特定符号,如11111111,替换带引号的句号、问号、叹号,目的在于避免对其标志出现在引号之内。
(2)句号、问号和叹号之后添加对齐标志。
(3)在11111111之后添加对齐标志。
(1)处理加引号的句号、问号和叹号(使用正则表达式)
\."替换为11111111
\?"替换为22222222
\!" 替换为33333333
(2) 处理所有文本中句号、问号和叹号(使用正则表达式)
查找\. 替换为.</seg>\n<seg>
查找\? 替换为?</seg>\n<seg>
查找\! 替换为!</seg>\n<seg>
(3)再处理(1)遗留的问题
查找11111111 替换为."</seg>\n<seg>
查找22222222 替换为?"</seg>\n<seg>
查找33333333 替换为!"</seg>\n<seg>
开头和结尾处标注手动添加5.平行(详细做法请参照ParaConc使用说明)
1)添加语料
2)Align Format 要选Start/Stop tags
3)查看语料对齐
4) 选中两个文本后,选中alignment。