双语平行语料库的制作流程
浅谈如何快速搭建英汉双语平行语料库与平行语料库检索平台

浅谈如何快速搭建英汉双语平行语料库与平行语料库检索平台语料库不仅在商业领域有着重要的作用,在翻译学研究、语用学研究以及实践教学等领域都有重要的作用。
语料库研究与应用是以语料库建设为前提,语料库建设是所有环节中最为重要的一个环节。
语料库在商业领域与科研教学领域的应用与研究的快速发展,得益于语料库建设的技术手段日益成熟,同时语料库也呈现出多样化的应用与实践。
本文通过深度探索语料库建设与应用的前沿技术发展与应用情况,重点介绍建立英汉语料库以及平行语料库应用平台所需技术支持以及详细的语料库建设与应用操作细则。
标签:语料库建设;语料库应用;双语平行语料库语料库分为单语语料库、双语语料库以及多语语料库,语料库是语言实际应用过程中产生的语言数据,例如图书的翻译、商业文件的翻译以及新闻报告的翻译等语言数据都是形成语料库的基本语料材料。
目前的研究主要是基于双语语料库的制作与应用,双语语料库也是最为广泛使用以及数量最多的语料库种类之一,语料库的存放是以数据库的形式存在为主,形成真正的语料库需要经过收集、转化、降噪、对齐、审校等诸多步骤,形成最终可用的语料库。
语料库的建设目的是多样化的,语料库的来源也是极其广泛,其中尤为重要的环节就是语料的对齐,语料对齐的速度直接决定了语料库制作的效率。
高质量的语料库是进行语料库制作与应用的基础,语料库的质量会直接影响最终的应用效果。
一、研究意义语料库的研究与应用目前在商业领域已经有了突飞猛进的发展,特别是近两年神经网络的发展,语料库对于机器翻译的发展奠定了基础,极大提高了目前谷歌、百度、搜狗、有道以及必应等机器翻译引擎的质量。
不仅如此,商业领域的巨头包括强生、中石化、微软、阿里巴巴以及腾讯等诸多公司都在不同程度的基于语料库提升在各自特定領域的机器翻译引擎质量,其中阿里巴巴的机器翻译引擎已经为中国众多企业将成千上万的商品推向全球市场提供了翻译支持。
不仅如此,语料库在学术、科研以及教学实践等应用方面都有着举足轻重的作用,利用语料库可以进行语用学、翻译学、译者行为、语言风格等多方面学术科研;同时语料库在教学中也广泛应用,通过语料库进行教学应用,教师可以将学生的翻译作业整理成语料库,利用语料库检索功能,学生可以进行自查自纠,教师也可以通过制作学生翻译作业的语料库寻找共性问题进行讲解,帮助学生解决翻译实践中产生的问题。
云南省旅游汉日双语平行语料库的创建和应用

2017年4月第6卷 第2期 JournalofBengbuUniversity Apr畅2017Vol畅6,No畅2云南省旅游汉日双语平行语料库的创建和应用收稿日期:2016-12-16基金项目:云南省教育厅科学研究基金资助性项目(2016ZZX322)。
作者简介:和佳(1981-),女,纳西族,云南丽江人,讲师,硕士。
E-mail:459326488@qq.com和 佳(云南大学 旅游文化学院,云南 丽江 674100)摘 要:云南省构建旅游汉日双语语料库的创建主要包括设计、语料收集、加工、对齐、检索等内容,包含3个子库,有必要性和现实性。
云南省旅游汉日双语语料能够广泛应用于包括为翻译工作者提供语料参考;规范旅游汉日表达,形成统一译名;进行语言教学和翻译教学;汉日旅游词典编纂以及相关教材编写等多方面。
该语料库的创建具有实用价值和意义。
关键词:云南省旅游汉日双语平行语料库;创建;应用中图分类号:H36文献标识码:A文章编号:(2017)02-0099-05Construction and Application of Tourist Chinese and Japanese Parallel Corpusof Yunnan ProvinceHEJia(SchoolofCultureandTourism,YunnanUniversity,Lijiang,674100,Yunnan)Abstract :ThereisgreatnecessityandpracticalsignificanceinconstructingthetouristChineseandJapa-neseparallelcorpusofYunnanProvince.Theconstructionofthecorpusmainlyincludesdesign,datacol-lection,dataprocessing,dataalignmentanddataretrievaletc.Thecorpusconsistsofthreesub-databasewhichcouldserveasdatareferencefortranslators,providestandardtranslationbetweenChineseandJapa-nese.Thecorpusmayalsobebeneficialintermsoflanguageandtranslationteaching,ChineseandJapa-nesetouristdictionarycompilingaswellasrelevantteachingmaterialedition.Theconstructionofthecor-pusisofgreatpracticalvalueandsignificance.Key words :touristChineseandJapaneseparallelcorpusofYunnanProvince;construction;application 语料库是应用计算机技术对大量自然语言材料进行处理、存储,以供自动检索、索引和统计分析的大型资料库[1]。
上海外语教育出版社英汉双语平行句对语料库的构建

摘要上海外语教育出版社英汉双语平行句对语料库建设是该社承担的上海市科委课题“双语词典编纂系统的研发”的子课题。
该语料库是该社双语词典编纂系统的在线辅助语料库之一,为双语词典编纂提供英汉平行句对例证,并为词典编纂提供语言统计信息、分析信息等。
文章综述了该语料库的设计和构建过程,内容涉及语料的采集、加工、标注、检索等方面,同时也探讨今后如何进一步开发与利用该语料库。
关键词平行语料语料库建设双语词典编纂系统上海外语教育出版社(以下简称“外教社”)承担的上海市科委课题“双语词典编纂系统的研发”是上海市政府扶持辞书编纂出版数字化的重大科研项目,该课题的总体目标是开发一个基于语料库的数字化双语词典编纂出版系统,其子课题之一就是构建一个服务于双语词典编纂、经过深加工的、通用共时并在句子层面对齐的英汉双语书面语语料库。
该语料库以英语为原语、以汉语为译语,以xml(extensible markup language)为标注语言,对英语原文语料的标注做到分词(tokenization)、主词标注(lemmatization)及词性赋码(part ofspeech tagging),对汉语译文语料的标注做到分词及词性赋码。
基于该语料库,词典编纂者及词典用户可以通过在线检索平台提取有效的词典例证,统计具体词语的词频信息,了解词汇的分布情况,获得具体词语或结构的用法信息(包括语义、语法、搭配等方面)。
经过三年多的建设,该语料库一期工程已建成收录68万英汉双语平行句对的语料库,总字数达5455万。
本文将综述该语料库的设计和构建过程,内容涉及语料的采集、加工、标注、检索等方面。
一、语料库前期设计课题研究开始时,外教社课题组与各合作单位进行了较为广泛的调查工作,并以此为基础制订了详细的语料库建设实施方案,确定语料库设计阶段的主要任务为:(1)确定标注语言;(2)确立语料选取的原则及语料来源;(3)制订语料储存方案与各项工作流程;(4)编制语料库技术开发需求规约。
双语平行语料库的制作流程

双语平行语料库的制作流程
1.数据收集:首先需要收集源语言和目标语言的文本数据。
可以通过
多种方式来收集数据,例如爬取网页内容、使用现有的翻译软件或者借助
专业翻译人员进行翻译。
2.文本对齐:在收集到源语言和目标语言的文本数据后,需要进行文
本对齐。
文本对齐是将源语言和目标语言的句子按照语义和结构进行对应,创建文本对。
这个过程可以手动完成,也可以使用自动对齐工具来辅助完成。
4.词对齐:在文本对齐之后,为了进一步提高平行语料库的质量,可
以进行词对齐。
词对齐是在句子级别基础上,将源语言和目标语言的词语
进行对齐,创建词级对齐。
5.质量评估:对于制作好的双语平行语料库,需要进行质量评估。
可
以通过对比机器翻译的质量、翻译准确度等指标来评估平行语料库的质量。
6.更新和维护:制作好的双语平行语料库需要定期进行更新和维护,
以保持其质量和实用性。
可以定期收集新的源语言和目标语言的文本数据,并进行文本对齐、清洗和词对齐等操作。
同时,也可以通过删除低质量的
文本对来优化平行语料库。
总结起来,制作双语平行语料库的流程包括数据收集、文本对齐、清
洗和预处理、词对齐、质量评估以及更新和维护。
这个过程需要耗费一定
的时间和精力,但制作好的双语平行语料库对于机器翻译、自然语言处理
等领域的研究和应用具有重要意义。
双语平行语料库的制作流程

双语平行语料库的制作流程1.数据收集:首先需要收集双语文本数据。
可以通过多种渠道获得,包括网络爬虫、公开数据库、专业机构的数据集等。
收集到的数据应涵盖各个领域的文本,以便在不同领域的实际应用中使用。
2.预处理:收集到的数据通常需要进行预处理,以确保数据的质量和一致性。
预处理的步骤包括:-分割句子:根据标点符号或换行符将文本分割成句子。
-标准化:将数据转换为统一的格式,如转换为小写、标准化日期和数字格式等。
-分词:将句子划分成单词或短语的序列,通常使用现有的分词工具。
3.对齐:对齐是将双语文本进行匹配的过程,以确定源语言和目标语言之间的对应关系。
常见的对齐方法包括基于规则的对齐和基于统计的对齐。
在基于规则的对齐中,研究人员根据语言对之间的特征和规则手动对齐句子。
而基于统计的对齐则利用计算机算法自动匹配句子。
4.清洗:对齐后,需要对语料进行清洗,以去除低质量的对齐数据和噪声。
常见的清洗方法包括:-去除标点符号和特殊字符。
-去除长度不一致的句对。
-去除重复数据和重复句子。
-去除机器翻译和错误对齐的数据。
5.评估:评估是对制作的平行语料进行质量检查的步骤。
评估通常包括两个方面:- 句子级评估:比较源语言和目标语言之间的对齐质量,判断对齐是否准确。
可以使用BLEU(Bilingual Evaluation Understudy)等自动评估指标来评估翻译质量。
-文本级评估:评估语料库的覆盖度、平衡性和多样性等。
可以通过检查词汇表的覆盖范围、领域和主题的分布来评估。
6.存储和管理:制作好的双语平行语料库需要进行存储和管理。
可以使用数据库、文件系统或特定的双语平行语料库管理工具来存储和管理平行语料库。
此外,还可以使用标记文件格式(如XML或JSON)对语料进行标注,以便更好地进行检索和利用。
总结起来,制作双语平行语料库的流程包括数据收集、预处理、对齐、清洗和评估等多个步骤。
每个步骤都需要仔细进行,以确保制作出高质量的双语平行语料库,以支持各种自然语言处理任务的研究和应用。
汉维双语平行词汇语料库构建技术研究

汉维双语平行词汇语料库构建技术研究一、引言语料库是指收集整理某一语言或多种语言的大量实际语言材料,用于语言学的研究和应用。
汉维双语平行词汇语料库是指同时包含汉语和维吾尔语词汇的语料库。
建立汉维双语平行词汇语料库可以为语言学研究、机器翻译、跨文化交流等领域提供有力支持。
本文将分析汉维双语平行词汇语料库构建的技术研究。
二、相关研究概况目前,汉维双语平行词汇语料库的研究还处于起步阶段,相关研究成果较少。
主要围绕着两个方面展开:一是词汇对齐技术,即如何将汉语和维吾尔语的词汇进行对应;二是语料库的构建方法,即如何有效地收集和整理汉维双语平行词汇。
在国内外的语言学、计算机科学等领域都有相关研究,但多数仍处于实验阶段,尚未形成一套完整的技术体系。
三、汉维双语平行词汇语料库构建技术1. 词汇对齐技术汉维双语平行词汇语料库的构建首先需要解决词汇对齐的技术难题。
词汇对齐是指对两种不同语言的词汇进行匹配对应,以建立双语词汇之间的对应关系。
目前主要的词汇对齐技术包括基于规则的对齐、基于统计的对齐和基于机器学习的对齐。
规则对齐需要根据两种语言的语法结构和语义关系进行规则制定,实现对应词汇的匹配;统计对齐则通过语料库中词汇的共现频率等统计信息进行词汇对应;机器学习对齐利用机器学习算法进行词汇对应模型的训练,实现对齐的自动化。
由于汉维两种语言的语法结构和语义关系的差异,词汇对齐技术在实践中会遇到一些困难,需要充分考虑语言之间的差异性和复杂性。
2. 语料库构建方法除了词汇对齐技术的挑战,汉维双语平行词汇语料库的构建还需要解决如何有效地收集和整理双语词汇的问题。
首先需要建立起汉维双语的语料库,这要求采集到的语料既具有语言学上的代表性和丰富性,又具有语言对齐的可行性和可操作性。
其次需要建立起对齐的双语词汇库,这要求汉维双语平行词汇库的构建具有高效性和准确性。
目前主要的方法是采用自动化技术和人工干预相结合的方法,即先通过自动化技术进行初步的对齐,然后通过人工干预进行修正。
英汉社论平行语料库

英汉社论平行语料库1.引言1.1 概述概述部分:随着全球化的发展,英汉社论的重要性日益凸显。
社论作为一种新闻类文体,承载着媒体的立场和观点,并在舆论场中发挥着重要的作用。
因此,对于英汉社论的研究和理解具有重要的意义。
为了更好地研究英汉社论,建立一个英汉社论平行语料库是至关重要的。
英汉社论平行语料库是指收集和整理一定数量的英语社论与对应的中文翻译,以便进行对照和分析。
这样的平行语料库可以帮助研究人员深入了解英汉社论的语言特点、文体特征以及表达方式等。
建立英汉社论平行语料库的目的有两个方面。
首先,它可以作为翻译研究的重要资源,帮助翻译人员更好地进行英汉社论的互译。
其次,它可以为社会科学研究提供依据,例如新闻传播学、语言学和文化研究等领域的学者可以通过对英汉社论平行语料库的分析来揭示社论对于公众舆论形成的影响。
本文将从概述、文章结构和目的三个方面对英汉社论平行语料库进行全面介绍。
首先,我们将简要概述英汉社论的背景和重要性。
然后,我们将详细介绍英汉社论平行语料库的定义和意义。
接着,我们将讨论建立英汉社论平行语料库的方法和步骤,包括语料的采集、整理以及语言特征的标注。
最后,我们将展望英汉社论平行语料库的应用前景,并对整篇文章进行总结和展望。
通过对英汉社论平行语料库的研究和应用,我们可以更好地理解英汉社论的特点和规律,并且为相关领域的学术研究和实际应用提供支持和参考。
希望本文能够为英汉社论平行语料库的建设和应用提供启示,并促进跨文化交流和研究的发展。
1.2 文章结构本文将按照以下结构进行阐述和探讨英汉社论平行语料库的相关内容:1. 引言:首先,我们将概述本文的研究背景和意义,明确本文的研究目的。
通过引言部分,读者可以初步了解到本文所要探讨的问题及其重要性。
2. 正文:正文是本文的核心部分,旨在详细介绍英汉社论平行语料库的定义、意义、以及建立方法和步骤。
2.1 英汉社论平行语料库的定义和意义:首先,我们将解释什么是英汉社论平行语料库,即在英汉两种语言中,相互对应的社论文本的语料库。
构建大规模的汉英双语平行语料库

作 P ) 1 ’,…T s,T ,1 2 构成 译 文文本 中一个 或 多个 完 整 的段 落 ( 体 记作 P) s和 P 之 间具有 “ 整 t ,P t 翻 译关 系 ” 。 句 子级 对齐 单 位 ( 记作 A ) s :一 个 句子 级 对齐 单 位 是一 个 二元 组 , 作 A 记 S=<i i S,T>,其 中 s 由 i
语料库的系统性构建却较少。就汉英双语对照语料
而 言 ,国 内尚且没 有 超过 1 句对 的平 行 语料 库 。 0万 下 面介绍 构建 汉英 平 行语料 库 的 系统性 流程 以及该 语料 库 目前 的建 设情 况 。
1 语料 库构 建 的规划 和模型
图 1 双 语 平 行 语 料 库构 建 流 程 模 型
一
套通 用性 较好 的整理 、加 工工具 .协 同工 作人 员 我们 严 格定 义 了与双 语平 行语 料 库建 设 相关 的
完 成语 料 的整 理 、标记 、检查 、对齐和 校对工 作 。 术 语 :原始 语 料 、双语 语 料 库 、篇章 级 对 齐单 位 、 原 文文 件 、译 文文 件 、段 落级对 齐 单位 、句 子级 对 齐单 位 、源语 言 。 其 中 ,篇 章 级 对 齐 单 位 ( 作 记 A) T :一 个 篇章 级 对 齐单 位 由若 干 段 落级 对 齐单 位
22 语 料 的整理和 加工 _ 整理 、加 工任 务从 考 察 原始语 料 的物 理 特征 并
山 西省 留 学基 金 委 资 助 项 目 (0 5 2 ) 20— 0 收 稿 日期 :0 6 0 — 7 修 回 日期 :0 6 0 — 4 20 — 8 0 ; 20 — 8 2
进行相应的归类人手 ,综合考虑原始语料本身的情
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.运行ParaConc269软件,如下图:
2.点击“File”,在下拉列表中选择“Load Corpus Files”,如下图:
3.在Align format处,选择“Start/stop tags”,如下图:
4.点击“add”,分别添加Step 4中得到的中文txt文本和英文txt文本。如下图:
3.点击“导出”,如下图:
点击“确定”,关闭该软件。
4.找到导出文本所在文件夹,可以看到txt格式的中文文本和英文文本,打开中文文本,如下图:
点击“文件”,选择“另存为”,如下图:
在“编码”处可看到当前编码为“UTF-8”,点击,在下拉列表中选择“ANSI”,如下图:
选择“是”,关闭记事本。
注意:与英文txt文本不同,中文txt文本必须经过这一步改成ANSI格式。若文件数量大,也可使用编码批量转换软件。
点击“OK”,双语语料库制作完成。
Step 6.在该语料库中执行“搜索”功能。例如,查询“shall”在该语料库中对应的中文翻译。
1.点击“Search”,在下拉列表中选择“search”。在跳出的选框中输入“shall”,如下图:
点击”OK”,即可得到搜索结果,如下图:
2.可将搜索结果保存下来:保持该搜索界面不变,点击“Search”,选择“Save as File”,如下图:
点击“文件”→“另存为”txt文本,如下图:
点击“保存”,关闭Heartsome TMX Editor。
Step 4.利用TMX-ParaConV软件,从上一步得到的txt中英文本中分别导出中文txt文本和英文txt文本。步骤如下:
1.运行TMX-ParaConV,如下图:
2.点击“选择文件”,找到Step three中得到的txt文本,如下图:
1.运行Heartsome TMX Editor,如下图:
2.点击“文件”,选择“打开TMX文件”,如下图:
选择从trados记忆库中导出的tmx文本,点击“打开”,如下图:
3.点击“编辑”,在下拉列表中选择“清除所有标记”,如下图:
点击“确定”,“降噪”完成。
4.点击“文件”→“保存”。
5.从文件夹中找到该文本,用记事本打开,如图:
双语平行语料库的制作流程
Ste导出tmx文本。步骤如下:
1.启动ABBYY Aligner,如下图:
2.点击“文件图标”导入英文文档
英文文档导入后会自动弹出对话框,在对话框中选择中文文档导入,如下图:
3.点击Align,利用该软件自动对齐,结果如下图:
勾选“Sequential number in each line”,点击“OK”,如下图:
输入文件名,在这里可命名为“shall”,并将其保存在某文件夹中。
3.打开该文件,如下图:
制作完成,关闭ParaConc软件。
1.启用SDL Trados Studio 2011,如下图:
2.点击左上角“升级翻译记忆库”
点击“添加文件”,
点击“关闭”
点击“是”。
3.打开该翻译记忆库,则左侧“翻译记忆库”下方出现该记忆库。
选中该记忆库,右击,选择“导出”
完成,关闭Trados。
Step 3.利用Heartsome TMX Editor软件,对上一步中得到的tmx文本“降噪”。步骤如下:
接下来需要手动修改,将文档中没有对齐的地方整理对齐。(为了确保准确和高效,建议首先整理上图中标色部分,这是该软件自动识别标出的有可能没有对齐的句子。把这些修改完后,再从头到尾检查一遍,修改其余没检测出来的未对齐句子。)
修改后如图:
4.点击Export to TMX,保存对齐之后的tmx文本
Step 2.利用trados软件,将Step 1中的tmx文本导入记忆库,并从记忆库中导出新的tmx文本。步骤如下: