一对四_英汉双语对应语料库的建设及应用_任小华

合集下载

中韩双语对译平行语料库的创建与应用研究

中韩双语对译平行语料库的创建与应用研究

中韩双语对译平行语料库的创建与应用研究作者:李丹来源:《读与写·上旬刊》2018年第03期摘要:韩汉-汉韩平行语料库是语料库的一个重要类型,可以在语言对比、翻译研究、语言教学和词典编纂方而发挥独特作用。

该平行语料库建库的总体流程主要包括语料采集、整理和加工、存储等筹划,目前虽在设计上有突破,但还存在许多困难。

关键词:中韩平行语料库;语料采集;语料整理中图分类号:G648文献标识码:B文章编号:1672-1578(2018)03-0007-011.引言近年来,平行语料库正日益受到人们关注。

平行语料库是由源语文本原文及其平行对应的译语文本构成的双语或多语语料库,其对齐程度有词级、句级、段级和篇级几种。

平行语料库按照翻译方向的不同,可分为单向平行语料库、双向平行语料库和多向平行语料库。

平行语料库不仅可以广泛运用于翻译研究与培训、双语对比、双语词典编纂,还可用于外语教学和学生自主学习辅助平台。

在国内许多学者开始尝试西语语料库的建设。

可以说西语语料库已经初具规模,其中,北京外国语大学已建成了规模约2000万字词的英汉平行语料库。

目前,国内外平行语料库的建设和发展已经取得很大成就,特别是汉英或者英汉双语平行语料库的数量及种类较多,语料的规模和语料的选取具有科学性、语料标注具有规范性。

中日,汉俄平行语料库的建设由于有汉英平行语料库作为参照,在语料规模、选材方法、标注规范和深度等方面,具有后发优势,而中韩平行语料库建设和应用则刚刚起步,有待进一步探讨和研究。

2.中韩双语对译平行语料库的构建方案2.1设计理念2.1.1服务对象:为从事韩国语教学的教师、学习韩国语的学生以及译者提供可检索的翻译网络数据库应用方面的服务;2.1.2设计目的:应用于中韩语言对比研究、翻译语言及规范研究;应用于中韩(韩中)翻译研究;应用于中韩语言转换规律的探讨和韩国语外语教学、双语词典编纂等;2.1.3语库规模:先根据实际需要建立一个个小型语料库,然后在小型语料库基础上逐步接近或达到千万词级,最后建立理想型的语料库。

小型英汉双语语料库的建设和应用研究

小型英汉双语语料库的建设和应用研究

小型英汉双语语料库的建设和应用研究作者:渠新峰来源:《学周刊·A》2013年第10期摘要:语料库是语言知识的宝库,是重要的语言资源。

语料库中蕴藏着丰富的语言知识,包括词汇知识、句法知识、语义知识、语篇知识等。

本文旨在通过介绍小型英汉双语语料库的建设和应用的研究,揭示语料库建设的方法和意义,为语言研究者提供新的思路和方法。

关键词:语料库建设应用语料库语言学的发展迄今已三十年余。

语料库语言学以真实语言使用中的语言事实为基本依据,凭借现代计算机技术,采用数据驱动的实证主义研究方法,对语言、语言交际和语言学习的行为规律进行多层面和全方位的研究,从而给语言学工作者带来了一种新的理念,揭示了一种新的研究方法,开辟了一个新的研究领域。

一、目前国内外研究的现状和趋势利用语料库进行翻译研究在我国起步较晚,但是发展很快,目前国内最热门的大型双语语料库是北外的通用英汉对应语料库,这是一个汉英双语平行语料库,搜索量大,包括小说等各种题材,能够很好地为翻译教学提供大量真实的翻译对照材料。

在国内,越来越多的高校逐步意识到语料库的应用对翻译的重要性,相继开设了相关课程,为译员的培训提供了新的手段和方法,为他们更好地胜任实际的翻译工作做出了准备和铺垫。

目前,国外也已建成有许多这样的双语平行对应语料库,如兰卡斯特大学的英汉平行语料库(The Babel English-Chinese Parallel Corpus),通过在线检索,可以得到相应的检索内容。

与此同时,国内有许多高校在本科阶段的翻译课程中,已经将双语语料库作为一种辅助手段引进了课堂。

双语语料库与翻译实践相结合,尤其是和计算机辅助翻译实践的紧密结合,将会大大提高学习者的翻译技能。

然而,对于很多高校学生而言,语料库仍然是个新名词,很多人都没有听说过,更别说利用它来服务于翻译了。

此外,传统的语言研究依靠直觉选取自认为合理的解释理由,而基于语料库的翻译研究可以更好地从定量的数据出发,结合内省的理解,最终得出科学可靠的定性分析。

上海外语教育出版社英汉双语平行句对语料库的构建

上海外语教育出版社英汉双语平行句对语料库的构建

摘要上海外语教育出版社英汉双语平行句对语料库建设是该社承担的上海市科委课题“双语词典编纂系统的研发”的子课题。

该语料库是该社双语词典编纂系统的在线辅助语料库之一,为双语词典编纂提供英汉平行句对例证,并为词典编纂提供语言统计信息、分析信息等。

文章综述了该语料库的设计和构建过程,内容涉及语料的采集、加工、标注、检索等方面,同时也探讨今后如何进一步开发与利用该语料库。

关键词平行语料语料库建设双语词典编纂系统上海外语教育出版社(以下简称“外教社”)承担的上海市科委课题“双语词典编纂系统的研发”是上海市政府扶持辞书编纂出版数字化的重大科研项目,该课题的总体目标是开发一个基于语料库的数字化双语词典编纂出版系统,其子课题之一就是构建一个服务于双语词典编纂、经过深加工的、通用共时并在句子层面对齐的英汉双语书面语语料库。

该语料库以英语为原语、以汉语为译语,以xml(extensible markup language)为标注语言,对英语原文语料的标注做到分词(tokenization)、主词标注(lemmatization)及词性赋码(part ofspeech tagging),对汉语译文语料的标注做到分词及词性赋码。

基于该语料库,词典编纂者及词典用户可以通过在线检索平台提取有效的词典例证,统计具体词语的词频信息,了解词汇的分布情况,获得具体词语或结构的用法信息(包括语义、语法、搭配等方面)。

经过三年多的建设,该语料库一期工程已建成收录68万英汉双语平行句对的语料库,总字数达5455万。

本文将综述该语料库的设计和构建过程,内容涉及语料的采集、加工、标注、检索等方面。

一、语料库前期设计课题研究开始时,外教社课题组与各合作单位进行了较为广泛的调查工作,并以此为基础制订了详细的语料库建设实施方案,确定语料库设计阶段的主要任务为:(1)确定标注语言;(2)确立语料选取的原则及语料来源;(3)制订语料储存方案与各项工作流程;(4)编制语料库技术开发需求规约。

双语平行语料库平台对翻译教学的启示

双语平行语料库平台对翻译教学的启示

双语平行语料库平台对翻译教学的启示【摘要】这篇文章探讨了双语平行语料库平台在翻译教学中的启示。

通过这样的平台,可以提升学生的翻译技能,使他们能够更有效地进行翻译。

平行语料库可以拓展学生的翻译知识面,让他们接触到更多领域的翻译内容。

这种平台还可以促进跨文化交流和理解,增强学生的跨文化沟通能力。

通过实践操作平台,学生可以提高翻译实践能力。

利用平行语料库平台可以加强对学生的评估和指导,更好地帮助他们提升翻译水平。

双语平行语料库平台在翻译教学中具有重要意义,未来可以进一步发展,为翻译教学带来更多的启示。

【关键词】双语平行语料库平台, 翻译教学, 提升学生翻译技能, 拓展学生翻译知识面, 跨文化交流和理解, 提高学生翻译实践能力, 学生评估和指导, 重要性, 未来发展方向, 总结。

1. 引言1.1 双语平行语料库平台对翻译教学的启示双语平行语料库平台是一种能够提供大量双语对照文本的工具,可以帮助翻译学生提升翻译技能的有效途径。

通过这样的平台,学生可以在实际的翻译任务中进行练习和应用,从而更好地理解和掌握翻译技巧。

这种平台还能够拓展学生的翻译知识面,让他们接触到更多领域和文体的翻译,从而提高他们的专业水平。

在教学中,双语平行语料库平台也可以促进跨文化交流和理解。

学生通过翻译不同语言的文本,可以更好地了解和尊重不同文化之间的差异,促进不同文化之间的交流和理解。

通过实践翻译,学生可以提高自己的实践能力,更好地适应未来的工作需求。

双语平行语料库平台还可以加强对学生的评估和指导。

教师可以根据学生在平台上的表现,更好地了解他们的翻译水平和问题所在,提供针对性的指导和培训。

双语平行语料库平台在翻译教学中具有重要的作用,未来可以进一步发展和完善,为翻译教学带来更多的启示和帮助。

2. 正文2.1 提升学生翻译技能的有效途径1. 提供大量真实的双语平行语料库资源,让学生进行大量的阅读和翻译练习。

通过接触真实的语言材料,可以帮助学生更好地理解语言表达方式和习惯用法,从而提升其翻译水平。

双语平行语料库在汉英翻译教学中的应用

双语平行语料库在汉英翻译教学中的应用

双语平行语料库在汉英翻译教学中的应用作者:杨松霖来源:《现代交际》2019年第19期摘要:简要回顾语料库翻译学的兴起与发展,以《红楼梦》和霍克思译英文版前十四回文本建立双语平行语料库,通过对“(说)道”译法的检索在教学实践中的应用,证明了双语平行语料库有助于学生更好地理解原文语言语境,选择译文用词,从而在措词环节有效提升汉英翻译可读性。

关键词:双语平行语料库汉英翻译教学《红楼梦》中图分类号:H319 ;文献标识码:A ;文章编号:1009—5349(2019)19—0017—02语料库电子语料文本经过分析和处理,不仅为翻译理论研究提供了真实、鲜活的素材,而且为翻译教学改革开辟了一条新的道路,课堂教学从而有可能变得更为高效、活泼、事半功倍。

一、语料库翻译学的兴起与发展语料库应用于翻译研究始于20世纪80年代中期,当时主要作为语言对比和翻译批评研究的一种工具。

语料库翻译学以电子文本为基础,以计算机统计为手段,对各类翻译现象进行大范围的或特定范围的描写,在充分描写的基础上,探究两种语言及其转换的过程、特征和规律,分析和解释翻译现象或验证关于翻译的种种假说。

(王克非,2007:101)语料库既能定量分析,又可定性研究,为翻译研究提供了一条全新有效的路径。

Hunston 认为,“我们可以毫不夸张地说语料库以及对语料库的研究在过去几十年里对语言研究以及对语言应用研究进行了一场革新。

”(2002:1)二、雙语平行语料库在汉英翻译教学中的应用在微观翻译教学中,尤其是汉英翻译教学实践中,平行语料库的应用还处于初级阶段。

原因主要有以下两点:首先,平行语料库主要用于语言对比,而非翻译教学;其次,丰富、灵活的,且适合于翻译课堂教学使用的语言素材提取工作主要依靠人工,而非检索工具。

因此,平行语料库与翻译教学的融合仍面临很多问题。

以汉英翻译教学实践为例,虽然段落是比较理想的考查单位,句子是合适的操作单位,但绝大多数问题都出现在词的翻译环节。

自建双语平行语料库在应用型高校口译教学中的应用

自建双语平行语料库在应用型高校口译教学中的应用

352019年19期总第459期高等教育研究ENGLISH ON CAMPUS自建双语平行语料库在应用型高校口译教学中的应用文/张 立【摘要】信息技术的发展促进了自建平行语料库的建设和应用,语料库能够为应用型高校英语专业口译教学提供丰富的教学资源,对提升口译教学效果具有重要的促进作用。

本文分析了应用型高校口译教学的现状,探讨了通过平行语料库在口译教学中的应用,以培养应用型英语口译人才。

【关键词】应用型高校;平行语料库;口译教学【作者简介】张立(1982.8 -),女,汉族,湖北应城人,武昌首义学院外国语学院,副教授,硕士,研究方向:翻译理论与实践、语言学。

【基金项目】武昌首义学院校级教改项目“基于英语专业人才口译能力培养的语料库建设及其在教学中的应用研究”(2017Y06);大学外语教学科研项目“基于需求分析的应用型本科高校翻译教材研究”(2018112301)。

料的分析、归纳以及理解展开自主学习,让学生成为课堂主体。

本文利用自建平行语料库中2017年政府工作报告,以“坚持”为关键词,得到该词的主要翻译范式。

(1)坚持权利平等、机会平等、规则平等,进一步放宽非公有制经济市场准入。

We must ensure equal rights, equal opportunities, and fair rules, and further expand market access to the non-public sector.(2)要坚持党的领导,牢固树立“四个意识”。

We must uphold leadership by the Party, willingly maintain political integrity, think in big-picture terms, uphold the leadership core, and keep in alignment.(3)今年就业压力加大,要坚持就业优先战略,实施更加积极的就业政策。

自建英汉双语语料库在大学英语翻译教学中的应用

自建英汉双语语料库在大学英语翻译教学中的应用

自建英汉双语语料库在大学英语翻译教学中的应用【摘要】在大学英语翻译教学中,自建英汉双语语料库的应用具有重要意义。

该语料库能够帮助学生建立起丰富的翻译资源,提高翻译能力和准确性。

在教学中实际应用该语料库可以丰富教学内容,使学生更易于理解和掌握翻译技巧。

借助这一工具还能促进学生的跨文化交流能力,拓展视野。

自建英汉双语语料库在大学英语翻译教学中的应用具有重要性。

未来研究方向可在不断完善语料库的基础上,探索更多有效的教学方法和工具,进一步提升翻译教学效果。

自建英汉双语语料库的运用为大学英语翻译教学带来了新的机遇和挑战。

【关键词】自建英汉双语语料库,大学英语翻译教学,应用,翻译能力,教学内容,跨文化交流,重要性,未来研究方向1. 引言1.1 背景介绍大学英语翻译教学中,语料库的应用越来越受到重视。

随着信息技术的发展,构建自建英汉双语语料库成为提高学生翻译能力的重要途径。

语料库是指大量的语言实例的集合,通过语料库可以获取真实的语言使用情况,帮助学生更好地理解语言规律和提高翻译质量。

目前,很多大学开设英语翻译课程,但是很少有专门的英汉双语语料库可供学生使用。

建立自建英汉双语语料库对于大学英语翻译教学具有重要意义。

自建英汉双语语料库可以涵盖各种领域的文本,包括新闻报道、专业文献、广告等,为学生提供丰富的语料来源。

通过分析和比对语料库中的双语对照文本,学生能够更好地掌握两种语言之间的语言差异和文化差异,从而提高翻译质量。

利用自建语料库还可以更好地帮助学生理解原文的含义,更准确地表达出译文,促进跨文化交流。

本文旨在探讨自建英汉双语语料库在大学英语翻译教学中的应用,分析其对学生翻译能力的提升和教学内容的丰富化带来的积极影响。

通过本文的研究,可以更好地认识自建语料库在大学英语翻译教学中的重要性,并展望未来研究的方向。

1.2 研究目的自建英汉双语语料库在大学英语翻译教学中的应用旨在提高学生的翻译能力,丰富教学内容,并促进跨文化交流。

中英句子对齐双语语料库建设——技术报告

中英句子对齐双语语料库建设——技术报告

“中英句子对齐双语语料库建设”技术报告中科院自动化研究所模式识别国家重点实验室北京1000801研究目标和内容本课题的研究目标是:对中英文篇章对齐的双语文本进行段落对齐、句子对齐加工,建立一个大规模具有统一标准和规范的、多领域、多体裁、句子级对齐的双语语言信息和知识库。

具体研究内容包括:●借助互联网等其他媒体搜集中英文篇章级对齐的双语文本,并进行必要的预处理。

●参照都柏林核元数据元素集制订了双语语料文本标注规范,在973标准讨论会上进行讨论通过。

●大规模文本句子对齐方法:面向多领域多体裁,采用基于双语词典的句子对齐方法进行了文本对齐,并对如何提高对齐精度做了进一步的研究和探讨。

●自动评价:对双语文本句子对齐结果实现自动评价。

目前完成的句子对齐双语语料库可以有以下几方面的应用:➢作为重要的语言资源,为基于统计的各种双语语言建模、分析提供必要的训练数据。

➢可以为机器翻译、跨语言信息检索等领域抽取双语词对、短语对提供真实文本标注素材。

2相关研究现状国内外很多研究机构都致力于双语语料库的建设,并利用这些语料库进行广泛的研究。

加拿大的议会会议录(Canadian Hansards)是非常著名的英法双语语料库,许多最初的基于双语语料库的研究都是在该语料库基础上进行的[1][2]。

有关汉外双语语料库建设及其研究,香港科技大学收集和加工了香港立法委员会的会议记录,形成汉英双语语料库[3]。

此外,北京大学、东北大学、哈尔滨工业大学的研究人员也建立了一定规模的汉英双语语料库[7][8][9]。

但目前汉外双语语料库规模比较小,加工规范也不统一,从而影响了双语语料库知识获取的研究。

实现各个层次的对齐是双语语料库建设的一项重要内容。

本文主要讨论汉英双语句子级对齐技术。

句子对齐方法基本可以分为三类:◆基于长度的方法:最初由Brown[1]和Gale[2]提出,其依据是两种语言译文的长度满足一定比例关系。

他们在英法双语的加拿大议会会议录上取得了较好的对齐效果;清华大学和哈尔滨工业大学的研究人员分别将基于长度的方法应用于Microsoft NT 3.5 Server安装指南和法律文献的汉英双语句子对齐,获得的试验结果。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

英语 - 挪威语双语对应语料库 ( ENPC) [12]87 - 112 , ITU 英 语 - 法 语 - 西 班 牙 语 三 语 对 应 语 料 库[13]219 - 226 ,英语 - 法语 - 丹麦语 - 芬兰语 - 希 腊语 - 拉丁语 - 瑞典语 - 西班牙语 - 越南语等九 种语言的 Bible 对应语料库[14]129 。 - 153
收稿日期: 201年洛阳市社会科学规划项目 “英汉双语对应语料库的建设及应用” ( 2012B233) 。 作者简介: 任小华 ( 1978 - ) ,男,陕西汉中人,洛阳师范学院公共外语教研部讲师、硕士,主要研究方向为应用语言 学、语料库语言学、对比语言学。
近年来港台学者和海外华人学者也建立了一 些双语对应语料库,主要是和汉语对应的平行语 料库,如 吴 德 凯 等 人 在 香 港 科 技 大 学 建 立 的 HKUST 中英对应语料库[15]80 - 87 ,台湾的中英对应 语料库 ( Sinica Corpus) [1]18 ,Bermingham 中英对 应语料库[1]18 ,英国兰卡斯特大学的中英对应语 料库[1]19 ,以 及 巴 比 伦 英 汉 平 行 语 料 库[1]19 , 等 等。大陆 学 者 也 建 了 一 些 英 汉 平 行 语 料 库, 包 括: 北京大学计算语言学研究所的新闻机助类平 行语料库 Babel,北京外国语大学中国外语教育 研究中心的通用汉英平行语料库 ( PCCE) ,南京 国际关系学院的英汉平行语料库 ( PECC) ,上海 交通大学外国语学院的英汉平行语料库、莎士比 亚戏剧英汉平行语料库和汉英会议口译平行语料 库,绍兴文理 学 院 的 毛 泽 东 选 集 汉 英 平 行 语 料 库、鲁迅小说汉英平行语料库、邓小平文选汉英 平行语料库和中国法律法规汉英平行语料库,燕
Reader 进行扫描、转化为电子 ( word) 格式,然 后参照纸 质 本 进 行 初 步 整 理, 主 要 是 更 正 错 别 字、清除杂质及多余语言符号等无用信息。之后 我们借助 EditPadpro 软件对语料进行反复校对, 最后将 所 有 英、 汉 双 语 语 料 统 一 成 电 子 文 本 ( txt) 格式。需要说明的是,汉语文本储存的格 式 很 多, 如 ANSI、 Chinese GB、 Chinese Big5、 Unicode、UTF8、UTF16 等,我 们 在 研 究 前 人 做 法的基础上,结合自身反复的尝试,最终把所有 语料统一为 UNICODE 编码格式。为了便于汉译 本之间进行比较,我们对英语和四个汉译本语料 单独存放。鉴于后期会使用 CUC_ ParaConc ( 中 国传媒大学平行语料检索软件) ,我们对语料的 储存方式也和 CUC_ ParaConc 的要求保持一致。
选择了分词和标注功能合二为一的中国传媒大学 在线分 词 标 注 系 统 对 汉 语 语 料 进 行 了 分 词 和 标 注。该标注系 统 由 国 家 教 育 部 语 言 监 控 机 构 研 制,包括 “按 粗 粒 度 切 分 ” 和 “按 细 粒 度 切 分”,二者主要区别在于是否把 人 名 中 姓 与 名、 组合机 构、地 名、其 他 专 名、组 合 型 时 间 表 达 式、组合型数字表达式和组合型数量词表达式分 开。我们 选 择 标 注 较 简 单 的 “按 粗 粒 度 切 分” 法,加载语料后界面如图 1 所示。
关键词: 双语语料库; 美国总统就职演说词; 分词; 标注; 对齐; 检索
中图分类号: H 319 文献标识码: A 文章编号: 粤内登字 O - 10339 ( 2013) 03 - 0020 - 07
一、引 言
由于现代计算机和网络技术的有力支持,语 料库语言学得到了飞速的发展,现已成为语言学 的一个重要分支。随着语料库语言学的发展,语 料库的研制类型也呈现多样化,双语甚至多语的 平行对应语料库成为语料库语言学的一个亮点。 平行语料库开发具有较高的理论及应用价值。Aijmer 和 Altenberg 指出,平行语料库对翻译和语言 对比研 究 特 别 有 用, 并 扩 展 了 研 究 问 题 的 范 围。[10]12 它有助于通过对比深入了解所对比的语 言,而这往往在研究单语种语料库时被忽略,通 过比较,它能揭示语言的共性以及某语种所特有 的、语言类型与文化上的差异,还可以揭示原文 与译文、母语与非母语之间的差异等。
Among_ IN the_ DT vicissitudes_ NNS incident_ NN to_ TO life_ NN no_ DT event_ NN could_ MD have_ VH filled_ VVN me_ PP with _ IN greater_ JJR anxieties_ NNS than_ IN that _ DT of_ IN which_ WDT the_ DT notification_ NN was_ VBD transmitted_ VVN by_ IN your_ PPMYM order_ NN ,_ ,and _ CC received _ VVD on_ IN the_ DT 14th_ JJ day_ NN of_ IN the_ DT present_ JJ month_ NN . _ SENT
双语对应语料库最初侧重于英语与其亲属语 言之间,上世纪 90 年代中期才逐渐扩展到英语 与欧洲之外的一些语言之间,现在已几乎覆盖世 界上所 有 主 要 的 语 言 之 间。在 国 外,挪 威、荷 兰、英国、美国、加拿大等国家都建立了涉及不 同语种、不同规模的平行语料库。[1]18 - 19 比较著名 的平行语料库有: Hansard 对 应 语 料 库[11]169 - 176 ,
———乔治·华盛顿首次就职演说词
( 二) 汉语语料的分词和标注 由于汉语以字为基本书写单位,词语之间没 有明显的区分标记,因而汉语文本处理中,首先 遇到的问题是分词,也即在汉语文本中词与词之 间加上标记。
21
外语艺术教育研究
总第 43 期
20 世纪 80 年代以来有报道的中文自动分词 方法归纳起来已有 22 种[2],但是把这些方法转 化成工具的不多。目前广为使用的分词标注工具 是中国科学院计算所的汉语词法分析系统 ( ICTCLAS) ,该系统的主要功能包括: 中文分词,词 性标注,命名实体识别,新词识别。该系统支持 用 户 词 典、 繁 体 中 文、 GBK、 UTF-8、 UTF-7、 UNICODE 等多种编码格式。ICTCLAS 目 前 的 分 词速度单机为 996 KB / s,分词 精 度 为 98. 45% 。 然而,由于权限所致,我们手头的 ICTCLAS ( 试 用版) 不提供完整的语料分词和标注。最终我们
2013 年 9 月 第3 期
外语艺术教育研究 Educational Research on Foreign Languages & Arts
Sep. 2013 No. 3
“一对四” 英汉双语对应语料库的建设及应用
任小华
( 洛阳师范学院 公共外语教研部,河南 洛阳 471022)
摘 要: 双语对应语料库对对比语言学和翻译研究的重要性不言而喻,国内外大多双语对应语语料库不
20
2013 年第 3 期
“一对四”英汉双语对应语料库的建设及应用
山大学的 《红楼梦》 中英文平行语料库,等等。 根据调查我们发现,绍兴文理学院的双语平
行语料库可在线检索并获得全部检索行,北外汉 英平行语料库可在线检索,但只提供 100 个检索 行,南京国际关系学院的语料库需要在该校项目 组的电脑里检索,其他国内学者建设的双语语料 库至今都尚未对外界开放。已建成的双语语料库 大多以文学作品为语料,除燕山大学 《红楼梦》 中英文语料库是 “一对三” 型,目前大陆的双语 对应语料库大都是一对一型的。鉴于此,我们借 鉴国内外已有的成果,以 “美国 总 统 就 职 演 说 词” 及其汉 语 翻 译 为 基 础,开 发 了 一 个 “一 对 四”型 ( 一个原文对应四个译本) 的英汉双语对 应语料库,以期丰富国内英汉双语语料库的种类 并深化语言对比和翻译的研究。
点击 “切分” 后,部分语料分词、词性标注 如图 2 所示。
图 1 传媒在线语料分词标注系统 ( 加工前)
图 2 传媒在线语料分词标注系统 ( 加工后)
由于语料头部在研究中主要提供参考作用, 因此我们不对该部分进行深加工,在使用该系统 后,删除了头部的分词、标注信息。标注后有部 分乱码,我们也根据纸质本进行了校对。
( 三) 英汉句子对齐 目前最常见的对齐是在段落和句子层次上进 行,对从句、单词、多词表达对齐的研究 ( 如上
海交通大学为研究意义单位而进行的双语短语单 位对齐) 也在进行中。在各级对齐研究中,最为 重要且较为成熟的对齐技术是句子一级的对齐, 有些可以达到自动或半自动。由于项目持续时间 较短、人力有限和技术原因,我们主要在句级对 齐英汉语料。
三、语料的深加工
( 一) 英语语料的词性标注 英语词性标注工具比较多,如 CLAWS POS Tagger,GoTagger、广东外语外贸大学词典编撰中 心的英语词性标注器和北京外国语大学外语教育 研究中心的英语词性标注工具等。我们使用的是 北京外国语大学外语教育研究中心梁茂成二次开 发的 TreeTagger。该工具原由斯图加特大学计算 语言学学院的 Helmut Schmid 开发,是一款通过 词性 ( part-of-speech) 和词原形信息对文本进行 标注的工具,被证明可以成功用于多种语言的标 注,如德语、英语、法语等。经过梁茂成二次开 发,该工具能更好地服务于英语的词性标注。部 分分词标注示例如下:
对外公开或提供的检索数据很有限,而已建成或在建的 “一对多”双语对应语料库并不多见。以美国总统就职 演说词及四个汉语译文为语料开发的 “一对四”型的英汉双语对应语料库,库容为 76 万词 / 字。其对整理后的 语料进行分词、词性标注,也对未分词标注的语料进行了句子对齐,并实现了 “一对四”双语语料的检索。
相关文档
最新文档