双语平行语料库与词语“假的”的翻译研究

双语平行语料库与词语“假的”的翻译研究
双语平行语料库与词语“假的”的翻译研究

语料库翻译学研究内容

研讨五语料库翻译学 1. 什么是语料库翻译学? 2. 语料库翻译学的理论基础? 3. 语料库翻译学的研究内容? 4. 什么是翻译共性? 根据研究课题的来源,语料库翻译学的研究领域分为三类。 第一类源自传统译学研究,包括基于语料库的文学翻译、翻译史、翻译教学、翻译实 践、机器翻译和口译等领域的研究。 基于语料库的文学翻译研究以文学翻译作品的文本分析为基础, 研究文学翻译理论与实践的相关课题。这些课题具体为:1)意象和人物形象的再现与变形,2)文学风格的再现与 重构,3)文学翻译的创造性,4)译者风格,5)文学作品空白和未定性的翻译,6)文化负 载词的翻译,7)误译和漏译研究。 基于语料库的翻译史研究利用历时性平行语料库对名家译作进行文本分析, 揭示翻译家在翻译策略应用、翻译风格和翻译语言等方面所表现出的个性特征及其所遵循的翻译规范。 目前,翻译史研究大多将翻译家的观点或言论视为客观现实,满足于翻译事实的罗列,对于 翻译规范和历史语境关注不够。事实上,翻译家的所做与所言往往不一致,翻译家所言并不能反映其翻译作品的特征。此外,翻译是一种特殊的社会文化行为,受特定规范的制约。这些规范因时代或文化的差异而不同。利用语料库分析翻译文本的具体特征,归纳不同历史时期的翻译规范,可以阐明翻译家的所作所为,还原历史的真实面貌。另外,该领域的研究还通过提取语料库的篇头信息,对于具体某一历史时期的翻译活动进行客观描述。这些信息包括出版商、出版时间、作品主题、译者姓名和性别等内容。应当指出,语料库翻译学与翻译史均强调对研究对象进行客观描写,重视还原语境方法(con textualizatio n)的应用。这些共性为语料库在翻译史研究中的应用提供了作为空间。 以上研究均属语料库翻译学理论层面的研究,而基于语料库的翻译教学、翻译实践和机 器翻译研究都是应用层面的研究。前者侧重于探讨语料库在翻译评估、翻译教材编写和翻译 教学模式中的应用,后者主要关注双语词汇和句式之间的对应关系、翻译策略和方法的应用 等问题。基于语料库的机器翻译研究是指利用语料库的核心技术,建设具有海量信息的知识库,以满足机助翻译或自动翻译的需求。 基于语料库的口译研究侧重于分析口译语料词汇、句法和语篇等层面的特征,研究口译语言特征、口译规范、口译策略和方法等。该领域的研究是综合性研究,既有理论层面的探讨,也有实践层面的分析。 第二类研究领域源自描写性译学研究,涵盖翻译共性、翻译规范和批评译学等领域的 研究。 翻译共性是指由于翻译过程而形成的翻译文本所具有的区别于原创文本的特征, 与源语和目的语之间差异无关,具体表现为显化、隐化、简化和范化等。翻译规范是“译者在具体 时间或社会文化环境中所做出的规律性或习惯性选择”。“翻译规范是关于翻译作品和翻译过

双语对应语料库翻译教学平台的应用初探_王克非

语言技术与外语教学研究 *版权所有 文责自负* 双语对应语料库翻译教学平台的应用初探 王克非1 ,秦洪武2 ,王海霞 2 (1.北京外国语大学中国外语教育研究中心,北京 100089;2.曲阜师范大学外语学院,山东曲阜 273165) 摘 要:本文通过语料呈现实验探讨双语对应语料库翻译教学平台的应用效果。实验显示,学生在观察语料后能够归纳和总结出有意义的翻译技巧,并能据此评估或反思自己的翻译行为。实验表明,在翻译课堂教学中使用语料资源有助于自主学习和发现式翻译教学环境的创建,也有助于学习者形成 稳定的翻译技巧。 关键词:对应语料库;翻译教学;发现式学习;语料呈现中图分类号:H 319.3 文献标识码:A 文章编号:1001-5795(2007)12-0003-0006 近20年来,语料库的创建和应用取得了长足发展。对应语料库大都在上世纪九十年代开始创建,起步较晚,但已展现出广阔的应用前景。在欧美,这类语料库有十多个,涉及近20个语种,如H ansard(法-英对应语料库)和ENPC (英语-挪威语对应语料库)(V ron is 2000:14-15);在中国,有中科院计算所的大规模汉英对应语料库、北京大学的/B ABLE 汉英平行语料库0,以及北京外国语大学的/通用汉英对应语料库0(该库现有可检索语料2千万字/词以上,见王克非2004a),后者是本项研究使用的主要工具。对应语料库的创建有两个主要目的:一是用于语言与翻译研究,二是用于外语教学。用于前者的研究成果丰富,涉及语言对比、双语词典编纂和翻译研究(Lav i o sa 1997;Baker 1999;Serpellet 2000;H unston 2002)。用于后者尤其是用于翻译教学的研究也已取得不少成果,如Zanetti n 1998、Pearson (2003:15-24)和Bernardini (2004b :97-111),但大都研究平行语料为翻译训练提供的可能的资源和手段,还没有研究探讨大型对应语料库在课堂教学中的实际应用问题。 1 研究内容 有关运用语料库提高翻译效率和质量的研究还没有全面展开,而将对应语料库应用于翻译教学的研究则是刚刚开始(Bo w ker 2003;Ber nardi n i 2004b)。从理 论上看,语料库用于教学有利于自主学习环境的创建(Bernardini 2004a :22;秦洪武、王克非2007)。自主性学习主要表现在两个方面:研究性学习和发现式学习(learning as discovery)。前者假定学习者和教师研究兴趣相投、研究能力相当;后者则鼓励学习者自行调节兴趣点,并给他们提供机会来提高自己观察和处理问题的能力,使他们对两种语言的特征和差异有敏锐的觉识。本文认为,研究和发现虽不矛盾,但在以技能培养为核心的翻译教学中,不宜过分强调学生的研究能力,发现式学习这一提法更合适一些。 近年来,国内也有研究关注语料库在翻译教学中的应用问题。有些研究探讨了语料库在翻译教学中的用途(郭红2004;于连江2004;王克非2004b),但还没有研究系统地探讨对应语料在课堂教学中的应用方式和应用效果,也没有研究关注学生对于语料使用的态度。鉴于此,我们以/通用汉英对应语料库0为翻译教学平台,探讨在现有技术条件下翻译语料用于翻译教 作者简介:王克非:男,教授,博士生导师。研究方向:语言学、翻译学。 秦洪武:男,教授,博士。研究方向:语言学、翻译学。王海霞:女,讲师,硕士。研究方向:翻译学。 收稿日期:2007-03-18 基金项目:本文是国家社科基金课题/基于大型英汉对应语料库的翻译研究与翻译教学平台0的阶段性成果(编号05BYY 013),并获得曲阜师范大学科研启动基金资助(编号Bsqd2007022)。 # 3#第118期2007年12月 外语电化教学 C AFLE N o .118D ec . 2007

国内语料库翻译学20年述评_1993_2012_宋庆伟(DOC)

上海翻译Shanghai Journal of Translators2013 No. 2 国内语料库翻译学20年述评( 1993—2012) 宋庆伟匡华吴建平( 厦门大学外文学院,福建厦门 361005;济南大学外国语学院,山东济南 250022) ( 山东大学外国语学院,山东济南250061) ( 厦门大学外文学院,福建厦门361005) [摘要]本文以中国知网( CNKI) 1993-2012年外语核心期刊中关于语料库翻译学的学术论文为样本,从翻译语言特征、译者风格和应用研究等六个方面对国内近20年语料库翻译学的发展历史进行钩沉,梳理其主要研究脉络和现状,总结语料库翻译学研究的成就、问题与趋势,以期能为该领域研究提供全景式的概况。作者认为,当前研究还存在诸如研究内容与视角比较狭窄,跨学科性研究不足,定量研究层次不高和语料库( 特别是口译语料库) 建设和研究相对滞后等问 题,亟待有针对性的改进与完善。 [关键词]语料库翻译学; 翻译共性; 译者风格; 口译 [中图分类号]H059 [文献标识码] A [文章编号]1672-9358( 2013) 02-0025-06 1 引言到翻译研究当中,使语料库翻译研究迅速发展,逐步 近几年,语料库翻译学随着语料库语言学和描成为描述翻译研究中的一种新范式( Laviosa,1998: 写翻译理论的发展和融合迅速成长起来。从发展历474; 2002: 22)。基于语料库的研究为翻译学提供程来看,她还非常年轻,从1993年Mona Baker发表了新的方法和思路,现在学界形成的共识是利用语语料库翻译学的开山之作《语料库语言学与翻译研料库进行翻译研究是一种不可或缺且可靠的手段。究: 启示和应用》至2012年,刚刚走过了短短的20 从一定程度上来讲,语料库翻译学即语料库语言学年。国内语料库翻译研究几乎与国外同步,肇始于和描写性翻译研究的相加,二者的结合可以说是相1993 年,代表作为杨惠中《语料库语言学与机器翻得益彰,在当今翻译研究注重描写和实证的趋势下,译》一文。如今,国内语料库翻译研究已初具规模,语料库翻译学应运而生。语料库翻译学以翻译本体在翻译共性、译者风格和语料库建设等诸方面都取为研究对象,从大规模翻译文本或翻译语言整体入得了可喜的进步,Tymoczko( 1998: 652) 曾大胆预言手,采用语内对比与语际对比相结合的模式,对翻译基于语料库的翻译研究将是翻译研究的重中之重。现象进行描写和解释,探索翻译的本质。( 王克非、近20年,特别是近几年涌现出一大批语料库翻译学黄立波,2008: 9-14) 的专著和论文,国家社科基金和教育部人文社科基 金对该领域的研究也进行了倾斜。鉴于此,笔者认 3 数据采集 为极有必要对其发展脉络进行梳理和分析,以期为近几年,国内基于语料库的翻译研究发展迅速,今后的研究提供借鉴和参考。本文以中国知网研究的深度和广度也不断拓展,发表文章数量逐年( CNKI) 近20年来外语核心期刊中收录的有关语料增加。为了更好地说明这种趋势,笔者统计了近20 库翻译学的学术论文为基础,借以梳理其研究现状、年( 1993-2012) 中国知网收录的外语核心期刊中关分析成就和问题并展望发展趋势。于语料库翻译学的文章,该统计涉及2012-2013年 版CSSCI外语类来源期刊( 包括扩展版) 共15种,2 语料库翻译学基本原理收集有关文章共97篇,具体数据如下表所示: Mona Baker( 1993)开创性地把语料库方法应用 [基金项目]本文是上海市科委课题“英汉双语平行句对应语料库建设”( 编号: 08dz1501100) 的阶段性成果。论文在写作过程中,得到秦洪武 教授的悉心指点,谨致谢忱! [收稿日期]2013-02-20 [作者简介]宋庆伟,厦门大学博士生,济南大学外国语学院讲师,研究方向: 语料库翻译学、双语词典编纂与翻译; 匡华,山东大学外 国语学院讲师,研究方向: 语料库语言学与英语教学; 吴建平,厦门大学外文学院教授,博士生导师,研究方向: 翻译学与双语词典学。

基于双语平行语料库的翻译教学

基于双语平行语料库的翻译教学 翻译是英语专业高年级学生一门非常重要的课程。传统的翻译教学以教师讲解为中心,以翻译教材为学习载体,学生在上完课之后很难具备一定水平的翻译能力。针对于此,我们把双语平行语料库及相应的检索功能引入到翻译教学当中,以提高翻译教学质量,提升学生的翻译能力。 标签:双语平行语料库;翻译;教学 双语平行语料库是指使用两种语言撰写相互间具有翻译关系的文本的集合平台,与普通的词典相比,这种翻译方法更加准确、便利、快捷,更新速度快,可以提供大量真实的双语对译语料以供学习者查询。 何安平指出,将语料库引入翻译教学,会改变传统的翻译教学模式,使学生可以开展各种学习活动,比如互动式学习、开放式学习和分析归类型学习,这一系列学习可以激发学生的好奇心、求知欲,帮助学生塑造的批判精神和反思精神,为培养学生的创新思维提供了条件。 本文例句所使用的双语平行语料库是指北京外国语大学通用双语平行语料库。 1.基于双语平行语料库的词汇翻译 曾有人提出,平行语料库最典型的应用范围之一是双语词汇教学。无论是英译汉还是汉译英,在很多时候英汉两种语言不存在一一对应的词汇,一词多义的现象很普遍,这就意味着这个词有多种译文;而且,在某些特定的语境中,有的词被赋予固定的意思,这又是新的译文。北京外国语大学王克非教授以汉语“克服”一词为例,在北京外国语大学通用汉语双语平行语料库中检索,发现24处“克服”一词中,有15处翻译为overcome。在学生学习完这24个例子后,他们就会明白,在以后的翻译中,不是所有的“克服”都用overcome翻译,在其他情况下使用cope with,fight down,get rid of 等会更加贴切。 学习者可以借助双语平行语料库的真实语境平台,找到单词在不同语境下的地道翻译,既丰富了词汇量,快速准确地译出对应语,同时可增强语感,提升双语翻译能力。 2.基于双语平行语料库的句式翻译 有时候,学生会感觉无论是英语还是汉语,其中一些句式很难理解,至于翻译更是无从下手。在这种情况下,双语平行语料库为学生们提供了大量的特殊句式翻译例句。我们以英文中“it is said that”为例。这是英语中常用的句式,很多学生张口就翻译为“据说”,好像也没有人怀疑过;包括我本人在接触双语平行语料库之前,见到it is said that也随口就翻译为“据说”。但是,笔者通过双语平行语

双语平行语料库对齐技术述评

双语平行语料库对齐技术述评 对齐的双语语料库在机器翻译、词义消歧和双语词典编撰等领域都非常有用。语料对齐的单位由大到小,有篇章、段落、句子、短语、词等不同的层次。粒度越小,提供的语言信息就越多,应用的价值也就越大。然而平行语料库的自动对齐并非是一件容易的事情。由于语料大都来自人工翻译,句子之间并不都是一对一的翻译模式,还有一对多、多对多的翻译模式。这种复杂性加大了对齐的难度,特别是对更细粒度级别的对齐。由于语言之间存在着差异,找到固定的对应翻译很难,再加上文本预处理工具难以保证处理效果,以及一些电子文本的噪声纷繁复杂,这都增加了对齐的难度。而对于英汉两种差别很大的语言来说,目前的语料库对齐算法并不一定完全适用于汉英语料库的对齐。本文首先回顾了当前国外平行语料库的对齐技术,然后分析了国内在对齐中所使用的技术,旨在为本研究所今后构建小型汉英平行语料库提供一个技术支持。 1 目前平行语料库对齐技术的现状 1.1 句子级对齐技术 在各级对齐研究中,其中最为重要且较为成熟的自动对齐技术是句子一级的对齐。句子级对齐的方法主要有三种:①基于长度的方法(length-based)(Brown et al,1991; Gale & Church, 1991a);②基于词汇的方法(lexical-based)(Kay & Roscheisen, 1993);③混合法(combination)(Tan & Nagao, 1995; Wu,1994)。 基于长度的方法最早是由Brown和Gale提出,虽然他们的算法都是由源文本中句子长度和译文本中的句子长度有很大的正相关这一观察得出,但其侧重点却不同。Brown的算法以词为单位计算句子的长度,而Gale和Church则是以字符为单位计算句子的长度。他们分别用各自的算法对加拿大议会会议所录英法双语语料库进行了对齐实验,准确率达96~97%。然而该方法在处理复杂句子的对齐(如2∶1或2∶2的句子对齐,或非直译和省略的句子)以及不同语系的句子对齐时,准确率却并不高,而且此算法一旦出错,便不可能自动纠正。 基于词汇的方法是由Kay和Rosheisen提出的。他们认为最佳的句子对是那些使系统词汇对齐数量最大化的句子。基于词汇的算法虽然可以提高对齐的准确性,但却费时;而且目前还没有充分证明这一方法适合于大型语料库。Chen(1993)对Kay 和 Rosheisen的算法进行了改进,这一算法运用词汇信息构建了一对一词汇统计翻译模型,用这样的翻译模型找到语料库生成的最大可能性。他用此算法对旧的Hansard语料库进行双语对齐。与Brown和Gale的对齐算法相比,这一算法不仅正确率高,而且在处理大量省略的对齐中能轻易确定省略的位置,且鲁棒性(robust)较好。基于词汇方法的另一种做法是利用同源词(cognate)(Church,1993)。此方法在处理英法和英德语言中的诸如名字、日期、数字、术语等可辨认单位出现比率高的情况下效果更好。 如前所述,基于词汇的方法相对可靠精确,但计算起来相当复杂且速度较慢;而基于长度的算法模型虽然简单,独立于语言知识和外部资源,但鲁棒性不好,极易造成错误蔓延。由于每种方法都有自己的优缺点,人们试图将各种方法混合起来找到问题的解决途径(Tan & Nagao, 1995; Wu,1994; ;Collier,1998; Vronis,1999;Melamed,2000)。试验结果表明,混合的方法优于单纯使用其中的任何一种方法。

《双语平行语料库在翻译教学上的用途》评述

攻读博士、硕士学位研究生试卷(作业)封面(2016 至2017 学年度第一学期) 学号 姓名 题目《双语平行语料库在翻译教学上的用途》评述 课程名称语料库语言学 专业英语语言文学 入学年月2016年9月 培养方式 全日制□非全日制

题目:双语平行语料库在翻译教学上的用途。 作者:王克非,曾任北京外国语大学外国语言研究所副所长、中国外语教育研究中心常务副主任,现任《外语教学与研究》杂志主编,博士生导师,研究方向为语言学和翻译研究。 研究问题:本文以北京外国语大学建成的通用汉英平行语料库为例,探讨如何在翻译教学中运用双语平行语料库、如何处理翻译教学与双语平行语料库的关系、双语平行语料库对译者有何帮助、以及译者如何在翻译教学中运用双语对译检索(词语的对译检索、结构的对译检索和语句语篇的对译检索)时找到合适的对译,提高他们的英语语感,掌握正确的翻译方法。 研究方法: 本文根据北京外国语大学中国外语教育研究中心建成的通用汉英平行语料库(3000万字词)为例,探讨它在翻译教学上的用途。首先,本文作者采用了随机抽取的方法对克服(overcome)和找(find)进行了检索,找到了他们不同的翻译方法和用法;然后作者通过举例说明汉语中把字句结构的三种形式如何在英语中翻译;最后作者从台湾大学高建明所建的英汉平行语料库中,以“他心情很低落”为例,从语料库中找到相近的中英文短句、句子,找到了表示“心情低落”的各种不同词汇和方法。 结论:在翻译的教学和实践中,双语平行语料库和检索工具的运用不仅给译者提供了方便,而且使他们掌握了一种科学、多样的翻译方法。同时也能激发学生的兴趣,让学生在不同版本的对译中互相学习。这表明双语平行语料库是翻译教学中的一种重要的学习资源,应当引起

浅析语料库对于翻译研究的意义

浅析语料库对于翻译研究的意义 【摘要】基于语料库的翻译研究在当今已进入一个全新模式,多种语料库被开发应用在人工翻译和机器翻译等实践领域当中。本文对语料库的概念以及某些种类语料库在翻译活动中具体实用情况做出分析,揭示语料库对于翻译研究的意义。 【关键词】语料库;翻译;双语语料库;平行/对应语料库 An Analysis on the Significance of Corpus to Translating Research CHEN Dan (Eastern Liaoning University,Dandong Liaoning 118000,China) 【Abstract】Translating research based on corpus has stepped into a new mode today,and many kinds of corpora are developed and applied in practical fields of manual translation and machine translation. The thesis analyzes the concept corpus and the application of some corpora in translating,which exemplify the significance of corpus to translating research. 【Key words】Corpus;Translating;bilingual corpus;Parallel corpus “语料库”的英语单词corpus来源于拉丁语,意思是body,有“全集”的含义,即“语料的集合”。有的学者认为语料库是基于形式和目的的存储于电子数据库中的文本集合,是描述自然发生语言的集合;也有人认为它是按照明确的语言学标准选择并排序的语言运用材料的汇集,旨在用作语言的样本。国内语料库学者杨惠中对语料库的定义做了较为详细的界定。他指出,“语料库是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片段而建成的具有一定容量的大型电子文库”。 语料库所收集的语料是真实、自然的语言。不同于普通的文本数据库,它的设计和建设是以系统的理论语言学原则为依据,并且具有明确的目的性。语料库的结构严格依照既定程序设定,以一定研究目的为基础,按学科或语篇类型分类存储。语料库中的语料必须符合科学的语言研究,语料可以随机抽取或按统计学方法采集。 语料库的类型和分类标准很多。按用途分,语料库可分为通用语料库(general corpus)和专用语料库(specialized corpus);按语料选取时间,语料库可分为历时语料库(diachronic corpus)和共时语料库(synchronic corpus);按不同结构,语料库可分为平衡语料库(balanced corpus)和自然随机结构语料库(random structure corpus);按语料库的性质,语料库可分为原始语料库(raw corpus)和标注语料库(annotated corpus);按语言种类,语料库可分为单语语料库

旅游汉英双语平行语料库的建设与应用

第33卷第10期湖南科技学院学报 V ol.33 No.10 2012年10月 Journal of Hunan University of Science and Engineering Oct.2012 旅游汉英双语平行语料库的建设与应用 肖庚生 陈欣 (南华大学 外国语学院,湖南 衡阳 421001) 摘 要:文章在综述现有旅游语料库的基础上,介绍了自建的衡阳旅游汉英平行语料库的建库步骤,即语料的取样、英译、标注与对齐,并阐述了该库在旅游文本语言特征、旅游翻译、旅游英语及旅游翻译教学研究中的应用价值。该库的建设与应用既能充分满足研究需要,亦能促进导游、翻译等英语人才的培养,进而推动当地旅游产业的发展及跨文化传播。 关键词:旅游语料库;双语平行语料库;旅游英语 中图分类号:H030文献标识码:A 文章编号:1673-2219(2012)10-0163-03 近30年来,语料库及语料库语言学从无到有、蓬勃发展。基于语料库的语言学及应用语言学研究应运而生,语料库这一研究工具与方法业已广泛应用于词汇、句法、语义、语言对比、词典编撰、二语习得、翻译等领域的研究之中, 并取得了累累硕果。[1]为了研究或应用的需要,国内外先后创建了跨学科、多语言、内容迥异、库容不一的众多语料库。近年来,双语平行语料库由于其独特的优势备受关注,其建设与应用正如火如荼地进行。不过,迄今为止,国内外高校与研究机构所研制的平行语料库主要是通用型的双语平行语料库以及文学翻译类型的平行语料库,以某一专门用途为导向的平行语料库仍较为鲜见。此外,基于平行语料库的相关研究主要侧重于对个别语言或翻译现象的探讨。鉴于这一研究现状,我们拟以课题研究为契机,建设衡阳旅游汉英双语平行语料库,在此基础上,力图摸索其在汉语与英语的旅游文本语言特征、旅游汉英翻译、旅游英语与旅游翻译教学研究中的应用。 一双语语料库与旅游语料库综述 双语语料库最早创建于上世纪90年代中后期,迄今为 收稿日期:2012-08-26 基金项目:衡阳市社科基金项目“顺应论视阈下衡阳旅游汉英双语平行语料库的建设与应用研究”(项目编号2011C011);全国教育科学规划课题“基于语料库的大学英语教学平台建设与研究”(项目编号GPA105029)阶段性成果。 作者简介:肖庚生(1980-),男,湖南衡阳人,讲师,应用语言学博士生,主要研究方向为语料库语言学。陈欣(1983-),女,湖南郴州人,讲师,语言学硕士,主要研究方向为翻译理论与实践。止国内外业已建立多种类型的双语平行语料库。早在1995年,曼彻斯特大学研制了世界上首个翻译语料库,主要收集从各国语言翻译成为英文的文本,如今库容已达千万词。但是它并非严格意义上的双语平行语料库,因为它并没有实现双语对齐,只能称其为对比语料库。目前国际上比较知名的平行语料库有挪威的“英语-挪威语平行语料库”、英国的“德语-英语文学文本平行语料库”等等。而由北京外国语大学中国外语教育研究中心于2004年启动创建的“新型双语对应语料库”(含汉英、汉日两个双语平行语料库),库容为3000万词次。其中,汉英双语平行语料库的文本类型主要涵盖人文类、社科类和科技类。该语料库的建设得到了国家社科基金重大规划课题的资助,目前正为1亿词次的超大库容做进一步的扩容努力。此外,国内比较知名的双语平行语料库还包括:李德俊以汉英词典研编为主要目的,主持建设2000万词次的英汉平行语料库;卫乃兴以研究探讨英汉对等表达为目的,主持建设900万词次的英汉平行语料库;哈尔滨工业大学所创建的库容为40万对的英汉双语平行语料库;绍兴文理学院创建的中国古典文学英译双语平行语料库等等。上述双语平行语料库多数以文学文本为主,抑或以收集百科文本(含文学与非文学作品)为特色,而针对某一特定文类或某一地域特色而专门建构的专门用途双语平行语料库仍较为鲜见。 近年来,随着交通与通讯技术的日新月异,世界各地人们之间的科技、文化、商务交流、合作与往来日益频繁。更为重要的是,各国人们纷纷走出国门,畅游世界,体验世界各地的异域风情,许多国家的旅游产业获得了飞速发展。为更好地发展旅游产业、传播旅游资讯、吸引外国游客,同时亦为了满足语言学及应用语言学研究需要,旅游专门语料库应运而生。 163

中文平行语料库

中文平行语料库 机器翻译需要的平行语料库一库难求,笔者列举了一些免费的中文数据集,可用于中文和其他语言之间的机器翻译。 1.汉英10000平行语料库https://www.360docs.net/doc/d09306702.html,/data/14779 10000句对规模的英汉双语句对齐语料库,已经做了分词和句子对齐。 2.汉英22万句对法律类句子对齐语料https://www.360docs.net/doc/d09306702.html,/data/14261 22万句对规模的英汉法律类双语句对齐语料。缺点是没有做分词和语言对的对齐,还得做预处理 3.汉英双语句对齐语料库(1500句对)https://www.360docs.net/doc/d09306702.html,/data/13290 1500句对规模的英汉双语句对齐语料库。缺点是没有做分词和语言对的对齐,还得做预处理 4.最大开放字幕库OpenSubtitles的多语言平行语料数据 https://www.360docs.net/doc/d09306702.html,/data/14469 https://www.360docs.net/doc/d09306702.html,是全球最大的开放字幕库,提供了中文、英文、日文、德文、法文等30多种语言的上亿条电影和电视剧字幕。本数据集是根据该网站数据制作的多语言字幕平行语料库,包含30种语言中任意两种语言之间的字幕互译语料。是用于机器翻译研究的绝佳素材。数据量也足够大,压缩后还有2.38G 5.PHP手册的多语言平行语料库 https://www.360docs.net/doc/d09306702.html,/data/15045 将PHP手册内容制作了一个包含21国语言的平行语料库。语料库已经被分词,每个语言对都被对齐。数据量压缩后有278M 6.KDE手册的多语言平行语料库https://www.360docs.net/doc/d09306702.html,/data/15025 将KDE手册内容制作成一个包含24国语言的平行语料库。语料库已经被分词,每个语言对都被对齐。数据量压缩后有88M

英汉双语平行语料库人工对齐方法说明

英汉双语平行语料库人工对齐方法说明 1.概述 半自动英汉双语平行语料库的对齐分为两个过程: 第一个过程是先将两种语言的文本分成句子,每个句子占一行。句子定义为:以句号、问号、感叹号、分号结尾的一串字符,或以句号+引号、问号+引号、感叹号+引号等结尾的一串字符。“行”的概念是一串以回车换行符结尾的字符。这个过程可以采用任何一种具有“查找”和“替换”功能的文字处理软件来完成,也可以编程由计算机自动完成。 第二个过程是在第一个过程产生的结果的基础上以手工方式将两种语言的文本在句子水平上对齐。这一过程要采用UltraEdit软件来辅助完成。 在句子水平上对齐两种语言的文本,除了要注意以上对“句子”和“行”的定义以外,还应遵循一个重要的原则,即:如果两种语言的文本在句子的切分上有差异,应尽量保持原文句子不动,调整译文以适应原文。 为了能从双语平行语料库中获取更多的信息,还需要在对齐过程中插入少量的标记,例如:分译标记、合译标记、混译标记和移动标记等。此外,为了便于以后的检索,对于过长的句子还要在适当的地方将长句截短成两个或更多的小句。 2.人工对齐的方法 2.1打开文件 先用UltraEdit软件将两个已经分为句子的文本文件打开,在该软件的工具栏的“窗口”下拉菜单中点“水平平铺”选项,使两个打开的文本同时显示在屏幕上。为了操作方便,一般把原文放在上半屏,把译文放在下半屏。(见图1) 2.2 上下移动文本 为了能够对齐两种语言的文本,在操作过程中需要不断地上下移动文本。移动文本可以用鼠标移动窗口右边的滑块来完成。也可以将光标放在某一行,然后用鼠标的中间滚轮来上下移动。 2.3 同步移动上下两个窗口中的文本 在“窗口”下拉菜单中选“同步”选项,就可以同步移动上下两个窗口中文本,极大地方便人工对齐的操作。

基于Web的双语平行语料库自动获取系统

基于Web的双语平行语料库自动获取系统1 叶莎妮吕雅娟刘群 中国科学院计算技术研究所智能信息重点实验室 {yeshani,lvyajuan,liuqun,}https://www.360docs.net/doc/d09306702.html, 摘要:利用互联网上存在的海量多语言文本资源,通过网页的内容分析和链接分析,实现了一个双语语料挖掘的自动获取系统。首先,介绍了系统框架和主要模块;其次,详细描述了各个模块的实现与创新技术;最后,给出下一步工作的展望。本系统为获取真实的中英平行语料库提供了有效的途经。 关键词:双语语料;网页挖掘;平行网页 A Bilingual Corpus Automatic Acquisition System Based on Web Abstract:Implemented a bilingual corpus automatic acquisition system by taking advantage of an abundance of multilingual corpus in the World Wide Web,and analyzing their content and links. First,introduced system framework and main modules;second,described every module and technology innovations in detail.A prospect for the next step was given at last.This system provided an effective way for achieving Chinese-English parallel corpus. Keywords:Bilingual Text;Parallel Corpora;Web Mining; 1.引言 语料库的建设是统计学习方法的重要基础,近年来,语料库资源对于自然语言处理研究的巨大价值已经得到越来越多的认可。特别是双语语料库(Bilingual Corpus),已经成为机器翻译、机器辅助翻译以及翻译知识获取研究不可或缺的重要资源。一方面,双语语料库的出现直接推动了机器翻译新技术的发展,像平行语料库为统计机器翻译的模型构建提供了必不可少的训练数据(e.g.,Brown et al.1990;Melamed2000;Och and Ney2002),基于统计(Statistic-Based)和基于实例(Example-Based)等基于语料库的翻译方法为机器翻译研究提供了新的思路,有效改善了翻译质量,在机器翻译研究领域掀起了新的高潮。另一方面,双语语料库又是获取翻译知识的重要来源,从中可以挖掘学习各种细粒度的翻译知识,如翻译词典(e.g.,Gale and Church1991;Melamed1997)和翻译模板,从而改进传统的机器翻译技术。此外,双语语料库也是跨语言信息检索(e.g.,Davis and Dunning1995;Jian-Yun Nie, TREC8;),翻译词典编撰、双语术语自动提取以及多语言对比研究等的重要基础资源。 双语平行语料库建设与获取存在着很大的困难,各国都投入了大量的人力、物力和财力,但是双语平行语料库的来源主要集中在政府报告、新闻法律等特定领域,不适合真实文本应用。同时,互联网上的大规模双语文本并且具有很好的时效性和覆盖性,这为双语平行语料库的获取提供了潜在的解决途径。 研究基于Web的大规模双语平行语料库获取技术对于解决双语语料库获取难题,推动相关技术发展和实用化具有重要的意义。本文的目标就是建设一个语料库自动获取系统。 收稿日期:2007-06-30返稿日期:2007-XX-XX基金项目:国家自然科学基金(60603095),国家自然科学基金(60573188)作者简介:叶莎妮,硕士研究生,主要研究方向为自然语言处理技术(yeshani@https://www.360docs.net/doc/d09306702.html,);吕雅娟,工学博士,主要研究方向为计算语言学与机器翻译;刘群,工学博士,主要研究方向为计算语言学与机器翻译

王克非 语料库翻译学的几个术语

2007年11月第23卷 第6期 四川外语学院学报 Journal of Sichuan I nternati onal Studies University Nov.,2007 Vol.23 No.6语料库翻译学的几个术语 王克非1 黄立波2 (11北京外国语大学中国外语教育研究中心,北京 100089; 21西安外国语大学英文学院,陕西西安 710061) 提 要:语料库翻译学,即基于语料库的翻译研究,关注翻译共性问题。主要阐述语料库翻译学关于翻译共性研究的几个术语,并评介相关论点。 关键词:语料库翻译学;共性;简化;显化;隐化;范化;整齐化 中图分类号:H31519 文献标识码:A 文章编号:1003-3831(2007)06-0101-05 Ter m s i n Corpus2Ba sed Tran sl a ti on Stud i es WANG Ke2fei HUANG L i2bo Abstract:Issues of translati on universals have recently been discussed in cor pus2based translati on studies.The paper ex2 pounds s o me ter m s in this disci p line including translati on universals,si m p lificati on,ex p licitati on,i m p licitati on,nor maliza2 ti on and leveling out,and makes brief co mments on the vie wpoints inv olved. Key words:cor pus2based translati on studies;translati on universals;si m p lificati on;ex p licitati on;i m p licitati on;nor malizati on; levelling out 语料库翻译学,又称基于语料库的翻译研究,是近十多年随语料库语言学发展起来的新学科分支,包括方法论或工具层面上的应用研究、描写性研究和关于翻译特征的抽象性理论研究。它在研究方法上以语言学和翻译理论为指导,以概率和统计为手段,以双语真实语料为对象,对翻译进行历时或共时的研究,代表了一种新的研究范式,产出了一批研究成果,加深了人们对翻译现象的认识,值得我们关注。本文讲解这一学科有关翻译共性研究的几个基本术语,希望有助于读者的了解。 一、语料库翻译学 语料库翻译学是指根据特定的研究目标,建立以真实翻译语料为主的语料库(包括单语类比语料库(monolingual co mparable cor pus)和双语/多语平行语料库(bilingual/multilingual parallel cor pus)、翻译语料库(translati onal cor pus)等几种类型)。这类语料库在标注上比一般语料库复杂。如翻译语料库需要对翻译文本、译者信息等要素加以详细标注,对应语料库需要对两种语料作句子或某种层级上的对齐处理,类比语料库需要对文体、主题、作者、译者等要素加以标注。语料库翻译学以电子文本为基础,以计算机统计为手段,对各类翻译现象进行大范围的或特定范围的描写,在充分描写的基础上,探究两种语言及其转换的过程、特征和规律,分析和解释翻译现象或验证关于翻译的种种假说。从本质上讲,语料库翻译学是描写性翻译研究(Descri p tive Translati on Studies)与语料库语言学(Cor pus L inguistics)相结合的跨学科产物。 语料库用于翻译研究最早可以追溯到20世纪80年代(Lavi osa,2002:1,21),但通常认为,Baker (1993:233-250)的“Cor pus L inguistics and Transla2 ti on Studies:I m p licati ons and App licati ons”一文是语料库翻译研究范式(Cor pus2based Translati on Studies Paradig m)开始建立的标志。1998年,加拿大蒙特利尔大学主办的翻译研究季刊MET A出版了Sara Lavi osa主编的基于语料库的翻译研究专号MET A43 (4),从理论阐释和实证研究两方面宣告基于语料库的翻译研究已经成为一个新的翻译研究范式。以Baker(1993)为标志,语料库翻译学可划分为前语料库和基于语料库的两个时期(Lavi osa,2002;O l ohan, 2004),前者是指大规模机读翻译文本用于翻译研究之前,通过人工采集原文和译文文本,并对与翻译有关的语言现象进行对比、分析和统计的时期。基于语料库的翻译研究范式产生以来,其研究范围覆盖了从翻译过程到翻译产品的各种翻译现象,特别是翻译共性(Translati on Universals)、翻译过程(translati on p r ocess)、翻译转换与规范(translati on shift and trans2 lati on nor m s)、译者文体(translat or’s style)、翻译教学等诸多方面。新的研究方法促进范式的形成和发展, 101

双语平行语料库在翻译教学中的应用

第6卷 第1期 中 国 水 运 Vol.6 No.1 2008年 1月 China Water Transport January 2008 收稿日期:2007-11-29 作者简介:刘 珊 女(1982-) 武汉科技学院外语系 教师 硕士 (430073) 研究方向:应用语言学 双语平行语料库在翻译教学中的应用 刘 珊 摘 要:随着计算机技术的飞速发展,语料库在开展语言学应用研究中发挥着越来越重要的作用。但是,双语平行语料库应用于教学的研究国内外都相对较少。本文从三个方面探讨了双语平行语料库在翻译教学中的应用。 关键词:双语平行语料库 翻译 教学 中图分类号:G640 文献标识码:A 文章编号:1006-7973(2008)01-0235-02 一、引言 随着计算机技术的飞速发展和普及,语料库在开展语言学基础和应用研究中发挥着越来越重要的作用,建立在现代计算机技术基础上的语料库便应运而生。单语语料库的创建始于上世纪70年代。在过去的三十年里,世界上许多国家和地区不仅建立了各种单语语料库,而且已相继建立或正在建立双语平行语料库(parallel corpora)。双语平行语料库对两种语言的对比研究、对翻译的教学与研究(包括自动翻译) 、对双语词典编纂以及外语和翻译的教学都极有价值。 二、双语语料库在翻译教学中的应用 文章将从以下三个方面来阐述英语语料库的应用:(1)检验搭配组合是否恰当;(2)学习词汇在不同文体中的译法(3)提供词典以外的多种译法。 1.检验搭配组合是否恰当 搭配知识对产出自然地道的英语至关重要,在语言教学中引入索引工具对学生搭配能力的提高大有裨益。Johns (1999)助认为学习者应有机会接触语料库的原始语料,井提出“数据驱动的学习”(DDL,data-driven learning)的概念当学生面对大量真实语料时,他们可以采用归纳的方法,遵循“观察一假设一试验"(observe-hypothesize- experiment)的模式,通过对真实语料的观察,总结词语的常用词义和典型搭配行为而传统教学法遵循“讲解一练习一产出”(present-practice-produce)的模式,有利于学生积极性的发挥如果把索引工具引入课堂。学生从大量的索引行中考察词语的搭配模式,可以培养学生自主学习的积极性,促进搭配能力的提高。Marton 的研究结论是:尽管学习者在英语阅读中能理解某些词语搭配,但并不能在随后的翻译测试中把这些搭配翻译成英语,即学习者对词语搭配的少量接触对自动生成这些搭配没有促进作用。语料库索引能为我们提供大量真实可靠的语境信息,使教师和学生能在真实的语言应用中验证翻译练习中所使用的搭配是否地道。在汉语中,“知识”一词与“学问”、“阅读”、“文化”等具有同义性,在某些语境中可以交替使用。知识可以吸收(absorb)、消化(digest)、掌握( absorb)、积累(accumulate),但 这些词一旦被转化成英语,就显得缺乏意义的针对性并导致语用失当。再如,“认识社会”这一搭配的翻译。学生通过意义解释以及类比和推断选择搭配词,受母语迁移和教学迁移的影响,society 和problem 都被用来与动词realize 构成搭配词组,学生在心理翻译过程中错误地把这个词与汉语中的意识和认识对等起来并按照汉语的搭配模式加以运用。通过指导学生检索双语平行语料库,学生可以在探索中发现认识社会的地道表达方式,并对该搭配印象深刻。在翻译练习中,学生无法确定记/ 写日记应译为maintain a diary, conduct a diary 还是keep a diary。以关键词“记日记”检索在线英汉双语平行语料库http://www.luweixmu. com/ec-corpus/query.asp 可以得到如下结果:106710I am a lot like you, only I don't keep a diary,and I'm grateful to know there are others like me. 我与你有很多相似点,唯一不同的是我不记日记,而我知道还有其他象我一样的人,感到很高兴。 108571 I don't see why you should keep a diary at all. 我不明白你为何要记日记。 129561 Mary keeps a diary. 玛丽天天记日记。 161978 The best way to master English composition is to kee p a diary in English. 掌握英语作文的最好的方法是用英语记日记。 通过索引,学生观察到了该词在不同语境中的确切使用,增加了感性认识,验证了“keep a diary”是记日记的地道表达方式。 从上面的例证可以看出,基于语料库的实证研究方法对学生掌握典型的英语搭配组合,强化记忆,提高翻译能力,培养自主学习能力非常有益。 2.学习词汇在不同文体中的译法 翻译初学者往往只注重选择对等词汇,而忽视该词汇所处的语境和文体。双语平行语料库提供的来自不同文体的大

相关文档
最新文档