一对四_英汉双语对应语料库的建设及应用_任小华

一对四_英汉双语对应语料库的建设及应用_任小华
一对四_英汉双语对应语料库的建设及应用_任小华

2013年9月第3期外语艺术教育研究

Educational Research on Foreign Languages &Arts Sep.2013No.3

收稿日期:2013-04-10

基金项目:2012年洛阳市社会科学规划项目“英汉双语对应语料库的建设及应用”(2012B233)。

作者简介:任小华(1978-),男,陕西汉中人,洛阳师范学院公共外语教研部讲师、硕士,主要研究方向为应用语言学、语料库语言学、对比语言学。

“一对四”英汉双语对应语料库的建设及应用

任小华

(洛阳师范学院

公共外语教研部,河南

洛阳471022)

摘要:双语对应语料库对对比语言学和翻译研究的重要性不言而喻,国内外大多双语对应语语料库不

对外公开或提供的检索数据很有限,而已建成或在建的“一对多”双语对应语料库并不多见。以美国总统就职演说词及四个汉语译文为语料开发的“一对四”型的英汉双语对应语料库,库容为76万词/字。其对整理后的语料进行分词、词性标注,也对未分词标注的语料进行了句子对齐,并实现了“一对四”双语语料的检索。

关键词:双语语料库;美国总统就职演说词;分词;标注;对齐;检索

中图分类号:H 319

文献标识码:A

文章编号:粤内登字O -10339(2013)03-0020-07

一、引言

由于现代计算机和网络技术的有力支持,语料库语言学得到了飞速的发展,现已成为语言学的一个重要分支。随着语料库语言学的发展,语料库的研制类型也呈现多样化,双语甚至多语的平行对应语料库成为语料库语言学的一个亮点。平行语料库开发具有较高的理论及应用价值。Ai-jmer 和Altenberg 指出,平行语料库对翻译和语言对比研究特别有用,并扩展了研究问题的范围。

[10]12

它有助于通过对比深入了解所对比的语

言,而这往往在研究单语种语料库时被忽略,通过比较,它能揭示语言的共性以及某语种所特有的、语言类型与文化上的差异,还可以揭示原文与译文、母语与非母语之间的差异等。

双语对应语料库最初侧重于英语与其亲属语言之间,上世纪90年代中期才逐渐扩展到英语与欧洲之外的一些语言之间,现在已几乎覆盖世界上所有主要的语言之间。在国外,挪威、荷兰、英国、美国、加拿大等国家都建立了涉及不同语种、不同规模的平行语料库。

[1]18-19

比较著名

的平行语料库有:Hansard 对应语料库

[11]169-176

,英语-挪威语双语对应语料库(ENPC )

[12]87-112

,ITU 英语-法语-西班牙语三语对应语料库

[13]219-226

,英语-法语-丹麦语-芬兰语-希

腊语-拉丁语-瑞典语-西班牙语-越南语等九种语言的Bible 对应语料库

[14]129-153

近年来港台学者和海外华人学者也建立了一些双语对应语料库,主要是和汉语对应的平行语料库,如吴德凯等人在香港科技大学建立的HKUST 中英对应语料库[15]80-87,台湾的中英对应

语料库(Sinica Corpus )

[1]18

,Bermingham 中英对应语料库[1]18

,英国兰卡斯特大学的中英对应语

料库

[1]19

,以及巴比伦英汉平行语料库[1]19,等

等。大陆学者也建了一些英汉平行语料库,包括:北京大学计算语言学研究所的新闻机助类平行语料库Babel ,北京外国语大学中国外语教育研究中心的通用汉英平行语料库(PCCE ),南京国际关系学院的英汉平行语料库(PECC ),上海交通大学外国语学院的英汉平行语料库、莎士比亚戏剧英汉平行语料库和汉英会议口译平行语料库,绍兴文理学院的毛泽东选集汉英平行语料库、鲁迅小说汉英平行语料库、邓小平文选汉英平行语料库和中国法律法规汉英平行语料库,燕

山大学的《红楼梦》中英文平行语料库,等等。

根据调查我们发现,绍兴文理学院的双语平行语料库可在线检索并获得全部检索行,北外汉英平行语料库可在线检索,但只提供100个检索行,南京国际关系学院的语料库需要在该校项目组的电脑里检索,其他国内学者建设的双语语料库至今都尚未对外界开放。已建成的双语语料库大多以文学作品为语料,除燕山大学《红楼梦》中英文语料库是“一对三”型,目前大陆的双语对应语料库大都是一对一型的。鉴于此,我们借鉴国内外已有的成果,以“美国总统就职演说词”及其汉语翻译为基础,开发了一个“一对四”型(一个原文对应四个译本)的英汉双语对应语料库,以期丰富国内英汉双语语料库的种类并深化语言对比和翻译的研究。

二、语料及其初加工

(一)语料

我们的英语语料包括华盛顿到克林顿共42位总统就职演说词,语料计97600词。英语语料主要从网上获取,然后参照中央编译出版社2009年出版的《美国历届总统就职演说》进行校对。

我们选取的四个汉语译本为:(1)由王建华编译的《美国历届总统就职演说精选》(江西人民出版社1995年出版),由于该本只收录到乔治·布什,因此克林顿的两篇演说词译文取自王建华主编的《美国历届总统就职演说精粹(英汉对照)》(广东旅游出版社2003年出版);(2)岳西宽、张卫星翻译的《美国历届总统就职演说》(中央编译出版社2002年出版);(3)李其荣主编的《美国历届总统就职演讲辞(全集)》(长江文艺出版社2006年出版);(4)李剑鸣、章彤编译的《美利坚合众国总统就职演说》(天津人民出版社1997年出版)。根据英语语料从四个译本中选取相应的语料,最终的四个汉语语料分别为165669字、163063字、162317字、175705字,汉语语料合计666754字,加上英语97600词,总库容为764354词/字。

(二)语料的初加工

除了英语语料、岳西宽译本、李剑鸣译本可获得电子版外,其它两个汉语语料只有纸质版本。对于可获的电子语料,我们参照纸质本进行仔细校对。对于纸质本,我们借助ABBYYFine-Reader进行扫描、转化为电子(word)格式,然后参照纸质本进行初步整理,主要是更正错别字、清除杂质及多余语言符号等无用信息。之后我们借助EditPadpro软件对语料进行反复校对,最后将所有英、汉双语语料统一成电子文本(txt)格式。需要说明的是,汉语文本储存的格式很多,如ANSI、Chinese GB、Chinese Big5、Unicode、UTF8、UTF16等,我们在研究前人做法的基础上,结合自身反复的尝试,最终把所有语料统一为UNICODE编码格式。为了便于汉译本之间进行比较,我们对英语和四个汉译本语料单独存放。鉴于后期会使用CUC_ParaConc(中国传媒大学平行语料检索软件),我们对语料的储存方式也和CUC_ParaConc的要求保持一致。

三、语料的深加工

(一)英语语料的词性标注

英语词性标注工具比较多,如CLAWS POS Tagger,GoTagger、广东外语外贸大学词典编撰中心的英语词性标注器和北京外国语大学外语教育研究中心的英语词性标注工具等。我们使用的是北京外国语大学外语教育研究中心梁茂成二次开发的TreeTagger。该工具原由斯图加特大学计算语言学学院的Helmut Schmid开发,是一款通过词性(part-of-speech)和词原形信息对文本进行标注的工具,被证明可以成功用于多种语言的标注,如德语、英语、法语等。经过梁茂成二次开发,该工具能更好地服务于英语的词性标注。部分分词标注示例如下:

Among_IN the_DT vicissitudes_NNS inci-dent_NN to_TO life_NN no_DT event_NN

could_MD have_VH filled_VVN me_PP with

_IN greater_JJR anxieties_NNS than_IN that

_DT of_IN which_WDT the_DT notification_

NN was_VBD transmitted_VVN by_IN your_

PPMYM order_NN,_,and_CC received_

VVD on_IN the_DT14th_JJ day_NN of_IN

the_DT present_JJ month_NN._SENT

———乔治·华盛顿首次就职演说词(二)汉语语料的分词和标注

由于汉语以字为基本书写单位,词语之间没有明显的区分标记,因而汉语文本处理中,首先遇到的问题是分词,也即在汉语文本中词与词之间加上标记。

2013年第3期“一对四”英汉双语对应语料库的建设及应用

20世纪80年代以来有报道的中文自动分词

方法归纳起来已有22种[2]

,但是把这些方法转化成工具的不多。目前广为使用的分词标注工具是中国科学院计算所的汉语词法分析系统(ICT-CLAS ),该系统的主要功能包括:中文分词,词性标注,命名实体识别,新词识别。该系统支持用户词典、繁体中文、GBK 、UTF-8、UTF-7、UNICODE 等多种编码格式。ICTCLAS 目前的分词速度单机为996KB /s ,分词精度为98.45%。

然而,由于权限所致,我们手头的ICTCLAS (试用版)不提供完整的语料分词和标注。最终我们

选择了分词和标注功能合二为一的中国传媒大学在线分词标注系统对汉语语料进行了分词和标注。该标注系统由国家教育部语言监控机构研制,包括“按粗粒度切分”和“按细粒度切

分”

,二者主要区别在于是否把人名中姓与名、组合机构、地名、其他专名、组合型时间表达式、组合型数字表达式和组合型数量词表达式分开。我们选择标注较简单的“按粗粒度切分”法,加载语料后界面如图1所示。

点击“切分”后,部分语料分词、词性标注如图2所示

图1传媒在线语料分词标注系统(加工前

图2传媒在线语料分词标注系统(加工后)

由于语料头部在研究中主要提供参考作用,因此我们不对该部分进行深加工,在使用该系统后,删除了头部的分词、标注信息。标注后有部分乱码,我们也根据纸质本进行了校对。

(三)英汉句子对齐

目前最常见的对齐是在段落和句子层次上进行,对从句、单词、多词表达对齐的研究(如上

海交通大学为研究意义单位而进行的双语短语单位对齐)也在进行中。在各级对齐研究中,最为重要且较为成熟的对齐技术是句子一级的对齐,有些可以达到自动或半自动。由于项目持续时间较短、人力有限和技术原因,我们主要在句级对齐英汉语料。

迄今为止,有关双语语料的对齐算法或方法不

外语艺术教育研究总第43期

少,如基于长度的方法(length-based)[11]169-176;[16],基于词汇的方法(lexical-based)[17],混合法(combination)[15][18],基于译文的对齐方法[3],基于长度的扩展方法[4],基于句子长度和位置信息的结合算法[5],“锚点与重叠信息”对齐汉英句子的方法[6],等等。但是,将这些对齐方法编成软件供他人使用的则鲜有报道,这极大地影响着双语语料库的建设及发展速度。“一对一”型双语语料库可借助ParaConc或雪人计算机辅助翻译软件自带的对齐功能实现句子对齐。然而,如果“一对四”型双语语料用这两种软件来对齐会遇到一些问题,最主要的是原文和四个译文之间对齐的一致性得不到保证。我们使用了中国传媒大学平行语料检索软件(CUC_ParaConc)来检索语料,故接受了CUC_ParaConc的开发者程南昌的建议并参照其提供的语料对齐样例,采取人工对齐方法。

对齐分为两步:(1)先将两种英汉语文本分成句子,每个句子占一行。句子定义为:以句号、问号和感叹号结尾的一串字符。“行”的概念是一串以回车换行符结尾的字符。(2)在第一步产生的结果的基础上我们以手工方式将两种语言的文本在句子水平上对齐,需要借助UltraEdit 软件完成。需要说明的是,一些句级对齐采取调整源语以适应目的语的方法,这主要见于“一对一”型平行语料库的语料。我们的“一对四”显然不能使用这样的方法,否则难以保持四个译文文本和原文对齐。所以在实施双语句级对齐时,我们还采取了反向原则,即:如果两种语言的文本在句子的切分上有差异,应尽量保持原文句子不动,调整译文以适应原文。此外,为了能从双语平行语料库中获取更多的信息,我们在对齐过程中插入分译和合译标记。为了适应后期检索软件要求,对于过长的句子(以逗号和分号连接多个分句组成的长句),我们在适当的地方将其截短成两个或更多的小句。

在对齐时,我们首先打开UltraEdit软件,随后将五个已经分为句子的文本文件依次打开,在该软件的工具栏的“窗口”下拉菜单中点“水平平铺”选项,使五个打开的文本同时显示在屏幕上。加载语料后如图3所示

图3五个文本加载图

该软件可以同时打开多个文件,但是如果一次打开太多文件进行对齐,字号变得很小,会影响对齐的速度和准确率。因此我们进行“一对四”对齐时采取两步走的方法,即首次打开一个英语文件和与之对应的两个汉语文件,对齐工作完成后,关闭这两个汉语文件后再打开其它两个汉语文件。第一次对齐如图4所示

图4一英二汉对齐图

为了对齐文本,我们要不断上下移动文本。

移动文本可以用鼠标移动窗口右边的滑块来完

成。也可以将光标放在某一行,然后用鼠标的中

间滚轮来上下移动。

四、语料检索

目前双语研究应用最广的检索工具是

ParaConc,但是检索时最多限于“一对三”语

料。而CUC_ParaConc软件是一个免费的绿色软

件,主要用于检索双语、多语平行语料,支持对

Unicode、UTF8、ANSI等编码的纯文本语料检

索,支持多个国家的平行语料检索。更重要的是

该软件可以实现“一对八”的平行语料,是目前

唯一一款能检索一对三以上的软件,而且有的学2013年第3期“一对四”英汉双语对应语料库的建设及应用

者声称,完全可以替代ParaConc。

“一对一”检索方法可参阅该软件的使用说明,我们只在此对“一对多”检索功能进行简要的介绍。

启动软件之前,要保证文件名称后缀一致,否则不能进行正常检索。以我们的语料为例:后缀“-ztys”为五个文件名称相同部分,“en1-”“wjhcn1-”“yzcn1-”“lqrcn1-”和“ljmcn1-”分别为王建华、岳西宽等、李其荣、李剑鸣等的译文文件的前缀。

确保文件名称没有问题之后,启动软件,点击“一对多平行语料检索”,然后选择对齐的译本数“4”,语料编码方式为“UNICODE”,大小写可区分或不区分。在原著、译著前缀部分,分别输入“en1”“wjhcn1”“yzcn1”“lqrcn1”和“ljmcn1”,由于《美国总统就职演说词》只有四个汉译本,我们删除5-8。语料加载可先可后,保存文件夹可采取默认或自建方式(如图5所示)。

加载好语料后,点击“检索中英对齐语料”标签,然后在“英文关键词”输入要检索的单词“this”,点击“检索”即可得到“this”的部分检索(结果如图6所示)

图5一对多检索调入语料窗口

在“中文关键词”输入要检索的字“这”,重复其它操作,就得到“这”的部分检索结果(如图7所示)。

当然,也可以在英文关键词和中文关键词中分别输入这两个检索项同时对“this”和“这”进行检索,以便考察其对译情况

图6以“this”

为关键词的检索

图7以“这”为关键词的检索

外语艺术教育研究总第43期

五、基于语料库的研究

双语平行语料库包含两种建立翻译关系的原语和译语,因此我们可以进行基于原语或译语的研究,但更多的是同时基于原语和译语的对比和翻译研究。

基于美国总统就职演说词原文可以研究多种语言现象,如情态动词、语言使用的短语倾向、衔接手段及词块等。此外,基于汉语译文可以探索翻译语言的词汇(如关键词、代词、连词)、语法(“被”字句、“把”字句、体标记、结构助词)等方面的特征。由于我们语料库中有四个译本,故也可进行译本间翻译语言的比较。

但是,双语平行语料库更多用于对比和翻译研究,Aijmer和Altenberg早就指出了平行语料库在翻译和语言对比研究中的用途,他们认为平行语料库可用于探索“同一内容是如何用两种语言表达的”[10]13。尽管许多学者认为平行语料库用于对比研究有其局限性,如译语不可避免带有原文的烙印,即“翻译腔”[19]243-245;[20]247;[21],但是却为研究某种意思如何从一种语言转换成另一种语言提供了宝贵的资源。Xiao和McEnery使用了一个英译汉的平行语料库(约26万词)研究了英语中的时体意义是如何在汉语中表达的。[22]我们的语料库有望在进行衔接、连贯、信息结构、短语及“起句词”[1]10等方面的探索作出贡献。在翻译方面,双语平行语料库主要用于探讨翻译共性(如显化、隐化、简化、范化)、翻译语言(如词汇特征、句法特征、搭配、语义韵)、译者风格(如译者的痕迹和译者的声音)、翻译规范(如对规范的遵循或偏离)等。

目前,基于我们语料库的科研成果有三项(两项已发表):第一项为慕娜在2012年向河南科技大学申请硕士学位时提交的学位论文,该文主要以韩礼德和哈桑的衔接模式[23]为基础,利用我们早期语料库中的英语语料和岳西宽、张卫星的汉译语料就语法衔接手段(指示照应、替代和连接)进行系统的对比研究,通过对比发现了这三种衔接手段在英汉语使用中的异同,并探究异同背后的原因。第二项是俞丽丽发表于《琼州学院学报》2012年第3期的一篇论文,该文以我们英语语料和岳西宽等的汉译语料为基础,对替代三种形式(名词替代、动词替代和小句替代)进行研究,并从形合和意合的角度对存在的异同进行了探讨。第三项是张宁基于我们的英语语料,对美国总统就职演说词中3-6词词块进行了研究,结果显示:美国总统就职演说词中词块遵循“词块越长,频率越低”的规律;词块的分布和所表达的功能会随语料体裁的不同呈现出差异。相关研究论文已被《河南科技大学学报(社会科学版)》录用,于2013年第3期刊出。

六、结语

我们以美国总统就职演说词及其四个汉译本为基础,开发了这个“一对四”型英汉双语对应语料库,目前拥有一套建库及检索工具,也积累了一些双语平行语料库的建设经验。然而,由于时间关系,还存在以下三点不足。(1)由于目前没有可资利用的针对分词、词性标注后“一对多”双语平行语料检索工具,故我们没有对分词、标注后的语料实施句级对齐,只对生语料进行了句级对齐处理。(2)由于原语料版权约束,目前语料库只供课题组成员使用,未对外界公开。对此,我们将和双语检索工具的开发者联手,增进分词标注后语料的检索功能,并对我们分词标注后的语料进行对齐;此外,我们将和原语料版权拥有者进行磋商,在得到许可后第一时间公开语料库,如果协商未果,我们将通过在线检索方式供感兴趣的人士使用。

当然,美国总统就职演说词的汉译本比较多,我们目前只在语料库中收录了四个,我们将再收集四个质量上乘的译本来扩充语料库,建成一个“一对八”型双语对应语料库,从而将已有的检索工具的功能发挥到极致,同时能进一步深化对比和翻译研究。

参考文献:

[1]王克非等.双语对应语料库及其研制[M].北京:外语教学与研究出版社,2004.

[2]周程远.中文自动分词系统的现状与实践[D].上海:华东师范大学,2009.

[3]钱丽萍等.基于译文的英汉双语句子自动对齐[J].计算机工程与应用,2000,(12):59-61.

[4]张艳,柏冈秀纪.基于长度的扩展方法的汉英句子对齐[J].中文信息学报,2005,(5):31-36.

[5]李维刚等.基于长度和位置信息的双语句子对齐方法[J].哈尔滨工业大学学报,2006,(5):689-692.

[6]张绪华.基于对译信息的汉英句子自动对齐[J].当代外语研究,2010,(9):40-43.

2013年第3期“一对四”英汉双语对应语料库的建设及应用

[7]慕娜.基于语料库的英汉语法衔接手段对比研究[D].洛阳:河南科技大学,2012.

[8]俞丽丽.基于语料库的英汉语篇替代对比研究[J].琼州学院学报,2012,(3):115-116,121.

[9]张宁.美国总统就职演说词中的词块研究[J].河南科技大学学报(社会科学版),2013,(3),待刊发.

[10]AIJMER,K,B.ALTENBERG,and M.JOHANSSON.Text-Based Contrastive Studies in English:Presentation of a Project

[C]∥AIJMER,K.,B.ALTENBERG,and M.JOHANS-

SON.Languages in Contrast.Papers from a Symposium on Text-

based Cross-linguistic Studies.Lund Studies in English88.

Lund:Lund University Press,1996:73-85.

[11]BROWN,P.F.,J.C.LAI and R.L.MERCER.Aligining Sentences in Parallel Corpora[C]∥29th Annual Meeting of the

Association for Computational Linguistics.Berkeley,CA,1991:

169-176.

[12]JOHANSSON,S.,G.EBELING and K.HOFLAND.Coding and Aligning the English-Norwegian Parallel Corpus[C]∥K.

AIJMER,B,ALTENBERG,and M.JOHANSSON.Language

in Contrast:Papers from a Symposium on Text-Based Cross-Lin-

guistic Studies,Lund,March1994.Lund:Lund University

Press,1996:87-112.

[13]MCENERY,T.,A.WILSON.,F.SANCHEZ-LEON,and A.NIETO-SERRANO.Multilingual Resources for European

Languages:Contributions of the CARTER Project[C]∥

MARILYN DEEGAN and STUART LEE.Literary&Linguistic

Computing.Oxford:Oxford University Press,1997:219-

226.

[14]RESNIK,P.,M.B.OLSEN and M.DIAB.The Bible as a Parallel Corpus.Announcing the“Book of2000Tongues”[J].

Computers and Humanities,1999,33(1-2):129-153.[15]WU,DEKAI.Aligning a Parallel English-Chinese Corpus Stas-tically with Lexical Criteria[C]∥32nd Annual Meeting of the

Association for Computational Linguistics.New Mexico,1994:

80-87.

[16]GALE,WILLIAM A and K.W.CHURCH.A Program for A-ligning Sentences in Bilingual Corpora[J].Computational Lin-

guistics,1993,19(1):75-102.

[17]Kay,M.and M.Roschiesen.Text-Translation Alignment[J].Computational Linguistics,1993,19(1):121-142.[18]TAN,C.L.and M.NAGAO.Automatic Alignment of Japa-nese-Chinese Bilingual Texts[J].IEICE Transactions on Infor-

mation and Systems,1995,(1):68-76.

[19]BAKER,M.Corpus Linguistics and Translation Studies:Impli-cations and Applications[C]∥M.BAKER,G.FRANCIS

and E.TOGNINI-BONELLI.Text and Technology:in Honour

of John Sinclair.Amsterdam:Benjamins,1993:233-252.[20]TEUBERT,W.Comparable or Parallel Corpora?[J].Interna-tional Journal of Lexicography,1996,9(3):238-264.[21]LAVIOSA,S.How Comparable can“Comparable Corpora”Be?

[J].Target,1997,(9):289-319.

[22]MCENERY,A.and XIAO,Z.Domains,Text Types,Aspect Marking and English-Chinese Translation[J].Journal of Lan-

guages in Contrast,2002,2(2):211-231.

[23]HALLIDAY,M.A.K and HASAN,R.Cohesion in English [M].Beijing:Foreign Language Teaching and Research

Press,1976/2001.

[24]GAO,ZHAO-MING.Automatic Extracting of Translation Equiv-alents from a Parallel Chinese-English Corpus[D].Manches-

ter:University of Manchester,1998.

Construction and Application of“One-to-Four”

English-Chinese Parallel Corpus

REN Xiao-hua

(College English Teaching and Research Department,Luoyang Normal University,Luoyang471022,China)

Abstract:It goes without saying about the importance of bilingual parallel corpus to contrastive linguistics and translation studies.Almost all the parallel corpuses constructed at home are not open to the public use or set restriction on the number of concordance lines.Moreover,“one-to-many”bilingual parallel corpuses can rarely be seen.Basing on the U.S.presidential inaugural addresses and their Chinese translations,we,therefore,constructed a“One-to-Four”English-Chinese parallel corpus,the capacity of which is0.76million words/ characters.We segmented and POS-tagged the edited language data but aligned the data unsegmented and un-POS-tagged,and we succeeded in concordancing our aligned corpus.We finally introduce the potential applica-tion of our corpus as well as our corpus-based studies.

Key words:parallel corpus;the U.S.presidential inaugural addresses;segmentation;POS-tagging;a-lignment;concordancing

外语艺术教育研究总第43期

托福口语话题语料库:学校

托福口语话题语料库:学校 为了帮助大家积累更多的优秀素材,为大家带来托福口语话题语料库:学校,希望能够帮助大家更好的备考托福口语,一起来看看吧! 托福口语话题语料库 学校的硬件设施: gym : 活动类型: 哑铃do some dumbbell, 室内跑道run on the indoor track, 在场地上打球play some sport on the court, 水上运动do some aquatic activities, 邮箱运动如瑜伽、游泳、在跑步机上跑步aerobics like yoga, swimming, running on a treadmill 体育馆是个休闲娱乐的地方,是打发时间的首选;在这里可以做各种各样的运动(举以上的例子)。

A gym is the place where students can have fun and relax themselves, for many students it can be the first choices when it comes to how to spend their spare time. There are lots of fun activities you can do in the gym like, play some sports on the court, do some aerobics like yoga, swimming, and running on a treadmill,and stuff like that. 作用:保持体型Keep fit, 有趣have fun,放松relax,引导学生健康、活跃的生活方式lead a healthy and active lifestyle 总之,很有必要建设一个体育馆。 In a nutshell, it is really important for a university to own a nice recreation center(gym 的同义词),for it helps to promote a healthy, active lifestyle. 实验室laboratory : 做实验conduct research, 把理论应用于实际apply theory in practice, 直观的理解概念understand concepts intuitively(直观的),培养学生的创造力develop students' creativity; 实验室是好学校的重要组成部分,然后展开实验室的作用(即以上内容)。

语料库术语中英对照

Aboutness 所言之事 Absolute frequency 绝对频数 Alignment (of parallel texts) (平行或对应)语料的对齐 Alphanumeric 字母数字类的 Annotate 标注(动词) Annotation 标注(名词) Annotation scheme 标注方案 ANSI/American National Standards Institute 美国国家标准学会 ASCII/American Standard Code for Information Exchange 美国信息交换标准码Associate (of keywords) (主题词的)联想词 AWL/Academic word list 学术词表 Balanced corpus 平衡语料库 Base list 底表、基础词表 Bigram 二元组、二元序列、二元结构 Bi-hapax 两次词 Bilingual corpus 双语语料库 CA/Contrastive Analysis 对比分析 Case-sensitive 大小写敏感、区分大小写 Chi-square (χ2) test 卡方检验 Chunk 词块 CIA/Contrastive Interlanguage Analysis 中介语对比分析 CLAWS/Constituent Likelihood Automatic Word-tagging System CLAWS词性赋码系统Clean text policy 干净文本原则 Cluster 词簇、词丛 Colligation 类联接、类连接、类联结 Collocate n./v. 搭配词;搭配 Collocability 搭配强度、搭配力 Collocation 搭配、词语搭配 Collocational strength 搭配强度 Collocational framework/frame 搭配框架 Comparable corpora 类比语料库、可比语料库 ConcGram 同现词列、框合结构 Concordance (line) 索引(行) Concordance plot (索引)词图 Concordancer 索引工具 Concordancing 索引生成、索引分析 Context 语境、上下文 Context word 语境词 Contingency table 连列表、联列表、列连表、列联表 Co-occurrence/Co-occurring 共现 Corpora 语料库(复数) Corpus Linguistics 语料库语言学 Corpus 语料库 Corpus-based 基于语料库的

哪里有可以免费使用的大型英语语料库资源-外语教学与研究出版社

语料库相关资源 David Lee语料库研究书签 Bookmarks for Corpus-based Linguists (David Lee) https://www.360docs.net/doc/8e11178853.html,.au/~dlee/CBLLinks.htm (https://www.360docs.net/doc/8e11178853.html,/corpora) 常用语料库资源链接汇集(语料天涯) https://www.360docs.net/doc/8e11178853.html,/corpus/ 互动平台 https://www.360docs.net/doc/8e11178853.html,/forum/ 入门读物 专著 梁茂成、李文中、许家金,2010,《语料库应用教程》。北京:外语教学与研究出版社。Hunston, Susan. 2002. Corpora in Applied Linguistics. Cambridge: Cambridge. University Press. (世界图书出版社引进) Kennedy, Graeme. 1998. An Introduction to Corpus Linguistics. London: Longman. (外研社引进) 期刊论文 中国期刊网 EBSCO英文期刊数据库 书店可以买到的语料库相关书籍 Aijmer, K. & B. Altenberg (Eds.). 2004. Advances in Corpus Linguistics. Papers from the 23rd International Conference on English Language Research on Computerized Corpora (ICAME 23). Amsterdam: Rodopi. (世界图书出版社引进) Austermühl, F. 2001. Electronic Tools for Translators《译者的电子工具》. Manchester: St. Jerome Publishing. (外研社引进) Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad & Edward Finegan. 1999. Longman Grammar of Spoken and Written English. Longman Publications Group. (外研社引进) Biber, Douglas, Susan Conrad & Randi Reppen. 1998. Corpus Linguistics. Cambridge: Cambridge University Press. (外研社引进) Connor, U & T. Upton (Eds.). 2004. Applied Corpus Linguistics: A Multidimensional Perspective. Amsterdam: Rodopi. (世界图书出版社引进)

托福独立口语高频题语料素材汇总分享:internetoracademicbooks

托福独立口语高频题语料素材汇总分享:internetoracademicbooks 今天给大家带来了托福独立口语高频题语料素材汇总分享:internet or academic books,希望能够帮助到大家在托福口语中拿高分,下面就和大家分享,来欣赏一下吧。 托福独立口语高频题语料素材汇总分享:internet or academic books 托福独立口语高频话题解读:internet or academic books Which one do you think is better to help do research, internet or academic books? Explain why. 高频话题语料补充 有害健康 pose a threat to your health, hurt your eyesight, get dizzy, backache, neck problems, obesity 出版商审查并且批准一些信息 publisher checks and approves the information 作者都是权威

authors are authorities in a certain field 因特网的信息不准确 source might be unreliable 托福独立口语高频话题范文分享 Well, personally I would like to use paper books to do research. Sitting in front of the computer poses a threat to your health, like staring at the screening for a long time hurt your eyesight, you get dizzy, and there are other problems like backache, neck problems, and even obesity. Also, the information in books is reliable, the publisher checks and approves the information and the authors are authorities in a certain field. However, the information on the internet is not reliable since everyone can post information. 托福口语备考的七大技巧 扩充词汇 托福口语考试,讲究的不是词汇的多少,掌握2500个左右常用词就足够了。托福口语考试的关键,是要熟练掌握和运用一些转折连词、动词,以及美国口语的惯用方法。这样可以让你在口语考试中,表现的更加精彩。 题海战术

托福常用口语900句语料中英文对照汇总:1-250句

托福常用口语900句语料中英文对照 汇总:1-250句 今天给大家带来托福常用口语900句语料中英文对照汇总:1-250句,希望可以帮助到大家在托福口中拿高分,下面就和大家分享,来欣赏一下吧。 托福常用口语900句语料中英文对照汇总:第1部分1-50句 托福常用口语900句语料对照汇总:1-50句 1. I see. 我明白了。 2. I quit! 我不干了! 3. Let go! 放手! 4. Me too. 我也是。 5. My god! 天哪! 6. No way! 不行! 7. Come on. 来吧(赶快) 8. Hold on. 等一等。

9. I agree。我同意。 10. Not bad. 还不错。 11. Not yet. 还没。 12. See you. 再见。 13. Shut up! 闭嘴! 14. So long. 再见。 15. Why not? 好呀! (为什么不呢?) 16. Allow me. 让我来。 17. Be quiet! 安静点! 18. Cheer up! 振作起来! 19. Good job! 做得好! 20. Have fun! 玩得开心! 21. How much? 多少钱? 22. Im full. 我饱了。 23. Im home. 我回来了。 24. Im lost. 我迷路了。

25. My treat. 我请客。 26. So do I. 我也一样。 27. This way。这边请。 28. After you. 您先。 29. Bless you! 祝福你! 30. Follow me. 跟我来。 31. Forget it! 休想! (算了!) 32. Good luck! 祝好运! 33. I decline! 我拒绝! 34. I promise. 我保证。 35. Of course! 当然了! 36. Slow down! 慢点! 37. Take care! 保重! 38. They hurt. (伤口)疼。 39. Try again. 再试试。 40. Watch out! 当心。

旅游汉英双语平行语料库的建设与应用

第33卷第10期湖南科技学院学报 V ol.33 No.10 2012年10月 Journal of Hunan University of Science and Engineering Oct.2012 旅游汉英双语平行语料库的建设与应用 肖庚生 陈欣 (南华大学 外国语学院,湖南 衡阳 421001) 摘 要:文章在综述现有旅游语料库的基础上,介绍了自建的衡阳旅游汉英平行语料库的建库步骤,即语料的取样、英译、标注与对齐,并阐述了该库在旅游文本语言特征、旅游翻译、旅游英语及旅游翻译教学研究中的应用价值。该库的建设与应用既能充分满足研究需要,亦能促进导游、翻译等英语人才的培养,进而推动当地旅游产业的发展及跨文化传播。 关键词:旅游语料库;双语平行语料库;旅游英语 中图分类号:H030文献标识码:A 文章编号:1673-2219(2012)10-0163-03 近30年来,语料库及语料库语言学从无到有、蓬勃发展。基于语料库的语言学及应用语言学研究应运而生,语料库这一研究工具与方法业已广泛应用于词汇、句法、语义、语言对比、词典编撰、二语习得、翻译等领域的研究之中, 并取得了累累硕果。[1]为了研究或应用的需要,国内外先后创建了跨学科、多语言、内容迥异、库容不一的众多语料库。近年来,双语平行语料库由于其独特的优势备受关注,其建设与应用正如火如荼地进行。不过,迄今为止,国内外高校与研究机构所研制的平行语料库主要是通用型的双语平行语料库以及文学翻译类型的平行语料库,以某一专门用途为导向的平行语料库仍较为鲜见。此外,基于平行语料库的相关研究主要侧重于对个别语言或翻译现象的探讨。鉴于这一研究现状,我们拟以课题研究为契机,建设衡阳旅游汉英双语平行语料库,在此基础上,力图摸索其在汉语与英语的旅游文本语言特征、旅游汉英翻译、旅游英语与旅游翻译教学研究中的应用。 一双语语料库与旅游语料库综述 双语语料库最早创建于上世纪90年代中后期,迄今为 收稿日期:2012-08-26 基金项目:衡阳市社科基金项目“顺应论视阈下衡阳旅游汉英双语平行语料库的建设与应用研究”(项目编号2011C011);全国教育科学规划课题“基于语料库的大学英语教学平台建设与研究”(项目编号GPA105029)阶段性成果。 作者简介:肖庚生(1980-),男,湖南衡阳人,讲师,应用语言学博士生,主要研究方向为语料库语言学。陈欣(1983-),女,湖南郴州人,讲师,语言学硕士,主要研究方向为翻译理论与实践。止国内外业已建立多种类型的双语平行语料库。早在1995年,曼彻斯特大学研制了世界上首个翻译语料库,主要收集从各国语言翻译成为英文的文本,如今库容已达千万词。但是它并非严格意义上的双语平行语料库,因为它并没有实现双语对齐,只能称其为对比语料库。目前国际上比较知名的平行语料库有挪威的“英语-挪威语平行语料库”、英国的“德语-英语文学文本平行语料库”等等。而由北京外国语大学中国外语教育研究中心于2004年启动创建的“新型双语对应语料库”(含汉英、汉日两个双语平行语料库),库容为3000万词次。其中,汉英双语平行语料库的文本类型主要涵盖人文类、社科类和科技类。该语料库的建设得到了国家社科基金重大规划课题的资助,目前正为1亿词次的超大库容做进一步的扩容努力。此外,国内比较知名的双语平行语料库还包括:李德俊以汉英词典研编为主要目的,主持建设2000万词次的英汉平行语料库;卫乃兴以研究探讨英汉对等表达为目的,主持建设900万词次的英汉平行语料库;哈尔滨工业大学所创建的库容为40万对的英汉双语平行语料库;绍兴文理学院创建的中国古典文学英译双语平行语料库等等。上述双语平行语料库多数以文学文本为主,抑或以收集百科文本(含文学与非文学作品)为特色,而针对某一特定文类或某一地域特色而专门建构的专门用途双语平行语料库仍较为鲜见。 近年来,随着交通与通讯技术的日新月异,世界各地人们之间的科技、文化、商务交流、合作与往来日益频繁。更为重要的是,各国人们纷纷走出国门,畅游世界,体验世界各地的异域风情,许多国家的旅游产业获得了飞速发展。为更好地发展旅游产业、传播旅游资讯、吸引外国游客,同时亦为了满足语言学及应用语言学研究需要,旅游专门语料库应运而生。 163

《英语语言学》术语(英汉对照)表

语言学术语(英-汉对照)表 Glossary and Index (备注:因教材改版,部分章节标注等内容有出入。) A abbreviation 缩写词,略语3.3.1 Abercrombie 10.3.2 ablative 夺格,离格4.1.1 abstractness 抽象性1.3.2 accent 重音(符)2.4.4;2.4.5 accuracy 正确性11.6.4 accusative 宾格4.1.1 achievement test 成绩测试11.6.3 acoustic phonetics 声学语音学1.7.1;2.1 acquisition 习得6.1.2 acronym 缩略语3.3.1 action process 动作过程12.2.3 actor 动作者4.4.2;12.2.3 addition 添加3.3.2 address form 称呼形式7.2.3 addressee 受话人1.4;9.4.1 addresser 发话人1.4;9.4.1 adjective 形容词3.1.2;4.1.1;5.5.2 adjunct 修饰成分;附加语12.2.3 adverb 副词3.1.2 affix 词缀3.2.1 affix hopping 词缀跳跃4.3.1 affixation词缀附加法7.1.4 affricate 塞擦音2.4.3;2.4.5;2.9.1 agreement 一致关系4.1.3 airstream 气流2 alliteration 头韵9.3.2;9.3.6 allomorph 词/语素变体3.2.4;4.3.1 allophone 音位变体2.8 allophonic variation 音位变体2.8.3

语料库翻译学研究内容

研讨五语料库翻译学 1. 什么是语料库翻译学? 2. 语料库翻译学的理论基础? 3. 语料库翻译学的研究内容? 4. 什么是翻译共性? 根据研究课题的来源,语料库翻译学的研究领域分为三类。 第一类源自传统译学研究,包括基于语料库的文学翻译、翻译史、翻译教学、翻译实践、机器翻译和口译等领域的研究。 基于语料库的文学翻译研究以文学翻译作品的文本分析为基础,研究文学翻译理论与实践的相关课题。这些课题具体为: 1) 意象和人物形象的再现与变形,2) 文学风格的再现与重构,3) 文学翻译的创造性,4) 译者风格,5) 文学作品空白和未定性的翻译,6) 文化负载词的翻译,7) 误译和漏译研究。 基于语料库的翻译史研究利用历时性平行语料库对名家译作进行文本分析,揭示翻译家在翻译策略应用、翻译风格和翻译语言等方面所表现出的个性特征及其所遵循的翻译规范。目前,翻译史研究大多将翻译家的观点或言论视为客观现实,满足于翻译事实的罗列,对于翻译规范和历史语境关注不够。事实上,翻译家的所做与所言往往不一致,翻译家所言并不能反映其翻译作品的特征。此外,翻译是一种特殊的社会文化行为,受特定规范的制约。这些规范因时代或文化的差异而不同。利用语料库分析翻译文本的具体特征,归纳不同历史时期的翻译规范,可以阐明翻译家的所作所为,还原历史的真实面貌。另外,该领域的研究还通过提取语料库的篇头信息,对于具体某一历史时期的翻译活动进行客观描述。这些信息包括出版商、出版时间、作品主题、译者姓名和性别等内容。应当指出,语料库翻译学与翻译史均强调对研究对象进行客观描写,重视还原语境方法( contextualization) 的应用。这些共性为语料库在翻译史研究中的应用提供了作为空间。 以上研究均属语料库翻译学理论层面的研究,而基于语料库的翻译教学、翻译实践和机器翻译研究都是应用层面的研究。前者侧重于探讨语料库在翻译评估、翻译教材编写和翻译教学模式中的应用,后者主要关注双语词汇和句式之间的对应关系、翻译策略和方法的应用等问题。基于语料库的机器翻译研究是指利用语料库的核心技术,建设具有海量信息的知识库,以满足机助翻译或自动翻译的需求。 基于语料库的口译研究侧重于分析口译语料词汇、句法和语篇等层面的特征,研究口译语言特征、口译规范、口译策略和方法等。该领域的研究是综合性研究,既有理论层面的探讨,也有实践层面的分析。 第二类研究领域源自描写性译学研究,涵盖翻译共性、翻译规范和批评译学等领域的研究。 翻译共性是指由于翻译过程而形成的翻译文本所具有的区别于原创文本的特征,与源语和目的语之间差异无关,具体表现为显化、隐化、简化和范化等。翻译规范是“译者在具体时间或社会文化环境中所做出的规律性或习惯性选择”。“翻译规范是关于翻译作品和翻译过程正确性的规范,体现了具体某一社会或历史时期关于翻译的价值观和行为原则”。翻译规

最常用的英语动词(根据美国语料库整理 word 可打印)

be turn walk wear lie have start win support occur do might offer end accept say show remember hit identify go hear love base determine can play consider produce prepare get run appear eat argue would move buy teach recognize make like wait face indicate know live serve cover wonder will believe die describe lay think hold send catch fail take bring expect draw arrive see happen build choose name come must stay cause present could write fall point answer want provide cut listen compare look sit reach realize miss use stand kill place act find lose remain close state give pay suggest involve discuss tell meet raise increase force work include pass seek check may continue sell deal laugh should set require fight guess call learn report throw study try change decide fill prove ask lead pull represent hang need understand return focus design feel watch explain drop forget become follow hope plan claim leave stop develop push remove put create carry reduce sound mean speak drive note enjoy keep read break enter form let allow thank share establish begin add receive rise visit seem spend join shoot care help grow agree save avoid talk open pick protect imagine

托福口语语料库整理Fancy(优选.)

Task 1\2 独立题戏精上身语音语调 Task1 多选一、三选一、建议类、优缺点 Task2 A or B, agree or disagree, good or not I’m a university student who has endless tasks to deal with. For example, i need to take classes, write papers, prepare for the TOEFL test and so on. Usually, i feel so tired and busy, so i need to find a way to let off my steam. Like last weekend, i ...,and i felt so relaxed. I could totally get away from the daily grind. What’s more, while doing sth, i can meet a bunch of people who share the common interests and hob bies. I mean, it’s easier for us to get along with each other. It can help me to expend my social network. 大城市、出国 Living in a big city can provide people with a lot of benefits. I’m a university student who studies in shanghai, i enjoy my life here in this big and modern city, because i can receive better education, experience new things, get more job opportunities and so on. All these can lead to a better life, right?Besides, the basic infrastructure in big city is perfect, because there are some museums, hospitals, schools,libraries and so on. 榜样力量 Yi Fan is a famous actor in my country, and i admire him a lot because he sets a good example to me. Once, i watched an interview about him on TV. In the interview, he told us that at the beginning of his career, he was little-known. However, he kept trying harder and harder and never give up. Now, he is a household star and everyone knows his name. His story motivates and inspires me all the time. 大学教育、商业 I’m studying in a top university, which provides me a pla tform to gain and enrich knowledge for my major. My major is business administration. In university, i have learned some related academic subjects, such as economics, management, e-commerce and so on. At the same time, i can do some internships in some business companies. All these can lay a solid foundation for my future career. What’s more, in university, i can make friends with some talented people who can give me a lot of inspiration. 三选一结尾套话 To tell you the truth, when talking about the other two things, i have absolutely no interest in them.

中国英汉平行语料库的设计与研制

中国英汉平行语料库的设计与研制 王克非北京外国语大学中国外语教育研究中心提要:本文论述超大型双语平行语料库的设计与研制问题。在综合述介国内外双语语料库建设情况之后,作者着重论述了中国英汉平行语料库这一超大型双语平行语料库的设计特点(主要有分类架构、历时处理、语料平衡以及通用的和各种专门语料的采集)和研制方法(主要讲述语料的加工标注、检索平台以及各个专门语料库、历时语料库和口译语料库的构建)。其设计与研制对于其他大型语料库的建设具有借鉴意义。 关键词:中国英汉平行语料库;设计;研制 Abstract:The paper deals with the design and construction of asuper-large-scale bilingual parallel corpus.After an overview of parallelcorpora constructions and applications both in China and abroad, the designfeatures(including classification and composition,diachronical arrangement,balance of textual materials,and collection of texts for general or specificpurposes)and the construction methods (including tagging,concordanceplatform,and the construction of specialized corpora,diachronical corpora andinterpreting corpora)of the super-large-scale China English-Chinese ParallelCorpus(CECPC)are focused on.The design and construction discussed areapplicable to the compiling of other large-scale corpora. Keywords:China English-Chinese Parallel Corpus (CECPC);design;construction 1、中国英汉平行语料库的研制意义 在全球化、信息化的当今世界,翻译已成为了解全球信息、扩大对外宣传、获取国际资源的重要手段。同计算机技术结合而兴起的双语平行语料库建设,则为语言研究、翻译研究、外语教学、词典编纂和跨语言信息检索等提供了最好的平台,同时还可用来考察和验证基于单语语料库或者基于直觉提出的假设,具有广阔的应用前景。

一对四_英汉双语对应语料库的建设及应用_任小华

2013年9月第3期外语艺术教育研究 Educational Research on Foreign Languages &Arts Sep.2013No.3 收稿日期:2013-04-10 基金项目:2012年洛阳市社会科学规划项目“英汉双语对应语料库的建设及应用”(2012B233)。 作者简介:任小华(1978-),男,陕西汉中人,洛阳师范学院公共外语教研部讲师、硕士,主要研究方向为应用语言学、语料库语言学、对比语言学。 “一对四”英汉双语对应语料库的建设及应用 任小华 (洛阳师范学院 公共外语教研部,河南 洛阳471022) 摘要:双语对应语料库对对比语言学和翻译研究的重要性不言而喻,国内外大多双语对应语语料库不 对外公开或提供的检索数据很有限,而已建成或在建的“一对多”双语对应语料库并不多见。以美国总统就职演说词及四个汉语译文为语料开发的“一对四”型的英汉双语对应语料库,库容为76万词/字。其对整理后的语料进行分词、词性标注,也对未分词标注的语料进行了句子对齐,并实现了“一对四”双语语料的检索。 关键词:双语语料库;美国总统就职演说词;分词;标注;对齐;检索 中图分类号:H 319 文献标识码:A 文章编号:粤内登字O -10339(2013)03-0020-07 一、引言 由于现代计算机和网络技术的有力支持,语料库语言学得到了飞速的发展,现已成为语言学的一个重要分支。随着语料库语言学的发展,语料库的研制类型也呈现多样化,双语甚至多语的平行对应语料库成为语料库语言学的一个亮点。平行语料库开发具有较高的理论及应用价值。Ai-jmer 和Altenberg 指出,平行语料库对翻译和语言对比研究特别有用,并扩展了研究问题的范围。 [10]12 它有助于通过对比深入了解所对比的语 言,而这往往在研究单语种语料库时被忽略,通过比较,它能揭示语言的共性以及某语种所特有的、语言类型与文化上的差异,还可以揭示原文与译文、母语与非母语之间的差异等。 双语对应语料库最初侧重于英语与其亲属语言之间,上世纪90年代中期才逐渐扩展到英语与欧洲之外的一些语言之间,现在已几乎覆盖世界上所有主要的语言之间。在国外,挪威、荷兰、英国、美国、加拿大等国家都建立了涉及不同语种、不同规模的平行语料库。 [1]18-19 比较著名 的平行语料库有:Hansard 对应语料库 [11]169-176 ,英语-挪威语双语对应语料库(ENPC ) [12]87-112 ,ITU 英语-法语-西班牙语三语对应语料库 [13]219-226 ,英语-法语-丹麦语-芬兰语-希 腊语-拉丁语-瑞典语-西班牙语-越南语等九种语言的Bible 对应语料库 [14]129-153 。 近年来港台学者和海外华人学者也建立了一些双语对应语料库,主要是和汉语对应的平行语料库,如吴德凯等人在香港科技大学建立的HKUST 中英对应语料库[15]80-87,台湾的中英对应 语料库(Sinica Corpus ) [1]18 ,Bermingham 中英对应语料库[1]18 ,英国兰卡斯特大学的中英对应语 料库 [1]19 ,以及巴比伦英汉平行语料库[1]19,等 等。大陆学者也建了一些英汉平行语料库,包括:北京大学计算语言学研究所的新闻机助类平行语料库Babel ,北京外国语大学中国外语教育研究中心的通用汉英平行语料库(PCCE ),南京国际关系学院的英汉平行语料库(PECC ),上海交通大学外国语学院的英汉平行语料库、莎士比亚戏剧英汉平行语料库和汉英会议口译平行语料库,绍兴文理学院的毛泽东选集汉英平行语料库、鲁迅小说汉英平行语料库、邓小平文选汉英平行语料库和中国法律法规汉英平行语料库,燕

英汉双语平行语料库人工对齐方法说明

英汉双语平行语料库人工对齐方法说明 1.概述 半自动英汉双语平行语料库的对齐分为两个过程: 第一个过程是先将两种语言的文本分成句子,每个句子占一行。句子定义为:以句号、问号、感叹号、分号结尾的一串字符,或以句号+引号、问号+引号、感叹号+引号等结尾的一串字符。“行”的概念是一串以回车换行符结尾的字符。这个过程可以采用任何一种具有“查找”和“替换”功能的文字处理软件来完成,也可以编程由计算机自动完成。 第二个过程是在第一个过程产生的结果的基础上以手工方式将两种语言的文本在句子水平上对齐。这一过程要采用UltraEdit软件来辅助完成。 在句子水平上对齐两种语言的文本,除了要注意以上对“句子”和“行”的定义以外,还应遵循一个重要的原则,即:如果两种语言的文本在句子的切分上有差异,应尽量保持原文句子不动,调整译文以适应原文。 为了能从双语平行语料库中获取更多的信息,还需要在对齐过程中插入少量的标记,例如:分译标记、合译标记、混译标记和移动标记等。此外,为了便于以后的检索,对于过长的句子还要在适当的地方将长句截短成两个或更多的小句。 2.人工对齐的方法 2.1打开文件 先用UltraEdit软件将两个已经分为句子的文本文件打开,在该软件的工具栏的“窗口”下拉菜单中点“水平平铺”选项,使两个打开的文本同时显示在屏幕上。为了操作方便,一般把原文放在上半屏,把译文放在下半屏。(见图1) 2.2 上下移动文本 为了能够对齐两种语言的文本,在操作过程中需要不断地上下移动文本。移动文本可以用鼠标移动窗口右边的滑块来完成。也可以将光标放在某一行,然后用鼠标的中间滚轮来上下移动。 2.3 同步移动上下两个窗口中的文本 在“窗口”下拉菜单中选“同步”选项,就可以同步移动上下两个窗口中文本,极大地方便人工对齐的操作。

一带一路视角下中英语料库建设项目报告

一带一路视角下的中英语料库建设项目报告 随着“一带一路”战略的提出,中外文化交流日益频繁,这种现象对翻译行业提出了更高的要求。因此,采取有效措施培养优秀翻译人才、提高译员翻译质量刻不容缓。基于此,本项目决定建设一带一路视角下中英语料库以提高翻译质量。本文将着重报告本项目中英语料库建设的背景目的、过程及其作用。 一、一带一路视角下的中英语料库建设背景及目的 “一带一路”战略的提出为本项目的开展提供了时代背景。“一带一路”是“丝绸之路经济带”和“21世纪海上丝绸之路”的简称。从古至今,“一带一路”一直是连接东西方文化的重要纽带,尤其是在新的历史时期,“一带一路”战略促进了区域间的人际交往和文化交流。全国政协委员、中国翻译协会常务副会长黄友义在接受专访时曾表示,经济和文化的走出去导致了中译外工作量的增加,但目前中译外人才十分紧缺。而作为覆盖范围及应用领域日益广泛的语料库在提高翻译教学质量、培养优秀译员及促进计算机辅助翻译中发挥着日益重要的作用。目前国内外都已有大量已建成的语料库,如BNC英国国家语料库、美国当代英语语料库、中国学习者英语语料库及中国英语学习者口语语料库等,但针对于“一带一路”战略的语料库较为稀少。本项目的开展旨在抓住“一带一路”战略所带来的发展契机,建设“一带一路视角下的中英语料库”,为“一带一路”战略中相关政策的英译提供便利,从而加强中外交流。 青岛农业大学翻译中心的成立及其已承接的翻译活动为本项目的开展提供了专业背景。近年来,翻译中心承接了大量专利翻译、影视字幕翻译等翻译活动,在此过程中,翻译人员遇到了一些问题:如对专利特有名词和英美俗语不够熟悉等。本项目的旨在将翻译学理论、语言学理论及现代计算机技术相结合,通过对大量真实语言数据的研究,将众多科技名词、英语俗语和习语及与英美文化相关的词语收录进语料库当中,将中英双语语料库作为教学手段,方便译者查询、理解及使用相关名词,切实提高其翻译质量。另外,该项目的开展由具有多年翻译经验和教学经验的纪卫宁老师亲自指导,这为本项目的顺利开展提供了重要保障。 二、一带一路视角下中英语料库建设过程 (1)语料库建设前期准备

托福口语语料库

IBT-speaking独立问题万能语篇语汇: 万能素材:(做到熟读,有印象,有话说) 1What’ s your favorite color? White: I love the color white because it’ s so clean and pure. When I wear white, I feel very peaceful at heart. But I have to pay attention because it gets dirty so easily. I think a white Tee Shirt and blue jeans are the best combination. black; think black is very mysterious and sophisticated. For a girl, it looks very sexy. And when you wear black you look thinner, because the color is very slimming Blue: It ’ s the color of the sea and the sky. It’ s also the color of jeans. So I guess in a sense, it’ s a young and free color. Red: Red is the hottest and most enthusiastic color you can ever imagine. And it’ s colorthe of China. Green: The color green reminds me of the nature and the environment. It ’ s the color of Spring when all lives come back around us. So wearing this color, I feel very close to nature. 2Do you like the same color now as you did when you were younger? Same: Well, yeah. ’ t change. I ’ m a kind of person that likes something and doesn And I think the colors of black and white are the most classic. I ’ m a simple guy, so I like simple colors. Changed: I guess it changed. When I was young, I was childish, so I like bright colors, such as light yellow and shiny. There are so many people in the world, about 8-9 billion. But the ones that really matter are few. But now, I ’ m a 20 years old young man, I re mature,’mandmoso I like more understated colors, such as dark blue or deep green. 3 What can you learn about a person from the color they like? I think you can tell about a person ’ s personality by his or her favorite colors. For example, if a person lov es the color red, he ’ s very-goingoutand not afraid to show his feelings and emotions. But if a person loves black, for instance, she maybe very reserved and mysterious. She may not want to share too much with others. 4Do any colors have special meanings in your culture? I think the colors of red and yellow represent our home country, China,

相关文档
最新文档