小型学习者语料库的建设与应用

小型学习者语料库的建设与应用
小型学习者语料库的建设与应用

第25卷第6期

贵州大学学报(社会科学版)V o.l 25 N o .62007年11月J OURNAL OF GU IZ HOU UN IVERS I TY (Socia l Sc i ences)N ov .2007

小型学习者语料库的建设与应用

周 杰

(贵州大学大学外语教学部,贵州贵阳550003)

摘 要:语料库在研究语言的用法、翻译、教学、教材编写以及词典编撰等方面起着重要作用。外语教师可

以收集整理相关材料,有针对性地建设小型学习者语料库,并将其应用到实际教学、研究、翻译中。本文介绍了

语料库的种类和用途、建设小型学习者语料库的基本方法以及小型学习者语料库的应用等。

关键词:小型;学习者语料库;建设与应用

中图分类号:H 319.3 文献标识码:A 文章编号:1000-5099(2007)06-0117-04

语料库自20世纪60年代发展至今,已经广泛应用于语言学研究的各个方面,如:词典编撰、语言本质的研究、教材编写、翻译比较、语言教学等。计算机技术的高速发展使语料库语言学(Corpus L i n gu istics)在过去的20多年来也得到了长足的发展,已成为现代语言学的一个重要分支(潘永樑,2001)。大型语料库语料收集面广,代表性强,可以为语言研究提供可靠的信息。但正因为其包罗万象,大型语料库在辅助教学研究等方面缺乏针对性,实用性不强。作者认为,广大教师可以根据自己的实际需要建设小型学习者语料库,开展有针对性地研究,并将其应用到教学中。本文从语料库语言学的种类与用途、建设小型学习者语料库的可行性、建设小型语料库的基本方法以及如何使用小型语料库等方面做了主要论述。

一、语料库的种类与用途

建设语料库之前,我们应首先明白语料库的定义。在语料库语言学的长期发展过程中,根据不同学者的研究内容或形式,形成了语料库的不同定义,但其核心内容均包含计算机和语料文本以及检索分析工具等。笔者认为,Granger 的定义能清楚明确地描述语料库(Co r pus),即:应用计算机技术对海量自然语言材料进行处理(包括预处理、语法自动赋码、自动句法分析、语义分析等)、存储,以供自动检索(retr i e val)、索引(concordance)以及统计分析的大型资料库。它是按照明确的设计标准为某一具体目标而建立的语言资料库(转引自李文中,1999)。简单说来,语料库是指存放在计算机里的大量原始语料文本或经过加工后带有信息标注的文本。它是一个庞大的语言素材的集合体,主要用于观察、分析和研究目标语的各种特征(唐洁仪,2004)。而更通俗的说法则是把语料库看作是 按照特定的目的与方式建立起来的存储语言材料的仓库 (武和平,2002)。那么,这个 仓库 能发挥怎样的作用呢?从语料库语言学的发展历程我们可以看到,语料库的用途主要体现在对语言现象以及语言本质的研究,如语言频率统计、词典编撰、词汇搭配研究和自然语言处理等方面。现在,语料库也逐渐应用到教学研究中。根据邢富坤(2006)的统计,国内基于语料库的教学研究的绝对数量越来越大,将语料库应用于外语教学的趋势也越来越明显。

根据不同标准,语料库可以分为单语语料库、多语种平行语料库、历时语料库、共时语料库等多种类型(潘永樑,2001)。以下为其中两种分类法:

1)以语料的原始形式分类:书面语语料库、口语语料库和视频语料库。书面语语料库语料收集相对容易,因而语料库规模较大;而口语和视频语料库的内容需要通过音频或视频转写,工作繁杂,难度大,因而相对来说,这两种语料库规模较小,且建成的不多,国内现已完成的库容量较大的主要有南京大学的!117! 收稿日期:2007-11-08

作者简介:周 杰(1971-),女,四川乐山人,贵州大学大学外语教学部副教授。

中国学生英语口笔语语料库。

2)以语料的来源分类:母语语料库和学习者语料库。实际上,现在国际上规模最大的语料库如The

B ritish N ational Corpus(BNC)、COB U I LD和The Longm an Corpus Net w or k等收集的语料均来自英语为母语的国家。国内的 现代汉语语料库(清华大学)和 大型中文语料库(北京语言文化大学)等也属于母语语料库。各国现在也在建设自己的学习者语料库。国内最早建立的学习者语料库是上海交通大学与广州外语外贸大学联合建成的 中国学习者语料库(CLEC)。

根据Leech(1998)的论述,学习者语料库的语料来自外语学习者产出的口语或书面语。将这些语料经过计算机处理后形成的数据库即为学习者语料库。学习者语料库的建设将为深入研究学习者的二语语音、词汇、语法、语篇、语用、交际能力的发展提供充分的数据,而且还为研究学习过程、自主性学习以及教材编写和测试提供重要的反馈和支持(文秋芳,2005)。随着语料库语言学的发展,学习者语料库的建设已经成为了当今语料库语言学研究的重点之一(甑凤超,2004)。国外建成的规模较大的学习者语料库是Ca m bri d ge Lear ner Cor pus(CLC)。国内也逐渐出现了学习者语料库,除拥有100万词的CLEC之外,规模较大的还有南京大学的 中国英语专业语料库(100多万词)和 中国学生英语口笔语语料库(200多万词)以及规模更大的香港科技大学学习者语料库等。这些大型语料库为广大学者和教师提供了大量真实的学习者的语料,可以对学习者的词汇用法、语法特征,特别是错误分析等进行研究。同时,可以对照英语本族语语料库,将英语学习者的语料与本族语语料进行对比,找出它们的异同,为教材编写、大纲制定等提供有用的数据。

二、小型学习者语料库的建设

(一)建库的可行性和目的

尽管国内已经建成了上述学习者语料库,也有大量基于这些语料库的研究成果,但这些语料库涵盖的语料来源太广,广大教师可以利用其对国内英语学习者语言的整体特点等方面进行研究。但具体来看,这些语料库并不能反映广大一线教师自己所任班级的学生的语言学习情况和语言特点。相对来说,基于这些语料库的研究对一线教师的教学并没有很强的针对性。因此,一般的外语教师应自己动手,收集与教材相关的材料和学生日常的材料,建立适用于教学的各种语料档案,如与课文相关的阅读材料档案库、学生作文档案库、教师???学生课堂话语档案库等(卫乃兴,2005)。这种小型语料库有着种种优势,如:目标明确、语料收集针对性强、语料能不断扩展、及时更新、自主设计、灵活标注等特点(谢家成,2003)。技术的发展使语料库软件的操作越来越简单。教师可以利用计算机对这些档案库中的语料进行处理,再利用语料库软件进行分析。笔者认为,如上所述的学生作文语料库,即小型学习者书面语语料库是针对具体学生语言学习情况的最重要的语料库之一。教师可以利用检索软件得出分析数据,了解学生总体的语言学习情况、词语搭配掌握情况以及错误情况等,而不是根据个人直觉对学生的学习情况作出判断。从中找出自己学生的问题所在,分析问题,解决问题,从而达到提高学生整体水平的效果。

(二)语料来源和分类保存

学习者语料库的语料应来自学生在课堂或课外的语言产出,可以是书面的,如课堂作业、写作和考试等;也可以是口头的,如课堂对话、演讲和口语考试等。书面语料的收集较为容易,可以在课后将课堂作业输入计算机存档;计算机的普及可以让学生用电子文档的方式提交写作材料。相对来说,考试中的作文语料收集工作量较大,需要在试卷批改存档后输入计算机。大部分书面语料的收集在日常教学中就可以完成。口语语料收集输入需要两个基本步骤:录音和转写。现代设备如MP3使录音的工作较为简单,但录音之后的转写需要花费大量的时间和精力。以上述方式获得的语料是未经计算机处理的语料,可以称为生文本(ra w text)。存档时,应把每一个生文本作为一个独立文件单独命名存放。文件应以英文字母形式命名便于能让软件识别,并统一格式,方便以后添加新的文件。同时,所有文件的格式应统一,建议使用纯文本(.txt)格式存档,这是几乎所有的语料库软件都能识别的格式。

(三)语料的标注和赋码

存档之后,应对生文本进行加工,使它具备更多的信息。首先应加注篇头或文本头(header)。文本头应提供这篇语料的相关基本信息,如作者姓名、年级、专业班级、性别、年龄、文本文体、文本字数等。信息!

!

118

越多,对以后的研究就更实用。通常的标注方法是将上述信息放入尖括号 <>中。例如: =年级;=班级;=性别;=年龄;等等。如果教师建设学习者语料库的目的是要对学生的错误现象进行分析,然后开展有针对性地教学,那么,文本头标注之后,就应对文本进行错误标注。错误标注是一项细致的工作,教师应先对错误分类,然后制定错误标注赋码表,解释各赋码的含义,方便教师在标注时使用。例如:

代码代码说明举例

拼写错误It i s turet hat w e shou l d#

首字母应大写未大写#v ie w s on co m puter ga m es.i nm y opi n i on,#

代词使用错误Students like p l ay i ng g a m es.H eplay g a m es everyday#

语法错误T he student wantto p l ay ga m e

上表是笔者在对错误进行标注时使用的赋码表中的一些内容。这只是对错误的简单标注。若教师希望对学生的某一错误了解得更细的话,可以再将错误进一步分类,比如语法错误,可以分为第三人称单数错误、主谓一致错误、时态错误等等。标注完成之后,就可以利用检索软件进行检索。检索赋码与检索其他单词或词组都是相同的操作,所以简便易行。若建库目的是了解学生的词汇搭配或词汇量等语言使用情况,则不用进行错误标注,这样工作量相对较小。此外,应对语料进行词性赋码。在进行词性赋码之前,应确定赋码方案(tagset)。现在已经开发了多种词性赋码方案,如CLAW S自动词性赋码器等。目前比较流行的词性赋码工具有AnnoToo l和GoTagger软件(赵宏展,2007)。值得注意的是,无论做何种标注或赋码,都应保存一份生文本,以备将来进行更多的研究或标注时使用。

(四)语料库检索软件

计算机的普及让广大教师都能利用计算机对收集到的语料进行整理和处理。下一步需要定位检索软件来对这些语料进行管理和检索。很多功能强大、使用简便的定位检索软件网上也能免费下载,如:M i croconcord、Concapp、Concor dance等(谢家成,2003)。常用的软件还有W o r dSm ith Too ls,主要工具包括Concord,W ordlis,t和K ey W or ds等语料库研究常用工具,功能非常强大。这款软件需要购买,网上可以下载试用版。上述软件各有特点,教师可以根据需要选择使用。这些软件简便易学,教师在学习使用这些软件时,也可参考软件自带的帮助文件。

简单说来,小型学习者语料库的构建基本步骤为:规划、语料收集、语料输入计算机、校对、标注、赋码、入库。上述工作完成之后,我们应将这些库文件统一命名保存,方便语料的维护与应用。语料库的建设也就基本结束。这样建成的语料库是开放的,教师可以在今后的教学过程中不断添加新的语料,使语料库发挥更大的作用。

三、小型学习者语料库的应用

学习者语料库建成之后,教师可以利用软件对语料库进行定位检索。通过检索,找出自己学生在写作中的用词规律、词语搭配情况、语言特点以及错误类型情况等。分析之后,进行有针对性地教学。也可以通过将检索情况演示给学生,让学生自己发现问题,这样能加强学生自主学习的能力并提高他们的学习兴趣。

在实践中,笔者根据上述方法自建了一个小型学习者语料库,语料来源为自己所任班级学生的一次议论文写作材料,全班89人,共收集到85篇文章,约1万字,全部加注了文本头(header)和词性赋码。在批改学生作文时,发现大部分学生有情态动词使用不准确的情况。于是,笔者就对语料进行了专门标注,把语料中所有情态动词都标注为,希望通过定位检索工具找到确切的数据和问题所在。下图为利用W ordS m ith工具中的Concord功能检索到的情态动词使用情况:

图中的数据显示,共有427个句子使用了不同的情态动词,其中,使用can的句子占了44.5%,另外三个常用的情态动词为w il,l should和m ay,占了37.9%。这说明学生在句子中过分依赖上述4个情态动词来表达,这与英语为本族语的学生的用法相差太大,说明学生并没有掌握这几个词的用法。这样,将来的教学中就可以更有针对性地对这些情态动词的使用进行讲解。当然,我们还可以对情态动词的错误用法进行进一步标注,进而分析得出更细的结果。

!

!

119

上述对语料库的应用研究只是简单示范,还可以根据实际情况进行更多地分析研究。本文中不再详细介绍。

小型学习者语料库的构建方法并不复杂,但需要团队的力量才能使繁杂的工作变得简单有序。因此,建议形成合作小组,共同建设同一个专业,或同一个年级,或同一个学校的学习者语料库。这样,可以使已建成的语料库发挥更大的作用。当然,这类语料库功能的发挥还取决于以下两个方面,一是对语料的标注。一般来说,标注越细,通过检索能得到的信息就越多,应用范围就越广。二是教师的综合能力。除了教学能力之外,教师还应具备语言学知识,善于总结、发现语言特点。这样才能做到在教学中研究,在研究中教学。本文中的构建方法还有一些不足的地方,需要我们在实践中不断完善。此外,如何能更方便地对文本进细致的标注也是今后研究中应关注的问题。

参考文献:

[1]李文中. 语料库、学习者语料库与外语教学[J].外语界.1999,(1).

[2]潘永樑. 语料库语言学的目的和方法[J].解放军外国语学院学报.2001,(2).

[3]唐洁仪,何安平. 语料库在外语教学中的应用[J].外语电化教学.2004,(5).

[4]卫乃兴.?语料库应用研究%[M].上海:上海外语教育出版社.2005.

[5]文秋芳.?中国学生英语口笔语语料库%[M].北京:外语教学与研究出版社.2005.

[6]武和平. 基于网络的语料库及其在英语教学中的应用[J].电化教育研究.2002,(10).

[7]谢家成. 论个人教学语料库的构建[J].外语电化教学.2003,(3).

[8]邢富坤. 语料库:值得教育技术学关注的新型学习资源[J].解放军外国语学院学报.2006,(2).

[9]甑凤超,张霞.2004, 语料库语言学发展趋势展望[J].外语界.2004,(4).

[10]赵宏展. 小型翻译语料库的DI Y[J].中国科技翻译.2007,(2).

[11]K ennedy,G rae m e.An I n trodu cti on t o Corpus L i ngu istics[M].B eiji ng:Forei gn Language T eac h i ng and Res earch Press.2000.

[12]Leech,G.Learner Engli sh on Co m pu t er[M].N e w York:Long m an.1998.

To Buil d and Appl y S m all sized Learner Corpora

Z HOU Jie

(C olle g e E ng lish Depa rt m e n t,G uizh ou University,G ui yang,Gu i zhou,550003,Ch i na)

Abst ract:Co r pora play a critica l ro le in the st u dy of the language use,translati o n,teaching and tex t b ook co m p ilati o n.Teachers m ay co llect students&w ritings and bu ild s m all sized learner cor pora in li n e w ith their needs and apply the m i n teach i n g research and translati o n.The present study introduces the varieties and purpo ses of this k i n d o f corpora,the basic m ethod to bu il d up the s m a ll sized co r po ra and their applicati o n.

K ey W ords:s m all sized;learner co r pora;bu ild and app l y

!

!

120

语料库翻译学_问题与展望_龙绍赟

江西社会科学2012.12 244 语料库翻译学:问题与展望 ■龙绍眖语料库翻译学在汲取语料库语言学、描写性译学及其他相关学科营养的同时,不断丰富和发展自己的研 究内容和研究方法,颠覆了传统译学的研究方法,形成了自己独特的研究对象,拓展和深化了翻译学研究的外延和内涵。然而,语料库翻译学研究也存在内容上的缺陷。因此,未来的语料库翻译学研究应紧密结合翻译学的跨学科属性,构建并完善语料库翻译学的理论体系,发挥其方法优势,突破自身的缺陷,实现其发展预期。 [关键词]语料库翻译学;跨学科属性;代表性;应用文体;深度与广度 [中图分类号]H0[文献标识码]A[文章编号]1004-518X(2012)12-0244-05 龙绍眖(1969—),男,江西师范大学外国语学院副教授,硕士生导师,主要研究方向为语料库语言学。(江西南昌330022) 20世纪以来,描写性译学悄然兴起,语料库语言学蓬勃发展。20世纪90年代,以英国曼彻斯特大学翻译与跨文化研究中心Mona Baker为代表的一批学者相继将语料库应用于翻译学研究,开启了全新的译学研究范式—— —语料库翻译学。语料库翻译学注重实证研究,强调数据统计与理论分析的有机结合,主张从大量翻译事实或现象出发,在对获取数据进行统计分析的基础上来阐明翻译本质、翻译过程、翻译策略及翻译活动的制衡因素,有效地弥补了定性研究的缺陷与不足。短短十几年的发展,语料库翻译学已逐渐形成自己独特的研究领域,并发展为翻译研究领域不可或缺的学科。但语料库翻译学研究在技术层面、研究方法、研究广度和深度等层面还有很多不足,本文就此提出一些建议与策略。 一、语料库翻译学的发展概况 语料库翻译学,指以语料库为基础,以真实的双语语料或翻译语料为研究对象,以数据统计和理论分析为研究方法,依据语言学、文学和文化理论及翻译学理论,系统分析翻译本质、翻译过程和翻译现象等内容的研究。[1]语料库翻译学最早由Mona Baker于1996年正式提出[2],Tymoczko将该领域的研究命名为“Corpus Trans-lation Studies”(语料库翻译学研究)。[3]语料库翻译学是语料库语言学和描写性译学相互影响、相互结合的产物。Sara Laviosa认为:语料库语言学和翻译研究的结合形成了“一种连贯的、全面而丰富的研究范式。该范式涉及翻译理论、描写和实践等方面的问题,业已成为当代描写性译学研究的新范式”。[4]相应的,语料库翻译学具有这两个研究领域的特征,即语料库方法的运用与注重描写与实证。[1] 语料库翻译学已成为语料库翻译学区别于传统译学研究不可或缺的研究领域。译学研究语料库的建设应属语料库翻译学的研究内容之一。不同于以学者直觉和

语料库与语料库建设

语料库和语料库建设 一、什么叫语料库 1、定义 语料库,通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是指按照一定的 语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。 目前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。我们看到,以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设计是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。 语料库不同于电子文档,语料库的建设有特定的研究目的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。 语料库具有以下特征:1、语料库的设计与建设有系统的语言学理论指导,语料库的开发具有明确而又具体的目的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,由此保证基于语料库的语言研究的科学性、客观性。3、语料文本是连续的文本或话语片断,而不是孤立的句子或词汇,可以借以获得语法关系、用法、词语搭配以及语篇信息。4、语料库以当代先进的计算机技术为技术手段,语料库语料通过电子文本形式储存并且是通过计算机处理的,具有资源优势和处理速度优势。5、基于语料库的研究以量化研究为基石,以概率统计为手段,以数据驱动为基本理念。6、语料库既是一种研究方法,又代表着一种新的研究思维。 二、语料库产生的背景及发展历史 对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪50年代中期, 在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛围无疑促进了对语料的重视。1959年夸克(R.Quirk)等人着手进行的“英语用法调查”(Survey of English Usage)通过系统的调查建立了第一个现代英语语料库,在此基础上完成的《现代英语语法》( A Grammar of Contemporary English)和《英语语法大全》(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写,在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。

关于汉语中介语语料库建设研究报告

汉语中介语语料库建设研究 沈锐1,黄薇2 (1.红河学院教育技术系2.红河学院国际合作与交流处XX蒙自661100) 【摘要】本文探讨母语非汉语学习者的汉语中介语语料库建设的主要思路以及具体实现方法,重点介绍了汉语中介语语料的加工方法以及语料数据库的设计思路,并阐明了该语料库在对外汉语教学和研究中的应用价值。 【关键词】语料库;中介语;汉语教学 语料库是指按一定的语言学原则收集的语言文本或话语片断而建立的电子资料库。本文所述汉语中介语料库是基于语言学中中介语理论设计与实施的。中介语是心理语言学中第二语言习得的一种研究模式,其将语言学习者置于观察中心,去研究他们如何有意识地向目的语的正确形式迁移的各种动态表现。中介语理论自20世纪60年代末出现并发展至今,虽然时间并不长,但越来越受到语言学家以及一线教师的关注。无论是进行中介语研究还是使用中介语理论进行第二语言教学都需要收集分析大量的语料,因而通过信息化手段收集和整理语料变得十分迫切。在对外汉语教学中,通过建设和使用母语非汉语学习者的汉语中介语语料数据库,可以收集不同背景和不同学习阶段外国学生及少数民族学生的汉语书面语和用文字转写的口语语料,并对语料属性、词汇、语法等单位进行计算机处理,以实现对各种条件和要求下的语料数据进行便捷的机器检索和提取,可以为研究母语非汉语学生学习和习得汉语的规律提供大量的各种单项的或综合的资料和信息。因此,我们提出了建设汉语中介语语料库的课题,由于语料库建设是一项浩大的工程,限于人力物力条件,本文讨论的是中

小规模的语料库。 一、需求分析和框架设计 语料库建设不能盲目进行,首先要进行调研,对语料库的应用需求进行分析。半自动化的语料库构建是目前语料库建设的主流技术,目的是在确保语料库质量的前提下,减少人工参与的比例,增加自动化程度,目标是在较短时间内建设一个有一定规模,质量可靠、可扩充、成本低,能够全面、细致地记录母语非汉语学习者在汉语学习过程中的语言表征和研究他们汉语习得过程的语料库。依照软件工程的方法,建立数据库首先需要进行需求分析,在需求分析过程中要注意汉语中介语语料库主要是服务于对外汉语教学的一线教师,以及辅助母语非汉语学生自学,因此主要注重以上二类服务对象的应用需求,确保建成的语料库能够对第二语言教学、研究以及教材的编写提供持续支持。基于以上要求,在对中介语语料库的建设思路及框架做了总体考虑,基本归纳为以下三个方面: 1、中介语语料库为专门用途语料库,主要目的为研究母语非汉语的学生在学习汉语过程中的中介语现象而设计制作的。 2、中介语现象存在于母语非汉语的学生在学习汉语过程中的书面语料及口语语料中,由于口语语料的收集、分析和标注都较为困难,因此在建库的第一阶段只考虑收录书面语料,这有利于语料库的快速建设与使用。 3、语料标注的加工标准使用中科院计算所汉语词性标记集V3.0。 二、语料收集与加工

Corpus Linguistics and Translation Studies Mona Baker 1993 语料库翻译学文献

Corpus Linguistics and Translation Studies Implications and Applications Mona Baker Cobuild, Birmingham Abstract The rise of corpus linguistics has serious implications for any discipline in which language plays a major role. This paper explores the impact that the availability of corpora is likely to have on the study of translation as an empirical phenomenon. It argues that the techniques and methodology developed in the field of corpus linguistics will have a direct impact on the emerging discipline of translation studies, particularly with respect to its theoretical and descriptive branches. The nature of this impact is discussed in some detail and brief reference is made to some of the applications of corpus techniques in the applied branch of the discipline. 0.Introduction A great deal of our experience of and knowledge about other cultures is mediated through various forms of translation, including written translations, sub-titling, dubbing, and various types of interpreting activities. The most obvious case in point is perhaps literature. Most of us know writers such as Ibsen, Dostoyevsky and Borges only through translated versions of their works. But our reliance on translation does not stop here. Our understanding of political issues, of art, and of various other areas which are central to our lives is no less dependent on translation than our understanding of world literature. Given that translated texts play such an important role in shaping our experience of life and our view of the world, it is difficult to understand why translation has traditionally been viewed as a second-rate activity, not worthy of serious academic enquiry, and why translated texts have been regarded as no more than second-hand and distorted versions of …real? text s. If they are to be studied at all, these second-hand texts are traditionally analysed with the (233) sole purpose of proving that they inevitably fall short of reproducing all the glory of the original. A striking proof of the low status accorded to translated texts comes from the young but by now well-established field of corpus linguistics. A recent survey commissioned by the Network of European Reference Corpora, an EEC-funded project, shows that many corpus builders in Europe specifically exclude translated text from their corpora.1 This

语料库与语料库建设

语料库与语料库建设 语料库和语料库建设 一、什么叫语料库 1、定义 语料库,通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是 指按照一定的 语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。 口前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。我们看到,以上关于语料库的儿种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设讣是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。语料库不同于电子文档,语料库的建设有特定的研究LI 的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档U标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。 语料库具有以下特征:1、语料库的设讣与建设有系统的语言学理论指导,语料库的开发具有明确而乂具体的U的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行

研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。 2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,山此保证基于语料库的语言研究的科学性、客观性。 3、语料文本是连续的文本或话语片断,而不是孤立的句子或词汇,可以借以获得语法关系、用法、词语搭配以及语篇信息。 4、语料库以当代先进的计算机技术为技术手段,语料库语料通过电子文本形式储存并且是通过讣算机处理的,具有资源优势和处理速度优势。5>基于语料库的研究以量化研究为基石,以概率统汁为手段,以数据驱动为基本理念。6、语料库既是一种研究方法,乂代表着一种新的研究思维。 二、语料库产生的背景及发展历史 对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪 50年代中期, 在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛圉无疑促进了对语料的重视。1939年夸克(R. Quirk)等人着手进行的“英语用法调查” (Survey of English Usage)通过系统的调查建立了笫一个现代英语语料库,在此基础上完成的《现代英语语法》(A Grammar of Contemporary English )和《英语语法大全》(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写,在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。 20世纪六十年代后,语言学研究主流从经验主义转向理性主义,乔姆斯基的语言能力说被广泛接受,转换生成语法学派批评语料库研究方法,认为,1、基于语料库的方法有误。乔姆斯基等认为语言学应当以人脑的语言机制即语言能力为研究对象,语料库收集的只是人们的语言运用,语言运用会因超语言因素的影响而发生变化,它并

语料库翻译学研究内容

研讨五语料库翻译学 1. 什么是语料库翻译学? 2. 语料库翻译学的理论基础? 3. 语料库翻译学的研究内容? 4. 什么是翻译共性? 根据研究课题的来源,语料库翻译学的研究领域分为三类。 第一类源自传统译学研究,包括基于语料库的文学翻译、翻译史、翻译教学、翻译实践、机器翻译和口译等领域的研究。 基于语料库的文学翻译研究以文学翻译作品的文本分析为基础,研究文学翻译理论与实践的相关课题。这些课题具体为: 1) 意象和人物形象的再现与变形,2) 文学风格的再现与重构,3) 文学翻译的创造性,4) 译者风格,5) 文学作品空白和未定性的翻译,6) 文化负载词的翻译,7) 误译和漏译研究。 基于语料库的翻译史研究利用历时性平行语料库对名家译作进行文本分析,揭示翻译家在翻译策略应用、翻译风格和翻译语言等方面所表现出的个性特征及其所遵循的翻译规范。目前,翻译史研究大多将翻译家的观点或言论视为客观现实,满足于翻译事实的罗列,对于翻译规范和历史语境关注不够。事实上,翻译家的所做与所言往往不一致,翻译家所言并不能反映其翻译作品的特征。此外,翻译是一种特殊的社会文化行为,受特定规范的制约。这些规范因时代或文化的差异而不同。利用语料库分析翻译文本的具体特征,归纳不同历史时期的翻译规范,可以阐明翻译家的所作所为,还原历史的真实面貌。另外,该领域的研究还通过提取语料库的篇头信息,对于具体某一历史时期的翻译活动进行客观描述。这些信息包括出版商、出版时间、作品主题、译者姓名和性别等内容。应当指出,语料库翻译学与翻译史均强调对研究对象进行客观描写,重视还原语境方法( contextualization) 的应用。这些共性为语料库在翻译史研究中的应用提供了作为空间。 以上研究均属语料库翻译学理论层面的研究,而基于语料库的翻译教学、翻译实践和机器翻译研究都是应用层面的研究。前者侧重于探讨语料库在翻译评估、翻译教材编写和翻译教学模式中的应用,后者主要关注双语词汇和句式之间的对应关系、翻译策略和方法的应用等问题。基于语料库的机器翻译研究是指利用语料库的核心技术,建设具有海量信息的知识库,以满足机助翻译或自动翻译的需求。 基于语料库的口译研究侧重于分析口译语料词汇、句法和语篇等层面的特征,研究口译语言特征、口译规范、口译策略和方法等。该领域的研究是综合性研究,既有理论层面的探讨,也有实践层面的分析。 第二类研究领域源自描写性译学研究,涵盖翻译共性、翻译规范和批评译学等领域的研究。 翻译共性是指由于翻译过程而形成的翻译文本所具有的区别于原创文本的特征,与源语和目的语之间差异无关,具体表现为显化、隐化、简化和范化等。翻译规范是“译者在具体时间或社会文化环境中所做出的规律性或习惯性选择”。“翻译规范是关于翻译作品和翻译过程正确性的规范,体现了具体某一社会或历史时期关于翻译的价值观和行为原则”。翻译规

语料库常用统计方法

3.5语料库常用统计方法 第3章前几节对语料库应用中的几种主要技术做了介绍。通过语料检索、词表和主题词表的生成,可以得到一定数量的句子、词汇或结构。为能更好说明所得到的结果的真正意义,常常需要对它们加以统计学分析。本章主要介绍语料分析中的一些常用统计方法。 3.5.1 语料库与统计方法 介绍相关统计方法之前,首先需要了解为什么语料库应用中需要运用统计方法。在2.1节讲到文本采集时,我们知道文本或会话构成了最终的语料库样本。这些样本是通过一定的抽样方法获得的。研究中,我们需要描述这些样本的出现和分布情况。此外,我们还经常需要观察不同语言项目之间在一定语境中共同出现(简称共现)的概率;以及观察某个(些)语言项目在不同文本之间出现多少的差异性。这些需要借助统计学知识来加以描写和分析。 理论上说,几乎所有统计方法都可以用于语料库分析。本章只择其中一些常用方法做一介绍。我们更注重相关统计方法的实际应用,不过多探讨其统计学原理。这一章我们主要介绍语料分析中的频数标准化(normalization )、频数差异检验和搭配强度的计算方法。 3.5.2 频数标准化 基本原理 通常语料检索、词表生成结果中都会报告频数(frequency, freq 或raw frequency )。那么某词(如many )在某语料库中出现频数为100次说明什么呢?这个词在另一个语料库中出现频数为105次,是否可以说many 在第二个语料库中更常用呢?显然,不能因为105大于100,就认定many 在第二个语料库中更常用。这里大家很容易想到,两个语料库的大小未必相同。按照通常的思维,我们可以算出many 在两个语料库中的出现百分比,这样就可比了。这种情况下,我们是将many 在两个语料库中的出现频数归到一个共同基数100之上,即每100词中出现多少个many 。这里通过百分比得到的频率即是一种标准化频率。有些文献中标准化频率也称归一频率或标称频率,即基于一个统一基准得出的频率。 实例及操作 频数标准化,首先需要用某个(些)检索项的实际观察频数(原始频数,raw frequency )除以总体频数(通常为文本或语料库的总词数),这样得到每一个单词里会出现该检索项多少次。在频数标准化操作中,我们通常会在此基础上乘以1千(1万、1百万)得到平均每千(万、百万)词的出现频率。即: 1000?=总体频数 观测频数标准化频率(每千词) (注:观测频数即检索词项实际出现的次数;总体频数即语料库的大小或总形符数。) 例如,more 在中国学生的作文里出现251次,在英语母语者语料中出现475次。两个语料库的大小分别为37,655词次和174,676词次。我们可以根据上面的公式很容易计算出251和475对应的标准化频率。另外,我们还可以利用Excel 或SPSS 等工具来计算标准化频率。比如,可以将实际观察频数和语料库大小如图3.5.1输入相应的单元格,然后在C1单元格里输入=(A1/B1)*1000即可得到中国学生每千词使用more 约为6.67次。要得到母语

双语对应语料库翻译教学平台的应用初探_王克非

语言技术与外语教学研究 *版权所有 文责自负* 双语对应语料库翻译教学平台的应用初探 王克非1 ,秦洪武2 ,王海霞 2 (1.北京外国语大学中国外语教育研究中心,北京 100089;2.曲阜师范大学外语学院,山东曲阜 273165) 摘 要:本文通过语料呈现实验探讨双语对应语料库翻译教学平台的应用效果。实验显示,学生在观察语料后能够归纳和总结出有意义的翻译技巧,并能据此评估或反思自己的翻译行为。实验表明,在翻译课堂教学中使用语料资源有助于自主学习和发现式翻译教学环境的创建,也有助于学习者形成 稳定的翻译技巧。 关键词:对应语料库;翻译教学;发现式学习;语料呈现中图分类号:H 319.3 文献标识码:A 文章编号:1001-5795(2007)12-0003-0006 近20年来,语料库的创建和应用取得了长足发展。对应语料库大都在上世纪九十年代开始创建,起步较晚,但已展现出广阔的应用前景。在欧美,这类语料库有十多个,涉及近20个语种,如H ansard(法-英对应语料库)和ENPC (英语-挪威语对应语料库)(V ron is 2000:14-15);在中国,有中科院计算所的大规模汉英对应语料库、北京大学的/B ABLE 汉英平行语料库0,以及北京外国语大学的/通用汉英对应语料库0(该库现有可检索语料2千万字/词以上,见王克非2004a),后者是本项研究使用的主要工具。对应语料库的创建有两个主要目的:一是用于语言与翻译研究,二是用于外语教学。用于前者的研究成果丰富,涉及语言对比、双语词典编纂和翻译研究(Lav i o sa 1997;Baker 1999;Serpellet 2000;H unston 2002)。用于后者尤其是用于翻译教学的研究也已取得不少成果,如Zanetti n 1998、Pearson (2003:15-24)和Bernardini (2004b :97-111),但大都研究平行语料为翻译训练提供的可能的资源和手段,还没有研究探讨大型对应语料库在课堂教学中的实际应用问题。 1 研究内容 有关运用语料库提高翻译效率和质量的研究还没有全面展开,而将对应语料库应用于翻译教学的研究则是刚刚开始(Bo w ker 2003;Ber nardi n i 2004b)。从理 论上看,语料库用于教学有利于自主学习环境的创建(Bernardini 2004a :22;秦洪武、王克非2007)。自主性学习主要表现在两个方面:研究性学习和发现式学习(learning as discovery)。前者假定学习者和教师研究兴趣相投、研究能力相当;后者则鼓励学习者自行调节兴趣点,并给他们提供机会来提高自己观察和处理问题的能力,使他们对两种语言的特征和差异有敏锐的觉识。本文认为,研究和发现虽不矛盾,但在以技能培养为核心的翻译教学中,不宜过分强调学生的研究能力,发现式学习这一提法更合适一些。 近年来,国内也有研究关注语料库在翻译教学中的应用问题。有些研究探讨了语料库在翻译教学中的用途(郭红2004;于连江2004;王克非2004b),但还没有研究系统地探讨对应语料在课堂教学中的应用方式和应用效果,也没有研究关注学生对于语料使用的态度。鉴于此,我们以/通用汉英对应语料库0为翻译教学平台,探讨在现有技术条件下翻译语料用于翻译教 作者简介:王克非:男,教授,博士生导师。研究方向:语言学、翻译学。 秦洪武:男,教授,博士。研究方向:语言学、翻译学。王海霞:女,讲师,硕士。研究方向:翻译学。 收稿日期:2007-03-18 基金项目:本文是国家社科基金课题/基于大型英汉对应语料库的翻译研究与翻译教学平台0的阶段性成果(编号05BYY 013),并获得曲阜师范大学科研启动基金资助(编号Bsqd2007022)。 # 3#第118期2007年12月 外语电化教学 C AFLE N o .118D ec . 2007

语料库的应用(最终)

语料库的应用 语料库方法广泛应用于语言学理论研究、军事等领域。当代语料库语言学(以语料库方法为取向的研究语言的分支就被称为语料库语言学)已是高歌猛进,日新月异,新的语料库更是层出不穷,经过科学选材和标注,具有适当规模的语料库能够反映和记录语言的实际使用情况,人们通过语料库观察和把握语言事实,分析和研究语言系统的规律,极大地方便了语言研究者。 军事语料库对信息化条件下的军事斗争具备潜在价值,积极开展军事语料库的研究和建设实践活动,并把研究成果转化到实战之中。和平时期对信息化高科技武器的建设不可小视,对战场态势的综合信息捕捉、把握和利用的能力建设至关重要,但对身边已有的各类信息的综合收集和利用也同样不可忽视。军事语料库的建设正是针对实现信息化战争中争夺与占有信息资源、获取不对称的战争中的信息掌握和信息利用的不对称优势。 【一】、语料库成为语言学理论研究的基础资源 语料库是计算语言学的基础。语料库对应的英文是corpus,复数形式为corpora。这个词既可以指语料也可以表示语料库。英国语言学专家戴维?克里斯特尔认为,语料库“指收集的一批语言学数据,或为书面文本或为言语录音的转写,可用作语言学描写的出发点,也

可作为验证语言假说的手段。计算机语料库是一大批机器可读文本的结集。各种为不同目的而建立的语料库可以应用在词汇、语法、语义、语用、语体研究,社会语言学研究,口语研究,词典编纂,语言教学以及自然语言处理、人工智能、机器翻译、言语识别与合成等领域。 起初语料库主要用于语言学研究,而且建成的语料库多为通用语料库,服务的研究领域主要集中于词典编纂、词语搭配与结构、基于平行语料库的英汉互译、文学作品和作家语言风格的研究以及基于语料库的外语教学研究等。随着研究的不断深入,各种专业领域语料库也相继建立,语料库的应用研究逐渐扩大到其他学科。 我国在语料库的应用上还处于起步阶段,在计算语言学和语言信息处理领域,语料库主要用来为统计语言模型提供语言特征信息和概率数据,在语言研究的其他领域,多使用语料的检索和频率统计结果。 目前国外已建成且较有影响的主要为以下的语料库:美国:布朗大学的今日美国英语标准语料库(The Brown University Standard Corpusof Present Day American English)、兰卡斯特一奥斯陆/卑尔根语料库(The Lancast-er-Oslo/Bergen (LOB) Corpus)、英语语库(TheBank of English)、英国国家语料库(The BritishNational Corpus(BNC、伦敦一隆德语料库(Lon-don -Lund Corpus(LLC》、美国传统中介语料(American Heritage Intermediate(AHI) Corpus)以及英语国际语料库(The Intemational Corpus ofEnglish(ICE》等。

基于CLEC语料库的中国学习者错误分析

第33卷第8期湖北科技学院学报Vol.33,No.8 2013年8月Journal of Hubei University of Science and Technology Aug.2013文章编号:2095-4654(2013)08-0066-02 基于CLEC语料库的中国学习者错误分析 叶翠英 (广西大学,广西南宁530004) 摘要:这篇文章运用错误分析理论和语料库检索方法,使用“中国英语学习者语料库”(CLEC),将语料库中380篇四级作文作为研究主体,主要分析学生写作中名词误用、动词误用及动/名搭配错误及产生错误的原因,并给出了对于中国英语作为第二语言教学实践的一些启示。 关键词:CLEC语料库;四级写作;错误分析 中图分类号:H319文献标识码:A 中国英语学习者英语语料库(Chinese Learner English Corpus,以下简称CLEC)是国家哲学社会科学“九五”规划的一个项目,由桂诗春和杨惠中教授主持组建,于2003年建成,也是目前国内最大、最权威的语言资料库。它收集了包括中学生、大学英语4、6级、英语专业低年级和高年级学生在内的书面语语料,总容量为100万词。它收录了5个等级学生(中学生、大学非英语专业四、六级和英语专业一、二阶段)笔头作文中的11类错误,动词错误又分为9类,按数量由多到少依次为时态错误、一致错误、及物动词模式错误、固定短语错误、语态错误、有定式/不定式错误、不定式错误、情态错误和语气错误。 很多语言学者从不同角度出发,利用CLEC语料库进行了一系列的研究。例如:桂诗春(2004)研究了以语料库为基础的中国学习者英语失误分析的认知模型;李文中(2003)分析了基于学习者语料库的主题词研究;基于此,本文运用错误分析理论和语料库检索方法,从CLEC子语料库中抽取380篇四级作文作为研究主体,对作文中出现的名词误用、动词误用及动/名搭配错误进行归类分析,以及错误产生的原因,并给出了对于中国英语作为第二语言教学实践的启示。 一、错误分析理论 错误分析于20世纪60年代作为应用语言学的一个分支发展起来。差错分析理论通过分析学习者在语言使用中犯的错误,对其语言学习过程中的难点进行科学预测。在学科课时分配中,英语课程学的课时一般比较紧张,为了应对平时的考核,有些学校放弃开展英语课程的实践教学;在一些硬件设施比较欠缺的学校,由于英语课程的CLEC语料库和设备都存在问题,导致英语课程教学的效果不佳或无法开展等。根深蒂固的应试教学观念和教学方法不仅不符合英语课程学的发展特点,也影响学生对英语课程的学习和事物的认识,不利于学生的全面发展。在对错误分析,例如技能目标,必须使用诸如“能够模仿”、“能够领悟”、“能够做到”等行为动词,并使用诸如“至少完成多少次什么动作”、“准确判断率达到95%”等的指标予以量化。在一个课次中,教学任务必须有道德品质教学任务,例如培养积极进取的集体主义精神。教学目标必须有学习者错误分析的基础,例如培养团队竞争与合作意识。 二、研究问题与方法 (一)研究问题 本研究主要问题如下: 1.非英语专业学生在写作中名词误用、动词误用,动/名搭配错误,主要有哪几类错误,错误频率最高的是哪类? 2.错误产生的原因主要有哪些? 3.对于这些错误的分析会给教学带来什么启示? (二)研究工具 1.中国学习者英语语料库(CLEC),ST3子语料库。抽取以Practice Makes Perfect为题目380篇四级考试作文进行分析。共计30342个单词。 2.用语料库检索工具Antconc3.2,主要检索出本语料库中出现的名词误用、动词误用,动/名搭配错误。 三、研究结果与分析 通过检索,此语料库共有363个词汇错误,包括词序错误,词类错误,替代错误,动/名搭配错误,省略型错误,冗余型错误,重复型错误以及语义含糊。本文仅分析词类错误,动/名搭配错误。 (一)词类错误(part of speech error)指词根正确但词类错误的词 例如: (1)In our live[life],we will find much Examples. (2)If w e w ant to be a succeed[successful]man,we must obey the w o rd– Practice Makes Perfect. *收稿日期:2013-04-18 基金项目:本研究是广西大学高等项目“基于语料库的大学英语写作教学模式研究”的阶段性成果之一

商务英语语料库的建设及应用初探

商务英语语料库的建设及应用初探 【摘要】语料库语言学作为一门新兴的语言学分支,其影响已遍及语言学研究的各领域。将语料库的方法应用于商务英语词汇教学中,发挥其语料真实丰富、计算机程序强大的重新组织语言数据的能力,既能提高学生商务词汇学习的效率和积极性,也能提高商务英语教学质量。本文从商务英语语料库的建设及其应用价值入手,以期语料库语言学为商务英语教学带来更多成果。 【关键词】商务英语语料库地方课程 商务英语(Business English)是指商务场景下所应用到的英语,作为特殊目的英语(English for Specific Purpose)具有很强的专业性。商务英语跟普通英语(English for General Purpose)最大区别之一就是专业词汇的大量使用,因此,词汇教学在商务英语教学中的作用不容忽视。语料库(Corpus)是语言素材的集合体,能快速准确地提供诸如构词、搭配、语境等多方面的语料及信息。在外语学习中,语料库能够缩小课堂语言与真实语言的差距、培养学习者的语感和学习能力及研究能力,所以用语料库的方法来学习商务英语词汇既可以刺激学生的学习积极性,也可以更加准确、更加有效地掌握商务英语中专业特点较强的词汇。 1 语料库及其发展 语料库可以概述为运用随机抽样的方法,收集自然出现的连续的语言,运用文本或话语片断,并按照一定的语言学原则建成的具有一定容量的语料体系。 语料库的发展大致经历了三个阶段:第一代语料库以20世纪60年代的Brown Corpus以及LOB Corpus为代表,由于是语料库发展的最初时期,所以规模都比较小,这个时期的语料库只能用来考查常用语言现象的频率,无法展现语言的全貌。第二阶段以20世纪80年代的Birmingham Collection of English Language Text以及Longman/Lancaster English为代表,这一时期的语料库建设以电子语料库的兴起为主要特征,语料库的容量不断扩大,种类不断增多。第三阶段从20世纪90年代至今,是语料库建设、研究与应用的迅猛发展阶段,功能更为强大的计算机系统软件的开发与应用致使第二代超大型计算机语料库开始出现,语料库进入了发展的黄金年代。 2 商务英语词汇及其特征 商务英语源于普通英语,并基于普通英语的基本语法、句法结构和词汇语,有普通英语的一些语言学特征。与此同时,作为应用在商务场合的英语,商务英语又是英语语言知识和商务专业知识的综合,因而又具有独有的专业特征。 2.1 在文体风格上,商务英语词汇属于庄重文体(frozen style)。庄重文体,即各体英语中正式程度最高的一种。这种“正式”一是为了在表达上追求准确、专业、标准化的效果,二是为了在思维上追求清晰和条理。许多商务词汇都表现出这一特性。 2.2 商务英语大量使用表意清楚的专业词汇和专业术语。专业词汇和专业术语是在专业领域用以代表部分专业知识的词汇,商务英语是英语在商务场合中的应用,内容的高度专业化势必导致专业词汇的大量使用。 2.3 商务英语具有古体特点,这种古体特点的一个主要标志是古体词语的使用。古体词是一种具有鲜明文体色彩的词汇成分,尽管古体词在现代英语口语和一般书面语中极少使用,但在商务英语文本中,古体词却大量出现,充分体现出其庄重严肃的文体风格。

小型学习者语料库的建设与应用

第25卷第6期 贵州大学学报(社会科学版)V o.l 25 N o .62007年11月J OURNAL OF GU IZ HOU UN IVERS I TY (Socia l Sc i ences)N ov .2007 小型学习者语料库的建设与应用 周 杰 (贵州大学大学外语教学部,贵州贵阳550003) 摘 要:语料库在研究语言的用法、翻译、教学、教材编写以及词典编撰等方面起着重要作用。外语教师可 以收集整理相关材料,有针对性地建设小型学习者语料库,并将其应用到实际教学、研究、翻译中。本文介绍了 语料库的种类和用途、建设小型学习者语料库的基本方法以及小型学习者语料库的应用等。 关键词:小型;学习者语料库;建设与应用 中图分类号:H 319.3 文献标识码:A 文章编号:1000-5099(2007)06-0117-04 语料库自20世纪60年代发展至今,已经广泛应用于语言学研究的各个方面,如:词典编撰、语言本质的研究、教材编写、翻译比较、语言教学等。计算机技术的高速发展使语料库语言学(Corpus L i n gu istics)在过去的20多年来也得到了长足的发展,已成为现代语言学的一个重要分支(潘永樑,2001)。大型语料库语料收集面广,代表性强,可以为语言研究提供可靠的信息。但正因为其包罗万象,大型语料库在辅助教学研究等方面缺乏针对性,实用性不强。作者认为,广大教师可以根据自己的实际需要建设小型学习者语料库,开展有针对性地研究,并将其应用到教学中。本文从语料库语言学的种类与用途、建设小型学习者语料库的可行性、建设小型语料库的基本方法以及如何使用小型语料库等方面做了主要论述。 一、语料库的种类与用途 建设语料库之前,我们应首先明白语料库的定义。在语料库语言学的长期发展过程中,根据不同学者的研究内容或形式,形成了语料库的不同定义,但其核心内容均包含计算机和语料文本以及检索分析工具等。笔者认为,Granger 的定义能清楚明确地描述语料库(Co r pus),即:应用计算机技术对海量自然语言材料进行处理(包括预处理、语法自动赋码、自动句法分析、语义分析等)、存储,以供自动检索(retr i e val)、索引(concordance)以及统计分析的大型资料库。它是按照明确的设计标准为某一具体目标而建立的语言资料库(转引自李文中,1999)。简单说来,语料库是指存放在计算机里的大量原始语料文本或经过加工后带有信息标注的文本。它是一个庞大的语言素材的集合体,主要用于观察、分析和研究目标语的各种特征(唐洁仪,2004)。而更通俗的说法则是把语料库看作是 按照特定的目的与方式建立起来的存储语言材料的仓库 (武和平,2002)。那么,这个 仓库 能发挥怎样的作用呢?从语料库语言学的发展历程我们可以看到,语料库的用途主要体现在对语言现象以及语言本质的研究,如语言频率统计、词典编撰、词汇搭配研究和自然语言处理等方面。现在,语料库也逐渐应用到教学研究中。根据邢富坤(2006)的统计,国内基于语料库的教学研究的绝对数量越来越大,将语料库应用于外语教学的趋势也越来越明显。 根据不同标准,语料库可以分为单语语料库、多语种平行语料库、历时语料库、共时语料库等多种类型(潘永樑,2001)。以下为其中两种分类法: 1)以语料的原始形式分类:书面语语料库、口语语料库和视频语料库。书面语语料库语料收集相对容易,因而语料库规模较大;而口语和视频语料库的内容需要通过音频或视频转写,工作繁杂,难度大,因而相对来说,这两种语料库规模较小,且建成的不多,国内现已完成的库容量较大的主要有南京大学的!117! 收稿日期:2007-11-08 作者简介:周 杰(1971-),女,四川乐山人,贵州大学大学外语教学部副教授。

语料库常用术语

语料库常用术语 Type 类符 Tokens 形符 例如“I see a cat and a dog”类符6个,形符7个 Type/token ratio =TTR TTR 是衡量文本中词汇密度的常用方法,可以辅助说明文本的词汇难度。但是,文本中有大量功能词出现,文本每增加一个词,形符就会增加一个,但类符却未必随之增加。这样文本越长,功能词重复次数越多,TTR会越低。因此用TTR衡量词汇密度不合理,于是,出现了标准化类符/形符比,即STTR。例如,计算每个文本1000词的TTR,均值处理,得出STTR。Frequency(频率) 例如每百万词、十万词中,某单词出现次数。常常将某个单词在两个语料库中出现的频率参照两个语料库的容量,用卡方检验或对数似然率进行对比,来确定两个库中该单词的使用是否有差异。 Wordlist词表 根据单词或词组在语篇中出现的频率大小而排列形成的列表。 Ranks Lemma词目,词元 比如go是lemma,对应各种屈折变化形式(inflections),go,goes,went,going,gone共5种屈折变化形式。在分析语言时,需要将它们全部归到go名下,这个过程叫词形还原。Keywords关键词、主题词positive keywords 正关键词negative keywords 负关键词 Concordance 索引(KWIC 语境中的关键词key words in context) 运用索引软件在语料库中查询某词或短语的使用实例,然后将所有符合条件的语言使用实例及其语境以清单的形式列出。通过前后语境,可以分析“collocation词汇搭配”“colligation 类连接、语法搭配”“semantic preference语义倾向”“semantic prosody语义韵”Collocation词汇搭配 搭配强度MI,T-score ,Z-score Colligation类连接、语法搭配 semantic prosody语义韵 词汇的语义韵大体可分为积极语义韵、中性语义韵、消极语义韵。 POS tagging 词性赋码 Regular expression regex 正则表达式

相关文档
最新文档