如何自建英语语料库

如何自建英语语料库
如何自建英语语料库

论自建小型学习者语料库的方法及作用

——以自建中学生英语写作语料库为例

曹鹤

北京市第三十一中

摘要: 大型语料库的出现和发展在研究语言的用法、翻译、教学、教材编写以及词典编撰等方面起着重要作用,但对于处于一线从事基础教育的外语教师而言,针对性和使用性不强。本文以自己建立小型基础英语教学中中学生写作语料库为例介绍了小型学习者语料库建设的可行性、方法和应用,借以提倡广大一线从事基础教育的教师利用高科技所带来的成果,武装和丰富自己,让自己的教学科学化、客观化。

关键词:小型学习者语料库;英语写作;基础教育

自20世纪60年代至今,语料库从萌芽阶段已经发展到广泛应用于语言研究的各个方面,如:词典编撰、语言学研究、教材编写、翻译、语言教学等等。同时,计算机技术的高速发展使语料库(Corpus)在过去的50多年来也得到了长足的发展,突出表现就是大型语料库的出现。大型语料库为语言研究提供了可靠的信息,但正因为其包罗万象、内容泛泛,在辅助基础教学研究等方面缺乏针对性,实用性不强。作者认为广大英语教师可以根据自己的实际需要建设小型学习者语料库,开展有针对性地研究,并将其应用到教学中。本文以建立中学生写作语料库为例介绍建设小型学习者语料库的方法、以及如何使用小型语料库等方面做主要论述,向基础英语教师展示如何运用这一新技术来辅助英语写作教学。

一、语料库简介

建设语料库之前,我们应首先明白什么是语料库。语料库并不复杂,它通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体(杨惠中,2004)。语料库可以帮助人们观察和把握语言事实,分析和研究语言系统的规律。从语料库语言学的发展历程可以看出,语料库的用途主要体现在对语言现象以及语言本质的研究,如语言统计、词典编撰、词汇搭配和自然语言处理等方面(顾曰国,1988)。现在语料库也开始逐渐应用到语言教学研究中。根据邢富坤(2006)的统计,国内基于语料库的教学研究的数量越来越大,将语料库应用于外语教学的趋势也越来越明显。

与国内英语教育关系最紧密的语料库是学习者语料库(learners corpora),即非母语学习者的口头和书面语料库,其中包括注有学习者拼写和语法差错标记以及改错提示的语料库. 根据Leech (1998)的论述,学习者语料库的语料来自外语学习者产出的口语或书面语。将这些语料经过计算机处理后形成的数据库即为学习者语料库。学习者语料库的建设将为深入研究学习者的二语语音、词汇、语法、语篇、语用、交际能力的发展提供充分的数据,而且还为研究语言学习过程以及教材编写和测试提供重要的反馈和支持(文秋芳,2005)。随着语料库语言学的发展,学习者语料库的建设已经成为了当今语料库语言学研究的重点之一。国外建成的规模较大的学习者语料库是Cambridge Learner Corpus (CLC) 。国内也逐渐出现了学习者语料库,除拥有100万词的CLEC之外,规模较大的还有南京大学的“中国英语专业语料库(100多万词)”和“中国学生英语口笔语语料库(200多万词)”以及规模更大的香港科技大学学习者语料库等。这些大型语料库为广大学者和教师提供了大量真实的学习者的语料,可以对学习者的词汇、语法,特别是错误分析等进行研究。同时,可以将英语学习者的语料与本族语语料进行对比,找出它们的异同,为教材编写、大纲制定等提供有用的数据(李文中,1999)。

然而,尽管国内已经建成了上述大型学习者语料库,也有大量基于这些语料库的研究成果,但这些语料库涵盖的语料来源太广,而且多是针对高级语言学习者,广大教师可以利用其对国内英语学习者语言的整体特点等方面进行研究。但具体来看,这些语料库并不能反映广大一线教师自己所任班级的学生,特别是初级英语学习者的语言学习情况和语言特点。相对来说,基于这些语料库的研究对一线教师的教学并没有很强的针对性。因此,一般的外语教师应自己动手,收集与教材相关的材料和学生日常的材料,建立适用于教学的各种语料档案,如与课文相关的阅读材料档案库、学生作文档案库、教师——学生课堂话语档案库等(卫乃兴,2005)。个人教学语料库不仅能克服以上种种缺陷,而且有着自己巨大的优势。突出表现如下:第一、目标明确,语料收集针对性强,适合自己教学对象,能反映学生真实语言水平。第二、语料库具有开放性和时效性,能不断扩展及时更新。第三、本地机操作,经济、方便、快捷,检索语料时选择自由,易于突出语言的语域特征(谢家成,2003)。以下就以建立中学生写作语料库为例介绍建设小型学习者语料库的方法和使用。

二、小型学习者语料库的建设

(一)、可行性

人们一般认为构建语料库是一个花费大量人力物力的工程,实际上随着电脑技术的不断发展,现在个人建设教学语料库是完全可行的。语料库主要由两部分

组成:以电子文本形式存贮于计算机中的语料和管理检索这些语料的定位检索软件。现在许多功能强大、使用简便不需专门计算机知识的定位检索软件网上也能免费下载,教师只要善于收集语料、加以整理就可以建立一个实用的语料库。再加上个人教学语料库规模灵活,可边建设边使用,建库要求也不是很严格,这一切使得个人教学语料库的建设成为现实。

就中学生写作语料库而言,即小型学习者书面语语料库,是针对具体学生语言学习情况的最重要的语料库之一。教师可以利用检索软件得出分析数据,了解学生总体的语言学习情况、词语搭配掌握情况以及错误情况等,而不是根据个人直觉对学生的学习情况做出主观判断。从中找出自己学生的问题所在,分析问题,解决问题,从而达到提高学生整体水平的效果。

(二)、建设方法

建立一个中学生写作语料库,一般需要以下几个步骤:

1、语料的收集和分类保存

中学生写作语料库的语料,顾名思义应来自学生在课堂或课外的写作产出,如课堂写作作业、考试中的作文和学生的英语日记等。书面语料的收集较为容易,可以在课后将课堂作业输入计算机存档,计算机的普及可以让学生用电子文档的方式提交写作材料。相对来说,考试中的作文语料收集工作量较大,需要在试卷批改存档后输入计算机。大部分书面语料的收集在日常教学中就可以完成。

语料收集并不是语言材料的简单堆砌,从一开始就应按一定原则进行科学分类。对于中学生写作语料库而言,分类可适当参考作文质量分为三个等级,优秀(Excellent)、良好(Good)、及格和及格以下(Around pass),并把不同种类的作文存入不同的文件夹。还应注意,以上述方式获得的语料是未经计算机处理的语料,称为生文本( raw text) 。存档时,应把每一个生文本(学生作文)作为一个独立文件单独命名存放。文件应以英文字母形式命名便于能让软件识别,并统一格式,方便以后添加新的文件。可以用“年级+班级+学生姓名”来命名,如初三5班李红的作文,可以命名为“g1_c5_lihong”,并存入相对应等级的文件夹。同时,所有文件的格式应统一,建议使用纯文本(. txt)格式存档,这是几乎所有的语料库软件都能识别的格式。如图1和图2所示:

图1:分类文件夹

图2:所存生文本

2、语料的标注和赋码

存档之后,必须对生文本进行加工,使它更易于检索。首先应加注文本头,即在这些语料文件的开头第一行提供相关基本信息,如姓名、年级、班级、性别、文本字数等。信息要详细而且要有相关性,这样对以后的研究就更实用。通常的标注方法是将上述信息放入尖括号“ < > ”中。例如: < GRADE >=年级; =班级; < SEX > =性别; =年龄;等等。如下图:

图3:文本头标注

如果教师建设学习者语料库的目的是要对学生的错误现象进行分析,然后开展有针对性地教学,那么,文本头标注之后,就应对文本进行错误标注。错误标注是一项细致的工作,教师应先对错误分类,然后制定错误标注赋码表,解释各赋码的含义,方便教师在标注时使用。若建库目的是了解学生的词汇搭配或词汇量等语言使用情况,则不用进行错误标注,这样工作量相对较小。此外,应对语料进行词性赋码。在进行词性赋码之前,应确定赋码方案。现在已经开发了多种词性赋码方案,如CLAWS自动词性赋码器等1。目前比较流行的词性赋码工具有AnnoTool和GoTagger软件(卫乃兴,李文中,濮建,2005) 。标注后的文件另存为纯文档格式,如下图:(但无论做何种标注或赋码,都应保存一份生文本,以备将来进行更多的研究或标注时使用。)

图4:标注完后的文件

总的说来,小型学习者语料库的建设基本步骤为:规划、语料收集、语料输入计算机、标注、赋码。上述工作完成之后,我们应将这些库文件统一命名保存,方便语料的维护与应用。语料库的建设也就基本结束。这样建成的语料库是开放的,教师可以在今后的教学过程中不断添加新的语料,使语料库发挥更大的作用。除了写作语料库外,其他一些简单可行的语料库还有阅读材料语料库(可细分精读语料库、泛读语料库等)、试题语料库(其中还可以分单选题语料库、完形填空题语料库及作文题语料库等)和核心词汇语料库等等。

三、小型学习者语料库的应用

学习者语料库建成之后,教师可以利用软件对语料库进行定位检索。通过检索,找出自己学生在写作中的用词规律、词语搭配情况、语言特点以及错误类型情况等。分析之后,进行有针对性地教学。也可以通过将检索情况演示给学生,让学生自己发现问题,这样能加强学生自主学习的能力并提高他们的学习兴趣。

在实践中,笔者根据上述方法自建了一个小型学习者语料库,语料来源为自己所任班级学生的写作材料,共收集到131篇文章,约12,987万字,全部加注了文本头( header)和词性赋码。在批改学生作文时,发现大部分学生的被动语态使用不准确的情况。于是,笔者首先利用专门软件对语料进行了标注,然后把语料中所有被动语态通过检索软件AntConc3.2检索出来,希望通过定位检索工具找到确切的数据和问题所在。下图为利用AntConc3.2工具2中的Concord功能检索,输入被动语态的表达式得到所有优秀作文中的被动语态的使用情况(许家金,熊文新,2009):

图5:优秀作文中被动语态的使用情况

图中的数据显示,共有1258个句子使用了不同的被动语态,其中,容易出现错误的地方主要在于被动语态后的介词,良好或者及格左右的作文大多使用by这一唯一介词,而优秀作文差异明显,介词会根据句子的具体要求改变。这体现了学生在学习被动语态时,太注重记忆公式be+Ved+by,而忽略了句子的实际用法。另一方面,被动语态的时态,即be动词的变化,也会常常出现错误。最后,有些词汇如occur, happen等不及物动词学生往往会用被动语态,这说明学生未充分理解被动语态的含义,这与英语为本族语的学生的用法相差太大法。这样,将来的教学中就可以更有针对性地对这些被动语态的使用进行讲解。当然,我们还可以对被动语态的错误用法进行进一步标注,进而分析得出更细的结果。

上述对语料库的应用研究只是简单示范,还可以根据实际情况进行更多地分析研究,本文中不再详细介绍。

四、总结

构建和使用个人教学语料库目前还是一个少有人问津,但却急待探索的领域。个人教学语料库的建设不仅必要,而且简单易行。当然这并非一定要个人独干,可以小组协作,团队的力量才能使繁杂的工作变得简单有序。因此建议形成合作小组,共同建设同一个专业,或同一个年级,或同一个学校的学习者语料库。这样,可以使已建成的语料库发挥更大的作用。当然,这类语料库功能的发挥还

取决于以下两个方面,一是对语料的标注。一般来说,标注越细,通过检索能得

到的信息就越多,应用范围就越广。二是教师的综合能力。除了教学能力之外,教师还应具备语言学知识,善于总结、发现语言特点。这样才能做到在教学中研究,在研究中教学。本文中的构建方法还有一些不足的地方,需要我们在实践中不断完善。此外,如何能更方便地对文本进细致的标注也是今后研究中应关注的问题。总之,笔者希望本文能激起广大外语教师对语料库在语言教学中的兴趣,并真正行动起来,动手构建自己的教学语料库,这必将大大促进语料库在外语教学中的推广普及。

1 给文章词性标注,可以直接登录https://www.360docs.net/doc/6f8032987.html,/claws/trial.html。

2 感兴趣的读者可登陆https://www.360docs.net/doc/6f8032987.html,/p-38045857.html下载使用说明。

参考文献:

顾曰国,语料库与语言研究——兼编者的话,《当代语言学(试刊)》,1998第1期:1-3

李文中,语料库、学习者语料库与外语教学,《外语界》,1999第1期:51-55 卫乃兴,李文中,濮建忠,《语料库应用研究》,上海:上海外语教育出版社,2005 卫乃兴,基于语料库和语料库驱动的词语搭配研究,《当代语言学》,2002,4 (2):104-114

卫乃兴,《语料库应用研究》,上海:上海外语教育出版社,2005

文秋芳,《中国学生英语口笔语语料库》,北京:外语教学与研究出版社,2005 谢家成,论个人教学语料库的构建,《外语电化教学》,2003第91期:27-31 邢富坤,语料库:值得教育技术学关注的新型学习资源,《解放军外国语学院学报》,2006, (2)

许家金,熊文新,基于学习者英语语料的类联接研究概念、方法及例析,《外语电化教学》,2009第127期:18-23

杨惠中,《语料库语言学导论》,上海:上海外语教育出版社,2004

哪里有可以免费使用的大型英语语料库资源-外语教学与研究出版社

语料库相关资源 David Lee语料库研究书签 Bookmarks for Corpus-based Linguists (David Lee) https://www.360docs.net/doc/6f8032987.html,.au/~dlee/CBLLinks.htm (https://www.360docs.net/doc/6f8032987.html,/corpora) 常用语料库资源链接汇集(语料天涯) https://www.360docs.net/doc/6f8032987.html,/corpus/ 互动平台 https://www.360docs.net/doc/6f8032987.html,/forum/ 入门读物 专著 梁茂成、李文中、许家金,2010,《语料库应用教程》。北京:外语教学与研究出版社。Hunston, Susan. 2002. Corpora in Applied Linguistics. Cambridge: Cambridge. University Press. (世界图书出版社引进) Kennedy, Graeme. 1998. An Introduction to Corpus Linguistics. London: Longman. (外研社引进) 期刊论文 中国期刊网 EBSCO英文期刊数据库 书店可以买到的语料库相关书籍 Aijmer, K. & B. Altenberg (Eds.). 2004. Advances in Corpus Linguistics. Papers from the 23rd International Conference on English Language Research on Computerized Corpora (ICAME 23). Amsterdam: Rodopi. (世界图书出版社引进) Austermühl, F. 2001. Electronic Tools for Translators《译者的电子工具》. Manchester: St. Jerome Publishing. (外研社引进) Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad & Edward Finegan. 1999. Longman Grammar of Spoken and Written English. Longman Publications Group. (外研社引进) Biber, Douglas, Susan Conrad & Randi Reppen. 1998. Corpus Linguistics. Cambridge: Cambridge University Press. (外研社引进) Connor, U & T. Upton (Eds.). 2004. Applied Corpus Linguistics: A Multidimensional Perspective. Amsterdam: Rodopi. (世界图书出版社引进)

可以免费使用的大型英语语料库资源

英语语料库#参考 2012-03-02 22:29:26 ■BNC=The British National Corpus英国国家语料库 https://www.360docs.net/doc/6f8032987.html,/(备用) https://www.360docs.net/doc/6f8032987.html,/bnc/ ■ANC = The American National Corpus美国国家语料库 https://www.360docs.net/doc/6f8032987.html,/ ■COCA = Corpus of Contemporary American English 美国当代英语语料库 https://www.360docs.net/doc/6f8032987.html,/ ■COHA = Corpus of Historical American English 美国近当代英语语料库 https://www.360docs.net/doc/6f8032987.html,/coha/ ■BOE=Bank of English 柯林斯英语语料库 https://www.360docs.net/doc/6f8032987.html,/wordbanks/ ■NMC=New Model Corpus 新规范语料库 https://www.360docs.net/doc/6f8032987.html,/ ■ARC=ACL Anthology Reference Corpus (ARC) 文选参考语料库 https://www.360docs.net/doc/6f8032987.html,/auth/preloaded_corpus/aclarc/ske/first_form ■BAWE=British Academic Written Eng Corpus (BAWE) 英国学术书面语语料库 https://www.360docs.net/doc/6f8032987.html,/auth/preloaded_corpus/bawe2/ske/first_form https://www.360docs.net/doc/6f8032987.html,/AcaDepts/ll/app_ling/internal/bawe/sketch_engine_bawe.htm download ■BASE= British Academic Spoken English Corpus (BASE) 英国学术口语语料库 https://www.360docs.net/doc/6f8032987.html,/fac/soc/celte/research/base/ ■SCTS=Scottish Corpus Of Texts and Speech苏格兰口语与书面语语料库 https://www.360docs.net/doc/6f8032987.html,/ ■SCTS=Corpus Of Modern Scottish Writing 当代苏格兰语实库 https://www.360docs.net/doc/6f8032987.html,/cmsw/ Slang https://www.360docs.net/doc/6f8032987.html,/ (American, English, and Urban slang) https://www.360docs.net/doc/6f8032987.html,/slang/ (UK) https://www.360docs.net/doc/6f8032987.html,/ https://www.360docs.net/doc/6f8032987.html,/cybereng/slang/ https://www.360docs.net/doc/6f8032987.html,/ https://www.360docs.net/doc/6f8032987.html,/

在美国当代英语语料库(COCA)如何查词

在美国当代英语语料库(COCA)如何查词.doc 在美国当代英语语料库(COCA)如何查词 摘要:美国当代英语语料库(Corpus of Contemporary American English,COCA)由美国Brigham Young University 的Mark Davies教授开发,目前单词容 量在4.5亿,是美国当前最新的当代英语语料库,也是当今世界上最大的英语平衡语料库。该语料库的语料来自1990-2012年,每年更新,检索功能强大,是最佳的英语学习助手。本文以sorry为例介绍了如何在美国当代英语语料库中查询单词及对单词sorry的检查与研究结果。 关键词:美国当代英语语料库,平衡语料库,sorry Abstract: The Corpus of Contemporary American English (COCA) is the largest freely-available corpus of English,and the only large and balanced corpus of American English.The corpus was created by Mark avies of Brigham Young University,and it is used by tens of thousands of sers every month (linguists,teachers,translators,and other searchers).COCA is also related to other large corpora that we have created. The corpus contains more than 450 million words of text and is qually divided among spoken,fiction,popular magazines,newspapers,and academic texts.It includes 20 million words each year from 1990-2012. Key words: the Corpus of Contemporary American English,parallel corpus,sorry 中图分类号:H319.3文献标识码:A文章编号:1006-026X(2013)12-0000-02 一、引论

如何自建英语语料库

论自建小型学习者语料库的方法及作用 ——以自建中学生英语写作语料库为例 曹鹤 北京市第三十一中 摘要: 大型语料库的出现和发展在研究语言的用法、翻译、教学、教材编写以及词典编撰等方面起着重要作用,但对于处于一线从事基础教育的外语教师而言,针对性和使用性不强。本文以自己建立小型基础英语教学中中学生写作语料库为例介绍了小型学习者语料库建设的可行性、方法和应用,借以提倡广大一线从事基础教育的教师利用高科技所带来的成果,武装和丰富自己,让自己的教学科学化、客观化。 关键词:小型学习者语料库;英语写作;基础教育 自20世纪60年代至今,语料库从萌芽阶段已经发展到广泛应用于语言研究的各个方面,如:词典编撰、语言学研究、教材编写、翻译、语言教学等等。同时,计算机技术的高速发展使语料库(Corpus)在过去的50多年来也得到了长足的发展,突出表现就是大型语料库的出现。大型语料库为语言研究提供了可靠的信息,但正因为其包罗万象、内容泛泛,在辅助基础教学研究等方面缺乏针对性,实用性不强。作者认为广大英语教师可以根据自己的实际需要建设小型学习者语料库,开展有针对性地研究,并将其应用到教学中。本文以建立中学生写作语料库为例介绍建设小型学习者语料库的方法、以及如何使用小型语料库等方面做主要论述,向基础英语教师展示如何运用这一新技术来辅助英语写作教学。 一、语料库简介 建设语料库之前,我们应首先明白什么是语料库。语料库并不复杂,它通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体(杨惠中,2004)。语料库可以帮助人们观察和把握语言事实,分析和研究语言系统的规律。从语料库语言学的发展历程可以看出,语料库的用途主要体现在对语言现象以及语言本质的研究,如语言统计、词典编撰、词汇搭配和自然语言处理等方面(顾曰国,1988)。现在语料库也开始逐渐应用到语言教学研究中。根据邢富坤(2006)的统计,国内基于语料库的教学研究的数量越来越大,将语料库应用于外语教学的趋势也越来越明显。

可以免费使用的大型英语语料库资源

可以免费使用的大型英语语料库资源 https://www.360docs.net/doc/6f8032987.html,/time/ http://www.lextutor.ca/concordancers/concord_e.html 常用语料库资源链接汇集(语料天涯) http://202.204.128.82/sweccl/Corpus/ https://www.360docs.net/doc/6f8032987.html,/netprints/Corporalink/Corporalink.htm 1. BNC-World Simple Search ☆☆☆ https://www.360docs.net/doc/6f8032987.html,/lookup.html But no more than 50 hits will be displayed, with a fixed amount of context. 2. Brown, LOB, BNC sampler ☆☆☆ Here are a few links for searching corpora online, including monolingual corpora like Brown, LOB, and BNC sampler and also some parallel English-Chinese corpora. English: https://www.360docs.net/doc/6f8032987.html,/concordance/WWWConcappE.htm English: http://www.lextutor.ca/concordancers/concord_e.html Parallel: https://www.360docs.net/doc/6f8032987.html,/concordance/paralleltexts/ 3. Collins Cobuild Corpus Concordance Sampler☆☆☆☆☆ https://www.360docs.net/doc/6f8032987.html,/Corpus/CorpusSearch.aspx The Collins WordbanksOnline English corpus is composed of 56 million words of contemporary written and spoken text. 4. New BNC interface - VIEW: ☆☆☆☆☆ https://www.360docs.net/doc/6f8032987.html,/ 5. Samples (about 2 million words) from the British National Corpus: both written and spoken ☆☆☆ The Brown Corpus and many others - native, learner... Go to http://www.lextutor.ca/concordancers/concord_e.html 6. MICASE ☆☆☆☆ https://www.360docs.net/doc/6f8032987.html,/m/micase/ There are currently 152 transcripts (totaling 1,848,364 words) available at the site. 7. CLEC online concordancing ☆☆☆☆ https://www.360docs.net/doc/6f8032987.html,/corpus/EngSearchEngine.aspx CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。For an introduction of the corpus, its error tagset and some statistics, see https://www.360docs.net/doc/6f8032987.html,/baseinfo/achievement/Achievement1.htm 8. Business Letter Corpus Online KWIC Concordancer ☆☆☆

利用WordPilot在外语教学中自建小型语料库

中图分类号:H319.9 文献标识码:A 文章编号:100125795(2003)062004220004 利用WordPilot 在外语教学中自建小型语料库 梁茂成 (南京大学外国语学院,江苏南京 210093) 摘 要:在外语教学界,语料库技术已经成为一个热门话题并孕育着十分广阔的应用前景。Word 2Pilot 正是为了顺应这种趋势而开发的软件系统,它使得语料库技术方便地进入语言课堂。本文简述了WordPilot 的基本功能、特点和操作方法,探讨了它应用于语料库辅助外语教学的理论基础和益处,旨在 促进基于语料库的外语教学活动的展开。 关键词:WordPilot ;语料库;语料库的创建;外语教学 Using WordPilot To Create A Small -Scale Corpus For EFL Class L IA N G M ao 2cheng (Foreign Languages School ,Nanjing University ,Nanjing ,Jiangsu 210093,China ) Abstract :Corpus technology has become a hot issue and is promising broad applications in the foreign language teaching field.WordPilot ,a software system developed in compliance with this very trend ,makes it very easy for corpus technology to enter the language classroom.This paper gives a introduction to the ba 2sic functions ,features and the operation of the software and probes into the theoretical basis and the benefits of its application to corpus -aided foreign language teaching ,with an aim to promote corpus -based foreign language teaching. K ey w ords :WordPilot ;Corpus ;Corpus Creation ;Foreign Language Teaching 从外语教学的角度看,大型语料库是可供语言教师参考 和使用的大型数据库,教学大纲和语言教材应该根据其内容而合理地编制。而应用于语言课堂中的语料库则有所不同。它一般说来是精心采集的、旨在帮助语言学习者理解语言现象的小型语料库(Guy Aston ,1995:259)。本文介绍的WordPilot 正是为了达到这一目的而设计的一种语言教学和学习工具。它利用现代语料库技术,对个人采集的生语料进行加工,以达到检索和统计等目的。语料库及其检索、统计等过程可以通过视频展示设备,采用十分有利于学生学习的方式呈现在学生面前,从而有效地辅助外语课堂教学。 1 WordPilot 简介 WordPilot 是Langsoft Online (http ://https://www.360docs.net/doc/6f8032987.html, )公司推出的基于Microsoft Windows 操作系统的优秀软件 产品,其主要目的在于服务于语言教学和语言学习。WordPilot 运行时的主界面如下图所示(图1)。 WordPilot 具有良好的语言教学辅助功能,主要概括如下:1.1 卓越的检索功能 在WordPilot 主界面上的常用工具中,有一个功能强大的检索(concordancing )功能,这也是现代语料库 作者简介:梁茂成(19642)男,汉,副教授,博士生。研究方向:应用语言学。收稿日期:2002210224 第94期2003年12月 外语电化教学ETFL T No.94Dec. 2003

国家标准《建立术语研究用语料库的一般原则与方法》.

国家标准《建立术语研究用语料库的一般原则与方法》 (征求意见稿)编制说明 一、任务来源 随着科学技术的发展,新术语、新概念层出不穷,为了更好的管理、规范日益增多的新术语,需要借助更先进的工具及方法。目前国内外已经建立了大量的术语数据库,为了更好的对大量术语资源进行研究就需要建立术语语料库,大规模真实语料库是术语研究的可靠基础和最主要的来源,建设与术语库相配合的、统一规范的精加工术语语料库,可以使我们对中文术语构成、术语专业分布、术语地域分布、术语来源以及术语发展等各种复杂现象获得更为直观、深刻的全面认识,进而为推动中文术语规范化和标准化的进程、促进语言信息处理技术的总体发展起到关键的作用。因此制定建立术语语料库的标准已经十分必要。 GB/T XXXX-XXXX《建立术语研究用语料库的一般原则与方法》项目由中国标准研究中心提出,于2002年列入国家质量监督检验检疫总局制、修订国家标准项目计划,项目编号:20020411-T-424。该标准由中国标准研究中心归口,计划于2002年底完成。 二、工作情况: 1、标准起草小组的同志积极参与对《建立术语研究用语料库的一般原则与方 法》国家标准的制定工作,在工作中深入的研究了术语语料库的功能,吸取国内外先进经验,制定出一套实用的术语语料库建立标准。 2、进行了广泛的调研工作,搜集了使用者的一些建议,同时争求了一部分专 家的意见,作为本项目的重要参考。 3、在制定标准过程中,标准起草工作组根据实际情况制定工作计划,保证工 作顺利进行。 4、标准起草工作组多次召开会议,反复研究了《建立术语研究用语料库的一 般原则与方法》讨论稿,广泛征求了该专业领域的专家及用户的意见,对

自建小型口译语料库用于口译教学

龙源期刊网 https://www.360docs.net/doc/6f8032987.html, 自建小型口译语料库用于口译教学 作者:吕倩 来源:《青年文学家》2013年第07期 摘要:语料库在教学中的应用已经越来越受到重视,将语料库建设融合到口译教学是实现IT技术与教学的整合。本分分析了语料库建设对口译教学的重要意义,提出自建小型口译语 料库用于口译教学。 关键词:口译教学;语料库;自建 [中图分类号]:G42 [文献标识码]:A [文章编号]:1002-2139(2013)-7--01 一、引言 Shlesinger探讨了语料库口译研究作为语料库翻译研究分支的可行性,将口译研究纳入语料库翻译研究的视野。他指出口译语料库的建立可以采用可比语料库和平行语料库的形式,并提出如何运用当前单语语料库来进行口译研究。(Shlesigner, 1998:486)然而,国内外对口译语料库的研究都较为滞后,语料库翻译研究的对象一直局限于笔译,很少涉及口译。虽然口译语料的采集难度大,口译语料库建设费时费力,但口译作为翻译研究的一个重要领域,理应成为语料库翻译研究的对象。目前已建成的口译语料库十分少,且已经建立的语料库中,大多都不开放且规模较小,并不适合用于口译教学。根据口译的特殊性和当前口译语料库匮乏的现状,本论文提出了自建小型口译语料库用于口译教学。 二、语料库种类的选择 2.1 平行语料库 Mona Baker 将与翻译研究有关的语料库分为三类:平行语料库,多语语料库和可比语料库。(Baker, 1995:230-260)平行语料库收集某种语言的原创文本和相应的翻译成另一种 文字的文本。平行语料库的建成使语言学家能对比两种文本在词汇、句子和文体上的差异,平行语料库最典型的应用范围是翻译者培训、双语词汇教学、词典编纂和机器翻译。例如:在口译中的词汇搭配研究中,“经济增长”的表达究竟是“economic growth” 还是“economic development”,通过搭配的概率统计,便可得知应该是“economic growth”。平行语料库的建立在目前看来对于翻译教学的意义是最大的。 2.2 音文同步

自建小型化工英语语料库

2019年9月第46卷第9期 云南化工 Yunnan Chemical Technology Sep.2019 Vol.46,No.9 doi:10.3969/j.issn.1004-275X.2019.09.075 自建小型化工英语语料库 杜燕航,田文杰 (空军工程大学,陕西西安710038) 摘要:对自建小型化工英语语料库进行了阐述,希望对相关研究人员提供参考,促进涉外化工行业中翻译工作的开展。 关键词:自建;化工英语;语料库 中图分类号:H315.9文献标志码:A文章编号:1004-275X(2019)09-187-03 Self-built Small Chemical English Corpus Du Yanhang,Ttian Wenjie (Air Force Engineering University,Xi’an710038) Abstract:This thesis elaborates on the construction of a small chemical English corpus,hoping to provide reference for relevant researchers and promote the translation in the exchange between Chinese and foreign chemical enterprises. Key words:Establishment;Chemical English;Corpus 随着经济全球化的高速发展,世界各国间的经济往来日益频繁,在这些交往过程中,高效率、高质量的翻译,已经成为直接影响交流速度和效果的重要因素。离开了好的翻译,不仅可能造成经济损失,严重的甚至可能引发国际争端。大量的翻译需求在为译员提供了更多的就业机会和展示才华的舞台的同时,也对译员的能力和译文的质量提出了更高的要求。在多语言并存的背景下,传统的人工翻译已经难以适应数量巨大的翻译需求,而语料库由于其自身独有的优势,成为了人工翻译的重要补充,甚至在有些情况下,如术语和缩略语的翻译方面,可以完全替代人工翻译。本论文把自建小型化工语料库作为研究对象,对研究现状、研究方法和研究意义进行了阐述和说明。 1研究现状 1.1语料库在国外的发展 1961年,全球第一个机读语料库(Brown Corpus)在美国布朗大学诞生。其后,随着计算机技术的发展,已经发展为各种不同类型的第二代语料库。语料库一般可分为平行语料库(parallel corpora)、多语语料库(multilingual corpus)、可比语料库(comparable corpus)。目前在翻译实践中应用较多的是平行语料库。这种语料库中含由于有大量专业准确的双语术语和句子,为翻译实践、翻译教学、翻译语言研究提供了良好的基础。但是目前,对化工英语这种专门用途的平行语料库的研究开展较少。 1.2语料库在国内的使用 目前,国内先后建立了多个应用于不同领域的专业语料库。语料库技术在教学、字典编撰、辅助译员翻译等方面都得到了广泛的应用。通过语料库的使用,译员可以不用花费大量时间去熟悉记忆相关领域的术语,而是将更多的精力放在提高译文质量上,实际翻译中的效率就会大大提高。可以说,语料库具有很强的现实意义广阔的发展前景。译员根据自己的实际需要,在不单纯追求语料范围和大小的情况下,自建目的明确的小型专门语料库既是必要的也是可行的。 2研究方法 2.1语料的搜集 和普通英语相比,化工英语具有专业性强、术语繁多、缩略语使用广泛等特点。在化工英语知识的学习中,优秀的中英文对照教材非常重 187--

基于美国当代英语语料库的词汇典型搭配教学_王健燕

文章编号:2095-0365(2011)01-0097-05 基于美国当代英语语料库的 词汇典型搭配教学 王健燕 (桂林理工大学外国语学院,广西 桂林 541004) 摘 要:词汇教学是语言教学的基础,而词汇的真实意义和用法需要通过其典型搭配得以揭示。在语言课堂内,教师可以充分利用美国当代英语语料库典型搭配检索功能来开展词汇 教学活动,帮助指导学习者掌握词汇的语境意义,从而在语言产出方面最大程度接近本族语者的语言使用标准。 关键词:美国当代英语语料库;典型搭配;词汇教学 中图分类号:G 633;H 319 文献标识码:A 一、典型搭配与词汇教学 词汇是任何语言体系的核心基础,能否准确恰当地使用词汇是作为衡量英语学习者语言产出能力的重要尺度之一。有实证研究显示:词汇知识和词汇能力是其它语言能力得以发展的前提,词汇学习应处于语言学习的中心地位,作用最为关键[1] 。针对词汇教学,不少学者明确指出了搭配(collo catio n)的重要意义 如果学习者能够掌握大量的词汇搭配,那么在语言交际中就能将其作为预制模块,而不需要每次都对词语进行重新组合。 搭配(co llocation)一词最早由英国语言学家Firth 在1969年确立,然而在此之前他就曾经提到过 可以通过与之搭配的词而知晓一个词的意义 [2]。词与词之间有些搭配是比较典型的,比如financial burden 而非econom ic burden,com mit 总和m urder,suicide 等词连用,这一类典型搭配(typical collocatio ns)是在长期的语言习惯基础上逐步固定下来的,成为构成词汇意义的一种重要方式和手段。换一句话说,典型的词汇搭配可以从搭配的概率及共现频率方面来确定,词汇搭 配的典型性取决于搭配的概率属性。一般而言,词汇搭配按组合自由度的高低可以分为自由搭配(free collo catio ns )、半受限制的搭配(sem-i re -stricted collo catio ns)和受限制的搭配(r estr icted co llocations,例如成语hit the sack)三种类型,而中间一类,即半受限制的搭配给学习者造成的困难最大,因为学习者可创造很多的组合,而这些组合往往受到母语的影响,学习者很可能自我创造出不恰当的组合,从而造成交际障碍[3]。 国外学者普遍认为,语言知识的获得和语言能力的提高是通过扩大学生的词块、提高词汇搭配能力和有效地掌握最基本词汇和语言结构而实现的。国内研究者对于词汇的典型搭配也提出过类似的见解: 选择和使用典型的词语搭配是区别本族语者自然流利的语言输出和非本族语者标记语言的重要特征 [4]。而段士平的实证研究则揭示出学生在词汇习得过程中, 词汇组块 策略运用偏低,搭配知识掌握不足,导致词汇深度习得中出现 高原现象 ,产出性词汇滞后于接受性词汇,学生产出能力低下[5]。因此,典型搭配教学应当作为词汇教学的一部分,掌握词汇的典型搭配,可以帮助学习者在语言交流中提取这些预置词语 收稿日期:2010-10-11 作者简介:王健燕(1980-),女,讲师,研究方向:英语教育教学。 第5卷 第1期 石家庄铁道大学学报(社会科学版) V ol.5 N o.12011年3月 JOU RNA L OF SHIJIAZHU ANG T IEDAO U NIV ERSIT Y(SOCIA L SCIENCE) M ar.2011

英语语料库汇总

*145 GUIDED WRITING I The following sentences are in scrambled order. Some of them have to be combined by the connectives listed below. Combine those sentences first. Then arrange all the sentences in good orders so that they go together to form a paragraph. 1. So, in my opinion, among the four necessities, transportation is the big problem for every one of us at present. 2. According to the Chinese, there are four necessities. The four necessities are requisites for human life. The four necessities are clothing, food, shelter and transportation. 3. Shelter used to be a problem. It has become much improved in the meantime. 4. The elderly desire that there are fewer bicycles ,fewer motorcycles, and fewer cars bustling about. 5. The first three are more or less resolved. 6. The big problem now seems to be transportation for the government officials. The big problem now seems to be transportation for the people. 7. The executives hope for something. Their cars are not held up in the traffic for too long. 8. Indeed, we are now at a stage. We are comfortably clothed. The attention of some of us has even turned to the fashion of our clothing. 9. The working people wish for buses. The buses are not too crowed. 10.As for food, we have edibles galore to satisfy our appetite. 11.The cyclists yearn for something. The cyclists are not pushed about by motor cyclists. Connectives: which, where, but, that, both…and… II Put the following sentences into the proper order to form a note making arrangements. Work in groups of two or three. 5 August,20___ Dear Dr. Baker, Thank you. A car will be sent to bring you to the university at 1:30 p.m. As previously arranged, you are invited to deliver a lecture on humanism at our university sometime in August. Your lecture is now scheduled for Monday ,14 August, at the University Auditorium.

可以免费使用的英语语料库资源

可以免费使用的大型英语语料库资源 常用语料库资源链接汇集(语料天涯) http://202.204.128.82/sweccl/Corpus/ https://www.360docs.net/doc/6f8032987.html,/netprints/Corporalink/Corporalink.htm 1. BNC-World Simple Search ☆☆☆ https://www.360docs.net/doc/6f8032987.html,/lookup.html But no more than 50 hits will be displayed, with a fixed amount of context. 2. Brown, LOB, BNC sampler ☆☆☆ Here are a few links for searching corpora online, including monolingual corpora like Brown, LOB, and BNC sampler and also some parallel English-Chinese corpora. English: https://www.360docs.net/doc/6f8032987.html,/concordance/WWWConcappE.htm English: http://www.lextutor.ca/concordancers/concord_e.html Parallel: https://www.360docs.net/doc/6f8032987.html,/concordance/paralleltexts/ 3. Collins Cobuild Corpus Concordance Sampler☆☆☆☆☆ https://www.360docs.net/doc/6f8032987.html,/Corpus/CorpusSearch.aspx The Collins WordbanksOnline English corpus is composed of 56 million words of contemporary written and spoken text. 4. New BNC interface - VIEW: ☆☆☆☆☆ https://www.360docs.net/doc/6f8032987.html,/ 5. Samples (about 2 million words) from the British National Corpus: both written and spoken ☆☆☆ The Brown Corpus and many others - native, learner... Go to http://www.lextutor.ca/concordancers/concord_e.html 6. MICASE ☆☆☆☆ https://www.360docs.net/doc/6f8032987.html,/m/micase/ There are currently 152 transcripts (totaling 1,848,364 words) available at the site. 7. CLEC online concordancing ☆☆☆☆ https://www.360docs.net/doc/6f8032987.html,/corpus/EngSearchEngine.aspx CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。For an introduction of the corpus, its error tagset and some statistics, see https://www.360docs.net/doc/6f8032987.html,/baseinfo/achievement/Achievement1.htm 8. Business Letter Corpus Online KWIC Concordancer ☆☆☆

中国英语学习者语料库

中国英语学习者语料库 CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。其目的就是观察各类学生的英语特征和言语失误的情况,希望通过定量和定性的方法对中国学习者英语作出较为精确的描写,为我国学生的英语教学提供有用的反馈信息。 表1 CLEC语料分布 类型词次 ST2 208088 ST3 209043 ST4 212855 ST5 214510 ST6 226106 总计1070602 言语失误标注原则 1.简单合理,易于系统操作。参与标注的人比较多,分类表过于繁复,就 难于掌握。我们采取两级分类,第一级有11类:词形(fm)、动词短语(vp)、名词短语(np)、代词(pr)、形容词短语(aj)、副词(ad)、介词短语(pp)、连词(cj)、词汇(wd)、搭配(cc)、句子(sn)。每一类里再用数目字细分。如[cc]为词语搭配不当,[cc1]表示名词和名词的搭配,[cc2]表示名词和动词的搭配,[cc3]表示动词和名词的搭配,等等。 2.分类表的类别要适中。过粗容易统一,但信息太少,不利于分析学习者 的失误/过细难以统一,容易把同一种失误归到不同类别。目前我们采取的办法是对常见的失误从细(如vp和np都有9小类),对少见的失误从粗(如cj只有两小类)。现在的分类表有61个失误码,是属于中等规模的分类表。 提供足够的失误信息(失误本身、失误类型和失误发生范围)。例如In the past, people are [vp6, 4-] kind to each other…, 失误用方括号表示,放在失误之后。 [vp6]为vp(动词)第6种(时态)失误,4-为失误发生的范围,-表示失误的位置,4表示失误前有4个词。要联系这4个词,才能判断are这个词用错了。 开放性。容许研究者根据需要对失误类型进行补充或进一步再分出细类。例如[sn8]为句子结构有缺陷,研究者可以对这种失误再分为若干细类来研究。这需

英汉语料库汇总

1.英语学习者语料库(书面语及口语)中国学习者语料库 CLEC(100万)广外、上海交大 2.大学英语学习者口语语料库 COLSEC (5万) 上海交大 3.香港科技大学学习者语料库 HKUST Learner Corpus 香港科技大学 4.中国英语专业语料库 CEME (148万) 南京大学 5.中国英语学习者口语语料库 SECCL (100万) 南京大学 6.国际外语学习者英语口语语料库中国部分 LINSEI-China (10万) 华南师大 7.硕士写作语料库 MWC (12万) 华中科技大学 9.平行语料库汉英平行语料库 PCCE 北外 10.南大-国关平行语料库南京大学 11.英汉文学作品语料库;外研社 12.冯友兰《中国哲学史》汉英对照语料库 13.李约瑟(Joself Needham)《中国科学技术史》英汉对照语料库 14.计算机专业的双语语料库;国家语言文字工作委员会语言文字应用研究所 15.柏拉图(Plato)哲学名著《理想国》的双语语料库 16.英汉双语语料库(15万对) 中科院软件所 17.英汉双语语料库:LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语料31万句子对中国科学院自动化研究所 18.英汉双语语料库(100万),网上英汉语段电子词典及网上电子英汉搭配词典(1000万) 东北大学 19.英汉双语语料库(40-50万句子对) 哈尔滨工业大学 20.双语语料库(5万多对) 北京大学计算语言学研究所 21.对比语料库 LIVAC(Linguistic variety in Chinese communities) 香港城市理工大学 22.平衡语料库(Sinica Corpus);树图语料库(Sinica Treebank) 台湾 23.特殊英语语料库中国英语(China English)语料库河南师范大学 24.军事英语语料库(Corpus of Military Texts) 解放军外语学院 25.新视野大学英语教材语料库上海交通大学 26.汉语语料库汉语现代文学作品语料库(1979年,527万字) 武汉大学 27.现代汉语语料库(1983年,2000万字) 北京航空航天大学 28.中学语文教材语料库(1983年,106万8000字) 北京师范大学 29.现代汉语词频统计语料库(1983年,182万字) 北京语言学院 30.国家级大型汉语均衡语料库(2000万字) 国家语言文字工作委员会 31.《人民日报》语料库(2700万字) 北京大学计算机语言学研究所 32.大型中文语料库(5亿字,10分库) 北京语言文化大学 33.现代汉语语料库(1亿字) 清华大学 34.汉语新闻语料库;(1988年,250万字) 山西大学 35.标准语料库(2000年,70万字) 36.生语料库(3000万字);《作家文摘》的标注语料库(100万字) 上海师范大学 37.现代自然口语语料库中国社会科学院语言所 38.旅游咨询口语对话语料库和旅馆预定口语对话语料库中国科学院自动化所 39.北京大学汉语语言学研究中心的三个语料库

相关文档
最新文档