语料库语言学简史

合集下载

语料库的发展历程

语料库的发展历程
CORPUS LINGUISTICS
0.2 发展历史与现状
语料库语言学的发展历史,大致可以分为两个时期:
计算机化以前时期,可称之为传统语料库时期 计算机化以后时期,可称之为现代语料库时期
20世纪 50年代Chomsky的影响 第一代(1970- 80年代) 第二代(1980- 90年代) 第三代(1990年代) ?第四代(21世纪)
0.2.2 计算机化的语料库(现代语料库)
第二代语料库
朗文语料库(Longman Corpus Network)
商用语料库,建于上个世纪80年代 由三个大的语料库组成
朗文 /兰开斯特英语语料库(Longman/Lancaster English Language Corpus,即 LLELC) 朗文口语语料库(Longman Spoken Corpus,即 LSC) 朗文英语学习者语料库(Longman Corpus of Learners’ English ,即 LCLE)
CORPUS LINGUISTICS
0.1 语料库语言学的定义 语料库(corpus,复数形式为corpora),顾名思义就 是存放语言材料的仓库(或数据库)。而语料库语 言学则是一种以语料库为基础的语言研究方法,它 包含两层含义:
— 利用语料库对语言的某个方面进行研究,也就是说“语料 库语言学”不是一个新学科的名称,而仅仅反映了一个新 的研究手段。 — 依据语料库所反映出来的语言事实对现行语言学理论进 行批判,提出新的观点或理论。
CORPUS LINGUISTICS
0.2.2 计算机化的语料库(现代语料库)
第二代语料库
COBUILD语料库(Collins Birmingham University International Language Database) 英国国家语料库 国际英语语料库

语料库语言学简介

语料库语言学简介

语料库语言学简介语料库语言学是指利用语料库(一种大规模的文本数据集合)进行语言学研究的方法和理论。

通过构建、标注和分析语料库,可以揭示语言在不同层面上的特征和规律,为自然语言处理、机器翻译等领域提供基础和支持。

语料库语言学的研究内容包括:语言的音系、形态、句法以及语义等方面;语言的变异、演化和变化;语言使用者的使用习惯、语言背景和社会属性等。

语料库语言学的主要方法包括:语料库的构建和管理、语料库的标注和注释、语料库的查询和分析、语料库的应用和评估等。

语料库语言学的应用领域包括:机器翻译、信息检索、语音识别、文本分类、自然语言生成等。

此外,语料库语言学还被广泛应用于各种语言教学、语言规划和语言政策制定等领域。

总的来说,语料库语言学已经成为现代语言学和自然语言处理领域不可或缺的一部分,对于研究和应用语言都有着重要的意义。

一、语料库语言学的意义(一)定义和概述语料库语言学是指利用计算机对大规模语料库进行统计学分析、计算和比较,从而研究语言规律和现象的语言学方法。

语料库是指收集、整理、储存在计算机中的自然语言文本,包括书面文本和口语文本。

语料库语言学旨在通过对语言数据的分析,揭示语言的内在规律和现象,为语言学、语言教学、翻译等领域提供科学依据。

(二)语料库语言学的历史语料库语言学起源于20世纪50年代的美国,当时ChomSky等人提出了生成文法理论,但是这个理论无法解释自然语言的很多现象。

50年代后期,美国普林斯顿大学的SinClair教授提出了使用实际语言数据进行语言研究的观点,并开始编制语料库,由此开启了语料库语言学的先河。

之后,随着计算机技术的发展,语料库语言学得以快速发展,成为现代语言学研究和应用的重要领域。

二、语料库语言学的重要性(一)提供真实语言数据语料库收集大量的自然语言文本,包括书面语和口语,具有代表性和真实性。

这些数据包含了语言使用中的各种现象和规律,是研究语言的最基本素材。

(二)揭示语言规律和现象语料库语言学可以对语言数据进行分析、计算和比较,从而揭示语言的内在规律和现象。

语料库语言学

语料库语言学

我们认为较为准确全面定义:
语料库(corpus 或corpora [复数]) :是指按 照一定的语言学原则, 运用随机抽样方,收 集自然出现的连续语言运用文本或话语片 段而建成的具有一定容量的大型电子文本 库。
语料库语言学:在文本语料的基础上进行 语言研究的一门学科。
语料库语言学的研究对象
语料库语言学是以语料库中收集储存的真实语言材 料做为唯一的研究对象,以语言现象出现的概率为 依据。因此,语料库语言学为语言学研究提供了一 种全新的研究思路。一个合格的语料库必须以电子 计算机为载体来存放语言材料,这些存放在电子计 算机中的语言材料是在语言的实际使用中真实出现 过的。因此,它们可以如实地反映语言现象,克服 语言学家观察语言现象时的主观性。
(7)语料库语言学与语用学和语篇分析。语料库 常常是把话语从上下文或语篇中分离出来,因此
其所收语料在很大程度上脱离了上下文或社会背
景,而语用学和语篇分析对于场景和上下文又具
有一定的依赖性。故以语料库为基础的语用或语
篇研究相对较少,但语料库为这些领域所作的贡
献是不可否认的。语用学及相关领域的研究通常 是以会话为基础的,如伦敦—伦特语料库 (London - Lund Corpus) 和柯林斯出版公司与伯 明翰大学联合开发的“英语库”( The Bank of Eng2lish ,简称BOE) ,前者收集的是日常会话, 后者的口语部分包括日常会话会议、讨论、采访、 电台广播等。
3、语料库语言学与辞典编纂
语料库不仅能够提供更完备和详尽的关于词义和 词汇搭配的信息,而且利用语料库中的频率统计 可以直观的反映词汇用法的使用情况。如英国考 林斯出版社和伯明翰大学编辑出版的《国际通用 词典》在很大程度上打破了词典编撰的传统,从 词条的选定及解释、用法到释义的先后顺序等都 依据了由2亿词次的COBUILD语料库中统计出的 频率。由于语料库的素材来自实际使用的语言, 利用其素材作为词典的例句更具真实性和准确性。 利用语料库编撰词典不仅能反映语言的真实变化, 而且编撰周期也会大大缩短。

浅谈语料库语言学在的应用以及在中国的发展趋势

浅谈语料库语言学在的应用以及在中国的发展趋势

浅谈语料库语言学在的应用以及在中国的发展趋势一、语料库语言学的兴起与发展语料库语言学是基于大量真实的语言资料,从调查语言信息的分布频率入手来研究语言在现实使用中的规律和模式。

自20世纪中后期,电脑被大量使用在语料的存储上,兴起了专门针对大规模储存于计算机里的语料库所进行的研究,自此语料库语言学进入了现代语料库语言学时期。

由于电脑语料库容量大、语料真实、检索快捷,它在现代语言学研究和语言教育中正发挥着越来越重要的作用。

在我国,从20世纪20年代开始,有学者为制定基础汉字字表开始建立文本语料库;70年代末以来,汉语现代文学作品语料库(1979年)、现代汉语语料库(1983年)等机器可读语料库开始建设。

90年代后,以《人民日报》光盘数据库、北大语料库为代表的大型汉语语料库日益发展,语料库成为研究中文信息处理的基本语言资源。

在英语语料库建设方面,杨惠中教授80年代主持建成的上海交通大学科技英语语料库(JDEST),是当时世界上第一个同类语料库,也是国内最大最完备的英语语料库之一。

1996年广州外国语学院开始建立中国学生交际英语语料库。

此外由广东外语外贸大学桂诗春教授和上海交通大学杨惠中教授牵头开发的“中国学习者语料库”(CLEC)于1999年建成,该语料库广泛收集了包括我国中学生、大学生在内的一百多万词的各种书面语资料,并对所有的语料进行语法标注和言语失误标注,对研究中国学习者的英语特点具有开创性意义。

二、语料库语言学发展趋势语料库语言学研究的发展总是以语料库的建设为基础的。

没有语料库的建设,语料库语言学所进行的研究只能是纸上谈兵。

近十多年来,国内语料库的建设取得了一定的成就,主要建设的语料库有英语学习者语料库、平行语料库、特殊英语语料库、汉语语料库四种类型。

(一)英语学习者语料库。

其中包括书面语和口语。

有广东外语外贸大学和上海交通大学合作建设的中国学习者英语语料库CLEC,100万词次;上海交通大学建设的大学英语学习者口语语料库COLSEC,5万词次;香港科技大学建设的香港科技大学学习者语料库HKUST Learner Corpus;南京大学建设的中国英语专业语料库CEMC,148万词次;南京大学建设的中国英语学习者口语语料库SECCL,100万词次;华中科技大学建设的硕士写作语料库MWC,12万词次。

语料库语言学的理论解析

语料库语言学的理论解析

一、图式理论应用
3、形式图式:形式图式是指学生对所学语言的语篇结构、修辞手法和表达方 式等方面的掌握程度。在外语教学中,教师应注重培养学生的语篇分析能力,帮 助他们了解不同语篇类型的结构特点和修辞手法,以提高他们的口语和写作能力。
二、语料库语言学在外语教学中 的应用
二、语料库语言学在外语教学中的应用
英语语料库语言学的发展与国际语料库语言学年会ICAME
在今年的ICAME年会上,来自世界各地的学者、专家和从业者齐聚一堂,共同 探讨语料库语言学的未来发展。在会议上,一些领先的英语语料库研究者分享了 他们的最新研究成果,包括大规模语料库的建设、文本数据的自动标注、语料库 数据的可视化呈现以及基于语料库的语言模型的开发等。
内容摘要
在语料库在自然语言处理中的应用方面,学者们重点探讨了如何利用语料库 提高自然语言处理的性能和效率。例如,利用语料库进行词性标注、命名实体识 别、情感分析等方面的研究,为机器翻译、智能客服等应用提供了更加准确和高 效的技术支持。
内容摘要
总之,通过这次语料库语言学国际会议,我们对语料库语言学发展趋势有了 更加清晰的认识。未来,语料库语言学将继续发挥重要作用,推动自然语言处理 技术的不断进步。同时,我们也应该认识到语料库建设与标注的瓶颈问题,以及 自然语言处理技
内容摘要
念进行深入解析,并举例说明其在实际应用中的价值。
理论基础和概念
理论基础和概念
语料库语言学以语言学、统计学和计算机科学为基础,强调对语言数据的分 析和研究。其核心概念包括:
理论基础和概念
1、语料库:语料库是语料库语言学同的领域和语种,以满足研 究者的需求。
挑战与解决方案
2、数据代表性:建立语料库需要收集大量的语言数据,但数据的代表性是一 个关键问题。为了确保语料库能够涵盖各种语言现象和表达方式,需要采取多种 策略和方法来收集和处理数据,包括选择多样化的语料来源、进行数据平衡和处 理等。

语料库语言学

语料库语言学

1959-1991年语料库研究项目统计表
语料库语言学的主要研究内容
• 语料库的建设与编纂 • 语料库的加工和管理技术 • 语言研究中语料库的使用 • 语料库在计算语言学中的应用
语料库设计和编纂中的问题
• 语料库设计和编纂的出发点是:如何使得在其基础上开展 的语言调查是合理的和可靠的。因此Kennedy(1998)指出 了语料库设计师所面临的最基本问题:这个语料库所采集 的语言数据是否真正代表了某种期望的语言或语体。在语 料库的建设和编纂过程中应考虑的问题包括:
• (1)数据的区别性特征:语料库语言学数据以其验证性、大数
量性、自动化、计量性等特征有别于其它类型的数据。
• (2)特征性分析技术:包括频数统计、词语索引分析、搭配分
析、词从、主题词等。
• (3)自下而上与自上而下兼用的精密分析过程 :经典语料
库语言学研究中的归纳与推演,数据观察与理论讨论,往往 是层层展开,步步深入,穷尽一切可能,逐渐逼近,到达结论。
语言研究中语料库的使用
1.言语研究: (1)语言学理论 。
(2)语言史研究。 (3)句法、词法及自动语法分析。
2.词汇研究: 编纂词典及工具参考书。 3.语义学 4.语用学和话语分析(很少) 4.社会语言学 5.心理语言学 6.外语教学
语料库语言学在计算语言学中的应用
• 20世纪90年代以来在自然语言处理(NLP)和计 算语言学的研究中,语料库方法和统计语言模型 迅速崛起,成为主流技术。主要用法如下: 1)汉语文本中交集型切分歧义的研究 2)汉语基本名词短语识别研究 3)基于结构词义空间的汉语词义排歧模型
语料库研究方法的局限性
• (1)语料库语言学理论尚需要体系化和简约化。 • (2)其研究思路和方法存在一定的分歧。 • (3)分析方法和技术需要进一步突破 • (4)语料库研究的应用尚需要更深入的探讨。

语料库语言学的发展及研究现状

语料库语言学的发展及研究现状

当代语言学(试刊)1998年第1期4-12页,北京语料库语言学的发展及研究现状丁信善1.0引言语料库语言学已经成为语言研究的主流。

基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。

这是J.Thomas等人1996年为祝贺语料库语言学的主要奠基人和倡导者G.Leech六十诞辰而出的语料库语言学研究论集的开场白。

近年来,对语料库语言学类似的评说频频见于导论和方法论的书及教科书中,它不仅仅是语料库语言学家们的自誉,而正在成为整个语言学界的共识。

2.0语料库语言学的定义关于语料库语言学的定义,现引述三例:a. 根据篇章材料对语言的研究称为语料库语言学。

(K.Aijmer&B.Aitenberg,1991,p.1)b. 基于现实生活中语言运用的实例进行的语言研究称为语料库语言学。

(T.M c Enery&A.Wilson,1996,p.1)c. 以语料为语言描写的起点或以语料为验证有关语言的假说的方法称为语料库语言学。

(D.Crystal,1991,p.86)由上述几个定义可见,语料库语言学不是研究语言自身某个方面,而是一种以语料库为基础的语言研究方法。

它实际上包括两个方面:一是对自然语料进行标注,二是对已经标注的语料的研究和利用的方法。

从方法论的角度,它不仅可以用于研究语言系统的各个层面,而且可以应用于语言学之外的其他领域。

3.0语料库语言学的历史发展语料库语言学作为一种研究语言的方法,可以追溯到上个世纪,甚至更为久远。

现在一般以乔姆斯基转换生成语法的兴衰时间为参照,将其发展大致分为以下几个阶段:3.1语料库语言学的早期发展早期的语料库语言学指的是本世纪五十年代中期以前,即乔姆斯基提出转换生成语法理论之前的所有基于语言材料的语言研究。

此类研究主要集中在以下几个方面:(1)语言习得是应用语料研究方法较早且较普遍的领域。

19世纪70年代在欧洲兴起了儿童语言习得研究的第一个热潮,当时的许多研究就是基于父母详细记载其子女话语发展的大量日记的。

语料库语言学

语料库语言学

• 1)2010 首届广外应用语言学论坛。由广东外语 外贸大学外国语言学及应用语言学研究中心于 2010 年9 月24-25日成功举办了备受瞩目的首届 广外应用语言学论坛。语料库语言学首次以独立 议题的形式提出。会议包括:1.语料库的资源共 享;2.双语语料库建设,我国单语语料库很多, 还没有高质量的英汉双语语料库;3.语料库促进 外语教学发展。外语学习者语料库等在外语教学 中的应用,推动外语教学的发展;4.语料库语言 学的现状和未来。桂诗春肯定了语料学对外语教 学的积极作用,并大力提倡资源共享,互助互利。
• 自 2010 年10 月29 日,首次中国外语教育研 究中心“语料库语言学沙龙”(Corpus Research Group)在北京外国语大学成功举 行之后,分别举行了2010 年秋季,2011 年春 季,2011 年秋季2012 年四期有关语料库语言 学研究的名家及学者的交流活动。沙龙由语言 学界的相关大家,许家金、文秋芳、冯志伟、 王克非,熊文新等参与讲座,对语料库语言学 的研究发展具有启发式的引导。 • 1.语料库建设。文秋芳的“学习者语料库的创 建与研究”。在介绍国内研究现状的同时,还 重点分析了语料库语言学研究方法的优势和局 限。
2.发展
• 语料语言学受行为主义的影响下,从60年代开始 发展,迄今已经有近五十年的历史。 • 语料库在发展的初期,只进行词的一般分析,如 词频统计等,后来增加了词的语法属性标注(如, 词性等),直到现在,人们越来越开始重视对语 料库作不同层次的标注,如:语音、构词、句法、 语义以及语用等层次的标注。 • 语料语言学在其发展的初期并没有引起太大的共 鸣,但是现代语料语言学已经得到越来越多人的 承认,其应用也越来越广泛,从语言分析、语言 教学、词典编撰到人工智能等领域都开始应用语 料库。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

语料库语言学简史语料库语言学及语料库方法的作用在今天已不容忽视,但是语料库语言学的发展却经历了一段长期曲折的过程。

以1957年Chomsky《句法结构》的发表为界,此前的语料库研究被语言学界广泛称为“早期的语料库语言学”;从上世纪50年代至80年代语料库语言学进入低谷;从80年代开始,语料库语言学迎来了它的“复苏期”。

1 早期的语料库语言学利用真实语言资料进行研究,是词汇学家和语法学家的优良传统。

早在1747年英语词典编纂的鼻祖Samuel Johnson就发表了Plan of an English Dictionary,将前人收集资料的最好方法作了总结,他所编的英语词典含15万条以上的引证说明,可见其所收集的资料库已相当可观。

Oxford English Dictionary于1928年完成,所用的引证达400多万条,卡片1100多万张,还专门出版了中古英语手稿与文章350册,供编写OED时参考。

Webster’s New International Dictionary第二版的编写参照了100多万条引证,第三版于1961年付印时,新旧引证共达1000多万条。

英语语法大师Jesperson在编写《英语语法大全》(1909-1949)时,所使用的卡片数目多达30至40万张。

(王建新,1998:52)20世纪40年代,美国的语言学家Boas在研究美洲印第安语言时就使用了语料库的方法(corpus-based methodology),后来的结构主义语言学家更是如此。

只不过当时还没有出现一个专门叫“语料库语言学”的词汇而已。

下面是早期语料库语言学的一些主要研究领域:1.1 语言习得研究19世纪70年代,语言学家就系统地对幼儿语言习得进行了研究。

这些研究都基于父母对幼儿话语及时记录的日记材料。

即使在现代,基于原始语料的语言习得研究也没有停止(Ingram,1978)。

在以日记材料为语料的研究风行过后(通常认为从1876年至1926年),语言习得的研究主要表现为下面两种方式:(1)以大量的、不同年龄段的儿童为语言素材的来源(informant),进行语言发展和成熟的研究;(2)以少量的儿童为语言素材的来源,长期跟踪记录他们使用的语言而进行的历时研究(McEnery,Wilson,2001:3)。

1.2 拼写规范研究德国语言学家Kading以德语大型语料(1100万词次)为基础,对德语各字母在文本中的出现频率以及字母串进行了研究。

1.3 语言教学研究20世纪20年代,由于大量移民涌向北美,以及各英属殖民地对英语教学的需要,有好几项工程都把寻找英语语言中最常用的词汇作为了主要的研究目标(Fries 和Traver,1940;Bongers,1947)。

1921年,Thorndike借助于语料库发布了英语词汇的使用频率研究报告。

此项研究对后来美国以及世界其他地区的英语教学都产生了巨大的影响。

1944年,Thorndike进一步完善了他的早期研究,发表了“教师3万词汇手册”(The Teacher’s Wordbook of 30,000 words)。

此时,Thorndike 研究所依据的语料库已达到1800万词次。

出于教学目的而对英语词汇进行基于语料库研究最著名的例子是Michael West的“实用英语词汇表”(General Service List of English Words)。

此项成果发表于1953年,它对当时英语书面语中最常用的2,000个词汇进行了具体的描述,不仅有不同词义的使用频率情况,还有用法说明。

这些早期研究都得出这样的结论:不论在何种语体和文本中,都是为数不多的常用词占据了文本的大部分篇幅。

1.4 对比语言学研究在对比语言学领域,语料库方法很早前就得到了应用。

最有代表性的例子是Eaton在1940年对荷兰语、法语、德语和意大利语词义频率的对比研究。

即使从今天的眼光看,这也是一项非常复杂的工作。

1.5 句法学和语义学研究对词义频率的研究也出现在单语研究领域,Lorge的研究(1949)是这方面的例子之一。

与此同时,句法研究也使用了语料库的方法。

Fries (1952)以电话听抄稿为语料,对英语语法进行了系统分析,这项研究是早期描写语法的一个代表。

从以上的诸多例证可以看出,语料库方法在语言研究领域很早以前就已经被使用。

但语料库语言学的发展却有一个明显的低谷时期,它从20世纪50年代开始,以Chomsky的著作《句法结构》的发表为标志。

因为Chomsky在书中对语料库方法的批评,语料库方法和语料库语言学曾一度极度低落,几近死亡。

2 语料库语言学的低谷时期Chomsky的转换生成语法在很短的时间内就在语言学界引起了一场革命,经验主义(empiricism)也很快被理性主义(rationalism)所取代。

Chomsky对语料库方法进行了直截了当的批评,他认为语料库永远也不会成为语言研究的有用工具,因为语言研究的最终目的是寻找语言能力(language competence)而不是语言行为(language performance)。

语言能力是所有说本族语的人可以理解并且说出从来没有听过的句子的能力,这是人人都共有的、内在的语言知识。

语言行为只是语言能力在特定场合下的表现,它是支离破碎的,不能反映语言能力的实际情况。

语言行为受到很多外部事物的影响,说话人是否饮了酒、说话时的环境等都会对语言行为产生影响。

因此,Chomsky认为语料库充其量只是对语言能力的外在表现——语言行为即言语的一种收集,这些数据无法指导语言学家获得语言能力的模型。

除此之外,Chomsky还对语料库语言学进行了进一步的批评。

早期的语料库语言学的做法会使人得出这样的两条假设:(1)自然语言中的句子是有限的;(2)自然语言中的句子是可以被收集的。

Chomsky批评说:很显然自然语言的句子是无限的,任何人都有说出或写出从未听过的句子的能力。

此外,英语的句子结构具有循环性(recursiveness)的特点,例如“The man that the cat saw that the dog ate that the man knew that the…”。

循环性进一步证明了自然语言中句子的无限性。

退一步说,假设自然语言中的句子是有限的,语料库方法会不会是研究语言的最佳方法呢?Chomsky也给出了否定的答案。

他认为语料库方法是多余的,语言学家只要通过内省(introspection)就可以进入思维活动的中心,从而对语言能力进行考察。

很多时候,语言直觉(intuition)比在语料库中搜索更节省时间。

像下面这样的句子是不大可能在语料库中出现的,如果不是靠内省,我们该如何将合乎语法的句子和不合乎语法的句子区分开来。

He shines Smith books.我们怎么知道这是一个不合乎语法的句子呢?在语料库中,我们会找到大量与此结构类似的句子。

He gives Smith books.He lends Smith books.He owes Smith books.语料库在这里毫无用处,反而给人以假象:这样的句子是可以接受的。

另外,歧义结构也只有通过内省才能够得到甄别,光靠对句子结构的观察是不够的。

例如:Tom and Ruby sat down---he read a book of medicine.Tom and Ruby sat down---he ate a can of dog food.如果遇到像这样的句子,我们只有知道Ruby是一条狗的名字才能够理解句义。

除Chomsky之外,早期的语料库语言学也受到其他学者的质疑,这些质疑主要表现在语料库方法的“可信性”方面。

Abercrombie(1965)称语料库语言学的研究方法为“伪方法”(pseudo-procedures)。

在计算机技术还很落后的年代,这样的批评并不是空穴来风。

谁能想象语言学家们如何对大型语料库(如Kading的1100万字次的语料库)进行检索?在没有检索软件支持的情况下,光凭人工是无法实现科学、全面的检索和统计的。

因此可以说,由于计算机技术的限制,早期语料库语言学进行研究的基本条件在当时并不具备。

虽然Chomsky的批评对语料库语言学是致命的一击,但基于语料库的研究却从来没有停止过。

例如在语音学领域,对实际话语的记录材料一直是语言学研究的主要素材。

同样的情况也出现在语言习得的研究方面。

从20世纪50年代至80年代,语料库语言学领域仍有下面这些显著的成就:1959年,英国伦敦大学的Randolph Quirk提出建立“英语用法调查”语料库(Survey of English Usage,SEU)。

不久以后,Nelson Francis和Henry Kucera在美国Brown大学召集了一些“语料库的有识之士”,开始了最终被称为Brown语料库的建设工作。

Brown语料库是世界上第一个根据系统性原则采集样本的标准语料库,规模为100万词次,主要代表了当代美国英语。

在当时的学术环境下,他们的研究是逆流而动的。

尽管受到许多语言学家的质疑,但他们对语料库的信心却没有动摇。

上述语料库的最终成功也极大地鼓舞了同行专家,为建设更大规模的语料库积累了经验。

1970年,在英国Lancaster大学的著名语言学家Geoffrey Leech的倡议下,LOB 语料库开始建设。

这项工作由挪威Oslo大学的Stig Johansson主持,完成于1978年,最后安装在挪威Bergen大学挪威人文科学计算中心。

LOB语料库与Brown 语料库相当,主要代表当代英国英语。

20世纪60年代初,Randolph Quirk主持的英语用法调查课题组曾收集了2000个小时的谈话和广播等口语素材,并整理成了书面材料。

这些材料后来由瑞典Lund 大学J. Svartvik教授主持全面录入计算机,这就是1975年建成的London-Lund英语口语语料库。

除了上面的语料库研究之外,这一时期还有“美国传统中级英语语料库”(The American Heritage Intermediate Corpus)和“康乃尔语料库”(The Cornell Corpus)等。

尽管在20世纪80年代之前,语料库的研究一天也没有真正停止,但应该承认这个阶段语料库语言学的发展步履维艰,语料库的建设也由于受诸多负面因素的影响而进展缓慢。

另外,这个阶段的语料库普遍规模小、加工深度低,除了对原始语料的简单处理外,对语料本身没有做什么分析和标注。

因此,这一时期的语料库被后人称为第一代语料库。

3.语料库语言学的复苏语料库语言学的复苏始于20世纪80年代①。

第一代电子语料库有其时代局限性,Brown语料库和LOB语料库可以在计算机上使用,但所含的语料均为书面语,缺乏口语与手稿。

相关文档
最新文档