语料库语言学的发展及研究现状

合集下载

语料库语言学简介

语料库语言学简介

语料库语言学简介语料库语言学是指利用语料库(一种大规模的文本数据集合)进行语言学研究的方法和理论。

通过构建、标注和分析语料库,可以揭示语言在不同层面上的特征和规律,为自然语言处理、机器翻译等领域提供基础和支持。

语料库语言学的研究内容包括:语言的音系、形态、句法以及语义等方面;语言的变异、演化和变化;语言使用者的使用习惯、语言背景和社会属性等。

语料库语言学的主要方法包括:语料库的构建和管理、语料库的标注和注释、语料库的查询和分析、语料库的应用和评估等。

语料库语言学的应用领域包括:机器翻译、信息检索、语音识别、文本分类、自然语言生成等。

此外,语料库语言学还被广泛应用于各种语言教学、语言规划和语言政策制定等领域。

总的来说,语料库语言学已经成为现代语言学和自然语言处理领域不可或缺的一部分,对于研究和应用语言都有着重要的意义。

一、语料库语言学的意义(一)定义和概述语料库语言学是指利用计算机对大规模语料库进行统计学分析、计算和比较,从而研究语言规律和现象的语言学方法。

语料库是指收集、整理、储存在计算机中的自然语言文本,包括书面文本和口语文本。

语料库语言学旨在通过对语言数据的分析,揭示语言的内在规律和现象,为语言学、语言教学、翻译等领域提供科学依据。

(二)语料库语言学的历史语料库语言学起源于20世纪50年代的美国,当时ChomSky等人提出了生成文法理论,但是这个理论无法解释自然语言的很多现象。

50年代后期,美国普林斯顿大学的SinClair教授提出了使用实际语言数据进行语言研究的观点,并开始编制语料库,由此开启了语料库语言学的先河。

之后,随着计算机技术的发展,语料库语言学得以快速发展,成为现代语言学研究和应用的重要领域。

二、语料库语言学的重要性(一)提供真实语言数据语料库收集大量的自然语言文本,包括书面语和口语,具有代表性和真实性。

这些数据包含了语言使用中的各种现象和规律,是研究语言的最基本素材。

(二)揭示语言规律和现象语料库语言学可以对语言数据进行分析、计算和比较,从而揭示语言的内在规律和现象。

语料库语言学发展现状与应用

语料库语言学发展现状与应用
库为 手段来 研究 语言 . 以大量 的 自然 产 生 的语 料 为 对象 , 统计 学技 术 加定 性 分 析方 法描 述 语 言 的结 用 构 和用法, 于典 型的定 量型研 究 方法 , 属 几乎 可 以应
究 中所能 发挥 的作用 远远 超 出 了人类 的想象 。 料 语 库 和语言 学家 的直 觉应该 是相 互 补充 . 不是相 互 而
法并 逐渐在 语言 学界 占据 主导地 位 。 重视 讲母 语 他
的人 的语 言直 觉, 为 通过 内省可 以考 察 一个 完 全 认 具有 母语 知识 的理想 讲话 一 听话 人 的语 言 能力 。 因
英语 语 料库 。在语 料库 语言 学研 究 的发展 历程 中 , 各 家学 派著 书立说 , 同致 力 于这 门学科 的繁荣发 共
fa g mma c l t cue 、 词 汇 语 域 ( cb l y r t a r tr) i s u v a ua o r
rg tr和 意 义 表 述 f ne t x rsin上 的 差 别 , e ie) s c tn 基础 的研 究方
法 得到 了重新 肯定 。
用 于语 言研 究 所 有 的领 域 , 词 汇 、 法 、 篇 、 如 语 语 语 言 变异 、 体学 、 文 历史 语言 学等 。 在语 言研 究 中, 国结 构 主 义语 言 学在 研究 中 美 很 倚 重 实 际 使 用 的 语 言 材 料 。 布 龙 菲 尔 德 ( l m i d 和 萨丕 尔 (a i) 都 在研究 中使 用 以 Bo fl) o e S pr等,
随着科技 和社 会 的进步 , 特别 是计 算 机技 术 的 进步 , 用机 器 大规 模 处 理语 料 , 行 语 言研 究 的方 进
作 者 简 介 : 伟 (9 5 ) 山 东 师 范 大 学 研 究 生 , 究 方 向 : 刘 18一 , 研

语料库和知识库地研究现状

语料库和知识库地研究现状

语料库和知识库研究现状2015-12-9摘要:语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源,它与自然语言处理有着相辅相成的关系,是用统计语言模型的方法处理自然语言的基础资源。

知识库广泛应用于信息检索、机器问答系统、自动文摘、文本分类等领域,为进行大规模的真实性文本的语义分析提供了有利的支持,它也成为自然语言处理不可或缺的基础资源。

由于语料库和知识库的广泛应用,如今国外对语料库和知识库的研究给与高度的重视,经过过去几十年的发展,各国在语料库和知识库的建设和应用方面都取得了不少成果。

本文通过对语料库与知识库相关文献资料的搜索整理,重点介绍目前国外在语料库和知识库方面的研究现状。

关键词:语料库;知识库;研究现状1前言语料库是指按照一定的语言学原则,运用随机抽样的方法,收集自然出现的连续的语言文本或者说话片段而建成的具有一定容量的大规模电子文本库[1]。

而知识库是知识工程中结构化、易操作使用,全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。

语料库和知识库在传统语言研究、词典编纂、语言教学、自然语言处理等领域有重要作用,所以自从20世纪60年代第一个现代意义上的语料库——美国布朗语料库(Brown Corpus)诞生开始,大批国外的专家学者致力于语料库和知识库的研究,近年来国外对于语料库知识库的研究取得了重大的突破,形成了规模不一的各种语料库和知识库,并且涌现了众多有关语料库和知识库的专著、论文等。

对于语料库和知识库发展现状的总结研究,不仅可以帮助人们清楚的了解语料库和知识库当前发展的形势,对今后语料库知识库的发展具有一定的指导作用,而且对于应用语料库知识库发展自然语言处理等领域具有重要意义。

2研究意义从现代意义上第一个语料库出现以来,语料库在国外的发展均有长足的进步,不但其规模越来越大,加工深度越来越深,而且有关语料库的应用也越来越广泛[2]。

浅谈语料库语言学在的应用以及在中国的发展趋势

浅谈语料库语言学在的应用以及在中国的发展趋势

浅谈语料库语言学在的应用以及在中国的发展趋势一、语料库语言学的兴起与发展语料库语言学是基于大量真实的语言资料,从调查语言信息的分布频率入手来研究语言在现实使用中的规律和模式。

自20世纪中后期,电脑被大量使用在语料的存储上,兴起了专门针对大规模储存于计算机里的语料库所进行的研究,自此语料库语言学进入了现代语料库语言学时期。

由于电脑语料库容量大、语料真实、检索快捷,它在现代语言学研究和语言教育中正发挥着越来越重要的作用。

在我国,从20世纪20年代开始,有学者为制定基础汉字字表开始建立文本语料库;70年代末以来,汉语现代文学作品语料库(1979年)、现代汉语语料库(1983年)等机器可读语料库开始建设。

90年代后,以《人民日报》光盘数据库、北大语料库为代表的大型汉语语料库日益发展,语料库成为研究中文信息处理的基本语言资源。

在英语语料库建设方面,杨惠中教授80年代主持建成的上海交通大学科技英语语料库(JDEST),是当时世界上第一个同类语料库,也是国内最大最完备的英语语料库之一。

1996年广州外国语学院开始建立中国学生交际英语语料库。

此外由广东外语外贸大学桂诗春教授和上海交通大学杨惠中教授牵头开发的“中国学习者语料库”(CLEC)于1999年建成,该语料库广泛收集了包括我国中学生、大学生在内的一百多万词的各种书面语资料,并对所有的语料进行语法标注和言语失误标注,对研究中国学习者的英语特点具有开创性意义。

二、语料库语言学发展趋势语料库语言学研究的发展总是以语料库的建设为基础的。

没有语料库的建设,语料库语言学所进行的研究只能是纸上谈兵。

近十多年来,国内语料库的建设取得了一定的成就,主要建设的语料库有英语学习者语料库、平行语料库、特殊英语语料库、汉语语料库四种类型。

(一)英语学习者语料库。

其中包括书面语和口语。

有广东外语外贸大学和上海交通大学合作建设的中国学习者英语语料库CLEC,100万词次;上海交通大学建设的大学英语学习者口语语料库COLSEC,5万词次;香港科技大学建设的香港科技大学学习者语料库HKUST Learner Corpus;南京大学建设的中国英语专业语料库CEMC,148万词次;南京大学建设的中国英语学习者口语语料库SECCL,100万词次;华中科技大学建设的硕士写作语料库MWC,12万词次。

近五年国内语料库语言学研究综述

近五年国内语料库语言学研究综述

近五年国内语料库语言学研究综述摘要:文章从语料库语言学研究的领域,通过对2006年至2010年发表在国内11种外语类核心期刊上的语料库语言学论文进行统计与分析,发现这些研究在研究领域方面取得了很大的进步,涉及到语言学的各个领域,但各个领域之间发展不平衡,同时也存在一些问题。

关键词:语料库;语料库语言学研究;研究领域现代语料库语言学( modern corpus linguistics)是20世纪中后期兴起的一门语言研究科学。

语料库是指按一定的语言学原则,运用随机抽样的方法,收集自然出现的连续的语言运用文本或话语片段而建成的具有一定容量的大型电子文库。

中国第一个语料库JDEST( Jiao Tong University Corpusfor EST)于1986年在上海交通大学建成至今20多年来,国内语料库语言学的发展取得了丰硕的成果。

随着语料库语言学在中国的发展,越来越多的学者开始利用语料库来做实证研究。

近几年来,语料库语言学已经成为实证研究的不可缺少的手段,成为了语言研究一个新的热点。

笔者通过检索主题与关键词通过对最近5年运用语料库做实证研究的文章进行系统的调查与总结,以其为今后语料库语言学的发展提供一点建议与参考。

一研究样本由于近几年运用语料库来做研究已经成为语言学研究的热点,笔者通过检索主题与关键词,将文献定在2006年至2010年这5年期间,研究样本来源为发表在11种外语类核心期刊的66篇文章。

这是因为这11种外语类核心期刊有一定的权威性,所刊登的文章质量较高,能在一定程度上代表研究的趋势。

表1为最近5年发表在11种外语类核心期刊上的基于语料库研究的文章。

二结果与分析首先看下这66篇文章在近5年期间的分布情况:如下面柱形图所示。

从图中可以清楚的看出,在这5年期间基于语料库研究的文章大体呈递增的趋势,特别是在2010年,研究数量有较显著的增长。

下面从研究领域对这5年来的文章进行关于语料库的研究领域,国外学者都提出过不同的分类方法。

语料库语言学研究发展现状浅析

语料库语言学研究发展现状浅析

语料库语言学研究发展现状浅析【摘要】语料库语言学过去几十年中在我国的研究取得了丰硕的成果,也日益引起国外同行的关注。

本文以语料库及语料库语言学在外语教学和翻译教学方面的应用为脉络,回顾了近年来语料库语言学研究所取得的成果,并讨论了语料库语言学在中国的发展趋势。

【关键词】语料库;语料库语言学;外语教学;翻译研究;研究;发展状况兴起于20世纪80年代的语料库语言学是一门新兴的学科,主要致力于文本的检索、取样、分析以及统计,从建立之初就为语言学研究注入了新的活力。

近年来,语料库语言学得到了大量中国学者与专家的广泛关注,不仅建成了一批具有国际水准的高水平、高质量的诸如平行语料库、专门用途语料库、和用于研究学习者口语和书面语特征的学习者口笔语语料库等各种类型的语料库,研究方向也从以往单一枯燥的语法、词汇和词典编纂扩展到涵盖二语习得、外语教学与研究、翻译理论、翻译实践、话语分析、错误分析和语言处理等更为专业和全面的诸多语言学研究的领域之中,吸引着越来越多的具有不同研究背景和研究方向的学者投入到语料库语言学的研究之中,使得语料库语言学得到空前的发展。

此外,国内以及国际间的各层次和领域的合作与交流也为语料库语言学的研究和发展创造了优越的环境。

一、外语教学与研究与语料库语言学以语料库为基础的外语教学研究始终是语料库语言学研究的主要领域,也一直是国内外语言学家和语言教育家关注的焦点。

在中国,语料库语言学与外语教学一直保持着紧密的联系。

首先,基于语料库的外语教学的两个最基本的问题是“教什么”和“怎么教”的问题。

关于这些问题,国际、国内的专家和学者纷纷给出了各自的理解。

Sinclair强调学习者可直接通过相关语料库资源,凭借相应的分析软件,分析观察词汇索引和扩展语境,从而自觉得形成对语言形式的归纳和自我发现。

此外,教师也可根据实际教学需求自建小型语料库或基于现有的大型语料库建立更为细致和专业的子语料库,并将其与实际的语言教学活动相结合,切实地体现语料库对语言教学的辅助作用。

《2024年语料库研究》范文

《2024年语料库研究》范文

《语料库研究》篇一一、引言语料库作为一种资源丰富的语言数据集合,已成为语言学、语言学研究以及相关领域的热点研究对象。

它能够为语言分析、语言教学、翻译、词典编纂等多个领域提供支持。

本文将介绍语料库研究的重要性,并就当前语料库研究的现状进行梳理,进而分析其中存在的挑战和问题,并探讨未来的发展趋势。

二、语料库研究的现状1. 语料库类型及建设随着技术的进步,语料库建设日趋成熟。

根据不同领域和用途,语料库可大致分为通用型和专用型。

其中,通用型语料库如COCA、BNC等,涵盖了广泛的语言使用场景;专用型语料库则针对特定领域或主题进行收集,如法律、医学等。

此外,还有多媒体语料库和口语语料库等类型。

在建设过程中,研究者需考虑语料库的规模、代表性、时效性等因素。

2. 语料库应用领域语料库在多个领域得到了广泛应用。

在语言学领域,语料库为语言研究提供了丰富的数据支持;在翻译领域,语料库可帮助提高翻译的准确性和效率;在词典编纂方面,语料库为词汇的收集和释义提供了有力支持。

此外,在语言教学、自然语言处理等领域,语料库也发挥着重要作用。

三、当前挑战与问题尽管语料库研究取得了显著成果,但仍面临诸多挑战和问题。

首先,在语料库建设方面,如何确保数据的代表性和真实性是一个亟待解决的问题。

此外,随着技术的发展,如何利用人工智能等手段对语料库进行智能化处理和利用也是一大挑战。

其次,在应用方面,如何将语料库与实际需求相结合,提高应用效果也是一个难题。

此外,不同领域和行业对语料库的需求存在差异,如何满足这些不同需求也是一项挑战。

四、未来展望面对未来的发展,语料库研究将呈现以下几个趋势:1. 多样化与个性化:随着用户需求的多样化与个性化发展,未来的语料库将更加关注用户需求和实际应用场景的差异。

研究者需要设计更多类型的语料库来满足不同领域和行业的需求。

2. 智能化与自动化:人工智能技术的不断发展将促进语料库的智能化和自动化处理。

例如,利用自然语言处理技术对语料进行自动标注、分类和分析等操作,提高处理效率和准确性。

中国语料库研究的历史与现状

中国语料库研究的历史与现状

中国语料库研究的历史与现状推荐文章•汉语社会中识字社群的汉字字形思维例析热度:•结构主义语言学及其源流热度:•我国汉字识别研究的新进展热度:•关于汉语词汇层的研究热度:•“语法化”问题热度:中国语料库研究的历史与现状语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。

传统的语言材料的搜集、整理和加工完全是靠手工进行的,这是一种枯燥无味、费力费时的工作。

计算机出现后,人们可以把这些工作交给计算机去作,大大地减轻了人们的劳动。

后来,在这种工作中逐渐创造了一整套完整的理论和方法,形成了一门新的学科——语料库语言学(corpus linguistics),并成为了自然语言处理的一个分支学科。

语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。

多年来,机器翻译和自然语言理解的研究中, 分析语言的主要方法是句法语义分析。

因此,在很长一段时间内,许多系统都是基于规则的,而根据当前计算机的理论和技术的水平很难把语言学的各种事实和理解语言所需的广泛的背景知识用规则的形式充分地表达出来,这样,这些基于规则的机器翻译和自然语言理解系统只能在极其受限的某些子语言(sub- language)中获得一定的成功。

为了摆脱困境,自然语言处理的研究者者们开始对大规模的非受限的自然语言进行调查和统计,以便采用一种基于统计的模型来处理大量的非受限语言。

不言而喻,语料库语言学将有可能在大量语言材料的基础上来检验传统的理论语言学基于手工搜集材料的方法所得出的各种结论,从而使我们对于自然语言的各种复杂现象获得更为深刻全面的认识。

本文首先简要介绍国外语料库的发展情况,然后,比较详细地介绍中国语料库的发展情况和主要的成绩,使我们对于语料库研究得到一个鸟瞰式的认识。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

当代语言学(试刊)1998年第1期4-12页,北京语料库语言学的发展及研究现状丁信善1.0引言语料库语言学已经成为语言研究的主流。

基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。

这是J.Thomas等人1996年为祝贺语料库语言学的主要奠基人和倡导者G.Leech六十诞辰而出的语料库语言学研究论集的开场白。

近年来,对语料库语言学类似的评说频频见于导论和方法论的书及教科书中,它不仅仅是语料库语言学家们的自誉,而正在成为整个语言学界的共识。

2.0语料库语言学的定义关于语料库语言学的定义,现引述三例:a. 根据篇章材料对语言的研究称为语料库语言学。

(K.Aijmer&B.Aitenberg,1991,p.1)b. 基于现实生活中语言运用的实例进行的语言研究称为语料库语言学。

(T.M c Enery&A.Wilson,1996,p.1)c. 以语料为语言描写的起点或以语料为验证有关语言的假说的方法称为语料库语言学。

(D.Crystal,1991,p.86)由上述几个定义可见,语料库语言学不是研究语言自身某个方面,而是一种以语料库为基础的语言研究方法。

它实际上包括两个方面:一是对自然语料进行标注,二是对已经标注的语料的研究和利用的方法。

从方法论的角度,它不仅可以用于研究语言系统的各个层面,而且可以应用于语言学之外的其他领域。

3.0语料库语言学的历史发展语料库语言学作为一种研究语言的方法,可以追溯到上个世纪,甚至更为久远。

现在一般以乔姆斯基转换生成语法的兴衰时间为参照,将其发展大致分为以下几个阶段:3.1语料库语言学的早期发展早期的语料库语言学指的是本世纪五十年代中期以前,即乔姆斯基提出转换生成语法理论之前的所有基于语言材料的语言研究。

此类研究主要集中在以下几个方面:(1)语言习得是应用语料研究方法较早且较普遍的领域。

19世纪70年代在欧洲兴起了儿童语言习得研究的第一个热潮,当时的许多研究就是基于父母详细记载其子女话语发展的大量日记的。

据悉,这些日记作为原始材料,不仅是当时W.Preyer和W.Stern等人的理论假说的依据,而且时至今日仍是许多学者的研究语料之一。

自本世纪30年代以来,语言学家和心理语言学家提出了众多关于儿童在不同年龄段的语言发展模式。

这些模式大都是建立在对儿童自然话语大量材料的研究分析上的。

(2)利用自然语料开展音系研究,在西方当首推美国早期的结构主义语言学家,如F.Boas和E.Sapir等人。

他们注重 野外工作 ,强调语料获取的自然性和语料分析的客观性。

这些都为后来的语料语言学所继承和发展。

本文承蒙哥本哈根大学翻译与词典学研究中心主任C.Dollerup博士提供有关欧洲语料库网络的材料,特此致谢。

(3)方言学从其产生以来就与语料结下不解之缘。

在西方,方言学脱胎于19世纪的历史比较语言学,最初兴趣主要是研究运用直接法所获取的有关单音不同分布的事实来绘制方言地图。

方言研究者手持笔记本,后来是手提录音机,记下或录下他所遇到的一切方言材料。

此种取样法至今仍为某些业余研究者所用,它对于研究方言词汇的分布有一定价值。

(Francis,1983:49-50)在我国,运用语料的方法远至周秦。

据应劭∀风俗通义序# 周、秦常以岁八月遣轩之使,求异代方言 。

我国汉语方言学第一部著作∀方言#就是这种方法的产物。

据载,扬雄非常喜爱方言,他利用考廉(略等于后代的举人)和士兵们集中在首都的方便,普遍地进行走访,不断积累材料,坚持编纂整理,经过27年的艰苦努力,终成∀轩使者绝代语释别国方言#。

3.2新的语料库语言学1959年,R.Quirk着手建立 英语用法 语库(Survey of English Usage)。

该项目旨在收集大量的风格题材各异的语料作为对英国英语口语和书面语进行系统描写的基础。

几乎与此同时,以N.Francis和H.Kucera为首的一批语言学家和计算机专家汇集在美国的布朗大学合力攻关,并于1961年建成了当今最早的机读语料库∃布朗语库(Brown Corpus)。

这两个库可以说是现代语料库语言学的开端。

3.3语料库语言学与乔姆斯基转换生成语法50年代中前期,在实证主义和行为主义思潮的影响下,语言研究总体上是经验主义占主导,这种氛围无疑促进了对语料的重视,使其成为当时的热点之一。

特别在美国,以Z.Harris等人为代表的后布龙菲尔德结构主义语言学家视语料为语言学的唯一研究对象。

在他们看来,直觉证据是第二位的,是靠不住的,应该放弃。

但是这种状况随着乔姆斯基1957年∀句法理论#及其以后的一系列论著的发表被根本转变。

笛卡尔主义的理性主义占据主导地位,经验主义几乎无立足之地,被视为经验主义产物的语料研究自然被完全否定。

乔姆斯基及其转换生成语法学派否定早期语料研究主要有两点:(1)语料研究的方向有误。

乔姆斯基认为,语言研究的主要目标是建立一种能反映说话人心理现实的语言认知模式,简言之,语言能力模式。

因为只有语言能力才能对说话人的语言知识作出解释和描述,而语言运用只是语言能力的外在证据,它往往会因超语言因素的影响而发生变化,因此,它不能确切地反映语言能力。

语料从本质上只是外在化的话语的汇集,基于语料的研究所建立的经验模式充其量只能对语言能力作出部分解释,因而语料不是语言学家从事语言研究的得力工具。

(2)语料的不充分性,乔姆斯基在∀句法理论#一书中首次发现英语短语结构规则具有递归性。

这种递归性表明,自然语言的句子是无限的,而作为语料基本单位的句子的无限性决定了语料是难以穷尽的,换言之,语料永远是不完整的,不充分的。

转换生成语法学派的上述批评从根本上改变了50年代结构主义语言学的研究方向。

在此后的近20年里,整个语言学界几乎唯直觉是从,唯思辨独尊,语料研究方法几乎名誉扫地。

但是语料研究并未完全终止。

除了R.Quirk和N.Francis等语言学家凭其非凡的学术勇气,顶着无形的压力,继续其研究项目并不断取得进展之外,另有十多项小的研究也在展开,特别是1975年,以J.Svartvik为首的一批语言学家汇集于瑞典的隆德大学,开始对R.Quirk语料的口语部分作韵律标注,并最终实现了机读,建成了伦敦∃隆德语料库(London-Lund Corpus)。

对此,G.Leech (1991:9)认为 作为英语口语研究的语料源,它至今仍无与伦比。

上述项目的持续进行为80年代语料库语言学的复兴奠定了基础。

4.0语料库语言学的复兴在相对沉寂了近20年后,语料库语言学自80年代以来,迅猛发展,空前繁荣,主要表现是: 4.1第二代语料库的建成以伯明翰英语语料库为代表的一大批语料库80年代以来相继建成。

这些机控语库,尽管规模、设计和研究目的各异,但大多采用了较新的KDEM(Kurzweil Data Entry Machine)光电符号识别技术,使语料的编码和编辑得以从繁重的人工输入中解脱出来,大大加快了语料的标注处理,促进了语料的分析和利用,故称第二代语料库。

根据美国加州大学伯克莱分校的语言学家J.Edwards 1993年的不完全统计,80年代以来建成并投入使用的各类语料库达50多个%,按语种分布如下:英语24法语4意大利语2丹麦语2德语7西班牙语2芬兰语2瑞典语2此外,还有葡萄牙语,南斯拉夫语和爱脱尼亚语等也都建立了语库。

在这些语料库中,规模较大且特点较鲜明的有:(1)兰卡斯特∃奥斯陆/卑尔根语库(The Lancaster-Oslo/B ergen,简称LOB)。

在G.Leech的领导下,70年代始建,1983年建成。

包括五百个语篇,每个语篇约两千词。

其数据模式与布朗语料库相同,但有其独到之处:可以比较不同的英语文体。

(2)法语语料库(Tresor de la Langue Francaise,简称TLF)。

该库是法国国家科学研究中心与美国芝加哥大学的合作项目,语料包括从17至20世纪书面法语各种文体的两千个语篇,词汇量达到1.5亿,有关数据已制成光盘,并可通过UNIX软件系统查阅。

(3)赫尔辛基历史英语语料库(The Helsinki Corpus of Historical English)。

该库是以M.Rissanen 等为首的一批语言学家在赫尔辛基大学所建。

语料包括自850至1720年这一时期的各类英语语篇,并以每百年分段,词汇量达1.6千万。

作为第一个历时语库,它对于从社会语言学、方言学及语用学角度研究英语的变迁均具有重要作用。

(4)国际英语语料库(The International Corpus of English,简称ICE)。

该库于1988年由伦敦大学学院英语系承建,旨在为从事世界范围内英语的民族变体的比较研究提供数据。

语料分别取自所有英语国家,并采用统一的分类和编码系统。

每个国家的语料字数限定一百万,口语和书面语各占一半。

语料取样时间限定在1990∃1993年之内。

语料采样对象为18岁以上接受英语教育成长起来的成年人。

4.2基于语料的研究项目增多大批语料库的建成极大地促进了基于语料的研究项目的迅速开展。

下表的统计数字就充分说明了这一点:1959∃1991年语料研究项目统计表(据Johansson,1991:312)起止年限研究项目数1959∃1965101966∃1970201971∃1975301976∃1980801981∃19851601986∃1991320%有的语料库语言学家主张区分语料库(corpus)和语篇库(textbank),认为二者在规模、构成、使用目的及其代表性诸方面均有差异。

本文未作严格区分。

事实证明,机控语库是开展大范围语言研究的极好料源,因为它所提供的语料较之先前的材料更具有真实性,其层级结构更加明晰,因而更有助于对语言的不同层面进行描写研究,更有助于对不同语体的比较研究和开展量化与概率统计研究。

上述的许多研究项目取得重要成果,有的深化了原有的研究,有的则是拓宽了原有的研究领域。

如J.Svartvik(1996)和M.Halliday(1991)等人的概率语法研究;G.Tottie(1991)的英国英语和美国英语话语风格研究以及J.Sinclair(1985)等人关于英语搭配的量化研究等。

80年代以来英语语料库语言学复兴的原因,近年来多有评说,概而言之,主要有两条:(1)计算机科学的飞速发展与计算机技术的迅速普及和应用为语料库语言学的复兴提供了物质基础。

80年代以来语料库语言学的发展进入了一个良性循环:计算机程序和软件的不断开发应用加快了语料库的建设,提高了语料的处理能力和层次;大量经过加注的语料的可得又促进了语料研究和利用;研究的深入转而又导致更为先进的研究方法和语言学模式的产生,许多先前需要人工处理的工作现在可以通过计算机程序及其软件自动或半自动地完成。

相关文档
最新文档