我国语料库研究发展历程分析
语料库的发展历程

0.2 发展历史与现状
语料库语言学的发展历史,大致可以分为两个时期:
计算机化以前时期,可称之为传统语料库时期 计算机化以后时期,可称之为现代语料库时期
20世纪 50年代Chomsky的影响 第一代(1970- 80年代) 第二代(1980- 90年代) 第三代(1990年代) ?第四代(21世纪)
0.2.2 计算机化的语料库(现代语料库)
第二代语料库
朗文语料库(Longman Corpus Network)
商用语料库,建于上个世纪80年代 由三个大的语料库组成
朗文 /兰开斯特英语语料库(Longman/Lancaster English Language Corpus,即 LLELC) 朗文口语语料库(Longman Spoken Corpus,即 LSC) 朗文英语学习者语料库(Longman Corpus of Learners’ English ,即 LCLE)
CORPUS LINGUISTICS
0.1 语料库语言学的定义 语料库(corpus,复数形式为corpora),顾名思义就 是存放语言材料的仓库(或数据库)。而语料库语 言学则是一种以语料库为基础的语言研究方法,它 包含两层含义:
— 利用语料库对语言的某个方面进行研究,也就是说“语料 库语言学”不是一个新学科的名称,而仅仅反映了一个新 的研究手段。 — 依据语料库所反映出来的语言事实对现行语言学理论进 行批判,提出新的观点或理论。
CORPUS LINGUISTICS
0.2.2 计算机化的语料库(现代语料库)
第二代语料库
COBUILD语料库(Collins Birmingham University International Language Database) 英国国家语料库 国际英语语料库
浅谈语料库语言学在的应用以及在中国的发展趋势

浅谈语料库语言学在的应用以及在中国的发展趋势一、语料库语言学的兴起与发展语料库语言学是基于大量真实的语言资料,从调查语言信息的分布频率入手来研究语言在现实使用中的规律和模式。
自20世纪中后期,电脑被大量使用在语料的存储上,兴起了专门针对大规模储存于计算机里的语料库所进行的研究,自此语料库语言学进入了现代语料库语言学时期。
由于电脑语料库容量大、语料真实、检索快捷,它在现代语言学研究和语言教育中正发挥着越来越重要的作用。
在我国,从20世纪20年代开始,有学者为制定基础汉字字表开始建立文本语料库;70年代末以来,汉语现代文学作品语料库(1979年)、现代汉语语料库(1983年)等机器可读语料库开始建设。
90年代后,以《人民日报》光盘数据库、北大语料库为代表的大型汉语语料库日益发展,语料库成为研究中文信息处理的基本语言资源。
在英语语料库建设方面,杨惠中教授80年代主持建成的上海交通大学科技英语语料库(JDEST),是当时世界上第一个同类语料库,也是国内最大最完备的英语语料库之一。
1996年广州外国语学院开始建立中国学生交际英语语料库。
此外由广东外语外贸大学桂诗春教授和上海交通大学杨惠中教授牵头开发的“中国学习者语料库”(CLEC)于1999年建成,该语料库广泛收集了包括我国中学生、大学生在内的一百多万词的各种书面语资料,并对所有的语料进行语法标注和言语失误标注,对研究中国学习者的英语特点具有开创性意义。
二、语料库语言学发展趋势语料库语言学研究的发展总是以语料库的建设为基础的。
没有语料库的建设,语料库语言学所进行的研究只能是纸上谈兵。
近十多年来,国内语料库的建设取得了一定的成就,主要建设的语料库有英语学习者语料库、平行语料库、特殊英语语料库、汉语语料库四种类型。
(一)英语学习者语料库。
其中包括书面语和口语。
有广东外语外贸大学和上海交通大学合作建设的中国学习者英语语料库CLEC,100万词次;上海交通大学建设的大学英语学习者口语语料库COLSEC,5万词次;香港科技大学建设的香港科技大学学习者语料库HKUST Learner Corpus;南京大学建设的中国英语专业语料库CEMC,148万词次;南京大学建设的中国英语学习者口语语料库SECCL,100万词次;华中科技大学建设的硕士写作语料库MWC,12万词次。
近五年国内语料库语言学研究综述

近五年国内语料库语言学研究综述摘要:文章从语料库语言学研究的领域,通过对2006年至2010年发表在国内11种外语类核心期刊上的语料库语言学论文进行统计与分析,发现这些研究在研究领域方面取得了很大的进步,涉及到语言学的各个领域,但各个领域之间发展不平衡,同时也存在一些问题。
关键词:语料库;语料库语言学研究;研究领域现代语料库语言学( modern corpus linguistics)是20世纪中后期兴起的一门语言研究科学。
语料库是指按一定的语言学原则,运用随机抽样的方法,收集自然出现的连续的语言运用文本或话语片段而建成的具有一定容量的大型电子文库。
中国第一个语料库JDEST( Jiao Tong University Corpusfor EST)于1986年在上海交通大学建成至今20多年来,国内语料库语言学的发展取得了丰硕的成果。
随着语料库语言学在中国的发展,越来越多的学者开始利用语料库来做实证研究。
近几年来,语料库语言学已经成为实证研究的不可缺少的手段,成为了语言研究一个新的热点。
笔者通过检索主题与关键词通过对最近5年运用语料库做实证研究的文章进行系统的调查与总结,以其为今后语料库语言学的发展提供一点建议与参考。
一研究样本由于近几年运用语料库来做研究已经成为语言学研究的热点,笔者通过检索主题与关键词,将文献定在2006年至2010年这5年期间,研究样本来源为发表在11种外语类核心期刊的66篇文章。
这是因为这11种外语类核心期刊有一定的权威性,所刊登的文章质量较高,能在一定程度上代表研究的趋势。
表1为最近5年发表在11种外语类核心期刊上的基于语料库研究的文章。
二结果与分析首先看下这66篇文章在近5年期间的分布情况:如下面柱形图所示。
从图中可以清楚的看出,在这5年期间基于语料库研究的文章大体呈递增的趋势,特别是在2010年,研究数量有较显著的增长。
下面从研究领域对这5年来的文章进行关于语料库的研究领域,国外学者都提出过不同的分类方法。
语料库语言学研究发展现状浅析

语料库语言学研究发展现状浅析【摘要】语料库语言学过去几十年中在我国的研究取得了丰硕的成果,也日益引起国外同行的关注。
本文以语料库及语料库语言学在外语教学和翻译教学方面的应用为脉络,回顾了近年来语料库语言学研究所取得的成果,并讨论了语料库语言学在中国的发展趋势。
【关键词】语料库;语料库语言学;外语教学;翻译研究;研究;发展状况兴起于20世纪80年代的语料库语言学是一门新兴的学科,主要致力于文本的检索、取样、分析以及统计,从建立之初就为语言学研究注入了新的活力。
近年来,语料库语言学得到了大量中国学者与专家的广泛关注,不仅建成了一批具有国际水准的高水平、高质量的诸如平行语料库、专门用途语料库、和用于研究学习者口语和书面语特征的学习者口笔语语料库等各种类型的语料库,研究方向也从以往单一枯燥的语法、词汇和词典编纂扩展到涵盖二语习得、外语教学与研究、翻译理论、翻译实践、话语分析、错误分析和语言处理等更为专业和全面的诸多语言学研究的领域之中,吸引着越来越多的具有不同研究背景和研究方向的学者投入到语料库语言学的研究之中,使得语料库语言学得到空前的发展。
此外,国内以及国际间的各层次和领域的合作与交流也为语料库语言学的研究和发展创造了优越的环境。
一、外语教学与研究与语料库语言学以语料库为基础的外语教学研究始终是语料库语言学研究的主要领域,也一直是国内外语言学家和语言教育家关注的焦点。
在中国,语料库语言学与外语教学一直保持着紧密的联系。
首先,基于语料库的外语教学的两个最基本的问题是“教什么”和“怎么教”的问题。
关于这些问题,国际、国内的专家和学者纷纷给出了各自的理解。
Sinclair强调学习者可直接通过相关语料库资源,凭借相应的分析软件,分析观察词汇索引和扩展语境,从而自觉得形成对语言形式的归纳和自我发现。
此外,教师也可根据实际教学需求自建小型语料库或基于现有的大型语料库建立更为细致和专业的子语料库,并将其与实际的语言教学活动相结合,切实地体现语料库对语言教学的辅助作用。
中国语料库研究的历史与现状

中国语料库研究的历史与现状推荐文章•汉语社会中识字社群的汉字字形思维例析热度:•结构主义语言学及其源流热度:•我国汉字识别研究的新进展热度:•关于汉语词汇层的研究热度:•“语法化”问题热度:中国语料库研究的历史与现状语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。
传统的语言材料的搜集、整理和加工完全是靠手工进行的,这是一种枯燥无味、费力费时的工作。
计算机出现后,人们可以把这些工作交给计算机去作,大大地减轻了人们的劳动。
后来,在这种工作中逐渐创造了一整套完整的理论和方法,形成了一门新的学科——语料库语言学(corpus linguistics),并成为了自然语言处理的一个分支学科。
语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。
多年来,机器翻译和自然语言理解的研究中, 分析语言的主要方法是句法语义分析。
因此,在很长一段时间内,许多系统都是基于规则的,而根据当前计算机的理论和技术的水平很难把语言学的各种事实和理解语言所需的广泛的背景知识用规则的形式充分地表达出来,这样,这些基于规则的机器翻译和自然语言理解系统只能在极其受限的某些子语言(sub- language)中获得一定的成功。
为了摆脱困境,自然语言处理的研究者者们开始对大规模的非受限的自然语言进行调查和统计,以便采用一种基于统计的模型来处理大量的非受限语言。
不言而喻,语料库语言学将有可能在大量语言材料的基础上来检验传统的理论语言学基于手工搜集材料的方法所得出的各种结论,从而使我们对于自然语言的各种复杂现象获得更为深刻全面的认识。
本文首先简要介绍国外语料库的发展情况,然后,比较详细地介绍中国语料库的发展情况和主要的成绩,使我们对于语料库研究得到一个鸟瞰式的认识。
语料库研究与综述

语料库研究与综述语料库研究与应⽤综述⼀概述语料库通常指为语⾔研究收集的、⽤电⼦形式保存的语⾔材料,由⾃然出现的书⾯语或⼝语的样本汇集⽽成,⽤来代表特定的语⾔或语⾔变体。
经过科学选材和标注、具有适当规模的语料库能够反映和记录语⾔的实际使⽤情况。
⼈们通过语料库观察和把握语⾔事实,分析和研究语⾔系统的规律。
语料库已经成为语⾔学理论研究、应⽤研究和语⾔⼯程不可缺少的基础资源。
语料库有多种类型,确定类型的主要依据是它的研究⽬的和⽤途,这⼀点往往能够体现在语料采集的原则和⽅式上。
有⼈曾经把语料库分成四种类型:(1)异质的(Heterogeneous):没有特定的语料收集原则,⼴泛收集并原样存储各种语料;(2)同质的(Homogeneous):只收集同⼀类内容的语料;(3)系统的(Systematic):根据预先确定的原则和⽐例收集语料,使语料具有平衡性和系统性,能够代表某⼀范围内的语⾔事实;(4)专⽤的(Specialized):只收集⽤于某⼀特定⽤途的语料。
除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。
按照语料的采集单位,语料库⼜可以分为语篇的、语句的、短语的。
双语和多语语料库按照语料的组织形式,还可以分为平⾏(对齐)语料库和⽐较语料库,前者的语料构成译⽂关系,多⽤于机器翻译、双语词典编撰等应⽤领域,后者将表述同样内容的不同语⾔⽂本收集到⼀起,多⽤于语⾔对⽐研究。
语料库建设中涉及的主要问题包括:(1)设计和规划:主要考虑语料库的⽤途、类型、规模、实现⼿段、质量保证、可扩展性等。
(2)语料的采集:主要考虑语料获取、数据格式、字符编码、语料分类、⽂本描述,以及各类语料的⽐例以保持平衡性等。
(3)语料的加⼯:包括标注项⽬(词语单位、词性、句法、语义、语体、篇章结构等)标记集、标注规范和加⼯⽅式。
(4)语料管理系统的建设:包括数据维护(语料录⼊、校对、存储、修改、删除及语料描述信息项⽬管理)、语料⾃动加⼯(分词、标注、⽂本分割、合并、标记处理等)、⽤户功能(查询、检索、统计、打印等)。
语料库翻译研究的历史与进展兼评《语料库翻译研究理论 发现和应用》

其次,明确化也是翻译中常见的一种策略。在Maeve的翻译作品中,这种策 略也被广泛应用。例如,在一些情况下,原文中的隐含意义或暗示在译文中被明 确表达出来,使得读者更容易理解原文的含义。这种明确化的翻译策略在一定程 度上增加了译文的冗余性,但同时也提高了译文的可读性。
此外,规范化也是翻译中常见的一种现象。在Maeve的翻译作品中,我们也 发现了这种现象。例如,在某些情况下,原文中的语言习惯或修辞手法被规范化, 取而代之的是更符合目标语言习惯的表达方式。这种规范化的翻译策略在一定程 度上削弱了原文的个性和风格,但同时也使得译文更加地道、自然。
在撰写正文部分,胡开宝教授运用平实准确的语言,逐步引入语料库翻译学 的各个概念和研究方法。他不仅介绍了语料库翻译学的基本概念、发展历程和理 论基础,还详细阐述了语料库翻译学的研究方法、翻译语料库的建立与应用等核 心内容。与此他还从实践角度出发,通过具体的案例分析,使读者更好地理解和 掌握语料库翻译学在实践中的应用。
4、跨文化交流:通过对不同文化背景下的翻译语料库进行分析,可以了解 不同文化之间的差异和相似之处,有助于促进跨文化交流和理解。
参考内容
随着语言学和翻译学的不断发展,语料库翻译研究逐渐成为一种重要的研究 方法。这种研究方法以真实的语言使用情况为基础,通过大量的语料分析,揭示 翻译的普遍特征和规律。其中,Maeve是一个备受的人物,她的作品既具有独特 的风格,又具有深厚的文化内涵,为翻译研究提供了丰富的素材。
最后,整齐化和集中化也是翻译中常见的一种策略。在Maeve的翻译作品中, 我们也发现了这种现象。例如,在某些情况下,原文中的信息结构或语言表达方 式被整齐化和集中化,使得译文的节奏感和韵律感更加鲜明。这种整齐化和集中 化的翻译策略在一定程度上增加了译文的难度,但同时也提高了译文的文学性和 艺术性。
我国基于学习者语料库的研究成果-回顾与总结

我国基于学习者语料库的研究成果:回顾与总结回顾了从20世纪90年代起我国基于学习者语料库开展的研究成果,根据研究方向分别从计算机辅助失误分析、中介语与目的语对比、中介语与中介语和/或目的语对比,中介语纵向对比四个角度总结了研究成果,指出在这四个方向中纵向研究还比较薄弱。
结合成果分析,还建议了基于学习者语料库研究的未来发展趋势。
标签:总结;学习者语料库;计算机辅助失误分析;中介语对比分析;纵向研究背景我国的语料库语言学研究始于20世纪80年代中期,国内的第一个语料库《上海交大科技英语语料库》是由杨惠中主持建成的,为大学英语教学大纲的制定和词表统计提供了数据依据。
90年代以后,我国语料库研究走上了以建立和研究学习者语料库为主的道路,2000年之后国内相继建成多个学习者语料库,如桂诗春编制的国际英语学习者语料库中国子语料库,中国学习者英语语料库(CLEC,桂诗春、杨惠中,2003)、中国大学学习者英语口语语料库(COLSEC)(杨惠中、卫乃兴,2005)、中国专业英语学习者口语语料库(SWECCL)(文秋芳等,2005,2008)、SECOPETS语料库(肖德法、向平,2008)等。
我国学者在建设学习者语料库的同时开展了大量的基于语料库的研究,取得了丰硕的成果。
为了归纳国内基于学习者语料库的研究成就,本文从“中国知网”、“维普”和“万方”等数据库检索了从20世纪90年代到目前的所有发表的关于语料库的文章,一共确定了130篇文章,作为本综述研究的基础。
一、学习者语料库的研究方向学习者语料库指的是“一定规模的、可机读的,按照对所调查的群体具有最大程度代表性的方式抽样获得” 的语料(McEnery & Wilson,2001:32)。
Granger (2002:11-12)将学习者语料库的研究分为两个方向:中介语对比分析(contrastive interlanguage analysis)和计算机辅助失误分析(compute-aided error analysis)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
20 00年以后 , 国内基 于语料库 的研究 逐年增加 , 20 到 02
年各类期刊共发表论文 2 篇。从研究的角度来看, 8 一个明
作者简 介 : 郑玉荣 (95 , , 16 一)女 黑龙江哈尔滨人 , 教授 , 从事应用语言学研究 ; (92 , , 江哈尔滨人 , 师 , 栾岚 18 一)女 黑龙 讲 从事应用语言学研究 ; 王丽丽(90 , , 18 一)女 黑龙江巴彦人, 讲师, 从事应用语言学研究。
定 了 3 7篇文章 , 0 作为本文综述 性研究的基础 。
一
1 篇文章 中, 分为介绍或概述 性质 的文章 , 3 大部 如王建新 的
3篇 文章 分别 介绍 了语 料 库语 言学 发展史 上 的几 个重
要阶段和我 国在语料库语 言学研究 方面的部分进 展 , 国国 英
家语料库 ( ri ao a C ru ) Bis N t nl op s 的设 计与 内容。冯跃 进 、 th i 汪腊萍介绍了英特网上 可免 费使 用 的科 比德 在线演示 版及 相 关应用软 件系统 , 呼吁 “ 广大英 语教育者 和研究 人员应及 早 熟悉 如何 开发网上语料库资源并予 以充分使用 ” 。 这 一阶段 也有 几例 实证 性 研究 , 如何 安平 采用 O P C ( xodC n o ac rga 电脑软件系统对 大型英语 口语 O fr o cr nePor d m)
和 鬲
/ Y
我 国的语料库语言学研究始 于 2 纪 8 0世 0年代 中期 , 杨 惠 中主持建成的 国内第一个语料 库《 上海交大科技英语语 料
. .
▲
。
/ \
3
ቤተ መጻሕፍቲ ባይዱ
\ ,
3 /
一
库》 为大学英语 教 学大 纲 的制定 和 词表 统计 提供 了数 据依 据, 为我 国外语教学作 出了积极 的贡献 … 。9 0年代后 , 国 我 语料库研究走上了 以建立和研究学 习者语 料库为主 的道路 , 如桂诗春编制的国际英语学 习者语料库 中国子语料库 、 中国 学 习者英语语 料库 等 。 为了全 面地了解 国 内基 于语 料库 的研 究成就 及发 展动
—, , _
一
. . . . . . .
国内基 于语料库研究发表时间分布示意图
英语学 习者语 料库 与英 语 教学 》 , 2 0 J 在 00年 之前发 表 的
态, 本文从中 国知 网、 和万方等数据库 检索 了从 2 世纪 维普 0 9 年代到 目 O 前所 有公 开发 表 的关 于语 料库 的文 章 , 一共 确
学者、 教师的兴趣。本文依据成果的数量、 研究领域的变化
及 研究 的深度将 国内基于语料库 的研究 分为三个 阶段 : 步 起 阶段 ( O世 纪 9 2 0年 代_2 0 02年 ) 发 展 阶 段 ( 0 3 2 0 ; 2 0- 04 年 ) 成熟 阶段 (0 5 2 1 ) ; 2 0 - 0 0年 。
一
l3— 3
显的特点是探讨语料库语 言学对 教学的作 用的文章 比较 多。 朱乐红 从 比较宏观 的角度探讨 了语 料库对 外语 教学 的理 念、 方法和 内容 的影响和改变 , 杜金榜 ¨。 。研究学生英语 写作 错误分析和索引在教学 中的应 用。另一 个显著 特点是 实证 性 的研究增多 , 大致分 两类 。一 类是 跨库语 言研究 , 如孙建 东 使 用 来 自 S C ( acs rIM pknE g s o. E Ln at /B S oe nlh C r e i
语料库 L C中 的成 功 和非 成 功 的插 话 进行 语 音 、 法、 L 语 词
、
国内基于语料库研 究的发 表时间分布
下 图中的统计数据表 明国内基 于语料库的研究 , 基本 呈 稳步上升趋 势 , 中 2 0 其 0 9年呈 现出一个 高峰期 , 文章数 量达 到6 0篇 。递增的发展趋势说 明基 于语 料库 的研究 逐渐 引起
和相 关技 术 的 热 衷 则 标 志 着 我 国语 料 库 研 究 走 向 成 熟 。
关键 词 : 语料库 ; 发展 历程 ; 熟 成 中图分类 号 :2 0 7 G 5 .4 文献标志码 : A 文章 编号 :0 1— 86 2 1 )6— 13— 3 10 7 3 (0 1 0 0 3 0
我 国 语 料 库 研 究 发 展 历 程 分 析
郑 玉荣 , 栾 岚 , 丽 丽 王
( 哈尔滨 工程 大学 外语 系 , 哈尔滨 10 0 ) 50 1
摘
要: 2 纪8 从 0世 0年代到 最近 , 国学者在语料库之路上的探 索和所取得 的成绩帮 助我们进 一步理清 了发 我
展 的思路 。根 据学者们所发表研 究成 果的数 量及 特 点来看 , 国语料 库研 究可 以划分 为起 步 、 我 发展 和成 熟三个阶 段 。在起 步阶段 的研 究主要 是介绍 引进 国外语料库和理论 , 阶段主要 以学习者语料库 实证研 究为主, 发展 而对建库
汇 、 篇和语用等多层 面的分 析 , 讨英语 会话 中形成插话 语 探 的语境特征 以及 实施插话 的语言机制和策略 , 这是 国内最早 的基于语料库 的实证研究 , 为后来 的实证研究提供 了研究 范
式。
二、 国内语料库研 究起步 阶段
根据本文检索到 的文献 , 内最早发表 的关于语料 库语 国 言学的是 19 年介绍 国际英语 学习 者语 料库 的文章 《 97 国际
21 0 1年 6月
黑龙江教育学院学报
Junl f in jn o eeo d ct n ora o l ga gC l g f ua o Heo i l E i
J n 2 1 u .0 1
V0 . O N . 13 o 6
第3 0卷第 6期
di1 .99 ji n 10 7 3 .0 10 .5 o:03 6 /. s.0 1— 8 62 1 .60 6 s