语料库语言学综述

合集下载

语料库研究方法在话语研究领域的应用综述

语料库研究方法在话语研究领域的应用综述

2252020年42期总第534期ENGLISH ON CAMPUS语料库研究方法在话语研究领域的应用综述文/孟 莹话语研究提供一些参考意见。

一、语料库与话语研究的核心特征许家金在其著作《语料库与话语研究》中指出,语料库研究的核心特征可概括为“用”“量”“器”“聚”四个方面。

“用” 即尊重语言事实和关注用法。

语料库研究以对语言使用的充分描写为根本。

“量”主要是指需要通过“量化”的分析方法进行语言学研究。

“量”在统计上,主要通过频次得以体现。

根据语料库研究的基本思想,语言属于概率性现象。

Halliday认为概率性是对语言实例的模仿,也是一种理论构念,并且这种构念体现为一种“聚合”或是“共现”关系,我们称之为“聚”。

不论是语言成分之间的关联,还是语言成分与社会学变量之间的共选关系,最终都要通过概率统计以及语料库分析工具来揭示,即“器”。

在这四项特征中,“用”“量”“器”涉及语料采集、语言特征的量化统计分析及语料库工具的运用,它们都与研究方法紧密相关,而“聚”则体现语言学理论的最终归宿。

话语研究现已成为一个独立的语言学分支学科,批判性话语分析学者倡导使用“话语研究”(discourse study)这一概念来代替“话语分析”(discourse analysis)。

The Handbook of引言语料库研究与话语研究之间存在天然的亲和力和兼容性。

不难发现很多语料库学者同时也是话语研究专家,例如Paul Baker、Douglas Biber、Michael Hoey等。

究其根本,语料库与话语研究都关注自然语言,并且都将语义研究作为重要目标。

语料库和话语研究的融合,一方面能为揭示话语意义提供丰富的语言例证和强大的分析方法;另一方面,语料库中的词汇共现、语言特征共现等创新思路为话语研究增添了理论维度。

另外,在语料库领域的代表性期刊International Journal of Corpus Linguistics 和Corpora 上总能见到较多的话语研究论文,而在话语语用研究期刊Discourse Studies 和Journal of Pragmatics 上,也有相当比重的研究采用的是语料库方法。

语料库语言学

语料库语言学

语料库语言学语料库语言学是20世纪80年代才崭露头角的一门交叉学科,它研究自然语言文本的采集、存储、加工和统计分析,目的是凭借大规模语料库提供的客观翔实的语言证据来从事语言学研究和指导自然语言信息处理系统的开发。

语料库顾名思义就是放语言材料的仓库。

现在人们谈起语料库,不言而喻是指存放在计算机里的原始文本或经过加工后带有语言学信息标注的语料文本。

现在世界上已经有了不少规模较大的语料库,有些是国家级的,有些由大学和词典出版商联合建设。

另外,由于个人微机的迅猛发展和存贮数据的硬盘造价持续下降,研究者个人也开始建立适合于自己研究的小型语料库。

语料库语言学(英文corpuslinguistics)这个术语有两层主要含义。

一是利用语料库对语言的某个方面进行研究,即“语料库语言学”不是一个新学科的名称,而仅仅反映了一个新的研究手段。

二是依据语料库所反映出来的语言事实对现行语言学理论进行批判,提出新的观点或理论。

只有在这个意义上“语料库语言学”才是一个新学科的名称。

从现有文献来看,属于后一类的研究还是极个别的。

所以,严格地说,现在不能把语料库语言学跟语言学的分支,如社会语言学、心理语言学、语用学等相提并论。

近年来,随着我国经济的发展,科研经费的增加,汉语语料库的建设得到了开展。

1999年我院把建立汉语语料库列为院重大课题。

目前语言所正在构建三个大规模的语料库:现场即席话语语料库,主要方言口语库和现代汉语文本语料库。

在世界范围内,我国的语料库建设在规模上还赶不上欧洲的一些发达国家,特别是英国。

然而,在语料库语言学的研究上,以及语料库的实际运用上,我国已经进入世界前沿的行列。

20世纪语言研究的总特点可以用四个字概括———高度抽象。

最近几十年来,语言研究的高度抽象倾向已经失去主导地位。

这主要缘于两个方面的因素:一是计算机技术,特别是基于计算机处理的多媒体技术的飞速发展;二是社会语言学、语用学、会话分析、人类语言学、计算语言学、人机对话研究、语音识别与合成等研究取得令人瞩目的成就。

语料库语言学

语料库语言学

别的语言学科基本上都是研究有关领域与语言之间的关系,例如,社会语言学研究的是社会与语言的关系,心理语言学研究的是人的心理活动与语言之间的关系。

而语料库语言学则不同,它只是以语料库为手段来研究语言。

语料库语言学(Corpus Linguistics)在一些人看来,语料库语言学(corpus linguistics)是一个独立的学科,它有自己独到的理论体系和操作方法。

由于语料库语言学立足于大量真实的语言数据,对语料库所做的系统而穷尽的观察和概括所得到的结论对语言理论建设具有无可比拟的创新意义。

而在另外一些研究者看来,语料库语言学并非语言学的又一个分支学科,而是一种研究方法,这种方法基于大量的真实语言,可以用来回答通过其他途径很难回答的问题,从而极大地丰富已有的研究方法。

语料库语言学以大量精心采集而来的真实文本(authentic texts)为研究素材,主要通过概率统计的方法得出结论,因此语料库语言学从本质上讲是实证性的(empirical)。

语料语言学受行为主义的影响下,从60年代开始发展,迄今已经有近五十年的历史。

语料库在发展的初期,只进行词的一般分析,如词频统计等,后来增加了词的语法属性标注(如,词性等),直到现在,人们越来越开始重视对语料库作不同层次的标注,如:语音、构词、句法、语义以及语用等层次的标注。

语料语言学在其发展的初期并没有引起太大的共鸣,但是现代语料语言学已经得到越来越多人的承认,其应用也越来越广泛,从语言分析、语言教学、词典编撰到人工智能等领域都开始应用语料库。

语料语言学经历过这几十年的发展,不论在理论上,还是在技术上,都已趋于成熟。

在语言教学领域中的应用也开始引起注意。

我国对语料语言学研究取得了一定的成果,如:桂诗春教授主持的国家“九五”社科规划项目“中国英语学习者语料库”收集了从中学到大学的中国英语学习者的作文语料,共100多万词,并标注了学生在作文中常见的62类错误,错误类型包括了拼写错误、词语搭配错误、词语用法错误以及语法结构错误等,这对于指导中国学生学习英语起到积极的作用。

语料库语言学研究综述

语料库语言学研究综述

在此后 的20年 ,语料 研究 方 法几乎 名誉 扫地 而 (Key—word in context)的 索 引程 序来 分 析处 理
事实上 。以 自然 语料 为基 础 的语 言研 究并 未完 语料的。从语料库中提取 的例句可以很容易地
全终止 。1959年 ,R.Quirk着手 建立 了 旨在 收集 按不同的目的进行更有意义的组合 ,以便于进
一 、 语 料 库 语 言 学 的发 展 历 史
Chomsky转 换 生 成 语 法 的兴 衰 时 间为 参 照 。 Chomsky之前 的语 言 研 究 ,如 l9世 纪 和 2O世 纪 早 期 的儿童 语言 学 的研究 主要 是 以父母 详 细记 录孩子 的话语发展为基础 的 这些原始语料 ,时 至今 日仍是许多学者 的研究内容的主要来源之 一 。 另 外还 有美 国早 期强 调 语料 获取 的 自然性 和语料 分析 的客 观性的结构 主义语言学家 F. Boas和E.Sapir等人 ,都 曾使用过 以语料库为基 础 的研 究方 法
年 。以N.Francis和 H.Kucera为 首 的语 言 学 家 如 可发 现 interested与介 词 in的搭 配 中 ,interest—
和计 算机 专 家建 成 了 当今 最 早 的 机读 语 料 ed indoing something是 最 常 用 的 表 达 方 式 。此
大量 的风格 题材 各异 的语 料作 为对 英语 口语 和 行 分 析 。例 如 :通 过对 按关 键词 右边 第一 个单 词
书面语进行系统描写的基础的《英语用法》语库 的字母 顺序 排列 的所 有例 句进 行分 类 。我们 可
(Survey of English Usage,简 称 SEU)。 [ ]】961 以查 找 和发 现 以关键 词 开 始 的所 有 词 组 搭 配 ,

语料库语言学简介

语料库语言学简介

语料库语言学简介语料库语言学是指利用语料库(一种大规模的文本数据集合)进行语言学研究的方法和理论。

通过构建、标注和分析语料库,可以揭示语言在不同层面上的特征和规律,为自然语言处理、机器翻译等领域提供基础和支持。

语料库语言学的研究内容包括:语言的音系、形态、句法以及语义等方面;语言的变异、演化和变化;语言使用者的使用习惯、语言背景和社会属性等。

语料库语言学的主要方法包括:语料库的构建和管理、语料库的标注和注释、语料库的查询和分析、语料库的应用和评估等。

语料库语言学的应用领域包括:机器翻译、信息检索、语音识别、文本分类、自然语言生成等。

此外,语料库语言学还被广泛应用于各种语言教学、语言规划和语言政策制定等领域。

总的来说,语料库语言学已经成为现代语言学和自然语言处理领域不可或缺的一部分,对于研究和应用语言都有着重要的意义。

一、语料库语言学的意义(一)定义和概述语料库语言学是指利用计算机对大规模语料库进行统计学分析、计算和比较,从而研究语言规律和现象的语言学方法。

语料库是指收集、整理、储存在计算机中的自然语言文本,包括书面文本和口语文本。

语料库语言学旨在通过对语言数据的分析,揭示语言的内在规律和现象,为语言学、语言教学、翻译等领域提供科学依据。

(二)语料库语言学的历史语料库语言学起源于20世纪50年代的美国,当时ChomSky等人提出了生成文法理论,但是这个理论无法解释自然语言的很多现象。

50年代后期,美国普林斯顿大学的SinClair教授提出了使用实际语言数据进行语言研究的观点,并开始编制语料库,由此开启了语料库语言学的先河。

之后,随着计算机技术的发展,语料库语言学得以快速发展,成为现代语言学研究和应用的重要领域。

二、语料库语言学的重要性(一)提供真实语言数据语料库收集大量的自然语言文本,包括书面语和口语,具有代表性和真实性。

这些数据包含了语言使用中的各种现象和规律,是研究语言的最基本素材。

(二)揭示语言规律和现象语料库语言学可以对语言数据进行分析、计算和比较,从而揭示语言的内在规律和现象。

语料库语言学

语料库语言学

我们认为较为准确全面定义:
语料库(corpus 或corpora [复数]) :是指按 照一定的语言学原则, 运用随机抽样方,收 集自然出现的连续语言运用文本或话语片 段而建成的具有一定容量的大型电子文本 库。
语料库语言学:在文本语料的基础上进行 语言研究的一门学科。
语料库语言学的研究对象
语料库语言学是以语料库中收集储存的真实语言材 料做为唯一的研究对象,以语言现象出现的概率为 依据。因此,语料库语言学为语言学研究提供了一 种全新的研究思路。一个合格的语料库必须以电子 计算机为载体来存放语言材料,这些存放在电子计 算机中的语言材料是在语言的实际使用中真实出现 过的。因此,它们可以如实地反映语言现象,克服 语言学家观察语言现象时的主观性。
(7)语料库语言学与语用学和语篇分析。语料库 常常是把话语从上下文或语篇中分离出来,因此
其所收语料在很大程度上脱离了上下文或社会背
景,而语用学和语篇分析对于场景和上下文又具
有一定的依赖性。故以语料库为基础的语用或语
篇研究相对较少,但语料库为这些领域所作的贡
献是不可否认的。语用学及相关领域的研究通常 是以会话为基础的,如伦敦—伦特语料库 (London - Lund Corpus) 和柯林斯出版公司与伯 明翰大学联合开发的“英语库”( The Bank of Eng2lish ,简称BOE) ,前者收集的是日常会话, 后者的口语部分包括日常会话会议、讨论、采访、 电台广播等。
3、语料库语言学与辞典编纂
语料库不仅能够提供更完备和详尽的关于词义和 词汇搭配的信息,而且利用语料库中的频率统计 可以直观的反映词汇用法的使用情况。如英国考 林斯出版社和伯明翰大学编辑出版的《国际通用 词典》在很大程度上打破了词典编撰的传统,从 词条的选定及解释、用法到释义的先后顺序等都 依据了由2亿词次的COBUILD语料库中统计出的 频率。由于语料库的素材来自实际使用的语言, 利用其素材作为词典的例句更具真实性和准确性。 利用语料库编撰词典不仅能反映语言的真实变化, 而且编撰周期也会大大缩短。

语料库语言学简介

语料库语言学简介

语料库语言学简介薛立艳13502005 没接触这门学科的时候一直在怀疑它到底是什么东西,好像是一门很高深的学科。

刚学了两次课,好像有点大概了解语料库是什么了。

在此书上有的内容比如语料库的分类、研究方法等我就不一一介绍了,主要说说我自己的理解。

我总觉得它并不是一种理论或是新的研究领域,只是一种新的研究语言的方法,是在计算机的辅助下,从茫茫语料库中筛选出自己需要的语言知识。

这是语言学获取语言知识方式的重大变革。

语料库的英文为corpus,该词来源于拉丁文,意思是body,有全集、集合的意思,因此在通俗意义上,语料库即指收集语料的仓库。

不同的语言学家对语料库的定义的表述方式都有所不同,但我们可以从中总结出两层主要含义:一是利用语料库对语言的某个方面进行研究,即语料库语言学主要是指一种新的研究手段。

二是依据语料库所反映出来的语言事实对现行语言学理论进行批判,提出新的观点或理论。

语料库语言学不仅可以用于研究语言系统的各个方面,而且可以应用于语言学之外的其他领域。

它不属于语言自身某个侧面的研究,而是一种以语料为基础的研究方法。

可是我比较怀疑的是收纳到语料库中的内容。

库中的材料要求样本必须来源于真实的语言材料,包括各种环境下规范或不规范的语言应用。

那么这些材料是否会有地区差异性等问题呢?还有要是真想研究语言的某一方面,那么样本多少才够用呢?语言的使用地区环境差异性太大,研究起来真的具有代表性么。

但好像正是由于这些有限的语言材料体现了无限的真实语言生活的特征,这样才能保证基于语料库得出的结论具有可靠性和普遍性。

这还得要求语料库样本的代表性,使得有限的样本预料尽可能多地反映无限的真实语言现象的特征。

语料库语言学为语言研究提供了一种全新的研究思路,以大量真实的语言使用实例为研究对象,借助于统计学手段和方法得出客观可靠的语言数据,从而寻找语言使用的规律,并对先前的语言理论进行验证或修改。

它按照一定的语言学原则,运用随机抽样的方法,收集自然出现的连续的语言运用文本或语言片段而建成的具有一定容量的大型电子文库。

近五年国内语料库语言学研究综述

近五年国内语料库语言学研究综述

近五年国内语料库语言学研究综述摘要:文章从语料库语言学研究的领域,通过对2006年至2010年发表在国内11种外语类核心期刊上的语料库语言学论文进行统计与分析,发现这些研究在研究领域方面取得了很大的进步,涉及到语言学的各个领域,但各个领域之间发展不平衡,同时也存在一些问题。

关键词:语料库;语料库语言学研究;研究领域现代语料库语言学( modern corpus linguistics)是20世纪中后期兴起的一门语言研究科学。

语料库是指按一定的语言学原则,运用随机抽样的方法,收集自然出现的连续的语言运用文本或话语片段而建成的具有一定容量的大型电子文库。

中国第一个语料库JDEST( Jiao Tong University Corpusfor EST)于1986年在上海交通大学建成至今20多年来,国内语料库语言学的发展取得了丰硕的成果。

随着语料库语言学在中国的发展,越来越多的学者开始利用语料库来做实证研究。

近几年来,语料库语言学已经成为实证研究的不可缺少的手段,成为了语言研究一个新的热点。

笔者通过检索主题与关键词通过对最近5年运用语料库做实证研究的文章进行系统的调查与总结,以其为今后语料库语言学的发展提供一点建议与参考。

一研究样本由于近几年运用语料库来做研究已经成为语言学研究的热点,笔者通过检索主题与关键词,将文献定在2006年至2010年这5年期间,研究样本来源为发表在11种外语类核心期刊的66篇文章。

这是因为这11种外语类核心期刊有一定的权威性,所刊登的文章质量较高,能在一定程度上代表研究的趋势。

表1为最近5年发表在11种外语类核心期刊上的基于语料库研究的文章。

二结果与分析首先看下这66篇文章在近5年期间的分布情况:如下面柱形图所示。

从图中可以清楚的看出,在这5年期间基于语料库研究的文章大体呈递增的趋势,特别是在2010年,研究数量有较显著的增长。

下面从研究领域对这5年来的文章进行关于语料库的研究领域,国外学者都提出过不同的分类方法。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

语料库语言学综述
作者:刘美良
作者单位:柳州铁道职业技术学院,广西,柳州,545001
刊名:
科技信息
英文刊名:SCIENCE & TECHNOLOGY INFORMATION
年,卷(期):2010,""(21)
被引用次数:0次
1.Chomsky,N Syntactic Structure 1957
2.Sinclair.John Corpus.Concordance Collocation
3.Susan Hunstom Corpora in Applied Linguistics 2006
4.Aijmer,K.Altenberg,B English Corpus Linguistics:Studies in Honour of Jan Svartvik 1991
5.杨惠中语料库语言学导论 2002
6.何安平语料库在外语教育中的应用--理论与实践 2004
7.何安平谈语料岸研究 1997(5)
8.丁信善语料库语言学的发展及研究现状 1998(1)
9.李文中2003上海语科库语言学国际会议述评 2004(1)
10.粱旭红语料库语言学研究综述 2001(1)
11.粱燕近十年我国语料库实证研究综述 2004(6)
12.刘满堂近40年英语语料库及语料库语言学研究的回顾与出展望 2004(1)
13.潘永本梁语料库语言学的目的和方法 2001(3)
14.王建新语料库语言学发展史上的几个重要阶段 1998(4)
15.许家金语料库语言学的理论解析 2003(6)
16.卫乃兴专业性搭配初探--语料库语言学方法 2001(4)
17.卫乃兴语料库语言学的弗斯学说基础 2008(3)
18.甄风超.张霞语料库语言学发展趋势瞻望--2003语料库语言学国际会议综述 2004(4)
19.吴菲国内外英语语料库的建设和发展述评 2007(6)
1.期刊论文王虹.岳俊发.Wang Hong.Yue Jun Fa书面言语鉴定技术的发展历程-中国公共安全(学术版)2005,""(3)
书面言语鉴定技术产生于20世纪80年代中期.随着电子打印技术的普及,涉案的不留笔迹的打印文件显著增加,书面言语鉴定技术倍受关注.近年来,运用统计语言学、语料库语言学和计算机词频检索与统计等新技术获得了新的研究成果并应用于鉴定实践.书面言语鉴定技术已经发展成为文件检验学的一个新的分支,必将在司法鉴定领域发挥更大的功效.
2.期刊论文孙丰果话语分析整合研究-聊城大学学报(社会科学版)2010,""(2)
近60年来.话语分析经历了从无到有,从小到大的发展历程.话语分析要取得长足发展,需要有一个明确的概念,需要人们对其以前的发展情况进行总结和评述.对话语分析研究的评述不妨从系统功能语言学、认知语言学、语料库语言学等多角度进行.今后,话语分析研究可以从话语分析的哲学转向、心理学转向及整合批评话语分析和积极话语分析等方面展开.
3.期刊论文杨连瑞.Yang Lianrui第二语言习得研究的学科定位和进展-外语与外语教学2005,""(5)
第二语言习得是一种复杂的人文现象.作为一门新兴的交叉学科,第二语言习得研究在发展中应重视其学科性质的科学定位和学科体系的科学建构.本文在对第二语言习得研究的学科定位、学科性质和研究对象进行讨论后,回顾和评述了国外第二语言习得研究从对比分析、错误分析、中介语理论、普遍语法研究、语言类型学研究到语料库语言学研究的发展历程和研究问题,分析了目前我国开展这一学科研究的现状,并结合我国外语教学实际对目前开展这一学科的研究提出建设性意见.
4.学位论文魏琳中国英译旅游宣传材料的语料库分析2006
旅游业在全球范围内的迅猛发展使不同文化背景的人们进行文化交流变成了一种需要。

在我国,旅游英语特别是网上的旅游英译材料是外国游客接触和了解我国的媒介。

因此,旅游材料的翻译质量举足轻重。

而目前旅游文本的翻译研究在中国还是一个比较新的话题,近年来主要是结合最新语言学
研究的成果来对旅游资料进行跨文化对比分析或题材分析,但大多数只是翻译实践的总结,缺乏系统理论的指导。

本论文试图对互联网上的中国旅游翻译文本和英美国家的旅游文本进行对比,找出它们的不同,以探讨中国旅游材料英语翻译的有效途径,促进中外交流。

为了使研究更科学,更系统化,作者采用了语料库语言学的方法。

语料库为研究者提供了大量真实的语言数据库从而使得语言分析研究能够基于自然发生的语言结构和形式而不是靠自觉感知的语言现象进行。

语料库语言学不是语言学的分支,而是一种崭新的语言学研究方法。

研究者使用电脑对大量文本进行分析处理,从而对语言和语言的使用得出结论,这单靠对某些文本的分析和某些语言学者的直觉是无法做到的。

论文共分六章。

第一章:导言,介绍研究的背景、目前国内旅游翻译文本存在的问题,研究目的和研究方法。

第二章:对旅游材料作简要介绍,包括旅游材料的定义、不同的分类方法、主要功能以及语言特点,并结合具体的旅游材料进行了论述。

第三章:回顾了国内外旅游材料翻译的发展历程。

其中国内的学者主要从文化、功能、美学、翻译实践的角度进行了研究和总结。

作者对他们的探索做出了客观的评价,并指出了存在的不足。

第四章:系统介绍了语料库语言学的历史渊源和发展沿革,语料库语言学的特点及广泛应用。

此外,作者还简要说明了语料库研究中涉及到的技术性问题,如语料库的建立,计算机软件,统计工具等,为下一章的具体分析奠定了基础。

第五章:对中西旅游材料的语料库分析。

首先,语料库的建立,包括抽样的标准、样本的数量和比例、样本的有效性。

然后,利用awk软件对两个语料库的几种文本数据,如词汇量/总词数比、句长进行了计算和分析。

通过比较,作者发现总体上中国旅游翻译文本的词汇量/总词数比(Type-token ratio)和英美国家的旅游材料相差不大,甚至在某一类文本上还高于后者。

但是个案分析显示中国旅游材料中专有名词使用过多,在一定程度上造成了阅读障碍,影响了文化的交流。

在平均句长方面,中国旅游材料略高于英美旅游文本,但是句型明显缺少变化,给人一种呆板的印象。

此外,作为对语料库研究的补充,作者还就中西旅游材料的风格差异进行了探讨。

六章:根据前一章的分析结果,针对词汇量/总词数比、句长和风格三个方面作者提出了汉语旅游文本翻译的建议。

本文链接:/Periodical_kjxx201021210.aspx
授权使用:洛阳工学院(河南科技大学)(wflskd),授权号:293c4b91-c149-42c0-bf86-9e540103f7e1
下载时间:2010年12月22日。

相关文档
最新文档