语料库语言学的发展及研究现状

语料库语言学的发展及研究现状
语料库语言学的发展及研究现状

当代语言学(试刊)1998年第1期4-12页,北京

语料库语言学的发展及研究现状

丁信善

1.0引言

语料库语言学已经成为语言研究的主流。基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。 这是J.Thomas等人1996年为祝贺语料库语言学的主要奠基人和倡导者G.Leech六十诞辰而出的语料库语言学研究论集的开场白。近年来,对语料库语言学类似的评说频频见于导论和方法论的书及教科书中,它不仅仅是语料库语言学家们的自誉,而正在成为整个语言学界的共识。

2.0语料库语言学的定义

关于语料库语言学的定义,现引述三例:

a. 根据篇章材料对语言的研究称为语料库语言学。 (K.Aijmer&B.Aitenberg,1991,p.1)

b. 基于现实生活中语言运用的实例进行的语言研究称为语料库语言学。 (T.M c Enery&A.

Wilson,1996,p.1)

c. 以语料为语言描写的起点或以语料为验证有关语言的假说的方法称为语料库语言学。 (D.

Crystal,1991,p.86)

由上述几个定义可见,语料库语言学不是研究语言自身某个方面,而是一种以语料库为基础的语言研究方法。它实际上包括两个方面:一是对自然语料进行标注,二是对已经标注的语料的研究和利用的方法。从方法论的角度,它不仅可以用于研究语言系统的各个层面,而且可以应用于语言学之外的其他领域。

3.0语料库语言学的历史发展

语料库语言学作为一种研究语言的方法,可以追溯到上个世纪,甚至更为久远。现在一般以乔姆斯基转换生成语法的兴衰时间为参照,将其发展大致分为以下几个阶段:

3.1语料库语言学的早期发展

早期的语料库语言学指的是本世纪五十年代中期以前,即乔姆斯基提出转换生成语法理论之前的所有基于语言材料的语言研究。此类研究主要集中在以下几个方面:

(1)语言习得是应用语料研究方法较早且较普遍的领域。19世纪70年代在欧洲兴起了儿童语言习得研究的第一个热潮,当时的许多研究就是基于父母详细记载其子女话语发展的大量日记的。据悉,这些日记作为原始材料,不仅是当时W.Preyer和W.Stern等人的理论假说的依据,而且时至今日仍是许多学者的研究语料之一。自本世纪30年代以来,语言学家和心理语言学家提出了众多关于儿童在不同年龄段的语言发展模式。这些模式大都是建立在对儿童自然话语大量材料的研究分析上的。

(2)利用自然语料开展音系研究,在西方当首推美国早期的结构主义语言学家,如F.Boas和

E.Sapir等人。他们注重 野外工作 ,强调语料获取的自然性和语料分析的客观性。这些都为后来的语料语言学所继承和发展。

本文承蒙哥本哈根大学翻译与词典学研究中心主任C.Dollerup博士提供有关欧洲语料库网络的材料,特此致谢。

(3)方言学从其产生以来就与语料结下不解之缘。在西方,方言学脱胎于19世纪的历史比较语言学,最初兴趣主要是研究运用直接法所获取的有关单音不同分布的事实来绘制方言地图。 方言研究者手持笔记本,后来是手提录音机,记下或录下他所遇到的一切方言材料。此种取样法至今仍为某些业余研究者所用,它对于研究方言词汇的分布有一定价值。 (Francis,1983:49-50)在我国,运用语料的方法远至周秦。据应劭?风俗通义序# 周、秦常以岁八月遣轩之使,求异代方言 。我国汉语方言学第一部著作?方言#就是这种方法的产物。据载,扬雄非常喜爱方言,他利用考廉(略等于后代的举人)和士兵们集中在首都的方便,普遍地进行走访,不断积累材料,坚持编纂整理,经过27年的艰苦努力,终成?轩使者绝代语释别国方言#。

3.2新的语料库语言学

1959年,R.Quirk着手建立 英语用法 语库(Survey of English Usage)。该项目旨在收集大量的风格题材各异的语料作为对英国英语口语和书面语进行系统描写的基础。几乎与此同时,以N.Francis和H.Kucera为首的一批语言学家和计算机专家汇集在美国的布朗大学合力攻关,并于1961年建成了当今最早的机读语料库?布朗语库(Brown Corpus)。这两个库可以说是现代语料库语言学的开端。

3.3语料库语言学与乔姆斯基转换生成语法

50年代中前期,在实证主义和行为主义思潮的影响下,语言研究总体上是经验主义占主导,这种氛围无疑促进了对语料的重视,使其成为当时的热点之一。特别在美国,以Z.Harris等人为代表的后布龙菲尔德结构主义语言学家视语料为语言学的唯一研究对象。在他们看来,直觉证据是第二位的,是靠不住的,应该放弃。但是这种状况随着乔姆斯基1957年?句法理论#及其以后的一系列论著的发表被根本转变。笛卡尔主义的理性主义占据主导地位,经验主义几乎无立足之地,被视为经验主义产物的语料研究自然被完全否定。乔姆斯基及其转换生成语法学派否定早期语料研究主要有两点:

(1)语料研究的方向有误。乔姆斯基认为,语言研究的主要目标是建立一种能反映说话人心理现实的语言认知模式,简言之,语言能力模式。因为只有语言能力才能对说话人的语言知识作出解释和描述,而语言运用只是语言能力的外在证据,它往往会因超语言因素的影响而发生变化,因此,它不能确切地反映语言能力。语料从本质上只是外在化的话语的汇集,基于语料的研究所建立的经验模式充其量只能对语言能力作出部分解释,因而语料不是语言学家从事语言研究的得力工具。

(2)语料的不充分性,乔姆斯基在?句法理论#一书中首次发现英语短语结构规则具有递归性。这种递归性表明,自然语言的句子是无限的,而作为语料基本单位的句子的无限性决定了语料是难以穷尽的,换言之,语料永远是不完整的,不充分的。

转换生成语法学派的上述批评从根本上改变了50年代结构主义语言学的研究方向。在此后的近20年里,整个语言学界几乎唯直觉是从,唯思辨独尊,语料研究方法几乎名誉扫地。但是语料研究并未完全终止。除了R.Quirk和N.Francis等语言学家凭其非凡的学术勇气,顶着无形的压力,继续其研究项目并不断取得进展之外,另有十多项小的研究也在展开,特别是1975年,以J.Svartvik为首的一批语言学家汇集于瑞典的隆德大学,开始对R.Quirk语料的口语部分作韵律标注,并最终实现了机读,建成了伦敦?隆德语料库(London-Lund Corpus)。对此,G.Leech (1991:9)认为 作为英语口语研究的语料源,它至今仍无与伦比。 上述项目的持续进行为80年代语料库语言学的复兴奠定了基础。

4.0语料库语言学的复兴

在相对沉寂了近20年后,语料库语言学自80年代以来,迅猛发展,空前繁荣,主要表现是: 4.1第二代语料库的建成

以伯明翰英语语料库为代表的一大批语料库80年代以来相继建成。这些机控语库,尽管规模、设计和研究目的各异,但大多采用了较新的KDEM(Kurzweil Data Entry Machine)光电符号识别技术,使语料的编码和编辑得以从繁重的人工输入中解脱出来,大大加快了语料的标注处理,促进了语料的分析和利用,故称第二代语料库。根据美国加州大学伯克莱分校的语言学家J.Edwards 1993年的不完全统计,80年代以来建成并投入使用的各类语料库达50多个%,按语种分布如下:英语24法语4意大利语2丹麦语2

德语7西班牙语2芬兰语2瑞典语2

此外,还有葡萄牙语,南斯拉夫语和爱脱尼亚语等也都建立了语库。在这些语料库中,规模较大且特点较鲜明的有:

(1)兰卡斯特?奥斯陆/卑尔根语库(The Lancaster-Oslo/B ergen,简称LOB)。在G.Leech的领导下,70年代始建,1983年建成。包括五百个语篇,每个语篇约两千词。其数据模式与布朗语料库相同,但有其独到之处:可以比较不同的英语文体。

(2)法语语料库(Tresor de la Langue Francaise,简称TLF)。该库是法国国家科学研究中心与美国芝加哥大学的合作项目,语料包括从17至20世纪书面法语各种文体的两千个语篇,词汇量达到1.5亿,有关数据已制成光盘,并可通过UNIX软件系统查阅。

(3)赫尔辛基历史英语语料库(The Helsinki Corpus of Historical English)。该库是以M.Rissanen 等为首的一批语言学家在赫尔辛基大学所建。语料包括自850至1720年这一时期的各类英语语篇,并以每百年分段,词汇量达1.6千万。作为第一个历时语库,它对于从社会语言学、方言学及语用学角度研究英语的变迁均具有重要作用。

(4)国际英语语料库(The International Corpus of English,简称ICE)。该库于1988年由伦敦大学学院英语系承建,旨在为从事世界范围内英语的民族变体的比较研究提供数据。语料分别取自所有英语国家,并采用统一的分类和编码系统。每个国家的语料字数限定一百万,口语和书面语各占一半。语料取样时间限定在1990?1993年之内。语料采样对象为18岁以上接受英语教育成长起来的成年人。

4.2基于语料的研究项目增多

大批语料库的建成极大地促进了基于语料的研究项目的迅速开展。下表的统计数字就充分说明了这一点:

1959?1991年语料研究项目统计表(据Johansson,1991:312)

起止年限研究项目数

1959?196510

1966?197020

1971?197530

1976?198080

1981?1985160

1986?1991320

%有的语料库语言学家主张区分语料库(corpus)和语篇库(textbank),认为二者在规模、构成、使用目的及其代表性诸方面均有差异。本文未作严格区分。

事实证明,机控语库是开展大范围语言研究的极好料源,因为它所提供的语料较之先前的材料更具有真实性,其层级结构更加明晰,因而更有助于对语言的不同层面进行描写研究,更有助于对不同语体的比较研究和开展量化与概率统计研究。

上述的许多研究项目取得重要成果,有的深化了原有的研究,有的则是拓宽了原有的研究领域。如J.Svartvik(1996)和M.Halliday(1991)等人的概率语法研究;G.Tottie(1991)的英国英语和美国英语话语风格研究以及J.Sinclair(1985)等人关于英语搭配的量化研究等。

80年代以来英语语料库语言学复兴的原因,近年来多有评说,概而言之,主要有两条:

(1)计算机科学的飞速发展与计算机技术的迅速普及和应用为语料库语言学的复兴提供了物质基础。80年代以来语料库语言学的发展进入了一个良性循环:计算机程序和软件的不断开发应用加快了语料库的建设,提高了语料的处理能力和层次;大量经过加注的语料的可得又促进了语料研究和利用;研究的深入转而又导致更为先进的研究方法和语言学模式的产生,许多先前需要人工处理的工作现在可以通过计算机程序及其软件自动或半自动地完成。在这一循环中,计算机显然是重要的一环。

(2)转换生成学派等对语料库语言学的批评和否定,经过20年的实践验证,有的是错误的,如指责计算机分析语料是伪技术;有的是片面的,如对语料数据价值的否定;有的则是正确的,如乔氏关于自然语言无限性的观点。对于乔氏倡导的唯理方法,人们经过跟从、应用和反思之后,也逐步发现其不足,如其不可验证性等。因此,80年代以来语料库语言学的复兴,在很大程度上反映了语言学界的一种较普遍的心态,想要恢复语言研究中人工数据和自然数据的平衡。既然语料研究方法和内省的唯理方法各有所长,亦各有所短,为什么不让二者共存或结合使用,发挥其互补优势呢?为了达到这种有益的平衡,许多语言学家作出呼吁,如: 语料研究在语言的理论探索中具有中心位置,对语料的开发途径很多,&&并非一种。 (M.Halliday1991,p.41)

从科学方法的角度,语料研究方法是一种更为强有力的方法,因为其结果是可以验证的。 (G.Leech1993,p.106)

即使像C.Fillmore这样曾对语料库语言学有过诸多批评的语言学家,也对语料库语言学作出了颇为公允的表述:

我不认为有这样的语料库:它能包括有关我要探究的英语词汇和语法领域的所有信息,不论其有多大。&&[诚然],每每有机会探查语料库,无论多小,总使我获得一些用其它方法无法得到的事实。我的结论是:两类语言学家相互需要。 (Fillmore1992,p.32)

5.0语料库语言学的几个基本问题

5.1语料与语料的标注原则

语料(corpus)一词源于拉丁语,本意为 躯体 (body)。其引伸的宽泛之意可指任意数量的语篇,但在当今语料库语言学文献中,语料并非语篇的简单堆砌或集合,它应具有以下几个基本特征:

(1)样本代表性选取语料应考虑到广泛性和代表性。

(2)规模有限性从理论上讲,语料的数量越多,越具代表性,但鉴于语句的无限性及语言的不断变化,语料的收集是不能穷尽的,代表性也是相对而言。因此,从量化研究的需要出发,语料的规模应是有限的。当然这与语料库的开放性并不矛盾。

(3)机读形式化机器可读是当今语料库最重要的特征。与原始语料相比,机读化的语料有两大优点:首先便于检索,在书本形式的语料中查找某个词需逐页地查找,而使用检索软件,

从上亿万的字符中调阅某一个或某几个词项只需几秒钟。其次是便于增补新的语言信息。

要实现语料的机读化,提高语料的利用价值,关键是语料的标注。对此,G.Leech(1993)提出了以下七条基本原则:

(1)所作标注可以删除,恢复到原始语料。

(2)所作标注可以单读抽出,另处存储。

(3)语料库使用者应该知道标注原则和标注符号的意义。

(4)在语料的使用说明或文件中,应该说明标注是何人用何种方法所作。如,是人工标注还是计算机标注,是一人标注还是多人标注。

(5)应向用户声明,语料标注并非绝对无误,它只是一种可能有用的工具。

(6)标注模式应不依赖于某一家之言,尽可能中立。

(7)任何标注模式都不能作为第一标准。即使有,也只能通过实践在大量比较中形成。

语料的标注和语料的利用是一对矛盾。从用户的角度,语料标注得越详尽越好,而标注者则还需考虑标注的可行性。因此,任何标注模式都是在二者之间求得的一种妥协的产物。目前应用较为广泛的标注模式是OCP(Oxford Concordance Prog ram)和T EI(Tex t Encoding Initiative),特别是后者,被认为更能反映当前语料库语言学家致力于建立更具形式化的机读语篇信息编码国际标准的动向。使用TEI模式标注的大型语料库包括单词量多达一亿的 英国国家语料库 (The British National Corpus)和语料取自多个英语国家的 国际英语语料库 。值得特别指出的是,欧盟已经建立了一个名为 语言工程标准专家顾问团 (EAGLES)的专门班子,负责检查对欧盟诸官方语言已作的编码和标注,进而建立具体的语料标注的欧洲标准,供今后欧盟资助的项目所用。该班子由许多专家工作小组组成,包括语料小组,词汇小组和计算语言形式化小组等。语料小组将特别关注可统一用于所有欧盟语言的标准标注模式。

5.2语料的分析处理模式

语料的分析处理实际上就是人、计算机和语料数据之间的相互作用,简言之,人机对话。根据分析者的参与程度及分析者赋予计算机的分析深度,语料的分析处理有四种基本模式:

(1)数据检索模式(Data retrieval model)

计算机只对语料进行分类统计或只提供基本数据,具体的数据分析全由分析者完成。

(2)共生模式(Symbiotic model)

把语言学家的专业知识程序化并输入到计算机系统,计算机分析处理语料,分析结果反馈给语言专家。如有错误,语言学家对原有知识或程序或二者作相应修改,修改后的程序及分析系统再对语料进行处理。整个过程可图示如下:

由于这一处理过程实际上导致两个结果:业经改进的分析机制和业经分析的语料,因此称为共生模式。这一模式中,在人参与下,计算机与语料的相互作用是显而易见的:分析机制导致语料的分析,分析的语料又促进分析机制的改进或优化。但是无论在初始阶段,还是在反馈阶段,该模式均需要大量的人力参与。

(3)自行组合模式(Self_organizing model)

语言学家只提供分析系统的参数和软件,计算机分析数据并反复改进分析系统。该模式是L.R.Bahl等人针对共生模式之不足于1983年提出的,它可避免诊断及反馈阶段的人力参与。基本思路是训练计算机 学会 根据分析的数据改进语言模式。尽管该模式目前尚不能完全避免人力参与,而且只能在极少数大型计算机上完成,但是其前景喜人。随着计算机存储及处理能力的提高,自行组合模式将会更多地取代人力参与。

(4)发现程序模式(Discovery procedure model)

语言学家只提供软件,即赋予计算机程序编辑能力,计算机发现自己的分析类别并用其分析数据。此模式的应用目前只限于诸如根据词汇的分布发现特定语言的词性等简单的分析。结果表明,计算机的词性分类与传统语法的认定很接近。同时也发现,计算机对词的多重词性现象尚无法作出解释。

5.3语料库的利用

现代语料的巨大包容性及开发语料的种种手段的出现构成了深化我们对语言的认识和理解的强大力量。 (Halliday1991:41-42)语料的标注和处理模式固然重要,但是如何在具体研究中充分有效地利用两者则是关键之所在。目前已经展开语料研究的语言层面及其相关领域很多,以下所述只是语料研究成果较多的几个层面和领域的研究情况。

5.3.1语料库与言语研究

语料库在言语研究中的作用有二:首先,语料能提供空前广泛的言语素材,使对口头语言的概括和对特定语言内方言变异的研究成为可能。其次,现代口语语料所提供的是自然的而不是人工诱导出的言语,这意味着语料研究更有可能反映实际生活中真正使用的语言的特点。此外,业经标注的口语语料不仅方便了对言语的单层面大规模量化分析,而且有利于研究不同语言层面间的相互关系。

利用口语语料库研究言语,目前主要集中在韵律层面。这些研究大致可以分为三种类型:

(1)探究韵律的实质以及言语的韵律成分如何与其它语言层面相联系。关于语调群的分界有各种不同假说,口语语料的运用使得研究者能够用量化的方法根据实际数据验证上述假说是否成立,或用归纳的方法从语料中生成假说,然后用更新更多的语料作进一步的验证。

(2)探究韵律标注的基础。韵律标注产生的问题是,所感觉并标注的韵律与言语的声学现实之间有无或有多大差距?在此类研究中,Knowles(1991)发现,不同的语言学家对同一语段的语调群界的感知差异很大。Wichmann(1989)则发现不同的语言学家对降声调的感知也很不一致,并认为实际上并不存在真正的高低感知范畴。

(3)从韵律的角度探究语篇的类型。如Wichm ann(1989),对T he Lancaster/IBM Spoken English Corpus语库中诵诗和诵祷文两种言语行为类型进行了韵律分析,推翻了Crystal& Davy(1969)提出的高频率的平调是诵祷文的突出特征的观点,认为语调模式与言语行为类型不相关,而与受话人或听众的话语角色有关。

5.3.2语料库与词汇研究

引述实例是词典编纂的传统,机读语料库的出现改变了词典编纂者利用语料的方式,他只需坐在计算机终端前就可以从数百万字的语篇语料中调出某个词或短语的用法实例。这不仅意味着词典的编纂和修订速度大大加快了,能及时提供新的语言信息,而且大量的自然语言实例会使词的定义更加完整和确切。

5.3.3语料库与句法研究

句法是目前利用语料库开展研究最多的语言层面。这首先是由于语料标注和计算机检索手段的发展使得对句法的量化分析更为容易,越来越多的研究者试图通过量化分析对过去靠主观判断所论及的句法现象作出较为客观的描述。句法层面语料研究的空前繁荣主要是因为语料库已成为唯理语法理论和描写语法理论的交汇点。50年代以来形成的唯理和描写两种截然不同的研究方法,从80年代中期以来呈现出前所未有的相互交融,即出现了一大批难以简单归于上述两大研究传统的研究者。他们既不是通过内省的方法构建语法理论,也不是通过描写归纳生成新的语法理论,它们致力于利用语料库验证唯理派的语法理论。如在荷兰的N ijmegen大学以J.Aarts为首的一批研究者,他们首先根据语言学家的内省及现有的语法描述设计了一套形式语法,将该语法装入计算机分析器在语料库中运行,以检验该语法对语料库数据的解释程度,然后根据所得语料分析结果修订语法。他们认为,这种研究方法可以探查出唯理语法能够在多大程度上解释语料库数据以及要完全解释这些数据需对其作多少修订。

5.3.4语料库与语义研究

语料库用于语义研究主要有以下两点:

(1)语料库可用来为词项赋义提供客观标准,如Mindt(1991),他指出,在语义学中,词项和语言结构的意义往往是根据语言学家自己的直觉描写的,事实上语义区别是与句法、词法和韵律等上下文的语篇相关的,通过语料库来调查这些相关成分,可以找到特定语义区别的客观指示。

(2)语料库有助于建立语义的模糊范畴的梯度概念。心理研究表明,认知范畴是存在模糊界的。语义区别作为一种范畴认知,实际上也不是绝对的,也是模糊界的。具体讲来,义项之间不是简单的包容与非包容关系,而是一种与包容比例相关的梯度关系。语料对于判断和揭示这种梯度的存在及其大小具有重要作用。

5.3.5语料库与社会语言学

社会语言学作为一个经验研究领域,主要依赖于具体的语料数据。但是如何尽可能地减少数据的诱导因素,提高数据的代表性和自然性,一直是困扰社会语言学家的难题。大容量机读语库的启用为上述难题的解决提供了可能。利用语料库开展的社会语言学研究目前主要集中在语言与性别领域。

6.0语料库语言学的发展方向及前景

对于语料库语言学的发展前景,特别是下一世纪的发展方向,近年来语料库语言学家多有论及。如J.Sv artv ik(1992)预测 计算机将运行更快,体积更小,价格更低;语料库将规模更大,质量更好,利用率更高 。T.M cEnery(1996)则认为语料库语言学今后的发展将主要受语料库规模、类型、国际关注和计算机发展等四方面力量的左右。基于语料库语言学的研究现状,总观各家之说,语料库语言学的发展方向将主要体现在以下三个方面:

(1)基础语料库的发展。90年代以来,由于对民族语料资源价值的认识的深化,特别是在欧洲,许多国家的政府或学术机构从维护、发展和规范本民族语的角度纷纷投资建立大型语料库,如英国的国家语料库由牛津大学出版社牵头,参建单位包括兰卡斯特大学,英国朗曼出版有限公司和英国皇家图书馆等。再如,日本的教育科学文化部于1989年组织了三百多位各方面专家,历时五年建成了 日语方言语和数据库 (SCDJD),该库语料已制成22张光盘,其中言语库19张,数据库3张。这种建库势头仍将持续下去。鉴于大型语料库语料标注工作的滞后,有人认为今后一段时间还应着力发展小型专用语料库,例如M.Short(1996)为研究言语和思维的表达所建立的语体研究语料库。此外,口语语料库的发展应加大力度,以克服目前书面

语料库和口语语料库发展的失衡,促进口语研究的发展。Wilson(1996)预测在不久的将来会有多媒体语料库问世。

(2)语料标注的发展。语料标注是对语言进行多维多层分析的基础,而且此种分析并不仅限于原标注者,因而语料的有效利用在很大程度上有赖于语料标注的层次和质量。为此,G. Leech(1992)提出,语料标注发展的着力点应主要包括:

a.把语料标注过程中所体现的语言分析图式文件化,如Johansson(1982)的词类标定图式和Sampson(1987b)的语法分析图式。

b.今后的分析图式应包括某种 会商 过程,使特定专业圈内感兴趣的成员之间进行磋商,以确保所标注的语料能为尽可能多的潜在使用者所使用。

c.不同分析图式之间应力求调和,即尽可能使用普遍认同的标签;图式与图式投射或部分投射时应提供已有信息。

d.目前语言各层面的标注发展很不平衡,发展较快的层面有词汇层,句法层,语音和音位层等;今后应重点加强语义层和语用层的标注。

(3)语料处理工具的发展。 作为一种独特而强大的技术工具,计算机使得这种新的语言学(语料库语言学)成为可能。 (Leech,1992a:106)语料库分析有赖于计算机环境的支持,即软件工具从语料库中检索数据并对语料进行处理。目前的软件工具尽管有了一定数量,但多数工具的文件化程度不够,且适用范围有限。

主要参考文献

A ar ts,J.and M eijs,W.(eds)(1984),Corp us L inguistics,A mster dam:Rodopi.

A ar ts,J.and M eijs,W.(eds)(1990),T heory and Pr actice in Corp us Linguis tics,Amsterdam:Rodopi.

A ar ts,J.,de Haan,P.and Oostdijk,N.(eds)(1993),English L anguage Corp or a:D esign,A nalysis and

Ex p loitation,Amsterdam:Rodopi.

A ilmer,K.and Altenberg,B.(eds)(1991),E nglish Cor p us L inguistics:Studies in Honour of Jan Sv ar tvik,L ondon:

Longman.

A ltenberg,B.(1991),A bibliography of publications r elating to English computer cor pora,in Johansson and

Stenstrom(eds)1991.

Biber,D.(1993b),Representativ eness in Corpus Design,Liter ary and L inguistic Comp uting8(4):243-57. Chomsky,N.(1957),S nytactic Str uctures,T he Hag ue:M outon.

Chomsky,N.(1962),Paper given at the University of T ex as1958,3rd T exas Conference on Problems of L ingui stic

A nalysis in English,Austin:U niv.of T ex as.

Chomsky,N.(1965),A sp ects of the T heory of Sy ntax,Cambridge,M A:M IT Pr ess.

Chomsky,N.(1988),Gener at ive Gr ammar:Its Basis,Dev elo pment and P rospects,K yoto:K yoto University of Foreign Studies.

Church,K.W.(1991),Review of J.A ar ts&W.M eijs(eds),T heory and P ractice in Cor pus Linguistics, Co mp utational L inguistics17,pp.99-103.

de Haan,P.and van Hout,R.(1986),Statistics and corpus analysis,in Aarts,J.and M eijs,W.1986,pp.79-97. Edw ards,J.A.and L amper t,M.D.(eds)(1993),T alking Data:T r anscr ip tion and Coding in Discour se Resear ch, Hillsdale,NJ:L awrence Er lbaum Associates.

F illmor e,C.J.(1992),Cor pus linguistics(Computer_aided ar mchair linguistics),in J.Svar tvik1992,pp.35-60.

F rancis,N.(1980),A tagged corpus_problems and pr ospects,in

G reenbaum et al.(eds)1980:192-209.New Yor k:

L ong man.

F rancis,N.(1983),Dialectology:A n I ntr oduction,Longman Gr oup L td.

F ries,U.et.al(eds)(1994),Cr eating and Using English Language Cor p or a,A mster dam:Rodopi.

G arside,R.,Leech,G.and Sampson,G.(eds)(1987),T he Comp utational A nalysis of Englis h:A Cor p us_based

A p p roach,L ongman.

G ellerstam,M.(ed)(1988),Studies in Comp uter_aided L ex icology.Stockholm:Almqvist&Wiksell International. Halliday,M.A.K.(1991),Corpus studies and pr obabilistic grammar,in Aijimer and A ltenberg1991,pp.30-43. Halliday,M.A.K.(1992),Language as syst em and languag e as instance:T he corpus as a theoret ical constr uct,in J.

Svartvik(ed),1992.

Harris,Z.(1951),Methods in Str uctur al L inguistics,Chicago:U niversity of Chicago P resss.

Johansson,S.(ed)(1982),Comp uter Corp ora in English Resear ch,Ber gen:N orw eg ian Computing Certre for the Humanities.

K no wles,G.(1991),Prosodic labelling:the problem of tone group boundar ies,in Johansso n and Stenstro m1991,pp.

149-63.

K yto,M.,Rissanen,M.and Wright,S.(eds)(1994),Corp ora acr oss the Centuries,Amsterdam:Rodpopi.

L eech,G.(1992),Co rpora and theories of linguistic performance,in J.Svartvik1992,pp.105-22.

L eech,G.(1993),Corpus annotation schemes,Liter ary and L inguistic Comp uting8(4):275-81.

L eitner,G.(ed)(1992),N ew Dimensions in English Langua ge Cor p or a,Berlin:M outon de Gr uyter.

M cEnery,A.and Wilson,A.(1993),T he role of cor pora in computer_assisted language lear ning,in Comp uter

A ssisted Language Lear ning6(3):233-48.

M cEnery T.and Wilson,A.(1996),Corp us L inguistics,Edinburgh U niversity Pr ess.

M eijs,W.(ed)(1987),Cor p us L inguistics and Be y ond,Amsterdam:Rodopi.

Quirk,R.(1992),On corpus principles and design,in J.Svartvik(ed),1992,pp.457-469.

R issanen,M.(1989),T hree problems connected w ith the use of diachronic corpora,in ICA M E Jour nal13:16-19. Schmied,J.(1993),Q ualitativ e and quantitative research approaches to Engli sh relat ive constructions,in Souter and Atw ell1993,pp.85-69.

Sinclair,J.(1982),Reflections on computer corpo ra in English language research,in Johansson(ed)1982:1-6. Sinclair,J.and K irby,M.(1990)P rogressoin Eng lish computational lexicography,World Englishes,9,21-36. Sout er,C.(1993),T ow ar ds a standard format for parsed corpora,in Aarts,de Haan and Oostdijk1993,197-212. Sout er,C.and A twell,E.(eds)(1993),Cor p us Based Comp utational L inguistics.Amsterdam:Rodpopi. Stubbs,M.(1996),T ex t and Cor p us A nalysis,Blackw ell.

Svartv ik,J.(ed)(1990),T he L ondon_L und Corp us of Sp oken English,Lund:L und U niversity Press.

Svartv ik,J.(ed)(1992),Directions in Cor p us L inguistics,Berlin:M outon de G ruyter.

T homas,J.and Sho rt,M.(eds)(1996),Using Corp ora f or L anguage Research,L ondon:Longman.

Wichmann,A(1989),T one of Voice:A Stylis tic A p p roach to I ntonation,L ancaster Papers in L ing uist ics,70.

通讯地址:Copenhagen U niversity Engelsk Institut,Njalsgade80DK-2300,Copenhagen, Denmark

E-mail:x inshan@coco.ihi.ku.dk

语料库术语中英对照

Aboutness 所言之事 Absolute frequency 绝对频数 Alignment (of parallel texts) (平行或对应)语料的对齐 Alphanumeric 字母数字类的 Annotate 标注(动词) Annotation 标注(名词) Annotation scheme 标注方案 ANSI/American National Standards Institute 美国国家标准学会 ASCII/American Standard Code for Information Exchange 美国信息交换标准码Associate (of keywords) (主题词的)联想词 AWL/Academic word list 学术词表 Balanced corpus 平衡语料库 Base list 底表、基础词表 Bigram 二元组、二元序列、二元结构 Bi-hapax 两次词 Bilingual corpus 双语语料库 CA/Contrastive Analysis 对比分析 Case-sensitive 大小写敏感、区分大小写 Chi-square (χ2) test 卡方检验 Chunk 词块 CIA/Contrastive Interlanguage Analysis 中介语对比分析 CLAWS/Constituent Likelihood Automatic Word-tagging System CLAWS词性赋码系统Clean text policy 干净文本原则 Cluster 词簇、词丛 Colligation 类联接、类连接、类联结 Collocate n./v. 搭配词;搭配 Collocability 搭配强度、搭配力 Collocation 搭配、词语搭配 Collocational strength 搭配强度 Collocational framework/frame 搭配框架 Comparable corpora 类比语料库、可比语料库 ConcGram 同现词列、框合结构 Concordance (line) 索引(行) Concordance plot (索引)词图 Concordancer 索引工具 Concordancing 索引生成、索引分析 Context 语境、上下文 Context word 语境词 Contingency table 连列表、联列表、列连表、列联表 Co-occurrence/Co-occurring 共现 Corpora 语料库(复数) Corpus Linguistics 语料库语言学 Corpus 语料库 Corpus-based 基于语料库的

语料库语言学综述

语料库语言学综述 作者:刘美良 作者单位:柳州铁道职业技术学院,广西,柳州,545001 刊名: 科技信息 英文刊名:SCIENCE & TECHNOLOGY INFORMATION 年,卷(期):2010,""(21) 被引用次数:0次 参考文献(19条) 1.Chomsky,N Syntactic Structure 1957 2.Sinclair.John Corpus.Concordance Collocation 3.Susan Hunstom Corpora in Applied Linguistics 2006 4.Aijmer,K.Altenberg,B English Corpus Linguistics:Studies in Honour of Jan Svartvik 1991 5.杨惠中语料库语言学导论 2002 6.何安平语料库在外语教育中的应用--理论与实践 2004 7.何安平谈语料岸研究 1997(5) 8.丁信善语料库语言学的发展及研究现状 1998(1) 9.李文中2003上海语科库语言学国际会议述评 2004(1) 10.粱旭红语料库语言学研究综述 2001(1) 11.粱燕近十年我国语料库实证研究综述 2004(6) 12.刘满堂近40年英语语料库及语料库语言学研究的回顾与出展望 2004(1) 13.潘永本梁语料库语言学的目的和方法 2001(3) 14.王建新语料库语言学发展史上的几个重要阶段 1998(4) 15.许家金语料库语言学的理论解析 2003(6) 16.卫乃兴专业性搭配初探--语料库语言学方法 2001(4) 17.卫乃兴语料库语言学的弗斯学说基础 2008(3) 18.甄风超.张霞语料库语言学发展趋势瞻望--2003语料库语言学国际会议综述 2004(4) 19.吴菲国内外英语语料库的建设和发展述评 2007(6) 相似文献(4条) 1.期刊论文王虹.岳俊发.Wang Hong.Yue Jun Fa书面言语鉴定技术的发展历程-中国公共安全(学术版)2005,""(3) 书面言语鉴定技术产生于20世纪80年代中期.随着电子打印技术的普及,涉案的不留笔迹的打印文件显著增加,书面言语鉴定技术倍受关注.近年来,运用统计语言学、语料库语言学和计算机词频检索与统计等新技术获得了新的研究成果并应用于鉴定实践.书面言语鉴定技术已经发展成为文件检验学的一个新的分支,必将在司法鉴定领域发挥更大的功效. 2.期刊论文孙丰果话语分析整合研究-聊城大学学报(社会科学版)2010,""(2) 近60年来.话语分析经历了从无到有,从小到大的发展历程.话语分析要取得长足发展,需要有一个明确的概念,需要人们对其以前的发展情况进行总结和评述.对话语分析研究的评述不妨从系统功能语言学、认知语言学、语料库语言学等多角度进行.今后,话语分析研究可以从话语分析的哲学转向、心理学转向及整合批评话语分析和积极话语分析等方面展开. 3.期刊论文杨连瑞.Yang Lianrui第二语言习得研究的学科定位和进展-外语与外语教学2005,""(5) 第二语言习得是一种复杂的人文现象.作为一门新兴的交叉学科,第二语言习得研究在发展中应重视其学科性质的科学定位和学科体系的科学建构.本文在对第二语言习得研究的学科定位、学科性质和研究对象进行讨论后,回顾和评述了国外第二语言习得研究从对比分析、错误分析、中介语理论、普遍语法研究、语言类型学研究到语料库语言学研究的发展历程和研究问题,分析了目前我国开展这一学科研究的现状,并结合我国外语教学实际对目前开展这一学科的研究提出建设性意见. 4.学位论文魏琳中国英译旅游宣传材料的语料库分析2006 旅游业在全球范围内的迅猛发展使不同文化背景的人们进行文化交流变成了一种需要。在我国,旅游英语特别是网上的旅游英译材料是外国游客接触和了解我国的媒介。因此,旅游材料的翻译质量举足轻重。而目前旅游文本的翻译研究在中国还是一个比较新的话题,近年来主要是结合最新语言学

语料库话语分析综述

近十年国内基于语料库的话语研究综述 A Review of Ten - year Research on Corpus-Based Discourse Analysis in China 摘要:文章从基于语料库的话语研究领域出发,通过对2002年至2011年发表在国内八种核心期刊上的论文进行统计与分析,发现这些研究在研究领域取得了很大的进步,涉及到话语各个方向,对于实践有重大指导作用,但同时也出现一些问题值得我们关注。 Abstract: From corpus-based discourse analysis, this thesis finds this field has made great progress, relates to many directions of discourse and has a significant guiding role for the practice, but also brings many problems worthy our attention. All of these are derived from the research and analysis of thesises published in 8 kinds of core journals from 2002 to 2011 in China. 关键词: 语料库话语基于语料库的话语研究 0. 引言 现代语料库语言学是20世纪中后期兴起的一门语言研究科学。语料库是指按一定的语言学原则,运用随即抽样的方法,收集自然出现的连续的语言运用文本或话语片段而建成的具有一定容量的大型电子文库。在20 世纪后半叶的西方语言学界, Chomsky的观点大行其道,秉承该学说的语言研究者唯直觉语料独尊。他们躲在书斋,满足于依靠自己的直觉语料从事语言研究。随着社会语言学、话语分析、语用学、语料库语言学的兴起,越来越多的语言学家认识到光靠直觉语料来研究语言是远远不够的,人们还必须借助语料库语料以及其他各种语料,只有这样我们才能更好地揭示语言的本质,克服直觉语料的局限与不足。这样基于语料库的话语研究越发引起大家的重视,并取得了丰硕的成果。国内基于语料库的话语研究虽然起步较晚,但是成果仍然颇丰。 1. 研究样本 由于近几年运用语料库来做话语研究已经成为语言研究的热点,笔者通过检索主题与关键词,将文献定在2002年至2011年这十年期间,研究样本来源为发表在八种外语类核心期刊的22篇文章。这是因为这8种外语类期刊有一定的权

机器翻译研究综述

机器翻译综述 1.引言 1.1机器翻译的历史 现代机器翻译的研究应该是从20世纪50年代开始,但是早在这以前很多人已经提出了相应的想法,甚至是远在古希腊时期就有人提出要用机器来进行语言翻译的想法。 在1946年,美国宾夕法尼亚大学的两位科学家设计并制造了世界上第一台电子计算机。与此同时,英国工程师同美国洛克菲勒基金会副总裁韦弗在讨论计算机的应用范围时,就提出了利用计算机实现语言的自动翻译的想法。在1949年,韦弗发表了一份名为《翻译》的备忘录,正式提出了机器翻译问题。他提出了两个主要观点: 第一,他认为翻译类似于解读密码的过程。 第二,他认为原文与译文“说的是同样的事情”,因此,当把语言A翻译为语言B时,就意味着从语言A出发,经过某一“通用语言”或“中 间语言”,可以假定是全人类共同的。 在这一段时间由于学者的热心倡导,实业界的大力支持,美国的机器翻译研究一时兴盛起来。 1964年,美国科学院成立语言自动处理咨询委员会,调查机器翻译的研究情况,给出了“在目前给机器翻译以大力支持还没有多少理由”的结论,随后机器翻译的研究就陷入了低潮期。直到70年代以后机器翻译的研究才重新进入了一个复苏期,随后机器翻译的发展又迎来了繁荣期 1.2机器翻译的主要内容 经过50多年的发展,在机器翻译领域中出现了很多的研究方法,总结如下:●直接翻译方法 ●句法转换方法 ●中间语言方法 ●基于规则的方法 ●基于语料库的方法 基于实例的方法(含模板、翻译记忆方法) 基于统计的方法 在当前的研究中,更多的是基于统计的方法进行的,因为基于统计的方法可以充分的利用计算机的计算能力,并且并不需要过多的语言学知识作为支撑,可以让更多的计算机科学家投入到实用系统的研究中,极大的促进了统计机器翻译的发展。 下面对各个方法逐一的进行介绍。

语料库语言学的发展

语料库语言学的发展 语料库顾名思义就是放语言材料的仓库。现在人们谈起语料库,不言而喻是指存放在计算机里的原始文本或经过加工后带有语言学信息标注的语料文本。现在世界上已经有了不少规模较大的语料库,有些是国家级的,有些由大学和词典出版商联合建设。另外,由于个人微机的迅猛发展和存贮数据的硬盘造价持续下降,研究者个人也开始建立适合于自己研究的小型语料库。 语料库语言学(英文corpus linguistics)这个术语有两层主要含义。一是利用语料库对语言的某个方面进行研究,即“语料库语言学”不是一个新学科的名称,而仅仅反映了一个新的研究手段。二是依据语料库所反映出来的语言事实对现行语言学理论进行批判,提出新的观点或理论。只有在这个意义上“语料库语言学”才是一个新学科的名称。从现有文献来看,属于后一类的研究还是极个别的。所以,严格地说,现在不能把语料库语言学跟语言学的分支, 如社会语言学、心理语言学、语用学等相提并论。 近年来,随着我国经济的发展,科研经费的增加,汉语语料库的建设得到了开展。1999 年我院把建立汉语语料库列为院重大课题。目前语言所正在构建三个大规模的语料库: 现场即席话语语料库,主要方言口语库和现代汉语文本语料库。在世界范围内,我国的语料库建设在规模上还赶不上欧洲的一些发达国家,特别是英国。然而,在语料库语言学的研究上,以及语料库的实际运用上,我国已经进入世界前沿的行列。 20 世纪语言研究的总特点可以用四个字概括──高度抽象。最近几十年来,语言研究的高度抽象倾向已经失去主导地位。这主要缘于两个方面的因素: 一是计算机技术,特别是基于计算机处理的多媒体技术的飞速发展;二是社会语言学、语用学、会话分析、人类语言学、计算语言学、人机对话研究、语音识别与合成等研究取得令人瞩目的成就。先前难以抓住并进行有效处理的五花八门的实际语料,现在可以对其进行大规模地的、自动的或人机配合的处理。比如个人发音特征,先前认为这跟语言学毫无关系,现在成了侦破语音学的重要内容。侦破语音学家首先建立个人发音特征语料库,这个语料库可以用来鉴别嫌疑犯。概言之,当今的语言研究由先前的高度抽象逐步走向最具体的语言的实际活动,其中

语料库语言学术语汇编Aglossaryofcorpuslinguistics.docx

语料库语言学术语汇编 ( V2.0 ) Last updated 2012-10-08 by许家金 Aboutness所言之事 Absolute frequency绝对频数 Alignment (of parallel texts)(平行或对应)语料的对齐Alphanumeric字母数字构成的 Annotate标注(动词) Annotated text/corpus标注文本 /语料库、赋码文本/语料库Annotation标注(名词) Annotation scheme标注方案 ANSI/American National Standards Institute美国国家标准学会 ASCII/American Standard Code for Information美国信息交换标准码 Exchange Associates (of keywords)(主题词的)联想词 AWL/academic word list学术词表 Balanced corpus平衡语料库 Base list/baselist底表、基础词表 Bigram二元组、二元序列、二元结构 Bi-text/bitext双语合并文本、双语分行对齐文本 (一句源语一句目标语对齐后的文 本) Bi-hapax两次词 Bilingual corpus双语语料库 Bootcamp debate/discourse/discussion(新手)训练营大辩论 /话语 /大探讨CA/Contrastive Analysis对比分析 Case-sensitive/case sensitivity大小写敏感、区分大小写 Category-based approach基于类(范畴)的方法 Chi-square test/ 2χ卡方检验 Chunk词块 CIA/Contrastive Interlanguage Analysis中介语对比分析 CLAWS/Constituent Likelihood Automatic Word-CLAWS 词性赋码系统 tagging System Clean text policy干净文本原则 Cluster词簇、词丛 Colligation类联接、类连接、类联结 Collocate n./v.搭配词;搭配 Collocability搭配强度、搭配力 Collocation搭配、词语搭配 Collocational strength搭配强度 Collocational framework/frame搭配框架 Collocational profile搭配概貌

语料库语言学简史

语料库语言学简史 语料库语言学及语料库方法的作用在今天已不容忽视,但是语料库语言学的发展却经历了一段长期曲折的过程。以1957年Chomsky《句法结构》的发表为界,此前的语料库研究被语言学界广泛称为“早期的语料库语言学”;从上世纪50年代至80年代语料库语言学进入低谷;从80年代开始,语料库语言学迎来了它的“复苏期”。 1 早期的语料库语言学 利用真实语言资料进行研究,是词汇学家和语法学家的优良传统。早在1747年英语词典编纂的鼻祖Samuel Johnson就发表了Plan of an English Dictionary,将前人收集资料的最好方法作了总结,他所编的英语词典含15万条以上的引证说明,可见其所收集的资料库已相当可观。Oxford English Dictionary于1928年完成,所用的引证达400多万条,卡片1100多万张,还专门出版了中古英语手稿与文章350册,供编写OED时参考。Webster’s New International Dictionary第二版的编写参照了100多万条引证,第三版于1961年付印时,新旧引证共达1000多万条。英语语法大师Jesperson在编写《英语语法大全》(1909-1949)时,所使用的卡片数目多达30至40万张。(王建新,1998:52) 20世纪40年代,美国的语言学家Boas在研究美洲印第安语言时就使用了语料库的方法(corpus-based methodology),后来的结构主义语言学家更是如此。只不过当时还没有出现一个专门叫“语料库语言学”的词汇而已。下面是早期语料库语言学的一些主要研究领域: 1.1 语言习得研究 19世纪70年代,语言学家就系统地对幼儿语言习得进行了研究。这些研究都基于父母对幼儿话语及时记录的日记材料。即使在现代,基于原始语料的语言习得研究也没有停止(Ingram,1978)。 在以日记材料为语料的研究风行过后(通常认为从1876年至1926年),语言习得的研究主要表现为下面两种方式:(1)以大量的、不同年龄段的儿童为语言素材的来源(informant),进行语言发展和成熟的研究;(2)以少量的儿童为语言素材的来源,长期跟踪记录他们使用的语言而进行的历时研究(McEnery,Wilson,2001:3)。 1.2 拼写规范研究 德国语言学家Kading以德语大型语料(1100万词次)为基础,对德语各字母在文本中的出现频率以及字母串进行了研究。 1.3 语言教学研究 20世纪20年代,由于大量移民涌向北美,以及各英属殖民地对英语教学的需要,有好几项工程都把寻找英语语言中最常用的词汇作为了主要的研究目标(Fries 和Traver,1940;Bongers,1947)。1921年,Thorndike借助于语料库发布了英语词汇的使用频率研究报告。此项研究对后来美国以及世界其他地区的英语教学都产生了巨大的影响。1944年,Thorndike进一步完善了他的早期研究,发表了“教师3万词汇手册”(The Teacher’s Wordbook of 30,000 words)。此时,Thorndike 研究所依据的语料库已达到1800万词次。 出于教学目的而对英语词汇进行基于语料库研究最著名的例子是Michael West的“实用英语词汇表”(General Service List of English Words)。此项成果发表于1953年,它对当时英语书面语中最常用的2,000个词汇进行了具体的描述,

语料库和知识库的研究现状

语料库和知识库研究现状 2015-12-9

摘要:语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源,它与自然语言处理有着相辅相成的关系,是用统计语言模型的方法处理自然语言的基础资源。知识库广泛应用于信息检索、机器问答系统、自动文摘、文本分类等领域,为进行大规模的真实性文本的语义分析提供了有利的支持,它也成为自然语言处理不可或缺的基础资源。由于语料库和知识库的广泛应用,如今国内外对语料库和知识库的研究给与高度的重视,经过过去几十年的发展,各国在语料库和知识库的建设和应用方面都取得了不少成果。本文通过对语料库与知识库相关文献资料的搜索整理,重点介绍目前国内外在语料库和知识库方面的研究现状。 关键词:语料库;知识库;研究现状 1前言 语料库是指按照一定的语言学原则,运用随机抽样的方法,收集自然出现的连续的语言文本或者说话片段而建成的具有一定容量的大规模电子文本库[1]。而知识库是知识工程中结构化、易操作使用,全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。语料库和知识库在传统语言研究、词典编纂、语言教学、自然语言处理等领域有重要作用,所以自从20世纪60年代第一个现代意义上的语料库——美国布朗语料库(Brown Corpus)诞生开始,大批国内外的专家学者致力于语料库和知识库的研究,近年来国内外对于语料库知识库的研究取得了重大的突破,形成了规模不一的各种语料库和知识库,并且涌现了众多有关语料库和知识库的专着、论文等。对于语料库和知识库发展现状的总结研究,不仅可以帮助人们清楚的了解语料库和知识库当前发展的形势,对今后语料库知识库的发展具有一定的指导作用,而且对于应用语料库知识库发展自然语言处理等领域具有重要意义。

(完整版)语言学专业词汇中英文对照版

语言学术语(英-汉对照)表 A abbreviation 缩写词,略语ablative 夺格,离格 accent 重音(符) accusative 宾格 achievement test 成绩测试acoustic phonetics 声学语音学acquisition 习得 acronym 缩略语 action process 动作过程 actor 动作者 address form 称呼形式addressee 受话人 addresser 发话人 adjective 形容词 adjunct 修饰成分附加语 adverb 副词 affix 词缀 affixation词缀附加法 affricate 塞擦音 agreement 一致关系 airstream 气流 alliteration 头韵 allomorph 词/语素变体 allophone 音位变体 allophonic variation 音位变体allophony音位变体现象 alveolar ridge 齿龈 alveolar 齿龈音 ambiguity 歧义 analogical creation 类推造字anapest 抑抑扬格 anaphor 前指替代 anaphoric reference 前指照应animate 有生命的 annotation 注解 antecedent 先行词前在词anthropological linguistics 人类语言学 anticipatory coarticulation 逆化协同发音 antonomasia 换称代类名antonym 反义词 antonymy 反义(关系) appellative 称谓性 applied linguistics 应用语言学applied sociolinguistics 应用社会语言学 appropriacy 适宜性appropriateness 适宜性得体性 approximant 无摩擦延续音 aptitude test 素质测试 Arabic 阿拉伯语 arbitrariness 任意性 argument 中项中词主目 article 冠词 articulation 发音 articulator 发音器官 articulatory phonetics 发音语音学 artificial speech 人工言语 aspect 体 aspirated 吐气送气 assimilation 同化 associative 联想 associative meaning 联想意义 assonance 准压韵半谐音 attributive 属性修饰语定语 auditory phonetics 听觉语音学 authentic input 真实投入 authorial style 权威风格 authoring program 编程 autonomy 自主性 auxiliary 助词 auxiliary verb 助动词 B babbling stage 婴儿语阶段 back-formation 逆构词法 base component 基础部分 behavioural process 行为过程 behaviourism 行为主义 bilabial 双唇音 bilabial nasal 双唇鼻音 bilateral opposition 双边对立 bilingualism 双语现象 binary division 二分法 binary feature 二分特征 binary taxonomy 二分分类学 binding 制约 binding theory 制约论 blade 舌叶舌面前部 blank verse 无韵诗 blending 混成法 borrowing 借用借词 bound morpheme 粘着语素 bounding theory 管辖论 bracketing 括号法 brevity maxim 简洁准则 bridging 架接 broad transcription 宽式音标 broadening 词义扩大 Brown corpus 布朗语料库 C calculability 可计算性 calque 仿造仿造词语 cancellability 可删除 cardinal numeral 基数 cardinal vowel 基本元音 case 格 case grammar格语法 case theory格理论 category 范畴 categorical component 范畴成分 causative 使役的使投动词 center 中心词 central determiner 中心限定词 chain relation 链状关系 chain system 链状系统 choice 选择 choice system 选择系统 circumstance 环境因子 class 词类 class shift 词性变换 clause 小句从句 click 吸气音咂音 clipping 截断法 closed class 封闭类 closed syllable 闭音节 cluster 音丛 coarticulation 协同发音 coda 结尾音节符尾 code 语码信码 cognitive psychology 认知心理学 cognitive system 认知系统 coherence 相关关联 cohension 衔接 co-hyponym 同下义词 colligation 类连结 collocative meaning 搭配意义 color word 色彩词 color word system 色彩词系统 command 指令 common core 共核 common noun 普通名词 communication 交际 communicative competence 交际能 力 communicative dynamism, CD 交际 性动力 communicative language teaching, CLT

机器翻译研究现状与展望

机器翻译是建立在语言学、数学、信息学、计算机科学等学科基础上的多边缘学科。现代理论语言学的发展、计算机科学的进步以及概率统计学的引入, 对机器翻译的理论和方法都产生了深刻的影响。 Weaver机器翻译思想的提出, 开始了机器翻译的研究热潮。Chomsky在50年代后期提出的短语结构语法, 给出了“从规则生成句子”的原则。由于短语结构语法采用单一标记的短语结构来描述句子的构成, 描述粒度过粗, 因此存在约束能力弱、生成能力过强问题, 人们逐渐意识到仅依靠单一的短语结构信息, 不能充分判别短语类型和确认短语边界, 于是, 复杂特征集和词汇主义被引入自然语言语法系统, 广义短语结构语法、词汇功能语法、中心语驱动的短语结构语法等语言学理论也相应地产生。在这个发展过程中, 基于规则方法一直是机器翻译研究的主流。 在基于规则的方法中, 语言规则的产生需要大量的人力,而且大量的语言规则之间往往存在着不可避免的冲突。另外,规则方法在保证规则的完备性和适应性方面也存在着不足。而此时, 统计学方法在自然语言处理的语音识别领域取得了比较好的效果, 于是, 基于统计的机器翻译应运而生。随着双语语料的大量增加、计算机性能的提高, 基于实例的机器翻译方法被提出,并由此泛化产生了基于模板的机器翻译方法。 下面我们分别介绍几种典型的机器翻译方法: (1)基于规则的机器翻译方法

从Chomsky提出转换生成文法后,基于规则的方法一直是机器翻译研究的主流,Chomsky认为一种语言无限的句子可以由有限的规则推导出来。 早期的机器翻译系统, 从体系结构上可以分为直译式、转换式和中间语言式, 它们的不同之处在于对源语言分析的深度, 它们的相同点是都需要大规模的双语词典、大量的源语言推导规则、语言转换规则和目标语言生成规则。其中, 转换式的基于规则方法对源语言分析得比较深, 它涉及到词汇结构分析、语法分析、语义分析, 并完成词汇、语法、语义三层结构从源语言到目标语言的转换, 而且转换式的方法又充分考虑了源语言和目标语言之间的特征联系, 它比中间语言方法更容易获得高质量的翻译结果。因此, 转换式的方法更多地被应用在早期的机器翻译系统中, 整个翻译过程被分为, 源语言分析部分, 转换部分和目标语生成部分。而早期的系统, 如德国西门子的METAL系统、美国的SYSTRAN系统、日本日立公司的ATHENE系统以及中国中软公司的HY-1汉英系统, 都是基于转换的机器翻译系统。 基于规则的机器翻译的优点在于, 规则可以很准确地描述出一种语言的语法构成, 并且可以很直观地表示出来。机器可以按照一组规则来理解它面对的自然语言, 这组规则包含了不同语言层次的规则, 包括用以对源语言进行描述的源语言分析规则、用以对源语言/目标语言之间的转换规则以及用于生成目标语的生成规则。

语料库常用统计方法

3.5语料库常用统计方法 第3章前几节对语料库应用中的几种主要技术做了介绍。通过语料检索、词表和主题词表的生成,可以得到一定数量的句子、词汇或结构。为能更好说明所得到的结果的真正意义,常常需要对它们加以统计学分析。本章主要介绍语料分析中的一些常用统计方法。 3.5.1 语料库与统计方法 介绍相关统计方法之前,首先需要了解为什么语料库应用中需要运用统计方法。在2.1节讲到文本采集时,我们知道文本或会话构成了最终的语料库样本。这些样本是通过一定的抽样方法获得的。研究中,我们需要描述这些样本的出现和分布情况。此外,我们还经常需要观察不同语言项目之间在一定语境中共同出现(简称共现)的概率;以及观察某个(些)语言项目在不同文本之间出现多少的差异性。这些需要借助统计学知识来加以描写和分析。 理论上说,几乎所有统计方法都可以用于语料库分析。本章只择其中一些常用方法做一介绍。我们更注重相关统计方法的实际应用,不过多探讨其统计学原理。这一章我们主要介绍语料分析中的频数标准化(normalization )、频数差异检验和搭配强度的计算方法。 3.5.2 频数标准化 基本原理 通常语料检索、词表生成结果中都会报告频数(frequency, freq 或raw frequency )。那么某词(如many )在某语料库中出现频数为100次说明什么呢?这个词在另一个语料库中出现频数为105次,是否可以说many 在第二个语料库中更常用呢?显然,不能因为105大于100,就认定many 在第二个语料库中更常用。这里大家很容易想到,两个语料库的大小未必相同。按照通常的思维,我们可以算出many 在两个语料库中的出现百分比,这样就可比了。这种情况下,我们是将many 在两个语料库中的出现频数归到一个共同基数100之上,即每100词中出现多少个many 。这里通过百分比得到的频率即是一种标准化频率。有些文献中标准化频率也称归一频率或标称频率,即基于一个统一基准得出的频率。 实例及操作 频数标准化,首先需要用某个(些)检索项的实际观察频数(原始频数,raw frequency )除以总体频数(通常为文本或语料库的总词数),这样得到每一个单词里会出现该检索项多少次。在频数标准化操作中,我们通常会在此基础上乘以1千(1万、1百万)得到平均每千(万、百万)词的出现频率。即: 1000?=总体频数 观测频数标准化频率(每千词) (注:观测频数即检索词项实际出现的次数;总体频数即语料库的大小或总形符数。) 例如,more 在中国学生的作文里出现251次,在英语母语者语料中出现475次。两个语料库的大小分别为37,655词次和174,676词次。我们可以根据上面的公式很容易计算出251和475对应的标准化频率。另外,我们还可以利用Excel 或SPSS 等工具来计算标准化频率。比如,可以将实际观察频数和语料库大小如图3.5.1输入相应的单元格,然后在C1单元格里输入=(A1/B1)*1000即可得到中国学生每千词使用more 约为6.67次。要得到母语

语料库常用术语

语料库常用术语 Type 类符 Tokens 形符 例如“I see a cat and a dog”类符6个,形符7个 Type/token ratio =TTR TTR 是衡量文本中词汇密度的常用方法,可以辅助说明文本的词汇难度。但是,文本中有大量功能词出现,文本每增加一个词,形符就会增加一个,但类符却未必随之增加。这样文本越长,功能词重复次数越多,TTR会越低。因此用TTR衡量词汇密度不合理,于是,出现了标准化类符/形符比,即STTR。例如,计算每个文本1000词的TTR,均值处理,得出STTR。Frequency(频率) 例如每百万词、十万词中,某单词出现次数。常常将某个单词在两个语料库中出现的频率参照两个语料库的容量,用卡方检验或对数似然率进行对比,来确定两个库中该单词的使用是否有差异。 Wordlist词表 根据单词或词组在语篇中出现的频率大小而排列形成的列表。 Ranks Lemma词目,词元 比如go是lemma,对应各种屈折变化形式(inflections),go,goes,went,going,gone共5种屈折变化形式。在分析语言时,需要将它们全部归到go名下,这个过程叫词形还原。Keywords关键词、主题词positive keywords 正关键词negative keywords 负关键词 Concordance 索引(KWIC 语境中的关键词key words in context) 运用索引软件在语料库中查询某词或短语的使用实例,然后将所有符合条件的语言使用实例及其语境以清单的形式列出。通过前后语境,可以分析“collocation词汇搭配”“colligation 类连接、语法搭配”“semantic preference语义倾向”“semantic prosody语义韵”Collocation词汇搭配 搭配强度MI,T-score ,Z-score Colligation类连接、语法搭配 semantic prosody语义韵 词汇的语义韵大体可分为积极语义韵、中性语义韵、消极语义韵。 POS tagging 词性赋码 Regular expression regex 正则表达式

语言学常用术语

语言学常用术语

A List of Commonly-used Linguistic Terminology 语言学常用术语表 Part I General Terms 通用术语 Acquisition 习得 Agglutinative language 粘着语Anthropology 人类学 Applied linguistics 应用语言学Arbitrariness 任意性 Artificial intelligence (AI)人工智能Behaviorism 行为主义Behaviorist psychology 行为主义心理学 Bilingualism 双语现象 Cognition 认知 Cognitive linguistics 认知语言学Cognitive science 认知科学Comparative linguistics 比较语言学Computational linguistics 计算语言学 Corpus-linguistics 语料库语言学Creole 克里奥耳语;混合语 Culture 文化 Descriptive linguistics 描写语言学Design features 识别特征Developmental psycholinguistics 发展心理语言学 Diachronic/historical linguistics历时语言学 Dialect 方言 Dialectology 方言学 Displacement 不受时空限制的特性Dualism 二元论 Duality 二重性 Epistemology认识论 Etymology 辞源学 Experimental psycholinguistics 实验心理语言学 Formalization 形式化 Formal linguistics 形式语言学Forensic linguistics 法律语言学Functionalism 功能主义General linguistics 普通语言学Grammaticality 符合语法性Ideography 表意法 Inflectional language 屈折语 Inter-disciplinary 交叉性学科的Isolating language 孤立语 Langue 语言 Macro-sociolinguistics 宏观社会语言学 Mentalism 心智主义 Micro-sociolinguistics 微观社会语言学 Montague grammar蒙太古语法Neuro-linguistics 神经语言学Orthography 正字法 Orthoepic 正音法的 Paradigmatic 聚合关系 Parole 言语 Pedagogy 教育学;教授法Philology 语文学 Philosophy 哲学 Phonography 表音法 Pidgin 皮钦语;洋泾浜语Polysynthetic language 多式综合语Prescriptive linguistics 规定语言学Psycholinguistics心理语言学Psychology 心理学 Semeiology 符号学 Sociology 社会学 Speech 言语 Sociolinguistics社会语言学Structuralism 结构主义 Synchronic linguistics 共时语言学Syntagmatic 组合关系 Theoretic linguistics 理论语言学Universal grammar 普遍语法Universality 普遍性 Part II Phonology 音位学 Ablaut 元音变化 Acoustic phonetics 声学语音学Affricate 塞擦音 Allophone 音位变体

语料库语言学与中国外语教学

2010年11月November 2010 第33卷第4期Vol.33No.4 现代外语(季刊) Modern Foreign Languages (Quarterly )语料库语言学与中国外语教学 桂诗春 冯志伟杨惠中何安平卫乃兴李文中梁茂成 [编者按] 为推动我国应用语言学研究的新发展,教育部人文社科重点研究基地———广东 外语外贸大学外国语言学及应用语言学研究中心于2010年9月24-25日成功举办了“首届广外应用语言学论坛”,庆贺我国著名语言学家、应用语言学学科的开拓者桂诗春教授八十华诞。期间,举行了题为“语料库语言学与外语教学”的高层论坛,就语料库语言学的现状、发展前景及语料库的建设、共享、应用等展开了互动讨论。以下是根据专家发言,整理后的主要内容。 [中图分类号]H319 [文献标识码]A [文章编号]1003-6105(2010)04-0419-08 语料库语言学的发展前景与资源共享 广东外语外贸大学 桂诗春 1.语料库语言学的发展前景 语料库语言学在外国和国内都发展很快,有的人选择了它作为发展方向,因为它的入门比较容易,上手较快;有的人把语料库语言学作为收集数据的重要手段。但是总的来说,我们的语料库研究还处在比较初级阶段,需要提高。究其原因是很多人把它看成是一种工具或手段,可以运用现有的一些现成的程序和公开的语料库,如Brown ,LOB ,Frown. Flob , BNC ,CLEC ,只要选题得当,就能获得很多量化的数据,从而写出洋洋洒洒的文章来。在计算机和扫描仪的支持下,自行收集一些语言素材,建立一个特定的语料库,也不是什么难事。 我觉得,语料库语言学既是一种工具,但更是一门学科;它是对语言行为进行概率性归纳和概括的一门学科,它本身是跨学科性的,要做语料库语言学研究必须许多方面要有比较雄厚的基础。首先是数学和统计学。Herdan (1960)的一本早期著作,叫做《词次/词型数学》(Type /token Mathematics ),其副标题就是《数理语言学教科书》(A Textbook of Mathematical Linguistics ),当时还是前计算机 时代,但Herdan 觉得有两件语言事实值得我们注意:一是大量语言资料(language in mass ),二是语言排列(language in line ),它们是任何语言运作都不能离开的两个方面。某些语言学研究分支如果考虑到这两个方面,将会从中获益。当时还没有真正的机读语料库, Brown 的语料库在1967年才面世,美国心理 学家John Carroll 根据该语料库以及他后来参与制作500万词的AHI 语料库,所提出的词汇频数对数正态模型(lognormal model )均源于Herdan 所奠定的基础。一直到最近美国Barber 利用计算机对英语语体的各种研究,更是利用了因子分析的统计方法。其次是计算机科学。语料库的发展离不开现代科学技术,其主要表现是个人电脑、扫描仪和大容量硬盘的普及,当初Brown 语料库要动用到大型电脑,而到如今,只需一万元左右就能在家里拥有这些设备,制作出甚至比Brown 还要大的语料库。但是我们往往只注意到硬件部分,而不认识到软件的建设。从事语料库语言学研究的人而不掌握一到两种编成语言,也不可能拓展他们的研究领域,因为他不能根据个人的研究需

可以免费使用的大型英语语料库资源

英语语料库#参考 2012-03-02 22:29:26 ■BNC=The British National Corpus英国国家语料库 https://www.360docs.net/doc/3e2975680.html,/(备用) https://www.360docs.net/doc/3e2975680.html,/bnc/ ■ANC = The American National Corpus美国国家语料库 https://www.360docs.net/doc/3e2975680.html,/ ■COCA = Corpus of Contemporary American English 美国当代英语语料库 https://www.360docs.net/doc/3e2975680.html,/ ■COHA = Corpus of Historical American English 美国近当代英语语料库 https://www.360docs.net/doc/3e2975680.html,/coha/ ■BOE=Bank of English 柯林斯英语语料库 https://www.360docs.net/doc/3e2975680.html,/wordbanks/ ■NMC=New Model Corpus 新规范语料库 https://www.360docs.net/doc/3e2975680.html,/ ■ARC=ACL Anthology Reference Corpus (ARC) 文选参考语料库 https://www.360docs.net/doc/3e2975680.html,/auth/preloaded_corpus/aclarc/ske/first_form ■BAWE=British Academic Written Eng Corpus (BAWE) 英国学术书面语语料库 https://www.360docs.net/doc/3e2975680.html,/auth/preloaded_corpus/bawe2/ske/first_form https://www.360docs.net/doc/3e2975680.html,/AcaDepts/ll/app_ling/internal/bawe/sketch_engine_bawe.htm download ■BASE= British Academic Spoken English Corpus (BASE) 英国学术口语语料库 https://www.360docs.net/doc/3e2975680.html,/fac/soc/celte/research/base/ ■SCTS=Scottish Corpus Of Texts and Speech苏格兰口语与书面语语料库 https://www.360docs.net/doc/3e2975680.html,/ ■SCTS=Corpus Of Modern Scottish Writing 当代苏格兰语实库 https://www.360docs.net/doc/3e2975680.html,/cmsw/ Slang https://www.360docs.net/doc/3e2975680.html,/ (American, English, and Urban slang) https://www.360docs.net/doc/3e2975680.html,/slang/ (UK) https://www.360docs.net/doc/3e2975680.html,/ https://www.360docs.net/doc/3e2975680.html,/cybereng/slang/ https://www.360docs.net/doc/3e2975680.html,/ https://www.360docs.net/doc/3e2975680.html,/

相关文档
最新文档