利用WordPilot在外语教学中自建小型语料库

利用WordPilot在外语教学中自建小型语料库
利用WordPilot在外语教学中自建小型语料库

中图分类号:H319.9

文献标识码:A

文章编号:100125795(2003)062004220004

利用WordPilot 在外语教学中自建小型语料库

梁茂成

(南京大学外国语学院,江苏南京 210093)

摘 要:在外语教学界,语料库技术已经成为一个热门话题并孕育着十分广阔的应用前景。Word 2Pilot 正是为了顺应这种趋势而开发的软件系统,它使得语料库技术方便地进入语言课堂。本文简述了WordPilot 的基本功能、特点和操作方法,探讨了它应用于语料库辅助外语教学的理论基础和益处,旨在

促进基于语料库的外语教学活动的展开。

关键词:WordPilot ;语料库;语料库的创建;外语教学

Using WordPilot To Create A Small -Scale Corpus For EFL Class

L IA N G M ao 2cheng

(Foreign Languages School ,Nanjing University ,Nanjing ,Jiangsu 210093,China )

Abstract :Corpus technology has become a hot issue and is promising broad applications in the foreign language teaching field.WordPilot ,a software system developed in compliance with this very trend ,makes it very easy for corpus technology to enter the language classroom.This paper gives a introduction to the ba 2sic functions ,features and the operation of the software and probes into the theoretical basis and the benefits of its application to corpus -aided foreign language teaching ,with an aim to promote corpus -based foreign language teaching.

K ey w ords :WordPilot ;Corpus ;Corpus Creation ;Foreign Language Teaching

从外语教学的角度看,大型语料库是可供语言教师参考

和使用的大型数据库,教学大纲和语言教材应该根据其内容而合理地编制。而应用于语言课堂中的语料库则有所不同。它一般说来是精心采集的、旨在帮助语言学习者理解语言现象的小型语料库(Guy Aston ,1995:259)。本文介绍的WordPilot 正是为了达到这一目的而设计的一种语言教学和学习工具。它利用现代语料库技术,对个人采集的生语料进行加工,以达到检索和统计等目的。语料库及其检索、统计等过程可以通过视频展示设备,采用十分有利于学生学习的方式呈现在学生面前,从而有效地辅助外语课堂教学。

1 WordPilot 简介

WordPilot 是Langsoft Online (http ://https://www.360docs.net/doc/7d3538965.html, )公司推出的基于Microsoft Windows 操作系统的优秀软件

产品,其主要目的在于服务于语言教学和语言学习。WordPilot 运行时的主界面如下图所示(图1)。

WordPilot 具有良好的语言教学辅助功能,主要概括如下:1.1 卓越的检索功能

在WordPilot 主界面上的常用工具中,有一个功能强大的检索(concordancing )功能,这也是现代语料库

作者简介:梁茂成(19642)男,汉,副教授,博士生。研究方向:应用语言学。收稿日期:2002210224

第94期2003年12月

外语电化教学ETFL T

No.94Dec. 2003

图1 WordPilot的界面及布局

技术的核心部分。使用者只需要在检索框中输入需要检索的词或短语,点击Search按钮,语料文本中所有包含该词或短语的语境便会即刻出现在右边的窗口中,并且列成排序清单,十分便于使用者了解词汇或短语的使用频率、使用方法和常见搭配形式。用户只要点击右边清单中的任一项,语料文本里对应的语境中有关该词或短语的使用情况便可一目了然。

除此之外,WordPilot还配备了模糊检索功能,以便使用者对记忆模糊的词汇或短语,以及相同词汇的不同屈折形态(如coupled和couples)、派生形态和复合形态同时进行检索。WordPilot还配备了检索中模糊度(fuzziness)等级的可调节功能。模糊检索也可以通过在检索框中输入通配符(wild cards) (如coupl3等)进行,这样可以更加方便使用者。

WordPilot还附带了一个词库(Word Bank),其中列出了英语中的常用词汇和短语。使用者只需要点击界面左侧下方的Word Bank选项卡,再点击Word Bank中的相应词汇或短语,即可很方便地达到检索的目的。

使用者还可以通过WordPilot的查看(View)菜单的频率统计(Summary)和搭配统计(Collocations)功能对被检索词汇及其各种变化形态或短语的出现频率进行统计,以便发现语料库中蕴藏的语言规律。

在WordPilot的右侧窗口中,检索到的若干目标整齐地排列为五列,即序号、前语境(preceder)、检索项(expression)、后语境(succeeder)和源文件(source file)。源文件项告知使用者该语境出自于哪一个文本文件库中。

1.2 有益于语言研究和学习的附属功能

WordPilot具有多种实用的附属功能。

WordPilot内嵌了TTS文本转语音(text-to-speech)系统,这样,使用者在对任何词汇或短语进行搜索时,便可听到所选部分的地道的美式英语发音。

用户还可以通过WordPilot,根据需要,从任何文本格式的文档提取词汇清单(Word List),进行进一步地筛选,删除多余的词汇,最终创建所需要的词汇清单(如易混词清单、常用动词清单等)。

此外,选择WordPilot界面左侧下方的Web选项卡,可以打开其网络浏览功能。这时,界面左侧显示的是WordPilot所提供的语言研究和语言学习常用网站链接,其中包括英语词典、语言学、多语词典、文本源和写作教程等语言研究和学习资源(使用者也可以根据自己的需要进一步扩充已有的链接),十分方便用户的学习和研究。只需点击相关链接,系统即刻就会变成一个语言学习和研究的专业浏览器。

WordPilot还带有一个十分有用的Microsoft Word模板文件。在WordPilot安装完成之后,用户打开Microsoft Word文字处理系统,会发现屏幕上方的常用工具按钮中增加了Examples 和Speak两个按钮(图2)。用户在使用Microsoft Word时,如果发现不熟悉的词,或者需要了解某词的典型用法,只要用鼠标选中该词,点击Examples按钮,WordPilot即刻便被激活,并把库中含有该词的语境全部展现在用户面前。这一功能在语言教师备课、语言学习者写作时显得十分方便,在课堂上也同样不乏用场。此外,用户在使用Microsoft Word时,如果遇到不知道其发音的词,只要选中该词,点击Speak按钮,即刻可以激活文本转语音引擎(text-to-speech engine),可清晰地听到该词

的美式标准发音,必要时甚至可以反复地听。

图2 WordPilot附带的Microsoft Word模板

2 WordPilot应用于语料库教学的理论基础语料库的建设在近二十几年里获得了突飞猛进的发展,众多的大型语料库不断问世,为语言教学和研究提供了大量可靠的素材。然而,各种教学材料,特别是把英语作为外语的语言教材,几乎没有受到语料库研究的任何影响(Dieter Mindt, 1996:232)。语料库在语言测试方面也具有极大的应用前景,但迄今为止,这方面的研究几乎是空白(Charles Alderson, 1996:248)。我国的一些学者也意识到,计算机辅助教学代表着一种新的教育方式,最能适应以学生为中心的开放式教学(冯志伟,1999:89),而语料库辅助教学正是计算机辅助教学的一种重要体现,它使得计算机辅助教学不再流于形式,也使得计算机辅助教学有了丰富的素材。很多语言学家强烈呼吁,语料库在语言教学方面的应用亟待加强。

诚然,大型语料库在语言教学大纲的制定(Dieter Mindt, 1996:232)、语言教材的编写和语言测试(Charles Alderson, 1996:249)等方面有着极大的指导作用和广阔的应用前景,但这些语料库因为过于庞大,价格昂贵,往往可及性(accessibility)较低,在实际课堂教学和课后学习中使用较为不便,而WordPi2

lo作为一种开放式系统,在如何把语料库用于语言教学课堂方面作出了很有益的、卓有成效的尝试和弥补。

就其实质而言,用WordPilot来辅助语言教学就是利用现代语料库技术,特别是通过检索(concordancing)的方法来辅助语言教学活动。把检索方法用于语言教学中至少有两方面的优势:第一,在学生的学习过程中融入更多的语言真实性(au2 thenticity),也使学生不再依赖教师的主观感悟(introspectio)和直觉(intuition),因而学到的语言知识更为切合实际,反映语言使用的真实情况,其优势是不言而喻的(Douglas Biber&Randi Reppen,2002:203);第二,把学习变成研究,使学生在学习过程中培养出一种自我探索的感觉(Tim Johns,1991),激发学生的好奇心,这一点十分符合我们提倡的研究式教育。

从外语教学的角度看,笔者认为,WordPilot最大价值在于其语料的可选性、使用的便捷性、软件使用的互动性和软件的词汇测试功能,以及其能够直观地展示语言单位(词汇、短语等)的使用频率、常见搭配等有关信息。

有人认为,通过语料库学习语言,学生会感到自己在进行一种探索、发现和归纳(Guy Aston,1995:259)。可以说,有了WordPilot,语言学习者会自主地探索语言规律,而这种自主性正是语言学习成功的必备条件。更为重要的是,语料库语言是语言使用更为真实的写照,使学生对语言使用有更为准确的理解。与此相反,传统的语言教学中教学要点的确定依靠的是语言教学者对语言的自我感悟,这种感悟有时与语言学习者的实际需要背道而驰

本族语言的使用者常常使用什么样的语言,外语学习者最需要学会什么,以及外语教学中应该在哪些语言现象和词汇上加大时间的投资(Graeme K ennedy,1998:281)。从外语教学的现状看,大部分教材教给学生的是词汇的本义(literal sense),而语料库研究结果表明,实际使用中的词汇,其词义更多的却并非其本义(Guy Aston,1995:258)。比如说,英语教学者常常会首先把英语动词bet的常规词义(canonical meaning)———“用……打赌”或“与……打赌”(即意味着可能有得失的“赌”)———教授给学生,而语料库检索显示,bet的这一词义极少使用,在十有八九的情况下,其词义是“断定”或“确信”(如I bet he will turn up tomorrow.)(H.G.Widdowson,1990:37)。另外,语言教学常常侧重于其实相对次要的语法形式,而对于真正重要的语法现象,人们在课堂教学中则往往怀疑“语言初学者在课堂之外是否需要学会或理解”(Guy Aston,1995:258)。外语教学工作者应该意识到,外语教学应该让事实说话,而不是靠感悟去推测。由此可见,语料库辅助的外语教学是更为科学的教学途径,是大势所趋,而WordPilot可以帮助语言教师尽快完成教学方式由感悟到科学的转化。

语料库辅助的语言测试是一个极具潜力且急待开发的领域,WordPilot在这一方面也作出了很有意义的尝试。虽然通过WordPilot只能设计完形填空题,但这是对语言真正使用情况的测试,十分有别于一些语言教师根据个人的喜好和感悟而设计的、貌似客观的主观化测试题。3 语料的采集和语料库的创建

3.1 语料的采集

语料的采集对于任何语料库来说都是至关重要的。在获得语言材料的引用许可的前提下,应该考虑的是选择何种语言材料。语料的采集应该遵循严格的科学标准。

教学用语料库是一种专门语料库(specialized corpus),它不同于普通语料库(general corpus),因此在选择语料时应该充分考虑所选语料的专业特点和难易程度。为了让WordPilot更好地服务于外语教学,在采集语料时应该考虑以下几个方面(参见John Sinclair,1991:14-19)。

(1)语域(register)的定位。针对不同类型的语言课程,应选择相应语域的语料,如选择日常对话的转写文本作为高级阅读课的语言材料是明显不妥的,因为对话体现的是口语的特征。一般说来,阅读课的语言材料以选择书面用语或文学用语为宜。

(2)注意语料的典型性(typicality)。教学语料一定要注意其实用性,因为语言教学的真正目的是培养学生的语言应用能力。如果选择的语料过于片面,如选择十分具有独特语言特点的作家的作品作为教学语料,势必导致学生的语言知识实用价值的缺乏,达不到外语教学的真正目的。最典型的语言应该是最为大众化的语言,如来自新闻报刊、日常交流等方面的语言,因为这样的语言是人们日常交流语言的同质(homogeneous)部分,是最典型的使用中的语言。当然,如果建立语料库的目的是提供学生对学术类文章或其它专门用语(如ESP)的理解能力,则应该选择对应的语料建库。

(3)注意语料的时代性。外语教学的最重要目的是培养学生的语言应用能力,教会学生使用活的语言。因此,一般的教学语料库不宜选择已经过时的语言作为语料,这样的语料不能代表当今语言的用法,往往与语言教学的目标相悖。

(4)确定语料库的大小(overall size)。教学用语料库重在说明语言的用法,并不在于统计语言中词汇的使用频率,因而无需过大,而且这样也便于语言课堂的展示。当然,如果语料库太小无法涵盖学生需要掌握的语言现象,必然会失去其实用价值。教学者应该根据需要自行确定语料库的大小,并且在必要时对语料库内容进行扩充。

(5)语料难度(difficulty)的确定。选择难度过大的语料会使得学生望而生畏,而选择过于简单的语料势必会使得学生丧失学习的兴趣。建库者应该考虑使用Range12等合适的统计工具对所选语料的难度进行有效控制。

了解了语料采集的原则之后,紧接着的问题便是文本源(text source)问题,即从何处得到所需要的语料。文本源的选择应该视语言教学的具体需要而定。笔者曾从事英语专业本科二年级的阅读课教学,而且自己建立了一个小型语料库,文本源主要从以下途径获得:

(1)网页。网络是一个语言大宝库,网络语言资源无处不在。比如说网上有许多新闻网站,提供大量的当代新闻,建库时可以选择合适的网页内容作为文本源。网页上的文本大多

以html或htm格式存在,平时浏览网页遇到合适的材料时,可选择浏览器“文件”菜单的“另存为”选项,将文件保存为纯文本格式备用,或选择并复制所需材料到文字处理系统,然后将其保存为纯文本格式备用。

(2)光盘版《大英百科词典》(Encyclopedia Britannica)、EN2 CARTA等。光盘版《大英百科词典》、ENCARTA等中含有大量的语言材料,而且搜索后可以以html格式浏览,合适的材料可以按照以上同样的方法采集。

(3)扫描。遇到合适的语言读物印刷品,可以将印刷品扫描并保存为纯文本格式备用。

(4)网络上的文本源。WordPilot的附属功能中提供了大量的文本源,使用者可以尝试从其中获取部分语料。

另外值得注意的是,建立一般的教学语料库时,最好不要从同一种文本源中采集所有语料,而应该兼顾多种风格和专业题材的语言,保证语料的典型性。

3.2 为WordPilot创建语料库

得到纯文本格式的语料后,余下的工作就简单了。

首先,在WordPilot所在文件夹的libraries子文件夹中创建另一子文件夹,将已经得到的纯文本格式文件保存于其中。运行WordPilot,选择File菜单的New选项,会出现“新建”对话框,此时选择text library选项。然后,选择Edit菜单的Add text file(s)选项,系统会再次弹出对话框,在对话框中打开刚刚存放于libraries文件夹下新建的文件夹中的纯文本文件,此时对话框会自动关闭。最后,选择File菜单中Save as选项,键入您喜欢的库文件名称保存库文件即可。

至此,语料库创建完毕,您即刻可以享受语料库带来的便利,教学也一定会如虎添翼,其乐无穷。

4 结论

“语料库语言学已经变成主流”,这是著名语料库语言学家Jenny Thomas和Mick Short在他们一起编著的Using Corpora for Language Research一书序言中的第一句话。在当今时代,现代技术已经渗透到所有的学术领域,外语教学自然也不应该例外。WordPilot作为一种语料库软件工具,为外语教学和研究提供了一个极好的平台,使语料库技术走到了日常外语教学活动之中,具有很大的应用价值。□

参考文献

[1] Dieter Mindt.English Corpus Linguistics and the Foreign Language

Teaching Syllabus,in Using Corpora for Language Research,edited by Jenny[M].Thomas and Mick Short,Longman Group U K Limit2 ed,1996.

[2] Charles Alderson.Do Corpora Have A Role in Language Assessment,

in Using Corpora for Language Research[M].edited by Jenny Thomas and Mick Short,Longman Group U K Limited,1996.

[3] Graeme Kennedy.An Introduction to Corpus Linguistics[M].Addi2

son Wesley Longman Limited,1998.

[4] Guy Aston.Corpora in Language Pedagogy:Matching Theory and

Practice,in Principles&Practice in Applied Linguistics[M].edited by Guy Cook and Barbara Seidlhofer.New Y ork:Oxford University Press,1995.

[5] Douglas Biber&Randi Reppen.What Does Frequency Have to Do

with Grammar Teaching[J].in Studies in Second Language Acquisi2 tion,2002,24:199-208.

[6] H.G.Widdowson.Aspects of Language Teaching[M].Oxford:

Oxford University Press,1990.

[7] John Sinclair.The Nature of Evidence,in Looking Up:An Account

of the COBU ILD Project in Lexical Computing[J].edited by John Sinclair.London:Collins EL T,1987.

[8] John Sinclair.Corpus,Concordance[M].Collocation,Oxford Uni2

versity Press,1991.

[9] Johns,Tim.Should you be persuaded:Two examples of data driven

learning[J].In Johns,Tim,and Philip K ing(Eds.).Classroom concordancing,EL R Journal4.University of Birmingham,1991. [10] Krashen,S. D.The Input Hypothesis:Issues and implications

[M].New Y ork:Longman Group Limited,1985.

[11] Krashen,S. D.and Terrell,T. D.The Natural Approach:Lan2

guage acquisition in the classroom[M].New Y ork:Prentice Hall,

1988.

[12] 冯志伟.应用语言学综论[M].广东教育出版社,1999.

欢迎赐稿 欢迎订阅《外语教学》

《外语教学》(双月刊)系中国常用外国语类核心期刊,本刊主要有语言学、翻译理论、外国文学、外语教学等栏目,双月刊,定价8元。全国各地邮局征订发行,邮发代号52-170,如果误订可直接与编辑部联系。联系地址:西安外国语学院62号信箱《外语教学》编辑部,联系人:周世范,邮编:710061,电话:(029) 5309400,传真:(029)5309400,网址:https://www.360docs.net/doc/7d3538965.html,,电子邮件:xuebao@https://www.360docs.net/doc/7d3538965.html,。

《西安外国语学院学报》

《西安外国语学院学报》(季刊)系中国人文社会科学核心期刊。本刊以外语为主,兼顾人文社会科学,主要有外语教学与研究、语言学研究、翻译研究、外语教育、语言文化、中外文史、中学英语等栏目。季刊,定价8元,全国各地邮局征订发行,邮发代号52-181,如果误订可直接与编辑部联系。联系地址:西安外国语学院62号信箱学报编辑部,联系人:周世范,邮编: 710061,电话:(029)5309400,传真:(029)5261350,网址:www. https://www.360docs.net/doc/7d3538965.html,,电子邮件:xuebao@https://www.360docs.net/doc/7d3538965.html,

语料库与语料库建设

语料库和语料库建设 一、什么叫语料库 1、定义 语料库,通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是指按照一定的 语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。 目前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。我们看到,以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设计是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。 语料库不同于电子文档,语料库的建设有特定的研究目的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。 语料库具有以下特征:1、语料库的设计与建设有系统的语言学理论指导,语料库的开发具有明确而又具体的目的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,由此保证基于语料库的语言研究的科学性、客观性。3、语料文本是连续的文本或话语片断,而不是孤立的句子或词汇,可以借以获得语法关系、用法、词语搭配以及语篇信息。4、语料库以当代先进的计算机技术为技术手段,语料库语料通过电子文本形式储存并且是通过计算机处理的,具有资源优势和处理速度优势。5、基于语料库的研究以量化研究为基石,以概率统计为手段,以数据驱动为基本理念。6、语料库既是一种研究方法,又代表着一种新的研究思维。 二、语料库产生的背景及发展历史 对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪50年代中期, 在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛围无疑促进了对语料的重视。1959年夸克(R.Quirk)等人着手进行的“英语用法调查”(Survey of English Usage)通过系统的调查建立了第一个现代英语语料库,在此基础上完成的《现代英语语法》( A Grammar of Contemporary English)和《英语语法大全》(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写,在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。

关于汉语中介语语料库建设研究报告

汉语中介语语料库建设研究 沈锐1,黄薇2 (1.红河学院教育技术系2.红河学院国际合作与交流处XX蒙自661100) 【摘要】本文探讨母语非汉语学习者的汉语中介语语料库建设的主要思路以及具体实现方法,重点介绍了汉语中介语语料的加工方法以及语料数据库的设计思路,并阐明了该语料库在对外汉语教学和研究中的应用价值。 【关键词】语料库;中介语;汉语教学 语料库是指按一定的语言学原则收集的语言文本或话语片断而建立的电子资料库。本文所述汉语中介语料库是基于语言学中中介语理论设计与实施的。中介语是心理语言学中第二语言习得的一种研究模式,其将语言学习者置于观察中心,去研究他们如何有意识地向目的语的正确形式迁移的各种动态表现。中介语理论自20世纪60年代末出现并发展至今,虽然时间并不长,但越来越受到语言学家以及一线教师的关注。无论是进行中介语研究还是使用中介语理论进行第二语言教学都需要收集分析大量的语料,因而通过信息化手段收集和整理语料变得十分迫切。在对外汉语教学中,通过建设和使用母语非汉语学习者的汉语中介语语料数据库,可以收集不同背景和不同学习阶段外国学生及少数民族学生的汉语书面语和用文字转写的口语语料,并对语料属性、词汇、语法等单位进行计算机处理,以实现对各种条件和要求下的语料数据进行便捷的机器检索和提取,可以为研究母语非汉语学生学习和习得汉语的规律提供大量的各种单项的或综合的资料和信息。因此,我们提出了建设汉语中介语语料库的课题,由于语料库建设是一项浩大的工程,限于人力物力条件,本文讨论的是中

小规模的语料库。 一、需求分析和框架设计 语料库建设不能盲目进行,首先要进行调研,对语料库的应用需求进行分析。半自动化的语料库构建是目前语料库建设的主流技术,目的是在确保语料库质量的前提下,减少人工参与的比例,增加自动化程度,目标是在较短时间内建设一个有一定规模,质量可靠、可扩充、成本低,能够全面、细致地记录母语非汉语学习者在汉语学习过程中的语言表征和研究他们汉语习得过程的语料库。依照软件工程的方法,建立数据库首先需要进行需求分析,在需求分析过程中要注意汉语中介语语料库主要是服务于对外汉语教学的一线教师,以及辅助母语非汉语学生自学,因此主要注重以上二类服务对象的应用需求,确保建成的语料库能够对第二语言教学、研究以及教材的编写提供持续支持。基于以上要求,在对中介语语料库的建设思路及框架做了总体考虑,基本归纳为以下三个方面: 1、中介语语料库为专门用途语料库,主要目的为研究母语非汉语的学生在学习汉语过程中的中介语现象而设计制作的。 2、中介语现象存在于母语非汉语的学生在学习汉语过程中的书面语料及口语语料中,由于口语语料的收集、分析和标注都较为困难,因此在建库的第一阶段只考虑收录书面语料,这有利于语料库的快速建设与使用。 3、语料标注的加工标准使用中科院计算所汉语词性标记集V3.0。 二、语料收集与加工

当汉语语料库文本分词规范草案

973当代汉语文本语料库分词、词性标注加工规范 (草案) 山西大学从1988年开始进行汉语语料库的深加工研究,首先是对原始语料进行切分和词性标注,1992年制定了《信息处理用现代汉语文本分词规范》。经过多年研究和修改,2000年又制定出《现代汉语语料库文本分词规范》和《现代汉语语料库文本词性体系》。这次承担973任务后制定出本规范。本规范主要吸收了语言学家的研究成果,并兼顾各家的词性分类体系,是一套从信息处理的实际要求出发的当代汉语文本加工规范。本加工规范适用于汉语信息处理领域,具有开放性和灵活性,以便适用于不同的中文信息处理系统。 《973当代汉语文本语料库分词、词性标注加工规范》是根据以下资料提出的。 1.《信息处理用现代汉语分词规范》,中国国家标准GB13715,1992年 2.《信息处理用现代汉语词类标记规范》,中华人民共和国教育部、国家语言文字工作委员会2003年发布 3.《现代汉语语料库文本分词规范》(Ver 3.0),1998年 北京语言文化大学语言信息处理研究所清华大学计算机科学与技术系4.《现代汉语语料库加工规范——词语切分与词性标注》,1999年 北京大学计算语言学研究所 5.《信息处理用现代汉语词类标记规范》,2002年, 教育部语言文字应用研究所计算语言学研究室 6.《现代汉语语料库文本分词规范说明》,2000年 山西大学计算机科学系山西大学计算机应用研究所 7.《資讯处理用中文分词标准》,1996年,台湾计算语言学学会 一、分词总则 1.词语的切分规范尽可能同中国国家标准GB13715《信息处理用现代汉语分词规范》(以下简称为“分词规范”)保持一致。本规范规定了对现代汉语真实文本(语料库)进行分词的原则及规则。追求分词后语料的一致性(consistency)是本规范的目标之一。 2.本规范中的“分词单位”主要是词,也包括了一部分结合紧密、使用稳定的词组以及在某些特殊情况下可能出现在切分序列中的孤立的语素或非语素字。本文中仍用“词”来称谓“分词单位”。 3.分词中充分考虑形式与意义的统一。形式上要看一个结构体的组成成分能否单用,结构体能否扩展,组成成分的结构关系,以及结构体的音节结构;意义上要看结构体的整体意义是否具有组合性。 4. 本规范规定的分词原则及规则,既要适应语言信息处理与语料库语言学研究的需要,又力求与传统的语言学研究成果保持一致;既要适合计算机自动处理,又要便于人工校对。 5.分词时遵循从大到小的原则逐层顺序切分。一时难以判定是否切分的结构体,暂不切分。 二、词性标注总则 信息处理用现代汉语词性标注主要原则有三个: (1)语法功能原则。语法功能是词类划分的主要依据。词的意义不作为划分词类的主要依据,

国际儿童口语语料库录写系统的赋码原则初探

国际儿童口语语料库录写系统的赋码原则初探* 王立非1,刘斌2 (1.南京大学, 江苏南京 210093; 2.解放军国际关系学院,江苏南京 210039) 摘要:国际儿童口语语料库是目前世界上最完整的口语语料库之一, 对开展口语语料库研究和语言习得研究具有重要价值,本文探讨该语料库 的录写系统的赋码原则与具体操作问题,对促进我国英语口语语料库的建 立和研究具有借鉴作用和启示意义。 关键词:国际儿童口语语料库;英语口语语料;语料库语言学 中图分类号:文献标识码:文章编号:The CHILDES Corpus: Coding and Operation of the CHAT Tool WANG Lifei1, LIU Bin2 (1. Nanjing University Nanjing, Jiangsu Prov., 210093; 2. PLA International Studies University, Nanjing, Jiangsu Prov., 210039, China) Abstract: This paper describes the basic coding and operating principles of CHAT for the CHILDES talk-bank, a very valuable corpus for studies on spoken English and language acquisition. It aims to promote the development and use of the CHILDES as a reference for constructing the EFL spoken corpus in China. Key words: CHILDES;English spoken corpus;corpus linguistics 1.引言 新世纪的语言学研究已进入计算机时代,基于语料库的研究成果不断涌现,国际儿童口语语料库CHILDES(Child Language Data Exchange System)就是众多语料库中的一员,已有一千项基于这个语料库的研究成果发表。该语料库由美国麦克阿瑟基金会资助,于1984年开始筹建,经过近20年的建设,已成为目前世界上最大的儿童口语语料库。到目前为止,该语料库已收集了包括英语、汉语在内的25种语言。用户可直接从网上免费登录、使用或下载(https://www.360docs.net/doc/7d3538965.html,/CHA T.html)语料。CHILDES语料库由三部分组成,第一部分是儿童英语口语语料库(DATA-BASE),第二部分为文本赋码系统(CHAT),第三部分为语料分析程序(CLAN),均可在网上免费下载。本文探讨该语料库的录写系统的文本赋码原则和操作,目的是对我国建设英语口语语料库提供借鉴与启示。 2.录写赋码系统的途径与原则

CCL语料库与检索系统方案

一关于CCL语料库及其检索系统 (如果时间紧张,可直接跳到最后的举例部分!) 1.1 CCL语料库及其检索系统为纯学术非盈利性的。不得将本系统及其产生的检索结果用于任何商业目的。CCL不承担由此产生的一切后果。 1.2 本语料库仅供语言研究参考之用。语料本身的正确性需要您自己加以核实。 1.3 语料库中所含语料的基本内容信息可以在“高级搜索”页面上,点击相应的链接查看。比如: “作者列表”:列出语料库中所包含的文件的作者 “篇名列表”:列出语料库中所包含的篇目名 “类型列表”:列出语料库中文章的分类信息 “路径列表”:列出语料库中各文件在计算机中存放的目录 “模式列表”:列出语料库中可以查询的模式 1.4 语料库中的中文文本未经分词处理。 1.5 检索系统以汉字为基本单位。 1.6 主要功能特色: ?支持复杂检索表达式(比如不相邻关键字查询,指定距离查询,等等); ?支持对标点符号的查询(比如查询“?”可以检索语料库中所有疑问句); ?支持在“结果集”中继续检索; ?用户可定制查询结果的显示方式(如左右长度,排序等); ?用户可从网页上下载查询结果(text文件); 二关于查询表达式 本节对CCL语料库检索系统目前支持的查询表达式加以说明。 2.1 特殊符号 查询表达式中可以使用的特殊符号包括8个: | $ # + - ~ ! : 这些符号分为四组: Operator1: | Operator2: $ # + - ~ Operaotr3: !

Delimiter: : 符号的含义如下: (一) Operator1: Operator1是二元操作符,它的两边可以出现“基本项”(关于“基本项”的定义见2.2) (1) | 相当于逻辑中的“或”关系。 (二) Operator2:Operator2是二元操作符,它的两边可以出现“简单项”(关于“简单项”的定义见2.3) (2) $ 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数小于或等于Number (3) # 表示它两边的“简单项”出现于同一句中,不考虑前后次序。两个“简单项”之间相隔字数小于或等于Number (4) + 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数刚好等于Number (5) - 表示它左边的“简单项”出现于句子中,并且,在右边相隔Number个字的范围内,-号右边的“简单项”不出现。 (6) ~ 表示它左边的“简单项”出现于句子中,并且,在左边相隔Number个字的范围内,~号右边的“简单项”不出现。 (三)Operator3:Operator3是一元操作符。 (7) ! 表示它后面的“简单项”是本次查询的主关键字符串,显示查询结果时以该“简单项”作为中心来进行定位。 注意: Operator2后面的Number是必须的,不能省略。Number=0表示相 邻,Number=1表示间隔1个单位,其余依此类推。 (四)Delimiter:西文冒号 : 是分隔符 (8) : 跟在 path,author,name,type,pattern 等关键字后面,用于分隔关键字和它们的取值。这样形成的查询式我们称之为“过滤项”(见下面2.5) 注意:上述特殊字符不能作为基本项在语料库中进行检索。path,author等关键字可以作为基本项进行检索。 2.2 基本项 指不包含特殊符号和空格的连续字符串

如何自建英语语料库

论自建小型学习者语料库的方法及作用 ——以自建中学生英语写作语料库为例 曹鹤 北京市第三十一中 摘要: 大型语料库的出现和发展在研究语言的用法、翻译、教学、教材编写以及词典编撰等方面起着重要作用,但对于处于一线从事基础教育的外语教师而言,针对性和使用性不强。本文以自己建立小型基础英语教学中中学生写作语料库为例介绍了小型学习者语料库建设的可行性、方法和应用,借以提倡广大一线从事基础教育的教师利用高科技所带来的成果,武装和丰富自己,让自己的教学科学化、客观化。 关键词:小型学习者语料库;英语写作;基础教育 自20世纪60年代至今,语料库从萌芽阶段已经发展到广泛应用于语言研究的各个方面,如:词典编撰、语言学研究、教材编写、翻译、语言教学等等。同时,计算机技术的高速发展使语料库(Corpus)在过去的50多年来也得到了长足的发展,突出表现就是大型语料库的出现。大型语料库为语言研究提供了可靠的信息,但正因为其包罗万象、内容泛泛,在辅助基础教学研究等方面缺乏针对性,实用性不强。作者认为广大英语教师可以根据自己的实际需要建设小型学习者语料库,开展有针对性地研究,并将其应用到教学中。本文以建立中学生写作语料库为例介绍建设小型学习者语料库的方法、以及如何使用小型语料库等方面做主要论述,向基础英语教师展示如何运用这一新技术来辅助英语写作教学。 一、语料库简介 建设语料库之前,我们应首先明白什么是语料库。语料库并不复杂,它通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体(杨惠中,2004)。语料库可以帮助人们观察和把握语言事实,分析和研究语言系统的规律。从语料库语言学的发展历程可以看出,语料库的用途主要体现在对语言现象以及语言本质的研究,如语言统计、词典编撰、词汇搭配和自然语言处理等方面(顾曰国,1988)。现在语料库也开始逐渐应用到语言教学研究中。根据邢富坤(2006)的统计,国内基于语料库的教学研究的数量越来越大,将语料库应用于外语教学的趋势也越来越明显。

语料库与语料库建设

语料库与语料库建设 语料库和语料库建设 一、什么叫语料库 1、定义 语料库,通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是 指按照一定的 语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。 口前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。我们看到,以上关于语料库的儿种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设讣是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。语料库不同于电子文档,语料库的建设有特定的研究LI 的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档U标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。 语料库具有以下特征:1、语料库的设讣与建设有系统的语言学理论指导,语料库的开发具有明确而乂具体的U的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行

研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。 2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,山此保证基于语料库的语言研究的科学性、客观性。 3、语料文本是连续的文本或话语片断,而不是孤立的句子或词汇,可以借以获得语法关系、用法、词语搭配以及语篇信息。 4、语料库以当代先进的计算机技术为技术手段,语料库语料通过电子文本形式储存并且是通过讣算机处理的,具有资源优势和处理速度优势。5>基于语料库的研究以量化研究为基石,以概率统汁为手段,以数据驱动为基本理念。6、语料库既是一种研究方法,乂代表着一种新的研究思维。 二、语料库产生的背景及发展历史 对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪 50年代中期, 在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛圉无疑促进了对语料的重视。1939年夸克(R. Quirk)等人着手进行的“英语用法调查” (Survey of English Usage)通过系统的调查建立了笫一个现代英语语料库,在此基础上完成的《现代英语语法》(A Grammar of Contemporary English )和《英语语法大全》(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写,在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。 20世纪六十年代后,语言学研究主流从经验主义转向理性主义,乔姆斯基的语言能力说被广泛接受,转换生成语法学派批评语料库研究方法,认为,1、基于语料库的方法有误。乔姆斯基等认为语言学应当以人脑的语言机制即语言能力为研究对象,语料库收集的只是人们的语言运用,语言运用会因超语言因素的影响而发生变化,它并

语料库

关于语料库的三点基本认识:语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源; 在语言学中,语料库(Corpus)指大量文本的集合,库中的文本(称为语料)通常经过整理,具有既定的格式与标记,特指计算机存储的数字化语料库。 语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。 分类 语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。有人曾经把语料库分成四种类型:(1)异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种语料;(2)同质的(Homogeneous):只收集同一类内容的语料;(3)系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;(4)专用的(Specialized):只收集用于某一特定用途的语料。 除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。目前已经累积了大量各种类型的语料库,如:葡萄牙语种树库、面向文本分类研究的中英文新闻分类语料库、路透社文本分类训练语料库、中文文本分类语料库、大开放字幕库OpenSubtitles的多语言平行语料数据(OpenSubtitles Corpus)、《圣经》双语语料库("Bible" bilingual corpus)、Short messages service(SMS ) corpus(短消息服务(SMS)语料)等。 特征 语料库有三点特征 1.语料库中存放的是在语言的实际使用中真实出现过的语言材料,因此例句库通常不应算作语料库; 2.语料库是承载语言知识的基础资源,但并不等于语言知识;

利用WordPilot在外语教学中自建小型语料库

中图分类号:H319.9 文献标识码:A 文章编号:100125795(2003)062004220004 利用WordPilot 在外语教学中自建小型语料库 梁茂成 (南京大学外国语学院,江苏南京 210093) 摘 要:在外语教学界,语料库技术已经成为一个热门话题并孕育着十分广阔的应用前景。Word 2Pilot 正是为了顺应这种趋势而开发的软件系统,它使得语料库技术方便地进入语言课堂。本文简述了WordPilot 的基本功能、特点和操作方法,探讨了它应用于语料库辅助外语教学的理论基础和益处,旨在 促进基于语料库的外语教学活动的展开。 关键词:WordPilot ;语料库;语料库的创建;外语教学 Using WordPilot To Create A Small -Scale Corpus For EFL Class L IA N G M ao 2cheng (Foreign Languages School ,Nanjing University ,Nanjing ,Jiangsu 210093,China ) Abstract :Corpus technology has become a hot issue and is promising broad applications in the foreign language teaching field.WordPilot ,a software system developed in compliance with this very trend ,makes it very easy for corpus technology to enter the language classroom.This paper gives a introduction to the ba 2sic functions ,features and the operation of the software and probes into the theoretical basis and the benefits of its application to corpus -aided foreign language teaching ,with an aim to promote corpus -based foreign language teaching. K ey w ords :WordPilot ;Corpus ;Corpus Creation ;Foreign Language Teaching 从外语教学的角度看,大型语料库是可供语言教师参考 和使用的大型数据库,教学大纲和语言教材应该根据其内容而合理地编制。而应用于语言课堂中的语料库则有所不同。它一般说来是精心采集的、旨在帮助语言学习者理解语言现象的小型语料库(Guy Aston ,1995:259)。本文介绍的WordPilot 正是为了达到这一目的而设计的一种语言教学和学习工具。它利用现代语料库技术,对个人采集的生语料进行加工,以达到检索和统计等目的。语料库及其检索、统计等过程可以通过视频展示设备,采用十分有利于学生学习的方式呈现在学生面前,从而有效地辅助外语课堂教学。 1 WordPilot 简介 WordPilot 是Langsoft Online (http ://https://www.360docs.net/doc/7d3538965.html, )公司推出的基于Microsoft Windows 操作系统的优秀软件 产品,其主要目的在于服务于语言教学和语言学习。WordPilot 运行时的主界面如下图所示(图1)。 WordPilot 具有良好的语言教学辅助功能,主要概括如下:1.1 卓越的检索功能 在WordPilot 主界面上的常用工具中,有一个功能强大的检索(concordancing )功能,这也是现代语料库 作者简介:梁茂成(19642)男,汉,副教授,博士生。研究方向:应用语言学。收稿日期:2002210224 第94期2003年12月 外语电化教学ETFL T No.94Dec. 2003

商务英语语料库的建设及应用初探

商务英语语料库的建设及应用初探 【摘要】语料库语言学作为一门新兴的语言学分支,其影响已遍及语言学研究的各领域。将语料库的方法应用于商务英语词汇教学中,发挥其语料真实丰富、计算机程序强大的重新组织语言数据的能力,既能提高学生商务词汇学习的效率和积极性,也能提高商务英语教学质量。本文从商务英语语料库的建设及其应用价值入手,以期语料库语言学为商务英语教学带来更多成果。 【关键词】商务英语语料库地方课程 商务英语(Business English)是指商务场景下所应用到的英语,作为特殊目的英语(English for Specific Purpose)具有很强的专业性。商务英语跟普通英语(English for General Purpose)最大区别之一就是专业词汇的大量使用,因此,词汇教学在商务英语教学中的作用不容忽视。语料库(Corpus)是语言素材的集合体,能快速准确地提供诸如构词、搭配、语境等多方面的语料及信息。在外语学习中,语料库能够缩小课堂语言与真实语言的差距、培养学习者的语感和学习能力及研究能力,所以用语料库的方法来学习商务英语词汇既可以刺激学生的学习积极性,也可以更加准确、更加有效地掌握商务英语中专业特点较强的词汇。 1 语料库及其发展 语料库可以概述为运用随机抽样的方法,收集自然出现的连续的语言,运用文本或话语片断,并按照一定的语言学原则建成的具有一定容量的语料体系。 语料库的发展大致经历了三个阶段:第一代语料库以20世纪60年代的Brown Corpus以及LOB Corpus为代表,由于是语料库发展的最初时期,所以规模都比较小,这个时期的语料库只能用来考查常用语言现象的频率,无法展现语言的全貌。第二阶段以20世纪80年代的Birmingham Collection of English Language Text以及Longman/Lancaster English为代表,这一时期的语料库建设以电子语料库的兴起为主要特征,语料库的容量不断扩大,种类不断增多。第三阶段从20世纪90年代至今,是语料库建设、研究与应用的迅猛发展阶段,功能更为强大的计算机系统软件的开发与应用致使第二代超大型计算机语料库开始出现,语料库进入了发展的黄金年代。 2 商务英语词汇及其特征 商务英语源于普通英语,并基于普通英语的基本语法、句法结构和词汇语,有普通英语的一些语言学特征。与此同时,作为应用在商务场合的英语,商务英语又是英语语言知识和商务专业知识的综合,因而又具有独有的专业特征。 2.1 在文体风格上,商务英语词汇属于庄重文体(frozen style)。庄重文体,即各体英语中正式程度最高的一种。这种“正式”一是为了在表达上追求准确、专业、标准化的效果,二是为了在思维上追求清晰和条理。许多商务词汇都表现出这一特性。 2.2 商务英语大量使用表意清楚的专业词汇和专业术语。专业词汇和专业术语是在专业领域用以代表部分专业知识的词汇,商务英语是英语在商务场合中的应用,内容的高度专业化势必导致专业词汇的大量使用。 2.3 商务英语具有古体特点,这种古体特点的一个主要标志是古体词语的使用。古体词是一种具有鲜明文体色彩的词汇成分,尽管古体词在现代英语口语和一般书面语中极少使用,但在商务英语文本中,古体词却大量出现,充分体现出其庄重严肃的文体风格。

国家标准《建立术语研究用语料库的一般原则与方法》.

国家标准《建立术语研究用语料库的一般原则与方法》 (征求意见稿)编制说明 一、任务来源 随着科学技术的发展,新术语、新概念层出不穷,为了更好的管理、规范日益增多的新术语,需要借助更先进的工具及方法。目前国内外已经建立了大量的术语数据库,为了更好的对大量术语资源进行研究就需要建立术语语料库,大规模真实语料库是术语研究的可靠基础和最主要的来源,建设与术语库相配合的、统一规范的精加工术语语料库,可以使我们对中文术语构成、术语专业分布、术语地域分布、术语来源以及术语发展等各种复杂现象获得更为直观、深刻的全面认识,进而为推动中文术语规范化和标准化的进程、促进语言信息处理技术的总体发展起到关键的作用。因此制定建立术语语料库的标准已经十分必要。 GB/T XXXX-XXXX《建立术语研究用语料库的一般原则与方法》项目由中国标准研究中心提出,于2002年列入国家质量监督检验检疫总局制、修订国家标准项目计划,项目编号:20020411-T-424。该标准由中国标准研究中心归口,计划于2002年底完成。 二、工作情况: 1、标准起草小组的同志积极参与对《建立术语研究用语料库的一般原则与方 法》国家标准的制定工作,在工作中深入的研究了术语语料库的功能,吸取国内外先进经验,制定出一套实用的术语语料库建立标准。 2、进行了广泛的调研工作,搜集了使用者的一些建议,同时争求了一部分专 家的意见,作为本项目的重要参考。 3、在制定标准过程中,标准起草工作组根据实际情况制定工作计划,保证工 作顺利进行。 4、标准起草工作组多次召开会议,反复研究了《建立术语研究用语料库的一 般原则与方法》讨论稿,广泛征求了该专业领域的专家及用户的意见,对

语料库建设及使用专题研修班

语料库建设及使用专题研修班 时间:2014年11月8-9日 地点:上海海事大学2C305(计算机实验室) 主讲人:北京外国语大学中国外语教育中心梁茂成李文中许家金 一、基本概念 1.为什么欧洲对语料库语言学会有如此大的兴趣呢?在美国占统治地位的 Chomsky语言学的研究焦点是句法,它感兴趣的是哪些句子是可能的(What is possible?),追求的是语言理论的“解释力”,例如Colorless green ideas sleep furiously、The rat the cat the dog chased ate died都是可能的,但语料库语言学对此却没有兴趣。因为实际上没有人会这样说。语料库语言学感兴趣的是哪些语言现象在实际使用上是很有可能的(What is probable?),这和统计学中的概率有关,不是可否的问题,而是多少的问题,也就是语言的使用问题。 2.一个小型文本集并不是真正意义上的语料库。真正意义上的语料库是一个按照 一定的采样标准采集而来的、能够代表一种语言或者某语言的一种变体或文类的电子文本集。可以说,一个语料库由若干个电子文本构成,而这些电子文本作为一个整体可以代表某语言或者某语言的某种变体或文类。语料库语言学以大量精心采集而来的真实文本(authentic texts)为研究素材,主要通过概率统计的方法得出结论,因此语料库语言学从本质上讲是实证性的(empirical)。 3.文本:文本可以保存生(raw)语料,即未经任何标注的语料,称为生文本(raw text)。文本中也可以保存经过人工或自动标注的语料,这种文本称为标注文本(annotated text)。文本中的标注信息可以标示语料的来源、文本的内部结构、文本中的语言单位等多种语言信息和非语言信息。 4.经人工或自动处理后,原来的生文本获得了“增值”(Leech 1991),文本中所包

中研院现代汉语标记语料库使用说明

「內容檢索」使用說明 「內容檢索」的檢索條件詞設定,在於輸入檢索條件詞,在語料庫中將所有在「內容檢索」設定的檢索條件符合者,並在「自訂語料庫」設定範圍內,包含檢索條件詞的文句挑出並顯示。檢索的方式分兩種:一、單項條件檢索方式:一次設定一項檢索條件;二、多項條件檢索方式:一次設定一項檢索條件,包括「and檢索條件」,以及利用「續設條件」設定「or檢索條件」。檢索的對象分四種:1. 關鍵詞;2. 重疊詞;3.詞類;4. 特徵。 A.單項條件檢索:一次設定一項檢索條件 1.關鍵詞:將滑鼠移到「關鍵詞」的框框內,鍵入欲搜尋的關鍵詞, 再將滑鼠移到「執行」按下。 ?關鍵詞可以由下列幾種符號組合而成: ?中文字 ?? :表示一個任意字元 ?* :表示零至無限多個任意字元 ?範例: ?鍵入「電話」,會搜盡包含「電話」的文句。 ?鍵入「電*」,會搜盡包含以「電」開頭的詞(單字 詞、雙字詞、多字詞都包括在內,如:電、電話、 電視機)的文句。 ?鍵入「電?」,會搜盡包含以「電」開頭的雙字詞的 文句。 ?鍵入「*電」,會搜盡包含以「電」結尾的詞(單字 詞、雙字詞、多字詞都包括在內)的文句。 ?鍵入「??電」,會搜盡包含以「電」結尾的三字詞 的文句。 ?鍵入「*電*」,會搜盡出現過含有「電」的詞(單 字詞、雙字詞、多字詞都包括在內)的文句。 ?鍵入「?電?」,會搜盡包含將「電」置於中央的三 字詞的文句。 ?鍵入「?電*」,會搜盡包含將「電」置於第二字的 詞(雙字詞、多字詞都包括在內)的文句。 ?鍵入「????」,會搜盡含有任何四字詞的文句。 2.重疊詞:將滑鼠移到「重疊詞」的框框內,鍵入欲搜尋的重疊詞 種類,再將滑鼠移到「執行」按下。或者將滑鼠移到「重疊詞」 框框旁的箭頭,按一下,即出現四種重疊詞種類,在所欲搜尋的 重疊詞種類按一下,再將滑鼠移到「執行」按下。 ?重疊詞種類共分四種,如介面所示: ?重疊詞AAB-如:試試看、走走路 ?重疊詞ABB-如:試看看、亮閃閃 ?重疊詞AABB-如:高高興興、平平安安 ?重疊詞ABAB-如:高興高興、研究研究

自建小型口译语料库用于口译教学

龙源期刊网 https://www.360docs.net/doc/7d3538965.html, 自建小型口译语料库用于口译教学 作者:吕倩 来源:《青年文学家》2013年第07期 摘要:语料库在教学中的应用已经越来越受到重视,将语料库建设融合到口译教学是实现IT技术与教学的整合。本分分析了语料库建设对口译教学的重要意义,提出自建小型口译语 料库用于口译教学。 关键词:口译教学;语料库;自建 [中图分类号]:G42 [文献标识码]:A [文章编号]:1002-2139(2013)-7--01 一、引言 Shlesinger探讨了语料库口译研究作为语料库翻译研究分支的可行性,将口译研究纳入语料库翻译研究的视野。他指出口译语料库的建立可以采用可比语料库和平行语料库的形式,并提出如何运用当前单语语料库来进行口译研究。(Shlesigner, 1998:486)然而,国内外对口译语料库的研究都较为滞后,语料库翻译研究的对象一直局限于笔译,很少涉及口译。虽然口译语料的采集难度大,口译语料库建设费时费力,但口译作为翻译研究的一个重要领域,理应成为语料库翻译研究的对象。目前已建成的口译语料库十分少,且已经建立的语料库中,大多都不开放且规模较小,并不适合用于口译教学。根据口译的特殊性和当前口译语料库匮乏的现状,本论文提出了自建小型口译语料库用于口译教学。 二、语料库种类的选择 2.1 平行语料库 Mona Baker 将与翻译研究有关的语料库分为三类:平行语料库,多语语料库和可比语料库。(Baker, 1995:230-260)平行语料库收集某种语言的原创文本和相应的翻译成另一种 文字的文本。平行语料库的建成使语言学家能对比两种文本在词汇、句子和文体上的差异,平行语料库最典型的应用范围是翻译者培训、双语词汇教学、词典编纂和机器翻译。例如:在口译中的词汇搭配研究中,“经济增长”的表达究竟是“economic growth” 还是“economic development”,通过搭配的概率统计,便可得知应该是“economic growth”。平行语料库的建立在目前看来对于翻译教学的意义是最大的。 2.2 音文同步

自建小型化工英语语料库

2019年9月第46卷第9期 云南化工 Yunnan Chemical Technology Sep.2019 Vol.46,No.9 doi:10.3969/j.issn.1004-275X.2019.09.075 自建小型化工英语语料库 杜燕航,田文杰 (空军工程大学,陕西西安710038) 摘要:对自建小型化工英语语料库进行了阐述,希望对相关研究人员提供参考,促进涉外化工行业中翻译工作的开展。 关键词:自建;化工英语;语料库 中图分类号:H315.9文献标志码:A文章编号:1004-275X(2019)09-187-03 Self-built Small Chemical English Corpus Du Yanhang,Ttian Wenjie (Air Force Engineering University,Xi’an710038) Abstract:This thesis elaborates on the construction of a small chemical English corpus,hoping to provide reference for relevant researchers and promote the translation in the exchange between Chinese and foreign chemical enterprises. Key words:Establishment;Chemical English;Corpus 随着经济全球化的高速发展,世界各国间的经济往来日益频繁,在这些交往过程中,高效率、高质量的翻译,已经成为直接影响交流速度和效果的重要因素。离开了好的翻译,不仅可能造成经济损失,严重的甚至可能引发国际争端。大量的翻译需求在为译员提供了更多的就业机会和展示才华的舞台的同时,也对译员的能力和译文的质量提出了更高的要求。在多语言并存的背景下,传统的人工翻译已经难以适应数量巨大的翻译需求,而语料库由于其自身独有的优势,成为了人工翻译的重要补充,甚至在有些情况下,如术语和缩略语的翻译方面,可以完全替代人工翻译。本论文把自建小型化工语料库作为研究对象,对研究现状、研究方法和研究意义进行了阐述和说明。 1研究现状 1.1语料库在国外的发展 1961年,全球第一个机读语料库(Brown Corpus)在美国布朗大学诞生。其后,随着计算机技术的发展,已经发展为各种不同类型的第二代语料库。语料库一般可分为平行语料库(parallel corpora)、多语语料库(multilingual corpus)、可比语料库(comparable corpus)。目前在翻译实践中应用较多的是平行语料库。这种语料库中含由于有大量专业准确的双语术语和句子,为翻译实践、翻译教学、翻译语言研究提供了良好的基础。但是目前,对化工英语这种专门用途的平行语料库的研究开展较少。 1.2语料库在国内的使用 目前,国内先后建立了多个应用于不同领域的专业语料库。语料库技术在教学、字典编撰、辅助译员翻译等方面都得到了广泛的应用。通过语料库的使用,译员可以不用花费大量时间去熟悉记忆相关领域的术语,而是将更多的精力放在提高译文质量上,实际翻译中的效率就会大大提高。可以说,语料库具有很强的现实意义广阔的发展前景。译员根据自己的实际需要,在不单纯追求语料范围和大小的情况下,自建目的明确的小型专门语料库既是必要的也是可行的。 2研究方法 2.1语料的搜集 和普通英语相比,化工英语具有专业性强、术语繁多、缩略语使用广泛等特点。在化工英语知识的学习中,优秀的中英文对照教材非常重 187--

现代汉语语料库加工规范

现代汉语语料库加工规范 ——词语切分与词性标注 1999年3月版 北京大学计算语言学研究所 1999年3月14日 ⒈ 前言 北大计算语言学研究所从1992年开始进行汉语语料库的多级加工研究。第一步是对原始语料进行切分和词性标注。1994年制订了《现代汉语文本切分与词性标注规范V1.0》。几年来已完成了约60万字语料的切分与标注,并在短语自动识别、树库构建等方向上进行了探索。在积累了长期的实践经验之后,最近又进行了《人民日报》语料加工的实验。为了保证大规模语料加工这一项重要的语言工程的顺利进行,北大计算语言学研究所于1998年10月制订了《现代汉语文本切分与词性标注规范V2.0》(征求意见稿)。因这次加工的任务超出词语切分与词性标注的范围,故将新版的规范改名为《现代汉语语料库加工规范》。 制订《现代汉语语料库加工规范》的基本思路如下: ⑴ ⑴ 词语的切分规范尽可能同中国国家标准GB13715“信息处理用现代汉语分词规范” (以下简称为“分词规范”)保持一致。由于现在词语切分与词性标注是结合起来进行的,而且又有了一部《现代汉语语法信息词典》(以下有时简称“语法信息词典”或“语法词典”)可作为词语切分与词性标注的基本参照,这就有必要对“分词规范”作必要的调整和补充。 ⑵ ⑵ 小标记集。词性标注除了使用《现代汉语语法信息词典》中的26个词类标记(名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,增加了以下3类标记:①专有名词的分类标记,即人名nr,地名ns,团体机关单位名称nt,其他专有名词nz;②语素的子类标记,即名语素Ng,动语素Vg,形容语素Ag,时语素Tg,副语素Dg等;③动词和形容词的子类标记,即名动词vn(具有名词特性的动词),名形词an(具有名词特性的形容词),副动词vd(具有副词特性的动词),副形词ad(具有副词特性的形容词)。合计约40个左右。 ⑶ ⑶ 规范的多元性。既要适应语言信息处理与语料库语言学研究的需要,又要能为传统的语言研究提供充足的素材;既要适合计算机自动处理,又要便于人工校对。 ⑷ ⑷ 词组(短语)本位汉语语法体系的指导作用。汉语的词类与句法成分之间不存在简单的一一对应关系。同一个句法成分可以由不同词性的词来充任;而具有确定词性的同一个词又可以充当不同的句法成分,形式上可以没有任何不同的标记。《现代汉语语法信息词典》是在词组本位语法体系的语法思想指导下研制的,其最基本的成果是对数以万计的词语根据其在实际语料中的语法功能分布,特别是优势功能分布决定了它们的词性(即它们所属的词类)。在进行词性标注时,应当充分利用《现代汉语语法信息词典》,承接这个基本成果,避免仅根据词在所在的句子中充当的句子成分来决定其词性。同时考虑到语言学界对汉语词类的划分存在不同意见,在标记集中增加了名动词vn,名形词an,副动词vd,副形词ad。当然,增加这些标记并非只是缓冲不同意见,主要是为了给词的兼类研究提供计量根据,也 为汉语词的概率语法属性描述作准备。 ⑸ 为了对新闻语料中大量存在的专有名词(地名、团体机构名称等)进行研究(从命名规律到自动识别),在切分与标注的基础上对由若干个词组合而成的短语型专有名词加上方括号和类型标记(主要是nt,nz,还有少量的ns)。 ⑹ 不是孤立使用本规范。在使用本规范对语料库进行加工时,将与《现代汉语语法信息词典》等项研究成果密切配合。当现在的研究和将来的应用(中文信息检索、中文信息提取、汉外机器翻译等)相衔接时,就可以方便地利用词典中丰富的词语语法属性信息。而

相关文档
最新文档