语料库

Background Information

语料库的概念

语料库是指按照一定的语言学规则，利用随机抽样的方法收集的有代表性的语言材料的总汇，它是语言材料的样本。

语料库通常指为语言研究机构收集的，具有一定容量的大型电子文本语料库。它是由口语语料和书面语的样本汇集而成，用来代表特定的语言或语言变体，或经过加工后带有语言学信息标注的文本的集合。

语料库的分类

按照语料库所涉及的语言种类，语料库课分为单语语料库，双语平行语料库(parallel corpus)和多语语料库(multilingual corpus)；

按照语言涉及的题材，语料库可分为普通语料库(general corpus)和专门用途语料库(specialized corpus)；

按语料的来源，又可分为口语语料库和书面语语料库；

按语料库是否被标注，语料库可分为生语料库或原始语料库(raw corpus)和熟语料库或标注语料库(annotated corpus)

In linguistics, a corpus (plural corpora) or text corpus is a large and structured set of texts (now usually electronically stored and processed). They are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules on a specific universe.

A corpus may contain texts in a single language (monolingual corpus) or text data in multiple languages (multilingual corpus). Multilingual corpora that have been specially formatted for side-by-side comparison are called aligned parallel corpora. In order to make the corpora more useful for doing linguistic research, they are often subjected to a process known as annotation. An example of annotating a corpus is

part-of-speech tagging, or POS-tagging, in which information about each word's part of speech (verb, noun, adjective, etc.) is added to the corpus

in the form of tags. Another example is indicating the lemma (base) form of each word. When the language of the corpus is not a working language of the researchers who use it, interlinear glossing is used to make the annotation bilingual.

Terminology:

双语或多语语料库Bilingual or multilingual corpus

机器翻译技术machine translation technology

双语词典编纂技术bilingual lexicography technique

跟踪研究工作follow-up study

设计、采集、编码和管理design, collection, coding and management

Translation Version：

关于双语或多语语料库的研究目前大致可分为三类：

The research on bilingual or multilingual corpus can be divided into three categories currently:

一是研究双语语料的对齐技术（Alignment），国内外学者就此提出多种策略和方法，现在已经出现了许多对齐双语或多语语料的程序或工具；

First is the study of bilingual corpus alignment technology .The scholars at home and abroad propose various strategies and methods about it. There have been a lot of procedures or tools of bilingual or multilingual corpus alignment at present.

二是研究双语语料的各种应用，如在基于统计的机器翻译技术、基于实例的机器翻译技术，双语词典编纂技术中，双语语料库都发挥着十分重要的作用；

Second is the all kinds of applications on the research of bilingual corpus . For example, bilingual corpus play an important role in the statistics-based machine translation technology, example-based machine translation

technology and bilingual lexicography technique.

三是双语语料库的设计、采集、编码和管理问题。目前比较著名的语料库编码方案有TEI 文本编码标准以及CES标准，两者均基于SGML标记语言。

Third is about the design, collection, coding and management issues of the bilingual corpus. The relatively well-known corpus of encoding scheme are the TEI text encoding standard and CES standard, both of which based on the SGML markup language.

就前两类研究来说，中国国内目前做了较多的跟踪研究工作，而对于第三类研究，即双语语料库尤其是涉及汉语的双语语料库的建设、编码和管理研究，探索工作似乎做的相对较少。

In terms of first two research, many follow-up studies have been made in China at present. For the third type of the study , particularly in relation to the bilingual corpus of Chinese bilingual corpus construction, coding and management research. It seems that few work has been done relatively .

自建小型语料库在英语教学中的运用

自建小型语料库在英语教学中的运用引言：随着语料库语言学近年来的发展，运用电脑语料库进行教学已经成为现代外语教育的新趋势。各种大型语料库（如LOB, BROWN, ELEC）已被广泛用于课堂教学的很多方面，如语料库在语法教学中的应用（何安平，2001；关文玉，2004），语料库在英语精读课中的应用（林丽云，2004）以及语料库在词汇（莫咏仪，2004；邓飞，2004）及写作（胡玉迎，2004）等方面的应用。然而，大型语料库最初的建库目的并非直接用于课堂教学，其语料规模庞大，就语言教学的具体方面而言，难免缺乏针对性，而且，由于价格，市场等原因，个人很难购买到大型语料库及检索软件。因此，在日常教学中，个人教学语料库的建设就显得尤为重要。Ragan（2001）指出小型语料库已成为以课堂为中心的实证教学研究的有力手段。而国内目前对个人教学语料库的研究还相对贫乏，本文将初步探讨自建小型语料库在帮助学生理解课文篇章主题意义方面的作用。 1．自建小型语料库的特征 1．1 针对性强。首先，与大型语料库相比，自建小型语料库规模小，但在内容选择上却比较有针对性，建库者可以根据自己教学及学生自主学习的需要科学的选择合适的语料，从而，使语料能够充分体现学习者的需求，满足不同层次学习者的需要，如目前大多数小学都开设了英语课，但适合这些初学者的语料库却几乎没有。在这种情况下，老师便可以通过因特网搜集儿童英语的材料和儿童感兴趣的话题制成小型语料库，从而是儿童能从开始就学到地道的英语。其次，小型语料库易于突出语言的语域和语体特征，正如Beaugr （2001）所说，依据特定的语域，语篇和话题而建的小型语料库有助于学习者培养语言的体裁，语域，语篇感，深化对语言在具体环境下的涵义的理解。 1．2 实效性强。与大型语料库相比，小型语料库在内容选择上非常灵活，可以避免选择那些语法正确但已经过时的语料，使语料库能跟上语言不断发展变化的步伐，尤其是新闻，杂志等语料更是能把最前沿的语言变体及新词，新句带给学习者。另外，小型语料库标注比较灵活，能满足更多学习者的个性化需求，而且，检索方便快捷，学习者可以在自己的操作过程中去发现目标语的各种语法特征和规律，便于学习者进行自主学习。 2．自建小型语料库促进英语教学的实例正如Guy（1997）所说，小型语料库有助于学习者通过建构陈述性和程序性知识培养语言使用能力。目前计算机的使用已经相当普遍，所以对中学生灌输有关计算机方面的知识是非常有必要的。下面我们将以the use of computer 一文为例，说明在引导学习者建构该篇课文主题意义及对已有知识进行扩展方面，自建小型语料库能起什么作用。学习者通过日常接触，对有关计算机方面的基础知识已经有了一定的基本图式，如计算机是一种高科技产品，运用广泛，速度快，因特网，游戏等。然而，若要比较全面的建构出有关计算机的图式，则还需对已有图式进行深入和扩展，如对计算机功能，利弊，历史，前景等方面知识的掌握。为了使学习者能够最大限度熟悉该话题，建构起该话题的心理词库，流利准确的表达该话题的相关知识，我们将利用自建的语料库的词频显现和语境共现功能，为学习者提供大量真实的语料，让学习者在自己观察，分析，概括的基础上归纳出相关图式，建构起该话题的陈述性知识；并通过小组讨论，任务汇报，课堂演示等方法扩展和巩固该话题的图式，从而，实现程序性知识的建构。 2．1 建立相关微型语料库在大学英语第二册中有一篇the use of computer的课文，主要介绍了计算机的历史及目前计算机在各个行业中的广泛运用。为了向学习者提供更多的相关语料，笔者另外从因特网上搜集了十篇难度和体裁相当的相关文章，通过对无关内容的删减，加工，标注后制成微型

语料库与语料库建设

语料库和语料库建设一、什么叫语料库 1、定义语料库，通俗意义上指的是语言材料库。严格意义上的语料库（corpus）是指按照一定的语言学原则，运用随机抽样方法，收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。目前，语言学家对于语料库的定义不尽相同，如辛克莱（Sinclair）认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集，旨在用作语言的样本”。阿特金斯等（Atkins & Clear）认为语料库是“按照明确的设计标准，为某一具体目的而集成的大型文本库”。赫努（Renouf）认为语料库是“由大量收集的书面语或口头语构成，并通过计算机储存和处理，用于语言学研究的文本库”。我们看到，以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集；不同之处在于前两个定义指出语料库的设计是有明确的设计标准的，赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。语料库不同于电子文档，语料库的建设有特定的研究目的和具体用途，因此在语料抽样范围和文类覆盖方面都力求取得平衡，在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料，其语言材料之间的关系较为松散。语料库具有以下特征：1、语料库的设计与建设有系统的语言学理论指导，语料库的开发具有明确而又具体的目的；如，布朗语料库用于对20世纪60年代的美国英语的研究，LOB是与布朗语料库对齐的同时期的英国英语语料库，可用以对英国英语进行研究，也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料，不是随意的语言材料的堆积，更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性，由此保证基于语料库的语言研究的科学性、客观性。3、语料文本是连续的文本或话语片断，而不是孤立的句子或词汇，可以借以获得语法关系、用法、词语搭配以及语篇信息。4、语料库以当代先进的计算机技术为技术手段，语料库语料通过电子文本形式储存并且是通过计算机处理的，具有资源优势和处理速度优势。5、基于语料库的研究以量化研究为基石，以概率统计为手段，以数据驱动为基本理念。6、语料库既是一种研究方法，又代表着一种新的研究思维。二、语料库产生的背景及发展历史对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪50年代中期，在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛围无疑促进了对语料的重视。1959年夸克（R.Quirk）等人着手进行的“英语用法调查”(Survey of English Usage)通过系统的调查建立了第一个现代英语语料库，在此基础上完成的《现代英语语法》（ A Grammar of Contemporary English）和《英语语法大全》（A Comprehensive Grammar of the English Language）对现代英语进行了系统全面的描写，在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。

哪里有可以免费使用的大型英语语料库资源-外语教学与研究出版社

语料库相关资源 David Lee语料库研究书签 Bookmarks for Corpus-based Linguists (David Lee) https://www.360docs.net/doc/2118710674.html,.au/~dlee/CBLLinks.htm (https://www.360docs.net/doc/2118710674.html,/corpora) 常用语料库资源链接汇集（语料天涯） https://www.360docs.net/doc/2118710674.html,/corpus/ 互动平台 https://www.360docs.net/doc/2118710674.html,/forum/ 入门读物专著梁茂成、李文中、许家金，2010，《语料库应用教程》。北京：外语教学与研究出版社。Hunston, Susan. 2002. Corpora in Applied Linguistics. Cambridge: Cambridge. University Press. （世界图书出版社引进） Kennedy, Graeme. 1998. An Introduction to Corpus Linguistics. London: Longman. （外研社引进）期刊论文中国期刊网 EBSCO英文期刊数据库书店可以买到的语料库相关书籍 Aijmer, K. & B. Altenberg (Eds.). 2004. Advances in Corpus Linguistics. Papers from the 23rd International Conference on English Language Research on Computerized Corpora (ICAME 23). Amsterdam: Rodopi. （世界图书出版社引进） Austermühl, F. 2001. Electronic Tools for Translators《译者的电子工具》. Manchester: St. Jerome Publishing. （外研社引进） Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad & Edward Finegan. 1999. Longman Grammar of Spoken and Written English. Longman Publications Group. （外研社引进） Biber, Douglas, Susan Conrad & Randi Reppen. 1998. Corpus Linguistics. Cambridge: Cambridge University Press. （外研社引进） Connor, U & T. Upton (Eds.). 2004. Applied Corpus Linguistics: A Multidimensional Perspective. Amsterdam: Rodopi. （世界图书出版社引进）

国际儿童口语语料库录写系统的赋码原则初探

国际儿童口语语料库录写系统的赋码原则初探* 王立非1，刘斌2 （1．南京大学, 江苏南京 210093； 2．解放军国际关系学院，江苏南京 210039）摘要：国际儿童口语语料库是目前世界上最完整的口语语料库之一，对开展口语语料库研究和语言习得研究具有重要价值，本文探讨该语料库的录写系统的赋码原则与具体操作问题，对促进我国英语口语语料库的建立和研究具有借鉴作用和启示意义。关键词：国际儿童口语语料库；英语口语语料；语料库语言学中图分类号：文献标识码：文章编号：The CHILDES Corpus: Coding and Operation of the CHAT Tool WANG Lifei1, LIU Bin2 (1. Nanjing University Nanjing, Jiangsu Prov., 210093； 2. PLA International Studies University, Nanjing, Jiangsu Prov., 210039, China) Abstract: This paper describes the basic coding and operating principles of CHAT for the CHILDES talk-bank, a very valuable corpus for studies on spoken English and language acquisition. It aims to promote the development and use of the CHILDES as a reference for constructing the EFL spoken corpus in China. Key words: CHILDES；English spoken corpus；corpus linguistics 1．引言新世纪的语言学研究已进入计算机时代，基于语料库的研究成果不断涌现，国际儿童口语语料库CHILDES（Child Language Data Exchange System）就是众多语料库中的一员，已有一千项基于这个语料库的研究成果发表。该语料库由美国麦克阿瑟基金会资助，于1984年开始筹建，经过近20年的建设，已成为目前世界上最大的儿童口语语料库。到目前为止，该语料库已收集了包括英语、汉语在内的25种语言。用户可直接从网上免费登录、使用或下载(https://www.360docs.net/doc/2118710674.html,/CHA T.html)语料。CHILDES语料库由三部分组成，第一部分是儿童英语口语语料库（DATA-BASE），第二部分为文本赋码系统（CHAT），第三部分为语料分析程序（CLAN），均可在网上免费下载。本文探讨该语料库的录写系统的文本赋码原则和操作，目的是对我国建设英语口语语料库提供借鉴与启示。 2．录写赋码系统的途径与原则

可以免费使用的大型英语语料库资源

英语语料库#参考 2012-03-02 22:29:26 ■BNC=The British National Corpus英国国家语料库 https://www.360docs.net/doc/2118710674.html,/（备用） https://www.360docs.net/doc/2118710674.html,/bnc/ ■ANC = The American National Corpus美国国家语料库 https://www.360docs.net/doc/2118710674.html,/ ■COCA = Corpus of Contemporary American English 美国当代英语语料库 https://www.360docs.net/doc/2118710674.html,/ ■COHA = Corpus of Historical American English 美国近当代英语语料库 https://www.360docs.net/doc/2118710674.html,/coha/ ■BOE=Bank of English 柯林斯英语语料库 https://www.360docs.net/doc/2118710674.html,/wordbanks/ ■NMC=New Model Corpus 新规范语料库 https://www.360docs.net/doc/2118710674.html,/ ■ARC=ACL Anthology Reference Corpus (ARC) 文选参考语料库 https://www.360docs.net/doc/2118710674.html,/auth/preloaded_corpus/aclarc/ske/first_form ■BAWE=British Academic Written Eng Corpus (BAWE) 英国学术书面语语料库 https://www.360docs.net/doc/2118710674.html,/auth/preloaded_corpus/bawe2/ske/first_form https://www.360docs.net/doc/2118710674.html,/AcaDepts/ll/app_ling/internal/bawe/sketch_engine_bawe.htm download ■BASE= British Academic Spoken English Corpus (BASE) 英国学术口语语料库 https://www.360docs.net/doc/2118710674.html,/fac/soc/celte/research/base/ ■SCTS=Scottish Corpus Of Texts and Speech苏格兰口语与书面语语料库 https://www.360docs.net/doc/2118710674.html,/ ■SCTS=Corpus Of Modern Scottish Writing 当代苏格兰语实库 https://www.360docs.net/doc/2118710674.html,/cmsw/ Slang https://www.360docs.net/doc/2118710674.html,/ (American, English, and Urban slang) https://www.360docs.net/doc/2118710674.html,/slang/ (UK) https://www.360docs.net/doc/2118710674.html,/ https://www.360docs.net/doc/2118710674.html,/cybereng/slang/ https://www.360docs.net/doc/2118710674.html,/ https://www.360docs.net/doc/2118710674.html,/

中国语料库研究的历史与现状

中国语料库研究的历史与现状语言学的研究必须以语言事实作为根据，必须详尽地、大量地占有材料，才有可能在理论上得出比较可靠的结论。传统的语言材料的搜集、整理和加工完全是靠手工进行的，这是一种枯燥无味、费力费时的工作。计算机出现后，人们可以把这些工作交给计算机去作，大大地减轻了人们的劳动。后来，在这种工作中逐渐创造了一整套完整的理论和方法，形成了一门新的学科——语料库语言学（corpus linguistics），并成为了自然语言处理的一个分支学科。语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析，以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。多年来，机器翻译和自然语言理解的研究中, 分析语言的主要方法是句法语义分析。因此，在很长一段时间内，许多系统都是基于规则的，而根据当前计算机的理论和技术的水平很难把语言学的各种事实和理解语言所需的广泛的背景知识用规则的形式充分地表达出来，这样，这些基于规则的机器翻译和自然语言理解系统只能在极其受限的某些子语言（sub- language）中获得一定的成功。为了摆脱困境，自然语言处理的研究者者们开始对大规模的非受限的自然语言进行调查和统计，以便采用一种基于统计的模型来处理大量的非受限语言。不言而喻，语料库语言学将有可能在大量语言材料的基础上来检验传统的理论语言学基于手工搜集材料的方法所得出的各种结论，从而使我们对于自然语言的各种复杂现象获得更为深刻全面的认识。本文首先简要介绍国外语料库的发展情况，然后，比较详细地介绍中国语料库的发展情况和主要的成绩，使我们对于语料库研究得到一个鸟瞰式的认识。一、国外语料库概况现在，美国Brown大学建立了BROWN语料库（布朗语料库），英国Lancaster大学与挪威Oslo大学与Bergen大学联合建立了 LOB 语料库。欧美各国学者利用这两个语料库开展了大规模的研究，其中最引人注目的是对语料库进行语法标注的研究。他们设计了基于规则的自动标注系统 TAGGIT 来给布朗语料库的 100 万词的语料作自动标注，正确率为77%. 他们还设计了 CLAWS 系统来给 LOB 语料库的100万词的语料作自动标注，根据统计信息来建立算法，自动标注正确率达 96%, 比基于规则的 TAGGIT 系统提高了将近 20%. 最近他们同时考察三个相邻标记的同现频率，使自动语法标注的正确率达到 99.5%。这个指标已经超过了人工标注所能达到的最高正确率。

CCL语料库与检索系统方案

一关于CCL语料库及其检索系统（如果时间紧张，可直接跳到最后的举例部分！） 1.1 CCL语料库及其检索系统为纯学术非盈利性的。不得将本系统及其产生的检索结果用于任何商业目的。CCL不承担由此产生的一切后果。 1.2 本语料库仅供语言研究参考之用。语料本身的正确性需要您自己加以核实。 1.3 语料库中所含语料的基本内容信息可以在“高级搜索”页面上，点击相应的链接查看。比如： “作者列表”：列出语料库中所包含的文件的作者 “篇名列表”：列出语料库中所包含的篇目名 “类型列表”：列出语料库中文章的分类信息 “路径列表”：列出语料库中各文件在计算机中存放的目录 “模式列表”：列出语料库中可以查询的模式 1.4 语料库中的中文文本未经分词处理。 1.5 检索系统以汉字为基本单位。 1.6 主要功能特色： ?支持复杂检索表达式（比如不相邻关键字查询，指定距离查询，等等）； ?支持对标点符号的查询（比如查询“？”可以检索语料库中所有疑问句）； ?支持在“结果集”中继续检索； ?用户可定制查询结果的显示方式（如左右长度，排序等）； ?用户可从网页上下载查询结果(text文件)；二关于查询表达式本节对CCL语料库检索系统目前支持的查询表达式加以说明。 2.1 特殊符号查询表达式中可以使用的特殊符号包括8个： | $ # + - ~ ! : 这些符号分为四组： Operator1: | Operator2: $ # + - ~ Operaotr3: !

Delimiter: : 符号的含义如下：（一） Operator1: Operator1是二元操作符，它的两边可以出现“基本项”（关于“基本项”的定义见2.2）（1） | 相当于逻辑中的“或”关系。（二） Operator2：Operator2是二元操作符，它的两边可以出现“简单项”（关于“简单项”的定义见2.3）（2） $ 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数小于或等于Number （3） # 表示它两边的“简单项”出现于同一句中，不考虑前后次序。两个“简单项”之间相隔字数小于或等于Number （4） + 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数刚好等于Number （5） - 表示它左边的“简单项”出现于句子中，并且，在右边相隔Number个字的范围内，-号右边的“简单项”不出现。（6） ~ 表示它左边的“简单项”出现于句子中，并且，在左边相隔Number个字的范围内，~号右边的“简单项”不出现。（三）Operator3：Operator3是一元操作符。（7） ! 表示它后面的“简单项”是本次查询的主关键字符串，显示查询结果时以该“简单项”作为中心来进行定位。注意： Operator2后面的Number是必须的，不能省略。Number=0表示相邻,Number=1表示间隔1个单位，其余依此类推。（四）Delimiter：西文冒号 : 是分隔符（8） : 跟在 path，author，name，type，pattern 等关键字后面，用于分隔关键字和它们的取值。这样形成的查询式我们称之为“过滤项”（见下面2.5）注意：上述特殊字符不能作为基本项在语料库中进行检索。path，author等关键字可以作为基本项进行检索。 2.2 基本项指不包含特殊符号和空格的连续字符串

可以免费使用的大型英语语料库资源

可以免费使用的大型英语语料库资源 https://www.360docs.net/doc/2118710674.html,/time/ http://www.lextutor.ca/concordancers/concord_e.html 常用语料库资源链接汇集（语料天涯） http://202.204.128.82/sweccl/Corpus/ https://www.360docs.net/doc/2118710674.html,/netprints/Corporalink/Corporalink.htm 1. BNC-World Simple Search ☆☆☆ https://www.360docs.net/doc/2118710674.html,/lookup.html But no more than 50 hits will be displayed, with a fixed amount of context. 2. Brown, LOB, BNC sampler ☆☆☆ Here are a few links for searching corpora online, including monolingual corpora like Brown, LOB, and BNC sampler and also some parallel English-Chinese corpora. English: https://www.360docs.net/doc/2118710674.html,/concordance/WWWConcappE.htm English: http://www.lextutor.ca/concordancers/concord_e.html Parallel: https://www.360docs.net/doc/2118710674.html,/concordance/paralleltexts/ 3. Collins Cobuild Corpus Concordance Sampler☆☆☆☆☆ https://www.360docs.net/doc/2118710674.html,/Corpus/CorpusSearch.aspx The Collins WordbanksOnline English corpus is composed of 56 million words of contemporary written and spoken text. 4. New BNC interface - VIEW: ☆☆☆☆☆ https://www.360docs.net/doc/2118710674.html,/ 5. Samples (about 2 million words) from the British National Corpus: both written and spoken ☆☆☆ The Brown Corpus and many others - native, learner... Go to http://www.lextutor.ca/concordancers/concord_e.html 6. MICASE ☆☆☆☆ https://www.360docs.net/doc/2118710674.html,/m/micase/ There are currently 152 transcripts (totaling 1,848,364 words) available at the site. 7. CLEC online concordancing ☆☆☆☆ https://www.360docs.net/doc/2118710674.html,/corpus/EngSearchEngine.aspx CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词，并对言语失误进行标注。For an introduction of the corpus, its error tagset and some statistics, see https://www.360docs.net/doc/2118710674.html,/baseinfo/achievement/Achievement1.htm 8. Business Letter Corpus Online KWIC Concordancer ☆☆☆

语料库语言学与中国外语教学_桂诗春

2010年11月November 2010 第33卷第4期Vol．33No．4 现代外语（季刊） Modern Foreign Languages （Quarterly ）语料库语言学与中国外语教学桂诗春冯志伟杨惠中何安平卫乃兴李文中梁茂成［编者按］为推动我国应用语言学研究的新发展，教育部人文社科重点研究基地———广东外语外贸大学外国语言学及应用语言学研究中心于2010年9月24-25日成功举办了“首届广外应用语言学论坛”，庆贺我国著名语言学家、应用语言学学科的开拓者桂诗春教授八十华诞。期间，举行了题为“语料库语言学与外语教学”的高层论坛，就语料库语言学的现状、发展前景及语料库的建设、共享、应用等展开了互动讨论。以下是根据专家发言，整理后的主要内容。［中图分类号］H319 ［文献标识码］A ［文章编号］1003-6105（2010）04-0419-08 语料库语言学的发展前景与资源共享广东外语外贸大学桂诗春 1．语料库语言学的发展前景语料库语言学在外国和国内都发展很快，有的人选择了它作为发展方向，因为它的入门比较容易，上手较快；有的人把语料库语言学作为收集数据的重要手段。但是总的来说，我们的语料库研究还处在比较初级阶段，需要提高。究其原因是很多人把它看成是一种工具或手段，可以运用现有的一些现成的程序和公开的语料库，如Brown ，LOB ，Frown． Flob ， BNC ，CLEC ，只要选题得当，就能获得很多量化的数据，从而写出洋洋洒洒的文章来。在计算机和扫描仪的支持下，自行收集一些语言素材，建立一个特定的语料库，也不是什么难事。我觉得，语料库语言学既是一种工具，但更是一门学科；它是对语言行为进行概率性归纳和概括的一门学科，它本身是跨学科性的，要做语料库语言学研究必须许多方面要有比较雄厚的基础。首先是数学和统计学。Herdan （1960）的一本早期著作，叫做《词次／词型数学》（Type ／token Mathematics ），其副标题就是《数理语言学教科书》（A Textbook of Mathematical Linguistics ），当时还是前计算机时代，但Herdan 觉得有两件语言事实值得我们注意：一是大量语言资料（language in mass ），二是语言排列（language in line ），它们是任何语言运作都不能离开的两个方面。某些语言学研究分支如果考虑到这两个方面，将会从中获益。当时还没有真正的机读语料库， Brown 的语料库在1967年才面世，美国心理学家John Carroll 根据该语料库以及他后来参与制作500万词的AHI 语料库，所提出的词汇频数对数正态模型（lognormal model ）均源于Herdan 所奠定的基础。一直到最近美国Barber 利用计算机对英语语体的各种研究，更是利用了因子分析的统计方法。其次是计算机科学。语料库的发展离不开现代科学技术，其主要表现是个人电脑、扫描仪和大容量硬盘的普及，当初Brown 语料库要动用到大型电脑，而到如今，只需一万元左右就能在家里拥有这些设备，制作出甚至比Brown 还要大的语料库。但是我们往往只注意到硬件部分，而不认识到软件的建设。从事语料库语言学研究的人而不掌握一到两种编成语言，也不可能拓展他们的研究领域，因为他不能根据个人的研究需

语料库

关于语料库的三点基本认识：语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源; 在语言学中，语料库（Corpus）指大量文本的集合，库中的文本（称为语料）通常经过整理，具有既定的格式与标记，特指计算机存储的数字化语料库。语料库是语料库语言学研究的基础资源，也是经验主义语言研究方法的主要资源。应用于词典编纂，语言教学，传统语言研究，自然语言处理中基于统计或实例的研究等方面。分类语料库有多种类型，确定类型的主要依据是它的研究目的和用途，这一点往往能够体现在语料采集的原则和方式上。有人曾经把语料库分成四种类型：（1）异质的（Heterogeneous）：没有特定的语料收集原则，广泛收集并原样存储各种语料；（2）同质的（Homogeneous）：只收集同一类内容的语料；（3）系统的（Systematic）：根据预先确定的原则和比例收集语料，使语料具有平衡性和系统性，能够代表某一范围内的语言事实；（4）专用的（Specialized）：只收集用于某一特定用途的语料。除此之外，按照语料的语种，语料库也可以分成单语的（Monolingual）、双语的（Bilingual）和多语的（Multilingual）。按照语料的采集单位，语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式，还可以分为平行（对齐）语料库和比较语料库，前者的语料构成译文关系，多用于机器翻译、双语词典编撰等应用领域，后者将表述同样内容的不同语言文本收集到一起，多用于语言对比研究。目前已经累积了大量各种类型的语料库，如：葡萄牙语种树库、面向文本分类研究的中英文新闻分类语料库、路透社文本分类训练语料库、中文文本分类语料库、大开放字幕库OpenSubtitles的多语言平行语料数据(OpenSubtitles Corpus)、《圣经》双语语料库("Bible" bilingual corpus)、Short messages service(SMS ) corpus(短消息服务（SMS）语料)等。特征语料库有三点特征 1.语料库中存放的是在语言的实际使用中真实出现过的语言材料，因此例句库通常不应算作语料库； 2.语料库是承载语言知识的基础资源，但并不等于语言知识；

国外个主流语料库使用

1. The Complete Lexical Tutor http://www.lextutor.ca/ 参考期刊网上刘玉山，胡志军的介绍。是一个语料库中心词索引软件（concordancer）,加拿大魁北克大学Tom Cobb the University of Quebec at Montreal (UQAM), 开发三部分：learners, researchers, teachers自我学习，研究，教师命题。特别是concordance中有13个语料库为检索对象。还可以用来对学生作文中的用词分析。http://www.lextutor.ca/concordancers/concord_e.html 可以同时提供多个语料库的在线搜索，但缺点是每次只能对一个文本加工。 2.BNC 2014年开始，免费获得，通过BYU的申请。 British National Corpus 一亿词，书面语90%，口语10%，共4124篇文本，从1980到1993年的语料英国牛津出版社﹑朗文出版公司﹑钱伯斯—哈洛普出版公司﹑牛津大学计算机服务中心、兰卡斯特大学英语计算机中心以及大英图书馆等联合开发建立的大型语料库共有七类口语spoken,小说fiction，流行杂志magazine，报纸newspaper和学术期刊academic 还有COCA分类中没有的两类non-academic, miscellaneous second edition BNC World (2001) third edition BNC XML Edition (2007) extracts from regional and national newspapers, specialist periodicals and journals for all ages and interests, academic books and popular fiction, published and unpublished letters and memoranda, school and university essays, among many other kinds of text 通常可进入的那个链接是BYU, 美国杨百翰大学提供的 BYU大学在2012年对语料库经行了重新附码，用的CLAWS 7 3. COCA: the corpus of contemporary American English Brigham Young University 美国犹他州杨百翰大学 Doctor Mark Davies 3.6亿，1990-2007年间，美国国内各种语料口语spoken,小说fiction，流行杂志magazine，报纸newspaper和学术期刊academic共五类语料来源且持续更新中，每年以2000万词递增，目前到1990-2012，共4.5亿词 Display:显示方式，compare选项可以用来比较两个词的搭配区别，排列方式选择relevance 相关度标记了语料的时间，便于研究语言历时与共时的变化教学中相关用法查找同义词，如[=scold].[V*]表示查找所有scold的同义词

语料库常用统计方法

3.5语料库常用统计方法第3章前几节对语料库应用中的几种主要技术做了介绍。通过语料检索、词表和主题词表的生成，可以得到一定数量的句子、词汇或结构。为能更好说明所得到的结果的真正意义，常常需要对它们加以统计学分析。本章主要介绍语料分析中的一些常用统计方法。 3.5.1 语料库与统计方法介绍相关统计方法之前，首先需要了解为什么语料库应用中需要运用统计方法。在2.1节讲到文本采集时，我们知道文本或会话构成了最终的语料库样本。这些样本是通过一定的抽样方法获得的。研究中，我们需要描述这些样本的出现和分布情况。此外，我们还经常需要观察不同语言项目之间在一定语境中共同出现（简称共现）的概率；以及观察某个（些）语言项目在不同文本之间出现多少的差异性。这些需要借助统计学知识来加以描写和分析。理论上说，几乎所有统计方法都可以用于语料库分析。本章只择其中一些常用方法做一介绍。我们更注重相关统计方法的实际应用，不过多探讨其统计学原理。这一章我们主要介绍语料分析中的频数标准化（normalization ）、频数差异检验和搭配强度的计算方法。 3.5.2 频数标准化基本原理通常语料检索、词表生成结果中都会报告频数（frequency, freq 或raw frequency ）。那么某词（如many ）在某语料库中出现频数为100次说明什么呢？这个词在另一个语料库中出现频数为105次，是否可以说many 在第二个语料库中更常用呢？显然，不能因为105大于100，就认定many 在第二个语料库中更常用。这里大家很容易想到，两个语料库的大小未必相同。按照通常的思维，我们可以算出many 在两个语料库中的出现百分比，这样就可比了。这种情况下，我们是将many 在两个语料库中的出现频数归到一个共同基数100之上，即每100词中出现多少个many 。这里通过百分比得到的频率即是一种标准化频率。有些文献中标准化频率也称归一频率或标称频率，即基于一个统一基准得出的频率。实例及操作频数标准化，首先需要用某个（些）检索项的实际观察频数（原始频数，raw frequency ）除以总体频数（通常为文本或语料库的总词数），这样得到每一个单词里会出现该检索项多少次。在频数标准化操作中，我们通常会在此基础上乘以1千（1万、1百万）得到平均每千（万、百万）词的出现频率。即： 1000?=总体频数观测频数标准化频率（每千词）（注：观测频数即检索词项实际出现的次数；总体频数即语料库的大小或总形符数。）例如，more 在中国学生的作文里出现251次，在英语母语者语料中出现475次。两个语料库的大小分别为37,655词次和174,676词次。我们可以根据上面的公式很容易计算出251和475对应的标准化频率。另外，我们还可以利用Excel 或SPSS 等工具来计算标准化频率。比如，可以将实际观察频数和语料库大小如图3.5.1输入相应的单元格，然后在C1单元格里输入=(A1/B1)*1000即可得到中国学生每千词使用more 约为6.67次。要得到母语

语料库

语料库、学习者语料库与外语教学 ① □李文中 0.概述语料库(corpora )是应用计算机技术对海量自然语言材料进行处理(包括预处理、语法自动附码、自动句法分析、语义分析等)、存储,以供自动检索(retrieval )、索引(concordance )以及统计分析的大型资料库。它是按照明确的设计标准为某一具体目标而建立的语言资料库(Atkins and Clear 1992:5,引自G ranger 1996)。如果作进一步区分,还可以把语料库与大型文档资源库(text archives )区别开来。前者具有明确语料选择比例和设计标准,而后者更注重语料容量和语料来源的多样性(Edwards 1993)。所谓自然语言是指任何人类在童年习得的语言(Leech 1987:1)。使用这一概念的意义在于,把人类自然语言同人工编制的人工语言(artificial languag 2es )(如C 语言、BASIC 、JAVA 、FORTRAN 等)区别开来;在对语言描述和研究中,自然出现的语料不同于研究者为某一目的而引出的材料(elicited data )。语料库的研究对象是人类语言自然运用(performance ),而不是内在语言能力(com petence )。语料库的应用主要在于以下几个方面:1)自然语言处理(包括自动语言识别、自动语法附码、句法分析、语义分析、知识表达、机器翻译等)。基于语料库方法可以提供有关语言结构和特征的可靠信息,而这些信息是内省法研究或心理测验获取的信息所不能比拟的。语料库是人们广泛深入理解语言所必需的工具(Edwards 1993,Leech 1991,1992,Svartvik 1992)。2)词典编纂。语料库能够提供更为完备和详尽的关于词义和词汇搭配信息(K jellmer 1984,Sinclair 1982,引自Edwards 1993)。3)语言学习与语言教学。早在本世纪60年代,美国Brown 大学创建了最早的语料库BROW N C ORPUS ,容量为100万词,广泛搜集了当时美国英语各种文体的语言材料。与此相呼应的是70年代初在欧洲同样容量的LOB 语料库,搜集了同年代的英国英语材料。基于这两个语料库,开展了大量的重要研究,研究的重点是对英语语法的描述和分析(Rundell 1996)。另外,70年代初还建成了50万词的英语口语语料库London 2Lund C orpus (LLC )。但对于大规模的词汇研究(如词典编纂)而言,100万词的容量显然不能满足要求。80年代初,由Birmingham 大学John Sinclair 主持建成了专门用于词典编纂的大型语料库BCET (Birmingham C ollection of English T exts )。该语料库最初容量为730万词,到80年代中期,其迅速扩充为2000万词。与此同时,朗曼公司词典部开始建立自己的语料库Longman 2Lancaster 语料库,容量达到3000万词。在我国,上海交通大学杨惠中教授在80年代末主持建成了容量为300万词的科技英语语料库(JDEST ,1997年扩充至360万词),主要用于大学英语教学大纲制定和教材开发。80年代建成的语料库还有Lancaster 的英语口语语料库(ESC ,1984—1987)、用于跨文化比较的PIXI 语料库。90年代初,包含英国书? 15?外语界1999年第1期(总第73期)①本文在写作过程中,承蒙Sylviane G ranger 教授惠寄有关资料以及对有关问题的讨论。C ornelis H.J.Vaes 寄来International Journal o f Corpus Linguistics 以供参考。M ike Scott 寄来有关索引软件M icroC oncord 使用手册。导师杨惠中教授阅读了初稿并提出了修改意见。在此一并致谢。

语料库常用术语

语料库常用术语 Type 类符 Tokens 形符例如“I see a cat and a dog”类符6个，形符7个 Type/token ratio =TTR TTR 是衡量文本中词汇密度的常用方法，可以辅助说明文本的词汇难度。但是，文本中有大量功能词出现，文本每增加一个词，形符就会增加一个，但类符却未必随之增加。这样文本越长，功能词重复次数越多，TTR会越低。因此用TTR衡量词汇密度不合理，于是，出现了标准化类符/形符比，即STTR。例如，计算每个文本1000词的TTR，均值处理，得出STTR。Frequency（频率）例如每百万词、十万词中，某单词出现次数。常常将某个单词在两个语料库中出现的频率参照两个语料库的容量，用卡方检验或对数似然率进行对比，来确定两个库中该单词的使用是否有差异。 Wordlist词表根据单词或词组在语篇中出现的频率大小而排列形成的列表。 Ranks Lemma词目，词元比如go是lemma，对应各种屈折变化形式（inflections），go,goes,went,going,gone共5种屈折变化形式。在分析语言时，需要将它们全部归到go名下，这个过程叫词形还原。Keywords关键词、主题词positive keywords 正关键词negative keywords 负关键词Concordance 索引（KWIC 语境中的关键词key words in context）运用索引软件在语料库中查询某词或短语的使用实例，然后将所有符合条件的语言使用实例及其语境以清单的形式列出。通过前后语境，可以分析“collocation词汇搭配”“colligation 类连接、语法搭配”“semantic preference语义倾向”“semantic prosody语义韵”Collocation词汇搭配搭配强度MI,T-score ,Z-score Colligation类连接、语法搭配 semantic prosody语义韵词汇的语义韵大体可分为积极语义韵、中性语义韵、消极语义韵。 POS tagging 词性赋码 Regular expression regex 正则表达式