语料库

在编纂或修订过程中,不同程度地使用语料库或电子文档收集词语数据,用于收词、释义、
例句、属性标注等。南京大学近年来开发了 NULEXID 语料库暨双语词典编纂系统,涉及英汉
两种语言,在《新时代英汉大词典》的编纂过程中起了重要作用。
把语料库用于语言教学的一个例子是上海交通大学的 JDEST 英语语料库,利用
这个语料库,通过语料比较、统计、筛选等方法为中国大学英语教学提供通用词汇和技术词
汇的应用信息,为确定大学英语教学大纲的词表提供了可靠的量化依据。这个语料库也在英
语语言研究中发挥了作用,支持基于语料库的英语语法的频率特征、语料库驱动的词语搭配
等项研究。2003 年,中国学习者英语语料库由上海外语教育出版社正式发行。这个语料库
是一个 100多万词的书面英语语料库,涵盖我国中学生、大学英语 4级和 6 级、英语专业低
年级和高年级的学习内容,并对所有的语料作了语法标注和言语失误标注。根据这个语料库
得到了词频排列表、拼写失误表、词目表、词频分布表、语法标注频数表、言语失误表等,
还把这些数据与一些英语本族语语料库(如 BROWN,LOB,FROWN,FLOB)进行了某
些比较。这个语料库为词典编纂、教材编写和语言测试提供了必要的资源。目前上海交通大
学正在建设大学英语学习者口语英语语料库。
国外的主要语料库有:
现在,美国Brown大学建立了BROWN语料库(布朗语料库),这是世界上第一个根据系统性原则采集样本的标准语料库,规模为 100 万词次,是一个代表当代美国英语的语料库。英国Lancaster大学与挪威Oslo大学与Bergen大学联合建立了 LOB 语料库,规模与 Brown语料库相当,这是一个代表当代英国英语的语料库。欧美各国学者利用这两个语料库开展了大规模的研究,其中最引人注目的是对语料库进行语法标注的研究。他们设计了 CLAWS 系统来给 LOB 语料库的100万词的语料作自动标注,根据统计信息来建立算法,自动标注正确率达 96%。还有:
20世纪70年代,London-Lund口语语料库:1975年建成,收篇目87篇,每篇5000词,共为43.4万词,有详细的韵律标注(prosodic marking)。
20 世纪 80 年代以后,陆续建立了一些以词典编纂为应用背景的大规模语料库。
COBUILD语料库(Collins Birmingham University International Language
Database,首字母缩写就是 COBUILD)。1987 年,Collins 出版社出版了建立在 COBUILD
语料库基础上的英语词典,词条选目、用法说明和释义都直接来自真实的语料。2003 年这个语料库的规模已经达到 5 亿词次,其中包含 1500万词次的口语语料库。这个大
规模的 COBUILD语料库

,又可以叫做“英语银行”(Bank of English)。
20 世纪 80 年代还建立了 Longman 语料库,也应用于词典编纂。这个语料库由 LLELC
(Longman Lancaster英语语料库)、LSC (Longman 口语语料库)和 LCLE (Longman 英
语学习语料库)等三个语料库组成。这个语料库主要用于编纂英语学习词典,帮助外国人学
习英语。规模为 2000 万词次。
由于这些语料库可直接用于词典编纂,在商业上获得了成功,语料库语言学的研究开始
从纯学术走向实用,词典编纂是语料库语言学发展的推动力之一。
80 年代末 90 年代初,美国 Pennsylvania 大学开始建立“树库”(Tree bank),对百万词
级的语料进行句法和语义标注,把线性的文本语料库加工成为表示句子的句法和语义结构的
树库。这个项目由 Pennsylvania 大学计算机系的 M. Marcus主持,到 1993 年已经完成了 300
万词的英语句子的深加工,进行了句法结构标注。
在美国 Pennsylvania 大学还建立了 LDC 语言数据联合会 (Linguistic data Consortium),
实行会员制,有 163 个语料库 (包括文本的以及口语的)参加,共享语言资源。2000 年,
LDC 发行了一个中文树库,包含 10万词,4185个句子,这是世界上第一个中文的树库,可
惜的是规模比较小。
AHI语料库:美国Heritage出版社为编纂Heritage词典而建立,有400万词。
OTA牛津文本档案库(Oxford Text Archive):英国牛津大学计算中心建立,有10亿字节。
BNC英国国家语料库(British National Corpus):1995年正式发布,使用TEI编码(Text Encoding Initiative)和SGML通用标准置标语言的国际标准(The Standard Generalized Mark up Language, ISO 8879, 1986年公布)。
ACL/DCI美国计算语言学学会数据采集计划:美国计算语言学学会(The
association for Computational Linguistics, ACL)倡议的数据采集计划(Data Collection Initiative, DCI),其宗旨是向非赢利的学术团体提供语料,以免除费用和版权的困扰,用标准通用置标语言SGML统一置标,以便于数据交换。
LDC语言数据联合会 (Linguistic data Consortium): 设在美国宾州大学,实行会员制,有163 个语料库 (包括Text的以及 speech的),共享语言资源。
RWC日语语料库:日本新情报处理开发机构RWCP研制,包括《每日新闻》4年的全文语料,语素标注量达1亿条。
亚洲各语种对译作文语料库:日本国立国语研究所研制,中野洋主持,北京外国语大学参加。

中国的语料库: 英汉双语语料库

? 北大计算语言学研究所的双语语料库,英汉对齐的句子已有5万多对,并开发了相应的对齐工具和双语语料库管理软件。正在此基础上做汉英对照短语库,预计规模将达数十万条。
? 哈尔滨工业大学的英汉

双语语料库:1998年有3万句子对,已经进行了词性标注,正在扩充为40-50万句子对,在句子、短语、词汇三级实现双语对齐。
? 东北大学的英汉双语语段库:在双语语料库基础上,建造双语语段库,1999年构造了10万双语语段库,进行了基于语段的英汉机器翻译实验,正在以“机获人校”的办法建造100万双语语段库,拟扩充到500万双语语段库,进一步建造具有1000万语段的大容量网上英汉语段电子词典,研究电子词典中搭配短语获取算法,建造大容量网上电子英汉搭配词典。


从 1979 年以来,中国就开始进行机器可读语料库(machine-readable corpus)的建设,
早期在中国建立的主要的机器可读语料库有:
汉语现代文学作品语料库(1979 年),527 万字,武汉大学。
现代汉语语料库(1983 年),2000 万字,北京航天航空大学。
中学语文教材语料库(1983 年),106 万 8 千字,北京师范大学。
现代汉语词频统计语料库(1983 年),182 万字,北京语言学院。

相关文档
最新文档