大型中国小学生作文语料库的生成

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

——————————

*基金项目:本文受“文曲星”创新基金资助项目资助 收稿日期:2008年6月23日

第18卷 现代教育技术 V o1. 18 2008年第12期 Modern Educational Technology No.12

2008 大型中国小学生作文语料库的生成*

魏顺平 赵攀 杨现民 陈良柱

(北京师范大学 现代教育技术研究所,北京 100875)

【摘要】当前,通过收集学生在学习语言时创作的作文来建立学习者语料库并在语料库的基础上开展各种语言研究和教学应用已成为应用语言学的研究热点。目前我国已建立了近十个学习者语料库,包括中国学习者英语语料库和外国学习者汉语语料库。然而,关于中国学习者汉语语料库的建设却关注较少。本研究将凭借北京师范大学现代教育技术研究所在小学长期开展语文教改试验的良好基础建立一个大型中国小学生作文语料库。截至2007年8月,本语料库已建设成为一个涉及小学五个年级、历时五年、字数在1100万以上的大型作文语料库,在小学语文教学、儿童语言发展研究、小学生思维能力发展研究等三个方面有较高的应用价值。

【关键词】语料库;小学生;作文

【中图分类号】G40-057 【文献标识码】A 【论文编号】1009—8097 (2008) 12—0045—04 语料库(corpora) 是应用计算机技术对大量自然语言材料进行处理(包括预处理、语法自动赋码、自动句法分析、语义分析等)、存储,以供自动检索、索引和统计分析的大型资料库。自二十世纪80 年代末90 年代初开始,各种书面语和口语语料库、通用型和专门语料库纷纷建立, 语料库在语言描述和语言分析中的作用和优势愈来愈明显。在语料库迅速而多元的发展中, 针对外语学习者建立的学习者语料库( learner corpora) 的发展尤为引人注目。

一 研究背景及缘起

学习者语料库包括学习者书面语语料库和学习者口语语料库两种。无论是学习者书面语语料库, 还是学习者口语语料库, 均与一般的语料库不同, 它们是经过计算机处理的外语学习者的语言产出的文本数据库,属于学习者中介语(inter language )范畴。[1]在国外,据不完全统计,已经建成和在建的学习者英语书面语语料库8个,口语语料库2个,如比利时的ICLE (International Corpus of Learner English)、瑞典Uppsala 大学建立的学习者语料库USE 、美国的英语学习者语料库MELD 、英国的商业性学习者语料库CLC 和LLC 等[2]。

我国的学习者语料库建设与研究开始于上个世纪90年代中期,近年来发展迅速,已处于国际领先水平。这些语料库主要分为两类,一类是中国学习者英语语料库,一类是外国学习者汉语中介语料库。在中国学习者英语语料库方面,已经建成或在建的语料库有6个,如由广东外语外贸大学等学校研制开发的中国英语学习者语料库(CLEC ),由华南师大外语系负责建设《中学生书面语语料库》(MSSW),由香港科技大学的约翰·弥尔顿教授主持开发的香港高中生英语语料库(HKUST ),等等。[2] 在外国学习者汉语中介语料库方面,有已建成的北京语言大学的汉语中介语语料库[3]和正在建设的HSK 动态作文语料库等[4]。

然而,针对以汉语为母语的学习者建立的语料库的发展却不是那么乐观,语料库类型比较单一,主要为口语语料库。已有的以汉语为母语的学习者口语语料库包括:大型儿童口语研究课题“十省市研究”项目收集了2062名三至六岁城镇儿童的语料[5];2007年建成、包含600名儿童的口语语料的新加坡华族学前儿童口语语料库[6];已囊括了包括汉语普通话和广州话在内的二十五种语言的数据的儿童语言数据交流系统(Child Language Data Exchange System),简称CHILDES [7]。语料类型的单一将会大大限制广义的儿童语言学的研究。李宇明指出,广义的儿童语言学,把儿童期的所有语言学习现象作为自己的研究对象,应包括母语口语学习和母语书面语学习等。他还指出,只有全面研究这些语言学习类型,才能建立起具有较强解释力的儿童语言学习理论,也才能够对儿童的母语口语发展认识得更全面。[8] 在我国,儿童母语书面语的学习一般始于小学阶段,我们要研究儿童书面语的发展就必须从小学生的书面语即小学生创作的作文开始,这就要求我们建立一个大规模的小学生作文语料库。众所周知,在建设语料库过程中,主要存在的困难在于需要投入大量的人力物力去通过电脑录入收集上来的学生作文,代价极高,而我们所在的北京师范大学现代教育技术研究所在小学里开展的一项语文教改试验却能够帮助省去人工录入语料的环节,可以大大节省开发中国学习者汉语语料库的人力物力。

从2000年9月开始,北京师范大学现代教育技术研究所在小学里进行了一项基于Web的、将信息技术与语文教学有效整合的改革试验。该教改实验的主持人何克抗教授将其称作“小学语文跨越式试验”。本试验的一个重要创新点在于:不再像传统教学中那样将汉字、阅读、作文三个教学环节孤立和割裂,而是在信息技术环境下使三者有机地结合起来。老师鼓励小朋友们在阅读了网上的材料以后,随时在校园网的班级留言板里(通过电脑打写)向老师谈自己的感受与想法。[9] 迄今,试验已经开展了七年。在这七年的小学语文教改试验中,试验学校积累下了大量的电子化的小学生作文,主要以数据库形式存储。这些分布在不同学校的数据库可以很方便的收集起来,并对来自不同学校的作文数据加以集中,一个小学生作文粗语料库即可完成。因此,我们将在这一教改试验的基础上开展小学生作文语料库的开发与应用研究,以求加快研究进程,填补国内在中国学习者汉语语料库研究方面的空白。

二 研究方法

本语料库将建设成为一个涉及小学各个年级、历时六年、字数在3000万左右的作文语料库,每篇作文均有字数、单字数、作者、创作时间、所在年级、所在学校等多种标注。

本语料库研制开发的工作流程包括小学生作文来源学校选定、语料收集和汇总、语料清理、初级语料加工、语料库检索系统开发等五个环节。这五个环节不是一次性完成的,而是循环往复、不断逼近最佳结果的过程。

1 作文来源学校选定

目前,小学语文跨越式实验课题组已在全国范围内建立的13个试验区(共162所中小学,包括小学148所,中学14所),涉及的省、市、地区有北京、河北丰宁、大连、广州、深圳、厦门、香港。各个学校加入试验的时间有早有晚,我们主要选取10所左右同年加入且参与时间较长的学校。经调查,在2002年、2003年两个年份加入的跨越式试验的学校较多,从中足以选出10所左右作文数据丰富、历时较长的学校。另外,较早加入的学校主要来自广州、深圳、北京等地区,于是我们从这三个地区暂时选定了分别在2002年、2003年加入试验的14所学校作为小学生作文语料的来源学校,其中北京四所,深圳六所,广州四所,以保持南北方数据来源的多样性,为后面开展南北方大城市小学生汉语掌握差异进行对比研究提供可能。

2 语料收集和汇总

试验学校均使用小学语文跨越式试验教学平台作为小学生写作和阅读环境,小学生所创作的作文均保存在该平台的数据库中。于是,该环节通过拷贝小学语文跨越式教学平台中的数据库来完成。该工作自2006年9月开始,至今已近一年。我们分别于2006年11月、2007年4月以及2007年7月三个时间点陆续从这14所学校拷贝了平台数据库。

来自不同学校的作文存储在不同的数据库中,于是我们建立了一个中心数据库来汇集来自各个数据库中的作文数据表和学生基本信息表。为了后期的统计分析,对比研究,我们不仅要存储作文信息,还要存储学生信息和学校信息。其中,作文信息包括作文标题、作文全文、创作时间、字数、作者、学校、创作年级等;学校信息用于描述作文来源学校,包括学校名称、加入教改试验的时间、所采用的教材的版本信息等;学生信息包括学生姓名、所在学校、入学年份(即就读一年级时的年份)等。

然而,由于教学平台并未提供年级按年度升级的功能,即一个学生四年创作的作文全部标识为一年级所创作。这样一来便会影响按年级进行小学生书面语言的调查。于是,在收集平台数据库的同时,我们还收集了当前学年各个跨越式试验班的学生名单,并根据每个学生的当前年级推算以往年级以及未来年级所处的时间段,然后重新对每篇作文的创作年级进行标识。下面举例说明这一过程。

A学校有一名学生张三,2006年9月开始开始上四年级,那么该学生的所有年级及所处时间段如表1所示。

表 1 “学生-年级-所处时间段”关联表

学生姓名年级所处时间段张三一年级 2003-9-1至2004-7-1 张三二年级 2004-9-1至2005-7-1 张三三年级 2005-9-1至2006-7-1 张三四年级 2006-9-1至2007-7-1 张三五年级 2007-9-1至2008-7-1 张三六年级 2008-9-1至2009-7-1

依据表1,以及张三所创作的每篇作文的创作时间,我们便可以对张三的所有作文的创作年级进行重新标识了。

经汇总,截至2007年7月,小学生作文语料库有作文93293篇,字符数14406192个,涉及学生2205名。

3 语料清理

由于小学生作文直接从学校教学平台数据库中转换得来,从而不可避免存在部分无效的作文,如只包含几个字符的作文,或者字符数较多而汉字仅有几个的作文。这些作文必须从语料库中剔除出去,以保证语料库的质量。

我们的处理方法是通过T-SQL数据库查询语言编写程序

相关文档
最新文档