HSK语料库体例说明书

HSK语料库体例说明书
HSK语料库体例说明书

HSK动态作文语料库”语料标注及代码说明

“HSK动态作文语料库”从字、词、句、篇、标点符号等角度,对所收入的作文语料中存在的外国人使用汉语的中介语偏误进行全面标注。

1 、字处理(包括标点符号)

[C]:错字标记,用于标示考生写的不成字的字。用[C]代表错字,在[C]前填写正确的字。

例如:地球[C](“球”是错字)、这[C]。

[B]:别字标记,用于标示把甲字写成乙字的情况。别字包括同音的、不同音而只是形似的、既不同音也不形似但成字的等等。把别字移至[B]中B的后面,并在[B]前填写正确的字。

例如:提[B题]高、考虑[B虎]。

[L]:漏字标记,用于标示作文中应有而没有的字。用[L]表示漏掉的字,并在[L]前填写所漏掉的字。

例如:

后悔[L],表示“悔”在原文中是漏掉的字。

农[L]药,表示“农”在原文中是漏掉的字。

[D]:多字标记,用于标示作文中不应出现而出现的字。把多余的字移至[D]中D的后面。

例如:我的[D的],表示括号中的“的”是多余的字(原文中写了两个“的”)。

[F]:繁体字标记,用于标示繁体字。把繁体字移至[F]中F的后面,并在[F]前填写简体字。

例如:记忆[F憶]、单{F單}纯、养{F養}分{F份}。

注意:

1)繁体字标记标示的是使用正确的繁体字,如果该繁体字同时又是别字,则先标繁体字标记,再标别字标记。

例如:俭朴[F樸[B僕]]。

2)繁体字写错了,标为:后[F後[C]]。

[Y]:异体字标记,用于标示异体字。把异体字移至[Y]中Y的后面,并在[Y]前填写简体字。

例如:偏[Y徧]、沉[Y沈]。

[P]:拼音字标记,用于标示以汉语拼音代替汉字的情况。把拼音字移至[P]中P的后面,并在[P]前填写简体字。

例如:缘[Pyúan]分、保护[Phù]。

[#]:无法识别的字的标记,用于标示无法识别的字。每个不可识别的字用一个[#]表示。

例如:更[#][#]保存自己的生命,……

[BC]:错误标点标记,用于标示使用错误的标点符号。把错误标点移至[BC]中BC的后面,并在[BC]前填写正确的标点符号。例如:勤奋、[BC,]刻苦的精神。

[BQ]:空缺标点标记,用于标示应用标点符号而未用的情况。把[BQ]插入空缺标点之处,并在[BQ]中BQ的后面填写所缺的标点符号。

例如:周围的环境很安静[BQ,]生活也非常平凡。

[BD]:多余标点标记,用于标示不应用标点符号而用了的情况。把多余的标点移至[BD]中BD的后面。

例如:我家周围的[BD,]美丽风景。

2、词处理:(包括成语)

{CC}:错词标记,用于标示错误的词和成语。包括4种情况:

1)把词的构成成分写错顺序的。

把写错的词移至{CC}中CC的后面,并在{CC}前填写正确的词。

例如:首先{CC先首}、众所周知{CC众所知周}。

2)该用甲词而用乙词的。这种情况类似别字,但属于用词层面上的错误。

标示方法同上。

例如:

虽然现在还没有实现{CC实践},……

它在{CC对}价格方面有点贵,所以没得到广大消费者的支持{CC持支}。

3)生造词。指考生自造的、或某些外语中可能有而汉语中不存在的词。

例如:

农作物{CC农产物/农物}、农产品{CC农作品}

……但长期来看造成环境污染,破坏自然生态{CC目态},……

绿色食品的好处在于吃这些食品后在身体里没有农药的残留量{CC潜留量}。

4)词语搭配错误。包括词性、音节等方面的搭配错误。

例如:

最好的办法是两个都保持{CC走去}平衡。

我也回{CC1回去}沈阳。

吃这种东西会{CC1可以}得{CC1得到}病{CC1疾病}。

{CLH}:离合词错误标记,用于标示各种和离合词相关的错误。标在有错误的离合词的后边,表示前边的离合词用法有误。例如:

……我快要毕业{CLH}大学{CQ了}。

虽然这么[L]多年都没见面{CLH}过,……

……我对哈尔滨{CJ-zy很}感兴趣。有观光{CLH}哈尔滨的宿愿。

{W}:外文词标记,用于标示以外文词代替汉语词的情况。把外文词移至{W}中W的后面,并在{W}前填写相应的汉语词。在W和外文词之间填写汉语词的字数。

例如:

非洲{W2Africa}、爵士乐{W3jazz}。

……教我工作的方法{W2ABC}。

{CQ}:缺词标记,用于标示作文中应有而没有的词。在缺词之处加此标记,并在{CQ}中CQ的后面填写所缺的词。

例如:

这就{CQ要}由有关部门和政策管理制度来控制。

……有的农民{CQ在}不使用化肥和农药的情[B精]况下[BD,]养农作物,……

{CD}:多词标记,用于标示作文中不应有而有的词。把多余的词移至{CD}中CD的后面。

例如:

……然后肯德基的收入有所增加{CD了}。

中国政府应该采取良好的措施来管理农业{CD方面},……

但我觉得{CD按照}上面所写的方法是现在很多人或国家用的方法。

词处理中需要注意下列问题:

1)因介词、方位词等的缺少或多余造成的结构不完整,助词的错用、多用、漏用,词性误用等,均视为词的错误。例如:

随着社会{CQ的}发展,人们{CQ对}吃的东西很重视。

在这个过程{CQ中}……

特别是非洲{CD的话},问题很大的。

2)结构助词“的”、“地”、“得”混用:按错词处理。

例如:

按照人们的要求不用化肥和农药的话,产量会大大地{CC的}下降。

我认为当你很饿的时候,什么东西都吃得{CC的}下。

孩子们饿得{CC地}大哭小叫,……

3)该用汉语数字而用阿拉伯数字的,一律按错词处理。

例如:

那应该怎样解决呢?所以我想出了一{CC1}个办法,少用化肥和农药。

把“十五”写成了“一五”,应把“一五”整体按错词处理,而不能仅仅把“一”处理为别字。

4)错词、多词、成分赘余的一个标注符号中可以包括两个或两个以上的词。

例如:

我想任何人{CC每一个}都不要有浪费食品的习惯,……(每/一/个)

没有{CC2重视做未经}污染的食品就是绿色食品。(重视/做/未/经)

5)原文字数和改后字数不一致的,须在括号中CC之后且紧靠CC处加一个阿拉伯数字,表明改后的字数。

例如:

战[Pzhan]争中最困难的人是没有力气的孩子和老人{CC5老弱子}。

所以我认为首先农民可以使用天然肥料{CC4化肥},代替化肥来种植农作物……

6)不清楚或无法理解的词用{CY}标示,表示“存疑”,标在该词的后面。

例如:

虽然这么[L]多年都没见面{CLH}过,但我和他们的忆惯{CY},是忘不了的。

3、句处理:

{CJ}:病句标记,用于标示错误的句子。一般标在有错误的句子之后、该句标点之前,并用小写汉语拼音字母简要标明病句的错误类型。

例如:

他把那本书看{CJba}。

我认为我们先尽量地[B的]产出农作物给他们,先给他们不挨饿{CJjy}。

如果有人批评这是太奢侈{CJxw},……

句子错误类型代码:

{CJba}:把字句错误

{CJbei}:被字句错误

{CJbi}:比字句错误

{CJl} :连字句错误

{CJy} :有字句错误

{CJs} :是字句错误

{CJsd}:“是……的”句错误

{CJcx}:存现句错误

{CJjy}:兼语句错误

{CJld}:连动句错误

{CJshb}:双宾语句错误

{CJxw}:形容词谓语句错误

{CJ-}:句子成分残缺错误标记,用于标示由于成分残缺造成的病句。在短横后边标明所缺成分的名称,该名称用小写代码表示;在小写代码之后填写所缺的具体词语。标在成分残缺之处。

例如:

为了增加{CC满足}粮食,{CJ-zhuy人们}使用了化肥和农药,这样产量就会大大提高。

这样的活动{CJ-sy开展}以来,肯德基的垃[B拉]圾[C]总量大大降低。

……那两种{CC个}东西就容易伤害人类的{CJ-dy健康}系统。

从具体{CJ-zxy情况}来看,……

{CJ+}:句子成分多余错误标记,用于标示由于成分多余(赘余)造成的病句。后边用小写代码标明多余成分的名称,并把所多余的具体词语移至该名称的后面。标在成分多余之处。

例如:

这是我们{CJ+dy做人}的责任。

而且研究{CJ+buy下去}产量能提高的办法。

而且{CJ+zy正在}还死去好多人。

句子成分采用层次分析法的观点,共8种:

{CJ-/+zhuy}:主语残缺或多余

{CJ-/+wy}:谓语残缺或多余

{CJ-/+sy}:述语残缺或多余

{CJ-/+by}:宾语残缺或多余

{CJ-/+buy}:补语残缺或多余

{CJ-/+dy}:定语残缺或多余

{CJ-/+zy} :状语残缺或多余

{CJ-/+zxy}:中心语残缺或多余

{CJX}:语序错误标记,用于标示由于语序错误造成的病句。标在语序错误的词语的后边。如果是相邻的两个成分语序

错误,按照自然顺序,把{CJX}标在前一个成分的后边。

例如:

大多数{CJX}这些人生活{CC2活}在很不好的地方,……

可是这两个问题同时{CJX}要解决非常不容易,……

现在每个人很重视健康,受欢迎{CJX}绿色食品。

{CJZR}:句式杂糅错误标记,用于标示把两种不同句式、两种不同说法混在一起的病句。标在句子末尾,标点之前。例如:

这个问题不可能一两年解决的问题{CJZR}。

现在,全世界流行是绿色食品{CJZR}。

每次吃对身体有害于健康的东西{CJZR}。

因为,人们的必生存之一中最重要的是饮食{CJZR},……

{CJcd}:重叠错误标记,用于标示句中词语的重叠错误,包括重叠方式上的错误,也包括不该用而用重叠,或该用而不用重叠的情况。标在出现重叠错误的词语之后。

例如:

而对生产者来说,尽量不用化肥和农药,在出货之前,进[C]行洗洗{CJcd}。

还有我们{CQ应}对绿色食品研究研究{CJcd}。

{CJgd}:固定格式错误标记,用于标示固定格式搭配上的错误。

例如:

“一……就……”缺少“一”或者“就”。

现代社会应当认“保护自己,尊重其他人”为口号{CJgd}!

{WWJ}:未完句标记,用于标示没写完的半截子的句子。标在未完成句的末尾处。

例如:

只是全球{WWJ}

最后国家政府不考虑经济问题、积{WWJ}

不知道什么时候会普及起来,但是我认为这还是不是个{WWJ}

{CJ?}:句处理存疑标志,用于标示错误类型不清楚的、或错误类型标注很不方便的、或句义不明且有语法错误的的病句。标在存疑病句之后、该句标点之前。

例如:

地球上,有的地方还在“饥饿”来艰苦{CJ?}。

还要想每个人的健康是帮助饥饿人的办法越来多健康的人会越来多帮饥饿的人{CJ?}。

把化肥可以取代{CC代取}用草、剩饭做的自然肥料{CJ?},把农药也可以取代{CC代取}喜欢吃害虫的动物{CJ?}。

4、篇章处理:(包括复句)

{CP}:篇章错误标记,用于标示篇章错误。大括号的前半和后半分别表示有错误的篇章的起点和终点,在起点处标CP,在终点处标P。即:{CP……,……。……,……。P}

所谓篇章错误,主要指句子和句子之间在衔接方面的错误。最典型的情况是每个单句都正确,但作为一个整体来看则句子相互之间缺乏联系,不能构成一个紧凑、自然、流畅的成段表达。而产生这种情况的原因,可能是语义方面的,也可能是连接方式方面的。

例如:

{CP我们经过了漫长的历史,一些没有用的人死于历史中,挨饿其实是可以克服的。P}

(前后句意义上无关)

{CP吸烟对孩子们{CJ-sy有}不好的影响,这一观念他会不会知道呢?所以我早就不理他了。P}

(用了表示因果关系的连词,但句子之间并不存在因果关系)

{CP目前,随着人们生活水平{CQ的}提高,{CJ-zhuy人们}{CD就}对饮食品很重视。就{CJX}{CQ用}未经污染的农产品加工的食品叫做“绿色食品”。P}

(前后句之间缺少过渡句)

{CP我以前看报纸的时候,有一篇关于农药的文章。他说,一般的食品,比如说,米,蔬菜、水果等{CD的}东西,好好儿洗一下就行了,不用担[B但]心。P}

(“他”指称不明,使两句之间失去联系)

5、其他相关问题说明:

1)标注的顺序优先原则:从大到小,即:篇——〉句——〉词——〉字。

篇章错误中含有句、词、字错误的,错句中包含词、字错误的,词中包含字的错误的,均应按照从大到小的顺序依次处理,分别标注。

对同一个错误,能按篇章错误处理的即按篇章错误处理,否则按句式错误处理,其次按句子成分错误处理,再次按词的错误处理,最后按字的错误处理。

从句式的角度看,把字句缺“把”、被字句缺“被”、有字句缺“有”、是字句缺“是”、“是……的”句缺“的”等,均按特殊句式错误处理,而不按成分残缺或缺词处理。换句话说,有些错误虽然可以按句子成分错误或错词处理,但如果是涉及某种特殊句式的问题,则一般优先按句式错误处理。

从词的角度看,句中所缺之词如果涉及某种句式,则标为错句;虽然不涉及句式,但可以充当某种句子成分,则应按成分残缺处理;与句式、成分都无关的才按缺词处理。

例如:

如果我的祖国{CC母国}是西方的先进国的话,我选“绿色食品”。{CP如果我不是西方先进国的人,而且缺少粮食国家的人的话[BQ,]不选“绿色食品”[BQ。]P}

(复句中关联词语的使用错误按篇章错误处理,而不视为错词或别字)

我对这个问题以下几个观点{CJy}。

(该句应为有字句,所以按错句处理,而不按缺述语或缺词处理)

对于非洲来说{CC来看},这是还不够{CJxw}。

(汉语中形谓句无需用“是”,所以按错句处理,而不按多述语或多词处理)

我认为这种{CD的}现象,……在很多人身上{CJ-zy都}会有的。

(“都”可以做状语,所以按成分残缺处理,而不按缺词处理)

从{CC对}现在的情况来说,让大家去吃“绿色食品”是太早了{CC的}。

(正确的说法并不是“是……的”句,因而按错词处理,不视为错句)

目前{CC目先}、祖国{CC母国}。

(“目先”、“母国”,作为词是不存在的,属用词层面上的错误,所以按错词处理,而不视为别字)

现在各个[B各]国家都有“绿色食品”。

(考生知道有“各个”一词,但误将“个”写成了“各”,所以按别字处理,而不视为错词)

2)同一个错误有两种标注方法的,可以把两种标法都标上,中间用斜竖线分开。

例如:

随着现代化{CJ-dy科技的/CJ-zxy的发展}

电子邮件是很方便{CJxw}/{CJsd}!

3)无需处理的情况:

分段错误,指该分而未分段、或不该分而分段的情况。不予处理。

内容上有错误,或表意不清楚,或修饰语太长,但语法上不错的句子,都不必处理。

例如:

我认为吃“绿色食品”会损害{CC害}人类的健康,也会造[C]成污染。那是因为在绿色食品中含有{CC有含}很多化学{CQ 物质},如化肥和农药。

(对“绿色食品”的概念理解错误)

这也是个令人深思的问题,我觉得这个问题比绿色食品的问题重要得多。不挨饿的重要性绝比不上绿色食品问题,我认为不挨饿是第一位的。

(前后句观点自相矛盾)

有高机系的国家也可以帮助还很落后的国家决解这个问题。

(“高级系”概念不清)

我们常常能看到贫穷而且没有吃的粮食而在山上找上一般的人不能吃的东西吃的人。

(定语太长,表达罗嗦,但意思不错)

西班牙委内瑞拉阿根廷秘鲁古巴玻利维亚

关于汉语中介语语料库建设研究报告

汉语中介语语料库建设研究 沈锐1,黄薇2 (1.红河学院教育技术系2.红河学院国际合作与交流处XX蒙自661100) 【摘要】本文探讨母语非汉语学习者的汉语中介语语料库建设的主要思路以及具体实现方法,重点介绍了汉语中介语语料的加工方法以及语料数据库的设计思路,并阐明了该语料库在对外汉语教学和研究中的应用价值。 【关键词】语料库;中介语;汉语教学 语料库是指按一定的语言学原则收集的语言文本或话语片断而建立的电子资料库。本文所述汉语中介语料库是基于语言学中中介语理论设计与实施的。中介语是心理语言学中第二语言习得的一种研究模式,其将语言学习者置于观察中心,去研究他们如何有意识地向目的语的正确形式迁移的各种动态表现。中介语理论自20世纪60年代末出现并发展至今,虽然时间并不长,但越来越受到语言学家以及一线教师的关注。无论是进行中介语研究还是使用中介语理论进行第二语言教学都需要收集分析大量的语料,因而通过信息化手段收集和整理语料变得十分迫切。在对外汉语教学中,通过建设和使用母语非汉语学习者的汉语中介语语料数据库,可以收集不同背景和不同学习阶段外国学生及少数民族学生的汉语书面语和用文字转写的口语语料,并对语料属性、词汇、语法等单位进行计算机处理,以实现对各种条件和要求下的语料数据进行便捷的机器检索和提取,可以为研究母语非汉语学生学习和习得汉语的规律提供大量的各种单项的或综合的资料和信息。因此,我们提出了建设汉语中介语语料库的课题,由于语料库建设是一项浩大的工程,限于人力物力条件,本文讨论的是中

小规模的语料库。 一、需求分析和框架设计 语料库建设不能盲目进行,首先要进行调研,对语料库的应用需求进行分析。半自动化的语料库构建是目前语料库建设的主流技术,目的是在确保语料库质量的前提下,减少人工参与的比例,增加自动化程度,目标是在较短时间内建设一个有一定规模,质量可靠、可扩充、成本低,能够全面、细致地记录母语非汉语学习者在汉语学习过程中的语言表征和研究他们汉语习得过程的语料库。依照软件工程的方法,建立数据库首先需要进行需求分析,在需求分析过程中要注意汉语中介语语料库主要是服务于对外汉语教学的一线教师,以及辅助母语非汉语学生自学,因此主要注重以上二类服务对象的应用需求,确保建成的语料库能够对第二语言教学、研究以及教材的编写提供持续支持。基于以上要求,在对中介语语料库的建设思路及框架做了总体考虑,基本归纳为以下三个方面: 1、中介语语料库为专门用途语料库,主要目的为研究母语非汉语的学生在学习汉语过程中的中介语现象而设计制作的。 2、中介语现象存在于母语非汉语的学生在学习汉语过程中的书面语料及口语语料中,由于口语语料的收集、分析和标注都较为困难,因此在建库的第一阶段只考虑收录书面语料,这有利于语料库的快速建设与使用。 3、语料标注的加工标准使用中科院计算所汉语词性标记集V3.0。 二、语料收集与加工

BCC语料库使用指南

1 、字处理(包括标点符号) [C]:错字标记,用于标示考生写的不成字的字。用[C]代表错字,在[C]前填写正确的字。 例如:地球[C](“球”是错字)、这[C]。 [B]:别字标记,用于标示把甲字写成乙字的情况。别字包括同音的、不同音而只是形似的、既不同音也不形似但成字的等等。把别字移至[B]中B的后面,并在[B]前填写正确的字。 例如:提[B题]高、考虑[B虎]。 [L]:漏字标记,用于标示作文中应有而没有的字。用[L]表示漏掉的字,并在[L]前填写所漏掉的字。 例如: 后悔[L],表示“悔”在原文中是漏掉的字。 农[L]药,表示“农”在原文中是漏掉的字。 [D]:多字标记,用于标示作文中不应出现而出现的字。把多余的字移至[D]中D的后面。 例如:我的[D的],表示括号中的“的”是多余的字(原文中写了两个“的”)。[F]:繁体字标记,用于标示繁体字。把繁体字移至[F]中F的后面,并在[F]前填写简体字。 例如:记忆[F憶]、单{F單}纯、养{F養}分{F份}。 注意: 1)繁体字标记标示的是使用正确的繁体字,如果该繁体字同时又是别字,则先标繁体字标记,再标别字标记。

例如:俭朴[F樸[B僕]]。 2)繁体字写错了,标为:后[F後[C]]。 [Y]:异体字标记,用于标示异体字。把异体字移至[Y]中Y的后面,并在[Y]前填写简体字。 例如:偏[Y徧]、沉[Y沈]。 [P]:拼音字标记,用于标示以汉语拼音代替汉字的情况。把拼音字移至[P]中P的后面,并在[P]前填写简体字。 例如:缘[Pyúan]分、保护[Phù]。 [#]:无法识别的字的标记,用于标示无法识别的字。每个不可识别的字用一个[#]表示。例如:更[#][#]保存自己的生命,…… [BC]:错误标点标记,用于标示使用错误的标点符号。把错误标点移至[BC]中BC的后面,并在[BC]前填写正确的标点符号。 例如:勤奋、[BC,]刻苦的精神。 [BQ]:空缺标点标记,用于标示应用标点符号而未用的情况。把[BQ]插入空缺标点之处,并在[BQ]中BQ的后面填写所缺的标点符号。 例如:周围的环境很安静[BQ,]生活也非常平凡。 [BD]:多余标点标记,用于标示不应用标点符号而用了的情况。把多余的标点移至[BD]中BD的后面。 例如:我家周围的[BD,]美丽风景。 2、词处理:(包括成语) {CC}:错词标记,用于标示错误的词和成语。包括4种情况: 1)把词的构成成分写错顺序的。

HSK语料库体例说明

HSK动态作文语料库”语料标注及代码说明 “HSK动态作文语料库”从字、词、句、篇、标点符号等角度,对所收入的作文语料中存在的外国人使用汉语的中介语偏误进行全面标注。 1 、字处理(包括标点符号) [C]:错字标记,用于标示考生写的不成字的字。用[C]代表错字,在[C]前填写正确的字。 例如:地球[C](“球”是错字)、这[C]。 [B]:别字标记,用于标示把甲字写成乙字的情况。别字包括同音的、不同音而只是形似的、既不同音也不形似但成字的等等。把别字移至[B]中B的后面,并在[B]前填写正确的字。 例如:提[B题]高、考虑[B虎]。 [L]:漏字标记,用于标示作文中应有而没有的字。用[L]表示漏掉的字,并在[L]前填写所漏掉的字。 例如: 后悔[L],表示“悔”在原文中是漏掉的字。 农[L]药,表示“农”在原文中是漏掉的字。 [D]:多字标记,用于标示作文中不应出现而出现的字。把多余的字移至[D]中D的后面。 例如:我的[D的],表示括号中的“的”是多余的字(原文中写了两个“的”)。 [F]:繁体字标记,用于标示繁体字。把繁体字移至[F]中F的后面,并在[F]前填写简体字。 例如:记忆[F憶]、单{F單}纯、养{F養}分{F份}。 注意: 1)繁体字标记标示的是使用正确的繁体字,如果该繁体字同时又是别字,则先标繁体字标记,再标别字标记。 例如:俭朴[F樸[B僕]]。 2)繁体字写错了,标为:后[F後[C]]。 [Y]:异体字标记,用于标示异体字。把异体字移至[Y]中Y的后面,并在[Y]前填写简体字。

例如:偏[Y徧]、沉[Y沈]。 [P]:拼音字标记,用于标示以汉语拼音代替汉字的情况。把拼音字移至[P]中P的后面,并在[P]前填写简体字。 例如:缘[Pyúan]分、保护[Phù]。 [#]:无法识别的字的标记,用于标示无法识别的字。每个不可识别的字用一个[#]表示。 例如:更[#][#]保存自己的生命,…… [BC]:错误标点标记,用于标示使用错误的标点符号。把错误标点移至[BC]中BC的后面,并在[BC]前填写正确的标点符号。例如:勤奋、[BC,]刻苦的精神。 [BQ]:空缺标点标记,用于标示应用标点符号而未用的情况。把[BQ]插入空缺标点之处,并在[BQ]中BQ的后面填写所缺的标点符号。 例如:周围的环境很安静[BQ,]生活也非常平凡。 [BD]:多余标点标记,用于标示不应用标点符号而用了的情况。把多余的标点移至[BD]中BD的后面。 例如:我家周围的[BD,]美丽风景。 2、词处理:(包括成语) {CC}:错词标记,用于标示错误的词和成语。包括4种情况: 1)把词的构成成分写错顺序的。 把写错的词移至{CC}中CC的后面,并在{CC}前填写正确的词。 例如:首先{CC先首}、众所周知{CC众所知周}。 2)该用甲词而用乙词的。这种情况类似别字,但属于用词层面上的错误。 标示方法同上。 例如: 虽然现在还没有实现{CC实践},…… 它在{CC对}价格方面有点贵,所以没得到广大消费者的支持{CC持支}。 3)生造词。指考生自造的、或某些外语中可能有而汉语中不存在的词。

语料库与语料库建设

语料库和语料库建设 一、什么叫语料库 1、定义 语料库,通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是指按照一定的 语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。 目前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。我们看到,以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设计是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。 语料库不同于电子文档,语料库的建设有特定的研究目的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。 语料库具有以下特征:1、语料库的设计与建设有系统的语言学理论指导,语料库的开发具有明确而又具体的目的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,由此保证基于语料库的语言研究的科学性、客观性。3、语料文本是连续的文本或话语片断,而不是孤立的句子或词汇,可以借以获得语法关系、用法、词语搭配以及语篇信息。4、语料库以当代先进的计算机技术为技术手段,语料库语料通过电子文本形式储存并且是通过计算机处理的,具有资源优势和处理速度优势。5、基于语料库的研究以量化研究为基石,以概率统计为手段,以数据驱动为基本理念。6、语料库既是一种研究方法,又代表着一种新的研究思维。 二、语料库产生的背景及发展历史 对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪50年代中期, 在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛围无疑促进了对语料的重视。1959年夸克(R.Quirk)等人着手进行的“英语用法调查”(Survey of English Usage)通过系统的调查建立了第一个现代英语语料库,在此基础上完成的《现代英语语法》( A Grammar of Contemporary English)和《英语语法大全》(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写,在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。

“HSK动态作文语料库”说明

“HSK动态作文语料库”说明 1 “HSK动态作文语料库”是由北京语言大学崔希亮教授主持的一个国家汉办科研项目。项目编号为:HBK01-05/023。 2 “HSK 动态作文语料库”是母语非汉语的外国人参加高等汉语水平考试(HSK 高等)作文考试的答卷语料库,收集了1992-2005 年的部分外国考生的作文答卷。语料库1.0 版收入语料10740 篇,约400 万字,于2006 年12 月下旬上网试运行。经修改补充,语料库1.1 版语料总数达到11569 篇,共计424 万字。 3 语料库提供给用户的作文语料有两种版本:标注语料和原始语料。标注语料是把考生作文答卷人工录入电脑并经人工标注各种中介语偏误的语料,原始语料指的是考生原始作文的电子扫描语料。 4 作文语料的加工处理包括下列内容: (1)字处理:包括错字标注、别字标注、繁体字标注、异体字标注、拼音字标注、漏字标注、多字标注,以及各种用字错误统计,总的字频统计等。 (2)标点符号处理:包括错误标点标注、空缺标点标注、多余标点标注,以及各种相关统计。 (3)词处理:包括错词标注、缺词标注、多词标注、外文词标注、离合词错误标注,以及各种用词错误统计,总的词频统计等。 (4)句处理:包括句子成分残缺或多余的错误标注,各种特殊句式的错误标注,语序、动词重叠、句式杂糅、未完句等方面的错误标注,以及各种句子错误的数据统计。 (5)篇章处理:包括句间连接手段的错误标注,语义表达方面的错误标注,以及篇章错误的数据统计。 为了方便用户更充分地使用这些作文语料,语料库还提供了历次考试的时间、地点和作文题目,以及下列考生信息:考生国籍、性别、作文分数、口试分数、客观试卷中听力、阅读、综合表达各部分分数和参加高等汉语水平考试的总分分数、是否得到汉语水平证书以及证书等级。 5 本语料库在建设过程中,特别注重语料的真实性与平衡性,标注的全面性与科学性,软件系统的方便性与快捷性。 6 本语料库是母语非汉语的汉语学习者学习汉语的中介语语料库。运用本语料库中的作文语料,可以进行对外汉语教学的多方面研究。例如汉语中介语研究、第二语言习得研究、对外

HSK动态作文语料库代码说明

“HSK动态作文语料库”语料标注及代码说明 “HSK动态作文语料库”从字、词、句、篇、标点符号等角度,对所收入的作文语料中存在的外国人使用汉语的中介语偏误进行全面标注。 1 、字处理(包括标点符号) [C]:错字标记,用于标示考生写的不成字的字。用[C]代表错字,在[C]前填写正确的字。 例如:地球[C](“球”是错字)、这[C]。 [B]:别字标记,用于标示把甲字写成乙字的情况。别字包括同音的、不同音而只是形似的、既不同音也不形似但成字的等等。把别字移至[B]中B的后面,并在[B]前填写正确的字。 例如:提[B题]高、考虑[B虎]。 [L]:漏字标记,用于标示作文中应有而没有的字。用[L]表示漏掉的字,并在[L]前填写所漏掉的字。 例如: 后悔[L],表示“悔”在原文中是漏掉的字。 农[L]药,表示“农”在原文中是漏掉的字。 [D]:多字标记,用于标示作文中不应出现而出现的字。把多余的字移至[D]中D的后面。 例如:我的[D的],表示括号中的“的”是多余的字(原文中写了两个“的”)。 [F]:繁体字标记,用于标示繁体字。把繁体字移至[F]中F的后面,并在[F]前填写简体字。 例如:记忆[F憶]、单{F單}纯、养{F養}分{F份}。 注意: 1)繁体字标记标示的是使用正确的繁体字,如果该繁体字同时又是别字,则先标繁体字标记,再标别字标记。 例如:俭朴[F樸[B僕]]。 2)繁体字写错了,标为:后[F後[C]]。 [Y]:异体字标记,用于标示异体字。把异体字移至[Y]中Y的后面,并在[Y]前填写简体字。

例如:偏[Y徧]、沉[Y沈]。 [P]:拼音字标记,用于标示以汉语拼音代替汉字的情况。把拼音字移至[P]中P的后面,并在[P]前填写简体字。 例如:缘[Pyúan]分、保护[Phù]。 [#]:无法识别的字的标记,用于标示无法识别的字。每个不可识别的字用一个[#]表示。 例如:更[#][#]保存自己的生命,…… [BC]:错误标点标记,用于标示使用错误的标点符号。把错误标点移至[BC]中BC的后面,并在[BC]前填写正确的标点符号。例如:勤奋、[BC,]刻苦的精神。 [BQ]:空缺标点标记,用于标示应用标点符号而未用的情况。把[BQ]插入空缺标点之处,并在[BQ]中BQ的后面填写所缺的标点符号。 例如:周围的环境很安静[BQ,]生活也非常平凡。 [BD]:多余标点标记,用于标示不应用标点符号而用了的情况。把多余的标点移至[BD]中BD的后面。 例如:我家周围的[BD,]美丽风景。 2、词处理:(包括成语) {CC}:错词标记,用于标示错误的词和成语。包括4种情况: 1)把词的构成成分写错顺序的。 把写错的词移至{CC}中CC的后面,并在{CC}前填写正确的词。 例如:首先{CC先首}、众所周知{CC众所知周}。 2)该用甲词而用乙词的。这种情况类似别字,但属于用词层面上的错误。 标示方法同上。 例如: 虽然现在还没有实现{CC实践},…… 它在{CC对}价格方面有点贵,所以没得到广大消费者的支持{CC持支}。 3)生造词。指考生自造的、或某些外语中可能有而汉语中不存在的词。

语料库检索分析在高级英语语篇教学中的应用_语料库检索

语料库检索分析在高级英语语篇教学中的应用_ 语料库检索 语料库检索分析在高级英语语篇教学中的应用_语料库检索摘要语料库语言学通过对自然文本的检索、统计,实现文本的语篇结构、文体风格、语言特征等的量化分析。语料库软件工具如Wordsmith、Concordancer软件等为语篇教学提供了量化分析手段。本文依据语料库语言学的研究方法,主要运用Wordsmith、Antconc软件,以课文"Blackmail"为小型教学语料库,探索高级英语语篇教学的新途径。 关键词语料库检索分析;高级英语;语篇教学1.引言高级英语是英语专业高年级阶段的一门主干课程,其教学目标是"通过阅读和分析内容广泛的材料,扩大学生知识面,加深学生对社会和人生的理解,培养学生对名篇的分析和欣赏能力、逻辑思维与独立思考的能力,巩固和提高学生英语语言技能"1。鉴于此,围绕高级英语课程的教学研究与改革长期以来备受专家、学者和广大师生的关注,如朱传枝2、杨志亭3、刘采敏和楚向群4、李洁平5、黄文英6等。十多年来,随着语言教学理论研究的深入以及计算机网络和多媒体技术的快速发展,高级英语课程改革成绩斐然,教学效果显著提高。然而,在语篇教学中不难发现,由于缺乏科学的文本分析手段和工具,学生对语篇的分析和欣赏"多来自

教师在反复阅读全文的基础上根据某种理论框架或自身独特的理解能力及审美取向所做的解释"7,或者依赖于教学参考书籍上的注解,学习效果大打折扣,成为了困扰教师的一大教学瓶颈。语料库语言学的出现为高级英语语篇教学提供了有力的理论和技术支持,对于解决教学中存在的难题有着重大的启示和意义。 2.语料库与语料库检索分析软件的应用20世纪90年代以来,语料库语言学的迅速发展"给语言研究以及语言应用研究带来了一场革命性的变化"8,而"基于语料库的研究方法已经逐渐扩展到语言教学、话语分析、翻译研究、词典编纂和自然语言处理等多个领域"9。语料库语言学以真实的语言数据为研究对象,通过对大量语言事实进行分析,寻找语言应用的规律和模式。由于语料库研究中的统计数据以实际使用中语言现象的出现概率为依据,且基于语料库而得到的数据避免了偶然性,从而提升了分析结果的可信度。 因此,语料库语言学为语言研究和教学提供了一种全新的模式。 随着计算机信息技术的日新月异,语料库为语言研究提供了空前广泛的语言资料。目前,国际上影响较大的语料库有英国COBUILD语料库(CollinsBirminghamUniversityInternationalLanguageDatabas e)、BNC英语国家语料库(TheBritishNationalCorpus)、CIC 语料库CambridgeInternationalCorpus、ICE语料库

留学生常见错别字偏误分析及对汉字教学的启示——以北语HSK动态作文语料库为例

留学生常见错别字偏误分析及对汉字教学的启示 ——以北语HSK动态作文语料库为例 摘要 第二语言的教学通常可以分为口语和书面语的教学,当下根据学习者学习的需要以及因为书面语教学更具综合性,书面语教学便被作为第二语言教学的主要形式。因而,作为记录语言符号,也就在与第二语言教学息息相关。在汉语国际教育教学中,汉字的教学十分重要。汉字,属于表意文字的这一特性,也就决定了汉字难学的特点,因而做好汉字教学也就成为了对外汉语教学任务重一项艰难而且必须克服的问题。为了更好的解决这一问题,以帮助对汉语国际教师进行汉字教学,以及帮助留学生学好汉字,本文将以对汉语国际教育教学中,常见的错别字作为研究语料,以北语HSK动态作文语料库中留学生的作文为依据,通过搜集语料,鉴定偏误,进而进行偏误分析的方法对留学生常见的错别字进行分析,从而揭示其产生偏误的原因,进而为对外汉语教学中的汉字教学提供帮助,提高教学汉字教学的效率,增强留学生使用汉字的准确率。 关键词:错别字;偏误分析;汉字教学 ABSTRACT Teaching a second language is usually divided into teaching spoken and written, according to the current needs of learners as well as more comprehensive written language teaching, teaching will be written as the main form of second language teaching. Thus, as a record of linguistic signs, it is closely related to the second language teaching. International Education in Chinese teaching, teaching Chinese characters is very important. Chinese characters, this property belongs to the ideogram, also determines the characteristics of difficult to learn Chinese characters, so do the teaching of Chinese characters has become a heavy task for Teaching Chinese as a difficult and must be overcome. In order to better address this issue, in order to help teachers of Chinese language international teaching of Chinese characters, and to help students learn Chinese characters, this article will be on Chinese international education, the common misspellings as a research corpus, north of language HSK dynamic composition corpus composition students as the basis, by collecting corpus, identify errors, and then perform error analysis methods for

语料库常用统计方法

3.5语料库常用统计方法 第3章前几节对语料库应用中的几种主要技术做了介绍。通过语料检索、词表和主题词表的生成,可以得到一定数量的句子、词汇或结构。为能更好说明所得到的结果的真正意义,常常需要对它们加以统计学分析。本章主要介绍语料分析中的一些常用统计方法。 3.5.1 语料库与统计方法 介绍相关统计方法之前,首先需要了解为什么语料库应用中需要运用统计方法。在2.1节讲到文本采集时,我们知道文本或会话构成了最终的语料库样本。这些样本是通过一定的抽样方法获得的。研究中,我们需要描述这些样本的出现和分布情况。此外,我们还经常需要观察不同语言项目之间在一定语境中共同出现(简称共现)的概率;以及观察某个(些)语言项目在不同文本之间出现多少的差异性。这些需要借助统计学知识来加以描写和分析。 理论上说,几乎所有统计方法都可以用于语料库分析。本章只择其中一些常用方法做一介绍。我们更注重相关统计方法的实际应用,不过多探讨其统计学原理。这一章我们主要介绍语料分析中的频数标准化(normalization )、频数差异检验和搭配强度的计算方法。 3.5.2 频数标准化 基本原理 通常语料检索、词表生成结果中都会报告频数(frequency, freq 或raw frequency )。那么某词(如many )在某语料库中出现频数为100次说明什么呢?这个词在另一个语料库中出现频数为105次,是否可以说many 在第二个语料库中更常用呢?显然,不能因为105大于100,就认定many 在第二个语料库中更常用。这里大家很容易想到,两个语料库的大小未必相同。按照通常的思维,我们可以算出many 在两个语料库中的出现百分比,这样就可比了。这种情况下,我们是将many 在两个语料库中的出现频数归到一个共同基数100之上,即每100词中出现多少个many 。这里通过百分比得到的频率即是一种标准化频率。有些文献中标准化频率也称归一频率或标称频率,即基于一个统一基准得出的频率。 实例及操作 频数标准化,首先需要用某个(些)检索项的实际观察频数(原始频数,raw frequency )除以总体频数(通常为文本或语料库的总词数),这样得到每一个单词里会出现该检索项多少次。在频数标准化操作中,我们通常会在此基础上乘以1千(1万、1百万)得到平均每千(万、百万)词的出现频率。即: 1000?=总体频数 观测频数标准化频率(每千词) (注:观测频数即检索词项实际出现的次数;总体频数即语料库的大小或总形符数。) 例如,more 在中国学生的作文里出现251次,在英语母语者语料中出现475次。两个语料库的大小分别为37,655词次和174,676词次。我们可以根据上面的公式很容易计算出251和475对应的标准化频率。另外,我们还可以利用Excel 或SPSS 等工具来计算标准化频率。比如,可以将实际观察频数和语料库大小如图3.5.1输入相应的单元格,然后在C1单元格里输入=(A1/B1)*1000即可得到中国学生每千词使用more 约为6.67次。要得到母语

基于语料库的韩国留学生“把”字句 习得偏误分析及教学建议

基于语料库的韩国留学生“把”字句习得偏误分析及教学建议 本文收集、整理了HSK动态作文语料库中韩国留学生的255条“把”字句偏误语料,梳理出“把”字句的偏误类型,将其分为“补语偏误”等6种,并且根据“把”字句的15种句式,对这些偏误句进行句式归类,统计出每种句式偏误的数量和频率。进而从学习策略的角度,从补偿策略、泛化策略、回避策略等几个方面分析了韩国留学生在“把”字句习得过程中出现偏误的原因。在分析过程中,本文也与前人的研究成果做了对比,认为韩国留学生在“把”字句习得中的最大问题仍然是回避。针对这一现象,本文建议在教师的教学对策中应该采取鼓励使用的态度,包括区别对待偏误、多用隐性教学、避免“教学迁移”等方面。 标签:偏误分析“把”字句汉语语法习得二语习得对外汉语教学一、引言 “把”字句是指在谓语动词前头用介词“把”引出受事、对受事加以处置的一种主动句(黄伯荣、廖序东,2007)。“把”字句是对韩汉语教学的难点之一,也是韩国学生汉语习得中的一大困扰。就韩国留学生的表现而言,上课时似乎听懂了,课后的练习也基本会做,但平时生活中却仍然不会用“把”字句。 前人已对韩国留学生的“把”字句习得展开了一些研究。例如,林载浩(2001)曾针对韩国学生习得“把”字句的情况做了初步考察,并作了偏误分析。李宝贵(2004)也对韩国留学生的“把”字句做了偏误分析。金道荣(2010)则通过对韩国学生的实证调查,结合历史文献中的相关资料,对阿尔泰语法背景下的汉语“把”字句偏误生成机制进行了较为详尽的分析,并提出了相应的教学对策。这些成果都为这一领域的研究提供了一定的基础,但仍然需要从不同角度、采用不同方法展开更多的研究。 本文利用北语HSK动态作文语料库,将其中收集的韩国学生的255条“把”字句偏误进行分类和定量分析,并讨论产生偏误的原因。 二、“把”字句偏误的分类和统计 本文首先把255条偏误句分为“把”字的“当用而不用”“不当用而用”和“其他”三大类,并得到其总体情况(见表1)。 表1:韩国留学生“把”字句偏误总体情况表 类型数量比例(%) 当用而不用“把”80 31.4 不当用而用“把”70 27.4 其他* 105 41.2

中介语语料库与汉语教学研究

中介语语料库与汉语教学研究 什么是汉语中介语 早期的和后期的(早期受行为主义影响,语言学家通过对比发现差异,预测可能有的错误,从而指定大纲) 早期对比分析的理论方法存在致命弱点,如果归结为一句话,那就是,人们试图用简单的语言学的方法取解决复杂的心理学的问题。语言习得涉及学习的主体和客体的方方面面,对比分析却仅仅局限于语言系统的对比,忽略了学习者这一主体以及作为学习客体的过程。 早期的中介语理论,首先在理论导向上实现了所谓“教学中心”的观点向“学习中心”的观点的根本转变。 中介语理论把目光转向学习者特有的语言系统,并将其作为一个独立的、与学习者的母语和目的语系统并列的系统来考察。也就是说,中介语研究不仅要考察学习者的母语和目的语系统,还要考察学习者的中介语系统,考察学习者自身及习得过程,这标志着第二语言习得研究方向的根本转变。 目前中介语研究在方法上存在的问题: (1)在研究方法上一个最严重的问题是不能进行重复性的研究;(2)在对第二语言学习者的言语行为进行解释时,没有考虑到足够的相关材料;(3)只在单一的情景运用单一的方法收集中介语语料;(4)收集数据的方法不恰当;(5)在假设检验的研究中满足于对逸闻趣事的材料进行分析,缺乏定量分析;(6)在实验研究中或获得基线数据时,收集数据的手段可靠。 有关中介语的研究 王建勤《历史回眸:早期的中介语理论研究》,《语言教学与研究》2000年第2期。 王建勤《关于中介语研究方法的思考》,《汉语学习》2000年第3期。(中介语研究的理论和方法进行了探讨) 彭利贞《论中介语的语篇层次》,《第五届国际汉语教学讨论会论文选》北京大学出版社1997年。 ----------------------------------- 中介语研究的现状与发展 自上世纪80年代算起,对外汉语教学领域的中介语研究已经有20多年的历史了。20多年来,这一领域的研究发生了很大的变化。 1984年鲁健冀《中介语理论与外国人学习汉语的语音偏误分析》 中介语研究引起了普遍的关注 由于中介语理论的引进不够系统,对外汉语教学界的中介语研究基本上停留在偏误分析的基础上。 近年来中介语研究的进展表现之一是研究的范围进一步扩大。从语篇的角度研究学习者的中介语系统,早在上世纪80年代初就引起了国外学者的关注。在汉语习得研究领域,中介语

CCL语料库与检索系统方案

一关于CCL语料库及其检索系统 (如果时间紧张,可直接跳到最后的举例部分!) 1.1 CCL语料库及其检索系统为纯学术非盈利性的。不得将本系统及其产生的检索结果用于任何商业目的。CCL不承担由此产生的一切后果。 1.2 本语料库仅供语言研究参考之用。语料本身的正确性需要您自己加以核实。 1.3 语料库中所含语料的基本内容信息可以在“高级搜索”页面上,点击相应的链接查看。比如: “作者列表”:列出语料库中所包含的文件的作者 “篇名列表”:列出语料库中所包含的篇目名 “类型列表”:列出语料库中文章的分类信息 “路径列表”:列出语料库中各文件在计算机中存放的目录 “模式列表”:列出语料库中可以查询的模式 1.4 语料库中的中文文本未经分词处理。 1.5 检索系统以汉字为基本单位。 1.6 主要功能特色: ?支持复杂检索表达式(比如不相邻关键字查询,指定距离查询,等等); ?支持对标点符号的查询(比如查询“?”可以检索语料库中所有疑问句); ?支持在“结果集”中继续检索; ?用户可定制查询结果的显示方式(如左右长度,排序等); ?用户可从网页上下载查询结果(text文件); 二关于查询表达式 本节对CCL语料库检索系统目前支持的查询表达式加以说明。 2.1 特殊符号 查询表达式中可以使用的特殊符号包括8个: | $ # + - ~ ! : 这些符号分为四组: Operator1: | Operator2: $ # + - ~ Operaotr3: !

Delimiter: : 符号的含义如下: (一) Operator1: Operator1是二元操作符,它的两边可以出现“基本项”(关于“基本项”的定义见2.2) (1) | 相当于逻辑中的“或”关系。 (二) Operator2:Operator2是二元操作符,它的两边可以出现“简单项”(关于“简单项”的定义见2.3) (2) $ 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数小于或等于Number (3) # 表示它两边的“简单项”出现于同一句中,不考虑前后次序。两个“简单项”之间相隔字数小于或等于Number (4) + 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数刚好等于Number (5) - 表示它左边的“简单项”出现于句子中,并且,在右边相隔Number个字的范围内,-号右边的“简单项”不出现。 (6) ~ 表示它左边的“简单项”出现于句子中,并且,在左边相隔Number个字的范围内,~号右边的“简单项”不出现。 (三)Operator3:Operator3是一元操作符。 (7) ! 表示它后面的“简单项”是本次查询的主关键字符串,显示查询结果时以该“简单项”作为中心来进行定位。 注意: Operator2后面的Number是必须的,不能省略。Number=0表示相 邻,Number=1表示间隔1个单位,其余依此类推。 (四)Delimiter:西文冒号 : 是分隔符 (8) : 跟在 path,author,name,type,pattern 等关键字后面,用于分隔关键字和它们的取值。这样形成的查询式我们称之为“过滤项”(见下面2.5) 注意:上述特殊字符不能作为基本项在语料库中进行检索。path,author等关键字可以作为基本项进行检索。 2.2 基本项 指不包含特殊符号和空格的连续字符串

基于语料库的海明威作品《雨中的猫》分析

基于语料库的海明威作品《雨中的猫》分析 ——以写作风格和小说主题为例 王树振 (天津师范大学外国语学院,天津, 300387) 【摘要】美国著名作家厄内斯特·海明威的短篇小说《雨中的猫》(1922),自发表以 来便引起文学评论界的极大关注。在作品中,通过对一个日常生活片段的叙述,作者 揭示了女性生存困境的主题。而基于语料库的文学研究,则是通过利用语料库检索软 件来考察作者的写作风格、解读作品的主题。在前人研究的基础之上,笔者拟运用语 料库语言学的方法对这部小说进行更深入的研究。通过使用Wordsmith和AntConc等 语料库检索软件,笔者拟对《雨中的猫》进行词语、句子及篇章结构进行统计分析, 最后不仅能够分析得出海明威用词简单、句子简短的写作风格,还能利用关键词检索 和自动生成的语境,来了解小说的主要内容和人物形象的塑造,这为解读小说的主题 提供了新的研究方法和途径。 【关键词】语料库检索;写作风格;主题 近年来, 国内外不少学者将语料库研究方法应用到文学领域,利用语料库检索软件对文本进行分析, 如Sinclair(1991)、Biber(2000)、张厚振(2004)、肖普勤(2005)等。他们的研究大胆创新,为后来的文学研究者带来很大的启示。正如Sinclair(1991: 36)所论述的那样,“(语料库检索)最激动人心的方面不是对描述进行直观的分类,而是为找到新的方法、新的证据以及新的描述提供可能。在这里,计算机技术的客观性和表面的正当性变成了一种优势,而不是没有放弃直觉前提下的一种责任。当然,我们要尽力找到符合证据的解释,而不是为了迎合现有的解释而去修改我们的证据。” 《雨中的猫》是美国著名小说家海明威的著名短篇,故事情节主要围绕一只雨中的猫展开,叙述了旅居意大利的一对美国夫妻的一段生活场景。本文用Wordsmith及AntConc的Wordlist、Concordance和Keyword对《雨中的猫》的文本特征、主要内容、人物形象和文本主题进行分析,以展示语料库检索软件在文学分析方面的强大功能。 一、基于词表的文本总体特征分析 基于语料库的语言研究一般采取定性与定量相结合的研究方法,要进行定量研究就要涉及文本检索和数据统计。Wordsmith软件中的Wordlist工具可以对文本的基本信息进行统计,自动生成词表(图1)。它可以提供文本中的简略统计数据,从而有助于分析文本的总体统计特征和基本情况。

多语种在线语料库检索平台使用简明手册.pdf

多语种在线语料库检索平台使用简明手册 许家金 中国外语与教育研究中心 、访问及登录 访问(用户名:和密码:),可点击使用相应的语料库。目前平台上已安装英语、汉语、德语、日语、俄语、阿拉伯语、冰岛语等数十个语料库。 图:主界面 、功能概要 按()对语料库分析工具的时代划分,属于第四代语料库工具,即在线语料库分析工具。四代工具的突出代表是美国杨百翰()大学教授创建的系列语料库检索界面()。类似的在线语料库检索系统还有、、、等。而当前主流的语料库工具属于第三代,其中以、和等为代表。 第四代语料库工具,将语料库与分析工具合二为一,越来越受到普通用户的青睐。在线语料库工具通常将语料库文本按特定格式建成索引(),存储在服务器上。用户检索响应速度要远高于三代软件在本地电脑上的检索速度。其操作也较三代语料库软件简便得多。 四代语料库工具可完成三代语料库几乎所有的功能,其中又以所能实现的功能最多最全。更重的是,是开源软件。概括说来,可以实现以下功能。 ()在线生成语料库的词频表(); ()查询()字词、语言结构等,以获取大量语言实例或相应结构的出现频次(),并可以按语体、年代、章节、学生语言水平级别、写作题材等分别呈现查询结果; ()计算特定词语在语料库中的典型搭配(); ()计算语料库中的核心关键词(),等。

、使用实例 标准查询模式 在简单查询模式()下,可输入单词、短语等进行检索。 图:语料库查询界面 图:查询结果界面

点击查询结果页面右上角下拉菜单,显示(新查询)时,按键,即可重新回到语料库检索界面。相当于返回按钮。 新查询,返回语料库检索首页 查询结果随机抽样 频数分解、分解频数 查询结果的分布展示 查询结果排序设定 搭配计算 下载保存查询结果 (随机取样),比如,可从万行结果中,随机抽取行。 (频数分解)表示在进行复杂查询时,对命中的不同词项分别计算频数。比如,查询时,会按这个词项分别报告命中频数和频率。 图:动词查询(频数分解)结果示例 :按语体、年代、章节、学生语言水平、写作题材等分别呈现查询结果 图:语料库中"lov.*"的分布情况()

词性标注说明_128601491

人民日报标注语料库(PFR)使用说明书 本文是PFR标注语料库的使用说明书,帮助用户了解它,更好地使用它。 PFR语料库是对人民日报1998年上半年的纯文本语料进行了词语切分和词性标注制作而成的,严格按照人民日报的日期、版序、文章顺序编排的。文章中的每个词语都带有词性标记。目前的标记集里有26个基本词类标记(名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习惯用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,从语料库应用的角度,增加了专有名词(人名nr、地名ns、机构名称nt、其他专有名词nz);从语言学角度也增加了一些标记,总共使用了40多个个标记。

二.格式说明 1.语料是纯文本文件,文件中每一行代表一自然段或者一个标题,一篇文章有若干个自然段,因此在语料中一篇文章是由多行组成的。 2.文件名格式为“月-日-版号-篇章号”。 3.一篇文章里面的段落之间是不空行的,在两篇文章之间,会有一个空行,表示文章的分界线,同时,下一篇文章的“篇章号-段号”都会有所改变。 4.标号之后,是2个单字节空格,然后开始正文。 5.正文部分按照规范已经切分成词,并且加上标注,标注的格式为“词语/词性”,即词语后面加单斜线,再紧跟词性标记。词与词之间用2个单字节空格隔开。每段最 后的词,在标记之后也有2个单字节空格,保持格式一致。 6.语料中除了词性标记以外,还有“短语标记”,这种情况一般出现在机构团体名称、成语等情况中。如“通过/p [中央/n 人民/n 广播/vn 电台/n]nt 、/w”中,用 “[ ]”合起来的部分是一个完整的机构团体名称,方括号后面紧跟标注nt,nt之后 空两个单字节空格,保持了格式的一致。 三.例子 迈向/v 充满/v 希望/n 的/u 新/a 世纪/n ——/w 一九九八年/t 新年/t 讲话/n (/w 附/v 图片/n 1/m 张/q )/w …… 在/p 1998年/t 来临/v 之际/f ,/w 我/r 十分/m 高兴/a 地/u 通过/p [中央/n 人民/n 广播/vn 电台/n]nt 、/w [中国/ns 国际/n 广播/vn 电台/n]nt 和/c [中央/n

“HSK动态作文语料库”的特色与功能1汇总

国际汉语教育■ ■ 麗关于农药的文章品,内、容。坐说一,般的食,以根据需要选取其中的项或数项甚至全,,比如说米蔬菜水果等的,一东西。好好部项进行设置。这样检索到的每条语料,儿洗下就行了,、不用担心,后面都会带有预先设定的信息以便更全面、在上述三项检索中每条语料后面都有“ 一更深人地对语料进行分析。原始语料标记可査看扫描版的原始” ,语料另有显示隐藏考生信息的转换按’ ’ ,“ 统计信息及相关检索语料库设有统计栏、钮可看到语料的相关信息,“ ” 。目,内容、包括概:况错误信息汇总字汇总词汇总按年份统、、全篇检索计字按年份统计词按国家统计按级别 统、、、语料库共有语料以在此项功能中检索到,篇任何,一篇都可计按标点统计、:。。每篇语料都有录人版。概况介绍语料库总体情况对认识语料,和扫描版录入版语料还有字数和词数统计库的基本构成情况有重要作用、、。具体包括、语料库总字数总词数作文题目总数语料‘ 査询条件的组合检索为了满足用户对某种语料的特别需求,总篇数有考生参加,,高等考试的国家及其语料篇数历次考试中所用

的作文题目及考生人数。使查询更加方便语料库中设有,种査询条目。件,考生国籍考试时间作文题、、、、、作文用户错误信息汇总指语料库中的所有偏误:分数证书级别作文题可以按照其中任意自一目考试时间,信息汇总包括字错误汇总词错误汇总句,、、种条件检索以査询到—子错误汇总篇章偏误汇总、。己需要的语料,也可以同时选中其中的。,字错误汇总包括错字别字繁体字异、、、种查询条件进行组合检索,不过选择的査,体字拼音字漏字多字标点符号的使用偏、、、;询条件越多符合条件的语料就越少査询到相关语料的可能性也就随之降低了。误也放在这个部分有错误标点空缺标点,、、多余标点二类。词错误汇总包括错词缺词多词离合、、、属性设置词错误外文词以及词处理存疑、,。按照上述査询条件可以检索到符合条件的语料但是语料本身并不带有与之相关的,句子错误汇总收人单句使用的各种错误包括主语谓语宾语等八种句子成分的,、、考生信息使用起来还是不太方便,。因此语残缺和多余等一“ ,把字句、” “ 、比” 字句双宾语句、、料库设置了属性设置选项共包括考生国” ,“ 些特殊句式语序动词重叠句式杂糅、,籍性别考试时间作文题、、、目、作文分数、、口等方面的偏误以及单句偏误存疑。试分数客观性考试中各部分的分数参加高、篇章偏误汇总包括语段和复句只表明,等汉语水平考试的总分是否得到汉语水平、数量未做进,一步的分类。证书以及证书等级等项考生信息。用户可需要特别说明的是错误信息汇总是以, 动态作文语料库的特色与功能” 表格形式列出的。除序号之外每种具体的,续表偏误类型之后分别列有类型标记频次频、、漏字繁体字拼音字无法侧的字空缺标点多字异体字外文错误标点多余标点率详细信息等内容、,。例如语序是“ ” ,“ ” 一种错,误类型其类型标记是频率是则会显示全部:频次为“ ” 点击详细信息,个语序错误的句子、、。字汇总包括字形总频次出现问题的频次等三项内容,错词多词缺词离合词。例如“ 的” 字总频次达,出现问题的频次是,“ 岛” ,总

相关文档
最新文档