汉语中介语语料库介绍

合集下载

留学生汉语中介语语料库建设若干问_省略_中山大学汉字偏误中介语语料库为例_张瑞朋

留学生汉语中介语语料库建设若干问_省略_中山大学汉字偏误中介语语料库为例_张瑞朋

2012年5月第2期语言文字应用Applied Linguistics May ,2012No.2[收稿日期]2011-12-01[作者简介]张瑞朋,中山大学国际汉语学院讲师,博士,主要研究语言学及应用语言学。

*本文得到国家社会科学基金青年项目(10cyy020)资助。

留学生汉语中介语语料库建设若干问题探讨*———以中山大学汉字偏误中介语语料库为例张瑞朋(中山大学国际汉语学院广东广州510275)[摘要]文章以中山大学汉字偏误中介语语料库为例,着重讨论建设相关中介语语料库时应注意的四个问题:语料真实性和连续性问题;语料的科学标注,尤其是汉字偏误标注问题;检索工具的简易使用问题;附属系统问题。

文中还结合建设实践提出了一些可资借鉴的方法和建议。

[关键词]汉字偏误标注;中介语语料库;标注[中图分类号]H195[文献标识码]A [文章编号]1003-5397(2012)02-0131-06Building Chinese Interlanguage Corpus :The Case ofCharacter Error-tagged Chinese InterlanguageCorpus of Sun Yat-Sen UniversityZHANG RuipengAbstract :The paper reports the preliminary findings of character error-coded ChineseInterlanguage Corpus of Sun Yat-Sen University.The corpus is used as an illustration on some theoretical issues in interlanguage corpus building.The first one is the authenticity and continuity of the corpus.The second one is the principled tagging ,especially the tagging for the characters errors.The wrong characters are created by Truetype Character Editor in Windows ,and stored and displayed as images.The characters can be edited.The third issue is that the retrieval tool should be multifunctional and user-friendly to guarantee the efficient use of corpus data.The last issue is the development of the sub-system of corpora.Keywords :tagging of character errors ;interlanguage corpus ;annotation·132·语言文字应用2012年第2期一前言随着语料库语言学在国内外的迅猛发展,语料库建设与研究正在成为语言研究的重要领域。

韩国汉语学习者中介语口语语料库的建设及意义

韩国汉语学习者中介语口语语料库的建设及意义
1. 韩国学习者汉语口语语料库的建 库价值
1.1 可对新 HSK 考试反拨效应研究提供支 撑
以标准化考试语料为来源的汉语中介语口 语语料对汉语水平考试的反拨效应明显。在建 的 KHSKKC 语 料 库 首 次 使 用 了 新 HSK 口 语 语 料,利用该语料库提取的字表数据库、词表数 据库,在后续研究中将与新 HSK 词汇大纲、汉 字大纲等结合,进行相关性研究,这对 HSK 的 信度、效度及测试对教学的反拨作用研究等均 将起到一定的支撑作用。
Байду номын сангаас53
华文教学与研究 2020 年第 1 期
1.2 可为国别化汉语教学研究提供支撑 在汉语教学研究界,对汉语教学“国别 化”的呼声越来越高 (李如龙,2012 等)。不 同国家、不同母语和文化背景的学习者,学习 汉语时表现出的中介语特征的确存在着差异。 因 此 , 甘 瑞 瑗 、 张 普 (2005) 提 出 ,“ 国 别 化”就是要“针对不同的国家而实行不同/差 别的汉语的教学与研究”。国别化汉语中介语 语料,为国别化教学大纲设计、国别化教材的 编写、国别化词典的编撰提供可靠的依据,也 为汉语作为第二语言的习得研究提供扎实的多 维度基础数据。 (1) 为国别化汉语教学用字表、词表的研 制提供有力支撑 《汉语水平词汇与汉字等级大纲》(以下简 称 《大纲》),研制于 1992 年 (2001 年进行了 修订),随着时代的发展与进步,社会语言生 活发生了巨大的变化,《大纲》 逐渐不能满足 汉语学习者和汉语作为第二语言研究的需要。 2010 年出台的 《汉语国际教育用音节汉字词汇 等级划分》(以下简称 《等级划分》) 一个显 著的变化是将口语动态语料作为制定音节表、 字表和词表的依据之一。但需要注意的是, 《大纲》 和 《等级划分》 中对字、词的选择仍 然是纯本体视角,而汉语国际教育用的字表、 词表除要依据母语者的使用频率外,还应该将 二语学习者口、笔语语料库作为重要的参照。 因此,对韩国学习者汉语口语的字表和词表的 提取、研究,为面向韩国的汉语教学用字表、 词表的研制提供了强有力的支撑。 (2) 为汉语中介语口语、笔语对照研究提 供有力保障 我们在语料库建设中回避了“书面语”,代 之以“笔语”,究其原因,一是参照了文秋芳、 王立非 (2008)“中国学生英语口笔语语料”的 提法。更重要的是汉语二语学习者在从零起点 到接近于汉语母语者的习得过程中,有相当长 一段时间尚未形成书面语意识,他们所谓的 “书面语”大多数情况下只是以笔语形式记录下 来的口语而已。那么汉语学习者的笔语在哪些 阶段出现了明显的书面语化特征,从哪些节点 他们的口语笔语发生了质的变化,这都需要将 学习者的口、笔语进行对照方可显现。目前, 在汉语作为第二语言教学和研究领域,将汉语

英语母语学习者趋向补语的习得顺序 基于汉语中介语语料库的研究

英语母语学习者趋向补语的习得顺序  基于汉语中介语语料库的研究

三、研究问题和假设
1、不同年龄段的英语学习者在 习得趋向补语时是否存在习得顺 序的差异?
2、英语学习者对于不同类型趋 向补语的习得顺序是怎样的?
根据上述问题,本研究提出以下假设: 1、年龄对于英语学习者趋向补语的习得顺序具有影响;
2、不同类型的趋向补结合的研究方法。首先,通过收集不同年龄段的英 语学习者在习得趋向补语时的表现和成绩,为研究提供数据支持。其次,利用问 卷调查和访谈的方式,了解学习者在习得趋向补语时的难点和困惑。最后,通过 对汉语中介语语料库的分析,探究母语影响对于英语学习者趋向补语习得顺序的 作用。
感谢观看
英语母语学习者趋向补语的习 得顺序 基于汉语中介语语料
库的研究
目录
01 一、引言
03 三、研究问题和假设
02 二、文献综述 04 四、研究方法
目录
05 五、结果与讨论
07 参考内容
06 六、结论
一、引言
补语是语言学习中的一个重要语法现象,对于英语和汉语而言,补语在句法 结构和语义表达上都具有重要作用。在英语中,趋向补语是表达动作方向、方式 和结果的补充成分,而汉语中的趋向补语则用来表示动作的方向、处所等。英语 母语学习者在习得英语时,会受到母语汉语的影响,对于趋向补语的习得顺序也 因此成为研究的焦点。
三、研究问题和假设
1、不同年龄段的英语学习者在 习得趋向补语时是否存在习得顺 序的差异?
2、英语学习者对于不同类型趋 向补语的习得顺序是怎样的?
根据上述问题,本研究提出以下假设: 1、年龄对于英语学习者趋向补语的习得顺序具有影响;
2、不同类型的趋向补语在习得顺序上存在差异。
四、研究方法
本研究采用定性和定量相结合的研究方法。首先,通过收集不同年龄段的英 语学习者在习得趋向补语时的表现和成绩,为研究提供数据支持。其次,利用问 卷调查和访谈的方式,了解学习者在习得趋向补语时的难点和困惑。最后,通过 对汉语中介语语料库的分析,探究母语影响对于英语学习者趋向补语习得顺序的 作用。

中介语理论与对外汉语教学

中介语理论与对外汉语教学

中介语理论与对外汉语教学中介语理论最早出现于20世纪70年代,一般认为,1972年塞林格的《中介语》一文标志着该理论的诞生。

它与以往的语言学理论不同,是一门以学习者自身及习得过程为研究重点的新理论。

因此,一经出现,就引起了各国语言学家的关注,近年来,我国的中介语理论研究也开展得十分迅速。

本文在总结以往研究情况的基础上,探讨中介语理论在对外汉语教学中的应用,希望对实际教学能有所裨益。

一、中介语理论的研究状况(一)国外的中介语理论研究一般认为,国外的中介语理论研究分为早期和后期两个阶段。

从时间上界定,早期的中介语理论研究自20世纪60年代末到20世纪70年代,后期的中介语理论研究则从20世纪80年代开始。

1.早期的中介语理论研究20世纪70年代初,对比分析因无法有效指导实际教学与学习,受到了众多语言学家的批判。

在这个背景下,以学习的主体和客体作为研究重点的中介语理论出现了,为第二语言习得研究带来了新的曙光。

代表学者及贡献如下:(1)Corder的贡献。

1967年,Corder发表了颇具影响的论文《学习者言语错误的重要意义》,提出了许多新观点:首先,Corder区分了“失误”与“偏误”。

“失误”是非系统性的,是学习者在偶然情况下产生的错误;而“偏误”具有系统性,它反映了学习者现时的语言知识或过渡能力,因此进行偏误分析是探索第二语言习得规律的一个好方法。

其次,Corder提出了“内在大纲”的概念。

所谓内在大纲是指“学习者拥有的一种控制学习目的语规则的程序化序列,这个序列并不因为外界因素(如教学序列)的影响而改变。

”[1](P72)学习者在进行第二语言学习时,所接触到的语言材料很多,但并不能够全部吸收,Corder认为这就是“输入”(所接触的语言材料)与“内化”(将语言材料吸收)之间的矛盾,同时也说明学习者的语言系统是由学习者的内在大纲决定的。

最后,Corder阐明了学习者语言系统的动态特征。

当学习者接触到外在言语输入时,其内在的习得机制就建立起所谓“过渡的规则系统”,当新的信息规则与目前的过渡系统不一致时,学习者的内在习得机制便会对过渡系统规则进行检验和更新,使学习者的语言系统总是处在一个不断变化的动态过程中。

中介语介绍

中介语介绍

(二)错误的分类 科德把错误分为失误和偏误两种。 失误是口误或笔误,是偶然现象, 是在特殊情况下产生的。失误不是 系统的,不反映说话人的语言能力, 操本族语的人也常出这样的错误。 偏误是对正确语言的偏离,也就是 离开了轨道。这种错误是系统的, 有规律的,它反映说话者的语言能 力。
• 偏误分析产生的原因:
(二)中介语的性质 1.对于中介语,一些学者认为包含两 方面的内容 (1)语言学习者在其发展的任何一 个阶段所建立的静态的结构系统; (2)学习者学习目的语过程中所建 立的动态的、渐进的、成系统的 连锁系统。
2.中介语是语言。 (1)就其内部特征看:具有语音、词 汇、语法规则等。 (2)就其交际功能看:可用于交际。 3.中介语是有系统的。 中介语是由于学习外语的人在学习 过程中,对于目的语规律所做的不正 确的归纳与推论而产生的一个语言系 统。
4.中介语是指第二语言学习者特有的一 种目的语系统,这种语言系统在语音、 词汇、语法、文化和交际等方面既不 同于学习者自己的第一语言,也不同 于目的语,而是一种随着学习的进展 向目的语的正确形式逐渐靠拢的动态 语言系统。
5.中介语是一个独立的语言系统。 6.中介语与本族语和目的语的关系。哈 姆莱用下图表示:
(二)关于中介语的不同术语 在塞林格之前,科德将它称为具 有独特风格的“个人特异方言”,内姆 塞尔称它为“近似系统” 或“学习者 的语言”等。然而广为人知、影响最大 的还是“Interlanguage‖这一提法。但我 国学界对此术语的翻译不完全一致,有 的译成“中介语”,也有译成“中间语” 或“过渡语”的。近年学术界比较认可 的是译为“中介语”或“过渡语”。
34
• Corder的贡献在于,指出了学习者偏误的重要 作用: – 1、语言教师通过偏误可以了解学习者对目的 语掌握的程度 – 2、研究者可以透过偏误看到第二语言是如何 习得的: – 3、学习者能通过偏误验证他们对第二语言规 则的理解正确与否。

新疆少数民族预科生汉语口语中介语语料库建设的构想

新疆少数民族预科生汉语口语中介语语料库建设的构想

新疆少数民族预科生汉语口语中介语语料库建设的构想本文主要阐述了当前国内外中介语语料库建设的基本状况,建立新疆少数民族汉语口语中介语语料库的意义,以及建设的目标、内容、思路等。

建设本语料库的意义主要在于:填补新疆地区中介语语料库建设的不足,为少数民族汉语口语教学研究提供详实的研究材料和科学定量研究的方法;为口语的教学、教材、测试等提供科学的参考依据。

通过本语料库的建设,汉语口语教学与研究将走上更加严谨和科学化的道路。

标签:新疆少数民族汉语口语中介语语料库一、中介语语料库建设的相关概念及状况综述(一)中介语、语料库及语料库语言学美国著名语言学家赛林克在1969年首次提出了“中介语”这一概念。

“所谓中介语是指在第二语言习得过程中,学习者通过一定的学习策略,在目的语输入的基础上所形成的一种既不同于第一语言,也不同于目的语,随着学习的进展向目的语逐渐过渡的动态的语言系统。

中介语的研究能帮助我们发现第二语言习得的不同发展阶段,探索学习者语言系统的本质,揭示第二语言的习得过程,以及第一语言对二语习得的影响。

”①可以说对中介语的研究是第二语言习得理论研究的重要突破。

“语料库是指一个按照一定的采样标准采集而来的,能够代表一种语言或者一种语言的变体或文类的电子文本集。

而语料库语言学则是以语料库为基础的语言研究方法。

”②语料库按照应用的方向可分为“通用型语料库”和“专用型语料库”;按用途,可分为“笔语语料库”和“口语语料库”;按语言属性,可分为“单语”“双语”“多语语料库”;按语言变体,可分为“本族语”“译语”“学习者中介语语料库”;按时间,可分为“共时”和“历时”语料库;按照语料状态,可分为“静态语料库”和“监控语料库”。

本研究将要建设的语料库属于学习者的口语中介语语料库,是为汉语的第二语言口语教学服务的专用型语料库,所收集的语料属于单语共时语料。

(二)国内外研究现状述评1.国外研究中介语的研究离不开语料。

最初中介语研究的语料大多数是研究者个人收集和统计的,很难对中介语进行科学的统计分析及定量研究。

语料库标注说明

语料库标注说明

“HSK动态作文语料库”语料标注及代码说明“HSK动态作文语料库”从字、词、句、篇、标点符号等角度,对所收入的作文语料中存在的外国人使用汉语的中介语偏误进行全面标注。

1 、字处理(包括标点符号)[C]:错字标记,用于标示考生写的不成字的字。

用[C]代表错字,在[C]前填写正确的字。

例如:地球[C](“球”是错字)、这[C]。

[B]:别字标记,用于标示把甲字写成乙字的情况。

别字包括同音的、不同音而只是形似的、既不同音也不形似但成字的等等。

把别字移至[B]中B的后面,并在[B]前填写正确的字。

例如:提[B题]高、考虑[B虎]。

[L]:漏字标记,用于标示作文中应有而没有的字。

用[L]表示漏掉的字,并在[L]前填写所漏掉的字。

例如:后悔[L],表示“悔”在原文中是漏掉的字。

农[L]药,表示“农”在原文中是漏掉的字。

[D]:多字标记,用于标示作文中不应出现而出现的字。

把多余的字移至[D]中D的后面。

例如:我的[D的],表示括号中的“的”是多余的字(原文中写了两个“的”)。

[F]:繁体字标记,用于标示繁体字。

把繁体字移至[F]中F的后面,并在[F]前填写简体字。

例如:记忆[F憶]、单{F單}纯、养{F養}分{F份}。

注意:1)繁体字标记标示的是使用正确的繁体字,如果该繁体字同时又是别字,则先标繁体字标记,再标别字标记。

例如:俭朴[F樸[B僕]]。

2)繁体字写错了,标为:后[F後[C]]。

[Y]:异体字标记,用于标示异体字。

把异体字移至[Y]中Y的后面,并在[Y]前填写简体字。

例如:偏[Y徧]、沉[Y沈]。

[P]:拼音字标记,用于标示以汉语拼音代替汉字的情况。

把拼音字移至[P]中P的后面,并在[P]前填写简体字。

例如:缘[Pyúan]分、保护[Phù]。

[#]:无法识别的字的标记,用于标示无法识别的字。

每个不可识别的字用一个[#]表示。

例如:更[#][#]保存自己的生命,……[BC]:错误标点标记,用于标示使用错误的标点符号。

基于中介语语料库的汉语意义被动句偏误分析

基于中介语语料库的汉语意义被动句偏误分析

基于中介语语料库的汉语意义被动句偏误分析本文基于HSK动态作文语料库,通过数据统计、偏误分析、对比分析等方法,考察留学生意义被动句使用的偏误现象及成因,并提出相应的教学对策。

标签:中介语语料库意义被动句偏误分析一、引言意义被动句又称无标记被动句或受事主语句,它是汉语中一类较特殊的句式,这类句子的主语是受事,表示被动意义,但却不用被动标记。

意义被动句因没有特殊的语法形式标记,而语义上又可能存在多重含义,所以一向是外国留学生的学习难点,同时也是对外汉语中的教学难点。

意义被动句的研究多集中在本体研究中,如:李珠(1989)、王灿龙(1998)、邵桂珍(2001)、赵焕改(2007)等。

应用研究方面,吴门吉、周小兵(2005)和吕文华(2013)比较了意义被动句和“被”字句的习得难度,提出教学构想。

戴雨萍(2013)则考察了留学生意义被动句的习得情况。

本文主要采用北京语言大学研制的“HSK动态作文语料库”作为研究语料,对来自印尼、马来西亚、新加坡等15个国家的留学生的意义被动句的偏误进行考察。

笔者通过对语料库中的错篇进行抽样检索,检索A类文章25篇,B类文章50篇,C类文章50篇,共检索到意义被动句句例110条,其中偏误例句共有43条,偏误率达39.1%。

二、留学生意义被动句的使用偏误(一)不同等级留学生意义被动句的使用偏误根据HSK动态作文语料库留学生汉语水平的证书等级,笔者将语料进行分类,考察不同等级的汉语学习者意义被动句的使用偏误,详见表1:由上表可以看出,不同水平的留学生意义被动句使用的偏误情况很不一样。

A等级的学生偏误率是30.0%,而B等级、C等级的学生的偏误率均在40%以上,差距非常大。

可见,汉语水平越低,留学生意义被动句使用的偏误率就越高,并且在学习过程中可能还存在着倒退的现象。

(二)不同作文分数留学生意义被动句的使用偏误证书等级反映的是留学生汉语的综合水平,而作文分数反映的是留学生对书面语的组织能力。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
自20世纪60年代计算机问世,计算机技术就迅速应用到了以语料库为 基础的语言学研究中,随着计算机技术的迅速发展,世界各国在语料库的 建设上成绩显著。不同语言、不同类型、不同规模的语料库越来越多。自 第一代大型电子语料库BROWN建立至今,语料库语言学的研究已经有50多 年的历史。而国内的语料库研究也有30多年的历史,并在上世纪90年代得 到飞速发展。 汉语中介语料库的建设始于20世纪90年代。进入21世纪,汉语中介语语 料库引起了更多重视,语料库建设增多,建设速度加快。但是,目前对外 公开的语料库数量却很有限,主要有北京语言大学的HSK动态作文语料库 (简称“北语HSK作文语料库”)、中山大学的汉字偏误连续性中介语语料 库(简称“中大中介语语料库”)和台湾师范大学的汉语学习者汉字偏误数 据资料库(简称“台师大汉字偏误库”)等。
六 参考文献
1.关于中介语语料库建设的几点思考— —以 “H S K 动态作文语料库 ” 为例 任海波 2.全球汉语中介语语料库建设和研究” 的设计理念 张宝林 崔希亮 3.三个汉语中介语语料库若干问题的比较研究 张瑞朋 4.汉语中介语语料库建设的现状与对策 张宝林 5.汉语中介语语料库偏误分类系统考察——以H SK 动态作文语料库为例 郑章 李琳 宋春阳
二 语料库和语料库语言学
语料库和语料库语言学的定义 语料库(corpus 或corpuses)是指按照一定的语言学原则,运用随 机抽样方,收集自然出现的连续语言运用文本或话语片段而建成的具有 一定容量的大型电子文本库。 语料库语言学:在文本语料的基础上进行语言研究的一门学科。语 料库语言学通过语言现象出现的概率对语言材料进行研究。这里的语言 材料是真实的、可观存在的,因此,通过概率统计手段在语料库语言学 研究中得到的语言使用情况是真实客观的,排除掉了语言学家的主观 性,研究结果更加真实可靠。 语料库在语言学研究中主要的应用领域有: 词典编纂;语言统计;语言监控,包括新词、新用法的发现;语言 教学;语言信息处理;语法、语义、词汇、语音等各种语言问题的研 究;方言研究等等。
汉语中介语语料库简介
陈晨
目录
一 背景 二 语料库和语料库语言学 三 汉语语料库和汉语中介语语料库建设 北大语料库(现汉、古汉、英语) 四 常用中介语语料库 (一)北语HSK动态作文语料库 中介语口语语料库 (二)中山大学中介语语料库 (三)暨南大学中介语语料库 五 意义和局限 六 参考文献
一 背景
(三)暨南大学中介语语料库
(四)台湾师大汉字偏误库
台师大汉字偏误库是都是繁体字。准确地说,该库是中国 第一个专门针对汉字偏误的繁体字语料库。该库的语料来自台湾师范大 学国语中心(MTC)、台湾大学国际华语研习所(ICLP)、台湾大学文学院 语言中心中文组(CLD),收录了德语、法语、英语等15种母语背景学生 的汉字偏误,分初、中/高三级,共计2536个偏误汉字。 此外,已建成的主要汉语中介语语料库还有: 首都外国留学生汉语文本语料库(2010)、 汉语学习者口语语料库(2007) 南京师范大学:外国学生汉语中介语偏误信息语料库 等。 上海交通大学、厦门大学、北京大学、中国人民大学、北京师范大学、 鲁东大学、苏州大学、四川外国语学院、华中师范大学等,也都已经建 成或正在建设自己的汉语语料库。
五 意义和局限
中介语语料库的建立 ,是为了更好地进行汉语中介语研究、第二语言习 得研究、对外汉语教学理论研究、对外汉语教材研究、汉语水平考试研究 以及与对外汉语教学相关的汉语本体研究等等,对于提高汉语教学、汉语 测试 、汉语本体研究等方面的水平都具有重要的意义。但是,现有的语料 库绝大多数都是书面语语料库,口语语料库很少,多模态语料库尚无建成 者。此外,现有中介语语料库的偏误分类和标注以语法为主,缺乏语义和 语用角度的分析。 对汉语中介语语料库建设提出以下几点建议 : 1.语料处理应该注意平衡性 : 主要是注意不同国别和不同汉语等级水平在 语料数量上的平衡 。 2. 加工标注应该进一步完善 : 尽量做到标注符号表达方式的一致和标注结 果的正确。在可能的情况下对语料作更多的深加工。 3. 应该注意界面设计的友好: 做到在检索语料时简单方便 ,在获取语料时足 量快捷 ,在解读语料时清楚易懂。
(二)中山大学中介语语料库
汉字偏误标注的汉语连续性中介语语料库,是在中山大学国际汉语学 院院长周小兵教授鼎力支持和率领下建设的,分为汉字偏误标注版和字、 词、句偏误标准版两个入口。 使用该语料库,需要注册账号,填写自己的真实信息。注册后即可享 有查看和搜索全部语料的权利。 其中“字词句偏误标注版”做的较早,包含分词和词性标注预处理。 偏 误标注包括错别字、词汇、语法等各种偏误标注,大约44万字。 “汉字偏误标注版”是只有错别字标注的语料,但也可供用户进行一般 的 词汇语言搜索,同时可以供大家对汉字偏误进行分析研究。 “错字数据库”是该库一大重要特色。错字数据库中收集了语料库中 的所 有错字使用情 况,可供大家查询、分析。“汉字标注版”截止 2013 年 8 月 共有大约 310 万字,目前还在不 断增加更新改善。本语料库收集的主要 是中山大学国际汉语学院留学生日常作文和综合课的写话,语料涵盖初、 中、高级阶段,但因为初级阶段的学生本身输出就少,收集困难度高,所 以初级水平的 语料偏少,中级较多,高级最多。
北大语料库 :8080/ccl_corpus/index.jsp?dir=gudai
三 汉语语料库和汉语中介语语料库建设
中介语的理论在 20世纪 80年代被引入到我国( 鲁健骥 1993) 之后, 就有了汉语的中介语语料库建设 。第一个问世的汉语中介语语料库是由、 北京语言学院开发研制的 “汉语中介语语料库系统”, 它是一个利用第 一 语言为非汉语的学生的汉语书面语料,全面、细致地记录他们汉语学习过 程中的语言表现和研究他们汉语习得过程的计算机软件。该语料库对语 料进行了分词和词性标注。 相继出现的汉语中介语语料库有 “留学生汉语中介语语料库 ”( 暨 南大 学 )“外国学生汉语中介语偏误信息语料库”( 南京师范大学 ) 、“汉语 中介 语语料库 ”( 中山大学 )等 , 不过 ,很多语料库并不面向全社会开放使用 , 许多人想用却没法用 ,导致语料库的使用率并不高。 中介语语料库的建立 ,是为了更好地进行汉语中介语研究 、第二语 言习得研究、对外汉语教学理论研究、对外汉语教材研究、汉语水平考 试研究以及与对外汉语教学相关的汉语本体研究等等 。这对于提高汉语 教学 、汉语测试 、汉语本体研究等方面的水平都具有重要的意义 ,接 下来对常用的对全社会公开的语料库进行介绍。
(二)中山大学中介语语料库
中山大学中介语语料库偏误举例
1、汉字偏误标注 1)错字标注方式: 图片为CZ 示补旁加皮 【被】 (图片是模仿学生所写的错字图片,“CZ” 表示错字,黑色方括号中是正确汉字) 2)别字标注方式:得意<羊>CBZ【洋】<羊>CBZ【洋】(<>中表示学生写的 不正确的但成形的汉字,黑色方括号中是正确汉字) 3)既错又别的汉字:学生把正确的汉字写成了别字,但这个别字又写错 了,比如:错字 CZ【< 谢>CBZ【懈】】,即表示正确汉字应该是最后括号 中的“懈”,但是学生写成了另外一个汉 字“谢”,并且把“谢”写错了。
三 汉语语料库和汉语中介语语料库建设
汉语语料库 我国汉语语料库的建设开始于20世纪八九十年代,取得了不少成果。 这里简单介绍北京大学CCL语料库极其特点,该语料库包含三个子语料 库:现代汉语语料库、古代汉语语料库和汉英双语语料库。 其中现代汉语语料库和古代汉语语料库主要是面向汉语研究和教学使 用的大规模语料库及其在线检索系统。目前该语料库收集了大约4.77亿 字语料,现代汉语和古代汉语大体上各占一半。现代汉语语料库主要收 录1696部作品,9711字的查询。古代汉语语料库,涉及从周代到民国 时期,22580字的查询。该语料库主要特色包括: 可以查询不连续的词语,可以指定词语之间的距离(比如“帮… 忙”);可以查询汉语特有的重叠模式;支持对标点符号的查询等等。 汉英双语语料库目前规模已经超过100万句对。汉英双语语料库对 于汉英语言对比研究有直接的帮助。
四 常用中介语语料库
(一)北语HSK动态作文语料库 (二)中山大学中介语语料库 (三)暨南大学中介语语料库
(一)北语HSK动态作文语料库
北语HSK作文语料库是在北京语言大学崔希亮教授的主持下开发建 成的。它以母语为非汉语的外国人参加高等汉语水平考试 ( HSK高等 ) 作文考试的答卷内容为语料,并从字、词、句、篇、标点符号等角度进行 全面标注,语料收集的时间范围是 1992 -2005年。语料总数达到11569 篇 ,共计 424万字,是目前汉语中介语语料库中规模最大的语料库。北 语HSK作文语料库是最早在网上公布偏误标注规范的中介语语料库,因 此之后的许多语料库在进行偏误分类标注时,都以它为基础,做适当的 修改。 北语HSK作文语料库 http://202.112.195.192:8060/hsk/login.asp(维护中)
相关文档
最新文档