汉语中介语语料库介绍
留学生汉语中介语语料库建设若干问_省略_中山大学汉字偏误中介语语料库为例_张瑞朋

2012年5月第2期语言文字应用Applied Linguistics May ,2012No.2[收稿日期]2011-12-01[作者简介]张瑞朋,中山大学国际汉语学院讲师,博士,主要研究语言学及应用语言学。
*本文得到国家社会科学基金青年项目(10cyy020)资助。
留学生汉语中介语语料库建设若干问题探讨*———以中山大学汉字偏误中介语语料库为例张瑞朋(中山大学国际汉语学院广东广州510275)[摘要]文章以中山大学汉字偏误中介语语料库为例,着重讨论建设相关中介语语料库时应注意的四个问题:语料真实性和连续性问题;语料的科学标注,尤其是汉字偏误标注问题;检索工具的简易使用问题;附属系统问题。
文中还结合建设实践提出了一些可资借鉴的方法和建议。
[关键词]汉字偏误标注;中介语语料库;标注[中图分类号]H195[文献标识码]A [文章编号]1003-5397(2012)02-0131-06Building Chinese Interlanguage Corpus :The Case ofCharacter Error-tagged Chinese InterlanguageCorpus of Sun Yat-Sen UniversityZHANG RuipengAbstract :The paper reports the preliminary findings of character error-coded ChineseInterlanguage Corpus of Sun Yat-Sen University.The corpus is used as an illustration on some theoretical issues in interlanguage corpus building.The first one is the authenticity and continuity of the corpus.The second one is the principled tagging ,especially the tagging for the characters errors.The wrong characters are created by Truetype Character Editor in Windows ,and stored and displayed as images.The characters can be edited.The third issue is that the retrieval tool should be multifunctional and user-friendly to guarantee the efficient use of corpus data.The last issue is the development of the sub-system of corpora.Keywords :tagging of character errors ;interlanguage corpus ;annotation·132·语言文字应用2012年第2期一前言随着语料库语言学在国内外的迅猛发展,语料库建设与研究正在成为语言研究的重要领域。
韩国汉语学习者中介语口语语料库的建设及意义

1.1 可对新 HSK 考试反拨效应研究提供支 撑
以标准化考试语料为来源的汉语中介语口 语语料对汉语水平考试的反拨效应明显。在建 的 KHSKKC 语 料 库 首 次 使 用 了 新 HSK 口 语 语 料,利用该语料库提取的字表数据库、词表数 据库,在后续研究中将与新 HSK 词汇大纲、汉 字大纲等结合,进行相关性研究,这对 HSK 的 信度、效度及测试对教学的反拨作用研究等均 将起到一定的支撑作用。
Байду номын сангаас53
华文教学与研究 2020 年第 1 期
1.2 可为国别化汉语教学研究提供支撑 在汉语教学研究界,对汉语教学“国别 化”的呼声越来越高 (李如龙,2012 等)。不 同国家、不同母语和文化背景的学习者,学习 汉语时表现出的中介语特征的确存在着差异。 因 此 , 甘 瑞 瑗 、 张 普 (2005) 提 出 ,“ 国 别 化”就是要“针对不同的国家而实行不同/差 别的汉语的教学与研究”。国别化汉语中介语 语料,为国别化教学大纲设计、国别化教材的 编写、国别化词典的编撰提供可靠的依据,也 为汉语作为第二语言的习得研究提供扎实的多 维度基础数据。 (1) 为国别化汉语教学用字表、词表的研 制提供有力支撑 《汉语水平词汇与汉字等级大纲》(以下简 称 《大纲》),研制于 1992 年 (2001 年进行了 修订),随着时代的发展与进步,社会语言生 活发生了巨大的变化,《大纲》 逐渐不能满足 汉语学习者和汉语作为第二语言研究的需要。 2010 年出台的 《汉语国际教育用音节汉字词汇 等级划分》(以下简称 《等级划分》) 一个显 著的变化是将口语动态语料作为制定音节表、 字表和词表的依据之一。但需要注意的是, 《大纲》 和 《等级划分》 中对字、词的选择仍 然是纯本体视角,而汉语国际教育用的字表、 词表除要依据母语者的使用频率外,还应该将 二语学习者口、笔语语料库作为重要的参照。 因此,对韩国学习者汉语口语的字表和词表的 提取、研究,为面向韩国的汉语教学用字表、 词表的研制提供了强有力的支撑。 (2) 为汉语中介语口语、笔语对照研究提 供有力保障 我们在语料库建设中回避了“书面语”,代 之以“笔语”,究其原因,一是参照了文秋芳、 王立非 (2008)“中国学生英语口笔语语料”的 提法。更重要的是汉语二语学习者在从零起点 到接近于汉语母语者的习得过程中,有相当长 一段时间尚未形成书面语意识,他们所谓的 “书面语”大多数情况下只是以笔语形式记录下 来的口语而已。那么汉语学习者的笔语在哪些 阶段出现了明显的书面语化特征,从哪些节点 他们的口语笔语发生了质的变化,这都需要将 学习者的口、笔语进行对照方可显现。目前, 在汉语作为第二语言教学和研究领域,将汉语
英语母语学习者趋向补语的习得顺序 基于汉语中介语语料库的研究

三、研究问题和假设
1、不同年龄段的英语学习者在 习得趋向补语时是否存在习得顺 序的差异?
2、英语学习者对于不同类型趋 向补语的习得顺序是怎样的?
根据上述问题,本研究提出以下假设: 1、年龄对于英语学习者趋向补语的习得顺序具有影响;
2、不同类型的趋向补结合的研究方法。首先,通过收集不同年龄段的英 语学习者在习得趋向补语时的表现和成绩,为研究提供数据支持。其次,利用问 卷调查和访谈的方式,了解学习者在习得趋向补语时的难点和困惑。最后,通过 对汉语中介语语料库的分析,探究母语影响对于英语学习者趋向补语习得顺序的 作用。
感谢观看
英语母语学习者趋向补语的习 得顺序 基于汉语中介语语料
库的研究
目录
01 一、引言
03 三、研究问题和假设
02 二、文献综述 04 四、研究方法
目录
05 五、结果与讨论
07 参考内容
06 六、结论
一、引言
补语是语言学习中的一个重要语法现象,对于英语和汉语而言,补语在句法 结构和语义表达上都具有重要作用。在英语中,趋向补语是表达动作方向、方式 和结果的补充成分,而汉语中的趋向补语则用来表示动作的方向、处所等。英语 母语学习者在习得英语时,会受到母语汉语的影响,对于趋向补语的习得顺序也 因此成为研究的焦点。
三、研究问题和假设
1、不同年龄段的英语学习者在 习得趋向补语时是否存在习得顺 序的差异?
2、英语学习者对于不同类型趋 向补语的习得顺序是怎样的?
根据上述问题,本研究提出以下假设: 1、年龄对于英语学习者趋向补语的习得顺序具有影响;
2、不同类型的趋向补语在习得顺序上存在差异。
四、研究方法
本研究采用定性和定量相结合的研究方法。首先,通过收集不同年龄段的英 语学习者在习得趋向补语时的表现和成绩,为研究提供数据支持。其次,利用问 卷调查和访谈的方式,了解学习者在习得趋向补语时的难点和困惑。最后,通过 对汉语中介语语料库的分析,探究母语影响对于英语学习者趋向补语习得顺序的 作用。
大数据时代的汉语中介语语料库建设_郑通涛

·53·
总之,国内外运用语料库的研究可归纳为四个方面: 一是用于词汇和词典编辑研究; 二是用于 历史语言学和语义学研究; 三是建设学习者语料库,基于此对学习者的中介语进行研究; 四是建设 平行语料库,基于语料库方法进行翻译、语言对比和语言教学等研究。
( 二) 汉语中介语语料库存在的问题 中介语语料库是研究二语任何课题的资料来源,包括中介语口语语料库和中介语书面语语料 库等人类所有的言语产品记录,能否成功地使用语料库研究第二语言,关键取决于语料库的设计。 笔者从大数据的视角审视汉语中介语语料库存在的问题,主要归纳为以下五个方面。 第一,语料库建设缺乏跨学科视角。 现有的语料库建设缺少跨学科的理论指导,如社会学、心理学、文化学、传播学、教育学等。书 面语语料库材料标注缺乏考虑是否符合研究的社会身份、教育背景、单语或多语交际能力、言语行 为、心里活动、学习动机和交际策略等多种因素。 第二,缺乏高质量且真实的口语语料资源。 口语语料库的建设应注重对真实语料的真实转写。香港大学 MIC 中介语料库虽然可以公开、 免费、自行上传语料,但是 MIC 没有体现真实口语语料的作用。主要表现在三个方面: 一是去掉了 口语中的口吃、重复等冗余现象; 二是内容少、规模小; 三是研究范围局限在字词方面的分析,无音 视频语料,无非语言行为记录。 第三,语料数据来源存在局限性。 语料库数量少: 汉语中介语口语语料库仅有一例,即由北京语言大学主办的汉语学习者口语语 料库。语料库规模小: 汉语学习者口语语料库收入的口语答卷,和“HSK 动态作文语料库”收入的 作文答卷,仅仅是部分参加汉语水平考试( 或高等汉语水平考试) 的外国考生的考试答卷,类似于 此规模的中介语语料库,并不能全方面地反映各国的各阶段的学习者的中介语特征。此外,汉语中 介语语料库中收集的语料来自亚洲学习者的语料较多( 如日本、韩国以及泰国、印尼、越南等东南 亚各国的汉语学习者的语料) ,缺少针对欧美学习者的语料,因此不利于深入考察和研究来自欧美 地区的汉语学习者的学习情况。[7] 第四,缺少建设学习者的历史语料库。 历史语料库针对学习者不同发展阶段的语言进行描述的语料库。例如“HSK 动态作文语料 库”收入的作文答卷,仅是部分参加高等汉语水平考试的外国考生的考试答卷。有限的语料库数 据无法考察学习者在不同阶段的语言发展规律和特征。 第五,语料库数据尚不能充分共享。 目前公开的且对汉字偏误进行加工处理的中介语语料库有: 北京语言大学的“HSK 动态作文 语料库”、中山大学的“汉字偏误连续性中介语语料库”、台湾师范大学的“汉语学习者汉字偏误数 据资料库”。[8]
中介语理论与对外汉语教学

中介语理论与对外汉语教学中介语理论最早出现于20世纪70年代,一般认为,1972年塞林格的《中介语》一文标志着该理论的诞生。
它与以往的语言学理论不同,是一门以学习者自身及习得过程为研究重点的新理论。
因此,一经出现,就引起了各国语言学家的关注,近年来,我国的中介语理论研究也开展得十分迅速。
本文在总结以往研究情况的基础上,探讨中介语理论在对外汉语教学中的应用,希望对实际教学能有所裨益。
一、中介语理论的研究状况(一)国外的中介语理论研究一般认为,国外的中介语理论研究分为早期和后期两个阶段。
从时间上界定,早期的中介语理论研究自20世纪60年代末到20世纪70年代,后期的中介语理论研究则从20世纪80年代开始。
1.早期的中介语理论研究20世纪70年代初,对比分析因无法有效指导实际教学与学习,受到了众多语言学家的批判。
在这个背景下,以学习的主体和客体作为研究重点的中介语理论出现了,为第二语言习得研究带来了新的曙光。
代表学者及贡献如下:(1)Corder的贡献。
1967年,Corder发表了颇具影响的论文《学习者言语错误的重要意义》,提出了许多新观点:首先,Corder区分了“失误”与“偏误”。
“失误”是非系统性的,是学习者在偶然情况下产生的错误;而“偏误”具有系统性,它反映了学习者现时的语言知识或过渡能力,因此进行偏误分析是探索第二语言习得规律的一个好方法。
其次,Corder提出了“内在大纲”的概念。
所谓内在大纲是指“学习者拥有的一种控制学习目的语规则的程序化序列,这个序列并不因为外界因素(如教学序列)的影响而改变。
”[1](P72)学习者在进行第二语言学习时,所接触到的语言材料很多,但并不能够全部吸收,Corder认为这就是“输入”(所接触的语言材料)与“内化”(将语言材料吸收)之间的矛盾,同时也说明学习者的语言系统是由学习者的内在大纲决定的。
最后,Corder阐明了学习者语言系统的动态特征。
当学习者接触到外在言语输入时,其内在的习得机制就建立起所谓“过渡的规则系统”,当新的信息规则与目前的过渡系统不一致时,学习者的内在习得机制便会对过渡系统规则进行检验和更新,使学习者的语言系统总是处在一个不断变化的动态过程中。
国内语料库中介语研究综述

文_读天下学术探讨322I N S I G H T摘要:本文对国内近5年研究者发表在中国知网的基于语料库的中介语研究进行了系统的统计和研究,从研究概况、研究成果等方面展现了中介语的研究现状,总结出中介语近五年的研究趋势,为学习者和研究者提供参考,为进一步研究中介语指明方向。
关键词:语料库;中介语;CEA;CIA一、前言中介语这一概念是由Selinker 于1969年首次提出并在“Interlanguage”论文中正式使用:即学习者在某一阶段所建立起来的目标语知识系统和由此相互连接而引起的一种连续体(Selinker,1972)。
中介语是既不同于学习者母语也不同于目的语的独立语言系统。
但这并不意味着它和母语和目的语没有任何关系,中介语既有学习者母语又有目的语的特征。
“语际语”和“过渡语”等译名在其他文献里也有出现。
术语命名的不同展现了研究者不同观察角度。
中介语研究标志着二语习得研究作为独立研究领域的开始(文秋芳、王立非,2004)。
本文对国内近5年研究者发表在中国知网的基于语料库的中介语研究进行了系统的统计和研究,总结了中介语研究状况及研究趋势。
二、基于语料库中介语整体研究概况本文以语料库及中介语为主题,通过对近5年发表在中国知网上的文献进行检索,得文献355篇。
通过人工删除非相关文献158篇,所研究文献共197篇。
2010-2014年基于语料库的中介语研究的期刊分别为39,50,43,35,30;其中核心期刊分别为5,2,4,2,3,可见核心期刊发表的研究成果一直保持平稳趋势,变化不大。
2010-2014年基于语料库的理论研究分别为12,10,7,13,5;实证研究分别为27,40,36,22,25。
可以看出国内基于语料库的中介语研究处于以实证研究为主的局。
最后对所研究的文献中使用的语料库分布做了统计(见图1),共30个不同的语料库出现在所研究的论文中。
使用频率最高的3个语料库分别是CLEC (57.28%)、自建语料库(24.12%)与WECCL(21.1%)。
新疆少数民族预科生汉语口语中介语语料库建设的构想
新疆少数民族预科生汉语口语中介语语料库建设的构想本文主要阐述了当前国内外中介语语料库建设的基本状况,建立新疆少数民族汉语口语中介语语料库的意义,以及建设的目标、内容、思路等。
建设本语料库的意义主要在于:填补新疆地区中介语语料库建设的不足,为少数民族汉语口语教学研究提供详实的研究材料和科学定量研究的方法;为口语的教学、教材、测试等提供科学的参考依据。
通过本语料库的建设,汉语口语教学与研究将走上更加严谨和科学化的道路。
标签:新疆少数民族汉语口语中介语语料库一、中介语语料库建设的相关概念及状况综述(一)中介语、语料库及语料库语言学美国著名语言学家赛林克在1969年首次提出了“中介语”这一概念。
“所谓中介语是指在第二语言习得过程中,学习者通过一定的学习策略,在目的语输入的基础上所形成的一种既不同于第一语言,也不同于目的语,随着学习的进展向目的语逐渐过渡的动态的语言系统。
中介语的研究能帮助我们发现第二语言习得的不同发展阶段,探索学习者语言系统的本质,揭示第二语言的习得过程,以及第一语言对二语习得的影响。
”①可以说对中介语的研究是第二语言习得理论研究的重要突破。
“语料库是指一个按照一定的采样标准采集而来的,能够代表一种语言或者一种语言的变体或文类的电子文本集。
而语料库语言学则是以语料库为基础的语言研究方法。
”②语料库按照应用的方向可分为“通用型语料库”和“专用型语料库”;按用途,可分为“笔语语料库”和“口语语料库”;按语言属性,可分为“单语”“双语”“多语语料库”;按语言变体,可分为“本族语”“译语”“学习者中介语语料库”;按时间,可分为“共时”和“历时”语料库;按照语料状态,可分为“静态语料库”和“监控语料库”。
本研究将要建设的语料库属于学习者的口语中介语语料库,是为汉语的第二语言口语教学服务的专用型语料库,所收集的语料属于单语共时语料。
(二)国内外研究现状述评1.国外研究中介语的研究离不开语料。
最初中介语研究的语料大多数是研究者个人收集和统计的,很难对中介语进行科学的统计分析及定量研究。
语料库标注说明
“HSK动态作文语料库”语料标注及代码说明“HSK动态作文语料库”从字、词、句、篇、标点符号等角度,对所收入的作文语料中存在的外国人使用汉语的中介语偏误进行全面标注。
1 、字处理(包括标点符号)[C]:错字标记,用于标示考生写的不成字的字。
用[C]代表错字,在[C]前填写正确的字。
例如:地球[C](“球”是错字)、这[C]。
[B]:别字标记,用于标示把甲字写成乙字的情况。
别字包括同音的、不同音而只是形似的、既不同音也不形似但成字的等等。
把别字移至[B]中B的后面,并在[B]前填写正确的字。
例如:提[B题]高、考虑[B虎]。
[L]:漏字标记,用于标示作文中应有而没有的字。
用[L]表示漏掉的字,并在[L]前填写所漏掉的字。
例如:后悔[L],表示“悔”在原文中是漏掉的字。
农[L]药,表示“农”在原文中是漏掉的字。
[D]:多字标记,用于标示作文中不应出现而出现的字。
把多余的字移至[D]中D的后面。
例如:我的[D的],表示括号中的“的”是多余的字(原文中写了两个“的”)。
[F]:繁体字标记,用于标示繁体字。
把繁体字移至[F]中F的后面,并在[F]前填写简体字。
例如:记忆[F憶]、单{F單}纯、养{F養}分{F份}。
注意:1)繁体字标记标示的是使用正确的繁体字,如果该繁体字同时又是别字,则先标繁体字标记,再标别字标记。
例如:俭朴[F樸[B僕]]。
2)繁体字写错了,标为:后[F後[C]]。
[Y]:异体字标记,用于标示异体字。
把异体字移至[Y]中Y的后面,并在[Y]前填写简体字。
例如:偏[Y徧]、沉[Y沈]。
[P]:拼音字标记,用于标示以汉语拼音代替汉字的情况。
把拼音字移至[P]中P的后面,并在[P]前填写简体字。
例如:缘[Pyúan]分、保护[Phù]。
[#]:无法识别的字的标记,用于标示无法识别的字。
每个不可识别的字用一个[#]表示。
例如:更[#][#]保存自己的生命,……[BC]:错误标点标记,用于标示使用错误的标点符号。
基于中介语语料库的汉语意义被动句偏误分析
基于中介语语料库的汉语意义被动句偏误分析本文基于HSK动态作文语料库,通过数据统计、偏误分析、对比分析等方法,考察留学生意义被动句使用的偏误现象及成因,并提出相应的教学对策。
标签:中介语语料库意义被动句偏误分析一、引言意义被动句又称无标记被动句或受事主语句,它是汉语中一类较特殊的句式,这类句子的主语是受事,表示被动意义,但却不用被动标记。
意义被动句因没有特殊的语法形式标记,而语义上又可能存在多重含义,所以一向是外国留学生的学习难点,同时也是对外汉语中的教学难点。
意义被动句的研究多集中在本体研究中,如:李珠(1989)、王灿龙(1998)、邵桂珍(2001)、赵焕改(2007)等。
应用研究方面,吴门吉、周小兵(2005)和吕文华(2013)比较了意义被动句和“被”字句的习得难度,提出教学构想。
戴雨萍(2013)则考察了留学生意义被动句的习得情况。
本文主要采用北京语言大学研制的“HSK动态作文语料库”作为研究语料,对来自印尼、马来西亚、新加坡等15个国家的留学生的意义被动句的偏误进行考察。
笔者通过对语料库中的错篇进行抽样检索,检索A类文章25篇,B类文章50篇,C类文章50篇,共检索到意义被动句句例110条,其中偏误例句共有43条,偏误率达39.1%。
二、留学生意义被动句的使用偏误(一)不同等级留学生意义被动句的使用偏误根据HSK动态作文语料库留学生汉语水平的证书等级,笔者将语料进行分类,考察不同等级的汉语学习者意义被动句的使用偏误,详见表1:由上表可以看出,不同水平的留学生意义被动句使用的偏误情况很不一样。
A等级的学生偏误率是30.0%,而B等级、C等级的学生的偏误率均在40%以上,差距非常大。
可见,汉语水平越低,留学生意义被动句使用的偏误率就越高,并且在学习过程中可能还存在着倒退的现象。
(二)不同作文分数留学生意义被动句的使用偏误证书等级反映的是留学生汉语的综合水平,而作文分数反映的是留学生对书面语的组织能力。
留学生汉语中介语语料库的建立与研究——以昆明理工大学为例
关 键 词 :汉 语 中介语 语 料 库
中介 语 ( i n t e r l a n g u a g e )概 念 由美 国学 者 S e l i n k e r 于 生 的 字 句 练 习 和 作 文 资 料 ,前 期 主 要 进 行 字 、 词 、句 加 工 1 9 6 9 年 提 出 ,并 于 1 9 7 2 年在 论文 《 中介 语 》 中 进 行 了详 细 标 注 ,后 期 重 点 建 设 汉 字 偏 误 标 注 的语 料 库 , 目前 语 料 总 论述 。S e l i n k e r 认 为 中 介 语 是 由 不 同 心 理 过 程 生成 的 规 则 数 达 到 约 2 0 0 万字 ( 张 瑞 朋 ,2 0 1 3 ) ; 南 京 师 范 大 学 外 国 构 成 的 一 个 单 一 语 言 系 统 。 中介 语 理 论 在 2 0 世纪8 O 年 代 引 学 生 汉 语 中 介 语 偏 误 信 息 语 料 库 , 收 入 作 文 、 练 习9 O 万 字
语 料 是 中 介 语 研 究 的 基 本 材 料 。而 语 料 的 搜 集 与 整 理 林 ,2 0 1 0 ) ,远远 不 能满 足 需 求 。 是 很 繁 琐 费 时 的 工 作 , 因 此 , 中 介 语 语 料 使用 的仅有 北京语 言大学 的
研 究 者 迫 切 所 需 。 针 对 留 学 生 汉 语 学 习 的 语 料 库 是 汉 语 中 t t S K 动 态 作 文 语 料 库 。 该 语 料 库 只 收 入 参 加 高 等 考 试 的 考 介 语 语 料 库 ,它 是 为 研 究母 语 非 汉 语 的 学 生 在 学 习 汉 语 过 生 作 文 ( 初 、 中等 没 有 写 作 考 试 ) , 因而 只 能 对 高 级 阶 段 程 中 的 中 介 语 现 象 而 制 作 的 专 门用 途 语 料 库 。按 照 国 家 标 学 习者 的 习 得 情 况进 行 横 向 的 断 面 考 察 , 而 无 法 对 初 级 和 准 术语 的界定 , 语料 库是 “ … … 文 本 的有 序 集 合 。各 种 分 中 级 学 习者 的情 况 进 行 考 察 ,更 无 法 对 学 习者 的 整 个 学 习
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
陈晨
精选ppt
1
目录
一 背景 二 语料库和语料库语言学 三 汉语语料库和汉语中介语语料库建设
北大语料库(现汉、古汉、英语) 四 常用中介语语料库
(一)北语HSK动态作文语料库 中介语口语语料库
(二)中山大学中介语语料库 (三)暨南大学中介语语料库 五 意义和局限 六 参考文献
精选ppt
试研究以及与对外汉语教学相关的汉语本体研究等等 。这对于提高汉语
教学 、汉语测试 、汉语本体研究等方面的水平都具有重要的意义 ,接
下来对常用的对全社会公开的语料精库选p进pt 行介绍。
7
四 常用中介语语料库
(一)北语HSK动态作文语料库 (二)中山大学中介语语料库 (三)暨南大学中介语语料库
精选ppt
汉英双语语料库目前规模已经超过100万句对。汉英双语语料库对 于汉英语言对比研究有直接的帮助。
北大语料库 :8080/ccl_corpus/index.jsp?dir=gudaigudai
精选ppt
5
精选ppt
6
三 汉语语料库和汉语中介语语料库建设
中介语的理论在 20世纪 80年代被引入到我国( 鲁健骥 1993) 之后,
使用该语料库,需要注册账号,填写自己的真实信息。注册后即可享
有查看和搜索全部语料的权利。
其中“字词句偏误标注版”做的较早,包含分词和词性标注预处理。 偏
误标注包括错别字、词汇、语法等各种偏误标注,大约44万字。
“汉字偏误标注版”是只有错别字标注的语料,但也可供用户进行一般 的
词汇语言搜索,同时可以供大家对汉字偏误进行分析研究。
“错字数据库”是该库一大重要特色。错字数据库中收集了语料库中 的所
有错字使用情 况,可供大家查询、分析。“汉字标注版”截止 2013 年 8 月
据资料库(简称“台师大汉字偏误库”)等。
精选ppt
3
二 语料库和语料库语言学
语料库和语料库语言学的定义 语料库(corpus 或corpuses)是指按照一定的语言学原则,运用随
机抽样方,收集自然出现的连续语言运用文本或话语片段而建成的具有 一定容量的大型电子文本库。
语料库语言学:在文本语料的基础上进行语言研究的一门学科。语 料库语言学通过语言现象出现的概率对语言材料进行研究。这里的语言 材料是真实的、可观存在的,因此,通过概率统计手段在语料库语言学 研究中得到的语言使用情况是真实客观的,排除掉了语言学家的主观 性,研究结果更加真实可靠。
学 )“外国学生汉语中介语偏误信息语料库”( 南京师范大学 ) 、“汉语 中介
语语料库 ”( 中山大学 )等 , 不过 ,很多语料库并不面向全社会开放使用 ,
许多人想用却没法用 ,导致语料库的使用率并不高。
中介语语料库的建立 ,是为了更好地进行汉语中介语研究 、第二语
言习得研究、对外汉语教学理论研究、对外汉语教材研究、汉语水平考
就有语言学院开发研制的 “汉语中介语语料库系统”, 它是一个利用第 一
语言为非汉语的学生的汉语书面语料,全面、细致地记录他们汉语学习过
程中的语言表现和研究他们汉语习得过程的计算机软件。该语料库对语
料进行了分词和词性标注。
相继出现的汉语中介语语料库有 “留学生汉语中介语语料库 ”( 暨 南大
汉语中介语料库的建设始于20世纪90年代。进入21世纪,汉语中介语语 料库引起了更多重视,语料库建设增多,建设速度加快。但是,目前对外 公开的语料库数量却很有限,主要有北京语言大学的HSK动态作文语料库 (简称“北语HSK作文语料库”)、中山大学的汉字偏误连续性中介语语料 库(简称“中大中介语语料库”)和台湾师范大学的汉语学习者汉字偏误数
语料库在语言学研究中主要的应用领域有: 词典编纂;语言统计;语言监控,包括新词、新用法的发现;语言 教学;语言信息处理;语法、语义、词汇、语音等各种语言问题的研 究;方言研究等等。
精选ppt
4
三 汉语语料库和汉语中介语语料库建设
汉语语料库 我国汉语语料库的建设开始于20世纪八九十年代,取得了不少成果。
这里简单介绍北京大学CCL语料库极其特点,该语料库包含三个子语料 库:现代汉语语料库、古代汉语语料库和汉英双语语料库。
其中现代汉语语料库和古代汉语语料库主要是面向汉语研究和教学使 用的大规模语料库及其在线检索系统。目前该语料库收集了大约4.77亿 字语料,现代汉语和古代汉语大体上各占一半。现代汉语语料库主要收 录1696部作品,9711字的查询。古代汉语语料库,涉及从周代到民国 时期,22580字的查询。该语料库主要特色包括: 可以查询不连续的词语,可以指定词语之间的距离(比如“帮… 忙”);可以查询汉语特有的重叠模式;支持对标点符号的查询等等。
2
一 背景
自20世纪60年代计算机问世,计算机技术就迅速应用到了以语料库为 基础的语言学研究中,随着计算机技术的迅速发展,世界各国在语料库的 建设上成绩显著。不同语言、不同类型、不同规模的语料库越来越多。自 第一代大型电子语料库BROWN建立至今,语料库语言学的研究已经有50多 年的历史。而国内的语料库研究也有30多年的历史,并在上世纪90年代得 到飞速发展。
北语HSK作文语料库 http://202.112.195.192:8060/hsk/login.asp(维护中)
精选ppt
9
(二)中山大学中介语语料库
汉字偏误标注的汉语连续性中介语语料库,是在中山大学国际汉语学
院院长周小兵教授鼎力支持和率领下建设的,分为汉字偏误标注版和字、
词、句偏误标准版两个入口。
8
(一)北语HSK动态作文语料库
北语HSK作文语料库是在北京语言大学崔希亮教授的主持下开发建 成的。它以母语为非汉语的外国人参加高等汉语水平考试 ( HSK高等 ) 作文考试的答卷内容为语料,并从字、词、句、篇、标点符号等角度进行 全面标注,语料收集的时间范围是 1992 -2005年。语料总数达到11569 篇 ,共计 424万字,是目前汉语中介语语料库中规模最大的语料库。北 语HSK作文语料库是最早在网上公布偏误标注规范的中介语语料库,因 此之后的许多语料库在进行偏误分类标注时,都以它为基础,做适当的 修改。