语料库

合集下载

语料库

国家语委现代汉语语料库介绍国家语委现代汉语语料库是一个大型的通用的语料库，以语言文字的信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育和语言文字的社会应用为主要服务目标。

国家语委现代汉语语料库作为国家级语料库，在汉语语料库系统开发技术上具有国际领先水平，在语料可靠、标注准确等方面具有权威性。

国家语委现代汉语语料库面向国内外的长远需要，选材有足够的时间跨度，语料抽样合理、分布均匀、比例适当，能够比较科学地反映现代汉语全貌。

一、国家语委语料库的组成国家语委现代汉语语料库由人文与社会科学、自然科学及综合三个大类约40个小类组成。

具体类别如下：1.人文与社会科学类划分为8个大类和30个小类：（1）政法：哲学、政治、宗教、法律。

（2）历史：历史、考古、民族。

（3）社会：社会学、心理、语言文字、教育、文艺理论、新闻、民俗。

（4）经济：工业经济、农业经济、政治经济、财贸经济。

（5）艺术：音乐、美术、舞蹈、戏剧。

（6）文学：小说、散文、传记、报告文学、科幻、口语。

（7）军体：军事、体育。

（8）生活2.自然科学划分为6类：数理、生化、天文地理、海洋气象、农林、医药卫生。

3.综合类语料由应用文和难于归类的其他语料两部分组成。

应用文使用很广泛，主要及以下6类：（1）行政公文：请示、报告、批复、命令、指示、布告、纪要、通知等（2）章程法规：章程、条例、细则、制度、公约、办法、法律条文等（3）司法文书：诉讼、辩护词、控告信、委托书等（4）商业文告：说明、广告、调查报告、经济合同等（5）礼仪辞令：欢迎词、贺电、讣告、唁电、慰问信、祝酒词等（6）实用文书：请假条、检讨、申请书、请愿书等。

国家语委现代汉语语料库的数据量包括新增的1000万字新语料已经达到了1亿字，已经完成词语切分和标注加工的约5000万字语料是语料库中1919～1992时间段的大部分语料以及1992～2002时间段的部分语料。

二、国家语委语料库建设的主要科研成果如下：1）5000万字带有分词和词性标注的汉语语料2）语料库加工规范3）1000万字新语料，语料库总规模达到1亿字4）词语切分和词性标注软件5）100万字（5万句）句法树库6）树库加工规范8）树库标记集规范9）语料库词语切分和词性标注软件10）语料库校对加工工具软件11）语料库质量检查工具软件12）语料库例句检索工具软件13）语料查询与统计工具软件14）语料库管理工具软件15）树库句法分析器软件16）树库校对软件17）相关研究论文三、国家语委语料库的应用目前，国家语委语料库已经为国家语委规范汉字表、汉字属性库项目和科技部863计划课题智能中文信息处理平台、中文信息处理应用基础研究项目以及973计划课题中文语音语言资源联盟项目等多个科研项目提供了支持，为北京大学、北京师范大学、首都师范大学、厦门大学、中科院自动化研究所、中科院心理研究所等多个高校和科研院所提供了服务，也为东芝（中国）研发中心、富士通研究院等企业提供了高质量的汉语语料资源。

五_语料库汇总

1 什么是语料库
1 什么是语料库
London-Lund英语口语语料库样例： ^what a_bout a cigar\ette# . / *((4 sylls))* / *I ^w\on't have one th/anks#* - - - / ^aren't you .going to sit d/own# - / ^[/\m]# - / ^have my _coffee in p=eace# - - - / ^quite a nice .room to !s\it in ((actually))# / *^\isn't* it# / *^y/\es#* - - - /
3 语料的收集与加工——加工
构建大型标注语料库直接促进了NLP技术的发展： Brown语料库直接促使基于统计的词性标注模型HMM和标注算法
Viterbi的提出和完善； Upenn树库为基于统计的句法分析技术提供了训练素材；作为统一的训练和测试平台，评估各类NLP算法的性能。
3 语料的收集与加工——加工
语料库中各类文本的比例均衡原则
专业语料库的建设应有专业领域的专家参与
3 语料的收集与加工——编码
语料库的编码问题提出：资源共享时的差异化语料文件的统一规范：
TEI计划(Text Encoding Initiative) LDC要求其提交的语料库遵循SGML规范(Standard Generalized
1 什么是语料库
London-Lund英语口语语料库部分标记：
语料库的分类生语料库：未经加工的，没有任何切分、标注标记的原始语料库熟语料库：经过加工，带有切分、标注标记的语料库
1 什么是语料库

中文基准语料库-概述说明以及解释

中文基准语料库-概述说明以及解释1.引言1.1 概述中文基准语料库是指一种包含大量中文文本的语料库，它被广泛用作语言研究、自然语言处理、机器翻译等领域的标准参考。

中文基准语料库的建立旨在提供一个覆盖广泛的文本资源，使研究人员能够进行准确和全面的中文语言分析。

中文基准语料库的构建是一个复杂而耗时的过程。

通常，它涉及对大量现代和古代中文文本的收集、整理和标注。

这些文本可以包括各种文学作品、新闻报道、社交媒体内容等。

通过对这些文本进行语言学和语义分析，研究人员可以得到有关中文语言规律和特点的重要信息。

中文基准语料库具有重要的研究价值和实际意义。

首先，它为中文语言研究提供了全面的材料基础，可以帮助研究人员深入了解中文的语法、词汇和语义结构。

其次，它为自然语言处理和人工智能领域的技术开发提供了必要的训练和评估数据。

通过大规模的中文基准语料库，研究人员可以构建和改进各种中文文本处理模型和算法。

中文基准语料库在许多应用领域都发挥着重要的作用。

例如，在机器翻译领域，中文基准语料库可以用来训练和改进机器翻译系统，提高系统的翻译质量和准确性。

在文本分类和信息检索领域，中文基准语料库可以用来构建文本分类模型和搜索引擎，帮助用户更快捷地找到需要的信息。

此外，中文基准语料库还可以在教育、语言学习和文化研究等方面发挥重要的作用。

总之，中文基准语料库是中文语言研究和自然语言处理领域不可或缺的资源，它为各种语言分析和技术应用提供了基础和支持。

随着技术的不断发展和语料库的不断壮大，中文基准语料库将持续发挥重要的作用，并为未来的研究和应用提供更多可能性。

1.2 文章结构：本文主要分为引言、正文和结论三个部分。

在引言中，首先对中文基准语料库进行概述，介绍其定义、重要性以及应用领域。

然后说明文章结构，即引言、正文和结论的内容安排，并提出文章的目的。

接下来是正文部分，主要包括三个子部分。

首先介绍中文基准语料库的定义，包括其所指的内容范围和构建标准。

语料库

15
3 语料库的设计
语料库三方面 A. 语料本身
属性规模领域
体裁时代语体语种
语言层次
值
百万词级 | 千万词级 | 亿万词级 | … 政治 | 经济 | 体育 | 心理学 | …
文学 | 应用文 | 新闻 | …
共时 | 历时书面语 | 口语单语 | 双语 | 多语双语平行语料库 | 双语比较语料库语音（音节，韵律） | 语法（词，句，…）
11
第二代语料库
建于1980年代，由英国Birmingham大学与Collins出版社合作完成，规模达2000 万词次，基于该语料库出版的Collins Cobuild词典（1987）受到了广泛的好评
COBUILD语料库 Longman语料库
千万词级词典编纂－应用导向
建于1980年代，包括三个语料库： LLELC语料库（Longman/Lancaster英语语料库） LSC语料库（Longman口语语料库） LCLE（Longman英语学习语料库）目标是编撰英语学习词典，为外国人学习英语服务，词典规模达5000万词次
7
London-Lund英语口语语料库部分标记
标记
含义
#
语调群的结束 (end of tone group)
^
语音开始 (onset)
/
上升型核心语调 (rising nuclear tone)
\
下降型核心语调 (falling nuclear tone)
^
先升后降型核心语调 (rise-fall nuclear tone)
检索工具 | 人机界面 | 数据接口 | … 16
语料的选取
精品原则有影响力原则随机挑选原则高流通度原则典型性原则易于获得原则具有统计样本意义原则符合语言规范原则

语料库的分类、创建和检索简述

语料库的分类
语料库的分类
根据不同的标准，语料库可以分为多种类型。常见的语料库类型包括： 1、通用语料库：包含来自不同领域、不同语言的语料，适用于广泛的研究和应用领域。
语料库的分类
2、专业语料库：针对特定领域或专业构建的语料库，例如医学、法律、金融等。
3、口语语料库：包含口头语言材料，如录音、口语表达等。
二、图像分类技术
另外，降维技术也可以用于图像分类。降维技术可以将高维的图像特征降维到低维的空间，从而使得分类更加简单和高效。常用的降维技术有PCA、t-SNE和 autoencoder等。
三、图像语义检索与分类技术的研究现状
三、图像语义检索与分类技术的研究现状
近年来，图像语义检索和分类技术的研究取得了显著的进展。在图像语义检索方面，研究者们提出了多种基于内容、语义相似度和向量空间模型等方法。在图像分类方面，SVM、神经网络和降维技术等算法的应用取得了重要突破。
一、图像语义检索技术
图像语义检索是指通过自然语言描述或者用户提交的查询关键词，从图像库中检索出与查询相关的图像。近年来，研究者们提出了多种图像语义检索的方法。
一、图像语义检索技术
基于内容的图像语义检索是通过分析图像的内容，提取出图像的特征，然后根据这些特征进行检索。例如，可以通过提取图像的颜色、纹理、形状等特征进行检索。另外，还可以利用深度学习技术，如卷积神经网络（CNN）来提取图像的特征，提高检索的准确性。
语料库的创建
此外，为了便于语料库的管理和检索，需要构建语料库的索引和词典。索引可以记录每个单词在语料库中出现的位置和频率，而词典则包含了单词的语义信息和语法信息等。最后，语料库的创建还需要注意保证数据的安全性和隐私保护。

语料库语言学简介

语料库语言学简介语料库语言学是指利用语料库（一种大规模的文本数据集合）进行语言学研究的方法和理论。

通过构建、标注和分析语料库，可以揭示语言在不同层面上的特征和规律，为自然语言处理、机器翻译等领域提供基础和支持。

语料库语言学的研究内容包括：语言的音系、形态、句法以及语义等方面；语言的变异、演化和变化；语言使用者的使用习惯、语言背景和社会属性等。

语料库语言学的主要方法包括：语料库的构建和管理、语料库的标注和注释、语料库的查询和分析、语料库的应用和评估等。

语料库语言学的应用领域包括：机器翻译、信息检索、语音识别、文本分类、自然语言生成等。

此外，语料库语言学还被广泛应用于各种语言教学、语言规划和语言政策制定等领域。

总的来说，语料库语言学已经成为现代语言学和自然语言处理领域不可或缺的一部分，对于研究和应用语言都有着重要的意义。

一、语料库语言学的意义（一）定义和概述语料库语言学是指利用计算机对大规模语料库进行统计学分析、计算和比较，从而研究语言规律和现象的语言学方法。

语料库是指收集、整理、储存在计算机中的自然语言文本，包括书面文本和口语文本。

语料库语言学旨在通过对语言数据的分析，揭示语言的内在规律和现象，为语言学、语言教学、翻译等领域提供科学依据。

（二）语料库语言学的历史语料库语言学起源于20世纪50年代的美国，当时ChomSky等人提出了生成文法理论，但是这个理论无法解释自然语言的很多现象。

50年代后期，美国普林斯顿大学的SinClair教授提出了使用实际语言数据进行语言研究的观点，并开始编制语料库，由此开启了语料库语言学的先河。

之后，随着计算机技术的发展，语料库语言学得以快速发展，成为现代语言学研究和应用的重要领域。

二、语料库语言学的重要性（一）提供真实语言数据语料库收集大量的自然语言文本，包括书面语和口语，具有代表性和真实性。

这些数据包含了语言使用中的各种现象和规律，是研究语言的最基本素材。

（二）揭示语言规律和现象语料库语言学可以对语言数据进行分析、计算和比较，从而揭示语言的内在规律和现象。

语料库

Background Information语料库的概念语料库是指按照一定的语言学规则，利用随机抽样的方法收集的有代表性的语言材料的总汇，它是语言材料的样本。

语料库通常指为语言研究机构收集的，具有一定容量的大型电子文本语料库。

它是由口语语料和书面语的样本汇集而成，用来代表特定的语言或语言变体，或经过加工后带有语言学信息标注的文本的集合。

语料库的分类按照语料库所涉及的语言种类，语料库课分为单语语料库，双语平行语料库(parallel corpus)和多语语料库(multilingual corpus)；按照语言涉及的题材，语料库可分为普通语料库(general corpus)和专门用途语料库(specialized corpus)；按语料的来源，又可分为口语语料库和书面语语料库；按语料库是否被标注，语料库可分为生语料库或原始语料库(raw corpus)和熟语料库或标注语料库(annotated corpus)In linguistics, a corpus (plural corpora) or text corpus is a large and structured set of texts (now usually electronically stored and processed). They are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules on a specific universe.A corpus may contain texts in a single language (monolingual corpus) or text data in multiple languages (multilingual corpus). Multilingual corpora that have been specially formatted for side-by-side comparison are called aligned parallel corpora. In order to make the corpora more useful for doing linguistic research, they are often subjected to a process known as annotation. An example of annotating a corpus ispart-of-speech tagging, or POS-tagging, in which information about each word's part of speech (verb, noun, adjective, etc.) is added to the corpusin the form of tags. Another example is indicating the lemma (base) form of each word. When the language of the corpus is not a working language of the researchers who use it, interlinear glossing is used to make the annotation bilingual.Terminology:双语或多语语料库Bilingual or multilingual corpus机器翻译技术machine translation technology双语词典编纂技术bilingual lexicography technique跟踪研究工作follow-up study设计、采集、编码和管理design, collection, coding and managementTranslation Version：关于双语或多语语料库的研究目前大致可分为三类：The research on bilingual or multilingual corpus can be divided into three categories currently:一是研究双语语料的对齐技术（Alignment），国内外学者就此提出多种策略和方法，现在已经出现了许多对齐双语或多语语料的程序或工具；First is the study of bilingual corpus alignment technology .The scholars at home and abroad propose various strategies and methods about it. There have been a lot of procedures or tools of bilingual or multilingual corpus alignment at present.二是研究双语语料的各种应用，如在基于统计的机器翻译技术、基于实例的机器翻译技术，双语词典编纂技术中，双语语料库都发挥着十分重要的作用；Second is the all kinds of applications on the research of bilingual corpus . For example, bilingual corpus play an important role in the statistics-based machine translation technology, example-based machine translationtechnology and bilingual lexicography technique.三是双语语料库的设计、采集、编码和管理问题。

《国家语委语料库》课件

语料库的共享机制和平台
添加标题
国家语委语料库的共享机制：介绍语料库的共享机制，包括共享方式、共享范围、共享内容等。
添加标题
国家语委语料库的合作平台：介绍语料库的合作平台，包括合作方式、合作内容、合作对象等。
添加标题
国家语委语料库的共享和合作的意义：介绍语料库的共享和合作的意义，包括促进语言研究、推动语言教育、促进文化交流等。
• 案例3：国家语委语料库在语言规划中的应用 • 提供数据支持，为国家制定语言政策提供科学依据。 • 促进语言的规范化、标准化，提高语言的交际效率。 • 推动语言的健康发展，促进社会的和谐稳定。案例4：国家语委语料库在文化传承中的应用
• 案例4：国家语委语料库在文化传承中的应用 • 保存和传承文化遗产，为后人留下宝贵的文化遗产。 • 促进文化的交流与传播，推动文化的多元化发展。 • 推动文化的创新与发展，为现代社会注入新的文化元素。
添加标题
国家语委语料库的未来发展：介绍语料库的未来发展，包括扩大语料库规模、提高语料库质量、加强语料库应用等。
语料库的合作模式和案例
• 合作模式：国家语委语料库与高校、研究机构等合作，共同开展语言研究、教学等工作。 • 案例：国家语委语料库与某高校合作，共同开展汉语词汇研究，为汉语教学提供支持。语料库的共享和合作
数字化语料库的建设和发展
数字化语料库的背景和意义
数字化语料库的建设过程
数字化语料库的智能化发展
数字化语料库的应智能化语料库的定义和特点
智能化语料库的应用场景
智能化语料库的发展趋势
智能化语料库的未来展望
未来数字化和智能化语料库的趋势
添加标题
数字化语料库的全面升级：随着技术的不断发展，数字化语料库将更加全面、高效地升级，实现更加精准、快速的数据检索和分析。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

语料库、学习者语料库与外语教学①□李文中0.概述语料库(corpora )是应用计算机技术对海量自然语言材料进行处理(包括预处理、语法自动附码、自动句法分析、语义分析等)、存储,以供自动检索(retrieval )、索引(concordance )以及统计分析的大型资料库。

它是按照明确的设计标准为某一具体目标而建立的语言资料库(Atkins and Clear 1992:5,引自G ranger 1996)。

如果作进一步区分,还可以把语料库与大型文档资源库(text archives )区别开来。

前者具有明确语料选择比例和设计标准,而后者更注重语料容量和语料来源的多样性(Edwards 1993)。

所谓自然语言是指任何人类在童年习得的语言(Leech 1987:1)。

使用这一概念的意义在于,把人类自然语言同人工编制的人工语言(artificial languag 2es )(如C 语言、BASIC 、JAVA 、FORTRAN 等)区别开来;在对语言描述和研究中,自然出现的语料不同于研究者为某一目的而引出的材料(elicited data )。

语料库的研究对象是人类语言自然运用(performance ),而不是内在语言能力(com petence )。

语料库的应用主要在于以下几个方面:1)自然语言处理(包括自动语言识别、自动语法附码、句法分析、语义分析、知识表达、机器翻译等)。

基于语料库方法可以提供有关语言结构和特征的可靠信息,而这些信息是内省法研究或心理测验获取的信息所不能比拟的。

语料库是人们广泛深入理解语言所必需的工具(Edwards 1993,Leech 1991,1992,Svartvik 1992)。

2)词典编纂。

语料库能够提供更为完备和详尽的关于词义和词汇搭配信息(K jellmer 1984,Sinclair 1982,引自Edwards 1993)。

3)语言学习与语言教学。

早在本世纪60年代,美国Brown 大学创建了最早的语料库BROW N C ORPUS ,容量为100万词,广泛搜集了当时美国英语各种文体的语言材料。

与此相呼应的是70年代初在欧洲同样容量的LOB 语料库,搜集了同年代的英国英语材料。

基于这两个语料库,开展了大量的重要研究,研究的重点是对英语语法的描述和分析(Rundell 1996)。

另外,70年代初还建成了50万词的英语口语语料库London 2Lund C orpus (LLC )。

但对于大规模的词汇研究(如词典编纂)而言,100万词的容量显然不能满足要求。

80年代初,由Birmingham 大学John Sinclair 主持建成了专门用于词典编纂的大型语料库BCET (Birmingham C ollection of English T exts )。

该语料库最初容量为730万词,到80年代中期,其迅速扩充为2000万词。

与此同时,朗曼公司词典部开始建立自己的语料库Longman 2Lancaster 语料库,容量达到3000万词。

在我国,上海交通大学杨惠中教授在80年代末主持建成了容量为300万词的科技英语语料库(JDEST ,1997年扩充至360万词),主要用于大学英语教学大纲制定和教材开发。

80年代建成的语料库还有Lancaster 的英语口语语料库(ESC ,1984—1987)、用于跨文化比较的PIXI 语料库。

90年代初,包含英国书・15・外语界1999年第1期(总第73期)①本文在写作过程中,承蒙Sylviane G ranger 教授惠寄有关资料以及对有关问题的讨论。

C ornelis H.J.Vaes 寄来InternationalJournal o f Corpus Linguistics 以供参考。

M ike Scott 寄来有关索引软件M icroC oncord 使用手册。

导师杨惠中教授阅读了初稿并提出了修改意见。

在此一并致谢。

面英语和口语容量为1亿词的英国国家语料库建成(BNC ,British National C orpus ,1994),而伯明翰大学的BCET 语料库进一步扩展为英语库(Bank of English ),容词量为两亿。

到90年代中期,朗曼公司在BNC 库中又增加1亿词美国英语,C OBUI LD 的Bank of English 进而增长至3.2亿词(Rundell 1996)。

语料库的出现不仅标志着语言学研究手段的技术进步,还标志着语言研究思想的重大转变。

它代表一种新的语言学思维,一种新的事业(Leech 1992,G ranger 1997)。

语料库方法注重运用而非能力,重描述(description )而非普遍语法(universals ),重量化分析(quantitative analysis )而非定性分析(qualitative analysis )。

语言学家对语言的研究从传统的直觉经验方法转向基于实验和统计的方法。

但G ranger 认为这两种方法可以互补,而不是相互排斥①。

语料库在语言描述和分析中发挥着愈来愈重要的作用。

“现在不会有人试图不使用语料库信息就去编制新的词典。

的确,对该领域大多数人而言,不参照实验性数据而试图进行语言描述的想法将被视为反常。

”(Rundell 1996)1.学习者语料库的发展随着计算机处理速度的飞速增长以及存储能力的扩大②,语料库建设呈现多元化发展和增殖趋势。

在90年代,各种专门语料库纷纷建成或在建,如用于文学作品分析的各种作家语料库,用于历史语言学分析的历史语言语料库,用于学习者语言运用分析的学习者语料库。

语料库的种类不再仅限于英语,而发展到各个语种③。

语料库多元化的发展既包括研究方法的多元化,如历时性语料库和共时性语料库,也包括语料语体上的多样化,如书面语和口语语料库、通用型语料库和专门语料库,以及英语的各种变体语料库,如英国英语、美国英语、澳大利亚英语、印度英语、南非英语等。

在这种多元化发展中,针对外语学习者而建立的学习者语料库(learner corpora )可谓异军突起,成为当今语料库建设中一股新的力量。

学习者语料库的创建和研究只是近几年的事情。

最早的学习者语料库是80年代末建立起来的朗曼学习者语料库(Longman Learners πC orpus )。

90年代中期,在比利时Louvain 大学以Sylviane G ranger 为首建成了国际学习者英语语料库(IC LE )。

该库是一个广泛的国际合作项目,容词量为100万词,所搜集的学习者语料来自14种不同的母语背景(包括法、德、荷兰、西班牙、瑞典、芬兰、波兰、捷克、保加利亚、俄、意大利、希伯莱、日、汉语)。

另外香港科技大学的学习者语料库(HK UST Learner C orpus )搜集了以汉语为母语的学习者语言材料,容量为360万词。

学习者语料库的发展,使得基于学习者语料库的研究异彩纷呈,方兴未艾。

1996年8月在芬兰举行的“第十一届世界应用语言学大会:开发计算机学习者语料库”,与会者从不同角度对学习者语言进行了初步探讨。

如Aarts 对多义动词‘find ’和‘want ’的对比研究,Altenberg 对瑞典英语学习者议论文写作中各种词汇、语法和话语特征的滥用或少用的研究,K aszubski 研究了波兰英语学习者词汇的重复和华・25・①②③在Barlow 博士“语料库语言学”的主页上,列出了16种语言的网上各种语料库。

这还不包括东方的主要语言,如汉语、日语、朝鲜语等。

中国的汉语国家语料库建设始于1992年,初始容词量为500万,主要用于汉语语法研究。

到1995年,该语料库扩大至5000万词,并开发了针对汉语语料库的多阶处理系统(Qian Zhou and Shiwen Y u 1997)。

在1996年,一台配置Pentium 586,133MH z 处理器,1.7G 硬盘,16M RAM ,8xCD 2ROM 的个人计算机算得上先进,到了1998年,这种配置已明显落后。

(如266Π400MH z Pentium Ⅱ,4.3G Π10G+硬盘,128M RAM ,24xCD -ROM )。

Leech (1987)在比较自然语言处理中基于语料库方法和基于人工智能方法时表达了相似的观点,认为这两种方法并不互相排斥,而是相互补充。

语料库方法在自然语言处理中具有广域适应优势,但由于概率错误失之于准确;而基于规则的人工智能方法准确性高,但局限于某个领域。

Leech 认为这两种方法是“从两端挖掘同一条隧道”。

丽语句的运用;Lorenz 对德国英语学习者英语写作中词汇搭配能力、非词汇化以及信息结构的研究,Milton 则讨论了机助语言学习设计问题;Ringbom 对比分析了学习者语料库中数量限定词、核心形容词和动词、衔接词以及动词短语的频率。

最近,在中国即将建成的容量为100万词的中国学习者英语语料库(C LEC ),广泛搜集了专业英语、大学英语以及中学英语学习者的各种书面语资料。

该项目由广东外语外贸大学桂诗春教授和上海交通大学杨惠中教授负责主持、国内十几个院校合作完成,目前已完成人工错误附码,语料库建设已近尾声。

2.学习者语料库在外语学习中的应用学习者语料库的兴起主要基于以下几个方面的因素:1)在语言学习环境方面明确区分外语学习和第二语言学习,从而观察和描述不同的母语背景与目的语接触程度差异对语言学习的影响。

2)对‘学习者语言’①进行全面而系统的调查和描述,并通过与本族语语料库对比,确认学习者的主要困难,以期对外语学习和教学产生积极的反拨效应。

3)对于语言习得研究而言,对大量的学习者语言运用材料进行量化分析,能深化人们对语言学习机制的理解,乃至对语言本身的理解提供依据。

事实上,语言习得研究的主要数据依据来自三个方面(Ellis 1986):1)学习者的语言运用;2)研究者为某一研究目标从研究对象引出的信息;3)学习者通过内省而提供的信息。

由于受研究手段和人工处理信息能力的限制,第一种信息的获得和数量难以满足研究者的需求。

传统的语言习得研究主要依赖后两种信息。

如今,语料库技术的发展为解决以上问题提供了有效的途径。

与传统的对比研究(C A )不同,利用学习者语言与本族语(目的语)进行对比,也可以在不同的学习者语言之间进行对比(如不同母语背景的学习者在学习困难上的差异),所得到的信息更加可靠。

基于学习者语料库的分析也不同于传统的错误分析(E A ),研究者不仅可以分析学习者的语言形式错误和语用错误,还能通过对比分析进一步观察学习者使用规避策略(av oidance )②的情况。

G ranger (1996)把这种对比分析称之为中间语对比分析(CI A ,C ontrastive Interlanguage Analysis ),并认为通过这种对比不仅能发现学习者语言中不合乎本族语的特征,还能发现某些特征在学习者语言中滥用或少用。