国内主要语料库总汇
语料库

国家语委现代汉语语料库介绍国家语委现代汉语语料库是一个大型的通用的语料库,以语言文字的信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育和语言文字的社会应用为主要服务目标。
国家语委现代汉语语料库作为国家级语料库,在汉语语料库系统开发技术上具有国际领先水平,在语料可靠、标注准确等方面具有权威性。
国家语委现代汉语语料库面向国内外的长远需要,选材有足够的时间跨度,语料抽样合理、分布均匀、比例适当,能够比较科学地反映现代汉语全貌。
一、国家语委语料库的组成国家语委现代汉语语料库由人文与社会科学、自然科学及综合三个大类约40个小类组成。
具体类别如下:1.人文与社会科学类划分为8个大类和30个小类:(1)政法:哲学、政治、宗教、法律。
(2)历史:历史、考古、民族。
(3)社会:社会学、心理、语言文字、教育、文艺理论、新闻、民俗。
(4)经济:工业经济、农业经济、政治经济、财贸经济。
(5)艺术:音乐、美术、舞蹈、戏剧。
(6)文学:小说、散文、传记、报告文学、科幻、口语。
(7)军体:军事、体育。
(8)生活2.自然科学划分为6类:数理、生化、天文地理、海洋气象、农林、医药卫生。
3.综合类语料由应用文和难于归类的其他语料两部分组成。
应用文使用很广泛,主要及以下6类:(1)行政公文:请示、报告、批复、命令、指示、布告、纪要、通知等(2)章程法规:章程、条例、细则、制度、公约、办法、法律条文等(3)司法文书:诉讼、辩护词、控告信、委托书等(4)商业文告:说明、广告、调查报告、经济合同等(5)礼仪辞令:欢迎词、贺电、讣告、唁电、慰问信、祝酒词等(6)实用文书:请假条、检讨、申请书、请愿书等。
国家语委现代汉语语料库的数据量包括新增的1000万字新语料已经达到了1亿字,已经完成词语切分和标注加工的约5000万字语料是语料库中1919~1992时间段的大部分语料以及1992~2002时间段的部分语料。
二、国家语委语料库建设的主要科研成果如下:1)5000万字带有分词和词性标注的汉语语料2)语料库加工规范3)1000万字新语料,语料库总规模达到1亿字4)词语切分和词性标注软件5)100万字(5万句)句法树库6)树库加工规范8)树库标记集规范9)语料库词语切分和词性标注软件10)语料库校对加工工具软件11)语料库质量检查工具软件12)语料库例句检索工具软件13)语料查询与统计工具软件14)语料库管理工具软件15)树库句法分析器软件16)树库校对软件17)相关研究论文三、国家语委语料库的应用目前,国家语委语料库已经为国家语委规范汉字表、汉字属性库项目和科技部863计划课题智能中文信息处理平台、中文信息处理应用基础研究项目以及973计划课题中文语音语言资源联盟项目等多个科研项目提供了支持,为北京大学、北京师范大学、首都师范大学、厦门大学、中科院自动化研究所、中科院心理研究所等多个高校和科研院所提供了服务,也为东芝(中国)研发中心、富士通研究院等企业提供了高质量的汉语语料资源。
五_语料库汇总

1 什么是语料库
1 什么是语料库
London-Lund英语口语语料库样例: ^what a_bout a cigar\ette# . / *((4 sylls))* / *I ^w\on't have one th/anks#* - - - / ^aren't you .going to sit d/own# - / ^[/\m]# - / ^have my _coffee in p=eace# - - - / ^quite a nice .room to !s\it in ((actually))# / *^\isn't* it# / *^y/\es#* - - - /
3 语料的收集与加工——加工
构建大型标注语料库直接促进了NLP技术的发展: Brown语料库直接促使基于统计的词性标注模型HMM和标注算法
Viterbi的提出和完善; Upenn树库为基于统计的句法分析技术提供了训练素材; 作为统一的训练和测试平台,评估各类NLP算法的性能。
3 语料的收集与加工——加工
语料库中各类文本的比例均衡 原则
专业语料库的建设应有专业领 域的专家参与
3 语料的收集与加工——编码
语料库的编码 问题提出:资源共享时的差异化 语料文件的统一规范:
TEI计划(Text Encoding Initiative) LDC要求其提交的语料库遵循SGML规范(Standard Generalized
1 什么是语料库
London-Lund英语口语语料库部分标记:
语料库的分类 生语料库:未经加工的,没有任何切分、标注标记的原始语料库 熟语料库:经过加工,带有切分、标注标记的语料库
1 什么是语料库
国内汉语语料库概况

国内汉语语料库概况国内汉语语料库概况【摘要】本文概述了语料库的起源和开展的历史,着重从中国语料库的建设与开展出发,列举近二十年常用的大型语料库,并对中国语料库语言学研究存在的问题和开展趋势等方面进行了分析,为语料库的建设和语言学研究提供参考建议。
【关键词】汉语;语料库;语言学0 引言自20世纪60年代计算机问世,计算机技术就迅速应用到了以语料库为根底的语言学研究中,随着计算机技术的迅速开展,世界各国在语料库的建设上成绩显著。
不同语言、不同类型、不同规模的语料库越来越多。
语料库的广度越来越大,开发加工的深也日益加深。
语料库在语言学研究和自然语言处理中发挥的作用越来越大。
自第一代大型电子语料库BROWN建立至今,语料库语言学的研究已经有50多年的历史。
而国内的语料库研究也有30多年的历史,并在上世纪90年代得到飞速开展,语言学与计算机技术加速融合,不同的学者和专家秉着不同的出发点,在各种角度和各种层次上进行了大量实证研究,这使得我国的语料库语言学迅速开展繁荣。
1 语料库和语料库语言学1.1 语料库和语料库语言学的定义语料库:是指按照一定的语言学原那么,运用随机抽样方,收集自然出现的连续语言运用文本或话语片段而建成的具有一定容量的大型电子文本库。
语料库语言学:在文本语料的根底上进行语言研究的一门学科。
语料库语言学通过语言现象出现的概率对语言材料进行研究。
这里的语言材料是真实的、可观存在的,因此,通过概率统计手段在语料库语言学研究中得到的语言使用情况是真实客观的,排除掉了语言学家的主观性,研究结果更加真实可靠。
1.2 语料库在语言学研究领域的应用语料库应用对语言学研究的主要改良有:保证了语料的客观真实性,排除了语言学家的主观性;借助计算机的储存能力,提高了研究的广度和深度;提高了工作效率,减少了人工误差;使语料资源具有共享性。
语料库在语言学研究中主要的应用领域有:词典编纂;语言统计;语言监控,包括新词、新用法的发现;语言教学;语言信息处理;语法、语义、词汇、语音等各种语言问题的研究;方言研究等等。
CLEC中国英语学习者语料库

CLEC中国英语学习者语料库CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。
其目的就是观察各类学生的英语特征和言语失误的情况,希望通过定量和定性的方法对中国学习者英语作出较为精确的描写,为我国学生的英语教学提供有用的反馈信息。
表1 CLEC语料分布类型词次ST2 208088ST3 209043ST4 212855ST5 214510ST6 226106总计 1070602言语失误标注原则1. 简单合理,易于系统操作。
参与标注的人比较多,分类表过于繁复,就难于掌握。
我们采取两级分类,第一级有11类:词形(fm)、动词短语(vp)、名词短语(np)、代词(pr)、形容词短语(aj)、副词(ad)、介词短语(pp)、连词(cj)、词汇(wd)、搭配(cc)、句子(sn)。
每一类里再用数目字细分。
如[cc]为词语搭配不当,[cc1]表示名词和名词的搭配,[cc2]表示名词和动词的搭配,[cc3]表示动词和名词的搭配,等等。
2. 分类表的类别要适中。
过粗容易统一,但信息太少,不利于分析学习者的失误/过细难以统一,容易把同一种失误归到不同类别。
目前我们采取的办法是对常见的失误从细(如vp和np都有9小类),对少见的失误从粗(如cj只有两小类)。
现在的分类表有61个失误码,是属于中等规模的分类表。
提供足够的失误信息(失误本身、失误类型和失误发生范围)。
例如In the past,[vp6, 4-] kind to each other…, 失误用方括号表示,放在失误people are 之后。
[vp6]为vp(动词)第6种(时态)失误,4-为失误发生的范围,-表示失误的位置,4表示失误前有4个词。
要联系这4个词,才能判断are这个词用错了。
开放性。
容许研究者根据需要对失误类型进行补充或进一步再分出细类。
例如[sn8]为句子结构有缺陷,研究者可以对这种失误再分为若干细类来研究。
gpt中文语料

GPT的中文语料库可以包括各种中文文本,例如新闻报道、小说、散文、科技文章、论坛讨论、博客文章等等。
以下是
一些中文语料库的例子:
1. 人民日报:人民日报是中国的主要官方媒体,其报道
的内容涵盖了政治、经济、文化、社会等各个领域,具有很
高的权威性和影响力。
2. 互联网电影资料库(IMDb):IMDb是一个国际知名的
电影数据库,其中包含了大量的中文电影信息,包括影片简介、演员阵容、导演信息等等。
3. 维基百科(Wikipedia):维基百科是一个国际性的百
科全书网站,其中也包含了大量的中文词条和文章,涵盖了
各种主题和领域。
4. 知乎:知乎是一个中文问答社区,其中包含了大量的
中文问题和答案,涵盖了科技、人文、社科等各个领域。
5. 百度百科:百度百科是一个中文百科全书网站,其中
包含了大量的中文词条和文章,涵盖了各种主题和领域。
需要注意的是,不同的语料库具有不同的特点和用途,需
要根据具体需求进行选择和使用。
语言学常用语料库

语言学常用语料库
以下是一些语言学常用的语料库:
- Brown语料库:这是一个基于英语的语料库,包含了1961年至1979年间推广的1,000,000个单词的样本,覆盖了各种文体和题材。
- COCA(Corpus of Contemporary American English):这是一
个覆盖美国当代英语的语料库,包含了1990年至今的一亿多
个单词样本。
- BNC(British National Corpus):这是一个覆盖英国英语的
语料库,包含了1980年代至1993年间的一亿个单词样本。
- CHILDES(Child Language Data Exchange System):这是一
个收集婴儿和儿童语言数据的数据库,用于研究儿童语言发展。
- Penn Treebank:这是一个标注了句法和语义信息的英语语料库,用于自然语言处理研究。
- EuroParl语料库:这是一个包含欧洲议会会议记录的多语言
语料库,可以用于研究多语言对比和机器翻译。
- COrE(Corpus of English):这是一个以英语为基础的多样
化语料库,包含了来自不同国家和地区的语言样本,用于研究语言变体和语言接触。
- WALS(World Atlas of Language Structures):这是一个收集了世界各地不同语言结构的数据库,可以用于跨语言比较和语言学理论研究。
这些语料库可以通过在线平台或特定的研究机构访问和获取。
使用语料库可以帮助语言学家进行语言研究、语言分析和理论构建。
国家语委现代汉语语料库介绍

样例 分词和词性标注语料
样例 词类标记集
样例 句法树库标记集(1)
(一)短语功能分类
样例 句法树库标记集(2)
(二)短语结构分类
综合类
应用文 难于归类的语料
人文与社会科学类
人文与社会科学类划分为8个大类和30个小类:
政法:哲学、政治、宗教、法律; 历史:历史、考古、民族; 社会:社会学、心理、语言文字、教育、文艺理论、新闻、
民俗; 经济:工业经济、农业经济、政治经济、财贸经济; 艺术:音乐、美术、舞蹈、戏剧; 文学:小说、散文、传记、报告文学、科幻、口语; 军体:军事、体育; 生活。
人文与社会科学类约占语料总量的50%
自然科学类
自然科学划分为6类:
数理 生化 天文地理 海洋气象 农林 医药卫生
自然科学类约占语料总量的30%,
综合类
综合类语料由应用文和难于归类的其他语料两部分组成。 应用文主要包括以下6类:
行政公文:请示、报告、批复、命令、指示、布告、纪要、 通知等;
语料抽样数量
书籍
抽样数量一般占全书字数的3~5%,字数最多不超过 10000字。样本容量2000字,允许±500字。
报纸
采用整版(4版或8版)选用的方式。不同的报纸选用不 同的月份,以免内容重复。
报纸上的广告、启事等归在应用文类,不在报刊类语料 的统计之列。
刊物
每本刊物上所选的总字数原则上不超过5000字。样本容 量2000字,允许±500字。
三个汉语中介语语料库对比分析

三个汉语中介语语料库对比分析随着汉语在全球的普及和影响力的提升,汉语中介语语料库的发展也日益受到人们的。
中介语语料库是第二语言习得研究的重要工具,能够反映出第二语言学习者在习得过程中的语言使用情况和特点。
本文将对三个汉语中介语语料库——国家社科基金语料库、国家汉语水平考试中心语料库和北京大学汉语中介语语料库进行对比分析。
国家社科基金语料库是由北京语言大学牵头建设的大型汉语中介语语料库,涵盖了不同汉语水平的学习者在不同学习阶段所使用的语言材料。
该语料库包含了书面语和口语材料,其中书面材料包括作文、翻译、阅读等,口语材料包括口语表达、口语考试等。
该语料库的特色在于对不同水平的学习者进行了标注和分类,有利于针对不同水平的学习者进行深入研究。
国家汉语水平考试中心语料库是国家汉语水平考试中心建设的大型汉语中介语语料库,主要涵盖了中高级水平学习者的语言材料。
该语料库以测试和模拟试题为主,包括听力、阅读、写作等部分。
该语料库的特色在于其试题均来自国家汉语水平考试的真实考题,具有较高的真实性和可靠性。
北京大学汉语中介语语料库是由北京大学对外汉语教育学院建设的中级汉语学习者使用的中介语语料库,主要涵盖了中高级水平学习者的语言材料。
该语料库包含了各类写作材料,包括日记、作文、翻译等,同时也包括口语表达和口语考试等材料。
该语料库的特色在于对学习者的各类写作材料进行了细致的标注和分类,有利于针对不同类型的学习者进行深入研究。
国家社科基金语料库和国家汉语水平考试中心语料库均属于大型中介语语料库,但两者的语料来源和规模存在一定差异。
国家社科基金语料库的书面材料来源广泛,包括作文、翻译、阅读等,而国家汉语水平考试中心语料库则主要来源于真实的考试试题。
在规模方面,国家社科基金语料库的口语材料相对较多,而国家汉语水平考试中心语料库的书面材料则更为丰富。
北京大学汉语中介语语料库相对较小,但也有一定的代表性。
其材料来源相对较为集中,主要涵盖了中高级学习者的各类写作材料。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
英汉双语语料库(100万),网上英汉语段电子词典及网上电子英汉搭配词典(1000万)
东北大学
英汉双语语料库(40-50万句子对)
哈尔滨工业大学
双语语料库(5万多对)
北京大学计算语言学研究所
对比语料库LIVAC(Linguistic variety in Chinese communities)
《人民日报》语料库(2700万字)
北京大学计算机语言学研究所
大型中文语料库(5亿字,10分库)
北京语言文化大学
现代汉语语料库(1亿字)
清华大学
汉语新闻语料库;(1988年,250万字)
山西大学
标准语料库(2000年,70万字)
生语料库(3000万字);《作家文摘》的标注语料库(100万字)
上海师范大学
现代自然口语语料库
中国社会科学院语言所
旅游咨询口语对话语料库和旅馆预定口语对话语料库
中国科学院自动化所
汉语现代文学作品语料库(1979年,527万字)
武汉大学
现代汉语语料库(1983年,2000万字)
北京航空航天大学
中学语文教材语料库(1983年,1083年,182万字)
北京语言学院
国家级大型汉语均衡语料库(2000万字)
国家语言文字工作委员会
李约瑟(Joself Needham)《中国科学技术史》英汉对照语料库
计算机专业的双语语料库;
国家语言文字工作委员会语言文字应用研究所
柏拉图(Plato)哲学名著《理想国》的双语语料库
英汉双语语料库(15万对)
中科院软件所
英汉双语语料库:LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语料31万句子对
中国英语学习者口语语料库SECCL (100万)
南京大学
国际外语学习者英语口语语料库中国部分LINSEI-China (10万)
华南师大
硕士写作语料库MWC (12万)
华中科技大学
平行语料库
汉英平行语料库PCCE
北外
南大-国关平行语料库
南京大学
英汉文学作品语料库;
外研社
冯友兰《中国哲学史》汉英对照语料库
香港城市理工大学
平衡语料库(Sinica Corpus);树图语料库(Sinica Treebank)
台湾
特殊英语语料库
中国英语(China English)语料库
河南师范大学
军事英语语料库(Corpus of Military Texts)
解放军外语学院
新视野大学英语教材语料库
上海交通大学
汉语语料库
国内主要语料库总汇
类型
语料库名称及大小
建设单位
英语学习者语料库(书面语及口语)
中国学习者语料库CLEC(100万)
广外、上海交大
大学英语学习者口语语料库COLSEC (5万)
上海交大
香港科技大学学习者语料库HKUST Learner Corpus
香港科技大学
中国英语专业语料库CEME (148万)
南京大学