国内语料库建设一览表

合集下载

国内语料库建设一览表 宁静以致远~~ csdnblog

国内语料库建设一览表 宁静以致远~~ csdnblog

国内语料库建设一览表- 宁静以致远~~ - CSDNBlog 国内语料库建设一览表类型语料库名称及大小建设单位英语学习者语料库(书面语及口语)中国学习者语料库CLEC(100万)广外、上海交大大学英语学习者口语语料库COLSEC (5万)上海交大香港科技大学学习者语料库HKUST Learner Corpus香港科技大学中国英语专业语料库CEME(148万)南京大学中国英语学习者口语语料库SECCL (100万)南京大学国际外语学习者英语口语语料库中国部分LINSEI-China (10万)华南师大硕士写作语料库MWC(12万)华中科技大学平行语料库汉英平行语料库PCCE北外南大-国关平行语料库南京大学英汉文学作品语料库;外研社冯友兰《中国哲学史》汉英对照语料库李约瑟(JoselfNeedham)《中国科学技术史》英汉对照语料库计算机专业的双语语料库;国家语言文字工作委员会语言文字应用研究所柏拉图(Plato)哲学名著《理想国》的双语语料库英汉双语语料库(15万对)中科院软件所英汉双语语料库:LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语料31万句子对中国科学院自动化研究所英汉双语语料库(100万),网上英汉语段电子词典及网上电子英汉搭配词典(1000万)东北大学英汉双语语料库(40-50万句子对)哈尔滨工业大学双语语料库(5万多对)北京大学计算语言学研究所对比语料库LIVAC(Linguistic variety in Chinese communities)香港城市理工大学平衡语料库(Sinica Corpus);树图语料库(Sinica Treebank) 台湾特殊英语语料库中国英语(China English)语料库河南师范大学军事英语语料库(Corpusof Military Texts)解放军外语学院新视野大学英语教材语料库上海交通大学汉语语料库汉语现代文学作品语料库(1979年,527万字) 武汉大学现代汉语语料库(1983年,2000万字)北京航空航天大学中学语文教材语料库(1983年,106万8000字) 北京师范大学现代汉语词频统计语料库(1983年,182万字) 北京语言学院国家级大型汉语均衡语料库(2000万字) 国家语言文字工作委员会《人民日报》语料库(2700万字)北京大学计算机语言学研究所大型中文语料库(5亿字,10分库)北京语言文化大学现代汉语语料库(1亿字)清华大学汉语新闻语料库;(1988年,250万字) 山西大学标准语料库(2000年,70万字)生语料库(3000万字);《作家文摘》的标注语料库(100万字) 上海师范大学现代自然口语语料库中国社会科学院语言所旅游咨询口语对话语料库和旅馆预定口语对话语料库中国科学院自动化所。

国家语委语料库.

国家语委语料库.

设计样本分布

科 目
表一:人文与社会科学类
比 例 字 数 1919-1925 1926-1949 1950-1965 1966-1976 19775% 15% 37.5 37.5 37.5 37.5 37.5 225 37.5 25% 62.5 62.5 62.5 62.5 62.5 375 62.5 5% 12.5 12.5 12.5 12.5 12.5 75 12.5 50% 125 125 125 125 125 750 125
• 时间层次。 • 文化层次。以具有高中文化程度的人能够阅读的语料为主,其他文化程 度为辅。 • 社会使用面层次。以社会使用面较为广泛的语料为主,其他语料为辅进 行补充;以人文与社会科学为主,自然科学为辅;以门类为主,以语体 为辅,对门类进行补充。

语料的描述性原则
从现代汉语语料库建设的主要用途出发, 语料应在必要的人工干预的前提下,做 描述性选取,以便为语言文字的规范与 科研提供客观的科学依据。 为了保证现代汉语的字、词、句、义在 语料中具有合理的出现频率,语料的选 择应在控制比例的前提下,尽量做到采 样广泛。
现代汉语语料库的主要用途及选材规模
主要用途


语言文字的信息处理 语言文字规范和标准的制定 语言文字的学术研究 语文教育 语言文字的社会应用 规模较大的通用语料库,其选材字数拟定在 5000万字左右,包括抽样材料和整篇材料。 教材字数另计。

选材规模

ቤተ መጻሕፍቲ ባይዱ材的分类

依据材料内容,选材大体作如下分类:

语言材料的完整性


语言材料的遍历性

语料抽样

抽样的数量与方式

现代汉语语料库建设及深加工项目总结报告

现代汉语语料库建设及深加工项目总结报告

a6写作时间;a7书刊名称;a8编著者; a9出版社; a10所在省;
a11出版日期;a12期号; a13版次(初版印数); a14本版印数;
a15总印数; a16总页数; a17开本;
a18选择方式;
a19起止页数;a20样本字数;a21样本总字数;a22文章总字数;
a23简繁体; a24抽样文章。
科研成果在多个方面体现了创新性和 先进性
该语料库样本的平衡性,体现在历时的时间平 衡和共时的分布平衡等方面;
该语料库是目前最大规模的现代汉语标注语料 库,时间跨度最大、类别分布最广;
语料库加工、检索、统计、管理形成了一整套 完整的软件系统,等等。
国家语委现代汉语语料库加工遵循国内外信息 处理领域通用的语料库加工路线,重视为语言 学研究服务,采用机助人校的加工方式,通过 开发语料库切分标注、校对、质量检查等软件 工具来提高校对精度和控制加工质量。
在加工过程中制定了《信息处理用词类标记集 规范》等语料库建设规范。为兼容不同词语颗 粒度,专门建立了层次化结构化的分词词表, 分词词表的词条数量超过88000条。
结构化词表示例:
标注语料库主要词类分布频率表:
6000000 5000000 4000000 3000000 2000000 1000000
语料库应用设想
1) 网络有偿或无偿使用,提供语言学、计算语言学、 对外汉语教学等研究者和外国留学生作各种常规查询, 包括字、词搭配、例句抽取、句型、句法结构、某种历 时的研究。
2) 提供计算语言学研究的各种统计数据,例如字频、 词频、句型句法结构统计、人名地名用字统计。
根据各种中文信息处理的方法和流派的不同,研究 相适应的评测标准,提供标准测试集。充分发挥语用所 在资源(国家级)、标准、规范上的权威性和协调作用, 体现公允性、引导性和先进性。

词义消歧研究资源、方法与评测

词义消歧研究资源、方法与评测

《当代语言学》第11卷2009年第2期113-123页,北京词义消歧研究:资源、方法与评测3吴云芳 北京大学提要 词义消歧是计算语言学领域的基础性关键研究课题。

本文从语言资源建设、词义消歧方法和国际语义评测三个方面概要地介绍了词义消歧研究的现状:语言资源建设主要介绍了语义词典构建和词义标注语料库建设;词义消歧方法重点介绍了有指导的机器学习方法;语义评测主要介绍了国际语义竞赛Se mEval 。

以期了解词义消歧研究的前沿状态,促发从计算的角度来审视义项区分和词义描述,进而促进汉语词汇语义学的研究。

关键词 词义消歧 义项区分 词义标注语料库 有指导的机器学习方法 语义评测1.引言词义消歧(word sense disa mbiguati on,W S D )是计算机根据上下文语境来自动确定词语的意义。

词义消歧包含两个必要的步骤:(1)在词典中描述词语的意义;(2)在语料中进行词义自动消歧。

例如“仪表”在词典中描述有两个不同的意义:人的外表;测定温度、气压等的仪器。

对于下面两个语句:(1)贵族的仪表使人对人性产生了美丽的错觉。

(2)我国仪器仪表事业的创始人朱良漪。

在网络上进行信息检索时,计算机应该能自动将不同意义的“仪表”区别开来并分别显示。

在汉英机器翻译中,例(1)中“仪表”可译成appearance,而例(2)中“仪表”应译成meter 。

词义消歧是计算语言学领域的基础性关键研究课题,作为一个“中间任务”,直接关系到信息检索、机器翻译、文本分类、语音识别等语言处理应用系统的效率和成败。

W eaver (1949)论及机器翻译系统中必须进行词义消歧,这一点在Chan 等人(2007)的研究中得到了证明,其研究表明词义消歧可以显著提升机器翻译系统的准确率。

St okoe 等人(2003)证明高效的词义消歧技术可以显著提升信息检索的准确率。

然而,正如I de 和Ver onis (1998)所指出的那样,虽然历经半个多世纪的努力,词义消歧研究并没有取得突破性进展。

国家语委现代汉语语料库介绍

国家语委现代汉语语料库介绍
综合类
应用文 难于归类的语料
人文与社会科学类
人文与社会科学类划分为8个大类和30个小类:
政法:哲学、政治、宗教、法律; 历史:历史、考古、民族; 社会:社会学、心理、语言文字、教育、文艺理论、新闻、
民俗; 经济:工业经济、农业经济、政治经济、财贸经济; 艺术:音乐、美术、舞蹈、戏剧; 文学:小说、散文、传记、报告文学、科幻、口语; 军体:军事、体育; 生活。
章程法规:章程、条例、细则、制度、公约、办法、法律条 文等;
司法文书:诉讼、辩护词、控告信、委托书等; 商业文告:说明、广告、调查报告、经济合同等; 礼仪辞令:欢迎词、贺电、讣告、唁电、慰问信、祝酒词等; 实用文书:请假条、检讨、申请书、请愿书等。
综合类约占语料总量的20%
样例 语料分类
信息处理用现代汉语词类标记集规范
基本词类体系 基本词类体系的标记代码 《规范》的制定
在国家社科基金“九五”重大项目《信息处理用现代汉语词汇研 究》的子项目“信息处理用现代汉语词类标记集规范的基础上完 成
得到国家语委“九五”重大项目《现代汉语语料库建设》子课题 “国家语委核心语料分词及词性标注加工”的支持。
样例 语料库查询统计工具
样例 句法树库的信息检索
样例 基于互联网的语料库例句检索
样例 语料库全文检索
语料库的管理
国家语委语料库由国家语委委托语言文字应用 研究所负责建设和管理
国家语委语料库可以提供的服务
语料库使用权许可 检索、查询、统计等数据服务 软件开发等其他服务
语料库提供服务的方式
语料库选材
人文与社会科学类
以1919年为上限,选取五四以来的语言材料。 对五四以来各个历史时期的语料采取不等密度选用的方式。

CLEC中国英语学习者语料库

CLEC中国英语学习者语料库

CLEC中国英语学习者语料库CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。

其目的就是观察各类学生的英语特征和言语失误的情况,希望通过定量和定性的方法对中国学习者英语作出较为精确的描写,为我国学生的英语教学提供有用的反馈信息。

表1 CLEC语料分布类型词次ST2 208088ST3 209043ST4 212855ST5 214510ST6 226106总计 1070602言语失误标注原则1. 简单合理,易于系统操作。

参与标注的人比较多,分类表过于繁复,就难于掌握。

我们采取两级分类,第一级有11类:词形(fm)、动词短语(vp)、名词短语(np)、代词(pr)、形容词短语(aj)、副词(ad)、介词短语(pp)、连词(cj)、词汇(wd)、搭配(cc)、句子(sn)。

每一类里再用数目字细分。

如[cc]为词语搭配不当,[cc1]表示名词和名词的搭配,[cc2]表示名词和动词的搭配,[cc3]表示动词和名词的搭配,等等。

2. 分类表的类别要适中。

过粗容易统一,但信息太少,不利于分析学习者的失误/过细难以统一,容易把同一种失误归到不同类别。

目前我们采取的办法是对常见的失误从细(如vp和np都有9小类),对少见的失误从粗(如cj只有两小类)。

现在的分类表有61个失误码,是属于中等规模的分类表。

提供足够的失误信息(失误本身、失误类型和失误发生范围)。

例如In the past,[vp6, 4-] kind to each other…, 失误用方括号表示,放在失误people are 之后。

[vp6]为vp(动词)第6种(时态)失误,4-为失误发生的范围,-表示失误的位置,4表示失误前有4个词。

要联系这4个词,才能判断are这个词用错了。

开放性。

容许研究者根据需要对失误类型进行补充或进一步再分出细类。

例如[sn8]为句子结构有缺陷,研究者可以对这种失误再分为若干细类来研究。

翻译学概论(许钧翻译论丛)

翻译学概论(许钧翻译论丛)

第一节翻译学传统与语文学翻译研究 第二节翻译的语言学研究 第三节多元系统 第四节翻译研究的哲学途径 第五节翻译的文化研究
第一节比较翻译学概说 第二节中西翻译理论的总体比较 第三节中西翻译理论的相似性 第四节中西翻译理论的相异性 第五节中西翻译传统的文化烙印 第六节中西翻译理论比较的几点结论
第一节翻译的哲学研究 第二节翻译的美学研究 第三节翻译的认知思维研究 第四节翻译的解释学研究 第五节主体性与主体间性 第六节翻译的伦理道德研究 第七节翻译与意识形态
目录分析
翻译的价值是无可估 量的——“许钧翻译
论丛”总序
第一章概论
第二章当代中国翻译 理论研究
第三章当代西方翻译 理论
第四章中西翻译理论 比较
第五章哲学与翻译研 究
第六章语言学与翻译评 第九章翻译教学研究
第十章信息技术手段 与翻译
附表国内语料库建设 一览表
附录一本书参 1
考文献
附录二重要的 2
中外翻译理论 参考书目
3 附录三术语汉
英、英汉对照
4
再版后记
5
注释
第一节翻译的定义 第二节翻译本质的双重属性 第三节翻译的策略、方法与单位 第四节翻译的价值 第五节翻译学的缘起与体系 第六节翻译学的研究范围 第七节翻译与翻译学的区别 第八节翻译学与相关学科
第一节有关翻译学的讨论 第二节当前理论研究的范围 第三节翻译学的学科建设
第一节翻译批评的本质与价值 第二节翻译批评的主体 第三节翻译批评的原则 第四节翻译批评的标准
第一节翻译教学与教学翻译 第二节翻译教学的层次 第三节翻译教育的体系 第四节翻译专业人才培养模式 第五节翻译教学的主要方面 第六节翻译教师的培训与发展
第一节机器翻译概述 第二节语料库与翻译研究

语料库简介及国内的语料库建设

语料库简介及国内的语料库建设

语料库简介及国内的语料库建设摘要:语料库作为一种随着计算机技术发展而广泛应用的新兴的语言研究工具,在语言的定量分析上有极大的作用。

本文正是基于语料库的这种重要性,对国内外的语料库建设发展进行了简介,并且分析了国内语料库建设的不足。

关键词:语料库;国内语料库;语料库语言学1、语料库发展综述语料库通常指为一个或多个语言研究目标而专门收集的、有一定结构的、具有一定规模的、用电子形式保存的、可以被计算机程序检索的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。

人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。

语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。

下面对语料库发展的四个时期进行分别介绍。

1.1手工语料库时期18世纪开始到20世纪50年代,语料的研究都是手工进行的,由人工收集,将需要的词或句子写在纸条上,然后整理成卡片进行检索。

涉及到了圣经与文学研究、词典编纂、语言教育研究、语法研究和方言研究、儿童语言习得和语言比较的研究中。

他们使用大规模语言资料来进行语言研究的工作,是具有开创性的。

但这些语料库都是手工建立的,研究者们假定自然语言的句子是有限的。

这些有限的句子可以收藏和列举,语料库可以作为语言研究的唯一可靠的数据来源,这样的看法难免由片面的地方。

他们使用的语言材料都不是机器可读的,所以还不能算成是真正意义上的语料库。

代表人物是伦敦大学的奎克,他提出了英语用法调查语料库,代表了使用手工方法建立的语料库的最高水平。

1.2 第一代电子语料库时期20世纪五十年代到80年代,出现了机器可读的语料库。

语料库来到了电子或电脑化的时代。

在这个时期建立了布朗语料库、LOB语料库、LLC语料库等影响十分大的语料库。

语料均为书面语,缺乏口语和手稿。

这些语料库的规模都比较小,布朗语料库和LOB语料库都只有100万词左右。

这些小规模的语料库只能用来考察常用语言现象的频率,无法展示语言的全貌。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

国内语料库建设一览表
类型语料库名称及大小建设单位
英语学习者语料库(书面语及
口语)
中国学习者语料库CLEC(100万)广外、上海交大大学英语学习者口语语料库COLSEC (5万) 上海交大香港科技大学学习者语料库HKUST Learner Corpus 香港科技大学中国英语专业语料库CEME (148万) 南京大学中国英语学习者口语语料库SECCL (100万) 南京大学
国际外语学习者英语口语语料库中国部分LINSEI-China (10万) 华南师大硕士写作语料库MWC (12万) 华中科技大学
平行语料库
汉英平行语料库PCCE 北外
南大-国关平行语料库南京大学
英汉文学作品语料库;
外研社冯友兰《中国哲学史》汉英对照语料库
李约瑟(Joself Needham)《中国科学技术史》英汉对照语料库
计算机专业的双语语料库;国家语言文字工作委员会语言文字应用研
究所柏拉图(Plato)哲学名著《理想国》的双语语料库
英汉双语语料库(15万对) 中科院软件所
英汉双语语料库:LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语
料31万句子对
中国科学院自动化研究所英汉双语语料库(100万),网上英汉语段电子词典及网上电子英汉搭配词典(1000万) 东北大学
英汉双语语料库(40-50万句子对) 哈尔滨工业大学
双语语料库(5万多对) 北京大学计算语言学研究所对比语料库LIVAC(Linguistic variety in Chinese communities) 香港城市理工大学平衡语料库(Sinica Corpus);树图语料库(Sinica Treebank) 台湾
特殊英语语料

中国英语(China English)语料库河南师范大学军事英语语料库(Corpus of Military Texts) 解放军外语学院新视野大学英语教材语料库上海交通大学
汉语语料库汉语现代文学作品语料库(1979年,527万字) 武汉大学现代汉语语料库(1983年,2000万字) 北京航空航天大学
中学语文教材语料库(1983年,106万8000字) 北京师范大学
现代汉语词频统计语料库(1983年,182万字) 北京语言学院国家级大型汉语均衡语料库(2000万字) 国家语言文字工作委员会《人民日报》语料库(2700万字) 北京大学计算机语言学研究所大型中文语料库(5亿字,10分库) 北京语言文化大学
现代汉语语料库(1亿字) 清华大学
汉语新闻语料库;(1988年,250万字)
山西大学标准语料库(2000年,70万字)
生语料库(3000万字);《作家文摘》的标注语料库(100万字) 上海师范大学现代自然口语语料库中国社会科学院语言所旅游咨询口语对话语料库和旅馆预定口语对话语料库中国科学院自动化所。

相关文档
最新文档