国内语料库建设一览表 宁静以致远~~ csdnblog

合集下载

大学英语四、六级考试语料库建设分析3页

大学英语四、六级考试语料库建设分析3页

大学英语四、六级考试语料库建设剖析大学英语四、六级考试是我国高等教育最重要大规模,标准化外语考试,对促进我国大学生整体外语水平提高发挥了重要作用。

同时,这项考试对于国家、社会各类用人单位公正,科学评估大学生外语水平,合理选拔录用人才,也发挥了积极作用。

因此,我们语料库语言学研究也应理论联系实际,注重研究考试语料库开发建设问题,特别应着手建立像大学英语四、六级考试这类关系重大大规模外语考试试题语料库。

正是出于这一理念,我们以过去十一年这两项考试真题及模拟试题为原始语料,采用手工标注试卷主要语法特征模式,花费了近两年时间建立了《大学英语四、六级考试语料库》。

我们相信,作为一种新网络信息资源,一个新媒体工具,这一试卷语料库将会为大学外语教学提供有价值新信息。

因为这个语料库对于大学英语辞书、语法、词汇、阅读教材、参考资料编写,老师、同学把握四、六级考试重点,都提供了真实、量化、可靠依据。

广大英语教师与同学可以方便地把它联接在大学网站、教育网站上,拷入学校计算机室、网络教室计算机内,或装入自己计算机中检索、研究、使用。

现将这个语料库设计理念、建设过程及其对大学英语教学、四、六级考试复习、备考意义简要介绍如下。

1 建立大学英语四、六级考试语料库重点剖析与解决问题在建设这一语料库时,我们特别留意观察国内外专门用途语料库建设现状,研究了当前国际语言学界较为流行几款语料库软件不同特点,如Wordcruncher, Concordance,Lexa,TACT及Wordsmith等软件。

在对这些软件优点及缺陷进行系统剖析基础上,根据对四、六级试卷语法特征进行检索专门要求,我们设计出了这一项目专用语料库检索软件,“四、六级考试语法特征检索软件”,并反复实验,多次上机运行,检测软件各项指标,不断改进,直到软件运行平稳,达到了较为理想效果。

这样就为科学、便利地检索出四、六级考试各项语法考查重点提供了可靠技术保障。

同时我们也剖析了考查要点内容定位与标注模式符号统一问题。

国内语料库建设一览表 宁静以致远~~ csdnblog

国内语料库建设一览表 宁静以致远~~ csdnblog

国内语料库建设一览表- 宁静以致远~~ - CSDNBlog 国内语料库建设一览表类型语料库名称及大小建设单位英语学习者语料库(书面语及口语)中国学习者语料库CLEC(100万)广外、上海交大大学英语学习者口语语料库COLSEC (5万)上海交大香港科技大学学习者语料库HKUST Learner Corpus香港科技大学中国英语专业语料库CEME(148万)南京大学中国英语学习者口语语料库SECCL (100万)南京大学国际外语学习者英语口语语料库中国部分LINSEI-China (10万)华南师大硕士写作语料库MWC(12万)华中科技大学平行语料库汉英平行语料库PCCE北外南大-国关平行语料库南京大学英汉文学作品语料库;外研社冯友兰《中国哲学史》汉英对照语料库李约瑟(JoselfNeedham)《中国科学技术史》英汉对照语料库计算机专业的双语语料库;国家语言文字工作委员会语言文字应用研究所柏拉图(Plato)哲学名著《理想国》的双语语料库英汉双语语料库(15万对)中科院软件所英汉双语语料库:LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语料31万句子对中国科学院自动化研究所英汉双语语料库(100万),网上英汉语段电子词典及网上电子英汉搭配词典(1000万)东北大学英汉双语语料库(40-50万句子对)哈尔滨工业大学双语语料库(5万多对)北京大学计算语言学研究所对比语料库LIVAC(Linguistic variety in Chinese communities)香港城市理工大学平衡语料库(Sinica Corpus);树图语料库(Sinica Treebank) 台湾特殊英语语料库中国英语(China English)语料库河南师范大学军事英语语料库(Corpusof Military Texts)解放军外语学院新视野大学英语教材语料库上海交通大学汉语语料库汉语现代文学作品语料库(1979年,527万字) 武汉大学现代汉语语料库(1983年,2000万字)北京航空航天大学中学语文教材语料库(1983年,106万8000字) 北京师范大学现代汉语词频统计语料库(1983年,182万字) 北京语言学院国家级大型汉语均衡语料库(2000万字) 国家语言文字工作委员会《人民日报》语料库(2700万字)北京大学计算机语言学研究所大型中文语料库(5亿字,10分库)北京语言文化大学现代汉语语料库(1亿字)清华大学汉语新闻语料库;(1988年,250万字) 山西大学标准语料库(2000年,70万字)生语料库(3000万字);《作家文摘》的标注语料库(100万字) 上海师范大学现代自然口语语料库中国社会科学院语言所旅游咨询口语对话语料库和旅馆预定口语对话语料库中国科学院自动化所。

汉语语料库的建设及其在汉语教学中的应用(精华)

汉语语料库的建设及其在汉语教学中的应用(精华)

汉语语料库的建设及其在汉语教学中的应用(精华)汉语语料库的建设及其在汉语教学中的应用*俞士汶北京大学信息科学技术学院北京大学计算语言学研究所1. 引言语言学家历来重视第一手语言资料的获取和运用。

在个人计算机普及以前,语言学家只能靠手工用卡片收集少量的典型的资料。

所以,中国前辈语言学家曾感叹他们是在用小本钱做大买卖。

计算语言学把传统的语言学研究同自然语言信息处理技术结合起来,为语言学的发展、为语言教学研究注入了新的活力。

计算语言学(Computational Linguistics)这个专业术语自 1960 年代在文献中出现以来[1],这门学科已经有了40 多年的发展历史。

1990 年代,语料库语言学异军突起,这是计算语言学发展历史上的一个重要的里程碑。

由于计算机以及应用技术(电子排版、因特网等等)的发展,大规模的电子文本唾手可得,自然语言处理技术专家有了从大规模真实文本中获取语言知识(词频、词义、词语搭配、句子结构规则等等)的物质基础,基于大规模语料库的统计语言模型(如:n 元语法、隐马尔可夫模型、向量空间模型等)在诸如词性标注、文本分类等语言工程中的成功应用[2]更加有力地推动了语料库语言学的发展,至今仍是方兴未艾。

语料库语言学发展的基础设施是由大规模真实文本资料构成的语料库。

可以引用以下事实作为语料库价值的佐证。

2002 年 3 月,中国教育部和国家语委发布《第一批异形词整理表》时,李行健先生解释了整理异形词所遵循的三个原则:通用性、理据性、系统性。

并进一步说明:“通用性怎么确定呢,就是用计算机做词频统计。

”这项词频统计工作是应用计算机技术、选用1995 年至2000 年6 年共计1.5 亿字的《人民日报》语料作为对象进行的。

如果没有理解错,笔者以为李行健先生所做的“词频统计”是仅仅针对预先收集到的几百组(最多不过1500 组)异形词进行的。

即使针对性如此明确,在中文文本中统计这些异形词的时候,仍会遇到困难。

语料库的建设和应用

语料库的建设和应用

❖ Corpus linguistics is the kind of research, carried out in university departments of linguistics, computer science, and related subjects (and nowadays often in industrial research labs too), which makes crucial use of language corpora. (G. Sampson & D. McCarthy)
在英国和欧洲却得到迅猛的发展,ICAME(International Computer Archive of Modern English)在挪威的建立。
美国人开始觉醒, 1999在Michigan召开了”北美语料库语言学讨论会。Simpson和 Swales在论文集呼吁要像人造卫星和汽车工业那样迎头赶上。ANC正在积极进行, LDC(Linguistic Data Consortium)收集了许多语料。LDC的口号是No data like more data。
精选ppt课件
9
3. 语料库的设计和制作
❖ 又如我们最近想建一个《语言学及应用语言学语料库》,其 目的是(1)供研究生论文写作查阅语言搭配;(2)建立次 专业性(sub-technical terms)词汇表。我们定了14个领域, 包括理论、心理、社会、应用、语用、神经、认知、语音、 语法、语义(词汇)、语料、语体(语篇)、生物语言学和 自然语言处理,随机抽样500篇,每篇2000字上下。这也是 一个方案。
did_DOD find_VB that_CS many_AP of_IN Georgia's_NP$ registration_NN and_CC election_NN laws_NNS are_BER outmoded_JJ or_CC inadequate_JJ and_CC often_RB ambiguous_JJ ._.

古今汉语平行语料库的语料构建-2019年精选文档

古今汉语平行语料库的语料构建-2019年精选文档

古今汉语平行语料库的语料构建一缘起“汉语是世界上正在使用的语言中最古老的语种之一。

汉语古籍无论是数量还是涉及的范围及其历史跨度,在世界上都是无与伦比的。

”①灿烂悠久的中国思想文化,通过这些典籍得以保存、传承,在历经千载的延续过程中,又得后人的认识和研究,融入新的内涵,由此构筑了中国的古代文明。

今天,这些承载着中华民族灿烂文明的典籍仍在被广泛地使用着,尤其在人文学科领域的应用价值更是显而易见。

同时,随着大众文化水平的提高、经济的发展与对外往来的增加,越来越多的非专业人士希望深入了解中国传统的思想文化,但古代汉语与现代汉语之间存在着的明显差异使得很多现代人难以理解以古汉语为载体的传统典籍。

有鉴于此,我们提出要建设一个大型、开放的古今汉语平行语料库及其应用平台,为古籍整理和翻译(含机器翻译或机器辅助翻译)、古代汉语教学与研究以及辞书编纂提供基础资源,为需要了解中国传统思想文化的普通读者及相关学科的专家提供阅读、翻译、检索、统计服务,并为与现有的汉英双语语料库的对接奠定基础,从而为实现古汉语和英语的翻译(含机器翻译或机器辅助翻译)创造条件。

平行语料原指使用不同语言撰写、相互间具有“翻译关系”的文本,本文将其延展为基于同一语言且不同历史时期兼具有“翻译关系”的文本,就汉语而言,即指“古今汉语”。

平行语料库已被系统地应用到自然语言处理中,包括建立翻译记忆、编纂词典和双语术语表、跨语言信息检索、计算机辅助教学、语言对比研究等。

国外涉及汉语的平行语料库中影响较大的是与Freiburg-LOB Corpus of British English (即FLOB 平行对应的汉语语料库LCM②(The Lan caster Corpus of Ma ndarin Chinese )。

国内的主要研究有北京大学计算语言学研究所的汉英双语语料库以及北京外国语大学拥有的目前国内最大的双语平行语料库(含汉英和汉日两个库)等[1] 。

国家语言资源监测语料库介绍

国家语言资源监测语料库介绍

国家语言资源监测语料库介绍何婷婷杨尔弘侯敏华中师范大学计算机科学系国家语言资源监测与研究中心网络媒体语言分中心北京语言文化大学国家语言资源监测与研究中心平面媒体语言分中心中国传媒大学国家语言资源监测与研究中心有声媒体语言分中心2005年,教育部语言文字信息管理司开始和国内若干高校陆续联合建设语言资源监测中心,其中包括与北京语言文化大学共建的平面媒体语言分中心、与中国传媒大学共建的有声媒体语言分中心、与华中师范大学共建的平面媒体语言分中心。

这三个分中心分别建设了平面媒体动态流通语料库、有声媒体监测语料库、网络媒体监测语料库,它们共同构成国家语言资源监测语料库。

语料库包括网页、纯文本,并采用中科院自动化所的自动分词工具做了自动分词。

欢迎各界同仁共同开发、建设使用该语料库。

1、语料库现状1.1 平面媒体动态流通语料库(DCC)平面媒体语言分中心自2001年以来,每年根据“发行量、发行地域、发行周期、媒体价值、阅读率”等因素,选择15种网络版报纸的内容,作为平面媒体动态流通语料库的语料采集内容,目前,已经形成了近30亿字的语料库。

语料进行了元数据的标注、自动分词标注,语料库提供了生语料、分词标注语料的检索功能,并能够历时地查询词语使用的情况。

网址/。

根据网页栏目的分类体系,所有语料进行了分类。

类别包括15类:娱乐,游戏,文艺,体育,时政新闻_社会,时政新闻_军事,时政新闻_国内,时政新闻_国际,生活男女,汽车,旅游,科技,经济,教育,房产。

为实现语料库中的文本分类,建立了60万个文本的训练语料,语料规模约6亿字次。

1.2有声媒体监测语料库有声媒体语言分中心自2001年开始语料库的建设。

到目前为止,已建起一个多功能的、跨媒体的汉语传媒有声语言语料库。

每年以收视率为基本条件,综合考虑了“传播媒介(广播、电视)、媒体级别(中央、地方)、播出时间(黄金时间、非黄金时间)、节目样态(独白、对话、综合)、文本现存(是否有转写好的文本)”五个因素,采集了电台、电视台播出的有声节目的录音或录像及由其转写成的文本语料。

【推荐】语料库语言学各种常用软件下载

【推荐】语料库语言学各种常用软件下载

【推荐】语料库语言学各种常用软件下载资料来源:博主按:以下文字和软件等版权属原作者,使用请注意版权。

部分网址可能失效,但是可以按图索骥。

博主对原文和原软件作者深表谢意!作者:张义出自:张义的语言学博客浏览/评论:3,577/5日期:2005年10月20日18:011.concapp04(concapp03的修订版,可支持超大字符集)软件下载地址;(concapp03版)2.Wconcord--语料库分析软件软件介绍:A slow but very stable concordancer that can create concordances,collocation tables,and frequency lists.Unfortunately,the output is limited to 16,000 lines.下载地址3.WordSmith Tools 4--语料库分析软件介绍Michael Scott's brilliant software.下载地址中科院计算所汉语词法分析系统ICTCLAS软件介绍:词是最小的能够独立活动的有意义的语言成分。

但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。

为此,我们中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。

分词正确率高达97%以上,未登录词识别召回率均高于90%,其中中国人名的识别召回率接近98%处理速度为31.5Kbytes/s。

ICTCLAS的特色还在于:可以根据需要输出多个高概率结果,有多种输出格式,支持北大词性标注集,973专家组给出的词性标注集合。

现代汉语语料库建设及深加工项目总结报告

现代汉语语料库建设及深加工项目总结报告

a6写作时间;a7书刊名称;a8编著者; a9出版社; a10所在省;
a11出版日期;a12期号; a13版次(初版印数); a14本版印数;
a15总印数; a16总页数; a17开本;
a18选择方式;
a19起止页数;a20样本字数;a21样本总字数;a22文章总字数;
a23简繁体; a24抽样文章。
科研成果在多个方面体现了创新性和 先进性
该语料库样本的平衡性,体现在历时的时间平 衡和共时的分布平衡等方面;
该语料库是目前最大规模的现代汉语标注语料 库,时间跨度最大、类别分布最广;
语料库加工、检索、统计、管理形成了一整套 完整的软件系统,等等。
国家语委现代汉语语料库加工遵循国内外信息 处理领域通用的语料库加工路线,重视为语言 学研究服务,采用机助人校的加工方式,通过 开发语料库切分标注、校对、质量检查等软件 工具来提高校对精度和控制加工质量。
在加工过程中制定了《信息处理用词类标记集 规范》等语料库建设规范。为兼容不同词语颗 粒度,专门建立了层次化结构化的分词词表, 分词词表的词条数量超过88000条。
结构化词表示例:
标注语料库主要词类分布频率表:
6000000 5000000 4000000 3000000 2000000 1000000
语料库应用设想
1) 网络有偿或无偿使用,提供语言学、计算语言学、 对外汉语教学等研究者和外国留学生作各种常规查询, 包括字、词搭配、例句抽取、句型、句法结构、某种历 时的研究。
2) 提供计算语言学研究的各种统计数据,例如字频、 词频、句型句法结构统计、人名地名用字统计。
根据各种中文信息处理的方法和流派的不同,研究 相适应的评测标准,提供标准测试集。充分发挥语用所 在资源(国家级)、标准、规范上的权威性和协调作用, 体现公允性、引导性和先进性。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

国内语料库建设一览表- 宁静以致远~~ - CSDNBlog 国内语料库建设一览表
类型
语料库名称及大小
建设单位
英语学习者语料库(书面语及口语)
中国学习者语料库CLEC(100万)
广外、上海交大
大学英语学习者口语语料库
COLSEC (5万)
上海交大
香港科技大学学习者语料库
HKUST Learner Corpus
香港科技大学
中国英语专业语料库CEME
(148万)
南京大学
中国英语学习者口语语料库
SECCL (100万)
南京大学
国际外语学习者英语口语语料库中国部分LINSEI-China (10万)
华南师大
硕士写作语料库MWC
(12万)
华中科技大学
平行语料库
汉英平行语料库PCCE
北外
南大-国关平行语料库
南京大学
英汉文学作品语料库;
外研社
冯友兰《中国哲学史》汉英对照语料库
李约瑟(Joself
Needham)《中国科学技术史》英汉对照语料库计算机专业的双语语料库;
国家语言文字工作委员会语言文字应用研究所
柏拉图(Plato)哲学名著《理想国》的双语语料库
英汉双语语料库(15万对)
中科院软件所
英汉双语语料库:LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语料31万句子对
中国科学院自动化研究所
英汉双语语料库(100万),网上英汉语段电子词典及网上电子英汉搭配词典(1000万)
东北大学
英汉双语语料库(40-50万句子对)
哈尔滨工业大学
双语语料库(5万多对)
北京大学计算语言学研究所
对比语料库
LIVAC(Linguistic variety in Chinese communities)
香港城市理工大学
平衡语料库(Sinica Corpus);树图语料库(Sinica Treebank) 台湾
特殊英语语料库
中国英语(China English)语料库
河南师范大学
军事英语语料库(Corpus
of Military Texts)
解放军外语学院
新视野大学英语教材语料库
上海交通大学
汉语语料库
汉语现代文学作品语料库(1979年,527万字) 武汉大学
现代汉语语料库(1983年,2000万字)
北京航空航天大学
中学语文教材语料库(1983年,106万8000字) 北京师范大学
现代汉语词频统计语料库(1983年,182万字) 北京语言学院
国家级大型汉语均衡语料库(2000万字) 国家语言文字工作委员会
《人民日报》语料库(2700万字)
北京大学计算机语言学研究所
大型中文语料库(5亿字,10分库)
北京语言文化大学
现代汉语语料库(1亿字)
清华大学
汉语新闻语料库;(1988年,250万字) 山西大学
标准语料库(2000年,70万字)
生语料库(3000万字);《作家文摘》的标注语料库(100万字) 上海师范大学
现代自然口语语料库
中国社会科学院语言所
旅游咨询口语对话语料库和旅馆预定口语对话语料库
中国科学院自动化所。

相关文档
最新文档