大数据背景下BCC语料库的研制_荀恩东

合集下载

“HSK动态作文语料库”说明

“HSK动态作文语料库”说明

“HSK动态作文语料库”说明1“HSK动态作文语料库”是由北京语言大学崔希亮教授主持的一个国家汉办科研项目。

项目编号为:HBK01-05/023。

2“HSK 动态作文语料库”是母语非汉语的外国人参加高等汉语水平考试(HSK 高等)作文考试的答卷语料库,收集了1992-2005 年的部分外国考生的作文答卷。

语料库1.0 版收入语料10740 篇,约400 万字,于2006 年12 月下旬上网试运行。

经修改补充,语料库1.1 版语料总数达到11569 篇,共计424 万字。

3语料库提供给用户的作文语料有两种版本:标注语料和原始语料。

标注语料是把考生作文答卷人工录入电脑并经人工标注各种中介语偏误的语料,原始语料指的是考生原始作文的电子扫描语料。

4作文语料的加工处理包括下列内容:(1)字处理:包括错字标注、别字标注、繁体字标注、异体字标注、拼音字标注、漏字标注、多字标注,以及各种用字错误统计,总的字频统计等。

(2)标点符号处理:包括错误标点标注、空缺标点标注、多余标点标注,以及各种相关统计。

(3)词处理:包括错词标注、缺词标注、多词标注、外文词标注、离合词错误标注,以及各种用词错误统计,总的词频统计等。

(4)句处理:包括句子成分残缺或多余的错误标注,各种特殊句式的错误标注,语序、动词重叠、句式杂糅、未完句等方面的错误标注,以及各种句子错误的数据统计。

(5)篇章处理:包括句间连接手段的错误标注,语义表达方面的错误标注,以及篇章错误的数据统计。

为了方便用户更充分地使用这些作文语料,语料库还提供了历次考试的时间、地点和作文题目,以及下列考生信息:考生国籍、性别、作文分数、口试分数、客观试卷中听力、阅读、综合表达各部分分数和参加高等汉语水平考试的总分分数、是否得到汉语水平证书以及证书等级。

5本语料库在建设过程中,特别注重语料的真实性与平衡性,标注的全面性与科学性,软件系统的方便性与快捷性。

6本语料库是母语非汉语的汉语学习者学习汉语的中介语语料库。

2016国家社科基金项目立项名单

2016国家社科基金项目立项名单

牛香兰 王辉 李艳 陈林俊 郝兴跃 尼玛普赤 王绍峰 孙汝建 刘立壹 夏历 潘艳艳 张颖炜 葛云锋 杨石乔 孙晓明 李慧敏 邹立志 陈宏俊 刘涛 赵硕 刘熠 韩宝成 陈建林 蔡基刚
青海民族大学 宁夏大学 首都师范大学 常州大学 昆明理工大学 西藏大学 湖州师范学院 华侨大学 山东建筑大学 沈阳师范大学 解放军国际关系学 院 南通大学 山东师范大学 深圳职业技术学院 中央民族大学 安徽大学 首都师范大学 大连理工大学 江苏师范大学 西北工业大学 东北大学 北京外国语大学 兰州大学 复旦大学
2246 韩国留学生汉语篇衔接手段习得研究 2247 基于可比语料库的核心区华语虚词比较研究 2248 基于虚拟现实的汉语国际教育发展新模式研究 2249 框架语义理论视角下的对外汉语句式系统研究 2250 留学生全程性中介字字库建设及汉字习得研究 2251 面向对外汉语教学的现代汉语常用形容词搭配研究 2252 多维参照的国别化汉语中介语动态语料库库群构建与 研究
田艳 任淑坤 杨春雷 刘云虹 黎昌抱 胡开宝 管兴忠 汪化云 杜兆金 周政 王振华 倪传斌 张文忠 莫再树 刘春燕 王强 武振玉 朱怀 傅惠钧 王立非 隋娜 钱建成 张克定 张立飞
上海交通大学 河北大学 上海外国语大学 南京大学 浙江财经大学 上海交通大学 北京语言大学 浙江财经大学 曲阜师范大学 安康学院 上海交通大学 南京师范大学 南开大学 湖南大学 江西师范大学 扬州大学 吉林大学 重庆师范大学 浙江师范大学 对外经济贸易大学 曲阜师范大学 郑州大学 河南大学 解放军外国语学院
2240 中外籍英语教师合作教学模式研究 2241 大学生外圈英语听辨能力研究 2242 基于复杂动态系统的学术英语语块能力发展建模研究 2243 基于语料库的中国学术英语口语研究 2244 2245 汉语作为第二语言学习者汉语语法习得的言语加工策 略研究 基于词汇类型学的CSL学习者空间量度范畴形容词的 习得研究

对外汉语教师备课找例句:一站即可

对外汉语教师备课找例句:一站即可

对外汉语教师备课找例句:一站即可语料库是对外汉语教师必不可少的好帮手,可以帮老师筛选例句、进行词汇对比、查看学生偏误。

今天的教程就是教对外汉语的老师们如何用目前全球最大的汉语语料库BCC来备课。

教程包含两个部分,其一是介绍BCC,其二是介绍BCC用法。

什么是BCC一BCC(BLCU Chinese Corpus)北京语言大学现代汉语语料库,总字数约150 亿字,是目前最大的汉语语料库,没有之一,语料多得让人兴奋。

简单说说它的特点吧,用四字概括,大、多、久、强。

怎么有点老司机上路的感觉。

哈哈。

1. 大字数规模大,150亿字的容量可以全面反映当今社会语言生活。

2. 多涵盖语体多,不同于以书面语体为主的CCL,BCC涵盖报刊(20 亿)、文学(30 亿)、微博(30 亿)、科技(30 亿)、综合(10 亿)和古汉语(20 亿)等多领域语料。

3. 久时间覆盖久,报刊中部分语料可以追溯至1945年。

4. 强搜索模式强,我在玩这些功能时,感觉自己摇身变成码农。

是不是已经被提起兴致来啦?想知道怎么用?跟着老司机走。

备课时怎么用BCC一网站入口:BCC在汉语教师备课时候,我觉得主要有5大功能,其他功能还有待大家开发,文章末尾有BCC提供的检索式示例。

1词语辨析在备课时,特别是中高级汉语课程,由于学生词汇量较多,他们常常会拿以前学过的词和新词做对比。

老师可以用“[ ]”这个符号进行语料搜集,“[ ]”的功能可以理解为“或者”。

比如想辨析“不料”和“竟然”,那么在搜索栏里添加[不料竟然]即可,注意“[ ]”是英文符号。

下图就是结果,有“不料”的语料,也有“竟然”的语料,老师即可通过语料去分析词语的差别。

点击大图查看2词语例句在备课时,词语是重要部分,要找适合学生水平的例句一点都不容易,但是有了BCC,so easy!比如想找“舍不得”+动词的例句,可以在搜索栏输入“舍不得v”,结果如下图:点击大图查看还有更牛的,点击界面中的“统计”按钮,就可以穷尽式地查找“舍不得”到底可以和哪些动词一起连用,数字表示出现频次。

bcc语料库学术语言

bcc语料库学术语言

bcc语料库学术语言
bcc语料库是一个开放的学术语料库,用于研究领域内的语言学问题。

它包含了来自不同学科领域和语言背景的文章、论文、报告等学术文献,提供了大量的语言数据供研究者进行语言分析和研究。

bcc 语料库的数据来源广泛,包括了学术期刊、会议论文、学位论文等,覆盖了多个学科领域,如自然科学、社会科学、人文学科等。

其中,各类文章的单篇词数以万计,是一个非常宝贵的研究资源。

在研究语言问题时,bcc语料库可以帮助研究者进行定量分析和实证研究。

其丰富的语言数据不仅可以用于分析词汇、句法结构、语用等方面的语言问题,还可以用于研究各种语言现象,如语域、语言变体等问题。

更重要的是,bcc语料库的数据可以从多个角度研究同一问题,帮助研究者更全面地理解语言现象和规律,丰富我们对语言的认识。

然而,bcc语料库并不仅仅是一个语言数据的仓库,还是研究者共同探讨学术问题的平台。

在bcc语料库的网站上,人们可以通过在线交流和讨论,分享自己对语言问题的研究成果、见解和经验,从而促进彼此之间的学术交流和合作。

这为学术研究者提供了一个非常重要的交流平台,可以极大地促进学术研究的发展和进步。

综上所述,bcc语料库是一个非常宝贵的学术资源,对于研究不同领域的语言问题有着非常重要的作用。

通过分析bcc语料库的语言数据,研究者可以更全面地认识语言问题,并通过交流平台获得更多的学术研究成果和经验分享。

《殷虚文字丙编》图版捌捌词法研究

《殷虚文字丙编》图版捌捌词法研究

《殷虚文字丙编》图版捌捌词法研究陈莹(福建广播电视大学宁德分校,福建宁德352000)摘要:《殷虚文字丙编》图版捌捌卜辞是一条综合性卜辞,由八片碎甲缀合而成&本文通过对其进行词法分析研究,了解其语言使用情况&此图版共有七种词类,即名词、动词、形容词、数词、代词、副词、介词&其中名词使用频率最高,动词次之,副词第三&此图版名词的语法功能最全,作主语、宾语、定语、中心语、状语及受数词或数量词组修饰&关键词:殷虚文字丙编图版捌捌词法《殷虚文字丙编》是由乙编及其编余的甲骨拼兑、复原,重新传拓、编辑,加以考释而成的。

《殷虚文字丙编》图版捌捌在《甲骨文合集》中的编号为00376正*此版卜辞是一条综合性卜辞,内容主要涉及梦魇吉凶、疾病、祭祀、收成、生育等方面,由八片碎甲缀合而成。

笔者查阅黄天树《甲骨拼合集》《甲骨拼合续集》等相关书籍,暂无发现新的缀合情况*一、释文及译文乙丑卜,贞:甲子向乙丑,王梦,不隹I?隹又?一贞:甲(子)向乙丑,王梦牧石麋??。

一二贞:[王电]梦./余?一二贞:王梦余?一贞:其疾-一二三四五王隹,?一,?一贞:今般取于尻,王用,若?一贞:我受黍年?一其受黍年?一二贞:左三羌于宜,不左,若?一贞:王左三羌于宜,不左,若?二翌乙齟?一乙其?一乙層?一二告庚子卜,,,?-贞:,不其?-贞:于乙雷?一勿于来乙巳?一乙卜,贞:疾,其龙?一乙卜,贞:[疾/身其/?一[二][三]四五王曰:凤其,* -?-庚申卜,贞:于,:吉!!-贞:于,? -贞入人?-二乙丑卜,贞人:从甲子到乙丑这段时间,王梦的,?的助吗?问:从甲子到乙丑这段时间,王梦见自己追捕石地区的,?的?在。

问:王做梦喊“我要医治骨伤”?问:王做梦不喊“我要(医治)骨”?:王骨生病吗?祭,会不顺利吗?王祭,会不顺利吗?问:现在师般到尻地收取者贡,用(般尻收取者)?:我子的好收成?子的收成吗?:左边,,左,会顺:左,,左,第二天乙亥日天?第二天乙亥日天?未来的第一个乙要举行祷祭?子卜,贞人(问:),会生男孩吗?问:,不会生?:在的第一个乙祭?要在未来的第一个乙巳日举行祷祭吗?乙巳日占卜,贞人问:生病了,是 ?乙卜,贞:生病了,是 ?卜兆以说:风神说,在发生。

bcc语料库的使用心得

bcc语料库的使用心得

bcc语料库的使用心得1.引言1.1 概述概述部分的内容:引言部分是任何一篇文章的开端,通过对主题进行概括性介绍,让读者对整篇文章有一个初步了解。

在本文中,我们将讨论关于BCC语料库的使用心得。

BCC语料库是一个广泛应用于自然语言处理和文本挖掘的中文语料库。

它包含了大量的中文文本数据,涵盖了多个领域和主题,如新闻报道、社交媒体、网站论坛等。

这些文本数据的覆盖面广泛,并且涵盖了不同语言特点和文化背景,因此对于研究中文文本分析和语言模型的人来说,BCC 语料库是一个宝贵的资源。

本文的目的是总结我们在使用BCC语料库过程中的心得体会和经验教训。

我们将介绍BCC语料库的组织结构和数据格式,并探讨如何有效地利用这一资源进行文本分析和语言模型的训练。

此外,我们还将分享我们在使用BCC语料库过程中遇到的一些挑战,并提供一些解决方案和技巧。

在接下来的章节中,我们将系统地讨论BCC语料库的各个方面。

首先,我们将介绍BCC语料库的基本信息,包括数据规模、收录时间范围、来源等。

接着,我们将详细介绍BCC语料库的组织结构和数据格式,比如文档级别和句子级别的标注信息、文本分类和命名实体识别等。

其次,我们将探讨如何进行有效的数据预处理和清洗,以及如何进行数据的采样和划分。

最后,我们将分享一些使用BCC语料库进行文本分析和语言模型训练的实践经验,包括特征提取、模型选择和评估等方面的内容。

通过本文的阅读,读者将能够了解BCC语料库的基本情况,掌握其使用方法和技巧,并能够将其应用到自己的实际问题中。

希望本文能够为对中文文本分析和语言模型研究感兴趣的读者提供一些有价值的参考和指导。

文章结构部分的内容如下:1.2 文章结构本文主要包括以下几个部分:1)引言:介绍文章的背景和目的。

在这部分,我们将概述BCC语料库以及为什么使用它作为研究工具,解释本文的结构与目标。

2)正文:详细讨论BCC语料库的使用心得与体会。

在这部分,将介绍如何获取BCC语料库,详细解释其主要特点和用途。

北京语言大学bcc语料库

北京语言大学bcc语料库

北京语言大学bcc语料库
北京语言大学BCC语料库是由北京语言大学所建立的一个大型语料库,为中国学术界和研究者提供高质量、有效的研究资源,秉承中国传统文化,以深化研究和发展中文言语文字文化为目标。

北京语言大学BCC语料库主要收集和处理中国言语文化的多种资料,其中主要包括汉语口语、书面语、视听语、新闻报刊、网络文本、书刊著作等。

其收录的资料也涵盖了中国语言研究、文字文化研究、以及数字语言学等多种领域。

其一级数据库拥有超过100万条汉语句子,能够为中国研究学者提供规模极其完整的历史档案、语料资料和信息检索体系,极大地改善了中国古代档案研究条件,为在教育、科学研究等方面的新的发现打开了有力的新窗口。

BCC语料库的建设也极大地鼓舞了中国高等教育的发展,为中国教师和学生提供了良好的探究空间,也为中国的研究学者提供了更多深入研究中国文化、历史和社会的资源支持。

至今,这一庞大的语料库已经为学术界提供了大量数据支持,也为中国学术界提供了重要的翻译参考资料。

经过多年的发展,BCC语料库已经成为中国学术界的重要研究基础,也是数字语言学研究最优质的资料和信息库。

正是凭借这一完善的高质量数据库,BCC语料库得以不断完善和发展,也为中国研究学者、教师和学生带来了丰富多彩的资源。

基于语料库“为难”和“难为”的偏误分析及教学策略

基于语料库“为难”和“难为”的偏误分析及教学策略

语言文学研究基于语料库"为难#和"难为#的偏误分析及教学策略穆国韬(陕西师范大学国际汉学院,陕西西安710062)摘要:“为难”和“难为”是极易混淆的一组同素异序词,为了使汉语学习者区分清楚两个词的意义和用法,通过检索语料库,总结出汉语学习者使用两个词时易产生的偏误,并对这些偏误进行分析,提出一些教学建议。

关键词:为难难为语料库偏误一、引言“为难”和“难为”无论在汉语口语交际还是书面写作中都是常用的一组词,它们是一组同素异序词,即构成这两个词的两个语素书写顺序不同,且在用法上也有差异,汉语学习者如不能掌握这两个词的意义和用法,则极易对二者产生混淆$为了更好地总结汉语学习者在学习和使用“为难”和“难为”这组同素异序词时的偏误类型,本文对HSK动态作文语料库和暨南大学中介语语料库中包含“为难”和“难为”的句子进行了分析,总结了偏误类型,了一些教学,能偏误的生,汉语学带来一定的启‘$二、“为难”和“难为”的意义和用法“为难”在《新HSK词汇大纲》中属于六级词,在《汉语水平词汇汉大纲》中属于词,在上述两个词汇大纲中,“难为”。

本文为,在对汉语学中,“为难”和“难为”这两个词的教学及辨析一般处于中$在《汉语词典(六版)》中,对“为难”和“难为”的释分为:为难:①形容词,感到难以应付;②动词,作对或刁难[11$,“为难”是一个词动词的类词$难为:动词,①使人为难;②(了不容易的事);③,用于[1]。

可见“难为”是一个动词,有个不同的义$在语言大学BCC语料库中回“为难”,在文学类语料库下搜索出2143条结果,经过抽样,发现“为难”常用于:表1“为难”筛选条件结果总数占比副词”为难62129.0%动词”为难34316.1%为难的”名词27412.0%使/令/让/叫”名词/代词”为难2129.0%可以看出,“为难”在做形容词时,常受程度副词的修饰,通过检索“副词+为难”,得出621条结果$经统计,“很为难”“有点为难”“非常为难”为出现频率最高的三组搭配,占如下:表2副词难'为难”结果占比很为难1很条22.0%有点为难61条9.0%非常为难31条 3.4%“为难”常跟在动词后面形成“动词+为难”的结构,通过检索“动词+为难”,343条结,中的“为难”99,“为难”21条;“为难”语词,如“为难的子”;“为难”做动词时,用在语语中,如“让儿女为难”“叫我们为难”“令为难”,且否词"不”的$在BCC文学类语料库中对“难为”进行检索,共得出1622条结$,本文动词“难为”的两个义项意义相似,用于“词+难为+名词/代词”这一结构中,其中尤以“太/真是/真+难为++了”,如“这件太难为你了”;一个义和动词“为难”的意义相近,用法上否词的,如“不难为你”“难为他了”;但“难为”不可用于“使/令//叫++难为”这一结构。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

95
大数据背景下 BCC 语料库的研制
共时语料和历时语料兼备 BCC 对报刊语料和文学作品标注了时间信息,其中文学作品的时间信息体现 在 BCC 的“自定义”功能应用上,用户可以选定某时间的文学作品进行限定检 索;BCC“历时检索”主要是报刊语料,语料来自 1945 年至 2015 年的《人民日 报》 。历时检索是以图形可视化方式呈现的。 BCC 语料库使用了语料采集、加工和语言分析处理等多种工具,例如对现代 汉语进行分词和词性标注。为了完成语料采集、加工、标注等工作,开发了 BCC 语料库采集和加工平台,主要包括: 网上语料采集工具 BCC 语料库中的语料主要源自互联网的页面文本,利用采集工具自动下载网 页,把网页数据保存到本地。 语料加工整理工具 将网络作为语料库,是将以自然语言形式存在的整个网络电子文本当作一个 庞大的语料库,可以通过征调主流搜索引擎的应用程序调用接口,获取搜索引擎 。BCC 语料加工 的返回结果,再对其进行相应的语料库统计分析(熊文新 2015) 整理的方式主要为:从网页中提取原数据信息,包括名称、出处等;网页数据清 洗,从网页数据中剔除非内容数据,提取有效文本内容;对数据进行自动断句处 理,为后续语言分析做准备;异常重复句子甄别和处理,剔除网页数据清洗阶段 不能甄别的重复句子。 语言自动分析工具 原始语料完成断句后,在语言分析阶段对句子进行分词和词性标注处理。中 文词性标注采用北京大学计算语言研究所提出的词性标注体系(俞士汶等 2000, 2002) ,英文词性体系采用美国宾州大学词性体系。目前,BCC 可以对现代汉语、 英语、法语的语料进行自动分词和词性标注处理。 语料库标注平台 该平台的目标是通过人工标注来构建专门语料库。 2.2 BCC 检索引擎 语料库建设是围绕内容进行的,用户通过检索使用语料库数据,而使用的检 索功能是通过检索引擎实现的,因此检索引擎的性能直接影响语料库系统的使用 体验。使用体验体现在多个方面,包括对数据规模的支持程度、语料类型的支持 程度、响应检索的时空开销、检索式的支持功能、对服务器软硬件的适应性等。 BCC 检索引擎具有以下特点:
96
荀恩东 饶高琦 肖晓悦 臧娇娇
1)支持语言大数据。目前 BCC 检索内核支持建立超大规模语料库检索系统, 单机可以索引的语料库规模最大可以支持 64G(约 320 亿汉字) ,实际规模与机器 内存相关。 2)支持多语种检索。BCC 语料库检索内核技术支持中文、英文、日文等不同 语种的语料库。 BCC 语料库包含原始语料、分词语料、词性标注语料, 3)支持多种语料形式。 同时可以支持短语结构树的语料库检索。 4)支持功能强大的检索。BCC 定义一种用户友好且功能强大的语料库检索语 句,不仅具有模式查询和统计功能,支持带有词性的通配符和离合模式查询,还 可以支持二次查询、自定义语料查询等,同时 BCC 还实现了在线统计以及在线反 馈统计结果的功能。 2.3 语料库服务 BCC 语料库服务包括两种形式:一种是在线检索,即在浏览器内使用 BCC, 输入检索式,以页面形式返回结果;另外一种是云服务,通过编程使用 BCC 的 Web API 接口形式来调用 BCC。云服务一般用于 BCC 的二次开发,或者用于利用 BCC 进行语言的应用开发。 在 BCC 首页中可以选择不同语种的语料库,在输入框的上方,列出该语种的 不同语料频道(如图 2)如果想在某个频道中做更细化的查询,可以选择“自定 义”搜索(如图 3)通过点击语料库的组成窗口选择子语料库或者通过搜索定位子 语料库。当用户选择一个子语料时,页面会给出该子语料库的语料规模,后续检 索也会限定在该子语料库中进行。
二、BCC 语料库研制
一个语料库系统的建设,主要包括三方面工作:语料库资源建设、检索引擎 开发和提供语料库检索服务。如图 1 所示,语料库的资源建设是构建语料库数据 内容的基础。BCC 主要包括三种类型语料:多语种单语语料库、双语对齐语料库 和深加工的树库。语料库检索内核是实现语料库系统的技术基础,采用基于后缀 串的全文检索算法,并且支持通配符和离合模式匹配。检索服务是指使用语料库 系统的方式和方法。BCC 提供两种服务方式:在线检索和云调用。
BCC 形式化检索语言和在线系统的使用方法。
关键词:BCC 语料库、大数据、语言检索、检索式
一、引言
在大数据背景下,语言本体研究、语言教学和语言应用研究都离不开语料库 的支持。在语言本体研究中,利用大规模语料,对语言现象进行穷尽式考察,可 以归纳、完善、验证语言理论或观点,又可以通过实证方法,为语言理论的研究 提供数据支撑和量化分析;在语言教学中,语料库可以提供真实的语言素材,用 于教学内容制定和讲解,使语言教学内容选取和教学实施过程更加科学,并可以 支撑辞书和教材的编纂;同时,语料库作为模型训练知识库,在语言信息处理各 种应用中起着不可或缺的作用。 采用语料库进行实证研究历史悠久,国内外一系列语料库系统推动了语言研究 的进步和发展。中文语料库方面,有“国家语委语料库” 、 “北京大学现代(古代) 汉语语料库” 、 “中国台湾中央研究院语料库” 、 “兰卡斯特汉语语料库”等;在英 语语料库方面,有“英国国家语料库(BNC) ” 、 “美国当代英语语料库(COCA) ” 等。语料库发展到今天,出现了新的特点和需求: 1)语料库规模越来越大,逐渐进入大数据时代。随着信息社会的发展,个人 微机的迅猛发展和存储数据的硬盘造价持续下降,使得能够记录语言生活的终端 设备越来越普及,数据存储能力越来越强,网络传输速度越来越快,每天产生的 语料数量大大超过以往。这些发展都为大规模语料库的采集提供了技术支持。 2)语料库成为语言技术进步的知识库。在语言大数据基础上,语言应用技术 快速发展,人工智能在多个应用领域取得突破性进展。这些新技术进步,正在改
93
大数据背景下 BCC 语料库的研制
变社会语言生活,为语言研究不断提供新课题并提出新的挑战。 3)语料库形式多样。语料的领域越来越细化,语料加工越来越深入,网络社 交语料异军突起。 4)语料库使用越来越便捷。在线语料库查询和统计功能更加人性化,除了面 向个人在线使用外,语料库还利用云服务接口,通过云调用大大拓展了语料库的 应用范围。 “北京语言大学语料库中心(BCC) ” ()是以汉语为主、 兼有其他语种的语言大数据,目标是为语言本体研究提供一个使用简便的在线检 索系统和构建大数据的语言应用基础平台。BCC 支持云服务,通过 API 调用方式 为开展知识抽取、模型构建等研究和应用工作提供便利。 本文首先概述 BCC 研制的总体情况,重点介绍 BCC 检索式,并在附录中给出 了 BCC 检索式实例和中英文词性体系。
99
大数据背景下 BCC 语料库的研制
图 6. 检索式“改革”频次历时结果
2015 年底,历时检索第二代系统上线。历时语料库在分词的基础上增加了词 类标注,在保留原有用户体验的同时开始提供多模态检索功能。在该功能的支持 下,用户可以在对任意词串(不限于词)进行检索之外对词类串和字符词类混合 串进行检索。如图 7 所示。第二代历时语料库在国内外引起强烈反响,为语言学 和许多社会科学领域的相关研究提供了很大的便利(Rao & Xun 2015) 。
图 2. BCC 首页
97
大数据背景下 BCC 语料库的研制
图 3. 通过“自定义”选择语料及查看语料组成和规模
图 4. “帅气的 n”检索结果页
输入检索式,点击“搜索”后得到检索页面,其中包括检索总条数信息、分 页显示的检索实例等,如图 4 是“帅气的 n”的检索结果。在搜索结果页面,BCC 还提供在线统计、二次检索、下载结果、显示结果和查看原文等多个功能:
图 7. 检索式“弘扬 n”与“发扬 n”频次历时对比
三、BCC 检索式
一些语料库采用交互式生成检索式的设计,即以输入查询和界面控件设置相 结合的方式进行查询。这种方式有利有弊:如果设置项少,往往限制检索功能的 发挥;如果功能复杂,设置项过多,便会影响用户的使用体验。 BCC 设计简洁,在界面中没有各种复杂的控件,选定语料后,输入符合语法 的检索式可以直接搜索查询。检索式的设计也需要平衡考虑:一般来讲,检索式 的语法直接影响语料库功能和用户友好性。复杂的检索式设计可以支持强大的检 索功能,但是会对用户学习和使用造成负担。例如,检索系统采用正则表达式的 方式,虽然语句标准、功能强,但是不易理解,需要付出更多的学习代价。
语料库语言学 2016年 第3卷 第1期
大数据背景下 BCC 语料库的 研制
北京语言大学 荀恩东 饶高琦 肖晓悦 臧娇娇
“北京语言大学语料库中心(BLCU Corpus Center,简称 BCC) ”是以汉语为主、 提要: 兼有其他语种的在线语料库。BCC 总规模达数百亿字,是服务语言本体研究和语言应用研 究的在线大数据系统。BCC 检索式由字、词和语法标记等单元组成,并且支持通配符和离 合查询。本文将概述 BCC 的总体情况,包括语料库建设情况和检索引擎开发等,重点介绍
图 1. BCC 语料库系统示意图
94
荀恩东 饶高琦 肖晓悦 臧娇娇
2.1 语料库资源建设 语料库建设是指在确定语料库内容、规模和形式后,对语料进行采集、加工 和标注等,通过对自然语言文本的采集、存储、加工,可以凭借大规模语料库提 供的客观语言事实为语言学研究提供支撑(黄昌宁、李涓子 2002) 。BCC 语料库 具有以下特点: 语料库函盖多个语种 以汉语为主,兼顾其他语种的语料。目前 BCC 包含 9 种语言,如英语、西班 牙语、法语、德语、土耳其语等。其中的英文语料主要采自《华尔街日报》 ,规模 约为 12 亿单词。BCC 语料以单语语料为主,也包括双语平行语料,如英汉、英德 等双语对齐语料库。目前有 9 种语言互译,各类双语语料总规模约千万句。检索 时,汉语最小的单位是汉字,其他语种最小的单位是单词,但单词不支持词形变 化,保持原始语料中的形态,例如:英语 The 和 the 在语料库中是两个单词。 多层次语料加工 包括生语料、分词语料、词性标注语料和句法树。目前已对现代汉语、英语、 法语的语料进行词性标注,除此以外的其他语料都是未加工的生语料;句法树包 括中、英文树库,分别引自美国宾州大学的中文和英语树库。语料加工层次不同, 支持检索的功能也不同,例如:生语料不支持带有词性信息的检索,树库支持短 语类型标记的检索。 现代汉语语料和古代汉语语料兼具 对现代汉语语料进行了分词和词性标注,支持带有词性信息的检索;而古代 汉语没有进行分词和词性处理,只能以字为单位进行检索。 汉语多语体 现代汉语语料涵盖新闻、口语(微博) 、科技、文学、综合等多个语体。其中 新闻、文学和综合语料标注时间、作者等组成信息,可以用 BCC 的“自定义”功 能进行受限检索,即选择某一个子语料,限定在该语料中进行检索。 《厦门商报》 、 《厦门晚报》等; 、 新闻语料:采自《厦门日报》 口语(微博)语料:采自 2013 年新浪微博; 科技语料:采自国内学术期刊; 文学语料:采自国内外文学作品,对每个作品都标注了作品名称、作者、发 表时间等信息。 综合语料:包括报刊、文学、微博、科技四个领域,语料内容独立,与其他 语料不交叉,目标是建立一个“平衡”语料库。
相关文档
最新文档