大型动态流通报刊语料库建设研究

合集下载

基于动态流通语料库的现代汉语词语研究

基于动态流通语料库的现代汉语词语研究

语言知识滞后 无法反映大规模真实文本词语
克隆、宽带、超平、背投、非典、疑似、喷塑、科盲、沙尘暴、 克隆、宽带、超平、背投、非典、疑似、喷塑、科盲、沙尘暴、 数字化、 VCD、WTO、CEO、因特网、 网民、 网虫、上网、下载、 数字化 、 VCD、WTO、CEO、 因特网 、 网民 、 网虫 、 上网 、 下载 、 消毒软件、泡沫经济、环保工程、高新技术、知识创新、 消毒软件、泡沫经济、环保工程、高新技术、知识创新、纳米技 现代远程教育、高致病性禽流感、 扑杀、叮当村、 术、现代远程教育、高致病性禽流感、H5N1、扑杀、叮当村、 群死群伤、公投、勇气号、高官、 群死群伤、公投、勇气号、高官、 蒜农、危改、拆迁、房改房、 市话、 蒜农、危改、 拆迁、 房改房、 3加 1、 3 改 4、退 2进 3 、市话、高 扫黄、打假、打黑、反腐倡廉、盗版、大片、管涌、遗洒、 检、扫黄、打假、打黑、反腐倡廉、盗版、大片、管涌、遗洒、 千禧、两会、禁放、按揭、 千禧、两会、禁放、按揭、套牢 三讲、三个代表、豆腐渣工程、邓小平理论、阿富汗、北方联盟、 三讲、三个代表、豆腐渣工程、邓小平理论、阿富汗、北方联盟、 本拉登、科索沃、法轮功、申奥、 APEC、克林顿、布什、 本拉登 、 科索沃 、 法轮功 、 申奥 、 奥组委 APEC、 克林顿 、 布什 、 反恐、世界杯、 反恐、世界杯、黑哨 菲佣、足按、三陪小姐、美体修形、鸿运当头、唐装、脐装、 菲佣、足按、三陪小姐、美体修形、鸿运当头、唐装、脐装、太 阳裙、透明装、人体彩绘、人体艺术、酷毖、 in、美白、净白、 阳裙、透明装、人体彩绘、人体艺术、酷毖、很in、美白、净白、 柔嫩、双赢、人气、 柔嫩、双赢、人气、另类
报告内容
动态语料库 流通度 词语研究
从频度到流通度
使用度: 13次 使用度: 提纲 13次 3类8篇 13次 哨棒 13次 1类1篇 通用度: 通用度: 频度 通用度 52次 10.4 猿人 52次 10 4 40次 23.7 花园 40次 23 7 35次 33.9 欣赏 35次 33 9 阶频度: T阶频度: A表 频度表 下812;上532 812; 总差:1344个词语 B表 通用度表 总差:1344个词语

汉语国际教育动态语料库

汉语国际教育动态语料库

汉语国际教育动态语料库近年来,随着全球化的发展,汉语国际教育迎来了前所未有的发展机遇。

为了更好地满足全球范围内对汉语学习的需求,汉语国际教育动态语料库应运而生。

本文将探讨汉语国际教育动态语料库的意义、建设和应用。

汉语国际教育动态语料库的建设对于推动汉语国际教育的发展具有重要意义。

通过收集、整理和研究来自世界各地的汉语学习者和教师的语料信息,可以为教师提供更准确、全面的语言素材和教学资源。

这不仅可以提高汉语教学的质量和效果,还可以加强汉语国际教育的全球传播力和影响力。

汉语国际教育动态语料库的建设需要借助现代技术手段。

通过语音识别、文本分析和数据挖掘等技术,可以快速、准确地处理大量的语料数据,并提取有价值的信息。

同时,利用云计算和大数据技术,可以实现语料库的在线共享和全球范围内的远程访问,为全球汉语学习者和教师提供便捷的学习和教学资源。

汉语国际教育动态语料库的应用范围广泛。

首先,它可以用于汉语教学的教材编写和教学设计。

通过分析和归纳语料库中的语言特点和用法,可以为教师提供更科学、符合学习者需求的教学内容和教学方法。

其次,它可以用于语言学研究和教育评估。

通过对语料库中的语言现象和变化进行研究,可以深入探索汉语作为第二语言的习得规律和教学策略。

此外,通过分析和比较不同国家和地区的语料数据,可以评估汉语学习者的语言水平和教学成果,为教学改进和政策制定提供科学依据。

汉语国际教育动态语料库的建设还需要加强国际合作和资源共享。

汉语国际教育是一个全球性的事业,需要各国和地区的共同努力和支持。

国际合作可以促进语料库数据的多样性和丰富性,提高语料库的代表性和可靠性。

同时,通过资源共享和交流,可以促进各国汉语教师的专业成长和教学水平的提高。

汉语国际教育动态语料库的建设对于推动汉语国际教育的发展具有重要意义。

它不仅可以提供丰富的语言素材和教学资源,还可以促进汉语教学和语言学研究的创新和发展。

我们期待汉语国际教育动态语料库的建设能够取得更大的成果,为全球汉语学习者和教师提供更好的学习和教学支持。

中国传媒大学专业介绍:语言学及应用语言学专业

中国传媒大学专业介绍:语言学及应用语言学专业

1.应用语言学方向应用语言学方向是适应我国应用语言学发展需要设立的研究方向,它以“人机交际”和人际交际的语言理论和技能、技术为主要研究对象。

作为跨学科的语言应用学科,它同人文科学、自然科学(数学、物理学、信息科学、计算机科学等)都有密切关系。

本方向有社会语言学和计算语言学两个研究领域。

社会语言学,重在研究语言在社会生活中的应用。

它结合中国社会的文化背景,对语言应用进行多角度、全方位的研究,总结社会生活不同领域(如传媒、旅游、交通、商贸、公关、司法、教育等)语言应用的特殊规律,对语言实践提供理论指导,并为我国语言文字规范化工作服务。

计算语言学是利用计算机对人类自然语言处理和加工的科学,它是适应信息时代的要求而产生和发展起来的一门边缘交叉性学科。

语言可计算理论、语料库语言学、自然语言理解、语言计量研究、机器翻译、语音识别与合成等都是本方向研究的重要课题,这些课题的研究对人工智能计算机的研制,起着举足轻重的作用。

本方向将发挥中国传媒大学文、理、工多科院校、以及与教育部语言文字应用研究所合作的优势,为我国应用语言学的发展培养高层次专门人才。

2.对外汉语教学方向对外汉语教学是我校为配合国家“软实力”发展战略需要并在充分考虑到我校语言学科建设现状及媒体传播学科发展优势的基础上确立的语言学及应用语言学研究方向之一。

本方向以来华留学生的汉语学习以及汉语在国外的传播实践为主要研究对象。

本方向设立的总体目标是:培养出能适应国内外汉语教育教学环境的汉语国际推广工作、胜任国内外多种汉语教学的高层次、应用型、复合型的专业教学及科研人才。

本方向的主要研究领域是:(1)在基础理论建设上,着力吸收当代西方语言理论及汉语研究的最新成果,以此引领汉语语言教学研究在与国际接轨的同时向纵深开拓;在语言教学方法上,以语言学习理论为主,形成以语言测试、语言偏误分析、中介语、跨文化交际研究成果为主要支柱的教学理论体系。

(2)将普通话测试的研究成果运用到对外汉语教学的研究中,将HSK水平测试和普通话水平测试有机地结合起来,用优势互补的原则建构起独具特色的对外汉语教学人才培养模式和理论框架,探索对外汉语教学中普通话教学的语音训练新路径。

关于语料库的建立

关于语料库的建立

语言文字应用2000年第2期(总第34期)关于语料库的建立Ξ约翰・辛克莱 著 王建华 译 提要 本文首先指出建立语料库的重要性;接着谈了语料库的设计、选材的方法和标准、语料库建立的框架和规定、语料库的类型等几个方面;在语料库的类型部分,本文重点谈了监控语料库的特点。

Corpus CreationJohn S i nclai r 译者W ang jianhuaAbstract This paper first refers to the importance of creating corpora.Then it presents following points.the design,ways and criteria of corpus selections,framing and provisions forcreating corpora and types of corpus,etc.In the section of types of corpus,the paper de2 scribes the features of monitoring a corpus.引 言任何语料库研究均开始于语料库体的建立,语料库的设计及选材几乎控制以后所要做的一切基于语料库的研究工作,研究结果的好坏只与语料库的建设质量有关。

Ξ注:此文是依据英国著名语言学家、语料库语言学专家约翰・辛克莱(John Sinclair)的《语料库、检索和搭配》(Corpus Concordance Collocation)一书的第一章翻译而成的,这本书现已由上海外语教育出版社发行,全书共九章。

翻译前,译者本人多次与约翰・辛克莱先生联系,并取得他的许可权,而后才翻译本文。

书中第一章概括讲述了语料库建立的有关内容,其中讲述的监控语料库部分在想法上与我国北京语言文化大学教授、语言学专家张普先生提出的动态流通语料库有相似的地方,张普先生提出的流通度的概念使得动态更新知识库在理论上可以获得量化的评价依据,使得监控语料库这一美好的想法完全可以实际建立起来。

国内外语料库建设研究简述

国内外语料库建设研究简述

国内外语料库建设研究简述作者:陈梦圆来源:《知识文库》2018年第21期语料库研究兴起于20世纪60年代其在语言学各领域所引发的革命,引起了语言学家、教育学家的极大关注。

语料库研究以及基于语料库的语言研究,正逐渐成为语言学研究领域的话语中心,其涵盖范围及应用领域也日益广泛。

本文首先对国内外语料库建设研究进行梳理、分析,且就与语料库相关的方面如自动标注与检索研究等进行了阐述,重点介绍中医文献语料库建设研究概况,旨在于为中医文化研究及中医翻译提供借鉴。

语料库(corpus)就是计算机应用于语言领域的一种形式,是存放语言的仓库,将实际使用中真实出现过的语言材料经过加工(分析和处理)成为有用的资源以电子计算机为载体的语言知识基础资源。

近年来,语料库的建设已在世界范围广泛展开,容量逐步扩大,种类繁多,其应用已渗透到语言领域的各个方面,成为语言研究、词典编纂、语言教学的有力工具,受到语言研究者和教育工作者的重视。

1.1国外语料库建设计算机语料库建设始于1964年美国布朗大学发布的BROWN语料库以及1987年英国Lancaster大学发布的LOB语料库。

欧美学者利用这两个语料库开展了大规模的研究,范围涉及自然语言文本的采集、存储、检索、统计、语法标注等问题以及语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用,取得了丰硕的成果(Leech,1987;Sinclair, 1999; Thomas, 2001)。

此后的十几年里,语料库建设在全球范围内快速发展:欧洲相继建成了COBUILD语料库、BNC语料库(British National Corpus);美国的宾州大学发布了树库语料库(TreeBank);日本建成了RWC日语语料库;台湾的中央研究院建成了现代汉语平衡语料库。

1.2中国的语料库建设中国的语料库建设发端于上海交通大学的科技英语语料库和国家语委的现代汉语语料库。

此后,北京大学计算语言研究所开发了《人民日报》语料库,中国科学院自动化研究所、清华大学、哈尔滨工业大学、山西大學等等也建设了各具特色的语料库(冯志伟,1999;何安平,2001;杨惠中,2002)。

语料库与语料库建设

语料库与语料库建设

语料库和语料库建设一、什么叫语料库1、定义语料库,通俗意义上指的是语言材料库。

严格意义上的语料库(corpus)是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。

目前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。

阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。

赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。

我们看到,以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设计是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。

语料库不同于电子文档,语料库的建设有特定的研究目的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。

而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。

语料库具有以下特征:1、语料库的设计与建设有系统的语言学理论指导,语料库的开发具有明确而又具体的目的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。

2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。

语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,由此保证基于语料库的语言研究的科学性、客观性。

国家语言资源监测与研究有声媒体中心简介

国家语言资源监测与研究有声媒体中心简介
国家语言资源监测ห้องสมุดไป่ตู้研究有声媒体中心简介
国家语言资源监测与研究有声媒体中心成立于2 0 0 5 年 9 月 1 5 日,是教育部语言文字信息 管理司和中国传媒大学共建的研究中心。中心依托中国传媒大学在传媒领域的学科特色和综合 优势,以理论研究为基础、应用研究为重点、服务国家为目标,开展有组织、开放型的科学研 究。中心在媒体语言资源积累、语言工具开发、语言数据应用、语言工程建设以及语言监测成 果为国家服务、为社会服务等方面具有鲜明特色。 中心努力探 索语言监测 理论,在国内首次提出了语言监测框架体系和词汇时空运动模 型。建设了大规模、多模态的有声媒体动态流通语料库M L C 和现代汉语普通话数字化样本库 M C D M C 。开发了面向语言监测的语言信息处理平台,包括面向语言监测的自动分词标注系统 CUCBst (包 括 单 机 版 和 在 线 免 费 版 ) 、语音文本对齐检索系统、字母词自动监测系统、新同 语提取系统、流行语提取系统、汉 语 字 / 同频统计工具R C R S 和 T C R S 等。建成了立足中国、 面向世界的有声媒体语言资源共享平台、应用语言学研究服务平台和现代语言监测技术交流平 台— — 有声 媒 体 语 言 资 源 网 ( h ttp V / .c n )。构 建 了 “ 国家语言文字舆情数据库” ,
实现了语言文字舆情自动监测,并将监测结果报送语信司及语言资源监测与研究系列各中心, 成为内参《 语情信息》的资料来源。 中心成立以来,致力于有声媒体语言的调查与研究,参 与 “ 中国语言生活绿皮书”的发 布 ,参与中国媒体十大流行语的发布,承担了中国媒体年度新词语的调查和发布,并编辑出版 年度系 列专著 《 汉语新词语》( 2007—2 0 1 4 ) 。自 2 0 1 1 年 起 ,定 期 向 社 会 发 布 “ 中国媒体关注 度十大榜单” ,在社会上引起较大反响,新华网、人民网、光明日报、北京电视台等多家媒体 都进行了实时报道。2 0 1 6 年 1 月 ,中心还与教育部人文社科重点研究基地中国传媒大学广播 电视研究中心联合发布了《 中国企业国际传播力( 2015)》 。 中心科研团队承担/ 完成国家社科基金、国家新闻出版广电总局、教育部社科司和科技 司 、国家语委等国家级、省 部 级各 类项 目2 0 余 项 ,在核 心期刊、国际国内会议上发表论文 1 8 0 多篇,出版 著作2 0 多部。中心承办了语言资源建设与语言监测技术方面的学术研讨会4 次 ,迄今已培养了 5 4 名硕士、 1 9 名博士。本着开放办中心、联合全国力量共同搞科研的理念, 中心与北京大学、清华大学、北京交通大学、中国社会科学院语言所、台 湾 “ 中研院”等多家 研究单位建立了合作关系,资源与技术共享。

基于动态流通语料库的现代汉语词语研究PPT文档共57页

基于动态流通语料库的现代汉语词语研究PPT文档共57页
13、遵守纪律的风气的培养,只有领 导者本 身在这 方面以 身作则 才能收 到成效 。—— 马卡连 柯 14、劳动者的组织性、纪律性、坚毅 精神以 及同全 世界劳 动者的 团结一 致,是 取得最 后胜利 的保证 。—— 列宁 摘自名言网
15、机会是不守纪律的。——雨果
41、学法拉兹
42、只有在人群中间,才能认识自 己。——德国
43、重复别人所说的话,只需要教育; 而要挑战别人所说的话,则需要头脑。—— 玛丽·佩蒂博恩·普尔
44、卓越的人一大优点是:在不利与艰 难的遭遇里百折不饶。——贝多芬
45、自己的饭量自己知道。——苏联
基于动态流通语料库的现代汉 语词语研究
11、战争满足了,或曾经满足过人的 好斗的 本能, 但它同 时还满 足了人 对掠夺 ,破坏 以及残 酷的纪 律和专 制力的 欲望。 ——查·埃利奥 特 12、不应把纪律仅仅看成教育的手段 。纪律 是教育 过程的 结果, 首先是 学生集 体表现 在一切 生活领 域—— 生产、 日常生 活、学 校、文 化等领 域中努 力的结 果。— —马卡 连柯(名 言网)
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大 型 动态流 通报 刊语 料库 建设 研究
胡秋 红 陈


( 1 . 广东 外语外 贸 大学 研 究 生处 , 广东 广州 5 1 0 4 2 0 ;2 . 广 东技 术师 范学 院 , 广 东 广州 5 1 0 6 6 5 )
要: 通过 论 述 大型动 态流通 报刊 语 料 库建 设 的 目的和 意 义 , 立足 国 内外媒 体 新 闻语料 库 建设 概 况 , 以


语料库建成之后 , 研究者通过软件和人工相结合 沿地 区 , 在政 治 、 经济 和文化发展 以及对外 交流 和学 习 的方 式 , 多角度 开展 各类 语 言研究 和词典 编纂 工作 , 等方 面有得 天独厚 的优势 , 语 言发展变化 迅速 , 在 国 内 如从 不 同题 材 ( 政治 、 体育 、 法律等) 和 不 同体裁 ( 报 有 一定 代 表性 , 特别 是新 词语 更 是 源源 不断 地涌 现 。 道、 演说、 评论 等 ) 的 内容人 手 , 用定性 、 定 量 分 析 相 本文通 过选取 自 2 0 0 8年 以来广东最 具代表 f 生的报刊新 结合的方式研究词语 的使用和演变历程 、 造词方法 、
第 3 5 卷 第 2 期

开 封 教 育 学 院学 报
2 0 1 5 年 2月 2 0日
!!
: ! :
d o i : l O . 3 9 6 9 6 . i s s n . 1 0 0 8 — 9 6 4 0 . 2 0 1 5 . 0 2 . 0 1 5
对 语 料 进行 加 工 、 分 类 和检 索 分 析 , 越来 越 受 到学 者 媒体语言分中心 , 还将逐步建立网络媒体 , 有声媒体 们 的关 注 。本 文 以广 东报 刊媒 体为 着手 点 , 通过 介绍 等分 中心 , 从 而实 现对 语 言 的全 面 监测 和规 范指 引 。
自 建 的近 2 2 亿字 的汉语报刊语料库 , 探讨建设大规 在 国外 , 杨伯 翰大 学 M a r k D a v i e s 教 授开发 了高 达 4亿 模 报 刊语 料库 的原 则 、 方 法 和具体 步 骤 。 词 的动态平 衡语料 库 C O C A, 收集 了美 国 口语 、 小说 、 建 设大 型动 态流 通报 刊语 料库 的 目的和 意义 流 行 杂志 、 报 纸 和学 术 期 刊 五大 类语 料 ; 英 国路透 社 随着 全球化进 程加快和互联 网迅猛发展 , 大众媒 体 建成了 2 亿词规模 的路透社报刊新 闻英语语料库; 北 如报 纸 、 电视 、 网络 等 , 以其 特有 的方 式渗 透 到人们 生 美 宾夕法 尼亚大 学语 言学数据 协会 D a v i d G r a t组织 开 f 活 的方 方面 面 , 改变着人 们 的生 活和思维 方式 , 潜在 影 发了规模达 3 亿5 千万词的北美新闻文本语料库等。
收稿 日期 :2 0 1 5 — 0 1 — 0 2

在 综 合考 虑 发行 量 、 发 行 区域 和影 响 力 因素 的基
基金 项 目:2 0 1 4年教 育部 人文 社 会科 学研 究 青年 基金 项 目 “ 理l 生 选 择 与受 众定 位 : 基 于纸媒 汉语 新 闻语 料库 对 中英 语码 转 换 的语
广 东报 刊 新 闻为切入 点 , 提 出报刊 语料 库建 库对 象、 建库 方 法、 语 料 库标 识 、 语 料库 附码 、 语料 库 结构 的设计 原
则, 并从 多角度分 析 动 态流 通报 刊语 料 库 在语 言研 究 中的应 用 , 指 出该 类 型语 料 库建 设 在丰 富地 区性报 刊 新
响着 人们 的思想 和行为 。广东作 为 中国改革 开放 的前 闻, 建 成一个 动态 流通语料库 , 用于全 面 的语 言分析 ,
词性变化 、 语用特 色、 文体特点或翻译技巧等 。这些 凸显不 同时期具有鲜 明时代 特色的词语变化 , 以期实现 研 究 方 式 和 手段 对 基 于 大 规模 语 料 库 的语 言分 析 有 了解语 言文字发展和促进社会进 步的 目的。 很 大 促进作 用 。 二、 近年 来 国 内外媒 体 新 闻语料 库建 设概 况 三、 报 刊语料 库设 计原 则 随着计算机和网络的快速发展, 社会文化和语言知 ( 一) 建库 对 象 识累积、 传播达到了前所未有的高度。开展大型语料库
闻语料 , 促进语 言文字研 究发展和学习者成长进步等多方面的理论和现 实意义。 关键 词 : 报刊 ; 语料 库 ; 语 言研 究 I 中图分 类号 :H1 9 5 文献标 识码 :A 文章 编号 :1 0 0 8 — 9 6 4 0( 2 0 1 5 )0 2 — 0 0 3 2 — 0 2 通过建设语料库开展语言研究最早 出现在 l 9 世 建设 和不 同层 面分析成为学者研究 的热点 。 目前 , 国内 纪, 当时只停 留在人工 收集语 料和检索 阶段 。直到 外在媒体新闻语料库建设方面取得了一定成就。 2 O世 纪 5 0年 代 , 夸 克 等人 建立 了用 于普 查 英语 用 法 在 国 内, 北 京语 言大 学 张普教 授 的 D C C动 态语 料 的现代 语 料库 并使 之 电子化 , 成 为语 料库 发展 进 程 的 库收录了我国大陆 1 0 多种主流媒体报纸 , 并利用语言 定 期对 外发 布 重要标志。近 4 O年来 , 随 着计 算 机 和 网络技 术 的迅 信 息 处理 技术 对之 进行 实 时跟踪 调查 , 新 词 报告 ; 国家语 言资 源监测 与 研究 中心 建立 了平 面 猛发展 , 通过计算机收集语料 , 并根据不 同研究 目的
域和语 体 策 略研究 ” ( 项 目编 号 : 1 4 Y J C 7 4 0 0 0 9); 广 东省 宣传 文化 发展 专项 资金 和 文化 事业建 设项 目 “ 2 0 0 8 年 以来 广东 媒体 新 闻语 料
相关文档
最新文档