语料库研究综述
可比语料库构建与可比度计算研究综述

可比语料库构建与可比度计算研究综述语言是人类沟通交流的重要工具,不同语言之间的可比度计算是自然语言处理和机器翻译领域的一个重要问题。
在实际应用中,我们经常需要比较不同语言之间的相似度和差异度,以便进行跨语言的信息检索、机器翻译和语言理解等任务。
构建可比语料库和计算语言之间的可比度是十分重要的研究课题。
本文将围绕可比语料库构建和可比度计算这两个研究方向展开综述,首先对可比语料库构建的方法和技术进行介绍,然后介绍可比度计算的常见算法和模型。
一、可比语料库构建可比语料库是实现不同语言之间可比度计算的基础,构建可比语料库是一个复杂而繁琐的工作。
一般而言,可比语料库构建可以从以下几个方面入手:1. 数据搜集:搜集不同语言的文本数据,可以通过互联网上的开放资源、新闻报道、科技论文等多种渠道获取。
2. 数据清理:清理和预处理文本数据,包括分词、去除停用词、词干提取、标点符号去除等操作,以确保语料库的质量和可比性。
3. 句对齐:对两种语言的文本进行句对齐,即找出两种语言中相互对应的句子,确保句子级别的可比性。
4. 主题匹配:使用主题模型和主题匹配算法,对文本进行主题匹配,以保证语料库中文本的主题一致性,增强可比度。
5. 平行语料构建:利用对齐的文本构建平行语料,为跨语言翻译和可比度计算提供基础数据。
上述工作中,句对齐和主题匹配是可比语料库构建中的关键环节,句对齐方法包括基于规则、基于统计和基于机器学习的方法,主题匹配则可以利用LDA、LSI等主题模型算法进行匹配。
二、可比度计算在构建了可比语料库之后,我们需要对不同语言的文本进行可比度计算。
可比度计算是指通过一些定量的方式来衡量不同语言文本之间的相似度和差异度。
1. 词级别的计算方法:词级别的可比度计算主要包括词频统计、词语的共现关系和词义的相似度计算。
常用的算法包括余弦相似度、Jaccard相似系数等。
2. 句子级别的计算方法:在句子级别上,我们可以使用句子向量表示来计算句子的相似度,如使用词袋模型、TF-IDF模型、词嵌入模型等。
基于语料库的现代汉语研究方法综述

基于语料库的现代汉语研究方法综述一、绪论正如Sinclair所言:语料库所提供的海量语料使研究者系统地对大量文本语料进行审视,使我们有可能发现一些新的未发现的语言事实。
语料库在语言研究中能提供空前广泛的语言资料,使得对语言多方面、多层次的研究成为可能。
本文以2000年以来基于语料库的现代汉语研究的文献为依托,深入分析文献中基于语料库的研究方法,并从借助的语料库类型进行具体综述,据此对研究中存在的问题进行了分析。
二、借助的语料库类型语料库为语言描述提供了丰富的数据资源,在基于语料库的语言研究中,语言学家利用机储数据库去描写语言的词汇和语法。
基于语料库的研究方法,方便研究者统计数据,并在已有成果基础上,深化对某一类词群的研究。
然而,语料库种类众多,现代汉语研究方向也是多方面的,选择与研究内容相适应的语料库类型才能更好地提高研究效率,取得更佳的研究成果。
笔者通过归纳2000年以来基于语料库的现代汉语研究的文献,总结以下几种常用的语料库类型。
(一)基于标注语料库的研究标注就是使语料的某些单位(词、句、段等)和表示对这些单位的某种层次的理解的知识信息(标记符)相关联。
标记语料库即含有这些加工者添加其对语料的理解信息的语料库。
这样的语料库可以作为句法规律研究的重要参考。
孙建功等,基于标记语料库对单句句型句模对应关系进行研究,归纳总结出现代汉语单句句型和句模对应关系的主要特点。
杜婷借助《国家语委现代汉语通用平衡语料库》的标注语料库(在线提供免费检索的语料约2000万字),对现代汉语中小类词口部动词的频度进行了统计,进而发现其语法语用规律。
对语料库的标注工作,既是语料库建设中的一个重要环节,也丰富了语料库的利用价值,使其在句型、词汇等方面的研究中可以发挥出更大的作用。
(二)基于静态语料库的研究静态语料库是收集某一固定时期的共时语言使用样本构成的语料库,属于共时语料库的一种。
现有的许多类型的词典,被众多语言研究者运用到语言学研究中,形成基于静态语料库的现代汉语研究范式。
语料库研究与应用综述

科
商
语料库研究与应用综述
彭 刚 刘 岩
( 黑龙 江省 富裕 县 电子政 务 管 理 中心 , 龙 江 富裕 1 10 ) 黑 620
摘 要: 语科库通常指为语言研究收集的、 子形式保存的语言材料, 然出 用电 由自 现的书面语或口 语的样本汇集而成, 景 特定的语言或语言变体。 用来 关键词: 语料库 ; 究; 用 研 应
在应用语言学领域,词典编纂和语言教学同 是语料库的最大受益者。 目前 已有多部诃典杏 岛 兰 纂 或修订 过程中, 不同程度地使用语料库或电子文档 收集词语数据 , 用于收词、 释义、 例句、 属性标注等。 结束语 语料库作为 自然语言处理和应用的基础, 在 自然语言处理 要的作用。当然 , 要想使语料库更好的为我们做出 更大的贡献, 在以后的道路 E直该花更大的人力和 财力来研究和发展它。 通过 查阅 有关 语料 库 的研究 与发 展 的相关 资 料, 使我对自认语言和语料库的研究和发展有了一 定的认识。在阅读相关资料的过程中, 我了解到了 语料库的各种资源都是来源于我们的日常生活, 并 在此基础上以实用为目的, 来组建各种类型的语料 库。 同时 , ^ ^ , 我个 t为 随着计算语言学和自 然语言 信息 处理的综合发展, 语料库在计算机应用的各个 领域必将有不可估量的发展前景 , 例如在智能信息 管理 和检索方 面 。
1 述 概 语结构法”“ 、 专家系统法”“ 、 隐马尔科夫模型”“ 应用上还处于起步阶段 , 、串 在计算语言学和语言信息 在自 然语言信息处理领域 , 语言资源指的是 频统计和词匹配” 等辩识歧义 自 。识别未登录 处理领域 , 语料库主要用来为统计语言模型提供语 动分诃研究的 二 第 个重点。 词性 自 动标注通 青净,氲息 正 和既萼 据,在语言研究的其他领域, 磺 语料库和语言知识库。 语料库用来收录原始的语言 词是 自 材料, 语言知识库则收录的是反映语言内部结构规 常与 自 动分词同时进行, 根据带 有词类信息的分词 词典, 给切分出来的词语标 匕 初始的词类标记。对 近年来在语料库的支持下,从信息处理的角 律和言 糊 程 认知规律 的知识 。 语料库通常指为语言研究收集的、用电子形 于兼类词, 必须在句子里判断类别。因此需要分析 度研究汉语词汇、 语法和语义问题的报告也 日渐增 并用 多。这些研究包括 : 式保存的语言材料 , 由自然出现的书面语或口语的 兼类词语在上下文中的分布特点和语法功能 , 根据逐诃索引作汉语词义的调 样本汇集而成,甩来代表特定的语言或语言变体。 形式化的方式表达出来 , 查; 对词语搭配进行计量分析 ; 利用量词——名词 经过科学选材和标注、 具有适当规模的语料库能够 类 的规 则 。 的搭配数据研 究汉语名词分类 题; a 进行现代汉语 反映和记录语言的实际使用情况。 人伸 百 过语料库 经过分词的语料 , 除了标注词性以外 , 还可以 句型的统计和研究 ; 做短语 自动识别( 例如基本名 观察和把握语言事实 , 分析和研究语言系统的规 进一步标注其他语言学属性, 譬如韵律、 语调、 短语 词短语、 动宾结构) 自 和 动句法分析的试验 ; 研究在 律。语料库已经成为语言学理论研究 五 月 研究和 结构、 句法结构、 义关系等等。 语 句子的语法结构需 句子里为词语排除歧义的算法 ; 分析和统计汉语词 语言工程不可缺少的基础资源。 要有形式化的方式来表达, 大多数语料库或者采用 语重叠结构的深层结构类型及产生方式 , 等等。 或者采用依存语法树的方式, 这样标 语料库与语言信息处理有着某种天然的联 短语结构树, 对于词汇学、 语法学、 语言理论、 历史语苣 等 系。当人们还不了解语料库方法的时候, 自然语 注过的语料库就成为短语树库或句法树库。 在 —般情 研究来说, 语料库的作用 目前大多还是通过语料检 言理解和生成、 机器翻译等研究中, 分析语言的主 况下, 在词性标注的基础 E 再作进一步的语法标注 索和频率统计,帮助 ^ 们观察和把握语言事实, 分 要方 法是 基= 呗Ⅱ Ruebsd。 于 肆 了 的( l- ae )对 呗 0 加工, 无 多以人工为主, 也有关于 自动短语定界和句 析和研究语言的规律。 语料库方法的发展会使这种 法表达或不能涵盖的语言事实 , 计算机就很准处 法信息 自 动标注的研究和实验。 前已有的汉语短 仅起辅助作用的手段逐步变成必备的应用资源和 目 理。语料库出现以后, 人们利用它对大规模的 自然 语库、 句法树库规模都不大, 至多百万词级。 工具。 利用语料库 , 人们可以把指定的语法现象加 语言进行调查和统计 , 建立统计语言模型 , 研究和 2 2语料库管理系统 以量化, 并且检测和验证语言理论 、 规则或假设。 应用基于统计的(tita- ae 言处理技术 , Sa sclbsd ti 经过科学选材和标注、具有适 当规模的语料 在少数民族语言和方言调查研究方面,比较 还应该有—个功能齐备的管理系统, 包括数据 有代表眭的] { ‘ 在信息检索、 文本分类 、 文本过滤、 信息抽取等应用 库 , 二 铺缅语语料库及比较研究的计 f黾 方向取得了 进展。另—方面, 语言信息处理技术的 维护( 语料录入 、 、 校对 存储、 、 修改 删除及语料描述 量描写” 。它建立了我国境内藏缅语族五大语支 8 2 发展也为语料库的建设提供了支持。从字符编码、 信息项目 管理) 、 自 语料 动加工( 分词、 标注、 文本分 个语言点 l 万词条的词汇语音数据库 , 6 对藏语方 文本输入和整理, 语料的 自动分词和标注 , 到语料 割、 合并 、 语料对齐、 标记处理等 ) 、 用户服务功能 言的音节、 音位、 声母、 韵母、 声词、 词素、 阋能力 构 的绚|卜 t司 胁睑索 , 自然语言信 息瘦 理的研究 吾料 ( 查询、 检索、 统计、 作了分布和对 比分析。 0 的加工提供了 关键性的技术。 要涉及汉字字符处理、 文本处理、 文件管理等计算 对藏语 1 个方言点 5 作了语音对应关系和音系对 比 2 语料库的加工、 管理 机程序设计技术。 语料 自动加工部分的主要内容是 关系的量f 描述, 艺 并且在这 做出具有历时 2l 语料的加工 自动分词 、 各种语言学属性的标注技术 , 已经在前 和共时比皎研究意义的相关分析 , 得出了语言分类 与三 个 因素有 面专 门介 绍过 了。最 重 要的是 面 向用 户 的语 料 检
《2024年语料库研究》范文

《语料库研究》篇一一、引言语料库作为一种资源丰富的语言数据集合,已成为语言学、语言学研究以及相关领域的热点研究对象。
它能够为语言分析、语言教学、翻译、词典编纂等多个领域提供支持。
本文将介绍语料库研究的重要性,并就当前语料库研究的现状进行梳理,进而分析其中存在的挑战和问题,并探讨未来的发展趋势。
二、语料库研究的现状1. 语料库类型及建设随着技术的进步,语料库建设日趋成熟。
根据不同领域和用途,语料库可大致分为通用型和专用型。
其中,通用型语料库如COCA、BNC等,涵盖了广泛的语言使用场景;专用型语料库则针对特定领域或主题进行收集,如法律、医学等。
此外,还有多媒体语料库和口语语料库等类型。
在建设过程中,研究者需考虑语料库的规模、代表性、时效性等因素。
2. 语料库应用领域语料库在多个领域得到了广泛应用。
在语言学领域,语料库为语言研究提供了丰富的数据支持;在翻译领域,语料库可帮助提高翻译的准确性和效率;在词典编纂方面,语料库为词汇的收集和释义提供了有力支持。
此外,在语言教学、自然语言处理等领域,语料库也发挥着重要作用。
三、当前挑战与问题尽管语料库研究取得了显著成果,但仍面临诸多挑战和问题。
首先,在语料库建设方面,如何确保数据的代表性和真实性是一个亟待解决的问题。
此外,随着技术的发展,如何利用人工智能等手段对语料库进行智能化处理和利用也是一大挑战。
其次,在应用方面,如何将语料库与实际需求相结合,提高应用效果也是一个难题。
此外,不同领域和行业对语料库的需求存在差异,如何满足这些不同需求也是一项挑战。
四、未来展望面对未来的发展,语料库研究将呈现以下几个趋势:1. 多样化与个性化:随着用户需求的多样化与个性化发展,未来的语料库将更加关注用户需求和实际应用场景的差异。
研究者需要设计更多类型的语料库来满足不同领域和行业的需求。
2. 智能化与自动化:人工智能技术的不断发展将促进语料库的智能化和自动化处理。
例如,利用自然语言处理技术对语料进行自动标注、分类和分析等操作,提高处理效率和准确性。
可比语料库构建与可比度计算研究综述

可比语料库构建与可比度计算研究综述随着全球化的发展以及科技的进步,跨国交流和合作呈现出日益紧密的态势。
然而,由于语言的差异,不同国家和地区之间的交流仍存在一定的困难,因此研究可比语料库构建与可比度计算具有重要的意义。
本文将综述相关研究的进展和现状。
一、可比语料库构建可比语料库是指在对比两种或多种语言时,通过建立一定数量的相互翻译的语料库,达到了研究语言差异和相似性的目的。
可比语料库的构建一般包括四个步骤:语料筛选、翻译、对齐和清理。
1.语料筛选语料筛选是构建可比语料库的第一步,目的是从文本库中选择出符合研究要求的文本,使得语料库的内容能够保持一定的平衡,并且具有代表性。
在语料筛选过程中,需要考虑以下因素:文本主题、文本来源、文本作者、文本语言、文本类型等。
2.翻译翻译是可比语料库构建的关键步骤。
在翻译过程中需要考虑到不同语言之间的语法、词汇、语义等问题,确保翻译结果的准确性和可信度。
传统的翻译方法是人工翻译,虽然能够有效保证翻译质量,但是需要耗费大量的时间和人力。
近年来,基于统计机器翻译和神经网络机器翻译的自动翻译技术得到了广泛的应用,可以大幅提高翻译效率和准确率。
3.对齐对齐是确保语料库中不同语言文本之间已经被正确定位的重要步骤。
对齐可以分为句子级对齐和词语级对齐,其中词语级对齐更加复杂和耗时。
传统对齐方法是基于手动或半自动的方法进行对齐,但这种方法难以扩展到大规模的语料库中。
近年来,应用基于机器学习和人工智能技术的自动对齐方法越来越受到关注。
4.清理清理是指删除语料库中的非目标文本和不合法的文本。
语料库清理一般包括去除停用词、去除无效符号和字符、统一命名等工作。
清理的过程一般是手动进行,借助于一些文本编辑器或者编程工具。
清理的好坏直接影响到可比度计算的准确性和可信度。
二、可比度计算方法可比度计算是衡量两个相似文本之间的相似度的量化指标。
对于可比语料库的研究,可比度计算是必不可少的一个环节。
通常,在计算可比度时,需要考虑以下因素:词频、词性、上下文等。
语料库研究与综述

语料库研究与综述语料库研究与应⽤综述⼀概述语料库通常指为语⾔研究收集的、⽤电⼦形式保存的语⾔材料,由⾃然出现的书⾯语或⼝语的样本汇集⽽成,⽤来代表特定的语⾔或语⾔变体。
经过科学选材和标注、具有适当规模的语料库能够反映和记录语⾔的实际使⽤情况。
⼈们通过语料库观察和把握语⾔事实,分析和研究语⾔系统的规律。
语料库已经成为语⾔学理论研究、应⽤研究和语⾔⼯程不可缺少的基础资源。
语料库有多种类型,确定类型的主要依据是它的研究⽬的和⽤途,这⼀点往往能够体现在语料采集的原则和⽅式上。
有⼈曾经把语料库分成四种类型:(1)异质的(Heterogeneous):没有特定的语料收集原则,⼴泛收集并原样存储各种语料;(2)同质的(Homogeneous):只收集同⼀类内容的语料;(3)系统的(Systematic):根据预先确定的原则和⽐例收集语料,使语料具有平衡性和系统性,能够代表某⼀范围内的语⾔事实;(4)专⽤的(Specialized):只收集⽤于某⼀特定⽤途的语料。
除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。
按照语料的采集单位,语料库⼜可以分为语篇的、语句的、短语的。
双语和多语语料库按照语料的组织形式,还可以分为平⾏(对齐)语料库和⽐较语料库,前者的语料构成译⽂关系,多⽤于机器翻译、双语词典编撰等应⽤领域,后者将表述同样内容的不同语⾔⽂本收集到⼀起,多⽤于语⾔对⽐研究。
语料库建设中涉及的主要问题包括:(1)设计和规划:主要考虑语料库的⽤途、类型、规模、实现⼿段、质量保证、可扩展性等。
(2)语料的采集:主要考虑语料获取、数据格式、字符编码、语料分类、⽂本描述,以及各类语料的⽐例以保持平衡性等。
(3)语料的加⼯:包括标注项⽬(词语单位、词性、句法、语义、语体、篇章结构等)标记集、标注规范和加⼯⽅式。
(4)语料管理系统的建设:包括数据维护(语料录⼊、校对、存储、修改、删除及语料描述信息项⽬管理)、语料⾃动加⼯(分词、标注、⽂本分割、合并、标记处理等)、⽤户功能(查询、检索、统计、打印等)。
国内基于语料库的批评话语分析研究综述

国内基于语料库的批评话语分析研究综述一、本文概述随着语言学研究的深入发展,批评话语分析(Critical Discourse Analysis, CDA)作为一种重要的语言学研究方法,在国内语言学界逐渐受到广泛关注。
本文旨在综述国内基于语料库的批评话语分析研究的现状和发展趋势,以期为相关研究提供有益的参考和启示。
本文将简要介绍批评话语分析的基本理论框架和研究方法,阐述其在语言学研究中的重要地位和作用。
本文将重点回顾和分析国内基于语料库的批评话语分析研究的主要成果和贡献,包括研究主题、研究方法、研究数据等方面的内容。
在此基础上,本文将探讨当前研究中存在的问题和不足,并展望未来的研究方向和发展趋势。
通过本文的综述,我们希望能够为国内批评话语分析的研究者提供全面的研究视角和深入的理论思考,推动国内批评话语分析研究的进一步发展。
本文也期望能够引起更多学者对批评话语分析的关注和兴趣,共同推动语言学研究的深入和创新。
二、国内批评话语分析的发展历程批评话语分析(Critical Discourse Analysis, CDA)作为一种语言学研究方法,自20世纪70年代末在西方兴起以来,逐渐受到国内外学者的关注。
在中国,批评话语分析经历了从引进介绍到自主研究的发展历程,成为语言学领域的一个研究热点。
早期的研究主要集中在翻译和介绍西方的批评话语分析理论和方法,如Fairclough的三维分析框架、Wodak的话语-历史分析方法等。
这些研究不仅为国内学者提供了理论支撑,也为后续的实证研究奠定了基础。
随着研究的深入,国内学者开始结合中国的社会文化背景,对批评话语分析进行本土化改造。
他们运用批评话语分析的理论框架,分析中国的社会问题,如贫富差距、性别歧视、环境污染等。
这些研究不仅揭示了社会问题的语言表征,也提出了相应的解决策略。
近年来,随着语料库语言学的发展,基于语料库的批评话语分析逐渐成为国内研究的新趋势。
学者们利用大规模语料库,对特定话题或事件进行定量和定性分析,揭示其背后的社会、政治和文化因素。
国内语料库研究综述

国内语料库研究综述摘要本文旨在回顾国内语料库研究的发展历程、现状,并探讨未来研究方向。
通过分析相关文献资料,文章总结了国内语料库研究的主要成果、不足之处,并提出了针对性的建议。
本文旨在为语料库研究领域的学者提供参考,以推动国内语料库研究的发展。
关键词:语料库、国内研究、发展历程、现状、未来研究方向引言语料库是指为语言研究而收集的、有一定规模的、有代表性的语言材料集合。
自20世纪中期以来,语料库在国外得到了广泛应用,并在多个领域取得了显著的成果。
近年来,随着国内语言学、计算语言学等学科的快速发展,语料库在国内的研究和应用也逐渐受到重视。
本文将重点探讨国内语料库研究的现状、成果及未来研究方向。
研究现状1.国内语料库的发展历程和现状自20世纪80年代起,国内开始出现一些小型语料库的建设和研究,如国家语委现代汉语通用词库等。
随着计算机技术的不断发展,90年代中后期以来,国内开始大力推进语料库的建设和研究,涉及的领域也日益广泛。
目前,国内已经建立了一系列不同规模、不同类型的语料库,如中国传媒大学的中国广播电视媒体语言语料库、上海交通大学的中文文本分类语料库等。
2.基于不同领域语料库的研究成果和不足语料库在多个领域得到了广泛应用,如语言教学、词典编纂、语言政策研究等。
在语言教学领域,语料库可以提供真实的语言材料和语境,有助于提高语言学习者的兴趣和理解能力。
在词典编纂领域,语料库可以提供大量的实例和用法,有助于提高词典的准确性和实用性。
在语言政策研究领域,语料库可以提供真实的语言使用情况和发展趋势,有助于制定科学的语言政策和发展规划。
然而,国内基于不同领域语料库的研究成果尚不够丰富,且在某些领域还存在着研究空白。
例如,针对特定领域的语料库建设和研究尚不够深入,部分领域的语料库仍存在着规模较小、代表性不足等问题。
此外,针对语料库在二语习得、语言演化等领域的研究尚不够充分。
3.国内语料库在语言教学中的应用语料库在语言教学中的应用已经得到了广泛的认可。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。有人曾经把语料库分成四种类型:
(1)异质的(Heterogeneous):
没有特定的语料收集原则,广泛收集并原样存储各种语料;
(2)同质的(Homogeneous):
只收集同一类内容的语料;
(3)系统的(Systematic):
下面先简要叙述1998年到2003年中国语料库建设的基本情况,然后介绍语料库的加工、管理和规范问题,最后谈谈语料库方法在语言研究和语言工程等方面的应用。由于以前的《中国语言学年鉴》很少谈及语料库问题,为了尽可能全面地反映我国语料库研究和应用的情况,必要时会将时间上限向前延伸几年。
二中国语料库建设的基本情况
这个语料库收录的语料以书面语为主、以书面语转述的口语为辅。语料来源是19年至今,主要是1977年至今出版的教材、报纸、综合性刊物、专业刊物和图书。在设计原则上,讲求通用性、描述性、实用性和抽样的科学性。在语料分类方面,以“门类为主,语体为辅”为原则制定三个大类:
第一类:
人文与社会科学类(包括8个次类、30个细类)
4.海洋气象类
5.农林类
6.医药卫生类
第三类:
综合类(包括6个次类,30多个细类)
1.行政公文类:
请示报告批复命令指示布告纪要通知等
2.章程法规类:
章程条例细则制度公约办法法律条文等
3.司法文书类:
诉讼辩护词控告信委托书等
4.商业文告类:
说明广告调查报告经济合同等
5.礼仪辞令类:
欢迎词贺电讣告唁电慰问信祝酒词等
语料库建设中涉及的主要问题包括:
(1)设计和规划:
主要考虑语料库的用途、类型、规模、实现手段、质量保证、可扩展性等。
(2)语料的采集:
主要考虑语料获取、数据格式、字符编码、语料分类、文本描述,以及各类语料的比例以保持、词性、句法、语义、语体、篇章结构等)标记集、标注规范和加工方式。
1.政法类:
哲学政治宗教法律
2.历史类:
历史考古民族
3.社会类:
社会学心理语言文字教育文艺理论新闻民俗
4.经济类:
工业经济农业经济政治经济财贸经济
5.艺术类:
音乐美术舞蹈戏剧
6.文学类:
小说散文传记报告文学科幻口语
7.军体类:
军事体育
8.生活类
第二类:
自然科学类(包括6个次类)
1.数理类
2.生化类
3.天文地理类
数理
17."2%生化
19."1%天文地理
14."1%
海洋气象
9."1%农林
22."8%医药卫生
17."7%
综合类占
9."36%。其中各个次类在本大类中的比例是:
各类应用文
91."1%其他
8."9%
报纸类占
13."79%。其中各个次类在本大类中的比例是:
全国性报刊25%省市报刊75%
这个语料库在选材过程中收集和记录语料的有关描述信息,为每个语料样本设立了20个描述项目:
在每一个切分出来的词和标点符号后面,是该词语的标记。譬如词性标记(n,v,a,u,m,w等),专有名词标记(nr,ns,nz等),语素子类标记(Vg等),动词和形容词特殊用法标记(vn,ad)。所有的标记都是以北京大学的《现代汉语语法信息词典》为基础词库,在一个加工规范的指导下标注的。
利用《人民日报》标注语料库,人们可以从各个角度考察和分析语言事实,统计各种语言单位出现的频率,譬如,词语或词类的分布、搭配和共现,专有名词的结构方式、兼类词在句子中的表现,语素字的使用情况,等等。也可以从语料里提取各种语言单位或语句片段作为研究实例。与仅仅以汉字串的形式表示的“生语料”相比,经过标注的“熟语料”显然含有更多的语言学特征信息,对汉语词汇研究、语法研究和汉语信息处理系统来说是更好的语言知识资源。
《人民日报》标注语料库中一半的语料(1998年上半年)共1300万字已经通过《人民日报》新闻信息中心公开提供许可使用权。其中一个月的语料(
1998年1月)近200万字在互联网上公布,供自由下载。
(三)用于语言教学和研究的现代汉语语料库
建立现代汉语语料库的主要目的之一是对外汉语教学和现代汉语研究,可以分为书面语语料库和以文本形式表示的口语语料库两类。前者如北京语言大学的汉语中介语语料库、现代汉语研究语料库,后者如中国社会科学院语言研究所的北京地区现场即席话语语料库。
错字、别字、繁体字、拼音字、非规范词等)做出索引标记,记录其对应的规范形式。这个语料库的管理系统有语篇属性登录、文本过滤、文字预处理信息登录、语料抽样、断句、分词、词性辅助标注、自动标注以及语料的主题检索、全文检索和数据浏览等各种功能,分别处理语料库的建立、管理和维护,以及用户浏览、查询和检索等。与人工收集的学生病句卡片资料相比,中介语语料库能够更好地反映学生学习汉语的情况,帮助教师更加全面地观察他们的学习过程,了解影响学习和习得的各种因素。
从2001年开始,对2000万字核心语料进行分词和词性标注加工。
(二)《人民日报》标注语料库
《人民日报》标注语料库由北京大学计算语言学研究所和日本富士通公司合作,从1999年开始,到2002年完成,原始语料取自1998年全年的《人民日报》,共约2700万字,到2003年又扩充到3500万字,是我国第一个大型的现代汉语标注语料库。这个语料库加工的项目有词语切分和词性标注,还有专有名词(人名、地名、团体机构名称等)标注、语素子类标注、动词、形容词的特殊用法标注和短语型标注。下面是一段语料标注的示例,对于
根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;
(4)专用的(Specialized):
只收集用于某一特定用途的语料。除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。
1977年以后50%
在语言材料的门类、语体和来源方面,选材比例是:
人文与社会科学类占
59."6%。其中各个次类在本大类中的比例是:
政法
12."7%历史
8."4%社会
14."0%经济
9."8%
艺术
6."7%文学
44."9%军体
2."3%生活
1."4%
自然科学类占
17."24%。其中各个次类在本大类中的比例是:
6.实用文书类:
请假条检讨申请书请愿书等
在不同类别、不同来源、不同时期的语言材料中,按照不等密度的思路确定合适的语料选取比例,从共时和历时两个角度保证入选语料的平衡性,是这个语料库的特点。譬如,在语言材料的年限方面,选材比例是:
19年–1925年5%1926年–1949年15%
1950年–1965年25%1966年–1976年5%
1998年1月1日第5版第1篇文章的第11段:
我国的国有企业改革见成效。位于河南的中国一拖集团有限责任公司面向市场,积极调整产品结构,加快技术改造和新产品研制步伐。图为东方红牌履带拖拉机生产线。(赵鹏摄)标注后的形式是:
199801-05-001-011/m我国/n的/u国有/vn企业/n改革/v见/v成效/n。/w位于/v河南/ns的/u[中国/ns一拖/j集团/n有限/a责任/n公司/n]nt面向/v市场/n,/w积极/ad调整/v产品/n结构/n,/w加快/v技术/n改造/vn和/c新/a产品/n研制/vn步伐/n。/w图/n为/v东方红牌/nz履带/n拖拉机/n生产线/n。/w(/w赵/nr鹏/nr摄/Vg)/w
总号、分类号、样本名称、类别、作者、写作时间、书刊名称、编著者、出版者、出版日期、期号(版面号)、版次(初版日期)、印册数、总页数、开本、选样方式、样本起止页数、样本字数、样本总数、繁简字。用户可以利用这些语料描述标记根据各自的需要进行各种方式的检索。语料库的建库工作分为两步,第一步先建立核心语料库(由7000万字的语料中筛选出2000万字语料组成)。到90年代末,完成了2000万字生语料的收录工作。
汉语中介语语料库的建设目标是为对外汉语教学、中介语研究、偏误分析和汉语本体研究提供资源,因此它的语料来源很有对外汉语教学的特点。作者先在北京和其他省市的9所高等院校里,从来自96个国家和地区的1635位外国留学生那里收集了成篇成段的汉语作文或练习材料5774篇,共字。再从中抽取了740人的1731篇语料,共有44218句,字。全部语料都记录了学生姓名、性别、年龄、国别、是否华裔、第一语言、文化程度、所学主要教材、语料类别、写作时间、提供者等23项属性。然后对这104万字的语料进行词语切分、词性标注以及一些专用的语言学特征标注。例如,标出了字、词、句、篇等不同的层次,对语料的非规范形式(例如: