语料库和知识库的研究现状

合集下载

标准文献语料库构建研究

１．２语料库原型系统的开发
有关信息。
语料库、知识库和知识组织体系的构建，是知识
管理和知识服务的基础、前沿和热点，语料库的根本目的是为实现语义标引、机器翻译、知识关联、数据
原型系统总体设计采用通用的Ｂ／Ｓ（客户端／浏
准文献和技术法规为主。知识库，是用于知识管理的
一
（１）文本抓取和准备：标准文本和Ｗｅｂ信息的获取和数字化文本的准备。（２）语料提取：从标准文
献中提取语料信息。（３）标注和注释。① 标注：将
二是语料库原型系统的开发。１．１语料库构建方法
馆标准文献语料库原型系统的构建研究，并展望了标准文献语料库的应用前景。［中图分类号］Ｇ２５０．７３
Hale Waihona Puke ［文献标志码］Ａ［文章编号］１００５ —８２１４（２０１３）１２一ｏ０４ｌ－０３语料库，指存放原始语言材料的数据仓库。一般的语料库其语料加工来源非常广泛，包括丛书、词典、专著、辞源等。标准文献语料库的加工主要以标
配置。
服务模式网络化的转变方面负有责无旁贷的重任，而
且面临着以国家级馆藏文献资源提供知识服务，满足

专业的语料库与翻译记忆

专业的语料库与翻译记忆随着全球化的发展和各国交流的增多，翻译行业变得愈发重要。

在翻译过程中，一个专业的语料库和翻译记忆系统能够帮助翻译人员提高翻译质量和效率。

本文将重点探讨专业的语料库和翻译记忆系统的作用及其优势。

一、语料库的作用语料库是指收集和整理不同语种的文本资料，以供翻译人员参考和应用的工具。

专业的语料库能提供翻译人员更加准确和全面的词汇、短语、语法和句型等信息。

通过查阅语料库，翻译人员可以找到合适的翻译实例，从而更好地理解和应用。

首先，语料库能够为翻译人员提供大量的领域特定的译文例句。

不同领域有着各自特定的术语和表达方式，通过查阅语料库，翻译人员能够更好地掌握这些专业术语的翻译规范和惯用表达方式。

这样，翻译出的文本就更加准确和专业。

其次，语料库还能够帮助翻译人员提高翻译效率。

在传统的翻译过程中，翻译人员需要不断地检索词典和参考资料，而有了语料库，翻译人员可以更加方便地找到已有的翻译实例，减少重复劳动和时间消耗。

特别是在面对大量相似内容的时候，语料库可以自动识别重复部分并提供参考翻译，使得翻译人员可以更快速地完成工作。

最后，语料库还可以作为一个知识库，帮助翻译人员不断学习和进步。

通过翻阅语料库中的译文，翻译人员可以了解行业的最新变化和发展趋势，学习到其他优秀译者的经验和技巧，借鉴他们的翻译思路和策略。

这可以帮助翻译人员提高专业水平，不断提升自己的翻译能力。

二、翻译记忆系统的优势除了语料库，翻译记忆系统（Translation Memory，简称TM）也是翻译行业常用的工具之一。

翻译记忆系统能够存储之前翻译过的句子和段落，随后在新的翻译任务中进行匹配和应用。

这样的系统具有很多优势。

首先，翻译记忆系统可以帮助确保一致性和准确性。

相同的短语和句子在不同的上下文中可能会有不同的翻译。

通过翻译记忆系统，翻译人员可以检索到之前翻译过的句子，并查看它们的上下文和翻译结果。

这样可以避免再次犯同样的错误，同时也能保证文本的一致性和连贯性。

基于语义依存关系的汉语语料库的构建

中文信息学报第17卷第1期JOURNAL OF CHINESE INFORMATION PROCESSING Vol.17No.1文章编号:1003-0077(2003)01-0046-08基于语义依存关系的汉语语料库的构建¹尤1,李涓子2,王作英1(11清华大学电子工程系,北京10008421清华大学计算机科学与技术系,北京100084)摘要:语料库是自然语言处理中用于知识获取的重要资源。

本文以句子理解为出发点,讨论了在设计和建设一个基于语义依存关系的汉语大规模语料库过程中的几个基础问题,包括:标注体系的选择、标注关系集的确定,标注工具的设计,以及标注过程中的质量控制。

该语料库设计规模100万词次,利用70个语义、句法依存关系,在已具有语义类标记的语料上进一步标注句子的语义结构。

其突出特点在于将5知网6语义关系体系的研究成果和具体语言应用相结合,对实际语言环境中词与词之间的依存关系进行了有效的描述,它的建成将为句子理解或基于内容的信息检索等应用提供更强大的知识库支持。

关键词:计算机应用;中文信息处理;语料库;语义依存关系;5知网6;动态角色与属性中图分类号:TP391文献标识码:AOn Construction of a Chinese Corpus Basedon Semantic Dependency RelationsYOU F ang1,LI Juan2zi2,WANG Zuo2ying1(11Dept.of Electronics Engineeri ng,T si nghua University,Beijing100084,Chi na21Dept.of C omputer Science Technol ogy,Tsinghua U niversity,B eiji ng100084,China)Abstr act:Cor pora are important resources for knowledge acquisition in the field of natural language processing.For t he pur pose of sentence understanding,we are constructing a Chinese large2scale2corpus based on semantic dependen2 cy relations.T his paper introduces the tagging formalisms we adopt,the tagging set we choose,t he tagging tool we develop,and the method we use to guarantee the good consistency of tagging.The corpus under discussion is at a scale of1million words.Each sentence in the corpus,which already had annotations of sense,is further tagged with its semantic structure using70semantic2dependency2relat ions.The highlight of this cor pus is its ability to effectively descr ibe various relations between Chinese words.All of these profited from using<HowNet>for reference and the combination with specific use of language.The construct ion of this corpus can definitely provide mor e knowledge sup2 ports for sentence understanding,content2based information retrieval,and so on.Key wor ds:computer application;Chinese information processing;corpus;semantic dependency relations;HowNet; Event Role&Features一、引言自然语言处理面临的最大障碍在于词汇、句法、语义等知识的匮乏,建立带有各类标注附加信息的大规模语料库正是解决这一瓶颈的有效方法。

大数据背景下BCC语料库的研制_荀恩东

95
大数据背景下 BCC 语料库的研制
共时语料和历时语料兼备 BCC 对报刊语料和文学作品标注了时间信息，其中文学作品的时间信息体现在 BCC 的“自定义”功能应用上，用户可以选定某时间的文学作品进行限定检索；BCC“历时检索”主要是报刊语料，语料来自 1945 年至 2015 年的《人民日报》。历时检索是以图形可视化方式呈现的。 BCC 语料库使用了语料采集、加工和语言分析处理等多种工具，例如对现代汉语进行分词和词性标注。为了完成语料采集、加工、标注等工作，开发了 BCC 语料库采集和加工平台，主要包括：网上语料采集工具 BCC 语料库中的语料主要源自互联网的页面文本，利用采集工具自动下载网页，把网页数据保存到本地。语料加工整理工具将网络作为语料库，是将以自然语言形式存在的整个网络电子文本当作一个庞大的语料库，可以通过征调主流搜索引擎的应用程序调用接口，获取搜索引擎。BCC 语料加工的返回结果，再对其进行相应的语料库统计分析（熊文新 2015）整理的方式主要为：从网页中提取原数据信息，包括名称、出处等；网页数据清洗，从网页数据中剔除非内容数据，提取有效文本内容；对数据进行自动断句处理，为后续语言分析做准备；异常重复句子甄别和处理，剔除网页数据清洗阶段不能甄别的重复句子。语言自动分析工具原始语料完成断句后，在语言分析阶段对句子进行分词和词性标注处理。中文词性标注采用北京大学计算语言研究所提出的词性标注体系（俞士汶等 2000， 2002），英文词性体系采用美国宾州大学词性体系。目前，BCC 可以对现代汉语、英语、法语的语料进行自动分词和词性标注处理。语料库标注平台该平台的目标是通过人工标注来构建专门语料库。 2.2 BCC 检索引擎语料库建设是围绕内容进行的，用户通过检索使用语料库数据，而使用的检索功能是通过检索引擎实现的，因此检索引擎的性能直接影响语料库系统的使用体验。使用体验体现在多个方面，包括对数据规模的支持程度、语料类型的支持程度、响应检索的时空开销、检索式的支持功能、对服务器软硬件的适应性等。 BCC 检索引擎具有以下特点：

ChatGPT技术对于知识库和信息检索的潜力与局限

ChatGPT技术对于知识库和信息检索的潜力与局限随着人工智能技术的快速发展，ChatGPT成为自然语言处理领域的一项重要突破。ChatGPT是一种基于深度学习的语言生成模型，训练自大量的语料库数据，可以自动生成具有逻辑性和连贯性的对话。在ChatGPT的推出之后，人们对其在知识库和信息检索方面的潜力产生了浓厚的兴趣。本文将从潜力和局限两个方面探讨ChatGPT技术在知识库和信息检索领域的应用。

ChatGPT技术的潜力之一是其能够利用大规模语料库进行知识的提取和整理。ChatGPT通过训练大量的句子对，学习了丰富的语言模式和知识信息，可以从知识库中提取相关知识并进行自动化的分类和归纳。这使得ChatGPT成为一个理想的工具，用于构建知识库和信息检索系统。通过ChatGPT，我们可以从海量的知识中快速准确地找到我们需要的信息，极大地提高了知识获取的效率。

其次，ChatGPT技术还能够为知识库和信息检索系统提供更加智能化的交互方式。传统的知识库和信息检索系统大多以关键词检索为主，用户需要输入相关的关键词才能获取所需的信息。而ChatGPT技术则使得用户可以通过自然语言的方式与系统进行交互，提出问题、寻求帮助，甚至进行对话。这种交互方式更加符合人们的日常习惯和需求，使得使用者能够更加轻松地获取所需信息。此外，ChatGPT技术还可以利用上下文信息进行对话的理解和推理，提供更加智能化的回答。用户可以通过与ChatGPT的对话来得到更加有针对性的答案，获得更加个性化的服务。

然而，ChatGPT技术在知识库和信息检索领域也存在一些局限。首先是其对于语境的理解和推理能力有限。尽管ChatGPT能够利用上下文信息进行对话，但其对于长篇复杂文本的理解和推理能力相对较弱。在处理复杂问题时，ChatGPT可能会出现解读错误或产生不准确的回答。此外，ChatGPT还存在一定的偏见和不一致性。由于训练数据的局限性，ChatGPT模型可能会产生一些偏见和错误的判断。这对于知识库和信息检索系统来说是一个挑战，因为用户对于获取准确、全面、中立的信息有着很高的期望。

ChatGPT技术的语料库构建与优化方法

ChatGPT技术的语料库构建与优化方法近年来，自然语言处理技术取得了长足的进步，其中包括了人工智能领域中的ChatGPT技术。

ChatGPT能够通过机器学习和深度神经网络，在对话中生成连贯、实用的回答。

然而，要使ChatGPT具备较高的质量和智能，一个高质量和多样化的语料库是必不可少的。

本文将探讨ChatGPT技术的语料库构建与优化方法。

一、语料库构建构建一个高质量和多样化的语料库是训练ChatGPT模型的首要任务。

下面是一些常见的语料库构建方法：1. 文本抓取：通过网络爬虫和抓取工具，从互联网上抓取和收集具有多样性的文本数据。

这种方法需要注意合法使用和隐私保护，同时还需要处理不可靠的文本来源所造成的错误和噪声。

2. 众包：将任务发布给众多网络用户，要求他们提供句子、对话等文本数据。

这种方法可以覆盖各种领域和话题，并且能够借助人工智能平台对数据进行筛选和清洗。

3. 知识库利用：ChatGPT的设计初衷是为了提供实用的回答，因此可以利用已存在的知识库来训练ChatGPT。

这些知识库可以是百科全书、问答社区或是专业领域的知识库，这样可以提高ChatGPT回答的准确性和可靠性。

二、语料库优化构建语料库只是第一步，优化它则能改善ChatGPT生成回答的品质。

下面是一些常见的语料库优化方法：1. 数据清洗：对采集到的数据进行筛选和清洗，去除噪声、重复内容和不准确的信息。

可以利用自然语言处理工具和人工审核相结合的方式来清洗数据，确保数据的质量和一致性。

2. 数据增强：为了提供更加多样化的回答，可以通过增强数据的方式来扩展语料库。

例如，可以利用同义词替换、句子结构转换等技术对原始数据进行变换，生成新的句子和对话。

3. 样本均衡：为了保证ChatGPT生成回答的全面性和公正性，需要在语料库中保持不同类别和观点的样本均衡。

这样可以避免ChatGPT在回答问题时偏向某些特定观点或者类别。

4. 高质量样本强化：将在实际使用中ChatGPT生成的高质量回答作为新的样本，与训练数据集合并，以进一步提升模型的性能。

中文阅读理解语料库构建技术研究

２．山西大学山西太原０００）３０６
摘
要：阅读理解问答系统指的是能够自动分析问题生成一个答并
案的系统，有很高的研究价值。然而，乏中文阅读理解语料库已经成为制约汉语阅读理解问答系统发展的主具缺要障碍。本文对于中文阅读理解语料库的构建过程进行了详细的介绍，括语料选材、写问句，注答案句、包编标语料加工和评测机制，尤其是基于汉语框架语义知识库对语料进行了框架元素、语类型和句法功能三个层面标泣短
ａｄｄｖｌｐｎｆＣｈｎｓｎｅｅｏｍｅｔｏｉｅｅＱＡＲＣ．ＴｈａｅｅｃｉｅｎｄｔｉｔｅｐｏｅｓｏｕｌｉｇａＣｈｎｓａｉｇＣｏｅｐｐｒｄｓｒｂｓｉｅａｌｈｒｃｓｆｉｎｉｅｅＲｅｄｎｍｐｅｂｄｒ—
的深加工技术。
关键词：计算机应用；中文信息处理；阅读理解问答系统；文阅读理解语料库；语框架语义知识库中汉
中图分类号：Ｔ３１Ｐ９文献标识码：Ａ
ＡｓａｃｎＢｕｌｉｇｏｉｅｅＲｅｄｎｍｐｒｈｅｓｏｒｓＲｅｅｒｈｏｉｄｎｆＣｈｎｓａｉｇＣｏｅｎｉｎＣｏｐｕ

为中古汉语研究夯实基础中古汉语研究型语料库建设琐议

第12卷第1期燕山大学学报（哲学社会科学版）V ol.12No.1 2011年3月Journal of Yanshan University(Philosophy and Social Science Edition)Mar.2011一语料库自上个世纪70年代末以来在我国逐渐兴起、发展，取得了长足的进步。

从国内外形势来看，语料库语言学已经成为语言研究的主流。

古代汉语语料库与现代汉语语料库相比较而言，无论规模还是影响，都有明显的差距。

造成这种差距的原因是多方面的，随着计算机的发展和普及以及语言研究的需求，古代汉语语料库渐渐发展起来。

目前古代汉语语料库的类型主要有两种：一是文本型，一是数据库型。

文本型就是把纸质文献上的文字输入计算机，用文本软件自有或专用软件提供的搜索功能进行检索，它又可以分为平面型和层级型两种。

早期的文本型语料库从内容层级上讲只有一层，所以又被称为平面型语料库，它不分层，对原文与注疏合一的文本内容只能在同一个平面上共存，检索时无法指定内容范围是原文还是注或疏。

它的优点是制作相对简单，所以很多单位和个人都有不少的此类成果。

超文本技术使文本的构成由单层级发展为多层级，为区分原文和注疏提供了可能，尤其是XML语言的出现为制作多层级文本提供了方便、有力的工具。

华中科技大学尉迟治平老师制作的“数字化传统小学工具书”系列堪称目前古籍数字化的最佳代表，他们把多层级的古代语言学工具书制作成XML文档，能进行任一个层级的独立检索和多个层级的组合检索，这样可以把不同的人对同一原文的注疏随意检索，在《广韵》这样有很多又音、又切的多层级韵书中也可以随意指定层级进行检索。

XML的制作比前边纯粹的平面型文本要难一些，但是实现了多层级化。

文字数量不大的单本古籍XML检索速度还不错，如果文字数量大，XML就显得非常无力，因为它是文本，主要供阅读，毕竟与专门进行海量数据快速检索的数据库不同。

目前各种规模的流行数据库都支持与XML进行转换，使得XML文本的应用前景十分广阔。

“一带一路”背景下的韩汉双语新闻语料库建设思考

“一带一路”背景下的韩汉双语新闻语料库建设思考作者：刘轩周晗李旋来源：《科学导报·学术》2020年第46期摘; 要：语料库作为新型的外语教学资源，语料库建设为语言教学带来了教学理念、教学方法和教学模式的变革。

与英语语料库相比，韩语语料库的建设发展较为滞后。

本文总结了以英语为代表的语料库的发展历程，对韩语语料库的研究现状进行分析，进而探讨韩汉双语语料库建设的发展前景，期望对韩汉双语，特别是在对韩汉双语语料库的进一步研究和建设提供科学依据。

关键词：韩汉双语;新闻;语料库;建设随着“一带一路”战略的发展，我国与韩国之间在文化﹑经济﹑科技、军事、文化、学术及旅游等各方面的交流将日益频繁。

由于韩中两国各领域交往的不断深入，语言交流、分析及掌握两国新闻的舆情动向有着重要的作用，作为两国信息交流的主要载体，及时有效发现两国关系的新闻话题及新闻话题的发展演化变得尤为重要，韩语新闻语料库的建设应运而生。

韩汉双语新闻语料库的建设将为语料库语言学、经验主义语言研究提供更加专业化、规范化的资源。

因此，韩汉双语新闻语料库的建设变成了重中之重。

一、语料库的发展历程语料库发展的历史最早可追溯至18世纪至20世纪50年代，即语料库的萌芽阶段。

随着时代的发展，到了20世纪80年代语料库进入到第二代电子语料库时期。

但自上世纪九十年代起电子语料库时期，即基于语料库的语言对比研究和语言本体研究时期在世界范围内蓬勃发展。

在短短的二十多年里，世界上的语料库语言学研究发展很快，尤其是英语语料库逐渐成熟。

美国当代英语语料库（COCA）、英国国家语料库（BNC）、美国国家语料库（ANG）、牛津英语语料库（OEC）、柯林斯英语语料库（BOE）等则为具有代表性的语料库。

二、中韩两国韩汉双语语料库建设研究的现状在韩国，一些高校（延世大学、釜山外国语大学、加图立大学等）和研究机构韩语语料库建设日趋成熟，韩语新闻语料库的建设研究仍然在发展中。

在我国，韩汉双语语料库的研究沉寂滞后，关注点单一且缺乏成熟的理论和实践经验。

语料库语言学与ChatGPT在翻译研究中的应用

语料库语言学与ChatGPT在翻译研究中的应用语料库语言学和ChatGPT都是自然语言处理领域的重要研究方向，它们在翻译研究中也有广泛的应用。

语料库语言学是指利用自然语言语料库进行语言学研究的方法。

通过收集和管理大量的语言数据，人们可以从中提取出各种有用的信息，比如语言结构、语法规则、词汇使用、语言习惯等等。

这些信息对于机器翻译来说尤为重要，因为它们可以被用来训练机器翻译模型，提高翻译的准确性和流畅度。

ChatGPT是一种基于TmnSfOrmer架构的神经网络模型，它可以通过大量的语言数据进行无监督学习，从而生成高质量的文本。

在翻译研究中，ChatGPT可以用来生成机器翻译结果的上下文，提高翻译的连贯性和自然度。

在实际应用中，语料库语言学和ChatGPT也经常被用来解决机器翻译的一些问题。

比如，当机器翻译遇到生词或固定搭配时，可以利用语料库语言学中的知识，通过上下文信息来推测其含义，从而更加准确地翻译。

另外，在机器翻译中，ChatGPT也可以用来生成对话式的翻译结果，让翻译更加灵活自然。

总之，语料库语言学和ChatGPT在翻译研究中具有非常重要的应用价值，可以帮助提高机器翻译的准确性、流畅度和自然度。

一、语料库语言学与ChatGPT的意义（一）语料库语言学的意义语料库语言学是指通过对自然语言的真实使用形成的大规模语言数据进行分析和研究，以便更好地理解语言现象和规律的学科领域。

语料库语言学的出现为语言研究提供了丰富而可靠的实证研究材料，尤其是在计算语言学和自然语言处理领域研究中得到了广泛应用。

通过语料库语言学的研究，可以获得领域特定的词汇、语法结构和文化背景等信息，进而提高机器翻译、文本分类、信息检索等自然语言处理任务的准确性和效率。

（二）ChatGPT的意义ChatGPT是由OPenAl团队开发的基于TranSformer编码器-解码器架构的生成式预训练语言模型。

该模型通过对大规模语料库数据进行训练，可以实现对自然语言的生成与理解任务，如问答、摘要生成、对话生成等。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

语料库和知识库研究现状2015-12-9摘要：语料库是语料库语言学研究的基础资源，也是经验主义语言研究方法的主要资源，它与自然语言处理有着相辅相成的关系，是用统计语言模型的方法处理自然语言的基础资源。

知识库广泛应用于信息检索、机器问答系统、自动文摘、文本分类等领域，为进行大规模的真实性文本的语义分析提供了有利的支持，它也成为自然语言处理不可或缺的基础资源。

由于语料库和知识库的广泛应用，如今国内外对语料库和知识库的研究给与高度的重视，经过过去几十年的发展，各国在语料库和知识库的建设和应用方面都取得了不少成果。

本文通过对语料库与知识库相关文献资料的搜索整理，重点介绍目前国内外在语料库和知识库方面的研究现状。

关键词：语料库；知识库；研究现状1前言语料库是指按照一定的语言学原则，运用随机抽样的方法，收集自然出现的连续的语言文本或者说话片段而建成的具有一定容量的大规模电子文本库[1]。

而知识库是知识工程中结构化、易操作使用，全面有组织的知识集群，是针对某一（或某些）领域问题求解的需要，采用某种（或若干）知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。

语料库和知识库在传统语言研究、词典编纂、语言教学、自然语言处理等领域有重要作用，所以自从20世纪60年代第一个现代意义上的语料库——美国布朗语料库(Brown Corpus)诞生开始，大批国内外的专家学者致力于语料库和知识库的研究，近年来国内外对于语料库知识库的研究取得了重大的突破，形成了规模不一的各种语料库和知识库，并且涌现了众多有关语料库和知识库的专着、论文等。

对于语料库和知识库发展现状的总结研究，不仅可以帮助人们清楚的了解语料库和知识库当前发展的形势，对今后语料库知识库的发展具有一定的指导作用，而且对于应用语料库知识库发展自然语言处理等领域具有重要意义。

2研究意义从现代意义上第一个语料库出现以来,语料库在国内外的发展均有长足的进步,不但其规模越来越大,加工深度越来越深,而且有关语料库的应用也越来越广泛[2]。

语料库的迅速发展对语言学研究领域和应用语言学领域产生了巨大的作用。

在语言学研究领域,语料库为语言研究者和使用者提供了丰富而全面的研究素材,有助于研究者根据大量的语言素材实际得出客观正确的结论。

另外，语料库的现代化使得语言学家可以利用语料库分析软件实现语料检索和频率统计，帮助人们观察和把握语言事实，更为准确的得出结论。

在应用语言学领域，语料库技术与应用语言学的结合也产生了大量的实用成果。

比如，应用语料库产生一系列基于语料库的词典，应用语料库确定语言教学的教材提纲，提供外语教学与研究的良好平台等。

而知识库尤其是语言知识库，是帮助计算机了解人类语言的一个媒介和手段，也是让计算机逐渐智能起来的物质前提[3]。

知识库的构建对于自然语言处理的发展具有重要作用，可以满足其对语言句子语义知识的要求，在信息检索、机器问答系统、信息提取、机器翻译、文本分类、自动文摘等方面得到了广泛的应用。

鉴于以上介绍的语料库和知识库在当今研究中的重要作用，对于语料库和知识库发展现状的研究总结，可以帮助人们更好地了解语料库和知识库的现今已取得发展成果和尚未解决的问题，可以为人们对语料库知识库的进一步研究和应用提供一定的指导作用。

3国内发展现状语料库的发展与现状自1979年中国开始建立机器可读的语料库以来,国内语料库发展迅速，取得了相当一部分的成就。

（1）早期语料库早期在中国建立的机器可读语料库主要包括：1979年武汉大学建立的汉语现代文学作品语料库（527万字）、1983年北京航天航空大学建立的现代汉语语料库（2000万字）、1983年北京师范大学建立的中学语文教材语料库（106万8千字）以及1983年北京语言学院建立的现代汉语词频统计语料库（182万字）。

早期形成的这些语料库，基本都是手工方式建立的，成本高、效率低。

另外，在早期建立语料库时，只形成了初步的国家语料库的建立标准，在语料库建立的统一规范方面问题比较突出。

（2）国家级大型汉语语料库在1991年，为了推进汉语的词法、句法、语义和语用的研究，中国国家语言文字工作委员会开始建立计划规模达7000万汉字的国家级大型汉语语料库。

虽然该语料库当时在汉语语料库系统开发技术上具有国际领先水平，而且在语料的可靠和标注的准确方面等享有权威性，但是该语料库依靠纯手工建立，在选材方面也受到了一定的限制。

目前，该语料库已经具有2000万字的核心语料，经过人们的加工处理，其正在完成从生语料库到熟语料库的过度。

（3）大规模真实文本语料库随着技术的进一步发展，大规模真实文本语料库逐渐被建立起来。

研究大规模真实文本语料库的单位包括北京大学计算语言学研究所、清华大学、山西大学、哈尔滨工业大学、北京语言文化大学、东北大学、中科院软件研究所、中科院自动化研究所、香港城市大学以及台湾中央研究院等。

其中代表性成果有：北京大学计算语言学研究所从1992年开始开展对现代汉语语料库多级加工的研究，先后建成2600万字的1998年《人民日报》的标注语料库，2000万字汉字、1000多万英语单词的篇章级英汉对照双语语料库以及8000万字篇章级信息科学与技术领域的语料库等。

清华大学则在1998年建立了1亿汉字的语料库，它着重研究歧义切分的问题，如今建立的生语料库已达7-8亿字 [4]。

（4）双语语料库在20世纪90年代前后，随着外语教学的普及，先后出现了各种不同的双语语料库，比如：北大计算语言学研究所的双语语料库、哈尔滨工业大学的英汉双语语料库、东北大学的英汉双语语段库等英汉双语语料库，北京外国语大学的北京日本学研究中心建立汉语和日语并行语料库、中国海洋大学语言文学院研制的《蝴蝶》德汉对照语料库以及复旦大学计算机系建立的汉日英分类熟语料库。

在该时期，中国语料库的发展进入到全新的蓬勃时期。

双语语料库的迅速发展为外语教学提供了丰富的可用资源，对于外语教学的发展起到了巨大的推动作用。

（5）少数民族语言语料库由于我国民族众多，民族语言资源丰富，所以近年来，少数民族语言语料库的发展得到了大家的重视。

比如，新疆大学从2002年起开始建设现代维吾尔语语料库系统，目前已有生语料800万词；新疆师范大学建立了200万词的维吾尔语语料库，拟发展到300万词；中国社会科学院民族研究所建立了500万藏语字符的藏语语料库；内蒙古大学建立了带有初步切分和标注的蒙古语语料库[5]。

虽然由于少数民族语言的特殊性，少数民族语料库的建设还存在一系列问题，但是少数民族语言语料库的建立足以说明到目前为止我国语料库的发展已经达到了一个新的高度。

知识库的发展与现状在国内，现今比较知名的知识库是HowNet（知网）、基于WordNet框架开发的中文概念词典（CCD）以及台湾中研院的Sinica Bow[6]等。

从上世纪末开始，董振东先生就带领一批专家学者开始建立知网（HowNet），它是一个以汉语和英语的词语所代表的概念为描述对象，以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。

知网的发展从1988年展开基础研究开始到2008年发布“知网在线”共经历了九个过程。

现如今，中国知网的发展比较成熟，已经成为中国知识资源的总库，提供了工业、农业等众多学科的知识。

它不仅为语言信息处理的研发提供了丰富的知识资源，而且提供了一个进行汉语言计算机处理的新思路，其在词义标注、词义消歧、信息过滤、词义相似度的计算等许多领域得到广泛的应用。

CCD是基于WordNet框架开发的，他不仅继承了WordNet的一部分方法技术，而且根据汉语的特点对WordNet进行了改进，经过多年的努力，CCD已包含十万左右的汉语同义词集[7]。

台湾中研院开发的Sinica Bow支持英汉双语查询；多重语义索引等，并且Sinica Bow还包括了不同层次的词汇知识，词汇的可用资源丰富而全面。

4国外发展现状语料库的发展与现状从20世纪60年代开始，语料库从第一代逐渐发展到如今的第三代，这么多年来，各国在语料库的发展方面都取得了不菲的成绩。

（1）第一代语料库20世纪60年代Francis和Kucera在美国Brown大学建立美国布朗语料库(Brown Corpus)，它是世界上第一个根据系统性原则采集样本的标准语料库，主要代表当代美国英语的，具有100万词的规模。

70年代初，英国Lancaster大学、挪威Oslo大学与Bergen大学联合建立了与布朗语料库规模相当的 LOB 语料库，它主要代表当代英国英语。

LLC口语语料库(London-Lund Corpus of Spoken English)在1975年建成的，其规模为万词的并且带有详细的韵律标注。

总体来说，第一代语料库的规模比较小，基本采用系统的抽样方法并且基本都以语言研究为目的。

（2）第二代语料库COBUILD语料库（Collins Birmingham University International Language Database，科林斯英语语料库）是从20世纪80年代开始由英国伯明翰（Birmingham）大学和柯林斯（Collins）出版社合作建立的主要应用于词典编撰的一个大规模语料库，目前它固定在亿词的规模，并且提供在线检索。

同样在20世纪80年代朗文语料库委员会还建立了应用于英语学习词典编纂的Longman语料库（朗文语料库），目前其规模达5000 万词次。

由于技术的进步，第二代语料库采用交心的光电符号识别技术，拜托了手工建立的麻烦，节省了语料库建立的时间和成本，而且第二代语料库的规模与第一代语料库相比均有大幅度提高。

（3）第三代语料库美国计算机协会（ACL/DCI）倡议发起建立ACL/DCI语料库，其收集的语料来源广泛，而且采用了统一的标准通用标注语言和TEI文本编码倡议标准。

在20世纪80年代末90年代初，美国宾州大学开始对百万词级的语料进行句法和语义标注，把线性的文本语料库加工成为表示句子的句法和语义结构的树库，建立了宾州大学树库（PennTreeBank）。

到1993年已经完成了对300万词的英语句子进行了句法结构标注。

另外在2000年，其完成了约10万词、4185个句子的第一版中文树库。

随着发展，第三代语料库的语料从开始的单语种发展到多语种，规模从开始的百万级发展到亿级、万亿级，选取的文本从抽样发展到全文。

经过三个阶段，现如今除上述所列的语料库，国外还包括许多其他的语料库，总体来说，当今不仅中国的语料库发展迅速，在国外语料库也取得了巨大的发展成果。

知识库的发展与现状国外知识库的发展过程中，形成了以描写聚合关系为主的WordNet，以描写组合关系为主的FrameNet[8]。

本文将着重介绍WordNet，对于FrameNet不做详细叙述。