北京语料库检索使用说明

合集下载

语料库检索使用说明

本语料库是试用版，欢迎大家提出使用意见，以便将来改进。
本语料库由泰山学院文学与传媒学院秦存钢开发。目的是方便大家建立自己的语料库。
本语料库的特点是：
一、必须复制到硬盘运行，在光盘上不能保存检索结果。
二、以文件夹为单位检索，效率高，速度快。如果检索单篇文章，可以建立一个新文件夹（文件夹名任意），把单篇文章复制到该文件夹。
三、可以自由添Leabharlann 删除文献。在添加文件时，必须是TXT格式。大家可以从网上自由下载有关文档扩充您的语料库，欢迎把您整理的文档上传至现代汉语汉语教学论坛（）供大家自由下载使用。
四、支持编码齐全。目前TXT格式的文件分为ANSI格式、UNICODE格式、UNICODEbig endian格式、 UTF-8格式四种，本程序完全支持。生成的检索文件为UNICODE格式的TXT文本。
五、检索的结果统一放在“语料库检索系统.exe”所在盘符的“检索结果”文件夹，以您的检索词作为文件名。
联系方式：
sdqcg@

CCL语料库与检索系统方案

一关于CCL语料库及其检索系统（如果时间紧张，可直接跳到最后的举例部分！）1.1 CCL语料库及其检索系统为纯学术非盈利性的。

不得将本系统及其产生的检索结果用于任何商业目的。

CCL不承担由此产生的一切后果。

1.2 本语料库仅供语言研究参考之用。

语料本身的正确性需要您自己加以核实。

1.3 语料库中所含语料的基本内容信息可以在“高级搜索”页面上，点击相应的链接查看。

比如：“作者列表”：列出语料库中所包含的文件的作者“篇名列表”：列出语料库中所包含的篇目名“类型列表”：列出语料库中文章的分类信息“路径列表”：列出语料库中各文件在计算机中存放的目录“模式列表”：列出语料库中可以查询的模式1.4 语料库中的中文文本未经分词处理。

1.5 检索系统以汉字为基本单位。

1.6 主要功能特色：∙支持复杂检索表达式（比如不相邻关键字查询，指定距离查询，等等）；∙支持对标点符号的查询（比如查询“？”可以检索语料库中所有疑问句）；∙支持在“结果集”中继续检索；∙用户可定制查询结果的显示方式（如左右长度，排序等）；∙用户可从网页上下载查询结果(text文件)；二关于查询表达式本节对CCL语料库检索系统目前支持的查询表达式加以说明。

2.1 特殊符号查询表达式中可以使用的特殊符号包括8个：| $ # + - ~ !:这些符号分为四组：Operator1: |Operator2: $ # + - ~Operaotr3: !Delimiter: :符号的含义如下：（一） Operator1: Operator1是二元操作符，它的两边可以出现“基本项”（关于“基本项”的定义见2.2）（1） | 相当于逻辑中的“或”关系。

（二） Operator2：Operator2是二元操作符，它的两边可以出现“简单项”（关于“简单项”的定义见2.3）（2） $ 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。

两个“简单项”之间相隔字数小于或等于Number（3） # 表示它两边的“简单项”出现于同一句中，不考虑前后次序。

语料库的分类、创建和检索简述

语料库的分类
语料库的分类
根据不同的标准，语料库可以分为多种类型。常见的语料库类型包括： 1、通用语料库：包含来自不同领域、不同语言的语料，适用于广泛的研究和应用领域。
语料库的分类
2、专业语料库：针对特定领域或专业构建的语料库，例如医学、法律、金融等。
3、口语语料库：包含口头语言材料，如录音、口语表达等。
二、图像分类技术
另外，降维技术也可以用于图像分类。降维技术可以将高维的图像特征降维到低维的空间，从而使得分类更加简单和高效。常用的降维技术有PCA、t-SNE和 autoencoder等。
三、图像语义检索与分类技术的研究现状
三、图像语义检索与分类技术的研究现状
近年来，图像语义检索和分类技术的研究取得了显著的进展。在图像语义检索方面，研究者们提出了多种基于内容、语义相似度和向量空间模型等方法。在图像分类方面，SVM、神经网络和降维技术等算法的应用取得了重要突破。
一、图像语义检索技术
图像语义检索是指通过自然语言描述或者用户提交的查询关键词，从图像库中检索出与查询相关的图像。近年来，研究者们提出了多种图像语义检索的方法。
一、图像语义检索技术
基于内容的图像语义检索是通过分析图像的内容，提取出图像的特征，然后根据这些特征进行检索。例如，可以通过提取图像的颜色、纹理、形状等特征进行检索。另外，还可以利用深度学习技术，如卷积神经网络（CNN）来提取图像的特征，提高检索的准确性。
语料库的创建
此外，为了便于语料库的管理和检索，需要构建语料库的索引和词典。索引可以记录每个单词在语料库中出现的位置和频率，而词典则包含了单词的语义信息和语法信息等。最后，语料库的创建还需要注意保证数据的安全性和隐私保护。

多语种在线语料库检索平台使用简明手册

）
大学
教授创建的系列语料库检索界面（
）。类似的
在线语料库检索系统还有
、、
、
等。而当前主
流的语料库工具属于第三代，其中以
、
和
等为代表。
第四代语料库工具，将语料库与分析工具合二为一，越来越受到普通用户的青睐。在线
语料库工具通常将语料库文本按特定格式建成索引（），存储在服务器上。用户检索响
应速度要远高于三代软件在本地电脑上的检索速度。其操作也较三代语料库软件简便得多。
之间的距离）
出现次数
检索词、中心词、节点词
查询结果每页显示的行数
查询、检索
限定条件查询
直译：在个不同文本中返回
个匹
配项
意译：在个文本中查到
例子
查询结果按中心词排序
简单查询（不区分大小写）
词语相关查询
附录：复杂检索举例（查询时，选择
）
单词检索：
、
、
词码混合检索：
、
、
、
、
近义词批量检索：
、
北外语料库语言学团队网站：
表：查询结果后续操作分项功能表
新查询，返回语料库检索首页
查询结果随询结果排序设定
搭配计算
下载保存查询结果
键，即可
（随机取样），比如，可从万行结果中，随机抽取行。
（频数分解）表示在进行复杂查询时，对命中的不同词项分别计
算频数。比如，查询
时，会按这个词
结果；
（）计算特定词语在语料库中的典型搭配（
）；
（）计算语料库中的核心关键词（
），等。
1
、
使用实例
标准查询模式
在简单查询模式（

国家语言资源监测语料库介绍

国家语言资源监测语料库介绍何婷婷杨尔弘侯敏华中师范大学计算机科学系国家语言资源监测与研究中心网络媒体语言分中心北京语言文化大学国家语言资源监测与研究中心平面媒体语言分中心中国传媒大学国家语言资源监测与研究中心有声媒体语言分中心2005年，教育部语言文字信息管理司开始和国内若干高校陆续联合建设语言资源监测中心，其中包括与北京语言文化大学共建的平面媒体语言分中心、与中国传媒大学共建的有声媒体语言分中心、与华中师范大学共建的平面媒体语言分中心。

这三个分中心分别建设了平面媒体动态流通语料库、有声媒体监测语料库、网络媒体监测语料库，它们共同构成国家语言资源监测语料库。

语料库包括网页、纯文本，并采用中科院自动化所的自动分词工具做了自动分词。

欢迎各界同仁共同开发、建设使用该语料库。

1、语料库现状1.1 平面媒体动态流通语料库（DCC）平面媒体语言分中心自2001年以来，每年根据“发行量、发行地域、发行周期、媒体价值、阅读率”等因素，选择15种网络版报纸的内容，作为平面媒体动态流通语料库的语料采集内容，目前，已经形成了近30亿字的语料库。

语料进行了元数据的标注、自动分词标注，语料库提供了生语料、分词标注语料的检索功能，并能够历时地查询词语使用的情况。

网址/。

根据网页栏目的分类体系，所有语料进行了分类。

类别包括15类：娱乐，游戏，文艺，体育，时政新闻_社会，时政新闻_军事，时政新闻_国内，时政新闻_国际，生活男女，汽车，旅游，科技，经济，教育，房产。

为实现语料库中的文本分类，建立了60万个文本的训练语料，语料规模约6亿字次。

1.2有声媒体监测语料库有声媒体语言分中心自2001年开始语料库的建设。

到目前为止，已建起一个多功能的、跨媒体的汉语传媒有声语言语料库。

每年以收视率为基本条件，综合考虑了“传播媒介（广播、电视）、媒体级别（中央、地方）、播出时间（黄金时间、非黄金时间）、节目样态（独白、对话、综合）、文本现存（是否有转写好的文本）”五个因素，采集了电台、电视台播出的有声节目的录音或录像及由其转写成的文本语料。

国家语委语料库使用方法

吃+<10+(!大+<>)亏
表示查询任意词类的 “吃” 与任意词类的 “亏” 共现的例句，且两词之间距离小于 10 个词，同时 “亏” 前任意距离内不出现任意词类的 “大”；
就+<>+吃+<10+(!大+<>)亏
表示查询任意词类的 “就” 与任意词类的 “吃” 及任意词类的 “亏” 共现的例句，且 “就” “吃” 两词之间距离为任意距离，“吃” “亏”
动词词类的 “吃” 要在检索出的例句中出现，同时 “吃” 前 3 个词之内有副词词类的 “不” 的例句不包括在检索出的例句中。
ｃ．共现项(距离限制项+!共现项)；吃/ｖ(<3+!不/d)
ｄ．(!共现项+距离限制项)共现项(距离限制项+!共现项)； (!不/d+<3)吃/ｖ(<3+!不/d)
2. 查询表达式的组成
注意： ?表达式中没有空格； ?表达式结束处没有回车； ?表达式中所有的非汉字符号都是英文半角符号； ?请不要在表达式中随意插入空格或者换行符或使用全角英文符号；
注意：共现词之间必须有距离限制项，至少是 “<>”（表示不限制距离），如果不写距离限制项（如：“吃+亏”）将导致表达式书写错误，无法查询。
2. 查询表达式的组成
（４）简单表达式 : 由共现项和不共现项组成ａ．共现项；ｂ．(!共现项+距离限制项)共现项；ｃ．共现项(距离限制项+!共现项)；ｄ．(!共现项+距离限制项)共现项(距离限制项+!共现项)；

语料库使用方法

语料库使用方法
一、语料库的使用方法
1.登录语料库
首先在网站上登录语料库，根据自己的需要进行搜索，找到自己需要的语料库，然后将语料库添加到自己的收藏夹中。

2.访问语料库
然后可以通过在网站上进行搜索的方式来访问语料库，例如可以通过关键字来定位资源，还可以根据文档格式进行筛选，以及根据语料库的主题类型来进行选择。

3.下载语料库
在访问到语料库之后，可以将其下载到本地，根据语料库的下载格式可以进行转换，以更方便使用。

4.分析语料库
最后，在下载完的语料库中，可以进行文本分析，例如可以进行词频统计，情感分析，句法分析等，以更好地挖掘语料库的宝贵信息。

常用在线语料库使用简介

COCA
6.1.1 检索某一词形
在显示方式区选择KWIC 并再次点击search，可得含有“feature”的词语索引（图6.1.1-4）
图6.1.1-4
COCA
6.1.2 检索某一词性的单词
输入“feature.[v*]”，可得到“feature”做动词时的使用情况（图6.1.2-1）
Ⅰ 显示及查询条件界定区，包括：显示方式区，字串查询区，语料库分类区，查询结果排列方式区。
Ⅱ 查询结果数据显示区
Ⅲ 例句显示区
COCA
5. COCA界面简介（图5-1）
/coca/ 显示方式区
图5-1
COCA
5. COCA界面简介（图5-1）
或者“制度，观点”的词搭配
图6.2-2
COCA
6.2 检索搭配词
点击conditions可进一步观察prevail的语境（图6.2-3）
通过观察例句，我们发现与prevail共现的conditions常有消极意义的词修饰，例如harsh, precarious, daunting, severe, colder and drier, dangerous等
——以BNC、COCA和Sketch Engine 为例
One-word Introduction
英国国家语料库(British National Corpus/BNC): 库容1亿词的现代英式英语样本集合，文本来源广泛，其中书面语占90%，口语占10%。
美国当代英语语料库((Corpus of Contemporary American English/COCA): 库容为4.5亿词的大型平衡语料库，含有多个字库，具有多种检索功能，可免费在线使用。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

北京语料库检索使用说明首页一关于CCL语料库及其检索系统二关于查询表达式2.1 特殊符号2.2 基本项2.3 简单项2.4 复杂项2.5 过滤项2.6 子句2.7 查询表达式三关于查询结果四在结果中查找五举例一关于CCL语料库及其检索系统1.1 CCL语料库及其检索系统为纯学术非盈利性的。

不得将本系统及其产生的检索结果用于任何商业目的。

CCL不承担由此产生的一切后果。

1.2 本语料库仅供语言研究参考之用。

语料本身的正确性需要您自己加以核实。

1.3 语料库中所含语料的基本内容信息可以在“高级搜索”页面上，点击相应的链接查看。

1.5 检索系统以汉字为基本单位。

2.1 特殊符号查询表达式中可以使用的特殊符号包括7个：| $ # + - ~ !这些符号分为三组：Operator1: |Operator2: $ # + - ~Operaotr3: !符号的含义如下：（一） Operator1: Operator1是二元操作符，它的两边可以出现“基本项”（关于“基本项”的定义见2.2）（1） | 相当于逻辑中的“或”关系。

两个“简单项”之间相隔字数小于或等于Number（3） # 表示它两边的“简单项”出现于同一句中，不考虑前后次序。

两个“简单项”之间相隔字数小于或等于Number（4） + 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。

两个“简单项”之间相隔字数刚好等于Number（5） - 表示它左边的“简单项”出现于句子中，并且，在右边相隔Number 个字的范围内，-号右边的“简单项”不出现。

（6） ~ 表示它左边的“简单项”出现于句子中，并且，在左边相隔Number 个字的范围内，~号右边的“简单项”不出现。

（三）Operator3：Operator3是一元操作符。

（7） ! 表示它后面的“简单项”是本次查询的主关键字符串，显示查询结果时以该“简单项”作为中心来进行定位。

注意： Operator2后面的Number是必须的，不能省略。

Number=0表示相邻,Number=1表示间隔1个单位，其余依此类推。

2.2 基本项指不包含特殊符号和空格的连续字符串2.3 简单项简单项可以由以下三种形式的序列组成（1）基本项（2）基本项1 Operator1 基本项2 Operator1 ...（3） (基本项1 Operator1 基本项2 Operator1 ...)注意：在实际表达式中，Operator1 前后不能有空格2.4 复杂项复杂项可以由以下三种形式的序列组成（1）简单项（2）简单项1 Operator2 Number 简单项2（3）简单项1 Operator2 Number Operator3 简单项2其中第二种形式，等价于 Operator3 简单项1 Operator2 Number 简单项2，换句话说，如果以第一个简单项作为查询结果的显示中心，！可以省略。

注意：Number为0和正整数。

Operator2，Operator3前后均不能有空格2.5 过滤项过滤项可以包含以下表达式：（1）author:简单项（2）name:简单项（3）path:简单项（4）type:简单项（5）pattern:简单项（“author:简单项”的含义是指“author:”后面跟的表达式是上面2.3“简单项”所定义的字符串，其余类推）注意：通过指定过滤项中author（作者），name（篇名），path（文件路径），type （文章类型），用户可以缩小查询语料的范围。

其中过滤项pattern专门用于查询汉语中的各种模式，比如“AABB”这样的重叠形式，“AB不AB”这样的反复问形式，等等。

比如:想查询“老舍”的语料，在查询表达式中输入“author:老舍”即可；想查询唐代语料，在查询表达式中输入“path:08唐”即可（唐代语料均放在包含“08唐”目录下）。

想查询唐代语料中“给”的使用情况，可以在查询表达式中输入“path:唐给”。

（“path:唐”跟关键字“给”之间需有空格隔开）想查询“老舍”先生的文章中“A来A去”的用法，在查询表达式中输入“author:老舍 pattern:A来A去”即可。

各过滤项的具体取值，用户可以在“高级搜索”页面中查到（参见上文1.2）。

下面是古代汉语语料一级目录列表：01周02春秋03战国04西汉05东汉06六朝07隋08唐09五代10北宋11南宋12元13明14清15民国全元曲全唐诗全宋词大藏經诸子百家2.6 子句子句可以是以下两类表达式：（1）复杂项（2）过滤项2.7 查询表达式查询表达式可以是以下形式的序列：（1）子句（2）子句1 子句2 ...（子句和子句之间需要以空格隔开，表示逻辑“AND”关系）三关于查询结果1 每次查询，网页上最多列出5000条结果（分页列出，每页50条）。

2 用户可以将查询所得结果保存到自己本地计算机的磁盘上。

在查询结果显示网页上，用户可以根据需要指定下载结果的条数（缺省为500条），点击“下载”按钮，查询结果即以txt文件形式保存到本地磁盘上。

每句之后在【】内注明了该句的出处、作者、路径等信息。

（如果条数较多，文件会比较大，下载速度缓慢，请耐心等待，不要重复提交下载请求）。

3 查询结果以“句”为单位输出显示，用户可以指定查询结果的显示长度（左右n个字范围）。

小提示：如果想显示查询关键字所在的整句，可以通过指定足够大的显示长度（比如1000）来实现。

当用户指定的显示长度超过句长时，以句长为限显示结果。

4 关于查询结果的“标亮”和“定位”显示标亮词：在句子中以红颜色标出的词，可以有多个；中心词：是一个特殊的标亮词，显示查询结果的每个句子时，以“中心词”为网页中心位置对齐。

小提示：（1）查询表达式中的“复杂项”和“过滤项”中的pattern项目都可以作为“标亮词”。

这里“标亮词”是指跟“标亮词”匹配的句子片断。

（2）默认的中心词是第一个“标亮词”，即在用户没有用Operator2指定“中心词”的情况下，系统自动把第一个“标亮词”当作“中心词”。

如果用户用Operator2指定了“中心词”，那么该词为用户指定的“中心词”。

5 关于查询结果的“排序”用户可以指定按照“中心词”左边字符串排序，或按照“中心词”右边字符串排序。

排序方式为字符内码（GB码）降序。

四在结果中查找对于复杂的查询要求，可以尝试通过多次查询完成，即利用“在结果中查找”功能，逐次逼近检索目标。

比如：您想查找“宁可……也”的例句，同时不希望“也”后面出现“不”这样的否定词。

您可以先输入查询表达式“宁可$10也”，返回的结果是包含“宁可”和“也”，且二者相隔10字以内的句子，然后您再输入查询表达式“也-4不”，这样就可以把“也”后面4字范围内有“不”的句子剔除掉了。

五举例查询式例子 1:计算机硬件意思是: 查出所有包含“计算机硬件”的句子。

查询式例子 2:把被意思是: 查出所有包含“把”，同时也包含“被”的句子，即两个关键字之间无次序限制，无距离限制，只需要在一句范围内。

查询式例子 3:把|被意思是: 查出含有“把”或“被”的句子，两个关键字只需有一个在句中出现，就作为查询结果输出。

查询式例子 4:把-4不意思是: 查出含有“把”，但在“把”右边4个字范围内不含“不”的句子。

注意：- 号属于opertaor2，其后必须有数字，且不能有空格。

查询式例子 5:给~4把意思是: 查出含有“给”，但在“给”左边4个字范围内不含“把”的句子。

注意：~ 号属于operator2，其后必须有数字，且不能有空格。

查询式例子 6:与其$10不如意思是: 查出同时含有“与其”和“不如”的句子，并且“与其”在先，“不如”在后出现，间隔10字以内。

查询式例子 7:能力#3大意思是: 查出同时含有“能力”和“大”的句子，且“能力”和“大”之间的间隔在3个字之内，二者的先后次序不受限制。

查询式例子 8:吃+3亏意思是: 查出同时含有“吃”和“亏”的句子，并且“吃”在先，“亏”在后出现，二者之间刚好间隔3个字。

查询式例子 9:被$10!给意思是: 查出同时含有“被”和“给”的句子，并且“被”在先，“给”在后出现，二者之间间隔10个字以内。

显示查询结果时，以“给”为“中心词”，即“给”居中对齐。

查询式例子 10:(把|被)$10给意思是: 查出同时含有“把”和“给”的句子，并且“把”在先，“给”在后出现，二者之间间隔10个字以内。

或者，查出同时含有“被”和“给”的句子，并且“被”在先，“给”在后出现，二者之间间隔10个字以内。

查询式例子 11:(把|被)$10!给意思是: 查出同时含有“把”和“给”的句子，并且“把”在先，“给”在后出现，二者之间间隔10个字以内。

或者，查出同时含有“被”和“给”的句子，并且“被”在先，“给”在后出现，二者之间间隔10个字以内。

显示查询结果时，以“给”为“中心词”，即“给”居中对齐。

查询式例子 12：了$0(。

|？|，|！)意思是：查出“了”与标点符号“。

？，！”等紧邻出现的句子。

这实际上就部分地达到了查询“句尾了”（汉语学界一般所说的“了2”）的目的。

查询式例子 13：所以 path:13明|14清意思是：在古代汉语语料中查“明代”和“清代”文献中“所以”的用例。

2006.01。