CCL语料库及其检索系统
基于COCA语料库和CCL语料库的翻译教学探索_朱晓敏

基于COCA语料库和CCL语料库的翻译教学探索南京大学 常熟理工学院 朱晓敏 提 要:从上世纪80年代起,作为一种研究语言现象和语言本质的新模式,语料库语言学取得了令人鼓舞的成就。
语料库已经渗透到语言研究的各个领域。
翻译研究领域里使用的语料库多为双语平行语料库和翻译语料库。
单语语料库与翻译研究相结合,尤其是与翻译教学相结合,是一个鲜有人探索的未知领域。
在课堂上使用可以免费获取的美国杨百翰大学的英语单语语料库(COCA语料库)和北京大学汉语语言学研究中心的汉语单语语料库(CCL语料库)能改变传统翻译教学模式,为翻译教学的改革提供借鉴。
关键词:语料库,COCA,CCL,翻译教学一、引言作为一个新的研究领域,一种全新的探究语言现象和语言本质的方法,语料库语言学在上世纪80年代得到了蓬勃的发展。
韩礼德(1993:24)曾指出:“语料库语言学将数据收集与理论论述有机地结合在一起,使我们对语言的理解发生了质的变化”(转引自王克非,2004:4)。
根据收集语料的语言种类,语料库可分为单语语料库(monolingual corpus)和双语/多语语料库(bilingual/multilingual corpora)。
前者仅采用一种语言的语料,通过大量收集本族语者的语言实例而建成;而后者是由两种或两种以上的语言文本构成的语料库,它可以有对应/平行的、类比的和翻译的三种形式。
单语语料库的研发历史要追溯到上世纪50年代末,由夸克等人在伦敦大学率先建立起现代意义上的语料库,即“英语用法调查”(Survey of English Usage)。
到目前为止,比较大型的英语单语语料库有BNC英国国家语料库,CBECobuild 英语库,Brow n布朗语料库,美国杨百翰大学M ark Davis教授主持的美国当代英语语料库(Corpus of Contempo rary American English,简称COCA语料库),汉语的有北京大学汉语语言学研究中心的CCL汉语语料库等。
对外汉语网上资源

电子资源库:(一)综合网国家汉办网/该网站由国家汉语国际推广领导小组办公室主办,提供国内外有关对外汉语教学的新闻、H S K考试的有关规定及资讯、对外汉语教学师资培训及考试的有关规定。
“HSK动态作文语料库”http://202.112.195.8/hsk/login.asp本语料库是母语非汉语的外国人参加高等汉语水平考试(HSK高等)作文考试的答卷语料库,收集了1992-2005年的部分外国考生的作文答卷,共计10740篇,约400万字。
后经补充,语料总数达到11569篇,约430万字。
本语料库是母语非汉语的汉语学习者学习汉语的中介语语料库。
运用本语料库中的作文语料,可以进行对外汉语教学的多方面研究。
中国华文教育基金会/该网站内容丰富,包括文化传承、华校动态、网上教学、汉考消息、文化时评、汉语课堂、学生习作等栏目。
我的中文网/由加拿大“我的中文网”网络公司主办,主要是面向加拿大的华人华侨以及北美地区以英语为母语的中文学习者。
网站内容包括:中国及世界其他地区的世界汉语教学最新资讯、H S K考试最新消息、网上中文教学以及网友们之间的交流等。
中文教育网/index.htm由北京东大正保集团主办,包括汉语学堂(名家朗诵、生活汉语、旅游汉语等)、关于中国(中国地理、中国气候、民族文化、中国旅游、中华美食等)、趣味汉语等栏目。
网络孔子学院/index.htm它是“汉语国际推广北京基地”的组成部分,该网站提供中国之声、在线学习(快乐汉语、简易汉语、奥林匹克汉语、快乐旅行)、语言资源、感受中国、博客、论坛等栏目。
外国人在中国/汉语知识,网站文字以英文为主。
对外汉语交流信息网/有关对外汉语各类新闻信息及链接。
汉语世界/发布对外汉语最新动态、新闻交流、实习信息。
中国语言文字网/index.htm由国家语言文字工作委员会主办,教育部语言文字应用研究所承办,包括语文工作、民族语文、中文信息处理、对外汉语语料库等。
中国语言资源网/国家语言资源监测与研究中心,华中师范大学承办,它提供了语料库检索系统。
语料库

3 语料库的设计
语料库三方面 A. 语料本身
属性 规模 领域
体裁 时代 语体 语种
语言层次
值
百万词级 | 千万词级 | 亿万词级 | … 政治 | 经济 | 体育 | 心理学 | …
文学 | 应用文 | 新闻 | …
共时 | 历时 书面语 | 口语 单语 | 双语 | 多语 双语平行语料库 | 双语比较语料库 语音(音节,韵律) | 语法(词,句,…)
11
第二代语料库
建于1980年代,由英国Birmingham大学 与Collins出版社合作完成,规模达2000 万词次,基于该语料库出版的Collins Cobuild词典(1987)受到了广泛的好评
COBUILD语料库 Longman语料库
千万词级 词典编纂 - 应用导向
建于1980年代,包括三个语料库: LLELC语料库(Longman/Lancaster英语语料库) LSC语料库(Longman口语语料库) LCLE(Longman英语学习语料库) 目标是编撰英语学习词典,为外国人学习英语服 务,词典规模达5000万词次
7
London-Lund英语口语语料库部分标记
标记
含义
#
语调群的结束 (end of tone group)
^
语音开始 (onset)
/
上升型核心语调 (rising nuclear tone)
\
下降型核心语调 (falling nuclear tone)
^
先升后降型核心语调 (rise-fall nuclear tone)
检索工具 | 人机界面 | 数据接口 | … 16
语料的选取
精品原则 有影响力原则 随机挑选原则 高流通度原则 典型性原则 易于获得原则 具有统计样本意义原则 符合语言规范原则
CCL语料库与检索系统方案

一关于CCL语料库及其检索系统(如果时间紧张,可直接跳到最后的举例部分!)1.1 CCL语料库及其检索系统为纯学术非盈利性的。
不得将本系统及其产生的检索结果用于任何商业目的。
CCL不承担由此产生的一切后果。
1.2 本语料库仅供语言研究参考之用。
语料本身的正确性需要您自己加以核实。
1.3 语料库中所含语料的基本内容信息可以在“高级搜索”页面上,点击相应的链接查看。
比如:“作者列表”:列出语料库中所包含的文件的作者“篇名列表”:列出语料库中所包含的篇目名“类型列表”:列出语料库中文章的分类信息“路径列表”:列出语料库中各文件在计算机中存放的目录“模式列表”:列出语料库中可以查询的模式1.4 语料库中的中文文本未经分词处理。
1.5 检索系统以汉字为基本单位。
1.6 主要功能特色:∙支持复杂检索表达式(比如不相邻关键字查询,指定距离查询,等等);∙支持对标点符号的查询(比如查询“?”可以检索语料库中所有疑问句);∙支持在“结果集”中继续检索;∙用户可定制查询结果的显示方式(如左右长度,排序等);∙用户可从网页上下载查询结果(text文件);二关于查询表达式本节对CCL语料库检索系统目前支持的查询表达式加以说明。
2.1 特殊符号查询表达式中可以使用的特殊符号包括8个:| $ # + - ~ !:这些符号分为四组:Operator1: |Operator2: $ # + - ~Operaotr3: !Delimiter: :符号的含义如下:(一) Operator1: Operator1是二元操作符,它的两边可以出现“基本项”(关于“基本项”的定义见2.2)(1) | 相当于逻辑中的“或”关系。
(二) Operator2:Operator2是二元操作符,它的两边可以出现“简单项”(关于“简单项”的定义见2.3)(2) $ 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。
两个“简单项”之间相隔字数小于或等于Number(3) # 表示它两边的“简单项”出现于同一句中,不考虑前后次序。
汉语中介语语料库介绍

四 常用中介语语料库
(一)北语HSK动态作文语料库 (二)中山大学中介语语料库 (三)暨南大学中介语语料库
(一)北语HSK动态作文语料库
北语HSK作文语料库是在北京语言大学崔希亮教授的主持下开发建 成的。它以母语为非汉语的外国人参加高等汉语水平考试 ( HSK高等 ) 作文考试的答卷内容为语料,并从字、词、句、篇、标点符号等角度进行 全面标注,语料收集的时间范围是 1992 -2005年。语料总数达到11569 篇 ,共计 424万字,是目前汉语中介语语料库中规模最大的语料库。北 语HSK作文语料库是最早在网上公布偏误标注规范的中介语语料库,因 此之后的许多语料库在进行偏误分类标注时,都以它为基础,做适当的 修改。 北语HSK作文语料库 http://202.112.195.192:8060/hsk/login.asp(维护中)
五 意义和局限
中介语语料库的建立 ,是为了更好地进行汉语中介语研究、第二语言习 得研究、对外汉语教学理论研究、对外汉语教材研究、汉语水平考试研究 以及与对外汉语教学相关的汉语本体研究等等,对于提高汉语教学、汉语 测试 、汉语本体研究等方面的水平都具有重要的意义。但是,现有的语料 库绝大多数都是书面语语料库,口语语料库很少,多模态语料库尚无建成 者。此外,现有中介语语料库的偏误分类和标注以语法为主,缺乏语义和 语用角度的分析。 对汉语中介语语料库建设提出以下几点建议 : 1.语料处理应该注意平衡性 : 主要是注意不同国别和不同汉语等级水平在 语料数量上的平衡 。 2. 加工标注应该进一步完善 : 尽量做到标注符号表达方式的一致和标注结 果的正确。在可能的情况下对语料作更多的深加工。 3. 应该注意界面设计的友好: 做到在检索语料时简单方便 ,在获取语料时足 量快捷 ,在解读语料时清楚易懂。
语料库的分类\创建和检索简述

语料库的分类\创建和检索简述随着计算机技术的发展,语料库开创了新的研究方向,引起了越来越多的注意。
本文将简单介绍语料库的概念、分类、创建和检索及其在应用中的优越性和局限性,使相关爱好者初步了解语料库这一新的范畴。
标签:语料库;平行语料库;类比语料库;创建;检索1.引言自20世纪中期, 美国布朗大学创建了世界上第一个语料库,即标准美国英语布朗语料库,开创了语料库研究的先河,到20世纪80年代,这一星星之火开始渐渐有燎原之势,上海交通大学杨惠中教授便在这一崭新的浪潮之下,于80年代中期率先建成中国第一个真正意义上的语料库,即上海交大英语科技语料库、接着像中国学习者英语语料库、大学英语学习者口语英语语料库、北外的汉英汉日平行语料库等陆续建成,并且还吸引了一些教授、博士生、硕士生的目光,开始把研究方向转向语料库研究,为中国语料库研究的发展注入了新的力量,同时也推动了基于语料库的语言学研究和翻译研究的发展.2.语料库的定义及分类语料库是以计算机储存大量的真实语料,对语料做各种带有研究目的的加工标注,利用研制的检索工具对标注语料进行快捷的搜寻和分类,以发现并分析以往因条件限制而未能注意的语言现象(王克非,2004)。
研究的性质和需要决定着语料库的性质,根据语料库中收集语料的种类多少可以分为,单语语料库、双语语料库和多语语料库(王克非,2004)。
单语语料库指只收集一种语言的语料库,早期开发的语料库大多都是单语的,如布朗语料库。
双语语料库指收集两种语言文本的语料库。
多语语料库指收集两种以上语言文本的语料库。
而双语和多语语料库又可以分为平行语料库、类比语料库和翻译语料库三类。
平行语料库又可称为对应语料库,是由原文和它对应的译文文本构成的,可以有词语、句子和段落三种级别的对应关系;类比语料库是由同一语言不同变体的文本或不同语言的文本构成;翻译语料库是由具有翻译关系的不同语言的文本构成,它和平行语料库的区别在于,它仅仅只是篇章上的对应关系,不一定有其它级别的对应关系如词语、句子和段落等。
语料库的分类、创建和检索简述

语料库的分类
语料库的分类
根据不同的标准,语料库可以分为多种类型。常见的语料库类型包括: 1、通用语料库:包含来自不同领域、不同语言的语料,适用于广泛的研究和 应用领域。
语料库的分类
2、专业语料库:针对特定领域或专业构建的语料库,例如医学、法律、金融 等。
3、口语语料库:包含口头语言 材料,如录音、口语表达等。
二、图像分类技术
另外,降维技术也可以用于图像分类。降维技术可以将高维的图像特征降维 到低维的空间,从而使得分类更加简单和高效。常用的降维技术有PCA、t-SNE和 autoencoder等。
三、图像语义检索与分类技术的 研究现状
三、图像语义检索与分类技术的研究现状
近年来,图像语义检索和分类技术的研究取得了显著的进展。在图像语义检 索方面,研究者们提出了多种基于内容、语义相似度和向量空间模型等方法。在 图像分类方面,SVM、神经网络和降维技术等算法的应用取得了重要突破。
一、图像语义检索技术
图像语义检索是指通过自然语言描述或者用户提交的查询关键词,从图像库 中检索出与查询相关的图像。近年来,研究者们提出了多种图像语义检索的方法。
一、图像语义检索技术
基于内容的图像语义检索是通过分析图像的内容,提取出图像的特征,然后 根据这些特征进行检索。例如,可以通过提取图像的颜色、纹理、形状等特征进 行检索。另外,还可以利用深度学习技术,如卷积神经网络(CNN)来提取图像 的特征,提高检索的准确性。
语料库的创建
此外,为了便于语料库的管理和检索,需要构建语料库的索引和词典。索引 可以记录每个单词在语料库中出现的位置和频率,而词典则包含了单词的语义信 息和语法信息等。最后,语料库的创建还需要注意保证数据的安全性和隐私保护。
基于CCL语料库的古代汉语原因介词“因”的历时研究

摘 要本文主要对古代汉语中原因介词“因”的发展历程进行研究。
笔者先利用CCL语料库获取语料。
然后,根据其使用频率的高低,将它的发展过程分为四个阶段:萌芽阶段、产生阶段、发展阶段和鼎盛阶段。
之后,分别分析每个阶段变化的原因和特点。
最后总结归纳原因介词“因”的动态特点及其发展规律。
第一章原因介词“因”的萌芽。
本章主要对先秦时期原因介词“因”的使用情况进行分析。
第一节主要概述萌芽时期它的使用情况。
第二节主要分析萌芽的原因。
原因主要有三个:转化因子的存在;宾语的虚化;句法结构的变化。
第三节主要归纳萌芽时期的特点。
特点主要有三个:出现次数少,使用频率低;一词多用,身兼数职;表原因的部分多出现在“因”的后面。
第二章原因介词“因”的产生。
本章主要对秦、汉至唐、五代时期原因介词“因”的使用情况进行分析。
第一节主要概述产生时期的使用情况。
第二节主要分析产生的原因。
原因主要有三个:句子结构日益复杂;双动词句大量出现;以及介词“因”内部功能的分化。
第三节主要归纳产生时期的特点。
特点主要有三个:出现次数增多,使用频率较高;介词“因”内部功能逐渐分化;真正表原因的部分多出现在“因”的前面。
第三章原因介词“因”的发展。
本章主要对宋、元、明时期的原因介词“因”的使用 情况进行分析。
第一节主要概述发展时期的使用情况。
第二节主要分析发展的原因。
原因主要有三个:介词范畴内部分工进一步明确;“因”在介词系统内部竞争中强势上位;介词“因”功能的进一步分化。
第三节主要归纳发展时期的特点。
特点主要有三个:功能更分化;双音词“因为”大量出现;原因介词“因”的宾语多不被省略。
第四章原因介词“因”的鼎盛。
本章主要对清朝的原因介词“因”的使用情况进行分析。
第一节主要概述鼎盛时期的使用情况。
第二节主要分析鼎盛的原因。
这一时期,“因”表原因的功能逐渐固定,这必然推动它走上巅峰。
第三节主要归纳鼎盛时期的特点。
特点主要有两个:一是原因介词“因”数量激增;一是复音趋势加强。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一关于CCL语料库及其检索系统(如果时间紧张,可直接跳到最后的举例部分!)1.1 CCL语料库及其检索系统为纯学术非盈利性的。
不得将本系统及其产生的检索结果用于任何商业目的。
CCL不承担由此产生的一切后果。
1.2 本语料库仅供语言研究参考之用。
语料本身的正确性需要您自己加以核实。
1.3 语料库中所含语料的基本内容信息可以在“高级搜索”页面上,点击相应的链接查看。
比如:“作者列表”:列出语料库中所包含的文件的作者“篇名列表”:列出语料库中所包含的篇目名“类型列表”:列出语料库中文章的分类信息“路径列表”:列出语料库中各文件在计算机中存放的目录“模式列表”:列出语料库中可以查询的模式1.4 语料库中的中文文本未经分词处理。
1.5 检索系统以汉字为基本单位。
1.6 主要功能特色:•支持复杂检索表达式(比如不相邻关键字查询,指定距离查询,等等);•支持对标点符号的查询(比如查询“?”可以检索语料库中所有疑问句);•支持在“结果集”中继续检索;•用户可定制查询结果的显示方式(如左右长度,排序等);•用户可从网页上下载查询结果(text文件);二关于查询表达式本节对CCL语料库检索系统目前支持的查询表达式加以说明。
2.1 特殊符号查询表达式中可以使用的特殊符号包括8个:| $ # + - ~ !:这些符号分为四组:Operator1: |Operator2: $ # + - ~Operaotr3: !Delimiter: :符号的含义如下:(一) Operator1: Operator1是二元操作符,它的两边可以出现“基本项”(关于“基本项”的定义见2.2)(1) | 相当于逻辑中的“或”关系。
(二) Operator2:Operator2是二元操作符,它的两边可以出现“简单项”(关于“简单项”的定义见2.3)(2) $ 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。
两个“简单项”之间相隔字数小于或等于Number(3) # 表示它两边的“简单项”出现于同一句中,不考虑前后次序。
两个“简单项”之间相隔字数小于或等于Number(4) + 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。
两个“简单项”之间相隔字数刚好等于Number(5) - 表示它左边的“简单项”出现于句子中,并且,在右边相隔Number个字的范围内,-号右边的“简单项”不出现。
(6) ~ 表示它左边的“简单项”出现于句子中,并且,在左边相隔Number个字的范围内,~号右边的“简单项”不出现。
(三)Operator3:Operator3是一元操作符。
(7) ! 表示它后面的“简单项”是本次查询的主关键字符串,显示查询结果时以该“简单项”作为中心来进行定位。
注意: Operator2后面的Number是必须的,不能省略。
Number=0表示相邻,Number=1表示间隔1个单位,其余依此类推。
(四)Delimiter:西文冒号 : 是分隔符(8) : 跟在 path,author,name,type,pattern 等关键字后面,用于分隔关键字和它们的取值。
这样形成的查询式我们称之为“过滤项”(见下面2.5)注意:上述特殊字符不能作为基本项在语料库中进行检索。
path,author等关键字可以作为基本项进行检索。
2.2 基本项指不包含特殊符号和空格的连续字符串2.3 简单项简单项可以由以下三种形式的序列组成(1)基本项(2)基本项1 Operator1 基本项2 Operator1 ...(3) (基本项1 Operator1 基本项2 Operator1 ...)注意:在实际表达式中,Operator1 前后不能有空格2.4 复杂项复杂项可以由以下三种形式的序列组成(1)简单项(2)简单项1 Operator2 Number 简单项2(3)简单项1 Operator2 Number Operator3 简单项2其中第二种形式,等价于 Operator3 简单项1 Operator2 Number 简单项2,换句话说,如果以第一个简单项作为查询结果的显示中心,!可以省略。
注意:Number为0和正整数。
Operator2,Operator3前后均不能有空格2.5 过滤项过滤项可以包含以下表达式:(1)author:简单项(2)name:简单项(3)path:简单项(4)type:简单项(5)pattern:简单项(“author:简单项”的含义是指“author:”后面跟的表达式是上面2.3“简单项”所定义的字符串,其余类推)注意:通过指定过滤项中author(作者),name(篇名),path(文件路径),type (文章类型),用户可以缩小查询语料的范围。
其中过滤项pattern专门用于查询汉语中的各种模式,比如“AABB”这样的重叠形式,“AB不AB”这样的反复问形式,等等。
比如:想查询“老舍”的语料,在查询表达式中输入“author:老舍”即可;想查询唐代语料,在查询表达式中输入“path:08唐”即可(唐代语料均放在包含“08唐”目录下)。
想查询唐代语料中“给”的使用情况,可以在查询表达式中输入“path:唐给”。
(“path:唐”跟关键字“给”之间需有空格隔开)想查询“老舍”先生的文章中“A来A去”的用法,在查询表达式中输入“author:老舍 pattern:A来A去”即可。
各过滤项的具体取值,用户可以在“高级搜索”页面中查到(参见上文1.2)。
下面是古代汉语语料一级目录列表:01周02春秋03战国04西汉05东汉06六朝07隋08唐09五代10北宋11南宋12元13明14清15民国笔记辞书大藏經道藏二十五史蒙学读物全宋词全唐诗全元曲十三经注疏诸子百家2.6 子句子句可以是以下两类表达式:(1)复杂项(2)过滤项2.7 查询表达式查询表达式可以是以下形式的序列:(1)子句(2)子句1 子句2 ...(子句和子句之间需要以空格隔开,表示逻辑“AND”关系)三关于查询结果1 每次查询,网页上最多列出5000条结果(分页列出,每页50条)。
2 用户可以将查询所得结果保存到自己本地计算机的磁盘上。
在查询结果显示网页上,用户可以根据需要指定下载结果的条数(缺省为500条),点击“下载”按钮,查询结果即以txt文件形式保存到本地磁盘上。
每句之后在【】内注明了该句的出处、作者、路径等信息。
(如果条数较多,文件会比较大,下载速度缓慢,请耐心等待,不要重复提交下载请求)。
3 查询结果以“句”为单位输出显示,用户可以指定查询结果的显示长度(左右n个字范围)。
小提示:如果想显示查询关键字所在的整句,可以通过指定足够大的显示长度(比如1000)来实现。
当用户指定的显示长度超过句长时,以句长为限显示结果。
4 关于查询结果的“标亮”和“定位”显示标亮词:在句子中以红颜色标出的词,可以有多个;中心词:是一个特殊的标亮词,显示查询结果的每个句子时,以“中心词”为网页中心位置对齐。
小提示:(1)查询表达式中的“复杂项”和“过滤项”中的pattern项目都可以作为“标亮词”。
这里“标亮词”是指跟“标亮词”匹配的句子片断。
(2)默认的中心词是第一个“标亮词”,即在用户没有用Operator2指定“中心词”的情况下,系统自动把第一个“标亮词”当作“中心词”。
如果用户用Operator2指定了“中心词”,那么该词为用户指定的“中心词”。
5 关于查询结果的“排序”用户可以指定按照“中心词”左边字符串排序,或按照“中心词”右边字符串排序。
排序方式为字符内码(GB码)降序。
四在结果中查找对于复杂的查询要求,可以尝试通过多次查询完成,即利用“在结果中查找”功能,逐次逼近检索目标。
比如:您想查找“宁可……也”的例句,同时不希望“也”后面出现“不”这样的否定词。
您可以先输入查询表达式“宁可$10也”,返回的结果是包含“宁可”和“也”,且二者相隔10字以内的句子,然后您再输入查询表达式“也-4不”,这样就可以把“也”后面4字范围内有“不”的句子剔除掉了。
五举例查询式例子 1:计算机硬件意思是: 查出所有包含“计算机硬件”的句子。
查询式例子 2:把被意思是: 查出所有包含“把”,同时也包含“被”的句子,即两个关键字之间无次序限制,无距离限制,只需要在一句范围内。
查询式例子 3:把|被意思是: 查出含有“把”或“被”的句子,两个关键字只需有一个在句中出现,就作为查询结果输出。
查询式例子 4:把-4不意思是: 查出含有“把”,但在“把”右边4个字范围内不含“不”的句子。
注意:- 号属于opertaor2,其后必须有数字,且不能有空格。
查询式例子 5:给~4把意思是: 查出含有“给”,但在“给”左边4个字范围内不含“把”的句子。
注意:~ 号属于operator2,其后必须有数字,且不能有空格。
查询式例子 6:与其$10不如意思是: 查出同时含有“与其”和“不如”的句子,并且“与其”在先,“不如”在后出现,间隔10字以内。
查询式例子 7:能力#3大意思是: 查出同时含有“能力”和“大”的句子,且“能力”和“大”之间的间隔在3个字之内,二者的先后次序不受限制。
查询式例子 8:吃+3亏意思是: 查出同时含有“吃”和“亏”的句子,并且“吃”在先,“亏”在后出现,二者之间刚好间隔3个字。
查询式例子 9:被$10!给意思是: 查出同时含有“被”和“给”的句子,并且“被”在先,“给”在后出现,二者之间间隔10个字以内。
显示查询结果时,以“给”为“中心词”,即“给”居中对齐。
查询式例子 10:(把|被)$10给意思是: 查出同时含有“把”和“给”的句子,并且“把”在先,“给”在后出现,二者之间间隔10个字以内。
或者,查出同时含有“被”和“给”的句子,并且“被”在先,“给”在后出现,二者之间间隔10个字以内。
查询式例子 11:(把|被)$10!给意思是: 查出同时含有“把”和“给”的句子,并且“把”在先,“给”在后出现,二者之间间隔10个字以内。
或者,查出同时含有“被”和“给”的句子,并且“被”在先,“给”在后出现,二者之间间隔10个字以内。
显示查询结果时,以“给”为“中心词”,即“给”居中对齐。
查询式例子 12:了$0(。
|?|,|!)意思是:查出“了”与标点符号“。
?,!”等紧邻出现的句子。
这实际上就部分地达到了查询“句尾了”(汉语学界一般所说的“了2”)的目的。
查询式例子 13:所以 path:13明|14清意思是:在古代汉语语料中查“明代”和“清代”文献中“所以”的用例。