LDC中文树库Chinese Treebank

合集下载

分层次构建汉语树库-中文语言资源联盟

分层次构建汉语树库-中文语言资源联盟

当代汉语文本语料库分词、词性标注技术报告杨尔弘山西大学计算机与信息技术学院山西太原 030006yeh@1 研究目标和内容本项目的研究目标是:选择500万汉字的国内正在流通的汉语文本,力求表现当代语言的最新面貌,经过自动分词、词性标注和人工校对,建成高质量的带有完整词类标记的当代汉语通用语料库。

力争形成具有广泛适用范围的中文信息处理基础资源。

具体研究内容包括:1)语料库的选材范围和分布比例:语料库的选材力求在通用性上达到一个较高的水平,并反映当代汉语的最新面貌。

2)分词与词性标注规范:制定符合汉语特点的,从信息处理的实际要求出发的当代汉语文本加工规范。

该加工规范要确立分词标准、词表的选词原则和词性标注体系。

该规范的制定要吸收语言学家的研究成果,并兼顾已有的语料库标注的词性分类体系,具有开放性和灵活性,以便适用于不同的中文信息处理系统。

3)自动分词和词性标注的难点问题:歧义切分、专名和新词语的识别、兼类词的标注是切分和标注的难点问题,将这些问题进一步细化,以便获得解决这些问题的颗粒度更加细致的知识,为自动处理提供良好的知识资源。

4)语料库加工的辅助工具:开发对分词和词性标注结果进行人工校对的辅助工具,提高整体处理效率及良好的保持语料加工的一致性。

5)语料库加工质量的评价及评测系统:为保证语料加工的质量,制定分阶段的质量控制指标及评测方法。

按照我们确定的研究目标,我们已完成500万汉字的当代汉语文本语料的切分和标注任务,形成了良好的语言资源。

2 相关的研究语料库的分词和词性标注是语料库语言学研究的基础课题,从最早的带有词性标记的英语语料库(如Brown 语料库、LOB语料库)到目前不同语种的各种带有词性标注的语料库已经纷纷涌现出来,如汉语语料库、日语语料库、韩语语料库等。

汉语语料库的建设开始于20世纪80年代末期,目前,已经形成了一些不同规模,服务于不同应用的语料库,如清华大学与北京语言大学共同建立的规模为200万汉字的分词标注语料库、国家语言文字工作委员会从1991年开始建立的,目前仍在进行中的规模为7000万汉字的国家级的大型汉语语料库、北京大学与富士通合作开发的2700万汉字的人民日报标注语料库等。

基于层次化聚类的稀疏谓词语义角色标注方法

基于层次化聚类的稀疏谓词语义角色标注方法

基于层次化聚类的稀疏谓词语义角色标注方法杨海彤【摘要】中文语义角色标注中,稀疏谓词的标注性能要远远低于其它谓词,而在实际应用中,标注系统经常需要处理大量的稀疏谓词,因此,稀疏谓词问题大大限制了语义角色标注系统的应用效果.为解决上述问题,提出一种基于聚合层次化聚类的方法.通过聚合层次化聚类建立起稀疏谓词与常见谓词的联系,稀疏谓词可以泛化为与之语义相近的常用谓词,缓和语义角色标注系统中的稀疏谓词问题.在中文命题库上的实验结果表明,该方法可有效处理中文语义角色标注中的稀疏谓词问题.【期刊名称】《计算机工程与设计》【年(卷),期】2018(039)011【总页数】6页(P3384-3388,3407)【关键词】语义角色标注;稀疏谓词;聚合层次化聚类;常见谓词;语义【作者】杨海彤【作者单位】华中师范大学计算机学院,湖北武汉430079【正文语种】中文【中图分类】TP3110 引言语义角色标注是一种自然语言处理领域的浅层语义分析技术。

它以句子为单位,分析句子中的谓词与其相关成分之间的语义关系,进而获取句子所表达语义的浅层表示。

下面是一个语义角色标注的例子:[警方]Agent [正在]Time [调查]Pred [事故原因]Patient其中“调查”是谓词,代表了一个事件,“警方”是施事者,“事故原因”是受事者,“正在”是事件发生的时间。

由此可见,语义角色标注能够抽取出一个句子表达的事件的全部重要信息。

由于语义角色标注可以提供较为简洁、准确、有益的分析结果,因此近年来受到了学术界的普遍重视,并已经成功地应用到信息抽取[1]、自动问答[2]、机器翻译[3]等任务中。

由于语义角色标注的简洁、有效的语义分析能力,吸引大量的研究人员投入到语义角色标注的研究中。

文献[4]细致地分析了哪些特征对中文语义角色标注是有效的,并进行了大量的实验验证。

文献[5]提出了一种中文句法分析和语义角色标注联合学习模型。

文献[6]融合了4个基本的语义角色标注系统,取得了较好的结果。

语料库

语料库
15
3 语料库的设计
语料库三方面 A. 语料本身
属性 规模 领域
体裁 时代 语体 语种
语言层次

百万词级 | 千万词级 | 亿万词级 | … 政治 | 经济 | 体育 | 心理学 | …
文学 | 应用文 | 新闻 | …
共时 | 历时 书面语 | 口语 单语 | 双语 | 多语 双语平行语料库 | 双语比较语料库 语音(音节,韵律) | 语法(词,句,…)
11
第二代语料库
建于1980年代,由英国Birmingham大学 与Collins出版社合作完成,规模达2000 万词次,基于该语料库出版的Collins Cobuild词典(1987)受到了广泛的好评
COBUILD语料库 Longman语料库
千万词级 词典编纂 - 应用导向
建于1980年代,包括三个语料库: LLELC语料库(Longman/Lancaster英语语料库) LSC语料库(Longman口语语料库) LCLE(Longman英语学习语料库) 目标是编撰英语学习词典,为外国人学习英语服 务,词典规模达5000万词次
7
London-Lund英语口语语料库部分标记
标记
含义
#
语调群的结束 (end of tone group)
^
语音开始 (onset)
/
上升型核心语调 (rising nuclear tone)
\
下降型核心语调 (falling nuclear tone)
^
先升后降型核心语调 (rise-fall nuclear tone)
检索工具 | 人机界面 | 数据接口 | … 16
语料的选取
精品原则 有影响力原则 随机挑选原则 高流通度原则 典型性原则 易于获得原则 具有统计样本意义原则 符合语言规范原则

中文CCG树库的构建

中文CCG树库的构建

文 章 编 号 :1 0 — 0 7 2 1 ) 3 0 0 — 6 0 30 7 ( 0 2 0 — 0 3 0
中文 C G树 库 的构 建 C
宋 彦 黄 昌宁 。 揭 春 雨 , ,
( .香 港 城 市 大 学 中 文 、 1 翻译 及 语 言 学 系 , 港 九 龙 达 之 路 8 香 3号 ; 2 .微 软 亚 洲 研 究 院 , 京 1 0 8 ) 北 0 00 摘 要 :组 合 范 畴 语 法 ( C 是 一 种 类型 驱 动 的语 法 , 以 高度 词 例 化 (ei le ) 兼 顾 句 法 和 一 定 程 度 上 语 义 C G) 可 1xc i d 并 az 的表 达 , 为深 层 次 的 文 本 分 析提 供 有 效 支持 。将 C G 应 用 于 真 实 文本 分析 需 要 编 制 大 规 模 的 词 库 , 了避 免 为 可 C 为 此 付 出的 昂贵人 力 和 资 源 , 个 经 济 有 效 的 解 决 方 案 是 利 用 现 有 短 语 句 法 树 库 来 自动 生 成 C G 树 库 。 该 文提 出 一 C
( .De a t n fCh n s ,Tr n l t n & Li g itc ,Ci ie st fH o g Ko g, 1 p rme to i e e a sa i o n u si s t Un v r i o n n y y
8 tChe v ., Kow lon,H o on 3 Ta eA e o ng K g SA R ,Chi na;
t x s, h et owe r a g c l e c e O e on t uc e a ndipe a e s ppo t d m a ve ,a lr e s a e lxion ne ds t b c s r t d N i s ns bl u r , e ndi a gr a a f ng e t de lo

汉语语义角色标注研究概述

汉语语义角色标注研究概述

中文语义角色标注研究概述南京师范大学文学院陈菜芳1摘要:语义角色标注是实现浅层语义分析的一种方式,在问答系统、机器翻译和信息抽取等方面得到了成功地应用,是目前自然语言理解领域中比较热门的一个研究方向。

本文介绍了中文语义角色标注语料资源、中文语义角色标注发展现状以及对中文语义角色标注未来工作进行了展望。

关键词:浅层语义分析语义角色标注资源语义角色标注0 引言语义角色的自动标注是对句子中谓词所支配的语义角色进行自动标注,是对句子进行浅层语义分析的一种方法。

语义角色标注技术在大规模语义知识库的构建、问答系统、机器翻译和信息抽取等领域都有着广泛的应用,其深入的研究对自然语言处理技术的整体发展有着重要意义。

下面主要从三个方面来介绍中文语义角色标注研究状况:首先,介绍相关的中文语义角色标注语料资源;其次,描述了中文语义角色标注的发展现状;最后,对中文语义角色标注未来的工作进行展望。

1 中文语义角色标注语料资源语义角色标注离不开语料资源的支持。

英语较为知名的语义角色标注资源有FrameNet、PropBank和NomBank等。

中文语义角色标注语料资源主要是从英语语义角色标注语料资源的基础上发展起来或参照其建设的。

Chinese Proposition Bank(CPB)同英文PropBank基本类似。

在CPB中,总共定义了20多个角色,只对每个句子中的核心动词进行了标注,所有动词的主要角色最多有6个,均以Arg0~Arg5和ArgM为标记,其中核心的语义角色为Arg0~5六种,其余为附加语义角色,用前缀ArgM表示,后面跟一些附加标记来表示这些参数的语义类别。

它几乎对Penn Chinese Treebank中的每个动词及其语义角色进行了标注,国内大多数语义角色标注研究都是基于此资源。

中文Nombank是在英文命题库(Proposition Bank)和Nombank的标注框架上进行扩展,对中文名词性谓词的标注。

北大标注集

北大标注集

北大标注集:代码名称帮助记忆的诠释Ag 形语素形容词性语素。

形容词代码为a,语素代码g前面置以A。

a 形容词取英语形容词adjective的第1个字母。

ad 副形词直接作状语的形容词。

形容词代码a和副词代码d并在一起。

an 名形词具有名词功能的形容词。

形容词代码a和名词代码n并在一起。

b 区别词取汉字“别”的声母。

c 连词取英语连词conjunction的第1个字母。

Dg 副语素副词性语素。

副词代码为d,语素代码g前面置以D。

d 副词取adverb的第2个字母,因其第1个字母已用于形容词。

e 叹词取英语叹词exclamation的第1个字母。

f 方位词取汉字“方”的声母。

g 语素绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母。

h 前接成分取英语head的第1个字母。

i 成语取英语成语idiom的第1个字母。

j 简称略语取汉字“简”的声母。

k 后接成分l 习用语习用语尚未成为成语,有点“临时性”,取“临”的声母。

m 数词取英语numeral的第3个字母,n,u已有他用。

Ng 名语素名词性语素。

名词代码为n,语素代码g前面置以N。

n 名词取英语名词noun的第1个字母。

nr 人名名词代码n和“人(ren)”的声母并在一起。

ns 地名名词代码n和处所词代码s并在一起。

nt 机构团体“团”的声母为t,名词代码n和t并在一起。

nz 其他专名“专”的声母的第1个字母为z,名词代码n和z并在一起。

o 拟声词取英语拟声词onomatopoeia的第1个字母。

p 介词取英语介词prepositional的第1个字母。

q 量词取英语quantity的第1个字母。

r 代词取英语代词pronoun的第2个字母,因p已用于介词。

s 处所词取英语space的第1个字母。

Tg 时语素时间词性语素。

时间词代码为t,在语素的代码g前面置以T。

t 时间词取英语time的第1个字母。

u 助词取英语助词auxiliary 的第2个字母,因a已用于形容词。

基于树库的汉语依存句法分析

基于树库的汉语依存句法分析

万方数据万方数据万方数据万方数据万方数据基于树库的汉语依存句法分析作者:刘海涛, 赵怿怡, LIU Hai-Tao, ZHAO Yi-Yi作者单位:中国传媒大学,应用语言学研究所,北京,100024刊名:模式识别与人工智能英文刊名:PATTERN RECOGNITION AND ARTIFICIAL INTELLIGENCE年,卷(期):2009,22(1)被引用次数:0次1.Abeill6 A Treebank:Building and Using Parsed Corpera 20032.Tesnibro L E16ments de la Syntaxe Structurale 19593.冯志伟特思尼耶尔的从属关系语法 1983(01)4.Hudson R A Language Networks:The New Word Grammar 20075.Nivre J Inductive Dependency Parsing 20066.Nivre J.Hall J.Nilsson J MaltParser:A Language-Independent System for Data-Driven Dependency Parsing 2007(02)7.Liu Haitao.Huang Wei A Chinese Dependency Syntax for Treebanking 20068.刘海涛影响依存句法分析的因素探讨 20079.刘海涛.冯志伟自然语言处理的概率配价模式理论[期刊论文]-语言科学 2007(03)10.Liu Haitao Probability Distribution of Dependency Distance 20071.会议论文刘海涛基于树库和机器学习的汉语依存句法分析2007基于树库和机器学习的语言处理方法是自然语言处理领域中的一个研究热点。

本文旨在探索利用语言学手段来提高句法分析精度的可能性。

清华汉语treebank标注体系

清华汉语treebank标注体系

汉语句法树库标注体系∗周强清华大学计算机系智能技术与系统国家重点实验室北京100084zhouq@摘要:语料库的句法标注是语料库语言学研究的前沿课题。

本文在研究和总结国内外句法树库标注实践的基础上,提出了一套汉语真实文本的句法树标注体系。

它以完整的层次结构树为基础,对句法树上的每个非终结符节点都给出两个标记:成分标记和关系标记,形成双标记集的句法信息描述体系。

目前,这两个标记集分别包含了16和27个标记,对汉语句子的不同句法组合的外部功能分布和内部组合特点进行了详细描述。

在此基础上,我们开发完成了100万词规模的汉语句法树库TCT,对其中各种复杂语言现象的标注实践显示了这套标注体系具有很好的信息覆盖率和语料适应性。

关键词:句法树库,标注规范,语料库语言学Annotation Scheme for Chinese TreebankZHOU QiangState Key Laboratory of Intelligent Technology and SystemsDept. of Computer Science and TechnologyTsinghua University, Beijing 100084zhouq@ABSTRACT: The syntactically annotated corpora, commonly called ‘treebanks’, play an important role in empirical linguistics as well as in machine learning methods in natural language processing. After a brief summarization of several treebank annotation of different language, we proposed a new annotation scheme for Chinese treebank in this paper. Under this scheme, every Chinese sentence will be annotated with a complete parse tree, where each non-terminal constituent is assigned with two tags. One is the syntactic constituent tag, which describes its external functional relation with other constituents in the parse tree. The other is the grammatical relation tag, which describes the internal structural relation of its sub-components. These two tag sets consist of 16 and 27 tags respectively. They form an integrated annotation for the syntactic constituent in a parse tree through top-down and∗本项研究得到国家自然科学基金(项目号:69903007和60173008)、国家973基金(项目号:G1998030507,G1998030501A-03)、国家高技术研究发展863计划(项目号:2001AA114040)资助。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

CTB中汉语词性划分规则
• VE:you3 as the main verb • Only 有[have], 没[not]{有 [have]}, and 无[not have] are tagged as VE when they are the main verbs。
CTB中汉语词性划分规则
• Other verb: VV • This includes the rest of the verbs, such as modals, raising predicates (e.g., 可能[maybe, probably]), control verbs (e.g., 要[want], 想 [want to]), action verbs (e.g., 走[walk]), psychverb (e.g.,喜欢[like]/ 了解[understand]/ 憎恨 [hate]), and so on.
树库简介
• 树库( treebank)就是一种经过了结构标注的 语料库。一般来说, 一个句子虽然表面上呈 现词语的线性排列, 其内部的成分组织是存 在一定层次结构的。这种层次结构通常用 树这种形式工具来表示。如果考虑歧义, 那 么一个句子可能对应多棵树。大量句子以 及其对应的树结构的集合就构成树库。
CTB简介
• 当然, 宾州树库的标注仍值得商榷的。比如, 运用英语的语法框架来分析汉语, 有的时候 跟汉语为母语的语感不符。另外, 标注的颗 粒度有时候比较粗, 在向依存结构树库转换 时就会出错。有的地方的层次还应该细分 等。
• • • • •
一 、树库简介 二、CTB简介 三、CTB中汉语词性划分规则 四、CTB中的句法标记 五、CTBParser
CTB简介
• 2007年发布了CTB6.0版,包含780,000个单词, 2010年6月发布了7.0版。 • CTB7.0增加了注释数据,包含2,448个text文件, 51,447个句子,1,196,329个词和1,931,381个汉 字。提供的数据是在四个不同的格式:原始文 本,分词,分词和pos-tagged和syntacticallybracketed格式 • CTB7.0语料取材于中国新闻,新闻杂志,各种 广播新闻和广播谈话节目,新闻和博客网站。
CTB简介
• 在CTB 的基础上, 宾州大学又分别完成了标 注谓词论元结构的中文命题库1. 0( B abko— M alaya, et a.l 2004; Xue and Parmer 2003)建 设, 以及标注了语篇连接的汉语语篇树库 ( Xue 2005)的建设。这将大大促进机器翻译、 信息检索和信息抽取等应用技术的进一步 发展。
LDC中文树库 Chinese Treebank
• • • • •
一 、树库简介 二、CTB简介 三、CTB中汉语词性划分规则 四、CTB中的句法标记 五、CTBParser
• • • • •
一 、树库简介 二、CTB简介 三、CTB中汉语词性划分规则 四、CTB中的句法标记 五、CTBParser
CTB简介
• ( 3) 标注方法、算法上比较先进。 例 如, 宾州树库中把单词切分问题转化为消歧 问题, 付诸于机器学习的方法来加以解决。根 据CTB, 1的资料,运用最大熵的方法训练一个自 动分词器, 把词语切分问题转化为标注问题来 解决。具体说,根据汉字在词中的出现位置, 把 每个字标注为LL (左) , RR (右) , MM (中词) , LR (单字词) , 通过审察前后位置汉字的标注情况 来决定哪两个可合为一个词, 哪些又是单字词 ( Xue,2003) ;Fra bibliotekCTB简介
• ( 3) 按照不同的应用需求, 树结构可以转换 为骨架分析树和依存关系树等。同时, 也可 从树库中自动提取基本短语和语法功能的 标注信息, 建立现有的句法树标注体系与汉 语部分分析体系的内在联系, 扩大目前树库 语料的应用范围(周强2004: 4)。
CTB简介
• ( 4) 短语结构语法体系下多年来的研究与教 学, 已形成了丰富的人才储备库, 可以较容易 地找到树库校对人员, 不需要经过大量培训 就可以胜任校对任务。这可以大大降低大 规模树库的开发费用(周强2004: 3)。
CTB简介
CTB简介
• 在标注体系上,从CTB, 1. 0( 1998- 2002)起, 基 本上沿用了宾州大学英语树库PTB, 2的标注 体系。即从最初的PTB, l采用骨架分析思想, 形成比较扁平的句法结构树的基础上, 增加 了一些功能标记,用于标注句子中主要句法 成分的语法功能(周强2004: 2)。目前的总标 注规模为50万词的新闻语料。
CTB中汉语词性划分规则
• VC(系动词) • The words 是[be] and为 [be] are tagged as VC. 非is also tagged as VC if it means 不[not]是 [be] and there is no other verb in the sentence. • 他[he] 是/VC 昨天[yesterday] 来[come] 的/SP <It was yesterday that he came>. • 他[he]是 [be]/VC 学生[student] <He is a student>
CTB简介
• ( 4) 标注标准和其他语料库的兼容性较好。 比如, “走上来”在别的汉语树库中有的标 注为两个词“走/V 上来/V”, 有的标注为一 个复合词“走上来/V ”, 在宾州大学树库中 标注为“ (走/V 上来/V ) /V” (X ia 2000 6)。 这样的处理有利于和其他树库的兼容。
CTB中汉语词性划分规则
• VA:Predicative adjective(表语形容词) • Our VAs include two types: • Type 1: predicates that have no object and can be modied by很 [very]. (没有宾语并且可以被很修饰) • Type 2:This type of VAs don't have objects, but some of them cannot be modied by [very] either, because the intensifying meaning is already built-in.
CTB简介
• LDC中文树库(CTB)属于短语结构树库,采用 句子的结构成分描述句子的结构。
CTB简介
• 采用短语结构描述的原因有: ( 1) 短语结构树可以表示句子较全面的句法 信息, 包括从词、短语到句子的句法单位、 词性; 词与词之间的搭配和同现; 短语的内 部结构和功能分类等, 都可以在短语结构树 中得以体现。下图是宾州汉语树库中的一 个例子。
树库简介
• 树库作为包含语言结构信息的语言资源, 其 作用在以下几方面。首先, 它可为基于统计 的自动句法分析器提供必要的训练数据和 统一的测评平台; 其次, 它能为汉语句法学 研究提供真实文本标注素材, 便于语言学家 从中总结语言规则和规律; 第三, 它是进一 步进行句子内部的词语义项和语义关系标 注的基础。
• • • • •
一 、树库简介 二、CTB简介 三、CTB中汉语词性划分规则 四、CTB中的句法标记 五、CTBParser
CTB简介
• 宾州大学汉语树库( CTB)的目标是建立一个 100万词的经过句法标注的语料库。它是基 于短语结构的, 进行了短语结构、短语功能、 空元素、指数的标注。CTB 到目前发展至7. 0版。
CTB简介
• ( 2) 采用短语结构可以有效地结合现有研究 成果。首先, 语言学界在短语结构分析方面, 积累了许多有价值的研究成果, 这些成果可 以运用到树库的标注体系中; 其次, 计算语 言学界在自动层次分析方面, 也开发了许多 自动句法分析器和句法知识自动获取工具, 这些工具可以为树库构建提供有力的支持。 (周强2004: 3)。
CTB中汉语词性划分规则
• 在CTB中,汉语词性被划分为33类,包括4 类动词和谓语性形容词,3类名词,1类处 所词,1类代词,3类限定词和数词,1类量 词,1类副词,1类介词,2类连词,8类语 气词和8类其他词。
CTB中汉语词性划分规则
• • • • • 4类动词和谓语性形容词(Verb,adjective): VC:Copula(系动词) VE:you3 as the main verb VV:Other verb(其他动词) VA:Predicative adjective(表语形容词)
CTB简介
CTB简介
• 上图中包括丰富的语言信息。NR, NN, CC, VV 表明的 是各个词的词性, 分别为专名词、普通名词、连词 和动词。NP, VP分别为名词短语和动词短语。PN, SBJ, HLN 则是功能的标记, 是用来补充层次表示的, 表示不同的语法角色。PN 表示专有名词, SB J表示句 子主语, HLN则表示这是本句的标题。这个句子第一 层可以分为NP和VP两个部分, NP又可以再分为NP1和NP2两部分。NP1由NR1和 NR2组成; NP2分为NN1, CC, NN2, NN3四个部分。这 棵树中的节点IP, NP, VP为非终极节点; NR, NN, CC, VV 为终极节点。所有这些信息的标注将为计算机自动 习得语言规则和人们分析语言提供基础材料。
树库简介
• 下面是宾州汉语树库中的一个例子
树库简介
• 上图中包括丰富的语言信息。NR, NN, CC, VV 表明 的是各个词的词性, 分别为专名词、普通名词、连 词和动词。NP, VP分别为名词短语和动词短语。 PN, SBJ, HLN 则是功能的标记, 是用来补充层次表 示的, 表示不同的语法角色。PN 表示专有名词, SB J表示句子主语, HLN则表示这是本句的标题。这个 句子第一层可以分为NP和VP两个部分,NP又可以 再分为NP1和NP2两部分。NP1由NR1和NR2组成; NP2分为NN1, CC, NN2, NN3四个部分。这棵树中的 节点IP, NP, VP为非终极节点; NR, NN, CC, VV 为终极 节点。所有这些信息的标注将为计算机自动习得 语言规则和人们分析语言提供基础材料。
相关文档
最新文档