中文语义角色标注的特征工程
基于语义组块分析的汉语语义角色标注

第23卷 第5期2009年9月中文信息学报JOU RNAL OF CH INESE INFORM AT ION PROCESSIN GV ol.23,No.5Sep.,2009文章编号:1003-0077(2009)05-0053-09基于语义组块分析的汉语语义角色标注丁伟伟,常宝宝(北京大学计算语言学研究所,北京100871)摘 要:近些年来,中文语义角色标注得到了大家的关注,不过大多是传统的基于句法树的系统,即对句法树上的节点进行语义角色识别和分类。
该文提出了一种与传统方法不同的处理策略,我们称之为基于语义组块分析的语义角色标注。
在新的方法中,语义角色标注的流程不再是传统的/句法分析)))语义角色识别)))语义角色分类0,而是一种简化的/语义组块识别)))语义组块分类0流程。
这一方法将汉语语义角色标注从一个节点的分类问题转化为序列标注问题,我们使用了条件随机域这一模型,取得了较好的结果。
同时由于避开了句法分析这个阶段,使得语义角色标注摆脱了对句法分析的依赖,从而突破了汉语语法分析器的时间和性能限制。
通过实验我们可以看出,新的方法可以取得较高的准确率,并且大大节省了分析的时间。
通过对比,我们可以发现在自动切分和词性标注上的结果与在完全正确的切分和词性标注上的结果相比,还有较大差距。
关键词:计算机应用;中文信息处理;语义角色标注;语义组块分析;条件随机域;序列标注中图分类号:T P391 文献标识码:AC hinese Semantic Role Labeling Based on Semantic C hunkingDING Weiwei,CHAN G Baobao(Institute of Computational Ling uistics,P eking U niver sity,Beijing 100871,China)Abstract:In recent years,the Chinese SRL (semantic ro le labeling )has a roused the intensiv e att ention.M any SRLsy stems have been built on the par sing tr ees,in w hich the constituents of the sentence str ucture are identified and then classif ied.In contrast,this paper establishes a semantic chunking based method which chang es the SRL task from the traditional /parsing -semantic ro le ident ificatio n -semantic ro le classificatio n 0pr ocess into a simple /semant ic chunk identification -semantic chunk classificatio n 0pipeline.T he semantic chunking,w hich is named after the syn -tactic chunking,is used to identify the semantic chunk,namely the arg uments of the v erbs.Based on the semant ic chunking result,the Chinese SR L can be changed into a sequence labeling pr oblem instead of the classificatio n prob -lem.W e a pply the co nditional r andom fields to the pr oblem and g et bet ter perfo rmance.A long w it h the remo val o f the parsing stage,the SRL task avoids the dependence o n parsing,which is alwa ys t he bottleneck both of speed and pr ecision.T he ex per iments hav e sho wn that the outper for ms of our appro ach pr evio usly best -r epo rted methods on Chinese SRL with an impressive time reduction.We also show that the pr oposed method w o rks much better on go ld wo rd seg mentat ion and P OS tag ging than o n the automatic r esults.Key words:co mputer application;Chinese info rmatio n pr ocessing ;semant ic ro le labeling;semantic chunking ;con -ditional r andom fields;sequence labeling收稿日期:2008-08-28 定稿日期:2008-10-09基金项目:国家自然科学基金资助项目(60303003);国家社会科学基金资助项目(06BYY 048)作者简介:丁伟伟(1985)),男,硕士生,主要研究方向为自然语言处理;常宝宝(1971)),男,副教授,主要研究方向为自然语言处理。
信息检索中的特征工程与语义关系提取技术

信息检索中的特征工程与语义关系提取技术信息检索(Information Retrieval)是指从大规模的文本库中检索出与用户需求相关的信息。
而特征工程(Feature Engineering)和语义关系提取技术(Semantic Relationship Extraction)则是信息检索领域中常用的两种技术手段。
本文将着重介绍这两种技术在信息检索中的应用和实现方式。
特征工程是指对原始数据进行处理,提取出对目标任务有用的特征,以便于机器学习算法的应用和模型的训练。
在信息检索中,特征工程的目标是将文本转化成向量形式,以便于计算机进行处理和分析。
常用的特征工程方法包括词袋模型(Bag of Words)和词嵌入(Word Embedding)。
词袋模型将文本表示成词的集合,不考虑词的顺序和语法结构。
可以将每个词看作是特征向量中的一个维度,每个文本则对应一个向量,向量的每个维度表示该词在文本中的出现次数或者tf-idf值。
由于词袋模型简单、易于实现和解释,因此被广泛应用于文本分类、检索和聚类等任务中。
而词嵌入则将每个词表示成一个稠密的向量,捕捉到词之间的语义关系。
常见的词嵌入算法有word2vec和GloVe。
这些算法通过学习词之间的上下文关系,将词映射到一个低维的空间中,使得语义相似的词在向量空间中距离较近。
词嵌入在信息检索中的应用包括查询扩展、相关性评分和聚类等任务。
除了特征工程,语义关系提取技术也在信息检索中发挥着重要作用。
语义关系提取旨在从文本中抽取出实体之间的语义关系,如“公司A收购了公司B”中的“收购”关系。
常用的语义关系提取方法包括基于规则的方法和基于机器学习的方法。
基于规则的方法依赖于人工设计的规则,通过文本中的语法结构和关键词进行关系抽取。
这种方法优点是可解释性强,但缺点是需要大量的人力和时间来构建规则,并且对于复杂的关系难以适应。
而基于机器学习的方法则通过训练一个分类器或序列标注器来自动识别和提取语义关系。
语义角色标注与语义关系分析

语义角色标注与语义关系分析语义角色标注(Semantic Role Labeling,SRL)和语义关系分析(Semantic Relationship Analysis)是自然语言处理领域中的两个重要任务,旨在对句子中的词汇进行深入的语义分析和理解。
本文将介绍这两个任务的背景、方法和应用,并探讨它们在自然语言处理领域中的重要性和挑战。
一、背景在自然语言处理领域中,理解句子的深层次语义是一项重要而困难的任务。
传统的浅层次句法分析方法(如词性标注、句法分析)无法准确捕捉到词汇之间复杂而细致的关系。
因此,研究者们开始探索如何对句子进行更深入、更准确地理解。
二、方法1. 语义角色标注SRL旨在对句子中每个动词及其相关论元进行标注,以揭示动词与论元之间复杂而细致的关系。
传统方法主要基于基于规则或者基于统计机器学习模型,这些模型使用手工设计特征来捕捉动词与论元之间的依存关系。
近年来,随着深度学习的兴起,基于神经网络的方法也逐渐应用于SRL任务。
这些方法通过学习句子中词汇的分布式表示来捕捉词汇之间的语义关系。
2. 语义关系分析语义关系分析旨在识别句子中不同词汇之间的语义关系,如上位与下位、同义与反义、因果与条件等。
传统方法主要基于基于规则或者基于统计机器学习模型,这些模型使用手工设计特征来捕捉不同词汇之间的关系。
近年来,随着深度学习的兴起,基于神经网络的方法也逐渐应用于语义关系分析任务。
这些方法通过学习句子中不同词汇之间的分布式表示来捕捉不同关系。
三、应用1. 机器翻译SRL和语义关系分析在机器翻译任务中起着重要作用。
通过对源语言句子进行深层次语义分析和理解,可以更准确地理解源语言句子,并生成更准确、更自然流畅的目标语言翻译。
2. 信息抽取SRL和语义关系分析在信息抽取任务中也发挥着重要作用。
通过对句子中的词汇进行深层次语义分析和理解,可以更准确地识别出句子中的实体、关系和事件等重要信息,从而更准确地抽取出有用的信息。
基于特征组合的中文语义角色标注

基于特征组合的中文语义角色标注李世奇;赵铁军;李晗静;刘鹏远;刘水【期刊名称】《软件学报》【年(卷),期】2011(022)002【摘要】This paper proposes a semantic role labeling (SRL) approach for the Chinese, based on feature combination and support vector machine (SVM). The approach takes the constituent as the labeling unit. First, this paper defines the basic feature set by selecting the high-performance features of existing parsing-based SRL systems. Then, a statistics-based method is proposed to construct a combined feature set derived from the basic feature set. According to the distribution of combining features in both positive and negative instances, the ratio of between-class to within-class distance is utilized as the measurement of classifying the performance the feature, and then choosing the combining features with high ratios into the combining feature set. Finally, the experimental results show that the feature combination method-based SRL achieved 91.81% F-score on Chinese PropBank (CPB) corpus, nearly 2% higher than the traditional method.%提出一种基于特征组合和支持向量机(support vector machine,简称SVM)的语义角色标注(semantic role labeling,简称SRL)方法.该方法以句法成分作为基本标注单元,首先从当前基于句法分析的语义角色标注系统中选出高效特征,构成基本特征集合.然后提出一种基于统计的特征组合方法.该方法能够根据正反例中组合特征的分布状况,以类间距离和类内距离之比作为统计量来衡量组合特征对分类所产生的效果,保留分类效果较好的组合特征.最后,在Chinese PropBank(CPB)语料上利用支持向量机进行分类实验,结果表明,引入该特征组合方法后,语义角色标注整体F值达91.81%,提高了近2%.【总页数】11页(P222-232)【作者】李世奇;赵铁军;李晗静;刘鹏远;刘水【作者单位】哈尔滨工业大学,计算机科学与技术学院,黑龙江,哈尔滨,150001;哈尔滨工业大学,计算机科学与技术学院,黑龙江,哈尔滨,150001;哈尔滨工业大学,计算机科学与技术学院,黑龙江,哈尔滨,150001;北京大学,计算语言学研究所,北京,100871;哈尔滨工业大学,计算机科学与技术学院,黑龙江,哈尔滨,150001【正文语种】中文【中图分类】TP391【相关文献】1.基于树核函数的中文语义角色标注 [J], 王步康;王红玲;周国栋2.基于短语和依存句法结构的中文语义角色标注 [J], 徐靖;李军辉;朱巧明;李培峰3.基于依存关系的中文名词性谓词语义角色标注研究 [J], 袁晓虹;王红玲;王步康;周国栋4.基于图模型的中文多谓词语义角色标注方法 [J], 杨海彤5.基于条件随机场的多线索中文语义角色标注 [J], 王一成;万福成;马宁因版权原因,仅展示原文概要,查看原文内容请购买。
中文问答系统中语义角色标注的研究与实现

行语 义角 色 标 注 。将 用 户 的 问句 和搜 索 到 的结 果
转 化成语 义框架 结 构 , 标 注 的所 有 语义 角 色 填 到 将 语义 框架 中 , 答案 抽 取 时通 过 比较 语 义框 架 中各 个 槽 、 , 行语义 框架 的匹配 。 值 进
项 目( K 7 1 )资助 Z 0 19
中应 用 了语 义 角色 标 注 的思 想 。 实验 结果 表 明 , 义 角 色标 注 可 以有 效 地 改 善 中文 问答 系统 的性 能 。 语
关键词 问答系统
语义分析
语义 角色标注
中图法分类号
T 31 P9 ;
文献 标志码
A
问答 系统 ( u so nw r gS s m,Q S 是 Q et nA s ei yt i n e A) 自然语 言处理研 究 的应用 系 统 , 它需 要 自然语 言 处
第 一作 者简 介 :张 晓孪 ( 9 8 ) 17 一 ,女 ,汉 族 ,陕 西 宝 鸡 人 , 师 讲
硕士, 研究方向: 人工智能。 -m:_x x 6. m Em lb 1z@1 c 。 j yl 3 o w
维普资讯
科
学
技
术
与
工
程
8卷
2 2 最大熵分 类器 .
理研究 中的词法 、 句法 、 义 及语 用 研 究 作 为支 持 。 语 随着 自然语 言处理 研究 的深 入 , 问答 系统 的性 能 会 越来 越好 。同样 , 问答 系 统 的研 究反 过 来 也会 促 进 自然语 言 处 理 的发 展 。通 过 问答 系 统 评 测 专 项 的 结果 , 可看 出要 想 进 一 步提 高 问答 系 统 的性 能 , 单 纯依靠 词法 、 法 的分 析 远 远 不 够 , 须 要 进 行 语 句 必 义甚 至语用 方面 的分 析 。 因此 , 了提 高 问答 系统 为 的处理 水平 , 文在 中文 问答 系 统 中应 用 了语 义 角 本
汉语语义角色标注研究概述

中文语义角色标注研究概述南京师范大学文学院陈菜芳1摘要:语义角色标注是实现浅层语义分析的一种方式,在问答系统、机器翻译和信息抽取等方面得到了成功地应用,是目前自然语言理解领域中比较热门的一个研究方向。
本文介绍了中文语义角色标注语料资源、中文语义角色标注发展现状以及对中文语义角色标注未来工作进行了展望。
关键词:浅层语义分析语义角色标注资源语义角色标注0 引言语义角色的自动标注是对句子中谓词所支配的语义角色进行自动标注,是对句子进行浅层语义分析的一种方法。
语义角色标注技术在大规模语义知识库的构建、问答系统、机器翻译和信息抽取等领域都有着广泛的应用,其深入的研究对自然语言处理技术的整体发展有着重要意义。
下面主要从三个方面来介绍中文语义角色标注研究状况:首先,介绍相关的中文语义角色标注语料资源;其次,描述了中文语义角色标注的发展现状;最后,对中文语义角色标注未来的工作进行展望。
1 中文语义角色标注语料资源语义角色标注离不开语料资源的支持。
英语较为知名的语义角色标注资源有FrameNet、PropBank和NomBank等。
中文语义角色标注语料资源主要是从英语语义角色标注语料资源的基础上发展起来或参照其建设的。
Chinese Proposition Bank(CPB)同英文PropBank基本类似。
在CPB中,总共定义了20多个角色,只对每个句子中的核心动词进行了标注,所有动词的主要角色最多有6个,均以Arg0~Arg5和ArgM为标记,其中核心的语义角色为Arg0~5六种,其余为附加语义角色,用前缀ArgM表示,后面跟一些附加标记来表示这些参数的语义类别。
它几乎对Penn Chinese Treebank中的每个动词及其语义角色进行了标注,国内大多数语义角色标注研究都是基于此资源。
中文Nombank是在英文命题库(Proposition Bank)和Nombank的标注框架上进行扩展,对中文名词性谓词的标注。
中文语义角色标注的特征工程

p ro ma c f t e s s e h s a s a it a l i n f a t i c e s . Th r f r t i e y i o t n o fn e t r e f r n e o h y t m a t tsi l sg ii n n r a e c y c eeo e i s v r mp r a t t i d b te f a u e o e n i r l a e i g e t r s f r s ma t o e lb l . c n Ke r s o u e p l a i n y wo d :c mp t r a p i t ;Ch n s f r t n p o e sn c o i e ei o ma i r c s i g;s ma t a sn ;s ma t o el b l g e t r n o e n i p r i g e n i r l a e i ;fa u e c c n e g n e i g;ma i m n r p l s iir n i e rn x mu e t o y ca s f e
C ieeP o oio ak C B 语 料 数 据 上 , 用 最 大 熵 分 类 嚣 进 行 了 实验 , 统 FS oe由 8 . 6 增 加 到 hn s rp st nB n ( P ) i 使 系 -cr 9 7
基于特征的中文语义角色标注系统的开题报告

基于特征的中文语义角色标注系统的开题报告一、研究背景中文语义角色标注是自然语言处理领域的一个重要问题,它可以为许多应用提供基础支持,如自然语言理解、机器翻译、语音识别、问答系统等。
语义角色标注就是对于句子中的每个词或短语在其上下文中所扮演的语义角色进行标注。
中文语义角色标注的过程就是在句子中找到动词或谓词短语,然后分别标注其它元素属于它所要求的语义角色。
语义角色标注是自然语言处理中的核心问题之一,是信息抽取、问答系统、机器翻译等应用的基础。
在英文语义角色标注中,已经有了许多成熟的方法,如基于规则的方法、机器学习方法、神经网络方法等。
但是中文语义角色标注由于中文本身的复杂性,其研究难度更大。
因此,中文语义角色标注的研究也变得更加重要。
二、研究目的本研究旨在开发一种基于特征的中文语义角色标注系统,通过结合基于规则的方法、机器学习方法和神经网络方法来达到更好的效果,并对比不同方法的优缺点。
三、研究内容1. 中文语义角色标注的概述:介绍中文语义角色标注的背景和意义,详细讨论中文语义角色标注问题的基本原理和流程。
2. 基于规则的中文语义角色标注方法研究:介绍基于规则的中文语义角色标注方法的原理和流程,分析该方法的优缺点以及适用场景。
3. 基于机器学习的中文语义角色标注方法研究:介绍基于机器学习的中文语义角色标注方法的原理和流程,讨论该方法的优缺点,介绍相关的算法和技术。
4. 基于神经网络的中文语义角色标注方法研究:介绍基于神经网络的中文语义角色标注方法的原理和流程,讨论该方法的优缺点,介绍相关的算法和技术。
5. 基于特征的中文语义角色标注系统开发:结合以上三种方法,设计并开发一种基于特征的中文语义角色标注系统,并对该系统进行性能测试和评估。
6. 不同方法的比较分析:通过实验数据比较分析,对比不同方法的优缺点和适用场景,提出改进和优化方案。
四、研究方法本研究采用理论与实验相结合的方法,首先对中文语义角色标注的相关理论和方法进行深入研究,然后结合实际应用需求,设计并实现一个基于特征的中文语义角色标注系统,并在实验中对其性能进行评估和对比分析。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中文语义角色标注的特征工程1刘怀军2,车万翔,刘挺(哈尔滨工业大学计算机学院,哈尔滨 150001)摘要:基于统计机器学习的语义角色标注在自然语言处理领域越来越受到重视,丰富多样的特征直接决定语义角色标注系统的性能。
本文针对中文的特点,在英文语义角色标注特征的基础上,提出了一些更有效的新特征和组合特征:例如,句法成分后一个词、谓语动词和短语类型的组合、谓语动词类别信息和路径的组合等,并在Chinese Proposition Bank(CPB)语料数据上,使用最大熵分类器进行了实验,系统F-Score由89.76%增加到91.31%。
结果表明,这些新特征和组合特征显著提高了系统的性能。
因此,目前进行语义角色标注应集中精力寻找丰富有效的特征。
关键词:语义分析;语义角色标注;特征工程;最大熵分类器Feature Engineering for Chinese SemanticRole LabelingHuaijun Liu, Wanxiang Che, Ting Liu(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001)Abstract: In the natural language processing field, researchers have experienced a growth of interest in semantic role labeling by applying statistical and machine-learning methods. Using rich features is the most important part of semantic parsing system. In this paper, some new effective features and combination features are proposed, such as next word of the constituent, predicate and phrase type combination, predicate class and path combination, and so on. And then we report the experiments on the dataset from Chinese Proposition Bank (CPB). After these new features used, the final system improves the F-Score from89.76% to 91.31%. The results show that the performance of the system has a statistically significant increase. Therefore it is very important to find better features for semantic role labeling.key words: Semantic Parsing; Semantic Role Labeling; Feature Engineering; Maximum Entropy Classifier1基金资助:自然科学基金60435020, 60575042, 605030722作者简介:刘怀军(1982-),男,山西人,硕士研究生,hjliu@1引言语义分析就是根据句子的句法结构和句中每个实词的词义,推导出能够反映句子意义的某种形式化表示。
对句子进行正确的语义分析,一直是从事自然语言理解研究的学者们追求的主要目标。
随着自然语言处理基础技术,如:中文分词、词性标注、句法分析、机器学习等的逐步成熟,以及语义分析在问答系统、信息抽取、机器翻译等领域的广泛应用,使得其越来越受到重视。
语义角色标注(Semantic Role Labeling, SRL)是目前语义分析的一种主要实现方式,它采用“谓语动词-角色”的结构形式,标注句法成分为给定谓语动词的语义角色,每个语义角色被赋予一定的语义含义。
例如“[委员会 Agent][明天 Tmp]将要[通过 V][此议案 Passive]。
”其中,“通过”是谓语动词,“委员会”、“此议案”和“明天”分别是其施事、受事和动作发生的时间。
语义角色标注通常被看作分类问题,目前的研究大多基于有指导的机器学习方法,比如支持向量机(SVM)[1] ,最大熵(Maximum Entropy)[2] ,SNoW(Sparse Network of Winnows)[3] 等。
由于各种机器学习方法都已经比较成熟,仅依靠单纯机器学习算法的改进,在性能上很难有质的提高。
所以,丰富有效的特征对语义角色标注来说更加重要。
文章第2部分简单介绍了中文语义角色标注的语料库资源。
第3部分介绍了中文语义角色标注系统,重点描述其基础特征、扩展特征和一些组合特征。
接下来第4部分给出了系统的分析和实验结果的讨论。
最后第5部分对本文进行了总结并作了后期工作的展望。
2语料资源我们实验中使用来自Chinese Proposition Bank(CPB)的数据。
CPB是Upenn基于Penn Chinese Treebank(PCT)标注的汉语浅层语义标注资源,在PCT句法分析树的对应句法成分中加入了语义信息。
PCT的标注数据主要来自新华新闻专线、Sinorama新闻杂志和香港新闻3。
CPB包含20多个语义角色,相同语义角色对于不同谓语动词有不同的语义含义。
其中核心的语义角色为Arg0-5六种,Arg0通常表示动作的施事,Arg1通常表示动作的影响等等。
其余的语义角色为附加语义角色,用前缀ArgM表示,后面跟一些附加标记(Secondary Tags)来表示这些参数的语义类别,如ArgM-LOC 表示地点,ArgM-TMP表示时间等等[4] 。
图1是CPB中一个句子的标注实例。
我们实验中选取了共760个文档,10,384个句子。
其中9,288个句子作训练语料,剩余1,096个句子作测试语料。
图1 Chinese Proposition Bank中一个句子的标注实例Fig.1 Syntax tree for a sentence illustrating in Chinese Proposition Bank3中文语义角色标注系统3 /~chinese/3.1标注步骤和分类器语义标注的基本单元可以是句法成分(Constituent)、短语(Phrase)、词(Word)或者依存关系(Dependency Relation)等等,现在多数语义角色标注系统都以句法成分为基本标注单元。
句法成分就是句法分析树中非终结节点,比如图1的句法分析树中,NP-SBJ,VP等都是句法成分。
因为语义角色多与句法成分对应,所以我们采用句法成分作为标注单元可获得较高的性能。
语义角色标注系统一般通过三个阶段实现[5] :首先,使用一些启发式规则把多数不可能是语义角色的句法成分过滤掉;其次进行语义角色识别,用二元分类器把角色候选分为语义角色和非语义角色;最后使用多类分类器把第二阶段识别的语义角色分到对应的类别。
也有系统会加入基于启发式规则的后处理阶段。
为了提高系统召回率,避免过滤过程中语义角色的丢失,我们系统没有使用过滤。
并且由于最大熵分类器的效率很高,因此我们把角色识别和分类一步实现,属于语义角色的句法成分被分到对应类别,不属于任何角色的句法成分被赋予空类别。
3.2基本特征特征一直是决定统计自然语言处理系统性能的重要因素。
相比特征空间较小的底层自然语言处理任务,比如分词、词性标注和命名实体(NE)识别,语义角色标注任务的一个显著特性就是特征空间很大。
在Xue等人[6] [7] 的语义角色标注工作中使用了许多有效的特征,我们实验中也采用了这些特征,并且引入了更多有效的特征。
下面我们简要介绍部分基本特征并分析其有效性。
1.短语类型2.中心词及其词性:在中心词提取中,我们使用Sun等人[8] 的中心词规则(Head rules for Chinese)3.子类框架:谓语动词父节点及其子节点。
如图1中,“通过”的子类框架是VP→VV-NP-OBJ4.谓语动词的类别信息:目前的中文语义角色标注任务中还没有统一规范的动词分类,文章使用Xue等人[7] 的方法来对动词分类5.路径:句法分析树中从当前句法成分到谓语动词的句法路径。
如图1中,NP-TMP的路径是NP-TMP↑VP↓VP↓VV6.位置:句法成分在谓语动词前面还是后面,这是一个二值特征我们实验中,训练和测试数据不是按动词来划分,因此总有一些仅在测试数据中出现的动词。
通过统计,测试语料中1,211个动词有227个动词在训练语料中没有出现过,从训练数据中学习的最大熵模型就不能很好的对这些动词进行预测。
CPB中许多动词有相似的语义结构,比如动词“显现”和“显示”都带两个核心语义角色,主语指描述的实体,宾语指所描述实体的特性。
这样,动词类别信息就可以在动词稀疏的情况下正确预测角色类别。
3.3扩展特征上节介绍了中文语义角色标注中一些基本特征,这节将描述我们引入的一些新特征。
1.句法成分的句法功能:CPB手工标注的句法分析中,短语类型后缀有功能标记,比如-OBJ表示直接宾语,-SBJ表示主语等。
这些功能标记作为特征能够有效暗示语义角色的类型2.句法成分前一个词和后一个词3.从句层数:在Xue等人[9] 有关Penn Chinese Treebank的句法标注文章中,对汉语句子提出了几种类型:带补语的子句(CP)、简单子句(IP)、不带疑问词的疑问句(IP-Q)等。
我们把句法成分到谓语动词的路径上经历的子句IP、CP、IP-Q等的个数作为特征4.句法成分到谓语动词的路径上出现的名词短语个数5.句法成分和谓语动词的相对位置:我们从三方面来考察他们的相对位置:它们是否兄弟节点关系,是否属于相同动词短语(VP)的儿子节点,是否属于相同子句IP或CP短语的儿子节点6.句法成分和谓语动词的共同最近父节点7.谓语动词的搭配模式:CPB语料数据中,Arg2大多情况在含有下面5种结构的句子中出现:介词-动词结构、使-动词结构、把-动词结构、被-动词结构、动词-数量词结构五种搭配结构。
这种搭配模式能够提高对Arg2的预测效果,比如对于动词“修到”,Arg2表示修建的地点,那么在语句“把公路修到山顶上” 中“把-动词结构”就暗示句法成分“公路”属于角色Arg2许多单一特征对语义角色分类已经非常有效,把这些单一特征组合在一起时,能更有效的增强分类能力。