中文指代消解名词短语的识别

混合的汉语基本名词短语识别方法

—199— 混合的汉语基本名词短语识别方法胡乃全1，朱巧明1,2，周国栋1,2 (1. 苏州大学计算机科学与技术学院，苏州 215006；2. 江苏省计算机信息处理技术重点实验室，苏州 215006) 摘要：提出一种混合的汉语基本名词短语(BaseNP)识别模型，包括采用语法规则、统计方法和组合分类器方法。利用BaseNP 词的信息、词性信息及上下文句法信息，构建组合分类器，提高判断的准确性。在中文树库(CTB5.0)上进行实验，F 值达到了90.09%，证明该方法能有效地识别BaseNP 。关键词：基本名词短语；规则模板；组合分类器 Hybrid Method to Chinese Base Noun Phrase Recognition HU Nai-quan 1, ZHU Qiao-ming 1,2, ZHOU Guo-dong 1,2 (1. School of Computer Science and Technology, Soochow University, Suzhou 215006; 2. Jiangsu Provincial Key Lab for Computer Information Processing Technology, Suzhou 215006) 【Abstract 】This paper proposes a hybrid method to recognize Chinese Base Noun Phrase(BaseNP), including the use of grammer rules, statistical approach and classification combination. It utilizes words information, part of speech information and context syntax information of BaseNP,generates a combination classification and improves the precision. Experimental results on CTB5.0 show that the F -score is 90.09%, it proves that the method is an effective approach to Chinese BaseNP recognition. 【Key words 】Base Noun Phrase(BaseNP); rule templates; combined classifier 计算机工程Computer Engineering 第35卷第20期 Vol.35 No.20 2009年10月 October 2009 ·人工智能及识别技术·文章编号：1000—3428(2009)20—0199—03 文献标识码：A 中图分类号：TP18 1 概述名词短语的正确识别与分析对机器翻译、文本分类以及句法分析具有重要作用。名词短语是以名词为主体的短语，它的性质和作用与名词相同，如风俗习惯、自然语言处理等。文献[1]将英语基本名词短语(Base Noun Phrase, BaseNP)定义为“简单的非嵌套的名词短语”，即一个BaseNP 内部不能再包含有更小的名词短语。文献[2]从限定性定语出发给出汉语BaseNP 的形式化描述： BaseNP →BaseNP+BaseNP BaseNP →BaseNP+名词|名动词 BaseNP →限定性定语+BaseNP BaseNP →限定性定语+名词|名动词定语→形容词|区别词|动词|名词|处所词|西文字串|数量词本文参考英语的定义，将基本名词短语定义为具有单一的语义核心、非嵌套的名词短语。它包括单个名词、没有任何修饰成分的名词短语、难以确定修饰关系的一串名词、并列名词性成分、专有名词、时间、地点等。 2 任务描述基本名词短语识别可转化为标注问题。这里引入3个标注符号：B, I, O ，其中，B 表示基本名词短语的开始；I 表示基本名词短语的内部；O 表示其他。这样，基本名词短语识别问题就转化为标注问题。 2.1 特征的表示特征向量的属性主要考虑3类信息：词汇本身(W)，词性(P)和BIO 标注(T)。假设标注过程是从左到右进行的，因此，不考虑当前位置之后的BIO 标注。特征向量可能采用的属性如图1所示。其中，W0表示当前词汇；W-1表示当前位置左面第一个词；P-1表示W-1的词性；T-1表示W-1的 BIO 标注。图1 特征向量的属性 2.2 最大熵(ME)模型文献[3]将最大熵方法应用到英语组块识别分析。对位置限于考虑当前词左右第1、第2个词；对信息限于考虑BIO 标注(T)、词性标注(P)和单词本身(W)3种，但不考虑当前位置及之后的BIO 标注。保留候选特征频数高的，其他的特征被当作噪声舍弃，运用改进的迭代算法(IIS)计算特征参数λi 和P (y |x )，其中，λi 表示每个特征的重要性；x 表示上下文，y 表示当前位置的BIO 标记。在对新的样本进行标注时，把当前词满足条件的特征的参数按特征右部标注分类迭加取得最大的标注结果。可形式化表示为 (1)输入：上下文x ； (2)过程：计算(|)exp((,))i k k i k p y x f x y λ=∑；取arg max (|)i t p y x =； (3)输出：标注y i 。 2.3 CRF 模型文献[4]提出CRF 的概念，其模型描述如下：给定的输出基金项目：国家自然科学基金资助项目(0673041)；国家“863”计划基金资助项目(006AA01Z147) 作者简介：胡乃全(1981－)，男，硕士研究生，主研方向：自然语言处理；朱巧明，教授；周国栋，教授、博士生导师收稿日期：2009-03-13 E-mail ：naiquan_hu@https://www.360docs.net/doc/6714733942.html,

最长名词短语识别研究

最长名词短语识别研究本文分析了最长名词短语的内部构成特征,提出了一种基于基本名词短语中心归约的最长名词短语识别方法,并使用条件随机场模型识别了最长名词短语。实验取得了87.58%的正确率和88.31%的召回率。标签：最长名词短语基本名词短语条件随机场中心规约一、引言最长名词短语(MNP)的识别能够显著地改善句法分析等系统的性能。如对于句法分析而言,最长名词短语在句子中主要充当主语和宾语,其内部结构复杂多样。正确地识别出这些结构,可以大大降低句法分析过程中的浅层歧义,提高句法分析器的性能。最长名词短语的识别研究涉及自然语言处理中常见的统计和规则方法。李文捷等(1995)使用边界分布信息构造概率模型识别MNP;周强、孙茂松等(2000)提出两种不同的识别算法,其中基于内部结构组合的算法通过基本组合成分向左迭代组合,形成新的最长名词短语,取得了良好效果;代翠等(2008)则使用了条件随机场模型识别最长名词短语,并针对识别错误使用后继规则进行修正。总的来说,随着一些新的统计模型和新方法的应用,汉语最长名词短语的识别效果逐步提高,但由于MNP自身构造的复杂性,MNP识别问题还有待进一步的研究。在前人研究的基础上,本文提出了一种基于基本名词短语中心压缩的最长名词短语的方法,并基于条件随机场模型实现了该方法,实验证实了这种方法的有效性。二、最长名词短语及其构成中文信息处理学界所说的“名词短语”与本体语言学的定义大体一致,是“名词性短语”“体词性短语”的意思。周强、孙茂松等(2000)从组成结构上将名词短语分为最短名词短语(MNP)、最长名词短语(MNP)、一般名词短语(GNP)三类,其中,最长名词短语的定义沿承了Kuang-hua Chen (1994)关于英语MNP的定义,指“不被其他名词短语所包含的名词短语”。我们把最长名词短语定义为不被其他任何名词短语所包含的名词短语,最长名词短语是句子级的短语单位,其上层结构即为句子根节点S。本文定义的最长名词短语包含单词短语,下面的句子用括号标注了MNP: (1)[罗马/nS 时代/n]也/d 有/v[“/“想象/v 比/p 模仿/v 是/vC 更为/dD 巧妙/a 的/u 一/m 位/qN 艺术家/n ”/” 的/u 评说/vN]。/。 (2)[电荷/n 周围/s]伴有/v [电场/n],/,[电场/n]对/p [电荷/n]产生/v [力/n 的/u 作用/n]。/。