一种消除中文分词中交集型歧义的方法

合集下载

一种新的汉语词义消歧方法

ｂｔｒｔｅｒｓｔｒｕｈＰａａａｅＳｃｎｌ，ｃｏｄｎｅｉｆｈＣｅｅｈｄｏｇＣＲｄｔｂｓ．ｅｏｄｙａｃｒｉｔｔｚｏｅＰＲ，ｈｓｏｉａｗｏｄｌｕｒｅ．Ｌｓｌ，ａ・ Ⅵ ｍｗｏｈｇｏｈｓｅｔｔｅｅｔｎｌｒｓ＇ｐｔｎｏｄｒａｔｅｌｎｏ８ｅｉｙ
中图分类号：Ｐ９Ｔ３１文献标识码：Ａ文章编号：０５７１２０）３０２４１０ —３５（０６０ —０２ —０
ＮｅＣｈｉｓｏｄＳｎｓｓｍｂｉｕｔｏｅｈｏｗｎｅｅＷｒｅｅＤｉａｇａｉｎＭｔｄ
ＹＡＮｎＺＲｏｇ，ＨＡＮＧｅＬｉ
余晓峰等人提出一种简单无指导的词义消歧方法，只是单
词与词之间存在着许多优先组合关系。例如，名词和名词问紧密的语义联系，形容词和名词组成的特定修饰关系，动词和名词的固定搭配等。有些多义词，其内部的不同意义虽然语法功能基本相同，但在句中出现时，所组合的词
ｆｕｄｔｏｆｆｒｈｒｓｒｃｕｅｄｓｍｂｇａｉｎ．ｏｎｉｎｏｕｔｅｔｕｔｒｉａｉｕｔａｏ
Ｋｅｏｄ：Ｄ：ｒｆｒｎｅｃｍｂｎｔｎｒｌｉｎｗｒｓｏｉｉ￣ｓｌｒｙｏｙｗｒｓＷＳｐｅｅｅｃｏｉｉａｏ￣ｏｄａｓｃａｏａｏｅｔｔｎｉａｔ；ＨｗＮｅｍｉｉｔ
ｍｅｈｄ．ＴｈｓｍｅｈｄｉｐｓｓＨｏｔｏｉｔｏｏｅｗＮｅ８ｔｅｓｍａｉｎｗｌｄｅｒｓｕ，ｍｅｎｉｕｌＰＣＲｅｗｅｎｗｏｄ．ＦｉｓｌｇｔＰｍｔａｈｅｎｔｋｏｅｇｅｏｍｅｃａｗｈｌｆｌｕｅｙｂｔｅｒｓｒｔｙ，ｅＣＲ

分词中的歧义处理

存在两种切分方案：
/12$ !$ … !" # $ … # $ !3$ … % & ) $$ ) $! /12! !$ … !" !# $ … # $ % $ … % &
’($
56-5（ !-$!= ） >$!=:（ # -$!= ） >$!=:（ % -$!= ） >$!=:!-$!= ；在此 9 ?@A? 函数为： 7（ 56- ） 856-B 9， 9 为 ?@A? 表的大小，取 $"""$ 。
,， -） +（ ,： -） 5678! 012（ 2（ ,） 12（ -） $!N !""!#$$
计算机工程与应用
$
#
"
’(!
#
!
%
!
$
#
"
#
%
+#!#!
歧义切分
使用文件（ $）逆向词典 FGHIF3,#,J,：逆向词典索引 FGHFGIKJ#,J,：歧义字段及其切分结果。一个歧义字段一行， LM6LK@G#,J,：
文章编号 $""!0/..$0（ !""! ） $$0"$!10".
!"#$%&$’( )*+,-..$/% $/ 0+*1 2-%"-/’$/%
$ 7 34/ 5$+/%6， 28$ 98+/%:8$7 （ 456578986: +;<<878 ， =6>?8@A>:B ;C DE>86E8 56F 28EG6;<;7B ;C +G>65 ， *8>H>67 $"""/"） ! （ I6A:>:J:8 ;C +;9KJ:>67 28EG6;<;7B ， +G>68A8 (E5F89B ;C DE>86E8A， *8>H>67 $"""/"）

一种消除混合歧义的新方法

一种消除混合歧义的新方法发表时间：2011-12-31T14:57:17.747Z 来源：《时代报告》2011年11月下期供稿作者：朱新维[导读] 由于混合歧义以及交叉歧义的存在，歧义一直是困扰分词技术发展的瓶颈。

朱新维（合肥学院，安徽合肥 230601）中图分类号：TP311.52 文献标识码：A 文章编号：1003-2738（2011）11-0361-01摘要：由于混合歧义以及交叉歧义的存在，歧义一直是困扰分词技术发展的瓶颈。

本文以含有歧义词语的句子作为研究对象，考虑了由于不同的分词方法导致的共生词语的出现，构建了辨别不同断句方法的公式。

初步试验与例证表明该方法具有较好的灵活性，优于现存技术。

关键词：信息处理；混合歧义；消除歧义；方程一、前言在中文文本信息处理中，自动分词是一项由计算机将完整的句子划分为多个词语单元的技术。

由于分词的精度严重影响了读者对于文本的分析与理解程度，因此该技术在信息处理领域具有一定的重要意义，比如文本分类、文本信息检索以及本文自动总结等。

分词技术的瓶颈是消除歧义，其中包括混合歧义与交叉歧义。

以下列存有混合歧义的句子为例：1.你要考虑你自己的/将来/；市长/将/来/我们学校考察工作。

2.他/才能/有资格获得冠军；人/才/能/推动科技进步。

3.国家的/中长期/计划是指导国家战略发展的计划；这是国际共产主义运动/中/长期/没有解决的一个重大理论问题。

在本文中，综合考虑了多种分词方法所导致的不同结果，例如歧义词“中长期”可以分解为“中”，“长期”或者“中长期”两种不同的结果，在可能的结果与其在文本中前后的词语之间，根据匹配词语的数量构建方程来消除句子中的歧义。

二、相关概念定义1：将连续的字符串分解为多个词语的技术为分词技术，且由不同分词方法导致的词语含义发生变化称为歧义。

三、混合歧义（二）设计原则混合歧义性词语被保留为整体还是分解主要应由词语所在上下文决定。

根据不同分词方法与上下文信息，结合两者的匹配度，确定对词语做何种分词。

中文分词交叉型歧义消解算法

中文分词交叉型歧义消解算法甘蓉【摘要】中文分词是自然语言处理的基础.交叉型歧义是提高中文分词精度的瓶颈之一.文章提出一种基于正向、负向最大匹配算法和passive aggressive(PA)算法结合的交叉型歧义消解算法.基于PA算法训练分词模型;利用正向、负向最大匹配算法检测交叉型歧义的位置;把可能出现交叉型歧义的句子或者句子的部分传递给分词模型,解码得到分词结果;最后,把正向、负向最大匹配结果和分词模型解码结果拼接成最终的分词结果.利用PA算法基于2014年2—12月份人民日报数据训练分词模型、2014年1月份人民日报数据作为测试语料进行实验,得到交叉型歧义的准确率、召回率和F-score分别为98.32％、98.14％和98.23％,说明该方法有效可行.【期刊名称】《西华大学学报（自然科学版）》【年(卷),期】2018(037)006【总页数】5页(P32-36)【关键词】中文分词;交叉型歧义;最大匹配算法;PA算法【作者】甘蓉【作者单位】陕西工业职业技术学院汽车工程学院,陕西咸阳712000【正文语种】中文【中图分类】TP391.1中文分词是自然语言处理的基础和关键[1]。

中文分词已经有很多成熟的算法，但是歧义识别和未登录词识别仍是中文分词的2大难点。

其中，歧义识别又分为交叉型歧义和组合型歧义[2]。

对于歧义，许多研究者做了大量的工作。

目前常用的歧义消解算法主要分为2种：规则型歧义消解算法和概率型歧义消解算法。

规则型歧义消解算法主要采用语义、语法、词性等规则对歧义字段进行消歧。

概率型歧义消解算法通常需要统计上下文信息[3](例如使用互信息、N元统计模型、t-测试原理、HMM模型、字标注统计等方法或模型[4]统计上下文信息)从而进行歧义消解。

文献[4]提出了一种基于词频的中文分词歧义消解方法，该方法主要适用于没有上下文的歧义消解。

文献[5]提出了一种针对交叉型歧义无监督的学习方法，并比较了卡方统计量、t-测试差在歧义处理中的效果。

一种有效解决汉语歧义切分的方法

Ｅｍｉ：ｚＯ＠ｍｌｓ．ｕａ－ａｚＯ９ａ．ｔｅ．ｌｊｉｕｃｄｎ
ＺＨＵｉｎ，ＪａＺＨＡＮＧｉｎ，ｉｏＥｅｔｖｅｈｄｎｒｓｌｉｇＪａＬＩＭａ．ｆｃｅｍｔｏｏｅｏｖｎＣｈｎｓａｉｕｕｅｍｅｔｔｏＣｏｕｅｇｎｅｉｇｉｉｅｅｍｂｇｏｓｓｇｎａｎ．ｍｐｔｒＥｎｉｅｒｎｉ
摘
要：出了一种通过有向图和统计加规则的多层过滤方法来有效解决汉语分词过程中的交集型歧义切分问题，方法大大提提该
高了切分的正确率。经过６０５０字的开放语料测试，计了其对交集型歧义字段的切分结果，现该方法对交集型歧义字段的切０统发
分正确率为９．％，８４３以上数据表明该方法在解决汉语交集型歧义字段的问题时是行之有效的。
关键词：向图；计模型；则库；义字段；字切分有统规歧汉
文章编号：０２８３（０７１－１５０文献标识码：中图分类号：Ｐ９１０ — ３１２０ｃｒｃｏｅｍｅｔｔｏｍｂｇｏｓｈａｅｏｏｅｌｐｅｙｅｅｃｅ９．３ｔｉｔｅｃｕａｙｆｓｇｎａｉｎｆｒａｉｕｕｐｒｓｓｆｖｒａｐｄｔｐｒａｈｓ８４％，ｈｓｕｅｐｏｅｔａｈｓｍｅｈｄｓｏｎｍｂｒｒｖｓｈｔｔｉｔｏｉ

基于CFRs模型的交集型歧义消解研究

基于CFRs模型的交集型歧义消解研究作者：尤慧丽来源：《电脑知识与技术》2018年第18期摘要：中文自动分词是中文信息处理的基础，交集型歧义字段的消解又是中文自动分词中的重点。

本文将CRFs模型用于交集型歧义字段的歧义消解中。

该算法将交集型歧义字段的消解任务由二值分类的问题转化为序列标注的问题，这样不仅能处理任意链长的交集型歧义字串，而且能够充分利用上下文环境的信息，在不同的上下文环境中对真歧义字串进行正确的切分。

关键词：中文自动分词；交集型歧义；CRFs模型；序列标注中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2018）18-0263-021引言汉语词语的切分往往存在歧义，歧义切分是自动分词中一个比较棘手的问题。

歧义切分字段从构成形式上可以划分为交集型歧义切分字段、组合型歧义切分字段和混合型歧义切分字段三种类型。

交集型歧义切分字段是中文自动分词系统中的主要歧义类型，据相关统计，交集型歧义切分字段占所有歧义切分字段的85%以上[1]，一直以来是人们研究的重点，本文主要讨论交集型歧义字段。

对消解交集型歧义字段，现阶段主要的方法有：基于词概率模型的歧义消解方法和基于最大熵模型的歧义消解方法等。

文献[2]中提及的方法在一元概率语法模型中简单易行，但参与计算的只有歧义字段内每个词的出现概率，和上下文环境没有关系。

而在二元概率语法模型中虽然能够利用上下文环境信息，但是它存在的最大困难是数据稀疏的问题。

文献[4]将最大熵模型应用于交集型歧义字段的消解任务中，但其消歧准确率不是特别理想。

本文在对现有方法进行深入分析的基础上，采用基于条件随机场模型的算法来解决交集型歧义字段的切分问题。

2预备知识2.1交集型歧义字段的定义定义1：交集型歧义字段：设汉字字符串[S=]，其中S不是词，[ci（i=1，2......n）]为单个汉字，如果存在整数[i1]，[i2]，...，[im]， [j1]，[j2]…[jm]（[m≥2]）满足：（1）[w1=ci1...cj1]，[w2=ci2...cj2]，[wm=cim...cjm]分别构成词，并且S中不存在包含[w1]、[w2]、…、[wm]的词；（2） [w1]、[w2]、…、[wm]相互交叉，即[ik例如： A、资助/的/女童/已/从/小学/毕业/ B、从小/学/书法汉字字符串“从小学”为交集型切分歧义，这里“从小”、“小学”均为词，并构成交叉，所以“从小学”是一个交集型歧义切分字段。

基于关联规则的交集型歧义消解算法

基于关联规则的交集型歧义消解算法
一、算法思想
本算法基于关联规则，采用交集型消解方法，通过对歧义词的上下文进行分析，利用关联规则，从歧义词的候选词中选择最终的歧义解。

二、算法流程
1. 根据歧义词的上下文，确定歧义词的候选词。

2. 根据歧义词的候选词，构建关联规则，计算候选词之间的关联度。

3. 对关联度进行排序，选择关联度最高的候选词作为歧义词的最终解。

三、算法实现
本算法的实现需要借助NLP技术，如词法分析、句法分析等，以及数据挖掘技术，如关联规则挖掘等。

1. 首先，利用NLP技术，对歧义词的上下文进行词法分析和句法分析，得到歧义词的候选词。

2. 然后，利用数据挖掘技术，构建候选词之间的关联规则，并计算关联度。

3. 最后，根据关联度进行排序，选择关联度最高的候选词作为歧义词的最终解。

基于双字耦合度的中文分词交叉歧义处理方法

基于双字耦合度的中文分词交叉歧义处理方法王思力;王斌【摘要】本文提出了一种利用双字耦合度和t-测试差解决中文分词中交叉歧义的方法: 首先利用词典找出所有的交叉歧义,然后用双字耦合度和t-测试差的线性叠加值来判断各歧义位置是否该切分.实验结果表明,双字耦合度和t-测试差的结合要优于互信息和t-测试差的结合,因此,用双字耦合度和t-测试差的线性叠加值来消除交叉歧义是一种简单有效的方法.【期刊名称】《中文信息学报》【年(卷),期】2007(021)005【总页数】5页(P14-17,30)【关键词】计算机应用;中文信息处理;中文分词;双字耦合度;t-测试差【作者】王思力;王斌【作者单位】中国科学院,计算技术研究所,北京,100080;中国科学院,研究生院,北京,100039;中国科学院,计算技术研究所,北京,100080【正文语种】中文【中图分类】TP391随着中国社会经济的飞速发展以及互联网在中国的普及，互联网上日益增长的中文信息也被越来越多的人所重视。

巨大的商业前景和重要的学术价值，吸引了来自于业界和学术界不同领域的研究人员在中文信息处理这一问题上开展研究。

作为中文信息处理基础的分词技术，已经被广泛应用于中文领域的信息检索、人机交互、信息提取、文本挖掘等技术中。

歧义消除和未登录词识别是当前的分词技术中存在的两大难点。

所谓歧义，是指同一个字符串存在不止一种切分形式。

一般来说，歧义按照结构可以分为两种歧义类型：交集型歧义（交叉歧义）和组合型歧义（覆盖歧义）。

有研究者通过统计发现［1］，在这两种歧义结构中，交叉歧义占到了总歧义字段的86%。

因此，目前中文分词中歧义消除工作的重点通常集中于如何消除交叉歧义。

孙茂松等人［2］提出了一种利用句内相邻字之间的互信息及t－测试差这两个统计量解决汉语自动分词中交集型歧义切分字段的方法。

其初步实验显示，可以正确处理90.3%的歧义字段。

在此基础上，孙茂松等人又在文献［3］进一步提出将两者线性叠加的新的统计量md，并引入“峰”和“谷”的概念，设计了一种无词表的自动分词算法。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Ａｈｉｎｖｒｔ，ｅｅ２０３，ｈｎ）ｎｕＵｉｅｓｙＨｆ３０９Ｃｉａｉｉ
ＡｂｔａｔＳｇｎａｉｎａｃｒｃｎｐｅｒｈｗｏｍａｎｐｆｏｎｎｅｉｄｘｓｏｈｉｅｅｗｏｄｓｇｓｒｃ：ｅｍｅｔｔｏｃｕａｙａｄｓｅｄａｅｔｅｔｉｅｎａｃｎｅｅｆｔｅＣｈｎｓｒｅｍｅｔｔｎｓｓｅ．ｃｒｉｇｎａｉｙｔｍＡｃｏｄｎｏｔｈｕｓｉｎｏｌｗｐｅｄｐｅｉｉｎｏｅｗｏｄｉｈｒｄｔｎｌＣｈｎｓｒｅｍｅｔｔｎ，ｔｕｅｈｔｕｔｒｉｔｎｒｆｏｔｅｑｅｔｆｓｏｏｓｅｄａｒｃｓｆｔｒｎｔｅｔａｉｏａｉｅｅｗｏｄｓｇｎａｉｉｓｓｔｅｓｒｃｕｅｄｃｉａｙｏｎｏｈｉｏｏｄｕｌ—ｄｃｅａｈｍｅｈｎｓｔｒｎｅｔｅｓｅｄｏｒｅｍｅｔｔｎｏｂｅｅｋｄｈｓｃａｉｍｏｐｏｍｔｐｅｆｗｏｄｓｇｎｉ．Ｔｏｉｒｖｈｅｍｅｔｔｎａｃｒｃｕｅｔｅｍｅｏｆｈａｏｍｐｏｅｔｅｓｇｎａｉｃｕａｙ，ｓｈｔｄｏｏｈ
ｔｅｍｕａｎｏｍａｉｎｔｌｎｔｔｅｏｅｌｐｉｇａｉｕｔｔｎｉｈａｐａｅｎｔｅｍａｃｉｇｒｓｌ，ｔｅＣｈｎｓｒｅｍｅｔ－ｈｔｌｉｆｒｔｏｅｉａｅｈｖｒａｐｎｍｂｇｉｓｒｇｗｈｃｐｅｄｉｔｈｎｅｕｔｈｉｅｅｗｏｄｓｇｎａｕｏｍｉｙｉｒｈｓ
ｔｏｙｔｍｓａｈｅｅＴｈｙｓｍｓｉｐｏｖｎｔｅｓｅｄａｄａｃｒｃｏｐｒｄｗｉｅｔｄｔｏａｉｅｏｄｓｇｅｔｔｎｌｉｎｓｓｅｉｃｉｖｄｅｓｔｅｉｍｒｅｉｈｐｅｄｎｃｕａｙｃｍａｅｔｔｒｉｎｌＣｈｎｓｗｒｅｍｎａｉａｈｈａｉｅｏ
关键词：中文分测；互信息；交集型歧义
中图分类号：Ｐ１Ｔ３文献标识码：Ａ文章编号：６３６９２１）５０６ — ４１７ — ２Ｘ（０１０ — ０００
ＡｅｈｏｂｏｔＲｅｏｉｇＯｖｒａｐｉｇＡｍｂｇｔＭｔｄａｕｍｖｎｅｌｐｎｉｕｉｙ
第２１卷第５期２１年５月０１
计算机技术与发展
ＣＯＭＰＵＩＲＥＣＨＮＯＩＴＯＧＹＤＡＮＤＥＶＥ１ＭＥＮＴＯＰ
Ｖｏ１２１Ｎｏ．．５Ｍａ２０１ｖ１
一
种消除中文分词中交集型歧义的方法
Ｏ引言
高的问题，采用了双层ｈｓ结构的明典机制来提升分词的速度，ａｈ对于匹配结果中出现的交集型歧义字段，通过互信息的方
法来消除，以提高分词精度。ｌ对该分词系统进行实现。通过传统的中文分词系统的分词速度以及分谢效果的对并比，发现该系统在分词速度和精度上都有所进步，而取得较好的分词效果。从
魏博ቤተ መጻሕፍቲ ባይዱ诚，爱平，王沙先军，王永
（安徽大学计算智能与信号处理教育部重点实验室，安徽合肥２０３）３０９
摘
要：分速度和精度足中文分词系统的两个主要性能指标。针对传统的中文分浏［出脱的分词速度慢币分词精度不切｝Ｊ ¨
ｓｓｅ．ｅｅｐｒｍｅｔｒｓｌｋｈｏｄｐｒｃｐｅｐｏｒｓ．ｙｔｍＴｈｘｅｉｎｅｕｔｍａｅｔｅｇｏａｔｉｌｒｇｅｓｓｉＫｅｒｓＣｈｎｓｒｅｍｅｔｔｎ；ｔａｎｏｍａｉｎ：ｖｒａｐｎｍｂｇｉｙｗｏｄ：ｉｅｅｗｏｄｓｇｎａｏｍｕｕｌｉｆｒｔｉｏｏｅｌｐｉｇａｉｕｔｙ
ＰｒｄｉｇｉｏｕｃｎｎＣｈｉｓａｃｉｇｎｅｅＭｔｈｎ
ＷＥｏｃｅｇＷＡＧＡ－ｉｇＳｉ－ｕ，ＮｎＩ－ｈｎ，Ｎｉｐ，ＨＡＸａｊｎＷＡＧＹｏｇＢｎｎ
（ｉｉｔｆＥｕａｉｎＫｅａ．ｆＩｔｌｇｎｍｐｔｇ＆ＳｇａＰｏｅｓｎＭｎｓｙｏｄｃｔｙＬｂｏｎｅｌｅｔｒｏｉＣｏｕｉｎｉｎｌｒｃｓｉｇ．