命名实体识别研究进展综述
基于深度学习的命名实体识别研究综述

现代电子技术Modern Electronics TechniqueMar. 2024Vol. 47 No. 62024年3月15日第47卷第6期DOI :10.16652/j.issn.1004‐373x.2024.06.006引用格式:张继元,钱育蓉,冷洪勇,等.基于深度学习的命名实体识别研究综述[J].现代电子技术,2024,47(6):32‐42.基于深度学习的命名实体识别研究综述张继元1,2,3, 钱育蓉1,2,3, 冷洪勇2,3,5, 侯树祥2,3,4, 陈嘉颖1,2,3(1.新疆大学 软件学院, 新疆 乌鲁木齐 830000;2.新疆大学 新疆维吾尔自治区信号检测与处理重点实验室, 新疆 乌鲁木齐 830046;3.新疆大学 软件工程重点实验室, 新疆 乌鲁木齐 830000;4.新疆大学 信息科学与工程学院, 新疆 乌鲁木齐 830000;5.北京理工大学 计算机学院, 北京 100081)摘 要: 命名实体识别是自然语言处理领域的一项关键任务,其目的在于从自然语言文本中识别出具有特定含义的实体,如人名、地名、机构名和专有名词等。
在命名实体识别任务中,研究人员提出过多种方法,包括基于知识和有监督的机器学习方法。
近年来,随着互联网文本数据规模的快速扩大和深度学习技术的快速发展,深度学习模型已成为命名实体识别的研究热点,并在该领域取得显著进展。
文中全面回顾现有的命名实体识别深度学习技术,主要分为四类:基于卷积神经网络模型、基于循环神经网络模型、基于Transformer 模型和基于图神经网络模型的命名实体识别。
此外,对深度学习的命名实体识别架构进行了介绍。
最后,探讨命名实体识别所面临的挑战以及未来可能的研究方向,以期推动命名实体识别领域的进一步发展。
关键词: 命名实体识别; 深度学习; 自然语言处理; 卷积神经网络; 循环神经网络; Transformer ; 图神经网络中图分类号: TN919‐34 文献标识码: A 文章编号: 1004‐373X (2024)06‐0032‐11Survey of named entity recognition research based on deep learningZHANG Jiyuan 1, 2, 3, QIAN Yurong 1, 2, 3, LENG Hongyong 2, 3, 5, HOU Shuxiang 2, 3, 4, CHEN Jiaying 1, 2, 3(1. School of Software, Xinjiang University, Urumqi 830000, China;2. Key Laboratory of Signal Detection and Processing in Xinjiang Uygur Autonomous Region, Urumqi 830046, China;3. Key Laboratory of Software Engineering, Xinjiang University, Urumqi 830000, China;4. School of Information science and Engineering, Xinjiang University, Urumqi 830000, China;5. School of computer science, Beijing Institute of Technology, Beijing 100081, China)Abstract : Named entity recognition is a crucial task in the field of Natural Language Processing, which aims to identify entities with specific meanings from natural language texts, such as person names, place names, institution names, and proper nouns. In the task of named entity recognition, researchers have proposed various methods, including those based on domain knowledge and supervised machine learning approaches. In recent years, with the rapid expansion ofinternet text data and the rapid development of deep learning techniques, deep learning models have become aresearch hotspot in named entity recognition and have made significant progress in this field. A comprehensive review of existing deep learning techniques for named entityrecognition is provided, categorizing them into four main categories: models based on convolutional neural networks (CNN), recurrent neural networks (RNN), Transformer models, and graph neural networks (GNN) for NER. An overview of deep learning architectures for named entity recognition is presented. The challenges faced by named entity recognition and potential research directions in the future are explored to promote further development in the field of named entity recognition.Keywords : named entity recognition; deep learning; natural language processing; convolutional neural networks; recurrentneural network; Transformer; graph neural network收稿日期:2023‐08‐31 修回日期:2023‐10‐08基金项目:国家自然科学基金项目(62266043);国家自然科学基金项目(61966035);新疆维吾尔自治区自然科学基金项目(2021D01C083);新疆维吾尔自治区自然科学基金项目(2022D01C692);新疆维吾尔自治区高校基本科研业务经费科研项目(XJEDU2023P012);杰出青年科学基金(2023D01E01);天山创新团队(2023D14012);新疆高校基本科研业务费项目(XJEDU2023Z001)32第6期0 引 言自然语言处理(Natural Language Processing, NLP )是计算机科学和人工智能领域的重要研究方向,主要研究人与计算机之间用自然语言进行有效交流的理论和方法。
多模态命名实体识别方法研究进展

多模态命名实体识别方法研究进展
王海荣;徐玺;王彤;荆博祥
【期刊名称】《郑州大学学报(工学版)》
【年(卷),期】2024(45)2
【摘要】为了解决多模态命名实体识别(MNER)研究中存在的文本特征语义不足、视觉特征语义缺失、图文特征融合困难等问题,多模态命名实体识别方法相继被提出。
首先,总结了多模态命名实体识别方法的整体框架以及各部分常用的技术,随后对其进行梳理并分类为基于BiLSTM的MNER方法和基于Transformer的MNER方法,并根据模型结构将其划分为前融合模型、后融合模型、Transformer 单任务模型、Transformer多任务模型等4类模型结构。
其次,在Twitter-2015、Twitter-2017 2个数据集上,分别对这2类方法进行实验,结果表明:多特征协同表示能增强各模态特征的语义,多任务学习能够促进模态特征融合或者结果融合,从而提升MNER的准确性。
建议在MNER的未来研究中,着重关注通过多特征协同表示来增强模态语义,通过多任务学习促进模态特征融合或结果融合等方向的研究。
【总页数】12页(P60-71)
【作者】王海荣;徐玺;王彤;荆博祥
【作者单位】北方民族大学计算科学与工程学院;北方民族大学图像图形智能处理国家民委重点实验室
【正文语种】中文
【中图分类】TP301.6;TP391.1
【相关文献】
1.命名实体识别方法研究进展
2.多模态语义协同交互的图文联合命名实体识别方法
3.道路预防性养护方法分析
4.基于多任务学习的多模态命名实体识别方法
因版权原因,仅展示原文概要,查看原文内容请购买。
基于深度学习的命名实体识别方法研究

基于深度学习的命名实体识别方法研究深度学习技术在自然语言处理领域取得了显著的进展,其中之一便是命名实体识别(Named Entity Recognition,简称NER)任务。
NER是自然语言处理中的重要任务,它的目标是从文本中识别出具有特定意义的实体,如人名、地名、组织机构等。
本文将重点研究基于深度学习的命名实体识别方法,并探讨其在不同领域和语种下的应用。
一、引言命名实体识别作为自然语言处理中的基础任务之一,在信息抽取、问答系统、机器翻译等应用中具有重要作用。
传统方法主要依赖于手工设计特征和统计模型,但这些方法往往需要大量人工参与,并且对于不同领域和语种下的命名实体识别效果较差。
二、深度学习在命名实体识别中的应用1. 基于循环神经网络(Recurrent Neural Network, RNN)的方法RNN是一种能够处理序列数据的神经网络模型,在命名实体识别任务中得到了广泛应用。
通过将文本序列作为输入,并通过隐藏状态传递信息,RNN能够捕捉到上下文信息,从而提高命名实体识别的准确性。
2. 基于长短时记忆网络(Long Short-Term Memory, LSTM)的方法LSTM是一种特殊的RNN结构,它能够有效地解决传统RNN在处理长序列时的梯度消失和梯度爆炸问题。
在命名实体识别任务中,LSTM能够更好地捕捉到长距离依赖关系,提高识别准确率。
3. 基于卷积神经网络(Convolutional Neural Network, CNN)的方法CNN是一种广泛应用于图像处理任务中的神经网络模型,但近年来也被应用于文本处理任务。
在命名实体识别中,CNN能够通过卷积操作提取文本特征,并通过池化操作减少特征维度。
这种方法具有计算效率高和模型结构简单等优点。
三、基于深度学习的命名实体识别方法改进1. 多任务学习传统命名实体识别方法通常将NER视为一个单独的标注问题进行处理。
而基于深度学习的方法则可以将NER与其他相关任务进行联合训练,如词性标注、句法分析等。
基于深度学习的命名实体识别算法研究

基于深度学习的命名实体识别算法研究近年来,随着机器学习技术的发展,基于深度学习的命名实体识别算法日益被人们所重视。
命名实体识别算法是自然语言处理领域中的一个重要研究方向,它可以将文本中的实体名称(人名、地名、组织机构名等)自动识别出来,并进行分类和标注。
准确地识别出各种实体名称,对于信息提取、文本分类、知识图谱构建等应用领域具有重要的意义。
本文将围绕基于深度学习的命名实体识别算法展开研究。
一、命名实体识别算法的研究现状最初的命名实体识别算法主要基于规则和模式匹配,这些方法需要人工设计特征和规则,难以处理复杂的句子结构和语言变化。
近年来,传统的基于统计机器学习的方法,如最大熵模型、条件随机场等,取得了较好的效果。
但是,这些方法需要对文本进行预处理,并采用手工工程特征,这限制了算法的泛化能力。
而基于深度学习的命名实体识别算法则可以使用端到端的方式进行模型训练和应用。
二、基于深度学习的命名实体识别算法基于深度学习的命名实体识别算法一般分为两类:基于卷积神经网络的方法和基于循环神经网络的方法。
1. 基于卷积神经网络的方法基于卷积神经网络的命名实体识别算法主要由卷积层、池化层和全连接层组成。
其中,卷积层可以提取文本中的特征,池化层可以降低特征的维度,全连接层可以进行分类和标注。
例如,Zhang等人提出的卷积神经网络命名实体识别算法(CNN-NER)可以通过学习句子中的词向量来识别命名实体,并将其分类为不同的类别。
2. 基于循环神经网络的方法基于循环神经网络的命名实体识别算法主要由循环层和全连接层组成。
循环层可以学习长期依赖和上下文信息,全连接层可以进行分类和标注。
例如,Lample等人提出的循环神经网络命名实体识别算法(LSTM-CRF)可以学习上下文信息和序列特征,并将命名实体识别结果与标注结果通过条件随机场进行融合,提高了算法的准确性。
三、算法效果的评价指标对于命名实体识别算法的效果评价指标主要包括准确率、召回率和F1值。
命名实体识别技术研究进展综述

命名实体识别技术研究进展综述一、本文概述随着信息技术的快速发展,自然语言处理(NLP)领域的研究日益深入,命名实体识别(Named Entity Recognition, NER)作为其中的一项关键技术,在信息抽取、机器翻译、问答系统、语义理解等多个领域具有广泛的应用价值。
本文旨在对命名实体识别技术的研究进展进行综述,以期为相关领域的研究者和实践者提供全面的技术概览和前沿动态。
本文首先介绍了命名实体识别的基本概念和重要性,阐述了NER 技术的核心任务和应用场景。
接着,回顾了NER技术的研究历程,包括早期的规则方法和基于词典的方法,以及近年来基于深度学习的NER技术的快速发展。
在此基础上,本文重点分析了当前主流的NER 技术,包括基于深度学习的监督学习方法、无监督学习方法、迁移学习方法和弱监督学习方法等,并对这些方法的优缺点进行了比较和评价。
本文还关注了NER技术在多语种、跨领域和少样本场景下的应用和挑战,探讨了相应的解决策略和发展趋势。
本文总结了NER技术的研究现状和未来发展方向,以期为推动NER技术的进一步发展提供参考和借鉴。
二、命名实体识别技术概述命名实体识别(Named Entity Recognition,简称NER)是自然语言处理(NLP)中的一个重要任务,旨在从文本中识别出具有特定意义的实体,如人名、地名、组织机构名、日期、时间等。
这些实体在文本中扮演着重要的角色,对于理解文本的含义和上下文信息具有关键的作用。
NER技术广泛应用于信息抽取、机器翻译、问答系统、语义网、智能代理等领域,是自然语言处理中不可或缺的一部分。
NER技术的核心在于对文本进行语义理解和分析,通过算法和模型来识别和标注文本中的实体。
根据不同的应用场景和数据特点,NER 技术可以分为多种类型,如基于规则的方法、基于统计的方法、基于深度学习的方法等。
基于深度学习的NER技术近年来取得了显著的进展,成为当前研究的热点和趋势。
自然语言处理中的命名实体识别与关系抽取

自然语言处理中的命名实体识别与关系抽取命名实体识别与关系抽取是自然语言处理中的重要技术。
它们分别用于识别文本中的命名实体和抽取命名实体之间的关系,对于自然语言处理领域的信息抽取、文本分类和知识图谱构建等任务具有重要意义。
本文将分别介绍命名实体识别和关系抽取的基本概念、技术方法和应用场景,并讨论它们在自然语言处理领域的发展和挑战。
一、命名实体识别命名实体识别是自然语言处理中的一项基础任务,它主要是识别文本中具有特定意义的实体,如人名、地名、机构名、日期、时间等。
命名实体识别通常在信息抽取、知识图谱构建、问答系统等任务中起着重要作用。
1.1命名实体识别的基本概念命名实体识别的主要目标是从文本中识别出具有特定名称的实体,并将其分类为不同的类别。
常见的命名实体包括人名、地名、组织机构名、时间、日期等。
命名实体识别的结果通常是一个实体序列,每个实体都有对应的类别标签。
1.2命名实体识别的技术方法命名实体识别的技术方法主要包括基于规则的方法、基于统计的方法和基于深度学习的方法。
基于规则的方法通过设计一系列规则来识别文本中的命名实体,但这种方法依赖于语言专家对规则的设计,难以覆盖所有的情况。
基于统计的方法通过训练统计模型来识别命名实体,如隐马尔可夫模型、条件随机场等。
基于深度学习的方法则是通过神经网络模型来学习文本中的命名实体特征,进而识别命名实体。
1.3命名实体识别的应用场景命名实体识别在自然语言处理领域有着广泛的应用场景,如信息抽取、文本分类、知识图谱构建、问答系统等。
在信息抽取任务中,命名实体识别能够帮助抽取文本中的实体关系,从而构建结构化的知识库。
在文本分类任务中,命名实体识别能够帮助识别文本中的关键实体,从而提高分类性能。
在知识图谱构建任务中,命名实体识别能够帮助从大规模文本中抽取实体及其关系,从而构建知识图谱。
在问答系统任务中,命名实体识别能够帮助识别问题中的关键实体,从而提高问题解析的性能。
1.4命名实体识别的发展和挑战随着深度学习技术的发展,命名实体识别在自然语言处理领域取得了一些重要的进展。
《2024年蒙古文命名实体识别研究》范文

《蒙古文命名实体识别研究》篇一一、引言随着信息技术的快速发展,自然语言处理技术逐渐成为人工智能领域的重要研究方向。
其中,命名实体识别(Named Entity Recognition,NER)是自然语言处理中的一项关键技术。
在蒙古文中,命名实体识别对于处理蒙古语文本信息、提高蒙古语自然语言处理水平具有重要意义。
本文旨在探讨蒙古文命名实体识别的研究现状、方法及挑战,以期为相关研究提供参考。
二、蒙古文命名实体识别的研究现状蒙古文命名实体识别是针对蒙古语文本中的人名、地名、机构名等命名实体进行识别和标注的技术。
目前,蒙古文命名实体识别的研究已经取得了一定的成果。
国内外学者在蒙古文语料库建设、分词技术、特征提取等方面进行了大量研究,为蒙古文命名实体识别提供了有力支持。
然而,由于蒙古文语言的特殊性,命名实体识别的准确率和效率仍有待提高。
三、蒙古文命名实体识别的研究方法1. 基于规则的方法基于规则的方法是蒙古文命名实体识别的一种常用方法。
该方法通过制定一系列规则,对蒙古文文本进行分词和命名实体识别。
规则的制定需要结合语言学知识和领域知识,因此需要专业人员进行制定和维护。
该方法在特定领域和语料库上具有较好的识别效果,但泛化能力较弱。
2. 基于统计的方法基于统计的方法是另一种常用的蒙古文命名实体识别方法。
该方法利用统计学方法对语料库进行训练,提取命名实体的特征,然后进行分类和识别。
常用的统计方法包括隐马尔可夫模型(HMM)、条件随机场(CRF)等。
该方法具有较好的泛化能力,但需要大量的语料库进行训练。
3. 深度学习方法深度学习方法是近年来新兴的蒙古文命名实体识别方法。
该方法通过构建深度神经网络模型,自动提取命名实体的特征,并进行分类和识别。
常用的深度学习模型包括循环神经网络(RNN)、长短期记忆网络(LSTM)和卷积神经网络(CNN)等。
深度学习方法在蒙古文命名实体识别中具有较高的准确率和泛化能力。
四、蒙古文命名实体识别的挑战与展望1. 语料库的匮乏目前,蒙古文的语料库相对较少,尤其是标注好的语料库更为匮乏。
基于深度学习的中文命名实体识别研究的开题报告

基于深度学习的中文命名实体识别研究的开题报告1.研究背景目前,由于互联网技术的不断发展和普及,文本信息的数量呈指数增长。
然而,大量的文本信息中包含着各种实体,例如人名、地名、组织机构等。
对这些实体进行自动识别并抽取出有用信息,不仅可以大大提高人们的信息检索效率,而且对于自然语言处理、知识图谱构建等领域也具有重要意义。
因此,中文命名实体识别(Chinese Named Entity Recognition,CNER)成为了自然语言处理研究中的一个核心问题。
该问题的解决对于机器理解文本的能力有很大帮助。
随着深度学习技术的兴起,其在该领域中也取得了很多进展。
因此,本研究将重点基于深度学习技术对中文命名实体识别算法进行研究和探讨。
2.研究目的本研究旨在探究基于深度学习的中文命名实体识别算法,通过对中文文本中的命名实体进行自动识别提取出有用信息,提高文本信息检索的效率和精度。
3.研究内容(1)中文命名实体识别的基本概念和算法;(2)深度学习技术在中文命名实体识别中的应用现状和发展趋势;(3)基于深度学习的中文命名实体识别算法的研究和探讨,包括基于循环神经网络(Recurrent Neural Networks,RNN)的模型和基于卷积神经网络(Convolutional Neural Networks,CNN)的模型;(4)基于公开数据集的实验和分析,对比不同模型在中文命名实体识别任务上的效果;(5)对研究结果进行总结和分析,提出未来研究的方向和深度学习在自然语言处理领域的应用前景。
4.研究方法本研究将主要采用如下方法:(1)数据预处理:收集、清洗并进行标注的数据集;(2)模型设计:基于深度学习方法,设计一些常用模型,如RNN、CNN等等;(3)模型训练:通过已经标注好的数据集进行训练,并结合优化方法进行模型的快速迭代;(4)模型评估:通过公开数据集进行模型的效果评估,比较不同模型在中文命名实体识别任务中的表现;(5)结果分析:分析研究结果,发掘深度学习在中文命名实体识别中的应用前景。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
工规则对高校名进行了实验研究。I n t e l 中国研究中心
8 ] 的Z h a n g 等[ 在A C L 2 0 0 0上演示了他们开发的一个抽
取中文命名实体以及这些实体间相互关系的信息抽取 系统, 该系统利用基于记忆的学习( M e m o r yB a s e d L e a r n i n g ,M B L ) 算法获取规则, 用以抽取命 名实体 及 它们之间的关系。
1 引 言
命名实体识别( N a m e dE n t i t yR e c o g n i t i o n , N E R ) 的主要任务是识别出文本中的人名、 地名等专有名称和有意
1 ] 义的时间、 日期等数量短语并加以归类 [ 。命名实体识别技术是信息抽取、 信息检索、 机器翻译、 问答系统等多种
2
( I n s t i t u t eo f S c i e n t i f i c&T e c h n i c a l I n f o r m a t i o no f C h i n a , B e i j i n g 1 0 0 0 3 8 , C h i n a )
3
( N a t i o n a l A d m i n i s t r a t i o nf o r C o d eA l l o c a t i o nt oO r g a n i z a t i o n s ,B e i j i n g 1 0 0 0 2 9 , C h i n a )
【 A b s t r a c t 】T h e p a p e r i n t r o d u c e s t h e b a c k g r o u n da n dm o t i v a t i o no f N a m e dE n t i t y R e c o g n i t i o n , a n ds u m m a r i z e s t h e h i s t o r y d e v e l o p m e n t o f N a m e dE n t i t yR e c o g n i t i o na t h o m ea n da b r o a d ,a s w e l l a s t h er e l a t e dt e c h n o l o g ya n de v a l u a t i o nm e t h o d . F i n a l l y , i t d i s c u s s e s t h en e wd e v e l o p m e n t t r e n d s o nN a m e dE n t i t yR e c o g n i t i o n . 【 K e y w o r d s 】N a m e de n t i t yr e c o g n i t i o n I n f o r m a t i o ne x t r a c t i o n I n f o r m a t i o nr e t r i e v a l M a c h i n et r a n s l a t i o n E v a l u a t i o nm e t h o d s
2 3
【 摘要】介绍命名实体识别的研究背景和意义, 总结国内外命名实体识别研究历史, 详细介绍目前主流的技术方 法和评估方法, 讨论命名实体识别技术的发展趋势。 【 关键词】命名实体识别 信息抽取 信息检索 机器翻译 评估方法 【 分类号】T P 3 9 1
O v e r v i e wo nt h eA d v a n c eo f t h eR e s e a r c ho nN a me dE n t i t yR e c o g n i t i o n
- 2 0 0 2 、 C o N L L- 2 0 0 3 、 I R E X 、 L R E C等一系列国际会议 中, 命名实体识别都被作为其中的一项指定任务。 由于英文命名实体的识别中只需考虑词本身的特 征而不涉及分词问题, 因此实现难度相对较低。根据
① 以及 A ② 的评 测结果, M U C C E 测 试的准 确 率、 召回
6 ] 茂松等 [ 在国内比较生物命名实体信息提取时, 还包括蛋白质、 基因、 核糖核酸、 脱氧核糖核酸、 细胞等
1 7 ] 特殊生物实体 [ 。
主要采用统计的方法计算姓氏和人名用字概率。张小
7 ] 衡等 [ 对中文机构名称进行识别与分析, 主要采用人
3 研究内容及发展
3 . 1 研究主体 命名实体是命名实体识别的研究主体, 一般包括 3大类( 实体类、 时间类和数字类) 和 7小类( 人名、 地 名、 机构名、 时间、 日期、 货币和百分比) 命名实体。实 际研究中, 命名实体的确切含义需要根据具体应用来
1 5 ] 1 6 ] 确定, 比如, 可能需要把产品名称 [ 、 旅游景点名称 [
将《 知网》 中的义原作为特征加入到最大熵模型中, 以 此来训练产生性能更好的模型。 2 0 0 4年举行的 8 6 3命名实体识别评测, 成绩最好 的命名实体识别系统的准确率、 召回率和 F 1值分别为 8 1 . 1 0 %、 8 3 . 6 9 %、 8 2 . 3 8 %, 其中人名、 地名、 组织机构 名各 项 的 F 1值 最 高 分 别 为 8 5 . 5 1 %、 8 2 . 5 1 %、 6 0 . 8 1 % 。可见中文命名实体识别评测结果比英文结 果偏低, 尤其中文机构名称的识别难度更大一些。
《 现代图书情报技术》 版权所有, 欢迎下载引用! J ] , 现代图书情报技术, 2 0 1 0 ( 6 ) : 4 2- 4 7 . 请注明引用地址: 命名实体识别研究进展综述[
知识组织与知识管理
命名实体识别研究进展综述
, 3 孙 镇1 王惠临2 1
( 北京大学信息管理系 北京 1 0 0 8 7 1 ) ( 中国科学技术信息研究所 北京 1 0 0 0 3 8 ) ( 全国组织机构代码管理中心 北京 1 0 0 0 2 9 )
1 , 3 2 S u nZ h e n Wa n gH u i l i n 1
( D e p a r t m e n t o f I n f o r m a t i o nM a n a g e m e n t ,P e k i n gU n i v e r s i t y , B e i j i n g 1 0 0 8 7 1 , C h i n a )
F 1值目前大多可以达到 9 0 %左右。 率、 由于中文内在的特殊性决定了在文本处理时首先 必须进行词法分析, 中文命名实体识别的难度要比英 文的难度大。中文命名实体识别起步较晚, 2 0世纪 9 0 年代初期开始, 国内一些学者对中文命名实体( 如: 地 名、 人名、 组织机构名等) 识别进行了一些研究。如: 孙
自然语言处理技术必不可少的组成部分。从语言分析的全过程来看, 命名实体识别属于词法分析中未登录词识 别的范畴。命 名 实 体 是 未 登 录 词 中 数 量 最 多、 识 别 难 度 最 大、 对 分 词 效 果 影 响 最 大 的 问 题。根 据 S I G H A N
2 ] ( h t t p : / / w w w . s i g h a n . o r g / )B a k e o f f 数据评测结果, 未登录词造成的分词精度失落至少比歧义大 5倍以上 [ , 可见
由于数量、 时间、 日期、 货币等实体识别通常可以 采用模式匹配的方式获得较好的识别效果, 相比之下 人名、 地名、 机构名较复杂, 因此近年来的研究主要以 这几种实体为主。同时生物领域的实体识别也比较活 跃。这些实体中以机构名和生物实体识别难度最大, 普遍存在嵌套和缩写的识别问题。从研究的发展趋势 上看, 由原来的单独针对人名、 地名等进行识别发展到 开始采用统一的方法同时进行各类中文命名实体的识 别, 而且识别效果也得到了提高, 其中部分研究成果发 表在 A C L ( h t t p : / / w w w . a c l w e b . o r g / ) 年度会议以及 C O L I N G ( h t t p : / / n l p . s h e f . a c . u k / i c c l / ) 、 S I G H A N等 国 际会议上。 这种方法虽然考虑了人名、 地名和机构名的共同 特点, 能够有效地 解决 多种 命名 实体 间的 歧义 问题。 但是, 它不能充分分析不同命名实体间的差异性, 制约 了整体的识别性能。
2 命名实体识别研究历史
国外对于英文命名实体识别的研究开始比较早。 1 9 9 1年 R a u 在第 7届 I E E E人工智能应用会议上发表 了“ 抽取和识别公司名称” 的有关研究文章, 首次描述 了抽取和识别公司名称的系统, 该系统主要采用启发
3 ] 。1 9 9 6年, 命名实体 式算法和手工编写规则的方法 [ [ 4 ] 评测作为信息抽取的一个子任务被引入 M U C- 6 , [ 5 ] 在其后的 M U C- 7的 M E T- 2 以及 I E E R- 9 9 、 C o N L L
[ 9 ] 国外对于命名识别研究主要包括: B i k e l 等最早
提出了基于隐马尔可夫模型的英文命 名实 体识别 方 法, 其在 M U C- 6测试文本集的 测试 结果为: 英 文地 7 %、 9 4 % 名、 机构名和人名的识别精度分 别达到了 9 和9 5 %,召 回 率分 别达 到了 9 5 %、 9 4 %和 9 4 %; L i a o
收稿日期: 2 0 1 0- 0 3- 2 4 收修改稿日期: 2 0 1 0- 0 4- 1 1
4 2 现代图书情报技术
总第 1 9 3期 2 0 1 0年 第 6期
对未来发展趋势进行展望。
1 2 ] s a i 等[ 提出 中文名实体识别也获得了广泛关注。 T 1 3 ] 基于最大熵的混合的方法;冯元勇等 [ 提出基于单字 1 4 ] 提示特征的中文命名实体识别快速算法; 郑逢强等 [