智能问答系统中命名实体识别问题研究
人工智能在客服领域的智能问答系统

人工智能在客服领域的智能问答系统随着人工智能技术的不断发展,人工智能在客服领域的应用也越来越广泛。
其中,智能问答系统作为一种重要的人工智能应用技术,正在为客服行业带来革命性的变化。
本文将详细介绍人工智能在客服领域的智能问答系统。
一、智能问答系统的定义和作用智能问答系统是指通过使用自然语言处理、机器学习和知识图谱等人工智能技术,实现机器对用户提出的问题进行理解、搜索、分析和回答的系统。
其主要作用是能够准确、快速地回答用户提出的各种问题,提供优质的客户服务体验。
二、智能问答系统的工作原理智能问答系统主要分为以下几个步骤:1. 问题理解:系统通过自然语言处理技术对用户提出的问题进行分词、命名实体识别和句法分析等处理,进一步理解问题的含义。
2. 信息检索:系统根据用户提出的问题,通过对知识库、文本语料库等进行检索,找到相关的答案或者相似的问题。
3. 答案生成:系统根据检索到的信息,通过机器学习和自然语言生成技术对问题进行分析和回答,生成符合用户需求的答案。
4. 答案推荐:系统根据用户的反馈和评价,不断优化答案的质量,并推荐更好的答案供用户选择。
三、智能问答系统的优势1. 准确性:智能问答系统通过机器学习和知识图谱等技术,能够从海量的数据中准确地找到用户需要的答案,避免了传统客服系统中可能出现的错误和误导。
2. 快速性:智能问答系统能够在短时间内对用户提出的问题进行处理和回答,提高了客户服务的效率。
3. 可扩展性:智能问答系统可以根据客服业务的需求,不断更新和扩展知识库,使系统能够回答更多领域和复杂度的问题。
四、智能问答系统在客服领域的应用智能问答系统在客服领域的应用非常广泛,涵盖了各个行业和领域。
以下是一些常见的应用场景:1. 在线客服:智能问答系统可以代替人工客服,快速回答用户的问题,为用户提供及时、便捷的服务。
2. 常见问题解答:智能问答系统可以归纳整理常见问题及其答案,用户可以直接从系统中获取解决方案,无需人工介入。
基于人工智能的智能问答系统研发

基于人工智能的智能问答系统研发现如今,随着人工智能技术的快速发展,智能问答系统正成为人们获取信息、解决问题的重要工具。
基于人工智能的智能问答系统能够通过自动处理大量数据、分析语义关系以及理解用户意图,从而直接回答用户提出的问题。
本文将探讨基于人工智能的智能问答系统的研发,包括系统架构、关键技术以及应用前景。
一、系统架构基于人工智能的智能问答系统主要由以下几个模块组成:1. 语义理解模块:该模块负责将用户提出的问题进行自然语言理解,并将其转化为计算机可以处理的形式。
常用的技术包括自然语言处理、命名实体识别和语义角色标注等。
2. 知识库模块:该模块集成了大量的知识,包括百科知识、文档库、公式、图像、语音等。
知识库模块通过使用信息抽取、知识图谱构建等技术,将这些知识整合到一个统一的数据库中,为问答系统提供背景知识支持。
3. 问题检索模块:该模块利用搜索引擎技术,对用户提出的问题进行检索,找到相关的问题和答案。
通过高效的索引和排序算法,能够快速找到最相关的答案。
4. 答案生成模块:该模块结合语义理解模块的结果和知识库模块中的知识,对问题进行分析和理解,并生成准确的答案。
常用的技术包括自然语言生成、推理和规则引擎等。
5. 用户界面模块:该模块提供用户与系统的交互界面,使用户能够方便地输入问题并得到答案。
用户界面可以是文本界面、图形界面或语音界面。
二、关键技术基于人工智能的智能问答系统需要应用多种关键技术来实现高效、准确的问答能力。
1. 自然语言处理:自然语言处理技术是智能问答系统的基石。
它包括分词、词性标注、命名实体识别、句法分析等技术,能够将用户输入的自然语言转化为计算机可以理解的形式。
2. 信息抽取:信息抽取技术用于从大量的文本数据中自动提取出有用的信息。
通过抽取实体、关系和事件等信息,系统可以更好地理解问题并生成准确的答案。
3. 知识表示与推理:知识表示与推理技术能够将知识以图谱的形式进行表示,并通过推理算法进行推理。
基于人工智能的知识库问答系统研究

基于人工智能的知识库问答系统研究随着人工智能技术的不断发展,越来越多的应用场景开始向人工智能方向转移。
其中,知识库问答系统已经成为了人工智能技术在知识领域的重要应用之一。
本文将探讨基于人工智能的知识库问答系统研究,以及其发展前景和挑战。
一、知识库问答系统的概念知识库问答系统(KBQA)是一种基于自然语言理解、知识表达和知识推理技术,为用户提供自然语言接口,能够以智能化的方式回答用户关于某个特定领域的问题。
与传统的关键词搜索引擎相比,知识库问答系统更侧重于理解用户提出的问题,并给出精确的回答。
在发展过程中,知识库问答系统逐渐从基于规则的技术向深度学习、神经网络等技术转移,并逐步实现了真正的人机对话。
二、基于人工智能的知识库问答系统研究基于人工智能的知识库问答系统主要包含自然语言处理、知识表示与推理、语义匹配等技术。
1. 自然语言处理自然语言处理是知识库问答系统的基础。
该技术主要包括分词、词性标注、实体识别、语义角色标注、句法分析等环节。
通过这些环节,系统能够对自然语言文本进行深入的理解。
2. 知识表示与推理知识表示与推理技术是知识库问答系统的核心技术。
该技术主要包括知识图谱、本体论、规则等,通过这些技术,系统可以对知识进行表达,推理和存储。
3. 语义匹配语义匹配技术是知识库问答系统高效回答问题的关键技术。
通过该技术,系统可以将用户提出的自然语言问题与知识库中的实体、属性及关系进行匹配,找到最合适的答案。
三、基于人工智能的知识库问答系统的发展前景随着人工智能技术的进一步研究和应用,基于人工智能的知识库问答系统也将迎来更加广阔的发展前景。
1. 实现真正的人机对话基于人工智能的知识库问答系统将实现真正的人机对话,使得用户可以通过自然语言与系统进行沟通,从而实现更加智能、高效的知识获取。
2. 对知识库的更新和维护提出更高的要求基于人工智能的知识库问答系统将对知识库的更新和维护提出更高的要求,需要保证知识的完整性、准确性和时效性。
机器学习知识:机器学习中的命名实体识别

机器学习知识:机器学习中的命名实体识别近年来,随着数据科学和人工智能技术的发展,机器学习被越来越广泛地应用于各个领域,包括自然语言处理。
命名实体识别(Named Entity Recognition,简称NER)是自然语言处理中的一项重要技术,致力于从文本中找到特定实体、人名、地名、时间、组织机构等信息。
一、什么是命名实体识别?命名实体识别是文本分类的一种技术,指识别文本中特定实体的过程,例如人名、地名、机构名称等。
这个过程通常被划分为三个部分:实体标注、实体提取和实体关系抽取。
在实体标注部分,NER系统识别诸如人名、地名、组织机构等实体;在实体提取部分,系统将这些实体从文本中提取出来;在实体关系抽取部分,系统试图推断不同实体之间的关系。
例如,对于下面这个句子“王华是一名计算机科学家,目前在麻省理工学院担任研究员”,命名实体识别可以将“王华”、“计算机科学家”、“麻省理工学院”和“研究员”等识别为人名、职业、地名和职务等实体。
命名实体识别通常适用于自然语言处理中的一些应用场景,例如:信息提取、自动摘要、机器翻译、问答系统等。
例如,在搜索引擎中,一个用户可能输入了“北京奥林匹克公园在哪里?”这个问题,搜索引擎需要通过命名实体识别来找到“北京奥林匹克公园”这个地名,并找到它的位置信息。
二、常见模型和算法在实践中,命名实体识别有许多的技术和方法,其中最常见的包括:1.基于规则的方法:这种方法直接使用人工设计的规则来解决问题,例如使用正则表达式或其他预定义模式识别实体,它往往需要大量的手工制定规则,耗费大量的时间和人力,并且很难解决实体类型变化和未知实体类型等问题。
2.基于统计模型的方法:这种方法通常将命名实体识别问题视为带有标签的序列分类问题,并使用机器学习算法训练模型。
例如,统计机器学习算法(例如隐马尔可夫模型、马尔可夫随机场等)和神经网络(例如卷积神经网络和循环神经网络)被广泛应用于NER任务。
3.基于深度学习的方法:深度学习是一种强大的机器学习技术,在诸多自然语言处理问题中取得了不错的结果。
命名实体识别技术研究进展综述

命名实体识别技术研究进展综述一、本文概述随着信息技术的快速发展,自然语言处理(NLP)领域的研究日益深入,命名实体识别(Named Entity Recognition, NER)作为其中的一项关键技术,在信息抽取、机器翻译、问答系统、语义理解等多个领域具有广泛的应用价值。
本文旨在对命名实体识别技术的研究进展进行综述,以期为相关领域的研究者和实践者提供全面的技术概览和前沿动态。
本文首先介绍了命名实体识别的基本概念和重要性,阐述了NER 技术的核心任务和应用场景。
接着,回顾了NER技术的研究历程,包括早期的规则方法和基于词典的方法,以及近年来基于深度学习的NER技术的快速发展。
在此基础上,本文重点分析了当前主流的NER 技术,包括基于深度学习的监督学习方法、无监督学习方法、迁移学习方法和弱监督学习方法等,并对这些方法的优缺点进行了比较和评价。
本文还关注了NER技术在多语种、跨领域和少样本场景下的应用和挑战,探讨了相应的解决策略和发展趋势。
本文总结了NER技术的研究现状和未来发展方向,以期为推动NER技术的进一步发展提供参考和借鉴。
二、命名实体识别技术概述命名实体识别(Named Entity Recognition,简称NER)是自然语言处理(NLP)中的一个重要任务,旨在从文本中识别出具有特定意义的实体,如人名、地名、组织机构名、日期、时间等。
这些实体在文本中扮演着重要的角色,对于理解文本的含义和上下文信息具有关键的作用。
NER技术广泛应用于信息抽取、机器翻译、问答系统、语义网、智能代理等领域,是自然语言处理中不可或缺的一部分。
NER技术的核心在于对文本进行语义理解和分析,通过算法和模型来识别和标注文本中的实体。
根据不同的应用场景和数据特点,NER 技术可以分为多种类型,如基于规则的方法、基于统计的方法、基于深度学习的方法等。
基于深度学习的NER技术近年来取得了显著的进展,成为当前研究的热点和趋势。
AI智能问答是什么原理

AI智能问答是什么原理
AI智能问答的原理基于自然语言处理、信息检索和机器学习等技术。
其主要功能是通过人工智能算法和模型,来实现对用户提出的问题进行自动识别和回答。
首先,在问题识别方面,AI智能问答系统会将用户输入的自然语言文本进行分词、词性标注、命名实体识别等处理,将其转化为计算机可识别的形式。
通过采用自然语言处理技术,让机器理解用户提问的意图,从而将问题归类、分析。
其次,在答案搜索方面,AI智能问答系统会检索特定的知识库、语料库、百科等资源,寻找含有与用户问题匹配的信息和答案。
在这个过程中,还需要通过比较、排序等多种方式,筛选出最终匹配用户提问的答案。
最后,在答案生成方面,AI智能问答系统会将找到的答案进行格式化和呈现,然后输出回答给用户。
总而言之,AI智能问答系统在问题识别、答案搜索和答案生成等过程中,会结合多种人工智能技术,对自然语言文本进行分析和处理,最终返还给用户一个满意的答案。
基于人工智能的知识问答系统构建

基于人工智能的知识问答系统构建近年来,随着人工智能技术的发展,人们对于知识问答系统的需求越来越高。
许多大型企业和搜索引擎公司都在研发他们自己的问答系统,希望能够更好的为用户解决问题。
本文将介绍如何基于人工智能技术构建一个高效的知识问答系统。
一、问题理解和意图识别在构建知识问答系统之前,首先需要解决的是问题理解和意图识别。
这些技术是问答系统的核心,决定了系统的高效性和准确性。
有许多自然语言处理技术可以用于问题理解和意图识别,其中最重要的是自然语言理解(NLU)和自然语言生成(NLG)技术。
自然语言理解技术可以将用户输入的问题转化为机器可理解的数据形式。
这个过程可以分为几个步骤:1. 分词和词性标注:将输入的自然语言文本分解成单独的单词(或词组),并为每个单词分配相应的词性标记。
2. 命名实体识别:识别自然语言中的实体,如人名、地名、组织机构名等,以及它们之间的关系。
3. 语法分析:分析输入文本的语法结构并建立一个相应的语法树结构。
4. 语义分析:利用机器学习等技术,将输入文本中的实体和其他重要信息分类和标注,以确定用户的意图。
自然语言生成技术可以将系统返回的答案转化为自然语言文本。
这个过程比较简单,通常只需要将系统内部存储的数据结构通过预先定义好的语法规则转换成用户可理解的自然语言文本。
二、问答匹配和答案生成问题理解和意图识别完成之后,下一步就是进行问答匹配和答案生成。
这个过程包括两个主要步骤:问题匹配和答案生成。
问题匹配是找到一个或多个可能与用户问题相关的答案。
这个过程涉及到文本检索和相似度匹配算法。
一些最常用的算法包括:TF-IDF、BM25、LSI(Latent Semantic Indexing)和LDA(Latent Dirichlet Allocation)等。
这些算法主要的目的是根据输入的关键词和上下文信息,从海量数据中找到与之最相关的答案。
答案生成是根据找到的答案,生成一条或多条用户可理解的自然语言回答。
实体识别与关系提取算法在智能问答系统中的应用

实体识别与关系提取算法在智能问答系统中的应用近年来,随着人工智能技术的快速发展和广泛应用,智能问答系统逐渐成为人们获取信息的重要工具。
实体识别与关系提取算法作为智能问答系统的核心技术之一,具有重要的应用价值。
本文将重点探讨实体识别与关系提取算法在智能问答系统中的应用,从算法原理、技术难点和应用场景三个方面进行深入分析。
首先,介绍实体识别与关系提取算法的原理。
实体识别是指从文本中识别出具有独立意义的实体,如人物、地点、组织机构等。
关系提取则是从文本中提取出实体之间的关系,如“A是B的创始人”、“A与B是合作伙伴”等。
实体识别与关系提取算法主要依靠自然语言处理和机器学习技术来实现。
其中,自然语言处理技术包括词法分析、句法分析和语义分析等,用于获取文本中的语义信息;机器学习技术则通过训练模型来识别和提取出实体与关系。
常用的机器学习算法包括支持向量机、条件随机场和深度学习等。
其次,讨论实体识别与关系提取算法所面临的技术难点。
实体识别与关系提取是一项复杂的任务,主要存在以下几个难点:首先是语言的多样性和表达的多义性。
不同语言和不同上下文下,实体和关系的表达方式差异巨大,使得算法难以适应各种场景。
其次是未知实体和关系的识别。
由于实体和关系是不断变化和发展的,算法要能够在未知实体和关系的情况下进行准确的识别和提取。
此外,长文本和复杂逻辑的处理也是算法面临的挑战之一。
在处理长文本时,算法需要能够正确地识别出实体和关系,并准确地建立它们之间的联系。
最后,探讨实体识别与关系提取算法在智能问答系统中的应用场景。
智能问答系统旨在提供快速准确的解答,帮助用户获取所需信息。
实体识别与关系提取算法在智能问答系统中发挥了重要的作用,具有以下应用场景:首先是基于实体的信息检索。
算法能够将用户提出的问题中的实体识别出来,并用其作为索引,从大量的数据中检索相关信息。
其次是问题解析和答案生成。
通过识别问题中的实体和关系,算法可以对问题进行深层次的分析,从而生成准确、有逻辑性的答案。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
智能问答系统中命名实体识别问题研究作者:费建军来源:《数字技术与应用》2017年第07期摘要:信息化时代的到来,人们从互联网中快速获得大量的信息。
如何高效的从海量数据中获取有用的资源的需求和人工智能的兴起,促进了问答系统的发展。
问答系统是构架于信息抽取之上,其影响着知识库的结构和解析问句的方式。
命名实体是信息抽取领域的一个子集。
所以本文主要是针对实体识别模型进行研究,本文介绍了三中主流实体识别模型的,并将股票实体作为研究对象,最终采用了CRF(Conditional Random Field)条件随机场模型。
在该模型基础上根据上下文和词性特征,提出了CC-CRF识别算法。
利用CRF++训练得到能够识别代码和名称的CC-CRF实体识别模型。
关键词:股票;命名实体识别;CRF模型中图分类号:TP391.6 文献标识码:A 文章编号:1007-9416(2017)07-0093-04命名实体通常指的是现实中独立存在的具体的或者抽象的事物[2]。
如何使计算机能够理解自然语言是智能问答系统需要解决的一个关键问题。
自然语言处理的研究范围包括词法分析、信息抽取、自动文摘等[1]。
信息抽取领域中,命名实体识别作为重要分支[3],其任务是标注语句中的实体,所以命名实体的识别有着非常关键的意义。
作为文本的基本单位,它包含大量的语义信息,因此对命名实体进行识别可以保证最简单快捷的获得文本信息。
他存在的价值就是标注语句中的实体,实体的识别对正确解析自然语言有着极其重要的作用。
识别的实体领域一般为人名、机构名、地名以及专有名词等。
在实际研究中,还需要根据具体要求来确定。
本文中,要识别的实体为股票名称与股票代码[4]。
命名实体识别在问句处理和知识库的构建方面发挥着关键性的作用。
命名实体识别的方法主要有:基于规则和词典的方法、基于统计的方法和二者混合的方法[5]。
本文介绍了四种命名实体识别模型(基于规则和词典的方法、隐马尔科模型、最大熵模型、条件随机场模型)以及每种模型的优缺点。
在经过对比并且结合股票命名实体的特点,选择条件随机场作为投资领域命名实体的模型。
并在此基础上提出了引入了上下文特征和词性特征的CC-CRF识别算法。
使用该模型对语料训练得到CC-CRF模型,并对模型的识别效果进行测试。
1 相关工作与常规实体识别模型1.1 基于规则和词典的方法基于规则和词典的方法的核心是规则模板构造,但是模板的构造必须由相关领域的专业人士来进行。
用其来识别该领域的命名实体。
这种方式是该领域刚刚起步时候的识别方式。
这种方式的缺点十分明显:成本太高、需要大量的人力时间构造相关领域规则模板、可移植性差。
因此此类方法不是本文的研究重点。
1.2 基于统计的方法基于统计的方法的核心是机器学习。
此类方法以训练语料为输入,利用语料对模型进行训练,最终得到命名实体识别模型并输出。
基于统计的方式不需要专业的语言学人才,也极大地降低了时间成本。
基于统计的方法主要包括:隐马尔科夫模型、条件随机场、最大熵模型等[6]。
1.2.1 隐马尔科夫模型马尔科夫模型[7]用来描述一个随机过程,该随机过程不可被直接观察,但是可以通过另外一个可观察的随机过程间接观察。
该模型有其局限性,他必须是建立在以下的条件上:严格的独立性假设,即观察值只受状态的影响,而不受其他条件的影响。
并且作为一种产生式模型,它需要通过枚举出所有可能的观察序列来获得标注序列和观察序列的联合概率。
这对于长距离序列来说,穷举所有的观察序列是不现实的。
1.2.2 最大熵模型为了保证概率预测的随机性和正确性,在推测一个随机事件的概率时,不要作出除了客观约束条件规定以外的任何干涉。
满足上述要求的模型,熵值一定是最大的[8]。
在自然语言处理中,熵就是信息的不确定程度。
熵值越大,分布所受的干涉越少,预测越接近真实情况。
最大熵模型不需要严格的独立性假设,上下文信息可以被充分挖掘。
它避免了隐马尔科夫模型的缺陷。
另外,最大熵模型只需考虑如何选择特征。
但是最大熵模型的时间复杂度非常高,而且可能发生标记偏置的情况。
1.2.3 条件随机场模型(CRF)条件随机场(conditional random field,CRF)模型指的是给定输入变量的条件下得到输出变量的条件概率[9]。
对应到命名实体识别中,条件随机场即为判别给定观察序列的标注序列的条件概率模型。
条件随机场模型既保留了最大熵模型和隐马尔可夫模型的优点,又克服了他们存在的缺陷。
CRF模型不需要独立性假设。
它也避免了标记偏置问题。
而且在性能上,条件随机场要优于其他两种方式。
然而,较高的时间和空间消耗是制约条件随机场性能的缺点。
CRF模型一般被看做无向图模型。
设G=(V,E)为一个无向图,其中的顶点集合为V,边的集合为E。
X为观察序列,Y为对应的标注序列。
则标注序列中的随机变量与G中的点V 对应。
马尔科夫特性指的是某点是顶点的概率只和与它相连接的顶点有关。
如果任一个随机变量都服从马尔科夫特性,即:,则将符合上述条件的(X,Y)称为条件随机场。
设表示线性链条件随机场,则有如下等式:2 CC-CRF命名实体识别算法CC-CRF识别算法在CRF模型的基础上引入了上下文特征(Context)和词性特征(Characteristic)。
提出面向股票领域的CC-CRF实体识别算法。
使用CRF++在此算法上对标注好的股票相关语料进行训练,得到CRF模型。
最后并对模型进行测试,并对识别结果进行分析。
CC-CRF算法具体的实现方式如下:(1)进行语料标注。
根据2.3章节中的表3、表4进行语料标注。
具体请参照2.3章节。
(2)定义特征模板。
根据2.1、2.2章节中的表1、表2写入CRF++的template文件中,完成CRF++的特征模板设定。
具体请参照2.1、2.2章节。
(3)模型训练。
本文的实验环境是ubuntu 14.04,在终端中执行如下代码:crf_learn -f 3 -c 4.0 template corpus_train.txt crf_model其中 -f为使用属性的出现次数 -c为代价参数,训练结果将产生一个CRF模型——crf_model。
2.1 上下文特征说明为了更好的描述模型,CRF的特征模板可以借助上下文信息,充分的挖掘其内在的规律加以利用。
在实际训练中,上下文的长度将会对结果产生影响。
过长会增加模板的数量、训练时间的空耗、极大可能产生拟合;过短则会使信息挖掘力度不够不能产生最优特征函数。
在股票领域的文本中,股票名称往往和“股票”等词相连,并且股票代码一般紧挨着股票名称”出现。
因此,上下文特征的引用可以增加股票实体识别的精准率。
在本文中,选择设置上下文信息长度为2。
上下文特征模板如表1所示。
2.2 词性特征说明除了上下文特征外[10],词性特征也可以反映文本中和实体有关的信息。
一般来说,股票名是名词(n),代码是数词(m),股票一般是名词和动词(v)连在一起。
因此,也将词性特征引入股票实体的识别模型中。
词性特征模板如表2所示。
2.3 训练语料制作和标注本文主要针对投资领域中的股票类命名实体进行识别,标注文本中的股票名称和股票代码。
由于并没有投资领域语料库,因此相关训练语料需要人工获取并制作。
本文在同花顺财经上抓取了股票相关的文本,主要范围是财经新闻及题目,从中挑选了800条语句作为实验材料。
从这800条语句中,随机抽取100条来制作测试用语句,其余用来制作训练语料。
在CRF的训练中,语料必须遵循严格的格式要求:每个字(词)及其属性为一行。
因此,在得到分词结果后,再对分词结果进行格式处理,分别得到11316条训练语料和5018条测试语料。
在得到语料后,还需要对语料进行标注。
本文定义的标注集如表3所示。
在确定了标注集以后,手工标注训练语料和测试语料。
标注样例如表4所示。
最后得到本文CRF模型训练所需的语料,将标注好的11316条语料写入文件corpus_train.txt作为训练语料,剩下的写入文件corpus_test.txt作为测试语料。
3 结果与分析在终端中执行如下代码:crf_test -m crf_model test_001 > result.txt执行完该语句后,模型将对测试语料test_001进行命名实体识别并且标注,生成结果写入文件result.txt中。
测试结果图1所示。
3.1 结果分析在对模型进行测试后,需要分析标注结果。
准确率、召回率和F值可以全面的反映识别的性能。
设识别出的正确的实体数量为n*,识别出的全部实体数量为n,集合中全部正确的实体数量为N,则有:准确率:召回率:F值:其中,F值综合了P值和R值,F值越高,说明P值和R值越高,模型的性能越好。
通过对test_result.txt的处理,得到CC-CRF模型的识别结果如表5所示。
3.2 实验总结从结果来看,CC-CRF算法在股票实体方面的识别效果已经非常好。
CC-CRF保证了模型效果的均衡性和稳定性,在准确率和召回率方面基本比较优秀。
4 结语信息化时代的到来,人们从互联网中快速获得大量的信息。
如何高效的从海量数据中获取有用的资源的需求和人工智能的兴起,促进了问答系统的发展。
而本文讲述的命名实体对智能问答系统的架构和发展也起到着非常关键的作用。
本文的主要内容是研究以命名实体识别为代表的信息抽取问题。
在综合研究面向的对象以及三种常见模型的优缺点后,并以股票为例进行说明,选择条件随机场作为投资领域命名实体的模型。
并且在CRF模型的基础上,引入了上下文特征和词性特征,提出了CC-CRF识别算法。
通过数据收集、语料制作、训练、识别等步骤,利用CRF++训练出了针对股票代码和股票名称的CC-CRF模型。
其结果在准确率与召回率方面均比较优秀。
为智能投资问答系统的架构和实现做到了抛砖引玉。
参考文献[1]李生.自然语言处理的研究与发展[J].燕山大学学报,2013,(05):377-384.[2]杨燕.面向电商领域的智能问答系统若干关键技术研究[D].华东师范大学,2016.[3]郭喜跃,何婷婷.信息抽取研究综述[J].计算机科学,2015,(02):14-17+38.[4]吴阳.财经领域命名实体识别方法的研究与系统实现[D].哈尔滨工业大学,2015.[5]孙镇,王惠临.命名实体识别研究进展综述[J].现代图书情报技术,2010,(06):42-47.[6]王峰.基于CRF的中文命名实体识别方法研究[D].中北大学,2011.[7] Liu J. Chinese named entity recognition algorithm based on the improved hidden Markov model [J].Journal of Chemical & Pharmaceutical Research, 2014, 6(7): 1474-1478.[8]Ratnaparkhi A. Maximum Entropy Models for Natural Language Processing [J]. Encyclopedia of Machine Learning, 2011,(25):647-651.[9]Baltrusaitis T, Banda N, Robinson P. Dimensional affect recognition using Continuous Conditional Random Fields[J]. Automatic Face and Gesture Recognition (FG), 2013, 4(26):1-8.[10]史海峰.基于CRF的中文命名实体识别研究[D].苏州大学,2010.。