期刊关键词抽取方法

合集下载

正规期刊论文格式

正规期刊论文格式

正规期刊论文格式【篇一:核心期刊论文发表格式及要求】核心期刊论文发表格式及要求核心期刊论文对格式要求往往比较严格,对于常常只注重论文内容不注意形式的作者们来说,核心期刊论文的格式要求直接影响编辑的审稿印象和成功通过与否,显得格外的重要。

核心期刊论文的格式要求会根据不同的期刊会有所不同,但是绝大部分都是一样的,所谓万变不离其宗,只要掌握了论文发表的基本格式,就算期刊编辑有再复杂严格的格式要求,也能轻松搞定,让论文投递更加有把握。

1、核心期刊论文的标准格式为:文章标题作者姓名作者单位:(包括单位全称、邮政编码)[摘要](以摘录或缩编方式复述文章的主要内容)50~300字[关键词](选用可表达文章主要内容的词或词组)3~8个关键词正文参考文献:[1] [2] [3]……(一般期刊还要求英文摘要和英文关键词)作者简介与作者联系方式2、针对以上格式组成还须注意的是:一、标题核心期刊论文题目是一篇论文给出的涉及论文范围与水平的第一个重要信息,也是必须考虑到有助于选定关键词不达意和编制题录、索引等二次文献可以提供检索的特定实用信息。

论文题目十分重要,必须用心斟酌选定。

有人描述其重要性,用了下面的一句话:论文题目是文章的一半。

(1).准确得体要求论文题目能准确表达论文内容,恰当反映所研究的范围和深度。

(2).简短精炼力求题目的字数要少,用词需要精选。

至于多少字算是合乎要求,并无统一的硬性规定,一般希望一篇论文题目不要超出20个字.参加医学论文发表相关栏目文章。

(3).外延和内涵要恰如其分外延和内涵属于形式逻辑中的概念。

所谓外延,是指一个概念所反映的每一个对象;而所谓内涵,则是指对每一个概念对象特有属性的反映。

例如:如何快速发表论文。

二、正文核心期刊论文格式要求正文篇幅一般在5000--10000字不等,包括简短引言、论述分析、结果和结论等内容。

文字太少就不能充分展开论述。

文中出现的外文缩写除公知公用的首次出现一律应标有中文翻译或外文全称。

学术论文中关键词的选取要求

学术论文中关键词的选取要求

学术论文中关键词的选取要求在学术论文中,关键词是指从论文的标题、文摘及正文中抽取的对表达论文主题起关键作用且具有检索意义的词语。

依据达晋编译的经验来看,关键词虽然不需要严格的词义和词形上的规范化处理,但在关键词选取的数量、关键词选取的范围以及关键词的词类等方面都有一定的要求。

一、关键词选取的数量。

关键词选取的数量取决于论文论述的内容,如果论文论述的主题较多,则选取的关键词较多;如果论文论述的主题较少,则选取的关键词较少。

一般说来,一篇学术论文的关键词以选取3~5个为宜。

当然,主题单一的论文,关键词可以少于3个;而论文为多元主题时,关键词也可以多于5个,但一般不超过7个。

二、关键词词类的选择。

关键词主要选择名词、动名词和名词化的词组。

冠词、介词、连词、助动词、某些形容词不选作关键词;一些动词和形容词可以选作关键词,但形容词只有在它们构成名词性词组时才能选作关键词;而动词只有在它们名词化或的确对表达文献主题具有检索意义时才选作关键词。

没有检索意义的通用词一般也不选作关键词,如分析、报告、方法等。

三、关键词选取的范围。

关键词选取的范围不限于论文的标题,也可以从论文的摘要和正文中选取。

如果学术论文的标题相对较长,对论文的主题表达得较全面,那么关键词可以只从标题中选取;如果学术论文的标题相对较短,对论文的主题表达得不太具体和全面,则应从摘要和正文中选取关键词。

四、词组的判断与选择。

在关键词选取的过程中,对于固定搭配且具有特定含义的词组和科技术语,不宜拆分开来,而应以词组和科技术语作为关键词。

这样不仅可以减少关键词的数量,而且能更好地表达论文的主题,不致产生词义上的理解误差,也便于文献的标引和检索。

在词组和科技术语判断和选择时,可以参考有关的科学和技术词典,词典上列出的科技术语和固定搭配的词组均可选作关键词。

由上述可见,关键词的选取并不是随意的,虽然关键词不是严格规范化的主题词,但仍要按照关键词选取的要求去选择,只有这样才能充分、准确、清楚地表达学术论文的主题,才能满足标引和检索文献的需要。

期刊论文写作中关键词如何选

期刊论文写作中关键词如何选

期刊论文写作中关键词如何选在期刊论文写作中,关键词是读者能够通过文献数据库检索到文章的重要标识。

因此,正确选择适当的关键词对于帮助读者找到自己的文章非常重要。

以下是一些选择关键词的建议。

1.了解期刊的范围和主题:首先,你需要根据你的研究寻找相应的期刊,了解期刊的主题和范围。

一旦你确定了你的期刊,你需要考虑哪些关键词是与主题最相关的。

2.使用理论和方法关键词:使用与你研究所用的方法和理论相关的关键词。

这些关键词可以帮助你在搜索中找到更相关的研究文献。

例如,如果你在使用现象学方法,你可以使用关键词“现象学”、“意识形态”、“Hermeneutics”等。

3.找到与你的研究主题相关的关键词:你可以使用你的研究主题相关的关键词。

例如,如果你的研究主题是关于高血压,你可以使用关键词“高血压”、“血压”、“心血管疾病”等等。

4.避免使用太过于抽象的关键词:不要使用太过于抽象的关键词,例如“人类学”、“哲学”等。

这些关键词太广泛了,可能会导致你的文章被淹没在海量的文献中。

5.使用多个关键词:你可以选择多个关键词来描述你的研究,这有助于增加文章显示在文献数据库检索中的概率。

例如,使用“高血压”、“心血管疾病”、“血压”等各种与研究主题相关的关键词。

6.使用通用词:使用与你研究主题相关的通用术语,例如“气候变化”代替“全球变暖”等。

这些都有利于你的文章被更多人搜到。

7.使用语言工具检查:最后,使用语言工具检查所选关键词的正确性。

例如,使用术语之前,应该了解它的含义是否与你的主题相关。

以上是关于选择期刊论文写作中关键词的一些建议,希望能够帮助你在写作中更好地挖掘和选择关键词。

融合多特征的TextRank关键词抽取方法

融合多特征的TextRank关键词抽取方法

融合多特征的TextRank关键词抽取方法李航;唐超兰;杨贤;沈婉婷【摘要】[目的/意义]关键词提取在自然语言处理领域有着广泛的应用,如何快速准确地实现关键词的提取已经成为文本处理的关键问题.目前关键词提取方法非常多,但准确率仍有待提升.为此,提出一种结合单一文档内部结构信息;词语对于单文档和文档集整体的重要性的关键词抽取方法.[方法/过程]首先,根据词语的平均信息熵特征计算词语对文档集整体的重要性,利用词语的词性;位置特征计算词语对单文档中的重要性.然后,通过神经网络训练的方式优化三个特征的权重分配实现特征的融合.最后,利用三个特征计算得到词语的综合权值来改进TextRank模型词汇节点的初始权重以及概率转移矩阵,再通过迭代法实现关键词的抽取.[结果/结论]该研究方法结合了文档集整体信息和单文档自身信息,其关键词提取的准确率较传统TextRank 方法;TFIDF-TextRank方法有了明显的提高.【期刊名称】《情报杂志》【年(卷),期】2017(036)008【总页数】5页(P183-187)【关键词】TextRank算法;关键词抽取;神经网络;平均信息熵【作者】李航;唐超兰;杨贤;沈婉婷【作者单位】广东工业大学计算机学院广州 510006;广东工业大学艺术与设计学院广州 510075;广东工业大学艺术与设计学院广州 510075;广东工业大学计算机学院广州 510006【正文语种】中文【中图分类】TP391DOI 10.3969/j.issn.1002-1965.2017.08.031关键词抽取是指从指定文档中快速获取能代表文档主题和核心内容词语的过程,其在信息检索、文本分类、自动摘要等领域发挥着重要作用。

从是否需要标记训练语料集的角度看,文本关键词抽取方法可分为有监督和无监督两类。

有监督关键词抽取算法的代表思想是把关键词抽取看作分类问题[1-2],首先通过标注训练语料,进行训练得到分类器,然后将分类器应用于测试文档,判断文档中词语是否为关键词。

如何提取关键词(五篇范例)

如何提取关键词(五篇范例)

如何提取关键词(五篇范例)第一篇:如何提取关键词如何提取关键词■考点扫描提取关键词在考纲里并不是一个单设的考点,它其实是信息筛选和压缩语段这两个考点的一个综合,主要考查学生概括思想内容,提取关键信息的能力。

要求考生具有较强的理解、分析、筛选、概括、语言表达等各项能力。

它首先要求考生在准确理解文段的基础上找到有效信息,并从中筛选出核心信息;然后用最简洁的语言加以概括,且概括时只能用词或短语。

■能力提升指导尽管这是近几年出现的一个新题型,但它涉及的能力要求在以前的相关考点中早有规定,只要大家掌握我们下面介绍的几种方法,解答起来,仍然可以得心应手。

一、研究语段话题任何语段,无论是记叙、议论或说明,它总是围绕一个话题来展开的,体现话题的词语肯定是关键词之一,如:例① 提取下面一段话的主要信息,写出四个关键词。

(2005年高考全国卷)据报道,我国国家图书馆浩瀚的馆藏古籍中,仅1.6万卷“敦煌遗书”就有5000余米长卷需要修复,而国图从事古籍修复的专业人员不过10人;各地图书馆、博物馆收藏的古籍文献共计3000万册,残损情况也相当严重,亟待抢救性修复,但全国的古籍修复人才总共还不足百人。

以这样少的人数去完成如此浩大的修复工程,即使夜以继日地工作也需要近千年。

这个语段谈论的话题是古籍修复的处境问题,“古籍”“修复”两个词是我们在答题时首先要考虑的。

文段通过一系列的数据告诉我们古籍修复的处境不好,具体表现是事多人少,这样,我们就又可找出另外两个关键词——“人才”“不足”。

二、寻找中心语句有的语段有较为概括的中心句,或提起下文,或总结上文,或承上启下,我们可抓住这个句子,顺藤摸瓜找到相关关键词,如:例② 提取下面一段话的主要信息,写出四个关键词语。

(2006年高考广东卷)从甲骨文到草书、行书的各种书法艺术,间接地反映了现实某些方面的属性,将具体的形式集中概括为抽象的意象,通过视觉来启发人们的想象力,调动人们的情感,使人们从意象中体味到其间所蕴含的美。

关键词提取方法

关键词提取方法

关键词提取方法关键词提取是信息检索、文本挖掘和自然语言处理等领域一个重要的任务。

在大量的文本数据中,提取关键词可以帮助人们快速了解文本的主题和内容,从而更高效地进行信息查找和分析。

本文将介绍几种常见的关键词提取方法,并探讨它们的优缺点。

1. TF-IDF(词频-逆文档频率)TF-IDF是一种经典的关键词提取方法,它根据词在文档中的出现频率和在整个文集中的逆文档频率来计算每个词的权重。

TF-IDF的核心思想是,一个词在当前文档中出现次数较多,并且在其他文档中出现较少,那么它很可能是关键词。

TF-IDF的计算公式如下:TF-IDF = TF * IDF其中,TF表示词频,即某个词在当前文档中出现的次数。

IDF表示逆文档频率,它衡量了一个词的普遍重要性。

IDF的计算公式如下:IDF = log(N / (n + 1))其中,N表示文档总数,n表示包含该词的文档数。

使用TF-IDF方法可以得到每个词的权重,根据权重进行排名即可得到关键词。

2. TextRank(基于图的排名算法)TextRank是一种基于图的关键词提取方法,它是PageRank算法在文本中的应用扩展。

TextRank通过构建词语之间的共现关系图,并利用图的节点之间的关系进行关键词提取。

TextRank的基本思路是,将文本分为若干个单词或短语作为节点,然后根据它们之间的关系构建图。

共现关系指的是两个单词在文本中同时出现的次数。

利用共现关系,可以计算出每个单词的重要性。

重要性的计算可以使用PageRank算法,即根据每个节点与其他节点之间的连接关系进行迭代计算。

TextRank方法的优点是可以在不依赖于外部语料库的情况下进行关键词提取,而且可以捕捉到文本中的词义和上下文信息。

然而,TextRank方法也有一些限制,例如对于长文本的处理效果不如短文本,以及对于同义词和多义词的处理较为困难。

3. LDA(潜在狄利克雷分配)LDA是一种概率图模型,常用于主题建模和文档相似度计算。

基于相邻词的中文关键词自动抽取研究

基于相邻词的中文关键词自动抽取研究

基于相邻词的中文关键词自动抽取研究【摘要】文档关键词概括了文档的主题和内容,在信息检索、文本分类、文本聚类等领域有着重要应用。

在总结前人研究成果的基础上,提出了一种基于相邻词的中文关键词自动抽取算法。

在对50篇学术论文自动抽取关键词的实验中,采用精确匹配的评价获得了38.9%的精度和34.9%的召回率,采用近似匹配的评价获得了70.7%的精度和68.8%的召回率,能够为进一步的研究提供帮助。

【关键词】相邻词;关键词抽取;信息检索关键词是对文档的主题和主要内容的精炼概括。

中文关键词自动抽取的研究伴随着信息检索的发展不断地进行。

关键词自动抽取技术有着多方面的应用,包括文本分类、文本聚类、相关反馈、词表的自动丰富、新词热词的获取等等。

1.中文关键词抽取相关研究工作概述中文关键词自动抽取有过不少研究工作,前人采用的方法主要包括3种:①在字的级别上采用统计方法;②经过自动分词,在词的级别上利用词典、句法分析、词性标注等自然语言处理方法;③字级别和词级别的结合,统计方法和自然语言处理方法的融合。

但中文关键词自动抽取技术尚不够成熟,实验中获得的精度不够高,因而仍需要进一步研究才可能真正实用。

本文介绍的工作即为在前人研究工作基础上进行的改进。

2.基于相邻词的关键词抽取算法词t的相邻词指的是对句子进行分词后,在t之前的一个词和之后的一个词。

例如对“中文关键词抽取算法”分词后得到“中文/关键词/抽取/算法”,那么“关键词”的相邻词即为:“中文”(称为“前邻”)和“抽取”(称为“后邻”)。

显然,由于词可能出现在句首或者句尾,因此前邻和后邻有可能是空。

对文档中每个词t的相邻词的频繁程度进行考察,从而判断词t及其相邻词是否需要合并以成为语义完整的关键词。

对所有候选关键词计算权重,得到最重要的若干个关键词作为结果返回。

本文提出的算法对单篇文档自动抽取关键词。

关键词是文档中最重要的几个词,概括了文档的主题和主要内容。

文档中词的重要性通常可以用词在该文档中的出现频率(TF)和在大规模语料库中出现该词的文档篇数来衡量(一般使用词的文档频率倒数IDF)。

论文撰写中如何选择和提取关键词及主题词

论文撰写中如何选择和提取关键词及主题词

论文撰写中如何选择和提取关键词及主题词一、前言在进行论文撰写时,我们常常需要提取出关键词和主题词来更好地表达文章的内容,使读者能够快速理解文章的核心思想。

本文将从如何选择和提取关键词以及主题词的角度出发,为大家探讨如何更好地进行论文撰写。

二、关键词的选择和提取1.选择关键词的原则选取关键词应注意以下原则:(1)准确性:所选关键词必须是文章主题和内容的准确反映,不能歧义或概括。

(2)全面性:选取关键词应涵盖文章全文,不能放过重要内容。

(3)热点性:选取关键词要考虑当前时代背景和热门话题,使文章更有针对性和时效性。

(4)可检索性:选取关键词要考虑到读者的查找习惯和检索方法,以便于读者更快速地找到相关文章。

2.提取关键词的方法(1)从题目、摘要和正文中找到相关的名词和动词。

(2)将这些名词和动词进行分类和概括,提取出有代表性的2~6个关键词。

(3)使用不同研究方法提取关键词,如手动提取、文本挖掘等。

(4)考虑到与研究领域相关的专业术语、概念和理论等,以及相关的国际标准和法律法规,提取合适的关键词。

三、主题词的选择和提取1.主题词的概念主题词是指文章中表达主题、核心内容的一种词汇。

它与关键词不同,主题词是作者对文章主题的一种深入思考和总结,是作者对文章内容的一个完整概括。

2.选择主题词的原则选择主题词应遵循以下原则:(1)全面性:选取主题词不宜过于概括,而应准确反映文章的核心内容。

(2)前瞻性:选取主题词要具有一定的前瞻性,能够令读者看到文章可能涉及的未来方向。

(3)权威性:选取主题词要考虑研究领域标准和权威专家的观点,以获得更好的认可度。

(4)实用性:选取主题词要具体、实用,不可模糊或可代替。

3.提取主题词的方法(1)借助主题分类系统提取主题词。

(2)从周边信息中提取主题词,如关键词、标准关键词表、摘要、图书馆分类法等。

(3)根据文章中呈现的实验方法、数据、模型等内容,提取最能代表文章主题和核心思想的词语。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

期刊关键词抽取方法1引言关键词是与文章内容和主旨密切相关的短语,被广泛应用于新闻报道、学术期刊等领域。

关键词可以提高文档的管理和检索效率,还可以为一些文本挖掘任务提供丰富的语义信息,例如文档的分类、聚类、检索、分析和主题搜索等任务[1]。

期刊的关键词对应学术期刊中的keywords部分,包含简单关键词(SimpleWord,SW)和复杂关键词(ComplexWord,CW)两大部分,其中SW表示由一个简单词组成的关键词,CW表示由多个简单词组成的关键词。

根据IEEEExplorer[2]统计数据显示,每年约有24万篇新学术期刊被收录。

根据某些学科期刊的要求,在文献发表时作者需要在期刊中对关键词进行注明。

但仍有一些学科的出版物与早期发行的期刊、书籍、文献的部分章节不包含关键词等信息。

缺乏关键词会在期刊的查阅和参考过程中造成困难。

虽然可以使用索引对全文进行检索,但这种方法工作量大、且检索结果依赖于分词效果,难以给出准确的检索结果。

而关键词抽取就是从文章中选择一小部分单词或短语来描述文章重要内容[3]。

因此,需要寻找一种有效的期刊关键词抽取方法。

针对传统方法的不足并结合最新研究成果,本文提出了一种基于融合词性的BiLSTM-CRF的期刊关键词提取方法。

在实现数据时序和语义信息挖掘的同时,也保证了单词与单词之间的关联性。

在真实数据上的实验结果表明融合词性的BiLSTM-CRF模型是一种有效的期刊关键词自动抽取方法。

2相关工作目前,关键词抽取任务主要有两种方法,基于无监督的方法和基于有监督的方法[4,5]:2.1基于无监督的方法:无监督方法仅通过一些事先规定的关键词权重的量化指标,计算权重排序关键词重要性来实现。

TFIDF是字符串频率关键词[6,7]抽取的一种典型方法,其本质是无监督的,可以简单快捷的进行关键词抽取。

该方法仅扫描语料库一次,即可获得所有单词的文本频率。

但除了词频之外,仍需要考虑许多因素,例如词的词性以及在文本中的位置等。

为了提高该方法的性能,必须人工的对其许多规则进行设计[5]。

在新闻领域,字符串频率方法比有监督的机器学习方法更有效。

因为机器学习的方法在模型训练时需要花费大量的时间,并且文档需要标注。

其次,每天都会发生新事件,新闻的内容具有多样性。

但无监督方法只提供了单词在文本中的相对重要程度,无法有效地综合利用词法和语义信息对候选关键词进行排序[8]。

2.2基于有监督的方法:有监督的方法将关键词抽取问题视为判断每个候选关键词是否为关键词的二分类问题,它需要一个已经标注关键词的文档集合来训练分类模型,即通过在一个有标注的数据集上训练分类器,以便决定候选词中哪些是关键词。

不同的机器学习算法可以训练出不同的分类器,如朴素贝叶斯[9],决策树[10]、最大熵算法[11]和支持向量机[12]等是关键词抽取中的代表性方法,通过大量数据来训练分类器。

可见有监督方法可以利用更多信息具有更大的优势,且实验效果比无监督方法好[4]。

这种方法具有较高的准确性和较强的稳定性,但需要很大的语料库,且所有文本需要进行标注。

标注人员具有一定的主观性并且标注任务具有复杂性。

不同的标注人员在进行同一个文本的标注时,具有不同的认知和看法,标注的质量会影响模型的性能。

并且上述方法都将关键词抽取问题视为一个二分类问题,对每个单词独立处理,忽略了文本结构信息。

为解决该问题,可以将关键词抽取问题转化为序列标注问题,常用的模型有最大熵模型(MaximumEntropy,ME),隐马尔科夫模型(HiddenMarkovModel,HMM),条件随机场模型(ConditionalRandomField,CRF)。

其中CRF模型的应用最为广泛,性能也最好,可以较为精确的实现关键词的有效提取,但却需要人工设计特征,特征设计的优劣与否将会直接影响到模型的性能和最终的抽取效果。

随着深度学习的不断发展,深度神经网络,尤其是长短期记忆网络(LongShortTermMemory,LSTM)模型,前一时刻隐藏层的信息可以加入到当前时刻的输出,通过LSTM层可以高效地利用上下文信息,处理长序列依赖问题。

通过结合LSTM模型和CRF模型,综合利用多种信息,可以使得效果更好[13]。

在近期的研究中,已有学者将BiLSTM-CRF网络模型用于开放式关系抽取[14]、命名实体识别[15]、中文分词[16]等自然语言处理任务中。

Alzidy等已经将BiLSTM-CRF网络用于关键词抽取任务中[17],使用固定的词嵌入来表示单词,输入网络,得到序列标注结果。

3融合词性与BiLSTM-CRF的抽取模型针对从文本中自动抽取关键词的问题,现有的解决方法大多基于二分类的思想。

这种方法忽略了单词之间的关联性,将每个词视为独立的部分,因此无法通过联系上下文来准确把握文的有效信息,从而导致模型具有较差的关键词抽取能力。

针对该问题,本文结合条件随机场与深度学习中双向长短期记忆网络(BidirectionalLongShortTermMemory,BiLSTM)模型可以自动提取特征的优势,将期刊关键词的抽取问题转化为序列标注问题,提出了融合词性与BiLSTM-CRF的期刊关键词抽取方法。

融合词性与BiLSTM-CRF的关键词抽取模型如图1所示:关键词自动抽取模型共包含三大部分:(1)对期刊文本进行分词和词性标注的预处理;(2)将预处理后的文本使用word2vec模型进行WordEmbedding向量化,获取字词的向量表达式;(3)使用BiLSTM-CRF模型实现关键词的自动抽取。

3.1特征提取:(1)词性标注在关键词组合的过程中,可能会采用不同的词性组合方式,但通过对期刊中大量的关键词研究发现,期刊中的关键词一般由名词,形容词和动词组合形成[13],因此在实验中需要对词性进行标注,例如:信号控制单元(n+vn+n),高性能电池(ad+n),其中,n表示名词,vn表示动词,ad表示形容词。

加入词性特征对期刊关键词的识别有一定作用。

(2)依存句法分析依存句法分析就是确定一个句子中词语与词语之间的依存关系或者对句子的句法结构进行分析。

词语之间的依存关系主要有介宾关系、动宾关系、主谓关系等。

本文采用语言技术平台[18](LanguageTechnologyPlatform,LTP),对期刊文本进行依存句法分析,通过过滤不可能组成关键词的依存关系,可以提高识别关键词的效果。

(3)词向量表示本文采用Word2Vec模型[19]中的Skip-gram模型[21]来训练词向量。

Skip-gram模型是在已知当前词语的情况下,去预测上下文信息。

模型的目的是要学到好的词向量表示,然后能够很好的预测它上下文的词语。

Skip-gram 模型如图2所示。

在训练词向量的过程中分别将词、词性、依存句法分析等特征通过word2vec工具转换成词向量表示,词的维度为200维,词性和依存句法分析的维度分别为10维,最后通过嵌入式向量引入模型进行融合,生成最终的特征向量表示。

3.2LSTM网络:循环神经网络(RNN)[20]被广泛应用于命名实体识别、语音识别等自然语言处理任务中,具有记忆历史信息的能力,能够使模型通过长距离的特征对当前的输出进行预测。

但随着RNN网络深度和训练时长的增加,在对较长序列数据处理时存在梯度消失和梯度爆炸的问题。

LSTM网络与传统的RNN具有相似的网络结构,通过使用专门构建的记忆细胞代替RNN网络中隐藏层的更新模块,使LSTM网络具有发现和探索数据中长时间的依赖信息的能力。

LSTM的神经元结构如图3[21]所示。

由上图可知,LSTM模型使用门结构对细胞状态进行保持和更新,一个LSTM存储单元主要由输入门(i),输出门(o),遗忘门(f)和记忆细胞(c)组成。

LSTM模型可以通过下列公式实现:其中,σ表示Sigmoid函数,tanh是双曲正切函数,t表示当前时刻,t-1表示前一时刻,it、ft、ot、ct 分别表示当前时刻输入门、遗忘门、输出门和记忆细胞的输出,W和b分别表示模型训练过程中的权重矩阵和偏置向量。

在序列标注任务中,由于引入了记忆单元和门结构,在输入句子较长时,可以防止距离当前词语较远但依赖关系较强的信息被遗忘。

本文定义标签集{B,M,E,O},其中,B表示CW的首部和SW,M表示CW的中部,E表示CW的尾部,O表示其他文本,LSTM模型[22]如图4所示。

在对期刊的关键词进行抽取时,通常需要在给定时间访问过去或未来的输入特征,而单向LSTM网络只能处理和存储前一时刻信息,因此可以使用图5所示的双向LSTM网络[22]来完成该任务。

这样可以在指定的时间范围内有效地使用上下文信息。

其中,过去的特征通过Forward状态获取,未来的特征通过Backward状态获取。

然后使用时间的反向传播来训练BiLSTM网络。

随着时间推移,在展开的网络上进行的前向和后向传播与传统网络的前向和后向传播类似,但需要设置隐藏状态。

在对整个句子进行前向和后向传播的时候仅需要在句子的开头将隐藏状态重置为0。

由图5可知,BiLSTM网络可以同时获取较长语句的前后文信息,保证了上下文之间的依赖关系。

在期刊关键词抽取任务中,若起始词为关键词,LSTM网络会忽略语句开头与结尾间的依赖关系,因此会导致误判。

因此,BiLSTM 模型为有效的进行关键词抽取奠定了基础。

3.3融合词性特征的BiLSTM-CRF模型:条件随机场是一种针对序列标注问题效果最显著的条件概率模型,其本质是一个无向图模型。

本文在BiLSTM模型的基础上,结合CRF处理序列标注问题的天然优势,有效的引入标签之间的转移关系,构建转移状态矩阵,从而更有效的实现关键词的自动抽取。

将BiLSTM网络和CRF网络整合为BiLSTM-CRF模型,如图6所示。

通过BiLSTM网络,模型可以有效的利用过去的输入特征和未来的输入特征挖掘期刊文本数据的隐含特征,通过CRF层,利用状态转移矩阵模型可以有效的利用过去和未来的文本的标签信息预测当前的标签。

由图6可知,BiLSTM-CRF 主要包含WordEmbedding向量化,BiLSTM网络,CRF三个部分。

模型的输入为分词和进行词性标注后的序列文本。

在WordEmbedding向量化过程中使用Word2Vec模型[19]通过训练后,根据给定的语料库可以快速有效地把对文本内容的处理简化为K维向量空间中的向量运算,将一个词语表达成向量形式,从而可以使用向量空间上的相似度来表示文本语义上的相似度。

本文使用Word2Vec 模型中的Skip-Gram模型,通过给定单词来预测上下文信息,使用无监督的方式通过学习文本来用词向量的方式表征词的语义信息。

将获取的融合词性后的词向量输入BiLSTM网络中,得到包含前后文信息的文本序列的双向表达,通过CRF 预测最终的标签序列。

相关文档
最新文档