基于改进TF-IDF算法的关键词抽取系统

合集下载

基于改进的TF-IDF特征权重算法的网页自动分类

基于改进的TF-IDF特征权重算法的网页自动分类
( 阳职业技术学 院数学与计算机科学系 , 揭 广东揭阳 5 20 ) 2 00 摘 要 :T F—I F是 文档特征权重表示常用方法 , 不能 真正地反映特 征词对 区分每 个类的贡献 。故针对 网 D 但
页分类 中特征选择方法存 在的问题 , 加入 网页标签特征权重 改进 " I F—I F公 式 , 出了一种 比较有效 的网 页分 类 D 提 算法 , 实验结果表 明该方法具有较好的特征选择 效果, 能够有效地提 高分类精度。
21 00年 8月
2 9卷 第8
绵 阳师范学 院学报
Ju nlo a v n N r lUn or a fMin a  ̄ oma i
A g2 1 u .0 0 Vo . 9 No 8 12 .
基 于 改进 的 T F—I DF特征 权 重 算 法 的 网页 自动 分 类
蔡银 珊 , 英铭 黄
2 网页标 签Leabharlann 特征 权 重 和 分 类 有效 信 息 提 取 存 在 的 问题
当前在特征选择算法包括文档频率 D ( ou et r uny 、 F Dcm n Fe ec) 反文档频率 IF Ivr ou et r q D (ne eD cm n Fe s - q ec) 互信息 M ( u a I o ao ) 信息增益 I (n r ao a )X 统计 C I期望交叉熵 C ( x uny , IM t ln r tn , u fm i G I o tnG i ,2 fm i n H, E E- pce rs E t p) T et Cos nr y ,F—IF等 卜 】 d o D 3 。这 些算 法都 取得 了较好 的效果 , 它们很 少考 虑文本 分类 间分布 但 的差异 , 权重计算方法存在不足 , 为解决这个问题 , 故对传统 T — D F IF算法进行了改进 , 提出了一种新的特

文本挖掘中的关键词抽取算法技巧

文本挖掘中的关键词抽取算法技巧

文本挖掘中的关键词抽取算法技巧在文本挖掘中,关键词抽取是一项重要的任务,它可以帮助我们从大量的文本数据中提取出与主题相关的关键词,进而提高信息的检索和分类效率。

本文将介绍文本挖掘中的关键词抽取算法技巧,并探讨它们的应用。

一、基于统计的关键词抽取算法基于统计的关键词抽取算法是一种常见而有效的方法,它利用词频和共现关系等统计信息来判断关键词的重要性。

1. TF-IDF算法TF-IDF(Term Frequency-Inverse Document Frequency)算法是最常用的关键词抽取算法之一。

它通过计算词频和逆文档频率来评估一个词对于文档的重要性,词频表示某个词在文档中的出现频率,逆文档频率表示该词在整个语料库中的重要程度。

2. TextRank算法TextRank算法是一个图算法,它利用词语之间的关系构建图模型,并通过迭代计算来评估词语的重要性。

它类似于PageRank算法,通过计算词语之间的相似度和重要性来确定关键词。

二、基于机器学习的关键词抽取算法除了基于统计的算法,还有一些基于机器学习的关键词抽取算法,它们利用机器学习模型来识别和抽取关键词。

1. 词性标注与过滤词性标注是将文本中的每个词语标注为相应的词性,例如名词、动词、形容词等。

通过词性标注,我们可以根据不同的任务需求,过滤掉一些不相关的词语,从而提取出与主题相关的关键词。

2. 基于模式的抽取基于模式的抽取算法是一种利用特定的规则或模式来抽取关键词的方法。

例如,我们可以利用正则表达式来抽取符合某种模式的词语,如专有名词、特定短语等。

三、基于深度学习的关键词抽取算法近年来,随着深度学习的发展,基于深度学习的关键词抽取算法也得到了广泛应用。

1. 基于循环神经网络的抽取循环神经网络(RNN)是一种可以处理序列数据的神经网络模型,在关键词抽取中可以使用RNN模型来学习词语之间的上下文信息,从而更准确地抽取关键词。

2. 基于注意力机制的抽取注意力机制(Attention Mechanism)是一种可以对序列数据进行加权处理的方法,它可以让模型更关注重要的词语。

数据科学中的关键词提取算法

数据科学中的关键词提取算法

数据科学中的关键词提取算法近年来,随着大数据时代的到来,数据科学在各个领域中扮演着越来越重要的角色。

而在数据科学的研究中,关键词提取算法是一项至关重要的技术,它能够从海量的数据中提取出具有代表性和关联性的关键词,为后续的分析和应用提供有力的支持。

本文将介绍几种常用的关键词提取算法,并探讨它们的优缺点及应用场景。

一、TF-IDF算法TF-IDF(Term Frequency-Inverse Document Frequency)算法是一种经典的关键词提取算法。

它通过计算关键词在文本中的频率和在整个文本集合中的逆文档频率来评估关键词的重要性。

TF-IDF算法的优点在于简单易懂、计算速度快,并且适用于各种类型的文本数据。

然而,TF-IDF算法也存在一些缺点,例如无法处理上下文信息、对长文本的处理效果较差等。

二、TextRank算法TextRank算法是一种基于图模型的关键词提取算法,它借鉴了PageRank算法的思想。

TextRank算法首先将文本中的句子或词语构建成一个图,然后通过迭代计算节点之间的相互关系,得到每个节点的权重值,最终选取权重值较高的节点作为关键词。

相比于TF-IDF算法,TextRank算法能够更好地利用上下文信息,对于长文本的处理效果也更好。

然而,TextRank算法在处理大规模数据时的计算复杂度较高,且对于文本的结构和语义信息要求较高。

三、LDA算法LDA(Latent Dirichlet Allocation)算法是一种基于概率模型的关键词提取算法,它能够将文本数据划分为若干个主题,并为每个主题分配一定的关键词。

LDA算法通过对文本数据的主题分布和关键词分布进行推断,得到每个词语在每个主题中的权重值,从而确定关键词。

LDA算法在处理大规模数据时具有较好的可扩展性和灵活性,且能够发现文本数据中的隐藏主题。

然而,LDA算法也存在一些问题,例如对参数的选择敏感、计算复杂度较高等。

四、基于深度学习的算法近年来,随着深度学习的快速发展,基于深度学习的关键词提取算法也取得了显著的进展。

关键词提取方法

关键词提取方法

关键词提取方法在信息爆炸的时代,我们经常需要从大量文本中提取出关键词来帮助我们理解和归纳文本的主题和要点。

关键词提取是一项重要的自然语言处理技术,它可以自动地从文本中抽取出最具代表性和重要性的词语。

本文将介绍一些常用的关键词提取方法。

1. 基于词频的关键词提取方法基于词频的关键词提取方法是最简单和直观的一种方法。

它根据词语在文本中的出现频率来衡量其重要性。

常见的算法包括TF(Term Frequency,词频)和TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率)。

TF算法将一个词在文本中出现的次数作为该词的重要性。

但是,如果一个词在文本中多次出现,它的重要性也会被放大。

为了解决这个问题,TF-IDF算法引入了逆文档频率的概念。

逆文档频率表示一个词在整个语料库中的信息量,它的计算方式是语料库中总文档数除以包含该词的文档数的对数。

TF-IDF算法将词频和逆文档频率相乘,使得频繁出现但在整个语料库中信息量小的词的重要性降低,而那些在少数文档中出现但信息量大的词的重要性增加。

2. 基于词性的关键词提取方法除了词频,词性也可以作为关键词提取的依据。

在自然语言中,不同的词性承担着不同的语义角色。

例如,名词往往是一个句子的主语或宾语,动词表示动作或状态,形容词描述事物的属性等。

基于词性的关键词提取方法通过词性标注技术,将文本中的词与其对应的词性进行匹配,然后选择特定的词性作为关键词。

常用的基于词性的关键词提取方法有两种:基于规则的方法和基于统计的方法。

基于规则的方法依赖于人工编写的规则集,通过匹配词性模式来提取关键词。

基于统计的方法则是根据大规模语料库的统计特征来计算每个词性的重要性,然后选择具有高重要性的词性作为关键词。

3. 基于语义的关键词提取方法基于词频和词性的关键词提取方法可以帮助我们抽取出一些关键词,但是它们无法处理一些歧义词和多义词的情况。

自然语言处理的关键词提取方法

自然语言处理的关键词提取方法

自然语言处理的关键词提取方法自然语言处理(Natural Language Processing, NLP)是人工智能领域的重要分支,旨在使计算机能够理解和处理人类语言。

在NLP中,关键词提取是一项关键任务,它可以帮助我们从大量的文本数据中提取出最具代表性和重要性的关键词,从而更好地理解文本内容和进行后续的分析。

关键词提取方法有很多种,下面将介绍几种常见的方法。

一、基于统计的关键词提取方法基于统计的关键词提取方法是一种常见且有效的方法。

它通过统计文本中词语的频率和分布情况来确定关键词。

其中,TF-IDF(Term Frequency-Inverse Document Frequency)是一种常用的统计指标。

TF指的是词语在文本中的频率,IDF指的是词语在整个语料库中的逆文档频率。

通过计算TF和IDF的乘积,可以得到一个词语的重要性分数,从而确定关键词。

二、基于机器学习的关键词提取方法基于机器学习的关键词提取方法是近年来发展起来的一种方法。

它通过训练机器学习模型来识别和提取关键词。

常用的机器学习算法包括朴素贝叶斯、支持向量机和深度学习等。

这些算法可以通过学习大量的标注数据来建立关键词提取模型,并利用模型对新的文本进行关键词提取。

三、基于语义的关键词提取方法基于语义的关键词提取方法是一种较为高级的方法。

它通过理解词语之间的语义关系来确定关键词。

其中,词向量是一种常用的语义表示方法。

词向量可以将词语表示为一个向量,使得具有相似语义的词语在向量空间中距离较近。

通过计算词语之间的相似度,可以确定关键词。

四、基于图论的关键词提取方法基于图论的关键词提取方法是一种基于网络结构的方法。

它通过构建文本的图模型,将词语作为节点,词语之间的关系作为边,从而建立一个词语网络。

通过分析节点之间的连接关系和节点的重要性,可以确定关键词。

常用的图算法包括PageRank算法和TextRank算法等。

综上所述,关键词提取是自然语言处理中的重要任务之一。

NLP系列-关键词抽取技术

NLP系列-关键词抽取技术

一、背景介绍关键词提取就是从文本里面把跟这篇文章意义最相关的一些词语抽取出来,在文献检索、自动文摘、和文本分类等方面有着重要的应用。

文本聚类关键词提取算法一般分为有监督和无监督两类:有监督:有监督的关键词提取方法主要是通过分类的方式进行,通过构建一个较为丰富和完善的词表,然后判断每个文档与词表中每个词的匹配程度,以类似打标签的方式,达到关键词提取的效果。

优点是较高,缺点是需要大批量的标注数据,人工成本过高,并且词表精度需要及时维护。

无监督:相比较而言,无监督的方法对数据的要求低,既不需要一张人工生成且需要持续维护的词表,也不需要人工标注语料辅助训练。

目前比较常用的关键词提取算法都是基于无监督算法。

如TF-IDF算法,TextRank算法和主题模型算法(包括LSA,LSI,LDA等)。

二、TF-IDF算法简介TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。

TF-IDF是一种统计方法,用以评估一字/词对于一个文件集合或一个语料库中的其中一份文档的重要程度。

字/词的重要性随着它在文档中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

TF-IDF的主要思想是:如果某个单词在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

图1:TF-IDF实例矩阵如图1所示,图示为一个TF-IDF的实例矩阵,该矩阵有10行,即语料库一共有十篇文档,每列表示整个语料库内的某一个词典的字/词,如果谋篇文档中出现了词典中的字/词,那么在实例矩阵中,该位置不为0;若用字/词在该文档中出现的词频来填充,则该实例矩阵为TF矩阵,又称为词频矩阵。

当使用逆文档率乘以对应的词频矩阵即可得到如图1所示的TF-IDF矩阵。

TF-IDF:一种简单、古老,但有用的关键词提取技术

TF-IDF:⼀种简单、古⽼,但有⽤的关键词提取技术TF-IDF算法是⾃然语⾔处理早期的产物Word2Vec算法是当前最流⾏的预训练语⾔模型的前⾝算法原理TF-IDF(词频-拟⽂档频率)是⼀种⽤来计算关键词的传统⽅法TF:某个词在⼀篇新闻中出现的次数IDF=log[新闻的总数量/(包含某个词的新闻数量+1)]优点算法简单,容易理解运算速度⾮常快缺点⽂本较短的时候⼏乎⽆效⽆法应对⼀词多义的的情况处理英⽂import gensim.downloader as apifrom gensim.corpora import Dictionary#加载数据注意第⼀次加载需要下载时间有点长dataset=api.load("test8")dct=Dictionary(dataset)new_corpus=[dct.doc2bow(line) for line in dataset]#加载模型库from gensim import models#训练模型tfidf=models.TfidfMode(new_corpus)#保存模型tfidf.save("tfidf.model")#载⼊模型tfidf=models.TfidfModels.load("tfidf.model")#使⽤这个训练好的模型得到单词的tfidf值tfidf_vec=[]for i in range(len(new_corpus)):string_tfidf=tfidf[new_corpus[i]]tfidf_vec.append(string_tfidf)#输出词语id与词语tfidf值print(tfidf_vec)处理中⽂加⼊jieba其他步骤⼀样import jiebaseg_list=jieba.cut("这是⼀句话,看你切成啥",cut_all=False)print("Default Mode:" + "".join(seg_list))#精确模式。

基于改进TF·IDF和支持向量机的多类别文本分类

2 0 1 3年
第 9期
S C I E N C E&ห้องสมุดไป่ตู้ E C H N OL OG YI N F OR MA T I ON
O高校讲坛 0
科技信息
基于改进 T F ・ I D F 和支持向量机的多类别文本分类
黄 璐 谷 军 李 然 李 向军 ( 大连海 洋大 学 信息 工程 学院 , 辽宁 大连 1 1 6 0 2 3 )

量 q: ( o v , , …, ) 。
1 . 2 改进 的 T F. I D F方法 在T F ・ I D F计算过程 中 . 只考虑 了特征词频 度和文档频 度 . 而没 有在语义层面上考虑特征词出现在文档 中的位置因素 结合 中文文献 的语义特 点 ,出现在文献不同位置 的特征 词反映主题 的重要程 度不 同, 其对于文献分类的贡献程度也不 同。 因此 . 本 文为出现在文献不同 位置 的特征词赋予不同的权重 。中文文献大体 可分为标题 、 摘要 、 关 键字 、 正文和结论等五个部分。 其 中, 摘要部分是 作者阐述文献主要论 点 和内容 的重要 区域 , 而标题和关键字给 出了能够代表文献学科类别 的核 心词汇 . 因此 . 在这些区域出现的特征词最能代表该文献 的主题 . 赋予 最高 的权重 。 结 论部分简要总结文献 内容 . 给出主要论点 . 如果一 个特 征词 出现在该 区域 .说明该 特征词很有可能与文献主题相关 . 赋 予其 较高 的权重 。正文部分详细阐述文献细节 . 出现在正文部分 的特 征词有可能在文献学科领域 中不太重要 . 甚至是不相关 的 . 因此为这 些特 征词赋予最低 的权重 。由此 , 本文给出改进 的 T F . I D F 定义 :
【 摘 要】 文本 分类技 术可以有效提 高信息资源的可用性和利用率。提 出一种基 于改进 的 T F ・ I D F 和支持 向量机 ( s v M) 结合进行 多类别文

数据挖掘中的关键词提取技术

数据挖掘中的关键词提取技术数据挖掘是一门利用计算机技术找出数据中潜在的规律、趋势和模式的学科。

而关键词提取技术则是其中的一个重要分支,它可以将海量的文本数据中最为关键的词语提取出来,是进行文本分析和搜索的重要工具。

一、关键词提取的原理关键词提取是通过一系列的算法和模型,从海量数据中提取出最为关键的词语或短语。

它可以基于文本的语法、词频等特征进行分析,也可以利用机器学习等技术进行建模和预测。

一般来说,关键词提取可以分为两种类型:基于频率的提取和基于语义的提取。

前者是根据词语的出现频率进行提取,因此对于常出现的词语可能会被误判为关键词;而后者则是通过对文本进行语义分析,从中提取出描述文本主题的词语或短语,更为准确。

二、常用的关键词提取算法1. TF-IDF算法:TF-IDF算法是基于词频-逆文档频率的算法,它通过计算一个词语出现的频率与它在文本库中出现的频率之比,来衡量一个词语的重要性。

在TF-IDF算法中,一个词语在文本中出现的频率越高,同时在整个文本库中出现的频率越低,其重要性就越高。

2. LDA主题模型:LDA是一种基于贝叶斯概率模型的主题模型。

它通过对文本进行分析,找到其中隐藏的主题,进而提取出最为相干和重要的关键词。

LDA算法可以对文本进行有监督和无监督学习,具有较高的灵活性和准确性。

3. 基于语义的提取算法:基于语义的提取算法主要是通过自然语言处理技术,对文本进行分词、词性标注、命名实体识别等处理,进而进行语义分析和关键词提取。

这类算法可以更准确地反映文本主题的实质,但对于复杂的文本数据,计算成本相对较高。

三、关键词提取的应用在实际的工作中,关键词提取技术被广泛应用于文本分析、搜索引擎优化、推荐系统等领域。

例如,在搜索引擎中,关键词提取可以帮助搜索引擎更准确地理解用户的搜索意图,提升搜索结果的精度和相关性;在舆情分析中,关键词提取可以帮助分析人员快速抓取到舆情信息中的重要内容,从而做出更加有针对性的反应。

基于Python的改进关键词提取算法的实现

基于Python的改进关键词提取算法的实现NIU Yong-jie【摘要】关键词提取是自然语言研究领域的基础和关键点,在很多领域都有广泛的应用.以本校图书馆提供的8045篇《红色中华》新闻为源数据,首先对数据进行数据清理,去除其中的噪声数据,然后对每篇新闻进行数据结构解析,在解析的基础上计算了词语的TFIDF权重、词位置权重、词性权重、词长权重和词跨度权重,综合考虑这些权重计算出词语的综合权重,以综合权重最大的前8个词语作为新闻的关键词.从准确度、召回率及F1值3个指标对改进算法、经典的TFIDF算法和专家标注进行对比,发现改进算法在3个指标上均优于经典的TFIDF算法,与专家标注比较接近,值得推广应用.【期刊名称】《电子设计工程》【年(卷),期】2019(027)013【总页数】5页(P11-15)【关键词】TFIDF;词性;词跨度;词长;词位置【作者】NIU Yong-jie【作者单位】【正文语种】中文【中图分类】TP311.1关键词的提取是自然语言处理中的基础与核心技术,在信息检索、文本分类、文本聚类、信息匹配、话题跟踪、自动摘要、人机对话、字符串相似性衡量等领域有广泛的应用[1-5]。

但是针对不同的领域,关键词的提取要求千差万别,目前在不同的领域大多依赖人工标注的方法进行,随着数据量的日益激增,人工标注的方法已经不能胜任,所以依靠计算机自动提取关键词显得十分重要。

关键词自动提取按照是否进行监督学习分为监督性和非监督性两大类。

通过训练数据构建学习模型,判断词语是否归属于关键词类别,属于典型的有指导学习方法。

有指导学习需要事先标注高质量的训练数据,人工预处理的代价较高,但是效果比较好[6]。

非监督学习因为无需对数据进行训练,实现快捷,仅需要文本自身的信息就能进行等优点被广泛采用,非监督关键词抽取方法可归纳为3种:基于TFIDF统计特征的关键词抽取、基于主题模型的关键词抽取和基于词图模型的关键词抽取方法。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

㊀第25卷㊀第5期厦门理工学院学报Vol.25㊀No.5㊀㊀2017年10月JournalofXiamenUniversityofTechnologyOct.2017㊀㊀[收稿日期]2017-06-30㊀㊀㊀㊀[修回日期]2017-10-09[基金项目]福建省自然科学基金项目(2016J01325);福建省中青年教师教育科研项目(JAT160358)[作者简介]胡亮(1980-),女,讲师,硕士,研究方向为数据挖掘㊁人工智能㊁计算机视觉,E⁃mail:lhu@xmut.edu.cn㊂基于改进TF⁃IDF算法的关键词抽取系统胡㊀亮,夏㊀磊,李㊀伟(厦门理工学院计算机与信息工程学院,福建厦门361024)[摘㊀要]为克服传统TF⁃IDF概念思想与关键词抽取的逻辑相冲问题,引入卡方校验的方法优化TF⁃IDF算法,设计了一个包含文件存储㊁文本预处理㊁度量值计算㊁排序抽取和优化输出4个流程的关键词抽取系统㊂实验结果表明,该系统能够很好地完成关键词分类抽取的任务,可为数据检索㊁文本聚类㊁摘要生成等提供基础支持㊂[关键词]关键词抽取;TF⁃IDF算法;卡方校验[中图分类号]TP391 1㊀[文献标志码]A㊀[文章编号]1673-4432(2017)05-0067-06随着互联网的出现和发展,信息数据通过网络进行存储和共享的方式逐渐成为主流㊂如何从庞大的网络数据库中检索㊁分类和过滤出有价值的文本信息数据,成为了亟待解决的问题[1-3]㊂TF⁃IDF算法作为基于统计的无监督关键词抽取方法,在快速性㊁方便性和领域无关性方面远远优于有监督的方法[4]㊂由于其具备普适性㊁灵活性和快捷性等特点,所以被许多专家学者所青睐[5-6]㊂但是当引入类别区分后,传统的TF⁃IDF的概念思想会与关键词抽取的逻辑相冲[7-8],即TF⁃IDF算法中IDF定义存在漏洞,在有类别区分的语料库中不适用㊂本文利用了卡方校验的思想对传统的TF⁃IDF算法进行改进,并根据语料资源的规模,设置各项相关的权重值,优化最终结果㊂1㊀算法及其改进1 1㊀TF⁃IDF算法TF⁃IDF算法是基于统计的方法来衡量词或短语在文本信息中的关键性㊂它的主要原理:一个词在目标文本使用的次数较多,却在语料库中使用的次数较少,那么它就能够具备良好的文本区分能力[9-10]㊂某个词在目标文本中的TF值指的是该词在这个文本中出现的频率㊂在计算这个频率时,还需对它归一化,防止它偏向字数较多的长文本㊂计算TF值的公式如下所示:TFi,j=fi,jðni=1fi,j㊂(1)公式(1)为词i在文本j中的的词频TFi的计算方式,其中分子内容为词i在文中出现的次数,分母内容为文本j中所有词的总数㊂通过这种词频的计算方法,有效的防止了词频TFi对较长文本的偏向性㊂除此之外,还可以采用另一种词频归一化的方法,如公式(2)㊂其中分母表示在文本j中出现的最大词频数值[11-13],即TFi,j=fi,jfmax,j㊂(2)厦门理工学院学报2017年㊀㊀一个词的关键性的衡量可以用IDF值表示㊂假定一个文本语料库集合中包含词i的文本数量越少,则该词的IDFi值应该越大,这样词i的区分能力就越好,那么就越有可能作为关键词[14-16]㊂具体公式如下:IDFi=logNni+1,(3)㊀㊀式中N是文本集中的文本总数,ni包含词i的文本数量㊂分母中的+1是为了处理公式中分母为0的情况㊂经过上述方法的计算可以总结成公式(4)㊂假设一个词i在某一指定的文本j中出现的频率较高而在整个文本集合中出现包含该词的文本较少,则它的TF⁃IDF值就较高,即词i较容易区分文档j,可作为关键词㊂TF⁃IDFi=TFi,jˑIDFi㊂(4)1 2㊀算法改进1 2 1㊀卡方校验卡方校验的原理是判断实际值与理论值的偏差来确定理论是否正确[17-19]㊂在进行卡方校验时,通常会假定一个原假设,即为两个变量相互之间是独立的,之后观察实际值(观察值)与理论值( 两个变量确实独立 状况下出现的值)的偏差大小,若偏差范围很小,就认为误差是自然的样本误差,两者确实独立,原假设正确;若偏差较大,使得误差不太有可能是自然误差,就判定两者实际上是相关的,原假设被否定㊂通过上述指导思想可得到公式(5)㊂E为理论值,x为实际值,D为偏差㊂D=ðni=1(xi-E)2E㊂(5)在公式(5),从样本中得到观察值x1,x2, ,xn,利用公式求开方值,对比这个开方值和原假设,若大于阈值,就认为原假设不成立,相反原假设成立㊂1 2 2㊀卡方校验的应用在文本关键词抽取的特征选取时,设原假设为 词与类别不相关 ,利用公式进行计算,卡方值结果越大,表明原假设的偏离度也就越大㊂例如,在具有N篇文本的语料库中,分类定义为军事和非军事,词 坦克 与类 军事 的关系㊂具体相关信息如表1㊂表1㊀文本数量关系Table1㊀Textquantitywithdefinition特征旋转属于 军事 不属于 军事 总计包含 坦克ABA+B不包含 坦克CDC+D总数A+CB+DN假设词 坦克 与类别 军事 不相关,那么在类别 军事 中存在 坦克 的文本比例和所有文本中包含 坦克 的文本比例应该相等㊂所以可以得到A的理论值为公式(6),A的偏差为公式(7)㊂E11=(A+C)ˑA+BN,(6)D11=(A-E11)2E11=A2E11-2A+E11㊂(7)同理,根据公式(8) (10)可计算出B㊁C㊁D的理论值和偏差㊂D12=(B-E12)2E12=A2E12-2B+E12,(8)㊃86㊃㊀第5期胡亮,等:基于改进TF⁃IDF算法的关键词抽取系统D21=(C-E21)2E21=C2E21-2C+E21,(9)D22=(D-E22)2E22=D2E22-2D+E22㊂(10)㊀㊀将A㊁B㊁C㊁D的偏差值结合,就可得到词语类别之间的相关系数,且当在同一个语料库时,N=A+B+C+D㊁A+C和B+D都不变,因此可以忽略,可以得到最后的卡方值计算算法如公式(11),i是特征词即例子中的 坦克 t是类别即 军事 ㊂CHI=x2(i,t)=(AD-BC)2(A+B)(C+D)㊂(11)㊀㊀以表1为例,计算CHI值的方式:在构建好的语料库中,已知的有语料库的文本总数N,军事类别的文本数量A+C;另外的,使用基于统计的方法,利用分词㊁词典匹配等方式计算得到语料库中包含词 坦克 的文本数量A+B和包含 坦克 且属于 军事 类别的文本数量A㊂通过上述方法,便可计算出卡方值CHI㊂1 2 3㊀卡方值计算的改进卡方统计量只计算了特征词在所有文档中出现的次数,没有计算特征在某一文档中出现的频数㊂如一特征词在某一类文档的少量文本中出现的次数很多,而在其他文档中几乎没有出现,那么计算出的C值会很低,但这种特征词贡献度很大㊂比如 进球 破门 在体育类中有关足球的文章会常出现,但在其他的体育类的文章中很少出现[20]㊂因此,定义一个参数W(权值)来进行调节,解决卡方统计方法对文档频率低的特征词不可靠问题㊂权值W的计算如公式(12)W=fFˑNn(12)图1系统总体流程图Fig.1System overall flow其中,f表示词在文中的出现的频次,F表示该文本词语总数,N表示语料库文本总数,n表示包含该词的文本数㊂通过权值调节,得到改进后的卡方值CHI算法如公式(13)所示CHI=x2(i,t)ˑ1 2 4㊀TF⁃IDF⁃CHI算法通过引入卡方校验的思想对传统的TF⁃IDF算法进行优化,从而解决IDF概念在有类别区分的语料库中的冲突㊂同时在计算中,为了防止权重值失衡,引入改进前还需对CHI值对数化处理㊂最终得到TF⁃IDF⁃CHI算法的计算公式如式(14)TF⁃IDF⁃CHIi=TFi,jˑIDFiˑlogCHIi,t㊂(14)通过式(14)发现,包含词i时属于类别j的文本越多,在卡方值CHI越大,词i在该类别中的代表性越强,并且最后的特征权重TF⁃IDF⁃CHI值也就越大,那么该词就越有可能做为代表文本内容关键词㊂2㊀系统实现及检验2 1㊀系统实现2 1 1㊀系统实现流程实验系统包括文件存储㊁文本预处理㊁度量值计算和关键词抽取等4个步骤,流程如图1所示㊂㊃96㊃厦门理工学院学报2017年2 1 2㊀文件存储表2㊀文本数量信息Table2㊀Textquantity类别文本数量/篇财经222IT222健康222体育222旅游222教育222招聘220文化220军事228总计2000关键词抽取系统调用收集搭建好的语料库,表2中是语料库中的文本类型和数量统计㊂并且系统还需使用分词词典作为标准对语料库中的文本和目标文本进行分词标记㊂在系统程序运行前,必须先将语料库㊁分词词典和目标文本文件读入系统作为输入㊂如表2所示,实验采用了9大类别覆盖了所有常见的语言类别,其中每个类别中包含两百篇以上的文本㊂整个语料库总共有2000篇文本信息㊂在实验部分,样本目标文件是最近人们最为关心的 勒索病毒 为主题的txt文件㊂共计1407个字㊂2 1 3㊀文本预处理所有文本文件都读入系统后,系统就会将语料库中的所有文本和目标文本依据分词词典进行分词标记,以便后续词或短语的度量值计算㊂2 1 4㊀度量值计算经分词处理后,即可应用分词算法计算分词标记的词或短语的各类度量值,其中将IDF值小于2的词作为停用词,将其删除,最后输出所有词的结果㊂2 1 5㊀筛选候选词当计算出所有词或短语的度量值后,根据它们所有度量值中的TF⁃IDF值的大小排序,采用冒泡排序的算法来进行最后的排序,最后输出排名前10的作为候选关键词㊂表3为目标文本文件经过关键词抽取系统的处理抽取出的候选关键词㊂表3㊀排名前10的候选关键词Table3㊀Toptenkeywords序号候选关键词词频TF值IDF值TF⁃IDF值1勒索190.7664.8283.6992病毒120.4842.8471.3783加密70.2824.8281.3634比特50.2025.8091.1715漏洞90.3633.0901.1216传播90.3632.0750.7537变种40.1614.3430.7008蠕虫30.1214.8280.5849感染60.2422.3490.56810弹出30.1214.5560.551上述实验结果表明,排名靠前的关键词都能准确反映出文本相关内容㊂但是在所有实验结果中,排名前10的关键词偶尔有个别无意义的词出现,其原因是传统的TF⁃IDF的概念思想与关键词抽取的逻辑相冲,下面将通过卡方校验的方法对上述结果进行优化改进㊂2 1 6㊀关键词抽取针对系统对目标文本所抽取出的候选词进行优化㊂首先,根据语料库中文本信息的数量以及对数函数的专有特性,将IDF的权重值进行调整,得到改进后的IDF计算方法,计算公式如(15)所示㊂IDFi=logNniˑ5+1㊂(15)㊀㊀实验中,利用上文所诉的卡方校验的思想对TF⁃IDF算法抽取出的关键词进行优化处理㊂大量实验发现,由于语料库中文本总数量大且分类多,使得利用上述公式所计算出的卡方值较大,因此实验中对计算出的卡方值进行对数化处理并对其权重进行了微调,如公式(16):㊃07㊃㊃17㊃㊀第5期胡亮,等:基于改进TF⁃IDF算法的关键词抽取系统CHI=logCHI÷10㊂(16)㊀㊀最后根据公式(16)计算得到最终的关键词和各个关键词的度量值,最终输出的关键词如表4㊂表4㊀改进后输出的关键词Table54㊀Keywordswithimprovedalgorithm序号候选关键词A值CHI值TF值IDF值TF⁃IDF值TF⁃IDF⁃CHI值勒索10.7990.7664.8283.6992.9562病毒61.0690.4842.8471.3781.4733加密31.0690.2824.8281.3631.4574漏洞11.0050.3633.0901.1211.1275传播61.1540.3632.0750.7530.8696比特10.7390.2025.8091.1710.8657感染11.3410.2422.3490.5680.7628变种10.7830.1614.3430.7000.5489蠕虫10.7990.1214.8280.5840.46710弹出20.9930.1214.5560.5510.564与表3相比,从中很明显地看出与原文(目标文件)较为不具备代表性的词 比特 和 变种 的CHI值相对较小,经过最后的排序后其排名将会后移㊂因此,得出经过改进后的算法起到了明显的改进效果㊂2 2㊀测评结果实验从包含9个类别的语料库选取90篇文章(每个类别中随机选取10篇)作为样本,每篇文章的平均字数为984㊂在每篇样本中,通过关键词抽取系统抽取10个关键词,人工客观地抽取8个关键词㊂对90篇文章中利用准确率和召回率对系统进行评测,准确率为抽取正确数与抽取数之比,召回率为抽取正确数与人工标记数之比㊂卡方优化前和后准确率分别为31 48%和46 01%,召回率分别为35 25%和54 96%,都有较大改善㊂3㊀结语设计实现关键词抽取系统,总结了关键词抽取系统的2个基础技术㊂1)在系统的设计实现前将语料文本数据进行分类整理,搭建一套系统所需的语料库;并对语料库中所有的文本根据分词词典利用最大匹配算法进行分词标记处理㊂2)采用TF⁃IDF算法实现初步关键词抽取功能;然后用卡方校验的方法优化TF⁃IDF算法并筛选出最终的关键词,克服了传统的TF⁃IDF的概念思想与关键词抽取的逻辑相冲问题㊂[参考文献][1]王健,陈剑云.基于JAVA多线程的IEC60870⁃5⁃101规约分层设[J].科技情报开发与经济,2005,15(7):249⁃250.[2]徐东亮.基于文本挖掘的聚类算法研究[J].微计算机信息,2011,27(2):168⁃169.[3]周满英.百度和谷歌的中文分词技术浅析[J].中国索引,2011,9(2):44⁃46.[4]黄先珍,杨玉珍,刘培玉.信息过滤中基于统计与规则的关键词抽取研究[J].计算机工程,2012,38(2):57⁃59.[5]RUSSELLMA.Miningthesocialweb:dataminingfacebook,twitter,linkedIn,google+,gitHub,andmore[M].California:O ReillyMedia,lnc.2013.[6]猿飞寅.聊天语言环境下关键词提取算法的研究和实现[D].南京:东南大学,2012.[7]汪洋,帅建梅.基于语义扩展模型的中文网页关键词抽取[J].计算机工程,2012,38(22):163⁃166.[8]路永和,李焰锋.改进TF⁃IDF算法的文本特征项权值计算方法[J].图书情报作,2013,57(3):90⁃95.[9]周威成,马素霞.非法网页过滤的研究与实现[J].计算机应用,2003,23(10):108⁃110.㊃27㊃厦门理工学院学报2017年[10]AGICHTEINE,CASTILLOC,DONATOD,etal.Findinghigh⁃qualitycontentinsocialmedia[C]//AssociationforComputingMachinery.Proceedingsofthe2008internationalconferenceonwebsearchanddatamining.ACM,2008:183⁃194.[11]ASURS,HUBERMANB.Predictingthefuturewithsocialmedia[J].SocialScienceElectronicPublishing,2010,7(2):492⁃499.[12]黄贤英,陈红阳.一种新的微博短文文本特征词选择算法[J].计算机工程与科学,2015,37(9):1761⁃1767.[13]夏天.词语位置加TextRank的关键词抽取研究[J].现代图书情报技术,2013,29(9):30⁃34.[14]刘俊.基于主题特征的关键词抽取[J].计算机应用研究,2012,29(11):4224⁃4227.[15]逯万辉.基于CRFs的领域爆发词识别的研究与实现[J].情报科学,2014(1):89⁃93.[16]贺艳梅.学术英语风格再现与重构[D].上海:上海交通大学,2012.[17]YOSHIDAM,MATSUSHIAS,ONOS,etal.Tweetcategorizationbyquerycategorizationforon⁃linereputationmanagement[C]//CLEF2010LABsandWorkshops,Padua:2010.[18]勒龙艳.中文微博细粒情绪识别研究[D].衡阳:南华大学,2014.[19]王惠仙.基于改进的正向最大匹配中文分词算法研究[J].贵州大学学报(自然科学版),2011,28(5):112⁃115.[20]徐明.基于改进卡方统计的微博特征提取方法[J].计算机工程与应用,2014,50(9):113⁃117.DesignandImplementationofaKeywordExtractionSystemUsingOptimizedTF⁃IDFHULiang XIALei LIWeiSchoolofComputer&InformationEngineering XiamenUniversityofTechnology Xiamen361024 ChinaAbstract Akeywordextractionsystemincludingfilestorage textpreprocessing measurecalculation extraction andsequencingandoutputrankingwasdesignedusingachi⁃squaretestoptimizedTF⁃IDFalgorithmtosolvethelogicalconflictbetweenthetraditionalTF⁃IDFconceptandkeywordextraction.Experimentalresultsshowthatthesystemfulfilsthetaskofkeywordextractionwellandcanprovidetechnicalsupportfordataretrieval textclusteringandsummarizationgeneration.Keywords keywordsextraction TF⁃IDF chi⁃squaretest(责任编辑㊀宋㊀静)。

相关文档
最新文档