基于改进TF-IDF算法的关键词抽取系统

合集下载

基于改进的TF-IDF特征权重算法的网页自动分类

（阳职业技术学院数学与计算机科学系，揭广东揭阳５２０）２００摘要：ＴＦ—ＩＦ是文档特征权重表示常用方法，不能真正地反映特征词对区分每个类的贡献。故针对网Ｄ但
页分类中特征选择方法存在的问题，加入网页标签特征权重改进＂ＩＦ—ＩＦ公式，出了一种比较有效的网页分类Ｄ提算法，实验结果表明该方法具有较好的特征选择效果，能够有效地提高分类精度。
２１００年８月
２９卷第８
绵阳师范学院学报
ＪｕｎｌｏａｖｎＮｒｌＵｎｏｒａｆＭｉｎａ￣ｏｍａｉ
Ａｇ２１ｕ．００Ｖｏ．９Ｎｏ８１２．
基于改进的ＴＦ—ＩＤＦ特征权重算法的网页自动分类
蔡银珊，英铭黄
２网页标签Leabharlann 特征权重和分类有效信息提取存在的问题
当前在特征选择算法包括文档频率Ｄ（ｏｕｅｔｒｕｎｙ、ＦＤｃｍｎＦｅｅｃ）反文档频率ＩＦＩｖｒｏｕｅｔｒｑＤ（ｎｅｅＤｃｍｎＦｅｓ－ｑｅｃ）互信息Ｍ（ｕａＩｏａｏ）信息增益Ｉ（ｎｒａｏａ）Ｘ统计ＣＩ期望交叉熵Ｃ（ｘｕｎｙ，ＩＭｔｌｎｒｔｎ，ｕｆｍｉＧＩｏｔｎＧｉ，２ｆｍｉｎＨ，ＥＥ－ｐｃｅｒｓＥｔｐ）ＴｅｔＣｏｓｎｒｙ，Ｆ—ＩＦ等卜】ｄｏＤ３。这些算法都取得了较好的效果，它们很少考虑文本分类间分布但的差异，权重计算方法存在不足，为解决这个问题，故对传统Ｔ — ＤＦＩＦ算法进行了改进，提出了一种新的特

文本挖掘中的关键词抽取算法技巧

文本挖掘中的关键词抽取算法技巧在文本挖掘中，关键词抽取是一项重要的任务，它可以帮助我们从大量的文本数据中提取出与主题相关的关键词，进而提高信息的检索和分类效率。

本文将介绍文本挖掘中的关键词抽取算法技巧，并探讨它们的应用。

一、基于统计的关键词抽取算法基于统计的关键词抽取算法是一种常见而有效的方法，它利用词频和共现关系等统计信息来判断关键词的重要性。

1. TF-IDF算法TF-IDF（Term Frequency-Inverse Document Frequency）算法是最常用的关键词抽取算法之一。

它通过计算词频和逆文档频率来评估一个词对于文档的重要性，词频表示某个词在文档中的出现频率，逆文档频率表示该词在整个语料库中的重要程度。

2. TextRank算法TextRank算法是一个图算法，它利用词语之间的关系构建图模型，并通过迭代计算来评估词语的重要性。

它类似于PageRank算法，通过计算词语之间的相似度和重要性来确定关键词。

二、基于机器学习的关键词抽取算法除了基于统计的算法，还有一些基于机器学习的关键词抽取算法，它们利用机器学习模型来识别和抽取关键词。

1. 词性标注与过滤词性标注是将文本中的每个词语标注为相应的词性，例如名词、动词、形容词等。

通过词性标注，我们可以根据不同的任务需求，过滤掉一些不相关的词语，从而提取出与主题相关的关键词。

2. 基于模式的抽取基于模式的抽取算法是一种利用特定的规则或模式来抽取关键词的方法。

例如，我们可以利用正则表达式来抽取符合某种模式的词语，如专有名词、特定短语等。

三、基于深度学习的关键词抽取算法近年来，随着深度学习的发展，基于深度学习的关键词抽取算法也得到了广泛应用。

1. 基于循环神经网络的抽取循环神经网络（RNN）是一种可以处理序列数据的神经网络模型，在关键词抽取中可以使用RNN模型来学习词语之间的上下文信息，从而更准确地抽取关键词。

2. 基于注意力机制的抽取注意力机制（Attention Mechanism）是一种可以对序列数据进行加权处理的方法，它可以让模型更关注重要的词语。

数据科学中的关键词提取算法

数据科学中的关键词提取算法近年来，随着大数据时代的到来，数据科学在各个领域中扮演着越来越重要的角色。

而在数据科学的研究中，关键词提取算法是一项至关重要的技术，它能够从海量的数据中提取出具有代表性和关联性的关键词，为后续的分析和应用提供有力的支持。

本文将介绍几种常用的关键词提取算法，并探讨它们的优缺点及应用场景。

一、TF-IDF算法TF-IDF（Term Frequency-Inverse Document Frequency）算法是一种经典的关键词提取算法。

它通过计算关键词在文本中的频率和在整个文本集合中的逆文档频率来评估关键词的重要性。

TF-IDF算法的优点在于简单易懂、计算速度快，并且适用于各种类型的文本数据。

然而，TF-IDF算法也存在一些缺点，例如无法处理上下文信息、对长文本的处理效果较差等。

二、TextRank算法TextRank算法是一种基于图模型的关键词提取算法，它借鉴了PageRank算法的思想。

TextRank算法首先将文本中的句子或词语构建成一个图，然后通过迭代计算节点之间的相互关系，得到每个节点的权重值，最终选取权重值较高的节点作为关键词。

相比于TF-IDF算法，TextRank算法能够更好地利用上下文信息，对于长文本的处理效果也更好。

然而，TextRank算法在处理大规模数据时的计算复杂度较高，且对于文本的结构和语义信息要求较高。

三、LDA算法LDA（Latent Dirichlet Allocation）算法是一种基于概率模型的关键词提取算法，它能够将文本数据划分为若干个主题，并为每个主题分配一定的关键词。

LDA算法通过对文本数据的主题分布和关键词分布进行推断，得到每个词语在每个主题中的权重值，从而确定关键词。

LDA算法在处理大规模数据时具有较好的可扩展性和灵活性，且能够发现文本数据中的隐藏主题。

然而，LDA算法也存在一些问题，例如对参数的选择敏感、计算复杂度较高等。

四、基于深度学习的算法近年来，随着深度学习的快速发展，基于深度学习的关键词提取算法也取得了显著的进展。

关键词提取方法

关键词提取方法在信息爆炸的时代，我们经常需要从大量文本中提取出关键词来帮助我们理解和归纳文本的主题和要点。

关键词提取是一项重要的自然语言处理技术，它可以自动地从文本中抽取出最具代表性和重要性的词语。

本文将介绍一些常用的关键词提取方法。

1. 基于词频的关键词提取方法基于词频的关键词提取方法是最简单和直观的一种方法。

它根据词语在文本中的出现频率来衡量其重要性。

常见的算法包括TF（Term Frequency，词频）和TF-IDF（Term Frequency-Inverse Document Frequency，词频-逆文档频率）。

TF算法将一个词在文本中出现的次数作为该词的重要性。

但是，如果一个词在文本中多次出现，它的重要性也会被放大。

为了解决这个问题，TF-IDF算法引入了逆文档频率的概念。

逆文档频率表示一个词在整个语料库中的信息量，它的计算方式是语料库中总文档数除以包含该词的文档数的对数。

TF-IDF算法将词频和逆文档频率相乘，使得频繁出现但在整个语料库中信息量小的词的重要性降低，而那些在少数文档中出现但信息量大的词的重要性增加。

2. 基于词性的关键词提取方法除了词频，词性也可以作为关键词提取的依据。

在自然语言中，不同的词性承担着不同的语义角色。

例如，名词往往是一个句子的主语或宾语，动词表示动作或状态，形容词描述事物的属性等。

基于词性的关键词提取方法通过词性标注技术，将文本中的词与其对应的词性进行匹配，然后选择特定的词性作为关键词。

常用的基于词性的关键词提取方法有两种：基于规则的方法和基于统计的方法。

基于规则的方法依赖于人工编写的规则集，通过匹配词性模式来提取关键词。

基于统计的方法则是根据大规模语料库的统计特征来计算每个词性的重要性，然后选择具有高重要性的词性作为关键词。

3. 基于语义的关键词提取方法基于词频和词性的关键词提取方法可以帮助我们抽取出一些关键词，但是它们无法处理一些歧义词和多义词的情况。

自然语言处理的关键词提取方法

自然语言处理的关键词提取方法自然语言处理（Natural Language Processing, NLP）是人工智能领域的重要分支，旨在使计算机能够理解和处理人类语言。

在NLP中，关键词提取是一项关键任务，它可以帮助我们从大量的文本数据中提取出最具代表性和重要性的关键词，从而更好地理解文本内容和进行后续的分析。

关键词提取方法有很多种，下面将介绍几种常见的方法。

一、基于统计的关键词提取方法基于统计的关键词提取方法是一种常见且有效的方法。

它通过统计文本中词语的频率和分布情况来确定关键词。

其中，TF-IDF（Term Frequency-Inverse Document Frequency）是一种常用的统计指标。

TF指的是词语在文本中的频率，IDF指的是词语在整个语料库中的逆文档频率。

通过计算TF和IDF的乘积，可以得到一个词语的重要性分数，从而确定关键词。

二、基于机器学习的关键词提取方法基于机器学习的关键词提取方法是近年来发展起来的一种方法。

它通过训练机器学习模型来识别和提取关键词。

常用的机器学习算法包括朴素贝叶斯、支持向量机和深度学习等。

这些算法可以通过学习大量的标注数据来建立关键词提取模型，并利用模型对新的文本进行关键词提取。

三、基于语义的关键词提取方法基于语义的关键词提取方法是一种较为高级的方法。

它通过理解词语之间的语义关系来确定关键词。

其中，词向量是一种常用的语义表示方法。

词向量可以将词语表示为一个向量，使得具有相似语义的词语在向量空间中距离较近。

通过计算词语之间的相似度，可以确定关键词。

四、基于图论的关键词提取方法基于图论的关键词提取方法是一种基于网络结构的方法。

它通过构建文本的图模型，将词语作为节点，词语之间的关系作为边，从而建立一个词语网络。

通过分析节点之间的连接关系和节点的重要性，可以确定关键词。

常用的图算法包括PageRank算法和TextRank算法等。

综上所述，关键词提取是自然语言处理中的重要任务之一。

NLP系列-关键词抽取技术

一、背景介绍关键词提取就是从文本里面把跟这篇文章意义最相关的一些词语抽取出来，在文献检索、自动文摘、和文本分类等方面有着重要的应用。

文本聚类关键词提取算法一般分为有监督和无监督两类:有监督：有监督的关键词提取方法主要是通过分类的方式进行，通过构建一个较为丰富和完善的词表，然后判断每个文档与词表中每个词的匹配程度，以类似打标签的方式，达到关键词提取的效果。

优点是较高，缺点是需要大批量的标注数据，人工成本过高，并且词表精度需要及时维护。

无监督：相比较而言，无监督的方法对数据的要求低，既不需要一张人工生成且需要持续维护的词表，也不需要人工标注语料辅助训练。

目前比较常用的关键词提取算法都是基于无监督算法。

如TF-IDF算法，TextRank算法和主题模型算法（包括LSA，LSI，LDA等）。

二、TF-IDF算法简介TF-IDF（term frequency–inverse document frequency，词频-逆向文件频率）是一种用于信息检索（information retrieval）与文本挖掘（text mining）的常用加权技术。

TF-IDF是一种统计方法，用以评估一字/词对于一个文件集合或一个语料库中的其中一份文档的重要程度。

字/词的重要性随着它在文档中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

TF-IDF的主要思想是：如果某个单词在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

图1：TF-IDF实例矩阵如图1所示，图示为一个TF-IDF的实例矩阵，该矩阵有10行，即语料库一共有十篇文档，每列表示整个语料库内的某一个词典的字/词，如果谋篇文档中出现了词典中的字/词，那么在实例矩阵中，该位置不为0；若用字/词在该文档中出现的词频来填充，则该实例矩阵为TF矩阵，又称为词频矩阵。

当使用逆文档率乘以对应的词频矩阵即可得到如图1所示的TF-IDF矩阵。

TF-IDF：一种简单、古老，但有用的关键词提取技术

TF-IDF：⼀种简单、古⽼，但有⽤的关键词提取技术TF-IDF算法是⾃然语⾔处理早期的产物Word2Vec算法是当前最流⾏的预训练语⾔模型的前⾝算法原理TF-IDF（词频-拟⽂档频率）是⼀种⽤来计算关键词的传统⽅法TF:某个词在⼀篇新闻中出现的次数IDF=log[新闻的总数量/(包含某个词的新闻数量+1)]优点算法简单，容易理解运算速度⾮常快缺点⽂本较短的时候⼏乎⽆效⽆法应对⼀词多义的的情况处理英⽂import gensim.downloader as apifrom gensim.corpora import Dictionary#加载数据注意第⼀次加载需要下载时间有点长dataset=api.load("test8")dct=Dictionary(dataset)new_corpus=[dct.doc2bow(line) for line in dataset]#加载模型库from gensim import models#训练模型tfidf=models.TfidfMode(new_corpus)#保存模型tfidf.save("tfidf.model")#载⼊模型tfidf=models.TfidfModels.load("tfidf.model")#使⽤这个训练好的模型得到单词的tfidf值tfidf_vec=[]for i in range(len(new_corpus)):string_tfidf=tfidf[new_corpus[i]]tfidf_vec.append(string_tfidf)#输出词语id与词语tfidf值print(tfidf_vec)处理中⽂加⼊jieba其他步骤⼀样import jiebaseg_list=jieba.cut("这是⼀句话，看你切成啥",cut_all=False)print("Default Mode:" + "".join(seg_list))#精确模式。

基于改进TF·IDF和支持向量机的多类别文本分类

２０１３年
第９期
ＳＣＩＥＮＣＥ＆ห้องสมุดไป่ตู้ ＥＣＨＮＯＬＯＧＹＩＮＦＯＲＭＡＴＩＯＮ
Ｏ高校讲坛０
科技信息
基于改进ＴＦ・ＩＤＦ和支持向量机的多类别文本分类
黄璐谷军李然李向军（大连海洋大学信息工程学院，辽宁大连１１６０２３）
一
量ｑ：（ｏｖ，， …，）。
１．２改进的ＴＦ．ＩＤＦ方法在ＴＦ・ＩＤＦ计算过程中．只考虑了特征词频度和文档频度．而没有在语义层面上考虑特征词出现在文档中的位置因素结合中文文献的语义特点，出现在文献不同位置的特征词反映主题的重要程度不同，其对于文献分类的贡献程度也不同。因此．本文为出现在文献不同位置的特征词赋予不同的权重。中文文献大体可分为标题、摘要、关键字、正文和结论等五个部分。其中，摘要部分是作者阐述文献主要论点和内容的重要区域，而标题和关键字给出了能够代表文献学科类别的核心词汇．因此．在这些区域出现的特征词最能代表该文献的主题．赋予最高的权重。结论部分简要总结文献内容．给出主要论点．如果一个特征词出现在该区域．说明该特征词很有可能与文献主题相关．赋予其较高的权重。正文部分详细阐述文献细节．出现在正文部分的特征词有可能在文献学科领域中不太重要．甚至是不相关的．因此为这些特征词赋予最低的权重。由此，本文给出改进的ＴＦ．ＩＤＦ定义：
【摘要】文本分类技术可以有效提高信息资源的可用性和利用率。提出一种基于改进的ＴＦ・ＩＤＦ和支持向量机（ｓｖＭ）结合进行多类别文

数据挖掘中的关键词提取技术

数据挖掘中的关键词提取技术数据挖掘是一门利用计算机技术找出数据中潜在的规律、趋势和模式的学科。

而关键词提取技术则是其中的一个重要分支，它可以将海量的文本数据中最为关键的词语提取出来，是进行文本分析和搜索的重要工具。

一、关键词提取的原理关键词提取是通过一系列的算法和模型，从海量数据中提取出最为关键的词语或短语。

它可以基于文本的语法、词频等特征进行分析，也可以利用机器学习等技术进行建模和预测。

一般来说，关键词提取可以分为两种类型：基于频率的提取和基于语义的提取。

前者是根据词语的出现频率进行提取，因此对于常出现的词语可能会被误判为关键词；而后者则是通过对文本进行语义分析，从中提取出描述文本主题的词语或短语，更为准确。

二、常用的关键词提取算法1. TF-IDF算法：TF-IDF算法是基于词频-逆文档频率的算法，它通过计算一个词语出现的频率与它在文本库中出现的频率之比，来衡量一个词语的重要性。

在TF-IDF算法中，一个词语在文本中出现的频率越高，同时在整个文本库中出现的频率越低，其重要性就越高。

2. LDA主题模型：LDA是一种基于贝叶斯概率模型的主题模型。

它通过对文本进行分析，找到其中隐藏的主题，进而提取出最为相干和重要的关键词。

LDA算法可以对文本进行有监督和无监督学习，具有较高的灵活性和准确性。

3. 基于语义的提取算法：基于语义的提取算法主要是通过自然语言处理技术，对文本进行分词、词性标注、命名实体识别等处理，进而进行语义分析和关键词提取。

这类算法可以更准确地反映文本主题的实质，但对于复杂的文本数据，计算成本相对较高。

三、关键词提取的应用在实际的工作中，关键词提取技术被广泛应用于文本分析、搜索引擎优化、推荐系统等领域。

例如，在搜索引擎中，关键词提取可以帮助搜索引擎更准确地理解用户的搜索意图，提升搜索结果的精度和相关性；在舆情分析中，关键词提取可以帮助分析人员快速抓取到舆情信息中的重要内容，从而做出更加有针对性的反应。

基于Python的改进关键词提取算法的实现

基于Python的改进关键词提取算法的实现NIU Yong-jie【摘要】关键词提取是自然语言研究领域的基础和关键点,在很多领域都有广泛的应用.以本校图书馆提供的8045篇《红色中华》新闻为源数据,首先对数据进行数据清理,去除其中的噪声数据,然后对每篇新闻进行数据结构解析,在解析的基础上计算了词语的TFIDF权重、词位置权重、词性权重、词长权重和词跨度权重,综合考虑这些权重计算出词语的综合权重,以综合权重最大的前8个词语作为新闻的关键词.从准确度、召回率及F1值3个指标对改进算法、经典的TFIDF算法和专家标注进行对比,发现改进算法在3个指标上均优于经典的TFIDF算法,与专家标注比较接近,值得推广应用.【期刊名称】《电子设计工程》【年(卷),期】2019(027)013【总页数】5页(P11-15)【关键词】TFIDF;词性;词跨度;词长;词位置【作者】NIU Yong-jie【作者单位】【正文语种】中文【中图分类】TP311.1关键词的提取是自然语言处理中的基础与核心技术，在信息检索、文本分类、文本聚类、信息匹配、话题跟踪、自动摘要、人机对话、字符串相似性衡量等领域有广泛的应用[1-5]。

但是针对不同的领域，关键词的提取要求千差万别，目前在不同的领域大多依赖人工标注的方法进行，随着数据量的日益激增，人工标注的方法已经不能胜任，所以依靠计算机自动提取关键词显得十分重要。

关键词自动提取按照是否进行监督学习分为监督性和非监督性两大类。

通过训练数据构建学习模型，判断词语是否归属于关键词类别，属于典型的有指导学习方法。

有指导学习需要事先标注高质量的训练数据，人工预处理的代价较高，但是效果比较好[6]。

非监督学习因为无需对数据进行训练，实现快捷，仅需要文本自身的信息就能进行等优点被广泛采用，非监督关键词抽取方法可归纳为3种:基于TFIDF统计特征的关键词抽取、基于主题模型的关键词抽取和基于词图模型的关键词抽取方法。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

㊀第２５卷㊀第５期厦门理工学院学报Ｖｏｌ．２５㊀Ｎｏ．５㊀㊀２０１７年１０月ＪｏｕｒｎａｌｏｆＸｉａｍｅｎＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙＯｃｔ．２０１７㊀㊀［收稿日期］２０１７－０６－３０㊀㊀㊀㊀［修回日期］２０１７－１０－０９［基金项目］福建省自然科学基金项目（２０１６Ｊ０１３２５）；福建省中青年教师教育科研项目（ＪＡＴ１６０３５８）［作者简介］胡亮（１９８０－），女，讲师，硕士，研究方向为数据挖掘㊁人工智能㊁计算机视觉，Ｅ⁃ｍａｉｌ：ｌｈｕ＠ｘｍｕｔ．ｅｄｕ．ｃｎ㊂基于改进ＴＦ⁃ＩＤＦ算法的关键词抽取系统胡㊀亮，夏㊀磊，李㊀伟（厦门理工学院计算机与信息工程学院，福建厦门３６１０２４）［摘㊀要］为克服传统ＴＦ⁃ＩＤＦ概念思想与关键词抽取的逻辑相冲问题，引入卡方校验的方法优化ＴＦ⁃ＩＤＦ算法，设计了一个包含文件存储㊁文本预处理㊁度量值计算㊁排序抽取和优化输出４个流程的关键词抽取系统㊂实验结果表明，该系统能够很好地完成关键词分类抽取的任务，可为数据检索㊁文本聚类㊁摘要生成等提供基础支持㊂［关键词］关键词抽取；ＴＦ⁃ＩＤＦ算法；卡方校验［中图分类号］ＴＰ３９１１㊀［文献标志码］Ａ㊀［文章编号］１６７３－４４３２（２０１７）０５－００６７－０６随着互联网的出现和发展，信息数据通过网络进行存储和共享的方式逐渐成为主流㊂如何从庞大的网络数据库中检索㊁分类和过滤出有价值的文本信息数据，成为了亟待解决的问题［１－３］㊂ＴＦ⁃ＩＤＦ算法作为基于统计的无监督关键词抽取方法，在快速性㊁方便性和领域无关性方面远远优于有监督的方法［４］㊂由于其具备普适性㊁灵活性和快捷性等特点，所以被许多专家学者所青睐［５－６］㊂但是当引入类别区分后，传统的ＴＦ⁃ＩＤＦ的概念思想会与关键词抽取的逻辑相冲［７－８］，即ＴＦ⁃ＩＤＦ算法中ＩＤＦ定义存在漏洞，在有类别区分的语料库中不适用㊂本文利用了卡方校验的思想对传统的ＴＦ⁃ＩＤＦ算法进行改进，并根据语料资源的规模，设置各项相关的权重值，优化最终结果㊂１㊀算法及其改进１１㊀ＴＦ⁃ＩＤＦ算法ＴＦ⁃ＩＤＦ算法是基于统计的方法来衡量词或短语在文本信息中的关键性㊂它的主要原理：一个词在目标文本使用的次数较多，却在语料库中使用的次数较少，那么它就能够具备良好的文本区分能力［９－１０］㊂某个词在目标文本中的ＴＦ值指的是该词在这个文本中出现的频率㊂在计算这个频率时，还需对它归一化，防止它偏向字数较多的长文本㊂计算ＴＦ值的公式如下所示：ＴＦｉ，ｊ＝ｆｉ，ｊðｎｉ＝１ｆｉ，ｊ㊂（１）公式（１）为词ｉ在文本ｊ中的的词频ＴＦｉ的计算方式，其中分子内容为词ｉ在文中出现的次数，分母内容为文本ｊ中所有词的总数㊂通过这种词频的计算方法，有效的防止了词频ＴＦｉ对较长文本的偏向性㊂除此之外，还可以采用另一种词频归一化的方法，如公式（２）㊂其中分母表示在文本ｊ中出现的最大词频数值［１１－１３］，即ＴＦｉ，ｊ＝ｆｉ，ｊｆｍａｘ，ｊ㊂（２）厦门理工学院学报２０１７年㊀㊀一个词的关键性的衡量可以用ＩＤＦ值表示㊂假定一个文本语料库集合中包含词ｉ的文本数量越少，则该词的ＩＤＦｉ值应该越大，这样词ｉ的区分能力就越好，那么就越有可能作为关键词［１４－１６］㊂具体公式如下：ＩＤＦｉ＝ｌｏｇＮｎｉ＋１，（３）㊀㊀式中Ｎ是文本集中的文本总数，ｎｉ包含词ｉ的文本数量㊂分母中的＋１是为了处理公式中分母为０的情况㊂经过上述方法的计算可以总结成公式（４）㊂假设一个词ｉ在某一指定的文本ｊ中出现的频率较高而在整个文本集合中出现包含该词的文本较少，则它的ＴＦ⁃ＩＤＦ值就较高，即词ｉ较容易区分文档ｊ，可作为关键词㊂ＴＦ⁃ＩＤＦｉ＝ＴＦｉ，ｊˑＩＤＦｉ㊂（４）１２㊀算法改进１２１㊀卡方校验卡方校验的原理是判断实际值与理论值的偏差来确定理论是否正确［１７－１９］㊂在进行卡方校验时，通常会假定一个原假设，即为两个变量相互之间是独立的，之后观察实际值（观察值）与理论值（两个变量确实独立状况下出现的值）的偏差大小，若偏差范围很小，就认为误差是自然的样本误差，两者确实独立，原假设正确；若偏差较大，使得误差不太有可能是自然误差，就判定两者实际上是相关的，原假设被否定㊂通过上述指导思想可得到公式（５）㊂Ｅ为理论值，ｘ为实际值，Ｄ为偏差㊂Ｄ＝ðｎｉ＝１（ｘｉ－Ｅ）２Ｅ㊂（５）在公式（５），从样本中得到观察值ｘ１，ｘ２，，ｘｎ，利用公式求开方值，对比这个开方值和原假设，若大于阈值，就认为原假设不成立，相反原假设成立㊂１２２㊀卡方校验的应用在文本关键词抽取的特征选取时，设原假设为词与类别不相关，利用公式进行计算，卡方值结果越大，表明原假设的偏离度也就越大㊂例如，在具有Ｎ篇文本的语料库中，分类定义为军事和非军事，词坦克与类军事的关系㊂具体相关信息如表１㊂表１㊀文本数量关系Ｔａｂｌｅ１㊀Ｔｅｘｔｑｕａｎｔｉｔｙｗｉｔｈｄｅｆｉｎｉｔｉｏｎ特征旋转属于军事不属于军事总计包含坦克ＡＢＡ＋Ｂ不包含坦克ＣＤＣ＋Ｄ总数Ａ＋ＣＢ＋ＤＮ假设词坦克与类别军事不相关，那么在类别军事中存在坦克的文本比例和所有文本中包含坦克的文本比例应该相等㊂所以可以得到Ａ的理论值为公式（６），Ａ的偏差为公式（７）㊂Ｅ１１＝（Ａ＋Ｃ）ˑＡ＋ＢＮ，（６）Ｄ１１＝（Ａ－Ｅ１１）２Ｅ１１＝Ａ２Ｅ１１－２Ａ＋Ｅ１１㊂（７）同理，根据公式（８）（１０）可计算出Ｂ㊁Ｃ㊁Ｄ的理论值和偏差㊂Ｄ１２＝（Ｂ－Ｅ１２）２Ｅ１２＝Ａ２Ｅ１２－２Ｂ＋Ｅ１２，（８）㊃８６㊃㊀第５期胡亮，等：基于改进ＴＦ⁃ＩＤＦ算法的关键词抽取系统Ｄ２１＝（Ｃ－Ｅ２１）２Ｅ２１＝Ｃ２Ｅ２１－２Ｃ＋Ｅ２１，（９）Ｄ２２＝（Ｄ－Ｅ２２）２Ｅ２２＝Ｄ２Ｅ２２－２Ｄ＋Ｅ２２㊂（１０）㊀㊀将Ａ㊁Ｂ㊁Ｃ㊁Ｄ的偏差值结合，就可得到词语类别之间的相关系数，且当在同一个语料库时，Ｎ＝Ａ＋Ｂ＋Ｃ＋Ｄ㊁Ａ＋Ｃ和Ｂ＋Ｄ都不变，因此可以忽略，可以得到最后的卡方值计算算法如公式（１１），ｉ是特征词即例子中的坦克ｔ是类别即军事㊂ＣＨＩ＝ｘ２（ｉ，ｔ）＝（ＡＤ－ＢＣ）２（Ａ＋Ｂ）（Ｃ＋Ｄ）㊂（１１）㊀㊀以表１为例，计算ＣＨＩ值的方式：在构建好的语料库中，已知的有语料库的文本总数Ｎ，军事类别的文本数量Ａ＋Ｃ；另外的，使用基于统计的方法，利用分词㊁词典匹配等方式计算得到语料库中包含词坦克的文本数量Ａ＋Ｂ和包含坦克且属于军事类别的文本数量Ａ㊂通过上述方法，便可计算出卡方值ＣＨＩ㊂１２３㊀卡方值计算的改进卡方统计量只计算了特征词在所有文档中出现的次数，没有计算特征在某一文档中出现的频数㊂如一特征词在某一类文档的少量文本中出现的次数很多，而在其他文档中几乎没有出现，那么计算出的Ｃ值会很低，但这种特征词贡献度很大㊂比如进球破门在体育类中有关足球的文章会常出现，但在其他的体育类的文章中很少出现［２０］㊂因此，定义一个参数Ｗ（权值）来进行调节，解决卡方统计方法对文档频率低的特征词不可靠问题㊂权值Ｗ的计算如公式（１２）Ｗ＝ｆＦˑＮｎ（１２）图1系统总体流程图Fig.1System overall flow其中，ｆ表示词在文中的出现的频次，Ｆ表示该文本词语总数，Ｎ表示语料库文本总数，ｎ表示包含该词的文本数㊂通过权值调节，得到改进后的卡方值ＣＨＩ算法如公式（１３）所示ＣＨＩ＝ｘ２（ｉ，ｔ）ˑ１２４㊀ＴＦ⁃ＩＤＦ⁃ＣＨＩ算法通过引入卡方校验的思想对传统的ＴＦ⁃ＩＤＦ算法进行优化，从而解决ＩＤＦ概念在有类别区分的语料库中的冲突㊂同时在计算中，为了防止权重值失衡，引入改进前还需对ＣＨＩ值对数化处理㊂最终得到ＴＦ⁃ＩＤＦ⁃ＣＨＩ算法的计算公式如式（１４）ＴＦ⁃ＩＤＦ⁃ＣＨＩｉ＝ＴＦｉ，ｊˑＩＤＦｉˑｌｏｇＣＨＩｉ，ｔ㊂（１４）通过式（１４）发现，包含词ｉ时属于类别ｊ的文本越多，在卡方值ＣＨＩ越大，词ｉ在该类别中的代表性越强，并且最后的特征权重ＴＦ⁃ＩＤＦ⁃ＣＨＩ值也就越大，那么该词就越有可能做为代表文本内容关键词㊂２㊀系统实现及检验２１㊀系统实现２１１㊀系统实现流程实验系统包括文件存储㊁文本预处理㊁度量值计算和关键词抽取等４个步骤，流程如图１所示㊂㊃９６㊃厦门理工学院学报２０１７年２１２㊀文件存储表２㊀文本数量信息Ｔａｂｌｅ２㊀Ｔｅｘｔｑｕａｎｔｉｔｙ类别文本数量／篇财经２２２ＩＴ２２２健康２２２体育２２２旅游２２２教育２２２招聘２２０文化２２０军事２２８总计２０００关键词抽取系统调用收集搭建好的语料库，表２中是语料库中的文本类型和数量统计㊂并且系统还需使用分词词典作为标准对语料库中的文本和目标文本进行分词标记㊂在系统程序运行前，必须先将语料库㊁分词词典和目标文本文件读入系统作为输入㊂如表２所示，实验采用了９大类别覆盖了所有常见的语言类别，其中每个类别中包含两百篇以上的文本㊂整个语料库总共有２０００篇文本信息㊂在实验部分，样本目标文件是最近人们最为关心的勒索病毒为主题的ｔｘｔ文件㊂共计１４０７个字㊂２１３㊀文本预处理所有文本文件都读入系统后，系统就会将语料库中的所有文本和目标文本依据分词词典进行分词标记，以便后续词或短语的度量值计算㊂２１４㊀度量值计算经分词处理后，即可应用分词算法计算分词标记的词或短语的各类度量值，其中将ＩＤＦ值小于２的词作为停用词，将其删除，最后输出所有词的结果㊂２１５㊀筛选候选词当计算出所有词或短语的度量值后，根据它们所有度量值中的ＴＦ⁃ＩＤＦ值的大小排序，采用冒泡排序的算法来进行最后的排序，最后输出排名前１０的作为候选关键词㊂表３为目标文本文件经过关键词抽取系统的处理抽取出的候选关键词㊂表３㊀排名前１０的候选关键词Ｔａｂｌｅ３㊀Ｔｏｐｔｅｎｋｅｙｗｏｒｄｓ序号候选关键词词频ＴＦ值ＩＤＦ值ＴＦ⁃ＩＤＦ值１勒索１９０．７６６４．８２８３．６９９２病毒１２０．４８４２．８４７１．３７８３加密７０．２８２４．８２８１．３６３４比特５０．２０２５．８０９１．１７１５漏洞９０．３６３３．０９０１．１２１６传播９０．３６３２．０７５０．７５３７变种４０．１６１４．３４３０．７００８蠕虫３０．１２１４．８２８０．５８４９感染６０．２４２２．３４９０．５６８１０弹出３０．１２１４．５５６０．５５１上述实验结果表明，排名靠前的关键词都能准确反映出文本相关内容㊂但是在所有实验结果中，排名前１０的关键词偶尔有个别无意义的词出现，其原因是传统的ＴＦ⁃ＩＤＦ的概念思想与关键词抽取的逻辑相冲，下面将通过卡方校验的方法对上述结果进行优化改进㊂２１６㊀关键词抽取针对系统对目标文本所抽取出的候选词进行优化㊂首先，根据语料库中文本信息的数量以及对数函数的专有特性，将ＩＤＦ的权重值进行调整，得到改进后的ＩＤＦ计算方法，计算公式如（１５）所示㊂ＩＤＦｉ＝ｌｏｇＮｎｉˑ５＋１㊂（１５）㊀㊀实验中，利用上文所诉的卡方校验的思想对ＴＦ⁃ＩＤＦ算法抽取出的关键词进行优化处理㊂大量实验发现，由于语料库中文本总数量大且分类多，使得利用上述公式所计算出的卡方值较大，因此实验中对计算出的卡方值进行对数化处理并对其权重进行了微调，如公式（１６）：㊃０７㊃㊃１７㊃㊀第５期胡亮，等：基于改进ＴＦ⁃ＩＤＦ算法的关键词抽取系统ＣＨＩ＝ｌｏｇＣＨＩ÷１０㊂（１６）㊀㊀最后根据公式（１６）计算得到最终的关键词和各个关键词的度量值，最终输出的关键词如表４㊂表４㊀改进后输出的关键词Ｔａｂｌｅ５４㊀Ｋｅｙｗｏｒｄｓｗｉｔｈｉｍｐｒｏｖｅｄａｌｇｏｒｉｔｈｍ序号候选关键词Ａ值ＣＨＩ值ＴＦ值ＩＤＦ值ＴＦ⁃ＩＤＦ值ＴＦ⁃ＩＤＦ⁃ＣＨＩ值勒索１０．７９９０．７６６４．８２８３．６９９２．９５６２病毒６１．０６９０．４８４２．８４７１．３７８１．４７３３加密３１．０６９０．２８２４．８２８１．３６３１．４５７４漏洞１１．００５０．３６３３．０９０１．１２１１．１２７５传播６１．１５４０．３６３２．０７５０．７５３０．８６９６比特１０．７３９０．２０２５．８０９１．１７１０．８６５７感染１１．３４１０．２４２２．３４９０．５６８０．７６２８变种１０．７８３０．１６１４．３４３０．７０００．５４８９蠕虫１０．７９９０．１２１４．８２８０．５８４０．４６７１０弹出２０．９９３０．１２１４．５５６０．５５１０．５６４与表３相比，从中很明显地看出与原文（目标文件）较为不具备代表性的词比特和变种的ＣＨＩ值相对较小，经过最后的排序后其排名将会后移㊂因此，得出经过改进后的算法起到了明显的改进效果㊂２２㊀测评结果实验从包含９个类别的语料库选取９０篇文章（每个类别中随机选取１０篇）作为样本，每篇文章的平均字数为９８４㊂在每篇样本中，通过关键词抽取系统抽取１０个关键词，人工客观地抽取８个关键词㊂对９０篇文章中利用准确率和召回率对系统进行评测，准确率为抽取正确数与抽取数之比，召回率为抽取正确数与人工标记数之比㊂卡方优化前和后准确率分别为３１４８％和４６０１％，召回率分别为３５２５％和５４９６％，都有较大改善㊂３㊀结语设计实现关键词抽取系统，总结了关键词抽取系统的２个基础技术㊂１）在系统的设计实现前将语料文本数据进行分类整理，搭建一套系统所需的语料库；并对语料库中所有的文本根据分词词典利用最大匹配算法进行分词标记处理㊂２）采用ＴＦ⁃ＩＤＦ算法实现初步关键词抽取功能；然后用卡方校验的方法优化ＴＦ⁃ＩＤＦ算法并筛选出最终的关键词，克服了传统的ＴＦ⁃ＩＤＦ的概念思想与关键词抽取的逻辑相冲问题㊂［参考文献］［１］王健，陈剑云．基于ＪＡＶＡ多线程的ＩＥＣ６０８７０⁃５⁃１０１规约分层设［Ｊ］．科技情报开发与经济，２００５，１５（７）：２４９⁃２５０．［２］徐东亮．基于文本挖掘的聚类算法研究［Ｊ］．微计算机信息，２０１１，２７（２）：１６８⁃１６９．［３］周满英．百度和谷歌的中文分词技术浅析［Ｊ］．中国索引，２０１１，９（２）：４４⁃４６．［４］黄先珍，杨玉珍，刘培玉．信息过滤中基于统计与规则的关键词抽取研究［Ｊ］．计算机工程，２０１２，３８（２）：５７⁃５９．［５］ＲＵＳＳＥＬＬＭＡ．Ｍｉｎｉｎｇｔｈｅｓｏｃｉａｌｗｅｂ：ｄａｔａｍｉｎｉｎｇｆａｃｅｂｏｏｋ，ｔｗｉｔｔｅｒ，ｌｉｎｋｅｄＩｎ，ｇｏｏｇｌｅ＋，ｇｉｔＨｕｂ，ａｎｄｍｏｒｅ［Ｍ］．Ｃａｌｉｆｏｒｎｉａ：ＯＲｅｉｌｌｙＭｅｄｉａ，ｌｎｃ．２０１３．［６］猿飞寅．聊天语言环境下关键词提取算法的研究和实现［Ｄ］．南京：东南大学，２０１２．［７］汪洋，帅建梅．基于语义扩展模型的中文网页关键词抽取［Ｊ］．计算机工程，２０１２，３８（２２）：１６３⁃１６６．［８］路永和，李焰锋．改进ＴＦ⁃ＩＤＦ算法的文本特征项权值计算方法［Ｊ］．图书情报作，２０１３，５７（３）：９０⁃９５．［９］周威成，马素霞．非法网页过滤的研究与实现［Ｊ］．计算机应用，２００３，２３（１０）：１０８⁃１１０．㊃２７㊃厦门理工学院学报２０１７年［１０］ＡＧＩＣＨＴＥＩＮＥ，ＣＡＳＴＩＬＬＯＣ，ＤＯＮＡＴＯＤ，ｅｔａｌ．Ｆｉｎｄｉｎｇｈｉｇｈ⁃ｑｕａｌｉｔｙｃｏｎｔｅｎｔｉｎｓｏｃｉａｌｍｅｄｉａ［Ｃ］／／ＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔｉｎｇＭａｃｈｉｎｅｒｙ．Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２００８ｉｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎｗｅｂｓｅａｒｃｈａｎｄｄａｔａｍｉｎｉｎｇ．ＡＣＭ，２００８：１８３⁃１９４．［１１］ＡＳＵＲＳ，ＨＵＢＥＲＭＡＮＢ．Ｐｒｅｄｉｃｔｉｎｇｔｈｅｆｕｔｕｒｅｗｉｔｈｓｏｃｉａｌｍｅｄｉａ［Ｊ］．ＳｏｃｉａｌＳｃｉｅｎｃｅＥｌｅｃｔｒｏｎｉｃＰｕｂｌｉｓｈｉｎｇ，２０１０，７（２）：４９２⁃４９９．［１２］黄贤英，陈红阳．一种新的微博短文文本特征词选择算法［Ｊ］．计算机工程与科学，２０１５，３７（９）：１７６１⁃１７６７．［１３］夏天．词语位置加ＴｅｘｔＲａｎｋ的关键词抽取研究［Ｊ］．现代图书情报技术，２０１３，２９（９）：３０⁃３４．［１４］刘俊．基于主题特征的关键词抽取［Ｊ］．计算机应用研究，２０１２，２９（１１）：４２２４⁃４２２７．［１５］逯万辉．基于ＣＲＦｓ的领域爆发词识别的研究与实现［Ｊ］．情报科学，２０１４（１）：８９⁃９３．［１６］贺艳梅．学术英语风格再现与重构［Ｄ］．上海：上海交通大学，２０１２．［１７］ＹＯＳＨＩＤＡＭ，ＭＡＴＳＵＳＨＩＡＳ，ＯＮＯＳ，ｅｔａｌ．Ｔｗｅｅｔｃａｔｅｇｏｒｉｚａｔｉｏｎｂｙｑｕｅｒｙｃａｔｅｇｏｒｉｚａｔｉｏｎｆｏｒｏｎ⁃ｌｉｎｅｒｅｐｕｔａｔｉｏｎｍａｎａｇｅｍｅｎｔ［Ｃ］／／ＣＬＥＦ２０１０ＬＡＢｓａｎｄＷｏｒｋｓｈｏｐｓ，Ｐａｄｕａ：２０１０．［１８］勒龙艳．中文微博细粒情绪识别研究［Ｄ］．衡阳：南华大学，２０１４．［１９］王惠仙．基于改进的正向最大匹配中文分词算法研究［Ｊ］．贵州大学学报（自然科学版），２０１１，２８（５）：１１２⁃１１５．［２０］徐明．基于改进卡方统计的微博特征提取方法［Ｊ］．计算机工程与应用，２０１４，５０（９）：１１３⁃１１７．ＤｅｓｉｇｎａｎｄＩｍｐｌｅｍｅｎｔａｔｉｏｎｏｆａＫｅｙｗｏｒｄＥｘｔｒａｃｔｉｏｎＳｙｓｔｅｍＵｓｉｎｇＯｐｔｉｍｉｚｅｄＴＦ⁃ＩＤＦＨＵＬｉａｎｇＸＩＡＬｅｉＬＩＷｅｉＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒ＆ＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇＸｉａｍｅｎＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙＸｉａｍｅｎ３６１０２４ＣｈｉｎａＡｂｓｔｒａｃｔＡｋｅｙｗｏｒｄｅｘｔｒａｃｔｉｏｎｓｙｓｔｅｍｉｎｃｌｕｄｉｎｇｆｉｌｅｓｔｏｒａｇｅｔｅｘｔｐｒｅｐｒｏｃｅｓｓｉｎｇｍｅａｓｕｒｅｃａｌｃｕｌａｔｉｏｎｅｘｔｒａｃｔｉｏｎａｎｄｓｅｑｕｅｎｃｉｎｇａｎｄｏｕｔｐｕｔｒａｎｋｉｎｇｗａｓｄｅｓｉｇｎｅｄｕｓｉｎｇａｃｈｉ⁃ｓｑｕａｒｅｔｅｓｔｏｐｔｉｍｉｚｅｄＴＦ⁃ＩＤＦａｌｇｏｒｉｔｈｍｔｏｓｏｌｖｅｔｈｅｌｏｇｉｃａｌｃｏｎｆｌｉｃｔｂｅｔｗｅｅｎｔｈｅｔｒａｄｉｔｉｏｎａｌＴＦ⁃ＩＤＦｃｏｎｃｅｐｔａｎｄｋｅｙｗｏｒｄｅｘｔｒａｃｔｉｏｎ．Ｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅｓｙｓｔｅｍｆｕｌｆｉｌｓｔｈｅｔａｓｋｏｆｋｅｙｗｏｒｄｅｘｔｒａｃｔｉｏｎｗｅｌｌａｎｄｃａｎｐｒｏｖｉｄｅｔｅｃｈｎｉｃａｌｓｕｐｐｏｒｔｆｏｒｄａｔａｒｅｔｒｉｅｖａｌｔｅｘｔｃｌｕｓｔｅｒｉｎｇａｎｄｓｕｍｍａｒｉｚａｔｉｏｎｇｅｎｅｒａｔｉｏｎ．ＫｅｙｗｏｒｄｓｋｅｙｗｏｒｄｓｅｘｔｒａｃｔｉｏｎＴＦ⁃ＩＤＦｃｈｉ⁃ｓｑｕａｒｅｔｅｓｔ（责任编辑㊀宋㊀静）。