向量空间模型中TFIDF权值公式的修正

合集下载

关于TF-IDF问题的探讨

关于 TF-IDF 文档词语权重的研究
文档和查询转化为特征向量时，每个特征都会赋予一定的权值，
如何对特征计算权值，现今广泛采用的方法是采用 TF-IDF 方法，虽
然目前有多种变形，但是总体的框架还是如此。
TF(Term Frequency)的意思是短语在某文档中出现的次数或者频
率，用这一标准来表征该短语在查询文档中的重要程度。通过观察，
重要程度，通过对大量数据的观察和研究，短语在某个文档中出现的
频率很高，而在整个的文档集中出现的频率却比较低，那么证明这些
短语最能表征文档的主题。对于那些在每个文档中都频繁出现的停用
词，完全可以忽略他们。
∑ ∑ TFi, j =
Ni, j Ni, j
,其中
Ni, j
为文档
j
中该词 i 的出现频率，
i
Ni, j 为文档
df … 2 1 3 2 2 1 1 …
idf … 1.225 1.732 1 1.225 1.225 1.732 1.732 … 通过对上图的比较看出，使用 log 函数可以很轻松的将停用词
(stop word)区分开来，同时也可以将表征文档特征的短语很显式的反映出来，将各个文档之间很小的区别进行放大，便于最后的检索。
1）以 log 函数：
2）以 sin 函数：
Term … 湖畔夏夜的常常蛙鸣禅社诗会 …
df … 2
1
3
2
2
1
1…
idf … 2.129 10.018 1.175 2.129 2.129 10.018 10.018 …
3)取平方根函数：
Term … 湖畔夏夜的常常蛙鸣禅社诗会 …

自然语言处理中tf-idf词向量表示模型

自然语言处理中tf-idf词向量表示模型全文共四篇示例，供读者参考第一篇示例：自然语言处理中的TF-IDF词向量表示模型是一种常用的文本特征提取方法。

TF-IDF（Term Frequency-Inverse Document Frequency）是一种用于评估一个词对于一个文档集或一个语料库中的一篇文档的重要性的统计方法。

TF代表词项频率，即某个词在一个文档中出现的次数。

IDF代表逆文档频率，即某个词在整个文档集合中出现的频率的倒数的对数。

通过TF-IDF的计算，可以得到一个词的权重，用来表示该词对于某个文档的重要程度。

TF-IDF词向量表示模型的主要思想是通过计算文档中每个词的TF-IDF值，然后将这些值作为该文档的词向量表示。

在自然语言处理任务中，词向量表示是非常重要的，因为它可以将文本数据转化为向量形式，从而方便后续的机器学习算法处理。

传统的词向量表示方法，如词袋模型和word2vec模型，虽然在一定程度上能够反映词语之间的语义关系，但是却忽略了词的重要性。

而TF-IDF词向量表示模型则可以有效地将词的重要性考虑进去，从而更加准确地表达文本的语义信息。

在TF-IDF词向量表示模型中，词的TF-IDF值是根据它在文档中的出现频率和在整个文档集合中的出现频率来计算的。

具体的计算公式如下：TF(t, d) = count(t, d) / len(d)IDF(t) = log(N / df(t))TF-IDF(t, d) = TF(t, d) * IDF(t)t表示某个词，d表示某个文档，count(t, d)表示词t在文档d中出现的次数，len(d)表示文档d的总词数，N表示文档集合中的总文档数，df(t)表示包含词t的文档数。

通过这个计算公式，我们可以得到每个文档中每个词的TF-IDF值，从而构建出文档的词向量表示。

在实际应用中，通常会将所有文档的词向量拼接在一起，形成一个矩阵，然后通过一些降维算法将其转化为更低维度的词向量表示，以便于后续的机器学习算法处理。

基于TFIDF文本特征加权方法的改进研究

Abstract
Aiming at the problem that the document set is dealt with as a whole and the distribution of feature items among and in classes
is not taken into full account when using traditional TFIDF method，an improved TFIDF method which is combined with information entropy is proposed． This method modifies the method of calculating weights of feature items of TFIDF by combining information entropies of feature items among and in classes，which overcomes the defect that the feature items that made less contribution to the categorisation would be given greater weight，thus is able to calculate weights of text feature items more efficiently． Experimental results show that the proposed method enhances recall and precision of text categorisation and is a more effective text feature weighting method． Keywords Term frequencyinverse document frequency （ TFIDF） Text categorisation Feature weighting Vector space model

LuceneTFIDFSimilarity评分公式详解

本⽂链接：⼀、预热TFIDFSimilarity 曾经是Lucene/Solr 默认评分公式，但是从lucene-6.0开始已经改成BM25Similary 了（详见)。

但我们今天看的依然是TFIDFSimilarity ，因为它相对简单⼀些，对我们理解评分过程有好处。

⾸先假定你知道怎么把⼀篇⽂档转化成⼀个空间向量，并且知道空间向量模型。

接下来先来统⼀⼀下术语和记号q : query ，表⽰⼀个查询d : document ，表⽰⼀篇⽂档V(q) : q 表⽰Query 的向量V(d) : d 表⽰Document 的向量|V(q)| : ∣q ∣ 表⽰Query 向量的归⼀化|V(d)| : ∣d ∣ 表⽰Document 向量的归⼀化在看TFIDFSimilarity 之前，我们先看简单复习⼏个简单的公式。

1. 余弦定理cosine_similarity(q,d)=∣V (q)∣×∣V (d)∣V (q)⋅V (q)，⽤余弦定理通过计算两向量的夹⾓来表⽰两⽂本的相似，这是⼀切的基础。

这⾥沿*的写法，cosine_similarity(q,d)⽽不是⽤score(q,d)的原因是相似度不是每个最终得分，相似度只是评分过程⽐较重要的⼀个因素⽽已。

*建议你还是先看看，它讲得相当完整也很细**。

2. tf-idf 公式tf-idf 算法是⼀种⾮常常见算法，⽤来计算⽂本每个权重的。

tf-idf 算法的原理如果词条在⽂档出频率越⾼，则词条权重越⾼；如词条在越多篇⽂档出现，⽽词条的权重越低。

具体计算如下：tfidf(t)=tf(t)∗idf(t)tf(t)=frequencyidf(t)=1+log doc_freq+1doc_count+1tfidf(t)=frequency×(1+log doc_freq+1doc_count+1)对于VSM ⽽⾔，tf-idf 算法并不是必须，甚⾄权重的引⼊也不是必须。

文本分类中TF IDF权重计算方法改进

文本分类中TF IDF权重计算方法改进作者：隗中杰来源：《软件导刊》2018年第12期摘要：TF;IDF是文本分类中计算特征权重的经典方法，但其本身并未考虑特征词在文档集合中的分布情况，从而导致类别区分度不大。

通过计算特征词类内密度与特征词在样本中均匀分布时整体平均密度的比值对IDF函数进行改进。

实验结果表明，改进后的TF;IDF考虑了特征词内分布与在整体文档集中的分布，提升了对类别的区分能力，有效改善了文本分类效果。

关键词：文本分类;密度;TF;IDF;特征权重;分布Improvement of TF;IDF Weight Calculation Method in Text ClassificationWEI Zhong;jie（Information Technology and Network Security， People's Public Security University of China，Beijing 100038，China）Abstract：TF;IDF is a classical method for calculating feature weight calculation in text classification， but it does not consider the distribution of feature words in the document collection itself， which results in less classification. In this paper， the IDF function is improved by calculating the ratio of the intra;class density of the feature words to the overall average density of the feature words evenly distributed in the sample. Experiments show that the improved TF;IDF considers the intra;class distribution of feature words and the distribution of the overall document set， which improves the ability to distinguish categories and effectively improves the text classification effect.Key Words：text classification; density; TF;IDF; feature weight; distribution0;引言随着信息技术的发展与大数据时代的到来，每天都会产生海量数据，信息量呈几何级数增长，而文本数据在其中占据着非常重要的部分。

基于TFIDF的社区问答系统问句相似度改进算法

基于TFIDF的社区问答系统问句相似度改进算法
赵胜辉;李吉月;徐碧;孙博研
【期刊名称】《北京理工大学学报》
【年(卷),期】2017(37)9
【摘要】针对社区问答系统问句相似度计算问题,提出了一种改进的TFIDF算法.按照用户的查询意图对问句进行分类,根据特征词在类别中的分布对权值进行调整;将问句的主题词归入特征项进行TFIDF计算.实验结果表明,本文改进的TFIDF算法的P@3比传统的TFIDF算法提高了7.66%,比TFIDF-IG算法提高了5.31%,而且
P@5和P@10也有不同程度的提高,与传统TFIDF算法和参考改进算法相比,该算法明显提高了检索性能.
【总页数】4页(P982-985)
【关键词】向量空间模型;TFIDF算法;社区问答系统;问句相似度
【作者】赵胜辉;李吉月;徐碧;孙博研
【作者单位】北京理工大学信息与电子学院
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于余弦距离的中文问答系统中问句相似度计算 [J], 陈仕鸿;刘晓庆
2.基于问句相似度的中文FAQ问答系统 [J], 叶正;林鸿飞;杨志豪
3.应用于问答系统的Lucene相似度检索算法改进 [J], 白菊;何聚厚
4.基于问句相似度的本体问答系统 [J], 刘汉兴;刘财兴;林旭东
5.基于Word2vec和句法规则的自动问答系统问句相似度研究 [J], 刘杰;白尚旺;陆望东;党伟超;潘理虎
因版权原因，仅展示原文概要，查看原文内容请购买。

文本分类中词语权重计算的改进

文本分类中词语权重计算的改进作者：张青,熊前兴来源：《电脑知识与技术》2011年第01期摘要：文本的形式化表示一直是文本检索、自动文摘和搜索引擎等信息检索领域关注的基础性问题。

向量空间模型（Vector Space Model）中的TF.IDF文本表示是该领域中得到广泛应用并且取得较好效果的一种文本表示方法。

词语在文本集合中的类别分布比例量上的差异是决定词语表达文本内容的重要因素之一。

但现在的TF.IDF方法无法把握这一因素，针对这一缺点，将信息增益公式引入文本集合中并提出TF.IDF.IG文本表示方法，并比较分析了其相较于传统TF.IDF公式的优点，用实验验证了其可行性和有效性。

关键词：文本表示；向量空间模型；词语权重；信息增益中图分类号：TP391文献标识码：A文章编号：1009-3044(2011)01-0204-03Improvement to Weighting Terms in Text ClassificationZHANG Qing, XIONG Qian-xing(Department of Computer Science and Technology，Wuhan University of Technology, Wuhan 430063, China)Abstract: The formalization of text is always a fundamental issue in the area of information retrieval, such as text retrieval, automatic abstract, search engine etc. The TF.IDF text representation in Vector Space Model is an efficiency and widespread used method in this area. The difference in categorical distribution proportion in text aggregate of words is one of the key factors which determine the content of words. But the present TF.IDF method cannot handle this factor. For this shortcoming, this article introduces the text information gain formula to text aggregate and proposes the TF.IDF.IG text representation method, compares and analysis its advantages to the traditional TF.IDF formula, verifies the feasibility and validity with experiments.Key words: text representation; vector space model; weight of words; information gain1 概述随着各种电子形式的文本文档如电子出版物、各种电子文档、电子邮件和万维网等文本数据库等以指数级的速度增长，有效的信息检索、内容管理以及信息过滤等应用也变得越来越重要。

改进TF_IDF算法的文本特征项权值计算方法_路永和

［9 ］［8 ］
等的 TF-IDF-CHI 算法，
等的引入信息熵 IG 来改进 TF-IDF 算法等。
本文将同时考虑特征词的重要性（以特征选择评
* 本文系国家高技术研究发展计划( 863 计划) 资助项目 “农产品全供应链多源信息感知技术与产品开发” ( 项目编号: 2012AA101701 ) 和广东 “我国农民信息需求特征及其获取渠道实证研究” ( 项目编号: GD11CTS04 ) 研究成果之一。省哲学社会科学十二五规划项目［ Email: zsuluyonghe@163． com; 李焰锋，作者简介］路永和，中山大学资讯管理学院副教授，中山大学资讯管理学院硕士研究生。收稿日期： 2012 － 10 － 12 修回日期： 2012 － 12 － 24 本文起止页码： 90 － 95 本文责任编辑：高丹
90
第 57 卷第 3 期 2013 年 2 月
估函数来描述）和类内类间分布，并用较精简的函数来描述特征词的类内类间分布，从而使其更容易在实际以此函数模型进行实际的文本分中得到应用。然后，验证其可行性和有效性。类实验， 2． 2 TF- IDF - CHI 考虑到每个特征词对每个类的贡献不同，赵小华图1特征词示例
在 A Linear Text Classification Algorithm Based on Category Relevance Factors［7］一文中提出的。 CRF 体现的是特征词区分其文档所在类与其他类的能力，具体定义为 CRF（ f i ， c j ） = log X /Y U/V
：
（ 4）
f i 表示第 i 个特征项， c j 表示第 j 个类别， X 其中， Y 表示表示包含该特征项 f i 同时属于 c j 类的文档数， U 表示包含该特征项 f i 但不属于属于 c j 类的文档数， c j 类的文档数， V 表示不属于 c j 类的文档数。对 TF 进行标准化处理，则其公式表示为：

基于互信息的文本特征加权方法

基于互信息的文本特征加权方法樊小超;张重阳;邓雄伟【摘要】特征加权是文本分类中的重要环节，通过考察传统的特征选择函数，发现互信息方法在特征加权过程中表现尤为突出。

为了提高互信息方法在特征加权时的性能，加入了词频信息、文档频率信息以及类别相关度因子，提出了一种基于改进的互信息特征加权方法。

实验结果表明，该方法比传统的特征加权方法具有更好的分类性能。

%Feature weighting is an important part of the procedure of text categorization, by examining the traditional feature selection function, it finds that the method of mutual information in feature weighting process performs particularly promi-nent. In order to improve the performance of the method of mutual information in feature weighting, the paper adds the term frequency information, document frequency information and categories correlation factor, and proposes a feature weighted based on mutual information method. The experiments show that this method has better classification perfor-mance than the traditional feature weighting method.【期刊名称】《计算机工程与应用》【年(卷),期】2015(000)013【总页数】5页(P145-148,190)【关键词】文本分类;特征选择;特征加权;互信息【作者】樊小超;张重阳;邓雄伟【作者单位】南京理工大学计算机科学与工程学院，南京 210018; 新疆师范大学计算机科学技术学院，乌鲁木齐 830054;南京理工大学计算机科学与工程学院，南京 210018;南京理工大学计算机科学与工程学院，南京 210018【正文语种】中文【中图分类】TP3911 引言随着计算机技术、网络技术、数据库技术的快速发展与普及应用，网络成为人们获取信息最大的资源库。

中文文本分类

中⽂⽂本分类本⽂介绍⽂本挖掘与⽂本分类的⼀些基本概念和流程，为后续学习分类算法做好铺垫。

⼀. ⽂本挖掘的概念⽂本挖掘(Text Mining)是从⾮结构化⽂本信息中获取⽤户感兴趣或者有⽤的模式的过程。

其中被普遍认可的⽂本挖掘定义如下:⽂本挖掘是指从⼤量⽂本数据中抽取事先未知的、可理解的、最终可⽤的知识的过程，同时运⽤这些知识更好地组织信息以便将来参考。

简⾔之，⽂本挖掘就是从⾮结构化的⽂本中寻找知识的过程。

⽂本挖掘的七个主要领域：（1）搜索和信息检索（IR）：存储和⽂本⽂档的检索，包括搜索引擎和关键字搜索。

（2）⽂本聚类：使⽤聚类⽅法，对词汇，⽚段，段落或⽂件进⾏分组和归类。

（3）⽂本分类：对⽚段，段落或⽂件进⾏分组和归类，使⽤数据挖掘分类⽅法的基础上，经过训练的标记⽰例模型。

（4）Web 挖掘：在互联⽹上进⾏数据和⽂本挖掘，并特别关注在⽹络的规模和相互联系。

（5）信息抽取（IE）：从⾮结构化⽂本中识别与提取有关的事实和关系;从⾮结构化和半结构化⽂本制作的结构化数据的过程。

（6）⾃然语⾔处理（NLP）：将语⾔作为⼀种有意义、有规则的符号系统，在底层解析和理解语⾔的任务（例如，词性标注）;⽬前的技术主要从语法、语义的⾓度发现语⾔最本质的结构和所表达的意义。

（7）概念提取：把单词和短语按语义分组成意义相似的组。

在分析机器学习的数据源中最常见的知识发现主题是把数据对象或事件转换为预定的类别，再根据类别进⾏专门的处理，这是分类系统的基本任务。

⽂本分类也如此：其实就是为⽤户给出的每个⽂档找到所属的正确类别（主题或概念）。

想要实现这个任务，⾸先需要给出⼀组类别，然后根据这些类别收集相应的⽂本集合，构成训练数据集，训练集既包括分好类的⽂本⽂件也包括类别信息。

今天，在互联⽹的背景下⾃动化的⽂本分类被⼴泛的应⽤于，包括⽂本检索，垃圾邮件过滤，⽹页分层⽬录，⾃动⽣成元数据，题材检测，以及许多其他的应⽤领域，是⽂本挖掘最基础也是应⽤最⼴范的核⼼技术。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

向量空间模型中TFIDF权值公式的修正
TFIDF公式是向量空间模型中应用比较成功的计算特征项权值的方法。

研究发现，该公式忽略了特征项在文本集的分布比例和离散程度这两个影响特征项对文本表示贡献度的重要因素。

为此，本文构造了一个平衡因子BF，并将其加权到TFIDF公式中，得到了修正后的公式M-TFIDF。

简单数值例子和中文文本聚类实验都表明，M-TFIDF公式保留了TFIDF公式的优点并弥补了其缺陷，提高了向量空间模型对文本集的表示性能。

标签：向量空间模型词频倒排文档频VSM TFIDF
对于文本信息处理，有三类经典的模型，它们分别是布尔模型、概率模型和向量空间模型[1]，[2]。

在这三类经典模型基础上又衍生出一些扩展模型，如模糊集模型[3]、扩展的布尔模型[4]，神经网络模型[5]、Bayesian信念网络[6]，[7] 、潜在语义索引（LSI）模型[8-10]等。

其中，向量空间模型以其较强的可计算性和可操作性而被广泛应用于文本检索、自动文摘、关键词自动提取、文本聚类和分类、文本过滤和搜索引擎等各项应用中，并且取得了较好的效果。

向量空间模型中如何计算特征项权值是个基础和重要的内容。

历史上曾出现多种计算权值的公式，它们通常是词频（特征项频率）的函数，其中比较著名的是由Salton[11]在1988年提出的TFIDF函数，在随后的应用中，为了消除文本长度的影响，往往采用归一化（标准化）的TFIDF，即本文所指的TFIDF公式。

本文将对TFIDF 公式作进一步的修正。

1向量空间模型与TFIDF公式简介[1，2，11]
向量空间模型的基本思想是以向量来表示文本，文本空间被看作是一组正交词条向量所组成的向量空间，每个文档表示为其中一个规范化特征向量，以项权值（权重）作为文档向量的属性值。

其数学描述如下：
其便于计算的形式是
结果见表6。

由表6可见，采用修正的TFIDF公式即M-TFIDF公式计算权值，使得聚类结果的召回率、准确率以及F值得到明显提高。

权值公式的修正对聚类结果的准确性有明显帮助。

总之，通过实验的结果和分析可以看出，不管用SV值分析还是用召回率、准确率、F值分析，都可以证明用M-TFIDF替代TFIDF公式计算权值，会提高文本聚类的结果的可靠性和准确性。

同样，我们完全有理由推测，M-TFIDF权值公式可以很好的应用于包含文本聚类在内所有基于向量空间模型的文本挖掘领域。

4小结
本文的主要工作是对向量空间模型中用于计算特征项权值的TFIDF公式进行修正。

基于分布比例高的特征项具有较高的贡献度和特征项在文本集中分布越离散则代表性越强这两方面的考虑，本文构造了一个平衡因子BF，并将其加权到TFIDF公式中，得到了修正后的公式M-TFIDF。

简单数值例子和中文文本聚类实验都表明，M-TFIDF公式保留了TFIDF公式的优点并弥补了其缺陷，提高了向量空间模型对文本集的表示性能。

参考文献
[1] G.Salton，M.J.McGill.Introduction to Modern Information Retrieval.McGraw-Hill，New York，1983.
[2] Tsau Young Lin ，I-Jen Chiang.A simplicial complex，a hypergraph，structure in the latent semantic space of document clustering. International Journal of Approximate Reasoning . 2005，40.55-80.
[3] 张玉连，张敏，张波. 一种扩展的向量空间模型-隐含语义索引模型研究. 燕山大学学报，2006，1，V ol.30，No.1，87-90. [4].
[4] 耿焕同，陈少军. 一种基于传统VSM和词共现概念的中文文本聚类的研究. 安徽师范大学学报（自然科学版），2005，3，V ol.28.No.1，27-30.
[5] 马辉民，李卫华，吴良元. VSM在中文文本聚类中的应用及实证分析. 武汉理工大学学报o信息与管理工程版. 2006，4，V ol.28，No.4，56-60.。