文本分类的常见方法
用文本分类技术实现新闻分类和推荐

用文本分类技术实现新闻分类和推荐随着互联网时代的到来,人们获取信息的渠道越来越丰富,其中阅读新闻是人们获取信息的一个重要途径。
然而,在当前信息爆炸的时代,各类新闻的数量也在不断增加,如何从海量的新闻资讯中找到自己需要的信息,成为一个亟待解决的问题。
为此,新闻分类和推荐技术成为了人们自主选择阅读内容的一个重要方法。
一、文本分类的基本原理文本分类是一种基于机器学习的模型,通过对文本进行自动分类,实现自动化的智能分类和推荐功能。
基本原理是将文本中的内容与事先标注好的已有分类进行比较,根据相似度来确定要分类的文本属于哪一类。
二、新闻分类的分类方法(一)基于规则的分类方法基于规则的分类方法是指根据已经制定的规则,通过人工方式进行分类和筛选新闻。
这种方法的优点在于可以对分类的结果进行人工干预,减少错误率,但是期限长,效率低下。
(二)基于统计学习的分类方法基于统计学习的分类方法是指通过机器学习的方式,根据大量的已经分类文本,自动挖掘分类规则,进行分类和排版。
其优点在于可以实现自动化分类和排版,提高效率,减少错误率。
三、新闻推荐算法的分类(一)基于内容推荐算法基于内容推荐算法是指根据文本的内容相关性,来推荐用户感兴趣的新闻。
该算法主要利用文本相似度或者语义相似度的方法,计算不同新闻之间的相关性,推荐与用户兴趣相关的新闻。
该算法优点在于可以精准推荐用户感兴趣的内容,但是容易出现“信息茧房”现象,即推荐结果过于单一。
(二)基于人口学数据和用户历史行为的推荐算法基于人口学数据和用户历史行为的推荐算法是指综合用户的人口学数据、行为数据等,来预测用户喜好和感兴趣的内容。
该算法可以综合用户的偏好和行为,进行更加准确的新闻推荐。
该算法的优点是能够综合考虑用户的历史偏好和用户情况,推荐更加符合用户兴趣的新闻。
四、新闻分类和推荐技术的应用随着人们获取信息的途径越来越多,新闻分类和推荐技术得到广泛的应用。
在新闻客户端和网站中,新闻分类和推荐系统可以提高用户体验,优化用户阅读体验,帮助用户更好的获取所需信息。
网络舆情分析中的文本分类与情感分析模型研究

网络舆情分析中的文本分类与情感分析模型研究网络舆情分析是指通过对网络上的文本数据进行收集、整理、分析和挖掘,从而了解和把握网络舆情的动态变化和趋势,以及对舆情进行分类和情感分析的过程。
本文将对网络舆情分析中的文本分类与情感分析模型进行深入研究。
一、引言随着互联网的快速发展,人们在互联网上产生了大量的文本数据。
这些数据中蕴含着丰富的信息,可以用于了解人们对某一事件或话题的看法、态度以及情感倾向。
而网络舆情分析正是通过对这些文本数据进行分类与情感分析,从而帮助我们更好地理解和把握社会热点事件。
二、文本分类模型1. 传统机器学习方法传统机器学习方法在文本分类中已经取得了一定成果。
其中常用的方法包括朴素贝叶斯算法、支持向量机算法等。
这些方法通过构建特征向量表示每个样本,并将其输入到机器学习模型中进行训练和预测。
2. 深度学习方法随着深度学习技术的发展,深度神经网络在文本分类中也取得了显著的成果。
其中,卷积神经网络(CNN)和循环神经网络(RNN)是常用的模型。
CNN主要用于提取文本中的局部特征,而RNN则可以捕捉文本中的时序信息。
三、情感分析模型1. 词典情感分析词典情感分析是一种基于词典的方法,通过构建一个情感词典和一个程度副词词典来判断文本中每个单词所表达的情感倾向。
通过对每个单词进行情感得分计算,可以得到整个文本的情感倾向。
2. 基于机器学习方法基于机器学习方法的情感分析主要是将问题转化为一个二分类问题,通过训练一个二分类模型来判断文本是正面还是负面。
常用的机器学习算法包括朴素贝叶斯、支持向量机等。
3. 基于深度学习方法深度学习在情感分析中也取得了很大进展。
其中最常用的模型是长短时记忆网络(LSTM)和双向LSTM。
这些模型可以捕捉到文本中长距离依赖关系,并对整个句子进行情感分类。
四、研究进展与挑战1. 多模态情感分析随着社交媒体的发展,人们在文本外还产生了大量的图片、音频和视频数据。
因此,如何将文本与其他模态数据进行融合,进行多模态情感分析成为了一个重要的研究方向。
文本分类入门(十一)特征选择方法之信息增益

前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是很有效的特征选择方法。
但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而如何量化特征的重要性,就成了各种方法间最大的不同。
开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越高,该特征越应该被保留。
在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。
才因此先回忆一下信息论中有关信息量(就是“熵”)的定义。
说有这么一个变量X,它可能的取值有n 多种,分别是x1,x2,……,x n,每一种取到的概率分别是P1,P2,……,P n,那么X的熵就定义为:意思就是一个变量可能的变化越多(反而跟变量具体的取值没有任何关系,只和值的种类多少以及发生概率有关),它携带的信息量就越大(因此我一直觉得我们的政策法规信息量非常大,因为它变化很多,基本朝令夕改,笑)。
对分类系统来说,类别C是变量,它可能的取值是C1,C2,……,C n,而每一个类别出现的概率是P (C1),P(C2),……,P(C n),因此n就是类别的总数。
此时分类系统的熵就可以表示为:有同学说不好理解呀,这样想就好了,文本分类系统的作用就是输出一个表示文本属于哪个类别的值,而这个值可能是C1,C2,……,C n,因此这个值所携带的信息量就是上式中的这么多。
信息增益是针对一个一个的特征而言的,就是看一个特征t,系统有它和没它的时候信息量各是多少,两者的差值就是这个特征给系统带来的信息量,即增益。
系统含有特征t的时候信息量很好计算,就是刚才的式子,它表示的是包含所有特征时系统的信息量。
问题是当系统不包含t时,信息量如何计算?我们换个角度想问题,把系统要做的事情想象成这样:说教室里有很多座位,学生们每次上课进来的时候可以随便坐,因而变化是很大的(无数种可能的座次情况);但是现在有一个座位,看黑板很清楚,听老师讲也很清楚,于是校长的小舅子的姐姐的女儿托关系(真辗转啊),把这个座位定下来了,每次只能给她坐,别人不行,此时情况怎样?对于座次的可能情况来说,我们很容易看出以下两种情况是等价的:(1)教室里没有这个座位;(2)教室里虽然有这个座位,但其他人不能坐(因为反正它也不能参与到变化中来,它是不变的)。
高效处理文本数据的技巧和方法

高效处理文本数据的技巧和方法随着信息时代的到来,文本数据成为了我们生活中不可或缺的一部分。
无论是在工作中,学习中,还是日常生活中,我们都会频繁地接触到大量的文本数据。
而对于这些文本数据的处理,往往需要花费大量的时间和精力。
因此,如何高效地处理文本数据成为了许多人关注的焦点。
本文将探讨一些高效处理文本数据的技巧和方法,希望能够为大家提供一些有用的帮助。
一、数据清洗在处理文本数据之前,首先要进行数据清洗。
数据清洗是指对文本数据进行去噪、去重、去冗余等操作,以保证数据的质量和准确性。
常见的数据清洗方法包括:1.去除停用词停用词是指在文本中频繁出现但无实际意义的词语,如“的”、“了”、“是”等。
在处理文本数据时,去除停用词可以减少数据量,提高处理速度,同时也能够提高数据的质量。
2.去除特殊符号在文本数据中,常常包含各种特殊符号,如标点符号、换行符等。
在处理文本数据时,需要将这些特殊符号去除,以保证数据的整洁和准确性。
3.去重文本数据中可能包含大量重复的内容,需要进行去重操作,以减少数据量,提高处理效率。
4.词干提取词干提取是指将词语的词干提取出来,如将“running”提取为“run”,以减少数据的冗余,提高数据的处理速度和准确性。
二、文本分词在处理文本数据时,常常需要对文本进行分词操作,将文本划分为词语。
文本分词是文本处理的基础操作,对文本数据的处理效率和准确性具有重要影响。
常见的文本分词方法包括:1.基于规则的分词空格、标点符号等划分词语。
这种方法简单易行,但对于复杂的文本数据效果不理想。
2.基于统计的分词基于统计的分词是指通过统计文本中词语的频率和位置等信息来进行分词,如使用TF-IDF算法来提取关键词。
这种方法对文本数据的处理效果较好,适用于处理复杂的文本数据。
3.基于机器学习的分词基于机器学习的分词是指利用机器学习算法来对文本进行分词,如使用神经网络来进行词语的分割。
这种方法适用于处理大规模、复杂的文本数据,具有较高的处理效率和准确性。
长文本处理算法

长文本处理算法是一种处理长文本数据的方法,主要用于从大量文本中提取有用的信息,如主题、情感、关键事件等。
以下是几种常见的长文本处理算法:
自然语言处理(NLP):NLP是一种让计算机理解和处理自然语言的技术。
通过分词、词性标注、句法分析、语义分析等手段,将文本转换为计算机可以理解和处理的形式。
主题模型:主题模型是一种基于概率的模型,用于从大量文本中提取主题。
常见的主题模型有LDA(潜在狄利克雷分布)和LSI(潜在语义索引)。
情感分析:情感分析也称为情感计算或情感智能,主要用于分析文本中所表达的情感。
情感分析可以采用基于规则的方法、机器学习算法(如朴素贝叶斯、支持向量机、神经网络等)或深度学习方法(如卷积神经网络、循环神经网络等)。
信息抽取:信息抽取是从文本中提取结构化信息的技术。
信息抽取通常包括实体识别、关系抽取、事件抽取等任务。
文本摘要:文本摘要是指从长文本中提取关键信息,并生成简洁的摘要。
常见的文本摘要方法有基于规则的方法、基于模板的方法和机器学习方法等。
文本分类:文本分类是指将文本分为不同的类别或标签。
常见的文本分类方法有基于规则的方法、朴素贝叶斯、支持向量机、神经网络等。
以上是几种常见的长文本处理算法,它们各自具有不同的特点和适用场景。
在实际应用中,可以根据具体需求选择适合的算法进行处理。
多标签文本分类 匹配方法 比赛方案

多标签文本分类匹配方法比赛方案在自然语言处理领域,多标签文本分类是一项具有挑战性的任务。
为了提高分类的准确性和效率,研究者们提出了各种各样的匹配方法和比赛方案。
本文将详细介绍多标签文本分类中的匹配方法以及一些典型的比赛方案。
一、多标签文本分类概述多标签文本分类是指在一个文本中同时存在多个标签,且这些标签之间具有一定的关联性。
与传统的单标签分类不同,多标签分类任务需要模型能够识别出文本中所有的相关标签。
例如,在新闻分类任务中,一篇文章可能同时属于“体育”、“娱乐”和“财经”等多个类别。
二、匹配方法在多标签文本分类任务中,匹配方法的选择至关重要。
以下是一些常见的匹配方法:1.基于集合的方法:将标签看作一个集合,通过计算文本与每个标签的相似度,选择相似度最高的标签集合作为预测结果。
常见的基于集合的方法有K 近邻(KNN)和基于聚类的分类方法。
2.基于规则的方法:通过预定义的规则对文本进行分类。
这些规则可以是基于词汇、语法或语义的。
例如,使用正则表达式或条件随机字段(CRF)进行分类。
3.基于模型的方法:利用机器学习模型对文本进行分类。
常见的模型包括朴素贝叶斯、支持向量机(SVM)、决策树、随机森林和深度学习方法(如卷积神经网络、循环神经网络等)。
4.基于注意力机制的方法:通过为文本中的不同部分分配不同的权重,提高分类的准确性。
注意力机制可以与深度学习模型结合使用,如基于注意力机制的卷积神经网络(ACNN)和基于注意力机制的循环神经网络(ARNN)。
5.基于图的方法:将文本表示为图结构,利用图神经网络(GNN)等模型进行分类。
三、比赛方案在多标签文本分类比赛中,参赛者通常会采用以下方案:1.数据预处理:对原始数据进行清洗、去重、分词等操作,提高数据质量。
2.特征工程:从文本中提取有助于分类的特征,如词袋模型、TF-IDF、词嵌入等。
3.模型选择与调优:根据任务特点选择合适的模型,并通过交叉验证等方法对模型参数进行调优。
文本分析方法
基于机器学习的方法பைடு நூலகம்
总结词
可扩展性强,准确度高
VS
详细描述
基于机器学习的方法利用大量标注过的文 本数据,训练模型进行情感判断。这种方 法可扩展性强,能够适应新出现的词汇和 表达方式,同时准确度也较高。但需要大 量标注数据和较高的计算资源。
06
信息抽取
命名实体识别
总结词
识别文本中的特定实体,如人名、地名、组织名等。
详细描述
TF-IDF(Term Frequency-Inverse Document Frequency)是一种常用的文本特征表示方法,它通过考虑一个 词在特定文档中的出现频率以及该词在所有文档中的普遍性来评估其重要性。TF-IDF值越高,表明该词在特定文 档中的重要性越高。
主题模型
总结词
基于概率模型的文本特征表示方法
应用场景
BERT广泛应用于各种自然语言处理任务,如问答、文本分类、命名实体识别等。
Transformer
概念
Transformer是一种基于自注意力机制的神经网络结构,可以处理序列数据并学习到文本 的上下文信息。
实现方式
Transformer由多个编码器和解码器组成,每个编码器和解码器都包含一个自注意力机制 和一个前馈神经网络。通过多层的堆叠,Transformer可以学习到文本的深层次表示。
05
情感分析
基于规则的方法
总结词
准确度高,但可扩展性差
详细描述
基于规则的方法通常依赖于人工制定的规则或模板, 对文本进行情感判断。这种方法准确度高,但对于新 出现的词汇或表达方式,难以进行有效的扩展。
基于词典的方法
总结词
简单易行,但准确度有限
详细描述
文本分析报告
文本分析报告引言文本分析是一种利用自然语言处理技术对大量文本数据进行处理、分析和挖掘的方法。
通过分析文本数据,可以从中提取出有用的信息,并帮助人们做出相应的决策或预测。
本文将介绍文本分析的基本原理、常用的文本分析方法以及其在不同领域的应用。
文本分析的原理文本分析的基本原理是通过自然语言处理技术将文本数据转换成机器可理解的形式,再基于这些表示形式进行后续的分析和挖掘。
文本分析可以包括以下几个基本步骤:1.数据预处理:包括去除噪声、分词、词性标注等处理,以便将文本数据转换成机器可理解的形式。
2.特征提取:从经过预处理后的文本数据中提取有用的特征,用于后续的分析和挖掘。
常用的特征包括词频、TF-IDF、词向量等。
3.分析和挖掘:基于提取的特征进行文本分类、情感分析、主题建模等分析和挖掘任务。
4.可视化和解释:将分析和挖掘的结果进行可视化展示,并解释其含义和结果。
常用的文本分析方法文本分类文本分类是指将文本数据划分到事先定义好的若干类别中。
常见的文本分类任务包括垃圾邮件过滤、情感分类等。
常用的文本分类方法包括朴素贝叶斯算法、支持向量机、深度学习等。
情感分析情感分析是指对文本数据进行情感倾向性判断的任务。
常见的情感分析任务包括判断一段文本是积极的还是消极的。
常用的情感分析方法包括情感词典、机器学习算法等。
关键词提取关键词提取是指从文本数据中自动抽取出具有代表性的关键词。
常用的关键词提取方法包括基于TF-IDF的方法、基于词共现的方法等。
主题建模主题建模是指从大量文本数据中抽取出潜在的主题或话题,并对文本进行聚类。
常用的主题建模方法包括潜在语义分析(LSA)、隐含狄利克雷分布(LDA)等。
文本分析在不同领域的应用金融领域在金融领域,文本分析被广泛应用于舆情分析、股票预测和风险控制等任务。
通过分析新闻报道、社交媒体评论等文本数据,可以获取市场情绪和投资者情绪等信息,从而辅助做出投资决策。
医疗保健领域在医疗保健领域,文本分析可应用于疾病预测、药物副作用监测等任务。
学习笔记:NLP概述和文本自动分类算法详解
学习笔记:NLP概述和⽂本⾃动分类算法详解感谢:https:///articles/2018-07-25-5⼀、 NLP 概述1.⽂本挖掘任务类型的划分⽂本挖掘任务⼤致分为四个类型:类别到序列、序列到类别、同步的(每个输⼊位置都要产⽣输出)序列到序列、异步的序列到序列。
同步的序列到序列的例⼦包括中⽂分词,命名实体识别和词性标注。
异步的序列到序列包括机器翻译和⾃动摘要。
序列到类别的例⼦包括⽂本分类和情感分析。
类别(对象)到序列的例⼦包括⽂本⽣成和形象描述。
2.⽂本挖掘系统整体⽅案达观数据⼀直专注于⽂本语义,⽂本挖掘系统整体⽅案包含了 NLP 处理的各个环节,从处理的⽂本粒度上来分,可以分为篇章级应⽤、短串级应⽤和词汇级应⽤。
篇章级应⽤有六个⽅⾯,已经有成熟的产品⽀持企业在不同⽅⾯的⽂本挖掘需求:垃圾评论:精准识别⼴告、不⽂明⽤语及低质量⽂本。
黄反识别:准确定位⽂本中所含涉黄、涉政及反动内容。
标签提取:提取⽂本中的核⼼词语⽣成标签。
⽂章分类:依据预设分类体系对⽂本进⾏⾃动归类。
情感分析:准确分析⽤户透过⽂本表达出的情感倾向。
⽂章主题模型:抽取出⽂章的隐含主题。
为了实现这些顶层应⽤,达观数据掌握从词语短串分析个层⾯的分析技术,开发了包括中⽂分词、专名识别、语义分析和词串分析等模块。
3.序列标注应⽤:中⽂分词同步的序列到序列,其实就是序列标注问题,应该说是⾃然语⾔处理中最常见的问题。
序列标注的应⽤包括中⽂分词、命名实体识别和词性标注等。
序列标注问题的输⼊是⼀个观测序列,输出的是⼀个标记序列或状态序列。
举中⽂分词为例,处理「结合成分⼦」的观测序列,输出「结合/成/分⼦」的分词标记序列。
针对中⽂分词的这个应⽤,有多种处理⽅法,包括基于词典的⽅法、隐马尔可夫模型(HMM)、最⼤熵模型、条件随机场(CRF)、深度学习模型(双向 LSTM 等)和⼀些⽆监督学习的⽅法(基于凝聚度与⾃由度)。
4.序列标注应⽤:NER命名实体识别:Named Entity Recognition,简称 NER,⼜称作「专名识别」,是指识别⽂本中具有特定意义的实体,主要包括⼈名、地名、机构名、专有名词等。
利用机器学习技术进行文本分类分析
利用机器学习技术进行文本分类分析随着信息技术的飞速发展,大量的文本信息被产生、存储和传播。
但是,这些文本信息的获取和利用带来了一定的挑战。
文本分类分析是一种处理大量文本信息的方法,它可以将文本自动分类并分配到特定的类别中。
这种技术可以提高文本信息的处理效率和准确性,为许多应用领域带来了巨大的价值。
近年来,机器学习技术的进步使得文本分类分析变得更加普遍和有效,下面将具体介绍这种技术的原理、应用和优缺点。
首先,我们需要了解文本分类分析的基本原理。
文本分类分析是将文本自动分成不同的类别,这个过程包括两个主要步骤:训练和测试。
在训练阶段,分类器学习一个分类模型,将训练数据分成多个类别,并根据每个类别的特征来构建模型。
测试阶段是将测试数据输入分类器,并以分类器所学的模型为依据,将测试数据自动分类到不同的类别中。
在这个过程中,分类器需要对数据进行特征提取和处理,以便得出分类结果。
因此,分类器的性能与特征选择和处理方法密切相关。
数学模型是机器学习的核心。
在文本分类分析中,常用的模型包括朴素贝叶斯(Naive Bayes)、支持向量机(SVM)和决策树等。
朴素贝叶斯模型基于贝叶斯定理,将文本的特征分解为独立的假设。
支持向量机模型利用超平面将文本分离到不同的类别中。
决策树是一种可视化分类方法,其主要特征是通过树形结构来表示分类条件和分类结果。
这些模型都有各自的优缺点,我们需要根据具体情况选择合适的模型。
然后,让我们来谈谈文本分类分析的应用。
文本分类分析的应用非常广泛,如情感分析、垃圾邮件过滤、新闻归纳、主题分析和文本挖掘等。
情感分析是一种分类方法,主要用于分析文本中的情感色彩。
例如,我们可以使用情感分析来分析电影评论中的情感,从而预测观众的反应。
垃圾邮件过滤是另一个重要的应用,可以帮助我们过滤掉垃圾邮件并保护我们的邮箱安全。
最近,COVID-19 疫情的爆发导致新闻报道爆发,利用文本分类技术可以将新闻分类,以便公众更快地了解疫情和疫情相关的政策。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文本分类的过程:
(1) 选择训练文本。好的训练文本对分类器的最终结果起到至关重要的作用。
(2) 选择文本特征。 对训练样本和测试样本进行数据预处理,包括分词、去停用词、
消除噪音等。目前的文本分类研究,主要选取一些具有代表性的词、词组、短语来表示
文本。
(3) 建立文本表示模型。 为了便于计算机理解和计算相关的文本属性,需要对文本
进行表示,其中向量空间模型(Vector Space Model VSM)运用最为广泛。
(4) 选择分类方法。 文本分类的核心部分,不同的分类方法原理不同需要处理的数
据也不同。经典分类算法有朴素贝叶斯(Naive Bayes NB)、K-近邻(K-Nearest Neighbor KNN)、
决策树(Decision Tree DTree)、算数平均质心(Arithmetical Average Centroid AAC)、支持向
量机(Support Vector Machine SVM)。
(5) 分类结果的评估。 目前主流的评估标准准确率、召回率和F1值。
选择文本特征
我们需要将文档转换为计算机可以衡量、运算的形式。现在运用最广泛的形式:将文档
映射入向量空间。具体流程如图1。
张三说的确实在理。李四买了一张三角桌子。张三/说/的/确实/在理。
李四/买/了/一张/三角/桌子。
对中文文档进行分词
中文分词系统:盘古、Lucene
张三、在理
李四、三角、桌子
去除停顿词
在理、三角、桌子
特征项提取
评判的标准:信息增益、期望交叉熵
互信息、开放检验
这样就将一篇文章映射成了为了向量空间中的一个向量。在把文章都映射完成后,我们
可以根据自己不同的需求,在向量空间中进行运算。比如计算两篇文章的相似度:我们把向
量的起点都映射到原点,则我们可以比较向量的长度、向量的夹角、向量两个终点的距离等
等;我们还可以宏观的观察大量的向量在向量空间中的分布情况,对大量聚集在一起的向量
抽取它们的共性:计算他们的中心、他们整体的方向等。其实数学模型很好,只不过限于计
算机的存储、运算水平,向量空间的维度过高、文档数量过大、计算复杂度过高会使得模型
的计算机实现变得困难,我们不得不进行简化:向量空间维度降低、较低复杂度的计算分析
方法等等。而根据简化的合理程度,影响我们得到的结果质量。
向量空间的降维则需要进行特征项的筛选:筛选方法有五种:文档频率、信息增益、期
望交叉熵、互信息、开放检验。就好像在软件开发阶段越早引入缺陷后期的Bug数量越多一
样,上游的污染源造成的危害要大得多。如果我们要对数据源进行筛选,则筛选的规则一定
要是非常严谨合理的,正确的数据合理的算法才有可能得到好的结果。
文档频率Document Frequence特征在特征集中出现的文档数目过多,则不能很好的区
分不同的类别;特征在特征集中出现的文档数目过少,则它不具备很好的代表性。我们统计
单词的出现频率,将频率过高和过低的词语过滤掉。
信息增益
其中c表示文档类别t表示 特征项,描述的是在特征项t的前提下确定文档属于c的概
率,表征的是该文档使用特征项t来区分类别c的能力。(其实三项加和的首项不太明白什
么意思,而且在特征项的筛选阶段,即尚未计算分类的情况下文档类别c是怎么回事?)
这里首项表示整个事件的信息量,也可以认为它表示整个事件的未知程度,或者叫做消
除整个事件的位置性,需要的信息量,比如该事件有8种等可能的情况,则我们要确定该事
件具体出现哪种情况,则需要3的信息量;而若有两种等可能的情况,则要1的信息量。感
性来讲,2猜1,要比8猜1容易的多。
具体到公式,后边的对数部分表示信息的量化过程,说的是比如我们要表示两个数,需
要一位,而要表示八个数,需要3位;因为对数函数在 0~正无穷 是递增函数,但在0~1
之间函数值为负数,所以我们添加负号将值映射到 > 0区间。
这里互信息,表示知道某些条件之后,事情的不确定性降低的程度。衡量的是情报的优
劣。举个简单的例子,这就好像我们玩竞猜游戏,随着主持人对某件事情描述信息的增多,
我们渐渐可以准确判断某件事情,而主持人的描述信息中有些很关键,有些则相对平淡,这
里主持人的关键描述的互信息就比较高:因为可以很大程度消除事物的不确定性。
这里信息增益考虑的比较全面,它考虑了条件t发生和没有发生对整个事件的影响状况,
分为两部分,第一部分为条件t发生时,对整个事件的熵的影响;第二部分为确定条件t不
发生时,整个事件的熵。首先是让t发生之后,计算在t的条件下能够推断属于类别ci的概
率。这里具体到文本分类则为,特征项t的出现与否,在t出现后确定这篇文章属于类别c
的概率是多少。就是看t的出现对该文档属于哪一个类别的判定出现了哪些影响;并且信息
增益不仅考虑可相关情况,也考虑了负相关的状况,在t确定不出现时,它对该文档的类别
判定又能起到什么效果。这样综合考量t的效果。不过这里也有个问题就P(t)表示特征项的
出现与否可能并不合适,这里我们可以设置阈值,具体计算出现 > 某个次数我们认为它表
示出现。
至于特征项筛选中多次提到的类别c我们认为这是训练样本已知的,即有监督的分类,
我们将事先分类好的样本来训练分类器,期望能够训练出好的分类器。
期望交叉熵