文本特征提取方法
文本特征提取的步骤

文本特征提取是将文本数据转换为可以用于机器学习模型的特征向量的过程。
这个过程通常包括以下步骤:
1. 数据预处理:包括文本清洗(去除无关字符、纠正错误等)、分词(将文本分解为单词或词汇单元)、去除停用词(删除常见的无意义词汇,如“的”、“和”、“是”等)以及词干提取或词形还原(减少单词到其基本形式)。
2. 特征选择:确定哪些词汇或短语对于建模来说是重要的。
这可以通过各种方法来实现,如词频统计、TF-IDF(词频-逆文档频率)、文本聚类等。
3. 特征表示:将选定的特征转换为机器学习算法可以处理的格式。
这可能包括词向量(如Word2Vec、GloVe等)、n-gram特征(如二元语法、三元语法等)、或者更复杂的表示如深度学习模型产生的特征。
4. 特征编码:将文本特征转换为数值型特征向量。
这通常涉及到维度缩放(如标准化或归一化)和独热编码(one-hot encoding)等方法。
5. 模型训练前的准备:可能包括划分训练集和测试集、处理不平衡数据集、以及进行任何必要的数据增强。
6. 模型训练与验证:使用提取的特征来训练机器学习模型,并通过交叉验证等方法来评估模型的性能。
7. 特征优化:根据模型在训练和验证过程中的表现,可能需要回到前面的步骤中进行调整,以优化特征提取过程和模型的性能。
文本特征提取方法

文本特征提取方法文本特征提取是NLP(自然语言处理)中的一项重要任务,它的目标是将文本数据转化为计算机可以处理的数值形式,以便于后续的分析和建模。
文本特征提取方法可以分为两大类:基于统计的方法和基于深度学习的方法。
下面将详细介绍这两大类方法以及它们的一些常用技术。
一、基于统计的方法基于统计的方法是一种经典的文本特征提取方法,它通过对文本数据进行统计分析,提取出一些有用的特征。
以下是几种常见的基于统计的特征提取方法:1.特征词频统计特征词频统计是一种简单有效的文本特征提取方法。
它通过统计文本中每个词出现的次数,并将其作为特征。
常用的统计方法有词频(TF)和逆文档频率(IDF)。
TF表示词在文本中出现的频率,IDF表示词在整个语料库中的重要性。
可以通过TF-IDF的方式计算词的特征值,更准确地反映词的重要性。
2. N-gram模型N-gram模型是一种基于统计的特征提取方法,它考虑了词之间的上下文关系。
N-gram模型将文本分割为连续的N个词或字符,统计每个N-gram的出现次数,并将其作为特征。
N-gram模型在语言模型、句子相似度计算等任务中有广泛应用。
3.词袋模型词袋模型是一种简化的特征提取方法,它将文本看作是一个词的集合,忽略了词的顺序和上下文关系。
词袋模型将文本表示为一个向量,向量的每个元素表示一个词,并统计该词在文本中的出现次数或权重。
词袋模型在文本分类、情感分析等任务中常被使用。
二、基于深度学习的方法近年来,深度学习的快速发展为文本特征提取带来了新的方法和思路。
基于深度学习的方法能够自动地学习和表示文本的特征,具有更强的表达能力。
以下是几种常见的基于深度学习的特征提取方法:1. Word2VecWord2Vec是一种基于深度学习的词嵌入技术,它将词映射到一个低维向量空间中,使得具有相似语义的词在向量空间中距离较近。
Word2Vec可以通过训练一个神经网络模型来学习词向量,这些词向量可以作为文本的特征。
文本分类及其特征提取

文本分类及其特征提取文本分类是指根据文本的内容、主题或语义将文本划分到不同的预定义类别中,是自然语言处理领域的一个重要任务。
文本分类在许多应用中都有着广泛的应用,如垃圾邮件过滤、情感分析、新闻分类、文档归档等。
在进行文本分类任务时,常常需要进行特征提取,提取文本中的关键信息以帮助分类器更好地进行分类。
特征提取是文本分类的关键步骤之一,其目的是将原始的文本数据转化为机器学习算法能够理解和处理的向量表示。
下面将介绍几种常用的文本分类方法及其特征提取方式:1.词袋模型词袋模型是文本分类中最常用的特征表示方法之一、该模型将文本看作是一个由词语组成的无序集合,通过统计文本中每个词语的频率或者权重来表示文本的特征。
常见的词袋模型包括TF-IDF(Term Frequency-Inverse Document Frequency)和词频统计。
- TF-IDF是一个常用的特征表示方法,它考虑了词语在文本中的重要性。
TF(Term Frequency)表示词语在文本中出现的频率,IDF (Inverse Document Frequency)表示词语在整个文本语料库中的重要性。
TF-IDF的值可以通过TF和IDF的乘积来计算。
-词频统计是指直接统计词语在文本中的出现次数。
将文本转化为词频向量后,可以使用机器学习算法(如朴素贝叶斯、支持向量机等)进行分类。
2. Word2VecWord2Vec是一种将词语转化为向量表示的方法,能够将词语的语义信息编码到向量中。
Word2Vec根据词语的上下文关系学习得到词向量空间,通过计算词语之间的距离或者相似性来表示词语的特征。
- CBOW(Continuous Bag-of-Words)模型根据上下文预测中心词,从而学习得到词向量。
- Skip-gram模型则根据中心词预测上下文词,同样可以得到词向量。
Word2Vec的特点是能够很好地捕捉到词语之间的语义关系,例如可以通过词向量的加减法来进行类比推理操作。
文本特征提取的常用方法

文本特征提取的常用方法在自然语言处理领域,文本特征提取是一个非常重要的工作。
通过对文本的特征进行提取,可以帮助机器学习算法更好地理解和处理文本数据。
本文将介绍文本特征提取的常用方法,包括词袋模型、TF-IDF、词嵌入等。
词袋模型词袋模型是最简单也是最常用的文本特征提取方法之一。
它将一段文本看作一个袋子,里面装着各种词汇。
在词袋模型中,文本中的每个词都被视为一个特征,而文本的特征向量则由词汇表中每个词的出现次数构成。
这种方法简单直观,适用于许多文本分类和聚类任务。
TF-IDFTF-IDF(Term Frequency-Inverse Document Frequency)是一种用于衡量词汇在文本中重要程度的方法。
它通过结合词汇在文本中的频率和在语料库中的稀有程度来计算权重。
具体来说,TF-IDF值由词汇在文本中的词频和在语料库中的逆文档频率两部分组成。
这种方法能够帮助过滤掉常见词汇,突出文本中的重要信息。
词嵌入词嵌入是一种将词汇映射到一个低维空间的方法,通常用于构建词汇的向量表示。
通过词嵌入,文本中的词汇可以被表示为一个稠密向量,其中每个维度代表了词汇的某种语义特征。
这种方法在自然语言处理任务中得到了广泛应用,比如文本分类、情感分析等。
主题建模主题建模是一种通过发现文本中潜在主题结构来进行特征提取的方法。
其中,最常用的主题模型是潜在狄利克雷分布(Latent Dirichlet Allocation,简称LDA)。
LDA模型能够将文本中的词汇归纳为不同的主题,从而帮助理解文本的语义信息。
深度学习方法除了传统的特征提取方法外,近年来深度学习方法在文本特征提取方面也取得了很大的进展。
比如,基于卷积神经网络(CNN)和循环神经网络(RNN)的文本表示模型能够学习到文本中丰富的语义特征,从而在文本分类、情感分析等任务中取得了很好的效果。
结语文本特征提取是自然语言处理中的一个重要环节,不同的文本特征提取方法适用于不同的任务和场景。
文本 特征 提取 算法

文本特征提取算法文本特征提取算法是自然语言处理领域的重要研究方向之一。
在文本处理过程中,为了将文本转化为可供机器学习或其他算法处理的特征表示,需要进行特征提取。
本文将介绍几种常用的文本特征提取算法,并分析它们的优缺点。
首先,常用的文本特征提取算法之一是词袋模型。
词袋模型将文本看作是由词汇表中的词组成的集合,忽略了词序和语法等信息。
它通过统计每个词在文本中出现的次数或频率来表示文本特征。
词袋模型简单且易于实现,但无法捕捉词语之间的关系,因此在处理语义信息时存在局限性。
其次,n-gram模型是一种常见的文本特征提取算法。
n-gram模型通过考虑相邻词之间的关系,将文本表示为n个连续词的序列。
常用的是2-gram和3-gram模型,即考虑相邻两个或三个词的组合。
n-gram模型可以在一定程度上捕捉词语之间的语义关联,但对于长文本和高维特征空间的数据处理效果较差。
此外,TF-IDF(Term Frequency-Inverse Document Frequency)是另一种常用的文本特征提取算法。
TF-IDF通过计算词频和逆文档频率来评估词语在文本中的重要性。
词频指的是某个词在文本中出现的次数,而逆文档频率则是所有文本中包含该词的文档数的倒数的对数。
TF-IDF可以较好地捕捉到词语的重要性和区分能力,常用于信息检索和文本分类等任务。
最后,基于词向量的文本特征提取算法也在近年来得到广泛应用。
词向量是将词语表示为实数向量的一种方法,可以通过训练神经网络模型或使用预训练的词向量模型来获取。
基于词向量的文本表示方法能够克服传统方法中的一些问题,如词语维度灾难和语义表示能力不足等。
综上所述,文本特征提取算法在自然语言处理中起着重要作用。
词袋模型、n-gram模型、TF-IDF和基于词向量的方法都有各自的特点和适用场景。
在实际应用中,根据具体任务和数据特点选择合适的算法是关键。
通过合理选择和结合多种特征提取算法,可以提取出更全面、准确的文本特征,为后续的文本处理和分析任务提供有力支持。
简述文本特征提取的主要思路和步骤。

简述文本特征提取的主要思路和步骤。
文本特征提取是指从文本数据中提取出有代表性的特征信息,以便用于文本分类、信息检索、情感分析等自然语言处理任务。
其主要思路是将文本转化为计算机能够理解和处理的数值型特征。
下面是文本特征提取的主要步骤:1. 分词:将文本按照一定的规则分割成单个词语。
分词是文本特征提取的基础步骤,常用的分词工具有jieba、NLTK等。
2. 去停用词:去除常用词汇,如“的”、“是”、“了”等,这些词在文本中频繁出现,但对文本内容没有实际意义。
3. 提取词干或词形:将词语还原为其原始的词根形式或规范化的形式。
例如,“running”可以还原为“run”。
4. 构建词典:根据文本中出现的词频统计,构建一个词典,将每个词映射到一个唯一的整数标识。
5. 特征表示:使用词袋模型(Bag-of-Words)或TF-IDF(Term Frequency-Inverse Document Frequency)模型将文本转化为数值特征。
a. 词袋模型:将文本表示为每个词在文本中出现的次数。
例如,一段文本"the cat is black"可以表示为一个向量[1, 1, 1, 1, 0, 0],其中对应的词为["the", "cat", "is", "black", "dog", "house"]。
b. TF-IDF模型:考虑每个词的在文本集合中的重要性。
TF表示词频,IDF表示逆文本频率,TF-IDF值是词频和逆文本频率的乘积。
TF-IDF的主要思路是,一些在当前文本中频繁出现的词汇可能对判断文本的内容没有帮助,而那些在文本集合中罕见但在当前文本中频繁出现的词汇,可能具有更重要的意义。
6. 特征选择:根据特征的信息增益、卡方检验、互信息等方法,选择最具有代表性和区分度的特征词。
文本特征提取的常用方法(Ⅰ)

文本特征提取的常用方法文本特征提取是自然语言处理中的关键步骤,它将文本数据转化为可供机器学习算法使用的特征。
在处理大规模的文本数据时,有效的特征提取方法可以显著提高算法的性能。
本文将介绍一些常用的文本特征提取方法,并分析它们的优缺点。
词袋模型词袋模型是文本特征提取中最常用的方法之一。
它将文本表示为一个词汇表和每个词在文本中出现的次数。
这种方法忽略了词语的顺序和语法结构,只关注词语的频率。
词袋模型简单直观,适用于大规模文本数据的处理。
然而,它无法捕捉词语之间的语义关系,且对于停用词的处理效果不佳。
TF-IDFTF-IDF(Term Frequency-Inverse Document Frequency)是一种常用的文本特征提取方法,它综合考虑了词语在文本中的频率和在语料库中的频率。
TF-IDF 通过计算词语在文本中的频率和在整个语料库中的频率来衡量其重要性,进而为每个词语赋予一个权重。
TF-IDF考虑了词语的频率和普遍性,能更好地区分文本之间的差异,适用于文本分类和聚类等任务。
词嵌入词嵌入是一种将词语映射到低维向量空间的方法。
通过词嵌入,词语之间的语义关系可以在向量空间中得到体现,例如相似的词语在向量空间中会有相近的表示。
词嵌入方法如Word2Vec和GloVe在自然语言处理领域取得了巨大的成功,它们不仅可以用于文本特征提取,还可以用于词义相似度计算、文本生成等任务。
N-gram模型N-gram模型是一种基于词语序列的文本特征提取方法。
N-gram模型将文本表示为连续的n个词语组成的序列,通过统计不同的n-gram出现的频率来构建特征。
N-gram模型能够捕捉词语之间的局部顺序信息,适用于词语出现顺序对文本含义影响较大的任务。
然而,N-gram模型需要考虑词语序列的长度和窗口大小,且对于稀疏的文本数据效果不佳。
深度学习方法近年来,随着深度学习的发展,基于神经网络的文本特征提取方法也得到了广泛的应用。
文本特征提取方法

文本特征提取方法文本特征提取是自然语言处理(Natural Language Processing, NLP)中的重要任务之一,其目的是从文本数据中提取有意义的信息,以便用于各种文本分析任务,如情感分析、文本分类、信息检索等。
下面我将介绍几种常用的文本特征提取方法。
1. 词频(Term Frequency, TF):将文本表示为每个单词在文档中出现的频率。
对于一个给定的文档,计算每个单词在文档中出现的次数,并将其归一化,得到每个单词的词频。
2. 逆文档频率(Inverse Document Frequency, IDF):衡量单词对于整个文本集合的重要性。
该方法通过计算一个单词在文档集合中出现的文档数量与总文档数的比值的倒数,来表示单词的重要程度。
3. 词袋模型(Bag-of-Words, BoW):将文本表示为单词的集合,忽略单词在文档中的顺序。
该方法通过统计每个单词在文档中出现的次数,将文本表示为一个向量。
4. n-gram 模型:通过考虑相邻单词的组合来建模文本。
n-gram 模型将文本表示为连续的 n 个单词的集合。
例如,2-gram 模型(也称为bigram 模型)将文本表示为相邻两个单词的组合。
n-gram 模型捕捉了单词之间的语义信息和上下文关系。
5.TF-IDF模型:是将词频和逆文档频率的方法结合起来,用于表示文本的重要度。
通过将词频乘以逆文档频率,得到一个单词的TF-IDF值,表示其在文档中的重要性。
6. 主题模型(Topic Model):通过概率模型将文本表示为一组主题(topic)的分布。
主题模型用于发现文本中的主题,并用于文本的表示和聚类。
7. 单词嵌入(Word Embedding):将单词映射到一个低维向量空间,以表示其语义信息。
单词嵌入方法如 Word2Vec 和 GloVe 通过学习上下文关系,将语义相近的单词映射到彼此相邻的向量。
8.文本结构特征:除了单词级别的特征,还可以考虑文本的结构信息。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
/u2/80678/showart_1931389.html一、课题背景概述文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。
文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。
文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。
传统数据挖掘所处理的数据是结构化的,而文档(web)都是半结构或无结构的。
所以,文本挖掘面临的首要问题是如何在计算机中合理地表示文本,使之既要包含足够的信息以反映文本的特征,又不至于过于复杂使学习算法无法处理。
在浩如烟海的网络信息中,80%的信息是以文本的形式存放的,WEB文本挖掘是WEB内容挖掘的一种重要形式。
文本的表示及其特征项的选取是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。
将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。
使计算机能够通过对这种模型的计算和操作来实现对文本的识别。
由于文本是非结构化的数据,要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。
目前人们通常采用向量空间模型来描述文本向量,但是如果直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维,那么这个向量的维度将是非常的大。
这种未经处理的文本矢量不仅给后续工作带来巨大的计算开销,使整个处理过程的效率非常低下,而且会损害分类、聚类算法的精确性,从而使所得到的结果很难令人满意。
因此,必须对文本向量做进一步净化处理,在保证原文含义的基础上,找出对文本特征类别最具代表性的文本特征。
为了解决这个问题,最有效的办法就是通过特征选择来降维。
目前有关文本表示的研究主要集中于文本表示模型的选择和特征词选择算法的选取上。
用于表示文本的基本单位通常称为文本的特征或特征项。
特征项必须具备一定的特性:1)特征项要能够确实标识文本内容;2)特征项具有将目标文本与其他文本相区分的能力;3)特征项的个数不能太多;4)特征项分离要比较容易实现。
在中文文本中可以采用字、词或短语作为表示文本的特征项。
相比较而言,词比字具有更强的表达能力,而词和短语相比,词的切分难度比短语的切分难度小得多。
因此,目前大多数中文文本分类系统都采用词作为特征项,称作特征词。
这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算。
如果把所有的词都作为特征项,那么特征向量的维数将过于巨大,从而导致计算量太大,在这样的情况下,要完成文本分类几乎是不可能的。
特征抽取的主要功能是在不损伤文本核心信息的情况下尽量减少要处理的单词数,以此来降低向量空间维数,从而简化计算,提高文本处理的速度和效率。
文本特征选择对文本内容的过滤和分类、聚类处理、自动摘要以及用户兴趣模式发现、知识发现等有关方面的研究都有非常重要的影响。
通常根据某个特征评估函数计算各个特征的评分值,然后按评分值对这些特征进行排序,选取若干个评分值最高的作为特征词,这就是特征抽取(Feature Selection)。
特征选取的方式有4种:(I)用映射或变换的方法把原始特征变换为较少的新特征;(2)从原始特征中挑选出一些最具代表性的特征;(3)根据专家的知识挑选最有影响的特征;(4)用数学的方法进行选取,找出最具分类信息的特征,这种方法是一种比较精确的方法,人为因素的干扰较少,尤其适合于文本自动分类挖掘系统的应用。
随着网络知识组织、人工智能等学科的发展,文本特征提取将向着数字化、智能化、语义化的方向深入发展,在社会知识管理方面发挥更大的作用。
二、文本特征向量经典的向量空间模型(VSM: Vector Space Model)由Salton等人于60年代提出,并成功地应用于著名的SMART文本检索系统。
VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。
当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。
文本处理中最常用的相似性度量方式是余弦距离。
文本挖掘系统采用向量空间模型,用特征词条(T1 ,T2 ,…Tn) 及其权值Wi 代表目标信息,在进行信息匹配时,使用这些特征项评价未知文本与目标样本的相关程度。
特征词条及其权值的选取称为目标样本的特征提取,特征提取算法的优劣将直接影响到系统的运行效果。
设D为一个包含m个文档的文档集合,Di为第i个文档的特征向量,则有D={D1,D2,…,Dm},Di=(di1,di2,…,din),i=1,2,…,m其中dij(i=1,2,…,m;j=1,2,…,n)为文档Di中第j个词条tj的权值,它一般被定义为tj在Di中出现的频率tij的函数,例如采用TFIDF函数,即dij=tij*log(N/nj)其中,N是文档数据库中文档总数,nj是文档数据库含有词条tj的文档数目。
假设用户给定的文档向量为Di,未知的文档向量为Dj,则两者的相似程度可用两向量的夹角余弦来度量,夹角越小说明相似度越高。
相似度的计算公式如下:通过上述的向量空间模型,文本数据就转换成了计算机可以处理的结构化数据,两个文档之间的相似性问题转变成了两个向量之间的相似性问题。
三、基于统计的特征提取方法(构造评估函数)一、各种流行算法这类型算法通过构造评估函数,对特征集合中的每个特征进行评估,并对每个特征打分,这样每个词语都获得一个评估值,又称为权值。
然后将所有特征按权值大小排序,提取预定数目的最优特征作为提取结果的特征子集。
显然,对于这类型算法,决定文本特征提取效果的主要因素是评估函数的质量。
1、TF-IDF:单词权重最为有效的实现方法就是TF*IDF, 它是由Salton在1988 年提出的。
其中TF 称为词频, 用于计算该词描述文档内容的能力; IDF 称为反文档频率, 用于计算该词区分文档的能力。
TF*IDF 的指导思想建立在这样一条基本假设之上: 在一个文本中出现很多次的单词, 在另一个同类文本中出现次数也会很多, 反之亦然。
所以如果特征空间坐标系取TF 词频作为测度, 就可以体现同类文本的特点。
另外还要考虑单词区别不同类别的能力, TF*IDF 法认为一个单词出现的文本频率越小, 它区别不同类别的能力就越大, 所以引入了逆文本频度IDF 的概念, 以TF 和IDF 的乘积作为特征空间坐标系的取值测度。
TFIDF 法是以特征词在文档d中出现的次数与包含该特征词的文档数之比作为该词的权重,即其中, Wi表示第i个特征词的权重,TFi(t,d)表示词t在文档d中的出现频率,N表示总的文档数,DF(t)表示包含t的文档数。
用TFIDF算法来计算特征词的权重值是表示当一个词在这篇文档中出现的频率越高,同时在其他文档中出现的次数越少,则表明该词对于表示这篇文档的区分能力越强,所以其权重值就应该越大。
将所有词的权值排序, 根据需要可以有两种选择方式:( 1) 选择权值最大的某一固定数n 个关键词;( 2) 选择权值大于某一阈值的关键词。
一些实验表示,人工选择关键词, 4∽7 个比较合适, 机选关键词10∽15 通常具有最好的覆盖度和专指度。
TFIDF算法是建立在这样一个假设之上的:对区别文档最有意义的词语应该是那些在文档中出现频率高,而在整个文档集合的其他文档中出现频率少的词语,所以如果特征空间坐标系取TF词频作为测度,就可以体现同类文本的特点。
另外考虑到单词区别不同类别的能力,TFIDF法认为一个单词出现的文本频数越小,它区别不同类别文本的能力就越大。
因此引入了逆文本频度IDF的概念,以TF 和IDF的乘积作为特征空间坐标系的取值测度,并用它完成对权值TF的调整,调整权值的目的在于突出重要单词,抑制次要单词。
但是在本质上IDF是一种试图抑制噪音的加权,并且单纯地认为文本频数小的单词就越重要,文本频数大的单词就越无用,显然这并不是完全正确的。
IDF的简单结构并不能有效地反映单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能,所以TFIDF法的精度并不是很高。
此外,在TFIDF算法中并没有体现出单词的位置信息,对于Web文档而言,权重的计算方法应该体现出HTML的结构特征。
特征词在不同的标记符中对文章内容的反映程度不同,其权重的计算方法也应不同。
因此应该对于处于网页不同位置的特征词分别赋予不同的系数,然后乘以特征词的词频,以提高文本表示的效果。
2、词频方法(Word Frequency):词频是一个词在文档中出现的次数。
通过词频进行特征选择就是将词频小于某一闭值的词删除,从而降低特征空间的维数。
这个方法是基于这样一个假设,即出现频率小的词对过滤的影响也较小。
但是在信息检索的研究中认为,有时频率小的词含有更多的信息。
因此,在特征选择的过程中不宜简单地根据词频大幅度删词。
3、文档频次方法(Document Frequency):文档频数(Document Frequency, DF)是最为简单的一种特征选择算法,它指的是在整个数据集中有多少个文本包含这个单词。
在训练文本集中对每个特征计一算它的文档频次,并且根据预先设定的阑值去除那些文档频次特别低和特别高的特征。
文档频次通过在训练文档数量中计算线性近似复杂度来衡量巨大的文档集,计算复杂度较低,能够适用于任何语料,因此是特征降维的常用方法。
在训练文本集中对每个特征计算它的文档频数,若该项的DF 值小于某个阈值则将其删除,若其DF 值大于某个阈值也将其去掉。
因为他们分别代表了“没有代表性”和“没有区分度”2 种极端的情况。
DF 特征选取使稀有词要么不含有用信息,要么太少而不足以对分类产生影响,要么是噪音,所以可以删去。
DF 的优点在于计算量很小,而在实际运用中却有很好的效果。
缺点是稀有词可能在某一类文本中并不稀有,也可能包含着重要的判断信息,简单舍弃,可能影响分类器的精度。
文档频数最大的优势就是速度快,它的时间复杂度和文本数量成线性关系,所以非常适合于超大规模文本数据集的特征选择。
不仅如此,文档频数还非常地高效,在有监督的特征选择应用中当删除90%单词的时候其性能与信息增益和x2 统计的性能还不相上下。
DF 是最简单的特征项选取方法, 而且该方法的计算复杂度低, 能够胜任大规模的分类任务。
但如果某一稀有词条主要出现在某类训练集中,却能很好地反映类别的特征,而因低于某个设定的阈值而滤除掉,这样就会对分类精度有一定的影响。
4、互信息(Mutual Information):互信息衡量的是某个词和类别之间的统计独立关系,某个词t和某个类别Ci传统的互信息定义如下:互信息是计算语言学模型分析的常用方法,它度量两个对象之间的相互性。