文本特征提取技术03
文字特征提取

文字特征提取中文文字特征提取是一种将中文文本数据转换成能够被计算机机器学习、深度学习等算法处理的数值化表示的技术,可以为中文自然语言处理(NLP)任务提供有用的特征。
本文将讨论一些常用的中文文字特征提取方法。
1. 词频统计词频统计是中文文本数据最基本的特征提取方法之一,它将文本数据转换为包含每个单词(或汉字)在文本中出现次数的向量。
这种方法可以帮助识别文本中最常见的单词,但并不能体现单词之间的语义关系。
2. TF-IDFTF-IDF(term frequency-inverse document frequency)是一种基于词频统计的特征提取方法,它通过解决词频统计方法的缺点,即常见词汇无法提供有意义的区分能力,来提高对文本的表征能力。
TF-IDF通过计算单词在所有文档中出现的频率来对单词进行加权,从而将重点放在那些出现次数相对较少,但在某个文档中出现较多的单词上,这样可以更好地捕捉文本的主题。
3. n-gramn-gram是一种较为常用的文本特征提取方法,它能够捕捉到不同单词(或汉字)之间的关系。
n-gram将文本分成连续的多个长度为n的词组,每个词组被看作是一个单独的特征。
例如,在n=2时,句子“我爱中国”将被拆分成“我爱”、“爱中国”两个词组,这样就能够反映出两个单词之间的关系。
4. LDALDA(Latent Dirichlet Allocation)是一种基于概率的主题模型,它可以将文档视为多个主题的混合,其中每个主题又由多个单词组成。
通过LDA可以识别文档中隐藏的主题,从而提取更高层次的语义特征。
LDA主要用于主题建模和文本分类,是一种有价值的文本特征提取方法。
5. Word2VecWord2Vec是一种基于神经网络的文本特征提取方法,它可以将每个单词映射为一个固定维度的向量。
Word2Vec将单词上下文转换为向量的形式,并将相似的单词映射到接近的位置。
这种方法可以帮助捕捉单词之间的语义关系,如同义词和相似词之间的关系。
文本类数据的特征提取技术

文本类数据的特征提取技术在当今数字化时代,大量的文本数据被生成和存储。
为了从这些文本数据中获取有用的信息,我们需要将文本转化为可供机器理解和处理的形式。
而文本特征提取技术则是实现这一目标的重要手段。
所谓文本特征提取,就是将文本数据转化为数值或向量表示的过程。
通过提取文本的关键信息和特征,我们可以将文本数据应用于各种机器学习和自然语言处理任务,如文本分类、情感分析、信息检索等。
下面将介绍几种常用的文本特征提取技术。
1. 词袋模型(Bag of Words)词袋模型是最常见的文本特征提取技术之一。
它将文本看作是一个由词语组成的集合,忽略词语的顺序和语法结构,只关注词语的出现频率。
具体来说,词袋模型将每个文本表示为一个向量,向量的每个维度对应一个词语,数值表示该词语在文本中的出现次数或频率。
2. TF-IDF(Term Frequency-Inverse Document Frequency)TF-IDF是一种常用的文本特征权重计算方法。
它综合考虑了词频(Term Frequency)和逆文档频率(Inverse Document Frequency)两个因素,用于衡量一个词语在文本中的重要程度。
TF-IDF值越大,表示该词语对于整个文本集合的区分能力越强。
3. Word2VecWord2Vec是一种基于神经网络的词向量表示方法。
它将每个词语映射为一个固定长度的实数向量,使得具有相似语义的词语在向量空间中距离较近。
Word2Vec不仅考虑了词语的上下文关系,还能够捕捉到词语之间的语义相似性。
4. 主题模型(Topic Model)主题模型是一种用于发现文本数据隐藏主题结构的统计模型。
其中最著名的是潜在狄利克雷分配(Latent Dirichlet Allocation,简称LDA)模型。
LDA假设每篇文档由多个主题混合而成,每个主题又由多个词语组成。
通过训练LDA模型,可以得到每个文档的主题分布和每个主题的词语分布,从而实现对文本的主题建模和推断。
文本类数据的特征提取技术

文本类数据的特征提取技术随着信息技术的发展,文本数据的规模和重要性越来越大。
在各个领域中,如自然语言处理、文本分类、情感分析等,对文本数据的处理和分析具有重要的意义。
而文本数据的特征提取是文本分析和挖掘的基础,对于提取文本中的有效信息和特征具有关键作用。
文本数据的特征提取是将无结构的文本数据转化为结构化的特征向量的过程。
这样可以方便地对文本进行进一步的分析、建模和预测。
常用的文本特征提取技术有词袋模型、TF-IDF、词嵌入等。
词袋模型是一种非常基础和常用的文本特征提取方法。
它将文本看作是一个袋子,忽略了词序和语法等信息,只关注词汇的出现频率。
通过统计文本中每个词汇的出现次数或频率,将文本转化为一个词汇向量。
这个向量表示了文本中每个词汇的重要性和影响力。
TF-IDF是一种用于评估一个词语在文本中重要程度的统计方法。
它由词频(Term Frequency)和逆文档频率(Inverse Document Frequency)两个部分组成。
词频指的是一个词在文本中出现的频率,逆文档频率指的是一个词在整个文本集合中的普遍程度。
通过计算词频和逆文档频率,可以得到一个词语的TF-IDF值,用于表示这个词语在文本中的重要性。
词嵌入是一种将文本转化为向量表示的高级特征提取技术。
它通过将每个词语映射到一个低维向量空间中,使得词语之间的语义关系能够在向量空间中得到体现。
常用的词嵌入模型有Word2Vec和GloVe等。
这些模型通过学习大规模文本语料库中的词语上下文关系,得到每个词语的向量表示。
这样可以将文本中的词语转化为向量,方便计算和分析。
除了以上提到的特征提取技术,还有一些其他的方法和技术可以用于提取文本中的有效信息和特征。
例如,n-gram模型可以用于提取文本中的短语和连续词序列。
主题模型可以用于提取文本中的主题和话题信息。
情感分析模型可以用于提取文本中的情感倾向和情绪信息。
文本类数据的特征提取技术对于文本分析和挖掘具有重要意义。
文本特征提取方法

文本特征提取方法文本特征提取是NLP(自然语言处理)中的一项重要任务,它的目标是将文本数据转化为计算机可以处理的数值形式,以便于后续的分析和建模。
文本特征提取方法可以分为两大类:基于统计的方法和基于深度学习的方法。
下面将详细介绍这两大类方法以及它们的一些常用技术。
一、基于统计的方法基于统计的方法是一种经典的文本特征提取方法,它通过对文本数据进行统计分析,提取出一些有用的特征。
以下是几种常见的基于统计的特征提取方法:1.特征词频统计特征词频统计是一种简单有效的文本特征提取方法。
它通过统计文本中每个词出现的次数,并将其作为特征。
常用的统计方法有词频(TF)和逆文档频率(IDF)。
TF表示词在文本中出现的频率,IDF表示词在整个语料库中的重要性。
可以通过TF-IDF的方式计算词的特征值,更准确地反映词的重要性。
2. N-gram模型N-gram模型是一种基于统计的特征提取方法,它考虑了词之间的上下文关系。
N-gram模型将文本分割为连续的N个词或字符,统计每个N-gram的出现次数,并将其作为特征。
N-gram模型在语言模型、句子相似度计算等任务中有广泛应用。
3.词袋模型词袋模型是一种简化的特征提取方法,它将文本看作是一个词的集合,忽略了词的顺序和上下文关系。
词袋模型将文本表示为一个向量,向量的每个元素表示一个词,并统计该词在文本中的出现次数或权重。
词袋模型在文本分类、情感分析等任务中常被使用。
二、基于深度学习的方法近年来,深度学习的快速发展为文本特征提取带来了新的方法和思路。
基于深度学习的方法能够自动地学习和表示文本的特征,具有更强的表达能力。
以下是几种常见的基于深度学习的特征提取方法:1. Word2VecWord2Vec是一种基于深度学习的词嵌入技术,它将词映射到一个低维向量空间中,使得具有相似语义的词在向量空间中距离较近。
Word2Vec可以通过训练一个神经网络模型来学习词向量,这些词向量可以作为文本的特征。
文本分类及其特征提取

文本分类及其特征提取文本分类是指根据文本的内容、主题或语义将文本划分到不同的预定义类别中,是自然语言处理领域的一个重要任务。
文本分类在许多应用中都有着广泛的应用,如垃圾邮件过滤、情感分析、新闻分类、文档归档等。
在进行文本分类任务时,常常需要进行特征提取,提取文本中的关键信息以帮助分类器更好地进行分类。
特征提取是文本分类的关键步骤之一,其目的是将原始的文本数据转化为机器学习算法能够理解和处理的向量表示。
下面将介绍几种常用的文本分类方法及其特征提取方式:1.词袋模型词袋模型是文本分类中最常用的特征表示方法之一、该模型将文本看作是一个由词语组成的无序集合,通过统计文本中每个词语的频率或者权重来表示文本的特征。
常见的词袋模型包括TF-IDF(Term Frequency-Inverse Document Frequency)和词频统计。
- TF-IDF是一个常用的特征表示方法,它考虑了词语在文本中的重要性。
TF(Term Frequency)表示词语在文本中出现的频率,IDF (Inverse Document Frequency)表示词语在整个文本语料库中的重要性。
TF-IDF的值可以通过TF和IDF的乘积来计算。
-词频统计是指直接统计词语在文本中的出现次数。
将文本转化为词频向量后,可以使用机器学习算法(如朴素贝叶斯、支持向量机等)进行分类。
2. Word2VecWord2Vec是一种将词语转化为向量表示的方法,能够将词语的语义信息编码到向量中。
Word2Vec根据词语的上下文关系学习得到词向量空间,通过计算词语之间的距离或者相似性来表示词语的特征。
- CBOW(Continuous Bag-of-Words)模型根据上下文预测中心词,从而学习得到词向量。
- Skip-gram模型则根据中心词预测上下文词,同样可以得到词向量。
Word2Vec的特点是能够很好地捕捉到词语之间的语义关系,例如可以通过词向量的加减法来进行类比推理操作。
文本类型数据的特征提取以及相似度计算

文本类型数据的特征提取以及相似度计算随着信息技术的发展,文本数据不断增长,如何从大量的文本数据中提取有用的信息成为一项重要任务。
而文本特征提取和相似度计算是解决这一问题的关键步骤。
一、文本特征提取特征提取是将文本数据转化为计算机可以处理的数值向量的过程。
常用的文本特征提取方法有:1.词袋模型(Bag-of-Words):将文本看作是由词汇组成的集合,构建一个词汇表,然后统计每个词汇在文本中的出现频率。
这种方法忽略了词汇的顺序和语法结构,只关注词汇的频率。
2.TF-IDF:TF-IDF(Term Frequency-Inverse Document Frequency)是一种衡量词汇在文本中重要性的方法。
它通过计算词频和逆文档频率的乘积来衡量词汇在文本中的重要程度。
3.Word2Vec:Word2Vec是一种基于神经网络的词嵌入模型,可以将词汇映射到一个低维向量空间中。
这种方法能够捕捉词汇之间的语义关系,同时保留了词汇的语法结构。
二、相似度计算相似度计算是衡量文本之间相似程度的方法。
常用的相似度计算方法有:1.余弦相似度:余弦相似度是通过计算两个向量之间的夹角余弦值来衡量它们的相似程度。
在文本特征提取中,可以将文本表示为向量,然后计算它们之间的余弦相似度。
2.编辑距离:编辑距离是衡量两个字符串之间相似程度的方法。
它通过计算将一个字符串转换为另一个字符串所需的最少编辑操作次数来衡量它们的相似程度。
3.基于语义的相似度:基于语义的相似度是通过计算两个文本之间的语义距离来衡量它们的相似程度。
常用的方法有基于词向量的相似度计算和基于语义网络的相似度计算。
三、应用场景文本特征提取和相似度计算在许多领域都有广泛的应用。
以下是一些常见的应用场景:1.文本分类:通过提取文本的特征,并计算不同文本之间的相似度,可以实现文本的自动分类。
例如,可以将新闻文章分类为政治、经济、体育等不同类别。
2.信息检索:通过计算查询文本和文档之间的相似度,可以实现信息的准确检索。
文本分类中的特征提取和分类算法综述

文本分类中的特征提取和分类算法综述特征提取和分类算法是文本分类中非常重要的步骤,对于智能化应用和信息检索具有重要的意义。
本文将综述文本分类中常用的特征提取方法和分类算法,并对其优缺点进行分析和比较。
一、特征提取方法特征提取是将文本转化为计算机可识别的特征向量的过程。
下面介绍几种常用的特征提取方法:1. 词袋模型(Bag of Words):词袋模型将文本转换为一个包含词袋(词汇表)中所有单词的向量。
对于每个文档,词袋模型统计每个词在文档中的词频或词重。
这种方法简单有效,但忽略了文本中的语法和顺序信息。
2. N-gram模型:N-gram模型将文本分成N个连续的词组,统计每个词组的出现频率。
该方法考虑了词组的局部关系,能够捕捉文本中的一定的语序信息。
3.TF-IDF:TF-IDF(Term Frequency-Inverse Document Frequency)是一种基于词频和逆文档频率的特征提取方法。
它衡量了一个词在文档中的重要性,高频率出现且在整个语料库中稀有的词被认为具有较高的区分能力。
4.主题模型:主题模型通过对文档进行主题聚类,将文本转化为对应主题的概率分布向量。
主题模型可以提取文本中的语义信息,但参数估计较为困难。
5. Word2Vec:Word2Vec是一种基于神经网络的词嵌入模型,通过学习词的分布式表示。
Word2Vec可以捕捉词之间的语义相似性,提取更加丰富的特征。
二、分类算法分类算法是根据提取的特征向量对文本进行分类。
常用的分类算法包括:1.朴素贝叶斯分类器:朴素贝叶斯分类器基于贝叶斯定理和特征条件独立假设,计算每个类别的概率,并选择概率最大的类别作为分类结果。
朴素贝叶斯分类器简单高效,对于大规模数据集适用。
2.支持向量机:支持向量机通过寻找一个超平面,将不同类别的样本点分开。
它可以处理高维数据,具有较好的泛化性能。
3.决策树:决策树根据特征之间的关系构建一棵树型结构,通过比较特征值进行分类。
使用自然语言处理技术进行文本特征抽取

使用自然语言处理技术进行文本特征抽取自然语言处理(Natural Language Processing,简称NLP)是人工智能领域的一个重要分支,它致力于使计算机能够理解、处理和生成人类语言。
在现代社会中,大量的文本数据被产生和存储,如何从这些海量文本数据中提取有用的信息成为一个重要的问题。
而文本特征抽取作为NLP的一个重要任务,可以帮助我们从文本中挖掘出有意义的信息。
文本特征抽取是将文本数据转化为机器学习算法能够处理的数值特征的过程。
在进行文本特征抽取时,常用的方法包括词袋模型(Bag of Words)、TF-IDF、词嵌入(Word Embedding)等。
词袋模型是一种简单而常用的文本特征抽取方法。
它将文本看作是一个袋子,忽略了词语之间的顺序和语法结构,只关注词汇的出现频率。
词袋模型的基本思想是将每个文本表示为一个向量,向量的每个维度代表一个词语,而向量的值表示该词语在文本中的出现次数或者频率。
通过词袋模型,我们可以将文本转化为机器学习算法能够处理的数值特征,从而进行分类、聚类等任务。
TF-IDF(Term Frequency-Inverse Document Frequency)是一种常用的文本特征抽取方法,它综合考虑了词语在文本中的出现频率以及在整个语料库中的重要性。
TF-IDF的基本思想是,一个词语在文本中出现的频率越高,同时在整个语料库中出现的频率越低,那么它对于该文本的区分能力就越大。
通过计算每个词语的TF-IDF值,我们可以得到一组能够反映词语重要性的特征向量,从而进行文本分类、信息检索等任务。
词嵌入是一种将词语映射到低维向量空间的技术。
它通过学习词语之间的语义关系,将词语表示为具有语义信息的稠密向量。
词嵌入的基本思想是,具有相似语义的词语在向量空间中的距离应该更近。
通过词嵌入,我们可以将文本表示为一组连续的向量特征,这些特征能够更好地捕捉词语之间的语义关系,从而提高文本分类、情感分析等任务的性能。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
最容易实现,可扩展性好
非结构化数据分析 2018/10/6
文档频率
Baeza-Yates and Ribeiro-Neto(1990)研究表明,若 一个特征在语料集80%的文档中都出现了,它对于 分类来说是无意义的。这样的词语主要是指停用词 等,通过对这部分词语的压缩,可以使特征向量空 间压缩到原始的40%或者更多。 对于出现频率过低的词语,考虑到增加一个变量对 于现实带来的成本,一般不利用这样的词语,而是 尽可能少的选取其他词条。 Yang and Pedersen(1997)试验表明:在分类效果 没有变差的前提下将特征空间的维数约减为原来的 1/10是可能的,约减为1/100所带来的损失很小。
2018/10/6
低频词缺陷
只统计文档中是否出现词条T,却忽略了词条T 在文档中出现频率的信息,使得卡方检验对低 频词有所偏袒,这就夸大了低频词的作用。 如果某一特征只在一类文档中频繁出现,通过 卡方法计算出来的卡方统计量很低,在特征选 择时这种特征词就会被排除掉,但是这种在少 量文档中频繁出现的特征词很有可能对分类的 贡献很大,比如专指概念。
假设抓取了来自门户网站“经济”“娱乐”“科技” 三个版块各300篇文章,其中有一篇文章,共有100 个词,其中“粒子”“和”“应用”三个词分别出 现了 5次、35次和15次,我们想将该文档进行归类, 看它属于“经济”“娱乐”“科技”文档中的哪一 类。 初步分析认为,“粒子”、“应用”两个词应该对 文章分类的作用较大,而“和”对于文章的分析意 义不大。 更进一步的,如果目标是进行文档的归类, 有理由认为“粒子”一词对于该文章的归属的贡献 要高于“应用”。“应用”一词的专业性不及“粒 子”。
文档频率
基于DF的启发式要点
太频繁的词项没有区分度,
DF大于某个阈值去掉 太稀有的词项独立表达的类别信息不强 稀有词项的全局影响力不大 在训练集中,某些文档如果有某个稀有词项,它们 通常也会有一些常见词项(对那一类) 和通常信息获取观念有些抵触:稀有的更有代表性 (这是一种ad hoc方法,不依据什么理论)
非结构化数据分析
文本特征提取
2018/10/6
五校联合 大数据分析硕士培养
主要内容
文本表示 特征提取 特征权重
非结构化数据分析
2018/10/6
文本表示
第一讲:文本挖掘简介
非结构化数据分析 2018/10/6
文本表示及文本预处理
去掉html一些tag标记 停用词(stop words)去除、词根还原(stemming) (中文)分词、词性标注、短语识别、… 词频统计(TFIDF) 数据清洗:去掉噪声文档或文档内垃圾数据非结构Biblioteka 数据分析2018/10/6
那么偏差为:
非结构化数据分析
2018/10/6
χ2 统计量
非结构化数据分析
2018/10/6
χ2 统计量
卡方度量两者(term和类别)独立性的缺乏程度 χ2 越大,独立性越小,相关性越大 若AD<BC,则类和词独立, N=A+B+C+D
非结构化数据分析
Pmj U mj Pmj U mj
Qmj Vmj Qmj Vmj
Pmj Qmj U mj Vmj
I
IG j m1 p(Cm ) log p(Cm ) p(T j ) m1 p(Cm | T j ) log p(Cm | T j ) p(T j ) m1 p(Cm | T j ) log p(Cm | T j )
近年来,词性标注(POS-tagging)、词组组块(Phrase Chunking)、实体及关系
(Entities and Relationship )相关的研究也开展了很多,取得了很多可喜的成果,有兴趣的 读者可以参考后面所附的文献进行深入学习。
非结构化数据分析 2018/10/6
特征权重
非结构化数据分析
非结构化数据分析 2018/10/6
信息增益(Information Gain, IG)
该term为整个分类所能提供的信息量 特征项出现与否导致的熵的变化 考虑和不考虑特征的熵的差值
非结构化数据分析
2018/10/6
信息增益
特征选择 Tj 出现在文档中 Tj未出现在文档 总数 文档属于 Cm类 文档不属于 Cm类 总数
Eliminates noise features Avoids overfitting
非结构化数据分析 2018/10/6
特征提取思路
特征选择(Feature
Selection)
文档频率 信息增益 卡方统计量 互信息
特征重构(Re-parameterisation)
M M M
IG j m1
M
Pmj U mj I
M m 1
log
Pmj U mj I log U mj
P 1 j U1 j I
M m 1
Pmj Pmj Qmj
log
Pmj Pmj Qmj
V1 j U1 j I
U mj U mj Vmj
U mj Vmj
程度。
非结构化数据分析
2018/10/6
VSM示意图—数据结构化一般思路
特征词1 文档1 文档2 文档3 文档4 权重11 权重21 权重31 权重41 特征词2 权重12 权重22 权重32 权重42 特征词3 权重13 权重23 权重33 权重43 …… …… …… …… …… 特征词n 权重1n 权重2n 权重3n 权重4n
非结构化数据分析 2018/10/6
信息增益
信息量与变量可能的变化有关,跟变量具体的取值 没有任何关系,只和变量所取的种类多少以及发生 概率有关),种类和发生概率决定了信息量的大小。 Quinlan提到了这一点,信息增益的方法总是倾向 于选择有多种属性的特征。 只能考察特征对整个系统的贡献,而不能具体到某 个类别上,这就使得它只适合用来做所谓“全局”的 特征选择(指所有的类都使用相同的特征集合), 而无法做“局部”的特征选择(每个类别有自己的特 征集合,因为有的词,对这个类别很有区分度,对 另一个类别则无足轻重)。
非结构化数据分析 2018/10/6
χ2 统计量
基本思想
通过观察实际值与理论值的偏差来确定理论的正确与 否。假设两个变量确实是独立的,然后观察实际值与 理论值的偏差程度。 如果偏差足够小,认为误差是很自然的样本误差, 两者确实独立; 如果偏差大到一定程度,使得这样的误差不太可 能是偶然产生或者测量不精确所致,认为两者相 关。
潜在语义分析
非结构化数据分析
2018/10/6
文档频率(Document Frequency,DF)
文档频率(DF)指文本数据中包含某个词条的文档的个数。 通过文档频率进行特征选择就是按照文档频率的大小对词
条进行排序,将文档频率小于某一阈值的词删除,从而降
低特征空间的维数。
非结构化数据分析
2018/10/6
比较之下,使用词做特征成为一种更好的选择。词是中文语义的最小信息单位,词可 以更好的反映句子中的信息,但是分析难度也提升了。以中文文本为例,词与词之间
没有明确的分隔标记,计算机无法自动识别词语的边界,因此正确分词是这种表示方
法的关键。该方法比较常用。
非结构化数据分析
2018/10/6
文本表示注解
……
文档m
……
权重m1
……
权重m2
……
权重m3
……
……
……
权重mn
非结构化数据分析
2018/10/6
VSM示意图
相似度比较
内积计算
Cosine计算
非结构化数据分析
2018/10/6
文本表示注解
非结构化数据分析
2018/10/6
文本表示注解
用单个汉字(对应英语语系中的字符串)做特征,不考虑词语的含义。直接利用汉字 在文本中出现的统计特性对文本进行划分;直观明了,且操作简单,尤其对于英文文 本或其他西语文本的划分非常容易,计算机可以直接利用空格进行分隔。但是基于单 个汉字表示方法往往无法很好的代表语义信息。
非结构化数据分析
2018/10/6
互信息法(Mutual Information, MI)
MI越大,特征项t和c共现程度越大 (N=A+B+C+D)
非结构化数据分析
2018/10/6
互信息特点
MI(t,C)的值越大,t对于C的区分能力越强 对同一个类,不同的词项,在同样P(t|C)情况下, ������ 相对稀有的 t 会得到较大的值,即MI受到词条边 际概率的影响,从下面的公式中可得:
词性(Part Of Speech,POS)作为特征可以更好的识别词语之间的关系。让计算机来 自动地给文本中的词标注词性,然后利用词性进行词义分析。如:什么样的名词经常 和什么样的动词同时出现,这对于词语之间关系的研究开拓了新的思路。
词性标注技术的成熟为词组组块(Phrase Chunking)的界定与实体及关系(Entities and Relationship)的识别打下了良好的基础,有利于我们更深入的探索文本语义的信息。 且词组的形式提高了特征向量的语义含量,使得向量更稀疏。
特征提取的意义
文本集合包含的特征太多
10,000 – 1,000,000 unique words … and more 有些分类方法无法处理1,000,000以上的特征 有些分类方法的训练时间与特征个数的平方成正比,或更糟