基于NMF的文本聚类方法
基于文本的聚类算法研究毕业论文

基于文本的聚类算法研究毕业论文随着信息时代的到来,海量的文本数据给人们的信息处理带来了很大的困扰。
聚类是文本数据的一种重要处理方法,它可以将相似的文本数据分为同一类,方便人们对数据进行分析和理解。
因此,基于文本的聚类算法成为了当前研究的热点之一本文旨在研究基于文本数据的聚类算法,并对其进行总结和评价。
首先,我们将介绍聚类算法的基本概念和流程,以及在文本数据中的应用。
然后,我们将详细讨论几种常见的基于文本的聚类算法,并对其进行比较和分析。
最后,我们将结合实例,探讨聚类算法在文本数据中的应用场景和效果。
聚类是一种无监督学习方法,它将具有相似特征的样本数据聚集到一起形成一个簇。
在基于文本的聚类中,我们通过将文本数据转化为特征向量,并根据特征向量之间的相似度度量来进行聚类。
常用的特征提取方法包括词袋模型、TF-IDF等。
在基于文本的聚类算法中,最常用的方法是K-means算法。
它是一种迭代的、划分型的聚类算法,通过不断迭代更新簇中心的位置,直到收敛为止。
K-means算法具有计算复杂度低、收敛速度快等优点,但对初始聚类中心的选择敏感,容易陷入局部最优。
另一个常用的聚类算法是层次聚类算法。
它将数据集从一个簇开始,通过不断合并最相似的两个簇,构建出一个层次化的聚类结构。
层次聚类算法具有聚类结果可视化、不受初始聚类中心选择影响等优点,但计算复杂度较高,对大规模数据集不适用。
此外,基于密度的聚类算法也常被用于文本聚类。
例如,DBSCAN算法通过定义核心对象和直接密度可达的对象来划分簇。
相比于K-means和层次聚类,DBSCAN算法能够发现任意形状的聚类簇,并对噪声数据有较好的鲁棒性。
综上所述,基于文本的聚类算法是一种重要的数据处理方法,能够将相似的文本数据分为同一类,方便人们进行分析和理解。
本文介绍了聚类算法的基本概念和流程,并重点讨论了几种常见的基于文本的聚类算法。
不同的聚类算法在具体应用中有着不同的优势和适用范围,在选择算法时需要根据实际情况进行考虑。
如何利用自然语言处理进行文本聚类(九)

如何利用自然语言处理进行文本聚类自然语言处理(NLP)是人工智能领域的一个重要分支,它致力于让计算机能够理解、处理和生成自然语言。
而文本聚类作为NLP的一个重要应用,可以将大量文本数据按照它们的主题或语义相似性进行分类和组织。
本文将探讨如何利用自然语言处理进行文本聚类,并介绍一些常用的技术和方法。
一、文本预处理在进行文本聚类之前,首先需要对文本进行预处理。
这包括去除文本中的标点符号、停用词和数字,进行词干提取和词形还原等操作。
同时,还需要将文本转换成向量表示,以便计算机能够对其进行处理。
常用的向量表示方法包括词袋模型(Bag of Words)和词嵌入(Word Embedding)。
二、文本特征提取文本特征提取是文本聚类的关键步骤。
它可以将文本转换成数值型特征,以便计算机能够对其进行分析和建模。
常用的文本特征提取方法包括TF-IDF(Term Frequency-Inverse Document Frequency)和词袋模型。
TF-IDF可以衡量一个词在文档中的重要性,而词袋模型则可以将文本表示成一个稀疏向量,其中每个维度对应一个词语。
三、文本相似度计算文本相似度计算是文本聚类的核心技术之一。
它可以衡量两段文本之间的语义相似性,从而帮助我们将文本进行分类和组织。
常用的文本相似度计算方法包括余弦相似度和Jaccard相似度。
余弦相似度可以衡量两个向量之间的夹角,从而反映它们的相似程度;而Jaccard相似度则可以衡量两个集合之间的相似性。
四、文本聚类算法在进行文本聚类之前,我们需要选择合适的聚类算法。
常用的文本聚类算法包括K均值聚类、层次聚类和DBSCAN。
K均值聚类是一种基于距离的聚类算法,它可以将文本数据划分成K个簇;而层次聚类则可以将文本数据组织成一颗树状结构,从而更好地反映文本之间的相似性关系。
五、文本聚类评估对于文本聚类结果的评估是至关重要的。
它可以帮助我们衡量聚类的效果,并选择合适的参数和算法。
非奇异矩阵分解算法综述

2、NMF 概念和性质
定义:对一个M维的随机向量x进行了N次的观测,记这些观测为xj,j=1,2,„, N,取观测数据矩阵为X=[x1,x2,„xn]∈IR>=0 2,„ul]
MxN
=0
MxN
,NMF旨在寻找X的基矩阵U=[u1,u
MxN
Mxl
>=0和非负系数L*N矩阵V=[源自1,v2,„vn] ∈IR>=0
附加在数据成分矩阵上的基于不同数据统计模型的约束条件和算法的底层结构 两方面的不同。然而,它们的共同点在于对因式分解后的矩阵元素特征标识没有 约束条件。换句话来说,它们允许负的分解量存在 (允许有减性的描述),并且 能实现线性的维数约减。区别于它们的,一种新的变换方法 ———非负矩阵分 解(Nonnegative Matrix Factor ,NMF),它包含有非负的约束从而部分、局部 的特征表征以及加强了相应问题的可解释性,是由 Paatero 和 Tapper 联合 Lee 和 Seung 在《Nature》上提出的。 事实上,NMF 的概念在很久以前用作为化学计量学中的“自我建模曲线分辨 率”,表明向量是连续曲线而不是离散向量的。NMF 起初被 Paatero 和 Tapper 介绍过来时使用的是正数矩阵分解的称号,注重于通过复杂的算法的实现使用 到一项专门的应用中。其中表现出来的缺陷限制了相关理论(例如算法的收敛 性、解决方案的特性)和算法之于其他应用方向的一般化的发展。所幸的是, NMF 理念因为 Lee 和 Seung 他们所做的研究工作---更为简单有效的算法和对 其局部特征表征的潜在价值的着重强调而变得越来越流行。 远超过了数学领域的探究范围,尝试为表征对象的各个部分特征提供可行算 法模型的 NMF 理论中蕴含着近似于感知机制的哲学理念,局部表征的概念看起 来很直观,但它确实是生理学和心理学案例---对整体的感知由对组成整体的部 分的感知构成的(纯加性的)的解释基础,是电脑计算对象识别问题的核心理念 之一。事实上,NMF 包含有两个互补的内涵---非负成分和纯加性。一方面,负 的成分在真实世界的数据中观测数据和潜在数据(比如影像、光谱和基因数据、 实际问题分析数据)中在物理上毫无意义,同时,现有的对象原型通常用特定 的语义进行阐述,例如在脸部识别中,其所基于的图像区域是局部的(像是脸 的局部特征,眼睛、鼻子、嘴和脸颊等)而并非是整体的。另一方面,感兴趣 对象一般通过它的对其局部特征的详细属性目录和专属附加特性进行描述识别, 有了上述两项便可以对对象进行重建就像是通过拼图辨认嫌疑犯一样。正是由 于上述特点,NMF 在实际场景任务应用中取得了巨大的成功,在文本聚类算法 中,NMF 不仅在精度改进方面也在潜在语义识别方面均超越了经典的聚类方法, 如光谱聚类。 除此之外,非负约束在某种程度上会自然而然导致稀疏性,稀疏性的表述已 被证明是介于完全分布式的描述和单一活跃分量的描述间的一种有效数据描述
基于非负矩阵分解的文本主题模型研究

基于非负矩阵分解的文本主题模型研究随着大数据时代的到来,信息的爆炸性增长使得文本主题模型成为了一个重要的研究领域。
在文本主题模型中,通常需要从大量的无监督文本数据中提取有意义的主题信息,以便于更好地理解和处理这些数据。
在文本主题模型中,非负矩阵分解(Non-negative Matrix Factorization,NMF)是一种非常常见的方法。
NMF通过将文档表示为均值为零的非负线性组合的方式,将文本数据分解为若干非负主题矩阵和文档矩阵。
这种方法可以大大提高文本数据的可处理性,使得更多的信息被提取出来,从而使分析结果更为准确。
基于NMF的文本主题模型已经被广泛地用于各种领域,包括社交网络分析、媒体文本挖掘、图像处理等。
在这些领域中,NMF主要被用于主题分析、语义聚类、特征提取等任务中。
在文本主题模型中,NMF的优点主要包括以下几个方面:1. NMF可以将数据分解为若干个基矩阵,这些基矩阵可以表示为语义主题,这为进一步的分析提供了基础。
2. NMF可以对文档进行聚类,这意味着我们可以将文档根据它们的主题内容分组,从而更好地理解文本数据。
3. NMF可以学习到数据中隐藏的潜在模式,帮助我们更好地理解数据的内在结构和特性。
4. NMF可以很好地处理高维数据,因为它对于数据的数量级和高密度的信息都有很好的适应能力。
在NMF算法中,最常见的是基于交替最小二乘(Alternating Least Squares,ALS)的算法。
这种算法通过不断地优化主题矩阵和文档矩阵来获得更好的结果。
此外,还有一些其他的算法,如基于贝叶斯的NMF(Bayesian NMF)、基于近似最大化(Approximate Maximation,AM)的NMF等。
尽管NMF在文本主题模型中表现良好,但是它还存在一些问题。
其中,最主要的问题是NMF算法的稳定性和收敛性。
当数据矩阵的行数和列数非常大时,NMF算法很容易出现收敛问题,这会导致算法无法正常运行。
自然语言处理中常见的文本聚类算法(Ⅱ)

自然语言处理(NLP)是一门涉及人类语言和计算机之间交互的学科领域。
在NLP中,文本聚类算法是一种常见的技术,用于将大量文本数据按照其相似性分组,从而帮助人们更好地理解和处理文本信息。
本文将介绍一些常见的文本聚类算法及其应用。
一、 K均值聚类算法K均值聚类算法是一种简单而有效的文本聚类方法。
它的基本思想是将文本数据划分为K个簇(cluster),并且每个文本样本被分配到最近的簇中。
该算法的核心是通过不断更新每个簇的中心点,直到达到收敛状态。
K均值聚类算法在文档分类和主题建模等领域得到了广泛的应用。
二、层次聚类算法层次聚类算法是一种自底向上或自顶向下的聚类方法。
在这种方法中,文本数据按照其相似性逐渐合并成不同的簇,形成一个层次化的聚类结构。
层次聚类算法的优点在于它不需要预先指定簇的个数,而且可以通过树状图清晰地展现聚类过程。
这种算法在文本情感分析和信息检索等领域有着广泛的应用。
三、基于密度的文本聚类算法基于密度的文本聚类算法是一种适用于高维度数据的聚类方法。
该算法通过识别高密度区域来发现簇,而不需要预先指定簇的个数。
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是基于密度的文本聚类算法的代表性方法之一。
它在处理噪声数据和发现任意形状的簇方面具有较好的性能,因此在文本垃圾邮件过滤和社交媒体挖掘等领域得到了广泛的应用。
四、概率模型聚类算法概率模型聚类算法是一种基于概率模型的文本聚类方法。
其中,高斯混合模型(Gaussian Mixture Model, GMM)是一种常见的概率模型聚类方法。
GMM假设每个簇都是由多个高斯分布组成的混合模型,并通过最大似然估计来估计模型参数。
概率模型聚类算法在文本文档聚类和事件检测等领域有着重要的应用价值。
以上介绍了一些常见的文本聚类算法及其应用。
这些算法在NLP领域中发挥着重要的作用,帮助人们更好地处理和理解文本数据。
一种基于n—gram短语的文本聚类方法研究

布 奥运 ”“ 运 期 间”“ 间 外 地 ”“ 地 进 ”“ 、奥 、期 、外 、进 京 ” “ 货 车 ” “ 车 绕行 ” “ 行 方 案 ” 、京 、货 、绕 。
22 算 法 步骤 .
( ) 档 分 词 后 去 掉 语 义小 的停 用 词 . 句 子 范 围 1文 在 内提 取 n ga 短 语 ( 如 n 2 , —r m 例 = )由于 只包 含 一 个 文档 的
一
【m d, )0( s ( = 其他) i
计 算 d与 d 相 关 度 , s d,,= 时 , 容 d , 当 i 1 收 m( d )
个短语 可能是任意 的长度 .但该序 列不应穿 过
当s (i = 时, i d d 0 拒绝 d m , 得到d最相关的文档 d
本 文 所 用 的 n g m 短 语 . 指 当前 词 语 与 后 继 —r a 是 n 1 词 语 所 组 成 的短 语 。例 如 “ 安 部公 布 奥运 期 间 一 个 公 外 地 进 京 货 车 绕 行 方 案 ”经 过 中 文 分 词 . 到 结 果 “ . 得 公 安 部 公 布 奥 运 期 间 外 地 进 京 货 车 绕 行 方 案 ” 当 . n 2时 ,可 得 到 如 下 2 ga 短 语 :公 安 部 公 布 ” “ = -r m “ 、公
处理速度 , 能够保 证许多应用 中的时间复杂性要求 : 另
一
方面不依赖于某个特定领域 。 但是 V M却丢失 了词 S
之 间 的 邻 近 以及 顺 序关 系 等 重 要 信 息 .失 去 原 有 文 档
的语义 , 自然就 降低 了聚类结果 的准确 率【 由于词集 ” 。 的这种缺点 , 了能得到更好 的聚类结果 . 为 一个 较好 的
基于模糊聚类算法的文本分类技术研究

基于模糊聚类算法的文本分类技术研究随着互联网的普及,我们每天都会接收到大量的文字信息,如何高效地对这些信息进行分类和整理,成为了一个非常重要的问题。
文本分类技术就是解决这个问题的一种方法。
本文将介绍基于模糊聚类算法的文本分类技术的研究。
一、什么是文本分类技术?文本分类技术(Text Classification),也被称为文本挖掘技术(Text Mining),是一种数据挖掘技术,主要应用于对文本数据进行分类和归类。
文本分类技术可以帮助我们快速地过滤出我们需要的信息,并将其按照一定的规则分门别类,方便我们进行查找和分析。
二、文本分类技术的应用领域文本分类技术的应用领域非常广泛,例如:1. 搜索引擎:搜索引擎需要对网页进行分类归纳,使得用户能够快速地找到自己想要的内容。
2. 新闻分类:对新闻进行分类,方便用户快速浏览最新情况。
3. 垃圾邮件过滤:将垃圾邮件识别出来,并阻止其进入用户的邮箱。
4. 情感分析:通过对用户评论的分类和分析,了解用户对产品的评价和需求。
三、基于模糊聚类算法的文本分类在文本分类技术中,最常用的算法是朴素贝叶斯算法、支持向量机算法、最近邻算法等。
而本文要介绍的是一种基于模糊聚类算法的文本分类方法。
1. 模糊聚类算法模糊聚类算法是一种聚类算法,其基本思想是将数据分成若干组,并且同一组内的数据在某种意义下是相似或相近的。
在模糊聚类算法中,每个数据点不再只属于一个类别,而是具有属于每个类别的一定概率。
模糊聚类算法最常用的方法是Fuzzy C-Means(FCM)算法,它是一种针对多维数据的非监督分类算法。
其核心是在数据集中选择一些中心点,然后不断迭代,直到聚类簇的中心点不再变化。
2. 基于模糊聚类算法的文本分类在基于模糊聚类算法的文本分类中,文本首先需要进行预处理,包括去噪、分词、停用词过滤等操作。
然后,将文本转化为向量表示,每篇文章都表示为一个向量。
接着,以Fuzzy C-Means算法为例,将每篇文章作为一个数据点,以词语的出现频率作为特征,进行聚类。
主题聚类算法

主题聚类算法主题聚类算法是一类用于将文本数据按照主题或话题进行分组的算法。
这些算法旨在通过分析文本中的词汇、语法和语境等特征,自动将文档划分为不同的主题群组。
以下是一些常见的主题聚类算法:1. K均值聚类(K-Means Clustering):这是一种常见的聚类算法,通过将数据点分配到 k 个簇中,使得每个数据点到其簇中心的距离最小化。
在文本聚类中,数据点可以是文档,而簇则对应于主题。
2. 层次聚类(Hierarchical Clustering):这种算法构建一个层次结构的簇,通过逐步合并或分裂簇,直到达到某个停止条件。
这样的方法可以形成一个层次树,使得用户可以根据需要选择不同层次的聚类结果。
3. 谱聚类(Spectral Clustering):这种方法通过利用数据的谱结构来进行聚类。
在文本聚类中,可以使用文本数据的词汇共现矩阵或 TF-IDF 矩阵,然后应用谱聚类算法来识别主题。
4. LDA(Latent Dirichlet Allocation): LDA 是一种概率主题模型,被广泛应用于文本数据的主题建模。
它假设每个文档是由多个主题混合而成的,每个主题又由多个词汇组成。
LDA 通过迭代推断来发现文档和主题之间的关系。
5. DBSCAN(Density-Based Spatial Clustering of Applications with Noise): DBSCAN 是一种基于密度的聚类算法,不仅可以处理球状簇,还可以发现任意形状的簇。
在文本聚类中,可以使用文本向量的密度信息来进行聚类。
6. NMF(Non-Negative Matrix Factorization): NMF 是一种矩阵分解方法,它可以应用于文本数据的主题建模。
NMF 假设文档矩阵是由两个非负矩阵的乘积组成,这两个矩阵分别对应于文档和主题。
这些算法可以根据具体任务的需求和数据特点来选择。
在实际应用中,通常需要根据数据的特点进行调参和优化。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
f titn iesnl r utn htm a , e n oinl vcr nw cps cad ts i csrg rh aozi tdmniat e ci ote s c rret ri tt o i e c et e csri t lti aoim c r o o a o i d o f e p e e s s a e e s n o y r p g x t n p n l e t uen l t a u wh g
(1 2) 4 ,羽毛球( 0 2) 1 ,乒乓球( 0 2) 7 、排球( 0 车( 5 2) 0 、赛 1 ) 5. 游泳( 6 3) 2 、网球( 4 2) 7 ,棒球( 0 1) 6 ,冰氰 26 径( 2, 8) 、田 3 ) 0
共 1个主题 22篇体 育类新 闻文 本。 0 44 首先对文本集进行预处理,将 所有文本标上主题类别标
其中, 满足(+ )< r ( mr n n m。式( ) 1可以写 下形式: 成如
x = j +v : , au + j v u , +v u a,
1 文本矩阵 词一
中 文文本中词与词之间没有明显的 切分标志, 首先需对
文本进行分词处理。文本分词后可以通过计算每个词在语料 库 中的词频进行粗 略的特征 提取 ,方法是依据Zp 则删除 i肤
H A G nsi L J nag , A G f' U N G g ' U jn' Z N Y e a h, i i ' H a ' ai
( gneig, ie i o Sine d cn l yP A, nig 00 ; ]Colg o C mmu iao ad iern Unvrt f ec a T hoo , Najn 2107 l e o e f nctn En i n s y c n e g L 2 Deat no Co ue Sine E gneigS tesUnvri , i 2 06 uhat iesyNaj g 09 ) . pr me t mp tr ec ad iern, f c n n o t nn 1 [ src ] e tx cutr g poc bsd nnngt e ar fc ratn peetd Th me o apis nngt e ar Abtat n w t sei a rah e o o-eai m ti at i i i r ne. e t d l n -eai m tx A e l n p a n v x o z o s s h p e o v i
随着互联 网络 的发展 ,We上的文本资源呈现爆炸式增 b
长。 这些文本信息数据量大、内容繁杂而且处于不断变化之 中, 如何充分有效地利用丰富的文本资源成为人们关往的焦
点 。聚类分析作为数据挖掘的一种重要手段 ,在文本挖掘中 扮演着非常重要的角色。 现有的文本聚类方法大多基于 文本 向量之 间的相似度 ,
则N F M 可以定义为如下最优化问题: 下列迭代算法可以得到以式( 为目标函数的 (问题 3 ) 式( 4 ) 的一 个局部最优解” :
nn (E M v, < jl k o 一 , : ri 1 m j + v{ v v ? , . c, <1 < ) 甲> l , ) < " _ k , _ _
+ ’ 1 c尚 ’ 】 一 一 “
回{ . Q : . t一 味 珠习: 二 ) ’ 、 黔 ( +
则算法停止
y , k 。x 夺v l 艺;1; 尸 。 1 , ru下 山 l
艺 xLU , I N
u 呼 ., - t
a实脸分析
从 t: w s . c 竟 风 专 选 体 . ao.体育 技 暴 栏中 取 操 h / wi c n p/ w n m
即为常用文本聚类算法中的输入数据。
本文 采 用 非 负 矩 阵 分 解 (o- gi Mtx Nnn av ai e te r
Ftii, )]法 解 一 本 阵, 用 M 算 ao a n M " 分 词 文 矩 即 N F 法 crt N F 算 zo
对词一 文本矩阵进行预处理 。运 用NMF 算法,一方面降低词 - 文 本矩阵的维数 ,滤除噪声特征项 ,为聚类算法选择一组有 效 文本特征参与相 似度计算 ,另一 方面,N 通过矩 阵近 MF 似卡 获取同义词之间的关联 ,将文本向量转换成概念空间上 的表示。
本集 包含的概念u 来表示。如果概念“表达准确, 合中 k , 则
对 犷聚类 的结果应该比对 X直接聚类得到 的精度要高 。
Q7" D T (; 卜L c {) r, = ,
球〕 均值算法步骤如下 : 脚
非负矩阵分解是个N 问题, 化为优化问 P 可以 题用迭代
方法交替求解 U和 V。迭代计算时 ,必须先固定其中一个 才能计算另外一个矩阵。判断迭代收效性的 目标函数有基于 距离和基 于KL 离散度。
2 非负矩阵分解 给 一 词 本 阵X X , 寻 一 m r 文 矩 定 个 一 = () N F 找 个 x , M 非 矩 负 阵U=u), ( . 和一个 rn 负 阵V (从 , u x 非 矩 =V 。 .
满足
X UP d () 1
() 分计 算新 的概 念 向量 3 通过划
刃 DX ) V 少 (1 1 U 其 , 尸是二+的 心 量 中 m 夕 中向 ・ ) 1 s U> 刀yl . ,_ t Q V = j d ( 4 ) () 4给定 6,‘是任意小的实数,如果
一些频率很高与很低的词。这些词对聚类作用不大或者是没
有 实 际意 义 的 功能 词 。 设 这 一步 处 理 后 得到 词 集 合 为
D t ,, = ') { ,, 。 t 二t
然后根据词集D 对文本数字化。文本数字化即 本表 把文 示成词上的一个m 维稀疏向量,向 分量是词的权重, 量的
(任 意划分 坪 不 的 秽璐 ,衅)为 概念 I ) 成 相交 类{ _ , 类的 向 _ .
盆,置迭代次数t 0。 =
令Y 扔 = V, } 基于K离散度的准则函 =y ) U L 数定义为:
(通 洛。算{.} 少仁计 r ) z 过加 ) ,i }
D,) Y , 一 Y (U=, o XVY〔g , , 资 一 t
选择 出现在 文本中的一组词作为属性( 或特征项 ) ,然后将每 个文本表示成属性上的一个多维向量 。通常文本 向量是高维
进 余 正 化 理: w I 行 弦 规 处 w = --, l ,,
功 xr 刃( ; )
、:。设有n 、 个
V 二 } x; 山 . J-,1 V l '1
文本,正规化后得到 个m 维稀疏向量( n 记为xx,、 , i , 戈) , ,
Th rsl oeprmet w ate oi m n rv te srn peiin e ut f xei n so t t agrh c i oe cutig cs e s h h h l t a mp h l e r o ( e wod] xcutrg No-eai mar f tratn Shrakmen agrh Naua l gae csig K y rs Tet sei ; nngte tx oi i ; ei l as oi m; rl ug poesn l n v i a z o p c - c l t t a n r
黄钥 ,防建江} 张 石, . 亚霏 t
T x Clseig to B sd N nng t e ti F coi t n et trn Meh d e o o -eai Mar atr ai u a n v x z o
的 稀疏向 如何在 量, 高维稀疏向 量之间定义有效的相似度是 一件非 难的事7 外,这些聚类算法假设词的出 常困 ] 。另 现是
独立 的,即词与词之间线性无关 ,这与 自然语言中词存在的 “ 斜交”现象相 互矛盾 ,也影响 了聚类精度 。
这 个m维 疏 量 成 个 一 矩阵X=x殊,X n 稀 向 组 一 词文本 ( 。
中.分类号 :TPI S
基于N 的文本聚类方法 MF
] ( 解放军理工大学通信工 7 2东南大学计算机科学与工程系,南京 209) 程学院,南京 200; 10 106 摘 要:提出一种基 「 非负矩阵分解的文本聚类方法。该方法利用 MF N 分解项一 文本矩阵来降低特征空间维数, 并得到文本向量在概念空间 上的表示,在此基础上应用聚类算法。实验表明,基于N 的文本聚类方法能够提高文本聚类精度。 MF 关健侧: 文本聚类;非负矩阵分解;球形的k - 均值算法;自 然语言处理
_ 11 - 3
万方数据
ቤተ መጻሕፍቲ ባይዱ
每个 文本向 ) 量x近似地投影成r 维空间中的 一个列向 ( 量y -
进 一步地 ,如果 将这组基 向量看成 是一组相 互区别 的概 念 ( 或潜在语义 ) ,则原来 以词表示的文本 向量 x 就 可 以用文 t
几尚 =
通 下 的目 数衡 划 z} 质 , 过 面 标函 量 分{)的 量 即 ' y
第3 卷 第1期 0 1
V 30 oL b 1 1 1
计
算 机
工
程
20年6 04 月
Jn 20 u e 4 0
Co ue En iern mp tr gn eig
・ 人工智能及识别技术 ・ 文寒 号.10 3 80)1 01 0 偏 0 -4 (0 1- 1 - 2 0 22 4 3
文 标权 A 臼 码:
羞金项目:国家自 然科学基金资助项目6031; 《0702国家自 ) 然科学基
金重 点资 助项 目 (9300) 69 14
词t 文 ‘ 的 重 为7f t ,tj , 在 本x上 权 记 f ( t f ( t = ix ) i x, d d ,)
作者摘介 : 黄钢石 ( 6-),男,博士生、工程师,主研方向: 19 9 自然语言处理,信息检索与安全;陆建扛,博士、副教授;张亚 非,博士、教授、博导 收梢 日 翔:20-51 03 -9 0 haggns@sao Ema: n_agh i. m - i u l i nc