基于主题的关键词提取方法对比研究(中)讲解

合集下载

基于主题的关键词提取方法对比研究(8)

基于主题的关键词提取方法对比研究(8)

图4.8 召回率随关键词个数的变化
图4.9 准确率随关键词个数的变化
从实验的结果来看,基于主题的三种算法LSA、PLSA、LDA随着关键词个数的增多,无论是从准确率还是从召回率上看都是优于传统的基于权重的TF-IDF实验方法,且其性能优越性差距还是比较大的,尤其是LSA算法,在召回率和准确率上也显示了充分的优势,充分展示了基于主题的方法能够更好地覆盖文章的语义,提取的关键词也更为准确。

同时通过观察图4.8、图4.9,我们也可以发现,随着关键词的数目的增多,虽然提取关键词的召回率变高了,而准确率变低了。

“召回率”与“准确率”虽然没有必然的关系(从上面公式中可以看到),通常我们希望:文档中相关的关键词,被检索到的越多越好,这是追求“查全率”,越大越好。

同时我们还希望:检索到的关键词中,相关的越多越好,不相关的越少越好,这是追求“准确率”,越大越好。

由于“检索策略”并不完美,希望更多相关的词语被检索到时,放宽“检索策略”时,往往也会伴随出现一些不相关的结果,从而使准确率受到影响。

而希望去除检索结果中的不相关的词汇时,务必要将“检索策略”定的更加严格,这样也会使有一些相关的词汇不再能被检索到,从而使召回率受到影响。

凡是设计到大规模数据集合的检索和选取,都涉及到“召回率”和“准确率”这两个指标。

而由于两个指标相互制约,我们通常也会根据需要为“检索策略”选择一个合适的度,不能太严格也不能太松,寻求在召回率和准确率中间的一个平衡点。

这个平衡点由具体需求决定。

所以,
我们在选取具体的关键词个数时候要把好关。

关键词提取算法研究与评价

关键词提取算法研究与评价

关键词提取算法研究与评价关键词提取是信息检索、自然语言处理和文本挖掘等领域中的重要任务,它能够自动从文本中提取出具有代表性和概括性的关键词,对于文章的分类、摘要生成、信息聚类等应用具有重要意义。

本文将对关键词提取算法进行研究与评价,探讨不同算法的优缺点以及应用场景。

一、传统方法1.1 统计方法统计方法是最早被提出并被广泛应用的关键词提取算法之一,它基于文本中的词频、逆文档频率或其它统计度量来评估词语的重要性。

常见的统计方法包括TF-IDF(Term Frequency-Inverse Document Frequency)和TextRank算法。

TF-IDF算法通过计算词频和逆文档频率的乘积来确定词语的重要性。

它假设文本中出现频率高、在其他文本中出现较少的词语往往是关键词。

然而,TF-IDF算法无法考虑到词语之间的语义关系,容易受到停用词的干扰,因此在一些特定的场景下效果有限。

TextRank算法是一种基于图模型的关键词提取算法,它将文本中的词语作为节点构建图,利用节点之间的边权重来表示词语之间的相关性。

TextRank算法类似于PageRank算法,在图中进行迭代计算,最终得到词语的重要性分数。

相比于TF-IDF算法,TextRank算法能够更好地捕捉到词语之间的语义关系,但也存在着计算复杂度高、依赖于预定义窗口大小等问题。

1.2 语言模型方法语言模型方法利用文本的语言模型推断词语的概率分布,用来衡量词语的重要性。

其中,基于n-gram模型的方法是常见的语言模型方法之一。

基于n-gram模型的方法通过计算词语序列的概率分布来确定关键词。

它将文本中的词语序列作为统计模型的输入,利用上下文的语言信息来推断词语的重要性。

然而,基于n-gram模型的方法可能无法准确捕捉到长距离依赖关系和上下文信息,导致提取的关键词精度有限。

二、深度学习方法2.1 神经网络方法近年来,深度学习方法在关键词提取任务中取得了显著的进展。

关键词提取及文本分类技术研究与应用

关键词提取及文本分类技术研究与应用

关键词提取及文本分类技术研究与应用随着互联网的快速发展,信息爆炸式增长给人们带来了巨大的挑战。

在大量信息中迅速找到有效的关键信息成为一项重要的任务。

关键词提取技术和文本分类技术成为解决这一问题的重要手段。

本文将重点研究这两项技术的原理、方法和应用,并探讨它们在不同领域的实际应用。

一、关键词提取技术的原理与方法关键词提取技术是通过自动分析文本内容和结构,从中提取出最能代表文本主题的词语或短语。

它对于文本信息的组织、浏览和索引起到了重要的作用。

1.1 关键词提取的原理关键词提取的原理主要基于以下两个方面的考虑:首先,关键词应该具备一定的信息量,能够概括文本中的主题或重要内容。

其次,关键词应该具备一定的区分度,能够与其他文本区分开,使得它们在搜索引擎或其他信息检索系统中能够起到准确描述和匹配的作用。

1.2 关键词提取的方法关键词提取技术主要包括以下几种方法:(1)基于统计模型的方法:通过对文本进行频率统计,提取最常出现的词语作为关键词。

(2)基于语义分析的方法:通过分析词语之间的语义关系,提取具有较高语义相关性的词语作为关键词。

(3)基于机器学习的方法:通过训练机器学习模型,自动学习关键词的特征,并根据模型结果进行关键词提取。

(4)基于网络分析的方法:通过分析网络中的链接结构和网络拓扑,提取具有重要性的词语作为关键词。

二、文本分类技术的原理与方法文本分类技术是将大量的文本按照一定的标准进行分类,使得相似的文本归到同一类别中。

它对于信息的组织和管理起到了重要作用。

2.1 文本分类的原理文本分类的原理主要基于以下两个方面的考虑:首先,文本分类需要考虑到文本的主题、内容和特征,以便于将其正确归类。

其次,文本分类需要考虑到不同类别之间的相似性和差异性,以便于区分不同的文本类别。

2.2 文本分类的方法文本分类技术主要包括以下几种方法:(1)基于规则的方法:通过设定一系列规则,根据文本的特征进行分类。

(2)基于机器学习的方法:通过训练机器学习模型,自动学习文本的特征,并根据模型结果进行分类。

基于传统方法与深度学习的关键词提取算法比较分析

基于传统方法与深度学习的关键词提取算法比较分析

基于传统方法与深度学习的关键词提取算法比较分析随着信息时代的到来,海量数据让人们感到无从下手,关键词提取算法成为解决这一问题的关键。

传统的关键词提取算法借助人工经验选择“关键词”作为训练样本,在此基础上训练出模型实现关键词提取。

然而,由于人工选择样本往往过于主观和难以量化,导致结果准确性和稳定性受到限制。

近年来,深度学习作为一种新的处理模式,相继应用于各大领域,提出了新的解决方案。

本文旨在分析和比较基于传统方法和深度学习方法的关键词提取算法,以及其优缺点,以期为关键词提取领域的研究提供一些思路和方向。

1.传统关键词提取方法1.1基于统计特征的关键词抽取法统计特征法是基于信息熵原理,通过计算文本的词频、余弦相似度、位置权重、信息熵等统计量,将综合值较高的词语定义为关键词。

相较于其他方法,统计特征法处理简单快速,算法效率较高,但在面对语料库较大、文本结构复杂等情形时,效果较差。

1.2基于图论的TextRank方法TextRank方法是一种图论算法,首先将文本按句子划分成节点,抽取词汇作为边,节点之间建立连接关系,形成一个无向图。

接着通过PageRank算法,对节点进行权重排序,权重较高的节点对应的词汇为关键词。

该算法简单易懂,可实现在线实时处理,对于文本较为简单的任务可以取得较好的效果。

1.3基于语言学特征的关键词抽取法语言学特征法是基于专业知识,通过观察文本的语法、句法和语义结构,抽取其中的关键词。

该方法处理精度较高,但语言学特征往往过于复杂,难以量化,造成算法处理速度较慢,且对于文本语言不限制严格的情况下精度下降较大。

2.基于深度学习的关键词提取方法随着深度学习的兴起,越来越多的方法开始将其应用于关键词提取任务。

深度学习的特点是从数据中抽取特征,在可训练模型的指导下,通过模型自动优化学习过程,实现模型性能的提升。

在不同的文本分析任务中,深度学习有着不同的应用形式,其中关键词提取常用的有如下:2.1基于语言模型的关键词抽取语言模型常用于关键词提取和文本自动生成任务。

数据分析中的关键词提取技术研究

数据分析中的关键词提取技术研究

数据分析中的关键词提取技术研究随着互联网的普及和数据的爆炸增长,数据分析已经成为了现代人们不可避免的工作内容和技能需求。

在人们挖掘数据的过程中,面对着大量繁琐的数据信息,如何快速获取有效的信息是非常必要的,本文将对关键词提取技术进行深入探讨。

一、关键词提取技术的定义关键词提取技术是一种通过计算机算法和自然语言处理技术,自动从文本中提取出代表文本中心词汇的方法。

它是基于文本中的信息统计和语言学知识,应用文本分析方法识别文本中关键词的程序化处理过程。

通过关键词提取技术可以将大规模文本数据进行自动化处理,从而实现从大量文本数据中快速高效地挖掘出重要的信息。

二、关键词提取技术的应用领域目前,关键词提取技术在许多领域得到了广泛的应用。

包括:1. 自然语言处理(NLP)2. 搜索引擎优化(SEO)3. 情感分析和舆情监控4. 文本分类和聚类5. 社交媒体分析(SMA)6. 信息检索(IR)7. 机器翻译(MT)8. 数据挖掘与分析(DMA)三、关键词提取技术的主要算法关键词提取技术的算法主要包括基础算法和深度学习算法。

其中,基础算法主要包括:1. TF-IDF算法TF-IDF是指“词频-逆文档频率”,它是一种常用的统计方法,用以评估词语在文档中的重要程度。

该方法的基本思想是:如果某个词或短语在一篇文章中出现的频率高,同时在其他文章中很少出现,那么认为这个词或短语具有很好的类别的区分能力。

该算法的优点是简单易懂,计算速度快,但是它没有考虑到单词的连续性。

2. TextRank算法TextRank算法是一种无监督的关键词提取算法,其思想基于PageRank算法。

它把文本表示成一个图,通过节点和边的权重来反映节点之间的关系。

在这个图上运用PageRank算法迭代计算得到最有可能作为关键词的词语,从而实现关键词提取的目的。

3. LDA算法LDA(隐含狄利克雷分布)是一种概率主题模型,可以自动地发现一系列文档中的主题词。

基于主题模型的文本关键词提取方法

基于主题模型的文本关键词提取方法

基于主题模型的文本关键词提取方法随着互联网的快速发展和信息爆炸式增长,人们在海量文本中寻找所需信息变得越来越困难。

而文本关键词提取作为一种重要的文本挖掘任务,可以帮助我们在海量文本中快速准确地找到关键信息。

然而,由于文本的复杂性和多样性,传统的关键词提取方法在提取准确性和普适性方面存在一定的局限性。

近年来,基于主题模型的文本关键词提取方法成为热门研究领域。

主题模型是一种用来挖掘文本隐藏语义结构的统计模型,通过对文本进行主题建模,能够准确地抽取出文本的主题信息。

基于主题模型的文本关键词提取方法具有以下优势:1. 考虑语义相关性:传统的关键词提取方法通常基于词频统计或词性分析,忽视了词语之间的语义相关性。

而主题模型能够通过学习文本中的主题信息,将相关主题的词语归为一类,从而更好地反映词语之间的语义相关性。

2. 提取全局信息:传统的关键词提取方法通常只考虑局部上下文信息,往往无法捕捉到文本内容的整体特征。

而主题模型能够对全局文本进行建模,提取出更全面、准确的关键词。

3. 考虑多样性:传统的关键词提取方法往往只提取与文本内容相关的关键词,忽略了文本中可能存在的多种主题。

而主题模型能够发现文本中的多个主题,从而提取出多样性的关键词,更好地反映文本的内容。

基于主题模型的文本关键词提取方法通常包括以下步骤:1. 数据预处理:对原始文本数据进行清洗和预处理,包括去除停用词、标点符号和特殊字符,进行分词等。

2. 主题模型构建:使用主题模型算法,如隐含狄利克雷分布(Latent Dirichlet Allocation, LDA)等,对预处理后的文本数据进行建模。

主题模型可以将文本转化为主题分布和词语分布的组合,反映文本内容的语义结构。

3. 关键词提取:根据主题模型的输出结果,通过计算关键词的权重或者基于主题分布的方法,提取文本的关键词。

一般可以使用词语权重或者排名来确定关键词。

4. 关键词过滤:根据关键词的特征和需求,对提取得到的关键词进行过滤和筛选。

基于主题的关键词提取方法对比研究(3)

基于主题的关键词提取方法对比研究(3)

(2)缺点:①概率模型不够完备:在文档层面上没有提供合适的概率模型,使得PLSA并不是完备的生成式模型,而必须在确定文档的情况下才能对模型进行随机抽样;②随着文档和单词个数的增加,PLSA模型也线性增加,变得越来越庞大;③EM算法需要反复的迭代,需要很大计算量;3.4 潜在狄利克雷分布(LDA)潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)模型是一种比较全面的文档生成模型[31],可以用来识别大规模文档集中潜藏的主题信息。

该算法假设文档是由若干个主题所组成的一个混合概率分布,而其中的每一个主题则又是由单词所组成的概率分布。

概率主题模型可以看作是文档生成模型,也就是说,基于主题模型的一个简单概率过程来生成文档。

当得到了新的文档时,首先计算其主题分布情况,接着再对该文档的各个单词从现有的主题分布中随机选取一个主题,并根据由此主题得到单词分布,最后随机选取单词分布中的一个单词。

3.4.1 LDA模型介绍LDA是一种非监督的机器学习技术,可以用来识别大规模文档集(document collection)中潜藏的主题信息。

它也采用了词袋的方法,这种方法将每篇文档视为一个词频向量,从而将文本信息转化为易于建模的数字信息。

LDA是一种三层贝叶斯生成模型,它的基本思想是:文档可以视为有若干潜在的主题所组成的,利用概率推导等方式可以将单个文档表示为这些潜在主题的组合,对于每个主题而言,它又可以看成是若干词汇的概率分布。

因此,可以认为文档由主题组成,主题由单词组成。

可以由下图3.7表示:图3.7对于语料库中的每篇文档,LDA 定义了如下生成过程(见下图):(1) 对每一篇文档,从主题分布中抽取一个主题;(2) 从上述被抽到的主题所对应的单词分布中抽取一个单词;(3) 重复上述过程直至遍历文档中的每一个单词。

具体一点来说:原文中给出的一篇文中单词的w 的生成过程如下:(1) 选择 ~()n z Multinomial θ(2) 选择 ~()Dir θα(3) 对于N 个单词中的每一个:① 选择主题~()n z Multinomial θ ② 根据(|,)n n p w z β选择单词n w下面对上面的生成过程进行分析:(1) N 是表示文档长度,服从Poisson 分布。

基于主题的关键词提取方法对比研究(上)

基于主题的关键词提取方法对比研究(上)

摘要关键词提供了文档的概要信息,在信息检索、文本聚类和分类系统中受到了越来越多的应用,关键词的提取算法也受到了越来越多的重视。

传统的方法主要依靠词汇的统计信息进行关键词提取,本文在回顾关键词提取的算方法的基础上,从文档主题的角度,综述了基于主题的关键词提取的三种算法--潜在语义分析(LSA)、概率潜在语义分析(PLSA)、隐含狄利克雷分布(LDA)。

LSA方法将文档从稀疏的高维词汇空间映射到一个低维的向量空间,主要通过奇异值分解SVD的方式来求解。

PLSA方法它用概率的方法来表示LSA,在文档和词汇之间引入一个潜在语义层(即主题层)。

LDA的基本思想是: 利用概率推导等方式可以将单个文档表示为这些潜在主题的集合,对于主题而言,它又可以看成是若干词汇的概率分布。

为了验证这三种方法的性能的优越与否,将理论与实践结合,本文通过实验将三种基于主题的关键词提取算法与TF-IDF方法进行对比,对实验结果进行总结归纳;实验证明,这三种方法无论是从召回率上还是从准确率上都优于TF-IDF方法,能够有效推荐关键词。

关键词:关键词提取;LSA;PLSA;LDAResearch on Algorithms of Topic Based Keyword ExtractionAbstractKeywords provide semantic metadata producing an overview of the content of a document. They are widely used in information retrieval, text clustering and classification system. As a result, people pay a lot of attention to keyword extraction algorithm. Traditional methods for keyword extraction simply rank keywords according to the statistical information of words. After reviewing some methods of keyword extraction, this article summarizes three topic based methods of keyword extraction which are Latent Semantic Analysis (LSA), Probability Latent Semantic Analysis (PLSA), Latent Dirichlet Allocation (LDA).LSA maps the document from sparse high dimension space to a low dimensional vector space, mainly through the singular value decomposition (SVD). PLSA brings in a latent semantic layer which is called theme layer between documents and words. It explains LSA in a probabilistic way. The basic idea of LDA is: document can be regarded as the combination of several potential themes. A single document can be described as the collection of the underlying theme in a probabilistic way.To prove whether the topic based keyword extraction algorithms are efficient,this article combines theory with practice. After experiment, it compares these three algorithms with the traditional TF-IDF algorithm. It proves that both the recall and the precision get improved. The three topic based keyword extraction algorithm dose well in keyword extraction.Key Words:keyword extraction; LSA; PLSA; LDA1绪论1.1 研究的背景和意义1.1.1 研究背景随着网络信息量的激增,人们对信息质量的需求不断地提升,促使信息的组织和获取方式发生了极大的变化也面临着极大的挑战。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

验分布与似然函数是共轭的。

LDA算法中,对于一个随机变量而言,其似然函数为多项式分布,并且其先验分布为Dirichlet分布,那么其后验概率仍为Dirichlet分布。

LDA算法中之所以选择Dirichlet因为可以减轻计算量。

给一个例子说明Dirichlet分布,假设我们在和一个不老实的人玩掷骰子游戏。

按常理我们觉得骰子每一面出现的几率都是1/6,但是掷骰子的人连续掷出6,这让我们觉得骰子被做了手脚,使得这个骰子出现6的几率更高。

而我们又不确定这个骰子出现6的概率到底是多少,所以我们猜测有50%的概率是:6出现的概率2/7,其它各面1/7;有25%的概率是:6出现的概率3/8,其它各面1/8;还有25%的概率是:每个面出现的概率都为1/6,也就是那个人没有作弊,走运而已。

用图表表示如下表3.1:表 3.1 骰子游戏概率可能性筛子面 1 2 3 4 5 60.5 概率1/7 1/7 1/7 1/7 1/7 2/70.25 概率1/8 1/8 1/8 1/8 1/8 3/80.25 概率1/6 1/6 1/6 1/6 1/6 1/6我们所猜测的值,如果设为X的话,则表示X的最自然的分布便是Dirichlet分布。

设随机变量X服从Dirichlet分布,简写为Dir(α),即X~Dir(α)。

α是一个向量,表示的是某个事件出现的次数(向量每个分量之间的相互关系)。

比如对于上例,骰子的可能输出为{1,2,3,4,5,6},假设我们分别观察到了5次1~5,10次6,那么α = {5,5,5,5,5,10}。

X则表示上例中的各种概率组合,比如{1/7,1/7,1/7,1/7,1/7,2/7};{1/8,1/8,1/8,1/8,1/8,3/8};{1/6,1/6,1/6,1/6,1/6,1/6},那么P(X)则表示了该概率组合出现的概率,也就是概率的概率。

这里需要注意的输入参数α,它表示了各个基本事件的权重。

图 3.2 Dirichlet分布受到 参数的影响Dirichlet分布受参数α的控制,由图3.2中可以看出当α=[1,1,1]时,分布较为平均;当α=[0.1,0.1,0.1]时,分布集中于边缘;当α=[10,10,10],分布集中于中心区域中一个较小的范围;当α=[2,5,15],分布集中于偏离中心的一个小范围内。

对于Dirichlet分布而言,α的分量大小控制分布的集中程度,α分量差异程度控制着分布的位置。

3.2 潜在语义分析(LSA)潜在语义分析(Latent Semantic Analysis)或者潜在语义索引(Latent Semantic Index),是1988年S.T. Dumais[27]等人提出了一种新的信息检索代数模型,是用于知识获取和展示的计算理论和方法,它使用统计计算的方法对大量的文本集进行分析,从而提取出词与词之间潜在的语义结构,并用这种潜在的语义结构,来表示词和文本,达到消除词之间的相关性和简化文本向量实现降维的目的。

LSA是基于线性代数理论进行语义分析的一种理论方法,它的核心思想是认为文档中词与词之间存在着某种隐含的语义关系(称之为语义空间),这种语义空间在文档中的上下文结构中,通过统计分析方法可以得到。

在语义空间中同义词被定义为,具有相同或类似含义的词语间有一个相同的语义空间,而对于那种一词多义的词语而言,则根据用法的不同会存在不同的语义空间结构中。

通过挖掘这种隐含语义结构,有利于进一步消除文档中同义、多义现象在文档表达过程中造成的影响。

解决语义混乱问题的一个关键步骤就是如何将文档和词映射到同一语义空间中进行分析研究。

在这里主要用到一个方法即奇异值分解[28](Singular Value Decomposition,SVD)。

SVD分解的重要意义在于将文档从稀疏的高维词汇空间映射到一个低维的向量空间[29]。

LSA 在信息滤波、文档索引、视频检索、文本分类与聚类、图像检索、信息抽取等有着很广泛的应用。

3.2.1 潜在语义分析模型介绍LSA算法是信息检索中潜在语义分析中比较经典的算法,假设文档集合为D={d1,d2,d3,…d N},词汇集合为W={ w1,w2,w3,…w M },那么我们可以将数据集合表示称为一个M×N共生矩阵,也就是词项—文档矩阵的概念,即由M个词项和N篇文档组成的一个M×N的权重矩阵C,矩阵的每行代表一个词项,每列代表一篇文档。

这种表示的优点包括:可以将查询和文档转换成同一空间下的向量,可以基于余弦相似度进行评分计算,能够对不同的词项赋予不同的权重,除了文档检索之外还可以推广到诸如聚类等其他领域,等等。

但是,向量空间表示方法没有能力处理自然语言中的两个经典问题:一义多词(synonymy)和一词多义(polysemy)问题。

一义多词指的是不同的词(比如car 和automobile)具有相同的含义。

向量空间表示方法不能捕捉诸如car 和automobile这类同义词之间的关系,而是将它们分别表示成独立的一维。

因此,如果我们计算查询向量q(如car)和文档dr(同时包含有car和automobile的文档)的相似度时,就会低估了用户所期望的相似度。

而一词多义指的是某个词项(如match)具有多个含义,因此在计算相似度时,就会高估了用户所期望的相似度。

一个很自然的问题就是,能否利用词项的共现情况(比如,match是和fire还是score在某篇文档中共现),来获得词项的隐性语义关联从而减轻这些问题的影响?即使对一个中等规模的文档集来说,词项—文档矩阵C也可能有成千上万个行和列,它的秩的数目大概也是这么个数量级。

在LSA中,我们使用SVD分解来构造C 的一个低秩逼近矩阵C k,其中k远小于矩阵C原始的秩。

这样,我们就可以将词项—文档矩阵中每行和每列(分别对应每个词项和每篇文档)映射到一个k维空间,k个主特征向量(对应k个最大的特征值)可以定义该空间。

需要注意的是,不管k取值如何,矩阵C k仍然是一个M×N的矩阵。

接下来,和原始空间一样,我们利用新的k 维空间的LSA表示来计算向量的相似度。

可以通过k q k=∑-1U T q这个式子来变换到LSI空间。

下面简单介绍一下这个过映射过程的实现。

SVD 可以用于解决矩阵低秩逼近问题,接着我们将其应用到词项—文档矩阵的逼近问题上来。

为此,我们要进行如下三步操作:(1)给定C,按照公式构造SVD分解,因此 C = UΣV T;(2)把Σ中对角线上r-k个最小奇异值置为0,从而得到Σk;(3)计算C k = UΣk V T作为C的逼近。

由于Σk最多包含k个非零元素,所以C k的秩不高于k。

然后,我们回顾一下上面例子的的直观性结果,即小特征值对于矩阵乘法的影响也小。

因此,将这些小特征值替换成0将不会对最后的乘积有实质性影响,也就是说该乘积接近C。

Ck到C的逼近性,如果在原始空间中查询和文档相近,那么在新的k维空间中它们仍然比较接近。

但是这本身并不是十分有趣,特别是当原始的稀疏矩阵转换成低维空间中的密集矩阵新空间下的计算开销会高于原始空间。

一般来说,可以将求 C 的低秩逼近看成是一个约束优化问题,在C k的秩最多为k 的条件下,从C出发寻找词项和文档的一个表示C k,当将词项-档表示到k 维空间时,SVD 应该将共现上相似的词项合在一起。

这个直觉也意味着,检索的质量不仅不太会受降维的影响,而且实际上有可能会提高。

整个LSA模型也可以表示成下图3.3。

=documents term .......LSA documentvectors...LSA term vectors图3.3 LSA 模型表示Dumais (1993)[27]基于普遍所使用的Lanczos 算法来计算 SVD 分解,并在 TREC 语料和任务上对 LSI 进行了一系列实验。

在实验当时(20世纪90年代早期),数万篇文档上的 LSI 计算在单机上大约需要一整天。

这些实验也达到或超过了当时 TREC 参加者的中游水平。

在20%左右的 TREC 主题中,他们的系统得分最高,在平均水平上使用大约 350维288 的 LSI 也比常规的向量空间方法稍高。

下面列出了最早从他们工作中得到的结论,而这些结论在后续的其他实验中也得到了验证:(1) SVD 的计算开销很大,这也是一个阻碍LSA 推广的主要障碍。

一个解决这个障碍的方法是对文档集随机抽样然后基于抽取出的样本子集建立LSA 表示,剩余的其他文档可以基于公式进行转换。

(2) 如果减低 k 值,那么如预期一样,召回率将会提高。

令人奇怪的是,当 k 取几百之内的数目时,某些查询的正确率实际上也会得到提高。

这也意味着,对于合适的 k 值,LSA 能部分解决一义多词的问题。

(3) 当查询和文档的重合度很低时,LSA 的效果最好。

3.2.2 潜在语义分析的优缺点(1) 优点:① LSA 利用潜在的语义结构表示词汇和文本,它反映的不再是简单的词条出现的频率和分布关系,而是强化的语义关系。

② LSA 模型中不仅能够进行传统的词条、文本与文本之间相似关系分析,而且能够分析词条与文本之间的相似关系,具有更好的灵活性。

③ LSA 用低维词条、文本向量代替原始的空间向量,可以有效的处理大规模的文本库或者其他数据。

④LSA不同于传统的自然语言处理过程和人工智能程序,它是完全自动的,它可以自动地模拟人类的知识获取能力,甚至分类、预测的能力。

(2)缺点:①LSA的核心在于SVD即奇异值分解,但是矩阵的SVD分解因对数据的变化较为敏感,同时缺乏先验信息的植入等而显得过分机械,从而使它的应用受到一定限制。

通过SVD分解会舍弃奇异值较小的向量,而有时恰恰是这部分向量决定文本的特征,因而如何在压缩语义空间和保留奇异值较小的向量之间寻找一个平衡点也是值得关注的问题之一。

②LSA在进行信息提取时,忽略词语的语法信息(甚至是忽略词语在句子中出现的顺序),仍是一种词袋(Bag-of-Word)方法。

它不能进行语法分析,忽略了某些事物之间的前后词序之间的关系,无法处理一些有前后顺序的事件对象。

③当前比较有成果的研究是针对英语环境进行的,涉及中文环境的研究还很少。

英语环境和中文环境存在很大的差别,不能直接将英语环境下的研究应用于中文环境,需要适当的改进和完善。

④目前的研究中k值一般是根据经验确定的,取值在50~0之间。

k值的选取会影响LSA信息检索质量,因而有必要根据不同处理对象和条件建立具有普遍性和通用性的k值确定方法。

3.3 基于概率的潜在语义分析(PLSA)Hoffman对LSA算法所存在的缺点和不足进行修正,提出一种新型的隐性变量挖掘算法,即基于概率的潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)[30]。

相关文档
最新文档