潜在语义模型 LSI

合集下载

机器学习小例子

机器学习小例子它是机器学习的重要基础，从描述算法操作的符号到代码中算法的实现，都属于该学科的研究范围。

虽然线性代数是机器学习领域不可或缺的一部分，但二者的紧密关系往往无法解释，或只能用抽象概念（如向量空间或特定矩阵运算）解释。

阅读这篇文章后，你将会了解到：如何在处理数据时使用线性代数结构，如表格数据集和图像。

数据准备过程中用到的线性代数概念，例如one-hot编码和降维。

深度学习、自然语言处理和推荐系统等子领域中线性代数符号和方法的深入使用。

让我们开始吧。

这10个机器学习案例分别是：1.DatasetandDataFiles数据集和数据文件2.ImagesandPhotographs图像和照片3.One-HotEncodingone-hot编码4.LinearRegression线性回归5.Regularization正则化6.PrincipalComponentAnalysis主成分分析7.Singular-ValueDecomposition奇异值分解tentSemanticAnalysis潜在语义分析9.RecommenderSystems推荐系统10.DeepLearning深度学习1.数据集和数据文件在机器学习中，你可以在数据集上拟合一个模型。

这是表格式的一组数字，其中每行代表一组观察值，每列代表观测的一个特征。

例如，下面这组数据是鸢尾花数据集的一部分数据集：5.1，3.5，1.4，0.2，Iris-setosa4.9，3.0，1.4，0.2，Iris-setosa4.7，3.2，1.3，0.2，Iris-setosa4.6，3.1，1.5，0.2，Iris-setosa5.0，3.6，1.4，0.2，Iris-setosa这些数据实际上是一个矩阵：线性代数中的一个关键数据结构。

接下来，将数据分解为输入数据和输出数据，来拟合一个监督机器学习模型（如测量值和花卉品种），得到矩阵（X）和矢量（y）。

lsi的名词解释

lsi的名词解释
LSI是潜在语义索引（Latent Semantic Indexing）的缩写，是一种文本挖掘和信
息检索的技术。

它通过对文本语料进行分析和处理，可以帮助改善搜索引擎的准确性和性能。

LSI的基本原理是通过将文本转换成高维的数学向量表示，在向量空间中比较
文本之间的相似性。

LSI首先会构建一个词项-文档矩阵，其中每一行代表一个文档，每一列代表一个词项，矩阵的元素表示词项在文档中的权重。

然后，使用特征值分解技术对这个矩阵进行分解，得到文档的隐含语义。

通过降维和减少噪声，
LSI可以揭示文本之间的语义相关性，从而提高搜索引擎的结果质量。

LSI可以用于各种文本相关的应用，包括信息检索、文本聚类、文本分类等。

在信息检索方面，LSI可以解决传统关键词匹配带来的问题，如同义词、多义词和
相关性不高的结果。

它可以根据文本的语义信息，对查询进行扩展和修正，提供更准确和相关的搜索结果。

在文本聚类和分类方面，LSI可以将相似的文本归为一类，从而帮助用户理解和组织大量的文本信息。

总之，LSI作为一种潜在语义索引的技术，通过对文本进行语义分析和建模，
可以提高搜索引擎的准确性和性能，以及改善文本相关应用的效果。

概率潜在语义模型综述

概率潜在语义模型综述信息检索本质上是语义检索, 而传统信息检索系统都是基于独立词索引, 因此检索效果并不理想. 概率潜在语义索引是一种新型的信息检索模型, 它在潜在语义索引模型思想的基础上, 通过EM迭代算法将词向量和文档向量投影到一个低维空间, 消减了词和文档之间的语义模糊度, 使得文档之间的语义关系更为明晰。

论述了概率潜在语义索引的理论基础, 探讨了隐含语义索引在信息处理处理中的应用。

标签：信息检索；潜在语义索引；SVD分解；概率潜在语义索引1 简介传统的信息检索模型可归为三类：布尔模型、向量空间模型和概率模型。

它们都分别把文本和查询表示为索引词的集合，尽管使用了不同的方法，但本质上均为某种形式的索引词的匹配，而没有进一步做语义上的分析。

自然语言中存在大量的同义词、多义词，这分别对传统检索模型的召回率和准确率有不利的影响。

检索系统要求用户提供足够多精确、无歧义的关键词才有可能得到所需要的信息，这大大增加了系统使用的难度。

为了进行更自然更人性化的查询，检索系统必须能够处理自然语言中的同义、多义现象，进行语义上的分析。

潜在语义分析(LSA)是一种发现潜在语义并分析文档、词和语义三者之间关系的方法。

其主要思想是通过统计分析来发现文档中词与词之间存在的某种潜在的语义结构，并且使用这些潜在的语义结构来表示词和文本。

虽然潜在语义分析在信息检索领域取得了令人满意的效果，但是它存在几个缺陷：首先由于潜在语义分析过程中奇异值分解的物理意义不够明确，较难控制词义聚类的效果；此外这个算法的空间和时间复杂度太大，在目前的计算机硬件条件下很难实际适应实际应用。

针对潜在语义分析的这些缺陷，Hoffmann 提出了一种新的方法－概率潜在语义分析(PLSA)，该方法使用概率模型来表示“文档—潜在语义—关键词”三者之间的关系，文档和关键词都可以映射到同一个语义空间，这样，文档和文档以及文档和关键词之间的相似度都可以通过计算语义空间上的夹角而得以量化。

计算机毕业论文_一种基于潜在语义结构的文本分类模型

一种基于潜在语义结构的文本分类模型摘要：潜在语义索引（LSI）模型，是一种已经成功地应用于文本分类等很多领域的算法。

LSI模型能在一定程度上解决一词多义和多词一义问题，并能过滤一部分文档噪音。

然而在LSI模型中，对稀有类别很重要的分类特征，可能因为在整个文档集中不重要而被滤掉。

针对这一问题，本文提出了一种新颖的扩展LSI模型的文本分类模型。

新模型在尽量保留文档信息的同时，增加考虑了文档的类别信息。

这样，新模型将能比LSI模型更好地表示原始文档空间中的潜在语义结构。

在实验中，本分类模型也表现出了非常好的分类性能。

关键词：文本分类潜在语义索引偏最小二乘分析中图分类号：TP18 文献标识码: A1 引言自动文本分类就是在给定的分类体系下，根据文本的内容自动地确定文本关联的类别。

如今，已经有很多基于统计和机器学习的文本分类算法，如：回归模型、K近邻、决策树、朴素贝叶斯和支持向量机等[1]。

其中，很多现有的分类算法都是基于从文本中抽取关键词（经常是单独的词）的方法。

在这种方法中，假定一个关键词唯一地代表一个概念或语义单元；然而实际的情况是：一个词往往有多个不同的含义，多个不同的词也可以表示同一个语义。

这就是所谓的一词多义和多词一义。

比如：“马上”可以有“立刻”的意思，也可以理解为“马的上面”；“感冒”、“伤风”和“着凉”却代表着同一种疾病。

像这样的情况是很难由计算机自动判别的。

一词多义和多词一义，是所有基于语义的算法必须解决的两个主要问题。

潜在语义索引（LSI: Latent Semantic Indexing）[2]，是近年来比较有效的算法之一。

LSI 把原始的向量空间转换成潜在语义空间，文档和查询就在转换后的语义空间上进行表示和比较。

实验表明这种方法可以在一定程度上解决一词多义和多词一义问题：新的语义空间是原始“文档向量矩阵”的线性组合变换得到的，一般认为这个空间能捕捉文档集中的潜在语义结构。

由于LSI在信息检索中的优异表现[2]，就有人开始尝试将其应用于文本分类领域。

SEO 名词解释大全

SEO 名词解释大全1） 301重定向网址重定向最为可行的一种办法。

当用户或搜索引擎向网站服务器发出浏览请求时，服务器返回的HTTP数据流中头信息(header)中的状态码的一种，表示本网页永久性转移到另一个地址。

2）adwords Google的 PPC（ Pay Per Click ）广告，是很多网站常用的一种广告形式.3) algorithm (算法) 这是搜索引擎用来检索内容和计算相关信息的程序.4) alt 是展示给终端用户的图片的描述.加入 ALT Tag 后，如果图片没有显示，浏览器就会在本来图片的位子用文字的方式显示 ALT Tag 的内容，来帮助浏览者浏览网页。

详细图片ALT信息请看: 5) B2B：Business to Business.6) B2C：Business to Consumer7) C2C：Consumer to Consumer8) back link 即反向链接.常规链接在源文档内部进行声明和显示，而反向链接则在目的文档内部进行声明.如果B网站指向 A 网站,那么B网站就是都属于A 网站的反向链接.9) black hat：黑帽，简单的讲就是 SEO作弊10) bounce rate 就是一个跳出率，当一个用户进入一个网页，接着在一个会话时间内没有看过该站其他的页面就分开了该网站，就被称作Bounce。

请注意这里有两个参数，一个是是否点击浏览其他的页面，第二个就是哪个会话时间段。

这个Bounce Rate越低越好，说明用户访问了更多的页面。

而且这个Bounce Rate已经是网站流量统计的一个通用标准，一般及格的流量统计都有。

11) bread crumbs “面包屑型”架构让用户对他们所访问的此页与彼页在层次结构上的关系一目了然。

这种网站结构的其中一个最明显的特性体现莫过于返回导览功能。

12) Canonical Issues (内容重复的一种) 所谓 Canonical Issues，主要指网站的主访问路径，如果网站存在多种访问方式，搜索引擎会取舍一种其认为最佳的方式确定为“权威地址”，比如说，对大多数网站而言，其主页可以用以下三种 URL访问：但从技术上讲，这三个Url是不同的，可以分别显示单独的内容。

数字化预案中词空间表达和潜在语义分析

【摘
要】词语是数字化预案有效表达的最小语义单元，因此，应急领域的词空间表达是构建数字化预案的重要内容。本文应用潜在语义分析(LSA)的代数方法，在分析应急预案中潜在语义信息的基础上，总结了应急预案中词语的潜在语义信息的基本规律，提出了基于LSA的数字化预案词空间的表达方法。通过一个简单的算例，将高维的词语映射到低维的潜在语义词空间，对应急预案的潜在语义信息和结构信息的基本规律进行分析，初步验证了该词空间表达方法的有效性。【关键词】数字化预案；词空间表达；潜在语义分析；奇异值分解；潜在语义空间【文献标识码】【DOI】【文章编号】【中图分类号】 F224;TP393 A 10.3969/j.issn.1672-2396.2011.03.011 16722396[2011]24-0047-05
ቤተ መጻሕፍቲ ባይዱ
Abstract: Words are the minimum semantic unit used to expressing digital emergency plan, so word space construction is an important content of digital emergency plan. The latent semantic information is analyzed by using LSA. Then, a method of word space construction of digital emergency is proposed and the basic law of latent semantic of word in emergency domain is summarized. Thought a calculation example, the basic law of semantic and structural information of emergency plan is analyzed by mapping words in high-dimensional to the words of low-dimensional latent semantic space, and then the velocity of word space constructed in this paper is verified. Key words: digital emergency plan; word space construction; latent semantic analysis; singular value decomposition; latent semantic space

一种大规模数据的快速潜在语义索引

第 35 卷 Vol.35
第 15 期 No.15
计算机工程 Computer Engineering
文章编号：1000—3428(2009)15—0035—03 文献标识码：A
2009 年 8 月 August 2009
中图分类号：TP311
·软件技术与数据库·
一种大规模数据的快速潜在语义索引
X = USV T 其中，
U = {u1 , u2 ,L , ur } ∈ R m×r ;V = {v1 , v2 ,L , vr } ∈ R n×r ; S = diag (σ 1 , σ 2 ,L , σ r ) ∈ R r×r。
W * = arg maxW ∈H Jm×k ,W TW = I }
也就是说，特征提取算法的解空间中包括了所有 m × k 的正交实矩阵。特征选择算法则包括信息增益、 χ 2 准则等经典算法，它们可以形式化成
W * = arg maxW ∈H J fs (W )
Fast Latent Semantic Indexing on Large-scale Dataset
WEI Wei1, WANG Jian-min2
(1. Department of Computer Science and Technology, Tsinghua University, Beijing 100084; 2. School of Software, Tsinghua University, Beijing 100084) 【Abstract】Latent Semantic Indexing(LSI) has been successfully applied to various fields in modern information retrieval. However, the high computational complexity of Singular Value Decomposition(SVD) makes it improbable on the application of large-scale dataset. This paper proposes a fast LSI approach to solve this problem. It gives a unified framework of dimension reduction problem. As a feature extraction method, LSI can be transformed into a feature selection method within this framework. This new strategy can simplify significantly the computation of LSI. 【Key words】Latent Semantic Indexing(LSI); dimension reduction; feature selection; feature extraction

文本分类入门(三)统计学习方法

前文说到使用统计学习方法进行文本分类就是让计算机自己来观察由人提供的训练文档集，自己总结出用于判别文档类别的规则和依据。

理想的结果当然是让计算机在理解文章内容的基础上进行这样的分类，然而遗憾的是，我们所说的“理解”往往指的是文章的语义甚至是语用信息，这一类信息极其复杂，抽象，而且存在上下文相关性，对这类信息如何在计算机中表示都是尚未解决的问题（往大里说，这是一个“知识表示”的问题，完全可以另写一系列文章来说了），更不要说让计算机来理解。

利用计算机来解决问题的标准思路应该是：为这种问题寻找一种计算机可以理解的表示方法，或曰建立一个模型（一个文档表示模型）；然后基于这个模型，选择各方面满足要求的算法来解决。

用谭浩强的话说，程序，就是数据+算法。

（啥？你不知道谭浩强是谁？上过学么？学过C么？这捣什么乱？）既然文本的语义和语用信息很难转换成计算机能够理解的表示形式，接下来顺理成章的，人们开始用文章中所包含的较低级别的词汇信息来表示文档，一试之下，效果居然还不错。

统计学习方法进行文本分类（以下就简称为“统计学习方法”，虽然这个方法也可以应用到除文本分类以外的多个领域）的一个重要前提由此产生，那就是认为：文档的内容与其中所包含的词有着必然的联系，同一类文档之间总存在多个共同的词，而不同类的文档所包含的词之间差异很大[1]。

进一步的，不光是包含哪些词很重要，这些词出现的次数对分类也很重要。

这一前提使得向量模型（俗称的VSM，向量空间模型）成了适合文本分类问题的文档表示模型。

在这种模型中，一篇文章被看作特征项集合来看，利用加权特征项构成向量进行文本表示，利用词频信息对文本特征进行加权。

它实现起来比较简单，并且分类准确度也高，能够满足一般应用的要求。

[5]而实际上，文本是一种信息载体，其所携带的信息由几部分组成：如组成元素本身的信息（词的信息）、组成元素之间顺序关系带来的信息以及上下文信息（更严格的说，还包括阅读者本身的背景和理解）[12]。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

LSI
LSI
LSI 实例
U：SVD 词项矩阵
奇异值矩阵Σ
V’：SVD 文档矩阵
LSI 实例
LSI 结论
LSI 结论
疑问
左奇异向量表示词的一些特性，右奇异向量表示文档的一些特性，中间的奇异值矩阵表示左奇异向量的一行与右奇异向量的一列的重要程序，数字越大越重要。继续看这个矩阵还可以发现一些有意思的东西，首先，左奇异向量的第一列表示每一个词的出现频繁程度，虽然不是线性的，但是可以认为是一个大概的描述，比如book是0.15对应文档中出现的2次，investing是0.74对应了文档中出现了9次，rich是0.36对应文档中出现了3次；其次，右奇异向量中一的第一行表示每一篇文档中的出现词的个数的近似，比如说，T6 是0.49，出现了5个词，T2是0.22，出现了2个词。然后我们反过头来看，我们可以将左奇异向量和右奇异向量都取后2维（之前是3维的矩阵），投影到一个平面上，可以得到：
奇异值分解
• 令r 是M×N 矩阵C 的秩，那么C 存在如下形式的SVD：
U 是一个M×M 的矩阵，其每一列是矩阵CC’的正交特征向量，而N×N 矩阵V 的每一列都是矩阵C’C 的正交特征向量。这里C’是C 的转置矩阵。
奇异值分解
• 这里的σ就是上面说的奇异值，u就是上面说的左奇异向量。奇异值σ 跟特征值类似，在矩阵Σ中也是从大到小排列，而且σ的减少特别的快，在很多情况下，前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。也就是说，我们也可以用前r大的奇异值来近似描述矩阵，这里定义一下部分奇异值分解：
r是一个远小于m、n的数，这样矩阵的乘法看起来像是下面的样子：
低秩逼近
低秩逼近
低秩逼近
低秩逼近
LSI
• 目的：处理自然语言中的两个经典问题一义多词（synonymy）和一词多义（polysemy）问题。
一义多词指的是不同的词（比如car 和automobile）具有相同的含义。向量空间表示不能捕捉诸如car 和automobile 这类同义词之间的关系，而是将它们分别表示成独立的一维。因此，计算查询q（如car）和文档 d（同时包含 car 和 automobile）的相似度q ⋅ d时，就会低估了用户所期望的相似度。而一词多义指的是某个词项（如 charge）具有多个含义，因此在计算相似度q ⋅ d时，就会高估了用户所期望的相似度。一个很自然的问题就是，能否利用词项的共现情况（比如，charge是和steed 还是electron 在某篇文档中共现），来获得词项的隐性语义关联从而减轻这些问题的影响？
小结
• 总结一下，特征值分解可以得到特征值与特征向量，特征值表示的是这个特征到底有多重要，而特征向量表示这个特征是什么，可以将每一个特征向量理解为一个线性的子空间，我们可以利用这些线性的子空间干很多的事情。不过，特征值分解也有很多的局限，比如说变换的矩阵必须是方阵。
奇异Байду номын сангаас分解
• 特征值分解是一个提取矩阵特征很不错的方法，但是它只是对方阵而言的，在现实的世界中，我们看到的大部分矩阵都不是方阵，比如说有N个学生，每个学生有M科成绩，这样形成的一个N * M的矩阵就不可能是方阵，我们怎样才能描述这样普通的矩阵呢的重要特征呢？奇异值分解可以用来干这个事情，奇异值分解是一个能适用于任意的矩阵的一种分解的方法。
潜在语义模型 LSI (Latent Semantic Index)
特征值基础知识
• 特征值与特征向量：如果说一个向量v是方阵A的特征向量，将一定可以表示成下面的形式：
这时候λ就被称为特征向量v对应的特征值。特征值分解是将一个矩阵（可对角化矩阵）分解成下面的形式：
其中Q是这个矩阵A的特征向量组成的矩阵，Σ是一个对角阵，每一个对角线上的元素就是一个特征值。
矩阵与特征向量的几何意义
• 一个矩阵其实就是一个线性变换的描述，因为一个矩阵乘以一个向量后得到的向量，其实就相当于将这个向量进行了线性变换。
矩阵与特征向量的几何意义
• 如果我们想要描述好一个变换，那我们就描述好这个变换主要的变化方向就好了。看看之前特征值分解的式子，分解得到的Σ矩阵是一个对角阵，里面的特征值是由大到小排列的，这些特征值所对应的特征向量就是描述这个矩阵变化方向（从主要的变化到次要的变化排列）。 • 当矩阵是高维的情况下，那么这个矩阵就是高维空间下的一个线性变换，这个线性变化可能没法通过图片来表示，但是可以想象，这个变换也同样有很多的变换方向，我们通过特征值分解得到的前N个特征向量，那么就对应了这个矩阵最主要的N个变化方向。我们利用这前 N个变化方向，就可以近似这个矩阵（变换）。也就是之前说的：提取这个矩阵最重要的特征。