概率潜在语义模型综述

合集下载

基于概率潜在语义分析的中文文本分类研究

基于概率潜在语义分析的中文文本分类研究

不 同概 念被 划 归为 同 一 个类 别 , 一 种是 两 篇 文 另
档 的某 特征 项分 别为 两个词但 表 达 了同一 概念被
划 归 为不 同的类别 . 因此 , 现“ 发 暗含” 在应 用文本
词 语之 间潜 在 的语 义关 系是 提高分 类系统性 能 的

存 储 的电子 文档 的数 目急剧 增 长 , 特别 是 随 着 互
潜 在 的概 率 语 义 空 间 , 将 文 档 和词 映 射 到 同一 个 语 义 空 间 . 文 将 概 率 潜 在 语 义 分 析 模 型 用 于 中 文 文 本 分 并 该 类 , 方 面 较 好 地处 理 了 自然 语 言 中的 同 义 、 义 问 题 ; 一 方 面 通 过 计 算 概 率 潜 在 语 义 空 间 中 向量 的 距 离 来 一 多 另 获得 文档 间 的类 别 信 息 从 而 达 到 文 本分 类 的 目的 . 验 结 果 表 明 , 分类 器具 有 良好 的 分类 性 能 . 实 该
关 键词 : 文文 本 分 类 ; 率 潜 在 语 义分 析 ; 义 空 间 中 概 语
中 图分 类 号 : 3 1 TP 9 文献标识码 : A
0 引 言
近十年 来 , 于 人 工智 能 的 自动文 本 分 类 技 基 术获 得 了长 足 的发 展 , 主 要 是 因 为 以数 字 形 式 这
L A)引, S 认 为 词 语 在 文 本 中 的使 用 模 式 内 S  ̄ L A 存在 着潜 在 的语义 结 构 , 同义 词 之 间应 该具 有 基
简单 地说 , 自动 文本 分 类 就 是 在 给定 的分 类
体 系下 , 根据文 本 的 内 容 自动地 确 定 文 本关 联 的

概率模型知识点总结

概率模型知识点总结

概率模型知识点总结概率模型是一种用来描述随机现象的模型,通常用来预测或计算某个事件发生的概率。

在统计学和机器学习领域,概率模型被广泛应用于数据分析、模式识别、预测和决策等领域。

本文将从概率基础、贝叶斯网络、隐马尔可夫模型等方面对概率模型进行详细介绍和总结。

一、概率基础1. 概率的定义概率是描述随机事件发生可能性的数学概念。

在统计学中,概率通常用P(A)来表示,表示事件A发生的可能性。

概率的范围是0≤P(A)≤1,即事件发生的概率介于0和1之间。

2. 条件概率条件概率是指在已知事件B发生的条件下,事件A发生的概率,用P(A|B)表示。

条件概率的计算公式为:P(A|B) = P(A∩B) / P(B)。

3. 贝叶斯定理贝叶斯定理是指在已知事件B发生的条件下,事件A发生的概率,用P(A|B)表示。

贝叶斯定理的公式为:P(A|B) = P(B|A) * P(A) / P(B)。

4. 随机变量随机变量是指在试验中可能出现并且有可能取得不同值的量。

随机变量分为离散型随机变量和连续型随机变量两种。

5. 概率分布概率分布是描述随机变量取值概率的分布情况。

常见的概率分布包括伯努利分布、二项分布、泊松分布、均匀分布、正态分布等。

二、贝叶斯网络1. 贝叶斯网络的概念贝叶斯网络是一种用图模型表示随机变量间依赖关系的概率模型。

贝叶斯网络由有向无环图(DAG)和条件概率分布组成。

2. 贝叶斯网络的表示贝叶斯网络由节点和有向边组成,节点表示随机变量,有向边表示变量之间的依赖关系。

每个节点都有一个条件概率分布,表示给定父节点的情况下,节点的取值概率。

3. 贝叶斯网络的推理贝叶斯网络可以用来进行概率推理,即在已知部分变量的情况下,推断其他变量的取值概率。

常见的推理方法包括变量消除、动态规划等。

4. 贝叶斯网络的应用贝叶斯网络被广泛应用于机器学习、模式识别、数据挖掘等领域,常见的应用包括故障诊断、风险评估、信息检索、智能决策等。

三、隐马尔可夫模型1. 隐马尔可夫模型的概念隐马尔可夫模型是一种用于建模时序数据的统计模型,它假设观察数据和状态之间存在概率关系。

基于概率潜在语义分析的词汇情感倾向判别

基于概率潜在语义分析的词汇情感倾向判别

基于概率潜在语义分析的词汇情感倾向判别最近几年,深度学习技术的发展对人工智能的发展产生了深远的影响。

在自然语言处理(NLP)领域,许多有关情感分析的文献研究正在大量涌现。

“基于概率潜在语义分析的词汇情感倾向判别”(PLSA)是一种在半监督学习任务中高效分析情感的有力方法,它可以在较低的计算成本和时间内,对输入文本进行情感分析。

PLSA方法可以根据文本内容分析情感倾向性,以及文本中提及的主题词来识别文本情感倾向性。

在PLSA方法中,算法会为每个词设定一个向量,该向量的每一维度表示该词的潜在语义,即对文本情感倾向的分析。

该方法需要训练大量的文本数据,通过统计分析,以建立潜在语义分析模型。

潜在语义分析模型是一个概率模型,它可以利用文本中的主题词来分析文本情感倾向。

该模型基于不同情感类别,如正面情感和负面情感,故而可以实现对半监督学习任务中文本情感的分析。

PLSA方法在情感分析领域越来越受到重视,因为它具有良好的准确性和可拓展性,在一定程度上可以克服传统分类器的性能畸变问题。

此外,PLSA方法使得半监督情感分析任务降至最低,从而极大地减轻了标注语料库的负担。

在实际应用中,PLSA方法有助于提高情感分析和社交网络分析等领域的服务质量。

PLSA方法也可以应用于文本情感倾向性识别任务中。

文本情感倾向性识别是一个很有挑战性的NLP任务,要求识别文本中情感倾向性的褒贬情感,并辅助参与者实现其它相关的情感计算任务。

例如,文本情感倾向性识别可以用于侦测社会舆论情绪变化,从而帮助企业做出更精准的决策。

在文本情感倾向性识别任务中,PLSA方法的优势是能够综合多种信息,如词语、句子结构和文本结构,而不局限于单个特征,从而更有效地识别文本情感倾向。

它能够计算文本中词语的潜在语义,从而判断出文本中覆盖的主题,甚至可以提取出背景复杂环境中的情感倾向状态,从而准确地描述文本所表达的情感。

然而,即使PLSA方法在情感分析领域具有较高的准确性,但也存在一定的局限性。

概率潜在语义模型综述

概率潜在语义模型综述

概率潜在语义模型综述信息检索本质上是语义检索, 而传统信息检索系统都是基于独立词索引, 因此检索效果并不理想. 概率潜在语义索引是一种新型的信息检索模型, 它在潜在语义索引模型思想的基础上, 通过EM迭代算法将词向量和文档向量投影到一个低维空间, 消减了词和文档之间的语义模糊度, 使得文档之间的语义关系更为明晰。

论述了概率潜在语义索引的理论基础, 探讨了隐含语义索引在信息处理处理中的应用。

标签:信息检索;潜在语义索引;SVD分解;概率潜在语义索引1 简介传统的信息检索模型可归为三类:布尔模型、向量空间模型和概率模型。

它们都分别把文本和查询表示为索引词的集合,尽管使用了不同的方法,但本质上均为某种形式的索引词的匹配,而没有进一步做语义上的分析。

自然语言中存在大量的同义词、多义词,这分别对传统检索模型的召回率和准确率有不利的影响。

检索系统要求用户提供足够多精确、无歧义的关键词才有可能得到所需要的信息,这大大增加了系统使用的难度。

为了进行更自然更人性化的查询,检索系统必须能够处理自然语言中的同义、多义现象,进行语义上的分析。

潜在语义分析(LSA)是一种发现潜在语义并分析文档、词和语义三者之间关系的方法。

其主要思想是通过统计分析来发现文档中词与词之间存在的某种潜在的语义结构,并且使用这些潜在的语义结构来表示词和文本。

虽然潜在语义分析在信息检索领域取得了令人满意的效果,但是它存在几个缺陷:首先由于潜在语义分析过程中奇异值分解的物理意义不够明确,较难控制词义聚类的效果;此外这个算法的空间和时间复杂度太大,在目前的计算机硬件条件下很难实际适应实际应用。

针对潜在语义分析的这些缺陷,Hoffmann 提出了一种新的方法-概率潜在语义分析(PLSA),该方法使用概率模型来表示“文档—潜在语义—关键词”三者之间的关系,文档和关键词都可以映射到同一个语义空间,这样,文档和文档以及文档和关键词之间的相似度都可以通过计算语义空间上的夹角而得以量化。

第18章 概率潜在语义分析

第18章  概率潜在语义分析
• 假设每个文本由一个话题分布决定,每个话题由一个单词分布决定。
• 概率潜在语义分析受潜在语义分析的启发,前者基于概率模型,后者基于非 概率模型
基本想法
• 给定一个文本集合,每个文本讨论若干个话题,每个话题由若干 个单词表示。
• 对文本集合进行概率潜在语义分析,就能够发现每个文本的话题, 以及每个话题的单词。
• 话题是不能从数据中直接观察到的,是潜在的。
基本想法
• 文本集合转换为文本-单词共现数据,具体表现为单词-文本矩阵
• 文本数据基于如下的概率模型产生(共现模型):
• 首先有话题的概率分布,然后有话题给定条件下文本的条件概率分布,以及话题给 定条件下单词的条件概率分布。
• 概率潜在语义分析就是发现由隐变量表示的话题,即潜在语义。
• 随机变量w取值于单词集合 • 随机变量d取值于文本集合 • 随机变量z取值于话题集合
生成模型
• 概率分布P(d)、条件概率分布P(zld)、条件概率分布P(w|z)皆属 于多项分布
• P(d):生成文本d的概率 • P(zId):文本d生成话题z的概率 • P(wIz):话题z生成单词w的概率
• 直观上,语义相近的单词、语义相近的文本会被聚到相同的“软的类别”中,而话 题所表示的就是这样的软的类别。
基本想法
• 假设有3个潜在的话题,图中三个框各自表示一个话题。
生成模型
• 假设有单词集合 • 文本(指标)集合 • 话题集合
,其中M是单词个数 ,其中N是文本个数 ,其中 K是预先设定的话题个数
第十八章 概率潜在语义分析
概率潜在语义分析
• 概率潜在语义分析(probabilistic latent semantic analysis, PLSA), 是一种利用概率生成模 型对文本集合进行话题分析的无监督学习方法。

plsa模型的原理

plsa模型的原理

plsa模型的原理plsa模型原理概述:概率潜在语义分析(Probabilistic Latent Semantic Analysis,简称PLSA)是一种基于概率图模型的文本主题模型。

它被广泛应用于文本挖掘、信息检索和推荐系统等领域,可以帮助我们从大量的文本数据中抽取出主题信息,从而实现文本分类、关键词提取等任务。

PLSA模型的基本原理如下:1. 文档-词矩阵:在PLSA模型中,将文本数据表示为一个文档-词矩阵。

文档-词矩阵的每一行表示一个文档,每一列表示一个词,矩阵中的每个元素表示对应文档中对应词的出现次数或权重。

2. 生成过程:PLSA模型假设每个文档都由多个主题组成,每个主题都对应一组特定的词。

生成一个文档的过程如下:首先从主题分布中抽取一个主题,然后从该主题对应的词分布中抽取一个词,重复这个过程直到生成整个文档。

3. 参数估计:PLSA模型的目标是通过最大化生成观测数据的概率,估计模型的参数。

参数估计可以通过EM算法来实现。

在E步,计算隐变量的后验概率;在M步,通过最大化对数似然函数来更新参数。

4. 主题-词分布:在PLSA模型中,每个主题都对应一个词分布,表示在该主题下每个词出现的概率。

主题-词分布可以通过模型的参数估计得到,可以用于关键词提取、主题识别等任务。

5. 文档-主题分布:在PLSA模型中,每个文档都有一个主题分布,表示该文档中每个主题的概率。

文档-主题分布可以通过模型的参数估计得到,可以用于文本分类、主题推荐等任务。

6. 模型评估:在训练完PLSA模型后,需要对模型进行评估。

常用的评估指标有对数似然函数、困惑度等。

这些指标可以用于比较不同模型的性能,并选择最优模型。

总结:PLSA模型通过建立文档-词矩阵,并通过概率图模型进行参数估计,从而实现对文本数据的主题抽取和分析。

该模型在文本挖掘、信息检索和推荐系统等领域有广泛应用。

通过理解和应用PLSA模型,我们可以更好地利用文本数据,进行文本分类、关键词提取和主题推荐等任务,提高信息处理的效率和准确性。

概率潜在语义检索模型中中文索引技术的比较研究

概率潜在语义检索模型中中文索引技术的比较研究
与直觉相 反 的是 , 量 的随机产 生 的无 意义 的二元 大
2 概 率潜在语义分析
2 1 模 型的描 述 .
给定一个文档集合 D={ d, , d , … d }和一
个词集合 W ={ w , w }以及一个文档和词 W , …, 的共现频率矩阵 N=( i.,( 。 i表示词 w 在 n ), d, ) .n W i 文档 d 中出现的频率 。使用 Z={ , , Z } i z Z …, 表 示潜在语义的集合 , K为人工指定 的一个常数 。概 率潜在语义分析假设“ 文档一词” 对之间是条件独
分布概率 , 也可以解 释为词对潜在语义 的贡献度 ,
通过 对 P wi 排序 可 以得 到 潜在 语 义 的一 个直 ( ) l Z
的影响, 使用更大 的词 表并 不一定 能提高检索效
观的词的表示。P ZIi表示文档 中的潜在语义 ( d)
收到本文时间 :06年 1 3 20 1月 0日
型中, 由于 “ 档 一查 询 ” 文 的相 似 性 计 算 是 在 潜 在
语义的向量空间进行的, 不同的索引模型将如何影
响检 索效 果 , 文将 对此 集 中讨 论 。 本
基于词和二元 的索引则具有最好的准确率。与基 于词 的索引不 同的是 , 元索 引不会 受到未 登 录词 二 的困扰 , 但是却 需要 消耗 过多 的存 储 空问 ¨ J 。
本 文 采 用 了 已经 较 为成 熟 的基 于 一元 语 法 的 分 词算 法对 中文 文档 进 行 分 词 。N元 语 法 是 一 种
成熟的语言模型 , 它假设一个单词 出现的概率只与
系如 图 1所 示 :
文档 词
3 索引技术
3 1 基 于分词 的索 引 . 在过 去二 十年 的时 间里 , 究者 对不 同的分 词 研 算 法 进行 了大量 的实 验 , 没有结 论 表明哪 一种方 法

概率潜在语义分析的KNN文本分类算法

概率潜在语义分析的KNN文本分类算法

概率潜在语义分析的KNN文本分类算法戚后林;顾磊【期刊名称】《计算机技术与发展》【年(卷),期】2017(027)007【摘要】Traditional KNN Text Classification (TC) algorithm just implements a simple concept matching during calculation of the similarity between texts without taking the semantic information of the text in training and test set into account.Thus it is possible to lose semantic meaning in the process of text classification with KNN classifier as well as inaccurate categorization results.Against this problem,a KNN text classification algorithm based on probabilistic latent topic model has been proposed,which establishes probabilistic topic models of text-theme,theme-lexical item for training set texts beforehand to map the semantic information to low dimensional space of theme and dictates text similarity with probability distributions of text-theme and theme-lexical.The semantic information of low dimensional text can be classified with the proposed KNN algorithm.The experimental results show that in training of large training dataset and unclassified dataset,the proposed algorithm can conduct semantic classification of text with KNN classifier and enhance the accuracy and recall rate as well as F1 measure in KNN classification.%传统的KNN文本算法在计算文本之间的相似度时,只是做简单的概念匹配,没有考虑到训练集与测试集文本中词项携带的语义信息,因此在利用KNN分类器进行文本分类过程中有可能导致语义丢失,分类结果不准确.针对这种情况,提出了一种基于概率潜在主题模型的KNN文本分类算法.该算法预先使用概率主题模型对训练集文本进行文本-主题、主题-词项建模,将文本携带的语义信息映射到主题上的低维空间,把文本相似度用文本-主题、主题-词项的概率分布表示,对低维文本的语义信息利用KNN算法进行文本分类.实验结果表明,在训练较大的训练数据集和待分类数据集上,所提算法能够利用KNN分类器进行文本的语义分类,且能提高KNN分类的准确率和召回率以及F1值.【总页数】5页(P57-61)【作者】戚后林;顾磊【作者单位】南京邮电大学计算机学院,江苏南京 210003;南京邮电大学计算机学院,江苏南京 210003【正文语种】中文【中图分类】TP301.6【相关文献】1.基于文本和类别信息的KNN文本分类算法 [J], 艾英山;张德贤2.变精度粗糙集的加权KNN文本分类算法 [J], 刘发升;董清龙;李文静3.基于TextRank的KNN文本分类算法研究 [J], 景永霞; 苟和平; 孙为4.基于加权局部线性KNN的文本分类算法 [J], 齐斌;邹红霞;王宇5.改进词向量和kNN的中文文本分类算法 [J], 丁正生;马春洁因版权原因,仅展示原文概要,查看原文内容请购买。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

概率潜在语义模型综述
信息检索本质上是语义检索, 而传统信息检索系统都是基于独立词索引, 因此检索效果并不理想. 概率潜在语义索引是一种新型的信息检索模型, 它在潜在语义索引模型思想的基础上, 通过EM迭代算法将词向量和文档向量投影到一个低维空间, 消减了词和文档之间的语义模糊度, 使得文档之间的语义关系更为明晰。

论述了概率潜在语义索引的理论基础, 探讨了隐含语义索引在信息处理处理中的应用。

标签:信息检索;潜在语义索引;SVD分解;概率潜在语义索引
1 简介
传统的信息检索模型可归为三类:布尔模型、向量空间模型和概率模型。

它们都分别把文本和查询表示为索引词的集合,尽管使用了不同的方法,但本质上均为某种形式的索引词的匹配,而没有进一步做语义上的分析。

自然语言中存在大量的同义词、多义词,这分别对传统检索模型的召回率和准确率有不利的影响。

检索系统要求用户提供足够多精确、无歧义的关键词才有可能得到所需要的信息,这大大增加了系统使用的难度。

为了进行更自然更人性化的查询,检索系统必须能够处理自然语言中的同义、多义现象,进行语义上的分析。

潜在语义分析(LSA)是一种发现潜在语义并分析文档、词和语义三者之间关系的方法。

其主要思想是通过统计分析来发现文档中词与词之间存在的某种潜在的语义结构,并且使用这些潜在的语义结构来表示词和文本。

虽然潜在语义分析在信息检索领域取得了令人满意的效果,但是它存在几个缺陷:首先由于潜在语义分析过程中奇异值分解的物理意义不够明确,较难控制词义聚类的效果;此外这个算法的空间和时间复杂度太大,在目前的计算机硬件条件下很难实际适应实际应用。

针对潜在语义分析的这些缺陷,Hoffmann 提出了一种新的方法-概率潜在语义分析(PLSA),该方法使用概率模型来表示“文档—潜在语义—关键词”三者之间的关系,文档和关键词都可以映射到同一个语义空间,这样,文档和文档以及文档和关键词之间的相似度都可以通过计算语义空间上的夹角而得以量化。

2 潜在语义索引(LSI)
潜在语义索引(Latent Semantic Indexing) 是S. T. Dumais)等人提出的。

其基本思想是文本中的词与词之间存在某种联系,即存在某种潜在的语义结构,因此采用统计的方法来寻找该语义结构,并且用语义结构来表示词和文本。

这样的结果可以达到消除词之间的相关性,化简文本向量的目的。

潜在语义索引的算法基于矩阵的奇异值分解
选择适当的K 值,将S0中删除相应的行和列得到S,删除T0、D0的相应的行和列分别得到T、D,运算得到新的矩阵A = TSD T,用它去近似原始矩阵,这
个秩为K 的新矩阵在最小平方意义上最接近原始矩阵。

即:
潜在语义索引与其它相关模型相比其好处在于一是可调节的表示能力;二是项和文本在同一空间内的确定性表示;三是对于大型数据集合的计算简便性,对于
某些单模式分析模型的计算复杂度达到O(N4) 或O (N5),而潜在语义索引为O (N2K3),其中N为矩阵行数加列数。

SVD 分解的重要意义在于将项和文本映射在同一个K维的语义空间内, 这样较之传统的单模式因子分析,它的基础不再是同一类型的两个事物的相似矩阵,而是任意的矩阵,其结果是将项和文本表示为K 个因子的形式, 而且保持了原始的大部分信息。

SVD 分解并不是为了描述这些潜在的语义结构,而是利用潜在语义结构来表示项和文本,克服单纯项表示时产生的同义、多义以及“斜交”现象。

利用SVD 分解不仅能够分析传统的项与项或者文本与文本的之间的相似关系,而且更关键的是能够分析项和文本的关系。

在新的语义空间分析计算项与项或者文本与文本的之间的相似系数,比直接利用原始的特征向量进行点内积运算,具有良好的效果。

因为它是基于语义层,而前者是基于词汇层。

3 概率潜在语义索引(PLSI)
虽然潜在语义模型在传统的信息检索模型的基础上加入了语义的概念,并在很多领域取得了令人满意的实验结果。

但是由于LSI 自身的物理意义不够明确,所以较难控制词义聚类的效果。

此外这个算法的空间和时间复杂度太大,在目前的硬件条件下很难实际应用。

1999 年,Hofmann 提出了统计隐含语义标引(PLSI)的概念,在理论和算法上都有所突破。

3.1 概率潜在语义索引模型描述
(1)构造“文档—词”索引矩阵。

如图1所示,构造文档—词的索引矩M(Word,Document ),其中的文档按照类型排序。

矩阵M中元素的初始值c(d,w)设为单词w在文档d 中出现的次数。

然后,需要进行归一化的操作,主要基于以下两个原因:第一,每篇文章中词的个数多少不同,因此一个词在短文章中出现一次的价值,显然应该大于在长文章中出现一次的价值;第二,一个很少出现的词,一旦出现在文档中,其价值应该大于普遍出现的词。

事实上,类似于“the, 我们,的,of”之类的词几乎在任何文档中都会出现,因此其价值应该是趋向于零的。

其中,c(d,w)是矩阵M 初始值,b 是系数,Count(w)是词w 在所有文档中出现的总次数,Length(d)是文档d 中所有非停用词数。

(2)构造语义空间,确定映射初始值。

构造k维的语义空间Z,并且依据(1)中的粗分类结果给出语义空间的先验
概率p(z)。

具体的操作如下:设有n 篇文档,文档共分为t 种类型,其中第1 篇到第i 篇是同一类型的,那么有:
其中,’’表示取整操作,k 值的选取依赖于经验,如果太小则无法把各类分开,如果太大则太敏感,容易引入噪声;在一般应用中可取20到100。

有了语义空间后,需要分别构造“文档—主题”的映射矩阵P(D,Z)和“词—主题”的映射矩阵P(W,Z),并给出初始值。

设共有文档n 篇,其中文档d 属于第一类,而第一类的文档共有i
而对矩阵P(W,Z),由于不知道任何的先验知识,所以就给随机值作为其初始值;需要注意的是,必须满足概率矩阵的条件,也就是任何一行的值之和必须是1。

(3) 采用EM 迭代算法,求得结果。

根据上述的结果,可以求得“文档—词”的相似度矩阵P(W,D)初始值:
然后,在最小熵的意义下,进行优化。

即最大化以下函数(其中m(w,d)是索引矩阵M中的元素):
反复应用公式⑥⑦,直到函数⑤的变化量很小,即可认为达到了最大值。

从而就获得了最优化的P(Z),P(W,Z),P(D,Z)矩阵。

3.2 概率潜在语义索引的应用
文本分类问题的核心是计算文本之间相似度。

设从文本do 中抽取词向量Wo,其维度等于P(W,W)矩阵的行向量维度,其元素W o(word)为词word 在文本中出现次数的归一化值。

利用P(W,W),得到文本相似度:
(3) PLSI 跨语言查询关键词扩展。

基于PLSI 的跨语言关键词扩展,实际上整合了机器翻译,词义消歧,语义扩展等多项功能。

所有的工作综合起来,乘一个词间相似度矩阵即可完成。

首先
构造查询关键词向量Wq,扩展后的关键词向量We。

Wq是相当稀疏的,而We
乎在每一项上都有值。

这是符合设计思想的,任何词之间(包含中英文词或其他语言的词)都有一定程度的语义联系,区别仅仅在于这种联系的强弱。

(4)基于PLSI的中文文本聚类。

利用PLSI也可以进行文档的聚类分析. 聚类分析就是根据对象之间的相似性, 把一组对象划分为一个个更小的组, 使得组内对象尽可能相同, 而组与组之间尽可能不同. 可以选择任何一种基于向量模型的聚类方法. 其中, 核心任务是计算向量间的相似度。

当进行文档聚类时, 利用公式(9)中的方法计算文档间
的相似度;对文本库中的词进行聚类分析时,利用“词-词”相似度矩阵P(W,W)计算词之间的相似度。

词聚类可应用于自动词典建立、自动寻找索引词和文本分类等.
参考文献
[1]金千里,赵军,徐波.弱指导的统计隐含语义分析及其在跨语言信息检索中的应用.
[2]周水庚,关佶红,胡运发.隐含语义索引及其在中文文本处理中的应用研究,小型微型计算机系统,2001 V ol.22 No.2.
[3]THOMAS HOFMANN, Unsupervised Learning by Probabilistic Latent Semantic Analysis, Machine Learning, 42, 177-196, 2001
[4]Thomas L. Gri_ths and Mark Steyvers, A probabilistic approach to semantic representation.
[5]Peter W. Foltz, Walter Kintsch and Thomas K. Landauer, The Measurement of Textual Coherence with Latent Semantic Analysis.
[6]Christos H. Papadimitriou, Prabhakar Raghavan, Hisao Tamaki and Santosh Vempala, Latent Semantic Indexing: A Probabilistic Analysis, Journal of Computer and System Sciences 61, 217_235 (2000).
注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。

”。

相关文档
最新文档