基于动态LDA主题模型的内容主题挖掘与演化_胡吉明

合集下载

基于LDA的主题发现及演化规律的可视化研究

基于LDA的主题发现及演化规律的可视化研究

逆 文 档 概 率 .综 合 逆 文 档 概 率 和 词 语 隶 属 主 题 的 概 率 来 挑 选 出该 主题 的 主题 词 簇 在 L D A挖 掘 ¨ : 不 同时 问 片 的 主题 词簇 的 基 础 上 .计 算 相 邻 时 间 片 的 主 题 相 似
度和主题强度 . 分 析 主 题 演 化 的连 续 性 和停 断性 最 后 利用上述计算 结果 . 用 主题 流 展 示 主 题 演 化 规 律 . 文 亨 云 展 示 时 间 片 内 的 主题 词 簇
领 域 提 出 了很 多 的分 析 技 术 .但 由于 主题 挖 掘 的结 果 通 常 是 一 堆 同簇 . 结果 复杂 . 因而 越 来 越 多 的 研 究 者 将 主题 挖 掘 和 可 视 化技 术I 4 1 结 合 在 一 起
本 文 对 微 博 数 据 进 行 了去 噪 和 分 组 . 做为 L D A 模 型的输入 . 输 出 各 个 时 间 片 的 主 题 词 簇 对 于 L D A 挖 掘 技 术 中 主题 词簇 中 的 词 语 排 列 顺 序 只 是 按 词 语 隶 属 该 主 题 的概 率 大 小评 估 的 .在 实 际实 验 过 程 中发 现 往
观 点 等 方 面 的 综 合 表 现 网 络所 具 有 的开 发 性 和 虚 拟 性 使 得 民 意 表 达 得 更 加 顺 畅 .同 时 也 可 能 在 一 个 热 点
个 词 语 比较 不 常 见 .但 是 它 在 这 个 文 档 巾 山 现 了 较
多 次 数 的话 .那 么 这 些 词 语 是 最 能 反 映 该 文 档 的 巾 心 思 想 的 .也 是 我 们 想 要 发 现 的 主 题 词 簇 所 以 在 L D A
开 发 案 例
文章编号 : 1 0 0 7 — 1 4 2 3 ( 2 0 1 7 ) 0 7 — 0 0 4 2 — 0 3

基于LDA主题模型的文本分析与应用研究

基于LDA主题模型的文本分析与应用研究

基于LDA主题模型的文本分析与应用研究近年来,随着信息技术的迅猛发展,海量的文本数据在互联网上不断涌现,为人们提供了大量的信息资源。

然而,如何高效地从这些数据中提取有用的信息,成为了信息处理领域的一项重要任务。

基于LDA主题模型的文本分析和应用研究,则是当前最为热门的研究方向之一。

一、 LDA主题模型简介LDA主题模型是目前最流行的一种文本分析方法,它可以用于对大规模文本数据进行主题分析和情感分析。

LDA主题模型最早由美国普林斯顿大学的Andrew Ng等人提出。

简而言之,LDA主题模型的基本思想是将文本数据看作是由若干个主题构成的,然后对主题进行抽样分析,以期发现文本数据的本质特征和内在规律。

二、 LDA主题模型的基本原理LDA主题模型的核心思想是“主题可生成词语,词语可推断主题”。

也就是说,我们可以通过对主题的分析,来猜测词语的含义。

LDA主题模型假设每个主题都是由若干个单词构成的,每个单词又被赋予了一个权重,表示该单词在该主题中的重要程度。

具体地说,LDA主题模型是一种概率模型,它把文档的任意一行看作是一些主题的集合,然后将其转化成了文档中每个单词取值特定主题的概率。

最终,我们可以通过对主题的分析,来猜测文档的主题分布以及单词的意义。

三、 LDA主题模型的应用领域LDA主题模型的应用领域非常广泛,包括自然语言处理、信息检索、社会网络分析、舆情监测等等。

以下是一些典型的应用领域:1、情感分析:LDA主题模型可以将文本数据分为不同的情感类别,如正面、中立、负面等。

2、文档聚类:利用LDA主题模型,可以将文档数据分为不同的类别,以避免重复呈现的问题。

3、主题建模:通过LDA主题模型,可以将文本数据按照主题进行分析,加深对文本内涵的理解。

4、社会网络分析:利用LDA主题模型,可以对社会网络中的不同用户进行个性化推荐和推荐广告。

5、广告推荐:LDA主题模型可以对消费者的兴趣和偏好进行推荐,从而提高广告效果和用户体验。

基于动态LDA主题模型的内容主题挖掘与演化_胡吉明

基于动态LDA主题模型的内容主题挖掘与演化_胡吉明
t 4. 1 从多项式分布 θ t d 中抽样生成主题的概率分布 z j: P ( z j α ) 4. 2 从多项式分布 φ t 中抽样生成词汇的概率分布 w i: P ( w i z j, βt zj )
出文本内容 和 主 题 之 间 的 概 率 分 布 关 系 ( 文 本 - 主 题和主题 - 词 汇) 。 进 而 对 前 一 个 时 间 片 文 本 集 中 文本的主题 - 词 汇 概 率 分 布 关 系 加 权 处 理 ( W ) 后, 作为当前时间片文本集中主题 - 词汇分布的先验概 率, 求出随时间变化的主题 - 词汇和文本 - 主题概 率分布, 最终得到此文本内容主题的时间演化模式, 如图 1 所示:
文本内容的主题提取即选择合适的文本内容主题 和特征词汇, 以 此对文本内容进行特征描述和建模 。 主题模型作为一种文本内容的概率生成模型或产生式 模型, 如潜在语义 分 析 ( LSA ) ( PLSA)
[2 ] [1 ]
构建了基于语言模型的 新 奇 新 闻 检 测 系 统 BilNov -
[10 ] 2005 , 实现了新奇新闻主题的动态实时挖掘 。 余传
mohd等设计了交互事件跟踪ievent系统以此发现用户交互所产生的热点内容主题构建了基于语言模型的新奇新闻检测系统bilnov2005实现了新奇新闻主题的动态实时挖掘10明等基于lda模型研究了用户评论内容主题和热点关键词的挖掘方法实验表明该模型具有较好的热点主题识别效果11刘洪涛等针对内容主题不明确和热点问题难以跟踪的问题通过计算文献作者的舆论评价得到每个评价社区的关键词概率描述实现了社区中评论主题的发现对文本语义挖掘和共享等具有重要意义12黄颖通过基于lda和主题词的相关性新事件监测模型结合报道发生的时间确定合理的主题数目以探知新事件13基于动态lda的内容主题挖掘模型网络环境下文本信息所具有的短文本结构特征加大了文本挖掘和表示的难度14因此本文在现有lda主题挖掘基础上结合微博博客社交网络等社会化网络服务中的交互式信息特点构建动态lda题模型按时间片划分文本信息将增量gibbs抽样算法引入其中通过参数估计得到时间片文本集中连续的主题词汇分布和文本主题分布

基于主题词和LDA模型的知识结构识别研究

基于主题词和LDA模型的知识结构识别研究

基于主题词和LDA模型的知识结构识别研究一、本文概述随着信息技术的迅猛发展,海量的知识资源已经渗透到人类社会的各个角落。

如何有效地识别、组织和管理这些知识,使其能够更好地服务于人类社会的发展,已成为当前研究的重要课题。

在此背景下,基于主题词和LDA(Latent Dirichlet Allocation)模型的知识结构识别研究应运而生,旨在从海量的知识资源中挖掘出潜在的主题结构,进而实现知识的有效组织和利用。

本文首先介绍了知识结构识别的研究背景和意义,阐述了基于主题词和LDA模型的知识结构识别方法的基本原理和流程。

接着,文章详细描述了主题词提取和LDA模型构建的具体步骤,包括数据预处理、特征选择、模型训练等关键环节。

在此基础上,文章进一步探讨了基于主题词和LDA模型的知识结构识别方法在不同领域的应用,包括文献分析、主题挖掘、知识图谱构建等方面。

本文的研究不仅有助于深入理解知识结构识别的基本原理和方法,而且能够为相关领域的研究提供有益的参考和借鉴。

同时,文章还指出了当前研究存在的不足和未来研究的方向,以期为推动知识结构识别研究的发展做出一定的贡献。

二、主题词提取技术对原始文本进行预处理,确保输入数据的质量与一致性,为后续的主题词提取奠定坚实基础。

预处理步骤通常包括:分词:将连续的文本流分解为单个词语或短语,依据汉语或英语等语言特点采用相应的分词算法。

停用词去除:移除高频但缺乏主题信息的词语,如“的”、“和”、“在”(汉语)或“the”、“of”、“in”(英语)等。

词干化词形还原:对于英文文本,通过词干化(stemming)或词形还原(lemmatization)处理,将不同形式的同义词归并到其基本形态,如将“running”还原为“run”。

经过预处理后的文本数据转化为文档词语矩阵(DocumentTerm Matrix, DTM),这是一个稀疏矩阵,行代表文档,列代表词语,矩阵元素值记录了词语在对应文档中出现的频率、TFIDF权重或其他量化指标。

基于LDA主题模型的格调挖掘

基于LDA主题模型的格调挖掘

概率选择了某个主题,而每个主题又是按照一定的概率选择
了某个词项”,其中“文档-主题”分布及“主题-词项”分布都是
服从一定参数的多项式分布。如果要生成一篇文档,每个词
出现的概率如式 1 所示:
∑ P(w|d) = z P(w|z) × P(z|d)
(1)
图 1 表示为 LDA 主m,n α β ξd
π
含义 第 m 篇文档的第 n 个词 第 m 篇文档的第 n 个词对应的发布者 关于文档-主题多项式分布的参数 θm 的 Dirichlet 分布参数 关于主题-词多项式分布的参数 φk 的 Dirichlet 分布参数 发布者 am,n 服从参数为 ξd 的均匀分布 发布者的格调极性,s1为格调极性高,s2为格调极性低
调词汇提取效果均优于传统 LDA 主题模型。
[关键词] 格调;短文本;LDA
中图分类号:TP391.1
文献标识码:A
文章编号:1008 - 6609 (2018) 05 - 0026 - 04
1 引言
近年来,微博、微信朋友圈等社交平台快速崛起,由于使 用方便、操作简单等优点被广大用户所使用。用户不仅可以 在社交平台上发表自己的看法 ,还可以通过点赞 、评论以及 转发的方式参与别人讨论的话题。过去关于社交平台的研 究多为人格以及情感研究 ,本文首次提出发布者格调的概 念,旨在通过微博用户的庞大数据量分析刻画出发布者的格 调极性分布。格调是指发布者的风格 、品味 ,往往由其文艺 作品中导出,而发布者的微博文本就是他们的文艺作品。挖 掘得到发布者的格调极性对微博的定向推荐有重要的意义。
2 相关工作
本文采用的主要研究方法是引入 LDA 主题模型,通过 主题分布来反映发布者的格调极性。徐戈等人[1]对主题模型 的发展以及各阶段主题模型的推导进行了详细的阐述,并对 改进的主题模型进行了展望。欧阳继红等人[2]提出了一种多 粒度情感混合模型,该研究对 LDA 主题模型进行了改进,考 虑两个粒度上,即整体以及局部的情感分布来刻画发布者的 情感。王永贵等人[3]提出了基于用户层的四层贝叶斯主题模 型,解决了 LDA 挖掘短文本效果不佳的问题。Daniel Preotiuc 等人[4]则从性别、年龄、职业三个方面使用社交文本释义 的方式刻画不同发布者的风格。

基于LDA模型的创新数据主题挖掘探索高技术(服务业)与制造业交互路径

基于LDA模型的创新数据主题挖掘探索高技术(服务业)与制造业交互路径

基于LDA模型的创新数据主题挖掘探索高技术(服务业)与制
造业交互路径
王野夫;裴晨蕊;张璐恒;饶维
【期刊名称】《软件》
【年(卷),期】2024(45)2
【摘要】聚类结果进行综合,得到最终聚类主题分析结果。

由于词云和聚类主题并不能直接得出技术所应用的行业,对具有代表性的两个公司的创新数据进行行业分析,发现目前应用于制造业的技术主要为工业互联网应用以及生产线产品检测。

得出高技术(服务业)主要通过提升自身的数字化、智能化以及技术创新助推制造业朝着服务化、数字化或智能化、绿色化发展。

【总页数】4页(P40-43)
【作者】王野夫;裴晨蕊;张璐恒;饶维
【作者单位】四川省通信产业服务有限公司;四川邮电职业技术学院
【正文语种】中文
【中图分类】TP242
【相关文献】
1.基于LDA主题模型和生命周期理论的科学文献主题挖掘
2.基于TF-IDF算法和LDA主题模型数据挖掘技术在电力客户抱怨文本中的应用
3.职场辱虐管理如何影响第三方情绪和行为?——基于文本挖掘以及LDA主题模型的大数据分析
4.基于
LDA主题模型与Apriori算法的旅游数据挖掘5.基于LDA主题模型的多数据库主题词挖掘算法
因版权原因,仅展示原文概要,查看原文内容请购买。

LDA主题模型算法原理及应用

LDA主题模型算法原理及应用

LDA主题模型算法原理及应用主题模型是文本挖掘和信息检索领域中非常重要的一种算法,它能够从大量文档中抽象出一系列主题,实现对文本内容的自动化提取和分析。

其中,LDA主题模型是应用最广泛的一种方法,本文将介绍其原理、方法和应用。

一、主题模型基本概念主题模型是一种用于发现主题的技术,它的核心思想是将文本表示成多个主题的分布,从而实现对文档主题的自动化刻画。

在主题模型中,文档被视为一个词条序列,主题被视为潜在变量,其分布可能并不明确,因此需要通过数据挖掘来实现主题的发现和提取。

二、LDA主题模型原理LDA主题模型是一种概率图模型,它将文档表示为多个主题的混合,同时将每个主题表示为多个词项的混合。

LDA主题模型通过以下几个步骤实现对文档主题的自动化提取:(1)确定文档中的词项和主题集合;(2)根据主题集合中的每个主题,确定其在文档中的分布;(3)对主题集合中的每个主题,确定其相关的词汇分布;(4)根据文档中每个词的观察进行参数估计,从而确定文档的主题分布。

三、LDA主题模型方法LDA主题模型可以使用各种算法实现,常用的有基于Gibbs采样的LDA和基于变分推断的LDA。

1. 基于Gibbs采样的LDAGibbs采样是一种蒙特卡洛方法,它可以通过随机游走的方式,在条件概率的基础上进行参数估计。

在基于Gibbs采样的LDA中,算法从主题的随机分布开始,根据观测的词项,迭代地更新主题和文档之间的概率分布,直到收敛为止。

2. 基于变分推断的LDA变分推断是一种坐标下降算法,它可以通过不断优化隐变量和参数的分布来实现主题的发现。

在基于变分推断的LDA中,算法从文档和主题的随机分布开始,根据参数的梯度,迭代地更新主题和文档之间的概率分布,直到达到收敛条件。

四、LDA主题模型应用LDA主题模型广泛应用于文本挖掘、信息检索、智能问答和情感分析等领域。

其中,基于LDA主题模型的文本分类方法是比较成熟的应用之一。

LDA主题模型还可以用于话题发现和趋势分析等领域,对于发现社交媒体中的热门话题和事件具有很高的应用价值。

一种基于LDA模型的主题句抽取方法

一种基于LDA模型的主题句抽取方法

一种基于LDA模型的主题句抽取方法王力;李培峰;朱巧明【期刊名称】《计算机工程与应用》【年(卷),期】2013(049)002【摘要】This paper proposes a novel topic sentence extraction approach based on model LDA on basis of acquiring candidate topic sentences through the topic-related and query-based keyword expansion. It can extract fine granularity on the subject and increase the reliability of the certain topical information. On several sub-topics against a target topic, it extracts those topic sentences by means of the reliability calculation according to the smoothness of the topic-sentence probability distribution. The method achieves good result in the special application of sentence extraction on web topic.%在基于Web的主题关键词查询扩展,获取候选主题句的基础上,提出一种基于LDA模型的主题句抽取方法,以抽取粒度较细的主题信息,并增加主题信息的置信度.该方法通过多个侧面对目标主题的衬托,采用LDA模型对主题信息进行建模,利用各个主题概率分布的平滑度进行候选句的可信度计算来抽取主题句.在面向Web的主题句抽取的具体应用中,取得了较好的效果.【总页数】6页(P160-164,257)【作者】王力;李培峰;朱巧明【作者单位】苏州大学计算机科学和技术学院,江苏苏州215006;江苏省计算机信息处理技术重点实验室,江苏苏州215006;苏州大学计算机科学和技术学院,江苏苏州215006;江苏省计算机信息处理技术重点实验室,江苏苏州215006;苏州大学计算机科学和技术学院,江苏苏州215006;江苏省计算机信息处理技术重点实验室,江苏苏州215006【正文语种】中文【中图分类】TP391.12【相关文献】1.一种基于PL-LDA模型的主题文本网络构建方法 [J], 张志远;霍纬纲2.一种基于LDA主题模型的评论文本情感分类方法 [J], 王伟;周咏梅;阳爱民;周剑峰;林江豪3.基于LDA模型的主题词抽取方法 [J], 石晶;李万龙4.一种基于RLDA主题模型的特征提取方法 [J], 冯新淇;张琨;任奕豪;谢彬;赵静5.一种基于LDA模型的关键词抽取方法 [J], 朱泽德;李淼;张健;曾伟辉;曾新华因版权原因,仅展示原文概要,查看原文内容请购买。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
[18 ]
zi = j 表 示 把 主 题 j 赋 给 词 汇 wi 作 为 其 主 其中, 题, 表示其他所有已知的或可见的信息( 如其他所 z -i 表示 以 及 超 参 数 α 和 β) , 有词汇 w - i 和 文 本 d - i , 当前词汇外的所有其他词汇的主题 z k ( k ≠ i ) 赋值( 即 v (n 分配给 z k ( k ≠ i ) 的 词 汇 数 ) , (n
文本内容挖掘与语义建模是信息推荐和数据挖掘 领域的研究热点与核心内容, 而文本内容的主题挖掘 则是语义建模的重要基础 。 当前网络环境下, 信息内 容具有呈动态交互和随时间发展演化等特征, 因此要 求创新信息内容挖掘方法, 提升内容主题挖掘的准确 性, 动态描述其演化趋势 。基于此, 本文对传统潜在狄 利克雷分布( LDA ) 主题模型进行动态化改进, 运用增 量 Gibbs 抽样估计算法, 实现文本内容主题的准确挖 掘; 在文本时间片划分的基础上, 基于主题相似度和强 度度量, 描述内容主题的时间演化趋势 。 本文研究对 语义层次的信息内容建模以及提高内容描述的准确性 具有重要作用 。
文本内容的主题提取即选择合适的文本内容主题 和特征词汇, 以 此对文本内容进行特征描述和建模 。 主题模型作为一种文本内容的概率生成模型或产生式 模型, 如潜在语义 分 析 ( LSA ) ( PLSA)
[2 ] [1 ]
构建了基于语言模型的 新 奇 新 闻 检 测 系 统 BilNov -
[10 ] 2005 , 实现了新奇新闻主题的动态实时挖掘 。 余传
图3
动态演化 LDA 文本生成过程
LDA 模型推理的依据就是文本生成过程的逆过 程, 根据文本的生成规则和已知参数, 通过概率推导求 得文本的主题结构; 本文中所要推理的参数为时间片 文本集内的主题 - 词汇概率分布 φ 和文本 - 主题分布 Gibbs 抽样 θ,
[16 ]
是其常用且最有效的推导方法 。 基于
第 58 卷 第 2 期 2014 年 1 月
基于动态 LDA 主题模型的内容主题挖掘与演化
■ 胡吉明 [ 摘 陈果
*
要] 指 出文本 内 容 主题 的 挖掘 和演 化 研究 对 于 文本建 模 和 分 类 及 推 荐 效 果 提 升 具 有 重要 作 用 。 从
分析基于 LDA 主题 模型的文本 内 容 主题 挖掘 原 理 入 手, 针 对 当 前 网 络 环境下 的文本 内 容 特 点 , 构建 适 用 于 动 态 文 内容本主题挖掘 的 LDA 模 型, 并通过 改 进的 Gibbs 抽样 估 计提 高主题 挖掘 的准 确性 , 进而从 主题 相 似 度 和 强度两个方 面研究 内 容 主题 随 时间 的演 化问题 。实验 表明 , 所提方 法 可行 且有 效 , 对后 续 有 关文本语义建 模 和 分 类 研究 等具有 重要 的实 践 意 义 。 [ 关键词] 主题 挖掘 [ 分类号] G202 DOI: 10. 13266 / j. issn. 0252 - 3116. 2014. 02. 023 主题 演 化 动 态 LDA 模型
138
第 58 卷 第 2 期 2014 年 1 月
题数目以探知新事件
[13 ]

间片内的文本信息受到上一时间片文本信息的影响) 从而建 作为当前时间片文本主题提取的先验概率 φ t , 立动态 LDA 文本主题挖掘模型, 如图 2 所示:
ห้องสมุดไป่ตู้
2
基于动态 LDA 的内容主题挖掘模型
网络环境下文本信息所具有的短文本结构特征加
明等基于 LDA 模型研究了用户评论内容主题和热点 关键词的挖掘方法, 实验表明该模型具有较好的热点 主题识别效果
[11 ]
、 概率潜在语义分析
和 LDA
[3 ]
, 通过对人类思维过程的模拟, 找
。 刘洪涛等针对内容主题不明确和
到产生文本的最佳主题和词汇, 能够最大程度地表示 文本中所蕴含的含义, 信息丢失较少, 较好地解决了词
基于产生式的三层贝叶斯概率计算得到通过潜在主题
新事件监测模型, 结合报道发生的时间确定合理的主
“社会网络环境下 信息 内 容 主题 挖掘 与语义 分 类 研究” ( 项目编号: 13YJC870008 ) 和国家 自然 科 * 本文系教育部人文社会科学青年基金项目 “社会网络环境下基于用户 - 资源关联的信息推荐研究( 项目编号: 71303178 ) ” 学青年基金项目 研究成果之一。 [作者简介] 胡吉明, Email: whuhujiming@qq. com; 陈果, 武汉大学信息资源研究中心讲师, 武汉大学信息资源研究中心博士研究生。 收稿日期: 2013 - 11 - 13 修回日期: 2014 - 01 - 04 本文起止页码: 138 - 142 本文责任编辑: 王传清
i i i i i i i
3
基于主题相似度和强度度量的主题
随着时间的发展, 信息内容的主题和强度也会发
演化
( 1) 生变化, 表现为从开始到高潮再到衰落的过程, 甚至循 环往复 。有效地组织大规模文本信息, 并按时间顺序 描述其主题的演化过程, 从而帮助用户追踪所需求偏 好的主题, 具有实际意义 。 文本主题随时间的演化主要从不同时间片的主题 相似度和强度变化来衡量
动态演化 LDA 文本生成过程 首先将文本按照设定好的时间间隔划分为 t 个时间片文本集, 每个时间 片文本集内对应一个 φ t 和 θ t d。 z2 , …, zT } ,选 择 第 一 个 时 间 片 文 本 集 t 对每 一 个 主 题 z t ∈ { z1 , = {1 , 2, …, t} 1 如果是第一个时间片 t = 1 , 则 φ t ~ Dir ( β1 ) 2 否则, 计算 φ t = φ t - 1 W 3 4 抽样计算 θ t 对每一个文本 d, d ~ Dir ( α ) 对文本中的每一个词汇 w i
[17 ]
此, 本文增量改进原始 Gibbs 抽样算法 2. 2
, 并将其运用
于 LDA 主题模型中实现其动态化运算 。 基于增量吉布斯抽样估计的主题确定 本文在进行动态 LDA 模型构建时, 首先引入先验 加 权,重 新 计 算 时 间 片 t 时 刻 的 后 验 概 率 P t
W U 为用户自行设定的权重, 词汇数, 本文认为当前时
图1
基于动态 LDA 主题模型的文本主题挖掘框架
在基于 LDA 主题模型进行文本主题提取的过程 中, 本文改进的重点是基于时间窗口将动态演化的文 本按时间窗划分, 按照文本内容主题的连续性和差异 性, 运用增量 Gibbs 抽样算法进行抽样计算 。 d2 , …, dl }, 首先, 确立时间 t 内的文本集合 Dt = { d1 , 时间窗大小根据用户需求 、 具体应用领域和文本分析 的粗细粒度设定( M t ) 。 文本时间片一旦划分, 则保证 不同时间片内的文本不能交换, 而同一时间片内的文 本可以交换 。其次, 根据前一时间的主题 - 词汇分布 的后验概率 φ t - 1 乘上权重 W ( W = Vt WU , V 为 t 时刻的 Vt - 1 t
139
胡吉明
陈果. 基于动态 LDA 主题模型的内容主题挖掘与演化
( zi = j z - i , wi , di , ), 即目标函数的计算公式变为: wi , di , Pt ( zi = j z - i , ) =
( w) w) d) ( n( ( n( - i, j ) t + v ( n - i, j ) t -1 + β - i, j )t + α ( ) ( ) ( d) ( n - i, j ) t + v ( n - i, j ) t - 1 + Vβ ( n - i, ) t + Tα ( w) ( d) w) T n ( n( ( ( + v n + ) ) β - i, j t - i, j t -1 - i, j )t + α ∑ ( ) ( ) ( d) j =1 ( n - i, j ) t + v ( n - i, j ) t - 1 + Vβ ( n - i, ) t + Tα
t 4. 1 从多项式分布 θ t d 中抽样生成主题的概率分布 z j: P ( z j α ) 4. 2 从多项式分布 φ t 中抽样生成词汇的概率分布 w i: P ( w i z j, βt zj )
出文本内容 和 主 题 之 间 的 概 率 分 布 关 系 ( 文 本 - 主 题和主题 - 词 汇) 。 进 而 对 前 一 个 时 间 片 文 本 集 中 文本的主题 - 词 汇 概 率 分 布 关 系 加 权 处 理 ( W ) 后, 作为当前时间片文本集中主题 - 词汇分布的先验概 率, 求出随时间变化的主题 - 词汇和文本 - 主题概 率分布, 最终得到此文本内容主题的时间演化模式, 如图 1 所示:
[4 ] 是目前最常用 汇、 主题和文本之间的语义关联问题 ,
热点问题难以跟踪的问题, 通过计算文献作者的舆论 评价得到每个评价社区的关键词概率描述, 实现了社 区中评论主题的发现, 对文本语义挖掘和共享等具有 重要意义
[12 ]
的文本主题提取方法
[5 ]
。 更重要的是, LDA 主题模型
。黄颖通过基于 LDA 和主题词的相关性
[8 ]

近年来, 网络信息内容主题的挖掘受到国内外研 究者和机构的广泛关注, 旨在准确捕捉网络信息内容 的动态演化特征, 跟踪或准确发现其发展变化趋势 。 如 M. Mohd 等设计了交互事件跟踪( iEvent ) 系统, 以此 发现用户交互所产生的热点内容主题
[9 ]
1


。 C. Aksoy 等
( ) - i, j t -1 ( wi ) - i, j t -1
相关文档
最新文档