基于动态LDA主题模型的内容主题挖掘与演化_胡吉明

合集下载

基于LDA的主题发现及演化规律的可视化研究

逆文档概率．综合逆文档概率和词语隶属主题的概率来挑选出该主题的主题词簇在ＬＤＡ挖掘 ¨ ：不同时问片的主题词簇的基础上．计算相邻时间片的主题相似
度和主题强度．分析主题演化的连续性和停断性最后利用上述计算结果．用主题流展示主题演化规律．文亨云展示时间片内的主题词簇
领域提出了很多的分析技术．但由于主题挖掘的结果通常是一堆同簇．结果复杂．因而越来越多的研究者将主题挖掘和可视化技术Ｉ４１结合在一起
本文对微博数据进行了去噪和分组．做为ＬＤＡ模型的输入．输出各个时间片的主题词簇对于ＬＤＡ挖掘技术中主题词簇中的词语排列顺序只是按词语隶属该主题的概率大小评估的．在实际实验过程中发现往
观点等方面的综合表现网络所具有的开发性和虚拟性使得民意表达得更加顺畅．同时也可能在一个热点
个词语比较不常见．但是它在这个文档巾山现了较
多次数的话．那么这些词语是最能反映该文档的巾心思想的．也是我们想要发现的主题词簇所以在ＬＤＡ
开发案例
文章编号：１００７ — １４２３（２０１７）０７ — ００４２ — ０３

基于LDA主题模型的文本分析与应用研究

基于LDA主题模型的文本分析与应用研究近年来，随着信息技术的迅猛发展，海量的文本数据在互联网上不断涌现，为人们提供了大量的信息资源。

然而，如何高效地从这些数据中提取有用的信息，成为了信息处理领域的一项重要任务。

基于LDA主题模型的文本分析和应用研究，则是当前最为热门的研究方向之一。

一、 LDA主题模型简介LDA主题模型是目前最流行的一种文本分析方法，它可以用于对大规模文本数据进行主题分析和情感分析。

LDA主题模型最早由美国普林斯顿大学的Andrew Ng等人提出。

简而言之，LDA主题模型的基本思想是将文本数据看作是由若干个主题构成的，然后对主题进行抽样分析，以期发现文本数据的本质特征和内在规律。

二、 LDA主题模型的基本原理LDA主题模型的核心思想是“主题可生成词语，词语可推断主题”。

也就是说，我们可以通过对主题的分析，来猜测词语的含义。

LDA主题模型假设每个主题都是由若干个单词构成的，每个单词又被赋予了一个权重，表示该单词在该主题中的重要程度。

具体地说，LDA主题模型是一种概率模型，它把文档的任意一行看作是一些主题的集合，然后将其转化成了文档中每个单词取值特定主题的概率。

最终，我们可以通过对主题的分析，来猜测文档的主题分布以及单词的意义。

三、 LDA主题模型的应用领域LDA主题模型的应用领域非常广泛，包括自然语言处理、信息检索、社会网络分析、舆情监测等等。

以下是一些典型的应用领域：1、情感分析：LDA主题模型可以将文本数据分为不同的情感类别，如正面、中立、负面等。

2、文档聚类：利用LDA主题模型，可以将文档数据分为不同的类别，以避免重复呈现的问题。

3、主题建模：通过LDA主题模型，可以将文本数据按照主题进行分析，加深对文本内涵的理解。

4、社会网络分析：利用LDA主题模型，可以对社会网络中的不同用户进行个性化推荐和推荐广告。

5、广告推荐：LDA主题模型可以对消费者的兴趣和偏好进行推荐，从而提高广告效果和用户体验。

基于动态LDA主题模型的内容主题挖掘与演化_胡吉明

t 4． 1 从多项式分布 θ t d 中抽样生成主题的概率分布 z j： P ( z j α ) 4． 2 从多项式分布 φ t 中抽样生成词汇的概率分布 w i： P ( w i z j， βt zj )
出文本内容和主题之间的概率分布关系（文本－主题和主题－词汇）。进而对前一个时间片文本集中文本的主题－词汇概率分布关系加权处理（ W ）后，作为当前时间片文本集中主题－词汇分布的先验概率，求出随时间变化的主题－词汇和文本－主题概率分布，最终得到此文本内容主题的时间演化模式，如图 1 所示：
文本内容的主题提取即选择合适的文本内容主题和特征词汇，以此对文本内容进行特征描述和建模。主题模型作为一种文本内容的概率生成模型或产生式模型，如潜在语义分析（ LSA ）（ PLSA）
［2 ］［1 ］
构建了基于语言模型的新奇新闻检测系统 BilNov －
［10 ］ 2005 ，实现了新奇新闻主题的动态实时挖掘。余传
mohd等设计了交互事件跟踪ievent系统以此发现用户交互所产生的热点内容主题构建了基于语言模型的新奇新闻检测系统bilnov2005实现了新奇新闻主题的动态实时挖掘10明等基于lda模型研究了用户评论内容主题和热点关键词的挖掘方法实验表明该模型具有较好的热点主题识别效果11刘洪涛等针对内容主题不明确和热点问题难以跟踪的问题通过计算文献作者的舆论评价得到每个评价社区的关键词概率描述实现了社区中评论主题的发现对文本语义挖掘和共享等具有重要意义12黄颖通过基于lda和主题词的相关性新事件监测模型结合报道发生的时间确定合理的主题数目以探知新事件13基于动态lda的内容主题挖掘模型网络环境下文本信息所具有的短文本结构特征加大了文本挖掘和表示的难度14因此本文在现有lda主题挖掘基础上结合微博博客社交网络等社会化网络服务中的交互式信息特点构建动态lda题模型按时间片划分文本信息将增量gibbs抽样算法引入其中通过参数估计得到时间片文本集中连续的主题词汇分布和文本主题分布

基于主题词和LDA模型的知识结构识别研究

基于主题词和LDA模型的知识结构识别研究一、本文概述随着信息技术的迅猛发展，海量的知识资源已经渗透到人类社会的各个角落。

如何有效地识别、组织和管理这些知识，使其能够更好地服务于人类社会的发展，已成为当前研究的重要课题。

在此背景下，基于主题词和LDA（Latent Dirichlet Allocation）模型的知识结构识别研究应运而生，旨在从海量的知识资源中挖掘出潜在的主题结构，进而实现知识的有效组织和利用。

本文首先介绍了知识结构识别的研究背景和意义，阐述了基于主题词和LDA模型的知识结构识别方法的基本原理和流程。

接着，文章详细描述了主题词提取和LDA模型构建的具体步骤，包括数据预处理、特征选择、模型训练等关键环节。

在此基础上，文章进一步探讨了基于主题词和LDA模型的知识结构识别方法在不同领域的应用，包括文献分析、主题挖掘、知识图谱构建等方面。

本文的研究不仅有助于深入理解知识结构识别的基本原理和方法，而且能够为相关领域的研究提供有益的参考和借鉴。

同时，文章还指出了当前研究存在的不足和未来研究的方向，以期为推动知识结构识别研究的发展做出一定的贡献。

二、主题词提取技术对原始文本进行预处理，确保输入数据的质量与一致性，为后续的主题词提取奠定坚实基础。

预处理步骤通常包括：分词：将连续的文本流分解为单个词语或短语，依据汉语或英语等语言特点采用相应的分词算法。

停用词去除：移除高频但缺乏主题信息的词语，如“的”、“和”、“在”（汉语）或“the”、“of”、“in”（英语）等。

词干化词形还原：对于英文文本，通过词干化（stemming）或词形还原（lemmatization）处理，将不同形式的同义词归并到其基本形态，如将“running”还原为“run”。

经过预处理后的文本数据转化为文档词语矩阵（DocumentTerm Matrix, DTM），这是一个稀疏矩阵，行代表文档，列代表词语，矩阵元素值记录了词语在对应文档中出现的频率、TFIDF权重或其他量化指标。

基于LDA主题模型的格调挖掘

概率选择了某个主题，而每个主题又是按照一定的概率选择
了某个词项”，其中“文档-主题”分布及“主题-词项”分布都是
服从一定参数的多项式分布。如果要生成一篇文档，每个词
出现的概率如式 1 所示：
∑ P(w|d) = z P(w|z) × P(z|d)
(1)
图 1 表示为 LDA 主m,n α β ξd
π
含义第 m 篇文档的第 n 个词第 m 篇文档的第 n 个词对应的发布者关于文档-主题多项式分布的参数 θm 的 Dirichlet 分布参数关于主题-词多项式分布的参数 φk 的 Dirichlet 分布参数发布者 am,n 服从参数为 ξd 的均匀分布发布者的格调极性，s1为格调极性高，s2为格调极性低
调词汇提取效果均优于传统 LDA 主题模型。
[关键词] 格调；短文本；LDA
中图分类号：TP391.1
文献标识码：A
文章编号：1008 - 6609 (2018) 05 - 0026 - 04
1 引言
近年来，微博、微信朋友圈等社交平台快速崛起，由于使用方便、操作简单等优点被广大用户所使用。用户不仅可以在社交平台上发表自己的看法，还可以通过点赞、评论以及转发的方式参与别人讨论的话题。过去关于社交平台的研究多为人格以及情感研究，本文首次提出发布者格调的概念，旨在通过微博用户的庞大数据量分析刻画出发布者的格调极性分布。格调是指发布者的风格、品味，往往由其文艺作品中导出，而发布者的微博文本就是他们的文艺作品。挖掘得到发布者的格调极性对微博的定向推荐有重要的意义。
2 相关工作
本文采用的主要研究方法是引入 LDA 主题模型，通过主题分布来反映发布者的格调极性。徐戈等人[1]对主题模型的发展以及各阶段主题模型的推导进行了详细的阐述，并对改进的主题模型进行了展望。欧阳继红等人[2]提出了一种多粒度情感混合模型，该研究对 LDA 主题模型进行了改进，考虑两个粒度上，即整体以及局部的情感分布来刻画发布者的情感。王永贵等人[3]提出了基于用户层的四层贝叶斯主题模型，解决了 LDA 挖掘短文本效果不佳的问题。Daniel Preotiuc 等人[4]则从性别、年龄、职业三个方面使用社交文本释义的方式刻画不同发布者的风格。

基于LDA模型的创新数据主题挖掘探索高技术(服务业)与制造业交互路径

基于LDA模型的创新数据主题挖掘探索高技术(服务业)与制
造业交互路径
王野夫;裴晨蕊;张璐恒;饶维
【期刊名称】《软件》
【年(卷),期】2024(45)2
【摘要】聚类结果进行综合,得到最终聚类主题分析结果。

由于词云和聚类主题并不能直接得出技术所应用的行业,对具有代表性的两个公司的创新数据进行行业分析,发现目前应用于制造业的技术主要为工业互联网应用以及生产线产品检测。

得出高技术(服务业)主要通过提升自身的数字化、智能化以及技术创新助推制造业朝着服务化、数字化或智能化、绿色化发展。

【总页数】4页(P40-43)
【作者】王野夫;裴晨蕊;张璐恒;饶维
【作者单位】四川省通信产业服务有限公司;四川邮电职业技术学院
【正文语种】中文
【中图分类】TP242
【相关文献】
1.基于LDA主题模型和生命周期理论的科学文献主题挖掘
2.基于TF-IDF算法和LDA主题模型数据挖掘技术在电力客户抱怨文本中的应用
3.职场辱虐管理如何影响第三方情绪和行为?——基于文本挖掘以及LDA主题模型的大数据分析
4.基于
LDA主题模型与Apriori算法的旅游数据挖掘5.基于LDA主题模型的多数据库主题词挖掘算法
因版权原因，仅展示原文概要，查看原文内容请购买。

LDA主题模型算法原理及应用

LDA主题模型算法原理及应用主题模型是文本挖掘和信息检索领域中非常重要的一种算法，它能够从大量文档中抽象出一系列主题，实现对文本内容的自动化提取和分析。

其中，LDA主题模型是应用最广泛的一种方法，本文将介绍其原理、方法和应用。

一、主题模型基本概念主题模型是一种用于发现主题的技术，它的核心思想是将文本表示成多个主题的分布，从而实现对文档主题的自动化刻画。

在主题模型中，文档被视为一个词条序列，主题被视为潜在变量，其分布可能并不明确，因此需要通过数据挖掘来实现主题的发现和提取。

二、LDA主题模型原理LDA主题模型是一种概率图模型，它将文档表示为多个主题的混合，同时将每个主题表示为多个词项的混合。

LDA主题模型通过以下几个步骤实现对文档主题的自动化提取：（1）确定文档中的词项和主题集合；（2）根据主题集合中的每个主题，确定其在文档中的分布；（3）对主题集合中的每个主题，确定其相关的词汇分布；（4）根据文档中每个词的观察进行参数估计，从而确定文档的主题分布。

三、LDA主题模型方法LDA主题模型可以使用各种算法实现，常用的有基于Gibbs采样的LDA和基于变分推断的LDA。

1. 基于Gibbs采样的LDAGibbs采样是一种蒙特卡洛方法，它可以通过随机游走的方式，在条件概率的基础上进行参数估计。

在基于Gibbs采样的LDA中，算法从主题的随机分布开始，根据观测的词项，迭代地更新主题和文档之间的概率分布，直到收敛为止。

2. 基于变分推断的LDA变分推断是一种坐标下降算法，它可以通过不断优化隐变量和参数的分布来实现主题的发现。

在基于变分推断的LDA中，算法从文档和主题的随机分布开始，根据参数的梯度，迭代地更新主题和文档之间的概率分布，直到达到收敛条件。

四、LDA主题模型应用LDA主题模型广泛应用于文本挖掘、信息检索、智能问答和情感分析等领域。

其中，基于LDA主题模型的文本分类方法是比较成熟的应用之一。

LDA主题模型还可以用于话题发现和趋势分析等领域，对于发现社交媒体中的热门话题和事件具有很高的应用价值。

一种基于LDA模型的主题句抽取方法

一种基于LDA模型的主题句抽取方法王力;李培峰;朱巧明【期刊名称】《计算机工程与应用》【年(卷),期】2013(049)002【摘要】This paper proposes a novel topic sentence extraction approach based on model LDA on basis of acquiring candidate topic sentences through the topic-related and query-based keyword expansion. It can extract fine granularity on the subject and increase the reliability of the certain topical information. On several sub-topics against a target topic, it extracts those topic sentences by means of the reliability calculation according to the smoothness of the topic-sentence probability distribution. The method achieves good result in the special application of sentence extraction on web topic.%在基于Web的主题关键词查询扩展,获取候选主题句的基础上,提出一种基于LDA模型的主题句抽取方法,以抽取粒度较细的主题信息,并增加主题信息的置信度.该方法通过多个侧面对目标主题的衬托,采用LDA模型对主题信息进行建模,利用各个主题概率分布的平滑度进行候选句的可信度计算来抽取主题句.在面向Web的主题句抽取的具体应用中,取得了较好的效果.【总页数】6页(P160-164,257)【作者】王力;李培峰;朱巧明【作者单位】苏州大学计算机科学和技术学院,江苏苏州215006;江苏省计算机信息处理技术重点实验室,江苏苏州215006;苏州大学计算机科学和技术学院,江苏苏州215006;江苏省计算机信息处理技术重点实验室,江苏苏州215006;苏州大学计算机科学和技术学院,江苏苏州215006;江苏省计算机信息处理技术重点实验室,江苏苏州215006【正文语种】中文【中图分类】TP391.12【相关文献】1.一种基于PL-LDA模型的主题文本网络构建方法 [J], 张志远;霍纬纲2.一种基于LDA主题模型的评论文本情感分类方法 [J], 王伟;周咏梅;阳爱民;周剑峰;林江豪3.基于LDA模型的主题词抽取方法 [J], 石晶;李万龙4.一种基于RLDA主题模型的特征提取方法 [J], 冯新淇;张琨;任奕豪;谢彬;赵静5.一种基于LDA模型的关键词抽取方法 [J], 朱泽德;李淼;张健;曾伟辉;曾新华因版权原因，仅展示原文概要，查看原文内容请购买。

lda主题模型基本原理

lda主题模型基本原理
LDA（Latent Dirichlet Allocation）是一种常见的主题模型，用于从文本数据中提取主题信息。

LDA基于概率图模型，旨在通过将文档表示为主题的混合以及主题表示为单词的混合，来揭示文本背后的潜在主题分布。

LDA的基本原理如下：
1.数据预处理：首先，对文本数据进行预处理，包括分词、
去除停用词、词干化等步骤，以得到文档的词汇表和单词的频率信息。

2.模型假设：LDA基于以下假设：
o每个文档可以由多个主题组成。

o每个主题具有一定的单词分布。

o每个单词都可以归于某个主题。

3.概率分布模型：LDA建立了以下概率分布模型：
o文档-主题分布：每个文档中各个主题的概率分布。

o主题-单词分布：每个主题中各个单词的概率分布。

4.参数推断：LDA通过推断文档-主题分布和主题-单词分布
来构建模型。

它使用Gibbs采样或变分推断等统计方法来估计这些分布。

5.模型应用：训练完成后，LDA可以用于多种应用，如主题
建模、文本分类、信息检索等。

它可以揭示文本数据中不同主题的分布和主题之间的相关性。

LDA算法的目标是最大化模型对观察数据的似然概率，通过迭代训练过程来估计文档-主题分布和主题-单词分布。

在实际应用中，可以选择合适的主题数目、调整参数和应用降维等技术来提高模型的效果和性能。

需要注意的是，LDA是一种无监督学习方法，它假设一篇文档由多个主题组成且主题是隐含变量。

LDA的原理可以帮助理解文本数据中的主题结构，并在文本挖掘中发挥重要作用。

基于LDA算法的主题模型技术

基于LDA算法的主题模型技术随着信息时代的发展，我们生活中充斥着大量的数据，如何从海量数据中提取有价值的信息成为了一个亟待解决的问题。

近年来，随着机器学习、自然语言处理等技术的发展，主题模型技术得以广泛应用。

本文将详细介绍一种基于LDA算法的主题模型技术。

1. 主题模型简介主题模型是文本挖掘中的一种重要技术，它通过对文本的分析和处理，将文本数据转化为比较抽象的主题，从而达到对文本的归类、聚类或分类的目的。

主题模型可以应用于文本分类、主题分析、信息聚合等领域。

主题模型的核心思想是将文本中的词汇映射到一个固定的主题空间中。

在这个主题空间中，每个主题都由一组概率分布表示，而每个词则有一定的概率分布属于某个主题。

这样一来，文本就被表示成了一个主题分布的向量，可以进行比较、聚类、分类等操作。

目前比较常用的主题模型算法有LDA、PLSA、NMF等。

2. LDA算法原理LDA（Latent Dirichlet Allocation）是一种概率主题模型算法，它是由Blei、Ng和Jordan在2003年提出的。

LDA算法的核心思想是，每个文档可以由多个主题组成，每个主题又可以由多个单词组成。

具体来说，LDA算法假设文本中的每个单词都是由多个主题组合而成的。

在建立模型时，我们需要定义每个文档中包含的主题数量以及每个主题中包含的单词数量。

这些参数可以设置为常量也可以通过训练来确定。

对于LDA算法而言，我们需要先假设文本中的每个单词都是由多个主题组合而成，然后再根据概率论的理论去估计每个单词所对应的主题。

这样一来，我们就可以对每个文本构造出一个主题-单词矩阵，从而实现对文本的主题建模。

3. LDA算法应用场景LDA算法可以应用于多个场景中，如文本分类、主题分析、信息聚合等领域。

在文本分类中，LDA算法可以将文本中的主题向量和标签向量进行比较，实现对文本分类的目的。

在主题分析中，LDA算法可以发现文本中的隐藏主题，从而帮助人们更好地理解文本。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

［18 ］
zi = j 表示把主题 j 赋给词汇 wi 作为其主其中，题，表示其他所有已知的或可见的信息（如其他所 z －i 表示以及超参数 α 和 β），有词汇 w － i 和文本 d － i ，当前词汇外的所有其他词汇的主题 z k ( k ≠ i ) 赋值（即 v (n 分配给 z k ( k ≠ i ) 的词汇数）， (n
文本内容挖掘与语义建模是信息推荐和数据挖掘领域的研究热点与核心内容，而文本内容的主题挖掘则是语义建模的重要基础。当前网络环境下，信息内容具有呈动态交互和随时间发展演化等特征，因此要求创新信息内容挖掘方法，提升内容主题挖掘的准确性，动态描述其演化趋势。基于此，本文对传统潜在狄利克雷分布（ LDA ）主题模型进行动态化改进，运用增量 Gibbs 抽样估计算法，实现文本内容主题的准确挖掘；在文本时间片划分的基础上，基于主题相似度和强度度量，描述内容主题的时间演化趋势。本文研究对语义层次的信息内容建模以及提高内容描述的准确性具有重要作用。
文本内容的主题提取即选择合适的文本内容主题和特征词汇，以此对文本内容进行特征描述和建模。主题模型作为一种文本内容的概率生成模型或产生式模型，如潜在语义分析（ LSA ）（ PLSA）
［2 ］［1 ］
构建了基于语言模型的新奇新闻检测系统 BilNov －
［10 ］ 2005 ，实现了新奇新闻主题的动态实时挖掘。余传
图3
动态演化 LDA 文本生成过程
LDA 模型推理的依据就是文本生成过程的逆过程，根据文本的生成规则和已知参数，通过概率推导求得文本的主题结构；本文中所要推理的参数为时间片文本集内的主题－词汇概率分布 φ 和文本－主题分布 Gibbs 抽样 θ，
［16 ］
是其常用且最有效的推导方法。基于
第 58 卷第 2 期 2014 年 1 月
基于动态 LDA 主题模型的内容主题挖掘与演化
■ 胡吉明［摘陈果
*
要］指出文本内容主题的挖掘和演化研究对于文本建模和分类及推荐效果提升具有重要作用。从
分析基于 LDA 主题模型的文本内容主题挖掘原理入手，针对当前网络环境下的文本内容特点，构建适用于动态文内容本主题挖掘的 LDA 模型，并通过改进的 Gibbs 抽样估计提高主题挖掘的准确性，进而从主题相似度和强度两个方面研究内容主题随时间的演化问题。实验表明，所提方法可行且有效，对后续有关文本语义建模和分类研究等具有重要的实践意义。［关键词］主题挖掘［分类号］ G202 DOI: 10． 13266 / j． issn． 0252 － 3116． 2014． 02． 023 主题演化动态 LDA 模型
138
第 58 卷第 2 期 2014 年 1 月
题数目以探知新事件
［13 ］
。
间片内的文本信息受到上一时间片文本信息的影响）从而建作为当前时间片文本主题提取的先验概率 φ t ，立动态 LDA 文本主题挖掘模型，如图 2 所示：
ห้องสมุดไป่ตู้
2
基于动态 LDA 的内容主题挖掘模型
网络环境下文本信息所具有的短文本结构特征加
明等基于 LDA 模型研究了用户评论内容主题和热点关键词的挖掘方法，实验表明该模型具有较好的热点主题识别效果
［11 ］
、概率潜在语义分析
和 LDA
［3 ］
，通过对人类思维过程的模拟，找
。刘洪涛等针对内容主题不明确和
到产生文本的最佳主题和词汇，能够最大程度地表示文本中所蕴含的含义，信息丢失较少，较好地解决了词
基于产生式的三层贝叶斯概率计算得到通过潜在主题
新事件监测模型，结合报道发生的时间确定合理的主
“社会网络环境下信息内容主题挖掘与语义分类研究” ( 项目编号: 13YJC870008 ) 和国家自然科 * 本文系教育部人文社会科学青年基金项目 “社会网络环境下基于用户－资源关联的信息推荐研究( 项目编号: 71303178 ) ” 学青年基金项目研究成果之一。［作者简介］胡吉明， Email: whuhujiming@qq． com; 陈果，武汉大学信息资源研究中心讲师，武汉大学信息资源研究中心博士研究生。收稿日期： 2013 － 11 － 13 修回日期： 2014 － 01 － 04 本文起止页码： 138 － 142 本文责任编辑：王传清
i i i i i i i
3
基于主题相似度和强度度量的主题
随着时间的发展，信息内容的主题和强度也会发
演化
（ 1）生变化，表现为从开始到高潮再到衰落的过程，甚至循环往复。有效地组织大规模文本信息，并按时间顺序描述其主题的演化过程，从而帮助用户追踪所需求偏好的主题，具有实际意义。文本主题随时间的演化主要从不同时间片的主题相似度和强度变化来衡量
动态演化 LDA 文本生成过程首先将文本按照设定好的时间间隔划分为 t 个时间片文本集，每个时间片文本集内对应一个 φ t 和 θ t d。 z2 ， …， zT } ，选择第一个时间片文本集 t 对每一个主题 z t ∈ { z1 ， = {1 ， 2， …， t} 1 如果是第一个时间片 t = 1 ，则 φ t ～ Dir ( β1 ) 2 否则，计算 φ t = φ t － 1 W 3 4 抽样计算 θ t 对每一个文本 d， d ～ Dir ( α ) 对文本中的每一个词汇 w i
［17 ］
此，本文增量改进原始 Gibbs 抽样算法 2． 2
，并将其运用
于 LDA 主题模型中实现其动态化运算。基于增量吉布斯抽样估计的主题确定本文在进行动态 LDA 模型构建时，首先引入先验加权，重新计算时间片 t 时刻的后验概率 P t
W U 为用户自行设定的权重，词汇数，本文认为当前时
图1
基于动态 LDA 主题模型的文本主题挖掘框架
在基于 LDA 主题模型进行文本主题提取的过程中，本文改进的重点是基于时间窗口将动态演化的文本按时间窗划分，按照文本内容主题的连续性和差异性，运用增量 Gibbs 抽样算法进行抽样计算。 d2 ， …， dl }，首先，确立时间 t 内的文本集合 Dt = { d1 ，时间窗大小根据用户需求、具体应用领域和文本分析的粗细粒度设定（ M t ）。文本时间片一旦划分，则保证不同时间片内的文本不能交换，而同一时间片内的文本可以交换。其次，根据前一时间的主题－词汇分布的后验概率 φ t － 1 乘上权重 W （ W = Vt WU ， V 为 t 时刻的 Vt － 1 t
139
胡吉明
陈果．基于动态 LDA 主题模型的内容主题挖掘与演化
( zi = j z － i ， wi ， di ， )，即目标函数的计算公式变为： wi ， di ， Pt ( zi = j z － i ， ) =
( w) w) d) ( n( ( n( － i， j ) t + v ( n － i， j ) t －1 + β － i， j )t + α ( ) ( ) ( d) ( n － i， j ) t + v ( n － i， j ) t － 1 + Vβ ( n － i， ) t + Tα ( w) ( d) w) T n ( n( ( ( + v n + ) ) β － i， j t － i， j t －1 － i， j )t + α ∑ ( ) ( ) ( d) j =1 ( n － i， j ) t + v ( n － i， j ) t － 1 + Vβ ( n － i， ) t + Tα
t 4． 1 从多项式分布 θ t d 中抽样生成主题的概率分布 z j： P ( z j α ) 4． 2 从多项式分布 φ t 中抽样生成词汇的概率分布 w i： P ( w i z j， βt zj )
出文本内容和主题之间的概率分布关系（文本－主题和主题－词汇）。进而对前一个时间片文本集中文本的主题－词汇概率分布关系加权处理（ W ）后，作为当前时间片文本集中主题－词汇分布的先验概率，求出随时间变化的主题－词汇和文本－主题概率分布，最终得到此文本内容主题的时间演化模式，如图 1 所示：
［4 ］是目前最常用汇、主题和文本之间的语义关联问题，
热点问题难以跟踪的问题，通过计算文献作者的舆论评价得到每个评价社区的关键词概率描述，实现了社区中评论主题的发现，对文本语义挖掘和共享等具有重要意义
［12 ］
的文本主题提取方法
［5 ］
。更重要的是， LDA 主题模型
。黄颖通过基于 LDA 和主题词的相关性
［8 ］
。
近年来，网络信息内容主题的挖掘受到国内外研究者和机构的广泛关注，旨在准确捕捉网络信息内容的动态演化特征，跟踪或准确发现其发展变化趋势。如 M． Mohd 等设计了交互事件跟踪（ iEvent ）系统，以此发现用户交互所产生的热点内容主题
［9 ］
1
引
言
。 C． Aksoy 等
( ) － i， j t －1 ( wi ) － i， j t －1