融合C-Value和LDA的社会化标签研究热点识别与分析

合集下载

基于LDA的用户行为话题分析研究

基于LDA的用户行为话题分析研究随着互联网的发展，大数据时代已经到来，各种社交平台、电商平台等互联网产品不断涌现，这些平台为用户提供了丰富的信息和服务，同时也对用户产生了强大的影响力。

因此，如何对用户的行为进行分析，了解用户行为背后的动机和需求，将会对企业的发展和改进带来重要的启示。

话题分析是用户行为分析的一种方法，它的原理是利用机器学习和自然语言处理技术，将海量文本数据分析成一些简单易懂的话题，从中提取出用户的需求和兴趣，为企业提供更准确的数据分析依据。

LDA（Latent Dirichlet Allocation）是其中一种常见的话题模型，它能够有效地识别文本中隐藏的话题，为用户行为分析提供了更高效的工具和方法。

LDA的原理是将一篇文档中的每个单词都看作是从多个话题中抽取而来的，在一个文档中，话题的比例和单词在话题中的分布都是随机的。

通过对多篇文档进行分析，LDA可以对每个文档的话题进行提取，并判断每个话题在整个语料库中的分布情况。

通过这种方式，可以得出对话题的描述和识别度，从而了解用户的兴趣和需求。

在实际应用中，LDA的相关算法不仅可以运用于文本分析，也可以应用于图像、音频等非文本领域的数据分析，但在文本分析中，LDA较为常用。

在大量文本数据上，LDA可以自动地识别和划分话题，并将这些话题分类汇总让用户快速浏览和分析。

例如，在社交平台上监测用户关注的话题，可以发现用户对哪些话题关注度最高，从而更好地理解他们的需求，为用户提供的内容和服务更准确。

在广告投放方面，了解用户的需求和行为后，可以根据用户的兴趣和关注领域投放相应的广告，提高广告的点击率和转化率，从而增加企业的营销效果。

但是，LDA模型在实际应用中，仍然存在一些问题。

首先，LDA算法的计算量很大，需要进行大量计算和迭代，且模型参数较多，因此在实际处理大量数据时，处理时间和资源的消耗较大。

另外，LDA仅仅是一种基于统计学的模型，其演化过程并不是完全准确，因此在使用时，我们还需要结合专业领域知识和实际应用情况进行比对调整。

基于LDA主题模型的社交媒体数据分析与挖掘研究

基于LDA主题模型的社交媒体数据分析与挖掘研究随着互联网技术逐渐普及，社交媒体平台在我们的生活中扮演着日益重要的角色。

越来越多的人开始使用社交媒体来表达自己的观点、分享自己的经验，而这些信息所蕴含的价值已经引起了广泛的关注。

这些海量的社交媒体数据如何加以整理、分析和挖掘，成为了一个备受关注的问题。

在这篇文章中，我们将探讨基于LDA主题模型的社交媒体数据分析与挖掘。

一、LDA主题模型的概念与原理LDA主题模型是一种用于文本挖掘的概率模型，用于从文本中自动发现隐含的主题。

它最早由普林斯顿大学的David Blei等人于2003年提出，成为了文本挖掘领域的重要研究方向。

LDA主题模型的原理是将文本看做是由多个主题的组合所构成的，每个主题都由一些特定的词汇所组成。

例如，一个包含汽车、京东、速卖通等词汇的文本可能是属于“电商”这个主题的。

而一个包含鞋子、包包、裙子等词汇的文本可能属于“时尚”这个主题的。

LDA主题模型的目的就是从这些文本中自动地识别出这些隐含的主题。

二、LDA主题模型在社交媒体数据分析中的应用社交媒体平台中的信息具有多样性、实时性和海量性等特点，而LDA主题模型可以发挥其优势，快速地发现其中的隐含主题，对社交媒体数据进行分析和挖掘。

1、舆情分析社交媒体平台上的每一条信息都可以用LDA主题模型进行分类，进而对社会公共事件发生前、发生中、发生后的情感态度进行识别和分析。

通过监控社交媒体平台上社会公共事件的影响者和事件的关键词，结合LDA主题模型对事件发生的舆论进行实时的判定和预测，为政府和企业提供决策参考。

2、产品含义分析通过分析用户在社交媒体平台上频繁出现的词汇及其相关的主题，可以发现用户对于产品的使用体验、产品功能或者是对其他竞品的看法等，可以帮助企业了解用户需求和分析行业竞争状况，在产品优化和市场竞争中发挥参考作用。

3、话题挖掘社交媒体平台上的用户活跃与否、用户间互动的频率、话题的广度与热度等，都可以通过LDA主题模型进行分析和研究。

基于改进的ccLDA多数据源热点话题检测模型

基于改进的ccLDA多数据源热点话题检测模型陈兴蜀;马晨曦;王文贤;高悦;王海舟【期刊名称】《工程科学与技术》【年(卷),期】2018(050)002【摘要】目前，跨文本集的话题发现模型（cross-collection LDA，ccLDA）只适用于各个数据源话题相似度很高的场景，而且其全局话题和每个数据源的局部话题会强制对齐，存在词语稀疏的问题。

针对ccLDA模型中的不足，提出了改进的跨文本集话题发现模型（improved ccLDA，IccLDA）。

该模型在采样时先判断词语属于全局话题还是局部话题，再分别进行采样，避免了ccLDA模型中全局话题和局部话题必须对齐的缺点，进而降低了词语在全局话题和局部话题的分散程度，使该模型可以适用于多数据源的场景。

在公开数据集上进行了多数据源文本集的话题发现实验，并进行了话题比较性分析。

实验结果表明，在设置不同的话题数时，IccLDA模型的困惑度值均低于LDA模型和ccLDA模型，表明IccLDA模型具有更优的建模能力。

最后，在真实数据集上开展了进一步实验验证，证明了本文提出的改进模型不仅建模能力优于原始模型，还可以有效地发现各个数据源讨论的公共话题和每个数据源讨论的局部话题，更适用于多数据源场景的文本话题发现。

【总页数】7页(P141-147)【作者】陈兴蜀;马晨曦;王文贤;高悦;王海舟【作者单位】[1]四川大学网络空间安全学院,四川成都610065;[2]四川大学计算机学院,四川成都610065;[2]四川大学计算机学院,四川成都610065;[3]四川大学网络空间安全研究院,四川成都610065;[2]四川大学计算机学院,四川成都610065;[1]四川大学网络空间安全学院,四川成都610065【正文语种】中文【中图分类】TP391.1【相关文献】1.基于改进的OLDA模型话题检测及演化分析2.基于改进的ccLDA多数据源热点话题检测模型3.基于改进 TF*PDF 算法的网络新闻热点话题检测和跟踪4.基于LDA模型的微信图书馆热点话题检测5.基于微博多维度及综合权值的热点话题检测模型因版权原因，仅展示原文概要，查看原文内容请购买。

一种基于LDA模型的新兴主题识别与探测方法

一种基于LDA模型的新兴主题识别与探测方法
吴东雪;沈桂兰
【期刊名称】《河南师范大学学报（自然科学版）》
【年(卷),期】2024(52)2
【摘要】新兴主题识别是科技研究领域识别新兴技术的重要方式,高效精准地识别新兴主题是早期辨识新兴技术研究方向的前提.提出一种基于LDA模型的新兴主题识别与趋势预测方法,通过LDA模型提取科技文献中的研究主题,构建主题强度、主题新颖度和复合主题关注度的指标体系识别新兴主题,采用Prophet模型预测新兴主题的主题强度,探测未来发展趋势.以智慧农业领域最近14年的科研文献为数据集,对提出的识别和探测方法进行验证,识别出了5个新兴主题,并预测了未来3年的发展趋势,同时验证所提方法的有效性.
【总页数】9页(P72-80)
【作者】吴东雪;沈桂兰
【作者单位】北京联合大学应用文理学院;北京联合大学商务学院
【正文语种】中文
【中图分类】TP399
【相关文献】
1.基于LDA与新兴主题特征分析的新兴主题探测研究
2.基于LDA模型的科技文献主题探测方法研究
3.基于LDA主题模型的图像场景识别方法
4.基于线性回归模型
的单词加权LDA主题识别方法研究5.基于LDA主题模型和扎根理论的我国金融科技领域热点主题识别与进展分析
因版权原因，仅展示原文概要，查看原文内容请购买。

一种改进的LDA和PCA特征空间融合的人脸识别方法

一种改进的LDA和PCA特征空间融合的人脸识别方法作者：何俊芦明来源：《电脑知识与技术》2020年第35期摘要：为了改善传统的人脸识别Fisherface方法的识别率和稳定性，采用LDA + PCA组合的两步人脸识别过程来消除小样本问题;通过融合LDA和PCA特征空间，使类内离散度最小而类间离散度最大，来解决统计相关问题。

通过约束空间维数和采样维数来提高识别率和稳定性。

最后，在ORL人脸库上进行实验，结果表明该方法是有效的，识别率较高，而且识别结果比较稳定，满足实际应用的要求。

关键词：人脸识别;LDA特征;PCA特征;特征空间融合中图分类号： TP319 文献标识码：A文章编号：1009-3044（2020）35-0184-02开放科学（资源服务）标识码（OSID）：An Improved Face Recognition Method Based on LDA and PCAHE Jun， LU Ming（School of Computer Science and Software Engineering， University of Science and Technology Liaoning， Anshan 114051，China）Abstract： In order to improve the recognition rate and stability of Fisherface method in traditional face recognition， a two-step face recognition process combining LDA and PCA is used to eliminate the small sample problem， and the statistical related problems are solved by fusing LDA and PCA feature space to minimize the within-class scatter and maximize the between-class scatter. The recognition rate and stability are improved by constraining the spatial dimension and sampling dimension. Finally， experiments on ORL face database show that the method is effective， the recognition rate is high， and the recognition results are stable， which meets the requirements of practical application.Key words： face recognition; LDA feature; PCA feature; feature space fusion自从美国“9.11”事件后，人的身份认证问题不仅涉及银行存款、电子商务、金融安全等方面，而且已经提升到了国家安全的高度。

基于LDA的社会化标签综合聚类方法

基于LDA的社会化标签综合聚类方法李慧宗;胡学钢;杨恒宇;林耀进;何伟【期刊名称】《情报学报》【年(卷),期】2015(034)002【摘要】社会化标注系统产生了大量歧义的、不受控制的标签,不仅会降低用户的体验,而且会限制资源的利用效率.标签聚类能够把具有相近语义的标签聚集在一起,反映标签的潜在语义结构,从而有效缓解上述问题.传统的标签聚类方法通常只利用资源的被标注信息进行聚类,由于忽略了用户的标注信息使得聚类结果不能表达准确的语义.本文提出一种基于LDA (Latent Dirichlet Allocation)模型的社会化标签综合聚类方法,该方法分别利用用户的标注信息和资源的被标注信息来建立主题学习模型,通过学习,获取基于用户的标签潜在主题和基于资源的标签潜在主题,综合标签在这两类主题上的概率分布结果,建立标签主题的二次学习模型,学习出标签的混合主题并在此基础上判定标签的聚类簇.与传统方法相比,本文的方法不仅可以有效地利用标签之间的语义关系,而且能够在一定程度上缓解传统标签聚类方法所面临的高维和稀疏性问题.实验结果表明,本文的方法具有较好的效果.【总页数】10页(P146-155)【作者】李慧宗;胡学钢;杨恒宇;林耀进;何伟【作者单位】合肥工业大学计算机与信息学院,合肥230009;安徽理工大学经济与管理学院,淮南232001;合肥工业大学计算机与信息学院,合肥230009;合肥工业大学计算机与信息学院,合肥230009;安徽省科学技术情报研究所,合肥230001;合肥工业大学计算机与信息学院,合肥230009;闽南师范大学计算机学院,漳州 363000;合肥工业大学计算机与信息学院,合肥230009【正文语种】中文【相关文献】1.基于资源内容聚类的社会化标签聚类方法 [J], 王向前;李慧宗2.基于LDA的社会化标签系统推荐技术 [J], 张彬彬;林丕源;黄沛杰3.融合C-Value和LDA的社会化标签研究热点识别与分析 [J], 冯翠翠;莫富传4.基于LDA模型和Doc2vec的学术摘要聚类方法 [J], 张卫卫; 胡亚琦; 翟广宇; 刘志鹏5.基于改进LDA的社会化标签主题识别方法 [J], 邰悦;葛斌;李慧宗因版权原因，仅展示原文概要，查看原文内容请购买。

基于主题词和LDA模型的知识结构识别研究

基于主题词和LDA模型的知识结构识别研究一、本文概述随着信息技术的迅猛发展，海量的知识资源已经渗透到人类社会的各个角落。

如何有效地识别、组织和管理这些知识，使其能够更好地服务于人类社会的发展，已成为当前研究的重要课题。

在此背景下，基于主题词和LDA（Latent Dirichlet Allocation）模型的知识结构识别研究应运而生，旨在从海量的知识资源中挖掘出潜在的主题结构，进而实现知识的有效组织和利用。

本文首先介绍了知识结构识别的研究背景和意义，阐述了基于主题词和LDA模型的知识结构识别方法的基本原理和流程。

接着，文章详细描述了主题词提取和LDA模型构建的具体步骤，包括数据预处理、特征选择、模型训练等关键环节。

在此基础上，文章进一步探讨了基于主题词和LDA模型的知识结构识别方法在不同领域的应用，包括文献分析、主题挖掘、知识图谱构建等方面。

本文的研究不仅有助于深入理解知识结构识别的基本原理和方法，而且能够为相关领域的研究提供有益的参考和借鉴。

同时，文章还指出了当前研究存在的不足和未来研究的方向，以期为推动知识结构识别研究的发展做出一定的贡献。

二、主题词提取技术对原始文本进行预处理，确保输入数据的质量与一致性，为后续的主题词提取奠定坚实基础。

预处理步骤通常包括：分词：将连续的文本流分解为单个词语或短语，依据汉语或英语等语言特点采用相应的分词算法。

停用词去除：移除高频但缺乏主题信息的词语，如“的”、“和”、“在”（汉语）或“the”、“of”、“in”（英语）等。

词干化词形还原：对于英文文本，通过词干化（stemming）或词形还原（lemmatization）处理，将不同形式的同义词归并到其基本形态，如将“running”还原为“run”。

经过预处理后的文本数据转化为文档词语矩阵（DocumentTerm Matrix, DTM），这是一个稀疏矩阵，行代表文档，列代表词语，矩阵元素值记录了词语在对应文档中出现的频率、TFIDF权重或其他量化指标。

基于LDA的社会化标签系统推荐技术

基于LDA的社会化标签系统推荐技术张彬彬;林丕源;黄沛杰【摘要】标签推荐中采用将三维模型拆分成多个二元关系的方法,导致用户信息的描述模糊、语义丢失、标签的个性化信息减弱问题,提出一种基于LDA模型的个性化标签推荐模型(LTR).使用LDA模型的吉布斯采样算法对参数进行估计,利用模型输出的概率关系进行排序,选取最高的N个预测结果作为最终的个性化推荐.以CiteULike数据集为研究对象,实验结果表明,该模型考虑了具有丰富语义信息的摘要文本,发挥了涵盖用户意识的个性化标签作用来增强推荐的准确性,有效为用户推荐个性化标签,提高了推荐效果.【期刊名称】《计算机工程与设计》【年(卷),期】2016(037)010【总页数】6页(P2722-2727)【关键词】社会化标签系统;标签推荐;个性化推荐;主题模型;狄利克雷分配模型【作者】张彬彬;林丕源;黄沛杰【作者单位】华南农业大学数学与信息学院,广东广州510642;华南农业大学数学与信息学院,广东广州510642;华南农业大学数学与信息学院,广东广州510642【正文语种】中文【中图分类】TP301.6标签是由用户人为自由、不受约束地环境下创造出来的，因此具有自由性和低限度的特点，当然标签系统的优点往往也正是它的缺点，标签具备一定的社会性和含糊性，也同时存在着例如同义词、多义词等一词多义甚至是错误的拼写等情况，所以导致了标签系统中存在了大量重复、不规范、无效的标签，我们称之为噪音。

当用户对其感兴趣的资源进行标注标签行为的时候，规范、有效、质量高的标签则会创造出标签系统的循环性，促进系统的良性循环。

很多时候，用户正准备给资源进行标注的时候，却发现自己难以确定该使用哪个标签更为合适，则应该凭借目前已经存在的标签、现有的资源内容或者结合用户的兴趣有选择性地向因犹豫等因素造成的困难用户进行推荐标签。

这种推荐的优点在于不仅可以减少用户在标注标签过程中由于思考而造成的压力、方便用户进行标签标注，而且还可以避免由于不同用户的文化水平、不规范、无效的标签而造成标签系统的数据稀疏性问题，所以长期以来一直是人们研究的热点[1,2]。

混合词汇特征和lda的语义相关度计算方法

混合词汇特征和LDA的语义相关度计算方法一、背景简介在自然语言处理和文本挖掘领域，语义相关度计算是一个重要而复杂的问题。

传统的基于词袋模型的相似度计算往往无法很好地捕捉词语之间的语义关联，因此引入了深度学习和主题模型等方法来提高语义相关度的计算精度。

混合词汇特征和LDA的语义相关度计算方法就是其中之一，它结合了词汇特征和主题模型的优势，能够更准确地评估文本之间的语义相关性。

二、混合词汇特征和LDA的基本原理混合词汇特征和LDA的语义相关度计算方法的基本原理是将词汇特征和LDA主题模型结合起来，利用它们各自的优势来计算文本之间的语义相关度。

通过词袋模型和词嵌入模型等方法提取文本的词汇特征，将文本表示为向量；利用LDA主题模型来挖掘文本的主题分布，将文本表示为主题分布的向量；将词汇特征向量和主题分布向量进行融合，通过一定的计算方法得到文本之间的语义相关度。

三、混合词汇特征和LDA的计算方法1. 词汇特征提取词汇特征提取是语义相关度计算的基础，包括词袋模型、TF-IDF、词嵌入等方法。

在混合词汇特征和LDA的计算方法中，可以使用词袋模型将文本表示为词频向量，也可以利用词嵌入模型将词语转换为稠密的向量表示。

这些词汇特征能够捕捉文本中词语的语义信息，为后续的语义相关度计算奠定了基础。

2. LDA主题模型LDA主题模型是一种用于挖掘文本主题分布的概率生成模型，能够将文本表示为主题分布的向量。

在混合词汇特征和LDA的计算方法中，利用LDA主题模型可以发现文本隐含的语义主题，从而更好地表征文本的语义信息。

3. 混合计算方法混合词汇特征和LDA的计算方法采用了词汇特征向量和主题分布向量的融合策略，常见的计算方法包括余弦相似度、欧氏距离等。

这些方法能够将词汇特征和主题信息进行有效地整合，得到文本之间的语义相关度。

四、实际应用与案例分析混合词汇特征和LDA的语义相关度计算方法在文本相似度计算、信息检索、推荐系统等领域有着广泛的应用。

基于LDA模型的主题分析及应用

基于LDA模型的主题分析及应用近年来，随着互联网的不断发展和普及，数据量呈爆炸式增长，如何从这些海量数据中挖掘出有价值的信息成为了研究的热点之一。

主题分析作为信息学中的一项重要技术，能够将海量文本数据聚类在同一个语义空间中，将文本根据其主题进行分类，从而更好地了解文本的内容和意义，为后续的数据分析和挖掘提供有益的帮助。

LDA模型是国际上非常流行的一种主题模型，它最早被引入新闻分析领域，但在当今分析各种类型的文本信息上，LDA模型已被广泛应用。

下文将详细介绍LDA模型的基本原理，以及其在主题分析领域的应用，同时探讨LDA模型的局限性及未来发展方向。

一、LDA模型基本原理LDA模型是一种基于概率分布的主题模型，它将文本看作是由多个主题词组成的混合，主题又是由多个单词组成的概率分布。

这个模型的基本思路是通过计算文本中每个单词的分布概率，从而将文本的主题分解成多个单词的分布。

但具体地说，LDA模型是如何得到这些单词分布概率呢？下面介绍LDA模型从生成角度获得每个单词分布概率的步骤：1. 设置一个主题数量N和一个单词数量M，同时定义一个主题w分布概率θ和单词分布概率φ2. 定义每个主题都是由多个主题词组成的分布，即根据θ生成一个长度为N的主题词向量，向量中每个元素的值都是0到1之间的概率分布3. 对于每一个循环t，遍历文本中的每个单词，根据主题向量θ中的概率分布随机选择一个主题4. 根据当前选定的主题，根据单词分布概率φ随机选择一个单词5. 为了更好的匹配文本，LDA模型对选择的主题和单词进行加权重，最后将权重加总输出6. 通过以上步骤，LDA模型可生成一个主题词向量，该向量表示单词在主题上是如何分布的。

二、LDA模型在主题分析领域的应用1. 产品主题分析在产品设计阶段，LDA模型可用于主题分析和核心主题的提取。

对一定数量的产品消费评论进行分析，并将不同的评论视为一篇文本进行聚类分析，就可以通过LDA算法计算不同主题的生成概率，进而找到核心主题。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2019年3月情报探索第3期（总257期）MAＲ.2019InformationＲesearch No．3（Serial No.257）融合C－Value和LDA的社会化标签研究热点识别与分析冯翠翠莫富传（华中师范大学信息管理学院湖北武汉430079）摘要：［目的/意义］旨在帮助研究人员更清晰地认识与界定国内社会化标签研究领域的热点和发展演化过程。

［方法/过程］综合基于C－value术语抽取的词频分析和融合Gibbs抽样方法的LDA概率模型的优势，对社会化标签领域的研究热点进行识别。

［结果/结论］个性化推荐、社会化标签系统、知识管理、网络信息资源检索、资源聚合、用户兴趣和情感倾向等是目前国内社会化标签研究的6大热点。

社会化标签领域研究热点的识别与分析，有助于研究者更好地把握未来的研究方向。

关键词：社会化标签；C－Value算法；LDA模型；热点主题；个性化推荐；资源聚合中图分类号：G250.7文献标志码：A Adoi：10.3969/j．issn．1005－8095．2019．03．006 Hotspots Identification and Analysis of Social Tags Based on C－value and LDAFeng Cuicui Mo Fuchuan（School of Information Management，Central China Normal University，Wuhan Hubei430079）Abstract：［Purpose/significance］The paper is to help researchersunderstand and define the hotspots and development process of the research field of social tags in China more clearly．［Method/process］The paper synthesizes the advantagesof C－value term extrac-tion－based word frequency analysis and the LDA probability model fused with Gibbs sampling method，to identify the research hotspots of social tags．［Ｒesult/conclusion］Personalized recommendation，social tagging system，knowledge management，network information resource retrieval，resource aggregation，user interest and emotion tendency are the six hotspots in the study of social tags in China．Ana-lyzing the research hotspots in social tags will be helpful for researchers to better grasp the future research direction．Keyword：social tags；C－value algorithm；LDA model；hotspots；personalized recommendation；resource aggregation0前言社会化标签是社会化标注的结果，是人们在社会化环境下为实现资源的共享和用户的交互而使用的、描述资源的关键词，其融入了人们的认知，是更高层次的元数据［1］。

在Web2．0环境下，由于社会化标签具有流行性、多面性、社会性、灵活性、个性化和动态性等特点，在产业界得到了广泛应用，出现了Delicious、Flickr、Youtube、LibraryThing、Last．fm、Con-notea、CiteUlike、Technorati等社会化标签系统。

社会化标签是用户对自己感兴趣的互联网资源进行标注的结果，且所有用户标注的标签都互为可见。

这种开放共享的模式，反映用户真实的理解和观点，为用户的兴趣识别与个性化推荐，为网络资源的聚合、检索与共享，提供了新的理念和模式［2］。

在学术界，这种模式激发了研究人员的研究热情，并有众多研究成果问世。

本文基于C－value术语抽取算法和LDA主题概率模型，对国内社会化标签领域的研究主题术语进行抽取，进而识别并分析研究热点，以期能够帮助研究人员更清晰地认识与界定国内社会化标签研究领域的热点与发展演化过程，更好地把握未来的研究方向。

1数据来源本文以国内社会化标签研究的文献为分析对象，因此选择CNKI作为数据来源。

为提高论文数据的主题针对性，本次检索在高级检索功能中以“社会标签”“社会化标签”“社会标注”“社会化标注”“用户标签”“评论标签”“大众分类”“情感标签”作为检索词进行检索，检索字段限定为“篇名”，选择精确匹配，不限定论文发表的时间范围。

检索33收稿日期：2018－11－16作者简介：冯翠翠（1994—），女，2017级硕士研究生，研究方向为个性化信息推荐；莫富传（1993—），男，2017级学硕士研究生，研究方向为文献计量与科学评价、信息资源管理。

2019年3月情报探索第3期（总257期）时间为2018年8月20日，共检索到370篇文献。

为提高数据的学术性，剔除了无关的论文、学术性不强的报纸，最后得到357篇的期刊论文和学位论文作为本文的分析对象。

2研究方法目前，词频统计法、共词聚类法、引文内容分析法、LAD 主题概率模型是学界讨论和运用比较多的文献主题与热点识别的方法。

本文认为，综合基于C －value 术语抽取的词频分析和融合Gibbs 抽样方法的LAD 概率模型的优势，将二者结合起来，运用到论文主题分析的研究热点识别过程中，更为可靠。

2．1C －value 术语抽取算法C －value 算法是一种语言学规则和统计学相结合的混合术语抽取方法，由英国曼彻斯特城市大学T．K．Frantzi 等人提出［3］。

C －value 方法组合了语言学知识和概率信息，形成了一个词组的术语度（ter-mhood ）测量准则，C －value 值越大，候选术语是一个真术语的可能性就越大。

C －value 考虑了术语的长度因素，在非嵌套术语识别上改进了效果，因此与纯粹的共现频率方法相比，能够更精确地提取术语。

C －value 值的计算基于如下考虑：一般来说，如果一个词出现次数越多，那么它越可能是术语；一个词在更多的长词语中出现，则它是一个术语的可能性越大；同样词频下，一个长词比一个短词更可能是术语。

C －value 提出后经过几次变化，最后确定的计算公式［4］为：其中，a 是抽取的某个候选术语，|a |是候选术语a 的长度，f （a ）表示候选术语a 在语料库中的词频，bi 表示抽取的包含a 的候选术语（即嵌套术语），c （a ）表示嵌套术语的数量。

2．2LDA 主题概率模型LDA （Latent Dirichlet Allocation ）模型是一种包含词、主题、文档3层结构的贝叶斯概率模型，该模型它假设每篇文档是多个主题的混合分布，而每个主题又是一组词的混合分布［5］。

1篇文章的构造过程，首先是以一定的概率选择某个主题，然后再在这个主题下以一定的概率选出某1个词，这样就生成了这篇文章的第1个词，不断重复这个过程，就生成了整片文章。

LDA 的使用是上述文档生成的逆过程，它将根据1篇得到的文章，去寻找出这篇文章的主题，以及这些主题对应的词。

LDA 模型可由图1所示的结构表示，M 表示文档集中的文档总数，α是Dirichlet 分布的参数，能够反映隐含主题的相对强弱，β则刻画了隐含主题在词语上的概率分布，θ表示文档集中某个隐含主题的权重z 表示目标文档分配在每个特征词上的N 维主题向量，w 是目标文档的词向量表示。

图1LDA 主题概率模型［6］LDA 主题概率模型是自然语言处理中主题挖掘的典型模型，是一种完全的产生式模型，可以很好地模拟文档的生成过程，所识别的主题能准确地表达词的语义层次关系［7］，能更精确地把握主题识别过程，并对主题分析以及主题预测有很好的效果。

从LDA 应用情况来看，由于获取数字化科学文献全文存在一定的局限性，所以构建文本语料库的语料主要有关键词、摘要、关键词+摘要3种形式［8］。

其中关键词在传统的共词分析中使用得比较多，而摘要及关键词+摘要的形式在主题模型中使用得比较普遍。

本研究综合各文本库的优势，构建标题+关键词+摘要语料库，进行社会化标签研究术语抽取与主题识别。

2．3Gibbs 抽样算法Gibbs 是马尔可夫链蒙特卡尔理论（MarkovChain Monte Carlo ，MCMC ）中用来获取一系列近似等于指定多维概率分布观察样本的算法，其目的是构造收敛于某目标概率分布的马尔科夫链，并从链中抽取被认为接近该概率分布值的样本［9］。

Gibbs抽样算法具有速度快、所需内存较小、易于实现等诸多特点，可以借助机器学习和文本挖掘的自动快速处理能力，提高主题识别效率。

LDA 模型聚合了Gibbs 抽样算法，因此运行LDA 模型过程中，利用Gibbs 抽样方法可获得潜在主题聚类在论文上的概率分布，以及论文关键词在潜在主题聚类上的概率分布，最终构建文档—主题二维矩阵和主题—关键432019年3月冯翠翠等：融合C－Value和LDA的社会化标签研究热点识别与分析第3期（总257期）词二维矩阵。

根据文档—主题二维矩阵，可获得文档的主题构成，并据此识别论文所论述或研究的主题内容；根据主题—关键词二维矩阵，可获得主题的关键词构成，并据此进行论文主题的聚类。

本文基于C－value术语抽取算法和LDA主题概率模型，进行在社会化标签研究主题术语的抽取研究热点的识别。

首先在获得社会化标签研究相关文献集的基础上，从论文的标题、摘要中抽取关键词，综合构建标题+关键词+摘要语料库，以避免主题术语抽取的主观性；然后基于词频分析和C－val-ue术语抽取算法，计算各候选术语的C－value值，选取C－value值大于其均值的候选主题术语作为社会化标签研究的最终主题术语，以客观地识别论文的研究主题，提高研究主题和热点识别的完整性和准确性。

最后基于融合Gibbs抽样方法的LAD概率模型，设置恰当的主题数和其他参数值，进行社会化标签研究热点主题的识别和聚类。

3热点主题识别基于上述基础理论和分析过程的描述，本文运用Ｒ语言Ｒwordseg和jiebaＲ程序包对原始语料库进行分词处理、计算词频和C－Value值，获得主题术语。