基于文本挖掘技术的社会网络舆情分析框架刍议——以某知名艺人偷
基于文本挖掘技术的网络舆情分析研究

基于文本挖掘技术的网络舆情分析研究网络舆情作为一种重要的公众意见形态,在网络时代发展迅猛,成为政府、企业、媒体等各界关注的焦点。
随着互联网的广泛普及和社交媒体平台的兴起,网络舆情的产生和发展速度越来越快,舆情信息也越来越庞杂、复杂。
因此,如何利用科技手段对网络舆情进行深入研究和分析,成为一个重要的课题。
一、网络舆情概述网络舆情指的是通过互联网、社交媒体等信息渠道的公众对某种事件、人物、产品、组织等的不同观点、意见、评价、情绪的集中表达,包括正面情绪、中性情绪和负面情绪。
网络舆情的形成与传播速度快、范围广、广泛参与等特点密切相关,是公众表达意见和社会参与的重要渠道之一。
二、文本挖掘技术文本挖掘技术是指通过计算机技术对大量文本数据进行处理、分析和挖掘,从中挖掘出有用的信息和知识。
文本挖掘技术主要包括文本预处理、特征提取、分类聚类等子技术。
文本预处理是为了提高文本挖掘的效率和准确性,包括清洗文本、去除停用词、分词等操作;特征提取是指将文本中的关键信息提取出来,可以通过词袋模型、TF-IDF等方法进行提取;分类聚类是指将文本根据相似性分为不同类别,可以采用K-means算法、层次聚类等方法。
三、基于文本挖掘技术的网络舆情分析研究在网络舆情分析方面,文本挖掘技术可以帮助分析人员从大量的舆情数据中获取具有代表性的信息和关键词,进而对网络舆情进行深度分析和研究。
常用的文本挖掘方法包括情感分析、关键词提取、主题提取和网络节点分析等。
情感分析是文本挖掘中的一种重要方法,主要是对舆情信息进行情感分类,判断其所表达的情绪是正面的、中性的还是负面的。
情感分析可以通过机器学习、自然语言处理等技术来实现,可以帮助企业、政府等机构把握公众情绪,及时应对危机事件。
关键词提取是指从文本中提取与所分析对象相关的关键词,主要用来发掘文本的信息,快速了解文本所表达的主要内容。
关键词提取可以通过基于规则、基于统计等方法来实现,可以有效提高分析人员的工作效率。
基于文本挖掘的网络舆情分析方法研究

基于文本挖掘的网络舆情分析方法研究近年来,随着互联网的快速发展,网络舆情已经成为了一个不容忽视的问题。
网络舆情可以影响社会的稳定和经济的发展,因此,对网络舆情的研究和分析越来越受到了广泛关注。
而基于文本挖掘的网络舆情分析方法则成为了一种有效的手段。
本文将探讨基于文本挖掘的网络舆情分析方法的研究。
一、文本挖掘文本挖掘是一种从文本数据中自动提取出有价值的知识的技术,主要是通过计算机处理和分析大量的文本数据,并发掘其中隐含的信息。
文本挖掘可以帮助人们快速发现有价值的信息,提高决策的精度和效果。
文本挖掘的主要任务包括:文本分类、文本聚类、关键词提取、情感分析等。
这些任务可以帮助人们深入挖掘文本数据的含义和关联性,从而发现文本数据中存在的价值。
二、网络舆情网络舆情是指在互联网上对事件、事物、人物等进行持续的评论、讨论、评判和反应的一种现象。
网络舆情的内容涵盖了社会、政治、文化、经济等各个领域,并且具有较高的舆论影响力。
网络舆情在现代社会中扮演着非常重要的角色,它能够对企业的品牌形象、政府的决策产生直接的影响。
网络舆情主要有两种类型:正面舆情和负面舆情。
正面舆情是指受到大众认可和欢迎的信息,例如企业推出的新产品受到用户欢迎;负面舆情则是指错误信息、负面评价等,例如企业产品被曝光存在质量问题。
三、基于文本挖掘的网络舆情分析方法基于文本挖掘的网络舆情分析方法主要包括以下几个步骤:1.文本采集与清洗首先需要从网络上采集大量的文本数据,例如新闻报道、微博、博客等,然后对这些文本数据进行清洗,去除无用信息。
2.文本标注将采集到的文本数据进行标注,提取文本中的关键信息,例如情感、主题和实体等。
3.特征提取对标注好的文本数据进行特征提取,这里的特征主要指文本中的词语、短语、句子等。
常用的特征提取方法有词袋模型、TF-IDF模型等。
4.文本分类/聚类/情感分析根据特征提取的结果,将文本数据进行分类、聚类或情感分析。
分类可以将文本数据分成不同的类别,例如正面舆情和负面舆情;聚类可以将文本数据按照相似性进行聚合,例如将不同的舆情分成同一组;情感分析可以分析文本中传递的情感,例如喜怒哀乐等。
基于文本挖掘的舆情分析预测模型研究

基于文本挖掘的舆情分析预测模型研究随着互联网和社交媒体的普及,舆情分析已经成为了很多政府、企业和个人关注的焦点。
而文本挖掘技术的应用,为舆情分析提供了更加科学、深入和系统的方法。
一、什么是文本挖掘?文本挖掘(Text Mining)是一种综合应用计算机科学、自然语言处理、机器学习、统计学等多个学科的技术。
通过对大量文本数据的分析,提供一些可操作性的信息,以帮助用户快速掌握所研究的领域内信息。
二、舆情分析舆情分析是对社会舆论、网上舆论的调查、分析和研究。
舆情分析是对人们心理、情感、价值取向等方面的研究。
通过对舆情的分析,企业、政府、机构以及个人都可以全面的了解公众的关注点,反馈问题,想法和态度等,以及监测、评估和预测舆情的态势和动向。
三、基于文本挖掘的舆情分析预测模型1、数据收集:舆情分析预测的第一步是收集和整理数据。
数据的来源可能包括新闻、博客、社交网络、市场调查,等等。
这些数据全部或部分是文本数据,因此文本挖掘技术可以帮助快速的收集和整理大量的文本数据,并提取其中有用的信息。
2、文本预处理:文本预处理是文本挖掘的一个重要环节。
原始文本数据是一堆未经过处理、无结构化和无用数据,需要通过文本挖掘技术进行分词、句法分析、词性标注、去停词、去噪音处理等,并提取关键词、主题、情感等。
3、分析建模:分析建模是挖掘文本数据信息的关键环节。
文本挖掘通过机器学习算法,对海量的文本数据进行分析和建模,并找出数据规律和趋势。
通过对不同的数据集进行训练和测试,可以建立预测文本数据舆情的模型。
4、可视化展示:可视化展示是舆情分析预测的重要环节。
通过对预测舆情的可视化展示,可以直观的呈现预测结果。
包括舆情热点分析图、热词云图、情感色彩词云图、关键人物关系图等。
四、基于文本挖掘的舆情分析预测模型的应用1、政治政治情况是公共关注的热点之一,对政治舆情的分析和预测,对政府决策和政治环境的状况观察都有着至关重要的作用。
通过分析政治事件、政治人物、政治议题、政治语言以及市场调查等信息,可以对政治舆情进行分析和预测。
基于文本挖掘技术的社会网络舆情分析

基于文本挖掘技术的社会网络舆情分析社会网络舆情是指人们在社交网络或其他在线平台上共同形成的意见和情绪,其对于社会的稳定和发展具有重要的影响。
随着社交网络的普及,人们对于舆情的关注程度也在逐渐提高。
针对这种情况,利用文本挖掘技术对社会网络舆情进行分析是非常必要的。
一、文本挖掘技术简介文本挖掘是一种将自然语言处理和数据挖掘结合起来的技术。
它将文本处理成结构化或半结构化数据,然后从这些数据中提取出有价值的信息。
文本挖掘技术包括分词、词性标注、实体识别、情感分析、主题模型等子技术。
其中,情感分析是社会网络舆情分析中最为常用的一种技术。
二、情感分析及其应用情感分析是指对文本中的情感进行识别和分类,一般可以分为正面情感、负面情感和中性情感三种。
在社会网络舆情分析中,情感分析可以用来判断用户对于一个话题的态度和情绪。
例如,当某个事件在社交网络上引起热议时,我们可以通过情感分析技术来判断用户对该事件的情感倾向。
情感分析的应用场景非常广泛。
在投资领域,情感分析可以预测股市走向的趋势;在营销领域,情感分析可以帮助企业了解用户需求,从而进行针对性的宣传推广。
在政治领域,情感分析可以用来预测选举结果及政治动向等。
三、社会网络舆情分析步骤社会网络舆情分析的步骤主要包括数据采集、数据处理、情感分析和可视化四个环节。
1.数据采集数据采集是社会网络舆情分析的第一步。
这一步主要是通过爬虫技术获取社交网络上用户发表的文本信息,并存储在数据库中。
爬虫的设计需要考虑到各种限制条件,如反爬虫机制、访问频率、代理IP等。
2.数据处理数据处理是社会网络舆情分析的关键步骤。
在这个环节中,我们需要对采集到的数据进行预处理,包括去除无意义的符号、停用词以及对文本进行分词和去重等操作。
3.情感分析情感分析是社会网络舆情分析的核心环节。
在这个环节中,我们需要利用情感分析技术对文本进行分类,分析用户的情感倾向。
例如,可以使用基于机器学习的情感分析模型对文本进行分类,得出每个文本的正面、负面和中性情感倾向。
文本挖掘技术在社交网络舆情分析中的应用

文本挖掘技术在社交网络舆情分析中的应用社交网络的兴起和普及使得人们可以自由地分享观点、发表评论,在网络上形成了浩如烟海的信息。
然而,这样大量的信息汇聚在一起也给舆情分析带来了挑战。
在这个过程中,文本挖掘技术发挥着重要的作用。
本文将探讨文本挖掘技术在社交网络舆情分析中的应用,并讨论其对社会的影响。
一、文本挖掘技术简介文本挖掘技术是一种将自然语言处理、信息检索、机器学习等方法相结合的技术,旨在从大规模的文本数据中提取有用的信息。
它可以通过识别关键词、提取情感、主题等信息,帮助分析师更好地理解和解读文本数据。
二、社交网络舆情分析的挑战社交网络舆情分析面临着以下几个挑战。
1. 大规模数据处理:社交网络上的信息量庞大,需要处理海量的文本数据,使得舆情分析变得复杂且耗时。
2. 数据采集的难度:社交网络上的数据非结构化,多样性和复杂性使得数据收集成为一项艰巨的任务。
3. 情感分析的主观性:情感分析需要准确判断人们对某一事件或话题的情感倾向,但人们表达情感的方式千差万别,使得情感分析变得主观且容易出现误判。
三、文本挖掘技术在社交网络舆情分析中的应用1. 关键词提取:文本挖掘技术可以通过关键词提取帮助分析师快速了解社交网络上的热门话题。
通过提取关键词,分析师可以追踪特定事件或话题的讨论热度和趋势。
2. 情感分析:情感分析是社交网络舆情分析的重要一环。
文本挖掘技术可以帮助识别并分类用户的情感倾向。
通过分析用户发表的评论、推文等内容,可以确定用户对特定事件或产品的感受。
3. 主题提取:通过文本挖掘技术的主题提取功能,可以将社交网络上的大量评论、文章等内容归类为不同的主题。
这种方式可以帮助分析师更好地理解用户在社交网络上的关注点和兴趣。
4. 舆情预测:基于历史数据和文本挖掘技术的分析,舆情分析师可以预测未来某一事件或话题在社交网络上可能引起的反响和趋势。
这种预测能力对于政府、企业等机构做出应对措施具有重要意义。
四、文本挖掘技术对社会的影响1. 政府决策支持:文本挖掘技术可以帮助政府及时了解民意和舆情动态,为政府决策提供科学依据,促进决策的科学化和民主化。
基于文本挖掘技术的舆情预测研究

基于文本挖掘技术的舆情预测研究随着信息技术的不断发展和交互式媒体的普及,舆情预测成为了一个越来越受到关注的话题。
在今后一段时间内,随着信息的量和复杂度的增加,如何运用现代科技,准确预测民意和舆情,将成为一个重要的研究领域。
基于文本挖掘技术的舆情预测研究,即是笔者所致力的一个研究方向。
一、舆情的现状舆情是指在社会各界的交流、传播中产生的涉及舆论的各种言论、事件、态度、意见等,它广泛地涉及到了政治、经济、文化、社会等方面的事物。
随着社会的发展和进步,人们对于舆情的关注度也不断提升,这一点我们从“热搜排行榜”、“话题榜”、“热门话题”等热点新闻中,都可以看到这一点的具体表现。
二、文本挖掘技术文本挖掘技术是一种将计算机技术与自然语言处理技术相结合的技术,它可以自动发现文本中隐藏的知识和规律,从文本集合中提取有用的信息和知识。
包括Word2Vec、TF-IDF、朴素贝叶斯等方法。
利用这些文本挖掘技术,我们可以对文本进行清洗、分词、摘要、关键词提取、分类、聚类、情感分析、问答系统等等。
这些方法的应用使得我们可以快速地了解和获取大量的舆情信息,并将其进行高效、准确的处理和分析。
三、舆情预测的应用简单来说,舆情预测的应用是用来预测未来事件的情感走向或者民意走向。
正如我们在第一部分所说的,随着社会的不断发展,人们对于各种信息的获取和积累也越来越便利,而如何将这些信息进行整合和分析,并且画出一张准确的舆情地图,是当前重要的研究方向。
而文本挖掘技术的应用,则是在这其中发挥着至关重要的作用。
例如,我们可以通过对社交媒体平台上大量的信息进行分析,预测未来可能出现的热点话题、热门新闻,对于企业等机构也可以用来监测投资风险、评估市场发展等。
四、文本挖掘技术的应用案例下面,我们来看一下文本挖掘技术在舆情预测方面的具体应用案例。
以某电商公司为例,该公司利用全网舆情语料库,运用文本挖掘技术对近期的电商行业舆情进行了分析和研究。
通过对大量的数据进行收集和处理,他们最终发现了该行业当前的一些发展趋势和未来可能会出现的热门话题,随后他们便在这些方向上进行了投入和改进,最终实现了市场的扩大和销售的增长。
基于文本挖掘技术的社会网络分析研究

基于文本挖掘技术的社会网络分析研究随着互联网的普及和信息化的进程,人们在社交网络上交流和分享信息无处不在,大量信息随之涌现。
这些信息看似是独立的,但是通过分析它们之间的联系和规律,可以发现其中蕴含着很多有价值的信息。
因此,文本挖掘技术和社会网络分析逐渐受到广泛的关注。
文本挖掘是从海量的非结构化文本中发掘有用的知识和信息的过程。
而社会网络分析是研究网络结构及其运作规律的一种科学方法。
将二者结合起来,可以通过分析社交网络上的文本信息,做出更深入的研究。
下面将从三个方面分别阐述基于文本挖掘技术的社会网络分析的研究。
一、情感分析与社交网络情感分析是对文本或语音中的情感状态进行分析,判断其情感倾向。
社交网络中的用户在发布信息时,往往会表达出个人的情感和态度。
通过情感分析可分析社交网络中的不同用户,建立用户之间的情感联系,深入挖掘人们在社交网络上的行为模式和心理状态。
例如,在社交网络上分析某个品牌的情感倾向,可以了解到用户对该品牌的态度和感受,通过情感倾向的正负向,可以判断该品牌在社交网络上的口碑反响,从而指导企业的品牌管理。
二、主题分析与社交网络主题分析是对文本中所述主题的识别。
社交网络上用户必然会聊天、交流、互动,这些行为都会包含很多主题。
通过对这些主题的分析,可以更好地理解用户的问题与热点,更加深入地挖掘用户之间的关系,解析社交网络中的动态分析与趋势变化。
例如,通过对某一微博话题的主题分析,在社交网络中找到与该话题相关的人或组织,进而探寻社交网络中信息传递的渠道与路径,并通过不断的主题分析,可以更加准确地掌握用户的兴趣点和需求,做出更科学的决策。
三、网络关系挖掘与社交网络在社交网络中,用户之间会产生各种各样的关系,比如关注、拉黑、好友等。
网络关系挖掘是对这些关系进行挖掘和分析,找出关系对社交网络发展和传播的影响。
通过分析网络关系的强度和密度,可以发现社交网络中的影响者和领袖,找出信息传播与社交影响的重要节点。
基于文本挖掘技术的社交媒体情感分析与舆情监控研究

基于文本挖掘技术的社交媒体情感分析与舆情监控研究随着社交媒体的普及和广泛应用,人们越来越多地在社交媒体平台上表达情感和观点。
对这些海量的社交媒体数据进行情感分析和舆情监控,成为了许多企业、政府和研究机构的关注焦点。
本文将基于文本挖掘技术,探讨社交媒体情感分析与舆情监控的研究和应用。
社交媒体情感分析是通过分析社交媒体文本的内容和表达方式,自动判断其中蕴含的情感倾向。
情感分析通常包括情感分类和情感强度分析两个主要任务。
情感分类是将文本分为积极、消极或中性等情感类别,可以采用机器学习、深度学习等技术进行训练和分类。
情感强度分析是判断文本中情感的程度深浅,常用的方法包括基于词典的算法和基于机器学习的回归算法。
基于文本挖掘技术的社交媒体情感分析在许多应用场景中发挥了重要作用。
首先,情感分析可以用于企业的舆情监控。
通过分析用户在社交媒体上对于产品和服务的评价,企业可以了解用户对其产品的满意度和改进方向,并及时采取措施回应用户的反馈。
其次,情感分析对于政府部门的舆情监控也具有重要意义。
政府可以通过社交媒体情感分析了解公众对政策的意见和情感倾向,为政策制定提供参考意见。
此外,情感分析在金融领域的应用也日益重要。
通过分析社交媒体上对于股票、基金等金融产品的讨论和情感倾向,投资者可以及时调整投资策略。
在社交媒体情感分析中,面临着一些挑战。
首先,社交媒体上的文本通常包含大量的缩写、拼写错误等语言现象,使得情感分析的准确性和效果下降。
其次,社交媒体上存在大量的网络用语、词汇的多义性以及情感表达的隐晦特点,这些都给情感分析带来了困难。
另外,社交媒体数据产生快速且庞大,对于情感分析系统的实时性和处理能力提出了要求。
为了解决这些挑战,研究者们提出了各种基于文本挖掘的社交媒体情感分析算法和工具。
其中,常用的方法包括词典方法、机器学习方法和深度学习方法等。
词典方法是基于情感词典的方法,通过计算文本中情感词的数量和权重来判断整体情感倾向。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于文本挖掘技术的社会网络舆情分析框架刍议——以某知名艺人偷税漏税事件为例张行健 焦 政 钟瑞童摘要:通过研究某知名演员偷税漏税事件的舆情走势,给出舆情分析框架,使用Word2vec模型分析人物关系,梳理事件背景,而后使用评论影响力指标筛选具有导向作用的舆论,再通过主题模型提取观点,分析舆情走势,并对不同主题观点下各类人群构成做量化分析。
该分析框架有助于决策者迅速精准把握热点事件舆情,了解公众心理,反映社会风气。
关键词:舆情分析;观点挖掘;主题模型;word2vec模型中图分类号:G206.3 文献标识码:A 文章编号:CN61-1487-(2019)010-0134-04一、引言公众人物的一举一动对整个社会有很大的影响,人民群众的看法也反映了整个社会对于公众人物的认知和判断。
某知名演员每年的个人收入高达数亿人民币,在去年该演艺明星被曝出令人咋舌的天价片酬,并且“一阴一阳大小合同”公然偷税漏税等行业内幕也随之浮出水面。
自某新闻从业人爆出该明星的阴阳合同之后,各职能部门和媒体就一直没有中断对于该演艺明星的调查。
终于,在去年10月3日,该演艺明星偷逃税案件的结果正式公布,引发媒体关注。
“央视网”报道税务部门依法查处该明星“阴阳合同”等偷逃税问题。
此事一出,各类媒体争相报道,微博、知乎、朋友圈都充斥着各种评论和看法,该演艺明星偷税漏税事件成为引爆社会舆论的焦点。
本研究应用爬虫技术和文本挖掘技术和自然语言处理方法,对该明星偷税漏税事件的社会网络舆情实证分析框架进行研究。
二、文献综述(一)社会网络舆情从李津浩在《采写编》2017年第2期发表的文章《从社会公众事件看网络舆情引导》中,可以准确地总结出公众人物的定义、特点及其对舆论的影响。
社会公众人物具有公众性、典型性、商业价值、社会影响力的特点,其中最典型的特点是其言行会对社会和公众产生的巨大影响力。
如果公众人物的行为举止得当,凭借他们的高知名度,会成为社会发展好的方面的代表,给公众以积极的影响。
公众人物如果言行不当,在新媒体这种环境下,极易引发众怒,舆论就会呈现一边倒的声讨批评,产生网络舆情。
在网络舆情的研究方面比较成熟、主流的分析方法主要有网络调查法、基于统计规则的模式识别方法、基于内容挖掘的主题检测方法等。
以上几种方法均存在一定的局限性,一些新的方法应运而生。
首先,在大数据时代的背景下,数据挖掘的方法已经在更大程度和更广范围应用到网络舆情的分析和研究之中。
数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。
其次则是聚类(clustering)分析法,即根据对某种相似程度的度量,按照相似度将数据对象分组成为多个类或簇。
[2]于志刚.全媒体时代与编造、传播虚假信息的制裁思路[J].法学论坛,2014(2).[3]姜子倩.网络造谣行为刑法规制的实证分析[J].法学论坛,2015(6).[4]高铭暄,马克昌.刑法学[M].北京:高等教育出版社,北京大学出版社,2017.[5]孙万怀,卢恒飞.刑法应当理性应对网络谣言——对网络造谣司法解释的实证评估[J].法学,2013(11).[6]魏东.关于网络造谣入罪问题的法理检讨[J].山东警察学院学报,2014(6).[7]侯帅.论刑法对网络造谣行为的规制——以对“公共秩序”法益的理解为切入点[J].四川警察学院学报,2014(5). [8](意)贝卡利亚.论犯罪与刑罚[M].黄风译.北京:中国大百科全书出版社,2008.[9]刘宪权.网络造谣、传谣行为刑法规制体系的构建与完善[J].法学家,2016(6).[10]李永升,李瑜.网络造谣行为的刑法规制研究[J].河南科技大学学报(社会科学版),2016(1).作者简介:张天姝(1993—),女,山东淄博人,单位为上海政法学院,研究方向为刑法学。
(责任编辑:润兴)134聚类分析法已经被广泛应用于很多方面的数据分析研究中。
最后则是社会网络分析法(SNA),即通过对个体之间的关系构建模型并进行描述,对这些模型中包含的结构及其对个人和整个群体的影响进行分析。
我们可以将大数据应用到日常的舆情管理中,加强对各个网络平台的监管。
大数据技术的发展为传统网络舆情的管理拓宽了视野,我们可以运用大数据对网站、微博、微信等网络平台进行监控,对信息数据的传播和动态进行实时分析,以便从瞬息万变的舆情信息中找准重点,合理分配有限的资源,提高舆情管理效率。
(二)潜在狄利克雷(LDA)分布主题模型隐含狄利克雷分布简称LDA(Latent Dirichlet allocation),首先由Blei,David M.、吴恩达和Jordan, Michael I 于2003年提出,目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。
LDA是一种典型的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系。
一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。
它是一种主题模型,可以将文档集中每篇文档的主题,按照概率分布的形式给出;它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可;此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述。
本小组在文本挖掘技术层面上在文献的分类筛选中选择了LDA主题模型,LDA主题模型在国内的研究也已经较为成熟。
苑东东、赵杰煜、叶绪伦(2018)在《结合深度学习的监督主题模型》中,万子玮(2018)在《基于主题词的微博用户兴趣模型研究》中提出结合深度学习的监督主题模型,利用深度网络强大的非线性拟合能力,建立文档主题分布与标签之间的映射,利用变分期望最大化(EM)和深度网络训练方法,共同完成贝叶斯框架下模型参数的更新,通过改变网络结构和激活函数的类型,用于分类和回归任务。
在前人对LDA改进的基础上,将模型应用于微博用户兴趣的深度挖掘中,将模型的先验概率,更换为后验概率确定用户兴趣模型,提高了主题模型的计算效率,并且保证了主题兴趣挖掘的准确度。
最后,通过召回率、查准率等评价指标对模型进行评价分析,并分析模型应用于个性化广告推荐中的适用性。
三、该明星偷税漏税事件微博舆情分析(一)基于Word2vec模型的社会网络人物关系挖掘1.语料准备爬取知乎上关于“该明星偷税漏税”问题的回答共2022条。
选取知乎上关于“偷税漏税”事件的回答作为word2vec模型的训练语料的原因是,知乎上的回答大部分都是长文本,非常适合word2vec的训练,而且长文本可以将关于“偷税漏税”事件相关的过程来龙去脉阐释清楚,便于word2vec挖掘人物之间的关联度。
得到原始文本后,去除无关的网页标签数据,过滤出原始文本。
在语料数据预处理这个过程中,先将原始文本进行中文分词,由于我们最终的目的是要将“偷税漏税”事件相关联的公众人物挖掘出来并分析他们之间的关联度,所以我们注意的一点是对于人名的分词的准确度,构造精确的用户自定义字典。
由于word2vec注重于上下文的关联,所以将词频很高的语气词和助词等对上下文关联不起作用的词语去除,构造精确的停用词列表。
由于原始文本中有很多的与此事件阐述无关的网址,不能载入word2vec进行训练,所以将其剔除,最后去除所有的标点符号,得到可用于word2vec训练的文档。
以下给出语料预处理的具体步骤:第一步,将所有的回答载入一个文档中。
第二步,定义该明星偷税漏税问题的用户自定义字典,字典列表里包括明星的人名,其中也包含同一个人的多个称呼(如XXX和X老师),此外,还有相关知名影视公司。
第三步定义停用词,将词频较高的助词、语气词等定义为停用词,在分词之后这些词汇将会被过滤掉。
第四步,去除文本中所有的标点符号和网址链接,最终过滤出纯文本并将其分词,准备训练word2vec模型。
2.训练word2vec模型并输出相似度矩阵将知乎关于“该明星偷税漏税”问题所有的回答作为语料库训练word2vec模型,并挖掘相关人物的向量相似度(即人物相关性),并得到人物关系相似度矩阵。
图1 该明星偷税漏税时间关键人物关系网络由于矩阵中每一个人物关系相似度都超过0.9,所以要观察他们之间相对的相似度,要将其标准化。
为了防止人物关系相似度矩阵出现负数,用max-min方法对其进行标准化。
这种标准化的优点是:标准化后所有的数值都是非负的,并且原数据中最小的数标准化后变为0,最大的数标准化后变为1,可以让我们清晰地观察到关系相似度最高的两个人,还有最不相关的两个人。
将人物关系相似度矩阵进行可视化,转化为关系图:3.人物关系解读与事件梳理135从人物关系图中可以直观地看出,整个事件是以该明星为中心,向外辐射出与“偷税漏税”事件相关的人物,辐射出相关的人物有演艺人物4、新闻从业者1、演艺人物3、演艺人物2、演艺人物1。
在图中还可看出,与该明星关联性不大的演艺人物4,在此事件中,他和该明星是有一定的并列关系,因为他们同时被新闻从业者1所批判,因此演艺人物1和演艺人物4的相关性近似于0,说明在此事件中,演艺人物4和1毫不相关,互相不牵连。
这个模型最大的特点是能挖掘公众所不熟知的人物关系,比如演艺人物2和3,公众可能认为他们两个与“偷税漏税”事件毫不相关,其实不然,他们和这个事件的核心人物都有着非常大的关联度。
这个模型可以使公众有新的了解目标,主动地去搜寻看似不相关的人物的事件,而不是被动的接受媒体传播的信息。
(二)基于主题模型的舆论观点分析1.引入微博评论影响力指标过滤舆论导向信息使用Python+Selenium+Chrome编写爬虫程序。
截至目前,获取微博话题“#该明星偷税#”“#该明星偷税、漏税#”“#该明星大轰炸戏份9秒#”“#该明星偷税漏税调查结果#”“#该明星陷偷税门#”5个话题下内容无缺失的讨论文本共计2119条,并爬取发布者信息,共计1703条(同一个人可能有多条讨论)。
数据库变量类别分别为变量名、用户名、发布时间、转发量、评论量、点赞量、评论内容、性别、所在地、用户类别等。
使用转发、评论与点赞量构造微博评论影响力指标,衡量其言论所起到的舆论导向作用,过滤对舆论影响低的讨论。
指标计算方法如下:获取影响力指标大于等于1的讨论共计1003条,作为本次分析语料。
某明星新闻从业者1演艺人物1图2 微博话题下该明星事件讨论的词频图从词频图中我们可以清晰看出,作为事件主角的该明星的姓名出现次数遥遥领先其他词汇,总共出现了684次;其次是“偷税漏税”这一行为,总共出现了179次;像“罚款”“国家”“法律”“偷税”“逃税”这一类与国家法治制度相关的词汇出现次数紧随其后,基本都达到90次左右,这也体现了大多数微博用户对于国家基本法律的重视和对该明星违反国家基本法律政策的反对;除此之外,类似“视频”“明星”“大轰炸”“娱乐圈”这类有关娱乐圈电影明星的词汇的出现次数也有很多,基本上都达到了70次左右,说明部分微博用户认为该明星偷税漏税事件与整个娱乐圈风气具有一定的相关联度;最后,类似于“道歉”“补缴”“处罚”“依法”“刑事责任”“封杀”这类词汇的存在表明部分微博用户认为该明星有责任进行道歉以及受到处罚以正娱乐圈的风气。