网络舆情监测设计方案

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

精心整理

第一章 项目的背景及必要性

1.1 项目背景

近年来,网络舆情对政治生活秩序和社会稳定的影响与日俱增,一些重大的网络舆情事件使人们开始认识到网络对社会监督起到巨大作用。如“5.12”汶川特大地震中传统媒体与新媒体的充分联动,又如“7.23”甬温线特别重大铁路交通事故中微博发挥的重要作用,再到2012年此起彼伏的社会群体事件。

公共危机事件爆发时,犹如以石击水,相关信息在短时间内迅速传播,引起群众的广泛关注。 一些非理性议论、小道消息或负面报道常常在一定程度上激发人们普遍的危机感,甚至影响

2.12.2的、最关注的舆情信息做相应的分类展示,方便下一步工作。

2.3时效性

舆情信息的第一时间获取、第一时间分析、第一时间展示、第一时间预警。网络信息的一大特点就是传播快,出现重大事件后,相关部门必须第一时间了解到相关情况,否则就会在整个事件的处理上处于被动局面。

2.4易维护性

整套解决方案的数据维护简单,容易操作,完全通过WEB 方式完成,采用云技术,降低维护的技术难度,也减少了人为隐患的发生。

2.5安全、稳定、准确、及时

采用先进的算法,多个模块组成一个安全、稳定、准确、及时的网络舆情监测平台。方案在总体设计上遵循稳定、开放、可扩展、经济、安全的原则,从而使整个方案组成合理,技术先进,易于扩展,既能满足当前的业务数据处理要求,又能符合长期发展的需要。

第三章总体架构

3.1总体概述

网络舆情监测平台采用J2EE技术体系,前端采用Ajax开发技术,操作简单、易用、高效、稳定。平台所有功能均采用纯B/S结构设计,零客户端维护。

实时采集网络舆情信息,如门户网站、知名论坛、搜索引擎、博客、贴吧,微博等,7*24小时为用户提供信息采集、信息处理、信息编辑功能,实时掌握所关注的网络舆情信息,为贵州交通行业相关部门提供决策参考依据。

3.2业务流程

4.1

URL

个种子

4.2

挖掘平台的核心支撑能力。

分布式文件系统有效地解决了海量数据存储问题,并实现了位置透明、移动透明、性能透明、扩展透明、高容错、高安全、高性能等关键功能。目前业界比较流行分布式文件系统有Google文件系统(GFS)、分布式文件系统(HDFS)、文件系统(KFS),这3种分布式文件系统都是基于Google 提出的分布式文件系统理论进行研发的。Google提出的GFS就是解决其海量数据存储和搜索、分析等问题,而和KFS是基于GFS理论基础上实现的开源系统,并且在商业和学术领域得到了广泛的应用。

分布式并行计算框架对于高效完成数据挖掘计算任务极其重要,并且它对分布式计算的一些技术细节进行了封装,例如数据分布、任务并行、任务调度、负载平衡、任务容错、系统容错等,使用户不需要考虑这些细节,而只要考虑任务间的逻辑关系。这样不仅可以提高研发的效率,还可以降低系统维护的成本。目前典型的分布式计算框架有:

MapReduce是提出的一个并行计算框架,它可以在大量PC机上并行执行海量数据的收集和分析任务。它把如何进行任务并行执行、如何进行数据分布、如何容错、网络带宽时延等问题的解决方案编码,并封装在了一个库里面,使用户只需要执行数据运算即可,而不必关心并行计算、容错、数据分布、负载均衡等复杂的细节。同时它又对上层应用提供良好简单的抽象接口。MapReduce主要应用在搜索、数据仓库、数据挖掘领域。

Pregel是Google提出的迭代处理计算框架,它具有高效、可扩展和容错的特性,并隐藏了分布式相关的细节,展现给人们的仅仅是一个表现力很强、很容易编程的大型图算法处理的计算框架。Pregel的主要应用场景是大型的图计算,例如交通线路、疾病爆发路径、WEB搜索等相关领域。

Dryad是微软硅谷研究院创建的研究项目,主要用来提供一个基于Windows操作系统的分布式计算平台,总体用来支持有向无环图类型数据流的并行程序。微软于年宣布,停止对Dryad进行版本升级,转投Hadoop即MapReduce计算框架。

4.3

1

以上。

2

3

4.4

1

2

3

标。还融合多种技术,提供丰富的检索手段以及同义词等智能检索方式。

4.5网络舆情处理流程

网络舆情监测主要由网络数据采集、数据处理、舆情分析与报告三大部分构成。舆情信息采集对象主要以新闻门户网站、微博、论坛、博客、贴吧等,从海量的网页中采集数据为舆情分析提供基础数据。

第五章方案设计

5.1平台实现的主要功能

1. 数据采集:根据用户设置的信息源对数据进行采集。

2. 数据处理:

1) 信息预处理:去除网页中的广告、图片、链接等无价值、无需关注的信息。并自动识别标题、来源、作者、发布时间、正文等信息。

2) 二次分析处理:利用“多重双向数据过滤模型”、知识库引擎、中文分词、全文检索、文本自动摘要等,进行舆情过滤、自动分类、相似性排重、舆情分析。

3) 数据统计:对信息处理结果作进一步统计分析,以图表方式展现给用户浏览。

3. 信息管理

1) 系统配置:用于配置检索数据源和检索规则

2) 用户管理:配置用户登录账户和角色权限

3) 用户自定义设置:用户根据需要自行设置浏览的信息范围。

4. 舆情浏览:根据系统配置和用户设置在网页上显示舆情信息。

5. 舆情操作:用户可以手动操作舆情。如:设置属性、加入简报、收藏、上报等。

6. 自动预警:经过分析出现重大负面信息时,系统将启动预警机制,迅速报警提示。

5.2网络拓扑结构

5.3

5.4

户选择的城市分站点刷新显示舆情。

省外:分支为除本省外国内其它省份,可根据用户选择显示省外所有或指定省份的舆情信息。

●信息要素

舆情信息分页浏览,每页显示15条记录,通过第一页、上一页、下一页、最后一页进行翻页;

每条记录显示舆情标题、摘要、高频词数、点击数、回帖数、来源网站、相似文章数、相关文章数、发布时间;点击【查看原文】或者文章标题链接打开文章内容窗口查看详细。

●近期热点

相关文档
最新文档