话题发现与跟踪技术样本

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

话题发现与跟踪技术

一: 方案提出

1 利用网络爬虫Nutch将爬到的数据存储在表Crawler中

2 将表中数据( 标题和正文) 进行特征向量提取, 得到VSM( Vector Space Model) 向量空间模型

3 用KNN聚类算法进行第一次聚类得到微类集合

4 用单连通算法( Single-Pass算法) 进行第二次聚类得到精确的聚类结果

5 根据热点事件发展曲线识别出热点话题

6 话题呈现

二: 网络舆情分析

1 系统总体结构:

话题发现模型:

1 主题网络爬虫定义: 主题网络爬虫就是根据一定的网页分析算法过滤与主题无关的链接, 保留主题相关的链接并将其放入待抓取的URL队列中; 然后根据一定的搜索策略从队列中选择下一步要抓取的网页URL, 并重复上述过程, 直到达到系统的某一条件时停止。

基本思路: 按照事先给定的主题, 分析超链接和已下载的网页内容, 预测下一个待抓取的URL以及当前网页的主题相关度。

2 信息采集流程:

1) 输入WebURL

2) Web相应?

3) 否就结束; 是就进行下一步

4) 初始化URL队列

5) 数据流( 读取数据流类)

6) 信息分类存储( 正则表示式匹配类)

7) 数据库( 操作数据库类)

8) 添加到新URL队列

9) 重复第2) 步直到URL队列为空

3 热点分析过程

包括: 热点分析起始时间, 热点信息显示, 舆情采集信息和话题活性图

4 存储记录

存储一条记录时, 程序首先经过MD5将网络爬虫提取的每一个字段值联合成一个字符串进行加密, 映射成32位长的UDDI, 作为此数据的标识。实现去重功能MD5去重复URL:

Message-Digest是指字符串的Hash变换, 即把一个任意长度的字符串变换成一定长的大整数。MD5加密以512位分组来处理输入的信息, 且每一组又被划分为16个32为子分组, 将这四个32位分组级联后将生成一个128位散列值。

MD5算法是一个不可逆的字符串变化算法。特性:

1)任意两端明文书局加密以后的密文不含相同

2)任意一段明文数据经过加密后其具体结果必须永远是不变的

三: 热点事件发现

1 TDT相关概念

话题( Topic) , 事件( Event) , 报道( Story) , 主题( Subject)

TDT也把包括一个核心事件以及所有与之关联的事件的总和称为话题。即话题就是关于某个事件的所有报道的集合。

报道: 指描述某个事件的新闻片段。

话题: 不是指一个大的主题, 而是一个具体的事件。

2 话题检测与跟踪

分为五个子任务:

1) 报道切分( Story Segmentation)

2) 新事件检测( New Event Detection)

3) 关联检测( Link Detection)

4) 话题检测( Topic Detection)

5) 话题跟踪( Story Tracking)

话题发现任务的本质是将输入的新闻报道流划入不同的话题类, 并在需要的时候建立新的话题类, 其过程等同于无指导的聚类过程, 且属于一种增量聚类, 一般可划分为两个阶段: 新事件检测阶段和后续的新闻报道流中的报道划入相应的话题类阶段。

3 热点事件内容特征自动抽取

网络新闻中热点事件的发现及热点事件内容特征的自动抽取。主要包括: 1)Web新闻网页的自动采集

2)网页正文的抽取及去噪

3)事件发现算法

4)热点事件判别

5)对热点事件不同层面内容特征的自动抽取

事件发现算法:

第一层: 采用凝聚聚类算法对每天的语料进行聚类, 得到每天的微类。

第二层: 采用Single-Pass聚类算法对用户选择的某一段事件内的所有天的微类, 按照微类间的时间顺序进行聚类得到事件列表。

4 热点事件发现

1) 网络新闻语料采集( 爬虫)

2) 语料预处理

文档向量化是计算文档之间相似性的基础, 每个文档d表示成V(d) = (t1,w1(d);,,,,,,,,,,,ti,wi(d);,,,,,,,,,tn,wn(d)); 其中ti为特征向, wi( d) 为ti在d中的权值。

文档分标题和正文两部分, 也对命名实体进行加权。

特征向ti权重的计算, 改进TF*IDF方法:

相似度计算:

计算相似度建立相似度矩阵:

余弦夹角公式:

加入时间衰减函数T, 描述如下:

特征词权重:

相关文档
最新文档