话题检测与跟踪技术的发展与研究.
话题检测与跟踪的评测及研究综述

1 9 年 前 瞻 性 的 探 索 以 来 , 领 域 进 行 的 多 次 大 规 模 评 测 为 信 息识 别 、 集 和 组 织 等 相 关 技 术 提 供 了新 的 测 试 平 96 该 采 台 。 由 于话 题 检 测 与 跟 踪 相 对 于信 息检 索 、 息挖 掘 和 信 息 抽 取 等 自然 语 言 处理 技 术 具 备 很 多共 性 , 面 向 具 备 信 并
关 键 词 :计 算 机 应 用 ; 中文 信 息 处理 ; 述 ;话 题 检 测 与 跟 踪 ; 综 自然语 言 处 理 ; 事件 ; 闻报 道 新
中 圈 分 类 号 :TP3 l 9 文 献 标 识 码 :A
To c D e e to n a ki g Re i w pi t c i n a d Tr c n v e
Ha bnI siu eo c n lg ,H abn, i n j n 5 0 1,Chn ) r i n tt t fTe h oo y r i Hel gi g 1 0 0 o a ia
Ab ta t s r c :T o c de e to a r ki pi t c in nd tac ng, a o o n u a l gu e s ne f at r l an ag pr c s i e hno o e o e sng t c l gis, i t de e tunkn s o t c own t pi nd ta k kn o c a r c own t c fom he nf m a i f n w s m e um . Si e is iotr s ar h i 99 opi r t i or ton o e di nc t p l e e c n 1 6, s ve a a ge e r ll r - s al v l ato o e e e ve pr vi d a go vionm e t f r e a u ig e hno o e f r c gnii c e e a u in c nf r nc sha o de od en r n o v l atn t c l gis o e o ton,c leci n o l to
互联网跟踪与发现探析

类型 通 信 网络服务名称 即时通信 电子邮件 搜 索引擎 网络新 闻
兴
,' 、 、
新闻网站也可 以成为侦查 员获取情报信 息的来源 。像一些
比较大型 的门户网站都提供 了新 闻评论 的功能 ,例如搜狐
新 闻中心 、网易新闻 、新 浪新 闻板 等。在这 些新 闻网站 中,实名用户可 以对新闻热点进行评论 ,而侦察人员则可 以通过评 论跟 踪到该评论 者的注册信 息 ,发 表的其 它评 论、文章 以及个人信息 ,从 中可 以了解到其 关注倾向和兴
有所 映射 ,可 以通过 实体 信息挖掘 技术 与社 会 网络分 析
了解犯 罪嫌疑人 的 网络 行为 ,挖掘 嫌疑人 的虚拟社 团结
1 由于跟踪 工作的特殊需 要使 程序具有 隐蔽 性 ,需 . 采 用R o i o kt 技术 以及远程线程注射技术。 2 服务器端程序 具有恶意代码特 征 ,容易被安全 软 . 件识 别 、查 杀 ,因此需要 采用加壳技术 、特征码修 改技
个 圈子 中的人 会 是一 个 团伙 。在打 击 网络 犯 罪 的过 程
本 ,是信息搜索引擎 的重要组成部分。通过网络爬 虫可 以 遍历We 获取页面中的信息。通过使用网络爬虫 ,我们可 b
以使用计算机从互联 网中自动搜索 、筛选主题 ,从而实现
网页信息 自动发现 的 目的。在主题搜索中的主要资源获取
部分可以叫做主题爬虫程序 ,负责获取 与主题相关的网页
信息与特征向量 ,例如页面 中的<i > h tl 、< >、< > t e p 等标
1话 题报道建模 :要报 道某个话题与话题 之间的关 系 ,可 以建立 语言 模 型 、向量 空 间模 型 、中心 向量 模
面向微博网络舆情的热门话题检测系统框架研究

163数据库技术Database Technology电子技术与软件工程Electronic Technology & Software Engineering通过微博平台,用户可以公开性地发表原创内容,并实现转发、点赞、评论、搜索等功能,使得公众可以在微博平台自由反映自身观点,提高信息传播速度同时,也容易出现诸如不良信息、谣言等不当言论等现象,如果不及时管理会形成负面网络舆情[1]。
微博的发展十分迅速,逐渐成为在网络舆情监控的主要平台,针对微博网络舆情开展热门话题的发现、演化和跟踪的相关技术的研究,对互联网舆情监管具有十分重要的意义[2]。
1 研究现状网络舆情热点话题是指公众在一定时期,一定范围内最关注的热点问题[3]。
通过数据采集、数据处理和热点话题识别三步实现热点话题检测,其中数据采集阶段主要是利用网络爬虫技术来采集微博数据,数据处理阶段利用各种信息处理技术对所采集到的各种信息进行加工和操作,在热门话题识别阶段通过增量文本聚类将输入信息分类到不同的主题中[3]。
路荣发利用K-means 聚类方法聚类速度快的优点实现第一层聚类,然后再针对第一层聚类的结果设定阈值参数,使用层次聚类结果满足阈值[4]。
李劲等学者提出基于特定领域的中文微博热点话题挖掘系统 BTopicMiner [5]。
张静基于微博网络热点相似度和测度方法以及基于传播路径和用户行为的中心化方法,构建了面向微博内容的网络热点发现平台[6]。
邓一贵、马雯雯等基于隐含语义分析构建了两阶段聚类话题发现方法[7]。
基于Single-Pass 聚类算法王宏勇设计了热点舆情自动发现系统的方案[8]。
陈兴蜀等利用潜在狄利克雷分配(LDA)模型将文本由词汇空间降维到主题空间,然后采用聚类算法在主题空间对文本集进行聚类,并利用文中提出的热点话题检测方法得出热点话题[2]。
王琳炜通过爬取微博数据,利用Word2vec 向量模型和 TF-IDF 权值算法得到热点网民微博词云图中的词类、词性占比和词汇相似比等指标,然后对各种指标进行汇总分析[10]。
基于PDCA循环和文本挖掘的网络舆情监管方法

基于PDCA循环和文本挖掘的网络舆情监管方法【摘要】为了完善网络舆情信息的监管机制,使网络舆情能够被有效的梳理和监管,提出了基于PDCA循环和文本挖掘相结合的网络舆情信息监管方法。
该方法采用PDCA的计划、执行、检查、改进四个步骤来梳理网络舆情信息监管流程,而在执行阶段则融入文本挖掘方法实现智能决策分析。
本文首先分析了目前网络舆情管理的现状,其次给出了基于PDCA循环和文本挖掘的监管方法的实施方案,其中重点阐述了信息获取、热点网络舆情发现、情感倾向性分析等文本挖掘方法在其中的应用。
【关键词】网络舆情;PDCA循环;文本挖掘1.引言互联网已经渗透到我们日常生活的方方面面,据统计截至2013年6月底,我国网民规模达5.91亿。
同时,Web2.0技术(如微博、博客、论坛等)的发展为民众参与政治讨论搭建了全新环境,扩展了民众参与政治的方式方法,目前越来越多的民众选择选择通过网络来发表自己关于某个事件的观点、看法、意见、情绪等,形成网络舆情信息。
它是民众对某个特定事件的集体反映,如果不能很好地梳理和引导,有可能导致更为严重的后果。
所以,目前关于网络舆情信息疏导和监管的研究越来越受到科研工作者、政府部门工作人员的重视。
对网络舆情的监管能力已经成为当前政府部门执政能力强弱的考核指标。
目前对网络舆情信息监管的研究主要有以下两种思路:社会科学领域的研究者们比较关心网络舆情信息的定义及范畴、引导机制、预防措施等理论的研究;而工程技术领域的研究者们主要关心如何挖掘网络舆情信息中的有用信息,比如利用话题检测与跟踪技术及时地发现相关于某个特定事件的网络舆情信息、通过情感分析技术挖掘网络舆情信息中包含的民众情感、通过可视化技术对各种分析结果可视化等等。
但是,无论从社会科学领域还是工程技术领域来看,国内目前对网络舆情信息的研究都还处于起步阶段,从近年来政府部门应对突发事件网络舆情的情况来看,我国的舆情监管还不够规范,存在着一些问题和不足。
面向自动驾驶的车辆目标检测与跟踪研究

面向自动驾驶的车辆目标检测与跟踪研究随着互联网和人工智能技术的迅猛发展,自动驾驶技术正逐渐成为汽车行业的热门话题。
在实现安全高效的自动驾驶系统中,车辆目标检测与跟踪是至关重要的一项研究内容。
本文将探讨面向自动驾驶的车辆目标检测与跟踪的研究方法和技术发展。
车辆目标检测是指通过使用传感器和图像处理技术,识别和定位出图像或视频中的车辆目标。
在自动驾驶领域中,准确地检测出车辆的位置、大小和形状对于车辆感知和规划模块非常关键。
目前,常用的车辆目标检测方法主要包括基于传统特征的方法和基于深度学习的方法。
基于传统特征的方法主要利用一些预定义的特征和机器学习算法来检测车辆目标。
例如,Haar特征、HOG特征和SIFT特征等都是经典的图像特征。
这些特征被用于训练分类器,如支持向量机(SVM)和随机森林等,来实现目标检测。
然而,这些方法在复杂场景下容易受到光照变化、视角变化和遮挡等问题的影响,检测准确率有限。
相比之下,基于深度学习的方法则引入了卷积神经网络(CNN),它通过学习图像的特征表示来实现目标检测。
在自动驾驶领域,深度学习方法已经取得了巨大的突破。
典型的深度学习模型如Faster R-CNN、YOLO和SSD等已经成为了常用的车辆目标检测算法。
这些模型能够实现实时检测和较高的准确率,但也存在一定的计算复杂度,需要更高的硬件配置。
除了目标检测,车辆目标跟踪也是自动驾驶领域的重要研究内容。
车辆目标跟踪旨在实时追踪车辆目标的位置和运动轨迹,以便更好地感知周围环境和进行行驶决策。
常见的车辆目标跟踪方法包括基于卡尔曼滤波器、粒子滤波器和多目标追踪等算法。
在自动驾驶系统中,车辆目标检测与跟踪的准确性和实时性是关键指标。
为了达到更好的检测和跟踪效果,研究者们将目光投向了多传感器融合和强化学习等前沿技术。
多传感器融合可以将多个传感器(如摄像头、激光雷达和雷达)提供的信息综合起来,提高目标检测和跟踪的准确性和鲁棒性。
强化学习则可以通过不断的试错和优化,使自动驾驶系统获得更高的操控能力和智能性。
话题识别与跟踪方法的研究

话题识别与跟踪方法的研究【摘要】话题识别与跟踪旨在实现对新闻媒体信息流中新话题的自动检测以及对已知话题的动态跟踪。
本文首先介绍话题识别与跟踪的基本概念、研究任务和相似度计算方法,然后对话题跟踪的方法进行详细论述。
【关键词】话题检测;话题跟踪;文本分类0.引言随着信息技术的飞速发展,互联网变得越来越普及,这就造成了网络信息的急剧膨胀,如何在浩瀚的信息海洋中获取自己所需信息成为困扰人类的新问题。
话题识别与跟踪(Topic Detection an Tracking,TDT)技术就是在这种情况下产生的。
TDT是一种新的信息处理技术,它将新闻信息流以主题为单位进行组织,实现对新闻流中新话题或新事件的自动检测以及对已知话题的后续报道的追踪。
从1996年TDT概念的提出,1997年自马萨诸塞大学、卡内基一梅隆大学和Dragon System公司的学者和研究人员对这项技术进行了初步研究[1],到2007年TDT共举行过七次公开的TDT任务评测,取得了很好的效果,渐渐使得TDT 成为研究的热点。
1.TDT的相关技术1.1基本概念话题(Topic)是指由某些原因、条件引起,发生在特定时间、地点,并可能伴随某些必然结果的一个事件[2]。
主题(Subject)是与话题相应的一个概念,它的含义更广些。
话题与某个具体事件相关,而主题可以涵盖多个类似的具体事件或者根本不涉及任何具体事件。
报道(Story)是指一个与话题紧密相关的、包含两个或多个独立陈述某个事件的子句的新闻片段。
1.2研究任务美国国家标准技术研究院(NIST)为TDT研究设立了五项基础性研究任务:报道切分任务(SST):将原始数据流切分成具有完整结构和统一主题的报道。
话题跟踪任务(TT):跟踪已知话题的后续报道。
话题检测任务(TD):检测和组织系统预先未知的话题,TD的特点在于系统欠缺话题的先验知识。
首次报道检测任务(FSD):从具有时间顺序的报道流中自动锁定未知话题出现的第一篇相关报道。
跨媒体-国内外研究现状

国内外研究现状一、互联网发展趋势互联网网络核心技术产生于上世纪60年代末,而互联网大规模应用始自上世纪90年代中期,经过十多年的快速发展和普及,互联网已经成为技术发展的重要推动力、经济发展的重要引擎、社会运行与管理的重要基础设施和国际竞争的重要领域,深刻影响着世界政治、经济、文化和社会的发展。
对于互联网,在规模、技术、内容、安全和应用等方面呈现出新的发展趋势,更大的发展和影响在于未来【01】。
首先在规模上,互联网的网络规模已经覆盖几乎所有国家和地区,今后将进一步向陆地、海洋和太空延伸;其次,用户规模巨大,目前全球互联网用户总量已经达到17亿左右,据美国国家科学基金会(National Science Foundation)预测,2020年前全球互联网用户将增加到50亿,达到全球的总人口数67亿的75%;设备终端数目以百亿计,移动与便携设备将是未来的主流;互联网上的数据是海量的,其规模达到将达到EB甚至ZB级【01】。
其次在技术上,特别是在未来50年,将催生新一代的互联网技术【02】【03】;在数据传输与网络技术方面,新出现新的互联网络体系结构【03】,超高速有限和无线通信技术【05】,物联网技术等【04】;在数据处理方面,在现有网格计算【06】、云计算【06】的基础上,将诞生新一代的海量数据与分布式处理技术【07】;在信息处理方面,在现有搜索引擎的基础上,将产生语义[08]和智能搜索引擎【09】。
在内容上,除了内容的海量特征外,内容的呈现格式多种多样,有文本、语音、图像和视频等多种异于传统的非结构数据存在;在内容的表示上,目前主要是基于文字的原始信息表示,缺乏统一的信息表示模型,缺乏以知识模型为基础的语义表示。
在安全上,首先是用户行为无法有效全面监控;其次,内容的真实可信无法保障,有害垃圾信息缺乏有效监控和过滤,个人隐私信息无法进行有效保护。
在应用方面,目前互联网络有影响的应用主要体现在以下几方面,一是信息的发布与传播上,如网站、论坛、博客、微博、社区等;二是电子商务应用上,三是电子政务应用上,四是一些基于互联网络的专有应用。
基于本体的话题检测与跟踪技术

下位关系和部分关系等 。从 Wo N t r e的这些特点 d
可 以看 出 , rN t Wod e 与本 体 非 常 相 似 。T T是 针 对 D 自然 语 言报 道 而进行 的研 究 , 文 本 的相 似 性 检 测 在
有提高对报道相似性判断的准确性 , 才能有效地检
测 和跟 综后续 的话 题 。本 文研究 的重 点 即是通过 引
结 构 中不 同的 、 重要 的概 念赋 以不 同的权 重 , 改进 了
T I F技术 中 出现 次数 相 同的词有 相 同 的权重 的 F— D
判。大部分针对关联性检测的研究都将问题的重心 集 中于 文本 描述 以及特 征选 择 。Jm sAln】是最 a e l a
早 使用 自然 语 言处 理 技 术 ( L ) 决 ห้องสมุดไป่ตู้ T问题 的 NP 解 D
第2 7卷
第2 2期
甘肃 a c Ga s ce c n技 h o n u S i n e 科d Te n 1
. 7 ,0 2 2 v. 2
No . 2 1 v 0l
2 1 年 1 月 01 1
基 于本 体 的话题 检 测 与跟 踪 技术
刘 炜 , 明 , 李 杨合立
入本体 , 提高对报道文本特征的概念相似度 的计算,
准 确判 断话题 的相关性 。
方面, 对于地理名词的相似性, 可以通过地理本体来
扩 展其语 义 特 征 。对 于 报 道 中 的名 实 体 和行 为 概
关联性检测的主要任务是检测随机选择的两篇 报道是否论述 同一话题。传统基于概率统计 的 T T D
相似 性 的方 法 , 以解决 T T中的关 联性检 测 问题 。 D Wod e是 Pi e n大学 的一组 心理 词汇 学 家 rN t r ct n o
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
话题检测与跟踪技术的发展与研究骆卫华刘群{luoweihua, liuqun}@中国科学院计算技术研究所摘要:本文介绍了话题检测与跟踪技术的由来和发展历程,并展望其应用前景,同时比较系统地介绍了现有的话题检测与跟踪系统主要采用的方法,并对其效果进行了比较。
关键词:话题检测与跟踪,向量空间模型,语言模型Development and Analysis of Technology of Topic Detection and TrackingLuo Weihua, Liu Qun{luoweihua, liuqun}@Institute of Computing Technology, Chinese Academy of SciencesAbstract: The paper introduces the origin and history of the development of technology of topic detection and tracking, and makes remarks on its prospect. It also describes systemically the methods adopted by the current systems of topic detection and tracking, and makes comparison among their performance.Keywords: Topic Detection and Tracking, Vector Space Model, Language Model1 应用背景随着信息传播手段的进步,尤其是互联网这一新媒体的出现,我们已经摆脱了信息贫乏的桎梏,进入一个信息极度丰富的社会。
在目前信息爆炸的情况下,信息的来源已不再是问题,而如何快捷准确的获取感兴趣的信息才是人们关注的主要问题。
目前的各种信息检索、过滤、提取技术都是围绕这个目的展开的。
由于网络信息数量太大,与一个话题相关的信息往往孤立地分散在很多不同的地方并且出现在不同的时间,仅仅通过这些孤立的信息,人们对某些事件难以做到全面的把握。
一般的检索工具都是基于关键词的,返回的信息冗余度过高,很多不相关的信息仅仅是因为含有指定的关键词就被作为结果返回了,因此人们迫切地希望拥有一种工具,能够自动把相关话题的信息汇总供人查阅。
话题检测与跟踪(Topic Detection and Tracking,以下简称TDT技术就是在这种情况下应运而生的。
通过话题发现与跟踪,人们可以将这些分散的信息有效地汇集并组织起来,从而帮助用户发现事件的各种因素之间的相互关系,从整体上了解一个事件的全部细节以及与该事件与其它事件之间的关系。
目前此方面的研究已经引起了人们的普遍兴趣。
TDT技术可以用来监控各种语言信息源,在新话题出现时发出警告,在信息安全、金融证券、行业调研等领域都有广阔的应用前景。
此外,它还可以用来跟踪某个话题的来龙去脉,进行历史性质的研究。
2发展历程话题检测与跟踪是一项旨在依据事件对语言文本信息流进行组织、利用的研究,也是为应对信息过载问题而提出的一项应用研究。
TDT的概念最早产生于1996年,当时美国国防高级研究计划署(DARPA根据自己的需求,提出要开发一种新技术,能在没有人工干预的情况下自动判断新闻数据流的主题。
1997年,研究者开始对这项技术进行初步研究,并做了一些基础工作(包括建立了一个针对TDT 研究的预研语料库。
当时的研究内容包括寻找内在主题一致的片断,即给出一段连续的数据流(文本或语音,让系统判断两个事件之间的分界,而且能自动判断新事件的出现以及旧事件的再现。
从1998年开始,在DARPA支持下,美国国家标准技术研究所(NIST每年都要举办话题检测与跟踪国际会议,并进行相应的系统评测。
2002秋季召开了TDT的第五次会议(即TDT 2002。
这个系列评测会议作为DARPA支持的TIDES(Translingual Information Detection, Extraction andSummarization,跨语言信息检测、抽取和总结项目下的两个系列会议(另一个是文本检索会议TREC之一,越来越受到人们的重视。
参加该评测的机构包括著名的大学、公司和研究所,如IBM Watson研究中心、BBN公司、卡耐基-梅隆大学、马萨诸塞大学、宾州大学、马里兰大学、龙系统公司等。
国内这方面的研究开展得要晚一些,1999年国立台湾大学参加了TDT话题检测任务的评测,香港中文大学参加了TDT 2000的某些子任务的评测。
最近北京大学和中科院计算所的研究人员也开始进行这方面的跟踪和研究。
TDT会议采用的语料是由会议组织者提供并由语言数据联盟(Linguistic Data Consortium,以下简称LDC对外发布的TDT系列语料,目前已公开的训练和测试语料包括TDT预研语料(TDT Pilot Corpus、TDT2和TDT3,这些语料都人工标注了若干话题作为标准答案。
TDT2和TDT3收录的报道总量多达11万6千篇,从而很大程度上避免数据稀疏问题的影响,同时也能很好地验证算法的有效性。
总的来看,TDT系列评测会议呈现两大趋势:一是努力提高信息来源的广泛性,不仅包括互联网上的文本数据,还包括来自广播、电视的语音数据;二是强调多语言的特性。
从1999年开始,TDT会议引入了对汉语话题的评测,2002年又计划增加阿拉伯语的测试集。
可以看到,话题检测与跟踪和信息抽取研究一样,其建立与发展是以评测驱动的方式进行的。
这种评测研究的方法具有以下一些特点:明确的形式化的研究任务、公开的训练与测试数据、公开的评测比较。
它将研究置于公共的研究平台上,使得研究之间的比较更加客观,从而让研究者认清各种技术的优劣,起到正确引导研究发展方向的目的。
3 研究内容与现状与一般的信息检索或者信息过滤不同,TDT所关心的话题不是一个大的领域(如美国的对华政策或者某一类事件(如恐怖活动,而是一个很具体的“事件(Event”,如美国911事件、江泽民访美等等。
为了区别于语言学上的概念,TDT评测会议对“话题”进行了定义:所谓话题(Topic,就是一个核心事件或活动以及与之直接相关的事件或活动。
而一个事件(Event通常由某些原因、条件引起,发生在特定时间、地点,涉及某些对象(人或物,并可能伴随某些必然结果。
通常情况下,可以简单地认为话题就是若干对某事件相关报道的集合1。
“话题检测与跟踪”则定义为“在新闻专线(Newswire 和广播新闻等来源的数据流中自动发现主题并把主题相关的内容联系在一起的技术”。
例如,“俄克拉荷马城爆炸案”这个主题包括1995年美国联邦大楼被炸、悼念仪式、州和美国联邦政府的一系列调查、对Timothy McVeigh 的指控等等。
这个定义和其它与话题有关的研究不同,那些研究主要处理信息分类问题,比如任何与爆炸有关的事件。
处理分类问题需要专门的分类体系,注解起来效率低而且主观色彩浓厚。
TDT 与其它研究不同之处还在于它强调新事件的发现,希望找出不在人们意料之中的或没有人知道如何去查询的事件。
TDT 是一项综合的技术,需要比较多的自然语言处理理论和技术作为支撑,因此这些测评对其进行了细化。
根据不同的应用需求,TDT 评测会议把话题检测和跟踪分成五个子任务。
表一 TDT 的技术任务TDT 会议对参评的TDT 系统定下的目标是“实现一个功能强大、用途广泛的全自动算法用以判断自然语言数据的主题结构,同时要做到与来源、媒介、领域和语言无关”。
目前的成果表明切分定界的性能已经和人工相差无几,话题跟踪技术也已基本实用,但话题检测技术还有待改进。
尤其值得一提的是,单一语言的测试性能并不随语种的变化而发生很大变化,对汉语话题的跟踪和检测性能与英语十分接近。
为了对不同的系统进行量化比较,TDT 会议制订了一套评测规范。
每一个参评系统的性能是由误报率和漏报率加权求和的结果进行衡量,称为检测错误开销C Det ,其计算公式是:target non FA FA target Miss Miss Det P P C P P C C -⋅⋅+⋅⋅= C Miss 和C FA 分别是漏查和误报的开销;P Miss 和P FA 分别是漏查和误报的条件概率;P target 是目标话题的先验概率,P non-target =1-P target 。
C Miss 、C FA 和P target 都是预设值,作为调节漏报率和误报率在评测结果中所占比重的系数。
检测开销通常被归一化为0和1之间的一个值: arg arg (min{,}Det Det Norm Miss t et FA non t et C C C P C P -=⋅⋅一般直接用(C Det Norm 作为评价系统性能的分数。
1 显然,对这种相关性必须做一个界定,不能任由集合无限扩大。
为此,TDT 会议组织者在构造TDT 语料时,对挑选出来的每个话题都定义了相关性判定规则。
2 在TDT 的评测中,“报道”定义为“论述某个话题的新闻片断,它包括两个以上独立表述该事件的说明语句”。
4 主要实现方法构造一个实用化的TDT系统是进行TDT研究的主要目的之一,也是检验现有方法优劣的基础。
从参评的数量来看,话题发现和话题跟踪两个子任务最受关注。
因此我们介绍的实现方法也以这两个任务为主。
总体而言,要实现话题发现与跟踪功能,需要解决以下主要问题:(1话题/报道的模型化(2话题-报道相似度的计算(3聚类策略(4分类策略(阈值选择策略整个系统的流程大致是(以话题跟踪为例:图1 话题跟踪系统流程针对以上问题,我们将逐一介绍一些已经被广泛采用并得到实际评测验证的方法。
4.1 话题/报道模型要判断某个报道是否和话题相关,首先就需要解决话题和报道如何表示便于计算和比较的问题,也就是话题/报道用什么模型来表示。
目前常用的模型主要有语言模型(Language Model,LM和向量空间模型(Vector Space Model,VSM。
(1语言模型语言模型是一种概率模型。
假设报道中出现的词δn各不相关,则某则报道S和话题C 相关的概率:P(C|S =(| ((|(((nn nP C P C P S CP CP S Pδδ⋅≈∏其中p(C是任何一则新报道和话题C相关的先验概率,p(δn|C是表示词δn在某话题C中的生成概率。
p(δn|C可以表示成一个两态的混合模型,如图2所示:图2 p(δn |C的两态模型其中一个状态是词在该话题中所有报道的分布,另一个状态是词在整个语料中的分布。
这样就构成了一个词的生成模型。