汉语新闻报道中的话题跟踪与识别研究
地点信息在话题检测中的应用

地点信息在话题检测中的应用谢林燕;戚银城;孙卓【摘要】通过分析中文报道的特点,提出了一种改进相似度计算的话题检测算法。
该算法以Single—Pass聚类策略为基础,结合新闻报道中的地点信息,分别对新闻报道进行文本内容相似度和地点相似度计算,并将两者结合进行话题检测。
实验结果表明,算法性能优于传统的文本相似度算法。
%Based on an analysis of a large number of Chinese reports, this paper proposes a topic detection algorithm to improve similarity. This algorithm is based on the Single-Pass clustering technique. According to the location information of the news reports, the content-based similarity and location-based similarity are measured and combined to realize topic detection. Experimental results indicate that the algorithm is superior to the traditional text similarity algorithm.【期刊名称】《电子科技》【年(卷),期】2012(025)001【总页数】3页(P96-98)【关键词】话题检测;地点信息;相似度计算【作者】谢林燕;戚银城;孙卓【作者单位】华北电力大学电子与通信工程系,河北保定071003;华北电力大学电子与通信工程系,河北保定071003;华北电力大学电子与通信工程系,河北保定071003【正文语种】中文【中图分类】TP391随着信息传播手段的进步,尤其是互联网的出现,已对信息爆炸的情况,如何快捷准确地获取有效信息是人们关注的主要问题。
对外汉语视听说教材内容取材和话题选择研究

对外汉语视听说教材内容取材和话题选择研究作者:张璐来源:《现代语文(语言研究)》2011年第01期摘要:相对纸介教材,视听说教材在对外汉语教学中最大的优势就在于可以把教师要用较多的、复杂的语言才能解释清楚的概念一下子用影像展现出来,生动具体、直截了当。
对外汉语视听说教材若能取材于以现实生活为素材的影视作品,不仅能为语言学习者提供真实的语言环境,促使其对汉语的词、句、结构、篇章乃至习惯表达有深入全面的理解;也能使其从教材中直观地了解我国现实社会生活的方方面面,更有助于外国学习者正确理解中国的语言和文化。
本文选择了四套2000年后出版的基于电视作品编写的对外汉语视听说教材作为研究对象,着重分析这四套视听说教材的取材和课文话题选择以及各自的优缺点,指出问题并对今后的汉语视听说教材的编写和视听说课程的建设提出建议。
关键词:汉语视听说教材内容取材话题选择在对现有对外汉语教材的考察中我们发现,尽管教材数量迅速增加,但教材的形式仍限于单一,基本上是以纸介教材或纸介教材加配套CD、磁带为主。
而“目前国内的英语教材,尤其是中小学英语教材,除学生用书外,几乎无一例外地配有教师用书、练习册、活动册以及课外读物、挂图、卡片、音像带等,组成立体化的教材包(a package of materia1s)”[1]。
相对于纸介教材,视听说教材在对外汉语教学中最大的优势就在于,一些概念本来需要教师运用较多的、复杂的语言才能解释清楚,却用影像一下子展现出来,不仅生动具体,而且直截了当,为课堂教学节省了一定的讲解时间,而学生操练的时间相应也就增加了。
除此之外,现有对外汉语教材的编写也存在语言材料不真实、不地道的缺陷,人物对话常有生硬编造、不符合实际生活之感。
而如果对外汉语视听说教材能取材于以现实生活为素材的影视作品,这不仅为语言学习者提供了真实的语言环境,促使其对汉语的词、句、结构、篇章乃至习惯表达有深入全面的理解;也能使其从教材中直观地了解我国现实社会生活的方方面面,更有助于外国学习者正确理解中国的语言和文化。
挖掘热点话题的技巧与方法

挖掘热点话题的技巧与方法在当今社交媒体时代,人们对热点话题的关注度越来越高。
无论是在公共场合还是在线社区,热点话题都是吸引眼球、引发讨论的热门议题。
因此,掌握挖掘热点话题的技巧与方法是非常重要的。
本文将介绍一些有效的技巧和方法来帮助您发现并分享热点话题。
一、观察时事新闻了解时事新闻是发现热点话题的重要途径。
新闻报道通常会涵盖各种热门事件、突发事件和社会热点话题。
关注新闻网站、报纸和电视信息,可以获取到当下的热门话题。
更进一步地,通过追踪不同来源的新闻报道,你可以获得多个角度和观点,从而更好地理解和挖掘热点话题。
二、保持社交媒体的关注社交媒体已经成为人们相互分享和交流的重要平台。
在这个信息爆炸的时代,社交媒体上的热点话题可以说是源源不断,只需要保持关注和积极参与。
加入与你感兴趣的领域相关的社区和群组,关注热门话题的标签和关键词,浏览相关帖子和评论,了解人们正在热议的话题。
同时,尝试与他人互动和交流,分享自己的观点和经验,这样有助于促进热点话题的探讨和扩散。
三、关注大众兴趣与需求人们的兴趣和需求常常是热点话题的源泉。
通过关注大众的兴趣爱好和日常需求,我们可以抓住人们最热衷讨论的话题。
例如,健康、美食、旅行、科技等领域都是人们普遍感兴趣的话题,通过接触这些领域相关的内容,你可以发现一些有潜力的热点话题,并加以开发。
四、了解受众群体热点话题的产生和传播离不开特定的受众群体。
了解受众的兴趣、需求、价值观和文化背景是挖掘热点话题的关键。
通过调研、观察和交流,了解受众的喜好和关注点,从而针对性地制定内容,并迅速引起受众的共鸣。
五、关注行业领域的趋势和动态在特定的行业领域中,有一些长期以来备受关注的话题和议题。
通过关注行业内的趋势和动态,你可以提前发现可能产生热点话题的事件和现象。
同时,在专业领域发表观点和研究成果,也有助于提高你在该领域的影响力,从而更好地挖掘和分享热点话题。
六、跟踪搜索引擎热度搜索引擎是人们获取信息的首选工具之一。
汉语言文学国内外发展态势研究【最新精选】

汉语言文学专业一、汉语言文学专业发展态势汉语言文学专业是国内各高校普遍设立的传统学科之一。
在各高校加强人文素质培养和建设综合性大学工作中起到了关键性作用。
目前,全国各个高校本专业的设立非常普遍,并且具有基础雄厚、办学时间长、层次高、培养模式规范等特点。
我校的汉语言文学专业(高级文秘方向)自2002年开设以来,已培养了四届毕业生,为社会输送了一批实用性人才,赢得了良好的社会声誉,取得了很好的成效。
目前,文学艺术系共有专业教师26人,其中,教授7人、副教授4人,占全体教师的42%。
博士6人,在读博士2人。
硕士学位以上学历占全体教师61%强。
教师多来自国内知名综合类大学的汉语言文学专业,知识结构合理,学术功底较丰厚,且半数以上教师有10年以上高校任教教龄,教学经验丰富。
其中张瑞年教授、沈奇教授、马玉琛教授、王卓慈教授属专业领域较有影响的教师。
汉语言文学专业已初步形成以教授为学术带头人,以青年教师为骨干的教师队伍。
作为人才培养的关键因素——教师队伍的组成是本次培养方案修订工作的有力支撑。
综合各种因素来看,我校汉语言文学专业的实力应处于除西北大学、陕西师大之外的全省各高校的前列。
面对全社会的人才需求变化和我校深化教育教学改革的形势,我们在坚持和发扬汉语言文学专业的人文性教育已有优势的同时,也需要改革汉语言文学专业的人才培养模式,构建更为完整、全面的专业教育方案,由此实现宽口径、厚基础、强能力的人才培养目标。
二、地方财经类院校汉语言文学专业应用型创新人才培养存在的问题及原因分析中文专业在人才培养方面主要存在以下问题:对人才培养模式改革的认识不足,培养方针思路不明晰,培养方案缺乏稳定性,课程设置不合理;过分强调应用性教育,对学生综合素质、社会适应能力的培养重视不够,本科毕业生就业领域偏窄、就业层次偏低;如何整合中文系的优质资源、发挥各类人才优势等问题也需要切实加以解决。
强化人文素质和汉语言文学素养的培育,是本科教学的要求,是社会发展的要求,也是高等教育基础化的要求。
《安徽日报》报道中江淮文化形象的概念隐喻分析

《安徽日报》报道中江淮文化形象的概念隐喻分析发布时间:2022-09-23T01:42:23.288Z 来源:《中国教工》2022年10期作者:薛雅静杨欣[导读] 以《安徽日报》的新闻报道为语料来源,以概念隐喻为理论指导,薛雅静杨欣滁州学院外国语学院,安徽滁州 239000摘要:以《安徽日报》的新闻报道为语料来源,以概念隐喻为理论指导,采用定量分析和定性分析相结合的研究方法,对江淮文化形象中的概念隐喻进行研究。
总结不同的概念隐喻类型及使用频数,分析三种使用最频繁的隐喻类型(旅途隐喻,人类隐喻,战争隐喻)的建构方式,并探讨这三种概念隐喻在使用时变化情况。
研究发现:旅途隐喻把小岗文化的改革发展映射为一段旅程,建筑隐喻将儒林文化中的社会腐败看成是一个大厦的建造,人类隐喻则选择江淮文化中具有代表性的凤阳花鼓传承人。
不同类型概念隐喻的使用与江淮文化形象所包含的类型相关联,本研究既有助于读者进一步认识和理解江淮文化,也可以拓宽概念隐喻的研究领域。
关键词:江淮文化形象;概念隐喻;新闻话语一、引言江淮文化指在江淮这个特定地域内所形成、聚集的系统文化;文化形象是表达有关基本文化与哲理的含义。
江淮文化形象指江淮地区的多种文化结合起来体现该地区的基本文化与哲理。
江淮文化作为中华文化的重要组成部分,具有较强的地域代表性,主要包括:以欧阳修为代表的醉翁文化、以吴敬梓为代表的儒林文化、以朱元璋为代表的明皇文化、以凤阳花鼓为代表的淮河文化、以大包干为代表的小岗文化等。
《安徽日报》作为新中国在安徽省创办的第一张报纸,有利于宣传政府重要决策、塑造良好的安徽形象和传播江淮文化。
《安徽日报》对江淮文化的相关报道,可以让大众更加深入地了解江淮文化,展现江淮文化的魅力。
二、理论基础2.1. 理论定义莱考夫在《我们赖以生存的隐喻》(Lakoff& Johnson,1980)中提出日常生活中隐喻无处不在,他认为隐喻的本质是通过另一种类似的事物来理解和体验当前的事物。
自媒体运营中的热点跟踪及话题策划技巧

自媒体运营中的热点跟踪及话题策划技巧自媒体运营者在内容创作过程中,经常需要关注热点话题,并灵活运用话题策划技巧,以吸引更多的读者和粉丝。
本文将介绍自媒体运营中的热点跟踪方法,以及一些有效的话题策划技巧。
一、热点跟踪方法1.社交媒体关注:社交媒体是获取热点信息的重要途径,通过关注各大社交媒体平台上的热门话题、热搜榜单,可以了解到当前最受关注的热点事件。
2.新闻媒体追踪:及时阅读新闻报道是把握热点的关键。
关注新闻网站、报刊、电视台等媒体平台,对于热点事件的深度报道、分析,能够为自媒体运营者提供丰富的素材和灵感。
3.专业网站订阅:对于特定领域的自媒体运营者来说,订阅专业网站的更新和资讯是非常重要的。
通过订阅行业权威网站,可以及时了解到最新的行业热点和趋势。
4.网络舆情监测:通过网络舆情监测工具,可以及时获取用户讨论的热点话题和关注度较高的事件。
通过对舆情数据的分析,自媒体运营者可以发现潜在的热点话题,并结合自身的创作方向进行相关内容的创作。
二、话题策划技巧1.定位目标读者:在话题策划过程中,首先要明确目标读者的群体特征和兴趣点。
只有了解目标读者的需求,才能更好地选择合适的话题。
2.多角度挖掘:在选定一个热点话题后,可以从不同的角度进行挖掘和分析,以提供更多的思路和创意。
例如,对于一个新闻事件,可以从社会影响、历史背景、科技因素等不同角度进行探讨,为读者呈现全面的信息。
3.结合个人特长:自媒体运营者可以结合自身的专业特长或个人经历,为热点话题赋予更深入的解读和独特的见解。
这样不仅能够吸引读者的关注,还能提升个人的影响力。
4.参与互动:在话题策划过程中,积极参与读者的互动和讨论是非常重要的。
通过与读者的互动,了解他们的疑问和需求,从而更好地调整话题策划的方向,为读者提供有价值的内容。
5.注意时间节点:有些热点话题是有时效性的,因此在进行话题策划时要注意时间节点。
选择合适的时间发布内容,能够获得更多的关注度和传播效果。
主流媒体如何跟踪报道社会焦点问题

件,在此过程中深入了解和报道其变化。跟踪报道的显著特点为时间长、持续性、深入性,能够较好地
反映社会的发展,同时对受众有较好的引导和教育作用。新闻的采访与撰写过程中,突发性的公众事
件、热点话题与热点事件通常要以跟踪报道的方式深入追踪和报道。本文以“小黄车”事件为例,分
析主流媒体如何跟踪报道社会热点、焦点问题。
提升了媒体的影响力。 二、承担媒体责任,以专业化解析焦点 公众对新闻有广泛的需求,而媒体要能够满足公
众对新闻的需求,保障公众的知情权,同时要保证新闻 内容的真实性,基于公众的需求,发挥媒体的传播功 能。新闻媒体要能够保障公众的知情权,要能够全面 报道事件的发生与动态发展,正确引导社会舆论。媒 体的跟踪报道能够通过持续的、全面的采访,重现事件 的前因后果,满足大众对新闻的需求。[3]在热点新闻 的跟踪报道中,要能够通过专业的知识、以专题化的角 度对社会焦点问题进行分析。与此同时,媒体还要能 够从公众的角度出发,树立正确的价值导向,引导社会 形成正确的舆论,进而提升受众的新闻素养。因此,在 跟踪报道中,新闻媒体要作出专业的报道,且在报道中 对社会焦点问题作出深刻分析,为受众答疑解惑,提升 受众的新闻素养。专业化的报道要求报道专业、真实、 详细、简洁,所有报道内容要以事实为依据,对具体问 题进行具体分析,并且最终得出结果。针对“小黄车 退款”问题的报道,媒体在深入第一线实地走访的同 时,通过《马化腾评 ofo 为何溃败:这是一个否决权问 题》《四大败因:互联网经济没有老二,动押金触底线》 等报道对 ofo 事件进行了深入分析,透过现象剖析事件 的本质。同时,通过《交通部:共享单车行业平稳运行, 日使用量在千万人次以上》表明交通运输部在持续关 注该事件,并且督促其畅通退押金渠道的同时,消除这 一事件带来的公众对共享单车行业的恐慌。
记者的新闻敏感与新闻价值的发现

记者的新闻敏感与新闻价值的发现新闻敏感性和新闻价值是新闻报道中非常重要的两个概念。
记者需要通过敏锐的观察和分析,准确、及时地抓住敏感事件,然后利用新闻价值的标准,将这些事件转化成有新闻价值,有吸引力的新闻报道,以吸引读者的眼球,提升媒体的影响力和竞争力。
一、新闻敏感性新闻敏感性通常指记者的观察和分析能力,即发现敏感事件的能力。
敏感事件可以是社会各个领域发生的任何事件,例如重大突发事件、社会热点话题、民生问题等。
记者需要具备一定的专业知识、敏锐的观察力和灵敏度,对事件进行快速分析、判断、挖掘,从而在最短时间内发现敏感事件,并及时报道。
记者发现敏感事件的能力是一项非常重要的新闻素质,不断提高这个能力可以为记者带来很大的优势。
其次,敏感事件的报道往往具有时效性、话题性、争议性和广泛度,可以吸引更多的读者,提高媒体的访问量和关注度。
二、新闻价值新闻价值是指一条新闻报道的新闻价值评估。
评估的主要因素有新闻的时效性、社会影响、人民关切度、舆论热度、新闻价值等。
新闻价值评估的目的是通过评估新闻报道的新闻价值,为读者提供有价值的新闻信息,同时提高媒体的影响力。
1. 时效性新闻的时效性是指发生时间与报道时间之间的差距,对敏感事件的新闻报道时效性要求非常高,因为读者对于敏感事件的关注度往往非常高,并希望尽快了解最新的情况和最新的发展趋势。
2. 社会影响社会影响是指新闻报道对社会的影响程度,新闻报道的内容与社会现实的结合度越高,社会的关注度和反应就越高。
例如,重大突发事件、政府改革举措、名人事件等新闻报道,通常具有很高的社会影响。
3. 人民关切度人民关切度是指新闻报道对人民最为关注的问题或热点的反映程度。
新闻报道的内容与人民生活紧密相关,体现人民的情感和利益,例如教育、医疗、住房等民生问题,通常具有很高的人民关切度。
4. 舆论热度舆论热度是指新闻报道引起的舆论反应程度,新闻报道热度越高,引起的社会关注度和舆论反应就越大。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
话题识别与跟踪研究∗李保利,俞士汶(北京大学计算机科学技术系,北京 100871)Email: libl@摘要:作为自然语言处理一个新的研究方向,话题识别与跟踪旨在发展一系列基于事件的信息组织技术,以实现对新闻媒体信息流中新话题的自动识别以及对已知话题的动态跟踪。
自1997年以来连续举行的多次大规模评测使得话题识别与跟踪研究正逐步成为近来自然语言处理尤其是信息检索领域的一个研究热点,目前国内在这方面的研究尚处在起步阶段。
本文介绍了话题识别与跟踪研究的发展历史、研究任务、主要技术及评价方法等,希望能引起相关研究者对这项研究的关注。
关键词:话题识别与跟踪,信息检索,自然语言处理中图法分类号:TP391RESEARCH ON TOPIC DETECTION AND TRACKINGLI Bao-Li, YU Shi-WenDepartment of Computer Science and Technology, Peking University, Beijing 100871Abstract: As a new direction of research on natural language processing, Topic Detection and Tracking aims at developing technologies for event-based information organization, such as detecting stories on novel topic and tracking stories on known topics. Since 1997, a series of evaluation on this research have been conducted, and made it more and more popular in Natural Language Processing, especially in information retrieval. The research on topic detection and tracking in China is just starting. Several issues about this new research, such as task definition, history, technologies, and measurement, are discussed.Keywords: Topic Detection and Tracking, Information Retrieval, Natural Language Processing1.引言随着信息传播手段的进步,尤其是互联网这一新媒体的出现,我们已经由信息贫乏进入到一个信息极度丰富的时代。
面对时时刻刻不断涌现的新信息,任何人都无法做到“眼观六路、耳听八方”。
在这个时候,人们更加迫切需要自然语言处理技术的强力支持,以应对日益严重的信息爆炸问题。
话题识别与跟踪(Topic Detection and Tracking,TDT),作为一项旨在帮助人们应对信息过载问题的研究,以新闻专线(Newswire)、广播、电视等媒体信息流为处理对象,将语言形式的信息流分割为不同的新闻报道(News Story),监控对新话题的报道,并将涉及某个话题的报道组织起来以某种方式呈现给用户。
它的研究目标是要实现按话题查找、组织和利用来自多种新闻媒体的多语言信息。
这类新技术是现实中急需的,比如:自动监控各种信息源(如广播、电视等),并从中识别出各种突发事件、新事件以及关于已知事件的新信息,这可广泛用于信息安全、证券市场分析等领域。
另外,还可以找出有关∗本文发表在《计算机工程与应用》第39卷第17期(2003)。
本文得到国家自然科学基金项目(69973005)、国家973项目(G1998030507-4)和国家863项目(2001AA114040)支持。
作者李保利,男,1971年生,博士研究生,主要研究方向:中文信息处理。
俞士汶,男,1938年生,教授,博士生导师,主要研究方向:中文信息处理。
用户某一感兴趣话题的所有报道,研究这一话题的发展历程等等。
话题识别与跟踪的研究始于1996年[1],这一方向的确立与发展是在话题识别与跟踪(TDT)系列评测会议的推动下进行的。
与信息检索、信息抽取、信息管理、文本挖掘等几个交叉的相关研究相比,话题识别与跟踪更强调对新信息的发现能力,关心涉及特定话题而不是相对广泛的主题类别的信息。
比如,传统的信息检索系统在用户清楚自己要查找的具体内容时比较有效,但是难以对通用目的的查询请求做出响应,如“最近发生了哪些事?”、“有什么新信息”等等[2]。
另外,话题识别与跟踪的处理对象是随时间动态变化的语言信息流,而不是静态的、封闭的文本集合。
本文第二部分首先给出了在话题识别与跟踪领域使用的几个基本概念的定义;然后介绍了TDT研究的五个主要任务及目前采用的技术;接着回顾了这一新兴研究方向的发展历史,主要以TDT评测会议的进展为主线;第五部分给出了对这一技术的评价方法;最后是简单的总结。
2.几个基本概念话题(Topic)是话题识别与跟踪研究中的一个最基本的概念,它的含义与语言学上使用的概念不同。
在最初的研究阶段(1999年前),话题与事件含义相同。
一个话题指由某些原因、条件引起,发生在特定时间、地点,并可能伴随某些必然结果的一个事件[1],如“俄克拉荷马城1995年4月19日发生的大爆炸”。
在目前使用的话题概念要相对宽泛一些,它包括一个核心事件或活动以及所有与之直接相关的事件和活动(A topic is defined to be a seminal event or activity, along with all directly related events and activities)[3]。
如果一篇报道讨论了与某个话题的核心事件直接相关的事件或活动,那么就认为该报道与此话题相关。
比如,搜寻飞机失事的幸存者、安葬死难者都被看作与某次飞机失事事件直接相关。
在上面的叙述中使用了报道(Story)这一概念,在话题识别与跟踪领域,它是指一个与话题紧密相关的、包含两个或多个独立陈述某个事件的子句的新闻片断(a topically cohesive segment of news that includes two or more declarative independent clauses about a single event)[3]。
与话题相应的一个概念是主题(Subject),它的含义更广些。
话题与某个具体事件相关,而主题可以涵盖多个类似的具体事件或者根本不涉及任何具体事件。
如,“飞机失事”是一个主题,而“2002年5月7日北方航空公司一架客机在大连失事”则是一个话题。
再比如,“自然灾害”是一个主题,而属于此主题类别的文本未必有与之直接相关的事件发生,如讲述自然灾害预防的文章。
3.研究任务及主要技术目前,话题识别与跟踪研究集中于五个子任务展开,各个子任务的解决将有助于最终研究目标的实现。
这五个子任务包括[3][4]:• 对新闻报道的切分(Story Segmentation):将连续的广播、电视新闻节目的语音或文字记录分割为不同的报道;• 新事件的识别(New event detection,Formerly First Story Detection):即在新闻报道信息流中识别出对一个新话题的首次报道;• 报道关系识别(Story link detection):判断两个随机选择的新闻报道是否讨论同一个话题;• 话题识别(Topic detection):识别出系统未知的话题,并将相关报道也识别出来;• 话题跟踪(Topic tracking):监控新闻报道信息流以发现与某一已知话题有关的新报道;3.1 对新闻报道的切分对新闻报道的切分是指将从一个信息源获得的语言信息流分割为不同的新闻报道。
由于从新闻专线获得的文本信息流本身就是以单个报道出现的,所以这一任务只适用于对来自广播、电视等媒体的音频数据的处理。
一段新闻节目通常包含很多条报道,但是这些节目本身很少在不同的新闻报道间设置明显的分隔标记。
比如,商业广告就很可能出现在某篇报道的中间。
要切分的语料或数据可以是音频记录本身,也可以是由人工或通过自动语音识别(ASR, Automatic Speech Recognition)从音频记录得到的文字记录。
图1给出了报道切分任务的一个直观图示。
图1. 报道切分报道切分是其他四项任务的预处理,也就是说,其他任务都是在报道切分的基础上进行的,它们需要以文本形式的报道流做为输入。
有关报道切分对其他任务的影响的研究表明,它对跟踪任务影响较小,但对各种识别任务影响很大。
报道切分系统的性能依赖于源数据的形式以及做出决策允许的最大延迟时间。
对这一任务的处理,一个比较成功的做法是使用最大熵和决策树混合的模型,利用各种与信息源相关的特征,如语速(电视播音员在新闻报道的开始语速要快些),句子的长度(长句多出现在新闻报道的开始),在节目中的位置(可能知道商业广告会出现在某个可预测的时间段内),以及字或词的N元文法。
另外,贝叶斯分类器,各种词汇线索(如前后边界触发词),停顿间隔,以及变化的能量级别等方法或信息,也被许多系统采用或利用[4][5]。
图2 . 新事件的识别3.2 新事件识别新事件识别任务的目标是识别出以前没有讨论过的新闻话题的出现,比如一次炸弹爆炸、火山喷发、某个政治丑闻等等。
这项任务也被看作是对一个话题识别系统的透明测试,因为判断每个报道是否讨论了一个新话题是一个话题识别系统的基础。
图2给出了新事件识别任务的一个示例:圆形和菱形分别代表语料中的两个不同的话题,每个话题有一个最初的报道。
目前,在新事件识别任务中采用的典型方法是:用以向量或概率分布形式表示的特征集合代表每篇报道,每遇到新来的报道,就将其特征集合与过去所有报道的特征集合进行比较,据此判断该报道是否描述了一个新的话题[4][5]。
James Allan等人认为采用这种基于文本相似性比较的简单方法已经不能指望通过简单的参数调整来提高系统的性能,必须要探索其他完全不同的方法[6]。
3.3 报道关系识别在报道关系识别任务中,系统对给定的两篇新闻报道做出判断,即它们是否讨论同一个话题。
这项技术是其他几项任务的一个重要的核心技术。
一个好的关系识别系统也可用于解决话题跟踪、识别以及对新发生事件的检测等问题。
与其他任务相比,尽管这一任务没有直接的应用目标,但由于绝大多数TDT方法依赖某种相似性判定函数,对报道关系识别任务的评价至少可以使对这些不同相似性判定函数的评价成为可能。