基于事件实例驱动的新闻文本事件抽取
基于大数据的新闻事件分析与关键词抽取研究

基于大数据的新闻事件分析与关键词抽取研究在信息爆炸的时代,新闻报道被广泛使用,并且对于公众的理解和决策起着重要作用。
然而,由于信息过载和时间限制,人们不能获得所有的新闻报道,因此需要一种方法来对大量的新闻进行分析和关键词抽取。
本文将探讨基于大数据的新闻事件分析与关键词抽取的研究内容和方法。
一、新闻事件分析1. 数据收集与清洗新闻事件分析的第一步是收集和清洗数据。
在互联网时代,新闻信息以文本形式存在于各种渠道中,如新闻网站、社交媒体平台等。
通过抓取和爬取这些数据,可以获得大量的新闻文本数据。
然而,这些数据往往包含噪声和无关信息,因此需要进行清洗和过滤,确保数据的质量和准确性。
2. 文本预处理在对新闻文本进行分析之前,需要对其进行预处理。
文本预处理包括分词、去除停用词、词干提取等步骤。
分词是将连续的文本切分成独立的词语,去除停用词是指去除那些出现频率极高但没有实际含义的词语,词干提取是将词语还原为其原始的基本形式。
通过文本预处理,可以将文本转换为机器可以理解和处理的形式。
3. 事件识别与分类在新闻事件分析中,识别和分类不同的事件是关键任务之一。
事件识别是指从大量的新闻文本中,识别出与特定事件相关的文本。
事件分类是指将识别出的事件进行分类,以便更好地理解和组织这些事件。
基于大数据的新闻事件分析可以利用自然语言处理技术和机器学习算法来识别和分类新闻事件,例如文本聚类、主题模型等。
4. 事件演化与关联分析在识别和分类新闻事件之后,需要进行事件演化和关联分析。
事件演化是指对事件的发展过程进行追踪和分析,了解事件的变化和影响。
关联分析是指分析不同事件之间的关联性,以发现事件之间的关系和影响。
基于大数据的新闻事件分析可以通过时间序列分析、关联规则挖掘等方法来实现事件演化和关联分析。
二、关键词抽取1. TF-IDF方法TF-IDF(Term Frequency-Inverse Document Frequency)是一种常用的关键词抽取方法。
基于机器学习的事件抽取技术在文本处理中的应用

基于机器学习的事件抽取技术在文本处理中的应用随着信息时代的到来,大量的文本数据涌入我们的生活中,如何高效地处理这些海量的文本数据成为了一个亟待解决的问题。
而基于机器学习的事件抽取技术正是应对这个问题的有效方法之一。
本文将探讨基于机器学习的事件抽取技术在文本处理中的应用,以及它的优势和局限性。
一、事件抽取技术简介事件抽取是指从大规模的文本数据中自动识别和提取出具有特定语义的事件信息。
它可以帮助我们从文本中获取有用的知识,并用于各种应用领域,如新闻摘要、情感分析、舆情监测等。
基于机器学习的事件抽取技术通过训练模型来自动识别和抽取事件信息,具有高效、准确的特点。
二、机器学习在事件抽取中的应用机器学习在事件抽取中的应用主要包括特征提取、模型训练和事件分类三个步骤。
1. 特征提取特征提取是机器学习的关键步骤之一,它将文本数据转化为机器学习算法可以理解和处理的数值特征。
在事件抽取中,常用的特征包括词袋模型、词性标注、句法分析等。
这些特征可以帮助机器学习模型理解文本中的语义和结构信息。
2. 模型训练模型训练是基于机器学习的事件抽取技术的核心步骤。
在训练过程中,需要准备标注好的训练样本,并使用机器学习算法来训练模型。
常用的机器学习算法包括支持向量机(SVM)、随机森林(Random Forest)等。
通过大量的训练样本和迭代训练,模型可以逐渐提高对事件的抽取准确度。
3. 事件分类事件分类是事件抽取的最终目标,它将抽取出的事件信息进行分类和归类。
常见的事件分类包括人物关系、时间关系、地点关系等。
通过机器学习算法对事件进行分类,可以更好地理解文本中的事件信息,并进行后续的分析和应用。
三、基于机器学习的事件抽取技术的优势基于机器学习的事件抽取技术具有以下优势:1. 高效性:机器学习算法可以自动化地处理大规模的文本数据,提高处理效率。
2. 准确性:通过大量的训练样本和模型迭代训练,机器学习模型可以逐渐提高对事件的抽取准确度。
基于文本挖掘技术的新闻事件预测与分析

基于文本挖掘技术的新闻事件预测与分析近年来,随着科技的不断发展和普及,各种新兴的技术也日益涌现。
文本挖掘技术便是其中之一,它可以帮助人们从海量的无序文本中挖掘出有价值的信息,并通过对这些信息的处理,提供针对性的分析和预测结果。
基于文本挖掘技术的新闻事件预测与分析正是其中的一个应用场景。
文本挖掘技术是一种集统计学、计算机科学和语言学等各种学科于一体的交叉学科。
它基于大数据、自然语言处理等技术,对于大规模的文本信息进行处理和分析。
通过对文本内容的整合提取,对相关数据进行统计分析和挖掘,从而获得有价值的信息。
尤其是对于新闻报道这一类型的文本,由于其具有实时性和重大性等特点,其信息的价值更是不言而喻。
基于这样的背景,许多研究人员开始尝试利用文本挖掘技术进行新闻事件的预测和分析。
通过对已经报道的新闻文本进行挖掘,可以在一定程度上预测未来事件的发生概率和可能的发展趋势。
同时,文本挖掘技术也可以帮助人们从复杂、庞杂的信息中,挖掘出潜在的风险和机会,为决策提供有力的支持。
文本挖掘技术的应用于新闻预测和分析领域,降低了人们对新闻事件的依赖,也为新闻从业人员提供了有力的工具和手段。
在新闻报道的初期,新闻从业人员可以依据各种信息,使用文本挖掘技术对于事件进行概率分析,以此预测其后续的发展趋势。
而在事件发展过程中,新闻工作者也可以通过大数据和文本挖掘技术,及时获取更新的信息,并对其进行分析和汇总,以便更好地为读者提供最新、最准确的新闻报道。
在文本挖掘技术的应用过程中,数据的处理也是一项关键的环节。
文本挖掘技术要依据数据进行分析,因此数据的准确性和规范性是非常重要的。
对于新闻报道来说,要从中提取具有价值的信息,就必须对于数据进行严谨的筛选和处理。
这就需要数据分析模型和挖掘算法具有精准性和灵活性,可以根据不同的数据类型和场景进行自适应调整。
同时,也要注意到文本挖掘技术的局限性。
尽管文本挖掘技术能够到达精确分析的程度,但是对于新闻事件的真正发展趋势的判断,仍需要结合其他的人文社会知识来进行深入的分析。
自然语言处理中的事件抽取实例分析

自然语言处理中的事件抽取实例分析自然语言处理(Natural Language Processing,简称NLP)是人工智能领域中的一个重要分支,旨在使计算机能够理解和处理人类语言。
在NLP的各个任务中,事件抽取是一个关键的研究方向,它涉及从文本中识别和提取出具有特定意义的事件信息。
本文将通过实例分析,探讨事件抽取在NLP中的应用和挑战。
事件抽取是指从文本中提取出与特定事件相关的信息,包括事件的动作、参与者、时间和地点等。
这对于构建知识图谱、信息检索和文本挖掘等任务都具有重要意义。
例如,对于新闻报道的处理,事件抽取可以帮助我们自动提取出关键事件,从而进行更精确的分类和分析。
在事件抽取的研究中,常用的方法包括基于规则的方法和基于机器学习的方法。
基于规则的方法依赖于人工定义的规则和模式,通过匹配和提取关键词来实现事件抽取。
这种方法的优点是可解释性强,但缺点是需要大量的人工工作和对领域知识的依赖。
而基于机器学习的方法则通过构建模型来学习事件抽取的规律和模式,从而自动化地进行事件抽取。
这种方法的优点是可以处理大规模的数据和复杂的语言现象,但缺点是需要大量的标注数据和计算资源。
下面我们通过一个实例来具体说明事件抽取的过程。
假设我们有一段新闻报道的文本:“昨天,一架飞机在机场起飞时突然起火,导致数名乘客受伤。
”我们的目标是从这段文本中抽取出与事件相关的信息。
首先,我们需要对文本进行分词和词性标注,将文本划分为一系列的词语,并为每个词语标注上其在句子中的词性。
例如,“昨天”被标注为时间词,而“飞机”和“起火”则被标注为名词和动词。
接下来,我们需要根据语法和语义规则来识别和提取出与事件相关的词语和短语。
在这个例子中,我们可以根据动词“起火”来确定事件的动作,而名词“飞机”则是事件的参与者。
同时,时间词“昨天”和地点词“机场”也是事件的重要信息。
最后,我们可以将抽取出的事件信息进行结构化表示,例如使用主谓宾的形式。
基于应急案例本体的信息抽取

应用层
负责提供用户界面和交互功能, 使用户能够方便地查看和查询抽 取的信息。
系统功能模块设计
数据导入模块 信息抽取模块 结果展示模块 系统管理模块
负责将应急案例本体数据导入到系统中,支持多种数据格式和 来源。
负责从应急案例本体中抽取相关信息,包括使用自然语言处理 技术对文本进行预处理、实体识别、关系抽取等操作。
02
准确率是指模型正确抽取的信息所占的比例;召回率是指 模型能够抽取出的信息所占的比例;F1值是准确率和召回
率的调和平均数,综合反映了模型的性能。
03
除了这些主要的评估指标,还有许多其他的评估指标,如 特定任务的评估指标等。
04
基于应急案例本体的信息抽取 系统设计
系统需求分析
功能需求
系统应具备从应急案例本体中抽取相关信息的功能,包括案例的基 本信息、事件类型、发生时间、地点、涉及人员、处置措施等。
02
应急案例本体构建
应急案例定义与特点
定义
应急案例是指在突发事件应对过程中 所发生的具体事件,包括事件的起因 、经过、结果和影响等方面。
特点
具有突发性、紧迫性、复杂性和不确 定性等特点,需要快速、准确地获取 相关信息,为应急决策提供支持。
应急案例本体的构建方法
基于本体的方法
利用本体论的方法,对突发事件领域中的概念、实体及其关系进 行抽象和建模,构建应急案例本体。
息。
信息抽取技术广泛应用 于舆情监控、智能问答 、知识图谱构建等领域
。
信息抽取的主要任务包 括实体识别、关系抽取
和事件抽取等。
基于规则的信息抽取
基于规则的方法主要依赖于人工制定的规则或 模板,来进行信息抽取。
优点是简单、直观,适用于特定领域和特定场 景的信息抽取任务。
抽取原理的应用案例

抽取原理的应用案例1. 概述在信息处理和数据分析领域,抽取原理是一种常用的技术,用于从大量的数据中提取出有用的信息。
本文将以抽取原理的应用案例为例,介绍抽取原理的工作原理和应用场景。
2. 工作原理抽取原理是一种从原始数据中抽取关键信息的方法。
其工作原理如下:1.预处理:首先,需要对原始数据进行预处理,包括数据清洗、格式转换等步骤,以便后续的抽取操作。
2.特征提取:在抽取原理中,特征提取是非常关键的环节。
通过对原始数据进行特征提取,可以将数据转换为可用于抽取的形式。
3.抽取方法:根据具体的应用场景和需求,选择合适的抽取方法。
常用的抽取方法包括关键词抽取、实体抽取、文本分类等。
4.结果评估:最后,需要对抽取结果进行评估,判断抽取的准确性和效果。
3. 应用场景抽取原理在各个领域都有广泛的应用,以下是一些常见的应用场景:3.1 文本摘要生成在新闻报道、文献综述等领域,需要对大量的文本进行整理和概括。
抽取原理可以用来提取关键信息和主题,生成文本摘要,帮助用户快速了解文本内容。
3.2 情感分析在社交媒体、产品评价等领域,人们对于某一事物的情感倾向是非常重要的信息。
抽取原理可以通过文本分析技术,抽取出关于情感的特征,从而进行情感分析,帮助企业了解用户的反馈和需求。
3.3 信息抽取在大数据处理和信息检索领域,需要从大量的非结构化数据中抽取出结构化的信息。
抽取原理可以提取出文本中的关键词、实体、关系等信息,构建起信息的结构化表示,方便后续的分析和使用。
3.4 事件识别与关系提取在新闻报道和社交媒体分析等领域,需要从文本中抽取出事件和事件之间的关系。
抽取原理可以通过分析文本中的语义和语境信息,识别出关键的事件,并提取出事件之间的关系,帮助用户进行信息筛选和整理。
4. 总结抽取原理是一种常用的信息处理技术,通过从原始数据中提取关键信息,帮助用户快速了解和利用数据。
本文介绍了抽取原理的工作原理和应用场景,包括文本摘要生成、情感分析、信息抽取和事件识别等。
基于文本挖掘技术的新闻事件监测系统设计

基于文本挖掘技术的新闻事件监测系统设计在当今信息量不断增加的时代,获取新闻已经不再是问题,但如何从大量的新闻中快速定位并且及时了解事件的发展变化,成为了当前最为急迫的问题之一。
基于文本挖掘技术的新闻事件监测系统,可以提供给我们一个非常好的解决方案。
1. 背景分析有关监测新闻事件的需求,早在以前就已存在。
然而,由于前期缺乏有效的自动化技术,监测新闻事件只能通过手动搜索,只能达到一定程度的满足。
但自从文本挖掘技术的不断升级,新闻事件监测系统真正开始了自动化和高效化的发展。
利用文本挖掘算法,我们可以从大量的新闻中提取关键信息,快速定位事件,并对事件进行快速诊断和分析。
2. 技术应用文本挖掘技术在新闻事件监测系统中的运用,主要有以下几个方面:2.1 关键词提取关键词提取是新闻事件监测系统的核心技术。
通过分析新闻内容的语义结构,系统能够提取出事件相关的关键词。
具体的说,对于某个特定的事件,比如“新冠肺炎疫情”,系统可以自动提取出一些关键词,如“疫情”,“新冠病毒”,“数据统计”等,从而快速定位新闻事件。
2.2 实体识别在关键词提取的基础上,系统还可以对实体进行识别和命名。
例如,在一篇新闻中,出现了“武汉”和“深圳”等地名,系统会将这些实体自动标示,并与关键词匹配,从而可以有效提高信息的可读性和可处理性。
2.3 文本分类文本分类是一种将文本内容划分为具体类别的技术,能够有效辨别新闻事件的主题。
例如,对于中国国内的新闻实体来说,文本分类可以将新闻事件划分为政治、经济、社会、娱乐等各个方面,从而更加精准地展示信息。
2.4 反馈机制新闻事件监测系统在不断接受和分析数据的同时,还同时能够执行意见反馈等一系列操作。
例如,当发生重大事件时,可以通过新闻事件监测系统的反馈机制,快速将消息发送到相关部门,从而更好的保障公众安全。
3. 优点和局限基于文本挖掘技术的新闻事件监测系统,一方面具有较高的自动化程度和良好的计算精度,可以提高工作效率并大大减少人工成本。
基于文本挖掘技术的新闻事件分析

基于文本挖掘技术的新闻事件分析近年来,随着大数据的快速发展,文本挖掘技术越来越受到重视,尤其是在新闻事件分析方面,文本挖掘技术更是成为必不可少的工具。
一、文本挖掘技术的定义和应用文本挖掘技术是指对大量的文本数据进行分析、挖掘和提取有价值的信息的一种技术。
应用范围广泛,包括自然语言处理、搜索引擎、情感分析、舆情监测等。
在新闻事件分析中,文本挖掘技术可以自动地从大量的新闻报道中提取关键信息,包括事件发生的时间、地点、主要人物、原因等。
二、文本挖掘技术在新闻事件分析中的应用文本挖掘技术在新闻事件分析中的应用非常广泛,下面我们来介绍几个例子。
1. 事件时间和地点提取文本挖掘技术可以自动地从新闻报道中提取事件发生的时间和地点信息。
比如,如果我们想知道一起恶性案件发生的时间和地点,我们只需要将相关的新闻报道输入到文本挖掘工具中,就可以自动地提取到这些信息。
2. 事件关键词提取文本挖掘技术还可以从新闻报道中提取事件的关键词信息,帮助我们更好地了解事件的性质和规模。
通过对这些关键词的分析,我们可以更好地了解事件的特征和趋势,对事件的发展和处理做出更加准确的判断。
3. 实时舆情监测文本挖掘技术还可以用来进行实时的舆情监测。
通过对社交媒体平台、新闻网站等大量数据的实时监测,可以快速了解公众对事件的态度和反应,帮助政府和企业更好地应对舆情风险。
三、文本挖掘技术的局限性当然,文本挖掘技术也存在一些局限性,下面我们来介绍一下。
1. 语义理解能力有限由于自然语言的复杂性,文本挖掘技术的语义理解能力有限。
文本挖掘技术可能无法完全理解文本中的某些词语的含义,导致信息提取的不准确性。
2. 数据的准确性和完整性文本挖掘技术的数据来源往往是新闻报道、社交媒体等,这些数据可能存在错误或者缺失。
如果文本挖掘技术的数据来源不准确或者不完整,那么结果也就不可靠。
四、结语在当今信息爆炸的时代,利用文本挖掘技术进行新闻事件分析,可以快速准确地了解事件的发生和发展,对决策起到重要的作用。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
件抽取的准确率与召回率均获得了显著的提高。
关 键 词 事 件 实 例 ,分 类 ,新 闻 文 本 ,聚 类 ,事 件 抽 取 中 图 法 分 类 号 TP391 文 献 标 识 码 A
News Text Event Extraction Driven by Event Sample
方法;2010年,张先 飞[7]基 于 触 发 词 指 导 的 自 相 似 度 聚 类 的 事件抽取方法。然而,无 论 以 事 件 元 素 还 是 以 触 发 词 作 为 实
不高。
例进行驱动,均会引入大量的反例,造成正反例失衡和数据 稀
机器学习方法是一 种 基 于 统 计 的 方 法,将 事 件 抽 取 看 作 疏。
泛的应用。因此,事件抽取技术的研究具有重要的现实意义。 用的研究方 法。2002 年,Chieu[5]首 次 在 事 件 抽 取 中 引 入 最
目前,事件抽取的主要方法有两种:模式匹配方法和机 器 大熵分类器,用于事件元素的识别。2006年,Ahn[2]结 合 Me-
学习方法。
gaM 和 Timbl两种机器学 习 方 法 识 别 文 本 中 的 事 件 触 发 词 ,
图 1 事 件 实 例 识 别 流 程 图 新闻文本事件实例 识 别 过 程 主 要 由 训 练、测 试 和 评 价 模 型 这 3 部 分 构 成 ,具 体 步 骤 如 下 : (1)文本预处理,主要包括中文分词、词性标注、句子 切 分 等; (2)由于将事件实例的识别看作分类问题,特征的选 择 和 发现尤 为 关 键,在 步 骤 (1)的 基 础 上,主 要 选 取 了 以 下 几 个 特 征:句子的长度、位置、词 语 的 个 数、命 名 实 体 的 个 数、时 间 的 个 数 、数 值 的 个 数 、停 用 词 的 频 率 以 及 相 应 的 词 语 等 ; (3)在 完 成 特 征 提 取 之 后,利 用 向 量 空 间 模 型 (Vector Space Model,VSM)对 所 有 候 选 的 事 件 进 行 向 量 表 示 ; (4)完成对候选事件的向 量 表 示 后,利 用 SVM 分 类 器 进 行分类。由于 SVM 分类器通用 性 好、分 类 精 度 高、分 类 速 度 快、分类速度与训练样本个数无关,在召回率和准确率方面 都
模式匹配方法采用模式匹配算法将待抽取的事件与固 定 然后进行分类,完成事件抽取。国内事件抽取的代 表 有:2008
模板匹配,如上海交 通 大 学 的 冯 礼[3]提 出 的 基 于 事 件 框 架 的 年,赵妍妍[6]基于触发 词 扩 展 和 二 元 分 类 相 结 合 的 事 件 抽 取
突发事件信息抽取。这 种 方 法 准 确 率 较 高,且 接 近 人 的 思 维 方式,但依赖于具体 领 域 及 文 本 格 式,可 移 植 性 较 差,性 价 比
本文将新闻文本中 的 每 个 句 子 作 为 一 个 候 选 事 件 ,从 句 子 中 抽 取 出 刻 画 一 个 事 件 发 生 的 有 代 表 性 的 特 征 ,构 成 候 选 事 件 实 例 表 示,构 造 二 元 分 类 器 对 事 件 实 例 与 非 事 件 实 例 进 行 自 动 识 别 ,如 图 1 所 示 。
第 38 卷 第 8 期 2011 年 8 月
计算机科学 Computer Science
基于事件实例驱动的新闻文本事件抽取
Vol.38 No.8 Aug 2011
许旭阳 李弼程 张先飞 韩永峰 (解 放 军 信 息 工 程 大 学 信 息 工 程 学 院 郑 州 450002)
摘 要 目前,事件抽取的流行方法是以事件元素或触发 词 进 行 驱 动,但 该 方 法 容 易 导 致 正 反 例 不 平 衡 ,且 在 语 料 库 规模较小时存在一定的数据稀疏问题。提出了一种基于 事 件 实 例 驱 动 的 事 件 抽 取 方 法 。首 先,从 文 档 句 子 中 抽 取 出
向量表示,再输入到已经训练好的分类器中,完成事件实例 的 识别。
3 基 于 事 件 实 例 驱 动 的 事 件 抽 取
3.1 事 件 实 例 相 似 度 计 算 事件实例相似度的计算是事件抽取的一个重要环节。通
常采用基于 VSM 的计算方 的 一 个 向 量s(t1,w1;t2,w2;… ;tn,wn),其 中ti 为 事 件 实
XU Xu-yang LI Bi-cheng ZHANG Xian-fei HAN Yong-feng
(Information Engineering Institute,PLA Information Engineering University,Zhengzhou 450002,China)
Abstract At present,popular methods of event extraction regard event arguments or triggers as drivers,but they may cause positive and negative samples imbalance.Furthermore,there will be data sparseness problem when the corpus is
mental results indicate that the proposed method is effective,improves precision and recall of event extraction compared
to traditional methods.
Keywords Event sample,Classification,News text,Clustering,Event extraction
在 ACE 评测会议中,“事件”[4]被描述为一个动作的发生 或状态的变化。
美国佛罗里达州大学的 Zwaan[9]将每个单句等同 为 一 个 “事 件 ”。
本文研究的“事件”也 属 于 句 子 级,但 不 是 每 个 句 子 都 是 事件实例。只有 当 一 个 句 子 含 有 事 件 特 征 时 才 构 成 事 件 实 例 ,否 则 为 非 事 件 实 例 。 2.2 事 件 实 例 识 别 算 法
优于传统的分类器; (5)训练时,对训 练 文 档 集 进 行 预 处 理、特 征 提 取 以 及 向
量表示,然后对 SVM 分类器进行训练,得到分类模型; (6)分类评价模型是对分类器性能进行评价,同时给 出 反
馈 信 息 进 行 学 习 ,从 而 对 分 类 特 征 进 行 不 断 修 正 ; (7)测试时,先对 测 试 文 档 集 进 行 预 处 理、特 征 提 取 以 及
2 事 件 实 例 识 别
统计表明,新闻文本中包含大量非事件实例,降低了事 件 抽 取 的 准 确 率 ,因 此 需 要 尽 可 能 地 过 滤 掉 非 事 件 实 例 。 2.1 事 件 定 义
“事件 ”(Event)起 源 于 认 知 科 学。 认 知 科 学 家 认 为,以 “事件”为单位来体验和认识 世 界 符 合 人 们 正 常 的 认 知 规 律。 但目前对“事件”还没有 统 一 的 定 义,不 同 领 域 对 “事 件 ”的 理 解不同。
· 232 ·
针对以上问题,本文 避 开 以 事 件 元 素 和 触 发 词 来 驱 动 进 行事件抽取,提 出 一 种 基 于 事 件 实 例 驱 动 的 事 件 抽 取 方 法 。 首先,将新闻文本中的每个句子作为一个候选事件,从句子 中 抽 取 出 刻 画 一 个 事 件 发 生 的 有 代 表 性 的 特 征 ,将 其 构 成 候 选 事件 实 例 表 示;其 次,利 用 支 持 向 量 机 (Support Vector Ma- chine,SVM)[8]对新闻 文 本 中 的 事 件 实 例 与 非 事 件 实 例 进 行 区分,过滤非事 件 实 例;最 后,用 基 于 层 次 聚 类 k-medoids算 法对事件实例聚类,实 现 新 闻 文 本 中 的 事 件 抽 取。 实 验 结 果 验 证 了 本 文 方 法 的 有 效 性 ,为 事 件 抽 取 提 供 了 一 种 新 的 思 路 。
small.This paper proposed an event extraction method driven by event sample.Firstly,features of event samples were extracted from news text sentences to compose the description of candidate event.Secondly,event samples and non-e-
刻画一个事件发生有代表性的特征,构成候选事件实例表 示;其 次,通 过 二 元 分 类 器 对 新 闻 文 本 中 的 事 件 实 例 与 非 事
件实例进行分类;最后,对事件实例采用基于层次聚类的 k-medoids算法完成事 件 抽 取。 该 方 法 不 仅 克 服 了 正 反 例 失 衡以及数据稀疏问题,而且解决了预先定义事件类别的 局 限 性。实 验 结 果 验 证 了 该 方 法 的 有 效 性 ,对 比 传 统 方 法,事
到 稿 日 期 :2010-09-06 返 修 日 期 :2010-12-28 本 文 受 国 家 社 科 重 大 基 金 项 目 (09&ZD014)和 国 家 863 项 目 (2007AA01Z439)资 助 。 许旭阳(1985-),男,硕士生,主要研究方向为事件抽取、自动文本摘要,E-mail:xuxuyang_88@163.com;李弼程(1970-),男,教 授,主 要 研 究 方 向为智能信息处理及语音信号处理;张先飞(1981-),男,博士生,主要 研 究 方 向 为 文 本 信 息 处 理 、自 动 内 容 抽 取 与 数 据 挖 掘 ;韩 永 峰 (1984-), 男 ,硕 士 生 ,主 要 研 究 方 向 为 信 息 抽 取 。