基于Web的灾情信息可视化研究

web信息抽取技术纵览

网上信息抽取技术纵览 Line Eikvil 原著（1999.7）陈鸿标译(2003.3) 第一章导论信息抽取（Information Extraction: IE）是把文本里包含的信息进行结构化处理，变成表格一样的组织形式。输入信息抽取系统的是原始文本，输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来，然后以统一的形式集成在一起。这就是信息抽取的主要任务。信息以统一的形式集成在一起的好处是方便检查和比较。例如比较不同的招聘和商品信息。还有一个好处是能对数据作自动化处理。例如用数据挖掘方法发现和解释数据模型。信息抽取技术并不试图全面理解整篇文档，只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的，那将由系统设计时定下的领域范围而定。信息抽取技术对于从大量的文档中抽取需要的特定事实来说是非常有用的。互联网上就存在着这么一个文档库。在网上，同一主题的信息通常分散存放在不同网站上，表现的形式也各不相同。若能将这些信息收集在一起，用结构化形式储存，那将是有益的。由于网上的信息载体主要是文本，所以，信息抽取技术对于那些把因特网当成是知识来源的人来说是至关重要的。信息抽取系统可以看作是把信息从不同文档中转换成数据库记录的系统。因此，成功的信息抽取系统将把互联网变成巨大的数据库！信息抽取技术是近十年来发展起来的新领域，遇到许多新的挑战。本文首先在第二章简要介绍信息抽取技术，第三章介绍网页分装器(wrapper)的开发，第四章介绍已经开发出来的网站信息抽取系统，第五章介绍信息抽取技术的应用范围以及首批已经进入商业运作的商用系统。第二章信息抽取技术概述信息抽取原来的目标是从自然语言文档中找到特定的信息，是自然语言处理领域特别有用的一个子领域。所开发的信息抽取系统既能处理含有表格信息的结构化文本，又能处理自由式文本（如新闻报道）。IE系统中的关键组成部分是一系列的抽取规则或模式，其作用是确定需要抽取的信息[52]。网上文本信息的大量增加导致这方面的研究得到高度重视。本章首先介绍信息抽取领域的发展。第2.1.节比较了信息抽取和信息检索的区别；第2.2.节介绍IE的历史。接下来两节解释评价IE系统的指标和常用的两派技术方法。信息抽取技术所处理的文本类型将在第2.5.节中说明。第2.6.节描述信息抽取技术可利用的网页特征。第2.1.节IR和IE

Web信息抽取及知识表示系统的研究与实现

万方数据

计算机系统应用２０１０年第１９卷第９期图３示例文档对应的ＤＯＭ树结构２．２．６数据抽取根据得到的ＤＯＭ树进行数据模型映射，步骤如下： ①利用ＤＯＭ树生成对应的ＸＭＬ文档和ＤＴＤ模式定义文档： ②利用ＤＴＤ进行对象一关系映射，将ＸＭＬ映射到知识数据库中，生成映射规则，进行数据抽取及存入数据库处理。２．３知识表示采用Ｂ／Ｓ架构，利用数据库检索技术结合智能化方案生成算法，直接为用户提供解决方案，而不仅仅是知识的罗列。对解决方案给出一些评价标准，根据用户的选择按照评价标准对方案进行排序，使用户方便快捷的找到符合自己需求的方案。３实例及分析本文以交通信息抽取及混合交通出行方案查询作为实例，通过相关Ｗｅｂ页面获取及Ｗｅｂ信息抽取模块从互联网上逐步抽取得到地点信息、站点信息、列车时刻信息、航班时刻信息、长途汽车客运时刻信息、各种交通票价信息等，实验中从配置的１５个站点的约３０万个动态页面中抽取相关数据，抽取准确率接近１００％。图４即是通过Ｗｅｂ信息抽取得到的火车时刻信息。开发了混合交通的出行方案生成系统，前台提供出行方案查询页面，可以指定多种交通工具和转车次数进行查询，按时间、金额、转车次数等进行排序显示。结果页面按序显示符合条件的各种出行方案，每条方案中全面给出从起点到终点的详细信息。４系统建设ＳｙｓｔｅｍＣｏｎｓｔｒｕｃｔｉｏｎ图４通过Ｗｅｂ信息抽取得到的火车时刻信息实验结果表明，本系统具有如下一些优点：１）以知识数据库作为支撑，通过配置网站库，能实现各种特定领域相关知识动态Ｗｅｂ页面的自动下载：２）使用了基于本体的关键词库及概念标注库，使信息抽取能适应不同知识领域，适应无统一语义的Ｗｅｂ环境。４结论针对现有Ｗｅｂ信息抽取方法对不同领域、不同结构Ｗｅｂ页面的信息抽取缺乏通用性，本文提出了一种新的Ｗｅｂ信息抽取和知识表示系统，实现不同知识领域下各种数据密集型动态Ｗｅｂ页面的自动信息抽取，系统具有如下创新点：１）传统ＰＡＴ－ａｒｒａｙ算法无法区分重复模式区域的标题项和数据项，本系统采用基于本体的关键词库从重复模式中区分出标题和数据，自动识别数据显示结构模型和语义：２）将Ｗｅｂ信息抽取和知识数据库有机结合起来，把知识数据库已有知识作为Ｗｅｂ信息抽取的基础，从互联网上抽取新知识再存入知识数据库。从而达到知识数据库的不断自扩展。实验表明该系统具有高抽取准确率和良好的适应性。下一步在页面数据显示结构模型自动识别中将利用基于本体的页面结构识别方法，提高具有复杂标题结构的重复模式结构识别能力。参考ｊ．Ｊ氏ｌ张岭．智能信息检索中的Ｗｅｂ挖掘研究【博士学位论文】．上海：上海交通大学，２００３．（下转第９页）万方数据