web信息抽取技术纵览

合集下载

web信息提取技术与应用的研究

web信息提取技术与应用的研究

web信息提取技术与应用的研究随着互联网的迅速发展,网页数量和内容越来越多,其中包含了大量有价值的信息。

但是,在大量信息中找到所需的有效信息是一项非常耗时的工作,因此需要一些自动化技术来解决这个问题。

Web信息提取技术就是一种能够从网页中提取出有价值信息的方法。

本文将介绍Web信息提取技术的相关知识、应用和未来发展方向。

一、Web信息提取技术的定义Web信息提取技术(Web Content Extraction,WCE)是指将网页中的有价值信息提取出来,并以统一的格式结构化输出的技术。

Web信息提取技术包括网页内容分析、信息提取、自然语言处理、机器学习等多个领域知识。

WCE技术不仅是对Web数据的索引处理、高效存储和检索的基础,更是探索网页间结构化数据交互的空间的基本工具。

二、Web信息提取技术的分类1. 基于模板的方法基于模板的方法是指利用固定的结构化模板去提取网页中的信息。

网页一般是由HTML代码构成,基于模板的方法会根据HTML的语义来定义具体的提取规则。

这种方法需要先手动标注一些网页的样本来生成模板,然后基于模板提取其他具有相同网页结构的信息。

2. 基于规则的方法基于规则的方法是指提取信息的规则基本上是由人工设定的,例如网页的标题、正文、时间等信息的抽取规则。

这种方法提取的结果没有固定的形式,需要手动加工处理。

3. 基于机器学习的方法基于机器学习的方法可以自动学习提取网页中的信息的规则。

例如,可以训练分类器来识别标签,文本块等等。

除了以上三种方法,还有一些其他的方法,例如自然语言处理方法和聚类方法。

三、Web信息提取技术的应用1. 电子商务电子商务网站需要从供应商的网站上采集商品信息,并在自己的网站上展示商品。

此时,Web信息提取技术能够从供应商的网站上提取各种商品信息,例如名称、价格、尺寸、颜色、照片等,从而帮助电子商务网站实现自动化采集。

2. 搜索引擎搜索引擎需要从大量的Web页面中抽取出有价值的信息,例如标题、正文、摘要、链接等。

Web信息抽取技术综述

Web信息抽取技术综述

收稿日期: 2010 -06-28 ; 修回日期: 2010-08-12 基金项目: 中央高校基本科研业务费专项资金资助项目( BLYX200928 ) 作者简介: 陈钊( 1971 -) ,男,甘肃天水人,副教授,博士,主要研究方 向 为 信 息 推 送 及 信 息 系 统 ; 张 冬 梅 ( 1986-) ,女,河 北 秦 皇 岛 人,硕 士 研 究 生,主要研究方向为信息整合及信息推送( dongmei_761 @ 126. com) .
Survey of Web information extraction technologies
CHEN Zhao,ZHANG Dong-mei ( School of Information Science & Technology,Beijing Forestry University,Beijing 100083 ,China)
·4402·
计算机应用研究第 27 卷1 Web 信息抽取技术
1. 1 基于统计理论的技术
基于统计的方法通过统计各个标签所包含的信息量或链 接文本与普通文本的比值来获取网页的主题信息。这种方法 克服了数据源的限制,并 不 只 针 对 某 一 类 网 页,具 有 一 定 的 普 遍性。
Gupta 等人[5]设计的 Crunch 系 统 利 用 区 域 中 link / text( 链 接文本 /普通文本) 的比值与某个既定阈值的大小关系来确定 网页的正文 区 域。 认 为 在 正 文 区 域 中 ,普 通 文 本 所 占 比 例 较 大 ,相 反 ,在 广 告 区 域 或 友 情 链 接 区 域 中 ,信 息 大 部 分 以 链 接 文 本的形式出现。Gupta 并没有 给 出 具 体 的 阈 值,也 没 有 提 出 阈 值 确 定 的 方 法 ,这 种 处 理 技 术 如 果 阈 值 确 定 不 合 理 的 话 会 大 大 影响最终的抽取准确率。

Web信息提取技术的研究及其在CSCW中的应用

Web信息提取技术的研究及其在CSCW中的应用

Web信息提取技术的研究及其在CSCW中的应用柯晓略【期刊名称】《现代计算机(专业版)》【年(卷),期】2012(000)016【摘要】分析基于XML的Web信息提取.讨论相关技术在Web信息抽取中的应用并建立相应的Web信息抽取模型,实现Web信息的自动提取。

通过分析如何向网络上的不同网站发送HTTP请求数据包,处理响应信息,从而获得包含知识信息的HTML文档或者XML文档;并在Oracle公司的ADF框架下给出Web 信息抽取模型的实现程序。

%Analyzes Web information extraction based on XML, discusses related technology concerning application of such methodology, establishes Web information extraction model in order to real- ize auto-extraction of Web information. Through analyzing how to deliver HTI~P request data packet to diversified Websites and then deal with responded information, obtains HTML or XML documents containing knowledge information. Also, brings out programs by Web information extraction model under Oracle ADF framework.【总页数】3页(P78-80)【作者】柯晓略【作者单位】广东工程职业技术学院计算机信息系,广州510520【正文语种】中文【中图分类】TP392【相关文献】1.基于Web Service的CSCW技术在CAPP系统中的应用 [J], 陈桦;何明格;韩艳艳2.web信息提取技术与应用的研究 [J], 陈俊洁3.Mobile CSCW技术在MIS中的研究和应用 [J], 薛胜军;石树龙4.Web信息提取技术研究与应用分析 [J], 李文;5.web信息提取技术与应用的研究 [J], 陈俊洁因版权原因,仅展示原文概要,查看原文内容请购买。

面向互联网的信息抽取技术研究

面向互联网的信息抽取技术研究

面向互联网的信息抽取技术研究随着互联网时代的到来,数据量的增加以及信息获取的难度逐渐增加,对于信息抽取技术的要求也越来越高。

信息抽取技术(Information Extraction,简称IE)是一种透过计算机程序从非结构化或半结构化的文档中提取出特定信息的自然语言处理技术。

在当前信息孳生的时代,对于实现高效的信息抽取突显了其重要性。

一、信息抽取技术的概述信息抽取技术是人类语言智能化进程的重大进展之一,是实现文本自动处理的利器。

它包括大量技术和方法,例如文本分类、信息抽取、关键词提取等。

其中,信息抽取技术的主要任务是从大量无序文本中,提取出事先规定好的、有用的固定模式的信息。

其目的在于让计算机能够熟悉晦涩难懂的自然语言文本,根据各类预先设计的规则模板进行分析和提取,有效地轻松分离输出有用的信息。

二、信息抽取技术的应用在实际应用中,信息抽取技术被广泛运用于各种任务中。

因其快捷、高效和准确的特点,信息抽取技术逐渐成为自然语言处理领域最为广泛的技术手段之一。

在商业方面,信息抽取技术被广泛应用于金融、制造、教育等行业,实现了大规模数据的分析与处理,有效提高业务效率。

同时,自然语言处理技术还可以用于教育及公共服务领域,比如用于搜索引擎、自动化问答系统和智能客服等。

此类应用场景中,信息抽取技术可以发挥无处不在的作用。

三、面向互联网的信息抽取技术的研究随着互联网技术和人工智能技术的发展,机器阅读和机器理解能力的不断提高,自然语言处理技术发展到了一个全新的阶段。

在此背景下,面向互联网的信息抽取技术的研究,成为了近年来一个关注的热点。

面向互联网的信息抽取技术相较于传统技术,有以下一些新的挑战:1、多样化的语言表达方式:互联网上的文本具有多种语言表达方式,包括不规范的语法、含有元数据、非字面词汇等。

这些语言表达方式都增加了信息抽取的难度。

2、大规模海量数据:网上的文本数据量巨大,需要对其实现高效而精准的处理和分析。

基于Web的信息抽取技术探讨

基于Web的信息抽取技术探讨
性较 差 、缺 乏健 壮性 仍然 是现 有信 息 抽取 技 术 所 面 临 的 问题 。性 能 较 好 的信 息 抽取 系 统 ,其规 则 的制定 需 要用 户的 大量 参 与 , 自 动 化 程度 不高 ;而 自动化 程度 较高 的信 息抽 取 系统 ,抽取 数据 的 准确 率较 低 ,实 用性 较 差。 国 内最早 涉及 we b 信 息抽 取系 统研 究 的 文 献 资料是 2 0 0 2 年 的硕 士论 文 “ 基于 领域 知 识 和 信息 抽 取 的个 性化 W e b 查 询 系统 ” _ 2 J 。 在 国 内期 刊 发 表 的学 术论 文 中 ,最 早 涉 及 要 从海 量 的互 联 网中得 到 用户 想要 的信 We b 信 息抽 取 系统 研 究 的是 2 0 0 3 年2 月发 表 息 ,大 部 分人第 一 反应 是 通过 各种 搜索 引擎 的 “ 基于信息抽取的We b 查询 系 统 的 设 计 工 具 ,如 知 名 度 较 高 的 有 G o o g l e 、百 度 、 与实现” 一文 , 该 文 介 绍 了综 合 利 用 信 息 Y a h o o 等 ,根 据 用 户的查 询 请求 ,搜 索 引擎 检 索 技 术 、数 据 库 技 术 和 机 器 学 习 技 术 的 能够 找 到相 关信 息 的 网页 ,这些 结果 动辄 成 优 点 ,设 计 并 实 现 了一 个 W e b 查询 系统 。 百上 千 条 ,有很 多重 复 的 内容 ,而且 各 网站 距 目前最 近 的有 关文 章是 2 0 1 2 年l 2 月 发表 的 “ 基 于 We b 信 息 资 源数 据 挖掘 技 术研 究 ”_ 4 的信 息 内容互 相 独立 ,搜 索 引擎 的 “ 网络 爬 虫 ” 收 集 不 到 网上 数 据 库 里 面 的 信 息 。 因 文 ,在 该文 中 ,探 讨 了利 用 We b 教学 信息 此 ,要想 得 到更 精确 、更 细粒 度 的信 息 ,便 资源 数据 挖掘 中间结 果进 行探 索式 的 We b 教 要运 用 ̄ U We b 信 息抽 取技 术 ,就 是本 文所 要 学信 息资 源数 据 挖掘 的解 决方 案 ,介绍 了如 探讨 的 内容 。 何从 数 据 库 中提 取 分析 与任 务 相关 的数 据 , 以便进 行 教学 信息 资源 的 整体 筛选 。在 基于 b 的信 息抽 取方 面 ,国 内比较 著 名的研 究 1 We b 信息抽取技术概念及其在国内外 W e 有 中 国科学 院 的杨 少华 、林 海略 、韩 燕波 等 的发展历程 We b 信 息抽 取( We b I n f 0 r ma t i 0 n 人 ,提 出 了一个 从模 板生 成 页面 检测 出数 据 E x t r a c t i o n ,简称 We b I E ) 简单 一 点来 说 就 模 板 ,并利 用 检测 出 的模板 自动 从 网页 中抽 是 从W e b 页面 中抽 取 出所 需要 的信 息 的一 种 取 数据 的新 方法 ;中 国人 民大学 数据 与知 识 活 动 。We b 信 息抽 取 的主要 功 能是 把用 户期 研 究所 提 出的基 于预 定 义模 式的 包装 器 ;浙 望 得到 的信 息 点从 各种 各样 的 We b 页面 中抽 江 大学 人工 智能 研究 所提 出的基 于本 体论 的 b 信 息抽 取等 。最 近几 年 , 国内除 了研 究 取 出来 ,并 对这 个 信息 进行 梳理 ,再 以 统一 We 的格 式集 成 在一 起 。We b 信 息抽 取一 般 会形 这些 相对 完 整的 信息 抽取 系 统之 外 ,还 大 力 页 成一 个信 息抽取 系统 ,最开 始输 入信 息 系统 研究 跟信 息 抽取 相关 的一 些技 术 ,比 如 “ 主 题分 析 圈” 等技 术能 使We b 的是 一 些关 键 词 ,通过 制定 的抽 取规 则进行 面 分块 ”和 “ 抽取 技 术适 应更 复杂 的页 面 ;页 面噪 声处 理 抽取 ,输 出的是 固定形式 的 信息 。 确 定抽 取规 则 或模 式是 I E 系统 的重要 环 技术 能有 效提 高 抽取 结果 的精 度等 。 节 ,抽取 规 则的 作用 是 确定 用 户需要 抽取 的 2 we b 抽取信息的原理 信息 ,它是 信息 抽取 系统 的 关键 组成 部分 。 2 . 1附加 语 义 因此 ,我 们 可以 简单 地对 We b 信 息抽 取下 一 根据 用 户 自己需 求 ,在 查 看 互 联 网的 个定 义 ,w e b 信 息抽 取是 指根 据 制定 的抽 取 规 则 ,从 We b 页 面 中过滤 掉 不相 关的 信息 而 时候 ,把 与 自己需 求相 对应 的 信息块 通 过拖 抽取 出用 户 期望 得到 的信 息 ,具 体一 点是 指 动 鼠标 进 行标 记 ,再对 其进 行语 义 定义 ,这 利 用 抽取 规 则从 we b 页面 中的半 结构 或无 结 是 因为抽 取得 到 的信息 要进 行其 他数 据 处理 构 的 信息 中抽 取 出用 户期 望得 到 的数据 ,对 时 ,机 器 能够 更好 的理 解 。附加 语 义就 是把 之 进行 整 理 ,将其 转 变为 语义 更 清晰 、更 结 定 义后 的语 义 与抽 取的 信息 关联 起来 。

基于Web的信息抽取技术探索研究

基于Web的信息抽取技术探索研究

基于Web的信息抽取技术探索研究随着互联网的快速发展和信息爆炸式增长,人们需要从海量的网络数据中提取有用的信息。

为此,基于Web的信息抽取技术应运而生。

本文将探索这一技术的研究与应用,介绍其原理和方法,并讨论它在各个领域的应用前景。

一、基于Web的信息抽取技术原理与方法基于Web的信息抽取技术是指从Web页面中自动抽取有用信息的方法和工具。

其基本原理是通过自然语言处理和机器学习等技术,将HTML文档转化为结构化信息,实现精确的信息抽取。

1. HTML解析和标签识别首先,通过HTML解析器解析Web页面的源代码,识别出HTML标签和它们的属性。

然后,根据预定义的规则,识别出所需的信息所在的标签,为后续的信息抽取做准备。

2. 信息定位和模式匹配接下来,基于模式匹配的方法来定位所需的信息。

可以使用正则表达式、XPath或CSS选择器等技术,通过匹配特定的模式或规则,准确定位到目标信息的位置。

3. 实体识别和关系抽取在定位到目标信息的位置后,需要进行实体识别和关系抽取。

通过机器学习技术,训练模型来自动识别出实体,并提取它们之间的关系。

这些实体可以是人名、地名、时间、事件等。

4. 信息清洗和归纳最后,对抽取得到的信息进行清洗和归纳。

清洗过程主要是去除重复、无效或错误的信息,保证抽取结果的准确性。

归纳过程则是将抽取的信息按照一定的规则组织起来,形成结构化的数据。

二、基于Web的信息抽取技术的应用领域1. 商业情报和竞争分析基于Web的信息抽取技术可以帮助企业从竞争对手和市场环境中获取关键信息,用于商业情报和竞争分析。

例如,抓取竞争对手的产品信息和价格,分析市场趋势和消费者行为,为企业决策提供数据支持。

2. 新闻媒体和舆情监测在面对海量的新闻报道和社交媒体信息时,基于Web的信息抽取技术可以帮助新闻机构和舆情监测公司实时获取和分析关键信息。

它可以抽取新闻报道中的实体和事件,进行分析和整理,为媒体报道和舆情监测提供支持。

Web信息抽取技术研究

Web信息抽取技术研究

Web信息抽取技术研究Web信息抽取技术是当前互联网发展中的一个重要研究领域。

在人工智能、大数据时代的今天,信息抽取已经成为获取和处理信息的重要手段。

在众多的信息抽取技术中,Web信息抽取技术占据了十分重要的地位。

本文将围绕这一主题展开。

I. Web信息抽取技术简介Web信息抽取技术是一种自动化信息处理技术,通过网络爬虫、HTML解析、信息提取等技术手段,将Web上的非结构化信息转换为结构化的信息,从而实现对关键信息的提取、分析和应用。

Web信息抽取技术的应用涉及各个领域,如搜索引擎、电子商务、社交网络分析等等。

Web信息抽取技术并不是一个完整的技术体系,而是由多个技术模块组成的集合体。

其中,网络爬虫模块用于获取Web页面,HTML解析模块用于解析Web页面的HTML代码,信息提取模块用于提取目标信息并对其进行分析。

这些技术模块的协同工作,最终实现对Web页面信息的抽取和分析。

II. Web信息抽取技术的应用Web信息抽取技术在各个领域都有广泛的应用。

以下是一些常见的应用场景:1. 搜索引擎搜索引擎是Web信息抽取技术最常见的应用领域之一。

搜索引擎的核心就是对Web页面的信息进行抽取和分析,从而实现搜索引擎对关键词的匹配和检索。

2. 电子商务电子商务领域对Web信息抽取技术的应用非常广泛。

通过对电商网站的产品信息进行抽取和分析,可以实现商品信息的分类、推荐等功能,从而提高电商网站的用户体验。

3. 社交网络分析社交网络分析是近年来发展迅速的一个领域,其中Web信息抽取技术也发挥了重要的作用。

通过对社交网络上用户的信息进行抽取和分析,可以实现社交网络的用户聚类、社区发现等功能。

III. Web信息抽取技术的挑战Web信息抽取技术的应用具有广泛性和复杂性,在应用过程中,面临着一些挑战:1. Web页面结构多样性Web页面的结构十分复杂,有些页面可能包含多个嵌套的表格、DIV等元素,这些元素的层级关系和结构差异非常大,因此Web信息抽取技术需要能够适应各种类型的Web页面结构。

Web信息抽取技术研究

Web信息抽取技术研究
科技 1 吾恳
慨 b信 息抽取技 术研究
戴 慧敏 。 朱艳辉 唐 杰
( 1 . 湖南工业大学计算机与通信 学院 2 . 湖南工学院计算机 与信息科学学院)
[ 摘 要] 随 着互联 网技 术的快速发展 , We b 信 息呈现爆 炸性增长 , 人 们发现 用信 息检 索的方法不能及 时的得到想要 的信 息 , 于是 出
现 了信 息抽 取 , We b 信 息抽取是-  ̄Y XW e , b 文 档 中 自动 抽 取 感 兴趣 信 息 的 过 程 。 本 文 主 要 介 绍 W e b 信 息 抽 取 的研 究 现 状 及 抽 取 工 具
和抽取 方法。
[ 关键词 ]Leabharlann We b 信息抽取抽取 工具
抽取 方法
We b 信息抽取就是从 We b 页面所 包含的无结构或半 结构的信息 中 展性 不强。 识别 用户 感兴趣 的数 据 , 并将 其转 化 为结 构 和语义更 为清 晰 的格 式 。 现阶段的 we b 信息抽取方法 , 分类 的角度有 多种 。 信息抽取技 术其实是一种文本处 理技术 , 其 目的是根 据预定义 的信息 , 根据 We b 信息抽 取对象划分 , 可以分为三种类 型 。从 自由格式 的 从 自然语言文本 中抽取 出特定 的信息 , 并将 其 以结 构化 的形式 存储在 文本 中抽取 出所需要 的信息 内容 : 基 于 自然语 言处 理( N P L ) 的方 式 , 基 数据库 中供用户查 询使 用。 于规则 的方式 , 基 于统计学 习的方式 ; 从半结 构化的文 本中 , 抽 取出所 在 国外 , 从2 O 世纪8 0 年 代开始 , 信息抽 取研究 蓬勃 开展起 来 。随 需要的信息 内容 ; 从结构化 的文本 中抽取出所需要的信息 内容 。 着信 息抽 取技术的发展 , 出现了一些典型 的信 息抽取系统 , 如基 于 自然 根据 自 动化 程度可 以分为 : 人 工方式的信息抽取 、 半 自动方式 的信 语 言处 理方 式 的信息 抽取 系统 有 R A P I E R, S R V, WN I S K ; 基 于包 装 器 息抽取和全 自 动方式 的信息 抽取三大类。 ( Wr a p p e r ) 归纳方式的信息抽取系统有 T A L K — E R, S O H T ME AL Y, WI E N; 根据 抽取 工具 采用 的原理 不 同对 信息 抽取 方法进 行 的分类 主要 基于H T M L 结构的信息抽 取系统有 L I X T O等 。各种信息 抽取工具 的分 有 : 基于 自 然语 言处理方式 的信息抽 取 ; 基于包装器归 纳方式的信息抽 类方 式并不 是一成不变 的 , 有些 工具可 以同时 属于其 中的两种或 多种 取 ; 基于 O n t o l o g y 方式 的信 息抽取 ; 基于 We b 查 询的信息抽取 。 类 型。 We b 信息抽取虽 然在不断 的向前 发展 , 但是也存 在很 多不足 , 并且 抽取 工具方面 , 随着许 多新技术的发展 , 也开发 了许多信息抽 取工 面 l 临 很 多挑 战。首先 , 现有信息 抽取 的抽取 来源大 多数都是从 半结构 具 。南加州 大学信息科 学研究 所研制开 发 了一个 信息集成 系统 , 应 用 化 的 H T M L 文本 中抽 取 , 那 么对那些 含有新 技术 的动态 网页 的信息抽 多 种人工智 能技术 , 构造 了一个 智能 的动态接 口。该系统 采用带 有明 取是否 能达到很 好 的召回率和查 准率?其次 , 信息抽 取 的 自动化程度 确 的分 隔符 以区分 不 同元 素 的元组列 表 的形式来 表 达半结构 化 的信 还没有 达到完全 自动 , 大 多数时候还是需要用 户的参 与。还有 , 对 中文 息; 美 国斯坦 福大 学计算 机科 学系 的 H a m m e r 等 人开 发 了一 个用 于从 网页的信 息抽取 也是一个难点 。 We b 上抽取 相关信息 的工具 , 利用 网页 的结构 特点来构造抽取 规则 , 其 总之 , We b 信 息抽取是一个 十分活跃的领域 , 虽然 现在得到 了一定 准确率较高 , 但是针对 不同的网页结构该 工具 需要定义不 同的规则 , 通 的发展 , 但 也存在很多 的不 足之 处 , 随着信息抽取 的运 用 已变得越来越 广泛 , 需要更 多这个 领域的研究 , 从而使抽取技术变得更 加 自动化。 用性 较差。 国内在 信息抽取 方面 的研 究起步较 晚 , 中文信息抽 取系统 的完整 实现还 处于探 索 阶段 。I n t e l 中国研究 中心 的 Z h a n g Y i m i n 等人在 计算 参 考文献 语 言学协 会第 3 8 届 年度会议 ( A C L 一 2 0 0 0 ) 上演 示 了他们 开发 的一个信 [ 1 ] 崔春. We b 信 息抽 取 研 究综 述 [ I ] . 电脑 知 识 与技 术 , 2 0 1 l ( 4 ) : 息抽取 系统 , 该 系统用于抽 取以 中文 命名 的实体及其相 互关系 。国 内 7- 1O 比较著名 的研究 是中国人 民大学数据 与知识研究所提 出的基于预定义 [ 2 ] 石宇. 基 于X ML 的We b 信 息抽 取与集 成技 术的研 究[ D] . 大连 : 模式 的包装器 、 中 国科技 大学提 出的基于 多层模式 的多记 录网页信息 大连海事 大学硕士 学位论 文, 2 0 0 6 抽取 方法 、 中国科学 院软件研 究所提 出的基 于 D O M的 We b 信 息抽取 、 l 3 j Ha mme r J . Te mp l a t e — b a s e d wr a p p e r s i n t h e T S I MM I S s y s t e m. I n o c e e d i ng s o f t h e 1 9 9 7 ACM S I GM OD i n t e na r t i o n a l c o nf e r e n c e o n 浙江大学人工智 能研究所提 出的基 于本体论 的 We b 信息抽取等 。这些 Pr 信息 抽取技 术 的提 出对 解决 We b 信息抽 取 中存在 的问题 有一定 的帮 M a n a g e me nt o fd a t a , 1 9 9 7: 5 3 2 —5 3 5 助, 推 动了抽 取技术 的发展 , 但 这些 抽取方法有其局 限性。如大部分信 [ 4 ] 蒲 筱 哥. 基于We b 的信息抽取技术研究综述[ I ] . 现 代 情 报, 息抽取 系统 采用 自定义 的语 言描述 抽取规则 , 导致抽 取模式不统一 , 扩 2 0 0 7 . 2 7 ( 1 0 )
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

网上信息抽取技术纵览Line Eikvil 原著(1999.7)陈鸿标译(2003.3)第一章导论信息抽取(Information Extraction: IE)是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。

输入信息抽取系统的是原始文本,输出的是固定格式的信息点。

信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。

这就是信息抽取的主要任务。

信息以统一的形式集成在一起的好处是方便检查和比较。

例如比较不同的招聘和商品信息。

还有一个好处是能对数据作自动化处理。

例如用数据挖掘方法发现和解释数据模型。

信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。

至于哪些信息是相关的,那将由系统设计时定下的领域范围而定。

信息抽取技术对于从大量的文档中抽取需要的特定事实来说是非常有用的。

互联网上就存在着这么一个文档库。

在网上,同一主题的信息通常分散存放在不同网站上,表现的形式也各不相同。

若能将这些信息收集在一起,用结构化形式储存,那将是有益的。

由于网上的信息载体主要是文本,所以,信息抽取技术对于那些把因特网当成是知识来源的人来说是至关重要的。

信息抽取系统可以看作是把信息从不同文档中转换成数据库记录的系统。

因此,成功的信息抽取系统将把互联网变成巨大的数据库!信息抽取技术是近十年来发展起来的新领域,遇到许多新的挑战。

本文首先在第二章简要介绍信息抽取技术,第三章介绍网页分装器(wrapper)的开发,第四章介绍已经开发出来的网站信息抽取系统,第五章介绍信息抽取技术的应用范围以及首批已经进入商业运作的商用系统。

第二章信息抽取技术概述信息抽取原来的目标是从自然语言文档中找到特定的信息,是自然语言处理领域特别有用的一个子领域。

所开发的信息抽取系统既能处理含有表格信息的结构化文本,又能处理自由式文本(如新闻报道)。

IE系统中的关键组成部分是一系列的抽取规则或模式,其作用是确定需要抽取的信息[52]。

网上文本信息的大量增加导致这方面的研究得到高度重视。

本章首先介绍信息抽取领域的发展。

第2.1.节比较了信息抽取和信息检索的区别;第2.2.节介绍IE的历史。

接下来两节解释评价IE系统的指标和常用的两派技术方法。

信息抽取技术所处理的文本类型将在第2.5.节中说明。

第2.6.节描述信息抽取技术可利用的网页特征。

第2.1.节IR和IEIR的目的是根用户的查询请求从文档库中找出相关的文档。

用户必须从找到的文档中翻阅自己所要的信息。

就其目的而言,IR和IE的不同可表达如下:IR从文档库中检索相关的文档,而IE是从文档中取出相关信息点。

这两种技术因此是互补的。

若结合起来可以为文本处理提供强大的工具[24]。

IR和IE不单在目的上不同,而且使用的技术路线也不同。

部分原因是因为其目的差异,另外还因为它们的发展历史不同。

多数IE的研究是从以规则为基础的计算语言学和自然语言处理技术发源的。

而IR则更多地受到信息理论、概率理论和统计学的影响[24]。

第2.2.节IE的历史自动信息检索已是一个成熟的学科,其历史与文档数据库的历史一样长。

但自动信息抽取技术则是近十年来发展起来的。

有两个因素对其发展有重要的影响:一是在线和离线文本数量的几何级增加,另一是“消息理解研讨会”(MUC)近十几年来对该领域的关注和推动。

IE的前身是文本理解。

人工智能研究者一直致力于建造能把握整篇文档的精确内容的系统。

这些系统通常只在很窄的知识领域范围内运行良好,向其他新领域移植的性能却很差[53]。

八十年代以来,美国政府一直支持MUC对信息抽取技术进行评测。

各届MUC吸引了许多来自不同学术机构和业界实验室的研究者参加信息抽取系统竞赛。

每个参加单位根据预定的知识领域,开发一个信息抽取系统,然后用该系统处理相同的文档库。

最后用一个官方的评分系统对结果进行打分。

研讨会的目的是探求IE系统的量化评价体系。

在此之前,评价这些系统的方法没有章法可循,测试也通常在训练集上进行。

MUC首次进行了大规模的自然语言处理系统的评测。

如何评价信息抽取系统由此变成重要的问题,评分标准也随之制定出来。

各届研讨会的测试主题各式各样,包括拉丁美洲恐怖主义活动、合资企业、微电子技术和公司管理层的人事更迭。

过去五、六年,IE研究成果丰硕。

英语和日语姓名识别的成功率达到了人类专家的水平。

通过MUC用现有的技术水平,我们已有能力建造全自动的IE系统。

在有些任务方面的性能达到人类专家的水平[53]。

不过自1993年以来,每届最高组别的有些任务,其成绩一直没有提高(但要记住MUC的任务一届比一届复杂)。

一个显著的进步是,越来越多的机构可以完成最高组别的任务。

这要归公于技术的普及和整合。

目前,建造能达到如此高水平的系统需要大量的时间和专业人员。

另外,目前大部分的研究都是围绕书面文本,而且只有英语和其他几种主要的语言。

第2.3.节评价指标在信息抽取技术的评测起先采用经典的信息检索(IR)评价指标,即回召率(Recall)和查准率(Precision),但稍稍改变了其定义。

经修订后的评价指标可以反映IE可能产生的过度概括现象(Over-generation),即数据在输入中不存在,但却可能被系统错误地产生出来(Produced)[24]。

就IE而言,回召率可粗略地被看成是测量被正确抽取的信息的比例(fraction),而抽准率用来测量抽出的信息中有多少是正确的。

计算公式如下:P=抽出的正确信息点数/所有抽出的信息点数R=抽出的正确信息点数/所有正确的信息点数两者取值在0和1之间,通常存在反比的关系,即P增大会导致R减小,反之亦然。

评价一个系统时,应同时考虑P和R,但同时要比较两个数值,毕竟不能做到一目了然。

许多人提出合并两个值的办法。

其中包括F值评价方法:其中是一个预设值,决定对P侧重还是对R侧重。

通常设定为1。

这样用F一个数值就可很看出系统的好坏。

第2.4.节IE系统设计的两大方法IE系统设计主要有两大方法:一是知识工程方法(Knowledge Engineering Approach),二是自动训练方法(Automatic Training Approach)。

知识工程方法主要靠手工编制规则使系统能处理特定知识领域的信息抽取问题。

这种方法要求编制规则的知识工程师对该知识领域有深入的了解。

这样的人才有时找不到,且开发的过程可能非常耗时耗力。

自动训练方法不一定需要如此专业的知识工程师。

系统主要通过学习已经标记好的语料库获取规则。

任何对该知识领域比较熟悉的人都可以根据事先约定的规范标记语料库。

经训练后的系统能处理没有见过的新文本。

这种方法要比知识工程方法快,但需要足够数量的训练数据,才能保证其处理质量。

第2.5.节自由式、结构化和半结构化文本自由式文本:信息抽取最初的目的是开发实用系统,从自由文本中析取有限的主要信息。

例如,从报道恐怖袭击活动的新闻中析取袭击者、所属组织、地点、受害者等信息;又如,从医药研究报告的摘要中提取新产品、制造商、专利等主要信息点。

处理自由文本的IE系统通常使用自然语言处理技巧,其抽取规则主要建立在词或词类间句法关系的基础上。

需要经过的处理步骤包括:句法分析、语义标注、专有对象的识别(如人物、公司)和抽取规则。

规则可由人工编制,也可从人工标注的语料库中自动学习获得。

自由文本信息点抽取技术的现有水平不可与人的能力同日而语,但还是有用的,不管其抽取规则是人工编制的还是通过机器学习的[52]。

虽然自然语言理解是漫长的期待,但是,信息抽取技术确实可行,因为这项技术对其需要搜索的模式类型有很强的限定,而这种限定是有根有据的。

结构化文本:此种文本是一种数据库里的文本信息,或者是根据事先规定的严格格式生成的文本。

从这样的文本中抽取信息是非常容易的,准确度也高,通过描述其格式即可达到目的。

所用的技巧因而相对简单。

半结构化文本:这是一种界于自由文本和结构化文本之间的数据,通常缺少语法,象电报报文,也没有严格的格式。

用自然语言处理技巧对这样的文本并不一定有效,因为这种文本通常连完整的句子都没有。

因此,对于半结构化文本不能使用传统的IE技巧,同时,用来处理结构化文本的简单的规则处理方法也不能奏效。

在半结构化文本中确实存在一些结构化的信息,但是,抽取模式通常依赖字符和象html标记那样的分隔标志。

句法和语义信息的作用则非常有限。

第2.6.节网页因特网提供了一个巨大的信息源。

这种信息源往往是半结构化的,虽然中间夹杂着结构化和自由文本。

网上的信息还是动态的,包含超链接,以不同的形式出现,而且跨网站和平台,全网共享。

因此,因特网是一个特殊的挑战,一直推动着从结构化和半结构化文本中抽取信息的研究向前迈进。

有些研究者把所有网页都归入半结构化文本,但Hsu[31]对网页类型做了颇有用的定义:若能通过识别分隔符或信息点顺序等固定的格式信息即可把“属性-值”正确抽取出来,那么,该网页是结构化的。

半结构化的网页则可能包含缺失的属性,或一个属性有多个值,或一个属性有多个变体等例外的情况。

若需要用语言学知识才能正确抽取属性,则该网页是非结构化的。

网页的结构化程度总是取决于用户想要抽取的属性是什么。

通常,机器产生的网页是非常结构化的,手工编写的则结构化程度差些,当然有很多例外。

传统的NLP技巧对抽取半结构化文本的信息并不是很有用,因其缺少规范的语法结构,而且,NLP方法的处理速度通常比较慢,这对于网上海量信息来说是一个大问题。

网上大部分内容都以属性列表的形式呈现,例如很多可搜索的网页索引。

这种外观上的规律性可被利用来抽取信息,避免使用复杂的语言学知识。

网页上的组织结构和超链接特性是需要认真考虑的重要因素。

例如,可能需要打开链接的内容才能找到你想要的信息。

网页的组织结构不同,抽取规则也不同。

网上数据库查询的结果通常是一系列的包含超级链接的网页。

文献[14]把这类网页分成三类:一层一页,即一个页面即包含了所有的查询结果;一层多页,即需要调出多个链接才能获得所有的结果;两层页面,即第一层是列表式条目链接,点击链接后才能看到详细资料。

第2.7.节小结IE领域是近十年来新发展起来的研究领域,一是由于“消息理解研讨会”(MUC)的推动,二是由于网上内容的大量增加。

IE对自由文本和结构化文本都能处理。

NLP技巧通常用于自由文本,对结构化和半结构化文本并不是太适合。

相反,基于分隔符和字符的方法更能奏效。

因特网是包含大量半结构化文本的信息源。

网页与传统的文本相比,有许多特点:量大,常更新,变化多,页面的一大半包含结构化的文字块,还可能有超链接。

因此,网页为信息抽取研究带来新的挑战。

第三章分装器生成第3.1.节分装器第3.2.节从IE发展成WG第3.3.节分装器生成第3.4.节分装器的归纳学习第3.5.节小结各网站的信息内容互相独立,要收集起来有困难。

相关文档
最新文档