浅谈web信息抽取

合集下载

基于Web的信息抽取技术探讨

基于Web的信息抽取技术探讨
性较 差 、缺 乏健 壮性 仍然 是现 有信 息 抽取 技 术 所 面 临 的 问题 。性 能 较 好 的信 息 抽取 系 统 ,其规 则 的制定 需 要用 户的 大量 参 与 , 自 动 化 程度 不高 ;而 自动化 程度 较高 的信 息抽 取 系统 ,抽取 数据 的 准确 率较 低 ,实 用性 较 差。 国 内最早 涉及 we b 信 息抽 取系 统研 究 的 文 献 资料是 2 0 0 2 年 的硕 士论 文 “ 基于 领域 知 识 和 信息 抽 取 的个 性化 W e b 查 询 系统 ” _ 2 J 。 在 国 内期 刊 发 表 的学 术论 文 中 ,最 早 涉 及 要 从海 量 的互 联 网中得 到 用户 想要 的信 We b 信 息抽 取 系统 研 究 的是 2 0 0 3 年2 月发 表 息 ,大 部 分人第 一 反应 是 通过 各种 搜索 引擎 的 “ 基于信息抽取的We b 查询 系 统 的 设 计 工 具 ,如 知 名 度 较 高 的 有 G o o g l e 、百 度 、 与实现” 一文 , 该 文 介 绍 了综 合 利 用 信 息 Y a h o o 等 ,根 据 用 户的查 询 请求 ,搜 索 引擎 检 索 技 术 、数 据 库 技 术 和 机 器 学 习 技 术 的 能够 找 到相 关信 息 的 网页 ,这些 结果 动辄 成 优 点 ,设 计 并 实 现 了一 个 W e b 查询 系统 。 百上 千 条 ,有很 多重 复 的 内容 ,而且 各 网站 距 目前最 近 的有 关文 章是 2 0 1 2 年l 2 月 发表 的 “ 基 于 We b 信 息 资 源数 据 挖掘 技 术研 究 ”_ 4 的信 息 内容互 相 独立 ,搜 索 引擎 的 “ 网络 爬 虫 ” 收 集 不 到 网上 数 据 库 里 面 的 信 息 。 因 文 ,在 该文 中 ,探 讨 了利 用 We b 教学 信息 此 ,要想 得 到更 精确 、更 细粒 度 的信 息 ,便 资源 数据 挖掘 中间结 果进 行探 索式 的 We b 教 要运 用 ̄ U We b 信 息抽 取技 术 ,就 是本 文所 要 学信 息资 源数 据 挖掘 的解 决方 案 ,介绍 了如 探讨 的 内容 。 何从 数 据 库 中提 取 分析 与任 务 相关 的数 据 , 以便进 行 教学 信息 资源 的 整体 筛选 。在 基于 b 的信 息抽 取方 面 ,国 内比较 著 名的研 究 1 We b 信息抽取技术概念及其在国内外 W e 有 中 国科学 院 的杨 少华 、林 海略 、韩 燕波 等 的发展历程 We b 信 息抽 取( We b I n f 0 r ma t i 0 n 人 ,提 出 了一个 从模 板生 成 页面 检测 出数 据 E x t r a c t i o n ,简称 We b I E ) 简单 一 点来 说 就 模 板 ,并利 用 检测 出 的模板 自动 从 网页 中抽 是 从W e b 页面 中抽 取 出所 需要 的信 息 的一 种 取 数据 的新 方法 ;中 国人 民大学 数据 与知 识 活 动 。We b 信 息抽 取 的主要 功 能是 把用 户期 研 究所 提 出的基 于预 定 义模 式的 包装 器 ;浙 望 得到 的信 息 点从 各种 各样 的 We b 页面 中抽 江 大学 人工 智能 研究 所提 出的基 于本 体论 的 b 信 息抽 取等 。最 近几 年 , 国内除 了研 究 取 出来 ,并 对这 个 信息 进行 梳理 ,再 以 统一 We 的格 式集 成 在一 起 。We b 信 息抽 取一 般 会形 这些 相对 完 整的 信息 抽取 系 统之 外 ,还 大 力 页 成一 个信 息抽取 系统 ,最开 始输 入信 息 系统 研究 跟信 息 抽取 相关 的一 些技 术 ,比 如 “ 主 题分 析 圈” 等技 术能 使We b 的是 一 些关 键 词 ,通过 制定 的抽 取规 则进行 面 分块 ”和 “ 抽取 技 术适 应更 复杂 的页 面 ;页 面噪 声处 理 抽取 ,输 出的是 固定形式 的 信息 。 确 定抽 取规 则 或模 式是 I E 系统 的重要 环 技术 能有 效提 高 抽取 结果 的精 度等 。 节 ,抽取 规 则的 作用 是 确定 用 户需要 抽取 的 2 we b 抽取信息的原理 信息 ,它是 信息 抽取 系统 的 关键 组成 部分 。 2 . 1附加 语 义 因此 ,我 们 可以 简单 地对 We b 信 息抽 取下 一 根据 用 户 自己需 求 ,在 查 看 互 联 网的 个定 义 ,w e b 信 息抽 取是 指根 据 制定 的抽 取 规 则 ,从 We b 页 面 中过滤 掉 不相 关的 信息 而 时候 ,把 与 自己需 求相 对应 的 信息块 通 过拖 抽取 出用 户 期望 得到 的信 息 ,具 体一 点是 指 动 鼠标 进 行标 记 ,再对 其进 行语 义 定义 ,这 利 用 抽取 规 则从 we b 页面 中的半 结构 或无 结 是 因为抽 取得 到 的信息 要进 行其 他数 据 处理 构 的 信息 中抽 取 出用 户期 望得 到 的数据 ,对 时 ,机 器 能够 更好 的理 解 。附加 语 义就 是把 之 进行 整 理 ,将其 转 变为 语义 更 清晰 、更 结 定 义后 的语 义 与抽 取的 信息 关联 起来 。

Web信息抽取技术研究

Web信息抽取技术研究

Web信息抽取技术研究Web信息抽取技术是当前互联网发展中的一个重要研究领域。

在人工智能、大数据时代的今天,信息抽取已经成为获取和处理信息的重要手段。

在众多的信息抽取技术中,Web信息抽取技术占据了十分重要的地位。

本文将围绕这一主题展开。

I. Web信息抽取技术简介Web信息抽取技术是一种自动化信息处理技术,通过网络爬虫、HTML解析、信息提取等技术手段,将Web上的非结构化信息转换为结构化的信息,从而实现对关键信息的提取、分析和应用。

Web信息抽取技术的应用涉及各个领域,如搜索引擎、电子商务、社交网络分析等等。

Web信息抽取技术并不是一个完整的技术体系,而是由多个技术模块组成的集合体。

其中,网络爬虫模块用于获取Web页面,HTML解析模块用于解析Web页面的HTML代码,信息提取模块用于提取目标信息并对其进行分析。

这些技术模块的协同工作,最终实现对Web页面信息的抽取和分析。

II. Web信息抽取技术的应用Web信息抽取技术在各个领域都有广泛的应用。

以下是一些常见的应用场景:1. 搜索引擎搜索引擎是Web信息抽取技术最常见的应用领域之一。

搜索引擎的核心就是对Web页面的信息进行抽取和分析,从而实现搜索引擎对关键词的匹配和检索。

2. 电子商务电子商务领域对Web信息抽取技术的应用非常广泛。

通过对电商网站的产品信息进行抽取和分析,可以实现商品信息的分类、推荐等功能,从而提高电商网站的用户体验。

3. 社交网络分析社交网络分析是近年来发展迅速的一个领域,其中Web信息抽取技术也发挥了重要的作用。

通过对社交网络上用户的信息进行抽取和分析,可以实现社交网络的用户聚类、社区发现等功能。

III. Web信息抽取技术的挑战Web信息抽取技术的应用具有广泛性和复杂性,在应用过程中,面临着一些挑战:1. Web页面结构多样性Web页面的结构十分复杂,有些页面可能包含多个嵌套的表格、DIV等元素,这些元素的层级关系和结构差异非常大,因此Web信息抽取技术需要能够适应各种类型的Web页面结构。

web挖掘的基本任务

web挖掘的基本任务

web挖掘的基本任务
Web挖掘的基本任务是指从Web中提取有价值的信息或模式,其主要包括以下几种类型:
1.内容挖掘:指从Web页面中提取出有用的信息。

由于Web页面经常是半
结构化或非结构化的,因此内容挖掘需要处理HTML和XML文档,解析并提取出文本、图片、音频、视频等多媒体内容。

2.结构挖掘:指对Web页面的超链接关系进行挖掘,找出重要的页面,理解
网站的结构和组织方式,以及发现页面之间的关系。

3.使用挖掘:主要通过挖掘服务器日志文件,获取有关用户访问行为的信息,
例如用户访问路径、访问频率、停留时间等,从而理解用户的访问模式和偏好。

4.用户行为挖掘:结合内容挖掘和用户日志挖掘,深入理解用户在Web上的
活动,包括浏览、搜索、点击、购买等行为,用于精准推荐、个性化广告等应用。

5.社区发现:通过分析用户在社交媒体或论坛上的互动,发现用户之间的社
交关系和社区结构。

综上,Web挖掘的基本任务是从Web中提取有价值的信息或模式,这些信息或模式可能是内容、结构、使用情况、用户行为或社区关系。

Web信息抽取技术研究

Web信息抽取技术研究
科技 1 吾恳
慨 b信 息抽取技 术研究
戴 慧敏 。 朱艳辉 唐 杰
( 1 . 湖南工业大学计算机与通信 学院 2 . 湖南工学院计算机 与信息科学学院)
[ 摘 要] 随 着互联 网技 术的快速发展 , We b 信 息呈现爆 炸性增长 , 人 们发现 用信 息检 索的方法不能及 时的得到想要 的信 息 , 于是 出
现 了信 息抽 取 , We b 信 息抽取是-  ̄Y XW e , b 文 档 中 自动 抽 取 感 兴趣 信 息 的 过 程 。 本 文 主 要 介 绍 W e b 信 息 抽 取 的研 究 现 状 及 抽 取 工 具
和抽取 方法。
[ 关键词 ]Leabharlann We b 信息抽取抽取 工具
抽取 方法
We b 信息抽取就是从 We b 页面所 包含的无结构或半 结构的信息 中 展性 不强。 识别 用户 感兴趣 的数 据 , 并将 其转 化 为结 构 和语义更 为清 晰 的格 式 。 现阶段的 we b 信息抽取方法 , 分类 的角度有 多种 。 信息抽取技 术其实是一种文本处 理技术 , 其 目的是根 据预定义 的信息 , 根据 We b 信息抽 取对象划分 , 可以分为三种类 型 。从 自由格式 的 从 自然语言文本 中抽取 出特定 的信息 , 并将 其 以结 构化 的形式 存储在 文本 中抽取 出所需要 的信息 内容 : 基 于 自然语 言处 理( N P L ) 的方 式 , 基 数据库 中供用户查 询使 用。 于规则 的方式 , 基 于统计学 习的方式 ; 从半结 构化的文 本中 , 抽 取出所 在 国外 , 从2 O 世纪8 0 年 代开始 , 信息抽 取研究 蓬勃 开展起 来 。随 需要的信息 内容 ; 从结构化 的文本 中抽取出所需要的信息 内容 。 着信 息抽 取技术的发展 , 出现了一些典型 的信 息抽取系统 , 如基 于 自然 根据 自 动化 程度可 以分为 : 人 工方式的信息抽取 、 半 自动方式 的信 语 言处 理方 式 的信息 抽取 系统 有 R A P I E R, S R V, WN I S K ; 基 于包 装 器 息抽取和全 自 动方式 的信息 抽取三大类。 ( Wr a p p e r ) 归纳方式的信息抽取系统有 T A L K — E R, S O H T ME AL Y, WI E N; 根据 抽取 工具 采用 的原理 不 同对 信息 抽取 方法进 行 的分类 主要 基于H T M L 结构的信息抽 取系统有 L I X T O等 。各种信息 抽取工具 的分 有 : 基于 自 然语 言处理方式 的信息抽 取 ; 基于包装器归 纳方式的信息抽 类方 式并不 是一成不变 的 , 有些 工具可 以同时 属于其 中的两种或 多种 取 ; 基于 O n t o l o g y 方式 的信 息抽取 ; 基于 We b 查 询的信息抽取 。 类 型。 We b 信息抽取虽 然在不断 的向前 发展 , 但是也存 在很 多不足 , 并且 抽取 工具方面 , 随着许 多新技术的发展 , 也开发 了许多信息抽 取工 面 l 临 很 多挑 战。首先 , 现有信息 抽取 的抽取 来源大 多数都是从 半结构 具 。南加州 大学信息科 学研究 所研制开 发 了一个 信息集成 系统 , 应 用 化 的 H T M L 文本 中抽 取 , 那 么对那些 含有新 技术 的动态 网页 的信息抽 多 种人工智 能技术 , 构造 了一个 智能 的动态接 口。该系统 采用带 有明 取是否 能达到很 好 的召回率和查 准率?其次 , 信息抽 取 的 自动化程度 确 的分 隔符 以区分 不 同元 素 的元组列 表 的形式来 表 达半结构 化 的信 还没有 达到完全 自动 , 大 多数时候还是需要用 户的参 与。还有 , 对 中文 息; 美 国斯坦 福大 学计算 机科 学系 的 H a m m e r 等 人开 发 了一 个用 于从 网页的信 息抽取 也是一个难点 。 We b 上抽取 相关信息 的工具 , 利用 网页 的结构 特点来构造抽取 规则 , 其 总之 , We b 信 息抽取是一个 十分活跃的领域 , 虽然 现在得到 了一定 准确率较高 , 但是针对 不同的网页结构该 工具 需要定义不 同的规则 , 通 的发展 , 但 也存在很多 的不 足之 处 , 随着信息抽取 的运 用 已变得越来越 广泛 , 需要更 多这个 领域的研究 , 从而使抽取技术变得更 加 自动化。 用性 较差。 国内在 信息抽取 方面 的研 究起步较 晚 , 中文信息抽 取系统 的完整 实现还 处于探 索 阶段 。I n t e l 中国研究 中心 的 Z h a n g Y i m i n 等人在 计算 参 考文献 语 言学协 会第 3 8 届 年度会议 ( A C L 一 2 0 0 0 ) 上演 示 了他们 开发 的一个信 [ 1 ] 崔春. We b 信 息抽 取 研 究综 述 [ I ] . 电脑 知 识 与技 术 , 2 0 1 l ( 4 ) : 息抽取 系统 , 该 系统用于抽 取以 中文 命名 的实体及其相 互关系 。国 内 7- 1O 比较著名 的研究 是中国人 民大学数据 与知识研究所提 出的基于预定义 [ 2 ] 石宇. 基 于X ML 的We b 信 息抽 取与集 成技 术的研 究[ D] . 大连 : 模式 的包装器 、 中 国科技 大学提 出的基于 多层模式 的多记 录网页信息 大连海事 大学硕士 学位论 文, 2 0 0 6 抽取 方法 、 中国科学 院软件研 究所提 出的基 于 D O M的 We b 信 息抽取 、 l 3 j Ha mme r J . Te mp l a t e — b a s e d wr a p p e r s i n t h e T S I MM I S s y s t e m. I n o c e e d i ng s o f t h e 1 9 9 7 ACM S I GM OD i n t e na r t i o n a l c o nf e r e n c e o n 浙江大学人工智 能研究所提 出的基 于本体论 的 We b 信息抽取等 。这些 Pr 信息 抽取技 术 的提 出对 解决 We b 信息抽 取 中存在 的问题 有一定 的帮 M a n a g e me nt o fd a t a , 1 9 9 7: 5 3 2 —5 3 5 助, 推 动了抽 取技术 的发展 , 但 这些 抽取方法有其局 限性。如大部分信 [ 4 ] 蒲 筱 哥. 基于We b 的信息抽取技术研究综述[ I ] . 现 代 情 报, 息抽取 系统 采用 自定义 的语 言描述 抽取规则 , 导致抽 取模式不统一 , 扩 2 0 0 7 . 2 7 ( 1 0 )

Web信息抽取系统研究综述

Web信息抽取系统研究综述

规 结构 描 述 中抽 取 一 些 简单 信 息填 入 一 个
具 有 固 定记 录 格 式 数 据 库 中1。 4 1 近 年 来 , b 息抽 取 系统 的研 究成果 We 信
何 准 确 的从 W e 页 面 中抽 取 所需 要 内容 的 的无 结 构 或半 结构 的 信 息 中识 别用 户感 兴 不 断 出现 。 同的研 究人 员在研 究We b 不 b信息 所 技术 , We 信 息抽取 系统贝 是利 用W e 信 趣 的 数据 , 而 b 0 b 并将 其 转 化 为 结 构 和 语 义 更 为 抽 取 的实 现 时 , 侧 重 的 角度 也 不 尽相 同 , 息 抽 取 技 术 实 现 的 应 用 软 件 系 统 , 研 发 清晰 的格 式 ( 其 XML、 系 数 据 面 向 对 象 的 有 基 于语 义 的 、 关 领域 知 识 的 、 网站 语 义结 构
1引言
随 着I t r e 上信 息 的 爆 炸式 增 长 , ne n t 万 大 的 、 重 要 的 信 息 资 源 库 。 万 维 网上 , 最 在
信息 抽 取 与 信 息 检 素 和 数 据 挖 掘 是 不 统和ATRANS 系统等 。 ig itc t n 的 L n u si S r g i
该 方报 告 , 它们 已经 在I tr e 上发现 超过 1 nen t 万 识 和 模式 。 流 程 来看 , 息 检索 可 以 作 为 事 脚 本 理 论 建 立的 一 个 信 息 抽 取 系 统 。 从 信
亿个We 文档 , b 而且 这 个 数 字 还 在 以每 天 信 息 抽 取 的 前 期 工 作 , 过 信 息 检 索 获 得 系 统 从 新 闻报 道 中 抽 取 信 息 , 通 内容 涉 及 地 几 十亿 的 速 度持 续 增长 f。 万维 网上 每时 相关 的 文档 集 , 此基 础 上 进行 信 息 抽 取 。 l在 1 在

基于web的信息抽取方法研究

基于web的信息抽取方法研究
用 户 。三层 结 构 图 如下 图 1 示 。 所
用 户 浏 览 、客 户端 程 序
1 【
l部 口 解 D 树据存 I 外接层l 析o 数并储 l M


l 据M描 文 抽结 I依 L述档 取 果l
3 信 息抽 取性 能评 价
图2信息抽取模型
3 1检索数据 的有效性 . 基于w b 面的变动 ,容 易造成不能够准确地从 已改变的页面提取 e页 出数据。构建校验系统不间断的监视数据抽取 的质量 ,通过X L I 滤器 S1 过 对x 输 出进行检测 ,从 “ MI 好”的数据中分离 出来的 “ 坏”数据 32 检索质量评价体 系 . We信息抽取技术的评测依据经典的信息检索 (R)评价指标 ,即 b I 回召率 ( ea )和查准率 ( rcs n R cl 1 Peio )来衡量。其计算公式为: i P 抽出的正确信息点数所 有抽出的信息点数 - R 抽出的正确信息点数所 有正确 的信息点数 = 以此为标准衡量信息抽取系统 的精确程度 。
图1信息集成层次模型 DOM ( o u n0 icM0 e,文档对 象模型 )是一种供 H ML D c me t be t d 1 T 和 XML 文档使用 的应用程序编程接 口 ( I AP ),定义了文档 的逻辑结构 以 及访 问和操作文档 中各个 部分的标准方法 。构建DO M结构 树为 了抽取 X L M 文档信息 ,对收集 的We 页面进行 结构分析 ,建立相应 的根元素 b ( ou nEe e t D eme tlm n )和节点 ( o e N d )。N e d o  ̄象通过继承关系形成一裸 O 树 ,它继f OM f  ̄ N d对象 的属性和操作 ,同时又有各 自特殊的属性 oe 和操作 ,通过标记识别 和定位信息 。使用此模型 ,有效地将We文档 中 b 的数据抽取出来表示为X MD陷式的文档 ,简化信息抽取工作 ,方便地形 成x 【 据源 ,为D M M数 O 等数据提供访 问接 口, 于用户访问与检索。 利

Web页面主题信息抽取研究与实现

Web页面主题信息抽取研究与实现
Ab t a t T e s r c : h man n o ma in n we p g i l a s i d d mo g nmp ra t e t r s u h s n e e s r i if r t i a o b a e s w y hd e a n u i ot n f au e s c a u n c s ay a i g s n i ee a t l k , i ma e a d r lv n i s t s r n h ma e i i iu t o t e s r t a q i t e o ia i o ain, n t a l t t k s t f c l r h u e s o c u r h tp c l n r t d f e f m o ad ht i s s mi i a alb l y I h s p p r we p o o e o e a p o c o e ta t t p c l i o ai n r m w b p g s n p e e t t e v i i t . t i a e , r p s a n v l p r a h t xr c o i a n r t f a i n f m o o e a e a d r s n h c r s o d n l o i msE p r n s n s t f 5, 0 b a e f m 1 0 i e e t i s h w h t h meh d s or p n i g a g r e h t . x e me t i o a e o 0 0 we p g s r o d f r n st s o t a t e 2 e to i
10个 网站 的 500个 网页 进行 了测 试 和 评 估 。 实 验 结 果表 明该 方 法 切 实 可 行 , 达 到 9.5 2 0 可 1 %0 准 确 率 。 3

WEB文档信息抽取方法研究

WEB文档信息抽取方法研究

经过 以上 清 洗 过 程 . 以得 到 格 式 良好 、 除 无 用 标 记 和 属 可 去
阿准 确有 效 的抽 取 这 些 有 用 的 信 息 需 求 变 得 非 常迫 切 .针 对 这 性 的 X T H ML文 档 种 需求 垂 直 搜 索 发 展 起来 。 与普 通搜 索 引 擎抽 取 技 术 不 同 , 直 3 垂 , 据 加 载 2数 D 2 ( 本 9 提 供 了 基 于 N teXML存 储 X B 版 ) av i ML格 式 文 档 它 ML信 息 . 文 中我 们 利用 本 各 异 的半 结 构 化 信 息 中抽 取 出 特 定 的结 构 化 信 息 .重 新 形 成 结 的 新 特 性 . 能 够 快 速 存 储 和 检 索 X 构 良好 的 . 于 检索 和表 示 的数 据 。 便 这 个 特 性 。数 据 加 载第 一 步 是 将 清 洗 后 的 X T L数据 . H M 以及抓 传 统 上 垂 直搜 索 采 用 一 种 称 为 封 装 器 的 程 序 来 提 取 互 联 网 取 文 档 时 生 成 的相 关 信 息 两 者 共 组 成 文 档 摘 要 .摘 要 是 抓取
与 信 息 无关 标 记 和 属 性 的 结 构 化 XH I 档 .同 时 生 成 包 含 表 的 普 通 字 段 方式 存 储 , L文 内容 段 的 数 据 以 X ML方 式 存 储 。 图 2 清 洗 后 X T L信 息 的 文档 摘 要 . 后 将 包 含 清 洗 后 的 X T L 为摘 要 的存 储 结 构 . 要 的每 - + 段 对 应 关 系 表 的 一 个 字 段 , H M 然 H M 摘 其 文 档 的 文档 摘 要 按 不 同 方 式存 储 到 D 2 版 本 9 n tex l 据 中 抓 取 时 问 、 章 主 题 、 B( )av m 数 i 文 网页 指 纹 等段 均存 储 为 普 通 格 式 . 内容 库中. 最后 通过 定 义 基 于 S LX Q / ML查 询 语 言 的 抽 取 规 则 进 行 数 段存 储 为 X ML格 式 。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息抽取 的方法主要 可以分为以下两类:一类是基于层 次结构 的信息抽取归纳 方法 ,另一类是基于概念模型的多记 录信息抽取方法 。 W b信息抽取工作主要包装器 (r p e ) e W a p r 来完成 …。包装
2根据 自 . 动化程度可 以分为
人工方式的信息抽取 、半 自动方式的信息抽取和全 自动 方式的信息抽取三大类 。 3 根据现有 W b信息抽取系统和模 型实现原理 的不 同, . e 分为 以下几类 : ( )基于 归纳学 习的信息抽取 。通过对若干个待抽取 1 实例网页进行结构特征学 习,归纳 出抽取规则 ,然后使用抽
21 0 0年第 4期
大 众 科 技
DA ZHONG J KE
No.yN .2 ) C mu i l o1 8 av
浅谈 w b信 息抽取 e
李 斌
( 中国医科 大学附属第一 医院 ,辽 宁 沈 阳 10 0 ) 10 1
【 文章编号 】1 0 — 1 1 000 — 0 8 0 0 8 15 ( 1)4 04 — 2 2
统进行查询 分析 。
随着 I tr e n e n t的迅猛发展 , e W b已经成 为一个 巨大的信
息源 。曾几何时 ,人们开始 习惯于使用 网络搜 索引擎来查找 自己所 需要 的有用信息,但随着 W b信息数量 的快速增长, e 各网络搜索引擎所能覆盖的范 围比例却逐渐减 小,因此如何
器是一种软件过程 ,这个过程使用 已经 定义好的信息抽取规 则 ,将网络中 W b页面 的信息数据抽取出来,转换为用特定 e 的格式描述 的信息 。一个包装器 一般针 对某一种数据源 中的 类页面 。包装器运用规则执行程序对 实际要抽取的数据源

进行抽取。
2 抽取过程一般包括 以下几个 步骤 : .
是最近几年应用最广泛 的抽取 知识表达 模型 。它是一种随机 的有 限状态 自动机 ,由于 H 有成熟的学习算法和坚实的统 删 计基础 ,所 以在信息抽取 中是一种成功的模 型。 ( )基于特征模式匹配的信 息抽 取 。通过大量学习实 3 例 ,归纳学习出待抽取信息 的语法 结构模式 ,并根据这些模
式从待抽取网页 中抽取 出相 匹配 的信 息,适用于复杂结构信
息 的抽 取 。
( )使用模 式 匹配 方法识 别指定 的信 息模 式的各个 部 4
分。
( )进行上下文分析和推理 ,确定信息的最终形式。 5 ( )将结果输 出成结构化的描述型式 以便由网络集成系 6
( )什 么是 w b信息 抽取 一 e
W b信息抽取是指 从 W b页面所包含 的无结构、 e e 半结构或
者 结构化的信息中识别用户感兴趣的数据 ,并将其转化 为结 构和语义更为清晰的格式 的 W b页面信息抽取的过程 。 e
( )Wb信 息抽 取技术 涉及 的 内容 二 e
因特 网提供 了一个 巨大的信息源 。这种信息源往往 是半
取规则 自动分析待抽取信 息在 网页中的结构特征并实现信息 抽取。采 用这种原理 的典型 的系统有 SA K R O T E L , T L E ,SH MA Y
WE 。 I N
( )基于 H M(id n M r o o e ) 2 M H d e a k v M d 1的信息抽取。 “。
结构化 的,并且 中间夹杂着结构化和 自由文本 。网上 的信息 还是动态 的,包含超链接 ,都 以不 同的形式 出现 。 1W b信 息抽取 的内容一般可 以分为几个方面: .e 命名实体 的抽取 、与模板 有关的 内容信息抽取 、各个实 体之间关系的抽取和预 置事件 的信息抽取 。
( )将 W b网页进行预 处理 。预处理 的 目的是将半结构 1 e 化 HM T L页面去掉无用的信息以及对 不规则的 HM T L标识进行 修 正,为下一步标记信息做准 备。 ( )用一组信 息模式描述所需要抽取的信息。通常可以 2 针对某 一领域 的信息特征预定义好一系列 的信息模式 ,存放 在模式库 中供用户选用 。 ( )对文本进行合理 的词法 、句法及语义分析 ,通常包 3 括识别特定的名词短语和动词短语 。
【 摘 要】文章 阐述 了 we 息抽取的定义、抽取过程 、We 息抽取 方法的分类 ,并指明 了 w 信息抽取的应用领域 和 b信 b信 b e
发展方向。 【 关键 词】we 息抽取 ; 自然语言 ;包装器;we b信 b查询;抽取对 象
【 中图分类号 】T 330 P 9 .2
【 文献标识码 】A
从 W b中抽取 出所需要的信息,就成 为了互联 网信息搜索研 e 究领域 中一个重要的研究课题 。

( )Wb信 息抽 取方 法的分 类 三 e
把 所有 网页都归入半结构化文本 是不恰 当的 。若能通过 识别分隔符或信息 点顺序等 固定的格式信息正确抽取 出来 , 那 么该网页是结构化 的。半结 构化 的网页则可能包含缺失的 属 性,或一个属性有多个值 ,或一个属 性有多个变体等例外 的情况 。若需要用语言学 知识才 能正确 抽取属性 ,则该网页 是非结构化 的。 网页的结构 化程度总是取决于用户想要抽取 的属性是什 么。通 常机器产生的 网页是非常结 构化 的,手工编写的则结 构化程度差些 ,当然有很多例外。 按照 W b信息抽取对象的结构化程度 ,大体上可 以分为 e 三种类型 :结构化文本: 自由文本;半结构化文本 。 1 根据 W b信息抽取对象划 分,可以分为三种类型 : . e ( )从 自由格式 的文本 中抽取 出所需要的信息内容。自 i 由文本 的抽取技术可分为三类 :基于 自然语言处理 (P )的 NL 方式 ;基于规则的方式:基 于统计学 习的方式 。 ( )从 半结构化的文本 中,抽取出所 需要的信息 内容。 2 ( )从结构化 的文本中抽取 出所需要的信 息内容 。 3
相关文档
最新文档