基于SVM的Web信息抽取研究

合集下载

基于正反例训练的SVM命名实体关系抽取

基于正反例训练的SVM命名实体关系抽取
L U Lu L — h n , ZHANG a —e I . IBic e g Xin fi
(nom t nE gneigIsit,I om t nE gneigU i rt,Z eghuHea 5 0 2 hn ) I r ai n i r tu f o e n n t e n r ai n i r nv sy hn zo nn4 00 ,C ia f o e n ei
维普资讯
第2 8卷 第 6期
20 0 8年 6月
文章编号 :0 1 9 8 (0 8 0 10 — 0 1 20 ) 6—14 0 4 4— 3
计 算机 应 用
Co m6 12 .
e t y r lto xr ci , ni eai n e ta ton t
Ke r s a d e t y rl t n e ta t n VM l o t m;e t y r lt n tmp a e o i v n e ai ec s s b e y wo d :n me n i ea i xrc i ;S t o o agr h i n i ea i t o e lt ;p st e a d n g t a e — a d i v s
n me n i i . Ex rm e tlr s t o e ta h s e meho c n ef cie y i r v h c u a y o i e e n e a d e tt par y s pe i na e ul prv h tt i n w t d a fe tv l mp o e t e a c r c f Ch n s a d s m
A b t a t Ba e n t h r ce siso h n s a e niy r lto xrc in,f aurswee s lc e n e t r sr c : s d o hec a a tr t ft e Chie en m d e tt eai n e ta to i c e t e r ee td a d fa u e v c o swe e c n tu td i tr o i e e m oph lgc l g a e tr r o sr ce n e ms f Ch n s r oo ia , r mma n s ma tc . Th n poe ta a e e tt a r i r a d e n is e t n iln m d niy p i n s a c r a c t he s cfc n i rl t n e c o d n e wih t pe i e tt e ai tmplt r e ta td nd dii e it p stv nd ne a ie a e . S p r i y o ae we e xr ce a v d d no o iie a g tv c s s up o t

基于Web资源的信息抽取技术

基于Web资源的信息抽取技术

The Technology of Information Extraction for Web
Resource
作者: 郭志红
作者机构: 上海交通大学情报研究所,上海200030
出版物刊名: 情报科学
页码: 1282-1284页
主题词: Web资源 信息抽取 wrapper归纳技术 自动生成原型系统
摘要:Web资源含有大量的有用信息,但由于它们欠结构化,不能为传统的数据库型查询系统所利用.如何将这些信息抽取出来,转化成结构化信息,供其它信息集成系统所利用,成为该领域的研究热点.本文介绍了一个简单的Web信息抽取模型,对于基于该模型的wrapper归纳技术进行了探讨,并描述了一个wrapper自动生成系统的原型.。

基于Web的表格信息抽取研究

基于Web的表格信息抽取研究

基于Web的表格信息抽取研究秦振海;谭守标;徐超【摘要】如今,Web成为了网络信息的主要平台.根据研究发现,表格在Web文本中被经常使用.正因为表格形式简洁并且含有丰富的信息,自动理解表格在知识管理、信息检索、Web挖掘等应用中有着广泛的用途,所以研究Web表格信息抽取有着重要的现实意义.互联网上有大量信息采用HTML表格表示,由于HTML不描述数据的内容,机器不能理解和查询.论文首先将HTML文档转换为XML文档,结合本体形成启发式规则,对表格定位、表格结构识别两个关键技术进行了分析.在此基础上,利用HTML表格属性,将HTML表格标准化,从而适用于复杂表格的信息抽取.【期刊名称】《计算机技术与发展》【年(卷),期】2010(020)002【总页数】4页(P217-220)【关键词】HTML表格;信息抽取;Web;XML【作者】秦振海;谭守标;徐超【作者单位】安徽大学,电子科学与技术学院,安徽,合肥,230039;安徽大学,电子科学与技术学院,安徽,合肥,230039;安徽大学,电子科学与技术学院,安徽,合肥,230039【正文语种】中文【中图分类】TP3930 引言随着信息技术飞速发展,互联网已经成为最流行的信息发布媒介。

人们无论是发布信息还是阅读信息都变的极为方便。

然而,随着互联网信息爆炸性地增长,人们想要精确获取一条所期望的资料犹如大海捞针般困难。

在这种背景下,人们希望提高有用信息获取的效率。

目前Web信息获取主要有两种方法:通过搜索引擎查询或者进行Web信息抽取。

搜索引擎帮助人们通过关键词来获取相关的文档。

用户必须从获得的文档中自己查找有用的信息。

因为这些文档并不考虑用户的知识领域,对用户来说并不容易定位到自己需要的资源上。

然而Web信息提取则自动从网络里分析和发现有用的信息,废弃并不需要的数据,可充分提取用户知识领域的知识。

由于Web页面大量使用表格元素这一现象,所以对表格进行信息抽取具有重要的现实意义。

Web信息抽取技术综述

Web信息抽取技术综述

收稿日期: 2010 -06-28 ; 修回日期: 2010-08-12 基金项目: 中央高校基本科研业务费专项资金资助项目( BLYX200928 ) 作者简介: 陈钊( 1971 -) ,男,甘肃天水人,副教授,博士,主要研究方 向 为 信 息 推 送 及 信 息 系 统 ; 张 冬 梅 ( 1986-) ,女,河 北 秦 皇 岛 人,硕 士 研 究 生,主要研究方向为信息整合及信息推送( dongmei_761 @ 126. com) .
Survey of Web information extraction technologies
CHEN Zhao,ZHANG Dong-mei ( School of Information Science & Technology,Beijing Forestry University,Beijing 100083 ,China)
·4402·
计算机应用研究第 27 卷1 Web 信息抽取技术
1. 1 基于统计理论的技术
基于统计的方法通过统计各个标签所包含的信息量或链 接文本与普通文本的比值来获取网页的主题信息。这种方法 克服了数据源的限制,并 不 只 针 对 某 一 类 网 页,具 有 一 定 的 普 遍性。
Gupta 等人[5]设计的 Crunch 系 统 利 用 区 域 中 link / text( 链 接文本 /普通文本) 的比值与某个既定阈值的大小关系来确定 网页的正文 区 域。 认 为 在 正 文 区 域 中 ,普 通 文 本 所 占 比 例 较 大 ,相 反 ,在 广 告 区 域 或 友 情 链 接 区 域 中 ,信 息 大 部 分 以 链 接 文 本的形式出现。Gupta 并没有 给 出 具 体 的 阈 值,也 没 有 提 出 阈 值 确 定 的 方 法 ,这 种 处 理 技 术 如 果 阈 值 确 定 不 合 理 的 话 会 大 大 影响最终的抽取准确率。

基于表格语义的Web信息抽取方法的研究

基于表格语义的Web信息抽取方法的研究

基于表格语义的Web信息抽取方法的研究作者:余承健来源:《电脑知识与技术·学术交流》2008年第12期摘要:在Web页面常用到表格这种元素。

本文提出一种根据表格语义来进行信息抽取方法。

首先提出了一种短语语义相似度的度量方法,然后利用短语语义的相似度确定表格标题行(列),并对表格行(列)与抽取字段的对应关系进行计算,最后计算表格的整体语义,度量该表格与所要抽取的内容有多大相关度。

关键词:Web信息抽取;表格;短语语义中图分类号:TP393文献标识码:A文章编号:1009-3044(2008)12-20ppp-0cA Research on the Method of Web Information Extraction Based on Table SemanticYU Cheng-Jian(Computer Engineering Dept. of Guangzhou City Polytechnic, GuangZhou 510405,China)Abstract: The table tag is often used in web page. In thispaper a method of web information extraction is presented which is based on table semantic. First, a method for calculating semantic likelihood between two phrase is carried out. Then use the likelihood to determine the title row or column of the table, the correlation between titles and fields is determined at the same time. Base title of the table, a simply method is presented which can be used to calculate correlativity between this table and what we wanted to extract.Key words: web information extraction; table; phrasal semantic1 引言互联网是一个信息的海洋且高速增长。

基于HMM的Web信息抽取算法的研究与应用

基于HMM的Web信息抽取算法的研究与应用

o d lH r o e ( M M ) d s u s d} W o u e H M M n o t r a a i e t if r to x rc in o fr d s v r l t 。 ic s e l O t s a d h w o ma k d t n t x n o ma in e ta t , f e e ea o e meh d o i p o e t e h d e a k v mo e n i f r t n e t a t n i to u e h s a l h n f e n o ma i n e s t m r v h i d n M r o d l n o ma i x r c i ,n r d c d t e e t b i me to b i f r t x i o o s W o t a t n mo e a e n HM M , mp r t ey a ay e h u p td t fi f r a i n e ta t n, e i e h a i i f r c i d lb s d o o Co a a i l n l s d t eo t u a a o o m t x r c i v rf d t e v l t o v n o o i d y t e ag r h t r u h e p rme t. h l o i m h o g x e i n s t Ke wo d HM M 。n o ma i n e ta t n M a h n e r i g y rs I f r t x r c i , c ie la n n o o
ZH U e— u IU LI Bi- i W i a Yi h U n b n
( c o lo y fwa eEn i e ig, o g ig U nv r i Ch n qn 0 04 Chn ) S h o f?o t r gne rn Ch n qn iest y, o g ig 4 0 4. ia

基于WEB资源的信息抽取技术

基于WEB资源的信息抽取技术

基于WEB资源的信息抽取技术郭志红(上海交通大学情报研究所,上海200030)摘要 web资源含有大量的有效信息,但由于它们欠结构化,不能为传统的数据库型查询系统所利用。

如何将这些信息抽掏出来,转化成结构化信息,供其它信息集成系统所利用,成为该顶域的研究热点。

本文介绍了一个简单的web信息抽取模型,对基于该模型的wrapper归纳技术进行了探讨,并描述了一个wrapper 自动生成系统的原型。

关键词信息抽取 wrapper归纳技术自动生成原型系统The Technology of Information Extraction for WEBResourceGuo Zhihong(Information Research Institute, Shanghai Jiaotong university, Shanghai 200030)Abstract There is plenty of useful information in web resource. Itcan't be used by the traditional database query system because it is notwell-structured. Recently considerable attention has been received on how to extract it from web resource and transfer it to structured information that can be used by other information integration systems. This paper presents a simple web information extraction model, discusses the technology of wrapper induction based on the model and describes automatic generation prototype system of wrapper.Keywords information extraction wrapper induction automatic generation prototype system引言Internet是一个庞大的信息资源库,它上面有着各类各样的在线信息:天气预报,股票价钱,商品目录,政府法规和税收政策,个人爱好,研究报告等等。

[豆丁]基于视觉特征的WEB信息抽取技术的研究与实现

[豆丁]基于视觉特征的WEB信息抽取技术的研究与实现

感兴趣记录组成,一条记录在语义上描述了用户感兴趣类的一个对象。

定义3.3EOR(ExtractionofRecord)记录抽取项,简写为抽取项(通常为字符串)。

若干个抽取项组成一条用户感兴趣记录。

部分抽取项可以通过命名实体识别标注出来,被标注的记录抽取项为实体。

一个页面可形式化地表示为P--<H,DR,L>。

其中,H表示网页的头部信息,T表示网页的尾部信息;而DR表示记录列表所在区域,也是用户所关心的区域。

DR可表示为DR=<ROll,ROle,..。

,ROIm>,表示DR有m个ROI组成。

每一个ROI由多个属性组成,这里的属性表示信息抽取中的抽取项,即ROI=<EORl,EOR2,...,EORn>。

定义3.4NE.Web(NamedEntityWeb)经过命名实体标注的Web页面。

NE-Web是具有简单语义特征的Web页面。

定义3.5Web.DKF(Web-basedDomainKnowledgeFile)基于Web的领域知识文件。

该文件结合Web的特征来描述领域中的实体,它通过扩展的Gate领域本体解析器产生,应用在整个抽取规则的产生阶段。

a)web页面”数据区域DRc)用户感兴趣记录ROI固3-1鼬页面构成圈3-2R01代码片段应该被分割。

如果一个结点不需要再分割,那么该结点块将被提取出来,并保存到页面块池中。

襄3_1分捌规则规则1如果当前结点不是文本结点,同时它又没有任何有效的孩子结点,那么该结点将不被分割。

规则2如果当前结点的所有的孩子结点都是文字结点或者是虚拟文字结点,那么不分割该结点。

规则3如果当前结点中不含有任何实体结点,则不分割该节点。

规则4如果前一个兄弟节点未被分割,那么该节点也不被分割。

规则5如果当前结点只有一个有效的孩子结点,同时该孩子结点不是文字结点,那么当前结点将被分割。

规则6如果当前结点的孩子结点中存在心结点,那么该结点将被继续分割。

规则7如果当前DOM结点的孩子结点中至少有一个非内联结点,那么该结点将被继续分割。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 We b信 息抽 取技 术
通常用于 We b信 息抽 取的软件 又称 作包装器( Wr a p p e r ) 。主要 有三大类 : 基 于认 知模型 的包装器 、 基 于统计 的包装器 和基 于规则 的包装器。 自 1 9 9 4年起 , 经历 了从 手工编写包装器脚本 , 到利用机 器学习的半 自动化生成 , 再到 自动化生成 的三个 阶段 。 目前 比较好 的包装器算法是 不需要人 工标注 的无 监督学 习方 图 1 网页抽取流程 法。 We b中富含数据 的网页 主要有两种 : 列表页和详情页 。 无论哪一 务队列 , 对于已经采集过的页面或是相似 网页 , 不再重复采集。 试采 种网页 , R o a d R u n e r 算法往往需要多张 网页才能学习完抽 取规则 , 算 取U R L 哈希表登记方式在放 入任务队列之前进行是 否已经判断 。 法对于输入字符串长度是 指数级的 , 需要 引入一组启发 式规则限制 对于相似 网页试 采取“ 语 义指纹 ” 排重 , 利用向量余 弦夹 角大于 0 . 9 搜索空间和 回溯降低其利导度。基于简单子树匹配算法 , 类似与字 的两篇文档算作相似文档 。 符 串编辑距 离求解 , 可 以很容 易识 别 网页 中的重 复条 目模 式 , 例如 ( 2 ) 中文文本 分类 的特征选 取方法 ( 文 档频率 、 信 息增益 、 C H I 表格或列表布局的多行标题 , 单张列表页 即可发现其 中存在的重复 统计 、 互信息 ) 比较研究 , 以S V M分类算法对抽 到结果进行对 比, 选 模式。两种算法都有共同缺点 : 完全基 于网页结构 中隐含的重复模 出最佳特征选取方法特征抽取作为分类 的前处理过程 , 其有效性可 式来挖掘抽取规则的 , 这使得它们容 易抽取 出大量 用户不需 要的数 以通 过分类 的效果来测试 。为评价分类效果 , 采用最通用的性能评 据, 因为 系统不知道用户对什么感兴趣。 价方 法 : 召 回率 、 准确率 。对于某一特定 的类别 , 召回率定义为被正 2 X ML应 用 确分类 的文档数和被测试文档总数 的比率 , 即该类样本被分类器正 X ML ( e X t e n s i b l e Ma r k u p L a n g u a g e , 可扩 展标记语 言) 是 由 w3 C 确识 别的概率 。 准确率定义为正确分类的文档数 与被分类器识别为 于1 9 9 8 年 2月发布 的一种标准 , 它以一种开放 的、 自描述的方式定 该类 的文档数 的比率 , 即分类器做出的决策是正确的概率。通常还 义了数据结构 。在描述数据内容的同时能突出对结构 的描述 , 从而 将召 回率 和准确率用某种方式组合成单一的度量 , 以便 于进行 比较 体现出数据之间的关系。 这样所组织 的数据对 于应用程序和用户都 ( 3 ) 数 据抽取简单树 匹配算法时间复杂度控制 是友好的 、 可操作 的。 简单树 匹配算法类 似于求解字符 串编辑距 离来 比较两棵 子树 自动抽取用户感兴趣 的网络数据 。 用 户仅在前期人工标注一些 是否匹配或相似 , 对于较大的页面性能较差 。尝试采用领域特征对 网页用作 “ 兴趣” 机 器学习训 练 , 作 为将来 We b数据抽 取的主题 , 此 经过中文分词后 的树形结构 中叶子结点进行裁剪 , 以降低算法搜索 后给 出几个网址作为网络爬虫爬取种子 , 系统将 自动抽取相关网站 空间。 用户感兴 趣的数据 ,不 同网站 的抽取规则 不需要人 工干预 自动生 结束语 成。 We b数据抽取技术 目前还处在不 断发展之 中, 是 We b数据挖掘 We b信息抽取就是从 We b页面 中抽取 目标信息的问题 ,从 网 研究领域 中的难题 和热 点。本文论述 了基于 X ML技术利用重复模 页 中所包含 的无结构 或半结 构的信息 中识别用 户感 兴趣 的数据 , 并 式查找网页中的数据 区域方法 , 它避免了大量的人工手动标注网页 将其转 化为结 构和语义 更为清 晰的格式(XM L 、 关 系数据 、 面向对 样品以供 机器 学习 , 能够处理大量站点情况 , 并且维护开销小 , 具有 象的数据等) 。基于 X ML技术抽取的流程 为 : 第一步 , 使用 网络爬虫 很强的实用价值。值得 注意 的是还存在着改进 的地方 , 比如抽取了 获取 HT ML 文档 。 每二 步 , 对原始的 H T ML文件加工清洗 , 经过使用 部分用户不感兴趣 的数据 , 这可 以尝试使用领域分词过滤掉不需 工具 T i t y 对网页语法检查及纠错 , 将H T M L文档转换为结构完整 的 要的信息加以完善 。 X H T ML 。 第三步 , 使用 H T ML P a r s e r 等工具解析 X ML文档生成 D O M 参 考 文 献 树模式 ; 第 四步 , 利 用信息抽取规则 提取有价值 的信息存储 到数据 『 1 ] B i n g L i u We b数据挖掘『 M1 . 北京 : 清华大学 出版社, 2 0 0 9 . 库 中以便使用 。 『 2 1 王震 江. X ML程序设计『 M 1 . 北京 : 中国铁道 出版社, 2 0 0 6 . 针对 目前 全 自动 We b文 本抽 取算 法查 准率 低 的特点 ,引入 『 3 1 胡立辉 , 张健 , 陈曦 . 基 于正则式的 C N K I网 页全 自动 包装 器【 J 】 . 长 S V M( 支持 向量机 ) 文本分类算法 , 通 过一定量 的样例学 习 , 选取领 沙理工大 学学报f 自然科学版) , 2 0 0 6 , 6 . 域相关 的关键词 的特 征 向量 , 作二元分类 , 过滤抽 取文本 中无用信 『 4 1 杨桢 , 赵 燕平 , 朱 东华. 基 于正则表 达式的信 息抽 取 系统在 国防技 息, 精化抽取规则 。 术监测 中的应用Ⅱ 】 . 北京理工大学学报 , 2 0 0 6 , 6 . 包括学习阶段的网页抽取 流程如 图 1 所示 。 【 5 】 张绍 华 , 徐林 吴. 基 于样 本 实例 的 We b信 息抽 取[ J 】 . 河北 大学学 3算法的主要 内容 报, 自然科 学版 , 2 0 0 1 , 4 . ( 1 )向面领域 的多线程 爬取 R L队列 的设计 , 解决 “ 去 重” 问 题在系统 网页采集功能模块 中 ,主要 问题为维护待爬取 的 U R L任
信 息产 业
・ 1 5 3 ・
ห้องสมุดไป่ตู้基于 S V M 的 We b信 息抽取研究
郭东峰 ( 新 乡学院 计算机 与信 息工程 学院 , 河南 新 乡 4 5 3 0 0 0 )
摘 要: 阐述 了针对 中小型企业供 需信息 自 动化 We b信息抽取技术的研 究。 自动化是指 不需要人工标 注网页抽取规 则学 习样本 , 系统 能够从不 同的求购信息网站的 网页里 自动获取相应的信 息抽取规则 , 通过引入领域特征来净化抽取到文本 字段 而获得较 高的查准率。 关键词 : 信息抽取 ; X ML数据 ; 支持 向量机
中小 型企 业借助于搜 索引擎从 网络中获取产 品供求信 息作为 促进销售 的重要手段 。 如何从庞大的信息海洋中快 速准确地获取需 要的供求信息 , 成 为企业一个非 常重要的问题 。目前虽然搜索引擎 为企业查找产品供求信息提供了简便的方法 , 但它 只是 提高了 We b 文档 的检 索效率 , 只能根据用 户提交 的关键 词返 回一组 U R L , 用户 必须逐一浏览 U R L对应 的 We b页 , 采用人工的方式定位最终 信息 , 现有 的搜索引擎本身不能直接定位到所需 的数据 , 更谈不上为数据 增加语义。这使得存在于网页上的信息不能被直接利用 , 仍然需要 并花费大量时间进行人工阅读分析 。
相关文档
最新文档