基于视觉特征的网页信息提取
基于CSS视觉分块的Web碎片信息抽取算法

基于CSS视觉分块的Web碎片信息抽取算法摘要:为进一步解决在半结构化的web页面中抽取web碎片信息的困难,针对web页面设计的目的是给用户显示相关的信息,浏览器只是呈现的中间手段,在抽取web碎片信息时应该“以人为本”,从“人”的视觉效果出发,将web页面按照css视觉效果进行分块,提出一种基于css视觉分块的web碎片信息抽取算法。
以随机输入的1000个web碎片信息站点作为实验对象,实验结果表明,算法具有良好的性能,达到了较高的召回率与查准率。
关键词:web;web碎片信息;css;信息抽取中图分类号:tp391随着网络技术的发展,互联网的信息呈现方式正在发生日新月异的变化,微博的出现使人们随时随地都可以分享自己的信息。
同时,微博的出现也正在改变着人们关注信息的习惯,网民们获取信息的方式越来越“碎片化”,从传统的“一对多”的信息分享方式变成的“多对多”的信息分享方式。
也就是说,在信息碎片化的时代,每个人都是信息的制造者,也是信息的获取者。
由于每个人均可以通过碎片信息发布平台(如新浪微博、腾讯微博)发布信息,使得碎片信息出现了很大的随意性,信息的构成不再像传统方式的规范化,而出现了多元化、异构化及碎片化。
在进行碎片信息抽取的时候,由于其本身可能只是“只言片语”,就有可能被当成信息“噪声”过滤了,因此给信息的抽取与整合带来了一定的困难,针对碎片信息所固有的特点,考虑到信息的分享者是“人”,而非浏览器本身,对信息的抽取应该从浏览器给人的视觉分块出发,提出了一种基于css视觉分块的web碎片信息抽取算法。
首先对web信息抽取的技术进行分析,其次基于css视觉分块的web碎片信息抽取算法,然后通过实验对提出的算法进行验证与分析,最后对算法进行总结。
1 web信息抽取技术web信息抽取的目的就是便于检索或者数据挖掘,从松散的、半结构化的html网页中抽取出有价值的、隐含的数据信息,并将其结构化存入数据库中。
面向移动终端的Web页面重组技术综述

动用户丰富多彩的页面体验效果。首先从页面提取和组合等方面对页面重组技术进行了论述, 同时分析 了相关
技 术 的适用 范 围以及其 复 杂性 , 最后 对 当前领域研 究的重 点 问题 进行 了总结。
关 键词 :结 构提 取 ;内容提 取 ;页面重 组 ;页 面布局 中图分 类号 :T 3 3 0 P 9 .9 文献 标志 码 :A 文章 编号 :1 0 — 6 5 2 l )2 4 0 — 4 0 13 9 ( O I 1 —4 5 0 d i1 .9 9 ji n 10 -6 5 2 1 .2 0 2 o:0 3 6 /.s .0 13 9 .0 1 1 . 0 s
构组合 的技术 主要有树匹配映射 技术 和 自动分配 内容块重 要 度等技术 。页面布局不合 理、 屏幕适应能力差等问题 由页面信
息组合技术来解决 。
页 面 重 组技 术
户达 到了 5 亿 , 0 网民数量 达到 了2 亿 。从移动互联 网用户增 0 长 速度和增长数值可 以看 出, 未来移动互联 网的发展将势不可 挡 。同时 , 传统针对 P c设计 的 We 页面转换为适合 移动终端 b
S re fW e a e r c n t ci g tc n lg a e b l emi a u v y o b p g e o sr t e h oo y f c d mo i tr n l u n e
S ig HI n ,WU Qn—o A G Sazo J igb ,Y N h— u h
浏览 的 We 面的技术 也随之迅 速发展起 来。采用 传统的页 b页 面重组技术 处理 的网站 , 用 户看 到 的 网页失去 了页面 的原 使
页 面 信 息 提 取
页 面 信 息 组 合
一种基于聚类的全自动网页数据记录抽取方法

中图分类号:T 3 1 P 1
文献标志码 :A ⅢM 的标签信息, 而是利用树对齐的方法。 试验结果表明 利用树对齐的方式比原始 的利用 麟 . 标签有着更加好的 准确度 。 然而这种方法引用了大量 的假设 , 实验过程过于复 杂, 这也注定 了这 是一种有着 巨大风险的方法, 并不够通用 。 随着视觉特 征的广泛应用 , 产生了一 系列高效 的基于视 觉信息 的网页信息抽取方法II。其 中…5 J 1 J 尽管最终 目的各 有不同,H是为了抽取新 闻网页 中的重要信息 ,【是为了将 J 5 J 数据记录从页面中剥离并区分 开来 ,但 JJ I都采用了将视 5 觉信 息 作 为 特 征 来 训 练 分 类 器 的 方 法 。 他们 的 样 本 为 Do Te 上的节 点或者 是经 过初步 处理 的节 点,如生成 m.re vsa e i lre之后,vsa e 上的节点 。这些方法尽管有着不 u t i lre u t 错 的精度 , 是由于需要大量 的样本来进行机器学习,因此 但 为了得 到更好 的精度 , 需要进行大量 的人工标注和网页渲染 工作 。这显然是一笔相当 昂贵的开销。 [抛弃 了视觉信息 ,巧妙的利用 H ML文本中的 D m 6 1 T o 信息 。利用标签路径( g a ) t p t 来进行聚类 。此类方法可 以在 a h 在 结构简单 的数据 页面里 ,高效 高精度 的进行 数据记录抽 取, 而且 由于是采用无监督学习的方式 ,因此不需要大量的 前期人工工作。但是 ,在页面复杂 ,造成了每条数据记录可 能 有着较 大 不 同 ,或 者 页面 中包 含 记录 不足 的情 况下 , T gah的精度会急剧的下降。 a pt
0 引言
随着互联网的 日益 发展 , 网络上包含 的信息量也越来越 庞大 。 网络 中的数据有着有灵活大量而且具有一定的结构 信息的特 点。很多网页根据用户输入 的查询项,向用户返回 系列相关的信息 。这些数据记录对信息检索,数据挖掘 , 以及情感倾 向分析等工作都有着重要的意义。 对于如何抽取这些数据记录 , 目前 已经有很相当多的 在 方 法 [13[] ] 】 它 们 或 者 依 赖 于 H lL 文 档 的 21] [ [ 。 456 Tv l Do Te m.re结构,或 者是使用 网页渲染过程 中带来的视觉信 息。尽管这些方法 中有些方法 已经达到 了很好 的效果 , 但是 仍然存在 以下几个 问题:1 )对于原始的基于 H ML标签 的 T 方法 ,可 能会 由于 H= r ML本身的发展而造成不适用 。并且 这类 方 法 通 常 只 包 含 H ML 的信 息 而 忽 略 了 C S 文 件 J T S S 文件所带来 的结构和视觉信息 。2 )加入 了视觉特征虽然解 决了仅仅依赖于 m NI 文档信息所面临的一些 问题 ,但是 , 此类 方法经常需要 大量预处理工作 和人工标注来 帮助监督 学习 。 而且 由于浏览器版 本和 网页 的安全设置 问题,训练 出 来 的模型和实用环境 的巨大 区别 , 这类方法很难进行实际 令
基于视觉搜索影响因素的网页设计原则

基于视觉搜索影响因素的网页设计原则摘要:网页设计需要考虑到人的视觉加工特点,尤其是人的视觉搜索特点。
浏览者对网页信息的获取取决于人的视觉搜索特点及影响因素。
对视觉搜索的影响因素进行了分析,并针对每个影响因素为网页设计提供了一些相应的建议。
关键词:互联网技术;视觉搜索;网页设计;网络信息0引言随着计算机技术与互联网技术的飞速发展,人们获取的信息更多地来自于互联网。
网络在提供海量信息的同时,无疑也加大了人们从浩瀚的网络信息海洋中获取所需信息的难度。
考虑到当前大多数信息是通过网页界面呈现的,所以这一难度给网页界面的设计带来了新的挑战。
网页是人与计算机网络进行交互的重要人机界面。
网页界面的样式林林种种、纷繁多样,究竟什么样的网页能向人们呈现更多的信息,什么样的网页设计更符合人们的信息加工特点,使人们高效、愉悦地获取所需信息,网页信息如何布局才能更好地引导人们科学的视觉行为,进而提高信息的获取效率等,这一系列问题都是当前网页设计者需要首先考虑的问题。
心理学研究表明,人们所知觉到的信息80%~90%是通过视觉获得的,网页界面更是如此。
所以考虑到人们的视觉加工特点,结合人们的视觉搜索特征,来探讨网页设计的原则,能够对网页设计提供一些指导。
1视觉搜索概述1.1视觉搜索定义视觉搜索,顾名思义,是利用视觉系统来搜索信息,是人们从大量的刺激中寻找目标刺激的信息加工过程,它是人类获取信息的一种重要手段,是一种复杂的认知过程。
针对网页界面而言,是指在网页界面所呈现的大量信息中,选择自己需要的信息的视觉行为过程。
经典的视觉搜索模式是Sternberg于20世纪60年代提出来的,它从短时记忆信息提取方式的研究中得出信息提取匹配的两个假设:平行扫描(平行加工或平行搜索)和系列扫描(系列加工或系列搜索)。
1.2视觉搜索分类视觉搜索主要包含序列搜索和平行搜索两种模式。
在所呈现的项目集合中,目标刺激和所有的项目同时进行比较,来找到目标刺激,是平行搜索;序列搜索则是把目标刺激和集合中的所有项目一一进行比较,直到找到目标,是系列搜索;Kristjansson和Tse(2001)对平行搜索和系列搜索分类是通过研究说明的,认为在一系列弯曲不连续的图形中搜索弯曲连续的图形,叫做系列搜索,反之则叫平行搜索;在一系列椭圆形中搜索圆形叫做系列搜索,反之则叫平行搜索。
基于特定领域的网页文本提取与实现

第2 2卷
第 3期
中央 民 族 大学 学 报 ( 自然 科 学 版 ) J o u r n a l o f MU C ( N a t u r a l S c i e n c e s E d i t i o n )
Au g .,2 0 1 3 V0 l _2 2 NO .3
鲜 明标 志 . 当然 , 股票市场也在计算机技术的支持下 , 取得 了很 大 的进 步 . 例 如 现代 化 的交 易 平 台 ,
数 字 化 的 实 时信 息 等 等都 足 以说 明其 道 理 . 但 是 与 此 同 时 也 出现 了 很 多 的 问 题 , 其 中 最 为 紧 迫 的 是 信 息 超 载 问题 . 股 票 市 场 的有 效 信 息 通 常 包 括 很 多 的无 关 信 息 内容 , 例 如 广 告 以及 很 多 无 效 的 评论信息 , 甚 至 很 多 的专 家 评 论 有 时 候 都 显 得 很 空 洞 . 所 以股 票 网页 的 信 息 识 别 和 处 理 成 为 了 股
噪音数 据严 重影 响了机器 可读 、 共享 和互 操作 , 限制 了应 用程 序 直接 对 其进 行 信 息处 理 的 工作 . 所 以将 网页信 息提 取作 为预处 理环节 成为 网页信 息处 理工作 必 不可少 的环 节… . 目前 , 有 很多 的关 于 网页 信息 提取 的技术 . 但是 这些算 法或 者设计 相对 复杂 , 或者 针对 性不 强等等 .
年 的变 革 与发 展 , 给 人 类 社 会 带 来 了 翻天 覆 地 的 变 化 , 将人 类 由工 业 时 代迈 人 了信 息 时 代 , 使 人 们 卷 入 了信 息 检 索 、 搜集 、 存储和分析的浪潮中. 特 别 是 以互 联 网 为 载体 的信 息 媒介 成 为 这 一 时 代 的
基于视觉特征和领域本体的Web信息抽取

张 鑫 , 陈 梅 , 翰 虎 , 嫣 然 王 王
( 贵州 大学 计 算机科 学与信 息 学院 , 州 贵 阳 5 0 2 ) 贵 5 0 5
摘 要 : 了解 决 网页信息 的 自动抽 取 , 文提 山了一 种基 于视觉 特征 和 领域 本体 的 We 为 该 b信息 抽取 算法 。该 算法 以基于
自动化程 度高 的特点 。
关键 词 : 视觉 特征 ; 领域本 体 ; b 息抽取 ; We 信 路径学 习 ; 发式学 习 启
中图分类号 :P 9 . T 3 14 文献标 识码 : A 文章编 号 :6 3 6 9 2 1 )2 0 5 — 4 17 — 2 X( 0 1 0 — 0 8 0
领域本体 的信息 拙取 为基础 , 根据 网页 的视 觉特征 来准确 划定信 息抽取 区域 , 然后结 合 D OM树技 术 和抽 取路 释 的启发 式
学习 , 得 We 页 商中信 息项 的抽 取路径 。通过 信息项 的抽取 路径 自动生 成信 息项 的领 域本 体 , 获 b 通过 信息 项 的领 域本 体 解 析 出信 息项 的抽 取规 则 :使 用本算 法来进行 We 信息 的抽取 , b 具有查 伞率 与奁准 率高 、 时间 复杂度低 、 用户 负担 较轻 和
( o eeo o u r c neadIfr t n G i o nvrt , uyn 50 5 C ia C l g f mp t i c n noma o , uz uU iesy G iag5 0 2 , h ) l C eS e i h i n
Ab t a t P tf r r e n o ma i n e ta to g r h b s d o iu lf a r sa d d s r c : u o wa d a W b if r to x r ci n a o i m a e n vs a e t e n oma n o t l g n o d r o s l et e p o lm l t u i n o o y i r e o v h r b e t
机器视觉中的特征提取方法
机器视觉中的特征提取方法机器视觉是人工智能领域中的重要研究方向,广泛应用于图像识别、目标跟踪、人脸识别等领域。
而特征提取是机器视觉的核心技术之一,是实现高精度识别的重要前提。
本文将介绍机器视觉中的特征提取方法。
一、什么是特征提取特征提取是指从原始图像中提取出最具代表性、最能区分不同目标的特征,用于后续的图像处理和分析。
由于原始图像包含大量冗余信息,经过特征提取后的特征向量通常是稠密的、简洁的,具有更高的鲁棒性和可靠性。
二、特征提取方法1.传统方法传统的特征提取方法包括颜色、纹理和形状等几类特征。
颜色特征是指从图像中提取出像素的颜色信息,通常以直方图的形式表示出来。
颜色直方图对目标的特征表示不够明显,常常需要与其他特征结合使用。
纹理特征是指从图像中提取出区域内像素的纹理信息,通常以灰度共生矩阵或小波变换的形式表示。
纹理特征能够更好地反映目标的质地,但在复杂场景下容易受到干扰。
形状特征是指从图像中提取出目标的轮廓、面积、周长等信息。
形状特征是一种重要的特征,但在实际应用中不够通用,需要根据具体应用场景进行优化。
2.深度学习方法深度学习是近年来特征提取领域的一种热门技术,它通过多层神经网络学习数据特征,大大提高了特征提取的准确性和泛化能力。
卷积神经网络(Convolutional Neural Network,CNN)是深度学习中最常用的一种网络结构,其通过卷积操作实现对图像特征的提取。
另外,循环神经网络(Recurrent Neural Network,RNN)在特定场景下也有着较好的表现,如序列数据分析和自然语言处理。
3.传统方法与深度学习方法的对比传统方法与深度学习方法各有优劣。
传统方法简单易实现,但对于复杂任务的特征提取效果较差,并且难以优化。
深度学习方法通过多层卷积核的学习,可以自动地学习到图像中的细节信息,提高了特征提取的准确性和泛化能力。
但是,深度学习方法也存在一些问题,如需要大量数据的训练,对计算资源的需求很高,并且在样本分布不平衡等情况下容易出现过拟合。
计算机视觉技术中的特征提取方法简介
计算机视觉技术中的特征提取方法简介计算机视觉技术是指通过计算机模仿人类的视觉系统,使计算机能够理解和解释视觉信息,并进行相关的决策和处理。
其中,特征提取是计算机视觉中的一个重要环节,它通过从图像或视频中提取有用、有区分度的特征,为后续的目标检测、图像识别、物体跟踪等任务提供基础。
在计算机视觉中,特征提取方法众多,可以分为传统的特征提取方法和基于深度学习的特征提取方法。
在传统的特征提取方法中,常见的有结构特征、颜色特征、纹理特征和形状特征等。
下面将对一些常用的特征提取方法进行简要介绍。
1. 结构特征结构特征主要关注图像中的物体边界、角点和区域等结构信息。
常见的结构特征包括边缘检测、角点检测和轮廓提取等。
边缘检测使用梯度信息来识别图像中的边界,常用的方法有Sobel算子、Canny算子和Laplacian算子等。
角点检测主要用于寻找图像中的角点,常用的方法有Harris角点检测和Shi-Tomasi角点检测等。
轮廓提取则是通过分析图像中的亮度变化来提取物体的外形轮廓。
2. 颜色特征颜色特征是指利用图像中的颜色信息来进行特征提取。
颜色特征在计算机视觉中被广泛应用,尤其在图像检索和图像分割等任务中。
常见的颜色特征包括颜色直方图、颜色矩和颜色空间等。
颜色直方图统计了图像中各个颜色的分布情况,常用的颜色空间有RGB、HSV和Lab等。
颜色矩则是用于描述颜色的一种统计特征,常见的颜色矩有色调矩和灰度矩等。
3. 纹理特征纹理特征用于描述图像中的纹理信息,可以帮助区分不同的纹理结构和纹理方向等。
常见的纹理特征包括灰度共生矩阵(GLCM)、局部二值模式(LBP)和高斯过程等。
灰度共生矩阵通过统计图像中不同位置像素间的灰度级别和空间关系来描述图像的纹理特征。
局部二值模式则是通过比较像素与周围像素的灰度级别来提取纹理特征。
高斯过程是一种基于统计模型的纹理特征提取方法,通过建立图像中像素间的高斯相似性来进行纹理分析。
4. 形状特征形状特征是指描述对象外形几何属性的特征。
VIPS基于视觉的页面分割算法[微软下一代搜索引擎核心分页算法]
VIPS:基于视觉的Web页面分页算法1.问题的提出目前,随着互联网的高速发展,Web已经成为这个世界上最大的信息来源。
Web 作为信息技术的载体已成为人们重要的工作、学习、生活、娱乐工具。
Web的发展给人类生活带来了巨大的方便,人们可以跨越时间和空间界限来共享大量信息。
但是如何去获取这些Web信息为我们所用则是大家面临的共同问题。
在最基本的层次上,整个Web网络就是由无数的Web页面而构成,因此如果获取了这些 Web页面就相当于获取了Web信息内容。
事实上,目前的很多Web信息获取技术都是基于这种理论。
但是把整个页面作为一个基本的信息获取单位并不是太合理,尽管用户通常会把一些相关的内容放在同一页面中,但是大多数情况下,一个页面中通常会包含不止一类的主题,比如在新浪的页面中,可能包含体育类信息,可能包含健康类信息,也可能包含广告、导航链接等信息。
这些信息分布在整个页面的不同位置。
因此,如果要更准确的获取Web信息,我们必须能够对给定的Web页面进行更进一步的语义提取。
Web页面的语义提取在很多方面都有应用。
比如,在Web信息访问中,为了克服关键字搜索所带来的局限性,许多研究者开始使用数据库技术,构建包装器将Web数据进行结构化处理。
在构建包装器的过程中,将Web文档分割为一定数目的数据块是首要的工作。
目前的工作大多数停留在使用自适应的方法上。
如果我们能够获取Web页面的语义内容结构信息,那么构建包装器的过程就非常的简单,当然语义信息也就很容易提取出来。
语义块的提取另外一个应用场合就是搜索引擎。
对于搜索引擎而言,链接分析是一个极为重要的工作。
目前,对于大部分的搜索引擎而言,链接分析算法的基本前提假设就是如果两个页面之间存在链接关系,那么这两个页面整体上肯定存在着一定的关系。
但是在大部分情况下,从页面A到页面B的链接仅仅意味着页面A的某部分与页面B的某部分之间可能存在一定的关系。
目前的很多算法比如PageRank以及HITS都是基于前面的假设。
知识点归纳 计算机视觉中的特征提取与目标跟踪
知识点归纳计算机视觉中的特征提取与目标跟踪计算机视觉(Computer Vision)是人工智能领域的重要分支,旨在让计算机具备类似人类视觉的能力,从图像或者视频中提取并理解有用的信息。
在计算机视觉中,特征提取和目标跟踪是两个核心的知识点,本文将对它们进行归纳和总结。
一、特征提取特征提取是计算机视觉中的基础工作,它是从原始图像数据中提取出具有代表性和可区分性的特征的过程。
这些特征能够反映图像的结构、纹理、形状等信息,为后续的图像处理和分析提供基础。
1. 图像特征的种类在计算机视觉中,常见的图像特征包括颜色特征、纹理特征、形状特征和边缘特征等。
颜色特征可以通过提取图像中的颜色直方图或者颜色矩来表示;纹理特征可通过灰度共生矩阵、小波变换等方法来获取;形状特征则主要通过边缘检测和边缘提取得到;边缘特征通常可以通过Canny算子等方法获得。
2. 特征提取的方法为了获取图像的特征,计算机视觉领域提出了多种特征提取的方法。
其中,常用的方法有滤波器方法、兴趣点检测和描述子方法等。
滤波器方法基于图像上的像素点进行滤波操作,常用的滤波器包括高斯滤波器和边缘检测滤波器;兴趣点检测和描述子方法则通过检测图像上的关键点,并提取这些关键点的描述子来表示图像的特征。
二、目标跟踪目标跟踪是计算机视觉中的一个重要任务,其目标是在视频序列中追踪一个或多个感兴趣的目标。
目标跟踪在实际应用中有着广泛的应用,如视频监控、人脸识别等领域。
1. 目标跟踪的挑战目标跟踪面临着许多挑战,如目标的外观变化、遮挡、相似目标的干扰等。
为了应对这些挑战,计算机视觉领域提出了多种目标跟踪算法。
常用的算法有基于模板匹配的方法、基于关联滤波器的方法、基于学习的方法等。
2. 目标跟踪的算法模板匹配是一种简单却常用的目标跟踪算法,它通过将目标物体的模板与图像序列逐帧进行匹配,从而实现跟踪的目的。
关联滤波器是另一种常见的目标跟踪算法,它通过训练一个滤波器来表示目标物体的外观模型,然后在后续的帧中实时地进行目标跟踪。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 相关工作
提取网页信息的方法主要是基于分析网页的 HTML 源文件,解析成语法树。一些研究 者试图利用数据库技术为网页制作一个包装器(Wapper),若一个网页可以分为语义相关 的几部分,包装器就可以很容易地匹配数据并提取数据[2]。 现有的 web 信息抽取技术按其 包装器工作原理不同可分为以下几类[3]:(1)基于自然语言处理方式的信息抽取;(2)基于归 纳学习的信息抽取;(3)基于自定义查询语言的信息抽取,典型代表有 A.saguhuet 等人研制 的信息抽取器制造工具 W4F[4]。也有研究者分析了网页的布局结构,并尝试在语义层次划 分的页面,提取网页内容信息。近年来网页信息自动抽取研究取得很多成果[5],但是大多 数方法主要依靠分析 HTML 的语法结构, 虽然取得了不错的效果, 但也存在很大的局限性, 其中最大的局限性就是拓展性较低。文献[6]提出了基于视觉特征的网页信息标题抽取方 法,达到了较高的正确率。但是,其抽取数据量较少,无法满足提取网页主题信息的要求。 目前,涉及网页视觉特征的研究成果也有很多[7],这些研究试图将网页信息提取与网 页物理结构分离开来,取得了一定的成果,但总体上仍处在发展阶段。文献 [2] 提出了一 种自动自上而下独立标签树的方法来检测网站的内容结构,在模拟用户如何理解网页布局 结构的基础上,方法独立于 HTML 文件,即使 HTML 的结构和布局结构不同,也有较高 正确率,适合于对 Web 页面进行精确分块,但无法自动定位主题信息区域。文献[3] 针对 BBS 网页自动抽取用户发言信息, 提出基于 BBS 主题网页内用户发言信息的视觉特征的有 效抽取信息技术,但是算法整体过于复杂,效率不符合提取的实时性需求。文献[8]提出了 利用 TABLE 标记和视觉特征对页面进行视觉块划分,并识别视觉块属性的算法 TVPS,该 算法中对分块方法只从 TABLE 标记进行考虑,但是实际中网页正文信息不完全在 TABLE 标记中。如果只考虑网页的 TABLE 标记,可能会造成正文信息的缺失。 本文通过观察和统计网页中不同类型主题区域与价值信息区域的在视觉上的特征表 现,同时对这些特征进行共性发掘与统计分析,提出了基于视觉特征的网页价值信息区域 视觉块定位算法:VBPA(Visual Block Positioning Algorithm),在此基础上可以准确的完成 对所需网页信息的提取工作,取得了较好的效果。
Web information extraction based on visual characteris tics
WU Qian, YANG Xiao, ZHANG Zhao-xin
School of Computer Science and Technology Harbin Institute of Technology (Weihai), Weihai 264209 E-mail: yxyx3258@ Abstract: In the age of rapid development of Internet technology, Web is becoming the world's largest database of information, how to effectively manage the use of Web information is currently a hot issue. This paper discusses the issue of Web information extraction. Traditional web information extraction is mainly based on DOM tree and HTML tag analysis. Based on VIPS, the paper is proposed visual block positioning algorithm for Web page information extraction through induction Web page visual features and visual pieces feature information. The theme-based web-site and BBS web-site input as VIPS, analysis the output of VIPS and the visual block tree and define visual characteristics such as text density and link text density. The paper put forward a visual block positioning algorithm VBPA. It will be the theme of location information to a node VBT, and then to extract theme information. Experimental results show that the visual features of the visual block positioning algorithm are superior to the traditional web information extraction algorithm and can be a higher quality of information extraction. Keywords: VIPS;Visual pieces positioning;VBPA;Subject extraction;BBS information extraction
基于视觉特征的网页信息提取*
吴倩,杨逍,张兆心
哈尔滨工业大学(威海)计算机科学与技术学院,威海,264209 E-mail: yxyx3258@ 摘 要:在互联网技术高速发展的时代,Web 成为全球最大的信息数据库,如何有效管理、利用 Web 信 息是当前的热点问题, 本文主要探讨了 Web 网页信息提取问题。 传统的网页信息提取主要基于 DOM 树及 HTML 标签分析, 文中在基于网页视觉特征分块算法 VIPS 基础上, 通过归纳 Web 网页视觉特征及视觉块 特征信息,提出了基于视觉块的定位算法的 Web 页面信息提取方法。分别将主题型网页和 BBS 型网页作 为 VIPS 算法的输入,分析 VIPS 算法输出的视觉分块树中视觉分块,定义纯文本密度和链接文本密度等 视觉特征量,提出了视觉块定位算法 VBPA,定位主题信息块到 VBT 中的某一个节点,进而提取主题信 息。实验结果表明,基于视觉特征的视觉块定位算法要优于传统网页信息提取算法,可以得到较高的信息 提取质量。 关键词:VIPS;视觉块定位;VBPA;主题内容提取;BBS 信息提取。
S_B 。 S _ page
定义 4:B 的纯文本密度 _ text 是视觉块B中纯文本的长度与视觉块B的面积之比为
_ text
L _ textlength S_B
,其中 L _ textlength 是视觉块B中纯文本的长度。
定义 5:B 的链接文本的密度 _ link 为视觉块B中链接文本的长度与视觉块B的面积之 比为 _ link L _ linklength ,其中, L _ linklength 是视觉块B中链接文本的长度。
[2]
17
一个基于 Web 网页的视觉分块树 VBT。本文使用 VIPS 算法参考文献[2],首先将一个 Web 页面作为 VIPS 算法的输入,通过算法解析 Web 页面得到一个抽象的结构,视觉分块树 (Visuanl Block Tree,VBT)[3]。与 DOM 树不同,VBT 具有以下特征: 特征一:VBT 中节点与视觉分块是等价的; 特征二:VBT 中的每一个节点对应一个矩形的视觉区域(如文本、图片、链接等) ; 特征三: VBT 上具有父子关系的节点, 在网页中对应的矩形区域在几何上是包含关系。 但文献[2]仅仅提供了一种基于视觉特征的网页分块算法,得到网页的视觉分块集合, 但是没有给出如何根据视觉特征进行网页信息提取的方法,本文的工作基于其 VIPS 算法 的基础上,提出利用已得视觉块的视觉特征进行网页信息提取的算法。
1 引言
随着计算机的普及和互联网的迅猛发展,Internet 上的信息资源正以惊人的速度增长, *
作者简介:吴倩(1988-),女,安徽淮南人,本科生;杨逍(1990-),男,河南周口人,本科生;张兆心 (1979-),男,黑龙江哈尔滨人,博士,副教授,主要研究方向为网络安全。 基金项目: 网络危机响应系统关键技术研究(2007242A47)、 哈尔滨工业大学校级科技立项(20090704011)。
4 视觉块定位算法(VBPA)与网页信息提取
在对网页使用 VIPS 算法进行视觉分块后,通过提出视觉块定位算法:VBPA(Visual Block Positioning Algorithm)来对网页信息区域块进行定位和提取工作。 4.1 视觉块 B 的特征值
对于第 2 节中得到的 VBT 中的每个视觉块 B, 记录它在网页中的位置信息、 大小信息、 文字特征信息以及图片信息等。设定网页的左上角顶点为坐标原点,网页的右下角顶点坐 标为(Width,Height),其中 Width 和 Height 为经过 VIPS 算法得到的每个视觉块的宽度和 高度,每个页面块的中心点坐标为(CenterX,CenterY)。通过 VIPS 算法可以得到每个视觉 块 B 到当前页面上边界的距离 B _ top ,到左边界的距离 B _ lef , B 的横向中轴线的位置 L _ land B _ top 0.5Height ,纵向中轴线位置 L _ protrait B _ left 0.5Width 。根据记录的这些信息,对每 一个视觉块 B 做出如下定义。 定义 1:B 的横向中轴线与 B 的父节点块的横向中轴线之间的距离 L _ land L _ fland , 其中 L _ fland 为 B 的父节点块的横向中轴线的位置。 定义 2:B 的纵向中轴线与 B 的父节点块的中轴线之间的距离 L _ protrait L _ fprotrait , 其中 L _ fprotrait 为 B 的父节点块的纵向中轴线的位置。 定义 3:语义块 B 的面积 S _ B 与 Web 页面的面积 S _ page 之比为