基于视觉特征的网页信息提取

合集下载

基于CSS视觉分块的Web碎片信息抽取算法

基于CSS视觉分块的Web碎片信息抽取算法摘要：为进一步解决在半结构化的web页面中抽取web碎片信息的困难，针对web页面设计的目的是给用户显示相关的信息，浏览器只是呈现的中间手段，在抽取web碎片信息时应该“以人为本”，从“人”的视觉效果出发，将web页面按照css视觉效果进行分块，提出一种基于css视觉分块的web碎片信息抽取算法。

以随机输入的1000个web碎片信息站点作为实验对象，实验结果表明，算法具有良好的性能，达到了较高的召回率与查准率。

关键词：web；web碎片信息；css；信息抽取中图分类号：tp391随着网络技术的发展，互联网的信息呈现方式正在发生日新月异的变化，微博的出现使人们随时随地都可以分享自己的信息。

同时，微博的出现也正在改变着人们关注信息的习惯，网民们获取信息的方式越来越“碎片化”，从传统的“一对多”的信息分享方式变成的“多对多”的信息分享方式。

也就是说，在信息碎片化的时代，每个人都是信息的制造者，也是信息的获取者。

由于每个人均可以通过碎片信息发布平台（如新浪微博、腾讯微博）发布信息，使得碎片信息出现了很大的随意性，信息的构成不再像传统方式的规范化，而出现了多元化、异构化及碎片化。

在进行碎片信息抽取的时候，由于其本身可能只是“只言片语”，就有可能被当成信息“噪声”过滤了，因此给信息的抽取与整合带来了一定的困难，针对碎片信息所固有的特点，考虑到信息的分享者是“人”，而非浏览器本身，对信息的抽取应该从浏览器给人的视觉分块出发，提出了一种基于css视觉分块的web碎片信息抽取算法。

首先对web信息抽取的技术进行分析，其次基于css视觉分块的web碎片信息抽取算法，然后通过实验对提出的算法进行验证与分析，最后对算法进行总结。

1 web信息抽取技术web信息抽取的目的就是便于检索或者数据挖掘，从松散的、半结构化的html网页中抽取出有价值的、隐含的数据信息，并将其结构化存入数据库中。

面向移动终端的Web页面重组技术综述

动用户丰富多彩的页面体验效果。首先从页面提取和组合等方面对页面重组技术进行了论述，同时分析了相关
技术的适用范围以及其复杂性，最后对当前领域研究的重点问题进行了总结。
关键词：结构提取；内容提取；页面重组；页面布局中图分类号：Ｔ３３０Ｐ９．９文献标志码：Ａ文章编号：１０ — ６５２ｌ）２４０ — ４０１３９（ＯＩ１ —４５０ｄｉ１．９９ｊｉｎ１０－６５２１．２０２ｏ：０３６／．ｓ．０１３９．０１１．０ｓ
构组合的技术主要有树匹配映射技术和自动分配内容块重要度等技术。页面布局不合理、屏幕适应能力差等问题由页面信
息组合技术来解决。
页面重组技术
户达到了５亿，０网民数量达到了２亿。从移动互联网用户增０长速度和增长数值可以看出，未来移动互联网的发展将势不可挡。同时，传统针对Ｐｃ设计的Ｗｅ页面转换为适合移动终端ｂ
ＳｒｅｆＷｅａｅｒｃｎｔｃｉｇｔｃｎｌｇａｅｂｌｅｍｉａｕｖｙｏｂｐｇｅｏｓｒｔｅｈｏｏｙｆｃｄｍｏｉｔｒｎｌｕｎｅ
ＳｉｇＨＩｎ，ＷＵＱｎ—ｏＡＧＳａｚｏＪｉｇｂ，ＹＮｈ— ｕｈ
浏览的Ｗｅ面的技术也随之迅速发展起来。采用传统的页ｂ页面重组技术处理的网站，用户看到的网页失去了页面的原使
页面信息提取
页面信息组合

一种基于聚类的全自动网页数据记录抽取方法

中图分类号：Ｔ３１Ｐ１
文献标志码：Ａ ⅢＭ的标签信息，而是利用树对齐的方法。试验结果表明利用树对齐的方式比原始的利用麟．标签有着更加好的准确度。然而这种方法引用了大量的假设，实验过程过于复杂，这也注定了这是一种有着巨大风险的方法，并不够通用。随着视觉特征的广泛应用，产生了一系列高效的基于视觉信息的网页信息抽取方法ＩＩ。其中…５Ｊ１Ｊ尽管最终目的各有不同，Ｈ是为了抽取新闻网页中的重要信息，【是为了将Ｊ５Ｊ数据记录从页面中剥离并区分开来，但ＪＪＩ都采用了将视５觉信息作为特征来训练分类器的方法。他们的样本为ＤｏＴｅ上的节点或者是经过初步处理的节点，如生成ｍ．ｒｅｖｓａｅｉｌｒｅ之后，ｖｓａｅ上的节点。这些方法尽管有着不ｕｔｉｌｒｅｕｔ错的精度，是由于需要大量的样本来进行机器学习，因此但为了得到更好的精度，需要进行大量的人工标注和网页渲染工作。这显然是一笔相当昂贵的开销。［抛弃了视觉信息，巧妙的利用ＨＭＬ文本中的Ｄｍ６１Ｔｏ信息。利用标签路径（ｇａ）ｔｐｔ来进行聚类。此类方法可以在ａｈ在结构简单的数据页面里，高效高精度的进行数据记录抽取，而且由于是采用无监督学习的方式，因此不需要大量的前期人工工作。但是，在页面复杂，造成了每条数据记录可能有着较大不同，或者页面中包含记录不足的情况下，Ｔｇａｈ的精度会急剧的下降。ａｐｔ
０引言
随着互联网的日益发展，网络上包含的信息量也越来越庞大。网络中的数据有着有灵活大量而且具有一定的结构信息的特点。很多网页根据用户输入的查询项，向用户返回系列相关的信息。这些数据记录对信息检索，数据挖掘，以及情感倾向分析等工作都有着重要的意义。对于如何抽取这些数据记录，目前已经有很相当多的在方法［１３［］］】它们或者依赖于ＨｌＬ文档的２１］［［。４５６ＴｖｌＤｏＴｅｍ．ｒｅ结构，或者是使用网页渲染过程中带来的视觉信息。尽管这些方法中有些方法已经达到了很好的效果，但是仍然存在以下几个问题：１）对于原始的基于ＨＭＬ标签的Ｔ方法，可能会由于Ｈ＝ｒＭＬ本身的发展而造成不适用。并且这类方法通常只包含ＨＭＬ的信息而忽略了ＣＳ文件ＪＴＳＳ文件所带来的结构和视觉信息。２）加入了视觉特征虽然解决了仅仅依赖于ｍＮＩ文档信息所面临的一些问题，但是，此类方法经常需要大量预处理工作和人工标注来帮助监督学习。而且由于浏览器版本和网页的安全设置问题，训练出来的模型和实用环境的巨大区别，这类方法很难进行实际令

基于视觉搜索影响因素的网页设计原则

基于视觉搜索影响因素的网页设计原则摘要：网页设计需要考虑到人的视觉加工特点，尤其是人的视觉搜索特点。

浏览者对网页信息的获取取决于人的视觉搜索特点及影响因素。

对视觉搜索的影响因素进行了分析，并针对每个影响因素为网页设计提供了一些相应的建议。

关键词：互联网技术；视觉搜索；网页设计；网络信息0引言随着计算机技术与互联网技术的飞速发展，人们获取的信息更多地来自于互联网。

网络在提供海量信息的同时，无疑也加大了人们从浩瀚的网络信息海洋中获取所需信息的难度。

考虑到当前大多数信息是通过网页界面呈现的，所以这一难度给网页界面的设计带来了新的挑战。

网页是人与计算机网络进行交互的重要人机界面。

网页界面的样式林林种种、纷繁多样，究竟什么样的网页能向人们呈现更多的信息，什么样的网页设计更符合人们的信息加工特点，使人们高效、愉悦地获取所需信息，网页信息如何布局才能更好地引导人们科学的视觉行为，进而提高信息的获取效率等，这一系列问题都是当前网页设计者需要首先考虑的问题。

心理学研究表明，人们所知觉到的信息80%～90%是通过视觉获得的，网页界面更是如此。

所以考虑到人们的视觉加工特点，结合人们的视觉搜索特征，来探讨网页设计的原则，能够对网页设计提供一些指导。

1视觉搜索概述1.1视觉搜索定义视觉搜索，顾名思义，是利用视觉系统来搜索信息，是人们从大量的刺激中寻找目标刺激的信息加工过程，它是人类获取信息的一种重要手段，是一种复杂的认知过程。

针对网页界面而言，是指在网页界面所呈现的大量信息中，选择自己需要的信息的视觉行为过程。

经典的视觉搜索模式是Sternberg于20世纪60年代提出来的，它从短时记忆信息提取方式的研究中得出信息提取匹配的两个假设：平行扫描（平行加工或平行搜索）和系列扫描（系列加工或系列搜索）。

1.2视觉搜索分类视觉搜索主要包含序列搜索和平行搜索两种模式。

在所呈现的项目集合中，目标刺激和所有的项目同时进行比较，来找到目标刺激，是平行搜索；序列搜索则是把目标刺激和集合中的所有项目一一进行比较，直到找到目标，是系列搜索；Kristjansson和Tse（2001）对平行搜索和系列搜索分类是通过研究说明的，认为在一系列弯曲不连续的图形中搜索弯曲连续的图形，叫做系列搜索，反之则叫平行搜索；在一系列椭圆形中搜索圆形叫做系列搜索，反之则叫平行搜索。

基于特定领域的网页文本提取与实现

２０１３年８月
第２２卷
第３期
中央民族大学学报（自然科学版）ＪｏｕｒｎａｌｏｆＭＵＣ（ＮａｔｕｒａｌＳｃｉｅｎｃｅｓＥｄｉｔｉｏｎ）
Ａｕｇ．，２０１３Ｖ０ｌ＿２２ＮＯ．３
鲜明标志．当然，股票市场也在计算机技术的支持下，取得了很大的进步．例如现代化的交易平台，
数字化的实时信息等等都足以说明其道理．但是与此同时也出现了很多的问题，其中最为紧迫的是信息超载问题．股票市场的有效信息通常包括很多的无关信息内容，例如广告以及很多无效的评论信息，甚至很多的专家评论有时候都显得很空洞．所以股票网页的信息识别和处理成为了股
噪音数据严重影响了机器可读、共享和互操作，限制了应用程序直接对其进行信息处理的工作．所以将网页信息提取作为预处理环节成为网页信息处理工作必不可少的环节… ．目前，有很多的关于网页信息提取的技术．但是这些算法或者设计相对复杂，或者针对性不强等等．
年的变革与发展，给人类社会带来了翻天覆地的变化，将人类由工业时代迈人了信息时代，使人们卷入了信息检索、搜集、存储和分析的浪潮中．特别是以互联网为载体的信息媒介成为这一时代的

基于视觉特征和领域本体的Web信息抽取

ｄｇｅｆａｔｍａｉｎｅｒｅｏｕｏｔｏ
张鑫，陈梅，翰虎，嫣然王王
（贵州大学计算机科学与信息学院，州贵阳５０２）贵５０５
摘要：了解决网页信息的自动抽取，文提山了一种基于视觉特征和领域本体的Ｗｅ为该ｂ信息抽取算法。该算法以基于
自动化程度高的特点。
关键词：视觉特征；领域本体；ｂ息抽取；Ｗｅ信路径学习；发式学习启
中图分类号：Ｐ９．Ｔ３１４文献标识码：Ａ文章编号：６３６９２１）２０５ — ４１７ — ２Ｘ（０１０ — ０８０
领域本体的信息拙取为基础，根据网页的视觉特征来准确划定信息抽取区域，然后结合ＤＯＭ树技术和抽取路释的启发式
学习，得Ｗｅ页商中信息项的抽取路径。通过信息项的抽取路径自动生成信息项的领域本体，获ｂ通过信息项的领域本体解析出信息项的抽取规则：使用本算法来进行Ｗｅ信息的抽取，ｂ具有查伞率与奁准率高、时间复杂度低、用户负担较轻和
（ｏｅｅｏｏｕｒｃｎｅａｄＩｆｒｔｎＧｉｏｎｖｒｔ，ｕｙｎ５０５ＣｉａＣｌｇｆｍｐｔｉｃｎｎｏｍａｏ，ｕｚｕＵｉｅｓｙＧｉａｇ５０２，ｈ）ｌＣｅＳｅｉｈｉｎ
ＡｂｔａｔＰｔｆｒｒｅｎｏｍａｉｎｅｔａｔｏｇｒｈｂｓｄｏｉｕｌｆａｒｓａｄｄｓｒｃ：ｕｏｗａｄａＷｂｉｆｒｔｏｘｒｃｉｎａｏｉｍａｅｎｖｓａｅｔｅｎｏｍａｎｏｔｌｇｎｏｄｒｏｓｌｅｔｅｐｏｌｍｌｔｕｉｎｏｏｙｉｒｅｏｖｈｒｂｅｔ

机器视觉中的特征提取方法

机器视觉中的特征提取方法机器视觉是人工智能领域中的重要研究方向，广泛应用于图像识别、目标跟踪、人脸识别等领域。

而特征提取是机器视觉的核心技术之一，是实现高精度识别的重要前提。

本文将介绍机器视觉中的特征提取方法。

一、什么是特征提取特征提取是指从原始图像中提取出最具代表性、最能区分不同目标的特征，用于后续的图像处理和分析。

由于原始图像包含大量冗余信息，经过特征提取后的特征向量通常是稠密的、简洁的，具有更高的鲁棒性和可靠性。

二、特征提取方法1.传统方法传统的特征提取方法包括颜色、纹理和形状等几类特征。

颜色特征是指从图像中提取出像素的颜色信息，通常以直方图的形式表示出来。

颜色直方图对目标的特征表示不够明显，常常需要与其他特征结合使用。

纹理特征是指从图像中提取出区域内像素的纹理信息，通常以灰度共生矩阵或小波变换的形式表示。

纹理特征能够更好地反映目标的质地，但在复杂场景下容易受到干扰。

形状特征是指从图像中提取出目标的轮廓、面积、周长等信息。

形状特征是一种重要的特征，但在实际应用中不够通用，需要根据具体应用场景进行优化。

2.深度学习方法深度学习是近年来特征提取领域的一种热门技术，它通过多层神经网络学习数据特征，大大提高了特征提取的准确性和泛化能力。

卷积神经网络(Convolutional Neural Network，CNN)是深度学习中最常用的一种网络结构，其通过卷积操作实现对图像特征的提取。

另外，循环神经网络(Recurrent Neural Network，RNN)在特定场景下也有着较好的表现，如序列数据分析和自然语言处理。

3.传统方法与深度学习方法的对比传统方法与深度学习方法各有优劣。

传统方法简单易实现，但对于复杂任务的特征提取效果较差，并且难以优化。

深度学习方法通过多层卷积核的学习，可以自动地学习到图像中的细节信息，提高了特征提取的准确性和泛化能力。

但是，深度学习方法也存在一些问题，如需要大量数据的训练，对计算资源的需求很高，并且在样本分布不平衡等情况下容易出现过拟合。

计算机视觉技术中的特征提取方法简介

计算机视觉技术中的特征提取方法简介计算机视觉技术是指通过计算机模仿人类的视觉系统，使计算机能够理解和解释视觉信息，并进行相关的决策和处理。

其中，特征提取是计算机视觉中的一个重要环节，它通过从图像或视频中提取有用、有区分度的特征，为后续的目标检测、图像识别、物体跟踪等任务提供基础。

在计算机视觉中，特征提取方法众多，可以分为传统的特征提取方法和基于深度学习的特征提取方法。

在传统的特征提取方法中，常见的有结构特征、颜色特征、纹理特征和形状特征等。

下面将对一些常用的特征提取方法进行简要介绍。

1. 结构特征结构特征主要关注图像中的物体边界、角点和区域等结构信息。

常见的结构特征包括边缘检测、角点检测和轮廓提取等。

边缘检测使用梯度信息来识别图像中的边界，常用的方法有Sobel算子、Canny算子和Laplacian算子等。

角点检测主要用于寻找图像中的角点，常用的方法有Harris角点检测和Shi-Tomasi角点检测等。

轮廓提取则是通过分析图像中的亮度变化来提取物体的外形轮廓。

2. 颜色特征颜色特征是指利用图像中的颜色信息来进行特征提取。

颜色特征在计算机视觉中被广泛应用，尤其在图像检索和图像分割等任务中。

常见的颜色特征包括颜色直方图、颜色矩和颜色空间等。

颜色直方图统计了图像中各个颜色的分布情况，常用的颜色空间有RGB、HSV和Lab等。

颜色矩则是用于描述颜色的一种统计特征，常见的颜色矩有色调矩和灰度矩等。

3. 纹理特征纹理特征用于描述图像中的纹理信息，可以帮助区分不同的纹理结构和纹理方向等。

常见的纹理特征包括灰度共生矩阵（GLCM）、局部二值模式（LBP）和高斯过程等。

灰度共生矩阵通过统计图像中不同位置像素间的灰度级别和空间关系来描述图像的纹理特征。

局部二值模式则是通过比较像素与周围像素的灰度级别来提取纹理特征。

高斯过程是一种基于统计模型的纹理特征提取方法，通过建立图像中像素间的高斯相似性来进行纹理分析。

4. 形状特征形状特征是指描述对象外形几何属性的特征。

VIPS基于视觉的页面分割算法[微软下一代搜索引擎核心分页算法]

VIPS:基于视觉的Web页面分页算法1.问题的提出目前，随着互联网的高速发展，Web已经成为这个世界上最大的信息来源。

Web 作为信息技术的载体已成为人们重要的工作、学习、生活、娱乐工具。

Web的发展给人类生活带来了巨大的方便，人们可以跨越时间和空间界限来共享大量信息。

但是如何去获取这些Web信息为我们所用则是大家面临的共同问题。

在最基本的层次上，整个Web网络就是由无数的Web页面而构成，因此如果获取了这些 Web页面就相当于获取了Web信息内容。

事实上，目前的很多Web信息获取技术都是基于这种理论。

但是把整个页面作为一个基本的信息获取单位并不是太合理，尽管用户通常会把一些相关的内容放在同一页面中，但是大多数情况下，一个页面中通常会包含不止一类的主题，比如在新浪的页面中，可能包含体育类信息，可能包含健康类信息，也可能包含广告、导航链接等信息。

这些信息分布在整个页面的不同位置。

因此，如果要更准确的获取Web信息，我们必须能够对给定的Web页面进行更进一步的语义提取。

Web页面的语义提取在很多方面都有应用。

比如，在Web信息访问中，为了克服关键字搜索所带来的局限性，许多研究者开始使用数据库技术，构建包装器将Web数据进行结构化处理。

在构建包装器的过程中，将Web文档分割为一定数目的数据块是首要的工作。

目前的工作大多数停留在使用自适应的方法上。

如果我们能够获取Web页面的语义内容结构信息，那么构建包装器的过程就非常的简单，当然语义信息也就很容易提取出来。

语义块的提取另外一个应用场合就是搜索引擎。

对于搜索引擎而言，链接分析是一个极为重要的工作。

目前，对于大部分的搜索引擎而言，链接分析算法的基本前提假设就是如果两个页面之间存在链接关系，那么这两个页面整体上肯定存在着一定的关系。

但是在大部分情况下，从页面A到页面B的链接仅仅意味着页面A的某部分与页面B的某部分之间可能存在一定的关系。

目前的很多算法比如PageRank以及HITS都是基于前面的假设。

知识点归纳计算机视觉中的特征提取与目标跟踪

知识点归纳计算机视觉中的特征提取与目标跟踪计算机视觉（Computer Vision）是人工智能领域的重要分支，旨在让计算机具备类似人类视觉的能力，从图像或者视频中提取并理解有用的信息。

在计算机视觉中，特征提取和目标跟踪是两个核心的知识点，本文将对它们进行归纳和总结。

一、特征提取特征提取是计算机视觉中的基础工作，它是从原始图像数据中提取出具有代表性和可区分性的特征的过程。

这些特征能够反映图像的结构、纹理、形状等信息，为后续的图像处理和分析提供基础。

1. 图像特征的种类在计算机视觉中，常见的图像特征包括颜色特征、纹理特征、形状特征和边缘特征等。

颜色特征可以通过提取图像中的颜色直方图或者颜色矩来表示；纹理特征可通过灰度共生矩阵、小波变换等方法来获取；形状特征则主要通过边缘检测和边缘提取得到；边缘特征通常可以通过Canny算子等方法获得。

2. 特征提取的方法为了获取图像的特征，计算机视觉领域提出了多种特征提取的方法。

其中，常用的方法有滤波器方法、兴趣点检测和描述子方法等。

滤波器方法基于图像上的像素点进行滤波操作，常用的滤波器包括高斯滤波器和边缘检测滤波器；兴趣点检测和描述子方法则通过检测图像上的关键点，并提取这些关键点的描述子来表示图像的特征。

二、目标跟踪目标跟踪是计算机视觉中的一个重要任务，其目标是在视频序列中追踪一个或多个感兴趣的目标。

目标跟踪在实际应用中有着广泛的应用，如视频监控、人脸识别等领域。

1. 目标跟踪的挑战目标跟踪面临着许多挑战，如目标的外观变化、遮挡、相似目标的干扰等。

为了应对这些挑战，计算机视觉领域提出了多种目标跟踪算法。

常用的算法有基于模板匹配的方法、基于关联滤波器的方法、基于学习的方法等。

2. 目标跟踪的算法模板匹配是一种简单却常用的目标跟踪算法，它通过将目标物体的模板与图像序列逐帧进行匹配，从而实现跟踪的目的。

关联滤波器是另一种常见的目标跟踪算法，它通过训练一个滤波器来表示目标物体的外观模型，然后在后续的帧中实时地进行目标跟踪。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2 相关工作
提取网页信息的方法主要是基于分析网页的 HTML 源文件，解析成语法树。一些研究者试图利用数据库技术为网页制作一个包装器（Wapper），若一个网页可以分为语义相关的几部分，包装器就可以很容易地匹配数据并提取数据[2]。现有的 web 信息抽取技术按其包装器工作原理不同可分为以下几类[3]：(1)基于自然语言处理方式的信息抽取；(2)基于归纳学习的信息抽取；(3)基于自定义查询语言的信息抽取，典型代表有 A.saguhuet 等人研制的信息抽取器制造工具 W4F[4]。也有研究者分析了网页的布局结构，并尝试在语义层次划分的页面，提取网页内容信息。近年来网页信息自动抽取研究取得很多成果[5]，但是大多数方法主要依靠分析 HTML 的语法结构，虽然取得了不错的效果，但也存在很大的局限性，其中最大的局限性就是拓展性较低。文献[6]提出了基于视觉特征的网页信息标题抽取方法，达到了较高的正确率。但是，其抽取数据量较少，无法满足提取网页主题信息的要求。目前，涉及网页视觉特征的研究成果也有很多[7]，这些研究试图将网页信息提取与网页物理结构分离开来，取得了一定的成果，但总体上仍处在发展阶段。文献 [2] 提出了一种自动自上而下独立标签树的方法来检测网站的内容结构，在模拟用户如何理解网页布局结构的基础上，方法独立于 HTML 文件，即使 HTML 的结构和布局结构不同，也有较高正确率，适合于对 Web 页面进行精确分块，但无法自动定位主题信息区域。文献[3] 针对 BBS 网页自动抽取用户发言信息，提出基于 BBS 主题网页内用户发言信息的视觉特征的有效抽取信息技术，但是算法整体过于复杂，效率不符合提取的实时性需求。文献[8]提出了利用 TABLE 标记和视觉特征对页面进行视觉块划分，并识别视觉块属性的算法 TVPS，该算法中对分块方法只从 TABLE 标记进行考虑，但是实际中网页正文信息不完全在 TABLE 标记中。如果只考虑网页的 TABLE 标记，可能会造成正文信息的缺失。本文通过观察和统计网页中不同类型主题区域与价值信息区域的在视觉上的特征表现，同时对这些特征进行共性发掘与统计分析，提出了基于视觉特征的网页价值信息区域视觉块定位算法：VBPA(Visual Block Positioning Algorithm），在此基础上可以准确的完成对所需网页信息的提取工作，取得了较好的效果。
Web information extraction based on visual characteris tics
WU Qian, YANG Xiao, ZHANG Zhao-xin
School of Computer Science and Technology Harbin Institute of Technology (Weihai), Weihai 264209 E-mail: yxyx3258@ Abstract: In the age of rapid development of Internet technology, Web is becoming the world's largest database of information, how to effectively manage the use of Web information is currently a hot issue. This paper discusses the issue of Web information extraction. Traditional web information extraction is mainly based on DOM tree and HTML tag analysis. Based on VIPS, the paper is proposed visual block positioning algorithm for Web page information extraction through induction Web page visual features and visual pieces feature information. The theme-based web-site and BBS web-site input as VIPS, analysis the output of VIPS and the visual block tree and define visual characteristics such as text density and link text density. The paper put forward a visual block positioning algorithm VBPA. It will be the theme of location information to a node VBT, and then to extract theme information. Experimental results show that the visual features of the visual block positioning algorithm are superior to the traditional web information extraction algorithm and can be a higher quality of information extraction. Keywords: VIPS；Visual pieces positioning；VBPA；Subject extraction；BBS information extraction
基于视觉特征的网页信息提取*
吴倩，杨逍，张兆心
哈尔滨工业大学(威海)计算机科学与技术学院，威海，264209 E-mail: yxyx3258@ 摘要：在互联网技术高速发展的时代，Web 成为全球最大的信息数据库，如何有效管理、利用 Web 信息是当前的热点问题，本文主要探讨了 Web 网页信息提取问题。传统的网页信息提取主要基于 DOM 树及 HTML 标签分析，文中在基于网页视觉特征分块算法 VIPS 基础上，通过归纳 Web 网页视觉特征及视觉块特征信息，提出了基于视觉块的定位算法的 Web 页面信息提取方法。分别将主题型网页和 BBS 型网页作为 VIPS 算法的输入，分析 VIPS 算法输出的视觉分块树中视觉分块，定义纯文本密度和链接文本密度等视觉特征量，提出了视觉块定位算法 VBPA，定位主题信息块到 VBT 中的某一个节点，进而提取主题信息。实验结果表明，基于视觉特征的视觉块定位算法要优于传统网页信息提取算法，可以得到较高的信息提取质量。关键词：VIPS；视觉块定位；VBPA；主题内容提取；BBS 信息提取。
S_B 。 S _ page
定义 4：B 的纯文本密度 _ text 是视觉块Ｂ中纯文本的长度与视觉块Ｂ的面积之比为
_ text
L _ textlength S_B
，其中 L _ textlength 是视觉块Ｂ中纯文本的长度。
定义 5：B 的链接文本的密度 _ link 为视觉块Ｂ中链接文本的长度与视觉块Ｂ的面积之比为 _ link L _ linklength ，其中， L _ linklength 是视觉块Ｂ中链接文本的长度。
[2]
17
一个基于 Web 网页的视觉分块树 VBT。本文使用 VIPS 算法参考文献[2]，首先将一个 Web 页面作为 VIPS 算法的输入，通过算法解析 Web 页面得到一个抽象的结构，视觉分块树（Visuanl Block Tree,VBT）[3]。与 DOM 树不同，VBT 具有以下特征：特征一：VBT 中节点与视觉分块是等价的；特征二：VBT 中的每一个节点对应一个矩形的视觉区域（如文本、图片、链接等）；特征三： VBT 上具有父子关系的节点，在网页中对应的矩形区域在几何上是包含关系。但文献[2]仅仅提供了一种基于视觉特征的网页分块算法，得到网页的视觉分块集合，但是没有给出如何根据视觉特征进行网页信息提取的方法，本文的工作基于其 VIPS 算法的基础上，提出利用已得视觉块的视觉特征进行网页信息提取的算法。
1 引言
随着计算机的普及和互联网的迅猛发展，Internet 上的信息资源正以惊人的速度增长， *
作者简介：吴倩(1988-)，女，安徽淮南人，本科生；杨逍(1990-)，男，河南周口人，本科生；张兆心 (1979-)，男，黑龙江哈尔滨人，博士，副教授，主要研究方向为网络安全。基金项目：网络危机响应系统关键技术研究(2007242A47)、哈尔滨工业大学校级科技立项(20090704011)。
4 视觉块定位算法(VBPA)与网页信息提取
在对网页使用 VIPS 算法进行视觉分块后，通过提出视觉块定位算法：VBPA（Visual Block Positioning Algorithm）来对网页信息区域块进行定位和提取工作。 4.1 视觉块 B 的特征值
对于第 2 节中得到的 VBT 中的每个视觉块 B，记录它在网页中的位置信息、大小信息、文字特征信息以及图片信息等。设定网页的左上角顶点为坐标原点，网页的右下角顶点坐标为(Width，Height)，其中 Width 和 Height 为经过 VIPS 算法得到的每个视觉块的宽度和高度，每个页面块的中心点坐标为(CenterX，CenterY)。通过 VIPS 算法可以得到每个视觉块 B 到当前页面上边界的距离 B _ top ，到左边界的距离 B _ lef ， B 的横向中轴线的位置 L _ land B _ top 0.5Height ，纵向中轴线位置 L _ protrait B _ left 0.5Width 。根据记录的这些信息，对每一个视觉块 B 做出如下定义。定义 1：B 的横向中轴线与 B 的父节点块的横向中轴线之间的距离 L _ land L _ fland ，其中 L _ fland 为 B 的父节点块的横向中轴线的位置。定义 2：B 的纵向中轴线与 B 的父节点块的中轴线之间的距离 L _ protrait L _ fprotrait ，其中 L _ fprotrait 为 B 的父节点块的纵向中轴线的位置。定义 3：语义块 B 的面积 S _ B 与 Web 页面的面积 S _ page 之比为