网页正文提取技术的分析与研究

龙源期刊网 https://www.360docs.net/doc/0316605121.html,

网页正文提取技术的分析与研究

作者:杨丽萍

来源:《计算机光盘软件与应用》2012年第22期

摘要:随着互联网应用的不断开发,基于网页正文提取的技术层出不穷。几种比较经典的提取模型包括:基于DOM树网页提取模型、基于统计的网页提取模型、基于分块的网页提取模型。本文对网页正文提取技术的综合分析与研究,各种网页提取算法的优劣。

关键词:网页正文提取技术;经典提取模型的分析与研究

中图分类号:TP301.6 文献标识码:A 文章编号:1007-9599 (2012) 22-0000-02

1 引言

随着信息技术的迅速发展,基于互联网的应用越来越多的受到人们关注。WWW以超文本的形式给用户提供多种类别和形式的信息(包括技术资料、商业信息、新闻报道、娱乐信息等)。可以说,WWW是当今世界上最大的电子信息库,蕴含着许多具有潜在价值的知识。根据中国互联网信息中心(CNNIC)最新报告显示,截至2011年6月,中国网民规模达到4.85亿,较2010年底增加2770万人;互联网普及率攀升至36.2%,较2010年提高1.9个百分点。我国手机网民规模为3.18亿,较2010年底增加了1494万人。手机网民在总体网民中的比例达65.5%,成为中国网民的重要组成部分。人们可以借助移动设备以及计算机,通过互联网寻找任何自己想要的信息,然而,互联网又是一个具有开放性、异构性以及动态性的分布式网络,其资源分布分散、管理结构不一,这就导致了知识获取的困难。如何准确识别并有效提取包含在Web网页中的正文内容是Web智能信息检索[1-2]、文档自动摘要[3-4]、用户浏览体验等诸多领域的重要工作之一。

2 基于DOM树的网页正文提取技术

目前在网页信息抽取技术中研究得最多的基于DOM的网页抽取技术,它历属于自动训练的研究方法,也是近些年来发展得最好的技术方法。DOM就是文档对象模型,全称为Document Object Model,它将HTML文档里的标签信息,如Table,List等利用起来,把文档解析成一个逻辑树型结构,节点就是对象。构建完DOM树后,通过将各个节点遍历,对各种非正文信息包括广告,链接群等识别并移除,移除完非正文信息后,正文内容就是DOM树中剩下的节点内容。

由于依赖于HTML文档里的标签结构的基于DOM树的算法,对于HTML规范语法的要求很宽松,所以不同的设计人员执行的规范程度不一样,比如标签的不匹配等。虽然这种不规范性对于HTML本身的执行不会造成问题,但却可能使构建DOM树的过程濒临崩溃。另外,更加重要的一点在于,解析DOM树的过程效率比较低。因为它会对文档中的每一个

相关文档
最新文档