网页正文提取技术的分析与研究

龙源期刊网 https://www.360docs.net/doc/0316605121.html,

网页正文提取技术的分析与研究

作者：杨丽萍

来源：《计算机光盘软件与应用》2012年第22期

摘要：随着互联网应用的不断开发，基于网页正文提取的技术层出不穷。几种比较经典的提取模型包括：基于DOM树网页提取模型、基于统计的网页提取模型、基于分块的网页提取模型。本文对网页正文提取技术的综合分析与研究，各种网页提取算法的优劣。

关键词：网页正文提取技术；经典提取模型的分析与研究

中图分类号：TP301.6 文献标识码：A 文章编号：1007-9599 （2012） 22-0000-02

1 引言

随着信息技术的迅速发展，基于互联网的应用越来越多的受到人们关注。WWW以超文本的形式给用户提供多种类别和形式的信息（包括技术资料、商业信息、新闻报道、娱乐信息等）。可以说，WWW是当今世界上最大的电子信息库，蕴含着许多具有潜在价值的知识。根据中国互联网信息中心（CNNIC）最新报告显示，截至2011年6月，中国网民规模达到4.85亿，较2010年底增加2770万人；互联网普及率攀升至36.2%，较2010年提高1.9个百分点。我国手机网民规模为3.18亿，较2010年底增加了1494万人。手机网民在总体网民中的比例达65.5%，成为中国网民的重要组成部分。人们可以借助移动设备以及计算机，通过互联网寻找任何自己想要的信息，然而，互联网又是一个具有开放性、异构性以及动态性的分布式网络，其资源分布分散、管理结构不一，这就导致了知识获取的困难。如何准确识别并有效提取包含在Web网页中的正文内容是Web智能信息检索[1-2]、文档自动摘要[3-4]、用户浏览体验等诸多领域的重要工作之一。

2 基于DOM树的网页正文提取技术

目前在网页信息抽取技术中研究得最多的基于DOM的网页抽取技术，它历属于自动训练的研究方法，也是近些年来发展得最好的技术方法。DOM就是文档对象模型，全称为Document Object Model，它将HTML文档里的标签信息，如Table，List等利用起来，把文档解析成一个逻辑树型结构，节点就是对象。构建完DOM树后，通过将各个节点遍历，对各种非正文信息包括广告，链接群等识别并移除，移除完非正文信息后，正文内容就是DOM树中剩下的节点内容。

由于依赖于HTML文档里的标签结构的基于DOM树的算法，对于HTML规范语法的要求很宽松，所以不同的设计人员执行的规范程度不一样，比如标签的不匹配等。虽然这种不规范性对于HTML本身的执行不会造成问题，但却可能使构建DOM树的过程濒临崩溃。另外，更加重要的一点在于，解析DOM树的过程效率比较低。因为它会对文档中的每一个