基于关键长句及正文长度预分类的网页去重算法研究

龙源期刊网 https://www.360docs.net/doc/2a14899201.html,

作者：周杨

来源：《软件导刊》2012年第10期

摘要：伴随互联网所包含网页数目的剧增，转载现象变得相当普遍。作为提高搜索引擎服务质量的关键问题之一，网页去重技术已经成为网页信息处理最为重要的环节。在对传统网页去重技术进行研究的基础上，针对网页正文的结构特征，提出了一种基于关键长句及正文长度预分类的网页去重算法的核心思想。实验证明，该算法具有较高的召回率及准确率，在重复网页的过滤中有着较好的应用前景与较高的研究价值。

关键词：网页去重；关键长句；预分类

中图分类号：TP312文献标识码：A文章编号：1672-7800（2012）010-0048-03

作者简介：周杨（1979-），女，硕士，军事经济学院基础部计算机教研室副教授，研究方向为网络安全。

0引言

互联网的持续高速发展致使网站数目及其包含的网页数目均呈爆炸式增长。为了使用户在海量信息中快速找到自己感兴趣的内容，搜索引擎应运而生，其重要使命在于准确、高效地为用户反馈有用的搜索结果。而在网页数目剧增的同时，转载现象也变得相当普遍。据统计，中国互联网中网页的重复率高达40%，搜索引擎的搜索结果中常会出现很多重复记录，这些重复信息不仅增加了搜索引擎的存储负担及查询效率，也使用户的体验度大大降低。因此，如何快速、准确地发现内容相似的网页已经成为提高搜索引擎服务质量的关键问题之一，而网页去重技术也无疑成为网页信息处理最为重要的环节。

1网页去重技术的主要流程

网页去重即是将所搜集到网页中的镜像及转载网页去掉的过程。几乎所有的网页去重技术都是基于这样一个基本思想：为每个网页文档计算出一组指纹，若两个文档拥有一定数量的相同指纹，则认为这两个文档的内容重叠性较高，也即二者是重复网页。

网页去重的主要流程包括网页去噪、特征提取、编码压缩、网页相似度计算及相似文档聚类等5个基本步骤，如图1所示。其中，网页去噪负责剔除网页中的干扰信息（导航、广告等）并提取文档的正文信息，以便提高网页解析的准确度；特征提取则是从网页文档中提取出可以表征网页信息的特征值，它可以是网页中的若干个片段或若干个词语，这些特征值组成一