主题相似度与链接权重相结合的垃圾网页排序检测

合集下载

《页面相似度查询工具》降低网页相似度的方法

《页面相似度查询工具》降低网页相似度的方法页面相似度概念什么叫页面相似度?即两个网页的相似程度，包含页面文字内容，栏目版面结构，代码等。

页面相似度高的危害当两个页面的相似度在80%(有的也认为是70%)以上时，很有可能被搜索引擎判断为抄袭页面或复制页面，从而不被收录，甚至降权、删除。

常见影响页面相似度的因素网站的样板模板什么是样板文字?样板文字就是每个页面都出现的内容。

很多网站都放置了横排导航，信息分类，然后在底部再添加一个导航;很多网站在底部布置了很多联系信息、公司荣誉等一些内容;网站出现通用链接、友情链接的全站输出，这样都是增加了样板文字，还有网站的分类，固定版面栏目都属于样本文字。

2、采集内容或者伪原创很多SEO做网站优化，更新内容就是采集或者伪原创，那么这些内容就是互联网的重复内容。

以产品中心频道为例，很多产品站都是以图片为主的，而搜索引擎不会识别图片内容，那么我们就可以适当的增加内容，比如说产品规格、参数、性能、使用方法、注意事项等，总体思路就是：增加原创内容，稀释相似内容占整个网站都比例，就是降低网站相似度的一个好办法。

3、重复的页面标题有些网站首页标题、目录标题，甚至内页标题都是一样，这样的相似度，就会造成点击下降，流量减少。

重复标题的出现，一般都是程序调用的问题，制定好调用规则，修改一下就可以了。

降低页面相似度的方法：1、使用《页面相似度查询工具》检测页面是否合格这类工具目前比较好的有两个，一个中文一个英文的国内比较快/compare/国外的稍慢/similar—page－checker.php2、增加原创内容原创的东西是绝对独特的，增加网站原创内容可以有效降低网页相似度，各大主流搜索引擎也喜欢这样的网站。

2、放入图片或者flash可以将相似的页面内容放进这些里面，哪怕是相似的，你也不用担心。

3、将一样的部分放进JS里面因为JS不会被搜索引擎认为是很有用的代码，所以你可以将相似的页面放进JS里面，对于百度来说，JS都是不可见的。

网站垃圾内容的识别以及处理方法

如何识别网站垃圾内容观点一：抄袭的文章就是垃圾内容还是拿最大牌的搜索引擎百度来说吧，2013着实是一个与众不同的年份，无论是绿萝，还是石榴，都让很多站长的排名深受影响，绿萝算法说白了就是针对链接作弊，当然，这其中肯定会有些是属于误伤，除此之外，在去年年底的时候，百度还推出了了一个所谓的星火计划，主要就是支持原创性站点，这样一来，不少朋友，都会不由自主的觉得，抄袭的内容就是垃圾内容。

观点二：浏览时间短的文章是垃圾内容第一种是表面的判断，是否是抄袭，只要搜索一下，立马就能判断，第二种观点，是看页面的访问时间，有的朋友觉得，对于网友有价值的内容，网友就会停留更长的时间，所以，浏览时间短的内容，肯定就是垃圾内容。

关于上面所提及到的低一点和第二点，我并不完全赞同，首先说，自从搜索引擎推出了“支持原创”的说法之后，有多少人开始进行所谓的“原创”工作？不得不说，对于很多人来讲，“原创”和“伪原创”已经混淆，甚至有人说高质量的伪原创就是原创！或许从字面上来看，颠倒且替换之后的语言的确不同，但是对于网友来说，看到的是一篇基本无价值的“废话”。

而且有的时候，网站编辑对于一些不甚熟悉的名字，还会自作主张的替换或者更改，甚至为了凑字数而减少一部分文章，这样让人读起来更加的晦涩难懂，甚至会将网友引导到一条错误的道路上，如此一来，原创还不如直接抄袭更对读者有价值。

第二种观点，相对比与第一种，的确有了层面上的提升，不再从表面看事情，能够深入一些，不过我还是觉得不过全面，为什么这么说呢？比如说想要寻找某个汉字怎么读，或者想知道列车到站时间，我只要搜索一下，答案尽在眼前，我找到了我需要的答案，难道好要在留下来？难道有一大堆文字，我找半天才找到启动时间的页面会比一个直接展示出时间的页面更利用用户体验？本文档由pp外包网（）整理显然，抄袭的内容不能够说是垃圾内容，浏览时间长的内容也不能说是有价值内容。

那么，如何找到网站的垃圾内容呢？小编以为，访问次数是判断垃圾内容的最关键因素。

PageRank算法

PageRank算法1. PageRank算法概述PageRank,即⽹页排名，⼜称⽹页级别、Google左側排名或佩奇排名。

是Google创始⼈拉⾥·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法，⾃从Google在商业上获得空前的成功后，该算法也成为其他搜索引擎和学术界⼗分关注的计算模型。

眼下许多重要的链接分析算法都是在PageRank算法基础上衍⽣出来的。

PageRank是Google⽤于⽤来标识⽹页的等级/重要性的⼀种⽅法，是Google⽤来衡量⼀个站点的好坏的唯⼀标准。

在揉合了诸如Title标识和Keywords标识等全部其他因素之后，Google通过PageRank来调整结果，使那些更具“等级/重要性”的⽹页在搜索结果中另站点排名获得提升，从⽽提⾼搜索结果的相关性和质量。

其级别从0到10级，10级为满分。

PR值越⾼说明该⽹页越受欢迎（越重要）。

⽐如：⼀个PR值为1的站点表明这个站点不太具有流⾏度，⽽PR值为7到10则表明这个站点很受欢迎（或者说极其重要）。

⼀般PR值达到4，就算是⼀个不错的站点了。

Google把⾃⼰的站点的PR值定到10，这说明Google这个站点是很受欢迎的，也能够说这个站点很重要。

2. 从⼊链数量到 PageRank在PageRank提出之前，已经有研究者提出利⽤⽹页的⼊链数量来进⾏链接分析计算，这样的⼊链⽅法如果⼀个⽹页的⼊链越多，则该⽹页越重要。

早期的⾮常多搜索引擎也採纳了⼊链数量作为链接分析⽅法，对于搜索引擎效果提升也有较明显的效果。

PageRank除了考虑到⼊链数量的影响，还參考了⽹页质量因素，两者相结合获得了更好的⽹页重要性评价标准。

对于某个互联⽹⽹页A来说，该⽹页PageRank的计算基于下⾯两个基本如果：数量如果：在Web图模型中，如果⼀个页⾯节点接收到的其它⽹页指向的⼊链数量越多，那么这个页⾯越重要。

搜索排名原理

搜索排名原理
搜索排名原理是指搜索引擎根据搜索关键词的相关性和网页的质量来确定网页在搜索结果中的排序位置。

搜索引擎通过爬虫程序来收集网页内容，并将其存储在搜索引擎的索引数据库中。

当用户输入关键词进行搜索时，搜索引擎会根据索引数据库中的网页内容进行匹配，并根据一系列算法来判断网页的相关性和质量，最终将最相关和最有价值的网页排在搜索结果的前面。

搜索排名原理主要包括以下几个方面：
1. 关键词匹配：搜索引擎会根据搜索关键词与网页内容的匹配程度来确定相关性。

网页中出现关键词的频率和位置、关键词的相关性以及搜索关键词的语义理解都会影响关键词匹配的结果。

2. 网页质量评估：搜索引擎会根据网页的质量指标来评估网页的价值。

这些指标包括网页的内容质量、外部链接的数量和质量、网页的访问量以及用户对网页的互动行为等。

高质量的网页更容易得到搜索引擎的青睐，排名也会更靠前。

3. 用户体验：搜索引擎也会考虑用户的体验，将用户喜欢的网页排在前面。

用户的点击率、停留时间和跳出率等指标可以反映用户对网页的满意程度，搜索引擎会根据这些指标来调整网页的排名。

4. 历史数据：搜索引擎还会根据用户的历史搜索记录和对网页的反馈信息来调整网页的排名。

如果用户经常点击某个网页并
且对其评价良好，搜索引擎可能会将该网页排在更靠前的位置。

同样，在用户搜索时，搜索引擎也会根据用户的历史搜索记录提供个性化的搜索结果。

综上所述，搜索排名是一个综合考虑关键词匹配、网页质量、用户体验和历史数据等多个因素的结果。

搜索引擎通过不断优化算法和改进搜索策略，力求为用户提供最精准和有价值的搜索结果。

新的网页评判标准判断网页等级mozRank

新的网页评判标准:判断网页等级mozRank本文由高端网站建设公司提供mozRank是由Seomoz提出来的一种判断网页等级的概念，单单从单词意义上看，mozRank跟Google提出的PageRank很像，事实上，mozRank就是模仿的PageRank 而提出来的一个新的网页评判标准。

mozRank通过抓取互联网上的超链接，存储到自己的数据库中，然后根据这些链接直接的链接关系来判断某个网页的等级。

影响mozRank的因素，一个是链接向这个页面的外链的数量，理论上来讲，获得的链接越多，则mozRank越高，另一个影响因素是链接源（即链向这个页面的网页）的权重，权重是个很抽象的东西，但是打个比方就很容易理解了，比如一个普通博客链向你的网页肯定不如新浪、百度这种“大”网站（权重高的网站）链向你的页面。

笔者可以断言，绝大部分站长都很熟悉RageRan但不知道mozRank是啥玩意，即便是SEOers也未必很了解mozRank，也许只是知道有这么个概念，甚至你安装的SEO工具条里面有这一项，但却从没被关注过。

所以，笔者在网上搜集了一些资料，结合自己的一些经验，来说说mozRank。

就像文章开头我说的那样，mozRank是模仿Google PageRank的，也是根据链接来计算页面等级的。

不论是PageRank还是mozRank，都是建立在外链的基础上的，那么首先就需要收集互联网上的外链。

收集的步骤跟大多数搜索引擎一样，派出自己的抓取蜘蛛，整天在互联网上爬行抓取互联网上的超链接。

收集完之后就要建立索引数据库，mozRank的链接数据库被称为Linkscape，主要作用就是存储蜘蛛抓取来的超级链接，截止到2009年11月，Linkscape总共存储了1.5万亿个URL，8千亿个超链接，这个数据是2009年的，我在网上找了好久都没找到最新的数据，所以就将《SEO实战密码》里面的数据拿来用了，虽然没有最新数据，但是可以肯定的是，Linkscape存储的数据量肯定是在上升的。

如何进行SEO网站测试和评估

如何进行SEO网站测试和评估SEO（Search Engine Optimization）是指优化网站，使之符合搜索引擎的排名算法以提高站点排名并吸引更多的自然流量。

对于网站管理员而言，SEO是一项非常重要的工作。

SEO工作不仅需要不断调整和优化，同时也需要建立一套合理的评估机制，及时了解自己的SEO工作是否取得了预期的效果。

本文将介绍如何通过常用的SEO测试和评估手段来检测和提升SEO效果。

一、SEO基本测试1. 搜索引擎爬行测试在SEO优化之前，我们需要测试搜索引擎是否能够成功爬取我们的网站，同时了解爬行的深度和频率等基本信息。

现在，搜索引擎提供了一些免费的工具，如Google Webmaster Tools，Bing Webmaster Tools等，可以帮助我们完成这项测试。

2. 站点结构测试站点结构是指网站的布局、目录结构、导航设计等方面，它对SEO排名产生很大的影响。

站点结构要合理、清晰、易于访问和导航，同时在HTML代码中也要体现出这些结构。

通过对站点结构的测试，我们可以做到以下几点：（1）确定网站的主题（2）确定内部链接的质量和数量（3）确定是否需要重定向等操作3. 关键词测试关键词是指搜索引擎中用户查询的关键词，也是我们SEO排名的重点。

在SEO优化之前，我们需要对关键词进行测试，根据搜索量和竞争度，确定关键词的重要程度和数量，才能做出有效的优化策略。

二、SEO进阶测试1. 网站速度测试网站速度对于SEO优化来说非常重要，直接影响用户体验和搜索引擎的爬行速度。

加快网站速度需要优化页面代码结构、压缩图片等。

网站速度测试可以使用Google提供的PageSpeed Insights 和YSlow等工具。

2. 监测网站排名网站排名直接关系到用户访问量和网站的收益，因此，及时了解网站排名情况保持排名是网站管理员应当做的重要工作。

有些工具如Google Analytics、SEMrush等可以帮我们监测排名和流量。

基于网页分块思想的PageRank算法研究与优化

先定义块级矩阵Ａ，后对建立的块图Ｇ然的权重矩阵ｗＢ一归化行向量，建一个概率转移矩阵Ａ，表示网页之间通过块的构以转移慨率。
假设用户随机浏览网页时，一种是通过输入ＵＬ或随意第Ｒ
５判断是否达到要求处理的粒度。如果本层次的语义块中）
存在ＤＣ值小于Ｐｏ的语义块则转向② 中继续新一次循环。ｏｄＣ６如果＜ａｌ＞签树的最大深度比ＰＤｅ高，）ｔｂｅ标Ｔｏ切分过细，
ｗ是个概率转换矩阵，其中权重值表示网页块ａ通过链接跳转到另一网页Ｂ中的块ｂ的概率。
ｆｂ＝ｒｉ（）ｉ（）ｎ）ＯＳｚｂ／ｚＰ（．ｅＳｅ（）４
预处理，构造一棵兄弟一孩子结点树，每个结点都是＜ａｌｔｅｂ＞标签（如果＜ｉｄｖ＞标签多于＜ａｌｔｅｂ＞标签，则构建＜ｉｄ＞树）结点保ｖ，留字体大小、细、粗颜色、背景等信息。・
技术平台
网页关系图定义为Ｇ（ｐＥ，）其中顶点ＶｐＶ，ｐＷｐ，ｐ为网页
科技经济市场
４块级ＰｇＲｎａｅａｋ算法的改进与优化
块级ＰｇＲｎａｅａｋ算法建立在网页分块的基础上，分块效果直接影响ＰｇＲｎａｅａｋ排名值的好坏。由于网页格式及视觉特征的复杂性，ＩＳ算法分块过程复杂，序实现困难，ＶＰ程而且效率不高。针对这些缺陷，本文提出通过快速构造＜ａｌｔｅｂ＞或＜ｉｄｖ＞标签

网络搜索引擎的排名算法及效果评测方法

网络搜索引擎的排名算法及效果评测方法引言：在现代社会，互联网的普及和快速发展使得人们越来越依赖于网络搜索引擎来获取信息。

搜索引擎的排名算法是决定搜索结果排序的关键技术，影响着用户对搜索引擎的体验和使用效果。

本文将探讨网络搜索引擎的排名算法，并介绍一些评测方法来衡量搜索引擎的效果。

一、网络搜索引擎的排名算法网络搜索引擎的排名算法是指根据一定的规则和算法，通过对网页内容的分析和处理来确定搜索结果的排序。

搜索引擎的排名算法通常考虑以下几个方面：1. 目标页面的相关性：搜索引擎会根据用户的关键词来匹配网页的相关性，即网页与搜索关键词的相关程度。

相关性通常通过词频、位置和文档内链等因素来评估。

2. 页面的权重：权重反映了页面的重要性。

搜索引擎会根据页面的权重来确定搜索结果的排序。

权重的计算通常是通过链接分析算法，如PageRank算法来确定。

3. 用户体验：搜索引擎会考虑用户的点击行为和满意度来调整搜索结果的排序。

例如，如果某个结果经常被用户点击，那么搜索引擎可能会将其排名提高。

以上仅是搜索引擎排名算法的一些基本考虑因素，不同的搜索引擎可能会采用不同的算法，并根据实际情况进行调整和优化。

二、评测搜索引擎的效果对搜索引擎的效果进行评测是了解搜索引擎性能和改进排名算法的重要手段。

下面介绍几种常见的评测方法。

1. 排序准确性评测：排序准确性评测主要是通过与人工标注的搜索结果进行对比，来衡量搜索引擎返回结果的准确性。

评测者根据一定的查询语句，针对一定数量的查询结果进行人工判断和标注，然后与搜索引擎的结果进行对比。

通过比较搜索引擎结果与人工标注结果的相关性和准确性，可以评估搜索引擎的排名算法的效果。

2. 用户满意度评测：用户满意度评测是通过用户的反馈和行为来评估搜索引擎的效果。

可以通过用户调查问卷的形式收集用户对搜索结果的满意度和使用体验，也可以分析用户的点击行为和停留时间等指标来评估搜索引擎的效果。

用户满意度评测是一个相对主观的评估方法，但也是衡量搜索引擎体验和效果的有效手段之一。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

主题相似度与链接权重相结合的垃圾网页排序检测作者：韦莎朱焱来源：《计算机应用》2016年第03期摘要：针对因Web中存在由正常网页指向垃圾网页的链接，导致排序算法（AntiTrustRank等）检测性能降低的问题，提出了一种主题相似度和链接权重相结合，共同调节网页非信任值传播的排序算法，即主题链接非信任排序（TLDR）。

首先，运用隐含狄利克雷分配（LDA）模型得到所有网页的主题分布，并计算相互链接网页间的主题相似度；其次，根据Web图计算链接权重，并与主题相似度结合，得到主题链接权重矩阵；然后，利用主题链接权重调节非信任值传播，改进AntiTrustRank和加权非信任值排序（WATR）算法，使网页得到更合理的非信任值；最后，将所有网页的非信任值进行排序，通过划分阈值检测出垃圾网页。

在数据集WEBSPAMUK2007上进行的实验结果表明，与AntiTrustRank和WATR 相比，TLDR的SpamFactor分别提高了45%和23.7%，F1measure（阈值取600）分别提高了3.4个百分点和0.5个百分点， spam比例（前三个桶）分别提高了15个百分点和10个百分点。

因此，主题与链接权重相结合的TLDR算法能有效提高垃圾网页检测性能。

关键词：垃圾网页检测；链接作弊；排序算法；主题相似度；非信任值传播中图分类号： TP181 文献标志码：A0引言随着互联网的飞速发展，网络信息数据不断膨胀。

搜索引擎已成为人们获取信息的重要途径。

然而，网页作弊者利用各种手段欺骗搜索引擎以获得高于其应得的排名，从而获取商业利益，这种行为称为Web spam。

研究发现，2011年垃圾网页比例已达到20%[1]。

随着Web 2.0的发展，用户能方便地在互联网上添加内容，使得作弊者能更方便地通过添加内容进行网页作弊[2]。

Web Spam带来的恶劣影响有：降低搜索结果质量，使用户获取不到有用的信息；影响搜索引擎的信誉，使搜索引擎公司以及合法网站等蒙受巨大的经济损失；传播垃圾内容、恶意软件，甚至进行钓鱼攻击等。

Web spam可分为内容作弊（contentbased spam）、链接作弊（linkbased spam）、隐藏作弊（cloakedbased spam）以及点击作弊（click spam）。

其中，链接作弊是一种常见的作弊手段。

由于搜索引擎使用如PageRank，超文本诱导主题搜索（HypertextInduced Topic Search，HITS）等排序算法进行网页重要性排序，因此作弊者常常通过构造链接工厂，在微博、wiki 上张贴链接以及黑客攻击等手段进行链接作弊。

为了抵制链接作弊，不少研究致力于反链接作弊技术。

其中，Trust和Distrust模型由于其只需要少量的种子集就可以得到高效的检测结果，被广泛认为是一种高效的反链接作弊技术。

TrustRank算法的基本假设是认为优质网页通常只链接到优质网页。

而AntiTrustRank则是认为链接到垃圾网页的网页很可能也是垃圾网页。

然而，这两个基本假设在真实的Web环境中往往不成立。

例如，作弊者通过在微博等网络平台上张贴指向垃圾网页的链接即可构造一个由正常网页指向垃圾网页的链接，使正常网页得到高的不合理的非信任值，从而削弱排序算法的检测性能。

文献[2]指出，链接作弊的主要手段就是产生正常网页链向垃圾网页的链接，而识别这类链接是识别链接作弊的重点和难点。

通过分析发现，在一般情况下，正常网页与被作弊者通过各种手段张贴链接的垃圾网页在内容上相似度很小，甚至没有任何关系。

本文针对上述问题，提出了一个AntiTrustRank和加权非信任值排序（Weighted AntiTrustRank， WATR）改进算法主题链接非信任值排序（Topic Link Distrust Rank，TLDR），将主题相似度权重与链接权重相结合，共同调节非信任值的传播。

通过在公共数据集WEBSPAMUK2007上对比实验证明，本文提出的主题相似度与链接权重相结合的排序算法比改进前的算法具有更优的检测性能。

如某学校网站（正常网站）由于被作弊者攻击而包含一个指向广告的垃圾网站链接，使其在AntiTrustRank 和WATR 中的非信任值被恶意提高，排名分别是158 和777，易被误判为垃圾网站。

而本文的TLDR 算法将其排在1070，可见TLDR 算法能大大减小正常网站受垃圾链接的影响，降低误判率。

Trust和Distrust模型是反链接作弊技术中一种高效的检测方法，但由于其存在不足，许多研究者在其基础上提出了改进方法。

Leng等[3]提出信任值传播排序（Trust Propagation Rank， TPRank）算法，通过改进信任值传播的初始化方法，提高了降级和检测的效果。

Goh等 [4]定义了一个权重函数，通过出链权重量化了主机相互影响的程度，有效提高了AntiTrustRank和Distrust算法[5-6]的垃圾网页检测性能。

由于网络中存在良好的网页指向垃圾网页的链接，即goodtobad链接，单独使用TrustRank或AntiTrust Rank都会使一些网页得到不合理的Rank值，同时，考虑到任何一个网页都有好的方面也有不好的方面，因此将两者结合起来传播是一种有效的方法。

Liu等[7]提出了GoodRank和BadRank，通过增加一个源节点的惩罚因子，对TrustRank和AntiTrustRank进行改进。

惩罚因子为利用每次迭代的GoodRank和BadRank计算的网页为良好或垃圾的概率，将TrustRank与AntiTrust Rank结合起来，相互制约，降低错误Rank值的影响。

Zhang等[8]提出的方法与文献[7]相似，也是增加惩罚因子，不同之处在于文献[8]的惩罚因子是基于目标节点当前TRank和DRank（对应于TrustRank和AntiTrust Rank）计算得到的概率（即目标网页好与坏的概率），使Rank值在目标节点端发生有差异的传播。

实验表明，该方法有效减小了goodtobad链接的影响。

除了调节传播权重的方法外，还有学者从链接结构的角度展开研究。

Yu等[9]通过用户浏览行为构建用户浏览图，最大限度地从Web图中去掉正常网页指向垃圾网页的链接，并通过实验证明在用户浏览图上进行的TrustRank排序效果优于原始的网络图。

此外，也有一些研究运用语言模型识别垃圾网页，并通过分类算法进行垃圾网页检测。

MartinezRomo等[10]利用语言模型得到相连网页的锚文本、URL等的相对熵KL距离（KullbackLeibler divergence），并结合其他特征进行垃圾网页检测。

Dong等[11]和Suhara等[12]基于语义分析，分别从网页级（pagelevel）和句子级（sentencelevel）提取基于隐含狄利克雷分配（Latent Dirichlet Allocation， LDA）主题模型的主题特征，并进行分类检测。

实验表明，主题特性在正常网页和垃圾网页间具有良好的区分度。

本文与上述方法的不同之处在于：上述基于排序算法的检测方法只运用链接关系进行链接作弊的检测，而运用语义关系的检测方法主要是提取语义特征并进行分类检测。

本文方法除运用链接关系外，还结合了主题相似度权重，使排序算法能更合理地度量非信任值的传播，从而更准确地进行垃圾网页检测。

3结语本文针对链接作弊的垃圾网页，设计了基于主题权重以及主题链接权重的排序检测方法。

本文方法主要贡献在于，从主题相似度与链接关系两方面综合度量相连主机之间的相关性，改进了AntiTrustRank和WATR算法，有效抵制通过张贴链接进行链接作弊的手段。

实验结果证明，本文的算法能将更多的垃圾网页排在前面，主题与链接权重的结合能使非信任值的传播更合理，因此能更有效地检测垃圾网页。

在今后的工作中可以从以下方面进行进一步研究：1）在最终的结果中，有2672个主机的非信任值为0，可以通过选择网络的边缘主机作为种子等方法减少值为0的主机数。

2）在主题和链接权重的结合上可以研究更有效的结合方法，如利用加权平均等方式将两者进行结合。

参考文献：[1]ERDLYI M， GARZ A， BENCZUR A A. Web spam classification： a few features worth more [C]// WebQuality 11： Proceedings of the 2011 Joint WICOW/AIRWeb Workshop on Web Quality. New York： ACM， 2011：27-34.[2]李智超，余慧佳，刘奕群，等. 网页作弊与反作弊技术综述[J].山东大学学报（理学版），2011，46（5）：1-8.（LI Z C， YU H J， LIU Y Q， et al. A survey of Web spam andantispam techniques [J]. Journal of Shandong University （Natural Science）， 2011，46（5）：1-8.）[3]LENG A G K， SINGH A K， KUMAR P R， et al. TPRank： contend with Web spam using trust propagation [J]. Cybernetics and Systems， 2014， 45（4）：307-323.[4]GOH K L， PATCHMUTHU R K， SINGH A K. Linkbased Web spam detection using weight properties [J]. Journal of Intelligent Information System， 2014，43（1）：129-145.[5]WU B， GOEL V， DAVISION B D. Propagating trust and distrust to demote Web spam [C]// MTW 06： Models of Trust for the Web， A workshop at the 15th International World Wide Web Conference （WWW06）. Edinburgh： WWW， 2006：1-9.WU B， GOEL V， DAVISON B D. Propagating trust and distrust to demote Web spam [EB/OL]. [20150411]. http：//rmatik.rwthaachen.de/Publications/CEURWS/Vol190/paper03.pdf.[6]NIE L， WU B， DAVISON B D. Winnowing wheat from the chaff： propagating trust to sift spam from the Web [C]// SIGIR 07： Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York： ACM， 2007：869-870.[7]LIU X， WANG Y， ZHU S， et al. Combating Web spam through trustdistrust propagation with confidence [J]. Pattern Recognition Letters， 2013，34（13）：1462-1469.[8]ZHANG X， WANG Y， MOU N， et al. Propagating both trust and distrust with target differentiation for combating linkbased Web spam [J]. ACM Transactions on the Web， 2014，8（3）：881-904.[9]YU H， LIU Y， ZHANG M， et al. Web spam identification with user browsing graph [J]. Lecture Notes in Computer Science， 2009， 5839： 38-49.YU H， LIU Y， ZHANG M， et al. Web spam identification with user browsing graph [C]// LEE G G， SONG D， LIN C Y， et al. Information Retrieval Technology， LNCS 5839. Berlin：Springer， 2009：38-49.[10]MARTINEZROMO J， ARAUJO L. Web spam identification through language model analysis [C]// AIRWeb 09： Proceedings of the 5th International Workshop on Adversarial Information Retrieval on the Web. New York： ACM， 2009：21-28.[11]DONG C， ZHOU B. Effectively detecting content spam on the Web using topical diversity measures [C]// WIIAT 12： Proceedings of the 2012 IEEE/WIC/ACM International Joint Conferences on Web Intelligence and Intelligent Agent Technology. Washington， DC： IEEE Computer Society， 2012，1：266-273.[12]SUHARA Y， TODA H， NISHIOKA S， et al. Automatically generated spam detection based on sentencelevel topic information [C]// WWW 13 Companion： Proceedings of the 22nd International Conference on World Wide Web. Geneva： International World Wide Web Conferences Steering Committee， 2013：1157-1160.backgroundThis work is supported by the Academic and Technological Leadership Foundation of Sichuan Province， China.WEI Sha， born in 1989， M. S. candidate. Her research interests include Web data mining.ZHU Yan， born in 1965， Ph. D.， professor. Her research interests include data mining，Web anomaly detection， big data management and intelligent analysis.。