搜索引擎如何识别伪原创的

合集下载

搜索引擎原创识别算法的技术细则

搜索引擎原创识别算法的技术细则前段时间参加武汉的一个seo圈子的小聚会,闲聊嗨皮之余,连同几个百度的工程师一起,具体的分析了下有关百度原创识别算法,在技术方面的一些细节,觉得蛮有意思的,就写出来大家一起沟通下,求拍矮个芝麻砖.搜索引擎为什么如此重视原创?早期的搜索引擎算法中,其实并没有原创这一项的判断.但是随着后来采集,转载的大规范泛滥,导致了用户很难搜索到自己真正想要的内容.大量的重复内容充斥在搜索结果中,让人眼花缭乱.首先,由于后期采集技术的兴起,大量的转载内容充斥网络.转载,必然会对原创产生一定的损伤,比如去掉图片,删掉一些重要的段落,或者充斥大量非原作者的注释信息.不管这么做是为了什么,但是都会降低内容的质量,使得一个关键词搜索到的内容前十几页都是同样的内容,也就使得搜索变的很无用.因此促使了搜索引擎对于原创内容进行分级显示.文章由整理.由于后期采集技术的逐渐强大,可以自动将一些同义词进行替换和修改,也就造成了转载文章的内容质量进一步下降.网络上充斥着大量的无法阅读的文章.也就更加促使了搜索引擎对于优质原创内容的筛选.其实让矮个芝麻最为纠结的一件事情就是,写了一篇文章,被人转走,改改头部底部,就变成了一篇很是霸气的文章.久而久之,很是打击作者对于文章创新的积极性.这也是搜索引擎费尽心机试图寻找到原创文章的源头,予以优先显示的最初原因.尊重作者的版权,否则一篇文章的被转载,大量的流量被引流到其他的网站,将会直接影响到作者的收益.搜索引擎如何判断一篇文章是否为原创?1.1转载的良心,转载保留外连,作者名,声明转载等个人觉得,这是一种纯良心的做法.因为在转载走的时候,删掉你的信息是很轻松的.当然,大量的采集可能不会删掉原作者留下的版权声明.这就给了搜索引擎一个很好的识别方式.首先,一般的门户在转载文章后,都会很礼貌的在标题后面留下一个[转]字.比较厚道一点的,还会在文章的底部或者头部留下转载源的链接.转载源不一定是原创,但肯定更加有利于搜索引擎寻找到这篇文章的最终源头.目前已知的做法的,标题留 [转] ,底部留原作者的文章链接,文章的信息中显示转载于那个作者或者网站.这是目前最为主流的识别方式.1.2技术层面的识别当然,这么有礼貌的转载也只是转载采集大军中的一部分.还有相当大的一部分转载,会掐头去尾改标题,外连作者就更不要提了,直接在采集过程中屏蔽替换掉.或许这是国人山寨采集的一种习惯吧,就像QQ的icq,百度的谷歌,支付宝的贝宝...所以说对于这种行为,在这咱也不予评价.搜索引擎对于这类文章的识别方式就更多的是通过技术层面的东西.最为优先级的就是,那篇文章优先被搜索引擎蜘蛛抓到.同时,文章中留下的时间,对于百度蜘蛛来说是有迷惑性的.也就是说你转载一篇5月18号发的帖子,把时间改成5月16号,百度蜘蛛是有一定概率被欺骗的.同时,对于改标题这方面,百度有一个很模糊的算法.具体的做法就是对比标题和内容的关联性.具体的判断做法尚不清楚,但根据以往的经验来看,如果标题和内容完全没有关系,这篇文章很容易被百度忽视掉.这就说明搜索引擎对于这方面还是有一定的识别度的.同时,对于略有区别的两篇文章,百度可以根据内容的通顺程度,判断出哪一篇的质量更高.采集内容很难识别,搜索引擎的算法有待提高到这,很多人可能觉得搜索引擎的识别算法已经很强大了.但是事实是,采集的文章还是很难被识别.1.1采集工具的伪原创学习能力很强大因为现在的采集工具对于同义词,语句是否通顺的机器自我学习能力也是很强大的.现在采集的一篇文章经过采集工具的处理,即便是个人,也只是觉得语句略微僵硬,也很难感觉出这篇文章是出自软件之手,所以这也是搜索引擎目前很头痛的一点,因为这种文章的质量,毕竟要比原创差太多了.1.2网页结构过于复杂,html结构难以识别虽然有很多的网站在做符合搜索引擎优化方面的规范,但是内容区域和栏目,热门主题的推荐,广告等内容在html中的分离并不明显.这也就增加了搜索引擎对于内容的读取后的识别分离.通过web手机版的优化阅读就可以看出,目前百度其实还是会经常会无法区分哪些是文章的标题,哪些是作者,内容,发布时间等.这也就造成了最终对于原创内容的对比,存在一定的偏差.1.3文章制造工具,直接生成原创文章目前网络上流行着很多原创文章制造工具,比如直接从英文文章利用谷歌翻译翻译过来,利用语句的匹配自动匹配出一篇对于搜索引擎的蜘蛛看来是一篇完美的文章,但是对于用户来说,除了大量的关键词堆砌,毫无意义.。

你的伪原创真的骗到了搜索引擎吗

你的伪原创真的骗到了搜索引擎吗做网站的王道就是内容和外链，而相比起外链的构建，网站内容的添加有时更让站长们头痛。

原创内容大家都知道是好东西，就是不容易弄到，自己写的话会耗费大量的时间，也不一定写得好。

而一味采集和重复别人的内容的话，就会变成搜索引擎所讨厌的垃圾站。

伪原创就是介乎于两者之间应运而生的。

所谓的伪原创，简单来说就是欺骗搜索引擎，让它以为你转载的内容就是原创内容。

伪原创的方法一般是在原作者的文章上修改标题，替换同义词，增加或删减一些语句，重写首段和尾段，修改段落的次序等来达到区分原来文章的目的。

很多人认为，只要经过以上这些步骤的修改，文章就成为独一无二了，搜索引擎也认不出那是别人的文章，伪原创也就能成功过渡成原创。

但我不禁要问了，这是不是我们的一厢情愿啊?搜索引擎真的认不出吗?它又是怎样判断文章是转载还是原创呢?其实我们可以用一个简单的模型来解析搜索引擎如何判断内容是否转载。

搜索引擎会把收录在数据库两个相近内容A和B各分成N块独立的区域，并对其一一比较，当这些区域相同部分的数目超过了搜索引擎所设定的阀值M时，搜索引擎就会认为A和B是互为转载的内容。

这里把内容分成N块区域，就是指搜索引擎的分词技术，而判断重复区域是否超过阀值M，就是指搜索引擎的索引技术。

当然，N和M的值是搜索引擎自己的算法设定的，不同的搜索引擎也不同，我们更是无法知道，不过我们可以从上面的模型窥探出很多有用的东西。

首先，N值和M值决定了搜索引擎判断转载内容的能力。

当N值越大，M值越小时，搜索引擎辨别转载内容的能力就越高;反之，就越低。

而这两个值是由算法间的协调，算法所消耗的资源等多方面决定的，所以搜索引擎不会一味追求高的辨别能力。

其次，从模型中可以看出上面所提到的伪原创办法对搜索引擎并奏效。

搜索引擎是通过分区来判断内容的重复性，跟内容的次序没有关系，所以修改段落次序的方法是肯定行不通。

而其他的几种伪原创方法，包括增减、替换和重写内容等，它们有效性一定程度上由N值和M值大小决定。

原创内容重要性以及如何分辨

原创内容重要性以及如何分辨一个网站原创内容越多，当然得是搜索引擎认为是原创的才行，搜索引擎也会给予更高的权重，这个原创文章搜索引擎是如何识别的呢？越来越多的原创，权重也就越来越高，排名也就越来越好了。

我想通过标题与内容的这样枢纽词匹对，只要进行足够次数的匹对，大胆勇敢扩展相关数据库匹对范围，一篇文章是不是原创就能分辨出来了。

那么原创内容的重要性是什么以及如何分辨呢？网站的原创内容越多，搜索引擎会越喜欢，网站排名就会越靠前，所以很多编辑同志们就开始挽袖叉腰的搞起了原创，但是时间过去了，网站并没有见到明显的效果，所以就有很多人就开始总结经验说原创内容对网站在搜索引擎上的排名没有作用，例如我转载的上的文章同样能被搜索引擎收录！快照日期。

百度抓取文章后，在数据库当中进行比对，并不会立即放出来，真正放出来的时候，我们能看见的就是快照。

快照最新的蜘蛛就认为你是你的原创。

这里说一下搜索引擎是怎么分辨的，其实搜索引擎对某些字符是直接过滤的，比如，“的”“得”“吗”“了”还有一些语气词，当搜索引擎搜到一篇软文的时候，首先过滤到这些东西，剩下的就是一些词组了。

比如老师，讲果，分辨，采集等等。

这里有一个密度的问题。

同样当搜索引擎搜到一篇伪原创的文章时，由于伪原创是经过修改的，词的密度肯定不一样，这样搜索引擎就可以分辨了。

当然搜索引擎是机器它分辨不出是什么内容和意思，它只是单纯的通过计算来分辨。

不过这并不代表你可以乱写内容，来增加原创性。

因为还有一个内容相关度的问题，搜索引擎这个是分辨的出来的。

文字顺序：如果两个文本的信息指纹完全相同的话，理论上可以认为两个文本完全一样，但是实际上却不是这样，既然搜索引擎会截取一定的字符作为信息指纹的基础，那么通过打乱这些字符的顺序也可以得到不同的信息指纹。

引擎会把截取到的标题按这个相关搜索词去他的数据库中一一分析匹对。

举个例子吧，从标题中取到光标阅读机这个词，然后和相关搜索词匹对，假如数据库中已经存有了这个标题，就会以为此标题不独一，待匹对文章内容。

如何辨别文章是否原创

辨别文章是否为原创的方法
随着百度火星计划的推出，支持原创的力度更加大了，致使现在很多朋友都喜欢购买原创文章。

但什么样的文章才算得上原创文章，本文下面将对此详解下：
原创文章是指在搜索引擎的数据库中没有的文章，这样的文章会被搜索引擎所喜爱，而非原创文章，就算搜索引擎收录了，在不久后也会有很大概率被删除。

(因搜索引擎没必要同一篇文章在自己的数据库中保留多份，这样只会增大它得服务器压力。

)
而原创文章的检测方法一般都是用文章中得某一段话在搜索引擎上进行搜索，看看有没有完全匹配，如果有的化，可以证明此文已经非原创了。

一、如果检测的效果如下图一样，只有切词形式的匹配效果、部分匹配或广泛匹配的，则证明该文很大程度上是原创文章。

(为了确保准确性，可以多次实践)
二、如果出现了下图这样的精确匹配的形式，则很大程度上为非原创，但也有可能是某段语言比较知名，大家都在用，所以重复了(为了确保准确性，可以多次实践)
通过上面两张图，大家应该能够清晰的理解到如何分辨原创文章了吧！。

百度如何识别伪原创(转载)

百度如何识别伪原创(转载)搜索引擎在抓取内容之后，会首先剔除掉文章中的一些非特征信息关键词：我、你、他等称谓，而且、但是等连接词，了、么、呢、吧、啊等语气词。

但事实是这种方法同样是没有效果的，由于搜索引擎抓守信息指纹后与整个数据库进行比对，不同段落的信息指纹仍是能够在数据库中找到相同的指纹。

信息指纹技术在百度百科中的解释是：就是提取一个信息的特征，通常是一组词或者一组词+权重，然后根据这组词调用特别的算法，例如MD5，将之转化为一组代码，这组代码就成为标识这个信息的指纹。

这里圣源科技只是简朴的给大家说说信息指纹技术，至于深层次的一些技术，例如是如何提取这些关键词的，因为个人技术浅薄，不是专业研究搜索引擎的，所以对于这些深层次的技术就不是很了解了。

所以有些时候，我们在下载的小说中加入关键词，最后却能够得到很好的收录，原因就在于其因为信息指纹的不同，被搜索引擎以为是原创内容。

但是从用户体验的角度来说，这样的文章可读性不高。

文章拼合，将相同主题的不同文章进行段落的拼合。

这些词对于信息标识是没有匡助的。

站内内容的更新对于网站来说长短常重要的，内容讲究原创性是我们平时在进行内容建设时特别需要留意的地方，但是搜索引擎如何判断原创内容呢?今天圣源科技将给大家说说搜索引擎的信息指纹技术。

根据信息指纹技术，这样的修改是无效的，我们要想让搜索引擎以为我们的标题不同，则需要比较大的改动。

“内容为王，外链为皇”这句话，相信任何一个从事SEO工作的人都是知道的，由此可见，内容和外链对于上海百度优化的重要性。

内容段落的错落排序，将别人的文章段落进行倒置，或是文章中的一些文字结构进行倒置。

例如我可以将原标题修改为“搜索引擎判定伪原创内容的尺度”，这个标题就更轻易被搜索引擎判断为原创。

这个就要说到我们图片中的内容了，前面一列的指纹是原来文章的指纹，而后一列是强行添加SEO关键词后的指纹，显著能够看到指纹泛起很大的变化，所以这种方法是有效的。

搜索引擎如何识别伪原创的

在要写这篇文章之前我去搜索了一下：搜索引擎如何识别伪原创的，结果搜索出来的几篇文章，虽然有几篇是相同的，但是能真正提到点子上的，还没有，所以决定把自己所了解的拿出来分享一下。

伪原创一般出现在一些个人站长和一些中小型网站上，因为他们不可能花出大量的时间去原创文章，但是又为了能提供更新量，所以就去找很多文章进行修改用伪原创来满足网站更新的需求。

甚至到后来都出现了一些伪原创的工具，这些工具的做法无非就是替换一些关键词，比如把：怎么，替换成如何，把搜索替换成查询，检索，把大概替换成大约等等。

我们不能否认有些网站确实是靠伪原创发展起来了，但是真正想靠伪原创把一个网站规模做大，其实是件很难的事情，有可能某一天，你的收录突然为0，或流量突然为0了。

那么搜索引擎是如何识别原创和伪原创的呢？我这里总结了几点和别人不同的观点拿出来和大家分享一下。

首先来说一下我们公司正在开发的一个搜索引擎流程，为了更简化的说明我只把他分成三个大部分，具体处理细节我们暂不讨论，这三部分分别是：蜘蛛程序，预处理程序，索引程序。

蜘蛛程序这个相信大家都懂，互联网的最基本元素是网页，网页与网页之间有链接，所以就形成了一个巨大的网络，有一种程序会从一个起点出发无限次的打开链接把所打开的网页保存到本地服务器，然后再无限次的打开网页，永无休止，这种程序我们叫网络爬虫程序，也叫网络蜘蛛。

其实写一个蜘蛛程序是很简单的，在我所熟知的任何一门语言里，从打开链接到请求到返回的html数据加起来的代码基本都不会超过十行，但是这里面设计到一些逻辑问题，比如一些网站里的相对地址，以及外部链接，这些都要在蜘蛛端分析抓取，因为蜘蛛在定向抓取的时候会先以网站为基本单位，等本网站的网页都抓取完毕之后再打开所连接的外部网页进行抓取，所以说蜘蛛在碰到外部连接的时候会把一些信息存储到本地数据库中，以便处理完网站信息之后再进行下个单元的抓取另外这个信息也会在预处理的时候用来计算网站权重。

搜索引擎如何识别原创

搜索引擎如何识别原创各大搜索引擎为了进一步提高用户体验度，不断在加强对原创内容的审核以及展现，那么，何为原创内容呢?南京网站建设公司虽然原创内容的定义很明确，但是对于搜索引擎而言，是一种机器语言算法，是结合诸多因素进行判别。

我们在网站运营过程中也有所体会，把握不少细节就能够总结许多经验，在这里就谈谈小编这几年的丰富经验，当然也有很多不足之处，望同仁们指出，促使自己更加不断的成长，以下是个人见解，还望相互交流学习，共同进步。

搜索引擎判断原创的标准：1、服务器时间或蜘蛛爬行抓取时间内容是否原创判断的重要依据之一便是更新的时间先后，因此搜索引擎为根据内容更新时间去深入判断，也就是通过掌握服务器时间来把握，当然更应该结合各大蜘蛛对URL的爬行抓取时间做出更为精确的判断，当然由于蜘蛛爬行抓取是机器语言，相比大脑而言，还是不够机灵的，因此也存在原创内容判断失误的情况，当然为了弥补和改善这一情况，各大搜索引擎也推出相应的解决工具，比如：百度搜素引擎中的ping服务能够让搜索搜索引擎第一时间掌握内容更新时间。

2、搜索引擎切词检索目前各大搜索引擎在判断内容是否原创时，最为重要的依据还必须是进行切词进行检索，通过数据库进行信息对比，是否存在重复性，通过此类方面对原创内容的判断相比而言较为准确，当然至于切词进行检索，有可能是某一句，某一段或者更多，相信随机性的可能性比较大，至于具体的情况需要深入了解搜索引擎机制了。

原创内容的重要性很大，直接影响到网站的权重，故原创内容重点应该把握搜索引擎机制，当然用户才是第一位，两者也可兼得。

3、百度原创识别起源算法针对原创识别的问题，各大搜索引擎也在逐渐发力，比如：百度原创识别起源算法，首先主要是通过内容相识度来进行聚合存档建立数据库，其次进一步结合网站自身原创情况、作者口碑、发布时间、链接指向、用户评论、转发轨迹等多种因素进行判断，最后通过价值分析最终进行排序展示给搜索用户。

当然由于诸多因素共同作用，同样也存在许多失误，只能说解决大部分所需，起源算法还在不断完善中。

搜索引擎识别伪原创或重复文章的四大方法

1、TF/IDF算法这是一种常用的计算相似度的算法。

TF是Term Frequency的缩写，译成中文是词频，指的是某一个词在文章中出现的次数；IDF是Inverse Document Frequency的缩写，中文译成反文档频率，IDF越大，表明这个词在其它文章中出现的次数很少，说明这个词有很好的类别区分能力。

将两篇文章分别用TF/IDF算法计算后，各产生一个内容特征向量，如果两篇文章的特征向量相近，搜索引擎就认为这两篇文章的内容相似，如果两个特征向量一致，就认为这两篇文章是重复的。

2、信息指技信息指纹技术是指搜索引擎截取一段文字信息，通过然后根据这组词调用特别的算法，例如MD5，将之转化为一组代码，这组代码就成为标识这个信息的指纹。

如果两篇文章的信息指纹相同，搜索引擎就认为这两篇文章是重复的。

这些信息可能是标点符号，可能是一个词，也可能是一个句子、一个段落。

通常一篇文章会对应多个信息指纹，因此单纯的词语替换（同义/反义）、打落段落顺序等伪原创手法是骗不了搜索引擎的。

3、文章与站点主题的相关性百度等搜索引擎在收录网站的时候，就已经为每个站点划定了主题范围。

如果某篇文章的主题与整个站点的主题相关度很低，比如你的站是一个做化妆品评测的站，其中却有篇文章是说挖掘机性能的，这样与整站主题不相关的文章也容易被搜索引擎认为是重复内容。

搜索引擎喜欢独特的原创的内容，在这里也提醒广大站长，在做关键词布署时一定要注意主题相关，站内不相关的文章或者网页占到一定幅度，就可能引发搜索引擎的反作弊机制，被降权甚至K站。

4、借鉴二次搜索率、跳出时间等数据判定伪原创文章，尤其是程序生成的伪原创文章，它的阅读体验是非常差的。

大家可以想象，用户如果在搜索时点击了此类文章，一定会很快的跳出页面，点击其它搜索结果，或者搜索另一个关键词。

搜索引擎通过数据监测到用户的这种行为，也可能会判定这篇文章是伪原创文章。

中山网站建设- 翔宇网络整理。

百度区分原创与伪原创文章的标准

百度区分原创与伪原创文章的标准如果你从事互联网行业，一定听说过伪原创这个词，很多网站的文章并不是自己的原创文章，而是转载过来的，有些也不是直接转载，而是将别人的文章稍微修改之后发表在自己的网站上，我们称之为伪原创。

百度是如何区别原创与伪原创文章的呢？有没有什么标准？宜昌百慕达科技的工作人员就大家的疑问，给大家进行了简单的介绍。

区分标准一：文章锚文本链接如果同一篇文章被很多网站转发，而且文章内部的锚文本链接都指向同一个网址，这样就会使百度认可，认为这是原创文章。

原创文章对网站的发展是有很大帮助的，尽量多发原创文章在网站上。

区分标准二：关键字频率我们首先要了解信息指纹这个词，它类似于人的指纹。

站长、百度会截取相应的文字，然后根据一些算法，将文字及其权重设为编码，这些文字的可能性比较多样化，可能是几个字符，也可能是一句话，还可能是几句话。

每一篇文章都对应了多个信息指纹，百度会通过信息指纹信息来判断文章是否为原创。

区分标准三：文字次序上面我们介绍了信息指纹，如果两个信息指纹相同，我们就可以认定文本相同。

但是事实上也有一些例外，百度会截取选定的字符作为信息指纹的编码，如果将这些字符的次序稍微调整一下，就可能会获得不一样的信息指纹，这样判断就会不准确。

区分标准四：文章的发布时间我们常会看到多个网站中有同一篇文章，如何认定谁才是这篇文章的发布者呢？百度会根据文章发布以及收录的时间来进行判断，文章发布以及被百度录入时间越早，越容易被百度认定是原创，其他网站则是伪原创。

通过以上的介绍大家会发现，很多伪原创办法都不可靠，大家要避免使用这些办法。

修改段落次序就是最低级的伪原创方法，不能起到很好的作用。

还有的网站使用图像替换终止词，或者是替换标点符号，这种方法对百度没有什么用，但是对用户还是有一定作用的。

有些网站会采用关键词更换的方法，将文章中的一些词用近义词代替，这种效果也不是很好，文章在更换关键词后缺乏了可读性，有点得不偿失。

搜索引擎是如何来分辩内容原创与伪原创

1 、快照日期。
2ห้องสมุดไป่ตู้、蜘蛛抓取日期。
3 、页面外链的多少。
4 、文章修改的程度。
二、举个例子假如你在这个网站上发布了一片文章内容。搜索引擎来到这个网站并且抓取到了这篇文章，放到数据库，并且在收录数据库中没有发现类似内容，那么就会被以为是原创。
2、快照日期
快照日期显示时间最早的，一般就是原创了吧 !
不一定，这个说法要在一个更新周期之内，好比说文章发表后一周内，快照时间越早的地址将越有被认可为原创的可能。但假如文章都发表了几个月了，说不定搜索引擎已经重新获取过快照了，快照的日期就变了 !
还有其它的可能吗 ?有，一般好比收录，他可能会有一个收录的数据库，经由过滤后，收录的内容才会到搜索结果里来。在这个期间就有一些题目了，好比 A 站首次发表， B 站转载。蜘蛛先访问 A站再访问 B 站。而后可能先把 B 站的结果放出来了，而 A 站还在数据库里。所以说搜索引擎没有收录并不表示搜索引擎蜘蛛没有访问过这些内容，也许在搜索引擎的库存里已经有记实了，只是你查的时间没有放出来而已，就像 25 号才放出来的内容，但是快照是 20 号的，这就是搜索引擎的库存内容，同时这也是检修原创的核心时间点。
3、文章被转载
假如刚发表的一篇文章被其它转载了，那么谁是原创呢 ? 那要看谁更先被搜索引擎抓取到，也就是更新周期的题目了。假如 a 站发表， b 站转载，假如先抓取到 a 站，那么归 a ，假如先抓取 b 站，那么原创就归 b 站了，所以不是说你先发表了，原创就是你的，这个得看搜索引擎什么时间收录了你的内容。
在这点上有个细节需要留意：
1、伪原创
伪原创也会被以为是原创 ?

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

那么搜索引擎是如何识别原创和伪原创的呢？我这里总结了几点和别人不同的观点拿出来和大家分享一下。

蜘蛛程序
这个相信大家都懂，互联网的最基本元素是网页，网页与网页之间有链接，所以就形成了一个巨大的网络，有一种程序会从一个起点出发无限次的打开链接把所打开的网页保存到本地服务器，然后再无限次的打开网页，永无休止，这种程序我们叫网络爬虫程序，也叫网络蜘蛛。

比如我们以A网站的首页做为蜘蛛入口点，这时候程序会把A网站首页的html代码全部请求回来，然后通过正则表达式提取所有的页面链接（图片以及多媒体链接）然后将所有的链接拿出来依次打开抓取内容，我们可以这样来表示：
循环开始
打开连接-->抓取数据-->提取连接-->存储
循环结束
预处理程序
这个程序是我认为在搜索引擎里最核心的程序，也是最复杂的程序，基本所有的计算分析处理工作全是在这个程序里完成的，很多SEOer们在研究搜索引擎的时候只研究一些表面现象，只是根据自己的猜测搜索引擎可以会有哪些判断，实不知这里有着这样一套复杂且有着高度精密逻辑的程序在这里分析每一个网页的结构。

预处理所要做的工作是分析网页的结构，解读每一个标记每一段话的意思，分析出网页中每一部分的功能，一般我们会将蜘蛛抓取下来的数据以独立文件的方式存储到硬盘中(我们公司的做法是以xml方式存储，这样更便于分析结构，相信其它公司也都差不多)，例如这是一个论坛的贴子页面，还是一个列表页面，这是一个商品的具体介绍页面，还是一个cms系统的文章页面，这都是需要分析的，除了这些以外，还需要分析网页中哪部分是标题，哪部分是价格，哪部分是文章的具体内容，哪部分是产品介绍，例如我们看到这样的结果：
从这个情况来看搜索引擎显然是知道这样的信息：这个页面是论坛的贴子页面，有十六个贴子，并且这十六个贴子都是一个人发的，并且还知道具体的时间。

这是谷歌上的结果，我们再来看一下百度的：
可以看出，百度也是可以分析这个页面结构的，而且具体的每一个回贴都可以分析的得出来，但是相比谷歌而言他没有分析出有几个作者（发贴人），我不知道是没有分析出来，还是分析出来没有展示，我更相信是后者。

这里有一个重要的说明：这个网页的html代码是我自己亲手编写的，并不是用的开源discuz 这种论坛，所以说这种网页结构是一种对搜索引擎来说全新的，并非大众的。

其实在预处理过程中需要计算的东西非常之多，比如权重的计算，这是谷歌pr值的计算方法：
谷歌认为如果A页面连接了B页面，那么就说明A给B投了一票，也就是完成了一次权重的传递，权重越高的页面传递的权重就越高，同样这个结果也会影响到网页在索引中的排名，也就是说我们在预处理中需要对网页进行分析整理计算归档等等操作，而最后建立的索引只是为了方便查询而已。

去噪点
搜索引擎在把一个网页里的html标记都去掉之后就会剩下网页中所有的内容(文字)，这时候会把一些共用信息去除掉，如一些网页的左侧内容是全站通用的，这样我们只需要分析一次就够了，在得到内容页的时候就会依照特性把共用的东西去除掉，还有头尾共公信息等。

这
样所提炼出来的数据就是每个网页中不同的内容了，也就是这个网页中最重要的部分。

很多人以为分析到这一步就完了，其实不是的，做到这些还远远不够，搜索引擎在得到页面的具体内容之后还会用自己庞大的词库去为内容进行分析，分析这个网页探讨的内容是属于哪个范畴，应该属于哪个分类，里面提到了哪些关键词，有些整个句子是不是应该进行更详细的分词等等。

这中间还会去掉一些如“的，地，吗，吧，嘛”等无意义词，也就是说这些字在文章中只起到一些感叹或者说是表达说话语气的作用字，而实际对本句话的意思，没有太多改变的字。

所以有些人通过一些文字替换方法来逃过搜索引擎的语义分析我想这是不太可能的，有的人甚至是把文章段落打乱重新组合，其实这也是无法躲避搜索引擎的预处理判断的，有些被搜索引擎放出来的，并不是躲避过了这些规则，而是因为搜索引擎里判断的规则很多都是递归的或具有父子关系的，可能因为一些特殊条件而越过了某些判断而已。

索引程序
索引程序是搜索引擎中最至关重要的程序，因为只有这一套程序是面向客户的，其它的程序全都是在后台操作的。

在预处理中把网页都分门别类然后再计算出权重以及对用户的受欢迎程度之后，索引程序会根据生成一套规则，根据这套规则把网页全部都索引起来，以方便查询。

这个索引规则并不是一成不便的，因为有很多不太人性化的地方，所以需要不断的升级，不断的改进。

在索引完成之后，还有一个缓存机制，因为大量的检索人群势必会给服务器造成难以承受的压力，所以在一段时间这内不同的人搜索同样的内容后者只需要读取缓存就可以了，而不需要再次去查询索引，我们举个例子来说明一下。

这是我随手敲上来的几个字，我认为这样的话应该没有人去搜索的。

在第一次搜索的时候：“百度一下，找到相关网页100篇，用时0.084秒”用时是0.084
当我再次点击搜索按钮的时候：“百度一下，找到相关网页100篇，用时0.001秒”用时变成了0.001秒
连续点击了几次时间都不会超过0.004秒。

这说明我后几次的查询结果是从缓存中读取出来的。

这个索引程序无时无刻都在这样永无休止的响应着用户的请求，当再产生一批新数据的时候，程序会对他进行增量索引（百度一般是在每周三的时候）而之前的一些不太友好的内容则会被从索引中清除掉。

总结
虽然说的还是不够太彻底，但是自我认为比网上一些公开的seoer的文章写的稍有深度了一些，本人只是想通过文章把自己工作中所了解的搜索引擎和大家探讨一下，如果你有不同的意见，你全是对的，好了就说这些吧，有什么问题请给我留言。

（淘宝正品商城淘宝女人街）。