基于Solr的搜索引擎研究与实现

基于Solr的搜索引擎研究与实现
基于Solr的搜索引擎研究与实现

摘要

随着信息时代的来临,人们的生活、学习、工作和娱乐已经与信息技术充分的融为一体。随着群众对互联网参与度的增加和企事业单位信息化的逐步深入,信息量也成倍地增长,如何能更好地从浩如烟海的数字信息中快速、精准地查找到需要的信息,成为全国人民的迫切需求。尤其是处于信息化建设道路上的中小企业,如何快速且廉价地开放自己的信息检索系统,对于企业的成长至关重要。

本文介绍了搜索引擎的基本原理,对搜索引擎的一些核心技术进行了介绍与深入的分析;介绍了Lucene搜索引擎工具包的架构及其基本使用;对基于开源搜索引擎包Lucene的搜索框架Solr进行架构、代码、配置等方面的研究;最后设计并实现了一个基于Solr1.3的简单可用的多库搜索引擎。整个设计过程致力于提高管理维护的方便性和可扩展性。

关键词:L ucene;Solr;搜索引擎;爬虫;中文分词

Abstract

With the advent of the information era, people's lives, study, work and entertainment have been fully integrated with information technology. With the participation of the masses on the Internet and increase in the number of information-based enterprises, the amount of information has become several times as before. How to get useful information quickly and accurately has become an important thing to everyone. For the small and medium-sized enterprises, how to develop its own message retrieval system quickly and cheaply is essential for the growth of enterprises.

In this paper, we introduce the basic principles of search engine and analyses a number of core technologies. I also introduce Lucene search engine tools, its basic framework and how to use it. We analyses Solr, which is an open source search engine based on Lucene, and its architecture, code, configuration. At last, we design and implement a simple multi-database search engine based on Solr1.3.

Keywords: L ucene ; Solr ; Search Engine ; Spider ; Chinese Word Segmentation

目录

第一章前言 (1)

1.1绪论 (1)

1.2开源搜索引擎研究的意义和现状 (3)

第二章中文搜索引擎关键技术 (4)

2.1搜索引擎基本结构 (4)

2.2中文分词 (6)

2.3相关排序 (9)

2.4搜索引擎响应速度 (13)

2.5网络蜘蛛 (14)

第三章开源搜索引擎SOLR (16)

3.1搜索引擎包L UCENE (16)

3.1.1Lucene简介 (16)

3.1.2Lucene与Solr的关系 (16)

3.1.3Lucene的结构 (17)

3.1.4Lucene的使用 (18)

3.1.5Lucene的评分公式 (22)

3.1.6Lucene的搜索结果排序 (23)

3.2S OLR的介绍 (24)

3.2.1Solr的特点与优势 (24)

3.2.2Solr1.3的新特性 (25)

3.3S OLR的配置和使用 (25)

3.3.1Solr1.3服务器的部署 (25)

3.3.2Solr1.3体系结构图 (26)

3.3.3solr.xml配置文件 (27)

3.3.4schema.xml配置文件 (27)

3.3.5solrconfig.xml配置文件 (29)

3.3.6查询HTTP接口参数 (32)

3.4S OLR1.3的核心机制 (32)

3.4.1内核调用机制 (32)

3.4.2分库机制 (33)

3.4.3缓存机制 (33)

第四章基于SOLR的搜索引擎总体设计 (35)

4.1设计背景和原则 (35)

4.2整体结构与模块关系 (35)

第五章基于SOLR的搜索引擎详细设计与实现 (37)

5.1网络蜘蛛模块的设计与实现 (37)

5.2N EW API模块的设计与实现 (38)

5.3管理模块的设计与实现 (39)

5.4配置文件的配置 (39)

5.5分词模块的设计与实现 (40)

5.6查询模块的设计与实现 (41)

第六章结论 (43)

参考文献 (44)

致谢 (45)

第一章前言

1.1绪论

随着信息技术的不断发展和人民对信息技术需求的不断增加,世界各国都在经历着前所未有的信息革命。国家的发展离不开信息化,企业的发展离不开信息化,个人的工作、生活、学习和娱乐更是离不开信息化。

今日的中国也在跟随时代的步伐向着信息时代迈进,而且呈现出巨大的生机与活力,这是一个庞大的市场。信息革命的深入必然带来信息的爆炸性增长。据中国互联网信息中心(CNNIC)统计,截止2008年12月31日,中国已有网民数量2.98亿,网站287.8万个[18]。如此巨大的信息聚集必然导致有效信息获取的难度增强和垃圾信息量增加。于是,快速精准地获取有用信息的工具应运而生。通用的搜索技术有数据库技术和搜索引擎技术,文献3[3]中比较了两者的差别。

搜索引擎是信息检索的工具,因此对搜索引擎的研究应属于信息检索的分支。搜索引擎是帮助用户快速精准地从庞大的信息体中搜索到所需信息的工具,其诞生至今不过10多年的时间而已,不过其发展却非常迅速。表1-1总结搜索引擎发展历史上一些具有里程碑意义的事件,以求从整体上了解搜索引擎的发展历史。

国内搜索引擎的研究相对国外较晚,不过搜索引擎在国内仍然取得了不少成绩。

研究领域,北京大学开发出北京大学天网搜索引擎,并提出中文搜索引擎研发的许多方法和思想(文献8[8]有相关介绍)。在商业领域,百度已经成为了世界上使用人数最多的中文搜索引擎。

有学者认为:现代搜索引擎建立在互联网和诸多计算机技术之上,所以很难将搜索引擎的缘起与哪个具体的产品对应起来[1]。而且,在搜索引擎的发展演化过程中,出现过许多不同种类的搜索引擎,谢新洲主编的《网络信息检索技术与案例》[2]一书中按照信息组织方式将搜索引擎分成如下三类。

(1)目录式搜索引擎

目录式搜索引擎依靠人工发现信息,并依靠标引人员自身的知识对信息进行分类、提取主题词、建立关键字索引和目录分类体系。用户可以通过两种方式来使用。一种是浏览查询,从最高层目录开始,顺着目录树逐层深入,直到找到所需信息为止;另一种是通过关键词检索。这类搜索引擎具有检索效率高的有点,但索引建立的效率却比较低,信息更新也比较慢。目录式搜索引擎的例子有Yahoo和新浪分类目录。

(2)索引式搜索引擎

索引式搜索引擎依靠一个被称作蜘蛛(Spider)或机器人(Robot)的程序,根据特定网络协议和原则,自动地从互联网上获取信息来建立索引。并采用一定得方法对索引库进行更新,以确保索引库与互联网上信息的实时对应。这类搜索引擎主要依靠程序自动地搜集和维护信息,从而将标引人员解放出来,同时索引库可以比较大,实时性也更强。著名的索引式搜索引擎有Google,百度等。

(3)元搜索引擎

元搜索引擎也叫集合式搜索引擎,它将多个搜索引擎集中起来,提供统一的检索界面给用户。因此元搜索引擎可以理解为一个经过包装的搜索引擎群体。元搜索引擎有两种工作方式,一种是并行式元搜索引擎,另外一种是串行式元搜索引擎。并行式元搜索引擎在用户提交查询词后,同时将查询请求发往多个搜索引擎,在接收到各个搜索引擎返回的结果后,根据一定得排序算法重新排序后返回给用户。串行式元搜索引擎仅提供一个搜索引擎的列表,由用户选择使用哪个搜索引擎来进行查询,因此它可以说是“搜索引擎的搜索引擎”[2],帮助用户进行搜索引擎的选择。

尽管搜索引擎分类众多,但其基本思想是一致的。图1-1展示了搜索引擎的基本思想。首先搜集目标信息,然后将信息进行分析处理,并按照一定得数据结构进行存储,最后用户从这些被存储的数据中检索出有用的信息。

1.2开源搜索引擎研究的意义和现状

开源搜索引擎的研究具有极其重大的意义。首先,由于只有很少的人能够接触大型商业搜索引擎,所以大部分人游离在专业搜索引擎技术之外,开源搜索引擎无疑为人们学习和研究搜索引擎技术提供了极好的途径。再者,开源搜索引擎能够吸引更多人贡献自己的才智,这必将会推动搜索引擎技术的进步。从市场的角度来说,越来越多的企业对搜索技术有迫切的需求,这些需求有极强的差异,例如,有的需要的是对文档的搜索,有的需要对网页的搜索等等。这些企业中,大部分是中小企业,他们无力组建自己的开发团队来开发搜索引擎,同时也不可能花巨资购买专业化的搜索引擎,他们只希望花最少的钱来满足自己的需要。这时候,开源的搜索引擎既帮了企业的忙,也帮了开发人员的忙,开发人员可以通过开源搜索引擎快速地开发出廉价的个性化的搜索引擎,这样的搜索引擎无疑会得到企业更多的青睐。

开源搜索引擎在开源的潮流和搜索引擎迫切的需求中诞生,经过多年的发展,已经取得了许多成绩。这一领域最为流行的是Lucene家族,它以Lucene库为基础派生出许多知名的搜索引擎:Nutch、Solr、Compass、LIUS等。其中Nutch是以Lucene 为基础的Web搜索引擎,利用它可以快速地搭建像Google一样的搜索引擎;Solr是Lucene基础上的一个搜索引擎框架,通过对其配置,可以实现许多强大的功能,而且索引和查询的效率都极高,利用它开发个性化的搜索引擎是不错的选择;Compass 也是一个以Lucene为基础的搜索引擎架构,它提供比Lucene更加简洁的API,使用它与Hibernate、Spring等进行集成是个很好的选择;LIUS(Lucene Index Update and Search)也包装Lucene的一个库,它是一个针对文本索引的框架,可以对MS WORD、PDF、MS EXCEL、TXT等文本进行处理。

第二章中文搜索引擎关键技术

2.1搜索引擎基本结构

不同的搜索引擎会有差异,但是其基本的功能模块是一样的。图2-1展示了一个可以实现网页和文档的全文检索的中文搜索引擎的基本结构。

索引库是信息存储的地方,这里的信息已经变成倒排结构。所谓倒排就是通过将文档(Document) →词语(Word) 的原始结构(如图2-2所示)变为词语(Word) →文档(Document) 的倒排结构(如图2-3所示)[3]。倒排结构的好处就是可以根据对词语的搜索快速定位到文档,例如:当搜索“我们”的时候,结果中应该出现“文档1”和“文档2”。

索引器(Indexer)是生成索引的模块,我们将处理过后的信息包装成文档交给索引器,索引器会在索引库中建立该文档的索引(也就是倒排结构)。

检索器(Searcher)是信息查询的模块。当用户提交查询词后,检索器会对查询词进行分词等处理,并生成查询请求(Query),然后在索引库中进行查询,并将查询所得结果以一定得格式呈现给用户。

索引库、索引器、检索器是搜索引擎的三大核心。完全可以利用这三大模块建立一个简单的搜索引擎(Lucene 库的直接调用就属于这个层次),不过这样的搜索引擎只有开发人员才能使用,用户使用将非常吃力,而且不能方便地对各种现存的文件(MS Word、MS Excel、HTML等)进行处理,所以真正完善的搜索引擎还需要其他模块的支持。

图2-1 中文搜索引擎基本结构

文档解析模块用于解析特定的文件,提取出文字信息并建立文档对象,然后交给索引器进行处理。网页处理模块用于对“网络蜘蛛”(Spider)获取的网页进行解析,提取出文字信息,建立文档对象后交给索引器处理。

用户界面是面向最终用户的,它从用户角度出发,提供方便的查询界面,并将查

询结果按照用户的需求予以显示。

图2-2 文档的原始结构

图2-3 文档的倒排结构

2.2中文分词

所谓分词就是指将一个完整的句子划分成一个个词条(Token)的过程。由于索引库中数据是一种索引结构,因此需要有一组固定的索引键(Key),又因为索引库是词语→文档的倒排结构,所以这组索引键应该是词语。这就需要将句子进行切分,以获得单个的词语。

尽管每种语言都要进行分词,但是英文可以利用空格来作为天然的分隔符。然而对于中文来说,分词的情况要复杂得多。

中文分词在中文搜索引擎领域极其重要。首先,中文分词影响查询的效率。假设有如下文档:

doc1(中国在亚洲)

doc2(心中有梦想)

doc3(中国在发展)

doc4(中心大街)

我们分别使用单字分词(如图2-4所示)和非单字分词(如图2-5所示)来建立索引。当用户输入“中国”作为查询词时,对于单字分词将经历以下过程。

(1)“中国”分词为“中”和“国”。

(2)查索引表得包含“中”字的文档集合为A(doc1、doc2、doc3、doc4),包含“国”字的文档有B(doc1、doc3)。

(3)将A与B相与得包含“中国”的文档集合为C(doc1、doc3)。

而采用非单字的分词方式一步就可以查得结果,可见,中文分词方式将影响到查询的效率。

图2-4 单字分词效果

图2-5 非单字分词效果

其次,分词效果还影响到查询结果与用户期望的匹配程度。例如,用户查询“和服”是想找到关于日本和服的相关信息,但是分词效果不佳的搜索引擎可能会返回包含“化妆和服装”[11]的文档。

中文分词有如下三类方法[4]:

(1)基于字符串匹配的分词方法

基于字符串匹配的分词方法也叫机械分词法[5],他将待分析的汉字串与词典进行匹配,若匹配成功,则分出一个词。机械分词法又分为正向最大匹配法、逆向最大匹配法和最小切分法(每句话切分的词数最少)。

正向最大匹配算法以从左到右的顺序,从第一个字开始进行切分,尽量切分出一个包含字数最多的词,然后将该词后边剩下的汉字串继续按照上面方法进行切分。逆向最大匹配算法与正向最大匹配算法相反,从右边第一个字开始,尽量切分出包含字数最多的词,然后将该词左边剩下的汉字串按照上面的方法继续切分。正向最大匹配

算法和逆向最大匹配算法的效果如图2-6所示(假设最大词长为4)。注意对同一句话,两种方法可能得出不同的结果。

图2-6 正(逆)向最大匹配算法分词效果

(2) 基于理解的分词方法

基于理解的分词方法模拟人对语言的理解来进行分词。其基本思想是在分词的同时引入句法信息和语义信息来处理歧义。这是一种理想的分词方法,这一分词方法的发展水平直接反应机器语言理解技术的发展水平,

不过由于汉语的语义的复杂性和汉

正向最大匹配法分词效果

逆向最大匹配法分词效果

语句法的多变性,该方法目前尚处于研究阶段。

(3)基于统计的分词方法

基于统计的分词方法也叫统计取词方法或无词典分词方法。它基于这样一个思想:在上下文中,两个(或多个)字相邻出现的频率越高,那么他们成词的概率就越高。例如,对多篇文章进行统计时发现“未”和“来”相邻的频率远远高于“未”和“完”(例如,未完成)相邻的频率,那么“未来”成词的可信度就要高于“未完”成词的可信度。不过这样的分词方式有其弱点,有许多字相邻频率很高,但是未必成词,例如“我的”。所以基于统计的分词方法更多地用于新词识别,以作为词典分词方法的补充。

由于各种分词方法有其优点和缺点,所以目前大多数性能优越的搜索引擎都使用多种分词方法来相互补充,这种方法被称为“复合分词法”。

2.3相关排序

相关排序(relevance ranking)是指信息检索系统返回结果的排序[4],排序结果反应了文档与查询的相关程度。在搜索引擎领域,相关排序不仅仅考虑查询与文档的相关程度,还应该考虑链接间的相互关系(主要指Web搜索引擎)与网站的重要程度等等。同时,电子科技大学的汪文勇提出:研究搜索引擎的页面优先度算法,需要从客观和主观两方面进行研究。客观上,从网页页面本身的信息和链接情况分析,提高信息量大、链接度高的网页页面的优先度排序;主观上,从互联网用户使用搜索引擎的行为模式分析,提高用户点击率高和浏览时间长的网页页面的优先度排序[16]。

2.3.1向量空间模型(VSM)

向量空间模型(vector space model ,VSM)由Gerald Salton提出,该模型用于计算文档与查询的相关程度,仅仅实用于普通文本。对于网页与查询的相关度需引入新的方法来计算。

假设词典包含N个词语,那么词典集合T可以表示为

T = {t1, t2, … ,t N}

其中t i为词项,即每个词。这时文档d和查询q可以表示为

d=

q =

其中m i为T中词项t i在d中的出现频率(即词频),n i为T中词项t i在q中出现频率。这样,文档与查询的相关度就可以表示为d与q的“相似程度”,通常d与q 的夹角越小,表示两个向量越相近,所以d与q的相似度R(d,q)为

R(d,q)=cos(d,q)

下面使用2维词典空间(即N为2)来直观地看看如何用向量空间模型来比较文档与查询相关度。假设词典空间

T={足球,爱好}

d1、d2、q为

d1=<2,2>

d2=<4,2>

q =<1,2>

即文档d1、d2、q中“足球”分别出现2、4、1次,爱好分别出现2、2、2次。d1、d2、q在词典空间中的曲线如图2-7所示。由于d1与q的夹角小于d2和q的夹角,我们可因认为对于q,d1的相关度高于d2。

爱好

q

d1

d2

足球

图2-7 二维词典空间中d,q关系

向量空间模型很容易从直观上理解,但是在实际使用过程中还要在此基础上作出更多的处理。词频通常不直接用该词出现的次数进行表示,而将所有原始词频(既词

数)除以一个共同的分母,将词频约束到一个范围内(如大于0小于1),这叫词频的规格化处理。这样d=可以变为

d=

其中w i=m i/∑m j,也就是将所有词频除以所有词频的和,得到规格化的词频。这个经过规格化的词频必定在0和1之间。

有些词(如“我”,“是”等)可能在多个文档中多次出现,尽管词频比较高,但是它对文档的区分能力不是很强,所以还应该将上面所得词频乘以一个权值以得最终词频。通常这个权值取文档倒置频率(IDF)

IDF i=lg(M/k i)

其中k i为文档集合D中包含词项t i的文档的个数,M为文档集合D的大小,直观上理解就是t i涉及的文档数越少,该词越重要,权值就应该越大。

2.3.1Web搜索引擎的结果排序

对于web搜索引擎,搜索结果排序不仅仅考虑查询词与文档之间的关系,还需要考虑查询词在网页文件中的显示位置、显示状态以及链接和被连接关系。

(1)我们知道HTML页面有丰富的标签,这些标签有的是表明主题的(如),有的是表明布局、大小、是否粗体的。一个网页的主题词肯定比其他词重要,它应该被重视;字号较大的字应该比字号较小的字更加重要;粗体字应该比非粗体字更加重要。基于上述原则,我们设计出不同标签表示的字的权值表(如表2-1[4]所示),这些权值可以在建立索引的时候反应到词语所在域(field)上。这里主要说明一种思路,因此并不包含全部标签,同时这里的权重已经规格化,实际实现中,我们可以暂时不规格化,等到加入词频,链接权重等因素后再规格化。</p><p>表2-1 HTML标签权重表</p><!--/p15--><!--p16--><p>(2)基于“优秀网页链接过来的网页,必定是优秀的网页”这种思想,网页的重要性与链接该网页的网页的重要性有关。Google的PageRank算法就是基于这样的思想。</p><p>网页的出度是指有该网页发出至其它网页的链接的数目,网页的入度是指指向该网页的网页的数目。PageRank算法认为,其它网页对本网页的链接是其它网页对本网页的“投票”,某个网页的入度越大(也就是被链接次数多),票数也就越多,则该网页就越重要;同时,高质量的网页投来的票对本网页质量的肯定作用较大,其对本网页重要性影响权重也应更大些。</p><p>公式2-1用于计算页面j的PageRank值。</p><p>W j=(1-d)+d∑l i,j W i/n i (2-1) 其中W j表示页面j的PageRank值,l i,j表示页面i到页面j是否有链接(有链接为1,否则为0),n i代表页面i的出度,d为沿着链接访问网页的概率。</p><p>图2-8 PageRank算法示意图</p><!--/p16--><!--p17--><p>图2-8直观地展示了PageRank算法,这里d取为1。Page1的PR值为100,出度为2,所以由Page1发出的每个链接获得PR为50,同理Page3每个链接获得PR 值为3。Page2的入度为2,两个链接分别带来PR值为50和3,所以Page2的PR值为53,同理Page4的PR值为3。</p><p>现实环境中PR值的计算没有这样简单,由于网络链接情况极其复杂,每个网页首先获得一个默认的PR,然后根据链接关系,递归地使用PageRank算法进行修改。</p><p>2.4搜索引擎响应速度</p><p>搜索引擎查询结果的相关性固然重要,但响应速度也是必须要考虑的问题,毕竟没有人愿意花一天的时间去等待一个最佳答案。目前的商用搜索引擎中,Google返回的结果量和相关度都高于百度,但百度的响应速度高于Google。</p><p>可以通过对查询结果的预处理来获得较高的响应速度,我们可以使用缓存技术将一些经常被查询的词的查询结果保存在内存中,当用户输入包含多个词的查询请求时,只需要对这些查询请求进行合并和重新排序即可。查询预处理技术如图2-9所示。</p><p>图2-9 查询预处理技术</p><p>除查询预处理技术外,分布式技术可将查询任务分担到多台服务器去并行进行,</p><!--/p17--><!--p18--><p>从而提高响应速度。如果将预处理技术与分布式技术结合起来,效果更佳。</p><p>2.5网络蜘蛛</p><p>网络蜘蛛(Web Spider)也称作网络爬虫,爬行系统等,是搜索引擎的一个重要模块,它从各个站点获取网页文件(这个过程叫抓取)并提取出文字信息,然后交给索引器建立索引[6]。</p><p>网络蜘蛛将互联网比作由网页和链接构成的网,网络蜘蛛像蜘蛛爬网一样顺着链接从一个网页跳到另外一个网页。技术层面,网络蜘蛛从一个(或多个)原始站点出发,使用HTTP协议获得网页,通过对所获得的网页的解析,提取出新的链接,并根据一定得策略继续爬行新的链接。</p><p>网络蜘蛛的爬行策略主要有广度优先策略和深度优先策略。广度优先策略首先爬行第一层的网页,将第一层网页解析所得的发出链接存起来,待第一层链接都处理完毕,接着依次处理第二层的链接,如此一层一层地进行下去。深度优先策略从第一层链接中选取一个,抓取其指向网页并解析出发出链接,然后从发出链接中选出一个继续前述过程,直到达到一定得限制条件后,重返上层选取新的链接进行爬行。两种策略如图2-11所示。</p><p>图2-11 广度优先与深度优先策略对比</p><!--/p18--><!--p19--><p>由于互联网极其庞大,我们不可能抓取到互联网上所有的网页,所以特定的搜索引擎都会有一定的限制条件来防止爬虫抓取不必要的文件类型和无休止的抓取。例如,不关心PDF文档的爬虫会首先判断文件类型,并不耗费带宽去抓取PDF文档;某一大型网站的专用搜索引擎会限制爬虫只抓取该网站下的网页。</p><p>爬虫的设计者和网站开发者之间有一些关于爬行的协议。网站开发人员可以在站点的首层目录下放置一个Robots.txt文件,指明该站点下那些目录可以访问,哪些目录不能访问。网站开发人员也可以建立一个网站地图(Site Map)来列出该站点所有的网页链接,从而方便爬虫爬行该站点,同时有效地防止漏掉部分链接的情况。</p><!--/p19--><!--p20--><p>第三章开源搜索引擎Solr</p><p>3.1搜索引擎包Lucene</p><p>3.1.1Lucene简介</p><p>Lucene是Apache软件基金会Jakarta项目组的一个子项目,是一个开放源代码的全文检索工具包。它不是一个完整搜索引擎,仅提供了构建搜索引擎的基础架构,我们可以通过Lucene官网站[13]下载该工具包,然后利用这个基础架构快速地开发出搜索引擎。Lucene的原作者是Doug Cutting,一位资深的全文检索专家,最初将Lucene 发表在自己的个人主页上,2001年将Lucene捐献给Apache,使得Lucene成为Jakarta 的一个子项目。</p><p>Lucene经过多年的发展,已经成为最流行的Java开源全文检索工具包,如今已经更新到2.4.1版本。Lucene已经在诸多全文检索领域取得成功。例如,Eclipse的帮助文档就使用了Lucene来作为检索引擎。</p><p>3.1.2Lucene与Solr的关系</p><p>Solr是Lucene的一个子项目,它在Lucene的基础上进行包装,成为一个企业级搜索服务器开发框架。我们可以从其官方网站[14]下载Solr项目文件,然后利用它快速开发自己的搜索引擎服务器。Solr与Lucene的主要区别体现在:Solr更加贴近实际应用,是Lucene在面向企业搜索服务领域的扩展;Solr的缓存等机制使全文检索获得性能上的提升;通过配置文件的开发使得Solr具有良好的扩展性;Solr提供了用户友好的管理界面与查询结果界面。Solr的与Lucene的关系如图3-1所示。</p><!--/p20--><!--rset--><h2>搜索引擎检索技巧</h2><p>搜索引擎检索技巧</p><p>搜索引擎 搜索引擎(search engine),1995年开始搜索引擎以一定的策略从网络收集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。 搜索引擎站---“网络门户”</p><p>1、搜索引擎的工作原理 信息的收集处理 信息的检索输出</p><p>2、搜索引擎的分类 搜索引擎按其工作方式主要可分为三种: 目录索引类搜索引擎(Search Index/Directory) 机器人搜索引擎(全文搜索引擎)(Full Text Search Engine)元搜索引擎(Meta Search Engine)</p><p>2、搜索引擎的分类(续) 目录式搜索引擎 目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。 该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。 这类搜索引擎的代表是:yahoo!、Galaxy、Open Directory……</p><p>2、搜索引擎的分类(续) 机器人搜索引擎 由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。 该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。 这类搜索引擎的代表是:AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google;国内代表为:百度等。</p><h2>基于JAVA技术搜索引擎的设计与实现</h2><p>龙源期刊网 https://www.360docs.net/doc/9c2224936.html, 基于JAVA技术搜索引擎的设计与实现 作者:刘智勇 来源:《数字技术与应用》2017年第05期 摘要:随着科技的进步与发展,互联网成为21世纪的宠儿,网络信息也复杂多样。这些繁杂的网络信息在给我们带来便利的同时也产生了极大的问题,比如如何在这海量的信息里面找到自己所需要的内容,成为当前互联网技术的热门领域。互联网信息复杂多样,因此想要迅速、快捷的找到所需要的信息内容,就需要搜索引擎来帮忙实现。本文就对搜索引擎的工作原理,组成和数据结构等方面进行分析,对搜索引擎未来的发展方向进行探索。众所周知,智能化是未来的一个大的趋势,想要实现搜索引擎的智能化,就需要使搜索引擎具备自我学习的能力,适应用户的查询需求。 关键词:搜索引擎;智能化;信息检索 中图分类号:TP391.3 文献标识码:A 文章编号:1007-9416(2017)05-0205-01 1 搜索引擎概述 随着信息时代的来临,互联网的迅速普及应用,已经成为我们正常生活中不可或缺的一部分。因为互联网信息具备共享等多种特性,使得网络信息成倍的增加。谷歌公司所收录的网页信息都已经过亿,而且每天还在不断的攀升,想要在这么多数据里面,选取对自己有用的信息,就需要借助搜索引擎来进行实现。 搜索引擎是从1994年诞生,随着互联网的信息日益增多,搜索引擎也在不断的发展,从1994年到现在历经三个阶段。搜索引擎的第一个阶段就是1994年到1996年,这个阶段的搜索引擎以集中式检索为主。当时网络信息并没有很多,一般都是少于百万的网页,也没有索引,检索速度也非常慢。也是采用网络、数据库等关键技术来实现。第二个阶段是1996年到1998年,这个期间,搜索引擎采用分布式检索方案,使用多个微型计算机来协同工作,其目的是为了提高数据规模和响应速度。一般可以响应千万次的用户检索请求。第三代搜索引擎,就当前所使用的搜索引擎,也是搜索引擎极为繁荣的时期。它拥有完整的索引数据库,除了一般的搜索,还有主题搜索和地域搜索。但是这些搜索结果反馈给用户的数据量较大,检索结果的相关度又成为研究的核心。 我们通常所用的搜索引擎也分为多种,按照信息的搜集方法和服务提供方式的不同进行区分,常用的有三类,第一,目录式搜索引擎。它是以人工方式进行信息的搜集,由编辑员进行审查并制作成信息摘要,将其进行分类置入架构中去。这类搜索方式的搜索结果准确,信息质量高,但是需要大量的人工成本,信息更新不及时,维护量大。第二,机器人搜索引擎。就是我们常说的网络爬虫,是由一个网络蜘蛛的机器人程序以某种策略自动地在互联网中搜集和发现信息,这种信息查询方式是由索引器完成的。索引器为搜集到的信息建立一个完整的索引,</p><h2>各种搜索引擎技巧</h2><p>.html .asp/.aspx .php .jsp Html语言变量、函数、组建、流程、循环、结构 代码结构进行优化 URL 统一资源定位符号universal resources locator 网络地址 Filetype Intitle Inurl 美萍点播系统VOD down:43 Site: 在站内进行检索 Intext: Seo搜索引擎优化-》sem搜索引擎营销-》网络营销 【项目背景介绍】 信息社会,信息以爆炸式的方式增长,网络环境下,搜索引擎是我们通往目的地的必备武器,但是在浩如烟海的网络信息里面,很多网友都只会简单的搜索,往往不能够很好的达到搜索的目的,因此也无法完成对海量信息的综合处理。作为电子商务专业学生,如何高效的完成信息检索,无论是对个人依托网络进行的学习还是今后的网络商务工作,都十分重要。 【项目工具简介和环境要求】 互联网机房 能正常访问互联网、IE插件正常 【项目延伸思考题】 搜索引擎的商用价值 各类搜索引擎通用的高级搜索命令 提高网站被检索可能性的建议 【项目教学难点】 网站备案机制 网站支付流程的合理性 网站联系信息的真实性判断 【项目实施步骤】 项目简介—快速测试—软件包传送—学生自我摸索(安装、调试、搜索等)—手把手—应用场合分析—新模式联想 随着网络技术尤其是WWW站点的快速发展和普及,人们通过Internet获取全球信息的可能性越来越大。可以说,我们所需要的信息,绝大部分都可以通过因特网获取。但是网络信息内容庞杂、分散无序,各种有价值、所需的信息资源淹没在信息的“汪洋大海”中,给人们查询和利用网络信息资源带来了极大的不便。为了更有效地开发和利用网络信息资源,人们研制了许多网络信息检索工具,其中WWW是Internet上增长最快、使用最方便灵活的多媒体信息传输与检索系统,越来越多的用户将自己的信息以WWW的方式在网上发布。WWW服务器已称为互联网上数量最大和增长最快的信息系统,因而可以检索WWW网址网页以及新闻论坛、BBS文章的检索工具——搜索引擎称为查询网络信息的最主要的检索工具。 有人说,会搜索才叫会上网,搜索引擎在我们日常生活中的地位已是举足轻重。你也许是个刚买了“猫”兴冲冲地要上网冲浪,也许已经在互联网上蛰伏了好几年,无论怎样,要想在浩如烟海的互联网信息中找到自己所需的信息,都需要一点点技巧。对于企业而言,学习搜索,提高技巧,就能找到更多的潜在客户。</p><h2>一个小型搜索引擎的设计与实现</h2><p>一个小型搜索引擎的设计与实现 摘要 随着互联网和宽带上网的普及,搜索引擎在中国异军突起,并日益渗透到人们的日常生活中,在互联网普及之前,人们查阅资料首先想到的是拥有大量书籍的资料的图书馆。但是今天很多人都会选择一种更方便、快捷、全面、准确的查阅方式--互联网。而帮助我们在整个互联网上快速地查找到目标信息的就是越来越被重视的搜索引擎。 本文通过分析国内外搜索引擎的发展现状,提出了一种功能强大,操作简单,通用性强,可以满足用户对信息搜索需要,利用ASP技术实现的一个B/S体系结构的搜索引擎系统方案。文中着重论述了该系统的功能与实现、数据流程与存储、后台管理等。并对关键的有关技术作了较详细的介绍。论文在撰写过程中,力求将理论与系统应用相结合,对各种理论进行阐述的同时配合系统从实际应用和操作技巧上加以说明,希望能够更充分地体现到这些知识与技术在本系统中的应用与实现。 关键词:搜索引擎;ASP;B/S;关键字</p><p>The Design and Implementation of a Small Search Engine Abstract With the popularization of the Internet and surfing the Net broadband search engine likes a dark horse in China, going to people?s daily life day by day. Before this, when people consult materials the first thought is the library that has a large number of books. Now, more and more people will choose Internet to search for information. It?s more convenient, and accurate for searching information. The search engine that helps us in the whole Internet to quickly identify target information is played more and more attention to. Through analyzing the current development of search engine in domestic and international, this paper gives a plan that achieves the formidable function, simply operating, stronger versatility and satisfies the users to the information search need, and realizes a systematic scheme of search engine of B/S system structure with the technology of ASP. This paper mainly describes the function and realization of this system, data procedure and storing, back-stage management, etc. And also introduces to the key relevant technology in detail. During this period, I?ve made a lot effort to union the theory and practice, and coordinates with system to explain from practical application and operation skill while explaining various kinds of theories, hope to more fully reflect the knowledge and application in this system of technology and realize. Key words:Search Engine; ASP; B/S; Keyword</p><h2>搜索引擎的使用方法和技巧</h2><p>百度搜索引擎的使用方法和技巧 学生姓名: 学院:信息技术学院 专业:信管(电) 班级: 学号: 指导教师: 完成日期: 2015年3月28日 辽东学院 Eastern Liaoning University</p><p>一、简单搜索 1. 关键词搜索 只要在搜索框中输入关键词,并按一下“搜索”,百度就会自动找出相关的网站和资料。百度会寻找所有符合您全部查询条件的资料,并把最相关的网站或资料排在前列。 小技巧:输入关键词后,直接按键盘上的回车键(即Enter健),百度也会自动找出相关的网站或资料。 关键词,就是您输入搜索框中的文字,也就是您命令百度寻找的东西。可以是任何中文、英文、数字,或中文英文数字的混合体。可以命令百度寻找任何内容,所以关键词的内容可以是:人名、网站、新闻、小说、软件、游戏、星座、工作、购物、论文、、、 例如:可以搜索[windows]、[918]、[F-1赛车]。 可以输入一个关键词,也可以输入两个、三个、四个,您甚至可以输入一句话。 例如:可以搜索[博客]、[原创爱情文学]、[知音,不需多言,要用心去交流;友谊,不能言表,要用心去品尝。悠悠将用真诚,尊敬和大家来建立真正的友谊]。 注意:多个关键词之间必须留一个空格。 2. 准确的关键词 百度搜索引擎严谨认真,要求一字不差。 例如:分别输入 [舒淇] 和 [舒琪] ,搜索结果是不同的。 分别输入 [电脑] 和 [计算机] ,搜索结果也是不同的。 因此,如果您对搜索结果不满意,建议检查输入文字有无错误,并换用不同的关键词搜索。 3. 输入两个关键词搜索 输入多个关键词搜索,可以获得更精确更丰富的搜索结果。 例如,搜索[悠悠情未老],可以找到几千篇资料。而搜索[悠悠情未老],则只有严格含有“悠悠情未老”连续5个字的网页才能被找出来,不但找到的资料只有几十篇,资料的准确性也比前者差得多。 因此,当你要查的关键词较为长时,建议将它拆成几个关键词来搜索,词与词之间用空格隔开。 多数情况下,输入两个关键词搜索,就已经有很好的搜索结果。 4. 减除无关资料 有时候,排除含有某些词语的资料有利于缩小查询范围。 百度支持“-“功能,用于有目的地删除某些无关网页,但减号之前必须留一空格,语法是“A -B”。</p><h2>[基于,搜索引擎,SIVA]基于搜索引擎的“SIVA”网络营销理论模型的应用研究</h2><p>基于搜索引擎的“SIVA”网络营销理论模型的应用研究 基于搜索引擎的“SIVA”网络营销理论模型的应用研究 信息技术的到来改变了营销环境,需要建立一种新的由消费者主导的交互市场营销体系。传统的以线性的输出营销系统,都是基于内部驱动的品牌传播方法,而现在,消费者决策体系已由线性变成网状,选择由单一的点变成立体的面,因此,必须建立一种全新的以消费者为核心的交互式的营销模型来适应当今的大数据时代。 一、前言 回顾过去几十年营销理论的发展,从当年的4P理论到逐渐意识要与消费者沟通的4C、4R理论的发展,表明了营销体系的不断推进,消费者的地位不断被提升。要以消费者为中心,要了解消费者真正的需求,要实现与消费者对话,营销者就要不断努力地接近消费者, 改变营销策略,从说服转为倾听,希望能从消费者口中找到营销的最佳时机。 互联网的发展,特别是搜索引擎的出现,让越来越多的企业真正从消费者的心声中发现了商机。LANCOME兰蔻于1935年诞生于法国,兰蔻品牌已发展成为全法国第一和全世界第二 的世界知名化妆品牌。兰蔻以聚集了中国95%以上网民的百度搜索营销平台为基础,将关 键字投放、品牌专区、关联广告、精准广告等不同营销形式有机地整合在一起,各个营销环节层层相扣,全方位开展了网络营销活动。如若有消费者在百度搜索上敲下“兰蔻”两个字搜索关键词栏目即出现包含“兰蔻”的若干主题词。这些主题词与兰蔻产品或品牌的相关性极高,消费者可以从这些主题词的链接中找到自己想要的信息和解决方案。 而在当今的大数据时代,消费者的信息与需求源源不断地涌向互联网这个大口袋里,为企业品牌提供了巨大的机会与便利。消费者与企业双方依托搜索平台进行对接,期待最契合的连接点,相互得到满足。 二、搜索引擎 中国现在有5.64亿网民,4.2亿手机用户,每天在百度上的搜索请求超过50亿次《中国互 联网发展状况统计报告》(2013年1月,第31次)。根据全球最大的网络调查公司CyberAt las的调查表明,网站75%的流量都是来自于搜索引擎。 1.搜索引擎的定义 搜索引擎是指一种基于Internet上的信息查询系统,包括信息存取、信息管理和信息检索。搜索引擎便于网民获取有效信息,成为网民最喜爱的网络信息采集渠道,同时也有利于企业以较低的成本获得较高的信息传播效率,成为企业产品和服务推广的主要手段。 2.搜索引擎的营销功能 (1)对潜在客户的精准定位</p><h2>主题搜索引擎的设计与实现</h2><p>第四代搜索引擎—— 主题搜索引擎的设计与实现 Design and Implementation of Focused Search Engine, 4th Generation Search Engine 北京大学计算机科学技术系计算机软件专业 九七级学士毕业论文 指导教师:李晓明王建勇 作者:罗昶 学号:09708136 2001年6月</p><p>指导老师对论文工作的评语 “面向主题的搜索引擎”,是我们“天网”搜索引擎下一步发展的重要方向之一。罗昶同学的毕业论文,是这一新方向的良好开端。 论文从系统实现的角度,较全面的阐述了实现一个高质量主题搜索引擎系统的各个方面,着重分析了导向词、特征提取、权威和中心网页、超链分析以及网页评分等多种搜集策略的运用,并提出了“主题度”的概念,用以衡量主题搜索引擎的质量,意在指明一个搜索引擎在一个主题下的主题度越高,则它越贴近这个主题,用户就越容易找到跟这个主题相关的资料。特别地,将上述认识用于实践中,高质量地完成了一个面向影视主题的搜索引擎系统,搜集了十多万影视信息,在影视信息方面提供着比“天网”通用搜索引擎更有效的服务;论文内容丰富,所涉及的工作量很大,且有较强的系统性,是一篇很有参考价值的论文,为“天网”的发展做出了贡献。 老师签名:__________</p><p>论文摘要 互联网上的信息每天都以指数量级的速度爆炸性增长,面对如此浩瀚的资源,搜索引擎为所有网上冲浪的用户提供了一个入口,毫不夸张的说,所有的用户都可以从搜索引擎出发到达自己想去的网上任何一个地方。因此它也成为除了电子邮件以外最多人使用的网上服务。 但是,随着信息多元化的增长,千篇一律的给所有用户提供同一个入口显然已经不能满足特定用户更深入的查询需求。同时,这样的通用搜索引擎在目前的硬件条件下,要及时更新以得到互联网上较全面的信息是不太可能的。针对这种情况,我们需要一个分类细致精确、对硬件要求低,数据全面深入、更新及时的面向主题的搜索引擎。由于主题搜索运用了人工分类以及特征提取等智能化策略,因此它比前三代的搜索引擎将更加有效和准确,我们将这类完善的主题搜索引擎称为第四代搜索引擎。 本文阐述了第四代搜索引擎天网主题搜索引擎的设计与实现,并着重分析了导向词、特征提取、权威和中心网页、超链分析以及网页评分等多种搜集策略的运用。论文最后定义了独创的“主题度”来衡量主题搜索引擎的性能,一个搜索引擎在一个主题下的主题度越高,证明这个搜索引擎越贴近这个主题,用户就越容易找到跟这个主题相关的资料。有了“主题度”,就可以很容易的比较使用多种搜集策略以后的天网主题搜索引擎与原天网通用搜索引擎的差别,说明了前者在特定的主题下要比后者更准确贴切。 关键词:互联网、万维网、搜索引擎、数据发掘、主题搜索、主题度</p><h2>新技术论文-搜索引擎研究</h2><p>摘要 搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列,方便用户查找。 如何更加快捷、准确地查找到用户所需的网络信息资源,是各大搜索引擎服务提供商和计算机网络研究人员的研究热点。作为计算机专业的学生,搜索引擎技术对我们有很大的诱惑力,了解搜索引擎的发展现状、原理和技术手段,从算法的角度来认识搜索引擎,是我们必须掌握的知识之一。 文章概述了搜索引擎的出现与发展,原理与技术。 关键词:搜索引擎、基本原理、搜索算法、技术</p><p>目录 1绪论 (3) 1.1 搜索引擎的出现与发展 (3) 1.1.1 搜索引擎的出现 (3) 1.1.2 搜索引擎的发展 (4) 2 搜索引擎的原理与技术 (5) 2.1 分类目录检索 (5) 2.1.1 主题分类法 (6) 2.1.2 学科分类法 (6) 2.1.3 分面组配分类法 (6) 2.1.4 图书分类法 (6) 2.2 关键词检索 (6) 2.2.1 从互联网上抓取网页 (8) 2.2.2 建立索引数据库 (8) 2.2.3 在数据库中搜索 (8) 2.2.4 对搜索工作进行处理排序 (8) 结论 (9) 参考文献 (10)</p><p>1.绪论 近几年,随着网络的不断发展和壮大,搜索引擎越来越成为人们生活中重要的一部分,找资料、查地图、听音乐,只有想不到的,没有搜索不到的。中国十年多来互联网的不断发展,造就出1.3亿的网民,搜索引擎也出现空前的火热。在互联网出现的初期,雅虎、新浪、网易等大型门户网站拥有着绝对多的浏览量,原因在于当初的大部分网站在技术上无法与门户网站相媲美,多数质量较差,内容不丰富,所以大型门户网站优秀的网页设计风格,大量的信息及时更新赢得了用户的认可,创造了第一次互联网的高峰。然而随之近年来网络技术的普及与应用,建立一个专业的网站已经不存在太多的技术门槛。于是看好互联网前景的网站纷纷涌现在我们的面前。相对比而言在某些领域中,大型门户网站的页面风格反而不如一些中小型网站的界面漂亮,同时各种分类的行业网站也慢慢的兴起,使得搜索引擎越来越成为人们生活中必不可少的实用工具。 搜索引擎的出现,整合了众多网站信息,恰恰起到了信息导航的作用。通用搜索引擎就如同互联网第一次出现的门户网站一样,大量的信息整合导航,极快的查询,将所有网站上的信息整理在一个平台上供网民使用,于是信息的价值第一次普遍的被众多商家认可,迅速成为互联网中最有价值的领域。互联网的低谷由此演变为第二次高峰。大家熟知的搜索引擎Google、百度、雅虎等是通用搜索引擎现如今的杰出代,他们为互联网的发展做出了重要的贡献。然而,搜索引擎行业也不是一家公司就可以独撑天下的,从百度的上市、yahoo中国的并购一系列动作表明,如今的搜索引擎大战如同门户网站初期的竞争一样激烈。相信,通用搜索引擎在经历过一段时间的角逐后,也将会继续维持几大服务商各自分控一部分市场的局面。 总而言之搜索引擎改变了人们的生活给人们的生活工作学习带来了巨大的帮助。 1.1搜索引擎的出现与发展 1.1.1搜索引擎的出现 搜索引擎从1990年原型初显,到现在成为人们生活中必不可少的一部分,它经历了太多技术和观念的变革。 出现之前,互联网上就已经存在许多旨在让人们共享的信息资源了。这些资源当时主要存在于各种允许匿名访问的FTP 站点。为了便于人们在分散的FTP 资源中找到所需的东西,1990年,加拿大麦吉尔大学(McGillUniversity)的几个大学生开发了一个软件Archie。它是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载这个文件。Archie实际上是一个大型的数据库,再加上与这个大型数据库相关</p><h2>百度搜索引擎搜索技巧</h2><p>百度搜索引擎搜索技巧 信息时代让人们畅享着富足信息盛宴带来的便利,可是如何才能从海量的信息中找寻自己最满意的目标信息呢?正常的信息大家一般都很容易从搜索引擎中查找到,但大家应该也有过这样的经历,有些时候自己想要的信息可能并未如愿地出现在搜索结果中或者要翻了好几页才能找到自己想查找的信息。 可能有些时候确实是搜索引擎的收录中并没有这样的相关信息,但是也有很多时候是因为我们没有掌握全面的搜索引擎搜索技巧,特别是在组合搜索和特殊符号方面应用的不到位。 1、加号(+)、分隔号(|)和空格的应用 这三个都属于并行搜索,就比如知识+文化、知识文化、知识|文化,这三种的搜索方式都是用于搜索同时包含关键词“知识”和“文化”的信息,当然也搜索只包含关键词“知识”或者只包含关键词“文化”的信息。 2、减号(-)的应用 减号应用于排除含有某些词语的资料有利于缩小查询范围。 百度支持“-”功能,用于有目的地删除某些无关网页,但减号之前必须留一空格。例如,要搜寻关于“武侠小说”,但不含“古龙”的资料,可使用:武侠小说-古龙 3、双引号(“”)和中括号([])的应用 这两种符号属于精确匹配的搜索方式,双引号(“”)个人认为价值更大,这就是我们有时会听说的完全匹配,比如在搜索框中输入“厦门思明区和湖里区网络购物”,那么在搜索结果中的那些信息就一定会出现跟引号里一模一样的这句话。 如果用中括号[],我们也以刚才的那几个字[厦门思明区和湖里区网络购物]来举例,那么在出现的搜索结果中,那些信息的数量肯定比上面用双引号来的多。因为这种搜索方式虽然括号中的那些字在搜索出来的信息中也会全部出现,但是中括号里的这些字不一定是以整体方式出现的,这句关键词也会以零散的方式出现的搜索结果的信息中。比如,搜索结果的信息中可能出现:<物…网络购…门…湖里区和思明区…厦>这样的次序出现,当然还有其他组合的次序可以出现,但这几个字的每一字至少会出现一次在搜索结果的信息页中。 上面的这两种搜索方式如果不太理解,也可以自己具体去搜索比较一下,就会清楚多了。而且上面的这些符号有些也可以组合使用的,比如:你要查信息中同时出现(厦门思明区)、(和湖里区)、(网络购物),而且这括号里的三组词要完全匹配,那么你可以在搜索框中这样输入:“厦门思明区”+“和湖里区”+“网络购物”,那么你就可以得到你想要的结果了。 4、特殊字符串(site)、(intitle)、(inurl)的应用</p><h2>基于JAVA技术的搜索引擎的研究与实现</h2><p>基于JAVA 技术的搜索引擎的研究与实现 摘要 网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情。建立搜索引擎就是解决这个问题的最好方法。本文首先详细介绍了基于英特网的搜索引擎的系统结构,然后从网络机器人、索引引擎、We b 服务器三个方面进行详细的说明。为了更加深刻的理解这种技术,本人还亲自实现了一个自己的搜索引擎——新闻搜索引擎。 新闻搜索引擎是从指定的Web 页面中按照超连接进行解析、搜索,并把搜索到的每条新闻进行索引后加入数据库。然后通过Web 服务器接受客户端请求后从索引数据库中搜索出所匹配的新闻。 本人在介绍搜索引擎的章节中除了详细的阐述技术核心外还结合了新闻搜索引擎的实现代码来说明,图文并茂、易于理解。 Abstract The resources in the internet are abundant, but it is a difficult job to search some useful information. So a search engine is the best method to solve this problem. This article fist introduces the system structur e of search engine based on the internet in detail, then gives a minute explanation form Spider search, e ngine and web server. In order to understand the technology more deeply, I have programmed a news se arch engine by myself. The news search engine is explained and searched according to hyperlink from a appointed web page, th en indexs every searched information and adds it to the index database. Then after receiving the custome</p><h2>搜索引擎基本工作原理</h2><p>搜索引擎基本工作原理 目录 1工作原理 2搜索引擎 3目录索引 4百度谷歌 5优化核心 6SEO优化 ?网站url ? title信息 ? meta信息 ?图片alt ? flash信息 ? frame框架 1工作原理 搜索引擎的基本工作原理包括如下三个过程:首先在互联网中发现、搜集网页信息;同时对信息进行提取和组织建立索引库;再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。 1、抓取网页。每个独立的搜索引擎都有自己的网页抓取程序爬虫(spider)。爬虫Spider顺着网页中的超链接,从这个网站爬到另一个网站,通过超链接分析连续访问抓取更多网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。 2、处理网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引库和索引。其他还包括去除重</p><p>复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。 3、提供检索服务。用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。 搜索引擎基本工作原理 2搜索引擎 在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库 的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP 地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。 另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。 当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,</p><h2>搜索引擎的设计与实现</h2><p>web搜索引擎的设计与实现</p><p>摘要 随着网络的迅猛发展。网络成为信息的极其重要的来源地,越来越多的人从网络上获取自己所需要的信息,这就使得像Google[40],百度[39]这样的通用搜索引擎变成了人们寻找信息必不可少的工具。 本文在深入研究了通用搜索引擎基本原理、架构设计和核心技术的基础上,结合小型搜索引擎的需求,参照了天网,lucene等搜索引擎的原理,构建了一个运行稳定,性能良好而且可扩充的小型搜索引擎系统,本文不仅仅完成了对整个系统的设计,并且完成了所有的编码工作。 本文论述了搜索引擎的开发背景以及搜索引擎的历史和发展趋势,分析了小型搜索引擎的需求,对系统开发中的一些问题,都给出了解决方案,并对方案进行详细设计,编码实现。论文的主要工作及创新如下: 1.在深刻理解网络爬虫的工作原理的基础上,使用数据库的来实现爬虫部分。 2.在深刻理解了中文切词原理的基础之上,对lucene的切词算法上做出了改进的基础上设计了自己的算法,对改进后的算法实现,并进行了准确率和效率的测试,证明在效率上确实提高。 3.在理解了排序索引部分的原理之后,设计了实现索引排序部分结构,完成了详细流程图和编码实现,对完成的代码进行测试。 4.在完成搜索部分设计后,觉得效率上还不能够达到系统的要求,于是为了提高系统的搜索效率,采用了缓存搜索页面和对搜索频率较高词语结果缓存的两级缓存原则来提高系统搜索效率。 关键词:搜索引擎,网络爬虫,中文切词,排序索引</p><p>ABSTRACT With the rapidly developing of the network. Network became a vital information source, more and more people are obtaining the information that they need from the network,this making web search engine has become essential tool to people when they want to find some information from internet. In this paper, with in-depth study of the basic principles of general search engines, the design and core technology architecture, combining with the needs of small search engine and in the light of the "tianwang", lucene search engine, I build a stable, good performance and can be expanded small-scale search engine system, this article not only completed the design of the entire system, but also basically completed all the coding work. This article describle not only the background of search engines, but also the history of search engine developing and developing trends,and analyse the needs of small search engines and giving solutionsthe to the problems which was found in the development of the system ,and making a detailed program design, coding to achieve. The main thesis of the article and innovation are as follows: 1.with the deep understanding of the working principle of the network spider.I acheived network spider with using database system. 2.with the deep understanding of Chinese segmentation and segmentation algorithm of lucene system,I made my own segmentation algorithm,and give a lot of tests to my segmentation algorithm to provide that my segmentation algorithm is better. 3.with the deep understanding of sorted and index algorithm,I designed my own sorted and index algorithm with the data-struct I designed and coding it ,it was provided available after lots of tests. 4.after design of search part,I foud the efficiency of the part is not very poor,so I designed two-stage cache device to impove the efficiency of the system. Key words: search engine,net spider, Chinese segmentation,sorted and index</p><h2>浅谈搜索引擎的研究现状</h2><p>科 技 天 地 38 INTELLIGENCE ························浅谈搜索引擎的研究现状 西安外事学院计算机中心 李艳红 摘 要:文章分析了搜索引擎的发展历史及国内外搜索引擎的发展现状,采用了 对比的方法对特色搜索引擎的进行了阐述,并详尽的指出了各种搜索引擎的现状、特点及发展趋势。 关键词:搜索引擎 爬虫 网页快照 搜索引擎(Search Engine)正是帮助人们从网上检索信息的重要工具,是为了解决网上信息查询困难的问题应运而生的,它可以有效地帮助用户在网络上查找到自己需要的信息。它是在互联网产生后伴随着网上用户快速查询信息的需求的产物,即提供信息检索服务的计算机系统,检索的对象包括互联网上的站点,新闻组中的文章,软件存放的地址及作者,某个企业和个人的主页等。 当用户通过Archie 检索文件时,所要进行的全部工作就是对该数据库进行检索。尽管Archie 还不是真正的搜索引擎,但工作原理与现在的搜索引擎己经很接近,它依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,供使用者查询。1994年初,Internet 上出现了包括Lycos 在内的第一批Web 搜索引擎。第二代搜索引擎以1998年出的Google 和Directhit 为代表。它们是“根据以往用户实际访问一个网站并在该网站上所花费的时间来确定一个网站的重要性,或者根据一个网站被其他网站链接的数量来确定网站的重要性” ,“这种根据用户忠诚度的评判方法更具备客观性,因而,用户所获得的信息也就更准确”。如Directhit 以被大多数用户访问的情况认定一个网站的重要性;Google 以被其他网站链接的情况认定一个网站的重要程度。在发展过程中更强调了人的因素,主要表现在以下三个方面: (1)能利用自然语言查找信息。第二代搜索引擎可以将自然语言自动翻译成系统能理解的专业术语,进行精确查找。 (2)有判断地收集信息,根据众多网络用户行为特征来取舍信息。(3)人工分类。引入大量的人工对信息进行分类。强调人工分类的重要性。 此外,第二代的搜索引擎还有一个特点,他们只做后台技术,将技术提供给Yahoo 等门户网站。其中Google(https://www.360docs.net/doc/9c2224936.html,)是表现最为突出的。Google 于1998年9月发布测试版,是目前人们使用最广泛的搜索引擎。 Google 现为全球80多家门户和终级网站提供支持。Google 的优势是易用性和返回结果的高相关性。Google 提供一系列革命性的新技术,包括完善的文本对应技术和先进的PageRank 排序技术,后者可以保证重要的搜索结果排列在结果列表的前面。Google 还提供一项很有用的服务:“网页快照”功能。 目前,新一代的搜索引擎也己经进入了研制阶段,其最大特点就是大量智能化信息处理的引入,网络信息检索将步入知识检索和知识服务的领域。它的一个特征是能够解决文件格式问题,这就要求搜索引擎不仅能识别TXT 文件,也要能够识别PPT, Word, PDF,电子邮件等文件;另一个特征是把P2P 技术应用到网页的检索中,这样通过共享所有硬盘上的文件,目录乃至整个硬盘,用户搜索时无需通过Web 服务器,不受信息文档格式的限制,即可达到把散落在互联网上的不相关的人们关心的知识搜集起来,经过筛选,组织和分析返回给用户所需的信息。 国内目前已有很多关于搜索引擎的研究。百度搜索引擎[6]收录中文网页接近2亿,是全球最大的中文数据库。Baidu 搜索引擎的其它特色包括:网页快照,网页预览/预览全部网页,相关搜索词,错别字纠正提示,新闻搜索,Flash 搜索和信息快递搜索等。北大天 网搜索引擎是国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果,由北大计算机系网络与分布式系统研究室开发,有强大的搜索功能。除了WWW 主页检索外,天网还提供FTP 站点搜索(“天网文件”),为高级用户查找特定文件提供方便。同时,天网将FTP 文件分为电影和动画片,MP3音乐,程序下载,文档资源共四大类,用户可以像目录导航式搜索引擎那样层层点击,查找自己需要的FTP 文件。天网提供的服务还包括“天网目录”和“天网主题”。搜狐分类目录设有独立的目录索引,并采用百度搜索引擎技术,提供网站,网页,类目,新闻黄页,中文网址,软件等多项搜索选择。搜狐搜索范围以中文网站为主,支持中文域名。慧聪搜索引擎拥有超过2亿网页的中文信息库,提供网页,网站,新闻,地域,行业,MP3, Flash 等多种检索方式,具有互联网实时新闻搜索,高精度检索,分类查询,网站导航,企业与产品查询等功能。 目前的搜索引擎,每天使用爬虫在互联网上获取大量网页,这花去了大量的时间,对于面向大量用户的商业搜索引擎是非常合理的,但是对于只面向某一类型的网络,如校园网的搜索引擎,这无疑需要大量的计算资源和存储空间,这往往是得不偿失的。因此,对于校园网内搜索引擎,需要设计一种对资源要求低,灵活机动的方法。 参考文献: [1] 刘建国:《搜索引擎概述》,北京大学计算机与科学技术,1999年。 [2] 李晓明、刘建国:《搜索引擎技术及趋势》,《大学图书馆学报》,2000年第16期。</p><h2>我国搜索引擎评价研究的现状_问题及对策_马志杰</h2><p>我国搜索引擎评价研究的现状、问题及对策* 马志杰 【摘要】从评价指标、评价方法、评价对象、评价主体四个方面对我国搜索引擎评价研究进行总结和分析,指出其存在研究团队薄弱;理论基础薄弱,缺乏创新性;实践活动薄弱,缺乏实证研究;绩效评价研究较少;综合评价方法不太成熟等问题。为促进该研究,应坚持定性与定量相结合的发展方向;坚持用户导向开展搜索引擎评价工作;坚持理论与实践相结合,加强实证研究与创新研究;建立权威的搜索引擎评价组织;加强绩效评价。 【关键词】搜索引擎评价指标评价方法 Abstract:This paper summarizes and analyzes the research to the field of search engine evaluation from the aspects of evaluation index,evaluation methods,evaluation objects and evaluation subjects.And then it points out the main problems in the current search engine evaluation study,including weak research team;weak theoretical foundation,lack of innovation;weak practical activities,the lack of empirical research;less study of performance evaluation;less mature comprehensive evaluation method.To promote the research,it should be taken to adhere to the combination of qualitative and quantitative development direction,persist in the user-oriented search engine evaluation,uphold the theory and practice combine to strengthen empirical research and innovation research,establish the authoritative evaluation organization,and strengthen performance evaluation. Key words:search engine evaluation index evaluation method 随着互联网的迅速发展,搜索引擎已经成为互联网上访问全球信息资源的最重要的检索工具。搜索引擎的出现及其日益显著的重要性促进了关于搜索引擎的评价研究的发展。国内搜索引擎评价研究已经成为搜索引擎研究领域的一个热点问题,取得了一定的成果,然而也存在着一些不足。笔者现从评价的指标、方法、对象、主体4个方面就搜索引擎评价研究发展状况做出全面、系统的总结和分析,并在此基础上,深入探讨当前搜索引擎评价研究中存在的主要问题和发展策略。 1搜索引擎评价研究发展状况 1.1搜索引擎评价指标 1995年开始,国内开始了对搜索引擎进行比较和评价,但是由于搜索引擎自身的功能和规模问题,以及缺少搜索引擎评价技术的支持,对搜索引擎的评价、比较绝大多数仍然以定性描述为主[1][2][3][4]。这种评价方法局限于对单个搜索引擎各因素的描述和某几个搜索引擎之间的比较,却不能从整体上评价各搜索引擎的优劣。 随着搜索引擎评价研究的发展,国内出现了成套的整体性的搜索引擎体系评价研究。1997年,曾民族在综合国内外搜索引擎评价研究成果的基础上首次提出了一个综合性的搜索引擎评价指标体系,其中包括数据库规模和内容(覆盖范围、索引组成、更新周期)、索引方法(自动、人工索引,用户登录)、检索功能(布尔检索(含嵌套)、截词检索、字段检索、大小写有别、概念检索、词语加权、词语限定、特定字段限定、缺省值、中断退出、重复辨别、上下文关键词、查询集操作)、检索结果(相关性排序、显示内容、输出数量选择、显示格式选择)、用户界面(帮助文件、数据库和检索功能说明、查询举例)、查准率和响应时间7个方面的指标。这是国内最早的有关搜索 11 RESEARCH ON LIBRARY SCIENCE *本文系国家社科基金青年项目“网络信息资源的绩效评估体系研究”(项目编号:09CTQ029)的研究成果之一。DOI:10.15941/https://www.360docs.net/doc/9c2224936.html,ki.issn1001-0424.2013.04.007</p></div> <div class="rtopicdocs"> <div class="coltitle">相关主题</div> <div class="relatedtopic"> <div id="tabs-section" class="tabs"> <ul class="tab-head"> <li id="17889141"><a href="/topic/17889141/" target="_blank">搜索引擎的研究与实现</a></li> <li id="23635722"><a href="/topic/23635722/" target="_blank">搜索引擎研究新技术</a></li> <li id="23335555"><a href="/topic/23335555/" target="_blank">搜索引擎的设计与实现</a></li> <li id="1635715"><a href="/topic/1635715/" target="_blank">搜索引擎的检索技巧</a></li> <li id="10804019"><a href="/topic/10804019/" target="_blank">搜索引擎模型研究</a></li> <li id="19257176"><a href="/topic/19257176/" target="_blank">搜索引擎的实现</a></li> </ul> </div> </div> </div> </div> <div id="rightcol" class="viewcol"> <div class="coltitle">相关文档</div> <ul class="lista"> <li><a href="/doc/2d5117694.html" target="_blank">基于JAVA技术的搜索引擎的研究与实现</a></li> <li><a href="/doc/8214935078.html" target="_blank">搜索引擎的研究与实现</a></li> <li><a href="/doc/e38574982.html" target="_blank">全文搜索引擎的设计与实现-开题报告</a></li> <li><a href="/doc/326685227.html" target="_blank">基于JAVA技术的搜索引擎的研究与实现</a></li> <li><a href="/doc/a81925951.html" target="_blank">全文搜索引擎的设计与实现</a></li> <li><a href="/doc/0c14298989.html" target="_blank">主题搜索引擎的关键技术研究与实现</a></li> <li><a href="/doc/803823169.html" target="_blank">搜索引擎的研究与实现论文</a></li> <li><a href="/doc/d89590035.html" target="_blank">搜索引擎去重算法的研究与实现</a></li> <li><a href="/doc/376656732.html" target="_blank">全文搜索引擎的设计与实现(文献综述)</a></li> <li><a href="/doc/af734490.html" target="_blank">Web服务搜索引擎研究与实现</a></li> <li><a href="/doc/066510920.html" target="_blank">基于JAVA技术搜索引擎的设计与实现</a></li> <li><a href="/doc/811324560.html" target="_blank">基于开源框架的搜索引擎的研究与实现</a></li> <li><a href="/doc/c21023731.html" target="_blank">全文搜索引擎的设计与实现-文献综述</a></li> <li><a href="/doc/2710886504.html" target="_blank">搜索引擎的设计与实现</a></li> <li><a href="/doc/9c2224936.html" target="_blank">基于Solr的搜索引擎研究与实现</a></li> <li><a href="/doc/f29481514.html" target="_blank">基于JAVA的搜索引擎的设计与实现</a></li> <li><a href="/doc/02106230.html" target="_blank">关于搜索引擎的论文:浅谈搜索引擎</a></li> <li><a href="/doc/7616625659.html" target="_blank">智能搜索引擎的设计与实现</a></li> <li><a href="/doc/b017129657.html" target="_blank">全文搜索引擎的设计与实现</a></li> </ul> <div class="coltitle">最新文档</div> <ul class="lista"> <li><a href="/doc/9819183989.html" target="_blank">高三生物一轮复习免疫调节教案5篇</a></li> <li><a href="/doc/7c19336613.html" target="_blank">有关高三生物一轮复习必修一教案5篇</a></li> <li><a href="/doc/6119034775.html" target="_blank">高三一轮生物教案5篇</a></li> <li><a href="/doc/e419065680.html" target="_blank">高三生物一轮复习课教案</a></li> <li><a href="/doc/d919211553.html" target="_blank">高三生物一轮复习教学案走近细胞</a></li> <li><a href="/doc/d419211554.html" target="_blank">高三生物一轮复习教案</a></li> <li><a href="/doc/de19211552.html" target="_blank">高三生物复习课教案范文5篇</a></li> <li><a href="/doc/c219097537.html" target="_blank">高中生物一轮复习教案</a></li> <li><a href="/doc/c419097536.html" target="_blank">高三生物一轮复习 教案</a></li> <li><a href="/doc/b419158706.html" target="_blank">高三生物一轮复习教学案</a></li> <li><a href="/doc/8719195551.html" target="_blank">高三一轮复习生物:人体内环境和稳态 教案</a></li> <li><a href="/doc/4919231922.html" target="_blank">高三生物一轮复习免疫调节教案</a></li> <li><a href="/doc/3819258384.html" target="_blank">高三一轮生物教案</a></li> <li><a href="/doc/3719258383.html" target="_blank">有关高三生物必修一第一轮复习教案5篇</a></li> <li><a href="/doc/3719258382.html" target="_blank">高三生物人教版一轮复习教案</a></li> <li><a href="/doc/1519337783.html" target="_blank">(完整版)人教版高考生物一轮复习精品教案</a></li> <li><a href="/doc/ac19240264.html" target="_blank">二手车交易市场建设项目可行性研究报告</a></li> <li><a href="/doc/c419097534.html" target="_blank">汽车城项目可行性研究报告</a></li> <li><a href="/doc/c019097535.html" target="_blank">汽车城建设项目可行性研究报告</a></li> <li><a href="/doc/b419158705.html" target="_blank">新能源汽车科技园可行性研究报告</a></li> </ul> </div> </div> <script> var sdocid = "91d4bbc18bd63186bcebbc13"; </script> <div class="clearfloat"></div> <div id="footer"> <div class="ft_info"> <a href="https://beian.miit.gov.cn">闽ICP备16038512号-3</a> <a href="/tousu.html" target="_blank">侵权投诉</a>  ©2013-2023 360文档中心,www.360docs.net | <a target="_blank" href="/sitemap.html">站点地图</a><br /> 本站资源均为网友上传分享,本站仅负责收集和整理,有任何问题请在对应网页下方投诉通道反馈 </div> <script type="text/javascript">foot()</script> </div> </body> </html>