搜索引擎
《搜索引擎》 讲义

《搜索引擎》讲义一、什么是搜索引擎在当今数字化的时代,搜索引擎已经成为我们获取信息的重要工具。
那么,究竟什么是搜索引擎呢?简单来说,搜索引擎就是一种在互联网上帮助我们查找信息的系统。
它就像是一个巨大的知识宝库的管理员,能够根据我们输入的关键词或问题,迅速从海量的网页、文档、图片、视频等各种资源中筛选出与之相关的内容,并按照一定的规则和算法将这些结果呈现给我们。
想象一下,如果没有搜索引擎,我们要在无边无际的互联网世界中寻找特定的信息,那无异于大海捞针。
但有了搜索引擎,这一切就变得简单高效得多。
二、搜索引擎的工作原理搜索引擎的工作过程大致可以分为三个主要步骤:抓取、索引和排名。
首先是抓取,搜索引擎会使用被称为“爬虫”或“蜘蛛”的程序,自动访问互联网上的网页。
这些爬虫就像勤劳的小蜜蜂,不断地在网络中穿梭,收集网页的内容和链接。
然后是索引,搜索引擎会对抓取到的网页内容进行分析和处理,提取其中的关键信息,如关键词、标题、描述等,并将这些信息存储在一个巨大的数据库中,这个过程就叫做索引。
最后是排名,当我们输入关键词进行搜索时,搜索引擎会根据一系列复杂的算法,对索引中的相关网页进行评估和排序,然后将排名靠前的结果展示给我们。
影响排名的因素有很多,比如网页的内容质量、关键词的相关性、网页的权威性和可信度等等。
三、常见的搜索引擎目前,市面上有许多知名的搜索引擎,比如谷歌、百度、必应等。
谷歌是全球最大的搜索引擎之一,以其强大的搜索技术和广泛的搜索结果而闻名。
它不仅能够搜索网页,还能搜索图片、视频、新闻等多种类型的内容。
百度则是国内使用最为广泛的搜索引擎,它对中文内容的理解和搜索能力相对较强,并且提供了丰富的本地化服务和功能。
必应也是一款受到不少用户喜爱的搜索引擎,它在搜索结果的展示和用户体验方面有着独特的特点。
不同的搜索引擎在搜索算法、界面设计、搜索结果的侧重点等方面可能会有所不同,用户可以根据自己的需求和习惯选择适合自己的搜索引擎。
搜索引擎百科

搜索引擎百科搜索引擎是互联网时代的重要工具,它们通过收集、整理和展示网页信息,帮助用户高效地查找需要的内容。
本文将介绍搜索引擎的定义、发展历程、工作原理以及对社会的影响。
一、定义搜索引擎是一种互联网技术,通过建立全球性的网络索引库,实现对互联网上信息的搜索、索引和呈现。
搜索引擎的目标是根据用户提供的关键词,展示与之相关的网页。
二、发展历程1. 早期搜索引擎早期的搜索引擎如Archie、Gopher等,主要用于检索FTP和存档文件。
随着互联网的迅速发展,研究人员迎来了一个新的挑战,即如何有效地搜索和组织海量互联网信息。
2. 首批商业搜索引擎1990年代中后期,一些商业搜索引擎如AltaVista、Yahoo!等相继出现。
它们通过机器人抓取网页内容,并建立索引库,用户可以通过关键词搜索获取信息。
3. 谷歌的崛起1998年,谷歌成立,通过创新的PageRank算法,提供了更准确和高效的搜索结果。
谷歌的成功经验在于不仅仅关注关键词匹配度,还注重网页的权威性和链接质量,提供更有价值的搜索结果。
4. 移动搜索的兴起随着智能手机的普及,移动搜索成为新的趋势。
谷歌、百度等搜索引擎都推出了移动搜索应用,为用户提供随时随地的信息检索能力。
三、工作原理1. 爬虫抓取搜索引擎使用网络爬虫,也称为蜘蛛或机器人,自动访问网页并抓取页面内容。
爬虫根据链接关系进行遍历,将抓取到的页面存储到索引库中。
2. 索引建立搜索引擎通过建立索引,将抓取到的网页内容进行组织和存储。
索引通常包括网页标题、URL、正文内容等关键信息,以方便后续的搜索和检索。
3. 检索与排序当用户输入关键词进行搜索时,搜索引擎会根据建立好的索引库进行匹配,并根据一定的排序算法,将相关度较高的网页展示给用户。
常用的排序算法包括PageRank、TF-IDF等。
四、对社会的影响1. 信息检索便利搜索引擎解决了信息过载的问题,使得用户能够快速地找到所需信息。
无论是学术研究、生活服务还是娱乐信息,都可以通过搜索引擎轻松获取。
搜索引擎名词解释

搜索引擎名词解释搜索引擎是一种用于帮助用户在互联网上查找特定信息的计算机程序。
用户通过输入关键词或短语,搜索引擎会在其索引中查找与该关键词相关的网页、图片、视频和其他在线资源,并将结果以列表或排名的方式展示给用户。
以下是一些与搜索引擎相关的名词解释:1. 搜索引擎算法:搜索引擎算法是用于决定特定搜索查询的结果排名的一组规则和计算方法。
搜索引擎公司会保密其算法的具体细节,以避免滥用和操纵。
2. 搜索引擎优化(SEO):搜索引擎优化是一系列技术和策略,旨在提高网站在搜索引擎的排名和可见性。
SEO包括关键词研究、网站结构优化、内容优化、链接建设等活动。
3. 搜索引擎广告(SEA):搜索引擎广告是一种广告形式,通过在搜索结果页面上以有偿方式展示广告,帮助企业推广产品和服务。
常见的搜索引擎广告平台有Google AdWords和百度推广。
4. 网络爬虫:网络爬虫是搜索引擎算法中的核心部分,用于浏览互联网上的网页并将其存储到搜索引擎的数据库中。
网络爬虫会按照事先设定的规则和指令自动访问网站,并提取页面“标题”、“描述”和关键词等信息。
5. 自然搜索结果:自然搜索结果也被称为有机搜索结果,是通过搜索引擎算法根据网页的相关性和权威性来排名的结果。
自然搜索结果不需要付费,是根据搜索引擎认为最合适的内容来展示给用户。
6. 人工智能搜索:人工智能搜索引擎是利用机器学习和自然语言处理等人工智能技术来改进搜索结果的搜索引擎。
通过分析用户的搜索历史和行为,人工智能搜索引擎可以为用户提供更个性化和准确的搜索结果。
7. 垂直搜索引擎:垂直搜索引擎是指针对特定领域或行业的搜索引擎,例如电商搜索引擎、旅游搜索引擎等。
相比于通用搜索引擎,垂直搜索引擎提供更专业和精准的搜索结果。
8. 元搜索引擎:元搜索引擎是一种同时查询多个其他搜索引擎并将结果整合展示给用户的搜索引擎。
元搜索引擎可以提供更全面的搜索结果,并帮助用户节省时间,避免在不同搜索引擎之间来回切换。
《认识搜索引擎》课件

语义搜索
语义搜索是指搜索引擎能够理解自然语言,对用户输入的语义进行深入分析和理 解,从而提供更加准确和相关的搜索结果。例如,当用户输入一个较为复杂的查 询语句时,语义搜索能够理解用户的意图,并返回与该意图相关的搜索结果。
语义搜索的发展将进一步推动搜索引擎的自然语言处理技术,使用户能够更加自 然地表达自己的需求,提高搜索结果的准确性和相关性。
多模态搜索
多模态搜索是指搜索引擎能够接受多种媒体数据(如文本、图像、音频、视频等)作为输入,并返回与该输入相关的多种媒 体数据作为结果。例如,用户可以上传一张图片或一段视频进行搜索,搜索引擎将返回与该图片或视频相关的文本、图片、 视频等结果。
多模态搜索的发展将进一步拓宽搜索引擎的应用场景,使用户能够更加方便地获取多种媒体数据的信息,提高信息获取的多 样性和丰富性。
结果筛选
查看搜索结果的相关性
01
根据搜索结果与查询主题的相关程度,筛选出最符合需求的网
页或信息。
查看搜索结果的权威性
02
选择来自权威网站或知名媒体的结果,以获取更可靠的信息。
使用搜索结果的高级筛选功能
03
利用搜索引擎提供的高级筛选功能,如过滤不相关的结果、按
时间排序等,提高筛选效率。
04
搜索引擎的未来展望
反垃圾信息法
垃圾信息泛滥
搜索引擎作为信息传播的重要平 台,容易受到垃圾信息的侵扰, 影响用户体验和搜索引擎的正常
运营。
反垃圾信息法规
各国政府纷纷出台反垃圾信息法 规,要求搜索引擎采取有效措施
防止垃圾信息的传播。
反垃圾技术发展
随着技术的发展,搜索引擎应不 断加强反垃圾技术的研究和应用 ,提高垃圾信息的识别和过滤能 力,为用户提供更加纯净的搜索
常用的17大搜索引擎

常用的十七大学术搜索引擎1、/Google学术搜索滤掉了普通搜索结果中大量的垃圾信息,排列出文章的不同版本以及被其它文章的引用次数。
略显不足的是,它搜索出来的结果没有按照权威度(譬如影响因子、引用次数)依次排列,在中国搜索出来的,前几页可能大部分为中文的一些期刊的文章。
2、Scirus是目前互联网上最全面、综合性最强的科技文献搜索引擎之一,由Elsevier科学出版社开发,用于搜索期刊和专利,效果很不错!Scirus覆盖的学科范围包括:农业与生物学,天文学,生物科学,化学与化工,计算机科学,地球与行星科学,经济、金融与管理科学,工程、能源与技术,环境科学,语言学,法学,生命科学,材料科学,数学,医学,神经系统科学,药理学,物理学,心理学,社会与行为科学,社会学等。
3、/BASE是德国比勒费尔德(Bielefeld)大学图书馆开发的一个多学科的学术搜索引擎,提供对全球异构学术资源的集成检索服务。
它整合了德国比勒费尔德大学图书馆的图书馆目录和大约160 个开放资源(超过200 万个文档)的数据。
4、http://www.vascoda.de/Vascoda是一个交叉学科门户网站的原型,它注重特定主题的聚合,集成了图书馆的收藏、文献数据库和附加的学术内容。
5、/与google比较了一下发现,能搜索到一些google搜索不到的好东东。
它界面简洁,功能强大,速度快,YAHOO、网易都采用了它的搜索技术。
6、Google在同一水平的搜索引擎。
是推出的,Web result部分是基于Google 的,所以保证和Google在同一水平,另外增加了Amazon的在书本内搜索的功能和个性化功能:主要是可以记录你的搜索历史。
现在还是Beta,不过试用后感觉很好,向大家推荐一试,不过缺憾是现在书本内搜索没有中文内容。
7、严格意义上讲不是搜索引擎,是连接搜索引擎和网络用户的信息立交桥。
新一代的搜索引擎应运而生,Ixquick meta-search正是目前最具光芒的新星。
搜索引擎的原理

搜索引擎的原理
搜索引擎是一种能够帮助用户在互联网上查找信息的工具,它的原理主要包括三个方面,爬虫抓取、索引建立和检索排序。
首先,搜索引擎通过爬虫抓取来获取互联网上的信息。
爬虫是一种自动程序,它会按照一定的规则在互联网上抓取网页,并将这些网页的内容下载到搜索引擎的服务器上。
爬虫会根据链接的深度和页面的重要性来确定抓取的优先顺序,从而保证搜索引擎能够覆盖尽可能多的网页。
其次,搜索引擎会对抓取到的网页进行索引建立。
索引是一种结构化的数据,它包含了对网页内容的关键词、链接、图片等信息的索引。
搜索引擎会对抓取到的网页进行分词处理,将其中的关键词提取出来,并建立倒排索引,以便用户在搜索时能够更快地找到相关的信息。
最后,当用户在搜索引擎中输入关键词进行检索时,搜索引擎会根据索引中的信息进行检索排序。
检索排序是根据用户的搜索意图和网页的相关性来确定搜索结果的排名。
搜索引擎会根据网页的关键词出现频率、链接的质量、网页的权威性等因素来对搜索结果进行排序,从而让用户能够更容易地找到自己需要的信息。
总的来说,搜索引擎的原理是通过爬虫抓取、索引建立和检索排序来帮助用户在互联网上查找信息。
这一原理的实现涉及到大量的技术和算法,包括网页抓取、分词处理、倒排索引、链接分析等方面的内容。
通过不断地优化和改进,搜索引擎能够更好地满足用户的信息检索需求,成为人们日常生活中不可或缺的工具。
几种常用的搜索引擎

搜索引擎的主要功能包括网页内容检 索、图片检索、视频检索、地图检索 等,用户可以通过关键词输入,快速 找到所需信息。
搜索引擎的分类
全文搜索引擎
以爬取和索引网页全文为主要方 式,通过人工编辑和分类的方式,将 互联网上的网站进行分类整理, 用户可以通过目录逐层查找所需
额。
搜索算法
02
Google使用PageRank算法,通过分析网页之间的链接关系来
确定搜索结果的排序。
广告模式
03
Google采用AdWords广告系统,允许广告主在idu是市场份额最大的搜索引擎,占有约70、图片搜索、 视频搜索等。
2000年代初
2010年代至今
元搜索引擎出现,同时出现了垂直搜索引 擎、地域搜索引擎等多种类型。
随着移动互联网的发展,搜索引擎开始向 智能化、个性化发展,出现了语音搜索、 图像搜索等多种形式。
2023
PART 02
几种常用的搜索引擎介绍
REPORTING
全球市场份额
01
Google是全球市场份额最大的搜索引擎,占有约90%的市场份
Yahoo! Search
历史地位
Yahoo! Search是互联网早期的搜索引擎之一,具 有很高的历史地位。
搜索算法
Yahoo! Search使用自己的搜索算法,结合人工编 辑和机器学习技术来提供搜索结果。
广告模式
Yahoo! Search采用与Google类似的AdWords广 告系统,允许广告主购买搜索结果旁边的广告位。
结果筛选与排序
结果筛选
在搜索结果页面,可以 使用筛选功能来过滤不 相关的结果,如只显示 网页、图片或视频等类 型的结果。
如何正确使用网络搜索引擎

如何正确使用网络搜索引擎网络搜索引擎是一种强大的工具,可以帮助我们在互联网上找到所需的信息。
正确使用网络搜索引擎,可以提高我们的信息获取效率,培养良好的信息素养。
以下是一些关于如何正确使用网络搜索引擎的知识点:1.选择合适的搜索引擎:目前国内常用的搜索引擎有百度、搜狗、必应等,它们都具有搜索功能,可以根据个人喜好和需求选择合适的搜索引擎。
2.准确输入关键词:关键词是搜索引擎查找信息的关键,因此,在搜索框中输入关键词时,应尽量确保关键词的准确性和完整性。
3.使用高级搜索:高级搜索功能可以帮助我们更精确地查找信息。
通过设置筛选条件,如时间、地区、类型等,可以缩小搜索范围,提高搜索结果的准确性。
4.评估搜索结果:搜索引擎返回的搜索结果可能包含大量信息,我们需要学会评估这些信息的可信度和价值,选择权威、可靠的资料。
5.引用和注明出处:在使用搜索结果中的信息时,应注明出处,尊重他人知识产权。
同时,对于引用的内容,要确保其真实性和准确性。
6.避免滥用搜索引擎:搜索引擎并非万能,有些信息需要通过其他途径获取。
例如,学术研究、专业咨询等领域,应寻求专业人士的意见。
7.保护个人隐私:在使用搜索引擎时,要注意保护个人隐私,避免泄露个人信息。
同时,也要遵守国家法律法规,不传播违法信息。
8.培养良好的网络素养:正确使用网络搜索引擎,可以提高我们的信息获取能力,但同时也需要培养良好的网络素养,学会辨别信息真伪,拒绝虚假和不良信息。
9.关注网络安全:在使用搜索引擎时,要注意防范网络安全风险,如病毒、恶意软件等。
同时,也要警惕网络陷阱,避免上当受骗。
10.持续学习和更新知识:网络搜索引擎的功能和技巧在不断更新,我们需要持续学习,掌握最新的搜索技巧,提高自己的信息检索能力。
通过以上知识点的学习和实践,我们可以更好地利用网络搜索引擎,提高自己的信息素养,更好地服务于学习、工作和生活。
习题及方法:习题1:请列举出至少三个国内常用的搜索引擎。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
万维网Web自动搜索引擎(技术报告)邓雄(Johnny Deng) 2006.12网络时代的信息量每8个月翻一番,如今的网页以100亿来计算;网络搜索已成为仅次于电子邮件的第二大网络应用。
2005年中国互联网发展状况统计报告中也指出,用户在互联网上获取信息最常用的方法中,通过搜索引擎查找相关的网站占58.2%。
对于有效的搜索引擎技术的研究将具有巨大的学术及商业价值。
搜索引擎技术源自于信息获取(Information Retrieval)这个学科。
信息获取技术包含了信息的表述、存储、组织和对信息的访问方法。
一般的信息获取系统(基于文本的)通常只提供信息的获取,而对于基于超文本的系统来说,它可以方便将信息获取与浏览结合起来,同时由于万维网信息的规模大、内容不稳定、高度的数字化和网络化,这给万维网的信息获取带来了巨大困难。
目前的万维网Web搜索引擎可以分为三大类:全文检索搜索引擎:全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google () 、yahoo() 、AllTheWeb( ) 等,国内著名的有百度()、中搜()。
它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,也是目前常规意义上的搜索引擎。
目录搜索引擎:目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。
用户完全可以不用进行关键词查询,仅靠分类目录也可找到需要的信息。
国外比较著名的目录索引搜索引擎有yahoo()Open Directory Project(DMOZ)(/)、LookSmart()等。
国内的搜狐()、新浪()、网易()搜索也都具有这一类功能。
元搜索引擎:元搜索引擎在接受用户查询请求时,同时在其它多个引擎上进行搜索,并将结果返回给用户。
著名的元搜索引擎有Dogpile()、Vivisimo ()等,国内元搜索引擎中具代表性的有搜星搜索引擎(/),优客搜索()。
在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。
其他的像新浪()、网易()、A9()等搜索引擎都是调用其它全文检索搜索引擎,或者在其搜索结果的基础上做了二次开发。
Web搜索引擎,这里,是指一种在Web上应用的软件系统,它以一定的策略自动地,在Web上搜集和发现信息,在对信息进行处理和组织后,为用户提供Web信息的查询服务。
在使用者的角度看,这种软件系统提供一个网页界面,让他通过一个浏览器提交一个查询关键词或短语,然后很快返回一个可能和用户输入内容相关的信息列表。
这个列表的每个条目代表一篇网页,每个条目至少包含三个元素:1)标题:该网页内容的标题。
2)URL:网页对应的全球统一定位地址。
3)摘要:该网页内容的概述。
即前述第一类搜索引擎。
一、Web搜索引擎基本原理与技术1.搜索引擎的历史搜索引擎技术部分源自于信息获取技术。
这里我们仅阐述搜索引擎的发展历史。
1990年,为了搜集散布于网络上的FTP资源,加拿大McGill大学的计算机学院开发了名为Archie的FTP搜索引擎。
此时,Web尚未出现,Archie被公认为现代搜索引擎的鼻祖。
1993年,Matthew Gray开发了World Wide Web Wanderer,它是世界上第一个利用HTML网页之间的链接关系来监测Web发展规模的机器人(robot)程序。
1994年7月,Michael Mauldin将John Leavitt的蜘蛛程序(spider, crawler, robot)接入到其索引程序中,创建了著名的Lycos,这是第一个现代意义的搜索引擎。
1998年,Google正式诞生。
Google起源于斯坦福大学的BackRub项目。
1999年推出的AlltheWeb目前由Yahoo!运行。
1998年左右的Ask Jeeves是一个自然搜索引擎,它能让用户输入问题来获取查询结果。
此外,还有著名的HotBot,temoa,Overture,AltaVista,Metacrawler, SavvySearch等搜索引擎。
在中国,1997年,诞生了国内最早的搜索引擎天网,并于2004年推出了其更新版本,它是一个公益性质的搜索引擎。
2000年,由华人学者创立的百度商业搜索引擎,至今仍然处于中国搜索引擎的领先地位。
2.Web搜索引擎工作原理与体系结构如果将搜索引擎看作一个黑盒,那么,我们可以这样定义一个搜索引擎的功能:在一个可以接受的时间内返回一个和用户查询(记作q)匹配的网页信息的列表(记作L)。
如图1。
图1 搜索引擎示意图现代大规模高质量搜索引擎一般采用如图2所示的工作流程:图2 搜索引擎的三段式工作流程网页搜集阶段:搜索引擎服务的基础是一大批预先搜集好的网页,获取这些网页就是在网页搜集阶段需要完成的工作。
严格来讲,网页搜集阶段只考虑对海量网页数据的抓取和原始存储两个关键活动。
对于网页的抓取可以利用先深/先宽以及其他组合策略(目的是搜集到尽量重要尽量多的网页);对于抓取网页的维护可以采取定期搜集,增量搜集等方式。
预处理阶段:预处理过程主要指从网页集合形成倒排文件的过程(倒排文件(inverted file)是目前公认最有效的搜索引擎索引数据结构,是用文档中所包含关键词作为索引,文档作为索引项的一种数据结构),主要包括四个方面:关键词提取(提取能够代表网页内容的一些特征,对中文而言主要采用“切词软件”切出关键词),网页消重(尽可能过滤“镜像网页”和“转载网页”),链接分析(通过对词频,文档频率,HTML标记,链接信息等分析来指示文档的相对重要性和内容的相关性等)和网页重要程度计算(预处理阶段的重要程度计算主要通过链接引用,网页自身的某些特点建立重要性指标)。
服务阶段:查询服务负责依据用户提交的查询词或短语生成一个满足一定排序要求的结果网页列表(我们假设用户是希望结果网页包含所输入查询文字的),主要实现三个方面的主要功能:查询词切分(查询词切分词表理论上必须包含在倒排文件词表中),结果排序(依据诸如查询词、用户背景、查询历史等建立查询过程中相关性指标,并与与处理阶段的文档重要性指标一起形成一个排序结果),文档摘要(包括了静态方式和动态方式,前者独立于查询,按照某种规则,实现预处理网页获取摘要;后者在响应查询时,依据查询词在文档中的位置,提起周围文字,并标亮查询词)。
基于上述流程,现代大规模高质量搜索引擎的体系结构示意如图3a及图3b:图3a:搜索引擎的体系结构其中大部分模块和前面的原理有直接对应。
所以仅着重讨论“控制器”模块。
为了向大规模搜索引擎稳定地提供网页数据,通常需要每天搜集千万级网页(Sogo搜索目前已能到达亿级的更新量),而且是持续进行,核心是要综合解决效率、质量、“礼貌”等问题。
这就是控制器的作用,即:利用控制器来综合控制抓取时利用的资源(计算机设备、网络带宽、时间等),控制与被抓取网站的关系(既不要过于密集抓取一个网站,又不会漏点重要的站点),控制在有限的时间搜集的网页的重要程度(相对更“重要”的网页),控制相同网页不被重复抓取等等细节问题。
图3b搜索引擎的体系结构“网络蜘蛛”从互联网上抓取网页,把网页送入“网页数据库”,从网页中“提取URL”,把URL送入“URL数据库”,“蜘蛛控制”得到网页的URL,控制“网络蜘蛛”抓取其它网页,反复循环直到把所有的网页抓取完成。
系统从“网页数据库”中得到文本信息,送入“文本索引”模块建立索引,形成“索引数据库”。
同时进行“链接信息提取”,把链接信息(包括锚文本、链接本身等信息)送入“链接数据库”,为“网页评级”提供依据。
“用户”通过提交查询请求给“查询服务器”,服务器在“索引数据库”中进行相关网页的查找,同时“网页评级”把查询请求和链接信息结合起来对搜索结果进行相关度的评价,通过“查询服务器”按照相关度进行排序,并提取关键词的内容摘要,组织最后的页面返回给“用户”。
上述体系结构可以进一步细化为如下所示的示意性系统结构,如图4:图4 搜索引擎设计模块结构图中A表示搜集部分,B表示整理(即预处理),C代表服务部分。
图4C 网页搜集模块结构●其中A部分可以进一步细化为图4C所示的信息搜集模块。
网页的搜集从URL库中获得输入,解析URL中标明得Web服务器地址、建立连接、发送请求和接受数据,将获得得网页数据存储在原始网页库,并从其中提取链接信息放入网页结构库,同时将待抓取的URL放入URL库,保证整个过程迭代进行,知道URL库为空。
这里需要尤其提到如下4个问题:1)网页得原始网页存储库一般不能利用传统的大型关系数据库实现,这是因为,一般的大型关系数据库不能满足大规模搜索引擎的对原始网页信息处理要求,主要表现在:原始网页信息的存储格式应当适宜长期保存,并易于处理(利于索引,查询优化等),可以作为终端常品直接提供用户使用,同时由于数据的海量性,存储格式还应具备隔离错误的能力。
因此,一般采用基于文件的存储格式,甚至直接跳过操作系统层,直接访问磁盘扇区和磁道。
2)避免网页的重复搜集,可以采用记录未访问、已访问URL和网页内容摘要(MD5)和记录域名与IP对应表(域名与IP是多对多的关系)来尽可能的控制重复。
3)首先搜集重要的网页;4)搜集信息的类型(MIME类型)。
●B部分(信息预处理):经过Web信息搜集,保存下来的网页信息已经按照特定的格式保存。
因此这部分的第一步就是为原始网页建立索引,有了索引就可以为搜索引擎提供网页快照功能;接下来针对索引网页库进行网页切分,将每一篇网页转化为一组词的集合;最后将网页到索引词的映射转化为索引词到网页的映射,形成倒排文件,同时将网页中包含的不重复的索引词汇聚成索引词表;此外,基于网页之间的结构信息(链接,HTML标签等)分析网页的信息重要程度,构建网页的ranking等元信息。
这一部分的关键技术点在于以下3方面:1)基于海量数据的索引算法;1)基于中文的自动分词处理;3)PageRank算法及策略。
●C部分(查询服务):传递到服务阶段的数据包括索引网页库、倒排文件及网页元信息。
查询代理接受用户输入的查询短语,切分后,从索引词表和倒排文件中检索获得包含查询短语的文档并利用PageRank等元信息以及查询的历史日志等信息综合计算结果集的重要程度,排序返回给用户。
3.性能及质量优化●搜集子系统:可扩展性主要基于并行处理技术实现搜集子系统,可能的策略是,采用一个节点(可以认为是一台PC机)内部的多个抓取进程(线程)的并行和节点间的并行相结合。
示意如图5:图5:分布式Web搜集系统结构图中,协调进程之间两两建立起连接,形成一个逻辑全互联关系,直接传递它们之间的交叉URL。