高级文件搜索引擎核心功能的实现技术

高级文件搜索引擎核心功能的实现技术
高级文件搜索引擎核心功能的实现技术

高级文件搜索引擎核心功能的实现技术

陈华李晓明

北京大学计算机科学技术系 100871

摘要

基于Web的FTP文件搜索引擎作为专门查找文件的工具越来越受到人们的关注。虽然Ftp搜索引擎技术上没有象WWW搜索引擎那样完善,但一些FTP搜索引擎已经提出了许多方便实用的新兴功能。这些功能的实现使得Ftp搜索引擎使用上越来越方便,查全率和查准率大大提高,促使了Ftp搜索引擎从专业性比较高的工具变成了大众化的获得网络文件资源的入口,为更有效的利用网络共享资源提供方便。本文参考北大“天网文件搜索引擎”的各种新兴功能实现策略,提出了从简单FTP搜索列擎改进成具有强大功能的高级文件搜索引擎的方法与技术要点。

关键字 Ftp搜索引擎文件搜索天网搜索新兴功能

Realization technique of powerful file search engine

Abstract

Ftp search engine , as a professional file search tool is widely used today. The technology of ftp search is no ideal like WWW search, but some ftp search engines have realized many new functions which make ftp search more powerful and more convenience, and ftp search engine become a popular entry to get network resource. This article base on the strategies of “Tianwang” file search , talk about the technology and method to develop a simple ftp search engine to a powerful file search engine. Keyword ftp search, file search , Tianwang

1 引言

在因特网上存在着、流动着各种各样的信息,例如email信息、BBS信息、OICQ 信息、被HTTP服务器管理的HTML网页,还有被FTP服务器管理的各种类型的文件。后者是本文关心的对象,它们的典型代表是各种学术和技术文件、计算机软件、多媒体数据。多数FTP服务器都开辟有一个公共访问区,称为“匿名FTP”,对公众提供免费的文件信息服务。FTP搜索引擎的功能是搜集匿名FTP服务器提供的目录列表,对用户提供文件信息的查询服务。由于FTP搜索引擎是专门针对各种文件的,因而相对WWW搜索引擎,寻找软件、图像、电影和音乐等文件使用FTP搜索引擎将更加方便直接。

北京大学网络与分布式系统实验室开发的“天网文件搜索引擎”,作为国内外Ftp搜索引擎中的佼佼者,从1999年最初的简陋的百万级FTP搜索引擎进化成今天的实现了许多新兴的方便而强大功能的千万级文件搜索引擎,促进了Ftp搜索引擎大众化的发展。今天,平均每日访问“天网文件搜索引擎”的人数已经超过40万人次,

月访问量超过一千三百万人次。“天网文件搜索引擎”已经成为国内查找文件资源的最主要的门户网站。以下我们将介绍文件搜索引擎的各种新兴功能并详细解说这些新兴功能的实现策略。

2 文件搜索引擎的新兴功能

搜索引擎是否吸引用户,光看数据量是不够的,因为即使在同样的数据量下,各个搜索引擎可以实现的数据挖掘结果各有区别,而这个就很大程度上影响了用户找到需要的文件。

早期的Archie就已经提供了很多搜索功能和选项,后来的FTP搜索引擎很大程度上都是模仿了Archie,这些功能或选项包括:

a、支持*,?等与或操作符

b、支持多种查询模式,如是否大小写区分,是否子串匹配或精确查询等

c、支持文件大小、最后修改时间等过滤选项

d、支持多页面显示查询结果,常见的换页方式有索引式和下一页式

这些功能或选项是各种文件查询系统都应该支持的基本功能,我们称之为Ftp搜索引擎的基本功能选项。

当今的Ftp搜索引擎技术在发展,其功能也日新月异。我们考查许多Ftp搜索引擎,列出下列区别于基本功能选项的新功能,这些功能选项以其简单方便成为一些Ftp搜索引擎的亮点,我们称之为“新兴功能”:

a、支持指定站点的站内文件查询

b、结果排序,例如按时间、大小、站点等的排序

c、查询结果中的再查询

d、支持分类目录,例如提供许多常用的查询供用户选择

e、支持查询系统的文件分类,指在一个扩展名集内的查询,如查电影

f、提供FTP站点在线与否的状况显示

g、支持在线的站点登记

“天网文件搜索引擎”很好地实现了上述大部分新兴功能,这些功能成为“天网文件搜索引擎”吸引用户的关键。在以下叙述中,我们将从一个最简陋的系统出发,来叙述如何实现一个强大功能的文件搜索引擎。

3 最简陋的文件搜索引擎

最简陋的文件搜索引擎是指能够实现当输入一个查询串时,系统给出文件名符合

字符串匹配的所有文件的信息。参考“天网文件搜索引擎”的在1999年最初的结构,我们给出如下系统原型:

1)基本的系统数据:索引、属性表和文字信息表。

将搜集到的Ftp文件数据分解成三类:一是索引,用于字符串匹配,在用数据库实现的字符串匹配算法里,索引可能是不可见的;二是文件属性表,包含文件的全局唯一ID和文件的时间大小等结构化的各种属性;三是文字信息表如文件名和所在路径等非结构化的数据,在数据库实现的系统里,可能和文件属性表混合在一起。

2)输入输出界面

包抬从Web页面的表单获得查询请求并转换成中心查询服务器可以认识的内部结构和以及输出结果页面。

3)字符串的匹配算法

字符串的匹配是指如何获得文件名匹配查询字符串的文件列表的算法。在使用现成数据库实现的系统里,字符串匹配可以使用SQL语言的LIKE实现,如果是使用倒排索引的系统,可以采用倒排表的归并获得查询结果。具体算法请参考[1]或者其他相关搜索引擎技术文档。

4)中心查询服务器

协调多个并发查询请求,利用字符串匹配算法计算匹配结果,并把匹配中的文件的字符串信息和文件属性传给输出程序格式化成美观的WWW页面输出给用户。

4 字符串匹配的扩展-Cache的妙用与结果中再查询的实现策略

在最简陋的文件搜索引擎里,已经实现了字符串匹配的算法,在这里我们对其进行一些扩展以便加快搜索的速度并增加新的功能。由于字符串的匹配需要大量的时间,因而把字符串匹配的结果保存起来以便下次再使用是十分必要的。究竟是仅仅把字符串匹配的结果保存起来还是把限制了时间大小等查询选项以后的查询结果保存起来作为cache呢?我们认为由于大部分用户查询时都是使用没有任何限制条件的单纯文件名匹配,同时对于常见查询可能有的用户限制了条件,有的用户没有,如果把限制条件也作为Cache标签的一部分则会导致Cache过多同时命中率下降Cache的利用率也下降,因而仅仅把字符串匹配命中的结果保存起来是比较好的办法。

这样我们可以用用户的查询串作为标签,把字符串匹配的结果索引表保存起来。在“天网文件搜索引擎”里,我们使用文件来实现Cache,把用户的查询串转换成16进制表示的字符串作为文件名(因为查询串中可能存在各种非法的不能做为文件名的字符),把命中的索引表保存在Cache文件里面。另外,启动一个单独的进程每隔十分钟检测一次所有Cache的最后访问时间,如果30分钟内某个Cache文件没有被访问,则说明这个Cache已经没有存在价值,可以删除。

使用了Cache后,对于新来的查询,就没有必要都重新做一次字符串的匹配,首先要做的就是查看Cache是否命中,如果命中,直接返回Cache中的已知结果索引表,否则再按原来的字符串匹配算法进行匹配。

当使用了Cache后,实现结果中再查询就十分简便了。结果中再查询的功能在很多WWW搜索引擎都有实现,而在Ftp搜索引擎里实现这个功能的只有北大“天网文件

搜索引擎”。我们实现结果中再查询主要就是依靠父查询中的Cache。首先在查询结果的WWW页面里,如果当前查询结果数不为0,则生成一个“结果中再查询”的表单,这个表单把当前查询作为结果中查询的父查询,把一个输入框的内容作为子查询。当用户提交这个“结果中查询”的表单后,服务器首先把父查询的查询串去命中Cache,如果没有命中,说明父查询结果为0,则直接返回空查询结果,否则提取父查询结果,并计算子查询的结果,将两个查询结果做并操作(就是合并两个结果索引表中ID相同的项),生成了结果中再查询的结果,把这个结果以“子查询字符串+父查询字符串”作为标签保持在Cache里,以便下次使用。

支持Cache和结果中再查询的字符串匹配逻辑如下:

图【1】使用Cache并支持结果中再查询的字符串匹配逻辑

5、属性过滤的扩展-实现文件分类和指定站点的站内查询

在传统的Ftp搜索引擎里,就支持各种属性过滤,比如文件大小和文件最后

修改时间的过滤。属性过滤需要对每个文件名匹配中查询字符串的文件比较其文件属性是否符合查询要求。把属性过滤的功能进一步发展,我们就可以实现文件分类与站内查询。

每个文件都有很多属性,我们把文件名和它所在的路径算作字符串信息而不是文件属性,因为文件名和路径信息等非结构化的数据在搜索引擎里因为索引的存在实际匹配过程中并没有使用到,如果作为文件属性与时间大小等结构化大小确定的属性混合放在一起会导致文件属性表所占空间巨大,扫描整个文件属性表时间就会下降,从而导致搜索速度的下降。而如果文件属性表仅仅包含一些确定长度的结构化短数据,则计算上更为简洁,甚至可以把整个文件属性表放到内存里以加快搜索速度。在“天网文件搜索引擎”里,我们在文件属性表里保存以下信息:文件大小、文件的最后修改时间、文件所在站点的IP、文件名(不包含扩展名)的长度、文件分类的编号、该文件的文字信息所在地址。

为什么要使用文件分类呢?这是我们对用户查询行为的一个分析结果。我们统计了FTP搜索引擎的84万次用户输入的查询串,得到查询串类型分布图图【2】。图中 I 表示仅仅输入关键字查询的类型比例,II 表示仅仅输入扩展名查询的类型比例,III表示输入了全文件名类型比例。

图【2】查询匹配串的类型分布

由图【2】可见,大部分的用户查询时都是仅仅输入一个关键字,而无法提供具体的扩展名。对于普通用户而言,扩展名是一个比较难理解的东西,例如电影文件,可能的扩展名为“.rm”、“.mpeg”、“.dat”等等,为了查找电影而要求用户提供扩展名会使得普通用户对查询系统望而却步。但是,用户不提供扩展名而在整个数据库里查询就有很多不符合用户需要的查询结果,比如查询某个程序的下载地址确得到了该程序的源代码下载地址,从而使得查准率不高。因而普通用户查询文件的时候他(她)可能需要的是某种类型的文件,而不是特定扩展名的文件,例如用户可能希望查询到音乐文件,但他(她)并没有限定是“.mp3”文件还是“.au”文件。即使用户知道扩展名的情况下,为了查到一首歌的所有的下载地址,他(她)必须为这首歌指定多个扩展名,否则就可能漏掉许多的下载地址,而这往往很麻烦,实现上也不容易。

为了解决记忆扩展名对普通用户的负担以及实现在一个大类别里的文件查询,可以将所有文件分为几种简单的文件格式类型,用户查询时只需指定他需要的文件格式类型而不用指定具体的扩展名就可查询。为了进行文件按扩展名分类,建立了文

件类型库。它对每类文件给于一个编号以及属于该类型的所有扩展名。在“天网文

件搜索引擎”里,各分类的扩展名包括:

1)图象:jpg, gif, bmp, jpeg, pcx, tif, tiff, wmf, psd, tga, pic, png, pcd, dib, rle, iff, lbm, ilbm, jpe, jif, dcx, ico

2)声音:mp3, wav, cda, mid, au, mp1, m3u, mjf, as, voc, xm,

s3m, stm, mod, dsm, far, ult, mtm, mp2, mpa, mpga, 669, aac, mp4, vqf, pls, xpl, lrc, rmi, midi, snd, aif, aifc, wma, wax, aiff, rms

3)视频:mpeg, mpg, avi, rm, swf, ram, rmm, ra, rmj, vob, asf, asx, wvx, wmv, wm, m1v, wmp, ivf, smi, mpv2, mp2v, smil, rp, mpv, ssm, rv, mpe, rf, rt

4)压缩:zip, arj, gz, tar, tgz, cab, z, arc, b64, bhx, hqx, lzh, mim, taz, tz, uu, uue, xxe

5)文档:txt, doc, htm, html, ppt, exl, mdb, asp, asa, php, js, rtf, wri

6)程序:exe, com, bat, dll, class, out, ocx

7)源代码:cpp, c, h, hpp, pas, bas, java, asm, perl, inc, cxx, tli, tlh, hxx, inl, def, odl, idl

100)目录。目录类型由文件条目属性决定。

0)其它。所有不在上述范围内的文件归类到其它中。

当我们建立文件属性表时,如果非目录,则提取文件的扩展名,用二分法在所

有有编号的扩展名里查找,如果找到返回对应编号,否则返回0。文件分类示意图

如图【3】

图【3】文件分类示意图

完成文件分类后,就可以进行按类别的文件查询。由于文件类别只是作为文

件属性的一项,我们可以把文件类别过滤作为普通的属性过滤来处理。同理,由于

文件所在站点IP也作为文件的属性,因而也把指定站点的站内文件搜索作为普通的

属性过滤来处理,只要文件属性中的站点IP与用户要求的站点IP相同则属性过滤

通过。

但是,分析Ftp搜索引擎的查询日志,我们发现文件类别过滤的使用率远远

高于时间和大小过滤,而且当站内查询被其他站点引用之后站内查询的使用率也十

分之高,对于每个查询如果都对所有的属性进行过滤将对搜索速度影响很大。在“天

网文件搜索引擎”里,我们区分两种搜索模式:简单搜索模式和复杂搜索模式。在

简单搜索模式里面,属性过滤仅仅过滤文件类型和站点IP,而在复杂搜索模式里,属性过滤就包含了文件大小,文件最后修改时间,精确匹配等等比较少用的操作。

另外,属性过滤应该把需要输出给用户的结果单独过滤出来,因为一般查询结果只显示几十项,并用分页来处理大量的查询结果。这个需要起始显示结果号和当前页面的最大显示结果项数。这样,经过属性过滤后的查询结果就可以直接输出,而且由于只剩下可以显示的几十个项,因而输出速度大大加快了。经过扩展后的属性过滤流程如下:

图【4】一个结果项的属性过滤和所有字串匹配结果的属性过滤

6 查询结果的多种排序方式与优化

结果的排序是十分重要的,比如找电影,可能需要文件大小最大的,找软件,可能需要最新版本的。许多Ftp搜索引擎都实现了结果排序,比如文件大小和文件最后修改时间以及站点IP的排序。“天网文件搜索引擎”还实现了独具特色的相关度排序,这样短查询也可以十分精确地找到查询结果。另外“天网文件搜索引擎”

的排序是放在结果页面里面的,用户可以象切换频道一样随意切换排序方式,十分方便。

排序算法可以采用各种现成的排序算法,如快速排序、堆排序等等,堆排序对任何数据都有lg(n)的速度,因而是比较合适的排序算法。把排序算法加一个参数,以便用同一个算法可以对各个不同属性进行排序。

在文件搜索里面,相关度的概念与WWW搜索有所区别,我们把结果的文件名与用户查询串的相似度作为相关度,由于查询结果肯定符合了查询串,因而查询结果里面文件名越短相关度就越高。考虑大部分用户查询时只输入关键字而不输入扩展名,我们在计算文件名长度时只计算排除了扩展名后的长度。这样用户输入一个短的查询串,可以在不考虑扩展名的情况下进行相关度的排序,十分方便查询短文件名的文件。

在上述的属性过滤策略里,由于我们对于属性过滤不成功的结果项直接抛弃,因而排序的工作就必须放在属性过滤之前。

在实现上述扩展后,对于一个查询,它的流程如图【5】:

图【5】 服务器流程图

7. 结果输出的智能换页方式

由于大部分情况下搜索结果在一个页面内显示不了,因而要采用换页机制。即CGI程序向服务器提供起始显示结果号和每页的最大显示项数,由服务器过滤,将可显示的结果信息返回给CGI程序,这样可以大大减少网络流量,降低运算代价。CGI程序由起始显示结果号和服务器给出的结果总数生成换页链接。在北大“天网文件搜索引擎”里,我们采用了一种智能的换页方案:将当前的起始显示项号对应的链接放在链接表的中间,以最大显示项数为间距生成有限个向后和向前的链接。这样用户可以保持鼠标不动的情况下,以相同的间距向前或向后翻页。如图6所示为最大显示数为20时的一种情况:

0 20 50 70 90 110 130 150 170 190210 230 250 270 290 310

50 70 90 110 130 150 170 190 210 230250 270 290 310 330 350

90 110 130 150 170 190 210 230 250 270290 310 330 350 370 390

▲鼠标不动,每次跳过40个

图【6】一种智能的换页方案

为了使得界面更为灵活,将算法和界面分离的模板技术是十分方便有用的。模板技术的使用,使得多语言版本实现成为可能,也为以后可能的应用服务提供基础。简单的模板可以采用Html语法里的注释作为模板插入点,这个注释是不可见的,因而很方便编辑模板。当CGI要显示结果的时候,它逐行读入模板文件,如果找到特定注释,则用CGI里的特定信息字串代替它,否则直接输出。

在结果页面使用模板技术后,搜索引擎就可以提供多语言的版本了。一方面,静态页面比如查询输入页面可以用手工的方法制作各个语言版本的页面,另一方面,查询结果显示的页面,制作特定语言的模板即可。但CGI也许要做些改动,因为“结果中再查询”的表单和翻页索引里可能存在语言相关的字符。目前“天网文件搜索引擎”提供简体中文和英文两个语言版本,并在CGI里已经实现里繁体中文的支持。

8.分布式搜索引擎与Ftp搜索引擎到通用文件搜索引擎的进化

当搜索引擎搜集的站点数目越来越大,数据量也同步很大时,单部PC机完成所有的搜集建库工作就显得比较艰辛。一方面内存成为瓶颈,因为按目前的情况,一千万的文件条目需要700M的空间存放索引和数百兆的空间存放文件属性,而属性由于基本每个查询都需要过滤扫描,因而一般放在内存里,由于搜索引擎的搜集范围的扩大,所需内存马上就会超过数千兆,这是普通服务器所难于承受的。另一方面,站点数目的增多使得重新刷新一次数据库所需的时间增大,如果都放在一台服务器上刷新周期太长,不能更快的体现ftp站点的变化。所以使用多个服务器进行分布搜集数据和分布搜索是未来发展得方向。

“天网文件搜索引擎”支持了分布搜集和分布搜索,这为系统的未来扩展垫下基础。在上述Ftp搜索引擎原有结构上实现多服务器的分布数据搜集和分布搜索并不难,因为在系统的Server/Client结构为系统的分布提供基础,CGI与服务器之间用标准的TCP/IP协议通讯使得系统甚至可以分布在不同的操作系统平台上。将多个独立的搜集服务器分别搜集不同网段的ftp站点并为这些站点数据的搜索提供独立的查询服务,令CGI分别连接到各个查询服务器,将各个服务器得搜索结果合并后输出给用户。这样,我们并没有改动服务器端的任何代码,在服务器的所作改动就是限制其站点列表数据库,使得各个服务器的站点列表数据库没有交集。而在CGI客户端,通过系统配置可以知道各个服务器的地址,CGI将搜索请求发给各个服务器,计算总的结果数,并确定可以显示的结果范围,最后输出给用户。在用户看来,多个服务器的存在一点没有改变查询的过程与结果,也就是说,系统的分布式是对用户透明的。

在实现分布式支持之后,搜索引擎就可以做进一步扩展。

1)将搜集数据与查询服务分离:

当查询服务请求量很大时,由于搜集数据耗费很大的网络带宽,往往

导致查询服务的速度下降,因而应该分离搜集数据与查询服务。图【7】a是“天网文件搜索引擎”早期为了处理大用户量请求和搜集范围扩大的冲突而采用的系统分布方案:

2)多个查询服务器实现负载均衡

当用户量十分大的时候,单个查询服务器就显得繁忙,由于搜索引擎数据的更新频率不是很高(最多一天更新一次就足够了),因而可以考虑配置多个查询服务器来均衡查询的负载,而使用单一数据搜集服务器来为两个查询服务器更新数据。图【7】b是“天网文件搜索引擎”在用户量超过每日30万且服务器配置比较低的情况下的系统分布方案:

图【7】b多个查询服务器负载均衡

3)Ftp搜索引擎到通用文件搜索引擎的进化

由于WWW网页上共享的软件越来越多,许多非专业用户根本就不知道FTP是什么,他们下载软件都是直接到Web网站上点击下载地址直接下载。如果能够把WWW上的文件URL也融合到Ftp搜索引擎里,则用户可以找到的资源将增加许多,而且由于WWW网站的稳定性一般比FTP 网站高,软件下载的成功率也大大增加。如果已经有了大量的WWW文件URL,转换成Ftp搜索引擎本身的系统数据并不是很难,只需要对每个URL用HTTP的HEAD请求获得它的最后修改时间和文件大小等属性就可以如同处理FTP文件一样为它建立索引,提供查询了。如果在查询服务器端不直接输出协议标志字串如“http”、“ftp”,仅仅输出查询命中文件的路径和属性,则可以在CGI端依靠配置文件来判断一个查询服务器提供的

是“http”文件还是“ftp”文件然后生成正确的下载链接。这样就可以在

不修改查询服务器任何代码的情况下实现了多种协议文件的支持。北京大

学“天网搜索”包含了WWW搜索引擎和FTP搜索引擎,因此我们从

WWW搜索引擎的数据里提取我们感兴趣的文件链接(排除html文件和

部分图片,因为WWW里面图片和网页太多,而仅仅从文件名基本上无

法分析得到可以用的信息),转换成FTP搜索引擎里面的文件数据格式,

并建立索引。这样,FTP搜索引擎就进化成为通用的文件搜索引擎,而不

仅仅是FTP的文件搜索了。图【7】c是北大“天网文件搜索引擎”(从“天

网文件搜索引擎”进化而来)同时提供国内FTP文件查询、国外FTP文

件查询、国内WWW文件查询后的系统分布方案(由于国外FTP文件和

国内WWW文件的更新比较慢,所以没有提供专门的数据搜集服务器,

只是一次性搜集数据建库然后提供查询服务)。在这个方案里,由于查询

的入口没有改变,在用户看来,使用查询的方式并没有任何变化,变化的

仅仅是多了许多可以用的查询结果。

图【7】c包含国外FTP文件和国内WWW文件后的文件搜索引擎

9. 外挂的站点在线状况分析系统

由于Ftp站点具有一个特性就是不稳定,如何使得用户在查询的时候就知道站点是否是可以连接的呢? 还是把无法连接的查询结果直接去掉不显示给用户呢? 由于站点是否可以连接具有地域相关性和时间相关性,就是从搜索引擎的角度看该站点可能无法登陆但是从用户的角度却可能可以登陆,因而如果把从搜索引擎角度看到的无法连接的查询结果全部去掉是不合理的。

为了保证搜索引擎的速度,不可能在用户查询的时候实时的去检测查询结果所在站点是否可以连接,因而可以考虑一个外挂的检测系统来产生一个站点是否在线的列表。由于站点是否在线只有“是”与“否”两种状态,因而站点是否在线的列表可以只是不在线站点的列表或者在线站点的列表。由于判断站点是否在线是不精确的、存在地域相关和时间相关性,因而在“天网文件搜索引擎”里,我们采用了不在线站点列表,即我们可以给出站点可能不在线信息,但是无法保证站点对用户而言是在线的,因为可能搜索引擎可以连接,但用户可能无法连接。

外挂的在线状况分析系统获得系统已经建有索引的所有站点地址后,每隔5分钟扫描所有站点一次,并记录站点是否可以连接。查询服务器每隔10分钟连接到外挂的已经按IP排序的在线状况分析系统,获得不在线站点列表。当查询服务器输出查询结果是,对于每个结果从其属性里获得它的IP,并用二分法在“不在线站点列表”里查找,如果找到,则显示连接可能不通。由于查询结果经常是同一站点的堆在一起,因而可以对在判断某个IP是否在线上加一个Cache,如果IP和上次判断的IP相同,则使用上次判断的站点是否在线状态,这样可以减少使用二分法扫描“不在线站点列表”的次数,加快了搜索速度。

10.外挂的分类目录列表

没有搜索常识的菜鸟用户,他们经常使用糟糕的无法返回所需信息的搜索请求,但是他们占了网民的绝大多数,这种情况永远不会改变。经过对用户查询的日志分析,可以得到的结论是大部分用户都是:我不能表达我想要找什么,但是当我看到它时我就会知道我找的就是它("I don't know what I want, but I'll know when I find it")。搜索引擎如果只提供一个输入框和一大堆复杂的表单对于普通用户而言可能会不知所措。由于FTP搜索引擎具有一个特性就是用户搜索的关键词范围比较有限,在我们统计的9万多个查询中,只有5000多个查询是互不相同的。如果把比较流行的查询做成快捷方式并进行分类,用户一点击就可以得到该软件的查询结果,则用户到搜索引擎要做的就不再是指明自己要什么,而是搜索引擎告诉他(她)可以要什么。

当搜索引擎具有了文件分类功能之后,建立查询的分类目录系统就可行了。这是因为在分类目录里,充分利用文件分类能力,分类目录对应的查询的查询结果可以十分准确而全面。在每个分类里面,保存常用的查询的快捷方式,用户只需点击快捷方式就可以获得查询结果。

当快捷方式增多的时候,如果找到一个快捷方式将十分麻烦。制定一个两级的查询分类类别是比较恰当的,第一级分类与文件格式分类的类别相似,例如:电影、音乐、程序、文档等;第二级分类为该类别内的按内容的分类,比如电影下有动作、爱情类型等,程序下有系统、压缩、游戏等。这些按内容的分类都无法用程序的方法简单实现,只能用手工的方式添加各个分类里的快捷方式。建立起这个两级的快捷方式系统后,由用户和管理员在每个类别里添加查询频率比较高的查询作为快捷方式。利用CGI程序记录每个快捷方式的点击次数,在显示一个类别的所有快捷方式条目时按点击数排序输出,则用户可以知道当前这个类别的软件排行。将部分类别下的快捷方式默认为一个特定的文件格式,比如电影类别的快捷方式默认为视频文件格式类型,这样就可以自动的将快捷方式与文件分类功能结合,确保快捷方式

的精确性。

“天网文件搜索引擎”建立分类目录以后,用户使用分类目录进行查询已经占了所有查询中的一半,由于分类目录的快捷方式对应的查询比较固定,Cache的利用率大大增强,查询速度也加快许多。在Google的分类目录World > Chinese Simplified > 计算机 > 互联网络 > 搜寻 > 分类目录里,天网文件搜索以其特有的文件分类目录功能排在国内著名的“新浪搜索”和“百渡搜索”之前,这也是“天网文件搜索引擎”最为吸引用户的一个方面。

11 包含外挂系统的高级文件搜索引擎系统结构

12 总结

文件搜索引擎作为越来越受重视的网络资源门户,其技术发展也日新月异,“天网文件搜索引擎”实现了以上新兴的强大方便的功能,为天网用户提供了更好的服务。“天网文件搜索引擎”的强大功能创意是来源广大天网用户的建议与反馈,并得到了北京大学计算机系网络与分布式系统研究室各位老师与同学的关心与支持,在此一并表示感谢。

主要作者简介:

陈华 1978年出生,籍贯广东,正在北京大学计算机科学技术系攻读硕士学位

李晓明工作于北大计算机系,教授,博导,计算机系系主任

参考文献:

[1] 陈华,罗昶,段晖,薛明,王建勇。基于Web的百万级FTP搜索引擎的设计与实现。发表于《计算机应用》2000年第9期

[2 ] 雷鸣,刘建国,王建勇,陈葆珏。一种基于词典的搜索引擎系统动态更新模型。已被《计算机研究与发展》录用。

[3] Jianguo Liu, Ming Lei, Jianyong Wang, and Baojue Chen. Digging for gold on the Web: Experience with the WebGather. Accepted by the HPC/Asia 2000 Conference., IEEE Computer Society Press, May 2000, Beijing, P.R.China.

实验六搜索引擎高级功能 (1)

实验六搜索引擎高级功能 【实训目标】: 1.了解国内国外常见的搜索引擎; 2.会使用搜索引擎的高级搜索功能; 3.掌握利用搜索引擎高级搜索技巧来收集商务信息的技巧 【实训任务】: 了解搜索引擎的高级功能并利用这些功能收集商务信息 【实训相关知识】: 1.搜索引擎的基本原理和分类; 2.搜索引擎的高级搜索功能 【实训内容】: 1.浏览国内外常见的搜索引擎网站; 2.体验不同搜索引擎的高级搜索功能; 3.利用搜索引擎高级搜索技巧收集相关信息 【实训步骤】: 1.搜索常见的搜索引擎地址 在下面表格中填入各个地区知名的搜索引擎(1-3个) 地区搜索引擎名称搜索引擎地址1 中国 2 美国 3 欧洲 4 日本

在下面表格中填入相应搜索关键字 搜索要求搜 索引擎 搜索命令 搜索含“搜索引擎优化”,要求结果格式为Word格式Bai du 例:filetype:doc 搜索引擎优化 Go ogle 搜索关键字“电子商务”,但结果中不要出现“网络营销”字样 Bai du Go ogle 搜索腾讯网中关于“网络营销”的内容Bai du Go ogle 任务一:通过美国的搜索引擎(自己查找、选择)搜索3家提供“空气滤清器”产品的公司,填写下表: 公司名称 公司联 系方式 公司产 品照片 公 司网址 : 专业网站-1: 专利网站-2: 手机防盗产品专利信息: 任务三:某公司的主打产品是“减速机”,现在该公司希望了解该产品在网络市场中的行情,请根据实际情况填写下表: 网站网址注册公司数量发布产品数量供应信息数量求购信息数量 1 阿里巴巴 2 中国制造网

3 中国五金网 任务四:收集以下产品在美国和中国市场中的价格 产品MP3: IPOD NANO 8G 5代三星手机E958 浪琴L4.209.2.32.7 美国价格 插入产 品图片插入产 品图片 插入产 品图片 信息来源 中国价格 插入产 品图片插入产 品图片 插入产 品图片 信息来源 (1)在博客里发表一篇独创性的文章,看其需要多久才被百度、谷歌、雅虎收录,比较哪个搜索引擎收录比较快,是否有访问者? (2)在百度、雅虎、谷歌里搜索“中国大学”,看其收录相关网页数量和花费时间?关键字越来越具体换成“中国最好的大学”、“中国西南最好的大学”“中国西南最好的师范大学”…看百度、谷歌、雅虎收录网站数量的变化,以及搜索结果与关键字的对应情况。 (3)在百度、谷歌、雅虎里搜索成都到绵阳的距离。 (4)在百度的高级搜索里,增加对搜索条件的限制,对比分析其搜索结果的变化。首先只限制关键字(如成都精密无缝钢管——成都无缝钢管——无缝钢管——不含精密关键字),然后加入对搜索结果显示条数的限制,对搜索时间和语言的限制等等,学习高级搜索的使用。 (5)了解百度的广告策略 通过百度首页的“加入百度推广”,进入百度推广(原竞价排名)。了解百度推广(原竞价排名)的含义 从对“鲜花”进行搜索上,了解自然排名与竞价排名在搜索结果显示的不同。 竞价排名的显示方式:要求展示屏幕图片 自然排名的显示方式:要求展示屏幕图片 了解百度的“火爆地带”,比较与百度竞价排名在收费方式、摆放位置的不同。 (6)了解Google的广告策略 通过Google广告计划了解Google AdWords 关键字广告的放置位置和收费情况。 了解Google AdSense 广告联盟及其放置位置,考虑Google通过Google AdSense 在别的网站上投放广告的营销价值。搜索在哪些网站上可以看到Google 提供的广告。 尝试在自己的博客上发布Google AdSense广告。如果自己的博客不支持发布,查询有哪些博客支持,尝试一下。

六大搜索引擎的比较

一、界面、广告以及速度搜索引擎在我们日常操作中的使用频率非常高,大家使用它的目的都非常明确,就是用它来搜寻需要的内容,而不会为搜索引擎的页面做过多的停留,因此搜索引擎的界面设计和速度就对我们的使用产生不小的影响,下面来看看这六款搜索引擎在界面和速度上的表现。谷歌、百度和微软的Live Search,这三大搜索引擎的界面大家都已经相当熟悉,它们有着共同的特点,就是简洁至极:网站LOGO、搜索框和按钮以及个别功能服务链接,除此以外,页面上就没有其他多余和花哨的东西了,给人的感觉非常清爽,界面一目了然,特别是Live Search在不失简洁的同时还通过一些小脚本和背景图片使得页面整体更加美观。三者使用起来都很方便,并且首页界面上没有任何第三方的广告。搜索结果页面,三者同样是采用简洁的风格,页面左侧排列着搜索结果,百度搜索结果页面右侧有不少广告,谷歌视关键词的不同也可能出现右侧广告。 Live Search的界面十分简洁且美观 百度搜索结果页面右侧的广告与上面三者相比,雅虎全能搜在界面上显得更为活泼、色彩更加多样,并且在首页内容上也更丰富。首页上除了常规的搜索所需组成部分外,雅虎全能搜还加入了天气预报、邮箱登录的显示区域。虽然这些占据了一点点页面,但是它们功能实用且不影响正常使用。雅虎全能搜的搜索主页 搜狗搜索的界面可谓结合了谷歌和Live Search:在布局上

与谷歌类似,而在细节上与Live Search有着异曲同工之妙;而搜索新军——网易有道的界面与谷歌、百度站在同一阵线,风格、版式都十分一致。在搜索结果页面中,搜狗搜索页面左侧有少量广告。总的来说,六款搜索引擎的界面设计都比较合理、美观、大方。雅虎全能搜的界面稍有不同,加入了天气预报和邮箱模块,而其他五款都尽量精简,其中谷歌、百度和有道趋于一致,采用最简的风格,而Live Search和搜狗在首页的一些细节上多加以了一些修饰。此外,值得一提的是一些搜索引擎对于Logo文化的重视,在传统的节日或者一些特殊的纪念日时都会将首页的Logo徽标换成与该日子相关的设计。其中在这方面要数谷歌和百度做得最为出色:无论是三八节、五一节这样的国际节日,或者情人节、万圣节这样的西方舶来物,还是春节、清明、端午等传统的中国农历节日,谷歌和百度都会精心设计相应的节日Logo;此外,谷歌在一些特殊的纪念日,如达芬奇诞辰、地球日之类的纪念日也会推出专门的徽标;而百度近期开始定期在首页推出一个搜索封面人物,以此反映对互联网时代风云人物的价值取向,十分有特色。雅虎和搜狗在节日Logo设计方面也有所表现,在节日时也可经常看到其专门的徽标;网易有道正式版新近推出不久,我们还无法对其在特殊Logo的设计上是否会有所表现作出评价。搜索引擎的特色Logo其实并不仅仅是一个单纯的设计,它还有更多的作用:它承载了一种信息,传达了搜索引擎提供商对于创新、

各大搜索引擎高级搜索语法整理

每个搜索引擎都有自己的高级搜索语法,通过高级搜索语法你可以方便快捷的查找你想要搜索的内容。 目录 一、Google谷歌搜索高级语法 1. 减除无关资料(-) 2. 英文短语搜索(" ") 3. 指定网域 4. 查找特定文件 5. 按链接搜索 6. 限定关键词只在标题中 7. 限定关键词只在URL中 8. Info 9. Related 10. Cache 二、百度(baidu)搜索高级语法 1. 把搜索范围限定在网页标题中——intitle 2. 把搜索范围限定在特定站点中——site 3. 把搜索范围限定在url链接中——inurl 4. 精确匹配——双引号和书名号 5. 要求搜索结果中不含特定查询词 6. 专业文档搜索 三、Yahoo雅虎搜索高级语法 1. title 2. Link 3. Site:或者domain 4. Hostname

5. url 6. 如何使搜索结果中的查询词不被拆开? 四、Sogou搜狗搜索高级语法 1. 使用双引号进行精确查找 2. 使用多个词语搜索 3. 减除无关资料 4. 在指定网站内搜索 5. 文档搜索 五、四大搜索引擎高级语法总结 一、Google谷歌搜索高级语法 1. 减除无关资料(-) 如果要避免搜索某个词语,可以在这个词前面加上一个减号(“-”,英文字符)。但在减号之前必须留一个空格。 2. 英文短语搜索(" ") 在Google 中,可以通过添加英文双引号来搜索短语。双引号中的词语(比如"like this")在查询到的文档中将作为一个整体出现。这一方法在查找名言警句或专有名词时显得格外有用。 一些字符可以作为短语连接符。Google 将“-”、“\”、“.”、“=”和“..."等标点符号识别为短语连接符。 3. 指定网域 有一些词后面加上冒号对Google 有特殊的含义。其中有一个词是“site:”。要在某个特定 的域或站点中进行搜索,可以在Google 搜索框中输入“site https://www.360docs.net/doc/e05452345.html,”。 例如,要在Google 站点上查找新闻,可以输入:新闻site:https://www.360docs.net/doc/e05452345.html, 4. 查找特定文件 Google已经可以支持13种非HTML文件的搜索——PDF文件,Microsoft Office (doc, ppt, xls, rtf)、Shockwave Flash (swf)、PostScript (ps)和其它类型文档。新的文档类型只要与用户的搜索相关,就会自动显示在搜索结果中。

各大搜索引擎高级搜索语法整理及语法详解

目录 一、 Google谷歌搜索高级语法 1. 减除无关资料(-) 2. 英文短语搜索(””) 3. 指定网域 4. 查找特定文件 5. 按链接搜索 6. 限定关键词只在标题中 7. 限定关键词只在URL中 8. Info 9. Related 10. Cache 二、百度(baidu)搜索高级语法 1. 把搜索范围限定在网页标题中——intitle 2. 把搜索范围限定在特定站点中——site 3. 把搜索范围限定在url链接中——inurl 4. 精确匹配——双引号和书名号 5. 要求搜索结果中不含特定查询词 6. 专业文档搜索 三、Yahoo雅虎搜索高级语法

1. title 2. Link 3. Site:或者 domain 4. Hostname 5. url 6. 如何使搜索结果中的查询词不被拆开? 四、Sogou搜狗搜索高级语法 1. 使用双引号进行精确查找 2. 使用多个词语搜索 3. 减除无关资料 4. 在指定网站内搜索 5. 文档搜索 五、四大搜索引擎高级语法总结 一、 Google谷歌搜索高级语法 1. 减除无关资料(-) 如果要避免搜索某个词语,可以在这个词前面加上一个减号(“-”,英文字符)。但在减号之前必须留一个空格。 2. 英文短语搜索(””) 在 Google 中,可以通过添加英文双引号来搜索短语。双引号中的词语(比如"like this")在查询到的文档中将作为一个整体出现。这

一方法在查找名言警句或专有名词时显得格外有用。 一些字符可以作为短语连接符。Google 将“-”、“\”、“.”、“=”和“..."等标点符号识别为短语连接符。 3. 指定网域 有一些词后面加上冒号对 Google 有特殊的含义。其中有一个词是“site:”。要在某个特定的域或站点中进行搜索,可以在 Google 搜索框中输入“site:https://www.360docs.net/doc/e05452345.html,”。 例如,要在 Google 站点上查找新闻,可以输入:新闻 site:https://www.360docs.net/doc/e05452345.html, 4. 查找特定文件 Google已经可以支持13种非HTML文件的搜索——PDF文件,Microsoft Office (doc, ppt, xls, rtf)、Shockwave Flash (swf)、PostScript (ps)和其它类型文档。新的文档类型只要与用户的搜索相关,就会自动显示在搜索结果中。 例如,如果您只想查找 PDF或Flash 文件,而不要一般网页,只需搜索“关键词filetype:pdf” 或“关键词filetype:swf”就可以了。 5. 按链接搜索 例如,“link:https://www.360docs.net/doc/e05452345.html,”将找出所有指向 Google 主页的网

搜索引擎的语法规则

概况 互联网的发展可以用日新月异来形容,它每时每刻都在发生变化。由于互联网上的信息是呈几何级数增长且极其无序的,信息量越大,越难被利用。没有人对互联网上信息的有效性和有序性负责,因此如何进行快速有效地查询,获取和利用互联网上的信息,就成了一个大问题。目前解决这一问题的最佳途径是利用搜索引擎。这个需求直接导致了信息检索技术的快速发展,各类搜索引擎层出不穷。 但是如同互联网上的信息一样,搜索引擎的发展本身也是无序的,我们要通过搜索引擎,在互联网上找到需要的信息,直接获得自己想要的东西,或者学习之类都是面对海量信息。因此我们首先要了解其特点。 如何选择最符合需要的搜索引擎,通过其在互联网上找到我们所需要的信息,也是一个需要研究和解决的课题。基于这个目的,我们对目前互联网上较有规模的中文搜索引擎作一个粗浅的比较,以期抛砖引玉,使现有的中文搜索引擎发展得更快更好。 发展历程略 特点 一、快速化 速度的提高是现在各个搜索引擎都在努力达到的目标。快不仅仅是指搜索引擎返回结果的速度,更是指搜索引擎获取新信息的速度,现在博客、论坛和资讯网站都已经成为信息最重要的来源,一般都什么重大新闻,直接上百度要多快有多快。

二、多样化 多样化主要包括两个方面:内容多样化和搜索途径多样化。 内容除文字之外还包括图片、音频、视频内容的搜索。而在搜索结果内容上,也是非常的多样化,有图文、最新新闻、微博信息、轻应用、知心搜索等。 搜索途径多样化:可以通过语音指令、动作指令、地理位臵等进行搜索。 三、实时搜索 随着个人媒体平台兴起,搜索引擎的实时性要求日益增高,百度也推出了关于微博的实时搜索,搜索方法:浏览器中输入 https://www.360docs.net/doc/e05452345.html,/s?rtt=2&tn=baiduwb&wd=关键字,实时搜索最突出的特点是时效性强,越来越多的突发事件首次发布在微博上,实时搜索核心强调的就是“快”,用户发布的信息第一时间能被搜索引擎搜索到。 一、各大搜索网站的特长、优势及弱点分析 1、“Google”是功能强大,易用性最强的搜索网站,搜索速度快而且提供了最丰富的高级搜索功能。 Google(https://www.360docs.net/doc/e05452345.html,)是业界著名的搜索网站,Google 获得过最受欢迎搜索引擎奖、最佳搜索引擎技术奖、最佳图像搜索技术奖等多项荣誉。 优点:不论是中文还是英文搜索都同样出色,而且还有业内公认的高水平图像搜索技术与日渐成熟的目录搜索功能。Google是易用

国外搜索引擎大全

国外搜索引擎大全 英文搜索引擎 Google https://www.360docs.net/doc/e05452345.html, Yahoo https://www.360docs.net/doc/e05452345.html, Windows Bing Search https://www.360docs.net/doc/e05452345.html,/ Ask Jeeves https://www.360docs.net/doc/e05452345.html, https://www.360docs.net/doc/e05452345.html, https://www.360docs.net/doc/e05452345.html, AOL Search https://www.360docs.net/doc/e05452345.html, (internal) https://www.360docs.net/doc/e05452345.html,/(external) HotBot https://www.360docs.net/doc/e05452345.html, MSN Search https://www.360docs.net/doc/e05452345.html, Teoma https://www.360docs.net/doc/e05452345.html, AltaVista https://www.360docs.net/doc/e05452345.html, Gigablast https://www.360docs.net/doc/e05452345.html, LookSmart https://www.360docs.net/doc/e05452345.html, Lycos

https://www.360docs.net/doc/e05452345.html, Open Directory https://www.360docs.net/doc/e05452345.html,/ Netscape Search https://www.360docs.net/doc/e05452345.html, 韩文搜索引擎 Yahoo Korea https://www.360docs.net/doc/e05452345.html,/ Naver https://www.360docs.net/doc/e05452345.html,/ Empas https://www.360docs.net/doc/e05452345.html,/ Zingu https://www.360docs.net/doc/e05452345.html,/ Daum https://www.360docs.net/doc/e05452345.html,/ Chol https://www.360docs.net/doc/e05452345.html,/ Paran https://www.360docs.net/doc/e05452345.html,/ 日文搜索引擎

搜索引擎高级语法

一、Google谷歌搜索高级语法 1. 减除无关资料(-) 如果要避免搜索某个词语,可以在这个词前面加上一个减号(“-”,英文字符)。但在减号之前必须留一个空格。 2. 英文短语搜索(””) 在Google 中,可以通过添加英文双引号来搜索短语。双引号中的词语(比如"like this")在查询到的文档中将作为一个整体出现。这一方法在查找名言警句或专有名词时显得格外有用。 一些字符可以作为短语连接符。Google 将“-”、“\”、“.”、“=”和“..."等标点符号识别为短语连接符。 3. 指定网域 有一些词后面加上冒号对Google 有特殊的含义。其中有一个词是“site:”。要在某个特定的域或站点中进行搜索,可以在Google 搜索框中输入“site https://www.360docs.net/doc/e05452345.html,”。 例如,要在Google 站点上查找新闻,可以输入:新闻site:https://www.360docs.net/doc/e05452345.html, 4. 查找特定文件 Google已经可以支持13种非HTML文件的搜索——PDF文件,Microsoft Office (doc, ppt, xls, rtf)、Shockwave Flash (swf)、PostScript (ps)和其它类型文档。新的文档类型只要与用户的搜索相关,就会自动显示在搜索结果中。 例如,如果您只想查找PDF或Flash 文件,而不要一般网页,只需搜索“关键词filetype:pdf” 或“关键词filetype:swf”就可以了。 5. 按链接搜索 例如,“link:https://www.360docs.net/doc/e05452345.html,”将找出所有指向Google 主页的网页。不能将link: 搜索与普通关键词搜索结合使用。 6. 限定关键词只在标题中 例如“allintitle:中国苹果”表示“中国”和“苹果”都必须出现在标题中 “intitle:中国苹果”表示“中国”必须出现在标题中,“苹果”可以出现在网页的任意位置,可以是标题也可以不是。。 7. 限定关键词只在URL中 例如“allinURL:koko com”表示“koko”和“com”都必须出现在URL中 “inURL:koko com”表示“koko”必须出现在URL中,“com”可以出现在网页的任意位置,可以是URL也可以不是。。 8. Info用来显示与某链接相关的一系列搜索 提供cache、link、related和完全包含该链接的网页的功能。

各大搜索引擎高级搜索语法整理

各大搜索引擎高级搜索语法整理 每个搜索引擎都有自己的高级搜索语法,通过高级搜索语法你可以方便快捷的查找你想要搜索的内容。 目录 一、Google谷歌搜索高级语法 1. 减除无关资料(-) 2. 英文短语搜索(””) 3. 指定网域 4. 查找特定文件 5. 按链接搜索 6. 限定关键词只在标题中 7. 限定关键词只在URL中 8. Info 9. Related 10. Cache 二、百度(baidu)搜索高级语法 1. 把搜索范围限定在网页标题中——intitle 2. 把搜索范围限定在特定站点中——site 3. 把搜索范围限定在url链接中——inurl 4. 精确匹配——双引号和书名号 5. 要求搜索结果中不含特定查询词 6. 专业文档搜索 三、Yahoo雅虎搜索高级语法 1. title 2. Link 3. Site:或者domain 4. Hostname 5. url 6. 如何使搜索结果中的查询词不被拆开? 四、Sogou搜狗搜索高级语法

1. 使用双引号进行精确查找 2. 使用多个词语搜索 3. 减除无关资料 4. 在指定网站内搜索 5. 文档搜索 五、四大搜索引擎高级语法总结 一、Google谷歌搜索高级语法 1. 减除无关资料(-) 如果要避免搜索某个词语,可以在这个词前面加上一个减号(“-”,英文字符)。但在减号之前必须留一个空格。 2. 英文短语搜索(””) 在Google 中,可以通过添加英文双引号来搜索短语。双引号中的词语(比如"like this")在查询到的文档中将作为一个整体出现。这一方法在查找名言警句或专有名词时显得格外有用。 一些字符可以作为短语连接符。Google 将“-”、“\”、“.”、“=”和“..."等标点符号识别为短语连接符。 3. 指定网域 有一些词后面加上冒号对Google 有特殊的含义。其中有一个词是“site:”。要在 某个特定的域或站点中进行搜索,可以在Google 搜索框中输入“site https://www.360docs.net/doc/e05452345.html,”。 例如,要在Google 站点上查找新闻,可以输入:新闻site:https://www.360docs.net/doc/e05452345.html, 4. 查找特定文件 Google已经可以支持13种非HTML文件的搜索——PDF文件,Microsoft Office (doc, ppt, xls, rtf)、Shockwave Flash (swf)、PostScript (ps)和其它类型文档。新的文档类型只要与用户的搜索相关,就会自动显示在搜索结果中。 例如,如果您只想查找PDF或Flash 文件,而不要一般网页,只需搜索“关键词filetype:pdf” 或“关键词filetype:swf”就可以了。 5. 按链接搜索 例如,“link:https://www.360docs.net/doc/e05452345.html,”将找出所有指向Google 主页的网页。不能将link: 搜索与普通关键词搜索结合使用。 6. 限定关键词只在标题中 例如“allintitle:中国苹果”表示“中国”和“苹果”都必须出现在标题中

各大搜索引擎高级搜索语法总结

各大搜索引擎高级搜索语法总结 每个搜索引擎都有自己的高级搜索语法,通过高级搜索语法你可以方便快捷的查找你想要搜索的内容。 目录 一、 Google谷歌搜索高级语法 1. 减除无关资料(-) 2. 英文短语搜索(””) 3. 指定网域 4. 查找特定文件 5. 按链接搜索 6. 限定关键词只在标题中 7. 限定关键词只在URL中 8. Info 9. Related 10. Cache 二、百度(baidu)搜索高级语法 1. 把搜索范围限定在网页标题中——intitle 2. 把搜索范围限定在特定站点中——site 3. 把搜索范围限定在url链接中——inurl 4. 精确匹配——双引号和书名号 5. 要求搜索结果中不含特定查询词 6. 专业文档搜索 三、Y ahoo雅虎搜索高级语法 1. title 2. Link 3. Site:或者 domain 4. Hostname 5. url 6. 如何使搜索结果中的查询词不被拆开? 四、Sogou搜狗搜索高级语法 1. 使用双引号进行精确查找 2. 使用多个词语搜索 3. 减除无关资料 4. 在指定网站内搜索 5. 文档搜索 五、四大搜索引擎高级语法总结 一、 Google谷歌搜索高级语法 1. 减除无关资料(-) 如果要避免搜索某个词语,可以在这个词前面加上一个减号(“-”,英文字符)。但在减号之前必须留一个空格。 2. 英文短语搜索(””) 在 Google 中,可以通过添加英文双引号来搜索短语。双引号中的词语(比如"like this")在查询到的文档中将作为一个整体出现。这一方法在查找名言警句或专有名词时显得格外有用。 一些字符可以作为短语连接符。Google 将“-”、“\”、“.”、“=”和“..."等标点符号识别为短语连接符。

Google谷歌搜索引擎高级用法_使用搜索语法精确搜索

Google谷歌搜索引擎高级用法使用搜索语法精确搜索 2010/08/22 00:50 经常需要Google中搜索有关公司的相关新闻,但如果直接在搜索框中输入关键字,找到的网页有很多都是不相干的,因此只能将搜索结果一页一页翻下去,寻找有用的内容。在一次搜索过程中无意查看了Google的搜索帮助,发现Google在搜索时,居然还可以使用多种搜索语法,用这些语法可以更快速的找到你所要的内容。 inurl:搜索包含有特定字符的URL。例如输入“inurl:lv”,则可以找到带有lv字符的URL。 intitle:搜索网页标题中包含有特定字符的网页。例如输入“intitle:谜盲世界”,这样就能找到网页标题中带有谜盲世界的网页。 site:限制搜索的域名范围。例如输入“site:https://www.360docs.net/doc/e05452345.html,”,就可以只搜索域名为https://www.360docs.net/doc/e05452345.html,的网页。 filetype:搜索指定类型的文件。例如你想下载PPT模板,那么只要输入“filetype:ppt”,就可以找到很多PPT模板文件。 搜索某个网站里的内容如“观赏鱼之家”里想找关于头洞病的文章。 直接在谷歌里打site:https://www.360docs.net/doc/e05452345.html, 头洞病

link”语法返回所有链接到某个URL地址的网页。 示例:搜索所有含指向天极下载“https://www.360docs.net/doc/e05452345.html,”链接的网页。 搜索:“link:https://www.360docs.net/doc/e05452345.html,” 结果:搜索有链接到https://www.360docs.net/doc/e05452345.html,的网页。共约有695项查询结果,这是第1-10项。搜索用时0.23秒。 注意:“link”不能与其他语法相混合操作,所以“link:”后面即使有空格,也将被GOOGLE忽略。

搜索引擎概述

搜索引擎概述 第一部分:搜索引擎发展史 第二部分:搜索引擎原理 第三部分:常用中英文搜索引擎指南 第一部分:搜索引擎发展史 1990年以前,没有任何人能搜索互联网。 所有搜索引擎的祖先,是1990年由Montreal的McGill University学生Alan Emtage、Peter Deutsch、Bill Wheelan 发明的Archie(Archie FAQ)。虽然当时World Wide Web还未出现,但网络中文件传输还是相当频繁的,由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确

的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。 由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher (Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead 是后来另一个Gopher搜索工具。 Robot(机器人)一词对编程者有特殊的意义。Computer Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot 程序被称为spider(Spider FAQ)程序。世界上第一个Spider 程序,是MIT Matthew Gray的World wide Web Wanderer,用于追踪互联网发展规模。刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址(URL)。 与Wanderer相对应,1993年10月Martijn Koster创建了ALIWEB(Martijn Koster Annouces the Availability of Aliweb),它相当于Archie的HTTP版本。ALIWEB不使用网络搜寻Robot,如果网站主管们希望自己的网页被ALIWEB收录,需要自己提交每一个网页的简介索引信息,类似于后来大家熟知的Yahoo。

《搜索引擎的使用教学设计》

《搜索引擎的使用》教学设计 【教学课题】 通过学习使学生进一步了解知名的搜索引擎;学会百度搜索引擎的“高级”及“设置”功能;掌握百度搜索引擎的搜索方法。掌握搜索引擎的基本操作;通过小组协作学习的方法,掌握搜索引擎的使用技巧。 【教材分析】 本节课主要的任务是将学生原有的认知基础加以归纳提升,使学生形成多网络信息搜索的理性认识,并在学习过程中总结积累利用网络搜索信息的经验,提高网络信息搜索水平。在讲课过程中要区分学生的水平差异。 【教学目标】 1.学会使用搜索引擎(百度、谷歌等)来搜索网络信息。 2.能根据需求选择准确、合适的关键词。 【教学重点】 指导学生掌握搜索引擎的使用技巧,准确高效地搜索因特网上的信息。 【教学难点】 教会学生灵活运用不同的搜索方法高效地获取信息,并有效地辨别、筛选信息,解决实际问题。 教学之前用百度在网上搜索与宁德的相关教学材料,找了很多教案和材料作参考,了解到教学的重点和难点,确定课堂教学形式和方法。然后根据课堂教学需要,利用百度搜索关于宁德的视频,课堂放给学生观看,加深印象。用百度图片网上搜索下载宁德的地图,培养学生读图识别能力。通过百度在网上搜索一些关于宁德的文字资料和图片资料,做成PPT课堂给同学们演示,给学生了解宁德的旅游景点、风土人情、矿产地貌视觉上的直观感受。 【教学方法】 讲授法、演示法、分组讨论法。 【教学过程】

一、组织教学 学生进入教室后启动计算机,利用这段时间以6~8位同学为一组进行分组,以便同学们进入自主学习过程中可采取自主合作讨论式学习。 二、导入新课 老师:同学们知道我们教育局的网址吗? 学生:……! 老师:请大家现在就通过网络来寻找答案,在两分钟后告诉我。 学生:福安教育局的网址是https://www.360docs.net/doc/e05452345.html, 老师:那你是用什么方式来查到这个网址的呢? 学生:用百度……用谷歌……。 老师:对,这就是我们常用的“搜索引擎”。那什么是“搜索引擎”呢?又该如何来使用它呢?这就是我们这节课要学习的内容。 板书本节课题:搜索引擎的使用 三、学习新课 (一)搜索引擎简介 定义:搜索引擎其实也是一个网站,只不过该网站专门为你提供信息检索服务,它使用特有的程序把因特网上的所有信息归类以帮助人们搜寻到自己所需要的信息。 老师:刚才这位同学用百度找到的答案,还有没有用其他搜索引擎的同学呢? 学生:还有新浪搜索、谷歌、21CN搜索、优客搜索、搜狗、TOM搜索、爱问、网易搜索、3721等。通过大家的回答,同学们用得最多的还是百度和谷歌。 老师:下面就以百度为例来进行学习。 (二)基本搜索 启动IE浏览器,在地址栏中输入https://www.360docs.net/doc/e05452345.html,,进入百度搜索引擎,下面我们来百度一下自己,选取一位同学的名字输入,以“杨花”为例。单击“百度一下”按钮进入搜索结果界面。对结果界面作简单讲解: 百度一下,找到与“杨花”相关网页约772,000篇,用时0.001秒。 老师:没想到我们班的杨花同学也成了名人了,这么多关于她的信息。

百度及google搜索引擎检索功能的异同点

百度及google搜索引擎检索功能的异同点百度和谷歌均为全球最大的搜索引擎之一,二者均具有搜索引擎的共同特点,也具有各自的特点,下面就此我展开一下论述。 百度和谷歌的共同点 1.二者均为互联网搜索引擎,均具有检索信息,方便上网者的功用。 2.二者均采用互动式搜索的方式,在用户查询和搜索引擎返回结果的人机交互过程中,引擎根据用户的查询内容,智能展开多组相关的主题,帮助用户快速找到相关搜索结果。 3.均采用分类导航的方式针对部分查询结果项,扩展到类似或相关网站,极大地扩大了信息检索的数量,极大地方便了使用者。 4 .查询精确相关:先进的分词引擎,优化分词引擎的人名识别。在查询结果中,剔出了页面中仅在链接文字上包含,使搜索结果更加准确,有效。 在具有一些共同特点的同时,这两大搜索引擎也具有各自的一些特点。下面我就对两大搜索引擎各自的特点展开论述。 百度搜索引擎的特点 1. 基于字词结合的信息处理方式。巧妙解决了中文信息的理解问题,极大地提高了搜索的准确性和查全率。 2. 支持主流的中文编码标准。包括GBK(汉字内码扩展规范)、GB2312(简体)、BIG5(繁体),并且能够在不同的编码之间转换。 3. 智能相关度算法。采用了基于内容和基于超链分析相结合的方法进行相关度评价,能够客观分析网页所包含的信息,从而最大限度保证了检索结果相关性。 4. 检索结果能标示丰富的网页属性(如标题、网址、时间、大小、编码、摘要等),并突出用户的查询串,便于用户判断是否阅读原文。 5. 百度搜索支持二次检索(又称渐进检索或逼进检索)。可在上次检索结果中继续检索,逐步缩小查找范围,直至达到最小、最准确的结果集。利于用户更加方便地在海量信息中找到自己真正感兴趣的内容。 6. 相关检索词智能推荐技术。在用户第一次检索后,会提示相关的检索词,帮助用户查找更相关的结果,统计表明可以促进检索量提升10-20%。 7. 运用多线程技术、高效的搜索算法、稳定的UNIX平台、和本地化的服务器,保证了最快的响应速度。百度搜索引擎在中国境内提供搜索服务,可大大缩短检索的响应时间(一个检索的平均响应时间小于0.5秒) 8. 可以提供一周、二周、四周等多种服务方式。可以在7天之内完成网页的更新,是目前更新时间最快、数据量最大的中文搜索引擎。 9. 检索结果输出支持内容类聚、网站类聚、内容类聚+网站类聚等多种方式。支持用户选择时间范围,提高用户检索效率。 10. 智能性、可扩展的搜索技术保证最快最多的收集互联网信息。拥有目前世界上最大的中文信息库,为用户提供最准确、最广泛、最具时效性的信息提供了坚实基础。 11. 分布式结构、精心设计的优化算法、容错设计保证系统在大访问量下的高可用性、高扩展性、高性能和高稳定性。 12. 高可配置性使得搜索服务能够满足不同用户的需求。 13. 先进的网页动态摘要显示技术。 14. 独有百度快照,

高级文件搜索引擎核心功能的实现技术

高级文件搜索引擎核心功能的实现技术 陈华李晓明 北京大学计算机科学技术系 100871 摘要 基于Web的FTP文件搜索引擎作为专门查找文件的工具越来越受到人们的关注。虽然Ftp搜索引擎技术上没有象WWW搜索引擎那样完善,但一些FTP搜索引擎已经提出了许多方便实用的新兴功能。这些功能的实现使得Ftp搜索引擎使用上越来越方便,查全率和查准率大大提高,促使了Ftp搜索引擎从专业性比较高的工具变成了大众化的获得网络文件资源的入口,为更有效的利用网络共享资源提供方便。本文参考北大“天网文件搜索引擎”的各种新兴功能实现策略,提出了从简单FTP搜索列擎改进成具有强大功能的高级文件搜索引擎的方法与技术要点。 关键字 Ftp搜索引擎文件搜索天网搜索新兴功能 Realization technique of powerful file search engine Abstract Ftp search engine , as a professional file search tool is widely used today. The technology of ftp search is no ideal like WWW search, but some ftp search engines have realized many new functions which make ftp search more powerful and more convenience, and ftp search engine become a popular entry to get network resource. This article base on the strategies of “Tianwang” file search , talk about the technology and method to develop a simple ftp search engine to a powerful file search engine. Keyword ftp search, file search , Tianwang 1 引言 在因特网上存在着、流动着各种各样的信息,例如email信息、BBS信息、OICQ 信息、被HTTP服务器管理的HTML网页,还有被FTP服务器管理的各种类型的文件。后者是本文关心的对象,它们的典型代表是各种学术和技术文件、计算机软件、多媒体数据。多数FTP服务器都开辟有一个公共访问区,称为“匿名FTP”,对公众提供免费的文件信息服务。FTP搜索引擎的功能是搜集匿名FTP服务器提供的目录列表,对用户提供文件信息的查询服务。由于FTP搜索引擎是专门针对各种文件的,因而相对WWW搜索引擎,寻找软件、图像、电影和音乐等文件使用FTP搜索引擎将更加方便直接。 北京大学网络与分布式系统实验室开发的“天网文件搜索引擎”,作为国内外Ftp搜索引擎中的佼佼者,从1999年最初的简陋的百万级FTP搜索引擎进化成今天的实现了许多新兴的方便而强大功能的千万级文件搜索引擎,促进了Ftp搜索引擎大众化的发展。今天,平均每日访问“天网文件搜索引擎”的人数已经超过40万人次,

实验六 搜索引擎高级功能

实验六搜索引擎高级功能【实训目标】: 1.了解国内国外常见的搜索引擎; 2.会使用搜索引擎的高级搜索功能; 3.掌握利用搜索引擎高级搜索技巧来收集商务信息的技巧【实训任务】: 了解搜索引擎的高级功能并利用这些功能收集商务信息【实训相关知识】: 1.搜索引擎的基本原理和分类; 2.搜索引擎的高级搜索功能 【实训内容】: 1.浏览国内外常见的搜索引擎网站; 2.体验不同搜索引擎的高级搜索功能; 3.利用搜索引擎高级搜索技巧收集相关信息 【实训步骤】: 1.搜索常见的搜索引擎地址 在下面表格中填入各个地区知名的搜索引擎(1-3个)

2.掌握搜索引擎高级技巧运用方法 在下面表格中填入相应搜索关键字 3.通过搜索引擎搜集商务信息 任务一:通过美国的搜索引擎(自己查找、选择)搜索3家提供“空气滤清器”产品的公司,填写下表: 任务二:搜索到至少两个专利介绍网站,并搜索一条关于手机防盗产品的专利技术:

竞价排名的显示方式:要求展示屏幕图片 自然排名的显示方式:要求展示屏幕图片 了解百度的“火爆地带”,比较与百度竞价排名在收费方式、摆放位置的不同。 (6)了解Google的广告策略 通过Google广告计划了解Google AdWords 关键字广告的放置位置和收费情况。 了解Google AdSense 广告联盟及其放置位置,考虑Google通过Google AdSense 在别的网站上投放广告的营销价值。搜索在哪些网站上可以看到Google 提供的广告。 尝试在自己的博客上发布Google AdSense广告。如果自己的博客不支持发布,查询有哪些博客支持,尝试一下。 思考:对比百度和Google的广告策略,结合雅虎网站分析雅虎的广告策略。

常用搜索引擎的使用方法和技巧

常用搜索引擎的使用方法和技巧 002年12月,教育部出台了《2003~2007年教育振兴行动计划》。从此,教育信息化的观念深入人心。所谓教育信息化,是指在教育领域全面、深入地运用现代信息技术来促进教育改革与发展的过程。其技术特点是数字化、网络化、智能化和多媒体化,基本特征是开放、共享、交互、协作。经过几年的努力,各个学校的信息化建设取得了初步成果,信息化教学环境初具规模。网络是信息化教学环境不可缺少的组成部分,也是重要的信息来源。了解网络搜索引擎技术的基本原理,掌握其应用方法,是教师和学生在信息化教学环境中必备的信息技术素养之一。Google和百度是我们最常用的搜索引擎,一个是外国品牌,一个是民族品牌。下面主要介绍这两种搜索引擎的使用技巧和方法。 Google的使用方法和技巧举例 对于“高级搜索”、“搜索偏好”等选项的使用,大家已经比较熟悉了。在这里,我们介绍一些人们不太注意,但是非常实用的一些功能。 汉语拼音输入检索:为了方便使用中文的用户在网上搜索,Google允许用户直接在键盘上输入汉语拼音来检索相关事物。例如,输入“jisuanji”,检索结果提示:您是不是要找“计算机”?这正是我们需要查找的关键词,用户可以据此浏览相关结果。如果需要查找更详细的资料“联想计算机”,则只要在原来的检索结果“计算机”前输入“lianxiang”。Google的这项新功能,可以免除用户在中文和拼音输入方面的互相转换。用户在输入拼音时,不要留有空格,否则Google会误认为英文。Google会把拼音与常用的字或者词组一一对应。因此,对过于生僻的字或词组,不能用这个方法查找。 语言工具:经常使用计算机的用户手头上自然会有一两个字典软件,用于查找和翻译中英文的词义。Google也提供了一个功能非常强大的语言工具,而且使用很方便。用户输入以下文字:“大量的流行病学调查及多项科研结果显示,雌二醇具有减少脑卒中发作和削减卒中体积的作用。”得到的翻译结果是:“The large number of scientific and epidemiological survey results showed that estradiol with reduced stroke volume and stroke were reduced to the role.” 计算器使用:Google有计算器的功能,例如,在Google检索框中输入“45×86+35÷7”,就会得到结果:“(45×86)+(35÷7)=3875”。 检索工具栏:Google的检索工具栏功能强大,有拖放和右击检索功能、新闻阅读、广告拦截、网站排名显示和搜索字词标明等。工具栏可以附在浏览器下,这样使用起来更加方便。用户可以首先在Google网站下载并安装一个检索工具栏,然后根据需要在工具栏的选项中进行设置。这个检索工具栏,能给用户带来许多意想不到的方便。例如:搜索字词标明,通过鲜艳的色彩标明用户所检索的字词在每个网页上的位置,便于用户查阅,单击“搜索字词

相关文档
最新文档