实验一 搜索引擎的使用

实验一  搜索引擎的使用
实验一  搜索引擎的使用

《实验一搜索引擎的使用》

班级:10级物理(1)班

姓名:廖雨

学号:20101041120

实验一搜索引擎的使用

一、搜索引擎概述

1、概念

搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上信息,在对信息进行组织和处理后,是为用户提供检索服务的系统。一个搜索引擎由搜索器、索引器、检索器和用户接口四个部分组成。搜索器的功能是在互联网中漫游,发现和搜集信息。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。[1]

2、分类

全文索引

全文搜索引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。

根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。

目录索引

目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo、新浪分类目录搜索。

元搜索引擎

元搜索引擎(META Search Engine)接受用户查询请求后,同时在多个搜索

引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。

其他非主流搜索引擎形式:

1、集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot在2002年底推出的搜索引擎。

2、门户搜索引擎:AOL Search、MSN Search等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。

3、免费链接列表(Free For All Links简称FFA):一般只简单地滚动链接条目,少部分有简单的分类目录,不过规模要比Yahoo!等目录索引小很多。

3、发展简史

互联网发展早期,以雅虎为代表的网站分类目录查询非常流行。网站分类目录由人工整理维护,精选互联网上的优秀网站,并简要描述,分类放置到不同目录下。用户查询时,通过一层层的点击来查找自己想找的网站。也有人把这种基于目录的检索服务网站称为搜索引擎,但从严格意义上讲,它并不是搜索引擎。

1990年,加拿大麦吉尔大学计算机学院的师生开发出Archie。

当时,万维网还没有出现,人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie被公认为现代搜索引擎的鼻祖。

起源

所有搜索引擎的祖先,是1990年由Montreal的McGill University三名学生(Alan Emtage、Peter Deutsch、Bill Wheelan)发明的Archie(Archie FAQ)。Alan Emtage 等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher搜索工具。

发展(1)

世界上第一个Spider程序,是MIT Matthew Gray的World wide Web Wanderer,用于追踪互联网发展规模。刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址(URL)。

搜索引擎一般由以下三部分组成:

爬行器(机器人、蜘蛛)

索引生成器

查询检索器

发展(2)

Excite 的历史可以上溯到1993年2月,6个Stanford University(斯坦福大学)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。到1993年中,这已是一个完全投资项目,他们还发布了一个供webmasters在自己网站上使用的搜索软件版本,后来被叫做Excite for Web Servers。

注:Excite后来曾以概念搜索闻名,2002年5月,被Infospace收购的Excite停止自己的搜索引擎,改元搜索引擎Dogpile

发展(3)

1994年4月,斯坦福大学的两名博士生,美籍华人杨致远和David Filo共同创办了Yahoo!。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。Yahoo!中收录的网站,因为都附有简介信息,所以搜索效率明显提高。

注:Yahoo以后陆续有Altavista、Inktomi、Google提供搜索引擎服务

Yahoo!--几乎成为20世纪90年代的因特网的代名词。

发展(4)

1995年,一种新的搜索引擎形式出现了——元搜索引擎(Meta Search Engine)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。

第一个元搜索引擎,是Washington大学硕士生Eric Selberg 和Oren Etzioni 的Metacrawler。元搜索引擎概念上好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。

发展(5)

智能检索的产生:它利用分词词典、同义词典,同音词典改善检索效果,进一步还可在知识层面或者说概念层面上辅助查询,通过主题词典、上下位词典、相关同级词典检索处理形成一个知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳的检索效果。

发展(6)

个性化趋势是搜索引擎的一个未来发展的重要特征和必然趋势之一。一种方式通过搜索引擎的社区化产品(即对注册用户提供服务)的方式来组织个人信息,然后在搜索引擎基础信息库的检索中引入个人因素进行分析,获得针对个人不同的搜索结果。自2004年10月yahoo推出myweb测试版,到11月a9推出个性化功能,到2005年Googlesearchhistory基本上都沿着一条路子走,分析特定用户

的搜索需求限定的范围,然后按照用户需求范围扩展到互联网上其他的同类网站给出最相关的结果。另外一种是针对大众化的,Google个性化搜索引擎,或者yahooMindSet,或者我们都知道的前台聚类的vivisimo。但是无论其中的哪一种实现方式,即Google的主动选择搜索范围,还是yahoo

(https://www.360docs.net/doc/9e6036801.html,/u/2941211752),vivisimo的在结果中重新组织自己需要的信息,都是一种实验或者创想,短期内无法成为主流的搜索引擎应用产品。

发展(7)

网格技术(great global grid):由于没有统一的信息组织标准对网络信息资源进行加工处理,难以对无序的网络信息资源进行检索、交接和共享乃至深层次的开发利用,形成信息孤岛。网格技术就是要消除信息孤岛实现互联网上所有资源的全面连通。

美国全球信息网格

Robot(机器人)一词对编程者有特殊的意义。Computer Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。由于专门用于检索信息的Robot程序像蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider程序。

1993年Matthew Gray开发了World Wide Web Wanderer,这是第一个利用HTML 网页之间的链接关系来检测万维网规模的“机器人(Robot)”程序。开始,它仅仅用来统计互联网上的服务器数量,后来也能够捕获网址(URL)。

1994年初,华盛顿大学(University of Washington )的学生Brian Pinkerton开始了他的小项目WebCrawler。1994年4月20日,WebCrawler正式亮相时仅包含来自6000个服务器的内容。WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字。

1994年7月,卡内基·梅隆大学(Carnegie Mellon University)的Michael Mauldin 将John Leavitt的spider程序接入到其索引程序中,创建了Lycos。除了相关性

排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量。

1994年底,Infoseek正式亮相。其友善的界面,大量的附加功能,使之和Lycos 一样成为搜索引擎的重要代表。

1995年,一种新的搜索引擎形式出现了——元搜索引擎(A Meta Search Engine Roundup)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理,提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第一个元搜索引擎,是Washington大学硕士生Eric Selberg 和Oren Etzioni 的Metacrawler。

1995年12月,DEC的正式发布AltaVista。AltaVista是第一个支持自然语言搜索的搜索引擎,第一个实现高级搜索语法的搜索引擎(如AND、OR、NOT 等)。用户可以用AltaVista搜索新闻组(Newsgroups)的内容并从互联网上获得文章,还可以搜索图片名称中的文字、搜索Titles、搜索Java applets、搜索ActiveX objects。AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL 的搜索引擎,并能在24小时内上线。AltaVista最有趣的新功能之一,是搜索有链接指向某个URL的所有网站。在面向用户的界面上,AltaVista也作了大量革新。它在搜索框区域下放了“tips”以帮助用户更好的表达搜索式,这些小tip经常更新,这样,在搜索过几次以后,用户会看到很多他们可能从来不知道的的有趣功能。这系列功能,逐渐被其它搜索引擎广泛采用。1997年,AltaVista发布了一个图形演示系统LiveTopics,帮助用户从成千上万的搜索结果中找到想要的。

1995年9月26日,加州伯克利分校助教Eric Brewer、博士生Paul Gauthier创立了Inktomi,1996年5月20日,Inktomi公司成立,强大的HotBot出现在世人面前。声称每天能抓取索引1千万页以上,所以有远超过其它搜索引擎的新内容。HotBot也大量运用cookie储存用户的个人搜索喜好设置。

1997年8月,Northernlight搜索引擎正式现身。它曾是拥有最大数据库的搜索引擎之一,它没有Stop Words,它有出色的Current News、7100多出版物组成的

Special Collection、良好的高级搜索语法,第一个支持对搜索结果进行简单的自动分类。

1998年10月之前,Google只是斯坦福大学(Stanford University)的一个小项目BackRub。1995年博士生Larry Page开始学习搜索引擎设计,于1997年9月15日注册了https://www.360docs.net/doc/9e6036801.html,的域名,1997年底,在Sergey Brin和Scott Hassan、Alan Steremberg的共同参与下,BachRub开始提供Demo。1999年2月,Google完成了从Alpha版到Beta版的蜕变。Google公司则把1998年9月27日认作自己的生日。Google以网页级别(Pagerank)为基础,判断网页的重要性,使得搜索结果的相关性大大增强。Google公司的奇客(Geek)文化氛围、不作恶(Don’t be evil)的理念,为Google赢得了极高的口碑和品牌美誉。2006年4月,Google 宣布其中文名称“谷歌”,这是Google第一个在非英语国家起的名字。

Fast(Alltheweb)公司创立于1997年,是挪威科技大学(NTNU)学术研究的副产品。1999年5月,发布了自己的搜索引擎AllTheWeb。Fast创立的目标是做世界上最大和最快的搜索引擎,几年来庶几近之。Fast(Alltheweb)的网页搜索可利用ODP自动分类,支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索,拥有极其强大的高级搜索功能。(2003年2月25日,Fast的互联网搜索部门被Overture收购)。

1996年8月,sohu公司成立,制作中文网站分类目录,曾有“出门找地图,上网找搜狐”的美誉。随着互联网网站的急剧增加,这种人工编辑的分类目录已经不适应。sohu于2004年8月独立域名的搜索网站“搜狗”,自称“第三代搜索引擎”。

Openfind 创立于1998年1月,其技术源自台湾中正大学吴升教授所领导的GAIS 实验室。Openfind起先只做中文搜索引擎,鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市场逐渐被Baidu和Google瓜分。2002年6月,Openfind重新发布基于GAIS30 Project的Openfind搜索引擎Beta 版,推出多元排序(PolyRankTM),宣布累计抓取网页35亿,开始进入英文搜索领域。

2000年1月,两位北大校友,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士后)在北京中关村创立了百度(Baidu)公司。2001年8月发布https://www.360docs.net/doc/9e6036801.html,搜索引擎Beta版(此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索。Baidu搜索引擎的其它特色包括:百度快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、mp3搜索、Flash搜索。2002年3月闪电计划(Blitzen Project)开始后,技术升级明显加快。后推出贴吧、知道、地图、国学、百科、文档、视频、博客等一系列产品,深受网民欢迎。2005年8月5日在纳斯达克上市,发行价为USD 27.00,代号为BIDU。开盘价USD 66.00,以USD 122.54收盘,涨幅353.85%,创下了5年以来美国股市上市新股当日涨幅最高纪录。

2003年12月23日,原慧聪搜索正式独立运做,成立了中国搜索。2004年2月,中国搜索发布桌面搜索引擎网络猪1.0,2006年3月中搜将网络猪更名为IG (Internet Gateway)。

2004年8月3日,搜狐公司推出搜狗,目的是增强搜狐网的搜索技能,主要经营搜狐公司的搜索业务。在搜索业务的同时,也推出搜狗输入法、免费邮箱、企业邮箱等业务。2010年8月9日搜狐与阿里巴巴宣布将分拆搜狗成立独立公司,引入战略投资,注资后的搜狗有望成为仅次于百度的中文搜索工具。

2005年6月,新浪正式推出自主研发的搜索引擎“爱问”。2007年起,新浪爱问使用google搜索引擎。

2005年,拥有中国最大IM用户群资源优势的腾讯自然不愿意放弃搜索业务。腾讯董事长马化腾曾多次在公开场合阐述其发展战略:为用户量身打造满足各层次需求的在线生活模式,而SOSO网上线正是“在线生活模式”的具体体现。05年12月,腾讯搜索获得的https://www.360docs.net/doc/9e6036801.html,域名就已可打开,但当时只是跳转

https://www.360docs.net/doc/9e6036801.html,,此次SOSO网正式成立。

2007年7月1日全面采用网易自主研发的有道搜索技术,并且合并了原来的综合搜索和网页搜索。有道网页搜索、图片搜索和博客搜索为网易搜索提供服务。

其中网页搜索使用了其自主研发的自然语言处理、分布式存储及计算技术;图片搜索首创根据拍摄相机品牌、型号,甚至季节等高级搜索功能;博客搜索相比同类产品具有抓取全面、更新及时的优势,提供“文章预览”,“博客档案”等创新功能。[2]

2012年8月,奇虎360推出综合搜索业务。

二、搜索引擎的使用

1、搜索引擎的原理

搜索引擎- 工作原理

第一步:爬行

搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,像蜘蛛在蜘蛛网上爬行一样,所以被称为“蜘蛛”也被称为“机器人”。搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件的内容。比如:蜘蛛如果跟踪链接想去爬行一个站点的时候,先要通过robots文件说明,如果robots文件不允许蜘蛛爬行的话,蜘蛛是不能跟踪链接的。当然,蜘蛛也需要理解HTTP返回码、nofollow标签、mate标签等等,所以蜘蛛的爬行是在一定规律和要求下进行的。除了搜索引擎蜘蛛要遵循的一些规则外,还有一些搜索引擎蜘蛛无法做到的事情。比如:要求注册的站点,FLASH里的链接,图片里的链接等等。所以,我们了解搜索引擎蜘蛛爬行的时候,不能一味的认为搜索引擎蜘蛛无所不能。

第二步:抓取存储

搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。其中的页面数据与用户游览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面是,也做一定的重复内容检测,一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不在爬行。这也就是为什么有一些采集站的数据量很大,但是收录量很低的原因。不过,大部分的去重工作,还是在预处理阶段进行。

第三步:预处理

搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。

1、提取文字

现在搜索引擎的排名,还是主要以文字内容为基础。蜘蛛抓取到数据库里的原始页面文件,需要进行文字提取,去除页面中的标签、JS程序、图片等无法用于排名的内容。当然,搜索引擎也会提取游览器中发现显示的标签文字、图片注释文字、FLASH注释文字和锚文本文字等。

2、中文分词

中文分词主要是针对中文搜索引擎的特有步骤,英文搜索引擎不存在这个步骤。由于中文字和词是连载一起的,搜索引擎要分辨哪些字组成的一个词,所以进行一种分词步骤。中文分词一般都是按照两种方法,一种是词典匹配;一种是基于统计分析。词典匹配比较容易理解,是根据以往词典中出现的词语匹配。而基于统计分析,主要是分析大量的文字样本,计算出字与字相邻出现的频率,来判断是不是一个词。在这里,我们就比较容易理解关键词里所说到的完全匹配,基本上是基于词典匹配,反之则是根据统计分析出来的词。

3、去停词

去停词主要是去除对内容无关紧要的一些助词(如中文的:的,地,哈。英文的the.a,an等),使索引数据主题更为突出,减少无谓的计算量。

4、消除噪音

消除噪音主要是去除一些对页面主题内容没什么贡献,并且大量重复出现的文字。比如,导航、页脚、和广告等

5、去重

去重处理,其实就是搜索引擎判断是否原创的一种计算方式。一般情况,搜索引擎运用的方法是对页面特征关键词计算指纹,也就是说从页面主题内容中选取最有代表性的一部分关键词,然后计算这些关键词的数字指纹。实验证明,一般复制的内容即使增加了的、地、哈等文字或者把段落重新组合,都能被搜索引擎轻易判断出来。这些只能从推理上来理解,现阶段的搜索引擎还不能完全判断原创内容,因为还会涉及到页面被抓去的时间的先后,网站的信任度等很多方面的信息。

6、正向索引

正向索引主要是指搜索引擎在完成了以上5个步骤后,就得到了独特的、能反应页面内容的、以词为单位的内容。搜索引擎就可以分词程序划分好的词,把

页面转化成关键词组成的集合。搜索引擎索引程序将页面及关键词形成词表的结构存储进索引库。实际上在搜索引擎索引库中,关键词也已经转换成为关键词的ID,这样的数据库结构就称为正向索引。

7、倒排索引

倒排索引是指搜索引擎将正向索引数据库重新构造为倒排索引,把文件对应到关键词的影视转换为关键词到文件的映射。在倒排索引中是以关键词为主,每个关键词对应着一系列文件,这些文件都出现了这个关键词。这样当用户搜索某个关键词的时候,排序程序在倒排索引中定位到这个关键词就可以马上找到所有包含这个关键词的文件。一般用户在搜索引擎中搜索关键词时,都是运用的倒排索引。

8、链接关系计算

链接关系是搜索引擎排名的重要依据。所以,搜索引擎对于大量网页的导入及导出链接、链接的权重、相关性等数据进行充分的计算,从而作为某个文件对应关键词的排序依据。

9、特殊文件处理

对于搜索引擎无法爬行和读取的flash、图片、js等文件,暂时无法作为搜索引擎的排名考量指标,仅能以特殊文件的代替文件作为唯一有价值的排序依据。

搜索引擎的预处理阶段也是在后台完成的,用户搜索时感觉不到这个过程。

第四步:排名

用户在搜索框输入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程与用户直接互动的。但是,由于搜索引擎的数据量庞大,虽然能达到每日都有小的更新,但是一般情况搜索引擎的排名规则都是根据日、周、月阶段性不同幅度的更新。

2、常用搜索技巧

类别搜索

许多搜索引擎(如Yahoo!)都显示类别,如计算机和Internet、商业和经济。如果您单击其中一个类别,然后再使用搜索引擎,您将可以选择搜索整个Internet 还是搜索当前类别。显然,在一个特定类别下进行搜索所耗费的时间较少,而且能够避免大量无关的Web站点。

当然,您或许还想搜索整个Internet,以搜索特定类别之外的信息。[1]

关键字

如果想要搜索以鸟为主题的Web站点,您可以在搜索引擎中输入关键字“bird”。但是,搜索引擎会因此返回大量无关信息,如谈论羽毛球的“小鸟球(birdie)”或烹饪game birds不同方法的Web站点。为了避免这种问题的出现,请使用更为具体的关键字,如“ornithology”(鸟类学,动物学的一个分支)。您所提供的关键字越具体,搜索引擎返回无关Web站点的可能性就越小。

如果你想在网络中搜索到相似的图片,你可以在百度的百度识图,安图搜的购物搜索引擎,Google的以图搜图等等中进行搜索。

使用方法:

一、上传本地图片

二、输入图片URl地址

用户通过上传图片或输入图片的url地址,从而搜索到互联网上与这张图片相似的其他图片资源,同时也能找到这张图片相关的信息。

购物搜索引擎也是通过上传图片或输入图片的url地址,搜索到全网同款和相似的商品。

优化技巧

关键字在搜索引擎中是非常重要的一项,搜索引擎对于关键字的排名是有自己的规则的,而搜索引擎优化,其中的一项主要内容就是对于关键字的建设。搜索引擎优化又称SEO,SEO的主要工作就是将目标公司的关键字在相关搜索引擎中利用现有的搜索引擎规则进行排名提升的优化,使与目标公司相关联的关键字在搜索引擎中出现高频率点击,从而带动目标公司的收益,达到对目标公司进行自我营销的优化和提升。所以,关键字与搜索引擎优化之间是有密不可分的关系的,搜索引擎优化是为了关键字的建设与提升提供了一种新的途径和工具,是在搜索引擎技巧中不可或缺的一部分。

关键字

您还可以通过使用多个关键字来缩小搜索范围。例如:如果想要搜索有关佛罗里达州迈阿密市的信息,则输入两个关键字“Miami”和“Florida”;如果只输入其中一个关键字,搜索引擎就会返回诸如Miami Dolphins足球队或Florida Marlins棒球队的无关信息。一般而言,您提供的关键字越多,搜索引擎返回的

结果越精确。

网站优化

在诸多SEO优化中,有一块专门是对网站URL(网站网址)进行优化的。对于seo内行来讲,要辨别有做没[2]做过SEO,观察URL结构就是一种最直观的鉴别方法。

老式的网站地址一般都比较机械化,没有视觉意义,没有seo价值,甚至还会让影响到网站整体seo的效果。因为老式的url只是为了去某个页面而生成的,特别对于电子商务网站而言,所以一般这种URL带有比较多的参数和层次,对搜索引擎蜘蛛来讲缺乏可读性,非常不友好。因为过长的网址必定缠满了参数,这些参数会导致网站地址断裂,或是增加了搜索引擎蜘蛛抓取的难度。反过来,经过优化后的URL对某个网页是非常针对性的,搜索引擎蜘蛛可以直接从URL 结构中大概得知这个页面的属性和网页位置,也是通过这个方法可以让搜索引擎蜘蛛第一时间里判别出这个页面大概的关键内容是什么从而提升这个内容下被优化到的关键字。

优化过URL的层次也更加的清晰,对管理网页人员来讲也是一种效率上的提升。一般在第6段(下图1)我们会加上这个页面所呼应的关键字,如果多个字母我们就用减号来分开,减号对搜索引擎来讲是比较友好的。当然减号的使用一般是对以英文字母为主的URL,如果网站的页面URL以中文来取名,则不需要用减号,或许有人会问到底需不需要把中文网页名改成英文的,是不是改成url-optimization.asp, boson认为这主要取决于你对哪个搜索引擎的排名更关注。因为在实际操作中发现有些搜索引擎在收录中文网址名时会出现乱码,虽然这些乱码可能会被搜索引擎识别出来,但是这个会增加网址的长度,或是在用户复制网址时会漏掉某一个部分,所以说是用中文网址名可能或多或少会影响到后期的操作。而且BOSON认为,使用英文网址名能加强网址的观赏性,对google这种全球性搜索引擎来讲是有好处的。如果你更关心的是baidu排名,认为在url 使用中文网址能提高关键字密度,理论上讲是可以的,但是在做这个之前要先了解到你的CMS系统是不是在处理中文网址时会不会自身有问题,这一点事非常重要的。

当然我们在使用子域名的时候(第2段)还要特别小心,因为子域名的使用会让搜索引擎区分你和主域名之间的关系,会把子域名作为一个单独的个体来看

待,因此一个网站的权重会被分散,可能会导致关键字排名的下降。但是使用子域名BOSON觉得会增加网站的收录量,因为作为2个个体,搜索引擎会更多的抓取不同的内容,也就是由于域名间的个体关系。

运算符

许多搜索引擎都允许在搜索中使用两个不同的布逻辑运算符:AND和OR。如果您想搜索所有同时包含单词“hot”和“dog”的Web站点,只需要在搜索引擎中输入如下关键字:

hot AND dog

搜索将返回以热狗(hot dog)为主题的Web站点,但还会返回一些奇怪的结果,如谈论如何在一个热天(hot day)让一只狗(dog)凉快下来的Web站点。

如果想要搜索所有包含单词“hot”或单词“dog”的Web站点,您只需要输入下面的关键字:

hot OR dog

搜索会返回与这两个单词有关的Web站点,这些Web站点的主题可能是热狗(hot dog)、狗,也可能是不同的空调在热天(hot day)使您凉爽、辣酱(hot chilli sauces)或狗粮等。

留意引擎

搜索引擎返回的Web站点顺序可能会影响人们的访问,所以,为了增加Web 站点的点击率,一些Web站点会付费给搜索引擎,以在相关Web站点列表中显示在靠前的位置。好的搜索引擎会鉴别Web站点的内容,并据此安排它们的顺序,但其他搜索引擎大概不会这么做。

此外,因为搜索引擎经常对最为常用的关键字进行搜索,所以许多Web站点在自己的网页中隐藏了同一关键字的多个副本。这使得搜索引擎不再去查找Internet,以返回与关键字有关的更多信息。

正如读报纸、听收音机或看电视新闻一样,请留意您所获得的信息的来源。搜索引擎能够帮您找到信息,但无法验证信息的可靠性。因为任何人都可以在网上发布信息。

加减号

很多搜索引擎都支持在搜索词前冠以加号(+)限定搜索结果中必须包含的词汇。用减号(-)限定搜索结果不能包含的词汇。

语法查询

1. 把搜索范围限定在网页标题中——intitle:标题

2. 把搜索范围限定在特定站点中——site:站名

3. 把搜索范围限定在[url]url链接中——inurl:链接

4. 精确匹配——双引号" "和书名号<<>>

5. 要求搜索结果中同时包含或不含特定查询词——“+”、“-”(减)

6. 专业文档搜索——filetype:文档格式

把搜索范围限定在网页标题中——intitle网页标题通常是对网页内容提纲挈领式的归纳。

把查询内容范围限定在网页标题中,有时能获得良好的效果。使用的方式,是把查询内容中,特别关键的部分,用“intitle:”领起来。例如,找林青霞的写真,就可以这样查询:写真intitle:林青霞注意,intitle:和后面的关键词之间,不要有空格。

把搜索范围限定在特定站点中——site有时候,您如果知道某个站点中有自己需要找的东西,就可以把搜索范围限定在这个站点中,提高查询效率。使用的方式,是在查询内容的后面,加上“site:站点域名”。例如,天空网下载软件不错,就可以这样查询:msn site:skycn com注意,“site:”后面跟的站点域名,不要带“http://”;另外,site:和站点名之间,不要带空格。

把搜索范围限定在url链接中——inurl网页url中的某些信息,常常有某种有价值的含义。于是,您如果对搜索结果的url做某种限定,就可以获得良好的效果。实现的方式,是用“inurl:”,后跟需要在url中出现的关键词。例如,找关于photoshop的使用技巧,可以这样查询:photoshop inurl:jiqiao上面这个查询串中的“photoshop”,是可以出现在网页的任何位置,而“jiqiao”则必须出现在网页url中。注意,inurl:语法和后面所跟的关键词,不要有空格。

精确匹配——双引号和书名号如果输入的查询词很长,百度在经过分析后,给出的搜索结果中的查询词,可能是拆分的。如果您对这种情况不满意,可以尝试让百度不拆分查询词。给查询词加上双引号,就可以达到这种效果。例如,搜索上海科技大学,如果不加双引号,搜索结果被拆分,效果不是很好,但加上双引号后,“上海科技大学”,获得的结果就全是符合要求的了。书名号是百度独有的一个特殊查询语法。在其他搜索引擎中,书名号会被忽略,而在百度,中

文书名号是可被查询的。加上书名号的查询词,有两层特殊功能,一是书名号会出现在搜索结果中;二是被书名号扩起来的内容,不会被拆分。书名号在某些情况下特别有效果,例如,查名字很通俗和常用的那些电影或者小说。比如,查电影“手机”,如果不加书名号,很多情况下出来的是通讯工具——手机,而加上书名号后,《手机》结果就都是关于电影方面的了。

要求搜索结果中不含特定查询词如果您发现搜索结果中,有某一类网页是您不希望看见的,而且,这些网页都包含特定的关键词,那么用减号语法,就可以去除所有这些含有特定关键词的网页。例如,搜神雕侠侣,希望是关于武侠小说方面的内容,却发现很多关于电视剧方面的网页。那么就可以这样查询:神雕侠侣-电视剧注意,前一个关键词,和减号之间必须有空格,否则,减号会被当成连字符处理,而失去减号语法功能。减号和后一个关键词之间,有无空格均可。

使用技巧

1、简单查询

在搜索引擎中输入关键词,然后点击“搜索”就行了,系统很快会返回查询结果,这是最简单的查询方法,使用方便,但是查询的结果却不准确,可能包含着许多无用的信息。

2、使用双引号用

给要查询的关键词加上双引号(半角,以下要加的其它符号同此),可以实现精确的查询,这种方法要求查询结果要精确匹配,不包括演变形式。例如在搜索引擎的文字框中输入“电传”,它就会返回网页中有“电传”这个关键字的网址,而不会返回诸如“电话传真”之类网页。

3、使用加号(+)

在关键词的前面使用加号,也就等于告诉搜索引擎该单词必须出现在搜索结果中的网页上,例如,在搜索引擎中输入“+电脑+电话+传真”就表示要查找的内容必须要同时包含“电脑、电话、传真”这三个关键词。

4、使用减号(-)

在关键词的前面使用减号,也就意味着在查询结果中不能出现该关键词,例如,在搜索引擎中输入“电视台-中央电视台”,它就表示最后的查询结果中一定不包含“中央电视台”。

5、使用通配符

通配符包括星号(*)和问号(?),前者表示匹配的数量不受限制,后者匹配的字符数要受到限制,主要用在英文搜索引擎中。例如输入“computer*”,就可以找到“co mputer、computers、computerised、computerized”等单词,而输入“comp?ter”,则只能找到“computer、compater、competer”等单词。

6、使用布尔检索

所谓布尔检索,是指通过标准的布尔逻辑关系来表达关键词与关键词之间逻辑关系的一种查询方法,这种查询方法允许我们输入多个关键词,各个关键词之间的关系可以用逻辑关系词来表示。and,称为逻辑“与”,用and进行连接,表示它所连接的两个词必须同时出现在查询结果中,例如,输入“computer and book”,它要求查询结果中必须同时包含computer和book。or,称为逻辑“或”,它表示所连接的两个关键词中任意一个出现在查询结果中就可以,例如,输入“computer or book”,就要求查询结果中可以只有computer,或只有book,或同时包含computer和book。not,称为逻辑“非”,它表示所连接的两个关键词中应从第一个关键词概念中排除第二个关键词,例如输入“automobile not car”,就要求查询的结果中包含automobile(汽车),但同时不能包含car(小汽车)。near,它表示两个关键词之间的词距不能超过n个单词。在实际的使用过程中,你可以将各种逻辑关系综合运用,灵活搭配,以便进行更加复杂的查询。

7、使用括号

当两个关键词用另外一种操作符连在一起,而你又想把它们列为一组时,就可以对这两个词加上圆括号。

8、使用元词检索

大多数搜索引擎都支持“元词”(metawords)功能,依据这类功能用户把元词放在关键词的前面,这样就可以告诉搜索引擎你想要检索的内容具有哪些明确的特征。例如,你在搜索引擎中输入“title:清华大学”,就可以查到网页标题中带有清华大学的网页。在键入的关键词后加上“domainrg”,就可以查到所有以org 为后缀的网站。其他元词还包括:image:用于检索图片,link:用于检索链接到某个选定网站的页面,URL:用于检索地址中带有某个关键词的网页。

9、区分大小写

这是检索英文信息时要注意的一个问题,许多英文搜索引擎可以让用户选择

是否要求区分关键词的大小写,这一功能对查询专有名词有很大的帮助,例如:Web专指万维网或环球网,而web则表示蜘蛛网。

三、常用搜索引擎的特点及比较

1、常用搜索引擎

谷歌、百度、搜狗

2、特点

关键词:电压、CDMA、高血糖、问、无间道、快递

1 电压

2 CDMA

相关主题
相关文档
最新文档