网络信息资源检索4
04 网络信息检索-检索表达式

3、 科 技 特 种 文 献
科技报告 科技会议文献 专利文献 学位论文 标准文献 政府文献 产品资料 科技档案
45
(1)科技报告(technical report)
是报道科学研究项目和开发调查工作的成 果总结,或是其进展中的阶段性进展情况报告。 科技报告的内容不少涉及国家部署、支持的高 科技研究项目,包括生产技术方面的、基础理 论方面的。它专业性强,报道详尽,有技术数 据、图表,有研究比较,出版速度快。
37
科技图书内容比较成熟、全面、可靠、系统, 它是对已有研究成果、生产技术和经验或某一 知识体系的论述或概括。 科技图书的基本素材来自期刊论文、会议论文、 研究报告、学位论文等一次文献,其中包括作 者本人的研究、见地。 科技图书的出版周期较长,信息传递较慢,这 是它的一大遗憾。为获得最新研究信息,科技 人员首选的出版物是科技期刊。
——十大信息源
(1)科技图书 (6)科技报告
(专利文献 (5)学位论文
特 (8)标准文献
种
文 (9)科技档案 献 (10)产品样本
36
1、科技图书(Sci-Tech book)
一般分为两大类:阅读类图书(reading book)和参考类图书(reference book),前 者有教科书(text book)、专著(monograph) 和论文集(anthology)等,后者是参考工具 书(reference book),它们是百科全书 (encyclopedia)、手册(handbook)、年鉴 (yearbook)等。
20
逻辑与(AND)*
换一个角度看,“逻辑与”又能 防止漏检。
例如,用户输入“新闻美学”作 为检索词,可命中《戈公振的新闻 美学实践》这样的文献,但漏检了 《新闻的美学属性》、《新闻标题 中的美学》这些文献。如果用“新 闻*美学”来进行检索,则上述三 篇文献都检中。
网络信息资源检索与利用第四章

网络信息资源检索与利用授课教师:史先红第四章数据库信息资源检索标准检索是最常用的一种检索方式,运用逻辑组配进行检索,检索结果精确。
❿操作步骤:输入时间、支持基金、文献来源、作者等检索控制条件;输入文献全文、篇名、主题、关键词等内容检索条件;选择文献资源;对检索结果的分组排序,反复筛选修正检索式得到最终结果。
示例1 :检索发表在2007年核心期刊中有关“地理科学”的文献❿题目分析:❿(1)核心词:地理科学❿(2)限定条件:2007年、核心期刊❿(3)检索字段:篇名操作:在“检索控制条件”中将“发表时间”下拉菜单打开,选择:从某一年到某一年;在检索范围中选择“核心期刊”;在检索项中选择“主题”;在“输入内容检索条件”中,在检索词框中输入“地理科学”;并选择匹配方式“精确”,排序为时间。
点击“检索”。
检索小结:❿分析检索课题,明确主题概念❿分析课题的内容实质、所属学科范围及其相互关系,明确要将所的文献内容、性质等。
❿选择检索方式检索❿查找文献线索,获取全文(5)查看原文❿查看原文途径--两种途径检索结果页面,点击题名前的“软盘图标”下载浏览CAJ格式全文;“节点文献”页面,点击“CAJ”图标”下载,或“PDF图标”下载。
提示:只有正常登录的正式用户才可以下载保存和浏览文献全文。
❿浏览器的功能与使用--❿打印、缩放、翻页、选择、复制…3.利用❿(1)《中国学术期刊网络出版总库》平台首页首页中的“总库文献出版报表”提供包含各个数据库的文献来源、文献量、收全率、当日产出文献等数据的出版总报表,帮助用户了解各总库内文献分布情况、文献来源以及最近更新文献信息。
(2)检索结果分组和排序①❿检索结果可根据学科类别、期刊名称、研究资助基金、研究层次、文献作者、作者单位、中文关键词进行分组,筛选得出相应的结果。
按学科类别分组是将检索结果按照学科类目进行分组。
按学科类别分组可以查看检索结果所属的更细的学科专业,找到所关注的文献。
第二章-网络信息资源的检索与利用 第二,三节

A.互联网上的国内期刊信息
• 查找国内期刊,可以从以下站点入手: • 一、中国期刊网: • 二、维普科技期刊网: 或 / • 三、万方数据资源系统的数字化期刊: /qikan/ind ex.jsp • 四、学科导航信息
●
图片搜索
二.常用网络信息资源的检索
• • • • • • • 1. 网络检索--- 图书 2. 网络检索----期刊 3. 网络检索----报纸 4. 网络检索----人物,机构 等信息 5. 网络检索----专利, 标准, 科技报告, 统计数据等信息
怎样查找互联网上的图书信息?
网络信息资源 检索﹠利 用
• 网络信息资源与常用中英文搜索引擎
• 常用网络信息资源的检索利用(学术) • 网络信息资源的检索策略与技巧
第二节
• 常用网络信息资源的检索利用(学术)
一.重要的学术搜索简介
二.常用网络信息资源的检索利用
一.重要的学术搜索简介
• 1. Google scholar(Google学术搜索 ) • 2. Scirus(科学搜索)是目前网上最全面、 综合性最强的科技文献搜索引擎之一 • 3.一些专业专题搜索引擎。
•
Directory of Open Access Journals
• DOAJ( Directory of Open Access Journals)由 由Lund University建立,它提供有质量控制的可 免费获取的网上电子期刊资源,它的目标是建成一 个无学科、无语言限制的综合性的科学期刊系统, 方便科研人员使用,并可提升期刊的显示度。 • 目前该网站已收集了482种期刊,并把这些期刊分 成了15个大类,53个小类,其中包括农业、生命科 学、化学、数学、物理、天文学、工程技术、环境 科学DOAJ( Directory of Open Access Journals 、社会科学等。
网络环境下信息检索的方法与技巧.

参考工具书是根据一定的需 要汇集有关方面资料,并按特 定方式编排,以供读者检索事 实性和数据性信息的图书。根 据所收录的内容及所具备的功 能,参考工具书可分为:字典、 词典,百科全书,年鉴,名录 等类型。
1、字典、词典
字典、词典是我们最熟悉、最常 使用的工具书。字典、词典的种类 很多,图书馆收藏有不少印刷型的 字典、词典,如辞海、英汉词典等 等。随着Internet的快速发展,网 上也涌现出了越来越多的字、词典 检索网站,数百种字词典在网上可 免费获得
1、手工信息检索:通过人脑的思维判断从书本式
的检索工具(《全国报刊索引》、《中国生物学文 摘》)中查找出自己所需要的信息。 2、联机信息检索:利用终端设备,通过国际通讯 网络和计算机检索系统连接,远距离地从国际联机 检索系统的数据库中检索出所需信息。最著名的国 际联机检索服务系统有美国的DIALOG,ORBIT和欧 洲的ESA-IRS等。 3、光盘信息检索:光盘检索是指利用光盘数据库 检索文献信息。目前的光盘检索有两种形式:—种 是利用自己购买的光盘版的数据库进行检索;另一 种是在联网环境下利用网络版的光盘数据库进行检 索。我们工大图书馆就订购了许多光盘数据库,如:
网上年鉴类站点主要有:
(1) 中华人民共和国统计局:设有统计数据、统计信息、 统计分析等栏目,可查到我国各行各业的最新统计数 据,还可链接到我国各省、市和国务院所属部委、直 属机构的网站(/ ) (2) 中国网 -- 中国统计数据:该网站提供了 2000-2004 年 工 业、投资、国内外贸易、物价、进出口、金融财政 等方面的及时、可靠、权威的中国宏观经济月度统计 资料,所有资料都来自中国国家统计局。 (/ch-company/index.h (3)浙江统计信息网:该网站设有浙江省情、统计数据、 统计信息、统计公布、统计法规等栏目,有地区生产 总值、工业、农业国内贸易、财政金融、物价、居民 家 庭 收 入 等 方 面 的 最 新 统 计 数 据 。 (/)
网络信息资源检索上机作业(含答案)

作业1网络信息资源检索搜索引擎为google一、搜索引擎基础搜索(利用baidu 或者google)1、用逻辑“或”查出:“汶川地震”或“四川地震” 的有关网页。
(要求:记录命中网页数量和前两篇网页的标题)注明所使用的搜索引擎检索式:汶川地震OR四川地震命中结果的数量:找到约10,300,000 条结果前两篇网页标题分别为:5·12汶川地震_百度百科;四川汶川发生8级地震-新闻频道-和讯网2、用逻辑“非”查出:中国电信(不含“上海公司”)有关的网页。
(要求:记录命中网页数量和前两篇网页的标题)检索式:中国电信-上海分公司命中结果的数量:找到约127,000,000 条结果前两篇网页标题分别为:中国电信网上营业厅·广东|为您提供电信业务办理、充值交费、费用 ...;中国电信网上营业厅公测版3利用Google“手气不错”功能检索:剑桥大学主页的URL。
(写出其网址)4利用高级检索查找过去1个月政府网站上有关禽流感治疗方面的资料。
(写出检索结果数。
)检索式:禽流感治疗site:找到约75,300 条结果二、搜索技巧练习。
(Baidu or Google)Google搜索(1)利用搜索引擎检索本专业方面的doc/pdf/ppt格式的文档各1篇(只需列出网址)。
检索式:"网络信息检索与利用" filetype:doc (pdf /ppt)(doc)/wxjs/2007qs/NO9.doc(pdf)116.53.253.213:8808/km/App_Pdf/昆明医学院文检教学大纲.pdf(ppt)(2)利用搜索引擎搜索中国教育网站内有关“学科资源导航”的所有消息,共有几条?(中国教育类网站)找到约1,640 条结果(3)在政府网站中查询网页标题中含有“胡锦涛”的页面,写下查询结果。
(写出检索式)(intitle与site语法结合)(政府类网站)使用百度搜索引擎检索式:site: intitle:"胡锦涛"搜索结果:百度为您找到相关结果约178,000个(4)查找中国互联网信息中心网站上关于“中国互联网发展状况统计报告‘的PDF文档。
《信息资源检索与利用》课程重点

《信息资源检索与利用》课程要点1.信息资源信息是普遍存在的,但并非所有的信息都是信息资源,信息只有经过人类加工后,可被利用的信息才能称为信息资源。
2.信息资源的分类按信息资源的存在状态可将英分为潜在的信息资源和现实的信息资源两大类。
英中现实的信息资源依据北载体可分为体载信息资源、文献信息资源、实物信息资源和网络信息资源。
(1)体载信息资源体载信息资源指以人体为载体并能为他人识别的信息资源,按其表达方式又可分为口语信息资源和体语信息资源。
口语信息资源是人类以口头语言表达出来但未被记录下来的信息资源,如谈话、授课、讲演、讨论等:体语信息资源是以人的体态表达出来的信息资源,如表情、手势、姿态、舞蹈等。
(2)文献信息资源:文献信息资源是以文献为载体的信息资源。
A.按信息资源岀版类型划分(10大信息源)①科技图书:②科技期刊:③科技报告;④会议文献:⑤专利文献:⑥学位论文;⑦标准文献;⑧政府岀版物:⑨产品样本;⑩技术档案B.按加工层次划分①一次信息资源。
一次信息的载体形式称为一次信息资源,也称原始文献。
它是以作者本人的科研工作成果为依据而创作的原始文献,如期刊论文、科技报告、会议论文、专利文献、学位论文等,它具有新颖性、创造性和系统性等特征,参考和使用的价值较高。
个人专著(某某著书,而某某编的书不是一次文献而是二次或三次文献)。
②二次信息资源。
浓缩二次信息的载体形式称为二次信息资源,是查找一次信息资源的工具。
它是将分散的、无序的一次信息资源进行加工整理,使之成为系统有序的信息资源。
二次信息资源具有浓缩性、汇集性、有序性等特点,它的作用不仅在于报道信息的内容,更重要的是可以提供原一次信息资源的线索。
例如:书目(marc数据)、题录、文摘、索引等。
(图书馆检索室)③三次信息资源。
三次信息的载体形式称为三次信息资源,它是指对一次信息资源进行综合分析、研究和评述而编写出来的成果。
如手册、百科全书、年鉴以及其他综述和评论性文章等。
第四章网络信息检索

搜索引擎检索技巧 • 简单检索 • 双引号(“”)检索
• 加号(+)检索:强调某个词汇必须出现在搜
•
• • • • • •
索结果中。 减号(-)检索:强调某个词汇必须不出现在 搜索结果中。
括号()检索: 空格检索 通配符(*?)检索: 区分大小写检索 布尔逻辑检索 元词检索
(四)常用中文搜索引擎及特点
(二)网络信息检索的一般方法 • 浏览 • 通过网络资源指南查找信息 • 利用网络信息检索工具查找信息:Web 网检 索工具---搜索引擎。 将位于全世界不同地点的相关信息资源 有机地编织在一起,用户通过internet 调来 所希望得到的所有文本、图像、影视和声 音等信息。
(三) www搜索引擎
1996年2月提供服务的台湾蕃薯藤搜索引擎, 标志着中文搜索引擎的正式开始。之后哇 塞、奇摩、悠游等一批中文搜索引擎在港 台相继出现;在中国内地,继四通利方公 司(新浪网前身)开发出了国内最早的中 文搜索引擎Richsurf后,网易、搜索客、常中文搜索引擎:
定义: • 广义上的搜索引擎指基于因特网提供信息管理、 查询、检索等服务的工具、系统与网站。 • 狭义上的搜索引擎指利用ROBOT软件对因特网上 的见面或网站信息资源进行自动搜索服务而专门 设计的一种检索服务软件。 • 常用较为严谨的搜索引擎定义:?
2 搜索引擎的类型
按照信息搜集方法和服务提供方式的不同,搜索引 擎可以分为三大类: (1)目录式搜索引擎:早期的搜索引擎是把因特网 中的资源服务器的地址收集起来,由其提供的资 源的类型不同分成不同的目录,再一层层地进行 分类。信息大多面向网站,提供目录浏览服务和 直接检索服务。优点:信息准确、导航质量高; 缺点:需要人工介入,维护量大,信息量少,信 息更新不及时。代表: Yaho用语法规则)
网络信息资源检索精品文档

man woman organization defense men women organisation defence 检索时为防止漏检可用中间屏蔽的检索方法: m?n wom?n organi?ation defen?e
注意:
无论是前截断、后截断和中间屏蔽,从根本上来说, 它们是逻辑“或”的运算,因此能扩大检索范围, 提高查全率。此外还能减少输入检索词的工作量, 简化检索步骤,节省机时和费用。在中文数据库中 使用最多的是后截断检索。
主体是internet
2.网络信息资源的特点
(1)数量庞大,增长迅速; (2)内容丰富,形式多样; (3)变化频繁,价值不一; (4)结构复杂,分布广泛; (5)信息分散、无序;
3.Internet信息资源类型
按信息查询方式:
(1)互联网(WWW)信息。 (2) FTP信息。(远程服务器上可上传和下载的文
(3)元搜索引擎:
没有独立的数据库,只提供一个统一界 面,把多个具有独立功能的引擎组合起来。
万纬搜索引擎: 美国硅谷。 2001年10月22日,正式发布搜 1 索引擎。
网络信息 检索方法
偶尔发现
网上浏览
顺“链”而
行
分类目录 (目录型检索工具)
主题检索 搜索引擎
RSS阅读
5.计算机检索技术
(1)布尔逻辑检索技术
就是布尔检索是将多个关键词按照一 定的逻辑关系组合在一起形成的组合 检索.
这是计算机信息检索中最基本的 也是最常用的技术。
布尔逻辑运算符
逻辑“与” 逻辑“或” 逻辑“非”
从图中可以看出:
① 逻辑“与”的组配缩小了检索的范围。 参加逻辑“与”的检索词越多,检索的 结果范围限制得越小,命中的文献也就 越少。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四章 Internet信息检索 1 2 3 4 网络信息检索的一般方法 网络信息检索工具 相关网络信息检索技术 搜索引擎及其原理
1 网络信息检索的一般方法
1.1 浏览
1.2 通过网络资源指南来查找信息 1.3 利用搜索引擎进行信息检索
1.1 浏览
(1)偶然发现。
这是在因特网上发现、检索信息的原始方法。
等功能。
2 网络信息检索工具
网络信息检索工具是指在因特网上提 供信息检索服务的计算机系统,其检索的 对象是存在于因特网信息空间中各种类型 的网络信息资源。
近来具一般是由自动索引程序、 数据库和检索代理软件组成的。
自动索引程序
即在日常的网络阅读、漫游过程中,意外发现一些
有用信息。这种方式的目的性不是很强,其不可预 见性、偶然性使检索过程具有某种探索宝藏的意味, 也许会充满乐趣,但也可能一无所获。
(2)顺“链”而行。
指用户在阅读超文本文档时,利用文档中的链接从一网
页转向另一相关网页。有些类似于传统文献检索中的“追溯 检索”,即根据文献后所附的参考文献目录去追溯相关文献, 一轮一轮地不断扩大检索范围。这种方式可以在很短的时间 内获得大量相关信息,但也有可能在“顺链而行”中偏离了
3、提供检索服务 用户输入关键词进行检索,搜索引擎从 索引数据库中找到匹配该关键词的网页;为 了用户便于判断,除了网页标题和URL外, 还会提供一段来自网页的摘要以及其他信息。
中文搜索引擎指
南
/seek.htm
数据库
自动索引程序将采集和标引的信息汇集成数据库, 作为该网络检索工具提供检索服务的基础。不同网络 检索工具的数据库收录范围不一样,有的收录Web及 图像、有的收录WEB、 FTP、 Flash、新闻组等资源 类型。不同网络检索工具的标引方式也不同,有的索 引软件标引主页全文,有些则只标引主页的地址、标 题、责任者、特定的段落和关键词。
3 相关网络信息检索技术
涉及到网络信息检索的技术概念比较多,在这 里介绍一些应用比较广的概念。
分类检索、关键词检索、布尔逻辑检索、词组 检索、加/减号检索、截词检索、字段检索、自然语 言检索、位置检索、多语种检索、区分大小写的检 索、过滤检索、多媒体检索。
分类检索
分类检索多用于目录搜索引擎。用户无需
技术可以避免未成年人上网时受到不健康影响。
多媒体检索
多媒体检索包括基于描述的多媒体检索和基于内容的多
媒体检索。 基于描述的多媒体检索就是用一个关键词来描述所要查
找的图片或是音乐,比如可以用“刘德华”这个词来查找他的
写真图片,也可以在MP3搜索引擎中查找他的相关音乐。 基于内容的多媒体检索就是用一些视觉特征来查找多媒 体信息,这些视觉特征包括颜色、形状、纹理等。(有待实现, 涉及采集设备、算法等)
举例:information near/5 retrieval
多语种检索
即提供多语种的检索环境供检索者选择,
系统按指定的语种进行检索并输出检索结果。
目前,有的搜索引擎提供多达30个自然语种的
检索选择。此功能尤其适合于不同国家的检索
者检索不同语种的网络资源。
区分大小写的检索
它主要是针对检索词中含有人名、地名等
检索目标,或迷失于网络信息空间中,而且找到合适的检索
起点也并息
为了对因特网这个无序的信息世界加以组织、管
理,使大量有价值的信息纳入一个有序的组织体系,
专业人员做了许多努力和开发,比如基于专业人员对
网络信息资源的产生、传递与利用机制的广泛了解和 对网络信息资源分布状况的熟悉,以及对各种网络信
【组成】 搜索引擎一般由四个部分组成: ①搜索器:其功能是在互联网中漫游,发现和搜 集信息; ②索引器:其功能是理解搜索器所搜索到的信息, 从中抽取出索引项,用于表示文档以及生成文档库 的索引表; ③检索器:其功能是根据用户的查询在索引库中 快速检索文档,进行相关度评价,对将要输出的结 果排序,并能按用户的查询需求合理反馈信息; ④用户接口:其作用是接纳用户查询、显示查询 结果、提供个性化查询项。
息资源的采集、组织、评价、过滤、控制、检索等手
段的全面把握而开发可供浏览和检索的网络资源主题
指南。
1.3 利用搜索引擎进行信息检索
这是一种较为常规的、普遍的网络信息检索方式。
搜索引擎是提供给用户进行关键词、词组或自然语言
检索的工具。用户提出检索要求,搜索引擎代替用户
在数据库中进行检索,并将检索结果提供给用户。它 一般支持布尔检索、词组检索、截词检索、字段检索
检索代理软件
当用户提出查询要求时,由检索软件负责代理用 户在数据库中进行检索。不同网络检索工具所采用的 检索机制、算法有所不同,布尔逻辑检索是较普遍采 用的一种机制。即按照检索项间的逻辑关系使用布尔 逻辑符AND,OR,NOT等来组合检索项,形成检索 式来提交查询。除了布尔检索外,许多网络检索工具 还提供了一些其他的检索机制如:截词检索、概念检 索、模糊检索、词组检索、字段检索、位置检索等。
索。截词符多采用通配符“*”,可以用它代表
多个字符。因此,截词检索有时也称为通配符
检索。
举例:wom*n,可代表woman、women等。
字段检索
字段检索是一种用于限定提问关键词在数据库记
录中出现的区域,控制检索结果的相关性,提高检索
效果的检索方法,多以字段限定方式实现。搜索引擎
常用的字段有:Title/t、Subject、Text、host(主 机)、URL/u、domain(域名)、link(链接)等。
11、搜一下 12、飞客BT搜索引擎 / 13、Souyo / 14、雅虎易搜 / 15、麦布搜索引擎 / 16、中华搜索 / 17、酷亿 18、搜搜 / 19、易搜查 20、北京搜索 / 21、比比猫 /
布尔逻辑检索一般指“与”、“或”、“非”三种
运算:
逻辑“与”的布尔运算符为“AND”、“and”,有
时也可用“&”符号表示。(交集) 逻辑“或”的布尔运算符为“OR”、“or”,有时 也可用“|”符号表示。(并集) 逻辑“非”的布尔运算符为“NOT”、“not”,有 时也可用“!”符号表示。(差集)
专有名词的。在区分大小写的情况下,大写检
索词能被当作专有名词看待。而在不区分大小
写的情况下,则无法区分该检索词是指专有名
词还是普通词,从而在一定程度上会影响检索
结果的准确性。
过滤检索
在检索中自动将一些网站信息过滤去掉,
比如一些内容不健康的黄色网站信息,影响国
家安全的政治反动网站信息等,这种检索服务
输入任何文字,只要根据目录搜索引擎提供的
主题分类目录,层层点击进入,便会查找到用
户所需的网络信息资源。
关键词检索
用户只需在搜索引擎的提问框中输入合适 的提问关键词,按回车键之后,搜索引擎便会 将与该提问关键词匹配的结果反馈于你。大多 数的搜索引擎是以模糊检索原理实现关键词检 索功能。
布尔逻辑检索
4 搜索引擎及其原理
搜索引擎(search engine) 是指根据一定的策略、运用特 定的计算机程序搜集互联网上 的信息,在对信息进行组织和 处理后,为用户提供检索服务 的系统。
【历史】 互联网发展早期,以雅虎为代表的网站分类目 录查询非常流行。网站分类目录由人工整理维护, 精选互联网上的优秀网站,并简要描述,分类放置 到不同目录下。用户查询时,通过一层层的点击来 查找自己想找的网站。有人把这种基于目录的检索 服务网站称为搜索引擎,但从严格意义上讲,它并 不是搜索引擎。 从用户角度看,搜索引擎提供一个包含搜索框 的页面,在搜索框输入词语,通过浏览器提交给搜 索引擎后,搜索引擎就会返回跟用户输入的内容相 关的信息列表。
词组检索
词组检索也称为短语检索,或字符串检索。
它是将一个词组或短语用双引号“”括起作为
一个独立运算单元,进行严格匹配,以提高检
索准确度的一种方法。
加/减号检索
加/减号检索是搜索引擎支持的常规功能,
即在检索词前置“+”/“-”号,其作用相当于布尔
逻辑“与”/“非”运算。
截词检索
在搜索引擎中,截词检索多为前方一致检
自然语言检索
自然语言检索就是一种直接采用自然语言
中的字、词甚至整个句子作为提问式进行检索
的方法。
位置检索
位置检索是指允许指定两个单词之间的词 序和词距的检索。词序指单词之间前后顺序, 词距指二个单词之间间隔单词数。其操作符多 为 “near/n”,n为数值,意为检索单词间距最 大不超过几个单词。
【著名搜索引擎网址】1、 / 2、维基百科 3、雅虎 / 4、Google / 5、网易有道 / 6、北京大学天网中英文搜索引擎 / 7、搜狐 /dir/ 8、新浪网 / 9、TOM搜索引擎 / 10、 /
【工作原理】
1、抓取网页 每个独立的搜索引擎都有自己的网页抓 取程序(spider)。Spider顺着网页中的超 链接,连续地抓取网页。被抓取的网页被称 之为网页快照。由于互联网中超链接的应用 很普遍,理论上,从一定范围的网页出发, 就能搜集到绝大多数的网页。
2、处理网页 搜索引擎抓到网页后,还要做大量的预 处理工作,才能提供检索服务。其中,最重 要的就是提取关键词,建立索引文件。其他 还包括去除重复网页、分析超链接、计算网 页的重要度。
互联网
搜索技巧