桌面搜索引擎的设计与实现

合集下载

《基于Lucene的蒙古文搜索引擎的设计与实现》范文

《基于Lucene的蒙古文搜索引擎的设计与实现》范文

《基于Lucene的蒙古文搜索引擎的设计与实现》篇一一、引言随着信息技术的飞速发展,搜索引擎已经成为人们获取信息的重要工具。

蒙古文搜索引擎作为服务于蒙古语用户的信息检索工具,其设计与实现显得尤为重要。

本文将介绍基于Lucene的蒙古文搜索引擎的设计与实现过程,旨在为相关研究和应用提供参考。

二、需求分析1. 用户需求:蒙古文搜索引擎需满足用户快速、准确地搜索蒙古文信息的需求。

同时,用户期望搜索引擎具有友好的界面和良好的用户体验。

2. 功能需求:蒙古文搜索引擎应具备基本的搜索功能,如全文搜索、关键词搜索、高级搜索等。

此外,还需支持对搜索结果的排序、筛选和分享等功能。

三、系统设计1. 技术选型:选用Lucene作为搜索引擎的核心技术,其强大的全文搜索功能和高效的索引管理机制能够满足蒙古文搜索引擎的需求。

2. 系统架构:采用分层架构设计,将系统分为数据层、索引层、搜索层和用户层。

数据层负责存储蒙古文数据,索引层负责建立和管理索引,搜索层负责提供搜索服务,用户层负责与用户进行交互。

3. 数据库设计:选用适合蒙古文的数据库管理系统,建立数据表结构,用于存储蒙古文文档、关键词、索引等信息。

4. 索引策略:采用倒排索引技术,对蒙古文文档进行分词、过滤和建立索引,以提高搜索效率和准确性。

四、系统实现1. 数据预处理:对蒙古文文档进行分词、去停用词等预处理操作,以便建立准确的索引。

2. 索引建立:使用Lucene的API建立倒排索引,将预处理后的文档数据存储到索引中。

3. 搜索服务:提供基本的搜索功能,如全文搜索、关键词搜索、高级搜索等。

同时,支持对搜索结果的排序、筛选和分享等功能。

4. 用户界面:设计友好的用户界面,提供简洁明了的操作方式和良好的用户体验。

五、性能优化1. 索引优化:定期更新索引,删除无效的索引项,以提高搜索速度和准确性。

同时,采用多线程技术加速索引建立过程。

2. 查询优化:针对不同的查询需求,采用不同的查询策略和算法,以提高搜索效率和准确性。

垂直搜索引擎的设计与实现

垂直搜索引擎的设计与实现

垂直搜索引擎的设计与实现一、引言随着互联网的不断发展,搜索引擎已经成为了人们获取信息的主要途径之一。

尽管百度、谷歌等泛搜索引擎已经能够提供数不胜数的搜索结果,但是当我们需要针对某一特定领域信息进行检索时,这些搜索引擎往往无法很好地满足我们的需求。

这时候,垂直搜索引擎就应运而生。

垂直搜索引擎是专门针对某一领域或者特定内容的搜索引擎,相较于泛搜索引擎来说,其搜索结果更加精准、专业。

那么,本文将会介绍垂直搜索引擎的设计与实现,分别从以下几个角度进行探讨:数据采集与存储、搜索引擎优化、搜索结果排序算法以及用户体验等方面。

二、数据采集与存储1. 数据采集数据采集是垂直搜索引擎最为关键的一环,其结果的质量和准确性对于搜索引擎的用户体验和搜索结果的可信度具有至关重要的作用。

数据采集可以使用爬虫技术来进行,爬虫采集需要注意以下几点:(1)合理设置爬虫抓取规则,遵循robots协议,防止遗漏重要信息或者频繁抓取同一内容。

(2)及时更新抓取规则,对于定期更新的数据,需要使用增量式抓取,并使用增量式更新策略,避免重复数据的存储。

(3)针对相同类型的数据源进行批量抓取,这样可以提高抓取效率和效果。

(4)为了防止爬虫被反爬虫机制击中,可以将访问请求分散到多个IP进行发送,还可以使用请求头中的User-Agent字段进行伪装。

2. 数据存储垂直搜索引擎对于数据的要求十分高,数据的抓取、清洗、去重、分类、标签化、词频统计等都需要进行。

因此,建议使用NoSQL数据库来储存垂直搜索引擎的数据,其中MongoDB是一种非常流行的NoSQL数据库。

MongoDB采用了文档存储的方式,可以处理大量高并发读写的数据,而且可以提供高可用性和易扩展性,使得其成为垂直搜索引擎最佳的数据存储选择。

在使用MongoDB时需要注意以下几点:(1)合理设置数据库的复制集,在出现宕机等异常情况时,可以很快的恢复故障。

(2)对于大的集合的查询,须合理使用索引,减少查询对数据库的负载。

购物搜索引擎的设计与实现

购物搜索引擎的设计与实现

购物搜索引擎的设计与实现如今,随着电子商务的迅猛发展,购物已成为人们重要的生活方式之一。

在购物过程中,搜索引擎成为了人们不可或缺的工具。

因此,购物搜索引擎的设计与实现越来越受到关注。

购物搜索引擎的设计要考虑到的问题很多,比如搜索结果的准确性、速度、使用体验等。

为了让用户更方便地找到所需商品,购物搜索引擎需要对商品信息进行有效的索引和分类,以快速、准确地返回用户所需产品信息。

在设计购物搜索引擎时,需考虑到商品分类的问题。

商品分类是购物搜索引擎重要的设计元素之一,一个好的商品分类设计可以使用户更快速地找到所需的商品,从而提高购物效率。

因此,在分类设计方面,需要考虑到分类是否合理,是否可以涵盖所有商品的需求,分类名称是否简单明了,等问题。

此外,在搜索结果方面,搜索引擎需要进行排名,以便用户更快速地找到所需的产品。

排名要考虑到多种因素,如用户搜索词匹配度,商品销量、价格等。

良好的排序算法可以提高搜索效率,增强用户的购物体验。

同时,在搜素引擎的实现时,也需要考虑到搜索引擎的性能、安全性等方面的问题。

为了提高搜索效率,可以利用分词技术对输入的搜索关键词进行处理,在搜索引擎进行搜索时,排除无效信息,这样可以减少搜索的开销。

此外,在建立搜索索引库时,也可以考虑到使用分布式搜索引擎技术等方式,以提高搜索的速度和稳定性。

在购物搜索引擎的实现中,还需要考虑到用户隐私和交易安全性等问题。

购物搜索引擎提供的搜索信息是否真实、是否保密、是否对用户的个人和财产安全有保障等问题亟待解决。

因此,在实现购物搜索引擎时,需要考虑到相应的技术手段,如SSL加密等,确保用户的信息安全。

在购物搜索引擎领域,好的用户体验是竞争的主要特点。

设计及实现购物搜索引擎,要以用户为中心,方便用户找到他们需要的产品,同时也要提供便捷安全的购物体验。

综上所述,设计及实现购物搜索引擎,需要结合用户需求及现实情况进行全方位的分析和综合策划,同时也需要考虑到系统性能、安全性、可扩展性等方面的问题。

一个网络搜索引擎的设计与实现

一个网络搜索引擎的设计与实现
和用 户接 口四大 主要 部分 组成 。
主 页 出发 , 就 可 以抓 取 到 网络 上 所 有 的 网页 , 被 抓 取
的 网页 被称 之 为 网页快 照 。
处 理 网页 : 搜 索 引擎抓 到 网页后 , 需 要对 网页进 行
大 量 的处 理 工 作 ,然后 把 处理 好 的 网页 送 往 数 据 库




















r - . 蔼一 … 建… … 皇… … 脑 糕 UJl AN e O . { T醴

个 网络搜 索 引擎 的设计 与实现
白晋伟
( 苏 州大 学图 书馆 数 字化 部 苏 州 江苏 2 1 5 0 0 6 )
【 摘 要】 : 网络搜索引擎是指 自动地从 网络搜集信 息, 经过处理后提供给用户查询的系统。 设计 了
没有 冲浪 板 , 面对 滔 天 海水 , 只 能 望 洋兴 叹 , 没 有 搜索
检索器 : 根 据 用 户 输 入 的查 询 请 求 , 在 索 引数 据
进 行 相 关 度评 价 , 对 将 要输 出 的 引擎 面对 浩 如烟 海 的 网上 信 息我 们将 无 从 下手 , 找不 库 中快 速 检 索 文 档 , 并 按用 户 的查 询 需求 合 理返 回 让用 户满 意 到我们希望得到的信息。 网络搜索引擎是对 网络上网 结 果排 序 ,
网络 爬 虫 : 又被 称 为 网络 蜘 蛛 , 网络机 器 人 , 是 一 中 , 以便 检索 器在 数 据 库 中进 行检 索 。其 中包括 提 取
种 按 照一 定 的规 则 , 自动 的抓 取 万维 网信 息 的程 序或 关 键 词 , 建 立 索 引文 件 数 据 库 、 对 重 复 网页 网页 的 处 者脚本 。从 一个 或若 干初 始 网页 的 U R L开 始 , 获得初 理 、 中文 分 词 的 处 理 、 判 断 网页 类 型 、 解 析 得 出超 链 计算 网页 的页面 排名 等 。 始 网页 上 的 U R L , 在 抓 取 网 页 的过 程 中 , 不 断 从 当前 接 、

信息检索系统设计与实现

信息检索系统设计与实现

信息检索系统设计与实现在当今数字化的时代,信息如同海洋般浩瀚,如何快速、准确地从这海量信息中找到我们所需的内容,成为了一个至关重要的问题。

信息检索系统应运而生,它就像是一位智能的导航员,帮助我们在信息的海洋中找到方向。

接下来,让我们一起深入探讨信息检索系统的设计与实现。

一、信息检索系统的需求分析在设计信息检索系统之前,我们首先要明确用户的需求。

不同的用户群体可能有着不同的需求,比如学者可能需要查找专业的学术文献,企业员工可能需要查找公司内部的文档和资料,普通大众可能更多地是搜索新闻、娱乐等方面的信息。

了解用户的搜索习惯和期望也是至关重要的。

有些用户喜欢输入精确的关键词,而有些用户可能更倾向于用自然语言来描述他们的需求。

此外,还需要考虑用户对检索结果的准确性、完整性和时效性的要求。

二、信息检索系统的架构设计1、数据采集模块这是信息检索系统的基础,负责从各种来源收集信息。

这些来源可以包括网页、数据库、文件系统等。

在采集数据的过程中,需要确保数据的完整性和准确性,同时要对数据进行初步的处理,比如去除噪声和重复的数据。

2、数据预处理模块采集到的数据往往是杂乱无章的,需要进行预处理。

这包括对文本进行分词、去除停用词、词干提取等操作,将文本转化为便于处理和检索的形式。

3、索引构建模块索引就像是一本书的目录,能够加快检索的速度。

常见的索引结构有倒排索引、正排索引等。

通过构建高效的索引,可以在短时间内找到与用户查询相关的信息。

4、查询处理模块当用户输入查询请求时,查询处理模块会对查询进行分析和理解,将其转化为系统能够理解的形式,并与索引进行匹配,找到相关的文档。

5、结果排序模块找到相关的文档后,还需要对结果进行排序,将最符合用户需求的文档排在前面。

排序的依据可以是文档与查询的相关性、文档的质量、更新时间等因素。

6、用户接口模块这是用户与系统交互的界面,需要设计得简洁、直观、易用。

用户可以通过输入关键词、选择筛选条件等方式进行查询,并能够方便地查看检索结果。

Intranet搜索引擎设计与实现

Intranet搜索引擎设计与实现
i n a d I p e e t to fI ta e e r h En i e sg n m lm n a in o n r n tS a c gn
HUAN G n DONG a m i g ZHANG i n Ku Xi o n Ja
人的信息查询 。 要实现全文 检索 , 然首先 要建 立全 文索 引_。全文 显 1 ]
点。
本 文 主 要 从 速 度 方 面 人 手 , 究 在 L 平 台上 的 I一 研 i
t nt r e 搜索引擎的实现和应用 。 a
2 全文检索算法分析
2 1 基 于 简 单 匹配 的 检 索 .
Cls c, r TP3 3 a s Nu P  ̄ l 9
1 引 言
搜索 引擎 实际上就是 一种 全文 检索 系统 , 它是 管理 文 档的软件 系统 。包 括文档 维护 子系 统和 检索子 系统 , 有别 于我们常见 的数据 库系统 , 能够 为人们 提供 更全 面和 深 它
gnep o o y eII E( nu nta e e rh En n ) whc s d o n x LI E s nd xn eh d b s d p r s d l t tc n p o ie i r t t p - S Li x I r n tS a c gie , ih bae n Li u . S u e i e ig m t o a e h a e i ,i a r vd s m o ec re tif r ain f rt e u e sa d me t h e ur me si n id fe tr rs s r. r o r c n om t o h s r n est er q ie nt n ma y kn so n ep ieu es o K or s I ta t e r h e gne u ltx e re a ,iv re i s eyW d n rne ,sa c n i ,fl e trtiv l n e td fe l

12-校园网web搜索引擎的设计与实现2011-8-21

12-校园网web搜索引擎的设计与实现2011-8-21

校园网Web搜索引擎的设计与实现引言随着校园网建设的迅速发展,校园网内的信息内容正在以惊人的速度增加着。

如何更全面、更准确地获取最新、最有效的信息已经成为我们把握机遇、迎接挑战和获取成功的重要条件。

目前虽然已经有了像Google、百度这样优秀的通用搜索引擎,但是它们并不能适用于所有的情况和需要。

对学术搜索、校园网的搜索来说,一个公平的排序结果是非常重要的。

另外,由于互联网上信息量之巨,远远超出哪怕是最大的一个搜索引擎可以完全收集的能力范围。

因此,本着整合校园网资源的目的,为方便广大师生对校园网信息的获取和使用,设计并实现了一个灵活、可配置、具有良好可扩展性的校园网搜索引擎。

1. 搜索引擎的发展在国内很多基于主题领域的小型搜索引擎得到很好的发展。

例如一些音乐搜索引擎以及医药方面的搜索都有很好的应用;在越来越多的学校、企业、比较大型的网站如BBS都开始建立了自己的搜索引擎。

在国外,比较著名的有美国教育资源信息搜索的AskERIC,实现医药文献搜索的Highwire等。

Google公司在2007年决定向小型网站提供专门的搜索服务。

这些都表明,小型专用的搜索引擎将在人们获取Web信息中发挥更重要的作用[1]。

在小型搜索引擎快速发展的同时,越来越多的人致力于研究和发展这些小型搜索引擎开发技术,Lucene和Nutch是其中的代表成果。

Lucene是一个高性能、纯Java的全文检索引擎,完全免费、开源。

Lucene几乎适合于任何需要全文检索的应用,尤其是跨平台的应用。

Lucene为Nutch提供了文本索引和查询服务的API,而Nutch在Lucene的基础上实现了网页收集与搜索[2]。

小型搜索引擎与通用搜索引擎相比有很多优点,由于它本身的信息量小,它不可能取代通用搜索引擎。

但是,它是对通用搜索的很好的补充。

随着Web上信息的进一步扩大,小型搜索引擎也将会进一步发展,其中已经引起人们关注的垂直搜索引擎在未来的搜索将发挥更大的作用。

基于Lucene的搜索引擎设计与实现

基于Lucene的搜索引擎设计与实现
e pe so o g a n o a o x rsi n t rb if r t n,Id x mo u eu e n etd i d x m e o W o d s g n a o g rtm ss ma i l th Ch n s r s m i n e d l s siv re n e t d. r e me tt n a o i h i l h u e x mal mac i e ewo d y
整体上采用基于 Sr s.框架 的模 型. tt 2 u1 视图- 控制器设计模 式 , 据采集模块利 用基于正则表达式的有限状态 自动机抓取数据 ,索 引模块应 数
用倒排索引方法 ,系统的分词算法使用基于字典的正向最大匹配中文分词法 。实验结果表明 , 方案具有较高 的资源检索率 ,同时能够保 该
第 3 卷 第 l 期 7 6
Vo .7 1 3






2 1 年 8月 01
Au u t 2 1 g s 0 1
No 1 .6
Co u e En i e rn mp tr g n e i g
软件技术与数据库 ・
文 编 t 0 — 4 ( 1l 0 9 0 章 号 0 3 8o )— 0 _ 3 文 标 码 A l o 22 16 3 _ 献 识 ・
e s r hea c rc ftertiv lrs ls n u et c ua yo h e re a e ut.
[ e o d lFlT as r r oo F P s c gn; u ee r w r; d l i ot l r C ; n e t e uo a ; v r d x K y r s i r f o c l T )e h n ieL cn a ok Mo e Ve C n ol ( w e n eP t ( r a e f me w r e MV ) i t atm t i e e i e i f ts a an t n d D I 1 . 6 /i n10 -4 8 0 1 6 1 O : 0 9 9 .s . 03 2 . 1. . 3 3 js 0 2 10
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

密级:页数:信息工程大学毕业设计(论文)题目桌面搜索引擎的设计与实现学员姓名桑亚平学号G200726173所在单位六系二十六队指导教师王益伟技术职务助教完成日期2011-4-23桌面搜索引擎的设计与实现摘要:随着互联网的普及,搜索引擎得到了快速的发展,对人们的日常生活产生了巨大的影响。

人们对电脑硬盘容量的要求也越来越大,在电脑硬盘里包含的文件数量也与日俱增,这就使得人们如何很快很准确的找到自己所要想要的那个文件,成了用户的一个难题。

随着在海量文件中要找到自己所需文件的难题的出现,桌面搜索就应运而生了。

桌面搜索是搜索工具所应用的一个新领域的名称,这个领域是用户拥有的计算机文件的内容,而不是搜索互联网。

桌面搜索强调的是挖掘用户个人电脑上全部可用信息,包括网页浏览器历史,电子邮件档案,字处理器文档等等。

将搜索引入到桌面,一方面方便了用户的搜索工作,另一方面在搜索结果中整合进本地信息,也让用户实现了搜索时外部信息与本地信息的统一管理利用。

关键词:桌面搜索,PDF解析,中文分词目录第一章绪论 (1)1.1 桌面搜索引擎的简介 (1)1.2 主流桌面搜索引擎介绍 (1)第二章桌面搜索引擎的总体设计 (4)第三章 PDF文件的解析 (6)3.1 PDF文件的简介 (6)3.2 PDF的逻辑结构 (6)3.3 PDF文件解析流程介绍 (7)第四章中文分词简介 (9)4.1 分词算法 (9)4.2 中文分词的应用 (10)第五章桌面搜索引擎的实现 (12)第六章结论 (19)参考文献 (20)第一章绪论1.1 桌面搜索引擎的简介桌面搜索引擎也称为个人桌面引擎或个人硬盘搜索引擎,是对个人电脑上存储的信息进行查找的检索工具。

随着计算机以及互联网的普及,网络搜索引擎对人们的生活产生了巨大的影响,同时,现在个人电脑的硬盘容量越来越大,已经达到TB,硬盘里包含的Office文档、电子邮件、保存的网页、PDF文档等的数量都非常大,在如此多的文件中找到自己所需的文件变得很困难,这时候桌面搜索就应运而生。

桌面搜索与网络搜索不一样,首先从技术方面看,只有桌面搜索才算是全方位的搜索,它方便快捷,不用连接网络,就能找到用户要查找的内容。

它将搜索业务深入到个人电脑中,除了能找到用户所需要的网络信息之外,还可以帮助用户从个人电脑的海量资料中快速地查找到想要的信息。

其次,由于在电脑硬盘上的文档之间几乎没有什么联系,因此关于网页排名的算法不适用于桌面搜索,所以对桌面搜索的结果进行排序就不太重要。

最后,从市场的角度来看,桌面搜索市场发展的潜力最大,尽管搜索市场竞争非常激烈,但桌面搜索市场的增长潜力被普遍看好。

近年来,各大搜索引擎厂商纷纷推出了自己的桌面搜索引擎。

1.2 主流桌面搜索引擎介绍现在桌面搜索的开发已经成为了互联网领域的最大亮点,也为搜索领域带来了新的发展机会,随着众多厂商的加盟。

桌面搜索引擎的竞争日益激烈。

目前比较流行的桌面搜索引擎有Google Desktop、百度、88Data 桌面搜索、网络猪、微软桌面搜索。

1. Google Desktop SearchGoogle发布了自己的桌面搜索工具:Google Desktop Search,简称为GDS。

这是一款强大的计算机硬盘搜索工具。

GDS的主要特点有:GDS会自动保留即时通讯的谈话记录,还能复制历史记录,通过GDS 可以查找自己的电子邮件、媒体文件、网页历史纪录、文档、Email等内容;拥有先进的搜索技术;不用上网就可以查看浏览过的网页;可以直接通过桌面栏进行搜索;通过快速查找项启动应用程序并立即开始搜索,还可以补充工具栏,将个性化信息集中放置;可以通过开发人员编写的插件补充工具栏。

2.百度硬盘搜索百度硬盘搜索是世界上第一款中英文桌面搜索工具。

它可以在电脑中快速的查找信息;还可以根据文件的类型和属性信息,自动生成目录。

百度硬盘搜索的功能特点主要有:可以通过添加高级搜索,使查找的结果更准确;可以支持语法搜索;可以给搜索结果页面增加细分目录,进一步缩小搜索范围;增加了很多小功能,方便实用;优化了搜索性能,减小了安装文件的体积;可以支持很多浏览器。

3 .88Data 桌面搜索88Data 桌面搜索是国内也是唯一由个人独立开发的体积最小的桌面搜索工具,通过其可以快速搜索系统中的每个角落,你的电子邮件、文档、媒体文件和网页历史记录等内容将即刻显示在你面前。

88Data 桌面搜索特点:具有良好的中文支持,广泛的文件格式和浏览器支持;系统功能强大,隐私安全保护;系统设置灵活等。

4 .网络猪网络猪是中国搜索推出新一代搜索引擎,可以使每个人拥有自己的个人信息门户.只要下载领养了网络猪就有了自己的信息平台.网络猪是一个基于搜索引擎并能整合多项功能(如:mp3点歌、视频点播下载电影、聊天、短信、天气预报、定制最新新闻等)的桌面软件。

您不需打开IE,只要输入关键词,在桌面就可以搜索信息。

网络猪的搜索框可以进行网页、新闻、网站、行业、图片、论坛、词典、等多项搜索。

网络猪的主要功能特点有:越过传统的搜索模式,可以实现划词搜索;可以订制专题新闻,设置自己的新闻中心;设有办公小秘书,为用户提供日程提醒、即时贴、常用软件快捷方式等服务;集合型聊天工具,可以将QQ、MSN和网络猪的即时通讯一起应用;设有天气预报功能。

5 .微软桌面搜索微软MSN推出了桌面搜索软件的测试版,这个MSN搜索工具的主要功能是快速搜索计算机硬盘的文件,Windows的桌面搜索集成在MSN的工具栏里。

微软桌面搜索可以即时搜索整台电脑,查找文档、电子邮件、音乐、照片、视频等各种内容。

微软桌面搜索的主要功能特点有;拥有桌面、浏览器、资源管理器三种搜索工具栏,可以在这些工具栏中直接输入文字搜索;可以搜索在系统中已经注册的所有文件类型,也可以手动添加位置的文件类型;可以通过选项卡式浏览器提高网页浏览效率;设有弹出窗口阻止程序可以有效的阻止弹出窗口;可以在搜索结果页中突出现实搜索的文字;可以将搜索结果与系统操作高度集成,可直接对搜索结果进行系统右键菜单操作,如:重命名、复制和删除等,支持批量操作,处理搜索结果相当方便。

这些都是非常好的桌面搜索工具,受到了广大使用者的好评,但是她们也存在一些不足的地方,例如:它们都是需要安装的软件,虽然安装文件不是很大名单是需要的安装目录比较大,例如Google Desktop Search安装时要求所在分区要有1GB的剩余空间;索引文件很大,Google Desktop Search等默认对全盘进行索引,因此随着时间的增长,硬盘里的索引文件会越来越大,就会影响系统运行速度;虽然微软桌面搜索默认不进行全盘索引,只对“我的文档”和“Documents and Settings”等常用文件夹进行索引,但是它没有给出明确的索引设置说明,增加了操作难度;除了微软的桌面搜索以外,其他的桌面搜索工具都不可对加密的PDF文件进行检索;安全性不够。

这是人们最在意的问题,由于桌面搜索引擎功能的强大,对用户的整个硬盘信息进行索引,如果个人计算机接入互联网,就存在着个人隐私暴露以及知识产权泄漏的相关问题。

因为当我们利用这些桌面搜索工具进行搜索时,搜索引擎将查询请求发送给两个不同的程序,以Google Desktop Search为例子,一个请求发送到网络,进行网页搜索;另一个将相同的查询请求发送到本地运行的桌面搜索程序,在事先建立的索引中进行查询。

另外GDS还会自动的保留用户邮箱里的电邮信息、即时通讯的谈话记录、用户的上网浏览记录,GDS还能复制历史记录,永远把它保留下来,这就意味着即使你已经将一些机密的文件删除了,通过GDS还是能将他们一一搜索出来,将所有的机密暴露无疑。

第二章桌面搜索引擎的总体设计搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。

搜索引擎的工作原理大致可以分为:1. 搜集信息:搜索引擎的信息搜集基本都是自动的。

搜索引擎利用称为网络蜘蛛的自动搜索机器人程序来连上每一个网页上的超连结。

机器人程序根据网页链到其他中的超链接,就象日常生活中所说的“一传十,十传百……”一样,从少数几个网页开始,连到数据库上所有到其他网页的链接。

理论上,若网页上有适当的超链结,机器人便可以遍历绝大部分网页。

2. 整理信息:搜索引擎整理信息的过程称为“建立索引”。

搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。

这样,搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的资料。

想象一下,如果信息是不按任何规则地随意堆放在搜索引擎的数据库中,那么它每次找资料都得把整个资料库完全翻查一遍,如此一来再快的计算机系统也没有用。

3. 接受查询:用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回资料。

搜索引擎每时每刻都要接到来自大量用户的几乎是同时发出的查询,它按照每个用户的要求检查自己的索引,在极短时间内找到用户需要的资料,并返回给用户。

目前,搜索引擎返回主要是以网页链接的形式提供的,这些通过这些链接,用户便能到达含有自己所需资料的网页。

通常搜索引擎会在这些链接下提供一小段来自这些网页的摘要信息以帮助用户判断此网页是否含有自己需要的内容。

其实搜索引擎的工作非常简单。

我们知道蜘蛛是搜索引擎的主要劳动力,肩负着海量信息的筛选和甄别抓取工作。

蜘蛛根据网页的重要性、安全性、稳定性和代表性、新颖性、权威性和原创度、深度、广度等因素自动自动读取URL服务器的URL相关列表,按深度优先搜索方式或广度优先搜索方式抓取URL所指向的页面,对抓取的网页用唯一的id文档管理,压缩并存放到数据,待进一步处理,同时网页的所有超链接也会存入URL服务器。

搜索引擎还有一项最重要的工作就是,那就是切词和分类。

搜索引擎通过启用切词机器人和索引机器人将蜘蛛抓取的网页文档实施切词和类别分析归纳,以关键词在网页中出现的位置和频率分配权值并将切词结果导入索引数据库完成这些工作后,局部或完整更新存放抓取的数据库,当用户搜索某个关键词时,搜索引擎查询机器人将用户输入的信息进行切词处理,检索出所有包含检索词的记录,通过计算网页权重和级别对查询记录进行排序和综合运算,这样用户就可以看到最新的网页信息了。

根据客户的需要,设计的桌面搜索引擎应该保证信息的安全;保证查询速度,将查询限制在本地文件中;保证查询结果的准确性。

保证信息安全的解决方案是将查询的文件夹限制在电脑硬盘中,不自动保留用户的即时通讯的谈话记录、用户的电邮信息、用户的上网浏览记录,不复制历史记录。

保证查询速度的解决方案是通过简历索引可以提高搜索速度,特别是当电脑硬盘空间很大,文件数量很多时。

相关文档
最新文档