lucene搜索引擎与信息检索
基于lucene的信息检索系统

第三章信息检索系统及其关键技术3.1 信息检索系统简介信息检索系统是利用信息检索技术(如全文检索等)帮助用户查找特定信息的一种工具。
它能够对信息进行正确的表示、存储和组织,同时还提供对于信息的访问方式。
在这里,信息的概念很宽泛,,它可以是一篇文章,一段文本,一个网页,一封邮件,一张照片,甚至是一些虚拟信息的集合。
3.2 信息检索的过程检索的整个过程包括:构建文本库,建立索引,进行检索。
1.构建文本库在开发检索功能前,一个信息检索系统需要做些准备工作。
首先,必须构建一个文本数据库。
这个文本数据库用来保存所有用户可能检索的信息。
在这些信息的基础上,确定检索系统中的文本模型。
文本模型是被系统所认可的一种信息格式,这种格式应当具有可识别、冗余度低等特点。
当然,在系统的运作过程中,文本数据库的信息可能会不断地发生变化。
2.建立索引有了文本模型后,就应该根据数据库内的文本建立索引。
索引可以大大提高信息检索的速度。
目前有多种索引的建立方式,采用哪种方式取决于信息检索系统的规模。
大型信息检索系统(如百度、Google这样的搜索引擎)均采用倒排的方式来建立索引。
3.进行搜索在为文本建立索引之后,就可以开始对其进行搜索。
通常由用户提交一个检索请求,该请求被分析,然后在索引中检索并返回结果。
3.3 LuceneLucene是一个开源全文检索工具包,它是apache软件基金会jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。
Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。
3.3.1 Lucene结构分析Lucene作为一个优秀的全文检索引擎,其结构具有强烈的面向对象特征。
lucene学习

lucene学习1.基本概念信息检索(IR)是指文档搜索、文档内信息搜索或者文档相关的元数据搜索等操作。
文档:用于搜索的内容部件。
词汇单元:即分词。
词干提取器,如Snowball。
搜索质量主要由查准率(Preciion)和查全率(Recall)来衡量。
[1]P13语法检查器:Lucene的contrib目录提供了两个模块完成此功能。
查询对象:Lucene提供了一个称之为查询解析器(QueryParer),用它可以根据通用查询语法将用户输入的文本处理成查询对象。
查询搜索:査询检索索引并返回与査询语句匹配的文档,结果返回时按照査询请求来排序。
搜索查询组件涵盖了搜索引擎内部复杂的工作机制,Lucene正是如此,它为你完成这一切。
倒排索引:invertedinde某常见的搜索理论模型有如下3种。
■纯布尔模型(PureBooleanmodel)文档不管是否匹配查询请求,都不会被评分.在该模型下,匹配文档与评分不相关,也是无序的;一条查询仅获取所有匹配文档集合的一个子集。
■向量空间模型(Vectorpacemodel)查询语句和文档都是高维空间的向量模型,这里每一个独立的项都是一个维度。
查询语句和文档之间的相关性或相似性由各自向量之间的距离计算得到.■概率模型(Probabiliticmodel)在该模型中,采用全概率方法来计算文档和查询语句的匹配概率。
Lucene在实现上采用向量空间模型和纯布尔模型,并能针对具体搜索让你决定采用哪种模型。
最后,Lucene返回的文档结果必须用比较经济的方式展现给用户。
搜索范围:涉及分布式搜索,ApacheLucene项目下的Solr和Nutch 项目提供了对索引拆分和复制的支持,另Katta和Elaticearch。
1.1Lucene核心类概貌执行简单的索引过程需要用到以下几个类:■Inde某Writer■Directory■Analyzer■Document■FieldInde某Writer(写索引)是索引过程的核心组件。
全文检索及lucene原理、使用总结

Lucene应用实例
• 以搜索文本文档(*.txt)为例
• 假定指定目录没有子目录
文档索引代码
File indexDir = new File(“D:\\luceneIndex”); //此目录用于存储生成的索引 File dataDir = new File(“D:\\luceneData”); //需要建立索引的目录(假定其没有子目录) Analyzer luceneAnalyzer = new CJKAnalyzer();//中日韩词法分析 IndexWriter indexWriter = new IndexWriter(indexDir, luceneAnalyzer,true); File[] dataFiles = dataDir.listFiles(); for (File currentFile : dataFiles) { if (currentFile .isFile() && currentFile .getName().endsWith(".txt")) { Document document = new Document(); Reader txtReader = new FileReader(currentFile ); document.add(Field.Text("path", currentFile .getCanonicalPath())); document.add(Field.Text("contents", txtReader)); indexWriter.addDocument(document); } } indexWriter.optimize(); indexWriter.close()类型的全文检索。 3. java以Lucence为代表的全文检索系统。 4. php以Sphinx为代表的全文检索系统。 5. 以TRS为代表其他语言及商业全文检索系 统。
lucene面试题

lucene面试题一、Lucene简介Lucene是一个开源的全文检索引擎工具包,可以轻松地将其集成到应用程序中,以方便地实现全文检索功能。
它提供了强大且灵活的API接口,使用户可以对文档中的内容进行快速、高效的搜索和索引。
Lucene的核心是基于倒排索引原理,通过将文档中的单词映射到文档的地址来进行搜索,从而提高了搜索的速度和效率。
二、Lucene的特点和优势1. 高性能:Lucene使用高效的倒排索引和缓存机制,能够快速处理大量数据和复杂查询。
2. 可扩展性:Lucene提供了灵活的架构和API接口,可以根据需求进行扩展和定制。
3. 多语言支持:Lucene支持多种语言的分词器,可以处理各种类型的文档。
4. 高度可配置:Lucene的配置项丰富,可以根据需要进行灵活的配置和调优。
5. 支持多种数据格式:Lucene能够处理各种格式的数据,包括文本文件、HTML、XML、Word文档等。
三、Lucene的应用场景1. 搜索引擎:Lucene可以用于构建搜索引擎,实现快速、准确的搜索和检索功能。
2. 文本分析:Lucene提供了丰富的文本处理和分析功能,可以对文档进行分词、词性标注、去重等操作。
3. 数据挖掘:Lucene可以对大量数据进行索引和搜索,用于数据挖掘和信息提取。
4. 商业应用:Lucene可以用于构建企业内部搜索、电子文档管理系统、知识库等应用。
四、Lucene面试常见问题1. 什么是Lucene的倒排索引原理?2. 如何创建一个基本的Lucene索引?3. Lucene中的Query和Filter有什么区别?如何使用它们?4. 什么是Analyzer?有哪些常见的分词器?5. Lucene的排序原理是什么?如何进行排序?6. Lucene如何处理关键词的模糊匹配?7. Lucene的搜索结果评分算法是怎样的?8. 如何在Lucene中实现多字段的搜索?9. 如何优化Lucene的性能?10. Lucene与Elasticsearch有何区别?五、结语通过对Lucene的介绍和常见面试问题的概述,希望能够对读者了解Lucene的基本概念和使用方法有所帮助。
lucene全文检索实现原理

lucene全文检索实现原理Lucene 是一个开源的全文检索引擎库,它提供了用于创建全文索引和执行全文搜索的工具。
以下是Lucene 实现全文检索的基本原理:1. 文档索引:首先,Lucene 需要建立文档的索引。
文档可以是任何文本数据,比如文章、网页或者其他文本文件。
Lucene 将文档拆分成一系列的词条(Terms),并为每个词条建立一个反向索引。
反向索引存储了每个词条出现在哪些文档中,以及在文档中的位置。
2. 分词器(Tokenizer):Lucene 使用分词器将文本拆分成独立的词条。
分词器根据特定的规则和算法来确定什么是一个有效的词条。
例如,标准的分词器可以根据空格和标点符号将文本分成单词。
3. 停用词(Stop Words):Lucene 还可以使用停用词列表来过滤掉一些常见的无关紧要的词,例如“and”、“the”等。
这有助于提高检索效果,排除掉对搜索没有帮助的常见词。
4. 倒排索引(Inverted Index):Lucene 使用倒排索引来存储词条和文档之间的关系。
倒排索引包含了每个词条以及它在哪些文档中出现,以及在每个文档中的位置。
这种结构使得搜索时可以快速定位到包含关键词的文档。
5. 权重(Term Weighting):Lucene 使用一种称为TF-IDF(Term Frequency-Inverse Document Frequency)的权重计算方法,来为每个词条赋予权重。
TF-IDF 考虑了一个词条在文档中的频率以及在整个文档集合中的稀有性,以此确定词条的重要性。
6. 搜索查询:当用户发起搜索查询时,Lucene 解析查询并与建立的倒排索引进行匹配。
Lucene 支持丰富的查询语法,包括布尔查询、范围查询、通配符查询等。
查询的结果根据匹配的程度和权重进行排序。
7. 评分(Scoring):Lucene 根据文档的匹配程度计算得分,并将结果按照得分进行排序。
这使得搜索结果更加符合用户的意图。
基于Lucene的搜索引擎的研究与应用的开题报告

基于Lucene的搜索引擎的研究与应用的开题报告一、选题背景与意义随着大数据时代的到来,信息处理与搜索引擎的需求越来越旺盛。
搜索引擎已经成为了用户最主要的获取信息的方式之一,而其对于信息的快速准确检索,已经逐渐成为了搜索引擎最基本的核心要素。
在搜索引擎的实现中,建立搜索引擎的核心技术是信息检索技术。
Lucene是一种优秀的信息检索工具,它是一个开源的高性能全文检索引擎,是全球范围内最受欢迎和广泛使用的Java搜索引擎工具之一。
Lucene的出现,大大减轻了开发人员在搜索引擎上面的工作。
因此,本研究旨在结合Lucene技术,建立一个基于Lucene的高性能搜索引擎。
同时,本研究旨在建立一个高效可用的开源搜索引擎,提供了一种降低信息检索门槛的工具,可以帮助各行业快速掌握搜索引擎,实现业务数据的快速检索。
对于大数据时代进行数据分析、处理、挖掘和管理具有重要意义,提高企业的决策效率和准确性,并且降低成本和人力资源。
二、研究内容及方法2.1 研究内容:(1)了解信息检索和全文检索的概念和原理。
(2)分析Lucene架构和工作原理,掌握Lucene的基本概念和核心技术。
(3)按照Lucene的架构,设计并实现搜索引擎的各个模块。
(4)进行搜索引擎的基本测试和功能测试,检查搜索引擎的性能和可靠性。
2.2 研究方法:(1)文献综述法:阅读大量的文献和资料,理清搜索引擎的基本概念和原理。
(2)实验法:按照Lucene的架构,建立实验室,开发搜索引擎的各个模块,并进行测试和评估。
三、研究计划时间节点研究任务2021.1-2021.2 阅读文献,调研和理解搜索引擎的基本概念和原理。
2021.3-2021.4 学习Lucene技术,分析Lucene的架构和工作原理。
2021.5-2021.6 根据Lucene技术建立搜索引擎,在本地环境中逐步完善各个模块。
2021.7-2021.8 进行搜索引擎的基本测试和功能测试,并检查搜索引擎的性能和可靠性。
基于Lucene专业搜索引擎的研究应用

领域或 主题的信息 , 由搜索器 、 索引器 、 检索 器和用 户 接 口等 四个部分组成 ,工作原理与通用搜索 引擎 的工
作 原 理基 本 相 同 .所 不 同 的 是 专 业 搜 索 引擎 对 抓 取 的
收 稿 E 期 :0 0 8 2 l 2 1 —0 —1 修 稿 日期 :0 0 0 —1 21—9 2
作 者 简介 : 雪 - ( 7 - , , 苏如 皋 人 , 师 , 士 , 究 方 向 为 信 息 处理 与检 索 朱  ̄ 1 6) 江 9 女 讲 硕 研
0 现 计算 21. 代 机 00 9 0
\
\ \
实 践 与 经验
基于 L c n u e e专业搜 索引擎 的研 究应 用
朱 雪莲
( 疆 艺 术 学 院 基 础部 ( 政 部 ) 新 思 ,乌 鲁 木 齐 8 04 ) 30 9
摘
要 :搜 索 引 擎现 已 经成 为 搜 索互 联 网信 息 的重 要 工 具 。通 用 的搜 索 引 擎 虽然 功 能 强 大, 对 专 但
应 用
L cn 是 用 -v 的 全 文 检 索 引 擎 工 具 包 , 不 ue e l a写 a 并 是 一 个 完 整 的全 文 检 索 引 擎 ,而 是 一 个 全 文 检 索 引 擎
擎所建立 的数据 库是关于某一领域 或某一专 业 。图 1 显示了专业搜索 引擎 的体系结构 。
擎在 搜 索结 果 等 方 面 进行 比 较
关 键 词 : e :专 业搜 索 引 擎 ; ue e w b L cn
0 引
言
堂
Lucene搜索引擎

Lucene不是一个现成的程序,类似文件搜索程序或web网络爬行器或是一个网站的搜索引擎。
Lucene是一个软件库,一个开发工具包,而不是一个具有完整特征的搜索应用程序。
它本身只关注文本的索引和搜索。
Lucene使你可以为你的应用程序添加索引和搜索能力。
目前已经有很多应用程序的搜索功能是基于 Lucene 的,比如 Eclipse 的帮助系统的搜索功能。
Lucene 采用的是一种称为反向索引(inverted index)的机制。
反向索引就是说我们维护了一个词/短语表,对于这个表中的每个词/短语,都有一个链表描述了有哪些文档包含了这个词/短语。
这样在用户输入查询条件的时候,就能非常快的得到搜索结果。
文档建立好索引后,就可以在这些索引上面进行搜索了。
搜索引擎首先会对搜索的关键词进行解析,然后再在建立好的索引上面进行查找,最终返回和用户输入的关键词相关联的文档。
今天在传智播客的课堂上,汤阳光老师教我们实现了简单的Lucene搜索引擎,使我们能够对大量的文档实现不同需求的查找。
以下是我的总结。
--------------------------------------------------------------------------------1. 准备环境:添加jar包lucene-core-2.4.0.jar(核心);lucene-analyzers-2.4.0.jar(分词器);lucene-highlighter-2.4.0.jar(高亮器);-------------------------------------------------------------------------------- 2. 构造IndexWriter。
IndexWriter是Lucene用来创建索引的一个核心的类。
使用构造方法IndexWriter(Directory d, Analyzer a, MaxFieldLength mfl); 如果索引不存在,就会被创建。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第1章搜索引擎与信息检索Google的巨大成功让整个世界都把眼光投入到搜索引擎这个领域中。
仿佛一夜间,各种各样的搜索服务席卷而来,从最初的Google、Yahoo到现今的Baidu、MSN、中搜、Sogou 等,搜索引擎的品牌越来越多,服务也越来越丰富。
同时,伴随着Web2.0的疯狂普及,网络信息的膨胀速度成指数急速增长,各种各样的网站都需要为其加入检索功能,以满足用户的需要。
另外,在企业级应用的市场上,全文信息检索的需求也一直在增加,各种文档处理、内容管理软件都需要加入全文检索的功能。
在这样的背景下,搜索引擎的技术迅速发展。
各种讨论搜索的文章、杂志、论文铺天盖地,论坛和博客上也有着许多相关贴子。
一时间,搜索技术成为最为热门的技术之一。
不过,搜索引擎技术并非是一种大众技术,从其出现开始,就一直是一种高门槛的技术,它的后台包括学术领域的众多先进思想和设计,其涉及的学科包括自然语言处理、人工智能、离散数学、排列组合、编译原理等等。
因此设计一个性能良好,并且实用性强的搜索引擎并非易事。
本书不研究上述多种学科与搜索引擎的关联理论,但是作为读者,了解和掌握搜索引擎技术的方方面面,会对阅读有很大的帮助。
因此,作为本书的第1章,将带领读者了解一下搜索引擎和信息检索的基础知识、发展历史、现今状况等内容。
1.1 搜索引擎的历史在互联网发展的最初阶段,网站的数量相对较少,信息查找比较容易。
随着互联网爆炸性地发展,用户很难找到所需的资料。
这时,搜索引擎的需求就出现了,一些为满足大众信息检索需求的专业搜索网站也就应运而生。
1.1.1 萌芽:Archie、Gopher1.Archie事实上,搜索引擎的的诞生追溯到1990年,在加拿大蒙特利尔(Montreal)的麦吉尔大学,一个学生制作了一个自动索引互联网上匿名FTP网站文件的程序。
这个学生叫Alan Emtage。
如图1-1所示。
图1-1 Alan Emtage12 2 这个能够自动索引互联网上匿名FTP 网站文件的程序,被他们称为Archie 。
Archie 是Internet 上用来查找文档的自动搜索服务工具,这些文档的标题必须满足特定条件通常,为了从匿名FTP 服务器上下载一个文件,必须知道这个文件的所在地,同时必须知道这个匿名FTP 服务器的地址,及文件所在的目录名。
Archie 可以帮助用户在遍及全世界的千余个FTP 服务器中寻找文件。
Archie Server 又被称作文档查询服务器。
用户只要给出所要查找文件的全名或部分名字,文档查询服务器就会指出在哪些FTP 服务器上的哪个路径下存放着这样的文件。
使用Archie 进行查询前提:输入要查找的文件名或部分文件名,知道某个或几个Archie 服务器的地址。
如今,提供Archie 服务的网站已经很少了,笔者在Google 上查找了一下,链接到了一个波兰的网站,仍在提供着Archie 服务,如图1-2所示。
有兴趣的读者可以上去一看。
图1-2 一个Archie 网址从概念上讲,Archie 的工作十分简单。
每隔一段时间,一个特殊的程序连到每一个已知的匿名FTP 主机,然后下载所有公共文件的完整目录表。
这些表存储于Internet Archives Database (Internet 档案数据库)中。
当用户要求Archie 检索一个文件时,所要进行的工作就是对该数据库进行检索。
2.Gopher 简介受其启发,美国明尼苏达大学的一个学生Mark McCahill ,于1991年发明了一种叫“Gopher ”的搜索协议。
“Gopher ”的命名来自于这所学校的吉祥物。
这种协议与Archie 最大的不同是,Archie 仅能够索引网络上的文件,而Gopher 却可以对网页也进行索引。
同时,另外两个程序“Veronica ”和“Jughead ”用来对以Gopher 格式进行索引的文件进行检索。
“Veronica ”的名字来自于“Very Easy Rodent-Oriented Net-wide Index to Computerized Archives ”(非常方便的、专门用于收取网络范围内的、可计算机化的文档)的首字母。
它能够对整个Gopher 列表中的目录主题进行关键字查找。
而“Jughead ”的名字则来源于(Jonzy's Universal Gopher Hierarchy Excavation And Display )(Jonzy 的通用Gopher 层次挖掘和显示)的首字母,它是一个能够从很多Gopher服务器上获取目录信息的工具。
直到今天,网上仍然有一些Gopher的服务器在运作着。
许多Gopher协议的狂热者依然在维护着它们。
只不过大多数浏览器已经不支持Gopher协议,因此,很难为读者找到一个可以演示的网站。
不过,在SourceForge的开源项目中,有一个叫GoFish的项目,它实现了一个支持Gopher协议的服务器,如图1-3所示。
有兴趣的读者可以下载下来,研究一下它的实现。
图1-3 GoFish的主页1.1.2 起步:Robot(网络机器人)的出现与Spider(网络爬虫)实际上,Archie的工作原理与现在的搜索引擎已经很接近,它依靠开发者撰写的脚本程序,自动搜索网上的文件,然后对相关信息进行索引,保存入索引库,供用户查询。
1.Robot在当时,在开发者中,“机器人”(Robot)是个十分流行的词汇。
电脑“机器人”(Computer Robot)是指能够以人类无法达到的速度,不间断地执行某项任务的软件程序。
由于用于检索信息的“机器人”程序像蜘蛛一样,在网络间爬来爬去,因此搜索引擎的“机器人”程序就被称为“蜘蛛”程序。
第一个用于监测互联网发展规模的“机器人”程序诞生于1993年,由美国麻省理工学院的Matthew Gray开发,名字叫做World Wide Web Wanderer。
最初它只是用来统计互联网上的服务器数量,监测网络的规模。
从1993年到1995年间,这个“漫步者”每个月都会运行一次,以获取相关信息。
后来,它演变成为收集URL的工具。
同时,它也成为有史以来第一个网站资源库,被称为“Wandex”。
从“The Web Robots FAQ”(/wc/faq.html)上得到这样的定义:一个网络机器人是一段程序,它能够在获取网页的情况下,自动遍历其超文本结构,同时34 4 递归遍历所有与其相关的网页。
通常,人们所说的Robot 是指Web 漫步者、Web 爬虫或Web 蜘蛛。
它们的名字可能有一些误导的作用,让人们觉得软件本身有点像病毒一样侵蚀着网页,但实际上,它们只是简单的从网站上获取到网页的内容。
2.SpiderMatthew Gray 所开发的“漫步者”应该是第一个网络爬虫。
不过在1993年10月,英国的软件工程师Martijn Koster 创建了ALIWEB ( ),这个名字来自于Archie-Like Indexing of the Web (像Archie 一样索引互联网)的首字母。
从名字就可以看出,ALIWEB 事实上是一个Archie 的互联网版本。
ALIWEB 允许用户提交他们自己的网页,以便能够被索引,也就是说,如果网站主管们希望自己的网页被ALIWEB 所收录,则需要自己提交每一个网页的索引信息,有点类似于后来的Yahoo 。
根据Koster 的说法,ALIWEB 是基于自动元数据收集的搜索引擎,如图1-4所示。
图1-4 自称是互联网上最古老的搜索引擎的ALIWEB1.1.3 发展:Excite 、Galaxy 、Yahoo 等慢慢的,网络机器人理论逐渐成熟。
在1993年底,一些基于此原理的搜索引擎开始纷纷涌现。
1993年2月,6个Stanford (斯坦福)大学生希望通过分析字词关系,以对互联网上的大量信息做更有效的检索,于是他们开发出了Excite ( ),后来它曾以概念搜索闻名。
仅用了一年时间,Excite 就组成了公司,并在1995年12月上线。
不过在2002年5月,被Infospace 收购的Excite 停止了自己的搜索引擎,改用元搜索引擎Dogpile 。
1994年1月,第一个既可以搜索又可以浏览的分类目录EINet Galaxy (Galaxy)成功上线了。
除了网站的搜索外,它还支持了Gopher 和Telnet 搜索。
它最早是作为德克萨斯大学微电子与计算机研究中心的一个产品,不过最终还是被大学卖给了公司。
在几经转手后,它成为了一家独立的公司。
5 1994年,斯坦福的两名博士生,美籍华人杨致远Jerry Yang 和与David Filo 共同创建了雅虎Yahoo 。
一开始,雅虎只是列出一些用户喜爱的站点。
与其他分类搜索引擎的最大不同是,除了简单的URL 链接之外,它还提供了对于网页的一些简单描述信息。
另外,随着访问量和收录链接数的增长,Yahoo 的目录也开始支持简单的数据库搜索。
因为最初Yahoo 的数据是手工输入的,所以还不能被归为搜索引擎。
事实上它只是一个可搜索的目录。
不过在一年间,他们就得到了投资,并迅速成长壮大,最终成为今天家喻户晓的搜索引擎。
1994年初,美国华盛顿大学计算机工程系的学生Brian Pinkerton 开始了他的小项目WebCrawler 。
1994年4月20日,WebCrawler 正式亮相时,仅包含来自6000个服务器的内容。
WebCrawler 是第一个全文搜索引擎(Full Text Search Engine )。
在它之前,用户只能通过URL 和摘要进行搜索,摘要一般来自人工评论,或程序自动提取正文的前100个字。
(后来Webcrawler 陆续被AOL 和Excite 收购,现在和Excite 一样,改用元搜索引擎Dogpile )。
如图1-5所示。
图1-5 第一个全文搜索引擎WebCrawler1994年7月20日,数据量为54000个文档的Lycos ( )搜索引擎正式发布。
Lycos 的出现是搜索引擎史上又一个重要的进步。
美国卡耐基梅隆大学的的Michael Mauldin 将John Leavitt 开发的网络机器人程序与其创建的索引程序组合在一起,创建了Lycos 。
Lycos 除了引入相关度排序外,还提供了前缀匹配和字符相似度限制。
同时,Lycos 还是第一个使用了网页自动摘要的搜索引擎。
不过,其最大的优势还是它远胜过其他搜索引擎的数据量:1994年8月它收集了394000个文档;到了1995年1月,这个数量达到了150万;而到了1996年11月,Lycos 已经有了超过6000万个的文档。
如图1-6所示。
66图1-6 搜索引擎历史上的一个里程碑Lycos1.1.4 繁荣:Infoseek 、AltaVista 、Google 和Baidu1.Infoseek1995年初,搜索引擎家族又添加了新的一员:Infoseek 。