全文搜索引擎基础

合集下载

全文检索方案

全文检索方案1. 简介全文检索（Full-Text Search）是一种用于快速搜索大量文本数据的技术。

它能够根据用户提供的关键词，从文本数据中匹配相关的内容。

全文检索方案被广泛应用于各种领域，如搜索引擎、电子邮件系统、社交媒体平台等。

本文将介绍全文检索的基本原理、常见的全文检索方案以及如何选择合适的方案来满足不同的需求。

2. 全文检索原理全文检索的原理主要包括以下几个步骤：2.1 索引建立在进行全文检索之前，需要先将文本数据进行索引建立。

索引是一种特殊的数据结构，用于快速定位文档中包含特定关键词的位置。

在索引建立过程中，需要对文本数据进行分词处理，将文本拆分成一个个独立的单词，并记录每个单词在文档中的位置信息。

2.2 搜索查询当用户输入关键词进行搜索时，系统会将关键词进行分词处理，并根据索引快速定位匹配的文档。

搜索查询的结果通常包括匹配的文档及对应的相关性得分。

2.3 相关性排序在搜索查询的结果中，通常需要根据相关性进行排序，以便将最相关的文档排在前面。

相关性排序的算法通常基于词频、文档长度、文档位置等因素进行计算。

2.4 结果展示最后，系统会根据排序结果将匹配的文档展示给用户。

展示方式通常包括摘要、高亮显示匹配的关键词等。

3. 常见的全文检索方案目前，市面上有多种成熟的全文检索方案可供选择。

下面介绍几种常见的方案：3.1 ElasticsearchElasticsearch是一个高性能的分布式全文搜索引擎，基于Lucene开发。

它支持实时数据索引与搜索，并具有强大的搜索、聚合和分析能力。

Elasticsearch易于使用，并提供了丰富的API，可以与各种编程语言进行集成。

3.2 Apache SolrSolr是基于Apache Lucene的开源搜索平台。

它提供了强大的全文检索功能，并支持分布式搜索、自动索引、高亮显示等特性。

Solr也提供了RESTful API，方便与其他应用集成。

3.3 SphinxSphinx是一种开源的全文搜索引擎，专注于高性能和低内存消耗。

教科版高中信息技术必修-信息技术基础：2.2.1 搜索引擎(2)

2 目录索引类搜索引擎
目录索引类搜索引擎的使用方法也称为“分类搜索”
代表性的网站：搜狐</>; 新浪</>;
hao123<http://www.hao123.sh/>
1 使用权威网站 2 使用不同的搜索引擎 3 搜索关键词提炼 4 用好逻辑命令 5 利用专业搜索引擎
因特网上信息的查找
一、教学目标：
1、培养和提升学生获取网络信息的能力，使其成为每位学生在信息社会必须掌握的生存技能，并为源自生学会有效组织和处理信息奠定基础。
2 、通过学生实践去体验和感悟网络信息活动中的操作与应用，培养学生掌握获取网络信息的过程和方法，为学生的学习、生活提供便利。
二、教学重难点
LOREM
用好逻辑命令
“AND” “DR” “NOT” 对应的 “+” “-” “/”
例如：玫瑰 AND百合=玫瑰＋百合 =玫瑰百合玫瑰OR百合=玫瑰、百合（表示只需符合所列关
键词中的一个.） NOT或“-” 表示把含有该关键词的排除在外。
鲜花NOT玫瑰=鲜花-玫瑰:表示不含有玫瑰的鲜花。
课堂作业
1、据史籍的记载，“中秋”一词最早出现_________书中。 2.中国第一台计算机诞生的时间是________ 3.发芽的土豆中含有一种毒素，如果摄入过多，可因呼吸麻痹而导致死亡。这种毒素是什么？ _________ 4、中国第一套邮票是_________ 5、“海上生明月，天涯共此时。”出自__________的《__________》
具体做法是：按照信息的主题内容来查找信息，在搜索框内输入想要查找的信息的关键词，然后单击“搜索”按钮，系统就会自动查找与关键词相匹配的信息，并且在页面上将这网站 google</>; 国际化的搜索网站

搜索引擎分类和原理

13.先进的网页动态摘要显示技术。可以动态摘要显示网页中含有用户查询字串的任意位置文字，使用户阅读和判断搜索结果更方便更快捷。
一个好的搜索引擎，不仅数据库容量要大，更新频率、检索速度要快，支持对多语言的搜索，而且随着数据库容量的不断膨胀，还要能从庞大的资料库中精确地找到正确的资料。
⒈提高搜索引擎对用户检索提问的理解。为了提高搜索引擎对用户检索提问的理解，就必须有一个好的检索提问语言。为了克服关键词检索和目录查询的缺点，现在已经出现了自然语言智能答询。用户可以输入简单的疑问句，比如“如何能杀死计算机中的病毒”，搜索引擎在对提问进行结构和内容的分析之后，或直接给出提问的答案，或引导用户从几个可选择的问题中进行再选择。自然语言的优势在于，一是使网络交流更加人性化，二是使查询变得更加方便、直接、有效。就以上面的例子来讲，如果用关键词查询，多半人会用“病毒”这个词来检索，结果中必然会包括各类病毒的介绍，病毒是怎样产生的等等许多无用信息，而用“如何能杀死计算机中的病毒”检索，搜索引擎会将怎样杀死病毒的信息提供给用户，提高了检索效率。
11.分布式结构、精心设计的优化算法、容错设计保证系统在大访问量下的高可用性、高扩展性、高性能和高稳定性。每个部分均采用N+1的冗余设计，1台服务器时刻处于备用状态。因而整个系统能在99.9%的时间内提供高可用性和高稳定性的服务。
12.高可配置性使得搜索服务能够满足不同用户的需求。在搜索调度、相关性评价、内容过滤、显示方式等方面均为客户提供了可配置手段，使系统具有服务，由他们自行决定搜索结果的显示方式，加入自己的广告和公司图标（logo）。
8.可以提供一周、二周、四周等多种服务方式。可以在7天之内完成网页的更新，是目前更新时间最快、数据量最大的中文搜索引擎。
9.检索结果输出支持内容类聚、网站类聚、内容类聚+网站类聚等多种方式。支持用户选择时间范围，提高用户检索效率。

3 搜索引擎基础

2014-1-17 22
2.1.3 搜索引擎工作原理
深度优先
广度优先
2014-1-17
23
2.1.3 搜索引擎工作原理—— spider；Google —— Googlebot；
MSN —— MSNbot；
Yahoo —— Slurp。大概一次最多能抓走120KB的信息，谷歌大约能带走100KB左右的信息，因此，如果想你的网站大部分网页信息都被搜索引擎带走的话，那么就不要把网页设计得太长，内容太多。

导出链接数量：控制导出链接数量，以不超过10个为宜。搜索引擎收录网站的页面数量：被收录页面越多（比值），主页PR越
高。查询网站收录页面数量：在搜索引擎中输入：site: （/siteindex/default.htm）
2014-1-17
3
2.1 搜索引擎
2.1.1.搜索引擎的定义
第一阶段（1994-1997）——将网站免费提交到主要搜索引擎代表：Yahoo 第二阶段（1998-2000）——技术性搜索引擎
代表：Google
第三阶段（2001-2002）——从免费向付费方式的转变代表：关键词广告
第四阶段（2003年之后）——从关键词定位到网页内容定位
网站导入链接的质量
（1）加入搜索引擎分类目录与已经加入目录的网站交换链接；（2）获得来自PR值不低于4并与你的主题相关或互补的网站的链接（3）你的链接出现在流量大、知名度高、频繁更新的重要网站上（如新闻源）；（4）与你交换链接的网站具有很少导出链接；（5）与内容质量高的网站链接（PR值上升潜力大）
代表：Yahoo 定向推广 Google AdSense
2014-1-17
4

教科版高中信息技术必修-信息技术基础：2.2.1 搜索引擎

日常用到的搜索引擎
专业类寻人类
① 人人网（校内网） ② QQ校友
2.工作原理
目录索引搜索引擎
以人工或半自动方式收集信息
编辑人员分析和分类信息
用户通过分类目录查询信息
2.工作原理（续）
全文搜索引擎
从网上“抓取”网页
建立索引数据库
在索引数据库中搜索排序响应用户查询
2.工作原理（续）
全文搜索引擎
2.工作原理（续）
元搜索引擎
3. 搜索技巧
选择合适的搜索工具使用多个搜索条件使用双引号(“”) 使用“快照” 使用通配符
星号（*）问号（?）
3. 搜索技巧（续）
使用布尔逻辑检索
逻辑算符与
或
非
检索式命中
A AND B A OR B A NOT B
A*B A+B A-B
A 和B都出现的记录
1. 概念及分类（续）
元搜索引擎
单一的查询接口在多个搜索引擎上搜索返回过滤、排序等处理后的结果
不是真正意义上的搜索引擎
1. 概念及分类（续）
元搜索引擎
1. 概念及分类（续）
元搜索引擎
优点信息量更大、更全
缺点用户需做更多的筛选不能充分使用搜索引擎功能
1. 概念及分类（续）
日常用到的搜索引擎
1. 概念及分类（续）
分类
目录索引搜索引擎
全文搜索引擎
元搜索引擎
1. 概念及分类（续）
目录索引搜索引擎
人工整理分类网络信息资源按照主题分类以层次树状形式进行组织
无需关键字查询
1. 概念及分类（续）
目录索引搜索引擎
1. 概念及分类（续）

全文搜索引擎的使用方法也称为

全文搜索引擎的使用方法也称为全文搜索引擎的使用方法。

全文搜索引擎是一种非常方便的工具，可以帮助我们快速准确地找到需要的信息。

无论是在网上搜索资料，还是在本地文件中查找内容，全文搜索引擎都能发挥其作用。

下面，我将介绍一下全文搜索引擎的使用方法，希望能对大家有所帮助。

首先，我们需要选择一个适合自己的全文搜索引擎工具。

目前市面上有很多种全文搜索引擎软件，比如百度文库、谷歌文档、有道云笔记等。

我们可以根据自己的需求和使用习惯选择合适的工具。

在选择之后，我们需要熟悉该工具的界面布局和基本操作，这样才能更好地利用全文搜索引擎进行信息检索。

其次，我们需要了解全文搜索引擎的搜索规则。

不同的全文搜索引擎可能有不同的搜索规则，比如支持的搜索语法、搜索范围、搜索结果排序方式等。

熟悉搜索规则可以帮助我们更精准地找到需要的信息。

在使用全文搜索引擎时，我们可以通过输入关键词、设置搜索范围、筛选搜索结果等方式来快速定位目标内容。

另外，我们还可以利用全文搜索引擎进行文档管理和整理。

通过全文搜索引擎，我们可以轻松找到本地文件中的内容，无需费力地逐个文件夹查找。

同时，一些全文搜索引擎还支持文档标签、分类、评论等功能，可以帮助我们更好地管理和整理文档。

除此之外，全文搜索引擎还可以用于网络资源的搜索和收藏。

在浏览网页时，我们可以通过全文搜索引擎插件将感兴趣的网页内容保存到本地，以便日后查找和阅读。

有些全文搜索引擎还支持离线下载功能，可以帮助我们在没有网络的情况下查阅已收藏的内容。

最后，我们需要注意全文搜索引擎的隐私和安全问题。

在使用全文搜索引擎时，我们可能会涉及到一些个人隐私信息或重要文件。

因此，我们需要选择信誉良好、安全可靠的全文搜索引擎工具，并且注意保护好自己的账号和密码，避免信息泄露和数据丢失。

总的来说，全文搜索引擎是一种非常实用的工具，可以帮助我们高效地获取信息、管理文档和收藏资源。

通过熟练掌握全文搜索引擎的使用方法，我们可以更加便捷地进行工作和学习。

了解搜索引擎

了解搜索引擎
搜索引擎可分为四类：全文搜索引擎、元搜索引擎、垂直搜索引擎和目录搜索引擎。

具体如下。

1、全文搜索引擎：一般网络用户适用于全文搜索引擎。

这种搜索方式方便、简捷，并容易获得所有相关信息。

但搜索到的信息过于庞杂，因此用户需要逐一浏览并甄别出所需信息。

尤其在用户没有明确检索意图情况下，这种搜索方式非常有效。

2、元搜索引擎：元搜索引擎适用于广泛、准确地收集信息。

不同的全文搜索引擎由于其性能和信息反馈能力差异，导致其各有利弊。

元搜索引擎的出现恰恰解决了这个问题，有利于各基本搜索引擎间的优势互补。

而且本搜索方式有利于对基本搜索方式进行全局控制，引导全文搜索引擎的持续改善。

3、垂直搜索引擎：垂直搜索引擎适用于有明确搜索意图情况下进行检索。

例如，用户购买机票、火车票、汽车票时，或想要浏览网络视频资源时，都可以直接选用行业内专用搜索引擎，以准确、迅速获得相关信息。

4、目录搜索引擎：目录搜索引擎是网站内部常用的检索方式。

该搜索方式旨在对网站内信息整合处理并分目录呈现给用户，但其缺点在于用户需预先了解本网站的内容，并熟悉其主要模块构成。

总而观之，目录搜索方式的适应范围非常有限，且需要较高的人工成本来支持维护。

搜索引擎基本资料

搜索引擎一、搜索引擎的概念搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息，在对信息进行组织和处理后，并将处理后的信息显示给用户，是为用户提供检索服务的系统。

新竞争力通过对搜索引擎营销的规律深入研究认为：搜索引擎推广是基于网站内容的推广——这就是搜索引擎营销的核心思想。

这句话说起来很简单，如果仔细分析会发现，这句话的确包含了搜索引擎推广的一般规律。

本文作者在“网站推广策略之内容推广思想漫谈”一文中提出一个观点：“网站内容不仅是大型ICP网站的生命源泉，对于企业网站网络营销的效果同样是至关重要的”。

因为网站内容本身也是一种有效的网站推广手段，只是这种推广需要借助于搜索引擎这个信息检索工具，因此网站内容推广策略实际上也就是搜索引擎推广策略的具体应用。

二、搜索引擎的分类1、全文索引全文索引引擎是名副其实的搜索引擎，国外代表有Google，国内则有著名的百度搜索。

它们从互联网提取各个网站的信息（以网页文字为主），建立起数据库，并能检索与用户查询条件相匹配的记录，按一定的排列顺序返回结果。

根据搜索结果来源的不同，全文搜索引擎可分为两类，一类拥有自己的网页抓取、索引、检索系统（Indexer），有独立的“蜘蛛”（Spider）程序、或爬虫（Crawler）、或“机器人”（Robot）程序（这三种称法意义相同），能自建网页数据库，搜索结果直接从自身的数据库中调用，上面提到的Google和百度就属于此类；另一类则是租用其他搜索引擎的数据库，并按自定的格式排列搜索结果，如Lycos搜索引擎。

2、目录索引目录索引虽然有搜索功能，但严格意义上不能称为真正的搜索引擎，只是按目录分类的网站链接列表而已。

用户完全可以按照分类目录找到所需要的信息，不依靠关键词（Keywords）进行查询。

目录索引中最具代表性的莫过于大名鼎鼎的Yahoo、新浪分类目录搜索。

3、元搜索引擎元搜索引擎（META Search Engine）接受用户查询请求后，同时在多个搜索引擎上搜索，并将结果返回给用户。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一般的搜索引擎的两个重要的过程

全文检索大体分两个过程，索引创建 (Indexing)和搜索索引(Search)。索引创建：将现实世界中所有的结构化和非结构化数据提取信息，创建索引的过程。搜索索引：就是得到用户的查询请求，搜索创建的索引，然后返回结果的过程。
一般的搜索引擎的两个重要的过程
全文检索的分类

按照数据的分类，搜索也分为两种：对结构化数据的搜索：如对数据库的搜索，用SQL语句。再如对元数据的搜索，如利用windows搜索对文件名，类型，修改时间进行搜索等。对非结构化数据的搜索：如利用windows 的搜索也可以搜索文件内容，Linux究竟存些什么-方法

而我们想搜索的信息是哪些文件包含此字符串，也即已知字符串，欲求文件，也即从字符串到文件的映射。如果索引总能够保存从字符串到文件的映射，则会大大提高搜索速度。
由于从字符串到文件的映射是文件到字符串映射的反向过程，于是保存这种信息的索引称为反向索引。

索引里面究竟存些什么-分解1
创建索引- Stemming 和 lemmatization的异同

相同之处：Stemming和lemmatization都要使词汇成为词根形式。两者的方式不同：

两者的算法不同：

Stemming采用的是“缩减”的方式：“cars”到“car”，“driving” 到“drive”。 Lemmatization采用的是“转变”的方式：“drove”到“drove”， “driving”到“drive”。 Stemming主要是采取某种固定的算法来做这种缩减，如去除“s”，去除“ing”加“e”，将“ational”变为“ate”，将“tional”变为 “tion”。 Lemmatization主要是采用保存某种字典的方式做这种转变。比如字典中有“driving”到“drive”，“drove”到“drive”，“am, is, are” 到“be”的映射，做转变时，只要查字典就可以了。

创建索引-将原文档传给分次组件 (Tokenizer) 分词组件(Tokenizer)会做以下几件事情(此过程称为Tokenize)：
1. 将文档分成一个一个单独的单词。 2. 去除标点符号。 3. 去除停词(Stop word)。所谓停词(Stop word)就是一种语言中最普通的一些单词，由于没有特别的意义，因而大多数情况下不能成为搜索的关键词，因而创建索引时，这种词会被去掉而减少索引的大小。英语中挺词(Stop word)如：“the”,“a”，“this”等。对于每一种语言的分词组件(Tokenizer)，都有一个停词(stop word)集合。
创建索引-搞些文档

第一步：一些要索引的原文档(Document)。为了方便说明索引创建过程，这里特意用两个文件为例：文件一：Students should be allowed to go out with their friends, but not allowed to drink beer. 文件二：My friend Jerry went to school to see his students but found them drunk which is not allowed.

反向索引的所保存的信息一般如下：假设我的文档集合里面有100篇文档，为了方便表示，我们为文档编号从1到100，得到下面的结构左边保存的是一系列字符串，称为词典。每个字符串都指向包含此字符串的文档(Document) 链表，此文档链表称为倒排表(Posting List)。有了索引，便使保存的信息和要搜索的信息一致，可以大大加快搜索的速度。
全文检索

那么什么叫做全文检索呢？这要从我们生活中的数据说起。我们生活中的数据总体分为两种：结构化数据和非结构化数据。结构化数据：指具有固定格式或有限长度的数据，如数据库，元数据等。非结构化数据：指不定长或无固定格式的数据，如邮件，word文档等。非结构化数据又一种叫法叫全文数据。

Stemming和lemmatization不是互斥关系，是有交集的，有的词利用这两种方式都能达到相同的转换。
创建索引-语言处理组件(linguistic processor)的结果称为词(Term)

在我们的例子中，经过语言处理，得到的词 (Term)如下： “student”，“allow”，“go”，“their”， “friend”，“allow”，“drink”，“beer”， “my”，“friend”，“jerry”，“go”， “school”，“see”，“his”，“student”， “find”，“them”，“drink”，“allow”。也正是因为有语言处理的步骤，才能使搜索 drove，而drive也能被搜索出来。

创建索引-将得到的词(Term)传给索引组件(Indexer)
第一：利用得到的词 (Term)创建一个字典。
创建索引-将得到的词(Term)传给索引组件(Indexer)

对字典按字母顺序进行排序
创建索引-合并相同的词(Term)成为文档倒排(Posting List)链表。
索引里面究竟存些什么-分解3

全文检索的确加快了搜索的速度，但是多了索引的过程，两者加起来不一定比顺序扫描快多少。的确，加上索引的过程，全文检索不一定比顺序扫描快，尤其是在数据量小的时候更是如此。而对一个很大量的数据创建索引也是一个很慢的过程。然而两者还是有区别的，顺序扫描是每次都要扫描，而创建索引的过程仅仅需要一次，以后便是一劳永逸的了，每次搜索，创建索引的过程不必经过，仅仅搜索创建好的索引就可以了。这也是全文搜索相对于顺序扫描的优势之一：一次索引，多次使用。
创建索引-将得到的词元(Token)传给语言处理组件(Linguistic Processor)

语言处理组件(linguistic processor)主要是对得到的词元(Token)做一些同语言相关的处理。对于英语，语言处理组件(Linguistic Processor)一般做以下几点： 1. 变为小写(Lowercase)。 2. 将单词缩减为词根形式，如“cars”到“car” 等。这种操作称为：stemming。 3. 将单词转变为词根形式，如“drove”到 “drive”等。这种操作称为：lemmatization。
非结构化检索两种方法

对非结构化数据也即对全文数据的搜索主要有两种方法：一种是顺序扫描法(Serial Scanning) 一种是结构化索引定位法( index location )
顺序扫描法(Serial Scanning)
所谓顺序扫描，比如要找内容包含某一个字符串的文件，就是一个文档一个文档的看，对于每一个文档，从头看到尾，如果此文档包含此字符串，则此文档为我们要找的文件，接着看下一个文件，直到扫描完所有的文件。如利用windows的搜索也可以搜索文件内容，只是相当的慢。如果你有一个 80G硬盘，如果想在上面找到一个内容包含某字符串的文件，不花他几个小时，怕是做不到。Linux下的 grep命令也是这一种方式。大家可能觉得这种方法比较原始，但对于小数据量的文件，这种方法还是最直接，最方便的。但是对于大量的文件，这种方法就很慢了。

经过分词(Tokenizer)后得到的结果称为词元(Token)。在我们的例子中，便得到以下词元(Token)： “Students”，“allowed”，“go”，“their”，“friends”， “allowed”，“drink”，“beer”，“My”，“friend”，“Jerry”， “went”，“school”，“see”，“his”，“students”，“found”， “them”，“drunk”，“allowed”。
结构化索引定位法( index location )

将非结构化数据中的一部分信息提取出来，重新组织，使其变得有一定结构，然后对此有一定结构的数据进行搜索，从而达到搜索相对较快的目的。
这部分从非结构化数据中提取出的然后重新组织的信息，我们称之索引。这种说法比较抽象，举几个例子就很容易明白，比如字典，字典的拼音表和部首检字表就相当于字典的索引，对每一个字的解释是非结构化的，如果字典没有音节表和部首检字表，在茫茫辞海中找一个字只能顺序扫描。然而字的某些信息可以提取出来进行结构化处理，比如读音，就比较结构化，分声母和韵母，分别只有几种可以一一列举，于是将读音拿出来按一定的顺序排列，每一项读音都指向此字的详细解释的页数。我们搜索时按结构化的拼音搜到读音，然后按其指向的页数，便可找到我们的非结构化数据——也即对字的解释。
索引里面究竟存些什么-分解2

比如说，我们要寻找既包含字符串“lucene”又包含字符串“solr”的文档，我们只需要以下几步： 1. 取出包含字符串“lucene”的文档链表。 2. 取出包含字符串“solr”的文档链表。 3. 通过合并链表，找出既包含“lucene”又包含 “solr”的文件。

可以使用算法索引-二分法

把字串的排序按照checksum的值进行二分法排序，可以快速定位字串的入口；更多的二分法，更多的索引，加快定位速度；把字串的表单有序地排列，可以快速地定位字串的文档。分词不一定是单词，也可能是短语。为复杂短语建立二次的索引。
如何对索引进行搜索

如果仅仅只有一个或十个文档包含我们查询的字符串，我们的确找到了。然而如果结果有一千个，甚至成千上万个呢？那个又是您最想要的文件呢？这要回到我们第三个问题：如何对索引进行搜索？