Solr和ElasticSearch单机环境搭建以及连接数据库(MySQL,Oracle)

Solr和ElasticSearch的单机环境搭建

一、Solr环境搭建

1.Solr简介

Solr是一个基于Lucene的Java搜索引擎服务器。Solr 提供了层面搜索、命中醒目显示并且支持多种输出格式（包括XML/XSLT 和JSON 格式）。它易于安装和配置，而且附带了一个基于HTTP 的管理界面。Solr已经在众多大型的网站中使用，较为成熟和稳定。Solr 包装并扩展了Lucene，所以Solr的基本上沿用了Lucene的相关术语。更重要的是，Solr 创建的索引与Lucene 搜索引擎库完全兼容。通过对Solr 进行适当的配置，某些情况下可能需要进行编码，Solr 可以阅读和使用构建到其他Lucene 应用程序中的索引。此外，很多Lucene 工具（如Nutch、Luke）也可以使用Solr 创建的索引。

2.Solr的工作

①分布式实时文件存储，并将每一个字段都编入索引，使其可以被搜索。

②实时分析的分布式搜索引擎。

③可以扩展到上百台服务器，处理PB级别的结构化或非结构化数据。

3.Solr的优点

1、无结构化的自然语言文本为中心；

2、信息浏览占主导地位的用户需求；

3、以Document这种扁平化并且独立的结构组织信息（区别与关系型数据库）；

4、要求组织成的数据模式灵活多变（不像数据库表一样要求统一的字段）。4.Solr环境搭建的准备

1.Solr安装包最新版本是Solr6.

2.1（截止2016.10.13）：

https://www.360docs.net/doc/fe461636.html,/dist/lucene/solr/6.2.1/solr-6.2.1.zip

2.Tomcat作为服务器（Tomcat9）

https://www.360docs.net/doc/fe461636.html,/dist/tomcat/tomcat-9/v9.0.0.M11/bin/apache-

tomcat-9.0.0.M11-windows-x64.zip

3.IK中文分词插件（或者MMSeg4J中文分词插件）

IK分词插件现在支持到5.5.x的Solr，不过在Solr6.2.1上还是可以用的

MMSeg4J 最新版本2.3.0

4.操作系统Windows10

5.开始环境搭建

1.解压Tomcat到本地磁盘X，根据需要命名，此处我们命名为Tomcat

2.解压Solr6.2.1到磁盘任意位置，在这里我们解压到与Tomcat同级目录下，并且命名为solr

3.进入solr目录，依次进./server/solr-webapp目录，在此目录下有webapp 文件夹

复制此文件夹到Tomcat目录下的webapps文件夹下，并且根据需要命名，此处我们命名为solr如下图所示

4.将Solr目录下server/lib/ext目录下的所有jar包复制到Tomcat目录下

webapps/solr/WEB-INF/lib下（图片请放大观看）

5.将solr\server\resources目录下的log4j.properties文件拷贝到

Tomcat\webapps\solr\WEB-INF\classes下，若不存在classes文件夹，需要手动创建一个

6.在Tomcat/webapps/solr目录下新建solrhome文件夹（此处根据需要命名），

这是solr的core存放目录。

7.将solr/server/solr下的所有文件复制到solrhome中（实测证明只需要solr.xml

即可，如果在集群分布式系统下，可能需要zoo.cfg）

8.进入Tomcat/webapps/solr/WEB-INF/目录下，找到web.xml并打开编辑。修

效果如下图所示

9.进入Tomcat/bin目录，运行startup.bat。

10.打开浏览器，访问http://localhost:8080/solr/index.html，如果看到如下界面

说明安装成功

6.为solr创建core

1.在Tomcat/webapps/solr/solrhome下新建文件夹，根据需要命名，此处我

们命名为core0

2.进入core文件夹，新建文本文档命名为core.properties，以文本方式打

保存并关闭

3.将solr/example/example-DIH/solr/solr下的conf文件夹复制到

Tomcat/webapps/solr/solrhome/core0下

4.将solr/dist下的solr-dataimporthandler-6.2.1.jar和

solr-dataimporthandler-extras-6.2.1.jar复制到

Tomcat/webapps/solr/WEB-INF/lib中

5.此时重启Tomcat，（启动过程中可能会报错，如果是缺少jar包的话，就

去solr的包里找，复制到WEB-INF/lib中）打开

http://localhost:8080/solr/index.html就会发现添加了core0

7.为solr的core添加数据源

以oracle为例，数据库中有如下表

表结构如下

1.找到Tomcat/webapps/solr/solrhome/core0/conf下的solr-data-config.xml，

复制一份到此目录下，根据需要命名，此处我们命名为test-data-config.xml。

2.编辑Tomcat/webapps/solr/solrhome/core0/conf下的solrconfig.xml文件，

test-data-config.xml

3.进入Tomcat/webapps/solr/solrhome/core0/conf，在solr5以上默认使用

managed-schema进行管理，但是我们仍然可以通过编写schema.xml对数据格式进行设置。新建schema.xml，以文本方式打开，并且添加以下

注意红字部分，根据需求写，其中type="string"type是上面fieldType中定义的 ID

必填，ID与表中的主键ID一致。

4.将ojdbc.jar(如果是MySQL的话就是mysql-jdbc)的jar包复制到

Tomcat/webapps/solr/WEB-INF/lib下

5.浏览器访问http://localhost:8080/solr/index.html，在左边选中core0，点击

dataimport按钮，选择我们需要的实体，执行导入

6.点击左侧query按钮，可以执行查询操作

8.为solr的core添加分词器

分词器有多个，在此我们只讨论最常用的两个，MMSeg4J和IKAnalyzer

1.MMSeg4J的添加

1)将mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar复制到

Tomcat/webapps/solr/WEB-INF/lib下

2)将词库放在磁盘某个目录下比如，我们将词库放在了

D:\Solr\Tomcat\webapps\solr\solrhome\dic这个目录下，将词库重命名为以words开头的dic类型的文件，比如words-my.dic,wordsmy.dic,words_my.dic。

3)在Tomcat/webapps/solr/solrhone/core0/conf/下，修改managed-schema 在标签里面添加如下代码，其中红字是词典位置路径（绝对路径），

4)重启Tomcat，此时我们就可以在浏览器中使用Analyze功能了

2.IKAnalyzer的添加（以下简称IK）

1)和MMSeg4j一样，先把IKr的jar包放入Tomcat/webapps/solr/WEB-INF/lib 目录下。

2)将IK的词库放在D:\Solr\Tomcat\webapps\solr\solrhome\dic目录下，根据需要命名，其中mydic是词库，stopword是停词词库。

3)复制IKAnalyzer.cfg.xml到\Tomcat\webapps\solr\WEB-INF\classes目录下，

注意，路径是相对于classes文件夹的相对路径

4)以文本方式编辑Tomcat/webapps/solr/solrhome/core0/conf目录下的

保存并退出。

5)重启Tomcat，访问http://localhost:8080/solr/index.html#/core0/analysis点击

选择text_ik即可使用IK分词器

9.其他

至此为止Solr在windows上的搭建基本完成，更多的Solr操作可以参考网上的教程，在此不再赘述。

另外，Linux上的环境搭建与Windows类似。

二、ElasticSearch环境搭建

1.Elastic简介

ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。

2.Elastic的优点

1.Elasticsearch是分布式的。不需要其他组件，分发是实时的，被叫做”Push

replication”。

2.Elasticsearch 完全支持Apache Lucene 的接近实时的搜索。

3.处理多租户（multitenancy）不需要特殊配置，而Solr则需要更多的高级

设置。

4.Elasticsearch 采用Gateway 的概念，使得完备份更加简单。

5.各节点组成对等的网络结构，某些节点出现故障时会自动分配其他节点

代替其进行工作。

3.Elastic环境搭建准备工作

1.操作系统为Ubuntu16.1，由于Elastic对Windows支持不是很好，很多操

作在Windows无法完成或者需要安装很多其他辅助软件，所以我们选择在

Linux系统上搭建这个环境

2.Java JDK1.8 for linux，Elastic 2.x版本不再支持JDK1.7以下的版本，注意

压缩版是tar.gz格式，千万别搞错。

3.Elastic安装包，下载地址如下，格式跟上面一样

https://download.elastic.co/elasticsearch/release/org/elasticsearch/distribution /tar/elasticsearch/2.3.4/elasticsearch-2.3.4.tar.gz

4.我们选择的ElasticSearch是2.3.4版本（截止2016.10.13最新版本为2.4.1），

之所以选择这个版本是因为如果我们要连接数据库作为数据源的话，需要

Elasticsearch-jdbc作为驱动来连接，而这个驱动最新版本为2.3.4，为了避免驱动不兼容的问题，我们选择这个版本。

5.Elasticsearch-jdbc驱动

https://www.360docs.net/doc/fe461636.html,/repository/org/xbib/elasticsearch/importer/elasticsearch-jdbc/2.

3.4.1/elasticsearch-jdbc-2.3.4.1-dist.zip

6.Elasticsearch Head插件，这是一个可以在网页上对Elastic进行可视化操

作的插件。https://https://www.360docs.net/doc/fe461636.html,/mobz/elasticsearch-head/zip/master

7.Ojdbc驱动或者MySQL-jdbc驱动jar包

4.开始环境搭建

1.解压JDK到磁盘目录，可以在终端使用unzip filename命令，也可使用

ubuntu自带的归档管理器进行解压，解压完成之后的文件目录如下图

2.下面就要配置Java的环境变量，由于普通用户没有更改权限，所以我们

要先为要更改的文件设置权限。（更改profile会使环境变量对这台机器上的所有用户都生效，比较稳妥的办法是更改个人目录下.bash_profile这个文件，

这样可以使环境变量只对此用户生效，和下面类似（这是个隐藏文件，需要ls -a命令才能看到））

之后有两种方法，一种是通过文件浏览器进入/etc目录，用自带的编辑器修改并保存另一种是用vi编辑器：

使用方向键将光标移动至文件末尾，按i 键进入编辑模式，在文件末尾添加

入底行模式，输入wq回车。然后注销重新登录。

打开终端输入java -version 回车，如果出现如下图所示的界面，说明安装成功

3.解压Elasticsearch，然后进入elastic根目录下的bin文件夹，输入命

令./elsticsearch回车，

之后Elastic就会启动，大概如下图所示

4.然后浏览器打开http://localhost:9200/如果出现

说明安装成功。

5.安装插件

在elastic根目录下新建plugins文件夹，将head插件包解压缩到plugins目录下，并且重命名为head。

重启elastic，浏览器输入http://localhost:9200/_plugins/head/出现如下所示说明安装成功

6.连接Oracle数据库

1.将elasticsearch-jdbc解压到磁盘（最好是elastic根目录，方便），重命名

为jdbc（不重命名也可）。

2.进入jdbc/bin看到如下图所示文件目录

3.复制oracle-connection-properties.sh到bin文件夹的上级目录。并重命名

（也可直接修改这个文件，在这里我们为了方便使用和不造成目录的混乱，选择将其复制到Elastic根目录下重命名为oracle.sh）

ElasticSearch面试题

1：es介绍 Elasticsearch是一个基于Lucene的实时的分布式搜索和分析引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。基于RESTful接口。普通请求是...get?a=1 rest请求....get/a/1 2：全文搜索的工具有哪些 Lucene Solr Elasticsearch 3：es的bulk的引用场景 1.bulk API可以帮助我们同时执行多个请求 2.create 和index的区别如果数据存在，使用create操作失败，会提示文档已经存在，使用index则可以成功执行。 3.可以使用文件操作使用文件的方式 vi requests curl -XPOST/PUT localhost:9200/_bulk --data-binary @request; bulk请求可以在URL中声明/_index 或者/_index/_type 4.bulk一次最大处理多少数据量 bulk会把将要处理的数据载入内存中，所以数据量是有限制的最佳的数据量不是一个确定的数值，它取决于你的硬件，你的文档大小以及复杂性，你的索引以及搜索的负载一般建议是1000-5000个文档，如果你的文档很大，可以适当减少队列,大小建议是 5-15MB，默认不能超过100M，可以在es的配置文件中修改这个值http.max_content_length: 100mb 5.版本控制的一个问题在读数据与写数据之间如果有其他线程进行写操作，就会出问题，es使用版本控制才避免这种问题。在修改数据的时候指定版本号，操作一次版本号加1。 6.es的两个web访问工具

solr教程

Apache Solr 初级教程（介绍、安装部署、Java接口、中文分词）Apache Solr 介绍 Solr 是什么？ Solr 是一个开源的企业级搜索服务器，底层使用易于扩展和修改的Java 来实现。服务器通信使用标准的HTTP 和XML，所以如果使用Solr 了解Java 技术会有用却不是必须的要求。 Solr 主要特性有：强大的全文检索功能，高亮显示检索结果，动态集群，数据库接口和电子文档（Word ，PDF 等）的处理。而且Solr 具有高度的可扩展，支持分布搜索和索引的复制。 Lucene 是什么？ Lucene 是一个基于 Java 的全文信息检索工具包，它不是一个完整的搜索应用程序，而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工具包。目前已经有很多应用程序的搜索功能是基于 Lucene ，比如 Eclipse 帮助系统的搜索功能。Lucene 能够为文本类型的数据建立索引，所以你只要把你要索引的数据格式转化的文本格式，Lucene 就能对你的文档进行索引和搜索。 Solr VS Lucene Solr 与Lucene 并不是竞争对立关系，恰恰相反Solr 依存于Lucene ，因为Solr 底层的核心技术是使用Apache Lucene 来实现的，简单的说Solr 是Lucene 的服务器化。需要注意的是Solr 并不是简单的对Lucene 进行封装，它所提供的大部分功能都区别于Lucene 。安装搭建Solr

安装Java 虚拟机 Solr 必须运行在Java1.5 或更高版本的Java 虚拟机中，运行标准Solr 服务只需要安装JRE 即可，但如果需要扩展功能或编译源码则需要下载JDK 来完成。可以通过下面的地址下载所需JDK 或JRE ： ?OpenJDK （https://www.360docs.net/doc/fe461636.html,/j2se/downloads.html） ?Sun （https://www.360docs.net/doc/fe461636.html,/j2se/downloads.html） ?IBM （https://www.360docs.net/doc/fe461636.html,/developerworks/java/jdk/） ?Oracle （https://www.360docs.net/doc/fe461636.html,/technology/products/jrockit/index.html）安装步骤请参考相应的帮助文档。安装中间件 Solr 可以运行在任何Java 中间件中，下面将以开源Apache Tomcat 为例讲解Solr 的安装、配置与基本使用。本文使用Tomcat5.5 解压版进行演示，可在下面地址下载最新版本https://www.360docs.net/doc/fe461636.html,/download-55.cgi 安装Apache Solr 下载最新的Solr 本文发布时Solr1.4 为最新的版本，下文介绍内容均针对该版本，如与Solr 最新版本有出入请以官方网站内容为准。Solr官方网站下载地址： https://www.360docs.net/doc/fe461636.html,/dyn/closer.cgi/lucene/solr/ Solr 程序包的目录结构 ?build ：在solr 构建过程中放置已编译文件的目录。 ?client ：包含了一些特定语言调用Solr 的API 客户端程序，目前只有Ruby 可供选择，Java 客户端叫SolrJ 在src/solrj 中可以找到。 ?dist ：存放Solr 构建完成的JAR 文件、WAR 文件和Solr 依赖的JAR 文件。 ?example ：是一个安装好的Jetty 中间件，其中包括一些样本数据和Solr 的配置信息。 o example/etc ：Jetty 的配置文件。 o example/multicore ：当安装Slor multicore 时，用来放置多个Solr 主目录。 o example/solr ：默认安装时一个Solr 的主目录。 o example/webapps ：Solr 的WAR 文件部署在这里。

elasticsearch学习文档

1.全文搜索引擎elasticsearch 1.1.Elasticsearch简介 Elasticsearch是开源的，分布式的，提供rest接口，支持云端调用的，构建在Apache Lucene之上的搜索引擎。 1.2.优点&缺点优点：开箱即用，分布式，rest 接口，支持云端调用。缺点：没有大量商业产品应用。分片的数目不能动态调整，只能在初始化索引的时候指定。 2.E lasticsearch的安装 2.1.运行环境 JDK6以上 2.2.下载Elasticsearch 为了更好的对中文进行分词，减少配置问题，下载集成分词的elasticsearch-rtf（基于elasticsearch 0.90.0,目前elasticsearch更新到0.90.5）版本。Rtf集成了ik、mmseg分词以及searchwrapper、thrift等插件。什么是ElasticSearch-RTF？ RTF是Ready To Fly的缩写，在航模里面，表示无需自己组装零件即可直接上手即飞的航空模型，elasticsearch-RTF是针对中文的一个发行版，即使用最新稳定的elasticsearch版本，并且帮你下载测试好对应的插件，如中文分词插件等，还会帮你做好一些默认的配置，目的是让你可以下载下来就可以直接的使用。下载地址如下：https://https://www.360docs.net/doc/fe461636.html,/medcl/elasticsearch-rtf

注释：分词是用于模糊匹配的时候，是把一段话当成词语还是当成单个字来搜索的规则。 2.3.安装解压elasticsearch-rtf-mast.zip到你指定的目录下即可。 2.4.运行 2.4.1.启动服务 cd/usr/local/elasticsearch/bin/service ./elasticsearch start 第一次启动服务后，在/usr/local/elasticsearch目录生成data目录和logs目录2.4.2.停止服务 cd/usr/local/elasticsearch/bin/service ./elasticsearch stop 3.e lasticsearch配置文件详解 elasticsearch.yml配置文件内容较多，挑几个可能会用的说一下。 https://www.360docs.net/doc/fe461636.html,: elasticsearch 配置es的集群名称，默认是elasticsearch，es会自动发现在同一网段下的es，如果在同一网段下有多个集群，就可以用这个属性来区分不同的集群。 https://www.360docs.net/doc/fe461636.html,: "Franz Kafka" 节点名，默认随机指定一个name列表中名字，该列表在es的jar包中config文件夹里name.txt 文件中，其中有很多作者添加的有趣名字。 node.master: true 指定该节点是否有资格被选举成为node，默认是true，es是默认集群中的第一台机器为master，如果这台机挂了就会重新选举master。 network.bind_host: 192.168.0.1

solr技术方案

Solr技术方案一用户需求以前的互动平台只能对固定表的固定字段做like这样的数据库层面的索引，性能低下，用户体验很差，很难满足业务提出的简化搜索的需求。需求原型：业界通用的做全站搜索的基本上两种： 1 选择googleAPI，百度API做。同第三方搜索引擎绑定太死，无法满足后期业务扩展需要，而且全站的SEO做的也不是很好，对于动态的很多ajax请求需要做快照，所以暂时不采用。 2 选择现有成熟的框架。

这里我们选择使用solr。 Solr是一个基于Lucene的Java搜索引擎服务器。Solr 提供了层面搜索、命中醒目显示并且支持多种输出格式（包括XML/XSLT 和JSON 格式）。它易于安装和配置，而且附带了一个基于HTTP 的管理界面。Solr已经在众多大型的网站中使用，较为成熟和稳定。Solr 包装并扩展了Lucene，所以Solr的基本上沿用了Lucene的相关术语。更重要的是，Solr 创建的索引与Lucene 搜索引擎库完全兼容。通过对Solr 进行适当的配置，某些情况下可能需要进行编码，Solr 可以阅读和使用构建到其他Lucene 应用程序中的索引。此外，很多Lucene 工具（如Nutch、Luke）也可以使用Solr 创建的索引。这里我们主要需要以下几种功能： 1 可用性及成熟性。 2 中文分词。 3 词库与同义词的管理（比如我们使用最高的：股票代码）。 4 高亮显示。 5 方便的导入数据。 6 Facet的轻松配置 7 扩展性。二Solr的体系结构体系结构 Solr体系，功能模块介绍及配置。

以上是solr的架构图。具体应用时需要理解一下模块的作用及配置。 RequestHandler：接受请求，分发请求。另外也包含导入数据，如importhandler。UpdateHandlers –处理索引请求。 Search Components：作为handlder的成员变量。处理请求。 Facet：分类搜索 Tika：apache下处理文件的一个项目。 Filter，spelling ：处理字符串 Http query/update Database/html importhandler 默认基本可以满足要求。如果不够则扩展相应的handler和component。

ElasticSearch使用手册

ElasticSearch使用手册一、ElasticSearch简介 1.1.什么是ElasticSearch ElasticSearch（以下均检查ES）是Compass（基于Lucene开源项目）作者Shay Banon在2010年发布的高性能、实时、分布式的开源搜索引擎。后来成立了ElasticSearch公司，负责ES相关产品的开发及商用服务支持，ES依旧采用免费开源模式，但部分插件采用商用授权模式，例如Marvel插件（负责ES的监控管理）、Shield插件（提供ES的授权控制）。 1.2.ElasticSearch的基础概念 ?Collection 在SolrCloud集群中逻辑意义上的完整的索引。它常常被划分为一个或多个Shard，它们使用相同的Config Set。如果Shard数超过一个，它就是分布式索引，SolrCloud让你通过Collection名称引用它，而不需要关心分布式检索时需要使用的和Shard相关参数。 ?Config Set Solr Core提供服务必须的一组配置文件。每个config set有一个名字。最小需要包括solrconfig.xml (SolrConfigXml)和schema.xml (SchemaXml)，除此之外，依据这两个文件的配置内容，可能还需要包含其它文件。它存储在Zookeeper中。Config sets可以重新上传或者使用upconfig命令更新，使用Solr的启动参数bootstrap_confdir指

定可以初始化或更新它。 ?Core Core也就是Solr Core，一个Solr中包含一个或者多个Solr Core，每个Solr Core可以独立提供索引和查询功能，每个Solr Core对应一个索引或者Collection的Shard，Solr Core的提出是为了增加管理灵活性和共用资源。在SolrCloud中有个不同点是它使用的配置是在Zookeeper中的，传统的Solr core的配置文件是在磁盘上的配置目录中。 ?Leader 赢得选举的Shard replicas。每个Shard有多个Replicas，这几个Replicas需要选举来确定一个Leader。选举可以发生在任何时间，但是通常他们仅在某个Solr实例发生故障时才会触发。当索引documents时，SolrCloud会传递它们到此Shard对应的leader，leader 再分发它们到全部Shard的replicas。 ?Replica Shard的一个拷贝。每个Replica存在于Solr的一个Core中。一个命名为“test”的collection以numShards=1创建，并且指定replicationFactor设置为2，这会产生2个replicas，也就是对应会有2个Core，每个在不同的机器或者Solr实例。一个会被命名为test_shard1_replica1，另一个命名为test_shard1_replica2。它们中的一个会被选举为Leader。 ?Shard

zheng-环境搭建及系统部署文档20170213(三版)

1Een 项目描述基于Spring+SpringMVC+Mybatis分布式敏捷开发系统架构：内容管理系统（门户、博客、论坛、问答等）、统一支付中心（微信、支付宝、在线网银等）、用户权限管理系统（RBAC细粒度用户权限、统一后台、单点登录、会话管理）、微信管理系统、第三方登录系统、会员系统、存储系统 https://www.360docs.net/doc/fe461636.html,/zhengAdmin/src/ 2项目组织结构

3项目模块图 4项目使用到的技术4.1后端技术 Spring Framework SpringMVC: MVC框架

Spring secutity|Shiro: 安全框架 Spring session: 分布式Session管理MyBatis: ORM框架 MyBatis Generator: 代码生成 Druid: 数据库连接池 Jsp|Velocity|Thymeleaf: 模板引擎ZooKeeper: 协调服务 Dubbo: 分布式服务框架 TBSchedule|elastic-job: 分布式调度框架Redis: 分布式缓存数据库 Quartz: 作业调度框架 Ehcache: 缓存框架 ActiveMQ: 消息队列 Solr|Elasticsearch: 分布式全文搜索引擎FastDFS: 分布式文件系统 Log4J: 日志管理 Swagger2: 接口文档 sequence: 分布式高效ID生产 https://www.360docs.net/doc/fe461636.html,/yu120/sequence AliOSS|Qiniu: 云存储 Protobuf|json: 数据传输 Jenkins: 持续集成工具 Maven|Gradle: 项目构建管理

elasticSearch

ElasticSearch:可扩展的开源弹性搜索解决方案开源的分布式搜索引擎支持时间时间索引和全文检索。索引：index 存放数据类型：type 区分储存的对象文档：document 储存的主要实体页面: field 角色关系对照 elasticsearch 跟 MySQL 中定义资料格式的角色关系对照表如下 MySQL elasticsearch database index table type table schema mapping row document field field http://localhost:9200/mishu_index/hunanzhaobiaowang/ _search?q=title:嘉禾县基本烟田土地整理施工 ElasticSearch官网：https://www.360docs.net/doc/fe461636.html,/ 先上一张elasticsearch的总体框架图：

ElasticSearch是基于Lucene开发的分布式搜索框架，包含如下特性：分布式索引、搜索索引自动分片、负载均衡自动发现机器、组建集群支持Restful 风格接口配置简单等。下图是ElasticSearch的第三方插件管理工具，通过它可以很清晰的看到它索引分布的情况：哪块分布在那里，占用空间多少都可以看到，并且可以管理索引。

当一台机挂了时，整个系统会对挂机里的内容重新分配到其它机器上，当挂掉的机重新加入集群时，又会重新把索引分配给它。当然，这些规则都是可以根据参数进行设置的，非常灵活。ElasticSearch是先把索引的内容保存到内存之中，当内存不够时再把索引持久化到硬盘中，同时它还有一个队列，是在系统空闲时自动把索引写到硬盘中。的后端存储方式可以有一下四种： 1. 像普通的 Lucene 索引，存储在本地文件系统中; 2. 存储在分布式文件系统中，如 freeds; 3. 存储在 Hadoop 的 hdfs中; 4. 存储在亚马逊的 S3 云平台中。它支持插件机制，有丰富的插件。比如和 mongoDB、couchDB 同步的river 插件，分词插件，Hadoop 插件，脚本支持插件等。下面介绍elasticsearch的几个概念： cluster 代表一个集群，集群中有多个节点，其中有一个为主节点，这个主节点是可以通过选举产生的，主从节点是对于集群内部来说的。es 的一个概念就是去中心化，字面上理解就是无中心节点，这是对于集群外部来说的，因为从外部来看 es 集群，在逻辑上是个整体，与任何一个节点的通信和与整个es 集群通信是等价的。在配置文件中可以配置集群的名字，在同一局域网内的机器，配置相同的cluster名字，将会自动组建集群，不需要其它特殊配置。 shards

SolrCloud使用教程、原理介绍我心动了

SolrCloud使用教程、原理介绍发布于2013 年 8 月 24 日，属于搜索分类，7,446 浏览数 SolrCloud 是基于 Solr 和 Zookeeper 的分布式搜索方案，是正在开发中的 Solr4.0 的核心组件之一，它的主要思想是使用 Zookeeper 作为集群的配置信息中心。它有几个特色功能：①集中式的配置信息②自动容错③近实时搜索④查询时自动负载均衡。

下面看看 wiki 的文档： 1、SolrCloud SolrCloud 是指 Solr 中一套新的潜在的分发能力。这种能力能够通过参数让你建立起一个高可用、容错的 Solr 服务集群。当你需要大规模，容错，分布式索引和检索能力时使用 SolrCloud(solr 云)。看看下面“启动”部分内容，快速的学会怎样启动一个集群。后面有 3 个快速简单的例子，它们展现怎样启动一个逐步越来越复杂的集群。检出例子之后，需要翻阅后面的部分了解更加细节的信息。 2、关于 SolrCores 和 Collections 的一点儿东西对于单独运行的 Solr 实例，它有个东西叫 SolrCore(Solr.xml 中配置的),它是本质上独立的索引块。如果你打算多个索引块，你就创建多个 SolrCores。当同时部署SolrCloud 的时，独立的索引块可以跨越多个 Solr 实例。这意味着一个单独的索引块能由不同服务器设备上多个 SolrCore 的索引块组成。我们把组成一个逻辑索引块的所有 SolrCores 叫做一个独立索引块儿(collection)。一个独立索引块是本质上一个独立的跨越多个 SolrCore 索引块的索引块，同时索引块尽可能随着多余的设备进行缩放。如果你想把你的两个 SolrCore Solr 建立成 SolrCloud,你将有 2 个独立索引块，每个有多个独立里的 SolrCores 组成。 3、启动下载 Solr4-Beta 或更高版本。如果你还没了解，通过简单的Solr 指南让自己熟悉Solr。注意：在通过指南了解云特点前，重设所有的配置和移除指南的文档.复制带有预先存在的 Solr 索引的例子目录将导致文档计数关闭Solr 内嵌使用了Zookeeper 作为集群配置和协调运作的仓储。协调考虑作为一个包含所有 Solr 服务信息的分布式文件系统。如果你想用一个其他的而不是 8983 作为 Solr 端口，去看下面’ Parameter Reference’部分下的关于solr.xml 注解例 A:简单的 2 个 shard 集群这个例子简单的创建了一个代表一个独立索引块的两个不同的 shards 的两个 solr 服务组成

Elasticsearch权威指南(中文版)

Elasticsearch 权威指南（中文版） 1、入门 Elasticsearch是一个实时分布式搜索和分析引擎。它让你以前所未有的速度处理大数据成为可能。它用于全文搜索、结构化搜索、分析以及将这三者混合使用：维基百科使用Elasticsearch提供全文搜索并高亮关键字，以及输入实时搜索(search-as-you-type)和搜索纠错(did-you-mean)等搜索建议功能。英国卫报使用Elasticsearch结合用户日志和社交网络数据提供给他们的编辑以实时的反馈，以便及时了解公众对新发表的文章的回应。StackOverflow结合全文搜索与地理位置查询，以及more-like-this功能来找到相关的问题和答案。 Github使用Elasticsearch检索1300亿行的代码。但是Elasticsearch不仅用于大型企业，它还让像DataDog以及Klout这样的创业公司将最初的想法变成可扩展的解决方案。Elasticsearch可以在你的笔记本上运行，也可以在数以百计的服务器上处理PB级别的数据。Elasticsearch所涉及到的每一项技术都不是创新或者革命性的，全文搜索，分析系统以及分布式数据库这些早就已经存在了。它的革命性在于将这些独立且有用的技术整合成一个一体化的、实时的应用。它对新用户的门槛很低，当然它也会跟上你技能和需求增长的步伐。如果你打算看这本书，说明你已经有数据了，但光有数据是不够的，除非你能对这些数据做些什么事情。

很不幸，现在大部分数据库在提取可用知识方面显得异常无能。的确，它们能够通过时间戳或者精确匹配做过滤，但是它们能够进行全文搜索，处理同义词和根据相关性给文档打分吗？它们能根据同一份数据生成分析和聚合的结果吗？最重要的是，它们在没有大量工作进程（线程）的情况下能做到对数据的实时处理吗？这就是Elasticsearch存在的理由：Elasticsearch鼓励你浏览并利用你的数据，而不是让它烂在数据库里，因为在数据库里实在太难查询了。Elasticsearch是你新认识的最好的朋友。 1.1、是什么为了搜索，你懂的 Elasticsearch是一个基于Apache Lucene(TM)的开源搜索引擎。无论在开源还是专有领域，Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。但是，Lucene只是一个库。想要使用它，你必须使用Java来作为开发语言并将其直接集成到你的应用中，更糟糕的是，Lucene非常复杂，你需要深入了解检索的相关知识来理解它是如何工作的。 Elasticsearch也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能，但是它的目的是通过简单的RESTful API来隐藏Lucene的复杂性，从而让全文搜索变得简单。不过，Elasticsearch不仅仅是Lucene和全文搜索，我们还能这样去描述它： ?分布式的实时文件存储，每个字段都被索引并可被搜索 ?分布式的实时分析搜索引擎 ?可以扩展到上百台服务器，处理PB级结构化或非结构化数据

基于solr的异构数据融合检索技术_梁艳

基于solr的异构数据融合检索技术梁艳1 刘双广1 劳定雄2 (1.重庆邮电大学通信与信息工程学院，重庆 400065；2.高新兴科技集团股份有限公司研发中心，广东广州 510530) 摘要：针对企业异构数据融合检索的需求，介绍了异构数据整合的常用方法和企业级搜索服务器solr的基本功能，结合xml异构数据整合、中文分词技术和友好的用户界面搭建了基于solr的异构数据融合检索系统，实现了对xml文件的索引和检索，为异构数据融合检索提供了解决方案。关键词：solr；异构数据；XML；融合；检索 The Retrieval Technology of Heterogeneous Data Integration Based on Solr Abstract:For the need of enterprise heterogeneous data integration retrieval, this thesis introduces the common method of heterogeneous data integration and the basic function of Solr which is enterprise search server. Combined the XML heterogeneous data integration with the Chinese word segmentation technology and the friendly user interface，this paper built the heterogeneous data integration retrieval system based on Solr, realized the indexing and retrieval of XML document and provided solutions for heterogeneous data integration retrieval. Key words:solr； Heterogeneous data；xml；integration；retrieval 作者简介：梁艳（1988-），女，汉族，重庆市潼南县人，重庆邮电大学硕士在读，研究方向：信息检索；刘双广（1965-），男，汉族，广东省广州人，重庆邮电大学硕士生导师，EMBA，研究方向：物联网；劳定熊（1976-），汉族，男，广东省广州人，高新兴科技集团股份有限公司架构师，硕士，研究方向：云计算。 1 背景互联网技术的发展，使得信息数据爆炸式增长。特别是在企业信息中，其非结构数据占到了增长数据的80%，包括PDF、word文档，图像、音频和视频等。企业在不同的应用平台拥有不同的检索系统，这给用户检索信息带来了诸多不便。如何构建一个统一的检索平台，使得用户在海量的异构数据中实现统一检索，一直是研究人员研究的热点。 2 异构数据融合技术异构数据是指数据格式不同，内容不一，描述不同内容的数据，包括结构化数据（如数据库）、半结构化数据（如HTML、 XML）和非结构化数据（如文本、图片）[1] 。数据的统一访问的基础在于数据融合集成，目前对于解决异构数据融合的研究有数据仓库、数据抽取和数据转换。数据仓库是指不同来源的数据在进入数据仓库之前，转换为统一的格式为复杂的查询提供统一的视图，实现数据的统一访问[2]。其代表性的成果是ETL集成工具，ETL [3]允许提取、转换和加载异构数据到数据仓库中和实现数据迁移任务。但数据仓库主要是针对不同数据库中的结构化数据的整合，很难应用于非结构化数据的集成、实现非结构化数据的统一访问[4]。数据抽取是指将无结构的的文本结构化处理，即输入原始文本输出固定格式[5]。部分数据库管理系统自带有数据抽取工具，能够低成本的解决异构数据整合问题，但在实际应用中有一定的局限性。 XML整合是数据转换技术的代表，即将各种异构数据转换为统一的xml文本格式，实现异构数据整合。XML(eXtensible Markup Language，扩展标记语言)是互联网下的一个关键技术，它能很好地实现来源极端异构的数据描述和传输。XML能独立于应用系统,不受任何特殊的软件或者硬件平台限制,并且这些数据能重复使用,简单易懂,成为交换各种结构化、半结构化、非结构化信息的良好方式[6]。因此,采用XML文档作为底层数据的融合与集成技术,实现了异构数据源间数据共享并且更有效地利用信息资源。XML整合数据的一般模型为下图一所示： 3 solr搜索引擎 3.1 solr简介 Solr （Searching on Lucene Replication）[7] 是Apache 软件基金会下的一个开源子项目，它是一个高性能的、采用java5开发的、基于lucene全文搜索库的企业搜索服务器。提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展并对查询性能进行了优化，并且提供了一个完善的功能管理界面，是一款非常优秀的全文搜索引擎。 3.2 solr体系架构 Solr的系统结构图[8]如图2所示，solr主要分为3层，solr 在lucene的基础上进行了大量的改进，其中solr的底层为对lucene一些功能的改进封装。中间层为solr的核心层，搜索引擎的主要功能都是在这一层实现的，包括对文档进行分析、建立索引、配置solr运行文件和保存索引文件等。最顶层包括HTTP接口，负责通过HTTP传入和返回XML文档；管理界面和索引更新模块。另外，索引复制功能是一个独立的模块，它是由一个主索引和多个从索引构成，从索引从主索引复制索引，主索引负图一 xml数据整合模型

Solr总结-吐血总结

Solr调研总结 1. Solr 是什么？ Solr它是一种开放源码的、基于Lucene Java 的搜索服务器，易于加入到Web 应用程序中。Solr 提供了层面搜索(就是统计)、命中醒目显示并且支持多种输出格式（包括XML/XSLT 和JSON等格式）。它易于安装和配置，而且附带了一个基于HTTP 的管理界面。可以使用Solr 的表现优异的基本搜索功能，也可以对它进行扩展从而满足企业的需要。Solr的特性包括： ?高级的全文搜索功能 ?专为高通量的网络流量进行的优化 ?基于开放接口（XML和HTTP）的标准 ?综合的HTML管理界面 ?可伸缩性－能够有效地复制到另外一个Solr搜索服务器 ?使用XML配置达到灵活性和适配性 ?可扩展的插件体系 2. Lucene 是什么？ Lucene是一个基于Java的全文信息检索工具包，它不是一个完整的搜索应用程序，而是为你的应用程序提供索引和搜索功能。Lucene 目前是Apache Jakarta(雅加达)家族中的一个开源项目。也是目前最为流行的基于Java开源全文检索工具包。目前已经有很多应用程序的搜索功能是基于Lucene ，比如Eclipse 帮助系统的搜索功能。Lucene能够为文本类型的数据建立索引，所以你只要把你要索引的数据格式转化的文本格式，Lucene 就能对你的文档进行索引和搜索。

3. Solr vs Lucene Solr与Lucene 并不是竞争对立关系，恰恰相反Solr 依存于Lucene，因为Solr底层的核心技术是使用Lucene 来实现的，Solr和Lucene的本质区别有以下三点：搜索服务器，企业级和管理。Lucene本质上是搜索库，不是独立的应用程序，而Solr是。Lucene专注于搜索底层的建设，而Solr专注于企业应用。Lucene 不负责支撑搜索服务所必须的管理，而Solr负责。所以说，一句话概括Solr: Solr 是Lucene面向企业搜索应用的扩展。 Solr与Lucene架构图: Solr使用Lucene并且扩展了它！ ?一个真正的拥有动态字段(Dynamic Field)和唯一键(Unique Key)的数据模式(Data Schema) ?对Lucene查询语言的强大扩展！ ?支持对结果进行动态的分组和过滤 ?高级的，可配置的文本分析 ?高度可配置和可扩展的缓存机制 ?性能优化

虚拟机学习云环境第二篇Hadoop和Hbase 部署

目标：在本人的T450笔记本win7操作系统环境下熟悉云计算环境基于开源项目nutch实现大量文本内容的快速分词及检索. Hadoop、HBase、ZooKeep、Solr、Nutch 上一篇完成了Linux基础环境的搭建和集群内SSH无密码登录的设置这一篇完成Hadoop软件安装一、创建集群目录 mkdir -p /data/cluster cd /data/cluster mkdirtmp mkdir-p hdfs/data mkdir-p hdfs/name mkdir-p hdfs/journal 二、zookeep安装在MNODE节点上执行：把zookeeper-3.4.9.tar.gz拷贝到/data/cluster目录下 cd /data/cluster tarvzxf zookeeper-3.4.9.tar.gz cd /data/cluster/zookeeper-3.4.9/conf cpzoo_sample.cfgzoo.cfg 修改zoo.cfg，修改后内容如下： # The number of milliseconds of each tick tickTime=2000 # The number of ticks that the initial # synchronization phase can take initLimit=10 # The number of ticks that can pass between # sending a request and getting an acknowledgement syncLimit=5 # the directory where the snapshot is stored. # do not use /tmp for storage, /tmp here is just # example sakes. dataDir=/data/cluster/zookeeper-3.4.9/data # the port at which the clients will connect clientPort=2181 server.1=MNODE :2888:3888 server.2=SNODE :2888:3888 # the maximum number of client connections. # increase this if you need to handle more clients #maxClientCnxns=60

Solr课件

solr入门课程计划： 1、solr服务介绍 2、solr服务的安装 3、solrhome的目录结构 4、自定义索引库 5、将数据库数据导入索引库 6、solrj对索引库的维护 7、solr案例 1solr服务介绍 1.1什么是solr Solr is the popular, blazing-fast, open source enterprise search platform built on Apache Lucene?. Solr 是Apache下的一个顶级开源项目，采用Java开发，它是基于Lucene 的全文搜索服务。 Solr可以独立运行在Jetty、Tomcat等这些Servlet容器中。 Solr提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展，并对索引、搜索性能进行了优化。 1.2solr与Lucene区别 Lucene是一个开放源代码的全文检索引擎工具包，它不是一个完整的全文检索应用。Lucene仅提供了完整的查询引擎和索引引擎，目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者以Lucene为基础构建全文检索应用。

Solr的目标是打造一款企业级的搜索引擎系统，它是基于Lucene一个搜索引擎服务，可以独立运行，通过Solr可以非常快速的构建企业的搜索引擎，通过Solr也可以高效的完成站内搜索功能。 2solr服务安装与运行 2.1下载地址：https://www.360docs.net/doc/fe461636.html,/solr/ 2.2安装解压solr-4.10.3后的目录结构： 2.3运行执行example目录下的start.jar即可。 2.4访问 http://localhost:8983/solr/

ElasticSearch5.1 基本概念和配置详解

二、几个基本概念接近实时（NRT） Elasticsearch 是一个接近实时的搜索平台。这意味着，从索引一个文档直到这个文档能够被搜索到有一个很小的延迟（通常是1 秒）。集群（cluster）代表一个集群，集群中有多个节点（node），其中有一个为主节点，这个主节点是可以通过选举产生的，主从节点是对于集群内部来说的。es的一个概念就是去中心化，字面上理解就是无中心节点，这是对于集群外部来说的，因为从外部来看es集群，在逻辑上是个整体，你与任何一个节点的通信和与整个es集群通信是等价的。索引（index）

ElasticSearch将它的数据存储在一个或多个索引（index）中。用SQL领域的术语来类比，索引就像数据库，可以向索引写入文档或者从索引中读取文档，并通过ElasticSearch内部使用Lucene将数据写入索引或从索引中检索数据。文档（document）文档（document）是ElasticSearch中的主要实体。对所有使用ElasticSearch 的案例来说，他们最终都可以归结为对文档的搜索。文档由字段构成。映射（mapping）所有文档写进索引之前都会先进行分析，如何将输入的文本分割为词条、哪些词条又会被过滤，这种行为叫做映射（mapping）。一般由用户自己定义规则。类型（type）每个文档都有与之对应的类型（type）定义。这允许用户在一个索引中存储多种文档类型，并为不同文档提供类型提供不同的映射。分片（shards）代表索引分片，es可以把一个完整的索引分成多个分片，这样的好处是可以把一个大的索引拆分成多个，分布到不同的节点上。构成分布式搜索。分片的数量只能在索引创建前指定，并且索引创建后不能更改。副本（replicas）代表索引副本，es可以设置多个索引的副本，副本的作用一是提高系统的容错性，当个某个节点某个分片损坏或丢失时可以从副本中恢复。二是提高es的查询效率，es会自动对搜索请求进行负载均衡。数据恢复（recovery）

我终于深入参与了一个分布式系统了,好多想法不一样了!

我终于深入参与了一个分布式系统了，好多想法不一样了！原文出处：Turbo Zhang 的博客前言过去两个月深入的参与了一个分布式系统的开发，记得之前有人说过“想成为架构师之前，都是从微观架构开始的”。尽管我从没想过将来的某一天要成为一个架构师，或者领域专家，我只是想萌萌哒的编码，写着自己喜欢的Code，和一群志同道合的朋友做出大家喜欢的商品和产品。但是工作久了慢慢的搭架子的事情还是会来到你的面前，因为时间总会把一部分人慢慢推向海边，使得他们成为最早见到阳光的人。不扯淡了，为什么要说阳光呢，还是因为过去的两（三）个月可能过的太充实也太痛苦了，完成之后，曙光来临的时候整个人是会发光的哦。“深度”参与是因为我终于有机会在搭架子的过程中有了话语权和选择权，同时也会承担70%以上的编码工作。之前我的自我认知是我可能在软件方面的积累还可以，比如设计模式，架构分层，程序解耦，API入手等方面，但是总觉得我在硬件网络方面积累的太少，太薄了。比如：不同操纵系统之间的特点；

网络端口管理与分发；哪些网络协议可以帮助我们更好的完成工作，监控虚拟机的时候是在虚机上加代理好还是用协议去控制；硬件是否支持分布式，在扩展过程中对于.net C#的兼容怎么样；什么时候使用多线程，在把线程交给程序调度的时候我们怎么控制和捕捉线程的异常；日志系统对于整个分散的系统是多么的重要；何时使用关系数据库，什么时候使用Nosql；消息队列用擅长的MSMQ还是RabbitMQ. 怎样有效的和其他部门的同事沟通；用什么样的方式去有效调度不同语言开发的系统；测试用例对于大系统从零散到完整是多么的重要；系统标准，代码原则对于后期的维护余扩展是多么的重要；等；项目简介首先项目详细内容不便多说，简答的说，就是为国内某大型厂商建立一套协调其自身搭建的私有云以及其购买的公有云的一套系统。说牛X一点就是：一套混合云系统。使用Restful

ElasticSearch

ElasticSearch ES评估资料通过开发机登陆hadoop03:9200/_plugin/sql 可以访问 ES调研结果以下是我们对于ES的调研结果（调研主要是锦明完成的，我主要把各项数据总结一下）我们已经在开发机上部署了ES以及ES SQL，ES Hadoop插件，大家如果要访问ES SQL的话可以通过开发机登陆 hadoop03:9200/_plugin/sql 1. 1. 使用方式：目前在我们的环境中ES大致有下面三种使用方式可供先择： a) 调用Estate的restfule API/Java API用于做数据的增删改查。经测试这种方法效率最高 b) 布署ES-SQL插件，提供SQL的方式插入，删除，修改以及查询; c) 布置es-hadoop插件，将es与hive集成; 通过hive SQL进行数据的批量插入和查询 1. 2. 性能评估测试对象：user_basic_es2，记录数目74228947，字段数70-80

使用方式操作 API ES-SQL HIVE 批量插入7500万40mins(数据要提前准备好) 不支持90mins 批量更新7500万40mins（数据提前准备好）不支持现有配置Hive语法不支持更新删除数据1s 1s 现有配置Hive方法不支持更新单表查询-where过滤 1s 1s 60mins 单表查询-Group By 1s 1s 60mins Hive之所以查询慢是因为hive并没有用到ES的索引，查询的时候只是把数据都读了出来在map端进行过滤以及之后的操作，所以完全没法使用而ES SQL会把查询翻译程API，然后使用API发起查询下面是几段测试SQL，都在1s返回结果: a) Select count(*) from user_basic_es2 ; b) Select address_city, gender, count(*) from user_basic_es2 group by address_city, gender c) Select count(*) from user_basic_es2 where gender=’male’ and address_city=’上’ (result 17274) d) Select user_id from user_basic_es2 where gender=’male’ (result 61647932) 从上面的结果来看，基本1-2s能返回查询结果 1. 3. 各种使用方式优缺点评估优势使用方式优势劣势适用场景 API 提供所有的ES功能;最快速需要开发应用来更新及展示数据需求很灵活的情况下 ES-SQL 使用方便;将SQL解析成ES 查询，所以响应快速不支持数据的插入更新;不能与HIVE中的其他数据一起使用用于数据的查询 HIVE 可以同时访问存储在 HDFS/HBASE/ES中的数据只将ES作为简单的数据存储，并不将SQL解析成ES查询，所以速度最慢;不能分字段更新数据，一次只能更新所有字段用于将hive中的数据算好以后批量存入供后续查询 1. 4. ES占用的存储HDFS: 1.3GB ES: 42GB