Elasticsearch权威指南(中文版)

合集下载

ElasticSearch使用手册

ElasticSearch使用手册一、ElasticSearch简介1.1.什么是ElasticSearchElasticSearch（以下均检查ES）是Compass（基于Lucene开源项目）作者Shay Banon在2010年发布的高性能、实时、分布式的开源搜索引擎。

后来成立了ElasticSearch公司，负责ES相关产品的开发及商用服务支持，ES依旧采用免费开源模式，但部分插件采用商用授权模式，例如Marvel插件（负责ES的监控管理）、Shield插件（提供ES的授权控制）。

1.2.ElasticSearch的基础概念⏹Collection在SolrCloud集群中逻辑意义上的完整的索引。

它常常被划分为一个或多个Shard，它们使用相同的Config Set。

如果Shard数超过一个，它就是分布式索引，SolrCloud让你通过Collection名称引用它，而不需要关心分布式检索时需要使用的和Shard相关参数。

⏹Config SetSolr Core提供服务必须的一组配置文件。

每个config set有一个名字。

最小需要包括solrconfig.xml (SolrConfigXml)和schema.xml (SchemaXml)，除此之外，依据这两个文件的配置内容，可能还需要包含其它文件。

它存储在Zookeeper中。

Config sets可以重新上传或者使用upconfig命令更新，使用Solr的启动参数bootstrap_confdir指定可以初始化或更新它。

⏹CoreCore也就是Solr Core，一个Solr中包含一个或者多个Solr Core，每个Solr Core可以独立提供索引和查询功能，每个Solr Core对应一个索引或者Collection的Shard，Solr Core的提出是为了增加管理灵活性和共用资源。

在SolrCloud中有个不同点是它使用的配置是在Zookeeper中的，传统的Solr core的配置文件是在磁盘上的配置目录中。

elasticsearch 使用手册

elasticsearch 使用手册Elasticsearch是一个开源的分布式搜索引擎，它基于Apache Lucene构建，并提供了一套RESTful的API接口。

它使用JSON数据格式进行交互，并具备强大的全文搜索和实时分析能力。

本文将介绍Elasticsearch的使用手册，为初学者提供基本的入门指导。

一、安装和配置：1.下载Elasticsearch：首先，我们需要从Elasticsearch的官方网站上下载二进制包，并根据操作系统的不同选择适合的版本。

2.解压和配置：将下载的压缩包解压到本地文件夹，并进入该文件夹。

打开config文件夹下的elasticsearch.yml文件，根据需求修改配置参数，如监听地址、集群名称等。

3.启动Elasticsearch：在终端或命令行中进入Elasticsearch的根目录，执行bin/elasticsearch命令即可启动Elasticsearch。

二、索引和文档：1.创建索引：在Elasticsearch中，索引类似于数据库中的表，它用于存储和组织文档。

我们可以使用PUT请求创建一个新的索引。

2.添加文档：在索引中添加文档是Elasticsearch中的核心操作。

使用POST请求在特定索引下添加文档，文档使用JSON格式表示。

3.搜索文档：Elasticsearch提供了丰富的搜索功能，我们可以使用查询语句对索引中的文档进行搜索。

查询语句可以是简单的关键字搜索，也可以是复杂的布尔查询。

三、Mappings和分析器：1. Mappings：Mappings是指定索引中每个字段的数据类型和属性的过程。

它类似于关系型数据库中的表结构定义。

Mappings还可以指定字段是否分词、是否存储等。

2.分析器：分析器用于对文本进行分词和处理。

Elasticsearch默认使用标准分析器，它将文本按照空格进行分词。

我们可以根据需求自定义分析器，如中文分词、英文分词、停用词过滤等。

elasticsearch中文翻译

elasticsearch中文翻译Elasticsearch（中文译为“弹性搜索”）是一个开源的分布式搜索和分析引擎，用于快速搜索、分析和存储大规模的数据。

它是基于Apache Lucene构建的，提供了一个简单易用的RESTful API接口，支持实时搜索、文本分析、聚合分析、地理位置搜索等功能。

以下是一些常见的Elasticsearch用法和中英文对照例句：1. 创建索引（Create Index）：- 中文：创建索引（创建一个新的索引）- 英文：Create an index (Create a new index)2. 添加文档（Index Document）：- 中文：添加文档到索引中（将一篇文档添加到索引中）- 英文：Index a document (Add a document to the index)3. 搜索文档（Search Document）：- 中文：搜索匹配的文档（从索引中搜索匹配指定条件的文档）- 英文：Search for documents (Search for documents that match specified criteria from the index)4. 聚合分析（Aggregation）：- 中文：执行聚合操作（对搜索结果进行聚合分析，如计算平均值、最大值、最小值等）- 英文：Perform aggregation (Perform aggregation analysis on search results, such as calculating average, maximum, minimum, etc.)5. 过滤器（Filter）：- 中文：使用过滤器限制搜索结果（通过添加过滤器条件对搜索结果进行筛选）- 英文：Filter search results (Filter search results by adding filter criteria)6. 排序（Sorting）：- 中文：根据指定字段对搜索结果进行排序（按照指定字段的升序或降序排序搜索结果）- 英文：Sort search results based on specified field (Sort search results in ascending or descending order based on specified field)7. 分页（Pagination）：- 中文：对搜索结果进行分页（设置每页显示的文档数量，获取指定页数的搜索结果）- 英文：Paginate search results (Set the number of documents displayed per page and retrieve search results for specified page number)8. 地理位置搜索（Geo-location Search）：- 中文：根据地理位置信息搜索附近的文档（通过经纬度坐标搜索附近的文档）- 英文：Search for documents near a specific location (Search for documents near a specific location using latitude and longitude coordinates)9. 更新文档（Update Document）：- 中文：更新现有文档（更新索引中已存在的文档）- 英文：Update an existing document (Update a document that already exists in the index)10. 删除文档（Delete Document）：- 中文：从索引中删除文档（从索引中删除指定的文档）- 英文：Delete a document from the index (Delete a specified document from the index)这些例句涵盖了一些常见的Elasticsearch用法，可以帮助您更好地理解和使用Elasticsearch。

es elasticsearch 中文分词

文章标题：深度解析：es elasticsearch 中文分词技术及应用一、es elasticsearch 中文分词技术的基本概念es elasticsearch是一个开源的全文搜索和分析引擎，它提供了强大的分布式查询和分析功能，广泛应用于企业级搜索、日志分析、数据可视化等领域。

作为一个全文搜索引擎，es elasticsearch的中文分词技术至关重要，它能够有效地实现中文文本的分词、索引和查询。

二、中文分词技术的发展历程1. 传统的中文分词方法传统的中文分词方法主要是基于词典的匹配，其中包括正向最大匹配、逆向最大匹配和双向最大匹配等算法。

这些方法虽然简单直接，但在处理歧义和未登录词方面存在一定的局限性。

2. 机器学习与深度学习的中文分词方法随着机器学习和深度学习的发展，基于统计模型和神经网络的中文分词方法逐渐兴起。

这些方法通过大规模语料的学习，能够更好地处理歧义和未登录词，提高了中文分词的准确性和鲁棒性。

三、es elasticsearch 中文分词技术的应用场景1. 企业级搜索引擎es elasticsearch作为企业级搜索引擎，能够快速高效地处理海量的中文文本数据，并提供准确的搜索结果。

其中的中文分词技术是其搜索功能能够适应中文语境的重要保证。

2. 日志分析与监控在日志分析和监控领域，es elasticsearch可以实时地索引和分析大量的日志数据，帮助用户快速定位和解决问题。

其中的中文分词技术能够有效地处理中文日志信息，为用户提供更直观、更全面的可视化分析结果。

四、对es elasticsearch 中文分词技术的个人观点和理解es elasticsearch中文分词技术的不断发展和应用，为中文搜索和分析领域带来了新的机遇和挑战。

作为一名文章写手，在深入研究和撰写关于es elasticsearch中文分词技术的过程中，我深刻理解了中文分词在全文搜索和分析领域的重要性和价值所在。

ElasticSearch详细介绍与使用指南

ElasticSearch详细介绍与使用指南ElasticSearch是一个开源的、基于Lucene的全文搜索引擎。

它使用Java编写，以分布式搜索和分析引擎为目标，可用于搜索各种类型的文档。

ElasticSearch以其快速、高性能的搜索能力和易于扩展的特性而获得了广泛的应用。

一、ElasticSearch的特点1.分布式的架构模式ElasticSearch具有分布式架构的特性，将数据分布在多个节点上。

每个节点都可以同时扮演多个角色，如主节点、数据节点、负载均衡节点等等。

这种系统架构可以让数据在不同的节点上分布存储，在存储数据时进行副本备份、故障恢复和故障转移等操作，以确保数据的高可用性和容错性.2.全文、实时搜索ElasticSearch不仅支持简单关键字和短语查询，同时还支持复杂的全文检索，如匹配模糊搜索、通配符匹配搜索等。

ElasticSearch不仅可以快速地搜索现有索引，还可以实时更新索引。

例如，如果一个文档被添加或修改，ElasticSearch会根据需要更新索引以使其可用。

3.支持大规模数据的处理和分析ElasticSearch可以处理大规模数据和进行复杂的查询分析，它提供了大量的查询和聚合语句。

聚合语句可以帮助用户根据各种维度来汇总结果，同时还提供了多种聚合方式，如统计、平均、最小值、最大值等等，让用户方便地分析和了解数据。

4.可扩展的架构设计ElasticSearch是基于可扩展的架构设计，提供了多种扩展方式和协议，可以与多种数据源进行协作。

例如，ElasticSearch可以与Hadoop、Logstash、Kibana等开源框架进行集成，以协同处理海量数据。

二、ElasticSearch的基础概念1.索引（Index）ElasticSearch的数据存储单元是索引，一个索引包含了多个文档。

索引类似于关系型数据库中的表，索引名称必须全部小写，不能以点和短划线开头，不能包含逗号。

elasticsearch使用手册

【elasticsearch使用手册】一、引言在当今信息爆炸的时代，我们面对的数据越来越庞大，各种数据存储和检索的需求也随之增加。

而Elasticsearch作为一种开源的分布式搜索引擎，具有强大的全文检索能力和高效的数据处理能力，成为了许多企业和数据科学家的首选。

本文将以Elasticsearch使用手册为主题，深入探讨其功能和操作，帮助读者更好地理解和运用该工具。

二、Elasticsearch概述Elasticsearch是一个基于Apache Lucene的开源搜索引擎，它提供了一个分布式、多用户的全文搜索引擎。

作为实时分析的理想选择，Elasticsearch可以用于各种用例中，例如日志聚合，监控，搜索，推荐等。

它具有高可用性、可扩展性和易用性的特点，使得用户可以方便地进行数据存储、搜索和分析。

三、安装和配置1. 环境准备：在安装Elasticsearch之前，需要确保Java环境已经安装并配置好。

2. 下载安装包：从官方全球信息湾下载最新版本的Elasticsearch安装包，并解压至指定目录。

3. 配置文件：修改config目录下的elasticsearch.yml文件，设置集群名称、节点名称、网络绑定位置区域等参数。

4. 启动Elasticsearch：运行bin目录下的elasticsearch脚本来启动Elasticsearch服务。

四、核心概念1. 索引：Elasticsearch中的索引类似于关系型数据库中的数据库，它是文档的集合。

2. 类型：每个索引可以包含一个或多个类型，类型相当于表的概念。

3. 文档：文档是索引中的最小数据单元，它是一个JSON格式的数据。

4. 分片和副本：Elasticsearch将索引分成多个分片，每个分片都是一个独立的索引，同时还可以创建多个分片的副本以提高容错性。

五、数据操作1. 索引数据：通过HTTP请求向Elasticsearch服务器发送文档数据，即可将文档数据索引到指定的索引中。

elasticsearch-guide-chinese elasticsearch中文指南

Table of Contents1. 开发指南i. 开始i. 基本概念ii. 安装iii. 操作集群iv. 修改数据v. 操作数据ii. 文档APIi. 索引APIiii. 搜索APIi. 搜索ii. URI搜索iii. 请求体(request body)搜索iv. 搜索模板v. 搜索分片APIvi. 聚合(aggregations)vii. facetsviii. 启发者(suggesters)ix. 多搜索APIx. 计数APIxi. 搜索存在(search exist)APIxii. 验证APIxiii. 解释APIxiv. 过滤器(percolator)xv. more like this apiiv. java APIi. 客户端ii. 索引APIiii. 获取APIiv. 删除APIv. 更新APIvi. bulk APIvii. 查询APIviii. 计数APIix. 基于查询的删除APIx. facets2. 例子3. es vs solr4. elasticsearch river jdbcelasticsearch-guide开发指南开始基本概念安装操作集群修改数据操作数据文档API索引API搜索API搜索URI搜索请求体(request body)搜索搜索模板搜索分片API聚合(aggregations)facets启发者(suggesters)多搜索API计数API搜索存在(search exist)API验证API解释API过滤器(percolator)more like this apijava API客户端索引API获取API删除API更新APIbulk API查询API计数API基于查询的删除APIfacets例子es vs solrelasticsearch river jdbcElasticsearch是一个高可扩展的、开源的全文本搜索和分析工具。

它允许你以近实时的方式快速存储、搜索、分析大容量的数据。

elasticsearch 聚合数组类型

Elasticsearch是一个基于Lucene的分布式开源搜索引擎，具有实时分析功能。

在Elasticsearch中，聚合（aggregation）是一种非常强大的功能，用于对数据进行分析和统计。

本文将重点讨论Elasticsearch中对数组类型进行聚合的方法和实践。

1. 背景介绍在实际应用中，我们经常会遇到对数组类型的数据进行分析和聚合的需求。

在电商全球信息湾中，每个商品可能有多个标签，我们希望对这些标签进行统计，找出最受欢迎的标签；再在社交网络中，每个用户可能有多个兴趣爱好，我们希望对用户的兴趣爱好进行分析，找出最热门的兴趣爱好。

2. Elasticsearch中的数组类型在Elasticsearch中，数组类型可以通过nested类型或者object类型来表示。

在这两种表示方式下，我们都可以对数组进行聚合操作。

nested类型适合于每个元素都是独立的情况，而object类型适合于数组中的元素之间有关联的情况。

3. 聚合方法对于数组类型的数据进行聚合，我们可以使用Elasticsearch提供的各种聚合操作，比如terms、stats、max、min、avg等。

在使用这些聚合操作时，我们需要注意对nested类型和object类型的处理方式可能有所不同，需要根据实际情况选择合适的方式。

4. 示例假设我们有一个索引，其中存储了商品信息，每个商品有一个tags字段表示商品的标签，tags字段是一个数组类型。

我们希望对这些标签进行聚合，找出最受欢迎的标签。

我们需要使用nested类型或者object类型来表示tags字段，然后使用terms聚合来对tags进行统计，找出最受欢迎的标签。

```json{"aggs": {"popular_tags": {"nested": {"path": "tags"},"aggs": {"tag_terms": {"terms": {"field": "tags.keyword"}}}}}```通过上面的示例，我们可以看到如何使用nested类型和terms聚合来对数组类型的数据进行聚合分析。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Elasticsearch 权威指南（中文版）1、入门Elasticsearch是一个实时分布式搜索和分析引擎。

它让你以前所未有的速度处理大数据成为可能。

它用于全文搜索、结构化搜索、分析以及将这三者混合使用：维基百科使用Elasticsearch提供全文搜索并高亮关键字，以及输入实时搜索(search-as-you-type)和搜索纠错(did-you-mean)等搜索建议功能。

英国卫报使用Elasticsearch结合用户日志和社交网络数据提供给他们的编辑以实时的反馈，以便及时了解公众对新发表的文章的回应。

StackOverflow结合全文搜索与地理位置查询，以及more-like-this功能来找到相关的问题和答案。

Github使用Elasticsearch检索1300亿行的代码。

但是Elasticsearch不仅用于大型企业，它还让像DataDog以及Klout这样的创业公司将最初的想法变成可扩展的解决方案。

Elasticsearch可以在你的笔记本上运行，也可以在数以百计的服务器上处理PB级别的数据。

Elasticsearch所涉及到的每一项技术都不是创新或者革命性的，全文搜索，分析系统以及分布式数据库这些早就已经存在了。

它的革命性在于将这些独立且有用的技术整合成一个一体化的、实时的应用。

它对新用户的门槛很低，当然它也会跟上你技能和需求增长的步伐。

如果你打算看这本书，说明你已经有数据了，但光有数据是不够的，除非你能对这些数据做些什么事情。

很不幸，现在大部分数据库在提取可用知识方面显得异常无能。

的确，它们能够通过时间戳或者精确匹配做过滤，但是它们能够进行全文搜索，处理同义词和根据相关性给文档打分吗？它们能根据同一份数据生成分析和聚合的结果吗？最重要的是，它们在没有大量工作进程（线程）的情况下能做到对数据的实时处理吗？这就是Elasticsearch存在的理由：Elasticsearch鼓励你浏览并利用你的数据，而不是让它烂在数据库里，因为在数据库里实在太难查询了。

Elasticsearch是你新认识的最好的朋友。

1.1、是什么为了搜索，你懂的Elasticsearch是一个基于Apache Lucene(TM)的开源搜索引擎。

无论在开源还是专有领域，Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。

但是，Lucene只是一个库。

想要使用它，你必须使用Java来作为开发语言并将其直接集成到你的应用中，更糟糕的是，Lucene非常复杂，你需要深入了解检索的相关知识来理解它是如何工作的。

Elasticsearch也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能，但是它的目的是通过简单的RESTful API来隐藏Lucene的复杂性，从而让全文搜索变得简单。

不过，Elasticsearch不仅仅是Lucene和全文搜索，我们还能这样去描述它：•分布式的实时文件存储，每个字段都被索引并可被搜索•分布式的实时分析搜索引擎•可以扩展到上百台服务器，处理PB级结构化或非结构化数据而且，所有的这些功能被集成到一个服务里面，你的应用可以通过简单的RESTful API、各种语言的客户端甚至命令行与之交互。

上手Elasticsearch非常容易。

它提供了许多合理的缺省值，并对初学者隐藏了复杂的搜索引擎理论。

它开箱即用（安装即可使用），只需很少的学习既可在生产环境中使用。

Elasticsearch在Apache 2 license下许可使用，可以免费下载、使用和修改。

随着你对Elasticsearch的理解加深，你可以根据不同的问题领域定制Elasticsearch的高级特性，这一切都是可配置的，并且配置非常灵活。

模糊的历史多年前，一个叫做Shay Banon的刚结婚不久的失业开发者，由于妻子要去伦敦学习厨师，他便跟着也去了。

在他找工作的过程中，为了给妻子构建一个食谱的搜索引擎，他开始构建一个早期版本的Lucene。

直接基于Lucene工作会比较困难，所以Shay开始抽象Lucene代码以便Java程序员可以在应用中添加搜索功能。

他发布了他的第一个开源项目，叫做“Compass”。

后来Shay找到一份工作，这份工作处在高性能和内存数据网格的分布式环境中，因此高性能的、实时的、分布式的搜索引擎也是理所当然需要的。

然后他决定重写Compass库使其成为一个独立的服务叫做Elasticsearch。

第一个公开版本出现在2010年2月，在那之后Elasticsearch已经成为Github上最受欢迎的项目之一，代码贡献者超过300人。

一家主营Elasticsearch的公司就此成立，他们一边提供商业支持一边开发新功能，不过Elasticsearch将永远开源且对所有人可用。

+Shay的妻子依旧等待着她的食谱搜索……1.2、安装安装Elasticsearch理解Elasticsearch最好的方式是去运行它，让我们开始吧！安装Elasticsearch唯一的要求是安装官方新版的Java，地址：你可以从/download下载最新版本的Elasticsearch。

curl -L -O /PATH/TO/VERSION.zip <1>unzip elasticsearch-$VERSION.zip cd elasticsearch-$VERSION1.从/download获得最新可用的版本号并填入URL中提示：在生产环境安装时，除了以上方法，你还可以使用Debian或者RPM安装包，地址在这里：downloads page，或者也可以使用官方提供的Puppet module或者Chef cookbook。

安装MarvelMarvel是Elasticsearch的管理和监控工具，在开发环境下免费使用。

它包含了一个叫做Sense的交互式控制台，使用户方便的通过浏览器直接与Elasticsearch进行交互。

Elasticsearch线上文档中的很多示例代码都附带一个View in Sense的链接。

点击进去，就会在Sense控制台打开相应的实例。

安装Marvel不是必须的，但是它可以通过在你本地Elasticsearch集群中运行示例代码而增加与此书的互动性。

Marvel是一个插件，可在Elasticsearch目录中运行以下命令来下载和安装：./bin/plugin -i elasticsearch/marvel/latest你可能想要禁用监控，你可以通过以下命令关闭Marvel：echo'marvel.agent.enabled: false' >> ./config/elasticsearch.yml运行ElasticsearchElasticsearch已经准备就绪，执行以下命令可在前台启动：./bin/elasticsearch如果想在后台以守护进程模式运行，添加-d参数。

打开另一个终端进行测试：curl 'http://localhost:9200/?pretty'你能看到以下返回信息：{"status": 200,"name": "Shrunken Bones","version": {"number": "1.4.0","lucene_version": "4.10"},"tagline": "You Know, for Search"}这说明你的ELasticsearch集群已经启动并且正常运行，接下来我们可以开始各种实验了。

集群和节点节点(node)是一个运行着的Elasticsearch实例。

集群(cluster)是一组具有相同的节点集合，他们协同工作，共享数据并提供故障转移和扩展功能，当然一个节点也可以组成一个集群。

你最好找一个合适的名字来替代的默认值，比如你自己的名字，这样可以防止一个新启动的节点加入到相同网络中的另一个同名的集群中。

你可以通过修改config/目录下的elasticsearch.yml文件，然后重启ELasticsearch来做到这一点。

当Elasticsearch在前台运行，可以使用Ctrl-C快捷键终止，或者你可以调用shutdown API来关闭：curl -XPOST 'http://localhost:9200/_shutdown'查看Marvel和Sense如果你安装了Marvel（作为管理和监控的工具），就可以在浏览器里通过以下地址访问它：http://localhost:9200/_plugin/marvel/你可以在Marvel中通过点击dashboards，在下拉菜单中访问Sense开发者控制台，或者直接访问以下地址：http://localhost:9200/_plugin/marvel/sense/1.3.API与Elasticsearch交互如何与Elasticsearch交互取决于你是否使用Java。

Java APIElasticsearch为Java用户提供了两种内置客户端：节点客户端(node client)：节点客户端以无数据节点(none data node)身份加入集群，换言之，它自己不存储任何数据，但是它知道数据在集群中的具体位置，并且能够直接转发请求到对应的节点上。

传输客户端(Transport client)：这个更轻量的传输客户端能够发送请求到远程集群。

它自己不加入集群，只是简单转发请求给集群中的节点。

两个Java客户端都通过9300端口与集群交互，使用Elasticsearch传输协议(Elasticsearch Transport Protocol)。

集群中的节点之间也通过9300端口进行通信。

如果此端口未开放，你的节点将不能组成集群。

TIPJava客户端所在的Elasticsearch版本必须与集群中其他节点一致，否则，它们可能互相无法识别。

关于Java API的更多信息请查看相关章节：Java API基于HTTP协议，以JSON为数据交互格式的RESTful API 其他所有程序语言都可以使用RESTful API，通过9200端口的与Elasticsearch进行通信，你可以使用你喜欢的WEB客户端，事实上，如你所见，你甚至可以通过curl命令与Elasticsearch通信。

NOTEElasticsearch官方提供了多种程序语言的客户端——Groovy，Javascript，.NET，PHP，Perl，Python，以及Ruby——还有很多由社区提供的客户端和插件，所有这些可以在文档中找到。