尚硅谷大数据技术之ELK

合集下载

ELK到底是什么？那么多公司用！

ELK到底是什么？那么多公司⽤！Sina、饿了么、携程、华为、美团、freewheel、畅捷通、新浪微博、⼤讲台、魅族、IBM...... 这些公司都在使⽤ELK！ELK！ELK！ELK竟然重复了三遍，是个什么？⼀、ELK是什么？ELK实际上是三个⼯具的集合，Elasticsearch + Logstash + Kibana，这三个⼯具组合形成了⼀套实⽤、易⽤的监控架构，很多公司利⽤它来搭建可视化的海量⽇志分析平台。

1. ElasticSearchElasticSearch是⼀个基于Lucene的搜索服务器。

它提供了⼀个分布式多⽤户能⼒的全⽂搜索引擎，基于RESTful web接⼝。

Elasticsearch 是⽤Java开发的，并作为Apache许可条款下的开放源码发布，是当前流⾏的企业级搜索引擎。

设计⽤于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使⽤⽅便。

2. LogstashLogstash是⼀个⽤于管理⽇志和事件的⼯具，你可以⽤它去收集⽇志、转换⽇志、解析⽇志并将他们作为数据提供给其它模块调⽤，例如搜索、存储等。

3. KibanaKibana是⼀个优秀的前端⽇志展⽰框架，它可以⾮常详细的将⽇志转化为各种图表，为⽤户提供强⼤的数据可视化⽀持。

⼆、ELK有何优势？1. 强⼤的搜索功能，elasticsearch可以以分布式搜索的⽅式快速检索，⽽且⽀持DSL的语法来进⾏搜索，简单的说，就是通过类似配置的语⾔，快速筛选数据。

2. 完美的展⽰功能，可以展⽰⾮常详细的图表信息，⽽且可以定制展⽰内容，将数据可视化发挥的淋漓尽致。

3. 分布式功能，能够解决⼤型集群运维⼯作很多问题，包括监控、预警、⽇志收集解析等。

三、ELK⼀般⽤来做啥？ELK组件在海量⽇志系统的运维中，可⽤于解决：- 分布式⽇志数据集中式查询和管理- 系统监控，包含系统硬件和应⽤各个组件的监控- 故障排查- 安全信息和事件管理- 报表功能ELK组件在⼤数据运维系统中，主要可解决的问题如下：- ⽇志查询，问题排查，上线检查- 服务器监控，应⽤监控，错误报警，Bug管理- 性能分析，⽤户⾏为分析，安全漏洞分析，时间管理四、ELK好不好学？简捷⽅便，如果想快速配置体验⼀下，可以看看官⽹的Guide：另外，我们建⽴了⼀个ELK的学习交流群，感兴趣的可以搜索添加84985152，管理员邀请进群，⼀起学习！。

elk的组成

elk的组成（原创实用版）目录1.ELK 的含义2.ELK 的组成部分3.各组成部分的功能与作用4.ELK 的应用场景正文ELK（Elasticsearch、Logstash、Kibana）是一个基于开源软件的日志分析系统，广泛应用于大数据处理、实时数据分析和可视化等领域。

下面我们将详细介绍 ELK 的组成及其功能与作用。

1.ELK 的含义ELK 是一个缩写，分别代表 Elasticsearch、Logstash 和 Kibana 三款开源软件。

Elasticsearch 是一款分布式搜索引擎，能够实现对海量数据的快速搜索、分析和存储。

Logstash 是一款数据收集引擎，负责从各种数据源采集数据，并将数据进行处理后传输给 Elasticsearch。

Kibana 是一款数据可视化工具，可以方便地对 Elasticsearch 中的数据进行分析和可视化。

2.ELK 的组成部分（1）Elasticsearch：Elasticsearch 是一款高性能的分布式搜索引擎，能够实现对海量数据的实时搜索、分析和存储。

它采用倒排索引技术，能够大幅提高搜索速度。

同时，Elasticsearch 还支持多种数据类型，如文本、数字、日期等，适应各种复杂场景。

（2）Logstash：Logstash 是一款数据收集引擎，可以接收来自各种数据源的数据，如日志文件、数据库、消息队列等。

Logstash 支持多种插件，可以根据需要进行数据过滤、转换和增强。

经过处理后的数据被传输到 Elasticsearch 进行存储和分析。

（3）Kibana：Kibana 是一款数据可视化工具，可以方便地对Elasticsearch 中的数据进行分析和可视化。

通过 Kibana，用户可以轻松生成各种报表、仪表盘和图表，实时监控数据变化，发现数据中的规律和趋势。

3.各组成部分的功能与作用（1）Elasticsearch：负责存储、分析和搜索数据，提供高性能的搜索功能。

elk的工作原理

elk的工作原理Elk是一种开源的日志管理工具，由Elasticsearch、Logstash和Kibana三个组件组成。

它的工作原理可以分为以下几个步骤：1. 数据采集：Logstash作为数据采集引擎，能够从多种来源（如文件、数据库、消息队列等）收集、过滤、转换和传输数据。

用户可以通过Logstash配置输入插件来指定数据来源，如输入插件可以是Filebeat，它可以监控指定的日志文件并将日志数据传输给Logstash。

2. 数据存储：Elasticsearch是一个实时分布式搜索和分析引擎，作为Elk的核心组件，它用于接收、存储和索引采集到的日志数据。

Logstash可以将处理后的数据发送给Elasticsearch进行索引，以便后续的搜索和分析。

在Elasticsearch中，数据被分散存储在多个节点上，这样可以提高数据的可靠性和可扩展性。

3. 数据可视化：Kibana是一个用于日志数据可视化和分析的工具，它通过与Elasticsearch服务器进行通信，可以对存储在Elasticsearch中的日志数据进行查询、可视化和分析。

用户可以通过Kibana的Web界面创建仪表板、图表和可视化面板来展示日志数据的各种统计信息，并通过搜索、过滤和聚合功能来获取所需的信息。

Elk的工作原理可以理解为数据采集、数据存储和数据可视化三个主要步骤的协作。

Logstash负责从不同的数据源收集数据，并对数据进行处理和转换；Elasticsearch负责接收和存储数据，并提供强大的搜索和分析功能；Kibana负责将存储在Elasticsearch中的数据可视化展示给用户，以便用户能够更直观地理解和分析数据。

在使用Elk时，用户首先需要配置Logstash来指定数据的来源和需要进行的处理操作，如数据过滤、转换和分割等。

然后，Logstash将处理后的数据发送给Elasticsearch进行存储和索引。

最后，用户可以通过Kibana的界面进行数据的查询、可视化和分析。

elk 预警规则

elk 预警规则
ELK（Elasticsearch, Logstash, Kibana）是一个开源的日志管理平台。

在ELK中，可以通过配置预警规则，监控日志数据并在满足特定条件时触发警报。

以下是一些常用的ELK预警规则：
1. 错误日志预警：设置条件以检测错误日志的数量或关键词，并在超过特定阈值时触发警报。

例如，当错误日志数量超过100个时触发警报。

2. 性能预警：监测系统性能指标，如CPU使用率、内存使用率或网络吞吐量，并设置相应的阈值。

当系统性能超过预设阈值时触发警报。

3. 安全事件预警：通过ELK分析日志数据，检测潜在的安全事件，如异常登录、系统漏洞利用等，并在发现异常时触发警报。

4. 业务指标预警：通过监控业务相关的指标，如访问流量、订单量等，设置阈值，当指标超过或低于预设阈值时触发警报。

5. 日志异常预警：通过分析日志数据的模式和趋势，发现异常日志模式，并在出现异常时触发警报。

以上只是一些常见的ELK预警规则示例，具体的预警规则需要根据应用场景和需求进行配置和调整。

ELK提供了强大的查询和分析功能，可以根据实际情况自定义定制预警规则。

ELK是什么？

ELK是什么？
ELK是⼀套⽇志数据收集、分析、检索的解决⽅案，并不是⼀款软件，其中E代表ElasticSearch，负责⽇志的存储和检索；
L代表Logstash,负责⽇志的收集，过滤和格式化；
K代表Kibana，负责⽇志的展⽰统计和数据可视化。

ELK的特性：
多台机器的⽇志集中分析和查看LogStach
多种机器的⽇志集中分析和查看 LogStach
查询性能⾼ ES
⽀持多维度的复杂查询 ES
图形化展⽰查询结果，界⾯绚丽 Kibana
实时性好，可以做实时预警 ES
提供良好的api供第三⽅扩展 ES和Logstach都可以扩展
配合简单，容易上⼿
ELK常见应⽤场景：
1.安全领域：通过分析系统⽇志，发现共计或者⾮法访问⾏为，可以追踪定位相关安全问题
2.⽹络领域：⽇志分析和监控可以作为⽹络设备监控的⼀种补充，实时监控和预警。

3.应⽤领域：分析和展⽰应⽤运⾏时的实时情况，如业务访问量、业务访问⾼峰情况等；分析nginx⽇志得到⽹站的访问情况，如⽹站点击数、请求总数、平均每秒请求数、峰值请求数等。

可以⼤体了解系统压⼒，作为系统扩容、性能及压⼒测试时的参考
4.其他应⽤：还可以应⽤于社会⼯程学的⽤户画像；函数堆栈调⽤分析;⽹络流量分析等。

elk 使用正则表达式查询

ELK 是一个用于日志管理的开源工具组合，包括Elasticsearch、Logstash 和Kibana。

在Elasticsearch 中，你可以使用正则表达式来进行查询。

以下是一个基本示例：
```json
{
"query": {
"regexp": {
"message": "/your_regex_here/"
}
}
}
```
在上述查询中，`message` 是你要搜索的字段，`/your_regex_here/` 是你要使用的正则表达式。

请注意，Elasticsearch 中的正则表达式使用的是Java 正则表达式语法。

如果你想在Logstash 中使用正则表达式，你可以在`grok` 过滤器中使用它。

以下是一个基本示例：
```ruby
filter {
grok {
match => { "message" => "/your_regex_here/" }
}
}
```
在这个例子中，`message` 是你要搜索的字段，`/your_regex_here/` 是你要使用的正则表达式。

请注意，Logstash 中的正则表达式使用的是Grok 语法。

ELK原理详解

ELK原理详解1.ELK介绍 ELK是三个开源软件的缩写，分别为：Elasticsearch、Logstash、Kibana，后⾯还有⼀个fileBeat，它是⼀个轻量级的⽇志收集处理(Agent)，FileBeat占⽤的资源很少，适合在各个服务器上收集⽇志后传输给Logstash。

Elasticsearch是基于Lucene全⽂检索引擎框架，基于Java语⾔编写，是⼀个开源的分布式收缩引擎，提供收集、分析、存储数据三⼤功能，特点是：分布式、零配置、⾃动发现、索引⾃动分⽚，索引副本机制，restful风格接⼝，多数据源，⾃动搜索负载等。

Kibana也是开源免费的⼯具，Kibana可以给Elasticsearch和Logstash提供很好的web界⾯，可以帮助汇总、分析和搜索重要的数据⽇志。

FileBeat属于Beats，是⼀个轻量型的⽇志采集器，早期的ELK架构中使⽤的是Logstash进⾏收集、解析并且过滤⽇志，但是Logstash对CPU、内存、IO等资源的消耗过⾼，相⽐于Logstash，Beats所占⽤的CPU和内存⼏乎可以忽略不记。

⽬前Beats包括：Packagebeat(搜索⽹络流量数据)、Topbeat(搜集系统、进程和⽂件系统级别的CPU和内存使⽤情况等数据)、Filebeat(搜集⽂件数据)、Winlogbeat(搜集Windows事件⽇志数据)。

Logstash和Elasticsearch是⽤JAVA语⾔进⾏编写的，⽽Kibana使⽤的是node.js框架，在配置ELK环境时要保证系统⼜JAV JDK开发库。

2. 为什么要⽤ELK 在规模较⼤也就是⽇志量多⽽复杂的场景中，如果直接在⽇志⽂件中grep、awk获得⾃⼰想要的信息，那么效率就会很低下，⽽且也⾯临着包括⽇志量太⼤如何进⾏归档、⽂本搜索太慢、如何多维度进⾏查询等问题。

这时候需要集中化的⽇志管理，所有服务器上的⽇志搜集进⾏汇总。

elk日志收集原理

elk日志收集原理
ELK日志收集原理，是指利用 Elasticsearch、Logstash 和 Kibana 这三个组件来记录，分析和可视化系统日志的一种方式。

ELK是开源的日志收集，和分析的最佳解决方案，它是一个使用分布
式架构，可以涵盖从小型到特大型系统的范围，并且它的扩展性非常好，
可以满足传统的少量的平台到当前的日志解决方案所需要的大量的日志统计。

ELK主要是由三部分组成，Elasticsearch，Logstash和Kibana组成，它们的功能并不是互斥的，它们能够构成一个非常强大的日志收集体系。

Elasticsearch是引擎，能够将原始数据进行存储和全文，Logstash是一
个实时数据处理管道，它可以将原始数据从多个源传输到Elasticsearch，Kibana是一个用户界面，它可以帮助我们查询，可视化以及分析
logstash收集的原始数据。

ELK日志收集原理主要分为两个部分，日志收集和日志处理。

在日志
收集的过程中，Logstash首先会发现新的日志，从而收集格式化后的数据，然后将数据传输到Elasticsearch中进行索引；而在日志处理阶段，Kibana可以从Elasticsearch中获取日志，可视化，然后进行查询和分析。

通过ELK日志的收集和处理，可以方便的追踪系统中的问题，分析出
问题所在，并进行妥善解决，这也是使用ELK日志系统最为重要的原因。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第1章 Elasticsearch 概述1.1 什么是搜索？百度：我们比如说想找寻任何的信息的时候，就会上百度去搜索一下，比如说找一部自己喜欢的电影，或者说找一本喜欢的书，或者找一条感兴趣的新闻（提到搜索的第一印象）。

百度 != 搜索1）互联网的搜索：电商网站，招聘网站，新闻网站，各种app2）IT 系统的搜索：OA 软件，办公自动化软件，会议管理，日程管理，项目管理。

搜索，就是在任何场景下，找寻你想要的信息，这个时候，会输入一段你要搜索的关键字，然后就期望找到这个关键字相关的有些信息1.2 如果用数据库做搜索会怎么样？如果用数据库做搜索会怎么样？select * from products where product_name list “%牙膏%”商品id商品名称商品描述1高露洁牙膏2中华牙膏3佳洁士牙膏4其他牙膏京东商城搜索框5 ……1万条京东商城后台商品表逐条遍历1）比如说“商品描述”字段的长度，有长达数千个，甚至数万个字符，这个时候，每次都要对每条记录的所有文本进行扫描，判断包不包含我指定的这个关键词（比如说“牙膏”），效率非常低。

select * from products where product_name list “%生化机%”2）还不能将搜索词拆分开来，尽可能去搜索更多的符合你的期望的结果，比如输入“生化机”，就搜索不出来“生化危机”。

用数据库来实现搜索，是不太靠谱的。

通常来说，性能会很差的。

1千字的商品描述1千字的商品描述用数据库来实现搜索，是不太靠谱的。

通常来说，性能会很差的。

1.3 什么是全文检索和Lucene ？1）全文检索，倒排索引全文检索是指计算机索引程序通过扫描文章中的每一个词，对每一个词建立一个索引，指明该词在文章中出现的次数和位置，当用户查询时，检索程序就根据事先建立的索引进行查找，并将查找的结果反馈给用户的检索方式。

这个过程类似于通过字典中的检索字表查字的过程。

全文搜索搜索引擎数据库中的数据。

倒排索引原理简介关键词ids商品描述1生化危机电影商品描述2生化危机海报商品描述3生化危机文章商品描述4生化危机新闻生化危机电影生化危机海报生化危机文章生化危机新闻生化1,2,3,4危机1,2,3,4电影1海报2文章3新闻41 数据库里的数据2 切词3 倒排索引总结1：数据库里的数据，一共100万条，按照之前的思路，其实就要扫描100万次，而且每次扫描，都需要匹配那个文本所有的字符，确认是否包含搜索的关键词，而且还不能将搜索词拆解开来进行检索总结2：利用倒排索引，进行搜索的话，假设100万条数据，拆分出来的词语，假设有1000万个词语，那么在倒排索引中，就有1000万行，我们可能并不需要搜索1000万次，很可能，在搜索到第一次的时候，我们就可以找到这个搜索词对应的数据。

也可能滴100次，或者第1000次查找：生化机返回1,2,3,4商品2）lucene ，就是一个jar 包，里面包含了封装好的各种建立倒排索引，以及进行搜索的代码，包括各种算法。

我们就用java 开发的时候，引入lucene jar ，然后基于lucene 的api 进行去进行开发就可以了。

1.4 什么是Elasticsearch ？Elasticsearch ，基于Lucene ，隐藏复杂性，提供简单易用的RestfulAPI 接口、JavaAPI 接口（还有其他语言的API 接口）。

关于Elasticsearch 的一个传说，有一个程序员失业了，陪着自己老婆去英国伦敦学习厨师课程。

程序员在失业期间想给老婆写一个菜谱搜索引擎，觉得Lucene 实在太复杂了，就开发了一个封装了Lucene 的开源项目：Compass 。

后来程序员找到了工作，是做分布式的高性能项目的，觉得Compass 不够，就写了Elasticsearch ，让Lucene 变成分布式的系统。

Elasticsearch 是一个实时分布式搜索和分析引擎。

它用于全文搜索、结构化搜索、分析。

全文检索：将非结构化数据中的一部分信息提取出来,重新组织,使其变得有一定结构,然后对此有一定结构的数据进行搜索,从而达到搜索相对较快的目的。

结构化检索：我想搜索商品分类为日化用品的商品都有哪些，select * from products where category_id='日化用品'数据分析：电商网站，最近7天牙膏这种商品销量排名前10的商家有哪些；新闻网站，最近1个月访问量排名前3的新闻版块是哪些1.5 Elasticsearch 的适用场景1）维基百科，类似百度百科，牙膏，牙膏的维基百科，全文检索，高亮，搜索推荐。

2）The Guardian（国外新闻网站），类似搜狐新闻，用户行为日志（点击，浏览，收藏，评论）+ 社交网络数据（对某某新闻的相关看法），数据分析，给到每篇新闻文章的作者，让他知道他的文章的公众反馈（好，坏，热门，垃圾，鄙视，崇拜）。

3）Stack Overflow（国外的程序异常讨论论坛），IT问题，程序的报错，提交上去，有人会跟你讨论和回答，全文检索，搜索相关问题和答案，程序报错了，就会将报错信息粘贴到里面去，搜索有没有对应的答案。

4）GitHub（开源代码管理），搜索上千亿行代码。

5）国内：站内搜索（电商，招聘，门户，等等），IT系统搜索（OA，CRM，ERP，等等），数据分析（ES热门的一个使用场景）。

1.6 Elasticsearch的特点1）可以作为一个大型分布式集群（数百台服务器）技术，处理PB级数据，服务大公司；也可以运行在单机上，服务小公司2）Elasticsearch不是什么新技术，主要是将全文检索、数据分析以及分布式技术，合并在了一起，才形成了独一无二的ES；lucene（全文检索），商用的数据分析软件（也是有的），分布式数据库（mycat）3）对用户而言，是开箱即用的，非常简单，作为中小型的应用，直接3分钟部署一下ES，就可以作为生产环境的系统来使用了，数据量不大，操作不是太复杂4）数据库的功能面对很多领域是不够用的（事务，还有各种联机事务型的操作）；特殊的功能，比如全文检索，同义词处理，相关度排名，复杂数据分析，海量数据的近实时处理；Elasticsearch作为传统数据库的一个补充，提供了数据库所不能提供的很多功能1.7 Elasticsearch的核心概念1.7.1 近实时近实时，两个意思，从写入数据到数据可以被搜索到有一个小延迟（大概1秒）；基于es执行搜索和分析可以达到秒级。

1.7.2 Cluster（集群）集群包含多个节点，每个节点属于哪个集群是通过一个配置（集群名称，默认是elasticsearch）来决定的，对于中小型应用来说，刚开始一个集群就一个节点很正常1.7.3 Node（节点）集群中的一个节点，节点也有一个名称（默认是随机分配的），节点名称很重要（在执行运维管理操作的时候），默认节点会去加入一个名称为“elasticsearch”的集群，如果直接启动一堆节点，那么它们会自动组成一个elasticsearch集群，当然一个节点也可以组成一个elasticsearch集群。

1.7.4 Index（索引-数据库）索引包含一堆有相似结构的文档数据，比如可以有一个客户索引，商品分类索引，订单索引，索引有一个名称。

一个index包含很多document，一个index就代表了一类类似的或者相同的document。

比如说建立一个product index，商品索引，里面可能就存放了所有的商品数据，所有的商品document。

1.7.5 Type（类型-表）6.0版本之前每个索引里都可以有多个type,6.0版本之后每个索引里面只能有一个Type，一般使用_doc代替了。

商品index，里面存放了所有的商品数据，商品document商品type：product_id，product_name，product_desc，category_id，category_name，service_period每一个type里面，都会包含一堆document{"product_id": "1","product_name": "长虹电视机","product_desc": "4k高清","category_id": "3","category_name": "电器","service_period": "1年"}{"product_id": "2","product_name": "基围虾","product_desc": "纯天然，冰岛产","category_id": "4","category_name": "生鲜","eat_period": "7天"}1.7.6 Document（文档-行）文档是es中的最小数据单元，一个document可以是一条客户数据，一条商品分类数据，一条订单数据，通常用JSON数据结构表示，每个index下的type中，都可以去存储多个document。

1.7.7 Field（字段-列）Field是Elasticsearch的最小单位。

一个document里面有多个field，每个field就是一个数据字段。

product document{"product_id": "1","product_name": "高露洁牙膏","product_desc": "高效美白","category_id": "2","category_name": "日化用品"}1.7.8 Mapping（映射-约束）数据如何存放到索引对象上，需要有一个映射配置，包括：数据类型、是否存储、是否分词等。

Mapping用来定义Document中每个字段的类型，即所使用的分词器、是否索引等属性，非常关键等。

创建Mapping 的代码示例如下：PUT student{"mappings": {"_doc":{"properties":{"stu_id":{"type":"keyword","store":"true"},"name":{"type":"keyword"},"birth":{"type":"date" （yyyy-MM-dd）}}}}}1.7.9 ElasticSearch与数据库的类比1.7.10 ElasticSearch 存入数据和搜索数据机制Elasticsearch 存入数据和搜索数据机制Article 文章（Document 对象）{id:1title:学习Elasticsearchcontent:Elasticsearch 是一个非常不错的全文检索的搜索服务器}Mappingindex : 'blog',type : 'article',body : {article: {properties: {id: {type: 'string',analyzer: 'ik',store: ‘yes',创建索引的对象blogArticle 类型（文章）Comment 类型（评论）索引区域数据区域学习12Elasticsearch1非常1不错1全文1检索1搜索1 2服务器1 2Docid=1映射：字段类型、是否存储、是否分词Article 文章（Document 对象）{id:2title:学习content:搜索服务器}Docid=2待存储的内容1）索引对象（blog ）：存储数据的表结构，任何搜索数据，存放在索引对象上。