分布式文件系统和企业级应用——ELK企业级日志分析系统 _文件系统

古人学问无遗力，少壮工夫老始成。这篇文章主要讲述分布式文件系统和企业级应用——ELK企业级日志分析系统相关的知识，希望能为你提供帮助。
ELK组件 ELK简介ELK平台是一套完整的日志集中处理解决方案，将ElasticSearch、Logstash和Kiabana三个开源工具配合使用，完成更强大的用户对日志的查询、排序、统计需求。
1.ElasticSearch（简称ES）1）是基于Lucene（一个全文检索引擎的架构）开发的分布式存储检索引擎，用来存储各类日志
2）Elasticsearch是用java开发的，可通过RESTful Web接口，让用户可以通过浏览器与Elasticsearch通信
3）Elasticsearch是个实时的，分布式的可扩展搜索和分析引擎，优点是能对大容量的数据进行接近实时的存储、搜索和分析操作
4）Elasticsearch可以划分为三种：主节点、数据节点和客户端节点

1.master主节点： elasticsearch.yml: node.master:true node.data:false 主要功能：维护元数据，管理集群节点状态；不负责数据写入和查询配置要点：内存可以相对小一些，但是机器一定要稳定，最好是独占的机器 2.data数据节点 elasticsearch.yml: node.master:false node.data:true 主要功能：负责数据的写入与查询，压力大配置要点：大内存，最好是独占的机器 3.client客户端节点 elasticsearch.yml: node.master:true node.data:true 主要功能：综合上述三个节点的功能。配置要点：大内存，最好是独占的机器。特别说明：不建议这种配置，节点容易挂掉 4.一般配置主节点3台服务器，数据节点与客户端节点配置比例一般在3:1左右，根据实际情况调节

2.KiabanaKiabana通常与 Elasticsearch一起部署，Kibana是Elasticsearch的一个功能强大的数据可视化Dashboard，Kibana提供图形化的web界面来浏览 Elasticsearch日志数据，可以用来汇总、分析和搜索重要数据。
3.Logstash作为数据收集引擎。它支持动态的从各种数据源搜集数据，并对数据进行过滤、分析、丰富、统一格式等操作，然后存储到用户指定的位置,一般会发送给 Elasticsearch。
Logstash 由JRuby 语言编写，运行在 Java 虚拟机（JVM）上，是一款强大的数据处理工具，可以实现数据传输、格式处理、格式化输出。Logstash 具有强大的插件功能，常用于日志处理。
4.Filebeat：轻量级的开源日志文件数据搜集器。通常在需要采集数据的客户端安装 Filebeat，并指定目录与日志格式，Filebeat 就能快速收集数据，并发送给 logstash 进行解析，或是直接发给 Elasticsearch 存储，性能上相比运行于 JVM 上的 logstash 优势明显，是对它的替代。
总结：

Logstash负责数据的收集，对数据进行过滤、分析等操作，然后存储到指定的位置,发送给ES；
ES是分布式存储检索引擎，用来存储各类日志，可以让用户可以通过浏览器与 ES通信；
Kiabana为 Logstash 和 ES 提供图形化的日志分析 Web 界面展示，可以汇总、分析和搜索重要数据日志。

filebeat 结合logstash带来好处1）通过Logstash 具有基于磁盘的自适应缓冲系统，该系统将吸收传入的吞吐量，从而减轻Elasticsearch 持续写入数据的压力
2）从其他数据源（例如数据库，s3对象存储或消息传递队列）中提取
3）将数据发送到多个目的地，例如s3，HDFS (Hadoop分布式文件系统）或写入文件
4）使用条件数据流逻辑组成更复杂的处理管道
缓存/消息队列(redis、kafka、RabbitNg等):
可以对高并发日志数据进行流量削峰和缓冲，这样的缓冲可以一定程度的保护数据不去失，还可以对整个架构进行应用解耦。
Fluentd:
1）是一个流行的开源数据收集器。由于 logstash太重量级的缺点，Logstash 性能低、资源消耗比较多等问题，随后就有Fluentd 的出现。相比较logstash，Fluentd更易用、资源消耗更少、性能更高，在数据处理上更高效可靠，受到企业欢迎，成为logstash 的一种替代方案，常应用于EFK架构当中。在Kubernetes集群中也常使用BFK作为日志数据收集的方案。
2）在Kubernetes 集群中一般是通过DaemonSet 来运行 Fluentd，以便它在每个Kubernetes 工作节点上都可以运行一个 Pod。它通过获取容器日志文件、过滤和转换日志数据，然后将数据传递到Elasticsearch集群，在该集群中对其进行索引和存储。
使用ELK的原因

日志主要包括系统日志，应用程序日志和安全日志。系统运维和开发人员可以通过日志了解服务器软硬件信息、检查配置过程中的错误及。错误发生的原因。经常分析日志可以了解服务器的负荷，性能安全性，从而及时采取措施纠正错误
往往单台机器的日志我们使用grep、awk等工具就能基本实现简单析，但是当日志被分散的储存不同的设备上。如果你管理数十上百台服务器，你还在使用依次登录每台机器的传统方法查阅日志。这样感觉很繁琐和效率低下
当务之急我们使用集中化的日志管理，例如∶开源的syslog，将所有服务器上的日志收集汇总。集中化管理日志后，日志的统计和检索又成为一件比较麻烦的事情，一般我们使用grep、awk和wc等Linux命令能实现检索和统计，但是对于要求更高的查询、排序和统计等要求和庞大的机器数量依然使用这样的方法难免有点力不从心
一般大型系统是一个分布式部署的架构，不同的服务模块部署在不同的服务器上，问题出现时，大部分情况需要根据问题暴露的关键信息，定位到具体的服务器和服务模块，构建一套集中式日志系统，可以提高定位问题的效率

完整日志系统基本特征

收集∶能够采集多种来源的日志数据
传输∶能够稳定的把日志数据解析过滤并传输到存储系统
存储∶存储日志数据
分析∶支持UI分析
警告∶能够提供错误报告，监控机制

ELK的工作原理

在所有需要收集日志的服务器上部署Logstash; 或者先将日志进行集中化管理在日志服务器上，在日志服务器上部署Loqstash
Logstash收集日志，将日志格式化并输出到Elasticsearch群集中
Elasticsearch对格式化后的数据进行索引和存储
Kibana从ES群集中查询数据生成图表，并进行前端数据的展示

总结:
logstash作为日志搜集器，从数据源采集数据，并对数据进行过滤，格式化处理，然后交由Elasticsearch存储，kibana.对日志进行可视化处理。
部署ELK日志分析系统

文章图片

主机	ip	安装包
node1 2核4G	192.168.163.11	Elasticsearch、kibana、Elasticsearch-head（便于管理ES集群）
node2 2核4G	192.168.163.12	Elasticsearch
apache	192.168.163.13	httpd、Logstash

1. 关防火墙和系统安全机制，更改主机名

systemctl stop firewalld.service systemctl disable firewalld.service setenforce 0hostnamectl set-hostname 主机名

文章图片

2. 配置elasticsearch环境

node1（192.168.163.11）
node2（192.168.163.12）

echo 192.168.163.11 node1 > > /etc/hosts echo 192.168.163.12 node2 > > /etc/hostsjava -version#如果没有安装，yum -y install java

文章图片

3. 部署elasticsearch软件

node1（192.168.163.11）
node2（192.168.163.12）

1）安装elasticsearch—rpm包

上传elasticsearch-5.5.0.rpm到/opt目录下 cd /opt rpm -ivh elasticsearch-5.5.0.rpm

文章图片

2）加载系统服务

systemctl daemon-reload systemctl enable elasticsearch.service

文章图片

3）更改elasticsearch主配置文件

cp /etc/elasticsearch/elasticsearch.yml /etc/elasticsearch/elasticsearch.yml.bakvim /etc/elasticsearch/elasticsearch.yml #17行；取消注释，修改；集群名字 cluster.name: my-elk-cluster #23行；取消注释，修改；节点名字（node2修改成node2） node.name: node1 #33行；取消注释，修改；数据存放路径 path.data: /data/elk_data #37行；取消注释，修改；日志存放路径 path.logs: /var/log/elasticsearch #43行；取消注释，修改；不在启动的时候锁定内存 bootstrap.memory_lock: false #55行；取消注释，修改；提供服务绑定的IP地址，0.0.0.0代表所有地址 network.host: 0.0.0.0 #59行；取消注释；侦听端口为9200（默认） http.port: 9200 #68行；取消注释，修改；集群发现通过单播实现，指定要发现的节点 node1、node2 discovery.zen.ping.unicast.hosts: ["node1", "node2"]

文章图片

文章图片

4）检验配置

grep -v "^#" /etc/elasticsearch/elasticsearch.yml

文章图片

5）创建数据存放路径并授权

mkdir -p /data/elk_data chown elasticsearch:elasticsearch /data/elk_data/

文章图片

6）启动elasticsearch是否成功开启

systemctl start elasticsearch netstat -antp |grep 9200

文章图片

7）查看节点信息在宿主机192.168.163.1上访问

http://192.168.163.11:9200 http://192.168.163.12:9200

文章图片

8）检验集群健康状态在宿主机192.168.163.1上访问

http://192.168.163.11:9200/_cluster/health?pretty http://192.168.163.12:9200/_cluster/health?pretty

文章图片

9）查看集群状态【分布式文件系统和企业级应用——ELK企业级日志分析系统】在宿主机192.168.163.1上访问

http://192.168.163.11:9200/_cluster/state?pretty http://192.168.163.12:9200/_cluster/state?pretty

文章图片

4. 安装elasticsearch-head插件

安装elasticsearch-head插件，用于管理集群

1）编译安装node组件依赖包node1（192.168.163.11）
node2（192.168.163.12）

yum -y install gcc gcc-c++ make上传软件包 node-v8.2.1.tar.gz 到/opt cd /opt tar xzvf node-v8.2.1.tar.gz cd node-v8.2.1/ ./configure & & make & & make install 这里耗时比较长

文章图片

文章图片

2）安装phantomjs（前端框架）node1（192.168.163.11）
node2（192.168.163.12）

上传软件包 phantomjs-2.1.1-linux-x86_64.tar.bz2 到/opt目录下 cd /opt tar jxvf phantomjs-2.1.1-linux-x86_64.tar.bz2 -C /usr/local/src/ cd /usr/local/src/phantomjs-2.1.1-linux-x86_64/bin cp phantomjs /usr/local/bin

文章图片

文章图片

3）安装elasticsearch-head（数据可视化工具）node1（192.168.163.11）
node2（192.168.163.12）

上传软件包 elasticsearch-head.tar.gz 到/opt cd /opt tar zxvf elasticsearch-head.tar.gz -C /usr/local/src/ cd /usr/local/src/elasticsearch-head/ npm install

文章图片

文章图片

4）修改主配置文件node1（192.168.163.11）
node2（192.168.163.12）

vim /etc/elasticsearch/elasticsearch.yml ...... #-------末尾; 添加以下内容-------- http.cors.enabled: true http.cors.allow-origin: "*"#-----------参数解释----------------------------- http.cors.enabled: true#开启跨域访问支持，默认为 false http.cors.allow-origin: "*"#指定跨域访问允许的域名地址为所有systemctl restart elasticsearch.service

文章图片

文章图片

5）启动elasticsearch-headnode1（192.168.163.11）
node2（192.168.163.12）

必须在解压后的 elasticsearch-head 目录下启动服务，进程会读取该目录下的 gruntfile.js 文件，否则可能启动失败。 cd /usr/local/src/elasticsearch-head/ npm run start & > elasticsearch-head@0.0.0 start /usr/local/src/elasticsearch-head > grunt serverRunning "connect:server" (connect) task Waiting forever... Started connect web server on http://localhost:9100elasticsearch-head 监听的端口是 9100 netstat -natp |grep 9100

文章图片

6）使用elasticsearch-head插件查看集群状态在宿主机192.168.163.1上访问

http://192.168.163.11:9100 在Elasticsearch 后面的栏目中输入 http://192.168.163.11:9200http://192.168.163.12:9100 在Elasticsearch 后面的栏目中输入 http://192.168.163.12:9200

文章图片

7）创建索引node1（192.168.163.11）
创建索引为index-demo,类型为test

curl -XPUT localhost:9200/index-demo/test/1?pretty& pretty -H content-Type: application/json -d "user":"zhangsan","mesg":"hello world"

文章图片

8）索引信息回到宿主机192.168.163.1
打开浏览器输入地址，查看索引信息

http://192.168.163.11:9100 索引默认被分片5个，并且有一个副本点击数据浏览,会发现在node1上创建的索引为index-demo,类型为test, 相关的信息

文章图片

文章图片

5. 安装logstash

收集日志输出到elasticsearch中

1）安装Apahce服务（httpd）apache（192.168.163.13）

yum -y install httpd systemctl start httpd

文章图片

2）安装Java环境apache（192.168.163.13）

java -version###如果没有装安装yum -y install java

文章图片

3）安装logstashapache（192.168.163.13）

上传logstash-5.5.1.rpm到/opt目录下 cd /opt rpm -ivh logstash-5.5.1.rpmsystemctl start logstash.service systemctl enable logstash.service#建立logstash软连接 ln -s /usr/share/logstash/bin/logstash /usr/local/bin/

文章图片

4）测试logstash命令apache（192.168.163.13）

字段描述解释： -f通过这个选项可以指定logstash的配置文件，根据配置文件配置logstash -e后面跟着字符串该字符串可以被当做logstash的配置（如果是” ”,则默认使用stdin做为输入、stdout作为输出） -t测试配置文件是否正确，然后退出

定义输入和输出流：输入采用标准输入，输出采用标准输出（类似管道） logstash -e inputstdinoutputstdout

文章图片

使用rubydebug显示详细输出，codec为一种编解码器 logstash -e inputstdinoutputstdout codec=> rubydebug

文章图片

使用 Logstash 将信息写入 Elasticsearch 中 logstash -e inputstdinoutputelasticsearchhosts=> ["192.168.163.11:9200"]

文章图片

5）查看索引信息在宿主机192.168.163.1上访问

多出 logstash-日期 http://192.168.163.11:9100点击数据浏览查看响应的内容

文章图片

文章图片

6）在Apache主机上做对接配置apache（192.168.163.13）

Logstash配置文件主要由三部分组成：input、output、filter（根据需要） chmod o+r /var/log/messages ll /var/log/messagesvim /etc/logstash/conf.d/system.conf input file path => "/var/log/messages" type => "system" start_position => "beginning"output elasticsearch hosts => ["192.168.163.11:9200"] index => "system-%+YYYY.MM.dd"systemctl restart logstash.service

文章图片

7）查看索引信息在宿主机192.168.163.1上访问

多出 system-日期 http://192.168.163.11:9100

文章图片

文章图片

6. 安装kibana
node1（192.168.163.11）

上传kibana-5.5.1-x86_64.rpm 到/opt目录 cd /opt rpm -ivh kibana-5.5.1-x86_64.rpmcd /etc/kibana/ cp kibana.yml kibana.yml.bakvim kibana.yml #2行；取消注释；kibana打开的端口（默认5601） server.port: 5601 #7行；取消注释，修改；kibana侦听的地址 server.host: "0.0.0.0" #21行；取消注释，修改；和elasticsearch建立联系 elasticsearch.url: "http://192.168.163.11:9200" #30行; 取消注释；在elasticsearch中添加.kibana索引 kibana.index: ".kibana"systemctl start kibana.service systemctl enable kibana.service

文章图片

文章图片

1）在宿主机192.168.163.1上访问

192.168.163.11:56011.首次登录创建一个索引名字：system-* （这是对接系统日志文件）然后点最下面的出面的create 按钮创建 2.然后点最左上角的Discover按钮会发现system-*信息 3.然后点下面的host旁边的add 会发现右面的图只有 Time 和host 选项了这个比较友好

文章图片

文章图片

2）对接Apache主机的Apache 日志文件（访问日志、错误日志）apache（192.168.163.13）

cd /etc/logstash/conf.d/vim apache_log.conf input file path => "/etc/httpd/logs/access_log" type => "access" start_position => "beginning"file path => "/etc/httpd/logs/error_log" type => "error" start_position => "beginning"output if [type] == "access" elasticsearch hosts => ["192.168.163.11:9200"] index => "apache_access-%+YYYY.MM.dd"if [type] == "error" elasticsearch hosts => ["192.168.163.11:9200"] index => "apache_error-%+YYYY.MM.dd"/usr/share/logstash/bin/logstash -f apache_log.conf

文章图片

文章图片

3）在宿主机192.168.163.1上访问

1.打开输入http://192.168.163.13，制造点访问记录 2.打开浏览器输入http://192.168.163.11:9100/ 查看索引信息能发现apache_error-2021.03.04和apache_access-2021.03.04 3.打开浏览器输入http://192.168.163.11:5601 点击左下角有个management选项—index patterns—create index pattern 分别创建apache_error-* 和 apache_access-* 的索引

文章图片

文章图片

总结 1）ELK三大组件及其工作流程
组件：ElasticSearch（简称：ES）、Logstash和Kiabana
流程：
① Logstash负责数据的收集，对数据进行过滤、分析等操作，然后存储到指定的位置,发送给ES；
② ES是分布式存储检索引擎，用来存储各类日志，可以让用户可以通过浏览器与 ES通信；
③ Kibana为 Logstash 和 ES 提供图形化的日志分析 Web 界面展示，可以汇总、分析和搜索重要数据日志。
2）生产中一般用什么来代替logstash？为什么？
① 一般使用Filebeat代替logstash
因为logstash是由Java开发的，需要运行在JVM上，耗资源较大，运行占用
② CPU和内存高。另外没有消息队列缓存，存在数据丢失隐患；而filebeat是一款轻量级的开源日志文件数据搜集器，能快速收集数据，并发送给 logstash 进行解析，性能上相比运行于 JVM 上的 logstash 优势明显。
3）ELK集群配置的步骤是什么
1）一般至少需要三台主机
2）设置各主机的主机名和IP的映射，修改ES主配置文件
3）通过修改discovery.zen.ping项，通过单播实现集群，指定要发现的节点。
4）ELK处理过程
【APPServer集群】----> 【Logstash Agent 采集器】—> 【Elasticsearch Cluster】—> 【Kibana Server】—> 【Brewser】
① 后端服务器集群生成日志
②Logstash对进行收集、过滤、输出等操作
③处理完的日志交给ES集群进行存储
④ES和前端的Kibana进行对接
⑤Kibana将日志进行可视化处理，并展现给各个终端