Slow|Slow ReadProcessor&Error Slow BlockReceiver错误日志分析
1.总结
"Slow ReadProcessor" 和"Slow BlockReceiver"往往是因为集群负载比较高或者某些节点不健康导致的,本文主要是帮助你确认是因为集群负载高导致的还是因为某些节点的硬件问题。
2.症状
1.作业比以前运行的时间变长
2.Job的日志中有以下WARN的信息
2018-04-18 00:16:11,632 WARN [ResponseProcessor for block BP-:blk_
3.Datanode的日志中有以下WARN信息
2018-04-17 06:23:48,796 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Slow BlockReceiver write packet to mirror took 341ms (threshold=300ms) 2016-06-21 06:23:55,775 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Slow BlockReceiver write data to disk cost:873ms (threshold=300ms) 2018-04-17 08:37:52,397 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Slow flushOrSync took 534ms (threshold=300ms), isSync:false, flushTotalNanos=533345033ns 2018-04-17 08:38:57,929 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Slow manageWriterOsCache took 331ms (threshold=300ms)
请注意,单个节点的硬件问题可能会在整个群集中导致“Slow”错误。
3.原因
需要注意的是,在生产环境的正常负载下,一些集群的WARN消息在datanode日志中是正常的。当单个节点具有比正常情况更多的上述WARN消息时,表明存在底层硬件问题。
症状
原因
集群负载高
如果你的集群处于或接近资源上限(内存,cpu或磁盘),则你在处理作业时,你的集群可能无法确保数据本地化,因此需要在网络上传输数据块。如果是这种情况,由于使用集群上的额外负载来传输数据块,因此可能会在作业或数据节点中看到WARN消息。
Slow BlockReceiver write packet to mirror
这表明在网络上写入块时有延迟
Slow BlockReceiver write data to disk cost
这表示在将块写入OS缓存或磁盘时存在延迟
Slow flushOrSync
这表示在将块写入OS缓存或磁盘时存在延迟
Slow manageWriterOsCache
这表示在将块写入OS缓存或磁盘时存在延迟
4.解决办法
以下步骤将有助于确定导致DataNode日志中的“Slow”消息的底层硬件问题。
1.在每个DataNode上运行以下命令来收集所有Slow消息的计数:
egrep -o "Slow.*?(took|cost)" /path/to/current/datanode/log | sort | uniq -c
该命令将提供DataNode日志中所有“Slow”消息的计数。输出将类似于:
1000 Slow BlockReceiver write data to disk cost 234 Slow BlockReceiver write packet to mirror took 4 Slow flushOrSync took 6 Slow manageWriterOsCache took
2.如果单个节点的一个或多个类别的”Slow“消息比其他主机的”Slow“消息数量多出数量级,则需要调查底层硬件问题。
3.如果Slow消息数最多的是Slow BlockReceiver write packet tomirror took,请通过以下命令的输出来调查可能的网络问题:
4.如果Slow消息最多的是一些其他消息,请使用以下命令检查磁盘问题:
【Slow|Slow ReadProcessor&Error Slow BlockReceiver错误日志分析】转载自:https://www.cnblogs.com/hit-zb/p/10056984.html
推荐阅读
- JAVA(抽象类与接口的区别&重载与重写&内存泄漏)
- 宋仲基&宋慧乔(我们不公布恋情,我们直接结婚。)
- 21天|21天|M&M《见识》04
- 二叉树路径节点关键值和等于目标值(LeetCode--112&LeetCode--113)
- 2021—3—8日教练实践总结&呼吸练习&觉察日记
- 奇迹-妖妈|奇迹-妖妈 感恩日记46/365&非暴力沟通第3天
- 前端|web前端dya07--ES6高级语法的转化&render&vue与webpack&export
- 数据技术|一文了解Gauss数据库(开发历程、OLTP&OLAP特点、行式&列式存储,及与Oracle和AWS对比)
- Python|Win10下 Python开发环境搭建(PyCharm + Anaconda) && 环境变量配置 && 常用工具安装配置
- gem|gem & pod 记录