Spark SQL踩坑经验总结及调优分享数据库spark

写在之前：
本篇文章写就时间较早，因此本文所讨论的Spark SQL非最新版本，后续更新版本可能有部分修复和更新。
一、Spark内存泄露 1.高并发情况下的内存泄露的具体表现
首先得很遗憾的告诉各位，Spark在设计之初的架构就不是为了高并发请求而生的，我们尝试在网络条件不好的集群下，进行100并发的查询，在压测3天后发现了内存泄露。
在进行大量小SQL的压测过程中发现，有大量的activejob在spark ui上一直处于pending状态，且永远不结束，如下图所示：

文章图片

并且发现driver内存爆满：

文章图片

我们通过内存分析工具分析了下：

文章图片

2.高并发下AsynchronousListenerBus引起的WEB UI的内存泄露
短时间内 Spark 提交大量的SQL ，而且SQL里面存在大量的 union与join的情形，会创建大量的event对象，使得这里的event数量超过10000个event 。
一旦超过10000个event就开始丢弃 event，而这个event是用来回收资源的，丢弃了资源就无法回收了。针对UI页面的这个问题，我们将这个队列长度的限制给取消了。

文章图片

文章图片

3.AsynchronousListenerBus本身引起的内存泄露
通过抓包我们发现：

文章图片

文章图片

这些event是通过post方法传递的，并写入到队列里。

文章图片

但是也是由一个单线程进行postToAll的：

文章图片

但是在高并发情况下，单线程的postToAll的速度没有post的速度快，会导致队列堆积的event越来越多，如果是持续性的高并发的SQL查询，这里就会导致内存泄露。
接下来我们在分析下postToAll的方法里面，哪个路径是最慢的，导致事件处理最慢的逻辑是哪个？

文章图片

可能有的同学都不敢相信，通过jstack抓取分析，程序大部分时间都阻塞在记录日志上。
可以通过禁用这个地方的log来提升event的速度。

文章图片

4.高并发下的Cleaner的内存泄露
说道这里，Cleaner的设计应该算是spark最糟糕的设计。spark的ContextCleaner是用于回收与清理已经完成了的广播boradcast,shuffle数据的。但是高并发下，我们发现这个地方积累的数据会越来越多，最终导致driver内存跑满而挂掉。
我们先看下，是如何触发内存回收的：

文章图片

没错，就是通过System.gc() 回收的内存，如果我们在jvm里配置了禁止执行System.gc，这个逻辑就等于废掉（而且有很多jvm的优化参数一般都推荐配置禁止system.gc 参数）。
这是一个单线程的逻辑，而且每次清理都要协同很多机器一同清理，清理速度相对来说比较慢，但是SQL并发很大的时候，产生速度超过了清理速度，整个driver就会发生内存泄露。而且brocadcast如果占用内存太多，也会使用非常多的本地磁盘小文件，我们在测试中发现，高持续性并发的情况下本地磁盘用于存储blockmanager的目录占据了我们60%的存储空间。

文章图片

我们再来分析下 clean里面，哪个逻辑最慢：

文章图片

真正的瓶颈在于blockManagerMaster里面的removeBroadcast，因为这部分逻辑是需要跨越多台机器的。
针对这种问题，我们在SQL层加了一个SQLWAITING逻辑，判断了堆积长度，如果堆积长度超过了我们的设定值，我们这里将阻塞新的SQL的执行。堆积长度可以通过更改conf目录下的ya100_env_default.sh中的ydb.sql.waiting.queue.size的值来设置。

文章图片

建议集群的带宽要大一些，万兆网络肯定会比千兆网络的清理速度快很多。给集群休息的机会，不要一直持续性的高并发，让集群有间断的机会。增大spark的线程池，可以调节conf下的spark-defaults.conf的如下值来改善。

文章图片

5.线程池与threadlocal引起的内存泄露
发现spark，hive，lucene都非常钟爱使用threadlocal来管理临时的session对象，期待SQL执行完毕后这些对象能够自动释放，但是与此同时spark又使用了线程池，线程池里的线程一直不结束，这些资源一直就不释放，时间久了内存就堆积起来了。
针对这个问题，我们修改了spark关键线程池的实现，更改为每1个小时，强制更换线程池为新的线程池，旧的线程数能够自动释放。
6.文件泄露
这时有同学会发现，随着请求的session变多，spark会在hdfs和本地磁盘创建海量的磁盘目录，最终会因为本地磁盘与hdfs上的目录过多，而导致文件系统和整个文件系统瘫痪。针对这种情况，我们也做了对应处理。
7.deleteONExit内存泄露

文章图片

文章图片

为什么会有这些对象在里面，我们看下源码：

文章图片

文章图片

8.JDO内存泄露
多达10万多个JDOPersistenceManager：

文章图片

文章图片

文章图片

文章图片

文章图片

9.listerner内存泄露
通过debug工具监控发现，spark的listerner随着时间的积累，通知(post)速度运来越慢。
排查之后发现所有代码都卡在了onpostevent上：

文章图片

jstack的结果如下：

文章图片

研究下了调用逻辑如下，发现是循环调用listerners，而且listerner都是空执行才会产生上面的jstack截图：

文章图片

通过内存发现有30多万个linterner在里面：

文章图片

发现都是大多数都是同一个listener,我们核对下该处源码：

文章图片

最终定位了问题，确系是这个地方的BUG ，每次创建JDBC连接的时候，spark就会增加一个listener，时间久了，listener就会积累越来越多。针对这个问题，我简单的修改了一行代码，开始进入下一轮的压测。

文章图片

二、Spark源码调优测试发现，即使只有1条记录，使用 spark进行一次SQL查询也会耗时1秒，对很多即席查询来说1秒的等待，对用户体验非常不友好。针对这个问题，我们在spark与hive的细节代码上进行了局部调优，调优后，响应时间由原先的1秒缩减到现在的200~300毫秒。
以下是我们改动过的地方
1.SessionState的创建目录，占用较多的时间

文章图片

如果熟悉Hadoop namenode HA的同学会注意到，如果第一个namenode是standby状态，这个地方会更慢，就不止1秒，所以除了改动源码外，目前在使用namenode ha的同学一定要注意，将active状态的node一定要放在前面。
2.HiveConf的初始化过程占用太多时间
频繁的hiveConf初始化，需要读取core-default.xml,hdfs-default.xml,yarn-default.xml
,mapreduce-default.xml,hive-default.xml等多个xml文件，而这些xml文件都是内嵌在jar包内的。
第一，解压这些jar包需要耗费较多的时间，第二每次都对这些xml文件解析也耗费时间。

文章图片

文章图片

文章图片

3.广播broadcast传递的hadoop configuration序列化很耗时 L-configuration的序列化，采用了压缩的方式进行序列化，有全局锁的问题。
L-configuration每次序列化，传递了太多了没用的配置项了，1000多个配置项，占用60多Kb。我们剔除了不是必须传输的配置项后，缩减到44个配置项，2kb的大小。

文章图片

文章图片

4.对spark广播数据broadcast的Cleaner的改进
由于SPARK-3015的BUG，spark的cleaner，目前为单线程回收模式。
大家留意spark源码注释：

文章图片

其中的单线程瓶颈点在于广播数据的cleaner，由于要跨越很多台机器，需要通过akka进行网络交互。
如果回收并发特别大，SPARK-3015 的bug报告会出现网络拥堵，导致大量的 timeout出现。
为什么回收量特变大呢？其实是因为cleaner 本质是通过system.gc（）,定期执行的，默认积累30分钟或者进行了gc后才触发cleaner,这样就会导致瞬间，大量的akka并发执行，集中释放，这才造成了网络的瞬间瘫痪。
但是单线程回收意味着回收速度恒定，如果查询并发很大，回收速度跟不上cleaner的速度，会导致cleaner积累很多，会导致进程OOM（YDB做了修改，会限制前台查询的并发）。
不论是OOM还是限制并发都不是我们希望看到的，所以针对高并发情况下，这种单线程的回收速度是满足不了高并发的需求的。
对于官方的这样的做法，我们表示并不是一个完美的cleaner方案。并发回收一定要支持，只要解决akka的timeout问题即可。
所以这个问题要仔细分析一下，akka为什么会timeout，是因为cleaner占据了太多的资源，那么我们是否可以控制下cleaner的并发呢？比如说使用4个并发，而不是默认将全部的并发线程都给占满呢？这样及解决了cleaner的回收速度，也解决了akka的问题不是更好么？
【Spark SQL踩坑经验总结及调优分享】针对这个问题，我们最终还是选择了修改spark的ContextCleaner对象，将广播数据的回收，改成多线程的方式，限制了线程的并发数量，从而解决了该问题。

Spark SQL踩坑经验总结及调优分享

推荐阅读

关于爱国的议论文关于爱国的议论文素材

redis+cookie实现单点登录单点登录用了redis

学翻锅一开始还怎么学如何快速学会翻锅

松下空调热风机不工作怎么回事,有哪些值得注意的地方？

关于地球资料关于地球介绍

如何保存蔬菜教你最方便的保存蔬菜方法

字节跳动既然有了抖音,为什么还要开发火山小视频,它俩不冲突矛盾吗？

广告协会是干什么的？

鸿蒙|还是放不下安卓？华为新系统正式现身，外媒：这是关键一步

处好婆媳关系坚持做好10件事，处好婆媳关系坚持做好10件事的原因

忘了苹果ID账号，iphoneID号忘了怎么办

业务数据分析表,检察院召开业务数据分析会

时光相册怎么使用艺术滤镜功能？详细操作步骤

有哪些好看的现代言情小说？

如何解决电视保险丝,主要考虑这几个方面

佳能6d定时拍照佳能6d2自拍定时器

大家说三农,三农是谁提出来的三农？三农具体指的什么？

荒野大镖客2商贩怎么玩荒野大镖客2商贩职业玩法技巧心得

小布丁冰棒的制作方法小布丁雪糕的做法教程分享

榴莲有苦味是怎么回事