spark SQL执行task数骤增

因为SQL中的一个表写入方式不严谨,造成小文件过多,导致task数骤增.
没有合并小文件时,文件数27000+,启动任务后task数11w+,合并后文件数70多,task数3000多.
小文件较多的表同其他表join时,猜测会每个文件同其他表的文件做关联.这两形成了文件维度的笛卡尔积.
【spark SQL执行task数骤增】后续追一下源码看看启动task的部分.

    推荐阅读