spark SQL执行task数骤增
因为SQL中的一个表写入方式不严谨,造成小文件过多,导致task数骤增.
没有合并小文件时,文件数27000+,启动任务后task数11w+,合并后文件数70多,task数3000多.
小文件较多的表同其他表join时,猜测会每个文件同其他表的文件做关联.这两形成了文件维度的笛卡尔积.
【spark SQL执行task数骤增】后续追一下源码看看启动task的部分.
推荐阅读
- CVE-2020-16898|CVE-2020-16898 TCP/IP远程代码执行漏洞
- Spark|Spark 数据倾斜及其解决方案
- 字符串拼接成段落,换行符(\n)如何只执行n-1次
- py连接mysql
- 2019-01-18Mysql中主机名的问题
- MySql数据库备份与恢复
- mysql|InnoDB数据页结构
- 数据库|SQL行转列方式优化查询性能实践
- mysql中视图事务索引与权限管理
- MYSQL主从同步的实现