spark-submit 命令行参数学习 spark-submit

配置参数 spark.driver.maxResultSize 在yarn模式下spark的 executor 执行完action以后需要将结果数据传回给driver节点，参数限制了单个executor 可以的最大结果大小，这样是为了保证driver的安全，防止因为数据量过大导致的driver端的oom问题，默认值为1G，最小值为1M，如果设置参数为0的话，即对文件不做任何限制。
spark.deault.parallelism 设置每个人stage上默认的task的数量，如果不设置的话默认的是根据hdfs的block数量来拆分任务。并行度过高task数量就会过多，task的启动和切换开销会变大。并行度设置的过低，task数量减少，集群资源有可能浪费，task执行的时间会边长，同时还可能有oom的风险。一般情况下设置该参数为num-executors * executor-cores的2~3倍较为合适
spark.debug.maxToStringFields spark对要读取的表的字段个数有限制，当表的字段个数大于25的时候任务会报错，通过这个设置可以将报错字段的阈值提高。
spark.sql.warehouse.dir 指定的是spark读写hive时候数据的存放位置。
org.apache.spark.serializer.KryoSerializer 设置spark的序列化方式， org.apache.spark.serializer.KryoSerializer 序列化速度快、占用空间小，在任务需要大量的shuffle的时候可以提升效率，同时也会改变数据写到磁盘的数据格式。
spark.sql.hive.convertMetastoreOrc spark读取ORC格式的文件的时候需要加上这个配置。
【spark-submit 命令行参数学习】[参考]https://mp.weixin.qq.com/s/7R...

spark-submit 命令行参数学习

推荐阅读

送给自己的新年礼物

柠檬冰红茶——去暑清热生津止渴

借呗可以随借随还吗腋温量多久

延川打疫苗 2023年2月延安延川县四价疫苗接种公告

霜降节气吃什么传统食物霜降是秋天还是冬天

嵌入式开发培训班费用大概多少，单片机或嵌入式开发学费多少钱

自我调整抑郁症的第三十天

AutoCAD2014安装步骤 AutoCAD 2015安装的具体操作步骤

威廉·汤姆斯·格林·莫顿|麻醉人类的175年｜万物科学说明书

羊肉臊子怎么炒试试这个做法

2018-04-18|2018-04-18 CPU Utilization

怎么在抖音中不让别人看资料

绿豆汤怎么保存不酸

免洗平板拖把什么牌子最好用妙洁平板拖把哪款好用

《闪闪发光的人生》?读后感

山居秋暝描写了哪些景物

一次性口罩跟一次性医用口罩区别

蛋白质是生命的物质基础！这7个迹象说明你缺了，5种食物赶紧吃起来

逆水寒素问新手向攻略逆水寒手游素问技能介绍

尚品汇名字打分116分尚品店名打分