SparkSQL|SparkSQL并行度参数设置方法
版权声明:未经允许,随意转载,请附上本文链接谢谢(づ ̄3 ̄)づ╭?~
https://blog.csdn.net/xiaoduan_/article/details/79809262
SparkSQL并行度参数设置方法
【SparkSQL|SparkSQL并行度参数设置方法】SparkSQL并行度是SparkSQL的第一个调优点,默认的并行度是200,需要根据实际情况进行设置,它有有两种设置方法,
1. 在代码中直接设定
val spark = SparkSession.builder()
.config("spark.sql.shuffle.partitions",100)//设置并行度100
.getOrCreate()
- 在提交的时候提供参数修改,注意 代码中的优先级高于提交时的优先级
这里是一个例子
./bin/spark-submit \
--class com.imooc.log.TopNStatJobYARN \
--name TopNStatJobYARN \
--master yarn \
--executor-memory 1G \
--num-executors 1 \
--conf spark.sql.shuffle.partitions=100 \
/home/hadoop/lib/sql-1.0-jar-with-dependencies.jar \
hdfs://hadoop001:8020/imooc/clean 20170511
推荐阅读
- JS中的各种宽高度定义及其应用
- “精神病患者”的角度问题
- 《深度倾听》第5天──「RIA学习力」便签输出第16期
- 从战略性的角度可以配置股票
- 闲的功夫
- 概率论/统计学|随机变量 的 分布函数 与 概率密度函数 的区别
- 日知图录85——印度阿萨姆红茶
- 一些小日子
- 我的2020年年度规划
- 百度云极速下载,来体验飞的感觉,还可以看最新动漫的百度云视频哦