SparkSQL|SparkSQL并行度参数设置方法

版权声明:未经允许,随意转载,请附上本文链接谢谢(づ ̄3 ̄)づ╭?~
https://blog.csdn.net/xiaoduan_/article/details/79809262
SparkSQL并行度参数设置方法
【SparkSQL|SparkSQL并行度参数设置方法】SparkSQL并行度是SparkSQL的第一个调优点,默认的并行度是200,需要根据实际情况进行设置,它有有两种设置方法,
1. 在代码中直接设定

val spark = SparkSession.builder() .config("spark.sql.shuffle.partitions",100)//设置并行度100 .getOrCreate()

  1. 在提交的时候提供参数修改,注意 代码中的优先级高于提交时的优先级
    这里是一个例子
./bin/spark-submit \ --class com.imooc.log.TopNStatJobYARN \ --name TopNStatJobYARN \ --master yarn \ --executor-memory 1G \ --num-executors 1 \ --conf spark.sql.shuffle.partitions=100 \ /home/hadoop/lib/sql-1.0-jar-with-dependencies.jar \ hdfs://hadoop001:8020/imooc/clean 20170511

    推荐阅读