SparkSQL|SparkSQL并行度参数设置方法 SparkSQL|Spark学习

版权声明：未经允许，随意转载，请附上本文链接谢谢（づ￣3￣）づ╭?～
https://blog.csdn.net/xiaoduan_/article/details/79809262
SparkSQL并行度参数设置方法
【SparkSQL|SparkSQL并行度参数设置方法】SparkSQL并行度是SparkSQL的第一个调优点，默认的并行度是200，需要根据实际情况进行设置，它有有两种设置方法，
1. 在代码中直接设定

val spark = SparkSession.builder() .config("spark.sql.shuffle.partitions",100)//设置并行度100 .getOrCreate()

在提交的时候提供参数修改，注意代码中的优先级高于提交时的优先级
这里是一个例子

./bin/spark-submit \ --class com.imooc.log.TopNStatJobYARN \ --name TopNStatJobYARN \ --master yarn \ --executor-memory 1G \ --num-executors 1 \ --conf spark.sql.shuffle.partitions=100 \ /home/hadoop/lib/sql-1.0-jar-with-dependencies.jar \ hdfs://hadoop001:8020/imooc/clean 20170511