关于IDEA创建spark|关于IDEA创建spark maven项目并连接远程spark集群问题
环境:
scala:2.12.10
spark:3.0.3
1、创建scala maven项目,如下图所示:
文章图片
2、
不同版本scala编译参数可能略有不同,笔者使用的scala版本是2.12.10,scala-archetype-simple插件生成的pom文件
org.scala-tools maven-scala-plugin2.15.0 compile testCompile -make:transitive-dependencyfile${project.build.directory}/.scala_dependencies
【关于IDEA创建spark|关于IDEA创建spark maven项目并连接远程spark集群问题】要去除-make:transitive这个参数,否则会报错。
3、创建SparkPi Object类
object SparkPi { def main(args: Array[String]): Unit = {val spark = SparkSession.builder.appName("Spark Pi").master("spark://172.21.212.114:7077").config("spark.jars","E:\\work\\polaris\\polaris-spark\\spark-scala\\target\\spark-scala-1.0.0.jar").config("spark.executor.memory","2g").config("spark.cores.max","2").config("spark.driver.host", "172.21.58.28").config("spark.driver.port", "9089").getOrCreate()//spark = new SparkContext(conf).val slices = if (args.length > 0) args(0).toInt else 2val n = math.min(100000L * slices, Int.MaxValue).toInt // avoid overflowval count = spark.sparkContext.parallelize(1 until n, slices).map { i =>val x = random * 2 - 1val y = random * 2 - 1if (x*x + y*y <= 1) 1 else 0}.reduce(_ + _)println(s"Pi is roughly ${4.0 * count / (n - 1)}")spark.stop()}}
4、执行打包命令:
文章图片
5、点击Idea Run执行即可:
文章图片
6、结果如下所示:
文章图片
PS:
1、创建SparkSession时需要指定Idea所在机器ip地址,因为默认会把Spark Driver所在机器域名发送过去,导致无法解析(在spark 服务器上配置IDEA所在机器域名也可以,但是这样太不灵活)
2、spark-3.0.3默认使用的scala版本是2.12.10,所以要注意IDEA使用scala版本,否则会出现SerailizableId不一致的兼容问题
到此这篇关于IDEA创建spark maven项目并连接远程spark集群的文章就介绍到这了,更多相关IDEA spark集群内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!
推荐阅读
- 关于QueryWrapper|关于QueryWrapper,实现MybatisPlus多表关联查询方式
- 四首关于旅行记忆的外文歌曲
- 醒不来的梦
- django-前后端交互
- 关于自我为中心的一点感想
- 「按键精灵安卓版」关于全分辨率脚本的一些理解(非游戏app)
- 关于Ruby的杂想
- 关于读书的思考
- IDEA|IDEA 创建工程
- 关于this的一些问题(1)