Spark|Spark aggregateByKey 算子详解
aggregateByKey
def aggregateByKey[U: ClassTag](zeroValue: U)(seqOp: (U, V) => U,combOp: (U, U) => U): RDD[(K, U)]
- zeroValue: 初始值,每个分区中,同一种key,只用一次初始值,第一个值和zeroValue的结果,用于对应key的剩余值计算;初始值不参与combOp的计算
- seqOp: 区间内计算,每个分区中,同一种key的value进行操作
- combOp: 区间之间计算,各个分区得到的结果,与其他分区相同key的value结果进行操作
- RDD[(K, U)]:返回值类型,有多少个不同的key,肯定就有多少个(k,U)
示例:
//将数据分成4个分区
var z=sc.makeRDD(List(("a",1),("b",2),("a",2),("a",3),("b",0),("c",1),("c",2),("c",9)),4)
//查看每个分区的数据
z.glom.collect
// Array[Array[(String, Int)]] = Array(Array((a,1), (b,2)), Array((a,2), (a,3)), Array((b,0), (c,1)), Array((c,2), (c,9)))
z.aggregateByKey(0)(Math.max(_,_),_+_).collect
//Array[(String, Int)] = Array((a,4), (b,2), (c,10))
结果分析:
第一分区:Array((a,1), (b,2))
第二分区:Array((a,2), (a,3))
第三分区:Array((b,0), (c,1))
第四分区:Array((c,2), (c,9))
- 初始值0先和第一个分区进行计算,第一个分区不同的key有两个,分别为a和b,所以初始值0会被a和b分别使用一次;对于a:max(0,1),结果为1,对于b:max(0,2),结果为2;第一个分区结束,结果为(a,1)(b,2)
- 初始值和第二个分区进行计算,由于第二个分区的key只有a,所以初始值0只使用1次,对于a:
max(0,2)得到2,然后2再和(a,3)求最大值,(2,3)得到3;第二个分区结束,结果为(a,3) - 剩下两个分区以此类推,结果分别为:
第三分区:(b,0), (c,1)
第四分区: (c,9) - 每个区计算结束,然后对各个区间,相同的key进行计算,采用函数_+_
- 第一分区的(a,1)和第二分区的(a,3)进行_+操作,得到(a,4);第一分区的(b,2)和第三分区的(b,0)进行+操作,得到(b,2); 第三分区的(c,1)和第四分区的(c,9)进行+_操作,得到(c,10)
- 将这三个结果进行返回,得到Array[(String, Int)] = Array((a,4), (b,2), (c,10))
备注:如果分区只有1个,那么combOp就不会执行啦
var z=sc.makeRDD(List(("a",1),("b",2),("a",2),("a",3),("b",0),("c",1),("c",2),("c",9)),1)
//由于只有一个分区,所以_*_没执行
z.aggregateByKey(1)(_+_,_*_).collect// Array((a,7), (b,3), (c,13))
【Spark|Spark aggregateByKey 算子详解】补充:用aggregateByKey进行wordCount
var z=sc.makeRDD(List(("a",1),("b",1),("a",1),("a",1),("b",1),("c",1),("c",1),("c",1)),1)
//几个分区不重要
z.aggregateByKey(0)(_+_,_+_).collect//Array((a,3), (b,2), (c,3))
推荐阅读
- Spark|Spark 数据倾斜及其解决方案
- 最优化问题|改进交叉算子的自适应人工蜂群黏菌算法
- Spark--java.util.NoSuchElementException:|Spark--java.util.NoSuchElementException: None.get at at
- spark|spark 资源动态释放
- SparkStreaming读Kafka-|SparkStreaming读Kafka- Couldn't find leaders for Set
- spark|spark UDAF根据某列去重求合 distinct sum
- 大数据|spark UDAF 自定义聚合函数 UserDefinedAggregateFunction 带条件的去重操作
- 《咏梅.卜算子》
- Python3实战Spark大数据分析及调度
- Gank Spark