c语言spark函数 spark 编程语言( 三 )


是什么意思'>spark map函数 =>是什么意思val tf = sc.textFile("test.txt")
//操作1
var mapResult=tf.map(line=line.split("\\s+"))
-- Array[Array[String]] = Array(Array(this,is,1st,line),Array(we,have,2nd,line,too))
//操作2
var mapResult=tf.flatMap(line=line.split("\\s+"))
-- Array[String] = Array(this,is,1st,line,we,have,2nd,line,too)
总结:
- Spark 中 map函数会对每一条输入进行指定的操作 , 然后为每一条输入返回一个对象;
- 而flatMap函数则是两个操作的集合——正是“先映射后扁平化”:
操作1:同map函数一样:对每一条输入进行指定的操作,然后为每一条输入返回一个对象
操作2:最后将所有对象合并为一个对象
Spark中parallelize函数和makeRDD函数的区别Spark主要提供了两种函数:parallelize和makeRDD:
1)parallelize的声明:
def parallelize[T: ClassTag](
seq: Seq[T],
numSlices: Int = defaultParallelism): RDD[T]
2)makeRDD的声明:
def makeRDD[T: ClassTag](
seq: Seq[T],
numSlices: Int = defaultParallelism): RDD[T]
def makeRDD[T: ClassTag](seq: Seq[(T, Seq[String])]): RDD[T]
3)区别:
A)makeRDD函数比parallelize函数多提供了数据的位置信息 。
B)两者的返回值都是ParallelCollectionRDD,但parallelize函数可以自己指定分区的数量,而makeRDD函数固定为seq参数的size大小 。
spark中定义函数的关键字是spark中定义函数的关键字是case关键字,很有用,很强大,case语法与java中的switch语法类似,但比switch更强大 。类似于hive当中的自定义函数,spark同样可以使用自定义函数来实现新的功能,spark中的自定义函数有3类 。
c语言spark函数的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于spark 编程语言、c语言spark函数的信息别忘了在本站进行查找喔 。

推荐阅读