Spark基础入门(01)—RDD

1,基本概念 RDD(Resilient Distributed Dataset) :弹性分布式数据集 它是Spark中最基本的数据抽象,是编写Spark程序的基础。简单的来讲,一个Spark程序可以概括为: <输入> => [转换] => <输出> 输入和输出是必须要有的,转换是大部分情况下都有的

    推荐阅读