本文概述
- 并行集合
- 外部数据集
有两种创建RDD的方法:
- 并行化驱动程序中的现有数据
- 引用外部存储系统中的数据集, 例如共享文件系统, HDFS, HBase或提供Hadoop InputFormat的任何数据源。
val info = Array(1, 2, 3, 4)val distinfo = sc.parallelize(info)
【什么是ASD()】现在, 我们可以并行操作分布式数据集(distinfo), 例如distinfo.reduce((a, b)=> a + b)。
外部数据集 在Spark中, 可以从Hadoop支持的任何类型的存储源(例如HDFS, Cassandra, HBase甚至我们的本地文件系统)创建分布式数据集。 Spark提供了对文本文件, SequenceFiles和其他类型的Hadoop InputFormat的支持。
SparkContext的textFile方法可用于创建RDD的文本文件。此方法获取文件的URI(计算机上的本地路径或hdfs://), 并读取文件的数据。
文章图片
现在, 我们可以通过数据集操作来操作数据, 例如, 我们可以使用map并减少操作的总和, 如下所示:data.map(s => s.length).reduce((a, b)= > a + b)。
推荐阅读
- RDD操作
- 什么是Apache Spark()
- Apache Spark安装
- Apache Spark组件
- Spark Char Count示例
- Spark架构
- Mac的6款最佳视频编辑软件列表(包括 M1 Mac)
- Mac的5款最佳税务软件有哪些(哪个最好用?)
- Mac常用的最佳统计软件列表(更有效地分析数据)