本文概述
- 火花芯
- Spark SQL
- 火花流
- MLlib
- GraphX
【Apache Spark组件】让我们详细了解每个Spark组件。
文章图片
火花芯
- Spark Core是Spark的核心, 并执行核心功能。
- 它包含用于任务计划, 故障恢复, 与存储系统交互以及内存管理的组件。
- Spark SQL构建在Spark Core的顶部。它提供对结构化数据的支持。
- 它允许通过SQL(结构化查询语言)以及SQL的Apache Hive变体(称为HQL(Hive查询语言))查询数据。
- 它支持JDBC和ODBC连接, 这些连接在Java对象与现有数据库, 数据仓库和商业智能工具之间建立关系。
- 它还支持各种数据源, 例如Hive表, Parquet和JSON。
- Spark Streaming是一个Spark组件, 它支持流数据的可伸缩和容错处理。
- 它使用Spark Core的快速调度功能来执行流分析。
- 它接受小批处理中的数据并对该数据执行RDD转换。
- 它的设计确保了为流数据编写的应用程序可以在不做任何修改的情况下重用于分析历史数据批次。
- Web服务器生成的日志文件可以视为数据流的实时示例。
- MLlib是一个机器学习库, 其中包含各种机器学习算法。
- 这些包括相关性和假设检验, 分类和回归, 聚类以及主成分分析。
- 它比Apache Mahout使用的基于磁盘的实现快9倍。
- GraphX是用于处理图形和执行图形并行计算的库。
- 它有助于创建一个有向图, 其中每个顶点和边都具有任意属性。
- 为了操纵图, 它支持各种基本运算符, 例如子图, 联接顶点和聚合消息。
推荐阅读
- Apache Spark安装
- Spark Char Count示例
- Spark架构
- Mac的6款最佳视频编辑软件列表(包括 M1 Mac)
- Mac的5款最佳税务软件有哪些(哪个最好用?)
- Mac常用的最佳统计软件列表(更有效地分析数据)
- 12款Mac的最佳免费统计软件合集(哪一个最好())
- 5款Mac的最佳绘图软件(Microsoft Paint & Paint 3D替代品)
- Mac和Windows的10个最佳外汇交易平台合集