大数据的数据多样性和分析需求的多元化等,促使众多技术组件产生,还使得大数据的技术体系变得非常复杂,可以划分为数据采集,数据存储,管理调度(包括资源管理、服务协调和工作流调度)、计算分析和组件应用
1.数据采集:主要由关系型与非关系型数据采集组件,以及分布式消息队列等构成,如sqoop、Flume、Scnbe和Kafka等
2.数据存储:主要由分布式文件系统、关系型数据库和非关系型数据库等构成,如HDFS、MYSQL、HBase、Kudu、Redis和Neo4j等
3.管理调度:主要包含统一资源管理与调度系统YARN,容器集群管理系统Kkubernetes,服务协调系统ZooKeeper,以及工作流调度平台AZKaban等
4.计算分析:包含批处理、流计算、查询分析和图计算这4种计算方式,工作有批处理框架MapReduce、流计算框架Flink、查询分析引擎lmpala和图计算引擎Gelly等
5.组件应用:包含多种数据分析和机器学习工具,如Hive、Pig、Mahout和TensorFlow等
【big|大数据测试技术与实践之大数据技术生态总览】上述层之间存在依赖关系,如计算分析层依赖数据存储层、组件应用层依赖计算分析层,下文将对各层中的关键组件进行介绍。
推荐阅读
- 大数据|腾讯云云原生数据湖DLC重磅推出免运维、零成本、高性能spark shuffle manager
- hadoop|Hadoop框架和四大组件简介
- hadoop|Hadoop(三)
- hadoop|hadoop(五)
- #|canal同步MySQL数据到Elasticsearch
- 计算机专业技术|大数据编程技术——期末复习
- spark|6. 从ods(贴源层)到 dwd(数据明细层)的两种处理方式(spark)-dsl
- vue+springboot|基于vue+springboot的校园疫情健康打卡和离校审批系统的设计 (百度地图API对接)
- #|数据分析——RFM模型