hadoop|Hadoop | 【02】架构简介


文章目录

    • 一、hadoop简介
      • 1.1 特性
    • 二、HDFS架构
    • 二、YARN 架构
    • 三、MapReduce架构
    • 四、HDFS、YARN、MapReduce三者关系

一、hadoop简介
Hadoop 是由Apache开发的分布式系统的基础架构,主要解决海量数据的存储和分析计算问题;
1.1 特性
高可靠性:
底层维护多个数据副本,若某个存储出现故障,也不会丢失数据;
高扩展性:
可动态扩张,在集群中分配任务数据;
高效性:
在MapReduce下,能够并行工作,提高处理速度;
高容错性:
能够自动将失败的任务重新分配;
若其中一台服务器宕机,则能够自动将任务分配给其他服务器运作;
二、HDFS架构
该架构是一个分布式文件系统;
hadoop|Hadoop | 【02】架构简介
文章图片

  • NameNode:存储文件的元数据;【文件名、文件属性、文件的块列表、以及所在的DataNode】;
  • DataNode:本地文件系统存储文件系统以及块数据的校验和
  • SNameNode:每隔一段时间就将NameNode的数据进行备份
二、YARN 架构
Yet Another Resource Negotiator简称YARN ,另一种资源协调者,是Hadoop的资源管理器;
在hadoop1.x版本中,没有该架构,直至2.x才出现;是由1.x中的MapReduce分离出来的;
  • ResourceManager(RM):管理整个集群资源;
  • NodeManager(NM):管理节点服务器资源;
  • ApplicationMaster(AM):管理单任务运行;
  • Container:相当于独立的服务器,能够运行任务;
hadoop|Hadoop | 【02】架构简介
文章图片

三、MapReduce架构
该过程分为两阶段:
  • Map阶段并行处理输入数据;
  • Reduce阶段对Map结果进行汇总;
hadoop|Hadoop | 【02】架构简介
文章图片

四、HDFS、YARN、MapReduce三者关系 【hadoop|Hadoop | 【02】架构简介】hadoop|Hadoop | 【02】架构简介
文章图片

    推荐阅读