hdfs源码分析 pdf

【hdfs源码分析 pdf】hadoop2.x用什么技术构建源代码?hadoop2.x使用maven技术构建源代码 。MapReduceMapReduce是Hadoop的主要执行框架,它是一个分布式并行数据处理的编程模型,将作业分为映射阶段和归约阶段,HadoophdfsMetadata journalnodeeditslogfsimage截图有先后顺序 , 所以有一定延迟,但不耽误整体理解(activennannactivenamenodesnnstandbynnstandbynamenodejournalnodejnedits _ logelogFsimagefsg)一般认为journalnode有2n 1个集合,如果大于等于n 1个集合 , 则认为写jn成功 。

HDFS在1、四.(一Hadoop中的优缺点HDFS的优点:1 。处理超大文件这里的超大文件通常是指大小为100 MB甚至上百TB的文件 。目前,在实际应用中,HDFS可以用来存储和管理PB级的数据 。2.流访问数据HDFS的设计基于“一次写入,多次读写”的任务 。这意味着数据源一旦生成数据集 , 就会被复制分发到不同的存储节点,然后响应各种数据/任务请求 。

3.Hadoop设计运行在低成本的商用机器集群上,对紧急性要求低 , 只需要运行在低成本的商用硬件集群上,而不是昂贵的高可用机器上 。廉价的商用机器也意味着大型集群中节点失效的概率非常高 。当HDFS遇到上述故障时,它被设计为能够继续运行,而用户不会注意到明显的中断 。HDFS的缺点:1 .它不适合低延迟的数据访问 。如果你想处理一些低延迟的应用请求,用户要求不高 , HDFS并不适合 。

2、HDFS纠删码 Copy贵 。HDFS的默认3拷贝机制有200%的存储空间和其他资源(如网络带宽)开销 。但是 , 与具有低I/O活动的热数据集和冷数据集相比,额外的副本在正常操作期间很少被访问,但仍然消耗与第一个副本相同的资源量 。因此,一个自然的改进是使用擦除码而不是复制机制,这使用更少的存储空间来提供相同的容错级别 。典型的擦除代码设置将使存储空间开销小于50% 。EC文件的复制因子是无意义的,它始终保持为1,并且EC的复制因子的值不能被命令setrep修改

RAID使用条带化EC,它将逻辑上连续的数据(如文件)提供给更小的单元(如位、字节或块),并将连续的单元存储在不同的磁盘上 。在本指南的其余部分,此条带分布单元称为条带单元(或单元) 。对于每个条带原始数据单元,计算并存储一定数量的奇偶校验单元,称为编码 。通过解码和计算剩余的数据和奇偶校验单元,可以恢复任何条带单元的错误 。

    推荐阅读