大数据|Hadoop大数据分析基于Hadoop 3的HDFS高可用(一) --Hadoop 3的特性及环境搭建简述 hdfs|大数据|Hadoop。

寰寰闲话：2018年4月发布了Hadoop 3.1.0，稍微整理下，本博客大概涉及：

Hadoop 3的特性
Hadoop 3 HDFS 完全分布式环境搭建简述
关于HDFS高可用及实现原理和环境搭建我将在下个博客详细解释，其它类似于Zookeeper，MapReduce，Hive，Hbase 等陆续再更新，供大家参考学习！零基础来学Hadoop大数据分析。（大晚上的，博主表示想吃大鸡腿了。。。）

1.1 Hadoop 3 特性
1.classpath isolation
防止不同版本的jar包发生冲突
2.shell重写
启动脚本和其他版本还是有些不同的地方
3.支持HDFS中的擦除编码
4.MapReduce任务级本地优化及内存参数自动推断
5.端口 3版本和其它的有些不同，可查下相关资料
1.2 Hadoop 3 HDFS集群架构

大数据|Hadoop大数据分析基于Hadoop 3的HDFS高可用(一) --Hadoop 3的特性及环境搭建简述

文章图片

NameNode：接受客户端的读写服务，比如文件的上传和下载，保存元数据，包括
文件大小、文件创建时间、文件的拥有者、权限、路径和文件名。元数据存放在内
存中，不会和磁盘发生交互。
Data Node：简称DN，与 Name Node对应，主要用来存储数据内容，本地磁盘目录
存储数据块( Block)，以文件形式分别存储在不同的 Data Node节点上，同时存储
Block的元数据信息文件。
Secondary NameNode：前面提到 NameoNode的元数据存储在内存中，为了保证数
据不丢失，需要将数据保存起来，这里涉及的文件包括 fsimage和 edits 。fsimage
是整个元数据文件，在集群刚开始搭建时是空的，对元数据增删改的操作放到 edits
文件中。 Secondary NameNode完成数据的合并操作，每隔3600秒更新一次。
1.3关于Hadoop 3 HDFS完全分布式搭建简述
这里就简单介绍搭建步骤。首先是准备3台机器作为3个节点
1.安装JDK 及配置JDK环境变量
rpm -ivh jdk-8u171-linux-x64.rpm 装好后可以用java -version来查看一下
在bash_profile中配置JAVA_HOME
2.配置免密码登录
3.配置IP和主机名字映射关系
4.SSH免密码登录设置（这部分后期我再详细说一下）
5.配置Hadoop，包括hadoop-env.sh文件，core-site.xml hdfs-site.xml 和workers文件
配置好后，将Hadoop复制到其它节点然后格式化（hdfs namenode -format),就可以启动试一下（start -dfs.sh）通过jps查看不同进程即可。用浏览器查看监听页面（输入http://ip:9870）
【大数据|Hadoop大数据分析基于Hadoop 3的HDFS高可用(一) --Hadoop 3的特性及环境搭建简述】附：万分感谢**《从零开始学大数据分析》**这本书，博客内容大抵整理于此书，只做为学习参考，若有错误欢迎大家指正！