大数据|Hadoop大数据分析 基于Hadoop 3的HDFS高可用(一) --Hadoop 3的特性及环境搭建简述

寰寰闲话:2018年4月发布了Hadoop 3.1.0,稍微整理下,本博客大概涉及:

  1. Hadoop 3的特性
  2. Hadoop 3 HDFS 完全分布式环境搭建简述
    关于HDFS高可用及实现原理和环境搭建我将在下个博客详细解释, 其它类似于Zookeeper,MapReduce,Hive,Hbase 等陆续再更新,供大家参考学习!零基础来学Hadoop大数据分析。(大晚上的,博主表示想吃大鸡腿了。。。)
1.1 Hadoop 3 特性
1.classpath isolation
防止不同版本的jar包发生冲突
2.shell重写
启动脚本和其他版本还是有些不同的地方
3.支持HDFS中的擦除编码
4.MapReduce任务级本地优化及内存参数自动推断
5.端口 3版本和其它的有些不同,可查下相关资料
1.2 Hadoop 3 HDFS集群架构大数据|Hadoop大数据分析 基于Hadoop 3的HDFS高可用(一) --Hadoop 3的特性及环境搭建简述
文章图片

NameNode:接受客户端的读写服务,比如文件的上传和下载,保存元数据,包括
文件大小、文件创建时间、文件的拥有者、权限、路径和文件名。元数据存放在内
存中,不会和磁盘发生交互。
Data Node:简称DN,与 Name Node对应,主要用来存储数据内容,本地磁盘目录
存储数据块( Block),以文件形式分别存储在不同的 Data Node节点上,同时存储
Block的元数据信息文件。
Secondary NameNode:前面提到 NameoNode的元数据存储在内存中,为了保证数
据不丢失,需要将数据保存起来,这里涉及的文件包括 fsimage和 edits 。fsimage
是整个元数据文件,在集群刚开始搭建时是空的,对元数据增删改的操作放到 edits
文件中。 Secondary NameNode完成数据的合并操作,每隔3600秒更新一次。
1.3关于Hadoop 3 HDFS完全分布式搭建简述
这里就简单介绍搭建步骤。首先是准备3台机器作为3个节点
1.安装JDK 及配置JDK环境变量
rpm -ivh jdk-8u171-linux-x64.rpm 装好后 可以用java -version来查看一下
在bash_profile中配置JAVA_HOME
2.配置免密码登录
3.配置IP和主机名字映射关系
4.SSH免密码登录设置(这部分后期我再详细说一下)
5.配置Hadoop,包括hadoop-env.sh文件,core-site.xml hdfs-site.xml 和workers文件
配置好后,将Hadoop复制到其它节点然后格式化(hdfs namenode -format),就可以启动试一下(start -dfs.sh)通过jps查看不同进程即可。用浏览器查看监听页面(输入http://ip:9870)
【大数据|Hadoop大数据分析 基于Hadoop 3的HDFS高可用(一) --Hadoop 3的特性及环境搭建简述】附:万分感谢**《从零开始学大数据分析》**这本书,博客内容大抵整理于此书,只做为学习参考,若有错误欢迎大家指正!

    推荐阅读