寰寰闲话:2018年4月发布了Hadoop 3.1.0,稍微整理下,本博客大概涉及:
- Hadoop 3的特性
- Hadoop 3 HDFS 完全分布式环境搭建简述
关于HDFS高可用及实现原理和环境搭建我将在下个博客详细解释, 其它类似于Zookeeper,MapReduce,Hive,Hbase 等陆续再更新,供大家参考学习!零基础来学Hadoop大数据分析。(大晚上的,博主表示想吃大鸡腿了。。。)
1.classpath isolation
防止不同版本的jar包发生冲突
2.shell重写
启动脚本和其他版本还是有些不同的地方
3.支持HDFS中的擦除编码
4.MapReduce任务级本地优化及内存参数自动推断
5.端口 3版本和其它的有些不同,可查下相关资料
1.2 Hadoop 3 HDFS集群架构
文章图片
NameNode:接受客户端的读写服务,比如文件的上传和下载,保存元数据,包括
文件大小、文件创建时间、文件的拥有者、权限、路径和文件名。元数据存放在内
存中,不会和磁盘发生交互。
Data Node:简称DN,与 Name Node对应,主要用来存储数据内容,本地磁盘目录
存储数据块( Block),以文件形式分别存储在不同的 Data Node节点上,同时存储
Block的元数据信息文件。
Secondary NameNode:前面提到 NameoNode的元数据存储在内存中,为了保证数
据不丢失,需要将数据保存起来,这里涉及的文件包括 fsimage和 edits 。fsimage
是整个元数据文件,在集群刚开始搭建时是空的,对元数据增删改的操作放到 edits
文件中。 Secondary NameNode完成数据的合并操作,每隔3600秒更新一次。
1.3关于Hadoop 3 HDFS完全分布式搭建简述
这里就简单介绍搭建步骤。首先是准备3台机器作为3个节点
1.安装JDK 及配置JDK环境变量
rpm -ivh jdk-8u171-linux-x64.rpm 装好后 可以用java -version来查看一下
在bash_profile中配置JAVA_HOME
2.配置免密码登录
3.配置IP和主机名字映射关系
4.SSH免密码登录设置(这部分后期我再详细说一下)
5.配置Hadoop,包括hadoop-env.sh文件,core-site.xml hdfs-site.xml 和workers文件
配置好后,将Hadoop复制到其它节点然后格式化(hdfs namenode -format),就可以启动试一下(start -dfs.sh)通过jps查看不同进程即可。用浏览器查看监听页面(输入http://ip:9870)
【大数据|Hadoop大数据分析 基于Hadoop 3的HDFS高可用(一) --Hadoop 3的特性及环境搭建简述】附:万分感谢**《从零开始学大数据分析》**这本书,博客内容大抵整理于此书,只做为学习参考,若有错误欢迎大家指正!
推荐阅读
- 人工智能|干货!人体姿态估计与运动预测
- Python专栏|数据分析的常规流程
- 读书笔记|《白话大数据和机器学习》学习笔记1
- 网络|一文彻底搞懂前端监控
- html5|各行业工资单出炉 IT类连续多年霸占“榜首”位置
- 人工智能|【机器学习】深度盘点(详细介绍 Python 中的 7 种交叉验证方法!)
- 网络|简单聊聊压缩网络
- 数据库|效率最高的Excel数据导入---(c#调用SSIS Package将数据库数据导入到Excel文件中【附源代码下载】)...
- r语言|手把手(R语言文本挖掘和词云可视化实践)
- 腾讯|SaaS的收入模型有哪些(终于有人讲明白了)