从0开始用docker搭建|从0开始用docker搭建 hadoop分布式环境

* 以下命令均是在centos7使用root用户操作

  1. 在centos7中安装docker :
yum install -y docker
  1. 启动docker服务:
service docker start
  1. 从阿里云的仓库拉取一个具有jdk和hadoop环境的一个基础镜像,当然也可以自己一步一步配置 ,在这里我就直接拉取一个基础镜像来使用
docker pull registry.cn-hangzhou.aliyuncs.com/kaibb/hadoop


  1. 拉取成功后,利用docker image 可以看到拉取的基础镜像已经在电脑里面了 从0开始用docker搭建|从0开始用docker搭建 hadoop分布式环境
    文章图片
    镜像.png
  2. 接下来通过docker镜像启动三个容器 ,分别为hadoop0,hadoop1和hadoop2
docker run -it --name hadoop0 -h hadoop0 [拉取的镜像名称] /bin/bash
  • -i: 以交互模式运行容器,通常与 -t 同时使用;
  • -t: 为容器重新分配一个伪输入终端,通常与 -i 同时使用;
  • --name: 为容器指定一个名称;


  • -h:指定容器的主机名; 从0开始用docker搭建|从0开始用docker搭建 hadoop分布式环境
    文章图片
    启动容器.png
  1. 现在我么你已经启动了一个docker容器 ;重复上面操作创建hadoop1和hadoop2
    然后在这个容器里面已经安装好了jdk和hadoop ,我们可以利用hadoop version和java -version 查看。

    从0开始用docker搭建|从0开始用docker搭建 hadoop分布式环境
    文章图片
    hadoop版本.png 从0开始用docker搭建|从0开始用docker搭建 hadoop分布式环境
    文章图片
    jdk版本.png
  2. 经过上面的操作后,我们可以使用 ctrl +d 退出容器,回到centos7虚拟机中 ,使用
docker exec -it 【容器名】/bin/bash
可以启动容器
  • docker attach 【容器名】也可以启动容器,但是当我们ctrl+d退出容器后。容器就会自动关闭,下次还要用docker start 【容器名】启动容器,所以我们选择上面那条命令启动,然后用docker ps 命令来查看我们当前运行的容器
docker ps
![当前容器.png]@$N@)K~@SMZCN.png
  1. 经过以上操作后我们的集群基本环境就好了,接下来我们来配置单个容器hadoop环境
    ①: 先配置SSH,配置无密的SSH
/etc/init.d/ssh start
启动sshd服务
生成密钥

从0开始用docker搭建|从0开始用docker搭建 hadoop分布式环境
文章图片
密钥.png
现在我们生成的密钥存放在/root/.ssh/id_rsa.pub 中

从0开始用docker搭建|从0开始用docker搭建 hadoop分布式环境
文章图片
密钥.png
  1. 将密钥写入 /root/.ssh/authorized_keys 中
cat /root/.ssh/id_rsa.pub > /root/.ssh/authorized_keys
从0开始用docker搭建|从0开始用docker搭建 hadoop分布式环境
文章图片
写入密钥.png


  1. 写入成功后,使用 ssh localhost 可以登上本机,代表设置成功 从0开始用docker搭建|从0开始用docker搭建 hadoop分布式环境
    文章图片
    设置成功.png
  2. 将三台机器的密钥全都写入hadoop0的 /root/.ssh/authorized_keys中 ,


    如下图所示: 从0开始用docker搭建|从0开始用docker搭建 hadoop分布式环境
    文章图片
    写入三台机器的密钥.png
  3. 配置hadoop0的ip与主机名的映射表
    首先查看本容器ip地址:
ip addr
从0开始用docker搭建|从0开始用docker搭建 hadoop分布式环境
文章图片
查看ip.png
分别获取到三台机器的IP ,写入下列文件
vim /etc/hosts
从0开始用docker搭建|从0开始用docker搭建 hadoop分布式环境
文章图片
主机名与ip的映射表.png
保存退出后
如果使用ssh hadoop1 命令能够直接登陆到hadoop1 ,说明以上操作成功,那么我们继续下面操作

从0开始用docker搭建|从0开始用docker搭建 hadoop分布式环境
文章图片
配置成功.png
  1. 现在我们来配置hadoop运行环境,刚才我们从阿里云仓库拉取的镜像jdk和hadoop均是放在/opt/tools/文件夹下的 ,然后我们进入到/opt/tools/hadoop/etc/hadoop目录下;
    我们需要配置下面几个文件
    ①:hadoop-env.sh:修改有关java的环境
    修改第25行的java环境
export JAVA_HOME=/opt/tools/jdk1.8.0_77
②:配置core-site.xml
fs.defaultFS hdfs://hadoop0:9000 hadoop.tmp.dir /hadoop/tmp fs.trash.interval 1440

fs.defaultFS:表示集群namenode的地址
hadoop.tmp.dir:表示临时文件路径
fs.trash.interval:表示回收站的保留时间(分钟),也即hdfs的文件删除后,在回收站里面保留的时长
③:配置hdfs-site.xml
dfs.replication 1 dfs.datanode.data.dir /hadoop/data dfs.namenode.name.dir /hadoop/name dfs.namenode.checkpoint.dir /home/ahadoop/hadoop-data/checkpoint dfs.blocksize 134217728

dfs.replication:表示hdfs的数据块备份数量,默认是3
dfs.datanode.data.dir :表示datanode的数据路径
dfs.namenode.name.dir:表示namenode的数据路径
dfs.namenode.checkpoint.dir:表示checkpoint的数据路径
dfs.blocksize:表示数据块的大小,此处设置为128M
④:配置mapred-site.xml
mapreduce.framework.name yarn

mapreduce.framework.name:表示使用的yarn框架
⑤:配置yarn-site.xml
yarn.resourcemanager.address Master:8032 yarn.resourcemanager.scheduler.address hadoop0:8030 yarn.resourcemanager.resource-tracker.address hadoop0:8031 yarn.resourcemanager.admin.address hadoop0:8033 yarn.resourcemanager.webapp.address hadoop0:8088 yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.aux-services.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler

  • yarn.resourcemanager.address : 表示resourcemanager的地址
  • yarn.resourcemanager.webapp.address : 表示resourcemanager的网页访问地址和端口;
  • yarn.nodemanager.aux-services:NodeManager上运行的附属服务,需配置成mapreduce_shuffle,才可运行MapReduce程序,否则会报错;
    ⑥:修改hadoop0中hadoop的一个配置文件etc/hadoop/slaves
    删除原来的所有内容,修改为如下

    从0开始用docker搭建|从0开始用docker搭建 hadoop分布式环境
    文章图片
    配置节点.png
  1. 做完上述操作后
    我们通过scp命令将所有配置全部发送到其他容器
scp -rq /opt/tools/hadoop/ hadoop1:/opt/tools/hadoop/

scp /etc/hosts hadoop1:/etc/hosts

scp /root/.ssh/authorized_keys hadoop1:/root/.ssh/authorized_keys

![]SQ7TSJACFC@LYOO(NR]]_I.png](http://upload-images.jianshu.io/upload_images/6071674-ee56bb6751d68ae5.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
到这里为止,所有的配置工作都做好了。
然后格式化namenode
hadoop namenode -format
没有报错则代表刚才的配置成功了,有报错的话需要根据报错查找问题
从0开始用docker搭建|从0开始用docker搭建 hadoop分布式环境
文章图片
格式化成功.png 接着启动集群
cd /opt/tools/hadoop/sbin/
./start-all.sh
【从0开始用docker搭建|从0开始用docker搭建 hadoop分布式环境】分布式集群就启动了

    推荐阅读