但使书种多,会有岁稔时。这篇文章主要讲述0004 - DataNode工作机制解析相关的知识,希望能为你提供帮助。
大数据梦工厂(0004 - DataNode工作机制解析)
1 - 基本描述DataNode 通常是群集中每个节点部署一个,用于存储数据,负责提供客户端的读写请求,并且根据 NameNode 的指令执行数据块的创建、删除、追加和复制等操作。
DataNode 三大功能:
- 负责管理所在节点上存储数据的读写,及存储每个文件的数据块。
- 定期向 NameNode 报告该节点的数据块元数据信息。
- 执行数据的流水线复制。
文章图片
DataNode 上的数据块以文件形式存储在本地磁盘上,包括两个文件:
- 文件的数据块;
- 数据块元数据(长度、校验和、时间戳)。
- 每 3 秒向 NameNode 上报所有的数据块元数据信息;
- 心跳返回结果带有 NameNode 给该 DataNode 的执行命令,如:数据复制和删除等操作命令。
超时时长
。HDFS 默认的超时时长为 10分钟 + 30秒
。如果定义超时时间为 timeout,则超时时长的计算公式为:timeout = 2 * dfs.namenode.heartbeat.recheck-interval + 10 * dfs.heartbeat.interval
dfs.namenode.heartbeat.recheck-interval 默认为 5分钟,
dfs.heartbeat.interval 默认为 3秒。
因此,总的超时时间为:10分钟 + 30秒
通过
hdfs-site.xml
配置文件,修改超时时长和心跳间隔。<
property>
<
name>
dfs.namenode.heartbeat.recheck-interval<
/name>
<
value>
300000<
/value>
<
description>
心跳重新检查间隔(毫秒)<
/description>
<
/property>
<
property>
<
name>
dfs.heartbeat.interval<
/name>
<
value>
3<
/value>
<
description>
心跳间隔(秒)<
/description>
<
/property>
4 - 文件格式进入某一个 DataNode 节点,找到数据块存储的路径,如下所示:
[root@hadoop-01 ~]# ls -l /data1/dfs/dn/current/BP-1494942513-172.20.4.81-1610618575835/current/finalized/subdir99/subdir99/
total 16
-rw-r--r-- 1 hdfs hdfs 49 Jul8 16:51 blk_1080255312
-rw-r--r-- 1 hdfs hdfs 11 Jul8 16:51 blk_1080255312_6514554.meta
-rw-r--r-- 1 hdfs hdfs 49 Jul8 16:51 blk_1080255316
-rw-r--r-- 1 hdfs hdfs 11 Jul8 16:51 blk_1080255316_6514558.meta
文章图片
可以看出,HDFS 数据块的文件名组成格式为:
- blk_*:数据块,保存具体的二进制数据;
- blk_*.meta:数据块的属性信息(版本、类型信息)。
hadoop-hdfs-2.7.jar
里面的 hdfs-default.xml
文件的相关配置,设置相关 DataNode 数据目录
。如下所示:<
property>
<
name>
dfs.datanode.data.dir<
/name>
<
value>
file://${hadoop.tmp.dir}01/dfs/data,file://${hadoop.tmp.dir}02/dfs/data<
/value>
<
/property>
6 - Hadoop Archives 6.1 - 简介
Hadoop Archives 是特殊的归档格式
。Hadoop Archive 映射到文件系统目录,且后缀名为 *.har
。Hadoop 归档目录包含元数据(采用 _index 和 _masterindx 的形式)和数据(part-*)文件。_index 文件包含了归档文件的文件名和位置信息。文章图片
6.2 - 应用场景HDFS 适合存储海量数据的大文件。但并不擅长存储小文件,因为每个文件最少一个 Block,每个 Block 的元数据都会占用 NameNode 中的内存。
如果存在大量的小文件,它们会占用 NameNode 的大量内存,导致 NameNode 和 DataNode 交互变得缓慢,甚至会耗尽 NameNode 中的内存。
因此,Hadoop Archives 可以有效的处理以上问题,降低集群的 Blocks 数量减轻 NameNode 压力。它可以把多个文件归档成为一个大文件,归档成一个文件后还可以透明的访问每一个文件。
6.3 - 实践操作1、创建目录
# 创建3个目录
[root@hadoop-01 ~]# hdfs dfs -mkdir /tmp/test/dir1
[root@hadoop-01 ~]# hdfs dfs -mkdir /tmp/test/dir2
[root@hadoop-01 ~]# hdfs dfs -mkdir /tmp/test/dir3
文章图片
2、上传小文件
[root@hadoop-01 ~]# ls -l
total 12
-rw-r--r-- 1 root root 12 Aug 24 14:05 1.txt
-rw-r--r-- 1 root root 12 Aug 24 14:05 2.txt
-rw-r--r-- 1 root root 12 Aug 24 14:05 3.txt
[root@hadoop-01 ~]# hdfs dfs -put 1.txt /tmp/test/dir1
[root@hadoop-01 ~]# hdfs dfs -put 2.txt /tmp/test/dir2
[root@hadoop-01 ~]# hdfs dfs -put 3.txt /tmp/test/dir3
[root@hadoop-01 ~]# hdfs dfs -cat /tmp/test/dir1/1.txt
hello 1.txt
文章图片
3、创建存放归档文件目录
[root@hadoop-01 ~]# hdfs dfs -mkdir /tmp/zoo
4、创建归档
[root@hadoop-01 ~]# hadoop archive -archiveName test.har -p /tmp/test dir1 dir2 dir3 /tmp/zoo/
文章图片
5、查看归档文件
[root@hadoop-01 ~]# hdfs dfs -ls /tmp/zoo/test.har
Found 4 items
-rw-r--r--3 hdfs supergroup02021-08-24 14:20 /tmp/zoo/test.har/_SUCCESS
-rw-r--r--3 hdfs supergroup4392021-08-24 14:20 /tmp/zoo/test.har/_index
-rw-r--r--3 hdfs supergroup232021-08-24 14:20 /tmp/zoo/test.har/_masterindex
-rw-r--r--3 hdfs supergroup362021-08-24 14:20 /tmp/zoo/test.har/part-0
文章图片
6、使用 har URL 访问
索引、标识等文件会被隐藏,只显示创建归档前的原文件
[root@hadoop-01 ~]# hdfs dfs -ls har:///tmp/zoo/test.har
Found 3 items
drwxr-xr-x- hdfs supergroup0 2021-08-24 13:56 har:///tmp/zoo/test.har/dir1
drwxr-xr-x- hdfs supergroup0 2021-08-24 13:56 har:///tmp/zoo/test.har/dir2
drwxr-xr-x- hdfs supergroup0 2021-08-24 13:56 har:///tmp/zoo/test.har/dir3
[root@hadoop-01 ~]# hdfs dfs -cat har:///tmp/zoo/test.har/dir1/1.txt
hello 1.txt
文章图片
7、解除归档文件
# 使用 cp 解除归档
[root@hadoop-01 ~]# hdfs dfs -cp har:///tmp/zoo/test.har/dir1 /tmp
# 使用 distcp 解除归档,使用 Map/Reduce job
[root@hadoop-01 ~]# hadoop distcp har:///tmp/zoo/test.har/dir1 /tmp
[root@hadoop-01 ~]#
[root@hadoop-01 ~]# hdfs dfs -ls /tmp
Found 3 items
drwxr-xr-x- hdfssupergroup0 2021-08-24 14:40 /tmp/dir1
drwxr-xr-x- hdfssupergroup0 2021-08-24 13:54 /tmp/test
drwxr-xr-x- hdfssupergroup0 2021-08-24 14:20 /tmp/zoo
[root@hadoop-01 ~]# hdfs dfs -ls /tmp/dir1
Found 1 items
-rw-r--r--3 hdfs supergroup12 2021-08-24 14:40 /tmp/dir1/1.txt
[root@hadoop-01 ~]# hdfs dfs -cat /tmp/dir1/1.txt
hello 1.txt
文章图片
6.4 - 总结由 Hadoop Archives 操作,可以得出以下结论:
- archives 能将多个小文件合并归档为一个大的 har 文件;
- 创建 archives 是一个 Map/Reduce 任务,需在 MapReduce 集群上运行;
- 创建 archive 归档文件要消耗和原文件一样多的磁盘空间;
- 创建 archive 后是不可更改的,重命名、删除和创建都会返回错误;
- 当创建 archive 时,源文件不会被更改或删除;
- MapReduce 可以使用 archives 中的所有 har 文件作为输入。
HDFS 内部具体实现则是
在 NameNode 中启动一个后台线程(Emptier)
,该线程专门管理和监控文件系统回收站下面的文件,对于放进回收站的文件且超过生命周期,就会自动删除。通过修改
core-site.xml
文件的相关配置,如下所示:<
property>
<
name>
fs.trash.interval<
/name>
<
value>
1<
/value>
<
/property>
fs.trash.interval=0
,表示禁用回收站机制,1 表示开启。::: hljs-center
扫一扫,我们的故事就开始了。
:::
文章图片
推荐阅读
- Java如何连接数据库及基本操作 超详细
- 展开命令行及脚本安全和set
- 解决 树莓派ping: baidu.com: 域名解析暂时失败
- oeasy教您玩转vim - 40 - # 复制粘贴
- AMD的CPU上在VMware下成功安装mac os 10.12
- Docker Desktop 收费之后,神网友弄了个替代方案
- Debian10.3.0 系统在 VMware 虚拟机安装及后续配置简述
- JavaScript简介-JavaScript入门基础(001)
- jdbc连接Oracle数据库