第十三章 HDFS 2.x新特性

一、集群间数据拷贝

1、scp实现两个远程主机之间的文件复制

<code># 推 push
scp -r hello.txt bigdata@bigdata102:/user/bigdata/hello.txt  

# 拉 pull
scp -r bigdata@bigdata102:/user/bigdata/hello.txt hello.txt      

# 是通过本地主机中转实现两个远程主机的文件复制;如果在两个远程主机之间ssh没有配置的情况下可以使用该方式。
scp -r bigdata@bigdata102:/user/bigdata/hello.txt bigdata@bigdata103:/user/bigdata/   /<code>

2、采用discp命令实现两个hadoop集群之间的递归数据复制

<code>[bigdata@bigdata101 hadoop-2.7.5]$  hadoop distcp hdfs://bigdata101:9000/user/bigdata/hello.txt hdfs://hadoop102:9000/user/bigdata/<code>


二、Hadoop存档

1、hdfs存储小文件弊端

每个文件均按块存储,每个块的元数据存储在 NameNode 的内存中,因此 hadoop 存储小文件会非常低效。因为大量的小文件会耗尽 NameNode 中的大部分内存。但注意,存储小文件所需要的磁盘容量和存储这些文件原始内容所需要的磁盘空间相比也不会增多。例如,一个1MB的文件以大小为128MB的块存储,使用的是1MB的磁盘空间,而不是128MB。


2、解决存储小文件办法之一

Hadoop存档文件或HAR文件,是一个更高效的文件存档工具,它将文件存入HDFS块,在减少NameNode内存使用的同时,允许对文件进行透明的访问。具体说来,Hadoop存档文件对内还是一个一个独立文件,对NameNode而言却是一个整体,减少了NameNode的内存。


3、案例实操

<code># 需要启动yarn进程
[bigdata@bigdata101 hadoop-2.7.5]$ start-yarn.sh

# 归档文件
# 把/user/bigdata/input目录里面的所有文件归档成一个叫input.har的归档文件,并把归档后文件存储到/user/bigdata/output路径下。
[bigdata@bigdata101 hadoop-2.7.5]$ bin/hadoop archive -archiveName input.har -p /user/bigdata/input   /user/bigdata/output

#查看归档
[bigdata@bigdata101 hadoop-2.7.5]$ hadoop fs -lsr /user/bigdata/input/input.har
[bigdata@bigdata101 hadoop-2.7.5]$ hadoop fs -lsr har:///user/bigdata/output/input.har

#解归档文件
[bigdata@bigdata101 hadoop-2.7.5]$ hadoop fs -cp har:///user/bigdata/output/input.har/* /user/bigdata/<code>


三、快照管理

快照相当于对目录做一个备份。并不会立即复制所有文件,而是指向同一个文件。当写入发生时,才会产生新文件。

1、基本语法

① hdfs dfsadmin -allowSnapshot 路径 (功能描述:开启指定目录的快照功能) ​ ② hdfs dfsadmin -disallowSnapshot 路径 (功能描述:禁用指定目录的快照功能,默认是禁用) ​ ③ hdfs dfs -createSnapshot 路径 (功能描述:对目录创建快照) ​ ④ hdfs dfs -createSnapshot 路径 名称 (功能描述:指定名称创建快照) ​ ⑤ hdfs dfs -renameSnapshot 路径 旧名称 新名称 (功能描述:重命名快照) ​ ⑥ hdfs lsSnapshottableDir (功能描述:列出当前用户所有可快照目录) ​ ⑦ hdfs snapshotDiff 路径1 路径2 (功能描述:比较两个快照目录的不同之处) ​ ⑧ hdfs dfs -deleteSnapshot <path> <snapshotname> (功能描述:删除快照)/<snapshotname>/<path>

2、案例实操

(1)开启/禁用指定目录的快照功能

<code>[bigdata@bigdata101 hadoop-2.7.5]$ hdfs dfsadmin -allowSnapshot /user/bigdata/input
[bigdata@bigdata101 hadoop-2.7.5]$ hdfs dfsadmin -disallowSnapshot /user/bigdata/input/<code>

(2)对目录创建快照

<code>[bigdata@bigdata101 hadoop-2.7.5]$ hdfs dfs -createSnapshot /user/bigdata/input

#通过web访问hdfs://bigdata101:50070/user/bigdata/input/.snapshot/s…..// 快照和源文件使用相同数据

[bigdata@bigdata101 hadoop-2.7.5]$ hdfs dfs -lsr /user/bigdata/input/.snapshot//<code>

(3)指定名称创建快照

<code>[bigdata@bigdata101 hadoop-2.7.5]$ hdfs dfs -createSnapshot /user/bigdata/input  testsnap/<code>

(4)重命名快照

<code>[bigdata@bigdata101 hadoop-2.7.5]$ hdfs dfs -renameSnapshot /user/bigdata/input/  testsnap new_testsnap/<code>

(5)列出当前用户所有可快照目录

<code>[bigdata@bigdata101 hadoop-2.7.5]$ hdfs lsSnapshottableDir/<code>

(6)比较两个快照目录的不同之处

<code>[bigdata@bigdata101 hadoop-2.7.5]$ hdfs snapshotDiff/<code>

(7)恢复快照

<code>[bigdata@bigdata101 hadoop-2.7.5]$ hdfs dfs -cp
/user/bigdata/input/.snapshot/s20200304-134303.027 /user/<code>


四、回收站

1、默认回收站 默认值fs.trash.interval=0,0表示禁用回收站,可以设置删除文件的存活时间。 默认值fs.trash.checkpoint.interval=0,检查回收站的间隔时间。如果该值为0,则该值设置和fs.trash.interval的参数值相等。 要求fs.trash.checkpoint.interval<=fs.trash.interval。

2、启用回收站

修改core-site.xml,配置垃圾回收时间为1分钟。

<code><property>
   <name>fs.trash.interval/<name>
   <value>1/<value>
/<property>/<code>

3.查看回收站

回收站在集群中的路径:/user/bigdata/.Trash/….

4.修改访问垃圾回收站用户名称

进入垃圾回收站用户名称,默认是dr.who,修改为bigdata用户

[core-site.xml]

<code><property>
 <name>hadoop.http.staticuser.user/<name>
 <value>bigdata/<value>
/<property>/<code>


5、通过程序删除的文件不会经过回收站,需要调用moveToTrash()才进入回收站

<code>Trash trash = New Trash(conf);
trash.moveToTrash(path);/<code>

6、恢复回收站数据

<code>[bigdata@bigdata101 hadoop-2.7.5]$ hadoop fs -mv
/user/bigdata/.Trash/Current/user/bigdata/input   /user/bigdata/input/<code>

7、清空回收站

<code>[bigdata@bigdata101 hadoop-2.7.5]$ hadoop fs -expunge/<code>



分享到:


相關文章: