第十三章 HDFS 2.x新特性技术頭條網

一、集群间数据拷贝

1、scp实现两个远程主机之间的文件复制

<code># 推 push
scp -r hello.txt bigdata@bigdata102:/user/bigdata/hello.txt   

# 拉 pull
scp -r bigdata@bigdata102:/user/bigdata/hello.txt hello.txt       

# 是通过本地主机中转实现两个远程主机的文件复制；如果在两个远程主机之间ssh没有配置的情况下可以使用该方式。
scp -r bigdata@bigdata102:/user/bigdata/hello.txt bigdata@bigdata103:/user/bigdata/   /<code>

2、采用discp命令实现两个hadoop集群之间的递归数据复制

<code>[bigdata@bigdata101 hadoop-2.7.5]$  hadoop distcp hdfs://bigdata101:9000/user/bigdata/hello.txt hdfs://hadoop102:9000/user/bigdata/<code>

二、Hadoop存档

1、hdfs存储小文件弊端

每个文件均按块存储，每个块的元数据存储在 NameNode 的内存中，因此 hadoop 存储小文件会非常低效。因为大量的小文件会耗尽 NameNode 中的大部分内存。但注意，存储小文件所需要的磁盘容量和存储这些文件原始内容所需要的磁盘空间相比也不会增多。例如，一个1MB的文件以大小为128MB的块存储，使用的是1MB的磁盘空间，而不是128MB。

2、解决存储小文件办法之一

Hadoop存档文件或HAR文件，是一个更高效的文件存档工具，它将文件存入HDFS块，在减少NameNode内存使用的同时，允许对文件进行透明的访问。具体说来，Hadoop存档文件对内还是一个一个独立文件，对NameNode而言却是一个整体，减少了NameNode的内存。

3、案例实操

<code># 需要启动yarn进程
[bigdata@bigdata101 hadoop-2.7.5]$ start-yarn.sh

# 归档文件
# 把/user/bigdata/input目录里面的所有文件归档成一个叫input.har的归档文件，并把归档后文件存储到/user/bigdata/output路径下。
[bigdata@bigdata101 hadoop-2.7.5]$ bin/hadoop archive -archiveName input.har -p /user/bigdata/input   /user/bigdata/output

#查看归档
[bigdata@bigdata101 hadoop-2.7.5]$ hadoop fs -lsr /user/bigdata/input/input.har
[bigdata@bigdata101 hadoop-2.7.5]$ hadoop fs -lsr har:///user/bigdata/output/input.har

#解归档文件
[bigdata@bigdata101 hadoop-2.7.5]$ hadoop fs -cp har:///user/bigdata/output/input.har/* /user/bigdata/<code>

三、快照管理

快照相当于对目录做一个备份。并不会立即复制所有文件，而是指向同一个文件。当写入发生时，才会产生新文件。

1、基本语法

① hdfs dfsadmin -allowSnapshot 路径（功能描述：开启指定目录的快照功能） ② hdfs dfsadmin -disallowSnapshot 路径（功能描述：禁用指定目录的快照功能，默认是禁用） ③ hdfs dfs -createSnapshot 路径（功能描述：对目录创建快照） ④ hdfs dfs -createSnapshot 路径名称（功能描述：指定名称创建快照） ⑤ hdfs dfs -renameSnapshot 路径旧名称新名称（功能描述：重命名快照） ⑥ hdfs lsSnapshottableDir （功能描述：列出当前用户所有可快照目录） ⑦ hdfs snapshotDiff 路径1 路径2 （功能描述：比较两个快照目录的不同之处） ⑧ hdfs dfs -deleteSnapshot <path> <snapshotname> （功能描述：删除快照）/<snapshotname>/<path>

2、案例实操

（1）开启/禁用指定目录的快照功能

<code>[bigdata@bigdata101 hadoop-2.7.5]$ hdfs dfsadmin -allowSnapshot /user/bigdata/input
[bigdata@bigdata101 hadoop-2.7.5]$ hdfs dfsadmin -disallowSnapshot /user/bigdata/input/<code>

（2）对目录创建快照

<code>[bigdata@bigdata101 hadoop-2.7.5]$ hdfs dfs -createSnapshot /user/bigdata/input

#通过web访问hdfs://bigdata101:50070/user/bigdata/input/.snapshot/s…..// 快照和源文件使用相同数据

[bigdata@bigdata101 hadoop-2.7.5]$ hdfs dfs -lsr /user/bigdata/input/.snapshot//<code>

（3）指定名称创建快照

<code>[bigdata@bigdata101 hadoop-2.7.5]$ hdfs dfs -createSnapshot /user/bigdata/input  testsnap/<code>

（4）重命名快照

<code>[bigdata@bigdata101 hadoop-2.7.5]$ hdfs dfs -renameSnapshot /user/bigdata/input/  testsnap new_testsnap/<code>

（5）列出当前用户所有可快照目录

<code>[bigdata@bigdata101 hadoop-2.7.5]$ hdfs lsSnapshottableDir/<code>

（6）比较两个快照目录的不同之处

<code>[bigdata@bigdata101 hadoop-2.7.5]$ hdfs snapshotDiff/<code>

（7）恢复快照

<code>[bigdata@bigdata101 hadoop-2.7.5]$ hdfs dfs -cp
/user/bigdata/input/.snapshot/s20200304-134303.027 /user/<code>

四、回收站

1、默认回收站默认值fs.trash.interval=0，0表示禁用回收站，可以设置删除文件的存活时间。默认值fs.trash.checkpoint.interval=0，检查回收站的间隔时间。如果该值为0，则该值设置和fs.trash.interval的参数值相等。要求fs.trash.checkpoint.interval<=fs.trash.interval。

2、启用回收站

修改core-site.xml，配置垃圾回收时间为1分钟。

<code><property>
    <name>fs.trash.interval/<name>
    <value>1/<value>
/<property>/<code>

3．查看回收站

回收站在集群中的路径：/user/bigdata/.Trash/….

4．修改访问垃圾回收站用户名称

进入垃圾回收站用户名称，默认是dr.who，修改为bigdata用户

[core-site.xml]

<code><property>
  <name>hadoop.http.staticuser.user/<name>
  <value>bigdata/<value>
/<property>/<code>

5、通过程序删除的文件不会经过回收站，需要调用moveToTrash()才进入回收站

<code>Trash trash = New Trash(conf);
trash.moveToTrash(path);/<code>

6、恢复回收站数据

<code>[bigdata@bigdata101 hadoop-2.7.5]$ hadoop fs -mv
/user/bigdata/.Trash/Current/user/bigdata/input    /user/bigdata/input/<code>

7、清空回收站

<code>[bigdata@bigdata101 hadoop-2.7.5]$ hadoop fs -expunge/<code>

分享到:

閱讀更多 大數據漫路求索 的文章

關鍵字: HDFS 内存存档

第十三章 HDFS 2.x新特性

1、scp实现两个远程主机之间的文件复制

2、采用discp命令实现两个hadoop集群之间的递归数据复制

二、Hadoop存档

1、hdfs存储小文件弊端

2、解决存储小文件办法之一

3、案例实操

三、快照管理

1、基本语法

2、案例实操

四、回收站

相關文章:

Delta Lake 修改分区表的表结构

Spark-local本地环境搭建

总算知道HDFS文件块为什么是128M了

对HDFS组成架构通俗易懂的理解

MapReduce运行原理及源码解读

HDFS读写流程，HDFS文件是怎样上传及下载的呢

HDFS Datanode里的元数据

HDFS Namenode里的元数据

第十三章 HDFS 2.x新特性

第十二章 HDFS 各种角色讲解

第十一章 HDFS 的读写详解

第十章 HDFS 深入理解

第九课 HDFS API 的使用

第七章 Hadoop 常用的 shell 命令

第六章 HDFS 基础

HDFS 小文件治理

HDFS DataNode工作机制和数据存储

HDFS NN和SNN功能剖析

hdfs读取流程

hdfs写入流程解析

01.23 大规模集群，HDFS 如何从 2.7 滚动升级到 3.2

字节跳动 EB 级 HDFS 实践

12.31 字节跳动 EB 级 HDFS 实践

11.22 Apache Kafka和Apache NiFi集成

HBase NotServingRegionException排查

HBase最佳实践

海量数据存储技术之HBase：HBase在HDFS上的目录及文件简介

详解Rsync和FastDFS的区别与联系

zookeeper ACL 权限控制

09.17 HDFS进阶详解

Hadoop 基本 Shell命令

CarbonData 列式存储文件结构

Spark任务优化-checkpoint使用

HDFS 搭建「hadoop核心」

好程序员：Datanode的工作机制

CentOS常用管理命令（二）：文件与目录的操作

hive外部表的删除表和删除数据操作

Alluxio 常用shell命令总结

ZooKeeper在HBase中的应用

如何向Spark个节点共享静态文件和jar包

04.13 架构师基本操作Kafka消息投递语义-不丢不重

hdfs一些机制的简介

「大数据篇」实时日志抽取-Flume基础篇

刚刚工作的毕业生，一个月只有2000多，是不是太少了？

为什么只有edg赚钱？

网上罗马仕充电宝20000毫安的，参数怎么很多样？哪个是真的？

我们买的新商品房还没有拿到房产证，怎么转卖最好？

为什么突厥人可以成功复国？是大唐的刀不锋利了么？

小高层16层高楼间距60米哪一层比较好？

金银花盆栽好养吗？怎么养？

长城对于抵御古代匈奴和蒙古人起到了多大作用？

什么树可以嫁接腊梅？

行情堪忧，还有多少教育机构的老师们五一假期有课上的？课时量多不多？

在农村“立夏节”都有哪些民间习俗？

男朋友失望分手，但对我还有感觉，答应我两个月之后可以在一起，我应该怎么做，才能改变之前他对我的看法？

工程分包乙方人员伤残谁承担？

有哪些看起来毫不相关的两个历史人物实际上有过联系？

13年雪铁龙世嘉自动挡7万多公里，没有水泡事故，多少钱能买？

22+吃土少女17年就有驾驶证了，今年才开始开车，想买个二手昂克赛拉，或者有什么好建议吗？

如何骑车去台湾骑行？

本人预算5万左右，想买一辆二手法系车！求推荐？

14年进口马自达5PK进口10年道奇酷威买哪个划算？

2020年，河南教育行业国务院特殊津贴推荐，河南大学并列第三，大家怎么看？

本田CRV2019款1.5T舒适版油耗高吗？

国外疫情如果没有得到有效控制，世界会发生什么事情？头脑风暴？

本田XRV这款车的整体表现怎么样？我想买1.5T自动豪华版，全款多少钱？

现在存款有14万，借了5万还没收回来，该做什么好？

2070super和5700xt买哪个比较好？

装修高手来帮忙看下144平，套内122平，怎么三房改四房？？