Hadoop知识整理

2020-12-26 00:04:00 佚名

Hadoop是什么

1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

2）主要解决，海量数据的存储和海量数据分析计算的问题。

3）广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈。

Hadoop三大发行版本

Hadoop三大发行版本：Apache、Cloudera、Hortonworks。

Apache版本最原始（最基础）的版本，对于入门学习最好。

Cloudera在大型互联网企业中用的较多。

Hortonworks文档较好。

1. Apache Hadoop

官网地址：http://hadoop.apache.org/releases.html

下载地址：https://archive.apache.org/dist/hadoop/common/

2. Cloudera Hadoop

官网地址：https://www.cloudera.com/downloads/cdh/5-10-0.html

下载地址：http://archive-primary.cloudera.com/cdh5/cdh/5/

（1）2008年成立的Cloudera是最早将Hadoop商用的公司，为合作伙伴提供Hadoop的商用解决方案，主要是包括支持、咨询服务、培训。

（2）2009年Hadoop的创始人Doug Cutting也加盟Cloudera公司。Cloudera产品主要为CDH，Cloudera Manager，Cloudera Support

（3）CDH是Cloudera的Hadoop发行版，完全开源，比Apache Hadoop在兼容性，安全性，稳定性上有所增强。

（4）Cloudera Manager是集群的软件分发及管理监控平台，可以在几个小时内部署好一个Hadoop集群，并对集群的节点及服务进行实时监控。Cloudera Support即是对Hadoop的技术支持。

（5）Cloudera的标价为每年每个节点4000美元。Cloudera开发并贡献了可实时处理大数据的Impala项目。

3. Hortonworks Hadoop

官网地址：https://hortonworks.com/products/data-center/hdp/

下载地址：https://hortonworks.com/downloads/#data-platform

（1）2011年成立的Hortonworks是雅虎与硅谷风投公司Benchmark Capital合资组建。

（2）公司成立之初就吸纳了大约25名至30名专门研究Hadoop的雅虎工程师，上述工程师均在2005年开始协助雅虎开发Hadoop，贡献了Hadoop80%的代码。

（3）雅虎工程副总裁、雅虎Hadoop开发团队负责人Eric Baldeschwieler出任Hortonworks的首席执行官。

（4）Hortonworks的主打产品是Hortonworks Data Platform（HDP），也同样是100%开源的产品，HDP除常见的项目外还包括了Ambari，一款开源的安装和管理系统。

（5）HCatalog，一个元数据管理系统，HCatalog现已集成到Facebook开源的Hive中。Hortonworks的Stinger开创性的极大的优化了Hive项目。Hortonworks为入门提供了一个非常好的，易于使用的沙盒。

（6）Hortonworks开发了很多增强特性并提交至核心主干，这使得Apache Hadoop能够在包括Window Server和Windows Azure在内的Microsoft Windows平台上本地运行。定价以集群为基础，每10个节点每年为12500美元。

Hadoop的优势

1）高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失。

2）高扩展性：在集群间分配任务数据，可方便的扩展以千计的节点。

3）高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度。

4）高容错性：能够将失败的任务重新分配。

Hadoop组成

在Hadoop1.X时代，Hadoop中的MapReduce同时处理业务逻辑运算和资源调度，耦合性较大，在Hadoop2.X时代，增加了Yarn。Yarn只负责子资源的调度，MapReduce只负责运算。

HDFS架构概述

HDFS(Hadoop Distributed File System)的架构概述：

1）NameNode(nn)：存储文件的元数据，如文件名，文件目录结构，文件属性(生成时间，副本数，文件权限)，以及每个文件列表和块所在的DataNode等。

2）DataNode(dn)：在本地文件系统存储文件块数据，以及数据的校验。

3）Secondary NameNode(2nn)：用来监控HDFS状态的辅助后台程序，每隔一段时间获取元数据的快照。

Yarn架构概述：

1）ResourceManager作用：

1.处理客户请求

2.监控NodeManager

3.启动或监控ApplicationMaster

4.资源的分配和调度

2）NodeManager（NM）的主要作用

1.管理单个节点的资源

2.处理来自ResourceManager的命令

3.处理来自ApplicationMaster的命令

3）ApplicationMaster(AM)作用如下：

1.负责数据的切分

2.为应用程序申请资源并分配内部的任务

3.任务的监控与容错

4）Container

Container是Yarn中的资源的抽象，它封装了某个节点上的多维度资源，如内存，cpu，磁盘，网络等。

工作方式：

（0） Mr 程序提交到客户端所在的节点。

（1）Yarnrunner 向 Resourcemanager 申请一个 Application。

（2）rm 将该应用程序的资源路径返回给 yarnrunner。

（3）该程序将运行所需资源提交到 HDFS 上。

（4）程序资源提交完毕后，申请运行 mrAppMaster。

（5）RM 将用户的请求初始化成一个 task。

（6）其中一个 NodeManager 领取到 task 任务。

（7）该 NodeManager 创建容器 Container，并产生 MRAppmaster。

（8）Container 从 HDFS 上拷贝资源到本地。

（9）MRAppmaster 向 RM 申请运行 maptask 资源。

（10）RM 将运行 maptask 任务分配给另外两个 NodeManager，另两个 NodeManager 分

别领取任务并创建容器。

（11）MR 向两个接收到任务的 NodeManager 发送程序启动脚本，这两个 NodeManager

分别启动 maptask，maptask 对数据分区排序。

（12）MrAppMaster 等待所有 maptask 运行完毕后，向 RM 申请容器，运行 reduce task。

（13）reduce task 向 maptask 获取相应分区的数据。

（14）程序运行完毕后，MR 会向 RM 申请注销自己。

MapReduce架构概述：

MapReduce将计算过程分为两个阶段：Map和Reduce。
1）Map阶段并行处理输入数据

2）Reduce阶段对Map结果进行汇总

Hadoop运行环境搭建

虚拟机：hadoop101，关闭防火墙。

创建用户，hadoop：

<code>useradd hadoop
passwd hadoop/<code>

配置hadoop用户具有root权限：

<code>chmod -v u+w /etc/sudoers #给这个文件添加写权限
vi /etc/sudoers  #修改 sudoers

## Allow root to run any commands anywhereroot    ALL=(ALL)       ALLsss    ALL=(ALL)       ALL （添加这一行）/<code>

## Allow root to run any commands anywhere
root ALL=(ALL) ALL
hadoop ALL=(ALL) ALL （添加这一行）

保存，退出

<code>chmod -v u-w /etc/sudoers  #删除 sudoers 的写的权限/<code>

在/opt目录下创建文件夹

在/opt目录下创建module、software文件夹:

<code>sudo mkdir module
sudo mkdir software/<code>

修改module、software文件夹的所有者:

<code>sudo chown hadoop:hadoop   module/ software//<code>

安装JDK:

1.卸载现有JDK

（1）查询是否安装Java软件：

<code>rpm -qa | grep java/<code>

（2）如果安装的版本低于1.7，卸载该JDK：

<code>sudo rpm -e 软件包/<code>

（3）查看JDK安装路径：

<code>which java/<code>

2.将安装包导入software目录下：

<code>cd software/  ls
hadoop-2.7.2.tar.gz  jdk-8u144-linux-x64.tar.gz/<code>

3.解压JDK到/opt/module目录下

<code>tar -zxvf jdk-8u144-linux-x64.tar.gz -C /opt/module//<code>

4. 配置JDK环境变量

<code>sudo vi /etc/profile/<code>

在文件末尾添加：

<code>#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_144
export PATH=$PATH:$JAVA_HOME/bin/<code>

<code>source /etc/profile #让修改后的文件生效/<code>

安装Hadoop

Hadoop下载地址：

https://archive.apache.org/dist/hadoop/common/hadoop-2.7.2/

1. 将hadoop-2.7.2.tar.gz导入到opt目录下面的software文件夹下面

2.将Hadoop安装包解压到到/opt/module下面

<code> tar -zxvf hadoop-2.7.2.tar.gz -C /opt/module//<code>

3.将Hadoop添加到环境变量：

<code>sudo vi /etc/profile/<code>

文件末尾添加：

<code>##HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-2.7.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin/<code>

使配置生效：

<code>source /etc/profile/<code>

4. 重启(如果Hadoop命令不能用再重启)

Hadoop目录结构

（1）bin目录：存放对Hadoop相关服务（HDFS,YARN）进行操作的脚本

（2）etc目录：Hadoop的配置文件目录，存放Hadoop的配置文件

（3）lib目录：存放Hadoop的本地库（对数据进行压缩解压缩功能）

（4）sbin目录：存放启动或停止Hadoop相关服务的脚本

（5）share目录：存放Hadoop的依赖jar包、文档、和官方案例

Hadoop运行模式

Hadoop运行模式包括：本地模式、伪分布式模式以及完全分布式模式。

本地运行模式

官方Grep案例

1. 创建在hadoop-2.7.2文件下面创建一个input文件夹

<code> mkdir input/<code>

2. 将Hadoop的xml配置文件复制到input

<code> cp etc/hadoop/*.xml input/<code>

3. 执行share目录下的MapReduce程序

<code> bin/hadoop jar
share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+'/<code>

4. 查看输出结果

<code> cat output/*/<code>

官方WordCount案例

1. 创建在hadoop-2.7.2文件下面创建一个wcinput文件夹

<code> mkdir wcinput/<code>

2. 在wcinput文件下创建一个wc.input文件

<code>cd wcinput
touch wc.input/<code>

3. 编辑wc.input文件

<code>vi wc.input/<code>

在文件中输入如下内容

<code>hadoop yarn
hadoop mapreduce
atguigu
atguigu/<code>

保存退出：：wq

4. 回到Hadoop目录/opt/module/hadoop-2.7.2

5. 执行程序

<code>hadoop jar
share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wcinput wcoutput/<code>

6. 查看结果

<code>cat wcoutput/part-r-00000/<code>

<code>atguigu 2
hadoop  2
mapreduce       1
yarn    1/<code>

伪分布式运行模式

启动HDFS并运行MapReduce程序

1. 分析

（1）配置集群

（2）启动、测试集群增、删、查

（3）执行WordCount案例

2. 执行步骤

（1）配置集群

（a）配置：hadoop-env.sh

Linux系统中获取JDK的安装路径：

<code>echo $JAVA_HOME
/opt/module/jdk1.8.0_144/<code>

修改hadoop-env.sh中的JAVA_HOME 路径：

<code>export JAVA_HOME=/opt/module/jdk1.8.0_144/<code>

（b）配置：core-site.xml

<code> 

fs.defaultFS
    hdfs://hadoop101:9000


 

	hadoop.tmp.dir
	/opt/module/hadoop-2.7.2/data/tmp
/<code>

（c）配置：hdfs-site.xml

<code> 

	dfs.replication
	1
/<code>

（2）启动集群

（a）格式化NameNode（第一次启动时格式化，以后就不要总格式化）

<code> bin/hdfs namenode -format/<code>

（b）启动NameNode

<code>sbin/hadoop-daemon.sh  start namenod/<code>

（c）启动DataNode

<code>sbin/hadoop-daemon.sh start datanode/<code>

（3）查看集群

（a）查看是否启动成功

<code>jps/<code>

<code>13586 NameNode
13668 DataNode
13786 Jps/<code>

注意：jps是JDK中的命令，不是Linux命令。不安装JDK不能使用jps

（b）web端查看HDFS文件系统

http://hadoop101:50070/dfshealth.html#tab-overview

如不能访问，可参考以下几个方案。

查看vi /etc/selinux/config的配置改成SELINUX=disabled
是否关闭了防火墙
查看你的$HADOOP_HOME/etc/hadoop下的core-site.xml和hdfs-site.xml是否配置好
查看你windows里本地的配置文件的IP和主机名映射关系
必须在hadoop-env.sh文件中设置Java的绝对路径

（c）查看产生的Log日志

当前目录：/opt/module/hadoop-2.7.2/logs

（d）思考：为什么不能一直格式化NameNode，格式化NameNode，要注意什么？

<code>cd data/tmp/dfs/name/current/
  
cat VERSION

clusterID=CID-f0330a58-36fa-4a2a-a65f-2688269b5837/<code>

注意：格式化NameNode，会产生新的集群id,导致NameNode和DataNode的集群id不一致，集群找不到以往数据。所以，格式NameNode时，一定要先删除data数据和log日志，然后再格式化NameNode。

（4）操作集群

（a）在HDFS文件系统上创建一个input文件夹

<code>bin/hdfs dfs -mkdir -p /user/hadoop/input/<code>

（b）将测试文件内容上传到文件系统上

<code>bin/hdfs dfs -put wcinput/wc.input
  /user/hadoop/input//<code>

（c）查看上传的文件是否正确

<code>bin/hdfs dfs -ls  /user/hadoop/input/
  
bin/hdfs dfs -cat  /user/hadoop/ input/wc.input/<code>

（d）运行MapReduce程序

<code>bin/hadoop jar
share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/hadoop/input/ /user/hadoop/output/<code>

（e）查看输出结果

<code>bin/hdfs dfs -cat /user/hadoop/output/*/<code>

（f）将测试文件内容下载到本地

<code>hdfs dfs -get /user/hadoop/output/part-r-00000 ./wcoutput//<code>

（g）删除输出结果

<code>hdfs dfs -rm -r /user/hadoop/output/<code>

启动YARN并运行MapReduce程序

1. 分析

（1）配置集群在YARN上运行MR

（2）启动、测试集群增、删、查

（3）在YARN上执行WordCount案例

2. 执行步骤

（1）配置集群

（a）配置yarn-env.sh

配置一下JAVA_HOME：

<code>export JAVA_HOME=/opt/module/jdk1.8.0_144/<code>

b）配置yarn-site.xml

<code> 

 		yarn.nodemanager.aux-services
 		mapreduce_shuffle


 

yarn.resourcemanager.hostname
hadoop101
/<code>

c）配置：mapred-env.sh

配置一下JAVA_HOME

<code>export JAVA_HOME=/opt/module/jdk1.8.0_144/<code>

d）配置： (对mapred-site.xml.template重新命名为) mapred-site.xml

<code>mv mapred-site.xml.template mapred-site.xml
vi mapred-site.xml/<code>

<code> 

		mapreduce.framework.name
		yarn
/<code>

（2）启动集群

（a）启动前必须保证NameNode和DataNode已经启动

（b）启动ResourceManager

<code>sbin/yarn-daemon.sh start resourcemanager/<code>

（c）启动NodeManager

<code>sbin/yarn-daemon.sh start nodemanager/<code>

（3）集群操作

（a）YARN的浏览器页面查看

http://hadoop101:8088/cluster

（b）删除文件系统上的output文件

<code>bin/hdfs dfs -rm -R /user/hadoop/output/<code>

（c）执行MapReduce程序

<code>bin/hadoop jar
 share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/hadoop/input  /user/hadoop/output/<code>

（d）查看运行结果

<code>bin/hdfs dfs -cat /user/hadoop/output/*/<code>

配置历史服务器

为了查看程序的历史运行情况，需要配置一下历史服务器。具体配置步骤如下：

1. 配置mapred-site.xml

<code>vi mapred-site.xml/<code>

在该文件里面增加如下配置。

<code> 

mapreduce.jobhistory.address
hadoop101:10020

 

    mapreduce.jobhistory.webapp.address
    hadoop101:19888
/<code>

2. 启动历史服务器

<code>sbin/mr-jobhistory-daemon.sh start historyserver/<code>

3. 查看历史服务器是否启动

<code>jps/<code>

4. 查看JobHistory

http://hadoop101:19888/jobhistory

配置日志的聚集

日志聚集概念：应用运行完成以后，将程序运行日志信息上传到HDFS系统上。

日志聚集功能好处：可以方便的查看到程序运行详情，方便开发调试。

注意：开启日志聚集功能，需要重新启动NodeManager 、ResourceManager和HistoryManager。

开启日志聚集功能具体步骤如下：

1. 配置yarn-site.xml

<code>vi yarn-site.xml/<code>

在该文件里面增加如下配置。

<code> 

yarn.log-aggregation-enable
true


 

yarn.log-aggregation.retain-seconds
604800
/<code>

2. 关闭NodeManager 、ResourceManager和HistoryServer

<code>sbin/yarn-daemon.sh stop resourcemanager
sbin/yarn-daemon.sh stop nodemanager
sbin/mr-jobhistory-daemon.sh stop historyserver/<code>

3. 启动NodeManager 、ResourceManager和HistoryServer

<code>sbin/yarn-daemon.sh start resourcemanager
sbin/yarn-daemon.sh start nodemanager
sbin/mr-jobhistory-daemon.sh start historyserver/<code>

4.删除HDFS上已经存在的输出文件

<code>bin/hdfs dfs -rm -R /user/hadoop/output/<code>

5. 执行WordCount程序

<code>hadoop jar
 share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/hadoop/input /user/hadoop/output/<code>

6. 查看日志

http://hadoop101:19888/jobhistory

配置文件说明

Hadoop配置文件分两类：默认配置文件和自定义配置文件，只有用户想修改某一默认配置值时，才需要修改自定义配置文件，更改相应属性值。

（1）默认配置文件：

（2）自定义配置文件：

core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml四个配置文件存放在$HADOOP_HOME/etc/hadoop这个路径上，用户可以根据项目需求重新进行修改配置。

完全分布式运行模式

主要步骤：

1）准备3台客户机（关闭防火墙、静态ip、主机名称）hadoop102，hadoop103，hadoop104

2）安装JDK

3）配置环境变量

4）安装Hadoop

5）配置环境变量

6）配置集群

7）单点启动

8）配置ssh

9）群起并测试集群

将hadoop102，hadoop103，hadoop104安装JDK和Hadoop并配置环境变量。

集群部署规划：

（1）首先配置Hadoop102的配置文件，再分发配置文件到其他节点。

<code>vi core-site.xml/<code>

在该文件中编写如下配置

<code> 

		fs.defaultFS
      hdfs://hadoop102:9000


 

		hadoop.tmp.dir
		/opt/module/hadoop-2.7.2/data/tmp
/<code>

（2）HDFS配置文件

配置hadoop-env.sh

<code>vi hadoop-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144/<code>

配置hdfs-site.xml

<code> vi hdfs-site.xml/<code>

在该文件中编写如下配置

<code>
		dfs.replication
		3


 

      dfs.namenode.secondary.http-address
      hadoop104:50090
/<code>

（3）YARN配置文件

配置yarn-env.sh

<code>vi yarn-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144/<code>

配置yarn-site.xml

<code>vi yarn-site.xml/<code>

在该文件中增加如下配置

<code> 

		yarn.nodemanager.aux-services
		mapreduce_shuffle


 

		yarn.resourcemanager.hostname
		hadoop103
/<code>

（4）MapReduce配置文件

配置mapred-env.sh

<code>vi mapred-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144/<code>

配置mapred-site.xml

<code>cp mapred-site.xml.template mapred-site.xml
vi mapred-site.xml/<code>

在该文件中增加如下配置

<code> 

mapreduce.framework.name
yarn
/<code>

在集群上分发配置好的Hadoop配置文件

利用rsync命令分发。

集群单点启动

如果集群是第一次启动，需要格式化NameNode

<code>hdfs namenode -format/<code>

在hadoop102上启动NameNode

<code>hadoop-daemon.sh start namenode/<code>

在hadoop102、hadoop103以及hadoop104上分别启动DataNode

<code>hadoop-daemon.sh start datanode/<code>

SSH无密登录配置

再生成公钥和私钥：

<code>ssh-keygen -t rsa/<code>

然后敲（三个回车），就会生成两个文件id_rsa（私钥）、id_rsa.pub（公钥）

将公钥拷贝到要免密登录的目标机器上

<code>ssh-copy-id hadoop102
ssh-copy-id hadoop103
ssh-copy-id hadoop104/<code>

注意：

还需要在hadoop103上采用hadoop账号，配置一下无密登录到hadoop102、hadoop103、hadoop104；

还需要在hadoop104上采用hadoop账号配置一下无密登录到hadoop102、hadoop103、hadoop104服务器上。

.ssh文件夹下（~/.ssh）的文件功能解释

known_hosts：记录ssh访问过计算机的公钥(public key)

id_rsa：生成的私钥

id_rsa.pub：生成的公钥

authorized_keys：存放授权过的无密登录服务器公钥

群起集群

配置slaves，进入/opt/module/hadoop-2.7.2/etc/hadoop/slaves目录下

<code>vi slaves/<code>

在该文件中增加如下内容：

<code>hadoop102
hadoop103
hadoop104/<code>

注意：该文件中添加的内容结尾不允许有空格，文件中不允许有空行。

同步所有节点配置文件。

启动集群

（1）如果集群是第一次启动，需要格式化NameNode（注意格式化之前，一定要先停止上次启动的所有namenode和datanode进程，然后再删除data和log数据）

<code>bin/hdfs namenode -format/<code>

（2）启动HDFS

<code>sbin/start-dfs.sh/<code>

（3）启动YARN

<code>sbin/start-yarn.sh/<code>

注意：NameNode和ResourceManger如果不是同一台机器，不能在NameNode上启动 YARN，应该在ResouceManager所在的机器上启动YARN。

（4）Web端查看SecondaryNameNode

（a）浏览器中输入：http://hadoop104:50090/status.html

（b）查看SecondaryNameNode信息

集群启动/停止方式总结

1. 各个服务组件逐一启动/停止

（1）分别启动/停止HDFS组件

<code>hadoop-daemon.sh  start / stop  namenode / datanode / secondarynamenode/<code>

（2）启动/停止YARN

<code>yarn-daemon.sh  start / stop  resourcemanager / nodemanager/<code>

2. 各个模块分开启动/停止（配置ssh是前提）常用

（1）整体启动/停止HDFS

<code>start-dfs.sh   /  stop-dfs.sh/<code>

（2）整体启动/停止YARN

<code>start-yarn.sh  /  stop-yarn.sh/<code>

分享到:

關鍵字: 基础架构 xml module

未来5-10年，哪些行业最吃香？

程序员加班严重没有时间提升自我？资深大牛：那是你没有规划好

漫画：什么是数据仓库？

大数据独角兽Databricks凭什么估值280亿美元？

java说「我爱你」，分别怎么说？

AI应届博士年薪涨至80万！区块链工程师笑笑不说话

「报名」JAVA架构师徒培训班（第19期）开课啦！

中国移动9个月营收入5677亿元：从搬运工到用数据换未来

亲手搭建个spark 环境试试

华人新成员为 ASF 添柴火

「史上最全」Hadoop 核心 - HDFS 分布式文件系统详解(上万字建议收藏)

Hadoop Spark：全面比拼（架构、性能、成本、安全）

Spark大数据处理框架入门-包括生态系统、运行流程以及部署方式

Hadoop HDFS分布式文件系统简介

名词解析——中间件

hadoop VS spark 性能原理分析

浅析Airtom智能决策在实时性和一致性方面的突破

考察了多个岗位，我发现入行大数据最容易的职位是…

互联网时代大数据重要性！看看它有多厉害？

大数据方面核心技术有哪些

Hbase原理与使用

分享10个linux常用小技巧，提高工作效率

Java和Java大数据有什么区别？0基础能学大数据吗？

自定义Spark Partitioner提升es-hadoop Bulk效率

Java高并发解决方案！涨薪必备

SQLSERVER 安装

铁饭碗专业整理好了，学这些准没错！

开源改变了小米什么？

大数据究竟“大”在哪？

如何成为数据库管理员（DBA）

PaaS 数据服务平台简介（上篇）

中国软件行业协会联合千锋教育将举办互联网应用技术高级师资培训

大数据人才缺口150万，薪资高前景好，你来不来？

自学大数据需要学哪些内容？

hadoop vs 其它系统

从0开始在 docker 中配置 hadoop 集群

大数据框架对比：Hadoop、Storm、Samza、Spark 和 Flink[转]

Spark大数据开发实战之43，Hadoop，安装配置Hive1

Spark PK Hadoop 谁是赢家？

月薪五万以上的数据分析师必备工具，你会用哪几种

apache-hadoop-2.7.7集群安装-HA高可用版本

python-snakebite操作Hadoop

Hadoop 第一课安装JDK & Hadoop 启动

扎心！“我学了六个月 Python，怎么还是找不到工作”

Giraph：基于Hadoop的开源图计算框架

千亿数据优化，如何绕过数据倾斜这头拦路虎？

Hive 中的表分为内部表、外部表、分区表和 Bucket 表

Java大数据技术学习指南与成长路线

HIVE扩展GIS函数

Spark大数据开发实战之46，Hadoop，读取HDFS上的图片

潜逃压力过大暴瘦40多斤，一涉黑A级通缉犯在河北投案自首

记者从河北省公安厅获悉，日前公安部通缉的13名A级通缉犯中的2号通缉犯鲁某某近日向河北邯郸警方投案自首，这是公安部A级通缉令后又一通缉犯主动投案。

当我们在谈 SaaS 的时候，在谈什么？

当我们在谈SaaS 的时候，在谈什么？什么是 SaaSSaaS 优缺点SaaS 销售模式SaaS 产品指标SaaS 业务指标SaaS 收入计算一、什么是 SaaS这个模式让软件变得和水电气很相似，只需要每月缴纳固定的费用即可享受服务。

合同诈骗的类型有哪些？企业无力偿还借款是否构成合同诈骗罪？

现阶段，随着国家供给侧结构性改革的不断深入，人们在市场中的互易行为日益频繁，合同在经济活动发挥的作用也日渐凸显。

5月西安招聘会时间安排来了！找工作的别错过

乘车路线:西安市内乘坐12路、14路、14路区间、26路、215路、215路区间、216路、224路、229路、239路、31路、36路、321路、323路、521路、600路、603路、616路、701路、704路、709路、教育专线、K605路、K616路、游6路、游8路61

刚刚工作的毕业生，一个月只有2000多，是不是太少了？

刚刚:刚刚工作的毕业生，一个月只有2000多，是不是太少了？根据你城市消费水平来看啊，还有你从事的工作，假如你在二三线城市做一份事业单位或者是编制类的工作，薪资水平是随着你工作年限逐年增长的，而且在年终也有很多福利补贴待遇等等，算下来收入也是可观的，再举一个例:-毕业生 2000

全球闹「美元荒」带动稳定币需求暴增！以太坊交易量创近两年新高

基于以太坊区块链的主要稳定币包括：Tether、TrueUSD、GeminiDollar、Paxos Standard、Binance USD、USD Coin、Huobi USD和MakerDAO等。

“帮助当地居民解决用水难题”-今日头条-手机光明网

晨曦初露，9岁的米格尔和弟弟妹妹们抱着水罐，穿过一片田野，到达安哥拉首都罗安达郊区的指定取水点。葛洲坝安哥拉有限公司市场部负责人刘世轩介绍说，公司每天派出送水车两次，一次3车，将洁净水从罗安达水厂直接运往指定取水点。

灌篮高手无水印壁纸，每一张都是回忆

那些年，我们追过的灌篮高手，你更喜欢谁呢？流川枫樱木花道赤木刚宪宫城良田三井寿你喜欢哪个球员呢？欢迎评论区留言。

通辽蓝天救援队成功解救辽河公园水上被困群众

2020年5月1日，通辽蓝天救援队假期例行在辽河公园水域进行安全巡逻任务，下午15时10分，巡逻队员发现辽河水面有被困群众向巡逻船只求救，接到求救信号后，巡逻队员紧急前往事故现场展开研判、救援准备工作。

5月6日·武汉要闻及抗击肺炎快报

今天零时起高速公路恢复收费了，这些车辆还能免费5月6日零时起全国高速公路恢复收费在武汉北收费站ETC和人工车道全部可通行零时左右通过收费站的车辆并不多以大货车为主有工作人员在一旁引导货车进入高速收费站前要通过入口称重检测车道进入没有超重超限便可顺利通过现场没有出现排队的现象全省联

肖副省长等省市领导到孝感市楚澴中学调研九年级复学暨疫情防控常态化工作

2020年4月29日下午，肖副省长等省市领导来到孝感市楚澴中学调研九年级复学暨疫情防控常态化工作，肖副省长等省市领导在学校领导陪同下，重点对校门口出入、保健室、教室、学生心理辅导室、洗手池等进行了非常细致的检查，对孝感市楚澴中学的复学和疫情防控工作给予充分的肯定。

相声界的颜值担当张云雷称号大揭秘

这个播放量就连师傅身为相声演员的张云雷却有着堪比娱乐圈小鲜肉的颜值，一个相声演员长成这样，张云雷不火谁能火。

美国百年薅羊毛攻略

当德国向法军阵地倾泄400多万发炮弹，扬言要让凡尔登成为「碾碎法军的绞肉机」时，远在大西洋的美国人。

《全职高手》：一口气刷了10集，对杨洋路转粉了

近日，由杨洋、江疏影主演的剧版《全职高手》在腾讯视频正式开播了，该剧改编自蝴蝶蓝同名小说，先前还被改编成动画版。

共同承担责任！Rookie谈BP问题：输了是我们打得太臭

前言：IG这只老牌战队在我们LPL赛区以来都拥有着非常高的人气，特别是在2018年之后，他们帮助我们LPL赛区夺得了第一个宝贵的S赛世界冠军，而IG战队的打法一直以来也是非常有观赏性的。

LOL"中韩对抗赛"遭选手反对？Zoom直言不想打，Doinb的回答太真实

Doinb表示："可以的话我不想参加，首先这场比赛没有任何意义，获得胜利既不会有奖金也不会有荣誉，但万一输掉比赛FPX就会成为大家吐槽的焦点"。

李亚鹏携李嫣出席慈善晚会，李嫣手上钻戒抢镜，1个动作获夸赞！

大家都知道天后王菲和前夫李亚鹏他们育有一个女儿，名叫李嫣。于是李嫣因为偷偷的开了直播从而也导致了她被大家所发现，但李嫣的乐观和开朗却也让李亚鹏放下心来，决定放飞女儿，让她自由的去探索她想要的世界。

53岁郭富城再度升级当爸，方媛怀二胎，Chant要做姐姐了

天王郭富城近日参加活动，首度承认妻子方媛怀有二胎的消息。从去年2017年两人结婚，低调的爱情让媒体都捕捉不到边际，天王嫂31岁两人相差了20岁的爱恋，始终不少人不看好啊。

那些拼命的演员：王宝强喝了一大桶牛奶，孙俪吃10斤瓜子

演员在我们眼中一直都是光鲜亮丽、收入颇高的职业，并且现在有很多靠流量跻身一线，却毫无演技以及实力的演员。

贾乃亮用上了“一米阳光”这个词，他依然渴望拥有美丽的爱情！

曾经贾乃亮是“阳光”的代名词，大家看到他都觉得很暖，只不过后来就不是了。今天早上，他发了一条微博“人生的美好就是每天醒来都能看到上帝赐予我的那一米阳光”，这句话当中，贾乃亮用到了“一米阳光”这个词。

搞笑GIF开心一刻：我的老家农村，有妹子愿意嫁给我吗？

当一名理发师也不容易这是一只有航天梦想的老鼠宝宝！什么？这么贵！把我卖了得了。小朋友，你赢了，我甘拜下风！

为什么只有edg赚钱？

电竞行业作为一个新兴产业，这几年发展势头越来越好，IG战队，FPX战队先后夺得了s8-s9世界赛的冠军，据俱乐部知情人士透露，除了国内的几家豪门俱乐部之外，其他俱乐部基本都是亏钱在做的，当然EDG也是:-edg 赚钱:为什么只有edg赚钱？

程潇身材多好？双腿劈叉才明白，这才是“腿精”

程潇可谓是才女，她是中韩宇宙少女的成员之一，今年她只有20岁。不要看程潇年纪比较小，但是她身材还是挺好的，身材也是典型S型曲线，魅力不小。

张柏芝承认三胎产子，否认小伙的老爸是孙东海，看来她选择保密

张柏芝是许多80后90后心目中的女神，除了颜值高有演技外，她和谢霆锋的婚姻和恋情也曾是吃瓜群众津津乐道的事。

T1战队抢注Faker商标，“囊括多个领域产品，商业潜力媲美乔丹”

前言：目前各大赛区的春季赛都已经结束了，T1战队在重组之后再度拿下了lck赛区的冠军，这让很多的玩家非常意外，这也从侧面反映出来了，核心选手和主教练的个人能力，同时faker的实力再度被玩家们认可，最近一段时间他也是一直在直播，很多的人都在询问，今年李哥的目标是什么？

云顶之弈“最不平衡的版本”诞生，全员抢一费卡，运气成吃鸡关键

上线之后迅速引发了大量玩家的好评，就在最近，官方也是迎来了10.9版本，可是在目前的版本中再度出现了太多的畸形玩法了，应该是有史以来最不平衡的版本，因为一费卡的爆率大大提升，导致游戏成为了三星的天下，全员抢一费卡，运气成为吃鸡的关键。

LPL春季赛"6宗最"：Uzi最遗憾，阿水最惊喜，V5最离谱

在本期节目中会评选出一位最美丽LPL女解说，其中瞳夕、Rita、余霜等都在名单之中，最有趣的是管泽元居然也出现在了“女解说”名单中，全因余霜一张P过的照片，论梗的话，管泽元第一，若是轮颜值，估计这也排不上名次。

雷佳音被问：跟佟丽娅拍那么多亲热戏是啥感受？他的回答笑翻众人

不过要是像唐嫣和罗晋那样用公费谈恋爱的故事不多，大多数还是和不是心爱的人拍得多，但要是遇上岳云鹏和佟丽娅拍亲热戏的话，那个画面或许大家想象不出来吧。

JDG成最“惨”冠军战队？拿到LPL冠军人气依旧低迷，TES成赢家！

LPL赛区的春季赛结束也有一段时间了，作为冠军战队JDG，并没有因为拿到冠军而出现“人气”的高涨，依旧平平淡淡，熟悉LPL赛区的玩家都知道，在LPL赛区中，一直以来都是由RNG、IG、EDG三家从“远古”时期就开始统治LPL赛区，期间也有OMG和LGD、WE几个战队打破了这个规律

#战疫必胜#“症和状”都有了，我与新冠擦肩而过

学习结束，回到家后，在武大短暂学习的那段时光时常让我怀念，并曾立下誓言，抽个暑假一定要带着老婆孩子一起去“逛”武大。机会就这么悄然而至！2019年第28届世界脑力锦标赛全球总决赛的举办地就是武汉，比赛的日期是12月6日到8日，三天的时间。其实，我也没有想到第一次参加这样比赛的女儿

T1提议中韩友谊赛，但LPL队伍都不想参加？理由其实很简单

这不今天就有网友在论坛中聊起了这个话题，有网友表示“LPL队伍其实都不想参加中韩友谊赛，LPL队伍才刚结束春季赛，18天之后就要打夏季赛了，像IG可能会有人员变动FPX TES 应该也会利用这段时间来检讨分析，也许只有JDG 比较愿意参加，doinb只是第一表态的选手，可能还有很

网友投稿：光山县泼陂河镇至白雀园镇的X015县道德两座坏桥经过5个月的等待终于开修啦#光山 #信阳

网友投稿：光山县泼陂河镇至白雀园镇的X015县道德两座坏桥经过5个月的等待终于开修啦#光山 #信阳，于2020年04月28日上线，由信阳本地联盟上传。西瓜视频为您提供高清视频，画面清晰、播放流畅，看丰富、高质量视频就上西瓜视频。

2020最佳韩剧追起来~《爱的迫降》仅排名第二，TOP 1绝对实至名归

TOP20 - 「优雅的家」这部由林秀香、李章宇、裴宗玉等人所主演的《优雅的家》，当时一播出就引起不少话题，虽然剧情有点浮夸，但却莫名好看，而当时该剧还刷新了MBN电视台的记录呢~《优雅的家》主要讲述一位拥有完美外貌和身材的MC集团独生女毛硕熙，为了查明15年母亲去世的真相，因此

搞笑GIF开心一刻：我正在睡觉，谁敢打扰我

我这暴脾气，等你剥完我能吃五个你带着你家猫去做演员吧！这猫太有前途了！这是我见过最牛的啦啦队！自从有了弟弟，老大就和家务结缘了狼狗：要不是主人在，我非吃了你两个小子！

备考消防的几大错觉，你有这个情况吗？

讲真，很多时候我们会把事情想当然，并因为这些错觉而采取错误的举动，一消备考是一场毅力和心智的战斗，大家难免会产生一些错觉，从而影响自己的备考效率，甚至导致备考失败。

“顶流”李敏镐哑火，渣男出轨剧出圈，韩剧观众也长大了？

豆瓣开分8.3，渐渐跌到7.7分，热门短评写道：“同样是金编，差距怎么这么大”、“看了四集节奏真的是一团糟，比起隔壁《夫妻的世界》真的差一大截”。

网上罗马仕充电宝20000毫安的，参数怎么很多样？哪个是真的？

20000:网上罗马仕充电宝20000毫安的，参数怎么很多样？哪个是真的？天猫旗舰店，或者淘宝旗舰店，或者京东旗舰店肯定包真，质量好，再说可以官方验证啊，不能图那十块五块的便宜，毕竟一个充电宝要用好久呢，一两年没问题的。:-罗马仕马仕毫安

应急科普丨“五一” 期间气温回升谨防森林火灾隐患

随着“五一”期间气温大幅回升全国大部分地区已经进入初夏在享受小长假春日美景的同时森林火险等级也随之明显提升新疆森林消防提示您春季气温回升快野外草木干燥你的一个失当用火行为就有可能引发森林大火勿念葱林繁似海一星燃尽只尘埃

搞笑GIF开心一刻：拍照啦，赶紧看镜头

弟弟：姐姐你能利索点吗家里有个熊孩子，说实话心很累同学感觉你好可伶，一个人跳舞多尴尬啊！看我病好了怎么收拾你们！真的是以迅雷不及掩耳之势啊。姑凉，你……掉毛啊！小姐姐你是想找男朋友吗用这样的方式，结局很意外此处注意安全！

工程发承包、工程造价条款，或迎来大调整

第二章建设规划与设计第一节建设规划第八条建设规划的体系第九条建设规划的编制与审批第十条建设规划的内容第十一条建设规划的实施与评估第二节城市设计第十二条城市设计的基本要求第十三条城市设计的编制和审批第十四条城市设计的实施和管理第三节建筑设计第十五条建筑设计的基

新增四省！关于2019年一级建造师考试证书、复核发布公告

快来看看吧~青海关于恢复专业技术人员职业资格证书的发放、补办工作的通知各位考生：随着疫情防控进入常态化，青海省新冠疫情得到有效控制，专业技术人员职业资格证书的印制、发放工作正在逐步恢复，为方便广大考生办理证书业务，4月28日起青海省人力资源和社会保障服务中心一楼大厅65、66号办

学霸也会复读？朱广权这个圈粉无数的国民段子手是如何炼成的！

“烟笼寒水月笼沙，不止东湖与樱花，门前风景雨来佳，莲藕鱼糕玉露茶，凤爪藕带热干面，米酒香菇小龙虾，守住金莲不自夸，赶紧下单买回家，买它买它就买它，热干面和小龙虾。”

幸福的人，总会忘记旧爱

幸福从来不可能是有个人帮你搞定所有的一切，而你只需要坐享其成。她喜欢喝银耳莲子羹而且必须是上好的银耳，用小火慢慢炖到砧稠那一日，他去看她，她冷冷地从屋里走出来，丢给他一本书.对他说:"厨房里小锅炖着东西，你帮我去看看。”他真真地守了一个多小时，端到她面前。

真人芭比：一直说自己“没整容”最后晒出旧照，打脸的却是自己

俗话说的好“爱美之心人人都有”而让自己快速变美的方法无疑就是“整容”如今的社会整容看起来似乎很平常。

惊了！这件事没有做，一消证书等于白考！

不要慌，同学们，遇到问题不要怕，拿到证书不去注册，相当于证书无效，今天就为大家一一解答注册证书的相关问题。

8年后，有哪些人会留在农村生活？以下4类人群或将留下，有你吗

从九十年代末开始，在我国农村地区就兴起了一股“进城潮”，记得那个时候，农村的经济发展相对滞后，村民生活条件艰苦，乡亲们为了摆脱贫困，只能告别亲人，远离家乡去外面打拼赚钱。

唯一回绝张艺谋力捧的女生，被报送上清华，25岁有上百亿身家

25岁有上百亿身家文/娱乐深扒爆姐图/网络张艺谋是一位非常有实力的导演，同时非常出名，而且他拍摄的作品中有不少获奖无数的经典影片，同时也捧红过不少艺人。

疫情下的悲剧：买不起手机上网课，那个女孩决定吞药自杀

有人为了生计不顾自身安危，有人躲在家中安然度日，还有人仅仅因为一个手机，就要放弃自己的生命...这个女孩，今年上初三，因为疫情的原因，全国各地都展开了网课线上教育，女孩的学校也不例外。

李栋旭刘仁娜新剧开拍，互对台词欢乐多，终于要开始撒狗粮了吗？

这部剧是2016年年底播出的，热度一直持续到了2017年，相关的周边和景点都相当热门，像是池恩卓跟鬼怪大叔相遇的海边、剧中出现的鬼怪玩偶、还有鬼怪大叔的拔剑特效等等。

高考延期：七月的高考，最热的天，做最难的题！

后来，由于7月份气候较差，极端天气频发，尤其是南方地区，要么极端高温，要么就是台风，对于高考来说非常不友好，不仅考生的考试质量会下降，而且阅卷老师、高考工作者也不方便，因此，从2003年开始，高考日期都固定在了每年的6月7日、8日。

Hadoop知识整理

Hadoop是什么

Hadoop三大发行版本

Hadoop的优势

Hadoop组成

HDFS架构概述

Hadoop运行环境搭建

安装Hadoop

Hadoop目录结构

Hadoop运行模式

相關文章:

未来5-10年，哪些行业最吃香？

程序员加班严重没有时间提升自我？资深大牛：那是你没有规划好

漫画：什么是数据仓库？

大数据独角兽Databricks凭什么估值280亿美元？

java说「我爱你」，分别怎么说？

AI应届博士年薪涨至80万！区块链工程师笑笑不说话

「报名」JAVA架构师徒培训班（第19期）开课啦！

中国移动9个月营收入5677亿元：从搬运工到用数据换未来

亲手搭建个spark 环境试试

华人新成员为 ASF 添柴火

「史上最全」Hadoop 核心 - HDFS 分布式文件系统详解(上万字建议收藏)

Hadoop Spark：全面比拼（架构、性能、成本、安全）

Spark大数据处理框架入门-包括生态系统、运行流程以及部署方式

Hadoop HDFS分布式文件系统简介

名词解析——中间件

hadoop VS spark 性能原理分析

浅析Airtom智能决策在实时性和一致性方面的突破

考察了多个岗位，我发现入行大数据最容易的职位是…

互联网时代大数据重要性！看看它有多厉害？

大数据方面核心技术有哪些

Hbase原理与使用

分享10个linux常用小技巧，提高工作效率

Java和Java大数据有什么区别？0基础能学大数据吗？

自定义Spark Partitioner提升es-hadoop Bulk效率

Java高并发解决方案！涨薪必备

SQLSERVER 安装

铁饭碗专业整理好了，学这些准没错！

开源改变了小米什么？

大数据究竟“大”在哪？

如何成为数据库管理员（DBA）

PaaS 数据服务平台简介（上篇）

中国软件行业协会联合千锋教育将举办互联网应用技术高级师资培训

大数据人才缺口150万，薪资高前景好，你来不来？

自学大数据需要学哪些内容？

hadoop vs 其它系统

从0开始在 docker 中配置 hadoop 集群

大数据框架对比：Hadoop、Storm、Samza、Spark 和 Flink[转]

Spark大数据开发实战之43，Hadoop，安装配置Hive1

Spark PK Hadoop 谁是赢家？

月薪五万以上的数据分析师必备工具，你会用哪几种

apache-hadoop-2.7.7集群安装-HA高可用版本

python-snakebite操作Hadoop

Hadoop 第一课 安装JDK & Hadoop 启动

扎心！“我学了六个月 Python，怎么还是找不到工作”

Giraph：基于Hadoop的开源图计算框架

千亿数据优化，如何绕过数据倾斜这头拦路虎？

Hive 中的表分为内部表、外部表、分区表和 Bucket 表

Java大数据技术学习指南与成长路线

HIVE扩展GIS函数

Spark大数据开发实战之46，Hadoop，读取HDFS上的图片

潜逃压力过大暴瘦40多斤，一涉黑A级通缉犯在河北投案自首

当我们在谈 SaaS 的时候，在谈什么？

合同诈骗的类型有哪些？企业无力偿还借款是否构成合同诈骗罪？

5月西安招聘会时间安排来了！找工作的别错过

刚刚工作的毕业生，一个月只有2000多，是不是太少了？

全球闹「美元荒」带动稳定币需求暴增！以太坊交易量创近两年新高

“帮助当地居民解决用水难题”-今日头条-手机光明网

灌篮高手无水印壁纸，每一张都是回忆

通辽蓝天救援队成功解救辽河公园水上被困群众

5月6日·武汉要闻及抗击肺炎快报

肖副省长等省市领导到孝感市楚澴中学调研九年级复学暨疫情防控常态化工作

相声界的颜值担当张云雷称号大揭秘

美国百年薅羊毛攻略

《全职高手》：一口气刷了10集，对杨洋路转粉了

共同承担责任！Rookie谈BP问题：输了是我们打得太臭

LOL"中韩对抗赛"遭选手反对？Zoom直言不想打，Doinb的回答太真实

李亚鹏携李嫣出席慈善晚会，李嫣手上钻戒抢镜，1个动作获夸赞！

53岁郭富城再度升级当爸，方媛怀二胎，Chant要做姐姐了

那些拼命的演员：王宝强喝了一大桶牛奶，孙俪吃10斤瓜子

Hadoop 第一课安装JDK & Hadoop 启动

应急科普丨“五一” 期间气温回升谨防森林火灾隐患