Hadoop知識整理

2020-12-26 00:04:00 佚名

Hadoop是什麼

1）Hadoop是一個由Apache基金會所開發的分佈式系統基礎架構。

2）主要解決，海量數據的存儲和海量數據分析計算的問題。

3）廣義上來說，Hadoop通常是指一個更廣泛的概念——Hadoop生態圈。

Hadoop三大發行版本

Hadoop三大發行版本：Apache、Cloudera、Hortonworks。

Apache版本最原始（最基礎）的版本，對於入門學習最好。

Cloudera在大型互聯網企業中用的較多。

Hortonworks文檔較好。

1. Apache Hadoop

官網地址：http://hadoop.apache.org/releases.html

下載地址：https://archive.apache.org/dist/hadoop/common/

2. Cloudera Hadoop

官網地址：https://www.cloudera.com/downloads/cdh/5-10-0.html

下載地址：http://archive-primary.cloudera.com/cdh5/cdh/5/

（1）2008年成立的Cloudera是最早將Hadoop商用的公司，為合作伙伴提供Hadoop的商用解決方案，主要是包括支持、諮詢服務、培訓。

（2）2009年Hadoop的創始人Doug Cutting也加盟Cloudera公司。Cloudera產品主要為CDH，Cloudera Manager，Cloudera Support

（3）CDH是Cloudera的Hadoop發行版，完全開源，比Apache Hadoop在兼容性，安全性，穩定性上有所增強。

（4）Cloudera Manager是集群的軟件分發及管理監控平臺，可以在幾個小時內部署好一個Hadoop集群，並對集群的節點及服務進行實時監控。Cloudera Support即是對Hadoop的技術支持。

（5）Cloudera的標價為每年每個節點4000美元。Cloudera開發並貢獻了可實時處理大數據的Impala項目。

3. Hortonworks Hadoop

官網地址：https://hortonworks.com/products/data-center/hdp/

下載地址：https://hortonworks.com/downloads/#data-platform

（1）2011年成立的Hortonworks是雅虎與硅谷風投公司Benchmark Capital合資組建。

（2）公司成立之初就吸納了大約25名至30名專門研究Hadoop的雅虎工程師，上述工程師均在2005年開始協助雅虎開發Hadoop，貢獻了Hadoop80%的代碼。

（3）雅虎工程副總裁、雅虎Hadoop開發團隊負責人Eric Baldeschwieler出任Hortonworks的首席執行官。

（4）Hortonworks的主打產品是Hortonworks Data Platform（HDP），也同樣是100%開源的產品，HDP除常見的項目外還包括了Ambari，一款開源的安裝和管理系統。

（5）HCatalog，一個元數據管理系統，HCatalog現已集成到Facebook開源的Hive中。Hortonworks的Stinger開創性的極大的優化了Hive項目。Hortonworks為入門提供了一個非常好的，易於使用的沙盒。

（6）Hortonworks開發了很多增強特性並提交至核心主幹，這使得Apache Hadoop能夠在包括Window Server和Windows Azure在內的Microsoft Windows平臺上本地運行。定價以集群為基礎，每10個節點每年為12500美元。

Hadoop的優勢

1）高可靠性：Hadoop底層維護多個數據副本，所以即使Hadoop某個計算元素或存儲出現故障，也不會導致數據的丟失。

2）高擴展性：在集群間分配任務數據，可方便的擴展以千計的節點。

3）高效性：在MapReduce的思想下，Hadoop是並行工作的，以加快任務處理速度。

4）高容錯性：能夠將失敗的任務重新分配。

Hadoop組成

在Hadoop1.X時代，Hadoop中的MapReduce同時處理業務邏輯運算和資源調度，耦合性較大，在Hadoop2.X時代，增加了Yarn。Yarn只負責子資源的調度，MapReduce只負責運算。

HDFS架構概述

HDFS(Hadoop Distributed File System)的架構概述：

1）NameNode(nn)：存儲文件的元數據，如文件名，文件目錄結構，文件屬性(生成時間，副本數，文件權限)，以及每個文件列表和塊所在的DataNode等。

2）DataNode(dn)：在本地文件系統存儲文件塊數據，以及數據的校驗。

3）Secondary NameNode(2nn)：用來監控HDFS狀態的輔助後臺程序，每隔一段時間獲取元數據的快照。

Yarn架構概述：

1）ResourceManager作用：

1.處理客戶請求

2.監控NodeManager

3.啟動或監控ApplicationMaster

4.資源的分配和調度

2）NodeManager（NM）的主要作用

1.管理單個節點的資源

2.處理來自ResourceManager的命令

3.處理來自ApplicationMaster的命令

3）ApplicationMaster(AM)作用如下：

1.負責數據的切分

2.為應用程序申請資源並分配內部的任務

3.任務的監控與容錯

4）Container

Container是Yarn中的資源的抽象，它封裝了某個節點上的多維度資源，如內存，cpu，磁盤，網絡等。

工作方式：

（0） Mr 程序提交到客戶端所在的節點。

（1）Yarnrunner 向 Resourcemanager 申請一個 Application。

（2）rm 將該應用程序的資源路徑返回給 yarnrunner。

（3）該程序將運行所需資源提交到 HDFS 上。

（4）程序資源提交完畢後，申請運行 mrAppMaster。

（5）RM 將用戶的請求初始化成一個 task。

（6）其中一個 NodeManager 領取到 task 任務。

（7）該 NodeManager 創建容器 Container，併產生 MRAppmaster。

（8）Container 從 HDFS 上拷貝資源到本地。

（9）MRAppmaster 向 RM 申請運行 maptask 資源。

（10）RM 將運行 maptask 任務分配給另外兩個 NodeManager，另兩個 NodeManager 分

別領取任務並創建容器。

（11）MR 向兩個接收到任務的 NodeManager 發送程序啟動腳本，這兩個 NodeManager

分別啟動 maptask，maptask 對數據分區排序。

（12）MrAppMaster 等待所有 maptask 運行完畢後，向 RM 申請容器，運行 reduce task。

（13）reduce task 向 maptask 獲取相應分區的數據。

（14）程序運行完畢後，MR 會向 RM 申請註銷自己。

MapReduce架構概述：

MapReduce將計算過程分為兩個階段：Map和Reduce。
1）Map階段並行處理輸入數據

2）Reduce階段對Map結果進行彙總

Hadoop運行環境搭建

虛擬機：hadoop101，關閉防火牆。

創建用戶，hadoop：

<code>useradd hadoop
passwd hadoop/<code>

配置hadoop用戶具有root權限：

<code>chmod -v u+w /etc/sudoers #給這個文件添加寫權限
vi /etc/sudoers  #修改 sudoers

## Allow root to run any commands anywhereroot    ALL=(ALL)       ALLsss    ALL=(ALL)       ALL （添加這一行）/<code>

## Allow root to run any commands anywhere
root ALL=(ALL) ALL
hadoop ALL=(ALL) ALL （添加這一行）

保存，退出

<code>chmod -v u-w /etc/sudoers  #刪除 sudoers 的寫的權限/<code>

在/opt目錄下創建文件夾

在/opt目錄下創建module、software文件夾:

<code>sudo mkdir module
sudo mkdir software/<code>

修改module、software文件夾的所有者:

<code>sudo chown hadoop:hadoop   module/ software//<code>

安裝JDK:

1.卸載現有JDK

（1）查詢是否安裝Java軟件：

<code>rpm -qa | grep java/<code>

（2）如果安裝的版本低於1.7，卸載該JDK：

<code>sudo rpm -e 軟件包/<code>

（3）查看JDK安裝路徑：

<code>which java/<code>

2.將安裝包導入software目錄下：

<code>cd software/  ls
hadoop-2.7.2.tar.gz  jdk-8u144-linux-x64.tar.gz/<code>

3.解壓JDK到/opt/module目錄下

<code>tar -zxvf jdk-8u144-linux-x64.tar.gz -C /opt/module//<code>

4. 配置JDK環境變量

<code>sudo vi /etc/profile/<code>

在文件末尾添加：

<code>#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_144
export PATH=$PATH:$JAVA_HOME/bin/<code>

<code>source /etc/profile #讓修改後的文件生效/<code>

安裝Hadoop

Hadoop下載地址：

https://archive.apache.org/dist/hadoop/common/hadoop-2.7.2/

1. 將hadoop-2.7.2.tar.gz導入到opt目錄下面的software文件夾下面

2.將Hadoop安裝包解壓到到/opt/module下面

<code> tar -zxvf hadoop-2.7.2.tar.gz -C /opt/module//<code>

3.將Hadoop添加到環境變量：

<code>sudo vi /etc/profile/<code>

文件末尾添加：

<code>##HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-2.7.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin/<code>

使配置生效：

<code>source /etc/profile/<code>

4. 重啟(如果Hadoop命令不能用再重啟)

Hadoop目錄結構

（1）bin目錄：存放對Hadoop相關服務（HDFS,YARN）進行操作的腳本

（2）etc目錄：Hadoop的配置文件目錄，存放Hadoop的配置文件

（3）lib目錄：存放Hadoop的本地庫（對數據進行壓縮解壓縮功能）

（4）sbin目錄：存放啟動或停止Hadoop相關服務的腳本

（5）share目錄：存放Hadoop的依賴jar包、文檔、和官方案例

Hadoop運行模式

Hadoop運行模式包括：本地模式、偽分佈式模式以及完全分佈式模式。

本地運行模式

官方Grep案例

1. 創建在hadoop-2.7.2文件下面創建一個input文件夾

<code> mkdir input/<code>

2. 將Hadoop的xml配置文件複製到input

<code> cp etc/hadoop/*.xml input/<code>

3. 執行share目錄下的MapReduce程序

<code> bin/hadoop jar
share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+'/<code>

4. 查看輸出結果

<code> cat output/*/<code>

官方WordCount案例

1. 創建在hadoop-2.7.2文件下面創建一個wcinput文件夾

<code> mkdir wcinput/<code>

2. 在wcinput文件下創建一個wc.input文件

<code>cd wcinput
touch wc.input/<code>

3. 編輯wc.input文件

<code>vi wc.input/<code>

在文件中輸入如下內容

<code>hadoop yarn
hadoop mapreduce
atguigu
atguigu/<code>

保存退出：：wq

4. 回到Hadoop目錄/opt/module/hadoop-2.7.2

5. 執行程序

<code>hadoop jar
share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wcinput wcoutput/<code>

6. 查看結果

<code>cat wcoutput/part-r-00000/<code>

<code>atguigu 2
hadoop  2
mapreduce       1
yarn    1/<code>

偽分佈式運行模式

啟動HDFS並運行MapReduce程序

1. 分析

（1）配置集群

（2）啟動、測試集群增、刪、查

（3）執行WordCount案例

2. 執行步驟

（1）配置集群

（a）配置：hadoop-env.sh

Linux系統中獲取JDK的安裝路徑：

<code>echo $JAVA_HOME
/opt/module/jdk1.8.0_144/<code>

修改hadoop-env.sh中的JAVA_HOME 路徑：

<code>export JAVA_HOME=/opt/module/jdk1.8.0_144/<code>

（b）配置：core-site.xml

<code> 

fs.defaultFS
    hdfs://hadoop101:9000


 

	hadoop.tmp.dir
	/opt/module/hadoop-2.7.2/data/tmp
/<code>

（c）配置：hdfs-site.xml

<code> 

	dfs.replication
	1
/<code>

（2）啟動集群

（a）格式化NameNode（第一次啟動時格式化，以後就不要總格式化）

<code> bin/hdfs namenode -format/<code>

（b）啟動NameNode

<code>sbin/hadoop-daemon.sh  start namenod/<code>

（c）啟動DataNode

<code>sbin/hadoop-daemon.sh start datanode/<code>

（3）查看集群

（a）查看是否啟動成功

<code>jps/<code>

<code>13586 NameNode
13668 DataNode
13786 Jps/<code>

注意：jps是JDK中的命令，不是Linux命令。不安裝JDK不能使用jps

（b）web端查看HDFS文件系統

http://hadoop101:50070/dfshealth.html#tab-overview

如不能訪問，可參考以下幾個方案。

查看vi /etc/selinux/config的配置改成SELINUX=disabled
是否關閉了防火牆
查看你的$HADOOP_HOME/etc/hadoop下的core-site.xml和hdfs-site.xml是否配置好
查看你windows裡本地的配置文件的IP和主機名映射關係
必須在hadoop-env.sh文件中設置Java的絕對路徑

（c）查看產生的Log日誌

當前目錄：/opt/module/hadoop-2.7.2/logs

（d）思考：為什麼不能一直格式化NameNode，格式化NameNode，要注意什麼？

<code>cd data/tmp/dfs/name/current/
  
cat VERSION

clusterID=CID-f0330a58-36fa-4a2a-a65f-2688269b5837/<code>

注意：格式化NameNode，會產生新的集群id,導致NameNode和DataNode的集群id不一致，集群找不到以往數據。所以，格式NameNode時，一定要先刪除data數據和log日誌，然後再格式化NameNode。

（4）操作集群

（a）在HDFS文件系統上創建一個input文件夾

<code>bin/hdfs dfs -mkdir -p /user/hadoop/input/<code>

（b）將測試文件內容上傳到文件系統上

<code>bin/hdfs dfs -put wcinput/wc.input
  /user/hadoop/input//<code>

（c）查看上傳的文件是否正確

<code>bin/hdfs dfs -ls  /user/hadoop/input/
  
bin/hdfs dfs -cat  /user/hadoop/ input/wc.input/<code>

（d）運行MapReduce程序

<code>bin/hadoop jar
share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/hadoop/input/ /user/hadoop/output/<code>

（e）查看輸出結果

<code>bin/hdfs dfs -cat /user/hadoop/output/*/<code>

（f）將測試文件內容下載到本地

<code>hdfs dfs -get /user/hadoop/output/part-r-00000 ./wcoutput//<code>

（g）刪除輸出結果

<code>hdfs dfs -rm -r /user/hadoop/output/<code>

啟動YARN並運行MapReduce程序

1. 分析

（1）配置集群在YARN上運行MR

（2）啟動、測試集群增、刪、查

（3）在YARN上執行WordCount案例

2. 執行步驟

（1）配置集群

（a）配置yarn-env.sh

配置一下JAVA_HOME：

<code>export JAVA_HOME=/opt/module/jdk1.8.0_144/<code>

b）配置yarn-site.xml

<code> 

 		yarn.nodemanager.aux-services
 		mapreduce_shuffle


 

yarn.resourcemanager.hostname
hadoop101
/<code>

c）配置：mapred-env.sh

配置一下JAVA_HOME

<code>export JAVA_HOME=/opt/module/jdk1.8.0_144/<code>

d）配置： (對mapred-site.xml.template重新命名為) mapred-site.xml

<code>mv mapred-site.xml.template mapred-site.xml
vi mapred-site.xml/<code>

<code> 

		mapreduce.framework.name
		yarn
/<code>

（2）啟動集群

（a）啟動前必須保證NameNode和DataNode已經啟動

（b）啟動ResourceManager

<code>sbin/yarn-daemon.sh start resourcemanager/<code>

（c）啟動NodeManager

<code>sbin/yarn-daemon.sh start nodemanager/<code>

（3）集群操作

（a）YARN的瀏覽器頁面查看

http://hadoop101:8088/cluster

（b）刪除文件系統上的output文件

<code>bin/hdfs dfs -rm -R /user/hadoop/output/<code>

（c）執行MapReduce程序

<code>bin/hadoop jar
 share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/hadoop/input  /user/hadoop/output/<code>

（d）查看運行結果

<code>bin/hdfs dfs -cat /user/hadoop/output/*/<code>

配置歷史服務器

為了查看程序的歷史運行情況，需要配置一下歷史服務器。具體配置步驟如下：

1. 配置mapred-site.xml

<code>vi mapred-site.xml/<code>

在該文件裡面增加如下配置。

<code> 

mapreduce.jobhistory.address
hadoop101:10020

 

    mapreduce.jobhistory.webapp.address
    hadoop101:19888
/<code>

2. 啟動歷史服務器

<code>sbin/mr-jobhistory-daemon.sh start historyserver/<code>

3. 查看歷史服務器是否啟動

<code>jps/<code>

4. 查看JobHistory

http://hadoop101:19888/jobhistory

配置日誌的聚集

日誌聚集概念：應用運行完成以後，將程序運行日誌信息上傳到HDFS系統上。

日誌聚集功能好處：可以方便的查看到程序運行詳情，方便開發調試。

注意：開啟日誌聚集功能，需要重新啟動NodeManager 、ResourceManager和HistoryManager。

開啟日誌聚集功能具體步驟如下：

1. 配置yarn-site.xml

<code>vi yarn-site.xml/<code>

在該文件裡面增加如下配置。

<code> 

yarn.log-aggregation-enable
true


 

yarn.log-aggregation.retain-seconds
604800
/<code>

2. 關閉NodeManager 、ResourceManager和HistoryServer

<code>sbin/yarn-daemon.sh stop resourcemanager
sbin/yarn-daemon.sh stop nodemanager
sbin/mr-jobhistory-daemon.sh stop historyserver/<code>

3. 啟動NodeManager 、ResourceManager和HistoryServer

<code>sbin/yarn-daemon.sh start resourcemanager
sbin/yarn-daemon.sh start nodemanager
sbin/mr-jobhistory-daemon.sh start historyserver/<code>

4.刪除HDFS上已經存在的輸出文件

<code>bin/hdfs dfs -rm -R /user/hadoop/output/<code>

5. 執行WordCount程序

<code>hadoop jar
 share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/hadoop/input /user/hadoop/output/<code>

6. 查看日誌

http://hadoop101:19888/jobhistory

配置文件說明

Hadoop配置文件分兩類：默認配置文件和自定義配置文件，只有用戶想修改某一默認配置值時，才需要修改自定義配置文件，更改相應屬性值。

（1）默認配置文件：

（2）自定義配置文件：

core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml四個配置文件存放在$HADOOP_HOME/etc/hadoop這個路徑上，用戶可以根據項目需求重新進行修改配置。

完全分佈式運行模式

主要步驟：

1）準備3臺客戶機（關閉防火牆、靜態ip、主機名稱）hadoop102，hadoop103，hadoop104

2）安裝JDK

3）配置環境變量

4）安裝Hadoop

5）配置環境變量

6）配置集群

7）單點啟動

8）配置ssh

9）群起並測試集群

將hadoop102，hadoop103，hadoop104安裝JDK和Hadoop並配置環境變量。

集群部署規劃：

（1）首先配置Hadoop102的配置文件，再分發配置文件到其他節點。

<code>vi core-site.xml/<code>

在該文件中編寫如下配置

<code> 

		fs.defaultFS
      hdfs://hadoop102:9000


 

		hadoop.tmp.dir
		/opt/module/hadoop-2.7.2/data/tmp
/<code>

（2）HDFS配置文件

配置hadoop-env.sh

<code>vi hadoop-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144/<code>

配置hdfs-site.xml

<code> vi hdfs-site.xml/<code>

在該文件中編寫如下配置

<code>
		dfs.replication
		3


 

      dfs.namenode.secondary.http-address
      hadoop104:50090
/<code>

（3）YARN配置文件

配置yarn-env.sh

<code>vi yarn-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144/<code>

配置yarn-site.xml

<code>vi yarn-site.xml/<code>

在該文件中增加如下配置

<code> 

		yarn.nodemanager.aux-services
		mapreduce_shuffle


 

		yarn.resourcemanager.hostname
		hadoop103
/<code>

（4）MapReduce配置文件

配置mapred-env.sh

<code>vi mapred-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144/<code>

配置mapred-site.xml

<code>cp mapred-site.xml.template mapred-site.xml
vi mapred-site.xml/<code>

在該文件中增加如下配置

<code> 

mapreduce.framework.name
yarn
/<code>

在集群上分發配置好的Hadoop配置文件

利用rsync命令分發。

集群單點啟動

如果集群是第一次啟動，需要格式化NameNode

<code>hdfs namenode -format/<code>

在hadoop102上啟動NameNode

<code>hadoop-daemon.sh start namenode/<code>

在hadoop102、hadoop103以及hadoop104上分別啟動DataNode

<code>hadoop-daemon.sh start datanode/<code>

SSH無密登錄配置

再生成公鑰和私鑰：

<code>ssh-keygen -t rsa/<code>

然後敲（三個回車），就會生成兩個文件id_rsa（私鑰）、id_rsa.pub（公鑰）

將公鑰拷貝到要免密登錄的目標機器上

<code>ssh-copy-id hadoop102
ssh-copy-id hadoop103
ssh-copy-id hadoop104/<code>

注意：

還需要在hadoop103上採用hadoop賬號，配置一下無密登錄到hadoop102、hadoop103、hadoop104；

還需要在hadoop104上採用hadoop賬號配置一下無密登錄到hadoop102、hadoop103、hadoop104服務器上。

.ssh文件夾下（~/.ssh）的文件功能解釋

known_hosts：記錄ssh訪問過計算機的公鑰(public key)

id_rsa：生成的私鑰

id_rsa.pub：生成的公鑰

authorized_keys：存放授權過的無密登錄服務器公鑰

群起集群

配置slaves，進入/opt/module/hadoop-2.7.2/etc/hadoop/slaves目錄下

<code>vi slaves/<code>

在該文件中增加如下內容：

<code>hadoop102
hadoop103
hadoop104/<code>

注意：該文件中添加的內容結尾不允許有空格，文件中不允許有空行。

同步所有節點配置文件。

啟動集群

（1）如果集群是第一次啟動，需要格式化NameNode（注意格式化之前，一定要先停止上次啟動的所有namenode和datanode進程，然後再刪除data和log數據）

<code>bin/hdfs namenode -format/<code>

（2）啟動HDFS

<code>sbin/start-dfs.sh/<code>

（3）啟動YARN

<code>sbin/start-yarn.sh/<code>

注意：NameNode和ResourceManger如果不是同一臺機器，不能在NameNode上啟動 YARN，應該在ResouceManager所在的機器上啟動YARN。

（4）Web端查看SecondaryNameNode

（a）瀏覽器中輸入：http://hadoop104:50090/status.html

（b）查看SecondaryNameNode信息

集群啟動/停止方式總結

1. 各個服務組件逐一啟動/停止

（1）分別啟動/停止HDFS組件

<code>hadoop-daemon.sh  start / stop  namenode / datanode / secondarynamenode/<code>

（2）啟動/停止YARN

<code>yarn-daemon.sh  start / stop  resourcemanager / nodemanager/<code>

2. 各個模塊分開啟動/停止（配置ssh是前提）常用

（1）整體啟動/停止HDFS

<code>start-dfs.sh   /  stop-dfs.sh/<code>

（2）整體啟動/停止YARN

<code>start-yarn.sh  /  stop-yarn.sh/<code>

分享到:

關鍵字: 海量集群配置

未來5-10年，哪些行業最吃香？

程序員加班嚴重沒有時間提升自我？資深大牛：那是你沒有規劃好

漫畫：什麼是數據倉庫？

大數據獨角獸Databricks憑什麼估值280億美元？

java說「我愛你」，分別怎麼說？

AI應屆博士年薪漲至80萬！區塊鏈工程師笑笑不說話

「報名」JAVA架構師徒培訓班（第19期）開課啦！

中國移動9個月營收入5677億元：從搬運工到用數據換未來

親手搭建個spark 環境試試

華人新成員為 ASF 添柴火

「史上最全」Hadoop 核心 - HDFS 分佈式文件系統詳解(上萬字建議收藏)

Hadoop Spark：全面比拼（架構、性能、成本、安全）

Spark大數據處理框架入門-包括生態系統、運行流程以及部署方式

Hadoop HDFS分佈式文件系統簡介

名詞解析——中間件

hadoop VS spark 性能原理分析

淺析Airtom智能決策在實時性和一致性方面的突破

考察了多個崗位，我發現入行大數據最容易的職位是…

互聯網時代大數據重要性！看看它有多厲害？

大數據方面核心技術有哪些

Hbase原理與使用

分享10個linux常用小技巧，提高工作效率

Java和Java大數據有什麼區別？0基礎能學大數據嗎？

自定義Spark Partitioner提升es-hadoop Bulk效率

Java高併發解決方案！漲薪必備

SQLSERVER 安裝

鐵飯碗專業整理好了，學這些準沒錯！

開源改變了小米什麼？

大數據究竟“大”在哪？

如何成為數據庫管理員（DBA）

PaaS 數據服務平臺簡介（上篇）

中國軟件行業協會聯合千鋒教育將舉辦互聯網應用技術高級師資培訓

大數據人才缺口150萬，薪資高前景好，你來不來？

自學大數據需要學哪些內容？

hadoop vs 其它系統

從0開始在 docker 中配置 hadoop 集群

大數據框架對比：Hadoop、Storm、Samza、Spark 和 Flink[轉]

Spark大數據開發實戰之43，Hadoop，安裝配置Hive1

Spark PK Hadoop 誰是贏家？

月薪五萬以上的數據分析師必備工具，你會用哪幾種

apache-hadoop-2.7.7集群安裝-HA高可用版本

python-snakebite操作Hadoop

Hadoop 第一課安裝JDK & Hadoop 啟動

扎心！“我學了六個月 Python，怎麼還是找不到工作”

Giraph：基於Hadoop的開源圖計算框架

千億數據優化，如何繞過數據傾斜這頭攔路虎？

Hive 中的表分為內部表、外部表、分區表和 Bucket 表

Java大數據技術學習指南與成長路線

HIVE擴展GIS函數

Spark大數據開發實戰之46，Hadoop，讀取HDFS上的圖片

潛逃壓力過大暴瘦40多斤，一涉黑A級通緝犯在河北投案自首

記者從河北省公安廳獲悉，日前公安部通緝的13名A級通緝犯中的2號通緝犯魯某某近日向河北邯鄲警方投案自首，這是公安部A級通緝令後又一通緝犯主動投案。

當我們在談 SaaS 的時候，在談什麼？

當我們在談SaaS 的時候，在談什麼？什麼是 SaaSSaaS 優缺點SaaS 銷售模式SaaS 產品指標SaaS 業務指標SaaS 收入計算一、什麼是 SaaS這個模式讓軟件變得和水電氣很相似，只需要每月繳納固定的費用即可享受服務。

合同詐騙的類型有哪些？企業無力償還借款是否構成合同詐騙罪？

現階段，隨著國家供給側結構性改革的不斷深入，人們在市場中的互易行為日益頻繁，合同在經濟活動發揮的作用也日漸凸顯。

5月西安招聘會時間安排來了！找工作的別錯過

乘車路線:西安市內乘坐12路、14路、14路區間、26路、215路、215路區間、216路、224路、229路、239路、31路、36路、321路、323路、521路、600路、603路、616路、701路、704路、709路、教育專線、K605路、K616路、遊6路、遊8路61

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

剛剛:剛剛工作的畢業生，一個月只有2000多，是不是太少了？根據你城市消費水平來看啊，還有你從事的工作，假如你在二三線城市做一份事業單位或者是編制類的工作，薪資水平是隨著你工作年限逐年增長的，而且在年終也有很多福利補貼待遇等等，算下來收入也是可觀的，再舉一個例:-畢業生 2000

全球鬧「美元荒」帶動穩定幣需求暴增！以太坊交易量創近兩年新高

基於以太坊區塊鏈的主要穩定幣包括：Tether、TrueUSD、GeminiDollar、Paxos Standard、Binance USD、USD Coin、Huobi USD和MakerDAO等。

“幫助當地居民解決用水難題”-今日頭條-手機光明網

晨曦初露，9歲的米格爾和弟弟妹妹們抱著水罐，穿過一片田野，到達安哥拉首都羅安達郊區的指定取水點。葛洲壩安哥拉有限公司市場部負責人劉世軒介紹說，公司每天派出送水車兩次，一次3車，將潔淨水從羅安達水廠直接運往指定取水點。

灌籃高手無水印壁紙，每一張都是回憶

那些年，我們追過的灌籃高手，你更喜歡誰呢？流川楓櫻木花道赤木剛憲宮城良田三井壽你喜歡哪個球員呢？歡迎評論區留言。

通遼藍天救援隊成功解救遼河公園水上被困群眾

2020年5月1日，通遼藍天救援隊假期例行在遼河公園水域進行安全巡邏任務，下午15時10分，巡邏隊員發現遼河水面有被困群眾向巡邏船隻求救，接到求救信號後，巡邏隊員緊急前往事故現場展開研判、救援準備工作。

5月6日·武漢要聞及抗擊肺炎快報

今天零時起高速公路恢復收費了，這些車輛還能免費5月6日零時起全國高速公路恢復收費在武漢北收費站ETC和人工車道全部可通行零時左右通過收費站的車輛並不多以大貨車為主有工作人員在一旁引導貨車進入高速收費站前要通過入口稱重檢測車道進入沒有超重超限便可順利通過現場沒有出現排隊的現象全省聯

肖副省長等省市領導到孝感市楚澴中學調研九年級復學暨疫情防控常態化工作

2020年4月29日下午，肖副省長等省市領導來到孝感市楚澴中學調研九年級復學暨疫情防控常態化工作，肖副省長等省市領導在學校領導陪同下，重點對校門口出入、保健室、教室、學生心理輔導室、洗手池等進行了非常細緻的檢查，對孝感市楚澴中學的復學和疫情防控工作給予充分的肯定。

相聲界的顏值擔當張雲雷稱號大揭祕

這個播放量就連師傅身為相聲演員的張雲雷卻有著堪比娛樂圈小鮮肉的顏值，一個相聲演員長成這樣，張雲雷不火誰能火。

美國百年薅羊毛攻略

當德國向法軍陣地傾洩400多萬發炮彈，揚言要讓凡爾登成為「碾碎法軍的絞肉機」時，遠在大西洋的美國人。

《全職高手》：一口氣刷了10集，對楊洋路轉粉了

近日，由楊洋、江疏影主演的劇版《全職高手》在騰訊視頻正式開播了，該劇改編自蝴蝶藍同名小說，先前還被改編成動畫版。

共同承擔責任！Rookie談BP問題：輸了是我們打得太臭

前言：IG這隻老牌戰隊在我們LPL賽區以來都擁有著非常高的人氣，特別是在2018年之後，他們幫助我們LPL賽區奪得了第一個寶貴的S賽世界冠軍，而IG戰隊的打法一直以來也是非常有觀賞性的。

LOL"中韓對抗賽"遭選手反對？Zoom直言不想打，Doinb的回答太真實

Doinb表示："可以的話我不想參加，首先這場比賽沒有任何意義，獲得勝利既不會有獎金也不會有榮譽，但萬一輸掉比賽FPX就會成為大家吐槽的焦點"。

李亞鵬攜李嫣出席慈善晚會，李嫣手上鑽戒搶鏡，1個動作獲誇讚！

大家都知道天后王菲和前夫李亞鵬他們育有一個女兒，名叫李嫣。於是李嫣因為偷偷的開了直播從而也導致了她被大家所發現，但李嫣的樂觀和開朗卻也讓李亞鵬放下心來，決定放飛女兒，讓她自由的去探索她想要的世界。

53歲郭富城再度升級當爸，方媛懷二胎，Chant要做姐姐了

天王郭富城近日參加活動，首度承認妻子方媛懷有二胎的消息。從去年2017年兩人結婚，低調的愛情讓媒體都捕捉不到邊際，天王嫂31歲兩人相差了20歲的愛戀，始終不少人不看好啊。

那些拼命的演員：王寶強喝了一大桶牛奶，孫儷吃10斤瓜子

演員在我們眼中一直都是光鮮亮麗、收入頗高的職業，並且現在有很多靠流量躋身一線，卻毫無演技以及實力的演員。

賈乃亮用上了“一米陽光”這個詞，他依然渴望擁有美麗的愛情！

曾經賈乃亮是“陽光”的代名詞，大家看到他都覺得很暖，只不過後來就不是了。今天早上，他發了一條微博“人生的美好就是每天醒來都能看到上帝賜予我的那一米陽光”，這句話當中，賈乃亮用到了“一米陽光”這個詞。

搞笑GIF開心一刻：我的老家農村，有妹子願意嫁給我嗎？

當一名理髮師也不容易這是一隻有航天夢想的老鼠寶寶！什麼？這麼貴！把我賣了得了。小朋友，你贏了，我甘拜下風！

為什麼只有edg賺錢？

電競行業作為一個新興產業，這幾年發展勢頭越來越好，IG戰隊，FPX戰隊先後奪得了s8-s9世界賽的冠軍，據俱樂部知情人士透露，除了國內的幾家豪門俱樂部之外，其他俱樂部基本都是虧錢在做的，當然EDG也是:-edg 賺錢:為什麼只有edg賺錢？

程瀟身材多好？雙腿劈叉才明白，這才是“腿精”

程瀟可謂是才女，她是中韓宇宙少女的成員之一，今年她只有20歲。不要看程瀟年紀比較小，但是她身材還是挺好的，身材也是典型S型曲線，魅力不小。

張柏芝承認三胎產子，否認小夥的老爸是孫東海，看來她選擇保密

張柏芝是許多80後90後心目中的女神，除了顏值高有演技外，她和謝霆鋒的婚姻和戀情也曾是吃瓜群眾津津樂道的事。

T1戰隊搶注Faker商標，“囊括多個領域產品，商業潛力媲美喬丹”

前言：目前各大賽區的春季賽都已經結束了，T1戰隊在重組之後再度拿下了lck賽區的冠軍，這讓很多的玩家非常意外，這也從側面反映出來了，核心選手和主教練的個人能力，同時faker的實力再度被玩家們認可，最近一段時間他也是一直在直播，很多的人都在詢問，今年李哥的目標是什麼？

雲頂之弈“最不平衡的版本”誕生，全員搶一費卡，運氣成吃雞關鍵

上線之後迅速引發了大量玩家的好評，就在最近，官方也是迎來了10.9版本，可是在目前的版本中再度出現了太多的畸形玩法了，應該是有史以來最不平衡的版本，因為一費卡的爆率大大提升，導致遊戲成為了三星的天下，全員搶一費卡，運氣成為吃雞的關鍵。

LPL春季賽"6宗最"：Uzi最遺憾，阿水最驚喜，V5最離譜

在本期節目中會評選出一位最美麗LPL女解說，其中瞳夕、Rita、餘霜等都在名單之中，最有趣的是管澤元居然也出現在了“女解說”名單中，全因餘霜一張P過的照片，論梗的話，管澤元第一，若是輪顏值，估計這也排不上名次。

雷佳音被問：跟佟麗婭拍那麼多親熱戲是啥感受？他的回答笑翻眾人

不過要是像唐嫣和羅晉那樣用公費談戀愛的故事不多，大多數還是和不是心愛的人拍得多，但要是遇上岳雲鵬和佟麗婭拍親熱戲的話，那個畫面或許大家想象不出來吧。

JDG成最“慘”冠軍戰隊？拿到LPL冠軍人氣依舊低迷，TES成贏家！

LPL賽區的春季賽結束也有一段時間了，作為冠軍戰隊JDG，並沒有因為拿到冠軍而出現“人氣”的高漲，依舊平平淡淡，熟悉LPL賽區的玩家都知道，在LPL賽區中，一直以來都是由RNG、IG、EDG三家從“遠古”時期就開始統治LPL賽區，期間也有OMG和LGD、WE幾個戰隊打破了這個規律

#戰疫必勝#“症和狀”都有了，我與新冠擦肩而過

學習結束，回到家後，在武大短暫學習的那段時光時常讓我懷念，並曾立下誓言，抽個暑假一定要帶著老婆孩子一起去“逛”武大。機會就這麼悄然而至！2019年第28屆世界腦力錦標賽全球總決賽的舉辦地就是武漢，比賽的日期是12月6日到8日，三天的時間。其實，我也沒有想到第一次參加這樣比賽的女兒

T1提議中韓友誼賽，但LPL隊伍都不想參加？理由其實很簡單

這不今天就有網友在論壇中聊起了這個話題，有網友表示“LPL隊伍其實都不想參加中韓友誼賽，LPL隊伍才剛結束春季賽，18天之後就要打夏季賽了，像IG可能會有人員變動FPX TES 應該也會利用這段時間來檢討分析，也許只有JDG 比較願意參加，doinb只是第一表態的選手，可能還有很

網友投稿：光山縣潑陂河鎮至白雀園鎮的X015縣道德兩座壞橋經過5個月的等待終於開修啦#光山 #信陽

網友投稿：光山縣潑陂河鎮至白雀園鎮的X015縣道德兩座壞橋經過5個月的等待終於開修啦#光山 #信陽，於2020年04月28日上線，由信陽本地聯盟上傳。西瓜視頻為您提供高清視頻，畫面清晰、播放流暢，看豐富、高質量視頻就上西瓜視頻。

2020最佳韓劇追起來~《愛的迫降》僅排名第二，TOP 1絕對實至名歸

TOP20 - 「優雅的家」這部由林秀香、李章宇、裴宗玉等人所主演的《優雅的家》，當時一播出就引起不少話題，雖然劇情有點浮誇，但卻莫名好看，而當時該劇還刷新了MBN電視臺的記錄呢~《優雅的家》主要講述一位擁有完美外貌和身材的MC集團獨生女毛碩熙，為了查明15年母親去世的真相，因此

搞笑GIF開心一刻：我正在睡覺，誰敢打擾我

我這暴脾氣，等你剝完我能吃五個你帶著你家貓去做演員吧！這貓太有前途了！這是我見過最牛的啦啦隊！自從有了弟弟，老大就和家務結緣了狼狗：要不是主人在，我非吃了你兩個小子！

備考消防的幾大錯覺，你有這個情況嗎？

講真，很多時候我們會把事情想當然，並因為這些錯覺而採取錯誤的舉動，一消備考是一場毅力和心智的戰鬥，大家難免會產生一些錯覺，從而影響自己的備考效率，甚至導致備考失敗。

“頂流”李敏鎬啞火，渣男出軌劇出圈，韓劇觀眾也長大了？

豆瓣開分8.3，漸漸跌到7.7分，熱門短評寫道：“同樣是金編，差距怎麼這麼大”、“看了四集節奏真的是一團糟，比起隔壁《夫妻的世界》真的差一大截”。

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

20000:網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？天貓旗艦店，或者淘寶旗艦店，或者京東旗艦店肯定包真，質量好，再說可以官方驗證啊，不能圖那十塊五塊的便宜，畢竟一個充電寶要用好久呢，一兩年沒問題的。:-羅馬仕馬仕毫安

應急科普丨“五一” 期間氣溫回升謹防森林火災隱患

隨著“五一”期間氣溫大幅回升全國大部分地區已經進入初夏在享受小長假春日美景的同時森林火險等級也隨之明顯提升新疆森林消防提示您春季氣溫回升快野外草木乾燥你的一個失當用火行為就有可能引發森林大火勿念蔥林繁似海一星燃盡只塵埃

搞笑GIF開心一刻：拍照啦，趕緊看鏡頭

弟弟：姐姐你能利索點嗎家裡有個熊孩子，說實話心很累同學感覺你好可伶，一個人跳舞多尷尬啊！看我病好了怎麼收拾你們！真的是以迅雷不及掩耳之勢啊。姑涼，你……掉毛啊！小姐姐你是想找男朋友嗎用這樣的方式，結局很意外此處注意安全！

工程發承包、工程造價條款，或迎來大調整

第二章建設規劃與設計第一節建設規劃第八條建設規劃的體系第九條建設規劃的編制與審批第十條建設規劃的內容第十一條建設規劃的實施與評估第二節城市設計第十二條城市設計的基本要求第十三條城市設計的編制和審批第十四條城市設計的實施和管理第三節建築設計第十五條建築設計的基

新增四省！關於2019年一級建造師考試證書、複核發佈公告

快來看看吧~青海關於恢復專業技術人員職業資格證書的發放、補辦工作的通知各位考生：隨著疫情防控進入常態化，青海省新冠疫情得到有效控制，專業技術人員職業資格證書的印製、發放工作正在逐步恢復，為方便廣大考生辦理證書業務，4月28日起青海省人力資源和社會保障服務中心一樓大廳65、66號辦

學霸也會復讀？朱廣權這個圈粉無數的國民段子手是如何煉成的！

“煙籠寒水月籠沙，不止東湖與櫻花，門前風景雨來佳，蓮藕魚糕玉露茶，鳳爪藕帶熱乾麵，米酒香菇小龍蝦，守住金蓮不自誇，趕緊下單買回家，買它買它就買它，熱乾麵和小龍蝦。”

幸福的人，總會忘記舊愛

幸福從來不可能是有個人幫你搞定所有的一切，而你只需要坐享其成。她喜歡喝銀耳蓮子羹而且必須是上好的銀耳，用小火慢慢燉到砧稠那一日，他去看她，她冷冷地從屋裡走出來，丟給他一本書.對他說:"廚房裡小鍋燉著東西，你幫我去看看。”他真真地守了一個多小時，端到她面前。

真人芭比：一直說自己“沒整容”最後晒出舊照，打臉的卻是自己

俗話說的好“愛美之心人人都有”而讓自己快速變美的方法無疑就是“整容”如今的社會整容看起來似乎很平常。

驚了！這件事沒有做，一消證書等於白考！

不要慌，同學們，遇到問題不要怕，拿到證書不去註冊，相當於證書無效，今天就為大家一一解答註冊證書的相關問題。

8年後，有哪些人會留在農村生活？以下4類人群或將留下，有你嗎

從九十年代末開始，在我國農村地區就興起了一股“進城潮”，記得那個時候，農村的經濟發展相對滯後，村民生活條件艱苦，鄉親們為了擺脫貧困，只能告別親人，遠離家鄉去外面打拼賺錢。

唯一回絕張藝謀力捧的女生，被報送上清華，25歲有上百億身家

25歲有上百億身家文/娛樂深扒爆姐圖/網絡張藝謀是一位非常有實力的導演，同時非常出名，而且他拍攝的作品中有不少獲獎無數的經典影片，同時也捧紅過不少藝人。

疫情下的悲劇：買不起手機上網課，那個女孩決定吞藥自殺

有人為了生計不顧自身安危，有人躲在家中安然度日，還有人僅僅因為一個手機，就要放棄自己的生命...這個女孩，今年上初三，因為疫情的原因，全國各地都展開了網課線上教育，女孩的學校也不例外。

李棟旭劉仁娜新劇開拍，互對臺詞歡樂多，終於要開始撒狗糧了嗎？

這部劇是2016年年底播出的，熱度一直持續到了2017年，相關的周邊和景點都相當熱門，像是池恩卓跟鬼怪大叔相遇的海邊、劇中出現的鬼怪玩偶、還有鬼怪大叔的拔劍特效等等。

高考延期：七月的高考，最熱的天，做最難的題！

後來，由於7月份氣候較差，極端天氣頻發，尤其是南方地區，要麼極端高溫，要麼就是颱風，對於高考來說非常不友好，不僅考生的考試質量會下降，而且閱卷老師、高考工作者也不方便，因此，從2003年開始，高考日期都固定在了每年的6月7日、8日。

Hadoop知識整理

Hadoop是什麼

Hadoop三大發行版本

Hadoop的優勢

Hadoop組成

HDFS架構概述

Hadoop運行環境搭建

安裝Hadoop

Hadoop目錄結構

Hadoop運行模式

相關文章:

未來5-10年，哪些行業最吃香？

程序員加班嚴重沒有時間提升自我？資深大牛：那是你沒有規劃好

漫畫：什麼是數據倉庫？

大數據獨角獸Databricks憑什麼估值280億美元？

java說「我愛你」，分別怎麼說？

AI應屆博士年薪漲至80萬！區塊鏈工程師笑笑不說話

「報名」JAVA架構師徒培訓班（第19期）開課啦！

中國移動9個月營收入5677億元：從搬運工到用數據換未來

親手搭建個spark 環境試試

華人新成員為 ASF 添柴火

「史上最全」Hadoop 核心 - HDFS 分佈式文件系統詳解(上萬字建議收藏)

Hadoop Spark：全面比拼（架構、性能、成本、安全）

Spark大數據處理框架入門-包括生態系統、運行流程以及部署方式

Hadoop HDFS分佈式文件系統簡介

名詞解析——中間件

hadoop VS spark 性能原理分析

淺析Airtom智能決策在實時性和一致性方面的突破

考察了多個崗位，我發現入行大數據最容易的職位是…

互聯網時代大數據重要性！看看它有多厲害？

大數據方面核心技術有哪些

Hbase原理與使用

分享10個linux常用小技巧，提高工作效率

Java和Java大數據有什麼區別？0基礎能學大數據嗎？

自定義Spark Partitioner提升es-hadoop Bulk效率

Java高併發解決方案！漲薪必備

SQLSERVER 安裝

鐵飯碗專業整理好了，學這些準沒錯！

開源改變了小米什麼？

大數據究竟“大”在哪？

如何成為數據庫管理員（DBA）

PaaS 數據服務平臺簡介（上篇）

中國軟件行業協會聯合千鋒教育將舉辦互聯網應用技術高級師資培訓

大數據人才缺口150萬，薪資高前景好，你來不來？

自學大數據需要學哪些內容？

hadoop vs 其它系統

從0開始在 docker 中配置 hadoop 集群

大數據框架對比：Hadoop、Storm、Samza、Spark 和 Flink[轉]

Spark大數據開發實戰之43，Hadoop，安裝配置Hive1

Spark PK Hadoop 誰是贏家？

月薪五萬以上的數據分析師必備工具，你會用哪幾種

apache-hadoop-2.7.7集群安裝-HA高可用版本

python-snakebite操作Hadoop

Hadoop 第一課 安裝JDK & Hadoop 啟動

扎心！“我學了六個月 Python，怎麼還是找不到工作”

Giraph：基於Hadoop的開源圖計算框架

千億數據優化，如何繞過數據傾斜這頭攔路虎？

Hive 中的表分為內部表、外部表、分區表和 Bucket 表

Java大數據技術學習指南與成長路線

HIVE擴展GIS函數

Spark大數據開發實戰之46，Hadoop，讀取HDFS上的圖片

潛逃壓力過大暴瘦40多斤，一涉黑A級通緝犯在河北投案自首

當我們在談 SaaS 的時候，在談什麼？

合同詐騙的類型有哪些？企業無力償還借款是否構成合同詐騙罪？

5月西安招聘會時間安排來了！找工作的別錯過

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

全球鬧「美元荒」帶動穩定幣需求暴增！以太坊交易量創近兩年新高

“幫助當地居民解決用水難題”-今日頭條-手機光明網

灌籃高手無水印壁紙，每一張都是回憶

通遼藍天救援隊成功解救遼河公園水上被困群眾

5月6日·武漢要聞及抗擊肺炎快報

肖副省長等省市領導到孝感市楚澴中學調研九年級復學暨疫情防控常態化工作

相聲界的顏值擔當張雲雷稱號大揭祕

美國百年薅羊毛攻略

《全職高手》：一口氣刷了10集，對楊洋路轉粉了

共同承擔責任！Rookie談BP問題：輸了是我們打得太臭

LOL"中韓對抗賽"遭選手反對？Zoom直言不想打，Doinb的回答太真實

李亞鵬攜李嫣出席慈善晚會，李嫣手上鑽戒搶鏡，1個動作獲誇讚！

53歲郭富城再度升級當爸，方媛懷二胎，Chant要做姐姐了

那些拼命的演員：王寶強喝了一大桶牛奶，孫儷吃10斤瓜子

Hadoop 第一課安裝JDK & Hadoop 啟動

應急科普丨“五一” 期間氣溫回升謹防森林火災隱患