06.03 Hadoop快速上手技巧,版本的選擇

Hadoop是目前最火熱和普遍的大數據處理工具。一提起大數據,就繞不開Hadoop。然而在很多人眼裡,Hadoop複雜且難以掌握,以至於不知道該從何上手。今天小鳥就來談一談Hadoop快速上手的技巧。

版本的選擇

Hadoop是2005年秋天,由Apache Software Foundation公司發起的一個名為Nutch的子項目的一部分引用。發展到現在已經經歷了13年了,這期間經歷了許多的版本。既有Apache社區自帶的開源版本,也有第三方優化後的整體版本,下面小鳥稍微總結一下兩者的區別。

Hadoop快速上手技巧,版本的選擇

首先,Apache社區的Hadoop是完全開源的,並且文檔和資料都非常詳細。但是每個組件都是單獨發行的,這其中就會存在兼容性的問題。

比如Hadoop1.2和Hive2.7就是完全不兼容的,甚至連Java版本都不同,這會導致學習起來會經常被版本等問題困擾,不太方便。然而這樣所帶來的好處就是對機器的性能要求低很多,通常一個8G內存到16G內存的機器就可以開始學習之路。

Hadoop快速上手技巧,版本的選擇

第三方優化後的整體版本目前有Cloudera,HortonWorks和MapR等。其中Cloudera是最成型的發行版本,又叫CDH。

CDH包含了Hadoop的整個生態圈,所有的組件都包含在裡邊,並且還有一套強大的部署、管理和監控工具。絕大多數要用到大數據的公司都會採用CDH版本。CDH的優勢主要有以下幾點:

1. 不用擔心版本兼容問題,CDH的每一個版本都包含Hadoop生態圈的所有工具,並且經過大量的兼容性測試,不會在使用過程中突然冒出版本問題讓你頭疼不已。

2. 2.CDH安裝和文檔都相對簡單和清晰,不像Apache社區原生版本,每個組件都有其獨立的安裝方式和說明文檔,大家往往不知道如何下手。

但是其缺點就是對硬件需求會略高一點,建議使用多臺物理真機。

Hadoop快速上手技巧,版本的選擇

總而言之,對於條件不充裕的同學而言,最好還是選擇先學習Apache社區自帶的版本。下次我們再繼續介紹Hadoop快速上手的其他技巧,如果有興趣的話請繼續關注小鳥。


分享到:


相關文章: