給大數據開發初學者的話:初識hadoop

給大數據開發初學者的話:初識hadoop

給大數據開發初學者的話:初識hadoop

不論遇到什麼問題,先試試搜索並自己解決。

Google首選,翻不過去的,就用百度吧(ps現在基本上所有的問題度娘都會幫解決)。

可以在網上查找一些資料,自己看著順眼並且能夠看懂的就最好。但官方文檔畢竟是首選,但是對英語要求比較高,因此小編覺得有道是個好東西。

3 先讓Hadoop跑起來

Hadoop可以算是大數據存儲和計算的始創者,現在大多開源的大數據框架都依賴Hadoop或者與它能很好的兼容。

關於Hadoop,需要搞清楚以下是什麼:

Hadoop 1.0

Hadoop 2.0

MapReduce

HDFS

NameNode

DataNode

JobTracker

TaskTracker

Yarn

ResourceManager

NodeManager

查資料自己搭建Hadoop,如果能讓它跑起來那會給你極大的信息(ps這是一個艱難而漫長的過程,各位堅持)。

建議先使用安裝包命令行安裝,不要使用管理工具安裝。

另外:Hadoop1.0知道它就行了,現在都用Hadoop 2.0.

4 試試使用Hadoop

HDFS目錄操作命令;

上傳、下載文件命令;

提交運行MapReduce示例程序;

打開Hadoop WEB界面,查看Job運行狀態,查看Job運行日誌。

知道Hadoop的系統日誌在哪裡。

5 你該瞭解它們的原理了

MapReduce:如何分而治之;

HDFS:數據到底在哪裡,什麼是副本;

Yarn到底是什麼,它能幹什麼;

NameNode到底在幹些什麼;

ResourceManager到底在幹些什麼;

這個過程也是需要時間的,誰也不敢說自己短時間能把這些東西消化。

6 自己寫一個MapReduce程序

請仿照WordCount例子,自己寫一個(照抄也行,我自己也抄了一個)WordCount程序,

打包並提交到Hadoop運行。

如果沒有編程經驗,這一步又會給你出一個很大的難題,但是可以使用Hadoop Streaming。

剛剛開始會感覺舉步維艱,但是一定要堅持,堅持就是勝利!另外推薦一個網站:慕課網-程序員的夢工廠,裡邊的好些基礎視頻都是免費的(你懂的),剛好滿足各位小夥伴們的需求。


分享到:


相關文章: