給大數據開發初學者的話:初識hadoop
不論遇到什麼問題,先試試搜索並自己解決。
Google首選,翻不過去的,就用百度吧(ps現在基本上所有的問題度娘都會幫解決)。
可以在網上查找一些資料,自己看著順眼並且能夠看懂的就最好。但官方文檔畢竟是首選,但是對英語要求比較高,因此小編覺得有道是個好東西。
3 先讓Hadoop跑起來
Hadoop可以算是大數據存儲和計算的始創者,現在大多開源的大數據框架都依賴Hadoop或者與它能很好的兼容。
關於Hadoop,需要搞清楚以下是什麼:
Hadoop 1.0
Hadoop 2.0
MapReduce
HDFS
NameNode
DataNode
JobTracker
TaskTracker
Yarn
ResourceManager
NodeManager
查資料自己搭建Hadoop,如果能讓它跑起來那會給你極大的信息(ps這是一個艱難而漫長的過程,各位堅持)。
建議先使用安裝包命令行安裝,不要使用管理工具安裝。
另外:Hadoop1.0知道它就行了,現在都用Hadoop 2.0.
4 試試使用Hadoop
HDFS目錄操作命令;
上傳、下載文件命令;
提交運行MapReduce示例程序;
打開Hadoop WEB界面,查看Job運行狀態,查看Job運行日誌。
知道Hadoop的系統日誌在哪裡。
5 你該瞭解它們的原理了
MapReduce:如何分而治之;
HDFS:數據到底在哪裡,什麼是副本;
Yarn到底是什麼,它能幹什麼;
NameNode到底在幹些什麼;
ResourceManager到底在幹些什麼;
這個過程也是需要時間的,誰也不敢說自己短時間能把這些東西消化。
6 自己寫一個MapReduce程序
請仿照WordCount例子,自己寫一個(照抄也行,我自己也抄了一個)WordCount程序,
打包並提交到Hadoop運行。
如果沒有編程經驗,這一步又會給你出一個很大的難題,但是可以使用Hadoop Streaming。
剛剛開始會感覺舉步維艱,但是一定要堅持,堅持就是勝利!另外推薦一個網站:慕課網-程序員的夢工廠,裡邊的好些基礎視頻都是免費的(你懂的),剛好滿足各位小夥伴們的需求。
閱讀更多 冷貓工作室 的文章