09.17 Hadoop系統性學習路線圖技术頭條網

09.17 Hadoop系統性學習路線圖

本文主要介紹Hadoop家族產品，常用的項目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa，新增加的項目包括，YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。

從2011年開始，中國進入大數據風起雲湧的時代，以Hadoop為代表的家族軟件，佔據了大數據處理的廣闊地盤。開源界及廠商，所有數據軟件，無一不向Hadoop靠攏。Hadoop也從小眾的高富帥領域，變成了大數據開發的標準。在Hadoop原有技術基礎之上，出現了Hadoop家族產品，通過“大數據”概念不斷創新，推出科技進步。

作為IT界的開發人員，我們也要跟上節奏，抓住機遇，跟著Hadoop一起雄起！

使用Hadoop已經有一段時間了，從開始的迷茫，到各種的嘗試，到現在組合應用….慢慢地涉及到數據處理的事情，已經離不開hadoop了。Hadoop在大數據領域的成功，更引發了它本身的加速發展。現在Hadoop家族產品，已經達到20個了之多。

有必要對這些知識做一個整理了，把產品和技術都串起來。不僅能加深印象，更可以對以後的技術方向，技術選型做好基礎準備。

Hadoop家族產品

我把這20個產品，分成了2類。

· 第一類，是我已經掌握的

· 第二類，是TODO準備繼續學習的

一句話產品介紹:

本人對於大數據學習創建了一個小小的學習圈子，為各位提供了一個平臺，大家一起來討論學習大數據。歡迎各位到來。掃面下方二維碼即可加入我們，本群內部更有大數據免費大數據學習資料可以領取。加群：862879153

· Apache Hadoop: 是Apache開源組織的一個分佈式計算開源框架，提供了一個分佈式文件系統子項目(HDFS)和支持MapReduce分佈式計算的軟件架構。

· Apache Hive: 是基於Hadoop的一個數據倉庫工具，可以將結構化的數據文件映射為一張數據庫表，通過類SQL語句快速實現簡單的MapReduce統計，不必開發專門的MapReduce應用，十分適合數據倉庫的統計分析。

· Apache Pig: 是一個基於Hadoop的大規模數據分析工具，它提供的SQL-LIKE語言叫Pig Latin，該語言的編譯器會把類SQL的數據分析請求轉換為一系列經過優化處理的MapReduce運算。

· Apache HBase: 是一個高可靠性、高性能、面向列、可伸縮的分佈式存儲系統，利用HBase技術可在廉價PC Server上搭建起大規模結構化存儲集群。

· Apache Sqoop: 是一個用來將Hadoop和關係型數據庫中的數據相互轉移的工具，可以將一個關係型數據庫（MySQL ,Oracle ,Postgres等）中的數據導進到Hadoop的HDFS中，也可以將HDFS的數據導進到關係型數據庫中。

· Apache Zookeeper: 是一個為分佈式應用所設計的分佈的、開源的協調服務，它主要是用來解決分佈式應用中經常遇到的一些數據管理問題，簡化分佈式應用協調及其管理的難度，提供高性能的分佈式服務

· Apache Mahout:是基於Hadoop的機器學習和數據挖掘的一個分佈式框架。Mahout用MapReduce實現了部分數據挖掘算法，解決了並行挖掘的問題。

· Apache Cassandra:是一套開源分佈式NoSQL數據庫系統。它最初由Facebook開發，用於儲存簡單格式數據，集Google BigTable的數據模型與Amazon Dynamo的完全分佈式的架構於一身

· Apache Avro: 是一個數據序列化系統，設計用於支持數據密集型，大批量數據交換的應用。Avro是新的數據序列化格式與傳輸工具，將逐步取代Hadoop原有的IPC機制

· Apache Ambari: 是一種基於Web的工具，支持Hadoop集群的供應、管理和監控。

· Apache Chukwa: 是一個開源的用於監控大型分佈式系統的數據收集系統，它可以將各種各樣類型的數據收集成適合 Hadoop 處理的文件保存在 HDFS 中供 Hadoop 進行各種 MapReduce 操作。

· Apache Hama: 是一個基於HDFS的BSP（Bulk Synchronous Parallel)並行計算框架, Hama可用於包括圖、矩陣和網絡算法在內的大規模、大數據計算。

· Apache Flume: 是一個分佈的、可靠的、高可用的海量日誌聚合的系統，可用於日誌數據收集，日誌數據處理，日誌數據傳輸。

· Apache Giraph: 是一個可伸縮的分佈式迭代圖處理系統，基於Hadoop平臺，靈感來自 BSP (bulk synchronous parallel) 和 Google 的 Pregel。

· Apache Oozie: 是一個工作流引擎服務器, 用於管理和協調運行在Hadoop平臺上（HDFS、Pig和MapReduce）的任務。

· Apache Crunch: 是基於Google的FlumeJava庫編寫的Java庫，用於創建MapReduce程序。與Hive，Pig類似，Crunch提供了用於實現如連接數據、執行聚合和排序記錄等常見任務的模式庫

· Apache Whirr: 是一套運行於雲服務的類庫（包括Hadoop），可提供高度的互補性。Whirr學支持Amazon EC2和Rackspace的服務。

· Apache Bigtop: 是一個對Hadoop及其周邊生態進行打包，分發和測試的工具。

· Apache HCatalog: 是基於Hadoop的數據表和存儲管理，實現中央的元數據和模式管理，跨越Hadoop和RDBMS，利用Pig和Hive提供關係視圖。

· Cloudera Hue: 是一個基於WEB的監控和管理系統，實現對HDFS，MapReduce/YARN, HBase, Hive, Pig的web化操作和管理。

這些就是我整理的20個hadoop家族產品。

分享到:

閱讀更多 大數據開發工程師 的文章

關鍵字: Hadoop HDFS

09.17 Hadoop系統性學習路線圖

相關文章:

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章 內存管理實驗

小白怎麼學Web前端開發 如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎 如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

30種不同的編程語言怎麼寫“Hello, World”

percona QAN 介紹

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

網絡工程師職業生涯中，哪兩點是最重要的？

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

Hive分桶表

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

第一章 Spring Framework概述

opencv人工智能深度學習這樣實現人臉的年齡檢測

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

Redis內存分析工具--rdr安裝與使用

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

一行代碼提升遷移性能

利用相似幾何信息，做可泛化3D形狀分割模型

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

分佈式緩存，真香

特徵工程的力量

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

SpringBoot如何優雅的使用RocketMQ

css代碼規範工具stylelint

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪