大數據-hadoop生態系統及版本演化

Hadoop系統演化過程:

大數據-hadoop生態系統及版本演化

大數據-hadoop生態系統及版本演化

大數據-hadoop生態系統及版本演化

大數據-hadoop生態系統及版本演化

瞭解更多大數據相關知識點擊文章末尾:瞭解更多查看

HDFS:分佈式存儲系統(Hadoop Distributed File System):提供了高可靠性、高擴展性和高吞吐率的數據存儲服務

HDFS源自於Google的GFS論文 (發表於2003年10月 ),是GFS克隆版

YARN:資源管理系統(Yet Another Resource Negotiator):負責集群資源的統一管理和調度,Hadoop 2.0新增系統,使得多種計算框架可以運行在一個集群中

MapReduce:分佈式計算框架:具有易於編程、高容錯性和高擴展性等優點

MapReduce源自於Google的MapReduce論文 (發表於2004年12月),是Google MapReduce克隆版

Hive:由facebook開源,基於MR的數據倉庫,數據計算使用MR,數據存儲使用HDFS,Hive 定義了一種類 SQL 查詢語言——HQL:類似SQL,但不完全相同

日誌分析:統計網站一個時間段內的pv、uv

Pig:由yahoo!開源,構建在Hadoop之上的數據倉庫

大數據-hadoop生態系統及版本演化

Mahout:數據挖掘庫,基於Hadoop的機器學習和數據挖掘的分佈式計算框架,實現了三大類算法 :推薦(Recommendation) 、聚類(Clustering) 、分類(Classification)

HBase:分佈式數據庫,源自Google的Bigtable論文 ,發表於2006年11月 ,是Google Bigtable克隆版

Zookeeper:分佈式協作服務,源自Google的Chubby論文 ,發表於2006年11月 ,是Chubby克隆版

解決分佈式環境下數據管理問題 :統一命名 、狀態同步 、集群管理 、配置同步

Sqoop:數據同步工具,連接Hadoop與傳統數據庫之間的橋樑 ,支持多種數據庫,包括MySQL、DB2等 ,插拔式,用戶可根據需要支持新的數據庫 ;本質上是一個MapReduce程序

Flume:日誌收集工具,Cloudera開源的日誌收集系統

Oozie:作業流調度系統

目前計算框架和作業類型繁多: MapReduce Java、Streaming、HQL、Pig等

如何對這些框架和作業進行統一管理和調度:

不同作業之間存在依賴關係(DAG);

週期性作業

定時執行的作業

作業執行狀態監控與報警(發郵件、短信等)

大數據-hadoop生態系統及版本演化

Hadoop發行版本

apache hadoop版本

CDH:Cloudera DistributedHadoop

http://archive.cloudera.com/cdh5/cdh/

HDP:Hortonworks Data Platform

http://zh.hortonworks.com/hdp/downloads/

建議選擇公司發行版(不必面臨版本某一個框架的選擇問題),比如CDH或HDP ,推薦使用CDH(國內主流版本)

更易維護和升級

經過集成測試,不會面臨版本兼容問題


分享到:


相關文章: