Hadoop
就是一個大數據解決方案。它提供了一套分佈式系統基礎架構。
- 概念
- HDFS
- MapReduce
- Hadoop MapReduce作業的生命週期
Spark
Spark提供了一個全面、統一的框架用於管理各種有著不同性質(文本數據、圖表數據等)的數據集和數據源(批量數據或實時的流數據)的大數據處理的需求。
- 概念
- 核心架構
- 核心組件
- SPARK編程模型
- SPARK計算模型
- SPARK運行流程
- SPARK RDD流程
- SPARK RDD
HBase
Hbase 是分佈式、面向列的開源數據庫(其實準確的說是面向列族)。HDFS 為 Hbase 提供可靠的底層數據存儲服務,MapReduce 為 Hbase 提供高性能的計算能力,Zookeeper 為 Hbase 提供穩定服務和 Failover 機制,因此我們說 Hbase 是一個通過大量廉價的機器解決海量數據的高速存儲和讀取的分佈式數據庫解決方案
- 概念
- 列式存儲
- Hbase核心概念
- Hbase核心架構
- Hbase的寫邏輯
- HBase vs Cassandra
Zookeeper
Zookeeper
Zookeeper 是一個分佈式協調服務,可用於服務發現,分佈式鎖,分佈式領導選舉,配置管理等。Zookeeper 提供了一個類似於 Linux 文件系統的樹形結構(可認為是輕量級的內存文件系統,但只適合存少量信息,完全不適合存儲大量文件或者大文件),同時提供了對於每個節點的監控與通知機制
- Zookeeper概念
- Zookeeper角色
- Zookeeper工作原理(原子廣播)
- Znode有四種形式的目錄節點
Kafka
Kafka 是一種高吞吐量、分佈式、基於發佈/訂閱的消息系統,最初由 LinkedIn 公司開發,使用Scala 語言編寫,目前是 Apache 的開源項目
- Kafka概念
- Kafka數據存儲設計
- 生產者設計
- 消費者設計
Storm
Storm 是一個免費並開源的分佈式實時計算系統。利用 Storm 可以很容易做到可靠地處理無限的數據流,像 Hadoop 批量處理大數據一樣,Storm 可以實時處理數據。
- 概念
- 集群架構
- 編程模型( spout-> tuple-> bolt )
- Topology運行
- Storm Streaming Grouping
小編已經把以上涉及知識點整理了一份文檔,針對每個知識點小編又收集了一些針對性的實戰文檔都可以免費分享給大家。
需要獲取的朋友:轉發文章並關注我,後臺私信【資料】即可免費獲取
閱讀更多 高級大數據工程師 的文章