2020年大數據必備知識點彙總:Hadoop+Spark+HBase+Zookeeper

Hadoop

就是一個大數據解決方案。它提供了一套分佈式系統基礎架構。

概念HDFSMapReduceHadoop MapReduce作業的生命週期



Spark

Spark提供了一個全面、統一的框架用於管理各種有著不同性質(文本數據、圖表數據等)的數據集和數據源(批量數據或實時的流數據)的大數據處理的需求。

概念核心架構核心組件SPARK編程模型SPARK計算模型SPARK運行流程SPARK RDD流程SPARK RDD

HBase

Hbase 是分佈式、面向列的開源數據庫(其實準確的說是面向列族)。HDFS 為 Hbase 提供可靠的底層數據存儲服務,MapReduce 為 Hbase 提供高性能的計算能力,Zookeeper 為 Hbase 提供穩定服務和 Failover 機制,因此我們說 Hbase 是一個通過大量廉價的機器解決海量數據的高速存儲和讀取的分佈式數據庫解決方案

概念列式存儲Hbase核心概念Hbase核心架構Hbase的寫邏輯HBase vs Cassandra

Zookeeper

Zookeeper

Zookeeper 是一個分佈式協調服務,可用於服務發現,分佈式鎖,分佈式領導選舉,配置管理等。Zookeeper 提供了一個類似於 Linux 文件系統的樹形結構(可認為是輕量級的內存文件系統,但只適合存少量信息,完全不適合存儲大量文件或者大文件),同時提供了對於每個節點的監控與通知機制

Zookeeper概念Zookeeper角色Zookeeper工作原理(原子廣播)Znode有四種形式的目錄節點

Kafka

Kafka 是一種高吞吐量、分佈式、基於發佈/訂閱的消息系統,最初由 LinkedIn 公司開發,使用Scala 語言編寫,目前是 Apache 的開源項目

Kafka概念Kafka數據存儲設計生產者設計消費者設計

Storm

Storm 是一個免費並開源的分佈式實時計算系統。利用 Storm 可以很容易做到可靠地處理無限的數據流,像 Hadoop 批量處理大數據一樣,Storm 可以實時處理數據。

概念集群架構編程模型( spout-> tuple-> bolt )Topology運行Storm Streaming Grouping

小編已經把以上涉及知識點整理了一份文檔,針對每個知識點小編又收集了一些針對性的實戰文檔都可以免費分享給大家。

需要獲取的朋友:轉發文章並關注我,後臺私信【資料】即可免費獲取