大數據處理架構Hadoop生態系統,在各個模塊的作用是什麼?

學習之前沒搞清楚的知識

  1. 傳統的web應用(LAMP、JavaEE、NODE系等)與大數據什麼關係?
  2. 之前一直以為大數據的東西就是來取代傳統的Web應用的,其實並不是這樣;即使是大數據的架構,應用層依然會是傳統的web應用,但是會根據數據特點對數據存儲(結構化數據依然會保存在傳統的關係型數據庫——如MySql,日誌等非結構數據會保存在分佈式文件系統——如Hadoop的HDFS)。
  3. 大數據的東西不是取代傳統的web應用,而是對web應用的增強。基於分佈式存儲和分佈式計算,以前單機或者小規模集群無法解決的問題,使用了大數據技術之後就可以解決了,比如日誌等數據當數據量非常大的時候(TB甚至PB),對這些數據的分析在傳統架構上是不可能或者是非常慢的,使用了大數據技術之後就是可能的了——主要是將數據處理通過MapReduce等拆分到不同的節點(電腦)上執行,然後將節點上的結果合併,最後生成分析結果。
  4. 雲計算和大數據
  5. 這個話題在林子雨老師的教程——“第一講 大數據概述”裡介紹的非常好,感興趣的朋友可以自己去看看,這裡概括總結為:“雲計算為大數據提供了技術基礎,大數據為雲計算提供了用物之地”。
  6. 現在幾乎所有的公司都把自己的產品吹成“雲”...但是真的都是“雲”麼?其實很多都是傳統的web應用部署到阿里雲這些第三方雲平臺吧;還有一部分有自己服務器(一般配置),然後搞個公網ip,部署上去也說自己是“雲”。

Hadoop結構(更新)

大數據處理架構Hadoop

大數據處理架構Hadoop生態系統,在各個模塊的作用是什麼?

大數據處理架構Hadoop生態系統,在各個模塊的作用是什麼?

學習歷程

  1. 瞭解Hadoop生態系統,瞭解一下生態系統中各模塊的作用,文章後面對各模塊有一些簡單的總結
  • HDFS
  • YARN
  • HBase
  • MapReduce
  • Hive
  • Pig
  • Mahout
  • Zookeeper
  • Sqoop
  • Flume
  • Kafka等
大數據處理架構Hadoop生態系統,在各個模塊的作用是什麼?

  1. 瞭解Spark,瞭解Spark比MapReduce的優勢,學習RDD編程
  • Spark SQL
  • Spark Streaming
  • Spark Mlib
  • ...
  1. 找兩臺電腦搭個Hadoop、Spark集群,配置Spark開發環境(SBT),運行一些demo例程,典型如WordCount
  2. 研究一下MapReduce的WordCount和Spark的WorkCount的代碼,通過對比加深理解
  3. 參考如下案例,瞭解大數據應用,熟悉HBase,Hive,Sqoop等
  • 網站用戶行為分析
  • Spark課程綜合實驗案例:淘寶雙11數據分析與預測
  • Spark課程實驗案例:Spark+Kafka構建實時分析Dashboard

整理一些知識

大數據處理架構Hadoop生態系統,在各個模塊的作用是什麼?

HBase

HBase是一個高可靠、高性能、面向列、可伸縮的分佈式數據庫,是谷歌BigTable的開源實現,主要用來存儲非結構化和半結構化的鬆散數據。HBase的目標是處理非常龐大的表,可以通過水平擴展的方式,利用廉價計算機集群處理由超過10億行數據和數百萬列元素組成的數據表

HBase可以直接使用本地文件系統或者Hadoop作為數據存儲方式,不過為了提高數據可靠性和系統的健壯性,發揮HBase處理大數據量等功能,需要使用Hadoop作為文件系統。與Hadoop一樣,HBase目標主要依靠橫向擴展,通過不斷增加廉價的商用服務器來增加計算和存儲能力。

HIVE

大數據處理架構Hadoop生態系統,在各個模塊的作用是什麼?

Hive是一個構建於Hadoop頂層的數據倉庫工具,由Facebook公司開發,並在2008年8月開源。Hive在某種程度上可以看作是用戶編程接口,其本身並不存儲和處理數據,而是依賴HDFS來存儲數據,依賴MapReduce來處理數據。Hive定義了簡單的類似SQL的查詢語言——HiveQL,它與大部分SQL語法兼容,但是,並不完全支持SQL標準,比如,HiveSQL不支持更新操作,也不支持索引和事務,它的子查詢和連接操作也存在很多侷限。

HiveQL語句可以快速實現簡單的MapReduce任務,這樣用戶通過編寫的HiveQL語句就可以運行MapReduce任務,不必編寫複雜的MapReduce應用程序。對於Java開發工程師而言,就不必花費大量精力在記憶常見的數據運算與底層的MapReduce Java API的對應關係上;對於DBA來說,可以很容易把原來構建在關係數據庫上的數據倉庫應用程序移植到Hadoop平臺上。所以說,Hive是一個可以有效、合理、直觀地組織和使用數據的分析工具。

Impala

Hive 作為現有比較流行的數據倉庫分析工具之一,得到了廣泛的應用,但是由於Hive採用MapReduce 來完成批量數據處理,因此,實時性不好,查詢延遲較高。Impala 作為新一代開源大數據分析引擎,支持實時計算,它提供了與Hive 類似的功能,並在性能上比Hive高出3~30 倍。Impala 發展勢頭迅猛,甚至有可能會超過Hive 的使用率而成為Hadoop 上最流行的實時計算平臺。

大數據處理架構Hadoop生態系統,在各個模塊的作用是什麼?

Hive 與Impala 的不同點總結如下:

  • 第一,Hive 比較適合進行長時間的批處理查詢分析,而Impala 適合進行實時交互式SQL 查詢。
  • 第二,Hive 依賴於MapReduce 計算框架,執行計劃組合成管道型的MapReduce 任務模式進行執行,而Impala 則把執行計劃表現為一棵完整的執行計劃樹,可以更自然地分發執行計劃到各個Impalad執行查詢。
  • 第三,Hive在執行過程中,如果內存放不下所有數據,則會使用外存,以保證查詢能順序執行完成,而Impala在遇到內存放不下數據時,不會利用外存,所以,Impala目前處理查詢時會受到一定的限制。

Hive與Impala的相同點總結如下:

  • 第一,Hive與Impala使用相同的存儲數據池,都支持把數據存儲於HDFS和HBase中,其中,HDFS支持存儲TEXT、RCFILE、PARQUET、AVRO、ETC等格式的數據,HBase存儲表中記錄。
  • 第二,Hive與Impala使用相同的元數據。
  • 第三,Hive與Impala中對SQL的解釋處理比較相似,都是通過詞法分析生成執行計劃。

總的來說,Impala的目的不在於替換現有的MapReduce工具,把Hive與Impala配合使用效果最佳,可以先使用Hive進行數據轉換處理,之後再使用Impala在Hive處理後的結果數據集上進行快速的數據分析。

PIG

Pig 是Hadoop 生態系統的一個組件,提供了類似SQL 的Pig Latin 語言(包含Filter、GroupBy、Join、OrderBy 等操作,同時也支持用戶自定義函數),允許用戶通過編寫簡單的腳本來實現複雜的數據分析,而不需要編寫複雜的MapReduce 應用程序,Pig 會自動把用戶編寫的腳本轉換成MapReduce 作業在Hadoop 集群上運行,而且具備對生成的MapReduce程序進行自動優化的功能,所以,用戶在編寫Pig 程序的時候,不需要關心程序的運行效率,這就大大減少了用戶編程時間。因此,通過配合使用Pig 和Hadoop,在處理海量數據時就可以實現事半功倍的效果,比使用Java、C++等語言編寫MapReduce 程序的難度要小很多,並且用更少的代碼量實現了相同的數據處理分析功能。Pig 可以加載數據、表達轉換數據以及存儲最終結果,因此,在企業實際應用中,Pig通常用於ETL(Extraction、Transformation、Loading)過程,即來自各個不同數據源的數據被收集過來以後,採用Pig 進行統一加工處理,然後加載到數據倉庫Hive 中,由Hive 實現對海量數據的分析。需要特別指出的是,每種數據分析工具都有一定的侷限性,Pig 的設計和MapReduce 一樣,都是面向批處理的,因此,Pig 並不適合所有的數據處理任務,特別是當需要查詢大數據集中的一小部分數據時,Pig 仍然需要對整個或絕大部分數據集進行掃描,因此,實現性能不會很好。

Tez

大數據處理架構Hadoop生態系統,在各個模塊的作用是什麼?

Tez 是Apache 開源的支持DAG 作業的計算框架,通過DAG 作業的方式運行MapReduce 作業,提供了程序運行的整體處理邏輯,就可以去除工作流當中多餘的Map 階段,減少不必要的操作,提升數據處理的性能。Hortonworks把Tez 應用到數據倉庫Hive 的優化中,使得性能提升了約100 倍。如圖15-13 所示,可以讓Tez 框架運行在YARN 框架之上,然後讓MapReduce、Pig 和Hive 等計算框架運行在Tez框架之上,從而藉助於Tez 框架實現對MapReduce、Pig 和Hive 等的性能優化,更好地解決現有MapReduce 框架在迭代計算(如PageRank 計算)和交互式計算方面存在的問題。

Tez在解決Hive、Pig延遲大、性能低等問題的思路,是和那些支持實時交互式查詢分析的產品(如Impala、Dremel和Drill等)是不同的。Impala、Dremel和Drill的解決問題思路是拋棄MapReduce計算框架,不再將類似SQL語句的HiveQL或者Pig語句翻譯成MapReduce程序,而是採用與商用並行關係數據庫類似的分佈式查詢引擎,可以直接從HDFS或者HBase中用SQL語句查詢數據,而不需要把SQL語句轉化成MapReduce任務來執行,從而大大降低了延遲,很好地滿足了實時查詢的要求。但是,Tez則不同,比如,針對Hive數據倉庫進行優化的“Tez+Hive”解決方案,仍採用MapReduce計算框架,但是對DAG的作業依賴關係進行了裁剪,並將多個小作業合併成一個大作業,這樣,不僅計算量減少了,而且寫HDFS次數也會大大減少。

Kafka

Kafka是由LinkedIn公司開發的一種高吞吐量的分佈式發佈訂閱消息系統,用戶通過Kafka系統可以發佈大量的消息,同時也能實時訂閱消費消息。

在大數據時代湧現的新的日誌收集處理系統(Flume、Scribe等)往往更擅長批量離線處理,而不能較好地支持實時在線處理。相對而言,Kafka可以同時滿足在線實時處理和批量離線處理。

Kafka設計的初衷是構建一個可以處理海量日誌、用戶行為和網站運營統計等的數據處理框架

最近幾年,Kafka在大數據生態系統中開始扮演越來越重要的作用,在Uber、Twitter、Netflix、LinkedIn、Yahoo、Cisco、Goldman Sachs等公司得到了大量的應用。目前,在很多公司的大數據平臺中,Kafka通常扮演數據交換樞紐的角色。

在公司的大數據生態系統中,可以把Kafka作為數據交換樞紐,不同類型的分佈式系統(關係數據庫、NoSQL數據庫、流處理系統、批處理系統等),可以統一接入到Kafka,實現和Hadoop各個組件之間的不同類型數據的實時高效交換,較好地滿足各種企業應用需求。

大數據處理架構Hadoop生態系統,在各個模塊的作用是什麼?

Sqoop

Sqoop是一款開源的工具,主要用於在Hadoop(Hive)與傳統的數據庫(mysql、postgresql...)間進行數據的傳遞,可以將一個關係型數據庫(例如 : MySQL ,Oracle ,Postgres等)中的數據導進到Hadoop的HDFS中,也可以將HDFS的數據導進到關係型數據庫中。

在不久的將來,多智時代一定會徹底走入我們的生活,有興趣入行未來前沿產業的朋友,可以收藏多智時代,及時獲取人工智能、大數據、雲計算和物聯網的前沿資訊和基礎知識,讓我們一起攜手,引領人工智能的未來!


分享到:


相關文章: