快速掌握阿里雲 E-MapReduce

阿里雲 Elastic MapReduce(E-MapReduce)是運行在阿里雲平臺上的一種大數據處理的系統解決方案。E-MapReduce 構建於阿里云云服務器 ECS 上,基於開源的 Apache Hadoop 和 Apache Spark,讓用戶可以方便地使用Hadoop和Spark生態系統中的其他周邊系統(如 Apache Hive、Apache Pig、HBase 等)來分析和處理自己的數據。不僅如此,用戶還可以通過E-MapReduce將數據非常方便的導出和導入到阿里雲其他的雲數據存儲系統和數據庫系統中,如阿里雲 OSS、阿里雲 RDS 等。

課程鏈接:快速掌握阿里雲 E-MapReducehttp://click.aliyun.com/m/1000009810/

E-MapReduce 的用途:

當用戶想要使用 Hadoop、Spark 等分佈式處理系統的時候,通常需要經歷如下的步驟:

  1. 評估業務特點
  2. 選擇機器類型
  3. 採購機器
  4. 準備硬件環境
  5. 安裝操作系統
  6. 部署 Hadoop 和 Spark 等 app
  7. 啟動集群
  8. 編寫應用程序
  9. 運行作業
  10. 獲取數據等一系列的步驟

在這些流程中,真正跟用戶的應用邏輯相關的是從第8步才開始,第1-7步的各項工作都是前期的準備工作,通常這個前期工作都非常冗長繁瑣。而 E-MapReduce 提供了集群管理工具的集成解決方案,如主機選型、環境部署、集群搭建、集群配置、集群運行、作業配置、作業運行、集群管理、性能監控等。

通過使用 E-MapReduce,用戶可以從集群構建各種繁瑣的採購、準備、運維等工作中解放出來,只關心自己應用程序的處理邏輯即可。此外,E-MapReduce 還給用戶提供了靈活的搭配組合方式,用戶可以根據自己的業務特點選擇不同的集群服務。例如,如果用戶的需求是對數據進行日常統計和簡單的批量運算,則可以只選擇在 E-MapReduce 中運行 Hadoop 服務;而如果用戶還需要流式計算和實時計算的需求,則可以在 Hadoop 服務基礎上再加入 Spark 服務。

E-MapReduce 的組成:

E-MapReduce 最核心也是用戶直接面對的組件是集群。一個 E-MapReduce 集群是由一個或多個阿里雲 ECS instance 組成的 Hadoop 和 Spark 集群。以 Hadoop 為例,在每一個 ECS instance 上,通常都運行了一些 daemon 進程(如 namenode、datanode、resoucemanager 和 nodemanager),這些 daemon 進程就組成了 Hadoop 集群。運行 namenode 和 resourcemanager 的節點被稱為 master 節點,而運行 datanode 和 nodemanager 的節點被稱為 slave 節點。

例如,下圖表示了一個包含1個 master 節點和3個 slave 節點的 E-MapReduce 集群:

快速掌握阿里雲 E-MapReduce

產品架構:

快速掌握阿里雲 E-MapReduce

從上圖可以看出,E-MapReduce 集群基於 Hadoop 的生態環境來搭建,同時可以跟阿里雲的對象存儲服務(OSS),雲數據庫(RDS)等雲服務進行無縫數據交換,方便您將數據在多個系統之間進行共享和傳輸,以滿足不同業務類型的訪問需要。

更多精品課程:

阿里雲大學官網—雲生態下的創新人才工場(https://edu.aliyun.com)


分享到:


相關文章: