大數據批處理和流處理標準 Apache Beam

Apache Beam 是 Apache 軟件基金會越來越多的數據流項目中最新增添的成員,是 Google 在2016年2月份貢獻給 Apache 基金會的孵化項目。

這個項目的名稱表明了設計:結合了批處理(Batch)模式和數據流(Stream)處理模式。它基於一種統一模式,用於定義和執行數據並行處理管道(pipeline),這些管理隨帶一套針對特定語言的SDK用於構建管道,以及針對特定運行時環境的Runner用於執行管道。

Apache Beam 的主要目標是統一批處理和流處理的編程範式,為無限,亂序,web-scale的數據集處理提供簡單靈活,功能豐富以及表達能力十分強大的SDK。Apache Beam項目重點在於數據處理的編程範式和接口定義,並不涉及具體執行引擎的實現,Apache Beam希望基於Beam開發的數據處理程序可以執行在任意的分佈式計算引擎上。

大數據批處理和流處理標準 Apache Beam


分享到:


相關文章: