Spark Runtime概述

Spark Job具體的物理執行:

Spark Application裡面可以產生一個或者多個Job,例如Spark-shell默認啟動的時候內部就沒有Job,只是作為資源的分配程序,可以在裡面寫代碼產生若干個Job。普通程序中一般而言可以有不同的Action,每個Action一般也會觸發一個Job.

Spark是MapReduce思想的一種更加精緻和高效的實現。

Spark算法構造和物理執行時最最基本的核心是:最大化Pipeline.

基於Pipeline的思想,數據被使用的時候才開始計算,從數據流的視角來說,是數據流動到計算的位置。實質上,從邏輯的角度來看,是算子在數據上流動。


分享到:


相關文章: