Spark Job具体的物理执行:
Spark Application里面可以产生一个或者多个Job,例如Spark-shell默认启动的时候内部就没有Job,只是作为资源的分配程序,可以在里面写代码产生若干个Job。普通程序中一般而言可以有不同的Action,每个Action一般也会触发一个Job.
Spark是MapReduce思想的一种更加精致和高效的实现。
Spark算法构造和物理执行时最最基本的核心是:最大化Pipeline.
基于Pipeline的思想,数据被使用的时候才开始计算,从数据流的视角来说,是数据流动到计算的位置。实质上,从逻辑的角度来看,是算子在数据上流动。
閱讀更多 加米穀大數據 的文章