Spark 2.4新特性概述

11 月 23 ~ 24 日,GIAC 全球互聯網架構大會將於上海舉行。GIAC 是高可用架構技術社區推出的面向架構師、技術負責人及高端技術從業人員的技術架構大會。今年的 GIAC 已經有英特爾

騰訊、阿里巴巴、百度螞蟻金服華為科大訊飛、新浪微博、京東、七牛、美團點評、餓了麼才雲格靈深瞳Databricks等公司專家出席。本週購買可享門票88折優惠,高可用架構會員低至6折

在大會前夕,高可用架構採訪了2018年 GIAC大數據&AI分論壇 出品人範文臣,就目前大家廣泛關注的大數據&AI方面的問題進行了訪談。

Spark 2.4新特性概述

範文臣,Apache Spark PMC成員,是Spark 2.4的release manager。在Databricks的工作主要負責Spark開源社區相關工作,包括帶領社區開發一些大的功能,審核社區提交的代碼,培養社區的活躍貢獻者。

高可用架構:範老師,您好,很高興能採訪到您。能否簡單介紹一下您以及您在Apache Spark PMC所做的事情?

範文臣:我的主要工作內容就是Spark開源社區的維護。包括及時地審閱代碼貢獻者的提案,解決一些非常棘手的bug,參與一些項目的設計和規劃。

高可用架構:能否簡單介紹一下Spark包含哪些組件?它們各自的作用是什麼?

範文臣:Spark作為一個統一的大數據查詢引擎,對常見的場景都提供了對應的組件。比如專注於結構化數據查詢的SQL組件,機器學習方面的Mllib,流計算方面的Structured Streaming, 圖計算方面的GraphX。除了這些內置組件之外,開源社區也開發了一些第三方組件,比如基於SQL組件重新開發的GraphFrame,相比GraphX有不少的性能提升。

高可用架構:Spark今年發佈了幾個版本,能否簡單介紹一下增加了哪些讓人期待的新特性?

範文臣:Spark今年發佈了兩個大版本,2.3和2.4,分別是在2月底和11月初發布的。這兩個大版本除了持續提升Spark的穩定性、易用性和性能之外,還擴展了Spark的生態圈。2.3引入了Spark on K8s, 讓用戶多了一種部署Spark的方式。2.3還引入了Pandas UDF,可以讓用戶在Spark上直接運行Pandas函數。Data Source V2項目也在2.3正式啟動,旨在方便用戶更容易的把各種數據源接入到Spark。一種新的低延遲流處理模式也在2.3推出,那些對微批處理的延遲不滿意的用戶,現在又多了一種選擇。2.4除了繼續改善2.3的新特性之外,也有很多令人興奮的新功能。比如Barrier Execution mode,使得Spark能更方便的和一些深度學習框架做整合。還有高階函數,有了它用戶可以更容易的處理複雜嵌套數據。Spark的開源社區非常活躍,感謝這些分佈在全世界的Spark代碼貢獻者,他們的努力讓Spark的每個版本都非常的豐富。關於新版本的功能,我在本次GIAC大會有非常詳細的介紹,歡迎大家屆時蒞臨。

高可用架構:聽到一種我認為非常有意思的觀點"Hadoop能做到的,Spark都能做到,或者即將都可以做到,因此長遠來看,Hadoop很可能會被Spark取代",您是否贊同?您是怎麼看的?

範文臣:Hadoop不僅僅是一個計算引擎,它還有資源調度器YARN,分佈式文件系統HDFS,以及龐大的Hadoop生態圈。Spark作為一個計算引擎,確實要比Hadoop MapReduce架構更好,但取代整個Hadoop生態圈不是Spark的目標。目前來看,大數據領域有點減弱了對Hadoop的依賴,比如K8s PK YARN,各種object store PK HDFS。

高可用架構:對於流式計算的場景,Spark Streaming與Storm對比,各自有什麼樣的優劣?

範文臣:Storm作為最早期的流處理引擎之一,它的設計相比現代流處理引擎確實有些落後。Storm要求開發人員直接編寫整個數據流的拓撲結構,開發成本比較高。容錯處理方面的設計也不是很高明。Spark Streaming(Structured Streaming)利用Spark高效的作業調度和執行,使用微批模式來處理流數據,提供了相當高的吞吐量,很適合那些對延遲不是特別敏感的場景。同時,Structured Streaming提供了非常簡單易懂的用戶接口,使得開發流處理程序更為容易。

高可用架構:Spark在AI領域發力,跟常用的AI框架MXNet和TensorFlow對比,Spark有什麼樣的優劣?

範文臣:Spark作為計算引擎,關注點更多在數據處理部分,以及一些簡單的機器學習算法。在AI領域,Spark的目標不是去PK其他的AI框架,而是和他們有機結合,融入AI生態圈,幫助用戶更更方便的開發AI相關的項目。2.4推出的Barrier Execution mode就是在這個方向做出的努力。關於Spark對於AI的支持,我的同事蔣星博會在本次GIAC大會詳細論述這方面。

高可用架構:Spark覆蓋的場景越來越廣,挑戰也越來越大,所以,Spark未來2-3年有什麼樣的規劃?還可能會有哪些令人振奮的特性?

範文臣:現在的大數據開源圈子非常的火熱,有許許多多的工程師為開源項目做貢獻,讓大數據更容易、更低成本地在企業落地。這個時候,如何更好的融入大數據生態圈,是每個大數據開源項目都要思考的問題。未來Spark會變得更開放,更易用,和其他大數據組件的整合也會變得更簡單,更高效。當然,Spark也會不斷地提升自己,在用戶看不見的地方也會持續發力,比如更高的性能,更穩定的運行,等等。關於未來版本的功能,我在本次GIAC大會有非常詳細的介紹,歡迎大家當面討論。

高可用架構:最後,作為大數據&AI的出品人,你對於 GIAC 大會有什麼寄語或者展望?

GIAC全球互聯網架構大會將於11月23-24日,上海淳大萬麗酒店舉辦,範文臣老師將作為出品人、講師出席。

GIAC是msup和高可用架構技術社區聯合推出的面向架構師、技術負責人及高端技術從業人員的技術架構大會。大會彙集一線互聯網企業首席架構師及技術型CTO為主的講師,分享他們在本年度最值得的總結、盤點的實踐啟示,從業者可快速與業界同步熱門及前沿最核心技術,助力企業業務升級及成功轉型。

本次大會共有 5 大板塊方向,20 場技術專題,70 個互聯網架構案例。本屆GIAC 已確定有英特爾騰訊、阿里巴巴、百度螞蟻金服華為科大訊飛、新浪微博、京東、七牛、美團點評、餓了麼

才雲格靈深瞳Databricks等公司專家出席。

範文臣老師所在的專場是大數據&AI專場,精彩議題如下:

Spark 2.4新特性概述
Spark 2.4新特性概述

更多專場議題可點擊「閱讀原文」查看,大會正在如火如荼的進行中,現在報名可享88折優惠,快來報名和我們一起參會吧!


分享到:


相關文章: