阿里大數據計算平臺的野心:讓天下沒有計算不了的數據

2018 年是阿里巴巴公司成立的第 19 個年頭。在這過去的 19 年裡,伴隨著中國互聯網的快速發展,阿里巴巴也無到有、從小到大,迅速成長為一家世界級的互聯網巨頭,創造了一個令世界矚目的「中國奇蹟」。

而在這 19 年的時間內,公眾對於阿里巴巴公司的認知也在悄然發生著變化。從早年間的 B2B 公司到後來的 C2C(淘寶)、B2C(天貓)的電商公司再到現在一個無所不包的阿里巴巴生態體系,「阿里巴巴到底是一傢什麼公司?」這個問題可以有多個回答的角度,比如,阿里巴巴是一家以用戶需求為導向的互聯網公司,再比如,阿里巴巴是一家「商業太過成功以至於掩蓋了技術創新的公司」(阿里巴巴 CTO 張建鋒語)。

但如果從最微觀的角度切入,阿里巴巴其實一家大數據公司。在阿里所有的產品裡,流淌的著是各種各樣的數據,比如天貓淘寶的電商數據、阿里雲的企業業務數據、支付寶的支付數據等等,這些海量的數據組成了阿里巴巴各個產品線,而讓這些數據轉化為業務和產品,最終成為可以讓普通用戶享受到的服務,則離不開一個穩定可靠的大數據計算平臺,這也是阿里巴巴計算平臺所要承擔的艱鉅任務。

公開資料顯示,阿里巴巴計算平臺支撐了整個阿里經濟體 90% 以上的結構化/非結構化數據的存儲、交換、管控,數據規模已超 EB 級別。在上週的雲棲大會上,阿里巴巴副總裁、計算平臺負責人周靖人博士及其團隊像外界展示了阿里巴巴大數據智能計算引擎的核心技術能力,比如可以實現海量數據規模下的高性價的離線實時計算,以及實時+離線任務一體化研發能力等等,這一系列新的能力也讓其具備了新一代計算引擎的諸多特點。

阿里大數據計算平臺的野心:讓天下沒有計算不了的數據

更重要的是,不管是大數據引擎 MaxCompute 還是實時計算引擎 Blink,都是在阿里內部被業務一步步「鍛鍊」出來的產品,因此具有實戰性、可用性的優勢。另一方面,<strong>作為阿里巴巴大數據研發平臺的 DataWorks,在經過 9年 內部發展、5年公共雲、3年專有云的發展後,也成為阿里巴巴大數據賦能行業的重要技術輸出口。

<strong>MaxCompute 與 Blink,從在線業務到民生業務的數據引擎

先來看看 MaxCompute。這是阿里巴巴自主研發的大數據計算平臺,從 2010 年開始正式開始運行在阿里雲飛天分佈式操作系統智商,提供統一的計算引擎,支持 SQL、MR、迭代計算、圖計算、流計算。

在歷經多次、不同規模的業務錘鍊後,目前 MaxCompute 承載了阿里巴巴集團內部 99% 的數據存儲及 95% 的計算能力。

與此同時,MaxCompute 的成長速度也非常驚人。去年 10 月的雲棲大會上,MaxCompute 與 TPC 委員會的benchmark 適配,在業界領先的基於端到端的大數據分析領域應用級測試基準下,MaxCompute 完成了全球首次基於公共雲的 bigbench 大數據基準測試,數據規模拓展到100TB,性能達到7830QPM,成為首個突破7000分的數據引擎。

阿里大數據計算平臺的野心:讓天下沒有計算不了的數據

2018年,該性能測試的結果再次提升超過2倍,達到18176.71QPM。這一系列成績充分展現了 MaxCompute 作為一款中國自主研發的大數據引擎,已經具備了可以引領行業發展的能力。

再來看看看看 Blink。Blink 是阿里巴巴基於 Apache Flink 開源流處理框架所開發的實時計算引擎,過去三年,阿里的實時計算團隊針對其內部特定的業務場景,對 Flink 做了大量優化迭代,並命名為 Blink。

實時計算場景在電商業務裡非常普遍,比如電商促銷的場景,如何讓用戶的需求在短暫的促銷階段被更多地刺激出來,就考驗著電商平臺的搜索和推薦,這就需要電商平臺的數據能在最短的時間內實現模型更新,這就是實時計算最能發揮作用的應用場景。

阿里大數據計算平臺的野心:讓天下沒有計算不了的數據

在歷年的雙十一的大考中,公眾最關注的 GMV 大屏幕的背後技術就是 Blink 實時計算引擎,每一條交易信息都是一個數據,從數據寫入數據開始,到被實時處理並最終顯現到大屏幕,都要求數據計算的精確性、可用性以及低延時(延遲在亞秒級別)。而雙十一全天的活動裡,每秒幾十萬筆的交易和支付的實時聚合統計操作全部是由Blink計算完成,從而最大限度地保證了雙十一的穩定運行。

從上文可以看出,MaxCompute 和 Blink 分別對應了不同領域的計算需求,前者主要應對海量數據的離線計算,而後者,則在實時計算中扮演重要角色,兩個計算相輔相成,成為阿里巴巴內部諸多產品的底層數據支持平臺。

2016 年,阿里雲推出 ET 城市大腦項目,在杭州,阿里雲希望將城市交通數據統一到一個「大腦」中,通過雲端的海量、實時計算,實現對城市發展的數字化管理,這也是對 MaxCompute 和 Blink 計算引擎的新考驗,如果說過去的數據計算是處理互聯網的交易數據,那麼當數據範圍擴大到物理世界,MaxCompute 和 Blink 能否有效應對呢?

答案也很樂觀。在上週發佈的杭州城市大腦 2.0 中,阿里雲 ET 城市大腦相的管轄範圍擴大了28倍,優化信號燈路口1300個,覆蓋杭州四分之一路口,同時已接入了視頻4500 路。這意味著,MaxCompute 和 Blink 不僅可以計算互聯網數據,還完全可以承載一個城市的離線和實時計算需求。

這樣靈活、強大的數據計算能力,也正在成為驅動其他行業變革的新變量。

<strong>DataWorks,一站式數據開發平臺

事實上,MaxCompute 和 Blink 實時計算都已經運行在阿里雲平臺,企業和開發者可以根據自身需求去購買相應的服務。而在此次雲棲大會上,阿里巴巴計算平臺的多位技術專家還分享了 DataWorks 的數據研發平臺對於更多行業的數據賦能能力。

阿里大數據計算平臺的野心:讓天下沒有計算不了的數據

首先,DataWorks 的可用性已經得到驗證。作為一個在阿里內部「孕育」出來的數據研發平臺,DataWorks 也被廣泛應用到阿里集團、螞蟻金服、菜鳥、優酷、高德等所有事業部的數據開發流程裡,還通過阿里雲的公共雲平臺和專有云平臺被廣泛應用到多個國家和地區。

其次,DataWorks 的技術能力毋庸置疑。不完全統計,2017年,以 DataWorks 為主體的阿里雲數加,獲得了國際軟博會金獎;2018年,DataWorks 名列國家大數據博覽會十佳產品,榮獲最佳案例實踐獎。

2018 年 3 月,諮詢機構 Forrester 發佈 Cloud Data Warehouse 第一季度榜單,DataWorks 攜手 MaxCompute,與AWS,Microsoft Azure,Google Cloud 一眾強手共同進入雲數倉第一陣營,是唯一入選榜單的中國企業,也奠定了世界級大數據研發平臺的地位。

第三,在產品設計上,DataWorks 擁有完整的開發流程,實現了端到端的數據開發。DataWorks 將上文提及的 MaxCompute 離線計算能力和 Blink 實時計算能力封裝為可用的接口,另外還將阿里巴巴機器學習平臺 PAI 的機器學習能力融合到平臺裡,覆蓋從數據計算到模型訓練、線上數據服務,再到雲上應用搭建的一站式雲上大數據解決方案。

另外,基於雲上編程環境 Cloud IDW,DataWorks 還提供從 Sql、python,甚至 Java 的開發能力,這也意味著,開發者不必花費過多時間和精力去配置各種開發變量,只需將開發環境切換到雲端,然後直接寫代碼就能快速搭建自己的產品。

DataWorks 的上述能力也在體現在阿里巴巴計算平臺日前舉辦的雲上編程比賽中,各路選手需要利用DataWorks 快速搭建一個天氣預報雲端應用。

第一步是離線數據導入和處理。選手們要將歷史數據通過數據集成導入到MaxCompute 表,然後在 DataWorks 編寫離線 SQL 進行數據預處理,處理後的數據在 PAI 機器學習平臺通過引用內置的各種算法/模板進行建模、訓練,並最終一鍵發佈到EAS提供預測服務。

第二步則是實時數據的接入和處理。將實時採集的氣象數據通過數據集成導入到DataHub,然後在DataWorks編寫實時SQL進行數據加工,加工後的實時數據和離線基礎數據拖過簡單拖拽就可以裝載到Lightning引擎進行異構數據整合,並提供實時交互式查詢服務。

第三步構建應用。在DataWorks 的數據服務中,可快速的打通 EAS 服務和 Lightning 引擎並生成高性能的在線 API,同時在 AppStudio 中可無縫對接數據服務API;用可視化組件模板,簡單幾步配置就可以完成雲上Web應用開發;另外AppStudio也提供了在線IDE環境可支持Java在線開發、編譯、調試、運行、版本管理、多用戶協同編輯等功能。

<strong>尾巴:數據時代的紅利

無論承認與否,「數據是新時代的石油」已然成為行業共識,向數據要價值正在成為全社會各個行業的方法論。在這場數據智能的淘金熱裡,阿里將自己放在行業賦能者的位置,既有能提供處理海量數據的 MaxCompute,還有支撐雙十一的實時計算引擎 Blink,也有面向機器智能開發的 PAI,而在這一系列產品的上層,也就是最接近企業、開發者的那一層,DataWorks 整合了所有的核心技術,並以友好的界面、一站式的流程展現給企業、開發者。

如果阿里巴巴過去 19 年的努力,踐行了「讓天下沒有難做的生意」的口號,那麼,現在的阿里巴巴大數據計算平臺上的這些產品,則正在努力實現「讓天下沒有計算不了的數據」的新願景,這是阿里巴巴技術驅動型公司最直接的體現,也是數據時代企業、個人開發者的新紅利。(完)


分享到:


相關文章: