十年磨一劍,王堅自研的MaxCompute如何解決世界級算力難題

大數據時代,隨著企業數據規模的急劇增長,傳統軟件已無法承載,這也推動了大數據技術的發展,Google、AWS、微軟等硅谷巨頭紛紛投入大數據技術的研發;而在國內,王堅也在十年前帶領阿里雲團隊研發MaxCompute,率先在國內開啟大數據計算平臺的自研之路。

十年磨一劍,王堅自研的MaxCompute如何解決世界級算力難題

十年後,MaxCompute已經可以承載EB級別的數據存儲能力、百PB級的單日計算能力,在公共雲上已經覆蓋了國內外的十幾個國家和地區,電商、工業、醫療、農業、氣象、教育等諸多行業企業開始採用這項技術,輕鬆處理海量數據,為社會和消費者提供服務。

MaxCompute的自研之路

事實上,阿里大數據的發展歷程映射出整個大數據行業的發展史。

十年前,阿里巴巴比其它公司更早地遇到互聯網規模化帶來的挑戰。當時全球企業的數據庫基本都是Oracle,而阿里巴巴擁有亞洲最大的Oracle集群,計算規模達百TB級別。

十年磨一劍,王堅自研的MaxCompute如何解決世界級算力難題

按照當時淘寶用戶量的增長速度,Oracle集群很快將無法支撐業務發展,而最核心的問題就是算力不足。儘管當時阿里已開始把數據遷移到更大規模的Greenplum,但後者在百臺機器規模時就遇到瓶頸,給業務增長造成極大阻礙。

此外,Hadoop之類的開源技術在可靠性、安全性上也遭遇了天花板。

2008年,王堅帶著解決大規模算力瓶頸的任務加入阿里。他發現,無論是Oracle還是Greenplum、Hadoop,都不是大規模數據計算的最優解,必須自研一套自己的大數據處理平臺。

2009年這項關於大數據的技術長征開始。王堅帶隊,目標是自研大數據計算平臺MaxCompute統一阿里巴巴內部的數據和大數據計算體系。

事實證明,阿里做了正確的選擇。

四年攻堅,MaxCompute終於取得重大突破:2013年8月15日,阿里雲歷史性地突破了同一個集群內5000臺服務器同時計算的侷限,為未來的大規模服務奠定基礎。十年後,單集群規模已超過1萬臺,能做到這一能力的科技公司在全球都寥寥可數。

在阿里云云棲小鎮,還豎著一尊飛天5K的紀念碑,碑上刻著參與解決這一技術難題的技術人員名字。

解決世界級算力難題

通過大數據計算平臺,可以讓訂單實時準確匯聚,也可以精準預測變幻莫測的天氣變化,各行各業都在大規模使用大數據來提供更好的服務,而實現這一能力就是海量數據分析的結果。

十年磨一劍,王堅自研的MaxCompute如何解決世界級算力難題

但要處理好這些數據並不容易。除了數據量的劇增,不同行業數據類型豐富多樣,如結構化數據、非結構化數據等,都給大數據計算平臺帶來新的挑戰。

MaxCompute的創新之處就是採用Datalake技術,把不同的數據源用類似的方式存儲,用統一的方法計算,提供一套標準化語言,快速實現不同類型數據的計算。

基於這套創新技術,2015、2016年,阿里雲刷新世界計算奧運會SortBenchmark的六項世界紀錄;2017年,完成全球首次基於公共雲的100TB BigBench大數據基準測試。

如何快速“查詢”也是大數據計算的核心之一。MaxCompute採用“交互式查詢”來解決海量數據查詢慢的瓶頸,通俗地說就是系統可以預判用戶將會做哪些查詢,提前準備,大大降低大規模數據查詢的時間。

此外,MaxCompute提出多租戶雲安全隔離技術,突破傳統大數據平臺的安全侷限,將安全邊界細化到用戶、進程、內核級別,完全滿足金融級的安全需求。

頂級算力走向世界

過去十年,MaxCompute能力不斷提升:單日數據處理量從2015年100PB,2016年180PB,到2017年320PB,再到2018年的單日處理超過600PB。

記錄被不斷刷新,並且得到了權威機構的認可:在Forrester發佈的《The Forrester WaveTM: CloudData Warehouse, Q4 2018》中,阿里雲MaxCompute、DataWorks、ADB等三款產品成功入選,並在產品功能(Current Offering)方面力壓微軟。

十年磨一劍,王堅自研的MaxCompute如何解決世界級算力難題

這一世界級的大數據計算能力也逐漸展示其價值,幫助數萬企業用更低成本、更高效率計算海量數據,為社會和消費者提供服務。

在生活領域,墨跡天氣開始通過MaxCompute為4億用戶提供氣象預報服務,每天的用戶查詢超過5億次。不僅如此,它們的存儲和計算成本還令人意外地降低70%。

在交通領域,城市大腦在杭州實時指揮1300個紅綠燈路口、200多名交警。從2016年到2018年,杭州從全國最擁堵城市排行榜上下跌52名。

在工業領域,阿里雲的大數據處理技術幫助製造企業尋找上千個參數的最優搭配,提升製造的良品率。協鑫光伏、天合光能等行業龍頭企業,都在嘗試這一全新的生產模式。

在政務領域,浙江最多跑一次通過大數據處理平臺打通政務數據,將與老百姓辦事最密切相關的100個事項70多億條數據,按照統一標準匯入統一的數據倉,實現共通共享共用。老百姓辦事不僅能最多跑一次,甚至有可能一次都不跑。

而在海外,MaxCompute也已進入新加坡、歐洲等市場,將這一技術對外賦能給更多用戶。

從線上到線下,從生產製造到互聯網電商,從國內到海外,MaxCompute的計算能力正在延伸到各行各業,極大地降低了社會的計算成本。


分享到:


相關文章: