騰訊大數據平臺十年四次升級:從引進到自研,再到全面開源

在11月6日召開的Techo開發者大會上,騰訊雲副總裁、騰訊數據平臺部總經理蔣傑表示,經過10年的積累,騰訊大數據平臺的算力資源池目前已有超過20萬臺的規模,每天實時數據計算量超過30萬億條,騰訊已經成為中國實時數據計算量最大的公司。

而這背後,則是騰訊大數據平臺技術過去10年的不斷演進。據蔣傑介紹,騰訊的數據量在短短5、6年時間增長了幾千倍,目前每天產生的數據量超過幾十萬億條數據在產生。為了應對這種爆炸式增長,騰訊走出了一條技術引進+改造+自研的道路,在過去10年間,騰訊大數據平臺已經經歷了四代演進。

蔣傑表示,騰訊大數據平臺的第一代是在2009年至2011年期間,以Hadoop為核心的離線計算時代。當時,騰訊基本還是拿來主義,在開源社區的基礎上進行一些局部優化。

第二代是2012至2014年期間,這時候騰訊具備了一些開發能力,可以在Spark、Storm的基礎上重寫部分核心模塊,從能力上來看,這時候的大數據平臺已經可以從離線做到實時。

第三代則是2015年至2018年,這期間,騰訊已經進入到了AI的時代,它在機器學習和深度學習上做了很多的優化,正式從原來的部分改造走向了純自研時代。

據蔣傑介紹,騰訊從無到有研發了分佈式的機器學習引擎Angel,以及一站式AI開發平臺智能鈦TI,用來解決數據訓練和算法的問題。目前,Angel已經發展到3.0版本,能支持萬億維度,也可以兼容Spark、PyTorch、TensorFlow等生態。此外,Angel今年還新增了對深度學習、圖計算等的支持。

而以2019年為元年的第四代,騰訊正在研究以批流融合、ABC融合、以及數據湖和聯邦學習為方向的下一代大數據平臺的研究,該平臺將具備混合部署、跨域數據共享和邊緣計算等能力。

蔣傑表示,從開始的技術引進、局部優化到如今的自主創新,騰訊的大數據技術也在實踐中不斷完善和創新。“十年前,騰訊管理幾百個節點都很困難,調度性能差,規模上不去。後來為了有效解決計算能力和大規模集群問題,騰訊自研調度器,相對原生調度器性能提升150倍,大大提升了集群可擴展性。現在,騰訊大數據平臺每天有1500萬個分析任務,每天數據接入條數達35萬億條數據。”

當天,騰訊還宣佈正式開源資源管理平臺核心TKE和分佈式數據庫TBase,兩個月前,騰訊剛剛將其實時數據採集平臺TubeMQ開源,並捐獻給Apache社區。蔣傑稱,隨著在大數據開源領域的開源逐步加速,騰訊正在成為中國大數據領域開源最全面的廠商。

蔣傑告訴21世紀經濟報道記者,騰訊的很多技術都來自於開源社區,所以現在做開源也是希望能夠更好的回饋社區。雖然做開源對企業來說,會增加一定的人力成本消耗,但是開源同樣也能幫助企業聚集更多技術人才。對於騰訊的大數據平臺,蔣傑也提出了一個目標,即在未來要實現全面開源。

更多內容請下載21財經APP


分享到:


相關文章: