騰訊大數據平臺十年四次升級：從引進到自研，再到全面開源科技頭條網

在11月6日召開的Techo開發者大會上，騰訊雲副總裁、騰訊數據平臺部總經理蔣傑表示，經過10年的積累，騰訊大數據平臺的算力資源池目前已有超過20萬臺的規模，每天實時數據計算量超過30萬億條，騰訊已經成為中國實時數據計算量最大的公司。

而這背後，則是騰訊大數據平臺技術過去10年的不斷演進。據蔣傑介紹，騰訊的數據量在短短5、6年時間增長了幾千倍，目前每天產生的數據量超過幾十萬億條數據在產生。為了應對這種爆炸式增長，騰訊走出了一條技術引進+改造+自研的道路，在過去10年間，騰訊大數據平臺已經經歷了四代演進。

蔣傑表示，騰訊大數據平臺的第一代是在2009年至2011年期間，以Hadoop為核心的離線計算時代。當時，騰訊基本還是拿來主義，在開源社區的基礎上進行一些局部優化。

第二代是2012至2014年期間，這時候騰訊具備了一些開發能力，可以在Spark、Storm的基礎上重寫部分核心模塊，從能力上來看，這時候的大數據平臺已經可以從離線做到實時。

第三代則是2015年至2018年，這期間，騰訊已經進入到了AI的時代，它在機器學習和深度學習上做了很多的優化，正式從原來的部分改造走向了純自研時代。

據蔣傑介紹，騰訊從無到有研發了分佈式的機器學習引擎Angel，以及一站式AI開發平臺智能鈦TI，用來解決數據訓練和算法的問題。目前，Angel已經發展到3.0版本，能支持萬億維度，也可以兼容Spark、PyTorch、TensorFlow等生態。此外，Angel今年還新增了對深度學習、圖計算等的支持。

而以2019年為元年的第四代，騰訊正在研究以批流融合、ABC融合、以及數據湖和聯邦學習為方向的下一代大數據平臺的研究，該平臺將具備混合部署、跨域數據共享和邊緣計算等能力。

蔣傑表示，從開始的技術引進、局部優化到如今的自主創新，騰訊的大數據技術也在實踐中不斷完善和創新。“十年前，騰訊管理幾百個節點都很困難，調度性能差，規模上不去。後來為了有效解決計算能力和大規模集群問題，騰訊自研調度器，相對原生調度器性能提升150倍，大大提升了集群可擴展性。現在，騰訊大數據平臺每天有1500萬個分析任務，每天數據接入條數達35萬億條數據。”

當天，騰訊還宣佈正式開源資源管理平臺核心TKE和分佈式數據庫TBase，兩個月前，騰訊剛剛將其實時數據採集平臺TubeMQ開源，並捐獻給Apache社區。蔣傑稱，隨著在大數據開源領域的開源逐步加速，騰訊正在成為中國大數據領域開源最全面的廠商。

蔣傑告訴21世紀經濟報道記者，騰訊的很多技術都來自於開源社區，所以現在做開源也是希望能夠更好的回饋社區。雖然做開源對企業來說，會增加一定的人力成本消耗，但是開源同樣也能幫助企業聚集更多技術人才。對於騰訊的大數據平臺，蔣傑也提出了一個目標，即在未來要實現全面開源。

更多內容請下載21財經APP

分享到:

閱讀更多 21世紀經濟報道 的文章

關鍵字: 騰訊數據庫平臺