GPU+分佈式計算,能把數據性能提升100倍嗎?

文 | 新京報網 記者 | 劉娜

GPU+分佈式計算,能把數據性能提升100倍嗎?

Zilliz是中國首家將GPU的技術應用在分佈式數據庫中的數據處理公司,據星爵透露,Zilliz的處理性能比普通數據庫的性能提高100倍,並且能夠在此基礎上,將硬件成本降低10倍。

項目要點

Zilliz定位於基於GPU硬件加速的新一代OLAP(聯機分析處理)數據庫系統,專注於研發基於GPU的智能數據處理平臺,是一家分佈式數據庫公司。

Zilliz的應用領域包括了金融、遊戲、電商、物聯網、零售、電信等領域。Zilliz的產品還處於內測階段,產品預計2018年年底正式發佈公測版本,未來將在銀行、政府、電信等行業進行重點佈局。

目前,Zilliz現在不超過20人,大部分為技術人員,主要來自於甲骨文等公司。

科技發展至今,人類巨大數據量的產生以指數級的速度增長中。在此基礎上,雲計算、大數據、以及需要大數據支撐的AI技術也在不斷蓬勃發展,並在不同垂直領域陸續實現商業化落地。

近幾年來,中國大數據行業遍地開花,大數據創業公司也在短期內如雨後春筍般出現。大數據領域創業公司也在抓緊賽道窗口期跑馬圈地中,尋找中國創客(ID:xjbmaker)曾經報道過行業大數據(數瀾科技、雲英數據)、人力大數據(E成科技)、零售大數據(超盟數據)、移動遊戲大數據(熱雲數據)、再到營銷大數據(ZMT眾盟)。

在競爭加劇的同時,大數據公司在使用場景、目標客戶上更加細分化,形成一定差異化競爭。定位銀行、政府等大型客戶,Zilliz是一家專注於研發基於GPU硬件加速的新一代OLAP的分佈式數據庫公司。

創業契機:數據的爆發性增長帶來機遇

“我天生對數據敏感,整個工作生涯似乎都在與數據和計算機打交道。”在美國威斯康星大學計算機專業碩士畢業後,Zilliz的創始人星爵加入甲骨文(Oracle)公司總部。後來在Oracle工作多年,當時他主要負責多租戶數據庫(OracleMultitenant)的核心研發工作,是一個典型的技術研發工程師。

在當時,數據的產生速度每兩年發生一次迭代,基本上是兩年之前的一倍。在星爵看來,各行各業都存在數據產能過剩,數據不能夠得以利用的問題。這是由於現有大數據處理的速度不能夠趕上數據增加迭代的速度,導致大量數據沒有被分析利用。

研究報告表明,人類數據的生產量和存儲量呈指數級增長。過去5年裡數據量已經從TB(1024GB=1TB)級別躍升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至於ZB (1024EB=1ZB)級別。

而在當時,儘管市面上大多數大數據解決方案能處理海量數據,但並不能完全滿足瞬時、海量的數據處理需求。在數據行業工作數年的星爵發現,GPU性能改進的速度曲線,跟爆炸式數據增長的曲線非常吻合。

儘管海量數據處理的需求已經存在,“但在數據庫軟件的發展長期受到硬件成本、處理速度等方面的種種約束,在當時並不適合投入商業化使用。”星爵說,直至近期硬件廠商能夠提供更加高速的芯片,幫開發者把門檻降低,為分佈式數據庫的技術開發提供基礎。

看到創業的時機到來,2016年星爵離開Oracle創辦了Zilliz,Zilliz的名字來源於英文zillion of zillions,直譯為無窮的無窮。Zilliz現在不超過60人,大部分為技術人員,主要來自於甲骨文等公司。

GPU+分佈式計算,能把數據性能提升100倍嗎?

ZILLIZ創始人兼CEO:星爵

基於GPU的分佈式數據庫

Zilliz是中國首家將GPU的技術應用在分佈式數據庫中的數據處理公司,據星爵透露,Zilliz的處理性能比普通數據庫的性能提高100倍,並且能夠在此基礎上,將硬件成本降低10倍。

一直以來,CPU在計算機上負責“計算”,CPU的核數越大,運算能力越強。相較於CPU的十幾核來說,GPU上可以承載數千個處理單元。在過去,GPU技術主要被應用於圖像渲染和真實場景模擬。

現在,GPU計算已經在深度學習、高性能計算(HPC)中廣泛應用,越來越像更高性能的CPU。GPU的這種“大規模並行計算”的能力已經開始被挖掘,定位也從之前協處理器向主流處理器做轉移。

“如何運用GPU加速數據處理速度,在2006年的時候就是學術熱點,”星爵說,他表示為了簡單理解GPU分佈式數據庫,可以想象為當CPU處理數據時,是一個人在抄寫課文;當GPU處理數據時,是多個分散在各個地方不同的人,同時在抄錄課文,所以效率會高很多。

這就是GPU分佈式數據庫,利用GPU處理器上成千上萬個處理單元進行大規模並行數據處理,加速數據庫操作。百度百科將分佈式數據庫定義為,利用高速計算機網絡將物理上分散的多個數據存儲單元連接起來組成一個邏輯上統一的數據庫。

當數據量的高速增長,瞬時處理數據的需求得以體現,分佈式數據庫技術也得到了快速的發展。傳統的關係型數據庫開始從集中式模型向分佈式架構發展,基於關係型的分佈式數據庫在保留了傳統數據庫的數據模型和基本特徵下,從集中式存儲、計算走向分佈式存儲、計算。Zilliz的技術優勢也在於此。

GPU+分佈式計算,能把數據性能提升100倍嗎?


面向銀行政府等佈局產品

目前,Zilliz還在測試階段,產品預計2018年年底正式上線,產品應用領域包括金融、遊戲、電商、物聯網、零售、電信等,主要將在銀行、政府、互聯網行業進行重點佈局。

值得一提的是,近期火爆的區塊鏈技術跟分佈式數據庫技術有相似之處,也是去中心化分佈式存儲和計算。區塊鏈可以被看做是一種特殊的分佈式數據庫,以一個區塊為單位,可以分佈式、去中心化地存儲數據,不可篡改是它的特點。以往的分佈式數據庫往往是有中心的,而區塊鏈徹底沒有中心,用來防止被篡改。

競品方面,Zilliz對標美國的Kinetica和美國的MapD,二者都是GPU分佈式數據庫,前者已經於2017年6月完成5千萬美元融資,後者於2017年完成2500萬B輪融資。而Zilliz於2017年8月完成由雲啟資本領投,靖亞資本、華巖資本跟投的數千萬元天使輪融資。

在國內,分佈式數據庫創業公司還有柏睿數據和PinCAP,其中PinCAP和Zilliz都還處於研發階段。而柏睿數據定位運營商、公安局等政企大客戶已經投入商業化落地,據瞭解柏睿數據去年簽單總金額約為1億元人民幣。分佈式數據庫也屬於大數據公司的一種,區別在於能夠在瞬時處理更大量的數據,所以目標企業往往定位於是銀行、政府、運營商等每秒運算需求到TB級別的大型政企客戶。


分享到:


相關文章: