國產數據庫們的春天來了


國產數據庫們的春天來了



作為一個畢業在數據庫方向上的PhD,雖然畢業之後主要從事大數據的研發工作,我對數據庫領域也一直保持了很大的關注。國產數據庫這幾年的發展取得了長足的進展。

最近,OceanBase在TPC-C的測試中,以60880800tmpC的成績戰勝了榜單上的Oracle,後者的成績是30249688tpmC。這件事情又讓業界對國產數據庫的關注提到了一個很高的高度。

的確,這幾年,國產數據庫的進步也是有目共睹的,尤其是隨著國內移動互聯網的迅猛發展,給很多國產新型數據庫的應用創造了全球獨一無二的場景。這在很大程度上推動國產數據庫和以oracle為代表的傳統數據庫廠商之間的差距在逐漸縮小,甚至某些層面,呈現趕超之勢。

如果深挖這幾年國產數據庫的發展,大概的研發模式分為兩個截然不同的路徑。

第一條路徑是以早年的達夢,人大金倉和南大通用等幾家公司為主。這些數據庫公司的主要特點是由大學教授創辦,產品無論是以Oracle為參照的達夢還是以面向數據分析為主的數據倉庫系統的南大通用,產品在投資規模上以及開發人員上相對較少,功能與性能和國外競爭對手比起來競爭力和優勢不夠突出。

事實上,數據庫產品的研發是一個大投入,長週期,對技術要求很高的領域。但是不管怎麼說,作為國產數據庫的第一批企業,他們對中國數據庫整體技術的發展,還是做出了不可磨滅的里程碑式的貢獻。

中國數據庫產品的研發的另外一條路徑,是中國的非數據庫企業,由於自身業務的需要,對外採購以Oracle為代表的數據庫產品,從業務,或者成本等方面考慮,無法滿足自身需要,從而為了自己業務發展而走向了自研的道路。這裡尤其是以中國的通信企業和互聯網企業為代表。

中國通信企業的代表華為公司,最近發佈了自研長達9年之久的GaussDB。按照發佈會的說法,這是基於PostgreSQL9.2版本開發的的數據庫,有多個不同的型號,可以支持OLTP,OLAP以及HTAP的場景需求。性能功能以及穩定性都達到了比較好的要求。

互聯網企業代表的有阿里和騰訊,電商企業阿里發佈了自研的數據庫,主要有基於MySQL的計算存儲分離的雲端數據庫PolarDB,以及螞蟻金服集團自研的OceanBase數據庫。前者是阿里巴巴集團和阿里雲業務的主打,後者成為了這次TPC-C測試裡面打敗Oracle的主角,主要應用於螞蟻金服的相關業務。這在此前的文章中也做了詳細闡述,這裡不再展開。

另一個巨頭是騰訊,基於自身在社交、金融、遊戲等數億級,甚至十億級業務用戶場景下打磨的數據庫能力,其產品的性能和特性也真實代表了國產數據庫發展的另一種發展途徑。

追溯騰訊的業務發展,由於起步階段是從KV與存儲分析的類型開始,然後逐步過渡到關係型數據庫的使用上來的。相對其它互聯網廠商,騰訊天然沒有去IOE過程,因此在投入雲的過程中,雲化的程度更加徹底。並且在自研的道路上,也探索出很多成熟的經驗。這裡以他們主要的三款自研數據庫CynosDB、TDSQL、TBase來詳細說明。

騰訊雲數據庫負責人曾經跟我聊過,這三款數據庫定位各有不同,CynosDB是雲原生數據庫,設計上聚焦軟件優化與新硬件結合為理念,兼容性強,適合開源用戶上雲使用。TDSQL和TBase孵化自騰訊內部成熟業務,並且都經過大規模高併發場景錘鍊,主要應用在分佈式超大規模存儲併發場景以及私有云項目。具體TDSQL和TBase之間,TDSQL主要定位是OLTP,協議支持MySQL,TBase的定位是HTAP,支持行列混合存儲,協議支持PG。

雖然中國數據庫起步較晚,以Oracle、IBM、微軟等為代表的老牌廠商憑藉先發優勢在市場份額佔據了有利位置,但是雲技術的發展還是讓國產數據庫搭上了快班車。2018年,以騰訊、阿里、華為為代表的三大廠商不僅增速位列前列,市場份額也在逐年增加。騰訊雲去年市場份額增速達到123%,位列國內所有數據庫廠商之首。

如果增速體現的是市場大盤的增長,那麼在複雜場景下實現自主可控考驗的就是真實的技術實力。

這裡一個標誌性的事件是上個月張家港農商銀行基於騰訊雲TDSQL打造的新一代核心業務系統成功上線,在圈裡還是引起了很大的反響。這應該是國產數據庫首次正式進入金融的核心業務系統,實現自主可控。性能上,高頻賬戶類交易耗時在300毫秒之內,查詢類交易耗時在100毫秒之內,20秒內可以完成1萬筆批量代發代扣業務等等,批量業務進行時,數據庫負載均保持在10%以下,滿足張家港行未來五到十年業務發展需求。

除了TDSQL,另外一款自研數據庫TBase也應用在廣東省的“粵省事”小程序上面,支撐超過1900萬實名註冊用戶,實現了包括公積金查詢及轉存、醫保報銷等700多項高頻便民服務事項辦理,累計業務量超3億筆。

其實,拋開以上,騰訊雲數據庫的很多理念也可圈可點,給業內人士不少啟發,比如剛剛推出不久的DBbrain,它能夠將大量數據庫問題的診斷優化工作自動化、智能化和可視化,可以大幅減少人工的運維量。

和早年的數據庫廠商相比,這些從電信行業,互聯網行業裡面發展起來的數據庫,有技術、有場景、有資源投入,並且都經歷了對自身業務支撐的考驗。而不管是電信行業還是互聯網行業,在對數據的規模,數據庫產品的功能和性能的要求,以及業務的複雜性方面,都經過了嚴苛的實際考驗。

這些數據庫能夠支撐起復雜的業務場景,其可用性和可靠性都是非常高的。可以說,經過近10年的業務打磨,從大的通信廠商和互聯網公司裡出來的這些數據庫產品,和國際同類產品比較起來,已經具備了相當強的競爭能力。十年磨一劍,國產數據庫的春天終於到來了。


"


分享到:


相關文章: