“開源”vs“商業”,差別到底有多大?這篇測試一目瞭然

來自用戶的聲音…

開源就能搞定,還要選商業方案嗎?

我是小白用戶,開源方案上手快嗎?

性能有極致要求,開源能滿足嗎?

追求性價比,哪種方案更適合我?

我對MySQL很熟悉,

數據分析場景適合嗎?

上述問題如何解?

看阿里雲幫你對比分析!


近些年來在數據分析領域,湧現出很多開源的技術方案,例如Presto、Spark、Impala等。面對多種選擇,客戶往往會比較困惑、無從下手。此外,MySQL生態非常火熱,但對於數據分析類場景,使用此類關係型數據庫是否合適呢?

阿里雲近期,基於常見的

開源數據分析產品和數據庫阿里雲自研的分析型數據庫MySQL版進行了對比性能測試,希望從中能幫你找到答案。具體測試細節,可參見阿里雲官網鏈接。


01、測試標準:TPC-H


本次對比測試,是使用TPC-H標準。TPC-H(商業智能計算測試)是美國交易處理效能委員會(TPC,Transaction Processing Performance Council) 組織制定的用來模擬決策支持類應用的一個測試集。

目前在學術界和工業界普遍採用它來評價決策支持技術方面應用的性能。這種商業測試可以全方位評測系統的整體商業計算綜合能力,對廠商的要求更高,同時也具有普遍的商業實用意義。

TPC-H 是根據真實的生產運行環境來建模,模擬了一套銷售系統的數據倉庫。其共包含8個基本關係,數據量可設定從1G~3T不等。其基準測試共包含了22個查詢,主要評價指標各個查詢的響應時間,即從提交查詢到結果返回所需時間。其測試結果可綜合反映系統處理查詢時的能力。


02、測試方案


測試基於阿里雲基礎環境,在同等(或接近)的硬件配置下,對比分析型數據庫MySQL版與MySQL、Presto、Spark、Impala在同等數據規模(100G)下,標準TPC-H的測試結果對比。測試環境如下表:

*點擊查看大圖

“開源”vs“商業”,差別到底有多大?這篇測試一目瞭然

“開源”vs“商業”,差別到底有多大?這篇測試一目瞭然


03、測試結果


如下表可以看出,分析型數據庫MySQL版比MySQL8.0性能提升100多倍,比其他開源數據分析產品也有6~10倍的性能提升。

*點擊查看大圖

“開源”vs“商業”,差別到底有多大?這篇測試一目瞭然


*表格中對比數據為性能提高倍數,計算方法為(開源-ADB)/ADB。

*測試中Impala、Presto因語法或資源問題,無法全部完成測試。


04、解讀數據


“開源”vs“商業”,差別到底有多大?這篇測試一目瞭然

在與關係型數據庫典型產品-MySQL對比中,分析型數據庫MySQL版實現了百餘倍的提升。雖然MySQL採用了最新的8.0版本,在複雜SQL處理能方面有了長足的進步,但與專業數據分析類產品對比,差距明顯。

在實際使用中,對於查詢不太複雜、數據規模不大、響應時間要求不高的情況下,使用原生MySQL是可以接受的。對於稍顯複雜的場景,還是建議選擇專業的分析類產品。(廣告下:分析型數據庫MySQL版已推出MySQL分析型實例,歡迎關注!

對Presto、Spark、Impala的對比中,分析型數據庫MySQL版也實現了6~10餘倍的性能提升。同樣作為分佈式數據分析類產品,分析型數據庫MySQL版經過多年技術積累,在存儲架構、優化器、執行引擎等多領域的創新性成果,可大幅提高海量數據的實時查詢性能。

測試中除分析型數據庫MySQL版外,其餘產品都進行部分調優工作(包括參數調整、數據結構調整、語句改寫等);而只有分析型數據庫MySQL版真正實現了“開箱即用”,零優化、免維護、無開發。除在TPC-H提供的建表語句中增加對分佈鍵的定義外(原有測試標準未考慮到分佈式數據庫場景),其餘未做任何調整。


05、客戶選擇


回到文章之初的問題,客戶如何來選擇?這裡簡單整理了幾點:

  • 極致性能

對比測試結果來看,分析型數據庫MySQL版在性能上優勢明顯。這也是依賴於多年技術積累所致。

  • 語法兼容

從測試過程來看,分析型數據庫MySQL版對MySQL生態兼容很好,語句無需修改即可使用。其他產品在兼容性方面還需進一步加強。

  • 技術基礎

如技術較薄弱的客戶,選擇分析型數據庫MySQL版的商用方案無疑是很合適的。如果客戶已經在其他大數據棧有了多年積累,可快速解決問題,則可以選擇其他產品。

  • 高性價比

上述測試中,未算考慮經濟投入。在使用同樣雲端資源的情況下,分析型數據庫MySQL版較其他產品,具有明顯的經濟優勢。同時,分析型數據庫MySQL版也提供了豐富的規格選擇,進一步為客戶降低成本。例如之前推出的基礎版規格,將大數據分析門檻大幅降低;新推出的大存儲規格,則面向具備海量數據體量用戶;其未來還將有更為豐富且具有彈性的規格推出。(廣告下,3月末還將有重磅產品發佈,敬請期待!)

  • 簡單易用

零維護、免優化,這是分析型數據庫MySQL版給很多客戶的直觀印象。其將數據分析這一原本門檻較高的領域,變得觸手可得。感興趣的同學,可以根據文檔說明,快速復現上述測試過程,真正體會下分析型數據庫MySQL版帶來的價值。


06、寫在最後


如上面測試可見,分析型數據庫MySQL版性能大幅領先MySQL 、Presto、Spark、Impala等開源產品?這背後有什麼技術殺手鐧?請期待後續推出的分析型數據庫MySQL版性能之巔解密!!!


分享到:


相關文章: