02.27 李飛飛:傳統數據庫會像馬車一樣被淘汰

李飛飛:傳統數據庫會像馬車一樣被淘汰

在阿里CIO學院攻“疫”技術公益培訓的第一場直播中,達摩院數據庫首席科學家,阿里巴巴副總裁,ACM傑出科學家李飛飛(花名:飛刀)為我們帶來了企業級雲原生分佈式數據庫系統的分享,以下內容由視頻直播內容整理而成。


-演講速記-


一、雲原生分佈式數據庫系統的發展歷程


數據庫市場分析與預測


首先為大家將介紹整個數據庫市場分析與預測。根據Gartner公司的分析報告,2018年全球基礎軟件如虛擬化軟件、操作系統、存儲等的市場規模大約為2000億美金,其中數據庫佔20%,大約為461億美金。而中國的數據庫市場規模大概為161億人民幣,但這一數字實際上因為各種原因被遠遠低估了。2018年數據庫市場的增長率是18%,其中雲數據庫佔比達到了22.75%,而Gartner預測在未來的2到3年內雲數據庫的佔比可能會達到75%。在世界範圍內,雲數據庫的領袖毫無疑問當然是亞馬遜。亞馬遜是最早在雲數據庫市場發力的廠商,也是目前做的最好的一家雲廠商。而在AWS做雲數據庫之前,這個市場處於“None-Player”的狀態,傳統數據庫市場的巨頭是Microsoft、IBM、Oracle,而AWS未能躋身其中。但云數據庫賽道為AWS帶來了發展的機遇,其發展速度非常快,它的雲原生數據庫Aurora在2018年就達到了3億美金的營收。


數據庫系統演進


數據庫已經發展了40年,可以說是一個傳統又古老的領域。回顧數據庫的發展歷史,1980年到1990年屬於商業起步階段,此時Oracle、IBM DB2、Sybase以及SQL Server和Informix等開始出現。


1990年至2000年,開源數據庫開始展露頭角,出現了PostgreSQL和MySQL等。與此同時,出現了一些分析型數據庫,因為之前出現的都是OLTP,而現在隨著大量數據的出現,需要對於這些數據進行分析,因此出現了OLAP,而為了避免讀寫衝突,就需要建立分析型數據庫系統,Teradata、Sybase IQ、Greenplum等就快速成長起來。


李飛飛:傳統數據庫會像馬車一樣被淘汰


2000年到2010年期間,以谷歌為代表的互聯網公司逐漸推出了NoSQL數據庫。尤其是谷歌的GFS(Google File System)、Google Bigtable、Google MapReduce三大件。Google File System解決了分佈式文件系統問題,Google Bigtable解決了分佈式KV(Key-Value)存儲的問題,Google MapReduce解決了在分佈式文件系統和分佈式KV存儲上面如何做分佈式計算和分析的問題。之所以產生了這三大件,是因為數據強一致性對系統的水平拓展以及海量數據爆發式增長的分析能力出現了斷層。因此就需要解決這個問題,把這種數據的強一致性需求弱化,換來能夠使用用分佈式的集群做水平拓展處理。谷歌三大件在業界誕生以後,很快的衍生了一個新的領域叫NoSQL(Not Only SQL),就是針對非結構化、半結構化的海量數據處理系統。現在也有很多很好的商業公司基於NoSQL發展,比如說文檔數據(MongoDB)、緩存(Redis)等大家平常應用開發都會用到的NoSQL系統。


而在2010年以後,AWS Aurora、Redshift、Azure SQL Database、Google Spanner以及阿里雲的POLARDB和AnalyticDB等都發展起來了,它們的特點就是雲原生、一體化分佈式、多模和HTAP的能力。


總結而言,數據庫的演進經歷了從結構化數據在線處理到海量數據分析,從SQL+OLAP的RDBMS到ETL+OLAP的Data Warehouse和Data Cube,再到今天異構多源的數據類型的發展歷程。


數據庫:雲上應用的關鍵一環


如今,上雲已經成為一種趨勢。而在上雲的過程中,數據庫則被認為是雲上非常重要的一環。因為雲最開始提供的是IaaS,而隨著各種智能化應用的興起,數據庫就成為了從IaaS到智能化應用連接的重要一環。


李飛飛:傳統數據庫會像馬車一樣被淘汰


數據庫發展:業務視角


大家知道,數據庫可以分為幾類:


最經典的是傳統關係型OLTP數據庫,其主要用於事務處理的結構化數據庫,典型例子是銀行的轉賬記賬、淘寶下單、訂單以及商品庫存管理等。其面臨的核心挑戰是高併發、高可用以及高性能下的數據正確性和一致性。


其次是NoSQL數據庫及專用型數據庫,其主要用於存儲和處理非結構化或半結構化數據(如文檔,圖,時序、時空,K-V),不強制數據的一致性,以此換來系統的水平拓展、吞吐能力的提升。


再次是分析型數據庫 (On-Line Analytic Processing, OLAP),其應用場景就是海量的數據、數據類型複雜以及分析條件複雜的情況,能夠支持深度智能化分析。其面臨的挑戰主要是高性能、分析深度、與TP數據庫的聯動,以及與NoSQL數據庫的聯動。


除了數據的核心引擎之外,還有數據庫外圍的服務和管理類工具,比如數據傳輸、數據備份以及數據管理等。


最後就是數據庫的管控平臺,無論是私有云、專有云、混合雲還是自己的IDC機房內進行部署,總要有一套數據庫管控系統來管理數據庫實例的產生和消亡、實例的資源消費等,能夠以簡單的形式提供給DBA以及數據庫開發者。


李飛飛:傳統數據庫會像馬車一樣被淘汰


數據庫系統DBMS的價值


如下圖所示的是文件形式的數據存儲系統和DBMS的區別。數據庫系統的核心位置在操作系統和SQL的接口之間,簡單而言就是在存儲系統與上層抽象之間架起了一個系統來管理對於業務有用的數據,如果不這樣設計則需要使用一些高級程序語言開發應用程序來與操作系統交互並管理這些數據。而數據庫將對於數據的管理、存儲以及消費抽象出來,這樣一來不用每次都在應用程序裡寫相關的邏輯了,而可以專注於業務邏輯,數據管理相關的邏輯全部交給數據庫系統實現,並且用Structured Query Language結構化查詢語言對於數據訪問接口進行抽象。


李飛飛:傳統數據庫會像馬車一樣被淘汰


數據庫系統的核心模塊


將數據庫系統拆開來看,其核心模塊包括應用接口、SQL接口、查詢執行引擎、數據訪問模塊和存儲引擎。其中,查詢執行引擎進一步可以拆分為計劃生成器、計劃優化器和計劃執行器;數據訪問模塊則可以分為事務處理、內存處理、安全管理以及文件和索引管理等模塊;並且事務處理是最核心的模塊,其中包括了崩潰恢復和併發控制;最底層的存儲引擎則包括數據文件、索引文件和系統及元數據文件。


李飛飛:傳統數據庫會像馬車一樣被淘汰


查詢分析處理過程


數據庫查詢分析處理過程是這樣的:首先,通過SQL語句或者大數據系統的Dataframe API將查詢任務提交上來,之後經過Simba PraserSimba Parser進行處理,此時會有各種各樣的執行方式,並生成Catalog和邏輯執行計劃;之後對於邏輯執行計劃進行優化,並生成物理執行計劃;之後在藉助系統的統計信息,如索引管理、內存管理來生成一個優化後的物理執行計劃,再執行並生成最後結果或者RDD。


李飛飛:傳統數據庫會像馬車一樣被淘汰


簡單而言,數據庫系統的架構就是持久化存儲的數據按照Data Page的形式進行存儲,這些數據塊在查詢訪問的時候會被帶到內存裡面。系統中有內存池,每個內存池可以裝載一個Page,此時的問題就是內存池的大小是有限的,如果數據存儲非常大,需要進行優化。此外,還涉及到優化數據訪問的問題,一般通過索引解決,主要是Hash索引和樹形索引。


數據庫系統挑戰


數據庫系統最關鍵的挑戰就是並行訪問時的寫寫衝突和數據一致性問題。此外,還有讀和寫的衝突問題,比如在數據庫裡做批量寫入的時候系統宕機,應該考慮如何讓系統自動恢復。


李飛飛:傳統數據庫會像馬車一樣被淘汰


為解決以上的問題,數據庫系統提出了一個核心概念——事務。簡單而言,事務就是一系列動作可以被看作一個整體,從用戶視角來看事務是隔離運行的,一個用戶的事務和另一個用戶沒有關係。如果系統出現異常,事務要麼全部執行完畢,要麼一個也沒有被執行。這樣引申出來事務的核心概念:原子性、一致性、隔離性、持久性。


數據庫系統的挑戰


數據庫系統與大數據系統非常相關,而在分析型數據庫系統裡面也會面臨非常多的挑戰,比如預測用戶的退貨率需要進行非常複雜的查詢分析並且需要非常複雜的機器學習模型。


李飛飛:傳統數據庫會像馬車一樣被淘汰


二、數據庫系統架構的對比及趨勢


雲原生數據:要解決什麼問題?


傳統架構依賴於高端硬件,每套數據庫系統服務器少,架構相對簡單,但無法支持新業務的擴展需求。而云計算機構的核心邏輯就是通過虛擬化技術帶來池化資源。雲原生數據庫採用分佈式數據庫架構,實現大規模擴展,每套數據庫系統橫跨多臺服務器和虛擬機,帶來了全新的系統管理挑戰。其中最核心的挑戰就是如何實現彈性以及高可用,實現按需按量使用,使得資源高效利用。


李飛飛:傳統數據庫會像馬車一樣被淘汰


雲原生數據庫管控平臺:DBaaS智能化簡化管理維護


雲原生數據希望管控平臺能夠實現多實例統一管理;全圖形化,無需命令行;分鐘級安裝,集群部署;自動備份,時間點恢復;動態擴容和縮容;以及性能監控和優化調整。


李飛飛:傳統數據庫會像馬車一樣被淘汰


阿里巴巴數據庫發展歷史


在2005到2009年,當時阿里巴巴擁有亞太最大規模的Oracle RAC集群;在2010年到2015年開始,使用開源數據庫以及分庫分表的技術來解決對於商業數據庫的依賴;從2016年開始到現在,阿里巴巴都在自研數據庫上發力,TP方面包括POLARDB和OceanBase,AP方面則有分析型數據庫AnalyticDB。


李飛飛:傳統數據庫會像馬車一樣被淘汰


靈活的部署形態


隨著雲計算的發展,數據庫的部署形式也發生了很大的變化。傳統的數據都是部署在客戶機房裡面,與客戶的機器綁定。而在雲環境下,希望數據庫能夠在多種形態下部署,比如公有云、專有/私有云、混合雲以及軟硬件一體化獨立部署,以及純軟件輸出。


李飛飛:傳統數據庫會像馬車一樣被淘汰


Oracle等數據庫廠商也正在向著AWS的部署方式轉型。


李飛飛:傳統數據庫會像馬車一樣被淘汰


多模數據庫系統


數據庫系統另外的一個趨勢就是多模。數據庫系統的演進經歷了從最早的關係型數據庫OLTP到半結構化,再到分析型數據庫OLAP等非結構化的數據庫,再發展到如今的多模數據庫。對於多模數據庫而言,主要有兩種維度,南向維度是數據庫可以有多種存儲港方式,北向維度是可以有多種查詢接口和標準,而希望由同一套數據庫引擎來支撐。


李飛飛:傳統數據庫會像馬車一樣被淘汰


數據庫智能化+自動化管控平臺


藉助於機器學習、人工智能技術,希望能夠與數據庫內核進行結合,使得數據庫能夠更加自動化和智能化,實現自感知、自決策、自恢復和自優化。


李飛飛:傳統數據庫會像馬車一樣被淘汰


新硬件: 軟硬件一體化設計


未來,下一代的企業級數據庫一定要結合軟硬件一體化的設計理念,而不能把軟件和硬件隔開,只有將軟硬件結合在一起,才能把系統的優勢發揮出來。


李飛飛:傳統數據庫會像馬車一樣被淘汰


行存儲VS.列存儲


TP和AP的關鍵區別就是行存儲和列存儲,前者按照行將數據存儲起來,其優點是能夠高效簡易訪問一整條記錄來處理更新,缺點是需要訪問和讀取不需要的數據信息;後者的優點是隻需要讀取所需數據,缺點是更新一條記錄不同屬性時需要多次訪問。


李飛飛:傳統數據庫會像馬車一樣被淘汰


HTAP:事務處理與分析處理一體化


HTAP希望能夠將行存和列存結合起來,在一套系統裡面實現行列混存,但是這樣也會遇到很多挑戰,最核心的就是數據一致性的挑戰。


李飛飛:傳統數據庫會像馬車一樣被淘汰


雲原生架構: 彈性x高可用x企業實踐x開放生態


傳統數據庫架構採用單節點架構,其有點是部署和開發簡單,缺點就是非常難於做彈性縮擴容。雲原生架構是基於RDMA等網路實現分佈式共享存儲,使得上層應用看起來存儲是一份,在上層實現存儲與計算分離,使得存儲和計算可以實現獨立的縮擴容,這就帶來了極致的彈性,也為雲原生帶來了很好的管理方式,如阿里雲的POLARDB、AWS的Aurora等都是基於這樣架構。


李飛飛:傳統數據庫會像馬車一樣被淘汰


還有另外一種就是分佈式架構,其對於數據庫進行分庫分片,其特點是水平擴展能力特別強,當數據量變大、併發量變高的時候只需要增加節點即可,其缺點是如果要求不改動上層業務邏輯,就必須要有能力去處理分佈式事務和分佈式查詢,典型的代表有螞蟻的OceanBase、阿里的POLARDB-X、ADB、TDSQL等。


下一代企業級數據庫:雲原生+分佈式+HTAP


下一代的企業級數據庫架構應該是將雲原生架構和分佈式架構以及HTAP完美結合起來。上層是分庫分表Shared-Nothing的架構,下層是存儲與計算分離的雲原生架構,這種架構的好處在於既能夠水平擴展,又能夠實現高可用的能力。而且面對高併發的情況時,所需要的分片數量會大大減小,因此分佈式事務的複雜性也會大大降低。


李飛飛:傳統數據庫會像馬車一樣被淘汰


分佈式系統CAP理論


為了便於大家理解,這裡為大家介紹一些分佈式系統的理論,其中最核心的是CAP理論,即一致性(Consistency)、可用性(Availability)、分區容錯性(Partition tolerance)。解決上述問題存在不同的架構,包括單機單節點數據庫架構、對數據進行分區分片、中間件架構,此外最好的方式就是一體化分佈式,系統內部進行協調和處理並將最終結果返還給用戶。


李飛飛:傳統數據庫會像馬車一樣被淘汰


分佈式數據庫系統:高可用


這裡涉及到高可用的問題,那就是分庫分表之後數據庫出現問題該怎麼辦。分佈式高可用數據庫可以通過數據一致性協議來確保分區數據一致性,業界提供了兩個比較優秀的分佈式數據一致性協議,即Paxos和Raft。協議的內容大致就是分區進程一定可以對一個數據的取值達成一致,對一個數據的取值一定可以有一個可取值被提議,一旦分區進程對一個數據的取值達成一致,那麼所有的分區進程最終都可以得到這個取值。


李飛飛:傳統數據庫會像馬車一樣被淘汰


三、雲數據庫技術高速發展的現狀


數據庫技術與產品是完整的生態系統


本部分結合阿里巴巴的數據庫產品進行介紹。阿里雲數據庫不僅在雲上提供服務,還會支撐整個阿里巴巴集團內部經濟體的所有活動。2019年雙11,在零點剛過的第一秒,阿里的數據庫系統峰值增長了大概135倍,瞬間爆發,這就需要數據庫具有較高的可擴展性、彈性以及高可用。數據庫技術與產品必須是一個完整的生態系統,因此需要POLARDB、ADB等工具來支撐。


李飛飛:傳統數據庫會像馬車一樣被淘汰


雲原生數據庫:POLARDB


POLARDB底層是基於RDMA的分佈式共享存儲,通過Parallel Raft協議在分佈式共享存儲裡實現高可用,上層實現了多個計算節點,實現一寫多讀,因為底層看到的是一份邏輯數據,因此事務處理表現非常好,並且能夠根據需求實現分鐘級別的彈性縮擴容。此外,這種架構不涉及到分庫分表的兼容性改造,因此能夠供100%兼容MySQL、100%兼容PG和Oracle的版本。


李飛飛:傳統數據庫會像馬車一樣被淘汰


POLARDB Box:高性能一體機


為了支持多種模式的數據庫部署,阿里雲在2019年也推出了一體機的產品解決方案。


李飛飛:傳統數據庫會像馬車一樣被淘汰


POLARDB-X:分佈式版本支持水平擴展+HTAP


阿里巴巴將XDB和POLARDB的能力以及DRDS的能力進行了融合,實現了分佈式數據庫POLARDB-X。其上層就是DRDS,主要做分佈式的事務處理和查詢處理,下面一層就是POLARDB層能夠實現水平擴展和彈性擴展。POLARDB-X的存儲引擎使用了X-Engine。


李飛飛:傳統數據庫會像馬車一樣被淘汰


三節點金融級可用集群


在一個AZ裡面想要實現三節點的金融級高可用,則使用Raft協議保證三副本之間的數據尺度一致,保證高可用、高可用以及性能。


李飛飛:傳統數據庫會像馬車一樣被淘汰


兩地多中心


跨AZ的部署存在較大的挑戰,一般而言是在同城的三副本之間跑AZ的Raft協議,而跨城或者跨域則使用日誌的同步技術實現,比如通過DTS實現,基本上就是通過解析Binlog的方式將源端的日誌解析出來同步到遠端再Replay。


李飛飛:傳統數據庫會像馬車一樣被淘汰


Big Data + Fast Data:將海量數據轉化在線實時可用


目前業界的趨勢是將大數據和FastData結合起來,也就是在線分析和交互計算在線化和實時化。


李飛飛:傳統數據庫會像馬車一樣被淘汰


基於分佈式集群的大數據計算與分析系統:由數據庫系統演而來


無論是MapReduce還是Spark等大數據系統,其模式都是由數據庫系統演進而來的,只不過Spark的處理都是在內存中進行的,這樣可以大大降低系統的開銷。


李飛飛:傳統數據庫會像馬車一樣被淘汰


Spark SQL:大數據和數據庫技術在快速融合


Spark SQL是目前非常流行的使用SQL處理數據和分析的結構化模塊,Spark SQL的模式和數據庫內核的模式非常相似,只不過是將SQL的輸入轉化為Spark的Job去執行。


李飛飛:傳統數據庫會像馬車一樣被淘汰


大數據系統的核心:並行處理方式


基於BSP模型的大數據系統面臨的最核心挑戰就是並行處理時任務執行進度不一致而導致的同步問題,而現在希望大數據系統能夠和數據庫系統一樣能夠實現並行的同步。


李飛飛:傳統數據庫會像馬車一樣被淘汰


基於DAG的調度和計劃器


無論是數據庫系統還是大數據系統,其調度方式都是基於DAG的調度和計劃器。也就是將執行計劃看做一個有向無環圖,進行分組執行,每一輪執行完成之後進行同步,再進行到下一輪。


李飛飛:傳統數據庫會像馬車一樣被淘汰


技術趨勢:Serverless Storage + Serverless Compute


大數據和數據庫系統正在進行融合,向著在線實時化發展。而在線實時化中最為核心的挑戰就是要處理多個數據源和要進行Serverless Computing。


李飛飛:傳統數據庫會像馬車一樣被淘汰


四、阿里雲數據庫總結


智能化OLAP:AnalyticDB實時交互式數據倉庫


舉例而言,阿里雲實現了智能化的OLAP,實時交互式數據倉庫AnalyticDB,其也基於BSP模型,因此能夠進行在線計算和分析處理。


李飛飛:傳統數據庫會像馬車一樣被淘汰


AnalyticDB的另外一個優勢就是將非結構化數據、半結構化數據有效地和結構化數據聯合處理,這是因為其具有向量化計算引擎,能夠對於非結構化數據實現向量化,進而實現聯合處理。


Data Lake Analytics-數據湖:全域數據,全局開放分析


數據湖其與數據倉庫的相同點是都是為了解決異構分析處理的本質問題,但是數據倉庫裡面有自己的源數據管理和存儲引擎,而數據湖只做了源數據管理,而沒有存儲引擎。數據湖只是去連接不同的數據源,而不是將數據轉化到自己的存儲引擎,這是數據庫服務與ADB的本質區別。在阿里雲等主流的數據湖內核中一般都會結合Presto或者Spark的內核來做交互式計算,並將計算結果提供給BI工具。因為其沒有自己的存儲引擎,因此非常適合於做Serverless Computing的架構。


李飛飛:傳統數據庫會像馬車一樣被淘汰


企業級NoSQL:非結構化和半結構化數據庫套件


NoSQL要支持非結構化與半結構化數據的處理,阿里雲基於Redis實現了支持KV緩存的Tair,處理文檔數據的MongoDB,處理時序時空的TSDB(Time Series Database),處理圖的GDB(Graph DataBase),處理寬表的Cassandra等。總而言之,NoSQL放棄了傳統關係型數據庫對ACID數據一致性的要求,換取了對非結構化、半結構化數據這種複雜數據水平拓展的能力。


李飛飛:傳統數據庫會像馬車一樣被淘汰


企業數據管理功能矩陣


阿里巴巴的企業數據管理功能矩陣提供了面向研發、DBA、內審、運營決策的數據操作統一入口和業務報表服務。對於企業級數據庫而言,存在安全管控、變更穩定、數據分析的需求,這裡面涉及SQL任務執行引擎、邏輯庫執行引擎、安全規則引擎、數據脫敏引擎等。


李飛飛:傳統數據庫會像馬車一樣被淘汰


數據安全保障


阿里雲上的數據庫管理產品叫做DMS,它除了提供上述服務,還提供了數據安全保障。從“審計”到“主動攔截”再到數據脫敏的整個流程都由DMS完成。DMS內置了安全規則庫、規則執行器以及動作Action(類似Trigger),這樣當業務主系統出現問題時,數據不會丟失。


李飛飛:傳統數據庫會像馬車一樣被淘汰


數據庫備份DBS


將備份數據變廢為寶,對備份數據進行分析和查詢甚至是BI的決策,這是現在CDM的趨勢。


李飛飛:傳統數據庫會像馬車一樣被淘汰


企業級雲原生管控平臺


管控平臺的一個趨勢,希望在公有云中提供“專有云”的能力。公有云管控雖然提供了實例管理的能力,但很多應用的時候需要自己去直接管理的能力。例如在公有云上能夠拿到自己機房root、admin的權限,因此阿里雲就做了大客戶的專享集群,利用了雲原生的管控能力如K8S的方式,能夠儘可能的把管控透明化,把權限開放給客戶和應用。


李飛飛:傳統數據庫會像馬車一樣被淘汰


AI for DB- DAS: 智能化數據庫管控與內核


在業界,大量集成智能化和機器學習成為管控的趨勢。下圖是阿里雲管控的整體架構,它做了一個SDDP(Self-Driving Database Platform),對每一個實例去採集性能數據(在用戶許可的前提下采集訪問一些用戶的性能數據,非業務數據,如CPU使用率、磁盤使用率),進行建模分析,實時的進行監控。在這樣的優化下,阿里雲慢SQL的數量大幅度減少,內存的使用率大幅度提高。


數據安全


標準的雲上數據安全包括傳輸過程、存儲過程等,例如引用TDE(Transparent Data Encryption)、Data at Rest Encryption。阿里雲對數據安全的幾個維度進行了總結:如加密的數據訪問和存儲、減小內部攻擊風險、日誌數據一致性的可驗證(例如結合區塊鏈技術把數據和日誌讓用戶做一致性的驗證)等。


李飛飛:傳統數據庫會像馬車一樣被淘汰


全程加密數據永不洩露


數據進入內核以後也是進行加密的,不需要解密,加密使用的是客戶的密鑰,其他人不可見。這樣確保了即使在內部攻擊的情況下,整個數據過程也是完全保密的。


李飛飛:傳統數據庫會像馬車一樣被淘汰


Oracle遷移-數據庫及應用遷移改造ADAM


把Oracle現有的數據遷移到雲上,是一個從評估到決策、實施、優化的過程。使用自動化工具ADAM,能夠通過自動化生成報表來告訴用戶從Oracle遷移到目標數據庫哪些應用是兼容的,哪些應用是不兼容的,這使做應用遷移決定的時候有一個清晰明瞭的過程,知道遷移改造的成本。


李飛飛:傳統數據庫會像馬車一樣被淘汰


ADAM - ORACLE遷移全鏈路解決方案


有了如下流程體系:使用ADAM這種自動遷移評估工具去做應用兼容性、一致性的評估,之後做評估改造,再用DTS把數據庫遷移到不同的目標庫,這樣就形成了一個標準化、流程化、產品化的Oracle遷移方案。


李飛飛:傳統數據庫會像馬車一樣被淘汰


Oracle 遷移的科學方案選型


建議中小型業務系統要選擇與Oracle高度兼容的目標庫進行遷移,例如PolarDB。大型核心系統將來的發展方式很有可能是類似分佈式的架構,分析型可以選擇AnalyticDB,事務型可以選擇PolarDB-X 分佈式。


李飛飛:傳統數據庫會像馬車一樣被淘汰


阿里雲數據庫總結


目前,阿里雲在亞太市場排名第一,全球市場排名第三。從營收來講,在全球市場僅僅落後於亞馬遜和微軟,在雲數據庫的市場上已經超過了許多傳統型數據庫,如Oracle、Google這種非常強勁的競爭對手。


應用案例


最後介紹一些基於阿里雲的產品和技術做的一些解決方案和應用案例。首先阿里巴巴的數據庫產品支撐了阿里巴巴集團內部所有複雜的業務,外部業務支撐了從國家重點項目的雲上商業系統的應用,例如從製造業到國際客戶、零售、金融、互娛。


阿里巴巴數據庫應用的具體案例包括,幫助某東部銀行基於PolarDB分佈式版本快速構建新型業務與小微業務的互聯網架構;幫助中國的某第三方跨境支付平臺基於PolarDB分佈式版構建高併發、低延時的支付系統,同時使用DTS、DLA做異構多元數據處理以及實時數據同步;使用AnalyticDB替換傳統的“Sysbase IQ + Hadoop”解決方案,幫助某核心券商實現金融加速分析平臺。


阿里巴巴還幫助天弘基金基於AnalyticDB構建了承載了500TB數據量和1億用戶的實時查詢計算平臺;幫助南區最大的銀行之一構建基於DTS的“異地容災”;幫助中國郵政利用AnalyticDB實現全國10萬多機構寄報表平臺;利用雲原生的數據庫技術幫助銀泰百貨改造數據庫系統,實現了彈性高可用,使其能夠支撐大促20倍峰值,並將成本減少60%以上;


總結


數據庫的未來發展趨勢可以總結為以下四點:


產品架構與技術創新:雲原生 + 分佈式 (彈性、高可用)。架構上分佈式共享存儲、存儲計算分離,雲原生架構+Shared Nothing分佈式架構,滿足彈性、高可用、水平拓展的能力。


數據挑戰:多模,結構化與非結構化數據 (多源異構數據)。結構化與非結構化數據如何融合異構處理,比如數據湖的概念、ADB裡面用向量處理引擎把非結構化數據變成結構化數據,高維向量、多源異構數據處理的技術。


數據處理與分析:海量數據分析在線化 (實時在線交互式分析)。如何對海量數據進行在線分析和計算,支持實時在線交互式分析,需要做並行處理(DSP模型、MPP模型等等),對並行調度計算進行優化。


系統能力提升:智能化 + 安全 (使用方便可靠、運維簡易)。如在管控平臺的層面如何做智能化的調度、監控以及自動修復,怎樣去做數據的安全處理、隱私保護、加密處理等等,使得整個數據庫的使用更加方便可靠、運維簡易。


李飛飛:傳統數據庫會像馬車一樣被淘汰


數據庫上雲/遷移是一個生態,而不是一個項目。回顧一下本文分享的所有技術,數據同步與傳輸技術來做數據庫的同步遷移,需要分佈式雲原生的系統來做彈性高可用,也需要NoSQL做圖、時序/時空等非結構化數據的處理,同時需要數據同步/分發到分析系統裡面做實時計算分析,還要備份、混合雲的管理,以及針對企業數據庫研發的DevOps開發流程管理套件。總而言之,只有完整的生態體系才能支撐中國的數據庫市場快速發展以及走向全球。

-End-

信息來源:阿里CIO學院,攻“疫”技術公益培訓,2020


分享到:


相關文章: