阿里雲李飛飛:傳統數據庫步履蹣跚,未來的機會在哪裡?

阿里雲李飛飛:傳統數據庫步履蹣跚,未來的機會在哪裡?

日前,阿里云云原生數據庫PolarDB和雲原生數據倉庫AnalyticDB在印度正式上線,當地知名的IT媒體YourStory對阿里雲智能數據庫事業部總負責人李飛飛博士進行了專訪。

在採訪中李飛飛表示,隨著計算和數據上雲的趨勢快速發展,傳統數據庫步履蹣跚,雲原生數據庫和數據倉庫利用雲原生技術最大化的發揮池化的計算和存儲資源彈性將是未來。同時隨著AI技術的不斷深入使用,數據庫也將會越來越智能化,阿里雲的目標是實現數據庫的完全自動化和智能化


“李飛飛,現任阿里巴巴集團副總裁、高級研究員,阿里雲智能數據庫事業部總負責人。美國計算機協會ACM傑出科學家,加入阿里巴巴之前為美國猶他大學計算機系終身教授。研究成果多次獲得了IEEE ICDE、ACM SIGMOD最佳論文獎等重要學術獎項。他也是中國計算機協會CCF大數據專家委員會副主任、數據庫專業委員會常委。


阿里雲李飛飛:傳統數據庫步履蹣跚,未來的機會在哪裡?

以下是採訪實錄:

01、YourStory:數據庫技術正在發生哪些變化,這項技術的發展方向是什麼?

李飛飛:數據庫是一項成熟的技術,已經存在了40年,尤其是關係型數據庫。隨著計算和數據上雲的趨勢快速發展,計算和存儲資源池化帶來了系統設計的顛覆,傳統數據庫步履蹣跚。那麼什麼樣的數據庫可以在科技世界中不斷進化獲得快速發展呢?

阿里雲李飛飛:傳統數據庫步履蹣跚,未來的機會在哪裡?

雲計算為數據庫技術提供了很多機會,目前已經有多家雲原生數據庫公司可以與 Oracle 等公司競爭。雲原生數據庫將是未來。雲計算的本質是存儲和計算等資源的虛擬化和池化。這些資源被池化,並以IaaS服務對外出售。這對系統設計是個本質性的變革,因為系統的本質就是如何安全、可靠、高效的使用有限的系統資源。隨著資源池化,雲原生架構可以提供更好的彈性,並且易於靈活擴展。這也是新的雲原生方向的初創公司激增的原因。

以前你要承受固定成本和綁定資源,但是今天你能夠以靈活成本的方式使用資源池。如果你的應用在雲上,你不但可實現高可用,並且停機時間為零。

現在說回雲原生數據庫。存儲、網絡和存儲虛擬化是推動雲計算起飛的第一個顛覆性技術,推動了早期雲計算IaaS層的蓬勃發展。技術顛覆是一層一層發生的,在那之後平臺層(PaaS)發生了許多變化,帶來了2015年前後雲原生數據庫架構與算法的出現。

在傳統數據庫中,資源(存儲和計算)是捆綁在一起,無法利用池化資源的強大潛力。阿里雲的雲原生數據庫PolarDB,實現了靈活的存儲計算分離。這有利於公司和企業用戶彈性的進行存儲和計算資源的獨立擴縮容。比如,你可以通過一個按鈕,自動化管理你的資源,包括 CPU 和存儲等。在阿里巴巴,我們使用DAS (Database Autonomy Service)來實現auto scaling形式的自動執行和監視工作負載,而不需要人員干預。它是隨需應變,富有彈性的,而這意味著企業可以節省成本、提升效率。

除此之外,傳統的OLAP數據庫系統正在快速的向新一代的雲原生數據倉庫演變,對海量數據提供實時在線的交互式分析服務。

由數據庫系統演變而來的離線計算大數據系統也在和數據庫系統發生快速的融合,數據庫系統和大數據技術的融合交匯會進一步深入發展。利用上面提到的雲原生架構來提供serverless、 存計分離、彈性高可用、高併發的在線交互式分析和計算是新一代雲原生數倉的發展方向。阿里雲的AnalyticDB (ADB) 正是基於這些原理來設計和實現的,提供對大數據進行高效的在線交互式分析。同時,因為基於數據庫系統的體系設計,ADB同時還具備了支持高並寫入和ACID保證。

展望未來, OLTP和OLAP系統都會向著持續提升HTAP能力的方向去發展,與此同時,結合shared-nothing的分佈式架構和shared-storage/shared-everything的雲原生架構會發生融合,利用雲原生+分佈式能力來提供下一代企業級數據庫系統。


02、YourStory:什麼是NewSQL?

李飛飛:在行話和術語之外,我先從技術上解釋這一點,並談談傳統的面向非結構化和半結構化數據存儲和關係型數據庫管理系統的關係。

以前,對面向結構化數據而設計的關係型數據庫很重要的要求是需要確保原子性、一致性、隔離性、持久性 (ACID)。這意味在數據變更時,要保障一致性。為了確保性能穩定運行並提供隔離性,系統設計需要支持高吞吐量的工作負載並同時確保數據一致性和持久性。

谷歌在10多年前改變了這一切。他們相信,這種模式不能與產生大量數據的新應用一起工作。世界需要的是數據庫系統的可用性,而不僅僅是保證持久性、一致性、原子性。現代企業需要一個高度可擴展的數據庫系統來適應海量數據處理,尤其是面對非結構化和半結構化數據,而不是那些僅僅提供結構化數據處理並保證ACID特性的數據庫。

10多年前面對這樣的應用要求,以Google為代表的互聯網公司率先利用了部分犧牲ACID保證來換取分佈式解決方案進行橫向擴展。Google的三大馬車隨之應運而生:GFS (google file system), Google Big Table, Google MapReduce, 這也是所有大數據系統發展的源頭。

這也是為什麼會出現Hadoop 這樣大數據處理系統的原因。這些系統大約在 10多年前問世,利用傳統的數據庫系統技術和基於BSP模型的並行計算模型,但是放棄了ACID的保障,使用集群資源處理大量數據, 用戶可以從 100 個節點擴展到 1000 個節點,滿足了像流量激增的電商企業一樣應用需求。

與此同時,非結構化數據和半結構化數據的海量存儲和處理也蓬勃發展,衍生出來了豐富的NoSQL生態體系。隨著近些年數據處理技術的不斷髮展,企業級應用對同時滿足分佈式水平拓展和一定程度上滿足ACID保障有越來越強烈的需求,這就催生了 NewSQL 系統,簡單來說就是把NoSQL系統和大數據處理技術與傳統的面向結構化數據的關係型數據庫系統技術進行結合,提供面對多源異構數據進行分佈式存儲、水平拓展並行處理、多模查詢和分析、並提供一定程度的ACID保障。

阿里雲NoSQL系統提供了業界領先的NoSQL技術並快速的提升其NewSQL能力,提供面向多源異構非結構化和半結構化數據的海量存儲和多模處理。

例如我們的Tair緩存系統(企業級Redis),多年支持雙11,提供持久化緩存和熱點打散能力;我們的Lindorm系統提供企業級HBase能力,為海量數據的冷存儲和高效處理提供一站式解決方案;我們的TSDB面向海量時序時空和監控數據提供AIoT的處理能力。與此同時,我們也與提供NewSQL技術的業界夥伴例如文檔型數據庫MongoDB建立了戰略型合作伙伴關係。


03、YourStory:是否有面向數據科學家的產品?

李飛飛:我們的Data Lake Analytics"數據湖分析"產品,提供一個統一的交互式分析和計算接口來統一傳統和雲基礎設施上的所有數據。

Data Lake Analytics可以將關係數據庫、NoSQL/NewSQL 數據庫、文件系統、OSS存儲系統等各種數據組織成為一個數據湖,並創建交互式分析和批量處理功能。Data Lake Analytics實現了結構化和非結構化數據結合的大規模處理。這有助於數據科學家使用AI和ML 算法一起處理結構化和非結構化數據。

除此之外,面向多源異構數據庫實例的管理和開發流程管理,我們提供了DMS (Data Management Service), 數據管理DMS是基於阿里巴巴集團十餘年的數據庫服務平臺的雲版本,提供免安裝、免運維、即開即用、多種數據庫類型與多種環境統一的web數據庫管理終端;可以為企業用戶快速複製搭建與阿里集團同等安全、高效、規範的數據庫DevOps研發流程解決方案。

阿里雲還有一款叫

DataWorks的產品,提供了大數據OS能力、並以all in one box的方式提供專業高效、安全可靠的一站式大數據智能雲研發平臺。同時能滿足用戶對數據治理、質量管理需求,賦予用戶對外提供數據服務的能力。利用這些工具和產品,數據科學家的工作效率得到提高,因為他們不必花費太多時間去處理底層數據。


04、YourStory:AI對於你們而言意味著什麼?

李飛飛:雲計算改變了一切,因為它推動了數據的增長。但是我們離真正的AI還很遠。

阿里雲李飛飛:傳統數據庫步履蹣跚,未來的機會在哪裡?

我們今天開始使用深度神經網絡,但是他們需要大規模數據才能真正有用。目前基於深度學習和深度神經網絡的AI 是一個黑盒子,離真正的通用人工智能還非常遙遠,但是應用在特定場景下這些AI 技術已經奏效。利用海量標註數據和訓練,它在模式識別、計算機視覺和語音識別等方向取得了一些進展。現在,它也將影響數據庫行業。

阿里雲推出的自治數據庫服務就是基於這個思路和技術路線,我們的路線圖是使數據庫的管控運維儘可能的自動化和智能化,同時也將AI和ML技術應用於數據庫內核,提升數據庫內核的智能化程度來處理複雜的查詢優化、內存管理等任務。自治數據庫的複雜性將不斷提升,因為客戶對於數據庫的使用存在很大的差別,這使得整個進程的自動化變得有些困難。

但是,我們可以將 AI 用於常見的一些應用場景。例如,我們可以利用機器學習技術來自動適應系統的工作負載,改進數據庫系統的資源分配和參數設置來提升系統延遲和吞吐,並使用機器學習算法來進行在線實時監控確保數據庫安全且運行良好。


05、YourStory:工程師加入阿里巴巴時必須關注哪些未來的技術?

李飛飛:除了我上面提到的這些點之外,數據庫安全也是我們非常關注的話題。

阿里雲李飛飛:傳統數據庫步履蹣跚,未來的機會在哪裡?

我們正在建設LedgerDB將區塊鏈技術與數據庫系統進行集成,這可以同步並驗證數據和日誌的完整性並提供不可篡改性。螞蟻金服和我們的雲上客戶正使用區塊鏈技術跟蹤銀行和商戶之間的交易的完整性。利用安全硬件技術,我們推出了全加密數據庫系統,可以確保用戶數據在數據庫系統從傳輸到存儲到內核處理全程加密,進行無解密處理、計算、和分析,這樣就能確保即使在最壞情況下數據庫系統遭到內部破壞性攻擊,敏感數據也不會被洩露。

除此之外,DMS企業版提供高效保障數據安全研發流程和運維流程管理,在保障數據庫系統安全的同時提升研發效率。

我們擁有強大和豐富的生態系統, 開發人員不必擔心他們瞭解哪種計算機語言、使用了哪個生態的數據庫系統, 阿里雲數據庫都提供了強有力的支持, 因為我們永遠不會在封閉的技術和生態體系中構建我們的系統。如果你是數據庫或者是數據工程師,你不必學習所有的新事物,但是你一定要具備和保持學習新事物的能力和好奇心。


阿里雲李飛飛:傳統數據庫步履蹣跚,未來的機會在哪裡?

直播預告

2020年3月26日 15:00-16:00

邀您一同見證

雲數據庫SQL Server 2019版重磅發佈

全面提升性價比及數據庫能力

點擊擴展鏈接

即可預約觀看直播


分享到:


相關文章: