什麼是One Data體系?阿里數據中臺解讀

1、前言

關於“數據中臺”網絡中充斥著很多的觀點、概念、技術、理論、實踐等文章,可真是“你方唱罷我方登場”,好不熱鬧!抱著學習的心態我看了很多數據中臺的文章,尤其是對“數據中臺”的始作俑者阿里巴巴的數據中臺相關文章進行研讀。以下是個人學習心得和個人理解,如有偏頗還請斧正。

2、阿里巴巴數據中臺全景圖

什麼是One Data體系?阿里數據中臺解讀


來源:《阿里巴巴數據中臺實踐分享》

從阿里巴巴數據中臺全景圖中我們看到,阿里的數據中臺主要由三個部分組成:數據資產管理IPaaS、數據中臺DaaS、數據研發平臺IPaaS。

(1)數據資產管理IPaaS

數據資產管理其核心是基於元數據管理技術實現數據資產的“可看、可找、可用”,主要提供資產地圖、資產分析、資產管理、資產應用、資產運營等功能。通過數據地圖讓數據管理和使用者,清楚的知道企業都有哪些數據,這些數據存在什麼地方,數據被誰管理,如何獲取等等;資產分析是利用BI技術對數據資產進行統計分析,並提供可視化服務,例如:按主題、類型的統計數據資產數量、數據資產的質量和數據資產的使用情況等;資產管理可以理解為對元數據的管理,包括元數據的增刪改查;資產應用可以理解為通過元數據管理提升數據資產的利用率,比如:數據資產的熱度分析、全鏈分析、影響分析等;而資產運營嚴格意義上說不能是一個功能,而是為了提升數據資產質量和使用效率的一系列措施,可能涉及組織、制度、績效考核等等方面。通過數據資產管理激活企業的沉睡的數據,從而促進數據的使用。

(2)數據研發平臺IPaaS

數據研發平臺包括了數倉規劃、模型構建、指標規範、數據同步、數據開發、任務調度、監控告警等功能,可以理解為數據倉庫建設過程中所用到的相關技術與工具,而在這方面阿里有一個核心的產品Dataphin(智能數據構建與管理)是一款用於大數據平臺建設的智能引擎,提供數倉規劃、數據引入、規範定義、數據建模研發、數據資產管理、數據服務等的全鏈路智能數據構建及管理服務。對於數 據研發平臺IPaaS是否是對應Dataphin產品,這裡就不去探究了。

(3)數據中臺DaaS

數據中臺DaaS主要包含了垂直數據中心:面向各垂直行業應用的統一數據接入平臺OneClick;公共數據中心:面向公共數據中心以業務板塊+業務過程+分析維度架構的Onedata體系;萃取數據中心:面向業務對象+數據標籤的OneID體系;數據開放共享中心:面向應用及開放的統一數據服務中間件OneService。這四個“One”構成了阿里巴巴數據中臺的核心!

3、OneClick是個神馬鬼?

什麼是One Data體系?阿里數據中臺解讀

來源:2019阿里雲峰會上海站的《數據中臺實踐分享》

OneClick是架構在阿里各垂直應用上的數據統一採集/接入平臺,所以從概念上來看,OneClick就是傳統的ETL,負責異構數據源的在線或離線的數據的採集、轉換、清洗和裝載。但看了2019阿里雲峰會上海站的《阿里巴巴數據中臺實踐分享》PPT後,又覺得OneClick可能並不是或者不完全是傳統ETL的概念。如上圖:我們能夠從這個PPT中依然看到垂直數據中心,但卻沒有了OneClick的影子。所以,我理解OneClick可能只是垂直數據中心中的一個概念,我們看到阿里的數據生態包含了淘寶、天貓、聚划算、阿里媽媽、UC、盒馬、優酷土豆、高德、天氣、專利等。這些垂直應用數據多樣、結構複雜、實時性要求也不同,一個ETL工具並不能滿足其數據統一採集和接入的要求,可能還包括網絡爬蟲、文件傳輸等工具。

4、什麼是OneData體系?

什麼是One Data體系?阿里數據中臺解讀

來源:2019阿里雲峰會上海站的《數據中臺實踐分享》

OneData體系是阿里數據中臺的核心方法論,其包含了三個方面內容:OneModel 即建立企業統一的數據公共層,從設計、開發、部署和使用上保障了數據口徑規範和統一,實現數據資產全鏈路管理,提供標準數據輸出。OneID 即建立業務實體要素資產化為核心,實現全域鏈接、標籤萃取、立體畫像,其數據服務理念根植於心,強調業務模式。OneService 即數據被整合和計算好之後,需要提供給產品和應用進行數據消費,為了更好的性能和體驗,需要構建數據服務層,通過統一的接口服務化方式對外提供數據服務。

5、OneModel

什麼是One Data體系?阿里數據中臺解讀

來源:2019阿里雲峰會上海站的《數據中臺實踐分享》

在阿里雲棲社區上的一篇文章《OneModel體系能給數據中臺的建設帶來什麼?》中,是這樣描述OneModel的:OneModel方法論保障了數據唯一性的數據域、業務過程,以及在數據域、業務過程之下的指標、實體屬性等的結構性封裝、命名和定義。數據規範定義是在開發之前,以業務的視角進行數據的統一和標準定義,確保計算口徑一致、算法一致、命名一致,後續的數據模型設計和ETL開發都是在此基礎上進行的。OneModel方法論與我之前分享《數據治理系列3:數據標準管理》中的觀點是基本一致的,OneModel可以說是為數據標準化而生。

首先,數據模型的標準化。規範和統一業務定義、業務規則、字段命名、字段長度、字段類型等內容,本質上是元數據管理。主要包含三個方面:①業務元數據:對企業數據的業務定義、業務術語、業務規則進行標準化;②技術元數據:對數據的存儲位置、數據模型、數據庫表、字段長度、字段類型、ETL腳本、SQL腳本、接口程序、數據關係進行標準化;③管理元數據,對數據的管理屬性,包括管理部門、管理責任人、權限等進行標準化。後續的數據採集、處理、分析等操作都是基於數據模型標準化的基礎之上進行的。

其次,業務指標的標準化。主要是對企業業務指標所涉及的指標項的統一定義和管理,構建命名規範、口徑一致和算法統一的統計指標,為上層數據產品、應用和服務提供公共指標。據阿里巴巴公共數據平臺負責人介紹,阿里通過對30000多個數據指標進行了口徑的規範和統一,梳理後縮減為3000餘個,儘管工程浩大,但是此舉卻為阿里帶來了顯著的收效。

第三,主數據與參照數據的標準化。主數據是用來描述企業核心業務實體的數據,比如客戶、供應商、員工、產品、物料等;它是具有高業務價值的、可以在企業內跨越各個業務部門被重複使用的數據,被譽為企業的“黃金數據”。參考數據是用於將其他數據進行分類或目錄整編的數據,是規定數據元的域值範圍。在阿里的OneModel方法論中並沒有提及主數據與參照數據的標準化,這個是我《數據治理系列3:數據標準管理》中的觀點。同時,我認為阿里數據中臺的OneID體系其實就是幹了這個主數據管理的事情。

6、OneID

什麼是One Data體系?阿里數據中臺解讀

來源:2019阿里雲峰會上海站的《數據中臺實踐分享》

為什麼我說阿里數據中臺的OneID,其實本質上是主數據管理的事情?

對於什麼是主數據,什麼又是主數據管理,在我之前的文章中已多次分享,可以參考《數據治理系列4:主數據管理實施四部曲概論》、《主數據的3大特徵、4個超越和3個二八原則》、《主數據的前世今生,暢想未來!》。總之,主數據管理就是為了解決企業核心業務實體數據(客戶、供應商、物料、產品等)在不同系統中的一致性、完整性、相關性和精確性的問題,提升數據質量,從而支撐企業的業務協同和管理決策。

在阿里巴巴數據中臺官方宣傳資料中,我們看到這樣的定義:“OneID是以商業要素資產化為核心,實現全域鏈接、標籤萃取、立體畫像,數據應用服務整體解決方案。”這裡的商業要素就是消費者、企業、內容、商品、位置等核心業務實體數據,傳統上我們稱其為主數據。而OneID也叫數據萃取中心,就是通過標籤技術、知識圖譜技術、畫像技術在虛擬的網絡世界實現商業要素(主數據)的唯一身份識別,保證企業核心數據的身份唯一性、一致性、完整性、相關性和準確性。所以,OneID可以理解為主數據管理,只是用的技術更先進些罷了。

如果您也認同:“阿里數據中臺的OneID,本質上就是企業主數據管理”的這個觀點,請在文末點擊【再看】支持我。但我相信一定也有人反對這個觀點,因為在現行的主數據管理方案中,總體上還是趨於用標準、制度、流程、集成技術等手段解決主數據的問題,標籤體系、知識圖譜、畫像技術、混合雲技術等先進的技術目前還沒有大規模用在主數據管理領域,但是我相信這終將是主數據發展的趨勢!技術推動社會發展,主數據管理又豈能固步自封!

7、OneService

什麼是One Data體系?阿里數據中臺解讀

來源:2019阿里雲峰會上海站的《數據中臺實踐分享》

當數據已被整合和計算好之後,需要提供給產品和應用進行數據消費,為了更好的性能和體驗,需要構建數據服務層,通過接口服務化方式對外提供數據服務。OneService提供的數據服務主要有以下幾個方面:

主題式數據服務:按照不同的業務主題,組織形成統一的數據服務,並對外提供使用。我們在建設數據倉庫時,也會提到數據主題分析,其實就是將位於不同業務系統、不同數據庫的同一業務主題的數據彙集到一起,形成標準的數據服務供外部使用。例如:銷售主題,需要將企業的批發、零售、線上、線下、代理等等各個渠道的銷售數據彙集起來,這些數據的來源、數據結構、數據庫都可能不同。數據服務層架構在多種數據庫之上,屏蔽多數據源與多物理表,以業務化的模式進行服務編排,形成服務對外共享。

多樣化數據服務:數據服務層提供數據的查詢服務、聯機分析服務、實時數據在線查詢服務等,滿足用戶對數據的“看、用、查”等需求。

跨源數據服務:按照阿里數據中臺的分層設計模型(如:ODS、DWS、DWD、ADS),在每一層可能都採用不同的大數據組件,比如:Hive、HBASE、GP、ES、Redis、MySQL、Oracle等等,而業務上對數據的使用可能是跨數據庫的,而服務層提供的跨源數據服務,就是提取不同數據源的數據,按照業務需要進行編排,形成統一數據服務進行對外共享。

API網關服務:在按照阿里數據中臺官宣PPT並沒有提API網關服務,但結合以上我們對OneService體系的分析和理解,在數據服務層應該要有一個API網關服務實現數據服務在企業的共享和開放。API網關是對提供出去的服務的統一管理,包括:流量控制、認證授權、超時熔斷、安全控制、監控分析等,當然,這可能是另外一個層面上的內容了。

8、寫在最後

阿里巴巴數據中臺經過多年的沉澱,其技術體系非常龐大,並不能通過一篇文章就能說清楚的。我也只是根據阿里數據中臺對外公佈的一些資料,並結合自己對數據中臺的理解進行解讀分析的,理解不對的地方望指正。目前很多企業對數據中臺都躍躍欲試,但企業到底需要不需要數據中臺,需要什麼樣的數據中臺,需要每個企業想清楚。數據中臺固然千好萬好,但也需要有培育和滋養它的“土壤”。

作者:石秀峰 專注於數據領域知識分享:數據治理,數字化轉型,數據分析等


分享到:


相關文章: