數據人的新風口:數據中臺瞭解一下!

朋友,還在為多個數據庫而煩惱嗎?

朋友,還在為系統的龐大而思緒如麻嗎?

朋友,還在為老舊架構修修補補嗎?

也許你沒有聽說過數據倉庫,也許你已經失去了上一個風口,那麼做數據的你,絕對不能失去數據中臺這個風口!

數據人的新風口:數據中臺瞭解一下!


文案:啥啥啥?數據中臺是個什麼鬼?

不知道沒關係,今天我們就來扒一扒,這個風口上的數據中臺是個什麼東西~

NO.1 數據中臺的前身——數據倉庫

數據倉庫(DataWarehouse),是為了企業所有級別的決策制定計劃過程,提供所有類型數據類型的戰略集合。一般情況而言,數據倉庫的數據實時性不強,他往往來源於許多實時數據庫,在實時業務數據的基礎上進行數據建模,面向主題,屏蔽數據細節,以要看什麼,就怎麼建倉作為數據倉庫建模和建倉的基礎思路。

與數據庫要求的實時性不同,業務往往分析的時候需要連續性和時間,這就意味著數據倉庫不需要很強的實時性,但是會對同一維度下的一大批數據進行統一的分析和計算。

很多人分不清數據庫和數據倉庫的區別,這裡就用一個表格來解釋數據庫和數據倉庫之間的不同點。

數據人的新風口:數據中臺瞭解一下!


所以簡單來說,數據倉庫還是以分析為主,實時性偏低但分析程度高,而數據庫還是以實時響應為主,重點是記錄所有的操作信息。

NO.2 風口上的豬——數據中臺

數據中臺最先由阿里提出,將數據倉庫中面向指標的設計思路進行二次升級,提出面向業務的一站式數據服務平臺,這個數據服務平臺就是數據中臺。這意味著,數據中臺不是一個單純的體系架構,他是面向業務的,沒有業務就沒有數據中臺的概念。

同時數據中臺也不是單單的一個平臺,在他的背後,是對海量數據的採集、計算、存儲和加工。也就是說,可以把數據中臺想想成一個廚房,原材料就是各個地方的數據源,數據中臺要做的是,調研最上面的不同系統的業務需求(相當於廚房看看這個餐館來些什麼人),通過不同的業務分析,建立不同的業務場景(確定菜單),然後對不同的數據進行加工(洗菜做飯),然後等待上層系統的調用(等待小二上菜),由於數據源可能來自於不同的地方,數據格式,數據存儲方式等等都可能不同,因此數據中臺還需要統一標準和口徑,在數據抽取的過程中進行格式的轉換,保障所有的數據標準化和統一化,也方便後續的數據計算,數據查詢接口的統一標準化。

數據人的新風口:數據中臺瞭解一下!


NO.3 數據中臺——建立方式

從一開始我們就提到,數據中臺是一個以業務為核心導向,海量數據進行採集、計算、存儲、加工為一體的服務平臺,因此建立數據中臺主要分為以下幾個步驟。

1.數據採集

和數據倉庫一樣,數據中臺的核心還是數據,所謂巧婦難為無米之炊,沒有數據的數據中臺是不成立的。因此搭建數據中臺的第一步是對數據進行收集,這方面的收集需要以數據多樣性作為數據知道思想,儘可能的把與業務相關的所有數據進行數據的收集,做到多業務、多終端、多形態的“三多”收集。

2.業務架構分析搭建

有了數據,接下來需要研究的就是,這些數據可以幹什麼。數據中臺往往需要從最上層的業務系統著手,而一個數據中臺一般服務多個業務系統,各個業務系統所要的目的都不一樣,因此對於數據模型建立,不能單純的定製化,而是要分類、分層,將數據分層統一基礎層、公共中間層和多元應用層,儘可能的複用數據,並且通過數據指標結構化的方式統一輸出口徑。

3.數據預處理加工和存儲

架構分析清楚,整體的數據來源也已經確定了,那麼就是按照搭建的架構進行一層層的築瓦搭磚。由於數據源是各個不同的來源,因此再搭建統一基礎層的時候,需要將基礎數據進行格式化的統一,在建立數據的同步任務時,要結合業務,在基本的數據預處理的基礎上,增加自定義規則和修復,並且通過監控任務的方式對任務進行實時監控,一旦數據出錯率超過預警值,將停止任務併發出警報。這個過程是在數據還沒有導進來的時候就應該有設計,在後續運維的過程中,也要實時check,保障數據同步的一致性。

4.數據價值萃取

在經過上一層的基礎數據查詢之後,數據已經以規整的方式進入數據中臺,並且構建了統一基礎層。但原始數據如果直接暴露接口對外查詢,一方面會導致查詢sql編寫過於複雜,加大數據的計算的複雜程度,提高計算成本和運維成本;另一方面,大量的數據連接計算會導致數據計算引擎的不堪重負,同時拖慢運行效率,這些作為數據人員來說都是不可忍受的。因此,數據中臺要求進行公共中間層的搭建,用現有的數據,分析上層業務指標,通過不同的維度進行數據的聚合。這一步非常重要,由於數據中臺要求表儘可能的不重複,以及表一旦創建就不能進行表結構的修改,這就要求進行數據建模的時候,出了要滿足上游業務系統的現有要求,還要與上游系統反覆溝通,對預想的指標進行分類,將相關性大的指標進行數據字段了預留,防止大量的重複建表導致的數據冗餘。

5.數據統一主題式服務

數據公共層搭建好之後,需要進行數據應用層的搭建,這個搭建不再贅述。將數據搭建完成後,就是對數據的輸出進行考慮。作為一個數據中臺,需要分析上游系統的業務分析方式,在此基礎上進行數據出口的統一化,例如,上游系統以BI系統為主,那麼搭建數據服務查詢引擎,方便SQL調用會好一些;如果以內部數據分析為主,那麼需要搭建查詢接口,以API調用的方式進行查詢會更有效率。總的來說,數據中臺可以支持多種數據輸出方式,但是無論是哪種,都是為了面向業務統一數據出口與數據查詢邏輯,屏蔽數據源和多物理表。

從上述5步曲,數據中臺的搭建就基本完成,實現了從數據流入到數據產出的所有過程。再次強調的是,數據中臺一定是面向業務的,任何一個數據中臺都需要有業務場景和業務需求,在這樣的基礎上才會有穩定的輸出。

通過這篇文章,是不是對數據中臺有了一個新的瞭解和認識呢?每天一個新風口,數據人,衝鴨!

對大數據感興趣的請搜索關注公眾號“數據星河”,即可獲取免費的大數據學習資料。


分享到:


相關文章: