10.16 BI、數據倉庫、數據湖和數據中臺內涵與差異

隨著大數據技術的不斷更新和迭代,數據管理工具得到了飛速的發展,相關概念如雨後春筍一般應運而生,如從最初決策支持系統(DSS)到商業智能(BI)、數據倉庫、數據湖、數據中臺等,這些概念特別容易混淆,本文對這些名詞術語及內涵進行系統的解析,便於讀者對數據平臺相關的概念有全面的認識。

數據倉庫

數據倉庫平臺逐步從BI報表為主到分析為主、到預測為主、再到操作智能為目標。

BI、数据仓库、数据湖和数据中台内涵与差异

商務智能(BI,Business Intelligence)是一種以提供決策分析性的運營數據為目的而建立的信息系統。是屬於在線分析處理:On Line Analytical Processing(OLAP),將預先計算完成的彙總數據,儲存於魔方數據庫(Cube) 之中,針對複雜的分析查詢,提供快速的響應。在前10年,BI報表項目比較多,是數據倉庫項目的前期預熱項目(主要分析為主的階段,是數據倉庫的初級階段),製作一些可視化報表展現給管理者。

  • 它利用信息科技,將分散於企業內、外部各種數據加以整合並轉換成知識,並依據某些特定的主題需求,進行決策分析和運算;

  • 用戶則通過報表、圖表、多維度分析的方式,尋找解決業務問題所需要的方案;

  • 這些結果將呈報給決策者,以支持策略性的決策和定義組織績效,或者融入智能知識庫自動向客戶推送。

1.1

數據倉庫基本定義

數據倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩定的(Non-Volatile)、反映歷史變化的(Time Variant)數據集合,用於支持管理決策和信息的全局共享。其主要功能是將組織透過資訊系統之聯機事務處理(OLTP)經年累月所累積的大量資料,透過數據倉庫理論所特有的資料儲存架構,作一有系統的分析整理,以利各種分析方法如聯機分析處理(OLAP)、數據挖掘(Data Mining)之進行,並進而支持如決策支持系統(DSS)、主管資訊系統(EIS)之創建,幫助決策者能快速有效的自大量資料中,分析出有價值的資訊,以利決策擬定及快速回應外在環境變動,幫助建構商業智能(BI)。[1]:引自全球數據倉庫之父 W.H.Inmon。

  • 所謂主題:是指用戶使用數據倉庫進行決策時所關心的重點方面,如:收入、客戶、銷售渠道等;所謂面向主題,是指數據倉庫內的信息是按主題進行組織的,而不是像業務支撐系統那樣是按照業務功能進行組織的。

  • 所謂集成:是指數據倉庫中的信息不是從各個業務系統中簡單抽取出來的,而是經過一系列加工、整理和彙總的過程,因此數據倉庫中的信息是關於整個企業的一致的全局信息。

  • 所謂隨時間變化:是指數據倉庫內的信息並不只是反映企業當前的狀態,而是記錄了從過去某一時點到當前各個階段的信息。通過這些信息,可以對企業的發展歷程和未來趨勢做出定量分析和預測。

BI、数据仓库、数据湖和数据中台内涵与差异

1.2

數據倉庫系統作用和定位

數據倉庫系統的作用能實現跨業務條線、跨系統的數據整合,為管理分析和業務決策提供統一的數據支持。數據倉庫能夠從根本上幫助你把公司的運營數據轉化成為高價值的可以獲取的信息(或知識),並且在恰當的時候通過恰當的方式把恰當的信息傳遞給恰當的人。

BI、数据仓库、数据湖和数据中台内涵与差异

數據倉庫針對實時數據處理,非結構化數據處理能力較弱,以及在業務在預警預測方面應用相對有限。

1.3

數據倉庫能提供什麼

BI、数据仓库、数据湖和数据中台内涵与差异

1.4

數據倉庫系統構成

數據倉庫系統除了包含分析產品本身之外,還包含數據集成、數據存儲、數據計算、門戶展現、平臺管理等其它一系列的產品。

BI、数据仓库、数据湖和数据中台内涵与差异

數據湖

數據湖(Data Lake)是Pentaho的CTO James Dixon提出來的(Pentaho作為一家BI公司在理念上是挺先進的),是一種數據存儲理念——即在系統或存儲庫中以自然格式存儲數據的方法。

2.1

維基百科對數據湖的定義

數據湖(Data Lake)是一個存儲企業的各種各樣原始數據的大型倉庫,其中的數據可供存取、處理、分析及傳輸。數據湖是以其自然格式存儲的數據的系統或存儲庫,通常是對象blob或文件。數據湖通常是企業所有數據的單一存儲,包括源系統數據的原始副本,以及用於報告、可視化、分析和機器學習等任務的轉換數據。數據湖可以包括來自關係數據庫(行和列)的結構化數據,半結構化數據(CSV,日誌,XML,JSON),非結構化數據(電子郵件,文檔,PDF)和二進制數據(圖像,音頻,視頻)。來源:維基百科。

目前,Hadoop是最常用的部署數據湖的技術,所以很多人會覺得數據湖就是Hadoop集群。數據湖是一個概念,而Hadoop是用於實現這個概念的技術。

BI、数据仓库、数据湖和数据中台内涵与差异

2.2

數據湖能給企業帶來多種能力

數據湖能給企業帶來多種能力,例如,能實現數據的集中式管理,在此之上,企業能挖掘出很多之前所不具備的能力。另外,數據湖結合先進的數據科學與機器學習技術,能幫助企業構建更多優化後的運營模型,也能為企業提供其他能力,如預測分析、推薦模型等,這些模型能刺激企業能力的後續增長。數據湖能從以下方面幫助到企業:

  • 實現數據治理(data governance)。

  • 通過應用機器學習與人工智能技術實現商業智能。

  • 預測分析,如領域特定的推薦引擎。

  • 信息追蹤與一致性保障。

  • 根據對歷史的分析生成新的數據維度。

  • 有一個集中式的能存儲所有企業數據的數據中心,有利於實現一個針對數據傳輸優化的數據服務。

  • 幫助組織或企業做出更多靈活的關於企業增長的決策。

2.3

數據倉庫與數據湖差異

  • 在儲存方面上,數據湖中數據為非結構化的,所有數據都保持原始形式。存儲所有數據,並且僅在分析時再進行轉換。數據倉庫就是數據通常從事務系統中提取。

  • 在將數據加載到數據倉庫之前,會對數據進行清理與轉換。在數據抓取中數據湖就是捕獲半結構化和非結構化數據。而數據倉庫則是捕獲結構化數據並將其按模式組織。

  • 數據湖的目的就是數據湖非常適合深入分析的非結構化數據。數據科學家可能會用具有預測建模和統計分析等功能的高級分析工具。而數據倉庫就是數據倉庫非常適用於月度報告等操作用途,因為它具有高度結構化。

  • 在架構中數據湖通常,在存儲數據之後定義架構。使用較少的初始工作並提供更大的靈活性。在數據倉庫中存儲數據之前定義架構。

表1.數據倉庫、數據湖和數據湖的區別如下:

<table><tbody>

數據倉庫

數據湖

主要處理歷史的、結構化的數據,而且這些數據必須與數據倉庫事先定義的模型吻合。

能處理所有類型的數據,如結構化數據,非結構化數據,半結構化數據等,數據的類型依賴於數據源系統的原始數據格式。

處理結構化數據,將它們或者轉化為多維數據,或者轉換為報表,以滿足後續的高級報表及數據分析需求。

擁有足夠強的計算能力用於處理和分析所有類型的數據,分析後的數據會被存儲起來供用戶使用。

數據倉庫通常用於存儲和維護長期數據,因此數據可以按需訪問。

數據湖通常包含更多的相關的信息,這些信息有很高概率會被訪問,並且能夠為企業挖掘新的運營需求。

/<tbody>/<table>

數據中臺

3.1

產生的背景

企業在過去信息化的歷程中形成了大量生產經營及專業業務應用成果,同時也累積了大量的企業數據資產。限於傳統的數據倉庫技術手段,數據管理和分析能力成為信息化工作中的短板。企業信息系統眾多,系統管理獨立,數據存儲分散,橫向的數據共享和分析應用僅由具體業務驅動,難以對全局數據開展價值挖掘,從規模上和效果上都無法真正體現集團龐大數據資產的價值。市場競爭和產業鏈日益全球化,企業不只滿足於內部數據的分析,更要通過互聯網、微信、APP等新技術手段結合外部市場數據進行整體分析。

(1)傳統的數據倉庫不能滿足數據分析需求

企業在數據分析應用方面呈現“五大轉變”(從統計分析向預測分析轉變、從單領域分析向跨領域轉變、從被動分析向主動分析轉變、從非實時向實時分析轉變、從結構化數據向多元化轉變),並且對統一的數據中臺平臺訴求強烈,對數據中臺的運算能力、核心算法、及數據全面性提出了更高的要求。

(2)數據中臺的處理架構發生了變化。

一是以Hadoop、Spark等分佈式技術和組件為核心的“計算&存儲混搭”的數據處理架構,能夠支持批量和實時的數據加載以及靈活的業務需求。二是數據的預處理流程正在從傳統的ETL結構向ELT轉變。傳統的數據倉庫集成處理架構是ETL結構,這是構建數據倉庫的重要一環,即用戶從數據源抽取出所需的數據,經過數據清洗,將數據加載到數據倉庫中去。而大數據背景下的架構體系是ELT結構,其根據上層的應用需求,隨時從數據中臺中抽取想要的原始數據進行建模分析。

3.2

數據中臺建設是數字化轉型的關鍵支撐

數據中臺成為熱點,“中臺”這個概念,是相對於前臺和後臺而生,是前臺和後臺的鏈接點,將業務共同的工具和技術予以沉澱。數據中臺是指數據採集交換、共享融合、組織處理、建模分析、管理治理和服務應用於一體的綜合性數據能力平臺,在大數據生態中處於承上啟下的功能,提供面向數據應用支撐的底座能力。

廣義上來給數據中臺一個企業級的定義:“聚合和治理跨域數據,將數據抽象封裝成服務,提供給前臺以業務價值的邏輯概念”。

BI、数据仓库、数据湖和数据中台内涵与差异

中臺戰略核心是數據服務的共享。中臺戰略並不是搭建一個數據平臺,但是中臺的大部分服務都是圍繞數據而生,數據中臺是圍繞向上層應用提供數據服務構建的,中臺戰略讓數據在數據平臺和業務系統之間形成了一個良性的閉環,也就是實現應用與數據之間解藕,並實現緊密交互。

  • 敏捷前臺:一線作戰單元,強調敏捷交互及穩定交付的組織能力建設。

  • 業務中臺:能力固化與賦能,固化通用能力,賦能前線部隊,提升配置效率,加快前線響應,產品化業務化,開闢全新生態。

  • 數據中臺:資產整合與共享,整合多維數據,統一資產管理,連通數據孤島,共享數據資源,深入挖掘數據,盤活資產價值。

  • 穩定後臺:

    以共享中心建設為核心,為前中臺提供專業的內部服務支撐。

3.3

數據中臺定義及處理架構

數據中臺是指通過企業內外部多源異構的數據採集、治理、建模、分析,應用,使數據對內優化管理提高業務,對外可以數據合作價值釋放,成為企業數據資產管理中樞。數據中臺建立後,會形成數據API,為企業和客戶提供高效各種數據服務。

BI、数据仓库、数据湖和数据中台内涵与差异

數據中臺整體技術架構上採用雲計算架構模式,將數據資源、計算資源、存儲資源充分雲化,並通過多租戶技術進行資源打包整合,並進行開放,為用戶提供“一站式”數據服務。

利用大數據技術,對海量數據進行統一採集、計算、存儲,並使用統一的數據規範進行管理,將企業內部所有數據統一處理形成標準化數據,挖掘出對企業最有價值的數據,構建企業數據資產庫,提供一致的、高可用大 數據服務。

數據中臺不是一套軟件,也不是一個信息系統,而是一系列數據組件的集合,企業基於自身的信息化建設基礎、數據基礎以及業務特點對數據中臺的能力進行定義,基於能力定義利用數據組件搭建自己的數據中臺。

3.4

數據中臺帶來價值

數據中臺對一個企業的數字化轉型和可持續發展起著至關重要的作用。數據中臺為解耦而生,企業建設數據中臺的最大意義就是應用與數據解藕。這樣企業就可以不受限制地按需構建滿足業務需求的數據應用。

  • 構建了開放、靈活、可擴展的企業級統一數據管理和分析平臺, 將企業內、外部數據隨需關聯,打破了數據的系統界限。

  • 利用大數據智能分析、數據可視化等技術,實現了數據共享、日常報表自動生成、快速和智能分析,滿足集團總部和各分子公司各級數據分析應用需求。

  • 深度挖掘數據價值,助力企業數字化轉型落地。實現了數據的目錄、模型、標準、認責、安全、可視化、共享等管理,實現數據集中存儲、處理、分類與管理,建立大數據分析工具庫、算法服務庫,實現報表生成自動化、數據分析敏捷化、數據挖掘可視化,實現數據質量評估、落地管理流程。

傳統數據倉庫與數據中臺的差異點

BI、数据仓库、数据湖和数据中台内涵与差异

作為工業企業,一般採用混搭架構

BI、数据仓库、数据湖和数据中台内涵与差异

結論

本文對數據倉庫、數據湖、數據中臺等內涵作了詳細說明,便於讀者更好的理解和掌握數據領域相關概念。

最後總結一點:數據中臺更好的支撐數據預測分析、跨領域分析、主動分析、實時分析、多元化結構化數據分析,數據中臺建設是我們企業數據服務和共享奠定重要的基礎,可以加速從數據到價值的過程,打造相應業務

能力。(鳴謝:蔡春久先生給予專業指導)

CIO之家 www.ciozj.com 微信公眾號:imciow


分享到:


相關文章: