inmon & kimball 數據倉庫&數據集市(1)理論

概述

比爾·恩門(Bill Inmon),被稱為數據倉庫之父,最早的數據倉庫概念提出者,是“企業信息工廠”的合作創始人與“政府信息工廠”的創始人。

他發佈過很多文章和數據,最著名的要數“Building the Data Warehouse”(《數據倉庫的建立》),也正是這本書為恩門贏得“數據倉庫之父”的殊榮。

其在書中給出了數據倉庫的概念,隨後有精確的指出數據倉庫是企業管理和決策中面向主題的、集成的、與時間相關的、非易變的數據集合。

而相對的,《企業信息化工廠》相對完善和精確的描述了數倉的建設

inmon 主張自上而下建立數據倉庫,以第三範式進行數據倉庫模型設計

inmon的生活好友,拉爾夫·金博爾(Ralph Kimball)博士出版了他的第一本書“The DataWarehouse Toolkit”(《數據倉庫工具箱》),主張自下而上的方式,力推數據集市建設。


inmon和kimball 都主張 數據倉庫中的數據應該是淨化的、一致的、並且不受到其來源的遺留系統和 OLTP 系統設計的牽制


主張(分歧)


Bill Inmon

  • 將數據倉庫定義為“一個面向主題的、集成的、隨時間變化的、非易變的用於支持管理的決策過程的數據集合”(Building the data warehouse,第 2 版,第 33 頁)。
  • 通過“面向主題”表示應該圍繞主題來組織數據倉庫中的數據,例如客戶、供應商、產品等等。
  • 每個主題區域僅僅包含該主題相關的信息。
  • 數據倉庫應該一次增加一個主題,並且當需要容易地訪問多個主題時,應該創建以數據倉庫為來源的數據集市。

換言之,某個特定數據集市中的所有數據都應該來自於面向主題的數據存儲。

Inmon 的方法包含了更多上述工作而減少了對於信息的初始訪問。但他認為這個集中式的體系結構持續下去將提供更強的一致性和靈活性,並且從長遠來看將真正節省資源和工作。


Ralph Kimball

  • “數據倉庫僅僅是構成它的數據集市的聯合”(Figure 2,The Data Warehouse Lifecycle Toolkit,第 27 頁)
  • 可以通過一系列維數相同的數據集市遞增地構建數據倉庫
  • 每個數據集市將聯合多個數據源來滿足特定的業務需求
  • 通過使用“一致的”維,能夠共同看到不同數據集市中的信息,這表示它們擁有公共定義的元素。

Kimball的方法將提供集成的數據來回答組織迫切的業務問題並且要快於Inmon的方法。Inmon的方法是隻有在構建幾個單主題區域之後,集中式的數據倉庫才創建數據集市。而Kimball認為該方法缺乏靈活性並且在現在的商業環境中所花時間太長。


inmon數據倉庫

倉庫特點

面向主題

數據倉庫的特性是按照企業操作過程的各個主要環節組建的。諸如 客戶、產品、供應商、交易、訂貨、會計、發貨等等

所謂的面向主題,就是數據按指定的主題域組織數據,同一個主題域的表由一個公共建碼聯繫起來


數據集成

應用問題的設計人員歷經多年制定出來的不同的設計決策有很多很多種不同的表示方法,

沒有什麼應用在編碼、命名習慣、實際屬性、屬性度量等方面是一致的,各個應用問題設計

員自由地做出他或她自己的設計決策。

當數據進入數據倉庫時,要採用某種方法來消除應用問題中的許多不一致性。例如 “性別”的編碼,在數據倉庫中是編碼為m / f還是1 / 0並不重要,重要的是,

無論什麼原始應用問題,無論數據倉庫如何進行編碼,在數據倉庫中應該一致地進行編碼


對所有的應用設計問題都要考慮同樣的一致性處理,比如命名習慣、鍵碼結構、屬性度量以及數據特點


非易失(易變)的(相對穩定點的)

操作型數據正規地是一次訪問和處理一個記錄。可以對操作型環境中的數據進行更新。但數據倉庫中的數據通常是一起載入與訪問的,在數據倉庫環境中並不進行一般意義上的數據更新。


反映數據歷史變化

  • 數據倉庫中的數據時間期限要遠遠長於操作型系統中的數據時間期限。操作型系統的時間期限一般是不多於最近半年,而數據倉庫中數據的時間期限通常是forever。
  • 操作型數據庫含有“當前值”的數據,這些數據的準確性在訪問時是有效的,同樣當前值的數據能被更新。而數據倉庫中的數據僅僅是一系列某一時刻生成的複雜的快照。
  • 操作型數據的鍵碼結構可能包含也可能不包含時間元素,如年、月、日等。而數據倉庫的鍵碼結構總是包含某時間元素

包含彙總數據和詳細數據

數據倉庫除了包含詳細數據之外,還包含2種彙總數據: 1、簡檔記錄 2、公共彙總數據

簡檔記錄就是根據某個主體彙總個體一段時間信息成一個摘要。是倉庫常見彙總

公共彙總數據通常以部門為單位組織彙總數據,但適合整個企業範圍應用。比如財務,佣金,風控


inmon & kimball 數據倉庫&數據集市(1)理論


Kimball數據倉庫

目標

  • 必須使得組織機構的信息變得容易存取
  • 必須一致的扎按時組織機構的信息
  • 必須有廣泛的適應性和便於修改
  • 必須發揮安全堡壘作用以保護信息資產
  • 必須在同推進有效決策方面承擔最基本的角色
  • 被業務群體提接受的前提是被認定為是成功的


組成

inmon & kimball 數據倉庫&數據集市(1)理論

操作型源系統

是獲取行業業務記錄的操作系統,是數倉之外的部分,一般情況下只對源系統放過來的數據內容及其格式做少量的控制處理。

數據聚集環節

包括數據存儲和ETL過程,一旦數據被抽取到聚集環節,便意味著大量可能的轉換,這包括數據的清理,多數據源的組合,重複數據的去除以及倉庫關鍵字的分配,這些轉換是數據加載到數據倉庫環節的準備。

數據展示

進行數據組織,存儲和向用戶、報表撰寫、其他分析型應用提供直接處查詢操作的場所。數據聚集環節業務是接觸不到的,這樣一來數據展示環節就成了業務眼中的數據倉庫。

一般來說,展示環節就是一系列數據中心的集成,一個數據中心只展示一業務處理過程得到的數據,這些業務處理的內容不受機構職能劃分的限制

要點

  • 數據以維度形式展示,存儲和訪問。
  • 維度模型和3NF建模不同,3NF是一種以消除數據冗餘為追求目標的設計,珊瑚橘被劃分成成很多離散的實體,而這些實體形成關係型裡的一張表。
  • 維度建模採用一種將設計目標放在用戶的易於理解性,查詢高性能和修改的靈活性等等方面對數據進行封裝

數據存取工具

那些提供給業務用戶操作數據展示環節,以進行分析決策制定的各種功能


分享到:


相關文章: