我所經歷的大數據平臺發展史(一):非互聯網時代 • 上篇[轉]

編者按:本文是松子(李博源)的大數據平臺發展史系列文章的第一篇(共四篇),本系列以獨特的視角,比較了非互聯網和互聯網兩個時代以及傳統與非傳統兩個行業。是對數據平臺發展的一個回憶,對非互聯網、互聯網,從數據平臺的用戶角度、數據架構演進、模型等進行了闡述。



前言,這個數據平臺發展史僅是自己經歷過由傳統數據平臺到互聯網數據平臺發展一些簡單回憶,文章引用了歷史項目 & 平臺規劃架構,在這裡不做更深入描述。

我是從 2000 年開始接觸數據倉庫,大約 08 年開始進入互聯網行業,那時在互聯網接觸到數據平臺與傳統第三代數據架構還是有很大的類似之處,隨著互聯網的突飛猛進,每一次的技術變革都帶來一場從技術、架構、業務的漸進式變革,到今天互聯網、非互聯網的數據平臺架構已經差異非常大。

回顧早期的企業環境,企業的生產與服務是一個很長週期,導致業務數據呈現一種粗粒度模式。隨著互聯網的快速滲透從早期的 PC 終端到“襠下“的 移動終端,對用戶的需求與服務週期將逐漸的縮短,業務量級、數據類型多樣化與存儲的暴增,對應著技術、架構、業務呈現出迅猛發展,相應的數據沉澱與積累也成指數暴漲。

從”數據倉庫“ 詞開始到現在的“大數據”,中間經歷了太多的知識、架構模式的演進與變革,比如說“數據倉庫、海量數據、大數據”等。(備註:數據倉庫一般指的是:在相當長的時間內堆積數據,僅僅需要處理大量數據請求中的少部分的系統。數據倉庫不等同於“海量數據” 。恰恰相反,而是其子集。海量數據也包含:通過大量的連接提供每秒百萬次服務請求的系統。大數據是海量數據 + 複雜類型數據基礎上的大分析、高寬帶、大內容)。

數據倉庫在國外的發展史多年,大約在 98-99 年左右進入中國,到現在歷了大約十多年發展。到了今天尤其是在非互聯網、互聯網企業兩個領域數據平臺有顯著的區別。 本文將以非互聯網時代、互聯網時代數據平臺發展角度來講述。

很多從傳統企業數據平臺轉到互聯網同學是否有感覺,非互聯網企業、互聯網企業的數據平臺所面向用戶群體是不同的?這兩類的數據平臺的建設、使用用戶又有變化?數據模型設計又有什麼不同呢?

我們先來看用戶群體的區別,下邊整理了 2 個圖來講述用戶群體相關區別。

一、用戶群體

非互聯網數據平臺用戶:

(點擊放大圖像)

我所經歷的大數據平臺發展史(一):非互聯網時代 • 上篇[轉]

  • 企業的 boss、運營的需求主要是依賴於報表、商業智能團隊的數據分析師去各種分析與挖掘探索;
  • 支撐這些人是 ETL 開發工程師、數據模型建模、數據架構師、報表設計人員 ,同時這些角色又是數據平臺數據建設與使用方。
  • 數據平臺的技術框架與工具實現主要有技術架構師、JAVA 開發等。
  • 用戶面對是結構化生產系統數據源。

互聯網數據平臺用戶:

(點擊放大圖像)

我所經歷的大數據平臺發展史(一):非互聯網時代 • 上篇[轉]

  • 互聯網企業中員工年齡比非互聯網企業的要年輕、受教育程度、對計算機的焦慮程度明顯比傳統企業要低、還偶遇其它各方面的緣故,導致了數據平臺所面對用戶群體與非互聯網數據平臺有所差異化;
  • 互聯網數據平臺的使用與建設方是來自各方面的人,數據平臺又是技術、數據產品推進建設的。
  • 分析師參與數據平臺直接建設比重增加。
  • 原有的數據倉庫開發與模型架構師的職能也從建設平臺轉為服務與諮詢.
  • 用戶面對是數據源多樣化,比如日誌、生產數據庫的數據、視頻、音頻等非結構化數據 。

從這用戶群體角度來說這非互聯網、互聯網的數據平臺用戶差異性是非常明顯,互聯網數據平臺中很多理論與名詞都是從傳統數據平臺傳遞過來的,本文將會分別闡述非互聯網、互聯網數據平臺區別。

(點擊放大圖像)

我所經歷的大數據平臺發展史(一):非互聯網時代 • 上篇[轉]

非互聯網時代

自從數據倉庫發展起來到現在,基本上可以分為五個時代、四種架構(大家可以詳細翻一下數據倉庫的發展歷史,在這裡僅作科普性介紹)

  • 約在 1991 年前的全企業集成
  • 1991 年後的企業數據集成 EDW 時代
  • 1994 年 -1996 年的數據集市
  • 1996-1997 年左右的兩個架構吵架
  • 1998 年 -2001 年左右的合併年代

五個時代劃分是以重要事件或代表人物為標誌,比如說在企業數據集成 EDW 時代其重要代表人物是 Bill Inmon 代表作數據倉庫一書,更重要是他提出瞭如何建設數據倉庫的指導性意見與原則。他遵循的是自上而下的建設原則,這個導致後來數據倉庫在千禧年傳到中國後的幾年內,幾個大實施廠商都是遵守該原則的實施方法,後來的數據倉庫之路等各種專業論壇上針對數據倉庫 ODS-EDW 的結構討論 (備註:罈子裡有個叫吳君,他發表了不少這方面的文章)。

在國內項目實施中 IBM、Terdata、埃森哲、菲奈特 (被東南收購,東南後來某些原因而倒閉) 等很多專業廠商在實施中對 ODS 層、EDW 層都賦予了各種不同的功能與含義 (備註:在後邊的架構案例解)。

在數據集市年代其代表人物是 Ralph kilmball,他的代表作是”The Data Warehouse Toolkit“,在數據倉庫的建設上 Ralph kilmball 提出的是自下而上的建設方法,剛好與 Bill Innmon 的建設方法相反,這兩種架構方式各有千秋,所以就進入了爭吵時代。

我整理了一個表格是這兩位大師優缺點:

(點擊放大圖像)

我所經歷的大數據平臺發展史(一):非互聯網時代 • 上篇[轉]

隨著數據倉庫的不斷實踐與迭代發展,從爭吵期進入到了合併的時代,其實爭吵的結果要麼一方妥協,要麼新的結論出現,果然 Bill inmon 與 Ralph kilmball 的爭吵沒有結論,乾脆提出一種新的架構包含對方,也就是後來 Bill Inmon 提出的 CIF(corporation information factory) 架構模式、這也算是數據倉庫的第三代架構,其架構特點是把整個架構劃分為不同層次,把每一層次的定義與功能都詳細的描述下來,從 04 年後國內的很多數據倉庫架構、甚至互聯網剛開始搞數據平臺數據倉庫架構模式也是這一種。

(點擊放大圖像)

我所經歷的大數據平臺發展史(一):非互聯網時代 • 上篇[轉]

數據倉庫第一代架構

(開發時間 2001-2002 年)

海爾集團的一個 BI 項目,架構的 ETL 使用的是 微軟的數據抽取加工工具 DTS,老人使用過微軟的 DTS 知道有哪些弊端,後便給出了幾個 DTS 的截圖。

功能:進銷存分析、閉環控制分析、工貿分析等

硬件環境:

  • 業務系統數據庫:DB2 for Windows,SQL SERVER2000,ORACLE8I
  • 中央數據庫服務器:4*EXON,2G,4*80GSCSI
  • OLAP 服務器:2*PIV1GHZ,2G,2*40GSCSI
  • 開發環境:VISUAL BASIC,ASP,SQL SERVER 2000

(點擊放大圖像)

我所經歷的大數據平臺發展史(一):非互聯網時代 • 上篇[轉]

(點擊放大圖像)

我所經歷的大數據平臺發展史(一):非互聯網時代 • 上篇[轉]

(點擊放大圖像)

我所經歷的大數據平臺發展史(一):非互聯網時代 • 上篇[轉]

(點擊放大圖像)

我所經歷的大數據平臺發展史(一):非互聯網時代 • 上篇[轉]

數據倉庫第二代架構

(點擊放大圖像)

我所經歷的大數據平臺發展史(一):非互聯網時代 • 上篇[轉]

這是上海通用汽車的一個數據平臺,別看複雜,嚴格意義上來講這是一套 EDW 的架構、在 EDS 數據倉庫中採用的是準三範式的建模方式去構建的、大約涉及到十幾種數據源,建模中按照某一條主線把數據都集成起來

這個數據倉庫平臺計劃三年的時間構建完畢,第一階段計劃構建統統一生性週期視圖、客戶統一視圖的數據,完成對數據質量的摸底與部分實施為業務分析與信息共享提供基礎平臺。第二階段是完成主要業務數據集成與視圖統一,初步實現企業績效管理。第三階段全面完善企業級數據倉庫,實現核心業務的數據統一。

在第一階段數據倉庫中的數據再次通過階梯型高度聚合進入到數據集市 DM(非挖掘集市)中,完成對業務的支撐。

數據的 ETL 採用 datastage 工具開發(備註 大約 06 年我寫了國內最早的版本 datastage 指南 大約 190 頁叫“datastage 學習版文檔”。後來沒再堅持下來)。

數據集市架構

(點擊放大圖像)

我所經歷的大數據平臺發展史(一):非互聯網時代 • 上篇[轉]

(點擊放大圖像)

我所經歷的大數據平臺發展史(一):非互聯網時代 • 上篇[轉]

這個是國內某銀行的一套數據集市,這是一個典型數據集市的架構模式、面向客戶經理部門的考慮分析。

數據倉庫混合性架構 (Cif)

(點擊放大圖像)

我所經歷的大數據平臺發展史(一):非互聯網時代 • 上篇[轉]

(點擊放大圖像)

我所經歷的大數據平臺發展史(一):非互聯網時代 • 上篇[轉]

這是太平洋保險的數據平臺,目前為止我認識的很多人都在該項目中呆過,當然是保險類的項目。

回過頭來看該平臺架構顯然是一個混合型的數據倉庫架構。它有混合數據倉庫的經典結構,每一個層次功能定義的非常明確。

ODS 層 支撐單一的客戶視圖,是一個偏操作行的做唯一客戶識別的,同時提供高可用戶性客戶主信息查詢。

EDW 層基於 IIW(IBM 的通用模型去整理與實施)最細粒度、原子、含歷史的數據,也支持查詢。

各業務數據集市 (DM) 面向詳細業務,採用雪花 / 星型模型去做設計的支撐 OLAP、Report、儀表盤等數據展現方式。

新一代架構 OPDM 操作型數據集市 (倉庫)

OPDM 大約是在 2011 年提出來的,嚴格上來說,OPDM 操作型數據集市(倉庫)是實時數據倉庫的一種,他更多的是面向操作型數據而非歷史數據查詢與分析。

在這裡很多人會問到什麼是操作型數據?首先來看操作型數據支持的企業日常運作的比如財務系統、Crm 系統、營銷系統生產系統,通過某一種機制實時的把這些數據在各孤島數據按照業務的某個層次有機的自動化整合在一起,提供業務監控與指導。在 2016 年的今天看來 OPDM 在互聯網很多企業已經實現了,但是在當時的技術上還是稍微困難點的。



下篇,我們將講述非互聯網數據平臺的核心數據模型。敬請關注;

原文地址:https://www.infoq.cn/article/the-development-history-of-big-data-platform


分享到:


相關文章: