阿里架構師一文講透數據分析平臺建設流程,看完秒懂

文末有福利~

大數據時代,幾乎每一個企業都對數據分析平臺趨之若鶩,尤其是今年,更多的企業主意識到了數據所具有的的極大商業價值,以及其作為支撐企業信息智能化的無形資產。

通常來說,企業內部的運營和業務系統每天會積累下大量歷史數據,很多企業最多是對一些零散的數據進行淺層次的分析,真正的海量數據其實並沒有得到真正有效的分析利用。

同時隨著系統的不斷增加和積累,沉澱在系統深處的數據也更加難以提取和整合,後期的報表展示和可視化分析也就成了空殼應用。

所以數據分析平臺的建設就十分必要了,一方面它可以匯通企業的各個業務系統,從源頭打通數據資源,另一方面也可以實現從數據提取、集成到數據清洗、加工、可視化的一站式分析,幫助企業真正從數據中提取價值,提高企業的經營能力。

不得說阿里很有戰略遠見,2015年底就宣佈搭建“中臺事業群”,在縮減開支,優化內部架構,提高工作效率,精細化運營產生了不小的作用,這也就是數據分析平臺的作用。

神秘的數據分析平臺究竟是什麼?

通俗一點說,數據分析平臺就是將公司所有的數據進行進行收集整理,包括系統數據、業務數據等等,在統一的數據框架下實現對數據的挖掘和分析,最後通過可視化的手段進行數據展示。

因為數據分析平臺涉及的組件眾多、功能複雜,如何將其有機的結合起來是其建設過程中最關鍵的核心。我們不妨以某集團的數據分析平臺為例,來看一下具體的數據分析平臺架構是什麼樣的:

阿里架構師一文講透數據分析平臺建設流程,看完秒懂

在搭建數據分析平臺之前,要先明確業務需求場景以及用戶的需求,通過大數據分析平臺,想要得到哪些有價值的信息,需要接入的數據有哪些,明確基於場景業務需求的數據平臺要具備的基本的功能,以上圖為例從下至上可分為四個層次:

  • 數據採集層:底層就是各種數據源,主要是對企業底層數據的採集和解析,將零散的數據整合起來,包括企業的核心業務數據、用戶數據、日誌數據、集團數據等等,通常有傳統的ETL離線採集和實時採集兩種方式;
  • 數據儲存和處理層:有了數據底層的數據,然後根據需求和場景的不同進行數據預處理,儲存到一個合適的持久化儲存層中,比如說OLAP、機器學習、數據庫等等;
  • 數據分析層:這裡就要用到BI分析系統,比如FineBI、python等,如果是傳統的數據挖掘還有SPSS,這一層主要是對數據進行加工,然後進行深層次的分析和挖掘。
  • 數據應用層:根據業務需求不同劃分出不同類別的應用,主要是對最終的數據進行展示和可視化,如上圖的數據報表、儀表板、數字大屏、及時查詢等等。

總結來說,企業對數據、效率要求的逐步提高,也給大數據提供了展現能力的平臺,企業構建大數據平臺,歸根到底是構建企業的數據資產運營中心,發揮數據的價值,支撐企業的發展。

數據分析平臺真的有必要嗎?

在企業在進行數據分析平臺建設之前,經常會有一個疑問:企業數據系統每天都在正常跑數據,業務系統也都正常穩定,那我們還需要數據分析平臺嗎?

答案是當然需要,在實際的企業數據管理中,業務系統往往不是單一的,而是多源的。

業務人員看似每天都在用業務數據,但實際上彼此的數據都是相互割裂、不打通的,如果想要實現數據分析,就要從多系統中取數,然後手動整合分析,這個顯然是不能靠人力就能做到的。

這就叫做數據孤島,這個問題的難點在於需要跨數據源進行分析,不同數據源之間的對接很難打通;其次,企業的數據一定是海量的,有的還需要二次加工,如果沒有數據分析平臺的支撐很難實現

阿里架構師一文講透數據分析平臺建設流程,看完秒懂

另外從企業業務系統的角度看,我們如果把數據分析的工作直接單獨放在業務系統上,一來系統的性能支撐不了這麼耗費資源的事情,系統壓力會很大;

二來隨著數據的積累,單獨的業務系統很難承受大數據量的處理,所以重新構建一個大數據處理平臺就是必須的了。

所以,一個數據分析平臺的出現,不僅可以承擔數據分析的壓力,同樣可以對業務數據進行整合,也會不同程度的提高數據處理的性能,基於數據平臺實現更豐富的功能需求。

數據分析平臺建設流程

數據分析平臺的建設流程基本上可以從數據分析流程來理解,比如數據採集、數據整合、數據加工、數據可視化等等,一般的大數據平臺都會包括這些流程,叫做一站式大數據平臺

這裡要注意一點,很多企業通常把基礎數據平臺建設錯以為是一站式數據平臺,二者最大的區別就在於架構上有沒有實現業務探索式分析。

比如一站式數據平臺架構有很多類型,現在比較流行的是自助式分析,也就是主動式的企業數據分析平臺,讓業務人員直接參與數據分析,藉助於BI平臺充分分析探索數據,並能將龐大的任務分解為小任務處理。

下面就以FineBI為例,簡單梳理一下自助式數據分析平臺的具體建設流程:

1、數據採集

我們首先通過FineBI的數據連接功能連接多個數據源,比如如果企業有Oracle、SQLServer、MySQL等多個業務系統數據庫,就可以通過FineBI的服務器數據集進行多維數據庫的對接。

此外,如果是Excel、CSV、TXT等常規文件數據,直接導入和讀取就可以了,這樣可以實現多數據源數據的採集。

阿里架構師一文講透數據分析平臺建設流程,看完秒懂

這樣就得到了企業業務系統的底層數據,但是這些來自不同系統的數據指標基本是混亂的、不統一的,所以下一步就要對數據進行整合,實現徹底打通。

2、數據整合

FineBI中是通過業務包的形式進行數據存儲,業務人員將不同來源的數據基於需求進行分類管理,通過設立表間的關聯關係和多路徑設置來進行數據整合。

阿里架構師一文講透數據分析平臺建設流程,看完秒懂

數據整合完畢,我們需要將各平臺的歷史數據採用KETTLE完成ETL數據抽取、清洗、轉換等處理操作,以保證高質量的數據進入數據倉庫進行儲存。

在數據庫性能尚可,或者業務的實時性要求很高,可以使用FineBI的Spider分佈式引擎進行大數據完美對接,將數據基於業務分類整理成主題業務包,供業務人員前端進行固定報表查看以及自助分析使用。

阿里架構師一文講透數據分析平臺建設流程,看完秒懂

3、數據加工

我們整合過的數據往往也是異構數據源中的,因此要先對關係數據進行初步的處理,比如說指標的篩選等等,將處理後的表存到業務包中作為數據分析的基礎,這就叫做自助數據集。

通常在業務人員創建了數據連接和業務包以後,數據處理用戶負責構建BI基礎的數據模型,通過一定的數據處理,為分析用戶配置好關聯關係,分配好權限和設置好數據更新的頻率,提供一層可供業務理解的基礎模型。

阿里架構師一文講透數據分析平臺建設流程,看完秒懂

然後我們再在數據集中對這些數據進行進一步的加工處理,比如篩選數據、過濾數據、數據分組彙總、數據行列轉行等等,經過清洗後的數據就是我們進行分析的最終數據了。

阿里架構師一文講透數據分析平臺建設流程,看完秒懂

4、數據分析和展示

得到了清洗後的數據,我們就要進行分析和最終的可視化展示,首先要依靠BI系統的探索式分析功能進行特定業務場景的分析,然後對數據進行拖拽式數據可視化操作。

當然了,數據展示的內容和方式包含很多,比如通過數據報表工具,根據需求制定多樣的,針對性的數據報表,其他主要應用還有儀表板、數字大屏等等,這裡就不一一介紹了。

給大家看一下FineBI的可視化分析:

阿里架構師一文講透數據分析平臺建設流程,看完秒懂


阿里架構師一文講透數據分析平臺建設流程,看完秒懂

總結

總的來說,無論是大數據平臺的流程,還是業務分析平臺的建設,必須要注意涵蓋兩個要點:

一是要保證大數據處理性能的高效,比如FineBI提供的FineIndex+FineDirect雙數據引擎則分別滿足實時和大數據量的計算需求;

二是要打破傳統業務系統的沉痾,比如傳統信息部門開發報表,最好避免使用重型BI來搭建企業平臺;

最後在大數據時代,大多數企業的數據分析平臺架構必然向著分佈式、可擴展及多元化發展,這樣才能通過對數據流程的梳理,去推動公司梳理整個業務體系。

關注我,並轉發該文章,私信回覆“BI”,即可獲得FineBI永久免費版!數量有限,先到先得!


分享到:


相關文章: