大數據&分析體系架構

大數據可以以多種方式用於經營業務、向客戶推銷、預測銷售、衡量業績、獲得競爭優勢和發現新的商業機會。組織應該努力創建一個統一的信息體系結構,使其能夠根據情況需要利用所有類型的數據,以迅速滿足業務需求

參考體系架構介紹

參考體系架構是由組織所需的功能和一組體系結構原則定義的,這些原則通常被認為是行業中的最佳實踐。它是以實現功能和滿足原則的組件來描述的。組織可以使用這個參考體系結構作為定義自己獨特和定製體系結構的起點

全面地處理大數據和分析,意味著

  • 任何數據,任何來源 我們希望根據數據的質量來查看數據,質量將決定如何管理、處理、使用和集成它
  • 全方位分析 架構設計必須是通用的和可擴展的,以支持全方位的分析
  • 綜合分析應用 智能必須與知識工作者用來執行工作的應用程序集成,應用程序必須以產生一致結果的方式與信息和分析組件集成

此參考體系架構旨在解決這三點的關鍵方面。具體來說,架構被組織成突出三個重點領域的視圖:

通用信息管理、實時分析和智能流程。它們代表了架構上的重要功能,這些功能對當今大多數組織都很重要

大數據&分析體系架構

大數據&分析參考體系架構概念視圖

圖的頂層說明了對公司用於執行分析或使用智能信息的不同渠道的支持,PC端、移動端、Email、SMS等。本文集中討論大數據和分析體系結構的三個重要方面: 統一信息管理、實時分析和智能流程。下面將進一步詳細介紹每一個重點領域

1.統一信息管理 解決全面管理信息的需要,包括

  • 大容量數據採集 系統必須能夠採集數據,儘管數據量大、速度快、種類繁多
  • 多結構數據組織和發現 通過將不同結構的數據組織到一個通用模式中,可以增強跨不同形式數據的導航和搜索能力。使用這種組織形式,系統可以關聯結構化數據(如型號和規格)、半結構化數據(如產品文檔)和非結構化數據(如安裝視頻)。此外,通過以新的方式查看不同形式的數據,可以發現新的商機
  • 低延遲數據處理 數據處理可以在體系結構的許多階段進行。為了支持大數據的處理要求,系統必須快速高效
  • 真理的唯一性 當兩個人進行相同形式的分析時,他們應該得到相同的結果。真理的唯一性需要架構一致性和治理

2.實時分析

  • 分析思維的速度 分析通常是一個發現的過程,其中一個查詢的結果決定了下一個查詢的內容,系統性能必須與用戶的思維過程保持同步
  • 交互式儀表板 儀表板提供與用戶最相關的信息和分析的展示。交互式儀表板允許用戶對顯示的信息立即做出反應,提供向下鑽取和對手頭情況執行根本原因分析的能力
  • 高級分析 高級分析形式,包括數據挖掘、機器學習和統計分析,使企業能夠更好地瞭解過去的活動,並發現未來可能發展的趨勢。應用於實時分析,高級分析可以增強客戶互動和購買決策,發現欺詐和浪費,並使企業能夠根據當前情況作出調整
  • 事件處理 事件的實時處理能夠立即響應現有的問題和機會。它過濾大量的流數據,觸發對已知數據模式的預定義響應

3.智能流程 任何大數據和分析程序的關鍵目標是更有效地執行業務流程。這意味著將從分析中獲得的信息直接導入業務執行的流程中

  • 應用程序嵌入式分析 許多員工可以歸類為知識型員工;他們通常會做出影響業務績效的決策。將分析嵌入到他們使用的應用程序中有助於他們做出更明智的決策
  • 優化的規則和建議 自動化流程也可以從分析中受益。這種形式的業務流程使用預定義的業務邏輯執行。通過優化規則和建議,分析的洞察力被用來在執行過程中影響決策邏輯
  • 引導用戶導航 有些流程要求用戶採取自導式操作,以便調查問題並確定操作過程。只要可能,系統應利用可用的信息,引導用戶沿著最合適的調查路徑前進
  • 績效和戰略管理 分析可以提供洞察,以指導和支持企業的績效和戰略管理流程

信息 大數據和分析體系結構包含許多不同類型的數據,包括

  • 運營數據 運營系統(如CRM、ERP、倉庫管理系統等)中的數據通常結構良好。這些數據在為報告和分析目的而收集、清理和格式化時,構成了傳統結構化數據倉庫、數據集市和OLAP多維數據集的大部分
  • COTS數據 定製現貨(Custom off-the-shelf)軟件通常用於支持標準業務流程,COTS應用程序通常包括作為預先設計的數據集市的分析包。COTS分析數據是從操作數據轉換而來的,也可以合併到數據倉庫中,以支持跨業務流程的分析
  • 內容 文檔、視頻、演示文稿等通常由內容管理系統管理。這些形式的信息可以鏈接到其他形式的數據,以支持跨數據類型的導航、搜索、分析和發現
  • 權威數據 權威數據是指用於為操作數據提供上下文的高質量數據
  • 系統生成的數據 諸如系統日誌、RFID標籤和傳感器輸出等數據是必須捕獲、組織和分析的大數據的形式。這些數據通常來源於組織內部,在業務分析價值方面歷來被忽視
  • 外部數據 大數據的其他常見來源往往來自組織外部,其中包括社交媒體訂閱、博客以及獨立的產品和服務評級
  • 歷史數據 數據倉庫環境必須維護用於歷史目的的數據。歷史數據是指組織起來以容納大量數據的數據,其結構可以在不修改模式的情況下方便地容納業務更改
  • 分析數據 指的是結構化的數據,這些數據可以使用分析工具提供方便的訪問,並能很好地執行分析查詢

歷史數據和分析數據是描述數據倉庫中數據的兩大類,是表示歷史記錄和有效分析之間的關注分離

部署方式

  • 公有云
  • 私有云
  • 託管服務
  • 傳統IT

這些不同的部署方式並不相互排斥。解決方案可能以兩種或更多不同的方式部署。不僅功能區域的部署可能不同(例如,數據倉庫作為託管服務,某些操作系統部署到公共雲),甚至單個功能區域也可能跨部署方式

架構原則

本質上,架構原則將業務需求轉化為解決方案必須滿足的IT要求。架構原則跨越整個解決方案,它們的級別比功能需求高得多。建立體系結構原則驅動總體技術解決方案。下面提供了大數據和分析解決方案的一些關鍵架構原則

1.容納所有形式的數據 體系結構必須容納對業務有價值的所有形式的數據

  • 原因 業務分析可以使用多種不同形式、不同來源、不同結構的數據來執行。該架構必須足夠靈活,以支持不同形式的數據,以最好的方式支持分析,同時效率和成本效益
  • 意義 捕獲、處理、組織和分析所有形式的數據,以滿足現有業務需求並支持發現新的業務機會;對每種形式的數據施加適當數量的結構;維護不同形式數據之間的關係,並啟用不同結構數據之間的導航

2.一致信息與對象模型 系統必須提供一個唯一版本的真相,從而使整個組織的用戶和部門之間的分析結果保持一致。此外,系統必須能夠以促進問題唯一的方式共享分析

  • 原因 當分析結果一致且可以重複時,業務分析具有更大的價值。同樣,當分析對象(圖形、圖表等)可以由主題專家設計並由所有知識工作者重新使用時,分析也可以應用於更多的受眾
  • 意義 虛擬化功能以聚合來自多個源的數據;保持維度數據存儲中維度和事實的一致性;提供目錄、定義和共享分析對象的方法

3.智能分析 信息和分析必須可供整個組織中可以從中受益的所有用戶、流程和應用程序使用

  • 原因 決策分析的範圍必須擴大到包括組織中的所有知識工作者及其使用的應用程序
  • 意義 將分析集成到用戶界面、設備和流程中,以便用戶瞭解何時何地需要它;自動利用可用信息優化操作流程的方式將分析與業務流程集成;使不熟悉數據結構和BA工具的最終用戶能夠查看與其需求相關的信息

4.行為洞察 系統必須提供通過分析獲得的洞察來發起行動的能力

  • 原因 將分析結果與所採取的行動聯繫起來很重要。否則,當用戶未能採取適當的措施時,將喪失分析所提供的價值。這可能是由於多種原因,包括通訊中斷、疏忽或缺乏知識
  • 意義 支持主動分析形式,如監視數據流、檢測事件、定期查詢各種形式的信息,以及執行分析以檢測特定的關注條件;檢測到事件時向用戶發出警報,並允許用戶訂閱不同類型的事件;引導用戶找到適當的應用程序、流程和接口,當需要採取行動時,用戶可以從中採取行動

參考體系架構邏輯視圖

以解決方案為中心,劃分為六層

大數據&分析體系架構

參考體系架構邏輯視圖

  • 共享基礎結構層 是參考體系結構的基礎,包括運行大數據和分析組件的硬件和平臺,支持傳統數據庫的基礎設施、專門的大數據管理系統以及為分析而優化的基礎設施
  • 信息層 包括所有信息管理組件,即數據存儲,以及用於捕獲、移動、集成、處理和虛擬化數據的組件。底部是為特定目的而委託的數據存儲,例如單個操作數據存儲、內容管理系統等,這些數據存儲表示被(向上)攝取到邏輯數據倉庫(LDW)中的數據源。LDW表示為歷史和分析目的提供的數據集合。LDW之上是為所有形式的數據提供處理和事件檢測的組件。在層的頂部是組件,它虛擬化所有形式的數據以供通用使用
  • 服務層 包括提供或執行常用服務的組件。表示服務和信息服務是面向服務架構(SOA)中的服務類型,可以在解決方案之間定義、編目、使用和共享,業務活動監視、業務規則和事件處理為上面的處理層提供公共服務
  • 流程層 表示執行更高級別處理活動的組件。對於大數據和分析,這一層調用了支持分析、智能收集和性能管理過程的幾種類型的應用程序
  • 交互層 由用於支持與終端用戶交互的組件組成。此層的常見工件包括儀表板、報表、圖表、圖形和電子表格。此外,還包括分析人員用於執行分析和發現活動的工具
  • 分析結果可以通過許多不同的渠道傳遞。如臺式機和筆記本電腦、手機和平板電腦、電子郵件、短信和硬拷貝

體系結構由許多影響體系結構所有層的組件支持。其中包括信息和分析建模、監視、管理、安全和治理

邏輯架構的統一信息管理組件

以信息為中心劃分為三層:信息公給、信息傳遞、信息消費

大數據&分析體系架構

邏輯架構的統一信息管理組件

體系結構的核心是組成邏輯數據倉庫(LDW)的組件,包括為歷史和分析目的維護信息的所有類型的數據存儲。歷史數據存儲以最能保持歷史完整性的方式整合大量信息。LDW中填充了來自各種來源的許多不同類型的數據,一旦數據加載到LDW中,它就可以從一個區域移動到另一個區域,或者從一種類型的存儲移動到另一種類型的存儲。LDW具有數據管理和數據處理功能,處理可分為兩類:高級分析處理和低級數據處理

虛擬化和信息服務代表了支持查詢聯合、抽象和中介的兩個強大模型。虛擬化是通過邏輯到物理數據映射層實現的,該層允許使用各種訪問協議將多個物理數據存儲合併到一個邏輯模式中。消費者可以通過標準協議查詢這個組件,並將查詢聯合到所需數據物理駐留的任何位置。通常,查詢將訪問LDW中的一個或多個數據存儲,但是,如果訪問權限和數據質量等問題以可接受的方式得到解決,也可以訪問LDW之外的結構化數據存儲。虛擬化還可以執行常見的維度分析功能,如計算聚合。可以緩存查詢和結果以提高性能

信息服務組件提供了一種面向服務的信息消費方法。它們使用標準接口技術促進信息服務的定義、分類、治理和重用。這些組件提供服務級抽象,如消息級轉換、映射、路由、接口和協議中介。此外,它們還提供了對服務進行分類和編目的方法,以促進公共服務的重用,並幫助在共享環境中管理資源。信息服務是面向服務體系結構的基本組成部分

信息治理包含在體系結構中,以支持信息服務管理和數據質量管理等功能。信息服務管理用於管理信息服務的生命週期和訪問

數據質量管理指導數據流入和流經LDW,以保護每個區域的完整性和一致性。它在適當的情況下管理數據清理,並使系統能夠公佈數據質量指標,以便消費者瞭解他們正在使用的數據的質量

邏輯架構的實時分析組件

它建立在前面介紹的統一信息管理(位於右下角)的組件之上

大數據&分析體系架構

邏輯架構的實時分析組件

不同的用戶有不同的需求。通過讓BI專家執行“設計”、“測試”和“驗證”功能來實現的,以創建知識工作者可以輕鬆使用的資產目錄。知識工作者使用和重用這些與工作職能相關的預先構建的資產

展示服務位於虛擬化和信息服務之上。這些組成部分的組合有助於建立“真理的唯一版本”和“問題的唯一版本”。虛擬化和受治理的邏輯數據模型定義了一組通用的信息語義,從而建立了真理的唯一版本。表示服務,通過資產目錄,語義上定義了一組通用的分析查詢,即問題的唯一版本。使用這些資產的整個組織的用戶將以相同的方式提出問題,並將以相同的方式從相同的數據源獲得答案

高級分析用戶他們最熟悉分析工具和技術以及數據建模、處理、編程和腳本編寫。他們的工具旨在提供最大的能力和探索的自由,因此通常被認為是“專家友好型”。這些工具包括數據挖掘、文本挖掘、機器學習和統計分析的例程。它們支持低級數據查詢、數據建模、編程和腳本編寫

實時分析包括一組組件,這些組件可以監視信息和交互、感知條件並在事件發生時作出響應。這些組件包括信息監視、業務活動監視(BAM)和事件處理。它們在條件發生變化時為報表和儀表板提供更新,在事件發生時向用戶發出警報,並指導用戶根據條件和事件採取最佳行動

感知和響應組件改變了分析遊戲從歷史分析到實時“洞察到行動”。它們將用戶與當前最重要的條件信息聯繫起來

邏輯架構中的智能流程組件

大數據&分析體系架構

邏輯架構中的智能流程組件

有許多類型的應用程序可用於執行分析。從最廣泛的意義上講,他們被分為兩組。一個組表示支持業務操作的應用程序。這包括自動化的業務流程、業務服務、門戶和用於運行業務的各種應用程序。這些應用程序可以利用前一節中描述的預建智能資產。例如,圖形和通知可以出現在應用程序屏幕或門戶中,為決策提供上下文。報表和儀表板也可以在業務操作流中使用。此外,操作應用程序可以編程方式訪問某些數據庫分析和數據處理功能。其中包括統計分析、數據挖掘和機器學習算法,這些算法可用於營銷目的、智能搜索例程、風險分析等。另一組表示主要用於分析的應用程序。這包括基於過程的分析應用程序和基於行業的分析應用程序。這些應用程序通常是為補充特定的操作應用程序而設計的,例如用於分析CRM應用程序中數據的CRM分析。基於過程和基於行業的應用程序都傾向於為特定過程和/或行業的標準或通用數據模型和分析而創建

在前面的架構場景中,我們繼承了一些組件,包括統一信息管理組件、感知和響應組件以及表示服務。它們為應用程序提供與分析工具相同的功能集。此外,還添加了一個新組件——實時規則引擎。它評估決策邏輯,並提供基於實時信息和分析的決策和建議。規則引擎使得基於當前條件更改決策成為可能,即使流程本身是完全自動化的

大數據和分析組件以多種方式為業務流程添加智能

  • 嵌入式分析資產,在需要的地方和時間向決策者提供最新的情報信息
  • 實時決策邏輯,為自動化過程提供智能
  • 感知和響應能力,對來自歷史數據存儲、操作系統和實時數據饋送的信息執行分析,並使知識工作者知道結果
  • 可以觸發或更改業務流程的事件處理功能
  • 在數據庫分析中,可以利用機器學習算法並提供產品推薦、定向廣告和欺詐檢測等功能

小結

提供一種構建智能實時大數據分析處理系統的思路,對於搜索引擎、推薦系統領域也具學習價值

參考文獻

oracle-wp-big-data-refarch-2019930


分享到:


相關文章: