大數據治理:成熟度評估框架

如今的市場中充斥著有關大數據無所不在、無所不能的新聞、軼事和傳聞。市場營銷人員正竭力將數以 ZB 計的海量數據轉化為收入,而全球各地的數據科學家則在挑燈夜讀學習新技術(例如流式處理、Hadoop 和其他 NoSQL 存儲)、商業軟件和雲計算,致力於改變整個世界。

組織將這些技術視為改變遊戲規則的因素,特別是由於其中某些技術支持原生格式的數據,無需對這些數據進行轉換或建模即可對它們加以處理。在大數據生命週期的這一時刻,組織並非總是瞭解哪些數據源是有價值的,不一定會投入大量資源來收集需求並贊助正式的信息治理計劃。

大数据治理:成熟度评估框架

Goals:目標

Business Outcomes:業務成果

Enablers:支持要素

Organizational Structures & Awareness:組織結構和認識

Stewardship:管理人員

Data RiskManagement:數據風險管理

policy:策略

Core Disciplines:核心準則

Data Quality Management:數據質量管理

Information Lifecycle Management:信息生命週期管理

Information Security and Privacy:信息安全性和隱私

Supporting Disciplines:支持準則

Data Architecture:數據架構

Classification & Metadata:分類和元數據

Audit Information Logging & Reporting:審計信息日誌記錄和報告

顯而易見,大數據“特殊研發團隊”項目的探索階段推動了業務價值,最終導致正式計劃,組織也隨之將其注意力轉向信息管理領域的基本問題:

? 我們是否已經完全認識到與處理大數據相關的責任?

? 大數據將如何改變信息的傳統概念,將其轉變為一種企業資產?

? 與隱私相關的新型需求有哪些?

? 所有這些大數據技術與我們的當前 IT 基礎架構有怎樣的關係?

所有這些有關大數據的傳聞都給 CIO 帶來了超出其心理準備的更多疑慮。根據我們的經驗,許多組織都缺乏足夠的治理策略,他們相信大數據“有所不同”,這在一定程度上回避了真正的問題。簡而言之,大數據技術逐漸融入運營(而非探索),因此需要使用與傳統數據管理方法相似的治理準則。

在實施信息治理計劃時,首先採取的步驟之一就是評估當前成熟度狀態,預測所需的未來成熟度狀態。土耳其 Akbank Information Technologies 公司的商務智能副總裁 Banu Ekiz 表示:“從治理的角度來看,大數據具備‘小數據’的全部特徵。惟一的差別就是大數據來源渠道的複雜性和多樣性。儘管組織在治理大數據時需要付出更多精力、更多資源,但業務價值方面的收益也更為可觀。如果能分析來自 Web 的大數據,並採取必要的措施,企業的利潤就會受到顯著影響。在這個過程中,大數據治理成熟度模型是至關重要的第一步。”

我們利用了 IBM 信息治理委員會成熟度模型(如圖所示)的十一種分類。下面給出了一組用於評估大數據治理成熟度的示例問題:

1.

業務成果

? 您是否已經確定了大數據治理計劃的關鍵業務相關人員,例如:

o 市場營銷部門負責社交媒體治理

o 供應鏈部門負責 RFID 治理

o 法律部門負責數據保留策略

o 人力資源部門負責治理與員工相關的社交媒體

o 運營和維護部門負責傳感器數據治理

電信業的計費部門負責通話詳單治理

o 醫療保險業的醫療信息和索賠管理部門負責索賠記錄治理

? 您是否對大數據治理能提供的財務收益進行了量化?例如:

o 降低了因數據違規而造成的罰款和法律訴訟風險

o 降低了遇到違約事件的可能性

o 避免有關數據不當使用的負面宣傳對品牌產生不利影響

o 降低了因命名方法不一致而兩次付款購買同一數據集(例如地震數據)的可能性

o 通過社交媒體與主數據環境的集成增加交叉銷售和向上銷售機會

o 可預測的維護計劃、傳感器數據、一致和優質的資產數據相結合,縮短了設備停機時間。

2. 組織結構和認識

? 您是否為應用於您組織的大數據提供了一個確定的範圍?

o 大事務數據(例如,醫保索賠、電信通話詳單、電子醫療記錄和呼叫中心客服備註)

o Web 和社交媒體數據(例如,Facebook、Twitter 和 LinkedIn)

o 機器間數據(例如,職能儀表讀數、鑽井平臺傳感器、車載遠程信息技術和 RFID)

? 您是否為需要治理的大數據類型劃分了優先級?

? 您是否已擴充了信息治理章程,使其覆蓋了大數據?

? 負責大數據存儲庫與傳統系統的團隊之間是否存在明確的交接流程?

? 關鍵角色的職位說明中是否包含大數據治理,例如首席數據管和信息治理官?

? 對於數據科學家等新興技能,其角色是否得到了明確的定義?

? 信息治理委員會是否已經解決了所有大數據問題?

? 信息治理委員會是否已經解決了大數據和主數據(例如,將社交媒體集成於客戶主數據之中)的融合問題?

3. 管理人員

? 您將如何解決大數據的管理問題?

對現有管理人員的職位描述加以擴展(例如,客戶數據管理人員需負責社交媒體方面的工作)

o 額外指任大數據管理人員(例如,社交媒體管理人員負責處理該領域特有的隱私問題)

o 他們的職務和數據操作任務是否得到了歸檔,是否可重複?

? 數據管理人員是否要負責從法律、市場營銷和其他部門收集有關可接受的大數據使用的輸入意見(例如,將社交媒體與主數據管理相集成)?

? 您是否已經建立了責任分配 (RACI) 矩陣,定義了關鍵數據元素的角色和責任?

? 數據管理角色是否由人力資源部門加以規範?

? 數據管理人員是否能夠定義策略,根據法規要求和業務需求保留大數據?這些策略與傳統系統中的相應策略是否一致?

4. 數據風險管理

? 風險管理是否是大數據治理中的關鍵組成部分?

? 您是否在大數據治理與風險管理之間建立了聯繫?

? 從運營角度來看,是否有切實可行的業務連續性計劃(Hadoop 等技術並非設計為解決傳統企業災難恢復考慮事項)?

5. 策略

? 您是否已經歸檔了一組大數據治理策略?

? 能否檢查這些策略的實施情況?

? 您是否已將這些策略轉為一組運營控制?

? 您是否在利用治理、風險和合規性 (GRC) 框架對這些運營控制的符合情況進行監控?例如,一家組織在其 CRM 環境內利用社交媒體。該組織設定了一項策略,要求定期刪除此類數據,以保持客戶隱私。大數據治理計劃需要建立一項運營控制,確保已刪除此類數據定義。大數據治理計劃可使用治理、風險和合規性 (GRC) 工具,歸檔此策略的遵循情況。

6. 數據質量管理

? 您對於與大數據相關的質量問題(數據可能有較高的價值,也可能價值並不顯著)是否達成了一致意見?

? 在您的組織中,數據質量策略是否同時應用於實時技術(流式傳輸)和靜態(Hadoop)技術?

? 您是否直接在 Hadoop 中處理數據質量?

? 您是否使用非結構化數據提高稀疏數據的質量?例如,患者在醫院問診過程中並不總是提到他們是吸菸的。但預測分析團隊可以利用醫囑、出院結單和患者體檢來判斷患者是否吸菸,從而計算他們在充血性心力衰竭治療的 30 天后病情復發的可能性。

? 您是否考慮過與機器間通信相關的數據質量問題(例如,在某些讀取角度和高溼環境中,RFID 讀數可能易於出錯)?

? 更適合應用於大數據而非傳統企業數據的數據質量維度有哪些?例如,機器日誌數據的及時性(時間戳和準確性)對於高端機器和醫療設備的傳感器數據更為關鍵。

? 數據質量的哪些維度不太適用於大數據(例如,Twitter 和 Facebook 數據的準確性)?

? 您如何通過可重複、歸檔的方式檢查數據質量問題?

7. 信息生命週期管理

? 大數據的存儲量是多少?預計年增長率是多少?

? 大數據的存儲成本是多少?預計年增長率是多少?

? 您是否理解治理大數據保留的法規要求?例如:

o 發生石油洩漏時,監管機構可能要檢查鑽井平臺的傳感器數據

o 意外事故調查人員可能需要檢查火車車頭傳感器數據

? 您是否理解推動大數據保留的業務需求(例如,市場營銷部門可能需要將電話通話詳情記錄單保留數個月,以便生成客戶流失率模型)?

? 您是否擴展了保留計劃,包含了大數據?

? 您的保留計劃中是否包含促使需要按國家、州和省保留大數據的法律引證?

? 您是否創建了從保留計劃到大數據物理存儲庫的指導指針?

? 您是否制定了流程,依法保留仍在訴訟期的大數據?

? 您是否制定了流程,根據法律和業務要求合法處理不再需要的大數據?

? 您是否會在 Hadoop 中或其他工具中壓縮大數據?

? 您是否會存檔大數據,以便降低 IT 成本,提高應用程序性能?

8. 信息安全性和隱私

? 首席信息安全官是否是大數據治理計劃的關鍵支持者?

? 您是否理解各國、州和省中影響大數據(特別是社交媒體)的隱私法規?

? 您是否理解使用 Facebook、Twitter 和其他類型的社交媒體數據的條款?

? 您是否制定了有關客戶社交媒體數據可接受用法的指導準則?

? 您是否定義了有關客戶地理定位數據可接受用法的策略?

? 您是否與人力資源部門合作,建立了有關員工和應聘者社交媒體與地理定位數據使用的策略?

? 您是否對生產系統中的敏感大數據進行了加密?

? 您是否在開發、業務智能和測試環境中使用未加密的敏感大數據?

? 利用客戶在您的網站中的活動數據生成完整的個人資料和產品推薦時,您是否會使用審計跟蹤記錄來記錄和跟蹤用戶權限?

? 您是否已經準備好處理您的推薦引擎的高級預測功能引發的公共關係問題和法律責任,特別是有關性別和年齡的敏感問題(例如,一家零售商向一名少女推銷孕婦產品,但這名少女的父母可能並未發現她已經懷孕)?

Concur Technologies 的 IT 規劃和項目管理經理 Nina Vredevoogd 認為:“大數據是全球性的。數據的隱私、法律和法規概念卻並非如此。對於全球化企業來說,制定全面的信息管理計劃和策略來治理大數據勢在必行。消費者越來越關注在線隱私。採用並積極宣傳以負責任的方式控制消費者數據訪問權限的企業更有可能在快速發展的在線商務市場中取得競爭優勢。”

9. 數據架構

? Hadoop、NoSQL 以及與您的當前架構相關的其他新興大數據技術的共存戰略是怎樣的?

? 您是否確定了哪些應用程序應該轉入大數據基礎架構平臺?

? 您是否確定了哪些應用程序應該保留在大數據基礎架構平臺以外?

? 我們的現有 ETL 工具如何才能將數據轉入大數據基礎架構平臺或轉儲在大數據基礎架構平臺上?

? 您要如何在大數據基礎架構平臺內利用數據壓縮和存檔技術?

? 您是否考慮過主數據對於大數據的影響?例如:

o 客戶主數據:利用 10-K 和 10-Q 財務報表,在所有權位置發生變化時更新客戶風險管理層次結構

o 資產主數據:如果傳感器數據表明某個工廠中有一個泵發生故障,那麼可以利用一致的資產命名,更換其他工廠內的類似泵

o 產品主數據:消費類包裝食品企業利用詳盡的零售點交易數據,促進有關哪些店鋪有哪些產品庫存的分析,但如果不同的零售商為相同產品使用不同的命名方法,那麼這樣的分析就會產生不一致的結果

? 您是否考慮過參考數據對於大數據的影響(例如,醫保索賠數據的 ICD-9 和 ICD-10 編碼)?

? 您能夠在大數據基礎架構平臺中原地處理數據質量,而無需創建中間數據結構?

? 您如何處理大數據的沿襲?

SymphonyIRI Group 技術研究副總裁 Jay Yusko 博士表示:“大數據的信息治理絕對必要。究其本質而言,大數據是從多種異構數據源開發得出的,需要通過集成才能成為可分析的有用信息。為了實現這樣的集成,來自所有不同數據源的數據需要通過一組相同的規則進行標準化,隨後進行驗證和監控。這實際上就是大數據信息治理計劃的核心。”

10. 分類和元數據

? 您的組織級業務術語(業務詞彙表)是否包含與大數據相關的關鍵業務術語(例如,針對點擊流數據的“惟一訪問者”)?

? 企業是否指任數據管理人員來管理大數據的關鍵業務術語?

? 業務和技術元數據的刷新頻率如何?跨業務部門和 IT 部門保持同步的頻率如何?

? 您要如何處理大數據基礎架構平臺內大數據的沿襲?

? 您要如何處理大數據基礎架構平臺內的大數據影響分析?

? 您是否會捕獲關鍵運營元數據,以便識別未加載大數據的場景?

11. 審計信息日誌記錄和報告

? 您的企業中是否有數據庫管理員、承包商和其他類型的第三方能夠對敏感的大數據進行未加密的訪問,例如地理定位數據、電話通話詳情記錄單、公共事業智能儀表讀數和醫保索賠等?

總而言之,組織需要將大數據作為與其他數據類型相似的企業資產處理。作為一項經驗守則,與數據庫或數據倉庫有關的治理考慮事項同樣適用於大數據技術。

CIO之家 www.ciozj.com 微信公眾號:imciow


分享到:


相關文章: