關於數據湖的治理,企業一般會遇到哪些挑戰?

判定一個數據治理計劃的成功與否,也許並沒有一個嚴格的標準。但總體來說,一個成功的數據治理計劃,往往需要通過一定的策略、標準和流程,在整個組織架構中有效地、適當地使用高質量數據。對於搭建了“數據湖”環境,並且希望藉此獲得高質量數據分析結果的組織來說,如何對數據湖進行治理,也就成為了組織整個數據治理計劃的一個重要部分。

但是,如何“打理”好一個龐大的數據湖,為組織的IT部門提出了各種挑戰。在開始討論數據湖治理的挑戰之前,我們首先有必要明確一下數據湖的定義:它是數據平臺類型的一種,可容納大量原始數據,通常以其原生格式保留——直到需要將其用於分析時。

傳統的數據倉庫將數據存儲在關係表中,而數據湖則使用平面架構。每個數據元素被分配一個唯一的標識符,並用一組元數據標籤進行標記。因此,與數據倉庫相比,數據湖的結構更少。在訪問數據湖中的數據,將其用於分析時(而不是將數據加載到數據湖中),將對數據進行分類和組織。

關於數據湖的治理,企業一般會遇到哪些挑戰?

有效的數據治理使組織能夠提高數據質量和一致性,並最大程度地利用數據進行業務決策,從而改善業務規劃和財務績效。應用於數據治理的數據管理細分學科領域包括數據質量、元數據管理和數據安全性——這些因素都會影響到數據湖治理。以下是數據湖治理的五個常見挑戰:

識別正確的數據源,並對其進行維護

在許多數據湖中,來源元數據往往並沒有被捕獲,或根本不可用,這使得數據湖內容的有效性並不那麼可信。例如,記錄系統或數據集的業務所有者可能並未列出,或者明顯冗餘的數據可能都會給數據分析人員帶來問題。至少應記錄數據湖中所有數據的來源元數據,讓用戶可以藉此來了解數據的來源。

元數據管理問題

元數據為我們提供了數據集內容的各種相關信息,並且能夠使數據在應用程序中更易於理解和使用。但是許多數據湖的實施方案往往忽略了一點,對於收集的數據應該使用正確的數據定義。而且,由於原始數據都會被加載到數據湖中,因此許多組織並沒有相應的步驟去驗證數據或對數據使用組織化的標準。數據湖中的數據若缺少適當的元數據管理,那麼這些數據對於分析的用處可能就不會很大。

數據治理和數據質量之間缺乏協調

數據湖治理和數據質量工作的不協調,會使劣質數據進入數據湖。當數據用於分析且助力業務決策時,可能會導致結果準確度有所降低,進一步,甚至將使整個組織對數據湖喪失信心以及對數據的普遍不信任。有效的數據湖實施方案,需要數據質量分析師和工程師與數據治理團隊和業務數據管理員密切合作,以應用數據質量策略,分析數據並採取必要的措施來提高其質量。

關於數據湖的治理,企業一般會遇到哪些挑戰?

數據治理和數據安全之間缺乏協調

在這種情況下,未在治理流程中正確應用的數據安全標準和規則,可能會在訪問受隱私法規保護的個人數據和其他類型的敏感數據時遇到一些問題。儘管數據湖本身旨在成為一個相當開放的數據源,但仍需要安全性和訪問控制措施,並且數據治理和數據安全團隊應在數據湖設計、數據裝載過程以及正在進行的數據治理工作中協同努力。

使用同一個數據湖的業務部門之間可能產生衝突

不同部門對於相似的數據可能會有不同的業務規則,可能會因此無法調和數據間的差異來獲得準確的分析結果。擁有一個有效的數據治理程序,並具有關於數據策略、標準、過程和定義的企業全局視圖,比如企業業務詞彙表,可以減少當多個業務部門使用一個數據湖時出現的問題。如果企業有多個數據湖,則每個數據湖都應包含在數據治理流程中,併為其分配業務數據管理員。

總而言之,通過在企業整個系統架構環境的設計、建設和維護過程中,制定有效且合理的數據治理、元數據管理、數據質量和數據安全方案,並由經驗豐富的專業人員積極參與,可以大大提高數據湖的價值。否則的話,企業的數據湖很可能將劣化為數據沼澤。


分享到:


相關文章: