如何掌握數據倉庫元數據

元數據(Metadata),又稱中介數據、中繼數據,為描述數據的數據(data about data),主要是描述數據屬性(property)的信息,用來支持如指示存儲位置、歷史數據、資源查找、文件記錄等功能。元數據算是一種電子式目錄,為了達到編制目錄的目的,必須在描述並收藏數據的內容或特色,進而達成協助數據檢索的目的。都柏林核心集(Dublin Core Metadata Initiative,DCMI)是元數據的一種應用,是1995年2月由國際圖書館電腦中心(OCLC)和美國國家超級計算應用中心(National Center for Supercomputing Applications,NCSA)所聯合贊助的研討會,在邀請52位來自圖書館員、電腦專家,共同制定規格,創建一套描述網絡上電子文件之特徵。

元數據是關於數據的組織、數據域及其關係的信息,簡言之,元數據就是關於數據的數據。

特點:

  • 元數據是關於數據的結構化的數據,它不一定是數字形式的,可來自不同的資源。
  • 元數據是與對象相關的數據,此數據使其潛在的用戶不必先具備對這些對象的存在和特徵的完整認識。
  • 元數據是對信息包裹(Information Package)的編碼的描述。
  • 元數據包含用於描述信息對象的內容和位置的數據元素集,促進了網絡環境中信息對象的發現和檢索。
  • 元數據不僅對信息對象進行描述,還能夠描述資源的使用環境、管理、加工、保存和使用等方面的情況。
  • 在信息對象或系統的生命週期中自然增加元數據。
  • 元數據常規定義中的“數據”是表示事務性質的符號,是進行各種統計、計算、科學研究、技術設計所依據的數值,或是說數字化、公式化、代碼化、圖表化的信息。

隨著企業數據不斷膨脹,數據間構成了一張極為複雜的加工關係網圖。如果數據出現了錯誤,如何快速的鎖定引發問題的原因,如何發現哪些實體會受到影響。

課程鏈接:利用元數據管理數據質量http://click.aliyun.com/m/1000009715/

通過本認證學習,學員可掌握數據倉庫元數據的應用及核查方法,通過記錄核查表,利用元數據,分析數據產生問題的原因,制定解決方案,提升數據質量。

課程附帶實驗案例說明:

  • 某網商公司搭建的數據平臺,數據從底層倉庫進行多層加工至展示層,最終發現加工後的數據存在數據質量問題,現需使用MaxCompute的元數據血緣分析,可以有針對性的進行數據追蹤,對數據質量問題進行分析,一層一層追至產生數據問題的點,最終解決數據質量問題。

更多精品課程:

阿里雲大學官網—雲生態下的創新人才工場(https://edu.aliyun.com)


分享到:


相關文章: