一文了解數據倉庫中的元數據

一文了解數據倉庫中的元數據

小B是一名數據分析師,他問小A XXX的所有指標項給我一下,小A“鄙視的”給了我一份文檔……

元數據知多少

小B作為一名數據分析師,為什麼自己沒能去找到數據呢?

這就要說下數據倉庫的元數據管理。我們都知道傳統的數據庫中每張表都有註釋,包括表註釋,字段註釋,你拿到一個不熟悉的表肯定要先看註釋,然後才知道每個字段的意思。就像你學習英語的時候查那本牛津字典一樣,你能很快查到每個單詞的意思,不久你還能看單詞“猜出”一個單詞的意思。同樣數據倉庫也有這樣一套“註釋”,我們稱之為元數據。

數據倉庫的元數據是負責記錄和管理數據的含義、格式、血緣關係等。

作為數據分析師,做分析之前,你都要先知道自己需要什麼數據,去哪找到這些數據。沒錯,就是數據倉庫的元數據管理系統。所以,理解數據倉庫,需要從元數據開始。

數據分析師看的元數據


一文了解數據倉庫中的元數據

  • 模型說明,模型的業務含義,所屬主題,數據分析師可以通過說明知道模型存儲的是什麼數據
  • 模型字段,模型中每個字段代表的意思,數據分析師可以瞭解模型中有哪些指標數據和維度信息
  • 模型需求來源,這個模型的需求誰提出來的,還是建模人員自己規劃的,可以幫助數據分析師瞭解模型建立的初衷
  • 模型開發者,就像你代碼一樣,最上面都是author 。數據分析師可以找到對應的模型開發者瞭解一切他想要的信息。
  • 模型存儲信息,包括分區信息,數據大小信息,數據波動情況等,數據分析師瞭解後,不至於一個SQL把即席查詢搞死。
  • 血緣關係,數據分析師可以瞭解模型裡面字段的來龍去脈,在出現數據問題時,進行追蹤溯源,找出“始作俑者”。
  • 變更記錄,數據分析師後續進行大時間範圍的分析時,方便確定數據的有效可用範圍。比如,20200101變更模型,增加註釋“2020增加字段a,2020年之前無該字段數據”。

模型開發者看的元數據

上面的元數據很大意義上是給數據分析師看的,其實還有一部分元數據是給模型開發人員看的。

  • 模型中字段的合法值類型、範圍等
  • ETL程序使用的轉換規則
  • UDF(自定義函數)說明
  • ETL報錯代碼含義
  • ……

模型開發人員除了做好“數據分析師眼中的”元數據,還要管理好“開發的”元數據。

元數據承擔著數據治理的重任,完整的元數據管理系統是數據倉庫建設成功的根基,也是數據倉庫發揮作用大小的決定項之一。

最為數據分析師,使用好元數據,可以快速幫助你更快的構建特徵工程。

大家的元數據建設都是怎樣的,有什麼困惑,可以留言分享下。

歡迎關注公眾號:數據社,一起玩轉數據~



分享到:


相關文章: