元數據知多少
小B作為一名數據分析師,為什麼自己沒能去找到數據呢?
這就要說下數據倉庫的元數據管理。我們都知道傳統的數據庫中每張表都有註釋,包括表註釋,字段註釋,你拿到一個不熟悉的表肯定要先看註釋,然後才知道每個字段的意思。就像你學習英語的時候查那本牛津字典一樣,你能很快查到每個單詞的意思,不久你還能看單詞“猜出”一個單詞的意思。同樣數據倉庫也有這樣一套“註釋”,我們稱之為元數據。
數據倉庫的元數據是負責記錄和管理數據的含義、格式、血緣關係等。
作為數據分析師,做分析之前,你都要先知道自己需要什麼數據,去哪找到這些數據。沒錯,就是數據倉庫的元數據管理系統。所以,理解數據倉庫,需要從元數據開始。
數據分析師看的元數據
- 模型說明,模型的業務含義,所屬主題,數據分析師可以通過說明知道模型存儲的是什麼數據
- 模型字段,模型中每個字段代表的意思,數據分析師可以瞭解模型中有哪些指標數據和維度信息
- 模型需求來源,這個模型的需求誰提出來的,還是建模人員自己規劃的,可以幫助數據分析師瞭解模型建立的初衷
- 模型開發者,就像你代碼一樣,最上面都是author 。數據分析師可以找到對應的模型開發者瞭解一切他想要的信息。
- 模型存儲信息,包括分區信息,數據大小信息,數據波動情況等,數據分析師瞭解後,不至於一個SQL把即席查詢搞死。
- 血緣關係,數據分析師可以瞭解模型裡面字段的來龍去脈,在出現數據問題時,進行追蹤溯源,找出“始作俑者”。
- 變更記錄,數據分析師後續進行大時間範圍的分析時,方便確定數據的有效可用範圍。比如,20200101變更模型,增加註釋“2020增加字段a,2020年之前無該字段數據”。
模型開發者看的元數據
上面的元數據很大意義上是給數據分析師看的,其實還有一部分元數據是給模型開發人員看的。
- 模型中字段的合法值類型、範圍等
- ETL程序使用的轉換規則
- UDF(自定義函數)說明
- ETL報錯代碼含義
- ……
模型開發人員除了做好“數據分析師眼中的”元數據,還要管理好“開發的”元數據。
元數據承擔著數據治理的重任,完整的元數據管理系統是數據倉庫建設成功的根基,也是數據倉庫發揮作用大小的決定項之一。
最為數據分析師,使用好元數據,可以快速幫助你更快的構建特徵工程。
大家的元數據建設都是怎樣的,有什麼困惑,可以留言分享下。
歡迎關注公眾號:數據社,一起玩轉數據~