怎麼才能掌握公司的大數據

任何成規模的公司,都會有很多數據崗位,例如:數據開發工程師、數據倉開工程師、數據分析師、數據挖掘工程師、數據產品經理、數據運營工程師、數據運維工程師。不同的崗位對數據的認知不同,對數據的定位不同,對數據的關注點不同。那麼是否有一套內容可以分享出來,大家對數據的共同認識的基本點?不同崗位對數據認識的不同點是什麼?數據開發同學有沒有必要去了解數據分析師關心的數據?數據產品經理更看重什麼樣的數據?本篇文章和大家分享10年的大數據開發管理經驗。


先拋出幾個問題,看看大家對數據的掌握程度

  • 每天的數據增量是多大?
  • 目前公司的數據集群有多少臺機器?
  • 整個數據規模是多大?
  • 每年的數據是什麼樣的增長模式?
  • 公司的核心數據是什麼,核心數據的分佈情況怎麼樣?
  • 數據倉庫接入的業務部門有哪些?每個部門的數據是怎麼分佈的?


如果你的領導哪天跟你聊天的時候,向你提出這些問題。恰恰你不知道,或者只知道一部分,那麼給領導的印象是:你就是個幹活的,沒有大局觀,暫時還不能委以重任。如果你對這些問題都能對答如流,那麼可能還有接下來的新問題。

  • 如果你知道每天的數據增量是多大,那麼工作日數據的波動是多大呢?設置多大的預警閾值監控報警比較合適呢?
  • 目前這些數據集群的節點是怎麼分佈的呢?還有多少空額可以用?為什麼總有人說機器不夠用呢?
  • 如果你知道目前的數據規模,那麼這些數據是壓縮前還是壓縮後呢?壓縮比是多少呢?怎麼壓縮的,採用的什麼算法,是否還有更好的算法能提高壓縮比?為什麼不採用?
  • 如果你知道之前每年的數據增長量,那麼你知道為了一年我們將要增加多少臺機器呢?
  • 你知道數據的分佈情況,那麼我們通常採用的維度分析有哪些呢?按照地域?年齡段?興趣點?還有沒有其他呢?
  • 如果你知道數據倉庫一共接入了哪些業務方,那麼你清楚每個業務方之間有哪些公用的數據嗎?他們公用的一致性指標有哪些,我們是怎麼建立的?


怎麼才能掌握公司的大數據

數據鏈路

每個崗位都有自己的認知

公司的數據團隊越大,相應的數據崗位就越多。如果是數據開發和數據倉開工程師,他們關注點也會有所不同。數據倉庫工程師更關注的是數據倉庫的分層設計、數據維度定義、數據主題的設立;數據開發工程師更關注的是數據的接入方式,數據性能的優化,數據存儲結構的選型。數據運維工程師更關注的是怎麼保證數據的穩定性。數據運營和數據產品經理更關注的是如何從既有的數據中提取有價值的數據,做真正的數據賦能。

  1. 數據開發工程師肯定知道目前接入的業務方數據有哪些,有哪些數據還沒有接入,每天每個業務方接入的數據量有多大,所有業務方整體的接入數據有多少,接入數據的形式有哪些(json、text、圖片、視頻)。數據的生命週期有哪些(30天、90天的數據表有哪些),集群中日增量數據有多大,目前的集群規模是多少,還有多久會數據爆炸?
  2. 數據倉開工程師對上面的事情知道的就沒有這麼明確,他們只關心自己在數據建模過程中會用到哪些數據,數據的分佈情況。比如按照地域、性別、愛好進行分類。他們還關注的就是數據計算口徑,如果數倉出的數據和原始數據的規則不一致,那麼數倉的可用性就大打折扣。
  3. 數據倉庫工程師更關注,某一天落地的數據某個維度的數據急劇下降(上升)或者清0,那麼會不會有問題呢?如果數據劇增(肯定會導致數據傾斜,怎麼處理)。
  4. 數據開發工程師還有個更要關注的點,數據是否延遲,數據如果延遲,什麼時候能補完全部數據。

如何掌握數據接入量

不能悶著頭幹活,來個需求就接,而自己對數據卻一無所知。如果是這樣,那你確實得早做打算,如果哪天領導向你諮詢前面我提到的問題,咱們的集群有多大?目前使用率有多少?接入了哪些業務方?數據的日增量是多少?核心的業務的數據量是多大?按照目前的數據接入速度,我們的集群還能撐多久,多久要加多少臺機器呢?

怎麼才能掌握公司的大數據

集群使用量統計

數據的核心維度分佈

所謂核心維度就是日常中經常用到的維度,領導和產品經理關心的維度。比如用戶的興趣愛好,地域分佈,或者基於用戶畫像表做的維度信息。

怎麼才能掌握公司的大數據

數據質量監控

同比:“同比”就是同期相比的意思,一般指今年的某月和去年的同一個月份相比。

環比:以一個週期為一環,比如本月環比上月。


怎麼才能掌握公司的大數據

數據質量

數據血緣關係

數據血緣可以理解為某張表或者某個業務數據的生成過程,它依賴了哪些表,這些表的依賴層級關係。掌握了血緣關係,我們才能更好的使用數據,一旦某張表的數據有問題,我們可以根據血緣關係查到下游所有被影響到的指標。以便順利修正問題。


怎麼才能掌握公司的大數據

數據血緣關係會幫助大家更加容易的理解數據,知道數據的倆龍去脈。


分享到:


相關文章: