大數據工程師的日常工作內容是幹嘛?

大數據工程師的日常工作內容是幹嘛?

大數據工程師工作內容取決於你工作在數據流的哪一個環節。

從數據上游到數據下游,大致可以分為:

數據採集 -> 數據清洗 -> 數據存儲 -> 數據分析統計 -> 數據可視化 等幾個方面

工作內容當然就是使用工具組件(Spark、Flume、Kafka等)或者代碼(Java、Scala等)來實現上面幾個方面的功能。

很多初學者,對大數據的概念都是模糊不清的,大數據是什麼,能做什麼,學的時候,該按照什麼線路去學習,學完往哪方面發展,想深入瞭解,想學習的同學歡迎加入大數據學習qq群: 740041381,有大量乾貨(零基礎以及進階的經典實戰)分享給大家,並且有清華大學畢業的資深大數據講師給大家免費授課,給大家分享目前國內最完整的大數據高端實戰實用學習流程體系

具體說說吧,

數據採集:

業務系統的埋點代碼時刻會產生一些分散的原始日誌,可以用Flume監控接收這些分散的日誌,實現分散日誌的聚合,即採集。

數據清洗:

原始的日誌,數據是千奇百怪的

一些字段可能會有異常取值,即髒數據。為了保證數據下游的"數據分析統計"能拿到比較高質量的數據,需要對這些記錄進行過濾或者字段數據回填。

一些日誌的字段信息可能是多餘的,下游不需要使用到這些字段做分析,同時也為了節省存儲開銷,需要刪除這些多餘的字段信息。

一些日誌的字段信息可能包含用戶敏感信息,需要做脫敏處理。如用戶姓名只保留姓,名字用'*'字符替換。

數據存儲:

清洗後的數據可以落地入到數據倉庫(Hive),供下游做離線分析。如果下游的"數據分析統計"對實時性要求比較高,則可以把日誌記錄入到kafka。

數據分析統計:

數據分析是數據流的下游,消費來自上游的數據。其實就是從日誌記錄裡頭統計出各種各樣的報表數據,簡單的報表統計可以用sql在kylin或者hive統計,複雜的報表就需要在代碼層面用Spark、Storm做統計分析。一些公司好像會有個叫BI的崗位是專門做這一塊的。

數據可視化:

用數據表格、數據圖等直觀的形式展示上游"數據分析統計"的數據。一般公司的某些決策會參考這些圖表裡頭的數據~

當然,大數據平臺(如CDH、FusionInsight等)搭建與維護,也可能是大數據工程師工作內容的一部分喔~


分享到:


相關文章: