數據倉庫工程師、大數據開發工程師、BI、ETL之間有什麼區別?

商務智能。商務智能工程師是商業智能行業的工程師。從需求分析師到數據倉庫架構師、ETL工程師、數據分析工程師、報表開發工程師、數據挖掘工程師等,都可以稱為BI工程師。

ETL工程師:從事系統編程、數據庫編程和設計,掌握各種常用編程語言的專業技術人員。也稱為數據庫工程師。

數據倉庫工程師、大數據開發工程師、BI、ETL之間有什麼區別?

盲目地解釋數據倉庫的概念可能並不有趣。讓我們從不同的角色開始。

老闆:我是一家手機公司的老闆。今天我要向董事會彙報。我將準備一份關於用戶增長、用戶保留率、用戶活動以及過去三年中我手機中每個應用程序的使用率的報告。如果下面沒有BI,我將被迫這樣做。

我是一個非技術性的商務智能。我每天閱讀競爭產品分析報告,看到雙十一的銷量,看到各種評論,知道我的產品有哪些缺點和優勢,分析南北地區差異,國內外客戶的偏好,總之,我有很強的行業解讀能力和數據解讀能力。在手機領域,我能畫出非常漂亮的圖表和PPT。今天老闆讓我做報告。我還需要刷我的臉,以找到ETL工程師,以幫助我用完報告的數據。基於這些數據,我想給出一定的解釋,為什麼這個月的手機銷售不如上個月,為什麼用戶流失越來越嚴重,等等。

ETL工程師:我是食品鏈最底層的一個壓力很大的ETL工程師。我可以編寫shell,可以使用hadoop/hive/hbase,還可以使用超複雜的邏輯編寫SQL。今天,無法單獨計算數據的BI,讓我再運行一些數據。我想讓她提一下需求流程,但她說這是老闆想要的(操作中使用的殺手鐧)!!為了緊急處理,我不得不放下工作,為她運行數據。我花了半個小時為她運行數據,希望能有所不同。

眾所周知,大數據工程師是大數據開發工程師。主要從事大數據平臺建設。它要求實踐者擁有Java基礎。它還需要以下技術能力:hadoop、hive、hase、flume、storm、kafka、spark等。它是一個非常大的技術集群。

如果你認為我每天都這樣做,那你就錯了。我通常的工作不只是完成分配給我的任務。我還負責數據ETL流程、數據建模、定時任務分配,有時還負責Hadoop集群的維護等。我必須這樣做。每樣東西都可以單獨拿出來寫一本書。

以ETL流程為例,您需要將來自不同數據庫、不同服務器的不同業務日誌的原始數據規範化為相同的格式。您需要在分隔符上達成一致,然後將其導入分佈式文件系統hdfs。甚至您需要定義業務系統的數據格式來制定規範。在數據收集之後,您還可以獲得中間表、數據過濾、統一格式、統一ID和維度。度統一,通過不同的數據現象來執行數據,完成後,你會得到一些數據,如日報和週報,這時你需要根據需要將數據組織成一定的格式,然後引導mysql或hbase等。

數據倉庫工程師、大數據開發工程師、BI、ETL之間有什麼區別?

總之,您只需要收集、處理和導入和導出各種數據。

但是這些數據倉庫非常簡單,ETL工程師有太多的空間可以玩。

  • 1、通常,boss–>bi–>etl會給出報告。商務智能可以直接計算中間的數據嗎?SQL太複雜了,所以你能標記所有數據嗎,BI,甚至老闆可以選擇他想要的任何東西?
  • 2、ETL工程師可以自動化數據收集、標準化業務日誌格式和配置所有內容,但這些都基於N+1。這就是說,今天發生的事明天一定要看。有沒有一個系統可以使數據分析實時或準實時?提到雙十一屏幕,只有當Ma在12號到達時,他才能知道他已經做了多少交易而不拆分這些數據。
  • 3、目前,大多數分析系統都是基於離線計算(hadoop/odps)。這裡有個問題。如果您希望在Operation或BI中看到數據,則必須先放慢脫機速度,然後才能看到它。是否有一個系統可以支持您使用任何更大的數據量和更復雜的邏輯以毫秒為單位生成數據?
  • 我沒有提到算法工程師,大數據操作工程師等等。數據倉庫的概念非常廣泛,但在面對大型數據應用時卻不值得一提。

如果我們對數據的價值進行分層,有很多方法可以進行分層。我只列出一種方法,有些人有五個等級。

  • 第一層:為老闆提供決策支持,如傳統的財務報表
  • 第二層:為運營提供決策支持,如淘寶運營商,這些運營商完全數字化。
  • 第三層:為產品提供支持。例如,產品經理每天都會在報告中查看其中一個按鈕的位置。
  • 第四層:生產數據,如直接對接廣告系統產生收入,如直接對接推薦系統為用戶推薦產品,實現數千人,然後,例如,使用移動應用直接推送不同用戶的消息。
  • 第五層:大數據交換,直接受益於數據生成

大多數公司都能達到前兩個層次已經很好了,如果能達到第三個層次,就已經很有說服力了,要達到第四和第五個層次,國內互聯網公司不超過2家,大數據應用太大了。


分享到:


相關文章: