玩轉“可視化ETL”,這個BI工具有能力!

看看一個ETL工程師的吐槽:

ETL工程師 : 我是食物鏈最底層的苦逼ETL工程師,我會寫shell、我會搭hadoop/hive/hbase、會寫超複雜邏輯的sql,今天那個不會自己計算數據的BI又讓我跑幾個數據,我本想讓她提需求流程的,但她說這是老闆要的(運營慣用的殺手鐧!!!),要加急處理,我只能放下手頭的活兒給她跑數據了,花了半個小時把數據跑好給她,希望能就這麼交差吧。

如果你以為我每天就做這點事那你就錯了,我平時的工作可不僅僅就是完成上面交給我的任務哦,我還負責數據ETL過程、數據建模、定時任務的分配、甚至有時Hadoop集群的維護等等都得我去做,每件事單獨拿出來都可以拿出來寫本書。就拿ETL過程來說吧,你要把原始數據從各種數據庫、各種服務器的不同業務日誌歸一化到同一類格式,要約定好分隔符,然後導入到分佈式文件系統HDFS,甚至你還要和業務系統定義數據格式出規範,數據收集完,你還得出中間表,數據過濾,格式統一,ID統一,維度統一,通過不同的數據現象進行數據,完了,你就得出一些日報週報之類的數據了,這時候你要按照需求把數據組織成一定的格式然後導Mysql、或者HBASE等等。總之你就是需要把數據各種收集、各種處理、然後各種導入導出,是不是很有意思?

說到ETL,我們可以先來了解一下,什麼是ETL,百度百科給出的答案是這個:ETL,是英文Extract-Transform-Load的縮寫,用來描述將數據從來源端經過抽取(extract)、轉換(transform)、加載(load)至目的端的過程。ETL一詞較常用在數據倉庫,但其對象並不限於數據倉庫。

ETL是BI項目中重要的一個環節,用戶從數據源抽取出所需的數據,經過數據清洗,最終按照預先定義好的數據模型,將數據加載到數據倉庫中去,為後續的數據分析提供數據支撐。

市面上最常用的是BI+ETL工具,這樣就會造成成本高、花費時間長,億信華辰ABI就自帶ETL,省時省力。包含完整抽取、轉換、加載過程,通過簡單的拖拽就可以輕鬆完成ETL過程。

玩轉“可視化ETL”,這個BI工具有能力!

場景應用

1 通過數據清洗加工獲取目標數據

場景說明:需要根據已知的基礎工資和獎金數據,導出實際工資數據。

步驟一:抽取

拖拽表輸入組件到設計面板,從SCOTT數據庫抽取EMP表.並可以預覽數據

玩轉“可視化ETL”,這個BI工具有能力!

步驟二:轉換

拖拽清洗組件,並把獎金字段的NULL值替換成0,具體操作如圖。

玩轉“可視化ETL”,這個BI工具有能力!

增加表達式組件,增加工資字段=基礎工資+獎金.定義字段為浮點型,字段長度7,精度2。


玩轉“可視化ETL”,這個BI工具有能力!

步驟三:加載

拖拽表輸出組件,加載到LE_TE數據庫,新建EMP表.還可以預覽最終數據。


玩轉“可視化ETL”,這個BI工具有能力!

玩轉“可視化ETL”,這個BI工具有能力!

以上通過億信ABI,完成了簡單的拖拽式ETL過程。

2 串聯ETL過程

場景說明:抽取到最新的學生信息、成績信息、課程信息,計算學生總成績並實現每日數據抽取。

步驟一:製作ETL過程流,拉取學生信息,考試成績信息,課程信息。

玩轉“可視化ETL”,這個BI工具有能力!

步驟二:通過貼源抽取到最新的學生信息,成績信息,課程信息.計算學生總成績。


玩轉“可視化ETL”,這個BI工具有能力!

步驟三:設置調度任務,定時執行ETL過程流。這樣,一個串行的ETL過程就完成了。

玩轉“可視化ETL”,這個BI工具有能力!

將ETL工具和BI完美融合的數據分析工具,數億信ABI最厲害!完美融合,省時省力,提高工作效率!


分享到:


相關文章: