Kettle 1:簡介及安裝注意事項

Greenplum 作為一款數據平臺軟件,多用於數據倉庫、數據湖等場景下,將多個源端數據抽取、轉換並加載到 Greenplum 數據庫可能是目前很多用戶較為關心的場景。

在數據集成方面,除了自己寫程序或腳本來實現特定的功能,有一款順手的ETL工具能大大提升工作效率。目前市場上現存的ETL工具或有部分ETL的CDC工具五花八門,老牌產品有Informatica、Datastage、Kettle 等,新秀有 NiFi、HVR 等。從今天開始,陸續給大家分享一些ETL相關的內容,分享中有任何建議請留言溝通。

Kettle簡介

話不多說,今天開始介紹的一系列文章都與 Kettle 相關,Kettle 這個ETL工具集,允許你管理來自不同數據庫的數據,通過提供一個圖形化的用戶環境來描述你想做什麼,而不是你想怎麼做。它是一款開源的ETL工具,純java編寫,可以在 Windows、Linux、Unix(包括Mac)上運行,運行高效穩定,圖形化界面使用方便,可以說是目前開源產品中用戶體驗最好的產品。但是在監控和集群運行方面仍然存在短板(後期在介紹NiFi的時候會體會更深)。

Kettle 起初由開發大神 MATT 開源,其目的就是統一多個數據源數據並輸出,目前它被日立公司收購,目前官方名稱為 Data Integration,已經發展到 Data Integration 9.x 版本。所以大家可能會在百度搜索時看到很多概念,請不要讓這些噪音混淆了你的判斷,你大爺仍然是你大爺,Kettle 仍然可以免費下載使用。

「實戰」助力數據庫開發之ETL篇 - Kettle 1:簡介及安裝注意事項

隨著 Kettle 版本的更迭,所支持的產品也越來越多,幾乎包含了目前我們所能遇到的絕大部分產品。當然功能越全,軟件包就越大,我在這裡採用的是 Kettle 7.0 版本,用的比較順手而已(當然我自己認為 6.x\\7.x 版本比較經典,國內好多廠商都是基於這兩個版本的 Kettle 進行的國產化),大家日常可以自行選擇版本。

Kettle安裝

Kettle 安裝簡單,由於其基於 Java 開發,所以首先需要在對應的環境下安裝 JDK,然後將下載的 Kettle 安裝包( https://jaist.dl.sourceforge.net/project/pentaho/Pentaho%209.0/client-tools/pdi-ce-9.0.0.0-423.zip )解壓縮,點擊 Data Integration 文件夾下的 spoon.sh/bat 運行即可,這裡最需要關注的是 Kettle 版本與 JDK 版本的對應關係。

Kettle下載地址

傳送門 –> https://sourceforge.net/projects/pentaho/files/

  • PDI 官方文檔:https://help.pentaho.com/Documentation

常見問題解答

傳送門 –> https://wiki.pentaho.com/display/EAI/Beginners+FAQ

與JDK對應關係

官方文檔指出:Since Kettle version 5 you need Java 7 (aka 1.7), download this version from Oracle(http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html). When the right version is not found on the path (verify with java -version on a command line) you can set this within the Spoon.bat file (see the set PATH line).

上面說的比較籠統,意指只要安裝JDK 1.7版本即可。

在實際使用過程中,如果您發現啟動報錯或有卡住不動的情形,可以簡單參考以下對應關係(僅為個人經驗)。

<code>Kettle 5.x --> JDK 1.6/JDK 1.7
Kettle 6.x --> JDK 1.7/JDK 1.8
Kettle 7.x/8.x --> JDK 1.8/<code>

Kettle 在 Mac 平臺的安裝注意事項

我這裡下載了 Kettle 7.1 版本的安裝包:pdi-ce-7.1.0.0-12.zip。解壓完後,如果直接點擊 Data Integration.app(Mac下啟動方式),程序是沒有任何反應的,但是直接在 terminal 中執行 spoon.sh 可以啟動,從 terminal 啟動呢,極有可能遇到菜單欄和資源庫 Connect 按鈕無法點擊問題。

這個問題大概是因為 macOS 的安全策略禁止了這個應用去訪問一些數據,此處只需要把這個應用的一些權限刪除即可,正確的操作姿勢應該是:

<code>$ cd data-integration
$ sudo xattr -dr com.apple.quarantine . Data\\ Integration.app
將整個文件夾拖到【應用程序】文件夾,通過Mac的程序塢打開。/<code>
「實戰」助力數據庫開發之ETL篇 - Kettle 1:簡介及安裝注意事項

Kettle 在 Windows/Linux/Unix 平臺的安裝注意事項

在 Mac 之外的平臺使用 Kettle,只需要執行壓縮包下的 Spoon.bat(windows) 或 spoon.sh(Linux/Unix) 即可。

「實戰」助力數據庫開發之ETL篇 - Kettle 1:簡介及安裝注意事項


分享到:


相關文章: