不敲代碼,也可以機器學習、數據挖掘——IBM SPSS Modeler

IBM SPSS Modeler 簡介

作為 IBM 分析與預測解決方案的重要組成部分,IBM SPSS Modeler 是一組數據挖掘工具,通過這些工具可以採用商業技術快速建立預測性模型,並將其應用於商業活動,從而改進決策過程。

隨著於 2010 年其新版本 14.1 的發佈,名字也由 PASW Modeler 更名為現在的 IBM SPSS Modeler 。

Modeler是第一款以圖形化"語法"為用戶界面的數據挖掘軟件。Modeler擁有豐富的數據挖掘算法,操作簡單易用,分析結果直觀易懂,圖形功能強大,支持與數據庫之間的數據和模型交換,可以使用戶方便快捷地實現數據挖掘。

SPSS Modeler 提供了各種藉助機器學習、人工智能和統計學的建模方法。通過建模選項板中的方法,您可以根據數據生成新的信息以及開發預測模型。

每種方法各有所長,同時適用於解決特定類型的問題。其操作與數據分析的一般流程相吻合。

數據分析通常通過數據收集、數據預處理、模型建立、模型評價等環節。

Modeler形象地將這些環節表示成若干個節點,將數據分析過程看作數據在各個節點之間的流動,並通過圖形化的數據流方式,直觀表示整個數據挖掘的各個環節。

熟悉界面

典型的 SPSS Modeler 界面如下:

不敲代碼,也可以機器學習、數據挖掘——IBM SPSS Modeler

基本概念:節點

節點代表要對數據執行的操作。

例如,假定您需要打開某個數據源、添加新字段、根據新字段中的值選擇記錄,然後在表中顯示結果。在這種情況下,您的數據流應由以下四個節點組成:

節點示例:

不敲代碼,也可以機器學習、數據挖掘——IBM SPSS Modeler

基本概念:數據流

SPSS Modeler 進行的數據挖掘重點關注通過一系列節點運行數據的過程,我們將這一過程稱為數據流。也可以說 SPSS Modeler 是以數據流為驅動的產品。這一系列節點代表要對數據執行的操作,而節點之間的鏈接指示數據的流動方向。如,上面提到的四個節點可以創建如下數據流:

不敲代碼,也可以機器學習、數據挖掘——IBM SPSS Modeler

通常,SPSS Modeler 將數據以一條條記錄的形式讀入,然後通過對數據進行一系列操作,最後將其發送至某個地方(可以是模型,或某種格式的數據輸出)。

使用 SPSS Modeler 處理數據的三個步驟:

1.將數據讀入 SPSS Modeler。

2.通過一系列操縱運行數據。

3.將數據發送到目標位置。

在 SPSS Modeler 中,可以通過打開新的數據流來一次處理多個數據流。會話期間,可以在 SPSS Modeler 窗口右上角的流管理器中管理打開的多個數據流。

不敲代碼,也可以機器學習、數據挖掘——IBM SPSS Modeler

節點選用板

不敲代碼,也可以機器學習、數據挖掘——IBM SPSS Modeler

每個選項板選項卡均包含一組不同的流操作階段中使用的相關節點,如:

源:此類節點可將數據導入 SPSS Modeler,如數據庫、文本文件、SPSS Statistics 數據文件、Excel、XML 等。

不敲代碼,也可以機器學習、數據挖掘——IBM SPSS Modeler

包含SPSS Modeler可以直接讀取的所有數據源格式,主要有數據庫、變量文件、固定文件、Excel文件、SAS文件、Statistics文件等。

記錄選項:此類節點可對數據記錄執行操作,如選擇、合併和追加等。

不敲代碼,也可以機器學習、數據挖掘——IBM SPSS Modeler

用於對數據進行轉換,包含選擇、彙總、排序、合併、追加、區分等。

其中:

"選擇"節點:選出符合我們條件的數據;

"彙總"節點:將數據按照特定條件進行彙總統計;

"排序"節點:將數據按照一定的規則進行排序;

"合併"節點:將兩個及以上的文件按照關鍵字等進行整合;

"追加"節點:將兩個及以上的文件進行數據的累加;

"區分"節點:按照條件將重複數據刪除。

在記錄上進行操作,一條記錄是一種"情形"或一"行"數據。

字段選項:此類節點可對數據字段執行操作,如過濾、導出新字段和確定給定字段的測量級別等。

不敲代碼,也可以機器學習、數據挖掘——IBM SPSS Modeler

用於對列進行轉換,包含類型過濾導出填充轉置字段重排等。在字段上進行操作,一個字段是一個變量/指標。

圖形:此類節點可在建模前後以圖表形式顯示數據。圖形包括散點圖、直方圖、網絡節點和評估圖表等。

不敲代碼,也可以機器學習、數據挖掘——IBM SPSS Modeler

用於數據的可視化分析,包裹SPSS Modeler可以生成的主要圖形,如分佈圖、直方圖、多重散點圖、網絡圖、時間散點圖、評估圖等,在建模之前和之後用來可視化數據。

建模:此類節點可使用 SPSS Modeler 中提供的建模算法,如神經網絡、決策樹、聚類算法和數據排序等。

不敲代碼,也可以機器學習、數據挖掘——IBM SPSS Modeler

包含了豐富的數據挖掘模型,提供了一系列的數據挖掘技術,用來進行預測、聚類、關聯、分類等,可滿足數據挖掘的應用需求。

數據庫建模:節點使用 Microsoft SQL Server、IBM DB2 和 Oracle 數據庫中可用的建模算法直接在數據庫裡進行建模及評估。

輸出:節點生成數據、圖表和可在 SPSS Modeler 中查看的模型等多種輸出結果。

不敲代碼,也可以機器學習、數據挖掘——IBM SPSS Modeler

輸出不僅僅是ETL過程,還包括了對數據的統計分析報告輸出,如表、矩陣、分析、數據審核、變換、統計量等。

導出:節點生成可在外部應用程序(如 IBM SPSS Data Collection 或 Excel)中查看的多種輸出。

不敲代碼,也可以機器學習、數據挖掘——IBM SPSS Modeler

導出的格式與"源"選項卡類似,包含數據庫、Excel、SAS導出、Statistics導出等,用來對處理後的結果輸出成相應格式。

IBM SPSS Statistics選項卡:為了提高客戶日常工作的效率,將 IBM SPSS Statistics 數據導入或導出為 SPSS Statistics 數據,以及運行 SPSS Statistics 提供的功能。設置該節點便於模型結果的再利用,從而實現與SPSS Statistics的兼容。

不敲代碼,也可以機器學習、數據挖掘——IBM SPSS Modeler

Text Analytics文本挖掘選項卡:如果SPSS Modeler沒有安裝文本挖掘模塊,則工具欄上將沒有該工具,該節點是為了實現文本挖掘而添加的。

不敲代碼,也可以機器學習、數據挖掘——IBM SPSS Modeler

隨著對 SPSS Modeler 的熟悉,您可以在收藏夾自定義常用的選項板內容。

使用節點和流

要將節點添加到工作區,請在節點選項板中雙擊圖標或將其拖放到工作區。

已添加到流工作區的節點在連接之前不會形成數據流,可以將各個圖標連接以創建一個表示數據流動的流,節點之間的連接指示數據從一項操作流向下一項操作的方向。

創建了流以後,可以對流進行保存、添加註解,將其添加到工程。

從文件主菜單中,選擇流屬性還可以為流設置各種選項,如優化、日期和時間設置、參數和腳本。

使用流屬性對話框中的消息選項卡,可以輕鬆查看有關運行、優化和模型構建和評估所用時間等流操作有關的消息,流操作的錯誤消息也將在這裡報告。

SPSS Modeler 管理器

可以使用流選項卡打開、重命名、保存和刪除在會話中創建的多個流。

不敲代碼,也可以機器學習、數據挖掘——IBM SPSS Modeler

輸出選項卡中包含由 SPSS Modeler 中的流操作生成的輸出或圖形文件。您可以顯示、保存、重命名和關閉此選項上列出的表格、圖形和報告。

不敲代碼,也可以機器學習、數據挖掘——IBM SPSS Modeler

模型選項卡是管理器選項卡中功能最強大的選項卡。該選項卡中包含所有模型塊,如當前會話中生成的模型,通過 PMML 導入的模型等。這些模型可以直接從模型選項卡上瀏覽或將其添加到工作區的流中進行數據分析。

不敲代碼,也可以機器學習、數據挖掘——IBM SPSS Modeler

窗口右側底部是工程工具,用於創建和管理數據挖掘工程(與數據挖掘任務相關的文件組)。有兩種方式可查看您在 SPSS Modeler 中創建的工程 - 類視圖或 CRISP-DM 視圖。

依據跨行業數據挖掘過程標準 CRISP-DM選項卡提供了一種組織工程的方式。不論是有經驗的數據挖掘人員還是新手,使用 CRISP-DM 工具都會使您事半功倍。

不敲代碼,也可以機器學習、數據挖掘——IBM SPSS Modeler

類選項卡提供了一種在 SPSS Modeler 中按類別(按照所創建對象的類別)組織您工作的方式。此視圖在獲取數據、流、模型的詳盡目錄時十分有用。

不敲代碼,也可以機器學習、數據挖掘——IBM SPSS Modeler


分享到:


相關文章: