本文內容較豐富,建議收藏後閱讀
》》》文末有乾貨》》》
在這篇文章中,筆者將假設大家對數據挖掘已經有了一定了解。對數據挖掘不瞭解的讀者可以參考這篇文章:
要想學好機器學習,數據挖掘的技能是必須具備的。因為在真實的生產環境中,最費時的往往不是模型的選擇與調優,而是數據的收集與處理!
所以今天,筆者將為大家分享7款專門用於數據挖掘的精品開源工具,幫助大家事半功倍地完成各種任務:
Weka
Weka是一款基於Java的免費開源軟件(擁有GNU, GPL證書)。可以在Windows, MacOS和Linux上使用。它包含了各種數據挖掘的機器學習算法;以及用於數據預處理、分類、迴歸、聚類和可視化的工具。
Weka擁有一個友好的圖形界面, 主要用於數據的可視化。我們可以用各種格式的文件導入原始數據,並對它們進行各種挖掘操作(比如篩選、聚類、分類和特徵選擇等)。
Rapid Miner
Rapid Miner是一個領先的預測分析平臺,同時提供商業版本和開源版本。Rapid Miner通過一體機編程環境和易用且豐富的數據科學算法庫,幫助企業將預測分析嵌入到其業務流程中。
除了基本的數據清理、聚類等標準數據挖掘功能外, 該軟件還有以下特點:
- 內置模板
- 專業的可視化環境
- 對Python、R等語言的無縫集成
在生產環境下,這些特性都有助於快速完成任務。所以Rapid Miner被廣泛用於商業、研究和教育領域。
Orange
如果你已經有一定的Python數據科學基礎,那你可能對Orange已經比較熟悉。它是一個Python庫,通過豐富的挖掘和機器學習算法來支持Python腳本。
Orange被用於數據預處理、分類、建模、迴歸、聚類等常規數據挖掘任務。如圖,Orange 還配備了可視化編程環境, 以及非常易於使用的UI(比如一些可以拖動的組件)。由於Python語言本身的簡便性,Orange可以成為新手投入數據挖掘的一個很好的切入點。
Knime
Knime是領先的數據分析、集成和報告平臺之一。它是用Java編寫的,擁有一個友好的圖形界面。
如圖,Knime的圖形界面提供了創建數據流、數據預處理、收集、分析、建模等選項。
值得一提的是,Knime擁有龐大的用戶群和活躍的開源社區。它利用Eclipse的擴展功能為文本和圖像挖掘等所需功能添加插件。可以說,Knime是商業使用的理想選擇。
DataMelt
Datamelt(也稱Dmelt)的功能不僅限於是數據挖掘:它是一個計算平臺,提供統計、數字、符號計算、數據可視化等功能。
DataMelt使用3D圖形和直方圖提供線性迴歸、曲線擬合、聚類分析、神經網絡、模糊算法、分析計算和交互式可視化等數據挖掘功能。
我們可以使用其自帶的IDE(集成開發工具包)來使用它,也可以使用其Java API從應用程序調用它的功能。
DataMelt非常適合學生、工程師和科學家。Apache Mahout
Mahout 主要是一個機器學習算法庫, 可幫助進行聚類、分類和模式挖掘。它可以在分佈式的系統下使用(比如Hadoop)以大幅提升
運行效率。當下,Mahout正被一些科技行業的巨頭使用,比如大名鼎鼎的Adobe、AOL和Drupal等。如果你需要並行化地挖掘海量數據,那麼Mahout就是你最好的選擇。
ELKI
ELKI是用Java編寫的開源軟件。它特別側重於聚類分析和異常值檢測兩個領域,集成了大量的相關算法。
ELKI擁有一個圖形見面,使用時在其中選定算法並運行即可顯示結果。
ELKI的設計目標是高性能、可擴展性、和模塊化設計。但是作為開源軟件,ELKI目前不提供官方的專業支持,因此,它最適合研究人員。
相關乾貨:
想要系統地學好機器學習嗎?這裡有一份精品課程資源等你領取!
請先點擊關注;然後私信發送“頂級大學資源”
即可領取一份筆者精心整理的機器學習課程資源(中文字幕)
機器學習乾貨君致力於原創易於理解的技術原理與細節文章
I Studied Hard,
So YOU Don't Have To !
歡迎大家關注: )
閱讀更多 機器學習乾貨君 的文章