翻譯:王婷
校對:丁楠雅
本文共4700字,建議閱讀10+分鐘。
本文為你介紹GUI驅動的數據科學工具,幫助新手構建高質量的機器學習模型。
引言
編程是數據科學的一個組成部分。事實上,理解編程邏輯、循環和函數的人更有可能成為成功的數據科學家。但那些在學校裡從未學習過編程的人怎麼辦?
難道他們就沒辦法成為一名數據科學家了嗎?
近年來,隨著數據科學的蓬勃發展,許多人都有興趣進入這個領域。但對編程卻一籌莫展。事實上,在我的第一份工作之前,我也是非編程聯盟的成員。因此,我明白當一個你從未學過的東西在任何一步都困擾著你的時候,有多麼可怕。
好消息是無論你的編程技巧如何,你都有辦法成為數據科學家!有一些工具可以避免編程,並提供用戶友好的GUI(圖形用戶界面),因此任何對算法知之甚少的人都可以簡單地使用它們來構建高質量的機器學習模型。
許多公司(尤其是初創公司)最近推出了GUI驅動的數據科學工具。我盡力在本文中介紹一些重要的工具,並儘可能提供視頻。
注意:所有提供的信息都是從開源信息源收集的。我們只是展示一些事實而不是觀點。我們決不會嘗試宣傳或為任何產品/服務打廣告。
以下是本次介紹的工具列表:
1. RapidMiner
鏈接:
https://rapidminer.com/
介紹視頻:
https://www.youtube.com/embed/ma14K56fNAM?feature=oembed&width=500&height=750
RapidMiner(RM)最初於2006年作為一款名為Rapid-I的開源獨立軟件被啟動。多年來,他們以RapidMiner的名字給它命名,並獲得了約3500萬美元的資金。該工具的舊版本(低於v6)是開源的,但最新版本會有14天的試用期並在此之後需要許可證。
RM涵蓋了預測建模的整個生命週期,從數據準備到建模,最後驗證和部署。GUI基於一個框圖方法,與Matlab Simulink非常相似。有預定義的塊用作即插即用設備。你只需要以正確的方式連接它們,就可以在沒有一行代碼的情況下運行各種各樣的算法。最重要的是,它們允許將自定義的R和Python腳本集成到系統中。
目前的產品包括以下內容:
- RapidMiner Studio:一款可用於數據準備、可視化和統計建模的獨立軟件。
- RapidMiner服務器:它是一個企業級環境,具有中央存儲庫,可以輕鬆進行團隊工作,項目管理和模型部署。
- RapidMiner Radoop:實現以Hadoop為中心的大數據分析功能。
- RapidMiner Cloud:一個基於雲的存儲庫,可以輕鬆地在各種設備之間共享信息。
RM目前已經應用於汽車、銀行、保險、生命科學、製造業、石油和天然氣、零售、電信和公用事業等各個行業。
2. DataRobot
鏈接:
https://www.datarobot.com/
介紹視頻:
https://youtu.be/wZCNKDX1q4o
DataRobot(DR)是一款高度自動化的機器學習平臺,由全球最好的Kagglers構建,包括Jeremy Achin,Thoman DeGodoy和Owen Zhang。該平臺聲稱已經消除了對數據科學家的需求。這從他們網站的一句話中可以明顯看出 - “數據科學需要數學和統計資質、編程技能和商業知識。藉助DataRobot,你只需提供商業知識和數據,而我們的尖端自動化負責其餘部分。”
DR宣稱具有以下優點:
- 模型優化:
- 平臺通過採用文本挖掘、變量類型檢測、編碼、插補、縮放、轉換等自動檢測最佳數據預處理和特徵工程。
- 根據誤差度量和驗證集合分數自動選擇超參數。
- 並行處理:
- 計算被分給數千個多核服務器。
- 使用分佈式算法來擴展到大型數據集。
- 部署:
- 只需點擊幾下即可輕鬆部署設施(無需編寫任何新代碼)。
- 對於軟件工程師:
- Python SDK和API可用於將模型快速集成到工具和軟件中。
3. BigML
鏈接:
https://bigml.com/
介紹視頻:
https://youtu.be/JVM8qIn3xPQ
BigML提供了一個良好的圖形用戶界面,可以讓用戶通過以下6個步驟掌握:
- 來源:使用各種信息來源
- 數據集:使用定義的源創建數據集
- 模型:製作預測模型
- 預測:基於模型生成預測
- 合成:創建各種模型的合成
- 評估:針對驗證集的非常模型
這些過程顯然會以不同的順序迭代。BigML平臺提供了很好的結果可視化,並具有求解分類、迴歸、聚類、異常檢測和關聯發現問題的算法。他們提供按月、季度和年度訂閱捆綁在一起的幾個軟件包。他們甚至提供免費套餐,但上傳數據集的大小限制為16MB。
您可以通過他們的YouTube頻道瞭解他們的界面如何運作。
4. Google Cloud AutoML
鏈接:
https://cloud.google.com/automl/
介紹視頻:
https://youtu.be/GbLQE2C181U
Cloud AutoML是Google機器學習組件的一部分,它允許有限ML專業知識的人員來構建高質量模型。作為Cloud AutoML產品組合的一部分,第一款產品是Cloud AutoMLVision。該服務使得訓練圖像識別模型變得更加簡單。它具有拖放界面,可以讓您上傳圖像,訓練模型,然後直接在Google Cloud上部署這些模型。
Cloud AutoML Vision基於Google的遷移學習和神經架構搜索等技術。這個工具已經被很多組織所使用。看看這篇文章,看看AutoML在兩個驚人的現實生活例子的表現,以及它如何產生比任何其他工具更好的結果。
5. Paxata
鏈接:
https://www.paxata.com/
介紹視頻:
https://youtu.be/bxxsCLmXmms
Paxata是少數幾家專注於數據清洗和預處理的組織之一,而不是機器學習或統計建模部分。這是一個易於使用的MS Excel類應用程序。它還提供了可視化的指導,可以輕鬆地將數據彙集在一起,查找並修復數據中混雜的噪音或缺失,以及在團隊之間共享和重複使用數據項目。與本文中提到的其他工具一樣,Paxata取消了編碼或腳本,從而克服了處理數據所涉及的技術障礙。
Paxata平臺遵循以下流程:
- 添加日期:使用廣泛的來源獲取數據。
- 探查:使用強大的視覺效果進行數據探查,使用戶可以輕鬆識別數據中的空白。
- 清理+更改:使用插補等步驟執行數據清理,使用NLP對相似值進行規範化,檢測重複值。
- 形狀:製作數據的樞紐,執行分組和聚合。
- 分享+管理:允許在強有力的身份驗證和授權的情況下進行分享和協作。
- 結合:專有技術稱為SmartFusion允許通過1次點擊結合數據幀,因為它可以自動檢測到最佳組合;多個數據集可以組合成一個AnswerSet。
- 商務智能工具:可以在常用的商務智能工具中輕鬆實現最終答案集的可視化;還可以輕鬆實現數據預處理和可視化之間的迭代。
Praxata已經涉足金融服務、消費品和網絡領域。如果您的工作需要大量數據清洗,它可能是一個很好的工具。
6. Trifacta
鏈接:
https://www.trifacta.com/
介紹視頻:
https://youtu.be/L-jWAsJNmAU
Trifacta是另一家重點關注數據預處理的創業公司。它有3種產品:
- Wrangler:一款免費的獨立軟件。允許處理多達100MB的數據。
- WranglerPro:上述的升級版本。它允許單用戶和多用戶並且數據量限制為40GB。
- WranglerEnterprise:Trifacta的終極產品。它對處理的數據量沒有任何限制,並允許無限制的用戶。非常適合大型組織。
Trifacta提供了一個非常直觀的GUI來執行數據清洗。它將數據作為輸入並按列提供各種統計數據的摘要。另外,對於每一列,它都會自動推薦一些可以通過單擊進行選擇的轉換。可以使用一些預先定義的函數對數據執行各種轉換,這些函數可以在界面中輕鬆調用。
Trifacta平臺使用以下數據準備步驟:
- 發現:首先看看數據和分佈,以便快速瞭解您的具體情況。
- 結構:為數據分配適當的形態和變量類型並解決異常。
- 清理:此步驟包括插補、文本標準化等過程。這是使數據模型準備就緒所必需的一步。
- 充實:此步驟有助於提高分析的質量,可以通過添加更多數據源或對現有數據執行一些功能工程來完成。
- 驗證:此步驟對數據執行最終檢測。
- 發佈:最後將數據導出以供進一步使用。
Trifacta主要應用於金融、生命科學和電信行業。
7. MLBase
鏈接:
http://mlbase.org/
介紹視頻:
https://youtu.be/W-WPclNo8v0
MLBase是加州大學伯克利分校的AMP(算法機器人)實驗室開發的一個開源項目。背後的核心思想是為機器學習應用於大規模問題提供一個簡單的解決方案。
它有3種產品:
- MLlib:它是Apache Spark中的核心分佈式ML庫。它最初是作為MLBase項目的一部分開發的,但現在Spark社區也支持它。
- MLI:用於特徵提取和算法開發的實驗性API,它引入了高級ML編程抽象。
- ML優化器:該層旨在自動執行ML管道構建任務。優化器通過包含在MLI和MLlib中的特徵提取器和ML算法來解決搜索問題。
8. Auto-WEKA
鏈接:
http://www.cs.ubc.ca/labs/beta/Projects/autoweka/
介紹視頻:
https://youtu.be/LcHw2ph6bss?list=PLm4W7_iX_v4NqPUjceOGd-OKNVO4c_cPD
Auto-WEKA是一個用Java編寫的數據挖掘軟件,由新西蘭懷卡託大學的機器學習小組開發。這是一個基於GUI的工具,對數據科學初學者非常有用。它的最大優點是它是開源的,開發人員提供了教程和論文來幫助你入門。你可以在AV的文章中瞭解更多相關信息。目前它主要應用於教育和學術目的。
9. Driverless AI
鏈接:
https://www.h2o.ai/driverless-ai/
介紹視頻:
https://youtu.be/KkvWX3FD7yI
Driverless AI是支持自動機器學習的h2o.ai企業的神奇平臺。這個鏈接上可以使用1月試用版的docker映像。您只需使用簡單的下拉列表選擇文件來訓練,測試並指定您想要跟蹤模型性能的指標。坐下來,看著界面直觀的平臺在你的數據集上訓練出優秀的結果,並能與一個經驗豐富的數據科學家能夠提出的好解決方案相比。
這些是Driverless AI 的業務功能:
- 它支持XGBOOST,GLM和K-Means等多GPU支持,即使對於大型複雜數據集也能提供出色的訓練速度。
- 自動功能工程,調整和綜合各種模型以產生高度準確的預測。
- 在訓練過程中,有解釋模型以及用於實時特徵重要性排序的面板的強大功能。
10. Microsoft Azure ML Studio
鏈接:
https://studio.azureml.net/
介紹視頻:
https://youtu.be/tW1JV6bHXFA
當這個領域有這麼多大牌玩家時,微軟怎麼會落後?Azure ML Studio是一個簡單卻強大的基於瀏覽器的ML平臺。它有一個可視化的拖放環境,不需要編程。他們已經為新手發佈了全面的教程和示例實驗,可以幫助他們快速掌握該工具。
它採用簡單的五個步驟:
- 導入數據集。
- 如有必要,執行數據清洗和其他預處理步驟。
- 將數據分解為訓練和測試集。
- 應用內置ML算法來訓練您的模型。
- 評價你的模型,並得到你的預測!
11. MLJar
鏈接:
https://mljar.com/
介紹視頻:
https://youtu.be/ijmw94h4qCk
MLJar是一個基於瀏覽器的平臺,用於快速構建和部署機器學習模型。它有一個直觀的界面,並允許您並行地訓練模型。它具有內置的超參數搜索功能,可以更輕鬆地部署模型。MLJar提供與NVIDIA的CUDA,python,TensorFlow等的集成。
你只需要執行三個步驟來建立一個不錯的模型:
- 上傳你的數據集。
- 訓練和調整許多機器學習算法並選擇最佳的算法。
- 使用最佳模型進行預測並分享您的結果。
目前該工具用於訂閱版本。它有一個免費的版本並且有0.25GB的數據集限制。這絕對值得一試。
12. Amazon Lex
鏈接:
https://aws.amazon.com/cn/lex/
介紹視頻:
https://youtu.be/d3LYlNqfuzI
Amazon Lex提供了一個易於使用的控制檯,可在幾分鐘內構建自己的聊天機器人。您可以使用Lex在應用程序或網站中構建對話界面。所有你需要做的是提供一些短語,Amazon Lex完成其餘步驟!它構建了一個完整的自然語言模型,使用該模型,客戶可以使用語音和文本與應用程序進行交互。
它還內置了與亞馬遜網絡服務(AWS)平臺的集成。Amazon Lex是一項完全託管服務,因此您的用戶參與度不斷增加,您無需擔心配置硬件和管理基礎設施以提高您的機器人體驗。
13. IBM Wastson Studio
鏈接:
https://www.ibm.com/cloud/watson-studio
介紹視頻:
https://youtu.be/1_W6Y3c2Aeg
本文怎麼能少了IBM Watson?它是世界上最知名的品牌之一。IBM Watson Studio為構建和部署學習機和深度學習模型提供了一個美麗的平臺。您可以交互式地發現、清理和轉換您的數據,使用Jupyter筆記本電腦和RStudio等熟悉的開源工具,訪問最流行的庫,訓練深度神經網絡以及大量其他事物。
對於剛進入這個領域的人來說,他們提供了一系列視頻以簡化入門階段。您可以選擇免費試用,並親自查看這款超棒的工具。以上視頻將指導您如何在Watson Studio中創建項目。
14. Automatic Statistician
鏈接:
https://www.automaticstatistician.com/index/
Automatic Statistician本身不是一個產品,而是一個創建數據探索和分析工具的研究機構。它可以採用各種數據,並以其自然語言處理為核心,生成詳細的報告。它由在劍橋和麻省理工學院工作的研究人員開發,並以75萬美元的價格贏得了Google的焦點研究獎。
它目前仍處於積極發展階段,但在不久的將來應該密切關注。您可以在這裡查看一些關於最終報告的示例。
更多工具
- KNIME (https://www.knime.com/)- 這個工具非常適合訓練機器學習模型。最初需要習慣,但是一開始使用就會覺得GUI很棒。它產生的結果與大多數工具相同,也是免費的。
- FeatureLab (http://www.featurelab.co/)- 它允許使用GUI進行簡單的預測建模和部署。最好的賣點之一是自動進行特徵工程。
- MarketSwitch (http://www.experian.com/decision-analytics/marketswitch-optimization.html)- 此工具更側重於優化而非預測分析。
- Logical Glue(http://www.logicalglue.com/) - 從原始數據到模型部署的另一個基於GUI的機器學習平臺。
- Pure Predictive (http://www.purepredictive.com/)- 該工具使用有專利的人工智能系統,該系統可以避免部分數據準備和模型調整;它使用AI將1000個模型組合成他們所謂的“超級模型”。
如果你是第一次聽到這些名字,你不是一個人!隨著越來越多的數據被收集,自動化機器學習的市場正在擴大。他們在未來幾年會被淹沒在市場中嗎?時間會證明一切。但是,這些優秀的工具可以幫助那些希望開始學習機器學習,或者正在尋找替代方案來添加到他們現有目錄的組織。
結束語
在本文中,我們已經討論了幾項旨在自動化解決數據科學問題的舉措。其中一些處於初期研究階段,一些是開源的,另一些已經在該行業中應用並有數百萬資金。所有這些都對數據科學家的工作構成了潛在威脅,預計這一工作在不久的將來會大幅增長。這些工具最適合那些不熟悉編程和編碼的人員。
如果你知道在這個領域探索的其他創業公司或計劃,請隨時在下面發表評論並啟發我們!
您也可以在Analytics Vidhya的Android APP上閱讀篇文章,可以在Google Play上獲取它。
原文標題:
19 Data Science and Machine Learning Tools for people who Don’t Know Programming
原文鏈接:
https://www.analyticsvidhya.com/blog/2018/05/19-data-science-tools-for-people-dont-understand-coding/
譯者簡介
王婷,南京理工大學在讀研究生,愛笑得有眼角魚尾紋的運氣不賴的女生。不喜歡呆板、教條、無聊,喜歡接觸新事物,參加新活動,融入新環境,結交新朋友,互相學習,取長補短。
閱讀更多 THU數據派 的文章