5大算法技術,10個學習包,機器學習的乾貨收藏了

5大算法技術,10個學習包,機器學習的乾貨收藏了

來源 | 異步


5大算法技術,10個學習包,機器學習的乾貨收藏了


提起人工智能,就好像空氣一樣,早已和我們的生活融為一體。大到數據龐雜的物聯網絡、小到可以任意調戲的siri,人工智能以各種具象的載體,成為生活的一部分。

如果說高等數學是人工智能的基礎和大前提,那麼機器學習就是真正把知識技術轉化為生產力和產品的重要實用型環節了。


5大算法技術,10個學習包,機器學習的乾貨收藏了


但機器學習是一門多學科的交叉專業,涵蓋概率論,統計學,近似理論和複雜算法等知識,使用計算機為工具並致力於真實實時的模擬人類學習方式,並將現有內容進行實時結構劃分來有效提高學習效率。

算法決定了機器如何解釋大數據。執行機器學習的算法會影響學習的結果。要學好機器學習,最重要就是學會這五大主要流派的算法技術。

五大主要流派的算法技術


1

符號推理

逆演繹通常表現為歸納。對於符號推理,“演繹”擴大了人類知識的領域,而“歸納”提升了人類知識的水平。“歸納”通常打開新的探索領域,而“演繹”讓人們探索這些領域。然而,最重要的理念是,歸納是這種推理的科學部分,而演繹是工程部分。


2

通過大腦神經元對連接進行建模

連接主義者也許是五大流派中最著名的一個。這個流派試圖使用硅晶片而不是神經元來重現大腦的功能。從根本上講,每一個神經元(被創建為算法,對現實世界中的相應部分進行建模)都能解決問題的一小部分,而並行使用許多神經元可以解決整個問題。


3

測試變化的進化算法

進化算法的解決方案使用樹形結構,在函數輸出的基礎之上尋找最佳解決方案。每層進化的獲勝者都可以構建下一層的功能。核心想法是,下一層將更接近問題的解決,但是可能不會完全解決該問題,這意味著還需要新的層級。這個特殊的流派在很大程度上依賴遞歸和強力支持遞歸的語言來解決問題。這種策略的輸出非常有趣,就是算法可以演化:當代算法構建了下一代算法。


4

貝葉斯推理

這個流派所支持的想法是:在沒有看到用於建立假設的證據(別人用來作出假設的輸入)之前,永遠不要過於信賴任何假設(別人給你的結果),要分析那些用於證明或反駁某個假設的證據。因此,在你測試所有症狀之前,無法確定某人患有哪種疾病。這個流派最知名的成果之一是垃圾郵件過濾器。


5

通過類比進行學習的系統

類比學習器使用內核機器來識別數據中的模式。通過識別一組輸入的模式,並將其與已知的輸出模式進行比較,你就可以創建一個問題的解決方案。其目標是使用相似性來確定問題的最佳解決方案。這個流派最知名的成果之一是推薦系統。例如,當你登錄電商亞馬遜(Amazon)併購買產品時,推薦系統會提供你可能還想購買的其他相關產品。


十個必學的機器學習包

1.Cloudra Oryx

Oryx提供的功能是基於Apache Kafka和Apache Spark構建的。該產品的常見任務是實時垃圾郵件過濾器和推薦引擎。你可以從Github上下載Oryx。


2.CUDA-Convnet

CUDA-Convnet庫為NVidia的CUDA GPU處理器提供了特定的支持,這意味著它能以平臺的靈活性為代價提供更快的處理能力(你必須在系統中擁有一個CUDA處理器)。在大多數情況下,這個庫可以用於神經網絡應用。


3.ConvNetJS

CUDA-Convnet為重型桌面應用程序提供支持,而ConvNetJS為JavaScript應用程序提供圖像處理支持。這個庫的重要特點是它是異步工作的。當你進行調用時,應用程序繼續工作。


4.E1701

本書沒有直接展示e1071的這些用途,但是在本書中你可以找到許多相關的基礎知識,例如樸素貝葉斯。


5.Gbm

梯度增強機(gradient boosting machines,GBM)算法使用梯度下降優化來確定組合學習中合適的學習權。它帶來的性能提升令人印象深刻,GBM成為你可以用於機器學習的最強大的預測工具之一。


6.Gensim

Gensim是一個Python庫,可以對文本數據執行自然語言處理(NLP)和無監督學習。它提供了多種算法可供選擇:詞頻—逆文檔頻率、隨機投影、潛在Dirichlet分配、潛在語義分析和兩種語義算法——word2vec和document2vec。


7.Glmnet

當你有很多特徵,並且想要通過預測變量之間的多重共線性來減少估計的方差時,正則化則是一個有效的、快速且簡單的解決方案。


8.romdonForest

你可以通過它,使用隨機輸入來執行基於森林的分類和迴歸任務。這個軟件包的Python版本為RandomForestClassifier和Random-ForestRegressor,它們都可以在scikit-learn中找到,scikit-learn是用於本書中大多數Python示例的一個包。


9.Scipy

SciPy棧包含許多其他庫,你也可以單獨下載它們。這些庫為數學、科學和工程提供了支持。當你獲得SciPy棧時,會得到一組用來創建各種應用程序以協同工作的庫。這些庫如下:

● NumPy;

● SciPy;

● matplotlib;

● IPython;

● Sympy;

● pandas。


SciPy庫專注於數值例程,例如用於數字集成和優化的例程。SciPy庫是為多個問題域提供功能的通用庫。它還提供對特定領域庫的支持。


10.XGBoost

XGBoost軟件包使你可以將GBM應用於任何問題,這要歸功於其廣泛的目標功能和評估指標的選擇。它適用於各種編程語言,包括Python、R、Java和C ++。


由淺入深講解機器學習


購買請到異步社區

5大算法技術,10個學習包,機器學習的乾貨收藏了

《機器學習 入門與實戰》


本書是“達人迷”經典系列中關於機器學習的一本適合Python程序員、R程序員、數據分析人員、機器學習領域的從業人員以及對算法感興趣的讀者閱讀,對於有相關基礎並有意願學習機器學習的人士來說也是一本優秀的入門書籍。


本書內容分為6個部分,共計23章,由淺入深地講解機器學習的基本知識,本書使用的語言——Python和R,必備數學知識,處理數據的常用工具,機器學習的應用,以及常見的學習包、模型等6個方面,以幫助讀者瞭解並掌握機器學習的相關知識、並能將其應用於自己的工作中。


5大算法技術,10個學習包,機器學習的乾貨收藏了

5大算法技術,10個學習包,機器學習的乾貨收藏了


向上滑動查看目錄

5大算法技術,10個學習包,機器學習的乾貨收藏了


-END-


分享到:


相關文章: