面向初學者的十大機器學習算法


面向初學者的十大機器學習算法

作者 | Rekhit Pachanekar

來源 | CDA數據分析師

Top 10 Machine Learning Algorithms For Beginners

英國數學家,計算機科學家,邏輯學家和密碼分析員艾倫·圖靈(Alan Turing)推測未來機器會具有智能。

“這就像一個學生,他從老師那裡學到了很多東西,但通過自己的工作又增加了很多的東西。當這種情況發生時,我覺得人們有義務將機器視為具有智能。”

為了舉例說明機器學習的影響,Man group的AHL Dimension計劃是一個51億美元的對沖基金,部分由AI管理。 該基金開始運作後,到2015年,儘管其管理的資產遠遠少於該基金,但其機器學習算法卻貢獻了該基金一半以上的利潤。

在閱讀了這個博客之後,您將能夠理解一些流行的和令人難以置信的機器學習算法背後的基本邏輯,這些算法已經被交易社區所使用,並且作為您踏上創建最佳機器學習算法的基石。他們是:

線性迴歸

線性迴歸的方法最初是在統計學中發展的,用於研究輸入和輸出數值變量之間的關係,後來被機器學習社區用來基於線性迴歸方程進行預測。

線性迴歸的數學表示法是一個線性方程,它結合了一組特定的輸入數據(x),以預測該組輸入值的輸出值(y)。線性方程式為每組輸入值分配一個係數,這些係數用希臘字母Beta(β)表示。

下面提到的方程式表示具有兩組輸入值x1和x2的線性迴歸模型。y表示模型的輸出,β0,β1和β_2是線性方程的係數。

y = β0+ β1x1+ β2x2

當只有一個輸入變量時,線性方程式表示一條直線。為了簡單起見,考慮β2是等於零,這將意味著,變量x2不會影響線性迴歸模型的輸出。在這種情況下,線性迴歸將代表一條直線,其等式如下所示。

y = β0+ β1x1

線性迴歸方程模型的圖形如下所示

面向初學者的十大機器學習算法

線性迴歸可以用來發現股票在一段時間內的總體價格趨勢。這有助於我們瞭解價格變動是正向是負向的。

邏輯迴歸

在邏輯迴歸中,我們的目標是產生一個離散值,即1或0。這有助於我們找到一種確定的方案答案。Logistic迴歸可以用數學表示為:

面向初學者的十大機器學習算法

邏輯迴歸模型類似於線性迴歸來計算輸入變量的加權和,但是它通過特殊的非線性函數,邏輯函數或S形函數運行結果,以產生輸出y。

S形/邏輯函數由以下方程式給出。

y = 1 / (1+ e-x)

面向初學者的十大機器學習算法

簡單地說,logistic迴歸可以用來預測市場的走向。

KNN分類

K最近鄰(KNN)分類的目的是將數據點分為不同的類別,以便我們可以基於相似性度量(例如距離函數)對它們進行分類。

從某種意義上說,KNN不需要一個明確的訓練學習階段,而是由相鄰數據點的多數票決定來進行分類。從而將目標數據點分配給在其k個最近的相鄰樣本中某類別數量最多的類。

讓我們考慮將下面圖片中的綠色圓圈分為1類和2類的任務。考慮基於1個最近鄰居的KNN的情況。在這種情況下,KNN將綠色圓圈分類為1類。現在,讓我們將最近鄰居的數量增加到3,即3最近鄰居。正如您在圖中看到的那樣,圓圈內有“兩個” 2類對象和“一個” 1類對象。KNN將綠色圓圈歸為2類對象,因為它形成了大多數對象。

面向初學者的十大機器學習算法

支持向量機(SVM)

支持向量機(SVM)最初是用於數據分析。首先一組訓練實例被輸入到SVM算法中,它們分別屬於一類別或另一個類別。然後,該算法可以構建一個模型,並開始將新的測試數據分配給它在訓練階段學習到的類別之一。

在支持向量機算法中,創建了一個超平面,該超平面用作類別之間的分界。當支持向量機算法處理一個新的數據點時,根據它出現的某一側,它將被分類為一種類別。

面向初學者的十大機器學習算法

當涉及到交易時,可以建立支持向量機算法,將股票數據分類為有利的買入、賣出或中性類,然後根據規則對測試數據進行分類。

決策樹

決策樹是一種類似於樹的支持決策的工具,可以用來表示因果關係。由於一個原因可能會有多種影響,因此我們將其列出來,非常像帶有分支的樹。

面向初學者的十大機器學習算法

我們可以通過組織輸入數據和預測變量,並根據我們指定的一些標準來構建決策樹。

建立決策樹的主要步驟是:

  1. 檢索金融工具的市場數據。
  2. 介紹預測變量(即技術指標,情緒指標,廣度指標等)
  3. 設置目標變量或所需的輸出。
  4. 在訓練和測試數據之間拆分數據。
  5. 生成訓練模型的決策樹。
  6. 測試和分析模型。
  • 決策樹的缺點是由於其固有的設計結構而易於過度擬合。

隨機森林

一個隨機森林算法旨在解決一些決策樹的侷限性。

隨機森林由決策樹組成,決策樹是代表決策過程或統計概率的決策圖。這些多個樹映射到單個樹,稱為分類或迴歸(CART)模型。

為了基於對象的屬性對目標對象進行分類,每棵樹都給出了一個分類,該分類被稱為對該類“投票”。然後,森林選擇投票數最多的類別。對於迴歸樹來說,它考慮了不同樹的輸出的平均值來進行迴歸。

面向初學者的十大機器學習算法

隨機森林算法的工作方式如下:

  1. 假設案例數為N,以N個案例的樣本作為訓練集。
  2. 假設M是輸入變量的個數,選擇一個m,使得m
  3. 每棵樹都長得儘可能大。
  4. 通過彙總n棵樹的預測(即多數票用於分類,平均值用於迴歸),預測新的數據。

人工神經網絡

在我們探索世界的過程中,人工神經網絡是我們的最高成就之一。如圖所示,我們已經創建了多個相互連接的節點,每個圓形節點代表一個人工神經元,箭頭代表從一個神經元的輸出到另一個神經元的輸入的連接。它們模仿了我們大腦中的神經元。簡單來說,每個神經元都通過另一個神經元來獲取信息,對其進行處理,然後將其作為輸出傳遞給另一個神經元。

面向初學者的十大機器學習算法

如果我們使用神經網絡來發現各種資產類別之間的相互依賴關係,而不是嘗試預測買入或賣出選擇,則神經網絡會更有用。

K-means聚類

在這種機器學習算法中,目標是根據數據點的相似性對其進行標記(聚類)。因此,我們沒有在算法之前定義聚類,而是算法在前進時找到了這些聚類。

一個簡單的例子是,根據足球運動員的數據,我們將使用K-means聚類,並根據他們的相似性對其進行標記。因此,即使沒有為算法提供預定義的標籤,也可以基於前鋒對任意球或成功剷球得分的偏好來對足球運動員進行聚類。

K均值聚類對那些認為不同資產之間可能存在表面上看不到的相似性的交易者是非常有用的。

面向初學者的十大機器學習算法

樸素貝葉斯定理

現在,如果您還記得基本概率,您就會知道,貝葉斯定理的表述方式是,假定我們對與前一事件相關的任何事件都具有先驗知識。 它是關於隨機事件A和B的條件概率(或邊緣概率)的一則定理。其中P(A|B)是在B發生的情況下A發生的可能性。 例如,要檢查您到辦公室遲到的可能性,您可能想知道您在途中是否會遇到任何形式的交通擁堵。

但是,樸素貝葉斯分類器算法假設兩個事件是彼此獨立的,這在很大程度上簡化了計算。最初,樸素貝葉斯定理只是想被用於進行學術研究,但現在看來,它在現實世界中也表現出色。

樸素貝葉斯算法可以在無完整的數據的情況下,用於查找不同參數之間的簡單關係。

遞歸神經網絡(RNN)

你知道Siri和Google助手在他們的編程中使用RNN嗎?RNN本質上是一種神經網絡,它在每個節點上都有一個存儲器,這使得處理順序數據變得容易,即一個數據單元依賴於前一個數據單元。

一種解釋RNN優於常規神經網絡的優勢的方法是,我們應該逐個字符地處理一個單詞。如果單詞是“ trading”,則正常的神經網絡節點會在移動到“ d”時忘記字符“ t”,而遞歸神經網絡會記住該字符,因為它具有自己的記憶。

面向初學者的十大機器學習算法

結論

根據Preqin的一項研究,已知1,360種量化基金在其交易過程中使用計算機模型,佔所有基金的9%。如果Quantopian這樣的公司在測試階段賺錢,並且實際上投資自己的錢並在實時交易階段拿錢,則會為個人的機器學習策略組織現金獎勵。因此,為了在競爭中領先一步,每個人,無論是數十億美元的對沖基金還是個人交易,都在試圖在其交易策略中理解和實施機器學習模型。

面向初學者的十大機器學習算法

掃碼進入CDA官方小程序,解鎖更多新鮮資訊和優質內容,還有免費試聽課程,不要錯過喲!


分享到:


相關文章: