人工智能與量化投資--基於機器學習的投資策略的五個教訓


人工智能與量化投資--基於機器學習的投資策略的五個教訓

最近的幾篇文章認為,金融市場對於應用機器學習(ML)來說是一個糟糕的選擇。這些文章著重於市場或股票收益的預測,並列舉了這些收益的高斯性質或此類數據的“嘈雜性”作為得出結論的原因。通常,這些都是由數據科學家撰寫的,他們毫無疑問對自己的技術有深刻的瞭解,但是在他們要解決的問題上缺乏專業知識;我相信這些方法在如何解決問題方面存在缺陷。

在資產管理中,我們已經使用數據驅動的“定量”投資策略來管理資產的重要且不斷增長的部分。這應該是討論投資研究中的機器學習的起點。ML應該被定量驅動的個人用作工具,這些人是金融領域的專家,可以使他們的策略更高效,更有利可圖。成功引入ML的比較基準應該是ML無法輔助的當前策略。

在定量研究中引入機器學習

無論使用什麼軟件或系統,建立數據驅動的投資策略都需要執行多個步驟。首先,我們需要收集不同的數據集,例如公司財務,經紀人估計,定價和公司行為,對集團公司的分類數據以及許多不同類型的替代數據,以發現隱藏的信號。然後,需要將這些數據集進行組合,標準化,清除異常值,並將其轉變為具有經濟直觀意義的因素。然後,可以使用分析工具來分析這些因素對股票價格走勢的解釋程度,以及它們在一段時間內是否具有持續價值。最後,可以使用基於規則的方法或基於風險的優化等更復雜的方法將這些信號轉換為投資組合。

ML適合在哪裡?ML擅長查找數據模式。我們可以使用它的一種方法是增強我們傳統的數據驅動的投資策略,以發現和利用我們因子中的模式。這使我們可以建立模型來解釋各種因素下的股票表現。下圖顯示了該工作流程。

人工智能與量化投資--基於機器學習的投資策略的五個教訓


自動化機器學習

困難在於如何選擇和實現正確類型的ML 算法。使用像Python或R中可用的免費工具,新手數據科學家會迅速走入迷局,失敗的可能性更大。他們沒有經驗,無法知道什麼類型的算法適用於某個問題或如何有效地訓練它們。他們很容易陷入一個永恆的循環,即嘗​​試使用具有多種不同參數和數據排列的不同算法。

另一方面,僱用經驗豐富的數據科學家可能會很昂貴。幾乎沒有誰具備解決金融市場問題的所有必要技能。您很可能需要三個人:一位數據科學家來測試和驗證算法,一位工程師/程序員要在不同的環境中實現這些算法,以及一位瞭解數據並能夠智能地定義問題的專家。

人工智能與量化投資--基於機器學習的投資策略的五個教訓


要在ML中取得成功,就需要自動化更多的編程和統計組件。專家需要使用複雜的工具進行授權,使他們能夠以最少的產品支持形式從專業數據科學家那裡獲得最小的幫助來解決這些問題。為了進行分析,我們通過FactSet使用了DataRobot,這使我們能夠在將各種模型集成到實際產品組合之前對其進行研究,構建和自動化。

建立和測試我們的模型

為了表明ML可用於增強傳統的量化因子,我們建立了中國A股的股票預測模型。我們為2012年12月至2019年8月編制了CSI 800指數的股票表現和不同因子數據的月度快照。我們將目標變量設置為股票的未來一個月收益,並使用原始投資組合模型中的因子。

人工智能與量化投資--基於機器學習的投資策略的五個教訓


通過“適者生存”過程,我們針對該問題系統地測試了數十種不同的算法和預處理排列。首先,我們使用一部分歷史數據來訓練每個模型,然後在之前未曾見過的數據上測試該模型以確定其有效性。然後,通過不同的方法或優化指標對所有模型進行排名,以確定針對給定問題的最佳模型。

對我們的模型進行評估後,我們從前三個模型中獲取了預測,並將其重新納入了我們的分析模型。我們建立了均等加權的投資組合,在其中我們購買了預測的前20%,並出售了預測的後20%。然後,我們將這些投資組合與更傳統的基於因子的投資組合進行了分析。下圖顯示了這些不同投資組合的回報。

人工智能與量化投資--基於機器學習的投資策略的五個教訓

第1課-不要混淆樣本內和樣本外

乍一看,我們基於ML的策略似乎大大優於傳統策略。但這是因為我們專注於整個時期。相反,我們只需要使用尚未經過算法訓練或驗證的新數據來分析這些模型,以確保該策略將來能夠成功。

不幸的是,如果我們將樣本內結果與保留(樣本外)結果進行比較,那麼基於ML的模型幾乎無法勝過其傳統夥伴。在一種情況下,它實際上表現很差。因此,ML在訓練和驗證期間非常出色地建模了因子行為,但是這種性能並不能用真正的錢持續下去。這使我們回到了有關將ML應用於投資的一些原始批評。我們可以通過以下幾點精心構建我們的問題來解決這些問題。

人工智能與量化投資--基於機器學習的投資策略的五個教訓


第2課–屏蔽噪音並一次建模

與ML的典型用例(例如,預測同店銷售或個人可能拖欠其銀行貸款的可能性)不同,股票收益數據是嘈雜的。眾所周知,時間序列財務數據受複雜行為困擾,包括異方差,黑天鵝和長尾依賴。在我們的案例中,我們並不試圖預測市場回報,而只是預測要投資的股票。為了最大程度地減少這些現象的影響,我們可以僅關注基準相對性能或同級相對性能,以將噪聲降至最低。

第3課–簡化問題陳述以產生更好的模型

即使在最小化我們的股票收益中的噪音之後,也無需預測股票收益的連續性。對於典型的多頭基金經理來說,只要股票的排名不變,知道實際的股票收益就不會改變他們的行為。如果下個月的股票收益率為10%對11%,您仍然可以購買。切換到基於分類的簡單方法,可以使我們在嘗試預測實際庫存收益時避免過度擬合。

我們試圖重新定義問題:一隻股票會在指數中排名前30%嗎?為了找出答案,我們使用這個新目標重新運行了具有相同數據的相同過程。

如下所示,在樣本期內,所有三個基於分類的最佳模型均優於基於迴歸的模型。重要的是,它們的樣本外性能是穩定的:與所有其他因素相比,它是最佳的,並且每個月都非常一致。看來我們可能已經找到了成功的秘訣。

人工智能與量化投資--基於機器學習的投資策略的五個教訓


第4課–解釋模型與構建模型一樣重要

為了在組織中投入資金並最終向客戶解釋投資策略的優缺點,您必須解釋該模型的工作原理。這裡的困難在於 ,無論從概念上還是在實踐上,這些ML模型都很難理解。

DataRobot為我們提供了告訴我們ML 模型如何工作的工具。下圖表示特徵影響,本質上是預測變化對特徵(或自變量)值變化的敏感性。在這種情況下,我們的模型對價值,流動性,動量和收益增長因素的變化以及公司是否為國有企業(SOE)最為敏感。圖表的比例是最重要功能的函數,因此所有其他因素都是根據“價值”的影響進行衡量的。

人工智能與量化投資--基於機器學習的投資策略的五個教訓


此圖說明了特徵與預測的關係。這些可以是並且通常是非線性的。就價值而言,公司的敞口越高,我們模型中的預測就越高。

人工智能與量化投資--基於機器學習的投資策略的五個教訓


然後,我們可以從理論到實踐的理解,並研究該策略的交易方式。下圖顯示了該模型推薦的公司的SWS行業。Y軸以1到5的比例顯示行業的相對重要性,其中1表示最高,氣泡的大小表示觀察的頻率。我們的模型在購買電子行業的公司時避免了金融和公用事業。

人工智能與量化投資--基於機器學習的投資策略的五個教訓


然後,我們根據之前強調的SOE標誌將預測分為兩組。通過分析每個組中股票收益的相關性,我們發現該模型根據公司是否為國有企業提出了截然不同的建議。對於國有企業,我們的模型更傾向於價值股票,而對於私營公司,我們的模型傾向於對成長型公司進行更多投資。

人工智能與量化投資--基於機器學習的投資策略的五個教訓


第5課–嘗試多種方法並快速失敗

與第3課和第4課有關:您很有可能需要迭代許多不同的方法來找到可以正常工作和推廣的東西;我們看到,最初的問題陳述並沒有提供我們所需要的樣本外信息,因此我們能夠快速重新構造問題以獲得更好的結果。在迭代過程中,我們使用了DataRobot和FactSet的組合可解釋性功能來進一步為我們的建模決策提供依據。舉個例子,我們可能會利用我們對模型處理國有企業和非國有企業的不同方式的瞭解,進一步完善該模型。我們可以說,包括關於國家所有權作為變量的形式的更多信息,甚至可以為國有企業和非國有企業的股票使用不同的數據字段建立單獨的模型。同樣,我們可能想嘗試不同的訓練時間,

在這裡,有效地對多個問題陳述,輸入數據集和目標變量進行建模的能力變得非常有價值。自動ML不僅通過針對給定的建模問題嘗試許多不同的ML算法,而且還提高了用戶迭代的速度,從而促進了這一點。通過快速構建和評估多個ML模型,用戶可以集中精力通過測試關於如何進一步改進其模型和策略的假設,來發揮其領域的專業知識。

只需記住第1課-選擇關於樣本內驗證性能的問題說明,並在部署之前使用樣本外保持性能檢查其概括性。

結論

此處提供的示例顯示了ML的一個用例,該用例用於增強傳統上用於管理投資組合的因素。算法的訓練和應用只是該過程中幾個步驟之一。當我們進行樣本外測試時,我們構建並最終選擇的模型非常有利可圖,並且明顯優於傳統模型。毫無疑問,在熟練的從業者手中,機器學習是一種強大的工具。但是,在構架問題時需要仔細考慮,以最大程度地減少嘈雜數據的影響和過度擬合的危險。在將ML應用於項目組合管理時,瞭解ML模型及其構建策略的工作方式也很關鍵。


分享到:


相關文章: