金融領域裡的機器學習算法介紹：人工神經網絡科技頭條網

金融領域裡的機器學習算法介紹：人工神經網絡

人工智能的發展在很大程度上是由神經網絡、深度學習和強化學習推動的。這些複雜的算法可以解決高度複雜的機器學習任務，如圖像分類、人臉識別、語音識別和自然語言處理等。這些複雜任務一般是非線性的，同時包含著大量的特徵輸入。我們下面我們將分幾天的時間對這些算法及其在金融領域的應用進行闡述。

神經網絡

神經網絡(又稱人工神經網絡，英文為artificial neural networks，簡稱ANNs)是一種高度靈活的機器學習算法，它已被成功地應用於具有大量特徵的非線性複雜交互任務。神經網絡通常用於分類和迴歸，但在強化學習中（可以是無監督的）也很重要。

下表顯示了多元迴歸和神經網絡之間的聯繫。A表示4個輸入特徵（x1到x4）和1個輸出目標（y）的迴歸。B展示了一個基本神經網絡的示意，它由節點(圓圈)和鏈接(連接節點之間的箭頭)組成。神經網絡有三種類型的層:輸入層(包含4個特徵的節點);隱藏層（對訓練數據進行處理與學習）;和輸出層(由目標變量y的單個節點組成)。除了網絡結構不同之外，多元迴歸和神經網絡的另一個重要區別是，神經網絡隱藏層的節點將輸入以非線性的方式轉換成新的值，然後將這些值重新組合成目標值。例如, 我們使用流行的修正線性單元函數（ReLU）,f(x)=max(0, x),y等於β1乘以z1,其中z1是(x1 + x2 + x3)與0之間的最大值,加上β2乘以z2,其中z2是(x2+x4)與0之間的最大值,再加上β3乘以z3,其中z3是(x2+x3+x4)與0之間的最大值,再加上一個誤差項。

在神經網絡模型中，由於特徵數據的單位可能不同，輸入特徵將被標準化處理。例如，如果輸入是正數，我們可以按其最大值對所有輸入進行縮放，使得輸入特徵值均位於0和1之間。

下圖展示了一個更復雜的神經網絡，它的輸入層由四個節點（特徵）組成，隱藏層由五個隱藏節點組成，及一個輸出層。這三個數字：4、5和1對於神經網絡來講是決定神經網絡結構的超參數。

現在我們考慮輸入層右側的節點。這些節點有時被稱為“神經元”，它們用來處理接收到的信息。我們以最上面的隱藏節點為例。有四個鏈接通過輸入層連接到該節點，因此該節點獲得了由鏈接傳輸過來的四個值。根據概念，每個節點都有兩個函數:求和運算函數和激活函數。一旦節點接收到四個輸入值，求和運算函數將每個值都乘以一個權重，並將加權後的值相加，形成總的淨輸入值。然後，將總淨輸入值傳遞給激活函數，激活函數將該輸入值轉換為節點的最終輸出值。

我們打個比方，激活函數就像一個電燈開關，以減少或增加輸入的強度。激活函數是非線性的，如S形(sigmoid)函數(輸出範圍為0到1)。非線性的特點意味著對於輸入值的變化，輸出值的變化百分比是不一樣的。

S形(sigmoid)激活函數如下圖所示。在左圖中，S形函數將負的總淨輸入值轉換為接近於0的輸出值。當輸出值很低的話，意味著該節點沒有被“觸發”，因此沒有任何內容傳遞給下一個節點。相反，在右邊的圖中，正的總淨輸入值被轉換為接近於1的輸出值，因此該節點被觸發。然後將該激活函數的輸出值傳輸到下一組節點（若存在第二個隱含層，則為下一個隱含層的節點；在本例中，則傳輸到輸出層的節點）。以上傳播過程被稱為正向傳播。

一開始，求和運算函數中所用到的輸入值權重是隨機賦予的。在有監督學習環境下，訓練神經網絡是一個迭代過程，在這個過程中，預測值將與實際的有標籤數據值進行比較，並使用特定的性能度量方法(如均方誤差)進行評估。然後，根據結果調整權重以減少神經網絡模型的總誤差。該調整過程一般是從後往前進行（輸出層至隱藏層至輸入層），這個過程稱為反向傳播。神經網絡的學習是通過調整權重進行的，這一步驟可以用以下公式表示:

新權重=(舊權重)-(學習率)×(總誤差對舊權重的偏導數)

其中，“偏導數”是指“總誤差相對於舊權重變化的變化率”，也被稱作“梯度”。學習率是一個影響調整幅度的參數。當學習完成時，所有的權重都將被賦值。

在神經網絡的結構中，所有的特徵都與非線性的激活函數相聯繫，這使得神經網絡能夠揭示和特徵之間複雜的非線性關係。一般來說，當隱含層與節點更多的時候，神經網絡處理複雜任務的能力也會增加（但過擬合的風險也會增加）。

在金融領域，資產定價是涉及複雜且不穩定的隨機過程，這對建模提出了挑戰。因此，金融分析師想知道，機器學習能否提高我們對市場運作方式的理解。有的研究比較了傳統統計方法和機器學習方法解釋和預測股票價格表現的能力，結果顯示神經網絡模型產生的單個股票和投資組合的回報表現優於傳統統計方法建立的模型，因為神經網絡模型能夠捕獲動態和相互作用的變量。這表明，基於機器學習的模型（如神經網絡）更有效地處理證券價格中固有的非線性關係。但是，在使用這些模型之前，我們需要權衡這些模型是否缺乏可解釋性，以及我們的數據量能否滿足這些模型的需求。

完