符號回歸!風控建模領域的偵察兵

隨著機器學習和人工智能的不斷髮展,智能風控,精準風控取得了不斷髮展。在風控領域中,利用風控規則,徵信數據,擬合和預測出未來的潛在風險可能,是精準風控和智能風控的基礎,也是關鍵點。

但是風控規則的制定與校驗,徵信數據的獲取,都有各自的難點和痛點。深入到風控建模中,利用有限的數據和規則,更好的擬合出未來潛在風險的可能性,成為了一個建模的目標和實現精準風控的基礎。

在此需求下,符號迴歸,作為風控領域的偵察兵算法,具有著其餘迴歸算法所沒有的,探索、進化、發現等優點。探索方面,基於樹算法與符號運算相結合的創新,能幫助我們探索到更多的風控指標;進化方面,基於遺傳算法的交叉、變異與選擇,能幫助我們得到更為優秀的風控指標;發現方面,基於上述兩點,我們能發現一些潛在的優秀的風控指標。所以說,符號迴歸算法,是風控建模領域的偵察兵,探索和發現更多的優秀風控指標和風控規則。

從本質上來說,符號迴歸算法是一種樹模型和遺傳算法的結合。其主要計算方式是將符號作為一種變量傳遞到樹模型中。其目的是在於通過變量與符號的運算,生成符合目標變量分佈的公式樹,從而達到更好的擬合和預測目標變量的效果。

可以說,符號迴歸提供了一種很有意思的構建樹模型的思路。我們不僅可以將特徵的數值作為變量數據到模型中進行運算,我們還可以將符號作為一種變量輸入到模型中用於建模。這既擴展了我們對於樹模型的認識,也為我們增添了一種很有效的建模算法。

算法介紹

符號迴歸的具體實現方式是遺傳算法。首先,通過符號與樹模型的結合生成若干公式樹。之後對公式樹不斷變異迭代來擬合目標變量。

一 、公式樹的生成方式

假設我們有特徵X0和X1,需要預測目標y。一個可能的公式是:

它也可以寫作:

下面我們用符號來表示這個公式可以將其轉化為以下形式(S-表達式):

公式裡包括了變量(X0和X1)、函數(加、減、乘)和常數(3和0.5)。有了S-表達式,我們可以把公式表示為一個二叉樹:

在這個二叉樹裡,所有的葉節點都是變量或者常數,內部的節點則是函數;公式的輸出值可以用遞歸的方法求得。

這樣我們就得到了一棵由符號、變量和常數項串聯起來的公式樹。需要注意的是,在公式樹中任意子樹都是可以被修改的。

二、 遺傳算法

生成了若干公式樹之後,通過這些公式樹對於目標變量的擬合程度來判斷這些公式樹的適應程度。根據不同的適應程度來對這些公式樹進行淘汰變異等操作,產生淘汰的公式樹和優勝的公式樹。在不斷變異與篩選中去擬合目標變量從而實現接近數據的真實分佈。

1 、公式樹的變異方式

公式的主要變異包括以下方式:

2、交叉變異

在優勝公式樹內隨機選擇一個子樹,替換為另一棵公式樹的隨機子樹。此處的另一棵公式樹通常是剩餘公式樹中適應度最高的。

3、子樹變異

讓優勝者的一棵子樹被另一棵完全隨機的全新子樹代替。這是一種更加激進的變異方式,更容易探尋未知的分佈。

4、hoist變異

從優勝者公式樹內隨機選擇一個子樹A,再從A裡隨機選擇一個子樹B,然後把B提升到A原來的位置,用B替代A。這種變異方式用於防止公式變得過於複雜,主要來對抗公式樹的膨脹。

5、點變異

優勝公式樹的一個隨機的節點將會被改變,比如加法可以被替換成除法,變量X0可以被替換成常數-2.5。

三 、應用案例

首先,模擬一個基於以下公式所生成的數據分佈:

然後,根據生成的模擬數據劃分成隨機的訓練集和測試集。利用決策樹,隨機森林,符號迴歸來進行建模。對比決策樹、隨機森林和符號迴歸的預測效果得到如下:

通過建模分析,對比發現,符號迴歸幾乎完美擬合了數據的分佈。與之相比,決策樹和隨機森林的效果在邊界值上面呈現出梯田狀。這與算法本身使用的梯度下降算法有關。由此可得,當數據集分佈較為非線性且能夠用某一公式表示的時候,符號迴歸有著優秀的探索能力,可以很完美的擬合數據分佈。

四 、總結

符號迴歸基於符號在樹模型中的應用來構建基礎的公式樹,並將這些公式樹結合遺傳算法來擬合數據分佈。這種擬合的方式可以比較好的擬合一些非線性的分佈。其優點是無論數據分佈數據哪種形式,這種遺傳算法的方式都能較好的擬合目標變量的分佈。並幫助我們探索出自變量和目標變量之間的數學表達式。

符號迴歸的這種性質就導致了在使用符號迴歸建模的時候,可能出現生成的公式非常完美的擬合了目標變量,但是無法解釋這個公式的業務含義。

值得一提的是,在中誠信徵信的AIMS萬象智模平臺中,我們成功將符號迴歸進一步優化,結合特徵工程的相關思路與理論基礎,在保證生成變量的可解釋性的前提下,實現了特徵衍生的自動化,並使得特徵更具有業務可解釋性和算法適用性。具體算法使用詳情,歡迎大家試用和體驗AIMS智能建模平臺公開版。平臺將於本週五(7月6日)上線~敬請關注!

—— THE END ——

THANKS

文 | 中誠信徵信 市場部

聯繫合作:ccx@ccx.cn