符号回归!风控建模领域的侦察兵

随着机器学习和人工智能的不断发展,智能风控,精准风控取得了不断发展。在风控领域中,利用风控规则,征信数据,拟合和预测出未来的潜在风险可能,是精准风控和智能风控的基础,也是关键点。

但是风控规则的制定与校验,征信数据的获取,都有各自的难点和痛点。深入到风控建模中,利用有限的数据和规则,更好的拟合出未来潜在风险的可能性,成为了一个建模的目标和实现精准风控的基础。

在此需求下,符号回归,作为风控领域的侦察兵算法,具有着其余回归算法所没有的,探索、进化、发现等优点。探索方面,基于树算法与符号运算相结合的创新,能帮助我们探索到更多的风控指标;进化方面,基于遗传算法的交叉、变异与选择,能帮助我们得到更为优秀的风控指标;发现方面,基于上述两点,我们能发现一些潜在的优秀的风控指标。所以说,符号回归算法,是风控建模领域的侦察兵,探索和发现更多的优秀风控指标和风控规则。

从本质上来说,符号回归算法是一种树模型和遗传算法的结合。其主要计算方式是将符号作为一种变量传递到树模型中。其目的是在于通过变量与符号的运算,生成符合目标变量分布的公式树,从而达到更好的拟合和预测目标变量的效果。

可以说,符号回归提供了一种很有意思的构建树模型的思路。我们不仅可以将特征的数值作为变量数据到模型中进行运算,我们还可以将符号作为一种变量输入到模型中用于建模。这既扩展了我们对于树模型的认识,也为我们增添了一种很有效的建模算法。

算法介绍

符号回归的具体实现方式是遗传算法。首先,通过符号与树模型的结合生成若干公式树。之后对公式树不断变异迭代来拟合目标变量。

一 、公式树的生成方式

假设我们有特征X0和X1,需要预测目标y。一个可能的公式是:

符号回归!风控建模领域的侦察兵

它也可以写作:

符号回归!风控建模领域的侦察兵

下面我们用符号来表示这个公式可以将其转化为以下形式(S-表达式):

符号回归!风控建模领域的侦察兵

公式里包括了变量(X0和X1)、函数(加、减、乘)和常数(3和0.5)。有了S-表达式,我们可以把公式表示为一个二叉树:

符号回归!风控建模领域的侦察兵

在这个二叉树里,所有的叶节点都是变量或者常数,内部的节点则是函数;公式的输出值可以用递归的方法求得。

这样我们就得到了一棵由符号、变量和常数项串联起来的公式树。需要注意的是,在公式树中任意子树都是可以被修改的。

二、 遗传算法

生成了若干公式树之后,通过这些公式树对于目标变量的拟合程度来判断这些公式树的适应程度。根据不同的适应程度来对这些公式树进行淘汰变异等操作,产生淘汰的公式树和优胜的公式树。在不断变异与筛选中去拟合目标变量从而实现接近数据的真实分布。

1 、公式树的变异方式

公式的主要变异包括以下方式:

符号回归!风控建模领域的侦察兵

2、交叉变异

在优胜公式树内随机选择一个子树,替换为另一棵公式树的随机子树。此处的另一棵公式树通常是剩余公式树中适应度最高的。

符号回归!风控建模领域的侦察兵

3、子树变异

让优胜者的一棵子树被另一棵完全随机的全新子树代替。这是一种更加激进的变异方式,更容易探寻未知的分布。

符号回归!风控建模领域的侦察兵

4、hoist变异

从优胜者公式树内随机选择一个子树A,再从A里随机选择一个子树B,然后把B提升到A原来的位置,用B替代A。这种变异方式用于防止公式变得过于复杂,主要来对抗公式树的膨胀。

符号回归!风控建模领域的侦察兵

5、点变异

优胜公式树的一个随机的节点将会被改变,比如加法可以被替换成除法,变量X0可以被替换成常数-2.5。

符号回归!风控建模领域的侦察兵

三 、应用案例

首先,模拟一个基于以下公式所生成的数据分布:

符号回归!风控建模领域的侦察兵

符号回归!风控建模领域的侦察兵

然后,根据生成的模拟数据划分成随机的训练集和测试集。利用决策树,随机森林,符号回归来进行建模。对比决策树、随机森林和符号回归的预测效果得到如下:

符号回归!风控建模领域的侦察兵

通过建模分析,对比发现,符号回归几乎完美拟合了数据的分布。与之相比,决策树和随机森林的效果在边界值上面呈现出梯田状。这与算法本身使用的梯度下降算法有关。由此可得,当数据集分布较为非线性且能够用某一公式表示的时候,符号回归有着优秀的探索能力,可以很完美的拟合数据分布。

四 、总结

符号回归基于符号在树模型中的应用来构建基础的公式树,并将这些公式树结合遗传算法来拟合数据分布。这种拟合的方式可以比较好的拟合一些非线性的分布。其优点是无论数据分布数据哪种形式,这种遗传算法的方式都能较好的拟合目标变量的分布。并帮助我们探索出自变量和目标变量之间的数学表达式。

符号回归的这种性质就导致了在使用符号回归建模的时候,可能出现生成的公式非常完美的拟合了目标变量,但是无法解释这个公式的业务含义。

值得一提的是,在中诚信征信的AIMS万象智模平台中,我们成功将符号回归进一步优化,结合特征工程的相关思路与理论基础,在保证生成变量的可解释性的前提下,实现了特征衍生的自动化,并使得特征更具有业务可解释性和算法适用性。具体算法使用详情,欢迎大家试用和体验AIMS智能建模平台公开版。平台将于本周五(7月6日)上线~敬请关注!

符号回归!风控建模领域的侦察兵

—— THE END ——

THANKS

文 | 中诚信征信 市场部

联系合作:[email protected]


分享到:


相關文章: