特征工程（下）「金融风控实战笔记」

風控獵人

2020-04-01 19:33:48

　工作中常用的特征工程有哪些方法呢？首先，我们需要了解业务中的模型会遇到什么问题，定位了问题才能找到贴合业务场景的特征工程方法。这比你会一些处理特征的骚操作重要很多，毕竟模型落地不是在打比赛，某个评价指标提高一点点就行，需要考虑的方面更多，比如变量的可解释性、模型的可解释性、模型的部署和监控等等。

　下面是我们在业务中的模型中会遇到的问题：

模型效果不好训练集效果好，跨时间测试效果不好跨时间测试效果也好，上线之后效果不好（一定是变量逻辑出问题，特征出现穿越）上线之后效果还好，几周之后分数分布开始下滑（有一两个变量跨时间测试不好）一两个月内都比较稳定，突然分数分布骤降（关注外部环境）没有明显问题，但模型每个月逐步失效(无解)

　以上问题是建模的核心，个人觉得比高大上的算法重要得多，可以针对这些问题多深入思考原因。然后我们来考虑一下业务所需要的变量是什么。

变量必须对模型有贡献，也就是说必须能对客群加以区分逻辑回归要求变量之间线性无关逻辑回归评分卡也希望变量呈现单调趋势（有一部分也是业务原因，但从模型角度来看，单调变量未必一定比有转折的变量好）客群在每个变量上的分布稳定，分布迁移无可避免，但不能波动太大

no BB,show me your code.

<code>import pandas as pd
import numpy as np
df_train = pd.read_csv('train.csv')
df_train.head()
#数据集为kaggle上的Titanic数据集。
/<code>

变量重要性

IV值卡方检验模型筛选
这里我们使用IV值或者模型筛选多一点（一般一种方法就行，差别不大）

分箱、WOE、IV

<code>import numpy as np
import pandas as pd
from scipy import stats
def mono_bin(Y,X,n=20):
r=0
good = Y.sum()
bad = Y.count()-good
while np.abs(r)< 1:
d1=pd.DataFrame({"X":X,"Y":Y,"Bucket":pd.qcut(X,n)})
d2=d1.groupby('Bucket',as_index=True)
r,p=stats.spearmanr(d2.mean().X,d2.mean().Y)
n=n-1
d3=pd.DataFrame(d2.X.min(),columns=['min'])
d3['min']=d2.min().X
d3['max']=d2.max().X
d3['sum']=d2.sum().Y
d3['total']=d2.count().Y
d3['rate']=d2.mean().Y
d3['woe']=np.log((d3['rate']/(1-d3['rate']))/(good/bad))
d3['iv']=(d3['rate']/(1-d3['rate']) - (good/bad)) * np.log((d3['rate']/(1-d3['rate']))/(good/bad))
d4=(d3.sort_index(by='min')).reset_index(drop=True)
print("="*60)
print(d4)
return d4
/<code>

分箱

　可以看到将年龄分为3箱，每一箱的最小值，最大值，坏样本数量，总数量，坏样本占比，WOE值，IV值。将IV值求和之后就是Age变量的IV值。变量的IV值一般取大于0.02。
这里用到的分箱方法有时间在深入了解一下，和常用的卡方分箱还不一样。

集成模型输出特征重要性

　集成学习方法可以评估特征重要性指标，一般评估指标有weight, gain, cover等，这里找了一篇博客，后续有时间会写一篇文章讲解。https://blog.csdn.net/sujinhehehe/article/details/84201415

<code>#lightGBM中的特征重要性
feature = pd.DataFrame(
{'name' : model.booster_.feature_name(),
'importance' : model.feature_importances_
}).sort_values(by = ['importance'],ascending = False)
/<code>

共线性

单调性

bivar图

　这个是评分卡中比较独特的一部分，市面上的课程讲这个的很少，但是工作中用得很多,先来看结果。

<code># 等频切分
df_train.loc[:,'fare_qcut'] = pd.qcut(df_train['Fare'], 10)
df_train.head()
df_train = df_train.sort_values('Fare')
alist = list(set(df_train['fare_qcut']))
badrate = {}
for x in alist:

a = df_train[df_train.fare_qcut == x]

bad = a[a.label == 1]['label'].count()
good = a[a.label == 0]['label'].count()

badrate[x] = bad/(bad+good)
f = zip(badrate.keys(),badrate.values())
f = sorted(f,key = lambda x : x[1],reverse = True )
badrate = pd.DataFrame(f)
badrate.columns = pd.Series(['cut','badrate'])
badrate = badrate.sort_values('cut')
print(badrate)
badrate.plot('cut','badrate')
/<code>

BiVar1

BiVar2

　对应上面的建模变量中，逻辑回归评分卡也希望变量呈现单调趋势（有一部分也是业务原因，但从模型角度来看，单调变量未必一定比有转折的变量好）。

稳定性

PSI跨时间交叉检验

PSI

PSI公式如下：

　对跨时间分箱的数据分别求PSI，因为预期占比需要建模之后根据模型来算，所以需要和集成学习输出特征重要性一样先计算出预期占比，不知道是不是这个意思，那也太麻烦了。。。
　一般认为psi小于0.1时候模型稳定性很高，0.1-0.25一般，大于0.25模型稳定性差，建议重做。

跨时间交叉检验

　就是将样本按照月份切割，一次作为训练集和测试集来训练模型，取进入模型的变量之间的交集，但是要小心共线特征！

解决方法

不需要每次都进入模型，大部分都在即可先去除共线性（这也是为什么集成模型我们也会去除共线性）

>【作者】：Labryant

>【简介】：某创业公司策略分析师，积极上进，努力提升。乾坤未定，你我都是黑马。

>【转载说明】：转载请说明出处，谢谢合作！~

分布式服务架构精讲pdf文档：原理+设计+实战，（收藏再看）

实战-使用 Cobbler 定制化安装指定系统

【SpringBoot】JPA接入Elasticsearch6.3.2 实战

Serverless 实战：通过 Serverless 架构实现监控告警

由浅入深剖析MySQL：面试+实战+大纲，成功从青铜晋级王者最全pdf

Google又更新了：实战 MergeAdapte

实战：tcpdump抓包分析三次握手四次挥手

实战：如何使用CSS3 Cubic-Bezier创建链接悬停动画效果

【实战】从零开始使用JavaScript制作自己的命令行(CLI工具)

Golang 入门系列（七）整合Redis详解，实战！

Golang 入门系列（七）整合Redis详解，实战

深入前端tree优化渲染速度从14.65s到0.49s【实战】

2 镜像的存储驱动与 Dockerfile 实战

SpringBoot 快速集成 Elasticsearch 实战

【SpringBoot基础系列-实战】如何指定 bean 最先加载(应用篇)

「实战」华为MSTP原理及案例配置详解

最全spring套装：spring学习指南+实战+源码解析+架构与设计原理

03.06 Arthas 实战，助你解决同名类依赖冲突问题

03.01 别人家的 InfluxDB 实战 + 源码剖析

03.01 「实战」如何根据自己业务自定义配置Topshelf 服务

02.25 实战-使用 Cobbler 安装一台 CentOS 主机

Flask 实战：如何从零开发“知乎”

SpringBoot集成Elasticsearch7.5 实战

实战：彻底搞定 SpringBoot 整合 Kafka

「实战」助力数据库开发之接口篇

变量重要性

分箱、WOE、IV

集成模型输出特征重要性

共线性

单调性

稳定性

PSI

跨时间交叉检验

相關文章:

分布式服务架构精讲pdf文档：原理+设计+实战，（收藏再看）

实战-使用 Cobbler 定制化安装指定系统

【SpringBoot】JPA接入Elasticsearch6.3.2 实战

Serverless 实战：通过 Serverless 架构实现监控告警

由浅入深剖析MySQL：面试+实战+大纲，成功从青铜晋级王者最全pdf

Google又更新了：实战 MergeAdapte

实战：tcpdump抓包分析三次握手四次挥手

实战：如何使用CSS3 Cubic-Bezier创建链接悬停动画效果

【实战】从零开始使用JavaScript制作自己的命令行(CLI工具)

Golang 入门系列（七）整合Redis详解， 实战！

Golang 入门系列（七）整合Redis详解，实战

深入前端tree优化渲染速度从14.65s到0.49s【实战】

2 镜像的存储驱动与 Dockerfile 实战

SpringBoot 快速集成 Elasticsearch 实战

【SpringBoot基础系列-实战】如何指定 bean 最先加载(应用篇)

「实战」华为MSTP原理及案例配置详解

最全spring套装：spring学习指南+实战+源码解析+架构与设计原理

03.06 Arthas 实战，助你解决同名类依赖冲突问题

03.01 别人家的 InfluxDB 实战 + 源码剖析

03.01 「实战」如何根据自己业务自定义配置Topshelf 服务

02.25 实战-使用 Cobbler 安装一台 CentOS 主机

Flask 实战：如何从零开发“知乎”

SpringBoot集成Elasticsearch7.5 实战

实战：彻底搞定 SpringBoot 整合 Kafka

「实战」助力数据库开发之接口篇

「C++实战」机房预约系统（下）

Serverless 实战——Funcraft + OSS + ROS 进行 CI

01.02 Spring Boot 实战：如何自定义 Servlet Filter

Spring Cloud Alibaba 实战(八)

11.29 实战：使用 Go 打造另一款简单实用的 ORM

「实战」IPv6地址基础配置，一分钟了解下

CIFAR10+卷积神经网络+TensorBoard 实战

「实战」三层交换机的基本功能实现VLAN之间的通信，一分钟了解下

Spring Boot 2 实战：自定义启动运行逻辑

「技术干货」师傅说不会写shell脚本的网安不是一个好黑客，实战

Knative 实战：如何在 Knative 中配置自定义域名及路由规则

实战：利用re模块爬取淘宝商品信息

10.22 黑客“实战”内容之Redis未授权访问漏洞复现

「Prometheus系列」实战—Prometheus + Grafana——Nginx 监控

实战--MS17_010渗透内网主机

不做生意，也可以搭建个商城系统玩玩：Linux 实战

实战：用Python实现随机森林

Spring Boot 实战

实战：用python实现简单线性回归！

实战-MySQL定时进行全量与增量备份

shiro自定义realm——实战

06.25 druid中 如何从本地批(batch)导入与从hdfs 批导入数据 实战

实战：基于 docker 的 HA-hadoop 集群搭建

第二章 IoC容器和Bean配置

运算里不得不说的python模块—math

Devops度量--DevOps 现状快速检查表

SOP是什么（解读）

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

DNS侦查工具

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

（必收藏系列）Linux面试题——命令集

五分钟学会如何在 IPFS 上部署网站

「正点原子NANO STM32F103开发板资料连载」第29章 内存管理实验

小白怎么学Web前端开发 如何成为技术达人

如何开发一个web静态服务器

学Java编程还有前景吗 如何才能拿到高薪

Python网络爬虫之配置篇（一）

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

Python的运行效率太低？几行代码快速提升！

python的优点是什么？最新Python400集视频（附教程）

MySQL中OOM故障应如何下手-爱可生

像专家一样使用 panic

Golang 入门系列（七）整合Redis详解，实战！

06.25 druid中如何从本地批(batch)导入与从hdfs 批导入数据实战

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

小白怎么学Web前端开发如何成为技术达人

学Java编程还有前景吗如何才能拿到高薪