chapter1 评分卡的开发过程
1.1标准评分卡
1.1.1评分卡的类型和目的(申请评分卡、行为评分卡)
1.1.2“正常”、“违约”、“不确定”(二元状态指标)
正常、违约的概念是主观的并取决于企业,一般违约定义为逾期60天、90天或180天的账户。
1.1.3标准评分卡格式(设置不同变量,并将每个变量的贡献只加总)
1.2评分卡开发流程
![读书笔记12,信用风险评分卡研究,通过案例学习SAS编程](http://p2.ttnews.xyz/loading.gif)
1.3问题准备
1.4数据获取与整合(内部、外部数据的整理),chapter2
1.5EDA与数据描述(EDA,探索性数据分析),chapter3
1.6数据准备(数据清洗和转换,包括降低基数和连续变量的最优分段,粗分类),chapter5、chapter8
1.7变量选择(选择最优的候选变量),chapter4、chapter9
1.8模型开发(Logistic回归模型)
1.9模型验证,chapter7、chapter10
通常,所有预测模型都需要满足四项基本要求:必须达到可接受的准确性水平、必须稳健、必须简单、必须有意义。
1.10评分卡创建和刻度,chapter11
1.11评分卡实施,chapter11
1.12拒绝演绎,chapter13
1.13监测和报告,chapter12
用以判断评分卡的实际表现并与开发阶段的预期表现相比较;监控重建评分卡、重设临界值或者调整评分卡刻度的指数;监测客户群的特征变化。
1.14关于SAS代码的注意事项
- /* PROC CATALOG and t PROC DATASETS 用来删除WORK逻辑库中的宏和数据集 */
proc catalog catalog=work.sasmacr force kill;run; quit;
proc datasets library=work nolist nodetails kill;run; quit;
chapter2 数据的获取和整合
2.2变量类型(原生变量、衍生业务变量、分析变量(相对于衍生业务变量,分析变量的解释性弱))
2.3建模(数据挖掘)视图
建模视图包括的变量:记录标识(ID变量)、候选自变量、描述变量、报告变量、违约状态字段(二元变量1/0)。
其中,自变量包括:
- 名义变量(分类变量):变量之间没有顺序关系、也没有数量关系。
- 顺序变量:变量之间有一定的顺序关系,但不能对这些变量进行数量计算。
- 连续变量
2.4数据来源(人口统计特征、征信机构数据和外部评分、交易记录、其他产品的所有权和使用记录)
2.5建模和实施窗口(窗口的时间长度取决于客户群的特征和行为的变化率)
2.6数据校准(重新定义计算值、用感兴趣的事件校准)
![读书笔记12,信用风险评分卡研究,通过案例学习SAS编程](http://p2.ttnews.xyz/loading.gif)
2.7数据合并
2.7.1连续变量(%TRollup、%AVRollup)
- call symput('Cat_'||left(_n_), &TypeVar) /*定义宏变量Cat_1, Cat_2, ... Cat_N。*/
- proc transpose data =_Temp1 out=_R_&i
prefix=%substr(&&Cat_&i, 1, &Nchars)_;
by &IDVar &TypeVar;
ID &TimeVar ;
var _TOT ;
where &TypeVar="&&Cat_&i"; /*将表格转置*/
2.7.2名义变量和顺序变量(%VarMode,这个4重select语句太变态了,下次再研究)
2.8数据整合
2.8.1合并(Merge-by,须将数据提前排序)
2.8.2联结(Set-by)
2.8.3数据步或Proc sql?(proc sql也可进行合并、联结,并且数据不需要排序)
2.9完整性检验(%ExtUnique)
删除重复ID(first.ID,nodupkey均可实现)
閱讀更多 六便士財經分享 的文章