读书笔记12,信用风险评分卡研究,通过案例学习SAS编程

chapter1 评分卡的开发过程


1.1标准评分卡

1.1.1评分卡的类型和目的(申请评分卡、行为评分卡)

1.1.2“正常”、“违约”、“不确定”(二元状态指标)

正常、违约的概念是主观的并取决于企业,一般违约定义为逾期60天、90天或180天的账户。

1.1.3标准评分卡格式(设置不同变量,并将每个变量的贡献只加总)


1.2评分卡开发流程


读书笔记12,信用风险评分卡研究,通过案例学习SAS编程


1.3问题准备

1.4数据获取与整合(内部、外部数据的整理),chapter2

1.5EDA与数据描述(EDA,探索性数据分析),chapter3

1.6数据准备(数据清洗和转换,包括降低基数和连续变量的最优分段,粗分类),chapter5、chapter8

1.7变量选择(选择最优的候选变量),chapter4、chapter9

1.8模型开发(Logistic回归模型)

1.9模型验证,chapter7、chapter10

通常,所有预测模型都需要满足四项基本要求:必须达到可接受的准确性水平、必须稳健、必须简单、必须有意义。

1.10评分卡创建和刻度,chapter11

1.11评分卡实施,chapter11

1.12拒绝演绎,chapter13

1.13监测和报告,chapter12

用以判断评分卡的实际表现并与开发阶段的预期表现相比较;监控重建评分卡、重设临界值或者调整评分卡刻度的指数;监测客户群的特征变化。

1.14关于SAS代码的注意事项

  • /* PROC CATALOG and t PROC DATASETS 用来删除WORK逻辑库中的宏和数据集 */

proc catalog catalog=work.sasmacr force kill;run; quit;

proc datasets library=work nolist nodetails kill;run; quit;


chapter2 数据的获取和整合


2.2变量类型(原生变量、衍生业务变量、分析变量(相对于衍生业务变量,分析变量的解释性弱))

2.3建模(数据挖掘)视图

建模视图包括的变量:记录标识(ID变量)、候选自变量、描述变量、报告变量、违约状态字段(二元变量1/0)。

其中,自变量包括:

  • 名义变量(分类变量):变量之间没有顺序关系、也没有数量关系。
  • 顺序变量:变量之间有一定的顺序关系,但不能对这些变量进行数量计算。
  • 连续变量

2.4数据来源(人口统计特征、征信机构数据和外部评分、交易记录、其他产品的所有权和使用记录)

2.5建模和实施窗口(窗口的时间长度取决于客户群的特征和行为的变化率)

2.6数据校准(重新定义计算值、用感兴趣的事件校准)


读书笔记12,信用风险评分卡研究,通过案例学习SAS编程


2.7数据合并

2.7.1连续变量(%TRollup、%AVRollup)

  • call symput('Cat_'||left(_n_), &TypeVar) /*定义宏变量Cat_1, Cat_2, ... Cat_N。*/
  • proc transpose data =_Temp1 out=_R_&i

prefix=%substr(&&Cat_&i, 1, &Nchars)_;

by &IDVar &TypeVar;

ID &TimeVar ;

var _TOT ;

where &TypeVar="&&Cat_&i"; /*将表格转置*/

2.7.2名义变量和顺序变量(%VarMode,这个4重select语句太变态了,下次再研究)

2.8数据整合

2.8.1合并(Merge-by,须将数据提前排序)

2.8.2联结(Set-by)

2.8.3数据步或Proc sql?(proc sql也可进行合并、联结,并且数据不需要排序)

2.9完整性检验(%ExtUnique)

删除重复ID(first.ID,nodupkey均可实现)


读书笔记12,信用风险评分卡研究,通过案例学习SAS编程


分享到:


相關文章: