邏輯迴歸評分卡實現和評估

2020-03-28 17:29:35 風控獵人

邏輯迴歸評分卡實現和評估

上一節講得是模型評估，主要有ROC曲線、KS曲線、學習曲線和混淆矩陣。今天學習如何實現評分卡和對評分卡進行評估。

　首先，要了解評分卡是如何從概率映射到評分的，這個之前寫過評分卡映射的邏輯。一定要看，明白概率如何映射到評分的以及每個變量的得分如何計算。附上評分卡映射的代碼。結合邏輯迴歸評分卡映射的原理才能看懂代碼。

<code>from sklearn.linear_model import LogisticRegression
'''
第六步：邏輯迴歸模型。
要求：
1，變量顯著
2，符號為負
'''
y = trainData['y']
x = trainData[multi_analysis]
lr_model = LogisticRegression(C=0.1)
lr_model.fit(x,y)
trainData['prob'] = lr_model.predict_proba(x)[:,1]
# 評分卡刻度
def cal_scale(score,odds,PDO,model):
    """
    odds：設定的壞好比
    score:在這個odds下的分數
    PDO: 好壞翻倍比
    model:邏輯迴歸模型
    
    return :A,B,base_score
    """ 

    B = PDO/np.log(2)
    A = score+B*np.log(odds)
    # base_score = A+B*model.intercept_[0]
    print('B: {:.2f}'.format(B))
    print('A: {:.2f}'.format(A))
    # print('基礎分為：{:.2f}'.format(base_score))
    return A,B
    
#假設基礎分為50，odds為5%，PDO為10，可以自行調整。這一步是為了計算出A和B。
cal_scale(50,0.05,10,lr_model)
def Prob2Score(prob, A,B):
    #將概率轉化成分數且為正整數
    y = np.log(prob/(1-prob))
    return float(A-B*y)
trainData['score'] = trainData['prob'].map(lambda x:Prob2Score(x, 6.78,14.43))
/<code>

　可以看到，評分越高，違約概率越低。網上很多實現評分卡映射的代碼，都沒太看懂,這個是根據邏輯來寫的，有時間再把映射邏輯整理一下。

1. 得分的KS曲線

　和模型的KS曲線一樣，只不過橫座標的概率變成了得分。直接放上代碼。

<code># 得分的KS
def plot_score_ks(df,score_col,target):
    """
    df:數據集
    target:目標變量的字段名
    score_col:最終得分的字段名
    """
    total_bad = df[target].sum()
    total_good = df[target].count()-total_bad
    score_list = list(df[score_col])
    target_list = list(df[target])
    items = sorted(zip(score_list,target_list),key=lambda x:x[0])
    step = (max(score_list)-min(score_list))/200 
    
    score_bin=[]
    good_rate=[]
    bad_rate=[]
    ks_list = []
    for i in range(1,201):
        idx = min(score_list)+i*step
        score_bin.append(idx)
        target_bin = [x[1] for x in items if x[0]        bad_num = sum(target_bin)
        good_num = len(target_bin)-bad_num
        goodrate = good_num/total_good
        badrate = bad_num/total_bad
        ks = abs(goodrate-badrate)
        good_rate.append(goodrate)
        bad_rate.append(badrate)
        ks_list.append(ks) 

        
    fig = plt.figure(figsize=(8,6))
    ax = fig.add_subplot(1,1,1)
    ax.plot(score_bin,good_rate,color='green',label='good_rate')
    ax.plot(score_bin,bad_rate,color='red',label='bad_rate')
    ax.plot(score_bin,ks_list,color='blue',label='good-bad')
    ax.set_title('KS:{:.3f}'.format(max(ks_list)))
    ax.legend(loc='best')
    return plt.show(ax)
/<code>

2. PR曲線

　還是這個混淆矩陣的圖，P是查準率、精確率，R是查全率、召回率。這兩個指標時既矛盾又統一的。因為為了提高精確率P，就是要更準確地預測正樣本，但此時往往會過於保守而漏掉很多沒那麼有把握的正樣本，導致召回率R降低。
　同ROC曲線的形成一樣，PR曲線的形成也是不斷移動截斷點形成不同的(R,P)繪製成一條線。

　當接近原點時，召回率R接近於0，精確率P較高，說明得分前幾位的都是正樣本。隨著召回率的增加，精確率整體下降，當召回率為1時，說明所有的正樣本都被挑了出來，此時的精確率很低，其實就是相當於你將大部分的樣本都預測為正樣本。注意，只用某個點對應的(R,P)無法全面衡量模型的性能，必須要通過PR曲線的整體表現。此外，還有F1 score和ROC曲線也能反映一個排序模型的性能。

PR曲線和ROC曲線的區別

　當正負樣本的分佈發生變化時，ROC曲線的形狀基本不變，PR曲線形狀會發生劇烈變化。上圖中PR曲線整體較低就是因為正負樣本不均衡導致的。因為比如評分卡中壞客戶只有1%，好客戶有99%,將全部客戶預測為好客戶，那麼準確率依然有99%。雖然模型整體的準確率很高，但並不代表對壞客戶的分類準確率也高，這裡壞客戶的分類準確率為0，召回率也為0。

<code># PR曲線
def plot_PR(df,score_col,target,plt_size=None):
    """
    df:得分的數據集
    score_col:分數的字段名
    target:目標變量的字段名
    plt_size:繪圖尺寸
    
    return: PR曲線
    """
    total_bad = df[target].sum()
    score_list = list(df[score_col])
    target_list = list(df[target])
    score_unique_list = sorted(set(list(df[score_col])))
    items = sorted(zip(score_list,target_list),key=lambda x:x[0])
    precison_list = []
    tpr_list = []
    for score in score_unique_list:
        target_bin = [x[1] for x in items if x[0]<=score]
        bad_num = sum(target_bin)
        total_num = len(target_bin)
        precison = bad_num/total_num
        tpr = bad_num/total_bad
        precison_list.append(precison)
        tpr_list.append(tpr)
    
    plt.figure(figsize=plt_size)
    plt.title('PR曲線')
    plt.xlabel('查全率') 

    plt.ylabel('精確率')
    plt.plot(tpr_list,precison_list,color='tomato',label='PR曲線')
    plt.legend(loc='best')
    return plt.show()
/<code>

3.得分分佈圖

　理想中最好的評分卡模型應該是將好壞客戶完全區分出來，但是實際中好壞用戶的評分會有一定的重疊，我們要做的儘量減小重疊。
　另外好壞用戶的得分分佈最好都是正態分佈，如果呈雙峰或多峰分佈，那麼很有可能是某個變量的得分過高導致，這樣對評分卡的穩定性會有影響。

<code># 得分分佈圖
def plot_score_hist(df,target,score_col,plt_size=None,cutoff=None):
    """
    df:數據集
    target:目標變量的字段名
    score_col:最終得分的字段名
    plt_size:圖紙尺寸
    cutoff :劃分拒絕/通過的點
    
    return :好壞用戶的得分分佈圖
    """    
    plt.figure(figsize=plt_size)
    x1 = df[df[target]==1][score_col]
    x2 = df[df[target]==0][score_col]
    sns.kdeplot(x1,shade=True,label='壞用戶',color='hotpink')
    sns.kdeplot(x2,shade=True,label='好用戶',color ='seagreen')
    plt.axvline(x=cutoff)
    plt.legend()
    return plt.show()
/<code>

4.得分明細表

　按分數段區分，看不同分數段的好壞樣本情況、違約率等指標。

　可以看到高分段的違約概率明顯比低分段低，說明評分卡的效果是顯著的。

<code># 得分明細表
def score_info(df,score_col,target,x=None,y=None,step=None):
    """
    df:數據集
    target:目標變量的字段名
    score_col:最終得分的字段名
    x:最小區間的左值
    y:最大區間的右值
    step:區間的分數間隔
    
    return :得分明細表
    """
    df['score_bin'] = pd.cut(df[score_col],bins=np.arange(x,y,step),right=True)
    total = df[target].count()
    bad = df[target].sum()
    good = total - bad
    
    group = df.groupby('score_bin')
    score_info_df = pd.DataFrame()
    score_info_df['用戶數'] = group[target].count()
    score_info_df['壞用戶'] = group[target].sum()
    score_info_df['好用戶'] = score_info_df['用戶數']-score_info_df['壞用戶']
    score_info_df['違約佔比'] = score_info_df['壞用戶']/score_info_df['用戶數']
    score_info_df['累計用戶'] = score_info_df['用戶數'].cumsum()
    score_info_df['壞用戶累計'] = score_info_df['壞用戶'].cumsum()
    score_info_df['好用戶累計'] = score_info_df['好用戶'].cumsum()
    score_info_df['壞用戶累計佔比'] = score_info_df['壞用戶累計']/bad
    score_info_df['好用戶累計佔比'] = score_info_df['好用戶累計']/good
    score_info_df['累計用戶佔比'] = score_info_df['累計用戶']/total
    score_info_df['累計違約佔比'] = score_info_df['壞用戶累計']/score_info_df['累計用戶'] 

    score_info_df = score_info_df.reset_index()
    return score_info_df
/<code>

5.提升圖和洛倫茲曲線

　假設目前有10000個樣本，壞用戶佔比為30%，我們做了一個評分卡（分數越低，用戶壞的概率越高），按照評分從低到高劃分成10等份（每個等份用戶數為1000），計算每等份的壞用戶佔比，如果評分卡效果很好，那麼越靠前的等份裡，包含的壞用戶應該越多，越靠後的等份裡，包含的壞用戶應該要更少。作為對比，如果不對用戶評分，按照總體壞用戶佔比30%來算，每個等份中壞用戶佔比也是30%。將這兩種方法的每等份壞用戶佔比放在一張柱狀圖上進行對比，就是提升圖。

　將這兩種方法的累計壞用戶佔比放在一張曲線圖上，就是洛倫茲曲線圖。

　此外，洛倫茲曲線可以比較兩個評分卡的優劣，例如下圖中虛線對應的分數假設是600分，那麼在600分這cutoff點下，A和B的拒絕率都是40%，但A可以拒絕掉88%的壞用戶，B只能拒掉78%的壞用戶，說明A評分卡的效果更好。

<code># 繪製提升圖和洛倫茲曲線
def plot_lifting(df,score_col,target,bins=10,plt_size=None):
    """
    df:數據集，包含最終的得分
    score_col:最終分數的字段名
    target:目標變量名
    bins:分數劃分成的等份數
    plt_size:繪圖尺寸
    
    return:提升圖和洛倫茲曲線
    """
    score_list = list(df[score_col])
    label_list = list(df[target])
    items = sorted(zip(score_list,label_list),key = lambda x:x[0])
    step = round(df.shape[0]/bins,0)
    bad = df[target].sum()
    all_badrate = float(1/bins)
    all_badrate_list = [all_badrate]*bins
    all_badrate_cum = list(np.cumsum(all_badrate_list))
    all_badrate_cum.insert(0,0)
    
    score_bin_list=[]
    bad_rate_list = []
    for i in range(0,bins,1):
        index_a = int(i*step)
        index_b = int((i+1)*step)
        score = [x[0] for x in items[index_a:index_b]]
        tup1 = (min(score),)
        tup2 = (max(score),)
        score_bin = tup1+tup2
        score_bin_list.append(score_bin)
        label_bin = [x[1] for x in items[index_a:index_b]]
        bin_bad = sum(label_bin)
        bin_bad_rate = bin_bad/bad
        bad_rate_list.append(bin_bad_rate)
    bad_rate_cumsum = list(np.cumsum(bad_rate_list))
    bad_rate_cumsum.insert(0,0)
    
    plt.figure(figsize=plt_size)
    x = score_bin_list
    y1 = bad_rate_list
    y2 = all_badrate_list
    y3 = bad_rate_cumsum 

    y4 = all_badrate_cum
    plt.subplot(1,2,1)
    plt.title('提升圖')
    plt.xticks(np.arange(bins)+0.15,x,rotation=90)
    bar_width= 0.3
    plt.bar(np.arange(bins),y1,width=bar_width,color='hotpink',label='score_card')
    plt.bar(np.arange(bins)+bar_width,y2,width=bar_width,color='seagreen',label='random')
    plt.legend(loc='best')
    plt.subplot(1,2,2)
    plt.title('洛倫茲曲線圖')
    plt.plot(y3,color='hotpink',label='score_card')
    plt.plot(y4,color='seagreen',label='random')
    plt.xticks(np.arange(bins+1),rotation=0)
    plt.legend(loc='best')
    return plt.show()
plot_lifting(trainData,'score','y',bins=10,plt_size=(10,5))
/<code>

6.設定cutoff

　cutoff即根據評分劃分通過/拒絕的點，其實就是看不同的閾值下混淆矩陣的情況。設定cutoff時有兩個指標，一個是誤傷率，即FPR，就是好客戶中有多少被預測為壞客戶而拒絕。另一個是拒絕率，就是這樣劃分的情況下有多少客戶被拒絕。

<code># 設定cutoff點，衡量有效性
def rule_verify(df,col_score,target,cutoff):
    """
    df:數據集
    target:目標變量的字段名
    col_score:最終得分的字段名
    cutoff :劃分拒絕/通過的點
    
    return :混淆矩陣
    """
    df['result'] = df.apply(lambda x:30 if x[col_score]<=cutoff else 10,axis=1)
    TP = df[(df['result']==30)&(df[target]==1)].shape[0]
    FN = df[(df['result']==30)&(df[target]==0)].shape[0]
    bad = df[df[target]==1].shape[0]
    good = df[df[target]==0].shape[0]
    refuse = df[df['result']==30].shape[0]
    passed = df[df['result']==10].shape[0]
    
    acc = round(TP/refuse,3)
    tpr = round(TP/bad,3)
    fpr = round(FN/good,3)
    pass_rate = round(refuse/df.shape[0],3)
    matrix_df = pd.pivot_table(df,index='result',columns=target,aggfunc={col_score:pd.Series.count},values=col_score)
    
    print('精確率:{}'.format(acc))
    print('查全率:{}'.format(tpr))
    print('誤傷率:{}'.format(fpr))
    print('規則拒絕率:{}'.format(pass_rate))
    return matrix_df
/<code>

分享到:

閱讀更多 風控獵人 的文章

關鍵字: bad plt 曲線

Vue 3 Composition API 實戰前瞻

模板模式總結

利用策略模式優化代碼結構

零基礎學Python（8）運算符 — 算術、比較、賦值、邏輯

React架構進階系列：業務邏輯與UI分離

解決React應用界面開發常見痛點（一）業務邏輯與UI分離

線程怎麼返回結果？一起來了解下Future

Wish新增API接口便於商戶獲取產品評分及賠款信息

物理 CPU vs 邏輯 CPU vs 核心 vs 線程 vs Socket

LVM管理(快照)

如何通過TF實現線性回歸，通讀本文幫你節省不必要的時間

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"