chapter3 EDA和數據描述
3.2單變量統計量(proc univariate):描述性統計
3.3變量分佈(分組)
- tranwrd函數:將字符串中的某些字符替換為其他字符。(a='abc';b=tranwrd(a,'bc','fff');)
- select max(&Xvar) into :Vmax from &dsin; 將 max(&Xvar) 設置成宏變量 Vmax。
- call symput("new_names",vars_new); 將 new_names 設置成宏變量vars_new。
- proc chart/proc sgplot 條形圖
3.4特徵分析
- 特徵分析的目的是揭示違約率和備選預測變量之間的關聯性。
- %ChcAnalysis (分段:等高度、等寬度)
3.5列聯表(proc freq/proc tabulate)
3.6極端值識別(取值範圍、函數、聚類分析、決策樹)
3.6.1根據範圍識別極端值(%Extremes 均值+-3倍的標準差)
3.6.2使用聚類識別極端值(%ClustOL,proc fastclus K-均值算法)
3.6.3多級識別極端值
3.6.4極端值的處理
chapter4 預測力指標
4.1引言(相關性、關聯性)
- 相關性:兩個變量之間的線性關係的指標
- 關聯性:其他所有形式的非線性關係的指標
- 通過判斷因變量和自變量之間的相關性或關聯性水平可以過濾掉預測力較低的變量。
4.2符號
4.2.1兩個連續變量
4.2.2兩個名義變量(proc freq)
4.2.3名義變量x和連續變量y
4.3皮爾森相關係數:連續變量
- proc corr data=Homes pearson;
- 皮爾森相關係數由於數據錯誤或極端值導致結果不穩定性。
4.4斯皮爾曼相關係數:順序變量(等級)
- proc corr data=Homes spearman;
- proc corr data=Homes Pearson Spearman OutS=SCor Outp=PCorr;
- _N_ 變量表示數據已經執行的行數。
4.5皮爾森卡方統計量:用於衡量兩個名義變量之間的關聯性(Chi-Square)
- proc freq data = CreditApp order=data;
tables ResidenceCat * EmploymentCat/CHISQ; weight wt;
run; /*p值小於0.05,表明兩個變量之間具有很強的相關性*/
4.6似然比檢驗統計量(Likelihood Ratio Chi-Square,同Chi-Square)
4.7概率比(優比):適用於變量只有兩個分類,即二元的。
- proc Freq Data=CreditCards order=data;
table Region * Status/measures chisq;
WEIGHT Wt;run;
- 可以用概率比的置信區間檢查它們是否都位於單位1的同一側,如果不是,說明不能用概率比去證明變量x和y之間是否存在關聯性。
- 概率比在Logistic迴歸模型中起著關鍵的作用。
4.8F檢驗(%CalcGrF,)
4.9基尼方差(%GNomNom)
4.10熵方差(同基尼方差,%ENomNom)
4.11信息值(IV,用於判斷候選變量的預測能力,%InfoValue)
4.12變量選擇的自動化( %InfValue、%ExtrctTop)
閱讀更多 六便士財經分享 的文章