韋勇鳳,向一波
(中國科學技術(shù)大學管理學院, 合肥 230026)
隨著金融行業(yè)快速發(fā)展、大眾消費觀念極速改變,個人信貸產(chǎn)品不斷豐富,以及個人信貸業(yè)務(wù)規(guī)模大幅提升,個人信用風險問題日益突出。個人信用風險是目前商業(yè)銀行面臨的風險中最為重要和復(fù)雜的,因此如何進行有效的個人信用風險管理來降低違約風險成為研究的核心問題?!栋腿麪栃沦Y本協(xié)議》指出有條件的銀行要實施內(nèi)部評級法,通過對歷史數(shù)據(jù)構(gòu)建模型測算客戶的違約概率[1]。違約概率作為影響信用風險的關(guān)鍵因素之一,準確地評估客戶的違約概率是信用風險計量的基礎(chǔ)[2]。而在信用風險管理方面,信用評分模型發(fā)揮著重要的作用。
目前,基于機器學習的個人信用評分模型有:線性判別分析[3]、Logistic回歸[4]、神經(jīng)網(wǎng)絡(luò)[5]、支持向量機[6]、遺傳算法[7]、聚類分析[8]、最近鄰模型[9]、決策樹[10]和貝葉斯方法[11]等。其中,Logistic回歸在個人信用評分中應(yīng)用最為廣泛。Logistic模型具有計算簡單、解釋性強與預(yù)測精度較高的優(yōu)點,并且在中國房貸信用風險評估中得到驗證[12]。然而,隨著社會和經(jīng)濟的不斷發(fā)展,影響個人信用風險的因素在不斷增加,傳統(tǒng)的Logistic回歸不能有效地處理模型中自變量存在多重共線性的問題,且過多變量增加了模型的復(fù)雜度,進而降低了模型預(yù)測的精準度。因此,不斷有學者在此基礎(chǔ)上進行深入研究。針對Logistic回歸存在的缺陷,Lee和Zhang[13]通過對個人信用評分模型中樣本的非均勻抽樣進行優(yōu)化,提高了Logistic回歸模型的預(yù)測性能。Jongh等[14]提出通過大樣本數(shù)據(jù)消除Logistic回歸中的變量多重共線性對個人信用評分中的影響。魏秋萍和張景肖[15]基于偏最小二乘方法構(gòu)建信用評分模型,史小康和何曉群[16]基于有偏的Logistic回歸方法進行個人信用評級模型的應(yīng)用研究,這兩種方法都能有效地緩解評分模型中自變量存在多重共線性的問題。然而,上述模型也存在一定的局限性,沒有充分考慮樣本數(shù)據(jù)本身存在的非均衡性和缺失性,也沒有對研究變量進行必要的選擇。Tibshirani[17]提出Lasso方法能夠同時實現(xiàn)變量選擇與參數(shù)估計,可以將模型中部分自變量的系數(shù)壓縮使之趨于零,從而達到變量選擇的目的。張婷婷和景英川[18]直接將改進的adaptive Lasso-Logistic回歸模型引入個人信用評分,他們的方法相比Lasso-Logistic回歸具有更好的解釋性與更高的預(yù)測精準度。然而,當數(shù)據(jù)中有分類變量時,Lasso方法通常不能得到滿意的結(jié)果,因為Lasso方法只能選擇單個啞變量,而不是整個分類變量,Group-Lasso方法很好地解決了這個問題。張娟和張貝貝[19]采用基于Group-Lasso方法的廣義半?yún)?shù)可加模型進行信用評分模型的應(yīng)用研究,雖然該模型考慮利用Group-Lasso方法進行變量選擇,將啞變量作為組進行整體的選擇,但是缺乏對樣本數(shù)據(jù)進行必要的處理。
為解決上述問題,本文嘗試采用ROSE(random over sampling examples) 方法處理類別不均衡的信用卡數(shù)據(jù)之后,再使用Group-Lasso方法在Logistic回歸模型中進行變量選擇,構(gòu)建個人信用評分模型。
在線性回歸模型中,記連續(xù)型響應(yīng)變量為Y∈n,n×p維設(shè)計矩陣為X,系數(shù)向量為β=(β1,β2,…,βp)T∈p。Lasso估計[17]定義如下
(1)
在線性回歸模型中,當自變量除連續(xù)型變量,還含有分類變量時,Lasso方法通常不能得到滿意的結(jié)果。傳統(tǒng)Lasso方法只能選擇單個的啞變量,而不是整個分類變量,Group-Lasso方法[20]在Lasso方法的基礎(chǔ)上解決了這個問題。其估計定義如下
(2)
其中Tg是第g組變量的下標集,βTg是第g組變量的系數(shù)向量,(g=1,2,…,G)。Group-Lasso方法的懲罰項可以看作是L1懲罰和L2懲罰的中間狀態(tài)[21],Group-Lasso方法在組的水平上選擇變量,即成組地選擇變量。例如,考慮一個具有K個水平的分類變量,在線性模型建模過程中,該分類變量是被轉(zhuǎn)化為K-1個0-1變量,就可以看作一個組。Group-Lasso方法可以對這K-1個啞變量同時選擇,而Lasso方法只能選出這K-1個啞變量中的一部分,這是沒有實際意義的。
假設(shè)有獨立同分布的樣本(xi,yi),i=1,2,…,n,其中xi∈p對應(yīng)于G組自變量,二元響應(yīng)變量yi∈{0,1},自變量可以為連續(xù)型變量或分類變量。記dfg為第g個自變量的自由度(degrees of freedom)[22],即第g組自變量的個數(shù),于是可記每一組變量xi,g∈dfg,g=1,2,…,G。
線性logistic回歸模型對條件概率pβ(xi)=Pβ(y=1|xi)建模:
(3)
其中,
(4)
β0∈是截距項,β∈dfg是第g組自變量的系數(shù)向量,p+1是所有自變量的系數(shù)向量。Logistic回歸的Group-Lasso估計可通過最小化如下凸函數(shù)得到:
(5)
其中l(wèi)(·)是對數(shù)似然函數(shù):
(6)
在實際的二分類問題中,有許多情形是其中有一類樣本非常少,而且通常是我們比較感興趣的那一類。然而大部分模型更關(guān)注大類而忽視了小類的影響,這類類別不均衡問題會嚴重影響機器學習算法的擬合和預(yù)測效果[24]。為處理上述問題,一般采取的方法是直接調(diào)整原始數(shù)據(jù)集的樣本量,使得不同類別的數(shù)據(jù)樣本之間達到均衡狀態(tài)。基于這種直接產(chǎn)生新的數(shù)據(jù)樣本來解決非均衡問題的主要方法有兩種:一是基于數(shù)據(jù)層面,二是基于算法層面。
基于數(shù)據(jù)層面的方法主要是隨機欠抽樣法和隨機過抽樣法。1)隨機欠抽樣法是直接減少大類樣本的樣本量使得兩類樣本均衡,但采用這種方法會使得大類損失不少重要信息,導致結(jié)果不準確。2)隨機過抽樣法是增加小類樣本的樣本量使得兩類樣本均衡,但采用這種方法會重復(fù)增加小類的樣本數(shù)據(jù),增大計算負擔,還有可能導致過擬合?;谒惴▽用娴姆椒ㄖ饕灿袃煞N:一是代價敏感學習法,二是人造樣本數(shù)據(jù)合成法。1)代價敏感學習法不直接生成均衡數(shù)據(jù)集,而是通過調(diào)節(jié)錯分代價的方式,生成代價矩陣處理非均衡問題。該方法在非均衡數(shù)據(jù)的處理中具有較大的局限性,響應(yīng)變量的不均勻分布使得算法精度下降,對于小類的預(yù)測精度會很低。而在非均衡的數(shù)據(jù)中,任一算法都沒法從樣本量少的類中獲取足夠的信息進行精確預(yù)測[25]。2)人造樣本數(shù)據(jù)合成法利用人造樣本數(shù)據(jù)而不是重復(fù)原始樣本數(shù)據(jù)處理非均衡問題,解決了生成樣本重疊的問題。相對于隨機欠抽樣法或隨機過抽樣法而言,該方法沒有重復(fù)利用樣本數(shù)據(jù),也沒有減少樣本信息。
在某些場合下,人造樣本數(shù)據(jù)合成法相對于其他處理非均衡的方法而言具有一定的優(yōu)勢,其中最為有效和常用的是SMOTE(synthetic minority over-sampling technique)算法和ROSE算法。SMOTE算法是生成與小類觀測相似的新數(shù)據(jù),具體地說是在樣本點和它近鄰點的連線上隨機投點作為生成的人造樣本[26];ROSE算法則是基于各類別對應(yīng)的自變量的條件核密度估計,產(chǎn)生類別均衡的人造樣本[27]。本文運用2種方法對數(shù)據(jù)進行非均衡處理之后,發(fā)現(xiàn)通過ROSE算法進行處理后的實證結(jié)果更加有效。所以,本文最終采用ROSE算法[28]對數(shù)據(jù)進行非均衡處理。
考慮訓練集Tn={(xi,yi),i=1,2,…,n},這里yi∈{y0,y1}是類別標簽,xi是某個總體x∈d的一次實現(xiàn)(來自總體x的一個樣本),總體的概率密度f(x)未知。nj 1)以概率1/2選擇y=Yj,j=1,2, 2)以概率pi=1/nj在訓練集Tn中選擇樣本(xi,yi)使得yi=y, 3)從KHj(·,xi)中采樣,其中KHj是一個概率分布,中心在xi,Hj是刻度參數(shù)矩陣。 先從訓練集中選擇一個樣本,然后在這個樣本的鄰域中產(chǎn)生一個新的樣本,這個鄰域的寬度由Hj決定。通常,KHj是一個單峰和對稱的概率分布。在給定類別標簽Yj時,產(chǎn)生新的樣本等價于由f(x|Yj)的核密度估計來采樣,其中核函數(shù)為KHj。核函數(shù)K和“窗寬”Hj的選擇是純粹的核密度估計問題。給定標簽時,條件密度如下 (7) 本文數(shù)據(jù)來源于某商業(yè)銀行信用中心的信用卡用戶數(shù)據(jù),該數(shù)據(jù)集樣本總量為67 773個,其中每一個樣本代表一個客戶對應(yīng)的信息。每個客戶信息含有45個屬性,表示本文選取的自變量為45個,包含客戶的基本情況、個人金融標的資產(chǎn)、個人消費和個人貸款等方面(見附錄表A1)。用一個標簽屬性對客戶類別進行二分類,其中表示“好”的客戶標簽為“0”,即沒有違約的客戶;“壞”的客戶標簽為“1”,即有違約的客戶。在這67 773個樣本總量中,被定義為“好”的客戶樣本量有66 051個,占總樣本量的97.5%,被定義為“壞”的客戶樣本量有1 722個,占總樣本量的2.5%。 商業(yè)銀行收集到的信用卡用戶數(shù)據(jù)類別標簽通常是嚴重非均衡的,同時數(shù)據(jù)也是嚴重缺失的,因為真正違約或數(shù)據(jù)信息完整的客戶只有很少的一部分。由于樣本數(shù)據(jù)集的質(zhì)量直接決定了數(shù)據(jù)分析結(jié)果,因此,對樣本數(shù)據(jù)集進行預(yù)處理是十分必要的。針對缺失數(shù)據(jù)進行預(yù)處理時,主要采用3種處理方法:刪除法、填充法和不處理。本文采用常見的填充法來處理,對于數(shù)值型的缺失用該變量的均值填補,對于屬性變量的缺失用“空”填補。 本文以判別能力和預(yù)測精度作為評價標準,對個人信用數(shù)據(jù)進行實證分析。采用ROC曲線(receiver operating characteristic curve)、AUC(area under the curve of ROC)值和KS(Kolmogorov-Smirnov)值進行驗證??紤]到信用評分的本質(zhì)是一個二分類問題,本文采用兩類錯誤對模型預(yù)測結(jié)果的可靠性和精度進行解釋。 ROC曲線[29]是評估二元分類器效果的常用方法,也是輔助確定概率分割值的有效工具。一般ROC曲線的x軸為假正率(FPR),y軸為真正率(TPR),二分類預(yù)測的混淆矩陣中,行項為觀測的實際類別值,列項為預(yù)測類別值。一般給定一個二分類模型和它的閾值,就能從這些樣本數(shù)據(jù)的真實值和預(yù)測值計算出一個坐標點。坐標點離左上角越近,表示其預(yù)測準確率越高;離右下角越近,表示其預(yù)測準確率越低。作為ROC曲線的補充,AUC值表示ROC曲線下方的面積。AUC值越大的分類器,其分類正確率越高;這里的KS值僅代表模型分割樣本的能力,并不能完全表示分割是否準確。在極端情況下,即便好壞客戶完全分錯,KS值也可以很高。但通常情況下,KS值大于0.2就可認為模型有比較好的預(yù)測準確性。 從兩類錯誤角度考慮,第1類錯誤即將“好”的客戶預(yù)測成為“壞”的客戶,第2類錯誤即將“壞”的客戶預(yù)測成為“好”的客戶。雖然這兩類錯誤都是我們所要避免的,但是在實際情況中,犯第2類錯誤所付出的代價是第1類錯誤的好幾倍。因此,我們的主要目的是將整體錯誤率降低的同時,將第2類錯誤降到最低,以便將損失減少到最小。 2.2.1 Group-Lasso Logistic回歸模型 采用Group-Lasso Logistic回歸方法建立個人信用評分模型。由于該數(shù)據(jù)中含有大量的分類變量,所以不能直接用Lasso方法進行變量選擇。因此,在這里采用Group-Lasso方法進行變量選擇,對由分類變量產(chǎn)生的啞變量做同時變量選擇。分別以子模型相對于飽和模型的偏差和AUC值作為模型選擇的準則進行比較分析。 1)Group-Lasso Logistic回歸模型(偏差準則) 以子模型相對于飽和模型的偏差作為模型選擇的準則,做5 折交叉驗證,選擇交叉驗證偏差(CV deviance) 最小時對應(yīng)的模型。偏差定義如下 (8) 圖1 參數(shù)λ的路徑Fig.1 Path of parameter λ 得到最優(yōu)參數(shù)λ=0.000 415,選出40個變量,剔除5個變量。用選出的40個變量訓練Logistic回歸模型,訓練集和測試集對應(yīng)的樣本編號都與前文相同(通過固定隨機種子實現(xiàn)),得到在測試集上的ROC曲線(圖2)。由ROC曲線可得AUC值為0.777,經(jīng)計算可得KS值為0.434 3。 圖2 Group-Lasso Logistic回歸模型(偏差準則)下的ROC曲線Fig.2 ROC curve under Group-Lasso Logistic regression model (deviation criterion) 2)Group-Lasso Logistic回歸模型(AUC準則) 以AUC值作為模型選擇的準則。在這里沒有用到交叉驗證,而是直接根據(jù)不同子模型在測試集上的AUC值選擇AUC值最大時對應(yīng)的模型。此時,模型選出39個變量,剔除6個變量。用選出的39 個變量訓練Logistic回歸模型,訓練集和測試集對應(yīng)的樣本編號都與前文相同(通過固定隨機種子實現(xiàn)),得到在測試集上的ROC曲線(圖3)。由ROC曲線可得:AUC值最大為0.778,經(jīng)計算可得AUC值最大的模型對應(yīng)的KS 值為0.434 1。 圖3 Group-Lasso Logistic回歸模型(AUC準則)下的ROC曲線Fig.3 ROC curve under Group-Lasso Logistic regression model (AUC criterion) 實證結(jié)果表明,以偏差作為模型選擇準則得到的結(jié)果,雖然“0”的準確率相對另一個模型有所下降,但是“1”的準確率比另一個模型有所提升,即降低了犯第2類錯誤的概率,同時KS值也略有提升,表明以偏差作為模型選擇準則得到的結(jié)果更為有效。 2.2.2 ROSE Group-Lasso Logistic回歸模型 1)ROSE Group-Lasso Logistic回歸模型(偏差準則) 采用以偏差作為模型選擇的準則選出的40個變量來建模。此時,訓練集和測試集不變,其中訓練集樣本容量為40 664,標簽為“0”的樣本有39 631個,標簽為“1”的樣本有1 033個。通過采用ROSE方法產(chǎn)生均衡數(shù)據(jù)集,均衡數(shù)據(jù)集標簽為“0”和“1”的樣本分別為20 399個和20 265個,用均衡數(shù)據(jù)訓練模型,得到在測試集上的ROC曲線(圖4)。由ROC曲線得到AUC值為0.78,經(jīng)過計算得到KS值為0.434 5。 圖4 ROSE Group-Lasso Logistic回歸模型(偏差準則)下的ROC曲線Fig.4 ROC curve under ROSE Group-Lasso Logistic regression model (deviation criterion) 2)ROSE Group-Lasso Logistic回歸模型(AUC準則) 采用以AUC值作為模型選擇的準則選出的39個變量來建模。此時,訓練集和測試集不變,其中訓練集樣本容量為40 664,標簽為“0”的樣本有39 631個,標簽為“1”的樣本有1 033個。同樣通過采用ROSE方法產(chǎn)生均衡數(shù)據(jù)集,均衡數(shù)據(jù)集標簽為“0”和“1”的樣本分別為20 399個和20 265個,用均衡數(shù)據(jù)訓練模型,得到在測試集上的ROC曲線(圖5)。由ROC曲線得到AUC值為0.778,經(jīng)過計算得到KS值為0.434 7。 圖5 ROSE Group-Lasso Logistic回歸模型(AUC準則)下的ROC曲線Fig.5 ROC curve under ROSE Group-Lasso Logistic regression model (AUC criterion) 實證結(jié)果表明,采用ROSE算法對樣本數(shù)據(jù)進行非均衡處理之后,以AUC值作為模型選擇準則得到的結(jié)果,雖然“0”的準確率相對于偏差作為模型選擇準則有所下降,但是“1”的準確率比另一個模型大幅提升,即降低了犯第2類錯誤的概率,同時KS值也略有提升,因此,本文認為以AUC值作為模型選擇準則得到的結(jié)果更為有效。 2.2.3 SMOTE Group-Lasso Logistic回歸模型 1)SMOTE Group-Lasso Logistic回歸模型(偏差準則) 采用以偏差作為模型選擇的準則選出的40個變量來建模,其他條件不變。得到在測試集上的ROC曲線(圖6)。由ROC曲線得到AUC值為0.742,經(jīng)過計算得到KS值為0.416 7。 圖6 SMOTE Group-Lasso Logistic回歸模型(偏差準則)下的ROC曲線Fig.6 ROC curve under SMOTE Group-Lasso Logistic regression model (deviation criterion) 2)SMOTE Group-Lasso Logistic回歸模型(AUC準則) 采用以AUC值作為模型選擇的準則選出的39個變量來建模,其他條件不變。得到在測試集上的ROC曲線(圖7)。這里由ROC曲線得到AUC值為0.748,經(jīng)過計算得到KS值為0.420 9。 圖7 SMOTE Group-Lasso Logistic回歸模型(AUC準則)下的ROC曲線Fig.7 ROC curve under SMOTE Group-Lasso Logistic regression model (AUC criterion) 實證結(jié)果表明,采用SMOTE算法進行樣本數(shù)據(jù)非均衡處理,所得結(jié)果非常不理想。雖然兩者都屬于人造樣本數(shù)據(jù)合成法,但顯然SMOTE算法在這里并不適用。 本文以判別能力和預(yù)測精度作為評價標準,對個人信用數(shù)據(jù)進行分析,采用ROC曲線、AUC值和KS值進行驗證。同時考慮到信用評分的本質(zhì)是一個二分類問題,所以從兩類錯誤角度進一步對模型結(jié)果預(yù)測的可靠性進行解釋。通過比較上述幾種模型結(jié)果(表1)可以看出,相對于其他模型,本文構(gòu)建的ROSE Group-Lasso Logistic回歸模型(AUC準則)所得結(jié)果的AUC值和KS值都較高,說明該模型整體的預(yù)測精度有所提高,并且“1”的準確率大幅提升,即降低了犯第2類錯誤的概率。因此,基于ROSE Group-Lasso Logistic回歸模型(AUC準則)構(gòu)建的個人信用評分模型更為有效。 表1 各模型的結(jié)果比較Table 1 Comparison of results among different models 本文將Group-Lasso Logistic方法引入個人信用評分模型,主要創(chuàng)新點如下:1)樣本數(shù)據(jù)來源于國內(nèi)某商業(yè)銀行信用卡中心,大量真實的樣本數(shù)據(jù)使得實證結(jié)果更加具有實際參考價值;2)針對樣本數(shù)據(jù)中違約客戶與未違約客戶的嚴重不均衡狀況,創(chuàng)造性地采用ROSE算法對樣本數(shù)據(jù)進行非均衡處理,提升了數(shù)據(jù)質(zhì)量。最后,實證結(jié)果表明,ROSE Group-Lasso Logistic(AUC準則)方法在判別能力和預(yù)測能力上相對其他模型更為有效。因此,本文構(gòu)建的信用評分模型,能夠作為客戶信用評價決策的有效依據(jù),指導銀行及其他金融機構(gòu)評估顧客個人信用風險,并且在實際運用中也具有良好的可操作性。 本文的研究只是從統(tǒng)計方法上對個人信用評分模型進行實證探討,具有局限性。未來的研究可以轉(zhuǎn)向構(gòu)建適合個人信用評分的動態(tài)評分模型。動態(tài)信用評分模型不僅可以進一步優(yōu)化商業(yè)銀行的信用風險管理,還能更加及時和精確地估計違約損失率。 表A1 個人信用評分模型指標體系主要指標變量解釋說明2 實證分析
2.1 數(shù)據(jù)采集與預(yù)處理
2.2 評價標準與模型建立
2.3 各模型結(jié)果比較分析
3 結(jié)論與展望