盧榮偉,黃嫦娥*,謝久暉*
(桂林電子科技大學 數(shù)學與計算科學學院,廣西 桂林)
隨著互聯(lián)網(wǎng)和移動支付的快速發(fā)展,信用卡已經(jīng)成為了人們?nèi)粘I钪斜夭豢缮俚闹Ц妒侄沃?。準確預(yù)測逾期風險可以幫助銀行更好地管控風險,減少損失??蛻舻男庞每ㄐ畔⒑蛡€人消費數(shù)據(jù)往往與其違約行為有著某種聯(lián)系。借助機器學習方法來學習這種“聯(lián)系”,從而對大規(guī)模客戶進行信用評價是可行的。已有的研究表明,機器學習算法在信用卡逾期預(yù)測問題上具有更高的效率和準確性。R Singh1.1.1[1]在信用評分問題中,對傳統(tǒng)的統(tǒng)計和現(xiàn)代數(shù)據(jù)挖掘、機器學習工具進行了評估,其對比了線性判別分析、支持向量機核密度估計、邏輯回歸、遺傳算法、鄰近算法等技術(shù),結(jié)果表明,支持向量機和遺傳算法在分類信用卡申請人誤判率上較其他技術(shù)優(yōu)越。然而,已有的研究中,很少基于本文針對傳統(tǒng)機器學習模型預(yù)測為“未逾期”客戶的可信度不高問題,對傳統(tǒng)的機器學習模型進行改進,降低將“逾期”客戶預(yù)測成“未逾期”客戶的概率,使得模型預(yù)測結(jié)果有較高的可信度,從而為銀行實現(xiàn)信用卡精準銷售,優(yōu)化客戶資源,降低信用違約風險的目的。
ROC(Receiver Operating Characteristic)曲線是描述二元分類器在不同閾值下的表現(xiàn)的曲線。PR(Precision-Recall)曲線是彌補了ROC 曲線在處理不平衡數(shù)據(jù)時出現(xiàn)缺陷而誕生的一種評估指標。橫軸表示召回率(recall),縱軸表示精確率(precision) 。PR 曲線顯示了在不同閾值下,精確率和召回率之間的折中關(guān)系。曲線上每個點代表一個不同的閾值,需要根據(jù)實際需求來選擇合適的閾值。如果更加關(guān)注查準率,則應(yīng)該選擇PR 曲線上靠較左側(cè)的點作為最佳閾值;如果更加關(guān)注查全率,則應(yīng)該選擇PR 曲線上靠較右側(cè)的點作為最佳閾值[2]。
混淆矩陣[3]是機器學習中用于評估分類模型性能的一種方法。它是一個二維數(shù)組,橫軸表示實際的類別,縱軸表示預(yù)測的類別,每個元素表示將實際類別預(yù)測為某個類別的樣本數(shù)目,見表1。
表1 混淆矩陣
根據(jù)混淆矩陣可以計算得到多個指標來評估分類模型性能,如準確率、召回率、精確率和可信度等。準確率(Accuracy)是指所有被正確分類的樣本占總樣本數(shù)的比例。召回率(Recall)是指所有真正例被正確識別出來的比率。精確率(Precision)是指被正確識別出來的真正例占所有被識別為真正例的樣本數(shù)目的比率??尚哦龋╟redibility)是指被識別為負例的樣本中,實際的負例樣本所占比例。
可信度是基于本文研究的實際問題——信用卡逾期預(yù)測,提出的一個模型評價指標??尚哦戎翟酱螅f明該模型識別出來的“未逾期”客戶更可靠。
本文的數(shù)據(jù)來自Default of Credit Card Clients Dataset[4],數(shù)據(jù)集共有30 000 條數(shù)據(jù),包含了持卡人的個人信息以及從2005 年4 月到2005 年9 月的信用卡信息,其中被解釋變量是客戶違約的狀態(tài),解釋變量是客戶的個人特征以及行為特征。
信用卡數(shù)據(jù)集中含有大量的分類數(shù)據(jù),例如歷史逾期信息等。若直接將這些分類數(shù)據(jù)作為模型輸入,會導(dǎo)致模型無法理解或產(chǎn)生偏好。因此,本文首先對分類數(shù)據(jù)采用獨熱編碼處理,這樣可以提高模型性能,獨熱編碼后的特征可以保留原始分類信息,同時在模型訓練中不會給予不同取值之間的誤導(dǎo),還能夠避免出現(xiàn)負數(shù)和相對大小等比較難處理的問題。其次,因為各個特征的量綱不一致,本文對所有樣本數(shù)據(jù)進行標準化處理。最后,考慮到信用卡數(shù)據(jù)集實際逾期客戶人群的占比較少,導(dǎo)致了樣本不平衡的問題。樣本不平衡會導(dǎo)致模型過擬合、準確率誤導(dǎo)、少數(shù)類別分類效果差等。因此,為了解決樣本不平衡問題,采用了SMOTE 采樣方法平衡處理,改善模型的性能。
在實際應(yīng)用中,銀行不但希望模型整體預(yù)測的準確率保持在一定的水平,更要盡可能降低實際逾期的客戶被預(yù)測為未逾期的比例,以使貸款銀行遭受的損失最小。基于這樣的現(xiàn)實問題,本文致力于構(gòu)建一種機器學習模型,使可信度credibility 和召回率recall 值都較高。首先采用十折交叉驗證對邏輯回歸、樸素貝葉斯、隨機森林、XGBoost、決策樹模型進行交叉驗證,結(jié)果見圖1。圖1 的橫坐標依次為邏輯回歸,樸素貝葉斯,隨機森林,XGBoost,決策樹模型,縱坐標為AUC值。隨機森林模型的AUC 值最高,說明隨機森林模型的分類表現(xiàn)最好。
圖1 各模型交叉驗證結(jié)果
數(shù)據(jù)集中特征的重要性往往是參差不齊的,構(gòu)建一個好的隨機森林分類,需要選擇合適數(shù)量且對目標變量解釋性強的特征進入分類器訓練中。通過計算基尼純度或信息增益的減少量可以對特征進行重要性評估,容易得到X6(最近一個月的逾期狀態(tài))在重要程度上遠高于其他特征,其次仍然是前幾個月的信用卡特征,而對于客戶的性別年齡受教育程度和婚姻狀況其實對下個月是否逾期并沒有顯著的影響關(guān)系。評估完各個特征的重要性后,還需確定入選多少個特征最好,選擇的依據(jù)是以AP 值(PR 曲線下的面積)。選擇重要性排在前十的特征(見表2)進入隨機森林模型中,且利用網(wǎng)格搜索法尋找出最優(yōu)超參數(shù)訓練得到分類結(jié)果,模型的最佳得分為0.839。
表2 特征重要性程度排名
為了盡可能降低實際逾期標簽被分類為未逾期的比例,在模型評估中使用PR 曲線。并利用F2得分來衡量模型優(yōu)劣。根據(jù)PR 曲線上使得F2得分最大的對應(yīng)點,可計算得最佳閾值為0.182。
根據(jù)以上分析,得到基于PR 曲線改進的隨機森林模型算法如下。
基于PR 曲線的隨機森林分類算法。1:對于每個隨機森林分類器i,進行如下操作:(a) 從訓練數(shù)據(jù)集D 中隨機有放回地抽取n 個樣本,構(gòu)成新的訓練數(shù)據(jù)集 D ;輸出:預(yù)測結(jié)果P p p p={ , ,..., }(b) 使用 D 訓練一棵深度為D 的決策樹 T 。2:對于每個測試樣本 z ,進行如下操作:(a) 對于每個隨機森林分類器i,計算出 T 對于 z 的預(yù)測輸出 y y = +1 ;1 exp( ( ))f x(b) 計算所有N 棵決策樹的預(yù)測結(jié)果 y 的平均值 y_ avg Σ y=y avg N_.3:根據(jù)所有測試樣本的 y_ avg 值和每一個給定的概率閾值t,計算預(yù)測結(jié)果的精確率和召回率TP t TP t precision t recall t TP t FP t TP t FN t( ) ( )( ) , ( ).( ) ( ) ( ) ( )=+4:將每個概率閾值t 對應(yīng)的精確率和召回率組成一條PR 曲線,在PR 曲線上選擇最佳閾值(best_ threshold ),使得該閾值對應(yīng)的PR 曲線點具有最大的 F 值。+=5? ?= ? +precision recall F precision recall 4.5:對于每個測試樣本 z ,進行如下操作:(a) 對于每個隨機森林分類器i,計算出 T 對于 z 的預(yù)測輸出 y ;(b) 計算所有N 棵決策樹的預(yù)測結(jié)果 y 的平均值 y_ avg;>,則預(yù)測結(jié)果為正例,否則為負例。6:輸出預(yù)測結(jié)果P。(c) 如果 _ _y avg best threshold
利用Default of Credit Card Clients Dataset 的數(shù)據(jù),按4:1 的比例劃分為訓練集和測試集,其中訓練數(shù)據(jù)包含24 000 個樣本,測試數(shù)據(jù)包含6 000 個樣本。使用本文提出的基于PR 曲線的隨機森林模型與邏輯回歸,樸素貝葉斯,決策樹,隨機森林,XGBoost 模型的預(yù)測效果進行比較實驗。結(jié)果見表3。
表3 各模型預(yù)測效果對比
其中前五種模型為基于ROC 曲線評價體系的傳統(tǒng)模型,從模型預(yù)測準確率(accuracy)和AUC 值來看決策樹、隨機森林和XGBoost 模型表現(xiàn)都比較好,其次是邏輯回歸,樸素貝葉斯的準確率相對較低,但注意到樸素貝葉斯分類器可信度(credibility)這一指標相較于另外四種模型略微有些優(yōu)勢,而邏輯回歸模型的可信度最低。
考慮到信貸機構(gòu)把實際逾期的客戶錯標為未逾期,帶來的經(jīng)濟損失更嚴重。因此,從獲取商業(yè)利益最大化這一實際角度出發(fā),信用卡逾期預(yù)測模型的評價體系中最重要的兩個指標應(yīng)當是召回率(recall)和可信度(credibility),而模型的準確率次之。本文提出的基于PR 曲線的隨機森林模型可信度(0.918)和召回率(0.854)有顯著的優(yōu)勢,這兩個主要指標較高意味著信貸機構(gòu)以最大程度減少了錯誤分類的損失,因此我們的模型更符合信貸機構(gòu)的商業(yè)利益,有更高的實際應(yīng)用價值。
本文研究的基于機器學習的信用卡逾期預(yù)測,實際上是一個二分類問題,以客戶的信用卡記錄數(shù)據(jù)為模型的輸入指標,根據(jù)預(yù)期違約概率確定模型的輸出指標0 或1(0 表示未違約,1 表示違約)。將輸入指標體系和輸出指標的樣本值輸入五種傳統(tǒng)的機器學習方法和本文提出的方法,進行綜合比較分析。結(jié)果表明:
(1) 在五種傳統(tǒng)的機器學習方法中,隨機森林和XGBoost 模型具有相對較好的逾期預(yù)測性能,可以更好地刻畫輸入指標體系的數(shù)據(jù)特征,利用十折交叉驗證表明隨機森林模型具有較好的外推性,所以預(yù)測模型的構(gòu)建選用隨機森林更合適。
(2) 利用基尼純度或信息增益的減少量對特征進行重要性評估,信用卡客戶逾期行為影響較大的10個重要因素是前三個月的逾期狀況和賬單支付金額以及信貸額度,通過實驗比較,選擇這十個重要特征用于隨機森林模型訓練時PR 曲線的AP 值最大。
(3) 從信用卡逾期預(yù)測這一實際問題的特殊性考慮,銀行希望預(yù)測為未逾期客戶的準確率要高,本文用可信度來衡量這一指標。本文提出的基于PR 曲線的隨機森林模型的可信度(0.918)和召回率(0.854)相較于傳統(tǒng)機器學習模型具有顯著的優(yōu)勢,更符合信貸機構(gòu)的商業(yè)利益,相對于五個傳統(tǒng)的機器學習模型有更高的應(yīng)用價值。