朱安安
摘 要:針對信用評價中最為常見的不平衡小樣本數(shù)據(jù)集問題,以及不同誤分類造成的損失代價不同問題,在傳統(tǒng)SVM模型基礎(chǔ)上,提出采用過采樣的SMOTE算法解決數(shù)據(jù)不平衡問題。在核SVM模型的基礎(chǔ)上運用交叉驗證得出核最優(yōu)參數(shù),加入非對稱誤差成本(DEC),提高將高風險誤分為低風險的成本,建立更適用于信用評價的模型。經(jīng)數(shù)據(jù)驗證,該算法有效彌補了傳統(tǒng)SVM模型在不平衡數(shù)據(jù)集分類中的缺陷,避免了小樣本數(shù)據(jù)集樣本過少而使得模型泛化能力降低的問題。加入DEC之后的模型與未加入的相比,雖分類準確率略有降低,但將高風險誤分為低風險的錯誤明顯降低,更適用于信用評價模型。
關(guān)鍵詞:信用評價;不平衡數(shù)據(jù);SMOTE算法;支持向量機;徑向基核;非對稱誤差成本
DOIDOI:10.11907/rjdk.181205
中圖分類號:TP301
文獻標識碼:A 文章編號:1672-7800(2018)010-0064-04
英文摘要Abstract:Aiming at the commonest problem of unbalanced data set of credit scoring and the different cost caused by different classification error,based on the traditional kernel SVM model,we propose to use SMOTE to balance the unbalanced data.Cross-validation is used to get the optimal parameters,and then dissymmetric error cost (DEC) is used to establish a more suitable model for credit scoring.Through the data test,it is proved that the new model remedies the defect of traditional SVM model and avoids the generalization ability decreasing caused by the small sample data set.Compared with the model without DEC,the accuracy of classification is slightly lower,but the error of high risk classification error is lower than before.It is more suitable for the credit scoring model.
英文關(guān)鍵詞Key Words:credit scoring; unbalanced data; SMOTE; SVM; radial basis function kernel; dissymmetric error cost
0 引言
所謂信用評價,通常指以一系列相關(guān)指標作為考量基礎(chǔ),通過一定方法計算出個人或企業(yè)償付其債務(wù)能力和意愿的過程。自美國次貸危機發(fā)生以來,各大金融機構(gòu)對個人信貸業(yè)務(wù)更為謹慎。為在控制風險與追求利潤之間找到平衡,建立有效的個人信用評價(credit scoring)體系更為重要[1]。在西方發(fā)達國家,個人信用評價體系、技術(shù)已逐步完善成熟,而我國信用評價起步較晚,大多數(shù)商業(yè)銀行和征信機構(gòu)仍然采用傳統(tǒng)的人工經(jīng)驗結(jié)合打分制評判是否放貸,隨著個人信用業(yè)務(wù)的迅猛增加,傳統(tǒng)方法已無法滿足現(xiàn)實需求。因此,如何快速有效進行信用測評顯得尤為關(guān)鍵。在數(shù)學(xué)與計算機技術(shù)迅猛發(fā)展的今天,機器學(xué)習(xí)廣泛應(yīng)用于信用評價中。支持向量機由于分類效果較好,在信用評價中應(yīng)用十分廣泛。個人信用評價一般由專業(yè)機構(gòu)針對個人相關(guān)信息,如年齡、工作狀況、住房情況、其它貸款情況等進行綜合分析和測定,對個人信貸風險進行預(yù)測,可以說是一種建立在定量基礎(chǔ)上的定性判定。
由于個人信貸信息的特性,銀行、信貸機構(gòu)收集到的往往都是允許放貸的信息數(shù)據(jù),因此得到的征信信息存在嚴重的正負樣本不平衡問題。正常情況下,信貸機構(gòu)擁有的信用不佳客戶占比約為10%左右,而面對不平衡數(shù)據(jù),支持向量機也只能得到次優(yōu)結(jié)果,通過SVM得到的超平面偏向少數(shù)類樣本,導(dǎo)致分類結(jié)果較差。就目前而言,抽樣技術(shù)和代價敏感學(xué)習(xí)是處理數(shù)據(jù)不平衡問題的兩大主流方法。抽樣技術(shù)廣泛應(yīng)用在數(shù)據(jù)層面,為其提供一個均衡的分布,其中過采樣和欠采樣是最有代表性的采樣方法。過采樣技術(shù)通常是增加少數(shù)類樣本數(shù)目,以平衡兩個類別之間的比率。最簡單的過采樣方法就是直接復(fù)制少數(shù)類樣本[2]。采用這種方法的優(yōu)點是不會丟失任何信息,但可能會出現(xiàn)過度擬合現(xiàn)象。因此,出現(xiàn)了一些更為先進的過采樣算法,例如合成少數(shù)類過采樣技術(shù)(SMOTE)。
對于信用評價而言,不同類型風險錯誤分類的成本并不相同,具體就銀行而言,把一位高風險客戶錯誤分類為低風險的成本要比相反情況高出5倍之多[3]。因此,在原有支持向量機模型基礎(chǔ)上,應(yīng)當考慮非對稱誤差成本,以此作出更為合理的信用評價。
本文利用SMOTE技術(shù)選取某機構(gòu)個人信用信息,將不平衡數(shù)據(jù)樣本通過過采樣技術(shù)變?yōu)檩^為平衡的數(shù)據(jù)樣本,再運用含有非對稱誤差成本的核SVM建立模型,將數(shù)據(jù)集進行交叉驗證,分析最佳模型參數(shù),得到效果較好的信用評價模型。
1 數(shù)據(jù)不平衡問題
在二分類問題中,如果兩個類別中的數(shù)據(jù)個數(shù)差別較大,則數(shù)據(jù)集可描述為“不平衡”。除非兩者數(shù)目差距相當大,否則這個問題并不十分重要。但在差距較大的情況下,正樣本數(shù)量遠遠小于負樣本數(shù)量,則原始邊界很容易被負樣本影響[4]。如果依照這樣的分類進行訓(xùn)練,會造成決策邊界偏移,出現(xiàn)誤分情況。然而,在傳統(tǒng)算法中,總體精度被用作衡量分類器性能指標,但在不平衡分類問題中,僅使用整體精度是不夠的。例如,如果存在一個數(shù)據(jù)集,其中正樣本只有1個,負樣本有99個,即使將所有樣本都歸為負類,總體精度也可達到99%。顯然即使達到了極高的整體精度,但結(jié)果卻意義不大。從這個角度來看,十分有必要對不平衡數(shù)據(jù)集進行均衡化處理。如圖1所示,兩個類的原始決策邊界顯示在A和B兩個完整的行中。一個類用交叉標記,另一個類用圓圈標記。當B中出現(xiàn)類不平衡時,決策邊界根據(jù)虛線偏移。少數(shù)類的侵入和作為一個結(jié)果,有方形圖案的多數(shù)類分類。
在徑向基核中有兩個參數(shù)需要確定:①懲罰系數(shù)cost。其作用是平衡支持向量的復(fù)雜度和誤分類率這兩者之間的關(guān)系,可以理解為正則化系數(shù)。若cost較大,則意味著損失函數(shù)也大,會存在較多較遠的離群點,這會產(chǎn)生更多的支持向量,使模型復(fù)雜度提高,也容易過擬合。反之,當cost較小時,表示放棄了較遠的離群點,選擇少量樣本支持向量,最后得到的模型也會簡單;②徑向核的系數(shù)γ。γ的定義是單個樣本對整個分類超平面的影響。當γ較小時,單個樣本對整個分類超平面影響較大,也很容易被選擇為支持向量。反之,當γ較大時,單個樣本對超平面的影響較小,不容易被選擇為支持向量。
2.2 引入非對稱誤差成本DEC的SVM模型
對于信用評價而言,每個類別錯誤分類的代價不同,如果將兩種不同類型錯誤的成本設(shè)定成一樣,則不符合信用數(shù)據(jù)集。因此,在核SVM基礎(chǔ)上,引入非對稱誤差成本(DEC)[7]。在模型中提高將高風險客戶誤分為低風險客戶的成本,雖然可能增加將低風險客戶誤分為高風險的誤差,使分類精確度下降,但這更符合信用評價的實際情況。
2.3 交叉驗證
現(xiàn)實環(huán)境中常遇到一種情況,即沒有可用的測試數(shù)據(jù)衡量模型在未知數(shù)據(jù)集上的泛化能力,且很多數(shù)據(jù)集所含樣本較少。希望將更多的數(shù)據(jù)運用在訓(xùn)練模型中,但也需要保留一部分樣本作為驗證集來驗證模型分類能力,并對參數(shù)進行調(diào)整。因此,對于小樣本數(shù)據(jù)集而言,交叉驗證尤為有效,交叉驗證概念如圖2所示。
本文所用數(shù)據(jù)集存在數(shù)據(jù)量較少問題,運用最常見的k折交叉驗證,即將數(shù)據(jù)集隨機拆分為k個同樣大小且不重疊的分區(qū),將其中的k-1個分區(qū)用于訓(xùn)練模型,剩下一個分區(qū)用于測試,一共進行k次,這樣可以通過對k個不同測試集獲得匯總結(jié)果,調(diào)整出更適合的模型參數(shù)。如何選取k很重要,選取一個較小的k值會產(chǎn)生訓(xùn)練集樣本過少,可能將更多的偏誤引入模型;而使用較大的k值,模型偏誤雖會降低,但實際上每次訓(xùn)練集數(shù)據(jù)都幾乎相同,模型的泛化能力下降。參考相關(guān)文獻,經(jīng)驗法則把k值選擇為10。
3 實驗與分析
3.1 數(shù)據(jù)集
本文使用某機構(gòu)信用數(shù)據(jù)集,該數(shù)據(jù)集包含申請者的信用歷史、貸款記錄、擔保人、家庭信息、就業(yè)情況、其它貸款情況等20個特征值,目標為判定申請者是否有較高的信用風險。0為信用風險良好,1表示不佳,具體如表1所示。
3.2 不平衡數(shù)據(jù)處理
本文SMOTE中,k值設(shè)置成4。當獲得一個平衡的數(shù)據(jù)集后SMOTE過程會停止,在R語言下編程SMOTE,perc.over=a表示少數(shù)類樣本變?yōu)樵瓉淼模?+a%)倍,perc.under=b表示多數(shù)類樣本變?yōu)樯贁?shù)類樣本的(b%*a%)。Zavgren(1985)[8]關(guān)注了信用評價中的數(shù)據(jù)不平衡問題,指出當正負樣本比例為 2∶1時,分類效果更好[1],因此在該模型中a設(shè)定為200,b設(shè)定為100,將3.1節(jié)中的數(shù)據(jù)集進行均衡處理,結(jié)果如表2所示。
結(jié)果顯示,在運用SMOTE均衡數(shù)據(jù)之后,正負樣本比接近2∶1,趨于平衡,適用于信用評價模型。
3.3 組合SVM模型驗證
為測試組合SVM模型對該數(shù)據(jù)集的有效性,采用不含有交叉驗證(C-V)以及DEC的模型訓(xùn)練數(shù)據(jù),再逐步引入C-V(SVM+C-V模型)和DEC(SVM+C-V+DEC模型),比較模型差異。有報告顯示,將一位高風險客戶誤分為低風險的成本比將低風險誤分為高風險的成本高5倍之多,因此在引入DEC時,本模型設(shè)定高風險誤分為低風險的成本為低風險誤分為高風險的5倍。
3.4 實驗結(jié)果對比分析
為測試本文算法對該數(shù)據(jù)集的有效性,運用不含交叉檢驗與DEC的支持向量機模型對已平衡化后的數(shù)據(jù)進行測試。由于支持向量機選取徑向核,因此需要選擇不同的cost與γ值尋找合適的優(yōu)化模型。對于平衡后的數(shù)據(jù)集,運用不同的cost值與γ值訓(xùn)練模型,為方便呈現(xiàn),γ值只羅列每個cost值下最優(yōu)結(jié)果情況,所得訓(xùn)練集與測試集分類精度如表3所示。
表3結(jié)果表明,當cost選取10,γ選取0.01時分類效果最好,但這種選擇參數(shù)的方法一方面要消耗大量的時間,較為麻煩,另一方面,在使用了測試集指導(dǎo)選擇參數(shù)后,它已經(jīng)不再代表未知數(shù)據(jù)集,這對模型的泛化能力產(chǎn)生了很大的影響,為此加入交叉驗證(c-v)選取參數(shù)。
運用10折交叉檢驗,將cost值設(shè)定在(0.01,0.1,0.5,1,5,10,100),γ值設(shè)定在(0.01,0.02,0.05,0.1,0.5,1)中,在不加入DEC的情況下,讓模型自行選取最優(yōu)的cost值與γ值并給出分類結(jié)果,再將非對稱誤差成本DEC加入模型,比較DEC對分類結(jié)果的影響。兩個模型得出的最優(yōu)參數(shù)結(jié)果一致,如表4所示。
由表4可以看出,運用交叉驗證所得出的最優(yōu)模型參數(shù)與上述不使用的一致,cost的值取10,γ值取0.01。另外,加入了DEC的模型分類準確率都比之前有所下降。但是,加入DEC之后的模型將低風險客戶誤分為高風險的誤差增加很多,但高風險誤分為低風險卻有所下降,如表5所示。由于不同錯誤分類的成本差異很大,雖然加入DEC后模型準確率下降,但卻更符合該數(shù)據(jù)集的實際情況。對于信用評價實際而言,更能幫助信貸機構(gòu)降低風險,減少損失。
4 結(jié)語
針對SVM模型在不平衡數(shù)據(jù)的信用評價問題中存在的不足,提出在傳統(tǒng)核支持向量機模型基礎(chǔ)上,運用SMOTE過采樣算法將數(shù)據(jù)正負樣本比平衡至適用于信用評價的2∶1,并根據(jù)SVM適用于小樣本數(shù)據(jù)情況,對模型逐步加入交叉驗證、DEC,通過比較各模型之間的差異驗證模型的可用性。從分類數(shù)據(jù)可以看出,交叉驗證方法可以方便直觀地找到本文所用徑向基核的最優(yōu)參數(shù),且不會存在數(shù)據(jù)樣本過少而使模型泛化能力降低的情況。將加入DEC之后的模型與未加入的比較,通過實驗可以看出,雖分類準確率略有降低,但高風險誤分為低風險的誤差明顯降低,在實際信用評價中更為可取,可為信貸機構(gòu)降低此類風險提供數(shù)據(jù)支持。
參考文獻:
[1] 向暉,楊勝剛.個人信用評分關(guān)鍵技術(shù)研究的新進展[J].財經(jīng)理論與實踐,2011,32(172):20-24.
[2] 黃海松,魏建安,康佩棟.基于不平衡數(shù)據(jù)樣本特性的新型過采樣SVM分類算法[J].控制與決策,2017,1(1):1-10.
[3] 魯伊·米格爾·福特.預(yù)測分析R語言實現(xiàn)[M].北京:機械工業(yè)出版社,2017.
[4] LU W,LI Z,CHU J.Adaptive ensemble undersampling boost:a novel learning framework for imbalanced data[J].The Journal of Systems and Software,2017,132(1):272-282.
[5] 王超學(xué),張濤,馬春森.面向不平衡數(shù)據(jù)集的改進型SMOTE算法[J].計算機科學(xué)與探索,2014,8(6):727-734.
[6] 肖智,王明愷,謝林林.基于支持向量機的大學(xué)生助學(xué)貸款個人信用評價[J].清華大學(xué)學(xué)報 :自然科學(xué)版,2006,46(S1):1120-1124.
[7] ZAVGREN C V.Assessing the vulnerability to failure of American industrial firms:a logistic analysis[J].Journal of Business Finance&Accounting; ,1985,12(1):19-45.
[8] 吳敏,張化朋,李雷.欠抽樣和DEC相結(jié)合的不平衡數(shù)據(jù)分類算法 [J].計算機技術(shù)與發(fā)展,2014,24(4):110-113.
[9] 梁武,蘇燕.一種新的基于類內(nèi)不平衡數(shù)據(jù)學(xué)習(xí)支持向量機算法[J].科技通報,2017,33(9):109-112.
[10] PALEOLOGO G,ELISSEEFF A,ANTONINI G.Subagging for credit scoring models[J].European Journal of Operational Research,2010,201(2):490-499.
[11] FINLAY S.Multiple classifier architectures and their application to credit risk assessment[J].European Journal of Operational Research,2011,210(2):368-378.
[12] 袁興梅,楊明,楊楊.一種面向不平衡數(shù)據(jù)的結(jié)構(gòu)化 SVM 集成分類器[J].模式識別與人工智能,2013,26(3):315-320.
[13] 劉東啟,陳志堅,徐銀,等.面向不平衡數(shù)據(jù)分類的復(fù)合SVM算法研究[J].計算機應(yīng)用研究,2018,35(4):1-7.
[14] BATUWITA R,PALADE V.Class imbalance learning methods for support vector machines[J].Imbalanced learning:Foundations,algorithms,and applications,2013(6):83-99.
[15] 王偉,薛安榮,劉峰.改進的SVM解決背景知識數(shù)據(jù)中的類不平衡[J].計算機應(yīng)用研究,2011,28(8):2902-2904.
[16] 樓曉俊,孫雨軒,劉海濤.聚類邊界過采樣不平衡數(shù)據(jù)分類方法 [J].浙江大學(xué)學(xué)報:工學(xué)版,2013,47(6):944-950.
[17] 李勇,劉戰(zhàn)東,張海軍.不平衡數(shù)據(jù)的集成分類算法綜述[J].計算機應(yīng)用研究,2014,31(5):1287-1291.
(責任編輯:杜能鋼)