李運(yùn)蒙,石安安,桂繞根,涂英
?
貝葉斯融合方法集成的支持向量機(jī)預(yù)警國(guó)家助學(xué)貸款信用風(fēng)險(xiǎn)的研究
李運(yùn)蒙1,石安安1,桂繞根1,涂英2
(1.五邑大學(xué) 經(jīng)濟(jì)管理學(xué)院,廣東 江門(mén) 529020;2.廣發(fā)銀行 江門(mén)分行,廣東 江門(mén) 529000)
用貝葉斯方法將隨機(jī)選用的多個(gè)不同類(lèi)別的支持向量機(jī)集成為預(yù)警模型,通過(guò)銀行實(shí)際助學(xué)貸款數(shù)據(jù)對(duì)模型進(jìn)行測(cè)試和驗(yàn)證,結(jié)果表明該集成模型有更高的分類(lèi)準(zhǔn)確度,可以為銀行助學(xué)貸款違約行為的預(yù)判提供重要的參考依據(jù).
助學(xué)貸款;支持向量機(jī);集成學(xué)習(xí);風(fēng)險(xiǎn)預(yù)警;貝葉斯融合方法
國(guó)家助學(xué)貸款政策于1999年開(kāi)始實(shí)施,2004年前后,在迎來(lái)首批還款高峰的同時(shí)也出現(xiàn)了大面積的違約現(xiàn)象,導(dǎo)致銀行方面一度叫停了助學(xué)貸款[1-2]. 至此,助學(xué)貸款的高違約率問(wèn)題成為了學(xué)者們關(guān)注和研究的焦點(diǎn). 一些學(xué)者通過(guò)構(gòu)建指標(biāo)體系和模型來(lái)評(píng)價(jià)貸款學(xué)生的個(gè)人信用,并用于銀行風(fēng)險(xiǎn)估計(jì)和預(yù)警[3-5]. 目前,定量實(shí)證研究的范例相對(duì)較少,且一般用的是單一模型,由于預(yù)警模型的準(zhǔn)確率是銀行方面最關(guān)心的問(wèn)題,因此探索出更加準(zhǔn)確的預(yù)警方法,嘗試多模型集成的預(yù)警效果十分必要.
國(guó)際上一般認(rèn)為,商業(yè)銀行貸款風(fēng)險(xiǎn)預(yù)警可作為分類(lèi)問(wèn)題看待[6-7],即通過(guò)預(yù)警模型的測(cè)算和預(yù)估,將其分為正常貸款和違約貸款兩類(lèi),或設(shè)置不同警限,將其分為多類(lèi). 研究表明,多模型集成方法能進(jìn)一步提高分類(lèi)精度[8-10]. 本文擬在充分研究國(guó)內(nèi)外相關(guān)成果的基礎(chǔ)上,根據(jù)前期構(gòu)建的助學(xué)貸款預(yù)警指標(biāo)體系[11-12],探討多分類(lèi)器集成預(yù)警模型的構(gòu)建方法,并結(jié)合廣發(fā)銀行江門(mén)分行助學(xué)貸款實(shí)際數(shù)據(jù)進(jìn)行實(shí)證檢驗(yàn),爭(zhēng)取為銀行防范和治理助學(xué)貸款違約提供有效的預(yù)警方法.
1 基于支持向量機(jī)的集成模型的構(gòu)建
1.1 支持向量機(jī)分類(lèi)模型
支持向量機(jī)(SVM)分類(lèi)器的優(yōu)點(diǎn)是精度高、泛化能力強(qiáng),適合小樣本等. SVM通過(guò)建立一個(gè)超平面作為決策曲面,使得不同類(lèi)別樣本之間的隔離邊緣最大化,以此達(dá)到劃分空間、實(shí)現(xiàn)分類(lèi)的目的. 分類(lèi)超平面的一般形式可寫(xiě)成:
利用拉格朗日優(yōu)化方法把上述最優(yōu)分類(lèi)面問(wèn)題轉(zhuǎn)化為對(duì)偶問(wèn)題,其存在唯一解,求解所得的最優(yōu)分類(lèi)函數(shù)為:
對(duì)于非線性問(wèn)題,可以采用滿足Mercer條件的內(nèi)積核函數(shù)代替原空間中的內(nèi)積,以避開(kāi)非線性變換的具體形式,此時(shí)分類(lèi)函數(shù)變?yōu)椋?/p>
使用該分類(lèi)函數(shù)對(duì)銀行信用數(shù)據(jù)分類(lèi),可以判斷貸款方的信用狀況.
1.2 貝葉斯集成方法
多分類(lèi)器組合是提高識(shí)別效果的有效途徑,目前已有較多的分類(lèi)器融合方法,其中貝葉斯法能充分利用每個(gè)分類(lèi)器的先驗(yàn)知識(shí)對(duì)融合結(jié)果進(jìn)行計(jì)算,且以每種分類(lèi)器在每個(gè)類(lèi)別上的分類(lèi)準(zhǔn)確率為融合依據(jù),其預(yù)測(cè)結(jié)果更加合理,因而備受關(guān)注. 設(shè)分類(lèi)器所分類(lèi)的樣本空間為,對(duì)的種類(lèi)別(即,其中,稱(chēng)為的一個(gè)類(lèi)),根據(jù)訓(xùn)練樣本統(tǒng)計(jì)出的每個(gè)分類(lèi)器的識(shí)別情況,建立混亂矩陣:
1.3 集成模型的實(shí)現(xiàn)
2)用測(cè)試樣本計(jì)算分類(lèi)器的分類(lèi)精度,并從大到小排序,精度低于標(biāo)準(zhǔn)的排除,本文精度標(biāo)準(zhǔn)為83%.
3)構(gòu)建優(yōu)選分類(lèi)器集合,先將最高精度的分類(lèi)器加入,后面的分類(lèi)器與集合中每個(gè)分類(lèi)器的差異計(jì)算結(jié)果達(dá)到一定程度才加入其中,初始差異取0.5.
兩兩分類(lèi)器差異計(jì)算方法為:
新分類(lèi)器與分類(lèi)器集合的差異(總差異)算法為:
4)構(gòu)建集成模型,用測(cè)試樣本測(cè)試其精度,滿足要求則結(jié)束(分類(lèi)準(zhǔn)確率大于90%),否則調(diào)整子支持向量分類(lèi)器的個(gè)數(shù)和初始差異標(biāo)準(zhǔn),從1)開(kāi)始執(zhí)行. 子支持向量分類(lèi)器個(gè)數(shù)和初始差異標(biāo)準(zhǔn)調(diào)整方法分別為:和.
2 實(shí)證分析
2.1 預(yù)警指標(biāo)選擇
筆者在總結(jié)了國(guó)內(nèi)助學(xué)貸款預(yù)警研究成果的基礎(chǔ)上,與廣發(fā)銀行助學(xué)貸款工作人員多次討論、篩選,構(gòu)建如表1所示的助學(xué)貸款預(yù)警指標(biāo)體系.
表1 國(guó)家助學(xué)貸款信用風(fēng)險(xiǎn)預(yù)警指標(biāo)及其賦值
為使得模型學(xué)習(xí)效果更好,在不影響判別效果的情況下,應(yīng)盡量縮小樣本空間. 可通過(guò)將連續(xù)指標(biāo)離散化(如對(duì)指標(biāo)的處理)或?qū)ζ渌笜?biāo)賦值的方法實(shí)現(xiàn),如表中的賦值方法,(1~5)-4表示綜合測(cè)評(píng)成績(jī)班排名前5名,取值為4.
2.2 實(shí)驗(yàn)設(shè)計(jì)
1)數(shù)據(jù)收集和預(yù)處理
從銀行得到的助學(xué)貸款樣本有6 000多個(gè),其中僅不足10%的為違約樣本,另外還有一些樣本因數(shù)據(jù)不全被剔除. 最終,從合格樣本中隨機(jī)抽取近3年的600個(gè)樣本,其中違約和守約各一半. 將指標(biāo)數(shù)值進(jìn)行標(biāo)準(zhǔn)化處理,全部取值映射到[0,1]區(qū)間,輸出結(jié)果設(shè)為0或1(0為違約,1為守約). 樣本選取如表2所示.
表2 樣本選取方法及各個(gè)樣本集
2)Bagging方法、支持向量機(jī)分類(lèi)器和集成算法運(yùn)用MATLAB7.6和LIBSVM3.12工具箱通過(guò)編程建立,參數(shù)隨機(jī)選取.
3)從建模的600個(gè)樣本中隨機(jī)抽取400樣本作為學(xué)習(xí)樣本,采用Bagging方法從中隨機(jī)抽取300個(gè)樣本,分別訓(xùn)練5個(gè)支持向量機(jī)分類(lèi)器,形成;將剩余的200個(gè)樣本隨機(jī)分成兩組,即測(cè)試樣本和,其中用于檢驗(yàn)單個(gè)支持向量機(jī)分類(lèi)器的分類(lèi)精度,計(jì)算混亂矩陣,通過(guò)式(7)、式(8)選擇差異大的分類(lèi)器集合.
5)集成模型精度達(dá)到90%以上時(shí)算法結(jié)束,否則按前述方法調(diào)整,繼續(xù)運(yùn)算. 當(dāng)調(diào)整次數(shù)超過(guò)100次時(shí)算法結(jié)束,分析樣本問(wèn)題或找其他原因.
2.3 分類(lèi)結(jié)果
運(yùn)用前述算法,最終得到3個(gè)有較大差異的子支持向量機(jī)分類(lèi)器,集成模型先有精度最高的分類(lèi)器、再分別加入和后融合而成. 表2中,集成模型可以使分類(lèi)準(zhǔn)確率達(dá)到92%,且集成模型第2類(lèi)錯(cuò)誤比第1類(lèi)錯(cuò)誤稍高. 預(yù)測(cè)準(zhǔn)確率結(jié)果如表3所示.
表3 單個(gè)模型和集成模型的預(yù)測(cè)準(zhǔn)確率
3 結(jié)論
本文前期調(diào)研中充分借鑒了學(xué)者們的研究成果,對(duì)類(lèi)似指標(biāo)進(jìn)行了歸并和刪減,認(rèn)真聽(tīng)取了銀行從業(yè)人員對(duì)違約現(xiàn)象的評(píng)述,形成了符合實(shí)際特點(diǎn)的預(yù)警指標(biāo)體系;研究采用搜索的方式尋找精度高、差異較大的分類(lèi)器進(jìn)行集成,能夠?qū)崿F(xiàn)構(gòu)建子分類(lèi)器的目的,解決了子分類(lèi)器構(gòu)建的方法問(wèn)題. 因此,集成模型比子分類(lèi)器有更高的判別精度,且第一類(lèi)錯(cuò)誤率較低,符合模型的算法思想.
另外,就助學(xué)貸款預(yù)警問(wèn)題研究過(guò)程中發(fā)現(xiàn)的問(wèn)題,提出如下建議:
1)學(xué)校的信息記錄問(wèn)題. 部分院系對(duì)學(xué)生的在校表現(xiàn)記錄保留時(shí)間較短,記錄不規(guī)范、不統(tǒng)一,建議進(jìn)一步完善學(xué)生信息管理系統(tǒng),并參照銀行意見(jiàn)進(jìn)行必要的調(diào)整.
2)銀行方面和高校學(xué)生管理部門(mén)應(yīng)聯(lián)合對(duì)違約率高的群體進(jìn)行誠(chéng)信教育,提高其還貸意愿.
3)政府、高校和銀行方面應(yīng)繼續(xù)支持助學(xué)貸款問(wèn)題的研究,使對(duì)國(guó)家、高校、銀行、貧困學(xué)生都有益的助學(xué)貸款政策長(zhǎng)期健康發(fā)展下去.
[1] 胡鍵. 違約率高銀行叫停助學(xué)貸款[N]. 南方日?qǐng)?bào),2004-04-21.
[2] 鄭天虹. 粵助學(xué)貸款:違約率6年升高10多倍[N]. 新華每日電訊,2009-12-11.
[3] 肖智,王明愷,謝林林. 基于支持向量機(jī)的大學(xué)生助學(xué)貸款個(gè)人信用評(píng)價(jià)[J]. 清華大學(xué)學(xué)報(bào):自然科學(xué)版,2006, 46(S1): 1120-1124.
[4] 康英,薛惠鋒,張哲. 基于GA-PHO遺傳規(guī)劃算法的國(guó)家助學(xué)貸款風(fēng)險(xiǎn)預(yù)警模型研究[J]. 寧夏大學(xué)學(xué)報(bào):人文社會(huì)科學(xué)版,2008, 30(5): 135-138.
[5] 李鵬雁,謝曉晨. 基于層次分析方法的助學(xué)貸款風(fēng)險(xiǎn)評(píng)價(jià)[J]. 哈爾濱工業(yè)大學(xué)學(xué)報(bào),2009, 41(12): 301-304.
[6] ALTMAN E I,HALDEMAN R C,NARAYANAN P. Zeta analysis: a new model to identify bankruptcy risk of corporations [J]. Journal of Banking and Finance, 1997, 1(1): 29-54.
[7] DAN M C, MARK G R. A comparative analysis of current credit risk models [J]. Journal of banking and Finance, 2000, 24(1): 59-117.
[8]LAM L, SUEN C Y. Optimal combining of pattern classifiers [J]. Pattern Recognition Letters, 1995, 16: 945-954.
[9] 孫潔,李輝. 企業(yè)財(cái)務(wù)困境的多分類(lèi)器混合組合預(yù)測(cè)[J]. 系統(tǒng)工程理論與實(shí)踐,2009, 29(2): 78-86.
[10] WINDEATT T. Diversity measures for multiple classifier system analysis and design [J]. Information Fusion, 2005, 6(1): 21-36.
[11] 李運(yùn)蒙,桂繞根,涂英. 國(guó)家助學(xué)貸款信用風(fēng)險(xiǎn)預(yù)警指標(biāo)體系的構(gòu)建與應(yīng)用[J]. 內(nèi)蒙古大學(xué)學(xué)報(bào):自然科學(xué)版,2012, 43(6): 651-657.
[12] 李運(yùn)蒙,桂繞根,石安安. 基于支持向量機(jī)的助學(xué)貸款信用風(fēng)險(xiǎn)預(yù)警研究[J]. 五邑大學(xué)學(xué)報(bào):自然科學(xué)版,2014, 28(1): 50-53.
[責(zé)任編輯:熊玉濤]
Early Warning of National Student Loans Credit Risk Based on Support Vector Machine Assembled by the Bayes Fusion Method
LIYun-meng1, SHIAn-an1, GUIRao-gen1, TUYing2
(1. School of Economics and Management, Wuyi University, Jiangmen 529020, China;2. Jiangmen Branch of Guangdong Development Bank, Jiangmen 529000, China)
Using the support vector machine (SVM) as the base classifier, an early warning model is established by assembling a number of different categories of support vector machines using the Bayes fusion method. Testing and verifying using the actual band loan data shows that the ensemble model has a higher accuracy in classification and can provide an important reference basis for banks to pre-judge students’ breach of loan contracts.
student loans; support vector machines; ensemble learning; risk early-warning; Bayes fusion method
1006-7302(2015)02-0044-05
F822.1;O211.61
A
2014-12-10
廣東省哲學(xué)社會(huì)科學(xué)規(guī)劃項(xiàng)目(GD11XGL20)
李運(yùn)蒙(1964—),男,山東鄆城人,副教授,碩士,研究方向?yàn)榻鹑谑袌?chǎng)數(shù)據(jù)分析.