何楊,李洪心
(東北財(cái)經(jīng)大學(xué)管理科學(xué)與工程學(xué)院,遼寧大連116025)
由于全球經(jīng)濟(jì)增速放緩,大宗商品價(jià)格繼續(xù)下降,全球物價(jià)水平增速下行,部分經(jīng)濟(jì)體面臨通縮壓力。金融市場(chǎng)波動(dòng)劇烈,關(guān)聯(lián)性明顯。全球總債務(wù)水平處于歷史高位,其不可持續(xù)性提升了風(fēng)險(xiǎn)等級(jí)。在這種經(jīng)濟(jì)形勢(shì)下,許多債務(wù)人到期不還貸導(dǎo)致許多金融機(jī)構(gòu)損失慘重。然而,借貸機(jī)構(gòu)不能僅僅通過(guò)拒絕貸款申請(qǐng)來(lái)規(guī)避信用風(fēng)險(xiǎn)。因而,有效的信用風(fēng)險(xiǎn)評(píng)估已經(jīng)成為了增進(jìn)信用競(jìng)爭(zhēng)市場(chǎng)的一個(gè)關(guān)鍵因素。當(dāng)下,金融機(jī)構(gòu)已非常廣泛地使用信用評(píng)分模型來(lái)做授信決策。
在過(guò)去的幾十年里,為了使信用分類的準(zhǔn)確性最大化,大量的理論研究與量化方法用于發(fā)展信用評(píng)分模型,其中,有些統(tǒng)計(jì)模型也非常普遍地應(yīng)用在了信用評(píng)分上[1-5]。為了提高信用評(píng)分分類的準(zhǔn)確性,研究者們不斷嘗試新方法,并發(fā)現(xiàn)用支持向量機(jī)模型來(lái)做信用評(píng)分有很好的效果[6-12]。本文將先利用一些常用的支持向量機(jī)(SVM)模型做信用評(píng)分,通過(guò)更進(jìn)一步的研究,建立模糊二范數(shù)二次曲面支持向量機(jī)(Fuzzy 2-norm QSSVM)模型應(yīng)用于信用評(píng)分,最后用兩組真實(shí)數(shù)據(jù)來(lái)檢驗(yàn)?zāi):稊?shù)QSSVM模型的分類準(zhǔn)確性和效率。
支持向量機(jī)是由Vapnik等人利用結(jié)構(gòu)風(fēng)險(xiǎn)最小化的原則根據(jù)統(tǒng)計(jì)學(xué)習(xí)理論(SLT)提出來(lái)的。簡(jiǎn)單的說(shuō),它是一種分類模型,用于解決凸二次規(guī)劃問(wèn)題的求解。支持向量機(jī)是數(shù)據(jù)挖掘的一種重要方法,其建立在統(tǒng)計(jì)學(xué)理論上,可以研究非線性、小樣本的分類計(jì)數(shù)。通過(guò)映射將給出的數(shù)據(jù)進(jìn)行提升維度,引入核函數(shù),可將線性問(wèn)題推廣到非線性分類問(wèn)題。支持向量機(jī),其“機(jī)”代表的是機(jī)器,是機(jī)器學(xué)習(xí)的核心方法,可以對(duì)數(shù)據(jù)進(jìn)行分析、對(duì)模式作以識(shí)別,用于分類與回歸分析。
SVM的基本思想是通過(guò)一個(gè)非線性映射Φ(x)將輸入空間的樣本映射到高維空間,并在這個(gè)高維空間中利用結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理和分類間隔最大化思想確定最優(yōu)分類超平面,f(x)=wTΦ(x)+b,其中w和b分別表示這個(gè)超平面的權(quán)值和闕值。在給定訓(xùn)練點(diǎn)線性SVM問(wèn)題可以表示為以下約束二次規(guī)劃問(wèn)題:
其中,εi為松弛變量,C>0是罰參數(shù),用來(lái)控制對(duì)錯(cuò)分樣本的懲罰程度。
在支持向量機(jī)中核函數(shù)是一個(gè)關(guān)鍵因素,核函數(shù)能夠有效的解決數(shù)據(jù)空間到非線性空間的轉(zhuǎn)換,對(duì)內(nèi)積函數(shù)的替代也能夠有效解決維數(shù)問(wèn)題。核函數(shù)的引入,作為支持向量機(jī)重要的組成部分,能夠完美的實(shí)現(xiàn)空間轉(zhuǎn)換,并通過(guò)空間中不同的非線性決策面得到各種不同的支持向量機(jī)算法。
下面簡(jiǎn)單地介紹二次曲面支持向量機(jī)(QSSVM)模型。
通過(guò)最大化所有訓(xùn)練點(diǎn)關(guān)于g(x)=0的相對(duì)幾何邊緣之和,并且對(duì)所有訓(xùn)練點(diǎn)的錯(cuò)分誤差最小化,得到以下QSSVM模型:
其中,松弛變量εi被用來(lái)度量xi錯(cuò)分的邊緣值,ct>0是罰參數(shù)。
QSSVM模型可以按如下進(jìn)一步簡(jiǎn)化,首先,設(shè)向量w由矩陣W上三角部
接著,本文可以按照如下步驟針對(duì)訓(xùn)練點(diǎn)xi∈Rm構(gòu)建一個(gè)維矩陣M,i=1,2,...,l;在M的第j
ii行(j=1,2,…,m)中,如果w的第p個(gè)要素是wjk或者wkj(k=1,2,...,m),那么把Mi的第j行第p個(gè)要素定義為,否則定義為0。然后,定義:
問(wèn)題(1)可以再變換為:
其中,矩陣G為半正定矩陣,那么,問(wèn)題(2)便是一個(gè)擁有線性約束的凸二次規(guī)劃問(wèn)題。
其中,Φ(x):Rm→Rn是一個(gè)核函數(shù)分別為被標(biāo)記為+1和-1的訓(xùn)練點(diǎn)的數(shù)目,(也就是n1+n2=n),和分別為被標(biāo)記+1和-1的訓(xùn)練點(diǎn)的罰常數(shù)。通過(guò)德國(guó)和澳大利亞的信用數(shù)據(jù)的實(shí)證研究發(fā)現(xiàn),此模型的特征加權(quán)策略采取T檢驗(yàn)過(guò)程能達(dá)到最有效的結(jié)果[13]。
為了提出模糊二范數(shù)二次曲面支持向量機(jī)模型,下面首先設(shè)計(jì)新的模糊隸屬度函數(shù)來(lái)計(jì)算每個(gè)訓(xùn)練點(diǎn)的相對(duì)重要性。不同的模糊隸屬度函數(shù)將很大程度地影響分類器的分類效果,因此設(shè)計(jì)一個(gè)合適的隸屬函數(shù)是非常重要的。在這里,為了建立一個(gè)基于每個(gè)訓(xùn)練點(diǎn)與其所在類別的二次中心曲面之間的二次邊際距離[11]的新的模糊隸屬度函數(shù),本文首先求解模型(2)得到一個(gè)有效二次曲面分類機(jī)的參數(shù)向量(ˉ,ˉ)。然后,關(guān)于這個(gè)二次曲面,分別計(jì)算所有在類別1和2訓(xùn)練點(diǎn)的平均函數(shù)邊際(即functional margin)為:
除此之外,本文將設(shè)計(jì)新的模糊隸屬度函數(shù)來(lái)考慮到訓(xùn)練點(diǎn)間的相似度,從而將奇異點(diǎn)和噪點(diǎn)從有效的訓(xùn)練中分離出來(lái)。因此,對(duì)于每個(gè)訓(xùn)練點(diǎn)以及d(),下面的隸屬度函數(shù)被設(shè)計(jì)出來(lái)計(jì)算模糊隸屬度:
為了建立模糊二范數(shù)QSSVM模型來(lái)做信用評(píng)分,本文首先通過(guò)公式(4)來(lái)計(jì)算T檢驗(yàn)特征權(quán)重(,j=1,2,...,n),然后通過(guò)隸屬度函數(shù)(6)并將替換,計(jì)算出所有訓(xùn)練點(diǎn)的模糊隸屬度(,i=1,2,...,n)?;赒SSVM模型(1),用松弛變量向量ε=(ε1,ε2,...,εn)的二范數(shù)的平方替代松弛變量向量ε,加入相同樣本類內(nèi)離散度S(W,b,c)和T檢驗(yàn)特征權(quán)重(j=1,2...,n)后得到如下模型:
其中:
信用評(píng)分方法除要求達(dá)到一定的準(zhǔn)確性之外,其可解釋性、簡(jiǎn)潔性、效率等性能也非常重要[17]。因此,在這一部分,本文用德國(guó)和澳大利亞的信用數(shù)據(jù)(來(lái)自于UCI機(jī)器學(xué)習(xí)知識(shí)庫(kù)[18)]來(lái)檢驗(yàn)?zāi):稊?shù)二次曲面支持向量機(jī)模型在信用評(píng)分上的準(zhǔn)確性和效率。同時(shí),在這兩組數(shù)據(jù)上也測(cè)試含有高斯核的支持向量機(jī)模型(SVM)、含有高斯核的加權(quán)二范數(shù)支持向量機(jī)模型、含有二次核函數(shù)的加權(quán)二范數(shù)支持向量機(jī)模型、二次曲面支持向量機(jī)模型(QSS-VM)。兩組信用數(shù)據(jù)的基本信息見(jiàn)表1所示。
表1 德國(guó)和澳大利亞信用數(shù)據(jù)
這兩組數(shù)據(jù)包含20個(gè)變量,包括客戶基本信息(性別、年齡、學(xué)歷、職業(yè)、婚姻等),經(jīng)濟(jì)狀況(個(gè)人月收入、個(gè)人月開(kāi)銷、住房情況等),信用卡消費(fèi)狀況(信用卡張數(shù)、信用額度、使用頻率、月刷卡金額等);信用記錄(逾期記錄)。各變量名稱及類型的具體信息見(jiàn)表2所示。
表2 數(shù)據(jù)各變量及類型
兩個(gè)信用數(shù)據(jù)集合當(dāng)中,所有名義變量都轉(zhuǎn)換成了整數(shù)變量,同時(shí)序數(shù)和連續(xù)變量保持不變。然后,對(duì)于被轉(zhuǎn)換后的訓(xùn)練點(diǎn)有的輸入屬性都線性擴(kuò)展到[0,1],這樣做是為了規(guī)避大數(shù)值變量相對(duì)于小數(shù)值變量的屬性優(yōu)勢(shì)。因而定義為:
在對(duì)德國(guó)和澳大利亞信用數(shù)據(jù)進(jìn)行以上預(yù)處理之后,本文用10折交叉驗(yàn)證方法來(lái)檢驗(yàn)所有模型的性能。首先對(duì)德國(guó)的數(shù)據(jù)進(jìn)行檢驗(yàn),在模型檢驗(yàn)當(dāng)中,采用交叉驗(yàn)證是為了克服過(guò)擬合問(wèn)題,習(xí)慣于使一個(gè)數(shù)據(jù)集(也就是測(cè)試數(shù)據(jù)集)在訓(xùn)練階段進(jìn)行模型測(cè)試。而用10折交叉檢驗(yàn)方法對(duì)德國(guó)信用數(shù)據(jù)進(jìn)行檢驗(yàn),所有數(shù)據(jù)集隨機(jī)劃分為10個(gè)大小相等的樣本。在這10個(gè)樣本當(dāng)中,保留一個(gè)樣本作為測(cè)試數(shù)據(jù)集的檢驗(yàn)?zāi)P?,其?個(gè)樣本作為訓(xùn)練數(shù)據(jù)集。按照這種方法,交叉檢驗(yàn)會(huì)重復(fù)10次,10個(gè)樣本中的每一個(gè)樣本都會(huì)作為一次測(cè)試數(shù)據(jù)集。因而,10折交叉檢驗(yàn)過(guò)程的錯(cuò)分率就等于10次交叉檢驗(yàn)中被錯(cuò)分的點(diǎn)的總數(shù)量除以德國(guó)數(shù)據(jù)集點(diǎn)的總數(shù)量。這種方法的優(yōu)點(diǎn)在于,所有的觀察值都會(huì)作為培訓(xùn)和測(cè)試的點(diǎn),并且每一個(gè)觀察值當(dāng)且僅當(dāng)被測(cè)試一次。對(duì)于德國(guó)的信貸數(shù)據(jù)集,為了使得實(shí)驗(yàn)的結(jié)果更具有統(tǒng)計(jì)意義,本文通過(guò)100次隨機(jī)劃分這個(gè)數(shù)據(jù)集來(lái)重復(fù)100次10折交叉驗(yàn)證過(guò)程。對(duì)所有的模型,都計(jì)算100次10折交叉驗(yàn)證過(guò)程所得到錯(cuò)分率的平均值、標(biāo)準(zhǔn)差、最小值和最大值,并且得到每次實(shí)驗(yàn)所用的平均CPU時(shí)間,見(jiàn)表3所示。在這里,模糊二范數(shù)QSSVM模型的CPU運(yùn)行時(shí)間包括計(jì)算所有訓(xùn)練點(diǎn)模糊隸屬度的時(shí)間。
表3 德國(guó)信用數(shù)據(jù)檢驗(yàn)
此外,用同樣的方法來(lái)對(duì)澳大利亞的信用數(shù)據(jù)來(lái)進(jìn)行測(cè)試,6種模型也都做一遍檢驗(yàn),得到的錯(cuò)分率和CPU運(yùn)行時(shí)間見(jiàn)表4所示。
表4 澳大利亞信用數(shù)據(jù)檢驗(yàn)
(1)從表3和表4可以看出,模糊二范數(shù)二次曲面支持向量機(jī)(F2N-QSSVM)模型所得錯(cuò)分率的均值、標(biāo)準(zhǔn)差、最小值、最大值分別為11.69、0.39、11.06、12.98,最大值和W2NSVM的最小值差不多,可以明顯的看出來(lái),F(xiàn)2N-QSSVM所得錯(cuò)分率的均值、標(biāo)準(zhǔn)差、最小值、最大值要比其他模型所得錯(cuò)分率的均值、標(biāo)準(zhǔn)差、最小值、最大值都要小。從而說(shuō)明F2N-QSSVM在一定程度上提高了準(zhǔn)確率、查準(zhǔn)率和全查率。
(2)模糊二范數(shù)二次曲面支持向量機(jī)(F2N-QSSVM)模型的計(jì)算時(shí)間要比其他模型的計(jì)算時(shí)間都要長(zhǎng),主要是因?yàn)楸疚奶岢龅倪@個(gè)模型花費(fèi)了時(shí)間去計(jì)算所有訓(xùn)練點(diǎn)的模糊隸屬度,而其他模型并沒(méi)有這項(xiàng),計(jì)算訓(xùn)練點(diǎn)的模糊隸屬度也是提高了模型的精準(zhǔn)性。
(3)由于這個(gè)模型是一個(gè)線性約束凸二次規(guī)劃問(wèn)題,通過(guò)著內(nèi)點(diǎn)算法和信任區(qū)域反射算法來(lái)快速得到該模型的全局最優(yōu)解,這使它有較好的推廣能力,并能提高分類性能。通過(guò)兩個(gè)真實(shí)數(shù)據(jù)的測(cè)試(德國(guó)和澳大利亞的信用數(shù)據(jù))可以看出,模糊二范數(shù)二次曲面支持向量機(jī)(F2N-QSSVM)模型比其他模型達(dá)到更好的分類效果。如果奇異點(diǎn)所占訓(xùn)練點(diǎn)的比例越高,F(xiàn)2N-QSSVM在分類效果上的優(yōu)越性越明顯。
在大數(shù)據(jù)時(shí)代背景下,可以充分利用客戶基本信息和歷史信息,并利用信用評(píng)分模型來(lái)對(duì)客戶進(jìn)行評(píng)估分析,本文首次構(gòu)建基于模糊二范數(shù)二次曲面支持向量機(jī)模型,通過(guò)對(duì)UCI機(jī)器學(xué)習(xí)庫(kù)的數(shù)據(jù)研究表明,相對(duì)于其他經(jīng)典的支持向量機(jī)模型,該模型最大的特點(diǎn)是通過(guò)引入T檢驗(yàn)特征加權(quán)設(shè)計(jì)了新的隸屬度函數(shù)來(lái)計(jì)算訓(xùn)練點(diǎn)的模糊隸屬度,通過(guò)內(nèi)點(diǎn)算法和信任區(qū)域反射算法來(lái)快速得到全局最優(yōu)解,在信用評(píng)分領(lǐng)域的應(yīng)用能達(dá)到更精準(zhǔn)的分類效果。因此,此模型應(yīng)該被廣泛應(yīng)用于信用機(jī)構(gòu)來(lái)進(jìn)行授信決策,這樣不僅能為機(jī)構(gòu)規(guī)避風(fēng)險(xiǎn),減少銀行違約損失,提高銀行自身優(yōu)勢(shì)和競(jìng)爭(zhēng)力,也能提高信用卡用戶的申請(qǐng)效率。在未來(lái)的研究中,有興趣針對(duì)大規(guī)模數(shù)據(jù)開(kāi)發(fā)更有效率的信用評(píng)分模型。
參考文獻(xiàn):
[1]Fisher R A.The Use of Multiple Measurements in Taxonomic Problems[J].Annals of Human Genetics,1936,(7).
[2]Martin D.Early Warning of Bank Failure:A Logistic Regression Approach[J].Journal of Banking and Finance,1977,(1).
[3]Wiginton J C.A Note on the Comparison of Logic and Discriminant Models of Customer Credit Behavior[J].Journal of Financial and Quantitative Analysis,1980,(15).
[4]Twala B.Multiple Classifier Application to Credit Risk Assessment[J].Expert Systems With Applications,2010,(37).
[5]Han J,Kamber M.Data Mining:Concepts and Techniques(2nd)[M].San Francisco,CA:Morgan KauFmann,2006.
[6]Gestel T V,Baesens B,Garcia J.A Support Vector Machine Approach to Credit Scoring[J].Journal of Bank and Finance,2003,(2).
[7]Yu L A,Huang W,Lai K K,et al.A Reliability-based RBF Network Ensemble Model for Foreign Exchange Rates Predication[J].Neural Information Processing,2006,(4234).
[8]Huang C L,Chen M C,Wang C J.Credit Scoring With a Data Mining Approach Based on Support Vector Machines[J].Expert Systems With Applications,2007,(33).
[9]Zhou L,Lai K K,Yen J.Credit Scoring Models With AUC Maximization Based on Weighted SVM[J].International Journal of Information Technology and Decision Making,2009,(4).
[10]Vapnik V N.The Nature of Statistical Learning Theory[M].New York:Springer-Verlag New York,1995.
[11]Luo J,Fang S C,Deng Z B,et al.Soft Quadratic Surface Support Vector Machine[J].Asia-Paci fi c Journal of Operational Research,2015.
[12]Yan X,Bai Y,Fang S C,et al.A Kernel-free Quadratic Surface Support Vector Machine for Semi-supervised Learning[J].Journal of the Operational Research Society,2015.
[13]Guyon I,Gunn S,Nikravesh M,et al.Feature Extraction:Foundations and Applications.New York,NY:Springer,2006.
[14]Deng N Y,Tian Y J,Zhang C H.Support Vector Machines-Optimiaztion Based Theory,Algorithms and Extensions[M].Boca Raton:CRC Press,2012.
[15]Wchter A,Biegler L T.On the Implementation of an Interior-point Filter Line-search Algorithm for Large-scale Nonlinear Programming[J].Mathematical Gramming,Series A,2006,(106).
[16]Coleman T,Branch M A,Grace A.Optimization Toolbox User's Guide,Version 3.1.Natick[M].MA:The MathWorks,Inc,2006.
[17]陸愛(ài)國(guó),王玨,劉紅衛(wèi).基于改進(jìn)的SVM學(xué)習(xí)算法及其在信用評(píng)分中的應(yīng)用[J].系統(tǒng)工程理論與實(shí)踐,2012,32(3).
[18]Bache K,Lichman M.UCI Machine Learning Repository[EB/OL].http://archive.ics.uci.edu/ml.