盧華陽
摘要:本文以支持向量機(jī)(SVM)作為學(xué)習(xí)器,運(yùn)用機(jī)器學(xué)習(xí)技術(shù),構(gòu)建基于支持向量分類機(jī)的評估模型來識別P2P網(wǎng)貸平臺借款人的違約風(fēng)險。構(gòu)建模型時采用因子分析法進(jìn)行特征抽取,選擇公共因子。通過人人貸的交易數(shù)據(jù)進(jìn)行的實(shí)證研究結(jié)果表明:SUM法對借款人違約狀況的預(yù)測結(jié)果具有較高的準(zhǔn)確性,適用于P2P網(wǎng)貸借款人違約風(fēng)險識別。同時還發(fā)現(xiàn),SVM方法的分類效率受到學(xué)習(xí)樣本中正常樣本與違約樣本的構(gòu)成比例影響。與比例失衡的樣本相比,比例均衡的樣本具有更高的分類精度。本研究對P2P網(wǎng)貸的違約風(fēng)險評判具有應(yīng)用參考意義。
關(guān)鍵詞:P2P網(wǎng)貸;支持向量機(jī);信用風(fēng)險;機(jī)器學(xué)習(xí)
0 引言
P2P網(wǎng)絡(luò)借貸,自2005年在英國出現(xiàn)后迅速向全球蔓延。P2P網(wǎng)絡(luò)平臺迅猛發(fā)展要?dú)w因于其擁有傳統(tǒng)金融平臺無法比擬的優(yōu)點(diǎn):為融資者提供了更簡便、快捷的融資服務(wù);為投資者開辟了一條新的投資渠道;有效消解中小企業(yè)以及個人貸款難題。
但是,在P2P網(wǎng)貸平臺迅速發(fā)展的同時,也面臨多種風(fēng)險,諸如政策風(fēng)險、操作風(fēng)險、監(jiān)管風(fēng)險、網(wǎng)絡(luò)風(fēng)險和信用風(fēng)險等(盧馨和李慧敏,2015),其中信用風(fēng)險尤為突出,也是導(dǎo)致“跑路”、倒閉頻頻出現(xiàn)的主要原因。
具體來說,P2P網(wǎng)貸平臺信用風(fēng)險可分為兩部分:平臺信用風(fēng)險與借款人信用風(fēng)險。本文側(cè)重于研究借款人信用風(fēng)險。借款人信用風(fēng)險源自于借貸雙方信息不對稱。在進(jìn)行借貸活動之前,平臺負(fù)責(zé)對借款者信用進(jìn)行評估。但平臺無法對借款者提供的所有信息進(jìn)行全部核實(shí),難以保證借款者信息的真實(shí)性,也就難以保證信用評估的有效性。在借貸交易完成之后,投資者與平臺都無法對借款人的行為有效監(jiān)督,借款人有可能從事高風(fēng)險活動或者惡意逾期,最終導(dǎo)致貸款無法償還。同時,P2P網(wǎng)貸借款門檻低,且無需抵押,這就使借款人的違約風(fēng)險問題更加嚴(yán)重(沈良輝和陳瑩,2014)。因此,在當(dāng)前形勢下,針對P2P網(wǎng)貸平臺信用風(fēng)險建立更準(zhǔn)確的風(fēng)險識別模型,對網(wǎng)貸行業(yè)健康穩(wěn)定發(fā)展具有十分重要的現(xiàn)實(shí)意義。
本文針對于P2P網(wǎng)貸平臺的借款人信用風(fēng)險,運(yùn)用機(jī)器學(xué)習(xí)方法構(gòu)建基于SVM的P2P網(wǎng)貸平臺信用風(fēng)險識別模型。文章第二部分對相關(guān)的研究成果進(jìn)行回顧與評述,第三部分簡述SVM原理,第四部分運(yùn)用人人貸的數(shù)據(jù)進(jìn)行實(shí)證研究,最后一部分則是結(jié)論與建議。
1 文獻(xiàn)回顧
1.1 國外信用風(fēng)險評估方法
傳統(tǒng)統(tǒng)計學(xué)方法在線性、正態(tài)性等方面有嚴(yán)格的假設(shè)。而現(xiàn)實(shí)數(shù)據(jù)往往不滿足這些假設(shè),限制了統(tǒng)計學(xué)方法在實(shí)踐中的應(yīng)用。目前,有很多風(fēng)險識別方面的研究都開始運(yùn)用突破這些嚴(yán)格的假設(shè)的方法。Hunt等人于1966年首次提出決策樹的概念,后來的學(xué)者在此概念的基礎(chǔ)上加以改進(jìn)。Chitra&Subashini;(2013)對學(xué)習(xí)過程有無監(jiān)督進(jìn)行了區(qū)分,指出可以將SVM方法應(yīng)用在識別銀行的信用欺詐領(lǐng)域,但并未得到嚴(yán)格的最優(yōu)算法。在統(tǒng)計學(xué)習(xí)理論的基礎(chǔ)上,Vapnik提出了支持向量機(jī)機(jī)器學(xué)習(xí)方法。SVM可以完美地解決線性可分間題,針對線性不可分的樣本,SVM的解決思路是將原始樣本空間映射到更高維的特征空間中,使其變成線性可分間題。而高維空間的運(yùn)算可以通過原始樣本空間的內(nèi)積運(yùn)算進(jìn)行,免去了高維空間運(yùn)算的復(fù)雜性。正是由于SVM在處理非線性問題上的優(yōu)越性,使得SVM算法越來越受到重視。
1.2 國內(nèi)信用風(fēng)險評估方法
國內(nèi)學(xué)者對P2P網(wǎng)貸平臺信用風(fēng)險識別的研究大部分仍然基于傳統(tǒng)統(tǒng)計學(xué)方法。肖曼君等(2015)通過構(gòu)建排序選擇模型甄別影響平臺信用風(fēng)險的因素,研究發(fā)現(xiàn)信用變量、歷史記錄、借款信息、借款人信息都是網(wǎng)貸信用風(fēng)險的顯著因素。廖理等(2014)通過回歸分析得出投資者可以依據(jù)借款人的公開信息識別違約風(fēng)險的結(jié)論。將機(jī)器學(xué)習(xí)應(yīng)用到P2P網(wǎng)貸平臺信用識別的研究成果比較少。
1.3 現(xiàn)有文獻(xiàn)評述
可以看出,國外的信用風(fēng)險識別運(yùn)用的方法較為多樣,而國內(nèi)依然沿襲了傳統(tǒng)商業(yè)銀行風(fēng)險識別方法。而為數(shù)不多的運(yùn)用機(jī)器學(xué)習(xí)研究P2P網(wǎng)貸平臺風(fēng)險的研究成果中,仍有一部分學(xué)者沿用著商業(yè)銀行的風(fēng)險識別指標(biāo)。
2 支持向量機(jī)原理
SVM的原理可以看作是尋找一個滿足相應(yīng)分類條件的超平面,要求該超平面在實(shí)現(xiàn)樣本類分離的同時滿足距離超平面最近的樣本點(diǎn)到超平面的距離最大,即在約束下最大化樣本與超平面間距的條件。
最優(yōu)分類超平面可以將不同類的樣本數(shù)據(jù)準(zhǔn)確分開意味著經(jīng)驗(yàn)風(fēng)險最小,而最大化分類間隔距離則意味著最小化推廣性的界的置信范圍,以此可求得最優(yōu)分類平面。
在二分類線性可分間題中,分類器是一個超平面f(x)=ωx+b,若f(x)>0則該點(diǎn)屬于1類,f(x)<0,則該點(diǎn)屬于-1類。SVM構(gòu)造的最優(yōu)分割超平面是使得1類中的點(diǎn)到超平面的最短距離和-1類中的點(diǎn)到超平面的最短距離這兩者的最大值達(dá)到最大,對應(yīng)于求解如下優(yōu)化間題,最終解得權(quán)重ω和偏移量b:
s.t.yi(ω*xi+b)≥1 i=1,2,3.....,n(2)
通過拉格朗日乘數(shù)法,該間題可以轉(zhuǎn)化為以下的對偶問題:
在處理線性不可分間題時,支持向量機(jī)的核心是通過核函數(shù)將非線性變量映射到更高位的空間中去,使他們變得線性可分。這樣支持向量機(jī)就避開了求解非線性映射形式和高維數(shù)空間運(yùn)算的困難。
3 實(shí)證研究
3.1 研究方法與工具
本文采用機(jī)器學(xué)習(xí)的建模方式測度P2P網(wǎng)貸平臺信用風(fēng)險。搜集“人人貸”平臺投資標(biāo)的中所有可得到的變量信息,通過因子分析進(jìn)行特征提取,隨后將因子與分類變量組合為新數(shù)據(jù)集進(jìn)行機(jī)器學(xué)習(xí)。
本文實(shí)證工具采用SPSS 22通過因子分析完成特征提取過程,用Matlab 2015b進(jìn)行SVM學(xué)習(xí)與預(yù)測。
3.2 數(shù)據(jù)來源與指標(biāo)說明
受數(shù)據(jù)可得性限制,本文用于實(shí)證分析的數(shù)據(jù)取自于2010年10月到2014年12月“人人貸”的借款數(shù)據(jù),共計301235條記錄,去除明顯無關(guān)變量(諸如貸款申請時間、認(rèn)證時間、貸款序號、貸款人姓名等)之后包括:貸款類型、貸款總額、利率、還款期限、抓取時狀態(tài)、保障方式、提前還款率、還款方式、月還本息、性別、年齡、學(xué)歷、婚姻、公司行業(yè)、公司規(guī)模、工作城市、工作時間、收入范圍、房產(chǎn)、房貸、車產(chǎn)、車貸、工作類型、信用等級、申請借款、成功還款、還清筆數(shù)、信用額度、借款總額、待還本息、逾期金額、逾期次數(shù)、嚴(yán)重逾期、信用報告、身份認(rèn)證、工作認(rèn)證、收入認(rèn)證、房產(chǎn)認(rèn)證、購車認(rèn)證、結(jié)婚認(rèn)證、學(xué)歷認(rèn)證共計41個變量。
3.3 數(shù)據(jù)預(yù)處理
3.3.1 指標(biāo)量化與缺失值處理
指標(biāo)量化主要是將定性指標(biāo)進(jìn)行分類,并將每一類量化為一個數(shù)值以示區(qū)分。量化過程如下:
將抓取時狀態(tài)作為判斷借款人是否違約的標(biāo)志,樣本數(shù)據(jù)中的抓取時狀態(tài)分為已逾期、還款中、已墊付、已還清、已流標(biāo)五種狀態(tài)。平臺會為信用評級高于E級的借款人墊付,所以上述狀態(tài)中已逾期和已墊付表示借款人已經(jīng)發(fā)生違約,已還清表示借款人未發(fā)生違約。對于還款中和已流標(biāo)的狀態(tài)無法判斷,故將數(shù)據(jù)集中已流標(biāo)和還款中的記錄刪去,剩余10304條有效記錄。貸款類型區(qū)分為信、保、實(shí)三種;保障方式區(qū)分為本金保障、本金+利息保障;在10304條有效記錄中,還款方式僅剩按月還款/等額本息一種方式,故將該指標(biāo)刪去;性別區(qū)分為男、女;學(xué)歷區(qū)分為高中及以下、大專、本科、研究生及以上;婚姻區(qū)分為未婚、已婚、離異、喪偶;公司行業(yè)區(qū)分為一類行業(yè)、二類行業(yè)、三類行業(yè);公司規(guī)模區(qū)分為10人以下、10-100人、100-500人、500人以上;工作城市按照工作城市所屬省份劃分為東部地區(qū)、中部地區(qū)、西部地區(qū);工作時間區(qū)分為1年(含)以下、1-3年(含)、3-5年(含)、5年以上;收入范圍區(qū)分為1000元以下、1001-2000元、2000-5000元、5000-10000元、,10000-20000元、20000-50000元.50000元以上;房產(chǎn)、房貸、車產(chǎn)、車貸區(qū)分為有、無;工作類型區(qū)分為工薪階層、私營企業(yè)主、網(wǎng)絡(luò)商家、其他;信用等級區(qū)分為AA、A、B、C、D、E、HR;身份認(rèn)證、工作認(rèn)證、收入認(rèn)證、房產(chǎn)認(rèn)證、購車認(rèn)證、結(jié)婚認(rèn)證、學(xué)歷認(rèn)證區(qū)分為認(rèn)證通過、未認(rèn)證。剔除變量缺失記錄。
經(jīng)上述處理之后,保留有效記錄為7859條,變量40個。變量名稱與縮寫如表1所示:
3.3.2 因子分析法特征提取
本文研究選取的是借款標(biāo)的全部變量,這些變量反映的信息會包含無用信息和重復(fù)信息。因此,對變量進(jìn)行篩選,保留且僅保留一組有用信息對提高模型的預(yù)測精確度很有必要。因此本文采用因子分析法對數(shù)據(jù)進(jìn)行降維。
(1)樣本標(biāo)準(zhǔn)化處理與相關(guān)性檢驗(yàn)
由于SPSS 22在做因子分析時會自動對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,因此可以省略該步驟。直接對數(shù)據(jù)做KMO檢驗(yàn)與巴特利球度檢驗(yàn),看數(shù)據(jù)是否適合做因子分析。結(jié)果如圖1:
結(jié)果顯示,巴特利球度檢驗(yàn)卡方值為366016.59(p=0.000),KMO值為0.798,說明樣本適合做因子分析。
(2)因子提取
從結(jié)果來看,前11個因子的解釋能力已經(jīng)達(dá)到72.772%,說明因子中包含了原始變量中72%的信息,既達(dá)到了濃縮指標(biāo)的目的,也保留了原始變量中的大部分信息??梢钥吹阶缘谑粋€主成分開始,后續(xù)主成分的特征值開始小于1,說明后續(xù)的主成分對應(yīng)變量解釋能力不強(qiáng),因此選擇11個主成分是合適的。
為了更好地對公因子進(jìn)行解釋,本文采用方差最大旋轉(zhuǎn)法進(jìn)行旋轉(zhuǎn)。經(jīng)旋轉(zhuǎn)后變量與因子之間的關(guān)系較為明顯,選取系數(shù)絕對值最大的前幾個變量為代表變量,歸納因子含義,據(jù)此對因子進(jìn)行解釋。見表20
因此可以看到,網(wǎng)貸平臺借款人信用風(fēng)險評價應(yīng)當(dāng)從上述十一個方面進(jìn)行。
(3)樣本轉(zhuǎn)化根據(jù)主成分系數(shù)
通過旋轉(zhuǎn)后的成分矩陣將原始樣本轉(zhuǎn)化為因子樣本地加入應(yīng)變量后可以生成一個新樣本,并將該樣本用于SVM模型。
3.4 模式應(yīng)用與結(jié)果展示
將新樣本按照7:3的比例分割為學(xué)習(xí)集和測試集。考慮到樣本中違約樣本僅有200條占總樣本的2.5%左右,因此需要將違約樣本與非違約樣本分別分割。得到學(xué)習(xí)樣本5501條,測試樣本2358條。
本部分實(shí)證使用matlab 2015b和python 3.6,采用libsvm-3.22和grid.py工具進(jìn)行。經(jīng)參數(shù)尋優(yōu)得到模型最優(yōu)參數(shù)c為128,最優(yōu)參數(shù)g為0.03125。
預(yù)測結(jié)果中,正常樣本預(yù)測準(zhǔn)確率與違約樣本預(yù)測準(zhǔn)確率如表3所示。
在確定樣本適合做因子分析后,采用主成分分析法,可以得到因子解釋原有變量總方差的情況,如圖2所示:
可以看到,違約樣本預(yù)測準(zhǔn)確率較低,且預(yù)測集的準(zhǔn)確率僅有55%左右,效果不理想。其原因可能是因?yàn)檫`約樣本過少,正常樣本過多,出現(xiàn)了過學(xué)習(xí)的現(xiàn)象。正常樣本過多,正常類別的支持向量也相應(yīng)的增多,會使得分類超平面出現(xiàn)偏離。
通過人為控制學(xué)習(xí)樣本中正常樣本與違約樣本比例,按照違約樣本/正常樣本=1/3的比例重新組織學(xué)習(xí)樣本。重組學(xué)習(xí)樣本量為560條,其中正常樣本420條,違約樣本140條,占新學(xué)習(xí)樣本總量的比例為25%。將原因子樣本都作為預(yù)測樣本重復(fù)之前實(shí)證過程后發(fā)現(xiàn),違約樣本的預(yù)測準(zhǔn)確率升高到100%,如表4所示。
根據(jù)預(yù)測結(jié)果可以看出,在提高學(xué)習(xí)樣本集中違約樣本所占比例之后,違約樣本預(yù)測精度確實(shí)出現(xiàn)了大幅提高,正常樣本預(yù)測準(zhǔn)確率略有下降,這主要是因?yàn)閷W(xué)習(xí)樣本較少(420條),而預(yù)測樣本太大(7659條)的緣故。通過上述實(shí)證可以證明,違約樣本的預(yù)測準(zhǔn)確率偏低是由于學(xué)習(xí)樣本中違約樣本與正常樣本比例失衡,正常樣本出現(xiàn)過學(xué)習(xí)現(xiàn)象,分類平面出現(xiàn)偏離所致。
4 結(jié)論與建議
本文通過機(jī)器學(xué)習(xí)的建模方式,選取“人人貸”標(biāo)的信息中所有變量作為研究樣本,通過人工判斷與因子分析將變量濃縮為十一個因子指標(biāo),并用SVM構(gòu)建借款人信用風(fēng)險識別模型。模型預(yù)測準(zhǔn)確率達(dá)到96.3354%,能夠較好地識別不同類別的借款人信用風(fēng)險,表明該方法可以應(yīng)用于P2P網(wǎng)貸平臺信用風(fēng)險識別,且效果較好。但在應(yīng)用時應(yīng)當(dāng)注意幾個方面:
(一)對P2P網(wǎng)貸平臺信用風(fēng)險識別應(yīng)當(dāng)從借款基本信息、借款人歷史借款信息、借款人信息可靠程度、借款人負(fù)債壓力、借款人償債能力、借款人歷史信用狀況、借款人固定資產(chǎn)狀況、借款人收入穩(wěn)定性、借款人事業(yè)發(fā)展前景、借款人收入和身份認(rèn)證這十一個方面進(jìn)行綜合考量,選取相應(yīng)數(shù)據(jù)作為變量體系,從而全面反應(yīng)借款人的整體信用狀況。
(二)P2P網(wǎng)貸平臺信用風(fēng)險識別具有一定的特殊性。該變量體系所需信息大體上與傳統(tǒng)商業(yè)銀行信貸模式所需信息吻合。但P2P網(wǎng)貸平臺的信用風(fēng)險識別的側(cè)重點(diǎn)多出了借款人信息可靠程度和身份認(rèn)證,原因在于,傳統(tǒng)商業(yè)銀行信貸模式需要借款人提供相應(yīng)信息與紙質(zhì)證明,且銀行信息渠道廣泛核實(shí)成本較低。而網(wǎng)絡(luò)貸款發(fā)生于虛擬空間,借款人身份、借款人相關(guān)信息相對容易偽造,網(wǎng)貸平臺信息核查成本較高。這就要求監(jiān)管部門對P2P網(wǎng)貸平臺開放信息渠道,同時加大借款人信息不實(shí)的處罰力度,以減小網(wǎng)絡(luò)貸款信用風(fēng)險識別與銀行貸款信用風(fēng)險識別之間的差異。
(三)在采用支持向量機(jī)機(jī)器學(xué)習(xí)方法構(gòu)建P2P網(wǎng)貸平臺信用風(fēng)險識別體系時應(yīng)當(dāng)注意選取的樣本中正常樣本與違約樣本的構(gòu)成比例,避免因比例失衡而引起的過學(xué)習(xí)現(xiàn)象。
參考文獻(xiàn):
[1]盧馨,李慧敏.P2P網(wǎng)絡(luò)借貨的運(yùn)行模式與風(fēng)險管控[J].改革,2015,(2):60-68.
[2]沈良輝,陳瑩.美國P2P網(wǎng)貨信用風(fēng)險管理經(jīng)驗(yàn)及時我國的啟示[J].征信,2014,(6):61-65.
[3]肖曼君,歐緣媛,李穎.我國P2P網(wǎng)絡(luò)借貨信用風(fēng)險影響因素研究——基于排序選擇模型的實(shí)證分析[J].財經(jīng)理論與實(shí)踐,2015,(1):2-6.
[4]廖理,李夢然,王正位.《聰明的投資者:非完全市場化利率與風(fēng)險識別——來自P2P網(wǎng)絡(luò)借貸的證據(jù)》.《經(jīng)濟(jì)研究》第7期,2014,(7):125-137.
[5]Chitra K.,B. Subashini, 2013, "Data Mining Techniques and itsApplications in Banking Sector",International Journal of EmergingTechnology and Advanced Engineering, 3, pp. 219-226.
[6]Hunt E.B.,J. Marin, P.J. Stone, "Experiments in induction",American Journal of Psychology, 80(4), 1966, pp. 17-19.