師應(yīng)來(lái),張冰潔,姜 昊
(中南財(cái)經(jīng)政法大學(xué) 統(tǒng)計(jì)與數(shù)學(xué)學(xué)院,武漢 430074)
新經(jīng)濟(jì)業(yè)態(tài)下,P2P網(wǎng)絡(luò)借貸融資模式不再以傳統(tǒng)金融機(jī)構(gòu)作為中介,借貸雙方直接通過(guò)網(wǎng)絡(luò)平臺(tái)達(dá)成交易,平臺(tái)以低門(mén)檻、高效便捷等優(yōu)點(diǎn)吸引了大量用戶(hù),交易規(guī)模和風(fēng)險(xiǎn)也在日益擴(kuò)大。截至2017年10月底,P2P網(wǎng)貸行業(yè)歷史累計(jì)成交量達(dá)到57812.89億元,與去年同期相比上升幅度達(dá)到94.98%。盡管自2016年8月《網(wǎng)絡(luò)借貸信息中介機(jī)構(gòu)業(yè)務(wù)活動(dòng)管理暫行辦法》出臺(tái)以來(lái),網(wǎng)貸行業(yè)正常運(yùn)營(yíng)平臺(tái)數(shù)量一直處于下降趨勢(shì),部分平臺(tái)主動(dòng)退出,現(xiàn)有平臺(tái)開(kāi)始朝著“小額、普惠”方向轉(zhuǎn)型,P2P網(wǎng)貸平臺(tái)的風(fēng)險(xiǎn)仍不容小覷。截至2017年10月底,P2P網(wǎng)貸平臺(tái)累計(jì)數(shù)量達(dá)到5949家(含破產(chǎn)及問(wèn)題平臺(tái)),累計(jì)破產(chǎn)及問(wèn)題平臺(tái)達(dá)到3974家。然而,目前國(guó)內(nèi)仍缺乏對(duì)P2P平臺(tái)的有效監(jiān)管,如何在網(wǎng)貸行業(yè)加速洗牌的過(guò)程中及時(shí)有效地甄別風(fēng)險(xiǎn)顯得尤為重要。本文收集整理了我國(guó)500家P2P網(wǎng)貸平臺(tái)基礎(chǔ)數(shù)據(jù),在變量選取過(guò)程中,除傳統(tǒng)結(jié)構(gòu)化信息外,還通過(guò)網(wǎng)絡(luò)爬蟲(chóng)、文本挖掘技術(shù)得到平臺(tái)的用戶(hù)評(píng)價(jià)情感得分。在模型構(gòu)建過(guò)程中,為克服模型過(guò)擬合問(wèn)題,利用主成分分析提取主要變量,在此基礎(chǔ)上構(gòu)建Logistic、支持向量機(jī)、隨機(jī)森林模型對(duì)平臺(tái)風(fēng)險(xiǎn)進(jìn)行甄別。研究結(jié)果能夠有效甄別和預(yù)測(cè)平臺(tái)風(fēng)險(xiǎn),有利于投資者做出理性決策,并為政府監(jiān)管提供切實(shí)有效的參考意見(jiàn)。
本文主要研究平臺(tái)自身運(yùn)營(yíng)風(fēng)險(xiǎn),此類(lèi)風(fēng)險(xiǎn)主要是由于:平臺(tái)擔(dān)保能力有限,不能完全保障出借人賬款可以收回;平臺(tái)盈利能力有限,有倒閉風(fēng)險(xiǎn),收入可能不能覆蓋成本;政府監(jiān)管不到位,難以提供公平的競(jìng)爭(zhēng)環(huán)境。這類(lèi)風(fēng)險(xiǎn)可以通過(guò)兩類(lèi)變量加以識(shí)別:一類(lèi)是平臺(tái)公布的、能夠直接獲得的基本信息,包括平臺(tái)成交量、平均預(yù)期收益率、平均借款期限、注冊(cè)資本、滿(mǎn)標(biāo)用時(shí)、待還余額、資金凈流入、運(yùn)營(yíng)時(shí)間、投資人數(shù)、借款人數(shù)、借款標(biāo)數(shù)、前十大房貸人待收金額占比、人均投資金額、前十大借款人待還金額占比、人均借款金額;另一類(lèi)是外部信息,包括各平臺(tái)用戶(hù)評(píng)論的情感得分及各平臺(tái)的關(guān)注度。
網(wǎng)貸之家網(wǎng)站提供了P2P平臺(tái)近期的基本信息,包括每個(gè)平臺(tái)各時(shí)間段內(nèi)的基本數(shù)據(jù),本文根據(jù)網(wǎng)站的公開(kāi)信息對(duì)平臺(tái)進(jìn)行標(biāo)注,低風(fēng)險(xiǎn)平臺(tái)定義為y=1,高風(fēng)險(xiǎn)平臺(tái)定義為y=0,在選取的500家網(wǎng)貸平臺(tái)數(shù)據(jù)中,共有366家屬于低風(fēng)險(xiǎn)平臺(tái),134家屬于高風(fēng)險(xiǎn)平臺(tái)。根據(jù)影響網(wǎng)貸運(yùn)營(yíng)風(fēng)險(xiǎn)因素,并考慮數(shù)據(jù)的可獲得性,本文計(jì)算了2017年5月至2017年11月500家平臺(tái)每個(gè)指標(biāo)的均值,共計(jì)15個(gè)變量。變量說(shuō)明見(jiàn)下頁(yè)表1。
用戶(hù)評(píng)論是判斷用戶(hù)對(duì)平臺(tái)感受的重要標(biāo)準(zhǔn)之一,可以通過(guò)評(píng)論中有感情傾向的詞語(yǔ)來(lái)反映情感得分。本文評(píng)論信息來(lái)自第三方網(wǎng)貸資訊平臺(tái)(網(wǎng)貸之家、網(wǎng)貸天眼),通過(guò)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)爬取5萬(wàn)余條用戶(hù)評(píng)論,對(duì)評(píng)論文本采取分詞、去除停用詞處理并進(jìn)行情感分析,識(shí)別每家P2P網(wǎng)貸平臺(tái)的用戶(hù)情感得分。本文使用BosonNLP情感詞典作為評(píng)論文本的匹配源,其數(shù)據(jù)來(lái)源豐富,主要有微博、新聞、論壇等。對(duì)爬取的評(píng)論數(shù)據(jù)進(jìn)行缺失數(shù)據(jù)處理,最終從500家網(wǎng)貸平臺(tái)共獲取51077條評(píng)論,遍歷每一家平臺(tái)的評(píng)論文本,得到用戶(hù)對(duì)該平臺(tái)的綜合評(píng)分。部分評(píng)分如下頁(yè)表2所示。
表1 變量說(shuō)明
表2 P2P網(wǎng)貸平臺(tái)情感得分
為利用已有數(shù)據(jù)對(duì)P2P網(wǎng)貸平臺(tái)風(fēng)險(xiǎn)進(jìn)行甄別,本文選取Logistic模型、SVM、隨機(jī)森林模型展開(kāi)分析。通過(guò)對(duì)比三個(gè)模型預(yù)測(cè)效果,確定合適的模型對(duì)P2P平臺(tái)進(jìn)行分類(lèi),并根據(jù)三個(gè)模型的結(jié)果,對(duì)影響P2P網(wǎng)貸平臺(tái)風(fēng)險(xiǎn)的因素進(jìn)行分析。
Logistic回歸主要用于因變量為二元變量的回歸分析,自變量可以分為分類(lèi)變量,也可以為連續(xù)變量。它既可以從多個(gè)變量中選出對(duì)因變量有影響的自變量,也能估計(jì)出模型用于預(yù)測(cè)。模型的基本形式為:
對(duì)其做logit變換,變形后模型形式為:
其中,x1,x2,…,xn為自變量,Y 為因變量,模型的參數(shù)估計(jì)最常采用MLE法。
支持向量機(jī)算法的依據(jù)是結(jié)構(gòu)風(fēng)險(xiǎn)最小化,先由訓(xùn)練樣本得到初步模型,模型具有較小誤差,這個(gè)較小的誤差在測(cè)試集中仍然可以保持。SVM分類(lèi)模型可分為線性可分和線性不可分兩種情況,本文數(shù)據(jù)屬于線性不可分。模型求解的基本過(guò)程為:
設(shè)樣本為n維空間,其k個(gè)訓(xùn)練樣本輸入為 x1,x2,…,xk,對(duì)應(yīng)的所屬類(lèi)別為兩類(lèi):yi∈{+ 1,-1},i=1,2,…,k ,其中,+1和-1分別表示兩類(lèi)類(lèi)別標(biāo)識(shí)。假定分類(lèi)的超平面為:w·x+b=0。為使樣本正確分類(lèi),超平面應(yīng)滿(mǎn)足約束條件:f(x)=wTx+b,且滿(mǎn)足條件 | f(x)|≥1,求解目標(biāo)要求樣本與超平面的最小距離‖w‖盡可能大,由于部分樣本不能被超平面正確分類(lèi),因此在必要時(shí)可以放寬約束,可以通過(guò)引入一個(gè)松弛變量來(lái)實(shí)現(xiàn),此時(shí)的約束條件和目標(biāo)函數(shù)分別為:
其中,C(C>0)為懲罰系數(shù),用其控制錯(cuò)分樣本的懲罰程度;b為分類(lèi)的閾值,在約束條件下求解目標(biāo)函數(shù)最優(yōu)值,最終可以得到最優(yōu)分類(lèi)函數(shù)。
隨機(jī)森林是由Leo Breiman提出的一種分類(lèi)算法。其運(yùn)算的原理實(shí)質(zhì)是對(duì)決策樹(shù)算法的一種改進(jìn)。單棵樹(shù)分類(lèi)的能力和精度都常常不能達(dá)到要求,但通過(guò)多棵決策樹(shù)(隨機(jī)產(chǎn)生),讓所有樹(shù)進(jìn)行分類(lèi),選出支持率最高的分類(lèi)結(jié)果,從而能夠在分類(lèi)能力和精度上取得明顯的提升。
隨機(jī)森林算法的實(shí)現(xiàn):首先構(gòu)建分類(lèi)樹(shù)。從訓(xùn)練樣本中有放回地抽取樣本集,未被抽到的樣本則構(gòu)成袋外數(shù)據(jù)。再分裂,每棵樹(shù)上都有富含信息的節(jié)點(diǎn),通過(guò)隨機(jī)抽取和計(jì)算信息量并排序的方法選擇要分裂的節(jié)點(diǎn)。在過(guò)程中不對(duì)分類(lèi)樹(shù)進(jìn)行剪裁,不剪枝。最后生成隨機(jī)森林,對(duì)于解決分類(lèi)問(wèn)題,分類(lèi)結(jié)果由樹(shù)分類(lèi)器的投票多少而定。
本文初步選取了17個(gè)解釋變量,解釋變量維數(shù)較高,且一般信用風(fēng)險(xiǎn)評(píng)估本身的復(fù)雜性及風(fēng)險(xiǎn)因素之間也往往存在密切的相關(guān)性。因此無(wú)論采用經(jīng)典計(jì)量方法或者機(jī)器學(xué)習(xí)算法,都存在模型的指標(biāo)具有高維性和高相關(guān)性,并會(huì)導(dǎo)致模型參數(shù)估計(jì)無(wú)效、模型過(guò)擬合等一系列后果。因此本文在實(shí)證分析之前先采用主成分分析法對(duì)變量進(jìn)行預(yù)處理,得到9個(gè)主成分,再利用得到的主成分作為解釋變量進(jìn)行實(shí)證分析。
對(duì)所選取的解釋變量做KMO&Bartlett球形檢驗(yàn),KMO值為0.683(KMO>0.6),在累計(jì)方差貢獻(xiàn)率達(dá)80%的基礎(chǔ)上選取了9個(gè)主成分,得到的旋轉(zhuǎn)成分矩陣如表3所示。
表3 主成分旋轉(zhuǎn)成分矩陣
由表3可知,第一主成分在X1、X2和X3上有較大載荷,表明F1與這三個(gè)變量具有較強(qiáng)的相關(guān)性,基本反映了平臺(tái)的歷史交易信息,定義為歷史交易因子;第二主成分在X4、X5和X6上有較大載荷,根據(jù)其指標(biāo)特征,定義為平臺(tái)現(xiàn)狀因子;第三主成分在X7和X8上有較大載荷,且都是反映平臺(tái)發(fā)展,定義為平臺(tái)發(fā)展因子;第四主成分在X9、X10和X11上有較大載荷,與交易人數(shù)具有很強(qiáng)相關(guān)性,定義為交易人數(shù)因子;第五主成分在X12上有較大載荷,定義為平臺(tái)貸款因子;第六主成分在X13上有較大載荷,定義為客戶(hù)投資因子;第七主成分在X14和X15上有較大載荷,與客戶(hù)向平臺(tái)貸款有較大相關(guān)性,定義為平臺(tái)貸款因子;第八主成分在X16上有較大載荷,定義為情感因子;第九主成分在X17上占有較大載荷,與平臺(tái)評(píng)論數(shù)有較大相關(guān)性,定義為關(guān)注度因子。
在主成分分析提取的9個(gè)因子基礎(chǔ)上,本文從網(wǎng)貸之家網(wǎng)絡(luò)平臺(tái)選取了500家平臺(tái)進(jìn)行風(fēng)險(xiǎn)評(píng)估分析,其中低風(fēng)險(xiǎn)平臺(tái)共有366家,高風(fēng)險(xiǎn)平臺(tái)有134家,樣本比接近2:5,不存在樣本失衡問(wèn)題,模型構(gòu)建具有可行性。且在使用各個(gè)模型進(jìn)行分析時(shí)通過(guò)軟件選擇相同的訓(xùn)練集和測(cè)試集(其中訓(xùn)練集與測(cè)試集樣本量比為7:3),從而保證各模型的分類(lèi)結(jié)果具有可比性。
首先利用SVM模型對(duì)平臺(tái)進(jìn)行分類(lèi),為了使得SVM模型能夠根據(jù)提供的訓(xùn)練集訓(xùn)練出最佳模型,本文選擇多類(lèi)模型參數(shù)、核函數(shù)進(jìn)行訓(xùn)練,訓(xùn)練得到的模型對(duì)預(yù)測(cè)集預(yù)測(cè)的正確率如表4所示。
表4 SVM模型參數(shù)選擇 (單位:%)
根據(jù)表4得出,在SVM模型中,選擇懲罰系數(shù)為10和徑向基核對(duì)預(yù)測(cè)集預(yù)測(cè)效果最佳,預(yù)測(cè)正確率為76.67%,預(yù)測(cè)效果較好。
其次利用隨機(jī)森林模型和邏輯回歸模型對(duì)平臺(tái)進(jìn)行分類(lèi),同時(shí)將這兩種模型與SVM模型擬合結(jié)果進(jìn)行對(duì)比,對(duì)比結(jié)果如表5所示。
表5 模型預(yù)測(cè)結(jié)果對(duì)比 (單位:%)
由表5可知,利用Logistic模型對(duì)平臺(tái)進(jìn)行分類(lèi),發(fā)現(xiàn)在測(cè)試集上的預(yù)測(cè)正確率不到80%,低于支持向量機(jī)(82%)和隨機(jī)森林(100%)對(duì)訓(xùn)練集的分類(lèi)正確率。對(duì)于測(cè)試集,SVM的分類(lèi)正確率達(dá)到76.67%,但隨機(jī)森林和Logistic回歸的分類(lèi)正確率均未達(dá)到75%,對(duì)模型的分類(lèi)效果均不如SVM,結(jié)合表4與表5,說(shuō)明本文選取了相對(duì)合適的懲罰系數(shù)以及核函數(shù)來(lái)處理平臺(tái)風(fēng)險(xiǎn)的分類(lèi)問(wèn)題。
從預(yù)測(cè)結(jié)果可以看出,利用高維變量對(duì)被解釋變量進(jìn)行分類(lèi)時(shí)的廣義線性模型預(yù)測(cè)效果低于非線性模型SVM,原因在于本文選取的風(fēng)險(xiǎn)評(píng)估變量自身往往存在復(fù)雜的相關(guān)關(guān)系,線性模型難以估計(jì),因而對(duì)于高維變量且之間存在復(fù)雜關(guān)系的變量進(jìn)行分析時(shí),應(yīng)多考慮利用非線性模型進(jìn)行估計(jì)。而隨機(jī)森林模型的預(yù)測(cè)效果優(yōu)于支持向量機(jī),原因在于隨機(jī)森林模型不需要預(yù)先設(shè)定函數(shù)形式,不進(jìn)行交叉驗(yàn)證,因而不易出現(xiàn)過(guò)擬合的現(xiàn)象,且可以保證預(yù)測(cè)精度。
對(duì)于本文選取的模型,雖然SVM和隨機(jī)森林模型對(duì)于平臺(tái)的分類(lèi)具有較不錯(cuò)的分析結(jié)果,但是缺乏可解釋性。因此綜合考慮模型對(duì)測(cè)試集預(yù)測(cè)的正確率及模型的可解釋性,本文以Logistic模型和隨機(jī)森林模型解釋各變量之間存在的聯(lián)系。
首先對(duì)于Logistic模型,本文將PCA得到的9個(gè)因子作為解釋變量與被解釋變量平臺(tái)風(fēng)險(xiǎn)狀況進(jìn)行擬合,得到的模型參數(shù)估計(jì)如下頁(yè)表6所示。
由表6的模型估計(jì)結(jié)果可以看出,平臺(tái)風(fēng)險(xiǎn)狀況與主成分分析得到的主成分之間的相關(guān)關(guān)系,其中模型變量的顯著性檢驗(yàn)表明,平臺(tái)發(fā)展因子、平臺(tái)貸款因子、情感因子以及關(guān)注度因子在5%的顯著性水平下顯著。原因在于:平臺(tái)發(fā)展因子主要由平臺(tái)資金凈流入和運(yùn)營(yíng)時(shí)間組成,一個(gè)平臺(tái)現(xiàn)持有的資金是其發(fā)展的基礎(chǔ),其對(duì)一個(gè)平臺(tái)的持續(xù)發(fā)展具有極大的影響。而與經(jīng)營(yíng)時(shí)間短的平臺(tái)相比,經(jīng)營(yíng)時(shí)間長(zhǎng)的平臺(tái)在一定程度上處理風(fēng)險(xiǎn)的能力更強(qiáng)。綜合該因子主要包含的兩個(gè)指標(biāo)及該因子的參數(shù)正負(fù)性可知,該因子與平臺(tái)的風(fēng)險(xiǎn)大小負(fù)相關(guān);對(duì)于平臺(tái)貸款因子,該因子主要由前十大放貸人待還金額占比和人均借款金額組成。對(duì)于某個(gè)平臺(tái)如果發(fā)放的貸款越多,在一定程度上可能會(huì)收到更多的傭金,但是平臺(tái)自身持有的資金將會(huì)大額減少,平臺(tái)應(yīng)對(duì)突發(fā)事件的能力會(huì)隨著平臺(tái)持有資金減少而下降,對(duì)一個(gè)平臺(tái)的穩(wěn)定性將產(chǎn)生很大影響。綜合考慮這兩項(xiàng)指標(biāo)及因子的參數(shù)正負(fù)性可知,該指標(biāo)越大,該平臺(tái)風(fēng)險(xiǎn)越大;對(duì)于情感因子,該因子主要由情感得分因子組成,顯示網(wǎng)民對(duì)于平臺(tái)的情感評(píng)價(jià)該指標(biāo)越大表示網(wǎng)民對(duì)于該平臺(tái)的評(píng)價(jià)越好,即在一定程度上可根據(jù)網(wǎng)民正向評(píng)論反映該平臺(tái)風(fēng)險(xiǎn)較小。其次根據(jù)該參數(shù)的系數(shù)為正,綜合該指標(biāo)大小及參數(shù)的正負(fù)可以得出情感因子越大,則平臺(tái)的風(fēng)險(xiǎn)較??;對(duì)于關(guān)注度因子,該因子主要由各平臺(tái)的評(píng)論數(shù)組成,因?yàn)榭蛻?hù)進(jìn)行投資的主要目的是盈利或至少是保值。因此如果一個(gè)平臺(tái)出現(xiàn)嚴(yán)重問(wèn)題,則客戶(hù)一般會(huì)在該平臺(tái)下簡(jiǎn)要介紹自己遇到的各種問(wèn)題,為后續(xù)投資者提出警示,且實(shí)際查看各平臺(tái)的評(píng)論發(fā)現(xiàn)網(wǎng)民主要針對(duì)平臺(tái)存在的問(wèn)題發(fā)出評(píng)論。因此綜合該指標(biāo)大小及參數(shù)正負(fù)得出關(guān)注度因子越大,該平臺(tái)風(fēng)險(xiǎn)越大。
表6 Logistic模型參數(shù)估計(jì)
對(duì)于隨機(jī)森林模型,根據(jù)表4可知該模型對(duì)訓(xùn)練集的擬合效果很好,而且該模型在進(jìn)行精確分類(lèi)的基礎(chǔ)上還可以給出各個(gè)變量的重要性,得出各變量的重要性結(jié)果如表7所示。
表7 隨機(jī)森林變量重要性排序
從表7結(jié)果可以得出:從誤差遞減的角度,最重要的四個(gè)影響因子排名為情感因子、客戶(hù)投資因子、關(guān)注度因子、平臺(tái)貸款因子;從精確度遞減的角度,最重要的四個(gè)因子排名為交易人數(shù)因子、情感因子、平臺(tái)貸款比重因子、客戶(hù)投資因子。將該結(jié)果與Logistic結(jié)果對(duì)比發(fā)現(xiàn),二者得到的重要因素基本相同。
在對(duì)網(wǎng)貸平臺(tái)進(jìn)行風(fēng)險(xiǎn)甄別的過(guò)程中,支持向量機(jī)、隨機(jī)森林非線性模型比廣義線性模型預(yù)測(cè)效果更優(yōu)。平臺(tái)發(fā)展因子、客戶(hù)投資因子、平臺(tái)貸款因子、情感因子和關(guān)注度因子對(duì)平臺(tái)的風(fēng)險(xiǎn)甄別具有重要意義。因此,非線性模型更適合構(gòu)建P2P網(wǎng)貸平臺(tái)風(fēng)險(xiǎn)甄別體系,想進(jìn)行投資的用戶(hù)更應(yīng)關(guān)注平臺(tái)的發(fā)展情況、資金流及投資貸款信息,同時(shí),用戶(hù)評(píng)論和平臺(tái)的關(guān)注度應(yīng)給予足夠重視。基于上述實(shí)證分析,本文提出以下建議:
政府應(yīng)該增加對(duì)網(wǎng)貸平臺(tái)的管理力度。在數(shù)據(jù)搜集過(guò)程中,發(fā)現(xiàn)網(wǎng)絡(luò)貸款作為一種與互聯(lián)網(wǎng)相結(jié)合的新型金融形態(tài),平臺(tái)披露的信息仍然很有限,相關(guān)法律法規(guī)還不夠完善,這會(huì)導(dǎo)致投資者面臨的投資風(fēng)險(xiǎn)增大、致使網(wǎng)貸平臺(tái)競(jìng)爭(zhēng)環(huán)境喪失公平性。政府應(yīng)盡快完善法律法規(guī),保障P2P網(wǎng)貸的將抗發(fā)展環(huán)境,促使這種新型金融形態(tài)可持續(xù)發(fā)展。
建議相關(guān)部門(mén)對(duì)P2P平臺(tái)進(jìn)行風(fēng)險(xiǎn)監(jiān)測(cè),實(shí)現(xiàn)風(fēng)險(xiǎn)預(yù)警??蓞⒖急疚牡姆治鼋Y(jié)果,根據(jù)上述指標(biāo)建立平臺(tái)風(fēng)險(xiǎn)指數(shù),促使各平臺(tái)定期公布,從而使各平臺(tái)良性發(fā)展。同時(shí)在大數(shù)據(jù)時(shí)代數(shù)據(jù)豐富性基礎(chǔ)上,選取更多的信息對(duì)模型不斷訓(xùn)練,使其對(duì)平臺(tái)的風(fēng)險(xiǎn)預(yù)測(cè)更加準(zhǔn)確,進(jìn)而促使P2P交易市場(chǎng)更加成熟。