劉 翱 胡 超 鄧旭東 童澤平 任 亮(武漢科技大學(xué)管理學(xué)院 湖北 武漢 40065)(武漢科技大學(xué)服務(wù)科學(xué)與工程研究中心 湖北 武漢 40065)(智能信息處理與實時工業(yè)系統(tǒng)湖北省重點實驗室 湖北 武漢 40065)
截至2017年3月31日,我國P2P網(wǎng)絡(luò)借貸行業(yè)全國成交額2 180.29億元,P2P網(wǎng)絡(luò)借貸平臺數(shù)量達4 804家,其中運營平臺1 810家,問題平臺達2 994家[1]。一方面,P2P網(wǎng)絡(luò)借貸平臺良莠不齊,影響了P2P網(wǎng)絡(luò)借貸行業(yè)的長遠和健康發(fā)展;另一方面,部分P2P網(wǎng)絡(luò)借貸投資者沒有投資經(jīng)驗,且對收益率、流動性和風(fēng)險有著不同的偏好,普通投資者難以選擇合適的網(wǎng)絡(luò)借貸平臺和借貸標(biāo)的進行投資。因而,如何結(jié)合P2P網(wǎng)絡(luò)借貸平臺的運營數(shù)據(jù)進行平臺分類,識別其中的優(yōu)良平臺,就顯得尤為重要[2-5]。這既有利于P2P網(wǎng)絡(luò)借貸行業(yè)健康發(fā)展,也有利于投資者進行投資決策和風(fēng)險控制。
目前,關(guān)于P2P網(wǎng)絡(luò)借貸的研究主要集中在信息、學(xué)歷、地域等因素對借貸交易的影響[6-9],P2P網(wǎng)絡(luò)借貸行業(yè)缺乏對P2P網(wǎng)絡(luò)借貸平臺的定量效率評估和評級研究[2-5],少部分研究以定性分析為主[10-11]。盡管網(wǎng)絡(luò)借貸天眼、網(wǎng)絡(luò)借貸之家等第三方網(wǎng)站開始對網(wǎng)絡(luò)借貸平臺進行評級活動,但是2015年的短融網(wǎng)狀告融360的網(wǎng)絡(luò)借貸評級糾紛案凸顯了P2P網(wǎng)絡(luò)借貸評級的復(fù)雜性和爭議性。P2P網(wǎng)絡(luò)借貸行業(yè)數(shù)據(jù)難以獲取、第三方評級獨立性、科學(xué)性和公正性存疑等問題,無疑增加了普通投資者的投資難度和投資風(fēng)險。
標(biāo)簽傳播LP(label propagation)算法是一類基于圖的半監(jiān)督學(xué)習(xí)方法,對非平衡和非正態(tài)數(shù)據(jù)具有較好的學(xué)習(xí)效果,具有可調(diào)參數(shù)少、原理簡單、容易實現(xiàn)等優(yōu)點[12-13]。
鑒于此,本文從投資者視角出發(fā),結(jié)合P2P網(wǎng)絡(luò)借貸平臺的運營數(shù)據(jù),引入標(biāo)簽傳播算法,開展P2P網(wǎng)絡(luò)借貸平臺分類研究,為缺乏經(jīng)驗的投資者提供投資決策和風(fēng)險控制輔助支持工具。值得指出的是,本文是首次將標(biāo)簽傳播算法應(yīng)用于P2P網(wǎng)絡(luò)借貸平臺分類研究。
監(jiān)督學(xué)習(xí)主要研究如何同時利用有類別的標(biāo)簽數(shù)據(jù)和無類別的非標(biāo)簽數(shù)據(jù)來學(xué)習(xí)有用信息,并改進學(xué)習(xí)性能,已成為機器學(xué)習(xí)領(lǐng)域的重要主題[12-13]。記有類別的標(biāo)簽數(shù)據(jù)和無類別的非標(biāo)簽數(shù)據(jù)分別為L={(x1,y1),(x2,y2),…,(xl,yl)},l∈{1,2,…,C}和U={xl+1,xl+2,…,xl+u}。其中l(wèi)≤u,n=l+u為樣本量,C表示類別數(shù)。半監(jiān)督學(xué)習(xí)是指利用L和U預(yù)測{xl+1,xl+2,…,xn}的標(biāo)簽{yl+1,yl+2,…,yn}。
標(biāo)簽傳播算法是一類基于圖的半監(jiān)督學(xué)習(xí)算法,它通過將樣本映射為節(jié)點構(gòu)造圖并定義節(jié)點相似性,在相似節(jié)點間傳播標(biāo)簽分類,適用于具有少有帶標(biāo)簽數(shù)據(jù)的分類問題[14]。
樣本Xi映射為節(jié)點,建立圖G=(V,E),任意樣本xi和xj定義為E中的一條邊,邊的權(quán)重wij定義為二者之間的相似度。
一種常見的基于RBF的相似度定義為[12]:
(1)
式中:σ為尺度參數(shù)。
標(biāo)簽傳播算法通過節(jié)點之間的邊來傳播標(biāo)簽,邊的權(quán)重越大,表明節(jié)點相似性越高,標(biāo)簽傳播的概率越大。定義概率轉(zhuǎn)移矩陣如下:
(2)
式中:Pij為節(jié)點i向節(jié)點j傳播標(biāo)簽的概率。
定義L×C標(biāo)簽矩陣YL=[ylic]L×C,第i行表示樣本xi對應(yīng)的標(biāo)簽向量,滿足:
(3)
定義軟標(biāo)簽矩陣F=[fic]n×C,fic表示樣本xi屬于類別c的概率。
標(biāo)簽傳播算法通過計算軟標(biāo)簽矩陣F,將概率最大的類作為樣本類別?;玖鞒倘缦拢?/p>
1) 以概率P進行標(biāo)簽傳播:F=PF;
2) 重置有類別數(shù)據(jù)的標(biāo)簽:FL=YL。
重復(fù)1)和2),直到F收斂為止。
結(jié)合P2P網(wǎng)絡(luò)借貸平臺分類的實際情況,本節(jié)提出基于標(biāo)簽傳播的P2P網(wǎng)絡(luò)借貸平臺分類算法。算法流程如下:
1) 應(yīng)用z-score進行數(shù)據(jù)標(biāo)準(zhǔn)化:
(4)
2) 使用主成分分析對z進行特征提取[15]:
b=Az
(5)
3) 考慮到P2P網(wǎng)絡(luò)借貸平臺的不同分類之間相似性較低,因而傳播的概率較低。采用KNN思想來構(gòu)造稀疏的KNN圖模型,即標(biāo)簽只在K個最近鄰居之間傳播,轉(zhuǎn)移概率定義如下[14,16]:
(6)
4) 應(yīng)用標(biāo)準(zhǔn)的標(biāo)簽傳播算法進行P2P網(wǎng)絡(luò)借貸平臺的分類標(biāo)簽傳播,確定P2P網(wǎng)絡(luò)借貸平臺的類型。
為驗證標(biāo)簽傳播算法在P2P網(wǎng)絡(luò)借貸平臺分類中的可行性和效果,本節(jié)利用八爪魚數(shù)據(jù)采集器從網(wǎng)貸天眼網(wǎng)站采集2017年3月份50個網(wǎng)絡(luò)借貸平臺(編號為P1-P50)的運營數(shù)據(jù)和評級結(jié)果,數(shù)據(jù)匯總?cè)绫?所示,包括償兌性等共9個運營指標(biāo)X1-X9及相應(yīng)的等級。
表1 150家P2P網(wǎng)絡(luò)借貸平臺的運營數(shù)據(jù)
實驗環(huán)境:Windows 7, CPU 奔騰T4400,主頻2.2 GHz,內(nèi)存為2 GB,編程語言為MATLAB 2014b。
3.3.1 描述性分析
表2匯總了50家網(wǎng)絡(luò)借貸平臺運營數(shù)據(jù)的描述性統(tǒng)計結(jié)果。從表2可以看出,這些網(wǎng)絡(luò)借貸平臺在9個運營指標(biāo)上具有較大的差異??梢灶A(yù)期,不同的P2P網(wǎng)絡(luò)借貸平臺的效率和風(fēng)險等具有較大差異。因而,對P2P網(wǎng)絡(luò)借貸平臺進行合理分類,有助于區(qū)分網(wǎng)絡(luò)借貸平臺的優(yōu)劣,并輔助普通投資者進行風(fēng)險控制和個性化投資決策。
3.3.2 基于標(biāo)簽傳播的網(wǎng)絡(luò)平臺分類
接下來,以表1的8家網(wǎng)絡(luò)借貸平臺P1-P8為標(biāo)簽數(shù)據(jù),其余42家網(wǎng)絡(luò)借貸平臺為未標(biāo)簽數(shù)據(jù),展示基于標(biāo)簽傳播的平臺評級主要步驟和結(jié)果。
(1) 數(shù)據(jù)標(biāo)準(zhǔn)化
表3 部分P2P網(wǎng)絡(luò)借貸平臺標(biāo)準(zhǔn)化后的z-score
(2) 主成分分析
利用50家平臺的z,對其進行主成分分析,得出主成分分析的負荷矩陣A如表4所示,根據(jù)負荷矩陣算出50個平臺的主成分得分矩陣b,如表5所示。
表4 主成分分析的負荷矩陣
表5 部分P2P網(wǎng)絡(luò)借貸平臺的主成分分析的得分矩陣
(3) 標(biāo)簽傳播分類結(jié)果
實驗過程如下:將等級{A+,A,B+,B}依次編碼為{1,2,3,4},從50家平臺中每類平臺選取2家平臺,利用得分矩陣和評級作為有類別的標(biāo)簽數(shù)據(jù),其余的平臺去掉標(biāo)簽組成無類別的非標(biāo)簽數(shù)據(jù);其次,分別構(gòu)造基于RBF和KNN的圖模型(分別記為RBF-LP,KNN-LP)進行標(biāo)簽傳播;最后統(tǒng)計分類正確率,以測試算法效果[14,17-18]。
限于篇幅,表6列出了P1、P2的轉(zhuǎn)移概率。
表6 P1和P2基于KNN的轉(zhuǎn)移概率
表7分別統(tǒng)計了基于RBF和KNN的標(biāo)簽傳播的分類正確率。從表中可知,盡管基于RBF的標(biāo)簽傳播最好的分類效果優(yōu)于KNN,但是從最差值、平均值和標(biāo)準(zhǔn)差來看,基于KNN的標(biāo)簽傳播分類效果卻要優(yōu)于RBF,也就是說,基于KNN的標(biāo)簽傳播分類在平均性能和魯棒性等是要優(yōu)于RBF。
表7 基于RBF和KNN的標(biāo)簽傳播分類準(zhǔn)確率
圖1展示了基于RBF和KNN的標(biāo)簽傳播過程,該圖統(tǒng)計了50次試驗中每次標(biāo)簽傳播的平均分類正確率和標(biāo)準(zhǔn)差。
圖1 基于RBF和KNN的標(biāo)簽傳播過程對比
從圖1中可以看出:1) KNN的標(biāo)簽傳播分類平均性能要優(yōu)于RBF,且隨著傳播過程的進行效果越好,標(biāo)準(zhǔn)差也逐漸變小,也就是分類的魯棒性越好;2) RBF的標(biāo)簽傳播分類效果在初期較好,隨后效果變差,在后期分類效果又逐漸增強,這也表明了基于RBF的標(biāo)簽傳播分類效果不太穩(wěn)定,魯棒性較差。
為進一步驗證標(biāo)簽傳播的有效性,我們對比分析Naive Bayes、KNN、Random forest的分類效果。從表8結(jié)果可以看出:在同樣樣本數(shù)據(jù)下,標(biāo)簽傳播算法的分類效果要優(yōu)于其余對比算法。
表8 各算法的標(biāo)簽傳播分類準(zhǔn)確率
P2P網(wǎng)絡(luò)借貸行業(yè)在迅猛發(fā)展的同時,風(fēng)險事件時有發(fā)生。合理且科學(xué)的P2P網(wǎng)絡(luò)借貸平臺分類有助于能為普通投資者提供投資決策和風(fēng)險識別輔助支持。鑒于此,本文從投資者視角出發(fā),結(jié)合P2P網(wǎng)絡(luò)借貸平臺的運營數(shù)據(jù),首次開展基于標(biāo)簽傳播的P2P網(wǎng)絡(luò)借貸平臺分類研究,提出了基于RBF和KNN的P2P網(wǎng)絡(luò)借貸平臺分類算法。實驗結(jié)果表明,基于標(biāo)簽傳播的P2P網(wǎng)絡(luò)借貸平臺分類算法具有較高的識別正確率,且基于KNN的分類算法在平均性能和魯棒性上均優(yōu)于基于RBF的分類算法。
需要指出的是,本文只是使用機器學(xué)習(xí)算法進行P2P網(wǎng)絡(luò)借貸平臺分類的初步研究,驗證機器學(xué)習(xí)算法應(yīng)用到P2P網(wǎng)絡(luò)借貸平臺分類的可行性,在算法改進和效果上仍有改進空間。未來仍需深入研究P2P網(wǎng)絡(luò)借貸平臺分類的特征提取、標(biāo)簽算法的抗噪聲性、穩(wěn)定性、敏感性和振蕩性等問題[14,17-21]、貝葉斯學(xué)習(xí)[22]、極限學(xué)習(xí)機[23]、隨機森林[24]、SVM[25]、粗糙集[26]等方法對P2P網(wǎng)絡(luò)借貸平臺分類的應(yīng)用研究。
[1] 網(wǎng)貸之家. 3月網(wǎng)貸行業(yè)報告[EB/OL].[2017-04-08.].http://news.p2peye.com/article-494445-1.html.
[2] 朱宗元, 王景裕.P2P網(wǎng)絡(luò)借貸平臺效率的綜合評價:基于AHP-DEA方法[J].南方金融, 2016(4): 31- 38.
[3] 王正位, 向佳, 廖理,等.互聯(lián)網(wǎng)金融環(huán)境下投資者學(xué)習(xí)行為的經(jīng)濟學(xué)分析[J].數(shù)量經(jīng)濟技術(shù)經(jīng)濟研究, 2016(3): 95- 111.
[4] 于曉虹, 樓文高. 基于隨機森林的P2P網(wǎng)貸信用風(fēng)險評價、預(yù)警與實證研究[J]. 金融理論與實踐, 2016(2): 53- 58.
[5] Guo Y, Zhou W, Luo C, et al. Instance-based credit risk assessment for investment decision in P2P lending[J]. European Journal of Operational Research, 2015, 249(2): 417- 426.
[6] 廖理, 吉霖, 張偉強. 借貸市場能準(zhǔn)確識別學(xué)歷的價值嗎?——來自P2P平臺的經(jīng)驗證據(jù)[J]. 金融研究, 2015(3): 146- 159.
[7] 王會娟, 廖理. 中國P2P網(wǎng)絡(luò)借貸平臺信用認(rèn)證機制研究-來自"人人貸"的經(jīng)驗證據(jù)[J]. 中國工業(yè)經(jīng)濟, 2014,13(4): 136- 147.
[8] 廖理, 張偉強. P2P網(wǎng)絡(luò)借貸實證研究: 一個文獻綜述[J]. 清華大學(xué)學(xué)報(哲學(xué)社會科學(xué)版), 2017, 32(2):186- 196.
[9] 廖理, 李夢然, 王正位. 中國互聯(lián)網(wǎng)金融的地域歧視研究[J]. 數(shù)量經(jīng)濟技術(shù)經(jīng)濟研究, 2014, 31(5): 54- 70.
[10] 田民, 劉思峰, 卜志坤. 灰色關(guān)聯(lián)度算法模型的研究綜述[J]. 統(tǒng)計與決策, 2008(1): 24- 27.
[11] 虞曉芬, 傅玳. 多指標(biāo)綜合評價方法綜述[J]. 統(tǒng)計與決策, 2004(11): 119- 121.
[12] Zhu X, Ghahramani Z, Mit T J. Semi-Supervised Learning with Graphs[C]// International Joint Conference on Natural Language Processing. 2005: 2465- 2472.
[13] 劉建偉, 劉媛, 羅雄麟. 半監(jiān)督學(xué)習(xí)方法[J]. 計算機學(xué)報, 2015, 38 (8): 1592- 1617.
[14] 汪西莉, 藺洪帥. 最小代價路徑標(biāo)簽傳播算法[J]. 計算機學(xué)報, 2016, 39(7): 1407- 1418.
[15] Yang J, Yang J Y. Why can LDA be performed in PCA transformed space?[J]. Pattern Recognition, 2003, 36(2):563- 566.
[16] Zhang M L, Zhou Z H. M L-KNN : A lazy learning approach to multi-label learning[J]. Pattern Recognition, 2007, 40(7):2038- 2048.
[17] 王世旭, 呂干云. 基于標(biāo)簽傳播半監(jiān)督學(xué)習(xí)的電壓暫降源識別[J]. 電力系統(tǒng)及其自動化學(xué)報, 2013, 25(4): 34- 38.
[18] 趙卓翔, 王軼彤, 田家堂,等. 社會網(wǎng)絡(luò)中基于標(biāo)簽傳播的社區(qū)發(fā)現(xiàn)新算法[J]. 計算機研究與發(fā)展, 2011, 48(3): 8- 15.
[19] 石夢雨, 周勇, 邢艷. 基于LeaderRank的標(biāo)簽傳播社區(qū)發(fā)現(xiàn)算法[J]. 計算機應(yīng)用, 2015, 35(2): 448- 451.
[20] 石立新, 張俊星. 基于勢函數(shù)的標(biāo)簽傳播社區(qū)發(fā)現(xiàn)算法[J]. 計算機應(yīng)用, 2014, 34(3): 738- 741.
[21] 趙文濤, 趙好好, 孟令軍. 基于相關(guān)拓撲勢的社團發(fā)現(xiàn)算法[J]. 計算機應(yīng)用與軟件, 2017, 34(1): 258- 262.
[22] 蘇志同, 李楊. 改進的增量貝葉斯模型的研究[J]. 計算機應(yīng)用與軟件, 2016, 33(8):254- 259.
[23] 楊毅, 盧誠波. 一種基于極限學(xué)習(xí)機的缺失數(shù)據(jù)填充方法[J]. 計算機應(yīng)用與軟件, 2016, 33(10): 243- 246.
[24] 姚立, 張曦煌. 基于主題模型的改進隨機森林算法在文本分類中的應(yīng)用[J]. 計算機應(yīng)用與軟件, 2017, 34(8): 173- 178.
[25] 王丹丹, 祖穎, 朱平. AABC-SVM模型及其在商品評論情感分類中的應(yīng)用[J]. 計算機應(yīng)用與軟件, 2017, 34(9): 33- 37.
[26] 王興柱, 顏君彪, 曾慶懷. 基于熵重要測度權(quán)重粗糙集的阿爾法多層凝聚入侵分類[J]. 計算機應(yīng)用與軟件, 2016, 33(3): 320- 323.