于卓熙, 溫 馨, 李夢(mèng)麗
(吉林財(cái)經(jīng)大學(xué) 管理科學(xué)與信息工程學(xué)院, 長(zhǎng)春 130117)
P2P(Peer-to-Peer)網(wǎng)絡(luò)借貸是借貸雙方不經(jīng)過(guò)金融中介機(jī)構(gòu), 直接通過(guò)網(wǎng)絡(luò)平臺(tái)進(jìn)行借貸的一種互聯(lián)網(wǎng)金融模式。P2P網(wǎng)貸起源于發(fā)達(dá)國(guó)家, 良好的經(jīng)濟(jì)環(huán)境促進(jìn)P2P網(wǎng)貸運(yùn)營(yíng)模式的形成。但歐美發(fā)達(dá)國(guó)家人口基數(shù)較低, 客戶較少, 因此P2P網(wǎng)貸的發(fā)展受到限制。反之, 中國(guó)現(xiàn)在雖為發(fā)展中國(guó)家, 但巨大的人口市場(chǎng)為P2P網(wǎng)貸提供了歐美國(guó)家欠缺的成長(zhǎng)機(jī)會(huì)。P2P的壯大為“貸款難”群體帶來(lái)福音。中小型企業(yè)以及小工作坊雖然個(gè)體規(guī)模較小, 但卻占據(jù)了中國(guó)市場(chǎng)經(jīng)濟(jì)的半壁江山, 而傳統(tǒng)銀行信貸在很大程度上受貨幣政策影響, 貨幣政策比較寬松, 銀行信貸也會(huì)比較寬松; 若貨幣政策趨向緊縮, 銀行信貸也隨之趨向緊縮, 中小企業(yè)的融資難問(wèn)題將更為嚴(yán)重。P2P網(wǎng)貸的審批, 對(duì)貨幣政策和信用等級(jí)的敏感性比較弱, 多數(shù)的P2P網(wǎng)貸平臺(tái)一般具備流程簡(jiǎn)單、 快速到賬的優(yōu)點(diǎn); 通過(guò)P2P網(wǎng)貸, 社會(huì)中的閑置資本流入到制造業(yè)或消費(fèi)市場(chǎng)中, 有利于社會(huì)資源的合理配置。因此, 為促進(jìn)P2P行業(yè)成熟, 推動(dòng)社會(huì)經(jīng)濟(jì)發(fā)展, 進(jìn)行P2P網(wǎng)絡(luò)借貸研究是十分必要的。
國(guó)外對(duì)于P2P網(wǎng)貸的研究較早, 成果比較豐富。在P2P網(wǎng)貸借貸模式方面, Wang等[1]認(rèn)為一般意義上的網(wǎng)絡(luò)借貸是一種新型借貸模式; Livingston[2]認(rèn)為這種網(wǎng)絡(luò)借貸模式具有3個(gè)基本特征, 分別是貸款額度較小、 過(guò)程比較便捷和幾乎沒(méi)有擔(dān)保; 部分國(guó)外學(xué)者對(duì)于P2P網(wǎng)貸研究圍繞信用和風(fēng)險(xiǎn)進(jìn)行, Bachmann等[3]依據(jù)人口學(xué)特征, 結(jié)合類似朋友、 群組的社會(huì)特征并綜合財(cái)務(wù)情況等對(duì)P2P平臺(tái)借款人進(jìn)行分類, 研究借款人特征和借款成功與否之間的關(guān)系; Ceyhan等[4]選取Prosper平臺(tái)一段時(shí)間內(nèi)的實(shí)際交易數(shù)據(jù), 對(duì)借款利率和平臺(tái)投標(biāo)數(shù)量隨時(shí)間的變化情況進(jìn)行研究, 發(fā)現(xiàn)對(duì)于未滿足投標(biāo)數(shù)量的標(biāo), 投標(biāo)者越多, 則后續(xù)投資者會(huì)呈現(xiàn)一種明顯的“跟風(fēng)”, 即出現(xiàn)“羊群效應(yīng)”; Lin等[5]的研究表明借款者的信用與貸款利率、 壞賬率呈反向關(guān)系; Pokornám等[6]的實(shí)證結(jié)論表明, 較高的盈利能力、 流動(dòng)性和資產(chǎn)規(guī)模意味著違約風(fēng)險(xiǎn)較低, 而高負(fù)債和高杠桿意味著違約風(fēng)險(xiǎn)較高。收益率作為影響借貸人和投資者選擇平臺(tái)的重要因素受到很多學(xué)者的關(guān)注, Greiner等[7]以借款人的信用狀況, Gonzalez等[8]選擇借款人的圖片信息, 探索P2P網(wǎng)貸收益率的影響因素。
雖然國(guó)內(nèi)P2P網(wǎng)貸起步較晚, 但關(guān)于P2P網(wǎng)貸的風(fēng)險(xiǎn)及監(jiān)管方面的理論研究較多。吳曉光等[9]從用戶識(shí)別、 資金管理以及信用評(píng)級(jí)等方面為P2P網(wǎng)貸的完善提出了建議; 黃震等[10]在研究中指出, 我國(guó)應(yīng)參照英國(guó), 構(gòu)建P2P網(wǎng)貸行業(yè)自律和與法律結(jié)合的監(jiān)管體系; 沈良輝等[11]通過(guò)對(duì)國(guó)外P2P網(wǎng)貸信用風(fēng)險(xiǎn)防控經(jīng)驗(yàn)研究, 結(jié)合我國(guó)實(shí)際, 從政策、 風(fēng)險(xiǎn)控制機(jī)制以及征信系統(tǒng)幾方面提出意見(jiàn); 潘錫泉[12]在研究中較為全面地指出, 存在四大風(fēng)險(xiǎn)阻礙我國(guó)P2P借貸行業(yè)發(fā)展, 分別是信用風(fēng)險(xiǎn)、 沒(méi)有保障的信息技術(shù)風(fēng)險(xiǎn)、 不健全的政策法規(guī)風(fēng)險(xiǎn)以及包含法律道德的操作風(fēng)險(xiǎn), 并針對(duì)四大風(fēng)險(xiǎn)提出建議和對(duì)策以推進(jìn)P2P網(wǎng)貸健康發(fā)展; 楊立等[13]以信息經(jīng)濟(jì)學(xué)和博弈論為基礎(chǔ), 建立信息不對(duì)稱的理論模型, 從事前、 事中、 事后3個(gè)環(huán)節(jié)分析P2P借貸信用風(fēng)險(xiǎn)成因, 討論社交網(wǎng)絡(luò)緩解信用風(fēng)險(xiǎn)的機(jī)制及其作用條件。實(shí)證分析方面大多集中于網(wǎng)貸平臺(tái)信用研究, 曾江洪等[14]利用拍拍貸數(shù)據(jù), 研究P2P網(wǎng)貸市場(chǎng)的“羊群效應(yīng)”; 肖曼君等[15]利用多個(gè)P2P網(wǎng)貸平臺(tái)的數(shù)據(jù), 通過(guò)排序選擇模型進(jìn)行平臺(tái)信用影響因素研究; 唐藝軍等[16]以“陸金所”平臺(tái)用戶為例, 對(duì)網(wǎng)貸信用風(fēng)險(xiǎn)進(jìn)行實(shí)證研究; 王立勇等[17]采用2層次CRITIC-灰色關(guān)聯(lián)模型構(gòu)建風(fēng)險(xiǎn)評(píng)價(jià)體系, 運(yùn)用Var方法測(cè)算風(fēng)險(xiǎn)大小, 發(fā)現(xiàn)2014年前3個(gè)季度平臺(tái)整體風(fēng)險(xiǎn)較高, 第4季度在市場(chǎng)風(fēng)險(xiǎn)下降的作用下信用風(fēng)險(xiǎn)呈下降趨勢(shì)。邵蔚[18]對(duì)P2P平臺(tái)運(yùn)營(yíng)模式的國(guó)內(nèi)外研究進(jìn)行梳理和闡述, 利用決策樹(shù)模型對(duì)平臺(tái)進(jìn)行是否“跑路”做出預(yù)測(cè), 對(duì)信用風(fēng)險(xiǎn)做量化評(píng)估, 發(fā)現(xiàn)決策樹(shù)預(yù)測(cè)方法準(zhǔn)確度可達(dá)77.08%, 為相關(guān)投資者提供決策依據(jù); 蔣翠清等[19]結(jié)合P2P平臺(tái)信息特點(diǎn), 提出一種融入軟信息的網(wǎng)絡(luò)借款違約預(yù)測(cè)方法; 梁寒冰等[20]采用熵值法-CRITIC雙重客觀賦權(quán)法確定指標(biāo)權(quán)重, 通過(guò)GRA(Grey Relation Analysis)的改進(jìn)方法綜合評(píng)價(jià)P2P網(wǎng)貸平臺(tái)信用風(fēng)險(xiǎn)。
P2P網(wǎng)貸于2007年登陸中國(guó), 近幾年才發(fā)展壯大起來(lái), 按照企業(yè)生命周期, 應(yīng)處于上升階段。但據(jù)網(wǎng)貸之家2015年的數(shù)據(jù)顯示, 當(dāng)年問(wèn)題平臺(tái)的數(shù)量持續(xù)增加, 甚至出現(xiàn)當(dāng)月新增的問(wèn)題平臺(tái)數(shù)量超過(guò)新增的平臺(tái)數(shù)量。P2P網(wǎng)貸是新興行業(yè), 還沒(méi)有進(jìn)入衰退期, 因此P2P網(wǎng)貸平臺(tái)大規(guī)模的“死亡”現(xiàn)象是值得關(guān)注的問(wèn)題。而國(guó)內(nèi)外對(duì)P2P行業(yè)的研究大多集中于借貸模式、 風(fēng)險(xiǎn)與監(jiān)管的理論研究以及信用風(fēng)險(xiǎn)實(shí)證研究等方面, 關(guān)于P2P網(wǎng)貸平臺(tái)“生存”或“死亡”的影響因素深度挖掘的研究成果較少。
筆者選取網(wǎng)貸之家公布的2014年度 P2P網(wǎng)貸平臺(tái)百?gòu)?qiáng)名單中的網(wǎng)貸平臺(tái)作為研究樣本, 在數(shù)據(jù)一致性、 完整性及可獲性條件下, 盡可能多地選擇平臺(tái)的屬性變量。針對(duì)實(shí)際數(shù)據(jù)集, 利用隨機(jī)森林分類和裝袋法的思想, 對(duì)P2P網(wǎng)貸平臺(tái)的多個(gè)變量進(jìn)行初步分類, 按照重要性原則, 提取導(dǎo)致P2P網(wǎng)貸平臺(tái)成為問(wèn)題平臺(tái)的重要變量。運(yùn)用生存分析對(duì)影響P2P平臺(tái)“死亡”的重要因素做進(jìn)一步的量化研究, 通過(guò)擬合加速死亡模型和Cox比例風(fēng)險(xiǎn)模型, 挖掘影響平臺(tái)“生存”或“死亡”的關(guān)鍵因素, 并量化該因素對(duì)P2P“生存”或“死亡”的影響程度。
決策樹(shù)是最基本的變量分類方法, 決策樹(shù)的核心思想是在一個(gè)數(shù)據(jù)集中找到一個(gè)最優(yōu)特征, 然后從這個(gè)特征的選值中找一個(gè)最優(yōu)候選值, 根據(jù)這個(gè)最優(yōu)候選值將數(shù)據(jù)集分為兩個(gè)子數(shù)據(jù)集, 然后遞歸上述操作, 直到滿足指定條件為止?;跊Q策樹(shù)的分類方法簡(jiǎn)單且易于理解, 常見(jiàn)的有裝袋法、 隨機(jī)森林和提升法。筆者使用裝袋法和隨機(jī)森林法對(duì)特征變量進(jìn)行分類和提取。
(1)
裝袋法算法具體步驟如下:
1) 假設(shè)k為樣本集的數(shù)目;
2) 生成k個(gè)大小為n的數(shù)據(jù)集, 每個(gè)自助樣本集都和原數(shù)據(jù)集一樣大;
3) 在k個(gè)樣本集上訓(xùn)練分類器;
4) 投票決定分類結(jié)果。
由于傳統(tǒng)模型具有精度不高, 易出現(xiàn)過(guò)擬合問(wèn)題, 需通過(guò)集成方法聚集多個(gè)模型提高精度。趙偉衛(wèi)等[21]利用互信息快速排除一部分無(wú)關(guān)變量, 降低樣本空間的維數(shù); 利用隨機(jī)森林精選剩余變量, 實(shí)驗(yàn)結(jié)果表明, 該算法具有更高的分類精度和泛化能力。隨機(jī)森林是集成決策樹(shù)的一種方法, 最早由Breiman[22]提出。首先, 利用bootstrap從原始樣本集中進(jìn)行重抽樣抽取多個(gè)樣本組成新的訓(xùn)練集, 對(duì)每個(gè)訓(xùn)練集進(jìn)行決策樹(shù)建模, 得到多個(gè)決策樹(shù), 最后通過(guò)組合與投票得到最終分類結(jié)果。
隨機(jī)森林隨機(jī)選擇幾個(gè)而不是全部的變量作為拆分變量, 每棵樹(shù)都充分生長(zhǎng), 根據(jù)一定規(guī)則得到合適的決策樹(shù)數(shù)目, 通過(guò)變量重要性對(duì)特征變量進(jìn)行提取。隨機(jī)森林算法步驟如下:
1) 利用bootstrap從原始樣本集中抽取容量相同的k個(gè)樣本;
2) 對(duì)抽取出的k個(gè)樣本, 建立對(duì)應(yīng)k個(gè)決策樹(shù), 得到k個(gè)分類結(jié)果;
3) 根據(jù)k個(gè)分類結(jié)果進(jìn)行投票決定最終結(jié)果;
4) 計(jì)算不同決策樹(shù)數(shù)量的袋外數(shù)據(jù)(OOB: Out of Band Data)誤分率, 以O(shè)OB誤分率較小為優(yōu), 確定決策樹(shù)數(shù)目;
5) 依據(jù)變量重要性, 提取比較重要的變量。
隨機(jī)森林隨機(jī)選擇少數(shù)自變量參與變量拆分, 使弱勢(shì)變量可以參與建模, 在處理觀測(cè)值少而自變量較多數(shù)據(jù)中顯示出一定優(yōu)勢(shì)。
生存分析是一門研究生存現(xiàn)象和響應(yīng)時(shí)間數(shù)據(jù)及其統(tǒng)計(jì)規(guī)律的學(xué)科。該方法被廣泛應(yīng)用于醫(yī)學(xué)領(lǐng)域。在醫(yī)學(xué)研究中, 常常用追蹤的方式研究事物發(fā)展的規(guī)律。如, 了解某藥物的療效、 手術(shù)的存活時(shí)間及某醫(yī)療儀器設(shè)備使用壽命等。對(duì)生存資料的分析稱為生存分析。生存資料是描述壽命或一個(gè)發(fā)生時(shí)間的數(shù)據(jù), 更詳細(xì)地說(shuō), 一個(gè)人的生存時(shí)間的長(zhǎng)短與許多因素有聯(lián)系, 研究因素與生存時(shí)間有無(wú)聯(lián)系及聯(lián)系程度的大小稱為生存分析。實(shí)際上, 生存的意義很廣泛, 它可指人或動(dòng)物的存活(相對(duì)于死亡), 可指患者的病情正處于緩解狀態(tài)(相對(duì)于再次復(fù)發(fā)或惡化), 還可指某個(gè)系統(tǒng)或產(chǎn)品正常工作(相對(duì)于失效或故障), 甚至可指客戶的流失與否、 企業(yè)的持續(xù)發(fā)展(相對(duì)于破產(chǎn)倒閉)等。因此, 該方法已經(jīng)被延伸到很多領(lǐng)域, Lane等[23]運(yùn)用生存分析中的Cox比例風(fēng)險(xiǎn)模型對(duì)銀行經(jīng)營(yíng)困境進(jìn)行研究; 賀筱君等[24]采用生存模型較好地預(yù)測(cè)了臺(tái)灣隔日加權(quán)股價(jià)指數(shù)期貨漲跌的持續(xù)時(shí)間; 鮑新中等[25]將生存分析應(yīng)用于企業(yè)財(cái)務(wù)困境的研究; 張紅等[26]使用生存分析方法建立Weibull模型和Cox模型進(jìn)行實(shí)證分析, 研究二手房議價(jià)時(shí)的影響因素。筆者將生存分析應(yīng)用到對(duì)P2P網(wǎng)貸平臺(tái)的相關(guān)研究中, 探究影響P2P網(wǎng)貸平臺(tái)“生存”或“死亡”的關(guān)鍵因素, 并根據(jù)分析結(jié)果提出有意義的建議。
生存時(shí)間是一個(gè)隨機(jī)變量, 取值永遠(yuǎn)不會(huì)為負(fù)值。假設(shè)每個(gè)研究樣本的生存時(shí)間可被精確預(yù)測(cè), 表示為ti, 且xi=(xi1,…,xip)′表示第i個(gè)病人與其生存時(shí)間ti相關(guān)的解釋變量。借鑒傳統(tǒng)回歸模型的思想, 將ti進(jìn)行對(duì)數(shù)處理, 構(gòu)造模型
logti=xiβ+ei
(2)
其中ei為殘差項(xiàng), 也可被認(rèn)為沒(méi)有變量影響的生存時(shí)間, 可記為logti0。因此該模型可以轉(zhuǎn)化為
logti=xiβ+logti0
(3)
則
ti=ti0exp(xiβ)
(4)
通過(guò)式(4)可知, 沒(méi)有變量影響, 則生存時(shí)間為ti0, 加上相關(guān)變量的影響, 生存時(shí)間被“加速”成為ti0exp(xiβ)。
由英國(guó)倫敦大學(xué)的著名統(tǒng)計(jì)學(xué)家Cox提出的Cox模型不僅可應(yīng)用于對(duì)個(gè)體生存時(shí)間的多個(gè)影響因素分析和比較研究中, 還可用于對(duì)個(gè)體做生存(或死亡的)風(fēng)險(xiǎn)預(yù)測(cè)。筆者使用Cox比例風(fēng)險(xiǎn)模型, 通過(guò)最大化似然函數(shù)的方法進(jìn)行模型擬合, 其形式為
h(t)=h0(t)exp{βx}
(5)
其中h0(t)表示基準(zhǔn)風(fēng)險(xiǎn)函數(shù), 即沒(méi)有其余變量影響的死亡事件發(fā)生的函數(shù)。式(5)表示, 在變量x的影響下, 死亡事件基準(zhǔn)函數(shù)被等比例擴(kuò)大了exp{βx}倍。
P2P借貸平臺(tái)眾多, 背景各異, 一些快速崛起的平臺(tái)可能在短時(shí)間陷入經(jīng)營(yíng)困境。為此, 筆者選用實(shí)力較強(qiáng)的P2P借貸平臺(tái)作為研究對(duì)象, 以網(wǎng)貸之家2014年發(fā)布的100強(qiáng)名單中的P2P平臺(tái)為研究數(shù)據(jù)集。由于部分平臺(tái)數(shù)據(jù)嚴(yán)重缺失, 最終選取100強(qiáng)平臺(tái)中的90家平臺(tái)(其中74家正常平臺(tái), 16家死亡平臺(tái))作為研究對(duì)象, 探究影響P2P生存的關(guān)鍵因素。造成P2P借貸平臺(tái)經(jīng)營(yíng)困境的原因錯(cuò)綜復(fù)雜, 筆者在依托前人研究成果的基礎(chǔ)上, 結(jié)合文獻(xiàn)查閱, 確定13個(gè)變量, 分別為平臺(tái)背景(平臺(tái)類別)、 平臺(tái)注冊(cè)資金(以實(shí)際認(rèn)繳資金為準(zhǔn))、 用戶資金銀行存管情況、 是否支持自動(dòng)投標(biāo)、 是否支持債權(quán)轉(zhuǎn)讓、 是否有保障模式、 風(fēng)險(xiǎn)準(zhǔn)備金銀行存管情況、 借貸平臺(tái)網(wǎng)址等級(jí)、 年平均收益率、 平臺(tái)所在地城市等級(jí)、 上線時(shí)間、 生存狀態(tài)、 生存時(shí)間。進(jìn)行生存分析的時(shí)間從2015年1月開(kāi)始到2017年6月結(jié)束, 90家平臺(tái)在這個(gè)期間的生存狀態(tài)是74家平臺(tái)正常運(yùn)行(正常平臺(tái)), 16家平臺(tái)倒閉或“跑路”(問(wèn)題平臺(tái))。
為保證后續(xù)實(shí)驗(yàn)的順利進(jìn)行, 筆者對(duì)上述P2P網(wǎng)貸平臺(tái)變量進(jìn)行命名, 并對(duì)生存狀態(tài)、 平臺(tái)類別、 注冊(cè)資金(以實(shí)際認(rèn)繳為主)、 用戶資金銀行存款、 自動(dòng)投標(biāo)、 債權(quán)轉(zhuǎn)讓、 保障模式、 風(fēng)險(xiǎn)準(zhǔn)備金存管、 網(wǎng)址等級(jí)、 平均收益、 所在地區(qū)和上線月數(shù)等指標(biāo)進(jìn)行說(shuō)明, 其中生存狀態(tài)為后文進(jìn)行生存分析做準(zhǔn)備, 在分類中不參與實(shí)驗(yàn)。具體變量說(shuō)明如表1所示。
表1 變量說(shuō)明
上述變量中存在字符型變量, 為保證實(shí)驗(yàn)順利進(jìn)行, 筆者依據(jù)問(wèn)題平臺(tái)(停業(yè)、 壞賬和跑路)和正常平臺(tái)分類方式, 對(duì)數(shù)據(jù)集進(jìn)行處理, 結(jié)果如表2所示。
表2 變量處理
筆者實(shí)驗(yàn)的數(shù)據(jù)主要來(lái)自于網(wǎng)貸之家、 網(wǎng)貸天眼、 我貸網(wǎng)和零壹財(cái)經(jīng)等網(wǎng)站。經(jīng)過(guò)處理后的部分?jǐn)?shù)據(jù)如表3所示。
表3 P2P分類研究部分?jǐn)?shù)據(jù)
(續(xù)表3)
平臺(tái)名平臺(tái)類別注冊(cè)資金(以實(shí)際認(rèn)繳為主)用戶資金銀行存款自動(dòng)投標(biāo)債權(quán)轉(zhuǎn)讓保障模式風(fēng)險(xiǎn)準(zhǔn)備金存管網(wǎng)址等級(jí)平均收益所在地區(qū)上線月數(shù)生存狀態(tài)易網(wǎng)貸25000101010.26544461…………………………………銀豆網(wǎng)157001010010.14591270銀湖網(wǎng)4200001110010.12491230銀客貸4100001010110.12721300永利寶310001020010.13571310有利網(wǎng)350000111010.10121400眾金在線250000120010.24903250眾信金融110001010010.11741240紫楓信貸25000110020.22661融易貸210000001010.084190
首先, 采用裝袋法, 對(duì)P2P網(wǎng)貸平臺(tái)進(jìn)行分類研究, 裝袋法會(huì)對(duì)所有樣本集進(jìn)行訓(xùn)練。在實(shí)驗(yàn)過(guò)程中, 采用自帶的十折交叉驗(yàn)證運(yùn)行裝袋法, 對(duì)樣本數(shù)據(jù)集進(jìn)行分類, 裝袋法的分類結(jié)果如表4所示。
表4 裝袋法分類結(jié)果
如表4所示, 裝袋法的誤判率在可接受范圍。分類中共有4種變量重要性度量方法, 筆者采用Gini指數(shù)法。Gini指數(shù)表示節(jié)點(diǎn)的純度, Gini指數(shù)越大, 表示該拆分節(jié)點(diǎn)純度越低。Gini值平均降低量表示所有樹(shù)的變量分割節(jié)點(diǎn)平均減小的不純度, Gini指數(shù)變化的均值作為變量的重要程度度量。變量重要性度量
結(jié)果如表5所示。
表5 裝袋法變量重要性度量
根據(jù)表5可知, 按照生存狀態(tài)使用裝袋法對(duì)P2P平臺(tái)數(shù)據(jù)集進(jìn)行分類, 影響分類結(jié)果的重要變量依次是Age、 Rate、 Capita、 Userfunds和Kind。
隨機(jī)森林和裝袋法類似, 也是從原始數(shù)據(jù)中抽取一定數(shù)量的自助法樣本, 區(qū)別在于, 使用隨機(jī)森林分類時(shí), 所選擇的競(jìng)爭(zhēng)變量是隨機(jī)的幾個(gè), 不是全部。為更全面地進(jìn)行探索研究, 繼續(xù)以隨機(jī)森林方法進(jìn)行P2P正常平臺(tái)和問(wèn)題平臺(tái)的分類。
4.2.1 確定決策樹(shù)數(shù)目
隨機(jī)森林分類過(guò)程中, 決策樹(shù)數(shù)目的選取在一定程度上影響著精度。隨著決策樹(shù)和變量的增加, 誤差(MSE: Mean Squared Error)會(huì)降低。筆者應(yīng)用R軟件中程序包randomForest 中的randomForest函數(shù)生成決策樹(shù), 該程序默認(rèn)決策樹(shù)數(shù)目為500。經(jīng)實(shí)驗(yàn), 誤差隨決策樹(shù)數(shù)目變化趨勢(shì)如圖1所示。
從圖1可以看出, 隨著樹(shù)的數(shù)目的增加, 誤差逐漸趨于穩(wěn)定, 決策樹(shù)數(shù)目取值200就可以滿足實(shí)驗(yàn)要求。
4.2.2 尋求節(jié)點(diǎn)最優(yōu)競(jìng)爭(zhēng)變量個(gè)數(shù)
隨機(jī)森林分類過(guò)程中, 對(duì)于每個(gè)節(jié)點(diǎn), 大約只有1/3的變量被隨機(jī)選出。為此, 筆者根據(jù)OOB誤差, 計(jì)算最優(yōu)競(jìng)爭(zhēng)變量個(gè)數(shù), 篩選出進(jìn)行后續(xù)生存分析的變量, 結(jié)果如圖2所示。橫坐標(biāo)為競(jìng)爭(zhēng)變量個(gè)數(shù), 縱坐標(biāo)為OOB誤差, 對(duì)于該數(shù)據(jù)集, 當(dāng)節(jié)點(diǎn)的競(jìng)爭(zhēng)變量數(shù)目從4個(gè)增加到6個(gè)時(shí), 誤差顯著增加; 變量從4個(gè)減少到3個(gè)時(shí), 誤差也增加。因此, 最終確定最優(yōu)變量數(shù)目為4。
4.2.3 實(shí)驗(yàn)結(jié)果
隨機(jī)森林分類中, 為進(jìn)行隨機(jī)分類結(jié)果檢驗(yàn), 筆者在原有數(shù)據(jù)集的基礎(chǔ)上, 選擇不同大小的數(shù)據(jù)集作為驗(yàn)證集。值得注意的是, 問(wèn)題平臺(tái)類別都是民營(yíng)系, 這與市場(chǎng)中民營(yíng)系平臺(tái)較多是分不開(kāi)的。因此, 如果只是隨機(jī)選擇平臺(tái), 可能導(dǎo)致實(shí)驗(yàn)結(jié)果中平臺(tái)背景作為影響正常平臺(tái)和問(wèn)題平臺(tái)的特征較為突出。針對(duì)這個(gè)問(wèn)題, 筆者選擇兩種數(shù)據(jù)集: 一種是有選擇性地保留正常平臺(tái)中的民營(yíng)系平臺(tái)的數(shù)據(jù)集; 另一種是驗(yàn)證全部數(shù)據(jù)的分類結(jié)果。應(yīng)用R軟件進(jìn)行實(shí)驗(yàn), 兩種數(shù)據(jù)集的分類結(jié)果如表6所示。
表6 隨機(jī)森林不同數(shù)據(jù)集分類結(jié)果
同理, 依據(jù)Gini系數(shù)進(jìn)行變量重要性排名, 兩種數(shù)據(jù)集變量重要性度量結(jié)果如表7所示。
表7 隨機(jī)森林不同數(shù)據(jù)集變量重要性程度度量
從表7可見(jiàn), 全數(shù)據(jù)實(shí)驗(yàn)結(jié)果表明, 影響P2P正常平臺(tái)和問(wèn)題平臺(tái)分類結(jié)果的變量按重要性程度依次為Age、 Rate、 Capita、 Userfunds、 Kind、 Creright 和Place, 其余變量重要性可忽略不計(jì)。選擇部分?jǐn)?shù)據(jù)集進(jìn)行P2P正常平臺(tái)和問(wèn)題平臺(tái)分類, 變量重要性程度排名依次為Age、 Rate、 Capita、 Userfunds、 Creright、 Place和 Website。
綜合上述兩種變量分類方法, 可確定影響P2P網(wǎng)貸平臺(tái)成為問(wèn)題平臺(tái)最重要的變量為Age、 Rate、 Capita和 Userfunds。因此, 對(duì)網(wǎng)貸平臺(tái)投資者和監(jiān)管者而言, 在做出決策或制定相關(guān)政策時(shí), 需從Age、 Rate、 Capita和 Userfunds4個(gè)方面進(jìn)行著重考慮。
生存分析中最基本的函數(shù)是樣本在事件發(fā)生時(shí)的生存率。估計(jì)生存率的方法主要包括壽命表法和Kaplan-Meier法。如果樣本數(shù)量較大, 可使用壽命表法; 如果樣本數(shù)量較小, 則選擇Kaplan-Meier法比較適宜。Kaplan-Meier法又被稱為極限估計(jì)、 PL(Product-Limit)法或最大似然估計(jì)。筆者樣本為網(wǎng)貸之家2014年P(guān)2P網(wǎng)貸平臺(tái)的百?gòu)?qiáng)平臺(tái), 樣本數(shù)量較小, 適合用Kaplan-Meier法估計(jì)生存率。
為量化上述Age、 Rate、 Capita和Userfunds 4個(gè)因素對(duì)P2P網(wǎng)貸生存或死亡的影響, 首先應(yīng)用生存分析中常用的加速死亡模型進(jìn)行擬合。假設(shè)殘差項(xiàng)服從Weibull分布, 擬合結(jié)果如表8所示。
表8 加速死亡模型擬合結(jié)果(Weibull分布)
極差: 0.785; 韋布分布; 對(duì)數(shù)似然(模型): -75.8; 對(duì)數(shù)似然(只有常數(shù)項(xiàng)): -95.8; 對(duì)數(shù)似然(模型): -75.8; 對(duì)數(shù)似然(只有常數(shù)項(xiàng)): -95.8; 牛頓-拉斐遜迭代次數(shù): 20。
根據(jù)實(shí)驗(yàn)結(jié)果, 模型擬合的p值為3.2×10-5, 模型整體顯著, 理論上可對(duì)生存狀態(tài)進(jìn)行解釋。從表8可見(jiàn), 在顯著性水平為10%的條件下, Capita、 Userfunds、 Rate和Age 4個(gè)變量都對(duì)P2P平臺(tái)的生存有顯著影響。加速死亡模型擬合結(jié)果表明, 變量Capita和Userfunds系數(shù)為正, 說(shuō)明平臺(tái)Capita和Userfunds這兩個(gè)變量值越大, 生存時(shí)間越長(zhǎng); 反之, 變量Rate和Age系數(shù)為負(fù), 說(shuō)明Rate和Age這兩個(gè)變量值越大, 平臺(tái)生存時(shí)間越短。加速死亡模型將對(duì)數(shù)變換后的生存時(shí)間和普通線性模型聯(lián)系起來(lái), 直觀且易被接受, 但缺點(diǎn)是模型的假設(shè)性太強(qiáng), 需要對(duì)殘差分布作嚴(yán)格假設(shè)。因此, 為考察模型的穩(wěn)定性, 假設(shè)殘差項(xiàng)服從指數(shù)分布, 再次對(duì)加速死亡模型進(jìn)行擬合, 擬合結(jié)果如表9所示。
表9 加速死亡模型擬合結(jié)果(指數(shù)分布)
指數(shù)分布; 對(duì)數(shù)似然(模型): -76.3; 對(duì)數(shù)似然(只有常數(shù)項(xiàng)): -95.8; 自由度為4的卡方值: 39.04;P值: 6.8×10-8; 牛頓-拉斐遜迭代次數(shù): 19。
根據(jù)表9可知, P2P網(wǎng)貸平臺(tái)生存分析的數(shù)據(jù)對(duì)于不同的誤差分布假設(shè)并不敏感, 因此利用加速死亡模型得到的結(jié)論比較可靠。
為獲得更全面、 可靠的結(jié)論。筆者建立Cox回歸模型對(duì)各個(gè)因素導(dǎo)致P2P網(wǎng)貸生存或死亡的影響程度進(jìn)行量化研究。但在模型構(gòu)建前, 需對(duì)4個(gè)變量分別進(jìn)行Log Rank (Mantel-Cox)檢驗(yàn), 進(jìn)行再次篩選, 判斷每個(gè)變量是否有必要納入到Cox比例風(fēng)險(xiǎn)回歸模型中, 筆者使用SPSS(Statistical Product and Service Solutions)軟件進(jìn)行檢驗(yàn), 檢驗(yàn)結(jié)果如表10所示。
表10 變量Log Rank (Mantel-Cox)檢驗(yàn)結(jié)果
從表10可見(jiàn), Capita、 Userfunds、 Rate和Age 4個(gè)指標(biāo)的p值均小于0.01。因此, 在顯著性水平為1%的條件下, 4個(gè)變量均可以被納入到Cox比例風(fēng)險(xiǎn)回歸模型中。在此基礎(chǔ)上, 應(yīng)用SPSS軟件對(duì)影響P2P網(wǎng)貸平臺(tái)生存的4個(gè)主要因素構(gòu)建Cox比例風(fēng)險(xiǎn)回歸模型。在選擇Cox模型變量的過(guò)程中, 采用逐步向前回歸模型, 并適當(dāng)放寬p值。當(dāng)變量進(jìn)入方程后, 若p<0.1, 則允許該變量進(jìn)入最終方程; 相反, 若p>0.1, 則剔除該變量。
首先, 對(duì)全變量模型進(jìn)行檢驗(yàn), 以判斷方程中是否存在總體回歸系數(shù)不為0的變量, 實(shí)驗(yàn)結(jié)果如表11所示。
表11 模型系數(shù)的綜合測(cè)試
方法: 向前逐步回歸(似然比)。
從表11可以得出, 模型整體檢驗(yàn)的卡方值為19.591,p<0.01。因此, 在顯著性水平為1%的條件下, 模型總體檢驗(yàn)具有顯著意義, 即至少存在1個(gè)自變量的總體回歸系數(shù)不為0。據(jù)此建立相關(guān)方程, 經(jīng)過(guò)逐步回歸, 最終確定方程中變量如表12所示。
表12 最終確定方程中的變量
從表12可見(jiàn), 結(jié)果顯示篩選變量得到的最后模型只包括Userfunds變量,p=0.033, 具有顯著意義。說(shuō)明用戶資金是否進(jìn)行銀行存管為影響P2P網(wǎng)貸“生存”或“死亡”的獨(dú)立因素; exp(β)=0.012, 表明P2P監(jiān)管平臺(tái)用戶資金是否進(jìn)行銀行存管對(duì)P2P網(wǎng)貸“生存”或“死亡”影響較大, 該指標(biāo)統(tǒng)計(jì)意義為, P2P網(wǎng)貸平臺(tái)將用戶資金進(jìn)行銀行存管, 可將相對(duì)死亡概率降低至1.2%。
綜上所述, 影響P2P網(wǎng)貸平臺(tái)“生存”或“死亡”的最關(guān)鍵因素是用戶資金是否進(jìn)行銀行存管, 相關(guān)函數(shù)分別如圖3和圖4所示。
圖3 累積生存函數(shù) 圖4 累積危險(xiǎn)函數(shù) Fig.3 Cumulative survival function Fig.4 Cumulative hazard function
從圖3和圖4可知, 用戶資金是否銀行存管的P2P網(wǎng)貸平臺(tái)生存函數(shù)和危險(xiǎn)函數(shù)的對(duì)比效果非常明顯, 用戶資金進(jìn)行銀行存管的P2P網(wǎng)貸平臺(tái)生存函數(shù)明顯高于不存管的P2P網(wǎng)貸平臺(tái), 用戶資金不進(jìn)行銀行存管的P2P平臺(tái)的累積危險(xiǎn)函數(shù)明顯高于進(jìn)行資金存管的P2P網(wǎng)貸平臺(tái)。
筆者運(yùn)用裝袋法和隨機(jī)森林對(duì)P2P網(wǎng)貸平臺(tái)的變量進(jìn)行初步篩選, 提取對(duì)其生存狀影響較為重要的特征變量。在此基礎(chǔ)上, 通過(guò)生存分析中的加速死亡模型和Cox比例風(fēng)險(xiǎn)回歸模型對(duì)影響P2P平臺(tái)經(jīng)營(yíng)狀況的重要變量做進(jìn)一步挖掘研究。
雖然在最初變量提取時(shí), 平臺(tái)的注冊(cè)資本(以實(shí)際認(rèn)繳為準(zhǔn))、 平臺(tái)收益率、 上線時(shí)間和用戶資金是否進(jìn)行銀行存管這4個(gè)變量均通過(guò)了Log Rank (Mantel-Cox)檢驗(yàn), 但通過(guò)擬合Cox比例風(fēng)險(xiǎn)回歸模型向前逐步回歸, 最終保留在模型里的變量只有用戶資金是否進(jìn)行銀行存管一個(gè)獨(dú)立變量, 從累積生存函數(shù)和累積危險(xiǎn)函數(shù)可見(jiàn), 該指標(biāo)的取值對(duì)于P2P網(wǎng)貸平臺(tái)“生存”和“死亡”有重要影響。從量化程度看, 用戶資金進(jìn)行銀行存管可將死亡率降到1.2%。
結(jié)合實(shí)際分析, P2P網(wǎng)貸平臺(tái)是否將用戶資金進(jìn)行銀行存管在一定程度上影響著用戶資金的安全。用戶資金在銀行存管, 可有效將P2P網(wǎng)貸平臺(tái)與用戶資金進(jìn)行隔離, 也就是實(shí)現(xiàn)對(duì)P2P網(wǎng)貸平臺(tái)的信息流和資金流的隔離, 即實(shí)現(xiàn)錢和交易的隔離, P2P網(wǎng)貸平臺(tái)負(fù)責(zé)交易, 銀行則負(fù)責(zé)相關(guān)交易中錢的流動(dòng), 避免有不法平臺(tái)違規(guī)建立“資金池”。根據(jù)該結(jié)論的啟示, P2P網(wǎng)貸用戶在進(jìn)行平臺(tái)選擇時(shí)不能只關(guān)注投資收益率, 即只關(guān)注自己可能獲得的收益, 還應(yīng)該關(guān)注平臺(tái)的資金存管機(jī)制。這個(gè)指標(biāo)決定著投資者投入平臺(tái)資金的安全程度, 也為監(jiān)管者提供依據(jù), 應(yīng)該加快建設(shè)P2P網(wǎng)貸平臺(tái)資金的管理約束制度。