李妍 中國人民大學財政金融學院
近十年來,隨著移動互聯(lián)網(wǎng)和金融科技的迅猛發(fā)展,傳統(tǒng)的個人信用體系已經(jīng)不能滿足市場需求,由于我國的個人信用體系建設起步較晚,直接影響了我國金融市場的交易秩序。為了夯實金融行業(yè)發(fā)展的基礎推動我國市場經(jīng)濟健康發(fā)展,以大數(shù)據(jù)為基礎對個人信用體系進行拓寬和優(yōu)化對我國征信行業(yè)的發(fā)展有著重要的意義。
變量選擇和分類效果方面都具有明顯的優(yōu)勢。此外,將整合模型應用于城市和農(nóng)村兩個數(shù)據(jù)集的個人信用評分中發(fā)現(xiàn),整合模型在實際應用中也有很好的表現(xiàn)。
已有研究針對基于大數(shù)據(jù)的個人信用體系提出了諸多創(chuàng)造性的觀點,更多的研究聚焦于深入探討如何應用大數(shù)據(jù)建立個人信用評估模型。
大數(shù)據(jù)不同于傳統(tǒng)數(shù)據(jù)主要體現(xiàn)在三個方面:一是體量大,體現(xiàn)在規(guī)模和傳輸量;二是流動速度大,數(shù)據(jù)實時或接近實時獲取和傳輸;三是種類多,數(shù)據(jù)結構形式多樣。
構建個人信用體系的大數(shù)據(jù)來源有:一是個人產(chǎn)生的數(shù)據(jù),如社交網(wǎng)絡信息、產(chǎn)品評價、搜索記錄、購物喜好等;二是商業(yè)過程數(shù)據(jù),如物流數(shù)據(jù)、支付數(shù)據(jù)等,也有數(shù)據(jù)公司采集傳統(tǒng)商業(yè)數(shù)據(jù),如大型百貨公司客流量、大型游樂場客流量等數(shù)據(jù);三是來自GPS定位、車輛軌跡和個人穿戴設備的數(shù)據(jù)(廖理,2019)。
大數(shù)據(jù)的發(fā)展為傳統(tǒng)信用評級機構提供了更為先進的數(shù)據(jù)采集和數(shù)據(jù)分析手段,有效地克服了傳統(tǒng)征信單值測度的局限性(Lin, 2015) , 不僅大幅度提高了評估結果的準確性, 還將非傳統(tǒng)信用指標納入了評級體系, 從而推動了普惠金融實踐 (Packin&Lev Aretz, 2016) 。
國內研究者主要集中于研究大數(shù)據(jù)個人信用體系的構建:蔡金鑫等(2018)等過改進傳統(tǒng)的"5C信用評估法",構建基于大數(shù)據(jù)的個人信用評估指標體系,為大數(shù)據(jù)征信的發(fā)展提供參考;王達山(2016)通過分析互聯(lián)網(wǎng)金融衍生的個人信用數(shù)據(jù),綜合傳統(tǒng)信用評價數(shù)據(jù),從個人身份、信用歷史、經(jīng)濟能力和社會信用屬性四個信用維度,提出了運用個人信用能力模型來對個人信用能力進行評價;方匡南等(2018)提出了基于多源數(shù)據(jù)融合的個人信用模型,可以同時對多個數(shù)據(jù)集進行建模和變量選擇,同時考慮了數(shù)據(jù)集間的相似性和異質性。所提出的整合模型在
袁章帥等(2019)將IGSO-BP協(xié)同集成學習算法應用于社交網(wǎng)絡信用評價中,建立基于IGSO-BP協(xié)同集成學習算法的社交網(wǎng)絡信用評價模型。梁心怡(2019)通過統(tǒng)計分析,結合大學生網(wǎng)絡消費信貸的個人信用數(shù)據(jù),通過定性和定量分析建立適合大學生的個人信用評分模型。
宋麗平等(2015)針對P2P網(wǎng)絡借貸平臺的特點,確定個人信用風險評估指標,并以平臺借款人個人信用等級作為預測輸出目標,創(chuàng)建BP神經(jīng)網(wǎng)絡模型,使貸款人和網(wǎng)貸平臺能夠更好地了解借款人的信用狀況。都紅雯等(2018)以微貸網(wǎng)為例,在該平臺原有信用風險評估指標基礎上,借鑒國外FICO信用評分方法和國內芝麻信用評分方法,嘗試構建適用于國內P2P網(wǎng)貸平臺的信用評估指標體系,用于評估借款者信用。并選取微貸網(wǎng)平臺網(wǎng)站6917個借款者的數(shù)據(jù)、采用SVM-Logistic組合模型、運用修正后的指標體系進行信用風險評估,將測試結果與實際結果比較,優(yōu)化了信用風險評估體系。謝陳昕(2019)對比分析了基于Logistic回歸、決策樹、隨機森林、支持向量機和神經(jīng)網(wǎng)絡的個人信用風險評估模型,并在此基礎上提出了采用4種機器學習算法綜合篩選重要變量再建立Logistic回歸模型的兩階段組合模型。應用這一模型對"人人貸"平臺借款人數(shù)據(jù)進行實證研究。結果表明:該模型相較于Logistic回歸模型有著更高的精確度,克服了數(shù)據(jù)維度及定性變量數(shù)量的限制,而且提高了單一機器學習算法的指標解釋能力,說明基于機器學習算法的Logistic回歸模型對P2P網(wǎng)貸平臺的借款人信用風險評估有更好的適應性。
陸健健等(2019)針對銀行客戶信用評估模型不健全不完善等問題,在對比隨機森林(RF)、GBDT和XGBoost三種集成算法基礎上,提出基于XGBoost算法的金融客戶信用評估模型。依據(jù)計算得到的相關多元評價指標對個人信用評估進行對比研究,實證結果表明,建立在XGBoost集成算法上的個人信用評估模型性能最優(yōu),在準確率指標上比隨機森林(RF)高出6%,比GBDT算法高0.8%。王磊(2018)建立信用個人信用評價指標體系,利用BP神經(jīng)網(wǎng)絡算法,建立了借款人個人信用評價模型,為了達到更好的效果,采用不同的激活函數(shù)及權值調整方法進行模型優(yōu)化,最終建立基于擬牛頓算法的BP神經(jīng)網(wǎng)絡模型,能達到對用戶信命評級96.28%的準確率。
張潔琳(2018)通過對貝葉斯網(wǎng)絡進行分析,以最小風險決策準則作為基本原則,在對用戶進行信用評估時建立了一種全新的用戶信用評估模型。在對數(shù)據(jù)進行采集的過程中,通過交叉驗證的方式對數(shù)據(jù)進行了驗證,最終檢測結果表明,在對用戶進行信用評估的過程中基于最小風險準則的貝葉斯以及貝葉斯網(wǎng)絡分類模式可以有效的降低信用評估的風險。許彩艷等(2019)根據(jù)某商業(yè)銀行提供的客戶歷史數(shù)據(jù),首先基于8萬條記錄,628個變量的原始數(shù)據(jù)進行統(tǒng)計描述分析,篩選出有效數(shù)據(jù)集;其次利用Lasso估計,找到最優(yōu)調節(jié)參數(shù)lambda,根據(jù)lambda與變量數(shù)目對應走勢圖,最終篩選出19個變量,最后建立Lasso-logistic模型,分析結果顯示:訓練集預測準確率為84.62%,測試集預測準確率為78.80%,模型外推效果良好。
芝麻信用是是螞蟻金服2015年初推出的第三方征信機構, 它是根據(jù)各不同種數(shù)據(jù)類型設計得出來的信用體系, 通過阿里云計算、機器學習等技術手段來反映用戶的信用情況, 已經(jīng)在消費分期、現(xiàn)金分期、租賃等場景使用。
以國際主流個人信用評分模式作為參考,芝麻信用分從低到高共分為五級,由低到高代表著不同的信用等級。芝麻信用分數(shù)越高則代表信用越高,相反則代表低信用。具體評分結果由五個維度共同決定,分別是:信用歷史、行為偏好、履約能力、身份特質、人脈關系。利用大數(shù)據(jù)技術,芝麻信用綜合考慮等五個維度信息,應用了一種改進的樹模型 GBDT(Gradient Boosting DecisionTree),深入挖掘特征之間的關聯(lián)性,衍生出具備較強信用預測能力的組合特征,并將該組合特征與原始特征一起使用邏輯回歸線性算法進行訓練,從而獲得一個具備可解釋性的準確的線性預測模型。對個人用戶信息加工后得出最后評分結果。
目前京東白條業(yè)務已面向全部用戶開放,用戶申請開通時京東會基于用戶消費行為數(shù)據(jù),應用大數(shù)據(jù)建模技術建立量化模型,實時評估違約風險和額度測算。京東白條可以得知白熱度信用評分主要基于用戶在京東商城注冊、瀏覽、下單、支付、配送、評價等的海量數(shù)據(jù),并結合用戶消費和還款情況,深度挖掘用戶身份特征和偏好,評估用戶的履行能力,進而預測用戶的信用風險水平。
基于大數(shù)據(jù)的個人信用評分迎合了今年來移動互聯(lián)網(wǎng)及科技金融的發(fā)展,為在人民銀行的征信中心無法覆蓋的人群提供個人信用評分,基于大數(shù)據(jù)可以成為個人信用評分的重要指標數(shù)據(jù),進而使得該部分人群能夠等到相應的金融服務。大數(shù)據(jù)將拓寬傳統(tǒng)個人征信及信用系統(tǒng)的維度,實時構建全新的個人信用評分體制防范潛在的信用風險。