王重仁,韓冬梅
(上海財(cái)經(jīng)大學(xué) 信息管理與工程學(xué)院,上海 200433)
隨著互聯(lián)網(wǎng)信貸行業(yè)的飛速發(fā)展,風(fēng)險(xiǎn)問題也在不斷涌現(xiàn),互聯(lián)網(wǎng)信貸行業(yè)最大的風(fēng)險(xiǎn)是借款用戶的違約風(fēng)險(xiǎn),即用戶信用風(fēng)險(xiǎn),因此,個(gè)人信用評(píng)估對(duì)互聯(lián)網(wǎng)信貸行業(yè)至關(guān)重要。個(gè)人信用評(píng)估是指評(píng)估機(jī)構(gòu)根據(jù)個(gè)體歷史記錄,對(duì)個(gè)體還款能力和還款意愿進(jìn)行判斷。個(gè)人信用評(píng)估本質(zhì)上是一個(gè)二分類問題,通過模型輸出個(gè)體的違約概率,通過對(duì)個(gè)人信用風(fēng)險(xiǎn)的評(píng)估,將借款申請(qǐng)人分為“好”客戶和“壞”客戶。
互聯(lián)網(wǎng)信貸個(gè)人信用評(píng)估具有變量維度高的特點(diǎn),傳統(tǒng)的Logistic回歸只適合處理線性關(guān)系,因此,機(jī)器學(xué)習(xí)方法日益受到關(guān)注。本文從機(jī)器學(xué)習(xí)算法參數(shù)優(yōu)化的視角,提出了一種新的集成學(xué)習(xí)信用評(píng)估模型。引入了一種新的Boosting技術(shù)-XGBoost,XGBoost是一種改進(jìn)的GBDT算法,XGBoost包含多種超參數(shù),這些超參數(shù)對(duì)算法效果影響很大,貝葉斯優(yōu)化可以利用先驗(yàn)知識(shí)來選擇下一組超參數(shù),和傳統(tǒng)網(wǎng)格搜索和隨機(jī)搜索相比,貝葉斯超參數(shù)優(yōu)化精度更高且更加高效。
目前對(duì)于信用評(píng)估的研究大部分都只側(cè)重算法的應(yīng)用研究,比如王潤(rùn)華[1]的研究,王磊等[2]的研究,然而基于超參數(shù)優(yōu)化視角的信用評(píng)估研究還較少,Xia等[3]提出了一種基于超參數(shù)優(yōu)化和XGBoost算法的個(gè)人信用評(píng)估模型,并且基于信用評(píng)估領(lǐng)域數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),然而作者研究用的數(shù)據(jù)集變量維度較低。近年來,陳天奇[4]對(duì)GBDT算法進(jìn)行改進(jìn),提出了一種設(shè)計(jì)高效、靈活并且可移植強(qiáng)的最優(yōu)分布式?jīng)Q策梯度提升庫XGBoost,該算法曾經(jīng)在國(guó)外數(shù)
梯度提升是一種Boosting方法,Boosting是一類可將弱分類器提升為強(qiáng)分類器的算法,屬于集成學(xué)習(xí)范疇。Boosting和Bagging是集成學(xué)習(xí)的兩種主要方法。不同于Bagging方法,Boosting方法通過分步迭代的方式來構(gòu)建模型,在迭代的每一步構(gòu)建的弱分類器都是為了彌補(bǔ)已有模型的不足。Boosting類算法的著名代表是AdaBoost,與AdaBoost算法不同,梯度提升方法在迭代的每一步構(gòu)建一個(gè)能夠沿著梯度最陡的方向降低損失的分類器來彌補(bǔ)已有模型的不足。
基于梯度提升算法的學(xué)習(xí)器叫做GBM,GBM可以選擇各種不同的學(xué)習(xí)算法作為基分類器,而使用最多的基分類器是決策樹,以決策樹作為弱分類器的梯度提升算法稱為GBDT。
XGBoost是一種改進(jìn)的GBDT算法[4],該算法與GBDT有很大的區(qū)別。GBDT在優(yōu)化時(shí)只用到一階導(dǎo)數(shù),XGBoost則同時(shí)用到了一階導(dǎo)數(shù)和二階導(dǎo)數(shù)。XGBoost在目標(biāo)函數(shù)里加入了正則項(xiàng),用以權(quán)衡目標(biāo)函數(shù)的下降和模型的復(fù)雜程度,避免過擬合。
XGBoost算法可以看成是由K棵樹組成的加法模型:
其中F為所有樹組成的函數(shù)空間。上述加法模型的目標(biāo)函數(shù)定義為:
其中第二項(xiàng)表示決策樹的復(fù)雜度。加法模型的學(xué)習(xí)可以用前向分布算法。具體地,從一個(gè)常量預(yù)測(cè)開始,每次學(xué)習(xí)一個(gè)新的函數(shù),過程如下:
這時(shí)候目標(biāo)函數(shù)可以寫為:
根據(jù)泰勒公式:
目標(biāo)函數(shù)可以轉(zhuǎn)化為:
其中,gi定義為損失函數(shù)的一階導(dǎo)數(shù),hi定義為損失函數(shù)的二階導(dǎo)數(shù),因?yàn)楹瘮?shù)中的常數(shù)項(xiàng)在目標(biāo)函數(shù)優(yōu)化時(shí)沒影響,所以從公式(6)中移除掉常量項(xiàng),可以得到:
對(duì)于一顆生成好的決策樹,假定它的葉子節(jié)點(diǎn)個(gè)數(shù)為T,該決策樹是由所有葉子節(jié)點(diǎn)對(duì)應(yīng)的值組成的向量w∈RT以及把特征向量映射到葉子節(jié)點(diǎn)索引的函數(shù)q∶Rd→{1,2,…,T}組成的。決策樹計(jì)算公式:
決策樹復(fù)雜度計(jì)算公式:
由上面公式可知,決策樹復(fù)雜度受到樹的葉子節(jié)點(diǎn)數(shù)量和葉子節(jié)點(diǎn)對(duì)應(yīng)的值向量的L2范數(shù)的影響。
假設(shè)Ij={i|q(xi)=j}代表被劃分到葉子節(jié)點(diǎn)的樣本的集合,公式(7)中目標(biāo)函數(shù)重新計(jì)算如下:
此時(shí),目標(biāo)函數(shù)的值為:
通常情況下,采用貪心策略來生成決策樹的每個(gè)節(jié)點(diǎn)。對(duì)于每次分裂的增益的計(jì)算公式:
其中,γ項(xiàng)表示因?yàn)樵黾恿藰涞膹?fù)雜性帶來的懲罰。
XGBoost屬于基于決策樹的集成學(xué)習(xí)方法,因此可以輸出特征的相對(duì)重要度,從而便于本文進(jìn)一步對(duì)預(yù)測(cè)結(jié)果有重要影響的因素進(jìn)行分析。特征重要度計(jì)算方法如下:
特征j的重要度,通過其在所有單獨(dú)決策樹中的重要度的平均值來決定:
其中,M是樹的數(shù)量。特征j在單顆樹中的重要度的如下:
其中,L為樹的葉子節(jié)點(diǎn)數(shù)量,L-1即為樹的非葉子節(jié)點(diǎn)數(shù)量,vt是和節(jié)點(diǎn)t相關(guān)聯(lián)的特征是節(jié)點(diǎn)分裂之后平方損失的減少值。
超參數(shù)是指模型在訓(xùn)練過程中并不能直接從數(shù)據(jù)學(xué)到的參數(shù),如何優(yōu)化機(jī)器學(xué)習(xí)的超參數(shù)一直是一個(gè)難題,超參數(shù)優(yōu)化的方法很多,常用方法包括:網(wǎng)格搜索法(GS)和隨機(jī)搜索法(RS)。
網(wǎng)格搜索是對(duì)參數(shù)空間一一舉例,類似枚舉,網(wǎng)格搜索本質(zhì)上是一種手動(dòng)指定一組超參數(shù)的窮舉搜索法。網(wǎng)格搜索最后會(huì)將獲得最佳性能的參數(shù)組作為最優(yōu)超參數(shù),但并不適用于連續(xù)型參數(shù)空間,因?yàn)闊o法枚舉出所有個(gè)體的參數(shù)空間,當(dāng)參數(shù)組合規(guī)模較大時(shí),則窮舉組合的規(guī)模就會(huì)爆炸性增長(zhǎng),時(shí)間花費(fèi)較大。隨機(jī)搜索是對(duì)參數(shù)空間隨機(jī)搜索,其搜索范圍遍布整個(gè)搜索區(qū)域,但是隨機(jī)搜索并不能利用先驗(yàn)知識(shí)來選擇下一組超參數(shù),這一缺點(diǎn)在訓(xùn)練成本較高的模型中尤為突出。
貝葉斯優(yōu)化是一種近似逼近的方法,本文的假設(shè)有一系列觀察樣本,這樣訓(xùn)練后的模型將顯著地服從某個(gè)函數(shù),而該未知函數(shù)也將完全取決于它所學(xué)到的數(shù)據(jù)。因此,本文的任務(wù)就是找到一組能最大化學(xué)習(xí)效果的超參數(shù)。
貝葉斯優(yōu)化從理論上概括,其實(shí)就是在函數(shù)方程未知的情況下根據(jù)已有的采樣點(diǎn)預(yù)估函數(shù)最大值的一個(gè)算法。該算法假設(shè)函數(shù)符合高斯過程(GP)[5]。
貝葉斯參數(shù)優(yōu)化屬于一類稱為基于序列模型優(yōu)化(SMBO)算法[6]的優(yōu)化算法。SMBO算法使用先前觀察到的函數(shù)f,去確定f的下一個(gè)采樣點(diǎn)。
GP簡(jiǎn)要表示為在某個(gè)連續(xù)空間上的觀測(cè)域的統(tǒng)計(jì)模型,GP的每個(gè)點(diǎn)的輸入空間都是高斯分布的隨機(jī)變量,確定期望和協(xié)方差函數(shù),就可以得到一個(gè)GP。
為了計(jì)算后驗(yàn)期望,需要一個(gè)來自f的樣本的似然模型,以及f上的先驗(yàn)概率模型。在貝葉斯優(yōu)化中,假定如下:
對(duì)于先驗(yàn)分布,假設(shè)評(píng)價(jià)函數(shù)可以用GP來描述。正如高斯分布完全由其均值和方差確定,GP可以由其平均函數(shù)m(x)和協(xié)方差函數(shù)確定。
SMBO算法目前主流的優(yōu)化標(biāo)準(zhǔn)是EI[7],EI定義如下:
其中X?是當(dāng)前最優(yōu)的一組超參數(shù),Φ(z)和?(z)是(多元)標(biāo)準(zhǔn)正態(tài)分布的累積分布和概率密度函數(shù)。
貝葉斯優(yōu)化算法具體計(jì)算過程如下:
(1)給定觀測(cè)值x,使用GP模型更新f的后驗(yàn)期望值。
(2)找到最大化EI的Xnew,Xnew=armaxEI(x)。
(3)計(jì)算點(diǎn)Xnew的f的值。
上述過程重復(fù)固定的迭代次數(shù),或者直到收斂為止。
XGBoost是一個(gè)功能強(qiáng)大的機(jī)器學(xué)習(xí)算法,超參數(shù)的設(shè)置對(duì)模型的效果影響很大,因此本文研究了如何使用貝葉斯優(yōu)化算法來調(diào)整XGBoost中的超參數(shù)。本文提出了基于貝葉斯參數(shù)優(yōu)化和XGBoost的信用評(píng)估模型,簡(jiǎn)稱為BOA-XGBoost。該方法的流程如圖1所示,流程可以分為5個(gè)步驟:數(shù)據(jù)預(yù)處理、特征選擇、超參數(shù)優(yōu)化、模型訓(xùn)練、模型預(yù)測(cè)和評(píng)估。下面討論這幾個(gè)步驟:
圖1模型流程圖
步驟1:數(shù)據(jù)預(yù)處理
在數(shù)據(jù)預(yù)處理階段,將離散型變量,如性別,轉(zhuǎn)換為One-hot編碼。將連續(xù)型變量,統(tǒng)一使用Min-Max標(biāo)準(zhǔn)化對(duì)數(shù)據(jù)進(jìn)行處理。Min-Max標(biāo)準(zhǔn)化也稱離差標(biāo)準(zhǔn)化,是對(duì)原始數(shù)據(jù)的線性變換,使結(jié)果落到[0,1]區(qū)間,假設(shè)對(duì)特征x進(jìn)行變換,轉(zhuǎn)換函數(shù)如下:
則得到新特征xi′∈[0,1],公式中max和min分別為該變量的極大值和極小值。
步驟2:特征選擇
在機(jī)器學(xué)習(xí)問題上,當(dāng)變量維度過高時(shí),并不是所有的變量預(yù)測(cè)的結(jié)果都是相關(guān)的,一些不相關(guān)的變量可能對(duì)模型預(yù)測(cè)精度產(chǎn)生負(fù)面影響[8]。特征選擇可以提高模型精度,規(guī)避過擬合的現(xiàn)象。
在特征選擇階段,首先移除低方差的特征。這是特征選擇中的一項(xiàng)基本方法,它會(huì)移除所有方差不滿足閾值的特征,這個(gè)方法只針對(duì)離散型變量,將閾值設(shè)置為99%。布爾特征是伯努利隨機(jī)變量,該類變量的方差為:
在移除低方差特征后,使用特征遞歸消除(RFE)[9]方法繼續(xù)進(jìn)行特征選擇。RFE算法在選擇特征時(shí)以遞歸方式考慮越來越小的特征集合。首先,使用分類器在初始特征集合上進(jìn)行訓(xùn)練,計(jì)算模型的特征重要度從而獲得每個(gè)特征的重要性,然后,將重要度較低的一部分特征從特征集合中刪除。上述過程在特征集合上重復(fù)進(jìn)行,直到特征數(shù)量滿足要求為止。因此,這是一種尋找最優(yōu)特征子集的貪心算法。RFE估計(jì)器設(shè)置為XGBoost,在使用RFE進(jìn)行特征選擇后,得到了一組最優(yōu)特征子集。
步驟3:超參數(shù)優(yōu)化
如前所述,XGBoost是一個(gè)功能強(qiáng)大的分類器,有許多需要仔細(xì)調(diào)整的超參數(shù)?;谇拔奶岢龅呢惾~斯優(yōu)化算法進(jìn)行超參數(shù)優(yōu)化,因信用評(píng)分是一個(gè)二分類問題,同時(shí)模型需要輸出預(yù)測(cè)概率值,因此可以使用對(duì)數(shù)損失來評(píng)估不同參數(shù)下模型的性能,公式如下:
其中yi和pi分別代表真實(shí)值和預(yù)測(cè)概率值。為了更客觀的衡量參數(shù),使用5折交叉驗(yàn)證對(duì)數(shù)損失來測(cè)量相應(yīng)參數(shù)下的模型性能。在使用貝葉斯優(yōu)化算法進(jìn)行優(yōu)化后,最后確定了一組使模型5倍交叉驗(yàn)證對(duì)數(shù)損失最低的最優(yōu)參數(shù)。
步驟4:模型訓(xùn)練
使用確定好的最優(yōu)特征子集和最優(yōu)超參數(shù)在訓(xùn)練數(shù)據(jù)集上模型。
步驟5:模型預(yù)測(cè)和評(píng)估
在測(cè)試數(shù)據(jù)集上,首先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,然后選擇跟訓(xùn)練集上相同的特征子集,使用訓(xùn)練好的模型對(duì)測(cè)試數(shù)據(jù)集上的樣本進(jìn)行預(yù)測(cè),最后將預(yù)測(cè)的結(jié)果和實(shí)際結(jié)果進(jìn)行對(duì)比,評(píng)估模型效果。整個(gè)方法基于5折交叉驗(yàn)證的框架,因此最后的評(píng)估結(jié)果為5個(gè)不同測(cè)試集下評(píng)估結(jié)果的平均值。
為了更全面的對(duì)本文提出的模型進(jìn)行評(píng)估,本文基于Lending club公開數(shù)據(jù)集進(jìn)行研究。Lending club是成立于2006年的一家P2P網(wǎng)絡(luò)借貸平臺(tái),總部位于美國(guó)舊金山。本文選擇了Lending club2016年Q1的數(shù)據(jù),數(shù)據(jù)集共計(jì)133889條數(shù)據(jù)。對(duì)初始變量進(jìn)行初步篩選后,最終選擇了43個(gè)輸入變量,包含征信查詢、銀行記錄、個(gè)人資產(chǎn)等方面數(shù)據(jù)。數(shù)據(jù)的標(biāo)簽為用戶是否違約,如果用戶違約,標(biāo)簽定義為1,否則定義為0。
本文實(shí)驗(yàn)采用的開發(fā)語言為Python,Python是一種解釋型、面向?qū)ο蟮某绦蛟O(shè)計(jì)語言,具有豐富開源庫。在經(jīng)過特征選擇后,最終保留了12個(gè)變量,為了證明貝葉斯參數(shù)優(yōu)化方法的有效性,本文同時(shí)使用網(wǎng)格搜索和隨機(jī)搜索作為超參數(shù)優(yōu)化方法進(jìn)行對(duì)比。使用這些超參數(shù)優(yōu)化方法分別對(duì)XGBoost的超參數(shù)進(jìn)行調(diào)整,參數(shù)優(yōu)化方法采用Hyperopt庫來實(shí)現(xiàn),XGBoost算法采用sklearn庫來實(shí)現(xiàn),對(duì)于XGBoost算法本文選擇了4個(gè)對(duì)算法影響較大的超參數(shù)進(jìn)行調(diào)整,分別是:決策樹數(shù)量(n_estimators)、學(xué)習(xí)速率(learning_rate)、樹的最大深度(max_depth)和決定最小葉子節(jié)點(diǎn)樣本權(quán)重(min_child_weight),其他參數(shù)使用sklearn默認(rèn)設(shè)置。實(shí)驗(yàn)中優(yōu)化的參數(shù)空間如表1所示。
表1 參數(shù)空間
為了評(píng)估本文提出的基于XGBoost的信用評(píng)估方法,本文選擇了4個(gè)在信用評(píng)估研究中常用的機(jī)器學(xué)習(xí)算法進(jìn)行對(duì)比:Logistic回歸(LR)、支持向量機(jī)(SVM),隨機(jī)森林(RF)、神經(jīng)網(wǎng)絡(luò)(NN)。其中,神經(jīng)網(wǎng)絡(luò)采用BP算法進(jìn)行訓(xùn)練,SVM采用徑向基核函數(shù)(RBF)進(jìn)行訓(xùn)練。這些對(duì)比方法使用跟XGBoost法相同的特征子集,同時(shí)這些對(duì)比方法的超參數(shù)使用網(wǎng)格搜索法確定。
為了更全面地對(duì)模型效果進(jìn)行評(píng)估,同時(shí)考慮到需要對(duì)模型的輸出的用戶違約概率進(jìn)行評(píng)估,最后本文使用信用評(píng)估領(lǐng)域常用的3個(gè)指標(biāo)來評(píng)估模型,分別是ROC曲線、AUC和KS。
使用ROC曲線和AUC作為模型的評(píng)價(jià)指標(biāo)。首先計(jì)算真陽性率(TPR)和假陽性率(FPR)的值,然后以FPR和TPR為坐標(biāo)形成折線圖,即ROC曲線。ROC曲線越靠近左上角,模型分類的準(zhǔn)確性就越高。AUC是ROC曲線下方的面積,AUC越大,代表模型分類性能越好。KS是信用風(fēng)險(xiǎn)評(píng)估領(lǐng)域常用的區(qū)分度評(píng)價(jià)指標(biāo)。首先將數(shù)據(jù)樣本按照預(yù)測(cè)違約概率由低到高進(jìn)行排序,然后計(jì)算每一個(gè)違約率下的累積TPR值和累積FPR值,最后求這兩個(gè)值的差值的最大值,即為KS指標(biāo)。KS值越大代表模型對(duì)于違約客戶和按時(shí)還款客戶的區(qū)分能力越強(qiáng)。
為了對(duì)比不同超參數(shù)優(yōu)化方式的效率,本文將迭代次數(shù)統(tǒng)一設(shè)置為50,不同的參數(shù)優(yōu)化方法選擇相同范圍的參數(shù)空間。不同超參數(shù)優(yōu)化方式對(duì)比如圖2所示。圖中顯示了不同超參數(shù)優(yōu)化方式模型結(jié)果的箱線圖,橫軸代表超參數(shù)選擇過程中不同超參數(shù)優(yōu)化方式,縱軸代表XGBoost模型結(jié)果的AUC值。
圖2不同超參數(shù)優(yōu)化方式對(duì)比
從圖2中可以看出,隨機(jī)搜索參數(shù)優(yōu)化方式效果均優(yōu)于網(wǎng)格搜索方法。同時(shí)貝葉斯優(yōu)化參數(shù)優(yōu)化方法的效果最好,優(yōu)于其他方法,這跟以前一些研究的結(jié)論一致[3,5,6,10]。
表2給出了5種不同模型的模型結(jié)果表現(xiàn)。從表2中可以看出,XGBoost達(dá)到了最高的KS(0.301)和AUC(0.689),隨機(jī)森林次之,SVM、NN和邏輯回歸效果較差,XGBoost算法的KS指標(biāo)和邏輯回歸相比提升了29.74%,AUC指標(biāo)和邏輯回歸相比提升了10.95%。結(jié)果說明XGBoost方法的性能不但優(yōu)于常見的單一分類器,而且優(yōu)于集成學(xué)習(xí)分類器(RF)。同時(shí)從下頁圖3,可以看到,XGBoost的ROC曲線始終處于最左上方,這表明XGBoost具有最好的客戶違約預(yù)測(cè)能力。
表2 模型結(jié)果
圖3模型ROC曲線
本文提出的XGBoost信用評(píng)估模型屬于基于決策樹的集成學(xué)習(xí)模型,模型重要度評(píng)分使模型具有了可解釋性,從而可以對(duì)影響模型效果的關(guān)鍵變量進(jìn)行分析。訓(xùn)練完畢后輸出模型特征的重要度分?jǐn)?shù),分?jǐn)?shù)越高說明特征越重要。
特征重要度如圖4所示,圖中縱坐標(biāo)表示具體的特征,橫坐標(biāo)表示特征重要度分?jǐn)?shù),在圖中顯示了重要度前10的特征,這樣提出的個(gè)人信用評(píng)估方法就具有了一定的可解釋性,在進(jìn)行信用評(píng)估時(shí),方便決策者更好地理解信用評(píng)分模型,從而進(jìn)行決策。
圖4特征重要度
本文針對(duì)互聯(lián)網(wǎng)信貸行業(yè)的個(gè)人信用評(píng)估問題,提出了一種基于貝葉斯參數(shù)優(yōu)化和XGBoost算法的信用評(píng)估方法。XGBoost包含多種超參數(shù),這些超參數(shù)對(duì)算法效果影響很大,貝葉斯優(yōu)化是在函數(shù)方程未知的情況下根據(jù)已有的采樣點(diǎn)預(yù)估函數(shù)最大值的一個(gè)算法,和傳統(tǒng)的網(wǎng)格搜索和隨機(jī)搜索相比,貝葉斯優(yōu)化可以利用利用先驗(yàn)知識(shí)來選擇下一組超參數(shù),因此貝葉斯超參數(shù)優(yōu)化精度更高且更加高效,并采用貝葉斯超參數(shù)優(yōu)化來調(diào)參。本文提出的基于貝葉斯參數(shù)優(yōu)化和XGBoost的信用評(píng)估方法包括5個(gè)步驟:數(shù)據(jù)預(yù)處理、特征選擇、超參數(shù)優(yōu)化、模型訓(xùn)練、模型預(yù)測(cè)和評(píng)估,在對(duì)數(shù)據(jù)進(jìn)行預(yù)處理后,采用遞歸特征消除(RFE)來進(jìn)行特征選擇,然后使用貝葉斯參數(shù)優(yōu)化來調(diào)參,最后使用XGBoost算法來訓(xùn)練模型并進(jìn)行預(yù)測(cè)。
在互聯(lián)網(wǎng)借貸平臺(tái)真實(shí)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,本文提出模型的預(yù)測(cè)效果優(yōu)于對(duì)比算法(Logistic回歸、支持向量機(jī),隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)),同時(shí)貝葉斯參數(shù)優(yōu)化方法優(yōu)于網(wǎng)格搜索法和隨機(jī)搜索法,最后證明了本文提出的方法也具有一定可解釋性。因此本文提出的基于貝葉斯參數(shù)優(yōu)化和XGBoost的信用評(píng)估方法,可以更好地區(qū)分違約用戶,有助于互聯(lián)網(wǎng)行業(yè)的信用評(píng)估工作,有助于更好地識(shí)別用戶的違約風(fēng)險(xiǎn)。