俞旭峰,王 澎,郭 威,張子柯
(1.杭州師范大學 阿里巴巴復雜科學研究中心,浙江 杭州 311121;2.阿里巴巴集團 新零售技術(shù)事業(yè)群,浙江 杭州 310008)
網(wǎng)貸具有以下3個重要的優(yōu)勢:高回報、覆蓋面廣、需求量大[1],所以最近幾年得到持續(xù)蓬勃發(fā)展。然而,網(wǎng)貸在給借貸者帶來便利、及時的金融服務的同時,也給放貸方帶來了欺詐者的攻擊威脅的風險[2-3]。首先,網(wǎng)貸主要是面向那些沒有抵押、在傳統(tǒng)信貸體系之外的借貸者;其次,網(wǎng)貸業(yè)務中個人數(shù)據(jù)較敏感,放貸方難以充分獲取用戶真實數(shù)據(jù),所以那些缺少較為全面的反欺詐風控機制的放貸方面臨著重大損失的風險[2-4]。
目前,國內(nèi)外已有不少文獻從不同角度來展開網(wǎng)貸反欺詐研究。如文獻[5]總結(jié)了信用卡風險控制領域常用的統(tǒng)計方法,包括信用卡統(tǒng)計、信用卡債務、信用評分和信用評分率、平均信用卡債務等;文獻[6]分析了借貸者社交網(wǎng)絡與貸款欺詐的關系;文獻[7]提取了貸款者的照片來分析網(wǎng)貸是否成功;文獻[8]分析了貸款人的描述性文本對網(wǎng)貸是否成功和欺詐概率的影響;文獻[9]使用被提取的貸款者行為欺詐圖特征去預測網(wǎng)貸的欺詐概率;文獻[10]發(fā)現(xiàn)了手機使用情況與網(wǎng)貸欺詐的相關性。
本文從特征探索的角度出發(fā),對欺詐行為尤其是團伙欺詐行為的貸前預測進行了探索。首先,利用網(wǎng)貸場景下普遍存在的放貸時用戶授權(quán)的空間位置與放貸時間,根據(jù)團伙欺詐時空聚集的行為特性,提出了一個實用、簡潔的聚集指標——K-N最近鄰指數(shù);然后,對K-N最近鄰指數(shù)進行序列學習;最后結(jié)合監(jiān)督學習模型LightGBM[11],對貸款進行欺詐預測。
本文的網(wǎng)貸交易數(shù)據(jù)為國內(nèi)某互聯(lián)網(wǎng)公司的統(tǒng)計數(shù)據(jù)。網(wǎng)貸數(shù)據(jù)的時間長度為61天。交易數(shù)據(jù)僅包含申請成功且具有標簽的貸款,記錄無誤的貸款數(shù)為216 470筆,其中壞賬為2 654筆,總體的壞賬率約為1.226%。放貸時的GPS定位精度為小數(shù)點后兩位。具體數(shù)據(jù)字段如表1所示。
表1 網(wǎng)貸的特征
本文對前53天貸款數(shù)據(jù)進行分析,后8天貸款數(shù)據(jù)作為測試集。在數(shù)據(jù)集的特征探索中,特別分析了前53天壞賬量最大的城市——西安的貸款分布狀況。
圖1(a)為西安第39天(當日城市壞賬率為1.85%)的貸款空間分布情況?;疑c表示壞賬率為0的區(qū)域(單位大小為1 km2),黑色點表示壞賬率為100%的區(qū)域(單位大小為1 km2),點的大小表示貸款量(該圖中小點為1筆,大點為2筆)。當日西安僅產(chǎn)生了1例壞賬,貸款的分布都較為隨機。
圖1(b)為西安第43天(當日城市壞賬率為18.03%)的貸款空間分布情況,灰色點表示壞賬率為0的區(qū)域(單位大小為1 km2),標記為“T”黑色點表示壞賬率為82%的區(qū)域(單位大小為1 km2),普通黑色點表示壞賬率為100%的區(qū)域(單位大小為1 km2),點的大小表示貸款量(該圖中小點為1筆,大點為11筆),除去非常異常的(108.95°E,34.29°N)區(qū)域(圖中標記為“T”黑色點)后與圖1(a)相似,貸款的分布較為隨機且整體壞賬率較低。
圖1 西安不同日期的貸款空間分布
正常貸款行為是較為隨機的,但欺詐行為往往時空集中、具有團伙性。如圖2所示,該圖上半部分表示西安地區(qū)每日的壞賬率,下半部分表示西安地區(qū)前53天貸款量排名前三的區(qū)域(區(qū)域大小為1 km2)的每日所有貸款量與壞賬量,點的大小表示該類貸款的數(shù)量。在貸款量排名前三的區(qū)域存在一個明顯壞賬空間集中的區(qū)域(108.95°E,34.29°N),該區(qū)域存在55筆壞賬(占西安總壞賬的51.89%)。而且該區(qū)域壞賬爆發(fā)時間也較集中,主要在第40~44天與第48~51天的時間段。
考慮到壞賬之間異常的聚集關系,本文提出了K-N最近鄰指數(shù),一個能衡量貸款在某一階段的空間聚集性指標。另外,本文中的觀察窗口指的是觀測貸款發(fā)生前的時間段。下文中“t天觀察窗口內(nèi)觀測點的鄰近點”含義是在觀測貸款放貸發(fā)生的前t天內(nèi)附近貸款的空間位置。
圖2 西安的日壞賬率與貸款量排名前三區(qū)域的貸款情況
最近鄰分析概念[12]最初是由CLARK P J和EVANS F C提出的,用于比較區(qū)域內(nèi)植物聚落情況。具體地,假定所有的點完全隨機分布,則其平均距離為其密度倒數(shù)值的一半。該結(jié)果與借助圖像觀測到的實際的點分布格局的比值通常叫做最近鄰指數(shù)(nearest neighbor index)[13]。
最近鄰指數(shù)反映了一個區(qū)域內(nèi)點之間的聚集程度,體現(xiàn)的是全局的聚集狀況。受最近鄰指數(shù)的啟發(fā),本文改進得到了K-N最近鄰指數(shù),能反映單個點局部相對聚集情況。
K-N最近鄰指數(shù)的設計概念如下:
觀測點與鄰近點的空間示意圖如圖3所示。圖3(a)與圖3(b)中點的含義相同,圓點為觀測點(觀測貸款的位置),三角形為一定時間大小的觀察窗口內(nèi)觀測點的鄰近點(鄰近貸款的位置)。圖3(a)根據(jù)包含鄰近點的個數(shù)先后建立兩個大小不一的鄰近域S1、S2。S1包含k個鄰近點,S2包含n個鄰近點(n>k)。通過圖3(a)的S2中n個鄰近點可以組成圖3(b)的封閉圖形。
圖3 觀測點與鄰近點的空間示意圖
根據(jù)圖3(a)中S2包含的n個鄰近點是否能組成封閉圖形分成以下兩種情況:
(1)n個鄰近點能組成封閉圖形,如圖3(b)所示,S1內(nèi)k個鄰近點與觀測點距離的平均值D,S2內(nèi)n個鄰近點隨機情況的平均最近鄰距離E(隨機情況下平均最近鄰距離為其密度倒數(shù)值的一半[13]),兩者的比值表示觀測點的鄰近相對聚集情況。
(2)n個鄰近點不能組成封閉圖形??赡艽嬖诘臉O端情況,即n個鄰近點無法形成封閉的圖形,呈現(xiàn)的幾何狀態(tài)為絕大數(shù)鄰近點集中于某一點或者連接成一條線。此類情況本身就是非常聚集的表現(xiàn),但又很難采用特定的數(shù)值進行定值。該極端情況下,本文將觀測點的K-N最近鄰指數(shù)得分定為“空值”。因為最終預測模型為LightGBM模型,該集成樹算法在樹節(jié)點進行選取最佳特征分裂點時將缺失值樣本分別置于左右葉子節(jié)點,最終選擇分裂增益最大的方向。所以本文將極端情況處理為“空值”,在不失其特性的情況下也是適用于最后的預測。
t天觀察窗口內(nèi)某觀測點的K-N最近鄰指數(shù)具體計算步驟如下:
(1)觀測點放貸發(fā)生的前t天觀察窗口內(nèi),計算觀測點空間最近鄰的k筆貸款(k (1) 其中,k為t天觀察窗口區(qū)域內(nèi)S1內(nèi)鄰近點數(shù)量,di為觀測點與觀察窗口內(nèi)S1內(nèi)鄰近點的距離。 (2)觀測點放貸發(fā)生的前t天觀察窗口內(nèi),S2內(nèi)n個鄰近點形成如圖3(b)所示的凸包[14],按最近鄰指數(shù)的定義[13],計算凸包內(nèi)(包括邊緣)隨機情況下整個區(qū)域內(nèi)鄰近點最近鄰距離的平均距離E: (2) 其中,n為t天觀察窗口區(qū)域內(nèi)S2內(nèi)鄰近點數(shù)量,A為觀察窗口內(nèi)S2內(nèi)全部鄰近點所圍成凸包的面積。如圖3所示,通過對鄰近點的凸包計算[14]得到面積A。 (3)計算K-N最近鄰指數(shù)r: r=D/E (3) 較低的r得分表現(xiàn)為觀測點距離觀察窗口內(nèi)的鄰近點相對較為接近,觀測點與鄰近點相對更為聚集。 以第31~53天的貸款作為觀測貸款,觀察窗口大小范圍為1~30天??刂撇煌挠^察窗口t、k值與n值,K-N最近鄰指數(shù)都能很好地區(qū)分壞賬與正常貸款,具體分析如下: 設置K-N最近鄰指數(shù)中k=2,n=20。如圖4所示,按觀察窗口的時間長短,從短到長取了5天、15天、25天的觀察窗口,壞賬在K-N最近鄰指數(shù)低分區(qū)域的占比都很明顯大于正常貸款。不同觀察窗口下,壞賬更容易得到較低的K-N最近鄰指數(shù)得分。 圖4 不同觀察窗口下的K-N最近鄰指數(shù)的得分累計分布 圖5、圖6反映了不同n值、k值對壞賬與正常貸款的K-N最近鄰指數(shù)得分中位數(shù)的影響。K-N最近鄰指數(shù)得分中位數(shù)會隨著n值增大而減小,隨著k值增大而增大,但壞賬的得分中位數(shù)都明顯低于正常貸款。 圖7反映了改變n值對壞賬與正常貸款的K-N最近鄰指數(shù)得分的空值占比的影響。K-N最近鄰指數(shù)得分的空值占比隨著n值增大而減小,但壞賬的空值占比都明顯高于正常貸款。壞賬的鄰近點更容易無法形成封閉圖形。 所以在較為合適的觀察窗口t、k值與n值情況下,K-N最近鄰指數(shù)對壞賬與正常貸款有較好的區(qū)分能力。 同一個觀察點不同觀察窗口下存在聚集變化,為了進一步提取不同窗口下K-N最近鄰指數(shù)的序列信息,本文以基于LSTM的seq2seq模型學習K-N最近鄰指數(shù)序列得到最終向量來表征聚集變化。 seq2seq模型[15]最初使用于自然語言處理領域,核心思想是通過深度神經(jīng)網(wǎng)絡模型將一個作為輸入的序列映射為一個作為輸出的序列。該模型最初采用的深度神經(jīng)網(wǎng)絡模型為RNN。而LSTM在RNN基礎上進行了提升,使其能夠獲取到更長距離的信息,從而學習到長依賴的特征[16]。 圖5 不同n值時的K-N最近鄰指數(shù)中位數(shù) 圖6 不同k值時的K-N最近鄰指數(shù)中位數(shù) 圖7 不同n值時的K-N最近鄰指數(shù)空值占比 根據(jù)不同時間間隔的貸款對當前貸款作用強弱不同,將不同觀察窗口的K-N最近鄰指數(shù),按觀察窗口的長短從大到小組成相應的序列L1={rn,rn-1,…,r2,r1},并輸入到第一個LSTM模型組成的編碼器(Encoder)。如圖8所示,編碼器隱藏層狀態(tài)為: ht=f(ht-1,rn-t+2) (4) 其中,c包含了輸入序列L1編碼后的信息,第二個LSTM模型組成的解碼器(Decoder)的隱藏層狀態(tài)為: Ht=f(Ht-1,ft-1,c) (5) 最后,控制一定的維度數(shù)m,將解碼器的隱藏層組成輸出序列L2={f1,f2,…,fm-1,fm}。L2序列作為L1序列的embedding結(jié)果。L2序列存在原序列L1元素間的交互信息,作為新特征對原模型進行提升。 圖8 基于LSTM的seq2seq模型 本文利用表1的特征進一步建立了如表2所示的基礎特征。 表2 模型的基礎特征 模型評估采用KS值與AUC。AUC反映的是模型對測試樣本整體的預測能力。作為風控建模中最為常見的指標,KS(Kolmogorov-Smirnov)值適用于正負樣本極其不平衡的場景,衡量的是好壞樣本累計分布之間的差值。好壞樣本累計差異越大,KS值越大,那么模型的風險區(qū)分能力越強。 本文將第31~53天作為訓練集,第54~61天作為測試集,利用LightGBM模型對第31~53天網(wǎng)貸數(shù)據(jù)進行訓練,然后對第54~61天網(wǎng)貸數(shù)據(jù)進行預測輸出欺詐概率。設置K-N最近鄰指數(shù)中k=2,n=20,觀察窗口t為1~30天,得到不同觀察窗口下相應的一系列K-N最近鄰指數(shù)r1~30。為了能使用seq2seq模型提取embedding特征又能滿足序列的完整性,權(quán)衡考慮之下,此時對K-N最近鄰指數(shù)空值進行了“-1”填充,控制輸出維度在m=5的情況下有了較好的提升。K-N最近鄰指數(shù)預測效果如表3所示。 表3 K-N最近鄰指數(shù)預測效果對比 相比于僅利用基礎特征,K-N最近鄰指數(shù)與基礎特征組合對于預測有了較好的提升。再對K-N最近鄰指數(shù)序列利用基于LSTM的seq2seq模型抽取序列信息,K-N最近鄰指數(shù)類特征能對僅使用基礎特征的KS值提高約11.8%,AUC提高約4.2%。 本文提出了一個新的適用于網(wǎng)貸時空聚集的指標——K-N最近鄰指標,并結(jié)合基于LSTM的seq2seq模型對不同觀察窗口的K-N最近鄰指標提取序列信息,得到觀察點聚集變化的信息。最終采用LightGBM模型進行預測,實驗結(jié)果表明該指標對壞賬的預測有了較好的提升,這也說明了該指標的有效性。2.2 K-N最近鄰指數(shù)的序列特征
3 實驗與結(jié)果分析
4 結(jié)論