劉娟娟, 梁龍躍,蔡鉉燁
(1貴州大學(xué) 經(jīng)濟(jì)學(xué)院,貴陽 550025;2中央財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)與數(shù)學(xué)學(xué)院,北京 102206)
信貸欺詐識(shí)別不僅是國家有關(guān)部門關(guān)注的重點(diǎn),亦是對(duì)金融市場(chǎng)日常交易中的嚴(yán)峻挑戰(zhàn)。中國金融市場(chǎng)發(fā)展起步較晚,金融體系尚不完善,有效識(shí)別信貸欺詐問題,有利于互聯(lián)網(wǎng)金融的創(chuàng)新發(fā)展和傳統(tǒng)金融業(yè)的數(shù)字化轉(zhuǎn)型升級(jí)。然而,僅靠年齡、學(xué)歷、房產(chǎn)狀況等“硬信息”識(shí)別欺詐行為具有一定局限性。大數(shù)據(jù)背景下,文本數(shù)據(jù)是經(jīng)濟(jì)學(xué)中應(yīng)用較多的非結(jié)構(gòu)化數(shù)據(jù),其中蘊(yùn)含著豐富的信息,被廣泛應(yīng)用于度量經(jīng)濟(jì)政策的不確定性、股價(jià)預(yù)測(cè)、波動(dòng)率等,以及將文本數(shù)據(jù)運(yùn)用于違約預(yù)測(cè)。
借貸申請(qǐng)人所提供的文本數(shù)據(jù)承載了申請(qǐng)人的意愿、傾向,該類文本數(shù)據(jù)是指其在申請(qǐng)貸款時(shí)所填寫的貸款用途、貸款原因等文本,因此具有獨(dú)特的價(jià)值意義。了解客戶的資信狀況是授信過程中十分關(guān)鍵的環(huán)節(jié),是決定是否授予貸款的前提和基礎(chǔ),為此相關(guān)平臺(tái)人員必須綜合客戶的有關(guān)信息(資信狀況、還款意愿等),識(shí)別客戶真?zhèn)涡畔?。文本?shù)據(jù)的引入拓寬了了解客戶信息的渠道,為全面評(píng)估客戶、減少損失提供了保障。
在信貸欺詐識(shí)別模型中,機(jī)器學(xué)習(xí)算法是主流算法之一,與統(tǒng)計(jì)、計(jì)量分析方法(如:Logit模型)相比,具有更高的識(shí)別效率和準(zhǔn)確率。利用機(jī)器學(xué)習(xí)進(jìn)行欺詐數(shù)據(jù)檢測(cè)主要分為3條路徑:
(1)根據(jù)不平衡樣本集,使用機(jī)器學(xué)習(xí)模型預(yù)測(cè)。如:文獻(xiàn)[5]中構(gòu)建決策樹與布爾邏輯函數(shù)的融合模型,對(duì)金融消費(fèi)行為進(jìn)行分析,并在此基礎(chǔ)上使用聚類方式區(qū)分正常交易與非正常交易,以此判斷持卡人交易是否符合規(guī)范。文獻(xiàn)[6]基于數(shù)據(jù)挖掘技術(shù),設(shè)計(jì)信用卡欺詐檢測(cè)系統(tǒng),該系統(tǒng)使用貝葉斯分類器對(duì)客戶數(shù)據(jù)進(jìn)行識(shí)別,判斷客戶是否存在欺詐行為。文獻(xiàn)[7]提出模糊二范數(shù)二次曲面支持向量機(jī)模型,用于信貸違約預(yù)測(cè)。實(shí)證結(jié)果表明,相比二次曲面支持向量機(jī)模型、二次核的加權(quán)二范數(shù)支持向量機(jī)模型等4個(gè)支持向量機(jī)變體模型而言,該模型評(píng)估效果得到顯著提升。
(2)使用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行預(yù)測(cè)。文獻(xiàn)[8]在BP神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上,融合遺傳算法(GA)評(píng)估德國信用卡消費(fèi)行為風(fēng)險(xiǎn)。該研究結(jié)果表明,混合模型效果優(yōu)于單一的BP神經(jīng)網(wǎng)絡(luò)模型。
(3)平衡樣本數(shù)據(jù)之后進(jìn)行預(yù)測(cè)。由于欺詐數(shù)據(jù)往往具有樣本分類不平衡的問題,SMOTE算法平衡數(shù)據(jù)被廣泛應(yīng)用于欺詐檢測(cè)。文獻(xiàn)[9-11]研究結(jié)果表明:樣本平衡后能有效提升模型預(yù)測(cè)性能。
雖然貸款申請(qǐng)人所提供的文本數(shù)據(jù)蘊(yùn)含豐富信息,但如何從該類文本數(shù)據(jù)中獲取有效信息仍存在一些需要解決的問題。為此,相關(guān)人員做了大量的研究工作。文獻(xiàn)[12]中指出,在傳統(tǒng)的詞頻統(tǒng)計(jì)、詞典法等方法中,由于選詞及詞典本身的限制,往往會(huì)存在信息遺漏問題。為了能夠充分獲取文本信息,自然語言處理技術(shù)已廣泛應(yīng)用于文本挖掘。如CNN、LSTM、RNN、注意力機(jī)制等深度學(xué)習(xí)模型被廣泛用于文本信息提取。文獻(xiàn)[13]使用了幾種典型的CNN模型,用于文本分類中的特征提取,獲取文本信息的向量。隨著人工智能技術(shù)的發(fā)展,文獻(xiàn)[14]中提出了一種完全基于Attention機(jī)制的Transformer模型,打破了人們使用RNN與CNN做自然語言處理的局限。文獻(xiàn)[15]使用多種方式提取文本特征作為新特征變量,用于構(gòu)建信用違約模型(如:LDA、CNN、Transformer等)。研究對(duì)比發(fā)現(xiàn):加入Transformer模型提取的文本特征對(duì)模型性能提升效果高于其它文本提取方式。此外,使用深度學(xué)習(xí)模型所提取的文本信息存在高維問題,一般降維方式為PCA、LASSO、核PCA等方法,但由于經(jīng)由模型提取后的數(shù)據(jù)為非線性高維數(shù)據(jù),一般降維方法不能有效解決非線性問題,為保證降維效果,需選取合適的降維方法。
本文致力于解決信貸文本信息的提取及降維,并將其運(yùn)用于信貸欺詐識(shí)別??紤]到英文單詞具有大小寫之分,為降低其重復(fù)性,使用Snowball對(duì)英文進(jìn)行詞干還原,并在此基礎(chǔ)上使用Transformer提取文本信息,有效獲取了文本信息。其次,使用自動(dòng)編碼器(AE)對(duì)提取的文本信息進(jìn)行非線性降維,成功獲取文本信息測(cè)度指標(biāo)。最后,利用多個(gè)機(jī)器學(xué)習(xí)模型(如:隨機(jī)森林、XGBoost、GBDT等)與數(shù)據(jù)均衡算法(SMOTE、TomekLinks欠采樣等)相結(jié)合,作為信貸欺詐識(shí)別基準(zhǔn)模型。在其基礎(chǔ)上引入文本信息測(cè)度作為新的預(yù)測(cè)變量,根據(jù)模型預(yù)測(cè)性能及特征重要性分析,研究貸款申請(qǐng)人所提供的文本數(shù)據(jù)對(duì)信貸欺詐識(shí)別的判斷能力。
1.1.1 自動(dòng)編碼器(AE)
自動(dòng)編碼器(AE)是一種基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)降維方法,主要包括編碼(Encoder)和解碼(Decoder)兩部分,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。當(dāng)網(wǎng)絡(luò)輸入確定后,利用輸出等于輸入來訓(xùn)練自動(dòng)編碼器網(wǎng)絡(luò),使得輸出盡可能地逼近輸入。其中,隱層單元數(shù)量的選取要小于輸入數(shù)據(jù)的維度。在數(shù)據(jù)降維中,AE只需使用Encoder部分的編碼操作,將高維度的輸入數(shù)據(jù)映射到低維度的特征編碼,達(dá)到降低數(shù)據(jù)維度的目的,且該方法相比于主成分分析(PCA)方法能以非線性方式解決多重共線性問題。
圖1 自編碼結(jié)構(gòu)Fig.1 Autoencoder structure
1.1.2 Transformer
Transformer由Vaswani等,在2017年提出,其開創(chuàng)性的放棄了基于RNN、LSTM、GRU等循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),取而代之使用了Attention層和全連接層構(gòu)建網(wǎng)絡(luò),解決了語義長期依賴問題。位置編碼器的引入解決了詞語順序的問題,并且由于沒有了循環(huán)神經(jīng)網(wǎng)絡(luò)的遞歸結(jié)構(gòu),網(wǎng)絡(luò)求解過程可以并行完成,大大提高了效率。該模型由一個(gè)完整的Encoder-Decoder框架構(gòu)成,如圖2所示。其中,Encoder部分功能比較單一,僅用于從原始句子中提取特征,而Decoder則功能相對(duì)較多,除特征提取功能還包含語言模型功能。
圖2 Transformer結(jié)構(gòu)Fig.2 Transformer structure
1.2.1 信貸文本信息獲取
本文所使用的數(shù)據(jù)集,來源于美國大型信貸平臺(tái)Lending Club所提供的2007~2018年貸款申請(qǐng)人信息,數(shù)據(jù)集中貸款申請(qǐng)人提供的“貸款描述”即是本文所使用的“文本信息”。該文本主要表現(xiàn)為貸款申請(qǐng)人的貸款目的、貸款理由自述及貸款類別。由于原始數(shù)據(jù)中并非所有樣本均含有貸款描述,經(jīng)數(shù)據(jù)預(yù)處理后總共獲取有效文本信息51 820條,其中文本長度90%以上少于50個(gè)單詞,表明文本數(shù)據(jù)均為短文本。
1.2.2 信貸文本信息處理
由于原始文本較短且英文單詞無需進(jìn)行分詞,故本文在對(duì)原始文本進(jìn)行去除無意義字符、詞干還原及轉(zhuǎn)化詞向量后,基于Python軟件構(gòu)建Transformer+AE的融合模型對(duì)文本特征進(jìn)行提取。由于該模型所提取的文本特征維度高達(dá)68維,為降低維度及便于后期衡量文本信息對(duì)模型貢獻(xiàn)度,本文使用AE將文本信息降維至1維,獲取最終的文本信息測(cè)度(文本特征)。實(shí)現(xiàn)流程如圖3所示。
圖3 文本特征獲取流程Fig.3 Text feature acquisition process
文本信息測(cè)度提取的主要步驟為:
使用“正則表達(dá)式”,剔除無意義字符(如:日期、特殊符號(hào)等)。
使用Snowball詞干還原,獲得原始單詞后,通過詞袋法對(duì)單詞出現(xiàn)次數(shù)進(jìn)行排序,選取出現(xiàn)次數(shù)排列前38 000的詞,獲得文本向量。
將文本向量輸入Transformer模型,訓(xùn)練并使用編碼層獲取文本特征(其中包括:位置編碼層、Transformer層以及全連接層),由此可得到多維度的文本特征。
使用AE對(duì)高維文本特征進(jìn)行非線性降維,最終獲得一維文本信息測(cè)度。
與信用風(fēng)險(xiǎn)客戶相比,欺詐風(fēng)險(xiǎn)客戶主要表現(xiàn)之一為沒有還款意愿,其目的是找到風(fēng)控系統(tǒng)的漏洞或通過偽造信息等欺詐方式獲得利益,是一種主觀上的惡意欺詐、拖欠等行為。從定義出發(fā)確定欺詐樣本,將好樣本標(biāo)簽以數(shù)字1表示,壞樣本以數(shù)字0表示,便于后期模型擬合使用。
本文選取的原始數(shù)據(jù)集中共有150個(gè)特征變量,為了客觀、全面判斷借款人是否有欺詐意圖,通過數(shù)據(jù)特征工程,選取以下18個(gè)指標(biāo)構(gòu)建反欺詐評(píng)估體系,各指標(biāo)含義見表1。
表1 部分特征介紹Tab.1 Introduction to part of features
經(jīng)數(shù)據(jù)預(yù)處理及特征工程后,最終剩余51 820個(gè)樣本,樣本集描述性統(tǒng)計(jì)結(jié)果見表2。
表2 定量指標(biāo)描述性統(tǒng)計(jì)Tab.2 Descriptive statistics of quantitative indicators
根據(jù)數(shù)據(jù)描述性統(tǒng)計(jì)結(jié)果,數(shù)據(jù)集方差差異顯著。為提高模型擬合結(jié)果,需對(duì)數(shù)據(jù)進(jìn)行歸一化處理,針對(duì)分類變量home_ownership、addr_state進(jìn)行One-Hot編碼。歸一化處理公式為:
2.3.1 隨機(jī)森林模型
隨機(jī)森林(Random Forest,RF)算法是一種經(jīng)典的裝袋法(Bagging)模型,其基本原理是先在原始數(shù)據(jù)集中隨機(jī)抽樣,構(gòu)成個(gè)不同的樣本數(shù)據(jù)集,然后根據(jù)這些數(shù)據(jù)集搭建個(gè)不同的決策樹模型,最后根據(jù)這些決策樹模型的投票情況獲取最終結(jié)果。隨機(jī)森林具有擬合速度快,方便處理大規(guī)模數(shù)據(jù)、易于實(shí)現(xiàn)、可以避免過擬合等優(yōu)點(diǎn)。
2.3.2 GBDT模型
GBDT(Gradient Boosting Decision Tree)屬于提升(Boosting)集成算法中的一種。Boosting集成算法的構(gòu)建過程,是不斷加強(qiáng)之前弱學(xué)習(xí)器判別錯(cuò)誤的樣本權(quán)重,保證之后的弱學(xué)習(xí)器在錯(cuò)誤樣本上判別正確。GBDT算法將損失函數(shù)的負(fù)梯度作為殘差的近似值,不斷使用殘差迭代和擬合樹,使殘差沿著最大梯度的方向下降,最終生成強(qiáng)學(xué)習(xí)器。
2.3.3 XGBoost模型
XGBoost(eXtreme Gradient Boosting)是在GBDT的基礎(chǔ)上,引入正則化損失函數(shù)來實(shí)現(xiàn)弱學(xué)習(xí)器的生成。加入了正則化的損失函數(shù),不僅可以降低過擬合的風(fēng)險(xiǎn),且XGBoost模型利用損失函數(shù)的一階導(dǎo)數(shù)和二階導(dǎo)數(shù)值進(jìn)行搜索,通過預(yù)排序、加權(quán)分位數(shù)、稀疏矩陣識(shí)別及緩存識(shí)別等技術(shù),大大提高了XGBoost模型性能。XGBoost通過最小化下面的正則化目標(biāo)函數(shù)來實(shí)現(xiàn):
其中,是損失函數(shù);是模型復(fù)雜程度的懲罰項(xiàng);、分別是的正則化系數(shù)。
2.3.4 LightGBM模型
LightGBM算法在原理上與GBDT和XGBoost算法類似,都采用損失函數(shù)負(fù)梯度作為當(dāng)前決策樹的殘差近似值,去擬合新的決策樹。只是對(duì)框架進(jìn)行了優(yōu)化(重點(diǎn)對(duì)模型訓(xùn)練速度的優(yōu)化)。其二叉樹的分裂增益公式為:
其中,G為該葉子節(jié)點(diǎn)上樣本集合中數(shù)據(jù)點(diǎn)在誤差函數(shù)上的一階導(dǎo)數(shù)和二階導(dǎo)數(shù)。
2.3.5 Extra-Trees模型
極端隨機(jī)樹(Extra-Trees,ET)算法與隨機(jī)森林算法十分相似,都是由許多決策樹構(gòu)成。ET算法在節(jié)點(diǎn)劃分時(shí),選擇的特征及對(duì)應(yīng)的特征值不是搜索比較所得,而是隨機(jī)抽取一個(gè)特征,再從該特征中隨機(jī)抽取一個(gè)特征值,作為該節(jié)點(diǎn)劃分的依據(jù)。當(dāng)子模型的準(zhǔn)確率大于50%,并且集成的子模型數(shù)量足夠多時(shí),整個(gè)集成系統(tǒng)的準(zhǔn)確率達(dá)到合格。這樣做的優(yōu)點(diǎn)是:提供額外的隨機(jī)性、抑制過擬合,并且具有更快的訓(xùn)練速度,缺點(diǎn)是增大了偏差(bias)。
2.3.6 ANN模型
人工神經(jīng)網(wǎng)絡(luò)(ANN)是由大量神經(jīng)元模型組成的信息響應(yīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),其可以分為幾個(gè)“層”,如:輸入層、隱藏層和輸出層。其中,輸入層和輸出層功能較為單一,隱藏層功能較多。隱藏層可以由多層神經(jīng)網(wǎng)絡(luò)層構(gòu)成,其主要作用是對(duì)輸入層輸入的數(shù)據(jù)進(jìn)行計(jì)算轉(zhuǎn)換,并將得到的結(jié)果傳遞給輸出層。整個(gè)神經(jīng)網(wǎng)絡(luò)中,每層內(nèi)部的神經(jīng)元沒有連接,連接只設(shè)置在層與層之間。此外,每個(gè)連接都具有一個(gè)權(quán)重值。
本文使用Python軟件展開實(shí)證分析,構(gòu)建欺詐檢測(cè)模型,將51 820個(gè)樣本按9:1的比例劃分訓(xùn)練集和測(cè)試集。由于數(shù)據(jù)樣本的不均衡性,會(huì)對(duì)模型擬合效果評(píng)價(jià)產(chǎn)生較大影響,本文選取不同的欠采樣、過采樣方式對(duì)數(shù)據(jù)集進(jìn)行均衡采樣,探索不同采樣方式下模型性能的表現(xiàn)。同時(shí),多元化采樣方式有助于增強(qiáng)模型結(jié)果穩(wěn)健性。實(shí)證結(jié)果表明,在不同采樣方式下,加入文本特征后模型性能均有一定提升。實(shí)證過程中,將樣本集分為兩組,一組不加入文本特征指標(biāo),另一組加入文本特征指標(biāo)。
3.1.1 評(píng)價(jià)指標(biāo)
3.1.1.1 真正例率()和假正例率()
在反欺詐模型中,其目的是為了檢測(cè)出欺詐樣本。由于傳統(tǒng)的準(zhǔn)確率()指標(biāo)無法準(zhǔn)確評(píng)價(jià)該模型實(shí)際欺詐檢測(cè)準(zhǔn)確率,為此模型評(píng)價(jià)采用指標(biāo),并繪制出模型的ROC曲線。
對(duì)于一個(gè)二分類任務(wù),可將所有的樣例根據(jù)其真實(shí)所屬類別與模型結(jié)果組合分為真正例()、假反例()、假正例()、真反例()4種情況,見表3。
表3 混淆矩陣Tab.3 Confusion matrix
根據(jù)表3可定義真正率()和假正率()為:
3.1.1.2 ROC曲線和值
受試者工作特征曲線(Receiver Operating Characteristic Curve,ROC)以為橫軸,為縱軸繪制,當(dāng)其越靠近左上角,表明模型的性能越好,如圖4所示。但當(dāng)存在多條ROC曲線很難進(jìn)行比較時(shí),可使用值對(duì)模型性能進(jìn)行評(píng)估。是ROC曲線和軸(軸)之間的面積,其值能直接反映出模型擬合結(jié)果的優(yōu)劣。
圖4 ROC曲線Fig.4 ROC curve
3.1.2 實(shí)驗(yàn)結(jié)果評(píng)價(jià)
本文選用隨機(jī)森林、GBDT、XGBoost、LightGBM、ET以及全連接神經(jīng)網(wǎng)絡(luò)(ANN)共6個(gè)機(jī)器學(xué)習(xí)模型,驗(yàn)證在不同模型上文本信息測(cè)度對(duì)預(yù)測(cè)結(jié)果貢獻(xiàn)的穩(wěn)健性。
對(duì)全樣本分別進(jìn)行鄰域欠采樣、Tomek Links欠采樣、隨機(jī)欠采樣、隨機(jī)過采樣以及SMOTE過采樣。為了降低模型過擬合及更多的獲取數(shù)據(jù)信息,研究中將訓(xùn)練集數(shù)據(jù)隨機(jī)劃分為10份進(jìn)行交叉驗(yàn)證,每次選取其中一份作為校驗(yàn)集,其余部分作為訓(xùn)練集用于模型訓(xùn)練。
3.1.2.1 加入文本數(shù)據(jù)前預(yù)測(cè)模型實(shí)驗(yàn)結(jié)果
根據(jù)表4可知,除SMOTE采樣下,LGBM模型表現(xiàn)最好以外,其余采樣方式下最好模型均為GBDT;在鄰域欠采樣下,所有模型評(píng)價(jià)結(jié)果明顯高于其它采樣方式。從總體評(píng)價(jià)結(jié)果來看,GBDT模型擬合結(jié)果最佳。
表4 未加文本特征AUC值Tab.4 AUC value without text feature
3.1.2.2 加入文本數(shù)據(jù)后預(yù)測(cè)模型實(shí)驗(yàn)結(jié)果
從采樣方式看:鄰域欠采樣下所有模型評(píng)價(jià)結(jié)果均高于其他采樣方式,其中SMOTE過采樣方式下除LightGBM模型外,其它模型結(jié)果均表現(xiàn)欠佳。由此可知,領(lǐng)域欠采樣方式是最優(yōu)采樣方式,對(duì)提高模型評(píng)價(jià)結(jié)果具有一定意義。從模型角度看,除SMOTE過采樣方式,其余采樣方式下最佳擬合模型為GBDT模型,其值高于其它模型。
表5 加入文本特征后AUC值Tab.5 AUC values after adding text features
對(duì)比無文本特征模型的值,含文本特征模型值均有顯著提升,最高提升效果為1.42%(隨機(jī)森林模型),最差提升效果為0.68%(ET模型),GBDT模型作為值最高模型,其提升效果為1.01%。因此,加入文本特征對(duì)模型性能具有提升效果,該特征對(duì)預(yù)測(cè)結(jié)果有貢獻(xiàn)作用。
特征重要性可以查看特征變量對(duì)目標(biāo)變量的作用,且按作用大小進(jìn)行排序。本文選取了提升表現(xiàn)較好的4個(gè)模型進(jìn)行特征重要性分析,提取欺詐檢測(cè)模型中排名前10的特征,并觀察文本特征在前10重要特征中的位置,結(jié)果如圖5所示。
圖5(a)表明,在隨機(jī)森林模型中,最重要的特征變量為“desc”(文本特征)??梢钥闯黾尤胛谋拘畔⑻卣鲿?huì)對(duì)模型預(yù)測(cè)的結(jié)果造成較大影響,證明文本信息特征能有效改變模型預(yù)測(cè)結(jié)果;而在硬特征中,貸款利率(int_rate)占有重要影響地位。
圖5(b)顯示在GBDT模型中,最重要的特征變量為int_rate,次重要特征為desc,可看出文本特征對(duì)模型預(yù)測(cè)結(jié)果的影響程度較為顯著。
圖5(c)顯示文本信息特征“desc”重要性位列第四,展示了加入文本信息特征的作用。除此之外,int_rate及term重要性表現(xiàn)出一致性,且位列第一、第二。
圖5(d)的LightGBM模型中,文本(desc)特征重要性排位第一,且重要性顯著高于其它特征。除去文本特征外,前4個(gè)特征的重要性基本一致。
圖5 特征重要性結(jié)果圖Fig.5 Feature importance results
由特征重要性圖示可知,文本特征指標(biāo)在各模型中均是重要特征,在大部分模型中位列第一和第二,其重要性相比硬特征處于重要位置,對(duì)模型的預(yù)測(cè)結(jié)果貢獻(xiàn)較大。從而驗(yàn)證了加入文本特征后,反欺詐模型風(fēng)險(xiǎn)識(shí)別能力得到提升,文本特征的引入具有一定意義。
本研究中引入文本信息作為新的影響因子,探索了貸款文本信息對(duì)欺詐識(shí)別的作用,拓寬了非結(jié)構(gòu)化數(shù)據(jù)在金融交易中的應(yīng)用。此外,將Transformer與AE相結(jié)合,有效降低了文本信息維度,同時(shí)也保證了信息的全面性。
研究結(jié)果表明,以貸款利率、借款人年收入、最早循環(huán)帳戶已開立月數(shù)及文本特征為主的10個(gè)指標(biāo)與客戶欺詐行為相關(guān)性最高。在反欺詐預(yù)測(cè)模型中,文本信息的引入,能夠明顯提升模型對(duì)欺詐客戶的識(shí)別性能,提升結(jié)果介于0.65%-1.42%之間。啟示有關(guān)金融機(jī)構(gòu)平臺(tái),在審核貸款申請(qǐng)人信息時(shí),可要求貸款申請(qǐng)人提供必要的文本“軟信息”,獲取更豐富的貸款人信息,更為全面評(píng)估是否授予貸款,維護(hù)雙方利益,減少不必要損失。
在未來工作中,除基礎(chǔ)自編碼器外,還可使用其它編碼器進(jìn)行數(shù)據(jù)降維,也可嘗試使用其他新算法構(gòu)建反欺詐模型,探索更多欺詐檢測(cè)方式。文本挖掘技術(shù)的發(fā)展日新月異,新興的文本挖掘技術(shù)也可用于提取文本特征,亦是今后可以挖掘的方向。由于文本特征的特殊性,其對(duì)目標(biāo)變量的影響機(jī)制有待進(jìn)一步挖掘,未來可探究文本特征可解釋性分析。