陳澤瀛 陶森林 蔡朝輝
(銀聯(lián)商務(wù)股份有限公司,上海 201203)
近年來,我國經(jīng)濟快速發(fā)展,居民消費水平也日益增長,商戶數(shù)量也在急劇增長,尤其是中小微商戶的數(shù)量不斷提高。但是,伴隨著消費金額、消費筆數(shù)的連續(xù)上升和支付方式的不斷豐富,消費欺詐行為也呈現(xiàn)多樣化發(fā)展,主要表現(xiàn)為套現(xiàn)、挪用POS機從事賭博等非法行為和刷單等不同形式。每年該類產(chǎn)業(yè)鏈造成的金融損失超過千億元,同時還導(dǎo)致了一系列的社會經(jīng)濟問題[1-3]。
目前主流的風(fēng)險防控方法主要包括黑名單系統(tǒng)、專家規(guī)則系統(tǒng)和機器學(xué)習(xí)特征模型。然而,黑名單系統(tǒng)強依賴于黑名單數(shù)據(jù)庫信息和外部數(shù)據(jù),對于新的風(fēng)險案例識別效果較差;專家規(guī)則系統(tǒng)主要依賴于金融機構(gòu)的業(yè)務(wù)人員經(jīng)驗積累,好處是因為是經(jīng)過不斷迭代驗證的專家規(guī)則,一般效果不錯,但是對于新業(yè)務(wù)的遷移性較差,規(guī)則的積累需要較長的時間周期和較高的人力成本,且專家規(guī)則監(jiān)控的特征維度有限、泛化能力較弱;機器學(xué)習(xí)特征模型是目前比較熱門的風(fēng)控研究領(lǐng)域,已經(jīng)成為金融反欺詐的主要手段之一,具有特征覆蓋廣、數(shù)據(jù)處理能力強、對業(yè)務(wù)能力的要求也相對較弱的優(yōu)勢。文獻[4]提出了一種基于滑動時間窗口的互聯(lián)網(wǎng)金融反欺詐檢測方法,并在網(wǎng)絡(luò)支付的數(shù)據(jù)集上驗證了其有效性;文獻[5]介紹了興業(yè)銀行基于大數(shù)據(jù)技術(shù),提取業(yè)務(wù)特征,將移動互聯(lián)、大數(shù)據(jù)、人工智能等新技術(shù)與欺詐風(fēng)險防范有效結(jié)合,提升了欺詐風(fēng)險的偵測能力及處理效率;文獻[6]提出了將GBDT算法應(yīng)用于銀行卡欺詐偵測領(lǐng)域,并以Bagging的方式對模型進行了組合,實驗表明模型效果顯著;文獻[7]通過建立圖拓?fù)涮卣黧w系框架和機器學(xué)習(xí)的異常檢測算法,對營銷欺詐團伙化網(wǎng)絡(luò)進行了智能化偵測,模型效果比傳統(tǒng)模型具有較大提升。
在風(fēng)險欺詐檢測機器學(xué)習(xí)算法的有監(jiān)督學(xué)習(xí)建模中,大多數(shù)處理方法主要以提取業(yè)務(wù)特征,然后訓(xùn)練某個機器學(xué)習(xí)算法建立模型為主,常用的機器學(xué)習(xí)算法有決策樹、隨機森林、SVM、XGBoost等。我們的目標(biāo)是學(xué)習(xí)一個在各個方面都表現(xiàn)良好的穩(wěn)定模型,但是實際情況通常并不理想,上文提到的研究都取得了良好的欺詐偵測效果,但是對于一些臨界樣本的數(shù)據(jù)關(guān)注較低。另外,目前常見的機器學(xué)習(xí)風(fēng)控特征模型多不關(guān)注樣本數(shù)據(jù)之前的時序關(guān)系,直接對樣本shuffle處理后訓(xùn)練模型,忽略了樣本數(shù)據(jù)之間很重要的時序特征。
近年來,以長短期記憶網(wǎng)絡(luò)(LSTM)為代表的深度學(xué)習(xí)算法在時間序列領(lǐng)域取得了較為廣泛的應(yīng)用,LSTM網(wǎng)絡(luò)可以充分挖掘時序數(shù)據(jù)之間的內(nèi)在關(guān)聯(lián),與CNN組合后的深度學(xué)習(xí)網(wǎng)絡(luò)具有更加強大的特征提取能力和分析推理能力,但當(dāng)特征為非連續(xù)數(shù)據(jù)時,預(yù)測精度不高[8]。此外,梯度提升機(GBM)模型的相關(guān)改進算法也有著不錯的效果,例如,LightGBM算法具有速度快、效率高、占用資源少、支持并行處理等優(yōu)點,但缺乏對時間序列的整體感知能力[9]。
為了克服單一模型在預(yù)測精度上的不足,組合模型的建模方法應(yīng)運而生。組合模型的思想是綜合所有模型的預(yù)測結(jié)果,如果一個模型對于某個樣本的預(yù)測給出了極高的概率值,這樣即使另外一個弱分類器得到接近閾值的錯誤預(yù)測結(jié)果,前一個模型的強預(yù)測結(jié)果也可以糾正此錯誤。
本文采用循環(huán)神經(jīng)網(wǎng)絡(luò)LSTM+LightGBM組合模型的方法,將海量的商戶交易數(shù)據(jù)(交易金額、交易筆數(shù)、交易時間、是否周末或者節(jié)假日、歷史同期數(shù)據(jù)等信息)按照信用卡、移動支付等交易方式處理特征組后作為輸入特征,分別輸入神經(jīng)網(wǎng)絡(luò)模型和LightGBM模型進行訓(xùn)練,在預(yù)測階段則綜合兩個模型的預(yù)測結(jié)果。該組合模型能夠結(jié)合兩種模型的各自特點,既可以挖掘時序數(shù)據(jù)之間的內(nèi)在聯(lián)系,又可以避免非連續(xù)性特征對預(yù)測結(jié)果的影響。測試結(jié)果表明,本組合模型能夠降低單一模型在特殊場景下的誤差,具有更加穩(wěn)定的預(yù)測效果。
LSTM網(wǎng)絡(luò)(長短記憶的時間遞歸神經(jīng)網(wǎng)絡(luò))是RNN網(wǎng)絡(luò)(循環(huán)神經(jīng)網(wǎng)絡(luò))的改進版本,RNN網(wǎng)絡(luò)雖然也可以學(xué)習(xí)序列模型,但是因為在RNN中損失傳遞不僅存在于層與層之間,也存在于每一層的樣本序列間,隨著層數(shù)的增加,反向傳遞的損失數(shù)值會越來越小,所以RNN無法學(xué)習(xí)太長的序列特征。LSTM通過刻意的設(shè)計來避免長期依賴問題,其結(jié)構(gòu)示意圖如圖1所示。
LSTM的網(wǎng)絡(luò)結(jié)構(gòu)引入了一個叫做細(xì)胞狀態(tài)的連接,這個細(xì)胞狀態(tài)用來存放想要記憶的東西,同時在里面加入了3個門:遺忘門、輸入門和輸出門。
遺忘門:該門決定模型會從細(xì)胞狀態(tài)中丟棄什么信息,計算方法如下:
圖1 LSTM網(wǎng)絡(luò)結(jié)構(gòu)
輸入門:輸入門其實可以分成兩部分功能,一部分是找到那些需要更新的細(xì)胞狀態(tài),另一部分是把需要更新的信息更新到細(xì)胞狀態(tài)里,計算如式(2)和(3)。
輸出門:在輸出門中,通過一個Sigmod層來確定哪部分的信息將輸出,接著把更新后的細(xì)胞狀態(tài)通過Tanh進行處理(得到一個在-1~1之間的值)并將它和前面提到的Sigmod門的輸出相乘,得到最終的輸出。
LSTM網(wǎng)絡(luò)作為一個對時序敏感的神經(jīng)網(wǎng)絡(luò),可以彌補大多數(shù)機器學(xué)習(xí)算法和CNN網(wǎng)絡(luò)對于時序數(shù)據(jù)處理的缺陷。鑒于商戶當(dāng)天的交易和前一段時間的交易趨勢有較強的關(guān)系,因此我們選取預(yù)測當(dāng)天前30天的交易數(shù)據(jù)作為輸入序列,為了能夠得到更好的模型效果,我們從多維度提取每日交易信息特征,主要包括:交易金額、交易筆數(shù)、交易時間等信息,具體如表1所示。
考慮到模型準(zhǔn)確性和數(shù)據(jù)樣本的不均衡,如果一個商戶在某天發(fā)生了異常交易,則在30天的滑窗過程中,只要包含了該天的樣本數(shù)據(jù),則都認(rèn)為是正例樣本。此外,在訓(xùn)練之前還需對所有特征進行歸一化處理,對于筆數(shù)、金額數(shù)據(jù)直接采用min-max歸一化處理:
對于日時間和月時間直接根據(jù)自然規(guī)律最大值歸一化,對于是否周末和節(jié)假日特征采用啞變量處理,即0表示非,1表示是。
鑒于CNN在特征提取方面的優(yōu)勢和激活函數(shù)在非線性方面的良好表達能力,以及眾多經(jīng)典神經(jīng)網(wǎng)絡(luò)模型在CNN+LSTM組合后的良好效果,因此在LSTM網(wǎng)絡(luò)之前增加了三層CNN網(wǎng)絡(luò)用于提取特征,激活函數(shù)都選擇ReLU函數(shù)。最后,在LSTM層后,添加一個Dense輸出層和Softmax完成二分類任務(wù)。網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
LightGBM(Light Gradient Boosting Machine)是一個基于決策樹算法的提升框架,因為其采用了Histogram和Leaf-wise決策樹優(yōu)化算法,具有訓(xùn)練速度快、準(zhǔn)確率高、支持分布式、內(nèi)存占用率低等優(yōu)點,能夠處理規(guī)模龐大的數(shù)據(jù)集,可用于排序、分類、回歸以及很多其他的機器學(xué)習(xí)任務(wù)中。
因為LightGBM不同于LSTM的時序敏感特性,在1.2節(jié)列出的特征提取基礎(chǔ)上,LightGBM補充了一些其他的統(tǒng)計特征,主要包括:過去一個月的日平均交易金額和平均筆數(shù)、過去一周的日平均交易金額和平均筆數(shù)。
為了確認(rèn)提取的特征信息是有意義的,同時降低計算成本,需要剔除意義不大或者高度相關(guān)的特征。通過計算不同特征之間的相關(guān)性,對于兩個特征之間的相關(guān)系數(shù)大于等于0.75,則認(rèn)為兩個特征之間存在高度相關(guān),保留業(yè)務(wù)解釋上更合理的特征,篩除其他高相關(guān)特征。
表1 日交易流水信息初始特征
在第2章和第3章中,我們分別建立了兩個基于CNN+LSTM和LightGBM的檢測模型,在合并預(yù)測結(jié)果的過程中,鑒于兩種模型在處理數(shù)據(jù)過程中的不同優(yōu)勢,我們設(shè)置了一個權(quán)重系數(shù)α來將兩個預(yù)測結(jié)果進行線性組合:
其中o1是CNN+LSTM模型的預(yù)測概率,o2是Light GBM模型的預(yù)測概率,o是最終的預(yù)測結(jié)果,α的值有最終的評價指標(biāo)確定,即選擇在驗證集上表達最好的α值。組合模型的訓(xùn)練和預(yù)測流程如圖3所示。
考慮到行業(yè)差異的影響和數(shù)據(jù)連續(xù)性,本文從銀聯(lián)商務(wù)在江浙滬地區(qū)的餐飲行業(yè)收單商戶中隨機抽取了部分商戶在2017~2019年間的部分交易流水約100萬條樣本數(shù)據(jù)作為實驗數(shù)據(jù),考慮到節(jié)假日等特征要素,主要抽取了1~5月和9~12月的流水?dāng)?shù)據(jù)。數(shù)據(jù)劃分按照7∶2∶1的比例分為訓(xùn)練集、驗證集和測試集。
圖2 基于LSTM網(wǎng)絡(luò)的交易異常檢測模型網(wǎng)絡(luò)結(jié)構(gòu)
LSTM模型因為有CNN作為特征提取基礎(chǔ),因此不需要做太多處理。LightGBM模型在訓(xùn)練之前需要做相關(guān)性分析,丟棄高度相關(guān)的特征數(shù)據(jù)。
計算發(fā)現(xiàn),交易總筆數(shù)X9和移動支付筆數(shù)X24的相關(guān)性為0.81,這也與移動支付方式在市場上的逐漸流行現(xiàn)象吻合,尤其是在長三角地區(qū),考慮到在以后的時間移動支付方式會更加普及和數(shù)據(jù)表達能力,剔除了移動支付筆數(shù)特征數(shù)據(jù)。
LSTM模型迭代次數(shù)為300,初始學(xué)習(xí)率為0.01,每100個epoch學(xué)習(xí)率衰減10倍,訓(xùn)練loss衰減如圖4所示。LightGBM模型的訓(xùn)練通過大數(shù)據(jù)環(huán)境的PySpark組件完成,Apache Spark是一個快速的分布式實時處理框架,它通過內(nèi)存計算(區(qū)別于傳統(tǒng)Hadoop的MR方式)以實現(xiàn)實時分析數(shù)據(jù)。
在訓(xùn)練集上完成模型訓(xùn)練的任務(wù)后,就可以在驗證集上調(diào)試組合系數(shù)α了,本文選取F1值作為評價指標(biāo)。F1值是綜合P(precision)和R(recall)兩個指標(biāo)的評估指標(biāo),用于綜合反映整體的效果。
圖3 組合模型流程
其中TP(True Positive)為真正,即實際值為1,預(yù)測值也為1;FN(False Negative)為假負(fù),即實際值為1,預(yù)測值0;FP(False Positive)為假正,即實際值為0,預(yù)測值為1;TN(True Negative)為真負(fù),即實際值為0,預(yù)測值為0。在驗證集數(shù)據(jù)集上的實驗組合系數(shù)α和F1值變化曲線如圖5所示,實驗結(jié)果發(fā)現(xiàn)當(dāng)α為0.31的時候F1值最大。
本文共選擇了十萬條測試數(shù)據(jù)作為測試樣本,單獨使用LSTM模型、單獨使用LightGBM模型和組合模型的測試結(jié)果如表2所示。
從表2中可以看出,與獨立模型相比組合模型的F1值最高,也比傳統(tǒng)專家規(guī)則的效果更好,且不僅對時序敏感,也可以處理大批量數(shù)據(jù),可作為金融機構(gòu)風(fēng)控系統(tǒng)的補充模型。
本文提出了一種基于LSTM網(wǎng)絡(luò)和LightGBM算法組合模型的商戶異常交易行為檢測模型,組合模型不僅可以彌補傳統(tǒng)專家規(guī)則和機器學(xué)習(xí)算法對于時序不敏感的不足,而且可以批量處理多維特征數(shù)據(jù),與獨立模型相比,也取得了更高的預(yù)測精度,尤其是對于臨界樣本的識別更為有效。但模型效果仍然有很大的提升空間,尤其是獲取更加精準(zhǔn)的訓(xùn)練數(shù)據(jù)(負(fù)例樣本中隱藏了許多未知的正例樣本)。另外,探索更多模型的多種組合方式也值得我們進一步挖掘。
圖4 LSTM模型的訓(xùn)練loss
圖5 α-F1曲線
表2 不同算法測試結(jié)果