劉華玲,曹世杰,許珺怡,陳尚輝
上海對(duì)外經(jīng)貿(mào)大學(xué) 統(tǒng)計(jì)與信息學(xué)院,上海 201620
互聯(lián)網(wǎng)信息時(shí)代,數(shù)字經(jīng)濟(jì)成為引領(lǐng)全球經(jīng)濟(jì)社會(huì)變革、推動(dòng)我國(guó)經(jīng)濟(jì)高質(zhì)量發(fā)展的重要引擎,以大數(shù)據(jù)、人工智能為代表的新一代信息技術(shù)在經(jīng)濟(jì)社會(huì)的不斷擴(kuò)張與滲透,催生出數(shù)字金融新業(yè)態(tài)[1],其中數(shù)字信用交易作為伴隨消費(fèi)模式升級(jí)與普惠金融的發(fā)展而成的新模式,迅速在全國(guó)捕獲了大量用戶(hù),成為數(shù)字金融體系的重要組成部分,為我國(guó)數(shù)字經(jīng)濟(jì)的高質(zhì)量發(fā)展鋪平了道路。但另一方面,以惡意逾期、冒用他人信用賬戶(hù)為代表的數(shù)字信用交易欺詐行為同樣變得更為隱蔽,2020 年全球范圍內(nèi)數(shù)字信用支付欺詐交易損失較2018年增加了35%[2],目前仍呈上升態(tài)勢(shì)。我國(guó)的情況同樣不容樂(lè)觀,信用支付逾期半年未償信貸總額在2019年略有下降后再次回升[3]。數(shù)字信用欺詐交易的存在不僅為用戶(hù)、銀行業(yè)在內(nèi)的個(gè)體及金融機(jī)構(gòu)帶來(lái)大量財(cái)物上的損失,更會(huì)讓消費(fèi)者喪失對(duì)數(shù)字支付的信心,嚴(yán)重阻礙我國(guó)數(shù)字經(jīng)濟(jì)的發(fā)展。
欺詐交易造成的嚴(yán)重?fù)p失與用戶(hù)對(duì)交易安全的硬性需求,使數(shù)字化交易安全問(wèn)題受到社會(huì)各界的廣泛關(guān)注。面對(duì)數(shù)字交易信息逐步呈現(xiàn)出的海量多源、高維異構(gòu)等新特點(diǎn),傳統(tǒng)的專(zhuān)家系統(tǒng)與早期的機(jī)器學(xué)習(xí)分類(lèi)算法難以適應(yīng)現(xiàn)有數(shù)據(jù)環(huán)境,金融科技革命開(kāi)始蓬勃發(fā)展,螞蟻金服、Paypal 等互聯(lián)網(wǎng)科技企業(yè)更是引領(lǐng)起反欺詐研究創(chuàng)新的變革新浪潮。
以海量數(shù)據(jù)為驅(qū)動(dòng)力,融合統(tǒng)計(jì)學(xué)、數(shù)學(xué)、機(jī)器學(xué)習(xí)和人工智能算法的數(shù)據(jù)智能技術(shù)成為反欺詐研究中的重要工具。相關(guān)算法已在數(shù)字信用反欺詐研究領(lǐng)域得到廣泛關(guān)注與應(yīng)用,隨之涌現(xiàn)出多篇基于不同視角聚焦數(shù)字信用交易反欺詐研究的綜述性文章。Bansal 和Garg 兩位學(xué)者[2]從風(fēng)險(xiǎn)來(lái)源出發(fā)進(jìn)行綜述,詳細(xì)論述了當(dāng)前國(guó)外數(shù)字信用欺詐交易的主要類(lèi)型及犯罪手段,其文章能夠使讀者快速了解信用支付反欺詐研究的研究背景,但由于具體業(yè)務(wù)的開(kāi)展方式在各國(guó)間不盡相同,文章介紹的欺詐交易方式與我國(guó)的情況可能有所差異。文獻(xiàn)[4-7]從算法的識(shí)別性能出發(fā)進(jìn)行綜述。Popat 等學(xué)者在文獻(xiàn)[4]中分析并對(duì)比了8 類(lèi)機(jī)器學(xué)習(xí)分類(lèi)算法在數(shù)字信用欺詐檢測(cè)中的應(yīng)用。文獻(xiàn)[5]重點(diǎn)分析了當(dāng)前研究領(lǐng)域受關(guān)注最多的6 類(lèi)有監(jiān)督模型與4 類(lèi)無(wú)監(jiān)督模型的性能優(yōu)劣,但上述文章模型對(duì)比均停留在Baseline階段,缺乏最新的研究進(jìn)展。文獻(xiàn)[6]將目光聚焦于機(jī)器學(xué)習(xí)在反欺詐研究中的應(yīng)用,但涉及文獻(xiàn)較少,涵蓋觀點(diǎn)不夠全面。Ryman、Krause 等學(xué)者[7]在真實(shí)體量的交易數(shù)據(jù)集上對(duì)最新的欺詐交易識(shí)別模型進(jìn)行實(shí)證檢驗(yàn),文章認(rèn)為與當(dāng)時(shí)的基準(zhǔn)測(cè)試(2017 年)相比,僅有8 種方法可以應(yīng)用到實(shí)際業(yè)務(wù)場(chǎng)景中,遺憾的是由于數(shù)據(jù)集的私密性,無(wú)法將其分享出來(lái)用作后續(xù)研究的對(duì)比。文獻(xiàn)[8]整合并羅列了領(lǐng)域中常用的公開(kāi)數(shù)據(jù)集與獲取地址,方便讀者進(jìn)行查找與實(shí)驗(yàn),彌補(bǔ)了文獻(xiàn)[7]的不足。Al-Hashedi 等學(xué)者[9]聚焦于包含信用交易反欺詐研究在內(nèi)的金融反欺詐領(lǐng)域,匯總了自2009 年至2019 年由ACM、IEEE、Emerald、Elsevier 出版社出版的相關(guān)文章,從模型描述、數(shù)據(jù)集匯總、算法的橫向?qū)Ρ鹊榷嘟嵌冗M(jìn)行了文獻(xiàn)綜述,是目前已發(fā)表的文章中涉獵時(shí)間最廣、角度最為全面的綜述性文章之一。
綜上所述,目前面向信用支付反欺詐研究的綜述性文章大多數(shù)涵蓋內(nèi)容不夠全面,文獻(xiàn)[9]雖然涉及內(nèi)容廣泛,但是文章著眼于整體金融欺詐檢測(cè)領(lǐng)域,就數(shù)字信用交易反欺詐研究而言,深度略顯不足,目前仍舊缺少對(duì)數(shù)字信用交易反欺詐研究進(jìn)行全面、深入梳理與總結(jié)的工作。作為最早的數(shù)字化非現(xiàn)金交易方式之一,數(shù)字信用支付擁有目前最成熟的數(shù)據(jù)積累和理論基礎(chǔ),其反欺詐算法的研究進(jìn)展不僅關(guān)乎自身業(yè)務(wù)發(fā)展,對(duì)整體數(shù)字支付環(huán)境下的交易風(fēng)險(xiǎn)防范具有更為重要的啟示意義。本文在上述文章的基礎(chǔ)上進(jìn)一步對(duì)國(guó)內(nèi)外的研究成果進(jìn)行綜述,意圖為讀者呈現(xiàn)系統(tǒng)、全面的分析與總結(jié)。
數(shù)字信用欺詐交易是指以非法占有為目的,違反信用支付管理法規(guī)進(jìn)行的詐騙行為[10]。根據(jù)欺詐者的身份可分為內(nèi)部信用欺詐交易(internal credit fraud payment)和外部信用欺詐交易(external credit fraud payment)兩種模式[11]。內(nèi)部信用欺詐交易的欺詐者為用戶(hù)本人,通過(guò)偽造身份信息、惡意逾期等行為違法獲利;外部信用欺詐交易的欺詐者為非銀行、用戶(hù)本人在內(nèi)的第三方惡意用戶(hù),通過(guò)獲取信用卡/賬戶(hù)的詳細(xì)信息及相應(yīng)個(gè)人憑證偽裝成持卡者進(jìn)行違法套利活動(dòng)。
從實(shí)施欺詐交易的方式入手,數(shù)字信用欺詐交易主要可分為信用卡丟失/被盜、快捷支付漏洞、使用偽造信用卡、釣魚(yú)網(wǎng)站攻擊、電子賬戶(hù)泄露、惡意逾期等類(lèi)別,如圖1所示。
圖1 數(shù)字信用欺詐交易的主要方式Fig.1 Main methods of digital credit fraud transactions
(1)信用卡丟失/被盜(lost/stolen card):持卡者的信用卡開(kāi)通免密支付的同時(shí)出現(xiàn)丟失或被盜的情況,被不法分子獲取后用于非法套利或消費(fèi)從而產(chǎn)生損失。
(2)快捷支付漏洞(card not present):不法分子獲取到持卡者的銀行卡卡號(hào)、戶(hù)名、手機(jī)號(hào)碼等信息,并使用偽造的電話(huà)卡獲取第三方支付平臺(tái)發(fā)送到用戶(hù)手機(jī)的動(dòng)態(tài)口令,從而完成支付。
(3)使用偽造的信用卡(fake credit card):以制作假信用卡或?qū)φ鎸?shí)信用卡的信息進(jìn)行涂改、偽造為代表的違法行為。
(4)釣魚(yú)網(wǎng)站攻擊(Phishing):向用戶(hù)發(fā)送虛假購(gòu)物網(wǎng)站,從而獲取用戶(hù)在該網(wǎng)站上填寫(xiě)的信用賬戶(hù)相關(guān)信息,例如客戶(hù)的賬號(hào)、登錄憑據(jù)、信用支付密碼等,通過(guò)這些信息,不法分子即可完成欺詐交易。
(5)電子賬戶(hù)泄露(account takeover):與釣魚(yú)網(wǎng)站攻擊造成損失的原因相似,消費(fèi)者信用賬戶(hù)的賬號(hào)及支付密碼出現(xiàn)泄露,被不法分子獲取,從而造成損失。
(6)惡意逾期(maliciously overdue):持卡者使用信用支付消費(fèi)后在還款日故意逾期,不償還貸款的行為。
數(shù)字信用欺詐交易識(shí)別問(wèn)題的定義如下:給定一段時(shí)間內(nèi)的歷史交易數(shù)據(jù)集D={d1,d2,…,dn}及每條交易數(shù)據(jù)di對(duì)應(yīng)的類(lèi)別標(biāo)簽li∈{l1,l2},其中di代表一條數(shù)字信用交易記錄的具體信息,l1、l2分別代表正常交易與欺詐交易。數(shù)字信用交易反欺詐研究旨在通過(guò)數(shù)據(jù)挖掘算法提取數(shù)據(jù)集中欺詐行為模式,進(jìn)而識(shí)別新發(fā)生交易中的潛在欺詐交易,輸出結(jié)果為新發(fā)生的交易申請(qǐng)屬于正常交易或欺詐交易的概率。因此欺詐交易識(shí)別任務(wù)本質(zhì)是一個(gè)二分類(lèi)問(wèn)題。結(jié)合數(shù)字經(jīng)濟(jì)下具體的應(yīng)用場(chǎng)景及業(yè)務(wù)特點(diǎn),數(shù)字信用欺詐交易識(shí)別問(wèn)題當(dāng)下主要有四個(gè)研究難點(diǎn)。
(1)數(shù)字支付背景下交易規(guī)模激增,傳統(tǒng)審核方式難以支撐。
根據(jù)央行發(fā)布的數(shù)據(jù)顯示,2020 年銀行共處理電子支付業(yè)務(wù)2 352.23 億筆,其中網(wǎng)上支付業(yè)務(wù)879.31 億筆,移動(dòng)支付業(yè)務(wù)1 232.20 億筆,分別同比增長(zhǎng)12.46%和21.48%。單日新增數(shù)字信用支付記錄存儲(chǔ)量從2012 年的TB 級(jí)向如今的PB 級(jí)躍遷,在如此龐大的交易數(shù)量下,人工審核或基于規(guī)則的算法在檢驗(yàn)精度與效率上難以取得令人滿(mǎn)意的結(jié)果。
(2)公開(kāi)數(shù)據(jù)集少,信息敏感度高。
回顧近年來(lái)的發(fā)展,數(shù)據(jù)挖掘技術(shù)愈加成熟,但是由于交易數(shù)據(jù)的私密性,銀行禁止在未經(jīng)同意下對(duì)客戶(hù)的消費(fèi)信息進(jìn)行任何披露,數(shù)字信用反欺詐研究進(jìn)展緩慢[12]。
(3)數(shù)據(jù)集樣本分布嚴(yán)重失衡,模型分類(lèi)結(jié)果有偏。
基于信用消費(fèi)記錄構(gòu)成的數(shù)據(jù)集中,正常用戶(hù)的交易數(shù)據(jù)樣本數(shù)量遠(yuǎn)多于需要著重關(guān)注的欺詐交易樣本數(shù)。現(xiàn)實(shí)業(yè)務(wù)中,正常用戶(hù)與欺詐用戶(hù)的比例甚至能達(dá)到1 000∶1以上[13]。數(shù)據(jù)集類(lèi)別分布的嚴(yán)重失衡將導(dǎo)致模型對(duì)正常交易識(shí)別過(guò)度,對(duì)欺詐交易的樣本行為特征識(shí)別不足,嚴(yán)重影響模型的檢測(cè)效果[14-15]。在反欺詐研究中,欺詐交易的錯(cuò)分代價(jià)遠(yuǎn)遠(yuǎn)高于正常樣本的錯(cuò)分代價(jià),欺詐交易才是要重點(diǎn)關(guān)注的對(duì)象。
(4)部分交易特征高度相似,分類(lèi)難度大幅提升。
數(shù)據(jù)集類(lèi)別分布失衡并非信用支付欺詐識(shí)別任務(wù)中的主要難題,事實(shí)上,只要各類(lèi)分布可以被該類(lèi)樣本數(shù)據(jù)完全表達(dá),且不同類(lèi)別樣本之間不存在重疊,以圖2中的二維空間為例,如圖2(a)所示,即使數(shù)據(jù)集構(gòu)成比例嚴(yán)重失衡,傳統(tǒng)的分類(lèi)方法依舊可以取得較好的識(shí)別效果。但在信用支付欺詐識(shí)別問(wèn)題中,部分欺詐交易樣本表現(xiàn)出來(lái)的特征與正常交易的特征具有高度的相似性,將樣本映射在特征空間中如圖2(b)所示。如何優(yōu)化重疊區(qū)域的分類(lèi)問(wèn)題,是領(lǐng)域內(nèi)研究者解決信用支付欺詐識(shí)別問(wèn)題的主要矛盾,對(duì)重疊區(qū)域進(jìn)行量化表達(dá)并融入模型也是目前數(shù)字信用反欺詐研究領(lǐng)域的最新方向。
圖2 樣本在特征空間中的映射表示Fig.2 Mapping representation of samples in feature space
1.3.1 數(shù)據(jù)描述
表1羅列了實(shí)際業(yè)務(wù)場(chǎng)景中,新的交易申請(qǐng)發(fā)起時(shí)會(huì)被發(fā)卡機(jī)構(gòu)或三方支付機(jī)構(gòu)記錄的基本屬性,以展示信用支付欺詐交易識(shí)別特征表的主要框架。盡管交易特征表的具體結(jié)構(gòu)在不同的發(fā)卡機(jī)構(gòu)之間可能略有不同,但表1中涉及的特征在各機(jī)構(gòu)的數(shù)據(jù)庫(kù)中應(yīng)當(dāng)均有收錄且被應(yīng)用于欺詐交易識(shí)別模型的構(gòu)建中。
表1 信用支付欺詐交易識(shí)別特征Table 1 Features of credit payment fraud transactions
1.3.2 特征工程
在欺詐識(shí)別模型搭建中,基于原始數(shù)據(jù)對(duì)交易行為信息進(jìn)行總結(jié)和表示,構(gòu)建有效特征變量的特征工程是流程內(nèi)極為關(guān)鍵的一步,特征的質(zhì)量將直接影響模型的性能,具體來(lái)講,特征越好,靈活性越強(qiáng),構(gòu)建的模型也將越簡(jiǎn)單、性能越出色。
對(duì)于信用支付欺詐交易識(shí)別問(wèn)題,數(shù)據(jù)庫(kù)由不同用戶(hù)在相同時(shí)間跨度內(nèi)的歷史交易記錄構(gòu)成,但直接使用這些由表1 中初始特征組成的歷史信息建模是困難的。如果將單筆交易記錄作為建模對(duì)象,則忽略了不同用戶(hù)之間的異質(zhì)性與同一用戶(hù)不同交易之間的連續(xù)性,造成關(guān)聯(lián)賬戶(hù)歷史交易信息的丟失;如果將信用賬戶(hù)作為建模對(duì)象,使用每個(gè)賬戶(hù)的歷史交易記錄進(jìn)行獨(dú)立建模,雖然解決了上述問(wèn)題,但僅能用于重點(diǎn)客戶(hù)分析,在數(shù)字經(jīng)濟(jì)海量用戶(hù)的背景下無(wú)法大規(guī)模實(shí)施。因此,除去對(duì)現(xiàn)有特征進(jìn)行篩選與提煉,利用特征工程對(duì)用戶(hù)的歷史交易模式進(jìn)行歸納與總結(jié),作為新的特征補(bǔ)充到交易記錄中完善用戶(hù)畫(huà)像是保證欺詐識(shí)別模型有效性的重要基礎(chǔ)。
在現(xiàn)有的研究中,大多數(shù)學(xué)者結(jié)合RFM 框架進(jìn)行特征工程,其中R(recency)代表客戶(hù)當(dāng)前交易距上一次發(fā)生交易之間的時(shí)間間隔、F(fequency)代表客戶(hù)的交易頻率,M(monetary)代表客戶(hù)的消費(fèi)金額,配合不同跨度的時(shí)間窗口即可捕獲用戶(hù)長(zhǎng)、短期交易行為特征。
Zhang 等學(xué)者在研究中認(rèn)為RFM 框架雖然考慮了不同用戶(hù)之間的差異,但是忽略了信用支付交易自身的內(nèi)在異質(zhì)性,即使是同一用戶(hù)面對(duì)不同的交易類(lèi)型也具有不同的行為模式,因此在RFM 框架的基礎(chǔ)上提出了面向同質(zhì)性行為分析(homogeneityoriented behavior analysis,HOBA)的特征工程框架[16],配合交易聚合策略從交易類(lèi)型、聚合周期、交易行為、聚合統(tǒng)計(jì)指標(biāo)四方面完成了更精細(xì)的關(guān)聯(lián)賬戶(hù)歷史行為特征提取,使用不同的分類(lèi)器在中國(guó)最大的商業(yè)銀行提供的數(shù)據(jù)集上進(jìn)行檢驗(yàn),結(jié)果顯示經(jīng)過(guò)HOBA框架處理后的數(shù)據(jù)所構(gòu)建的模型識(shí)別精度有顯著的提高。
簡(jiǎn)單有效是RFM 框架的優(yōu)勢(shì),但數(shù)據(jù)集在結(jié)構(gòu)化存儲(chǔ)方式下,不同用戶(hù)間的交易樣本被默認(rèn)是相互獨(dú)立的,用戶(hù)之間諸如社會(huì)關(guān)系、交易位置在內(nèi)的空間聯(lián)系被完全忽略,無(wú)法將此類(lèi)非結(jié)構(gòu)關(guān)系信息提取到行為特征中。直到近年來(lái),以Node2Vec[17]、SDNE(structural deep network embedding)[18]為代表的圖嵌入算法的興起,將交易信息從結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為圖結(jié)構(gòu)數(shù)據(jù),并基于圖網(wǎng)絡(luò)從全局視角挖掘賬戶(hù)之間的空間聯(lián)系,生成新補(bǔ)充特征應(yīng)用于風(fēng)險(xiǎn)決策模型成為可能。Vlasselaer 等學(xué)者基于RFM 特征框架進(jìn)行改進(jìn),提出了APATE(anomaly prevention using advanced transaction exploration)[19]特征工程方法,一方面使用RFM 框架提取客戶(hù)消費(fèi)歷史的內(nèi)在特征,另一方面依據(jù)客戶(hù)與商家的聯(lián)系構(gòu)建了消費(fèi)者-商家信息網(wǎng)絡(luò),基于網(wǎng)絡(luò)為客戶(hù)建立時(shí)間依賴(lài)的信用評(píng)分,面對(duì)新傳入的交易申請(qǐng),網(wǎng)絡(luò)特征的加入使APATE框架在相同的分類(lèi)模型上呈現(xiàn)出更好的分類(lèi)效果。
RFM 框架和基于RFM 框架進(jìn)行改進(jìn)的特征工程方法很好地完成了分析用戶(hù)行為模式、完善用戶(hù)畫(huà)像的需求,但是略有不足的是上述方法需要研究者對(duì)業(yè)務(wù)具備深入理解,以手工構(gòu)造的方式進(jìn)行開(kāi)展。隨著數(shù)字經(jīng)濟(jì)的發(fā)展,不同機(jī)構(gòu)業(yè)務(wù)場(chǎng)景下的收錄特征與欺詐交易模式不盡相同,基于專(zhuān)家的手動(dòng)特征構(gòu)建方法難以滿(mǎn)足與日俱增的欺詐識(shí)別需求。由此,王成等學(xué)者提出面向網(wǎng)絡(luò)支付的自動(dòng)化特征工程方法[20],通過(guò)定制化轉(zhuǎn)換函數(shù)設(shè)計(jì)在特征集合上自動(dòng)生成潛在補(bǔ)充特征,依托決策樹(shù)模型對(duì)當(dāng)前特征重要性進(jìn)行排序并對(duì)數(shù)據(jù)集進(jìn)行劃分,若當(dāng)前最佳劃分屬性為生成特征,則將其保留并更新對(duì)應(yīng)轉(zhuǎn)換函數(shù)的權(quán)重,隨后在子節(jié)點(diǎn)中重復(fù)上述過(guò)程,直至達(dá)到結(jié)束條件。與隨機(jī)構(gòu)造、Cognito 等多種自動(dòng)化特征工程框架進(jìn)行對(duì)比,效率更快、精度更高。此類(lèi)自動(dòng)化特征工程方法也逐漸成為反欺詐研究前期特征挖掘階段的有利工具。圖結(jié)構(gòu)特征構(gòu)建也同樣趨于自動(dòng)化,文獻(xiàn)[19]率先將圖表征學(xué)習(xí)算法Graphsage[21]引入信用支付欺詐研究領(lǐng)域,無(wú)需繁瑣的手動(dòng)特征工程即可對(duì)消費(fèi)者-商家交易網(wǎng)絡(luò)進(jìn)行特征化處理,從交易網(wǎng)絡(luò)與結(jié)構(gòu)的視角提取用戶(hù)行為模式,相較于傳統(tǒng)的圖特征提取方法,提高了信用支付欺詐識(shí)別的效率和準(zhǔn)確性,有力展示了圖歸納表示學(xué)習(xí)在信用支付欺詐交易識(shí)別問(wèn)題上自動(dòng)提取特征的有效性。
通過(guò)1.2 節(jié)的分析,信用支付欺詐交易識(shí)別本質(zhì)上是一個(gè)面對(duì)極度不均衡數(shù)據(jù)集的二分類(lèi)問(wèn)題,現(xiàn)有研究中,對(duì)于不平衡數(shù)據(jù)集的建模思路主要分為兩類(lèi):(1)從數(shù)據(jù)層面出發(fā),主要思想在于通過(guò)重抽樣或者生成偽數(shù)據(jù)的方法對(duì)數(shù)據(jù)集進(jìn)行平衡,隨后運(yùn)用傳統(tǒng)的分類(lèi)方法進(jìn)行研究。(2)從模型層面出發(fā),從模型的理論切入,通過(guò)改進(jìn)分類(lèi)算法的損失函數(shù)或?qū)W習(xí)策略,提高對(duì)少數(shù)類(lèi)樣本特征的學(xué)習(xí)能力。其中代表性的算法為代價(jià)敏感分類(lèi)算法,對(duì)少數(shù)類(lèi)樣本施加一個(gè)較高的錯(cuò)分代價(jià)因子以達(dá)到提高分類(lèi)效果的目的[22-24]。在數(shù)字信用反欺詐研究業(yè)務(wù)中,嚴(yán)峻的類(lèi)別不平衡性與特征空間內(nèi)重疊區(qū)域樣本的存在,使得從單一層面進(jìn)行改進(jìn)的識(shí)別算法難以取得令人滿(mǎn)意的效果,因此相關(guān)研究者通常將兩個(gè)改進(jìn)方向進(jìn)行融合,雖然模型的復(fù)雜度有所提升,但也結(jié)合了兩者的優(yōu)點(diǎn),模型的性能更加穩(wěn)定。
為了準(zhǔn)確評(píng)估欺詐識(shí)別模型的性能,評(píng)價(jià)指標(biāo)的選取至關(guān)重要。面對(duì)正負(fù)類(lèi)樣本分布極度失衡的數(shù)據(jù)集,以分類(lèi)準(zhǔn)確率(Accuracy)為代表的經(jīng)典評(píng)價(jià)指標(biāo)會(huì)側(cè)重評(píng)估多數(shù)類(lèi)樣本(正常交易)的檢測(cè)結(jié)果。但反欺詐研究中,對(duì)少數(shù)類(lèi)樣本(欺詐交易)的識(shí)別性能才是重點(diǎn)關(guān)注的對(duì)象,誤判欺詐交易所帶來(lái)的損失要遠(yuǎn)高于正常交易的錯(cuò)分代價(jià),因此整體的分類(lèi)準(zhǔn)確率并不能迎合真實(shí)應(yīng)用中的業(yè)務(wù)需求。在目前研究中,通常在精確率(Precision)、召回率(Recall)、F1分?jǐn)?shù)(F1-score)、G-mean、馬修斯相關(guān)系數(shù)(Matthews correlation coefficient,MCC)以及AUROC值或AUPRC值中選取部分作為模型評(píng)價(jià)指標(biāo)。
本文將數(shù)據(jù)集中的欺詐樣本定義為正類(lèi),將正常樣本定義為負(fù)類(lèi),可得到混淆矩陣如表2所示。
表2 二分類(lèi)問(wèn)題的混淆矩陣Table 2 Confusion matrix of binary classification problem
(1)精確率(Precision):又稱(chēng)為查準(zhǔn)率,用來(lái)表示預(yù)測(cè)為正類(lèi)的樣本中被正確分類(lèi)的比重,通常會(huì)受到數(shù)據(jù)集不平衡率的影響,不平衡率越高對(duì)其影響越大。
(2)召回率(Recall/Sensitive/TPR(true positive rate)):又稱(chēng)查全率、靈敏度、真陽(yáng)性率,是模型對(duì)正類(lèi)樣本識(shí)別全面程度的一個(gè)度量。
(3)F1 分?jǐn)?shù)(F1-score):在不平衡分類(lèi)任務(wù)中,精確率和召回率通常是“此消彼長(zhǎng)”的關(guān)系,F(xiàn)1 分?jǐn)?shù)對(duì)精確率與召回率進(jìn)行了綜合,是兩者的調(diào)和平均值,同時(shí)考慮了正類(lèi)樣本檢測(cè)結(jié)果的準(zhǔn)確性與全面性。在評(píng)價(jià)過(guò)程中,F(xiàn)1分?jǐn)?shù)的值越高,認(rèn)為分類(lèi)器的性能越好。
(4)G-mean:G-mean 同時(shí)度量了正類(lèi)樣本和負(fù)類(lèi)樣本檢測(cè)結(jié)果的全面性,優(yōu)點(diǎn)為對(duì)數(shù)據(jù)集中類(lèi)別分布不敏感,評(píng)價(jià)過(guò)程中,G-mean 值越高,分類(lèi)器的性能越好。
(5)馬修斯相關(guān)系數(shù)(MCC):馬修斯相關(guān)系數(shù)同時(shí)考慮到正類(lèi)樣本與負(fù)類(lèi)樣本的識(shí)別性能,本質(zhì)上是樣本真實(shí)情況與基于分類(lèi)器得到預(yù)測(cè)結(jié)果之間的相關(guān)系數(shù),馬修斯相關(guān)系數(shù)的取值范圍為[-1,1],取值為1時(shí),代表模型識(shí)別結(jié)果與真實(shí)情況完全相同,取值為-1時(shí)代表模型識(shí)別結(jié)果與真實(shí)情況完全不符。
(6)AUROC值與AUPRC值
ROC 曲線(xiàn)全稱(chēng)為“受試者工作曲線(xiàn)”(receiver operating curve),橫坐標(biāo)為假陽(yáng)性率(FPR:假正例FP在全部真實(shí)負(fù)例樣本中的占比),縱坐標(biāo)為真陽(yáng)性率(TPR)即召回率,對(duì)每一個(gè)分類(lèi)閾值,分類(lèi)器都會(huì)給出對(duì)應(yīng)的FPR 與TPR 值(對(duì)應(yīng)坐標(biāo)系中的一個(gè)點(diǎn)),所有坐標(biāo)點(diǎn)連接而成的平滑曲線(xiàn)即為ROC 曲線(xiàn)。AUC 值(一般特指AUROC)則是ROC 曲線(xiàn)下的面積,能夠量化地反映基于ROC 曲線(xiàn)衡量出的模型性能,AUC值越大,模型的分類(lèi)性能越好。
P-R 曲線(xiàn)全稱(chēng)“精確率-召回率曲線(xiàn)”(precisionrecall curve),橫坐標(biāo)為召回率,縱坐標(biāo)為精確率,同F(xiàn)1-score 一樣是對(duì)上述兩個(gè)指標(biāo)的綜合度量,P-R曲線(xiàn)的繪制方法與ROC 曲線(xiàn)相似,AUPRC 值則是P-R曲線(xiàn)下的面積,AUPRC值越大,模型的分類(lèi)性能越好。
AUROC 值與AUPRC 值計(jì)算方式相似,均通過(guò)計(jì)算曲線(xiàn)下面積度量模型性能,但在實(shí)際應(yīng)用中存在差異。相比P-R曲線(xiàn),ROC曲線(xiàn)的形狀在正負(fù)樣本的分布發(fā)生變動(dòng)時(shí)能夠基本保持不變,但P-R曲線(xiàn)會(huì)發(fā)生較強(qiáng)烈的變化。這個(gè)特點(diǎn)讓AUROC 值能夠降低不同測(cè)試集帶來(lái)的干擾,更加客觀地衡量模型的自身性能,但當(dāng)研究需要測(cè)評(píng)模型在某特定數(shù)據(jù)集上的表現(xiàn)時(shí),AUPRC值更加直觀。
數(shù)據(jù)均衡算法的目的在于通過(guò)對(duì)數(shù)據(jù)集進(jìn)行調(diào)整,抵消樣本分布占比不均衡帶來(lái)的負(fù)面影響,使處理后的數(shù)據(jù)集能夠滿(mǎn)足傳統(tǒng)分類(lèi)算法的需求,而在數(shù)字信用反欺詐研究中,海量的正常交易樣本已經(jīng)使得正常用戶(hù)的行為特征得到充分表達(dá),如何通過(guò)過(guò)采樣技術(shù)對(duì)欺詐交易樣本進(jìn)行補(bǔ)充是領(lǐng)域內(nèi)的研究重點(diǎn)。本章將重點(diǎn)對(duì)欺詐交易識(shí)別領(lǐng)域運(yùn)用到的數(shù)據(jù)均衡算法進(jìn)行總結(jié)。
目前對(duì)數(shù)據(jù)集進(jìn)行平衡的方法可分為從重抽樣角度出發(fā)和從數(shù)據(jù)分布角度出發(fā)兩個(gè)思路,如表3所示:重抽樣角度下的均衡算法提出時(shí)間早,理論簡(jiǎn)單,應(yīng)用廣泛,但過(guò)于依賴(lài)于已有樣本數(shù)據(jù)的特征表現(xiàn),沒(méi)有考慮到數(shù)據(jù)集的整體分布情況;基于數(shù)據(jù)分布角度的算法彌補(bǔ)了這一不足,其中生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)是近年來(lái)深度學(xué)習(xí)技術(shù)在分類(lèi)問(wèn)題上的最新成果,采用內(nèi)部對(duì)抗機(jī)制對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,擬合數(shù)據(jù)的實(shí)際分布,在學(xué)術(shù)界和工業(yè)界均受到廣泛關(guān)注,是該類(lèi)方法中最具代表性的前沿算法,缺點(diǎn)是理論較為復(fù)雜,時(shí)間復(fù)雜度有所增加。表4 對(duì)各類(lèi)數(shù)據(jù)均衡算法的優(yōu)點(diǎn)與局限性進(jìn)行了細(xì)致的總結(jié)與歸納。
表3 數(shù)字信用反欺詐研究中的數(shù)據(jù)均衡算法Table 3 Data balance algorithms in anti-fraud research of digital credit
表4 各類(lèi)數(shù)據(jù)均衡算法的優(yōu)點(diǎn)與局限性Table 4 Advantages and limitations of various data balance algorithms
基于重抽樣技術(shù)對(duì)數(shù)據(jù)集進(jìn)行補(bǔ)充的策略中,最早被提出的算法為隨機(jī)過(guò)采樣與隨機(jī)欠采樣技術(shù)。隨機(jī)過(guò)采樣技術(shù)通過(guò)對(duì)少數(shù)類(lèi)樣本進(jìn)行簡(jiǎn)單隨機(jī)的重復(fù)抽取,達(dá)到平衡數(shù)據(jù)集的目的,適用于數(shù)據(jù)集不平衡度較輕的場(chǎng)景,在樣本構(gòu)成差異過(guò)大的數(shù)據(jù)集中,隨機(jī)過(guò)采樣方法容易產(chǎn)生過(guò)擬合問(wèn)題。隨機(jī)欠采樣技術(shù)旨在通過(guò)對(duì)多數(shù)類(lèi)樣本進(jìn)行隨機(jī)的刪減,縮小樣本量間的差距,但是隨機(jī)欠采樣技術(shù)很容易將一些重要的多數(shù)類(lèi)樣本刪除。
為了解決隨機(jī)重采樣技術(shù)的上述缺陷,學(xué)者們將重點(diǎn)從樣本點(diǎn)本身轉(zhuǎn)向了樣本點(diǎn)的局部鄰域。Chawla等學(xué)者[25]提出了SMOTE(synthetic minority oversampling technique)算法,將少數(shù)類(lèi)中的每個(gè)樣本點(diǎn)均作為一個(gè)種子,尋找其相同類(lèi)別的K-近鄰(K-nearest neighbor,K-NN)樣本,按照一定的比例在近鄰樣本與種子樣本之間生成新樣本,對(duì)少數(shù)類(lèi)樣本進(jìn)行補(bǔ)充。He 等學(xué)者[26]進(jìn)一步提出ADASYN(adaptive synthetic sampling approach for imbalanced learning)方法,分析了每個(gè)種子樣本K-鄰域中多數(shù)類(lèi)樣本的分布情況,結(jié)合數(shù)據(jù)不平衡率合成樣本,自適應(yīng)地將決策邊界轉(zhuǎn)移到難以學(xué)習(xí)的樣本。上述算法一經(jīng)提出便受到了學(xué)者們的廣泛接納,但是存在以下兩方面問(wèn)題:首先SMOTE 與ADASYN 算法將少數(shù)類(lèi)別中的所有樣本均作為種子點(diǎn)生成新樣本,忽略了樣本中異常點(diǎn)的問(wèn)題,從而導(dǎo)致生成的樣本中存在噪聲節(jié)點(diǎn);其次,沒(méi)有考慮到種子節(jié)點(diǎn)與K-近鄰節(jié)點(diǎn)間多數(shù)類(lèi)樣本的特征分布情況,盲目地生成均衡樣本會(huì)加重?cái)?shù)據(jù)集在特征空間中的重疊區(qū)域的復(fù)雜度,使該部分樣本更加難以區(qū)分[27-28]。
針對(duì)上述不足,Batista等學(xué)者[29]提出了欠采樣與過(guò)采樣技術(shù)相結(jié)合的方法,從而減少均衡數(shù)據(jù)時(shí)需要補(bǔ)充的欺詐樣本數(shù)量。Han等學(xué)者[30]對(duì)樣本點(diǎn)局部鄰域的分布情況進(jìn)行更加深入的研究,提出Borderline-SMOTE 方法,將少數(shù)類(lèi)樣本分為安全樣本、危險(xiǎn)樣本與噪音樣本,僅使用邊界上的樣本作為種子生成新樣本點(diǎn),緩解了噪音節(jié)點(diǎn)的生成;隨后的Safe Level SMOTE[31]、LN-SMOTE(local neighbourhood extension of SMOTE)[32]兩種技術(shù)在Borderline-SMOTE算法基礎(chǔ)上不僅關(guān)注種子樣本局部子區(qū)域的分布,而且對(duì)其近鄰樣本的鄰域進(jìn)行分析,基于鄰域分布確定樣本合成權(quán)重,噪聲樣本點(diǎn)的問(wèn)題進(jìn)一步得以遏制,但仍沒(méi)有關(guān)注均衡樣本對(duì)重疊區(qū)域造成的影響。直到Napierala 與Stefanowski 兩位學(xué)者[33]從數(shù)據(jù)集的結(jié)構(gòu)特征出發(fā),將少數(shù)類(lèi)樣本劃分為安全樣本、邊界樣本、稀有樣本和異常值四種情況,通過(guò)分析各類(lèi)初始樣本生成的均衡樣本對(duì)不平衡分類(lèi)器的影響,為解決均衡樣本會(huì)加重重疊區(qū)域復(fù)雜度的問(wèn)題提供了思路。
在最新的研究中,王芳等學(xué)者[34]在Borderline-SMOTE 的基礎(chǔ)上提出了鄰域自適應(yīng)SMOTE 算法(neighborhood adaptive SMOTE algorithm,AdaNSMOTE),通過(guò)跟蹤少數(shù)類(lèi)樣本點(diǎn)與其近鄰樣本構(gòu)成的超矩形區(qū)域內(nèi)的精度變化,自動(dòng)為每個(gè)少數(shù)類(lèi)樣本點(diǎn)確定要合成的少數(shù)類(lèi)樣本數(shù)量,使過(guò)采樣后的數(shù)據(jù)集可以更逼近原始少數(shù)類(lèi)樣本的分布。梅大成等學(xué)者[35]面對(duì)SMOTE算法及其改進(jìn)算法均比較依賴(lài)原始數(shù)據(jù)集分布的問(wèn)題,提出了邊界與密度自適應(yīng)的SMOTE 算法(SMOTE algorithm for feature boundary and density adaptation,BDA-SMOTE),一方面對(duì)局部的少數(shù)類(lèi)樣本進(jìn)行密度調(diào)整,通過(guò)非線(xiàn)性映射擴(kuò)大少數(shù)類(lèi)樣本局部密度的差異,減少噪聲樣本的干擾,另一方面將根據(jù)特征邊界的特性將數(shù)據(jù)分為邊界與非邊界樣本,通過(guò)設(shè)定不同的安全區(qū)域擴(kuò)展數(shù)據(jù)的原始分布,有效防止邊界混淆與過(guò)擬合,但性能提升的背后是模型復(fù)雜度的大幅增加,可能會(huì)成為其應(yīng)用于大規(guī)模數(shù)據(jù)時(shí)的嚴(yán)重阻礙。張忠良等學(xué)者[36]將SMOTE算法與Boosting集成學(xué)習(xí)算法結(jié)合起來(lái)構(gòu)建了一種基于高斯過(guò)采樣的集成學(xué)習(xí)算法(GSMOTEBoost),增加基分類(lèi)器多樣性的同時(shí),提高分類(lèi)系統(tǒng)的魯棒性。
文獻(xiàn)[35-36]從種子節(jié)點(diǎn)的鄰域出發(fā),有意識(shí)地關(guān)注均衡樣本對(duì)近鄰空間內(nèi)數(shù)據(jù)分布的影響,生成的均衡樣本更加穩(wěn)健,但上述研究并不能反映數(shù)據(jù)集均衡前后全局特征空間內(nèi)重疊區(qū)域的變動(dòng)情況。如何將重疊度即重疊區(qū)域的樣本量在數(shù)據(jù)集中的占比作為監(jiān)督指標(biāo)融入到欺詐識(shí)別模型中,做到均衡數(shù)據(jù)集的同時(shí)優(yōu)化樣本在特征空間中的分布成為學(xué)者們的最新研究方向。Omar等學(xué)者[37]基于K-近鄰算法定義了用于表征數(shù)據(jù)集重疊度的新指標(biāo)Aug-R,并將ADASYN算法與特征選擇技術(shù)結(jié)合起來(lái)提出了ROA算法(reduce overlapping with ADASYN)。ADASYN 算法用于對(duì)數(shù)據(jù)集進(jìn)行均衡,基于彈性網(wǎng)算法構(gòu)造損失函數(shù)對(duì)數(shù)據(jù)集進(jìn)行特征選擇,模型中的超參數(shù)則以最小化Aug-R進(jìn)行確定。實(shí)驗(yàn)結(jié)果顯示,運(yùn)用ROA算法均衡后的數(shù)據(jù)集訓(xùn)練出的邏輯回歸模型與支持向量機(jī)的欺詐識(shí)別性能大幅提升,為基于重抽樣角度的信用支付欺詐交易識(shí)別模型提供了新研究方向。
生成對(duì)抗網(wǎng)絡(luò)(GAN)[38]是生成式模型最新的、也是目前最為成功的一項(xiàng)技術(shù)。模型的構(gòu)建受到了博弈論中零和博弈思想的啟發(fā),由生成器(generator)與判別器(discriminator)兩個(gè)子網(wǎng)絡(luò)構(gòu)成。生成器基于給定的隨機(jī)噪聲合成數(shù)據(jù),目的是產(chǎn)生和真實(shí)樣本相似的偽樣本,來(lái)混淆判別器使其無(wú)法判別;判別器用來(lái)判別輸入的樣本是真實(shí)樣本還是偽樣本。在訓(xùn)練過(guò)程中,前者試圖產(chǎn)生更接近真實(shí)數(shù)據(jù)的偽樣本,后者試圖更完美地分辨真實(shí)數(shù)據(jù)與來(lái)自生成器的合成數(shù)據(jù),兩個(gè)子網(wǎng)絡(luò)在對(duì)抗中進(jìn)化,進(jìn)化后再投入到下一輪的對(duì)抗訓(xùn)練中,當(dāng)生成器學(xué)習(xí)到真實(shí)數(shù)據(jù)的樣本分布時(shí),模型訓(xùn)練達(dá)到最終的平衡點(diǎn),生成對(duì)抗網(wǎng)絡(luò)的流程圖如圖3所示。
圖3 生成對(duì)抗網(wǎng)絡(luò)流程圖Fig.3 Flow chart of generative adversarial network
由于生成對(duì)抗網(wǎng)絡(luò)可以模擬真實(shí)樣本數(shù)據(jù)的分布,經(jīng)過(guò)生成器生成的偽樣本可看作從真實(shí)樣本的分布中采樣得到的,有效避免了重采樣和局部采樣產(chǎn)生的均衡樣本會(huì)增加重疊區(qū)域復(fù)雜度的問(wèn)題。
Fiore等學(xué)者[39]率先將GAN應(yīng)用到欺詐交易識(shí)別領(lǐng)域,通過(guò)擬合欺詐交易樣本的分布模式,生成偽欺詐交易樣本完成對(duì)數(shù)據(jù)集的補(bǔ)充。文章選取了SMOTE 算法作為對(duì)比模型,并測(cè)試了融入不同數(shù)量偽樣本的訓(xùn)練數(shù)據(jù)集對(duì)欺詐識(shí)別模型性能的影響,當(dāng)生成的偽樣本數(shù)量為數(shù)據(jù)集中原有欺詐樣本數(shù)量的兩倍時(shí),模型性能的提升效果最為顯著。
趙海霞等學(xué)者同樣將最新的重疊度理論引用到基于GAN的欺詐識(shí)別模型構(gòu)建中,提出了RECGAN(re-sampling method based on CGAN)算法[40],文章運(yùn)用K-NN算法度量樣本點(diǎn)周?chē)鷶?shù)據(jù)的分布情況,將數(shù)據(jù)集分為安全樣本、邊界樣本和噪聲樣本,利用正類(lèi)樣本中邊界樣本所占的比例表示整體數(shù)據(jù)集的重疊度。隨后用條件生成對(duì)抗網(wǎng)絡(luò)(conditional generative adversarial network,CGAN)和欠采樣技術(shù)對(duì)重疊區(qū)間的樣本進(jìn)行均衡,與多個(gè)基于重抽樣算法的欺詐識(shí)別模型相比,算法的識(shí)別性能與魯棒性均得到提升,作為最新的研究思路,該模型未來(lái)有很大的提升空間。
通過(guò)改變分類(lèi)模型的損失函數(shù)或?qū)W習(xí)策略使模型在訓(xùn)練時(shí)對(duì)少數(shù)類(lèi)樣本即欺詐交易投入更多的精力,抵消數(shù)據(jù)集類(lèi)別分布不均衡帶來(lái)的負(fù)面影響是基于模型層面構(gòu)造欺詐交易識(shí)別模型的主要思想。在數(shù)字信用交易反欺詐研究中,欺詐交易與正常交易樣本量之間的差距過(guò)于懸殊,單從模型層面進(jìn)行優(yōu)化容易產(chǎn)生過(guò)擬合的問(wèn)題,因此數(shù)據(jù)科學(xué)家普遍從數(shù)據(jù)與模型層面同時(shí)改進(jìn),首先對(duì)數(shù)據(jù)集的類(lèi)別分布進(jìn)行調(diào)整,隨后運(yùn)用改進(jìn)后的欺詐識(shí)別模型進(jìn)行處理,以增強(qiáng)模型的泛化性。其中數(shù)據(jù)均衡算法及前沿進(jìn)展已在第2章進(jìn)行總結(jié),因此本章主要匯總基于模型層面的反欺詐研究成果。
現(xiàn)有信用支付欺詐交易識(shí)別模型根據(jù)訓(xùn)練時(shí)使用的數(shù)據(jù)集類(lèi)型可以分為基于有監(jiān)督學(xué)習(xí)算法、無(wú)監(jiān)督異常點(diǎn)檢測(cè)技術(shù)和半監(jiān)督學(xué)習(xí)框架的欺詐交易識(shí)別模型,如表5所示。
表5 基于模型層面構(gòu)建的信用支付欺詐交易識(shí)別模型Table 5 Credit payment fraud transaction identification model based on model level
基于有監(jiān)督學(xué)習(xí)的數(shù)字交易欺詐識(shí)別技術(shù)依賴(lài)于已知交易結(jié)果的歷史交易數(shù)據(jù)集,通過(guò)提取歷史數(shù)據(jù)中的欺詐交易與正常交易的行為特征,對(duì)新的交易行為進(jìn)行判斷。模型對(duì)標(biāo)注數(shù)據(jù)集的準(zhǔn)確性要求較高,理論基礎(chǔ)較為成熟。文獻(xiàn)[9]匯總了信用支付欺詐識(shí)別領(lǐng)域近10 年內(nèi)的優(yōu)秀研究成果,對(duì)其中涉及的數(shù)據(jù)挖掘算法按照出現(xiàn)的頻率進(jìn)行排序,頻率越高,代表該類(lèi)方法越受到學(xué)者們的關(guān)注。本文參考該關(guān)注度排序展開(kāi)論述,對(duì)研究方法與研究進(jìn)展進(jìn)行補(bǔ)充。
3.1.1 支持向量機(jī)
支持向量機(jī)(support vector machine,SVM)是一類(lèi)二分類(lèi)學(xué)習(xí)算法,基本模型是定義在特征空間上的間隔最大線(xiàn)性分類(lèi)器。面對(duì)非線(xiàn)性可分的數(shù)據(jù)集,核函數(shù)與軟間隔技術(shù)的應(yīng)用可將輸入樣本從原始空間映射到更高維的特征空間,在新特征空間中構(gòu)建超球面作為決策邊界完成對(duì)數(shù)據(jù)類(lèi)別的劃分,使SVM成為實(shí)質(zhì)上的非線(xiàn)性分類(lèi)器適用于更多的業(yè)務(wù)場(chǎng)景。
面對(duì)維度不斷增加的交易特征,Xu和Liu兩位學(xué)者[41]率先將基于高斯核函數(shù)優(yōu)化的SVM 模型用于識(shí)別在線(xiàn)信用支付中的欺詐交易,依托核技術(shù)解決了原始數(shù)據(jù)集稀疏性帶來(lái)的維度詛咒問(wèn)題,并給出面對(duì)不同數(shù)據(jù)集時(shí)的優(yōu)化方法。效率提升方面,Mareeswari 和Gunasekaran 兩位學(xué)者[42]將基于高斯核函數(shù)的混合支持向量機(jī)(hybrid support vector machine,HSVM)分別與社區(qū)和尖峰檢測(cè)技術(shù)(spike detection)結(jié)合起來(lái)構(gòu)建了一套實(shí)時(shí)檢測(cè)系統(tǒng)識(shí)別欺詐行為,解決了現(xiàn)有欺詐識(shí)別模型在信用支付申請(qǐng)時(shí)的身份檢測(cè)環(huán)節(jié)泛化性能差、響應(yīng)時(shí)間長(zhǎng)等問(wèn)題,但缺少對(duì)實(shí)驗(yàn)數(shù)據(jù)集的詳細(xì)描述。Spark是專(zhuān)為大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)的快速通用的計(jì)算引擎,Gyamfi 等學(xué)者[43]為緩解交易數(shù)據(jù)集規(guī)模不斷增長(zhǎng)對(duì)服務(wù)器帶來(lái)的壓力,將Spark 技術(shù)與SVM 相結(jié)合,提出了專(zhuān)門(mén)處理大規(guī)模數(shù)據(jù)的欺詐識(shí)別模型,并在特征提取步驟使用了線(xiàn)性回歸與邏輯回歸技術(shù)作為輔助,與后向傳播神經(jīng)網(wǎng)絡(luò)(back propagation network,BPN)相比,在保證性能的同時(shí)有效減少了模型訓(xùn)練所需要的時(shí)間。
3.1.2 邏輯回歸模型
邏輯回歸模型(logistic regression,LR)是信貸風(fēng)控領(lǐng)域中最基礎(chǔ)也最常用的模型,基于特征表現(xiàn)對(duì)交易樣本的所屬類(lèi)別進(jìn)行預(yù)測(cè)。公式由條件概率分布P(Y|X)表示,形式為參數(shù)化的logistic分布。
其中,x∈Rn為輸入,Y∈{0,1}為輸出,w∈Rn,b∈R 為參數(shù),其中w為權(quán)值向量,b為偏置。
邏輯回歸作為經(jīng)典的分類(lèi)模型可以在線(xiàn)性分類(lèi)問(wèn)題中取得很好的效果,結(jié)果具有可解釋性,但在高維大數(shù)據(jù)集下,識(shí)別性能與其他算法相比稍顯不足,需要配合強(qiáng)而有效的數(shù)據(jù)預(yù)處理手段一同應(yīng)用。
在Omar 等學(xué)者[37]的研究中,基于原始有偏數(shù)據(jù)集訓(xùn)練得到的邏輯回歸模型無(wú)法有效提取欺詐交易的特征,直接導(dǎo)致對(duì)欺詐樣本識(shí)別結(jié)果的精確性嚴(yán)重不足,但在以減少重疊樣本復(fù)雜度為目標(biāo)對(duì)數(shù)據(jù)集進(jìn)行特征篩選與數(shù)據(jù)均衡后,新數(shù)據(jù)集下的邏輯回歸模型性能得到顯著提升,同等數(shù)據(jù)環(huán)境下與SVM模型持平。同樣在文獻(xiàn)[44]中,Itoo等學(xué)者基于歐洲數(shù)字信用支付交易數(shù)據(jù)集測(cè)試分別由邏輯回歸、樸素貝葉斯、K-近鄰算法搭建的三類(lèi)反欺詐算法性能,文章使用隨機(jī)下采樣的方法緩解不均衡數(shù)據(jù)集對(duì)模型的影響,生成了欺詐交易樣本量占比分別為50%、34%、25%三類(lèi)數(shù)據(jù)集,實(shí)驗(yàn)顯示,在任一數(shù)據(jù)集下,邏輯回歸在F1-score、AUC 值等評(píng)判準(zhǔn)則下均發(fā)揮了更好的性能。
3.1.3 神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)
神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)是一類(lèi)受人腦神經(jīng)系統(tǒng)工作方式啟發(fā)而構(gòu)造的數(shù)學(xué)模型,通過(guò)大量的人工神經(jīng)元及神經(jīng)元之間的聯(lián)結(jié)進(jìn)行計(jì)算,能夠感知外界信息從而自適應(yīng)地改變內(nèi)部結(jié)構(gòu)。在數(shù)字信用交易反欺詐研究中,常用來(lái)對(duì)數(shù)據(jù)間的復(fù)雜關(guān)系進(jìn)行深入挖掘,其網(wǎng)絡(luò)結(jié)構(gòu)如圖4[45]所示。
作為反欺詐研究領(lǐng)域的新晉模型,Randhawa 等學(xué)者[46]分別在公開(kāi)數(shù)據(jù)集與私有業(yè)務(wù)數(shù)據(jù)集上對(duì)比了包含神經(jīng)網(wǎng)絡(luò)、SVM、LR 在內(nèi)的12 種Baseline 算法,并基于投票法和Adaboost 技術(shù)對(duì)分類(lèi)器進(jìn)行集成,進(jìn)一步研究算法間的性能差異。MCC 下的評(píng)估結(jié)果顯示,在單一分類(lèi)器的對(duì)比中,神經(jīng)網(wǎng)絡(luò)以0.001的差距位于第二;但在集成算法對(duì)比中,以ANN為主體的Adaboost-NN算法與神經(jīng)網(wǎng)絡(luò)+樸素貝葉斯的組合算法表現(xiàn)出了最好的識(shí)別性能。
為了解決樣本分布不均衡導(dǎo)致神經(jīng)網(wǎng)絡(luò)對(duì)欺詐樣本識(shí)別精度不足,Ghobadi、Rohani 兩位學(xué)者[47]將Meta Cost 算法與ANN 結(jié)合構(gòu)造了代價(jià)敏感神經(jīng)網(wǎng)絡(luò)(cost sensitive neural network,CSNN),通過(guò)為標(biāo)記正確的欺詐交易分配負(fù)類(lèi)錯(cuò)分代價(jià),給予標(biāo)記錯(cuò)誤的正常交易與欺詐交易不同程度的正類(lèi)錯(cuò)分代價(jià)來(lái)重構(gòu)損失函數(shù),有效降低誤判率的同時(shí)最小化由誤判為銀行帶來(lái)的經(jīng)濟(jì)損失。楊蓮等學(xué)者[48]以樣本在反向傳播網(wǎng)絡(luò)(backward propagation neural network,BPNN)上的識(shí)別結(jié)果與真實(shí)標(biāo)簽的偏差作為參考,結(jié)合焦點(diǎn)損失(focal loss)函數(shù)對(duì)神經(jīng)網(wǎng)絡(luò)中的損失函數(shù)進(jìn)行調(diào)整,使模型的訓(xùn)練更加偏向于難以判別的“困難樣本”,而此類(lèi)“困難樣本”正對(duì)應(yīng)于特征空間中的重疊區(qū)域,該思想有效地提升模型對(duì)困難樣本的識(shí)別能力,改善了欺詐樣本檢測(cè)性能。
另一方面,伴隨數(shù)據(jù)科學(xué)的發(fā)展與硬件設(shè)施的更迭,信息技術(shù)的瓶頸逐步從數(shù)據(jù)獲取與計(jì)算轉(zhuǎn)向如何面對(duì)海量多源異構(gòu)數(shù)據(jù)進(jìn)行信息抽取與知識(shí)轉(zhuǎn)換[49]。在此契機(jī)下,擁有強(qiáng)大數(shù)據(jù)抽象化表征能力與端到端學(xué)習(xí)方式的深度學(xué)習(xí)技術(shù)迅速崛起,基于深度學(xué)習(xí)的感知認(rèn)知技術(shù)也在金融風(fēng)險(xiǎn)預(yù)警中獲得廣泛應(yīng)用[50]。
在信用支付欺詐交易識(shí)別研究中,以循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)為代表的深度序列模型受到了研究者的廣泛關(guān)注。RNN被設(shè)計(jì)用于處理具有序列特征的數(shù)據(jù),如時(shí)間序列數(shù)據(jù)、文本序列數(shù)據(jù)等。通過(guò)將當(dāng)前時(shí)刻的數(shù)據(jù)與上一時(shí)刻的網(wǎng)絡(luò)狀態(tài)一同傳入當(dāng)前時(shí)刻的網(wǎng)絡(luò)進(jìn)行訓(xùn)練,從而對(duì)數(shù)據(jù)中的時(shí)間依賴(lài)關(guān)系進(jìn)行建模。但后續(xù)研究發(fā)現(xiàn)RNN模型在處理長(zhǎng)期序列數(shù)據(jù)時(shí)會(huì)出現(xiàn)梯度爆炸或梯度消失問(wèn)題,無(wú)法有效學(xué)習(xí)和利用序列的早期信息,因此進(jìn)一步提出了長(zhǎng)短期記憶模型(long shortterm memory,LSTM)[51]與門(mén)控循環(huán)單元(gated recurrent unit,GRU)[52]。LSTM 在傳統(tǒng)的RNN 網(wǎng)絡(luò)結(jié)構(gòu)上添加了輸入門(mén)、遺忘門(mén)和輸出門(mén),通過(guò)門(mén)控結(jié)構(gòu)解決長(zhǎng)期依賴(lài)問(wèn)題;GRU 模型在保持相近性能的同時(shí)對(duì)LSTM進(jìn)行了簡(jiǎn)化,分別引入重置門(mén)與更新門(mén)輔助模型捕獲序列中的短期與長(zhǎng)期依賴(lài)關(guān)系,LSTM 與GRU 模型的網(wǎng)絡(luò)結(jié)構(gòu)分別如圖5、圖6[45]所示。與傳統(tǒng)ANN 和深度卷積神經(jīng)網(wǎng)絡(luò)相比,基于LSTM 與GRU 算法的反欺詐模型誤報(bào)率低,準(zhǔn)確率與穩(wěn)健性高,成為反欺詐研究中應(yīng)用最廣泛的RNN 算法[53-54]。在文獻(xiàn)[55]中,Benchaji 等學(xué)者進(jìn)一步挖掘數(shù)據(jù)集中蘊(yùn)含的序列特征,提出融合注意力(Attention)機(jī)制的交易序列欺詐識(shí)別模型,與以往的研究相比,Attention機(jī)制不僅考慮了交易序列中的順序性,也具備識(shí)別序列中相對(duì)重要交易的能力,從而以更高的準(zhǔn)確度預(yù)測(cè)欺詐交易,在保證準(zhǔn)確性的同時(shí),顯著提升了欺詐交易的識(shí)別覆蓋率。
圖5 LSTM模型中數(shù)據(jù)流的圖形化演示Fig.5 Graphical demonstration of data flow in LSTM
圖6 GRU模型中數(shù)據(jù)流的圖形化演示Fig.6 Graphical demonstration of data flow in GRU
除去被應(yīng)用于欺詐交易識(shí)別模型建模中,強(qiáng)大的抽象表征能力使深度學(xué)習(xí)在作為集成學(xué)習(xí)的融合策略時(shí)同樣受到廣泛關(guān)注。為解決信用支付交易數(shù)據(jù)集的嚴(yán)重不均衡問(wèn)題,劉穎等學(xué)者構(gòu)建了基于深度集成學(xué)習(xí)的欺詐檢測(cè)算法[56],將SVM與RF串聯(lián)形成基分類(lèi)器,SVM 用于識(shí)別訓(xùn)練集中顯著的正常交易模式與欺詐交易模式,RF則用于對(duì)SVM分類(lèi)錯(cuò)誤的樣本進(jìn)行二次學(xué)習(xí),緩解SVM 面對(duì)極度不均衡數(shù)據(jù)易產(chǎn)生的分類(lèi)超平面偏移問(wèn)題,最終的模型融合階段選擇深度信念網(wǎng)絡(luò)(deep belief network,DBN)進(jìn)行集成,相較于傳統(tǒng)的投票機(jī)制,欺詐交易的誤判率顯著降低。Forough 等學(xué)者[57]則將LSTM 模型與GRU模型作為基學(xué)習(xí)器對(duì)數(shù)據(jù)集中的欺詐交易模式進(jìn)行提取,選擇人工神經(jīng)網(wǎng)絡(luò)作為新的投票機(jī)制對(duì)結(jié)果進(jìn)行集成,實(shí)驗(yàn)顯示,無(wú)論哪種深度序列模型作為基學(xué)習(xí)器,基于人工神經(jīng)網(wǎng)絡(luò)集成后得到的識(shí)別結(jié)果均優(yōu)于投票機(jī)制(voting)下得到的識(shí)別結(jié)果,且基分類(lèi)器越少性能提升越明顯,對(duì)模型的最終成果具有重大貢獻(xiàn)。
最后,伴隨AlphaGo 及其升級(jí)版本的橫空出世,強(qiáng)化學(xué)習(xí)相關(guān)概念在業(yè)界引起廣泛關(guān)注,Bouchti 等學(xué)者在文獻(xiàn)[58]中詳細(xì)介紹了深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)的理論及其在數(shù)字支付環(huán)境中進(jìn)行欺詐檢測(cè)與風(fēng)險(xiǎn)管理的潛在應(yīng)用。文章通過(guò)討論有關(guān)DRL 的幾個(gè)有趣案例,揭示了未來(lái)研究中DRL方法的競(jìng)爭(zhēng)力所在。雖然整篇論文偏向理論化,實(shí)證檢驗(yàn)部分略顯不足,但提供了一種處理欺詐檢測(cè)任務(wù)的新視角。
3.1.4 K-近鄰算法
K-近鄰(K-NN)算法[59]是一類(lèi)基于實(shí)例的分類(lèi)與回歸算法,通過(guò)在數(shù)據(jù)集中尋找與待預(yù)測(cè)交易樣本相似度最高的k條樣本,選取其中類(lèi)別占比最多的標(biāo)簽作為待預(yù)測(cè)交易的預(yù)測(cè)結(jié)果。
Malini 與Pushpa 兩位學(xué)者[60]詳細(xì)介紹了K-近鄰算法與異常檢測(cè)技術(shù)的建模思想,從理論的角度論述了算法在欺詐檢測(cè)任務(wù)中的優(yōu)勢(shì),但是文章沒(méi)有進(jìn)行實(shí)證檢驗(yàn),論據(jù)稍顯不足。Awoyemi等學(xué)者[61]認(rèn)為欺詐交易識(shí)別困難的原因在于交易特征隨時(shí)間改變的動(dòng)態(tài)性與數(shù)據(jù)集的嚴(yán)重有偏性,文章將欠采樣與過(guò)采樣技術(shù)結(jié)合起來(lái)對(duì)數(shù)據(jù)進(jìn)行均衡,構(gòu)造了兩類(lèi)不同比率的數(shù)據(jù)集進(jìn)行對(duì)比。隨機(jī)過(guò)采樣技術(shù)使得欺詐樣本的特征更為明顯,但也加重了邏輯回歸的過(guò)擬合問(wèn)題,實(shí)驗(yàn)結(jié)果與文獻(xiàn)[44]不同,K-近鄰算法在兩個(gè)比率的數(shù)據(jù)集中均體現(xiàn)出更好的性能。Dighe等學(xué)者[62]選取歐洲信用支付交易數(shù)據(jù)集對(duì)文獻(xiàn)[61]的結(jié)論進(jìn)行了驗(yàn)證,采用相似的混合采樣技術(shù)對(duì)數(shù)據(jù)集進(jìn)行均衡,在多項(xiàng)模型判別準(zhǔn)測(cè)評(píng)估下,K-近鄰算法的識(shí)別結(jié)果更具有穩(wěn)健性。
K-近鄰算法的最大優(yōu)點(diǎn)在于簡(jiǎn)單易實(shí)施,但這也造成了可擴(kuò)展性較差,面對(duì)特征空間中重疊區(qū)域樣本時(shí)誤判率高,作為欺詐識(shí)別算法需要提前對(duì)數(shù)據(jù)集進(jìn)行處理與均衡。但是在最新的研究中,由于K-近鄰算法可以度量樣本點(diǎn)領(lǐng)域內(nèi)的分布情況,被學(xué)者們廣泛應(yīng)用于對(duì)數(shù)據(jù)集重疊度的測(cè)度中,是該模型在欺詐識(shí)別問(wèn)題中的應(yīng)用新方向。
3.1.5 遺傳算法
遺傳算法(genetic algorithm,GA)是參考達(dá)爾文生物進(jìn)化論中的自然選擇學(xué)說(shuō)和遺傳學(xué)機(jī)理中生物進(jìn)化過(guò)程構(gòu)建的計(jì)算模型,是一種通過(guò)模擬自然進(jìn)化過(guò)程搜索最優(yōu)解的方法。遺傳算法可以直接對(duì)結(jié)構(gòu)對(duì)象進(jìn)行操作,無(wú)需求導(dǎo)和函數(shù)連續(xù)性的限定,具有內(nèi)在的隱式并行性和優(yōu)秀的全局尋優(yōu)能力,在確定類(lèi)別懲罰系數(shù)與優(yōu)化反欺詐模型初始參數(shù)方面具有突出貢獻(xiàn)。
?z?elik等學(xué)者[63]認(rèn)為在欺詐識(shí)別檢測(cè)中應(yīng)該對(duì)透支額度大的信用賬戶(hù)給予更多的權(quán)重,因?yàn)樗鼈儽诲e(cuò)分后會(huì)帶來(lái)更加嚴(yán)重的潛在損失,因此提出了具有可變分類(lèi)錯(cuò)誤成本的損失函數(shù)并運(yùn)用遺傳算法對(duì)各變量對(duì)應(yīng)的參數(shù)進(jìn)行求解,來(lái)最小化模型錯(cuò)分損失,改進(jìn)后的模型增強(qiáng)了對(duì)重點(diǎn)客戶(hù)的關(guān)注,識(shí)別性能提高了超過(guò)200%。效率優(yōu)化方面,Olabode[64]將遺傳算法與反向傳播神經(jīng)網(wǎng)絡(luò)(counter propagation neural network,CPNN)相結(jié)合提出了混合CPNN-GA 算法,遺傳算法用來(lái)對(duì)神經(jīng)網(wǎng)絡(luò)的初始參數(shù)進(jìn)行優(yōu)化,解決由隨機(jī)設(shè)定初始參數(shù)帶來(lái)模型收斂速度慢、精度不足的問(wèn)題,神經(jīng)網(wǎng)絡(luò)對(duì)交易進(jìn)行分類(lèi),實(shí)驗(yàn)結(jié)果顯示,改進(jìn)后的模型訓(xùn)練速度更快且面對(duì)不斷變化的欺詐策略,識(shí)別性能更好。Alotaibi等學(xué)者[65]將GA與克隆選擇算法(clonal selection algorithm,CLONLG)[66]結(jié)合起來(lái)以改進(jìn)CLONLG 算法的克隆選擇機(jī)制,呈現(xiàn)出的識(shí)別結(jié)果錯(cuò)分率更低且訓(xùn)練需要的時(shí)間更短。
上述研究普遍將遺傳算法作為輔助應(yīng)用于模型的參數(shù)更新與訓(xùn)練優(yōu)化過(guò)程,但另一方面,遺傳算法通過(guò)交叉、變異的方法生成更優(yōu)子代的思想同樣適用于均衡數(shù)據(jù)的補(bǔ)充。Benchaji等學(xué)者[67]運(yùn)用K-means算法對(duì)少數(shù)類(lèi)樣本進(jìn)行聚類(lèi),得到的每一個(gè)樣本簇都具有高度的類(lèi)內(nèi)相似性,隨后使用GA算法對(duì)每一個(gè)簇進(jìn)行新數(shù)據(jù)生成,補(bǔ)足少數(shù)類(lèi)樣本的同時(shí)加強(qiáng)了欺詐交易的特征表示,減少了噪聲節(jié)點(diǎn)的生成,為數(shù)據(jù)集均衡方法提供了新思路。
3.1.6 決策樹(shù)與基于集成算法的樹(shù)模型識(shí)別算法
分類(lèi)決策樹(shù)(decision tree,DT)是一種描述對(duì)實(shí)例進(jìn)行分類(lèi)的樹(shù)形結(jié)構(gòu),由節(jié)點(diǎn)和有向邊構(gòu)成。節(jié)點(diǎn)有內(nèi)部節(jié)點(diǎn)和葉節(jié)點(diǎn)兩種類(lèi)型,其中內(nèi)部節(jié)點(diǎn)表示一個(gè)特征或?qū)傩?,葉節(jié)點(diǎn)表示劃分后的分類(lèi)結(jié)果。決策樹(shù)的學(xué)習(xí)本質(zhì)是通過(guò)訓(xùn)練集歸納出一組顯式分類(lèi)規(guī)則,使其能夠?qū)?shí)例進(jìn)行正確的分類(lèi)。在數(shù)字信用反欺詐研究中,其優(yōu)秀的可解釋性搭配便捷的訓(xùn)練方式與不俗的識(shí)別性能使其在早期數(shù)字風(fēng)控領(lǐng)域得到廣泛應(yīng)用[68]。
在后續(xù)研究中,通過(guò)結(jié)合多個(gè)基學(xué)習(xí)器以加強(qiáng)模型性能的集成學(xué)習(xí)思想使決策樹(shù)算法在數(shù)字反欺詐領(lǐng)域煥發(fā)了新的活力。根據(jù)基學(xué)習(xí)器之間的關(guān)系,可以分為基于Bagging 思想和基于Boosting 思想的樹(shù)識(shí)別算法,前者的代表性算法為隨機(jī)森林,后者的代表性算法為梯度提升樹(shù)系列算法。
隨機(jī)森林(random forest,RF)是Breiman[69]提出的一種由多棵決策樹(shù)組成的集成學(xué)習(xí)模型,廣泛應(yīng)用于包含金融、醫(yī)療、電子商務(wù)在內(nèi)的多種分類(lèi)任務(wù)場(chǎng)景,運(yùn)行速度快、穩(wěn)健性強(qiáng)[70]。作為集成模型,隨機(jī)森林的整體性能取決于其基分類(lèi)器的類(lèi)型與訓(xùn)練效果。Xuan 等[71]在欺詐樣本率為0.27%的真實(shí)交易數(shù)據(jù)集上分別測(cè)試了基于隨機(jī)樹(shù)和C4.5算法的隨機(jī)森林算法,結(jié)果顯示基于C4.5 算法的隨機(jī)森林能夠更好地學(xué)習(xí)欺詐交易的特征,取得了更好的分類(lèi)效果。
梯度提升樹(shù)系列算法主要包含梯度提升決策樹(shù)(gradient boosting decision tree,GBDT)、XGBoost、LightGBM等算法。GBDT算法根據(jù)當(dāng)前模型損失函數(shù)的負(fù)梯度信息來(lái)訓(xùn)練新加入的弱分類(lèi)器,并將新訓(xùn)練完成的弱分類(lèi)器以累加的形式結(jié)合到現(xiàn)有的模型中;XGBoost算法[72]是GBDT算法的進(jìn)一步工程實(shí)現(xiàn),通過(guò)顯式地添加正則項(xiàng)來(lái)控制模型的復(fù)雜度,有效地防止過(guò)擬合問(wèn)題,并將損失函數(shù)進(jìn)行二階泰勒展開(kāi),同時(shí)使用一階與二階導(dǎo)數(shù)信息進(jìn)行優(yōu)化,相較于傳統(tǒng)的GBDT 算法,支持更多類(lèi)別的基分類(lèi)器,效率更高;LightGBM 算法[73]是Microsoft 開(kāi)發(fā)的GBDT框架,直方圖算法的結(jié)合、單邊梯度采樣思想的應(yīng)用、帶深度限制的Leaf-wise建樹(shù)策略使LightGBM算法具有更快的訓(xùn)練速度、更低的內(nèi)存消耗以及更準(zhǔn)確的識(shí)別能力。
陳榮榮等學(xué)者[74]基于歐洲信用支付公開(kāi)數(shù)據(jù)集對(duì)隨機(jī)森林算法、GBDT與XGBoost算法的性能進(jìn)行對(duì)比,數(shù)據(jù)集事先經(jīng)過(guò)SMOTE算法處理以達(dá)到類(lèi)別均衡,結(jié)果顯示,隨機(jī)森林與GBDT 對(duì)于欺詐交易的識(shí)別精度相近,XGBoost算法的性能顯著優(yōu)于其余兩類(lèi)集成算法,但模型結(jié)構(gòu)的復(fù)雜性使其調(diào)參過(guò)程更為復(fù)雜,時(shí)間消耗更久。面對(duì)類(lèi)別不均衡且歷史數(shù)據(jù)集規(guī)模較小的信用評(píng)估場(chǎng)景,張濤等學(xué)者[75]將XGBoost算法與最小風(fēng)險(xiǎn)貝葉斯決策相結(jié)合,提出了基于樣本依賴(lài)代價(jià)矩陣的SXG-BMR(SMOTE XGboost-Bayes minimum risk)算法,其代價(jià)矩陣不僅與交易類(lèi)別有關(guān),而且與樣本的自身屬性相關(guān)聯(lián),代價(jià)的表征更加準(zhǔn)確,實(shí)驗(yàn)結(jié)果顯示,結(jié)合樣本依賴(lài)代價(jià)矩陣的欺詐交易識(shí)別模型檢驗(yàn)效果要整體好于傳統(tǒng)的類(lèi)別依賴(lài)代價(jià)矩陣識(shí)別模型,在同樣引入樣本代價(jià)矩陣的情況下,XGBoost 算法相較于邏輯回歸、隨機(jī)森林等分類(lèi)模型更加準(zhǔn)確、穩(wěn)健。
集成算法與代價(jià)損失函數(shù)的結(jié)合為類(lèi)別不均衡問(wèn)題提供了有效的解決方案,但另一方面也加重了數(shù)字經(jīng)濟(jì)下不斷攀升的特征維度對(duì)樹(shù)結(jié)構(gòu)欺詐識(shí)別算法訓(xùn)練效率的影響。陳芮等學(xué)者[76]針對(duì)上述問(wèn)題將LightGBM 算法與序貫三支決策算法(sequential three-way decisions,S3WD)相結(jié)合,提出了基于GANs-LightGBM的序貫三支異常檢測(cè)模型,根據(jù)特征重要性由粗到細(xì)地搭建多層次多粒度的特征空間并訓(xùn)練對(duì)應(yīng)的欺詐交易識(shí)別模型,持續(xù)處理粗特征粒層難以識(shí)別的樣本,與傳統(tǒng)的機(jī)器學(xué)習(xí)算法相比,該方法在提高檢測(cè)性能的同時(shí)具有更低的檢測(cè)代價(jià)。
3.1.7 隱馬爾可夫模型
隱馬爾可夫模型(hidden Markov model,HMM)是一種雙嵌入隨機(jī)過(guò)程,是關(guān)于時(shí)間序列的概率模型。與經(jīng)典的馬爾可夫模型相比,可以用來(lái)擬合更復(fù)雜的隨機(jī)過(guò)程。模型由兩組變量組成,第一組為狀態(tài)變量{y1,y2,…,yn},其中yi代表時(shí)刻i的系統(tǒng)狀態(tài),通常假定該狀態(tài)是隱藏、不可觀測(cè)的;第二組是觀測(cè)變量{x1,x2,…,xn},表示在時(shí)刻i的觀測(cè)值。
基于HMM 構(gòu)建的欺詐識(shí)別模型認(rèn)為大多數(shù)用戶(hù)在一段時(shí)間內(nèi)會(huì)有相對(duì)穩(wěn)定的交易行為,如定期購(gòu)買(mǎi)相同類(lèi)型的商品,或與固定對(duì)象進(jìn)行轉(zhuǎn)賬交易。交易序列隨時(shí)間順序排列,與HMM 模型相對(duì)應(yīng),由兩部分組成,第一部分是可直接在銀行數(shù)據(jù)庫(kù)中觀察的交易金額序列,第二部分是暗示用戶(hù)交易習(xí)慣的交易行為序列,如圖7所示。
圖7 隱馬爾可夫模型下的交易序列Fig.7 Transaction sequence under hidden Markov model
Khan 等學(xué)者[77]構(gòu)建了仿真交易數(shù)據(jù),模擬了持卡者在一定支付周期內(nèi)每筆支出的消費(fèi)類(lèi)別及對(duì)應(yīng)的具體消費(fèi)金額。文章運(yùn)用K-means 聚類(lèi)算法將每筆交易按照消費(fèi)金額分為低、中、高三類(lèi),運(yùn)用HMM算法識(shí)別并提取該消費(fèi)者的支付特征。OOT(out of time)測(cè)試顯示,HMM對(duì)未來(lái)短期內(nèi)的欺詐交易有很好的識(shí)別效果。Bhusari 等學(xué)者[78]參考文獻(xiàn)[77]的思路,做了進(jìn)一步研究,改進(jìn)后的模型不再需要獲悉每筆支出的消費(fèi)類(lèi)別,并提出了K-means 方法中確定類(lèi)別k的新方式,改進(jìn)后的模型降低了欺詐交易的誤報(bào)率。Wang等學(xué)者[79]在將量化后每筆交易的消費(fèi)金額作為觀測(cè)狀態(tài)的基礎(chǔ)上,融入每筆交易前后固定時(shí)間段內(nèi)的交易頻率,因此觀測(cè)狀態(tài)從{高消費(fèi),中消費(fèi),低消費(fèi)}變成{高消費(fèi),中消費(fèi),低消費(fèi)}×{高頻交易,中頻交易,低頻交易}兩兩結(jié)合的九種觀測(cè)狀態(tài)。實(shí)驗(yàn)結(jié)果表示,對(duì)于低頻交易與中頻交易,HMM 算法有較好的識(shí)別效果,但高頻交易增加了用戶(hù)交易習(xí)慣的提取難度,HMM模型的表現(xiàn)還有待提升。
3.1.8 基于社會(huì)關(guān)系網(wǎng)絡(luò)的欺詐交易識(shí)別模型
上述欺詐交易識(shí)別模型幾乎全部聚焦于交易記錄本身,利用從歷史交易數(shù)據(jù)集中學(xué)習(xí)到的特征預(yù)測(cè)一筆新傳入的交易申請(qǐng)為欺詐交易的可能性,完成對(duì)欺詐交易的識(shí)別與防范。但面對(duì)以利用虛假身份信息惡意申請(qǐng)數(shù)字支付工具為代表的內(nèi)部欺詐模式,由于申請(qǐng)者為新用戶(hù),缺少歷史交易數(shù)據(jù),無(wú)法進(jìn)行有效識(shí)別,需要從其他的角度進(jìn)行切入,在申請(qǐng)階段完成對(duì)此類(lèi)用戶(hù)的識(shí)別。
社會(huì)網(wǎng)絡(luò)(social network)是指以各種連接或相互作用的模式而存在的一組人或群體,例如人與人之間的朋友關(guān)系網(wǎng)絡(luò)、在線(xiàn)社交關(guān)系網(wǎng)絡(luò)、用戶(hù)間的移動(dòng)通信網(wǎng)絡(luò)都屬于社會(huì)關(guān)系網(wǎng)絡(luò)。社會(huì)關(guān)系網(wǎng)絡(luò)不是一個(gè)關(guān)于個(gè)體的簡(jiǎn)單集合,也不是個(gè)體間相互連接關(guān)系的總和,而是包含了個(gè)體和個(gè)體間關(guān)系的網(wǎng)絡(luò)[80],重點(diǎn)關(guān)注人們之間的互動(dòng)和聯(lián)系,并且假定這種聯(lián)系會(huì)影響人們后續(xù)的社會(huì)行為。Yang等學(xué)者[81]認(rèn)為用戶(hù)的移動(dòng)通信記錄可以很好地代表其社交聯(lián)系,因此作者使用由1 100萬(wàn)用戶(hù)和超過(guò)15億呼叫日志構(gòu)成的數(shù)據(jù)集建立了移動(dòng)通信網(wǎng)絡(luò),在用戶(hù)已有個(gè)人信息的基礎(chǔ)上增加了從網(wǎng)絡(luò)層面提取的局部結(jié)構(gòu)特征指標(biāo),運(yùn)用雙任務(wù)因子圖對(duì)新用戶(hù)是正常用戶(hù)還是潛在欺詐用戶(hù)進(jìn)行預(yù)測(cè),有效提高了識(shí)別結(jié)果的精確率與全面性。
3.1.9 對(duì)比與分析
目前,基于有監(jiān)督學(xué)習(xí)算法的欺詐交易識(shí)別研究最為深入,在實(shí)際應(yīng)用中也比基于其他兩種算法的欺詐識(shí)別模型更為成熟。本小節(jié)對(duì)上述欺詐交易識(shí)別模型背后的有監(jiān)督學(xué)習(xí)算法進(jìn)行橫向?qū)Ρ?,?選取部分算法在歐洲數(shù)字信用支付公開(kāi)數(shù)據(jù)集進(jìn)行復(fù)現(xiàn),對(duì)當(dāng)下各類(lèi)基于不同視角改進(jìn)的前沿算法性能進(jìn)行直觀展示。表7 進(jìn)一步總結(jié)了各類(lèi)算法的優(yōu)缺點(diǎn)及訓(xùn)練數(shù)據(jù)集的形式,便于研究者在面對(duì)特定任務(wù)場(chǎng)景中選取最適合的數(shù)據(jù)分析技術(shù)。
表6 基于歐洲數(shù)字信用交易數(shù)據(jù)集的性能對(duì)比Table 6 Performance comparison based on European digital credit transaction dataset
表7 基于有監(jiān)督學(xué)習(xí)算法的欺詐交易識(shí)別模型對(duì)比Table 7 Comparison of fraud transaction identification models based on supervised learning algorithm
基于無(wú)監(jiān)督異常點(diǎn)檢測(cè)技術(shù)的欺詐識(shí)別模型不依賴(lài)于歷史交易的標(biāo)簽,該類(lèi)方法旨在通過(guò)表征交易的數(shù)據(jù)分布,來(lái)檢測(cè)出與正常交易行為特征不符的可疑交易。
3.2.1 基于無(wú)標(biāo)簽數(shù)據(jù)集的欺詐識(shí)別模型
從理論角度來(lái)看,無(wú)監(jiān)督異常點(diǎn)檢測(cè)技術(shù)可以劃分為基于距離(K-means 算法、近鄰算法等)、基于密度(DBSCAN(density-based spatial clustering of applications with noise)算法、LOF(local outlier factor)算法等)與基于模型的三類(lèi)算法。但不斷擴(kuò)大的交易量與特征數(shù)量使得前兩類(lèi)算法在訓(xùn)練時(shí)的計(jì)算量過(guò)于龐大,無(wú)法滿(mǎn)足運(yùn)算開(kāi)銷(xiāo)的要求[82],因此基于模型的無(wú)監(jiān)督異常點(diǎn)檢測(cè)技術(shù)成為構(gòu)建信用支付欺詐識(shí)別模型的主要理論支撐。
Rai等學(xué)者[83]在歐洲信用支付交易數(shù)據(jù)集上測(cè)試了包含基于神經(jīng)網(wǎng)絡(luò)、自動(dòng)編碼器、孤立森林在內(nèi)的五類(lèi)無(wú)監(jiān)督欺詐識(shí)別模型,其中神經(jīng)網(wǎng)絡(luò)呈現(xiàn)的檢測(cè)性能最好,整體數(shù)據(jù)集分類(lèi)準(zhǔn)確率達(dá)到99.7%,對(duì)欺詐交易的識(shí)別結(jié)果也呈現(xiàn)出較高的準(zhǔn)確性與全面性,但上述模型僅適用于缺失值較少的數(shù)據(jù)環(huán)境,當(dāng)交易特征呈現(xiàn)出高度的稀疏性時(shí),包含神經(jīng)網(wǎng)絡(luò)、自編碼器在內(nèi)的上述無(wú)監(jiān)督學(xué)習(xí)算法便難以有效識(shí)別交易間的差異。Zheng 等學(xué)者[84]設(shè)計(jì)了一個(gè)具有多層非線(xiàn)性函數(shù)的無(wú)監(jiān)督深度學(xué)習(xí)模型來(lái)捕獲數(shù)據(jù)集內(nèi)高維非線(xiàn)性的欺詐結(jié)構(gòu)信息,并結(jié)合聯(lián)合嵌入技術(shù)學(xué)習(xí)雙向網(wǎng)絡(luò)中節(jié)點(diǎn)的潛在表示,有效地將不同類(lèi)型的節(jié)點(diǎn)共同嵌入到同一潛在空間中,即使面對(duì)稀疏性較高的交易數(shù)據(jù)集依舊可識(shí)別出絕大部分潛在欺詐交易。
基于現(xiàn)有的研究進(jìn)展,無(wú)監(jiān)督欺詐識(shí)別模型已經(jīng)具備挖掘部分潛在欺詐交易的能力,但作為決策模型加入到欺詐交易識(shí)別工作中還有缺陷,這是由模型背后的理論基礎(chǔ)導(dǎo)致的。對(duì)于重疊區(qū)域的大量樣本信息,高度的特征相似性大幅限制了無(wú)監(jiān)督欺詐識(shí)別模型的分類(lèi)能力。Pumsirirat等學(xué)者[85]曾希望利用無(wú)監(jiān)督學(xué)習(xí)算法識(shí)別有監(jiān)督學(xué)習(xí)算法無(wú)法處理的新型欺詐交易模式來(lái)提高檢驗(yàn)性能,提出了基于自動(dòng)編碼器(auto-encoder,AE)和受限玻爾茲曼機(jī)(restricted Boltzmann machine,RBM)的深度識(shí)別算法,通過(guò)重建正常交易樣本來(lái)發(fā)現(xiàn)數(shù)據(jù)集中異常的交易模式,但實(shí)證結(jié)果顯示,召回率增加的代價(jià)是錯(cuò)判了大量正常交易,最終識(shí)別的精度不足5%;文獻(xiàn)[83]中除了神經(jīng)網(wǎng)絡(luò)之外,其他模型均出現(xiàn)了嚴(yán)重的過(guò)擬合或欠擬合問(wèn)題;文獻(xiàn)[5]基于公開(kāi)數(shù)據(jù)集對(duì)常用的有監(jiān)督與無(wú)監(jiān)督學(xué)習(xí)算法進(jìn)行了匯總與對(duì)比,實(shí)驗(yàn)結(jié)果顯示,無(wú)監(jiān)督學(xué)習(xí)算法雖然避免了分布假設(shè)問(wèn)題與前期數(shù)據(jù)標(biāo)注的困難,但在相同的召回率下會(huì)將更多的正常交易錯(cuò)判為欺詐交易,因此通常作為數(shù)據(jù)集標(biāo)注不足時(shí)的探索性分析使用。為了解決上述問(wèn)題,學(xué)者們將目光聚焦到了一種特殊的無(wú)監(jiān)督學(xué)習(xí)算法——單分類(lèi)欺詐識(shí)別模型。
3.2.2 基于單類(lèi)別標(biāo)簽數(shù)據(jù)的欺詐識(shí)別模型
基于單類(lèi)別標(biāo)簽數(shù)據(jù)集的欺詐交易識(shí)別模型又稱(chēng)為基于單分類(lèi)技術(shù)(one class classification,OCC)的欺詐交易識(shí)別模型。與傳統(tǒng)的無(wú)監(jiān)督學(xué)習(xí)算法不同,此類(lèi)算法需要事先了解數(shù)據(jù)集中的標(biāo)注情況;與有監(jiān)督學(xué)習(xí)算法不同,算法僅通過(guò)對(duì)單一類(lèi)別樣本的學(xué)習(xí)便可將該類(lèi)樣本與數(shù)據(jù)集中的其他類(lèi)別樣本進(jìn)行區(qū)分,因此是一類(lèi)特殊的無(wú)監(jiān)督異常檢測(cè)算法,適用于數(shù)據(jù)集分布嚴(yán)重失衡及其他類(lèi)樣本標(biāo)注可信度不足的情況[86]。在欺詐交易識(shí)別任務(wù)中,單類(lèi)別標(biāo)簽數(shù)據(jù)加強(qiáng)了模型對(duì)該類(lèi)樣本特征的學(xué)習(xí)能力,同時(shí)緩解了有監(jiān)督欺詐識(shí)別模型傾向于將歷史數(shù)據(jù)集中未出現(xiàn)過(guò)的欺詐交易模式劃分為正常交易的問(wèn)題[83]。
Jeragh、AlSulaimi兩位學(xué)者[87]針對(duì)交易數(shù)據(jù)集中欺詐樣本少、重疊區(qū)域樣本復(fù)雜等問(wèn)題,將數(shù)據(jù)集中的欺詐樣本單獨(dú)提取出來(lái),運(yùn)用自編碼器來(lái)學(xué)習(xí)欺詐交易特征的潛在表示,并將訓(xùn)練樣本通過(guò)自編碼器后得到的均方誤差作為輸入放入單分類(lèi)支持向量機(jī)(one-class SVM,OSVM)中尋找分類(lèi)超球面,與僅使用自編碼器、OSVM 的單一模型和將潛在表示作為輸入結(jié)合到OSVM的模型[88]相比,模型對(duì)欺詐交易識(shí)別的覆蓋率得到顯著提高。
Zheng 等學(xué)者[89]提出了改進(jìn)的單類(lèi)生成對(duì)抗網(wǎng)絡(luò)(one class GAN,OCGAN)模型,僅需要使用正常交易的樣本信息作為訓(xùn)練數(shù)據(jù)。文章使用LSTMAutoencoder 提取正常用戶(hù)交易的特征表示,隨后使用互補(bǔ)生成對(duì)抗網(wǎng)絡(luò)(complementary GAN)反向?qū)W習(xí)欺詐交易的分布表示,訓(xùn)練完成后的鑒別器即為最終的判別模型。反欺詐測(cè)試中,改進(jìn)后OCGAN的性能超過(guò)了現(xiàn)有的單類(lèi)別分類(lèi)算法,檢驗(yàn)效果與最新的有監(jiān)督學(xué)習(xí)算法Multi-source LSTM相媲美。
基于有監(jiān)督學(xué)習(xí)的數(shù)據(jù)挖掘算法在數(shù)字欺詐交易識(shí)別任務(wù)中已經(jīng)獲得了廣泛應(yīng)用,但模型的訓(xùn)練依賴(lài)于大量有標(biāo)注的歷史數(shù)據(jù)集,對(duì)于一些新開(kāi)展的在線(xiàn)支付業(yè)務(wù),該需求無(wú)法滿(mǎn)足。同時(shí),由于數(shù)字交易自身的業(yè)務(wù)特點(diǎn),交易的發(fā)生與對(duì)應(yīng)交易類(lèi)型即標(biāo)注的確定之間存在時(shí)間差,期間將產(chǎn)生大量的無(wú)標(biāo)注數(shù)據(jù)。這部分?jǐn)?shù)據(jù)無(wú)法被基于有監(jiān)督學(xué)習(xí)算法的欺詐交易識(shí)別模型使用,造成數(shù)據(jù)浪費(fèi)。無(wú)監(jiān)督學(xué)習(xí)技術(shù)放寬了對(duì)訓(xùn)練數(shù)據(jù)集的約束,但由于缺少確定性的交易標(biāo)簽的監(jiān)督,模型的識(shí)別性能無(wú)法直接應(yīng)用于決策。因此有學(xué)者提出了基于半監(jiān)督學(xué)習(xí)框架的欺詐識(shí)別模型。
同時(shí)使用有標(biāo)注數(shù)據(jù)和無(wú)標(biāo)注數(shù)據(jù)訓(xùn)練模型是半監(jiān)督學(xué)習(xí)算法的優(yōu)勢(shì),目前研究理論已經(jīng)較為成熟。Lebichot 等學(xué)者[90]基于時(shí)間窗口模擬了一個(gè)包含三類(lèi)業(yè)務(wù)狀態(tài)的數(shù)據(jù)場(chǎng)景,將測(cè)試算法當(dāng)天的交易記錄作為待預(yù)測(cè)的測(cè)試集,測(cè)試算法日前22天—前7天的交易記錄設(shè)定為交易類(lèi)型已確認(rèn)的有標(biāo)簽數(shù)據(jù)集,測(cè)試算法日前7天內(nèi)發(fā)生的交易記錄標(biāo)記為未出表現(xiàn)期的無(wú)標(biāo)簽數(shù)據(jù)集,文章使用融合半監(jiān)督框架的APATE 模型作為分類(lèi)器。經(jīng)過(guò)測(cè)試,相較于僅使用有標(biāo)簽數(shù)據(jù)集的APATE 模型,改進(jìn)后的算法在測(cè)試集上的識(shí)別精度更高。
除去可以有效利用數(shù)據(jù)信息、增加數(shù)據(jù)價(jià)值,半監(jiān)督學(xué)習(xí)在訓(xùn)練中標(biāo)記的欺詐交易樣本也成為應(yīng)對(duì)數(shù)據(jù)集類(lèi)別不均衡的重要手段。Salazar 等學(xué)者[91]與大型金融公司合作,在其提供的私有數(shù)據(jù)集上進(jìn)一步對(duì)比了半監(jiān)督學(xué)習(xí)在不同欺詐交易樣本率的數(shù)據(jù)集上模型的表現(xiàn)差異。欺詐識(shí)別結(jié)果顯示,欺詐樣本數(shù)量占比越少即數(shù)據(jù)集構(gòu)成不平衡度越高,基于半監(jiān)督學(xué)習(xí)框架的欺詐交易識(shí)別模型提升的效果越好。Xiao等學(xué)者進(jìn)一步將成本敏感學(xué)習(xí)算法、數(shù)據(jù)分組處理方法(group method of data handling,GMDH)融合進(jìn)半監(jiān)督學(xué)習(xí)算法框架,提出了一項(xiàng)基于GMDH的成本敏感半監(jiān)督學(xué)習(xí)算法(GMDH-based cost-sensitive semi-supervised selective ensemble,GCSSE)[92],與同樣作為半監(jiān)督學(xué)習(xí)框架的Tri-training、Semi-Bagging、CoBag 等算法相比,GCSSE 算法發(fā)揮了最好的識(shí)別性能。在最新的研究成果中,半監(jiān)督學(xué)習(xí)框架也開(kāi)始出現(xiàn)在數(shù)據(jù)均衡技術(shù)中,Charitou 等學(xué)者[93]將半監(jiān)督學(xué)習(xí)框架、稀疏編碼器(sparse autoencoder)與GAN相結(jié)合提出稀疏自動(dòng)半監(jiān)督生成對(duì)抗網(wǎng)絡(luò)(semi supervised GAN,SSGAN),在相同的分類(lèi)器下,補(bǔ)充的均衡樣本具有更好的增益。
公開(kāi)數(shù)據(jù)集的存在能夠在一定程度上緩解研究者數(shù)據(jù)收集工作的壓力,將更多的精力投入到欺詐識(shí)別研究中。表8 對(duì)近年來(lái)學(xué)者在論文研究中應(yīng)用頻率較高的公開(kāi)數(shù)據(jù)集進(jìn)行羅列,并對(duì)數(shù)據(jù)集中的樣本量與特征情況進(jìn)行描述,當(dāng)前除UCSD-FICO 數(shù)據(jù)集停止官方維護(hù),其他數(shù)據(jù)集均開(kāi)源在官方網(wǎng)站中供研究者使用。
通過(guò)上述文獻(xiàn)的匯總,以信用支付為代表的在線(xiàn)交易欺詐識(shí)別模型在近年來(lái)已經(jīng)取得長(zhǎng)足的進(jìn)展,但依舊還有部分難題沒(méi)有攻克。本章將在已有成果的基礎(chǔ)上,從業(yè)務(wù)需求的角度對(duì)目前學(xué)者們主要研究的方向進(jìn)行介紹。
不同國(guó)家、不同人群之間欺詐行為往往存在著較高的異質(zhì)性,意味著基于特定地區(qū)數(shù)據(jù)集訓(xùn)練出的欺詐識(shí)別模型難以直接應(yīng)用于其他環(huán)境??紤]到部分地區(qū)的數(shù)據(jù)不足以及大數(shù)據(jù)驅(qū)動(dòng)下模型訓(xùn)練的高昂成本,將訓(xùn)練好的模型合理地遷移學(xué)習(xí)到其他環(huán)境中對(duì)在線(xiàn)交易的欺詐識(shí)別問(wèn)題具有重要意義。在最新的研究中,Lebichot等學(xué)者[94]針對(duì)該問(wèn)題展示并對(duì)比了15 種遷移學(xué)習(xí)技術(shù),基于真實(shí)的電子商務(wù)交易數(shù)據(jù),將為歐洲國(guó)家開(kāi)發(fā)的欺詐檢測(cè)模型遷移至其他國(guó)家中,并對(duì)不同遷移方法下的實(shí)證結(jié)果進(jìn)行了比較。研究發(fā)現(xiàn),現(xiàn)有的遷移學(xué)習(xí)方法都過(guò)于依賴(lài)目標(biāo)國(guó)家標(biāo)注樣本的數(shù)量,文章將自監(jiān)督與半監(jiān)督算法的思想相結(jié)合,擺脫對(duì)海量標(biāo)記訓(xùn)練樣本的依賴(lài)性。
除遷移學(xué)習(xí)之外,提出生成對(duì)抗網(wǎng)絡(luò)的谷歌Goodfellow 團(tuán)隊(duì)給出了條件更為寬松的解決方案——對(duì)抗學(xué)習(xí)技術(shù)[95]。雖然深度神經(jīng)網(wǎng)絡(luò)擁有強(qiáng)大的學(xué)習(xí)能力,但面對(duì)被故意添加細(xì)微噪聲干擾所形成的對(duì)抗樣本極為脆弱,通過(guò)對(duì)噪聲進(jìn)行精心設(shè)計(jì),攻擊者可以使神經(jīng)網(wǎng)絡(luò)模型喪失原有的功能,面對(duì)難以察覺(jué)其改動(dòng)的輸入樣本給出具有高置信度的特定輸出。Elsayed、Goodfellow等學(xué)者[95]利用深度學(xué)習(xí)面對(duì)對(duì)抗性攻擊的薄弱性,通過(guò)學(xué)習(xí)融合目標(biāo)域數(shù)據(jù)的通用擾動(dòng)以及任務(wù)之間映射的轉(zhuǎn)換函數(shù)使得源域中的模型具備執(zhí)行目標(biāo)域任務(wù)的能力。由于對(duì)抗學(xué)習(xí)對(duì)深度神經(jīng)網(wǎng)絡(luò)輸入施加的加法偏移足以將網(wǎng)絡(luò)重新用于新任務(wù),訓(xùn)練中無(wú)需對(duì)源域模型進(jìn)行微調(diào),理論上比遷移學(xué)習(xí)效率更高。Chen等學(xué)者率先利用對(duì)抗學(xué)習(xí)的思路提出了用于欺詐識(shí)別的預(yù)訓(xùn)練對(duì)抗重編程方法(adversarially reprograms an ImageNet classification neural network for fraud detection task,AdvRFD)[96],選擇ImageNet 圖像分類(lèi)數(shù)據(jù)集的高性能預(yù)訓(xùn)練網(wǎng)絡(luò)作為源模型,將交易樣本特征鑲嵌到圖片特征變動(dòng)較大的高頻區(qū)域以構(gòu)建新的圖像數(shù)據(jù),并在新的數(shù)據(jù)集上學(xué)習(xí)通用擾動(dòng)項(xiàng)與轉(zhuǎn)換函數(shù),實(shí)驗(yàn)結(jié)果表明,相較于從頭訓(xùn)練的DenseNet-161 網(wǎng)絡(luò),AdvRFD-DenseNet-161 不僅訓(xùn)練時(shí)間短,對(duì)欺詐交易識(shí)別的精度也優(yōu)于DenseNet-161 網(wǎng)絡(luò),為對(duì)抗學(xué)習(xí)技術(shù)在數(shù)字交易欺詐識(shí)別領(lǐng)域提供了全新方向。
隨著模型復(fù)雜性的增加,以深度學(xué)習(xí)算法為代表的大部分?jǐn)?shù)據(jù)挖掘模型均為黑箱模型,無(wú)法解釋每個(gè)特征如何對(duì)最終的結(jié)果產(chǎn)生影響。而在信用支付欺詐識(shí)別業(yè)務(wù)中,研究者不僅希望識(shí)別出異常,還需要了解決策的制定依據(jù),以便于及時(shí)更新風(fēng)險(xiǎn)策略。因此,提高模型的可解釋性是領(lǐng)域內(nèi)學(xué)者關(guān)注的重要研究方向。
在目前研究中,使模型具有可解釋性的通用思路是設(shè)計(jì)一個(gè)代理模型[97],在局部數(shù)據(jù)或全局?jǐn)?shù)據(jù)集上對(duì)模型進(jìn)行代理,獲得對(duì)應(yīng)樣本上的解釋。其中局部代理較為成熟的方法是Ribeiro 等學(xué)者提出的LIME(local interpretable model-agnostic explanations)模型[98],首先對(duì)樣本輸入添加輕微擾動(dòng)構(gòu)建新數(shù)據(jù)集,再基于擾動(dòng)后數(shù)據(jù)集訓(xùn)練可解釋模型進(jìn)行局部建模來(lái)獲取解釋?zhuān)蝗执韯t是使用決策樹(shù)、規(guī)則集、教學(xué)式方法這種天然易于解釋的模型進(jìn)行代理,以對(duì)決策結(jié)果進(jìn)行解釋。另外一種思路則是利用深度學(xué)習(xí)模型的一些自身性質(zhì)對(duì)輸出做出解釋?zhuān)缱⒁饬C(jī)制(attention)、分層相關(guān)性傳播技術(shù)[99]等。
文獻(xiàn)[100]中,Wu、Wang 兩位學(xué)者針對(duì)深度神經(jīng)網(wǎng)絡(luò)作為黑箱模型無(wú)法為結(jié)果提供可解釋性建議的缺點(diǎn),創(chuàng)新性地將基于LIME的解釋性模塊融入識(shí)別模型中,該解釋模塊由三個(gè)白盒解釋器構(gòu)成,分別對(duì)應(yīng)解釋模型結(jié)構(gòu)中自編碼器、判別器與整個(gè)欺詐檢測(cè)模型三部分。數(shù)據(jù)均衡方面,作者基于生成對(duì)抗網(wǎng)絡(luò)提出了改進(jìn)的單類(lèi)異常檢測(cè)模型,將自編碼器作為模型中的生成器緩解生成對(duì)抗網(wǎng)絡(luò)在生成少數(shù)類(lèi)樣本偽數(shù)據(jù)時(shí)不夠穩(wěn)健的問(wèn)題,解釋性模塊的加入為特定樣本每個(gè)特征如何對(duì)最終模型輸出做出影響提供了清晰視角。董路安、葉鑫兩位學(xué)者則針對(duì)傳統(tǒng)教學(xué)式解釋方法中準(zhǔn)確率不足、評(píng)價(jià)指標(biāo)測(cè)度不夠全面兩個(gè)問(wèn)題進(jìn)行改進(jìn),選擇決策樹(shù)作為代理模型提出了基于改進(jìn)教學(xué)式方法的信用風(fēng)險(xiǎn)評(píng)價(jià)模型[101],僅將黑盒模型分類(lèi)正確且可信度較高的樣本用作訓(xùn)練可解釋模型的訓(xùn)練樣本,并設(shè)計(jì)了全新的剪枝方法維護(hù)可解釋模型的準(zhǔn)確性、可解釋性以及與黑盒模型的一致性,實(shí)驗(yàn)結(jié)果顯示,改進(jìn)后的教學(xué)式方法在大幅提高可解釋性能的同時(shí)能夠準(zhǔn)確識(shí)別原黑盒模型中93%的結(jié)果。
有監(jiān)督學(xué)習(xí)算法下的欺詐交易識(shí)別模型是以交易中的欺詐模式能夠從歷史數(shù)據(jù)中識(shí)別并提取這一假設(shè)構(gòu)造的,因此,面對(duì)歷史數(shù)據(jù)未涵蓋的新型欺詐模式時(shí),欺詐識(shí)別這項(xiàng)任務(wù)就變得具有挑戰(zhàn)性。不依賴(lài)于現(xiàn)有標(biāo)注的無(wú)監(jiān)督學(xué)習(xí)技術(shù)雖然可以幫助欺詐檢測(cè)系統(tǒng)發(fā)現(xiàn)異常,但由于缺少確定性的交易標(biāo)簽的監(jiān)督,該類(lèi)算法對(duì)特征空間中的重疊樣本無(wú)法取得很好的識(shí)別效果。最新的研究中,有學(xué)者聚焦于這兩種模型各自的優(yōu)勢(shì),將兩種技術(shù)結(jié)合以達(dá)到同時(shí)識(shí)別歷史、新興欺詐模式的需求。Carcillo 等學(xué)者[102]受到Micenková等學(xué)者在文獻(xiàn)[103]提到的“bestof-both-worlds”思想的啟發(fā),率先將該準(zhǔn)則應(yīng)用到數(shù)字欺詐交易識(shí)別中,分別從整體數(shù)據(jù)集、同一用戶(hù)歷史交易數(shù)據(jù)集兩種視角出發(fā),計(jì)算交易樣本在不同粒度下的異常值分?jǐn)?shù),并將其作為新特征加入到有監(jiān)督模型訓(xùn)練中。異常分?jǐn)?shù)越高,代表著該樣本的交易特征在當(dāng)前環(huán)境中與其他樣本差異越大。改進(jìn)后的模型在AUPRC 評(píng)判準(zhǔn)測(cè)下的綜合性能有所提升,但是基于TopN Precision 測(cè)度的頭部風(fēng)險(xiǎn)識(shí)別能力沒(méi)有顯現(xiàn)顯著差異。文章展示、對(duì)比了多個(gè)方法與粒度下的異常值分?jǐn)?shù)對(duì)現(xiàn)有模型的優(yōu)化效果,對(duì)解決目前有監(jiān)督學(xué)習(xí)模型無(wú)法檢測(cè)新型欺詐交易模式、無(wú)監(jiān)督學(xué)習(xí)模型精度不足的難題提供了新的思路,未來(lái)還有很大的研究空間。
近年來(lái)數(shù)據(jù)挖掘技術(shù)的發(fā)展,硬件設(shè)備的更迭,數(shù)字支付方式盛行帶來(lái)的交易記錄激增為欺詐交易識(shí)別研究奠定了堅(jiān)實(shí)的基礎(chǔ)。本文聚焦這一領(lǐng)域,首先介紹了信用支付欺詐交易識(shí)別問(wèn)題的相關(guān)概念、研究難點(diǎn)及評(píng)判標(biāo)準(zhǔn),隨后根據(jù)構(gòu)建模型的理論基礎(chǔ),從數(shù)據(jù)均衡算法與模型優(yōu)化策略?xún)煞矫娣謩e對(duì)欺詐交易識(shí)別模型進(jìn)行了詳細(xì)闡述,重點(diǎn)介紹了各類(lèi)欺詐交易識(shí)別模型的理論基礎(chǔ)、適用場(chǎng)景及前沿進(jìn)展,并結(jié)合業(yè)務(wù)場(chǎng)景對(duì)同類(lèi)算法進(jìn)行對(duì)比與總結(jié)。最后,文章結(jié)合現(xiàn)有的研究成果,從需求的角度出發(fā)對(duì)眼下最新的研究方向進(jìn)行論述。
從目前的研究成果來(lái)看,現(xiàn)有欺詐交易識(shí)別模型已經(jīng)可以準(zhǔn)確地抽取歷史數(shù)據(jù)集中的欺詐交易模式,結(jié)合用戶(hù)的個(gè)人信息、行為模式對(duì)新發(fā)生的交易申請(qǐng)進(jìn)行準(zhǔn)確推斷。對(duì)于部分沒(méi)有或標(biāo)注數(shù)據(jù)集不足的新型業(yè)務(wù),也有相應(yīng)的無(wú)監(jiān)督和半監(jiān)督欺詐識(shí)別算法作為輔助應(yīng)用在決策過(guò)程中,整體研究進(jìn)展順利、未來(lái)可期。但在蓬勃發(fā)展的數(shù)字經(jīng)濟(jì)時(shí)代,欺詐交易識(shí)別模型作為保護(hù)用戶(hù)財(cái)產(chǎn)的最后一道“守護(hù)卡”,尚不能駐足于此,本章基于已有的研究成果和不足,結(jié)合在線(xiàn)欺詐交易識(shí)別任務(wù)在新時(shí)代暴露的新需求,總結(jié)了以下未來(lái)最值得關(guān)注的問(wèn)題和研究方向。
從數(shù)據(jù)分析的角度來(lái)說(shuō),信息的來(lái)源越豐富,對(duì)客戶(hù)的刻畫(huà)越細(xì)膩,分析的結(jié)果就越準(zhǔn)確。數(shù)字支付方式的普及使得銀行、第三方支付平臺(tái)手中快速累積了巨量的交易數(shù)據(jù),但交易信息的敏感性、用戶(hù)身份信息的私密性成為數(shù)據(jù)共享時(shí)的難題,大量的多源異構(gòu)數(shù)據(jù)無(wú)法相互傳遞,造成了信息浪費(fèi)。聯(lián)邦學(xué)習(xí)(federated learning)[104]是谷歌率先提出用于解決“數(shù)據(jù)孤島問(wèn)題”的新方案,能夠使各終端在不泄露隱私數(shù)據(jù)的條件下實(shí)現(xiàn)協(xié)同訓(xùn)練,目前已有研究[105]將其與決策樹(shù)算法相結(jié)合用于反欺詐中,實(shí)現(xiàn)了聯(lián)邦學(xué)習(xí)的初步應(yīng)用,這種新型的人工智能技術(shù)有望成為未來(lái)分布式學(xué)習(xí)和企業(yè)間聯(lián)合建模的曙光。
另外,“數(shù)據(jù)孤島”現(xiàn)象不僅存在于企業(yè)與企業(yè)中,還存在于企業(yè)與學(xué)者中。目前的公開(kāi)數(shù)據(jù)集稀少,學(xué)者們?nèi)鄙賹⒗碚摽焖龠M(jìn)行驗(yàn)證的通道,拖慢了反欺詐研究的進(jìn)程。處理好“數(shù)據(jù)孤島”問(wèn)題勢(shì)在必行。
從技術(shù)角度看,映射在特征空間中的重疊區(qū)域樣本具有高度的特征相似性,難以被模型準(zhǔn)確捕捉與識(shí)別;從業(yè)務(wù)上看,重疊樣本代表著當(dāng)前數(shù)字金融環(huán)境中隱匿性最強(qiáng)的欺詐行為,是欺詐損失的主要來(lái)源。因此,增強(qiáng)算法對(duì)重疊樣本的分類(lèi)精度是研究者在迭代優(yōu)化模型時(shí)的主要目標(biāo),也是未來(lái)數(shù)字信用反欺詐研究的重要方向。在最新的研究成果中,文獻(xiàn)[34-35]從定性的角度對(duì)欺詐交易樣本的鄰域分布進(jìn)行深入挖掘,避免生成噪聲節(jié)點(diǎn)的同時(shí)優(yōu)化均衡樣本的穩(wěn)健性;文獻(xiàn)[37,40]從特征空間出發(fā)量化數(shù)據(jù)集均衡前后重疊區(qū)域的變動(dòng)情況,并將樣本重疊系數(shù)融入欺詐識(shí)別模型的損失函數(shù)中,加強(qiáng)對(duì)該區(qū)域樣本識(shí)別能力;文獻(xiàn)[48,75]為各交易樣本添加樣本粒度下的錯(cuò)分代價(jià),使模型在訓(xùn)練中能夠主動(dòng)關(guān)注難以識(shí)別的重疊樣本。上述文章打開(kāi)了聚焦重疊樣本的新思路,但性能提升的背后是模型參數(shù)量與復(fù)雜度的大幅提升。目前針對(duì)重疊樣本的優(yōu)化工作正在如火如荼地進(jìn)行,同時(shí)也是未來(lái)數(shù)字信用交易反欺詐研究的重要方向。
面對(duì)海量多源的高維數(shù)字信用交易數(shù)據(jù),以Lgb、深度學(xué)習(xí)為代表的欺詐交易識(shí)別模型參數(shù)量與復(fù)雜度不斷增加,精度提升的背后是可解釋性能的大幅下降,研究者難以解釋每個(gè)特征如何對(duì)最終的決策產(chǎn)生影響。在數(shù)字信用反欺詐研究中,銀行或第三方支付機(jī)構(gòu)需要的不僅僅是模型在測(cè)試集上的準(zhǔn)確率,更需要了解模型從歷史交易數(shù)據(jù)集中學(xué)習(xí)到的風(fēng)險(xiǎn)點(diǎn)或具體的欺詐行為模式,進(jìn)而有針對(duì)性地進(jìn)行策略調(diào)整,加強(qiáng)風(fēng)險(xiǎn)防范,在根本上杜絕欺詐損失的發(fā)生?;仡櫖F(xiàn)有研究成果,主要的突破是代理模型的運(yùn)用[97-101],通過(guò)添加外部的可解釋器為當(dāng)前欺詐識(shí)別模型的決策提供局部或全局解釋。目前仍存在以下兩方面不足:代理模型無(wú)法完全替代決策模型,兩者間存在信息損失;決策模型自身的可解釋性沒(méi)有得到優(yōu)化,依舊不具備相應(yīng)的可解釋性能。在未來(lái)的研究中,如何提高模型的可解釋能力并用到?jīng)Q策過(guò)程值得進(jìn)一步研究。
運(yùn)用數(shù)據(jù)挖掘或深度學(xué)習(xí)算法提取歷史數(shù)據(jù)集中的欺詐行為特征,進(jìn)而對(duì)新發(fā)生的交易展開(kāi)預(yù)測(cè)是當(dāng)前數(shù)字信用交易反欺詐研究的主要思路。但實(shí)際業(yè)務(wù)場(chǎng)景中,從欺詐交易發(fā)生到相關(guān)案例庫(kù)形成之間存在間隔,時(shí)間上的滯后性使欺詐交易識(shí)別模型面對(duì)歷史數(shù)據(jù)未涵蓋的新型欺詐模式時(shí),無(wú)法對(duì)其進(jìn)行正確識(shí)別。目前,有關(guān)新型欺詐交易的防范還處于理論探索階段,如何利用手中海量、多源的交易信息在學(xué)習(xí)已有欺詐模式的同時(shí)加強(qiáng)對(duì)新型欺詐模式的敏感度是未來(lái)亟需攻克的問(wèn)題。