崔紀鵬 丁雯雯
(1.同濟大學電子與信息工程學院,上海 201804;2.中國農業(yè)銀行商河縣支行,山東 濟南 251600)
在線支付在給用戶帶來方便的同時,也面臨著嚴峻的安全挑戰(zhàn)。交易欺詐是在線金融支付系統(tǒng)面臨的主要欺詐手段[1],它不但帶來了巨額的經濟損失,更嚴重影響了用戶的使用體驗。
為了應對交易欺詐,常用的技術手段包括欺詐預防和欺詐檢測。不同于欺詐預防,欺詐檢測通過對運行系統(tǒng)的實時監(jiān)控,能夠隨時發(fā)現(xiàn)系統(tǒng)中正在發(fā)生的欺詐行為,及時向系統(tǒng)管理員報告并做出有效的止損反應。因此,欺詐檢測是金融反欺詐的主要技術手段。
本文從學習方法類型和行為類型的角度出發(fā),回顧金融欺詐檢測的主要方法。
有監(jiān)督學習模型要求數(shù)據(jù)必須有標簽,它根據(jù)數(shù)據(jù)實例的特征,將其劃分成不同的類別,在保證相同類別內數(shù)據(jù)實例的相似性的同時,最大化不同類別數(shù)據(jù)實例的區(qū)分性。在金融交易欺詐檢測中,傳統(tǒng)的有監(jiān)督學習模型包括邏輯回歸、支持向量機和人工神經網絡等分類方法。
近年來,深度學習也越來越多地應用到欺詐檢測中。相對于傳統(tǒng)的分類方法,深度學習由于其強大的表征學習能力;常用的有監(jiān)督深度學習模型包括自編碼器、卷積神經網絡和循環(huán)神經網絡等。
有監(jiān)督學習模型不依賴于具體的個體,因此,它們屬于基于群體行為的異常檢測方法。
不同于有監(jiān)督學習模型,無監(jiān)督學習模型不要求數(shù)據(jù)有標簽,它的主要目的是挖掘數(shù)據(jù)背后蘊藏的模式或規(guī)律?;跓o監(jiān)督學習的金融交易欺詐檢測,其背后的邏輯假設是,欺詐樣本相對于合法樣本只占數(shù)據(jù)總量的很小一部分比例。
在基于無監(jiān)督學習模型的欺詐檢測方法中,聚類算法是最普通的一種方法,比如K-均值算法。通過聚類,可以將合法交易和非法交易分成不同的類簇,以此來實現(xiàn)金融交易欺詐檢測。人工神經網絡不僅能夠作為有監(jiān)督學習模型用于欺詐檢測,在基于無監(jiān)督學習模型的欺詐檢測中也有應用,其中最有效的是自組織映射網絡。深度學習受益于其逐層抽象化的特征學習機制,近年來也被作為無監(jiān)督學習模型應用于欺詐檢測中。
由于模型訓練所需要的樣本量較大,基于非監(jiān)督學習模型的欺詐檢測方法同樣不依賴于具體的個體,因此,也屬于一種基于群體行為的異常檢測方法。
在基于個體行為建模的金融交易欺詐檢測中,現(xiàn)有工作都是以用戶賬號作為個體、并以其對應的交易記錄作為行為數(shù)據(jù)進行個體行為建模的,按照不同的個體對交易數(shù)據(jù)進行聚合,并利用統(tǒng)計方法估計交易屬性的分布。根據(jù)所選交易屬性的不同,可以定義個體的局部畫像、全局畫像和即時畫像等。常用于構建個體行為模型的屬性字段包括:交易金額、交易金額走勢、交易日期類型、交易時間、交易頻率、IP地址和前一筆交易狀態(tài)等。
為了利用賬號之間的相似性,可以首先對賬號按照相似性進行分組,并將同組內賬號的歷史交易數(shù)據(jù)作為個體行為數(shù)據(jù)構建行為模型。常用的方法包括基于K-均值聚類賬號分組和基于滑動時間窗口的交易聚合。
現(xiàn)有的解決方法多是直接過濾掉歷史交易記錄較少的個體,這種方式極大限制了檢測方法的實用性,會導致嚴重的冷啟動問題。與此同時,交易通常描述為多個屬性字段構成的元組,這些字段不但數(shù)據(jù)類型不同,而且量綱也不一致,很難進行統(tǒng)一有效地處理,這給欺詐檢測的交易量化帶來困難。另外,標簽分布的不均衡性,會導致傳統(tǒng)的分類模型偏向于多數(shù)樣本所在的類,甚至會將少數(shù)類的樣本視作噪聲數(shù)據(jù)而忽略掉,嚴重影響了欺詐檢測的性能。這些都屬于交易數(shù)據(jù)自身固有的特點,它們會導致欺詐檢測系統(tǒng)整體的不可靠性。
在實際的在線金融支付系統(tǒng)中,交易生成的速度是非??斓模@對交易欺詐檢測系統(tǒng)提出極高的性能要求?,F(xiàn)有方法只針對模型的整體性能,無法做到對局部有效性能的調優(yōu)。
模型層面的主要問題是數(shù)據(jù)標簽的可信性問題。在數(shù)據(jù)歸集過程中,由于采集處理或者記錄錯誤等原因,可能會導致交易的標簽信息不可信。如何利用不可信的標簽數(shù)據(jù),構建可信的欺詐檢測模型,是構建金融欺詐檢測系統(tǒng)需要解決的重要問題?,F(xiàn)有的方法缺乏對交易標簽的可信性度量手段,存在模型和預測結果的可信性問題。
具體方法是,基于金融交易的描述,將欺詐檢測實例映射為推薦系統(tǒng)實例:將交易個體映射為推薦系統(tǒng)中的用戶,原型交易映射為推薦系統(tǒng)中的物品,交易標簽映射為推薦系統(tǒng)中的評分。通過問題轉化,用戶對物品的評分信息就能夠反應原始交易對應的欺詐信息。在設計推薦算法時,采用還原評分排序的方式,能夠最大程度區(qū)分合法交易行為和欺詐交易行為,有效解決標簽分布不均衡問題。通過解決推薦系統(tǒng)問題,除了利用協(xié)同過濾思想挖掘相似個體的共性信息之外,還能夠通過交易屬性嵌入方法(Embedding),實現(xiàn)交易屬性值的向量化,從而間接解決交易屬性的異構問題。
傳統(tǒng)方法默認將用戶作為個體,這樣很容易導致新用戶出現(xiàn)帶來的冷啟動問題。不難看出,用戶集實質上對應著交易數(shù)據(jù)集的一個劃分,因此,可以將個體的概念由用戶集拓展為全部上下文屬性集。
交易的上下文屬性,是相對于交易的行為屬性而言的,用于描述交易發(fā)生的上下文環(huán)境的,比如交易對應的用戶、商戶和發(fā)卡地等信息。通過拓展交易個體的概念,交易可以表示為它的多上下文個體形式,τ=〈{i,m,p},ρ〉。其中,{i,m,p}表示交易對應的個體集合,并且i表示用戶個體,m表示商戶個體,p表示地點個體,ρ表示原型交易,是描述交易行為的屬性值的組合。
提升模型有效性的途徑有兩種:一是構建更具表達能力的行為個體,二是構建更有效的欺詐性打分函數(shù)。
在交易多上下文描述的基礎上,多粒度行為個體定義為多上下文個體的笛卡爾積形式,即κ=〈i,m,p〉。顯然,相對于多上下文行為個體,它具有更強的表達能力。
多粒度行為個體對應的欺詐性打分函數(shù)可以表示為fκ(ρ)。為了得到更有效的欺詐性打分函數(shù),借鑒生成對抗網絡[2]的思想,在解決推薦系統(tǒng)問題的過程中,采取添加邊界分類約束的方式,實現(xiàn)對訓練過程的啟發(fā)式引導。這些依賴于具體上下文的邊界分類器,能夠充分利用模型當前模型參數(shù)對交易標簽的判別信息,實時判斷和指導模型訓練向著更加有效的方向進行。
一筆交易發(fā)生的實質是個體和原型交易的共現(xiàn),這種共現(xiàn)信息包括兩個方面:一是共現(xiàn)的頻次信息,二是共現(xiàn)的標簽信息。
顯然,頻次信息在某種程度上,可以看作是標簽信息的可信性度量:在給定標簽不變的前提下,個體和原型交易共現(xiàn)的頻率越高,該標簽的可信度就越大。在建模標簽信息的同時,加入共現(xiàn)頻次的影響,有助于提升模型整體的可信性。
一個可行的實現(xiàn)方法是在解決推薦系統(tǒng)問題時,構建組合評分和排序的可信推薦算法。分別構建基于排序推薦的目標函數(shù)和基于評分推薦的目標函數(shù),進而以指數(shù)函數(shù)的方式進行組合。其中,評分信息的還原程度作為指數(shù)部分,用作對排序信息還原程度的可信性度量。