毛銘澤
摘要:信用卡欺詐檢測是一個(gè)重要的問題,為了提升對于真實(shí)世界的信用卡欺詐數(shù)據(jù)的識別率,提出了一種混合的信用卡欺詐檢測模型AWFD(Anomaly weight of credit card fraud detection),首先通過異常檢測的方法將數(shù)據(jù)劃分為可信和異常數(shù)據(jù),然后利用半監(jiān)督的方法訓(xùn)練一個(gè)集成模型,最終再利用異常檢測進(jìn)一步剔除檢測結(jié)果中的異常結(jié)果。AWFD在保障對于可信數(shù)據(jù)的學(xué)習(xí)效果上,通過半監(jiān)督集成學(xué)習(xí)的方法,利用異常數(shù)據(jù)進(jìn)一步擴(kuò)充集成模型的多樣性,并將異常檢測和集成模型融合。實(shí)驗(yàn)結(jié)果表明,比起一些傳統(tǒng)的機(jī)器學(xué)習(xí)方法,AWFD可以提高整體的信用卡欺詐檢測的識別率。
關(guān)鍵詞:信用卡欺詐檢測;異常檢測;半監(jiān)督;集成學(xué)習(xí);多樣性
中圖分類號: TP311? ? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2021)02-0194-03
Abstract:Credit card fraud detection is a serious problem. In order to improve the recognition rate of real-world credit card fraud data, a hybrid credit card fraud detection model AWFD (Anomaly weight of credit card fraud detection) is proposed. Firstly, the data is divided into trusted and abnormal data by anomaly detection method, and then an ensemble model is trained by semi- supervised method. Finally, anomaly detection is used to further eliminate the abnormal results in the detection results. On the basis of guaranteeing the learning effect of trusted data, AWFD uses the abnormal data to further expand the diversity of the ensemble model by semi-supervised ensemble learning method, and integrates the anomaly detection and the ensemble model. The experimental results show that AWFD can improve the overall recognition rate of credit card fraud detection compared with some traditional machine learning methods.
Key words:credit card fraud detection; anomaly detection; semi-supervised; ensemble learning; diversity
由于社會的不斷發(fā)展,人的消費(fèi)需求也在不斷上升,隨之而來的支付手段的改變,導(dǎo)致信用卡欺詐問題日趨嚴(yán)重,每年會導(dǎo)致數(shù)十億美元的損失[1],因此對于信用卡欺詐檢測問題的研究也受到了廣泛的關(guān)注[5-6],有許多學(xué)者從不同的角度研究這一問題,例如:有從數(shù)據(jù)不均衡角度研究采樣問題的[2],有從模型融合角度研究的[1],也有從特征工程角度研究該問題的[3-10]。使用的算法也是多種多樣,例如:隨機(jī)森林Random Forest(RF)[4],Adaboost(ADB)[1]等。
除了以上這些常見問題之外,實(shí)際取得的標(biāo)注訓(xùn)練數(shù)據(jù)中,可能會存在異常噪音數(shù)據(jù),也就是指,在標(biāo)注為欺詐樣本的數(shù)據(jù)中,會存在一些實(shí)際不是欺詐的樣本或是不處于數(shù)據(jù)空間分布密度較高區(qū)域的一些噪音樣本,首先通過異常檢測的方法,將這些異常噪音樣本從訓(xùn)練集中篩選出來,同時(shí)為了避免丟失數(shù)據(jù)樣本信息以及利用這部分?jǐn)?shù)據(jù)擴(kuò)大訓(xùn)練的數(shù)據(jù)空間,將其標(biāo)簽信息去除,劃分為無標(biāo)簽樣本以供后續(xù)模型學(xué)習(xí)使用。為了保障模型在標(biāo)注數(shù)據(jù)學(xué)習(xí)效果的基礎(chǔ)上,進(jìn)一步提升泛化效果,對使用的半監(jiān)督學(xué)習(xí)算法進(jìn)行改進(jìn),引入了異常檢測對無標(biāo)簽數(shù)據(jù)的異常值打分,將其視為數(shù)據(jù)點(diǎn)的權(quán)重,以此體現(xiàn)不同權(quán)重的數(shù)據(jù)點(diǎn),對于學(xué)習(xí)器多樣性影響大小的不同。
本文主要工作如下:
① 利用一種異常檢測算法來篩選異常訓(xùn)練樣本,將其視為無標(biāo)簽數(shù)據(jù),擴(kuò)充樣本空間;
② 改進(jìn)了一種半監(jiān)督集成算法以適應(yīng)混合檢測模型;
③ 結(jié)合以上兩點(diǎn),提出了一種混合的信用卡欺詐檢測模型AWFD(Anomaly weight of credit card fraud detection)。
本文第1節(jié)介紹詳細(xì)的算法模型及所做的改進(jìn),第2節(jié)介紹實(shí)驗(yàn)設(shè)置及結(jié)果分析,第3節(jié)為結(jié)論部分。
1? 算法模型
1.1 iForest(isolation forest)
iForest(isolation forest)孤立森林[7-8]是一個(gè)基于樹集成的異常檢測模型,該算法認(rèn)為異常是容易被孤立的點(diǎn),也就是在數(shù)據(jù)空間下,分布稀疏的且密度低的區(qū)域里的數(shù)據(jù)點(diǎn)。iForest是一種基于特征劃分且訓(xùn)練過程無須標(biāo)注的異常檢測模型,通過特征劃分來構(gòu)建多棵二叉樹iTree,并集成來起到數(shù)據(jù)空間劃分的效果,每棵iTree的劃分構(gòu)建步驟大致為:
① 對訓(xùn)練樣本進(jìn)行隨機(jī)子采樣;
② 隨機(jī)選擇一個(gè)特征,在該特征的最大值和最小值之間,隨機(jī)選擇一個(gè)值,小于該值的樣本劃分到左子樹,剩下的樣本劃分到右子樹;
③ 繼續(xù)遞歸執(zhí)行 ② ,直到節(jié)點(diǎn)只有一個(gè)數(shù)據(jù)樣本,或者樹高達(dá)到限制高度。
iForest在對數(shù)據(jù)點(diǎn)進(jìn)行異常檢測時(shí),會按照iTree的特征劃分標(biāo)準(zhǔn)將數(shù)據(jù)點(diǎn)劃分到某個(gè)節(jié)點(diǎn)中,并記下該節(jié)點(diǎn)高度,然后將所有的iTree的劃分結(jié)果平均,作為iForest模型對該數(shù)據(jù)點(diǎn)的預(yù)測值。由于在數(shù)據(jù)空間下,處于分布密度高區(qū)域的樣本點(diǎn),不容易被劃分開,因此在iTree中的高度也相對處于分布稀疏區(qū)域的樣本點(diǎn)要高,所以iForest預(yù)測值越低,就越可能是異常點(diǎn)。同時(shí)iForest在解決高維空間問題中也有很好的效果。
1.2 UDEED(Unlabeled Data to Enhance Ensemble Diversity)
UDEED是一種半監(jiān)督集成學(xué)習(xí)分類方法[9],該算法的目的是先利用標(biāo)簽數(shù)據(jù)構(gòu)建多個(gè)基學(xué)習(xí)器,然后通過無標(biāo)簽數(shù)據(jù)來提高基學(xué)習(xí)器的多樣性,以此提升模型的泛化性能,取得更好的分類效果?;鶎W(xué)習(xí)器采用LOR(Logistic Regression)邏輯回歸的UDEED的實(shí)現(xiàn)步驟為:
1.3 AWFD(Anomaly weight of credit card fraud detection)
在AWFD中,首先依據(jù)標(biāo)注將訓(xùn)練數(shù)據(jù)劃分為欺詐樣本和非欺詐樣本,考慮到在標(biāo)注為欺詐的樣本可能會出現(xiàn)非欺詐樣本或是在非欺詐樣本中可能會出現(xiàn)欺詐樣本這一現(xiàn)象,為了將這些異常樣本挑選出來,分別構(gòu)建兩個(gè)iForest模型對訓(xùn)練數(shù)據(jù)進(jìn)行劃分,將其劃分為標(biāo)簽數(shù)據(jù)集[L]和異常數(shù)據(jù)樣本并輸出異常數(shù)據(jù)樣本的異常值[α],其中異常數(shù)據(jù)樣本被視為無標(biāo)簽數(shù)據(jù)樣本[U]。
由于篩選的無標(biāo)簽數(shù)據(jù)樣本的異常值都不一樣,考慮到每個(gè)數(shù)據(jù)樣本被置信為異常樣本的概率不同,因此通過修改原始的UDEED算法的多樣性損失一項(xiàng),來體現(xiàn)這一點(diǎn),[Vdivf,U,α=2mm-1?p=1m-1 q=p+1m dfp,fq,U,α,dfp,fq,U,α=1|U|i=1|L| αifp(xi)fq(xi)],也就是將UDEED的損失函數(shù)修改為[V(f,L,U)=Vemp(f,L)+γ?Vdiv(f,U,α)],通過對[V(f,L,U)]做梯度下降,來優(yōu)化基學(xué)習(xí)器的參數(shù),通過這一修改,在參數(shù)的更新過程中,體現(xiàn)iForest對異常樣本的異常值的判斷。完整的算法訓(xùn)練和預(yù)測流程見圖1。
從AWFD預(yù)測的流程圖中,可以看到,通過改進(jìn)后的UDEED對新樣本進(jìn)行預(yù)測之后,又通過iForest對該樣本進(jìn)行了兜底預(yù)測,這里的iForest是根據(jù)僅含欺詐樣本的訓(xùn)練集訓(xùn)練得到的,也就是最初進(jìn)行異常樣本篩選時(shí),訓(xùn)練生成的其中一個(gè)iForest模型,因此這一步?jīng)]有額外的訓(xùn)練開銷,直接復(fù)用已經(jīng)訓(xùn)練好的模型,同時(shí)這一步的意義在于,對被UDEED預(yù)測為欺詐樣本的數(shù)據(jù)樣本進(jìn)一步判斷,是否為會在欺詐樣本中被視為異常,剔除一些誤報(bào)的樣本,提升模型的精確度。
2? 實(shí)驗(yàn)
2.1 數(shù)據(jù)集
本實(shí)驗(yàn)采用的數(shù)據(jù)集大小為512w,其中欺詐樣本為14w,非欺詐樣本為498w,數(shù)據(jù)維度為9維,按照相同比例劃分100w訓(xùn)練樣本,其中欺詐樣本為3w,非欺詐樣本為97w,剩余的412w作為測試集,其中欺詐樣本為11w,非欺詐樣本為401w。
2.2 實(shí)驗(yàn)指標(biāo)
本實(shí)驗(yàn)采用多個(gè)指標(biāo)比較結(jié)果,分別為精確率precision,召回率recall,f1-score,準(zhǔn)確率acc,以及auc。對于二分類問題,將欺詐看作正例,非欺詐看作負(fù)例,從正例角度而言,各個(gè)指標(biāo)的含義如下:
精確率表示在預(yù)測為本類中,實(shí)際為本類的數(shù)據(jù)樣本的占比,召回率表示在實(shí)際為本類,預(yù)測為本類的數(shù)據(jù)樣本的占比,f1-score則為兩者的調(diào)和平均,在本實(shí)驗(yàn)中,分別用各類別的平均值,來比較最終效果,公式如下:
auc指標(biāo)則表示對于一個(gè)正例的數(shù)據(jù)樣本和一個(gè)負(fù)例的數(shù)據(jù)樣本,模型對正例樣本的預(yù)測值大于為模型對負(fù)例樣本的預(yù)測值的概率,而acc指標(biāo)就是預(yù)測正確的比例。
2.3 實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果對比,從表1中可以看到,對比于幾個(gè)傳統(tǒng)的機(jī)器學(xué)習(xí)算法,本文提出的融合檢測模型AWFD,在auc指標(biāo)和最好的結(jié)果差距在千分位以內(nèi)的情況下,其余指標(biāo)均大幅度提高,特別是在召回率指標(biāo)上,提升幅度較為明顯,可以體現(xiàn)AWFD對于欺詐樣本的召回效果比較好,同時(shí)AWFD對比UDEED而言,在保證了精確率的情況下,大幅度提高了召回率,相比之下,較好地識別出了欺詐數(shù)據(jù)樣本。
3 結(jié)論
本文提出的混合檢測模型AWFD,在區(qū)分訓(xùn)練集的可信和異常樣本后,利用可信樣本初始化模型,并利用異常樣本以及異常值,提高了模型的多樣性,進(jìn)一步增強(qiáng)了模型的泛化能力,最后復(fù)用異常檢測模型,在保障準(zhǔn)確率的基礎(chǔ)之上,取得了相對較好的信用卡欺詐檢測召回效果。
參考文獻(xiàn):
[1] K. Randhawa, C. K. Loo, M. Seera, C. P. Lim and A. K. Nandi, "Credit Card Fraud Detection Using AdaBoost and Majority Voting," in IEEE Access, vol. 6, pp. 14277-14284, 2018.
[2] S. Akila, and R. Srinivasulu, "Parallel and incremental credit card fraud detection model to handle concept drift and data imbalance," Neural Computing and Applications 31, 2018, pp. 1-12.
[3] X. Zhang, Y. Han, W. Xu, et al, "HOBA: A Novel Feature Engineering Methodology for Credit Card Fraud Detection with a Deep Learning Architecture," Information Sciences, 2019.
[4] S. Xuan, G. Liu, Z. Li, L. Zheng, S. Wang and C. Jiang, "Random forest for credit card fraud detection," 2018 IEEE 15th International Conference on Networking, Sensing and Control (ICNSC), Zhuhai, pp. 1-6, 2018.
[5] Z. K. Alkhateeb and A. T. Maolood, "Machine Learning-Based Detection of Credit Card Fraud: A Comparative Study," American journal of engineering and applied ences, vol. 12, no. 4, 535-542, 2019.
[6] G. C. Alex, A. C. M. Pereira and G. L. Pappa, "A customized classification algorithm for credit card fraud detection," Engineering Applications of Artificial Intelligence 72,? 2018, pp. 21-29.
[7] F. T. Liu, K. M. Ting and Z. Zhou, "Isolation Forest," 2008 Eighth IEEE International Conference on Data Mining, Pisa, pp. 413-422, 2008.
[8] F. T. Liu, K. M. Ting and Z. Zhou, "Isolation-Based Anomaly Detection," Acm Transactions on Knowledge Discovery from Data, vol. 6, no. 1, pp. 1-39, 2012.
[9] M. L. Zhang and Z. H. Zhou, "Exploiting Unlabeled Data to Enhance Ensemble Diversity," Data Mining & Knowledge Discovery, vol 26, no. 3, pp. 98-129, 2013.
[10] C. B. Alejandro, A. Djamila, S. Aleksandar and O. Bjorn, "Feature engineering strategies for credit card fraud detection, " Expert Systems with Applications, 2016,51(1):134–142,.
【通聯(lián)編輯:唐一東】