【摘 要】隨著我國信用卡發(fā)卡量和交易量的不斷增長,信用卡交易中的欺詐交易也急劇上升。如何加強對信用卡欺詐的識別和防范,已成為銀行風(fēng)險控制的一個焦點。本文針對信用卡交易數(shù)據(jù)中欺詐行為的少量性和異常性,提出了一種基于相似系數(shù)和的孤立點檢測建模方法,建立了信用卡欺詐檢測模型,將孤立點挖掘方法應(yīng)用到信用卡欺詐檢測中,并通過實驗研究表明該模型能較為準確的識別欺詐交易,具有很好的準確性,可行性。
【關(guān)鍵詞】相似系數(shù)和;孤立點;信用卡;欺詐檢測
1.引言
隨著我國經(jīng)濟文化水平的提高和人們生活節(jié)奏的加快,我國的信用卡市場有了很大的發(fā)展。有資料顯示,截至2007年底,我們大陸地區(qū)貸記信用卡的發(fā)卡量已達7000萬張[1]。但隨著我國信用卡市場的不斷擴大,近年來涉及信用卡欺詐方面的案件也急劇上升,嚴重擾亂了政黨的金融秩序,給銀行和持卡人造成很大的損失,影響銀行信用卡業(yè)務(wù)的健康發(fā)展,如何加強對信用卡欺詐的識別和防范,已成為銀行風(fēng)險控制的一個焦點。
傳統(tǒng)的檢測方法主要依賴于計算機數(shù)據(jù)庫系統(tǒng)的支持以及客戶的受教育程度來人工的進行辨別,有滯后性、不準確性、不及時性等缺點;隨后出現(xiàn)的基于判別分析和回歸分析的統(tǒng)計方法能通過給持卡者或信用卡交易進行信用評分的方式來識別欺詐交易,得到了廣泛的應(yīng)用[3],但仍存在數(shù)據(jù)量大的缺點。近年來,數(shù)據(jù)挖掘技術(shù)的興起使人們開始關(guān)注基于數(shù)據(jù)挖掘技術(shù)的信用卡欺詐識別模型。信用卡欺詐交易對于整個信用卡交易來說,屬于少數(shù)異常數(shù)據(jù),利用數(shù)據(jù)挖掘中的孤立點檢測方法[4],通過建立一個欺詐檢測模型將欺詐交易作為孤立點挖掘出來,從而有效的與非欺詐交易區(qū)分開來,為欺詐防范和風(fēng)險控制提供決策支持?;诮y(tǒng)計學(xué)[5]、基于距離[6、7]等孤立點挖掘算法在現(xiàn)實生活中都得到了很好的應(yīng)用。
上述的孤立點檢測算法大多是基于頻繁項集來考慮的,對于多目標決策中按數(shù)據(jù)對象進行綜合評價就顯得不太合適了,為此,本文提出一個基于相似系數(shù)和的信用卡欺詐檢測模型,針對欺詐交易的特殊性,采用基于相似系數(shù)和的孤立點挖掘算法計算各對象之間的相似系統(tǒng)和,從而發(fā)現(xiàn)隱藏于數(shù)據(jù)中的孤立點。相對于其他異常檢測技術(shù),該模型不需要訓(xùn)練的過程,因此,克服了目前異常檢測中所面臨的由訓(xùn)練樣本中正常模式不完備所帶來的誤報率高的問題,具有很好的可行性、準確性。
2.基于相似系數(shù)和的信用卡欺詐檢測模型
2.1 設(shè)計思想
基于相似系數(shù)和的信用卡欺詐檢測模型的基本模型框架如圖1所示。該模型首先針對交易樣本的各個屬性進行數(shù)據(jù)預(yù)處理,將其全部轉(zhuǎn)換為數(shù)值屬性,然后采用基于相似系數(shù)和的孤立點挖掘算法計算各樣本對象兩兩之間的相似系數(shù),并求得其相似系數(shù)和,最后通過與設(shè)定的閾值比較大小來判斷孤立點集。
基于相似系數(shù)和的信用卡欺詐檢測模型的主要設(shè)計思想是通過計算相似系數(shù)和和設(shè)定偏離度閾值檢測孤立點集,其特點在于偏離點閾值只是一個輸入?yún)?shù),可以視不同的應(yīng)用領(lǐng)域而定,因此,用于多目標決策和綜合評價分析中孤立點集的檢測非常有效。
2.2 基于相似系數(shù)和的孤立點挖掘算法
基于相似度和的孤立點挖掘問題可以描述如下[8]:
設(shè)論域為要檢測的對象,每個對象有m指標,即:
現(xiàn)在要求出n個對象中的孤立點集。
為了判斷X中各對象的離散程度,先計算各對象兩兩之間的相似系統(tǒng),并構(gòu)成相似系統(tǒng)矩陣,即:
是相似系統(tǒng)矩陣第i行的和,該值越小,就說明對象i與其他對象的距離越遠,即就是孤立點集的候選項。
其中是閾值,的對象則被認為是孤立點集。
3.實驗及其結(jié)果分析
本文以國內(nèi)某商業(yè)銀行的信用卡真實數(shù)據(jù)為研究對象,從數(shù)據(jù)庫中67位信用卡持有人的16,584條交易記錄構(gòu)成樣本集。其中非欺詐交易1,5135筆,欺詐交易1449筆,分別將其Fraud屬性標記為0和1。因為信用卡欺詐者的消費行為習(xí)慣通常與真實持卡人會具有較大的不同,而持卡人的賬戶數(shù)據(jù)和交易數(shù)據(jù)在很大程度上能反映和刻畫消費習(xí)慣和模式,所以可以將用戶的賬戶資料和交易資料作為對象屬性;同時消費習(xí)慣和模式與持卡人的特征屬性有較大的關(guān)聯(lián)關(guān)系,僅根據(jù)交易的相關(guān)信息是很難準確判斷是否為欺詐交易的,因此,持卡人的特征的一些屬性也可以選擇性的作為對象屬性。結(jié)合上文所述,每個樣本共有51個屬性,再根據(jù)業(yè)務(wù)經(jīng)驗,去掉與欺詐無關(guān)或相關(guān)性極小的屬性,最終確定28個相關(guān)屬性作為模型輸入,如表1所示:
3.1 實驗過程
在信用卡的欺詐識別研究中,存在兩類錯誤[9],一類是把欺詐交易錯誤預(yù)測為非欺詐交易,可以稱為第一類錯誤或者False Negative錯誤,另一類是把非欺詐交易錯誤預(yù)測為欺詐交易,稱之為第二類錯誤或False Positive錯誤。從圖2的混淆矩陣看,第一類錯誤率為,第二類錯誤率為,
由于僅用準確率只能反映算法
的總體準確率,而不能全面反映對欺詐樣本集的預(yù)測能力,因此本文采用兩種錯誤率來評估算法。
實驗過程主要可以分為以下三部分:
(1)輸入一個信用卡交易的數(shù)據(jù)集,每條交易記錄有m個特征屬性,并對其進行數(shù)據(jù)預(yù)處理[10],生成最后的樣本數(shù)據(jù)。
(2)對數(shù)據(jù)集中的信用卡交易記錄計算其兩兩之間的相似系數(shù),并構(gòu)成相似系數(shù)矩陣,然后根據(jù)得到相似系數(shù)和,
該值越小,就說明信用卡交易記錄i與其他對象的距離越遠,即就是孤立點集的候選項。
(3)計算距離度閾值,并設(shè)定閾值參數(shù),所有的對象則被認為是孤立點集輸出。
3.2 實證結(jié)果分析
實驗結(jié)果如表2所示,可以看出,五次實驗數(shù)據(jù)都達到了高準確率和低錯誤率。當=12時,第一類錯誤率達到了最低值,同時準確率最高;而當=9時,第二類錯誤率為最低。從以上數(shù)據(jù)可以看出,基于相似系數(shù)和的信用卡欺詐檢測模型是有效可行的。
4.結(jié)論與展望
本文分析了基于孤立點挖掘的信用卡欺詐檢測的可行性,將基于相似度和的孤立點挖掘算法應(yīng)用到信用卡欺詐檢測中,給出了該檢測方法的流程以及實證過程,并通過在某商業(yè)銀行的信用卡交易數(shù)據(jù)集進行孤立點挖掘仿真實驗,證明該方法能夠較準確的預(yù)測交易是否為欺詐交易。實證研究表明,孤立點挖掘技術(shù)可以完成信用卡欺詐檢測工作,而且當異常數(shù)據(jù)遠小于正常數(shù)據(jù)時,其檢測結(jié)果要優(yōu)于基于聚類異常檢測技術(shù)。如果將該算法應(yīng)用到銀行的信用卡欺詐識別系統(tǒng)中,就能使銀行在信用卡交易發(fā)生后的較短時間里預(yù)測到交易的欺詐可能性,從而能有目的的采取一系列反欺詐策略,在欺詐者造成更大損失前就積極加以防范,有效的降低銀行的風(fēng)險。
參考文獻:
[1]王喜.信用卡欺詐犯罪預(yù)防的思考[J].中國審判,2008,4:74-75.
[2]陳雷.國際信用卡欺詐與預(yù)防[J].中國信用卡,2004,06:43-47.
[3]劉韌.分析型CRM系統(tǒng)的構(gòu)建研究[J].計算機應(yīng)用與軟件,2004,21(04):46-47.
[4]Han J W,Kamber M.Data Mining:Concepts and Techniques.Beijing:Higher Education Pr.and Morgan Kaufmann Publishers,2007.
[5]Barnett V,Lewis T.Outliers in Statistical Data New York:John Wiley Sons,1994.
[6]Knorr E,Ng R.A Unified Notion of Outliers:Properties and Computation.In proc.1997 Int.Conf.Knowledge Discovery and Data Mining(KDD97),Newport Beach,CA,1997-08:219-222.
[7]Arning A,Agrawal R,Raghavan P.A Linear Method for Deviation Detection in Large Database.In Proc.1996 Int.Conf.Data Mining and Knowledge Discovery(KDD97),Portland,OR,1996,08:164-169.
[8]姜靈敏.基于相似系統(tǒng)各檢測孤立點的聚類算法[J].計算機工程,2003,29(11):183-185.
[9]童鳳茹.基于組合分類器的信用卡欺詐識別研究[J].計算機與信息技術(shù),2006,7:10-12.
[10]翟凌慧,馬少平,唐煥玲等.銀行信用卡分類挖掘數(shù)據(jù)的預(yù)處理[J].計算機工程,2003,29(11):195-197.
作者簡介:王娜,女,現(xiàn)供職于浙江商業(yè)職業(yè)技術(shù)學(xué)院,研究方向:物流信息管理。