?;萑A
摘要:針對ATM交易系統產生的交易數據,對交易量、交易成功率和響應時間進行特征分析進而建立異常檢測模型。利用方差分析法以及3σ思想,均值設為u,標準差設為σ,將每天交易量與均值的差值在u±3σ之外的值標記為異常點。對于成功率和響應時間,首先利用k-means聚類分析將數據進行劃分,然后利用決策樹思想確定類之間的閾值,根據閾值可區(qū)分出數據異常點。由此可找出交易量、交易成功率和響應時間的異常值,進而建立ATM異常檢測系統。
Abstract: Based on the transaction data generated by ATM transaction system, the characteristics of trading volume, transaction success rate and response time are analyzed and the anomaly detection model is established. By using the variance analysis method and 3σ ideas, set for the mean u, standard deviation σ, mark the difference between the daily trading volume and the mean value over u±3σ as an abnormal point.In terms of success rate and response time, firstly, k-means cluster analysis is used to divide the data and then use the decision tree to determine the threshold value between classes, and the abnormal data points can be distinguished according to the threshold value.According to the above method, the abnormal value of trading volume, transaction success rate and response time can be found, and the ATM anomaly detection system can be established.
關鍵詞:ATM交易;異常檢測;方差分析;k-means聚類分析
Key words: ATM transactions;abnormal detection;variance analysis;K-means cluster analysis
中圖分類號:TP391.9 文獻標識碼:A 文章編號:1006-4311(2018)28-0216-04
0 引言
隨著商業(yè)銀行ATM業(yè)務的快速發(fā)展,銀行承擔的確保ATM交易系統穩(wěn)定運行的壓力越來越大,交易系統的性能管理問題也尤為重要。因此,銀行對ATM交易狀態(tài)的準確的異常檢測與及時報警成為解決問題的關鍵一步[1-2]。
本文的主要研究內容是根據匯總信息包含的三個指標(交易量,交易成功率,交易響應時間),選擇、提取、分析ATM交易狀態(tài)的特征參數[3],并設計一套交易狀態(tài)異常監(jiān)測方案,達到故障場景的正確判斷與及時報警的要求。
1 ATM交易系統的數據預處理與分析
1.1 交易數據的相關性分析
利用商業(yè)銀行1月23日至4月23日的數據,對交易量X、交易成功率Y、交易響應時間Z進行相關性分析,并得出三個指標ρ(X,Y),ρ(X,Z),ρ(X,Z)的大小。
通過表1,可得出:
①交易量與成功率、響應時間不存在明顯的相關性。
②成功率與響應時間存在負相關,即數據中心后端系統處理異常,導致交易失敗則響應時間加長。
1.2 交易數據的特征分析
1.2.1 交易業(yè)務量的特征分析
每日總業(yè)務量與日期的折線圖如圖1-圖2。
由圖1得知:
①前12天每天的總交易量波動較大,沒有一定的規(guī)律,無周期性。
②12天之后每天的總交易量變化波動較小,具有一定的周期性。
前12天是我國著名的節(jié)日-春節(jié),春節(jié)期間日總交易量受節(jié)日氣氛的影響較大,變化波動性大,因此將春節(jié)期間的交易量單獨作為一部分分析,另外春節(jié)后的日總交易量變化不大。
由圖2可知:
①交易量與時刻的圖像近似于M型,呈“雙峰型”分布。
②交易量在0:00-7:00時刻處于較低水平,因為人們處于睡眠狀態(tài),活動量不大故交易量較低;7:00-21:00處于較高水平,因為該時間段為工作階段,人們活動量大導致交易量較高。
1.2.2 交易成功率和交易響應時間的特征分析
首先作出交易成功率、交易響應時間與時刻的散點圖如圖3、圖4所示。
成功率、響應時間與時刻散點圖大體上呈直線狀分布,基本上穩(wěn)定在一個區(qū)間上,當成功率較高或響應時間較低時屬正常情況,當成功率長時間低于穩(wěn)定區(qū)間時,可能出現了異常情況。當響應時間過長時,可能是ATM機出現故障導致響應時間偏離正常區(qū)間。
2 基于方差分析的交易量異常檢測[4-6]
首先考慮春節(jié)期間的每天各時刻的交易量,然后求出春節(jié)期間每天各時刻的交易量平均值,如圖5所示。
圖5紅色曲線表示的是春節(jié)期間各時刻的交易量均值,可見春節(jié)期間每天各時刻的交易量與平均值有較大的差異,因此做出各時刻交易量與均值的差值。
圖6所示,每天各時刻的交易量與均值的差異近似服從正態(tài)分布,因此利用方差分析,將差值較大的交易量定義為異常值。
對于春節(jié)后期,首先作出每天各時刻的交易量,然后求出春節(jié)后每天各時刻的交易量平均值。
圖7中,紅色曲線表示的是春節(jié)后各時刻的交易量均值,春節(jié)后期每天各時刻的交易量與平均值有較大的差異,因此做出各時刻交易量與均值的差值。
圖8所示,春節(jié)后每天各時刻的交易量與均值的差異近似服從正態(tài)分布,可利用方差分析,將差值較大的交易量定義為異常值。經分析,我們將u+3σ作為其置信區(qū)間[7]更具合理性。
為了防止偶然性系統失誤造成的影響,對偶然產生的一次較大偏差不進行預警,當某段時間內出現至少k次較大偏差時才做出預警,通知維修人員對ATM進行維護。經過測試,我們認為k=3時較為準確,因此對10min內異常值次數k?叟3時實施報警。
3 基于聚類分析的成功率和響應時間異常檢測
由成功率-響應時間散點圖可看出位于左上角區(qū)域的部分,成功率低且響應時間較長,因此可將這部分的點定為異常值區(qū)域。右下角區(qū)域的數據點較為集中,成功率較高且響應時間[8]低,因此為正常點區(qū)域,但是藍色圓圈中的數據點遠離正常點區(qū)域,可將其視為可疑點,再進一步對其進行分析。
3.1 春節(jié)期間成功率與響應時間的異常分析
對春節(jié)期間(1月23號-2月3號)階段,先隨機選取八天進行聚類。經過k-means聚類之后,可得三類的聚類中心分別為(0.9565,73.2518)、(0.9585,100.3413)、(0.8930,845.8833)。交易的成功率較高且響應時間偏低,利用決策樹思想可以確定響應時間正常值與異常值間閾值為466.339925。如圖10所示,藍色直線為閾值,閾值上方的區(qū)域表示交易響應時間過長則為異常點區(qū)域,反之閾值下方的區(qū)域則為正常點區(qū)域。
利用春節(jié)期間的任一天(選取1月31號)的交易數據作為測試數據來驗證閾值的合理性。通過圖10可以看出1月31號這天的數據都分布在閾值以下屬于正常值,通過測試數據的驗證表明該閾值的選取非常合理,劃分效果很好。
3.2 春節(jié)后成功率與響應時間的異常分析
對于春節(jié)后(2月4號-4月23號)階段,同樣隨機選取八天進行聚類。經過k-means聚類之后,如圖11,可得三類的聚類中心分別為(0.9581,107.7184)、(0.7566,15627)、(0.1181,49856)。
藍色直線分別代表成功率與響應時間的閾值,利用決策樹思想可以確定成功率閾值為0.43735,響應時間的閾值為7867.3592。位于右下角區(qū)域的數據點較為集中,成功率較高且響應時間低為正常點區(qū)域。反之其他三個區(qū)域超出了成功率與響應時間的閾值范圍屬于異常值區(qū)域。
利用春節(jié)后的任一天(選取2月22號)的交易數據作為測試數據來驗證閾值的合理性。通過圖11可以看出2月22號的數據都分布在閾值以下屬于正常值,通過測試數據的驗證表明該閾值的選取非常合理,劃分效果很好。
通過以上的分析可得,令W表示判定結果(1為正常值,0為異常值),T為響應時間,S為成功率。
由以上檢測方案可得表3報警點。
4 結論
本文通過對ATM交易系統產生的交易數據進行特征分析進而建立了異常檢測模型。利用方差分析法以及3 思想,能夠有效的找出交易量異常點。利用k-means聚類分析和決策樹思想可區(qū)分出數據交易成功率和響應時間異常點。本文設計的一套交易狀態(tài)異常監(jiān)測方案,達到故障場景的正確判斷與及時報警的要求,ATM交易系統的性能管理問題有了一定的突破。
參考文獻:
[1]Zimmermann C M,Bridger R S.Effects of dialogue design on automatic teller machine(ATM) usability:Transation times and card loss[J].Bchaviour & Information Technology,2000,19(6):441-449.
[2]Yu H K,LeeK W.A study on the efficient operation of automated teller Machine(ATM)maintenance using simulation[C]//IEEE International Conference on Emergency Management Sciences,2011:520-524.
[3]孫博,康銳,張叔農.基于特征參數趨勢進化的故障診斷和預測方法[J].航空動力學報,2008(02):393-398.
[4]Roll R.A mean/variance analysis of tracking error[J].Journal of Portfolio Management,2009,18(4):13-22.
[5]Kruskal W H, Wallis W A.Errata:use of ranks in one-criterion variance analysis[J]. Journal of the American Statistical Association, 1952, 47(260):583-621.
[6]呂棟雷,曹志耀,鄧寶,汪亞夫.利用方差分析法進行模型驗證[M].計算機仿真期刊,2006(08):34-35.
[7]盛驟,謝式千,潘承毅.概率論與數理統計[M].高等教育出版社,2008(06):121-123.
[8]過莉.ATM網絡實時通信系統的響應時間分析[J].電機電器技術,2003(06):33-37.