韋金香, 張建同
(同濟(jì)大學(xué) 經(jīng)濟(jì)與管理學(xué)院,上海 200092)
銀行ATM設(shè)備業(yè)務(wù)總量的時(shí)序特征分析及預(yù)測
韋金香, 張建同
(同濟(jì)大學(xué) 經(jīng)濟(jì)與管理學(xué)院,上海 200092)
本文旨在分析銀行ATM設(shè)備業(yè)務(wù)總量的時(shí)序特征,并據(jù)此對其進(jìn)行預(yù)測。首先,本文以十分鐘為間隔,繪制了銀行ATM設(shè)備業(yè)務(wù)總量的30天趨勢圖,發(fā)現(xiàn)其以日為單位,呈現(xiàn)出顯著的周期性、擾動性和多峰性,因此本文建立了以日為周期的ATM設(shè)備業(yè)務(wù)總量時(shí)序分布模型。在求解模型的過程中,本文利用模擬退火算法將每日銀行系統(tǒng)ATM設(shè)備業(yè)務(wù)總量按其特征分為八段,消除了業(yè)務(wù)總量時(shí)間序列的多峰性。在此基礎(chǔ)上,建立了Holt-Winters模型對業(yè)務(wù)總量進(jìn)行預(yù)測,最后用第一時(shí)段進(jìn)行驗(yàn)證,得到95%置信區(qū)間內(nèi)的預(yù)測值。本文的研究結(jié)果為銀行數(shù)據(jù)監(jiān)控中心判斷設(shè)備運(yùn)行狀態(tài)提供了依據(jù)。
時(shí)序分布模型;模擬退火;Holt-Winters模型;運(yùn)行狀態(tài)
關(guān)于時(shí)間序列應(yīng)用問題,多用于以下方面:(1)降維,尋找序列特點(diǎn);(2)聚類,在聚類結(jié)果上進(jìn)行分析;(3)預(yù)測。銀行ATM設(shè)備業(yè)務(wù)總量數(shù)據(jù)具有時(shí)間序列特點(diǎn),序列形狀復(fù)雜但具有規(guī)律,本文運(yùn)用時(shí)間序列的思考方式對銀行ATM設(shè)備業(yè)務(wù)總量的特征進(jìn)行分析,并預(yù)測其正常狀態(tài)下的數(shù)值,從而對各行自助設(shè)備運(yùn)行情況進(jìn)行判定。
因?yàn)殂y行ATM設(shè)備業(yè)務(wù)量是時(shí)間序列,因此,首先應(yīng)判斷該序列是否能夠進(jìn)行預(yù)測,才能夠進(jìn)一步通過建立模型判定設(shè)備運(yùn)行狀態(tài)。因此本文建立業(yè)務(wù)量的時(shí)間序列自回歸方程,利用MATLAB進(jìn)行平穩(wěn)性檢驗(yàn),得到其顯著水平為0.1%,因此通過5%的顯著性水平檢驗(yàn),判定業(yè)務(wù)量時(shí)間序列符合平穩(wěn)性的特征。
隨后,利用R軟件初步畫出樣本數(shù)據(jù)的趨勢圖,由此判斷業(yè)務(wù)量時(shí)間序列的趨勢性和周期性,如圖1所示。
其中第一行為原業(yè)務(wù)量圖,第二行為幅值表征趨勢變化圖,第三行為周期性,第四行為隨機(jī)擾動。從圖1中可以清晰看到數(shù)據(jù)以天為周期,呈現(xiàn)明顯的周期性和趨勢性,擾動分布規(guī)律不明顯。
確定ATM設(shè)備業(yè)務(wù)量以天為周期,本文進(jìn)一步畫出以天為單位周期的圖像,如圖2所示。
圖1 ATM設(shè)備業(yè)務(wù)量趨勢圖
圖2 ATM設(shè)備每天變化趨勢圖
從圖2中可以看出,ATM設(shè)備業(yè)務(wù)量在時(shí)序上呈現(xiàn)非均質(zhì)特征,業(yè)務(wù)量所構(gòu)成的時(shí)間序列具有多峰值和周期性。因此,需針對業(yè)務(wù)總量的時(shí)序特征,階段性、周期性地建立準(zhǔn)確的ATM設(shè)備業(yè)務(wù)訪問預(yù)測模型。
上文提及ATM設(shè)備業(yè)務(wù)總量具有以天為周期的性質(zhì),但一天內(nèi)業(yè)務(wù)總量具有多峰性,因此應(yīng)當(dāng)進(jìn)一步將其以天為周期,探究其階段性特征。而分行上傳的每個(gè)時(shí)刻的業(yè)務(wù)量是一個(gè)根據(jù)時(shí)間變化的源源不斷的隨機(jī)過程,所以在對其進(jìn)行階段性研究時(shí)應(yīng)當(dāng)將業(yè)務(wù)量作為一個(gè)時(shí)間序列進(jìn)行分析,考慮業(yè)務(wù)量變化及正常范圍時(shí)不應(yīng)該將其與時(shí)間分離。對于ATM應(yīng)用系統(tǒng),將一個(gè)周期T(天)內(nèi)的時(shí)間分為n等長時(shí)段L(s,t)={S(t1),S(t2),…,S(tn)},其中S,t分別為分行業(yè)務(wù)量的業(yè)務(wù)量因子和時(shí)間因子。
本文研究其在不同時(shí)間段的特征,就是在研究按序(時(shí)間排列)將全部樣品(業(yè)務(wù)量)截成幾段,同類樣品(業(yè)務(wù)量)次序互相銜接的問題,即可以歸納為有序分類問題,符合Fisher最優(yōu)分割思想。
本文研究需要從ATM應(yīng)用系統(tǒng)業(yè)務(wù)量時(shí)間序列L(s,t)={S(t1),S(t2),…,S(tn)}中發(fā)現(xiàn)分行ATM應(yīng)用系統(tǒng)業(yè)務(wù)量的模式T={T1,T2,…,Tk},其中Ti(1≤i≤k)在時(shí)間上相連接。其中,由于以天作為周期,而不同日期具有不同特征,所以本文將樣本數(shù)據(jù)研究天數(shù)(共p天)作為指標(biāo),記為S(tm)=(dm1,…,dmp),1≤m≤n。
得到一天ATM應(yīng)用系統(tǒng)業(yè)務(wù)交易量的時(shí)間區(qū)間特征:
(1)
利用Fisher最優(yōu)分割算法劃分區(qū)間的模型構(gòu)建是基于算法思想建立的,方法步驟如下:
(1)類的直徑
假定分割區(qū)間為K類,某一類i業(yè)務(wù)量區(qū)間模式包含時(shí)序{S(i),S(i+1),…,S(j)}(j>i),記為G={i,i+1,…,j}。那么該業(yè)務(wù)量模式的向量均值為:
(2)
設(shè)模式內(nèi)業(yè)務(wù)量的直徑為業(yè)務(wù)量集的利差平方和D(i,j),則有:
(3)
(2)分類的損失函數(shù)
(4)
式中分點(diǎn)1=i1 (5) (6) 則通過求解式(6)得到p(n,k)對應(yīng)的式(4)解,即可得到Fisher最優(yōu)分割思想下的最優(yōu)分割點(diǎn)。從而得到式(1)解。 由于ATM應(yīng)用系統(tǒng)業(yè)務(wù)量時(shí)間序列周期內(nèi)具有144個(gè)時(shí)間點(diǎn),筆者利用求解精確解的思路在計(jì)算k=4及以上時(shí),無法計(jì)算得到結(jié)果。由于業(yè)務(wù)量以天為周期進(jìn)行階段性的分析,對于階段個(gè)數(shù)沒有精確要求,因此本文采用啟發(fā)式算法進(jìn)行求解。由于模擬退火算法(SA)數(shù)學(xué)模型的描述:在給定鄰域結(jié)構(gòu)后,模擬退火過程是從一個(gè)狀態(tài)到另一狀態(tài)不斷隨機(jī)游動,因此選擇SA算法進(jìn)行求解。 求解過程中,分割階段數(shù)的確定依據(jù)Fisher原理:在Fisher最優(yōu)分割過程中,最小損失函數(shù)值隨分割k的增加而減少。而當(dāng)分割數(shù)增加到某一數(shù)值后,最小損失函數(shù)值曲線將急劇變緩,達(dá)到一定的平衡,此時(shí)的k值為最佳分割值。 訓(xùn)練實(shí)驗(yàn)中,對訓(xùn)練樣本中業(yè)務(wù)量數(shù)據(jù)進(jìn)行3~12次最優(yōu)分割,利用MATLAB軟件分別得到各次分割下SA算法求得的最小損失函數(shù)值,如圖3所示。 圖3 基于SA算法求解的最小損失函數(shù)值變化圖 所以,由圖3可以得到k=7時(shí)為最佳分割取值,并且得到P(n,7)下的ATM應(yīng)用系統(tǒng)業(yè)務(wù)量模式所在時(shí)間區(qū)間,如表1所示。表1顯示k值為7時(shí)各訪問模式的離差平方和值較小。 表1 各業(yè)務(wù)量模式所在時(shí)間區(qū)間的集合 表1結(jié)果顯示,可以將一天內(nèi)銀行系統(tǒng)ATM設(shè)備業(yè)務(wù)總量分為八段,在此基礎(chǔ)上進(jìn)一步預(yù)測銀行ATM設(shè)備業(yè)務(wù)特征。 上文將一天內(nèi)的業(yè)務(wù)總量分為八段,進(jìn)一步觀察分段之后業(yè)務(wù)總量具有的特點(diǎn),如圖4所示。 圖4 00:00~06:39時(shí)段業(yè)務(wù)量月變化趨勢 從趨勢圖中看到,業(yè)務(wù)量變化具有很強(qiáng)周期性,基于其具有的整體趨勢變動性和周期性的二重變化特點(diǎn),采用加性Holt-Winters模型進(jìn)行預(yù)測(HW模型)。 沙川認(rèn)為HW模型的基本思想是把具有線性趨勢、周期變動和隨機(jī)變動的時(shí)間序列進(jìn)行分解研究,與指數(shù)平滑法相結(jié)合,分別對水平項(xiàng)Ut(level)、趨勢項(xiàng)bt(trend)和周期項(xiàng)Ft(seasonal component)做出估計(jì),HW模型由以下三個(gè)基本公式組成: (7) bt=β(Ut-Ut-1)+(1-β)bt-1 (8) (9) 其中,di為該時(shí)段中的觀測值,L為該時(shí)段周期長度,α,β,γ為對水平、趨勢和周期項(xiàng)的平滑參數(shù),取值在[0,1]上,并且使得歷史數(shù)據(jù)滿足: (10) 以該月前十五天第一時(shí)段數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)、后十五天的作為測試數(shù)據(jù)進(jìn)行預(yù)測,檢驗(yàn)HW模型對于ATM業(yè)務(wù)總量的預(yù)測效果。 得到α=0.147,意味著當(dāng)前預(yù)測基于較遠(yuǎn)的觀測值;β=0表明趨勢部分的斜率在整個(gè)時(shí)間序列上是不變的,等于初始值,符合圖像的直觀感受;γ=0.199表明當(dāng)天該時(shí)段的預(yù)測基于較遠(yuǎn)的觀測值。 如圖5所示,黑色部分為觀測數(shù)據(jù),紅色部分為HW模型求解得到的前15天實(shí)驗(yàn)數(shù)據(jù),可見HW算法成功預(yù)測了ATM設(shè)備業(yè)務(wù)總量的峰值。于是預(yù)測未來2天數(shù)據(jù)進(jìn)行比較。 圖5 前15天HW模型求解結(jié)果 圖6 時(shí)段1內(nèi)ATM業(yè)務(wù)總量預(yù)測 其中,圖6中藍(lán)色線條表示預(yù)測值,深灰色部分表示80%的置信區(qū)間,淺灰色表示95%的置信區(qū)間。對比實(shí)際數(shù)據(jù),發(fā)現(xiàn)99%實(shí)際數(shù)據(jù)在95%置信區(qū)間內(nèi),結(jié)果合理。因此,可以利用HW模型進(jìn)行預(yù)測,判斷未來時(shí)段1~8內(nèi)ATM設(shè)備業(yè)務(wù)總量是否合理,進(jìn)而判斷是否發(fā)生故障,及時(shí)進(jìn)行調(diào)整。 銀行ATM設(shè)備總業(yè)務(wù)量具有周期性和時(shí)序性,利用該特征能夠判斷銀行ATM設(shè)備運(yùn)行狀況,保證設(shè)備正常運(yùn)行。本文建立銀行ATM設(shè)備業(yè)務(wù)總量的時(shí)序分布特點(diǎn),建立時(shí)序分布模型,隨后利用模擬退火算法對模型進(jìn)行求解,將業(yè)務(wù)總量時(shí)序分布分為8個(gè)時(shí)段,進(jìn)而體現(xiàn)出業(yè)務(wù)總量分布的多峰值特征;在此基礎(chǔ)之上建立簡單的加性Holt-Winters模型進(jìn)行業(yè)務(wù)量預(yù)測,得到95%置信區(qū)間內(nèi)業(yè)務(wù)總量,當(dāng)實(shí)際數(shù)據(jù)低于該區(qū)間或者高于該區(qū)間,說明銀行ATM設(shè)備存在故障的可能,能夠給予銀行維護(hù)人員警示,保障銀行ATM設(shè)備交易的正常運(yùn)行。 現(xiàn)有網(wǎng)絡(luò)故障診斷方法一般都采用模糊邏輯或概率分析的方法,能夠完成不確定性條件下的推理決策,但對于銀行網(wǎng)絡(luò)交易數(shù)據(jù)而言,其具有較強(qiáng)的時(shí)序特征, 因此利用常規(guī)的網(wǎng)絡(luò)診斷方法缺乏針對性。本文通過對ATM設(shè)備業(yè)務(wù)總量時(shí)間序列進(jìn)行建模,按照序列特點(diǎn)采集其特征,并進(jìn)行業(yè)務(wù)量預(yù)測,從時(shí)序特征的角度完成了銀行ATM業(yè)務(wù)總量狀態(tài)的診斷問題。 在未來研究中,首先,由于模擬退火算法求解結(jié)果的精確度較低,因此探究如何準(zhǔn)確求解時(shí)序模型,將更有利于尋找時(shí)序特征。其次,因?yàn)閿?shù)據(jù)內(nèi)容的限制,本文沒有考慮ATM設(shè)備的狀態(tài)和地域設(shè)置對業(yè)務(wù)總量的影響,所以未來可集合ATM設(shè)備業(yè)務(wù)總量的時(shí)序性和地域性,從而進(jìn)一步探究銀行ATM設(shè)備業(yè)務(wù)總量精確的時(shí)空規(guī)律,建立更加高效的ATM設(shè)備資源時(shí)空分配策略。 [1] 馮崢. 基于粗糙集理論的銀行卡故障診斷系統(tǒng)研究與實(shí)現(xiàn)[D].上海:上海交通大學(xué),2008. [2] 徐定杰,鄭笑天. 基于CMDB的銀行故障管理優(yōu)化實(shí)現(xiàn)[J]. 黑龍江科技信息,2010(6):70. [3] ESLING P, AGON C. Time-series data mining[J]. ACM Computing Surveys,2012, 45(1):12. [4] 張俊,殷坤龍,王佳佳,等. 基于時(shí)間序列與PSO-SVR耦合模型的白水河滑坡位移預(yù)測研究[J/OL]. 巖石力學(xué)與工程學(xué)報(bào),2015,34(2):382-391. [5] BAGNALL A, DAVIS L, HILLS J, et al. Transformation based ensembles for time series classification[C]//Proceedings of the 2012SIAM International Conference on Data Mining (SDM 2012),2012:307-318. [6] BRANDMAIER A M. pdc: permutation distribution clustering[J]. Psychological Methods, 2015, 18(1):71-86. [7] RAKTHANMANON T, KEOGH E. Fast shapelets: a scalable algorithm for discovering time series shapelets. // Proceedings of the13th SIAM International Conference on Data Mining (SDM 2013) .Austin, USA.2013:668-676. [8] 吳華意,李銳,周振,等. 公共地圖服務(wù)的群體用戶訪問行為時(shí)序特征模型及預(yù)測[J/OL]. 武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2015,40(10):1279-1286+1316. [9] 杜濤,熊立華,江聰. 渭河流域降雨時(shí)間序列非一致性頻率分析[J]. 干旱區(qū)地理,2014,37(3):468-479. [10] 鐘錦源,張巖,文福拴,等. 基于時(shí)間序列相似性匹配的輸電系統(tǒng)故障診斷方法[J]. 電力系統(tǒng)自動化,2015,39(6):60-67. [11] 沙川. Holt-Winters時(shí)間序列模型參數(shù)估計(jì)和預(yù)測[D].南京:南京大學(xué),2011. ResearchandPredictiononTime-SequenceCharacteristicsoftheTotalBankingAutomaticTellerMachineBusiness (WEIJinxiang,ZHANGJiantong (School of Economics and Management, Tongji University, Shanghai 200092, China) This paper aims to analyze the time-sequence characteristics of the total banking ATM equipment business and predict the number of the business. Firstly, we map the banking ATM equipment 30 days of total trend diagram by taking the data of ten minutes interval. It is found that it has a significant periodicity, perturbation and multi-peak. Then we set up a time-sequence distribution model of total ATM equipment business base on the data of day interval and solve the mode by simulated annealing algorithm (SA). We divided the total amount of ATM equipment of the daily banking system into eight segments according to its characteristics, and eliminating the multi-peak of the total time series of the total business. Finally we forecast the total volume of the business through the Holt-Winters model and use the first period data for verification. And we get the 95% confidence interval of the first period business. The results of this paper provide a basis for judging the operation status of the equipment in the bank data monitoring center. time-sequence distribution model; SA; Holt-Winters model; operation status 2017-10-12 韋金香(1993—),女,廣西人,碩士研究生,研究方向?yàn)閿?shù)據(jù)挖掘;張建同(1966—),教授,博士生導(dǎo)師,研究方向?yàn)閼?yīng)用統(tǒng)計(jì)。 E-mail: zhangjiant@163.com。 1005-9679(2017)06-0025-04 F 832 A2 基于SA算法的ATM設(shè)備業(yè)務(wù)總量的時(shí)序模型求解
3 基于Holtwinters時(shí)間序列的業(yè)務(wù)量預(yù)測模型
4 總結(jié)