徐 梅,扈 夢(mèng)
(天津大學(xué)管理與經(jīng)濟(jì)學(xué)部,天津300072)
隨著金融市場(chǎng)的逐步復(fù)雜化,在實(shí)際的金融市場(chǎng)問(wèn)題中,金融波動(dòng)往往表現(xiàn)出豐富并且復(fù)雜的特性。目前國(guó)內(nèi)外關(guān)于金融波動(dòng)的研究方法主要有兩大類(lèi):一類(lèi)是金融計(jì)量學(xué)的研究方法,另一類(lèi)是混沌等非線性系統(tǒng)的理論和方法。傳統(tǒng)的方法研究金融波動(dòng)大都采用自回歸條件異方差(ARCH)模型、隨機(jī)波動(dòng)(SV)模型以及相關(guān)拓展模型等金融計(jì)量學(xué)方法,刻畫(huà)了金融波動(dòng)的厚尾、長(zhǎng)記憶性和持續(xù)性、波動(dòng)溢出效應(yīng),以及波動(dòng)集群性等特性。高頻數(shù)據(jù)波動(dòng)率的計(jì)算主要基于“已實(shí)現(xiàn)”波動(dòng)理論[1-2]。目前大多數(shù)關(guān)于金融時(shí)間序列的異常檢測(cè)是基于低頻數(shù)據(jù)的。AUREA等以金融時(shí)間序列的GARCH模型殘差為基礎(chǔ),基于小波分析,提出了檢測(cè)并定位異常的方法,對(duì)道瓊斯指數(shù)的歷史數(shù)據(jù)做了實(shí)證分析,檢測(cè)出歷史上股市因發(fā)生重大事件而表現(xiàn)出的較大波動(dòng)[3]。張成虎等基于小波分析的奇異點(diǎn)識(shí)別原理,分析了我國(guó)某省企業(yè)外匯賬戶的借貸發(fā)生額,并結(jié)合交易量檢測(cè)了異常交易賬戶[4]。符號(hào)時(shí)間序列分析(symbolic time series analysis,STSA)方法計(jì)算的快速性、強(qiáng)大的辨識(shí)與分類(lèi)功能,使其適合于提取數(shù)據(jù)序列的大尺度非線性動(dòng)力學(xué)特征。筆者將符號(hào)時(shí)間序列分析和工程領(lǐng)域的D-Markov模型引入基于高頻數(shù)據(jù)的金融波動(dòng)研究中,提出了一種用于金融波動(dòng)模式識(shí)別和異常檢測(cè)的方法。
ASOK首先提出了一種用于復(fù)雜系統(tǒng)隱含模式識(shí)別的快速時(shí)間序列方法,即D-Markov模型[5]。SHIN等在異常檢測(cè)領(lǐng)域?qū)⒃撃P团c統(tǒng)計(jì)方法和神經(jīng)網(wǎng)絡(luò)方法對(duì)比,發(fā)現(xiàn)D-Markov模型優(yōu)于其他兩種方法[6]。AMOL等將其應(yīng)用于柔性機(jī)械聯(lián)軸器的異常檢測(cè),取得了較好的效果[7]。
上述工程領(lǐng)域內(nèi)特定時(shí)間段中狀態(tài)的相關(guān)性較小,可以認(rèn)為是近似不相關(guān)的,然而金融領(lǐng)域與工程領(lǐng)域有很大的差別。國(guó)外學(xué)者通過(guò)實(shí)證研究證明了金融波動(dòng)序列存在長(zhǎng)記憶性[8-9]。國(guó)內(nèi)學(xué)者對(duì)金融波動(dòng)的長(zhǎng)記憶性也進(jìn)行了大量的研究,結(jié)果表明:無(wú)論是基于高頻數(shù)據(jù)還是低頻數(shù)據(jù),我國(guó)股票市場(chǎng)的波動(dòng)具有明顯的長(zhǎng)記憶性[10-11]。因此,對(duì)原始金融波動(dòng)序列進(jìn)行基于D-Markov模型的分析顯然是不合適的。但是,小波變換具有去相關(guān)性的特點(diǎn),徐梅等對(duì)長(zhǎng)記憶金融波動(dòng)序列相關(guān)性分析表明:同一尺度下或者不同尺度下的DWT系數(shù)是近似不相關(guān)的[12]。因此,可以對(duì)金融波動(dòng)序列變換后的小波系數(shù)序列進(jìn)行DMarkov分析。
筆者首先對(duì)金融波動(dòng)序列進(jìn)行小波變換,再利用D-Markov模型進(jìn)行金融波動(dòng)變化模式識(shí)別和異常檢測(cè),以上海證券交易所綜合指數(shù)(簡(jiǎn)稱上證綜指)2007—2010年1—12月采樣間隔為5 min的高頻數(shù)據(jù)為樣本進(jìn)行實(shí)證分析,以驗(yàn)證該方法的可行性。
根據(jù)文獻(xiàn)[13],對(duì)于函數(shù) ψ(t)∈L2(R),L2(R)指t∈R的所有平方可積函數(shù)組成的函數(shù)空間,如果ψ(t)的傅里葉變換滿足容許性條件(Admissible Condition),則:
則稱ψ(t)為一個(gè)小波母函數(shù),對(duì)ψ(t)做伸縮和平移,得小波函數(shù)為:
其中,m∈z={0,±1,±2,…}為尺度函數(shù);n∈z為平移系數(shù)。
對(duì)于任一離散形式時(shí)間序列x(t)∈L2(R)可表示為:
時(shí)間序列符號(hào)化的基本思想是將原始時(shí)間序列劃分為有限個(gè)數(shù)的區(qū)間,每個(gè)區(qū)間分配不同的符號(hào),每個(gè)原始數(shù)據(jù)根據(jù)落入?yún)^(qū)間的不同對(duì)應(yīng)不同的符號(hào)[14]。ASOK在基于小波的劃分中提出均勻劃分,然而均勻劃分并沒(méi)有考慮不同區(qū)域所包含信息量的多少。作為對(duì)均勻劃分的發(fā)展,VENKATESH提出了基于小波的最大熵(ME)劃分[15]。N為小波系數(shù)序列的長(zhǎng)度,k為符號(hào)集的大小,將小波系數(shù)序列按升序重新排列,從重新排列后的第一個(gè)點(diǎn)開(kāi)始,每一個(gè)長(zhǎng)度為[N/k]([x]為小于等于x的最大整數(shù))的連續(xù)的數(shù)據(jù)段形成一個(gè)劃分后的區(qū)域。ME劃分的關(guān)鍵在于符號(hào)集k大小的選擇。符號(hào)集大小為k的符號(hào)序列的shannon熵定義為:
其中,pi為符號(hào)σi出現(xiàn)的概率。且令0lb 0=0,H(1)=0。定義h(·)為shannon熵隨符號(hào)集k大小的變化,表示為:
選擇符號(hào)集大小的算法步驟如下:
(1)令 k=2。選擇一個(gè)閾值 εh,0 <εh<1。
(2)將長(zhǎng)度為N的小波系數(shù)序列按升序排列。
(3)升序排列后,每一個(gè)長(zhǎng)度為[N/k]的連續(xù)數(shù)據(jù)段構(gòu)成劃分后的一個(gè)區(qū)域。
(4)按照步驟(3)得到的劃分將小波系數(shù)序列轉(zhuǎn)化為符號(hào)序列。如果一個(gè)數(shù)據(jù)點(diǎn)落在某個(gè)劃分區(qū)域的區(qū)間內(nèi)或是在該劃分區(qū)域的下界上,則將該數(shù)據(jù)點(diǎn)編碼為與該區(qū)域相關(guān)的符號(hào)。
(5)計(jì)算每個(gè)符號(hào)的概率 pi,i=1,2,…,k。
(6)根據(jù)式(4)和式(5)計(jì)算H(k)和h(k)。
(7)如果h(k)<εh,退出。否則令 k=k+1,返回步驟(3)。
根據(jù)已知的小波系數(shù)序列及選定的閾值,確定符號(hào)集k的大小,然后按照步驟(4)將小波系數(shù)序列符號(hào)化,得到符號(hào)序列。
對(duì)于給定的符號(hào)序列{st},符號(hào)集大小為k,窗口長(zhǎng)度為D,從符號(hào)序列的第一個(gè)符號(hào)開(kāi)始,以窗口長(zhǎng)度D向右滑動(dòng),每次滑動(dòng)一個(gè)符號(hào),如此保留前一個(gè)狀態(tài)的后(D-1)個(gè)符號(hào)并附加一個(gè)新的符號(hào)產(chǎn)生一個(gè)新的狀態(tài)。
定義1 對(duì)于一個(gè)符號(hào)序列過(guò)程,如果下一個(gè)符號(hào)的出現(xiàn)只與前D個(gè)符號(hào)有關(guān),則稱這個(gè)過(guò)程為D階馬爾科夫(D-Markov)過(guò)程[16],即:
定義2 狀態(tài)集Q中的第i個(gè)狀態(tài)轉(zhuǎn)移到第j個(gè)狀態(tài)的概率為:
因此,對(duì)于一個(gè)D-Markov模型,矩陣Π≡[πij]為所有狀態(tài)間的轉(zhuǎn)移概率,是一個(gè)非退化矩陣。矩陣Π的單位特征值對(duì)應(yīng)的左特征向量p表示在動(dòng)態(tài)系統(tǒng)穩(wěn)定條件下的狀態(tài)概率向量。因?yàn)榫仃嚘笆窃诜€(wěn)定條件下的非退化矩陣,由Perron-Frobenius定理可知,它一定存在一個(gè)唯一的單位特征值。對(duì)于給定的符號(hào)序列…s-2s-1s0s1s2…,以窗口長(zhǎng)度D向右滑動(dòng),分別統(tǒng)計(jì)長(zhǎng)度為D+1和D的符號(hào)串的個(gè)數(shù),記為N(si1…siDsiD+1)和N(si1…siD)。如果 N(si1…siD)=0,那么狀態(tài) q≡si1…siD∈Q發(fā)生的概率為0。如果N(si1…siD)≠0,計(jì)算某一狀態(tài)的轉(zhuǎn)移概率為:
其中,相應(yīng)的狀態(tài)表示為qi≡si1…siD和qj≡si2…siDs。
標(biāo)準(zhǔn)波動(dòng)序列產(chǎn)生的狀態(tài)轉(zhuǎn)移概率矩陣記為Π0,通過(guò)狀態(tài)轉(zhuǎn)移概率矩陣得到狀態(tài)概率向量p0,其中的每個(gè)元素為狀態(tài)向量的穩(wěn)定概率。同時(shí)狀態(tài)概率向量也是狀態(tài)轉(zhuǎn)移矩陣單位特征值對(duì)應(yīng)的左特征向量。
按照上述計(jì)算標(biāo)準(zhǔn)極限狀態(tài)概率向量的方法,可以得到波動(dòng)序列時(shí)間 t1,t2,…,ti,…對(duì)應(yīng)的狀態(tài)概率向量 p1,p2,…,pi,…。整個(gè)系統(tǒng)的行為變化,可用異常度來(lái)表示,定義為:
其中,d(·,·)表示所選擇的距離函數(shù)。在文中,筆者使用標(biāo)準(zhǔn)歐拉范數(shù)作為距離函數(shù)來(lái)體現(xiàn)不同狀態(tài)概率向量之間的差異。
3.3.1 波動(dòng)變化模式識(shí)別
首先,選定標(biāo)準(zhǔn)波動(dòng)序列。對(duì)于標(biāo)準(zhǔn)波動(dòng)序列的選擇,既可以變化平穩(wěn),也可以是變化劇烈且其中有異常變化的波動(dòng)序列,還可以是任意的作為參照標(biāo)準(zhǔn)的波動(dòng)序列。根據(jù)式(9)計(jì)算波動(dòng)序列的異常度,得到異常度曲線,異常度越小則與標(biāo)準(zhǔn)波動(dòng)序列的變化模式越相似,若異常度為0則可以認(rèn)為與標(biāo)準(zhǔn)波動(dòng)序列的變化模式是一樣的;異常度越大則與標(biāo)準(zhǔn)波動(dòng)序列變化模式的差別越大。在實(shí)際應(yīng)用中,可以在歷史波動(dòng)序列中尋找與目標(biāo)波動(dòng)序列變化模式相似的波動(dòng)序列,進(jìn)而可以參考相似波動(dòng)序列的投資策略。
3.3.2 異常波動(dòng)檢測(cè)
將“已實(shí)現(xiàn)”波動(dòng)序列的值由大到小排列,設(shè)其10%分位數(shù)為異常波動(dòng)臨界值,大于臨界值的波動(dòng)定義為異常波動(dòng),則正常波動(dòng)序列是一段不包含異常波動(dòng)的序列。選定一段正常波動(dòng)序列,根據(jù)式(9)計(jì)算波動(dòng)序列的異常度,根據(jù)異常度曲線,如果某時(shí)點(diǎn)的異常度較大,則說(shuō)明該時(shí)點(diǎn)對(duì)應(yīng)的子序列與正常波動(dòng)序列的變化模式差別較大,為異常波動(dòng)序列。
筆者選取上海證券交易所綜合指數(shù)(簡(jiǎn)稱上證綜指)2007—2010年1—12月采樣間隔為5 min的高頻數(shù)據(jù)為樣本數(shù)據(jù),上午9:30—11:30和下午13:00—15:00是連續(xù)競(jìng)價(jià)時(shí)間,每天交易時(shí)間為 4 h,則每日有48個(gè)數(shù)據(jù),時(shí)間段為:2007/01/04—2010/12/31,共46 752個(gè)數(shù)據(jù)。
“已實(shí)現(xiàn)”波動(dòng)(realized volatility,RV)是TORBEN等在金融高頻時(shí)間序列的基礎(chǔ)上提出的一種波動(dòng)率度量方法。RV為金融資產(chǎn)日內(nèi)收益平方之和,表示為:
其中,rt,j=lg pt,j- lg pt,j-1(t=1,2,…,T,j=1,2,…,M)。pt,j為金融資產(chǎn)在第 t日的第 j個(gè)價(jià)格,rt,j為金融資產(chǎn)第 t日的第 j個(gè)日內(nèi)收益,M為在[t,t+1]的間段內(nèi)等間隔的采樣次數(shù)。由式(10)可得到上證綜指“已實(shí)現(xiàn)”波動(dòng)序列{Vt},長(zhǎng)度為974。
筆者選擇以月為周期來(lái)研究金融波動(dòng)的變化。為了便于進(jìn)行離散小波變換,每個(gè)波動(dòng)時(shí)間段包括32個(gè)交易日的數(shù)據(jù)。由于符號(hào)集k的大小與波動(dòng)時(shí)間段內(nèi)具體的波動(dòng)值無(wú)關(guān),因此可以在整個(gè)波動(dòng)序列內(nèi)任意選擇32個(gè)交易日的數(shù)據(jù)來(lái)確定k。對(duì)閾值εh的選擇要綜合考慮計(jì)算準(zhǔn)確度和計(jì)算速度等因素,因此選閾值εh=0.2。
在波動(dòng)序列中任意選擇32個(gè)交易日的數(shù)據(jù)組成一段波動(dòng)時(shí)間序列。選擇“haar”為小波基,對(duì)此波動(dòng)時(shí)間序列進(jìn)行4尺度離散小波變換得到小波系數(shù)序列{cd1}、{cd2}、{cd3}、{cd4}。將小波系數(shù)按照對(duì)應(yīng)尺度從小到大的順序排列,得到序列{{cd1},{cd2},{cd3},{cd4}}。然后確定符號(hào)集k的大小。熵值增量隨符號(hào)集k的變化如圖1所示。
圖1 熵值增量隨符號(hào)集k的變化圖
從圖1中可以看出,當(dāng)符號(hào)集大小為7時(shí),熵值增量大于0.2;當(dāng)符號(hào)集大小為8時(shí),熵值增量小于0.2,因此,筆者選擇符號(hào)集大小為8。
由上述“已實(shí)現(xiàn)”波動(dòng)序列{Vt}按時(shí)間段劃分構(gòu)造出新的“已實(shí)現(xiàn)”波動(dòng)序列{RVi}:第1個(gè)到第32個(gè)數(shù)據(jù)構(gòu)成RV1,第2個(gè)到第33個(gè)數(shù)據(jù)構(gòu)成RV2,依次類(lèi)推第943個(gè)到第974個(gè)數(shù)據(jù)構(gòu)成RV943。新構(gòu)造的“已實(shí)現(xiàn)”波動(dòng)序列為{RV1,RV2,…,RV943},RVi為32維。從新構(gòu)造的“已實(shí)現(xiàn)”波動(dòng)序列中選取 RV760、RV169、RV289作為標(biāo)準(zhǔn)狀態(tài),分別記為 S1、S2、S3,波動(dòng)情況如圖2所示。
圖 2 S1、S2、S3 波動(dòng)圖
選擇窗口長(zhǎng)度D為3,對(duì)標(biāo)準(zhǔn)波動(dòng)序列進(jìn)行小波變換,得到小波系數(shù)序列,然后采用基于最大熵的劃分,得到劃分標(biāo)準(zhǔn),并進(jìn)行符號(hào)化。運(yùn)用D-Markov模型分析符號(hào)序列,計(jì)算狀態(tài)轉(zhuǎn)移概率矩陣及其狀態(tài)轉(zhuǎn)移概率向量p0。
對(duì)于每個(gè)標(biāo)準(zhǔn)波動(dòng)序列,依據(jù)該標(biāo)準(zhǔn)波動(dòng)序列下得到的劃分標(biāo)準(zhǔn)對(duì)新構(gòu)造的“已實(shí)現(xiàn)”波動(dòng)序列中每個(gè)RVi進(jìn)行符號(hào)化,求出其對(duì)應(yīng)的符號(hào)序列,運(yùn)用D-Markov模型分析符號(hào)序列,計(jì)算狀態(tài)轉(zhuǎn)移概率矩陣及其狀態(tài)轉(zhuǎn)移概率向量pi。按式(9)求出狀態(tài)概率向量pi與標(biāo)準(zhǔn)狀態(tài)對(duì)應(yīng)的狀態(tài)概率向量之間的距離Mi。分別以S1、S2、S3為標(biāo)準(zhǔn)得到的{RVi}與標(biāo)準(zhǔn)波動(dòng)序列的距離記為{d1i}、{d2i}、{d3i},則其分別為3個(gè)標(biāo)準(zhǔn)下{RVi}的異常度,如圖3所示。
圖3 波動(dòng)序列{RVi}與標(biāo)準(zhǔn)波動(dòng)序列之間的異常度
由圖3可以看出,d1比較平緩,基本沒(méi)有劇烈的變化,然而實(shí)際上各個(gè)時(shí)間段的波動(dòng)變化模式差別很大,說(shuō)明基于該標(biāo)準(zhǔn)狀態(tài)的劃分標(biāo)準(zhǔn)不能很好地刻畫(huà)整個(gè)波動(dòng)序列的變化。d2、d3變化劇烈,方差較大,更適合來(lái)刻畫(huà)各個(gè)時(shí)間段的變化模式。異常度越小則與標(biāo)準(zhǔn)波動(dòng)序列變化模式越接近,圖4表示了幾個(gè)與標(biāo)準(zhǔn)波動(dòng)序列S2模式相似的波動(dòng)序列,其中 RV165、RV140異常度分別為0.686、0.808。
圖4 兩個(gè)與標(biāo)準(zhǔn)狀態(tài)RV169變化模式相似的波動(dòng)序列波動(dòng)圖
選定正常波動(dòng)序列。由{Vt}求出異常波動(dòng)臨界值為1.205 7×10-4,樣本“已實(shí)現(xiàn)”序列的波動(dòng)平均值為6.028 7×10-5,然而,如果選取的正常波動(dòng)序列中波動(dòng)值都比較小,如上述的S1,則不能有效地實(shí)現(xiàn)對(duì)整個(gè)波動(dòng)序列的檢測(cè)。這里選取RV528作為正常波動(dòng)序列,即標(biāo)準(zhǔn)波動(dòng)序列,其波動(dòng)值均在異常波動(dòng)臨界值以下,絕大多數(shù)處于波動(dòng)平均值附近。
計(jì)算每個(gè)RVi與標(biāo)準(zhǔn)波動(dòng)序列RV528之間的異常度,異常度大,則說(shuō)明其與標(biāo)準(zhǔn)波動(dòng)序列變化模式差別大,是異常波動(dòng)序列。圖5列示了正常波動(dòng)序列及幾列異常波動(dòng)序列的波動(dòng)圖,幾個(gè)異常波動(dòng)序列為 RV532、RV89、RV230、RV115、RV926,異常度分別為 1.958、1.737、1.736、1.733、1.711。
圖5 正常波動(dòng)序列和幾列異常波動(dòng)序列波動(dòng)圖
筆者將符號(hào)時(shí)間序列分析、小波分析和工程領(lǐng)域的D-Markov模型引入到基于高頻數(shù)據(jù)的金融波動(dòng)研究中,提出了一種用于金融波動(dòng)變化模式識(shí)別和異常檢測(cè)的方法。
對(duì)中國(guó)股票市場(chǎng)的上證綜指RV序列進(jìn)行了實(shí)證分析,在選定研究周期后,識(shí)別波動(dòng)序列的變化模式,并基于正常波動(dòng)序列確定異常波動(dòng)序列。實(shí)證研究表明,該方法不僅能夠?qū)崿F(xiàn)對(duì)金融波動(dòng)變化模式的識(shí)別,還可以有效地檢測(cè)到異常波動(dòng)序列。筆者以月為周期,該方法還可以用于以周等較短時(shí)間段為周期,為短期投資者交易提供參考。在實(shí)際應(yīng)用中,異常波動(dòng)序列的檢測(cè),對(duì)風(fēng)險(xiǎn)規(guī)避防范和風(fēng)險(xiǎn)管理監(jiān)控有重要意義,尋找變化模式相似的波動(dòng)序列,則可以參考彼此的投資策略。
[1]TORBEN G A,TIM B,F(xiàn)RANCISX D,et al.Modeling and forecasting realized volatility[J].Econometrica,2003,71(2):579 -625.
[2]徐正國(guó),張世英.多維高頻數(shù)據(jù)的“已實(shí)現(xiàn)”波動(dòng)建模研究[J].系統(tǒng)工程學(xué)報(bào),2006,21(1):6 -11.
[3]AUREA G,HELENA V.Wavelet-based detection of outliers in financial time series[J].Computational Statistics and Data Analysis,2010,54(11):2580 -2593.
[4]張成虎,趙小虎.基于小波分析的可疑金融交易時(shí)間序列研究[J].現(xiàn)代管理科學(xué),2009(7):102-104.
[5]ASOK R.Symbolic dynamic analysis of complex systems for anomaly detection [J].Signal Processing,2004,84(7):1115 -1130.
[6]SHIN C C,ASOK R,VENKATESH R.Symbolic time series analysis for anomaly detection:a comparative evaluation[J].Signal Processing,2005,85(9):1859 -1868.
[7]AMOL K,SHALABH G,ASOK R,et al.Anomaly detection in flexiblemechanical couplings via symbolic time series analysis[J].Journal of Sound and Vibration,2008,311(3 -5):608 -622.
[8]LOBATO IN,SAVINNE.Realand spurious long-memory properties of stock-market data[J].Journal of Business and Economic Statistics,1998,16(3):261 -268.
[9]BONNIE K R,RUEY S T.Long-range dependence in daily stock volatilities[J].Journal of Business and Economic Statistics,2000,18(2)254 -262.
[10]文鳳華,劉曉群,唐海如,等.基于LHAR-RV-V模型的中國(guó)股市波動(dòng)性研究[J].管理科學(xué)學(xué)報(bào),2012,15(6):61 -67.
[11]鄭雪峰,陳銘新.基于SEMIFAR模型的我國(guó)股市波動(dòng)率的長(zhǎng)記憶性研究[J].中國(guó)證券期貨,2012(12):43-47.
[12]徐梅,張世英.基于小波分析的金融波動(dòng)分析[J].系統(tǒng)工程理論與實(shí)踐,2005(2):1-9.
[13]DONALD B P,ANDREW TW.時(shí)間序列分析的小波方法[M].程正興,譯.北京:機(jī)械工業(yè)出版社,2006:57-66.
[14]JUAN G B,LIONELLO F P.Symbolic time series analysis and dynamic regimes[J].Structural Change and Economic Dynamics,2003,14(2):159 -183.
[15]VENKATESH R,ASOK R.Symbolic time series analysis via wavelet- based partitioning[J].Signal Processing,2006,86(11):3309 -3320.
[16]周迅,向馗,俞小莉.D-Markov模型在疲勞裂紋擴(kuò)展模式識(shí)別中的應(yīng)用[J].浙江大學(xué)學(xué)報(bào),2008,42(3):549-552.