閆勇志 沐年國
摘? 要: 對超高頻金融數(shù)據(jù)的預(yù)測,模態(tài)分解降低了數(shù)據(jù)的噪聲,提高了數(shù)據(jù)預(yù)測精度。據(jù)此提出了自適應(yīng)噪聲的完整集合經(jīng)驗(yàn)?zāi)B(tài)分解(CEEMDAN)與變分模態(tài)分解(VMD)相結(jié)合的二次分解模型。先將期貨日度行情數(shù)據(jù)通過CEEMDAN一次分解,并通過樣本熵將分解后的序列整合成高頻、低頻和趨勢序列;再將高頻和低頻序列分別進(jìn)行VMD分解,然后將各個(gè)IMF分量通過LSTM網(wǎng)絡(luò)預(yù)測,最終整合各個(gè)預(yù)測結(jié)果。模型各項(xiàng)指標(biāo)均好于一次分解。
關(guān)鍵詞: 超高頻金融數(shù)據(jù); CEEMDAN; VMD; 二次分解
中圖分類號:TP391? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ?文章編號:1006-8228(2023)05-102-07
UHF financial time series predicting based on CEEMDAN-VMD-LSTM
Yan Yongzhi, Mu Nianguo
(Business School, University of Shanghai for Science & Technology, Shanghai 200093, China)
Abstract: For the prediction of UHF financial data, modal decomposition reduces the noise of data and improves the accuracy of data prediction. Accordingly, a quadratic decomposition model combining the complete ensemble empirical mode decomposition for adaptive noise (CEEMDAN) and variational mode decomposition (VMD) is proposed. Firstly, the daily market data of futures are decomposed by CEEMDAN, and the decomposed series are integrated into high-frequency, low-frequency and trend series by sample entropy. Then, the high-frequency and low-frequency series are decomposed by VMD respectively, and each IMF component is predicted by LSTM network. Finally, the prediction results are integrated. Compared with CEEMDAN decomposition and VMD decomposition, each index of the proposed model is better.
Key words: UHF financial data; CEEMDAN; VMD; quadratic decomposition
0 引言
超高頻金融數(shù)據(jù)是根據(jù)市場上的每一筆交易來進(jìn)行采集,時(shí)間間隔不固定,具有非平穩(wěn)、非線性以及高度復(fù)雜的特征[1]。如何準(zhǔn)確掌握日內(nèi)超高頻數(shù)據(jù)是量化投資領(lǐng)域的重大課題之一。
金融高頻數(shù)據(jù)的預(yù)測主要方法是通過神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測,Hajiabotorabi等[2]采用基于B樣條小波多分辨率改進(jìn)DWT-RNN模型,結(jié)果表明,BS3-RNN預(yù)測模型比使用其他小波或神經(jīng)網(wǎng)絡(luò)模型具有更好的預(yù)測能力,但是RNN模型有梯度消失問題,因此Bukhari等[3]提出了ARFIMA-LSTM模型,不僅最小化了波動性問題,而且克服了神經(jīng)網(wǎng)絡(luò)的過擬合問題。
金融高頻數(shù)據(jù)含有大量噪聲,諸多學(xué)者采用小波降噪法對金融數(shù)據(jù)進(jìn)行處理。Huang[4]提出了經(jīng)驗(yàn)?zāi)B(tài)分解方法,引入復(fù)雜數(shù)據(jù)集的瞬時(shí)頻率,消除了表示非線性和非平穩(wěn)信號的雜散諧波的需要。Afolabi et al[5]利用EMD方法結(jié)合LSTM神經(jīng)網(wǎng)絡(luò)對蘋果公司股價(jià)進(jìn)行預(yù)測;但是EMD會造成模態(tài)混疊的問題,Huang and Wu[6]提出了一種基于集成經(jīng)驗(yàn)?zāi)J椒纸猓‥EMD)的算法,有效遏制EMD模態(tài)混合問題,Yeh等[7]提出互補(bǔ)集合經(jīng)驗(yàn)?zāi)J椒纸猓–EEMD)克服了EEMD重構(gòu)誤差大、分解完備性差的問題。Torres[8]提出自適應(yīng)噪聲的完整集合經(jīng)驗(yàn)?zāi)B(tài)分解(CEEMDAN)固有模態(tài)分量中殘留噪聲更少,有效減少重構(gòu)誤差,分解效率最高。馮曉天[9]年提出CEEMDAN-SSA-LSTM方法,基于1分鐘收盤價(jià)高頻數(shù)據(jù)的CEEMDAN-SSA-LSTM模型是預(yù)測效果最好的模型。
Konstantin Dragomiretskiy[10]提出一種變分模態(tài)分解(VMD)方法,一種自適應(yīng)、非完全遞歸的非線性分解方法,可以實(shí)現(xiàn)分解模態(tài)的同時(shí)提取,有效地將時(shí)間序列中混入的高斯白噪聲分離,實(shí)現(xiàn)信號的降噪處理。史心怡[11]改進(jìn)類經(jīng)驗(yàn)?zāi)B(tài)分解-LSTM-Adaboost組合模型對股市波動率預(yù)測研究,結(jié)果表明VMD的分解精度優(yōu)于EEMD。
近年很多學(xué)者考慮二次分解技術(shù),以求提高模型的預(yù)測精度,程文輝等[12]提出二次分解與LSTM的金融時(shí)間序列預(yù)測算法,將VMD和EEMD相結(jié)合,將VMD分解后的殘余分量二次處理,結(jié)果表明,二次分解算法有效提升模型的預(yù)測能力。何榮輝[13]年提出多元預(yù)測模型對短期風(fēng)電功率進(jìn)行預(yù)測研究,通過CEEMDAN一次分解后,將波動大的IMF分量進(jìn)行VMD分解,二次分解后的預(yù)測結(jié)果好于對比模型。唐莉[14]提出混合分解集成模型對碳排放權(quán)價(jià)格進(jìn)行研究,首先通過CEEMDAN對序列進(jìn)行一次分解,然后通過計(jì)算IMF模糊熵值,將模糊熵值大的分量進(jìn)行VMD分解,結(jié)果表明二次分解好于其他模型。Feite Zhou等[15]總結(jié)了兩個(gè)基本的CEEMDAN-LSTM框架,并提出了一種與VMD相結(jié)合的混合框架對碳價(jià)格進(jìn)行預(yù)測研究,結(jié)果表明,二次分解技術(shù)能夠提高一次分解的預(yù)測精度。
綜上所述,對非平穩(wěn)、非線性的時(shí)間序列數(shù)據(jù),基于CEEMDAN和VMD的二次分解方法具有較好的預(yù)測效果。因此本文提出CEEMDAN-VMD-LSTM對超高頻金融數(shù)據(jù)進(jìn)行研究,主要貢獻(xiàn)有:
⑴ 通過樣本熵重構(gòu)高頻序列和低頻序列,對兩個(gè)序列分別進(jìn)行VMD分解,充分利用CEEMDAN和VMD分解,并且對比單變量回歸和多變量回歸結(jié)果,結(jié)果表明對高頻和低頻序列都進(jìn)行二次分解后,單變量回歸模型略好;
⑵ 期貨行情數(shù)據(jù),即超高頻數(shù)據(jù)的研究較少,本文提出的預(yù)測方法,為期貨量化交易,提出了新的方向。
1 研究方法
1.1 CEEMDAN
具有自適應(yīng)噪聲的完全集成經(jīng)驗(yàn)?zāi)B(tài)分解(CEEMDAN)是由EMD、EEMD和CEEMD發(fā)展而來的。定義[EMDn·]為應(yīng)用 EMD 算法產(chǎn)生的第[n]個(gè)階段的模態(tài)分量,CEEMDAN算法產(chǎn)生的第[n]個(gè)模態(tài)分量記為[IMFn]該算法的實(shí)現(xiàn)過程如下:
(a) 將待分解的信號[ft]添加[ n]次均值為0的高斯白噪聲序列,構(gòu)造共[n]次實(shí)驗(yàn)的待分解序列[fit]。
[fit=f(t)+ε0ωi(t),i=(1,2,...,n)]? ⑴
其中,[ε0]為信噪比,[ωi(t)]為第i次添加的白噪聲序列
(b) 對每一個(gè)[fit]應(yīng)用EMD算法進(jìn)行分解,得到第一個(gè)模態(tài)分量(IMF)及第一個(gè)唯一殘余分量[r1(t)]:
[IMF1(t)=1ni=1nIMFi1(t)=1nEMD1(fi(t))]
[r1(t)=f(t)-IMF1(t)]? ⑵
(c) 將分解后得到的殘余分量添加噪聲繼續(xù)應(yīng)用 EMD進(jìn)行分解。
[IMFk(t)=1ni=1nEMD1(rk-1(t)+εk-1EMDk-1(ωi(t))),k=2,3...,n]
[rk(t)=rk-1(t)-IMFk(t)]? ⑶
(d) 最后,當(dāng)殘差不超過兩個(gè)極值點(diǎn)且不能繼續(xù)分解時(shí),終止CEEMDAN算法。此時(shí),殘差趨勢明顯而直接,原始信號序列被分解為n個(gè)模態(tài)分量和殘差項(xiàng)[R(t)]:
[ft=k=1nIMFkt+Rt] ⑷
1.2 樣本熵
樣本熵可以評價(jià)時(shí)間序列數(shù)據(jù)的系統(tǒng)復(fù)雜度,是對近似熵的改進(jìn)。以和的對數(shù)計(jì)算,以減少近似熵誤差。與近似熵相比,樣本熵的計(jì)算不依賴于數(shù)據(jù)長度,具有更好的一致性。一般來說,序列的樣本熵越大,表示序列越復(fù)雜。
(a) 設(shè)[n]為數(shù)據(jù)點(diǎn)總數(shù),[m]為待比較序列的長度,則向量[xmi]可表示為:
[xmi=xi,x(i+1),..,x(i+m-1),i=1..,n-m+1] ⑸
(b) 定義(a)中兩個(gè)向量之間的距離為
[dmxm(i),xm(j)=max[xm(i+k)-xm(j+k)],0≤k≤m-1] ⑹
(c) 給定閾值r,統(tǒng)計(jì)[dmxm(i),xm(j)≤r]的個(gè)數(shù)記為[νm],增加維度至[m+1],統(tǒng)計(jì)[dm+1xm+1(i),xm+1(j)≤r]的個(gè)數(shù)記為[ωm+1]。
(d) 確定匹配點(diǎn)的概率,[Bmr]為[m]維概率,[Amr]為m+1維概率:
[Bmr=1n-mi=1n-mvmin-m+1Amr=1n-mi=1n-mwm+1in-m+1] ? ⑺
(e) 樣本熵定義為[S(m,r)]:
[Sm,r=limn→∞(-lnAmrBmr)] ⑻
當(dāng)n為有限值時(shí),樣本熵可用以下公式估計(jì):
[Sm,r,n=-lnAmrBmr] ⑼
1.3 VMD
VMD是一種信號分解方法,在得到分解分量的過程中,通過迭代搜索變分模型的最優(yōu)解,確定各分量的中心頻率和有限帶寬,從而自適應(yīng)地實(shí)現(xiàn)信號的頻域劃分和各分量的有效分離。VMD將每個(gè)分量的估計(jì)帶寬之和最小化,并使用交替方向乘子法提取相應(yīng)的中心頻率。
VMD的核心思想是構(gòu)建和求解變分問題。需求解的約束變分優(yōu)化問題如式:
[minuk,wkk∥?t(δt+jπt)*ukte-jwkt∥22] ? ⑽
[s.t.k=1Kuk(t)=f(t)] ⑾
其中,[uk]輸入信號分解后第k個(gè)模態(tài)函數(shù),[wk]為中心頻率,[K]為需分解的模態(tài)數(shù)量[δt]為單位脈沖函數(shù),[f(t)]為原始信號。
(a) 為了解決優(yōu)化問題,引入拉格朗日乘數(shù)和二階懲罰因子[α],然后將約束變分問題轉(zhuǎn)化為無約束變分問題,得到增廣拉格朗日表達(dá)式:
[Luk,wk,λ=αk∥?t(δt+jπt)*ukte-jwkt∥22]
[+∥f(t)-kuk(t)∥22+λt,f(t)-kuk(t)] ⑿
(b) 利用交替方向乘子法計(jì)算鞍點(diǎn)即原問題最優(yōu)解,求解[uk]、[wk]和[λ]
[un+1kw=f(w)-i≠kui(w)+λw/21+2αw-wk2]? ⒀
其中,[un+1kw]、[uiw]、[fw]、[λw]是[un+1kw]、[uiw]、[fw]、[λw]的傅里葉變換。
(c) 更新[wk]
[wn+1k=0∞w|un+1k(w)|2dw0∞|un+1k(w)|2dw] ⒁
(d) 更新[λ]
[λn+1(w)=λn(w)+τf(w)-kun+1k(w)] ⒂
其中,[τ]為噪聲的容忍度。
重復(fù)上述步驟直到滿足迭代條件。
1.4 LSTM
LSTM模型在圖像數(shù)據(jù)處理中,其主要可以緩解梯度消失和梯度爆炸,模型由三部分組成,如圖1所示,分別為輸入門、遺忘門和輸出門。
LSTM模型的數(shù)學(xué)表達(dá)如公式⒃:
[It=σ(XtWit+Ht-1Whi+bi)Ft=σ(XtWxf+Ht-1Whf+bf)Ot=σ(XtWxo+Ht-1Who+bo)Ct=tanh(XtWxc+Ht-1Whc+bc)Ct=Ft⊙Ct-1+It⊙CtHt=Ot⊙tanh(Ct)] ⒃
其中,[Ht-1]為前一步時(shí)間隱狀態(tài),[Wxi]等為權(quán)重,[bi]等為偏置項(xiàng),[Ct]為輸出
2 數(shù)據(jù)處理
2.1 數(shù)據(jù)采集
文章選取大連商品交易所,鐵礦石主力期貨,2018年1月2日9:00-11:30的最新價(jià)作為研究對象。9:00-11:30共有15684個(gè)數(shù)據(jù)。最新價(jià)變動趨勢如圖2所示。
2.2 數(shù)據(jù)分析
2.2.1 平穩(wěn)性檢驗(yàn)
通過Python 中Statsmodels模塊中的函數(shù),使用增強(qiáng)的Dickey-Fuller(ADF)測試來測試數(shù)據(jù)的平穩(wěn)性,如表1所示p值為0.146大于0.05,因此接受原假設(shè),認(rèn)為數(shù)據(jù)是非平穩(wěn)序列。
2.2.2 自相關(guān)檢驗(yàn)
LB(Ljung-Box)統(tǒng)計(jì)量檢驗(yàn)序列自相關(guān)性,p值為0小于0.05,拒絕原假設(shè),表明數(shù)據(jù)具有很強(qiáng)的自相關(guān)性。
使用Statsmodels模塊計(jì)算自相關(guān)函數(shù)(ACF)和偏自相關(guān)函數(shù),如圖3所示, PACF顯著拖尾性,顯示了最新價(jià)的自相關(guān)關(guān)系。
2.2.3 正態(tài)性檢驗(yàn)
JB(Jarque-Bera)統(tǒng)計(jì)量檢驗(yàn)序列正態(tài)性,偏度為-1.25,峰度為1.229,p值為0小于0.05,拒絕原假設(shè),序列不服從正態(tài)分布。
3 模型建立
3.1 模型評價(jià)指標(biāo)
本文采用均方根誤差RMSE、R Squared、平均絕對誤差MAE、平均絕對百分比誤差MAPE以及準(zhǔn)確率作為評價(jià)指標(biāo)。RMSE、MSE、和MAPE反應(yīng)了預(yù)測值和真實(shí)值得偏差,數(shù)值越小模型擬合越優(yōu);R Squared和準(zhǔn)確率反應(yīng)了模型的擬合優(yōu)度,數(shù)值越接近1,擬合效果越好。計(jì)算公式如下
[RMSE=1Ni=1Nyi-yi2] ⒄
[R2=1-i=0myi-yi2i=0myi-yi2] ? ⒅
[MAE=1Ni=1N|yi-yi|] ? ⒆
[MAPE=1Ni=1N|yi-yiyi|*100%] ⒇
對于準(zhǔn)確率(ACC)的計(jì)算,鐵礦石主力期貨數(shù)據(jù)最小變動單位為0.5,且數(shù)據(jù)僅有一位小數(shù);將預(yù)測的數(shù)據(jù)與真實(shí)數(shù)據(jù)做差,如果兩者之差的絕對值小于等于0.25,則認(rèn)為預(yù)測值與真實(shí)值相等。
3.2 CEEMDAN分解與樣本熵
基于第1章的數(shù)學(xué)理論,本文使用PyEMD信號模塊中的CEEMDAN函數(shù)對鐵礦石主力期貨1月2日上午最新價(jià)數(shù)據(jù)進(jìn)行分解。圖4(a)顯示了13個(gè)IMF從上到下的分解結(jié)果。橫軸表示最新價(jià)的時(shí)間序列號,縱軸表示單位為元的每個(gè)部分的價(jià)值。序列的頻率和復(fù)雜性逐漸降低,變化模式比原始序列更直觀,整體價(jià)格趨勢也更明顯。
Python中sampen模塊使用樣本熵來度量每個(gè)IMF的復(fù)雜性?;赪ang等[16]人的研究,整合具有相似樣本熵值的IMF可以適當(dāng)減少計(jì)算量,增加建模速度,減少過擬合。在圖4(b)中無論m和r的取值如何,第二個(gè)和第三個(gè)IMF分量的樣本熵值均高于其他分量所對應(yīng)的值,這代表了一種復(fù)雜的、易變的模式;同時(shí)第6-13個(gè)IMF分量,復(fù)雜性波動性很小。因此,這13個(gè)IMF可以集成為三個(gè)新的合作固有模式函數(shù)(Co-IMF):高頻序列Co-IMF0(IMF1-2)、低頻序列Co-IMF1(IMF0、IMF3-4)和趨勢序列Co-IMF2(IMF5-12)。這三個(gè)Co-IMF的變化模式相對規(guī)則且直接,這便于進(jìn)一步提取每個(gè)IMF的波動特征并訓(xùn)練預(yù)測模型。在實(shí)際的建模過程中選取m=1,r=0.1參數(shù)進(jìn)行建模,聚類過程如圖4(c)所示。
3.3 VMD分解
為了準(zhǔn)確預(yù)測高頻序列,本文利用二次分解方法對高頻序列進(jìn)行進(jìn)一步分解。參考Li等[17]人的文獻(xiàn),使用一種稱為變分模態(tài)分解(VMD)的信號分解方法。
避免數(shù)據(jù)分解出現(xiàn)欠分解和過分解,需要確定序列分解的[K]值,令[K=2,3,...,13]分別進(jìn)行分解,計(jì)算中心頻率,每個(gè)[K]值對應(yīng)的最后頻率隨K值增加,中心頻率逐漸平穩(wěn),因此選取[K=10]作為VMD模型分解的參數(shù),其他參數(shù)使用默認(rèn)參數(shù)。
由于EMD、EEMD和CEEMDAN都來自EMD,使用它們來重新分解高頻序列不能獲得良好的結(jié)果。如表2所示,對于高頻序列數(shù)據(jù)(Co-IMF0)VMD分解后進(jìn)行預(yù)測的結(jié)果RMSE、MAE和MAPE指標(biāo)均好于CEEMDAN分解和不分解。表明二次分解采用VMD分解能夠?qū)?fù)雜數(shù)據(jù)分解,模型能夠取得較好的效果。
3.4 CEEMDAN-VMD-LSTM
根據(jù)3.2節(jié)和3.3節(jié)的分析,設(shè)計(jì)一個(gè)CEEMDAN-VMD-LSTM模型對期貨日度高頻最新價(jià)進(jìn)行預(yù)測。具體步驟如下:
⑴ 數(shù)據(jù)處理后進(jìn)行CEEMDAN分解,得到若干IMF分量。
⑵ 計(jì)算⑴中的IMF分量的樣本熵,聚類整合成高頻序列Co-IMF0、低頻序列Co-IMF1和趨勢序列Co-IMF2。
⑶ 將高頻序列Co-IMF0進(jìn)行VMD分解,并通過LSTM模型預(yù)測
⑷ 將低頻序列Co-IMF1進(jìn)行VMD分解,并通過LSTM模型預(yù)測
⑸ 將趨勢序列Co-IMF2直接通過LSTM模型預(yù)測。
⑹ 整合三個(gè)預(yù)測的序列,并分析相關(guān)指標(biāo)。
4 實(shí)驗(yàn)
4.1 參數(shù)設(shè)置
鐵礦石主力期貨序列數(shù)據(jù)包含15684個(gè)樣本點(diǎn),將10:45-11:30數(shù)據(jù)作為測試集,9:00-10:45數(shù)據(jù)作為訓(xùn)練集,即2/3數(shù)據(jù)用于訓(xùn)練,1/3數(shù)據(jù)用于測試。時(shí)間步長選取10,即選取10個(gè)數(shù)據(jù)預(yù)測下一時(shí)刻數(shù)據(jù)。
4.2 對比模型
為了驗(yàn)證模型的可行性,選取六種模型對比:
模型1(LSTM):將期貨數(shù)據(jù)序列直接通過LSTM神經(jīng)網(wǎng)絡(luò)預(yù)測。
模型2(EMD-LSTM):將期貨序列進(jìn)行EMD分解后,每個(gè)IMF分量分別通過LSTM網(wǎng)絡(luò)預(yù)測,最終整合各個(gè)分量。
模型3(CEEMDAN-LSTM):將期貨序列進(jìn)行CEEMDAN分解后,每個(gè)IMF分量分別通過LSTM網(wǎng)絡(luò)預(yù)測,最終整合各個(gè)分量。
模型4(VMD-LSTM):將期貨序列進(jìn)行VMD分解后,每個(gè)IMF分量分別通過LSTM網(wǎng)絡(luò)預(yù)測,最終整合各個(gè)分量。
模型5(CEEMDAN-VMD-LSTM多變量):將期貨序列數(shù)據(jù),通過CEEMDAN一次分解后,采用樣本熵聚類,整合成高頻、低頻和趨勢序列,然后對高頻和低頻序列進(jìn)行VMD分解,將分解后的序列通過LSTM網(wǎng)絡(luò),多變量回歸,最后將各個(gè)預(yù)測值相加。
模型6(CEEMDAN-VMD-LSTM單變量):將期貨序列數(shù)據(jù),通過CEEMDAN一次分解后,采用樣本熵聚類,整合成高頻、低頻和趨勢序列,然后對高頻和低頻序列進(jìn)行VMD分解,將每個(gè)IMF分量分別通過LSTM網(wǎng)絡(luò)預(yù)測,最后將各個(gè)預(yù)測值相加。
4.3 實(shí)驗(yàn)結(jié)果分析
由于深度學(xué)習(xí)的預(yù)測具有一定的隨機(jī)性,因此將各個(gè)模型預(yù)測10次,對指標(biāo)取均值再對模型進(jìn)行相應(yīng)的評價(jià),能夠增加模型的可信度。
6個(gè)模型分別預(yù)測10次,各個(gè)指標(biāo)取均值的結(jié)果如表3所示,圖5將四個(gè)指標(biāo)做了可視化展示。
如表3和圖5所示,模型2通過EMD分解解決了數(shù)據(jù)不平穩(wěn)的因素,各項(xiàng)指標(biāo)均優(yōu)于模型1,R2值高3.94%,RMSE值低8.28%,MAE值低5.14%,MAPE值低0.96%,ACC值高11.22%。
模型3通過CEEMDAN分解,解決了EMD分解中的模態(tài)混疊問題,各項(xiàng)指標(biāo)均優(yōu)于模型2,R2值高1.36%,RMSE值低4.42%,MAE值低4.01%,MAPE值低0.75%,ACC值高5.11%。
模型4引入VMD分解,VMD分解能夠更好的分解非平穩(wěn)、非線性以及復(fù)雜的數(shù)據(jù),各項(xiàng)指標(biāo)均好于模型3,R2值高1.47%,RMSE值低5.79%,MAE值低4.88%,MAPE值低0.88%,ACC值高3.01%。
模型6先通過CEEMDAN分解數(shù)據(jù),再根據(jù)樣本熵重構(gòu),重構(gòu)后的序列再通過VMD分解,最后接LSTM網(wǎng)絡(luò)預(yù)測,模型充分利用了CEEMDAN和VMD分解的特點(diǎn),各項(xiàng)指標(biāo)均好于模型4,其中 R2值高0.32%,RMSE值低2.1%,MAE值低1.58%,MAPE值低0.3%,ACC值高3.1%,進(jìn)一步說明CEEMDAN-VMD-LSTM模型好于一次分解的EMD、CEEMDAN以及VMD模型。
5 結(jié)束語
本文提出一種基于CEEMDAN的二次分解方法,通過樣本熵重構(gòu)CEEMDAN分解后的序列,復(fù)雜序列通過VMD分解后,將各個(gè)分量分別通過LSTM模型預(yù)測,最終將預(yù)測結(jié)果整合。通過實(shí)驗(yàn)分析和模型對比,可以得出以下結(jié)論。
⑴ CEEMDAN-VMD-LSTM模型處理期貨日度高頻數(shù)據(jù),具有更高的準(zhǔn)確率,能夠跟蹤期貨tick數(shù)據(jù)的趨勢以及變化。
⑵ VMD模型處理非線性、非平穩(wěn)以及復(fù)雜的數(shù)據(jù),表現(xiàn)得比EMD系列更好,因此將重構(gòu)的數(shù)據(jù)通過VMD模型分解,提高了模型的準(zhǔn)確度。
未來的工作可以將期貨量化研究、比如期貨做市模型、高頻交易等相聯(lián)系。
參考文獻(xiàn)(References):
[1] 田聰.基于改進(jìn)型EMD-LSTM的高頻金融時(shí)間序列預(yù)測[D].
碩士,江西財(cái)經(jīng)大學(xué),2021
[2] Zeinab Hajiabotorabi,Aliyeh Kazemi,F(xiàn)aramarz Famil
Samavati,F(xiàn)arid Mohammad Maalek Ghaini. Improving DWT-RNN model via B-spline wavelet multiresolution to forecast a high-frequency time series[J]. Expert Systems With Applications,2019,138(C)
[3] Bukhari A H, Raja M A Z, Sulaiman M, et al. Fractional
neuro-sequential ARFIMA-LSTM for financial market forecasting[J].Ieee Access,2020,8: 71326-71338
[4] Norden E. Huang,Zheng Shen,Steven R. Long,Manli C.
Wu,Hsing H. Shih,Quanan Zheng,Nai-Chyuan Yen,Chi Chao Tung,Henry H. Liu. The Empirical Mode Decomposition and the Hilbert Spectrum for Nonlinear and Non-Stationary Time Series Analysis[J]. Proceedings: Mathematical, Physical and Engineering Sciences,1998,454(1971)
[5] Noemi Nava,T. Di Matteo,Tomaso Aste. Anomalous
volatility scaling in high frequency financial data[J]. Physica A: Statistical Mechanics and its Applications,2016,447
[6] Wu Z, Huang N E. Ensemble empirical mode decomposi-
tion: a noise-assisted data analysis method[J].Advances in adaptive data analysis,2009(1):1-41
[7] Yeh J R, Shieh J S, Huang N E. Complementary ensemble
empirical mode decomposition:A novel noise enhanced data analysis method[J]. Advances in adaptive data analysis,2010(2):135-156
[8] Torres M E, Colominas M A, Schlotthauer G, et al. A
complete ensemble empirical mode decomposition with adaptive noise[C]//2011 IEEE international conference on acoustics, speech and signal processing (ICASSP).IEEE,2011:4144-4147
[9] 馮曉天.基于CEEMDAN-SSA-LSTM的高頻股票價(jià)格預(yù)
測研究[D].碩士,江西財(cái)經(jīng)大學(xué),2022
[10] Konstantin D, Zosso D. Two-dimensional variational
mode decomposition[C]//Energy Minimization Methods in Computer Vision and Pattern Recognition,2015,8932:197-208
[11] 史心怡.基于改進(jìn)類經(jīng)驗(yàn)?zāi)B(tài)分解-LSTM-Adaboost組
合模型對股市波動率預(yù)測研究[D].碩士,上海師范大學(xué),2022
[12] 程文輝,車文剛.基于二次分解與LSTM的金融時(shí)間序列
預(yù)測算法研究[J].重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,34(4):638-645
[13] 何榮輝.基于多元預(yù)測模型的短期風(fēng)電功率預(yù)測研究[D].
碩士,廣西大學(xué),2022
[14] 唐莉.基于混合分解集成模型的碳排放權(quán)價(jià)格的實(shí)證研究[D].
碩士,山東大學(xué),2021
[15] Zhou Feite,Huang Zhehao,Zhang Changhong. Carbon
price forecasting based on CEEMDAN and LSTM[J]. Applied Energy,2022,311
[16] Wang Jujie,Sun Xin,Cheng Qian,Cui Quan. An
innovative random forest-based nonlinear ensemble paradigm of improved feature extraction and deep learning for carbon price forecasting[J]. Science of The Total Environment,2020,762(prepublish)
[17] Li Hongtao,Jin Feng,Sun Shaolong,Li Yongwu. A new
secondary decomposition ensemble learning approach for carbon price forecasting[J].Knowledge-Based Systems,2021,214(prepublish)