董小剛 曹馨潼 秦喜文
摘要:基于匯率市場的價格變動具有混沌變化的特性,單個模型訓(xùn)練中產(chǎn)生的過擬合問題也難以解決。LSTM和ELM自身結(jié)構(gòu)較為復(fù)雜,難以直接組合。綜合上述問題創(chuàng)新性采用基于權(quán)重分配的線性組合方法將兩者結(jié)合,并首次應(yīng)用到匯率預(yù)測領(lǐng)域。為了提高ELM的性能,將一種遲滯的生物神經(jīng)系統(tǒng)特性嵌入到ELM的神經(jīng)元激活函數(shù)中并且引入了微分進(jìn)化算法通過最小加權(quán)目標(biāo)函數(shù)對LSTM進(jìn)行優(yōu)化。仿真結(jié)果表明,與其他5種模型相比該集成預(yù)測模型的預(yù)測效果更好。
關(guān)鍵詞:集成模型;外匯匯率波動;神經(jīng)網(wǎng)絡(luò);極限學(xué)習(xí)機(jī)
一、引言
匯率是一個重要的研究課題,因為它是國家之間經(jīng)濟(jì)競爭的指標(biāo)。自1971年以來,世界經(jīng)濟(jì)發(fā)生了變化,使匯率市場更加難以預(yù)測。準(zhǔn)確的匯率預(yù)測對政策制定者、計量經(jīng)濟(jì)學(xué)家和從業(yè)人員都具有重要意義。一些研究試圖通過分析計量經(jīng)濟(jì)模型,開發(fā)人工智能模型,并通過創(chuàng)建混合模型將兩者結(jié)合,來開發(fā)更準(zhǔn)確的模型來預(yù)測未來匯率。周曉波(2019)通過利用神經(jīng)網(wǎng)絡(luò)預(yù)測匯率,顯示出了捕捉非線性的能力,使得匯率預(yù)測超越了傳統(tǒng)的方法和隨機(jī)漫步。其他研究也表明,通過修改神經(jīng)網(wǎng)絡(luò)的類型(李章曉等,2018、蔣傳進(jìn),2017、李欣玨,2020)可以將預(yù)測精度提高。在大量研究結(jié)論中得出使用機(jī)器學(xué)習(xí)模型的預(yù)測效果更好。很多實驗表明,ARIMA模型是最常用的模型之一,但存在兩種局限性:“線性”和“數(shù)據(jù)”局限性。Meese(1983)發(fā)現(xiàn),在預(yù)測12個月內(nèi)的匯率時,隨機(jī)游走模型的表現(xiàn)與其他模型一樣好。學(xué)者周曉波(2019)等將GRNN和BRNN各自發(fā)揮了自己獨特的優(yōu)勢,例如:擅長預(yù)測隨機(jī)因素和趨勢因素在匯率預(yù)測領(lǐng)域做出了新的貢獻(xiàn)。學(xué)者操瑋(2020)構(gòu)建基于機(jī)器學(xué)習(xí)和傳統(tǒng)計量經(jīng)濟(jì)學(xué)的混合模型,預(yù)測精度有所提高。
本文將機(jī)器學(xué)習(xí)算法應(yīng)用于匯率預(yù)測中,旨在為準(zhǔn)確預(yù)測匯率提供科學(xué)可行性的建議和決策參考,探索建立新的匯率預(yù)測建模體系。
二、模型構(gòu)建
(一)ELM預(yù)測模型及改進(jìn)
極限學(xué)習(xí)機(jī)(ELM)作為一種隨機(jī)選擇隱藏權(quán)值的單層前饋網(wǎng)絡(luò)在2006年被提出。傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)需要對網(wǎng)絡(luò)的每個參數(shù)進(jìn)行迭代優(yōu)化,并且存在收斂速度慢的問題。ELM中的隱藏節(jié)點是隨機(jī)選擇的,并分析確定輸出值。該方法取代了傳統(tǒng)算法中的權(quán)值和偏差,提高了訓(xùn)練速度和泛化能力。一個典型的基于單隱藏層的ELM模型包含l個隱藏節(jié)點,輸出權(quán)重β和g(x,wi,b)作為每個節(jié)點的sigmoid函數(shù)。圖1顯示了ELM的結(jié)構(gòu)。ELM的損失函數(shù)公式如下:
其中,N和L分別是輸入神經(jīng)元數(shù)和隱藏神經(jīng)元數(shù);βi表示輸入層和隱藏層之間的權(quán)重;bi是閾值;g(x)表示激活函數(shù)。εj=[εj1,εj2,…,εjm]是第j個樣本的誤差。Xj
和tj分別代表輸入數(shù)據(jù)和輸出數(shù)據(jù)。
由于隱藏層的隨機(jī)分配,學(xué)習(xí)率或多或少會降低。將生物神經(jīng)系統(tǒng)中常見的遲滯特性引入到原始ELM的神經(jīng)元激活中,描述為:
其中,x(t)表示神經(jīng)元的輸入。g(x)由兩個sigmoid函數(shù)組成;ca和cb是正斜率參數(shù)。當(dāng)a=b且ca=cb時,滯后形式將成為傳統(tǒng)形式。滯后函數(shù)可以避免神經(jīng)元陷入局部最小值并提供更快的學(xué)習(xí)速度,因為它可以在兩個網(wǎng)段之間切換。此外,有四個與之相關(guān)的可調(diào)參數(shù),這意味著滯后神經(jīng)元比傳統(tǒng)形式更為靈活。
關(guān)于滯后參數(shù)的調(diào)整,本研究采用梯度下降法。對于第j個樣本,當(dāng)?shù)趇個隱層神經(jīng)元的上分支興奮時,滯后參數(shù)ai做如下訓(xùn)練:
其中η是學(xué)習(xí)率;neti第i個隱藏層神經(jīng)元:neti=w■■xj+ai。
同樣,當(dāng)?shù)趇個隱層神經(jīng)元的下分支是激發(fā)響應(yīng)興奮時,可以得到參數(shù)bi。對于另外兩個正斜率ca和cb。引入中間參數(shù)d以避免它們變成負(fù)值,即d=■,這些參數(shù)計算如下:
(二)LSTM模型及優(yōu)化
LSTM網(wǎng)絡(luò)的主要目標(biāo)最初是捕獲長期依賴關(guān)系并在時間序列分析中確定最佳滯后順序,對時序特性表達(dá)能力尤為突出。由于LSTM網(wǎng)絡(luò)具有解決長期依賴問題的能力及梯度爆炸問題,在處理時間序列時往往具有很好的性能。在本小節(jié)中,提供LSTM神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)以預(yù)測匯率, 見圖2。結(jié)構(gòu)圖中的Xt表示t時刻的輸入,ht表示t時刻細(xì)胞的狀態(tài)值σ表示激活函數(shù)為sigmoid的前饋網(wǎng)絡(luò)層,tanh表示激活函數(shù)為tanh的前饋網(wǎng)絡(luò)層。具體計算公式如下:
其中,xt是輸入值,yt是輸出值;it,ot,ft分別表示輸入門、輸出門、遺忘門;ct是每個單元的激活向量,而mt表示每個存儲塊的激活向量;σ,g,h分別表示門、輸入和輸出激活函數(shù)(通常是logistic sigmoid函數(shù)和tanh函數(shù));?茚表示兩個向量之間的元素乘法;此外Wix,Wim,Wic,Wfx,Wfm,Wfc,Wcx,Wcm,Wox,Wom,Woc,Wym是相應(yīng)的權(quán)重系數(shù);bi,bf,bc,bo,by是相應(yīng)的誤差向量。
微分進(jìn)化算法是一種基于群體的優(yōu)化方法。該進(jìn)化算法及其改進(jìn)版本已被廣泛用于解決各種優(yōu)化問題。由于缺乏清晰的概念幫助研究者設(shè)置隱藏層和LSTM網(wǎng)絡(luò)各隱藏層中的相關(guān)神經(jīng)元數(shù)目,許多研究者通過反復(fù)試驗來選擇它們,這種方法很低效。LSTM網(wǎng)絡(luò)的預(yù)測能力會受到隱藏層和相應(yīng)神經(jīng)元計數(shù)的影響。在上述分析的影響下,微分進(jìn)化算法被用來優(yōu)化LSTM網(wǎng)絡(luò)中隱藏層的數(shù)量(Ghl)及其神經(jīng)元的數(shù)量(Gn),以增強(qiáng)預(yù)測能力。為了在預(yù)測能力和模型復(fù)雜性之間進(jìn)行權(quán)衡,本文對適應(yīng)度函數(shù)的考慮如下:
其中,Ghli,{i=1,…,D}是第i個LSTM的隱藏層數(shù),Gn1j,{j=1,…,hl1}是相應(yīng)隱藏層中神經(jīng)元的數(shù)量。GnDj和Gn1j具有相似的含義。LGhl和UGhl是Ghl的下界和上界,而LGn和UGn是Gn的下界和上界。預(yù)定義的適應(yīng)度函數(shù)表示為加權(quán)求和,如下:
其中,Gn1j,{j=1,1…,hl1}與公式(8)含義相同。MSE是均方誤差;w1是平衡學(xué)習(xí)性能和模型復(fù)雜性的權(quán)重系數(shù)。當(dāng)Ghl在[1,2]范圍內(nèi),Gn在[30,230]范圍內(nèi),本文中Ghl和Gn的上下限在這個范圍中選取。本文將LGnl和UGnl設(shè)置為1和2,并將LGn和UGn設(shè)置為30和230。因此,本文采用了基于多種群的微分進(jìn)化算法。為了進(jìn)一步闡述,四個獨立的群體被用來表示四種情況:第一,所有的LSTM網(wǎng)絡(luò)是一個隱藏層;第二,兩個LSTM網(wǎng)絡(luò)是一個隱藏層,另一個是兩個隱藏層;第三,一個LSTM網(wǎng)絡(luò)是一個隱藏層,兩個LSTM網(wǎng)絡(luò)是兩個隱藏層;第四,所有LSTM網(wǎng)絡(luò)都是兩個隱藏層。圖3顯示了在進(jìn)化過程中隱藏層數(shù)及其相關(guān)神經(jīng)元的四種情況的編碼機(jī)制。
(三)模型集成方法
加權(quán)平均法,即將各變量乘以相應(yīng)的權(quán)重數(shù),然后求和得到總和,再除以變量的個數(shù)?;旌夏P涂梢詫ι疃葘W(xué)習(xí)模型及ELM模型的預(yù)測結(jié)果進(jìn)行加權(quán)累計,得到與真實值更相近的預(yù)測結(jié)果,如公式(10)所示。
本文采用標(biāo)準(zhǔn)差衡量的方法對模型權(quán)重進(jìn)行定值,具體公式如下:
其中,Samplestandard是樣本的標(biāo)準(zhǔn)差,ELMstandard是ELM模型預(yù)測結(jié)果的標(biāo)準(zhǔn)差,LSTMstandard是LSTM模型預(yù)測結(jié)果的標(biāo)準(zhǔn)差。
(四)LSTM-ELM混合預(yù)測模型
本文擬將練集得到LSTM和ELM模型預(yù)測值和真實值,進(jìn)行加權(quán)平均,其中每一種模型的結(jié)果作為一個特征輸入,真實的匯率數(shù)據(jù)作為輸出,根據(jù)得到的權(quán)重,預(yù)測測試集,獲得 LSTM-ELM 集成算法,過程如下:
第一,用訓(xùn)練集的主成分作為輸入變量,并以匯率為期望輸出,訓(xùn)練LSTM模型。訓(xùn)練測試結(jié)果為匯率的LSTM預(yù)測值記為ValueLSTM,由訓(xùn)練集數(shù)據(jù)對訓(xùn)練好的LSTM模型測試獲得。
第二,用訓(xùn)練集的主成分作為輸入變量,并以匯率為期望輸出,訓(xùn)練ELM模型。訓(xùn)練測試結(jié)果為匯率的ELM預(yù)測值記為ValueELM,由訓(xùn)練集數(shù)據(jù)對訓(xùn)練好的LSTM模型測試獲得。
第三,分別用ValueLSTM,ValueELM為自變量,用訓(xùn)練集的真實值Valuesample為因變量,采用上節(jié)介紹中提到的加權(quán)平均的方法,得到線性模型。
第四,對訓(xùn)練完成的LSTM和ELM模型帶入測試集的數(shù)據(jù),將得到的測試結(jié)果帶入到混合模型中,得出最終預(yù)測結(jié)果Valuehybrid。
三、數(shù)據(jù)來源及樣本選擇
本研究在樣本區(qū)間為2011年1月1日至2017年12月31日中,選取了美元兌英鎊、日元、歐元、人民幣這四種典型的每日匯率,共1820觀測值(數(shù)據(jù)來源于Wind資訊)。這些數(shù)據(jù)分為樣本內(nèi)數(shù)據(jù)集和樣本外數(shù)據(jù)集,如表1所示。
用Python對數(shù)據(jù)趨勢進(jìn)行觀察,可看出四個匯率序列都是非平穩(wěn)的,且呈現(xiàn)出輕微的偏態(tài),峰度較高。因此,將原始匯率時間序列轉(zhuǎn)化為四個日匯率收益率,公式如下:
其中,Qt是期對數(shù)收益率,Rt是t期名義匯率。
本文研究的每種匯率收益率的描述性統(tǒng)計和收益率序列的統(tǒng)計差異見表2。
四、實證結(jié)果分析
(一)模型精度判別
為了評估所有方法的性能,本研究采用PT檢驗對真實值和預(yù)測值的相對變化趨勢是否同步進(jìn)行檢驗,選擇的評價指標(biāo)為均方根誤差,公式如下:
其中,y^i是實際值,yi是預(yù)測值,n是預(yù)測數(shù)量。
(二)各模型預(yù)測能力對比
表3和表4提供了歐元/美元、英鎊/美元、日元/美元和人民幣/美元匯率收益率本文所采用的所有方法的樣本內(nèi)和樣本外表現(xiàn)。表3的結(jié)果表明,本文提出的方法在每個匯率回報率的樣本內(nèi)表現(xiàn)最好。LSTM模型的精度位列其次。同時,PT統(tǒng)計的結(jié)果表明拒絕了原假設(shè),表明除了ARMA外,幾乎所有測試方法都具有1%置信水平的預(yù)測能力。換句話說,只有ARMA模型對四種匯率收益率的方向準(zhǔn)確性產(chǎn)生了相對較差的預(yù)測。表4的結(jié)果顯示,本文方法在樣本外數(shù)據(jù)集中保持了預(yù)測的優(yōu)越性,LSTM再次成為次優(yōu)方法。PT統(tǒng)計量檢驗結(jié)果表明,所有的神經(jīng)網(wǎng)絡(luò)對這四種匯率收益率的方向精度都取得了較好的預(yù)測效果。
為了檢驗LSTM-ELM模型的準(zhǔn)確性,使用DM檢驗對預(yù)測的平均絕對誤差(MAE)和均方誤差(MSE)進(jìn)行檢驗,這些模型的預(yù)測結(jié)果具有統(tǒng)計顯著性,并優(yōu)于研究中的一些基準(zhǔn)模型。對這四種匯率收益率的樣本外數(shù)據(jù)集和樣本內(nèi)數(shù)據(jù)集進(jìn)行了DM檢驗。表5和表6將LSTM-ELM集成方法與這四個匯率回報的樣本內(nèi)數(shù)據(jù)集和樣本外數(shù)據(jù)集的相應(yīng)基準(zhǔn)模型進(jìn)行比較,顯示了DM測試的結(jié)果??梢郧宄乜吹?,除了LSTM-ELM模型外,在1%顯著性水平上的所有模型的DM檢驗原假設(shè)都被拒絕,因為括號中的所有絕對值都高于臨界值2.33。此外,從統(tǒng)計的角度,本文提出的模型在MSE和MAE兩個方面都得到了驗證。
表7總結(jié)了每種匯率預(yù)測的所有方法的樣本內(nèi)交易表現(xiàn),表7的結(jié)果再次表明,我們提出的模型在所有交易收益率后的信息比率和交易成本后的年化收益(按年率計算)方面均具有優(yōu)越的潛在財務(wù)盈利能力。表8總結(jié)了每種匯率預(yù)測的所有方法的樣本外交易表現(xiàn),表8的結(jié)果表明,就交易率而言,模型在每一種匯率預(yù)測方面優(yōu)于所有其他基準(zhǔn)。研究中列出的所有方法在樣本外數(shù)據(jù)集中都產(chǎn)生了正回報率。
因此,通過統(tǒng)計評估標(biāo)準(zhǔn)和交易評估標(biāo)準(zhǔn),本文提出的模型比所有的基準(zhǔn)有更好的表現(xiàn),顯著提高了潛在的財務(wù)盈利能力。
四、結(jié)論與建議
本文提出了改進(jìn)的LSTM-ELM模型,利用LSTM網(wǎng)絡(luò)、ELM、遲滯的生物神經(jīng)系統(tǒng)特性、微分進(jìn)化算法和基于加權(quán)平均的線性集成機(jī)制,實現(xiàn)了高精度、更穩(wěn)定的匯率預(yù)測結(jié)果。為解決ELM學(xué)習(xí)性能問題,引入了ELM的滯后激活函數(shù),該函數(shù)具有兩個優(yōu)點:神經(jīng)元的輸出不僅依賴于輸入,還依賴于導(dǎo)數(shù)信息,導(dǎo)數(shù)信息可以為神經(jīng)元提供記憶;滯后函數(shù)可以避免神經(jīng)元在兩段之間切換時陷入局部極小值。考慮到在LSTM網(wǎng)絡(luò)中沒有一個明確的理論來設(shè)置隱藏層的數(shù)目和每個隱藏層中的神經(jīng)元數(shù)目,在LSTM網(wǎng)絡(luò)中使用一個高效且可靠的進(jìn)化算法來優(yōu)化這些數(shù)目。并選擇RMSE作為評價指標(biāo),采用PT檢驗對真實值和預(yù)測值的相對變化趨勢是否同步進(jìn)行檢驗,為了檢驗LSTM-ELM集成方法的準(zhǔn)確性及所產(chǎn)生的預(yù)測結(jié)果具有統(tǒng)計意義,使用DM檢驗對平均絕對誤差和均方誤差進(jìn)行預(yù)測。實證結(jié)果表明,本文所建立的LSTM-ELM混合模型在預(yù)測精度、統(tǒng)計檢驗和交易收益率方面明顯優(yōu)于其他一些基準(zhǔn)模型,其次是LSTM模型和ELM模型,ARMA、RBFNN、GRNN表現(xiàn)一般。這意味著提出的方法是一個很有前景的外匯匯率預(yù)測和交易框架。
除了匯率預(yù)測,LSTM-ELM模型還可以用于解決其他復(fù)雜的預(yù)測問題,如股票指數(shù)預(yù)測等。在本文中沒有考慮到其他因素對匯率預(yù)測的影響,僅關(guān)注了單變量的預(yù)測。如果可以把影響匯率的眾多因素考慮其中,整合到LSTM-ELM模型中,預(yù)測能力可能會增強(qiáng)。希望本文提出的模型可以對相關(guān)行業(yè)提供一定參考。
參考文獻(xiàn):
[1]操瑋,任思儒.基于LSTM與GARCH族混合模型的人民幣匯率波動預(yù)測研究[J].計算機(jī)應(yīng)用研究,2020,37(S1):79-82.
[2]蔣傳進(jìn).基于模型遴選規(guī)則的匯率自適應(yīng)組合預(yù)測[J].統(tǒng)計與決策,2017(16):74-78.
[3]李欣玨.及時性自適應(yīng)高維經(jīng)濟(jì)基本面建模與匯率預(yù)測分析[J].系統(tǒng)工程理論與實踐,2020,40(06):1478-1494.
[4]李章曉,宋微,田野.基于深度學(xué)習(xí)和進(jìn)化計算的外匯預(yù)測與投資組合優(yōu)化[J].鄭州大學(xué)學(xué)報(工學(xué)版),2019,40(01):92-96.
[5]周曉波,陳璋,王繼源.基于混合人工神經(jīng)網(wǎng)絡(luò)的人民幣匯率預(yù)測研究——兼與ARMA、ARCH、GARCH的比較[J].國際經(jīng)貿(mào)探索,2019,35(09):35-49.
[6]Meese,R.A.,Rogoff,K..Empirical exchange rate models of the seventies:Do they fit out of sample?[J].1983,14:3-24.
[7]Svitlana Galeshchuk.Neural networks performance in exchange rate prediction[J].Neurocomputing,2016,172:446-452.
*基金項目:國家自然科學(xué)基金項目“高頻數(shù)據(jù)的非參數(shù)統(tǒng)計推斷”(11571051);國家自然科學(xué)基金數(shù)學(xué)天元基金項目“機(jī)器學(xué)習(xí)的數(shù)學(xué)理論與應(yīng)用”(12026430)。
(作者單位:長春工業(yè)大學(xué)。秦喜文為通信作者)