袁咪咪,宮法明,李 昕
(中國石油大學(xué)(華東) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,青島 266580)
近年來,電力需求的增長使得包括風(fēng)能在內(nèi)的可再生能源變得越來越重要[1].風(fēng)速變化具有很強(qiáng)的隨機(jī)性和間歇性,這種不穩(wěn)定性會(huì)嚴(yán)重影響電力系統(tǒng)的安全,對及時(shí)可靠的風(fēng)速預(yù)測提出了嚴(yán)峻的挑戰(zhàn)[2].
在過去的幾十年中,科學(xué)家們已經(jīng)提出了各種方法以增強(qiáng)風(fēng)速預(yù)測的性能.這些方法大致分為以下3 類[3]:物理方法、統(tǒng)計(jì)方法以及機(jī)器學(xué)習(xí)方法.物理方法主要通過利用氣象因素和地理因素等物理參數(shù)來預(yù)測風(fēng)速.但是,物理模型的計(jì)算成本高且無法捕獲氣象因素復(fù)雜的動(dòng)態(tài)變化關(guān)系,因此不適用于短期風(fēng)速預(yù)測.統(tǒng)計(jì)方法利用歷史時(shí)間序列中各個(gè)變量的線性關(guān)系來構(gòu)建統(tǒng)計(jì)模型,如時(shí)間序列方法[4]、自回歸移動(dòng)平均(ARMA)方法[5]和卡爾曼濾波方法[6]等,這些方法克服了物理模型的缺點(diǎn),但它們只能分析歷史時(shí)間序列中變量之間的線性關(guān)系,難以處理氣象要素之間的非線性關(guān)系.機(jī)器學(xué)習(xí)如支持向量機(jī)(SVM)[7]、多層感知器(MLP)[8]和極限學(xué)習(xí)機(jī)(ELM)[9]可以提取風(fēng)速時(shí)間序列中的復(fù)雜非線性特征,并在一定程度上提高預(yù)報(bào)的準(zhǔn)確性.但這些傳統(tǒng)的線性和非線性模型只能提取淺特征,并且需要進(jìn)行大量的特征工程,無法自動(dòng)提取時(shí)間序列特征.Wang 等[10]提出了一種基于集成方法的卷積神經(jīng)網(wǎng)絡(luò)模型來實(shí)現(xiàn)概率性風(fēng)電功率預(yù)測,并通過案例研究驗(yàn)證了該模型的準(zhǔn)確性和穩(wěn)定性.Ghaderi 等[11]使用基于STC的長短期記憶網(wǎng)絡(luò)模型進(jìn)行風(fēng)速預(yù)測.Hu 等[12]成功設(shè)計(jì)了基于DBN和傳遞學(xué)習(xí)的有效風(fēng)速模型.Zaytar 等[13]使用多個(gè)堆疊的LSTM映射相同長度的天氣值序列以預(yù)測未來24-72 小時(shí)的風(fēng)力變化情況,但僅針對單個(gè)城市研究,并未考慮其相鄰地域的影響.
深度學(xué)習(xí)使用分布式的分層特征表示方法[14]自動(dòng)提取數(shù)據(jù)中的從最低層到最高層固有的抽象特征和隱藏不變結(jié)構(gòu)[15].為了充分利用單個(gè)模型的優(yōu)點(diǎn)并提高預(yù)測性能,現(xiàn)已提出了許多組合模型.此外,最近的一項(xiàng)研究表明目標(biāo)站點(diǎn)的風(fēng)速與其相鄰站點(diǎn)之間存在顯著的互相關(guān)[16,17].因此,每個(gè)站點(diǎn)的時(shí)空相關(guān)數(shù)據(jù)量不斷增加,使用STC 時(shí)空相關(guān)模型探索風(fēng)速預(yù)測的方法已成為研究的熱點(diǎn).STC 模型可以有效利用每個(gè)站點(diǎn)的地理特征,解決某些站點(diǎn)缺少風(fēng)速數(shù)據(jù)的問題,并獲得良好的預(yù)測結(jié)果.
如上所述,現(xiàn)有模型可以在一定程度上改善預(yù)報(bào)性能,但未考慮對氣象因素的處理也尚未具備同時(shí)提取時(shí)空特征的能力.因此,本文通過結(jié)合CNN和LSTM來構(gòu)建MFSTC(多因素時(shí)空相關(guān))模型,以克服上述缺點(diǎn)并實(shí)現(xiàn)更準(zhǔn)確、可靠的風(fēng)速預(yù)測.本文主要工作如下:
(1)構(gòu)建了一種基于三維矩陣的數(shù)據(jù)表示方法,該矩陣包含每個(gè)站點(diǎn)在多個(gè)歷史時(shí)間點(diǎn)的全部特征氣象要素的值,可以有效解決某些站點(diǎn)缺少風(fēng)速數(shù)據(jù)的困難;
(2)提出了一個(gè)MFSTC 模型,該模型同時(shí)考慮時(shí)間、地點(diǎn)和氣象因素之間的多種時(shí)空相關(guān)性,從多個(gè)方面提高風(fēng)速預(yù)報(bào)的準(zhǔn)確率;
(3)針對多個(gè)站點(diǎn),綜合PCA-LASSO 兩種算法提取特征氣象要素集,避免了冗余因素對預(yù)測精度的不利影響,同時(shí)也簡化了模型計(jì)算量;
(4)為了同時(shí)提取風(fēng)速數(shù)據(jù)的時(shí)空相關(guān)性特征,開發(fā)了具有多輸入單輸出組合結(jié)構(gòu)的CNN-LSTM 模型.該組合模型不僅能夠充分利用CNN 良好的空間特征提取能力和LSTM 出色的時(shí)間序列特征提取能力,還可以有效地解決獲取不同站點(diǎn)的復(fù)雜地理特征的困難,從時(shí)間和空間上提高風(fēng)速預(yù)報(bào)的準(zhǔn)確性.
時(shí)空模型的基本思想是,目標(biāo)站點(diǎn)的風(fēng)速特征不僅與本站點(diǎn)的氣象要素密切相關(guān),還與其周圍站點(diǎn)的氣象要素有關(guān)[18],周圍站點(diǎn)的氣象要素(如溫度、濕度、壓強(qiáng)等)變化會(huì)對目標(biāo)站點(diǎn)的風(fēng)速產(chǎn)生影響.因此,充分利用目標(biāo)站點(diǎn)及其周圍站點(diǎn)的氣象信息有助于提高風(fēng)速預(yù)報(bào)的準(zhǔn)確性和可靠性.基于3D 矩陣的MFSTC模型的核心在于,同時(shí)考慮了時(shí)間和空間維度中站點(diǎn)和氣象因素的多重相關(guān)性,包括多個(gè)站點(diǎn)之間的相關(guān)性、多個(gè)因素之間的相關(guān)性以及站點(diǎn)和因素之間的相關(guān)性.模型結(jié)構(gòu)如圖1所示,其中3D 矩陣可以用式(1)表示.
其中,STF表示一個(gè)“站點(diǎn)-時(shí)間-因素”的3D 矩陣,TF,TS和FS分別表示“時(shí)間-因素”,“時(shí)間-地點(diǎn)”和“因素-地點(diǎn)”的二維平面集.相應(yīng)的平面分割操作如圖1(b)所示.Esft是一組3D 矩陣點(diǎn),每個(gè)點(diǎn)都可以定義為e(s,f,t),代表在歷史時(shí)間點(diǎn)t處第s個(gè)站點(diǎn)的第f個(gè)特征氣象因子的值.同時(shí),如圖1(c)所示,每個(gè)二維平面可以由二維矩陣表示.其中,TFs包含站點(diǎn)s在T個(gè)歷史時(shí)間點(diǎn)處隨時(shí)間變化的F個(gè)氣象因子的值,TSf包含第f個(gè)氣象因子在S個(gè)站點(diǎn)的T個(gè)歷史時(shí)間點(diǎn)處隨時(shí)間變化的值,FSt包含在歷史時(shí)間點(diǎn)t處S個(gè)站點(diǎn)的F個(gè)氣象因子的值.S,F和T分別代表站點(diǎn)、氣象因素和歷史時(shí)間點(diǎn)的數(shù)量.任意兩個(gè)點(diǎn)e1(s,f,t)和e2(s,f,t)之間的相關(guān)系數(shù)表示為:
圖1 基于3D 矩陣的MFSTC 模型結(jié)構(gòu)
基于上述相關(guān)系數(shù),可以根據(jù)每個(gè)站點(diǎn)在T個(gè)歷史時(shí)間點(diǎn)的全部氣象要素值計(jì)算出下一時(shí)刻目標(biāo)站點(diǎn)的風(fēng)速.該公式定義為:
其中,eg(s,f,t) 代表Esft中某一點(diǎn)的值,ea(q,wind,t+1)是目標(biāo)站點(diǎn)q在t+1時(shí)刻的風(fēng)速預(yù)測值,是ea(q,wind,t+1)和eg(s,f,t) 之間的相關(guān)系數(shù),ξag是誤差項(xiàng).
在本文中,為了提高風(fēng)速預(yù)測的準(zhǔn)確率,提出了一種MFSTC-CNN-LSTM 框架,如圖2所示.該方法同時(shí)考慮了風(fēng)速與氣象因素、空間以及時(shí)間3 個(gè)維度方面的相關(guān)性,最終實(shí)現(xiàn)對多站點(diǎn)氣象因素之間相關(guān)特征的深層提取.MFSTC-CNN-LSTM 框架的實(shí)現(xiàn)過程描述如下:
圖2 風(fēng)速預(yù)測流程圖
(1)針對多個(gè)站點(diǎn),通過PCA-LASSO 提取特征氣象要素.
(2)將特征氣象要素的數(shù)據(jù)在3 個(gè)維度上進(jìn)行重構(gòu).模型的每個(gè)輸入都是一個(gè)3D 矩陣,矩陣的3 個(gè)維度分別對應(yīng)氣象因素F、空間S以及時(shí)間T.矩陣包含S個(gè)站點(diǎn)在T個(gè)歷史時(shí)間點(diǎn)的F個(gè)特征氣象因子的值.
(3)CNN的輸入是T個(gè)二維矩陣FSt,每個(gè)FSt包含在t時(shí)間點(diǎn)處S個(gè)站點(diǎn)的F個(gè)氣象因子的值.通過CNN的特征提取,可以獲得T個(gè)特征向量,代表在T個(gè)預(yù)報(bào)時(shí)次上各個(gè)站點(diǎn)的氣象因子之間的空間相關(guān)性.然后,將T個(gè)特征向量輸入LSTM 以提取和分析時(shí)間特征關(guān)系,最終獲得目標(biāo)站點(diǎn)的風(fēng)速預(yù)測結(jié)果.
原始?xì)庀髷?shù)據(jù)屬性復(fù)雜、形式多樣,然而并非所有要素都與風(fēng)速變化是相關(guān)的,過多的預(yù)測要素將導(dǎo)致冗余信息并降低泛化性能.從原始?xì)庀笠刂羞M(jìn)行特征選擇[19]以降低風(fēng)速預(yù)測數(shù)據(jù)集的維度.經(jīng)過特征提取,能夠有效減少模型的計(jì)算和存儲(chǔ)開銷并且明顯提高可解釋性.基于單個(gè)算法無法提取出有效的特征氣象要素的問題,本文結(jié)合PCA和LASSO 兩種算法以形成新的PCA-LASSO 技術(shù).
PCA[20]的主要原理是找到適當(dāng)?shù)木€性變換將相關(guān)變量轉(zhuǎn)換為彼此獨(dú)立的新變量,其中方差較大的變量可以反映原始多個(gè)變量中包含的主要信息,也就是更符合要求的氣象要素.為了進(jìn)一步簡化模型計(jì)算量,同時(shí)避免冗余因素對預(yù)測精度帶來的不利影響,需要從PCA 篩選出的氣象要素中進(jìn)一步提取出能夠?qū)︼L(fēng)速變化帶來顯著影響的特征氣象要素.LASSO[21]回歸是一種縮小變量集的壓縮估計(jì)方法,它通過構(gòu)造一個(gè)懲罰函數(shù)將變量的系數(shù)進(jìn)行壓縮并使某些回歸系數(shù)變?yōu)?,進(jìn)而達(dá)到特征選擇的目的.在本文中,設(shè)定有m個(gè)氣象要素的特征向量x=(x1,x2,···,xm),其中x在第i個(gè)氣象要素上的取值為xi.LASSO 回歸將m個(gè)氣象要素進(jìn)行線性組合來預(yù)測風(fēng)速,公式如下:
式中,w=(w1,w2,···wm)是各氣象要素的權(quán)重值.損失函數(shù)定義為:
其中,y代表風(fēng)速實(shí)際值.為防止過擬合和提高模型泛化性能引入正則化項(xiàng)α||w||.通過對損失函數(shù)loss(w)的最小值求解得到w,從而確定LASSO 回歸的相關(guān)參數(shù).隨著超參數(shù)α變大,越來越多的變量系數(shù)被收縮為0,從而得到最終的特征氣象要素.
CNN是多層前饋神經(jīng)網(wǎng)絡(luò),已被證明在提取隱藏的空間特征方面具有突出的性能[22].CNN 具有稀疏連接和權(quán)重共享的性質(zhì),這大大減少了模型參數(shù)的數(shù)量.使用CNN 提取目標(biāo)站點(diǎn)和其他站點(diǎn)的氣象因素之間的潛在空間關(guān)系,以減少風(fēng)速的預(yù)測誤差.CNN的計(jì)算可以定義為[23]:
其中,u和v分別是特征圖行和列的索引,h和w分別是卷積濾波器行和列的索引,h′和w′分別是卷積濾波器的行列數(shù),l是特征圖在第m-1 層的索引,bmn是第m層中第n個(gè)特征圖的偏差,是卷積濾波器(h,w)處的值,該卷積濾波器連接第(m-1)層的第l個(gè)特征圖和第m層的第n個(gè)新特征圖.是在第m層第n個(gè)特征圖的(u,v) 處的值.是第m-1 層第l個(gè)特征圖的(u+h,v+w)處的值,relu是卷積神經(jīng)網(wǎng)絡(luò)中每層的激活函數(shù),其相關(guān)定義如式(7)所示[24]:
本文需配置T個(gè)CNN 來處理T個(gè)空間風(fēng)速矩陣,每個(gè)CNN 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,主要由卷積層、池化層以及全連接層3 種類型構(gòu)成,通過卷積層和池化層的交替處理,最終由輸出層輸出得到的抽象特征.首先輸入10×10 個(gè)站點(diǎn)在t(t=1,2,…,T)預(yù)報(bào)時(shí)次的特征氣象要素?cái)?shù)據(jù),設(shè)CNN 輸入層有10 個(gè)卷積核,且每個(gè)卷積核的大小均為5×5,則輸入層將產(chǎn)生10 個(gè)尺寸為6×6的特征圖,每個(gè)特征圖中的元素與其對應(yīng)的空間關(guān)聯(lián)域具有一致的排列順序.后續(xù)的網(wǎng)絡(luò)層在這些特征圖的基礎(chǔ)上繼續(xù)進(jìn)行上述過程,CNN 逐層捕獲風(fēng)速矩陣中的空間信息,最終得到各個(gè)預(yù)報(bào)時(shí)次上的空間特征向量,并傳遞給LSTM.
時(shí)間序列[25]是按照時(shí)間排序的一組隨機(jī)變量,它本質(zhì)上反映的是某個(gè)或者某些隨機(jī)變量隨時(shí)間不斷變化的趨勢.在數(shù)值天氣預(yù)測模型中,氣象要素?cái)?shù)據(jù)的后值與初值存在一定的依賴性與相關(guān)性.風(fēng)速預(yù)測不僅依賴氣象要素的最新數(shù)據(jù),較早的數(shù)據(jù)可以幫助模型得到風(fēng)速變化的總體趨勢[26].
作為循環(huán)神經(jīng)網(wǎng)絡(luò)的特殊變體,LSTM 具有自動(dòng)存儲(chǔ)和刪除時(shí)間狀態(tài)信息的能力[27],可以提取長時(shí)間序列的復(fù)雜特征關(guān)系,解決傳統(tǒng)RNN 缺乏建立遠(yuǎn)程結(jié)構(gòu)連接能力的問題,從而避免“梯度爆炸”現(xiàn)象的發(fā)生[28,29],如圖4為一個(gè)“LSTM 細(xì)胞”單元[30],該細(xì)胞單元由輸入門i、輸出門o和遺忘門f組成.這3 種門控是控制信息流的關(guān)鍵,其對應(yīng)的函數(shù)表達(dá)式為:
圖4 LSTM 細(xì)胞單元結(jié)構(gòu)示意圖
其中,ct為細(xì)胞間激活向量,b是矩陣偏置向量,σ是激活函數(shù)Sigmoid.it,ft,ot分別是t時(shí)間點(diǎn)輸入門、輸出門和遺忘門的計(jì)算方法.W代表權(quán)重矩陣,根據(jù)其下標(biāo)分別具有不同的含義.
如圖5為LSTM 預(yù)測模型結(jié)構(gòu)示意圖,由輸入層、隱藏層、輸出層以及網(wǎng)絡(luò)訓(xùn)練層4 部分組成.將CNN的空間特征向量輸入LSTM 各節(jié)點(diǎn),在中間的隱藏層使用多個(gè) LSTM 細(xì)胞單元進(jìn)行循環(huán)連接,輸出層提供預(yù)測結(jié)果,網(wǎng)絡(luò)訓(xùn)練采用Adam 算法不斷調(diào)整參數(shù)以優(yōu)化預(yù)測結(jié)果.損失函數(shù)的數(shù)學(xué)公式如式(13)所示.
圖5 LSTM 神經(jīng)網(wǎng)絡(luò)處理層結(jié)構(gòu)圖
其中,D為測試集中的樣本數(shù)量,yd為該時(shí)刻風(fēng)速的真實(shí)值,為風(fēng)速預(yù)測值.
在固定卷積層和池化層提取的特征信息不變的情況下,通過逐漸增加LSTM 網(wǎng)絡(luò)記憶單元數(shù)和隱含層數(shù)來測試不同隱含層的預(yù)測效果,如表1所示.可以看出適當(dāng)?shù)脑黾覮STM的隱含層數(shù)可以提高模型的預(yù)測能力,當(dāng)隱含層數(shù)過多如隱含層數(shù)為4 時(shí),會(huì)出現(xiàn)過擬合現(xiàn)象.此外,隨著隱含層的增加,模型的運(yùn)行時(shí)間也會(huì)相應(yīng)延長.最終確定LSTM 網(wǎng)絡(luò)設(shè)置3 層隱含層,其隱含層中LSTM 單元數(shù)分別為32、20、20.
本文數(shù)據(jù)集來自東營氣象中心提供的100 個(gè)站點(diǎn)在2009 至2018年共10年的風(fēng)速相關(guān)記錄數(shù)據(jù),通過在3 個(gè)站點(diǎn)數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證所提出MFSTC-CNNLSTM 模型的預(yù)測性能,對目標(biāo)站點(diǎn)未來5 個(gè)預(yù)報(bào)時(shí)次的風(fēng)速進(jìn)行預(yù)測,并使用RMSE 作為衡量模型預(yù)測擬合度的指標(biāo).為了確保模型比較的公平性和實(shí)驗(yàn)的有效性,對3 個(gè)站點(diǎn)的預(yù)測模型分配相同的超參數(shù),學(xué)習(xí)率設(shè)置為0.01,dropout 設(shè)置為0.1,batch_size 設(shè)置為32,時(shí)間步長設(shè)置為4,通過多次訓(xùn)練,迭代次數(shù)超過500 次時(shí)損失值趨于穩(wěn)定.另外,為了提取相應(yīng)區(qū)域中的不同風(fēng)速特征,實(shí)驗(yàn)分別利用不同的數(shù)據(jù)集來訓(xùn)練和調(diào)整模型的內(nèi)部參數(shù).結(jié)果如表1所示.
表1 提前0 時(shí)預(yù)報(bào)時(shí)次不同LSTM 層數(shù)的實(shí)驗(yàn)結(jié)果
數(shù)據(jù)集包括100 個(gè)站點(diǎn)10年間每天39 個(gè)氣象要素(HECA88,HHCA30,HHCA50,HHCA70,HHCA85,HHCA92,HHCA99,HRCA30,HRCA50,HRCA70,HRCA85,HRCA92,HRCA98,HRCA99,HTCA30,HTCA50,HTCA70,HTCA85,HTCA92,HTCA98,HTCA99,HUCA30,HUCA50,HUCA70,HUCA85,HUCA92,HUCA98,HUCA99,HVCA30,HVCA50,HVCA70,HVCA85,HVCA92,HVCA98,HVCA99,HTCA50,HTCA70,HTCA85,HTCA92,HTCA98,HTCA99,HUCA30,HUCA50,HUCA70,HUCA85,HUCA92,HUCA98,HUCA99,HVCA30,HVCA50,HVCA70,HVCA85,HVCA92,HVCA98,HVCA99,HOCA70,HOCA85,HOCA92,HPCA89)在5 個(gè)預(yù)報(bào)時(shí)次(0 時(shí)、6 時(shí)、12 時(shí)、18 時(shí)以及24 時(shí))的觀測數(shù)據(jù),在高度上涵蓋1000 hPa、地面、925 hPa、850 hPa、700 hPa、500 hPa、300 hPa 7 個(gè)不同的層次,在空間上包括100 個(gè)網(wǎng)格站點(diǎn).3 個(gè)實(shí)驗(yàn)的數(shù)據(jù)集大小均設(shè)置為13 340,模型的訓(xùn)練集、驗(yàn)證集和測試集的比例設(shè)置為6:2:2.
由于原始數(shù)據(jù)包含39 個(gè)氣象要素,根據(jù)前期實(shí)驗(yàn),利用單一方法提取的特征氣象要素并不準(zhǔn)確,具有一定的片面性.因此,首先利用PCA 提取出反映原始變量中所包含主要信息的氣象要素,然后利用LASSO 回歸對這些要素進(jìn)行進(jìn)一步篩選,從而得到能夠真正影響風(fēng)力變化的特征氣象要素.
通過PCA 得到各氣象要素的累計(jì)貢獻(xiàn)率如圖6所示.從圖6分析可得,當(dāng)選擇其中的30 個(gè)氣象要素時(shí),對風(fēng)速變化的累計(jì)貢獻(xiàn)率高達(dá)99.496%,其他成分可以丟棄.利用LASSO 回歸進(jìn)一步壓縮PCA 所得的30 個(gè)氣象要素.如圖7所示,橫坐標(biāo)表示氣象要素的數(shù)量,縱坐標(biāo)表示預(yù)測值與真實(shí)值的均方根誤差.通過對LASSO中超參數(shù)α的設(shè)置來控制橫坐標(biāo)的大小.當(dāng)LASSO 將特征要素的數(shù)量設(shè)定為21 左右時(shí),可將RMSE 穩(wěn)定在一個(gè)較小的值.
圖6 氣象要素累計(jì)貢獻(xiàn)率
圖7 基于LASSO 模型的風(fēng)速預(yù)測
氣象要素的特征權(quán)重的大小與其對風(fēng)速預(yù)測的影響程度成正比.本文在5 個(gè)預(yù)報(bào)時(shí)次分別進(jìn)行特征選擇,結(jié)果如表2所示.表中數(shù)值是LASSO 回歸得到的各氣象要素在5 個(gè)預(yù)報(bào)時(shí)次中特征權(quán)重的平均值,本文選取其中前21 個(gè)作為特征氣象要素.根據(jù)先驗(yàn)知識(shí),海拔越低的氣象要素(氣象要素英文簡稱后綴數(shù)字越大)對風(fēng)速變化的影響越大,而提取到的特征氣象要素也符合這個(gè)特點(diǎn),從而說明PCA-LASSO 能夠有效篩選出與風(fēng)速有關(guān)的特征氣象要素.
表2 各氣象要素的特征權(quán)重分布圖
為了驗(yàn)證方法的有效性,選擇了CNN、LSTM、ARIMA 以及BP 神經(jīng)網(wǎng)絡(luò)與提出的MFSTC-CNNLSTM 模型對比并在3 個(gè)站點(diǎn)的測試集上進(jìn)行了5 個(gè)預(yù)報(bào)時(shí)次(共24 小時(shí))的預(yù)測測試.為直觀展示不同模型間的效果與差異,本文在3 個(gè)站點(diǎn)(第21,61,91 站點(diǎn))的測試集上隨機(jī)選取了100 個(gè)記錄點(diǎn),并對5 個(gè)預(yù)報(bào)時(shí)次的模型預(yù)測值與真實(shí)值進(jìn)行對比.如圖8所示,分別為MFSTF-CNN-LSTM、CNN、LSTM、ARIMA以及BP 神經(jīng)網(wǎng)絡(luò)5 種模型分別在5 個(gè)預(yù)報(bào)時(shí)次的預(yù)測值與真實(shí)值的預(yù)測效果對比圖.整體來看,所有模型誤差都隨預(yù)測時(shí)間增長呈增大趨勢.由圖可知,在預(yù)測時(shí)效較短時(shí),各個(gè)模型的預(yù)測值與真實(shí)值都有較好的擬合度,但隨著預(yù)測時(shí)效的延長,CNN、LSTM、ARIMA以及BP 神經(jīng)網(wǎng)絡(luò)預(yù)測效果都呈現(xiàn)明顯下降態(tài)勢,而MFSTF-LSTM-CNN 模型的預(yù)測結(jié)果與真實(shí)值依然能夠保持較好的擬合度.
圖8 不同預(yù)測模型在5 個(gè)時(shí)次的預(yù)測效果對比圖
實(shí)驗(yàn)結(jié)果將預(yù)測值和真實(shí)值的均方根誤差RMSE用作評(píng)分函數(shù)以評(píng)估模型的預(yù)測性能.表3中的數(shù)據(jù)為各模型在3 個(gè)站點(diǎn)測試集RMSE的均值.隨著預(yù)報(bào)時(shí)間的推移,所有模型的均方根誤差均呈現(xiàn)上升趨勢.從總體的預(yù)測效果來看,表現(xiàn)最好的是MFSTF-LSTMCNN,它能使模型獲得最小均方誤差值,證明了提出方法的有效性.
表3 各模型在5 個(gè)預(yù)報(bào)時(shí)次的RMSE
結(jié)合數(shù)據(jù)挖掘和神經(jīng)網(wǎng)絡(luò)技術(shù),本文提出了一種基于多因素時(shí)空相關(guān)性和深度學(xué)習(xí)算法的風(fēng)速預(yù)測模型,實(shí)現(xiàn)了對研究地區(qū)站點(diǎn)的風(fēng)速預(yù)測,提高了預(yù)報(bào)的時(shí)效性和精確度.提出的PCA-LASSO 算法有效減少了參與計(jì)算的氣象要素的數(shù)量,提高了模型的計(jì)算效率.MFSTC-CNN-LSTM 模型有效地融合了多種神經(jīng)網(wǎng)絡(luò)算法,具有更強(qiáng)的泛化能力和更高的預(yù)測精度,因此該模型能夠在不同站點(diǎn)的具有不同波動(dòng)程度的風(fēng)速數(shù)據(jù)集上依然保持出色的預(yù)測質(zhì)量和穩(wěn)定性.同時(shí),為使數(shù)據(jù)能夠更好的適應(yīng)模型,還提出了一種基于三維矩陣的數(shù)據(jù)重構(gòu)方法.
與僅考慮單個(gè)站點(diǎn)的氣象屬性之間關(guān)系的模型相比,MFSTC 模型充分考慮了不同站點(diǎn)上各種氣象因素的時(shí)空耦合關(guān)系,并為預(yù)測下一時(shí)刻的風(fēng)速提供了更加完整和可靠的基礎(chǔ).CNN-LSTM 組合策略在MFSTC模型的基礎(chǔ)上,充分利用了CNN 強(qiáng)大的空間特征提取能力和LSTM 強(qiáng)大的時(shí)間特征提取能力的優(yōu)勢.通過對兩個(gè)模型優(yōu)勢的充分利用,實(shí)現(xiàn)了對時(shí)空關(guān)系特征的深層提取.在后續(xù)研究中,將數(shù)值模型和圖像識(shí)別模型(例如衛(wèi)星圖像)相結(jié)合構(gòu)成新的天氣預(yù)報(bào)系統(tǒng)的基礎(chǔ)是進(jìn)一步研究的主要目標(biāo).