鄧澤貴,李醒飛,楊少波
(1.天津大學(xué)精密測(cè)量技術(shù)與儀器國(guó)家重點(diǎn)實(shí)驗(yàn)室,天津 300072;2.青島海洋科學(xué)與技術(shù)試點(diǎn)國(guó)家實(shí)驗(yàn)室,山東 青島 266003;3.天津大學(xué)青島海洋技術(shù)研究院,山東 青島 266200)
海洋是一座巨大的資源寶庫,海洋覆蓋面積占了全球表面積的70.8%。為了加強(qiáng)對(duì)海洋的利用,我們需要對(duì)海洋環(huán)境進(jìn)行準(zhǔn)確的分析、模擬和預(yù)報(bào)。海浪是最重要的海洋環(huán)境之一,有效波高是其主要的衡量參數(shù),因此對(duì)海浪的分析我們可以從一定程度上轉(zhuǎn)化為對(duì)有效波高(SWH, Significant Wave Height)的分析。精準(zhǔn)的有效波高預(yù)測(cè)不僅能為海洋工程和航行提供重要的海洋氣象參考條件,還能減少海洋環(huán)境對(duì)軍事作戰(zhàn)造成的影響。例如海浪在潛艇工作時(shí)就直接影響著潛艇近水面的穩(wěn)定性,巨大的海浪對(duì)其他軍事設(shè)備甚至航母的穩(wěn)定性也有著一定的影響。從能源角度來看,隨著化石能源的快速消耗,可再生能源成為了全人類關(guān)注的焦點(diǎn)。波浪能作為一種清潔并且分布廣泛的可再生能源,相比于太陽能和風(fēng)能擁有更高的可預(yù)測(cè)性和更高的能量密度,對(duì)其進(jìn)行有效利用與開發(fā)具有的巨大商業(yè)價(jià)值和環(huán)境價(jià)值[1]。并且波浪能與有效波高的平方成正比,因此精準(zhǔn)的有效波高預(yù)測(cè)可以為波浪能的有效利用與轉(zhuǎn)化提供重要參考依據(jù)。
由于受到復(fù)雜海洋環(huán)境和自然混沌現(xiàn)象的影響,有效波高的精準(zhǔn)預(yù)測(cè)極為困難。目前國(guó)內(nèi)對(duì)有效波高預(yù)測(cè)的研究還較少,國(guó)外在上世紀(jì)就已經(jīng)開始有效波高的預(yù)測(cè)研究。對(duì)于有效波高的預(yù)測(cè)可以分為兩大類,分別是基于能量平衡方程的數(shù)值海浪模型和以數(shù)據(jù)作為研究對(duì)象的數(shù)據(jù)驅(qū)動(dòng)模型。例如第一個(gè)業(yè)務(wù)化海浪預(yù)測(cè)的模型Wave Model(WAM),適用于近海岸模擬的Simulating Waves Nearshore (SWAN),基于WAM的WAVEWATCH III都是基于能量平衡方程的[2-4]。這類模型由于復(fù)雜的輸入與物理模型本身的復(fù)雜度,其運(yùn)行速度極慢。在這種情況下,經(jīng)典時(shí)間序列模型自回歸模型(AR, Autoregressive Model)、移動(dòng)自回歸模型(ARMA, Autoregressive moving average model)、差分整合移動(dòng)平均自回歸模型(ARIMA, Autoregressive Integrated Moving Average model)分別被Soares C G、Fusco F、Ge M等人應(yīng)用到有效波高的預(yù)測(cè)中[5-7]。近年來,隨著機(jī)器學(xué)習(xí)的蓬勃發(fā)展,許多機(jī)器學(xué)習(xí)模型被應(yīng)用到有效波高的預(yù)測(cè)中。Deo M C和Makarynskyy O都研究了神經(jīng)網(wǎng)絡(luò)(ANN, Artificial Neural networks)在有效波高上的預(yù)測(cè)性能[8-9]。Cornejo-Bueno L采用遺傳算法(GA, Genetic Algorithm)結(jié)合極限學(xué)習(xí)機(jī)(ELM, Extreme Learning Machine)來預(yù)測(cè)有效波高[10]。Kumar N K提出了多個(gè)ELM集成的方式預(yù)測(cè)有效波高[11]。Mahjoobi J將風(fēng)速和有效波高作為支持向量機(jī)(SVM, Support Vector Machine)的輸入來預(yù)測(cè)有效波高[12]。Elbisy M S提出支持向量機(jī)(SVM)結(jié)合遺傳算法(GA)的組合模型來預(yù)測(cè)有效波高[13]。Salcedo-Sanz S使用了支持向量回歸(SVR, Support Vector Regression)來預(yù)測(cè)有效波高[14]。模糊K近鄰算法被Nikoo M R用來預(yù)測(cè)廣闊湖面的有效波高[15]。
然而目前的有效波高預(yù)測(cè)研究都是基于不同的數(shù)據(jù)集,無法合理地評(píng)估各種模型的預(yù)測(cè)性能。為了準(zhǔn)確地評(píng)估機(jī)器學(xué)習(xí)模型在有效波波高預(yù)測(cè)中的表現(xiàn),本文研究了線性回歸(LR, Linear Regression),支持向量回歸(SVR),神經(jīng)網(wǎng)絡(luò)(ANN),K近鄰(KNN, k-Nearest Neighbor),決策樹(DT, Decision Tree),隨機(jī)森林(RF, Random Forest)六種經(jīng)典機(jī)器學(xué)習(xí)模型在同一個(gè)數(shù)據(jù)集上的預(yù)測(cè)性能。同時(shí)本文的研究對(duì)以后有效波高預(yù)測(cè)模型及其驅(qū)動(dòng)數(shù)據(jù)的選擇提供了一定的參考。本文的安排如下:在第一部分介紹有效波高預(yù)測(cè)的意義以及相關(guān)論文的回顧;第二部分簡(jiǎn)單地介紹了六種模型的主要思想并分析了原始數(shù)據(jù);第三部分進(jìn)行了相關(guān)實(shí)驗(yàn)對(duì)比;第四部分對(duì)本文進(jìn)行了總結(jié)。
線性回歸(LR)可由公式(1)表示,其中w=(w1,w2,...,wn),b表示截距項(xiàng),x表示輸入特征向量,w和b學(xué)得之后,模型就確定了。一般通過最小化模型在給定數(shù)據(jù)集上預(yù)測(cè)的均方誤差求解w和b。支持向量回歸公式與線性回歸類似,但支持向量機(jī)是通過間隔最大化思想來求解參數(shù),并且可以通過引入核函數(shù)的方法使模型具有非線性能力。神經(jīng)網(wǎng)絡(luò)幾乎可以擬合任何線性和非線性函數(shù),對(duì)于只有一個(gè)隱藏層神經(jīng)網(wǎng)絡(luò),它的前向傳播表達(dá)式如(2)所示,其中x為輸入特征向量;w1、w2為權(quán)重矩陣;b1、b2為偏置;h為隱藏層節(jié)點(diǎn);y′為神經(jīng)網(wǎng)絡(luò)輸出結(jié)果;σ(·)表示激活函數(shù)。其優(yōu)化目標(biāo)可以自己定義,一般通過梯度下降法來求解權(quán)重矩陣和偏置。K近鄰是一種無參數(shù)學(xué)習(xí)的算法,被認(rèn)為是“懶惰學(xué)習(xí)”的著名代表。K近鄰算法的思想很簡(jiǎn)單,當(dāng)一個(gè)新的樣本需要預(yù)測(cè)時(shí),我們只需要在給定數(shù)據(jù)集中找出K個(gè)離它最近的樣本,然后將這K個(gè)樣本標(biāo)簽的平均值作為新樣本的預(yù)測(cè)值。決策樹是一種常見的機(jī)器學(xué)習(xí)算法,它以樹為基礎(chǔ)結(jié)構(gòu),通過對(duì)一系列特征的連續(xù)判斷來得到結(jié)果。隨機(jī)森林則是以決策樹為基學(xué)習(xí)器的集成學(xué)習(xí)模型,通過學(xué)習(xí)出m個(gè)子決策樹,最終以這m個(gè)子決策樹預(yù)測(cè)值的加權(quán)作為最終輸出[16-17]。
f(x)=wx+b
(1)
(2)
用于有效波高分析的數(shù)據(jù)通常來源于浮標(biāo)實(shí)測(cè)數(shù)據(jù),衛(wèi)星高度計(jì)數(shù)據(jù)或再分析數(shù)據(jù)。其中浮標(biāo)數(shù)據(jù)較為準(zhǔn)確數(shù)據(jù),但浮標(biāo)數(shù)量有限,難以提供完整的區(qū)域數(shù)據(jù)。衛(wèi)星高度計(jì)數(shù)據(jù)和再分析數(shù)據(jù)雖然能提供完整的區(qū)域數(shù)據(jù),但準(zhǔn)確率稍低。由于本文研究的是單點(diǎn)有效波高預(yù)測(cè),所以我們選擇了美國(guó)National Data Buoy Center (https://www.ndbc.noaa.gov) 公開的浮標(biāo)數(shù)據(jù)。其中浮標(biāo)44013提供每小時(shí)的標(biāo)準(zhǔn)氣象數(shù)據(jù),并且數(shù)據(jù)較為完整,因此我們選用此浮標(biāo)2013年到2018年的數(shù)據(jù)作為我們的驅(qū)動(dòng)數(shù)據(jù)。其中選取的數(shù)據(jù)包括風(fēng)速、有效波高、主導(dǎo)波周期、平均波周期、水溫五項(xiàng)參數(shù)。浮標(biāo)44013的位置信息、水深及有效波高數(shù)據(jù)的最小值、最大值、平均值、方差如表1所示。
表1 浮標(biāo)44013的統(tǒng)計(jì)信息
圖1是編號(hào)為44013的浮標(biāo)2013年到2018年有效波高曲線圖。從圖1可以看到,有效波高具有明顯的年周期性,并且每一年有效波高呈現(xiàn)出一定的季節(jié)特性,在春、冬兩季有效波高數(shù)值較大且變化劇烈,相比之下在夏、秋兩季有效波高數(shù)值較小且變化平穩(wěn)。為了充分利用浮標(biāo)44013的數(shù)據(jù)來準(zhǔn)確評(píng)估第二節(jié)的六種機(jī)器學(xué)習(xí)模型的預(yù)測(cè)性能,本文設(shè)計(jì)了三部分實(shí)驗(yàn):第一部分實(shí)驗(yàn)以月為單位研究了未來一小時(shí)的有效波高預(yù)測(cè);第二部分實(shí)驗(yàn)以季節(jié)為單位研究了未來一天的日平均有效波高的預(yù)測(cè);第三部分實(shí)驗(yàn)以季節(jié)為單位研究了未來一天的日最大有效波高的預(yù)測(cè)。
圖1 浮標(biāo)44013 2013年到2018的有效波高曲線圖
(3)
(4)
(5)
(6)
(7)
(8)
在本文實(shí)驗(yàn)中所有模型都以歷史數(shù)據(jù)作為輸入。從圖1的有效波高圖可以看出有效波高存在一定年周期性與季節(jié)性。因此這部分實(shí)驗(yàn)使用2013到2018年春、夏、秋、冬的3、6、9、12月的數(shù)據(jù)作為模型驅(qū)動(dòng)數(shù)據(jù),其中2013年到2017年的數(shù)據(jù)作為訓(xùn)練集,2018年的數(shù)據(jù)作為測(cè)試集,最終評(píng)估經(jīng)過訓(xùn)練的模型在測(cè)試集上的表現(xiàn)。并且在這部分實(shí)驗(yàn)中還對(duì)比了僅使用歷史有效波高數(shù)據(jù)和使用歷史風(fēng)速、有效波高、主導(dǎo)波周期、平均波周期、水溫五項(xiàng)參數(shù)作為模型輸入的預(yù)測(cè)結(jié)果,在接下來內(nèi)容中簡(jiǎn)稱為單特征和多特征。由于模型的預(yù)測(cè)性能與模型參數(shù)有關(guān),因此模型的主要參數(shù)都在附錄中給出。
在僅使用單特征的有效波高預(yù)測(cè)中,以2013年到2017年每年3月有效波高數(shù)據(jù)作為訓(xùn)練集,以2018年3月份數(shù)據(jù)作為測(cè)試集,并且采取歷史24小時(shí)有效波高預(yù)測(cè)未來一小時(shí)有效波高的方式。在使用多特征預(yù)測(cè)未來一小時(shí)有效波高時(shí),本文研究了模型在風(fēng)速、有效波高、主導(dǎo)波周期、平均波周期、水溫五種特征下的預(yù)測(cè)性能,且采用歷史12小時(shí)五項(xiàng)參數(shù)預(yù)測(cè)未來一小時(shí)有效波高。實(shí)驗(yàn)結(jié)果如表2所示,其中括號(hào)內(nèi)的百分?jǐn)?shù)表示模型在各個(gè)指標(biāo)上相對(duì)于持續(xù)性預(yù)測(cè)的提升,粗體的數(shù)字表示各個(gè)評(píng)價(jià)指標(biāo)的最優(yōu)值??梢悦黠@看出LR、SVR、ANN三種模型的在各項(xiàng)指標(biāo)上面都優(yōu)于KNN、DT、RF三種模型。其中ANN模型表現(xiàn)最好,在使用多特征時(shí),其MAE、MAPE、RMSE分別僅為0.1354、0.0681、0.2059 m,R2指標(biāo)達(dá)到了0.9840。并且相對(duì)于持續(xù)性預(yù)測(cè)法,ANN模型的MAE、MAPE、RMSE指標(biāo)提升均超過了10%。相比之下,KNN、DT、RF三種模型的表現(xiàn)甚至不如持續(xù)性預(yù)測(cè)法。其中KNN算法的各項(xiàng)評(píng)估指標(biāo)最差,其MAE、MAPE、RMSE分別為0.3758、0.2137、0.5759 m,而R2僅為0.8750。通過比較各模型在使用單特征和多特征時(shí)的預(yù)測(cè)結(jié)果可以發(fā)現(xiàn),在使用多特征后,除KNN和DT外的四種模型基本都取得了更可靠的預(yù)測(cè)結(jié)果。表3展示了六種模型的訓(xùn)練時(shí)間,可以看到LR、KNN兩組模型的訓(xùn)練時(shí)間最短且小于0.1 s,而ANN的訓(xùn)練時(shí)間最長(zhǎng),在使用多特征時(shí)達(dá)到了54.74 s。在使用單特征時(shí),SVR的訓(xùn)練時(shí)間僅為0.24 s,而在使用多特征時(shí),SVR的訓(xùn)練時(shí)間為25.27 s,增加了大約100倍。
表2 LR、SVR、ANN、KNN、DT、RF六種模型提前一小時(shí)有效波高預(yù)測(cè)結(jié)果及其相對(duì)提升-2018年3月
表3 LR、SVR、ANN、KNN、DT、RF六種模型的訓(xùn)練時(shí)間
圖2展示了六種機(jī)器學(xué)習(xí)模型僅使用單特征時(shí)在 2018年3月的有效波高觀測(cè)值與預(yù)測(cè)值,其中觀測(cè)值以散點(diǎn)表示,預(yù)測(cè)值以曲線形式表示。同樣可以看出LR、SVR、ANN三種模型的預(yù)測(cè)值曲線非常接近觀測(cè)值,其中ANN模型的預(yù)測(cè)值曲線很好地?cái)M合了幾個(gè)極端的觀測(cè)值。相比之下KNN、DT、RF三種模型的預(yù)測(cè)值曲線在一定程度上偏離了觀測(cè)值散點(diǎn),尤其是在第一個(gè)峰值附近,KNN、DT、RF三種模型都給出了一個(gè)較低的預(yù)測(cè)值,其中KNN算法的預(yù)測(cè)曲線相比于觀測(cè)值在大多數(shù)時(shí)候都存在明顯偏離。圖3給出了多特征條件下六種模型在2018年3月預(yù)測(cè)值與真實(shí)值散點(diǎn)圖,同樣可看到LR、SVR、ANN三種模型的散點(diǎn)圖比較接近理想擬合直線,而KNN模型的散點(diǎn)圖偏離理想擬合直線最大,其擬合斜率僅為0.8785。
圖2 2018年3月有效波高的觀測(cè)值和預(yù)測(cè)值曲線
圖3 使用多特征時(shí)六種模型在2018年3月的有效波高觀測(cè)值與預(yù)測(cè)值散點(diǎn)圖
為了研究季節(jié)對(duì)模型性能的影響,我們還對(duì)比了機(jī)器學(xué)習(xí)模型在2018年6月、9月、12月的有效波高預(yù)測(cè)性能。與2018年3月份有效波高預(yù)測(cè)類似,模型在2018年6月、9月、12月的預(yù)測(cè)結(jié)果如表4所示。從表4可以看到,LR、SVR、ANN三種模型的預(yù)測(cè)性能表現(xiàn)仍然明顯好于KNN、DT、RF三種模型。其中ANN和LR模型表現(xiàn)較為穩(wěn)定,相比于持續(xù)性預(yù)測(cè)法在各項(xiàng)指標(biāo)上面均有明顯提升,而SVR模型在MAE和MAPE指標(biāo)上面出現(xiàn)了不同的下降。KNN、DT、RF三種模型的預(yù)測(cè)指標(biāo)總體來說不如持續(xù)性預(yù)測(cè)法,僅RF模型在使用多特征預(yù)測(cè)2018年12月份有效波高時(shí)優(yōu)于持續(xù)性預(yù)測(cè)法。通過比較模型在使用單特征和多特征時(shí)的預(yù)測(cè)結(jié)果可以看到,LR、SVR、ANN、RF四種模型使用多特征作為模型輸入后都能減少模型的預(yù)測(cè)誤差。在6月、9月、12月的有效波高預(yù)測(cè)中,所有模型對(duì)于6月的預(yù)測(cè)誤差最低。其中ANN模型在使用多特征預(yù)測(cè)2018年6月有效波高時(shí)的MAE、RMSE分別僅為0.0433 m和0.0647 m。
表4 LR、SVR、ANN、KNN、DT、RF六種模型提前一小時(shí)有效波高預(yù)測(cè)結(jié)果及其相對(duì)提升-2018年6月、9月、12月
日平均有效波高同樣也是海浪參數(shù)的一種重要表現(xiàn)形式,因此這部分實(shí)驗(yàn)研究了機(jī)器學(xué)習(xí)模型在日平均有效波高上的預(yù)測(cè)性能。相比每小時(shí)有效波高,日平均有效波高的時(shí)間分辨率變成了一天,因此其預(yù)測(cè)難度更大。并且從上一部分的實(shí)驗(yàn)可以看到使用多特征通常會(huì)提高模型預(yù)測(cè)準(zhǔn)確率。為了降低日平均有效波高的預(yù)測(cè)誤差,這部分實(shí)驗(yàn)都采用多特征來預(yù)測(cè)日平均有效波高。對(duì)于日平均有效波高的預(yù)測(cè),我們以季節(jié)為單位來評(píng)估各模型的預(yù)測(cè)性能。以2013年到2017年的數(shù)據(jù)作為訓(xùn)練集,2018年春、夏、秋、冬四個(gè)季節(jié)的數(shù)據(jù)作為測(cè)試集。由于原始數(shù)據(jù)的時(shí)間分辨率為小時(shí),因此我們對(duì)每天24小時(shí)的數(shù)據(jù)進(jìn)行平均得到日平均數(shù)據(jù)。以前6天風(fēng)速、有效波高、主導(dǎo)波周期、平均波周期、水溫的日平均數(shù)據(jù)加上前24小時(shí)有效波高作為模型的輸入,以未來一天日平均有效波高作為模型輸出進(jìn)行訓(xùn)練與測(cè)試,主要以三種誤差指標(biāo)及其相對(duì)提升百分比作為評(píng)判標(biāo)準(zhǔn)。
通過實(shí)驗(yàn)得到模型在2018年春、夏、秋、冬的預(yù)測(cè)結(jié)果如表5所示??梢钥吹絊VR、ANN、RF三種模型的表現(xiàn)較好,LR和DT兩組模型表現(xiàn)一般,KNN模型仍然表現(xiàn)最差。在預(yù)測(cè)2018年夏季日平均有效波高時(shí),SVR的MAE、MAPE、RMSE的三種指標(biāo)最好,分別是0.1770、0.2620、0.2862 m。在預(yù)測(cè)2018年秋季日平均有效波高時(shí),ANN的MAE、MAPE、RMSE的三種指標(biāo)最好,分別是0.1340、0.1959、0.2184 m。從各模型相對(duì)于持續(xù)性預(yù)測(cè)法在各個(gè)指標(biāo)的提升上來看,ANN在三種指標(biāo)上面都獲得了穩(wěn)定的提升。而SVR和RF模型的MAPE指標(biāo)在秋季都出現(xiàn)了下降,分別下降了3.02%和14.64%。從各模型在四個(gè)季節(jié)的預(yù)測(cè)結(jié)果來看,模型在春、冬兩季的預(yù)測(cè)結(jié)果明顯差于夏、秋兩季的預(yù)測(cè)結(jié)果。但在各模型在春、冬兩季的相對(duì)提升百分比要遠(yuǎn)大于夏、秋兩季。可以看到,在春季和冬季時(shí)KNN、DT、RF三種模型都好于持續(xù)性預(yù)測(cè)法。圖4展示了六種模型在2018年春季的日平均有效波高預(yù)測(cè)值與真實(shí)值曲線,可以看到除KNN外的五種模型基本都把握住了日平均有效波高的變化趨勢(shì)。在日平均有效波高較大的時(shí)刻,LR和SVR模型給出了一個(gè)較大的預(yù)測(cè)值,而ANN和DT模型則是給出了一個(gè)較為保守的預(yù)測(cè)值。
圖4 六種模型在2018年春季的日平均有效波高觀測(cè)值與預(yù)測(cè)值曲線圖
表5 LR、SVR、ANN、KNN、DT、RF六種模型提前一天日平均有效波高預(yù)測(cè)結(jié)果及其相對(duì)提升-2018年春、夏、秋、冬
在海洋中,日最大有效波高與人員安全,設(shè)備可靠性緊密相關(guān)。因此這部分實(shí)驗(yàn)研究了機(jī)器學(xué)習(xí)模型在日平均有效波高上的預(yù)測(cè)性能。與日平均有效波高相比,日最大有效波高屬于極端值,其預(yù)測(cè)難度更大。對(duì)于日最大有效波高的預(yù)測(cè),我們同樣以季節(jié)為單位來評(píng)估各模型的預(yù)測(cè)性能。以2013年到2017年的數(shù)據(jù)作為訓(xùn)練集,2018年春、夏、秋、冬四個(gè)季節(jié)的數(shù)據(jù)作為測(cè)試集。以前6天風(fēng)速、有效波高、主導(dǎo)波周期、平均波周期、水溫的日最大值加上前24小時(shí)有效波高作為模型的輸入,以未來一天日最大有效波高作為模型輸出進(jìn)行訓(xùn)練與測(cè)試。表6列出了模型的日最大有效波高預(yù)測(cè)性能,可以明顯的看到,ANN模型的預(yù)測(cè)性能最好,SVR和RF兩種模型表現(xiàn)一般,LR、DT、KNN三種模型表現(xiàn)較差。并且季節(jié)對(duì)模型預(yù)測(cè)能力的影響仍然存在,在夏季和秋季模型的預(yù)測(cè)誤差都比春季和冬季低。這是因?yàn)樵诖杭竞投居行Рǜ呦鄬?duì)較大且變化更為劇烈,在這種情況下模型很難學(xué)習(xí)到一個(gè)普遍適用于所有時(shí)刻的規(guī)律。在預(yù)測(cè)2018年秋季日最大有效波高時(shí),ANN模型的MAE和MAPE指標(biāo)最低,僅為0.1973 m和0.2117 m;RF模型RMSE指標(biāo)最低,僅為0.3302 m。從相對(duì)提升指標(biāo)來看,ANN和SVR模型能夠獲得穩(wěn)定的提升,而KNN和LR模型則在多個(gè)指標(biāo)上出現(xiàn)了下降。圖5展示了六種模型在2018年春季的日最大有效波高預(yù)測(cè)值與真實(shí)值曲線,可以看到KNN和DT兩種模型的預(yù)測(cè)值和真實(shí)值曲線偏離較大。相比之下SVR、ANN、RF模型基本能夠預(yù)測(cè)到日最大有效波高的變化趨勢(shì)。
圖5 六種模型在2018年春季的日最大有效波高觀測(cè)值與預(yù)測(cè)值曲線圖
表6 LR、SVR、ANN、KNN、DT、RF六種模型提前一天日平均有效波高預(yù)測(cè)結(jié)果及其相對(duì)提升-2018年春、夏、秋、冬
作為海浪的關(guān)鍵參數(shù),有效波高在波浪能利用,海事活動(dòng)規(guī)劃,海洋探索等方面扮演著重要角色。準(zhǔn)確的有效波高不僅可以促進(jìn)波浪能的有效利用,還能為海洋活動(dòng)提供重要的氣象參考依據(jù)。本文研究了LR、SVR、ANN、KNN、DT、RF六種機(jī)器學(xué)習(xí)模型對(duì)于有效波高的預(yù)測(cè)表現(xiàn),實(shí)驗(yàn)分為提前一小時(shí)有效波高預(yù)測(cè)、提前一天日平均有效波高預(yù)測(cè)和提前一天日最大有效波高預(yù)測(cè)三部分。從實(shí)驗(yàn)結(jié)果來看:
(1) 在預(yù)測(cè)未來一小時(shí)有效波高時(shí),LR、SVR、ANN三種模型都能取得較好的預(yù)測(cè)指標(biāo),相對(duì)于持續(xù)性預(yù)測(cè)法基本都能取得明顯提升,其中ANN的四種預(yù)測(cè)指標(biāo)普遍是最優(yōu)的。而KNN、DT、RF三種模型的表現(xiàn)較差,甚至不如持續(xù)性預(yù)測(cè)法,其中KNN表現(xiàn)極差。在使用多特征后,除KNN和DT外的四種模型都能取得明顯的提升。
(2) 在預(yù)測(cè)未來一天日平均有效波高時(shí),SVR、ANN、RF三種模型表現(xiàn)較好且差距不明顯。在夏季時(shí)SVR模型的各項(xiàng)指標(biāo)是最優(yōu)的,在秋季時(shí)ANN的各項(xiàng)指標(biāo)是優(yōu)的,在冬季時(shí)RF模型的MAE和RMSE指標(biāo)最好。相比之下,KNN模型表現(xiàn)仍然最差,預(yù)測(cè)值與觀測(cè)值存在較大偏差。在預(yù)測(cè)未來一天日最大有效波高時(shí),ANN模型在大多數(shù)時(shí)候都取得了最優(yōu)的預(yù)測(cè)指標(biāo),SVR和RF次之,LR、KNN、DT三種模型表現(xiàn)較差。并且SVR和ANN模型相對(duì)于持續(xù)性預(yù)測(cè)法都有著穩(wěn)定的提升,而RF模型僅在春冬兩季提升比較明顯。
(3) 在時(shí)間耗費(fèi)上,LR和KNN兩中模型由于其結(jié)構(gòu)簡(jiǎn)單訓(xùn)練速度極快,都低于0.1 s。而ANN作為一個(gè)相對(duì)復(fù)雜的模型,其訓(xùn)練時(shí)間最長(zhǎng),達(dá)到了幾十秒。在輸入維度增加時(shí),SVR的訓(xùn)練時(shí)間會(huì)急速增加,而其余模型的訓(xùn)練時(shí)間增長(zhǎng)平緩。
(4) 從所有實(shí)驗(yàn)來看,在春冬兩季模型的預(yù)測(cè)誤差都大于夏秋兩季,但相對(duì)于持續(xù)性預(yù)測(cè)法的提升在春冬兩季更為明顯。并且在所有實(shí)驗(yàn)中,多DT集成的RF模型明顯優(yōu)于單一的DT模型。在三種預(yù)測(cè)任務(wù)中,未來一小時(shí)有效波高預(yù)測(cè)誤差最低,未來一天日最大有效波高預(yù)測(cè)誤差最大。
綜上,在預(yù)測(cè)未來一小時(shí)有效波高時(shí),LR和SVR訓(xùn)練速度快且結(jié)果較好,ANN則擁有稍好的預(yù)測(cè)準(zhǔn)確率。在日平均有效波高預(yù)測(cè)中SVR、ANN、RF都能提供相對(duì)可靠的穩(wěn)定結(jié)果,其中RF速度最快。在日最大有效波高預(yù)測(cè)時(shí),ANN總是優(yōu)于 SVR、RF,但三種模型差距不大。總體來看,ANN是最穩(wěn)定的模型,通常都能獲得最優(yōu)的預(yù)測(cè)指標(biāo),而KNN和DT都不是最優(yōu)的選擇。因此在以后基于機(jī)器學(xué)習(xí)的有效波高預(yù)測(cè)中,模型的選擇起著至關(guān)重要的作用。在本文實(shí)驗(yàn)中,模型輸入都只選用了單點(diǎn)氣象數(shù)據(jù),而沒有考慮目標(biāo)點(diǎn)周圍的影響,考慮空間相關(guān)性的有效波高預(yù)測(cè)將是接下的一個(gè)重要研究方向。多模型集成的方式可以在一定程度上提高有效波高預(yù)測(cè)的精準(zhǔn)度。另外本文研究的都是單模型的預(yù)測(cè)性能,要想提升模型預(yù)測(cè)有效波高的精準(zhǔn)度可以結(jié)合一些其他技術(shù),例如促進(jìn)參數(shù)尋優(yōu)的遺傳算法、粒子群算法等;分解原始有效波高序列的小波變換、經(jīng)驗(yàn)?zāi)B(tài)分解等。