肖天云,張子晨,魏佳妹,劉鳳春,韓陽
(1. 華北理工大學(xué) 唐山市工程計算重點實驗室,河北 唐山 063210;2. 華北理工大學(xué) 學(xué)科建設(shè)處,河北 唐山 063210;3. 華北理工大學(xué) 理學(xué)院,河北 唐山 063210)
隨著時代進步與科技發(fā)展,人們的生活水平不斷提高,對保護生態(tài)文明和自然環(huán)境的重要性的認識日益提高。草原作為世界上分布最廣的重要陸地植被類型之一,在維護生物多樣性、涵養(yǎng)水土、凈化空氣、固碳、調(diào)節(jié)水土流失和沙塵暴等方面具有重要的生態(tài)功能。中國的草原面積約為3.55億 hm2,是世界草原總面積的6%~8%,居世界第二。草原作為自然環(huán)境的重要組成部分,其沙漠化和板結(jié)化現(xiàn)象所造成的土壤干旱化、鹽漬化和水土流失等情況,對維護生態(tài)平衡與多樣性產(chǎn)生嚴重影響。在現(xiàn)實情況中,常將土壤濕度作為草原沙漠化和板結(jié)化程度判定的重要指標,因此,對草原環(huán)境的土壤濕度進行回歸分析以及預(yù)測,對保護和改善草原生態(tài)環(huán)境有著重大意義[1]。該項研究選取錫林郭勒草原作為研究對象,對氣象條件、植被系數(shù)和土壤濕度數(shù)據(jù)集進行預(yù)處理,對數(shù)據(jù)進行缺失值處理、重復(fù)值處理以及使用主成分分析(PCA)方法進行數(shù)據(jù)降維。
該項研究選取長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)構(gòu)建土壤濕度的預(yù)測模型,長短期記憶網(wǎng)絡(luò)基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)所提出,廣泛應(yīng)用在時間序列類型數(shù)據(jù)的回歸分析和預(yù)測上[2]。目前,國內(nèi)外對LSTM模型的研究與運用處在前中期階段,LSTM模型還具有很大的發(fā)展空間和龐大的應(yīng)用場景,應(yīng)用LSTM模型解決實際問題對其發(fā)展有著十分重要的影響[3]。為了證明LSTM模型的可行性和分析結(jié)果的直觀性,分別選取嶺回歸(Ridge Regression,RR)算法、支持向量機(Support Vector Machine,SVM)算法、梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)算法[4]作為對比實驗。對訓(xùn)練后的模型進行評估和測試,選取平均絕對誤差(MAE)、均方根誤差(RMSE)、平均絕對百分比誤差(MAPE)、差異解釋得分(EV)和判定系數(shù)(R2)對各個算法模型的應(yīng)用效果進行比較。
LSTM模型內(nèi)部有著眾多超參數(shù)及參數(shù)空間,超參數(shù)的選取和模型優(yōu)化過程是LSTM算法構(gòu)建回歸模型中的重要一環(huán),直接影響模型實際效果和預(yù)測結(jié)果,因此需要選取合適的參數(shù)優(yōu)化算法對LSTM模型進行改進。該項研究選取貝葉斯優(yōu)化算法(Bayesian Optimization Algorithm,BOA)進行超參數(shù)調(diào)優(yōu),BOA是一種基于貝葉斯定理來尋找目標函數(shù)極值的方法,在迭代過程中,根據(jù)之前觀測到的歷史數(shù)據(jù)進行下一次優(yōu)化,直到達到最大的迭代次數(shù)。相比于網(wǎng)格搜索和隨機搜索等優(yōu)化算法,BOA的迭代次數(shù)較少并且迭代過程中會考慮之前的參數(shù)信息,效率有著較大提升,同時在非凸問題下仍具有穩(wěn)健性。BOA通過多次迭代計算得到一組或者多組超參數(shù),回帶到LSTM模型中后與調(diào)參前的LSTM模型算法進行對比實驗,比較得到BOA對LSTM模型效果的提升情況。最后根據(jù)錫林郭勒草原的歷史數(shù)據(jù),運用BOA優(yōu)化后的LSTM模型,對未來的土壤濕度情況完成預(yù)測。
隨著深度學(xué)習(xí)和人工智能的發(fā)展,對神經(jīng)網(wǎng)絡(luò)的研究日益加深,如今已經(jīng)設(shè)計出循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、深度神經(jīng)網(wǎng)絡(luò)(DNN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、生成對抗網(wǎng)絡(luò)(GAN)等不同神經(jīng)網(wǎng)絡(luò)類別,長短期記憶網(wǎng)絡(luò)(LSTM)則屬于其中的RNN類型。滿足按照時間順序、邏輯順序或者其他順序排布的數(shù)據(jù)稱作序列類型,例如股票價格是按照時間的推移而變化,自然語言的表達需要依靠字詞按照邏輯順序排布。RNN的特點為輸入是序列類型的數(shù)據(jù),并在序列的前進方向進行循環(huán)遞歸,RNN的內(nèi)部結(jié)構(gòu)如圖1所示,其中X、S、O分別為輸入層、隱藏層和輸出層的值,U、V、M為權(quán)重矩陣[5]。
圖1 RNN結(jié)構(gòu)模型
RNN模型中隱藏層的值St不只取決于當前時刻輸入層值Xt的大小,還取決于上個時刻的隱藏值St-1的大小。以下為RNN的計算公式,其中f、g為激活函數(shù),b、c是偏差變量。
St=f(UXt+WSt-1+b)
(1)
Ot=g(VSt+c)
(2)
RNN模型中的每層隱藏單元只執(zhí)行一個簡單的tanh或者Relu操作,激活函數(shù)tanh的取值范圍是(-1,1),控制RNN模型記住信息多少或忘記信息多少。而在傳統(tǒng)RNN中,如果模型層次太深會造成梯度消失或者梯度爆炸情況的產(chǎn)生,當最后時刻的梯度大小幾乎為0或非常大的時候,啟用激活函數(shù)Relu將梯度置于0或者1。但是這種方法會使得RNN中較遠時間外的梯度消失了,從而無法進行長期依賴。
對傳統(tǒng)RNN模型進行改進后得到的LSTM模型,由當前時刻的輸入Xt、細胞狀態(tài)Ct、隱層狀態(tài)ht、遺忘門、記憶門和輸出門組成,其內(nèi)部結(jié)構(gòu)如圖2所示。LSTM模型可以總結(jié)為,對細胞狀態(tài)Ct的信息進行遺忘和記憶新的信息,對后續(xù)時刻的計算舍棄無效信息,傳遞有效信息,并在每個時間步長時輸出隱層狀態(tài)ht,遺忘、記憶和輸出的信息由通過上個時刻的隱層狀態(tài)ht-1和當前輸入的Xt計算出來的遺忘門、記憶門和輸出門控制。通過更新記憶細胞和遺忘門控制記憶或遺忘信息,使得當前記憶單元對上一個記憶單元的偏導(dǎo)數(shù)為常數(shù),能夠很好地解決無法長期依賴的問題。
圖2 LSTM結(jié)構(gòu)模型
機器學(xué)習(xí)算法在構(gòu)建回歸模型或分類模型的時候,需要考慮對其超參數(shù)進行優(yōu)化以提高模型的精度。常見的超參數(shù)優(yōu)化方法例如網(wǎng)格搜索法、隨機搜索法、窮舉搜索法,實際效果并不理想,無法同時保證搜索效率和模型精度達到預(yù)計情況。在非凸問題下,隨機搜索法和網(wǎng)格搜索法常面臨著搜索到的超參數(shù)只是局部最優(yōu)的情況。為避免以上情況的發(fā)生,選取貝葉斯優(yōu)化算法(BOA)作為全局優(yōu)化算法,對該研究的LSTM模型進行超參數(shù)搜索。
貝葉斯優(yōu)化算法(BOA),主要針對目標函數(shù)未知或者計算目標函數(shù)的時間成本過大的情況,只需確定輸入和輸出,無需知道算法結(jié)構(gòu)內(nèi)幕模型和數(shù)學(xué)性質(zhì)的黑盒優(yōu)化問題,如圖3所示為黑盒優(yōu)化模型[6]。
圖3 黑盒優(yōu)化模型
相比于網(wǎng)格搜索法、隨機搜索法,基于貝葉斯定理構(gòu)建的BOA在尋找目標函數(shù)最大值或最小值的時候,每次迭代過程中都會根據(jù)之前的搜索結(jié)果來進行下一次搜索,而不是在搜索區(qū)間內(nèi)進行窮舉運算,對每種超參數(shù)組合進行計算與比較對應(yīng)的目標函數(shù)結(jié)果。這種方法大大提升了搜索效率,且避免了局部最優(yōu)情況的發(fā)生,以下為貝葉斯定理的公式形式[7]。
(3)
貝葉斯優(yōu)化算法經(jīng)過多次迭代,根據(jù)先驗函數(shù)與采集函數(shù)搜索最佳的超參數(shù)組合,貝葉斯優(yōu)化的流程如圖4所示。
圖4 貝葉斯優(yōu)化算法的流程圖
貝葉斯的優(yōu)化步驟大概分為以下幾步:
(1)最大化采集函數(shù),得到下個輸入點;
(2)計算目標函數(shù)值;
(3)整合數(shù)據(jù)并且更新先驗函數(shù)與觀測模型;
(4)重復(fù)上述步驟至迭代完全結(jié)束。
對于超參數(shù)調(diào)優(yōu)過程來說,選取LSTM模型的units、epochs、batch_size和validation_split參數(shù)作為超參數(shù)搜索對象,選取均方誤差作為目標函數(shù),通過多次迭代計算得到的最優(yōu)結(jié)果如表1所示。
表1 BOA對于LSTM模型確定的超參數(shù)空間
該項目選擇錫林郭勒草原作為研究對象,通過閱讀文獻和查閱統(tǒng)計年鑒,收集2012~2021年內(nèi)的氣候數(shù)據(jù)以及土壤濕度數(shù)據(jù)作為原始數(shù)據(jù)。選取嶺回歸(RR)算法、支持向量機(SVM)算法、梯度提升決策樹(GBDT)算法進行對比實驗,選用平均絕對誤差(MAE)、均方根誤差(RMSE)、平均絕對百分比誤差(MAPE)、差異解釋得分(EV)和判定系數(shù)(R2)作為評價指標分析各個模型之間效果差異[8]。
研究所收集到的數(shù)據(jù)集中包含土壤蒸發(fā)量、植被系數(shù)、徑流量、平均氣溫等15種特征,由于歷史原因,需要對數(shù)據(jù)集進行重復(fù)值處理、異常值處理和缺失值處理的操作,提高數(shù)據(jù)的可信度和真實性。
在獲取數(shù)據(jù)的過程中,可能出現(xiàn)收集到重復(fù)數(shù)據(jù)的情況,重復(fù)數(shù)據(jù)的存在會使回歸模型的預(yù)測結(jié)果出現(xiàn)偏差。因此,使用Python軟件中的duplicate函數(shù)對數(shù)據(jù)進行判定,若不同樣本之間的特征值全部相同,則判定樣本為重復(fù)樣本并將其刪除。
由于缺失值的存在會對回歸模型的構(gòu)建產(chǎn)生影響,顯著降低模型預(yù)測的準確程度,應(yīng)對數(shù)據(jù)集中的缺失值進行相關(guān)處理。該研究對缺失值的處理方法主要包括以下幾種:
(1)均值插補:用該類數(shù)據(jù)的均值替換缺失值。
(2)直接刪除:對于樣本數(shù)量較多的數(shù)據(jù)集,對其中的部分缺失值采用直接刪除的方法進行處理。
由于數(shù)據(jù)集中各個特征的單位和數(shù)量級并不相同,為了構(gòu)建回歸模型,需要將各個特征數(shù)據(jù)進行標準化。該項研究采用Min-Max標準化的方法,對原始數(shù)據(jù)進行線性變化,映射到[0,1]區(qū)間上,便于回歸模型的建立與分析。Min-Max標準化可用公式(4)表達:
(4)
該項研究使用主成分分析(PCA)方法對原始數(shù)據(jù)進行降維處理,將數(shù)據(jù)集中的15維特征降至10維。通過PCA降維方法,最大程度保留了大部分信息,消除了原始數(shù)據(jù)之間相互影響的因素。以下為PCA降維的主要步驟:
(1)輸入原始數(shù)據(jù)到PCA降維模型中;
(2)通過線性變化將數(shù)據(jù)集映射到新的坐標系;
(3)計算各成分的方差,按照方差大小選取最大的前10項。
選用平均絕對誤差(MAE)、均方根誤差(RMSE)、平均絕對百分比誤差(MAPE)、差異解釋得分(EV)和判定系數(shù)(R2)作為評價指標估計各個模型的性能。評價指標的計算公式表示為:
(5)
(6)
(7)
(8)
(9)
MAE是指模型預(yù)測值f(x)與真實值y之間絕對誤差的平均值,能夠直觀的展示出模型預(yù)測的準確程度,其值越大,模型預(yù)測的誤差越大;RMSE是指預(yù)測值與真實值的平方誤差和樣本數(shù)量n之間的平方根,對異常值更為敏感,能夠更好地說明模型預(yù)測的誤差大小;MAPE常用于衡量模型的預(yù)測準確性,MAPE的值越小,說明模型擁有更好的精確度;EV常用于判斷模型偏差程度,當預(yù)測值與真實值相同時,EV等于1,當EV越小時,模型的預(yù)測偏差越大;判定系數(shù)又稱擬合優(yōu)度、絕對系數(shù),當R2越接近1的時候,該模型的擬合程度越高。
將經(jīng)過預(yù)處理后得到的數(shù)據(jù)輸入到算法模型中,構(gòu)建回歸分析模型對歷史數(shù)據(jù)進行擬合,如圖5所示分別為RR、SVM、GBDT和LSTM算法模型的擬合效果圖。
圖5 歷史土壤濕度數(shù)據(jù)擬合效果對比
通過圖5分析得到,嶺回歸模型的擬合效果較差,擬合數(shù)據(jù)在某些時刻產(chǎn)生較大的波動,LSTM模型和GBDT模型的擬合效果較為良好,擬合程度較高[9]。為了進一步得到模型效果的具體數(shù)據(jù),采用統(tǒng)計指標MAE、RMSE、MAPE、EV和R2對擬合效果進行評估分析,表2為不同算法模型的指標分析結(jié)果。
表2 模型統(tǒng)計指標結(jié)果分析
通過分析表2得到,RR和SVM模型的效果較差,而GBDT和LSTM模型由于在訓(xùn)練模型的過程中會對誤差進行多次迭代,因此模型的擬合程度較高[10]。以上算法中LSTM模型的效果最為優(yōu)異。
對算法進行超參數(shù)調(diào)優(yōu)能夠大大提升模型的性能與效果[11],因此選用貝葉斯優(yōu)化算法對LSTM模型進行超參數(shù)優(yōu)化,構(gòu)建BOA-LSTM回歸分析模型與LSTM模型進行對比實驗,其中擬合效果如圖6所示,算法模型效果對比如圖7所示。
圖6 BOA-LSTM模型與LSTM模型的擬合數(shù)據(jù)對比
由圖6可以得到,經(jīng)過貝葉斯優(yōu)化后的LSTM模型的擬合效果得到明顯提升,從圖上可以看出BOA-LSTM已經(jīng)有著相當優(yōu)異的擬合結(jié)果。
圖7 BOA-LSTM模型與LSTM模型的統(tǒng)計指標對比
由圖7所得,BOA-LSTM模型的各項指標均優(yōu)于優(yōu)化前的LSTM模型,其中MAPE達到2.3492,MAE達到0.3078,優(yōu)化算法提高了模型效果且擬合誤差有著明顯改善。
由于BOA-LSTM模型的性能優(yōu)于其他對比算法,且適合處理時間序列數(shù)據(jù)和預(yù)測未來數(shù)據(jù),因此導(dǎo)入歷史數(shù)據(jù)構(gòu)建基于BOA-LSTM算法的土壤濕度預(yù)測模型,對錫林郭勒草原上2022、2023年的土壤濕度進行預(yù)測。圖8為BOA-LSTM模型對錫林郭勒草原上的土壤濕度預(yù)測圖,其中實線代表2012至2021年的土壤濕度數(shù)據(jù),虛線代表BOA-LSTM模型預(yù)測的結(jié)果。
圖8 BOA-LSTM模型預(yù)測未來土壤濕度
(1)通過進行對比實驗的方法,比較嶺回歸(RR)、支持向量機(SVM)、梯度提升樹(GBDT)和LSTM模型在錫林郭勒草原土壤濕度數(shù)據(jù)集的回歸分析中的性能,分析得到LSTM模型在平均絕對誤差(MAE)、均方根誤差(RMSE)、平均絕對百分比誤差(MAPE)、差異解釋得分(EV)和判定系數(shù)(R2)統(tǒng)計指標上分別為0.533 6,0.702 7,3.826 9,0.956 1,0.942 2,相比于其他算法平均提高27.03%,19.35%,20.47%,3.39%,5.08%。選取貝葉斯優(yōu)化算法對LSTM模型進行超參數(shù)優(yōu)化,并與優(yōu)化前的模型進行對比,分析得到貝葉斯算法優(yōu)化后的LSTM模型在以上指標上分別為0.356 4,0.602 1,0.967 6,0.979 1,2.211 2,各項指標分別提高33.21%,14.33%,42.25%,2.39%,2.69%。
(2)BOA-LSTM模型效果較好,與錫林郭勒草原土壤濕度數(shù)據(jù)擬合程度高,對預(yù)測錫林郭勒草原土壤濕度數(shù)據(jù)有著一定參考價值。隨著機器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)算法的發(fā)展,研究與應(yīng)用LSTM模型對指導(dǎo)現(xiàn)實發(fā)展有著重要意義,BOA-LSTM模型將會應(yīng)用在更多領(lǐng)域,如癌癥患者數(shù)據(jù)分析、房產(chǎn)價格預(yù)測等。