國電電力廣西風電開發(fā)有限公司 楊旺春 莫浩鳴
風電作為一種清潔、可再生的能源,在全球范圍內受到廣泛關注和應用。然而,風速和風向的不確定性是風電場運行穩(wěn)定和發(fā)電效率提高的重要挑戰(zhàn)。一方面風的隨機性和波動性限制了機組的發(fā)電穩(wěn)定性,這對電力上網(wǎng)調頻和調度產生了較大的影響;另一方面,對風速的準確感知和把握是風電機組最大化利用風能的關鍵。準確預測風速對于提高風力發(fā)電行業(yè)的可靠性、安全性和經濟性具有至關重要的意義。
隨著氣象學、統(tǒng)計學和機器學習等領域的快速發(fā)展,風速預測技術得到了顯著提高。目前,在風速預測領域已經有較多成熟技術,從預測的時間尺寸來看,可以分為超短期、短期預測、中期預測以及長期預測等,主要使用包括物理方法、統(tǒng)計方法、神經網(wǎng)絡方法以及混合方法[1]。其中,物理方法主要通過建立準確的數(shù)值氣候預報模型(Numerical Weather Prediction,NWP),需要考慮到風電場風機的位置分布、氣象等物理因素,對計算性能要求較高,且難以短時間輸出結果,不利于預測短期風能變化。而基于統(tǒng)計方法的預測則,需要大量的時序數(shù)據(jù)來保障模型擬合的準確性,對短期序列預測效果較好,但風數(shù)據(jù)的非線性、非平穩(wěn)性常導致建立的統(tǒng)計模型準確性不高。
近年來,基于深度學習的預測方法成為風速預測的研究熱點,通過構建多層神經網(wǎng)絡來自動學習輸入數(shù)據(jù)之間的復雜非線性關系,能夠更好地處理非線性和非平穩(wěn)的時空信號,也被廣泛地運用到風速序列的各個時間尺寸和區(qū)間上的預測[2],取得了較好的效果??紤]到風速數(shù)據(jù)的在時間上具有長期依賴關系,為進一步提高預測精度,本文建立一種BiLSTM-LightGBM混合預測模型,應用BiLSTM神經網(wǎng)絡深入挖掘兩個指標間的關聯(lián),提取時間序列特征,再使用LightGBM進行預測輸出,并結合風場實測數(shù)據(jù)驗證模型的有效性。
LSTM(Long short memory)作為RNN網(wǎng)絡的一種變體,通過增加遺忘門、記憶門等結構,使模型能有效避免因序列過長導致的梯度消失或梯度爆炸,自主學習長序列在時間上的依賴。LSTM層前向傳播的過程如下[3]。
首先通過輸入門控制輸入信息的添加:it=σ(WxiXt+Whiht-1+bi),其中:it表示當前時刻的輸入門值,Wxi、Whi和bi分別表示輸入層到輸入門、隱藏層到輸入門的權重和偏置,Xt表示當前時刻的輸入特征,ht-1表示上一個時刻的隱藏狀態(tài)。再由遺忘門決定哪些信息需要從細胞狀態(tài)中保留或遺忘:ft=σ(WxfXt+Whfht-1+bf),經由更新門的輸入來更新細胞狀態(tài):得到最終細胞狀態(tài)(Cell State)更新:,其中,表示元素級別的乘法操作,Ct表示當前時刻的細胞狀態(tài)。輸出門(Output Gate)輸出:ot=σ(Wx0Xt+Wh0ht-1+b0),隱藏狀態(tài)(Hidden State)更新:根據(jù)細胞狀態(tài)和輸出門進行更新,得到新的隱藏狀態(tài)用于下一時刻的計算:其中,ht表示當前時刻的隱藏狀態(tài)。
通過這些門控單元的組合和更新,LSTM模型可以更好地處理長期依賴關系,并具有較強的記憶能力。但單向的LSTM往往只能考慮到前文序列數(shù)據(jù)對現(xiàn)有數(shù)據(jù)的影響,對后文的學習卻無法反饋到前文進行判斷,即無法做到聯(lián)系上下文進行綜合學習。為此,研究者基于LSTM進行改進,在前向LSTM層的基礎上,增加一層后向傳播LSTM層,構建雙向長短期記憶神經網(wǎng)絡(Bi-direction Long short memory,BiLSTM),使模型可以同時考慮上下文信息。如圖1所示,網(wǎng)絡能實現(xiàn)對序列x1,x2,…,xn通過同時考慮數(shù)據(jù)的前向和反向信息來進行序列建模,在xi處將返回對該節(jié)點處兩層LSTM隱藏層更新狀態(tài)進行拼接[hi,h`n-1],用于后續(xù)預測結果的輸出。
圖1 BiLSTM網(wǎng)絡訓練圖
圖2 BiLSTM-LightGBM模型流程
LightGBM是一種為優(yōu)化模型訓練時效性和擴展性而開發(fā)的梯度提升決策樹算法(Gradient Boosting Decision Tree,GBDT)。其與XGBoost模型類似,都具有高效的并行運算性能,且因面對大量樣本數(shù)據(jù)具有更快的訓練速度、更低的內存使用等特點,頻繁出現(xiàn)在各類賽事與科研活動中。而其優(yōu)異的表現(xiàn)主要來自兩種策略.
基于梯度的單邊采樣(GOSS)。LightGBM采用對小梯度樣本的單邊采樣策略(Gradient-based One-Side Sampling,GOSS),能通過計算梯度對樣本篩選。通過節(jié)點分裂保留具有更大增益效果的大梯度樣本,并篩選掉容易犯錯誤的小梯度樣本,降低低質量樣本的比重,提高模型訓練速度與訓練質量;互斥特征捆綁(EFB)。LightGBM利用稀疏性對特征進行無損合并,通過貪婪算法不斷迭代組合特征,選出最佳特征組合。使用互斥特征捆綁(Exclusive Feature Bundling,EFB)策略,將高度相關的特征進行合并,有效地降低了原始特征的維度,保留最具有區(qū)分度的特征組合,幫助模型提高泛化能力與可解釋性。
風速數(shù)據(jù)通常具有非線性、非平穩(wěn)性和隨機性。對于小型風場而言,顧及復雜的氣象系統(tǒng)、地形和地理條件,各種氣象數(shù)據(jù)的采集和精準物理模型的建立不僅困難,計算成本也高昂。本文通過挖掘風速數(shù)據(jù)在時間跨度上的相互聯(lián)系,基于數(shù)據(jù)驅動的深度學習方法建立一種BiLSTM-LightGBM風速混合預測模型。
模型主要由一個三層BiLSTM神經網(wǎng)絡特征提取模塊和LightGBM預測模塊組成,模型訓練的步驟如下。數(shù)據(jù)預處理。受風場環(huán)境惡劣、系統(tǒng)故障等因素影響,系統(tǒng)采集到的數(shù)據(jù)中可能出現(xiàn)部分缺失。針對這部分缺失數(shù)據(jù),選擇對間隔不超過10min的數(shù)據(jù)進行前后均值填充,以在一定程度上保持數(shù)據(jù)的趨勢和變化;對超過10min間隔的數(shù)據(jù)進行分割處理,劃分為不同時間段,以保證數(shù)據(jù)的完整性和連續(xù)性。對處理后的數(shù)據(jù)歸一化后,用于下一步模型的構建和研究。
BiLSTM模型訓練。將處理好的數(shù)據(jù)帶入BiLSTM模型中。數(shù)據(jù)首先經過一個帶有8個隱藏單元的雙向LSTM層,再通過堆疊的兩個帶有16個隱藏單元的雙向LSTM層,用于捕捉輸入序列中的正向和反向信息。然后將前述層中正向和反向信息沿特征軸使用Concatenate層進行連接組合,輸入一個具有64個隱藏單元的雙向LSTM層,進一步捕獲前后序列信息。此時得到的輸出即可作為提取風速數(shù)據(jù)前后序列的深層特征,再依次通過Flatten層,全連接層、Dropout層輸出該模型的預測結果。通過迭代訓練得到擬合效果最優(yōu)模型。
特征提取。對BiLSTM的預測結果進行分析,發(fā)現(xiàn)模型的擬合表現(xiàn)較好,但仍有部分時間預測值與實際值相比波動較大,可能是受數(shù)據(jù)中噪聲或者風速本身波動過大的影響。為解決該問題,考慮將BiLSTM模型提取的風速序列深層特征,送入噪聲魯棒性高的LightGBM模型進行最終預測。通過評價表現(xiàn)最優(yōu)的BiLSTM模型提取深層特征,用于下一步Light-GBM模型訓練。
LightGBM模型訓練與預測。將BiLSTM模型提取的深層特征輸入LightGBM模型進行訓練,通過調整學習率、樹的深度等參數(shù)配置,選擇效果最優(yōu)的模型進行預測。在整個模型中,BiLSTM層能夠有效地捕捉長距離依賴關系以對序列數(shù)據(jù)進行建模,使用兩層LSTM網(wǎng)絡進行雙向連接,可以訪問過去和未來的信息。而LightGBM能夠很好地降低噪聲數(shù)據(jù)或者數(shù)據(jù)波動過大的影響。通過這種組合策略,極大地改善了模型的預測準確性和穩(wěn)定性。
使用均方誤差(MSE),平均絕對誤差(MAE),平均絕對百分比誤差(MAPE)三個指標對模型預測效果進行評價,公式如下:其中:n表示樣本數(shù)量,yi表示真實值,表示預測值。
本文試驗使用從山東某風場SCADA系統(tǒng)中提取的w001號風機的裝載測風儀實測數(shù)據(jù)集。該數(shù)據(jù)集包含了風機所在位置從2022年6月到2023年7月期間的風速分鐘級采樣數(shù)據(jù)。本文使用Windows 11操作系統(tǒng),CPU采用Intel Core i7-12700H處理器,顯卡為NVIDIA RTX 3060,顯卡驅動版本為NVIDIA-SMI 528.33,內存大小為DDR3 64 GB,開發(fā)環(huán)境使用TensorFlow 2.10.0,并使用PyCharm作為開發(fā)工具。
將預處理好的數(shù)據(jù)帶入BiLSTM網(wǎng)絡模型進行訓練。初步設置模型學習率為0.0001,選擇MSE(Mean Squre Error)作為損失函數(shù),采用Adam優(yōu)化器對模型訓練參數(shù)優(yōu)化。并結合模型檢查點(ModelCheckpoint),提前停止(Early Stopping),學習率衰減(ReduceLROnPlateau)等回調函數(shù),對驗證集得分最高的模型權重進行保存,設置訓練在驗證集上連續(xù)15次損失沒有改善,或者連續(xù)5個epoch的損失未降低,則學習率減半,以控制模型的自主優(yōu)化,減少模型訓練時長。初步設置總時間滑動窗口大小為1000,滑動步長可選擇為50,10,進行單步預測。最終保存最優(yōu)的模型權重,預測效果如圖3所示。
圖3 BiLSTM 50,10步長預測效果
從預測效果來看,受到數(shù)據(jù)缺失和風速數(shù)據(jù)本身非平穩(wěn)性、隨機性的影響,BiLSTM模型對部分數(shù)據(jù)的擬合仍存在較大的波動,模型擬合精度有待進一步提升。但從總體效果來看,滑動步長為50的預測結果波動相對較小,效果更優(yōu),所以選擇50步長的模型來提取風速的深層特征。
將BiLSTM模型提取得到的特征數(shù)據(jù)帶入LightGBM模型中進行訓練,訓練結果如圖4所示,可以直觀地觀察到,利用BiLSTM提取的深層特征進行訓練后,LightGBM模型可以精準地預測風速變化趨勢,說明LightGBM充分地學習了深層特征中包含的風速序列信息。
圖4 BiLSTM-LightGBM混合預測效果
同時對比原模型在MAE、MAPE、MSE這些指標上的結果,由表1發(fā)現(xiàn),LightGBM作為單模型訓練時誤差要高于BiLSTM,而且通過繪制BiLSTM預測效果圖,也發(fā)現(xiàn)預測數(shù)據(jù)值離風速實際值差異較大。但結合BiLSTM進行混合預測后,三項指標均有大幅度的優(yōu)化,MSE指標降低了約81.9%,MAE下降了約59.8%,MAPE下降了約52.4%,說明通過BiLSTM模型能有效提取出風速數(shù)據(jù)中深層特征所包含的豐富信息,而LightGBM模型則能夠克服風速本身的非平穩(wěn)性、隨機性,表現(xiàn)出了對噪聲和隨機性的高魯棒性能,最終呈現(xiàn)出對風速數(shù)據(jù)的精準預測,驗證了混合模型的有效性。
表1 訓練模型效果對比
綜上所述,針對風速數(shù)據(jù)具有非線性、隨機性強、時間長期依賴性復雜等特征,本文提出一種基于BiLSTM-LightGBM的混合預測模型,使用BiLSTM模型進行深層特征提取,挖掘高維的風速序列信息,再利用具有強魯棒性的LightGBM進行預測,建立穩(wěn)健性更強、預測速度更快的預測模型。且經過試驗驗證有效性,組合預測模型具有更好的魯棒性和實用性,為實際風速預測任務提供了可靠的解決方案。