張惠強,高娟娟*,任曉旭,陶永剛,趙禹茗,黃劍鋒
(1.國電電力內(nèi)蒙古新能源開發(fā)有限公司,呼和浩特 010020;2. 華風數(shù)據(jù)(深圳)有限公司,深圳 518110)
溫度作為機械部件是否正常工作的重要標志,具有較大的研究意義。目前對于風電機組的研究多為小部件研究,缺少對于風電機組機艙環(huán)境的整體研究。機艙內(nèi)部各個機械部件都會對整個機艙溫度變化產(chǎn)生影響。機艙溫度變化是風電機組運行正常與否的一個關(guān)鍵指標。
文獻[1]提出采用非線性狀態(tài)估計(nonlinear state estimation,NSET)技術(shù)結(jié)合反向傳播神經(jīng)網(wǎng)絡(luò) (back propagation neural network,BPNN)模型建立了風電機組發(fā)電機前軸承溫度的預測模型,同時使用模糊綜合評價判斷風電機組的運行狀態(tài);文獻[2]基于數(shù)據(jù)采集與監(jiān)視控制(supervisory control and data acquisition,SCADA)系統(tǒng)獲取數(shù)據(jù)融合稀疏自編碼器及深度神經(jīng)網(wǎng)絡(luò),提出了風電機組在線監(jiān)測方法;文獻[3]使用有限元分析,提出了自適應比例積分微分(proportional integral derivative,PID)算法,實現(xiàn)了對機艙內(nèi)部的控制;文獻[4]針對超溫的故障模式、影響及重要度分析(failure mode,effects and criticality analysis,F(xiàn)MECA),提出了超溫FMECA的分析表及危害性矩陣圖,從而找出最嚴重的故障影響因素;文獻[5]提出了基于最大信息系數(shù) (maximal information coefficient,MIC)的變量篩選方法,基于長短時記憶網(wǎng)絡(luò)(long short term memory,LSTM)建立了多變量的機艙溫度預測模型;文獻[6-7]基于計算流體動力學(computational fluid dynamics,CFD)分析方法,對機艙內(nèi)部進行了分析;文獻[8-9]通過建立風電機組機艙仿真模型,對機艙進行了模擬計算;文獻[10]采用多項式回歸擬合方法,使用時間滑動窗口,建立了數(shù)學模型,根據(jù)概率值來確定是否預警。
本文對風電機組機艙溫度進行分析,選取正常運行狀態(tài)下的機艙溫度數(shù)據(jù),使用Pearson相關(guān)系數(shù)和Spearman相關(guān)系數(shù),以及輕型梯度增強學習器 (light gradient boosting machine,LightGBM)[11]、CatBoost(gradient boosting with categorical features support)算法[12]對特征重要性排序,篩選出對機艙溫度影響較大的特征變量;然后采用LightGBM、CatBoost和隨機森林(Random Forest)[13-14]算法分別建立模型,基于評價指標選取最優(yōu)模型作為風電機組機艙溫度異常預警模型[15-17]。該模型在機艙溫度的預測值和真實值相差較大時,會發(fā)出預警,專業(yè)檢修人員可以根據(jù)模型輸出的特征變量重要性排序,優(yōu)先檢修相關(guān)性較高的部件。
CatBoost算法[18]是一種基于對稱決策樹(oblivious trees)的基學習器,從而實現(xiàn)參數(shù)較少、支持類別型變量和高準確性的梯度提升樹(gradient boosting decision tree,GBDT)框架。該算法支持類別型變量,對于非數(shù)據(jù)型變量也可以進行預處理,主要考慮的是快速有效地處理類別型特征。此外,CatBoost算法還解決了梯度偏差(gradient bias)及預測偏移 (prediction shift)的問題,從而減少了過擬合的發(fā)生,提高了算法的準確性和泛化能力。
CatBoost算法原理包括以下5個方面:
1)處理類別型特征,統(tǒng)計某個或某些特征出現(xiàn)的頻率值,通過對數(shù)據(jù)的隨機排列生成樹,并將類別型特征進行多組組合;
2)解決梯度偏差,采用梯度步長的無偏估計,使用傳統(tǒng)的GBDT方案來解決梯度偏差;
3)將不同類別型特征的組合作為新的特征,以此來獲得高階依賴;
4)采用對稱樹作為基預測器,將所有浮點特征、統(tǒng)計信息和獨熱編碼特征進行二值化,并使用二進制特征來計算模型的預測值;
5)搜索最佳分割方法,該算法采用了不依賴于原子操作的直方圖計算法。
網(wǎng)格搜索(GridSearchCV)[19]是在指定范圍內(nèi)尋找在驗證集上精度最高的超參數(shù)組合,網(wǎng)格搜索會遍歷給定范圍內(nèi)所有超參數(shù)組合,由于沒有錯過任何超參數(shù),搜索效果很好。因此,本研究選用網(wǎng)格搜索方法確定最優(yōu)參數(shù)組合。
本文采用風電機組機艙溫度的預測值與實測值之間的均方誤差 (mean squared error,MSE)、均方根誤差 (root mean square error,RMSE)、平均絕對誤差 (mean absolute error,MAE)、判定系數(shù)R2,作為判斷模型預測效果可靠性的評價指標。
MSE的計算式為:
式中:i為采樣點;n為采樣點個數(shù);yi為風電機組機艙溫度的實測值;為風電機組機艙溫度的預測值。
RMSE的計算式為:
MAE的計算式為:
判定系數(shù)值越接近1,說明模型的預測效果越好。判定系數(shù)的計算式為:
本文基于SCADA系統(tǒng),采集了威海文登風電場中編號為A01的風電機組在2018年1月—2020年12月時間段內(nèi)的分鐘級歷史數(shù)據(jù)[20],并使用控制狀態(tài)列刪除待機、檢查、維修等不健康運行狀態(tài)時間點的樣本數(shù)據(jù)及故障前后24 h的樣本數(shù)據(jù)后,剩余的正常運行狀態(tài)的樣本數(shù)據(jù)量中記錄數(shù)為892794條,特征(測點)為73個。由于數(shù)據(jù)量較大,數(shù)據(jù)缺失的占比較小,直接刪除缺失數(shù)據(jù)所在行,剩余數(shù)據(jù)量中記錄數(shù)為876852條,特征(測點)為46個。
數(shù)據(jù)量過大,特征變量過多,往往會給機器學習算法帶來維度災難,并且在現(xiàn)實應用中,時間消耗也是需要考慮的重要因素。選擇部分重要特征變量,在確保一定精度條件下降低學習任務(wù)的難度,從而提升模型的效率,減少算法學習時間,增加模型的可解釋性,使模型泛化能力更強。
針對46列特征變量,首先,計算每一列特征變量自身方差,方差大表明該列特征變量的變化較大,含有可能影響機艙溫度的信息;對于方差為零的列,說明該列數(shù)據(jù)為常數(shù),不含對于機艙溫度有價值的信息,因此直接刪除。然后采用Pearson相關(guān)系數(shù)和Spearman相關(guān)系數(shù)、LightGBM算法[21]和CatBoost算法計算特征變量的重要性并排序。其中,相關(guān)系數(shù)法是根據(jù)特征變量自身屬性(連續(xù)或離散)計算其與機艙溫度相關(guān)系數(shù),對于連續(xù)型特征變量使用Pearson相關(guān)系數(shù),對于離散型特征變量使用Spearman相關(guān)系數(shù);然后根據(jù)上述相關(guān)系數(shù)大小排序得到本算法的特征變量重要性排序。針對LightGBM和CatBoost算法重要性取值較大的問題,用各個特征變量的重要性數(shù)值與所有特征變量的重要性總和值相除,對得到的比值進行加權(quán),得出綜合排名,最終選擇綜合排名前20位的特征變量(如表1所示)作為最終風電機組機艙溫度異常預警模型的輸入特征變量,以減少數(shù)據(jù)冗余,降低時間消耗。
表1 綜合排名前20位的特征變量Table 1 Characteristic variables of top 20 comprehensive ranking
(續(xù)表)
選擇CatBoost、LightGBM和Random Forest[22]互為對照算法,使用表1得到的20個特征變量,分別建立了3個風電機組機艙溫度模型(下文分別簡稱為“CatBoost模型”“LightGBM模型”“Random Forest模型”);然后使用網(wǎng)格搜索,查找出每個算法建立的風電機組機艙溫度模型的最優(yōu)超參數(shù)組合,具體如表2所示。對不同模型的評價指標值進行綜合比較,結(jié)果如圖1所示。
表2 采用不同算法建立的風電機組機艙溫度模型的最優(yōu)超參數(shù)組合Table 2 Optimal super parameter combination of wind turbine nacelle temperature models established by different algorithms
圖1 不同模型的評價指標對比Fig. 1 Comparison of evaluation indicators of different models
從圖1可以看出:3個模型的最佳模型得分(best score)均較高;而CatBoost模型的判定系數(shù)最大,達到了0.9989,且3個誤差值均為最小,說明其評價指標值最優(yōu)。因此,本文選擇CatBoost模型作為風電機組機艙溫度異常預警模型。
為了驗證風電機組機艙溫度異常預警模型的預警效果,篩選威海文登風電場的故障記錄,查找風電機組機艙溫度異常故障,發(fā)現(xiàn)2018年1月15日的10:00~14:00機艙溫度異常。篩選此故障時段及其前后一段時間內(nèi)的數(shù)據(jù)記錄,調(diào)用訓練完成的CatBoost模型,利用風電機組機艙溫度的預測值與真實值作圖,對比結(jié)果如圖2所示。圖中:紅色方框內(nèi)為真實故障時段。
圖2 風電機組機艙溫度的預測值與真實值的對比Fig. 2 Comparison between predicted value and real value of nacelle temperature of wind turbine
從圖2可以明顯看出:在真實故障時段,風電機組機艙溫度的預測值和真實值之間有較大的偏離趨勢[22]。同時,由于采用的是分鐘級數(shù)據(jù),即在發(fā)生故障之前約18 h(即圖中A點)時,機艙溫度的預測值和真實值就已經(jīng)產(chǎn)生了偏離,此時就可以對機艙溫度進行溫度異常預警。維修人員可以根據(jù)預警提示檢修機艙內(nèi)部的部件,但是由于機艙內(nèi)部的機械部件較多,逐一檢修會消耗大量時間,此時可以根據(jù)風電機組機艙溫度異常預警模型輸出的特征變量重要性排序,優(yōu)先檢修重要性排名靠前的部件,以節(jié)省檢修消耗的時間,提高工作效率。風電機組機艙溫度異常預警模型輸出的特征變量重要性排序如圖3所示。圖中,特征變量名稱為預警模型中標準名稱,與表1對應。
圖3 風電機組機艙溫度異常預警模型輸出的特征變量重要性排序Fig. 3 Importance ranking of characteristic variables output from early warning model of abnormal wind turbine nacelle temperature
本文選取正常運行狀態(tài)下的風電機組機艙溫度數(shù)據(jù),同時使用Pearson相關(guān)系數(shù)和Spearman相關(guān)系數(shù),以及LightGBM、CatBoost算法的特征變量重要性等權(quán)重加權(quán),篩選出對機艙溫度影響較大的特征變量,得到綜和排名前20位的特征變量作為風電機組機艙溫度的特征變量集合;然后,選擇CatBoost、LightGBM、Random Forest算法分別建立3個模型,根據(jù)評價指標選出最優(yōu)模型作為風電機組機艙溫度異常預警模型,并使用實際的風電機組機艙溫度故障的歷史數(shù)據(jù)進行了驗證分析。該模型可以在風電機組機艙溫度預測值與真實值之間偏離程度較大時發(fā)出預警,專業(yè)檢修人員可以根據(jù)模型輸出的特征變量重要性排序,優(yōu)先檢修相關(guān)性較高的部件,實用性較強。
實現(xiàn)風電機組故障預警可在故障發(fā)生前提醒工作人員檢修關(guān)鍵部件,從而減少停機頻率。目前風電機組的運行和維護還處于發(fā)展階段,本文對于風電機組機艙溫度異常預警的研究極具現(xiàn)實意義。