北京市市政工程設(shè)計(jì)研究總院有限公司 陶廷偉
集成學(xué)習(xí)可理解為一種分布式機(jī)器學(xué)習(xí)框架,其主要作用在于整合多個(gè)學(xué)習(xí)器,完成相應(yīng)學(xué)習(xí)任務(wù),在實(shí)際運(yùn)用時(shí)需預(yù)先打造一組基學(xué)習(xí)器。之后,依托結(jié)合策略實(shí)現(xiàn)學(xué)習(xí)器輸出結(jié)果的融合。通?;鶎W(xué)習(xí)器大多依靠訓(xùn)練集訓(xùn)練決策樹等機(jī)器學(xué)習(xí)算法,相較于傳統(tǒng)的單一學(xué)習(xí)器來說預(yù)測性能更加突出。常見的集成學(xué)習(xí)理論主要包括:boosting。是指對弱學(xué)習(xí)器性能實(shí)現(xiàn)增強(qiáng)的算法,該算法的優(yōu)勢在于基學(xué)習(xí)器件性能能夠相互影響,產(chǎn)生極強(qiáng)的依賴效果,能依照基學(xué)習(xí)器誤差賦予相應(yīng)權(quán)重;bagging 方法。是指借助并行形式完成基學(xué)習(xí)器的構(gòu)建,利用引入隨機(jī)特征選擇方式,強(qiáng)化機(jī)學(xué)習(xí)器的多樣性,保證模型的泛化功能。
為了更好地實(shí)現(xiàn)光伏發(fā)電功率的預(yù)測,筆者認(rèn)為需要以上述集成學(xué)習(xí)理論為依托打造預(yù)測模型,借助多種參數(shù)反映光伏發(fā)電系統(tǒng)的實(shí)際工作情況,具體公式為:S(t)={Idc(t),Vdc(t),T(t),Iac(t),Vac(t),P(t),E(t)},其中:Idc(t),Vdc(t),Iac(t),Vac(t)分別表示直流電流、直流電壓、交流電流、交流電壓,而T(t),P(t)分別表示組件溫度和發(fā)電功率,至于E(t)則用于表示累計(jì)發(fā)電量。
在充分考慮光伏發(fā)電特性的基礎(chǔ)上,將連續(xù)時(shí)刻下的光伏系統(tǒng)工作狀態(tài)S(t),S(t-1)作為樣本特征,依靠大量數(shù)據(jù)參數(shù)將下一時(shí)刻的發(fā)電功率P(t+1)設(shè)計(jì)為目標(biāo)值,此時(shí)訓(xùn)練樣本可采用下述公式進(jìn)行表示:sampie(t)={[t,S(t),S(t-1),P(t+1)]}。至于預(yù)測模型則主要表現(xiàn)為:P(t+1)=model(t,S(t),S(t-1))。
對于集成學(xué)習(xí)來說,主要依靠融合多個(gè)學(xué)習(xí)器來滿足預(yù)測目標(biāo)。其應(yīng)用要點(diǎn)更多地表現(xiàn)為基學(xué)習(xí)器的構(gòu)建以及融合,前者大多采用隨機(jī)子空間法,通過預(yù)先從原始訓(xùn)練集中采集樣本,抽取樣本特征,獲取初級訓(xùn)練集,憑借基學(xué)習(xí)器訓(xùn)練達(dá)到基學(xué)習(xí)器生成的目的。該方法能夠從樣本擾動等方面推動機(jī)學(xué)習(xí)器多樣性的大幅度強(qiáng)化,從而保證模型預(yù)測性能,滿足實(shí)際需求,之后借助選擇性集成篩選性能優(yōu)良的基學(xué)習(xí)器。
在應(yīng)用Stacking 支持向量機(jī)模型時(shí)還要注意,應(yīng)優(yōu)先采用K 均值聚類算法進(jìn)行訓(xùn)練集的聚類分析,并劃分為多個(gè)子樣本集,通過輸入篩選獲得相應(yīng)的次級訓(xùn)練集,并將每條樣本特征值設(shè)計(jì)為基學(xué)習(xí)器的輸出值,從而使用次級訓(xùn)練集完成各類別語言學(xué)習(xí)器的訓(xùn)練。
在數(shù)據(jù)處理方面,主要任務(wù)在于解決不同參數(shù)單位差異性造成的影響,具體的處理方式如下:(xi-xmin)/(xmax-xmin),式中:分別表示輸入數(shù)據(jù)以及處理后的數(shù)據(jù),xmin、xmax分別表示輸入的最大值、最小值。至于在模型評價(jià)指標(biāo)的設(shè)置上,則依靠百分比誤差mape以及均方根誤差rmse兩種指標(biāo)來實(shí)現(xiàn)模型的性能預(yù)測,具體方法為:
式中:xmodel,i,xactual,i分別表示預(yù)測值以及實(shí)測值,n表示常數(shù),i表示樣本集序列。
為進(jìn)一步驗(yàn)證上述光伏發(fā)電功率預(yù)測模型的可行性與適用性,本文以自身所在城市的光伏發(fā)電站作為研究對象,并采用2019年5~7月以及2020年5~7月的數(shù)據(jù)進(jìn)行預(yù)測模型的訓(xùn)練,進(jìn)一步考察該模型在2021年6月不同氣象條件下的具體表現(xiàn)。借助實(shí)驗(yàn)法,確定K 均值聚類數(shù),并選取基學(xué)習(xí)器數(shù)量的1/3,實(shí)現(xiàn)集成處理。根據(jù)研究顯示,在晴天條件下光伏發(fā)電功率不會產(chǎn)生較強(qiáng)波動,Stacking 支持向量機(jī)模型所生成的預(yù)測曲線基本與實(shí)測值保持一致。但在發(fā)電站開始發(fā)電以及結(jié)束發(fā)電時(shí)會存在較高的預(yù)測偏差。而在雨天環(huán)境下,光伏發(fā)電功率本身會出現(xiàn)多個(gè)尖峰,此時(shí)會進(jìn)一步加大預(yù)測難度。
根據(jù)Stacking 支持向量機(jī)模型的預(yù)測結(jié)果顯示,發(fā)電功率的變化趨勢均被準(zhǔn)確掌握。即便在上午、傍晚等波動較為嚴(yán)重的時(shí)間,Stacking 支持向量機(jī)模型仍能保持極佳的預(yù)測效果。而在多云氣候條件下,對于光伏發(fā)電影響的主要因素表現(xiàn)為光照,在受風(fēng)力、云層位置的影響下光伏發(fā)電功率的波動較為強(qiáng)烈。此時(shí)Stacking 支持向量機(jī)模型仍能具備極佳的預(yù)測精確性,準(zhǔn)確判斷多云天氣的發(fā)電功率的變化趨勢。具體的預(yù)測結(jié)果如表1所示。
表1 不同氣象條件下預(yù)測模型的百分比誤差mape 以及均方根誤差rmse
根據(jù)上述數(shù)據(jù)可知,Stacking 支持向量機(jī)模型的預(yù)測性能較為突出,相較于傳統(tǒng)的K 均值聚類支持向量機(jī)模型來說,能夠更好的應(yīng)對氣象環(huán)境波動造成的影響,在雨天下更具有預(yù)測優(yōu)勢。
上述章節(jié)中主要探究了在加入光伏系統(tǒng)參數(shù)后,實(shí)現(xiàn)光伏發(fā)電功率預(yù)測精確性的增強(qiáng),驗(yàn)證了Stacking 支持向量機(jī)模型的預(yù)測效果。但要注意,Stacking 支持向量機(jī)模型需要根據(jù)季節(jié)特性克服惡劣天氣造成的影響,因此在實(shí)際應(yīng)用時(shí)無形增加了模型訓(xùn)練量,也對工作人員的專業(yè)能力提出了更高的要求,且模型使用不夠便捷,更多的依靠光伏發(fā)電特性的設(shè)計(jì)樣本特征,因此無法進(jìn)行較長時(shí)間范圍的預(yù)測。
為解決此類問題,本文提出基于長短期記憶網(wǎng)絡(luò)的光伏發(fā)電功率預(yù)測模型,其中長短期記憶網(wǎng)絡(luò)可以理解為一種時(shí)間遞歸神經(jīng)網(wǎng)絡(luò),更適合運(yùn)用在預(yù)測時(shí)間序列領(lǐng)域,且在語音識別等方向已取得一定應(yīng)用成果。通過在此模型上加入注意力機(jī)制達(dá)到模擬生物視覺注意力的目的,從而自動關(guān)注重要參數(shù),幫助預(yù)測模型,依托發(fā)電功率、時(shí)間序列,為下一時(shí)刻發(fā)電功率進(jìn)行準(zhǔn)確評估[1]。
根據(jù)實(shí)際調(diào)查顯示,以往采用的神經(jīng)網(wǎng)絡(luò)模型各層節(jié)點(diǎn)無有效連接,更多的表現(xiàn)為層與層之間的全連接,此類結(jié)構(gòu)經(jīng)常會出現(xiàn)時(shí)序數(shù)據(jù)預(yù)測精確性達(dá)不到預(yù)期標(biāo)準(zhǔn)的問題。究其原因在于,時(shí)序數(shù)據(jù)與原始數(shù)據(jù)存在聯(lián)系,而神經(jīng)網(wǎng)絡(luò)則難以有效記憶之前參數(shù)。至于循環(huán)神經(jīng)網(wǎng)絡(luò),雖然能夠在時(shí)序數(shù)據(jù)分析過程中具備良好的適應(yīng)效果,且隱藏神經(jīng)元存在連接,可以將之前信息記憶并輸出,但在實(shí)際應(yīng)用時(shí)則難以有效學(xué)習(xí)數(shù)據(jù)內(nèi)的長期依賴特征,且在訓(xùn)練過程中也經(jīng)常會出現(xiàn)梯度爆炸的不足之處。為此,我國學(xué)者提出了長短期記憶網(wǎng)絡(luò),其本質(zhì)上屬于一種時(shí)間循環(huán)神經(jīng)網(wǎng)絡(luò),可憑借傳遞算法結(jié)合錯(cuò)誤修改每次權(quán)重。在設(shè)置過程中,誤差能夠隨著倒回計(jì)算,直至數(shù)值被過濾掉,以此使循環(huán)神經(jīng)網(wǎng)絡(luò)正確處理時(shí)序信息[2]。
相較于傳統(tǒng)的基于機(jī)器學(xué)習(xí)的光伏發(fā)電功率預(yù)測,基于長短期記憶網(wǎng)絡(luò)的光伏發(fā)電功率預(yù)測模型添加了注意力機(jī)制,通過打造生物視覺系統(tǒng),使人體能夠?qū)⒕Ψ旁谙嚓P(guān)數(shù)據(jù)信息上,以此最大程度提高觀察效率。注意力機(jī)制本質(zhì)上屬于一種模擬大腦注意力的網(wǎng)絡(luò)架構(gòu),能夠在特定時(shí)刻進(jìn)行注意力的合理分配,以此減少計(jì)算資源占用。將其運(yùn)用在深度神經(jīng)網(wǎng)絡(luò)中,能夠更好的篩選輸入向量內(nèi)的相關(guān)特征,降低其他特征造成的不良影響,保證模型的泛化性能最大化。
在實(shí)際應(yīng)用過程中,通常將長短期網(wǎng)絡(luò)記憶的隱藏輸出向量作為輸入,之后尋找特征向量,分配注意力權(quán)重,具體公式表現(xiàn)如下[3]:ei=tanh(Whhi+其中:Wh、bh、ai分別表示權(quán)值矩陣、偏置項(xiàng)及權(quán)重參數(shù),hi表示特征量,ei表示注意力機(jī)制,t為輸出向量子集個(gè)數(shù)。
在模型構(gòu)建方面,需要依照光伏發(fā)電站的相關(guān)數(shù)據(jù)參數(shù),充分考慮相關(guān)學(xué)者的研究結(jié)果,將光伏發(fā)電功率時(shí)間序列作為主要輸入,搭配組件溫度時(shí)間序列,從而實(shí)現(xiàn)下一時(shí)刻的發(fā)電功率預(yù)測。對于輸入中包含的大量參數(shù)信息,需要進(jìn)行分類型的特征提取。將前者輸入長短期記憶網(wǎng)絡(luò),憑借注意力機(jī)制進(jìn)行隱藏輸出的持續(xù)關(guān)注,并對隱層輸出的各個(gè)元素賦予差異性注意力權(quán)重。而在后者的處理方面則與前者基本保持一致,之后將注意力權(quán)重展開成一維向量,借助全連接層預(yù)測發(fā)電功率。過程中要注意,模型訓(xùn)練階段需充分考慮網(wǎng)絡(luò)前向傳播的真實(shí)訓(xùn)練輸出值,并將其結(jié)合實(shí)際功率值完成平方損失函數(shù)的推演,通過適當(dāng)優(yōu)化網(wǎng)絡(luò)架構(gòu)降低平方損失值,直至返歸一化處理后獲得實(shí)際預(yù)測結(jié)果[4]。
在數(shù)據(jù)處理方面基本與Stacking 支持向量機(jī)的光伏發(fā)電功率預(yù)測保持相同,主要目的在于解決不同參數(shù)之間單位差異造成的影響,控制好數(shù)量級大小。同時(shí)還要利用滑窗法獲得訓(xùn)練樣本,設(shè)置樣本特征值,從而為下一時(shí)刻的實(shí)際功率值設(shè)計(jì)訓(xùn)練目標(biāo),并同樣采用絕對百分比誤差來評價(jià)模型的實(shí)際預(yù)測性能。
為進(jìn)一步驗(yàn)證上述模型的適用性以及可行性,同樣選取筆者所在城市的光伏發(fā)電站作為研究對象,收集2019、2020年信息以及2021年1~9月的數(shù)據(jù)完成模型訓(xùn)練,并將2021年10月至次年9月的信息設(shè)為訓(xùn)練集,進(jìn)一步考察長短期網(wǎng)絡(luò)記憶模型在不同季節(jié)下、不同時(shí)間區(qū)間內(nèi)的預(yù)測效果,與上述章節(jié)中的Stacking 支持向量機(jī)光伏發(fā)電功率預(yù)測模型進(jìn)行比對。其中基準(zhǔn)模型可進(jìn)一步描述成,采用兩個(gè)長短期網(wǎng)絡(luò)記憶層實(shí)現(xiàn)發(fā)電功率的時(shí)間序列特征提取,并將其拉成一維后,與組件溫度時(shí)間序列合并輸出預(yù)測結(jié)果。根據(jù)預(yù)測結(jié)果顯示,基于長短期網(wǎng)絡(luò)記憶和注意力機(jī)制的光伏發(fā)電功率預(yù)測模型能夠在30min 時(shí)段做出精準(zhǔn)預(yù)測,60min 時(shí)間段同樣具備極佳的預(yù)測效果,預(yù)測值與實(shí)際值誤差極小[5]。
在信息化時(shí)代背景下大數(shù)據(jù)技術(shù)的應(yīng)用愈發(fā)廣泛,該技術(shù)的迅速興起也為大規(guī)模數(shù)據(jù)處理提供助力,通過將其與機(jī)器學(xué)習(xí)深度結(jié)合,能夠進(jìn)一步挖掘數(shù)據(jù)背后的價(jià)值意義。大數(shù)據(jù)技術(shù)的應(yīng)用尚處于摸索階段,因此本文在進(jìn)行分析時(shí)主要以hadoop大數(shù)據(jù)處理平臺作為研究對象,搭建試驗(yàn)群,以此存儲光伏發(fā)電數(shù)據(jù),實(shí)現(xiàn)光伏發(fā)電信息的建模預(yù)測。hadoop 本質(zhì)上屬于一種分布式大數(shù)據(jù)處理框架,能夠具備負(fù)載均衡、任務(wù)調(diào)度等功能,可直接部署在廉價(jià)的集群上實(shí)現(xiàn)文件的切分處理,保留多個(gè)文件備份,具有極高的容錯(cuò)性。在實(shí)際應(yīng)用時(shí)需要結(jié)合決策樹、梯度提升算法以及隨機(jī)森林,分別完成回歸任務(wù)、殘差訓(xùn)練以及基學(xué)習(xí)器集成。
根據(jù)實(shí)際研究發(fā)現(xiàn),相較于上述兩種方法來說,基于大數(shù)據(jù)技術(shù)的光伏發(fā)電預(yù)測同樣能夠準(zhǔn)確預(yù)測光伏發(fā)電功率,具有極高的應(yīng)用潛力。同時(shí),為保證光伏發(fā)電預(yù)測模型的準(zhǔn)確應(yīng)用,還需要相關(guān)技術(shù)人員加強(qiáng)對先進(jìn)技術(shù)手段的學(xué)習(xí)與使用,明確相關(guān)算法的優(yōu)劣,結(jié)合實(shí)際情況進(jìn)行科學(xué)運(yùn)用,具備一定的信息化素養(yǎng),能夠有效應(yīng)對突發(fā)狀況,降低人為操作干擾,更多的依靠系統(tǒng)程序的自動計(jì)算模擬,保證參數(shù)錄入準(zhǔn)確。總結(jié)算法應(yīng)用規(guī)律,持續(xù)開發(fā)循環(huán)控制單元、相似日選擇等一系列機(jī)器學(xué)習(xí)的光伏發(fā)電功率預(yù)測,適當(dāng)結(jié)合信息化手段、人工智能,迎合適當(dāng)發(fā)展潮流,并注重預(yù)測時(shí)間段的延長,從而滿足實(shí)際需要[6]。