許冠亞 耿玲娜 邵平 趙肖旭 靳棟曼 謝添
【摘 要】文章研究了基于深度強化學習的微電網(wǎng)儲能調(diào)度策略,如果場景的電價方式不同,利用強化學習算法,可以將模型的自主性充分發(fā)揮出來,結(jié)合學習環(huán)境信息,確定最優(yōu)調(diào)度策略。
【關(guān)鍵詞】深度強化學習;微電網(wǎng);儲能調(diào)度;控制策略
【中圖分類號】TM73 【文獻標識碼】A 【文章編號】1674-0688(2019)11-0059-02
微電網(wǎng)屬于一種能源網(wǎng)絡(luò)系統(tǒng),其中最重要的組成部分是儲能系統(tǒng)。儲能系統(tǒng)通過儲存和釋放多余能量,避免能源發(fā)電過程的產(chǎn)生波動,提高微電網(wǎng)運行的穩(wěn)定性,微電網(wǎng)可以利用智能系統(tǒng)實現(xiàn)儲能調(diào)度,保障整體運行效益。
1 微電網(wǎng)儲能調(diào)度概述
利用微電網(wǎng)儲能調(diào)度工作,可以維護能源系統(tǒng)運行的穩(wěn)定性,但是因為可再生能源比較特殊,通常因為間歇性和隨機性等特征可以加大微電網(wǎng)儲能調(diào)度的難度。微電網(wǎng)可以利用隨機優(yōu)化措施,提升可再生能源發(fā)電的準確性。研究人員可以建立隨機優(yōu)化的模型,設(shè)置真實的離散場景集合模式,轉(zhuǎn)化可再生能源發(fā)電的不確定性。但是在各種外界因素的影響下,微電網(wǎng)儲能調(diào)度單模型可能會產(chǎn)生各種誤差,導(dǎo)致調(diào)度結(jié)構(gòu)不符合實際狀況[1]。
強化學習算法屬于無模型的調(diào)度方法,因此無需利用系統(tǒng)模型。利用強化學習算法和智能體的動態(tài)性,可以確定最優(yōu)控制策略。利用深度Q值強化學習機制,智能體交互與微電網(wǎng)調(diào)度環(huán)境,可以確定最優(yōu)儲能調(diào)度策略,科學地管理微電網(wǎng)儲儲能設(shè)備的能量。利用微電網(wǎng)系統(tǒng)調(diào)度模型,根據(jù)微電網(wǎng)儲能調(diào)度工作的特殊性,利用Q值強化學習機制,提高微電網(wǎng)儲能調(diào)度的科學性,再通過高仿真研究,確定各種觀測量場景中,深度Q值的性能。
2 微電網(wǎng)儲能調(diào)度模型
2.1 微電網(wǎng)結(jié)構(gòu)
微電網(wǎng)中包括各種復(fù)雜的裝置,利用公共連接點連接配電網(wǎng),需要平衡微電網(wǎng)的整體功率,如果設(shè)置的負荷量不滿足光伏發(fā)電需求,需要立即落實純調(diào)度策略,主要是調(diào)節(jié)微電網(wǎng)的電池裝置,在這一過程中需要發(fā)揮控制器的作用,也可以和主電網(wǎng)之間進行電能交易,這些方法都可以對于功率起到平衡作用。
2.2 電池結(jié)構(gòu)
在物理條件的約束下,利用儲能調(diào)度策略,可以優(yōu)化微電網(wǎng)充放電時間和電量,提高微電網(wǎng)儲能系統(tǒng)的安全性。電池包括閑置、充電、放電3種運行模式,利用電池容量約束和電池充放電速率約束,可以保證電池運行的穩(wěn)定性。電池容量需要承受物理閑置,控制電池電量,根據(jù)要求調(diào)整電池電量,這樣可以延長電池的使用時間。綜合考慮電池使用壽命和容量等方面,科學地設(shè)置電池的充放電效率[2]。
當前,電力市場不夠穩(wěn)定,需要結(jié)合電力瞬時供需,提高實時電價的科學性,維護電力系統(tǒng)的安全運行,電力市場需要考慮電能邊際成本再定價,提高定價的科學性。電力公司在更改實時地電價的時候,需要加強管理用戶行為,因為用戶在主動用電的過程中,已經(jīng)成為電網(wǎng)運行的重要影響因素。用戶結(jié)合電力企業(yè)的實時電價信息,再考慮自身的用電需求,科學地調(diào)整用電狀態(tài),合理控制用電時間和用電量,最終的目的是節(jié)省用電成本,這樣也可以提高電力企業(yè)的運營收益性。
電力企業(yè)需要科學地測量光伏發(fā)電量,在觀測過程中結(jié)合時間序列信息,科學地制定儲能調(diào)度策略,這樣可以高效利用電池,保障微電網(wǎng)的收益,減少電能購買量。在智能體輸入更多的有用信息,可以改善學習調(diào)度策略性能,保證電池應(yīng)用的高效性,提高充放電行為的合理性,實現(xiàn)微電網(wǎng)收入的最大化。
3 實現(xiàn)微電網(wǎng)儲能調(diào)度策略
3.1 深度卷積神經(jīng)網(wǎng)絡(luò)
利用深度卷積神經(jīng)網(wǎng)絡(luò)可以準確獲取數(shù)據(jù)特征,同時可以獲得有效的學習時間序列信息。綜合微電網(wǎng)儲能系統(tǒng)充放電動作的時間序列,利用深度強化學習算法,可以有效處理時間序列數(shù)據(jù)。卷積神經(jīng)網(wǎng)絡(luò)通過第一個卷積層直接輸入數(shù)據(jù),利用卷積核濾波器獲取局部特征,通過池化采樣操作確定基礎(chǔ)特征。利用第二個卷積層結(jié)構(gòu),通過組合、抽象基礎(chǔ)特征,建立高階特征。通過非線性處理措施,通過卷積層的輸出層,確定離散化動作Q值[3]。
3.2 Q值強化學習過程
基于深度強化學習的微電網(wǎng)儲能調(diào)度,主要是利用儲能系統(tǒng)的時間序列,并且以此作為決策的主要變量條件,學習智能體環(huán)境之間實施交互學習,并且可以發(fā)出反饋信息,電力企業(yè)結(jié)合反饋信息,建立科學的調(diào)整決策。基于深度強化學習的微電網(wǎng)儲能調(diào)度策略,利用雙重Q網(wǎng)絡(luò)結(jié)構(gòu)獲取相關(guān)函數(shù),提高值函數(shù)的合理性,通過公雙重Q網(wǎng)絡(luò),可以提高值函數(shù)估計工作的科學性。
4 基于深度強化學習的微電網(wǎng)儲能調(diào)度策略
4.1 固定電價調(diào)度策略
為了強化學習調(diào)度策略的性能,本文分析了強化學習調(diào)度策略性能。結(jié)合不同的場景,確定不同微電網(wǎng)儲能調(diào)度結(jié)果。如果電池核電水平初始值是不同的,微電網(wǎng)工作穩(wěn)定性不會因此受到影響。在工作過程中不斷增加負荷消耗量,利用光伏發(fā)電方式,可以在最大限度地滿足微電網(wǎng)負荷要求。在工作過程中,智能體也會不斷獲取智能體觀測量,利用智能體可以控制微電網(wǎng)的充放電工作,保障微電網(wǎng)收入的最大化,提升調(diào)度策略的科學性。當獲取到更多的有效性信息時,智能體觀測就會越充分地發(fā)揮學習調(diào)度策略的性能[4]。
4.2 實時電價調(diào)度策略
在每天晚上11:00到早上的6:00,這一階段實時電價處于低價狀態(tài),微電網(wǎng)在這一階段需要獲取電網(wǎng)電能,微電網(wǎng)電池在這個階段處于充電的狀態(tài)。電池核電達到90%以上,電池即可閑置。在每天的8:00~16:00,實時電價相對來說較高,智能體需要控制電池放電過程,如果實時電價比較低,電池要保持閑置。時間為19:00~21:00,實時電價比較高,電池處于持續(xù)性發(fā)電節(jié)點,如果電池核電水平達到10%,電池就要保持閑置狀態(tài)。
微電網(wǎng)需要綜合考慮實時電價,提高學習調(diào)度策略的靈活性,利用靈活的調(diào)度動作,提高微電網(wǎng)的整體效益。
4.3 CPLEX基準驗證
利用GAMS建模軟件,可以提高電網(wǎng)儲能調(diào)度策略的科學性,利用準確的算法,轉(zhuǎn)化微電網(wǎng)運行過程存在的問題,利用優(yōu)化求解器解答混合整數(shù)規(guī)劃問題,再通過實時電價場景驗證。利用GAMS建立微電網(wǎng)模型,該模型當中需要具備全面的微電網(wǎng)信息,最后通過優(yōu)化求解器確定最優(yōu)收益。
在無干擾場景當中,無模型強化學習算法和模型最優(yōu)化算法具有一定的偏差大。未來預(yù)測信息發(fā)生變化,不會影響到模型最優(yōu)化算法,這種狀態(tài)不會產(chǎn)生任何干擾。在光伏發(fā)電預(yù)測量干擾下,利用強化學習策略,各個性能指標不會產(chǎn)生較大的變化,但是干擾因素會影響到優(yōu)化求解器的最優(yōu)化求解,提升基于深度強化學習的微電網(wǎng)儲能調(diào)度策略的有效性和準確性。
5 結(jié)語
本文根據(jù)微電網(wǎng)調(diào)度問題環(huán)境模型,針對不同組合模型對于基于深度強化學習的微電網(wǎng)儲能調(diào)度策略的影響,提出針對性的儲能調(diào)度策略?;谏疃葟娀瘜W習的微電網(wǎng)儲能調(diào)度過程中需要利用兩種電價方式,通過組合場景模式,獲取光伏測量信息,提升微電網(wǎng)儲能策略的科學性,實現(xiàn)微電網(wǎng)收益的最大化。微電網(wǎng)需要結(jié)合實時電價信息,在預(yù)測光伏發(fā)電量的過程中考慮時間序列信息,建立科學的微電網(wǎng)儲能調(diào)度策略,利用場景模型組合的方式,科學地考慮各種可能發(fā)生的場景,使微電網(wǎng)的收益性不斷提升。將20%光伏發(fā)電量加入到微電網(wǎng)模型當中,如果微電網(wǎng)運行出現(xiàn)波動性,可以利用新的場景組合,始終保證微電網(wǎng)儲能調(diào)度測量的有效性。各種因素都會干擾到微電網(wǎng)收益情況,微電網(wǎng)處于無干擾場景當中,有利于控制整體收益偏差,因此微電網(wǎng)需要提高場景組合模型的適應(yīng)性,而本文提出的基于深度強化學習的微電網(wǎng)儲能調(diào)度策略,在一般微電網(wǎng)系統(tǒng)儲能調(diào)度當中都可以利用。
參 考 文 獻
[1]朱永強,劉康,張泉,等.考慮儲能系統(tǒng)調(diào)度的交直流混合微電網(wǎng)中互聯(lián)變流器容量配置[J].電力建設(shè),2019(10):84-93.
[2]王亞東,崔承剛,錢申晟,等.基于深度強化學習的微電網(wǎng)儲能調(diào)度策略研究[J].可再生能源,2019,37(8):1220-1228.
[3]黃敏,賀利軍.混合儲能微電網(wǎng)并網(wǎng)調(diào)度多目標灰熵煙花算法[J].計算機系統(tǒng)應(yīng)用,2019,28(8):176-182.
[4]胡詩堯,安佳坤,韓璟琳,等.基于一致性算法的智能電網(wǎng)儲能單元分布式調(diào)度策略[J].沈陽工業(yè)大學學報,2019,41(4):372-377.
[5]王春梅,熊斌宇.基于儲能調(diào)度模式的微電網(wǎng)不平衡功率平抑兩階段優(yōu)化方法[J].智慧電力,2019,47(2):22-28,55.
[6]顏寧,潘霄,張明理,等.基于復(fù)合儲能的多互聯(lián)微電網(wǎng)日內(nèi)調(diào)度研究[J].電工技術(shù)學報,2018,33(S2):577-585.