靳顯智,王 葉,徐 仁,林 霏,邵文藝
齊魯工業(yè)大學(xué)(山東省科學(xué)院) 電氣工程與自動(dòng)化學(xué)院,山東 濟(jì)南 250353
能源互聯(lián)網(wǎng)的理論與技術(shù)正處于快速發(fā)展時(shí)期,許多相關(guān)工作人員對(duì)相關(guān)工作展開了研究工作[1]。能源互聯(lián)網(wǎng)把先進(jìn)的通信技術(shù)和智能能量調(diào)度技術(shù)結(jié)合起來,將信息能源綜合電網(wǎng)、分布式能源等互聯(lián)起來,實(shí)現(xiàn)能量點(diǎn)對(duì)點(diǎn)交換和共享利用[2]。
針對(duì)能源互聯(lián)網(wǎng)中的能量調(diào)度問題,已經(jīng)提出了多種相關(guān)的算法。主要有經(jīng)典優(yōu)化方法、基于規(guī)劃的方法、啟發(fā)式算法等,這些算法能夠解決電網(wǎng)中許多問題,但也存在著一定不足[3]。伴隨著人工智能的發(fā)展,強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)的研究也越來越深入,許多學(xué)者開始關(guān)注這項(xiàng)技術(shù)在電力系統(tǒng)中的應(yīng)用[4]。在局域微網(wǎng)能量調(diào)度策略中,趙敏等[5]提出了采用非合作博弈研究多微電網(wǎng)交易模式的一般模型及分析方法。將配電網(wǎng)對(duì)微電網(wǎng)之間交易的影響以征收服務(wù)費(fèi)用的方式加以考慮,證明了該博弈存在納什均衡,并提出了相應(yīng)的求解流程。王亞東等[6]利用深度卷積神經(jīng)網(wǎng)絡(luò)提取微電網(wǎng)調(diào)度時(shí)間序列信息特征,以Q值強(qiáng)化學(xué)習(xí)機(jī)制實(shí)現(xiàn)微電網(wǎng)儲(chǔ)能調(diào)度策略。深度強(qiáng)化學(xué)習(xí)算法已成功應(yīng)用于微網(wǎng)定價(jià)[7]、能源調(diào)度策略[8]中局域微網(wǎng)間能源交易的最優(yōu)解計(jì)算。
局域微網(wǎng)的任務(wù)要滿足當(dāng)?shù)乜蛻舻挠秒娦枨?但由于客戶的獨(dú)立性,每個(gè)客戶都有各自的需求,這些需求發(fā)生在一天當(dāng)中特定時(shí)間段的任意時(shí)間。把這些類似的需求歸類為日常生活活動(dòng)需求(daily needs,DN)。局域微網(wǎng)有能力根據(jù)當(dāng)前自己的負(fù)載自由調(diào)度用戶的DN需求。能源交易對(duì)于維護(hù)微網(wǎng),提高其穩(wěn)定性具有至關(guān)重要的作用。同時(shí)微網(wǎng)可以通過在微網(wǎng)和廣域中央電網(wǎng)之間買賣電力來獲取利益。實(shí)現(xiàn)利益的最大化是本文的重點(diǎn),本文提出的動(dòng)態(tài)定價(jià)策略(允許微網(wǎng)根據(jù)當(dāng)前能量供求關(guān)系決定售電價(jià)格)與DN調(diào)度協(xié)調(diào)工作對(duì)實(shí)現(xiàn)利益的最大化具有很大的優(yōu)勢(shì)。動(dòng)態(tài)定價(jià)策略鼓勵(lì)了微電網(wǎng)進(jìn)行能量交易,這無疑加強(qiáng)了各個(gè)微網(wǎng)之間的合作,通過這種合作,微網(wǎng)能夠盡可能的依靠自身的能力來滿足本地客戶的DN需求,最大程度上減少對(duì)中央電網(wǎng)的依賴。
本文通過研究一種基于深度強(qiáng)化學(xué)習(xí)的新型局域微網(wǎng)能源調(diào)度策略來解決如何應(yīng)對(duì)新型微網(wǎng)能量調(diào)度中存在的問題。通過創(chuàng)建兩個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò)(分別用以處理能量調(diào)度和能量交易)更好地分析不同應(yīng)用場(chǎng)景下的定價(jià)模型對(duì)于微網(wǎng)能量和調(diào)度定價(jià)策略的作用和影響,通過對(duì)比不同設(shè)置下深度Q學(xué)習(xí)算法在微網(wǎng)能量調(diào)度中的表現(xiàn),驗(yàn)證了動(dòng)態(tài)定價(jià)策略相對(duì)于固定定價(jià)策略在微網(wǎng)能量調(diào)度策略中應(yīng)用的優(yōu)越性。
在本節(jié)中,將描述實(shí)現(xiàn)能源交易和工作計(jì)劃的局域微網(wǎng)模型以及提議的算法。如圖1所示,廣域能源互聯(lián)網(wǎng)下存在著N個(gè)相互連接且有著電氣交易的局域能源微網(wǎng)[9],這些局域微網(wǎng)不僅建立了電氣連接,還建立了信息連接[10]。同時(shí)這些局域微網(wǎng)都具有本地產(chǎn)生可再生能源的能力,并且還具有將能量存儲(chǔ)在電池單元中的功能。我們將一天分為幾個(gè)等長的時(shí)間段,在每個(gè)時(shí)間段,局域能源微網(wǎng)都具有本地需求、電池中剩余能量、電網(wǎng)發(fā)電量和一天剩余日常生活活動(dòng)需求的信息。取決于以上信息,局域能源微網(wǎng)在規(guī)定的時(shí)間段做出相關(guān)供應(yīng)調(diào)度決策。接下來對(duì)每個(gè)局域微網(wǎng)的狀態(tài)、動(dòng)作以及獎(jiǎng)勵(lì)進(jìn)行描述。
圖1 相互連接的局域微網(wǎng)模型
局域能源微網(wǎng)i在時(shí)間t的狀態(tài)由式(1)給出:
根據(jù)對(duì)微網(wǎng)狀態(tài)的描述,微網(wǎng)動(dòng)作需要滿足日常生活活動(dòng)的調(diào)配以及做好電量購買/出售的預(yù)算。基于上述要求,局域微網(wǎng)動(dòng)作由式(3)給出:
接下來每個(gè)局域微網(wǎng)根據(jù)自己當(dāng)前的定位,買方微網(wǎng)根據(jù)自身的要求在賣方微網(wǎng)之間選擇一個(gè)報(bào)價(jià)最低的微網(wǎng)進(jìn)行交易。如果在微網(wǎng)相互交易過后,仍無法滿足一些微網(wǎng)的需求,則可以向中央電網(wǎng)以pi的價(jià)格購買需要的能量。相反,如果買方微網(wǎng)之間的需求已經(jīng)得到滿足,則賣方微網(wǎng)可以將能量以pi—k的價(jià)格賣給主電網(wǎng)。
每個(gè)局域微網(wǎng)的目的是通過電力交易獲得足夠的利潤,同時(shí)滿足區(qū)域內(nèi)用戶日常需求和非日常需求。基于此要求,獎(jiǎng)勵(lì)函數(shù)由式(4)定義:
λ+β=1。 (4)
為了完成滿足能量需求和能量交易的任務(wù),每個(gè)局域微網(wǎng)使用兩個(gè)代理,第一個(gè)代理叫做DN代理,負(fù)責(zé)能量需求調(diào)度任務(wù),由它決定在一天中哪個(gè)時(shí)間步長調(diào)度哪些日常任務(wù),并將信息提供給第二個(gè)代理。第二個(gè)代理叫做ET代理,負(fù)責(zé)能量交易任務(wù),它決定購買或者出售的電力單位,設(shè)定交易價(jià)格。
局域微網(wǎng)基于DN代理和ET代理執(zhí)行動(dòng)作,兩個(gè)代理獲得共同的獎(jiǎng)勵(lì)或者懲罰。對(duì)此只要?jiǎng)?chuàng)建一個(gè) MDP(馬爾可夫決策)模型,該模型對(duì)兩個(gè)代理的狀態(tài)轉(zhuǎn)換、動(dòng)作選擇以及獎(jiǎng)勵(lì)函數(shù)進(jìn)行建模。使用兩個(gè)獨(dú)立神經(jīng)網(wǎng)絡(luò)結(jié)合深度強(qiáng)化學(xué)習(xí)算法并且讓他們共享相同的獎(jiǎng)勵(lì),而不是讓兩個(gè)代理使用一個(gè)更加龐大的神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò),這樣可以更好的探索動(dòng)作空間,減少獲得最優(yōu)策略的迭代次數(shù)。用于訓(xùn)練能量調(diào)度模型的算法如表1算法1所示。
表1
DN代理和ET代理具有相同的狀態(tài)空間,DN代理有一個(gè)參數(shù)叫做DN狀態(tài),對(duì)應(yīng)的ET代理中存在一個(gè)DN操作參數(shù),所以兩者具有相似的經(jīng)驗(yàn)池。在確定DN代理的動(dòng)作后,將此作為ET網(wǎng)絡(luò)的輸入,接下來便知道在具體的時(shí)間段留有相關(guān)的能量供應(yīng)日?;顒?dòng),進(jìn)一步指導(dǎo)ET網(wǎng)絡(luò)是購買還是出售電力。因此兩個(gè)代理可以通過共享相似的狀態(tài)空間和獎(jiǎng)勵(lì)進(jìn)行協(xié)作,同時(shí)得到最佳策略。
2.1.1 價(jià)格限制
本文限制微網(wǎng)進(jìn)行能源交易的價(jià)格范圍為[CP—k],其中CP是中央電網(wǎng)價(jià)格,k為正常數(shù)。如果微網(wǎng)的報(bào)價(jià)高于中央電網(wǎng),基于前面設(shè)置的規(guī)則交易不會(huì)發(fā)生,因?yàn)檫@樣的話微網(wǎng)更愿意直接從中央電網(wǎng)進(jìn)行購買。同時(shí)允許微網(wǎng)可以以報(bào)價(jià)最低價(jià),即以CP—k向中央電網(wǎng)出售電力,這樣可以保證微網(wǎng)更愿意出售能源給微網(wǎng)。
其次是能源交易限制為了更加真實(shí)的模擬現(xiàn)實(shí)情況,必須要考慮現(xiàn)實(shí)世界的物理限制,例如:電池的最大容量、每個(gè)微網(wǎng)的最大負(fù)荷量等。
2.1.2 能量交易限制
交易電量的下限,由式(5)定義:
每次交易完成后,每個(gè)微網(wǎng)電池中剩余的能量量(將微網(wǎng)自身產(chǎn)生的能量、DN需求、非日常需求、交易前電池儲(chǔ)存量考慮在內(nèi))不能大于最大電池容量B,最大電池容量B由式(6)更新:
交易電量的上限,由式(7)定義:
實(shí)驗(yàn)中的局域微網(wǎng)使用風(fēng)能或太陽能可再生資源作為其發(fā)電能源。前面提到動(dòng)態(tài)定價(jià)模型和固定定價(jià)模型。
動(dòng)態(tài)定價(jià)模型(DPP):局域微網(wǎng)自行決定能量交易價(jià)格,并且定價(jià)低于中央電網(wǎng)的價(jià)格。
固定定價(jià)模型(CPP):局域微網(wǎng)以中央電網(wǎng)的定價(jià)進(jìn)行能源交易。
本文在兩種情景設(shè)置下對(duì)比動(dòng)態(tài)定價(jià)模型和固定價(jià)格模型,設(shè)置如下:
設(shè)置1:設(shè)置一個(gè)簡(jiǎn)單的四微網(wǎng)設(shè)置,觀察其在固定定價(jià)策略和動(dòng)態(tài)定價(jià)策略下的獎(jiǎng)勵(lì)曲線,由此可體現(xiàn)兩種策略的優(yōu)劣性。
設(shè)置2:采用更加實(shí)用的10微網(wǎng)設(shè)置,在這種設(shè)置下,五個(gè)微網(wǎng)產(chǎn)生的能量低于其需求,另五個(gè)微網(wǎng)產(chǎn)生的能量高于前者,這樣做的目的是為了驗(yàn)證調(diào)度策略的合理性,考驗(yàn)電網(wǎng)在匱電狀態(tài)時(shí)能不能合理的的安排日常調(diào)度任務(wù)。
設(shè)置3:在兩種定價(jià)模型上采用10微網(wǎng)設(shè)置,這樣相對(duì)于設(shè)置2能產(chǎn)生更多的電量用來交易,由此更能驗(yàn)證動(dòng)態(tài)定價(jià)策略的優(yōu)越性。
在以上基礎(chǔ)上,將局域微網(wǎng)生成的每小時(shí)可再生能源數(shù)據(jù)擬合泊松分布,并在實(shí)驗(yàn)過程中從該分布中采樣可再生能源單位。將可再生能源最大發(fā)電量限制在10個(gè)單位,并將一天分成四個(gè)步長,每個(gè)微網(wǎng)在每個(gè)步長進(jìn)行決策。每個(gè)時(shí)間步長內(nèi),非日常需求可以是 3、4、5、6 個(gè)單位之一,在一天開始的時(shí)候最多考慮三個(gè)日常需求。電池中可以存儲(chǔ)的最大能量限制為10個(gè)單位,所以在單個(gè)時(shí)間段內(nèi)微網(wǎng)可以購買的最大能量也限制為10個(gè)單位。在實(shí)驗(yàn)中規(guī)定固定的中央電網(wǎng)價(jià)格CP=20(每單位電力的價(jià)格單位)。在前面提到,局域微網(wǎng)對(duì)中央電網(wǎng)的售價(jià)定為cp—k,在實(shí)驗(yàn)中將k的值取為5,所以動(dòng)態(tài)定價(jià)策略的定價(jià)區(qū)間為[15,20]個(gè)價(jià)格單位。局域微網(wǎng)的DN代理和ET代理均使用具有三層前饋神經(jīng)網(wǎng)絡(luò)的模型。
DN網(wǎng)絡(luò)和ET網(wǎng)絡(luò)均使用三層前饋神經(jīng)網(wǎng)絡(luò),輸入狀態(tài)和輸出動(dòng)作如上文所述,使用學(xué)習(xí)速率為0.000 1、β1=0.9、β2=0.9和ε=10-8的Adam優(yōu)化器來更新網(wǎng)絡(luò)權(quán)重,折扣率γ=0.9。
從圖2可以看出,采用固定定價(jià)策略的微網(wǎng)在一開始所獲得的利潤回報(bào)要高于動(dòng)態(tài)定價(jià)策略的微網(wǎng),但是隨著迭代次數(shù)的增加,動(dòng)態(tài)定價(jià)策略所具有的優(yōu)勢(shì)逐漸顯現(xiàn)出來。這是因?yàn)椴捎脛?dòng)態(tài)定價(jià)策略的微網(wǎng)能源銷售價(jià)格適中低于固定定價(jià)策略的微網(wǎng),而微網(wǎng)更傾向于從報(bào)價(jià)更低的微網(wǎng)進(jìn)行購買,所以采取動(dòng)態(tài)定價(jià)策略的微網(wǎng)在大多數(shù)情況下都能成功的將電力出售,而采取固定定價(jià)策略的微網(wǎng)只能以cp—k的價(jià)格(低于動(dòng)態(tài)定價(jià)策略出售的價(jià)錢)出售給中央電網(wǎng),所以利潤要低。另外,相比傳統(tǒng)的隨機(jī)優(yōu)化探索方法[11],可以看出提出的基于深度強(qiáng)化學(xué)習(xí)的新型局域微網(wǎng)能源調(diào)度算法有著在能量調(diào)度有著明顯的優(yōu)勢(shì)。
圖2 四微網(wǎng)設(shè)置在三種定價(jià)策略下獲得的平均利潤走勢(shì)
在表2中,展示了四微網(wǎng)系統(tǒng)模型在4個(gè)時(shí)間步長對(duì)DN需求的調(diào)度狀況,為了能夠更好的顯示出提出調(diào)度策略的合理性,在系統(tǒng)模型收斂前抽取了12次(對(duì)應(yīng)表2前12次)迭代結(jié)果,收斂后抽取了8次(對(duì)應(yīng)表2后8次)迭代結(jié)果進(jìn)行分析,表2中D1、D2、D3代表著需要完成的DN需求動(dòng)作,表中的空格部分表示在該時(shí)間步長沒有安排任務(wù)執(zhí)行。通過表2可以看出看出代理學(xué)會(huì)了在不同的時(shí)間安排DN需求,這表明本文所提出的微網(wǎng)能量調(diào)度模型可以把負(fù)載動(dòng)作從高峰需求轉(zhuǎn)移到其他時(shí)間步長執(zhí)行,以減輕負(fù)載壓力。同時(shí)通過對(duì)比兩個(gè)微網(wǎng)對(duì)三個(gè)DN需求任務(wù)調(diào)度狀況,可以看出兩個(gè)微網(wǎng)代理在不同的時(shí)間步長頻繁的選擇某個(gè)DN動(dòng)作,這表明它們DN代理的策略已基本趨于一致。
表2 四微網(wǎng)動(dòng)態(tài)定價(jià)策略下不同時(shí)間步長的DL調(diào)度情況
圖3中橫坐標(biāo)是指系統(tǒng)模型收斂后的迭代次數(shù),縱坐標(biāo)是指模型迭代100次選擇價(jià)格的平均數(shù)。通過圖3可以看出,在系統(tǒng)模型收斂了后的多次迭代中,系統(tǒng)選擇的價(jià)格并不像固定定價(jià)策略一直選擇售價(jià)20,而是選擇了在一個(gè)合理的價(jià)格區(qū)間變化,曲線的波動(dòng)體現(xiàn)了系統(tǒng)能根據(jù)實(shí)時(shí)情況選擇最合適的價(jià)格來獲得最大利益,由此代理學(xué)會(huì)了合理的安排定價(jià),也進(jìn)一步證明了提出的動(dòng)態(tài)定價(jià)策略的優(yōu)越性。
圖3 四微網(wǎng)動(dòng)態(tài)定價(jià)策略采取的定價(jià)
在圖4中,整理了設(shè)置2下動(dòng)態(tài)定價(jià)和恒定定價(jià)策略在最近的50 000次迭代(收斂后)中獲得的平均回報(bào)。五個(gè)微網(wǎng)產(chǎn)生的能量低于其需求,另五個(gè)微網(wǎng)產(chǎn)生的能量高于前者,通過圖4分析發(fā)現(xiàn),電網(wǎng)并沒有受到太多的懲罰,建議的動(dòng)態(tài)定價(jià)模型對(duì)于大多數(shù)微網(wǎng)(十分之七)的恒定定價(jià)模型表現(xiàn)更好,說明了調(diào)度策略的合理性,電網(wǎng)在面對(duì)匱電的狀態(tài)時(shí)仍能夠合理的安排調(diào)度任務(wù),由此驗(yàn)證了系統(tǒng)調(diào)度模型的合理性。
圖4 設(shè)置2和3迭代中兩種定價(jià)策略獲得獎(jiǎng)勵(lì)的差異
通過圖4可以觀察到,微網(wǎng)在設(shè)置3中比在設(shè)置2中獲得更好的獎(jiǎng)勵(lì)(設(shè)置3中的獎(jiǎng)勵(lì)差異高于設(shè)置2)。將其歸因于這樣一個(gè)事實(shí),即與設(shè)置2相比,大多數(shù)微網(wǎng)在設(shè)置3中產(chǎn)生的能量更高,這使它們能夠出售更多的能量。此外,動(dòng)態(tài)定價(jià)的效果在它們開始產(chǎn)生更多的權(quán)力時(shí)就變得更加突出,正如它們的動(dòng)態(tài)定價(jià)獎(jiǎng)勵(lì)和恒定定價(jià)獎(jiǎng)勵(lì)之間的差異所注意到的。
從以上三種設(shè)置中可以看出,遵循動(dòng)態(tài)定價(jià)策略的代理商通常比固定定價(jià)模型表現(xiàn)更好。此外還表明,除了動(dòng)態(tài)定價(jià)外,微網(wǎng)還學(xué)會(huì)了智能地調(diào)度DN需求,從而將能耗從峰值需求轉(zhuǎn)移到其他地方。
本文研究了深度強(qiáng)化學(xué)習(xí)算法在局域微網(wǎng)能量調(diào)度中的應(yīng)用,提出了一種可以進(jìn)行能量交易、工作安排和動(dòng)態(tài)定價(jià)的局域微網(wǎng)。為了解決此問題,為每個(gè)微網(wǎng)設(shè)計(jì)了兩個(gè)網(wǎng)絡(luò)模型(DN網(wǎng)絡(luò)和ET網(wǎng)絡(luò)),他們可以同時(shí)執(zhí)行動(dòng)態(tài)定價(jià)和需求調(diào)度。本文首先通過設(shè)置的四電網(wǎng)模型,經(jīng)過觀察觀察其在固定定價(jià)策略和動(dòng)態(tài)定價(jià)策略下的獎(jiǎng)勵(lì)曲線,驗(yàn)證了所提出調(diào)度策略算法的合理性。為了進(jìn)一步驗(yàn)證調(diào)度策略的調(diào)度能力和促進(jìn)電網(wǎng)之間的交流,在設(shè)置二中采用了十電網(wǎng)案例并模擬了匱電場(chǎng)景,結(jié)果表明電網(wǎng)在面對(duì)匱電的狀態(tài)時(shí)仍能夠合理的安排調(diào)度任務(wù)。最后為了更加貼合現(xiàn)實(shí)場(chǎng)景,在設(shè)置三中增加了電能產(chǎn)量,結(jié)果表明,提出的系統(tǒng)模型能夠在滿足用戶需求的同時(shí)獲得最大的獎(jiǎng)勵(lì)。