王振宇,許 靜,胡文博,齊 蓓,萬長瑛
(1. 國網(wǎng)電力科學(xué)研究院有限公司(南瑞集團(tuán)有限公司),南京 210000;2. 國網(wǎng)電力科學(xué)研究院武漢能效測評有限公司,武漢 430074)
由于新能源出力的隨機(jī)性,負(fù)荷側(cè)柔性資源的有效利用成為低成本平抑新能源波動的有效手段。園區(qū)通過分布式發(fā)電利用分散的新能源,并建設(shè)儲能系統(tǒng)和新型負(fù)荷控制系統(tǒng),促進(jìn)新能源的本地消納,這已成為新能源有效利用的較為安全可靠的方式。
目前工商業(yè)園區(qū)用電成本高,用能形式粗放,電能利用效率低[1],具有很大的優(yōu)化空間。開發(fā)面向園區(qū)的新型負(fù)荷管理系統(tǒng)對于園區(qū)的能效提升、可靠供電、經(jīng)濟(jì)低碳運(yùn)行具有積極意義[2]。文獻(xiàn)[3]提出了一種兩階段魯棒優(yōu)化方法,通過對微電網(wǎng)內(nèi)分布式新能源、儲能、負(fù)荷進(jìn)行調(diào)度實(shí)現(xiàn)了系統(tǒng)日運(yùn)行成本最小化。文獻(xiàn)[4]為了提高微電網(wǎng)能量管理的可靠性,采用了模糊控制方法對微電網(wǎng)進(jìn)行能量管理。
上述研究工作都是依賴傳統(tǒng)優(yōu)化方法,沒有考慮交互式學(xué)習(xí)的方法[5]。傳統(tǒng)的能量優(yōu)化算法都是基于數(shù)值優(yōu)化的算法,延續(xù)了傳統(tǒng)優(yōu)化算法計(jì)算代價(jià)大和算法復(fù)雜度高的缺點(diǎn)。并且傳統(tǒng)的能量管理算法響應(yīng)速度慢,難以在極短的時(shí)間內(nèi)為管理中心提供能量管理的結(jié)果、做到實(shí)時(shí)能量管理。而基于學(xué)習(xí)思想的能量管理方法能為解決微電網(wǎng)中復(fù)雜的能量管理問題實(shí)現(xiàn)數(shù)量級的優(yōu)化加速[6]。文獻(xiàn)[7]證明強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)可以在風(fēng)力微電網(wǎng)的能量管理中有出色的表現(xiàn),通過建立一個(gè)模擬用戶與環(huán)境之間動態(tài)交互模型,利用交互式學(xué)習(xí)來選擇最佳的用能操作。文獻(xiàn)[8]使用Qlearning 算法來控制智能電池的充電和放電以實(shí)現(xiàn)能耗成本的減少。由于表格搜索的限制,基于Qlearning 算法的策略無法應(yīng)對連續(xù)的狀態(tài)空間和環(huán)境的不確定性,為解決Q-learning算法的局限性。文獻(xiàn)[9]使用了雙重深度Q 網(wǎng)絡(luò)(double deep Q-network,DDQN)來管理微電網(wǎng)系統(tǒng)中電池儲能系統(tǒng)(battery energy storage system,BESS)的運(yùn)行以降低電網(wǎng)的用能成本。文獻(xiàn)[10]對比了3種不同的基于深度Q網(wǎng)絡(luò)的改進(jìn)算法在微電網(wǎng)中能量管理的表現(xiàn)。
不僅是連續(xù)的狀態(tài)空間可以應(yīng)對動態(tài)環(huán)境中的不確定性,連續(xù)的動作空間也可以更好地模擬實(shí)際情況下微電網(wǎng)中的控制動作。在上述文獻(xiàn)中,由于算法的局限性,對微電網(wǎng)中的控制操作做了一定的簡化以便于離散化。而實(shí)際上有許多可控單元的控制量取在一個(gè)連續(xù)的動作空間,離散化不可避免地導(dǎo)致控制精度的下降。為了更貼合實(shí)際場景,本文建立了包含連續(xù)動作空間的馬爾科夫決策過程(Markov decision process,MDP),設(shè)計(jì)了基于深度神經(jīng)網(wǎng)絡(luò)的隨機(jī)策略。另外,由于BESS容量有限并且受其放電深度(depth of discharge,DOD)的影響,無合理規(guī)劃的使用會加快其電池退化,縮短電池壽命,進(jìn)而增加園區(qū)微電網(wǎng)的運(yùn)營成本。因此在計(jì)算經(jīng)濟(jì)成本時(shí),需要充分考慮BESS電池退化成本。
園區(qū)微電網(wǎng)具有不確定的用能需求、分布式新能源發(fā)電、BESS 和能源管理系統(tǒng),并在日前市場的電力電價(jià)下依托能源管理系統(tǒng)運(yùn)行。能源管理系統(tǒng)能接收來自電力運(yùn)營商提供的電力價(jià)格、分布式發(fā)電及其預(yù)測情況等信息。該園區(qū)微電網(wǎng)的主要結(jié)構(gòu)如圖1所示。假設(shè)此園區(qū)微電網(wǎng)與公共電網(wǎng)互連,能夠從公共電網(wǎng)購入或者向公共電網(wǎng)提供電能。本部分將對該園區(qū)微電網(wǎng)的主要構(gòu)成及運(yùn)行機(jī)制進(jìn)行建模。
圖1 園區(qū)微電網(wǎng)的主要結(jié)構(gòu)Fig.1 Main structure of microgrid in the park
電池儲能系統(tǒng)中蓄電池的荷電狀態(tài)演化模型為
為了配合分布式發(fā)電,對園區(qū)微電網(wǎng)中BESS的耐用性及經(jīng)濟(jì)性要求也越來越高。為了減少因電池退化造成的電池容量損失,本文考慮電池退化成本,將電池的長期損耗量化為每個(gè)時(shí)段為此支付的成本??紤]到電池容量和使用壽命受其放電深度和荷電狀態(tài)的影響[11],本文建立的電池退化成本模型由荷電狀態(tài)相關(guān)退化和放電深度相關(guān)退化兩個(gè)部分組成。
荷電狀態(tài)相關(guān)退化在一個(gè)時(shí)段中的退化成本模型建立如下
式中:C0為電池安裝成本;α和β由實(shí)驗(yàn)測量數(shù)據(jù)的線性回歸確定[12];CFmax為最大容量衰減常數(shù),可以設(shè)定為20%。模型中電池壽命假定為15 a,每年為365 d[12]。
BESS的電池容量受其放電深度的影響,該深度決定了電池在失效前可以承受的循環(huán)次數(shù)。電池的循環(huán)壽命通常定義為電池在容量低于標(biāo)稱容量的80%前可以執(zhí)行的充電和放電循環(huán)次數(shù)[13]。放電深度相關(guān)的退化成本建模如下
1.2.1 可再生能源發(fā)電
對于園區(qū)微電網(wǎng)來說,可以從公共電網(wǎng)購買電力或?qū)㈦娏Τ鍪劢o公共電網(wǎng),但兩者不能同時(shí)發(fā)生。同樣,BESS 也不能同時(shí)進(jìn)行充電和放電操作。此約束表示如下
為了幫助節(jié)省園區(qū)微電網(wǎng)日常運(yùn)營成本,同時(shí)延緩電池退化,本文將微電網(wǎng)的優(yōu)化運(yùn)行問題建模為一個(gè)MDP。MDP是通過智能體與環(huán)境的交互式學(xué)習(xí)來實(shí)現(xiàn)目標(biāo)的理論框架,由狀態(tài)空間S,動作空間A,狀態(tài)轉(zhuǎn)移概率P,獎勵函數(shù)R和獎勵折扣因子γ組成。用t表示時(shí)段的序號,Δt是時(shí)段的長度。
1.4.1 狀態(tài)
所建立的MDP的狀態(tài)空間定義為
1.4.3 轉(zhuǎn)移概率
在動作at被執(zhí)行后,環(huán)境的狀態(tài)在t+1 時(shí)段以P(st+1|st)的概率從st變?yōu)閟t+1。狀態(tài)轉(zhuǎn)移概率對能源管理系統(tǒng)來說是未知的。由于天氣等因素給分布式發(fā)電帶來的不確定性以及動態(tài)需求和電能價(jià)格的波動性,MDP中的狀態(tài)轉(zhuǎn)換難以用概率分布顯式地描述。本文設(shè)計(jì)的基于深度神經(jīng)網(wǎng)絡(luò)的隨機(jī)策略可以直接從原始的高維數(shù)據(jù)中學(xué)習(xí),不需要任何關(guān)于隨機(jī)性分布的信息,能夠克服上述不確定性及波動性。
1.4.4 獎勵
MDP 中的獎勵值被用來評估智能體的表現(xiàn)。在本文中設(shè)計(jì)的獎勵函數(shù)由3部分組成。第一部分是微電網(wǎng)在t時(shí)段運(yùn)行時(shí),該微電網(wǎng)中因電能的消耗所產(chǎn)生的能耗成本,其計(jì)算公式如下
在初步的模擬實(shí)驗(yàn)中,發(fā)現(xiàn)僅使用R1和R2的總和對于智能體來說難以學(xué)習(xí),這是因?yàn)橹悄荏w會在分布式發(fā)電輸出低但需求高時(shí)受到懲罰,在分布式發(fā)電輸出高但需求低時(shí)受到獎勵,而這兩者都難以控制。因此加入了第三部分進(jìn)行調(diào)整,表示為
該項(xiàng)表示若BESS進(jìn)行放電操作,智能體將獲得獎勵,從而可以鼓勵能源管理系統(tǒng)使用儲能;若BESS處于充電狀態(tài),同時(shí)使用的是來自公共電網(wǎng)的電力能源,那么除了獎勵函數(shù)中的第一部分R1會給予懲罰以外,該部分也會再次對智能體給予懲罰。因此,本文建立的獎勵函數(shù)可以提高BESS 的利用率,同時(shí)減少額外從公用電網(wǎng)購買的電力,以實(shí)現(xiàn)微電網(wǎng)運(yùn)行的經(jīng)濟(jì)性和環(huán)保性目標(biāo)。
綜上,在t時(shí)段獎勵函數(shù)的建模如下
式中:Π 為所有策略的集合;γ為獎勵折扣系數(shù);策略π(a|s)∈[0,1]:s→P(a)為當(dāng)系統(tǒng)狀態(tài)為s時(shí)選擇動作a的概率;Eπ(·)為在遵循策略π時(shí)隨機(jī)變量的期望值。
在由θ參數(shù)化的概率分布中搜索最優(yōu)策略,設(shè)計(jì)了概率分布如
式中:近似策略πθ為標(biāo)準(zhǔn)正態(tài)分布;μθ(st)和σθ分別為其均值和標(biāo)準(zhǔn)差。
本文提出一種深度神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)策略πθ的最優(yōu)分布參數(shù)μθ(st)和σθ,稱該深度神經(jīng)網(wǎng)絡(luò)為策略網(wǎng)絡(luò)。圖2描述了所提出的神經(jīng)網(wǎng)絡(luò)的架構(gòu)示意圖。策略網(wǎng)絡(luò)的輸入為本文所建立的MDP 模型的狀態(tài)空間st,如式(15)所示,輸出為標(biāo)準(zhǔn)正態(tài)分布的均值μθ(st)和對數(shù)標(biāo)準(zhǔn)差log(σθ)。從輸入到輸出,深度神經(jīng)網(wǎng)絡(luò)中的計(jì)算運(yùn)行過程如下
圖2 策略網(wǎng)絡(luò)架構(gòu)Fig.2 Strategy network architecture
式中:Re LU(x)=max(0,x) 為線性整流函數(shù);Wl,Bl∈θ,l=1,2,...,L分別為第l個(gè)隱藏層的權(quán)值矩陣和偏置矩陣;f(st)為深度神經(jīng)網(wǎng)絡(luò)的隱藏層從輸入st中提取的潛在特征;W,B∈θ分別為輸出層的權(quán)值矩陣和偏置矩陣。
為了優(yōu)化本文所提出的基于深度神經(jīng)網(wǎng)絡(luò)的隨機(jī)策略,使用策略梯度方法來搜索參數(shù)化策略集合Πθ中的最優(yōu)值,以最大化式(21)所示的目標(biāo)函數(shù)J(π)
通過最大化代理目標(biāo)和最小化損失函數(shù)更新所提出的兩個(gè)神經(jīng)網(wǎng)絡(luò)的參數(shù)
新能源發(fā)電基于在比利時(shí)輸電系統(tǒng)運(yùn)營商Elia收集的實(shí)際供能數(shù)據(jù)模擬新能源的輸出功率,運(yùn)營商Elia 24 h不間斷地跟蹤和預(yù)測太陽能發(fā)電情況和風(fēng)力發(fā)電情況。運(yùn)營商Elia的供能信息和新能源發(fā)電數(shù)據(jù)及其預(yù)測數(shù)據(jù)等信息通過微電網(wǎng)中的信息流網(wǎng)絡(luò)傳遞給新型負(fù)荷管理系統(tǒng)。本地的電力價(jià)格和從公共電網(wǎng)進(jìn)口的電力價(jià)格來自加利福尼亞州的日前批發(fā)能源市場。出口回公共電網(wǎng)的電力價(jià)格設(shè)定為當(dāng)前進(jìn)口價(jià)格的90%。
仿真模擬運(yùn)行了運(yùn)營商Elia 2018年12月前30 d的數(shù)據(jù)和加利福尼亞日前批發(fā)能源市場2019年11月的數(shù)據(jù),并以此作為訓(xùn)練集進(jìn)行訓(xùn)練。利用運(yùn)營商Elia 2019年1月前30 d的數(shù)據(jù)和加利福尼亞日前批發(fā)能源市場2019年12月前30 d的數(shù)據(jù)作為測試集進(jìn)行測試。
在所提出的方法中,策略網(wǎng)絡(luò)具有3個(gè)隱藏層,每層有128個(gè)ReLU神經(jīng)元,輸出層有1個(gè)線性神經(jīng)元。價(jià)值網(wǎng)絡(luò)與策略網(wǎng)絡(luò)具有相同的結(jié)構(gòu)。在獎勵函數(shù)中,權(quán)重因子設(shè)置為:ω1=2,ω2=4。本文所提出的方法在訓(xùn)練過程中的參數(shù)設(shè)置如表1所示。
表1 算法中的參數(shù)設(shè)置Table 1 Algorithm parameter settings
本文所提出的方法在訓(xùn)練過程中每集的平均獎勵如圖3所示。從圖3中可以觀察到,每集的平均獎勵值在訓(xùn)練開始后迅速增加,并在經(jīng)過大約5 500集的迭代后趨于穩(wěn)定,在訓(xùn)練結(jié)束時(shí)收斂于-24.5左右。
圖3 在訓(xùn)練過程中每集的平均獎勵Fig.3 Average reward per episode during training
本節(jié)將通過3種案例下的仿真實(shí)驗(yàn)進(jìn)行對比,評估本文所提出的微電網(wǎng)能量管理優(yōu)化方法(案例1)。
案例1:基于PPO算法的微電網(wǎng)運(yùn)行優(yōu)化方案,即本文所提出的方法。
案例2:不使用BESS。在該案例情景下,BESS一直保持空閑,若微電網(wǎng)中的供能在滿足了微電網(wǎng)中的需求后還有額外的剩余,則將其出售給公用電網(wǎng);若存在能量赤字,則向公用電網(wǎng)購入電力能源,除此之外其余設(shè)置均不變。此案例情景下不存在因使用BESS而產(chǎn)生的電池退化成本。
案例3:基于深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法的微電網(wǎng)運(yùn)行方案。DDPG進(jìn)一步地融合了深度Q網(wǎng)絡(luò)的成功經(jīng)驗(yàn),設(shè)置了經(jīng)驗(yàn)回放和單獨(dú)的目標(biāo)網(wǎng)絡(luò),經(jīng)驗(yàn)回放可以打破存儲序列之間的相關(guān)性。DDPG是一個(gè)行動器-評判器算法,它具有4個(gè)神經(jīng)網(wǎng)絡(luò):2個(gè)Actor網(wǎng)絡(luò)和2個(gè)Critic網(wǎng)絡(luò)。仿真建立了具有3個(gè)隱藏層、每層128個(gè)ReLU神經(jīng)元的Actor網(wǎng)絡(luò),和與Actor網(wǎng)絡(luò)具有相同結(jié)構(gòu)的Critic網(wǎng)絡(luò)。此外,為了使得該算法能更廣泛地探索動作空間,防止其陷入局部最優(yōu)解,本文在實(shí)驗(yàn)中還為Actor網(wǎng)絡(luò)加入了噪聲函數(shù)。
圖4 對比了案例1 和案例3 在訓(xùn)練階段每集平均獎勵的趨勢。案例3 的平均獎勵最終收斂在-32.99左右。從圖4中可以看出,本文所提方法比基于DDPG算法的能量管理方法表現(xiàn)出更穩(wěn)定的學(xué)習(xí)能力并能獲得更高的獎勵值。
圖4 案例1和案例3下訓(xùn)練階段平均獎勵的趨勢Fig.4 Trends of average vewards in training stage under case 1 and case 3
圖5 不同案例下的累計(jì)運(yùn)營成本Fig.5 Cumulative operating costs in different cases
表2 不同案例下微電網(wǎng)運(yùn)營30天的總費(fèi)用Table 2 Total cost of microgrid operating for 30 days indifferent cases美元
為了進(jìn)一步驗(yàn)證本文所提出方法,圖6和圖7分別描述了在不同權(quán)重ω1下微電網(wǎng)中BESS具體連續(xù)兩天內(nèi)的運(yùn)行情況。結(jié)合圖6和圖7可以觀察得出,當(dāng)電池退化成本分量隨著ω1的增大而增加時(shí),BESS的充放電次數(shù)也隨之減少,可見所提出的方法通過避免BESS長期頻繁的充電和放電操作來降低電池退化成本,從而延緩電池?fù)p耗。同時(shí)也說明電池退化成本分量在獎勵函數(shù)中的作用。另外,圖7還表明BESS會選擇在電能價(jià)格相對較高時(shí)進(jìn)行放電,在電能價(jià)格相對較低時(shí)進(jìn)行充電,以實(shí)現(xiàn)微電網(wǎng)運(yùn)行的經(jīng)濟(jì)性。
圖6 ω1=0 時(shí)BESS連續(xù)兩日內(nèi)的運(yùn)行情況Fig.6 Operation of BESS for 2 consecutive days when ω1=0
圖7 ω1=2 時(shí)BESS連續(xù)兩日內(nèi)的運(yùn)行情況Fig.7 Operation of BESS for 2 consecutive days when ω1=2
圖8顯示了微電網(wǎng)在能源管理系統(tǒng)的控制下一周內(nèi)具體的運(yùn)行情況。從圖8中可以看出,當(dāng)微電網(wǎng)中的電力需求較低且同時(shí)分布式發(fā)電的產(chǎn)能還有剩余時(shí),能源管理系統(tǒng)會優(yōu)先選擇利用BESS進(jìn)行充電操作而不是將電能出售給公共電網(wǎng)。且當(dāng)能源價(jià)格較低時(shí),BESS能夠以更大的功率充電,盡管這種行為當(dāng)時(shí)會受到一定的懲罰,即智能體會收到負(fù)的獎勵值,但會在以后帶來更大的回報(bào),例如在電力能源價(jià)格較高的時(shí)候放電以供應(yīng)微電網(wǎng)的電力需求。這再次驗(yàn)證了所提出的方法可以學(xué)習(xí)和優(yōu)化智能網(wǎng)絡(luò)的能量管理,盡可能地節(jié)省微電網(wǎng)的運(yùn)行成本。
圖8 園區(qū)1周內(nèi)的運(yùn)行情況Fig.8 Operation of the park within a week
綜上所述,本文所提出的考慮電池退化成本的微電網(wǎng)能量管理優(yōu)化方法可以提高微電網(wǎng)日常運(yùn)行的經(jīng)濟(jì)效益,同時(shí)通過減少BESS頻繁地充電和放電行為來延長電池的使用壽命。
本文首先建立了一個(gè)具有連續(xù)狀態(tài)空間和連續(xù)動作空間且轉(zhuǎn)移概率未知的MDP模型表述園區(qū)微電網(wǎng)的負(fù)荷控制與管理,連續(xù)的動作空間更符合含BESS或具備高度靈活性柔性資源的調(diào)控需求。設(shè)計(jì)了基于深度神經(jīng)網(wǎng)絡(luò)的隨機(jī)策略,使用基于PPO 算法的深度強(qiáng)化學(xué)習(xí)方法來學(xué)習(xí)并獲得最佳策略。所提方法能直接從高維的原始數(shù)據(jù)中學(xué)習(xí),克服了負(fù)荷動態(tài)需求、電價(jià)波動(現(xiàn)貨市場日前市場)、分布式發(fā)電出力等不確定性因素,實(shí)現(xiàn)園區(qū)電能量系統(tǒng)日常運(yùn)行經(jīng)濟(jì)性的同時(shí)延緩了電池容量損耗。在仿真實(shí)驗(yàn)中將本文所提方法的表現(xiàn)結(jié)果與不使用BESS案例、DDPG算法案例下的表現(xiàn)結(jié)果進(jìn)行比較,并且分別通過對具體連續(xù)2 d和連續(xù)7 d內(nèi)園區(qū)運(yùn)行情況的觀察,證明了所提方法的有效性。D