李擎,王歲寧,崔家瑞,楊旭,閻群,馬文雨
(北京科技大學自動化學院,北京 100083)
隨著全球經(jīng)濟的快速發(fā)展和人口增長,能源供應成為一個世界范圍內的重要問題。2021年 3月 11日,十三屆全國人大四次會議表決通過了關于國民經(jīng)濟和社會發(fā)展第十四個五年規(guī)劃和 2035 年遠景目標綱要的決議。“十四五”規(guī)劃第五篇第十八章專欄九提出建設智慧社區(qū)[1]。作為智慧城市的重要組成部分[2],其能源系統(tǒng)的運行成本降低對于提高能源利用效率和減輕發(fā)電廠的運行壓力具有重要意義[3-4]。
目前,中外學者提出了多種智慧社區(qū)能源系統(tǒng)模型,實現(xiàn)了智慧社區(qū)能源系統(tǒng)的能源運行優(yōu)化。文獻[5]改進了風力發(fā)電系統(tǒng)的有功功率概率模型,探討了具有主動控制能力的光伏發(fā)電系統(tǒng)的概率特性,建立了主動配電網(wǎng)可控分布式發(fā)電的概率模型。文獻[6]提出了一個由多種可再生能源和地熱系統(tǒng)組成的智慧社區(qū)模型,為用戶提供電、暖、生活熱水和淡水等資源。文獻[7]考慮將電動汽車作為重要的主動負荷并加入能源系統(tǒng)模型中,合理引導充電以促進能源系統(tǒng)的高效運行。
建立系統(tǒng)模型后,還需要在系統(tǒng)層對智慧社區(qū)進行能源優(yōu)化調度。近年來,強化學習算法為能源優(yōu)化調度提供了新思路。文獻[8]提出了一種使用縱向聯(lián)邦學習技術訓練方法改進的深度Q網(wǎng)絡(deep Q network,DQN)管理方法,以提升模型訓練效率并優(yōu)化經(jīng)濟效益。文獻[9]提出了一種雙層強化學習模型,上層為強化學習智能體,下層為線性優(yōu)化求解器,通過簡化動作和獎勵設計,提高了強化學習算法的訓練速度和收斂性能。文獻[10]考慮各單元組件的響應優(yōu)先級,采用具有經(jīng)驗池的異步優(yōu)勢演員評論家(memory A3C,M-A3C)解決多線程資源優(yōu)先級分配問題,提高了學習效率,降低了運行成本。文獻[11]提出了一種基于隨機動態(tài)規(guī)劃的在線算法,考慮電動汽車和柔性熱負荷的不確定性,解決了綜合能源建筑的能源管理問題。文獻[12]提出了一種充電算法(customized actor-critic learning charging,CALC),在電動汽車到達時間、出發(fā)時間和充電需求等未知情況下,通過降低狀態(tài)維度和提高計算效率,降低了充電成本。文獻[13]提出了一種多智能體深度強化學習方法,根據(jù)電動汽車相關信息和儲能系統(tǒng)的狀態(tài)等動態(tài)數(shù)據(jù)分布式計算多個電動汽車充電站的調度解,降低了電動汽車充電站的運行成本。文獻[14]提出了一種基于分布式近端策略優(yōu)化(distributed proximal policy optimization,DPPO)的分布式能源系統(tǒng)運行優(yōu)化方法,實現(xiàn)了能源系統(tǒng)的經(jīng)濟性調度。
以上文獻對智慧社區(qū)能源系統(tǒng)的建模問題進行了深入廣泛的研究,然而,在實際應用中,還需要考慮電動汽車充放電行為的隨機性對系統(tǒng)負荷和供需平衡的影響。電動汽車已成為智慧社區(qū)的重要組成部分,因此需要進一步研究其在能源系統(tǒng)中的作用?,F(xiàn)首先分析電動汽車及各能源設備運行機理,構建新型智慧社區(qū)能源系統(tǒng)模型。其次分析新型智慧社區(qū)能源系統(tǒng)多種能源設備的能量耦合關系并將電動汽車分為耗能組和儲能組,分別作為用電負荷和儲能設備參與系統(tǒng)運行。再次考慮電動汽車及各能源設備的非線性約束條件,基于深度雙Q網(wǎng)絡(double deep Q network,DDQN)提出考慮電動汽車充放電的智慧社區(qū)能源優(yōu)化調度策略。為了最小化智慧社區(qū)能源系統(tǒng)的運行成本,對DDQN進行改進,重新設計算法的狀態(tài)空間、動作空間以及獎勵函數(shù),從而解決智慧社區(qū)能源系統(tǒng)的運行優(yōu)化問題。最后算例表明本優(yōu)化調度策略在降低智慧社區(qū)能源系統(tǒng)運行成本方面的有效性和可行性。
傳統(tǒng)的模型無法解決電動汽車充放電對智慧社區(qū)能源系統(tǒng)產(chǎn)生影響的問題。因此,構建了新型智慧社區(qū)能源系統(tǒng)模型,將電動汽車作為儲能設備。如圖1所示,該系統(tǒng)由供能單元、能量轉換和儲能單元及用能單元構成。其中,供能單元包括公共電網(wǎng)和太陽能,為用戶提供能源;能量轉換和儲能單元包括光伏設備、電制熱設備、電制冷設備、蓄電池、蓄冷設備、蓄熱設備和儲能組電動汽車,通過將電能轉化為其他能源和釋放儲存能源為用戶提供冷、熱、電3種能源;用能單元包括用戶冷、熱、電負荷和耗能組電動汽車。其中,光伏設備、蓄電池、儲能組電動汽車可以向電網(wǎng)回饋電能,從而降低系統(tǒng)運行成本。
光伏設備發(fā)電功率根據(jù)當前時刻垂直于陣列表面入射輻射功率Gt(t)和環(huán)境溫度Tamb(t)數(shù)據(jù)計算[15-16]。模型表示為
TC.STC)]NPV.SNPV.P
(1)
(2)
式中:Gt(t)和Tamb(t)分別為垂直于陣列表面入射的輻射功率和環(huán)境溫度;PPV.STC為標準試驗條件下太陽能板的標稱功率;γ為功率折減系數(shù);TC(t)為工作條件下的電池溫度;TC.STC為標準試驗條件下的電池溫度;NPV.S和NPV.P分別為串并聯(lián)的光伏電池數(shù)量;NOCT為正常運行時電池溫度。
蓄電池荷電狀態(tài)SOCBat(t)變化采用安時積分法通用公式計算。模型表示為
(3)
(4)
式中:SOCcha(t)、SOCdis(t)分別為t時刻充電、放電狀態(tài)荷電狀態(tài);Δt為時間間隔;η為充放電效率,0<η<1;Pcha(t)為充電功率;Pdis(t)為放電功率;Q為額定容量。
電動汽車模型包括單輛電動汽車充電量需求模型和數(shù)量模型[17-18]。在智慧社區(qū)能源系統(tǒng)中,將電動汽車分為儲能組和耗能組,分別作為儲能設備和用電負荷參與智慧社區(qū)能源系統(tǒng)運行優(yōu)化。其中,儲能組電動汽車可以通過放電為用戶提供電能或向電網(wǎng)回饋電能,而耗能組電動汽車僅進行充電操作。電動汽車分組策略流程如圖2所示。
圖2 電動汽車分組策略流程圖
1.3.1 電動汽車能量模型
基于文獻[17]中的概率模型,建立電動汽車能量模型。單輛電動汽車的每日行駛距離Md由式(5)計算,對數(shù)正態(tài)分布參數(shù)μm和σm由式(6)計算。
Md=exp(μm+σmN)
(5)
(6)
式中:N為標準正態(tài)變量;μMd和σMd分別為Md的均值和標準差。
單輛電動汽車充電量需求DE為
(7)
(8)
式中:AE為每公里耗能;ME為最大行駛距離;CEV為電動汽車額定容量。
單輛電動汽車充電時間T遵循分布:
(9)
式(9)中:U服從區(qū)間(0,1)的均勻分布;Tmin為最低充電時間;Tmax為最高充電時間;Tμ為用戶平均充電時間。
單輛電動汽車電流I計算公式為
(10)
式(10)中:V為充電樁電壓;Imax為最大充電電流。
則n輛電動汽車充電需求P為
(11)
1.3.2 電動汽車數(shù)量模型
基于文獻[17-18]中的概率模型,建立電動汽車數(shù)量模型。假設電動汽車的到達時間和充電持續(xù)時間是相互獨立的,均為泊松過程,則可使用排隊論中M/M/n/m/m排隊系統(tǒng)模型來描述其整個充電過程。其中第一個M表示電動汽車到達的間隔時間,服從平均值為Tλ的指數(shù)分布,第二個M表示電動汽車的充電時間,服從平均值為Tμ的指數(shù)分布,n表示同時充電的最大電動汽車數(shù),第一個m表示隊列中等待充電的最大電動汽車數(shù),第二個m表示潛在的需要充電的最大電動汽車數(shù)。
根據(jù)排隊論,隊列中同時充電的電動汽車數(shù)n服從離散分布,即
(12)
(13)
式中:c為同時充電的最大電動汽車數(shù);Nmax為潛在的需要充電的最大電動汽車數(shù);k為隊列中等待充電的最大電動汽車數(shù);ρ為每臺充電樁的占用率,由式(13)計算。
利用式(12)離散分布產(chǎn)生每小時電動汽車數(shù)量NEV,將電動汽車分為兩組:儲能組電車數(shù)量NEV.Bat、耗能組電車數(shù)量NEV.LOAD。
1.3.3 儲能設備組電動汽車能量模型
儲能組電動汽車作為儲能設備使用,t時刻單輛電動汽車荷電狀態(tài)SOCEV.Bat和儲能組總荷電狀態(tài)SOCEV模型為
(14)
式(14)中:DEV.Bat為單輛儲能組電動汽車的充電需求;DEV.Bat.i為第i輛儲能組電動汽車的充電需求,由式(7)和式(8)計算。
單輛電動汽車荷電狀態(tài)SOCEV.Bat(t)變化由式(15)和式(16)計算。
SOCEV.Bat.cha(t+Δt)=SOCEV.Bat.cha(t)+
(15)
SOCEV.Bat.dis(t+Δt)=SOCEV.Bat.dis(t)-
(16)
式中:SOCEV.Bat.cha(t)、SOCEV.Bat.dis(t)充電、放電狀態(tài)單輛電動汽車荷電狀態(tài);Δt為時間間隔;PEV.cha(t)和PEV.dis(t)分別為儲能組電動汽車充電功率和放電功率;ηEV.cha和ηEV.dis分別為儲能電動汽車充電效率和放電效率,取決于電池性能。
1.3.4 耗能設備組電動汽車能量模型
耗能設備組全部作為用電負荷加入用能單元,耗能組單輛電動汽車充電需求DEV.LOAD由式(7)和式(8)計算,充電時間TEV.LOAD遵循分布式(9),單輛電動汽車充電電流IEV.LOAD由式(10)計算,b輛耗能組電動汽車總充電功率由式(11)計算。
制冷設備、制熱提供的輸出功率主要取決于能效比ηE,計算公式為
POut(t)=ηEPIn(t)
(17)
式(17)中:PIn(t)為設備的輸入電功率;POut(t)為輸出功率;ηE為轉化效率。
蓄能設備可用于儲存冷、熱能兩種能源,其剩余能量QCool(t)、QHeat(t)如式(18)和式(19)計算。蓄能計算公式、釋能計算公式[19]為
Qe.in(t+Δt)=Qe.in(t)(1-μQ.in)+
ηinPin(t)Δt
(18)
Qe.out(t+Δt)=Qe.out(t)(1-μQ.out)-
(19)
式中:Qe.in(t)、Qe.out(t)為t時刻設備中蓄能、釋能狀態(tài)剩余能量;Δt為時間間隔;μQ.in、μQ.out分別為蓄釋能自損失率;Pin(t)、Pout(t)分別為蓄釋熱功率;ηin、ηout分別為蓄釋能效率。
考慮電動汽車作為儲能設備的新型智慧社區(qū)能源優(yōu)化調度模型以最小化系統(tǒng)總運行成本作為目標函數(shù)。
EGrid.User(t)+ECool(t)+EHeat(t)]+
r2(t)EGrid.EV(t)-{s1EPV.Grid(t)+
s2(t)[EBat.Grid.dis(t)+EEV.Grid.dis(t)]}
(20)
式(20)中:r1(t)為從電網(wǎng)購電價格;r2(t)為電動汽車充電樁的購電價格;s1為光伏電出售價格;s2(t)用戶儲存電能出售價格;EGrid.Bat.cha(t)為電網(wǎng)供電池充電的電量;EGrid.User(t)為用戶購電電量;ECool(t)為制冷設備耗電電量;EHeat(t)為制熱設備耗電電量;EGrid.EV(t)為電動汽車充電的電量;EPV.Grid(t)為光伏上網(wǎng)發(fā)電電量;EBat.Grid.dis(t)為電池上網(wǎng)放電電量;EEV.Grid.dis(t)為電動汽車上網(wǎng)放電電量。
電量計算公式為
E(t)=P(t)Δt
(21)
式(21)中:P(t)為功率。
光伏發(fā)電功率平衡條件為
PPV(t)=PPV.User(t)+PPV.Bat.cha(t)+
PPV.Grid(t)+PPV.loss(t)
(22)
發(fā)電功率范圍為
0≤PPV(t)≤PPV.max
(23)
式中:PPV.User(t)為光伏供給用戶的功率;PPV.Bat.cha(t)為光伏供電池充電的功率;PPV.Grid(t)為光伏上網(wǎng)發(fā)電功率;PPV.loss(t)為發(fā)電損耗;PPV.max(t)為光伏設備發(fā)電最大值。
因為物理因素,蓄電池荷電狀態(tài)及充放電功率存在實際范圍,其荷電狀態(tài)約束及功率約束為
(24)
SOCBat.min≤SOCBat(t)≤SOCBat.max
(25)
式中:SOCBat.min為最低荷電狀態(tài);SOCBat.max為最高荷電狀態(tài);PBat.cha.min和PBat.cha.max分別為蓄電池充電功率最大最小值;PBat.dis.min和PBat.dis.max分別為蓄電池放電功率最大最小值。
蓄電池功率平衡條件為
(26)
式(26)中:UBat.cha(t)、UBat.dis(t)分別為蓄電池的充、放電開關變量,只能為1或0,約束電池不能同時充放電;PGrid.Bat.cha(t)為電網(wǎng)供電池充電功率;PBat.EV.dis(t)為電池供電動汽車的功率;PBat.User.dis(t)為電池供用戶的功率;PBat.Grid.dis(t)為電池上網(wǎng)放電功率。
因為物理因素,電動汽車荷電狀態(tài)及充放電功率存在實際范圍,其荷電狀態(tài)約束及功率約束為
(27)
SOCEV.min≤SOCEV(t)≤SOCEV.max
(28)
式中:SOCEV.min為最低荷電狀態(tài);SOCEV.max為最高荷電狀態(tài);PEV.cha.min和PEV.cha.max分別為單輛電動汽車充電功率最大最小值;PEV.dis.min和PEV.dis.max分別為單輛電動汽車放電功率最大最小值。
儲能組電動汽車總放電功率及總充電功率計算為
(29)
式(29)中:PEV.dis.all(t)為儲能組電車總放電功率;PEV.cha.all(t)為儲能組電車總充電功率;N1、N2分別為進行放和充電操作的電動汽車數(shù);PEV.dis.i1(t)為第i1輛儲能組電車的放電功率;PEV.dis.i2(t)為第i2輛儲能組電車的充電功率。
儲能設備組電動汽車放電功率平衡條件為
PEV.dis.all(t)=PEV.User.dis(t)+PEV.Grid.dis(t)
(30)
式(30)中:PEV.User.dis(t)為儲能設備組電動汽車供用戶的功率;PEV.Grid.dis(t)為電動汽車上網(wǎng)放電功率。
用戶功率平衡條件如式(31)所示,該約束條件用于計算用戶電網(wǎng)購電功率PGrid.User(t)。
PLOAD(t)=PGrid.User(t)+PPV.User(t)+
PBat.User.dis(t)+PEV.User.dis(t)
(31)
式(31)中:PLOAD(t)為用戶需求;PGrid.User(t)為購電功率。
因為物理因素,制冷及制熱設備輸出功率存在范圍,即
(32)
式(32)中:PCool.max、PHeat.max分別為制冷、制熱設備的最大輸出功率。
制冷及制熱設備功率平衡條件為
(33)
式(33)中:PCool(t)為制冷設備輸出功率;PHeat(t)為制熱設備輸出功率;PCool.LOAD(t)為用戶冷負荷需求功率;PHeat.LOAD(t)為用戶熱負荷需求功率;PCool.Store.in(t)為蓄冷設備蓄冷功率;PHeat.Store.in(t)為蓄熱設備蓄熱功率;PCool.Store.out(t)為蓄冷設備釋冷功率;PHeat.Store.out(t)為蓄熱設備釋熱功率。
因為物理因素,儲能設備存儲的能量存在范圍,且不能同時進行蓄、釋能,其約束條件為
(34)
式(34)中:Qe(t)為儲能設備剩余能量;Qe.min、Qe.max分別為儲能設備剩余能量的上、下限。
在智慧社區(qū)能源系統(tǒng)運行過程中未來的系統(tǒng)狀態(tài)演變與其歷史決策無關,僅與當前時刻系統(tǒng)狀態(tài)和采取的決策有關,因此智慧社區(qū)能源系統(tǒng)具有馬爾科夫性,智能體的決策過程可以表示為馬爾科夫決策過程(Markov decision process,MDP)。MDP模型可用一個五元組{S,A,O,R,λ}表示,其中S為狀態(tài)空間;A為動作空間;O為狀態(tài)轉移矩陣;R為獎勵;λ為折扣因子。智能體與智慧社區(qū)系統(tǒng)環(huán)境交互產(chǎn)生學習數(shù)據(jù),并在決策與演變過程中根據(jù)算法迭代學習產(chǎn)生最優(yōu)策略。
狀態(tài)空間應盡可能使用對決策產(chǎn)生重要影響的因素,就本系統(tǒng)而言智能體通過觀測智慧社區(qū)能源系統(tǒng)的狀態(tài)對各設備的運行進行最優(yōu)決策。因此,系統(tǒng)的狀態(tài)空間S可以表示為
S=[PPV(t),PLOAD(t),PCool.LOAD(t),
PHeat.LOAD(t),QCool(t),QHeat(t),SOCBat(t),SOCEV(t),NEV(t),PEV.LOAD(t)]
(35)
為實現(xiàn)智慧社區(qū)能源優(yōu)化調度,動作空間的各分量能夠實現(xiàn)智慧社區(qū)儲能設備、產(chǎn)能設備和耗能設備之間的交互運行,由儲能設備的蓄能功率、儲能設備及產(chǎn)能設備對耗能設備的供能功率表示。
因此,系統(tǒng)的動作空間可表示為
A=[PPV.User(t),PPV.Bat.cha(t),PPV.Grid(t),
PBat.User.dis(t),PBat.Grid.dis(t),PBat.EV.dis(t),
PGrid.Bat.cha(t),PEV.cha(t),PEV.User.dis(t),
PEV.Grid.dis(t),PCool.Store.out(t),PHeat.Store.out(t),
PCool.Store.in(t),PHeat.Store.in(t)]
(36)
智慧社區(qū)能源優(yōu)化調度的目標是在滿足用戶用能需求的基礎上最小化運行成本,而強化學習會通過訓練以獲得更大的獎勵,因此,獎勵函數(shù)Rt表示為當前用戶成本的負數(shù):
Rt(st,at)=-{r1(t)[EGrid.Bat.cha(t)+EGrid.User(t)+ECool(t)+EHeat(t)]+r2(t)EGrid.EV(t)-s2(t)[EBat.Grid.dis(t)+EEV.Grid.dis(t)]}
(37)
式(37)中:r1(t)為從電網(wǎng)購電價格;r2(t)為電動汽車充電樁的購電價格;s1為光伏電出售價格;s2(t)用戶儲存電能出售價格。
DDQN是一種基于價值迭代的深度強化學習算法。首先,隨機初始化Q網(wǎng)絡Q(θ)和Q-target網(wǎng)絡Q′(θ′),兩者的初始化參數(shù)相同,即θ=θ′,并設定訓練的回合M和Q-target網(wǎng)絡的更新間隔N。更新策略為貪婪策略ε-greedy。選擇動作at后,智能體從開始狀態(tài)St到達新狀態(tài)St+1,獲得即時獎勵Rt和回合結束標志done,并將樣本(St,at,St+1,done)存入經(jīng)驗池中。接著,從經(jīng)驗池中隨機抽取一個批次的樣本進行訓練并更新Q網(wǎng)絡的參數(shù)。當檢測到回合結束標志時,結束當前回合并開始下一回合,不斷重復上述訓練過程直到設定的訓練回合數(shù)M。其中,Q-target網(wǎng)絡更新采用硬更新的方法,即每隔一段訓練步數(shù)N,將Q網(wǎng)絡的參數(shù)直接復制給Q-target網(wǎng)絡。目標值qtarget(S,a)計算及參數(shù)更新公式為
(38)
θ=θ-μ?{∑[qtarget-Q(St,at,θ)]2}
(39)
DDQN算法的更新過程如圖3所示。
圖3 DDQN算法流程
本文算例中智慧社區(qū)設備參數(shù)參考文獻[19-20],社區(qū)用戶100戶,用戶某日24 h電負荷、冷負荷、熱負荷、光照輻射度和溫度數(shù)據(jù)均來自北京某小區(qū),時間尺度1 h。電動汽車充電電價參考北京市電動汽車收費標準,其中谷時段為23:00—07:00,平時段為08:00—10:00、16:00—18:00、22:00,峰時段為11:00—15:00、19:00—21:00,如表1所示。用戶購電分時電價如表2所示,其中谷時段為23:00—06:00,平時段為07:00—09:00、12:00—18:00,峰時段為10:00—11:00、19:00—22:00,儲能設備向電網(wǎng)出售電能時出售價格設定為0.45元/(kW·h),大于兩者谷時電價且低于兩者平時電價。發(fā)電機單位有功出力的碳排放分配額取為0.798 t/(MW·h),碳交易價格取52.78元/t,其中每戶的用電容量在kW級,用戶電負荷峰值150 kW,冷負荷峰值201 kW,熱負荷峰值67.2 kW,PV安裝容量在用電容量的0.5~2倍。儲能設備的容量為可在無發(fā)電情況下滿足4 h左右的用電需求。光伏設備裝機容量148.5 kW。每戶1輛電動汽車,每輛電動汽車容量213.6 Ah,充電樁規(guī)格為220 V/32 A直流充電樁,數(shù)量30個??紤]到電動汽車充電需求,蓄電池裝機容量480 kW,制冷設備裝機容量220 kW,蓄冷設備裝機容量500 kW,制熱設備裝機容量70 kW,蓄熱設備裝機容量120 kW。
表1 電動汽車充電分時電價
表2 用戶購電分時電價
算法超參數(shù)設置:batchsize為64;學習率為0.001;神經(jīng)網(wǎng)絡設置為兩個隱含層;神經(jīng)元數(shù)分別為100,100;訓練回合數(shù)為4 500;折扣因子γ=0.99;為保證算法收斂后仍有探索性,ε從0.99衰減至0.01。
圖4給出了智慧社區(qū)24 h輻射溫度的變化情況。在白天,輻射度和溫度都比較高,中午時達到頂峰;夜晚,輻射度幾乎為0,溫度約為20 ℃。圖5給出了用戶需求變化的曲線,3種負荷變化趨勢各具特點。用戶冷負荷需求在中午達到峰值,之后逐漸下降;熱負荷需求在0:00—16:00時較小,在夜晚時較大;而電負荷需求變化較為復雜,出現(xiàn)了多個用電高峰。
圖4 輻射度溫度變化曲線
圖5 用戶負荷需求變化曲線
智慧社區(qū)能源系統(tǒng)包含公共電網(wǎng)、光伏設備、蓄電池、電動汽車、制冷設備、制熱設備、蓄冷設備和蓄熱設備,按照電動汽車充放電模式設計3種運行策略。
(1)策略1:電動汽車無序充電:所有電動汽車僅進行充電操作,直至充電到100%。
(2)策略2:電動汽車智能充電:考慮正在充電的電動汽車中有50%用戶不參與智能充電策略。在智能充電策略下,系統(tǒng)首先滿足所有用戶的基本需求即電動汽車荷電狀態(tài)不低于80%。然后,根據(jù)系統(tǒng)策略選擇電動汽車是否繼續(xù)充電到100%。
(3)策略3:電動汽車智能充放電:考慮正在充電的電動汽車中有50%用戶不參與智能充放電策略。在智能充放電策略下,系統(tǒng)首先滿足所有用戶的基本需求即電動汽車荷電狀態(tài)不低于80%。然后,根據(jù)系統(tǒng)策略選擇電動汽車繼續(xù)充電或放電。
4.3.1 不同策略運行結果對比
為了測試所提出的策略在降低智慧社區(qū)能源系統(tǒng)運行成本方面的能力,測試了在3種策略下使用DDQN算法的性能,并獲得了訓練過程總運行成本隨訓練回合數(shù)的變化曲線,如圖6所示。DDQN智能體更新采取貪婪策略,訓練初期經(jīng)驗池樣本較少且ε較大,智能體通過與環(huán)境交互不斷挖掘樣本數(shù)據(jù)并存入經(jīng)驗池。隨著訓練的進行,智能體積累經(jīng)驗,獎勵值增大直至收斂。將ε最小值設置為0.01,保證算法在收斂后仍然具有探索性。
圖6 總運行成本變化曲線
從圖6可以看出隨著訓練的進行,3種策略下模型均收斂至最優(yōu)。策略1下總運行成本大約在 1 300 回合收斂至2 257.41元;策略2下總運行成本大約在1 500回合收斂至1 891.26元;策略3下總運行成本大約在1 500回合收斂至1 455.41元。策略3與其他兩種策略相比動作空間更復雜,全局尋優(yōu)難度更大,但收斂速度相差不大,并且能夠獲得更低的總運行成本。
為比較最優(yōu)策略下3種方案在降低系統(tǒng)運行成本方面的效果,建立如表3所示不同方案優(yōu)化結果表格??梢钥闯?方案3的總運行成本相對于方案1和方案2分別降低了802元與435.85元。從表3中可以看出,方案3電動汽車總運行成本相對于方案1和方案2分別降低了469.98元與182.9元,分別占總成本減少量的58.6%與41.96%。方案2的總運行成本相對于方案1降低了336.15元,電動汽車總運行成本降低了287.08元,占總成本減少量的85.4%。方案3相對于方案1和方案2電動汽車總運行成本減少量占比與方案2相對于方案1相比更低,而總運行成本降低更多,由此說明方案3通過將電動汽車作為儲能設備使用能夠有效降低總運行成本。方案3的碳排放量相對于方案1和方案2分別降低了902.84 t與409.04 t,碳交易成本分別降低了47 651.94元與21 589.13元。綜上反映了本文考慮將電動汽車作為儲能設備充放電策略在低碳與經(jīng)濟運行方面的優(yōu)越性和有效性。
表3 不同方案優(yōu)化結果
4.3.2 策略3運行結果分析
為詳細分析策略3對智慧社區(qū)能源系統(tǒng)的運行優(yōu)化調度過程,繪制智慧社區(qū)能源系統(tǒng)在1 h時間尺度下的電量、熱量和冷量的優(yōu)化調度結果如圖7所示。從圖7(a)可以看出,在電價谷時段和平時段,系統(tǒng)儲存冷能,在峰時段釋放冷能以降低運行成本,并滿足用戶的冷能需求。例如,在10:00—11:00和19:00—20:00這兩個峰時段,系統(tǒng)釋放了儲存的冷能來滿足用戶的需求。從圖7(b)可以看出,在電價谷時段和平時段,系統(tǒng)購電產(chǎn)熱以滿足用戶的熱負荷需求,并儲存熱能,在峰時段釋放熱能來滿足用戶的熱能需求。例如,在10:00—14:00這一時間段,系統(tǒng)釋放儲存的熱能來供應用戶的熱負荷需求,而在15:00—18:00這一時間段則儲存熱能以供夜晚的用熱高峰使用。系統(tǒng)在谷時段和平時段釋放能量不會影響滿足峰時段用戶用能需求,因此這種調度方式是合理的。例如,在03:00這一時間段,系統(tǒng)釋放熱能以滿足用戶的熱能需求,而在07:00這一時間段,系統(tǒng)通過釋放谷時段儲存的冷能稍微降低了運行成本。根據(jù)圖7(c)所示,智慧社區(qū)的優(yōu)化調度根據(jù)電價的變化來實現(xiàn)節(jié)能和增加用戶收入。在電價谷時段和平時段,系統(tǒng)從電網(wǎng)購電以滿足用戶和電動汽車的需求,同時將電能儲存在蓄電池中,以備在電價峰時段供電動汽車充電和用戶使用,或將多余的電能出售給電網(wǎng)以獲得收入。
為詳細分析策略3對儲能組電動汽車和蓄電池的優(yōu)化調度過程,繪制儲能組電動汽車電能優(yōu)化調度結果及蓄電池電能優(yōu)化調度結果柱形圖如圖8和圖9所示。可以看出,用戶電價和電動汽車電價的谷時段是02:00和05:00—06:00,此時儲能組的電動汽車可以出售電能以獲得收入。雖然16:00—18:00處于電動汽車電價平段,但在19:00—21:00蓄電池需要放電以供應電動汽車充電和用戶使用,從而節(jié)約大量運行成本,所以此時段儲能組電動汽車仍然可以出售電能以獲得收入。在電價峰時段,電負荷由電網(wǎng)、蓄電池和儲能組電動汽車共同供應。如10:00—13:00、19:00—23:00等時間段包含用戶電價和電動汽車電價的峰時段,此時蓄電池需要放電以供應電動汽車充電,并與儲能組電動汽車一起為部分用戶供電。因此,通過基于電動汽車充放電的策略,智慧社區(qū)能源系統(tǒng)能夠在電價谷時段和平時段出售電能或儲存能源,在電價峰時段使用預先儲存的能源,從而有效降低能源系統(tǒng)運行成本,同時增加用戶收入。
圖8 儲能組電動汽車電能優(yōu)化調度結果
圖9 蓄電池電能優(yōu)化調度結果
在考慮電動汽車充放電的前提下,建立了智慧社區(qū)能源系統(tǒng)模型,并利用DDQN強化學習算法建立了相應的智慧社區(qū)能源優(yōu)化調度策略模型。通過對不同策略的算例對比分析,得出以下結論。
(1)通過算例分析,驗證了該模型可以用于分析智慧社區(qū)的能源優(yōu)化調度,可以為智慧社區(qū)能源系統(tǒng)提供最優(yōu)調度方案。
(2)考慮電動汽車及各能源設備的非線性約束條件,重新設計了DDQN算法的動作空間、狀態(tài)空間和獎勵函數(shù)。通過將獎勵函數(shù)設置為每小時運行成本的負數(shù),智能體可以通過訓練獲得更高的獎勵,從而最小化總運行成本。
(3)對比無序充電與智能充電策略,發(fā)現(xiàn)所提出的策略可以分別將總運行成本降低802元和435.85元,占總運行成本的35.53%和23.95%。同時,碳排放量也分別降低了902.84 t和409.04 t,碳交易成本也分別降低了47 651.94元和21 589.13元。驗證了所提出策略在降低智慧社區(qū)能源系統(tǒng)運行成本方面的有效性。
(4)在實際應用中,用戶行為的影響、冷熱電負荷的擾動以及電動汽車數(shù)量的擾動都會增加智慧社區(qū)能源系統(tǒng)運行優(yōu)化的難度。因此,結合實際場景中存在的系統(tǒng)擾動并考慮更多不確定性因素,是未來智慧社區(qū)能源系統(tǒng)優(yōu)化調度研究的重要方向。