江友華, 帥祿瑋, 曹以龍
(上海電力大學(xué) 電子與信息學(xué)院, 上海 200090)
隨著電動汽車的發(fā)展,充電站的數(shù)量也在不斷增加。傳統(tǒng)充電站只能通過向用戶售電獲取利潤,而光伏充電站由于光伏電源的存在,既可以向用戶售電,也可以并網(wǎng)發(fā)電獲得收益。因此,如何合理分配充電功率和并網(wǎng)功率,以獲得最大化利潤是充電策略研究的重點[1-4]。
文獻(xiàn)[5]采用蒙特卡洛法,分析了光伏充電站在有序充電情況下的充電策略,直觀明了,但屬于離線優(yōu)化,需要大量的隨機模擬實驗,數(shù)據(jù)利用率過低。文獻(xiàn)[6]通過乘子交替方向算法,得到以充電電量和交互電量為優(yōu)化變量的分布式優(yōu)化模型,模型比較精確,但由于考慮了分布式的情況,所以模型的復(fù)雜度較高。文獻(xiàn)[7]通過多目標(biāo)遺傳算法,優(yōu)化了光伏充電站充電策略,充分考慮了各種條件下的優(yōu)化情況,但受制于精度問題和局部收斂問題,且只適用于離線優(yōu)化。文獻(xiàn)[8]探討了不同時間尺度下的分層優(yōu)化情況,方法簡潔,但優(yōu)化效果受制于時間尺度的劃分方法。文獻(xiàn)[9]采用了神經(jīng)網(wǎng)絡(luò)預(yù)測充電數(shù)據(jù),預(yù)測結(jié)果較為準(zhǔn)確,但需要大量的樣本數(shù)據(jù)。文獻(xiàn)[10]通過負(fù)荷優(yōu)化考慮光伏充電站的儲能配置,但分析方法過于繁瑣。
為了解決光伏充電站決策優(yōu)化問題,本文提出了基于深度策略梯度(Deep Deterministic Policy Gradient,DDPG)算法的充電策略。利用DDPG算法優(yōu)化充電策略,由于DDPG算法中神經(jīng)網(wǎng)絡(luò)具有記憶性,使得優(yōu)化結(jié)果也具有記憶性,可以在經(jīng)驗事實的基礎(chǔ)上實現(xiàn)在線優(yōu)化,保證光伏充電站平均利潤的最大化。
增強學(xué)習(xí)是機器學(xué)習(xí)算法的一種,其學(xué)習(xí)過程更加接近控制系統(tǒng)。在增強學(xué)習(xí)中,學(xué)習(xí)的本體被稱為智能體,智能體可以在環(huán)境中執(zhí)行動作。類比于控制系統(tǒng)中,控制器對被控對象施加控制量。同時,環(huán)境會給予智能體狀態(tài)輸入和回報,類似于被控對象對控制系統(tǒng)的反饋[11]。
智能體通過學(xué)習(xí)狀態(tài)、動作和回報,期望在不同的狀態(tài)中,執(zhí)行可以得到最大期望回報的動作。若直接將單次回報的最大值作為最大期望回報,就會造成智能體的局部最優(yōu),難以兼顧全局。因此,增強學(xué)習(xí)引入了值函數(shù)作為對期望回報的估計,公式為
(1)
式中:Qv(s,a)——目標(biāo)優(yōu)化函數(shù);
R(s|s′,a)——在狀態(tài)s執(zhí)行動作a后轉(zhuǎn)化到狀態(tài)s′的回報函數(shù);
γ——衰減因子;
P(s|s′,a)——執(zhí)行動作a時,由狀態(tài)s轉(zhuǎn)換到狀態(tài)s′的概率集合;
S,A——狀態(tài)集合和動作集合;
maxQv(s′,a)——狀態(tài)s′下可能得到的函數(shù)Qv的最大值。
上述值函數(shù)需要有確定的動作a。若a為連續(xù)值,則集合P(s|s′,a)的規(guī)模為無窮大,故普通值函數(shù)只能對離散的動作估值,無法適用于連續(xù)動作[12]。
文獻(xiàn)[13]提出的DDPG算法是一種深度增強學(xué)習(xí)算法,使用了基于確定動作策略的演員-評論家算法框架,并在演員部分采用了確定性策略(Deterministic Policy Gradient,DPG)。該算法的核心是4個神經(jīng)網(wǎng)絡(luò),演員部分有2個神經(jīng)網(wǎng)絡(luò)(演員網(wǎng)絡(luò)u和演員網(wǎng)絡(luò)u′),評論家部分有2個神經(jīng)網(wǎng)絡(luò)(評論家網(wǎng)絡(luò)Q和評論家網(wǎng)絡(luò)Q′)。其神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 DDPG算法的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意
DDPG算法的關(guān)鍵是建立合理的狀態(tài)、動作和回報函數(shù)。綜合考慮決策所需的變量,應(yīng)獲取每個充電樁的需求功率、每臺電動汽車的剩余電量、當(dāng)前時間和光伏輸出功率。
假設(shè)充電站共有N個充電樁,其中第i個充電樁對應(yīng)的電動汽車的需求功率為Pni(i=1,2,3,…,N),其剩余電量為Si。
由于光伏電能在一天中是漸變的,不用實時統(tǒng)計,為了降低決策的維度,可以根據(jù)光伏典型出力信息表,以15 min為時間間隔,將一天時間分為96段,即t=1,2,3,…,96,因此輸入狀態(tài)可以表示為
St=[Pn1,Pn2,…,PnN,S1,S2,…,SN,t,PV]
(2)
式中:PV——太陽能在t時刻的光伏輸出功率。
由于DDPG算法允許以連續(xù)量作為輸出,所以直接以每臺充電樁的輸出功率動作表示為
At=[Po1,Po2,Po3,…,PoN]
(3)
式中:Poi——第i個充電樁的輸出功率,范圍為0~1(最大輸出功率歸一化)。
采用利潤作為回報函數(shù)[5],為
(4)
式中:Pt——t時刻充電樁輸出的總功率;
Sc——當(dāng)前的購電電價;
Psun——太陽能的并網(wǎng)輸出功率;
nfail——連接時長已到,但未充滿所需電量的汽車數(shù)量;
Ss——售電電價。
DDPG算法的具體流程如圖2所示。
圖2 DDPG算法的流程示意
首先,初始化各種數(shù)據(jù)信息。其次,執(zhí)行決策部分,獲取當(dāng)前狀態(tài)St,輸入演員網(wǎng)絡(luò)u,其輸出為決策信息,即在當(dāng)前狀態(tài)下每臺充電樁的輸出功率At。再次,運行環(huán)境,執(zhí)行動作,并利用式(4)計算利潤Rt,得到下一狀態(tài)St+1,將St,At,Rt,St+1作為回合記憶存入記憶庫。當(dāng)記憶庫存滿時,對記憶庫進(jìn)行隨機抽樣,取得N條回合記憶,并對每條回合記憶進(jìn)行學(xué)習(xí)。最后,判斷迭代次數(shù)是否滿足要求,若不滿足,則重復(fù)上述過程。
實驗數(shù)據(jù)來源于文獻(xiàn)[1]。以配置8臺充電樁的新能源充電站為例,假設(shè)1天中有100輛汽車進(jìn)行充電。DDPG算法的超參數(shù)設(shè)置如下:記憶庫大小為20 000;神經(jīng)網(wǎng)絡(luò)訓(xùn)練的批數(shù)量M=32 ;衰減因子γ=0.9;替換步長τ=0.01;評論家網(wǎng)絡(luò)學(xué)習(xí)速率為0.001;演員網(wǎng)絡(luò)學(xué)習(xí)速率為0.000 5。
評論家網(wǎng)絡(luò)和演員網(wǎng)絡(luò)的結(jié)構(gòu)如圖3所示。其激活函數(shù)采用線性整流函數(shù)(Rectified Linear Unit,ReLU)。
圖3 DDPG算法中評論家網(wǎng)絡(luò)和演員網(wǎng)絡(luò)的結(jié)構(gòu)
其中,演員網(wǎng)絡(luò)的輸入層節(jié)點數(shù)為18個,輸出層節(jié)點數(shù)為8個,評論家網(wǎng)絡(luò)的輸入節(jié)點數(shù)為26個,輸出節(jié)點數(shù)為1個。
8臺充電樁一天內(nèi)的功率輸出變化三維圖如圖4所示。圖4中標(biāo)出的點表示04:00時,1#充電樁上的電動汽車需要6.64 kWh的能量。
圖4 8臺充電樁一天內(nèi)的需求功率變化三維圖
DDPG算法中,充電站在光能達(dá)到完全利用的情況下的利潤曲線如圖5所示。由圖5可以看出,利潤曲線在前期有較大波動,這是算法不斷尋優(yōu)的過程,最終算法會找到一個最優(yōu)解,其后輸出的利潤逐漸穩(wěn)定。
圖5 DDPG算法迭代收斂曲線
在不同光照條件下,DDPG算法得到的輸出功率如圖6所示。此處,采用的光伏電池輸出功率表示光照條件。在光照條件較弱時[圖6(a)],光伏輸出的功率較小,最大功率約為40 kW,且日照時間較短,在06:15時輸出功率約為4 kW;在光照條件較強時[圖6(b)],光伏電池的輸出功率較大,最大功率可到60 kW以上,日照時間較長,在05:00時輸出功率接近30 kW。
圖6 不同光照條件下DDPG算法的輸出功率曲線
由圖6可知,在光照條件比較充足時,智能體會偏向在光照條件豐富的時候?qū)﹄妱悠嚦潆?但也沒有盲目提升充電功率;在光照條件較弱時,則會采用比較均勻的充電方式。這說明DDPG算法對于不同的光照條件具有良好的適應(yīng)性。
對遺傳算法、布谷鳥算法與DDPG算法在不同車輛數(shù)量和不同光照條件下的利潤進(jìn)行對比。其中,DDPG算法的超參數(shù)如前文所述,遺傳算法和布谷鳥算法參數(shù)如表1所示。3種算法的利潤曲線如圖7所示。
表1 對比實驗參數(shù)
圖7 3種算法的利潤對比曲線
由圖7可知:在相同情況下,遺傳算法的利潤由于受到精度與局部收斂的影響,其利潤較其他兩種算法要低,而在車輛較少時,布谷鳥算法的利潤比DDPG算法要高;在光照條件較弱時,布谷鳥算法的利潤較高。但在充電車輛數(shù)量較多或光照較強時,DDPG算法的利潤要高于其他兩種算法,優(yōu)化效果更好。
本文使用DDPG算法對光伏新能源充電站的充電策略進(jìn)行了優(yōu)化,通過仿真實驗可以證明該優(yōu)化存在以下優(yōu)點。
(1) DDPG算法可直接輸出動作,解決了Q值學(xué)習(xí)類算法無法輸出連續(xù)動作的缺點。
(2) 直接采用利潤作為回報函數(shù),使智能體可以追尋利潤最大化。
(3) 相較于傳統(tǒng)尋優(yōu)算法,DDPG算法具有神經(jīng)網(wǎng)絡(luò)的記憶性,適用于無先驗的在線學(xué)習(xí),在充電車輛數(shù)量較多或光照較強的條件下均能取得相對較高的利潤,優(yōu)化效果較好。