謝黎龍, 李勇匯*, 肖金星, 徐冰雁, 葉影, 楊軍
(1.武漢大學(xué)電氣與自動(dòng)化學(xué)院, 武漢 430072; 2.國網(wǎng)上海市電力公司, 上海 200122)
為了環(huán)境保護(hù)與社會(huì)可持續(xù)發(fā)展的需要,新能源在電力領(lǐng)域的應(yīng)用也越來越多,由于分布式電源出力存在隨機(jī)性與不確定性進(jìn)而難以有效利用,微網(wǎng)作為一種解決方式而被提出,研究合適的微網(wǎng)系統(tǒng)控制技術(shù)是微網(wǎng)發(fā)展的關(guān)鍵[1-2]。
目前已經(jīng)有大量微電網(wǎng)控制技術(shù)的研究,文獻(xiàn)[3]采用恒壓恒頻控制策略,設(shè)計(jì)比例積分(proportional integral,PI)控制器對(duì)光儲(chǔ)孤立微電網(wǎng)中儲(chǔ)能系統(tǒng)恒壓恒頻控制,實(shí)現(xiàn)光伏與儲(chǔ)能的協(xié)調(diào)。文獻(xiàn)[4]采用模型預(yù)測(cè)控制對(duì)輸出功率進(jìn)行控制,間接控制電壓,使電壓維持穩(wěn)定,但是間接控制增加了成本。文獻(xiàn)[5]提出利用魯棒模型預(yù)測(cè)方法解決多系統(tǒng)耦合的控制問題,在狀態(tài)空間矩陣中考慮耦合環(huán)節(jié),并應(yīng)用于火電水電的耦合系統(tǒng)調(diào)頻中。隨著人工智能飛速發(fā)展,控制技術(shù)也在不斷發(fā)展換代[6]。文獻(xiàn)[7]為了電網(wǎng)安全,提出了一種基于深度強(qiáng)化學(xué)習(xí)的電網(wǎng)切機(jī)控制策略。文獻(xiàn)[8]采用強(qiáng)化學(xué)習(xí)中R(λ)算法對(duì)包含多種分布式電源的孤島微電網(wǎng)進(jìn)行頻率控制,實(shí)現(xiàn)了小水電與燃?xì)廨啓C(jī)的協(xié)調(diào)控制,但是由于要離散連續(xù)量可能會(huì)出現(xiàn)維數(shù)災(zāi)難。文獻(xiàn)[9]針對(duì)多分布式電源采取下垂控制的孤立微網(wǎng),采用經(jīng)典Q學(xué)習(xí)算法對(duì)微電網(wǎng)分布式電源的下垂系數(shù)加以改進(jìn)進(jìn)而實(shí)現(xiàn)無差調(diào)頻,但是分布式電源下垂控制不能提供系統(tǒng)需要的阻尼與慣性。近年來對(duì)虛擬同步發(fā)電機(jī)的研究也逐漸增加。文獻(xiàn)[10]介紹了虛擬同步發(fā)電機(jī)(virtual synchronous generator,VSG)的基本原理、數(shù)學(xué)模型、控制算法與應(yīng)用場(chǎng)景等方面。文獻(xiàn)[11]將線性自抗擾控制與重復(fù)控制相結(jié)合構(gòu)成電壓外環(huán),取代傳統(tǒng)的電壓電流環(huán),提高了跟蹤精度但是設(shè)計(jì)較為復(fù)雜。文獻(xiàn)[12]設(shè)計(jì)了儲(chǔ)能系統(tǒng)的運(yùn)行控制策略,實(shí)現(xiàn)對(duì)風(fēng)光發(fā)電輸出功率的平抑,但是對(duì)系統(tǒng)頻率與電壓為有差調(diào)節(jié)。文獻(xiàn)[13]引入了比例-積分(PI)控制環(huán)節(jié)實(shí)現(xiàn)了頻率的無差調(diào)節(jié),模仿轉(zhuǎn)子運(yùn)動(dòng)方程為頻率控制策略增加了一階慣性環(huán)節(jié),提高了微電網(wǎng)的頻率穩(wěn)定性,但是所選PI控制器魯棒性能較差,負(fù)荷突變時(shí)頻率會(huì)出現(xiàn)較大波動(dòng)。文獻(xiàn)[14]取額定角頻率為參考值,通過引入虛擬調(diào)速器與轉(zhuǎn)子運(yùn)動(dòng)方程相結(jié)合設(shè)計(jì)自動(dòng)發(fā)電控制系統(tǒng)來實(shí)現(xiàn)頻率控制,但是沒有搭建直流側(cè)的微源模型,而以理想直流電壓源代替。上述文獻(xiàn)研究主要集中在儲(chǔ)能控制策略上,很少涉及儲(chǔ)能逆變器控制器的改進(jìn)與內(nèi)部結(jié)構(gòu)的設(shè)計(jì)。面對(duì)高比例分布式電源接入的微電網(wǎng),應(yīng)進(jìn)一步改進(jìn)儲(chǔ)能逆變器的內(nèi)部控制結(jié)構(gòu)以提升儲(chǔ)能系統(tǒng)面向微電網(wǎng)復(fù)雜運(yùn)行環(huán)境的支撐能力。
因此,現(xiàn)建立基于VSG控制的電池儲(chǔ)能為主電源的微網(wǎng)模型,基于深度強(qiáng)化學(xué)習(xí)技術(shù)中的深度確定策略梯度算法(deep deterministic policy gradient,DDPG)對(duì)VSG的虛擬調(diào)速器進(jìn)行改進(jìn)。該算法可以在沒有確切模型的情況下通過在線學(xué)習(xí)不斷訓(xùn)練生成控制器,適用于當(dāng)今新能源比例增加、復(fù)雜性不斷升高的電網(wǎng)。該算法將神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)強(qiáng)化學(xué)習(xí)結(jié)合,采用經(jīng)驗(yàn)回放機(jī)制與梯度反向傳播的方式更新神經(jīng)網(wǎng)絡(luò)參數(shù)使其收斂[15-16],可以很好地解決頻率與功率等連續(xù)量連續(xù)變化的問題,結(jié)合獎(jiǎng)勵(lì)函數(shù)多次訓(xùn)練生成調(diào)速器實(shí)現(xiàn)對(duì)虛擬同步發(fā)電機(jī)的改進(jìn)。同時(shí)在MATLAB/Simulink中進(jìn)行仿真,驗(yàn)證負(fù)荷擾動(dòng)與風(fēng)電擾動(dòng)時(shí),所提出的改進(jìn)虛擬同步發(fā)電機(jī)方法對(duì)頻率穩(wěn)定與電壓穩(wěn)定控制的有效性。
DC為直流電;AC為交流電圖1 微網(wǎng)組成Fig.1 Microgrid composition
采用由電池儲(chǔ)能系統(tǒng)、風(fēng)電系統(tǒng)和負(fù)荷組成的微網(wǎng)(圖1),公共耦合點(diǎn)(point of common coupling,PCC)通過開關(guān)與外界電網(wǎng)連接。開關(guān)閉合時(shí),微網(wǎng)可以與外界電網(wǎng)進(jìn)行能量的交換,此時(shí)可以對(duì)儲(chǔ)能系統(tǒng)進(jìn)行充電,當(dāng)開關(guān)斷開時(shí),微網(wǎng)處于孤島運(yùn)行狀態(tài),儲(chǔ)能系統(tǒng)作為主電源維持微網(wǎng)母線電壓與頻率的穩(wěn)定。
為了最大化地利用清潔能源,風(fēng)電系統(tǒng)中風(fēng)機(jī)發(fā)電采用最大功率點(diǎn)跟蹤控制(maximum power point tracking,MPPT)控制,并網(wǎng)逆變器采用恒功率控制,風(fēng)電系統(tǒng)以傳統(tǒng)電流源的形式并入微網(wǎng),不參與系統(tǒng)的調(diào)頻與調(diào)壓,可等效為消耗負(fù)功率的負(fù)荷[17]。
作為微網(wǎng)主電源的儲(chǔ)能系統(tǒng)采用VSG控制。儲(chǔ)能側(cè)功率交換電路采用的是雙向半橋式非隔離型 DC-DC 變換器[18]以實(shí)現(xiàn)能量的雙向流動(dòng)。為使該變換電路具有良好的功率流動(dòng)性能,采用電流內(nèi)環(huán)電壓外環(huán)的雙閉環(huán)控制方法。
儲(chǔ)能技術(shù)中蓄電池技術(shù)比較成熟,鋰離子電池相較于鉛酸蓄電池具有能量密度高、體積較小的優(yōu)點(diǎn)。鋰電池壽命比鉛酸電池要長(zhǎng),有著更高的工作效率,故選擇鋰電池作為儲(chǔ)能系統(tǒng)的電源,采用蓄電池通用模型,等效電路為如圖2所示。
圖2 蓄電池通用模型等效電路Fig.2 Equivalent circuit of battery general model
蓄電池通用模型由內(nèi)阻R與受控電壓源Ee串聯(lián)組成,UB為蓄電池的端電壓,IB為蓄電池的放電電流。Ee計(jì)算公式為
(1)
式(1)中:Ee0為內(nèi)電勢(shì);Cmax為蓄電池的最大容量;Qe為放電量;A、B、K均為擬合參數(shù);exp(·)為以自然常數(shù)為底的指數(shù)函數(shù)。
電源的輸出功率PB計(jì)算公式為
PB=UBIB
(2)
電池放電時(shí)電流IB為正,電源輸出功率,充電時(shí)電流IB為負(fù),電源吸收功率。
VSG控制可以提供對(duì)維持電網(wǎng)穩(wěn)定十分重要的阻尼特性和轉(zhuǎn)動(dòng)慣性,目前VSG控制主要由電壓控制與電流控制兩種,由于需要給微網(wǎng)提供電壓支撐,故采用外特性相當(dāng)于電壓源的電壓控制型虛擬同步發(fā)電機(jī),建立VSG控制結(jié)構(gòu)如圖3所示。
Vdc為直流側(cè)電壓;Lf、Cf分別為濾波電感、濾波電容;iL為濾波電感的電流;iC為濾波電容的電流;Rf為L(zhǎng)f的寄生電阻;ea、eb、ec為逆變器基波電動(dòng)勢(shì),幅值為E;uo、io為輸出端電壓電流;Pout、Qout分別為有功功率和無功功率瞬時(shí)測(cè)量值;Qset、Pset分別為給定的無功功率和有功功率;Qref、Pref分別為無功功率和有功功率計(jì)算得到的參考值; fg為測(cè)量得到的頻率;UPCC為測(cè)量的電壓幅值瞬時(shí)值; fN、UPCCref 分別為額定頻率與給定電壓參考值;Em為計(jì)算得到的調(diào)制信號(hào)幅值圖3 VSG控制結(jié)構(gòu)Fig.3 VSG control structure
2.1.1 虛擬調(diào)速器
為實(shí)現(xiàn)電池儲(chǔ)能系統(tǒng)為主電源的自動(dòng)發(fā)電控制,需要在自動(dòng)發(fā)電控制器中加入虛擬調(diào)速器,根據(jù)實(shí)際測(cè)得頻率與頻率參考值作差得到的頻率偏差,由此生成有功功率補(bǔ)償指令ΔPm。由于風(fēng)電系統(tǒng)不參與調(diào)頻調(diào)壓,由電池儲(chǔ)能系統(tǒng)對(duì)微網(wǎng)進(jìn)行支撐,則在下垂系數(shù)乘法器上增加控制器,實(shí)現(xiàn)微網(wǎng)系統(tǒng)的功率平衡,即
ΔPm=ΔPload-ΔPwind
(3)
式(3)中:ΔPload為負(fù)荷有功功率變化;ΔPwind為風(fēng)電出力波動(dòng)。
自動(dòng)發(fā)電控制結(jié)構(gòu)圖如圖4所示。
Km表示頻率-有功下垂系數(shù),下垂系數(shù)乘法器模擬一次調(diào)頻,控制器完成二次調(diào)頻[18],最后得到應(yīng)該輸出的有功功率補(bǔ)償指令ΔPm。
2.1.2 轉(zhuǎn)子運(yùn)動(dòng)方程
選取額定角速度作為參考值,則轉(zhuǎn)子運(yùn)動(dòng)方程[19]為
(4)
式(4)中:J為轉(zhuǎn)子軸上共同的轉(zhuǎn)動(dòng)慣量;Tm為機(jī)械轉(zhuǎn)矩;Te為電磁轉(zhuǎn)矩;Td為阻尼轉(zhuǎn)矩;D為阻尼系數(shù);ωN為額定角頻率。
取VSG的極對(duì)數(shù)為1,由功率與轉(zhuǎn)矩關(guān)系[19]Tm≈Pmref/ωr,Te≈Pout/ωr,式(4)可變?yōu)?/p>
(5)
轉(zhuǎn)子運(yùn)動(dòng)方程模塊框圖如圖5所示。
圖4 虛擬調(diào)速器框圖Fig.4 Block diagram of virtual governor
s為拉普拉斯算子圖5 轉(zhuǎn)子運(yùn)動(dòng)方程框圖Fig.5 Block diagram of rotor motion equation
與自動(dòng)發(fā)電控制類似,根據(jù)實(shí)際測(cè)得電壓與電壓參考值作差得到的電壓偏差,通過PI控制模塊生成無功功率補(bǔ)償指令ΔQ,進(jìn)而得到無功功率參考值Qref。根據(jù)無功功率參考值Qref與無功功率實(shí)測(cè)值Qref計(jì)算得到信號(hào)Em,計(jì)算方法為
(6)
強(qiáng)化學(xué)習(xí)技術(shù)作為機(jī)器學(xué)習(xí)方法的一種,通過與環(huán)境不斷的交互來獲取經(jīng)驗(yàn),通過不斷的實(shí)驗(yàn)進(jìn)行學(xué)習(xí)試錯(cuò),由此強(qiáng)化學(xué)習(xí)可分為智能體與環(huán)境兩部分,它們的關(guān)系可如圖6所示。
圖6 強(qiáng)化學(xué)習(xí)基本框圖Fig.6 Basic block diagram of reinforcement learning
深度強(qiáng)化學(xué)習(xí)通常是基于馬爾可夫決策過程的(Markov decision process, MDP),即智能體與環(huán)境在下一時(shí)刻的交互結(jié)果只與當(dāng)前的環(huán)境狀態(tài)有關(guān),而與之前的環(huán)境狀態(tài)無關(guān)。MDP過程包含s、a、r、π4個(gè)要素[12]。其中s表示環(huán)境狀態(tài)的集合,a表示智能體可以采取的動(dòng)作的集合,r表示獎(jiǎng)勵(lì)函數(shù),π表示策略集合,由狀態(tài)生成對(duì)應(yīng)的動(dòng)作。
強(qiáng)化學(xué)習(xí)策略的求解算法主要為基于值函數(shù)算法與基于策略梯度算法與二者結(jié)合的Actor-critic算法。
對(duì)于連續(xù)動(dòng)作空間的問題,深度確定策略梯度算法(deep determination strategy gradient algorithm, DDPG)可以獲得很好的決策效果。DDPG算法一共有4個(gè)網(wǎng)絡(luò),分別是Actor當(dāng)前網(wǎng)絡(luò),Actor目標(biāo)網(wǎng)絡(luò),Critic當(dāng)前網(wǎng)絡(luò),Critic目標(biāo)網(wǎng)絡(luò)。兩個(gè)Actor網(wǎng)絡(luò)的結(jié)構(gòu)相同,2個(gè)Critic網(wǎng)絡(luò)的結(jié)構(gòu)相同。在t時(shí)刻,Actor當(dāng)前網(wǎng)絡(luò)參數(shù)為θ、Actor目標(biāo)網(wǎng)絡(luò)參數(shù)為θ′、Critic當(dāng)前網(wǎng)絡(luò)參數(shù)為ω、Critic目標(biāo)網(wǎng)絡(luò)參數(shù)為ω′。
DDPG 4個(gè)網(wǎng)絡(luò)中, Actor當(dāng)前網(wǎng)絡(luò)根據(jù)當(dāng)前狀態(tài)st生成動(dòng)作at;Actor目標(biāo)網(wǎng)絡(luò)根據(jù)環(huán)境給出的后續(xù)狀態(tài)st+1生成t+1時(shí)刻動(dòng)作at+1;Critic當(dāng)前網(wǎng)絡(luò)計(jì)算狀態(tài)st和動(dòng)作at對(duì)應(yīng)的動(dòng)作價(jià)值;Critic目標(biāo)網(wǎng)絡(luò)根據(jù)后續(xù)狀態(tài)st+1與行為at+1生成用來計(jì)算目標(biāo)價(jià)值中Q′(st+1,at+1|ω′)的部分。其中目標(biāo)價(jià)值y由式(7)計(jì)算:
y=rt+γQ′(st+1,at+1,ω′)
(7)
式(7)中:rt為t時(shí)刻的回報(bào)值;γ為折扣因子且0<γ<1;Q′(st+1,at+1|ω′)為t+1時(shí)刻Critic目標(biāo)網(wǎng)絡(luò)的輸出值。
使用均方差損失函數(shù)式(8),通過神經(jīng)網(wǎng)絡(luò)的梯度反向傳播來更新Critic當(dāng)前網(wǎng)絡(luò)參數(shù)ω。
(8)
式(8)中:m為樣本數(shù)目;yj為j樣本的目標(biāo)價(jià)值;Q(sj,aj,ω)為Critic當(dāng)前網(wǎng)絡(luò)關(guān)于j樣本的輸出值。
通過神經(jīng)網(wǎng)絡(luò)的梯度反向傳播來更新Actor當(dāng)前網(wǎng)絡(luò)的所有參數(shù)θ:
(9)
式(9)中:πθ(·)為Actor當(dāng)前網(wǎng)絡(luò)的輸出值。
通過式(10)更新Critic目標(biāo)網(wǎng)絡(luò)和Actor目標(biāo)網(wǎng)絡(luò)參數(shù):
(10)
式(10)中:τ為更新系數(shù),一般取值較小。
對(duì)于圖4中控制器選擇,面對(duì)高比例分布式電源接入的復(fù)雜電網(wǎng),傳統(tǒng)PI控制器存在著參數(shù)較難選擇,魯棒性不高的問題,逆變器的內(nèi)部控制結(jié)構(gòu)需要進(jìn)一步進(jìn)行改進(jìn),相較于傳統(tǒng)PI控制器,深度強(qiáng)化學(xué)習(xí)可以在沒有確切模型的情況下通過在線學(xué)習(xí)不斷訓(xùn)練生成控制器,適用于當(dāng)今新能源比例增加、復(fù)雜性不斷升高的電網(wǎng),DDPG算法采用經(jīng)驗(yàn)回放機(jī)制與梯度反向傳播的方式更新神經(jīng)網(wǎng)絡(luò)參數(shù)使其收斂,可以很好地解決頻率與功率等連續(xù)量連續(xù)變化的問題。采用深度強(qiáng)化學(xué)習(xí)設(shè)計(jì)的控制器代替圖4中虛線框的部分,對(duì)虛擬調(diào)速器加以改進(jìn),訓(xùn)練生成的調(diào)速器通過頻率偏差比傳統(tǒng)控制器可以更好地得到有功功率補(bǔ)償。強(qiáng)化學(xué)習(xí)是基于馬爾可夫過程的,該過程由(s,a,r,π)四元組給出,設(shè)計(jì)控制器時(shí)需要確定狀態(tài)變量與動(dòng)作變量,并設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)。
(11)
式(11)中:e=fg-fN。式(11)表示外界環(huán)境提供給智能體的環(huán)境信息。
由于儲(chǔ)能系統(tǒng)通過改變功率輸出對(duì)系統(tǒng)頻率進(jìn)行調(diào)節(jié),故動(dòng)作變量為儲(chǔ)能系統(tǒng)輸出功率補(bǔ)償ΔPbat,即
a=ΔPbat
(12)
為了達(dá)到訓(xùn)練效果,考慮到系統(tǒng)中負(fù)荷變化等情況,還需要增加頻率不確定量p,這樣可以保證智能體每次訓(xùn)練的初始狀態(tài)都不相同,有著更好的適應(yīng)性。
智能體要通過獎(jiǎng)勵(lì)函數(shù)才能計(jì)算得到動(dòng)作的價(jià)值,進(jìn)而判斷動(dòng)作的好壞,獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)一般與控制目標(biāo)有關(guān),本文研究希望控制器控制下的頻率誤差盡量的小,為實(shí)現(xiàn)這一目標(biāo),本文將頻率誤差分段,每段采用不同的權(quán)重系數(shù),故獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)為
(13)
式(13)中:|e|為頻率誤差的絕對(duì)值;b1、b2、b3、b4、b5分別為頻率誤差分段點(diǎn);λ1、λ2、λ3、λ4、λ5、λ6為權(quán)重系數(shù),頻率偏差越低,智能體獲得的獎(jiǎng)勵(lì)越多。|e|分段太多會(huì)使訓(xùn)練難以收斂達(dá)不到訓(xùn)練效果,分段太少會(huì)使訓(xùn)練時(shí)間過長(zhǎng),本文中將頻率誤差分為5段。
在設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)時(shí),需要設(shè)計(jì)終止函數(shù),終止函數(shù)的作用是智能體通過邊界條件判斷系統(tǒng)是否進(jìn)入終止?fàn)顟B(tài),如果進(jìn)入終止?fàn)顟B(tài),則不再繼續(xù)迭代,直接重新初始化系統(tǒng)頻率,開啟新一輪的狀態(tài)序列。如果進(jìn)入非終止?fàn)顟B(tài),則繼續(xù)本輪迭代過程。為了防止電池過度充放電,保護(hù)電池,采用鋰電池SOC的上下限作為終止函數(shù)的邊界條件,當(dāng)電池的SOC到達(dá)上下限時(shí),儲(chǔ)能系統(tǒng)將不在參與系統(tǒng)的調(diào)頻。為了減少進(jìn)入終止?fàn)顟B(tài)的次數(shù),配合獎(jiǎng)勵(lì)函數(shù)將終止?fàn)顟B(tài)的獎(jiǎng)勵(lì)值設(shè)置很低。終止函數(shù)為
(14)
微網(wǎng)運(yùn)行數(shù)據(jù)通過深度學(xué)習(xí),將狀態(tài)信息,獎(jiǎng)勵(lì)、動(dòng)作信息以及終止?fàn)顟B(tài)信息{s,a,r,s′,is_end}形成樣本單元存儲(chǔ)起來,放入經(jīng)驗(yàn)回放集合D中,然后從集合D采取m個(gè)樣本單元,通過式(5)~式(8)進(jìn)行訓(xùn)練,一共訓(xùn)練T輪,每輪的訓(xùn)練步長(zhǎng)為Tm次,訓(xùn)練框圖如圖7所示。
圖7 DDPG算法訓(xùn)練流程Fig.7 DDPG algorithm training process
除了以上參數(shù)選取,為了表現(xiàn)對(duì)動(dòng)作的長(zhǎng)遠(yuǎn)收益的重視程度,引入折扣系數(shù)γ,折扣系數(shù)越大,智能體就越會(huì)越重視以往經(jīng)驗(yàn),能夠放棄當(dāng)前利益而追求全局利益。但是,如果折扣因子選擇過大,也會(huì)影響訓(xùn)練的收斂。學(xué)習(xí)過程中神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率α如果太小,那么訓(xùn)練需要很長(zhǎng)時(shí)間,而如果學(xué)習(xí)率α太大,那么訓(xùn)練可能會(huì)達(dá)到次優(yōu)結(jié)果或不能收斂。
MPPT控制的風(fēng)電系統(tǒng)額定功率為40 kW,仿真時(shí)設(shè)定輸出功率為30 kW,由于風(fēng)電系統(tǒng)輸出具有隨機(jī)性,故加入隨機(jī)干擾模擬這一過程,風(fēng)電功率隨機(jī)變化如圖9所示。
圖8 Critic網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)Fig.8 Critic network topology
ΔP為風(fēng)電有功功率變化;T為時(shí)間圖9 風(fēng)電功率變化Fig.9 Basic block diagram of reinforcement learning
風(fēng)電與儲(chǔ)能共同承擔(dān)本地負(fù)荷,實(shí)現(xiàn)對(duì)計(jì)劃出力的跟蹤,根據(jù)國家住建部制定的相關(guān)標(biāo)準(zhǔn)[20],儲(chǔ)能電池系統(tǒng)的額定功率選擇為風(fēng)電系統(tǒng)額定功率的30%,即12 kW。電池為鋰離子電池,采用simulink中通用電池模型,鋰電池容量為60 A·h,額定工作電壓為200 V,初始荷電狀態(tài)為50%,最大荷電狀態(tài)為1,最小荷電狀態(tài)為10%,儲(chǔ)能系統(tǒng)參考輸出電壓為700 V。
訓(xùn)練輪數(shù)T=3 000次,訓(xùn)練步長(zhǎng)Tm=100步,折扣系數(shù)γ=0.99,更新系數(shù)τ=0.001,學(xué)習(xí)率α=0.001,采樣數(shù)目m=64, 經(jīng)驗(yàn)回放集合D=1×106,標(biāo)準(zhǔn)偏差為σ=0.6,衰減率為φ=1×10-5,b1=0.008,b2=0.02,b3=0.05,b4=0.1。權(quán)重系數(shù)λ1=100,λ2=0,λ3=-30,λ4=-60,λ5=-100,λ6=-300,c1取10%,c2取1。頻率不確定量p在[-0.1,0.1]隨機(jī)變化。多次訓(xùn)練到智能體可以穩(wěn)定收獲正值獎(jiǎng)勵(lì),則得到虛擬調(diào)速器。系統(tǒng)參數(shù)與訓(xùn)練過程如表1所示。
表1 仿真參數(shù)Table 1 Simulation parameters
5.2.1 有功功率與頻率仿真分析
微網(wǎng)一開始處于并網(wǎng)狀態(tài),除了風(fēng)電功率擾動(dòng),有功負(fù)荷在0.3 s突增4 kW,0.5 s運(yùn)行模式由并網(wǎng)變?yōu)楣聧u運(yùn)行。圖10為該時(shí)間段的頻率曲線與功率變化曲線。
圖10 頻率與有功功率Fig.10 Frequency and active power
將下垂控制、使用PI控制器的傳統(tǒng)虛擬同步發(fā)電機(jī)控制以及采用深度強(qiáng)化學(xué)習(xí)控制器的改進(jìn)虛擬同步發(fā)電機(jī)控制的頻率控制進(jìn)行對(duì)比。由仿真結(jié)果可以看出,負(fù)荷突增時(shí),改進(jìn)的虛擬同步發(fā)電機(jī)控制頻率波動(dòng)更小,對(duì)負(fù)荷有功功率的追蹤效果更好。外界電網(wǎng)對(duì)系統(tǒng)頻率的調(diào)節(jié)使頻率有所恢復(fù),風(fēng)電擾動(dòng)對(duì)頻率影響較小。當(dāng)0.5 s離網(wǎng)時(shí),微網(wǎng)失去電網(wǎng)支撐,下垂控制與傳統(tǒng)虛擬同步發(fā)電機(jī)控制頻率都有所降低,改進(jìn)虛擬同步發(fā)電機(jī)控制方法頻率更加平穩(wěn),具有更好的控制效果。
微網(wǎng)進(jìn)入孤島運(yùn)行后,1 s時(shí)負(fù)荷降低8 kW,2 s時(shí)負(fù)荷增加7 kW。圖11為該時(shí)間段的頻率曲線與功率曲線。
孤島運(yùn)行下,風(fēng)電干擾的影響增大,下垂控制出現(xiàn)明顯頻率波動(dòng),在負(fù)荷階躍變化干擾與風(fēng)電隨機(jī)擾動(dòng)干擾情況下,改進(jìn)的虛擬同步發(fā)電機(jī)控制頻率波動(dòng)更小,控制性能更為優(yōu)越;同時(shí)由有功功率曲線看出所設(shè)計(jì)的控制器對(duì)有功負(fù)荷的跟蹤也較為良好。
整個(gè)過程中,儲(chǔ)能直流側(cè)輸出電壓、電池輸出功率與SOC曲線如圖12所示。
圖11 孤島運(yùn)行下頻率與有功功率Fig.11 Frequency and active power in islanding operation
Voltage為儲(chǔ)能直流側(cè)輸出電壓圖12 儲(chǔ)能直流側(cè)輸出電壓、電池輸出功率與SOC曲線Fig.12 Energy storage DC side output voltage, battery output power and SOC curve
圖10~圖12可以看出,在所提出的控制方法下,電池儲(chǔ)能系統(tǒng)作為主電源對(duì)微網(wǎng)具有很好的支撐作用,儲(chǔ)能系統(tǒng)實(shí)現(xiàn)對(duì)風(fēng)電出力的多吸少補(bǔ),電池的荷電狀態(tài)因充放電而不斷改變。
5.2.2 無功功率與電壓仿真分析
與圖18為該時(shí)間段的負(fù)荷電壓曲線與無功功率曲線。無功負(fù)荷在0.3 s增加2 kVar,1 s降低4 kVar,2 s增加4 kVar。圖13為該時(shí)間段的負(fù)荷電壓曲線與無功功率變化曲線。
Voltage為儲(chǔ)能直流側(cè)輸出電壓圖13 負(fù)荷電壓與無功功率變化曲線Fig.13 Load voltage and reactive power curve
由圖13可以看出,下垂控制電壓為有差調(diào)節(jié),傳統(tǒng)虛擬同步發(fā)電機(jī)電壓有所降低,而提出的改進(jìn)虛擬同步發(fā)電機(jī)對(duì)電壓的穩(wěn)定控制效果更好,對(duì)無功負(fù)荷的跟蹤效果也較為良好。
采用包含風(fēng)電、儲(chǔ)能與負(fù)荷的微網(wǎng)系統(tǒng)。風(fēng)電系統(tǒng)出力的隨機(jī)性與負(fù)荷的階躍變化對(duì)微網(wǎng)頻率電壓的穩(wěn)定造成巨大威脅,本文研究提出虛擬同步發(fā)電機(jī)技術(shù)與深度強(qiáng)化學(xué)習(xí)技術(shù)對(duì)電池儲(chǔ)能系統(tǒng)進(jìn)行控制,進(jìn)而維護(hù)微網(wǎng)的穩(wěn)定。
采用深度強(qiáng)化學(xué)習(xí)中DDPG算法設(shè)計(jì)虛擬調(diào)速器,通過仿真實(shí)驗(yàn)驗(yàn)證了微網(wǎng)并網(wǎng)、離網(wǎng)等場(chǎng)景下,所提出的改進(jìn)虛擬同步發(fā)電機(jī)技術(shù)對(duì)有功功率與無功功率的實(shí)時(shí)調(diào)整作用,對(duì)系統(tǒng)電壓頻率的穩(wěn)定有著很好的控制效果。而對(duì)于具有多個(gè)主電源支撐的微網(wǎng),可以繼續(xù)開展多主電源協(xié)調(diào)控制方面的研究。