汪 波 鄭文迪
(福州大學電氣工程與自動化學院,福州 350116)
儲能系統(tǒng)具有平衡功率波動,對負荷曲線削峰填谷的優(yōu)點,也可以提高分布式設備的利用率,節(jié)省分布式電源容量成本,還可以保持系統(tǒng)穩(wěn)定[1-5]。中關村儲能產(chǎn)業(yè)技術聯(lián)盟發(fā)布的《儲能產(chǎn)業(yè)研究白皮書 2016》預測,到 2020年,理想情景下,我國儲能市場總裝機規(guī)模將達 24.2GW;常規(guī)情景下,我國儲能市場總裝機規(guī)模也將達到 14.5GW。隨著分布式能源近年來大規(guī)模接入電網(wǎng),其作用更加重要,而儲能投資成本近年來也不斷下降,儲能產(chǎn)業(yè)將快速發(fā)展并推動能源變革。
目前,儲能系統(tǒng)的運行主要面臨兩個問題:①絕大部分的儲能系統(tǒng)控制策略都是將其作為輔助元件,被動的接收調(diào)度命令,如文獻[6]提出一種消納高滲透分布式光伏發(fā)電有功功率波動的集中式儲能電站實時調(diào)度方法。文獻[7]在孤島運行微電網(wǎng)能量優(yōu)化管理中,不僅對分布式發(fā)電輸出功率進行優(yōu)化分配,還根據(jù)模糊邏輯對蓄電池的充放電進行能量的調(diào)度。文獻[8]將蓄電池虛擬放電和充電價格計入群體尋優(yōu)目標函數(shù),結(jié)合協(xié)同進化遺傳算法,使用群體尋優(yōu)目標函數(shù)和精英尋優(yōu)目標函數(shù)尋求分階段經(jīng)濟調(diào)度最優(yōu)解。在這種情況下,當電力用戶和中間商都參與進來的時候,調(diào)度需要考慮太多因素,不滿足實時調(diào)度的實時性需求。②目前的儲能系統(tǒng)充放電策略優(yōu)化算法有遺傳算法[9]、粒子群算法[10]、模擬退火算法[11]、動態(tài)規(guī)劃算法[12]等,這些方法都是針對負荷曲線為確定情況,而在實時調(diào)度期間,實時負荷功率與預測值有誤差,以上方法都需要重新計算策略,不滿足實時性需求。文獻[13]研究了儲能系統(tǒng)能量調(diào)度及需求響應聯(lián)合優(yōu)化問題,對儲能單元動作及可延時負荷動作進行優(yōu)化控制,但是其并沒有量化儲能系統(tǒng)的充放電數(shù)值,而且其采用的傳統(tǒng)Q學習算法,收斂速度較慢,需要調(diào)整好參數(shù)才能收斂。
本文使儲能系統(tǒng)以凈負荷功率曲線方差最小為目標,決策其每一實時調(diào)度周期的充放電功率值。提出了用全局最優(yōu)懲罰項的方法來引導Q學習算法獲得一天的最優(yōu)動作值,相比于傳統(tǒng)Q學習算法,收斂速度更快;用訓練好的Q值表指導儲能系統(tǒng)在實時調(diào)度周期做出最優(yōu)充放電動作決策,在凈負荷功率預測不準確的情況下不需要重新迭代運算獲得最優(yōu)動作值,從而滿足實時性要求。
儲能系統(tǒng)擁有者不同,其目標函數(shù)也會不一樣,本文研究對象是電網(wǎng)投資建設的儲能系統(tǒng),其目的是使凈負荷功率曲線更加平坦,而方差可以反映曲線的平坦程度,因此其目標函數(shù)為
式中,Pd(t)為負荷功率;Pact(t)為儲能系統(tǒng)吸收功率決策值,當Pact>0時,表示儲能系統(tǒng)吸收功率,當Pact<0時,表示儲能系統(tǒng)釋放功率,凈負荷功率為負荷功率加上儲能系統(tǒng)吸收功率決策值;為一天的負荷功率平均值;N為一天總的實時調(diào)度周期數(shù),每一個實時調(diào)度周期時間間隔為1440/N分鐘;t為實時調(diào)度周期數(shù)。
儲能系統(tǒng)在致力于使目標函數(shù)最優(yōu)時,自身限制和算法需要存在如下一些約束條件。
1)存儲電量約束
儲能系統(tǒng)能夠存儲的電量值是一定的,其最小值為Emin,最大值為Emax,即
儲能系統(tǒng)在循環(huán)充放電過程中,其存儲電量不能超過其限值,否則會損害其壽命。
2)末時段存儲電量約束
為了使儲能系統(tǒng)工作周期為一天持續(xù)進行,每天初始實時調(diào)度周期和末端實時調(diào)度周期的存儲電量需相等
這樣,儲能系統(tǒng)的充放電策略就不會影響一天的負荷功率平均值。當 t調(diào)度周期儲能系統(tǒng)存儲電量E(t)大于末時段要求E0時,假設一天中剩余調(diào)度周期可釋放功率的調(diào)度周期數(shù)為m1,如果
3)充放電動作約束
儲能系統(tǒng)受爬坡速率約束,其充放電動作值不能超過其充電功率最大值
如果負荷功率預測是準確的,那么大部分的尋優(yōu)算法都可以得出儲能系統(tǒng)在一天的充放電最優(yōu)值,但是實際情況下負荷預測是不準確的,提前一天的短時預測值與實時調(diào)度周期的實際值會存在誤差,而實時調(diào)度周期時間間隔短,無記憶功能的尋優(yōu)算法在實時調(diào)度周期需要重新計算最優(yōu)動作值,不滿足實時性要求。本文提出改進的Q學習算法,可以將訓練好的Q值表用于儲能系統(tǒng)在實時調(diào)度周期快速做充放電決策。
Q學習算法適用于解決含不確定性的控制問題,且算法執(zhí)行效率與模型的復雜程度相關性較小。Q學習算法基本形式為式中,k為迭代次數(shù);Q(s(k), a(k))表示s(k)狀態(tài)采取a(k)動作后得到的Q值;α為學習率;R(k)為即時報酬;γ為遺忘因子,采取a(k)動作后得到s(k+1)狀態(tài);Q(s(k+1),a)為 s(k+1)狀態(tài)采取所有可能動作 a后得到的所有Q值。
傳統(tǒng)的Q學習算法需要調(diào)整學習率和遺忘因子兩個參數(shù),其最優(yōu)解的獲得是通過一定概率選取不同動作看是否使總收益增大,這種方法在迭代中可能得到較優(yōu)的策略,但是也有可能得到較差的策略,具有較大的偶然性,學習速度慢,迭代次數(shù)較多,而且其參數(shù)的選取對得到最優(yōu)值的迭代次數(shù)具有較大影響,當參數(shù)選取不合適甚至可能得不到最優(yōu)解。
基于Q值表的記憶功能,本文提出去掉遺忘因子項,取0γ=,即得到的即時報酬只是反映單個狀態(tài)下采取單個動作可以獲得的報酬值,它們之間的關系是解耦的,用離線數(shù)據(jù)學習訓練后可以得到一個初始Q值表,再引入全局優(yōu)化懲罰項Rc,基于訓練好的初始Q值表,用全局優(yōu)化懲罰項引導算法收斂,獲得整個過程的最優(yōu)動作策略,改進后的Q學習算法基本形式變?yōu)?/p>
由于本文所提改進算法是利用全局優(yōu)化懲罰項來引導其收斂,所以改進算法的關鍵是設計好全局優(yōu)化懲罰項。將改進算法應用到儲能系統(tǒng),基于附錄A推導,考慮到儲能系統(tǒng)充放電功率大小有約束,并且充放電動作值采用的是離散值,本文提出懲罰判據(jù)項為
式中,Δ P (t) = P (t) + a (t) ?,M0為t0調(diào)度周期所d 在峰谷時段調(diào)度周期個數(shù)的一半;M1為(M0?t0)到(M0+t0)調(diào)度周期中 Δ P(t) > ΔP(t0)的調(diào)度周期個數(shù);M2為(M0?t0)到(M0+t0)調(diào)度周期中 Δ P(t) < ΔP(t0)的調(diào)度周期個數(shù)。為儲能系統(tǒng)充電功率動作值最大值,為儲能系統(tǒng)充電功率動作值最小值,即放電功率最大值。
基于懲罰判據(jù)項,動作值為吸收功率時全局優(yōu)化懲罰項為
3.2 狀態(tài)空間集合
儲能系統(tǒng)在進行充放電決策之前需要先判斷其所處狀態(tài)空間。將實時調(diào)度周期 t、實時負荷功率Pd(t)、峰谷時段負荷功率最值與平均值差值的絕對值、峰谷時段剩余所需負荷功率和儲能系統(tǒng)存儲能量值S作為描述系統(tǒng)狀態(tài)的狀態(tài)量。將C個調(diào)度周期作為一個狀態(tài),一共有N/C個狀態(tài)。將一天負荷功率求得平均值,把負荷功率最與平均值的差值取M個區(qū)間,負荷功率區(qū)間長度ΔPd如下
將一天分為兩個峰時段和兩個谷時段,針對當前調(diào)度周期所在時段余下調(diào)度周期所需充電或放電的負荷功率,稱為剩余所需負荷功率,將其分為 X個狀態(tài)空間,剩余所需負荷功率這個狀態(tài)量在所需負荷較小時,可以使得儲能系統(tǒng)做出較大充放電動作值決策,而當剩余所需負荷功率較多時,該狀態(tài)量作用很??;再將當前調(diào)度周期所在峰谷區(qū)段的最值與一天的平均值之差的絕對值分為Y個狀態(tài);儲能系統(tǒng)存儲的能量分為Z個狀態(tài)區(qū)間。這樣系統(tǒng)總共有 N×M×X×Y×Z/C個狀態(tài)。
1)動作策略集合
Q學習算法只能采用離散的動作值,因此本文將儲能系統(tǒng)充放電功率值動作值離散為如下(2h+1)個固定值
2)動作選擇概率
在迭代時各動作的選擇采用貪婪策略,貪婪策
3)動作越限懲罰
式中,Qc為懲罰值,其值取較大,這樣就可以使s(k)狀態(tài)不再選擇動作Pact(k)。
在Q學習算法中,即時報酬應該為正數(shù),且總的報酬值越大越好,因此將式(1)右邊拆開后可以得到
將式(4)求和符號里面的項作為儲能系統(tǒng)在每一調(diào)度周期充放電動作的即時報酬,為使每一天的報酬值有關聯(lián)性,每一項都除以每天負荷功率最大值與最小值差的平方,可以得到即時報酬函數(shù)如下
Q學習算法是根據(jù)狀態(tài)來做出動作策略的,而負荷功率實際值與預測值存在誤差,得到的狀態(tài)與實際所處狀態(tài)有偏差,在實時調(diào)度周期對描述狀態(tài)的量進行實時修正,可以使動作策略更準確。由于實時調(diào)度周期和儲能系統(tǒng)存儲能量值這兩個狀態(tài)量與負荷功率預測不準確沒有關系,峰谷時段剩余所需負荷功率只與后面調(diào)度周期負荷預測值有關,所以只需要實時修正負荷功率平均值和峰谷時段負荷功率的最值。實時調(diào)度周期的負荷功率平均值修正方法如下
由于考慮到最值和當前峰谷時段取值關系更大,所以將最值預測值直接加上當前時段誤差平均值,得到最小值修正方法如下
式中,Pmin為當前峰谷時段負荷功率預測值最小值;
d n為該谷時段已經(jīng)出現(xiàn)的實時調(diào)度周期數(shù);i為該谷時段初始調(diào)度周期。最大值修正方法與最小值相類似,不再贅述。
基于上文內(nèi)容,得到整個模型的求解流程如下:
1)初始化各參數(shù)值,在學習之前 Q值表中的值取零。
2)初始學習階段,保持Rc(k)=0,取η=0,即各動作被選擇的概率相同,經(jīng)式(3)用負荷功率離線數(shù)據(jù)訓練,獲得儲能系統(tǒng)在各狀態(tài)解耦情況采取不同充放電動作的即時報酬,得到初始Q值表Q1,該階段并沒有進行優(yōu)化迭代,只是為了得到各狀態(tài)情況下所有動作策略的即時報酬。
3)獲得初始 Q值表后,引入全局優(yōu)化懲罰項Rc,取η=1,即采用完全貪婪策略,經(jīng)式(3)和k初始Q值表進行策略的優(yōu)化迭代,使用離線數(shù)據(jù)學習得到Q值表Q2。
4)在實時調(diào)度周期,儲能系統(tǒng)實時修正狀態(tài)量并判定其所處狀態(tài),取η=1,基于訓練好的Q值表Q2,采用完全貪婪策略獲得其最優(yōu)充放電動作策略。
負荷功率數(shù)據(jù)采用福建省某地區(qū)6個月小時級數(shù)據(jù),其預測值由小時級氣象數(shù)據(jù)經(jīng)神經(jīng)網(wǎng)絡擬合得到。因為要應用到實時調(diào)度周期,取N=288,C=3,將負荷功率實際值用 spline函數(shù)擬合,預測值用線性插值法擬合分別得到 5min的負荷功率實際值和預測值,選取一天出來作為驗證負荷。
本文設定有3種模型,這3種模型的目標函數(shù)、約束條件、狀態(tài)空間、動作集合和即時報酬函數(shù)都一樣,不同點如下。
1)模型Ⅰ
采用傳統(tǒng)Q學習算法,取α=0.5,γ=0.8,η= 0 .5,負荷功率為已知值,即實際值與預測值一樣,使用式(1)迭代尋優(yōu),迭代200次,獲得儲能系統(tǒng)一天內(nèi)各調(diào)度周期充放電功率最優(yōu)決策值,所有運算都是離線運算。
2)模型Ⅱ
采用本文所提方法尋優(yōu),取 α = 0 .5,完成初始學習階段得到初始Q值表Q1,負荷功率為已知值,即實際值與預測值一樣,使用式(3)優(yōu)化迭代,迭代200次,獲得儲能系統(tǒng)一天內(nèi)各調(diào)度周期充放電決策值,所有運算為離線運算。
3)模型Ⅲ
采用本文所提方法尋優(yōu),取α=0.5,完成初始學習階段得到初始Q值表Q1,并使用式(3)用離線數(shù)據(jù)訓練學習得到Q值表Q2,在實時調(diào)度周期實時修正其狀態(tài)量,并基于Q2用完全貪婪策略在線得出最優(yōu)充放電決策。得到3種模型的凈負荷功率曲線,如圖1所示。
圖1 凈負荷曲線
圖1 (a)中實線為模型Ⅰ得到的凈負荷功率值,虛線為負荷功率實際值;圖1(b)中實線為模型Ⅱ得到的凈負荷功率值,虛線為負荷功率實際值;圖1(c)中不帶加號實線為模型Ⅲ得到的凈負荷功率值,虛線為負荷功率實際值,帶加號實線為負荷功率預測值。
3種模型凈負荷功率曲線方差見表1。
表1 三種模型凈負荷功率曲線方差
由表1可以看出,模型Ⅱ削峰填谷效果最好,模型Ⅲ次之,模型Ⅰ最差。模型Ⅰ采用傳統(tǒng)Q學習算法迭代得到儲能系統(tǒng)最好充放電策略,由圖1(a)可以看出,雖然具有一定削峰填谷效果,但是充放電動作值連續(xù)性較差,變化幅度較大,與理想最優(yōu)策略相差較大,還需要進一步的迭代以及參數(shù)的調(diào)整。模型Ⅱ采用本文所提的尋優(yōu)方法,得到的削峰填谷效果很好,并且相同條件下迭代完成后得到的動作策略是一樣的,而模型Ⅰ每次迭代完成后得到的結(jié)果是不一樣的。模型Ⅲ第一個谷時段和峰時段得到的凈負荷功率曲線已接近模型Ⅱ,這是因為當剩余負荷功率相對于儲能系統(tǒng)可用充放電功率較大時,其充放電動作的選擇與該時段的最值以及當前調(diào)度周期的負荷功率相關性較大,而在該峰谷時段內(nèi),預測值與實際值誤差都為正或者都為負,最值的修正較為準確,得到的充放電動作決策也會較為準確。對于第二個谷時段,負荷功率預測值與實際值誤差正負號多次變化,最值的修正誤差較大,狀態(tài)判斷不夠準確,得到的動作策略與模型Ⅱ動作策略差距較大,而在第一個谷時段和第二個峰時段也有負荷功率預測值與實際值誤差正負不一致情況,但出現(xiàn)的時間在峰谷時段后半段,對最值的修正影響不大,所以其動作策略與模型Ⅱ動作策略相差不大。
本文基于Q值表的記憶功能,提出改進的Q學習算法,去掉了遺忘因子,將不同狀態(tài)下即時報酬之間的關系解耦,用全局最優(yōu)懲罰項引導算法收斂,使儲能系統(tǒng)獲得一天的最優(yōu)充放電動作決策,這種方法是基于初始Q值表對各種狀態(tài)情況下采取不同動作的即時報酬有了認識以后才進行的,相比于傳統(tǒng)Q學習算法,其收斂速度更快,準確性更高,迭代完成后的結(jié)果具有惟一性。而且,Q值表具有記憶功能,在實時調(diào)度周期不需要因為負荷功率預測值不準確而重新進行迭代尋優(yōu),只需修正并判斷其當前所處狀態(tài),基于訓練好的Q值表使用貪婪策略可快速獲得當前狀態(tài)最優(yōu)動作值。但是這種方法需要較大的內(nèi)存存儲Q值表中的數(shù)值,后續(xù)工作可以考慮如何減少狀態(tài)總數(shù),從而減少Q(mào)值表中的值,以避免維數(shù)過大。
附錄A
目標函數(shù)為
所以,此時當a≤c時,只需要b=0和d=b+d,當a>c時,只需要b=b+d和d=0,那么(a ? b )2+(c ? d )2可以獲得最小值。只有當a≤c時,t0調(diào)度周期需要減少充電動作值,此時c ? a> b + d 可以得到c?d>a+b≥a?b,即有c ? d> a ? b ,此時t0調(diào)度周期充電動作值b應該減小b。
當|a ? c | ≤b + d 時,
2)同時釋放功率
此時 a <0 , b ≤ 0 , c <0 , d ≤ 0 ,且a、c和(b + d)為定值,且a + c ≤ b + d 。
若|a ? c | ≤|b + d|,有
所以,當a≤c時,只需要b=0和d=b+d,當a>c時,只需要b = b + d 和 d = 0 ,那么 ( a ? b )2+ ( c ? d )2可以獲得最小值。
當 t0調(diào)度周期為充電動作而 t調(diào)度周期為放電動作時,c ? d < a ? b ;當t0調(diào)度周期為放電動作而t調(diào)度周期為充電動作時,c ? d> a ? b ,兩種情況都與上述情況正好相反,所以不會影響。
[1] 李樂. 微網(wǎng)的經(jīng)濟運行研究[D]. 北京: 華北電力大學, 2011.
[2] 張明, 樸政國. 含儲能的分布式光伏并網(wǎng)系統(tǒng)對配電網(wǎng)調(diào)峰的研究[J]. 電氣技術, 2016, 17(12): 11-14, 19.
[3] 孫建龍, 竇曉波, 張子仲, 等. 直流對等式微電網(wǎng)混合儲能系統(tǒng)協(xié)調(diào)控制策略[J]. 電工技術學報, 2016,31(4): 194-202.
[4] 李銳, 李鵬. 儲能系統(tǒng)在孤島微網(wǎng)中應用[J]. 電氣技術, 2014, 15(6): 15-18.
[5] 李建林, 馬會萌, 惠東. 儲能技術融合分布式可再生能源的現(xiàn)狀及發(fā)展趨勢[J]. 電工技術學報, 2016,31(14): 1-10, 20.
[6] 劉皓明, 陸丹, 楊波, 等. 可平抑高滲透分布式光伏發(fā)電功率波動的儲能電站調(diào)度策略[J]. 高電壓技術,2015, 41(10): 3213-3223.
[7] Chaouachi A, Kamel R M, Andoulsi R, et al.Multiobjective intelligent energy management for a microgrid[J]. IEEE Transactions on Industrial Electronics, 2013, 60(4): 1688-1699.
[8] 宋曉英, 王艷松. 基于協(xié)同進化遺傳算法的微網(wǎng)經(jīng)濟環(huán)保調(diào)度[J]. 電力系統(tǒng)保護與控制, 2014(5):85-89.
[9] 李秀磊, 耿光飛, 季玉琦, 等. 考慮實際運行的配電網(wǎng)電池儲能系統(tǒng)的優(yōu)化配置研究[J]. 電力系統(tǒng)保護與控制, 2017, 45(9): 88-94.
[10] Lee T Y. Operating schedule of battery energy storage system in a Time-of-Use rate industrial user with wind turbine generators: a multipass iteration particle swarm optimization approach[J]. IEEE Transactions on Energy Conversion[J]. Sept, 2007, 22(3): 774-782.
[11] 李樹雷, 展海艷, 薛松, 等. 考慮間歇性分布式電源并網(wǎng)的分布式儲能系統(tǒng)最優(yōu)控制策略[J]. 華東電力,2013, 41(11): 2338-2343.
[12] 鮑冠南, 陸超, 袁志昌, 等. 基于動態(tài)規(guī)劃的電池儲能系統(tǒng)削峰填谷實時優(yōu)化[J]. 電力系統(tǒng)自動化,2012, 36(12): 11-16.
[13] 高雪瑩, 唐昊, 苗剛中, 等. 儲能系統(tǒng)能量調(diào)度與需求響應聯(lián)合優(yōu)化控制[J]. 系統(tǒng)仿真學報, 2016, 28(5):1165-1172.