孫 乾,李翠萍,李 江,李軍徽
(1.東北電力大學 電氣工程學院,吉林 吉林 132012;2.上海電力大學 電氣工程學院,上海 200090)
風能具有隨機性和間歇性的固有缺陷,現(xiàn)有風電出力預測精度不足,即使是最好的預測系統(tǒng)也無法消除與特定預測相關(guān)的不確定性[1]。發(fā)電量和耗電量的變化與預測的高度不確定性相組合,使得風力發(fā)電更難適應電力系統(tǒng)的常規(guī)運行[2]。大規(guī)模風電接入電網(wǎng),會給系統(tǒng)的安全穩(wěn)定運行[3]、高風險爬坡事件平抑帶來巨大的挑戰(zhàn)[4]。
在儲能備用深調(diào)空間逐步用盡的背景下,風電正步入“后補貼”甚至“無補貼”時代[5],風力發(fā)電平價、競價上網(wǎng),項目競標并網(wǎng),促使風電回歸真實價值[6]。然而,風能的固有缺陷削弱了風電在電力市場中的競爭力,使得“風-儲-荷”聯(lián)合單元的平抑效益大幅降低[7]。因此,亟需引入高效的輔助服務市場機制,利用市場制度提高備用資源平抑靈活性,充分挖掘儲能備用平抑空間[8]。
近年來,事件優(yōu)化(event-based optimization,EBO)理論已被應用在諸多領(lǐng)域,尤其是在解決離散動態(tài)系統(tǒng)的問題規(guī)模及復雜性方面得到了進一步的發(fā)展。文獻[9]采用基于事件的控制方法,使控制器僅在客戶到達事件發(fā)生時做出決策,證明了最優(yōu)控制策略具有閾值形式。文獻[10]通過EBO 理論對策略空間進行參數(shù)化,設(shè)計了基于擾動梯度算法找出局部最優(yōu)的策略。文獻[11]在拉格朗日松弛框架內(nèi),開發(fā)了基于EBO 理論的暖通空調(diào)系統(tǒng)節(jié)能最優(yōu)控制策略求取算法,將不確定性匯總為幾個關(guān)鍵因素,并在事件的定義中包含這些關(guān)鍵因素和其他隨時間變化的變量,然后采用Q 學習替代拉格朗日方法和樣本平均逼近來解決維數(shù)災問題。目前,關(guān)于風電平抑控制策略的研究大多以“點功率”作為分析對象,無法實現(xiàn)EBO 運行;EBO 理論在電氣領(lǐng)域的應用大多局限于選擇一個動作,使得系統(tǒng)達到當前最大的期望“潛在”平均收益,并未考慮當前動作對系統(tǒng)長期運行的影響,因此也被稱為貪婪EBO理論。
本文引入輔助服務市場機制,以市場出清電價激勵儲能系統(tǒng)積極參與平抑,提高“風-儲-荷”聯(lián)合單元的效益以及電網(wǎng)的運行可靠性。定義了以能量為依據(jù)的風電不確定事件,以事件為研究主體,相較于以狀態(tài)為研究主體,減少了策略空間,加快了決策速度。提出了一種策略梯度迭代在線算法,可以同時考慮系統(tǒng)當前平抑收益及長期平均收益,得到平抑效果與平抑效益最優(yōu)的“風-儲-荷”聯(lián)合單元最優(yōu)平抑控制策略。
1.1.1 離散風電功率能量化
為了準確計算風電爬坡成本,本文根據(jù)風電機組的運行點確定風電機組的爬坡率。假設(shè)風電爬坡事件特征為一個線性分段函數(shù)[12],如式(1)所示。
根據(jù)風電機組的爬坡率可得到爬坡持續(xù)時間及能量,分別如式(2)和式(3)所示。
式中:T為時段總數(shù),考慮到本文針對日前平抑控制策略并以15 min為時段間隔,則T=96。
在EBO 理論的離散事件系統(tǒng)模型內(nèi)部,事件被定義為具有某些共同特性的狀態(tài)轉(zhuǎn)移集合,而動作的選擇取決于事件的相關(guān)信息。系統(tǒng)結(jié)構(gòu)特性和系統(tǒng)動作之間的邏輯關(guān)系能夠由事件描述,其中包含了3 類“同時”發(fā)生的事件,共同決定1 個轉(zhuǎn)移,并且具有時間上的邏輯順序[13]。
1)可觀事件。
2)可控事件。
基于剛發(fā)生的可觀事件所得到的信息,可以控制其發(fā)生概率的事件被稱為可控事件。一般地,當風電功率在4 h 內(nèi)的能量波動至少達到裝機容量的50 % 時,才認定發(fā)生爬坡事件[14]。為了進一步減小策略優(yōu)化的計算量,本文設(shè)置風電能量波動的允許
3)自然轉(zhuǎn)移事件。
自然轉(zhuǎn)移事件對應的轉(zhuǎn)移由系統(tǒng)的屬性決定,因此自然轉(zhuǎn)移事件發(fā)生的概率不可控。
對比式(6)所示系統(tǒng)狀態(tài)空間S可知,可觀事件空間小于系統(tǒng)狀態(tài)空間,且通過設(shè)定風電能量波動允許區(qū)間得到可控事件空間,使得事件空間大小進一步減小,大幅減少了計算空間。這是EBO 理論的重要優(yōu)勢[15]。
在電力系統(tǒng)中,多個部件同時發(fā)生故障幾乎是不可能的,故一般以系統(tǒng)中某個關(guān)鍵部件的歷史故障狀態(tài)轉(zhuǎn)移概率作為系統(tǒng)的故障狀態(tài)轉(zhuǎn)移概率。根據(jù)系統(tǒng)故障狀態(tài)轉(zhuǎn)移概率,本文以滿足特定期望和標準差的正態(tài)分布表示系統(tǒng)正常運行條件下的狀態(tài)轉(zhuǎn)移概率[16]。
1.5.1 EBO理論的2個基本量
基于EBO 理論的策略優(yōu)化方法可以自然地處理風電不確定事件觸發(fā)聯(lián)合單元備用容量進行策略的性能優(yōu)化,使得聯(lián)合單元在平抑效益最大化的同時,平抑效果最優(yōu)。該優(yōu)化方法基于2 個基本量,即性能、事件Q 因子[17]。可以從系統(tǒng)樣本路徑中估算這2 個基本量,且可以通過策略梯度迭代地改進平抑控制策略,量化(事件-動作)對性能的長期影響。
在EBO 理論中,系統(tǒng)性能評價指標可以是任何
Q因子作為性能勢的一個變形,即狀態(tài)st的平均性能勢,其含義為:當系統(tǒng)處于狀態(tài)st下,觀測到某事件e發(fā)生,采取決策d且執(zhí)行某動作a時,該動作為聯(lián)合單元所產(chǎn)生的效益。EBO 理論中的事件Q因子與馬爾可夫決策過程(Markov decision process,MDP)中的事件Q因子類似,可表示為:
1.5.2 基于貪婪EBO理論求解初始平抑控制策略式中:ati(t=1,2,…,T;i=1,2,…,N) 為t時段第i條樣本路徑的動作,若ati=ERup/Rdnt,則表示當風電不確定事件引發(fā)聯(lián)合單元能量失衡后,向電力輔助服務市場進行招標上調(diào)備用/投標下調(diào)備用;若ati=0,則表示聯(lián)合單元不動作。若投標下調(diào)備用,則聯(lián)合單元獲得收益;若招標上調(diào)備用,則聯(lián)合單元產(chǎn)生平抑成本。
根據(jù)貪婪EBO 理論,取Q 因子最大的動作作為該時段的初始決策,即:
式中:dt(ec)為t時段的最優(yōu)決策動作。
貪婪EBO 理論算法簡單易行,但只保證了當前時段的平抑效果,未考慮對后續(xù)時段性能的影響。本文提出了一種策略梯度迭代在線算法,以策略梯度確定迭代方向,得到同時考慮平抑效果與性能的最優(yōu)平抑控制策略。為了方便求解策略梯度,與基于MDP 的策略梯度優(yōu)化算法類似,策略用歸一化指數(shù)函數(shù)Softmax函數(shù)表示[19],如式(14)所示。
式中:μθ(a|ec)為控制策略;b為動作空間A中的樣本動作;θ(ec,a)=ec-d(ec)為采取動作a時的策略參數(shù)。一般而言,μθ(a|ec)相對于θ是連續(xù)可微的,則策略μθ是策略參數(shù)θ和可控事件ec在動作空間A中的概率分布。
為了有效應對源-荷側(cè)雙向不確定性、波動性引起的功率失衡,需要綜合利用包括儲能系統(tǒng)、輔助服務市場在內(nèi)的多種靈活性備用資源。引入輔助服務市場機制,可提高聯(lián)合單元的運行穩(wěn)定性;鼓勵儲能系統(tǒng)投入輔助服務市場,可利用市場制度提高備用容量平抑靈活性,充分挖掘源-荷-儲側(cè)多元資源的調(diào)節(jié)能力,提高風電并網(wǎng)消納率與風電場的效益。
2.1.1 聯(lián)合單元的平抑成本
1)輔助服務市場備用成本。
輔助服務市場備用成本CREt包含招標上調(diào)備用容量成本和投標下調(diào)備用容量成本,可表示為:
2)儲能系統(tǒng)平抑成本。
考慮到儲能充放電電量、充放電循環(huán)次數(shù)對壽命的影響,建立儲能損耗成本模型[20],將聯(lián)合單元的電能供需差儲能系統(tǒng)的剩余備用容量二者間的最小量作為儲能系統(tǒng)的動作量,以保證儲能系統(tǒng)不會超出自身調(diào)節(jié)能力,則儲能系統(tǒng)平抑成本CESt可表示為:
2.1.2 聯(lián)合單元的平抑目標函數(shù)
綜合考慮儲能備用容量匹配度及平抑效益構(gòu)建目標函數(shù)[21],用以估計策略性能,如式(19)所示。
2.2.1 確定策略梯度
利用不同策略下系統(tǒng)結(jié)構(gòu)的一些“知識”(性能),通過研究1 個策略下的系統(tǒng)行為(動作),可以確定該策略小鄰域內(nèi)的性能,即確定策略梯度。假設(shè)對于任何策略參數(shù)θ′和θ而言,條件概率πθ′s(i|e)具有以下性質(zhì):
2.2.2 策略梯度迭代在線算法
為了解決風電不確定事件的平抑問題,本文基于EBO 理論制定事件決策過程,利用基于敏感度分析的方法,結(jié)合事件的性能梯度估計算法和事件在線策略迭代算法,提出了一種基于策略梯度公式的策略迭代在線算法,用于求解基于事件的最優(yōu)平抑控制策略[22],具體步驟如下。
1)能量化樣本功率數(shù)據(jù),生成風電可控事件。
2)判斷儲能系統(tǒng)自身是否能夠完成平抑,若自身能夠完成平抑,則以動作a=0 作為初始決策;否則,構(gòu)建事件Q因子,根據(jù)貪婪EBO理論算法生成初始決策(動作)。
3)生成動作空間A,形成初始平抑控制策略。
本文以長期平均收益作為平抑效益評價指標,為了進一步體現(xiàn)策略梯度迭代在線算法平抑效果的優(yōu)勢,提出了基于功率的平抑效果評價指標,并通過功率還原算法還原不同策略下聯(lián)合單元的輸出能量。
1)平抑偏差平均值Δδ。
以冀北某風電場2020 年3 月和10 月某天的風電功率數(shù)據(jù)、負荷功率數(shù)據(jù)作為日前預測樣本數(shù)據(jù),并以15 min 為采樣分辨率,共采集96 個離散功率點。風電場的裝機容量為20 MW,儲能系統(tǒng)以抽水蓄能電站為例,最大儲存能量為20 MW·h,當天00:00 時刻的初始儲存能量為10 MW·h。15 min 內(nèi)的能量波動允許值為0.8 MW·h。輔助服務市場的階梯出清電價見附錄A 表A1。儲能系統(tǒng)單位充放電電量懲罰系數(shù)為200 元/(MW·h)[20]。考慮到電力系統(tǒng)持續(xù)穩(wěn)定運行的要求,設(shè)儲能備用容量匹配度的加權(quán)參數(shù)λ1=0.7,平抑效益的加權(quán)參數(shù)λ2=0.3。
首先分別根據(jù)式(4)和式(5)將3 月、10 月的預測離散風電功率、負荷功率數(shù)據(jù)能量化,分別如附錄A 圖A2—A5所示。根據(jù)風電離散能量值、負荷離散能量值得到3月、10月的能量型風電可控事件,分別見附錄A 圖A6 和圖A7。由圖A6 可知:3 月的風電可控事件中,20 —35 時段的風電功率陡增,而負荷需求并不高,此時為風電爬坡事件;60 —80 時段的風電功率陡降,而負荷需求較大,此時為風電下坡事件。由圖A7 可知,10 月的風電可控事件中,20 —55時段為風電下坡事件,65 —90 時段為風電下坡事件。上述結(jié)果反映了風電應用的復雜性,即大規(guī)模風電并網(wǎng)后,傳統(tǒng)的單側(cè)波動將轉(zhuǎn)變?yōu)殡娫磦?cè)和負荷側(cè)的雙側(cè)波動。
初始平抑控制策略下3 月、10 月的儲能剩余容量分別見附錄A 圖A8 和圖A9。由圖可知:貪婪EBO理論算法下的初始平抑控制策略僅考慮了平抑動作對當前時段平抑效益的影響,沒有考慮當前動作對系統(tǒng)長期平均收益的影響,導致3 月儲能系統(tǒng)在27 —34 時段的剩余容量達到最大值,10 月儲能系統(tǒng)在85 —90 時段的剩余容量降低為0,短時間內(nèi)抽水蓄能電站失去了調(diào)節(jié)能力,這會給系統(tǒng)之后的穩(wěn)定運行帶來風險。且儲能剩余容量長時間處于極限狀態(tài),會降低抽水蓄能電站的使用壽命。
不同樣本路徑下的動作空間如附錄A 圖A10 所示,通過策略梯度迭代在線算法以性能梯度更新策略參數(shù),基于Softmax 函數(shù)得到3月和10月動作空間的概率分布,即最優(yōu)平抑控制策略下各時段的最優(yōu)決策(動作),分別如圖1和圖2所示。
圖1 最優(yōu)平抑控制策略下3月的最優(yōu)動作Fig.1 Optimal action in March under optimal smoothing control strategy
圖2 最優(yōu)平抑控制策略下10月的最優(yōu)動作Fig.2 Optimal action in October under optimal smoothing control strategy
在3 月風電事件中:20 —35 時段發(fā)生風電爬坡事件,此時市場出清價格為谷時電價,且抽水蓄能電站的容量已接近峰值,聯(lián)合單元主要采取向輔助服務市場投標下調(diào)備用的動作來平抑,以減少電站的充電量,為之后消納風電做準備;60 —80 時段發(fā)生風電下坡事件,其中60 —71時段市場出清價格為平時電價,但在72 —80時段市場出清價格達到峰時電價,因此聯(lián)合單元在前期主要采取向輔助服務市場招標上調(diào)備用的動作來平抑以減少電站的放電量,為之后出清價格峰時減少招標上調(diào)備用做準備。在10 月風電事件中,20 —55 時段發(fā)生風電下坡事件,40 —69時段的市場出清價格為峰時電價。因此,聯(lián)合單元盡可能地減少輔助服務市場招標上調(diào)備用的動作來平抑,而是利用抽水蓄能電站放電來降低平抑成本。初始平抑控制策略下3 月、10 月的長期平均收益分別為1 178.48、1 247.50 元/時段。最優(yōu)平抑控制策略下3月、10月的儲能剩余容量分別如圖3和圖4 所示。由圖可知:最優(yōu)平抑控制策略基于輔助服務市場機制靈活地調(diào)用抽水蓄能電站,充分挖掘了儲能備用的平抑空間,同時能夠在全時段時間尺度下考慮當前及長期平均收益,3 月、10 月的長期平均收益分別達到1 378.5、1 394.0元/時段。
圖3 最優(yōu)平抑控制策略下3月的儲能剩余容量Fig.3 Residual capacity of energy storage in March under optimal smoothing control strategy
圖4 最優(yōu)平抑控制策略下10月的儲能剩余容量Fig.4 Residual capacity of energy storage in October under optimal smoothing control strategy
考慮到EBO 理論脫胎于傳統(tǒng)的MDP,基于3 月的風電功率、負荷功率數(shù)據(jù),采用式(30)和式(31)對比分析基于策略梯度迭代在線算法的最優(yōu)平抑控制策略與文獻[23]中基于馬爾可夫預測模型的粒子群優(yōu)化算法的控制策略的平抑效果,結(jié)果如表1 所示。由表可知:相較于平抑前,基于策略梯度迭代在線算法和粒子群優(yōu)化算法所得的平抑偏差平均值、平抑偏差最大值均減小,表明2 種算法均可有效平抑;且相較于粒子群優(yōu)化算法,策略梯度在線迭代算法的平抑效果更優(yōu)。不同算法下聯(lián)合單元的輸出功率如圖5 所示。由圖可知,相較于平抑前,基于2 種算法均能取得較好的平抑效果,但策略梯度迭代在線算法下輸出功率的波動幅值大小與頻率均比粒子群優(yōu)化算法小,整體輸出功率更趨于穩(wěn)定。
表1 不同算法下的平抑效果Table 1 Smoothing effect under different algorithms
圖5 不同算法下聯(lián)合單元的輸出功率Fig.5 Output power of joint unit under different algorithms
不同算法下的平抑效益如圖6 所示。由圖可知,雖然在某些時段,策略梯度迭代在線算法的平抑效益低于粒子群優(yōu)化算法,但從全時段整體上而言,策略梯度迭代在線算法的長期平均收益高于粒子群優(yōu)化算法。不同算法所得長期平均收益比較如圖7所示。由圖可知,策略梯度迭代在線算法所得長期平均收益隨著迭代次數(shù)的增大而快速增大,在經(jīng)過600次迭代后趨于恒定,經(jīng)過800次迭代后已能滿足風電能量波動的允許區(qū)間,并在1 000次迭代結(jié)束時性能達到最優(yōu)。
圖6 不同算法下的平抑效益Fig.6 Smoothing benefits under different algorithms
圖7 不同算法所得長期平均收益比較Fig.7 Comparison of long-term average return obtained by different algorithms
不同算法的迭代速度如附錄A 表A2 所示。由表可知:當?shù)介L為800 時,策略梯度迭代在線算法的單次迭代時間為0.582 s,系統(tǒng)長期平均收益為1 378.5 元/時段;粒子群優(yōu)化算法的單次迭代時間為0.637 s,系統(tǒng)長期平均收益為1 092.8 元/時段??梢钥闯?,策略梯度迭代在線算法不僅在平抑效益上更優(yōu),由于其事件空間小于粒子群優(yōu)化算法的狀態(tài)空間,提高了決策速度,因此其在迭代速度方面也快于粒子群優(yōu)化算法。
本文提出了一種風電不確定事件最優(yōu)平抑控制策略,考慮到維數(shù)災難問題與策略迭代問題,應用EBO 理論來求解最優(yōu)平抑控制策略。同時,基于儲能備用匹配度與輔助服務市場平抑效益構(gòu)建平抑目標函數(shù),充分挖掘電力系統(tǒng)內(nèi)部現(xiàn)有各種備用資源的靈活性。基于策略梯度在線迭代算法得到最優(yōu)平抑控制策略,使得“風-儲-荷”聯(lián)合單元在實現(xiàn)最優(yōu)平抑效果的同時,得到最大化的平抑效益?;谒憷Y(jié)果可得如下結(jié)論。
1)本文以能量作為分析對象,相比于以功率作為分析對象,可以更直觀地反映風電不確定事件的平抑過程,且在構(gòu)建數(shù)學模型時更加簡單高效。
2)本文基于EBO 理論提出了以事件為研究主體的平抑控制策略,相較于粒子群優(yōu)化算法,其可以同時考慮平抑動作對當前及全時段(24 h)的影響;相較于傳統(tǒng)的以狀態(tài)為研究主體的平抑控制策略,其能夠反映系統(tǒng)結(jié)構(gòu)的性質(zhì),并在平抑效果、平抑效益、決策速度上更優(yōu)。
3)所提策略梯度在線迭代算法具有相對合理的復雜度,可以很好地應用于實際?;诓呗蕴荻仍诰€迭代算法的策略可能無法獲得絕對最優(yōu)的性能,但是考慮到基于策略梯度優(yōu)化的特點,只在當前可控事件的基礎(chǔ)上做出決策,因此基于EBO 理論的風電不確定事件最優(yōu)平抑控制策略可以達到最優(yōu)或接近最優(yōu)的性能。
附錄見本刊網(wǎng)絡(luò)版(http://www.epae.cn)。