嚴(yán)梓銘,徐 巖
(南洋理工大學(xué)電氣與電子工程學(xué)院,新加坡 639798,新加坡)
電力系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)一般不隨系統(tǒng)運(yùn)行狀態(tài)改變而改變,若非檢修或故障,線路等主要輸電設(shè)備將保持閉合運(yùn)行[1],而電力系統(tǒng)運(yùn)行調(diào)度也通常不考慮拓?fù)浣Y(jié)構(gòu)調(diào)整。近年來,隨著電力系統(tǒng)不確定性日趨復(fù)雜,可再生能源并網(wǎng)比例提高,傳統(tǒng)電力系統(tǒng)發(fā)電出力調(diào)整的靈活性有限,難以在有限控制資源下滿足電力系統(tǒng)安全經(jīng)濟(jì)運(yùn)行的要求。因此,有研究開始嘗試將電網(wǎng)拓?fù)浣Y(jié)構(gòu)作為電力系統(tǒng)運(yùn)行的控制變量[2],以進(jìn)一步優(yōu)化電力系統(tǒng)的運(yùn)行水平。
輸電網(wǎng)拓?fù)浣Y(jié)構(gòu)優(yōu)化無須加裝設(shè)備,可通過改變電網(wǎng)拓?fù)鋪砀纳瞥绷鞣植?,從而解決線路過載與電壓越限等問題。近年來,常見的輸電網(wǎng)結(jié)構(gòu)優(yōu)化主要包括輸電線路最優(yōu)開斷[3-12]和變電站母線分裂[13-17]這2 類。在線路最優(yōu)開斷方面,文獻(xiàn)[3]提出了基于魯棒優(yōu)化與故障遍歷校驗(yàn)的網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化方法。文獻(xiàn)[4]計(jì)及電網(wǎng)N-1 安全性與短路電流,采用混合整數(shù)線性規(guī)劃求解線路開斷問題。文獻(xiàn)[5]提出了基于靈敏度分析、排序與驗(yàn)算對(duì)比的網(wǎng)絡(luò)拓?fù)湔{(diào)整方法。文獻(xiàn)[6]提出了改善暫態(tài)穩(wěn)定性的線路開斷方法。文獻(xiàn)[7]基于直流潮流模型求解最優(yōu)傳輸線開斷問題。文獻(xiàn)[8-10]采用啟發(fā)式算法求解含傳輸線開斷的最優(yōu)潮流模型。文獻(xiàn)[11]采用混合整數(shù)非線性規(guī)劃求解最優(yōu)傳輸線開斷問題。在變電站母線分裂方面,文獻(xiàn)[13]介紹了變電站母線分裂等拓?fù)浣Y(jié)構(gòu)控制的概念,并采用混合整數(shù)規(guī)劃求解考慮變電站拓?fù)涞陌踩s束最優(yōu)潮流模型。文獻(xiàn)[14]提出了一種考慮最優(yōu)傳輸線與變電站母線的電網(wǎng)拓?fù)浣Y(jié)構(gòu)優(yōu)化方法。文獻(xiàn)[15]將母線分裂優(yōu)化問題建模為混合整數(shù)優(yōu)化問題,并實(shí)現(xiàn)了個(gè)位數(shù)變電站的母線分裂求解。文獻(xiàn)[16]采用輸電網(wǎng)結(jié)構(gòu)混合整數(shù)非線性規(guī)劃求解得到改善電網(wǎng)均勻度的方案。上述文獻(xiàn)中主要通過在較小的變量集上計(jì)算混合整數(shù)優(yōu)化問題來求解拓?fù)浣Y(jié)構(gòu),然而,在實(shí)際變電站中,各設(shè)備在母線上的不同連接方式都可作為獨(dú)立的拓?fù)錄Q策,考慮所有變電站的系統(tǒng)級(jí)拓?fù)錄Q策變量繁多,難以由傳統(tǒng)混合整數(shù)優(yōu)化方法在線求解該超高維度拓?fù)浣Y(jié)構(gòu)優(yōu)化問題。此外,混合整數(shù)優(yōu)化方法僅改善當(dāng)前時(shí)刻的系統(tǒng)運(yùn)行成本,忽略了未來系統(tǒng)運(yùn)行的狀態(tài)。相對(duì)而言,深度強(qiáng)化學(xué)習(xí)可通過價(jià)值函數(shù)近似考慮未來電力系統(tǒng)的運(yùn)行狀態(tài)[18],可在考慮線路開斷[19]與不同拓?fù)浣Y(jié)構(gòu)[20-21]等離散變量的情況下快速求解最優(yōu)控制問題,有望前瞻性地降低安全隱患,但存在圖論模型靈活性低或搜索空間和學(xué)習(xí)負(fù)擔(dān)過大的問題。
為實(shí)現(xiàn)系統(tǒng)級(jí)拓?fù)浣Y(jié)構(gòu)優(yōu)化問題的求解并降低深度強(qiáng)化學(xué)習(xí)負(fù)擔(dān),本文提出了一種結(jié)合異步優(yōu)勢(shì)Actor-Critic(A3C)深度強(qiáng)化學(xué)習(xí)與領(lǐng)域知識(shí)的電力系統(tǒng)拓?fù)浣Y(jié)構(gòu)優(yōu)化方法。以提升系統(tǒng)在各種隨機(jī)場景下的N-1 安全性為核心,本文采用最小化約束越限為獎(jiǎng)勵(lì)訓(xùn)練智能體,將在線運(yùn)行的優(yōu)化計(jì)算負(fù)擔(dān)轉(zhuǎn)移至離線訓(xùn)練過程,同時(shí)通過動(dòng)作空間篩選降低訓(xùn)練負(fù)擔(dān),實(shí)現(xiàn)了良好的學(xué)習(xí)效果。
對(duì)于實(shí)際電網(wǎng),每個(gè)變電站均有多條母線。每一個(gè)負(fù)荷、每一臺(tái)發(fā)電機(jī)或每一條傳輸線均可連接在其中一條母線或另一條母線上。通過變電站節(jié)點(diǎn)分裂或重連、設(shè)備與線路所連母線的變化、線路開斷,都可以改變電力系統(tǒng)的拓?fù)浣Y(jié)構(gòu),從而改變潮流分布,實(shí)現(xiàn)系統(tǒng)的經(jīng)濟(jì)與安全運(yùn)行。
在考慮拓?fù)涞碾娏ο到y(tǒng)運(yùn)行優(yōu)化問題中,要求控制中心盡可能讓系統(tǒng)在負(fù)荷波動(dòng)、線路故障等隨機(jī)因素影響下安全運(yùn)行更長的時(shí)間,并降低運(yùn)行成本。過載與線路故障可能造成連鎖故障并使潮流發(fā)散,因此系統(tǒng)拓?fù)浣Y(jié)構(gòu)優(yōu)化的問題本質(zhì)是考慮N-1安全性的最優(yōu)潮流問題。
計(jì)及傳輸線網(wǎng)損和發(fā)電出力調(diào)整經(jīng)濟(jì)補(bǔ)償,并盡可能避免停電,系統(tǒng)運(yùn)行的總成本可表述為:
式中:C為單個(gè)場景的總運(yùn)行成本;cl(t)為時(shí)刻t傳輸線網(wǎng)損成本;p(t)為時(shí)刻t電價(jià);rl為傳輸線l的電阻;yl(t)為傳輸線l在時(shí)刻t的電流;cr(t)為時(shí)刻t發(fā)電機(jī)出力調(diào)整的成本;cb(t)為時(shí)刻t停電成本;α為補(bǔ)償系數(shù),因增發(fā)或少發(fā)電的發(fā)電廠都有偏離計(jì)劃的出力調(diào)整,因此電網(wǎng)運(yùn)營商需按補(bǔ)償協(xié)議α≥1彌補(bǔ)雙方的損失;εr(t)為發(fā)電出力調(diào)整量;D(t)為時(shí)刻t總負(fù)荷;β為停電成本系數(shù),β≥1;Tg為系統(tǒng)正常運(yùn)行總時(shí)長;Te為系統(tǒng)停電總時(shí)長;nl為傳輸線總數(shù)。
為實(shí)現(xiàn)總成本最小化,系統(tǒng)須滿足潮流方程等式約束(5)和(6),以及發(fā)電機(jī)有功出力約束(7)、機(jī)組爬坡速率約束(8)、線路潮流約束(9)、線路熱穩(wěn)定極限約束(10)等不等式約束。
式中:PD,i、QD,i、PG,i、QG,i分別為節(jié)點(diǎn)i的有功負(fù)荷、無功負(fù)荷、有功出力、無功出力;Vi和Vj分別為節(jié)點(diǎn)i和j的電壓幅值;δij為母線i與母線j之間的相角差;Yij=Gij+jBij為節(jié)點(diǎn)導(dǎo)納矩陣第i行j列元素,Gij和Bij分別為相應(yīng)元素的電導(dǎo)和電納;為時(shí)刻t發(fā)電機(jī)i的有功出力;和分別為機(jī)組向下和向上爬坡率;Sij為輸電線路(i,j)的傳輸功率;為輸電線路(i,j)的最大額定值功率;為輸電線路(i,j)熱穩(wěn)定極限允許的最大功率;n為系統(tǒng)總節(jié)點(diǎn)數(shù)。
在系統(tǒng)運(yùn)行時(shí),由于受運(yùn)行約束與熱穩(wěn)定極限約束,當(dāng)線路過載超過一定時(shí)間后就會(huì)斷開,而當(dāng)線路潮流超過熱穩(wěn)定極限約束時(shí)就會(huì)立即斷開。在智能體動(dòng)作后,通過求解潮流方程判斷潮流方程是否發(fā)散,若發(fā)散則判斷為開始停電,從而可統(tǒng)計(jì)總運(yùn)行成本。
拓?fù)浣Y(jié)構(gòu)的決策是一個(gè)含離散變量的高維優(yōu)化問題,而每種不同的拓?fù)錄Q策不僅影響當(dāng)前狀態(tài)下的潮流分布,還會(huì)影響若干時(shí)間后系統(tǒng)在其他狀況下的潮流分布。因此,傳統(tǒng)優(yōu)化問題難以在考慮未來系統(tǒng)狀態(tài)的情況下及時(shí)求解最優(yōu)決策問題。為此,可將考慮拓?fù)渥兞康碾娏ο到y(tǒng)運(yùn)行優(yōu)化問題建模成馬爾可夫決策過程,并通過深度強(qiáng)化學(xué)習(xí)來離線訓(xùn)練智能體,在線應(yīng)用時(shí)能及時(shí)求解系統(tǒng)最優(yōu)運(yùn)行狀態(tài)。
目前,主流的深度強(qiáng)化學(xué)習(xí)方法包括基于價(jià)值(value-based)和基于策略(policy-based)的深度強(qiáng)化學(xué)習(xí)方法,前者會(huì)評(píng)價(jià)不同動(dòng)作的預(yù)期收益并選擇最優(yōu)收益所對(duì)應(yīng)的動(dòng)作,而后者直接求得使目標(biāo)最優(yōu)的動(dòng)作概率(或值)。兩種深度強(qiáng)化學(xué)習(xí)均通過與環(huán)境迭代互動(dòng)來優(yōu)化智能體?;谏疃葟?qiáng)化學(xué)習(xí)優(yōu)化系統(tǒng)運(yùn)行的過程可以用圖1 表示。如圖1 所示,智能體將觀測(cè)電力系統(tǒng)運(yùn)行狀態(tài),并求解最優(yōu)控制動(dòng)作;環(huán)境通過仿真對(duì)智能體動(dòng)作進(jìn)行評(píng)價(jià),從而反饋給智能體,以引導(dǎo)智能體沿最大化預(yù)期獎(jiǎng)勵(lì)的方向進(jìn)行強(qiáng)化學(xué)習(xí)。
圖1 用于電力系統(tǒng)拓?fù)鋬?yōu)化的深度強(qiáng)化學(xué)習(xí)過程Fig.1 Deep reinforcement learning process for power system topology optimization
由于電力系統(tǒng)拓?fù)錄Q策的動(dòng)作空間巨大,單線程的強(qiáng)化學(xué)習(xí)策略難以有效遍歷可行決策。為了增加樣本多樣性,可設(shè)置多個(gè)線程,令智能體分別在學(xué)習(xí)過程中與不同的環(huán)境交互,從而克服難以收斂的問題。為此,本文基于A3C 算法設(shè)計(jì)電力系統(tǒng)運(yùn)行控制智能體,通過并行創(chuàng)建多個(gè)不同的環(huán)境,讓多個(gè)不同的智能體同時(shí)在各個(gè)環(huán)境中更新全局網(wǎng)絡(luò)的參數(shù),從而增加樣本的多樣性并改善強(qiáng)化學(xué)習(xí)的收斂性。訓(xùn)練過程框架如圖2 所示,通過設(shè)置不同的環(huán)境場景,分別在不同線程中運(yùn)行智能體,A3C 網(wǎng)絡(luò)結(jié)構(gòu)使用系統(tǒng)狀態(tài)作為輸入(詳見2.2 節(jié)),在經(jīng)過共享隱含層后,經(jīng)由Actor 隱含層計(jì)算并輸出動(dòng)作空間中各個(gè)動(dòng)作(詳見2.2 節(jié))的概率,Actor 會(huì)以概率采樣或直接選擇最高概率動(dòng)作并執(zhí)行。共享隱含層之后,Critic 會(huì)評(píng)價(jià)在當(dāng)前狀態(tài)下的狀態(tài)價(jià)值。
圖2 用于電力系統(tǒng)運(yùn)行優(yōu)化的A3C 強(qiáng)化學(xué)習(xí)智能體訓(xùn)練框架Fig.2 Training framework of A3C reinforcement learning agent for power system operation optimization
在以上異步框架的基礎(chǔ)上,A3C 通過優(yōu)勢(shì)項(xiàng),即智能體的實(shí)際獎(jiǎng)勵(lì)與Critic 輸出預(yù)期狀態(tài)價(jià)值之間的差異來加快與穩(wěn)定訓(xùn)練過程。其訓(xùn)練過程主要由式(11)和式(12)更新深度神經(jīng)網(wǎng)絡(luò)參數(shù):
式中:ai為智能體i的控制動(dòng)作(即拓?fù)錄Q策與發(fā)電出力調(diào)整);si為智能體i的狀態(tài)(即電力系統(tǒng)當(dāng)前拓?fù)浣Y(jié)構(gòu)與潮流分布);V(si;θ′v)為預(yù)期狀態(tài)價(jià)值,即Critic 神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的狀態(tài)價(jià)值;R為獎(jiǎng)勵(lì)函數(shù);θ為Actor 神經(jīng)網(wǎng)絡(luò)參數(shù),由多個(gè)運(yùn)行過程下的優(yōu)勢(shì)項(xiàng)對(duì)Actor 參數(shù)梯度的累計(jì)求和更新;θv為Critic 神經(jīng)網(wǎng)絡(luò)參數(shù),由狀態(tài)價(jià)值預(yù)測(cè)誤差對(duì)Critic 參數(shù)梯度的累計(jì)求和更新;π為智能體動(dòng)作策略(policy);θ′和θ′v分別為目標(biāo)Actor 和Critic 神經(jīng)網(wǎng)絡(luò)參數(shù)。
經(jīng)過離線的深度強(qiáng)化學(xué)習(xí),智能體參數(shù)θ可以得到充分更新,并最大化運(yùn)行過程中的預(yù)期獎(jiǎng)勵(lì)。在此基礎(chǔ)上,以電力系統(tǒng)運(yùn)行狀態(tài)為輸入、拓?fù)錄Q策或發(fā)電出力調(diào)整的動(dòng)作概率為輸出,所得的A3C 深度強(qiáng)化學(xué)習(xí)智能體可用于在線的電力系統(tǒng)運(yùn)行優(yōu)化。在訓(xùn)練完成后,智能體可實(shí)時(shí)根據(jù)電力系統(tǒng)狀態(tài)計(jì)算得到當(dāng)前時(shí)刻各動(dòng)作的概率,概率最高的動(dòng)作將會(huì)作為智能體的決策。在智能體選擇動(dòng)作后,本文由潮流計(jì)算進(jìn)一步檢驗(yàn)動(dòng)作的可行性。若當(dāng)前動(dòng)作無法滿足所有約束條件,則繼續(xù)檢驗(yàn)概率次高的拓?fù)涓淖兓虬l(fā)電出力調(diào)整動(dòng)作,直至動(dòng)作滿足約束條件為止。
在將電力系統(tǒng)運(yùn)行優(yōu)化問題建模為深度強(qiáng)化學(xué)習(xí)問題的過程中,特征(智能體的輸入)與動(dòng)作(智能體的可選輸出)的選擇直接決定了性能的好壞。
2.2.1 特征篩選
本文在智能體建模過程中使用的特征包括數(shù)值特征與拓?fù)浣Y(jié)構(gòu)特征。數(shù)值特征包括負(fù)荷有功功率和無功功率、發(fā)電有功功率和無功功率、預(yù)測(cè)負(fù)荷、線路維修計(jì)劃(距下次維修所剩小時(shí)數(shù))、線路功率與功率約束。拓?fù)浣Y(jié)構(gòu)特征基于節(jié)點(diǎn)臨界矩陣,在生成無向圖的基礎(chǔ)上,由NetworkX 包計(jì)算得到,包括圖的節(jié)點(diǎn)重要性(PageRank)、介數(shù)中心性(betweenness centrality) 、節(jié) 點(diǎn) 度 數(shù)(degree centrality)。線路開斷狀態(tài)直接作為額外的向量并入拓?fù)涮卣髦?。需要指出的是,圖神經(jīng)網(wǎng)絡(luò)[20]理論上更適合用于拓?fù)浣Y(jié)構(gòu)優(yōu)化問題。在此基礎(chǔ)上,數(shù)值特征與拓?fù)浣Y(jié)構(gòu)特征可同時(shí)存入列向量中,作為全連接神經(jīng)網(wǎng)絡(luò)(智能體)的輸入。
2.2.2 動(dòng)作篩選
原問題可控參數(shù)包括系統(tǒng)拓?fù)浣Y(jié)構(gòu)與發(fā)電機(jī)再調(diào)度功率,動(dòng)作空間維度過于巨大,難以直接訓(xùn)練強(qiáng)化學(xué)習(xí)智能體。受限于機(jī)組爬坡速率約束,本文將所有的機(jī)組再調(diào)度問題都建模為離散決策問題。設(shè)機(jī)組再調(diào)度增發(fā)或減發(fā)功率為機(jī)組爬坡率所限制功率,發(fā)電再調(diào)度模型可建模為從ng臺(tái)可調(diào)整發(fā)電機(jī)中選擇k臺(tái)發(fā)電機(jī)進(jìn)行增發(fā)或減發(fā)功率(共種不同決策),可將此離散決策動(dòng)作采用不放回采樣的排列組合問題求解得到。通過排列組合工具箱Itertools 可直接枚舉所有包含發(fā)電機(jī)的決策組合,并在此基礎(chǔ)上通過動(dòng)作篩選縮減動(dòng)作空間。
在枚舉所有可行拓?fù)錄Q策與再調(diào)度決策的基礎(chǔ)上,本文使用了滾動(dòng)式動(dòng)作篩選。設(shè)置一個(gè)基于窮舉法的智能體在環(huán)境中不斷運(yùn)行,僅當(dāng)系統(tǒng)發(fā)生潮流越限時(shí)開始篩選可行動(dòng)作,并不斷仿真直到迭代結(jié)束。在動(dòng)作篩選過程中,能讓系統(tǒng)從潮流越限狀態(tài)恢復(fù)至安全運(yùn)行狀態(tài)的拓?fù)鋭?dòng)作與發(fā)電出力調(diào)整動(dòng)作合并至智能體訓(xùn)練所用的動(dòng)作空間:
式中:ΩA,h和ΩA,h+1分別為第h步和h+1 步仿真時(shí)的可行動(dòng)作集合;ΩS,h為第h步仿真時(shí)能夠滿足所有約束條件且當(dāng)前獎(jiǎng)勵(lì)優(yōu)于不執(zhí)行動(dòng)作的動(dòng)作集合;ΩT,h為第h步仿真時(shí)所有可行的拓?fù)鋭?dòng)作集合;ΩR,h為第h步仿真時(shí)所有可行的發(fā)電出力調(diào)整動(dòng)作集合;ΩR(·)為發(fā)電出力調(diào)整動(dòng)作集合;Fh(ai)和Fh,max分別為第h步仿真時(shí)的懲罰函數(shù)及懲罰函數(shù)的最大值。
2.3.1 互為后備的雙學(xué)習(xí)模型
在本文中,由于計(jì)算資源有限,所構(gòu)建深度神經(jīng)網(wǎng)絡(luò)規(guī)模較小,因此無法保證在所有場景與數(shù)據(jù)集上都能收斂。為此,本文隨機(jī)劃分了數(shù)據(jù)集,并由A3C 模型構(gòu)建了2 個(gè)不同的智能體,依據(jù)所劃分的數(shù)據(jù)集分別對(duì)這2 個(gè)模型進(jìn)行訓(xùn)練。在此基礎(chǔ)上,令2 個(gè)智能體在在線應(yīng)用階段互為后備,當(dāng)其中之一失效時(shí)由后備智能體求得拓?fù)浠虬l(fā)電出力調(diào)整動(dòng)作(若其中一個(gè)模型無法滿足約束時(shí),則另一個(gè)后備模型仍然有機(jī)會(huì)使系統(tǒng)恢復(fù)安全)。此外,本文使用2 種不同的獎(jiǎng)勵(lì)函數(shù)訓(xùn)練2 個(gè)智能體,從系統(tǒng)安全性、運(yùn)行成本2 個(gè)不同的角度優(yōu)化拓?fù)淇刂茮Q策。
2.3.2 獎(jiǎng)勵(lì)函數(shù)
在深度強(qiáng)化學(xué)習(xí)過程中,獎(jiǎng)勵(lì)函數(shù)用于評(píng)價(jià)智能體動(dòng)作的效果,并引導(dǎo)智能體調(diào)節(jié)其參數(shù)使預(yù)期獎(jiǎng)勵(lì)最大化。本文采用2 個(gè)智能體互為后備,其獎(jiǎng)勵(lì)函數(shù)分別從改善潮流分布均勻程度、降低系統(tǒng)運(yùn)行成本2 個(gè)角度進(jìn)行設(shè)計(jì)。
首先,提高系統(tǒng)潮流分布的均勻程度有助于提高系統(tǒng)運(yùn)行的安全性[16,22]?;谳旊娫?shí)際輸送容量與其最大輸電能力之比,可以最大化以線路平均傳輸容量為目標(biāo)的默認(rèn)獎(jiǎng)勵(lì)函數(shù)R0,以反映電網(wǎng)運(yùn)行均勻度。
式中:SL,l為輸電線路l的當(dāng)前傳輸功率;SLm,l為輸電線路l的傳輸功率額定最大值。
其次,后備模型以電網(wǎng)運(yùn)行總成本最小為目標(biāo),獎(jiǎng)勵(lì)函數(shù)R′0為正常數(shù)減去運(yùn)行成本或停電損失。
式中:Rb為正常數(shù),作用為鼓勵(lì)智能體盡可能運(yùn)行更長時(shí)間,避免智能體因懲罰積累過多而使系統(tǒng)提前停止運(yùn)行。
在基礎(chǔ)獎(jiǎng)勵(lì)函數(shù)R0和R′0的基礎(chǔ)上,若發(fā)生潮流越限,則在獎(jiǎng)勵(lì)函數(shù)上附加一個(gè)較大“懲罰”;若系統(tǒng)潮流發(fā)散,則給以智能體一個(gè)高額“懲罰”。此外,若懲罰項(xiàng)持續(xù)過高,預(yù)期累積獎(jiǎng)勵(lì)為負(fù),則智能體可能會(huì)嘗試直接使潮流發(fā)散以提前終止系統(tǒng)運(yùn)行。為此,本文對(duì)系統(tǒng)運(yùn)行時(shí)獎(jiǎng)勵(lì)最小值進(jìn)行了約束。所使用的最終獎(jiǎng)勵(lì)函數(shù)R為:
式中:Rmin為系統(tǒng)運(yùn)行時(shí)獎(jiǎng)勵(lì)最小值;Rg為潮流發(fā)散時(shí)給予智能體的懲罰項(xiàng);χl為輸電線路l潮流越限的懲罰系數(shù)。
2.3.3 強(qiáng)制約束校驗(yàn)
若在訓(xùn)練過程中僅使用隨機(jī)搜索,則因動(dòng)作空間過大,難以在有限時(shí)間內(nèi)獲得足夠高質(zhì)量樣本。為了提升樣本質(zhì)量,使強(qiáng)化學(xué)習(xí)智能體更快獲得理想效果,本文在離線強(qiáng)化學(xué)習(xí)過程中強(qiáng)制進(jìn)行潮流約束檢驗(yàn),其流程如圖3 所示。在智能體采取運(yùn)行控制動(dòng)作后,在計(jì)算獎(jiǎng)勵(lì)的同時(shí)計(jì)算系統(tǒng)所有潮流約束。若智能體采取的動(dòng)作會(huì)造成約束越界,則將各動(dòng)作概率按降序排列,并選擇動(dòng)作概率次高的運(yùn)行控制動(dòng)作。以此類推,直到智能體發(fā)現(xiàn)能夠滿足約束條件的動(dòng)作。若所有動(dòng)作均無法滿足約束條件,則智能體將執(zhí)行最大化當(dāng)前獎(jiǎng)勵(lì)函數(shù)的動(dòng)作。
圖3 結(jié)合強(qiáng)制約束校驗(yàn)的訓(xùn)練搜索流程Fig.3 Training searching process combining forced constraint verification
由于動(dòng)作空間過于巨大,傳統(tǒng)的深度強(qiáng)化學(xué)習(xí)難以有效探索遍歷可能的動(dòng)作,因此局部最優(yōu)難以避免,且訓(xùn)練時(shí)間過于漫長。通過上述強(qiáng)制約束校驗(yàn)過程,可以顯著降低搜索階段的計(jì)算量,加快深度強(qiáng)化學(xué)習(xí)的訓(xùn)練速度。
本文仿真驗(yàn)證在CPU 內(nèi)存為16 GB、GPU 為GTX1070 的計(jì)算機(jī)上進(jìn)行。所用于仿真的Python模 塊 主 要 包 括 Grid2op、Tensorflow、Keras、Pypownet、Networkx。本文模型與測(cè)試代碼均已開源[23]。
本文仿真所用系統(tǒng)的詳細(xì)信息及數(shù)據(jù)集場景來源詳見附錄A。該系統(tǒng)有35 個(gè)變電站、22 臺(tái)發(fā)電機(jī)、59 條輸電線路??紤]不同的變電站母線連接方式,該系統(tǒng)共有177 個(gè)節(jié)點(diǎn),每步優(yōu)化時(shí)有65 536 種不同的拓?fù)浣Y(jié)構(gòu)決策。當(dāng)線路潮流超越熱穩(wěn)定極限時(shí),線路將直接斷開。當(dāng)線路潮流持續(xù)超過安全約束時(shí),線路也將斷開。該系統(tǒng)的拓?fù)浣Y(jié)構(gòu)如附錄A圖A1 所示。
為了驗(yàn)證本文方法的有效性以及計(jì)算效率,采用無控制的參考方法以及基于窮舉拓?fù)錄Q策的混合整數(shù)優(yōu)化(僅在約束越限時(shí)進(jìn)行計(jì)算,搜索使系統(tǒng)恢復(fù)安全的拓?fù)浣Y(jié)構(gòu),若發(fā)現(xiàn)系統(tǒng)能滿足約束條件則應(yīng)用該拓?fù)浣Y(jié)構(gòu)并停止搜索)方法進(jìn)行對(duì)比研究。需指出的是,65 536 種不同拓?fù)浣Y(jié)構(gòu)決策并不能簡單視為某連續(xù)決策變量的離散化,原問題極度非凸且復(fù)雜度高,無法使用主流求解器(如Cplex 等)進(jìn)行有效求解。文獻(xiàn)中現(xiàn)有混合整數(shù)優(yōu)化僅能考慮少量不同的拓?fù)錄Q策[2-16],無法實(shí)現(xiàn)本問題的求解。
本文仿真通過降低學(xué)習(xí)率并使智能體在更大的數(shù)據(jù)集上進(jìn)行訓(xùn)練,同時(shí)在本地測(cè)試數(shù)據(jù)集上實(shí)現(xiàn)所有場景下的安全運(yùn)行,如圖4 和圖5 所示。在圖4和圖5 中,藍(lán)色餅圖表示系統(tǒng)安全運(yùn)行的時(shí)長占總仿真時(shí)長的百分比[23],括號(hào)內(nèi)的數(shù)值是測(cè)試樣本數(shù)量。由圖4 和圖5 可知,本文方法通過拓?fù)浣Y(jié)構(gòu)優(yōu)化可有效實(shí)現(xiàn)系統(tǒng)的安全運(yùn)行。圖4 實(shí)現(xiàn)了所有測(cè)試場景的安全運(yùn)行,而所對(duì)比的窮舉方法仍然難以實(shí)現(xiàn)所有場景下的安全運(yùn)行,其在圖5(c)場景中僅能在13.5%的時(shí)長內(nèi)安全運(yùn)行。
圖4 采用深度強(qiáng)化學(xué)習(xí)智能體的仿真結(jié)果Fig.4 Simulation results with adoption of deep reinforcement learning agent
圖5 采用窮舉方法的仿真結(jié)果Fig.5 Simulation results with adoption of exhaustive method
為了驗(yàn)證本文方法的經(jīng)濟(jì)性,表1 和表2 對(duì)比了各方法的運(yùn)行成本及其優(yōu)化比例。附錄A 圖A2對(duì)比了潮流未發(fā)散情況下各方法的系統(tǒng)運(yùn)行成本。從表2 可看出,本文方法較無拓?fù)浣Y(jié)構(gòu)優(yōu)化的對(duì)照方法降低了97.17%的總成本,較窮舉方法提升更為明顯。此外,在未出現(xiàn)停電的5 個(gè)場景(April18、Aug01、June13、Mar38、May23)下,本文方法也通過改善潮流分布降低了運(yùn)行成本。成本降低主要原因在于本文方法自適應(yīng)地求解得到了各狀態(tài)下最優(yōu)的拓?fù)錄Q策,能夠使系統(tǒng)在各種隨機(jī)因素作用下都能安全運(yùn)行,并極大地降低停電損失。
表1 不同場景的運(yùn)行成本對(duì)比Table 1 Comparison of operation costs in different scenarios
表2 總成本及優(yōu)化比例對(duì)比Table 2 Comparison of total costs and optimization proportion
表3 對(duì)比了不同方法在不同仿真算例場景下的總計(jì)算時(shí)間。由表3 可見,本文所提出的方法較窮舉方法極大地降低了計(jì)算負(fù)擔(dān),窮舉方法完成計(jì)算(僅在約束越限時(shí)窮舉)的總計(jì)算時(shí)間為3.9 h,難以在實(shí)際系統(tǒng)運(yùn)行決策間隔中投入使用,而本文方法在系統(tǒng)運(yùn)行過程中進(jìn)行了8 640 次優(yōu)化決策的總計(jì)算時(shí)間為0.3 h,節(jié)省了92.26%的計(jì)算時(shí)間,具有在線使用的潛力。
表3 總計(jì)算時(shí)間對(duì)比Table 3 Comparison of total computation time
常規(guī)窮舉方法在約束越限時(shí)須對(duì)不同的拓?fù)浣Y(jié)構(gòu)組合進(jìn)行多次潮流計(jì)算,過程極其耗時(shí),而本文方法可通過訓(xùn)練強(qiáng)化學(xué)習(xí)智能體,將大規(guī)模仿真的計(jì)算耗時(shí)轉(zhuǎn)移至離線神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程,使在線決策階段快速求得滿足系統(tǒng)安全的拓?fù)浣Y(jié)構(gòu)最優(yōu)解。
為了驗(yàn)證智能體對(duì)于系統(tǒng)拓?fù)浣Y(jié)構(gòu)優(yōu)化的實(shí)際效果,本文也在潮流發(fā)散前對(duì)系統(tǒng)在有無控制情況下的線路潮流分布進(jìn)行了對(duì)比,詳見圖6 與附錄A圖A3。由圖6 可見,在2012-01-23T08:25:00 時(shí),無拓?fù)浣Y(jié)構(gòu)優(yōu)化的參考算例在輸電線路16-17 等多條輸電線路上出現(xiàn)了跳閘或停運(yùn),且輸電線路16-23、輸電線路26-23 與輸電線路23-25 的載流量也超過了額定安全值。相較而言,本文所提出的拓?fù)浣Y(jié)構(gòu)優(yōu)化方法通過定義獎(jiǎng)勵(lì)函數(shù)來懲罰潮流約束越限,引導(dǎo)智能體在環(huán)境中持續(xù)運(yùn)行,可有效調(diào)整系統(tǒng)潮流分布,使線路潮流維持在約束范圍內(nèi)并避免連鎖跳閘,從而改善系統(tǒng)運(yùn)行的安全性。
圖6 系統(tǒng)潮流分布Fig.6 Power flow distribution of power system
本文提供了一種結(jié)合A3C 深度強(qiáng)化學(xué)習(xí)與電力系統(tǒng)領(lǐng)域知識(shí)的系統(tǒng)拓?fù)渑c發(fā)電調(diào)整控制方法,以解決電力系統(tǒng)在線運(yùn)行中決策變量計(jì)算量大與前瞻性不足的問題。為了在巨大的動(dòng)作空間下高效地探索可行拓?fù)錄Q策,本文引入A3C 強(qiáng)化學(xué)習(xí)框架,使各個(gè)智能體分別與不同的環(huán)境相交互,增加了樣本的多樣性,克服了訓(xùn)練難以收斂的問題。同時(shí),為了使智能體能有效地對(duì)電力系統(tǒng)狀態(tài)進(jìn)行建模,本文所設(shè)計(jì)智能體考慮了拓?fù)浣Y(jié)構(gòu)特征與數(shù)值特征,并以若干先驗(yàn)可行的動(dòng)作作為動(dòng)作空間。由于搜索量巨大,本文為了加快算法收斂并提高智能體性能,結(jié)合了電力系統(tǒng)領(lǐng)域知識(shí)設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)與強(qiáng)制約束校驗(yàn)。在一定條件下,智能體將強(qiáng)制尋找可以滿足約束條件的動(dòng)作,以避免過多無效的隨機(jī)搜索。最后,通過隨機(jī)訓(xùn)練數(shù)據(jù)集的劃分,由不同數(shù)據(jù)訓(xùn)練的2 個(gè)神經(jīng)網(wǎng)絡(luò)互為后備,提高了電力系統(tǒng)運(yùn)行控制的安全性能。
本文訓(xùn)練主要基于處理后的系統(tǒng)數(shù)值特征,并不一定能充分反映各種情況下的網(wǎng)絡(luò)拓?fù)涮卣髋c潮流的空間分布,后續(xù)研究可嘗試由圖神經(jīng)網(wǎng)絡(luò)建立智能體以提取潮流空間分布特征。此外,因該問題決策變量維數(shù)過高,搜索空間仍然巨大,后續(xù)研究可考慮以系統(tǒng)的圖論目標(biāo)狀態(tài)為輸出來改進(jìn)動(dòng)作集的建立過程。
附錄見本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網(wǎng)絡(luò)全文。