徐春雷,吳海偉,刁瑞盛,胡潯惠,李 雷,史 迪
(1.國(guó)網(wǎng)江蘇省電力有限公司,南京 210024;2.智博能源科技(江蘇)有限公司,南京 211302;3.國(guó)電南瑞科技股份有限公司,南京 211106;)
隨著大功率特高壓交直流混聯(lián),可再生能源滲透率及負(fù)荷響應(yīng)比例逐漸提高,我國(guó)電網(wǎng)運(yùn)行特征發(fā)生了深刻且復(fù)雜的變化,其不確定性及動(dòng)態(tài)性顯著增強(qiáng)。由可再生能源的快速波動(dòng)以及電網(wǎng)故障所導(dǎo)致的局部功率不平衡,如果沒(méi)有及時(shí)、有效的調(diào)控手段,將逐步轉(zhuǎn)變?yōu)檫B鎖故障,系統(tǒng)性安全風(fēng)險(xiǎn)顯著增大。因此,制定快速、準(zhǔn)確的在線(xiàn)調(diào)控決策對(duì)于確保電網(wǎng)安全穩(wěn)定運(yùn)行至關(guān)重要。
目前,成功應(yīng)用于電力領(lǐng)域的人工智能(artifi?cial intelligence,AI)技術(shù)多側(cè)重于負(fù)荷預(yù)測(cè)、可再生能源預(yù)測(cè)、安全性預(yù)測(cè)等。其核心技術(shù)為監(jiān)督式學(xué)習(xí)算法,通常需要采集大量有標(biāo)注的有效樣本來(lái)訓(xùn)練AI 模型。而電網(wǎng)調(diào)控領(lǐng)域的很多問(wèn)題缺少大量真實(shí)電網(wǎng)事件作為有效樣本,這也是制約監(jiān)督式學(xué)習(xí)方法在電網(wǎng)調(diào)控領(lǐng)域落地應(yīng)用的重要因素之一。近期,強(qiáng)化學(xué)習(xí)算法用于電力領(lǐng)域已有部分研究陸續(xù)開(kāi)展,包括以下方面。
①電網(wǎng)穩(wěn)定性控制:文獻(xiàn)[1]提出了基于Q 學(xué)習(xí)算法的切機(jī)方案來(lái)保證系統(tǒng)暫態(tài)安全穩(wěn)定性;文獻(xiàn)[2]提出了基于Q 學(xué)習(xí)算法的低頻振蕩抑制策略。②微網(wǎng)經(jīng)濟(jì)運(yùn)行:文獻(xiàn)[3]提出了在微網(wǎng)環(huán)境中基于Q 學(xué)習(xí)算法的儲(chǔ)能裝置控制方法。③提升電網(wǎng)暫態(tài)行為指標(biāo):文獻(xiàn)[4]提出了基于深度Q網(wǎng)絡(luò)算法的暫態(tài)電壓控制策略。④安全評(píng)估:文獻(xiàn)[5]提出了使用強(qiáng)化學(xué)習(xí)算法對(duì)電網(wǎng)物理信息系統(tǒng)進(jìn)行安全評(píng)估。⑤頻率控制:文獻(xiàn)[6]提出了使用強(qiáng)化學(xué)習(xí)進(jìn)行負(fù)荷頻率控制的方法。⑥電網(wǎng)負(fù)荷預(yù)測(cè):文獻(xiàn)[7]使用強(qiáng)化學(xué)習(xí)算法進(jìn)行短期負(fù)荷預(yù)測(cè)。⑦經(jīng)濟(jì)規(guī)劃和無(wú)功電壓控制:文獻(xiàn)[8]提出了基于分布式強(qiáng)化學(xué)習(xí)算法來(lái)解決動(dòng)態(tài)經(jīng)濟(jì)規(guī)劃的問(wèn)題;文獻(xiàn)[9]提出了一種基于深度強(qiáng)化學(xué)習(xí)的配電網(wǎng)無(wú)功-電壓優(yōu)化方案。⑧聯(lián)絡(luò)線(xiàn)潮流控制:文獻(xiàn)[10]提出了一直基于競(jìng)爭(zhēng)架構(gòu)deep Q?learning 算法的拓?fù)淇刂品椒ㄒ宰畲蠡B續(xù)時(shí)間斷面的線(xiàn)路傳輸容量;文獻(xiàn)[11]提出了一種基于近端優(yōu)化深度強(qiáng)化學(xué)習(xí)算法的有功控制方法。⑨參數(shù)自動(dòng)調(diào)節(jié):文獻(xiàn)[12]提出了一種基于多層深度Q 網(wǎng)絡(luò)對(duì)發(fā)電機(jī)動(dòng)態(tài)模型進(jìn)行自動(dòng)調(diào)參的方法等。
本文在上述研究成果的基礎(chǔ)上,提出了一種基于最大熵強(qiáng)化學(xué)習(xí)算法的電網(wǎng)多目標(biāo)在線(xiàn)調(diào)控輔助決策方法,可對(duì)電網(wǎng)有功、無(wú)功、網(wǎng)損進(jìn)行多目標(biāo)聯(lián)合優(yōu)化控制。研發(fā)完成的軟件部署于江蘇省調(diào)控中心安全I(xiàn)區(qū),通過(guò)多線(xiàn)程離線(xiàn)訓(xùn)練和定期在線(xiàn)更新,訓(xùn)練好的soft actor?critic(SAC)智能體可與電網(wǎng)實(shí)時(shí)運(yùn)行環(huán)境進(jìn)行交互,在毫秒級(jí)給出輔助調(diào)控策略,解決電壓越界、聯(lián)絡(luò)線(xiàn)潮流越限以及網(wǎng)損優(yōu)化等問(wèn)題。該方法利用電力系統(tǒng)基本原理與規(guī)則,基于海量電網(wǎng)真實(shí)斷面進(jìn)行大量仿真分析,模擬電網(wǎng)中可能出現(xiàn)的電壓越界或潮流越限等事件,用于豐富樣本庫(kù),通過(guò)快速自我學(xué)習(xí)和訓(xùn)練,依靠傳統(tǒng)計(jì)算分析方法參與評(píng)價(jià)與反饋,生成滿(mǎn)足電網(wǎng)運(yùn)行控制要求的系列智能體,可對(duì)電網(wǎng)中閉環(huán)運(yùn)行的實(shí)時(shí)調(diào)控系統(tǒng)提供有效的輔助支撐,尤其是當(dāng)閉環(huán)調(diào)控系統(tǒng)暫時(shí)退出運(yùn)行且調(diào)度員缺乏其他有效工具時(shí)。
本文首先簡(jiǎn)述了適用于電網(wǎng)調(diào)控領(lǐng)域的深度強(qiáng)化學(xué)習(xí)基本原理以及本文所使用的最大熵強(qiáng)化學(xué)習(xí)算法;然后詳細(xì)給出了所提方法的總體設(shè)計(jì)、智能體訓(xùn)練流程、原型軟件架構(gòu)以及數(shù)據(jù)流;最后以江蘇張家港分區(qū)為例,通過(guò)大量的在線(xiàn)數(shù)值仿真實(shí)驗(yàn)驗(yàn)證了該方法的有效性。
考慮到實(shí)際電網(wǎng)的復(fù)雜性,通過(guò)對(duì)比各算法的優(yōu)缺點(diǎn),本文采用最大熵強(qiáng)化學(xué)習(xí)算法對(duì)智能體進(jìn)行訓(xùn)練以實(shí)現(xiàn)既定的控制目標(biāo),該算法的魯棒性和收斂性能十分優(yōu)異。類(lèi)似于其他深度強(qiáng)化學(xué)習(xí)算法(deep reinforcement learning,DRL),SAC也采用值函數(shù)和Q函數(shù)。區(qū)別在于,其他強(qiáng)化學(xué)習(xí)算法只考慮最大化預(yù)期獎(jiǎng)勵(lì)值的積累;而SAC采用隨機(jī)策略,在最大化獎(jiǎng)勵(lì)值積累的同時(shí)最大化熵值,即在滿(mǎn)足控制性能要求的前提下采取盡可能隨機(jī)的控制動(dòng)作[13]。SAC的核心算法中更新最優(yōu)策略的過(guò)程表示為
SAC算法采用隨機(jī)策略,針對(duì)多目標(biāo)電網(wǎng)自主安全調(diào)控這一控制決策問(wèn)題,具有更強(qiáng)大的探索可行域的能力[13]。訓(xùn)練智能體的過(guò)程類(lèi)似于其他策略梯度算法,對(duì)于控制策略的評(píng)估和提升可采用帶有隨機(jī)梯度的人工神經(jīng)網(wǎng)絡(luò)。構(gòu)造所需值函數(shù)Vψ(st)和Q函數(shù)Qθ(st,at)時(shí),可分別用神經(jīng)網(wǎng)絡(luò)參數(shù)ψ和θ來(lái)表示。SAC算法中采用2個(gè)值函數(shù),其中一個(gè)值函數(shù)稱(chēng)為“軟”值函數(shù),來(lái)逐步更新策略,以提升算法的穩(wěn)定性和可靠性。根據(jù)文獻(xiàn)[13],軟值函數(shù)可以通過(guò)最小化式(2)中的誤差平方值來(lái)更新其神經(jīng)網(wǎng)絡(luò)的權(quán)重,目標(biāo)函數(shù)為
式中:D為已有樣本的空間分布;為對(duì)誤差平方值的期望;為控制策略π?所對(duì)應(yīng)控制動(dòng)作at的期望。
式(2)的概率梯度則可用式(3)來(lái)計(jì)算
式中:?ψ為對(duì)參數(shù)ψ求梯度。
類(lèi)似地,可通過(guò)最小化Bellman 殘差的方式來(lái)更新軟Q函數(shù)的神經(jīng)網(wǎng)絡(luò)權(quán)重,計(jì)算如下
式中:γ為折扣系數(shù);為概率分布p的t+1 時(shí)刻狀態(tài)st+1的期望。
而式(4)的優(yōu)化求解可由式(6)中的概率梯度進(jìn)行迭代計(jì)算
式中:?θ為對(duì)θ求梯度;為目標(biāo)值函數(shù)網(wǎng)絡(luò),可定期更新(詳見(jiàn)算法1)。
不同于其他確定梯度算法,SAC 的策略是由帶有平均值和協(xié)方差的隨機(jī)高斯分布所表達(dá)。代表其控制策略的神經(jīng)網(wǎng)絡(luò)參數(shù)可通過(guò)最小化預(yù)期Kullback?Leibler(KL)偏差而得到,參數(shù)為φ的控制策略π的目標(biāo)函數(shù)為
其優(yōu)化求解過(guò)程可由式(8)的概率梯度給出[13]
電網(wǎng)中的諸多調(diào)控問(wèn)題可描述成馬爾科夫決策過(guò)程(Markov decision process,MDP),用于解決隨機(jī)動(dòng)態(tài)環(huán)境下的離散時(shí)序控制問(wèn)題。針對(duì)于電網(wǎng)中的電壓、潮流控制,相應(yīng)的MDP過(guò)程可用4維元組描述(S,A,Pa,Ra),其中S代表系統(tǒng)狀態(tài)空間,可包括電壓幅值、電壓相角、線(xiàn)路有功功率、線(xiàn)路無(wú)功功率、發(fā)電機(jī)出力、負(fù)荷等;A代表控制動(dòng)作集,可包括發(fā)電機(jī)有功出力、機(jī)端電壓設(shè)定值、容抗器投切、變壓器分接頭調(diào)整、切負(fù)荷等;Pa(s,s’)=Pr(st+1=s’|st=s,at=a)則代表系統(tǒng)在t時(shí)刻從當(dāng)前狀態(tài)st采用了控制動(dòng)作at后轉(zhuǎn)移到新?tīng)顟B(tài)st+1的概率;Ra(s,s’)代表從當(dāng)前狀態(tài)s轉(zhuǎn)移到新?tīng)顟B(tài)后s’得到的獎(jiǎng)勵(lì)值,用來(lái)評(píng)估控制效果。
MDP 的求解過(guò)程是為了得到優(yōu)化控制策略π(s),可從系統(tǒng)狀態(tài)直接給出控制動(dòng)作,從而使長(zhǎng)時(shí)間序列的期望獎(jiǎng)勵(lì)值積累達(dá)到最大化。深度強(qiáng)化學(xué)習(xí)AI 智能體可在不斷地與環(huán)境交互的過(guò)程中學(xué)習(xí)并提升控制策略,即“強(qiáng)化”或“進(jìn)化”過(guò)程,直至快速、高水平完成既定控制目標(biāo),如圖1所示。通過(guò)仔細(xì)設(shè)計(jì)系統(tǒng)狀態(tài)、獎(jiǎng)勵(lì)值、動(dòng)作空間,DRL 智能體從環(huán)境中獲取系統(tǒng)狀態(tài)s,同時(shí)給出控制動(dòng)作a;環(huán)境在施加了該控制動(dòng)作后將改變的系統(tǒng)狀態(tài)s'和獎(jiǎng)勵(lì)值r輸出給智能體。
圖1 深度強(qiáng)化學(xué)習(xí)智能體與環(huán)境交互過(guò)程Fig.1 Interaction between DRL agent and environment
在強(qiáng)化學(xué)習(xí)算法中,有2個(gè)重要的函數(shù)定義,即值函數(shù)和Q函數(shù)。其中值函數(shù)V(s)用來(lái)衡量當(dāng)前狀態(tài)的好壞,即從當(dāng)前狀態(tài)開(kāi)始并采用一個(gè)特定控制策略后所能累計(jì)到的獎(jiǎng)勵(lì)值;而Q函數(shù)則是用來(lái)評(píng)估控制策略的好壞,即從某個(gè)狀態(tài)開(kāi)始采用該控制策略所能積累的獎(jiǎng)勵(lì)值。Q函數(shù)為
式中:E為對(duì)獎(jiǎng)勵(lì)值的期望;r為每個(gè)對(duì)應(yīng)時(shí)刻或控制迭代所獲得的獎(jiǎng)勵(lì)值;γ為折扣系數(shù)。
達(dá)到最大期望值的最優(yōu)Q值函數(shù)可表述為
一旦得到最優(yōu)Q值函數(shù)Q*,AI 智能體則可根據(jù)該函數(shù)給出的值輸出控制指令
相應(yīng)地,最大化獎(jiǎng)勵(lì)值的最優(yōu)Q值可以表述為
式(9)至式(12)構(gòu)成了馬爾科夫決策過(guò)程。由于控制措施的獎(jiǎng)勵(lì)值可以用人工神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè),最優(yōu)的Q值則可以用分解后的形式表述,即貝爾曼(Bellman)方程為
本文提出的方法在訓(xùn)練AI智能體的過(guò)程中同時(shí)考慮多個(gè)控制目標(biāo)、安全約束和電力設(shè)備物理極限??刂颇繕?biāo)包括修復(fù)電壓越限問(wèn)題、減小網(wǎng)損以及修復(fù)聯(lián)絡(luò)線(xiàn)潮流越限問(wèn)題。
值得注意的是,該方法具有通用性和靈活性,可以針對(duì)母線(xiàn)電壓、聯(lián)絡(luò)線(xiàn)功率、線(xiàn)路網(wǎng)損等不同控制問(wèn)題分別訓(xùn)練、測(cè)試AI 智能體以提升性能,達(dá)到預(yù)期的控制目標(biāo)[14—15]。
為了訓(xùn)練有效的智能體達(dá)到既定目標(biāo),相應(yīng)的環(huán)境、樣本、狀態(tài)、動(dòng)作以及獎(jiǎng)勵(lì)值定義如下。
環(huán)境:本文所提出的AI智能體訓(xùn)練方法使用電網(wǎng)真實(shí)運(yùn)行/計(jì)算環(huán)境,即D5000在線(xiàn)系統(tǒng)中的狀態(tài)估計(jì)模塊和調(diào)度員交流潮流計(jì)算模塊。
樣本:訓(xùn)練和測(cè)試樣本可從D5000 系統(tǒng)的海量斷面潮流文件(QS格式)中獲得,代表不同時(shí)間點(diǎn)的電網(wǎng)真實(shí)運(yùn)行狀態(tài)。若針對(duì)未來(lái)規(guī)劃中的拓?fù)浣Y(jié)構(gòu)變化訓(xùn)練AI 智能體,則需將該變化反映在樣本中。此外,智能體的狀態(tài)空間和控制空間維度也應(yīng)進(jìn)行相應(yīng)的調(diào)整。
狀態(tài):針對(duì)控制目標(biāo),系統(tǒng)狀態(tài)變量將包括變電站母線(xiàn)電壓幅值、電壓相角、傳輸線(xiàn)路有功功率和無(wú)功功率、控制變量狀態(tài)等。
動(dòng)作:為了有效調(diào)整變電站母線(xiàn)電壓水平,控制動(dòng)作可包括調(diào)節(jié)發(fā)電機(jī)端電壓、投切電容/電抗器、變壓器分接頭調(diào)整、拉停線(xiàn)路等措施。
獎(jiǎng)勵(lì)值:為了施加有效控制,考慮多控制目標(biāo)后的每一步施加控制措施,所對(duì)應(yīng)的獎(jiǎng)勵(lì)值定義如下。
當(dāng)發(fā)生電壓或潮流越限時(shí)
式中:N為功率越限線(xiàn)路的總數(shù);Sline(i)為線(xiàn)路視在功率;Sline_max(i)為線(xiàn)路視在功率極限;M為電壓越限母線(xiàn)的總數(shù);Vm為母線(xiàn)電壓幅值;Vmin為電壓安全下限;Vmax為電壓安全上限。
式中:p_loss為當(dāng)前網(wǎng)損值;p_loss_pre為控制前網(wǎng)損值。
當(dāng)無(wú)電壓、潮流越限情況且delta_p_loss<0時(shí)
當(dāng)無(wú)電壓、潮流越限情況且delta_p_loss≥0.02時(shí)
其他情況時(shí)
前期準(zhǔn)備工作需要搜集大量代表歷史運(yùn)行工況的電網(wǎng)斷面潮流文件,可連續(xù)涵蓋幾周甚至幾個(gè)月的電網(wǎng)運(yùn)行狀態(tài)。
訓(xùn)練開(kāi)始時(shí),首先提取并解析系統(tǒng)斷面潮流文件,由調(diào)度員潮流程序進(jìn)行基態(tài)潮流計(jì)算并判別是否收斂。若不收斂,則代表該基態(tài)潮流文件本身存在數(shù)據(jù)或模型錯(cuò)誤,或電網(wǎng)工況不合理并可能包含安全性問(wèn)題。若潮流收斂,則分析電網(wǎng)工況,檢查包括電壓、線(xiàn)路潮流、網(wǎng)損在內(nèi)的各項(xiàng)指標(biāo)。提取出的系統(tǒng)狀態(tài)輸入至SAC智能體,給出控制策略。當(dāng)前樣本訓(xùn)練滿(mǎn)足退出條件后,將更新SAC的各個(gè)神經(jīng)網(wǎng)絡(luò)模型參數(shù)。當(dāng)所有樣本均被訓(xùn)練后,該流程退出。
為了提高訓(xùn)練效果和控制準(zhǔn)確性,通常可以采用多線(xiàn)程訓(xùn)練的方式,即采用不同的超參數(shù)和隨機(jī)數(shù)產(chǎn)生多個(gè)智能體,綜合評(píng)估各智能體的效果并選擇效果最好的一個(gè)或多個(gè),用于在線(xiàn)運(yùn)行。智能體在測(cè)試過(guò)程中,SAC智能體的各神經(jīng)網(wǎng)絡(luò)模型參數(shù)不再改變,而是由訓(xùn)練好的智能體直接給出控制策略,并使用D5000調(diào)度員潮流計(jì)算程序評(píng)估控制效果。
以江蘇電網(wǎng)張家港分區(qū)為例,分別展示了SAC智能體在2019 年夏季高峰典型工況和2019 年冬季在線(xiàn)運(yùn)行的調(diào)控性能。
圖2給出了訓(xùn)練SAC智能體與南瑞D5000系統(tǒng)進(jìn)行交互的過(guò)程。張家港分區(qū)的高壓網(wǎng)架結(jié)構(gòu)包含45 個(gè)廠站,線(xiàn)路96 條。該分區(qū)最大統(tǒng)調(diào)出力約230 萬(wàn)kW,張家港、晨陽(yáng)、錦豐主變最大受電能力350萬(wàn)kW,最大供電能力約為580萬(wàn)kW。當(dāng)D5000系統(tǒng)將斷面潮流QS 文件輸出到AI 服務(wù)器中,訓(xùn)練好的智能體可在1 s 以?xún)?nèi)給出合理建議來(lái)解決電壓越界問(wèn)題并降低系統(tǒng)網(wǎng)損。輸出的控制指令將導(dǎo)入D5000 系統(tǒng)中進(jìn)行調(diào)度員潮流計(jì)算,驗(yàn)證其有效性。圖3給出了該原型軟件的展示終端界面。
圖2 多目標(biāo)自主調(diào)控智能體訓(xùn)練流程圖Fig.2 Flowchart for training DRL agent for multi?objective autonomous control
圖3 張家港分區(qū)AI智能體與電網(wǎng)環(huán)境交互過(guò)程Fig.3 Interaction between SAC agent and power grid environment for Zhangjiagang
該方法在張家港分區(qū)的訓(xùn)練與測(cè)試分為2個(gè)階段,包括針對(duì)典型運(yùn)行狀態(tài)的測(cè)試和針對(duì)在線(xiàn)運(yùn)行工況的測(cè)試。
在訓(xùn)練該智能體的過(guò)程中考慮的控制目標(biāo)包括:①220 kV及以上母線(xiàn)電壓不越限,在[0.97p.u.,1.07p.u.]范圍內(nèi);②220 kV及以上線(xiàn)路不過(guò)載;③降低220 kV及以上線(xiàn)路網(wǎng)損達(dá)0.5%以上??刂拼胧檎{(diào)節(jié)張家港分區(qū)內(nèi)12 臺(tái)發(fā)電機(jī)的機(jī)端電壓設(shè)定值,在[0.97p.u.,1.07p.u.]范圍內(nèi)調(diào)節(jié)。訓(xùn)練和測(cè)試樣本的生成流程如下:在2019年7月份江蘇(含全華東地區(qū),220 kV以上網(wǎng)架)5個(gè)基態(tài)斷面潮流文件基礎(chǔ)上隨機(jī)擾動(dòng)張家港分區(qū)負(fù)荷(±20%,即80%~120%),并添加N-1、N-1-1 故障。共產(chǎn)生了24 000 個(gè)斷面樣本,隨機(jī)選取12 000個(gè)作為樣本訓(xùn)練SAC智能體,剩余12 000個(gè)作為測(cè)試樣本測(cè)試智能體調(diào)控性能。
測(cè)試結(jié)果由表1給出。該測(cè)試結(jié)果表明經(jīng)過(guò)訓(xùn)練的SAC 智能體可以有效幫助典型運(yùn)行工況緩解電壓越限問(wèn)題及降低網(wǎng)損。結(jié)果中存在1個(gè)未完全解決電壓?jiǎn)栴}的斷面數(shù)據(jù),一方面考慮到用于該離線(xiàn)測(cè)試的斷面數(shù)據(jù)是在“典型”的實(shí)際斷面數(shù)據(jù)上添加各種隨機(jī)擾動(dòng)生成的,斷面數(shù)據(jù)本身存在無(wú)解的可能性。因此,少量不合理數(shù)據(jù)本身并不會(huì)影響智能體的訓(xùn)練,更重要的是智能體在在線(xiàn)狀態(tài)下是基于實(shí)際數(shù)據(jù)的測(cè)試結(jié)果。另一方面,訓(xùn)練和測(cè)試智能體過(guò)程中遇到難以求解的斷面,可以進(jìn)一步對(duì)其進(jìn)行研究,有可能是電網(wǎng)關(guān)鍵斷面。
表1 DRL控制性能總結(jié)Table 1 Summary of DRL control performance%
本文所研發(fā)的軟件于2019 年11 月部署在江蘇電網(wǎng)調(diào)控中心安全I(xiàn) 區(qū)。在線(xiàn)系統(tǒng)采用與3.2 節(jié)相同的控制目標(biāo)和控制措施。區(qū)別在于訓(xùn)練和測(cè)試樣本均直接從D5000 系統(tǒng)的潮流斷面QS 文件中獲得,包括歷史斷面和實(shí)時(shí)斷面(間隔為5 min)。AI主程序與D5000 系統(tǒng)在安全I(xiàn) 區(qū)實(shí)時(shí)交互,用來(lái)訓(xùn)練和測(cè)試智能體的性能。
首先采集2019 年11 月22 日至11 月29 日的江蘇電網(wǎng)斷面潮流QS文件對(duì)智能體進(jìn)行訓(xùn)練,其中訓(xùn)練樣本1 650個(gè)斷面數(shù)據(jù),測(cè)試樣本為425個(gè)斷面數(shù)據(jù)。智能體的訓(xùn)練和測(cè)試性能如圖4所示。當(dāng)施加控制措施后電壓和線(xiàn)路功率均不越限,獎(jiǎng)勵(lì)值為正;在此基礎(chǔ)上,網(wǎng)損降低越多,獎(jiǎng)勵(lì)值越大。從圖5 中可以看出,智能體在從零開(kāi)始訓(xùn)練過(guò)程中,前120 個(gè)斷面的效果并不理想,但是隨著樣本數(shù)的增加,其性能不斷提升。訓(xùn)練集中共有571 個(gè)斷面出現(xiàn)電壓越下限問(wèn)題,智能體均可以快速且有效地解決;而在測(cè)試集中的239 個(gè)有電壓?jiǎn)栴}的斷面均可以有效解決。
圖4 在線(xiàn)系統(tǒng)架構(gòu)Fig.4 Architecture of the online system deployed in Jiangsu province
相應(yīng)地,圖5 給出了智能體訓(xùn)練和測(cè)試過(guò)程中張家港分區(qū)網(wǎng)損降低(輸電線(xiàn)路兩端有功功率絕對(duì)值之差)的情況。在訓(xùn)練集中,智能體可平均降低網(wǎng)損3.453 5%(基準(zhǔn)為控制前該分區(qū)輸電網(wǎng)絡(luò)網(wǎng)損值);而在測(cè)試集中,智能體可平均降低網(wǎng)損達(dá)3.874 7%。
圖5 在線(xiàn)系統(tǒng)訓(xùn)練及測(cè)試結(jié)果Fig.5 Performance of training and testing the online system
為了確保智能體的控制性能以及避免過(guò)擬合情況的發(fā)生,每周2 次對(duì)智能體訓(xùn)練和測(cè)試模型進(jìn)行運(yùn)維。通過(guò)不斷積累的訓(xùn)練樣本和調(diào)試,可保持SAC智能體控制措施的有效性和魯棒性。表2給出了電網(wǎng)腦系統(tǒng)在2019 年12 月3 日至2020 年1 月13日期間的運(yùn)行情況。圖6給出了該時(shí)間段內(nèi)張家港分區(qū)網(wǎng)損降低情況的總結(jié)。
圖6 張家港分區(qū)網(wǎng)損降低總結(jié)Fig.6 Summary of network loss reduction in Zhangjiagang
表2 DRL運(yùn)行情況總結(jié)Table 2 Summary of DRL operation
本文選取江蘇張家港分區(qū)進(jìn)行試運(yùn)行驗(yàn)證,針對(duì)每5 min的電網(wǎng)實(shí)時(shí)運(yùn)行斷面,SAC智能體在滿(mǎn)足調(diào)控需求的前提下可在20 ms 內(nèi)對(duì)電壓、潮流越界等問(wèn)題提供解決方案,快速消除風(fēng)險(xiǎn)。
本文介紹了先進(jìn)人工智能技術(shù)在各控制決策領(lǐng)域中的成功應(yīng)用,闡述了AI技術(shù)在電網(wǎng)調(diào)控領(lǐng)域的發(fā)展瓶頸,討論了克服該瓶頸的方法和思路,并在此基礎(chǔ)上提出基于深度強(qiáng)化學(xué)習(xí)算法的多目標(biāo)多工況電網(wǎng)在線(xiàn)優(yōu)化控制方法。本文所述方法是人工智能DRL技術(shù)在實(shí)際電力系統(tǒng)調(diào)控領(lǐng)域的應(yīng)用實(shí)踐。測(cè)試結(jié)果和試運(yùn)行性能說(shuō)明,基于人工智能技術(shù)的電力系統(tǒng)控制和優(yōu)化具有廣闊前景。