李宏浩,張 沛,劉 曌
(北京交通大學(xué)電氣工程學(xué)院,北京市 100044)
隨著新型電力系統(tǒng)的建設(shè),電力系統(tǒng)的動態(tài)行為日益復(fù)雜,給電力系統(tǒng)暫態(tài)穩(wěn)定控制帶來了挑戰(zhàn)[1-2],而暫態(tài)失穩(wěn)事故是造成國民經(jīng)濟損失和社會損失的重要原因[3-4]。電力系統(tǒng)緊急控制是電力系統(tǒng)安全穩(wěn)定控制的第二道防線,通常采取切機、切負荷的控制手段降低電網(wǎng)受擾后的不平衡功率,對保持系統(tǒng)暫態(tài)穩(wěn)定、避免大停電事故、保障電力系統(tǒng)安全經(jīng)濟運行具有重要意義[5-7]。目前,廣域測量系統(tǒng)(wide-area measurement system,WAMS)和相量測量單元(phasor measurement unit,PMU)的廣泛應(yīng)用,使現(xiàn)代電力系統(tǒng)可觀性得到巨大提升,為“實時決策、實時匹配”的暫態(tài)穩(wěn)定分析與控制研究提供了數(shù)據(jù)基礎(chǔ)。
現(xiàn)有的暫態(tài)穩(wěn)定緊急控制的研究主要分為基于時域仿真的方法、基于廣域響應(yīng)的方法和基于人工智能的方法3 類。在基于時域仿真的方法中,文獻[8]提出以控制參數(shù)化方法將最優(yōu)切機切負荷問題轉(zhuǎn)化為一般規(guī)劃問題后求解。文獻[9]基于支持向量機挖掘規(guī)則將穩(wěn)定性約束線性化,實現(xiàn)緊急控制模型的快速求解。文獻[10]建立一種包含暫態(tài)方程約束的暫態(tài)穩(wěn)定最優(yōu)控制模型,通過基于有限元正交配置的序貫優(yōu)化算法求解控制策略。在基于廣域響應(yīng)的方法中,文獻[11]提出一種基于廣域測量數(shù)據(jù)的在線暫態(tài)穩(wěn)定緊急控制方法,以安全經(jīng)濟綜合指標(biāo)形成切機控制決策。文獻[12]提出一種綜合能量管理系統(tǒng)(energy management system,EMS)、WAMS 等的電網(wǎng)預(yù)防控制和緊急控制一體化框架。文獻[13]提出一種基于相對動能的緊急控制方法,依據(jù)WAMS 數(shù)據(jù)和等面積準(zhǔn)則定量求解切機量。文獻[14]提出以WAMS 的電氣量定位電網(wǎng)薄弱臨界斷面,識別關(guān)鍵支路用于指導(dǎo)緊急控制。在基于人工智能的方法中,文獻[15]提出通過深度學(xué)習(xí)提取電網(wǎng)與環(huán)境信息特征,并采用Q 學(xué)習(xí)算法訓(xùn)練最優(yōu)的切機控制策略。文獻[16]提出一種暫態(tài)穩(wěn)定裕度評估與緊急控制相結(jié)合的方法,通過切機、切負荷靈敏度確定最優(yōu)緊急控制策略。文獻[17]提出通過改進AlexNet 網(wǎng)絡(luò)預(yù)測功角變化,并建立緊急控制優(yōu)化模型求解控制策略。上述研究在形成控制策略的過程中,往往需要對部分約束條件做線性化處理,或在較小的控制集上求解,且易忽略未來系統(tǒng)的運行狀態(tài)使結(jié)果不夠精確。此外,廣域響應(yīng)信號在采集、路由、傳輸和處理過程中存在數(shù)十到數(shù)百毫秒的時滯[18-19],這將對系統(tǒng)狀態(tài)產(chǎn)生不確定性影響,導(dǎo)致控制策略難以應(yīng)用。
電力系統(tǒng)是一個典型的時滯動力系統(tǒng),暫態(tài)穩(wěn)定緊急控制需要考慮系統(tǒng)的時滯不確定性影響和系統(tǒng)的未來運行狀態(tài)。相對而言,深度強化學(xué)習(xí)(deep reinforcement learning,DRL)可通過價值函數(shù)近似考慮不確定性因素下未來系統(tǒng)的運行狀態(tài),在考慮發(fā)電機以及負荷等離散變量的情況下解決最優(yōu)控制問題[20-22],有望形成更有效的控制策略。
為實現(xiàn)時滯不確定性下的緊急控制問題的求解和減輕DRL 負擔(dān),本文提出一種結(jié)合深度Q 網(wǎng)絡(luò)(deep Q-learning network,DQN)的DRL 與暫態(tài)能量函數(shù)的緊急控制方法。首先,構(gòu)建了DRL 框架,將暫態(tài)能量函數(shù)的勢能指數(shù)加入獎勵函數(shù)中,提升學(xué)習(xí)過程的效率;然后,采用離散型DQN 求解算法,將在線運行的計算負擔(dān)轉(zhuǎn)移至離線訓(xùn)練過程,在交互中學(xué)習(xí)得到切機和切負荷的緊急控制策略;最后,采用IEEE 39 節(jié)點系統(tǒng)對緊急控制模型和控制策略的有效性進行驗證。
電力系統(tǒng)在遭受到嚴(yán)重擾動后,若第一道防線不能保證系統(tǒng)穩(wěn)定性,則安全穩(wěn)定控制中心將采取準(zhǔn)確、精準(zhǔn)的緊急控制措施,維持系統(tǒng)穩(wěn)定并防止事故蔓延。暫態(tài)穩(wěn)定緊急控制的目的是以最小的控制代價保證系統(tǒng)能夠繼續(xù)穩(wěn)定運行。緊急控制中需要根據(jù)系統(tǒng)狀態(tài)形成離散化切機和切負荷的動作序列,隨著控制動作組合的數(shù)量增加,控制變量維度將大幅提升。因此,緊急控制是一個含離散變量的高維序貫決策問題。此外,每種不同的決策不僅影響當(dāng)前狀態(tài),還會影響若干時間后系統(tǒng)的暫態(tài)穩(wěn)定性。同時,考慮到暫態(tài)過程響應(yīng)非常迅速,整個控制過程中的時滯隨機性將會導(dǎo)致后續(xù)決策時系統(tǒng)狀態(tài)的不確定性。因此,傳統(tǒng)優(yōu)化問題難以得出最優(yōu)控制決策。
馬爾可夫決策過程(Markov decision process,MDP)可由狀態(tài)、動作、獎勵、轉(zhuǎn)移概率和折扣因子S,A,R,P,γ五元組表示,其中,P以概率的形式刻畫了環(huán)境的動態(tài)特性,折扣因子γ則反映了對未來獎勵影響的關(guān)注程度[23]。由于包含不確定性因素的電力系統(tǒng)環(huán)境的轉(zhuǎn)移概率無法精確建模,可采用無模型的強化學(xué)習(xí)方法,通過ε-greedy 策略和大量交互訓(xùn)練的方式學(xué)習(xí)環(huán)境狀態(tài)間的轉(zhuǎn)移規(guī)則,尋找使累計回報最大的控制決策策略。因此,本文考慮將時滯不確定性的暫態(tài)穩(wěn)定緊急控制問題建模為MDP 問題,通過強化學(xué)習(xí)方法實現(xiàn)廣域量測信息到緊急控制決策的映射。
強化學(xué)習(xí)的過程如圖1 所示。智能體將觀測環(huán)境的狀態(tài)st作為輸入,同時求解最優(yōu)動作at,環(huán)境接受動作后將轉(zhuǎn)移到下一步狀態(tài)st+1,通過對智能體動作進行評價反饋獎勵rt+1。通過智能體和環(huán)境的不斷交互,引導(dǎo)智能體沿著最大化預(yù)期獎勵的方式學(xué)習(xí),最終形成特定目標(biāo)下的最優(yōu)控制策略[24]。
圖1 強化學(xué)習(xí)交互過程Fig.1 Interaction process of reinforcement learning
DRL 是一種端對端的感知與控制系統(tǒng),具有很強的通用性[25],目前,主流的DRL 方法包括基于價值和基于策略的DRL 方法,前者會評估不同動作的預(yù)期收益并選擇最優(yōu)收益所對應(yīng)的動作,而后者是直接求取使目標(biāo)最優(yōu)的動作概率。相較于基于策略梯度類型等算法,基于價值的DRL 方法更直觀、易于理解、方便調(diào)參且能夠更好地解決離散決策問題。基于價值的方法使用價值函數(shù)來評估智能體在給定狀態(tài)下未來回報收益期望的大小,其中,動作價值函數(shù)是狀態(tài)s與動作a二元組的函數(shù),在策略π下的表達式如下:
式 中:E(·)表 示 求 期 望;St為t時 刻 狀 態(tài);At為t時 刻動作;Rt+β+1為t時刻后第β步的獎勵。
在強化學(xué)習(xí)中通常采用ε-greedy 策略來確定每次選擇執(zhí)行的動作,即決策時大部分情況采取已有經(jīng)驗中動作價值最優(yōu)的動作,其余情況會以較小的概率ε隨機選擇一個動作。其對應(yīng)的表達式如下:
式中:π(a|s)表示智能體在狀態(tài)s下采取動作a的概率;q*(s,a)為最優(yōu)動作值函數(shù)。
在將電力系統(tǒng)緊急控制問題建模為DRL 問題的過程中,智能體狀態(tài)、動作和獎勵函數(shù)的設(shè)置直接決定了模型性能的好壞。
1.2.1 狀態(tài)空間
狀態(tài)空間描述智能體感知到的環(huán)境信息。在暫態(tài)穩(wěn)定分析中,發(fā)電機機組功角搖擺以及系統(tǒng)網(wǎng)絡(luò)節(jié)點的電壓等特征能夠反映系統(tǒng)的暫態(tài)穩(wěn)定性。因此,本文選擇發(fā)電機功角、發(fā)電機轉(zhuǎn)子轉(zhuǎn)速、網(wǎng)絡(luò)節(jié)點電壓幅值和相位作為智能體的狀態(tài)空間。若系統(tǒng)有n個節(jié)點、m臺發(fā)電機和l個負荷,則智能體狀態(tài)空間S如下式所示:
式中:δGi為第i臺發(fā)電機的功角,i=1,2,…,m;ωGi為第i臺發(fā)電機的轉(zhuǎn)子角速度;VNj為第j個節(jié)點的電壓幅值,j=1,2,…,n;θNj為第j個節(jié)點的電壓相位。
1.2.2 動作空間
動作空間描述了智能體全部的控制方式。在暫態(tài)穩(wěn)定緊急控制中,切除發(fā)電機可以降低系統(tǒng)機械功率的輸入,而當(dāng)系統(tǒng)負荷過重時則需要切除負荷。為使結(jié)果更具一般性,本文選擇切機和切負荷的動作,則智能體動作空間A如下所示:
式中:PGi為第i臺發(fā)電機的切除量,i=1,2,…,m;PLk為第k個負荷的切除量,k=1,2,…,l。
為方便強化學(xué)習(xí)的訓(xùn)練,本文將切機與切負荷的控制動作空間進行離散化處理,并統(tǒng)一對離散化動作編號。切機控制一般將整臺發(fā)電機切除,故每臺發(fā)電機設(shè)置一個動作序號;切負荷控制通常按一定的比例切除負荷,故每個負荷設(shè)置間隔均等的h組動作號。同時計不動作的序號為0,則智能體離散化后的動作序號Ac表示為:
式中:c為自然數(shù)表示的動作序號;PG表示切機控制,共有m組動作;PL表示切負荷控制,共有hl組動作。
1.2.3 獎勵函數(shù)
獎勵函數(shù)用于評價智能體動作的好壞,引導(dǎo)智能體調(diào)節(jié)其參數(shù)達到預(yù)期獎勵最大化,是最終形成控制決策的關(guān)鍵。本文將獎勵函數(shù)劃分為短期獎勵和長期獎勵兩部分:短期獎勵用于反映系統(tǒng)狀態(tài)是否在約束范圍內(nèi);長期獎勵用于反映控制后系統(tǒng)是否穩(wěn)定,是訓(xùn)練過程中決定每步?jīng)Q策的最重要因素。獎勵函數(shù)Rt的制定規(guī)則如下式所示:
式中:st為智能體的狀態(tài)集合;Tstable為穩(wěn)定下的狀態(tài)集合;RC為控制最終達到穩(wěn)定后的獎勵值,通常取一個較大的正數(shù)[26];RP為控制后失穩(wěn)的懲罰值,通常取一個負數(shù);Tconstraint為約束狀態(tài)集合,目的是使控制后系統(tǒng)狀態(tài)處在約束范圍內(nèi);RF為每一步控制動作的短期獎勵函數(shù)。
本文將短期獎勵函數(shù)設(shè)計為包含能量獎勵函數(shù)re、控制成本獎勵函數(shù)rc、有功功率約束獎勵函數(shù)rg、電壓約束獎勵函數(shù)rv、控制步數(shù)約束獎勵函數(shù)rn五部分,即
1)能量獎勵函數(shù)
暫態(tài)能量函數(shù)能夠衡量系統(tǒng)穩(wěn)定裕度。當(dāng)系統(tǒng)狀態(tài)動態(tài)變化時,各類參數(shù)會相對穩(wěn)定狀態(tài)產(chǎn)生較大的偏移,可以依托量測數(shù)據(jù)實時求出,故通過勢能指數(shù)表征系統(tǒng)動態(tài)響應(yīng)中的能量變化趨勢[27]。受此啟發(fā),本文定義能量函數(shù)勢能指數(shù),以一個單值函數(shù)變量值來描述初始工作點控制前后的能量變化。根據(jù)多機系統(tǒng)的節(jié)點收縮等效模型構(gòu)造暫態(tài)能量函數(shù),選擇系統(tǒng)轉(zhuǎn)子位置勢能和系統(tǒng)磁場勢能構(gòu)成勢能指數(shù)FVp,如下所示:
式中:Vp1和Vp2分別為轉(zhuǎn)子位置勢能指數(shù)和磁場勢能指數(shù),λ1和λ2為兩者的權(quán)重,本文分別取0.1 和1;Pmx為第x臺發(fā)電機輸入的機械功率;Ex為第x臺發(fā)電機的電勢;δx為第x臺發(fā)電機的功角;Gxx和Bxy分別為收縮節(jié)點導(dǎo)納矩陣的實部和虛部元素;δxy為兩臺發(fā)電機間的相對功角;δsx和δsxy分別為初始工作點的發(fā)電機功角和相對功角。
能量函數(shù)勢能指數(shù)的大小能夠反映當(dāng)前運行點與初始運行點的勢能的距離,體現(xiàn)控制決策前后的系統(tǒng)勢能變化趨勢。將其納入獎勵函數(shù)中,旨在減少學(xué)習(xí)過程中不利于穩(wěn)定的控制動作,有利于指導(dǎo)智能體向降低系統(tǒng)能量的方向探索,提高學(xué)習(xí)效率。能量獎勵函數(shù)表達式如下:
式中:Ft為當(dāng)前時刻的勢能指數(shù)值;F0為參考的勢能指數(shù)值;ce為能量函數(shù)懲罰系數(shù)。
2)控制成本獎勵函數(shù)
控制成本獎勵函數(shù)反映了切機和切負荷的成本,根據(jù)切除量的加權(quán)和給予懲罰。表達式如下:
式中:cG為切機懲罰系數(shù);cL為切負荷懲罰系數(shù)。
3)有功功率約束獎勵函數(shù)
發(fā)電機有功功率約束是為了限制控制后各臺發(fā)電機的出力,使其在上下限值約束范圍內(nèi)。本文根據(jù)超出限值的大小給予懲罰,表達式如下:
式中:cg為有功越限懲罰系數(shù);rpg,i為第i臺發(fā)電機功率的越限值;為第i臺發(fā)電機的有功功率;和分別為第i臺發(fā)電機功率的上限和下限。
4)電壓約束獎勵函數(shù)
節(jié)點電壓約束獎勵函數(shù)是為了限制控制后各節(jié)點電壓,并根據(jù)超出上下限值的大小給予懲罰,表達式如下:
式中:cv為電壓越限懲罰系數(shù);rnv,j為節(jié)點j電壓的越限值;為第j個節(jié)點的電壓值;和分別為節(jié)點j電壓幅值的上限和下限。
5)控制步數(shù)約束獎勵函數(shù)
控制步數(shù)約束獎勵函數(shù)是為了限制每次控制動作的總次數(shù),指導(dǎo)智能體以最少的動作次數(shù)完成控制目標(biāo),根據(jù)控制次數(shù)的多少給予懲罰。表達式如下:
式中:cn為控制步數(shù)懲罰系數(shù);Nstep為控制次數(shù),Nstep=1,2,…,Nmax,其中,Nmax為最大控制次數(shù)。
需要注意的是,短期獎勵函數(shù)在每一步(step)動作后更新并累加,長期獎勵函數(shù)僅在每一幕(episode)結(jié)束后計算。獎勵函數(shù)正的獎勵值應(yīng)當(dāng)大于負的獎勵值,即長期穩(wěn)定的正值獎勵大于控制中負值懲罰,以保證每次成功的控制動作能夠被智能體學(xué)習(xí)。此外,能量函數(shù)獎勵在系統(tǒng)失穩(wěn)后會有很大的懲罰值,若此項持續(xù)過高,則智能體可能會直接選擇使系統(tǒng)失穩(wěn)的動作以提前結(jié)束運行,難以繼續(xù)訓(xùn)練。為此,本文對式(11)的能量獎勵函數(shù)進行最值強制約束,所使用的實際獎勵函數(shù)r′e為:
式中:re0為一個正數(shù),表示強制約束的限值。
DRL 主要是依托深度神經(jīng)網(wǎng)絡(luò)和Q 學(xué)習(xí)在訓(xùn)練的過程中做出決策,深度神經(jīng)網(wǎng)絡(luò)建立了輸入數(shù)據(jù)和輸出動作的關(guān)系,Q 學(xué)習(xí)則從環(huán)境信息中調(diào)整網(wǎng)絡(luò)參數(shù),不斷更新最優(yōu)動作以獲取最大回報。DQN 算法可以解決Q 學(xué)習(xí)算法中狀態(tài)空間的維度爆炸問題,將每一狀態(tài)和動作下的動作值函數(shù)Q值由一個帶有參數(shù)w的神經(jīng)網(wǎng)絡(luò)擬合得出,該參數(shù)表示神經(jīng)網(wǎng)絡(luò)中的權(quán)重和偏差。在DRL 中,智能體通過學(xué)習(xí)更新參數(shù)w以實現(xiàn)最優(yōu)策略。當(dāng)神經(jīng)網(wǎng)絡(luò)參數(shù)收斂后,可以獲得近似的Q值。
1)估計網(wǎng)絡(luò)與目標(biāo)網(wǎng)絡(luò)
在智能體訓(xùn)練過程中使用估計網(wǎng)絡(luò)(evaluation network)和目標(biāo)網(wǎng)絡(luò)(target network)兩個神經(jīng)網(wǎng)絡(luò)共同完成動作值函數(shù)Q值的迭代更新。估計網(wǎng)絡(luò)負責(zé)擬合從狀態(tài)到Q值的映射關(guān)系,目標(biāo)網(wǎng)絡(luò)則生成Q值用于構(gòu)建學(xué)習(xí)目標(biāo)。若智能體基于狀態(tài)st、選擇動作at、得到獎勵rt+1,并進入下一步狀態(tài)st+1,則該時刻的目標(biāo)網(wǎng)絡(luò)Q值為:
式中:a′表示下一步動作;w-表示目標(biāo)網(wǎng)絡(luò)中的參數(shù);Q(st+1,a′;w-)表 示 下 一 步 狀 態(tài) 目 標(biāo) 網(wǎng) 絡(luò) 擬 合的Q值。
目標(biāo)網(wǎng)絡(luò)結(jié)構(gòu)與估計網(wǎng)絡(luò)結(jié)構(gòu)相同,其每隔一段時間后以最新的估計網(wǎng)絡(luò)參數(shù)更新,并在間隔期間保持參數(shù)不變,使整體的迭代過程更加穩(wěn)定,提升算法的收斂性。估計網(wǎng)絡(luò)的更新迭代量ΔQ(st,at)的表達式如下:
式中:wt為估計網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù);α為學(xué)習(xí)率。
2)經(jīng)驗回放機制與時序差分誤差
智能體每次與環(huán)境交互后,都會將樣本st,at,rt+1,st+1存儲到樣本記憶庫之中。為打亂樣本間的相關(guān)性,每次將在樣本記憶庫中隨機抽取小批量樣本用于訓(xùn)練估計神經(jīng)網(wǎng)絡(luò)。DQN 估計網(wǎng)絡(luò)迭代前后Q值的差稱為時序差分誤差,訓(xùn)練中通常以該項誤差的平方作為損失函數(shù)L,表達式如下:
3)DQN 算法改善
DQN 算法中為了解決Q值過高估計的問題,常采用Double DQN 方法將動作選擇和價值估計進行分離,即從估計網(wǎng)絡(luò)中產(chǎn)生能獲得最大Q值的動作,而該動作對應(yīng)Q值由目標(biāo)網(wǎng)絡(luò)計算。為解決某些狀態(tài)本身對狀態(tài)轉(zhuǎn)移的影響,將采用Dueling DQN 方法來引入狀態(tài)評級值,將估計網(wǎng)絡(luò)的輸出層改為2 個分支狀態(tài)評價值和動作優(yōu)勢評價值,以此改善算法的收斂效果。此外,為解決數(shù)據(jù)量級差別較大而產(chǎn)生訓(xùn)練困難的問題,一般需要對樣本的數(shù)據(jù)進行標(biāo)準(zhǔn)化預(yù)處理。
智能體與環(huán)境的交互過程中,需要制定一個指標(biāo)來衡量系統(tǒng)的暫態(tài)功角穩(wěn)定程度。因此,本文選擇暫態(tài)穩(wěn)定系數(shù)(transient stability index,TSI)為指標(biāo)[28],以受擾后各發(fā)電機的相對功角值來判斷暫態(tài)穩(wěn)定性。表達式如下:
式中:ITSI為TSI 值;Δδmax為仿真時長內(nèi)任意兩臺發(fā)電機中最大相對功角差。
當(dāng)ITSI>0 時,系統(tǒng)穩(wěn)定,并且該數(shù)值越大,系統(tǒng)穩(wěn)定程度越高;ITSI<0 時,系統(tǒng)失穩(wěn),并且該數(shù)值越小,系統(tǒng)失穩(wěn)程度越高。
在整個訓(xùn)練過程中,受時滯因素的影響,智能體每幕學(xué)習(xí)所面臨的系統(tǒng)狀態(tài)是不確定的,需要設(shè)置多幕循環(huán)來實現(xiàn)。在每一幕中,智能體會選擇多步的控制動作來使系統(tǒng)恢復(fù)穩(wěn)定。智能體每幕中的學(xué)習(xí)流程如圖2 所示。
圖2 智能體緊急控制學(xué)習(xí)流程圖Fig.2 Flow chart of agent emergency control learning
首先,初始化模型和訓(xùn)練環(huán)境,智能體觀察電力系統(tǒng)環(huán)境功角、轉(zhuǎn)速、電壓幅值和相位的狀態(tài),采用ε-greedy 策略選擇動作,并將該動作與環(huán)境進行交互,獲得下一時刻狀態(tài),計算短期獎勵函數(shù)。同時,存儲狀態(tài)、動作和獎勵的樣本到記憶庫中,以便于后續(xù)訓(xùn)練。然后,智能體更新Q值并計算損失函數(shù),采用梯度下降法更新內(nèi)部深度神經(jīng)網(wǎng)絡(luò)的權(quán)重,完成本步動作的學(xué)習(xí)。
每一步學(xué)習(xí)結(jié)束后,智能體會根據(jù)暫態(tài)穩(wěn)定系數(shù)判斷受擾后的長期穩(wěn)定性,如果穩(wěn)定,則認為控制有效并完成本幕訓(xùn)練;如果不穩(wěn)定,則需繼續(xù)交互,直至達到控制步數(shù)的上限才結(jié)束該幕訓(xùn)練。經(jīng)過多輪幕的循環(huán)迭代后,神經(jīng)網(wǎng)絡(luò)中的參數(shù)收斂,最終智能體可形成穩(wěn)定的緊急控制策略。離線訓(xùn)練結(jié)束后的智能體可用于在線緊急控制,將電網(wǎng)緊急狀態(tài)下的實時數(shù)據(jù)輸入智能體,可直接輸出最優(yōu)緊急控制策略,使系統(tǒng)恢復(fù)穩(wěn)定。
本文仿真驗證采用IEEE 39 節(jié)點電力系統(tǒng),該系統(tǒng)中包含10 臺發(fā)電機、19 個負荷以及34 條傳輸支路。系統(tǒng)中所有發(fā)電機均采用經(jīng)典次暫態(tài)模型,考慮勵磁系統(tǒng)作用,負荷采用恒阻抗模型,由PSS/E仿真軟件作為交互的電力系統(tǒng)動態(tài)環(huán)境。DRL 模型及訓(xùn)練基于TensorFlow2.6 搭建,編程采用Python 語言。模型狀態(tài)空間包括10 臺發(fā)電機的功角和轉(zhuǎn)子角速度、39 個節(jié)點的母線電壓和相位角,故狀態(tài)空間維度數(shù)為98。設(shè)置分段切除負荷的比例為10%,動作空間包括10 個切機動作和190 個切負荷動作,故動作空間維度數(shù)為201。DQN 設(shè)置為5 層全連接的神經(jīng)網(wǎng)絡(luò),折扣因子為0.90,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率為0.000 5,智能體采用ε-greedy 策略,探索率隨訓(xùn)練步數(shù)降低且最小為0.01。
初始時刻系統(tǒng)處于穩(wěn)定狀態(tài),設(shè)置離線學(xué)習(xí)故障場景為母線16、17、26 處發(fā)生三相短路故障,故障持續(xù)時間為70 ms,考慮控制過程中隨機時滯對系統(tǒng)狀態(tài)的不確定性影響,設(shè)置每次交互控制的隨機時滯服從均值為10 ms、標(biāo)準(zhǔn)差為20 ms 的正態(tài)分布[18]。設(shè)置學(xué)習(xí)的長期穩(wěn)定目標(biāo)為5 s 內(nèi)保持暫態(tài)穩(wěn)定。
設(shè)置訓(xùn)練循環(huán)10 000 幕,并且每幕的控制不超過5 次,圖3 展示了智能體訓(xùn)練過程中獎勵函數(shù)的變化。本次訓(xùn)練先經(jīng)過約4 500 幕的探索過程,而后經(jīng)過約1 000 幕達到收斂。由于考慮了隨機時滯的影響,智能體在初期訓(xùn)練更多選擇探索動作,并同步訓(xùn)練內(nèi)部的策略網(wǎng)絡(luò),因而獎勵函數(shù)表現(xiàn)出一定范圍的波動,而隨著訓(xùn)練過程的收斂,獎勵函數(shù)也呈現(xiàn)出收斂的趨勢,表明最終學(xué)習(xí)到穩(wěn)定的控制策略。在DRL 智能體模型訓(xùn)練中,僅調(diào)用不到6 000 幕仿真便能得到較為穩(wěn)定的控制策略,在離線訓(xùn)練也有較好的收斂性。
圖3 隨機時滯下的獎勵函數(shù)曲線Fig.3 Reward function curve with random time delay
設(shè)置線路16-17 的10%處發(fā)生三相短路,故障后跳開本線路,根據(jù)DRL 模型可得此場景下的緊急控制策略如表1 所示。為驗證緊急控制策略的有效性,在仿真中應(yīng)用該控制決策所得的發(fā)電機功角曲線如圖4 所示。這表明該模型形成的緊急控制策略能夠有效解決隨機時滯影響下的緊急控制問題。
表1 線路16-17 故障下緊急控制策略結(jié)果Table 1 Results of emergency control strategy under fault on line 16-17
圖4 線路16-17 故障下緊急控制后的功角曲線Fig.4 Rotor angle curves after emergency control under fault on line 16-17
圖5 所示為智能體模型中能量獎勵函數(shù)的訓(xùn)練結(jié)果。在初期探索中,智能體一旦發(fā)現(xiàn)更好的動作,將會獲得較高的獎勵,因此,該部分獎勵會指導(dǎo)模型向著更有利于能量降低的方向?qū)W習(xí),降低無用的探索動作和學(xué)習(xí)時間,使獎勵快速上升,從而提高模型學(xué)習(xí)的效率,滿足快速性的要求。
圖5 能量獎勵函數(shù)曲線Fig.5 Curve of energy reward function
為說明模型具有一定的泛化能力,選擇一個未參與訓(xùn)練的新故障場景來驗證緊急控制決策的有效性。故障場景選擇母線27 發(fā)生三相短路故障,將系統(tǒng)的狀態(tài)量輸入DRL 模型中,所得到的緊急控制策略如表2 所示,控制后的發(fā)電機功角曲線如圖6 所示??梢姡揇RL 模型具備一定的泛化能力。
表2 母線27 故障下緊急控制策略結(jié)果Table 2 Results of emergency control strategy under fault on bus 27
圖6 母線27 故障下緊急控制后的功角曲線Fig.6 Rotor angle curves after emergency control under fault on bus 27
選擇隨機20 000 幕場景,分別統(tǒng)計本文方法和傳統(tǒng)的策略表搜索方法生成緊急控制策略的總耗時和平均耗時,結(jié)果如表3 所示。策略表搜索法形成控制策略的平均耗時為2.716 s,而本文方法在訓(xùn)練過程中形成策略的平均耗時為0.566 s,節(jié)省79.16%。此外,該模型在離線訓(xùn)練結(jié)束后可直接應(yīng)用于在線決策,即通過廣域量測信息直接生成緊急控制策略,解決不確定性狀態(tài)下的緊急控制問題。
表3 總計算時間對比Table 3 Comparison of total computation time
為驗證本文所提方法在時滯不確定影響下的效果,針對同一失穩(wěn)場景對比有時滯情況下兩種方法的緊急控制策略結(jié)果。故障線路為16-17,故障持續(xù)至1.12 s 清除,系統(tǒng)運行至1.30 s 需要進行緊急控制。策略表搜索方法的緊急控制策略為依次切除發(fā)電機G36 和切除母線31 處負荷50%,在無時滯情況下可使系統(tǒng)穩(wěn)定,但考慮隨機時滯因素后該緊急控制策略失效。采用本文所提方法,緊急控制策略為切除發(fā)電機G34 和切除母線12 處負荷10%,控制效果如圖7 所示??梢?,本文方法所得的緊急控制策略能適應(yīng)隨機時滯的不確定性。
圖7 DRL 方法下的緊急控制功角曲線Fig.7 Rotor angle curves of emergency control with DRL method
本文將緊急控制問題視為序貫決策問題,考慮緊急控制決策中時滯不確定性的影響,通過DRL 模型和DQN 算法解決切機切負荷的控制問題,為“實時控制,實時決策”的在線緊急控制提供了新思路。針對訓(xùn)練過程中無意義探索占時過長和學(xué)習(xí)負擔(dān)重的問題,本文利用暫態(tài)能量函數(shù)的專家知識,將勢能指數(shù)納入獎勵函數(shù)中,提升了訓(xùn)練初期智能體學(xué)習(xí)速度。同時,借助Double DQN 和Dueling DQN 技術(shù)提升DQN 算法的收斂性,提升模型訓(xùn)練效率。最后,算例結(jié)果表明本文提出的緊急控制的DRL 模型可以在隨機時滯下獲得有效的控制策略,能夠應(yīng)對實際電力系統(tǒng)中時滯不確定性的問題,借助廣域測量信息可實現(xiàn)在線快速生成緊急控制策略,解決電網(wǎng)緊急控制問題。
本文所建立的緊急控制模型僅考慮了暫態(tài)功角穩(wěn)定的緊急控制場景,所選擇的決策變量的維數(shù)有限,需要繼續(xù)深入研究更多故障場景以及控制措施下的緊急控制策略,考慮借助圖神經(jīng)網(wǎng)絡(luò)等提取網(wǎng)絡(luò)拓撲特征用于訓(xùn)練學(xué)習(xí),研究如何進一步提升模型學(xué)習(xí)和訓(xùn)練效率,以適應(yīng)更為復(fù)雜的場景。