謝啟躍,應雨龍
(上海電力大學 能源與機械工程學院,上海 200090)
伴隨著人類社會的進步,能源的消耗量與經(jīng)濟的發(fā)展呈正相關關系,煤炭、石油、天然氣等不可再生一次資源的消耗量越來越大,能源供需緊張和環(huán)境惡化等一系列問題給人類造成嚴重威脅。為了解決上述問題,綜合能源系統(tǒng)的發(fā)展勢在必行。綜合能源系統(tǒng)的優(yōu)勢在于能夠?qū)⒌貐^(qū)內(nèi)的煤炭、石油、天然氣等多種資源與電能、熱能等多種能源進行組合,通過規(guī)劃和調(diào)度策略,一方面滿足系統(tǒng)內(nèi)用戶的能源需求,另一方面通過引入可再生資源,與不可再生一次能源相互配合,提高資源的利用率。
綜合能源系統(tǒng)運行優(yōu)化是學術界一直關注的熱點。文獻[1]中提出城市綜合能源系統(tǒng)(integrated urban energy system,IUES)的最優(yōu)提前調(diào)度方法。文獻[2]中以運行成本最優(yōu)和有害氣體排放量最小化為目標,提出了多目標最優(yōu)潮流算法。文獻[3]中采用混合整數(shù)線性規(guī)劃法對能源梯級利用的綜合能源系統(tǒng)多能協(xié)同優(yōu)化模型進行求解。文獻[4]中提出一種基于拉格朗日松弛的協(xié)同優(yōu)化方法,對綜合能源系統(tǒng)優(yōu)化進行解耦處理。文獻[5]中提出一種基于聯(lián)盟博弈的電熱耦合能源系統(tǒng)優(yōu)化方法。以上優(yōu)化方案均對綜合能源系統(tǒng)的優(yōu)化做出了貢獻;但是,能源設備的增加和多種能源的耦合對綜合系統(tǒng)能源運行時的決策和調(diào)度產(chǎn)生了新的挑戰(zhàn),傳統(tǒng)的算法可能會因變量過多而陷入維數(shù)災難等問題,因此,將人工智能運用到綜合能源系統(tǒng)運行優(yōu)化是未來發(fā)展趨勢。
目前已有研究將人工智能中的強化學習應用于能源領域,如文獻[6]中提出一種用雙重Q-Learning和競爭Q-Learning的方法來實現(xiàn)電網(wǎng)切機控制策略。Q-Learning方法存在的問題是,當面對外界環(huán)境觀察的狀態(tài)和行動集信息過大時,算法本身的缺陷可能會導致無法處理或容易陷入局部最優(yōu)的情況。
針對高維度和連續(xù)動作空間的問題,強化學習的優(yōu)勢體現(xiàn)在決策能力,而深度學習的優(yōu)勢則體現(xiàn)在感知能力,于是谷歌DeepMind公司將強化學習和深度學習兩者結合,提出了深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法。雙延遲深度確定性策略梯度(twin delayed deep deterministic policy gradient,TD3)算法在DDPG算法的基礎上進行改進,解決了其中存在的值函數(shù)和方差過大估計的問題,使得算法的性能更好,目前主要應用于機械臂運動規(guī)劃[7]、無人機控制[8]、自動駕駛[9]、自動發(fā)電控制(automatic generation control,AGC)[10]和車輛能源管理[11]等方面。
上述研究成果為本文中的研究奠定了基礎,但仍有以下問題需要思考:第一,目前人工智能更多地應用在單一電力能源系統(tǒng),基于能源互聯(lián)網(wǎng)的多種能源協(xié)同運行應用仍有很大的研究空間;第二,如何將人工智能更為合理、有效地定義、應用在綜合能源規(guī)劃、運行上,仍有待進一步研究。針對上述問題,本文中以含冷、熱、電的綜合能源微網(wǎng)為研究對象,引入深度強化學習中的TD3算法,考慮到主電網(wǎng)價格的變化以及用戶的冷、熱、電需求,通過TD3算法中的深度神經(jīng)網(wǎng)絡對狀態(tài)、動作進行合理的定義,對綜合能源微網(wǎng)的運行成本優(yōu)化進行分析研究。
綜合能源微網(wǎng)是一種對應多種形式的能源輸入和多種形式能量輸出的雙端口網(wǎng)絡[12],如圖1所示。輸入的能源通過能源轉換設備轉化為合適的輸出能量,再通過輸送網(wǎng)絡傳輸?shù)接脩舳?,滿足用戶的冷、熱、電需求。以下對綜合能源微網(wǎng)進行標準化建模。
圖1 含冷、熱、電綜合能源微網(wǎng)
在標準化矩陣建模過程中,定義矩陣C表示不同種能量通過能源轉換設備實現(xiàn)轉換的過程,即有
Eout=Cvin,
(1)
展開可得到
(2)
式中:Eout為多種形式的能量輸出;耦合矩陣C為不同能源轉換設備對一次能源的系統(tǒng)轉換率;vin為多種能源輸入;m、n表示不同能源種類。
熱電聯(lián)產(chǎn)設備(CHP)轉換特性為
(3)
(4)
式中ηAB、ηin,AB分別為AB的產(chǎn)熱效率和能源輸入。
(5)
式中ηc、vin,CERG分別為CERG的制冷效率和能源輸入。
(6)
式中ηr、vin,WARG分別為WARG的制冷效率和能源輸入。
綜合能源微網(wǎng)建立的標準化矩陣為
(7)
綜合能源微網(wǎng)在T時間內(nèi)的運行成本Ccost為
(8)
式中Pe,t、Pg,t分別為t時段對應的電力價格和天然氣價格。
1)CHP的發(fā)電和產(chǎn)熱功率有一定的限制,其約束條件為
Pw,min≤ηwFCHP≤Pw,max,
(9)
Pq,min≤ηqFCHP≤Pq,max,
(10)
式中:Pw,min、Pw,max分別為CHP發(fā)電功率的下限和上限;Pq,min、Pq,max分別為CHP產(chǎn)熱功率的下限和上限。
2)AB的產(chǎn)熱功率同樣有一定的工作范圍,其約束條件為
PAB,min≤ηABFAB≤PAB,max,
(11)
式中PAB,min、PAB,max分別為AB產(chǎn)熱功率的下限和上限。
3)CERG的制冷功率有一定的工作范圍,其約束條件為
PCERG,min≤ηcEc≤PCERG,max,
(12)
式中PCERG,min、PCERG,max分別為CERG制冷功率的下限和上限。
4)WARG的制冷功率有一定的工作范圍,其約束條件為
PWARG,min≤ηrHh≤PWARG,max,
(13)
式中PWARG,min、PWARG,max分別為WARG制冷功率的下限和上限。
2 基于TD3算法的綜合能源微網(wǎng)運行優(yōu)化
強化學習是智能體通過動作與環(huán)境進行交互,獲得狀態(tài)和獎勵,通過探索和重復的策略,不斷迭代最終達到最優(yōu)策略的過程[13],其基本原理如圖2所示。
圖2 強化學習原理圖
Q-Learning是強化學習主要的算法之一,是一種無模型的學習方式,是基于動作值函數(shù)Q(s,a)的強化學習算法。動作值函數(shù)為
(14)
式中:s、s′分別為當前狀態(tài)和下一階段的狀態(tài);P(s′|s,a)為動作a執(zhí)行后,狀態(tài)s轉換成s′的概率;S為狀態(tài)的集合;A為動作的集合;r(s,s′,a)為動作a執(zhí)行完成狀態(tài)s轉換成s′后,環(huán)境反饋給智能體的信號,稱之為獎勵;γ為折扣因子,取值范圍為0<γ<1,用來計算對未來獎勵的折現(xiàn),若取值越大,則得到最大未來獎勵的可能性越高。
Q值更新公式為
Qk+1(sk,ak)=Qk(sk,ak)+
(15)
式中:k為迭代次數(shù);Qk+1、sk+1分別為第k+1次最優(yōu)Q值函數(shù)對應的數(shù)值、狀態(tài);Qk、sk、ak、rk分別為第k次最優(yōu)Q值函數(shù)對應的數(shù)值、狀態(tài)、動作、獎勵;a′為狀態(tài)sk+1下的任意動作;α為學習率,取值范圍為0<α<1。學習率的大小影響Q-Learning算法的收斂速度,前期學習率小,有助于智能體對環(huán)境進行探索,保證Q-Learning算法收斂的穩(wěn)定性,后期學習率增大,Q-Learning算法收斂速度會加快。
Q-Learning算法中,智能體總是需要在當前狀態(tài)下考慮探索或重復的問題,這種選擇策略是算法的關鍵。貪婪策略是指在當前狀態(tài)下的智能體,選取最大Q值所對應的動作,如
(16)
針對高維度和連續(xù)動作空間的問題,Q-Learning算法無法解決,因此本文中采用TD3算法實現(xiàn)。
TD3算法選擇最優(yōu)動作時,是用包含狀態(tài)s、φ參數(shù)的確定性策略函數(shù),而不是根據(jù)Q-Learning算法的貪婪策略來選擇最大Q值動作,即
a=πφ(s)。
(17)
本文中提出基于TD3算法的綜合能源微網(wǎng)運行優(yōu)化方案,根據(jù)標準化建模的綜合能源微網(wǎng)模型合理設計TD3算法,從而讓智能體更好地優(yōu)化綜合能源微網(wǎng)的運行。
2.2.1 狀態(tài)空間的選取
狀態(tài)的選取對神經(jīng)網(wǎng)絡層能否準確泛化,輸出正確動作有重要影響,因此本文中選取了在t時段所對應的電力價格、天然氣價格、用戶的電需求、用戶的熱需求和用戶的冷需求5個變量作為狀態(tài)輸入值,因此,智能體從環(huán)境獲取的狀態(tài)空間s為
(18)
2.2.2 動作空間a的選取
將用戶熱需求分配給CHP的動作值為α1∈[0,1],將用戶冷需求分配給CERG的動作值為α2∈[0,1],則作為神經(jīng)網(wǎng)絡的輸出層的動作空間a為
a={α1α2},
(19)
2.2.3 即時獎勵r
即時獎勵r是將在t時段獲得的回報作為綜合能源微網(wǎng)的在t時段的運行成本,深度強化學習的學習結果一般是為了得到更高的獎勵,這與本文中的最優(yōu)運行成本不一致,因此,將獎勵設為負值,對智能體進行懲罰,從而達到最優(yōu)運行目標。由式(8)得
r=-(Ei,tPe,t+FAB,tPg,t+FCHP,tPg,t)。
(20)
TD3算法的整體流程如下。設ε為隨機噪聲,服從正態(tài)分布;mod定義為取余算子;d為延時更新參數(shù);τ為目標神經(jīng)網(wǎng)絡學習率。
2)for迭代次數(shù)k=1 toMdo(M為迭代次數(shù))
3) for 時間t=1 toTdo
4) 觀察狀態(tài)s和選擇動作a=πφ(s)+ε
5) 執(zhí)行動作a,與環(huán)境進行互動,觀察下一狀態(tài)s′、獎勵r,將{s,a,r,s′}存進經(jīng)驗回放D
6) 從經(jīng)驗回放D中隨機抽取N個小批量{s,a,r,s′},得到目標動作
8) iftmoddthen
9) 更新行動者網(wǎng)絡πφ,梯度更新方法表示為
10) 更新目標網(wǎng)絡,通過
φ′←τφ+(1-τ)φ′
11) end if
12) end for
13)end for
用文獻[14]中提供的模型方法和數(shù)據(jù)驗證本文中提出的運行優(yōu)化方法,該模型是典型的含冷、熱、電綜合能源微網(wǎng),由CHP、AB、CERG、WARG和主電網(wǎng)組成,該模型模擬了用戶在總時長為24 h的冷、熱、電需求。系統(tǒng)中各設備的轉換特性如表1所示。
表1 各設備的轉換特性
用戶冷、熱、電逐時需求及電力、天然氣的逐時價格如圖3所示。
(a)用戶冷、熱、電逐時需求
由式(9)—(13)得,各設備在t時段運行的約束條件為
0≤ηwFCHP,t≤120,
(21)
0≤ηqFCHP,t≤160,
(22)
0≤ηABFAB,t≤400,
(23)
0≤ηcEc,t≤300,
(24)
0≤ηrHh,t≤300。
(25)
綜合能源微網(wǎng)的能源供需平衡的約束條件為
(26)
(27)
(28)
由式(8)可得最優(yōu)成本Of為
(29)
TD3算法是基于行動者和評論家的架構,所以有2種神經(jīng)網(wǎng)絡結構。一種是行動者網(wǎng)絡及其目標網(wǎng)絡結構,其結構和具體參數(shù)設置如圖4所示。該神經(jīng)網(wǎng)絡是全連接神經(jīng)網(wǎng)絡,輸入層為狀態(tài)s,2層隱藏層,輸出層為動作a;另一種是評論家網(wǎng)絡及其目標網(wǎng)絡結構,其結構和具體參數(shù)設置如圖5所示。該神經(jīng)網(wǎng)絡也是全連接神經(jīng)網(wǎng)絡,其輸入層為狀態(tài)s和動作a,2層隱藏層,輸出層為Q值。TD3的行動者和評論家的神經(jīng)網(wǎng)絡學習率α=0.005,目標神經(jīng)網(wǎng)絡學習率τ=0.005,折扣因子γ=0.99,T為24,M為100,d為2,N為32。
圖4 行動者網(wǎng)絡及其目標結構
圖5 評論家網(wǎng)絡及其目標網(wǎng)絡結構
該算法用Python語言進行編程,在Pytorch框架上實現(xiàn),使用的計算機硬件條件為Core i5-6 300HQ處理器,主頻為2.30 GHz。
為了驗證TD3算法能夠有效解決綜合能源微網(wǎng)運行優(yōu)化的問題,本文中使用了深度Q網(wǎng)絡(deep Q network,DQN)、DDPG和文獻[15]中的非線性(Nonlinear)算法來進行比較。通過文獻[15]中提供的測試數(shù)據(jù),用Python編程,并進行總時長為24 h最優(yōu)成本Of的綜合能源微網(wǎng)運行仿真。DQN算法是一種經(jīng)典的強化學習方法,其動作輸出是通過神經(jīng)網(wǎng)絡來估計Q值函數(shù),并通過優(yōu)化方程來更新神經(jīng)網(wǎng)絡參數(shù),從而使智能體能夠根據(jù)獲取的狀態(tài)執(zhí)行正確的離散動作[16]。DDPG算法和TD3算法是基于策略的動作輸出,即特定狀態(tài)下的最佳動作。上述不同深度強化學習算法在總時長為24 h的綜合能源微網(wǎng)最優(yōu)逐時運行策略如圖6所示。
由圖可以看出:在00:00:00—06:00:00時段,3種算法的優(yōu)化策略相同,且在此時間段內(nèi)電力價格較低,用戶的所有電力需求皆可由主電網(wǎng)供應。在07:00:00—20:00:00時段,隨著時間的推移,電力價格逐漸上升,超過了天然氣的價格,為了滿足用戶的冷、熱、電需求,CHP、AB、CERG、WARG等設備和主電網(wǎng)有序地配合運行。3種算法對各種能源轉換設備的調(diào)度方案出現(xiàn)差異,但目標都是一致的,就是使綜合能源微網(wǎng)運行成本最低。在21:00:00—24:00:00時段,用戶只有電力需求,且此時電力價格開始下降,3種算法的優(yōu)化策略相同,將用戶的電力需求全部由主電網(wǎng)進行供應。
綜合能源微網(wǎng)運行成本優(yōu)化如表2所示。由表可以看出,在所有優(yōu)化算法中,本文中提出的TD3算法性能最好,綜合能源微網(wǎng)運行成本最低。假如綜合能源微網(wǎng)運行時間延長至一個月甚至1 a,TD3算法可以得到可觀的節(jié)能降本收益。與DDPG算法相比,DQN算法的每個動作的取值是離散值而不是連續(xù)值,導致綜合能源微網(wǎng)運行成本無法達到最優(yōu)。DDPG算法與TD3算法的動作都是連續(xù)值,因此更接近實際運行場景,能夠有機會接近運行成本最優(yōu)。TD3算法是在DDPG算法的基礎上進行改進,實現(xiàn)了在超參數(shù)和其他類型的調(diào)整方面更優(yōu),因此能夠降低動作值函數(shù)中Q值的過高估計,從而獲得更低的綜合能源微網(wǎng)運行成本。在迭代收斂方面,DQN算法迭代收斂次數(shù)最多,DDPG算法與TD3算法迭代收斂次數(shù)相同,但TD3算法的運行成本更低;在計算耗時方面,與傳統(tǒng)的非線性算法相比,TD3算法不僅運行成本更優(yōu),而且計算耗時更短。通過對比上述算法,再結合綜合能源微網(wǎng)運行時存在復雜性等特點,TD3算法更加符合綜合能源微網(wǎng)的特點和未來的發(fā)展方向。
(a)深度Q網(wǎng)絡(DQN)算法
表2 不同算法的綜合能源微網(wǎng)運行優(yōu)化成本對比
本文中對綜合能源微網(wǎng)運行優(yōu)化問題進行研究,采用標準化矩陣建模理論對含冷、熱、電的綜合能源微網(wǎng)進行建模,以運行成本最低作為目標函數(shù),用深度強化學習中的TD3算法的智能體對能源轉換設備進行合理調(diào)度,在確保最優(yōu)運行策略的同時減少了計算耗時,對于綜合能源微網(wǎng)運行優(yōu)化方法研究具有參考價值。當然,本文中所采用的智能體僅適用于典型的含冷、熱、電的綜合能源微網(wǎng),若是更大規(guī)模的復雜綜合能源系統(tǒng),則需要采用多智能體算法來實現(xiàn)。