鄭潔云,宋倩蕓,吳桂聯(lián),陳 浩,胡志堅,陳 志,翁菖宏,陳錦鵬
(1.國網(wǎng)福建省電力有限公司經(jīng)濟(jì)技術(shù)研究院,福建 福州 350012;2.武漢大學(xué)電氣與自動化學(xué)院,湖北 武漢 430072)
隨著能源短缺和環(huán)境污染問題日益凸顯,如何通過節(jié)能減排、提高能源利用率、增加新能源占比等方式來實現(xiàn)可持續(xù)的發(fā)展是當(dāng)前研究中較為關(guān)注的問題[1-2]。區(qū)域綜合能源系統(tǒng)(regional integrated energy system, RIES)在此背景下應(yīng)運而生,RIES直接面向終端能源用戶,利用光伏、風(fēng)力等發(fā)電方式可以提高清潔能源在終端能源消費中的占比,同時,通過熱電聯(lián)產(chǎn)、燃?xì)忮仩t等能源轉(zhuǎn)化裝置可以滿足用戶的多種用能需求[3-5]。在恰當(dāng)?shù)哪茉催\行策略下,RIES可以實現(xiàn)多能互補和能量的梯級利用[6],最終實現(xiàn)能源的高效靈活利用。但RIES中負(fù)荷的波動性、風(fēng)力和光伏的不確定性以及能流的多樣性的存在,使得制定經(jīng)濟(jì)合理的運行策略具有較大的挑戰(zhàn)[7-8]。
目前,國內(nèi)外關(guān)于RIES的運行策略優(yōu)化已有一定的研究成果。文獻(xiàn)[9-12]為了尋求綜合能源系統(tǒng)的有效運行策略,或建立了混合整數(shù)線性模型,采用數(shù)學(xué)優(yōu)化算法進(jìn)行求解;或建立混合整數(shù)非線性模型,采用粒子群、遺傳等智能算法進(jìn)行求解。除了數(shù)學(xué)優(yōu)化、智能算法外,也有研究將馬爾可夫決策過程(Markov decision process, MDP)應(yīng)用到綜合能源系統(tǒng)的能量管理和運行策略優(yōu)化中,并且達(dá)到了較好的效果[13-15]。文獻(xiàn)[16]基于深度Q網(wǎng)絡(luò)(deep Q network, DQN)對微能源網(wǎng)進(jìn)行能量管理,驗證了強化學(xué)習(xí)算法在能量管理中相較于啟發(fā)式算法的優(yōu)勢;文獻(xiàn)[17-18]在Q學(xué)習(xí)算法中引入雙層模糊推理來對Q值表進(jìn)行處理;文獻(xiàn)[19-20]引入強化學(xué)習(xí)算法考慮多個智能體之間的博弈,制定了RIES的能源管理策略和負(fù)荷的調(diào)度策略,最終取得了較好的效果。
減少碳排放水平、實現(xiàn)低碳可持續(xù)發(fā)展是世界各國未來的重要發(fā)展戰(zhàn)略目標(biāo),中國也根據(jù)國情提出了“雙碳”目標(biāo)[21]。而能源行業(yè)在碳排放行業(yè)中占比大,因此,在制定RIES的運行策略時,兼顧經(jīng)濟(jì)性和低碳性對節(jié)能減排尤為重要。目前,已有研究在綜合能源系統(tǒng)的運行優(yōu)化中引入碳交易、碳稅等機(jī)制來考慮系統(tǒng)的低碳性[22-24],但鮮有研究將強化學(xué)習(xí)算法應(yīng)用于兼顧經(jīng)濟(jì)性與低碳性的運行優(yōu)化問題中。
基于上述研究,本文綜合考慮區(qū)域綜合能源系統(tǒng)的經(jīng)濟(jì)性和低碳性,將二氧化碳排放的治理費用轉(zhuǎn)化為經(jīng)濟(jì)指標(biāo)、優(yōu)化RIES的運行策略。再者,傳統(tǒng)的Q學(xué)習(xí)一般將Q值表的所有元素初始化為0,收斂速度較慢。針對此不足,本文對Q學(xué)習(xí)算法的初始化方法進(jìn)行改進(jìn),以提高算法的收斂速度。首先,本文對區(qū)域綜合能源系統(tǒng)及其主要裝置進(jìn)行建模;接著以經(jīng)濟(jì)性和低碳性為目標(biāo)建立RIES低碳運行策略的數(shù)學(xué)模型,決策RIES向上級電網(wǎng)、氣網(wǎng)的購買量以及能源轉(zhuǎn)化裝置出力等變量;然后,闡述本文基于改進(jìn)Q學(xué)習(xí)算法尋求RIES運行策略的過程;最后,在Matlab環(huán)境下,通過仿真驗證本文所提模型和算法的有效性以及可行性。
RIES通過能源轉(zhuǎn)化裝置及儲能裝置可以充分實現(xiàn)多種能源之間的互補及協(xié)同效益,滿足用戶的多種用能需求,本文構(gòu)建的RIES結(jié)構(gòu)如圖1所示。
圖1 RIES結(jié)構(gòu)Figure 1 Structure diagram of RIES
在能源轉(zhuǎn)化裝置中,熱電聯(lián)產(chǎn)( combined heat and power,CHP)的輸入是天然氣,輸出是電能和熱能;燃?xì)忮仩t(gas boiler,GB)的輸入是天然氣,其熱輸出與CHP的熱輸出共同為用戶提供熱負(fù)荷;壓縮式制冷機(jī)(compression refrigerator,CR)的輸入為電能,其冷輸出直接為用戶提供冷負(fù)荷。若將能源轉(zhuǎn)化裝置的輸入功率表示Ii,輸出功率表示為Oi,則其模型即能源轉(zhuǎn)化關(guān)系、額定功率限制可以表示為
(1)
式中ηi為能源轉(zhuǎn)化裝置的能源轉(zhuǎn)化效率。
光伏(PV)發(fā)電具有較強的不確定性和波動性,本文采用時序法[25]對其進(jìn)行建模,要求PV實際輸出的電功率小于其預(yù)測出力,該約束可以表示為
(2)
電儲(electricity storage,ES)有充、放電2種狀態(tài),合理配置ES的充、放電功率,可有效緩解用電高峰期的用電壓力。本文采用儲能的通用模型對ES進(jìn)行建模,其模型及運行約束條件可以表示為
(3)
本文綜合考慮RIES的經(jīng)濟(jì)性和低碳性,以考慮碳治理費用的日運行成本最小為目標(biāo)函數(shù),建立RIES低碳運行的數(shù)學(xué)模型,決策RIES向上級電網(wǎng)、天然氣網(wǎng)的購買量以及能源轉(zhuǎn)化裝置出力等變量,最終實現(xiàn)RIES的多能互補以及協(xié)同效益。
本文基于不輕易改變RIES用戶側(cè)消費意愿的原則,即不輕易切掉負(fù)荷,以RIES的日運行費用最小為目標(biāo)函數(shù),該目標(biāo)函數(shù)由RIES向上級電網(wǎng)購電、向上級天然氣網(wǎng)購氣、二氧化碳的治理費用組成。目標(biāo)函數(shù)可以表示為
(4)
式中F為目標(biāo)函數(shù);FP、FG、FC分別為RIES向上級電網(wǎng)購電、向上級天然氣網(wǎng)購氣、二氧化碳的治理費用;P(t)、G(t)為t時刻RIES向上級電網(wǎng)的購電、向上級氣網(wǎng)的購氣功率;fP(t)、fG(t)分別為t時刻的電價、氣價;C(t)為t時刻RIES的CO2排放量;fC為單位CO2排放量的治理價格。
RIES向上級電網(wǎng)所購買的電量大多通過燃燒煤炭而產(chǎn)生,此產(chǎn)電過程會排放CO2。因此,本文考慮RIES的CO2治理成本由向上級電網(wǎng)購電、CHP、GB構(gòu)成。C(t)的具體描述可以表示為
C(t)=CP(t)+CCHP(t)+CGB(t)
(5)
CP(t)=P(t)Δtβe
(6)
CCHP(t)={HCHP(t)Δt+φe,hPCHP(t)Δt}βh
(7)
CGB(t)=HGB(t)Δtβh
(8)
式(5)~(8)中CP(t)、CCHP(t)、CGB(t)分別為t時刻購電、CHP、GB的CO2排放量;βe、βh為RIES單位產(chǎn)電量、產(chǎn)熱量所產(chǎn)生的CO2排放量;φe,h為單位產(chǎn)電量向單位產(chǎn)熱量的折算系數(shù);HCHP(t)為CHP的輸出熱功率;PCHP(t)為CHP的輸出電功率;HGB(t)為GB的輸出熱功率。
基于所構(gòu)建的目標(biāo)函數(shù),本文考慮2類約束:各類裝置的運行約束與電、熱、氣、冷功率平衡的約束,以達(dá)到供需平衡的目的。
2.2.1 裝置運行約束
RIES涉及的CHP、GB、CR、PV、ES等裝置在運行時需要滿足的約束條件與式(1)~(3)一致。
2.2.2 功率平衡約束
RIES運行時不僅需要約束設(shè)備的狀態(tài),也必須實現(xiàn)功率的平衡,根據(jù)圖1,本文考慮以下約束。
1) 電功率平衡。
P(t)+PPV(t)+PCHP(t)=
(9)
式中Pload(t)為t時刻的電負(fù)荷;PCR(t)為t時刻CR電能輸入功率。
2) 熱功率平衡。
HCHP(t)+HGB(t)=Hload(t)
(10)
式中Hload(t)為t時刻的熱負(fù)荷。
3) 天然氣平衡。
G(t)=GCHP(t)+GGB(t)
(11)
式中GCHP(t)為t時刻CHP的天然氣輸入;GGB(t)為t時刻GB的天然氣輸入。
4)冷功率平衡。
FCR(t)=Fload(t)
(12)
式中FCR(t)為t時刻CR的輸出;Fload(t)為t時刻的冷負(fù)荷。
Q學(xué)習(xí)算法與模型無關(guān),具有良好的后效性,以MDP為理論基礎(chǔ)。在Q學(xué)習(xí)算法中,智能體通過不斷與外部環(huán)境進(jìn)行交互學(xué)習(xí)獲得經(jīng)驗,如果智能體在當(dāng)前狀態(tài)下采取的某個動作導(dǎo)致環(huán)境給予積極的獎賞,則智能體后續(xù)再次處于這個狀態(tài)時選中該行為的趨勢增強??偟膩碚f,Q學(xué)習(xí)算法是一種基于值函數(shù)迭代的在線學(xué)習(xí)和動態(tài)最優(yōu)技術(shù)[14,16,20]。Q值的迭代過程可以表示為
Q*(st,at)=(1-α)Q(st,at)+
α[r(st,at)+γmaxQ(st+1,a′)]
(13)
式中 (st,at)為t時刻的狀態(tài)—動作對;Q(st,at)為采取動作at之前的Q值;Q*(st,at)為執(zhí)行動作at之后更新的Q值;maxQ(st+1,a′)為執(zhí)行動作at進(jìn)入狀態(tài)st+1后,在st+1狀態(tài)下智能體能執(zhí)行的所有動作中的最大Q值;α為學(xué)習(xí)率,其值越大,表示智能體學(xué)習(xí)新經(jīng)驗的概率越大,保留以往經(jīng)驗的概率越小;γ為折現(xiàn)因子;r(st,at)為動作對(st,at)所對應(yīng)的獎勵函數(shù)值。
在滿足供需平衡的前提下,本文建立的RIES低碳運行策略通過決策優(yōu)化各類裝置的出力、購電量、購氣量,來達(dá)到RIES低碳經(jīng)濟(jì)運行的目的。而在MDP問題中,RIES智能體在當(dāng)前狀態(tài)下所采取的下一步動作僅僅與其當(dāng)前狀態(tài)有關(guān),即當(dāng)前時刻下的負(fù)荷功率大小、ES的荷電狀態(tài)、PV出力等,當(dāng)智能體執(zhí)行某一決策動作后,會獲得與該動作相對應(yīng)的獎賞,智能體的動作、狀態(tài)、獎賞即對應(yīng)MDP問題的3個要素:動作空間、狀態(tài)空間和獎勵函數(shù)。
3.2.1 動作空間
RIES的運行策略目的在于優(yōu)化裝置的出力、電和氣的購買量。因此,基于圖1,本文考慮MDP的動作空間由CHP/GB/CR這3類能源轉(zhuǎn)化裝置的輸入、ES充放電功率、向上級電網(wǎng)購電量、向上級氣網(wǎng)購氣量組成,動作空間可以表示為
A=[GCHP(t),GGB(t),PCR(t),
PES(t),P(t),G(t)]
(14)
式中PES(t)為ES的充放電功率,其取值為正時表示ES充電,取值為負(fù)時表示ES放電。
由于電、熱、冷負(fù)荷以及PV出力可以通過預(yù)測而在決策前得知,因此,結(jié)合熱功率平衡約束式(10)和天然氣平衡約束式(11),若CHP的天然氣輸入已知,則GB的天然氣輸入、天然氣購買量可以通過平衡式(10)、(11)推算出來。同理,冷負(fù)荷僅僅由CR提供,CR的電輸入功率可由冷平衡式(12)推算而得;若ES的充放電功率已知,則通過電功率平衡式(9)同樣可以推算出RIES的購電量。綜上所述,若動作空間A僅由CHP的天然氣輸入、ES的充放電功率組成,式(14)中的其余變量均可由CHP天然氣輸入、電儲充放電功率根據(jù)相應(yīng)約束條件推算而得。因此,動作空間可以簡化為
A=[GCHP(t),PES(t)]
(15)
3.2.2 狀態(tài)空間
對于智能體RIES來說,外界環(huán)境能提供的狀態(tài)信息包括電價以及ES的荷電狀態(tài)。因此,本文將分時電價信息以及ES的荷電狀態(tài)作為MDP問題的狀態(tài)空間,可以表示為
S=[fP(t),W(t)]
(16)
3.2.3 獎勵函數(shù)
獎勵函數(shù)和模型的目標(biāo)函數(shù)有關(guān),同時,動作空間的確定考慮到了CHP、GB、CR的設(shè)備約束條件以及電、熱、氣、冷的功率平衡,卻沒有涉及ES的荷電狀態(tài)約束。本文考慮對ES荷電狀態(tài)越限進(jìn)行懲罰,MDP問題的獎勵函數(shù)除了和目標(biāo)函數(shù)有關(guān),也和該懲罰函數(shù)有關(guān)。Q學(xué)習(xí)算法考慮的是最終的獎賞最大化,因此,本文構(gòu)建的獎勵函數(shù)R的具體描述可以表示為
R=-(F+F2)
(17)
F2=
(18)
(19)
其中x用于判斷ES的荷電狀態(tài)是否越限,t時刻采取動作后ES荷電狀態(tài)變?yōu)閃(t+1),若ES荷電狀態(tài)越限,將按照越限量乘以當(dāng)前時刻電價的100倍來進(jìn)行懲罰。
3.3.1 動作空間及狀態(tài)空間離散化
(20)
(21)
由于電價通常在決策之前給定,因此,狀態(tài)空間僅有W(t)一個變量需要進(jìn)行離散。W(t)在Wmin和Wmax之間取值,可以按照公式離散為c+1個值,即
(Wmax-Wmin),Wmax
(22)
3.3.2 Q值表初始化
傳統(tǒng)的Q學(xué)習(xí)算法將Q值表的全部元素初始化為零,本文的目標(biāo)函數(shù)為RIES的日運行費用最小,將獎勵函數(shù)R定義為負(fù)值,則需把Q值表的全部元素初始化為一個較小的負(fù)值。無論是初始化為零還是一個較小的負(fù)值,收斂的速度都會較慢,為了提高算法的收斂速度,本文將Q值表初始化為每個動作對(st,at)相應(yīng)的獎勵函數(shù)值,即
Qin(st,at)=r(st,at)
(23)
式中Qin(st,at)為動作對(st,at)對應(yīng)的初始Q值。
3.3.3 求解流程
本文提出的基于Q學(xué)習(xí)的RIES低碳運行策略的求解流程如圖2所示,其求解流程如下。
1) 按照式(23)初始化Q值表,迭代次數(shù)n=1。
2) 決策周期t初始化為0,并初始化RIES在開始時刻的取值,本文認(rèn)為ES在0點時儲有ES額定容量的10%電量。
3) 根據(jù)RIES當(dāng)前的狀態(tài)st,基于ε-greedy貪心算法選擇合適的動作at,ε-greedy貪心算法的要點是探索和利用:初始化ε的取值,智能體在學(xué)習(xí)過程以ε的概率進(jìn)行探索,以1-ε的概率利用,探索即將所有的嘗試機(jī)會均勻地分到每個可以執(zhí)行的動作中去,利用即選擇獎賞最大的動作。本文為了在探索和利用中實現(xiàn)較好的折中,首先將ε設(shè)置為一個較大的值以獲得多個動作的獎賞經(jīng)驗值,然后隨著迭代次數(shù)的增加逐漸減小ε的取值,使得選取獎賞最大的動作的概率增大。執(zhí)行動作at后便可以獲得下一決策周期的狀態(tài)st+1。
4) 根據(jù)步驟3所選擇的動作at,按照式(17)計算相應(yīng)的獎賞r(st,at),并按照式(13)更新動作對t=t+1的Q值。
5) 令t=t+1,T=24表示總的決策周期數(shù),若t≤T,則返回步驟4,否則進(jìn)入步驟6。
6) 令n=n+1,N表示迭代次數(shù)最大值,若n>N或者學(xué)習(xí)過程已收斂,則結(jié)束迭代,得到最終的Q值表和運行策略,否則返回步驟2。
圖2 基于Q學(xué)習(xí)算法的求解流程Figure 2 The solution flow based on Q learning algorithm
過度季典型日RIES的日負(fù)荷、PV出力曲線如圖3所示,電、熱、冷負(fù)荷的最大值分別為100、175、75 kW。
圖3 RIES在過度季典型日的負(fù)荷、PV出力曲線Figure 3 Load and PV output curves of RIES on a typical day during the transition season
本文采用文獻(xiàn)[25]中的分時電價模式,峰、平、谷時段的電價分別為1.35、0.90、0.47元/(kW·h),峰時段為11:00—16:00、19:00—21:00,平時段為08:00—11:00、16:00—19:00、21:00—00:00,谷時段為00:00—08:00。天然氣價為0.35元/(kW·h),二氧化碳的治理費用為100元/t。能源轉(zhuǎn)化裝置、設(shè)備的碳排放以及Q學(xué)習(xí)算法的相關(guān)參數(shù)分別如表1~3所示。
表1 設(shè)備參數(shù)Table 1 The equipment parameters
表2 碳排放相關(guān)參數(shù)Table 2 Related parameters of carbon emission
表3 Q學(xué)習(xí)算法相關(guān)參數(shù)Table 3 Related parameters of Q learning algorithm
儲能ES的額定容量為200 kW·h,最大的充放電功率為容量的25%,荷電狀態(tài)的取值為0.1~0.9,因此,本文以0.012 5為區(qū)間長度,按照式(22)將荷電狀態(tài)離散為65個值,作為MDP問題的狀態(tài)空間,即狀態(tài)空間共有65×24=1 560維。ES的最大充放電功率為50 kW,本文以2.5 kW為區(qū)間長度,按照式(21)將動作空間的充放電功率離散為41個取值。同理,在0~200 kW之間以2.5 kW為區(qū)間長度將CHP的輸入離散為81個取值,共有41×81=3 321種動作組合。
4.2.1 算法收斂分析
算法的收斂過程如圖4所示,給出了學(xué)習(xí)過程中的最佳動作和平均最佳序列獎勵的迭代過程。本文設(shè)定的最大迭代次數(shù)為105次,在最終的最終動作序列下,RIES的日運行費用為2 586.91元。由圖4可以發(fā)現(xiàn),基于獎勵函數(shù)的初始化方法,相較于采用將Q值表所有元素置為同一個取值的傳統(tǒng)初始化方法,Q學(xué)習(xí)算法更快收斂,經(jīng)過7 000次迭代后,采用本文改進(jìn)初始化方法的Q學(xué)習(xí)算法的最佳動作和平均最佳序列獎勵已收斂,說明Q學(xué)習(xí)算法已收斂,同時,也證明Q學(xué)習(xí)算法可以有效解決本文所提出能量運行策略問題。
圖4 算法收斂過程Figure 4 Algorithm convergence process
采用改進(jìn)Q值初始化方法的Q學(xué)習(xí)、遺傳、粒子群算法的優(yōu)化結(jié)果對比如表4所示,可以發(fā)現(xiàn),不論是目標(biāo)函數(shù)日運行費用還是碳排放量,Q學(xué)習(xí)算法具有較好的優(yōu)化結(jié)果。這是因為Q學(xué)習(xí)算法與模型無關(guān),具有良好的后效性,算法會考慮當(dāng)前操作對未來的影響,會通過犧牲目前的部分收益以換取整體的更大收益。而遺傳、粒子群等啟發(fā)式算法后效性較差,以至于優(yōu)化結(jié)果相對較差。
表4 不同算法的優(yōu)化結(jié)果Table 4 Optimization results of different algorithms
在文4.1中,動作空間的2個變量GCHP(t)、PES(t)分別被離散為81、41個取值,即在式(20)、(21)中,a=80,b=20,同樣可以由式(22)推算出c=64(定義為離散情形2)。為了研究不同離散化程度,即不同a、b、c取值對算法收斂的影響,本文進(jìn)一步對a=40,b=10,c=32(定義為離散情形1)和a=160,b=40,c=128(定義為離散情形3)2種情形進(jìn)行仿真,各情形下算法收斂過程如圖5所示,各情形下目標(biāo)函數(shù)即RIES的日運行費用如表5所示。
圖5 不同離散化程度下的算法收斂過程Figure 5 Algorithm convergence process of different degrees of dispersion
表5 不同離散化程度下的目標(biāo)函數(shù)值Table 5 Values of objective function within different degrees of dispersion
由圖5、表5可以看出,隨著a、b、c值的增大,收斂速度變慢,目標(biāo)函數(shù)值增大。而a、b、c的值越大,離散度也越高。由此可知,隨著離散化程度的提高,RIES的日運行費用也會減小,這意味著RIES有更好的運行策略;但同時,隨著離散化程度的提高,收斂速度變慢,導(dǎo)致RIES運算策略求解變慢。這是因為a、b、c的取值增大了動作和狀態(tài)空間的維度,導(dǎo)致算法不易收斂,而a、b、c取值的增大使得被離散的連續(xù)變量更能接近原本的連續(xù)取值范圍,因此能為系統(tǒng)求解得到更優(yōu)的運行策略。綜上,離散化程度過高或過低都有一定的缺陷,需要恰當(dāng)選擇a、b、c的取值以實現(xiàn)RIES的日運行費用與收斂速度之間的折衷。
4.2.2 功率平衡分析
RIES的運行策略如圖6~8所示。
圖6 RIES能源購買量Figure 6 Energy purchases of RIES
圖7 電能優(yōu)化結(jié)果Figure 7 Optimization results of power
圖8 天然氣優(yōu)化結(jié)果Figure 8 Optimization results of natural gas
圖6展示了RIES向上級電網(wǎng)、上級氣網(wǎng)的購電量和購氣量以及電儲充放電情況。由圖6可以發(fā)現(xiàn),相比于電價的平價、谷時段,RIES在電價的高峰時段(11:00-16:00)購電量較少、購氣量較多,并且電儲裝置基本處于“低儲高發(fā)”的狀態(tài)。圖7展示了電能優(yōu)化結(jié)果,其中電能輸入表示購電量、PV出力、CHP電輸出之和,電能輸出表示電負(fù)荷、CR輸入、ES充放電功率之和。
對比圖6、7可知,在滿足供需平衡的前提下,電價高峰時段RIES不僅減少了向上級電網(wǎng)的購電量,還可以通過增加天然氣的購買量進(jìn)而增大CHP的電功率輸出;同時,電價高峰時段ES處于放電狀態(tài),進(jìn)一步減少了RIES的購電量,甚至可以向電網(wǎng)售電,提高RIES運行時的經(jīng)濟(jì)性。說明通過合理配置CHP、ES的運行策略,可以充分發(fā)揮RIES的多能互補優(yōu)勢,進(jìn)而實現(xiàn)RIES的經(jīng)濟(jì)運行。
圖8給出了最佳動作序列下熱功率的平衡情況,CHP機(jī)組的輸出熱功率與GB的熱輸出功率一起滿足用戶的熱負(fù)荷需求。
結(jié)合圖6~8分析可知,合理配置CHP、ES、GB等裝置的運行策略是實現(xiàn)RIES供需平衡和多能互補的基本前提??偟膩碚f,本文采用Q學(xué)習(xí)算法學(xué)習(xí)得到的運行策略具有以下特點:
1) 電儲能在低負(fù)荷的谷時段或者平時段利用光伏和谷價電能充電,然后在電價高峰時段集中放電,可以提升RIES運行時的經(jīng)濟(jì)性能,也能在一定程度上起到緩解主網(wǎng)供電壓力的作用;
2)在電價高峰時段,除了電儲放電,RIES的購氣量也相對其他時段有一定的增長,從而CHP的電能輸出增加,可以進(jìn)一步減少RIES的購電量,甚至可以和電儲配合向主網(wǎng)售電;
3) 在滿足供需平衡的基礎(chǔ)上,求得的運行策略可以充分發(fā)揮RIES的多能互補優(yōu)勢。
4.2.3 碳排放分析
為了分析RIES運行策略的低碳性,本文分析比較目標(biāo)函數(shù)不考慮二氧化碳排放治理成本(情形1)、二氧化碳的治理費用為100元/t(情形2)這2種情況下的RIES總運行成本、RIES與上級電/氣網(wǎng)的能源交易成本、碳治理費用以及二氧化碳排放量,優(yōu)化結(jié)果如表6所示,可以發(fā)現(xiàn),如果以100元/t的治理費用來處理情形1下的二氧化碳排放量,則情形1的總成本為2 350.01+2.330×100=2 580.01元,以0.27%的降幅略低于情形2下的總成本,而情形1的碳排放量卻相較情形2增加了4.02%。因此,當(dāng)碳治理成本被納入目標(biāo)函數(shù)時,盡管目標(biāo)函數(shù)值會小幅增加,碳排放卻會相對大幅減少。由此可以得出結(jié)論,本文利用Q學(xué)習(xí)算法求解得到的RIES運行策略可以在一定程度上同時兼顧系統(tǒng)的經(jīng)濟(jì)性和低碳性。
表6 碳排放優(yōu)化結(jié)果Table 6 Optimization results of carbon emissions
為了進(jìn)一步分析碳治理價格對RIES運行策略的影響,本文將碳治理價格分別重置為50、100、200 元/t進(jìn)行仿真。不同價格下的仿真結(jié)果如圖9所示,其展示了不同價格下系統(tǒng)的碳排放量和日運行費用。從圖9可以看出,隨著碳治理價格的增加,碳排放量隨之減少,RIES的日運行費用隨之增加。當(dāng)碳治理價格定義為100元/t時,碳排放和日常運營成本之間存在折衷。
圖9 不同碳治理價格下的仿真結(jié)果Figure 9 Simulation results under different carbon management prices
基于Q學(xué)習(xí)算法,本文對區(qū)域綜合能源系統(tǒng)的低碳運行策略展開了研究,得出以下結(jié)論:
1)利用本文給出的改進(jìn)Q學(xué)習(xí)算法求解區(qū)域綜合能源系統(tǒng)的運行策略,算法能較快地收斂;
2)針對區(qū)域綜合能源系統(tǒng)所建立的低碳運行策略,本文通過合理配置多種能源轉(zhuǎn)化和儲能裝置的輸出功率,達(dá)到了充分發(fā)揮區(qū)域綜合能源系統(tǒng)多能互補優(yōu)勢的目的,進(jìn)而實現(xiàn)了能源高效利用的目的;
3)計及二氧化碳排放,本文把二氧化碳排放的治理費用考慮進(jìn)區(qū)域綜合能源系統(tǒng)的日運行總費用中,雖然總費用因此而增加,但是區(qū)域綜合能源系統(tǒng)可以因此以相對低碳的模式運行,即可以在一定程度上兼顧經(jīng)濟(jì)性與低碳性。
Q學(xué)習(xí)算法只能處理離散問題,后續(xù)的研究可以進(jìn)一步針對處理連續(xù)變量而展開。