劉建樹,江岳文
(福州大學(xué) 電氣工程與自動(dòng)化學(xué)院,福建省 福州市 350108)
清潔可再生能源作為化石燃料的理想取代品,對(duì)于解決全球變暖、能源枯竭、環(huán)境污染等問題有著深遠(yuǎn)的意義[1]。作為一種理想的綠色能源,風(fēng)電迅猛發(fā)展。然而,風(fēng)能的分布與利用呈現(xiàn)出區(qū)域性的不平衡,棄風(fēng)限電問題凸顯[2]。
氫氣是一種清潔無(wú)污染,能量密度高、轉(zhuǎn)換形式多樣的二次能源。利用風(fēng)電制氫能夠增加風(fēng)電的可調(diào)度性,同時(shí)生成綠色氫氣,是解決風(fēng)電消納問題的理想方案之一。多風(fēng)氫系統(tǒng)聯(lián)合運(yùn)行可以發(fā)揮氫長(zhǎng)期大規(guī)模存儲(chǔ)和多元化產(chǎn)品輸出的優(yōu)勢(shì),在未來(lái)風(fēng)電開發(fā)利用過(guò)程中發(fā)揮著重要的作用[3]。文獻(xiàn)[4]提出考慮產(chǎn)業(yè)鏈傳導(dǎo)的風(fēng)電全電量制氫經(jīng)濟(jì)分析模型,為全面評(píng)價(jià)上網(wǎng)背景下新能源消納受限地區(qū)風(fēng)電產(chǎn)業(yè)新的發(fā)展提供參考;文獻(xiàn)[5]對(duì)比不同風(fēng)電滲透率情況下的電網(wǎng)運(yùn)行情況,配備制氫裝置吸收富余的風(fēng)電,可大幅減少棄風(fēng)并增加風(fēng)電場(chǎng)收入;文獻(xiàn)[6]研究使用風(fēng)力發(fā)電進(jìn)行電解制氫的可行性,在愛爾蘭巨大的風(fēng)能資源范圍內(nèi)評(píng)估氫的潛在利益;文獻(xiàn)[7]考慮堿性電解槽電熱特性、電解槽功率調(diào)節(jié)特性等因素,提出堿性電解槽列陣輪值協(xié)調(diào)控制策略,有效提高風(fēng)電消納能力;文獻(xiàn)[8]提出一種風(fēng)電制氫存儲(chǔ)系統(tǒng),考慮到風(fēng)電輸出和電價(jià)的不確定性,提出以利潤(rùn)最大化為目標(biāo)的最優(yōu)運(yùn)行策略;文獻(xiàn)[9]提出一種含制氫儲(chǔ)能的風(fēng)電系統(tǒng)基本構(gòu)架,可有效平抑風(fēng)電輸出功率,增加系統(tǒng)運(yùn)行的穩(wěn)定性。文獻(xiàn)[10]針對(duì)風(fēng)電制氫系統(tǒng)的欠經(jīng)濟(jì)性運(yùn)行,提出一種兼顧富余風(fēng)電充分消納和全局效益的電網(wǎng)靈活負(fù)荷控制策略。上述的研究利用制氫裝置有效解決了風(fēng)電消納問題,但是對(duì)于風(fēng)電場(chǎng)而言,配備制氫裝置將導(dǎo)致投資建設(shè)成本的顯著提升。在實(shí)際運(yùn)行中,出于經(jīng)濟(jì)性考量,風(fēng)電場(chǎng)與氫系統(tǒng)可屬于不同的投資建設(shè)主體,兩者之間通過(guò)聯(lián)合運(yùn)行的方式進(jìn)行合作,充分利用各投資主體中的資源,實(shí)現(xiàn)共同利益的最大化。因此,深入的多風(fēng)氫系統(tǒng)聯(lián)合運(yùn)行方式有待進(jìn)一步挖掘。
同時(shí),多風(fēng)氫系統(tǒng)運(yùn)行具有多時(shí)間斷面、多控制變量的特點(diǎn),例如將一天分為96個(gè)時(shí)間斷面,各時(shí)間斷面內(nèi)包含風(fēng)電上網(wǎng)功率、電解槽制氫功率等控制變量,導(dǎo)致求解困難。經(jīng)典的優(yōu)化算法,如牛頓法[11]、梯度下降法[12]等,依賴于嚴(yán)格的數(shù)學(xué)模型,當(dāng)優(yōu)化問題出現(xiàn)非線性特征時(shí)將難以求解。雖可將非線性問題轉(zhuǎn)化為線性問題進(jìn)行求解,但在一定程度上影響求解的結(jié)果。而對(duì)于粒子群算法[13]、蟻群算法[14]等非線性算法,雖可較好地求解非線性優(yōu)化問題,但易于陷入局部最優(yōu)且求解穩(wěn)定性差。眾多的控制變量不論對(duì)非線性算法還是經(jīng)典優(yōu)化算法,都可能陷入到維數(shù)災(zāi)難當(dāng)中,使得求解過(guò)程復(fù)雜且計(jì)算量巨大,在一定程度上降低了算法的實(shí)用性。作為機(jī)器學(xué)習(xí)算法的一個(gè)重要分支,強(qiáng)化學(xué)習(xí)對(duì)數(shù)學(xué)模型具有不敏感性,并采用試錯(cuò)的方法求取目標(biāo)任務(wù)的解。目前在電力系統(tǒng)中,強(qiáng)化學(xué)習(xí)算法已經(jīng)應(yīng)用于安全穩(wěn)定控制、自動(dòng)發(fā)電控制、電壓無(wú)功控制以及電力市場(chǎng)等方面[15]。文獻(xiàn)[16]基于強(qiáng)化學(xué)習(xí)理論,提出一種實(shí)用的地區(qū)電網(wǎng)無(wú)功電壓優(yōu)化控制方法;文獻(xiàn)[17]針對(duì)微電網(wǎng)中分布式電源下垂一次控制產(chǎn)生的系統(tǒng)頻率和電壓靜態(tài)偏差問題,提出一種基于強(qiáng)化學(xué)習(xí)的就地反饋方法的分布式二次優(yōu)化控制;文獻(xiàn)[18]在風(fēng)電與儲(chǔ)能配置給定的前提下,利用強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)風(fēng)電與儲(chǔ)能系統(tǒng)之間的有機(jī)合作;文獻(xiàn)[19]將人工智能擴(kuò)展至傳統(tǒng)輸電網(wǎng)規(guī)劃中,提出基于強(qiáng)化學(xué)習(xí)理論的輸電網(wǎng)擴(kuò)展規(guī)劃方法。上述研究較好地應(yīng)用強(qiáng)化學(xué)習(xí)算法求解優(yōu)化問題,但多決策變量導(dǎo)致的維數(shù)災(zāi)難依然是限制該算法廣泛應(yīng)用的關(guān)鍵因素。如何克服維數(shù)災(zāi)難問題,仍值得研究。同時(shí),單智體決策無(wú)法滿足多風(fēng)氫系統(tǒng)多時(shí)間斷面調(diào)度的靈活性。目前,已有研究將多智體應(yīng)用到能量管理當(dāng)中[20-22]。多智體運(yùn)用集體智慧,將復(fù)雜的問題分配給多個(gè)單智體求解,并且智體間伴隨信息交互,兼顧求解問題的獨(dú)立性與整體性。
本文針對(duì)多風(fēng)氫系統(tǒng)聯(lián)合運(yùn)行問題,將收益最大化作為目標(biāo),構(gòu)造多風(fēng)氫系統(tǒng)聯(lián)合優(yōu)化運(yùn)行模型。在此基礎(chǔ)上,提出基于多智體強(qiáng)化學(xué)習(xí)的多風(fēng)氫系統(tǒng)聯(lián)合優(yōu)化運(yùn)行方法,利用多智體分布式計(jì)算、自主搜索、信息交互等特點(diǎn)并采用多決策更新方法,加速?gòu)?qiáng)化學(xué)習(xí)算法的收斂。最后,通過(guò)算例仿真驗(yàn)證所提方法的有效性,并分析多風(fēng)氫系統(tǒng)的優(yōu)化結(jié)果以及影響收益的相關(guān)因素。
作為提高能源利用率的關(guān)鍵因素,氫系統(tǒng)可有效地解決可再生能源消納問題。從能源角度出發(fā),通過(guò)電解水制氫將電能轉(zhuǎn)化為氫氣可促進(jìn)風(fēng)電的進(jìn)一步綜合利用,促成多風(fēng)氫系統(tǒng)的形成。依照國(guó)家發(fā)改委、國(guó)家能源局發(fā)布的《關(guān)于開展分布式發(fā)電市場(chǎng)化交易試點(diǎn)的通知》[23]給出的分布式交易模式:分布式電源與分布式負(fù)荷之間可以直接進(jìn)行電力交易,購(gòu)售電雙方均需提前向調(diào)度機(jī)構(gòu)上報(bào)出力預(yù)測(cè)與負(fù)荷預(yù)測(cè)。本文考慮多風(fēng)氫系統(tǒng)聯(lián)合運(yùn)行,風(fēng)電場(chǎng)與制氫加氫站在合約市場(chǎng)上簽訂月度合約,在日前市場(chǎng)上調(diào)度機(jī)構(gòu)下發(fā)電價(jià)曲線,多風(fēng)氫系統(tǒng)根據(jù)預(yù)測(cè)風(fēng)電出力、預(yù)測(cè)氫負(fù)荷等因素確定風(fēng)電場(chǎng)與制氫加氫站之間的合約交易功率。風(fēng)電場(chǎng)與制氫加氫站的合約交易功率按照合約電價(jià)結(jié)算,風(fēng)電場(chǎng)剩余的功率參加日前市場(chǎng)的競(jìng)標(biāo),按照上網(wǎng)電價(jià)結(jié)算。制氫加氫站與風(fēng)電場(chǎng)的合約交易功率按照合約電價(jià)結(jié)算,其余制氫加氫站消耗功率按照負(fù)荷用電電價(jià)結(jié)算。
多風(fēng)氫系統(tǒng)的組成設(shè)備包括風(fēng)電機(jī)組、電解槽、壓縮機(jī)、儲(chǔ)氫罐以及加氫設(shè)備,詳情見附圖A3。多風(fēng)氫系統(tǒng)的運(yùn)行目的是合理且高效地利用能源,通過(guò)優(yōu)化各時(shí)段內(nèi)電解槽的制氫功率、風(fēng)電場(chǎng)的上網(wǎng)功率以及合約制氫功率,減少制氫成本的同時(shí)提高售電收益,取得多風(fēng)氫系統(tǒng)收益的最大化。在風(fēng)電場(chǎng)出力不足時(shí),多風(fēng)氫系統(tǒng)亦可使用電網(wǎng)功率輔助制氫,提高了多風(fēng)氫系統(tǒng)運(yùn)行方式的靈活性。
風(fēng)電場(chǎng)t時(shí)刻的收益可表示為
式中:i為風(fēng)電場(chǎng)索引;t為時(shí)間索引;NW為風(fēng)電場(chǎng)的數(shù)量;為第i個(gè)風(fēng)電場(chǎng)t時(shí)刻向電網(wǎng)出售的功率;為第i個(gè)風(fēng)電場(chǎng)t時(shí)刻的合約制氫功率;為t時(shí)刻的上網(wǎng)電價(jià); ρw_el為風(fēng)電場(chǎng)與制氫加氫站的合約電價(jià); Δt為調(diào)度時(shí)間間隔。
風(fēng)電場(chǎng)上網(wǎng)功率包括出售給電網(wǎng)的功率以及合約制氫功率;風(fēng)電場(chǎng)的上網(wǎng)功率波動(dòng)嚴(yán)重影響電網(wǎng)的電能質(zhì)量,為平滑風(fēng)電場(chǎng)上網(wǎng)功率,在風(fēng)電上網(wǎng)功率越限的情況下將進(jìn)行棄風(fēng)。風(fēng)電場(chǎng)在運(yùn)行中滿足有功功率約束。上述要求表示為
制氫加氫站利用風(fēng)電場(chǎng)合約制氫功率電解制氫,同時(shí)在風(fēng)電不足或負(fù)荷用電電價(jià)較低時(shí)吸收電網(wǎng)功率輔助制氫,制備的氫氣將供給氫負(fù)荷或存儲(chǔ)于儲(chǔ)氫罐中。
2.2.1 電解槽模型
PEM電解槽具有電解效率高、工作電流密度大、電解槽體積小、易于操作與維護(hù)等優(yōu)點(diǎn),因此本文選用PEM電解槽,電解制氫的關(guān)系可表示為
式中:j為制氫加氫站的索引;為第j個(gè)制氫加氫站t時(shí)刻單位時(shí)間內(nèi)的產(chǎn)氫速率; ηel為電解槽的電解效率;為第j個(gè)制氫加氫站t時(shí)刻電解槽的輸入功率;HLHV為氫氣的低熱值。
在實(shí)際生產(chǎn)中,電解槽的電解效率與電解功率有關(guān)。當(dāng)電解槽的輸入功率變化時(shí),電解效率隨之改變并呈現(xiàn)出一定的函數(shù)關(guān)系。根據(jù)文獻(xiàn)[24]的制氫效率特性模型所得出的電解功率與電解效率數(shù)據(jù),擬合出的電解效率函數(shù)可表示為
式中:Pel?為電解槽輸入功率的標(biāo)幺值。
電解槽運(yùn)行時(shí)滿足的功率約束可表示為
文獻(xiàn)[25]指出,在電極相互獨(dú)立的運(yùn)行模式中,氫氣的純度隨著電流密度的上升而增加,并最終趨于穩(wěn)定值。當(dāng)電極電流密度達(dá)到0.2 A/cm2時(shí),氫氣的純度可以達(dá)到99.99%vol以上,符合安全運(yùn)行的標(biāo)準(zhǔn),也符合商業(yè)高純度氫的標(biāo)準(zhǔn)。文獻(xiàn)[26]給出了更為具體的最佳電解槽輸入功率,可表示為
2.2.2 壓縮機(jī)模型
為提高儲(chǔ)氫罐氫氣的單位存儲(chǔ)密度,常將低壓氫氣通過(guò)壓縮機(jī)壓縮成高壓氫氣。在壓縮氫氣的過(guò)程中,壓縮機(jī)所消耗的功率可表示為
2.2.3 儲(chǔ)氫罐模型
為協(xié)調(diào)氫氣的生產(chǎn)與氫負(fù)荷需求之間的不平衡,利用儲(chǔ)氫罐存儲(chǔ)多余的氫氣以滿足不時(shí)之需。
儲(chǔ)氫罐的總?cè)萘坎捎霉?8)確定
式中:Ctank,j為第j個(gè)制氫加氫站的儲(chǔ)氫罐總?cè)萘?;hd為電解槽滿載運(yùn)行時(shí)長(zhǎng)。文獻(xiàn)[27]將hd設(shè)置為24 h,以減少氫負(fù)荷需求與氫氣生產(chǎn)的不平衡。本文考慮在電價(jià)低谷時(shí)期將生成較多的氫氣,功率調(diào)度間隔為15 min,對(duì)氫負(fù)荷需求的響應(yīng)較為敏感,綜合考慮將hd設(shè)置為6 h。
為滿足儲(chǔ)氫罐的安全運(yùn)行,在正常運(yùn)行情況下,儲(chǔ)氫罐的約束可表示為
式中:St,j為第j個(gè)制氫加氫站t時(shí)刻儲(chǔ)氫罐的儲(chǔ)氫量;Lt,j為 第j個(gè)制氫加氫站t時(shí)刻的氫氣需求量;為第j個(gè)制氫加氫站t時(shí)刻單位時(shí)間內(nèi)流入儲(chǔ)氫罐的氫氣量;表示第j′個(gè)制氫加氫站向第j個(gè)制氫加氫站供應(yīng)的氫氣量;表示第j個(gè)制氫加氫站向第j′個(gè)制氫加氫站輸出的氫氣量;、、、分別為第j、j′個(gè)制氫加氫站長(zhǎng)管拖車運(yùn)輸量的上下限;g(t)為符號(hào)函數(shù),表示是否進(jìn)行氫氣互供; γtank為氫氣從壓縮機(jī)到儲(chǔ)氫罐的耗散率;Smax,j、Smin,j分 別為第j個(gè)制氫加氫站儲(chǔ)氫罐存儲(chǔ)量的上下限。
2.2.4 制氫加氫站運(yùn)行收益模型
制氫加氫站將氫氣出售給氫負(fù)荷,以此獲得收益;制氫加氫站的運(yùn)行成本包括購(gòu)電費(fèi)用、儲(chǔ)氫費(fèi)用、電解槽運(yùn)行維護(hù)費(fèi)用以及氫氣運(yùn)輸費(fèi)用;在合約制氫功率不足的情況下,制氫加氫站將向電網(wǎng)購(gòu)電。制氫加氫站t時(shí)刻的收益可表示為
式中:NHS為 制氫加氫站的數(shù)量;mt,j為第j個(gè)制氫加氫站t時(shí)刻的售氫量; ρH為氫氣的單位售價(jià);為t時(shí)刻的電網(wǎng)輔助制氫費(fèi)用;為t時(shí)刻的儲(chǔ)氫費(fèi)用;為t時(shí)刻的電解槽運(yùn)行維護(hù)費(fèi)用;為t時(shí)刻的氫氣運(yùn)輸費(fèi)用;為第j個(gè)制氫加氫站t時(shí)刻的電網(wǎng)輔助制氫功率。為t時(shí)刻的負(fù)荷用電電價(jià); μs為 單位時(shí)間單位量的儲(chǔ)氫費(fèi)用;kel為單位時(shí)間單位電解容量的電解槽運(yùn)行維護(hù)費(fèi)用;ρtran為氫氣運(yùn)輸單位成本。
制氫加氫站的有功功率約束可表示為
以多風(fēng)氫系統(tǒng)聯(lián)合運(yùn)行收益最大化為目標(biāo),多風(fēng)氫系統(tǒng)聯(lián)合優(yōu)化運(yùn)行模型可表示為
式中:G為 多風(fēng)氫系統(tǒng)聯(lián)合運(yùn)行收益;T為一天中劃分的時(shí)間斷面數(shù)量,本文取96。
作為人工智能算法的重要分支,強(qiáng)化學(xué)習(xí)通過(guò)試錯(cuò)的方法與環(huán)境進(jìn)行交互,同時(shí)不斷改進(jìn)動(dòng)作策略,可以求解復(fù)雜的優(yōu)化決策問題。強(qiáng)化學(xué)習(xí)的目的是獲得最大獎(jiǎng)賞或得出最優(yōu)策略,因此,將獎(jiǎng)賞函數(shù)設(shè)置為多風(fēng)氫系統(tǒng)收益,其形式如下所示
式中:r為獎(jiǎng)勵(lì)函數(shù),表示執(zhí)行一個(gè)動(dòng)作后智體獲得的獎(jiǎng)勵(lì)值。
為減少維數(shù)災(zāi)難對(duì)強(qiáng)化學(xué)習(xí)的影響,應(yīng)用多智體改進(jìn)強(qiáng)化學(xué)習(xí)。設(shè)多智體強(qiáng)化學(xué)習(xí)有n個(gè)決策變量,對(duì)應(yīng)n個(gè) 單智體,即決策變量k由單智體k所決策。多智體所對(duì)應(yīng)的狀態(tài)空間為S,n個(gè)單智體對(duì)應(yīng)的動(dòng)作空間分別為A1,...,An。根據(jù)多智體間需進(jìn)行信息交互的要求,設(shè)置基準(zhǔn)獎(jiǎng)勵(lì)rb作為衡量單智體動(dòng)作的優(yōu)劣,設(shè)置基準(zhǔn)動(dòng)作作為單智體決策的出發(fā)點(diǎn),可表示為
當(dāng)其他智體動(dòng)作保持不變,僅單智體k改變動(dòng)作后,獲得的獎(jiǎng)勵(lì)如下
式中:rk表示單智體k的決策獎(jiǎng)勵(lì);s∈S為當(dāng)前狀態(tài);ak∈Ak為單智體k的決策動(dòng)作。單智體k以基準(zhǔn)動(dòng)作為起點(diǎn),僅改變其決策動(dòng)作ak,以此探索在單智體k角度上的最優(yōu)動(dòng)作決策。
單智體k的Q值采用式(16)更新
在Q值的不斷迭代中,單智體k得出的最優(yōu)策略可表示為
3.2.1 狀態(tài)空間
對(duì)多風(fēng)氫系統(tǒng)聯(lián)合優(yōu)化運(yùn)行問題,本文選擇風(fēng)電出力、上網(wǎng)電價(jià)、負(fù)荷用電電價(jià)以及儲(chǔ)氫罐儲(chǔ)氫量作為狀態(tài)量。對(duì)本文的單智體而言,輸入狀態(tài)為該單智體所屬時(shí)間斷面內(nèi)的狀態(tài)量。
首先由于風(fēng)電出力不可控,對(duì)于確定時(shí)間斷面的風(fēng)電出力狀態(tài)量為一固定值,即各時(shí)間斷面下,一個(gè)風(fēng)電場(chǎng)只包含1種風(fēng)電出力狀態(tài)量。
其次,類似于風(fēng)電出力,在確定時(shí)間斷面下只包含1種上網(wǎng)電價(jià)狀態(tài)量和1種負(fù)荷用電電價(jià)狀態(tài)量。
最后,對(duì)于儲(chǔ)氫罐儲(chǔ)氫量,在本文的約束下實(shí)際只有1個(gè)運(yùn)行區(qū)間,可表示為:
區(qū)間[Smin,j,Smax,j]為儲(chǔ)氫罐正常運(yùn)行狀態(tài),只含有1種狀態(tài)量,各時(shí)間斷面下任意1個(gè)儲(chǔ)氫罐的儲(chǔ)氫狀態(tài)量都包含于上述運(yùn)行區(qū)間。
考慮到將一天劃分為T個(gè)時(shí)間斷面,則狀態(tài)空間S共包含T種狀態(tài),任意一種狀態(tài)可表示為:
根據(jù)所屬時(shí)間斷面的風(fēng)電出力、上網(wǎng)電價(jià)、負(fù)荷用電電價(jià)以及儲(chǔ)氫罐儲(chǔ)氫量,即可唯一確定狀態(tài)。
3.2.2 動(dòng)作空間
多風(fēng)氫系統(tǒng)中,多智體強(qiáng)化學(xué)習(xí)的決策變量為風(fēng)電上網(wǎng)功率、合約制氫功率以及電解槽輸入功率。依照強(qiáng)化學(xué)習(xí)的動(dòng)作要求,通過(guò)功率的上下限將功率離散化以獲取動(dòng)作空間。
考慮到風(fēng)電上網(wǎng)功率為0的情況,風(fēng)電上網(wǎng)功率動(dòng)作共包含d+1個(gè)動(dòng)作。合約制氫功率的動(dòng)作同風(fēng)電上網(wǎng)功率相同,不再贅述。
考慮到電解槽輸入功率為0的情況,電解槽輸入功率動(dòng)作共包含b+1個(gè)動(dòng)作。
根據(jù)所屬?zèng)Q策變量,單智體即可確定唯一動(dòng)作空間。
出于貪婪獲取獎(jiǎng)勵(lì)的本性,所有單智體的決策都將趨于增大獎(jiǎng)勵(lì)的方向,對(duì)結(jié)果收斂具有較強(qiáng)的引導(dǎo)性。強(qiáng)化學(xué)習(xí)的本質(zhì)是累計(jì)經(jīng)驗(yàn)的過(guò)程,該經(jīng)驗(yàn)反映獎(jiǎng)勵(lì)增長(zhǎng)的趨勢(shì)或優(yōu)異動(dòng)作策略的調(diào)整方向,多個(gè)單智體的決策就反映分層次多維度的經(jīng)驗(yàn)知識(shí)。在一次迭代中獲得多個(gè)單智體的決策經(jīng)驗(yàn)積累,強(qiáng)化學(xué)習(xí)的經(jīng)驗(yàn)知識(shí)將呈現(xiàn)多方面、大幅度的增長(zhǎng),學(xué)習(xí)速度將有效提升。
單決策更新與多決策更新的原理見附圖A1。
從圖中可知,在獨(dú)立探索階段,單智體通過(guò)試錯(cuò)得出決策進(jìn)而獲取獎(jiǎng)勵(lì),而后利用決策更新基準(zhǔn)。對(duì)單決策更新而言,最大獎(jiǎng)勵(lì)決策k被選中進(jìn)入決策驗(yàn)證。當(dāng)該決策獎(jiǎng)勵(lì)大于基準(zhǔn)獎(jiǎng)勵(lì)時(shí),決策將更新相應(yīng)單智體的基準(zhǔn)動(dòng)作以及基準(zhǔn)獎(jiǎng)勵(lì)形成新的基準(zhǔn),否則決策不被采納,保持原有的基準(zhǔn)獎(jiǎng)勵(lì)以及基準(zhǔn)動(dòng)作。此過(guò)程中,僅選擇集體最大獎(jiǎng)勵(lì)決策更新基準(zhǔn)。對(duì)多決策更新而言,在更新的過(guò)程中多個(gè)單智體的決策將得到實(shí)現(xiàn)。多決策更新按照決策獎(jiǎng)勵(lì)由大而小依次排列單智體決策,最大獎(jiǎng)勵(lì)決策首先進(jìn)入決策驗(yàn)證;其次,第二獎(jiǎng)勵(lì)決策將改變相應(yīng)單智體的基準(zhǔn)動(dòng)作進(jìn)而獲取獎(jiǎng)勵(lì),從而進(jìn)入決策驗(yàn)證。如此,依次驗(yàn)證決策,直至決策驗(yàn)證完畢。因而多決策更新將利用多個(gè)決策實(shí)現(xiàn)多個(gè)單智體基準(zhǔn)動(dòng)作的更新,基準(zhǔn)獎(jiǎng)勵(lì)也被數(shù)次擴(kuò)大,加快了獲取獎(jiǎng)勵(lì)的進(jìn)程。
在多智體強(qiáng)化學(xué)習(xí)環(huán)境下,依靠單智體在對(duì)應(yīng)動(dòng)作空間探索以獲取最優(yōu)動(dòng)作決策。單智體k的動(dòng)作選擇采用ε-greedy策略選擇動(dòng)作,方法可表示為
式中:p為一隨機(jī)數(shù)字;其取值為 0 ≤p≤1,p∈R;0<ε<1為貪婪系數(shù),表示單智體利用Q表的概率;表示單智體k隨機(jī)從可行動(dòng)作空間Ak中選擇一個(gè)動(dòng)作。
本文以附圖A3所示多風(fēng)氫系統(tǒng)為例。多風(fēng)氫系統(tǒng)包含2個(gè)風(fēng)電場(chǎng)和3個(gè)制氫加氫站,每個(gè)風(fēng)電場(chǎng)的總裝機(jī)容量為25 MW,每個(gè)制氫加氫站電解槽的總額定容量為16 MW。合約電價(jià)是衡量合約雙方能否從聯(lián)合運(yùn)行中受益的一個(gè)關(guān)鍵因素,適當(dāng)?shù)暮霞s電價(jià)可保證各利益主體的利益,但本文主要關(guān)注的是多風(fēng)氫系統(tǒng)的整體收益最大化問題,暫未考慮內(nèi)部收益的分配問題。為此,本文將風(fēng)電場(chǎng)與制氫加氫站之間的合約電價(jià)定為285元/MW·h。文獻(xiàn)[28]指出目前出現(xiàn)在市面上的氫氣價(jià)格為70~90元/kg。由于本文制取的氫氣大量使用綠色能源,制氫成本較低,為提高氫氣價(jià)格的競(jìng)爭(zhēng)力,取氫氣售價(jià)為65元/kg。多風(fēng)氫系統(tǒng)的運(yùn)行參數(shù)見附錄中的表S1。
類似傳統(tǒng)燃油汽車的需求曲線,氫氣需求百分比曲線如附圖A4所示。多風(fēng)氫系統(tǒng)配置2個(gè)風(fēng)電場(chǎng),典型日風(fēng)電出力曲線如附圖A5所示。本文的調(diào)度時(shí)間間隔為 Δt=15min,總的調(diào)度周期為一天,日氫負(fù)荷需求為4000 kg/d(每個(gè)加氫站的日消耗氫氣量)。為合理利用電力資源,多風(fēng)氫系統(tǒng)運(yùn)行將遵從峰谷電價(jià)機(jī)制,分時(shí)段電價(jià)見附錄中的表S2。
強(qiáng)化學(xué)習(xí)算法參數(shù)方面,學(xué)習(xí)因子α取0.99,獎(jiǎng)勵(lì)遞減系數(shù)γ取0.1。在狀態(tài)空間方面,在一確定時(shí)間斷面下,風(fēng)電出力含1種狀態(tài)量;上網(wǎng)電價(jià)含1種狀態(tài)量;負(fù)荷用電電價(jià)含1種狀態(tài)量;儲(chǔ)氫罐儲(chǔ)氫量含1種狀態(tài)量。本文的多風(fēng)氫系統(tǒng)具有2個(gè)風(fēng)電場(chǎng)、3個(gè)制氫加氫站,每一時(shí)間斷面包含1種輸入狀態(tài),考慮一天劃分為96個(gè)時(shí)間斷面,狀態(tài)空間S總共含有96種狀態(tài)。在動(dòng)作空間方面,例如,在一個(gè)時(shí)間斷面下,風(fēng)電場(chǎng)B的風(fēng)電出力為15MW,離散為16個(gè)固定值,風(fēng)電上網(wǎng)功率動(dòng)作為{0,1,···,15}MW。對(duì)于變量動(dòng)作的離散個(gè)數(shù)無(wú)明確的標(biāo)準(zhǔn),一般情況下可通過(guò)實(shí)驗(yàn)做相應(yīng)的調(diào)整。
本文中,所有單智體在一個(gè)基準(zhǔn)下得出最優(yōu)決策或探索完畢時(shí),即代表完成一次迭代。不同更新方法下的迭代結(jié)果如附圖A2所示,多風(fēng)氫系統(tǒng)的總收益隨著迭代次數(shù)的增加而得到改善,并最終收斂于某一值。從2種方法的收斂曲線局部放大圖可知,相比于單決策更新方法,多決策更新方法的收斂較為迅速。從數(shù)據(jù)上看,多決策更新方法第0、1、2、3次的迭代結(jié)果分別為18.16、84.50、84.66、84.66萬(wàn)元;單決策更新方法第 0、1、2、3次的迭代結(jié)果分別為 18.16、19.34、19.81、20.27萬(wàn)元。多決策更新方法在第3次迭代時(shí),就已完成收斂,這充分說(shuō)明多決策更新方法可顯著提升算法的收斂性能。
不同方法得到的最終收斂結(jié)果見表1。
表1 不同更新方法得到的結(jié)果Table 1 Results obtained by different update methods
如表1,單決策更新方法不僅收斂結(jié)果較差而且消耗的時(shí)間極為漫長(zhǎng),達(dá)到12448s之多,深陷維數(shù)災(zāi)難之中,使其失去實(shí)用價(jià)值。2種方法中多決策更新的收斂時(shí)間為473s,不及單決策更新方法的二十分之一,并且收斂結(jié)果更為優(yōu)異。
由于風(fēng)電場(chǎng)之間以及電解槽之間具有類似的出力特點(diǎn),因此以風(fēng)電場(chǎng)B和1號(hào)制氫加氫站的電解槽為例說(shuō)明優(yōu)化結(jié)果。
圖1為風(fēng)電場(chǎng)B出力分配曲線,圖2為1號(hào)制氫加氫站電解槽功率。從多風(fēng)氫系統(tǒng)功率分配的總體趨勢(shì)可知,在低電價(jià)區(qū)間,電解槽出力處于接近滿載的狀態(tài)并且吸收一定的電網(wǎng)功率以彌補(bǔ)電力缺額;在高電價(jià)區(qū)間,電解槽停止運(yùn)行,風(fēng)功率被大量出售給電網(wǎng)。從售電角度看,低電價(jià)區(qū)間段向電網(wǎng)出售風(fēng)電難以有效提升收益,將該部分的電力用以制氫卻可以提升風(fēng)電的潛在價(jià)值。
從上述結(jié)果可知,強(qiáng)化學(xué)習(xí)可充分利用風(fēng)電,有效調(diào)節(jié)出力分配,實(shí)現(xiàn)多風(fēng)氫系統(tǒng)收益的最大化,體現(xiàn)了制氫策略與售電策略的配合。
圖3為制氫加氫站儲(chǔ)氫量的變化曲線圖。在一個(gè)運(yùn)行周期結(jié)束時(shí),儲(chǔ)氫罐的儲(chǔ)氫量回落至下限值附近,有利于下一次制氫。從圖中可以看出,制氫加氫站氫氣的儲(chǔ)存量皆位于儲(chǔ)氫罐下限值之上,沒有出現(xiàn)氫氣供應(yīng)不足的情況。
若考慮任意一個(gè)制氫加氫站可向另外2個(gè)制氫加氫站提供氫氣,假定使用長(zhǎng)管拖車運(yùn)輸氫氣,平均距離在50km左右,運(yùn)輸量為250~460 kg,運(yùn)輸成本為2.5~4.7元/kg[29],本文運(yùn)輸成本取3.5元/kg。受限于長(zhǎng)管拖車灌充氫氣以及卸載氫氣都需要較長(zhǎng)的時(shí)間,在一天中可向外輸送氫氣2次,分別為36與64時(shí)刻,經(jīng)過(guò)1h的運(yùn)輸可從一個(gè)制氫加氫站到達(dá)另外一個(gè)制氫加氫站。從優(yōu)化的結(jié)果來(lái)看,所有制氫加氫站向外輸送的氫氣量皆為0。究其根本,一個(gè)原因是長(zhǎng)管拖車的運(yùn)輸時(shí)間較長(zhǎng),遠(yuǎn)地調(diào)用氫氣可能喪失氫負(fù)荷;另外一個(gè)原因是受限于運(yùn)輸成本,間接引起氫氣成本上升,導(dǎo)致售氫利潤(rùn)下降。
為探究不同因素對(duì)于多風(fēng)氫系統(tǒng)收益的影響,下面將改變不同的參數(shù)進(jìn)行相關(guān)分析。
表2、表3分別為改變氫氣售價(jià)和日氫負(fù)荷需求所得到的多風(fēng)氫系統(tǒng)收益情況,制氫成本包括購(gòu)電費(fèi)用、儲(chǔ)氫費(fèi)用以及電解槽維護(hù)費(fèi)用,其中購(gòu)電費(fèi)用為制氫加氫站向電網(wǎng)的購(gòu)電費(fèi)用與合約制氫費(fèi)用。多風(fēng)氫系統(tǒng)將所有上網(wǎng)功率出售給電網(wǎng),風(fēng)電場(chǎng)可獲收益23.96萬(wàn)元;在日氫負(fù)荷為4000 kg/d以及氫氣售價(jià)為65元/kg的情況下,并且制氫功率完全由電網(wǎng)供給的情況下,平均單位制氫成本為16.80元/kg,制氫加氫站可獲收益57.58萬(wàn)元。
表2 不同氫氣價(jià)格下的多風(fēng)氫系統(tǒng)收益情況Table 2 Revenue of multi wind-hydrogen system under different hydrogen price
從理論上而言,提高氫氣的售價(jià)并不會(huì)影響多風(fēng)氫系統(tǒng)出售電力,而表2的售電收益有微小不同,是由于強(qiáng)化學(xué)習(xí)算法具有隨機(jī)性,在動(dòng)作決策上將會(huì)出現(xiàn)一定的偏差。在降低制氫成本方面,平均單位制氫成本從16.80元下降至聯(lián)合運(yùn)行后的15.82元,有著較為可觀的降低成本作用。在風(fēng)電場(chǎng)收入方面,其收益從23.96萬(wàn)元提升至聯(lián)合運(yùn)行后25.92萬(wàn)元。制氫加氫站的收益在總收益中占比顯著,在一定程度上主導(dǎo)著多風(fēng)氫系統(tǒng)的收益。
由表3分析可知,伴隨日氫負(fù)荷需求量增大,多風(fēng)氫系統(tǒng)收益增加放緩,且聯(lián)合運(yùn)行平均單位制氫成本增加明顯,但與全電網(wǎng)電量制氫相比,依然有明顯的降低成本作用。結(jié)合圖1與圖2分析可知,隨著日氫負(fù)荷增加,電解槽不得不在用電高峰期進(jìn)行制氫以滿足氫氣需求。本文多風(fēng)氫系統(tǒng)的目標(biāo)是整體收益最大化,風(fēng)電場(chǎng)為減少多風(fēng)氫系統(tǒng)的用電成本,將減少用電高峰期向電網(wǎng)出售電力以供給制氫加氫站。因此,在日氫負(fù)荷需求量增加的情況下,多風(fēng)氫系統(tǒng)的收益雖表現(xiàn)出增長(zhǎng)的趨勢(shì),但該趨勢(shì)受限于電力資源,收益增長(zhǎng)效果減弱。
表3 不同日氫負(fù)荷需求下的多風(fēng)氫系統(tǒng)收益情況Table 3 Revenue of multi wind hydrogen system under different daily hydrogen load demand
綜上,在本文的市場(chǎng)因素背景下,氫氣售價(jià)深刻影響多風(fēng)氫系統(tǒng)收益。在日氫負(fù)荷增加的情況下,多風(fēng)氫系統(tǒng)收益受制于制氫成本,收益增長(zhǎng)放緩。從制氫的角度上來(lái)看,低廉的電力是促進(jìn)氫氣產(chǎn)業(yè)發(fā)展的關(guān)鍵因素,良好的售氫價(jià)格是維持多風(fēng)氫系統(tǒng)健康發(fā)展的重要外部環(huán)境。
1)在結(jié)合多決策更新方法的情況下,多智體強(qiáng)化學(xué)習(xí)的收斂速度得到提升,收斂時(shí)間從單決策更新的12448 s減少至473 s,在一定程度上克服了多決策變量所帶來(lái)的維數(shù)災(zāi)難,可有效求解多風(fēng)氫系統(tǒng)聯(lián)合優(yōu)化運(yùn)行問題。
2)算例仿真結(jié)果表明,在低電價(jià)區(qū)間,多風(fēng)氫系統(tǒng)大量制氫僅有少量電力出售給電網(wǎng);在高電價(jià)區(qū)間,多風(fēng)氫系統(tǒng)減少制氫而將大部分電力出售給電網(wǎng)。因此,出力分配在減少多風(fēng)氫系統(tǒng)的制氫成本和增加售電收益方面具有合理性。通過(guò)風(fēng)電場(chǎng)與制氫加氫站的聯(lián)合運(yùn)行,多風(fēng)氫系統(tǒng)僅是由于平滑上網(wǎng)的約束出現(xiàn)少量棄風(fēng);平均單位制氫成本從全電網(wǎng)功率制氫的16.80元下降至聯(lián)合運(yùn)行后的15.82元;總收益從聯(lián)合運(yùn)行前的81.54萬(wàn)元上升至聯(lián)合運(yùn)行后的84.66萬(wàn)元。因此,多風(fēng)氫系統(tǒng)聯(lián)合運(yùn)行在促進(jìn)風(fēng)電消納,減少制氫成本以及增加收益方面將產(chǎn)生積極作用。
表 S1 算例參數(shù)Table S1 Example parameters
表 S2 分時(shí)段電價(jià)Table S2 Electricity price of TOU
3)通過(guò)對(duì)影響多風(fēng)氫系統(tǒng)收益的因素分析可知,在本文的市場(chǎng)因素前提下,氫氣售價(jià)在一定程度上主導(dǎo)著總收益,良好的氫氣售價(jià)對(duì)于維持多風(fēng)氫系統(tǒng)的發(fā)展至關(guān)重要;隨著日氫負(fù)荷的增長(zhǎng),聯(lián)合運(yùn)行平均單位制氫成本從14.61元上升至17.51元,電力資源制約著多風(fēng)氫系統(tǒng)的收益。
(本刊附錄請(qǐng)見網(wǎng)絡(luò)版,印刷版略)
附錄 A