• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于CPSS平行系統(tǒng)懶惰強(qiáng)化學(xué)習(xí)算法的實(shí)時(shí)發(fā)電調(diào)控

      2019-06-22 07:42:24殷林飛陳呂鵬余濤張孝順
      自動(dòng)化學(xué)報(bào) 2019年4期
      關(guān)鍵詞:平行框架發(fā)電

      殷林飛 陳呂鵬 余濤 張孝順

      傳統(tǒng)發(fā)電調(diào)控框架在保持多區(qū)域互聯(lián)大電網(wǎng)的系統(tǒng)有功平衡,維持系統(tǒng)頻率穩(wěn)定等方面發(fā)揮了重要作用.隨著相關(guān)研究的不斷深入,傳統(tǒng)發(fā)電調(diào)控框架逐漸發(fā)展成為存在三種不同時(shí)間尺度問(wèn)題的調(diào)控框架[1?2]:1)機(jī)組組合(Unit commitment,UC)[3?4];2)經(jīng)濟(jì)調(diào)度(Economic dispatch,ED)[5];3)自動(dòng)發(fā)電控制(Automatic generating control,AGC)和發(fā)電指令調(diào)度(Generation command dispatch,GCD)[6?9].然而,傳統(tǒng)發(fā)電調(diào)控框架在以下方面可以改善:1)在傳統(tǒng)發(fā)電調(diào)控框架中,較長(zhǎng)時(shí)間尺度下調(diào)控有可能導(dǎo)致不準(zhǔn)確控制指令的產(chǎn)生.同時(shí),不同時(shí)間尺度調(diào)控之間存在的不協(xié)調(diào)問(wèn)題有可能導(dǎo)致反向調(diào)節(jié)現(xiàn)象的產(chǎn)生.2)在傳統(tǒng)發(fā)電調(diào)控框架中,UC和ED問(wèn)題解決是以下一時(shí)間段負(fù)荷預(yù)測(cè)結(jié)果作為條件,而實(shí)時(shí)AGC和GCD卻是基于AGC機(jī)組特性所得指令.從長(zhǎng)時(shí)間尺度的角度來(lái)看,AGC和GCD做出的控制結(jié)果并不是一個(gè)最優(yōu)的控制結(jié)果.3)一般情況下,不同時(shí)間尺度下的優(yōu)化目標(biāo)均不相同.因此,無(wú)論是對(duì)長(zhǎng)期還是短期而言,僅依據(jù)這些優(yōu)化結(jié)果做出的調(diào)控指令,都不是最優(yōu)的.

      研究者為了解決傳統(tǒng)框架中存在的部分問(wèn)題,提出了大量集成算法或集成框架.文獻(xiàn)[10]提出針對(duì)微電網(wǎng)實(shí)時(shí)調(diào)度的AGC和ED集成方法.文獻(xiàn)[11]研究了考慮含有AGC仿射索引過(guò)程的魯棒經(jīng)濟(jì)調(diào)度.文獻(xiàn)[12]從優(yōu)化的角度,將ED和AGC控制器相結(jié)合.然而,這些算法均不能完整地對(duì)傳統(tǒng)發(fā)電調(diào)控框架進(jìn)行改善.

      強(qiáng)化學(xué)習(xí)(Reinforcement learning,RL),又稱再勵(lì)學(xué)習(xí)、評(píng)價(jià)學(xué)習(xí),既可看作是人工智能領(lǐng)域中一種重要的機(jī)器學(xué)習(xí)方法,也被認(rèn)為是屬于馬爾科夫決策過(guò)程(Markov decision process,MDP)和動(dòng)態(tài)優(yōu)化方法的一個(gè)獨(dú)立分支.互聯(lián)電網(wǎng)AGC是一個(gè)動(dòng)態(tài)多級(jí)決策問(wèn)題,其控制過(guò)程可視為馬爾科夫決策過(guò)程.文獻(xiàn)[13]針對(duì)微電網(wǎng)孤島運(yùn)行模式下新能源發(fā)電強(qiáng)隨機(jī)性導(dǎo)致的系統(tǒng)頻率波動(dòng),提出基于多智能體相關(guān)均衡強(qiáng)化學(xué)習(xí)(Correlated equilibrium Q(λ),CEQ(λ))的微電網(wǎng)智能發(fā)電控制方法.文獻(xiàn)[14]針對(duì)非馬爾科夫環(huán)境下火電占優(yōu)的互聯(lián)電網(wǎng)AGC控制策略,引入隨機(jī)最優(yōu)控制中Q(λ)學(xué)習(xí)的“后向估計(jì)”原理,有效解決火電機(jī)組大時(shí)滯環(huán)節(jié)帶來(lái)的延時(shí)回報(bào)問(wèn)題.然而,這些方法的采用均沒(méi)有從整體上對(duì)傳統(tǒng)發(fā)電調(diào)控框架進(jìn)行改善.

      為了完整地解決傳統(tǒng)發(fā)電調(diào)控框架中存在的問(wèn)題,本文提出一種實(shí)時(shí)經(jīng)濟(jì)調(diào)度與控制(Real-time economic generation dispatch and control,REG)框架替代傳統(tǒng)的發(fā)電控制框架.除此之外,為適應(yīng)REG框架,還提出一種懶惰強(qiáng)化學(xué)習(xí)(Lazy reinforcement learning,LRL)算法.由于懶惰強(qiáng)化學(xué)習(xí)算法是一種需要大量數(shù)據(jù)的算法,所提算法需要大量數(shù)據(jù)進(jìn)行訓(xùn)練.因此,采用基于人工社會(huì)–計(jì)算實(shí)驗(yàn)–平行執(zhí)行(Artificial societies— Computational experiments—Parallel execution,ACP)和社會(huì)系統(tǒng)的平行系統(tǒng),在短時(shí)間內(nèi)產(chǎn)生大量數(shù)據(jù)以適應(yīng)所提算法的需要.文獻(xiàn)[15]提出基于ACP的平行系統(tǒng)進(jìn)行社會(huì)計(jì)算的理論.文獻(xiàn)[16]提出一種可用于信息和控制的基于信息–物理系統(tǒng)和ACP的分散自治系統(tǒng).平行系統(tǒng)或平行時(shí)代的理論已經(jīng)被應(yīng)用到很多領(lǐng)域,例如,平行管理系統(tǒng)[17]、區(qū)塊鏈領(lǐng)域[18]、機(jī)器學(xué)習(xí)[19]和核電站安全可靠性的分析[20]等.在一個(gè)實(shí)際系統(tǒng)中,社會(huì)目標(biāo)也被考慮在CPS中,也可稱為信息物理社會(huì)融合系統(tǒng)(CPSS)[21];同時(shí),CPS的概念中應(yīng)當(dāng)加入社會(huì)系統(tǒng),即“智能電網(wǎng)”或“能源互聯(lián)網(wǎng)”[22].

      因此,基于REG框架的控制方法是一種適用于互聯(lián)大電網(wǎng)發(fā)電調(diào)度和控制的統(tǒng)一時(shí)間尺度的調(diào)控方法.

      雖然采用基于ACP和社會(huì)系統(tǒng)的平行系統(tǒng)可以快速獲取海量的數(shù)據(jù),但是這些數(shù)據(jù)中既存在調(diào)控效果較好的數(shù)據(jù),也有調(diào)控效果較差的數(shù)據(jù).為了解決這一問(wèn)題,設(shè)計(jì)了一種選擇算子對(duì)有利于LRL訓(xùn)練的數(shù)據(jù)進(jìn)行篩選保留.另外,由于AGC機(jī)組存在大量約束限制.設(shè)計(jì)了一種松弛算子對(duì)優(yōu)化結(jié)果進(jìn)行限制.

      為了對(duì)比人工神經(jīng)網(wǎng)絡(luò)(Artificial neural network,ANN)和LRL的調(diào)控效果,本文設(shè)計(jì)了一種基于人工神經(jīng)網(wǎng)絡(luò)和松弛算子結(jié)合的松弛人工神經(jīng)網(wǎng)絡(luò)算法(Relaxed artificial neural network,RANN).本文提出的LRL算法的特性歸納如下:

      1)作為一種統(tǒng)一時(shí)間尺度的控制器,從長(zhǎng)遠(yuǎn)角度來(lái)看,LRL可以避免不同時(shí)間尺度需要協(xié)同調(diào)控問(wèn)題.

      2)為L(zhǎng)RL設(shè)計(jì)了一個(gè)強(qiáng)化網(wǎng)絡(luò),可為一個(gè)區(qū)域的所有AGC機(jī)組提供多個(gè)輸出.且采用松弛機(jī)滿足AGC機(jī)組的約束.

      3)懶惰學(xué)習(xí)的控制策略可以采用從平行系統(tǒng)不斷產(chǎn)生的海量數(shù)據(jù)進(jìn)行在線更新.這有利于LRL進(jìn)行訓(xùn)練.

      1 傳統(tǒng)發(fā)電調(diào)控框架概述

      如圖1所示,傳統(tǒng)發(fā)電調(diào)控框架包含UC,ED,AGC和GCD四個(gè)過(guò)程.

      圖1 傳統(tǒng)發(fā)電調(diào)控框架Fig.1 Framework of conventional generation control

      UC負(fù)責(zé)制定長(zhǎng)期(1天)的機(jī)組開(kāi)停和有功出力計(jì)劃;然后ED重新制定短期(15分鐘)所有已開(kāi)啟的機(jī)組的發(fā)電指令;最后AGC和GCD為所有AGC機(jī)組再次重新制定實(shí)時(shí)發(fā)電指令.

      1.1 模型分析

      1.1.1 機(jī)組組合模型

      UC的目標(biāo)是在給定時(shí)間周期內(nèi)制定出最優(yōu)的機(jī)組開(kāi)停和生產(chǎn)出力計(jì)劃.因此,UC問(wèn)題是一個(gè)隨機(jī)混合0-1整數(shù)規(guī)劃問(wèn)題,可以采用優(yōu)化算法進(jìn)行求解.

      UC問(wèn)題的優(yōu)化目標(biāo)是使總發(fā)電成本最低,UC問(wèn)題的約束包括:有功平衡約束、熱備用約束、有功出力限制約束以及發(fā)電機(jī)調(diào)節(jié)比率約束,其目標(biāo)函數(shù)表達(dá)式及約束條件為

      其中,T為給定時(shí)間周期內(nèi)的時(shí)間斷面的個(gè)數(shù),一般設(shè)定為24;Ji為第i個(gè)區(qū)域內(nèi)的發(fā)電機(jī)組個(gè)數(shù);uj,t為第j個(gè)發(fā)電機(jī)組在第t時(shí)間斷面的狀態(tài),uj,t取值為1或0,分別代表機(jī)組開(kāi)啟和關(guān)停狀態(tài);總發(fā)電成本包括燃料成本Fj(Pj,t)和啟動(dòng)成本SUj,t;PDi,t為第i個(gè)區(qū)域內(nèi)在第t時(shí)間段內(nèi)的負(fù)荷需求總量;分別為在第i區(qū)域的第j個(gè)發(fā)電機(jī)組的有功出力的最小值和最大值;SRi,t為第i個(gè)區(qū)域內(nèi)在第t時(shí)間段內(nèi)所需的熱備用容量;分別為第j臺(tái)發(fā)電機(jī)組的上調(diào)和下調(diào)的最大幅度限制;為第j個(gè)發(fā)電機(jī)組的持續(xù)開(kāi)啟時(shí)間的最小值;為第j個(gè)發(fā)電機(jī)組的持續(xù)停機(jī)時(shí)間的最小值.

      燃料成本Fj(Pj,t),啟動(dòng)成本SUj,t以及約束uj,t的計(jì)算公式如下:

      其中,Pj,t為第j臺(tái)發(fā)電機(jī)組在第t個(gè)時(shí)間斷面時(shí)的有功出力;aj,bj和cj分別是發(fā)電成本的常數(shù)因子,一次項(xiàng)因子和二次項(xiàng)因子;分別為第j臺(tái)發(fā)電機(jī)組開(kāi)啟和關(guān)停的累積時(shí)間;是第j臺(tái)發(fā)電機(jī)組從完全關(guān)停狀態(tài)進(jìn)行冷啟動(dòng)所需的時(shí)間;SUH,j和SUC,j分別為第j臺(tái)發(fā)電機(jī)組進(jìn)行熱啟動(dòng)和冷啟動(dòng)所需的成本.

      1.1.2 經(jīng)濟(jì)調(diào)度模型

      ED采用優(yōu)化算法從經(jīng)濟(jì)角度重新制定發(fā)電命令.通常ED的優(yōu)化目標(biāo)包括兩部分:經(jīng)濟(jì)目標(biāo)和碳排放目標(biāo).將兩種優(yōu)化目標(biāo)進(jìn)行線性權(quán)重結(jié)合,得到最終的ED的模型如下:

      其中,PDi為第i個(gè)區(qū)域的系統(tǒng)總負(fù)荷量,ω為經(jīng)濟(jì)目標(biāo)權(quán)重.

      經(jīng)濟(jì)目標(biāo)和碳排放目標(biāo)具體表達(dá)如下:

      1.1.3 自動(dòng)發(fā)電控制模型

      圖2是傳統(tǒng)實(shí)時(shí)控制系統(tǒng)中包含兩個(gè)區(qū)域的電力系統(tǒng)AGC模型.AGC控制器的輸入為第i個(gè)區(qū)域的頻率誤差和區(qū)域控制誤差(Area control error,ACE)ei,輸出為第i個(gè)區(qū)域的發(fā)電命令.AGC模型的控制周期為秒級(jí),一般設(shè)定為4秒或8秒.

      圖2 兩區(qū)電力系統(tǒng)的AGC模型Fig.2 AGC model of two-area power system

      1.1.4 發(fā)電命令調(diào)度模型

      GCD的輸入為ACG產(chǎn)生的發(fā)電指令,輸出為第i個(gè)區(qū)域內(nèi)所有AGC機(jī)組的發(fā)電命令?Pi,j.進(jìn)而,ACG單元的實(shí)際發(fā)電指令取ED和GCD的發(fā)電指令之和,即.在實(shí)際工程中,GCD的目標(biāo)采用如式(5)所示的經(jīng)濟(jì)目標(biāo).

      1.2 傳統(tǒng)控制算法和優(yōu)化算法分析

      頻率控制包含三種調(diào)節(jié)方式:一次調(diào)頻、二次調(diào)頻以及三次調(diào)頻.一次調(diào)頻通過(guò)調(diào)節(jié)發(fā)電機(jī)組在短時(shí)間內(nèi)的有功出力,進(jìn)而調(diào)節(jié)系統(tǒng)頻率.但是,一次調(diào)頻是一種有差調(diào)節(jié)方式.為了更好地平衡發(fā)電機(jī)和負(fù)荷之間的有功功率,電力系統(tǒng)引入了二次調(diào)頻和三次調(diào)頻方式.二次調(diào)頻和三次調(diào)頻包含了多種算法的集成,即集成了UC,ED,AGC和GCD.其中,AGC采用的是控制算法,而UC,ED和GCD均為優(yōu)化算法.因此,傳統(tǒng)發(fā)電調(diào)控算法是一種“優(yōu)化算法+優(yōu)化算法+控制算法+優(yōu)化算法”的組合形式.

      大量的優(yōu)化算法被運(yùn)用到UC,ED和GCD之中.常用的優(yōu)化算法有:GA[23]、PSO[24]、模擬退火算法[25]、多元優(yōu)化算法[26]、灰狼優(yōu)化算法[27]、多目標(biāo)極值優(yōu)化算法[28]、混沌多目標(biāo)機(jī)制優(yōu)化算法[29]等.同時(shí),多種控制算法被運(yùn)用于AGC控制器中.諸如傳統(tǒng)的PID算法、模糊邏輯控制算法[30]、模糊PID[31]、滑動(dòng)模式控制器[32]、自抗擾控制器[33]分?jǐn)?shù)階 PID[34]、Q 學(xué)習(xí)[35]、Q(λ) 學(xué)習(xí)[14]和 R(λ) 學(xué)習(xí)[36]以及分布式模型預(yù)測(cè)控制算法[37]等.表1展示了頻率調(diào)節(jié)方式和傳統(tǒng)發(fā)電調(diào)控框架之間的關(guān)系.

      表1 頻率調(diào)節(jié)方式與傳統(tǒng)發(fā)電調(diào)控框架之間的關(guān)系Table 1 Relationship between regulation processes and conventional generation control framework

      在第i區(qū)域中,UC依據(jù)下一天的負(fù)荷預(yù)測(cè)值PDi,t制定發(fā)電機(jī)的啟動(dòng)狀態(tài)ui,t,j以及出力水平Pj,t.其中時(shí)間周期為一天中的每小時(shí),即t={1,2,···,24};ED 采用15分鐘后的超短期負(fù)荷預(yù)測(cè)值PDi制定有功出力值Pi,j;AGC控制器計(jì)算第i個(gè)區(qū)域的總發(fā)電需求量?Pi;GCD將總的發(fā)電量?Pi分配到每個(gè)AGC機(jī)組?Pi,j.

      2 基于ACP的懶惰強(qiáng)化學(xué)習(xí)的實(shí)時(shí)經(jīng)濟(jì)調(diào)度與控制

      2.1 懶惰強(qiáng)化學(xué)習(xí)和實(shí)時(shí)經(jīng)濟(jì)調(diào)度與控制

      為了快速獲取準(zhǔn)確的發(fā)電調(diào)度與控制動(dòng)作,本文建立了大量的平行發(fā)電控制系統(tǒng).如圖3所示,在平行發(fā)電系統(tǒng)中,多重虛擬發(fā)電控制系統(tǒng)被用來(lái)對(duì)真實(shí)發(fā)電控制系統(tǒng)不斷地進(jìn)行仿真.當(dāng)虛擬控制發(fā)電系統(tǒng)的控制效果優(yōu)于實(shí)際發(fā)電控制系統(tǒng)時(shí),它們之間會(huì)交換它們發(fā)電控制器的重要數(shù)據(jù).即虛擬發(fā)電控制系統(tǒng)將重要的控制器參數(shù)傳遞到真實(shí)發(fā)電控制系統(tǒng),而真實(shí)發(fā)電系統(tǒng)則將更新后的系統(tǒng)模型參數(shù)反饋回虛擬發(fā)電控制系統(tǒng).

      圖3 平行發(fā)電控制系統(tǒng)Fig.3 Parallel generation control systems

      由于通過(guò)平行系統(tǒng)可以獲取海量的數(shù)據(jù),如果采用傳統(tǒng)學(xué)習(xí)方法對(duì)控制算法學(xué)習(xí)進(jìn)行訓(xùn)練將花費(fèi)大量的時(shí)間.因此,需要采用一種更有效的學(xué)習(xí)算法對(duì)海量數(shù)據(jù)進(jìn)行學(xué)習(xí).本文針對(duì)平行發(fā)電控制系統(tǒng)的特點(diǎn),提出一種懶惰強(qiáng)化學(xué)習(xí)算法(LRL).如圖4所示,LRL由懶惰學(xué)習(xí)、選擇算子、強(qiáng)化網(wǎng)絡(luò)以及松弛算子四部分構(gòu)成.提出的LRL算法可以設(shè)計(jì)成為基于REG框架的控制器,可以替代傳統(tǒng)的組合算法(UC,ED,AGC和GCD).因此,基于REG框架的控制器的輸入為頻率誤差?fi和ACEei,輸出為所有AGC機(jī)組的發(fā)電命令?Pi,j.

      LRL的懶惰學(xué)習(xí)將對(duì)下一個(gè)系統(tǒng)狀態(tài)進(jìn)行預(yù)測(cè).因此,懶惰學(xué)習(xí)的輸入為頻率誤差?fi和ACEei.此外,懶惰學(xué)習(xí)可以依據(jù)電力系統(tǒng)當(dāng)前采取的動(dòng)作集A預(yù)測(cè)電力系統(tǒng)的下一狀態(tài).其中,初始動(dòng)作集合A描述如下:

      其中,A具有k列,每一列都是一個(gè)AGC機(jī)組的發(fā)電命令動(dòng)作向量.對(duì)下一狀態(tài)的預(yù)測(cè)同樣具有k列,且每一列與每一個(gè)動(dòng)作向量的預(yù)測(cè)相對(duì)應(yīng).因此,是一個(gè)依據(jù)所有k列動(dòng)作向量預(yù)測(cè)而組成的k列預(yù)測(cè)矩陣.

      采用懶惰學(xué)習(xí)方法估計(jì)未知函數(shù)的值與映射g:Rm→R類似.懶惰學(xué)習(xí)方法的輸入和輸出可以從矩陣Φ獲取,描述如下:

      其中,?i為Nlazy×k的輸入矩陣,i=1,2,···,Nlazy;yi為Nlazy×1的輸出向量.第q個(gè)查詢點(diǎn)的預(yù)測(cè)值可以由下式計(jì)算.

      其中,Z=WΦ;v=Wy.W是一個(gè)對(duì)角矩陣,Wii=ωi,其中,ωi為從查詢點(diǎn)?q到點(diǎn)?i的距離d(?i,?q)的權(quán)重函數(shù).從而,(ZTZ)β=ZTv可以作為一個(gè)局部加權(quán)回歸模型.在其訓(xùn)練過(guò)程的誤差校驗(yàn)方法可為留一法交叉校驗(yàn)(Leave-one-out cross-validation,LOOCV),計(jì)算方式為

      圖4 基于REG的LRL控制器的流程圖Fig.4 Procedures of LRL based REG controller

      其中,eCV(i)為第i個(gè)留一誤差,計(jì)算方式為

      其中,Pn為矩陣的回歸逼近;βn為n鄰近的最優(yōu)最小二乘序列參數(shù);且在中滿足1≤i≤n;βn+1的計(jì)算方法如下:

      因此,針對(duì)REG問(wèn)題,所提LRL算法中懶惰學(xué)習(xí)離線學(xué)習(xí)和在線學(xué)習(xí)的輸入和輸出可見(jiàn)表2.

      表2 懶惰強(qiáng)化學(xué)習(xí)輸入輸出量Table 2 Inputs and outputs of lazy reinforcement learning

      LRL中的強(qiáng)化網(wǎng)絡(luò)可以計(jì)算出總的發(fā)電命令?Pi,并分配?Pi,j到第i個(gè)區(qū)域里的所有AGC機(jī)組上,其中,.強(qiáng)化網(wǎng)絡(luò)由強(qiáng)化學(xué)習(xí)和一個(gè)反向傳播神經(jīng)網(wǎng)絡(luò)(Back propagation neural network,BPNN)組成.Q學(xué)習(xí)是一種無(wú)需模型的控制算法.基于Q學(xué)習(xí)的控制器可以在線根據(jù)環(huán)境變化更新其控制策略.此類控制器的輸入為狀態(tài)值和獎(jiǎng)勵(lì)值,輸出為作用于環(huán)境的動(dòng)作量.它們可以依據(jù)Q-矩陣Q和概率分布矩陣P,針對(duì)當(dāng)前的環(huán)境狀態(tài)s,制定應(yīng)當(dāng)進(jìn)行的動(dòng)作a.矩陣Q和P可以由獎(jiǎng)勵(lì)函數(shù)隨后進(jìn)行更新.

      其中,α為學(xué)習(xí)率;γ為折扣系數(shù);β為概率系數(shù);s,s'分別為當(dāng)前狀態(tài)和下一狀態(tài);R(s,s',a)為獎(jiǎng)勵(lì)函數(shù),與當(dāng)前狀態(tài)s和由動(dòng)作a導(dǎo)致的狀態(tài)有關(guān).當(dāng)前狀態(tài)s和下一狀態(tài)s'同屬于狀態(tài)集合S,即s∈S,s'∈S.被選擇的動(dòng)作a輸出動(dòng)作集合A,即a∈A.本文采用結(jié)構(gòu)簡(jiǎn)單的三層感知器BPNN,分配到多個(gè)機(jī)組的輸出的計(jì)算公式為

      BPNN訓(xùn)練算法為萊文貝格–馬夸特方法(Levenberg-Marquardt algorithm).

      LRL的松弛算子類似一個(gè)操作員對(duì)強(qiáng)化網(wǎng)絡(luò)的輸出進(jìn)行約束控制.因此,松弛算子的約束可以表達(dá)為

      2.2 離線訓(xùn)練過(guò)程

      傳統(tǒng)學(xué)習(xí)算法會(huì)對(duì)所有通過(guò)平行系統(tǒng)獲取的數(shù)據(jù)進(jìn)行學(xué)習(xí).然而,采用這些數(shù)據(jù)進(jìn)行學(xué)習(xí)不一定能夠取得比當(dāng)前真實(shí)系統(tǒng)更優(yōu)的控制效果.因此,本文提出的LRL方法,會(huì)篩選出那些更優(yōu)的數(shù)據(jù)進(jìn)行學(xué)習(xí).即,當(dāng)在t時(shí)刻的狀態(tài)st優(yōu)于時(shí)刻的狀態(tài),而劣于t+?t時(shí)刻的狀態(tài),那么算法將排除從st到的變化過(guò)程數(shù)據(jù),而將保留從st到的變化過(guò)程數(shù)據(jù)進(jìn)行離線訓(xùn)練.

      針對(duì)REG問(wèn)題,離線訓(xùn)練的輸入與輸出如表2所示.但在對(duì)比狀態(tài)時(shí),可將狀態(tài)設(shè)定為預(yù)測(cè)的區(qū)域i頻率偏差,即,也即從選擇最優(yōu)值對(duì)應(yīng)的輸入和輸出數(shù)據(jù)進(jìn)行訓(xùn)練.圖5是在平行系統(tǒng)下基于REG框架的懶惰強(qiáng)化學(xué)習(xí)的控制器運(yùn)行步驟.

      3 算例結(jié)果

      圖5 平行系統(tǒng)下基于REG控制器的LRL算法的流程圖Fig.5 Procedures of LRL based REG controller under parallel systems

      本文仿真均是在主頻為2.20GHz,內(nèi)存96GB的AMAX XR-28201GK型服務(wù)器上基于MATLAB 9.1(R2016b)平臺(tái)實(shí)現(xiàn)的.表3是仿真中采用的所有算法,其中各算法的含義見(jiàn)表4.

      表3 仿真所用的算法Table 3 Algorithms for this simulation

      表4 各對(duì)比算法的縮寫(xiě)Table 4 Abbreviation of compared algorithms

      組合算法和REG控制器的仿真時(shí)間設(shè)定為1天或86400秒.總共采用了有4608種傳統(tǒng)發(fā)電調(diào)控算法(8×8×8×9=4608種組合)和兩種基于REG框架的算法進(jìn)行仿真實(shí)驗(yàn).總的設(shè)置仿真模擬時(shí)間為12.6301年或?yàn)?8×8×8×9+2)天.所有的傳統(tǒng)發(fā)電調(diào)控算法的參數(shù)設(shè)置詳見(jiàn)附錄A.

      圖6是IEEE新英格蘭10機(jī)39節(jié)點(diǎn)標(biāo)準(zhǔn)電力系統(tǒng)結(jié)構(gòu).從圖6可以看出,仿真實(shí)驗(yàn)將該電力系統(tǒng)劃分成3個(gè)區(qū)域.該系統(tǒng)中設(shè)置10臺(tái)發(fā)電機(jī),發(fā)電機(jī){30,37,39}劃分至區(qū)域1,發(fā)電機(jī){31,32,33,34,35}劃分至區(qū)域2,剩下的發(fā)電機(jī){36,38}劃分至區(qū)域3.除此之外,光伏,風(fēng)電以及電動(dòng)汽車也被納入仿真模型之中(詳細(xì)參數(shù)見(jiàn)圖7).其中,電動(dòng)汽車負(fù)荷需求曲線為5種不同車輛用戶行為疊加而成的.各個(gè)機(jī)組參數(shù)如表5和表6所示.

      圖6 新英格蘭電力系統(tǒng)結(jié)構(gòu)圖Fig.6 Structure of New-England power system

      圖7 光伏、電動(dòng)汽車、風(fēng)電、負(fù)荷曲線Fig.7 Curves of photo-voltaic power(PV),electric vehicle(EV),wind power and load

      仿真實(shí)驗(yàn)設(shè)置發(fā)電控制的控制周期為4s.REG控制器每4s計(jì)算一次.對(duì)于傳統(tǒng)組合算法,UC每天進(jìn)行一次,ED每15分鐘優(yōu)化一次,AGC和GCD每次控制周期中計(jì)算一次.松弛人工神經(jīng)網(wǎng)絡(luò)RANN算法由人工神經(jīng)網(wǎng)絡(luò)和所提LRL算法中的松弛算子組成.LRL整體的輸入和輸出分別作為RANN算法的輸入和輸出.RANN算法的松弛算子見(jiàn)式(18)~(20).BPNN選擇的三層感知網(wǎng)絡(luò)的隱含層神經(jīng)元的個(gè)數(shù)設(shè)定為40個(gè).每個(gè)松弛人工神經(jīng)網(wǎng)絡(luò)設(shè)置有40個(gè)隱藏元.在所提LRL算法中,強(qiáng)化學(xué)習(xí)和懶惰學(xué)習(xí)的動(dòng)作集k的列數(shù)設(shè)為121,該列數(shù)一般可選范圍較大;動(dòng)作值選為從?300~300MW;其中強(qiáng)化學(xué)習(xí)的學(xué)習(xí)率的范圍為α∈(0,1],本文選為0.1;概率選擇系數(shù)β∈(0,1],本文設(shè)定為0.5;折扣系數(shù)λ∈(0,1],本文設(shè)定為0.9.其中學(xué)習(xí)率選擇的越大學(xué)習(xí)速度越快,但會(huì)導(dǎo)致精度隨之下降.

      表5 機(jī)組參數(shù)表Table 5 Parameters of the generators

      表6 機(jī)組組合問(wèn)題參數(shù)表Table 6 Parameters for unit commitment problem

      強(qiáng)化學(xué)習(xí)系列算法Q 學(xué)習(xí)、Q(λ)學(xué)習(xí)和R(λ)學(xué)習(xí)算法的離線學(xué)習(xí)是時(shí)間分別為2.27h,2.49h和2.95h;松弛人工神經(jīng)網(wǎng)絡(luò)算法的訓(xùn)練時(shí)間為15.50h;所提LRL算法的離線訓(xùn)練時(shí)間為6.60h.雖然所提LRL算法較傳統(tǒng)強(qiáng)化學(xué)習(xí)算法在離線訓(xùn)練效率方面不具有優(yōu)勢(shì),但是其具有最佳的控制效果.同時(shí),與統(tǒng)一時(shí)間尺度的松弛人工神經(jīng)網(wǎng)絡(luò)算法相比,LRL算法的離線訓(xùn)練時(shí)間較小且其控制效果更優(yōu).

      仿真結(jié)果展示在圖8~12和表7~10中.

      圖8 仿真統(tǒng)計(jì)結(jié)果Fig.8 Statistical result

      表7 UC算法仿真結(jié)果統(tǒng)計(jì)Table 7 Statistic of simulation results obtained by the UC algorithms

      表8 ED算法仿真結(jié)果統(tǒng)計(jì)Table 8 Statistic of simulation results obtained by the ED algorithms

      表9 AGC算法仿真結(jié)果統(tǒng)計(jì)Table 9 Statistic of simulation results obtained by the AGC algorithms

      表10 GCD算法仿真結(jié)果統(tǒng)計(jì)Table 10 Statistic of simulation results obtained by the GCD algorithms

      圖9 仿真統(tǒng)計(jì)結(jié)果(頻率偏差)Fig.9 Statistical result of frequency deviation

      圖10 仿真統(tǒng)計(jì)結(jié)果(區(qū)域控制誤差)Fig.10 Statistical result of area control error

      圖11 平行系統(tǒng)頻率偏差收斂曲線Fig.11 Convergence curve of frequency deviation obtained by the parallel systems

      圖12 平行系統(tǒng)區(qū)域控制誤差收斂曲線Fig.12 Convergence curve of area control error obtained by the parallel systems

      圖8是頻率偏差、區(qū)域控制誤差和仿真計(jì)算所用時(shí)間的統(tǒng)計(jì)結(jié)果,其中所提LRL算法能得到最優(yōu)的調(diào)控效果.

      圖9是各個(gè)算法頻率偏差的統(tǒng)計(jì)對(duì)比效果,其中所提LRL算法能在所有區(qū)域均獲得最小的頻率偏差.圖10是各個(gè)算法獲得的區(qū)域控制誤差的統(tǒng)計(jì)結(jié)果,可以看出,所提LRL算法不會(huì)導(dǎo)致大量犧牲某個(gè)區(qū)域的功率來(lái)滿足其他區(qū)域的功率平衡.

      圖11和圖12是利用平行系統(tǒng)仿真數(shù)據(jù)對(duì)所提LRL算法訓(xùn)練的收斂曲線圖.可以看出,經(jīng)過(guò)667次的迭代,能獲得最優(yōu)的收斂結(jié)果.

      從圖9以及表7~10可以看出,與傳統(tǒng)組合發(fā)電控制算法和松弛人工神經(jīng)網(wǎng)絡(luò)相比,本文提出的LRL方法可以保持系統(tǒng)內(nèi)的有功平衡,并且能使電網(wǎng)頻率偏差達(dá)到最低.因此,LRL能夠在多區(qū)域大規(guī)?;ヂ?lián)電網(wǎng)中取得最優(yōu)的控制效果.

      從圖8和圖10可以看出,在仿真中,由于LRL可以在最短時(shí)間內(nèi)取得最低的頻率偏差和最低的控制錯(cuò)誤率,LRL的懶惰學(xué)習(xí)可以有效地對(duì)電力系統(tǒng)的下一狀態(tài)進(jìn)行預(yù)測(cè).因此,LRL可以提供準(zhǔn)確的AGC機(jī)組動(dòng)作指令.

      在應(yīng)對(duì)多區(qū)域大規(guī)模互聯(lián)電網(wǎng)的經(jīng)濟(jì)調(diào)度和發(fā)電控制問(wèn)題時(shí),REG控制器完全可以取代傳統(tǒng)的組合算法方法.

      從圖11和圖12可以看出,由于仿真采用了平行系統(tǒng),降低了使用的真實(shí)仿真時(shí)間,由于平行系統(tǒng)進(jìn)行了迭代,加速了仿真的過(guò)程.

      4 結(jié)論

      為了解決多區(qū)域大規(guī)?;ヂ?lián)電網(wǎng)經(jīng)濟(jì)調(diào)度和發(fā)電控制中存在的協(xié)同問(wèn)題,本文提出了一種REG框架.該框架可作為一種傳統(tǒng)發(fā)電調(diào)控框架的替代.然后,為REG控制器提出了一種基于人工社會(huì)–計(jì)算實(shí)驗(yàn)–平行執(zhí)行方法的懶惰學(xué)習(xí)算法.基于REG控制器的LRL算法的特征可以總結(jié)如下:

      1)本文提出了一種統(tǒng)一時(shí)間尺度的REG控制框架,并提出一種基于REG控制器的LRL算法.可以有效地對(duì)電力系統(tǒng)的下一運(yùn)行狀態(tài)進(jìn)行預(yù)測(cè)并且輸出滿足UC問(wèn)題的約束動(dòng)作指令,取得最優(yōu)的控制效果.

      2)LRL中的強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)具有同時(shí)產(chǎn)生多個(gè)輸出的能力.因此,基于REG控制器LRL的可以不斷地為存在于多區(qū)域大規(guī)模互聯(lián)電網(wǎng)的所有AGC機(jī)組輸出發(fā)電命令.

      3)通過(guò)搭建平行系統(tǒng),使得基于LRL的REG控制器可以用于解決多區(qū)域大規(guī)?;ヂ?lián)電網(wǎng)經(jīng)濟(jì)調(diào)度和發(fā)電控制問(wèn)題.

      附錄A

      各算法重要參數(shù)設(shè)置如下:

      1)PID控制:比例系數(shù)kP=?0.006031543250198,積分系數(shù)kI=0.00043250;

      2)滑模控制器:開(kāi)通/關(guān)斷點(diǎn)kpoint=±0.1Hz,開(kāi)通/關(guān)斷輸出kv=±80MW;

      3)自抗擾控制:擴(kuò)張狀態(tài)觀測(cè)器

      4)分?jǐn)?shù)階PID控制:比例系數(shù)kP=?1,積分系數(shù)kI=0.43250,λ=1.3,μ=200;

      5)模糊邏輯控制器:X(輸入,?f)在[?0.2,0.2]Hz等間隔選取21個(gè)區(qū)間,Y(輸入,R?fdt)在[?1,1]Hz等間隔選取21個(gè)區(qū)間,Z(輸出,?P)在[?150,150]MW 等間隔選取441個(gè)區(qū)間;

      6)Q 學(xué)習(xí):動(dòng)作集A={?300,?240,?180,?120,?60,0,60,120,180,240,300},學(xué)習(xí)率α=0.1,概率分布常數(shù)β=0.5,未來(lái)獎(jiǎng)勵(lì)折扣系數(shù)γ=0.9,λ=0.9;

      7)Q(λ) 學(xué)習(xí):A={?300,?240,?180,?120,?60,0,60,120,180,240,300},α=0.1,β=0.5,γ=0.9,λ=0.9;

      8)R(λ)學(xué)習(xí):A={?300,?240,?180,?120,?60,0,60,120,180,240,300},α=0.1,β=0.5,γ=0.9,λ=0.9,R0=0;

      9)對(duì)于所有用于UC的優(yōu)化算法:進(jìn)化代數(shù)Ng=50,種群數(shù)目Ps=10;

      10)對(duì)于所有用于ED的優(yōu)化算法:進(jìn)化代數(shù)Ng=30,種群數(shù)目Ps=10;

      11)對(duì)于所有用于GCD的優(yōu)化算法:進(jìn)化代數(shù)Ng=5,種群數(shù)目Ps=10;

      猜你喜歡
      平行框架發(fā)電
      “發(fā)電”
      向量的平行與垂直
      平行
      框架
      逃離平行世界
      檸檬亦能發(fā)電?
      廣義框架的不相交性
      搖晃發(fā)電小圓球
      WTO框架下
      法大研究生(2017年1期)2017-04-10 08:55:06
      摩擦發(fā)電
      學(xué)與玩(2017年4期)2017-02-16 07:05:40
      乌拉特中旗| 保德县| 克山县| 祁东县| 英超| 景谷| 宝兴县| 建德市| 南岸区| 成都市| 昭苏县| 达拉特旗| 鹤岗市| 定西市| 昭通市| 文成县| 嵊泗县| 高淳县| 盱眙县| 金山区| 托克托县| 平安县| 岑巩县| 濮阳市| 通州市| 香港| 宁城县| 通山县| 新闻| 惠东县| 鹤岗市| 潜江市| 博野县| 兴文县| 武乡县| 都江堰市| 怀宁县| 呈贡县| 淮北市| 天气| 英山县|