朱強
(中國石化工程建設有限公司,北京 100101)
隨著萬物互聯(lián)時代的到來,無論在工業(yè)生產(chǎn)還是在日常生活中,越來越多的硬件設備將在遠程、移動、無監(jiān)控的狀態(tài)下使用,其中尤其關鍵的是,“去中心化”的設備獨立運行模式將成為趨勢。在這樣的時代背景下,未來亟需解決多智能體系統(tǒng)的智能決策、對中心系統(tǒng)的依賴和最優(yōu)操作問題。其中,化工裝置的操作優(yōu)化就是一個典型的多智能體智能決策、最優(yōu)操作的案例[1-2]。
以化工裝置為代表的多智能體系統(tǒng)是由若干具有感知、通信、運算的單智能體組成,對于該類系統(tǒng)的智能決策和操作優(yōu)化計算,目前已有諸多成熟的算法作為支撐[3]。但是由于實際運用場景的復雜性,該系統(tǒng)的優(yōu)化計算往往涉及求解多階段、多約束的大規(guī)模非線性動態(tài)優(yōu)化問題。已有算法雖然可以保證優(yōu)化求解的局部最優(yōu)性,但由于優(yōu)化問題求解復雜度高,常常難以保證實時在線成功收斂[1]。
為了保證優(yōu)化求解的實時收斂,分布式動態(tài)優(yōu)化策略得到越來越多的關注[4]。該策略的核心思想是: 將原始大規(guī)模非線性動態(tài)優(yōu)化問題分解為若干規(guī)模較小、形式簡單的動態(tài)優(yōu)化子問題,之后通過各子問題之間的通信來保證優(yōu)化求解的全局最優(yōu)性,從而避免系統(tǒng)層優(yōu)化模型規(guī)模較大難以求解的問題。目前,從微分博弈論的角度求解分布式動態(tài)優(yōu)化問題得到學術(shù)界普遍認同[5]。從宏觀意義講,分布式動態(tài)優(yōu)化本身就是一個微分博弈,其中各子問題對應微分博弈中的參與者,最優(yōu)操作對應微分博弈中的策略,各子問題的目標函數(shù)對應博弈中的支付函數(shù)。當下,微分博弈常用的求解算法是基于梯度信息的數(shù)值優(yōu)化算法,如直接法、間接法以及直接間接混合法等[6]。其中,直接法相對間接法有以下幾點優(yōu)勢:
1)直接法無需求解微分博弈動態(tài)優(yōu)化問題的顯式一階最優(yōu)性必要條件。
2)直接法無需為微分博弈動態(tài)優(yōu)化問題受限操作與非受限操作之間的切換結(jié)構(gòu)提供足夠好的初值猜想。
3)直接法無需為微分博弈動態(tài)優(yōu)化問題的狀態(tài)變量,尤其是協(xié)態(tài)變量提供足夠好的初值猜想。
目前應用最廣的微分博弈求解直接法是聯(lián)立迭代分解正交配置法[7],其算法核心思想是: 將原始的微分博弈極大極小化動態(tài)優(yōu)化問題分解為若干個輪流交替求解的簡單動態(tài)優(yōu)化子問題。雖然該算法能夠有效求解復雜約束下的微分博弈問題,并且求解效率相比間接法有所提升,但該算法仍然存在諸多求解過程中的隱患:
1)當使用聯(lián)立迭代分解正交配置法求解微分博弈問題時,分解得到的若干動態(tài)優(yōu)化子問題在輪流交替求解過程中,優(yōu)化結(jié)果是否一定能成功收斂,目前還未給出嚴格的數(shù)學證明,即當博弈問題足夠復雜或參與者足夠多時,很可能會出現(xiàn)迭代求解震蕩發(fā)散不收斂的現(xiàn)象,從而導致求解失敗。
2)在若干個動態(tài)優(yōu)化子問題輪流交替求解過程中,需假設每個子問題均可以成功獲得自身的全局最優(yōu)解。但實際情況往往會復雜得多,很有可能出現(xiàn)某個子問題優(yōu)化結(jié)果不收斂的現(xiàn)象。同時,在求解關于某一個參與者的極大化動態(tài)優(yōu)化問題時,由于無法獲得該優(yōu)化命題目標函數(shù)的解析表達式,所以必須先對原始非線性動態(tài)優(yōu)化問題的目標函數(shù)進行線性化操作,之后使用線性化后動態(tài)優(yōu)化問題的解來近似代替原始非線性動態(tài)優(yōu)化問題真實的解。該過程可能會造成求解結(jié)果的最優(yōu)性條件無法滿足。
基于分布式動態(tài)優(yōu)化、微分博弈以及數(shù)值優(yōu)化直接法和間接法在求解微分博弈問題時存在的缺點,本文提出了基于微分博弈直接間接混合法的化工裝置數(shù)值優(yōu)化算法。首先,構(gòu)建了基于微分博弈理論的化工裝置操作優(yōu)化數(shù)學命題及其一階最優(yōu)性必要條件,為了保證大規(guī)模動態(tài)優(yōu)化問題求解實時收斂,本文針對若干博弈參與者,利用一階最優(yōu)性必要條件(間接法)對其最優(yōu)控制求解,其他參與者將上述參與者的一階最優(yōu)性必要條件作為約束,利用直接法對其最優(yōu)控制求解。然后,通過理論推導和仿真案例分析,驗證該算法的有效性。
充分考慮所研究的化工裝置操作優(yōu)化的目標函數(shù)、決策變量以及約束條件,構(gòu)建基于微分博弈理論的化工裝置操作優(yōu)化數(shù)學命題。為了便于說明后續(xù)算法細節(jié),本文以最簡單的微分博弈動態(tài)優(yōu)化模型為例,只有2個參與者,映射到化工裝置為只有2個設備單元組成。參與博弈的2個參與者P和E的控制變量分別為uP和uE,并且2個參與者的狀態(tài)變量xP和xE分別由式(1),式(2)獲得:
xP(t)=fP[xP(t),uP(t),t]
(1)
xE(t)=fE[xE(t),uE(t),t]
(2)
同時,2個參與者分別需要滿足以下初始條件:
xP(t0)=xP, 0
(3)
xE(t0)=xE, 0
(4)
博弈雙方之間的終端約束如式(5)所示:
Ψ[xP(tf),xE(tf),tf]=0
(5)
式中,t——時間;t0——微分博弈開始時間;tf——微分博弈終止時間。除此之外,還需假設P和E的控制變量分別受到邊界約束,如式(6)~式(7)所示:
uP, L≤uP≤uP, U
(6)
uE, L≤uE≤uE, U
(7)
在本文中,不再考慮路徑約束。關于目標函數(shù)形式,本文只考慮終值型目標函數(shù),并且目標函數(shù)只與2個參與者的終止狀態(tài)以及微分博弈的終止時間相關,如式(8)所示:
J(xP,xE,uP,uE,t)=φ(xP(tf),xE(tf),tf)
(8)
之后,引入微分博弈參與者P和E的反饋策略分別為γP和γE,同時,使用上述反饋策略來獲得每位參與者的控制序列分別為uP和uE。所有的控制序列均是整個微分博弈系統(tǒng)狀態(tài)變量的函數(shù),即uP=γP(t,xP,xE)以及uE=γE(t,xE,xP)。當使用γP和γE時,整個微分博弈問題的值V如果存在,則如式(9)所示:
(9)
(10)
在得到微分博弈化工裝置操作優(yōu)化數(shù)學命題后,給出了上述微分博弈操作優(yōu)化命題的一階最優(yōu)性必要條件,分別引入該優(yōu)化問題的Hamiltonian函數(shù)以及一個終端條件函數(shù),如式(11)和式(12)所示:
(11)
Φ=φ+νTΨ
(12)
式中:λP,λE——微分博弈參與者P和E的協(xié)態(tài)變量;ν——優(yōu)化命題中終端約束的拉格朗日乘子。由于Hamiltonian函數(shù)是可分離的,所以V的存在性可以保證。當使用上述Hamiltonian函數(shù)時,協(xié)態(tài)方程如式(13)~式(19)所示:
(13)
(14)
(15)
(16)
(17)
(18)
(19)
通過整合式(13)~式(19),以及原始微分博弈操作優(yōu)化命題中的模型約束式(1)~式(2)、初始條件式(3)~式(4)、終端約束式(5)、控制變量邊界約束式(6)~式(7),本文給出了原始微分博弈操作優(yōu)化命題的一階最優(yōu)性必要條件。
基于3.1節(jié)得到的原始微分博弈操作優(yōu)化命題一階最優(yōu)性必要條件,首先聯(lián)立求解式(13)、式(15)和式(17),通過間接法可以得到微分博弈參與者P的最優(yōu)控制變量序列;之后,使用直接法求解另一個微分博弈參與者E的最優(yōu)控制變量序列。通過式(17)推導出新的終端約束條件如式(20)所示,該終端約束條件不包含λE和ν:
ΨEXT(xP,xE,λP,tf)=0
(20)
接下來,需要重新構(gòu)造微分博弈參與者E的操作優(yōu)化命題,其中目標函數(shù)保持不變?nèi)匀皇莔axJ,約束條件包括模型約束式(1)~式(2)、初始條件式(3)~式(4)、控制變量邊界約束式(6)~式(7),微分博弈參與者P的一階最優(yōu)性必要條件式(13)、式(15)、式(17),以及新的終端約束條件式(20)。綜上,重新構(gòu)造的微分博弈參與者E的操作優(yōu)化命題如式(21)所示:
(21)
受限于式(1)~式(4)、式(6)、式(7)、式(13)、式(15)、式(17)、式(20),由于上述操作優(yōu)化命題已由極大極小化雙邊最優(yōu)控制問題轉(zhuǎn)變?yōu)閱芜呑顑?yōu)控制問題,所以本文可以使用傳統(tǒng)的直接法將其離散化成非線性規(guī)劃問題并求解得到另一個微分博弈參與者E的最優(yōu)控制變量序列。至此,已獲得所有微分博弈參與者的最優(yōu)控制變量序列。
為了說明上述算法求得的解與原始微分博弈問題的最優(yōu)解匹配,本文在上述優(yōu)化求解結(jié)果的基礎上,進一步通過理論證明來評價該解的性質(zhì)。本文使用間接法獲得優(yōu)化問題式(21)的一階最優(yōu)性必要條件,分別引入該優(yōu)化問題的Hamiltonian函數(shù)以及一個終端條件函數(shù)如式(22)~式(23)所示:
(22)
(23)
微分博弈參與者E的控制變量序列uE以及對應的協(xié)態(tài)變量滿足下列關系式,其中,uP是xP和λP的函數(shù):
(24)
(25)
(26)
(27)
(28)
(29)
(30)
λEXT, λP(t0)=0
(31)
(32)
其中,式(1)~式(4)、式(6)~式(7)、式(13)、式(15)、式(20)以及式(24)~式(32)組成了一個新的兩點邊值問題。為了方便討論研究兩點邊值問題,假設以下關系成立:
λEXT, λP=0
(33)
νEXT2=0
(34)
將式(34)代入式(28)、式(29),可以得到式(35)~式(36)所示關系式成立:
(35)
(36)
同時,式(24)也可以重新寫作如式(37)所示形式:
(37)
由于式(33),所以式(24)的最后一項被消掉,然后,根據(jù)式(35)和式(37),有以下關系成立:
λEXT, P=λP
(38)
將式(34)和式(38)代入式(32)有以下關系成立:
(39)
綜合上述分析結(jié)果,兩點邊值問題式(1)~式(4)、式(6)、式(7)、式(13)、式(15)、式(20)以及式(24)~式(32)變成了兩點邊值問題式(1)~式(4)、式(6)、式(7)、式(13)、式(15)、式(25)、式(27)、式(35)、式(36)、式(38)以及式(39)。通過把λEXT, E和νEXT1替換為λE和ν并且使用式(38),可以發(fā)現(xiàn)新的兩點邊值問題與原始微分博弈極大極小化操作優(yōu)化問題的一階最優(yōu)性必要條件式(1)~式(7)和式(13)~式(19)相一致。因此,得出以下結(jié)論: 使用基于微分博弈聯(lián)立直接間接混合法的化工裝置操作優(yōu)化數(shù)值計算方法求解微分博弈問題,得到的單邊最優(yōu)控制問題的兩點邊值問題解滿足原始微分博弈極大極小化操作優(yōu)化問題的一階最優(yōu)性必要條件,即本文提出的方法求解微分博弈問題得到的解可以保證是原始微分博弈問題的最優(yōu)解。
圖1 連續(xù)攪拌反應器系統(tǒng)示意
基于該CSTR系統(tǒng)的動態(tài)微分模型如式(40)~式(51)所示。
CSTR1:
(40)
(41)
(42)
(43)
式中:Hr——CSTR1液位高度;t——時間;ρ——流股密度;S——CSTR1橫截面積;qm1,qm2,qm3——閃蒸器回流流股質(zhì)量流量,CSTR1進料流股質(zhì)量流量,底部出料流股質(zhì)量流量;wA,wB——組分A和B的質(zhì)量分數(shù);k1,k2——速率系數(shù)指數(shù)因數(shù);Tr,T0,Td——CSTR1底部出料流股溫度,CSTR1進料流股溫度,閃蒸器回流流股溫度;Qr——供給反應過程中各個單元的熱量流量;Cp——比熱容。
CSTR2:
(44)
(45)
(46)
(47)
非絕熱閃蒸器:
(48)
(49)
(50)
(51)
第j個CSTR的第i個一階反應的反應速率系數(shù)可用式(52)所示Arrhenius方程獲得:
(52)
CSTR和閃蒸器底部的出料流股qmi與其對應容器的液位高度之間的關系如式(53)所示:
(53)
式中:ki——被假設為常數(shù)。同時,閃蒸器頂部出料流股qm4與閃蒸器回流流股qm1之間的關系如式(54)所示:
qm4=ξqm1
(54)
式中:ξ——分流比。在閃蒸器回流流股qm1中,各組分的質(zhì)量分數(shù)計算如式(55)~式(57)所示:
wAd=αAwAb/∑
wBd=αBwBb/∑
wCd=αCwCb/∑
(55)
∑=αAwAb+αBwBb+αCwCb
(56)
wCr=1-wAr-wBr
wCm=1-wAm-wBm
wCb=1-wAb-wBb
(57)
該CSTR系統(tǒng)的參數(shù)見表1所列,CSTR1的控制變量是qm2,Qr,狀態(tài)變量是Hr,Tr,以及wAr和wBr;CSTR2的控制變量是qm5,Qm,狀態(tài)變量是Hm,Tm,以及wAm和wBm;閃蒸器的控制變量是qm1,Qb,狀態(tài)變量是Hb,Tb,以及wAb和wBb。
表1 CSTR系統(tǒng)參數(shù)設置
基于該CSTR系統(tǒng)的動態(tài)模型,構(gòu)造操作優(yōu)化命題如下:
1)模型約束。該CSTR系統(tǒng)的動態(tài)模型約束可參照式(40)~式(57)。
2)路徑約束。對于該CSTR系統(tǒng),所有的控制變量整合在一起可以表示如式(58)所示:
u=[ur,um,ub]=
[Qr,qm2,Qm,qm5,Qb,qm1]
(58)
上述控制變量受到如式(59)約束的限制:
Qr∈[-3, -1],Qm∈[-3, -1],
Qb∈[-3, -1],qm2∈[1, 3],
qm5∈[1, 3],qm1∈[30, 35]
(59)
為了保證操作優(yōu)化問題求解的穩(wěn)定性,需要在每一個優(yōu)化時間區(qū)間t∈[kΔT, (k+N)ΔT]內(nèi)添加一個穩(wěn)定性約束,如式(60)所示:
(60)
式中:xi——單元i的狀態(tài)變量向量,xi=[Hi,wAi,wBi,Ti];下標ss——狀態(tài)變量和控制變量的穩(wěn)態(tài)數(shù)值;k——第k個采樣點。
3)邊界約束。在每一個優(yōu)化時間區(qū)間t∈[kΔT, (k+N)ΔT],ΔT為采樣周期,N為優(yōu)化時域,上述系統(tǒng)操作優(yōu)化的終態(tài)約束如式(61)所示:
(61)
4)目標函數(shù)。由于本文提出的是基于微分博弈聯(lián)立直接間接混合法的化工裝置操作優(yōu)化數(shù)值計算方法,所以要想使用微分博弈策略求解操作優(yōu)化問題,需要在原始操作優(yōu)化問題中分離出若干個博弈參與者。對于該CSTR系統(tǒng)的操作優(yōu)化問題,一般是基于該系統(tǒng)物理單元裝置的拓撲結(jié)構(gòu)或者物料能量平衡關系進行系統(tǒng)分解[10]。本文選用的方法是根據(jù)拓撲結(jié)構(gòu)將該系統(tǒng)分解為CSTR1,CSTR2以及閃蒸器3個參與者。接下來,需要為每一個參與者確定符合其自身利益的目標函數(shù)。本文從兩方面考慮該問題,即極大化系統(tǒng)期望產(chǎn)物的產(chǎn)量,同時極小化每個參與者在生產(chǎn)過程中的成本支出。生產(chǎn)過程中,該系統(tǒng)主要關心的是B的產(chǎn)量,同時成本支出受到技術(shù)水平、環(huán)境保護、市場波動等因素的影響。這些可能產(chǎn)生影響的因素在本文中均被納入考慮的范疇。綜上,各參與者的目標函數(shù)如式(62)所示(三個參與者目標函數(shù)一致):
[β(qm2wA0+qm5wA1)+
γ(Qr+Qm+Qb)]-η(Qr+Qm+Qb)-
ω1(qm2+qm5)-ω2(Qr+Qm+Qb)
(62)
式中:J——反應器系統(tǒng)的收益資金流;αqm7wBb——售賣期望產(chǎn)物B獲得的收入;βqm2wA0+γQr,βqm5wA1+γQm,γQb——CSTR1,CSTR2和閃蒸器每年的操作成本,包括進料流股的原料成本和熱量負荷成本兩部分;ηQr,ηQm,ηQb——由各單元熱量負荷產(chǎn)生的CO2排放成本;ω1qm2+ω2Qr,ω1qm5+ω2Qm,ω2Qb——各單元每年的操作成本受市場波動等外部因素影響而產(chǎn)生的成本;α,β,γ,η,ω1, ω2——每一部分收入或支出資金流的系數(shù)。CSTR系統(tǒng)操作優(yōu)化目標函數(shù)參數(shù)設置見表2所列。
表2 CSTR系統(tǒng)操作優(yōu)化目標函數(shù)參數(shù)設置
在構(gòu)造得到CSTR系統(tǒng)操作優(yōu)化命題后,需要利用3.1節(jié)所列公式,獲得微分博弈操作優(yōu)化問題的一階最優(yōu)性必要條件,再分別使用參與者CSTR1和CSTR2的一階最優(yōu)性必要條件求解各自的最優(yōu)控制變量序列(間接法)。之后,再把CSTR1和CSTR2的一階最優(yōu)性必要條件作為約束,利用直接法求解閃蒸器的最優(yōu)控制變量序列。
如何基于間接法和直接法來求解各參與者的最優(yōu)控制變量序列,則使用正交配置法先離散化操作優(yōu)化問題為非線性規(guī)劃問題,再使用IPOPT求解器依次求解非線性規(guī)劃問題,直到最終的優(yōu)化結(jié)果成功收斂為止。在具體的數(shù)值仿真求解過程中,采樣周期ΔT=1 s,優(yōu)化時域N=5,優(yōu)化求解迭代計算的誤差容限ε=0.001。
先求解CSTR系統(tǒng)操作優(yōu)化的穩(wěn)態(tài)問題,得到該系統(tǒng)狀態(tài)變量和控制變量的穩(wěn)態(tài)值,見表3所列;之后,求解CSTR系統(tǒng)操作動態(tài)優(yōu)化問題,內(nèi)部各單元的最優(yōu)控制序列如圖2所示;CSTR1,CSTR2以及閃蒸器的最優(yōu)狀態(tài)變量如圖3~圖5所示。在上述結(jié)果中,優(yōu)化求解得到的所有狀態(tài)變量均成功收斂并最終都趨于各自的穩(wěn)態(tài),整個狀態(tài)轉(zhuǎn)移過程均為光滑過渡,未出現(xiàn)上下波動的毛刺而且所有控制變量最終也都趨于穩(wěn)態(tài)。上述現(xiàn)象說明,本文提出的算法不僅可以保證成功求解反應器系統(tǒng)操作優(yōu)化問題,同時還可以保證優(yōu)化求解的穩(wěn)定性。除此之外,還通過理論證明確定了該算法得到的解與原始微分博弈操作優(yōu)化問題的真實最優(yōu)解相一致。
表3 CSTR系統(tǒng)操作優(yōu)化狀態(tài)變量和控制變量穩(wěn)態(tài)值
圖2 CSTR各單元最優(yōu)控制序列示意
圖3 CSTR1最優(yōu)狀態(tài)變量示意
圖4 CSTR2最優(yōu)狀態(tài)變量示意
圖5 閃蒸器最優(yōu)狀態(tài)變量示意
基于分布式動態(tài)優(yōu)化、微分博弈以及數(shù)值優(yōu)化直接法和間接法在求解微分博弈問題時存在的缺點,本文提出了基于微分博弈直接間接混合法的化工裝置數(shù)值優(yōu)化算法。首先,構(gòu)建了基于微分博弈理論的化工裝置操作優(yōu)化數(shù)學命題及其一階最優(yōu)性必要條件,為了保證大規(guī)模動態(tài)優(yōu)化問題求解實時收斂,針對博弈的若干參與者,利用一階最優(yōu)性必要條件(間接法)求解其最優(yōu)控制,其他參與者將上述參與者的一階最優(yōu)性必要條件作為約束,利用直接法求解其最優(yōu)控制;最后,通過理論推導和仿真案例分析,驗證了該算法的有效性。該算法有效提高了化工裝置操作優(yōu)化問題求解的實時性、收斂性、準確性和最優(yōu)性,為化工裝置經(jīng)濟效益提升提供了技術(shù)支撐。