楊雪靜,李慶奎,易軍凱
(北京信息科技大學(xué) 自動(dòng)化學(xué)院,北京 100192)
近年來(lái),非線性系統(tǒng)的跟蹤問(wèn)題和最優(yōu)控制問(wèn)題作為控制理論的研究熱點(diǎn)得到研究者的廣泛關(guān)注[1]。非線性系統(tǒng)的跟蹤問(wèn)題主要有狀態(tài)跟蹤期望軌跡和輸出跟蹤期望軌跡兩種;而最優(yōu)控制就是在保證系統(tǒng)穩(wěn)定的前提下找到一個(gè)控制策略,使得所定義的性能指標(biāo)最小[2]。目前為止雖然對(duì)非線性系統(tǒng)的輸出跟蹤問(wèn)題的研究成果已有很多[3],但是對(duì)最優(yōu)追蹤軌跡的研究大多是針對(duì)仿射非線性系統(tǒng),而級(jí)聯(lián)非線性系統(tǒng)模型在控制領(lǐng)域廣泛存在,如:供應(yīng)鏈、多智能體等,研究級(jí)聯(lián)非線性系統(tǒng)的輸出以最優(yōu)方式跟蹤期望軌跡有重要意義。
對(duì)于存在不確定干擾的級(jí)聯(lián)非線性系統(tǒng)的最優(yōu)跟蹤控制,H∞控制提供了一個(gè)有力的工具減少干擾的影響[4]。根據(jù)博弈論的思想,普通H∞控制器的設(shè)計(jì)可視為控制和干擾的博弈,即控制器在最壞干擾下最小化性能指標(biāo)達(dá)到最優(yōu)控制。非線性系統(tǒng)博弈產(chǎn)生的HJI(Hamilton-Jacobi-Isaacs)方程是非線性偏微分方程,幾乎不可能直接求解。ADP(adaptive dynamic programming)技術(shù)將最優(yōu)控制、自適應(yīng)控制和強(qiáng)化學(xué)習(xí)理論融合,利用函數(shù)近似結(jié)構(gòu)估計(jì)值函數(shù),近似求解HJI方程[5];利用函數(shù)近似結(jié)構(gòu)更新值函數(shù)、控制策略和干擾策略,用神經(jīng)網(wǎng)絡(luò)形式表示為評(píng)價(jià)神經(jīng)網(wǎng)絡(luò)、控制神經(jīng)網(wǎng)絡(luò)和干擾神經(jīng)網(wǎng)絡(luò)。需要注意的是,ADP 技術(shù)普遍適用于仿射非線性系統(tǒng)[6],并不直接適用于級(jí)聯(lián)非線性系統(tǒng)。為了得到級(jí)聯(lián)非線性系統(tǒng)的最優(yōu)跟蹤控制,Zargarzadeh等[7]引入了自適應(yīng)反推技術(shù),基于狀態(tài)反饋和輸出反饋設(shè)計(jì)了沒(méi)有干擾且系統(tǒng)內(nèi)部動(dòng)態(tài)未知時(shí)非線性連續(xù)時(shí)間系統(tǒng)的控制器,使系統(tǒng)輸出以最優(yōu)方式跟蹤期望軌跡。Vamvoudakis等[8]提出了同步零和博弈策略迭代方法,即評(píng)價(jià)神經(jīng)網(wǎng)絡(luò)、控制神經(jīng)網(wǎng)絡(luò)和干擾神經(jīng)網(wǎng)絡(luò)的同時(shí)更新。本文與已有文獻(xiàn)對(duì)級(jí)聯(lián)非線性系統(tǒng)最優(yōu)跟蹤控制的研究不同,在本文中將干擾考慮在內(nèi),同步構(gòu)建了評(píng)價(jià)網(wǎng)絡(luò)、控制網(wǎng)絡(luò)和干擾網(wǎng)絡(luò),采用反推技術(shù)和同步零和博弈策略迭代結(jié)合的方法設(shè)計(jì)了級(jí)聯(lián)非線性系統(tǒng)的最優(yōu)跟蹤控制器。
考慮如下一類(lèi)帶有不確定干擾的級(jí)聯(lián)非線性系統(tǒng)
(1)
本文的控制目標(biāo)是設(shè)計(jì)一個(gè)控制器u,使系統(tǒng)輸出y以最優(yōu)方式跟蹤期望軌跡yd,并保證由式(1)給出的閉環(huán)系統(tǒng)中的所有信號(hào)有界。
利用反推方法設(shè)計(jì)前饋控制器,將級(jí)聯(lián)系統(tǒng)的跟蹤問(wèn)題轉(zhuǎn)化為仿射跟蹤誤差系統(tǒng)的最優(yōu)調(diào)節(jié)問(wèn)題。反推設(shè)計(jì)過(guò)程描述如下:
步驟1系統(tǒng)(1)誤差的一階動(dòng)態(tài)可以寫(xiě)為:
g1(x1)(x2-x2d)+k1(x1)d1=h1(e1)+f1(x1d)+
(2)
(3)
(4)
步驟i(2≤i≤n-1) 系統(tǒng)(1)誤差的i階動(dòng)態(tài)可以寫(xiě)為
(5)
(6)
(7)
步驟n系統(tǒng)(1)誤差的n階動(dòng)態(tài)可以寫(xiě)為
(8)
(9)
(10)
式(10)可寫(xiě)為
(11)
整個(gè)控制方案設(shè)計(jì)為U=Ua+U*。觀察式(11)可知,要保證閉環(huán)系統(tǒng)的穩(wěn)定性,不但要考慮前饋控制器的設(shè)計(jì),還要考慮由最優(yōu)反饋控制和干擾組成的微分博弈去鎮(zhèn)定下列仿射形式的系統(tǒng):
(12)
由最優(yōu)反饋控制和干擾組成的微分博弈旨在鎮(zhèn)定系統(tǒng)(12)且保證閉環(huán)系統(tǒng)中的所有信號(hào)有界。
系統(tǒng)(12)可由式(13)描述:
(13)
式中:
X=[x1,x2,…,xn]T
H∞控制就是找到一個(gè)控制策略使得如下性能指標(biāo):
(14)
對(duì)所有的d∈L2[0,∞)和E(0)=0都是非正的。式中:Q(E)≥0是一個(gè)罰函數(shù);R=RT>0;當(dāng)γ≥γ*≥0,有控制策略存在時(shí),就稱(chēng)系統(tǒng)具有L2增益小于等于γ,γ*是該問(wèn)題有解的最小值。
最優(yōu)反饋控制和干擾博弈的目標(biāo)是找到零和博弈的納什均衡點(diǎn)(U*,d*),在此情形下,由式(15)所示的值函數(shù)是最優(yōu)反饋控制U*所能得到的最小值以及干擾d*所能得到的最大值。
(15)
將具有相關(guān)容許控制U和干擾d的Hamiltonian 函數(shù)定義為
(16)
(17)
當(dāng)納什均衡條件式(18)成立時(shí),
(18)
兩方零和博弈有唯一解,即存在鞍點(diǎn)(U*,d*):
(19)
將式(19)代入式(16),得HJI方程為
V*(0)=0
(20)
為了得到式(19)的鞍點(diǎn)解,必須求解式(20)的HJI方程。HJI方程是一個(gè)偏微分方程,用解析法很難得到。因此,本文采用ADP方法求解。
本文采用基于ADP的策略迭代算法,在迭代過(guò)程中利用ADP使用3個(gè)神經(jīng)網(wǎng)絡(luò)(評(píng)價(jià)網(wǎng)絡(luò)、控制網(wǎng)絡(luò)和干擾網(wǎng)絡(luò))分別近似值函數(shù)、控制策略和干擾策略。應(yīng)用ADP求解HJI方程之前,引入下面的引理。
(21)
那么下面的關(guān)系成立:
(22)
假設(shè)閉環(huán)動(dòng)態(tài)系統(tǒng)以系統(tǒng)狀態(tài)函數(shù)為界:
(23)
根據(jù)Weierstrass高階近似定理,存在完全獨(dú)立的基礎(chǔ)集φi(E),使得值函數(shù)V(E)及其梯度一致近似,用神經(jīng)網(wǎng)絡(luò)表示為
(24)
(25)
式中:Wc∈L(L是神經(jīng)元數(shù))和σ(E)∈L(σ(E)=[φ1(E),φ2(E),…,φL(E)]T)分別表示評(píng)價(jià)網(wǎng)絡(luò)的理想權(quán)值和激活函數(shù);εc(E)為神經(jīng)網(wǎng)絡(luò)近似誤差。當(dāng)L→∞時(shí),εc(E)→0。
將式(25)代入式(16), Hamiltonian函數(shù)可化為
(H(E)+G(X)U+K(X)d)+εH=0
(26)
式中殘差為
(27)
將式(25)代入式(19),鞍點(diǎn)解(U*,d*)可寫(xiě)為
(28)
HJI方程為
(29)
值函數(shù)近似產(chǎn)生的殘差εHJI為
(30)
(31)
Hamiltonian函數(shù)為
(32)
(33)
(34)
權(quán)值估計(jì)誤差為
(35)
根據(jù)式(29)、式(32)和式(34),得到評(píng)價(jià)網(wǎng)絡(luò)的估計(jì)誤差動(dòng)態(tài)為
(36)
利用最小二乘法,得到式(26)的解為Wc,控制策略和干擾策略分別為
(37)
(38)
(39)
(40)
控制網(wǎng)絡(luò)估計(jì)誤差和干擾網(wǎng)絡(luò)估計(jì)誤差為
(41)
(42)
(43)
控制網(wǎng)絡(luò)的調(diào)優(yōu)律設(shè)計(jì)為
(44)
干擾網(wǎng)絡(luò)的調(diào)優(yōu)律設(shè)計(jì)為
(45)
式中:
根據(jù)定理1中設(shè)計(jì)的評(píng)價(jià)網(wǎng)絡(luò)、控制網(wǎng)絡(luò)和干擾網(wǎng)絡(luò)的調(diào)優(yōu)規(guī)律,基于Lyapunov函數(shù)證明了通過(guò)參數(shù)的調(diào)整可以保證3個(gè)神經(jīng)網(wǎng)絡(luò)權(quán)值的收斂性和閉環(huán)系統(tǒng)的穩(wěn)定性。
選擇Lyapunov函數(shù)為
(46)
對(duì)t求導(dǎo)可得
(47)
將式(11)代入,得到
(48)
將評(píng)價(jià)網(wǎng)絡(luò)的參數(shù)誤差式(35)及其調(diào)優(yōu)律式(43)和控制網(wǎng)絡(luò)的調(diào)優(yōu)律式(44)、干擾網(wǎng)絡(luò)的調(diào)優(yōu)律式(45)結(jié)合,得到
(49)
將式(49)和評(píng)價(jià)網(wǎng)絡(luò)誤差式(35)、控制網(wǎng)絡(luò)誤差式(41)及干擾網(wǎng)絡(luò)誤差式(42)代入,得到
(50)
將式(50)寫(xiě)為式(51),得到定理1中控制網(wǎng)絡(luò)和干擾網(wǎng)絡(luò)的調(diào)優(yōu)律為
(51)
注意到
(52)
將控制網(wǎng)絡(luò)調(diào)優(yōu)律式(44)、干擾網(wǎng)絡(luò)調(diào)優(yōu)律式(45)和式(52)代入式(51),得
(53)
(54)
式中:T和M分別如式(55)和式(60)所示。
(55)
選擇參數(shù)F1、F2、F3和F4使得M是正定矩陣。由式(54)可得
(56)
(57)
式中λmin(M)為M的最小特征值。
根據(jù)Young’s不等式和式(23),得到
(58)
(59)
進(jìn)而,式(59)可寫(xiě)為
(60)
(61)
或
(62)
或
(63)
為了驗(yàn)證本文所提方法的有效性及輸出跟蹤效果,利用Matlab軟件進(jìn)行了仿真研究。用于仿真的非線性系統(tǒng)模型為
(64)
在反推技術(shù)和博弈理論結(jié)合下,系統(tǒng)輸出y(t)跟蹤期望軌跡yd(t)的軌跡和跟蹤誤差y(t)-yd(t)分別如圖1和圖2所示。系統(tǒng)的控制輸入軌跡和干擾輸入軌跡分別如圖3和圖4所示。評(píng)價(jià)網(wǎng)絡(luò)權(quán)值的變化如圖5所示。
當(dāng)僅用反推方法設(shè)計(jì)非線性系統(tǒng)式(64)的控制器時(shí),系統(tǒng)輸出y(t)跟蹤期望軌跡yd(t)的軌跡和跟蹤誤差y(t)-yd(t)分別如圖6和圖7所示。系統(tǒng)的控制輸入軌跡和干擾輸入軌跡分別如圖8和圖9所示。
從圖1和圖6可以看出,在本文所提的反推技術(shù)和博弈理論結(jié)合下設(shè)計(jì)的控制器的跟蹤效果更好。從圖2和圖7可以看出,在本文所提方法下系統(tǒng)的跟蹤誤差更小。從圖8和圖9可以看出干擾不能被由反推方法設(shè)計(jì)的控制器很好地抑制,而從圖3和圖4可以看出在本文所提方法下控制和干擾相互抑制,最終使得系統(tǒng)穩(wěn)定。由此可見(jiàn),在本文所提方法下設(shè)計(jì)的控制器,在系統(tǒng)穩(wěn)定的同時(shí)系統(tǒng)輸出跟蹤期望軌跡的誤差更小,跟蹤效果更好。
對(duì)于一類(lèi)有不確定干擾的級(jí)聯(lián)非線性系統(tǒng)的輸出跟蹤控制問(wèn)題,與以往方法不同,在本文中將控制和干擾視為零和博弈的雙方,在跟蹤過(guò)程中將跟蹤軌跡的最優(yōu)性考慮在內(nèi),利用反推方法將嚴(yán)格反饋系統(tǒng)轉(zhuǎn)化成仿射非線性系統(tǒng),然后使用ADP技術(shù)實(shí)時(shí)在線同步更新評(píng)價(jià)網(wǎng)絡(luò)、控制網(wǎng)絡(luò)和干擾網(wǎng)絡(luò)的權(quán)值,得到了相應(yīng)HJI方程的納什均衡解。仿真結(jié)果證明了本文所提方法的有效性。在實(shí)際的工程領(lǐng)域中,系統(tǒng)的狀態(tài)函數(shù)不是完全可知的,將本文所提方法應(yīng)用于狀態(tài)函數(shù)未知的級(jí)聯(lián)非線性系統(tǒng)是進(jìn)一步研究的方向。