郭子杰 白偉偉 周 琪 魯仁全
不確定非線性系統(tǒng)控制問(wèn)題一直是控制領(lǐng)域內(nèi)研究的熱點(diǎn)和難點(diǎn)[1?8].以模糊邏輯系統(tǒng),神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的自適應(yīng)控制設(shè)計(jì)方法,打破了以往系統(tǒng)中非線性函數(shù)要滿足某些限定條件或參數(shù)化的限制[1],解決了不滿足匹配條件及不確定的非線性系統(tǒng)的控制器設(shè)計(jì)問(wèn)題.并廣泛應(yīng)用于純反饋和嚴(yán)格反饋的單輸入單輸出系統(tǒng)[2?3],多輸入多輸出系統(tǒng)[4?5],以及多智能體系統(tǒng)[6]中.值得注意的是,基于backstepping 技術(shù)的控制設(shè)計(jì)方法在每一步都需要對(duì)已設(shè)計(jì)的虛擬控制器進(jìn)行反復(fù)求導(dǎo),從而產(chǎn)生“計(jì)算爆炸”問(wèn)題.而動(dòng)態(tài)面控制技術(shù)通過(guò)在backstepping 設(shè)計(jì)的每一步中引入一階低通濾波器,有效地避免了這一問(wèn)題[9].在此基礎(chǔ)上,文獻(xiàn)[10]提出一種命令濾波方法,利用誤差補(bǔ)償機(jī)制消除動(dòng)態(tài)面技術(shù)中濾波誤差對(duì)系統(tǒng)性能的影響.上述工作為不確定非線性系統(tǒng)控制提供了一種簡(jiǎn)便化,結(jié)構(gòu)化的方法,但以上成果均沒(méi)有考慮最優(yōu)控制問(wèn)題.
最優(yōu)控制是一類考慮系統(tǒng)控制性能和節(jié)能效應(yīng)的控制策略[11].傳統(tǒng)的動(dòng)態(tài)規(guī)劃(Dynamic programming,DP)采用按照時(shí)間階段逆向遞推的方法有效解決了最優(yōu)控制問(wèn)題[12],但其后向求解的模式往往會(huì)導(dǎo)致“維數(shù)災(zāi)”現(xiàn)象的發(fā)生[13].自適應(yīng)動(dòng)態(tài)規(guī)劃(Adaptive dynamic programming,ADP)方法作為DP 方法的近似解法,彌補(bǔ)了DP 方法的不足,為求解復(fù)雜非線性系統(tǒng)最優(yōu)控制問(wèn)題提供了新的思路[14].Murray 等[15]首先針對(duì)連續(xù)系統(tǒng)提出了一種迭代ADP算法,并從數(shù)學(xué)上證明了該算法的可行性.Vamvoudakis 等[16]提出了基于策略迭代的在線ADP 方法,克服了迭代ADP 算法無(wú)法適應(yīng)系統(tǒng)變化的缺點(diǎn).上述的研究成果對(duì)ADP 理論的發(fā)展具有里程碑的意義.為了保證系統(tǒng)運(yùn)行時(shí)的穩(wěn)定性,文獻(xiàn)[15?16]所提出的方法要求給定一個(gè)初始穩(wěn)定的控制策略.針對(duì)此問(wèn)題,Zargarzadeh 等[17]提出一種基于單網(wǎng)絡(luò)評(píng)價(jià)技術(shù)的在線ADP 算法,并采用新的參數(shù)訓(xùn)練方法,突破了初始穩(wěn)定控制策略的限制.近年來(lái),ADP 受到國(guó)內(nèi)學(xué)者的廣泛關(guān)注[18?22],已經(jīng)成為一種重要的優(yōu)化控制方法.
目前,采用ADP 方法研究非線性系統(tǒng)的最優(yōu)控制問(wèn)題已經(jīng)取得了一系列研究成果,然而針對(duì)帶有輸入死區(qū)和指定性能約束條件的非線性系統(tǒng)所做的研究較少.事實(shí)上,死區(qū)作為一類非光滑非線性函數(shù)經(jīng)常出現(xiàn)在機(jī)械連接,液壓制動(dòng)器和傳感器等實(shí)際工程系統(tǒng)中,極大地影響系統(tǒng)的性能,甚至引起系統(tǒng)不穩(wěn)定[23].對(duì)此,文獻(xiàn)[24?25]借助死區(qū)的斜率來(lái)解決輸入死區(qū)問(wèn)題.另一方面,工程中希望控制器不僅能夠保證系統(tǒng)穩(wěn)定,而且使系統(tǒng)跟蹤誤差在一定條件下收斂.文獻(xiàn)[26]通過(guò)預(yù)先設(shè)定跟蹤性能函數(shù),提出一種指定性能方法,使得系統(tǒng)的跟蹤誤差保持在兩個(gè)指定性能函數(shù)組成的有限范圍內(nèi),解決了控制器設(shè)計(jì)參數(shù)調(diào)節(jié)難的問(wèn)題.
基于以上討論,本文針對(duì)一類考慮指定性能和具有輸入死區(qū)約束的嚴(yán)格反饋非線性系統(tǒng),提出一種自適應(yīng)模糊最優(yōu)控制方法.本文的主要工作如下:1)結(jié)合命令濾波技術(shù)和backstepping 方法設(shè)計(jì)了一種前饋控制器,與文獻(xiàn)[19,27]的方法相比,本文采用命令濾波技術(shù)不但能克服“計(jì)算爆炸”問(wèn)題,而且能補(bǔ)償濾波器誤差,取得更好的控制效果.2)設(shè)計(jì)了一種新的ADP 結(jié)構(gòu)對(duì)誤差系統(tǒng)進(jìn)行優(yōu)化,利用單網(wǎng)絡(luò)在線逼近器求解近似最優(yōu)控制器.3)本文解決了一類考慮輸入死區(qū)和指定性能約束的非線性嚴(yán)格反饋系統(tǒng)的優(yōu)化控制問(wèn)題.最后,通過(guò)實(shí)例仿真驗(yàn)證所提控制方法的有效性.
考慮一類嚴(yán)格反饋系統(tǒng):
其中,v∈R是死區(qū)輸入信號(hào),Mr和Ml表示死區(qū)的斜率,al和ar是斷點(diǎn),Mr,Ml,ar,al都是正常數(shù).
假設(shè)1[24].存在一個(gè)正常數(shù)?滿足|v|≤?.
假設(shè)2[25].給定的參考信號(hào)x1d及其一階導(dǎo)數(shù)是光滑的、已知的且有界.
死區(qū)輸入(2)可簡(jiǎn)化為
其中,ρ(t)是分段且有界的函數(shù),滿足
根據(jù)以上討論,可得
則稱系統(tǒng)的暫態(tài)性能滿足指定性能的要求.其中,δmin,δmax>0 是可調(diào)節(jié)的參數(shù),指定性能函數(shù)取為μ(t)=(μ0?μ∞)e?nt+μ∞,函數(shù)μ(t)是嚴(yán)格單調(diào)遞減的函數(shù),n>0,μ0=μ(0),μ∞=limt→∞μ(t),那么μ0>μ∞>0,而且滿足δmaxμ(0).上面不等式可以等價(jià)于以下等式
本論文的控制目的:針對(duì)一類考慮指定性能和具有輸入死區(qū)約束的非線性嚴(yán)格反饋系統(tǒng)設(shè)計(jì)一種自適應(yīng)模糊最優(yōu)控制器,保證閉環(huán)系統(tǒng)中所有信號(hào)都是一致最終有界的,誤差信號(hào)收斂到以“0”為中心的鄰域內(nèi),并且滿足指定性能要求,同時(shí)代價(jià)函數(shù)達(dá)到最小值.
引理1[19].對(duì)任意給定的精度? >0,都存在模糊邏輯系統(tǒng)wT?(Z)能逼近任意連續(xù)的非線性函數(shù)F(Z), 使得F(Z)=wT?(Z)+?(Z), 其中|?(Z)|≤?,這里F(Z)是定義在緊集 ?Z ∈Rq上的函數(shù),w是理想權(quán)重向量,定義為
引理2[19](Young's 不等式).對(duì)于任意x,y ∈Rn,有以下不等式成立:
其中,a>0,b>1,q >1且 (b?1)(q?1)=1 .
在本節(jié)中,首先結(jié)合backstepping 方法和命令濾波技術(shù),設(shè)計(jì)前饋控制器Ua.然后,采用自適應(yīng)動(dòng)態(tài)規(guī)劃方法設(shè)計(jì)出最優(yōu)反饋控制器U?.最后,整個(gè)控制輸入U(xiǎn)w=Ua+U?.
首先進(jìn)行如下坐標(biāo)變換
其中,x1d為參考信號(hào),λi是虛擬控制輸入xid通過(guò)一階命令濾波器的輸出.是前饋虛擬控制輸入,為最優(yōu)反饋虛擬控制輸入.最后一步中定義v=va+v?,va為前饋實(shí)際控制輸入,v?為最優(yōu)反饋實(shí)際控制輸入.一階命令濾波器表達(dá)式為
其中,τi是時(shí)間常數(shù).為了消除濾波器誤差λi?xid的影響,設(shè)計(jì)誤差補(bǔ)償信號(hào)ζi(2≤i ≤n?1)為
其中,ci >0是設(shè)計(jì)參數(shù),ζ(0)=0 .
定義補(bǔ)償跟蹤誤差為
結(jié)合式(5)~(11),對(duì)求導(dǎo)可得
第1步:考慮如下Lyapunov 函數(shù)
設(shè)計(jì)前饋虛擬控制器和自適應(yīng)律如下:
根據(jù)式(15)和式(16),對(duì)V1求導(dǎo)有
第i步(2≤i ≤n?1):考慮如下Lyapunov 函數(shù)
設(shè)計(jì)前饋虛擬控制器和自適應(yīng)律如下:
根據(jù)式(17)~(19),對(duì)Vi求導(dǎo)有
第n步:考慮如下Lyapunov 函數(shù)
設(shè)計(jì)前饋控制器va和自適應(yīng)律如下:
根據(jù)式(20)和式(21),對(duì)Vn求導(dǎo)有
根據(jù)Young's 不等式,對(duì)式(22)不等式右邊第2、6 項(xiàng)變換如下
將式(23)和式(24)代入式(22),可得
如前所述,系統(tǒng)(1)的控制輸入U(xiǎn)w=[x2d,...,xnd,v]T由兩部分Ua和U?構(gòu)成,前饋控制器的表達(dá)式如式(15),(17),(18),(20)所示.由式(25)可知,前饋控制器Ua不能保證整個(gè)閉環(huán)系統(tǒng)的穩(wěn)定性.因此,需要設(shè)計(jì)最優(yōu)反饋控制器使得Uw能夠保證被控系統(tǒng)(1)穩(wěn)定.
本節(jié)中,設(shè)計(jì)最優(yōu)反饋控制器U?使如下誤差仿射系統(tǒng)穩(wěn)定,并且使得代價(jià)函數(shù)達(dá)到最小.
定義系統(tǒng)(26)的代價(jià)函數(shù)為
其中,Q(Z)是半正定的罰函數(shù),R=RT>0 .
根據(jù)代價(jià)函數(shù)(27),定義哈密頓函數(shù)如下
其中,?zV(Z)是V(Z)對(duì)Z的偏導(dǎo),通過(guò)求解=0,解得最優(yōu)控制輸入
將式(29)代入式(28)可得最優(yōu)控制輸入的充分必要條件:此時(shí)哈密頓函數(shù)最小.其中,E=PGR?1GTPT,且V?(0)=0.
引理3[27].對(duì)于系統(tǒng)(26),代價(jià)函數(shù)(27),最優(yōu)控制器(29),存在徑向無(wú)界且連續(xù)可導(dǎo)的Lyapunov 函數(shù)J(Zs),J(Z),使得其中此外, Λ(Z)>0 是一個(gè)半正定函數(shù)矩陣,滿足當(dāng)∥Z∥=0,有∥Λ(Z)∥=0;當(dāng)?min≤∥Z∥≤?max,有Λmin≤∥Λ(Z)∥≤Λmax,?min,?max,Λmin,Λmax都是正常數(shù); limZ→∞Λ(Z)=∞,同時(shí)使等式Q(Z)+U?TRU?=(Z)Λ(Z)成立,其中,那么可得
根據(jù)引理1,利用模糊邏輯系統(tǒng)逼近最優(yōu)代價(jià)函數(shù),可得
其中,wc為理想的權(quán)值,?(Z)為模糊基函數(shù),ε(Z)為逼近誤差.則最優(yōu)代價(jià)函數(shù)的梯度為
將式(30)分別代入式(28),(29)可得
利用模糊邏輯系統(tǒng)對(duì)代價(jià)函數(shù)進(jìn)行估計(jì),則有
將式(34)代入式(28),得到哈密頓函數(shù)的估計(jì)為
為使 最小,利用梯度下降法設(shè)計(jì)得
根據(jù)自適應(yīng)律(16),(19),(21),引入附加項(xiàng),可得
定理1.針對(duì)一類考慮指定性能和具有輸入死區(qū)約束的嚴(yán)格反饋非線性系統(tǒng)(1),設(shè)計(jì)前饋虛擬控制器(15),(17),(18),前饋實(shí)際控制器(20),反饋?zhàn)顑?yōu)控制器(34)及自適應(yīng)律(36)和(38),通過(guò)選擇合適的參數(shù)使得閉環(huán)系統(tǒng)內(nèi)所有信號(hào)一致最終有界,跟蹤誤差以最優(yōu)的方式收斂且滿足指定性能要求.
證明.見(jiàn)附錄A.
本節(jié)將通過(guò)一類機(jī)械臂系統(tǒng)仿真驗(yàn)證所提出自適應(yīng)模糊最優(yōu)控制方法的有效性和可行性.帶有輸入死區(qū)約束的機(jī)械臂系統(tǒng)動(dòng)力學(xué)方程如下:
其中,x1,x2分別為連桿角速度和角加速度,M=1 kg為連桿總質(zhì)量,g=9.8 m/s2為重力加速度,l=1 m 為機(jī)械臂連桿的質(zhì)心距連桿的轉(zhuǎn)動(dòng)中心的距離,D=2 N·m·s/rad 為連桿轉(zhuǎn)動(dòng)的粘性摩擦系J=1 kg·m2數(shù),為連桿轉(zhuǎn)動(dòng)慣量.
參考信號(hào)x1d=sin(t).死區(qū)參數(shù)Mr=3,Ml=1,ar=1.5,al=3.模糊隸屬度函數(shù)為4,5.初始值為x1(0)=1.4 ,x2(0)=?0.2 .=[1,1,1,?1,?1]T.性能函數(shù)μ=2.5e?0.5t+0.05,δmin=0.6,δmax=0.8.設(shè)計(jì)參數(shù)為c1=10,c2=50,γ1=1,γ2=1,σ1=50 ,σ2=50 ,β1=0.01 ,β2=0.01,給定系統(tǒng)代價(jià)函數(shù)(27)中R=[0.2,0;0,0.01],其余參數(shù)初始值均為0.
圖1 參考信號(hào) x1d和輸出信號(hào)yFig.1 Reference signal x1d and output y
圖2 的軌跡和指定性能邊界曲線Fig.2 Trajectories of and performance bounds
仿真結(jié)果如圖1~4 所示,圖1 給出了參考信號(hào)x1d和系統(tǒng)輸出信號(hào)y的跟蹤軌跡,系統(tǒng)輸出y在5 s 內(nèi)跟蹤上參考信號(hào),表明本文的控制方法能使系統(tǒng)輸出具有良好的跟蹤效果.圖2 給出了跟蹤誤差的軌跡曲線,由圖中可以看出跟蹤誤差收斂于以原點(diǎn)為中心的有界鄰域內(nèi),滿足預(yù)設(shè)性能的要求,并且穩(wěn)態(tài)誤差小于0.01.圖3 給出了代價(jià)函數(shù)權(quán)值和哈密頓函數(shù)的估計(jì)值的變化曲線,表明權(quán)值信號(hào)能快速收斂到目標(biāo)權(quán)值并使得哈密頓函數(shù)趨于0.圖4 描繪了執(zhí)行器輸入信號(hào)v和執(zhí)行器輸出信號(hào)u的響應(yīng)曲線.由仿真結(jié)果可知本文提出的控制方案使得閉環(huán)系統(tǒng)內(nèi)所有信號(hào)都是有界的,保證了系統(tǒng)的穩(wěn)定性.
圖3 代價(jià)函數(shù)權(quán)值?和哈密頓函數(shù)?的軌跡(i=1,2,3,4,5)Fig.3 Thetrajectoriesof cost functions weights w?ci andHamiltonian ?(Z,?)(i=1,2,3,4,5)
圖4 執(zhí)行器輸入信號(hào) v 和執(zhí)行器輸出信號(hào)uFig.4 Trajectories of actuator input v and actuator output u
本文針對(duì)一類參數(shù)未知的嚴(yán)格反饋非線性系統(tǒng),考慮輸入死區(qū)和指定性能兩個(gè)約束條件,提出了一種自適應(yīng)模糊最優(yōu)控制方法.首先在backstepping 方法和命令濾波技術(shù)的基礎(chǔ)上,利用死區(qū)斜率信息和性能指標(biāo)函數(shù)設(shè)計(jì)了前饋控制器.進(jìn)而采用單網(wǎng)絡(luò)的ADP 方法,設(shè)計(jì)了最優(yōu)反饋控制器.最后采用Lyapunov 函數(shù)穩(wěn)定性理論證明了閉環(huán)系統(tǒng)的穩(wěn)定性.仿真結(jié)果表明了本文設(shè)計(jì)方法能夠有效解決考慮死區(qū)和指定性能的嚴(yán)格反饋系統(tǒng)的優(yōu)化控制問(wèn)題.
附錄A
選取Lyapunov 函數(shù)為