劉圃秀,魏文軍,2
(1. 蘭州交通大學(xué) 自動(dòng)化與電氣工程學(xué)院,蘭州 730070;2. 蘭州交通大學(xué) 光電技術(shù)與智能控制教育部重點(diǎn)實(shí)驗(yàn)室,蘭州 730070)
近年來(lái),多智能體系統(tǒng)因其在解決大型復(fù)雜系統(tǒng)問題上表現(xiàn)出的分布性、協(xié)調(diào)性和自主性受到廣泛關(guān)注[1-3].對(duì)比昂貴且復(fù)雜的單個(gè)系統(tǒng),雖然多智能體系統(tǒng)中各智能體結(jié)構(gòu)較為簡(jiǎn)單,卻能通過相互協(xié)調(diào)解決復(fù)雜的現(xiàn)實(shí)問題,且具有更好的性能.多智能體系統(tǒng)協(xié)同控制問題研究包括編隊(duì)控制[4-5]、輸出調(diào)節(jié)問題[6-7]和一致性問題等,其中一致性問題是十分重要和經(jīng)典的問題.多智能體系統(tǒng)的一致性控制問題是指系統(tǒng)中的各個(gè)智能體通過自身對(duì)環(huán)境做出反應(yīng)并僅與相鄰智能體通信,在一致性協(xié)議的控制下,位置或速度等狀態(tài)最終都能夠達(dá)到一致.但這種一致性在一些現(xiàn)實(shí)工業(yè)場(chǎng)景,例如周期性運(yùn)行的多衛(wèi)星系統(tǒng)或生產(chǎn)線上重復(fù)作業(yè)的多機(jī)械臂系統(tǒng)的協(xié)調(diào)控制中,無(wú)法在給定時(shí)間區(qū)間內(nèi)完全跟蹤期望軌跡.
目前在周期運(yùn)動(dòng)控制中,迭代學(xué)習(xí)是效果比較好的控制算法.迭代學(xué)習(xí)控制是模仿人類“在重復(fù)中學(xué)習(xí)”的行為設(shè)計(jì)出的一種學(xué)習(xí)算法,因其結(jié)構(gòu)簡(jiǎn)單、對(duì)建模準(zhǔn)確性要求低以及魯棒性較好等特點(diǎn),在提出后受到了廣泛關(guān)注[8-9].迭代學(xué)習(xí)控制最初由日本學(xué)者Uchiyama提出[10],后由Arimoto等[11]詳盡且正式的描述為迭代學(xué)習(xí)控制(iterative learning control,ILC)理論.
近年來(lái),迭代學(xué)習(xí)控制研究取得許多成果[12-15],因其結(jié)構(gòu)簡(jiǎn)單且控制效果較好而逐步應(yīng)用于多智能體系統(tǒng)中.文獻(xiàn)[16]針對(duì)多智能體系統(tǒng)編隊(duì)問題,應(yīng)用迭代學(xué)習(xí)控制算法,在智能體間的拓?fù)潢P(guān)系存在切換的情況下實(shí)現(xiàn)了穩(wěn)定編隊(duì).文獻(xiàn)[17]提出了分布式編隊(duì)迭代學(xué)習(xí)算法,驗(yàn)證了該算法在系統(tǒng)受隨機(jī)擾動(dòng)影響下的有效性,但未考慮收斂所需迭代次數(shù)問題.文獻(xiàn)[18]針對(duì)帶有領(lǐng)導(dǎo)者的多智能體系統(tǒng)的一致性問題設(shè)計(jì)了一種迭代學(xué)習(xí)型的一致性控制律,保證跟隨者對(duì)領(lǐng)導(dǎo)者的完全跟蹤并給出了控制律的收斂條件.分析以上文獻(xiàn)可知目前研究中設(shè)計(jì)的迭代學(xué)習(xí)控制律均沒有考慮收斂所需迭代次數(shù)的問題,系統(tǒng)需要經(jīng)過多次迭代才能對(duì)領(lǐng)導(dǎo)者實(shí)現(xiàn)完全跟蹤,收斂時(shí)間長(zhǎng),不利于工程應(yīng)用.
考慮到有限時(shí)間算法已經(jīng)成功應(yīng)用到普通的多智能體系統(tǒng)一致性控制問題上,該算法可加速誤差收斂,大大縮短收斂時(shí)間[19-20],為減少多智能體系統(tǒng)對(duì)領(lǐng)導(dǎo)者實(shí)現(xiàn)完全跟蹤所需的迭代次數(shù),本文提出一種改進(jìn)的多智能體有限時(shí)間一致性迭代學(xué)習(xí)控制律,利用有限時(shí)間算法處理跟蹤誤差,提高迭代學(xué)習(xí)控制律控制下系統(tǒng)的收斂速度,使系統(tǒng)快速收斂,更有利于工程應(yīng)用.
本文考慮的多智能體系統(tǒng)由虛擬領(lǐng)導(dǎo)者和N個(gè)跟隨智能體共同構(gòu)成.設(shè)迭代次數(shù)為k,則系統(tǒng)中智能體i在第k次迭代時(shí)的動(dòng)態(tài)方程為
(1)
其中:xi,k(t)∈Rm和ui,k(t)∈Rm分別為智能體i的狀態(tài)向量和控制輸入向量,t∈[0,M].
設(shè)領(lǐng)導(dǎo)者在任意給定的時(shí)間區(qū)間t∈[0,M]內(nèi)的狀態(tài)為x0(t),則可定義系統(tǒng)中跟隨著與領(lǐng)導(dǎo)者之間的誤差為
(2)
有限時(shí)間一致性算法在解決多智能體一致性問題上可獲得更快的收斂速度.有限時(shí)間穩(wěn)定相關(guān)的引理、定理如下.
引理1[14]如果存在一個(gè)連續(xù)可微的函數(shù)V(x)∶Rn→R,使得其滿足下列條件:
1)V(x)是正定函數(shù);
為了便于分析,假設(shè)系統(tǒng)滿足如下條件:
假設(shè)1多智能體系統(tǒng)的動(dòng)態(tài)特性是可重復(fù)的,從而保證系統(tǒng)存在唯一的理想控制輸入u0(t),使系統(tǒng)獲得理想狀態(tài).
假設(shè)2對(duì)于所有的k,都有xi,k(0)=x0(0),即系統(tǒng)每次運(yùn)行初始狀態(tài)相同.
文獻(xiàn)[18]設(shè)計(jì)的第i個(gè)智能體在第k+1次迭代時(shí)的控制律為:
(3)
式中,γi是一個(gè)正增益.
為了使系統(tǒng)獲得更快的收斂速度和更好的暫態(tài)性能,在式(3)基礎(chǔ)上參考文獻(xiàn)[20]多智能體有限時(shí)間算法,設(shè)計(jì)了有限時(shí)間一致性誤差及控制律,如下所示:
(4)
其中:sig(x)σ=|x|σsgn(x),sgn(·)是符號(hào)函數(shù);γi為學(xué)習(xí)增益;β1,β2為兩個(gè)待定參數(shù);0<σ<1;ai0為智能體和領(lǐng)導(dǎo)者間的加權(quán).
為了便于收斂性分析,令:
(5)
寫出式(2)系統(tǒng)的緊湊形式如下:
(6)
(7)
其中:Γ=diag(γ1,γ2,…,γn);?為克羅內(nèi)克積.
定義2給定向量函數(shù)h∶[0,T]→Rn,其無(wú)窮范數(shù)定義為
引理3[21]對(duì)無(wú)向圖G,若存在函數(shù)Ψ∶R2→R,且對(duì)?i,j∈{1,2,…,n},i≠j滿足Ψ(xi,xj)=-Ψ(xj,xi),則有一組數(shù)列滿足
(xj,xi).
引理4[22]用L(A)=(lij)∈Rn×n代表無(wú)向圖G的Laplacian矩陣,性質(zhì)如下:
2) 若拓?fù)鋱DG連通,則L(A)半正定且圖的代數(shù)連通度為
0=λ1(L)<λ2(L)<…<λN(L).
3) 若無(wú)向圖G是連通的,則對(duì)于bi≥0,?i∈{1,2,…,n},b≠0,矩陣L(A)+diag(b1,b2,…,bn)正定.
證明令
(8)
聯(lián)合式(4)、(8)可以得到
(9)
(10)
由引理3可知,
(11)
由引理5可知,式(11)可以表示為
(12)
假設(shè)M=L(A)+diag(a10,a20,…,an0),并且由引理4中L(A)的特征值條件可以得到
(13)
將式(13)代入式(12),可以得到
(14)
由引理1可知所設(shè)計(jì)的控制律滿足以下條件:
(15)
定理2給定由式(1)和(4)描述的有限時(shí)間迭代學(xué)習(xí)控制系統(tǒng),若滿足條件
ρ(I-β2(HΓ)?Im)=τ<1,
(16)
證明由式(4)得k+1次迭代時(shí)的跟蹤誤差為
(17)
則相鄰兩次迭代誤差的差可表示為
δk+1(t)-δk(t)=xk+1(t)-xk(t)=(Γ?Im)ek(t).
(18)
將式(18)代入式(17)可得
ek+1(t)=(I-β2(HΓ)?Im)ek(t)-β1((L+S)?Im)sig((Γ?Im)ek(t))σ.
(19)
‖ek+1(t)‖∞≤‖I-β2(HΓ)?Im‖‖ek(t)‖∞+
‖β1((L+S)?Im)‖‖sig((Γ?Im)ek(t))σ‖<‖I-β2(HΓ)?Im‖‖ek(t)‖∞.
(20)
在Matlab軟件中對(duì)系統(tǒng)進(jìn)行仿真,考慮文獻(xiàn)[18]所提的迭代學(xué)習(xí)多智能體系統(tǒng)由三個(gè)跟隨者和一個(gè)虛擬領(lǐng)導(dǎo)者系統(tǒng)組成,其中第i個(gè)智能體的動(dòng)態(tài)方程如下:
智能體間的信息交流用通訊拓?fù)鋱D表示,其中0表示領(lǐng)導(dǎo)者,如圖1所示.
由圖論知識(shí)可知,S=diag(0,0,0.5),鄰接矩陣為
則Laplacian矩陣為
圖1 智能體的通信拓?fù)鋱DFig.1 Communication topology of agents
圖6和圖7為系統(tǒng)分別在控制律(3)[18]和改進(jìn)后的控制律(4)的作用下的最大跟蹤誤差收斂圖.通過對(duì)比圖6和圖7可知,在本文所設(shè)計(jì)的有限時(shí)間一致性迭代學(xué)習(xí)控制律作用下,系統(tǒng)的跟蹤誤差收斂至零所需的迭代次數(shù)由40次減少為16次.通過對(duì)比可知,所需迭代次數(shù)減少60%左右,收斂速度大幅提升.
圖2 迭代5次時(shí)各智能體的狀態(tài)曲線Fig.2 Curve state of each agent with iteration k=5
圖3 迭代5次時(shí)各智能體的狀態(tài)曲線Fig.3 Curve state of each agent with iteration k=5
圖4 迭代20次時(shí)各智能體的狀態(tài)曲線Fig.4 Curve state of each agent with iteration k=20
圖5 迭代20次時(shí)各智能體的狀態(tài)曲線Fig.5 Curve state of each agent with iteration k=20
圖6 控制律式(3)下的最大跟蹤誤差Fig.6 Maximum track error with control law (3)
圖7 控制律式(4)下的最大跟蹤誤差Fig.7 Maximum track error with control law (4)
本文針對(duì)多智能體系統(tǒng)迭代學(xué)習(xí)一致性問題,通過有限時(shí)間算法對(duì)迭代學(xué)習(xí)控制律進(jìn)行改進(jìn).對(duì)于有重復(fù)運(yùn)動(dòng)性質(zhì)的多智能體系統(tǒng),改進(jìn)后的有限時(shí)間迭代學(xué)習(xí)控制律與改進(jìn)前相比,在給定的重復(fù)區(qū)間內(nèi),系統(tǒng)在完全跟蹤期望狀態(tài)的基礎(chǔ)上,跟蹤誤差的收斂速度更快,整個(gè)系統(tǒng)的跟隨者完全跟蹤到期望狀態(tài)所需的迭代次數(shù)明顯減少.