陳引娟,寧小剛,魏永東,李宗剛
(蘭州交通大學機電工程學院,甘肅蘭州 730070;蘭州交通大學機器人研究所,甘肅蘭州 730070)
近年來,隨著計算機網絡、人工智能、控制工程、系統(tǒng)科學等領域的相互交叉滲透,多智能體系統(tǒng)(multi-agent systems,MASs)已成為當前控制學科領域的研究熱點.在MASs的諸多研究范疇中,尤以MASs協(xié)同控制方面研究廣泛,涉及群集控制、編隊控制和一致性控制等,已取得了豐碩的成果[1-5].
在MASs協(xié)同控制的研究中,由于迭代學習控制方法(iterative learning control,ILC)能夠充分利用過去的控制經驗來改善系統(tǒng)的控制性能,并可以在給定時間區(qū)間內快速地跟蹤期望的軌跡,因此常被用來解決MASs一致性問題[6-9].文獻[10]從二維系統(tǒng)的角度(以時間步長和迭代次數(shù)為自變量)構建了兩類分布式ILC協(xié)議,解決了MASs有限時間輸出一致性問題.文獻[11]在可重復運行環(huán)境下,基于有向固定通信拓撲結構,應用ILC方法對MASs進行了一致性跟蹤研究.文獻[12]基于沿有限時間軸和無限迭代軸兩個方向雙變化的切換拓撲結構,利用個體智能體所能獲得的最近鄰居信息設計了分布式ILC算法,實現(xiàn)了MASs以指數(shù)速度形成期望編隊.文獻[13]研究了MASs在切換拓撲和時變通信時延下的高精度一致性跟蹤問題,通過利用ILC方法設計了分布式一致性跟蹤算法,精確地實現(xiàn)了所有智能體在有限時間間隔內的輸出一致性.值得注意的是,在上述文獻中,所有個體智能體都能獲得其鄰居和自身之間傳輸?shù)娜啃畔?這顯然屬于理想情形,在實際系統(tǒng)應用中通常很難滿足.比較常見的一種情形是: 由于傳感器測量范圍有限,使得智能體接收或發(fā)送信息時可能出現(xiàn)飽和,這一問題無疑對MASs能否達成一致性帶來了挑戰(zhàn).針對具有測量受限的MASs一致性研究已取得了一些成果.文獻[14]針對具有輸出飽和的非線性MASs的一致性跟蹤問題,提出了一種分布式ILC算法,實現(xiàn)了跟隨者對期望軌跡的完美跟蹤.文獻[15]研究了具有輸入飽和的不確定非線性MASs的領導-跟隨一致性協(xié)調控制問題,設計了一種完全分布式自適應ILC協(xié)議,實現(xiàn)了有限時間內的全局一致性跟蹤.文獻[16]針對具有隨機噪聲和測量范圍限制的MASs的一致性跟蹤問題,通過利用先前迭代的最近鄰居測量信息,為個體智能體設計了一種分布式ILC算法,實現(xiàn)了系統(tǒng)在固定拓撲和沿時間軸動態(tài)變化的切換拓撲下的一致性收斂.文獻[17]針對測量受限線性MASs的通信拓撲同時沿有限時間軸和無限迭代軸切換的情況,設計了基于ILC方法的分布式輸出一致性協(xié)議,解決了測量受限MASs一致性跟蹤控制問題,且給出了可解一致性問題的充分性條件.文獻[18]針對一類非線性重復MASs,利用不完全通信數(shù)據(jù)設計了一種新的分布式ILC算法,并提出了系統(tǒng)收斂的充分條件,達成了多智能體在飽和約束、數(shù)據(jù)丟失和切換拓撲下的一致性跟蹤.然而,需要指出的是,文獻[14,16-18]所研究的MASs都有一個共同點,其通信拓撲在切換過程中始終含有以虛擬領導者為根頂點的生成樹,這個條件相對比較苛刻.因此在MASs通信拓撲不能時刻具有以虛擬領導者為根頂點的生成樹的情況下,如何實現(xiàn)基于切換拓撲的輸出測量受限MASs一致性成為該領域亟需解決的一個重要問題.
基于以上分析,本文在文獻[17]的基礎上,針對通信拓撲同時沿有限時間軸和無限迭代軸切換的測量受限線性MASs的輸出一致性跟蹤問題繼續(xù)展開了深入的研究.與文獻[17]中的系統(tǒng)通信拓撲相比,本文對MASs通信條件進行了放松,要求系統(tǒng)通信拓撲至少含有一個沿迭代軸的聯(lián)合生成樹,這就解決了在實際應用中,由于網絡通信條件的復雜多變,MASs通信拓撲很難時時刻刻都滿足以虛擬領導者為根頂點的生成樹的情況.當然,傳感器的測量范圍有限,通信拓撲沿時間軸和迭代軸的雙變化以及通信拓撲至少含有一個沿迭代軸的聯(lián)合生成樹,這些都為MASs達成一致性增加了困難.
本文的主要貢獻有以下3點: 1)針對測量受限線性MASs的通信拓撲同時沿有限時間軸和無限迭代軸切換的情況,利用跟隨者所能獲得的局部信息設計了分布式輸出一致性ILC算法;2)設計的分布式ILC算法恰好能通過迭代方式實現(xiàn)對切換拓撲的有效聯(lián)合,可以保證系統(tǒng)通信拓撲有一個沿迭代軸的聯(lián)合生成樹的要求;3)對MASs通信條件進行了放松,解決了由于實際網絡通信環(huán)境的復雜多變,MASs通信拓撲很難時時刻刻都滿足以虛擬領導者為根頂點的生成樹的情況下的系統(tǒng)一致性收斂問題.
MASs中個體之間的通信拓撲用有向圖表示,記為G=(V,E,A),V={v1,v2,···,vN}為頂點集合,N為智能體的個數(shù),N∈N+,E ?V×V為邊集,A=[aij]∈RN×N為鄰接矩陣,aii=0.當(vj,vi)∈E時,表明智能體vi可以獲得智能體vj的信息,此時aij>0,否則aij=0.Ni={vl ∈V|(vl,vi)∈E}表示智能體vi的鄰居集.圖G的度矩陣表示為D=diag{d1,d2,···,dN},其中圖G的Laplacian矩陣定義為L=D-A.如果圖G中存在一個特殊的頂點vi,其有通向圖中所有其他頂點的路徑,則認為圖G含有生成樹,這個特殊頂點被稱為根頂點.此外,I表示單位矩陣,diag{·}表示對角矩陣,“?”表示矩陣的Kronecker積,?N={1,2,···,N},N+={1,2,···},1N=[1 1··· 1]T.
下面考慮由N個跟隨者和1個虛擬領導者組成的MASs,其跟隨者vi的動力學方程為
其中:i ∈?N,k∈N+為迭代次數(shù);t∈[T1,T2](0 ≤T1 MASs中的虛擬領導者用v0表示,其動力學方程形如(1)式,系統(tǒng)矩陣A(t),B(t),C(t),D(t)保持不變,相應的期望輸入、期望狀態(tài)和期望輸出分別為ud(t),xd(t)和yd(t).考慮MASs中只有部分跟隨者能夠直接獲取虛擬領導者的信息,這里用hi,k(t)表示在t時刻第k次迭代時的跟隨者vi和虛擬領導者v0之間的連接關系.當vi可以直接得到v0的信息時,取hi,k(t)=1,否則hi,k(t)=0.定義Hk(t)=diag{h1,k(t),h2,k(t),···,hN,k(t)},hk(t)=[h1,k(t)h2,k(t)···hN,k(t)]T為t時刻第k次迭代時所有跟隨者與虛擬領導者的關系矩陣. 考慮跟隨者存在輸出測量受限,可設r0>0為一給定常數(shù),跟隨者傳感器的量程為[-r0,r0],虛擬領導者輸出yd(t)的元滿足此時,跟隨者vi與鄰居之間的通信方式如圖1所示. 圖1 跟隨者vi通信方式Fig.1 Communication mechanism of follower vi 定義跟隨者vi的跟蹤誤差為 則所求解一致性問題可以轉化為設計一個分布式控制律ui,k(t),使得對MASs中的每一個跟隨者,均有 成立.為此,在設計基于ILC的控制律之前,先給出關于系統(tǒng)的兩個假設和需要的3個引理. 假設1對由式(1)給出的輸出測量受限MASs,每次迭代時所有智能體的初態(tài)均能重置,即有xi,k(T1)=xi(T1)=xd(T1)成立. 注1對于具有重復運行性質的系統(tǒng),在ILC中,初態(tài)重置假設是個基本條件,它是軌跡能夠完美跟蹤期望的保證[9].該方法引入MASs 領域后,初態(tài)重置的條件也普遍存在[4,11-12,14]. 假設2對于所考慮的具有虛擬領導者的MASs,其通信拓撲為(t).各智能體間所有可能的通信拓撲集合為,k∈N+.假設存在一個常量s∈N+,使得對于任意t∈[T1,T2],v∈N+,拓撲圖,即 λ>0且可任意取值. 為實現(xiàn)控制目標(4),針對跟隨者個體設計基于ILC的控制律為 跟隨者的控制律(5)寫成緊湊形式為 定理1考慮由式(1)給出的具有虛擬領導者的輸出測量受限MASs,若跟隨者每次迭代初態(tài)滿足假設1,系統(tǒng)通信拓撲滿足假設2,跟隨者個體基于ILC的控制律由式(5)給出.那么,如果學習增益γk(t)滿足不等式 其中Γξ(t)=(Lξ(t)+Hξ(t))?(D(t)γξ(t)),則隨著迭代次數(shù)k的不斷增加,系統(tǒng)所有跟隨者的輸出均收斂到虛擬領導者的輸出,即式(4)成立. 證由跟蹤誤差的定義可得 通過式(8),由遞推有 對式(10)兩端取范數(shù)可得 此外,由式(1)可得 由假設1,并對式(12)兩端取范數(shù)可得 將式(14)代入式(13)可得 根據(jù)引理2,式(15)可進一步寫為 給式(16)兩端同乘e-λt可得 根據(jù)定義1可知,λ可任意取值,故當λ取值充分大時,式(18)不等號右邊的項取值將接近于無窮小,則‖?k(t)‖λ可忽略不計.故對式(11)來說,不等號右邊除第1項外的其他所有項可忽略不計.因此,當時,對于所考慮的MASs(1),隨著迭代次數(shù)k的不斷增加,ek(t)將不斷地趨于0,即實現(xiàn)目標(4).證畢. 需要指出的是,在根據(jù)定理1的條件實時求解迭代學習增益γk(t)時始終需要獲得σk(t)信息,由于該信息是全局的,因而導致系統(tǒng)很難在切換拓撲情形下實現(xiàn)分布式控制.此外,條件(7)中的連乘形式也為設計學習增益帶來不小的困難.為此,通過限定迭代學習增益γk(t)的形式,給出一個可分布式實現(xiàn)的結果. 定理2考慮由式(1)給出的具有虛擬領導者的輸出測量受限MASs,若跟隨者每次迭代初態(tài)滿足假設1,系統(tǒng)通信拓撲滿足假設2,跟隨者個體基于ILC的控制律由式(5)給出.當設計γk(t)使得D(t)γk(t)=?k(t)Im成立,且?k(t)滿足 證由假設2和引理1可知 則有 對于某個跟隨者vi,由式(8)可有 類似于式(8)到式(11),有 由式(12)可以得出 對第k次迭代的每個時刻t,ej,k(t)和ei,k(t)之間有某合適的倍數(shù)關系,即存在某合適的數(shù)值?ij,k(t)使得ej,k(t)=?ij,k(t)ei,k(t).則有 對式(28)不等號兩邊同乘e-λt有 綜上可知,‖ei,k+s(·)‖λ將隨著迭代次數(shù)k的增加而不斷減小.如果跟隨者vi除了v0之外沒有鄰居,ei,k(t)將直接降為0;如果跟隨者vi至少有一個如vj,j ∈Ni的鄰居,ei,k(t)將不會直接降為0.由于對‖ej,k+s(·)‖λ而言,也有形如式(25)的存在,則‖ej,k+s(·)‖λ也將隨著迭代次數(shù)k的增加而不斷減小,這將促使ei進一步減小.同理,el,l ∈Nj將促使ej進一步減小,進而使ei更進一步趨于減小.所以,在這個迭代過程中,每個跟隨者的跟蹤誤差e之間都會相互影響,并逐漸降為0.這意味著所考慮MASs(1)中所有跟隨者的輸出將收斂于虛擬領導者的輸出,即式(4)最終成立.證畢. 注2當MASs每經過s次切換的聯(lián)合拓撲圖具有相同結構,即矩陣(t)+(t)固定不變時,根據(jù)定理2中的條件(19)求得的參數(shù)?k(t)為一常數(shù).也就是說,在系統(tǒng)運行前即可根據(jù)?k(t)獲得學習增益γk(t),因此定理2所給出的條件在這種情形下是分布式的. 注3當MASs每經過s次切換的聯(lián)合拓撲圖具有不同結構,即矩陣(t)+(t)不斷變化時,此時根據(jù)條件(19)所確定的?k(t)也是時變的,因此無法實現(xiàn)分布式計算.但經過分析表明,如果將系統(tǒng)每經過s次切換的聯(lián)合拓撲圖視為完全圖時,根據(jù)條件(19)所求得的?k(t)為區(qū)間中的某一常數(shù),且能夠使系統(tǒng)在通信拓撲圖滿足假設2的條件下收斂,此時可在系統(tǒng)運行前根據(jù)?k(t)獲得學習增益γk(t),從而使定理2所給出的條件是分布式的.需要說明的是,這種處理方法會使系統(tǒng)的收斂速度變慢,帶來一定的保守性. 注4由于D(t)列滿秩,因此對于學習增益γk(t)中的某一列,可由D(t)γk(t)=?k(t)Im列出p個線性無關方程聯(lián)立求解得出.同理,其他列元素也可分別求出. 注5與定理1相比,定理2在求解迭代學習增益γk(t)時,只需根據(jù)條件(19)求得合適的?k(t),而不受全局信息σk(t)的影響,因此可實現(xiàn)算法的分布式. 本節(jié)對所得結果進行仿真驗證.考慮由5個跟隨者和1個虛擬領導者組成的MASs,各智能體之間構成的有向通信拓撲狀態(tài)及切換機制如圖2所示. 圖2 4種狀態(tài)的有向拓撲圖和切換機制Fig.2 Directed topology graphs and switching mechanism of four states 由圖可見,每種狀態(tài)的拓撲圖各自沒有生成樹,但4種狀態(tài)的拓撲圖集含有以虛擬領導者為根頂點的聯(lián)合生成樹.為了分析簡單,每條連接邊的權值取為1.設t∈[T1,T2]=[1,3],s=4,r0=8.另外,假設每次迭代后MASs的通信拓撲會自動切換到下一個狀態(tài),并且假設在時間段1~1.5 s內,通信拓撲從Ga開始切換,而在1.5~2 s,2~2.5 s,2.5~3 s的3個時間段內可以分別從4個狀態(tài)中的任意一個開始切換.這樣,智能體之間的通信拓撲同時沿迭代軸k和時間軸t變化.由于空間的限制,這里不對聯(lián)合拓撲圖的拉普拉斯矩陣和關系矩陣等進行給出. 取系統(tǒng)矩陣為 取虛擬領導者的初始狀態(tài)為xd(T1)=0,期望輸入ud(t)為 當?k(t)=0.3,t∈[1,3]時,所提控制算法下,MASs的輸出一致性收斂情況如圖3-4所示.圖3和圖4分別為系統(tǒng)在第10、第80、第140次迭代時各智能體的第1維和第2維輸出軌跡及相應的系統(tǒng)跟蹤誤差沿迭代軸的變化趨勢.由圖可見,在迭代前期各跟隨者會出現(xiàn)輸出飽和受限現(xiàn)象,但隨著迭代次數(shù)不斷增加,跟隨者輸出均被控制到了系統(tǒng)測量閾值范圍內.此外,系統(tǒng)跟蹤誤差在第140次迭代后趨于0并保持穩(wěn)定.可以表明,經過140次的迭代學習,系統(tǒng)每個跟隨者的輸出均能夠在時間區(qū)間[1,3]上很好地跟蹤虛擬領導者的期望輸出. 圖3 在第10、第80、第140次迭代時各智能體的輸出y1和系統(tǒng)跟蹤誤差范數(shù)(?k(t)=0.3)Fig.3 Output y1 of each agent at the 10th,80th,140th iteration and the norm of system tracking error(?k(t)=0.3) 圖4 在第10、第80、第140次迭代時各智能體的輸出y2和系統(tǒng)跟蹤誤差范數(shù)(?k(t)=0.3)Fig.4 Output y2 of each agent at the 10th,80th,140th iteration and the norm of system tracking error(?k(t)=0.3) 當?k(t)=0.1,t∈[1,3]時,所提控制算法下,MASs的輸出一致性收斂情況如圖5-6所示.圖5和圖6分別為系統(tǒng)在第10、第80、第140次迭代時各智能體的第1維和第2維輸出軌跡及相應的系統(tǒng)跟蹤誤差沿迭代軸的變化趨勢.由圖可見,在迭代前期各跟隨者同樣會出現(xiàn)輸出飽和受限現(xiàn)象,但隨著迭代次數(shù)不斷增加,各跟隨者輸出依然被控制到了系統(tǒng)測量閾值范圍內.不同的是,系統(tǒng)跟蹤誤差在第400次迭代后趨于0并保持穩(wěn)定.可以表明,經過400次的迭代學習,系統(tǒng)各跟隨者的輸出均能夠在時間區(qū)間[1,3]上很好地跟蹤虛擬領導者的期望輸出. 圖5 在第10、第80、第140次迭代時各智能體的輸出y1和系統(tǒng)跟蹤誤差范數(shù)(?k(t)=0.1)Fig.5 Output y1 of each agent at the 10th,80th,140th iteration and the norm of system tracking error(?k(t)=0.1) 圖6 在第10、第80、第140次迭代時各智能體的輸出y2和系統(tǒng)跟蹤誤差范數(shù)(?k(t)=0.1)Fig.6 Output y2 of each agent at the 10th,80th,140th iteration and the norm of system tracking error(?k(t)=0.1) 通過分別對比圖3和圖5、圖4和圖6,可以發(fā)現(xiàn),當取?k(t)=0.3和?k(t)=0.1時,系統(tǒng)的每個跟隨者都能在所提出的分布式算法下很好地跟蹤虛擬領導者的期望輸出,但當?k(t)=0.1時,系統(tǒng)輸出一致性收斂速度變慢,系統(tǒng)跟蹤誤差趨于穩(wěn)定需要的迭代次數(shù)增多,系統(tǒng)控制的保守性增大. 工程應用實際中,MASs大量存在輸出測量受限和通信拓撲時變情況.本文針對一類具有虛擬領導者的連續(xù)線性MASs,研究了系統(tǒng)在輸出測量受限和聯(lián)合連通切換拓撲下的基于ILC的輸出一致性問題.通過利用飽和函數(shù)對系統(tǒng)輸出測量受限情形進行建模,并在系統(tǒng)通信拓撲至少包含有一個沿迭代軸的聯(lián)合生成樹且同時沿有限時間軸和無限迭代軸切換的條件下,根據(jù)跟隨者所能獲得的局部信息設計了一種分布式輸出一致性ILC算法.此外,給出了使所有跟隨者的輸出可以很好地跟蹤虛擬領導者輸出的兩個充分條件,其中第2個條件避免了全局信息σk(t)對學習增益設計的影響,實現(xiàn)了算法的分布式.從仿真結果看,本文很好地解決了聯(lián)合連通切換拓撲下輸出測量受限線性MASs的輸出一致性問題.3 多智能體系統(tǒng)一致性分析
4 仿真
5 結論