于 鏑
(北京信息科技大學自動化學院,北京 100192)
由于多智能體協(xié)調控制在眾多領域中存在廣泛成功的應用,所以其研究受到廣大研究人員的關注.譬如自組裝機器人聚集、無人機火災救援、衛(wèi)星姿態(tài)調整和智能電網(wǎng)分配等等.作為典型的協(xié)調控制,包容控制由于在危險物資搬運和火災救援等軍事和民用方面具有潛在的大量應用,已經(jīng)吸引了眾多學者的研究熱情.在包容控制中,存在多個領航者,并且跟隨者的運動限定在領航者所圍成的最小幾何空間中.迄今為止,在多智能體網(wǎng)絡包容控制研究方面已經(jīng)涌現(xiàn)出很多優(yōu)秀的研究成果[1–4].
但上述成果均要求系統(tǒng)動態(tài)已知且非最優(yōu)控制.在實際應用中,未知的外界環(huán)境可導致系統(tǒng)動態(tài)的不確定性變化,由原有動態(tài)得到的控制方法并不準確或奏效.因此基于數(shù)據(jù)驅動的控制思想深受研究人員的青睞,主要依據(jù)可測得的網(wǎng)絡系統(tǒng)數(shù)據(jù)信息進行系統(tǒng)監(jiān)控與故障診斷等行為.并且在實現(xiàn)包容控制的同時需考慮能量的損耗,所以需要實現(xiàn)最優(yōu)控制.作為非常典型的自適應動態(tài)規(guī)劃方法,增強學習(reinforcement learning,RL)思想已被研究人員用來解決這個有趣且具有挑戰(zhàn)性的問題.RL方法中智能體與周圍未知環(huán)境進行交互,從而學習最優(yōu)控制策略[5–7].因此,對于線性和非線性系統(tǒng),文獻[8–9]提出了連續(xù)時間在線策略迭代算法,其由策略評估和策略更新兩步組成,并且分別采用評價神經(jīng)網(wǎng)絡和執(zhí)行神經(jīng)網(wǎng)絡參量化地表示值函數(shù)和控制策略.在系統(tǒng)內(nèi)動態(tài)信息未知的情況下,得出最優(yōu)控制解的收斂性.在文獻[10]中,針對控制輸入受限的非線性系統(tǒng),在系統(tǒng)轉移動態(tài)未知的情況下,拓展積分增強學習(integral reinforcement learning,IRL)方法來解決其最優(yōu)跟蹤控制問題且在保持激勵條件下得出系統(tǒng)的收斂性和穩(wěn)定性.對于完全未知動態(tài)的非線性系統(tǒng),基于Nash平衡解和最小–最大優(yōu)化思想設計跟蹤控制器,并且采用離策略RL算法來學習最優(yōu)控制策略[11].而文獻[12]對于動態(tài)完全未知的輸入受限非線性系統(tǒng),合適的選取標稱系統(tǒng)的代價函數(shù)使得獲得的近似最優(yōu)控制使得系統(tǒng)一致最終有界穩(wěn)定.并且提出積分增強學習算法基于系統(tǒng)數(shù)據(jù)同時更新值函數(shù)和控制策略來解決魯棒自適應調節(jié)問題.
以上的成果均針對單個系統(tǒng),文獻[13–14]將RL算法應用到多智能體系統(tǒng)的最優(yōu)包容控制.對于線性異構多智能體系統(tǒng),文獻[13]基于內(nèi)模原理并采用全狀態(tài)反饋和靜態(tài)輸出反饋來研究輸出包容問題.在文獻[14]中,提出離策略增強學習算法來解決部分模型未知的線性多智能體系統(tǒng)的最優(yōu)包容控制問題.上述成果均未考慮控制輸入受限和網(wǎng)絡受擾情況.然而,在實際應用中均需限定執(zhí)行器的幅值來滿足物理結構和運行安全的要求,而且網(wǎng)絡個體會受到模型不確定性、隨機干擾等非線性攝動的影響.所以,在考慮非線性擾動情況下研究輸入受限的多智能體網(wǎng)絡的魯棒包容控制具有重要的理論意義和實際價值,但此方面研究至今無人問津.本文受文獻[10,12]的啟發(fā),提出了包含有領航層、估計層、控制層和跟隨者層的新型控制結構,設計有限時間估值器以及在線無模型IRL算法實現(xiàn)輸入受限的受擾網(wǎng)絡的魯棒包容控制.本文從以下3個方面對現(xiàn)有成果進行了拓展:1)與文獻[10,12]相比,考慮多智能體網(wǎng)絡的魯棒包容控制,比單個系統(tǒng)的跟蹤控制或魯棒調節(jié)要復雜得多;2)與文獻[13–14]相比,考慮輸入受限的受擾多智能體網(wǎng)絡的包容控制,更具實際意義;3)與文獻[1,15]相比,考慮系統(tǒng)動態(tài)未知情況下,輸入受限的多智能體網(wǎng)絡的最優(yōu)魯棒包容控制,降低了對系統(tǒng)動態(tài)的限制.
本文其余部分組成如下:第2節(jié)介紹了相關定義及引理;第3節(jié)闡述問題;第4節(jié)給出本文控制方案的主要結果,設計了有限時間估計器和IRL迭代學習算法,并且證明了多智能體網(wǎng)絡的最終一致有界穩(wěn)定性;第5節(jié)仿真研究驗證了本文控制方案和學習算法的有效性;最后得出結論.
定義1設X是實矢量空間V ?Rn的集合.用Co(X)表示X的凸包,
引理1[16]如果G?ateaux導數(shù)Υ′在V 的鄰域內(nèi)存在,且G?ateaux導數(shù)Υ′在V 處是連續(xù)的,則Π=Υ′(V)也是V 處的Frechet導數(shù).
令多智能體網(wǎng)絡由智能體Σi(i=1,···,n)組成,其對應的有向圖為G(V,E,A).令F={1,···,m}和L={m+1,···,n}分別代表跟隨者集合和領航者索引集合.則V由跟隨者節(jié)點集VF={νi,i ∈F}和領航者節(jié)點集合VL={νi,i ∈L}組成.本文的控制目的是只基于系統(tǒng)數(shù)據(jù),設計合適的近似最優(yōu)控制策略驅使受擾的跟隨者收斂并保持在領航者所構成的動態(tài)凸包中.
跟隨者動態(tài)描述為
假設2干擾有界且‖d(x)‖dM,?x ∈Rp,其中dM(x)是已經(jīng)有界函數(shù)且d(0)=0, dM(0)=0.
在本文中令領航者之間無通信,且領航者與跟隨者之間通信是單向的,即領航者發(fā)送信息.所以跟隨者之間的網(wǎng)絡拓撲和領航者與跟隨者之間的網(wǎng)絡拓撲決定整個網(wǎng)絡通信.由此對Laplacian陣L進行結構劃分,則
假設3令跟隨者之間的拓撲強連通,并且對于每個跟隨者至少存在一個領航者與其通信.
圖1 魯棒最優(yōu)包容控制結構示意圖Fig.1 The diagram of robust optimal containment control
由于領航者的動態(tài)只有部分跟隨者已知,所以需要設計估值器估計出跟隨者在領航者所圍成凸包中的期望狀態(tài).因此,本文提出魯棒包容分布式結構如圖1所示,由領航者層、有限時間估計層、魯棒最優(yōu)包容控制層和跟隨者層組成.在估計層中,有限時間估值器在有限時間內(nèi)可獲得,i ∈F.在控制層中,基于跟隨者期望狀態(tài)的精確估計和后續(xù)提出的IRL算法,跟隨者的狀態(tài)一致最終有界收斂到領航者所圍成的凸包中.
提出下列估值器:
針對式(1)的標稱系統(tǒng),如式(5)所描述:
在本節(jié)中,給出與式(8)中代價函數(shù)相關的包容Bellman 方程和HJB 方程.沿著增廣網(wǎng)絡軌跡(7)對V(Xi)取微分,則獲得下列包容Bellman方程:
因此可見,通過求解HJB方程(13),可得到V?(Xi)和對應的,從而實現(xiàn)整個多智能體網(wǎng)絡的最優(yōu)魯棒包容控制.然而,式(13)為非線性偏微分方程,得到其解析解極其困難.因此,在下節(jié)中采用提出的IRL算法來求解HJB方程.
在本小節(jié)中,首先引入基于模型的策略迭代算法,該算法是后面提出的基于數(shù)據(jù)的IRL迭代算法的基礎.
算法I基于模型的迭代算法.
算法的步驟如下:令V0∈V0為初始的代價函數(shù),其數(shù)值可由文獻[17]中的引理5所確定.因此初始控制策略
Step 1根據(jù)下述式子求解V(k+1):
Step 2由下式更新控制策略:
Step 3若‖V(k)?V(k?1)‖ε,其中ε為計算精度,則停止并獲得最優(yōu)代價函數(shù)V?=V(k)和最優(yōu)控制策略u?=u(k),否則,令k=k+1,然后返到Step 1并繼續(xù).
下面算法I的收斂性借助牛頓迭代法進行證明.考慮Banach空間Ψ ?V(X,t):→R,定義映射
然后基于定義2和引理1,可得到以下引理.
引理2令Υ 定義如式(17)所示,則其在V 處的Frechet導數(shù)為
證首先得出Υ在V 處的G?ateaux導數(shù),然后證明其連續(xù)性.基于式(17)中Υ的表達式以及定義2,可得出Υ在V 處的G?ateaux導數(shù)
則推斷出算法I等價于牛頓迭代序列(19),而且,根據(jù)文獻[17]中的引理4和引理5可以得出牛頓迭代序列(19)一定收斂到HJB方程(13)的解. 證畢.
顯而易見,算法I依賴系統(tǒng)動態(tài)信息,然而,由于外部環(huán)境的復雜性很難獲得這些信息.在此種情況下,設計無模型迭代算法勢在必行.
算法II無模型IRL策略迭代算法.
針對數(shù)據(jù)樣本集,強化學習算法強調在探索新的數(shù)據(jù)樣本和利用已有數(shù)據(jù)樣本之間達到平衡.鑒于此,用下式描述與第i個跟隨者相關的增廣網(wǎng)絡的軌跡動態(tài):
其中T是增強采樣周期.則無模型IRL算法如下所示.初始條件的選取辦法和算法I相同.算法II的流程如圖2所示.
圖2 算法II流程圖Fig.2 The flowchart of algorithm II
本節(jié)用3組仿真研究驗證仿真結果的有效性.
考慮由8個智能體組成的多智能體網(wǎng)絡.有向拓撲如圖3所示.第i個跟隨者動態(tài)由下式所描述:
對于第i個跟隨者,其評價器NN和執(zhí)行器NN的激勵函數(shù)分別選為和?(Xi).采樣周期選為T=0.01且探索信號的選擇與文獻[12]類似.網(wǎng)絡拓撲滿足假設3,參數(shù)R,β和ρ的選取滿足定理1和定理2的條件.跟隨者的期望狀態(tài)的有限時間估計誤差變化曲線如圖4所示,可見不到2 s便實現(xiàn).基于文獻[12]中提出的無模型IRL算法和本文得到的上述估值及所提出的無模型IRL算法,可實現(xiàn)受擾多智能體網(wǎng)絡的魯棒最優(yōu)包容控制.智能體的運動軌跡分別如圖5和圖6所示.其中:實心方塊代表跟隨者的初始位置,實心圓點代表動態(tài)領航者分別在不同時刻的位置.而且,4種不同線型的曲線代表跟隨者的實際運動軌跡,黑色方框代表領航者所圍成的動態(tài)凸包.由仿真結果可得,當基于文獻[12]中的控制方案時,跟隨者在20 s左右進入到領航者所圍成的凸包中.而采用本文所提出的控制方案時,跟隨者在15 s左右便進入到領航者所圍成的凸包中.可見本文的控制方法能夠使得跟隨者更加快速地收斂并保持在領航者所圍成的凸包中,在其期望軌跡的微小鄰域內(nèi)運動.
圖3 網(wǎng)絡拓撲結構1Fig.3 The structure of No.1 network topology
圖4 估值誤差變化曲線Fig.4 The curves of estimation error
圖5 受擾多智能體網(wǎng)絡運動軌跡(基于文獻[12]的算法)Fig.5 The trajectories of perturbed multi-agent network(based on the algorithm in[12])
圖6 受擾多智能體網(wǎng)絡運動軌跡(基于本文的算法)Fig.6 The trajectories of perturbed multi-agent network(based on the proposed algorithm in the paper)
本小節(jié)考慮當跟隨者與多個領航者存在通信時,由10個智能體組成的多智能體網(wǎng)絡.有向拓撲如圖7所示.網(wǎng)絡動態(tài)同仿真實驗1,采用本文的控制方案和學習算法,可實現(xiàn)受擾多智能體網(wǎng)絡的魯棒最優(yōu)包容控制.智能體的運動軌跡分別如圖8所示.可見跟隨者在10 s內(nèi)便可以收斂到領航者所圍成的凸包中,與網(wǎng)絡拓撲1的仿真結果比較具有快速性.并且進行了多組實驗分析折扣因子對網(wǎng)絡控制效果的影響,得出γ0.05時跟隨者運動軌跡收斂的結論.可見不同的網(wǎng)絡拓撲結構直接影響網(wǎng)絡控制參數(shù)的選取.
圖7 網(wǎng)絡拓撲結構2Fig.7 The structure of No.2 network topology
圖8 受擾多智能體網(wǎng)絡運動軌跡Fig.8 The trajectories of perturbed multi-agent network
本小節(jié)考慮多AmigoBots機器人[18]網(wǎng)絡,網(wǎng)絡拓撲結構如圖9所示.微分驅動輪式機器人模型如圖10所示.
圖9 網(wǎng)絡拓撲結構3Fig.9 The structure of No.3 network topology
圖10 微分驅動輪式機器人模型Fig.10 The model of differentially driven wheeled mobile robot
第i個機器人的位姿位置用hi[hxihyi]T表示,該點位于與輪軸垂直的線上,并且與輪軸中心交點相距di,輪軸中心點用ri[rxiryi]T表示.令(rxi,ryi),θi,(vi,ωi)分別代表第i個機器人的輪軸中心位置、導航角、線速度和角速度.則第i個機器人的動態(tài)方程為
由此采用本文提出的控制方案對多機器人網(wǎng)絡進行仿真研究.其中di=0.15 m, T=6 min,機器人網(wǎng)絡的運動軌跡如圖11所示.其中:空心方塊代表跟隨者的初始位置,實心圓點代表動態(tài)領航者分別在t=0,不同時刻的位置.而且,6種不同線型的曲線代表跟隨者的實際運動軌跡,藍色方框代表領航者所圍成的動態(tài)凸包.仿真結果表明受擾多機器人網(wǎng)絡同樣可實現(xiàn)魯棒包容控制.
圖11 多機器人網(wǎng)絡運動軌跡Fig.11 The trajectories of multi-robot network
本文提出新的控制方案解決輸入受限多智能體網(wǎng)絡的魯棒包容控制問題.基于包容誤差和跟隨者在領航者所圍成凸包中的期望狀態(tài)構建增廣網(wǎng)絡,并引入非均方折扣代價函數(shù)和HJB方程獲得最優(yōu)控制策略.為了克服系統(tǒng)動態(tài)完全未知的困難,基于執(zhí)行器–評價器結構和最小二乘法,基于系統(tǒng)數(shù)據(jù)在線執(zhí)行所提出的無模型IRL算法,得到近似最優(yōu)控制策略.并且網(wǎng)絡的最終一致有界穩(wěn)定性和所提IRL算法的收斂性都得以證明.下一步將針對有限域內(nèi)的魯棒包容控制以及避碰問題展開研究.