摘 "要: 針對在編隊避障控制中智能體個體的異構(gòu)性和多任務(wù)的復(fù)雜性問題,提出一種基于深度強(qiáng)化學(xué)習(xí)的異構(gòu)智能體編隊避障控制方法。首先,為了克服智能體個體的異構(gòu)性,詳細(xì)描述了領(lǐng)航者和跟隨者智能體各自采用的局部觀測表示;其次,根據(jù)智能體的相應(yīng)任務(wù),設(shè)計了編隊、避障和導(dǎo)航三種復(fù)合的綜合獎勵函數(shù),以實現(xiàn)更加靈活和高效的編隊避障控制;最后,設(shè)計了融合注意力機(jī)制的行動者?評論家網(wǎng)絡(luò),用于聯(lián)合訓(xùn)練領(lǐng)航者和跟隨者的運動策略,從而使智能體能夠逐步優(yōu)化綜合策略,以應(yīng)對復(fù)雜的交互信息。數(shù)值仿真實驗結(jié)果顯示,文中提出的方法使得智能體能有效完成各自的任務(wù),與其他強(qiáng)化學(xué)習(xí)算法相比,能夠更迅速、更精確地使智能體學(xué)習(xí)到最優(yōu)的運動策略,并在未來應(yīng)用于復(fù)雜環(huán)境中,具有潛在的前景和價值。
關(guān)鍵詞: 編隊避障控制; 異構(gòu)性; 多任務(wù); 領(lǐng)航者?跟隨者; 深度強(qiáng)化學(xué)習(xí); 綜合獎勵函數(shù); 注意力機(jī)制; 運動策略
中圖分類號: TN911.1?34; TP181; TP183 " " " " " " 文獻(xiàn)標(biāo)識碼: A " " " " " " " 文章編號: 1004?373X(2024)15?0102?07
Heterogeneous agent formation obstacle avoidance control method based on
deep reinforcement learning
YU Yifan1, 2, YUE Shengzhi1, 2, XU Jun1, 2, SONG Jinghan1, 2, LIN Yuanshan1, 2
(1. School of Information Science amp; Engineering, Dalian Ocean University, Dalian 116023, China;
2. Key Laboratory of Environment Controlled Aquaculture, Ministry of Education, Dalian Ocean University, Dalian 116023, China)
Abstract: In view of the heterogeneity of individual agents and the complexity of multi?tasks in formation obstacle avoidance control, a heterogeneous agent formation obstacle avoidance control method based on deep reinforcement learning is proposed. The local observation representations adopted by the leader and follower agents are described in detail in order to overcome the heterogeneity of individual agents. According to the corresponding tasks of the agents, three composite reward functions of formation, obstacle avoidance and navigation are designed to achieve more flexible and efficient formation obstacle avoidance control. An actor?critic network integrating attention mechanism is designed for joint training of the motion strategies of the leader and follower, so that the agents can gradually optimize the comprehensive strategy to cope with complex interaction information. Numerical simulation results show that the proposed method enables the agents to complete their respective tasks effectively. In comparison with the other reinforcement learning algorithms, the proposed method can make the agents learn the optimal motion strategy more quickly and accurately, so it has potential prospects and value for future applications in complex environments.
Keywords: formation obstacle avoidance control; heterogeneity; multi?tasking; leader?follower; deep reinforcement learning; composite reward function; attention mechanism; motion strategy
0 "引 "言
在人工智能快速發(fā)展的幾十年內(nèi),多智能體得到了廣泛的研究。編隊避障控制是多智能體系統(tǒng)最基本的功能之一,旨在驅(qū)動智能體形成所需的幾何形狀,并使其在運動過程中躲避障礙物,以更好地適應(yīng)任務(wù)和環(huán)境[1?2]。然而,由于系統(tǒng)的異質(zhì)性、交互信息的局部性限制,適應(yīng)實際任務(wù)的多智能體編隊避障技術(shù)仍然是一個挑戰(zhàn)。
異構(gòu)智能體一般是指具有不同的參數(shù)和狀態(tài)空間結(jié)構(gòu)的智能體[3],由于在實際系統(tǒng)中不存在兩個動力學(xué)特性完全一致的智能體,因此將其應(yīng)用于編隊避障控制可以充分發(fā)揮每個智能體的特定能力和角色,從而為實現(xiàn)實際任務(wù)獲取更優(yōu)的決策,但與此同時為智能體之間的交互帶來了極大的困難[4]。近些年來,強(qiáng)化學(xué)習(xí)[5?8]利用試錯機(jī)制與環(huán)境進(jìn)行交互學(xué)習(xí)自身的最優(yōu)策略,而無需構(gòu)建精確的運動學(xué)模型的特點,使得學(xué)者逐漸將該方法運用到異構(gòu)編隊控制任務(wù)中,并獲得了較好的成果。文獻(xiàn)[9]采用具有可變學(xué)習(xí)率的[Q(λ)]算法使得智能體能夠?qū)W習(xí)到一種在領(lǐng)導(dǎo)者?跟隨者拓?fù)渲械年犘慰刂撇呗?。文獻(xiàn)[10]針對有領(lǐng)導(dǎo)者的異構(gòu)離散多智能體系統(tǒng)的最優(yōu)一致性問題,提出一種無模型的基于非策略[Q]強(qiáng)化學(xué)習(xí)的控制協(xié)議設(shè)計方法。
基于以上的研究成果,當(dāng)前項目更深入研究了異構(gòu)智能體編隊、導(dǎo)航問題以及編隊和避障問題,以發(fā)展出更貼近實際應(yīng)用的控制方法。文獻(xiàn)[11]使用基于強(qiáng)化學(xué)習(xí)的分布式最優(yōu)控制方法來解決異構(gòu)無人機(jī)(UAV)編隊軌跡跟蹤問題。文獻(xiàn)[12]針對復(fù)雜環(huán)境的隨機(jī)性,提出一種在不確定環(huán)境下的深度強(qiáng)化學(xué)習(xí)編隊避障控制方法,使得每個智能體通過學(xué)習(xí)能夠有效避開障礙物并到達(dá)各自的期望位置形成隊形。在文獻(xiàn)[13]中,原始傳感器數(shù)據(jù)被用于生成無碰撞轉(zhuǎn)向命令,并在豐富環(huán)境中基于強(qiáng)化學(xué)習(xí)的算法對機(jī)器人進(jìn)行訓(xùn)練,使最終的學(xué)習(xí)策略能夠為導(dǎo)航異構(gòu)機(jī)器人找到時間高效、無碰撞的路徑。
然而,上述文獻(xiàn)多解決編隊、避障或?qū)Ш街械膯我粏栴},或者僅簡單地將其中兩個問題進(jìn)行組合。即使在采用了穩(wěn)定且易于實現(xiàn)的領(lǐng)航者?跟隨者結(jié)構(gòu)[14?15]的情況下,如何讓不同類型的智能體學(xué)習(xí)一個綜合任務(wù),從而平衡避障和維持編隊的要求,并成功地達(dá)成既定目標(biāo),緩解現(xiàn)實世界中群體控制問題的復(fù)雜性仍然是一項巨大的挑戰(zhàn)。因此,為了解決現(xiàn)有方法在控制異構(gòu)多智能體編隊避障時存在的上述問題,本文提出了一種基于深度強(qiáng)化學(xué)習(xí)的異構(gòu)智能體編隊避障控制方法。
1 "問題描述
為了解決非完全合作環(huán)境下的異構(gòu)智能體編隊避障任務(wù),并確定每個智能體的最優(yōu)運動策略。領(lǐng)航者智能體學(xué)習(xí)的運動策略是:帶領(lǐng)編隊中的其他智能體在自身避開障礙物的同時到達(dá)指定目標(biāo)點;而跟隨者智能體學(xué)習(xí)的運動策略是:通過感知信息做出相應(yīng)的動作,以確保在領(lǐng)航者智能體完成任務(wù)期間,自身與其他智能體保持一定的距離,同時在維持隊形穩(wěn)定的前提下有效地避開障礙物。這兩類智能體之間相互影響、相互作用,最終將學(xué)習(xí)到一個能夠完成綜合任務(wù)的最優(yōu)運動策略。
將上述多智能體編隊避障控制問題表述為強(qiáng)化學(xué)習(xí)問題。對[N]個智能體的強(qiáng)化學(xué)習(xí)過程建模為[N]個馬爾可夫決策過程(MDP)的擴(kuò)展,被定義為元組[N,S,A,O,R,P]。其中:[N]是智能體的數(shù)量;[S]是每個智能體可觀測狀態(tài)的有限集;[A]是所有智能體的動作集合[{AL, AF1,…, AFn}],其中,[AL]是領(lǐng)航者智能體的動作,[AFn]為第[n]個跟隨者智能體的動作;[O]是所有智能體的觀測集合[{OL,OF1,…,OFn}],其中,[OL]是領(lǐng)航者智能體的觀測集,[OFn]是第[n]個跟隨者智能體的觀測集;[P]為狀態(tài)轉(zhuǎn)移函數(shù),是指智能體在當(dāng)前狀態(tài)和動作時下一狀態(tài)的概率分布;[R]為獎勵函數(shù),表示為[Ri:S×AL×AF1×…×AFn→R]。
基于提出的MDP,可以使用多智能體深度強(qiáng)化學(xué)習(xí)找到解決編隊避障任務(wù)的局部運動策略,即把尋找局部運動策略當(dāng)成最大化其總累積獎勵的優(yōu)化問題,被定義為式(1):
[maxJiπi=maxEai~πit=0∞γtRitst,At " ] (1)
式中:[At]是[t]時刻所有智能體的聯(lián)合動作;智能體[i]接收到一個觀測[oi],該觀測[oi]包含來自全局狀態(tài)的部分信息[s∈S];[πi]是第[i]個智能體的局部策略;[γt∈0,1],決定在[t]時刻策略多大程度上傾向于即時獎勵而非長期收益的折扣因子。
2 "編隊避障控制方法
2.1 "局部觀測表示
假設(shè)環(huán)境中存在的靜態(tài)障礙物以及[N( N≥ 2)]個智能體和1個目標(biāo)點均隨機(jī)分布在二維空間的指定范圍內(nèi)。對于跟隨者智能體而言,其局部觀測信息則有以下要素。
1) 當(dāng)前[t]時刻下,每個智能體[i]都有基于全局坐標(biāo)系下的位置[ptxi,yi],速度[vt=vx,vy];
2) 在智能體[i]的局部坐標(biāo)系中,任意其他智能體[j]的相對狀態(tài)[si←j=di←j, αij],其中[di←j]是智能體[i]到智能體[j]的歐幾里德距離,[αij]是智能體[i]的航向與其他智能體[j]之間形成的角度;
3) 與此同時,靜態(tài)障礙物[O]的相對狀態(tài)記為[so←i=di←o,αio]。
對于領(lǐng)航者智能體而言,除了領(lǐng)導(dǎo)其他智能體和避開障礙物以外,還需要抵達(dá)期望目標(biāo)點,因此它的局部觀測信息還包括當(dāng)前[t]時刻下,在領(lǐng)航者智能體[i]的局部坐標(biāo)系中目標(biāo)點[l]的相對狀態(tài)為[sl←i=di←l,αil]。
2.2 "動作表示
為了使工作盡可能接近現(xiàn)實環(huán)境,本文所采用的仿真環(huán)境中所有智能體考慮在二維平面內(nèi)移動,且被視為具有非完整約束的圓,如圖1所示。
在[t]時刻,每個智能體[i]的位置為[ptxi,yi],在每個時間段[Δt]中,智能體從初始位置[pt]到下個位置[pt+1x'i,y'i]。智能體的速度隨著每個時間段的變化而變化,方向由力[Fi]的方向決定。力是二維向量,其中[Fix]與[Fiy]分別表示智能體[i]在[x]軸和[y]軸上受到的力,動作表示為[Fi=Fix,F(xiàn)iy],相應(yīng)的速度也是一個二維矢量,即[vt=vx,vy]。速度的大小由力[Fi]的大小和智能體自身的質(zhì)量[m]決定。假設(shè)智能體的質(zhì)量都為[m],每個智能體的運動學(xué)方程如式(2)~式(4)所示,其決定了智能體的運動方向和下一時刻的位置。
[vt+1=FixmdtFiymdt] (2)
[φt+1=arctanFiyFix] (3)
[pt+1=vixdtviydt] (4)
移動過程中,智能體的速度在力的作用下做勻加速運動并達(dá)到最大速度[vmax],如果達(dá)到最大速度,智能體將保持移動速度[vmax]。
2.3 "獎勵函數(shù)
在強(qiáng)化學(xué)習(xí)領(lǐng)域中,適當(dāng)選擇獎勵函數(shù)的設(shè)計對系統(tǒng)來說至關(guān)重要,它能決定智能體是否能夠在編隊避障控制問題中有效學(xué)習(xí)。為了在盡可能短的時間內(nèi)實現(xiàn)編隊、導(dǎo)航和避障的綜合任務(wù),獎勵函數(shù)設(shè)計如下:
[rit=rDit+rGit+rSit] " (5)
式中,總獎勵[rit]是距離規(guī)則獎勵[rDit]、目標(biāo)到達(dá)獎勵[rGit]和[安全風(fēng)險懲罰rSit]的線性累加。
距離規(guī)則獎勵[rDit]由隊形獎勵[rFit]和跟隨獎勵[rHit]組成,當(dāng)跟隨者智能體與領(lǐng)航者智能體之間保持要求的歐幾里德距離和跟隨者智能體之間保持一定隊形距離時給予獎勵,否則受到懲罰。
[rDit=rFit+rHit] (6)
[rFit=rformation, " "gcbpiF-pjF∈disformation-1, " " " " "otherwise] "(7)
[rHit=rholding, " " " gcb(piL-piF)∈disholding-1, " " " " " otherwise] (8)
當(dāng)領(lǐng)航者成功到達(dá)目標(biāo)點時,給予智能體一種稀疏獎勵,即目標(biāo)到達(dá)獎勵[rGit]。
[rGit=rgoal, " " " gcbpiL-ptlt;ragent0, " " " " " otherwise] (9)
為了確保智能體與障礙物或合作者之間避免發(fā)生碰撞,當(dāng)智能體與障礙物或合作者發(fā)生碰撞時,對智能體施加安全風(fēng)險懲罰[rSit]。
[rSit=rsafe, " " gcbpip-pko≤ragent+robstacle " " " " " "or "gcbpip-pjp≤2disagent0, " " otherwise] (10)
式中:[piL]定義為領(lǐng)航者智能體坐標(biāo);[pi,jF]定義為跟隨者智能體坐標(biāo);[pko]為障礙物坐標(biāo),[k∈0,1,2,…,n];[pt]為目標(biāo)坐標(biāo);[disformation]是設(shè)定在一定范圍內(nèi)的編隊距離;[disholding]是設(shè)定在一定范圍內(nèi)的領(lǐng)航者和跟隨者間的距離;[ragent]、[rgoal]、[robstacle]分別為智能體、目標(biāo)和障礙物的半徑,領(lǐng)航者智能體和跟隨者智能體半徑相同;[gcb(a,b)]用于計算位置[a]和位置[b]的歐幾里德距離。
2.4 "融合注意力機(jī)制的行動者?評論家網(wǎng)絡(luò)
本文將軟行動者?評論家[16](Soft Actor?Critic, SAC)與注意力機(jī)制方法相結(jié)合,提出一種基于行動者?注意力?評論家的多智能體強(qiáng)化學(xué)習(xí)算法(Soft Actor?Attention?Critic, SAAC)。
在評論家中,輸入由所有智能體的觀測和動作組成,具體來說,是由當(dāng)前智能體觀測和動作的嵌入函數(shù)和其他智能體進(jìn)行注意力計算得到的嵌入向量;輸出為每個動作的動作值函數(shù)。
[Qψio,a=figioi,ai,xi] " (11)
式中:[fi]是一個兩層多層感知機(jī)(Multi?layer Perceptron, MLP);[gi]是一個單層MLP嵌入函數(shù);[xi]是每個智能體動作值的加權(quán)和,也就是來自其他智能體的貢獻(xiàn)。
[xi=j≠iαjvj=j≠iαjhVgjoj,aj] "(12)
將所有智能體定義為[i∈1,2,…,N]的集合,將所有除[i]以外的智能體定義為[\i]的集合,并將該集合中的任意智能體定義為[j]。[gj]是智能體[j]的嵌入函數(shù),用嵌入函數(shù)對其進(jìn)行編碼,然后由共享矩陣[V]進(jìn)行線性變換。[h]是一個激活函數(shù)(使用Leaky ReLU函數(shù))。注意力權(quán)重[αj]對其他智能體進(jìn)行注意力計算[17],比較嵌入函數(shù)[ei=gioi,ai]和[ej],獲得其相似度。
每一個智能體都有一個獨立的評論家,注意力機(jī)制接受每個智能體編碼其觀測和動作,并接收其他智能體編碼的加權(quán)和,如圖2所示。
因此,對于任意的一個智能體[i],當(dāng)前評論家網(wǎng)絡(luò)根據(jù)式(13)、式(14)更新:
[LQψ=i=1NE(o,a,r,o')~DQψio,a-yi2] (13)
[yi=ri+γEa'~πθ(o')Qψio',a'-αlogπθa'io'i " "] (14)
式中:[ψ]和[θ]分別是目標(biāo)批評家和目標(biāo)策略的參數(shù);[α]是決定最大化熵和獎勵之間平衡的溫度參數(shù);[LQψ]是智能體[i]的評論家當(dāng)前網(wǎng)絡(luò)的損失函數(shù);[yi]是智能體[i]的目標(biāo)[Q]值。
同時,在行動者?注意力?評論家中,每個智能體的行動者使用隨機(jī)性策略,輸入是所有智能體的觀測,輸出是每個動作的分布,并且動作是從當(dāng)前的策略函數(shù)進(jìn)行采樣的。當(dāng)前行動者網(wǎng)絡(luò)通過式(15)進(jìn)行優(yōu)化:
[?θiJ=Es~D,a~π?θilogπθiaioi?-αlogπθiaioi+Qψio,a] " (15)
目標(biāo)網(wǎng)絡(luò)的參數(shù)采用軟更新方式,如式(16)所示:
[ψ=τψ+1-τψθ=τθ+1-τθ] " "(16)
3 "仿真與結(jié)果
3.1 "實驗環(huán)境介紹
本文的多智能體編隊避障控制的實驗環(huán)境如圖3所示,總共有4個半徑為0.05 m的圓形智能體,包括1個領(lǐng)航者智能體和3個跟隨者智能體。訓(xùn)練期間在[x∈-1, 0 m]、[y∈-1, 0 ]m范圍內(nèi)隨機(jī)出現(xiàn),且最大速度限制為[0.3 m/s]。為了保證訓(xùn)練難度與真實環(huán)境盡可能相符,目標(biāo)點在[x∈0.5, 1 m]、[y∈0.5, 1 m]范圍內(nèi)隨機(jī)出現(xiàn)。為了使智能體得到具有一定擴(kuò)展性的避障策略,將障礙物定義為半徑在[0.03, 0.07 ]范圍內(nèi)的隨機(jī)圓,并隨機(jī)出現(xiàn)在[x∈-0.2, 0.2 m],[y∈-0.2, 0.2 m]范圍內(nèi)。通過在每一回合開始時對智能體、障礙物和地標(biāo)的狀態(tài)隨機(jī)初始化來增加任務(wù)的多樣性。
3.2 "有效性驗證
為了驗證智能體在學(xué)習(xí)編隊避障策略時是否收斂,利用SAAC算法對智能體的策略進(jìn)行60 000個回合的訓(xùn)練。
所訓(xùn)練的跟隨者智能體在每個回合內(nèi)所獲得的總獎勵曲線情況如圖4所示。
圖4中的插圖是智能體在訓(xùn)練的不同階段所表現(xiàn)出的學(xué)習(xí)效果圖,這些插圖發(fā)生在相應(yīng)回合數(shù)中的最后幾個時間步。通過本文提出的方法,智能體群逐漸學(xué)習(xí)到編隊、導(dǎo)航和避障的策略,學(xué)習(xí)過程逐漸收斂,最終可以得到穩(wěn)定的編隊避障控制策略。
為了驗證智能體習(xí)得的編隊避障策略的有效性,使用SAAC算法對智能體的策略進(jìn)行訓(xùn)練后得到?jīng)Q策模型,通過可視化測試階段智能體群的軌跡圖來判斷該方法是否有效。在測試階段,將初始條件設(shè)定為目標(biāo)點在地圖的右上角隨機(jī)產(chǎn)生;障礙物在地圖中央隨機(jī)初始化;智能體在地圖的左下角隨機(jī)初始化。4個智能體在140個時間步中的軌跡如圖5所示。本文方法訓(xùn)練智能體得到?jīng)Q策模型,其學(xué)習(xí)到的運動策略可以得到穩(wěn)定的編隊避障控制,驗證了本文方法的有效性。
3.3 "性能對比
為了驗證本文算法的性能,將其與用于編隊避障的DDPG、MADDPG、MATD3等較為經(jīng)典的強(qiáng)化學(xué)習(xí)算法進(jìn)行對比,當(dāng)群體規(guī)模大小為4時,使用這四種算法訓(xùn)練的編隊智能體在每個回合下獲得的獎勵曲線如圖6所示。在本文的編隊避障控制任務(wù)下,與其他三種算法相比,本文方法能夠更快獲得成功的經(jīng)驗,學(xué)習(xí)速率更快,擁有更好的訓(xùn)練效果。
在綜合策略性能對比中,分別對三種算法在1 000次測試中的成功率、平均路徑長度和平均運行時間進(jìn)行了評估。成功率表示智能體群在領(lǐng)航者智能體的引導(dǎo)下,成功避開障礙并到達(dá)目標(biāo)點的次數(shù)占總測試次數(shù)的百分比。平均路徑長度和平均運行時間分別是指領(lǐng)航者智能體從初始點出發(fā),在避免碰撞的情況下,每次成功到達(dá)目標(biāo)點時路徑長度和運行時間的平均值。
鑒于DDPG算法下的智能體群難以學(xué)習(xí)到提出的綜合策略,因此不需要進(jìn)一步對其性能進(jìn)行比較。其余三種算法下的綜合策略評估結(jié)果如表1所示。從表中可以清晰地看出,本文方法實現(xiàn)了更高的成功率、更短的平均路徑長度以及更快的平均運行時間,在綜合策略性能方面表現(xiàn)出色。
通過對兩類智能體設(shè)計的距離規(guī)則、任務(wù)標(biāo)準(zhǔn)以及安全風(fēng)險,將該綜合策略精簡為編隊策略、任務(wù)策略和避障策略并分別進(jìn)行驗證對比。
為了評估三種算法下智能體群所習(xí)得的編隊策略性能,使用其在測試期間執(zhí)行任務(wù)時的平均編隊誤差和進(jìn)行評判。編隊誤差指的是智能體彼此之間保持的實際距離與距離規(guī)則要求距離間的差距。在實際環(huán)境中智能體幾乎不可能存在按照固定距離進(jìn)行移動,因此允許智能體之間的距離存在微小形變,即距離規(guī)則是一個具有較小差距的范圍。由于智能體、地標(biāo)和障礙物的初始狀態(tài)具有一定隨機(jī)性,因此對模型進(jìn)行1 000次測試,并對智能體間的編隊誤差和求均值,三種算法中4個智能體彼此之間的平均編隊誤差和如圖7所示。本文方法能夠更快地形成隊形,并保持更穩(wěn)定的隊形進(jìn)行運動。
為了評估三種算法在智能體群習(xí)得導(dǎo)航和避障策略方面的性能,采用兩個指標(biāo)來衡量其表現(xiàn),即在測試期間執(zhí)行任務(wù)時,領(lǐng)航者智能體成功抵達(dá)目標(biāo)點的次數(shù)以及智能體與障礙物發(fā)生碰撞的次數(shù)。在測試時期采用與訓(xùn)練時期相同的智能體、障礙物和目標(biāo)點設(shè)置,進(jìn)行了1 000次測試,領(lǐng)航者智能體到達(dá)目標(biāo)點的次數(shù)以及智能體與障礙物發(fā)生碰撞的次數(shù)如表2所示。這表明與其他兩種算法相比,本文方法在智能體群的運動過程中能夠更好地避免碰撞,并確保每次都能夠成功到達(dá)目標(biāo)點。
4 "結(jié) "論
為了智能體能夠?qū)W習(xí)到具有編隊、避碰和導(dǎo)航功能的綜合策略,本文提出一種基于深度強(qiáng)化學(xué)習(xí)的異構(gòu)智能體編隊避障控制方法。通過對領(lǐng)航者與跟隨者智能體設(shè)計不同的局部觀測表示以緩解智能體個體的異構(gòu)性,并對其分別設(shè)計能夠完成相應(yīng)任務(wù)的獎勵函數(shù)以實現(xiàn)更加靈活和高效的編隊避障控制。通過融合注意力機(jī)制的行動者?評論家網(wǎng)絡(luò)訓(xùn)練,使得智能體能夠自主學(xué)習(xí)到穩(wěn)定的編隊避障控制策略。本文提出的方法與其余四種基線算法相比,具有更快的收斂速度,能夠?qū)W習(xí)到更好的運動策略,有望應(yīng)用于不同規(guī)模的集群編隊以及復(fù)雜環(huán)境的編隊控制中。
注:本文通訊作者為林遠(yuǎn)山。
參考文獻(xiàn)
[1] 杜康豪,宋睿卓,魏慶來.強(qiáng)化學(xué)習(xí)在機(jī)器博弈上的應(yīng)用綜述[J].控制工程,2021,28(10):1998?2004.
[2] SHI P, YAN B. A survey on intelligent control for multiagent systems [J]. IEEE transactions on systems, man, and cybernetics: Systems, 2021, 51(1): 161?175.
[3] YAN B, SHI P, LIM C, et al. Optimal robust formation control for heterogeneous multi?agent systems based on reinforcement learning [J]. International journal of robust amp; nonlinear control, 2021, 32(5): 2683?2704.
[4] 于家興,魏海平,金麗娜,等.基于模型參考的異構(gòu)多智能體平均一致性[J].計算機(jī)應(yīng)用,2019,39(4):1240?1246.
[5] ZHANG Y, ZHANG Z F, YANG Q Y, et al. EV charging bidding by multi?DQN reinforcement learning in electricity auction market [J]. Neurocomputing, 2020, 397: 404?414.
[6] LIU K, ZHAO Y Y, WANG G, et al. Self?attention?based multi?agent continuous control method in cooperative environments [J]. Information sciences, 2022, 585: 454?470.
[7] HUNG S M, GIVIGI S N. A Q?learning approach to flocking with UAVs in a stochastic environment [J]. IEEE transactions on cybernetics, 2017, 47(1): 186?197.
[8] 張海峰,簡燕紅,王宏剛,等.基于優(yōu)化強(qiáng)化學(xué)習(xí)的多智能體編隊最優(yōu)控制[J].控制工程,2022,29(12):2316?2321.
[9] KNOPP M, AYKIN C, FELDMAIER J, et al. Formation control using GQ(λ) reinforcement learning [C]// 2017 26th IEEE International Symposium on Robot and Human Interactive Communication (RO?MAN). New York: IEEE, 2017: 1043?1048.
[10] 程薇燃,李金娜.基于Q學(xué)習(xí)的異構(gòu)多智能體系統(tǒng)最優(yōu)一致性[J].遼寧石油化工大學(xué)學(xué)報,2022,42(4):59?67.
[11] LIU H, MENG Q Y, PENG F C, et al. Heterogeneous formation control of multiple UAVs with limited?input leader via reinforcement learning [J]. Neurocomputing, 2020, 412: 63?71.
[12] 禹鑫燚,杜丹楓,歐林林.不確定環(huán)境下的深度強(qiáng)化學(xué)習(xí)編隊避障控制[J].高技術(shù)通訊,2022,32(8):836?844.
[13] LONG P X, FAN T X, LIAO X Y, et al. Towards optimally decentralized multi?robot collision avoidance via deep reinforcement learning [C]// IEEE International Conference on Robotics and Automation (ICRA). New York: IEEE, 2018: 6252?6259.
[14] SUI Z Z, PU Z Q, YI J Q, et al. Formation control with collision avoidance through deep reinforcement learning using model?guided demonstration [J]. IEEE transactions on neural networks and learning systems, 2020, 32(6): 2358?2372.
[15] DIALLO E A O, SUGAWARA T. Multi?agent pattern formation: A distributed model?free deep reinforcement learning approach [C]// 2020 International Joint Conference on Neural Networks (IJCNN). New York: IEEE, 2020: 1?8.
[16] HAARNOJA T, ZHOU A, ABBEEL P, et al. Soft actor?critic: Off?policy maximum entropy deep reinforcement learning with a stochastic actor [C]// Proceedings of the 35th International Conference on Machine Learning. New York: PMLR, 2018: 1856?1865.
[17] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 5998?6008.
作者簡介:虞逸凡(1999—),男,浙江紹興人,碩士研究生,研究方向為人工智能、多智能體強(qiáng)化學(xué)習(xí)、編隊控制。
岳圣智(1999—),男,遼寧撫順人,碩士研究生,研究方向為人工智能、強(qiáng)化學(xué)習(xí)、多目標(biāo)追蹤。
徐 "?。?999—),男,河南駐馬店人,碩士研究生,研究方向為人工智能、強(qiáng)化學(xué)習(xí)、對抗博弈。
宋婧菡(1996—),女,遼寧大連人,碩士研究生,研究方向為強(qiáng)化學(xué)習(xí)。
林遠(yuǎn)山(1982—),男,廣西貴港人,工學(xué)博士,副教授,研究方向為機(jī)器人運動規(guī)劃、機(jī)器人學(xué)習(xí)等。