林萌龍 陳 濤 任棒棒 張萌萌 陳洪輝
1.國防科技大學(xué)信息系統(tǒng)工程重點(diǎn)實(shí)驗(yàn)室 湖南 長沙 410073
馬賽克戰(zhàn)[1]、聯(lián)合全域指揮控制[2]等新型作戰(zhàn)概念所構(gòu)想的未來作戰(zhàn)場景中,傳統(tǒng)的多任務(wù)平臺(tái)被分解為了眾多的小型作戰(zhàn)單元,這些小型作戰(zhàn)單元通常具備更高的靈活性,能夠根據(jù)戰(zhàn)場環(huán)境的變化快速對(duì)自身所承擔(dān)的任務(wù)進(jìn)行調(diào)整,以實(shí)現(xiàn)更好的整體作戰(zhàn)效果. 在未來的新型作戰(zhàn)場景中,傳統(tǒng)的集中式指揮控制模式存在著指揮鏈路過長、決策復(fù)雜度過高等問題,從而導(dǎo)致決策時(shí)效性和決策質(zhì)量難以滿足要求[3]. 近年來,邊緣指揮控制等新型指揮控制模式應(yīng)運(yùn)而生,邊緣節(jié)點(diǎn)也即各作戰(zhàn)實(shí)體將具備一定程度的自主決策能力[4]. 由于戰(zhàn)場環(huán)境的復(fù)雜多變特性,以及作戰(zhàn)實(shí)體的小型化、智能化發(fā)展趨勢,分布式?jīng)Q策的模式將在未來的戰(zhàn)場決策中發(fā)揮越來越重要的作用.
作戰(zhàn)體系是為了完成特定的作戰(zhàn)任務(wù)由一系列具備各項(xiàng)能力的作戰(zhàn)單元?jiǎng)討B(tài)構(gòu)建而成,在以往的集中式?jīng)Q策模式下,體系設(shè)計(jì)人員會(huì)根據(jù)作戰(zhàn)任務(wù)的能力需求以及作戰(zhàn)單元所具備的各項(xiàng)能力,以最大化作戰(zhàn)效能或最小化作戰(zhàn)單元的使用成本等為目標(biāo),來統(tǒng)一地對(duì)各作戰(zhàn)任務(wù)和作戰(zhàn)單元進(jìn)行匹配. 作戰(zhàn)體系的“作戰(zhàn)任務(wù)—作戰(zhàn)單元”匹配問題可以建模為一個(gè)優(yōu)化問題,當(dāng)問題規(guī)模較小時(shí),可以采用集中式?jīng)Q策的模式運(yùn)用整數(shù)線性規(guī)劃等運(yùn)籌學(xué)方法快速得到全局最優(yōu)解[5],而當(dāng)問題規(guī)模較大時(shí)可以采用遺傳算法等啟發(fā)式算法[6]或者強(qiáng)化學(xué)習(xí)算法[7],得到問題的近似最優(yōu)解. 采用集中式?jīng)Q策的一個(gè)重要前提條件是中心決策節(jié)點(diǎn)和作戰(zhàn)單元葉節(jié)點(diǎn)之間的通信暢通,因?yàn)槿~節(jié)點(diǎn)需要將自身的狀態(tài)信息和觀測信息發(fā)送給中心決策節(jié)點(diǎn),而中心節(jié)點(diǎn)需要將決策命令發(fā)送給葉節(jié)點(diǎn). 然而在未來的作戰(zhàn)場景中,由于敵方的通信干擾等原因,中心節(jié)點(diǎn)和葉節(jié)點(diǎn)之間的通信鏈接很難保證連續(xù)暢通,同時(shí)頻繁的信息交互會(huì)造成一定的通信負(fù)載和通信延遲,因此,在未來很多的任務(wù)場景中,需要作戰(zhàn)單元根據(jù)自身的狀態(tài)信息和觀測到的信息獨(dú)立地進(jìn)行決策.
強(qiáng)化學(xué)習(xí)是一種利用智能體與環(huán)境的交互信息不斷地對(duì)智能體的決策策略進(jìn)行改進(jìn)的方法,隨著深度強(qiáng)化學(xué)習(xí)技術(shù)的快速發(fā)展,強(qiáng)化學(xué)習(xí)算法在無人機(jī)路徑規(guī)劃[8]、無線傳感器方案調(diào)度[9]等領(lǐng)域都取得了非常成功的應(yīng)用,同時(shí)近年來多智能體強(qiáng)化學(xué)習(xí)算法在StarCraftⅡ[10]等環(huán)境中也取得了很好的效果. 在作戰(zhàn)體系任務(wù)分配場景中,可以將各作戰(zhàn)單元視為多個(gè)決策智能體,那么“作戰(zhàn)任務(wù)—作戰(zhàn)單元”的匹配任務(wù)可以視為一個(gè)多智能體強(qiáng)化學(xué)習(xí)任務(wù).而當(dāng)前尚未有將多智能體強(qiáng)化學(xué)習(xí)方法應(yīng)用到類似作戰(zhàn)體系的任務(wù)分配環(huán)境中的先例. 本文的主要工作如下: 1)建立一個(gè)通信受限情況下的作戰(zhàn)體系“作戰(zhàn)任務(wù)—作戰(zhàn)單元”匹配的任務(wù)場景;2)提出了一個(gè)基于多智能體強(qiáng)化學(xué)習(xí)技術(shù)的作戰(zhàn)體系任務(wù)分配算法;3)通過實(shí)驗(yàn)驗(yàn)證了采用上述算法訓(xùn)練的各智能體,可以在通信受限的場景下,實(shí)現(xiàn)一定程度的自主協(xié)同,在沒有中心決策節(jié)點(diǎn)的情況下依然能夠?qū)崿F(xiàn)作戰(zhàn)體系任務(wù)的有效分配.
集中式?jīng)Q策模式下存在一個(gè)中心決策節(jié)點(diǎn)來負(fù)責(zé)全局的任務(wù)決策,如圖1 所示,各作戰(zhàn)單元通過通信鏈接將自身的狀態(tài)信息和觀測信息發(fā)送給中心決策節(jié)點(diǎn),中心決策節(jié)點(diǎn)進(jìn)行全局的決策后,將決策命令發(fā)送給各作戰(zhàn)單元去執(zhí)行. 與集中式?jīng)Q策不同,分布式?jīng)Q策模式下將不存在一個(gè)中心決策節(jié)點(diǎn)來協(xié)調(diào)各實(shí)體間的行動(dòng),而是由各實(shí)體根據(jù)自身所擁有的信息,獨(dú)立地進(jìn)行決策. 采用分布式?jīng)Q策一般是為了應(yīng)對(duì)兩種情形,一種是采用集中式?jīng)Q策需要考慮的要素過多,決策復(fù)雜度過大難以進(jìn)行有效的決策;另一種是由于決策節(jié)點(diǎn)與葉節(jié)點(diǎn)之間的通信受限或通信成本過高難以進(jìn)行有效的通信,導(dǎo)致各葉節(jié)點(diǎn)需要獨(dú)立地進(jìn)行決策.
圖1 集中式?jīng)Q策示意圖Fig.1 Schematic diagram of centralized decision-making
集中式?jīng)Q策具有分析簡單、可靠性高等優(yōu)點(diǎn),然而并不是所有的決策問題都適合采用集中式?jīng)Q策,例如在有些任務(wù)場景中不具備進(jìn)行集中式?jīng)Q策的通信條件或者通信成本過高. 在分布式系統(tǒng)中,如果不存在中心節(jié)點(diǎn)進(jìn)行全局協(xié)調(diào),那么該分布式系統(tǒng)就被稱為是自組織系統(tǒng)[11],自組織系統(tǒng)是各個(gè)子模塊根據(jù)有限的自身感知和一些預(yù)定的規(guī)則,獨(dú)立地進(jìn)行思考、決策并采取相應(yīng)的動(dòng)作,共同完成分布式系統(tǒng)的任務(wù). 典型的狼群系統(tǒng)、蟻群系統(tǒng)都屬于自適應(yīng)系統(tǒng),傳統(tǒng)的自適應(yīng)系統(tǒng)大多采用基于規(guī)則的方法進(jìn)行研究,但是這些規(guī)則的制定往往需要領(lǐng)域?qū)<疫M(jìn)行深度參與,并且是一個(gè)不斷試錯(cuò)的過程.
強(qiáng)化學(xué)習(xí)作為一種端到端(end-to-end)的學(xué)習(xí)訓(xùn)練方法不需要領(lǐng)域?qū)<业倪^多參與,而是通過智能體與環(huán)境的動(dòng)態(tài)交互來不斷改進(jìn)自身的決策策略.采用強(qiáng)化學(xué)習(xí)方法來解決分布式?jīng)Q策問題已經(jīng)在多個(gè)領(lǐng)域得到了成功應(yīng)用,在定向傳感器最大目標(biāo)覆蓋問題(maximum target coverage)中,XU 等將該問題抽象為一個(gè)兩層決策問題[12],其中,上層決策為各傳感器分配檢測目標(biāo),下層決策為各傳感器調(diào)整角度,之后每層決策問題均使用單智能體強(qiáng)化學(xué)習(xí)算法來進(jìn)行求解,實(shí)驗(yàn)結(jié)果表明,該方法能有效解決定向傳感器最大目標(biāo)覆蓋問題;SYKORA 基于圖神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制,提出了一個(gè)用來解決多車輛路徑規(guī)劃問題(multi vehicle routing problem,MVRP)的深度神經(jīng)網(wǎng)絡(luò)模型[13],并采用強(qiáng)化學(xué)習(xí)方法對(duì)模型進(jìn)行訓(xùn)練,該模型包含一個(gè)價(jià)值迭代模塊和通信模塊,各車輛根據(jù)自身觀測信息和通信信息獨(dú)立進(jìn)行決策,結(jié)果顯示該模型可以有效解決MVRP 問題.
強(qiáng)化學(xué)習(xí)技術(shù)已經(jīng)在多個(gè)領(lǐng)域得到了成功應(yīng)用,并取得了非常顯著的效果,包括Atari 游戲[14]、圍棋[15]等,然而上述場景多針對(duì)的是單智能體在靜態(tài)環(huán)境中的應(yīng)用,而現(xiàn)實(shí)中的很多場景都是多個(gè)智能體在動(dòng)態(tài)環(huán)境中的應(yīng)用,涉及到智能體間的復(fù)雜交互. 與單智能體強(qiáng)化學(xué)習(xí)任務(wù)相比,多智能體強(qiáng)化學(xué)習(xí)任務(wù)需要同時(shí)對(duì)多個(gè)智能體的策略進(jìn)行優(yōu)化,優(yōu)化難度顯著增強(qiáng),總結(jié)來看,多智能體強(qiáng)化學(xué)習(xí)任務(wù)主要在以下幾個(gè)方面與單智能體強(qiáng)化學(xué)習(xí)任務(wù)存在顯著區(qū)別:
1)觀測范圍的變化.在單智能體強(qiáng)化學(xué)習(xí)所解決的馬爾可夫決策過程(Markov decision problem,MDP)中,通常假定環(huán)境完全可觀測的,智能體直接從環(huán)境那里得到全局的狀態(tài)信息;而多智能體強(qiáng)化學(xué)習(xí)任務(wù)通常被建模為部分可觀測馬爾可夫決策過程(partially observable Markov decision problem,POMDP),智能體不再擁有全局視野,而是根據(jù)一個(gè)觀測函數(shù)從全局狀態(tài)中得到自身的觀測數(shù)據(jù). 部分可觀測的假定與現(xiàn)實(shí)世界中的場景更加契合,但同時(shí)也增加了模型訓(xùn)練的難度.
2)環(huán)境的不穩(wěn)定特性(non-stationarity). 多智能體強(qiáng)化學(xué)習(xí)的一個(gè)重要特點(diǎn)就是各智能體通常是同時(shí)進(jìn)行學(xué)習(xí)的,導(dǎo)致每個(gè)智能體所面臨的環(huán)境是非靜止的,因此,導(dǎo)致了環(huán)境的不穩(wěn)定特性. 具體地說,就是一個(gè)智能體所采取的行動(dòng)會(huì)影響其他智能體所能獲得的獎(jiǎng)勵(lì)以及狀態(tài)的變化. 因此,智能體在進(jìn)行學(xué)習(xí)時(shí)需要考慮其他智能體的行為. 環(huán)境的不穩(wěn)定特性,違背了單智能體強(qiáng)化學(xué)習(xí)算法中環(huán)境狀態(tài)的馬爾科夫特性,即個(gè)體的獎(jiǎng)勵(lì)和當(dāng)前狀態(tài)只取決于之前的狀態(tài)和所采取的行動(dòng),這也就使得在多智能體強(qiáng)化學(xué)習(xí)任務(wù)中使用傳統(tǒng)的單智能體強(qiáng)化學(xué)習(xí)算法,可能會(huì)存在算法難以收斂等問題.
多智能體強(qiáng)化學(xué)習(xí)的相關(guān)研究已經(jīng)成為了機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)研究熱點(diǎn),其中,獨(dú)立Q 學(xué)習(xí)算法(independent Q-learning,IQL)[16]是最早應(yīng)用于多智能體強(qiáng)化學(xué)習(xí)任務(wù)的算法之一,IQL 算法為每一個(gè)智能體都設(shè)置一個(gè)Q 價(jià)值函數(shù),并進(jìn)行獨(dú)立的訓(xùn)練,由于將其他的智能體視為環(huán)境中的一部分,而其他智能體又是在不斷學(xué)習(xí)進(jìn)化的,導(dǎo)致了環(huán)境的不穩(wěn)定性,因此,當(dāng)智能體的數(shù)量超過2 個(gè)時(shí),IQL 算法的性能表現(xiàn)通常較差.
近來有很多研究采用集中式訓(xùn)練和分散式執(zhí)行的模式來解決多智能體強(qiáng)化學(xué)習(xí)任務(wù),有很多研究采用Actor-Critic 算法來訓(xùn)練模型,其中,Critic 網(wǎng)絡(luò)在訓(xùn)練階段可以利用全局的狀態(tài)信息來輔助Actor網(wǎng)絡(luò)的訓(xùn)練,而在模型執(zhí)行階段,智能體的Actor 網(wǎng)絡(luò)再根據(jù)自身的觀測信息獨(dú)立地作出動(dòng)作選擇. 例如Lowe 提出的多智能體深度確定性策略算法(multi-agent deep deterministic policy gradient,MADDPG)算法[17],為每一個(gè)智能體都提供一個(gè)集中式的Critic 網(wǎng)絡(luò),這個(gè)Critic 網(wǎng)絡(luò)可以獲得所有智能體的狀態(tài)和動(dòng)作信息,然后采用深度確定性策略算法(deep deterministic policy gradient,DDPG)訓(xùn)練智能體的策略網(wǎng)絡(luò). FOERSTER 提出的基準(zhǔn)多智能體算法(counterfactual multi-agent,COMA)[18]也采用一個(gè)集中式的Critic 網(wǎng)絡(luò),此外還設(shè)計(jì)了一個(gè)基準(zhǔn)優(yōu)勢函數(shù)(counterfactual advantage function),來評(píng)估各智能體對(duì)總體目標(biāo)的貢獻(xiàn)程度,以此解決多智能體任務(wù)的信用分配(credit assignment)問題. SUNEHAG 提出的價(jià)值分解網(wǎng)絡(luò)算法(value-decomposition networks,VDN)[19],將集中式的狀態(tài)-動(dòng)作價(jià)值函數(shù)分解為各智能體的價(jià)值函數(shù)之和,然而該方法是假定多智能體系統(tǒng)的總體價(jià)值函數(shù)可以用各智能體的價(jià)值函數(shù)之和來進(jìn)行表示,然而在大多數(shù)的任務(wù)場景中該約束條件并不能得到滿足,因此,限制了該方法的適用范圍. 針對(duì)VDN 模型所存在的問題,RASHID 提出的Q-Mix算法[20]在此基礎(chǔ)上進(jìn)行了改進(jìn),去除了集中式critic網(wǎng)絡(luò)的價(jià)值函數(shù)相加性要求,而只是對(duì)各智能體的狀態(tài)-動(dòng)作價(jià)值函數(shù)施加了單調(diào)性約束.
作戰(zhàn)體系是為了完成特定的使命任務(wù)而動(dòng)態(tài)建立的. 通常,作戰(zhàn)體系的使命任務(wù)可以分解為一系列的子任務(wù),而每項(xiàng)子任務(wù)的實(shí)現(xiàn)又都需要一系列能力的支持,同時(shí)不同類型的任務(wù)對(duì)能力的需求也不同,例如對(duì)敵方目標(biāo)的打擊任務(wù)所需要的火力打擊能力的支持較多,而對(duì)敵方目標(biāo)的偵察任務(wù)所需要的偵察能力支持較多. 在通常情況下,體系設(shè)計(jì)人員會(huì)根據(jù)己方的任務(wù)能力需求,以及自身所擁有的作戰(zhàn)單元所能提供的能力值,來為各作戰(zhàn)任務(wù)分配合適的作戰(zhàn)資源,這是一種集中式的決策方法. 集中式?jīng)Q策方法的優(yōu)點(diǎn)是可以獲取全局信息,能根據(jù)已有的信息對(duì)整體作出合理的決策,集中式?jīng)Q策的方法通常能得出全局最優(yōu)解. 然而隨著馬賽克戰(zhàn)等新型作戰(zhàn)概念的應(yīng)用,未來的戰(zhàn)場環(huán)境下,由于敵方的通信干擾等因素,以及決策時(shí)效性的要求等原因,傳統(tǒng)的集中式?jīng)Q策的方式可能難以實(shí)現(xiàn),因此,需要根據(jù)各作戰(zhàn)單元根據(jù)戰(zhàn)場環(huán)境和自身狀態(tài)信息獨(dú)立地進(jìn)行決策. 由集中式?jīng)Q策向分布式?jīng)Q策方式的轉(zhuǎn)變,也更加符合邊緣作戰(zhàn)等新型作戰(zhàn)場景的構(gòu)想,邊緣節(jié)點(diǎn)將具備更高的自主決策權(quán),可以更加獨(dú)立地根據(jù)戰(zhàn)場環(huán)境的狀態(tài)調(diào)整自身的動(dòng)作.
在一個(gè)通信受限的聯(lián)合作戰(zhàn)場景中,如圖2 所示,幾個(gè)作戰(zhàn)單元分別位于戰(zhàn)場空間中的不同位置,每個(gè)作戰(zhàn)單元都具備一定的能力,由于通信受限,作戰(zhàn)單元不能與中心決策節(jié)點(diǎn)進(jìn)行有效通信,而各實(shí)體間只能進(jìn)行有限的通信或者不能通信,因此,在進(jìn)行決策時(shí)每個(gè)作戰(zhàn)單元都只能根據(jù)自身所能獲取到的信息獨(dú)立地進(jìn)行決策. 這種分布式的決策方式可能會(huì)帶來一系列的問題,例如由于沒有中心決策節(jié)點(diǎn)來協(xié)調(diào)任務(wù)分配,各實(shí)體在進(jìn)行獨(dú)立決策時(shí)可能會(huì)出現(xiàn)多個(gè)作戰(zhàn)單元都選擇去完成同一個(gè)任務(wù),從而造成某些任務(wù)沒有作戰(zhàn)單元來完成的現(xiàn)象. 因此,希望能夠利用多智能體強(qiáng)化學(xué)習(xí)技術(shù),來為每一個(gè)作戰(zhàn)單元都訓(xùn)練出來一個(gè)能夠進(jìn)行獨(dú)立的分布式?jīng)Q策的策略網(wǎng)絡(luò),并且根據(jù)這些策略網(wǎng)絡(luò)得到的智能體策略,能夠?qū)崿F(xiàn)一定程度上的自協(xié)同.
圖2 分布式?jīng)Q策場景下的體系任務(wù)分配Fig.2 SoS task assignment in decentralized decision
上述場景中的作戰(zhàn)單元決策過程,可以被建模為一個(gè)部分可觀測的馬爾可夫決策過程. 場景中的每一個(gè)作戰(zhàn)單元都可以被視為一個(gè)決策智能體,智能體的狀態(tài)空間也即觀測空間包含自身的位置信息和能力值信息、其他智能體的位置信息,以及任務(wù)節(jié)點(diǎn)的位置信息和能力需求信息. 智能體的動(dòng)作是選擇哪一個(gè)任務(wù)節(jié)點(diǎn)作為自己的目標(biāo),因此,智能體的動(dòng)作空間是離散的.
在利用強(qiáng)化學(xué)習(xí)解決此類優(yōu)化問題時(shí),優(yōu)化目標(biāo)函數(shù)的取值,通常就可以作為強(qiáng)化學(xué)習(xí)中智能體的獎(jiǎng)勵(lì)值,確定優(yōu)化問題目標(biāo)函數(shù)的過程也就是確定強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)的過程. 在上述作戰(zhàn)體系的任務(wù)分配場景中,體系任務(wù)分配的目標(biāo)是體系中所有的任務(wù)節(jié)點(diǎn)都被分配了合適的作戰(zhàn)單元來完成,因此,該場景是一個(gè)合作型的多智能體強(qiáng)化學(xué)習(xí)任務(wù),各智能體共享一個(gè)相同的獎(jiǎng)勵(lì)值,相關(guān)獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)可以根據(jù)任務(wù)節(jié)點(diǎn)的覆蓋程度以及任務(wù)的完成效果來進(jìn)行設(shè)計(jì):
1)如果有任意一個(gè)任務(wù)節(jié)點(diǎn)沒有被分配作戰(zhàn)單元來完成,那么獎(jiǎng)勵(lì)值-5,任務(wù)節(jié)點(diǎn)的覆蓋程度越低,則智能體所獲得的獎(jiǎng)勵(lì)值越低.
2)任務(wù)完成的效果可以根據(jù)作戰(zhàn)單元與任務(wù)節(jié)點(diǎn)的距離,以及作戰(zhàn)單元的能力取值與任務(wù)實(shí)體的能力需求的匹配程度來確定. 作戰(zhàn)單元與任務(wù)節(jié)點(diǎn)的距離越小,任務(wù)完成的時(shí)效性越高,智能體獲得的獎(jiǎng)勵(lì)值相應(yīng)也越高,同時(shí)任務(wù)節(jié)點(diǎn)的能力需求與作戰(zhàn)單元所能提供的能力值匹配度越高,則任務(wù)完成的效果越好,相應(yīng)地智能體所能獲得的獎(jiǎng)勵(lì)值越多.
智能體i 所包含的信息可以用一個(gè)元組進(jìn)行表示<(xi,yi,hi),ci1,ci2,…,cin>,其中,(xi,yi,hi)表示智能體i 當(dāng)前所處的位置坐標(biāo),ci1則表示智能體i 在能力1 上的取值,n 為能力類型的數(shù)量. 同時(shí)任務(wù)節(jié)點(diǎn)j包含的信息也可以用一個(gè)元組來表示<(xi,yi,hi),ci1′,ci2′,…,cin′>,(xi,yi,hi)表示任務(wù)節(jié)點(diǎn)j 的位置坐標(biāo),ci1′表示任務(wù)節(jié)點(diǎn)j 對(duì)能力1 的需求. 那么智能體i 與任務(wù)節(jié)點(diǎn)j 之間的距離可以根據(jù)兩者的坐標(biāo)計(jì)算得到,如式(1)所示,智能體與任務(wù)節(jié)點(diǎn)j 的能力匹配值effij也可以根據(jù)式(2)計(jì)算得到,其中,cij表示能力匹配系數(shù). 對(duì)于任意一項(xiàng)能力來說,智能體i 所能提供的能力值與任務(wù)節(jié)點(diǎn)j 的能力需求值之間的比值越大,說明采用智能體來完成任務(wù)在該項(xiàng)能力上取得的效果越好,將各項(xiàng)能力的效果進(jìn)行累加,可以得到完成該任務(wù)的整體效果評(píng)估結(jié)果,累加得到的取值越大,則該項(xiàng)任務(wù)的整體完成效果越好;同時(shí)考慮如果智能體所提供的所有能力值都大于該任務(wù)節(jié)點(diǎn)的需求值,那么表示該任務(wù)節(jié)點(diǎn)的所有需求都得到了較好的滿足,則將上述累加得到的匹配值乘以一個(gè)系數(shù)2,而如果有一項(xiàng)智能體所提供的能力值小于任務(wù)節(jié)點(diǎn)的需求值,則認(rèn)為任務(wù)節(jié)點(diǎn)的需求沒有得到很好的滿足,因此,將上述累加得到的匹配值乘以一個(gè)系數(shù)1/2,如式(3)所示.
各智能體獨(dú)立地進(jìn)行決策后輸出的決策結(jié)果共同構(gòu)成一個(gè)完整的體系任務(wù)分配方案a=(a1,a2,…,aN),其中,ai表示智能體i 的決策結(jié)果,也即該智能體的目標(biāo)任務(wù)節(jié)點(diǎn)的索引,N 為智能體的數(shù)量.
各智能體獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)如式(4)所示,其中,rewd為各智能體與任務(wù)節(jié)點(diǎn)距離的倒數(shù),rewe為各智能體與任務(wù)節(jié)點(diǎn)的能力匹配之和,n0為沒有被分配對(duì)應(yīng)的作戰(zhàn)單元任務(wù)節(jié)點(diǎn)的數(shù)量.
在上述作戰(zhàn)體系任務(wù)分配場景中,所有的智能體共享同一個(gè)獎(jiǎng)勵(lì)值,各智能體的決策目標(biāo)就是使得該獎(jiǎng)勵(lì)值最大化.
依據(jù)生成數(shù)據(jù)的策略和進(jìn)行評(píng)估的策略是否相同,強(qiáng)化學(xué)習(xí)算法可以分為在線(on-policy)算法和離線(off-policy)算法,on-policy 算法例如優(yōu)勢動(dòng)作評(píng)論算法(advantage actor critic,A2C)、置信域策略優(yōu)化算法(trust region policy optimization,TRPO)中,用于生成數(shù)據(jù)的策略和進(jìn)行評(píng)估的策略是相同的,每個(gè)批次用于評(píng)估的數(shù)據(jù)都是由當(dāng)前最新的策略網(wǎng)絡(luò)新生成的并且數(shù)據(jù)用完就丟棄,而off-policy 算法例如DDPG 算法、軟演員-評(píng)論家算法(soft actor-critic,SAC)算法,則是將智能體每次與環(huán)境的交互數(shù)據(jù)存放在一個(gè)名為經(jīng)驗(yàn)回放池(replay buffer)的結(jié)構(gòu)中,模型每次進(jìn)行訓(xùn)練時(shí),就從數(shù)據(jù)經(jīng)驗(yàn)回放池中取出一定數(shù)量的訓(xùn)練樣本進(jìn)行參數(shù)更新. 由于采用經(jīng)驗(yàn)回放機(jī)制在每次訓(xùn)練時(shí)是隨機(jī)抽取不同訓(xùn)練周期的數(shù)據(jù),因此,可以消除樣本之間關(guān)聯(lián)性的影響,同時(shí)在強(qiáng)化學(xué)習(xí)任務(wù)中,訓(xùn)練交互數(shù)據(jù)通常是比較寶貴的,如果每條數(shù)據(jù)只能被利用一次則是對(duì)訓(xùn)練數(shù)據(jù)的嚴(yán)重浪費(fèi),采用經(jīng)驗(yàn)回放機(jī)制還能夠提高樣本的利用效率,加快模型的訓(xùn)練速度,尤其是在多智能體的強(qiáng)化學(xué)習(xí)訓(xùn)練任務(wù)中,各智能體與環(huán)境的交互數(shù)據(jù)更顯寶貴. 因此,在多智能體強(qiáng)化學(xué)習(xí)中多采用offpolicy 算法進(jìn)行模型訓(xùn)練,例如著名的MADDPG 算法及其諸多變種,都屬于多智能體領(lǐng)域的off-policy強(qiáng)化學(xué)習(xí)算法.
但是經(jīng)典的MADDPG 算法并不能直接應(yīng)用到體系的“作戰(zhàn)任務(wù)—作戰(zhàn)單元”匹配任務(wù)中來,主要是兩個(gè)原因,一個(gè)是MADDPG 算法,它是專門為連續(xù)動(dòng)作空間任務(wù)所設(shè)計(jì)的,而體系的任務(wù)分配場景中各智能體都是離散型的動(dòng)作空間,因此,需要對(duì)算法進(jìn)行一定的修改,使得修改后的算法可以應(yīng)用于離散型動(dòng)作空間的問題;另一個(gè)原因是當(dāng)前MADDPG算法所解決的問題都是多步?jīng)Q策問題,也即每個(gè)智能體最后輸出的是一個(gè)動(dòng)作序列ai=(ai1,ai2,…,ait),這樣在進(jìn)行網(wǎng)絡(luò)參數(shù)訓(xùn)練時(shí)智能體i 就可以利用數(shù)據(jù)組(si,ai,ri,si′)進(jìn)行梯度計(jì)算,而體系“作戰(zhàn)任務(wù)—作戰(zhàn)單元”匹配任務(wù),是屬于單步?jīng)Q策問題每個(gè)智能體最終輸出的動(dòng)作只有一個(gè)而非一個(gè)序列,智能體所生成的訓(xùn)練數(shù)據(jù)組為(si,ai,ri)缺少了智能體的下一步狀態(tài)si′,因此,需要對(duì)智能體的策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的損失函數(shù)計(jì)算方法進(jìn)行一定的修改,使得該方法可以應(yīng)用到單步?jīng)Q策問題中來.
MADDPG 算法是用來解決連續(xù)動(dòng)作空間的強(qiáng)化學(xué)習(xí)任務(wù)的,當(dāng)智能體的動(dòng)作空間是離散時(shí),通常采用的是利用argmax 函數(shù)將具備最大輸出概率的動(dòng)作節(jié)點(diǎn)作為神經(jīng)網(wǎng)絡(luò)的輸出,但是由于argmax 函數(shù)不滿足多元函數(shù)連續(xù)且具有偏導(dǎo)數(shù)的條件,因此,argmax 函數(shù)是不可導(dǎo)的,這樣神經(jīng)網(wǎng)絡(luò)就無法計(jì)算梯度并采用反向傳播的機(jī)制進(jìn)行參數(shù)學(xué)習(xí),此外argmax 函數(shù)的輸出不具備隨機(jī)性,函數(shù)的輸出每次都是將最大值的節(jié)點(diǎn)輸出,忽略了該數(shù)據(jù)作為概率的屬性. 采用Gumbel-softmax 方法可以根據(jù)輸入向量生成一組離散的概率分布向量[21],以此來解決上述問題.
采用Gumbel-softmax 方法生成離散的概率分布向量的算法流程如下所示.
1)給定的神經(jīng)網(wǎng)絡(luò)輸出為一個(gè)n 維的向量v,首先生成n 個(gè)服從均勻分布U(0,1)的獨(dú)立樣本ε1,ε2,…,εn.
2)之后通過Gi=-log(-log(εi))計(jì)算得到Gi.
3)將向量v 中的元素與對(duì)應(yīng)的隨機(jī)向量Gi相加后得到新的值向量v′=[v1+G1,v2+G2,…,vn+Gn].
4)通過softmax 函數(shù)計(jì)算得到各類別的選擇概率,如式(7)所示,其中,為溫度參數(shù),該參數(shù)控制著softmax 函數(shù)的soft 程度,溫度越高所生成的分布越平滑(探索性越強(qiáng)),溫度越低則生成的分布越接近離散的one-hot 分布,因此,在訓(xùn)練過程中,可以逐步降低該溫度的大小,以逐步逼近真實(shí)的離散分布.
MADDPG 算法在解決多步?jīng)Q策的強(qiáng)化學(xué)習(xí)任務(wù)時(shí),利用一個(gè)價(jià)值網(wǎng)絡(luò)來計(jì)算智能體i 在當(dāng)前狀態(tài)的Q 值Qsi和下一步狀態(tài)的Q 值Qsi′,并利用ri+Qsi與Qsi′進(jìn)行對(duì)比來計(jì)算策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的損失值,在單步?jīng)Q策中,由于沒有下步狀態(tài)si′的存在,將價(jià)值網(wǎng)絡(luò)的評(píng)估值從Q 值估計(jì)值轉(zhuǎn)變?yōu)楠?jiǎng)勵(lì)值ri的估計(jì)值,那么可以用ri與Qsi進(jìn)行對(duì)比來計(jì)算策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的損失值,以此來對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行更新.
采用修改后的MADDPG 算法來解決體系的“任務(wù)—作戰(zhàn)單元”匹配任務(wù)時(shí),每個(gè)智能體都有一個(gè)策略(actor)網(wǎng)絡(luò)和一個(gè)價(jià)值(critic)網(wǎng)絡(luò),其中,策略網(wǎng)絡(luò)可以根據(jù)智能體的觀測信息,快速輸出一個(gè)能夠使得智能體獲得最大預(yù)期收益的動(dòng)作,而智能體的價(jià)值網(wǎng)絡(luò)則只在模型訓(xùn)練階段出現(xiàn),用來對(duì)智能體策略網(wǎng)絡(luò)輸出的動(dòng)作進(jìn)行評(píng)價(jià),并以此來輔助智能體策略網(wǎng)絡(luò)參數(shù)的訓(xùn)練. 模型訓(xùn)練階段的總體框架如圖3 所示,圖中實(shí)線表示產(chǎn)生訓(xùn)練數(shù)據(jù)的過程,虛線表示模型訓(xùn)練的過程,在產(chǎn)生訓(xùn)練數(shù)據(jù)階段,智能體i 從環(huán)境中獲得自身的觀測數(shù)據(jù)oi并輸入給策略網(wǎng)絡(luò)πi,策略網(wǎng)絡(luò)根據(jù)輸入的信息生成一個(gè)動(dòng)作ai作為智能體i 的輸出,之后所有的智能體都將自身的動(dòng)作輸入到環(huán)境中,環(huán)境反饋給各智能體一個(gè)獎(jiǎng)勵(lì)值r=(r1,r2,…,rN),然后各智能體將生成的數(shù)據(jù)組(si,ai,ri)存儲(chǔ)到經(jīng)驗(yàn)回放池中供下一步的模型訓(xùn)練,其中,si表示智能體i 的狀態(tài),包含智能體i 自身的信息以及從環(huán)境中觀測到的信息;在進(jìn)行模型訓(xùn)練時(shí),從經(jīng)驗(yàn)回放池中抽取一定數(shù)量的數(shù)據(jù),并利用抽取的數(shù)據(jù)計(jì)算各智能體價(jià)值網(wǎng)絡(luò)Qi的梯度,并根據(jù)采樣數(shù)據(jù)和價(jià)值網(wǎng)絡(luò)的取值計(jì)算各智能體策略網(wǎng)絡(luò)的梯度,之后根據(jù)所計(jì)算得到的網(wǎng)絡(luò)梯度對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行更新.
圖3 基于MADDPG 的體系任務(wù)分配算法框架Fig.3 SoS task assignment algorithm based on MADDPG
值得注意的是,采用集中式訓(xùn)練的方法,在訓(xùn)練階段的價(jià)值網(wǎng)絡(luò),能夠獲取全局的狀態(tài)信息和動(dòng)作信息作為網(wǎng)絡(luò)的輸入,在體系任務(wù)分配的場景中就是將所有智能體的觀測信息和動(dòng)作信息一并作為各價(jià)值網(wǎng)絡(luò)的輸入信息,如圖4 所示,智能體1 的價(jià)值網(wǎng)絡(luò)1 就是將智能體1~N 的觀測信息和動(dòng)作信息作為輸入信息,并輸出智能體1 在觀測數(shù)據(jù)為o1時(shí)采取動(dòng)作a1的Q 值Q1.
當(dāng)模型訓(xùn)練完之后,智能體的價(jià)值網(wǎng)絡(luò)就被丟棄了,在模型應(yīng)用階段,智能體可以利用自身的策略網(wǎng)絡(luò)根據(jù)從環(huán)境中觀測到的信息,快速得到一個(gè)能夠使自身獲得最大預(yù)期收益的動(dòng)作,各智能體的動(dòng)作構(gòu)成了體系“任務(wù)—作戰(zhàn)單元”匹配任務(wù)的聯(lián)合動(dòng)作a=(a1,a2,…,aN),如圖5 所示,將該聯(lián)合動(dòng)作輸入到環(huán)境中后,各智能體可以得到一個(gè)獎(jiǎng)勵(lì)值來對(duì)自身所采取的動(dòng)作進(jìn)行評(píng)價(jià).
智能體的策略網(wǎng)絡(luò)結(jié)構(gòu)如圖6 所示,智能體i 的策略網(wǎng)絡(luò)的輸入是該智能體的觀測信息oi,包含智能體i 自身的位置信息、狀態(tài)信息、其他智能體相對(duì)于智能體i 的位置距離,以及任務(wù)節(jié)點(diǎn)的位置信息和能力需求信息,輸入信息經(jīng)過多層神經(jīng)網(wǎng)絡(luò)處理后輸出一個(gè)維度為任務(wù)節(jié)點(diǎn)個(gè)數(shù)的向量,之后經(jīng)過Gumbel-softmax 方法處理后得到各任務(wù)節(jié)點(diǎn)的選擇概率,最后選擇概率最大的節(jié)點(diǎn)作為智能體i 在觀測信息為oi時(shí)的動(dòng)作選擇結(jié)果.
圖6 actor 網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Actor network structure
智能體的價(jià)值網(wǎng)絡(luò)結(jié)構(gòu)如圖7 所示,智能體i 的價(jià)值網(wǎng)絡(luò)的輸入包含所有智能體的觀測信息o=(o1,o2,…,oN)和動(dòng)作選擇信息a=(a1,a2,…,aN),同樣的,策略網(wǎng)絡(luò)的輸入信息經(jīng)過多層神經(jīng)網(wǎng)絡(luò)處理后輸出一個(gè)維度為1 的向量,該向量的取值就是各個(gè)智能體在觀測信息為o 且動(dòng)作選擇結(jié)果為a 時(shí)的獎(jiǎng)勵(lì)估計(jì)值.
圖7 critic 網(wǎng)絡(luò)結(jié)構(gòu)Fig.7 Critic network structure
基于MADDPG 的體系任務(wù)分配算法如算法1 所示. 當(dāng)模型訓(xùn)練完成后,各智能體就可以獨(dú)立地根據(jù)自身的觀測信息對(duì)體系任務(wù)進(jìn)行高效的分配.
算法1 基于MADDPG 的體系“任務(wù)-作戰(zhàn)單元”匹配任務(wù)強(qiáng)化學(xué)習(xí)訓(xùn)練算法輸入: 初始化各智能體策略網(wǎng)絡(luò)的參數(shù)θ=(θ1,…,θN)和價(jià)值網(wǎng)絡(luò)參數(shù)?=(?1,…,?N)輸出: 訓(xùn)練后的最優(yōu)參數(shù)θ*,?*1: for iep←1,2,…maxeposide do 2: 重置環(huán)境,得到每個(gè)智能體的觀測向量o=(o1,o2,…,oN)3: 根據(jù)各智能體的策略網(wǎng)絡(luò)得到各智能體的動(dòng)作ai~πi(·|oi)4: 將聯(lián)合動(dòng)作a=(a1,a2,…,aN)輸入到環(huán)境中,得到反饋的獎(jiǎng)勵(lì)值r=(r1,r2,…,rN)5: 將各智能體的數(shù)據(jù)元組(si,ai,ri)存儲(chǔ)到數(shù)據(jù)池D 中6: if iep >最小參數(shù)更新間隔:7:從D 中采樣出一個(gè)批次的數(shù)據(jù)樣本B 8:for agent i=1 to N:9:計(jì)算各智能體的策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的梯度值:10:dθi←1 aiQiπ(ok,a)11:d?i←1 k=1E o~D,a~πΔ n ∑n θiπi(oik)Δ n ∑n k=1E(o,a,r)~D(rik-Qi?(o,a))2 12:for agent i=1 to N:13:更新各智能體的策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的參數(shù):14:θi←(1-η)θi+η*Adam(dθi)15:?i←(1-η)?i+η*Adam(d?i)16: end for
為了驗(yàn)證集中式訓(xùn)練模式下的多智能體強(qiáng)化學(xué)習(xí)算法在分布式?jīng)Q策環(huán)境下,面對(duì)體系“作戰(zhàn)任務(wù)—作戰(zhàn)單元”匹配任務(wù)時(shí)的有效性,選擇分布式訓(xùn)練的多智能體強(qiáng)化學(xué)習(xí)算法作為對(duì)比算法. 集中式訓(xùn)練的多智能體強(qiáng)化學(xué)習(xí)算法與分布式訓(xùn)練的智能體強(qiáng)化學(xué)習(xí)算法最大的不同就是,集中式訓(xùn)練的多智能體強(qiáng)化學(xué)習(xí)算法是采用集中式訓(xùn)練分布式執(zhí)行的模式,智能體的價(jià)值網(wǎng)絡(luò)在訓(xùn)練階段可以獲取全局狀態(tài)信息來輔助智能體策略網(wǎng)絡(luò)的訓(xùn)練;而分布式訓(xùn)練的多智能體強(qiáng)化學(xué)習(xí)算法則是采用分布式訓(xùn)練分布式執(zhí)行的模式,各智能體都將其他智能體視為環(huán)境的一部分,無論是在模型訓(xùn)練階段還是模型執(zhí)行階段,都是獨(dú)立地根據(jù)自身的觀測信息進(jìn)行獨(dú)立決策.
本文設(shè)計(jì)了一個(gè)通信受限條件下的體系“任務(wù)—作戰(zhàn)單元”匹配的任務(wù)場景,在該任務(wù)場景中,設(shè)計(jì)體系中擁有相同數(shù)量的作戰(zhàn)單元節(jié)點(diǎn)和作戰(zhàn)任務(wù)節(jié)點(diǎn),各作戰(zhàn)單元和作戰(zhàn)任務(wù)節(jié)點(diǎn)分別位于場景中一個(gè)隨機(jī)生成的位置上,該位置的坐標(biāo)在[-1,+1]×[-1,+1]×[-1,+1]范圍內(nèi)隨機(jī)生成,此外每個(gè)作戰(zhàn)單元都擁有3 種類型能力,各能力的取值采用均勻分布的形式在一定的數(shù)據(jù)范圍內(nèi)隨機(jī)生成,同樣的每個(gè)任務(wù)目標(biāo)也有一定的能力需求對(duì)應(yīng)于作戰(zhàn)單元所能提供的3 種能力,任務(wù)目標(biāo)的能力需求也采用均勻分布的形式在一定的數(shù)據(jù)范圍內(nèi)隨機(jī)生成. 由于敵方通信干擾等因素的影響,各作戰(zhàn)單元間不能進(jìn)行通信,同時(shí)場景中也不存在一個(gè)中心決策節(jié)點(diǎn)來協(xié)調(diào)各作戰(zhàn)單元的決策,因此,各作戰(zhàn)單元需要根據(jù)自身的狀態(tài)信息和觀測信息獨(dú)立地進(jìn)行決策,決策內(nèi)容是選擇哪一個(gè)任務(wù)目標(biāo)作為自己的目標(biāo)節(jié)點(diǎn). 由于所設(shè)計(jì)的體系任務(wù)分配場景屬于是合作型的任務(wù),各作戰(zhàn)單元希望通過合作達(dá)到體系總體決策效果最優(yōu),因此,將各作戰(zhàn)單元的任務(wù)分配整體效果作為各智能體的獎(jiǎng)勵(lì)值.
所有算法都采用Python 進(jìn)行實(shí)現(xiàn),并在同一臺(tái)配置了Geforce RTX3090 顯卡、Intel 16-Core i9-11900K CPU 的計(jì)算機(jī)上運(yùn)行. 基于MADDPG 算法的體系任務(wù)分配模型網(wǎng)絡(luò)主要超參數(shù)如表1 所示,為了保證一致,對(duì)比算法DDPG 采用相同的網(wǎng)絡(luò)參數(shù).
表1 模型網(wǎng)絡(luò)超參數(shù)Table 1 Hyperparameters of model network
集中式訓(xùn)練的多智能體強(qiáng)化學(xué)習(xí)算法和分布式訓(xùn)練的多智能體強(qiáng)化學(xué)習(xí)算法,在解決體系的“任務(wù)—作戰(zhàn)單元”匹配任務(wù)時(shí)的模型訓(xùn)練曲線如圖8 和圖9 所示,橫坐標(biāo)表示訓(xùn)練的回合數(shù),縱坐標(biāo)表示智能體得到的平均獎(jiǎng)勵(lì)值. 可以看到,隨著訓(xùn)練進(jìn)程的推進(jìn),采用集中式訓(xùn)練的多智能體強(qiáng)化學(xué)習(xí)算法進(jìn)行訓(xùn)練的智能體所得到的獎(jiǎng)勵(lì)值不斷增大,最終穩(wěn)定在0.6 左右的水平,曲線收斂. 在模型訓(xùn)練剛開始的時(shí)候,智能體所得到的獎(jiǎng)勵(lì)值是小于0 的,也就是智能體還沒有學(xué)會(huì)與其他智能體進(jìn)行任務(wù)協(xié)同分配,導(dǎo)致體系的任務(wù)分配出現(xiàn)有的任務(wù)被多個(gè)智能體選擇,而有的任務(wù)沒有被選擇的現(xiàn)象,而隨著訓(xùn)練進(jìn)程的推進(jìn),由于環(huán)境反饋?zhàn)饔玫挠绊?智能體逐漸學(xué)會(huì)了與其他智能體進(jìn)行任務(wù)協(xié)同分配,即使在沒有中心決策節(jié)點(diǎn)進(jìn)行協(xié)調(diào)的情況下,各智能體依然能夠根據(jù)自身的狀態(tài)信息和觀測到的信息,采用分布式?jīng)Q策的方式獨(dú)立地作出使得體系的效能最大的任務(wù)分配方案. 相對(duì)應(yīng)地,采用分布式訓(xùn)練的多智能體強(qiáng)化學(xué)習(xí)算法得到的獎(jiǎng)勵(lì)值始終為負(fù)數(shù),表示智能體沒有學(xué)會(huì)上述任務(wù)協(xié)同分配策略,隨著訓(xùn)練進(jìn)程的推進(jìn),各智能體沒有學(xué)會(huì)如何與其他智能體合作任務(wù)分配,主要原因是分布式訓(xùn)練模式下的多智能體強(qiáng)化學(xué)習(xí)算法中,智能體是將其他智能體視為環(huán)境的一部分,由于智能體的決策策略是在不斷改進(jìn)變化的,從而導(dǎo)致了環(huán)境的不穩(wěn)定性,而采用集中式訓(xùn)練分布式執(zhí)行模式的多智能體強(qiáng)化學(xué)習(xí)算法,在一定程度上緩解了環(huán)境不穩(wěn)定性所帶來的影響. 從上述實(shí)驗(yàn)結(jié)果來看,采用集中式訓(xùn)練分布式執(zhí)行模式的多智能體強(qiáng)化學(xué)習(xí)算法,來訓(xùn)練智能體在通信受限的場景下進(jìn)行分布式?jīng)Q策是有效的.
圖8 集中式訓(xùn)練的多智能體強(qiáng)化學(xué)習(xí)算法訓(xùn)練的智能體平均獎(jiǎng)勵(lì)曲線Fig.8 Mean reward curve of agent trained by centralized training multi-agent reinforcement learning algorithm
圖9 分布式訓(xùn)練的多智能體強(qiáng)化學(xué)習(xí)算法訓(xùn)練的智能體平均獎(jiǎng)勵(lì)曲線Fig.9 Mean reward curve of agent trained by decentralized training multi-agent reinforcement learning algorithm
隨著軍事裝備的快速發(fā)展,以及戰(zhàn)場環(huán)境的復(fù)雜多變,傳統(tǒng)的集中式?jīng)Q策模式越來越難以適應(yīng)未來戰(zhàn)爭的需求,邊緣作戰(zhàn)單元根據(jù)自身的狀態(tài)信息和觀測信息獨(dú)立地進(jìn)行決策將更加常見.
本文設(shè)計(jì)了一個(gè)在通信受限的場景下,作戰(zhàn)體系的“任務(wù)—作戰(zhàn)單元”匹配體系設(shè)計(jì)任務(wù),并基于多智能體強(qiáng)化學(xué)習(xí)技術(shù),提出了一個(gè)基于MADDPG算法的體系任務(wù)分配模型,該模型針對(duì)體系設(shè)計(jì)場景中的離散動(dòng)作空間,以及單步?jīng)Q策等問題進(jìn)行了相應(yīng)改進(jìn),并采用集中式訓(xùn)練和分布式執(zhí)行的模式,在模型訓(xùn)練階段各智能體的價(jià)值網(wǎng)絡(luò)將能夠獲取全局狀態(tài)信息來輔助策略網(wǎng)絡(luò)的訓(xùn)練,而在模型運(yùn)行階段,各智能體只需要根據(jù)自身的觀測信息就能快速獨(dú)立地進(jìn)行決策. 實(shí)驗(yàn)結(jié)果顯示,與分布式訓(xùn)練的多智能體強(qiáng)化學(xué)習(xí)算法相比,采用集中式訓(xùn)練的多智能體強(qiáng)化學(xué)習(xí)算法訓(xùn)練出來的各智能體,在進(jìn)行分布式?jīng)Q策時(shí)具備更高的協(xié)同能力,所作出的體系任務(wù)分配方案效率更高.