馮進,朱江,沈壽林
(南京陸軍指揮學(xué)院,南京210045)
一種基于分層智能混合決策的多Agent框架*
馮進,朱江,沈壽林
(南京陸軍指揮學(xué)院,南京210045)
智能對于指揮決策模型非常重要,也是提高模擬訓(xùn)練和作戰(zhàn)實驗質(zhì)量的關(guān)鍵。作戰(zhàn)中指揮決策內(nèi)容多,問題性質(zhì)不一,對智能要求高。在分析指揮控制模型發(fā)展現(xiàn)狀基礎(chǔ)上提出模型對智能的需求,分析設(shè)定了智能的5個層次,提出一種混合Agent框架,并在框架中對每一層智能給出解決方案,框架兼具認知Agent、BDI Agent和刺激反應(yīng)Agent的優(yōu)長,對構(gòu)建智能化的訓(xùn)練和實驗系統(tǒng)有較大幫助。框架在指揮裝備作戰(zhàn)運用實驗中得到應(yīng)用,具有較好的理論意義和應(yīng)用價值。
智能,多Agent,指揮控制,決策模型
當(dāng)今,模擬訓(xùn)練和作戰(zhàn)實驗對指揮決策模型的要求日益增高。模擬訓(xùn)練需要解決導(dǎo)調(diào)人員偏多,人工干預(yù)過頻,模擬藍軍不像的問題;作戰(zhàn)實驗需要解決實驗可信度不高、難以自動探索想定空間的問題。這對指揮決策模型的智能性提出了需求。
傳統(tǒng)指揮控制使用僵死的、靜態(tài)的公式,無法建模認知、無法體現(xiàn)智能。1998年,美國國防部DMSO指出目前決策模型存在的缺陷與具體的改進方法,成立“人員行為和指揮決策建?!睂<医M,展開了前瞻性研究。在個體決策方面,Klein在1998年提出識別決定(RPD)模型,使軍事決策者在困難環(huán)境和有時間壓力的情況下決策;Rasmussen和Vicente的Decision模型對指揮中的認知決策過程進行描述;Bryant于2003年提出了批評、評估、比較和適應(yīng)(CECA)模型,該模型以目標(biāo)導(dǎo)向的心理模型為基礎(chǔ),給出認知控制方法,能揭示指揮決策中的對抗機制。美軍提出一種較新的框架——PMFService集成框架,PMFService由DMSO資助,以現(xiàn)有各種行為建模文獻中所包含的關(guān)于個人認知模型為基礎(chǔ)建立的一個統(tǒng)一的行為體系結(jié)構(gòu),旨在描述生理、壓力、個性、文化、情感和社會關(guān)系對人進行決策的影響,并利用該框架模擬美軍士兵、恐怖分子和民眾的行為,重演美軍在索馬里的“黑鷹墜落”事件。
Agent內(nèi)部過程與指揮決策過程有自然的相似之處,還可以構(gòu)建信念、個性、壓力、感情[2-7],這類似于一個鮮活的人。目前,使用Agent構(gòu)建指揮實體是各國軍隊的主流做法。美軍就明確提出基于A-gent來構(gòu)建指揮實體,從上世紀90年代執(zhí)行CFOR計劃,開發(fā)一類具有完全自主能力的合成指揮實體(主要是營、連級別),它具有任務(wù)分析、計劃作業(yè)、通信協(xié)調(diào)、指揮控制、戰(zhàn)場監(jiān)視、任務(wù)監(jiān)視等功能。1997年,美軍考慮了戰(zhàn)場壓力、疲勞程度、訓(xùn)練水平及個人差別,設(shè)計一個能有效仿真更高指揮層次的高級指揮模型ASTT-ASCF,使指揮Agent具有智能性和真實性[1]。國內(nèi)也有構(gòu)建具有認知能力和學(xué)習(xí)能力的Agent相關(guān)研究[8-9]。
智能由低到高劃分為簡單的反應(yīng)、組合的反應(yīng)、學(xué)習(xí)、推理、綜合等層次,高級智能行為往往比較復(fù)雜,執(zhí)行需要更多的時間,而低級智能行為往往簡單而迅捷。
指揮決策涉及不同層次的指揮所、指揮裝備實體,其指揮決策內(nèi)容不同,對智能的需求也不同。對于指揮裝備,它們對技術(shù)操作層面產(chǎn)生的物理行為進行決策,要求能感知環(huán)境、察覺和說明態(tài)勢、判斷和控制動作,通常決策突然且情況嚴峻,需要在很短的時間內(nèi)作出反應(yīng),對簡單的反應(yīng)、組合的反應(yīng)等智能行為較為青睞。
對于分隊以上的高級指揮所,通常根據(jù)戰(zhàn)斗使命,對將來作推理和規(guī)劃,在一定的時間約束以及資源約束范圍內(nèi)形成一個行動序列方案,生成命令傳遞給低級指揮所和行動實體。這種人工智能范疇的任務(wù)規(guī)劃,實際上是一種問題求解技術(shù),即要具有識別對象和事件的能力、表達環(huán)境模型中的知識、發(fā)現(xiàn)一系列行為或構(gòu)造一系列步驟,以達到最優(yōu)或滿意的解決方案。這往往需要學(xué)習(xí)、推理以及綜合的智能行為。
體系結(jié)構(gòu)決定了模型的整體結(jié)構(gòu)形式和運行方式,目前有很多Agent體系結(jié)構(gòu)[10-11],主要歸類為慎思式體系結(jié)構(gòu)(BDI Agent)和反應(yīng)式體系結(jié)構(gòu)(刺激反應(yīng)Agent)。作戰(zhàn)過程是動態(tài)變化的過程,一般都會包含變化著的作戰(zhàn)目的,慎思式體系結(jié)構(gòu)的規(guī)劃庫難以窮盡所有作戰(zhàn)目的,而反應(yīng)式體系結(jié)構(gòu)面臨著如何將作戰(zhàn)目的融入到個體所感知的具體局部激勵信息。它們都存在難以克服的弱點,即如何執(zhí)行上級全局意義的命令。
本文設(shè)計一種用于指揮決策的混合Agent框架,Agent是各層次的指揮實體,框架的示意如圖1。指揮Agent內(nèi)部都有一個感知、認知、決策、行動的過程,Agent內(nèi)部模塊包括:①通信模塊。主要負責(zé)指揮Agent與外部的通信聯(lián)絡(luò),體現(xiàn)指揮Agent間的交互,指揮命令的上傳下達等。②感知模塊。主要負責(zé)指揮Agent感知戰(zhàn)場態(tài)勢和外部環(huán)境的變化。③決策模塊。是指揮Agent的核心,它針對所要達成的目標(biāo),進行作戰(zhàn)決策,并產(chǎn)生作戰(zhàn)行動過程序列。④執(zhí)行模塊。產(chǎn)生指揮Agent的輸出,產(chǎn)生狀態(tài)空間的軌跡(運動),表現(xiàn)為行動過程序列;最終以并行或者串行的方式向戰(zhàn)場輸出移動、射擊、防護、通信等動作;⑤知識庫。是進行推理的知識來源,它包括對世界的認識模型,還包括戰(zhàn)術(shù)規(guī)則庫和經(jīng)驗知識庫,戰(zhàn)術(shù)規(guī)則用來進行戰(zhàn)術(shù)推理,而經(jīng)驗知識用于處理緊急戰(zhàn)場情況。
Agent在輸出物理動作過程中產(chǎn)生與戰(zhàn)場環(huán)境之間的能量、信息和物質(zhì)交互,執(zhí)行的結(jié)果也通過實體內(nèi)部狀態(tài)、環(huán)境的改變以及其他實體的行為改變來體現(xiàn)。
3.1 智能級別1:簡單的反應(yīng)
簡單的反應(yīng)是Agent為應(yīng)對外部刺激而作出的簡單決策。其依據(jù)自身狀態(tài)和外界環(huán)境的改變或其他實體行為的改變引起觸發(fā)事件,并通過刺激-反應(yīng)規(guī)則來動態(tài)地改變自己的行為。在上世紀60年代初期,科學(xué)家只構(gòu)建激勵-響應(yīng),而不考慮心智、意識,這是一種簡單的智能。
If滿足條件Then執(zhí)行行動
在執(zhí)行過程中根據(jù)各觸發(fā)器的優(yōu)先級開啟相應(yīng)的觸發(fā)器。一般認為,命令觸發(fā)器具有較高的優(yōu)先級、狀態(tài)觸發(fā)器次之、態(tài)勢觸發(fā)器最低。
3.2 智能級別2:組合的反應(yīng)
組合的反應(yīng)是應(yīng)用一組具有領(lǐng)域知識的組合。相比較孤立的規(guī)則,把注意力集中在讓規(guī)則鏈接起來控制規(guī)則的交互影響。組合反應(yīng)可用下式表示:
其中,Ω是對領(lǐng)域的認識,Ω=(D,P,T,A),D包含了Ω所能觀察到的所有領(lǐng)域特性,P是Ω的問題域,包含了所發(fā)生的狀態(tài),T是一個自然規(guī)律集,能解釋P中所有狀態(tài)。A是Ω中關(guān)于P的回答集,A中每一個元素都是關(guān)于某個狀態(tài)P的回答。
例如,建立基于個性的行動決策。Ω就是個性所在心理學(xué)領(lǐng)域的相關(guān)認識,P'是要表示的個性集合,F(xiàn)是將真實心理學(xué)個性映射到Agent的決策個性,采用的是個性因子的表達:
個性因子有6類,ω1為冒險因子,ω2為保守因子,ω3樂觀因子,ω4悲觀因子,ω5沖動因子,ω6理智因子。I是方法集,對冒險與保守,引入效用曲線實現(xiàn);樂觀與悲觀可通過權(quán)重方程體現(xiàn);沖動與慎思可通過設(shè)置抑制閾值實現(xiàn)等,R就是在決策個性下Agent行動。
If Agent具有某種個性,當(dāng)滿足條件時Then執(zhí)行行動。
3.3 智能級別3:學(xué)習(xí)
學(xué)習(xí)是根據(jù)經(jīng)驗,通過泛化增強規(guī)則。Agent實體通過不斷嘗試,初始時,選擇一個行動的傾向(Propensity),然后,根據(jù)各個行動的傾向計算選擇概率,按概率選擇行動,并根據(jù)該行動的回報調(diào)整其傾向。作用于環(huán)境,導(dǎo)致某種反饋,從環(huán)境中得到獎懲的方法來不斷地“學(xué)習(xí)”和“積累經(jīng)驗”,從而發(fā)現(xiàn)或逼近能夠得到最大獎勵的策略。常常采用Q-Learning算法、Roth-Erev算法等。
在Roth-Erev算法中,實現(xiàn)中關(guān)鍵的兩步是行動傾向的更新和從傾向到概率的轉(zhuǎn)化。行動傾向的更新方法為:
其中,變量t為時刻,qi為選擇行動j的傾向,k為上次選擇的行動,rk為選擇行動k的回報,N為所有行動的個數(shù),ξ為經(jīng)驗系數(shù),φ是更新系數(shù)。
上式含義為對上輪采取的行動k,其新的選擇趨向是以前的選擇傾向和上輪所獲回報的組合,回報越大,該行動傾向的增量也越大,而其他行動的選擇傾向以相同程度發(fā)生小的調(diào)整,這樣隨著主體行動歷史,獲得較高回報的行動選擇傾向會增大,而低回報的行動選擇傾向會減少。
3.4 智能級別4:推理——規(guī)則發(fā)現(xiàn)和規(guī)則構(gòu)建
前述的3個級別智能,都與規(guī)則有關(guān),但不能在多層次上推理,也不使用帶有約束的模型,不從多個角度觀察問題,也不知道何時破除固有規(guī)則。簡單的啟發(fā)式規(guī)則對待優(yōu)化問題較難適應(yīng),當(dāng)這種Agent在涉及復(fù)雜的路徑規(guī)劃、任務(wù)分配、協(xié)同等決策任務(wù)時不能勝任。
Agent的BDI(Belief,Desire,Intention)模型借鑒了心理學(xué)的研究成果,對于一些未知情況模擬人的思維進行假設(shè),重在描述人的思維狀態(tài)屬性,強調(diào)行為由其內(nèi)部狀態(tài),即心智狀態(tài)驅(qū)動,在變化的環(huán)境中,通過改變心智狀態(tài)作出適應(yīng)環(huán)境的行為。其具有心智,能自我推理,發(fā)現(xiàn)規(guī)則和建立新的分辨率層次。
該模型側(cè)重于形式化描述信念、愿望和意圖,當(dāng)涉及到意圖、信念等的決策表達,可以使用BDI框架,它是一個符號世界模型和推理引擎,處理信息在高層次的抽象,提供計劃和作出決策。信念是指揮Agent的當(dāng)前狀態(tài),是指它所擁有的關(guān)于陸軍作戰(zhàn)指揮相關(guān)的背景知識以及所面對的戰(zhàn)場態(tài)勢,包括對敵情、我情和友情的感知以及在知識庫、模型庫、數(shù)據(jù)庫支持下的對當(dāng)前態(tài)勢的分析判斷、評估和預(yù)測。愿望是指揮Agent在感知戰(zhàn)場情況后,要達到的作戰(zhàn)目標(biāo)。它是指揮Agent一切行為的起始點。指揮Agent的愿望就是根據(jù)當(dāng)前變化的態(tài)勢、對態(tài)勢的分析以及要達到的作戰(zhàn)目標(biāo),在知識庫、模型庫和數(shù)據(jù)庫的支持下而進行的決策與規(guī)劃。意圖是指揮Agent為實現(xiàn)愿望準備采取的具體的行動計劃,包括作戰(zhàn)計劃的制定、計劃協(xié)調(diào)與作戰(zhàn)命令的生成,是指揮Agent根據(jù)作戰(zhàn)方案、兵力兵器情況,通過與其他指揮Agent的協(xié)調(diào)進行作戰(zhàn)計劃制定的過程,也是作戰(zhàn)任務(wù)與作戰(zhàn)兵力、武器裝備進行匹配的過程。
3.5 智能級別5:綜合
綜合是智能的高級階段,將多種智能方式結(jié)合可以在自主地應(yīng)對變化(反應(yīng)式體系結(jié)構(gòu))和有序地調(diào)控作戰(zhàn)(慎思式體系結(jié)構(gòu))之間平衡。指揮決策中很多情況需要規(guī)劃,采用BDI的慎思結(jié)構(gòu)進行決策。但是,當(dāng)任務(wù)主題的明確或者訓(xùn)練產(chǎn)生的條件反射,可以存在“蛙跳”現(xiàn)象,即不許復(fù)雜的規(guī)劃,而是從信息輸入階段直接進入了輸出控制階段。這就是刺激-反應(yīng)架構(gòu)進行決策,當(dāng)有特殊的信息如戰(zhàn)場情況發(fā)生劇變有可乘戰(zhàn)機,需要馬上采取行動,則將信息送往緊急反應(yīng)模塊。
還有決策不是一次性的,通過對環(huán)境的感知和交互,常需保持對作戰(zhàn)行動的跟蹤,看是否決策有效,如果情況發(fā)生變化,則立即進行重新決策。每一次決策情況又可用來學(xué)習(xí)。構(gòu)建對被分配任務(wù)的響應(yīng)和學(xué)習(xí)規(guī)則,據(jù)此調(diào)整各自的行為策略,表現(xiàn)出決策在時間軸上不間斷的優(yōu)化與適應(yīng)。
運用多層智能的混合Agent框架有以下特點:①由于指揮實體Agent的封裝性和獨立性較強,具有較好的模型重用性,可以使一些成熟、典型的A-gent得到廣泛應(yīng)用;②Agent具有自主性、學(xué)習(xí)性,能夠像人一樣決策,并能夠?qū)W習(xí)以前的行為結(jié)果、任務(wù)完成情況的反饋以及其他Agent的行為,從而改變自身的行為策略,不斷優(yōu)化,增強智能;③是A-gent內(nèi)部過程與指揮決策過程有自然的相似之處,指揮Agent能夠接收其他Agent和外界環(huán)境的信息,并按照自身規(guī)則和約束對信息進行處理,并輸出命令,代替指揮所完成既定任務(wù)。
由于人工智能技術(shù)發(fā)展的限制,指揮實體的信念、愿望、意圖等難以刻畫,認知行為模型有待完善。認知生命和智能依然隱藏著未知的機制。目前人工智能領(lǐng)域?qū)@些機理的研究還舉步維艱,這些約束了認知、思維建模向深層次發(fā)展。本文還是一個探索階段,有待進一步提升實用性和系統(tǒng)性。
[1]DEBORAH V.Commander behavior and course of action selection in JWARS[C]//Proceedings of the 10th CGF&BR Conference,2001.
[2]MARIA S,CMY H,JOHN P.A common architecture for behavior and cognitive modeling[C]//2003 Conference on Behavior Representation in Modeling and Simulation,2003.
[3]CORY W,SCOTT N R,KAREN A H.Buliding a human behavior model for collaborative air-combat domain[C]//2006 Conference on Behavior Representation in Modeling and Simulation,2006.
[4]TURKIA M.A computational model of affects[C]//Simulating the Mind.Germany:Springer,2009:277-289.
[5]BARTENEVA D,LAU N,REIS L P.A computational studyonemotionsandtemperamentinMulti-agentsystem[DB/OL]2008,http://arxiv.org/abs/0809.4784.
[6]SLATER S,MORETON R,BUCKLEY K,et al.A review of agent emotion architectures[DB/OL].2008.http://www.eludamos.org/index.php/eludamos/article/viewArticle/44.
[7]BECKER C,LESSMANN N,KOPP S.et al.Connecting feelings and thoughts-modeling the interaction of emotion and cognition in embodied agents[C]//Proceedings of Seventh International Conference on Cognitive Modeling(ICCM-06).Ann Arbor,Michigan,USA,2006:32-37.
[8]韓月敏,林燕,劉非平,等.陸戰(zhàn)Agent學(xué)習(xí)機理模型研究[J].指揮控制與仿真,2010,32(1):13-17.
[9]胡記文,尹全軍,馮磊,等.基于前景理論的CGF Agent決策建模研究[J].國防科技大學(xué)學(xué)報,2010,32(4):131-136.
[10]JOHN A S.Enhanced Military Modeling Using a Multi-A-gent System Approach[C]//Proceeding of the 12th ICCRTS,2007.
[11]COSTANTINI S,TOCCHIO A,TONI F,et al.A multi-layered general agent model[C]//Artificial Intelligence and Human-Oriented Computing.Italy Rome:The 10th Congress of the Italian Association for Artificial Intelligence on AI*IA,2007:121-132.
A Hybrid Agent Architecture Based on Hierarchical Intelligence
FENG Jin,ZHU Jiang,SHEN Shou-lin
(Nanjing Army Command College,Nanjing 210045,China)
Modeling intelligence is very important for erecting C2(Command and Control)decision model,which is a key factor to improving the quality of simulation training and combat experiment.In joint combat senario,construction of decision model are used to meet various problem,and claim for different level of intelligence.This article analyses the current situation and the future requirements of modeling intelligence.A hybrid Agent architecture is proposed and five levels of intelligence are contained as a solution.The architecture contains both the advantages of the BDI Agent and the IFThen Agent.It benefits modeling training or experiment system with intelligence.This framework has been applied in C2 equipment combat application experiment,and it proved to have good significance and applied value.
intelligence,multi-Agent system,command and control,decision model
TP391.9
A
1002-0640(2017)01-0036-04
2015-10-05
2016-01-07
國家自然科學(xué)基金資助項目(71401177)
馮進(1980-),男,江蘇大豐人,講師。研究方向:軍事運籌。