• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度強(qiáng)化學(xué)習(xí)的空戰(zhàn)機(jī)動(dòng)決策試驗(yàn)

      2023-06-27 11:35:12章勝周攀何揚(yáng)黃江濤劉剛唐驥罡賈懷智杜昕
      航空學(xué)報(bào) 2023年10期
      關(guān)鍵詞:近距空戰(zhàn)航跡

      章勝,周攀,何揚(yáng),黃江濤,,劉剛,唐驥罡,賈懷智,杜昕

      1.中國(guó)空氣動(dòng)力研究與發(fā)展中心 空天技術(shù)研究所,綿陽(yáng) 621000

      2.中國(guó)空氣動(dòng)力研究與發(fā)展中心,綿陽(yáng) 621000

      3.西北工業(yè)大學(xué) 航空學(xué)院,西安 710000

      空戰(zhàn)智能決策將極大改變未來(lái)戰(zhàn)爭(zhēng)的形態(tài)與模式,對(duì)戰(zhàn)爭(zhēng)發(fā)展有著顛覆性的影響,隨著人工智能技術(shù)的快速進(jìn)步,智能為王的空戰(zhàn)時(shí)代已然呼之欲出[1]??諔?zhàn)智能決策模擬作戰(zhàn)飛行員在各種空戰(zhàn)態(tài)勢(shì)下對(duì)飛行器操縱的決策,它是智能作戰(zhàn)飛行器的“靈魂”和“大腦”。具有自主決策能力的飛行器在反應(yīng)速度上完勝人類,同時(shí)不用考慮飛行中人類的生理極限,其超算能力能更加準(zhǔn)確地預(yù)測(cè)戰(zhàn)斗的發(fā)展以取得對(duì)抗的主動(dòng)權(quán),但是飛行器空戰(zhàn)對(duì)抗問(wèn)題十分復(fù)雜,具有高動(dòng)態(tài)、強(qiáng)實(shí)時(shí)的特征與更大規(guī)模的解空間,這給空戰(zhàn)智能決策實(shí)現(xiàn)帶來(lái)了巨大的挑戰(zhàn)[2]。根據(jù)交戰(zhàn)范圍,空戰(zhàn)可劃分為近距空戰(zhàn)、中距空戰(zhàn)和遠(yuǎn)距空戰(zhàn)。雖然隨著空基武器的發(fā)展,空戰(zhàn)戰(zhàn)場(chǎng)已從近距拓展到中遠(yuǎn)距,但是近距空戰(zhàn)不僅沒(méi)有被忽視,而且相關(guān)技術(shù)得到了迅猛發(fā)展[3],研究表明:由于隱身以及電子對(duì)抗技術(shù)的進(jìn)步,未來(lái)仍有25%~40%的空戰(zhàn)會(huì)在近距離展開(kāi),因此近距空戰(zhàn)研究仍具有重要的現(xiàn)實(shí)意義[4]。近距空戰(zhàn)中,飛行器需要做大量戰(zhàn)術(shù)機(jī)動(dòng)以規(guī)避敵機(jī)并構(gòu)成武器發(fā)射條件,因此機(jī)動(dòng)決策是近距空戰(zhàn)決策的基礎(chǔ),也是近距空戰(zhàn)智能決策研究中需要解決的關(guān)鍵問(wèn)題[5]。

      國(guó)內(nèi)外學(xué)者針對(duì)近距空戰(zhàn)機(jī)動(dòng)智能決策開(kāi)展了大量研究,相關(guān)研究可以追溯到20世紀(jì)60年代美國(guó)航空航天局(National Aeronautics and Space Administration,NASA)蘭利研究中心的自適應(yīng)機(jī)動(dòng)邏輯(Adaptive Maneuvering Logic,AML)系統(tǒng)[6]。傳統(tǒng)的空戰(zhàn)機(jī)動(dòng)決策方法一般可以分為基于博弈理論的方法[7]、基于優(yōu)化理論的方法[8]和基于專家系統(tǒng)的方法[9]。在歷經(jīng)專家機(jī)動(dòng)邏輯、自動(dòng)規(guī)則生成與規(guī)則演進(jìn)階段后,空戰(zhàn)機(jī)動(dòng)智能決策取得了長(zhǎng)足的進(jìn)步與發(fā)展[2]。2016年6月,美國(guó)辛辛那提大學(xué)與空軍研究實(shí)驗(yàn)室發(fā)展了基于模糊樹(shù)的“Alpha空戰(zhàn)”系統(tǒng),該系統(tǒng)在模擬空戰(zhàn)中成功擊敗了擁有豐富經(jīng)驗(yàn)的退役美國(guó)空軍上?;鳌だ睿?0]。隨著深度學(xué)習(xí)的興起,目前人工智能(Artificial Intelligence,AI)已經(jīng)邁入深度學(xué)習(xí)時(shí)代,基于深度強(qiáng)化學(xué)習(xí)的智能決策研究取得了實(shí)質(zhì)性進(jìn)展[11-12],在2020年8月美國(guó)國(guó)防高級(jí)研究計(jì)劃局(Defense Advanced Research Projects Agency,DARPA)舉辦的“AlphaDogfight”人機(jī)空戰(zhàn)對(duì)抗賽中,蒼鷺公司設(shè)計(jì)的基于深度強(qiáng)化學(xué)習(xí)的空戰(zhàn)智能決策機(jī)以5∶0的比分完勝人類飛行員,引起了全球各國(guó)的密切關(guān)注[13-14]。國(guó)內(nèi)學(xué)者也開(kāi)展了基于深度強(qiáng)化學(xué)習(xí)的空戰(zhàn)機(jī)動(dòng)智能決策研究,將包括啟發(fā)式強(qiáng)化學(xué)習(xí)[15]、Q網(wǎng)絡(luò)強(qiáng)化學(xué)習(xí)[16]、深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法[17]、多智能體近端策略優(yōu)化(Multi-agent Proximal Policy Optimization MAPPO)算法[18]、極大極小深度Q網(wǎng)絡(luò)(Minimax Deep Q Network,Minimax DQN)算法[19]、雙延遲深度確定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient,TD3)算法[20]、多智能體TD3(Multi-agent TD3,MATD3)算法[21]在內(nèi)的各種先進(jìn)強(qiáng)化學(xué)習(xí)方法應(yīng)用于空戰(zhàn)決策背景問(wèn)題并進(jìn)行了數(shù)值仿真驗(yàn)證,其中文獻(xiàn)[20]基于人機(jī)對(duì)抗仿真平臺(tái)開(kāi)展了模擬空戰(zhàn),仿真結(jié)果表明智能決策機(jī)能夠在近距空戰(zhàn)過(guò)程中壓制人類“飛行員”。

      在算法研究蓬勃開(kāi)展的同時(shí),以美國(guó)為代表的西方國(guó)家還大力推進(jìn)空戰(zhàn)智能決策算法的落地應(yīng)用。在空戰(zhàn)演進(jìn)(Air Combat Evolution,ACE)項(xiàng)目的支持下,蒼鷺公司正在開(kāi)展將AI系統(tǒng)整合到L-39“信天翁”噴氣式飛機(jī)的研究,據(jù)報(bào)道目前已進(jìn)行了70多次飛行試驗(yàn)[22]。此外,美國(guó)空軍提出了天空博格人(Skyborg)AI空中對(duì)抗實(shí)驗(yàn)驗(yàn)證平臺(tái)項(xiàng)目,大力推進(jìn)從軟件算法到硬件實(shí)現(xiàn)相關(guān)技術(shù)的發(fā)展。相較于空戰(zhàn)智能決策算法的研究,目前國(guó)內(nèi)在空戰(zhàn)決策工程實(shí)現(xiàn)方面的研究相對(duì)較少,許多智能決策研究工作主要通過(guò)仿真進(jìn)行驗(yàn)證,而在軟硬件實(shí)現(xiàn)及飛行試驗(yàn)方面的工作鮮有報(bào)告。未來(lái)空戰(zhàn)是智能為王的時(shí)代[23],智能決策需要處理復(fù)雜的態(tài)勢(shì)信息并迅速實(shí)現(xiàn)空戰(zhàn)觀察-判斷-決策-行動(dòng)(Observation-Orientation-Decision-Action,OODA)環(huán)的閉環(huán),其中存在的巨大計(jì)算量對(duì)相應(yīng)的軟硬件體系架構(gòu)提出了特殊的要求。因此,發(fā)展?jié)M足智能決策需求的軟硬件架構(gòu)、將先進(jìn)的理論算法研究與可靠的工程技術(shù)實(shí)現(xiàn)相結(jié)合,解決工程應(yīng)用中的安全性、可靠性、遷移性等問(wèn)題,是推進(jìn)空戰(zhàn)智能決策技術(shù)落地應(yīng)用中十分重要的工作。

      本文針對(duì)雙機(jī)近距空戰(zhàn)機(jī)動(dòng)決策問(wèn)題,開(kāi)展機(jī)動(dòng)智能決策的模型設(shè)計(jì)、算法實(shí)現(xiàn)、硬件開(kāi)發(fā)與飛行試驗(yàn)研究。為了提高飛行器空戰(zhàn)機(jī)動(dòng)決策的可靠性,提出一種便于工程應(yīng)用的飛行器近距空戰(zhàn)智能機(jī)動(dòng)決策實(shí)現(xiàn)方法,通過(guò)結(jié)合成熟的飛行控制技術(shù),發(fā)展出基于航跡導(dǎo)引指令的空戰(zhàn)機(jī)動(dòng)決策與控制方案。為滿足空戰(zhàn)智能決策中深度神經(jīng)網(wǎng)絡(luò)巨大的計(jì)算量要求,設(shè)計(jì)一種將機(jī)動(dòng)智能決策與飛行自動(dòng)控制分離的硬件架構(gòu),以實(shí)現(xiàn)真實(shí)對(duì)抗環(huán)境下的在線智能決策計(jì)算。最后,開(kāi)展將智能無(wú)人機(jī)與人類“飛行員”遙控?zé)o人機(jī)進(jìn)行對(duì)抗的飛行試驗(yàn)。

      1 雙機(jī)近距空戰(zhàn)對(duì)抗數(shù)學(xué)模型

      1.1 飛機(jī)質(zhì)心運(yùn)動(dòng)動(dòng)力學(xué)模型

      首先定義飛機(jī)機(jī)體坐標(biāo)系b與地面坐標(biāo)系g[24],如圖1所示,體系b與飛機(jī)固連,原點(diǎn)ob位于飛機(jī)質(zhì)心,obxb軸在飛機(jī)對(duì)稱面內(nèi)并指向機(jī)頭,obyb軸垂直于飛機(jī)對(duì)稱面指向機(jī)身右方,obzb軸在飛機(jī)對(duì)稱面內(nèi)指向機(jī)身下方。地面坐標(biāo)系g采用北東地坐標(biāo)系,其原點(diǎn)og位于地面某點(diǎn),ogxg軸位于水平面,指向正北方向,ogyg軸指向正東方向,ogzg軸沿豎直方向,指向地心。由于地面坐標(biāo)系ogzg軸指向朝下,飛行器的高度為h=-z。飛機(jī)在地面系中的位置矢量為r=[xy-h]T,x、y分別為飛行器在地面坐標(biāo)系的橫坐標(biāo)與縱坐標(biāo);速度矢量為v。

      圖1 飛行器在地面坐標(biāo)系下的位置與速度Fig.1 Aircraft’s position and velocity in ground coordinate frame

      飛行器質(zhì)心運(yùn)動(dòng)學(xué)方程為

      飛機(jī)質(zhì)心動(dòng)力學(xué)方程為

      式中:v=[VcosγcosχVcosγsinχ-Vsinγ]T;V為速度幅值;χ為航跡方位角;γ為航跡傾角;F為飛機(jī)上受到的所有外力,包括氣動(dòng)力、發(fā)動(dòng)機(jī)推力與地球重力;m為飛機(jī)質(zhì)量,通過(guò)運(yùn)動(dòng)學(xué)方程,動(dòng)力學(xué)方程又可以寫(xiě)為

      由于飛行器推力一般沿著機(jī)體系的x軸方向,在假設(shè)飛行器側(cè)滑角為零的前提下,V、χ、γ的微分方程分別為

      式中:α為迎角;μ為速度滾轉(zhuǎn)角為發(fā)動(dòng)機(jī)油門(mén);T為發(fā)動(dòng)機(jī)推力;Tmax為發(fā)動(dòng)機(jī)最大推力,其一般為高度與馬赫數(shù)的函數(shù);D、L分別為飛機(jī)受到的阻力與升力;g為重力加速度。

      飛機(jī)氣動(dòng)力模型為

      式中:S為飛機(jī)參考面積為動(dòng)壓;ρ為大氣密度,為高度h的函數(shù);CD、CL分別為飛行器的阻力系數(shù)與升力系數(shù),不考慮舵面偏角與側(cè)滑角的影響,其均為迎角的函數(shù),可以寫(xiě)為CD=CD(α)、CL=CL(α)。

      綜上,飛行器航跡運(yùn)動(dòng)模型中,狀態(tài)量可取為X=[xyhVγχ]T,控制量可取為U=[αημ]T。

      1.2 雙機(jī)空戰(zhàn)對(duì)抗態(tài)勢(shì)評(píng)估

      雙機(jī)近距空戰(zhàn)場(chǎng)景如圖2所示,紅藍(lán)雙方飛行器在視距范圍內(nèi)進(jìn)行對(duì)抗,其中紅機(jī)的位置矢量表示為rR,速度矢量表示為vR,藍(lán)機(jī)的位置矢量表示為rB,速度矢量表示為vB,以紅機(jī)為參考,從紅機(jī)指向藍(lán)機(jī)的位置矢量為rRB=rB-rR,藍(lán)機(jī)相對(duì)于紅機(jī)的速度矢量為vRB=vB-vR??諔?zhàn)中,飛行器將綜合敵我雙方狀態(tài)信息,通過(guò)機(jī)動(dòng)獲取有利態(tài)勢(shì),達(dá)到目標(biāo)鎖定與武器發(fā)射條件,實(shí)現(xiàn)有效消滅對(duì)方、同時(shí)保存自身的作戰(zhàn)目的。

      圖2 雙機(jī)近距空戰(zhàn)對(duì)抗場(chǎng)景示意圖Fig.2 Schematic diagram of one-to-one fighters’close-range air combat scene

      近距空戰(zhàn)中影響空戰(zhàn)態(tài)勢(shì)的因素包括2個(gè)方面:一是飛機(jī)靜態(tài)性能因素,如飛機(jī)本體性能、機(jī)載設(shè)備性能;二是基于空間位置、速度關(guān)系的動(dòng)態(tài)因素,包括角度、速度、高度、距離4個(gè)方面[25]。針對(duì)動(dòng)態(tài)因素進(jìn)行評(píng)估,通過(guò)考慮雙方的位置與速度,建立自身相對(duì)于對(duì)方的攻擊角度優(yōu)勢(shì)評(píng)估函數(shù)、速度優(yōu)勢(shì)評(píng)估函數(shù)、高度優(yōu)勢(shì)評(píng)估函數(shù)、距離優(yōu)勢(shì)評(píng)估函數(shù),從而實(shí)現(xiàn)對(duì)態(tài)勢(shì)的量化描述。下面以紅機(jī)為例,給出紅機(jī)相對(duì)于藍(lán)機(jī)的態(tài)勢(shì)優(yōu)勢(shì)評(píng)估函數(shù)。

      1) 角度優(yōu)勢(shì)評(píng)估函數(shù)

      如圖2所示,基于紅藍(lán)雙方的位置、速度信息,定義紅機(jī)的攻擊角φattR為

      式中:VR=‖‖vR為紅機(jī)的速度幅值。定義藍(lán)機(jī)的逃逸角φescB為

      式中:VB=‖vB‖為藍(lán)機(jī)的速度幅值。根據(jù)紅機(jī)的攻擊角與藍(lán)機(jī)的逃逸角,紅機(jī)的角度優(yōu)勢(shì)評(píng)估函數(shù)定義為

      顯然,當(dāng)紅機(jī)對(duì)藍(lán)機(jī)處于理想尾追狀態(tài)時(shí)fφ=1,反之fφ=0。

      2) 速度優(yōu)勢(shì)評(píng)估函數(shù)

      速度優(yōu)勢(shì)主要基于雙方的速度幅值進(jìn)行定義,紅機(jī)的速度優(yōu)勢(shì)評(píng)估函數(shù)公式[26]為

      式中:Vopt為紅機(jī)的最佳空戰(zhàn)速度。

      3) 高度優(yōu)勢(shì)評(píng)估函數(shù)

      高度優(yōu)勢(shì)評(píng)估函數(shù)[20]為

      式中:評(píng)估函數(shù)?的計(jì)算公式[26]為

      式中:hR、hB分別為紅機(jī)和藍(lán)機(jī)的高度;hopt為最佳空戰(zhàn)高度。調(diào)整評(píng)估量Δfh為

      式中:γR為紅機(jī)的航跡傾角;Vopt為最佳空戰(zhàn)速度;h0為一個(gè)常值參數(shù)。之所以引入Δfh是因?yàn)檠芯堪l(fā)現(xiàn)當(dāng)對(duì)抗雙方高度較低時(shí),飛行器有較大概率在敵機(jī)的誘導(dǎo)下墜地,因此引入該項(xiàng)來(lái)評(píng)價(jià)飛機(jī)在高度過(guò)低時(shí)自主糾正高度對(duì)態(tài)勢(shì)的影響[20]。當(dāng)飛機(jī)高度較大時(shí),Δfh較小,對(duì)高度優(yōu)勢(shì)評(píng)估函數(shù)fh影響較??;當(dāng)飛機(jī)高度較小時(shí),Δfh較大,此時(shí)高度評(píng)估函數(shù)對(duì)高度變化比較敏感,飛機(jī)增加高度可以獲得更大的優(yōu)勢(shì),避免墜地。4) 距離優(yōu)勢(shì)評(píng)估函數(shù)距離優(yōu)勢(shì)評(píng)估函數(shù)為

      式中:‖rRB‖為雙機(jī)之間的距離;dopt為紅機(jī)的最佳空戰(zhàn)距離;d0為一個(gè)常值參數(shù)。

      綜合上述4個(gè)評(píng)估函數(shù),最終的態(tài)勢(shì)優(yōu)勢(shì)評(píng)估函數(shù)為

      式中:ωφ、ωV、ωh、ωd分別為角度優(yōu)勢(shì)、速度優(yōu)勢(shì)、高度優(yōu)勢(shì)、距離優(yōu)勢(shì)評(píng)估函數(shù)對(duì)應(yīng)的權(quán)重參數(shù)。

      2 空戰(zhàn)機(jī)動(dòng)深度強(qiáng)化學(xué)習(xí)決策機(jī)設(shè)計(jì)

      決策機(jī)設(shè)計(jì)是飛行器近距空戰(zhàn)機(jī)動(dòng)決策飛行試驗(yàn)的基礎(chǔ)。如圖3所示方案,在針對(duì)具體飛行器建模構(gòu)建仿真平臺(tái)形成虛擬交互環(huán)境的基礎(chǔ)上,綜合強(qiáng)化學(xué)習(xí)的探索與利用、優(yōu)先經(jīng)驗(yàn)回放等機(jī)制,首先開(kāi)展近距空戰(zhàn)機(jī)動(dòng)深度強(qiáng)化學(xué)習(xí)決策機(jī)設(shè)計(jì),并通過(guò)數(shù)值仿真驗(yàn)證決策機(jī)的性能;然后進(jìn)一步針對(duì)工程實(shí)現(xiàn)發(fā)展可行的空戰(zhàn)機(jī)動(dòng)決策及控制架構(gòu),進(jìn)行相應(yīng)的飛行硬件實(shí)現(xiàn)與機(jī)載算法開(kāi)發(fā);最后開(kāi)展雙機(jī)近距空戰(zhàn)對(duì)抗飛行演示試驗(yàn),驗(yàn)證智能決策技術(shù)。本節(jié)介紹深度強(qiáng)化學(xué)習(xí)智能決策機(jī)的具體設(shè)計(jì)。

      圖3 飛行器近距空戰(zhàn)機(jī)動(dòng)決策飛行試驗(yàn)研究方案Fig.3 Research scheme for the flight test of maneuver decision-making in aircraft close-range air combat

      深度強(qiáng)化學(xué)習(xí)結(jié)合了強(qiáng)化學(xué)習(xí)的決策能力與深度學(xué)習(xí)的特征提取能力[27],是實(shí)現(xiàn)AI的重要途徑,AlphaGo之父Silver[28]甚至提出“AI=強(qiáng)化學(xué)習(xí)+深度學(xué)習(xí)”。深度強(qiáng)化學(xué)習(xí)與空戰(zhàn)問(wèn)題的交叉融合,為空戰(zhàn)智能決策的實(shí)現(xiàn)提供了新的途徑??諔?zhàn)中,飛行器將在機(jī)載雷達(dá)等傳感器設(shè)備與后端指揮控制系統(tǒng)的信息支援下展開(kāi)作戰(zhàn),為簡(jiǎn)化問(wèn)題,本文假設(shè)對(duì)抗時(shí)飛行器可以通過(guò)本體及支援信息系統(tǒng)獲得對(duì)方的航跡運(yùn)動(dòng)信息,包括位置信息與速度信息。結(jié)合飛行器自身的狀態(tài)數(shù)據(jù),雙機(jī)空戰(zhàn)機(jī)動(dòng)智能決策問(wèn)題中的狀態(tài)信息可設(shè)定為確定維數(shù)的矢量,由于“全連接”前饋型多隱層深度神經(jīng)網(wǎng)絡(luò)適合于該類輸入下決策機(jī)的建模,因此本文采用該種神經(jīng)網(wǎng)絡(luò)模型進(jìn)行建模。訓(xùn)練方面,綜合目前解決“連續(xù)狀態(tài)、連續(xù)動(dòng)作”類型問(wèn)題的主流深度強(qiáng)化學(xué)習(xí)算法,本文選擇TD3方法進(jìn)行智能決策機(jī)的訓(xùn)練,它采用Actor-Critic架構(gòu),具有良好的數(shù)據(jù)利用效率與收斂性[29]。

      針對(duì)Defender 180模型飛機(jī)(見(jiàn)圖4)開(kāi)展研究,飛機(jī)質(zhì)量為m=2.8 kg,翼展為180 cm,參考面積為S=0.456 m2,最大推力為T(mén)max=13.2 N,飛機(jī)氣動(dòng)力模型采用計(jì)算流體動(dòng)力學(xué)(Computational Fluid Dynamics,CFD)數(shù)值軟件進(jìn)行計(jì)算,圖5給出了相關(guān)結(jié)果,圖中方格點(diǎn)代表CFD計(jì)算的狀態(tài)點(diǎn)。

      圖4 Defender 180模型飛機(jī)Fig.4 Defender 180 model aircraft

      圖5 Defender 180飛機(jī)氣動(dòng)力模型Fig.5 Aerodynamic model of Defender 180 aircraft

      神經(jīng)網(wǎng)絡(luò)決策機(jī)的特征輸入量選擇中,理論上能完全表征敵我狀態(tài)的數(shù)據(jù)都可以用作神經(jīng)網(wǎng)絡(luò)的輸入,但在實(shí)踐中特征量的具體選取對(duì)決策機(jī)的訓(xùn)練效率以及后續(xù)應(yīng)用影響很大。參考文獻(xiàn)[20],輸入量包括對(duì)抗雙方的相對(duì)位置rRB、相對(duì)速度vRB等信息。雖然rRB、vRB采用機(jī)體視角下的描述更易于強(qiáng)化學(xué)習(xí)的定解與收斂,但對(duì)工程實(shí)現(xiàn)而言,采用地面系下描述的rRB、vRB可以避免工程實(shí)現(xiàn)中將位速信息轉(zhuǎn)化為體系下的描述時(shí)引入的誤差,具有更好的實(shí)用性能。

      采用Pytorch進(jìn)行智能決策機(jī)建模,Actor神經(jīng)網(wǎng)絡(luò)模型包含7層,其中輸出層有3個(gè)輸出單元,代表飛行器質(zhì)心運(yùn)動(dòng)模型的3個(gè)控制量:迎角α、油門(mén)η、速度滾轉(zhuǎn)角μ,模型中5個(gè)隱藏層的單元數(shù)均取為256,采用ReLU(Recified Linear Unit)激活函數(shù),輸出層為T(mén)anh激活函數(shù)。由于動(dòng)作價(jià)值函數(shù)更為復(fù)雜,Critic網(wǎng)絡(luò)模型為11層結(jié)構(gòu),除輸入層與輸出層外,還有9個(gè)隱藏層,隱藏層單元數(shù)均取為256,激活函數(shù)為ReLu函數(shù),輸出層為線性輸出。

      飛行器空戰(zhàn)的目的是消滅對(duì)方、保存自身,其本質(zhì)上是零和博弈問(wèn)題,理論上只有對(duì)抗結(jié)束后才能給出最終的確切獎(jiǎng)勵(lì),但是由于動(dòng)態(tài)對(duì)抗態(tài)勢(shì)對(duì)飛行器空戰(zhàn)博弈十分重要,本文利用獎(jiǎng)勵(lì)重塑技術(shù)[20],通過(guò)將態(tài)勢(shì)評(píng)估函數(shù)值作為獎(jiǎng)勵(lì)引導(dǎo)飛行器占據(jù)對(duì)抗優(yōu)勢(shì),從而避免稀疏獎(jiǎng)勵(lì)帶來(lái)的訓(xùn)練難以收斂的問(wèn)題,因此,獎(jiǎng)勵(lì)函數(shù)構(gòu)造為

      根據(jù)具體研究對(duì)象以及近距空戰(zhàn)中不同優(yōu)勢(shì)評(píng)估函數(shù)的重要程度,獎(jiǎng)勵(lì)計(jì)算中相關(guān)參數(shù)的取值如表1所示。

      表1 態(tài)勢(shì)評(píng)估函數(shù)中的參數(shù)取值Table 1 Value of parameters in situation assessment function

      雙機(jī)近距空戰(zhàn)機(jī)動(dòng)決策機(jī)訓(xùn)練中,紅藍(lán)雙方飛機(jī)均為Defender 180,紅機(jī)(智能體)的初始位置坐標(biāo)為rR=[00hR]T,其中hR服從[10,200]m區(qū)間的均勻分布,速度指向正東,藍(lán)機(jī)(敵方)在以紅機(jī)為中心的立方體空間位置區(qū)域中隨機(jī)出現(xiàn),速度方向及大小隨機(jī)。決策機(jī)訓(xùn)練中一個(gè)周期(episode)長(zhǎng)度為1 000 ΔT,其中ΔT=0.1 s。在一個(gè)周期結(jié)束后對(duì)Critic網(wǎng)絡(luò)與Actor網(wǎng)絡(luò)參數(shù)同時(shí)進(jìn)行訓(xùn)練,mini-batch大小取為N=128,為提升訓(xùn)練效率,訓(xùn)練中采用了基于價(jià)值的優(yōu)先經(jīng)驗(yàn)樣本回訪技術(shù)[30],利用Adam優(yōu)化方法更新參數(shù),Critic網(wǎng)絡(luò)、Actor網(wǎng)絡(luò)的學(xué)習(xí)率分別取為2×10-4、1×10-4。圖6給出了訓(xùn)練過(guò)程中智能體的獎(jiǎng)勵(lì)曲線,從圖中可以看到,隨著訓(xùn)練次數(shù)的增加,智能體的平均獎(jiǎng)勵(lì)穩(wěn)步上升,當(dāng)訓(xùn)練輪數(shù)達(dá)到20 990次時(shí),智能體的平均獎(jiǎng)勵(lì)達(dá)到峰值,隨后趨于穩(wěn)定。

      圖6 空戰(zhàn)機(jī)動(dòng)智能決策機(jī)訓(xùn)練曲線Fig.6 Training profile of intelligent decision-making machine for air combat maneuver

      為驗(yàn)證訓(xùn)練得到的智能決策機(jī)的性能,將其與由專家系統(tǒng)驅(qū)動(dòng)的藍(lán)機(jī)進(jìn)行三自由度空戰(zhàn)對(duì)抗仿真[31],紅藍(lán)雙方從相同高度、相同速度、距離200 m相向飛行開(kāi)始,圖7給出三維空間中紅藍(lán)雙機(jī)對(duì)抗的場(chǎng)景,從圖中可以看到雙方為奪取態(tài)勢(shì)優(yōu)勢(shì)進(jìn)行了纏斗,藍(lán)機(jī)希望通過(guò)轉(zhuǎn)彎?rùn)C(jī)動(dòng),擺脫紅機(jī)的追逐,而紅機(jī)則利用更強(qiáng)的決策能力,在對(duì)抗中占據(jù)對(duì)抗優(yōu)勢(shì),將藍(lán)機(jī)置于自身的有效攻擊范圍之內(nèi)。圖8給出了雙方對(duì)抗過(guò)程中的態(tài)勢(shì)評(píng)估函數(shù),可以看到紅機(jī)在對(duì)抗期間的大部分時(shí)間內(nèi)占據(jù)了對(duì)抗優(yōu)勢(shì),說(shuō)明智能決策機(jī)的設(shè)計(jì)是有效的。

      圖7 紅藍(lán)雙機(jī)近距空戰(zhàn)對(duì)抗仿真空間三維航跡Fig.7 Simulated 3D trajectories of close-range air combat between red and blue aircraft

      圖8 紅藍(lán)雙機(jī)近距空戰(zhàn)對(duì)抗仿真態(tài)勢(shì)評(píng)估結(jié)果Fig.8 Simulated situation assessment results for closerange air combat between red and blue aircraft

      3 空戰(zhàn)機(jī)動(dòng)決策實(shí)現(xiàn)

      從虛擬仿真到真實(shí)飛行的遷移是智能空戰(zhàn)中需要解決的關(guān)鍵問(wèn)題[2]。由于虛擬仿真環(huán)境相對(duì)于真實(shí)物理環(huán)境始終存在誤差,導(dǎo)致在虛擬仿真環(huán)境中習(xí)得的最優(yōu)策略難以直接應(yīng)用于真實(shí)物理環(huán)境,因此,發(fā)展可靠的機(jī)動(dòng)決策及控制實(shí)現(xiàn)框架對(duì)智能空戰(zhàn)工程實(shí)踐十分重要。第2節(jié)設(shè)計(jì)的決策機(jī)處理特征輸入后最終輸出的是迎角等指令信息,而迎角指令的準(zhǔn)確性依賴于氣動(dòng)模型的準(zhǔn)確性,同時(shí)飛行中如果直接對(duì)迎角進(jìn)行控制,則需要昂貴的迎角傳感器提供迎角信息。尤其需要指出的是,不同的決策機(jī)可能給出不同的決策指令,如不同于本文神經(jīng)網(wǎng)絡(luò)決策機(jī)給出的是迎角、油門(mén)和速度滾轉(zhuǎn)角決策指令,專家系統(tǒng)可能給出的是標(biāo)準(zhǔn)機(jī)動(dòng)動(dòng)作模板[31],這會(huì)導(dǎo)致不同決策系統(tǒng)間無(wú)法兼容,而系統(tǒng)架構(gòu)實(shí)現(xiàn)的靈活性與通用性也是工程應(yīng)用中關(guān)注的重點(diǎn)之一。

      為了消除由于實(shí)際對(duì)象與理論模型間誤差引起的決策品質(zhì)降低,提高機(jī)動(dòng)控制的可靠性,本文發(fā)展了基于航跡導(dǎo)引指令的機(jī)動(dòng)實(shí)現(xiàn)方案,具體將迎角等指令轉(zhuǎn)換為航跡指令后再利用通用控制系統(tǒng)進(jìn)行跟蹤。圖9給出了飛行器近距空戰(zhàn)機(jī)動(dòng)決策及控制系統(tǒng)架構(gòu),其中包括3個(gè)層次:在確定近距空戰(zhàn)對(duì)抗任務(wù)后,無(wú)人機(jī)將根據(jù)近距空戰(zhàn)機(jī)動(dòng)決策機(jī),綜合敵我雙方狀態(tài)信息,通過(guò)一定的決策模型或算法,輸出飛行器機(jī)動(dòng)的航跡導(dǎo)引指令;而后無(wú)人機(jī)跟蹤控制器將實(shí)現(xiàn)決策機(jī)給出的航跡指令,通過(guò)一定的控制方法進(jìn)行解算,輸出氣動(dòng)舵面與發(fā)動(dòng)機(jī)油門(mén)控制指令;無(wú)人機(jī)接收控制指令進(jìn)行機(jī)動(dòng),奪取對(duì)抗態(tài)勢(shì)優(yōu)勢(shì)。

      圖9 飛行器近距空戰(zhàn)機(jī)動(dòng)決策及控制系統(tǒng)架構(gòu)Fig.9 Decision-making and control system architecture for close-range air combat maneuver of aircraft

      1) 機(jī)動(dòng)航跡導(dǎo)引指令計(jì)算

      不同的決策系統(tǒng)可能給出不同的決策指令,但無(wú)論何種動(dòng)作決策,其目的仍然是飛行器達(dá)到有利的對(duì)抗態(tài)勢(shì),而態(tài)勢(shì)優(yōu)勢(shì)體現(xiàn)在良好的位置與速度優(yōu)勢(shì),因此,空戰(zhàn)機(jī)動(dòng)的核心與關(guān)鍵是在空間中取得占優(yōu)的位速。為了提高機(jī)動(dòng)動(dòng)作實(shí)現(xiàn)的可靠性以及控制實(shí)現(xiàn)的通用性,消除諸如氣動(dòng)模型誤差帶來(lái)的不利影響,在第2節(jié)強(qiáng)化學(xué)習(xí)決策機(jī)給出的決策指令Uc=[αcηcμc]T中,將迎角指令αc與油門(mén)指令ηc轉(zhuǎn)換為航跡高度指令hc與速度幅值指令Vc,具體通過(guò)數(shù)值積分計(jì)算為

      式中:Δt為積分步長(zhǎng)分別為當(dāng)前t時(shí)刻紅機(jī)的速度幅值、航跡傾角、高度分別為預(yù)測(cè)的紅機(jī)下一步時(shí)刻t+Δt的速度幅值、航跡傾角、高度。通過(guò)式(19)~式(21),決策機(jī)最終給出的機(jī)動(dòng)航跡導(dǎo)引指令為

      2) 導(dǎo)引指令跟蹤控制

      針對(duì)機(jī)動(dòng)航跡導(dǎo)引指令,采用成熟的比例-積分-微分(Proportional-Integral-Derivative,PID)控制律進(jìn)行跟蹤[32],得到相應(yīng)的氣動(dòng)舵面與發(fā)動(dòng)機(jī)油門(mén)控制指令。

      對(duì)于高度指令hc,通過(guò)升降舵δe進(jìn)行調(diào)節(jié),控制律為

      式中:q為飛行器俯仰角速度;θ為俯仰角;θc為俯仰角指令;kq、kθ分別為俯仰角速度與俯仰角誤差的比例控制增益,俯仰角指令θc計(jì)算為

      式中:Vz為飛行器縱向速度;kh、kVz分別為高度控制與速度控制的比例增益;kih為高度控制的積分增益。

      對(duì)于速度指令Vc,通過(guò)油門(mén)η進(jìn)行控制,控制律為

      式中:V為飛行器速度幅值;kpV、kiV分別為速度誤差比例項(xiàng)與速度誤差積分項(xiàng)的控制增益。

      在側(cè)滑角β很小的情況下,飛行器的滾轉(zhuǎn)角?與速度滾轉(zhuǎn)角μ差別很小。因此,對(duì)于速度滾轉(zhuǎn)角指令μc,采用直接對(duì)滾轉(zhuǎn)角?進(jìn)行控制的方式實(shí)現(xiàn),取滾轉(zhuǎn)角指令為?c=μc,通過(guò)副翼δa進(jìn)行控制,飛行器滾轉(zhuǎn)角控制律為

      式中:p為飛行器滾轉(zhuǎn)角速度;kp、kp?分別為滾轉(zhuǎn)角速度和滾轉(zhuǎn)角誤差的比例控制增益;ki?為滾轉(zhuǎn)角誤差的積分控制增益。

      此外,將方向舵δr用于偏航速率阻尼、側(cè)滑消除與協(xié)調(diào)轉(zhuǎn)彎,其控制律形式為

      式中:r為飛行器偏航角速度;kr、kβ、kr?分別為偏航角速度誤差、側(cè)滑角、滾轉(zhuǎn)角的比例控制增益;rc為通過(guò)配合滾轉(zhuǎn)角實(shí)現(xiàn)協(xié)調(diào)轉(zhuǎn)彎求得的指令偏航角速度。由于目前飛機(jī)中沒(méi)有安裝側(cè)滑角傳感器,因此控制增益kβ置為0。

      4 飛行硬件及機(jī)載算法實(shí)現(xiàn)

      針對(duì)飛行試驗(yàn),將設(shè)計(jì)的決策機(jī)及控制器進(jìn)行工程實(shí)現(xiàn)。飛行器近距空戰(zhàn)對(duì)抗飛行試驗(yàn)方案如圖10所示,試驗(yàn)中,紅機(jī)為智能無(wú)人機(jī),采用本文發(fā)展的方法進(jìn)行機(jī)動(dòng)決策,藍(lán)機(jī)由人類“飛行員”進(jìn)行遙控操縱,雙方在視距范圍內(nèi)進(jìn)行對(duì)抗,飛行器狀態(tài)通過(guò)地面站進(jìn)行監(jiān)控。決策算法工程實(shí)現(xiàn)包括硬件方案及軟件架構(gòu)的確定,其中的重點(diǎn)是進(jìn)行決策機(jī)軟硬件的開(kāi)發(fā)、調(diào)試,解決深度神經(jīng)網(wǎng)絡(luò)的在線實(shí)時(shí)決策計(jì)算問(wèn)題與將Python決策機(jī)模型“翻譯”為控制計(jì)算機(jī)硬件支持的程序格式問(wèn)題。

      圖10 飛行器雙機(jī)近距空戰(zhàn)對(duì)抗飛行試驗(yàn)方案Fig.10 Flight test scheme for one-to-one close-range air combat

      4.1 硬件方案

      由于深度神經(jīng)網(wǎng)絡(luò)決策模型涉及到大量的循環(huán)計(jì)算,對(duì)計(jì)算資源消耗很大,傳統(tǒng)飛控計(jì)算機(jī)的性能可能無(wú)法滿足要求。同時(shí),為了增強(qiáng)智能決策機(jī)功能實(shí)現(xiàn)的靈活性,對(duì)紅機(jī)采用”飛控計(jì)算機(jī)+外置決策計(jì)算機(jī)”的雙硬件方案,如圖11所示,其中飛控計(jì)算機(jī)使用PixHawk雷迅V5+飛控硬件,決策機(jī)采用NVIDIA Jexton TX2嵌入式計(jì)算機(jī)。飛控計(jì)算機(jī)控制頻率為100 Hz,決策計(jì)算機(jī)決策頻率為25 Hz,兩者之間通過(guò)串口進(jìn)行通信。此外,全球定位系統(tǒng)(Global Positioning System,GPS)及羅盤(pán)模塊安裝在飛行器頂部前端,通過(guò)控制器局域網(wǎng)絡(luò)(Controller Area Network,CAN)總線與飛控連接。雷迅P900數(shù)傳天線安裝在飛行器頂部,通過(guò)串口與飛控連接通信。對(duì)于人類“飛行員”遙控的藍(lán)機(jī),它采用PixHawk雷迅V5+飛控硬件,其余設(shè)備與紅機(jī)一致。

      圖11 智能無(wú)人機(jī)的航電硬件架構(gòu)Fig.11 Avionics hardware architecture for intelligent unmanned aircraft

      試驗(yàn)中,為了使紅機(jī)能實(shí)時(shí)獲得藍(lán)機(jī)的航跡數(shù)據(jù),藍(lán)機(jī)通過(guò)雷迅P900數(shù)傳不斷向紅機(jī)發(fā)送自己的位置與速度信息,頻率為25 Hz。紅機(jī)數(shù)傳天線接收到相關(guān)信息后,先發(fā)送到飛控計(jì)算機(jī),然后再由飛控計(jì)算機(jī)轉(zhuǎn)發(fā)到?jīng)Q策計(jì)算機(jī),決策計(jì)算機(jī)計(jì)算得到機(jī)動(dòng)航跡導(dǎo)引指令,最后再回傳給飛控計(jì)算機(jī)。通過(guò)性能優(yōu)化,該過(guò)程的數(shù)據(jù)傳輸時(shí)延小于14 ms。飛控計(jì)算機(jī)收到航跡導(dǎo)引指令后,通過(guò)飛行控制律實(shí)現(xiàn)相應(yīng)指令,輸出脈沖寬度調(diào)制(Pulse Width Modulation,PWM)信號(hào)格式的油門(mén)與舵偏控制指令,驅(qū)動(dòng)無(wú)人機(jī)進(jìn)行機(jī)動(dòng)飛行。

      4.2 算法架構(gòu)

      智能無(wú)人機(jī)的軟件架構(gòu)如圖12所示,首先基于飛控等硬件設(shè)計(jì)驅(qū)動(dòng)層,包括通信接口、外設(shè)、傳感器等硬件驅(qū)動(dòng)。在驅(qū)動(dòng)層之上是設(shè)備抽象層,按功能劃分為傳感器、任務(wù)設(shè)備、動(dòng)力和舵機(jī)、遙控遙測(cè)等類別,它將硬件設(shè)備進(jìn)行抽象封裝,為上層算法調(diào)用提供接口。飛行算法庫(kù)封裝和實(shí)現(xiàn)上層應(yīng)用需要的算法,包括導(dǎo)航算法、控制算法。應(yīng)用層針對(duì)近距空戰(zhàn)機(jī)動(dòng)任務(wù),針對(duì)決策模型給出的機(jī)動(dòng)航跡導(dǎo)引指令,通過(guò)航跡跟蹤控制實(shí)現(xiàn)機(jī)動(dòng)飛行,奪取對(duì)抗優(yōu)勢(shì)。

      圖12 智能無(wú)人機(jī)的飛行軟件架構(gòu)Fig.12 Flight software architecture for intelligent unmanned aircraft

      對(duì)于決策機(jī)模型,使用C語(yǔ)言搭建與Python模型完全一致的神經(jīng)網(wǎng)絡(luò)框架,建立網(wǎng)絡(luò)節(jié)點(diǎn)、前向計(jì)算、參數(shù)讀取賦值、釋放內(nèi)存等函數(shù),將Python決策機(jī)模型參數(shù)保存為.txt文件,然后用其對(duì)C語(yǔ)言神經(jīng)網(wǎng)絡(luò)模型的參數(shù)進(jìn)行賦值。對(duì)于飛行器GPS傳感器得到的經(jīng)度、緯度、高度數(shù)據(jù),將其轉(zhuǎn)換為當(dāng)?shù)乇睎|地坐標(biāo)下的坐標(biāo)數(shù)據(jù),進(jìn)而得到紅藍(lán)飛行器雙方的相對(duì)位置rRB,利用GPS傳感器給出的北東地速度數(shù)據(jù),可以直接得到紅藍(lán)雙機(jī)的相對(duì)速度vRB信息。將C程序在Linux環(huán)境下編譯,生成excute文件執(zhí)行,對(duì)于本文開(kāi)發(fā)的深度神經(jīng)網(wǎng)絡(luò)決策機(jī)模型,一次決策計(jì)算耗時(shí)僅1 ms,滿足在線應(yīng)用需求。

      5 飛行試驗(yàn)

      空戰(zhàn)對(duì)抗飛行試驗(yàn)中,紅機(jī)代表AI智能體,藍(lán)機(jī)代表人類“飛行員”。飛機(jī)起飛后,從大約36.5 s開(kāi)始進(jìn)行試驗(yàn),如圖13所示,在對(duì)抗初始階段,紅機(jī)與藍(lán)機(jī)距離較遠(yuǎn),雙方均選擇相向而行,迅速減小雙方距離;當(dāng)距離縮短后,對(duì)抗雙方為形成有效攻擊條件,分別進(jìn)行協(xié)調(diào)轉(zhuǎn)彎,智能機(jī)首先取得了對(duì)敵的有利攻擊態(tài)勢(shì),此時(shí)人類“飛行員”為擺脫智能機(jī)的攻擊范圍,進(jìn)行了俯沖機(jī)動(dòng)和水平轉(zhuǎn)彎,智能機(jī)針對(duì)敵機(jī)動(dòng)作進(jìn)行相應(yīng)機(jī)動(dòng),為奪取態(tài)勢(shì)優(yōu)勢(shì),兩機(jī)進(jìn)行了類剪刀機(jī)動(dòng)的動(dòng)作,紅機(jī)始終保持了對(duì)藍(lán)機(jī)的追擊態(tài)勢(shì),試驗(yàn)期間(大約[36.5, 122]s)人類“飛行員”總體處于劣勢(shì)。

      圖13 紅藍(lán)雙機(jī)近距空戰(zhàn)對(duì)抗試驗(yàn)場(chǎng)景Fig.13 Snapshots of red and blue aircraft in closerange air combat flight test

      圖14~圖16給出了試驗(yàn)結(jié)果曲線,其中圖14給出了試驗(yàn)期間紅藍(lán)雙機(jī)的高度曲線,從圖中可以看到,在空戰(zhàn)對(duì)抗試驗(yàn)大約85.5 s的時(shí)間段中,紅方總體上占據(jù)了高度優(yōu)勢(shì)。圖15給出了對(duì)抗期間紅藍(lán)雙機(jī)的態(tài)勢(shì)曲線,初始階段藍(lán)機(jī)稍占優(yōu)勢(shì),但紅機(jī)迅速進(jìn)行了調(diào)整,奪得了對(duì)抗優(yōu)勢(shì),試驗(yàn)中紅機(jī)總體處于優(yōu)勢(shì),它能夠迅速做出有利于己方的動(dòng)作決策,通過(guò)機(jī)動(dòng)占據(jù)對(duì)抗優(yōu)勢(shì)。圖16給出了對(duì)抗過(guò)程中紅機(jī)決策機(jī)給出的機(jī)動(dòng)航跡導(dǎo)引指令與飛行器的實(shí)際狀態(tài)曲線,包括高度指令跟蹤曲線(見(jiàn)圖16(a))、速度指令跟蹤曲線(見(jiàn)圖16(b))、滾轉(zhuǎn)角指令跟蹤曲線(見(jiàn)圖16(c)),注意其中滾轉(zhuǎn)角指令限幅60°,從圖中可以看到,一方面空戰(zhàn)機(jī)動(dòng)航跡導(dǎo)引決策指令光滑,連續(xù)性良好,另一方面,飛行控制律工作可靠,較好地實(shí)現(xiàn)了決策機(jī)給出的航跡導(dǎo)引指令。試驗(yàn)結(jié)果說(shuō)明提出的決策及控制架構(gòu)具有較好的性能。

      圖14 近距空戰(zhàn)對(duì)抗試驗(yàn)中紅藍(lán)雙機(jī)的高度曲線Fig.14 Height profiles of red and blue aircraft in closerange air combat flight test

      圖15 近距空戰(zhàn)對(duì)抗試驗(yàn)中雙方的態(tài)勢(shì)評(píng)估結(jié)果Fig.15 Situation assessment results of red and blue aircraft in close-range air combat flight test

      圖16 紅機(jī)航跡導(dǎo)引指令與實(shí)際飛行狀態(tài)曲線Fig.16 Curves of trajectory guidance commands and actual flight states of red aircraft

      6 結(jié)論

      針對(duì)雙機(jī)近距空戰(zhàn)機(jī)動(dòng)智能決策問(wèn)題,進(jìn)行了深度強(qiáng)化學(xué)習(xí)決策機(jī)的設(shè)計(jì)及其遷移實(shí)現(xiàn)研究,并進(jìn)一步開(kāi)展了智能無(wú)人機(jī)與人類“飛行員”對(duì)抗的飛行試驗(yàn),主要結(jié)論如下:

      1) 發(fā)展了一種便于工程應(yīng)用的近距空戰(zhàn)機(jī)動(dòng)智能決策及控制實(shí)現(xiàn)方法,研究結(jié)果表明基于本文提出的方法,智能無(wú)人機(jī)能夠迅速作出有利于己方的動(dòng)作決策,在對(duì)抗中通過(guò)機(jī)動(dòng)快速占據(jù)態(tài)勢(shì)優(yōu)勢(shì)。

      2) 相較于直接實(shí)現(xiàn)迎角等決策指令的控制方案,采用變換航跡導(dǎo)引指令的控制方案具有較高的可靠性與通用性,同時(shí)在工程實(shí)現(xiàn)方面具有一定的靈活性,可以支持具有相似功能的不同算法運(yùn)行。

      3) 本文工作驗(yàn)證了基于深度神經(jīng)網(wǎng)絡(luò)的近距空戰(zhàn)機(jī)動(dòng)決策技術(shù)及軟硬件實(shí)現(xiàn)方案的可行性,為空戰(zhàn)智能決策技術(shù)的工程實(shí)現(xiàn)提供了良好參考。但目前試驗(yàn)采用的神經(jīng)網(wǎng)絡(luò)決策機(jī)是離線習(xí)得,還不具備自適應(yīng)學(xué)習(xí)能力,為了提高決策機(jī)的效能,未來(lái)將開(kāi)展決策機(jī)在線自演進(jìn)學(xué)習(xí)的研究工作。

      猜你喜歡
      近距空戰(zhàn)航跡
      基于CEL方法的鋼制平板近距水下爆炸數(shù)值模擬
      近距空戰(zhàn)訓(xùn)練中的智能虛擬對(duì)手決策與導(dǎo)引方法
      最強(qiáng)空戰(zhàn)王
      夢(mèng)的航跡
      青年歌聲(2019年12期)2019-12-17 06:32:32
      自適應(yīng)引導(dǎo)長(zhǎng)度的無(wú)人機(jī)航跡跟蹤方法
      空戰(zhàn)之城
      近距二次反射式楊氏模量測(cè)量?jī)x簡(jiǎn)介
      視覺(jué)導(dǎo)航下基于H2/H∞的航跡跟蹤
      “85:0”的敘以空戰(zhàn)
      近距煤層開(kāi)采防止上部采空區(qū)有害氣體下泄技術(shù)探討
      同煤科技(2015年4期)2015-08-21 12:51:06
      眉山市| 阜宁县| 绥阳县| 鄄城县| 玉门市| 五大连池市| 博野县| 宜川县| 巴楚县| 磐石市| 定襄县| 晋城| 和田市| 基隆市| 定西市| 九龙城区| 玉龙| 泽普县| 信阳市| 大冶市| 漳浦县| 上饶市| 定南县| 射阳县| 温泉县| 禄丰县| 罗定市| 沙坪坝区| 淳安县| 平南县| 阳谷县| 平罗县| 蒲江县| 上虞市| 禹州市| SHOW| 宜昌市| 花莲市| 赣州市| 万山特区| 密山市|