• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于深度強化學習的作戰(zhàn)實體智能感知與決策研究

    2023-06-27 08:51:16劉網定張國寧鄭世明
    火力與指揮控制 2023年5期
    關鍵詞:知識庫態(tài)勢戰(zhàn)場

    劉網定,張國寧,鄭世明

    (陸軍指揮學院作戰(zhàn)實驗室,南京 210045)

    0 引言

    伴隨著前沿智能科技的飛速發(fā)展,越來越多的無人裝備、智能技術應用于戰(zhàn)場,智能化戰(zhàn)爭初露端倪?,F有計算機輔助決策通常是基于規(guī)則的決策,智能化程度較低,難以適應未來有人/無人作戰(zhàn)新形勢的需求,這就需要突破傳統(tǒng)靠固定規(guī)則推理的方法,探求具備自我學習和動態(tài)分析預測能力的方法框架,以求自主而準確地判斷戰(zhàn)場態(tài)勢并作出行動決策。

    從AlphaGo、星際爭霸AI 到AlphaGo Zero,深度強化學習技術在圍棋、游戲、自動駕駛、機器人制造等領域取得不斷進展,使得智能感知與決策可以達到甚至超越人類水平,例如AlphaGo 依靠深度學習把握了圍棋對弈的“直覺”棋感和棋勢,通過強化學習實現了自我學習和優(yōu)化棋招,擊敗了圍棋世界冠軍李世石。深度強化學習的機制與方法[1-5],借鑒參考了心理學中的行為主義理論,符合人類的分析決策思維方式,這為解決自主感知與決策問題提供了一種技術框架。本文利用深度學習挖掘態(tài)勢數據中的隱含特征,全面地抽象到態(tài)勢感知;再通過強化學習模仿人對事物的認知方式,在無監(jiān)督的情況下,通過不斷地試錯,達到對戰(zhàn)場態(tài)勢的累積學習,形成正確的戰(zhàn)場認知結論與決策結果。

    1 框架構建原理

    1.1 強化學習基本結構

    強化學習受到人和動物學習中試錯法的啟發(fā),智能體如何決策(作出行動)來源于環(huán)境的反饋,對于正確的行動,環(huán)境會給出獎勵,對于錯誤的行動,環(huán)境會給出懲罰,智能體根據環(huán)境的反饋來調整自己的決策,通過與環(huán)境的不斷交互與反饋,最終能夠得到最優(yōu)決策方案。強化學習基本結構如圖1 所示。

    1.2 基于深度強化學習的感知與決策原理

    深度強化學習本質是將深度神經網絡融入強化學習基本結構之中。針對大規(guī)模狀態(tài)/動作空間問題(包括連續(xù)狀態(tài)/動作空間問題),值表形式的值函數所需要的存儲空間遠遠超過了現代計算機的硬件條件,使得經典的強化學習算法不再適用。在此情況下,可使用深度神經網絡對復雜環(huán)境狀態(tài)予以分析表示,解決智能體對環(huán)境狀態(tài)的難以理解問題;使用深度神經網絡對強化學習的相關函數(例如價值函數、動作價值函數、策略函數等)進行估計,解決強化學習的維度災難問題?;谏疃葟娀瘜W習的感知與決策原理如圖2 所示。

    圖2 基于深度強化學習的感知與決策原理示意圖Fig.2 Schematic diagram of perception and decision-making principle based on deep reinforcement learning

    2 基于深度強化學習的智能感知與決策框架

    依據1.2 中的原理,基于深度強化學習的智能感知與決策框架主要由兩部分組成,一是智能體對環(huán)境的感知部分,此部分基于深度學習構建,二是智能體的行動優(yōu)化部分,此部分基于強化學習(包含深度神經網絡的強化學習)構建;同時,考慮態(tài)勢數據的預處理與專家知識的利用。因而,基于深度強化學習的智能感知與決策框架包含態(tài)勢數據預處理、態(tài)勢感知、行動優(yōu)化和知識庫4 個模塊。預處理模塊用以對態(tài)勢數據進行清洗、歸一等操作;態(tài)勢感知模塊由多個神經網絡融合而成,用以表征戰(zhàn)場態(tài)勢;行動優(yōu)化模塊用以“評判”智能體的行為;戰(zhàn)場知識庫用以“指導”神經網絡模型的構建,提高深度學習與強化學習的學習效率??蚣苁疽鈭D如下頁圖3 所示。

    圖3 基于深度強化學習的智能感知與決策框架示意圖Fig.3 Schematic diagram of intelligent perception and decision-making framework based on deep reinforcement learning

    2.1 態(tài)勢數據預處理模塊

    戰(zhàn)場態(tài)勢數據一般需進行預處理,以滿足深度強化學習算法要求,預處理方法主要包括檢測、清洗、集成、歸一化、正則化等,但并非所有的態(tài)勢數據均要通過所有預處理操作,需視具體態(tài)勢數據的獲取、來源、格式等情形而定。例如對于收集到的傳感器數據,由于傳感器狀態(tài)信息的量程并不一致,在將數據信息傳入網絡模型之前,為了提升模型的收斂速度及精度,防止模型出現梯度爆炸,應對傳感器信息數據進行歸一化處理,統(tǒng)一量程。

    2.2 知識庫模塊

    感知和決策的過程都需要知識庫予以支撐,在知識庫的驅動下,感知信息更為精準,決策依據更為充分,學習的收斂速度會更快,學習的結果會更可靠。知識庫包括戰(zhàn)場環(huán)境知識庫、敵我部署知識庫、敵我狀態(tài)知識庫以及敵我行動知識庫等。知識庫中的知識來源于兩方面:1)直接存入庫中的軍事領域專家知識,2)通過不斷學習獲得的經驗知識。

    2.3 基于深度學習的態(tài)勢感知模塊

    利用深度神經網絡的表征能力,可挖掘出態(tài)勢數據中包含的特征與關系,包括戰(zhàn)場上作戰(zhàn)實體的屬性、狀態(tài)、類別、運動趨勢,不同作戰(zhàn)實體間的關系等,形成態(tài)勢感知表示[6-8]。由于戰(zhàn)場態(tài)勢的復雜性,往往無法用單個深度神經網絡進行表征,因而基于指揮員的思維模式,將感知過程和目標進行分層,構建面向態(tài)勢感知的復合架構深度學習模型。具體構建方法為:

    1)通過對戰(zhàn)場環(huán)境數據的學習,建立環(huán)境感知模型;

    2)通過對戰(zhàn)場上各個作戰(zhàn)實體的屬性、狀態(tài)、行動趨勢數據的學習,建立實體感知模型;

    3)通過對不同作戰(zhàn)實體特定時間段中時序狀態(tài)信息的學習,構建實體間的關系判定模型;

    4)以實體感知模型為主體,以實體間的關系判定模型為基本聯系,結合環(huán)境感知模型,進行模型的融合,生成面向態(tài)勢感知的復合架構深度學習模型,如圖4 所示。

    圖4 復合架構深度學習感知模型示意圖Fig.4 Schematic diagram of composite architecture deep learning perception model

    在單個深度學習模型構建過程中,為提高模型的學習效率,可采用條件反射法,將強化學習的行動效果與專家知識、規(guī)則融入模型當中。如下式所示:

    其中,wij表示神經元j 到神經元i 的連接權;yi、yj為神經元的輸出;yj′是基于專家知識與規(guī)則的輸出,α、β 是表示學習速度的常數。

    1)若yi與yj同時被激活,即yi與yj同時為正,那么wij將增大,即此時強化學習的行動得到正的獎勵,正確的態(tài)勢理解結果被予以肯定和保留。

    2)若yj′ 與yj同時被激活,即yj′ 與yj同時為正,那么wij將增大,即此時態(tài)勢理解結論與專家知識、規(guī)則相一致,正確的態(tài)勢理解結果被予以肯定和保留。

    3)若yi被激活,而yj處于抑制狀態(tài),即yi為正yj為負,那么wij將變小,即此時強化學習的行動得到懲罰,錯誤的態(tài)勢理解結果被予以否定。

    4)若yi被激活,而yj′處于抑制狀態(tài),即yi為正yj′為負,那么wij將變小,即此時態(tài)勢理解結論與專家知識、規(guī)則相悖,錯誤的態(tài)勢理解結果被予以否定。

    2.4 基于強化學習的行動優(yōu)化模塊

    利用深度神經網絡對戰(zhàn)場態(tài)勢表征后,并不知道其表征結果如何、與真實結果有多大偏差,利用強化學習的行動反饋機制,可通過智能體的行動去驗證與調整表征結果。在此,從單智能體強化學習出發(fā),借鑒強化學習在自動駕駛領域的成熟技術與經驗[9-10],構建行動優(yōu)化Actor-Critic 模型,如圖5所示。

    圖5 行動優(yōu)化A-C 模型示意圖Fig.5 Schematic diagram of A-C model for action optimization

    A-C 模型主要由兩部分組成,一是Actor(執(zhí)行器)部分,即智能體將要采取的策略,另一個是Critic(評價器)部分,即智能體得到的行動反饋(值函數),兩部分分別通過深度神經網絡表示。模型訓練時,Actor 與Critic 交互更新,Actor 選擇策略,Critic給出評價,最終可得最優(yōu)行動策略。在戰(zhàn)場環(huán)境中,利用深度強化學習進行自主感知與決策的單智能體實體,比如無人機、坦克,均為連續(xù)動作行動,可采用適合連續(xù)動作決策的強化學習算法,如DDPG算法、A3C 算法等。

    在行動優(yōu)化模塊中,可采用啟發(fā)式回報函數設計方法對知識庫進行有效利用[11-12]。啟發(fā)式回報函數設計規(guī)則為:

    即當s∈S0,或某規(guī)則發(fā)生時,智能體執(zhí)行動作a1,回報函數F(s,a,s′)賦值為r,這樣便可刺激在某狀態(tài)集S0或某規(guī)則發(fā)生情況下智能體執(zhí)行動作a1。例如,如果(if)敵方作戰(zhàn)單元行動速度、力量規(guī)模、裝備類型、行動方向滿足一定條件,根據專家知識,則可判定敵方將要采取何種行動,然后(then)智能體采取相應的對策a=a1,回報函數F(s,a,s′)=r。

    3 案例分析

    此部分通過仿真實驗,結合具體想定,驗證深度強化學習在智能感知與決策上的應用效果[13]。

    3.1 實驗想定

    3.1.1 基本情況

    紅方對陣地防御的藍方實施進攻作戰(zhàn),其中對紅方部隊威脅最大的是藍方坦克部隊,為盡快消滅藍方坦克部隊,紅方指揮員迅速申請空中火力支援。上級派出無人機突擊力量,依靠自身能力突破藍方殘余地面防空火力,對藍方坦克部隊實施攻擊。

    3.1.2 紅藍雙方作戰(zhàn)目標

    紅方作戰(zhàn)目標:利用無人機空中優(yōu)勢,快速突破敵防空,消滅藍方坦克。

    藍方作戰(zhàn)目標:使用防空武器擊落紅方無人機,保護坦克不受其攻擊。

    3.1.3 紅藍雙方兵力

    實驗設定紅方兵力為固定翼無人機1 架,藍方兵力為坦克排1 個、地空導彈排4 個,具體如表1所示。

    表1 紅藍雙方兵力Table 1 Forces of red and blue parties

    3.2 框架設定

    3.2.1 態(tài)勢數據預處理模塊

    本實驗將紅方無人機設定為智能體。實驗的每輪訓練中,初始態(tài)勢數據包括:無人機的位置(經度、緯度、高度)、朝向、速度、毀傷程度、作戰(zhàn)任務,地空導彈排的位置(經度、緯度)、朝向、速度、毀傷程度、作戰(zhàn)任務,坦克排的位置(經度、緯度)、朝向、速度、毀傷程度、作戰(zhàn)任務,以及氣象條件數據。訓練之前,對戰(zhàn)場環(huán)境中各作戰(zhàn)單元的屬性、狀態(tài)、特征進行了編碼,并對距離數據進行了歸一化預處理。

    3.2.2 知識庫模塊

    實驗的模型訓練與模擬對抗主要運用合成部隊層級知識庫,包括紅藍雙方作戰(zhàn)編成、作戰(zhàn)編組、兵力部署、毀傷程度、作戰(zhàn)行動、作戰(zhàn)任務與規(guī)則。

    3.2.3 態(tài)勢感知模塊

    對于實際戰(zhàn)場環(huán)境,各作戰(zhàn)單元的類型、屬性、狀態(tài)數據不可直接獲得,一般需通過傳感器獲得相關數據。比如,通過傳感器采集到作戰(zhàn)目標圖像,再通過感知模塊中用于目標識別的深度神經網絡,可初步判別出是何種目標。而本實驗是仿真實驗,各作戰(zhàn)實體的類型、屬性等數據系統(tǒng)可直接獲得,因而態(tài)勢感知模塊的神經網絡僅為簡單線性函數。

    3.2.4 行動優(yōu)化模塊

    1)算法選擇

    此模塊采用強化學習的DDPG 算法。DDPG 算法基于Actor-Critic 模型結構,并通過復制一個目標網絡作為原網絡的逼近對象進行緩慢更新,以保證訓練過程的穩(wěn)定性,如圖6 所示。

    圖6 DDPG 算法示意圖Fig.6 Schematic diagram of DDPG algorithm

    2)動作設定

    強化學習模型中智能體無人機的動作值設定為“機動”與“開火”。執(zhí)行動作函數時,首先檢查是否進入任務區(qū),進入任務區(qū),則檢查是否發(fā)現目標,發(fā)現目標進行自動開火;沒有進入任務區(qū),則設置無人機“機動”。

    3)獎懲設定

    智能體無人機的獎懲設定為:

    b)根據是否進入目標區(qū)域設定回報Ra:進入目標區(qū)域,獲得正的獎勵,Ra=10;否則,Ra=0。

    c)根據是否發(fā)現打擊目標、是否執(zhí)行了打擊任務設定回報Rs:發(fā)現目標,獲得正的獎勵,Rs=50;擊毀目標,獲得更高的獎勵,Rs=150;否則,Rs=0。

    d)根據是否被對方擊中設定回報Rf:若被對方擊中,得到負的獎勵,Rf=-100;否則,Rf=0。

    3.3 實驗結論

    訓練前,智能體完成任務的概率基本為0;3 000次訓練后,對20 次仿真實驗進行統(tǒng)計,智能體無人機成功突防并完成打擊任務的平均概率提升為51.2%;5 000 次訓練后,平均概率提升為88.6%;7 000 次訓練后,平均概率提升為93.6%。智能體任務完成率對比情況如表2 所示,每個回合獲得的平均獎勵值如圖7 所示。

    表2 完成任務對比情況表Table 2 Comparison of completed tasks

    圖7 智能體獲得的平均獎勵值Fig.7 Average reward value obtained by the agent

    訓練前,智能體無人機對戰(zhàn)場態(tài)勢沒有自主感知能力,不知道打擊目標在哪里、如何去尋找,其行動顯示無規(guī)則。訓練后,智能體無人機能夠掌握對方地面防空武器威脅情況,能夠自主確定最佳進攻路線,使其在飛行航線中威脅最小、生存概率最大,如下頁圖8 所示。

    圖8 訓練后的無人機自主感知與決策效果圖Fig.8 Effect diagram of autonomous perception and decision-making of UAV after training

    4 結論

    深度強化學習被認為是推進機器自主化與智能化最具潛力的技術。本文通過無人機突防仿真實驗,展現了深度強化學習技術在作戰(zhàn)實體智能感知與決策上的應用效果。推廣應用于無人裝備,可使其擁有自主感知與決策能力,能夠自主進行環(huán)境偵察、路徑規(guī)劃、任務規(guī)劃等活動,自主完成導航、制導、協(xié)調、目標識別、捕獲、攻擊等任務,提升無人裝備的智能水平與應用效益。

    猜你喜歡
    知識庫態(tài)勢戰(zhàn)場
    戰(zhàn)場上的神來之筆
    C-130:戰(zhàn)場多面手
    貼秋膘還有三秒到達戰(zhàn)場
    意林(2020年20期)2020-11-06 04:06:14
    2019年12月與11月相比汽車產銷延續(xù)了增長態(tài)勢
    汽車與安全(2020年1期)2020-05-14 13:27:19
    匯市延續(xù)小幅震蕩態(tài)勢
    中國外匯(2019年19期)2019-11-26 00:57:36
    基于TRIZ與知識庫的創(chuàng)新模型構建及在注塑機設計中的應用
    我國天然氣供需呈現緊平衡態(tài)勢
    高速公路信息系統(tǒng)維護知識庫的建立和應用
    基于Drupal發(fā)布學者知識庫關聯數據的研究
    圖書館研究(2015年5期)2015-12-07 04:05:48
    縣鄉(xiāng)一體化探索呈加速態(tài)勢
    瑞昌市| 南京市| 江西省| 南京市| 汽车| 衢州市| 天峻县| 万宁市| 积石山| 育儿| 高唐县| 衢州市| 临泉县| 永寿县| 莎车县| 兴城市| 大港区| 凤冈县| 平顶山市| 广安市| 西和县| 微博| 霍山县| 城市| 东辽县| 汉川市| 桂林市| 彰化市| 家居| 雷波县| 鲜城| 永州市| 察隅县| 新和县| 连南| 河池市| 射洪县| 临沂市| 沛县| 辽阳县| 北碚区|