許佰濤 劉冬利 侯建強(qiáng) 李祎帆
(1.海軍大連艦艇學(xué)院學(xué)員五大隊(duì) 大連 116018)(2.海軍大連艦艇學(xué)院信息系統(tǒng)系 大連 116018)
雷達(dá)作為偵察,打擊的重要裝備,在戰(zhàn)場上起著“先發(fā)現(xiàn),先打擊,掌握戰(zhàn)場的主動(dòng)權(quán)”的決定性作用。隨著軍事科技的快速發(fā)展,海戰(zhàn)場環(huán)境日益復(fù)雜,干擾技術(shù)也不再局限于單一干擾模式,雷達(dá)智能抗干擾已成為必然趨勢[1]。傳統(tǒng)雷達(dá)對(duì)抗(Traditional Radar Countermeasure,TRC)主要依靠雷達(dá)操作員與指揮員對(duì)干擾進(jìn)行識(shí)別,根據(jù)經(jīng)驗(yàn)實(shí)施抗干擾決策,其抗干擾效果取決于操作員經(jīng)驗(yàn)知識(shí),已經(jīng)無法適應(yīng)信息化戰(zhàn)場所面臨的對(duì)抗強(qiáng)度。在此背景下,認(rèn)知電子戰(zhàn)技術(shù)出現(xiàn)并取得快速發(fā)展[2~4],本文提出將強(qiáng)化學(xué)習(xí)與抗復(fù)合干擾結(jié)合起來,對(duì)抗復(fù)合干擾模型中的值函數(shù)進(jìn)行了計(jì)算并迭代,使得抗復(fù)合干擾策略具備了自主更新與優(yōu)化功能,使智能雷達(dá)對(duì)抗(Intelligent Radar Countermeasure,IRC)有了較大的提升。TRC與IRCD的區(qū)別如表 1[5]所示。
表1 IRC與TRC的區(qū)別
自從20世紀(jì)80年代,基于試錯(cuò)方法、動(dòng)態(tài)規(guī)劃和瞬時(shí)誤差方法形成了強(qiáng)化學(xué)習(xí)理論,被廣泛地應(yīng)用在策略尋優(yōu)的問題之中。它能夠與環(huán)境進(jìn)行交互式學(xué)習(xí),并通過不斷試錯(cuò)的方式獲取反饋以實(shí)現(xiàn)動(dòng)作策略的更新。目前基于強(qiáng)化學(xué)習(xí)的抗復(fù)合干擾的文獻(xiàn)較少,文獻(xiàn)[6]介紹了人工智能在雷達(dá)應(yīng)用中的發(fā)展前景;文獻(xiàn)[7]引入認(rèn)知技術(shù),提出了基于Q學(xué)習(xí)算法的認(rèn)知雷達(dá)對(duì)抗過程設(shè)計(jì),使得干擾更具有主動(dòng)性、針對(duì)性與自適應(yīng)性;文獻(xiàn)[8]提出了基于Q學(xué)習(xí)的智能雷達(dá)對(duì)抗方法,分析了Q矩陣收斂時(shí)間、收斂值與循環(huán)次數(shù)的關(guān)系,但是未將干擾與抗干擾先驗(yàn)知識(shí)引入;文獻(xiàn)[9]利用Q學(xué)習(xí)與Sarsa兩種典型的強(qiáng)化學(xué)習(xí)算法,對(duì)反干擾模型中的值函數(shù)進(jìn)行了計(jì)算并迭代,文獻(xiàn)[10]提出了基于先驗(yàn)知識(shí)的多功能雷達(dá)智能干擾決策算法,極大的提升了算法的收斂速率,但是未對(duì)復(fù)合干擾出具體分析?;谏鲜鑫墨I(xiàn),針對(duì)復(fù)合干擾,進(jìn)行了智能雷達(dá)對(duì)抗強(qiáng)化學(xué)習(xí)設(shè)計(jì),并對(duì)先驗(yàn)知識(shí)進(jìn)行融合,對(duì)抗復(fù)合干擾具有一定的理論意義。
強(qiáng)化學(xué)習(xí)[11]是機(jī)器學(xué)習(xí)的一部分,它能夠與環(huán)境進(jìn)行交互式學(xué)習(xí),根據(jù)反饋信息實(shí)現(xiàn)從環(huán)境狀態(tài)到動(dòng)作狀態(tài)的學(xué)習(xí),使得行為策略能夠從環(huán)境中得到最大的累積獎(jiǎng)賞值,最終收斂到最優(yōu)策略,實(shí)現(xiàn)馬爾科夫決策過程的優(yōu)化,解決了優(yōu)化控制問題[12]。
強(qiáng)化學(xué)習(xí)模型主要包括主體(Agent)、環(huán)境(Environment)、行動(dòng)(Action)、狀態(tài)(State)以及獎(jiǎng)勵(lì)(Reward)。其主要的交互過程分為四步:1)智能體對(duì)環(huán)境進(jìn)行感知;2)智能體根據(jù)學(xué)習(xí)策略采取行動(dòng);3)當(dāng)采取行動(dòng)之后,環(huán)境的狀態(tài)改變,并獲得相應(yīng)的反饋獎(jiǎng)勵(lì);4)重復(fù)1)~3)并不斷更新回報(bào)值,并將其作為內(nèi)部更新策略的依據(jù),圖1為強(qiáng)化學(xué)習(xí)的MDP模型。
圖1 強(qiáng)化學(xué)習(xí)的MDP模型
當(dāng)在t時(shí)刻,智能體感知到的外界環(huán)境為st,按照策略π選擇下一時(shí)刻的動(dòng)作,不斷從環(huán)境中獲得累計(jì)回報(bào),一般記為V(st),其表達(dá)式為
式(1)為無限水平折扣模型,h為經(jīng)過動(dòng)作選擇次數(shù),γt為折扣因子,當(dāng)γt=0時(shí),代表只看重下一時(shí)刻回報(bào),當(dāng)0<γt<1時(shí),隨著γt的增大,表示越來越注重長期回報(bào),當(dāng)γt=1時(shí),表示對(duì)未來回報(bào)都是同等重要的。
圖2 折扣因子與干擾次數(shù)關(guān)系
根據(jù)式(1)分析,當(dāng)π 滿足式(2)時(shí),此時(shí)策略為最優(yōu)策略,得到也為最優(yōu)狀態(tài)函數(shù)。
常見的干擾技術(shù)[13]按照干擾樣式可以分為壓制性干擾和欺騙性干擾。常見的壓制性干擾主要有寬帶干擾、瞄準(zhǔn)干擾和掃頻干擾等,壓制性干擾主要是使雷達(dá)難以發(fā)現(xiàn)敵方目標(biāo),欺騙性干擾則是使雷達(dá)難以區(qū)分出真實(shí)目標(biāo),主要有密集假目標(biāo)干擾、距離波門拖引干擾、速度波門拖引干擾和距離-速度波門拖引干擾等。將壓制性干擾和欺騙性干擾復(fù)合,可以產(chǎn)生“1+1>2”的效果,將真目標(biāo)與產(chǎn)生的假目標(biāo)隱藏在噪聲中,增加抗干擾的難度。
雷達(dá)抗復(fù)合干擾過程可以與以上的行為相對(duì)應(yīng):1)Agent代表雷達(dá),可以根據(jù)外界的復(fù)合干擾,并采取相應(yīng)抗干擾措施;2)Environment代表雷達(dá)所處的環(huán)境;3)Action代表雷達(dá)采取的抗干擾措施的集合;4)State代表環(huán)境中的存在的復(fù)合干擾,本文主要指2種壓制性干擾和3種欺騙干擾的組合;5)Reward代表環(huán)境改變所獲得獎(jiǎng)勵(lì)值。根據(jù)文獻(xiàn)[9]得到歸一化抗干擾矩陣,如圖表2所示。
表2 歸一化抗干擾矩陣
采用壓制性干擾sy與欺騙性干擾sq的復(fù)合干擾,采取對(duì)應(yīng)的抗干擾措施aY,aQ之后,抗干擾效益為V(sy,sq)(aY,aQ),其表達(dá)式為
式(3)中:V(s)(a)為采取抗干擾措施a對(duì)干擾s的效益,表3為抗復(fù)合干擾效益矩陣。s1、s2、s3、s4、s5依次代表窄帶干擾、寬帶干擾、假目標(biāo)干擾、距離波門拖引干擾、速度波門拖引干擾,a1、a2、a3、a4依次代表頻率捷變技術(shù)、寬限窄技術(shù)、脈沖周期抖動(dòng)技術(shù)、距離速度聯(lián)合跟蹤技術(shù)。當(dāng)采取對(duì)應(yīng)的抗干擾措施之后,干擾方選取抗干擾措施影響最小的干擾方式。假設(shè)不同干擾之間都可以相互轉(zhuǎn)化,當(dāng)采取aY,aQ抗干擾措施之后,根據(jù)不同抗干擾措施的效益,實(shí)施干擾的概率P也不盡相同,其概率定義為
表3 復(fù)合干擾轉(zhuǎn)化概率
式(4)中P(sy,sq|aY,aQ)為抗復(fù)合干擾aY,aQ,采取sy,sq的概率。之后將其轉(zhuǎn)化為不同復(fù)合干擾之間的轉(zhuǎn)移概率P(sy,sq|sY,sQ)。
s∈S表示電磁環(huán)境中存在的干擾樣式,a∈A表示雷達(dá)采取的抗干擾措施,當(dāng)雷達(dá)感知并識(shí)別外界的復(fù)合干擾st,隨后采取相應(yīng)的抗干擾措施at,外界隨即轉(zhuǎn)移到新的干擾措施st+1。
圖3 抗復(fù)合干擾的強(qiáng)化學(xué)習(xí)模型
假設(shè)干擾方具有寬帶干擾、瞄準(zhǔn)干擾兩種壓制性干擾方式以及假目標(biāo)干擾、距離波門拖引干擾、速度波門拖引干擾三種欺騙性干擾方式,經(jīng)過加性復(fù)合,共形成6種復(fù)合干擾方式分別為s1+s3,s1+s4,s1+s5,s2+s3,s2+s4,s2+s5,抗干擾方式包括頻率捷變技術(shù)、寬限窄技術(shù)、脈沖周期抖動(dòng)技術(shù)、距離速度聯(lián)合跟蹤技術(shù),共形成四種抗復(fù)合干擾的方式,分別記為a1+a3,a1+a4,a2+a3,a2+a4,若復(fù)合干擾方式的威脅等級(jí)依次 4,3,3,2,1,1,復(fù)合干擾s1+s3為抗干擾方所期望狀態(tài)。
折扣常數(shù)初始化為0.5,Q矩陣初始化為一階0矩陣,根據(jù)先驗(yàn)知識(shí)確定w,R,P矩陣,對(duì)雷達(dá)進(jìn)行獨(dú)立觀察,進(jìn)行Q矩陣的更新迭代,得到最終動(dòng)作價(jià)值矩陣Q'。圖4為干擾轉(zhuǎn)化矩陣,表4為基于先驗(yàn)知識(shí)的Q-learning學(xué)習(xí),傳統(tǒng)的Q-learning學(xué)習(xí)隨著循環(huán)次數(shù)的增加,可能的結(jié)果都會(huì)發(fā)生收斂,與現(xiàn)實(shí)情況發(fā)生偏離,基于先驗(yàn)知識(shí)的Q-learning學(xué)習(xí)的最終動(dòng)作價(jià)值矩陣與轉(zhuǎn)移矩陣和轉(zhuǎn)移概率矩陣都有所關(guān)系,與現(xiàn)實(shí)情況較符。經(jīng)過分析當(dāng)初始干擾為s1+s4時(shí),抗干擾方式采取a1+a3,經(jīng)過傳統(tǒng)學(xué)習(xí)的Q-learning采取s2+s4或s2+s5干擾方式,經(jīng)過先驗(yàn)知識(shí)的Q-learning采取s2+s3干擾方式,根據(jù)表3驗(yàn)證,當(dāng)收到a1+a4抗干擾措施,干擾方會(huì)選取s2+s3,即按照s1+s4→s2+s3→s1+s3的復(fù)合干擾路徑,抗干擾方采取a1+a3→a1+a4抗干擾方式,此時(shí)會(huì)達(dá)到威脅最小的干擾方式。
圖4 復(fù)合干擾轉(zhuǎn)化圖
表4 基于先驗(yàn)知識(shí)的動(dòng)作回報(bào)矩陣
如圖5所示,隨著動(dòng)作回報(bào)矩陣的不斷更新,干擾策略會(huì)趨近最優(yōu),最優(yōu)次數(shù)為兩步,且訓(xùn)練的次數(shù)不超過100次,在訓(xùn)練開始階段,Q值為一階0矩陣,干擾策略的選擇更依賴于隨機(jī)選取,因此干擾次數(shù)有較大的波動(dòng),但隨著強(qiáng)化學(xué)習(xí)的不斷更新迭代,Q值并不斷收斂,因此會(huì)趨近于最優(yōu)干擾策略。
圖5 強(qiáng)化學(xué)習(xí)的迭代次數(shù)
本文將強(qiáng)化學(xué)習(xí)用于抗復(fù)合干擾決策之中,實(shí)現(xiàn)智能雷達(dá)對(duì)抗。先將單一干擾效益矩陣轉(zhuǎn)化為復(fù)合干擾矩陣,得到復(fù)合干擾轉(zhuǎn)移概率,將其作為先驗(yàn)條件進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,得到動(dòng)作回報(bào)矩陣,可以較好的預(yù)測了干擾的轉(zhuǎn)移變化。但是有以下幾個(gè)方面未考慮:1)不同干擾與抗干擾方式的兼容問題;2)抗干擾效益矩陣未進(jìn)行詳細(xì)的評(píng)估;3)模型較為簡單。這都是未來需要研究的方向。