韓 鵬,顧榮軍,盧俊道,張 鵬
(中國洛陽電子裝備試驗(yàn)中心,河南孟州454750)
電子對(duì)抗過程中雙方都會(huì)被多部雷達(dá)同時(shí)威脅,對(duì)抗雙方會(huì)設(shè)法利用先進(jìn)的電子對(duì)抗技術(shù)削弱對(duì)方雷達(dá)系統(tǒng)的作戰(zhàn)性能。然而雷達(dá)干擾資源是有限的,如何將有限的雷達(dá)干擾資源進(jìn)行合理分配,最終獲得最大整體干擾效益就成了現(xiàn)代電子對(duì)抗中一個(gè)決定勝敗的重要問題。
正是由于雷達(dá)干擾資源分配的重要性,相關(guān)專家學(xué)者們進(jìn)行了大量研究,建立了諸多資源分配的方法模型,如基于貼近度的雷達(dá)干擾分配算法[1]、遺傳模擬退火算法[2]、基于多Agent分布協(xié)同拍賣的雷達(dá)干擾資源分配算法[3]、蟻群算法[4]等。近年來,博弈論[5]作為研究分布式最優(yōu)化問題的一種有效理論工具被廣泛用于無線通信等領(lǐng)域,取得了很多研究成果,但是在雷達(dá)有源干擾資源分配方面研究的不多。本文基于博弈論探討干擾資源分配問題,并利用學(xué)習(xí)自動(dòng)機(jī)設(shè)計(jì)分布式干擾資源分配算法,可以在收斂速度和干擾效果兩方面取得較好的平衡,使得對(duì)雷達(dá)干擾資源分配方案的制定更加穩(wěn)定和高效。
雷達(dá)干擾資源分配首先需要對(duì)干擾機(jī)的干擾效果進(jìn)行定量評(píng)估,進(jìn)而通過運(yùn)籌學(xué)的方法尋找某種最優(yōu)的干擾目標(biāo)分配方案。
1)干擾頻率。用干擾頻率效益因子Efij表示干擾機(jī)i對(duì)目標(biāo)雷達(dá)j的頻率瞄準(zhǔn)程度對(duì)干擾效果產(chǎn)生的影響。設(shè)雷達(dá)j的工作頻率范圍為fj1-fj2,干擾機(jī)的頻率覆蓋范圍為fi1-fi2,則:
2)干擾功率。用干擾功率壓制效益因子E pij表示干擾機(jī)i對(duì)雷達(dá)j的功率壓制的程度對(duì)干擾效果產(chǎn)生的影響。
式中,Pji表示雷達(dá)接收到的干擾功率,Pjs表示雷達(dá)接收到的目標(biāo)回波信號(hào)功率,γj表示雷達(dá)j正常工作所必需的最小干信比。
3)干擾時(shí)機(jī)。用干擾時(shí)機(jī)效益因子E tij表示干擾機(jī)干擾實(shí)施時(shí)間對(duì)干擾效果的影響程度[6]。設(shè)雷達(dá)的威脅時(shí)間為t1-t2,開始干擾的時(shí)間為ti。
4)干擾樣式。用干擾樣式效益因子E mij表示干擾機(jī)i干擾樣式多少對(duì)干擾效果的影響程度。
樣式越多,匹配程度越高,干擾效果越好。
假定己方有N部干擾機(jī),敵方有M個(gè)目標(biāo)雷達(dá)。干擾機(jī)i最多可同時(shí)干擾K i部雷達(dá),各雷達(dá)的威脅系數(shù)為λj。
影響干擾效果的4個(gè)因素是相互獨(dú)立的,只要其中一個(gè)因素?zé)o效,干擾就無效。所以在干擾效果綜合評(píng)價(jià)時(shí),采用扎德算子“∧”進(jìn)行取小運(yùn)算。
根據(jù)電子戰(zhàn)的實(shí)際戰(zhàn)情分析配置權(quán)重,用Ω=[ω1,ω2,ω3,ω4]表 示 ,ω1+ω2+ω3+ω4=1。 則單對(duì)單雷達(dá)干擾效果為:
雷達(dá)j受到干擾機(jī)的干擾效益為:
則雷達(dá)總體干擾效益矩陣E為:
定義雷達(dá)干擾資源分配的目標(biāo)函數(shù):
假設(shè)N個(gè)干擾機(jī)的集合為N={1,2,…,N},M個(gè)雷達(dá)的集合為M={1,2,…,M}。干擾機(jī)i的干擾策略為Ri,Ri為干擾機(jī)i的干擾策略集,R i∈ Ri。因?yàn)楦蓴_機(jī)i最多同時(shí)對(duì)K i個(gè)雷達(dá)進(jìn)行干擾,所以Ri=,其中a、b∈ M,因此干擾機(jī)i共表示干擾機(jī)i對(duì)雷達(dá)j進(jìn)行干擾,)表示干擾機(jī)i對(duì)雷達(dá)a、雷達(dá)b等K i個(gè)雷達(dá)進(jìn)行干擾。干擾機(jī)選擇不同的干擾策略,就會(huì)生成不同的決策矩陣X N×M。假設(shè)每一個(gè)干擾機(jī)都是理性的,只會(huì)選擇使自身收益最大的干擾策略。定義所有干擾機(jī)收益相同,為:
本文以最大化所有干擾機(jī)收益為目標(biāo),因此干擾策略選擇的競爭最優(yōu)問題可以表示為:
式中,R-i表示除了干擾機(jī)i之外所有干擾機(jī)的干擾策略,Co1表示干擾機(jī)i同時(shí)最多干擾K i部雷達(dá)。
不滿足Co1限制的干擾策略不會(huì)被選擇,然而干擾機(jī)很難提前知道哪些干擾策略是不可行的,所以不能直接采用U作為干擾機(jī)的收益函數(shù)。為了確定干擾策略選擇的可行性,定義每個(gè)干擾機(jī)的收益函數(shù)為:
從博弈論的觀點(diǎn)來看,N個(gè)干擾機(jī)構(gòu)成博弈參與者,干擾策略集構(gòu)成純策略空間,干擾機(jī)的收益函數(shù)構(gòu)成博弈參與者的收益函數(shù),則干擾機(jī)干擾策略選擇行為可以被看作是一個(gè)博弈GE。
式中,N為干擾機(jī)的集合,Ri為干擾機(jī)的純策略空間,ui為干擾機(jī)i的收益。
學(xué)習(xí)自動(dòng)機(jī)(LA)是一個(gè)能夠在隨機(jī)環(huán)境中通過重復(fù)地互動(dòng)從行動(dòng)集合中找出最佳行動(dòng)的自適應(yīng)決策者[9],學(xué)習(xí)自動(dòng)機(jī)已經(jīng)被應(yīng)用于無線通信等領(lǐng)域。本文根據(jù)學(xué)習(xí)自動(dòng)機(jī)的概念,設(shè)計(jì)一種分布式隨機(jī)學(xué)習(xí)算法,來自適應(yīng)地更新干擾機(jī)的干擾策略。
為了更好地描述這個(gè)學(xué)習(xí)算法,本文把博弈GE擴(kuò)展到混合策略形式。用p i={p i1,…,p iTi}表示干擾機(jī)i的混合策略,其中p ik表示干擾機(jī)i選擇純策略k的行動(dòng)
如果混合策略的博弈是相繼輪流進(jìn)行的,則可以將每個(gè)干擾機(jī)視為一個(gè)學(xué)習(xí)自動(dòng)機(jī),將博弈參與者的純策略視為學(xué)習(xí)自動(dòng)機(jī)的行動(dòng),那么,這個(gè)混合策略博弈可以被視作一個(gè)由學(xué)習(xí)自動(dòng)機(jī)構(gòu)建成的隨機(jī)博弈。混合策略p i(t)={p i1(t),…,p iT i(t)}可以被當(dāng)作在時(shí)刻t學(xué)習(xí)自動(dòng)機(jī)i的行動(dòng)的概率分布,而p ik(t)表示在t時(shí)刻,第i個(gè)學(xué)習(xí)機(jī)選擇第k個(gè)純策略的概率。干擾機(jī)i歸一化的收益則被視為第i個(gè)自動(dòng)機(jī)的反應(yīng)函數(shù),即r i(t)=αui(t),其中0<α<1,能夠保證r i(t)的值落在[0,1)區(qū)間。因此可以得到,r1(t)=…=r N(t)=r(t)=αui(t)。
在學(xué)習(xí)自動(dòng)機(jī)算法中,干擾機(jī)通過有限反饋信息,學(xué)習(xí)到關(guān)于干擾策略的概率分布,以便能夠最大化各自的收益。如果其中一個(gè)自動(dòng)機(jī)即干擾機(jī)根據(jù)它當(dāng)前的行動(dòng)概率分布獨(dú)立地選擇一個(gè)行動(dòng)時(shí),就說這個(gè)博弈進(jìn)行了一次。為了能夠獲取這個(gè)博弈的納什均衡,干擾機(jī)需要重復(fù)地進(jìn)行這個(gè)博弈。該算法具體描述如下:
2)迭代重復(fù)以下過程:
①在每個(gè)時(shí)刻t(t>0),每個(gè)干擾機(jī)根據(jù)它當(dāng)前的概率分布p i(t)選擇一個(gè)干擾策略R i,并上傳給指揮中心;
②指揮中心根據(jù)每個(gè)干擾機(jī)的干擾策略,更新決策矩陣,計(jì)算干擾機(jī)i的反應(yīng)函數(shù)r i(t)=。需要說明的是,本文中所有干擾機(jī)都具有相同的反應(yīng)函數(shù),因此這個(gè)反應(yīng)可以很方便的通過指揮中心廣播給每個(gè)干擾機(jī);
③每個(gè)干擾機(jī)通過指揮中心的反饋,利用(13)式更新其行動(dòng)概率分布,其中0<δ<1是一個(gè)步長參數(shù),i=1,…,N;k=1,…T i。
式中Rik為干擾機(jī)i的第k個(gè)純策略。
直到p i(t)中存在一個(gè)元素近似等于1,比如0.99,算法停止。
分布式干擾資源分配算法,通過重復(fù)博弈,最終確定了每個(gè)干擾機(jī)的混合策略。在任一個(gè)時(shí)刻,每個(gè)干擾機(jī)所需要的信息,僅僅是進(jìn)行了一次博弈后的歸一化收益,而不需要知道其它任何信息。所有干擾機(jī)只需要計(jì)算它們的行動(dòng)概率,避免了復(fù)雜的運(yùn)算。因此該算法能夠極大地降低運(yùn)算復(fù)雜度。
由于GE是一個(gè)具有共同收益函數(shù)的博弈。由文獻(xiàn)[10]中的定理4.1可得,當(dāng)步長δ足夠小時(shí),分布式干擾資源分配算法會(huì)收斂到博弈的一個(gè)純策略納什均衡。當(dāng)多個(gè)純策略納什均衡存在時(shí),可以重復(fù)運(yùn)行該算法,然后從中選出獲得最高收益的那個(gè)純策略納什均衡,這樣就能直接找到問題p.1的最優(yōu)解或找到接近最優(yōu)性能的策略組合。
在傳統(tǒng)的學(xué)習(xí)自動(dòng)機(jī)當(dāng)中,步長的大小對(duì)算法的收斂速度影響很大且是一個(gè)預(yù)先確定的常數(shù)。通常,δ越大,算法的收斂速度就越快。為了能夠在保證獲得接近問題p.1最優(yōu)解的情況下,加快收斂速度,本文設(shè)計(jì)了一個(gè)能夠自適應(yīng)調(diào)整步長的機(jī)制。具體設(shè)計(jì)如下:
定義一個(gè)時(shí)變的δ:
式中,t1<t2<…<tn-1是有序正整數(shù),tn被定義為正無限,δ1<δ2<…<δn<1表示有序步長,n是一個(gè)有限正整數(shù)。
本文設(shè)計(jì)的自適應(yīng)步長調(diào)整機(jī)制不會(huì)影響理論結(jié)果。但是,為了能夠適應(yīng)實(shí)際需求,必須合理設(shè)計(jì)這些參數(shù)的值。由于自適應(yīng)步長機(jī)制能夠把分布式算法的迭代次數(shù)自適應(yīng)地限制在一個(gè)需要的數(shù)值上,所以這個(gè)機(jī)制非常適用于實(shí)際系統(tǒng)。
用仿真實(shí)驗(yàn)驗(yàn)證所提算法和模型以及實(shí)現(xiàn)方法的正確性。為了對(duì)所提算法進(jìn)行簡單高效且全面的分析,首先假設(shè)戰(zhàn)場環(huán)境內(nèi)有6部干擾機(jī)和7部目標(biāo)雷達(dá),雷達(dá)的威脅系數(shù)分別為 0.89、0.27、0.64、0.10、0.72、0.43、0.54,每個(gè)干擾機(jī)最多能同時(shí)干擾2部雷達(dá),則每個(gè)干擾機(jī)的策略數(shù)T i=C17+C27=28。通過干擾決策分析,計(jì)算雷達(dá)干擾效益矩陣Q,計(jì)算結(jié)果如表1所示。
表1 算例干擾效益值
圖1表示干擾機(jī)1所選行動(dòng)的概率值(也就是混合策略)的進(jìn)化曲線。采用自適應(yīng)步長機(jī)制時(shí),n=2,t1=200,δ1=0.1,δ2=0.3。圖 1證明本文所設(shè)計(jì)的算法具有很好的收斂性。
當(dāng)δ=0.1時(shí),在459次迭代后,干擾機(jī)1收斂到策略 5,也就是p15=1,對(duì)應(yīng)的決策矩陣X1=[x11,x12,…,x17]=[1 0 0 0 1 0 0],即干擾機(jī) 1選擇第 1個(gè)雷達(dá)和第5個(gè)雷達(dá)進(jìn)行干擾;
當(dāng)δ=0.3時(shí),在65次迭代后,干擾機(jī)1收斂到策略 26,也就是p126=1,對(duì)應(yīng)的決策矩陣X1=[0 0 0 0 0 1 0],即干擾機(jī)1選擇第6個(gè)雷達(dá)進(jìn)行干擾;
當(dāng)選擇自適應(yīng)步長機(jī)制時(shí),在220次迭代后,干擾機(jī)1收斂到策略5,也就是p15=1,對(duì)應(yīng)的決策矩陣X1=[1 0 0 0 1 0 0],即干擾機(jī)1選擇第1個(gè)雷達(dá)和第5個(gè)雷達(dá)進(jìn)行干擾。
當(dāng)δ很大且策略數(shù)很小時(shí),算法的收斂速度就會(huì)很快。此外,在相同狀態(tài)下,對(duì)于不同數(shù)值的δ,分布式干擾資源分配算法可能會(huì)收斂到不同的納什均衡。
圖1 干擾機(jī)1的所選行動(dòng)概率(混合策略)進(jìn)化曲線
圖2 給出了不同算法在不同干擾機(jī)數(shù)量情況下所獲得的干擾效益。圖2表明,不論干擾機(jī)數(shù)量是多少,分布式干擾資源分配算法都能夠獲得比隨機(jī)選擇算法大得多的干擾效益。如果在仿真中,運(yùn)行分布式干擾資源分配算法2次并且從中選擇一個(gè)收益較大的納什均衡,分布式干擾資源分配算法獲得的干擾效益就會(huì)得到提升。如果分布式干擾資源分配算法被運(yùn)行6次,則干擾效益性能會(huì)進(jìn)一步增加。
從圖2還可以獲知,δ越小,分布式干擾資源分配算法的性能越好。這是由于通常有多個(gè)納什均衡存在,而當(dāng)δ增大時(shí),分布式干擾資源分配算法更有可能錯(cuò)失最優(yōu)的或者接近最優(yōu)的納什均衡。
圖2 性能對(duì)比
圖1 和圖2表明自適應(yīng)步長機(jī)制能夠在干擾效益性能和收斂速度之間獲得一個(gè)很好的平衡。這些仿真結(jié)果證明自適應(yīng)步長機(jī)制是有效的。在實(shí)際系統(tǒng)中,可以根據(jù)系統(tǒng)需求,來調(diào)整步長δ的數(shù)值或者采用自適應(yīng)步長機(jī)制來平衡性能與算法復(fù)雜度之間的關(guān)系。總的來說,分布式干擾資源分配算法靈活有效。
本文利用博弈論研究了雷達(dá)有源干擾資源分配問題,基于學(xué)習(xí)自動(dòng)機(jī)原理提出了分布式干擾資源分配算法,為求解雷達(dá)干擾資源分配數(shù)學(xué)模型提供了新的思路。重復(fù)這個(gè)算法,可以提高干擾機(jī)干擾效益。設(shè)計(jì)了一個(gè)自適應(yīng)步長機(jī)制,它能夠平衡算法性能和收斂速度之間的關(guān)系。與窮舉搜索算法相比,本文提出的算法能夠以很低的復(fù)雜度來獲取一個(gè)與之相當(dāng)?shù)母蓴_性能。