劉一鳴,盛文,胡冰,張磊
空軍預(yù)警學(xué)院 防空預(yù)警裝備系,武漢 430019
在現(xiàn)代化的戰(zhàn)爭(zhēng)中,戰(zhàn)場(chǎng)環(huán)境日趨多樣化、復(fù)雜化和持久化。大型相控陣?yán)走_(dá)作為預(yù)警體系中的骨干裝備,其功能的充分發(fā)揮對(duì)整個(gè)預(yù)警體系的作戰(zhàn)效能起到了至關(guān)重要的作用。而跟蹤工作模式占據(jù)其大部分資源,所以利用自適應(yīng)波束波形調(diào)度策略來(lái)提高多目標(biāo)跟蹤性能的研究是不可或缺的。
相控陣?yán)走_(dá)多目標(biāo)跟蹤波束調(diào)度策略是利用對(duì)目標(biāo)狀態(tài)變量的估計(jì)和當(dāng)前可用資源制定相應(yīng)的規(guī)則,來(lái)實(shí)現(xiàn)在跟蹤波束調(diào)度時(shí)刻做出合理決策的目的。相控陣?yán)走_(dá)作為一種特殊的傳感器,其管理策略與多傳感器有很多相似之處,常見(jiàn)的傳感器控制方法包括信息論[1-2]、協(xié)方差[3-4]和克拉美羅下界(Cramer-Rao Low Bound, CRLB)[5],很多學(xué)者將其引入相控陣?yán)走_(dá)多目標(biāo)跟蹤資源管理的研究中取得了豐碩的成果。文獻(xiàn)[6]在信息論的框架下,將跟蹤前后信息熵的變化作為跟蹤精度的衡量指標(biāo)來(lái)控制跟蹤波束的調(diào)度情況。但是該方法將每個(gè)目標(biāo)的精度需求視為相同的,這與實(shí)際的作戰(zhàn)環(huán)境是不相符的。進(jìn)而,鑒于協(xié)方差控制的方法具有很強(qiáng)的自適應(yīng)性,文獻(xiàn)[7]提出了基于協(xié)方差偏差均值最小準(zhǔn)則和最大協(xié)方差偏差最小準(zhǔn)則的相控陣?yán)走_(dá)多目標(biāo)資源管理算法。文獻(xiàn)[8]在最小化后驗(yàn)估計(jì)誤差協(xié)方差的條件下,實(shí)現(xiàn)了對(duì)雷達(dá)波束、功率和波形參數(shù)的選擇。但以上研究?jī)H考慮了目標(biāo)跟蹤精度,而忽略了雷達(dá)資源的消耗。文獻(xiàn)[9-10]通過(guò)當(dāng)前時(shí)刻目標(biāo)實(shí)際協(xié)方差與期望值的偏差和所選波形能量的加權(quán)平均為調(diào)度代價(jià),進(jìn)而選擇下一時(shí)刻的工作方式和參數(shù)。文獻(xiàn)[11-12]在檢測(cè)概率和跟蹤精度的約束條件下,預(yù)估了波束的駐留時(shí)間,通過(guò)定義的緊迫(調(diào)度)系數(shù)來(lái)確定下一時(shí)刻的波束指向。然而,協(xié)方差控制思想的調(diào)度性能受期望協(xié)方差矩陣和濾波算法的影響很大,考慮到CRLB是參數(shù)估計(jì)誤差的理論下界,文獻(xiàn)[13-17]針對(duì)多輸入多輸出雷達(dá)波束的特性,以后驗(yàn)CRLB為跟蹤精度的評(píng)價(jià)指標(biāo),建立相應(yīng)的優(yōu)化模型,對(duì)波束指向、發(fā)射功率、重訪時(shí)間和駐留時(shí)間等參數(shù)實(shí)現(xiàn)了有效管理。
以上研究?jī)H考慮了波束調(diào)度當(dāng)前的代價(jià),然而當(dāng)前調(diào)度決策會(huì)影響到雷達(dá)對(duì)目標(biāo)的觀測(cè)結(jié)果,繼而影響到下一時(shí)刻對(duì)目標(biāo)狀態(tài)的估計(jì),最終影響下一時(shí)刻的調(diào)度決策,顯然這是一個(gè)序貫的時(shí)序決策過(guò)程,所以考慮當(dāng)前時(shí)刻決策的長(zhǎng)遠(yuǎn)代價(jià)可以一定程度上提高系統(tǒng)整體的調(diào)度性能。文獻(xiàn)[18-21]將多傳感器網(wǎng)絡(luò)動(dòng)態(tài)控制問(wèn)題描述為馬爾可夫決策過(guò)程(MDP),設(shè)計(jì)了相應(yīng)的參數(shù)優(yōu)化策略,提高了系統(tǒng)的性能。文獻(xiàn)[22]利用概率密度函數(shù)對(duì)跟蹤精度進(jìn)行評(píng)價(jià),采用馬爾可夫決策過(guò)程對(duì)當(dāng)前時(shí)刻調(diào)度的長(zhǎng)遠(yuǎn)代價(jià)進(jìn)行建模,實(shí)現(xiàn)對(duì)雷達(dá)資源的實(shí)時(shí)管理,但該方法并沒(méi)有考慮到雷達(dá)消耗的能量。文獻(xiàn)[23]將雷達(dá)跟蹤資源管理問(wèn)題建模為MDP,設(shè)計(jì)了發(fā)射功率、載頻、駐留時(shí)間和采樣間隔優(yōu)化策略,并提出了一種改進(jìn)的二元風(fēng)驅(qū)動(dòng)優(yōu)化算法加速最優(yōu)策略的求解。文獻(xiàn)[24]類(lèi)比隨機(jī)控制問(wèn)題,將雷達(dá)多目標(biāo)跟蹤目標(biāo)選擇問(wèn)題建模為MDP,給出了相關(guān)策略,降低了資源過(guò)載時(shí)多目標(biāo)跟蹤誤差。上述研究不斷豐富了相控陣?yán)走_(dá)跟蹤波束調(diào)度的內(nèi)容,但仍存在以下不足:調(diào)度策略設(shè)計(jì)過(guò)程中沒(méi)能考慮到跟蹤資源對(duì)不同目標(biāo)跟蹤精度改善程度的差異性。
針對(duì)上述文獻(xiàn)中未能綜合考慮跟蹤資源對(duì)不同目標(biāo)跟蹤精度改善程度的差異性和決策長(zhǎng)期性的問(wèn)題,研究了相控陣?yán)走_(dá)波束調(diào)度和波形參數(shù)優(yōu)化的問(wèn)題,將上述序列決策問(wèn)題建模為一個(gè)離散MDP,利用有限階段的累計(jì)資源消耗收益率來(lái)衡量當(dāng)前時(shí)刻資源對(duì)目標(biāo)跟蹤精度改善的差異性,進(jìn)而與當(dāng)前時(shí)刻的實(shí)際跟蹤精度相結(jié)合作為長(zhǎng)時(shí)策略的回報(bào)函數(shù),考慮到預(yù)測(cè)的準(zhǔn)確性,利用預(yù)測(cè)的后驗(yàn)克拉美羅下界(Posterior Cramer-Rao Low Bound, PCRLB)來(lái)衡量預(yù)測(cè)精度,而實(shí)際精度仍采用協(xié)方差來(lái)表征;同時(shí),提出了一種并行混合遺傳粒子群算法來(lái)求解最優(yōu)策略,最后在多目標(biāo)跟蹤場(chǎng)景下,將所提調(diào)度策略與其他已有方法進(jìn)行對(duì)比,驗(yàn)證了有效性和優(yōu)越性。
相控陣?yán)走_(dá)多目標(biāo)跟蹤波束波形調(diào)度問(wèn)題可描述為:如何根據(jù)當(dāng)前時(shí)刻的濾波結(jié)果確定下一時(shí)刻跟蹤波束指向及跟蹤波形參數(shù)。為提高系統(tǒng)長(zhǎng)期跟蹤性能,可將其建模為一個(gè)序列決策問(wèn)題,而序列決策模型要求決策者不僅要考慮決策的即時(shí)效應(yīng),還要考慮為將來(lái)決策創(chuàng)造機(jī)會(huì),則tk時(shí)刻的具體決策過(guò)程如圖1所示。同時(shí)多目標(biāo)跟蹤濾波過(guò)程具有明顯的馬爾可夫性,故將該問(wèn)題建模為MDP,基于MDP框架,本文的具體模型要素如下。
圖1 tk時(shí)刻長(zhǎng)期決策過(guò)程示意圖Fig.1 Schematic diagram of long-term decision-making process at tk time
定義tk時(shí)刻的調(diào)度動(dòng)作向量ak=[akp,akw]T,其中akp為tk時(shí)刻雷達(dá)的波束指向,akw=[akτ,akT]為tk時(shí)刻雷達(dá)跟蹤波形參數(shù)向量,akτ為駐留時(shí)間,akT為跟蹤采樣間隔。
系統(tǒng)狀態(tài)即跟蹤目標(biāo)運(yùn)動(dòng)狀態(tài),定義tk時(shí)刻的系統(tǒng)狀態(tài)Xk=[xk,yk,vxk,vyk]T,其中xk、yk、vxk和vyk分別表示目標(biāo)在x和y方向的位置和速度。則系統(tǒng)的狀態(tài)及狀態(tài)轉(zhuǎn)移可表示為
Xk+1=FkXk+ωk
(1)
式中:Fk為狀態(tài)轉(zhuǎn)移矩陣;ωk為零均值高斯噪聲,其協(xié)方差矩陣為Qk。
定義tk時(shí)刻的系統(tǒng)觀測(cè)Zk=[rk,θk]T,其中rk為目標(biāo)距離,θk為目標(biāo)方位角。則系統(tǒng)的觀測(cè)方程可表示為
Zk+1=H(Xk+1)+νk
(2)
式中:H(·)為雷達(dá)的非線性觀測(cè)函數(shù);νk為零均值高斯量測(cè)噪聲,其協(xié)方差矩陣為Rk。
相控陣?yán)走_(dá)長(zhǎng)期調(diào)度的關(guān)鍵是對(duì)系統(tǒng)未來(lái)狀態(tài)的準(zhǔn)確預(yù)測(cè),而PCRLB給出了目標(biāo)狀態(tài)估計(jì)誤差的理論下界,故將其作為預(yù)測(cè)精度的衡量指標(biāo)。PCRLB定義為Fisher信息矩陣(FIM)的逆矩陣[25],即
(3)
針對(duì)本文問(wèn)題,文獻(xiàn)[26]提出了FIM的遞推求解方法,即
(4)
式中:Gk+1=?Xk+1H(Xk+1)為觀測(cè)矩陣的雅可比矩陣。
相控陣?yán)走_(dá)消耗的資源可分為時(shí)間資源和能量資源,其中能量資源主要為發(fā)射功率和脈沖寬度,時(shí)間資源主要為駐留時(shí)間和采樣間隔。本文不考慮輻射控制的問(wèn)題,假定發(fā)射功率和占空比值為最大值,故僅考慮時(shí)間資源的消耗,所以雷達(dá)跟蹤消耗的資源Ek由駐留時(shí)間dk和采樣間隔Tk來(lái)表征,即
Ek=dk/Tk
(5)
目標(biāo)跟蹤精度僅考慮位置估計(jì)誤差,為了便于目標(biāo)后驗(yàn)克拉美羅下界的量化以及后續(xù)的計(jì)算,故從Ck中提取位置分量估計(jì)誤差的下界,并取其跡和Frobenius范數(shù)(F范數(shù))作為其量化值Bk,用ΔAk描述Bk的變化率,即
(6)
式中:blkdiag(·)為生成指定對(duì)角線元素的矩陣;Im為單位矩陣;?代表Kronecker運(yùn)算。
為了提高系統(tǒng)長(zhǎng)期調(diào)度的性能,就要充分考慮調(diào)度時(shí)刻目標(biāo)消耗相應(yīng)資源給系統(tǒng)帶來(lái)回報(bào)的差異性,借鑒效益理論中效費(fèi)比這一核心概念來(lái)描述預(yù)測(cè)資源消耗回報(bào)率,可以實(shí)現(xiàn)對(duì)波束調(diào)度過(guò)程的精確控制,進(jìn)而提高管理過(guò)程效益。然而,相控陣?yán)走_(dá)系統(tǒng)中資源種類(lèi)繁多,如波形資源、設(shè)備運(yùn)算資源和存儲(chǔ)資源等,需對(duì)調(diào)度過(guò)程中資源概念予以界定。跟蹤波束波形調(diào)度決策問(wèn)題只關(guān)心波形能量的調(diào)度情況,故上述“資源”具體指發(fā)射波形資源,對(duì)應(yīng)的“效費(fèi)比”是波束調(diào)度效費(fèi)比ηk,定義為預(yù)測(cè)精度變化率與發(fā)射波形資源消耗的比值,即
ηk=ΔAk/Ek
(7)
同時(shí),當(dāng)跟蹤目標(biāo)的跟蹤精度超過(guò)精度門(mén)限時(shí),應(yīng)及時(shí)調(diào)度這些目標(biāo),故需要將決策時(shí)刻各目標(biāo)的實(shí)際跟蹤誤差考慮到回報(bào)函數(shù)中來(lái)。首先,目標(biāo)跟蹤的誤差協(xié)方差矩陣不能衡量大小,需要取其某種意義下的范數(shù)值來(lái)反映其誤差水平;同時(shí),由于協(xié)方差矩陣中對(duì)角線上元素可以很好地體現(xiàn)目標(biāo)位置估計(jì)誤差的水平,故取誤差協(xié)方差矩陣的F范數(shù)來(lái)表征目標(biāo)實(shí)際誤差協(xié)方差矩陣的大小,當(dāng)某個(gè)目標(biāo)當(dāng)前實(shí)際誤差超過(guò)門(mén)限時(shí),但其波束調(diào)度效費(fèi)比很小,這會(huì)使得這些目標(biāo)不能及時(shí)被調(diào)度,所以定義一步回報(bào)函數(shù)r(Xk,ak)為
r(Xk,ak)=
(8)
式中:F[P(akp)]表示tk時(shí)刻目標(biāo)akp實(shí)際跟蹤協(xié)方差矩陣P(akp)的F范數(shù);Pthr為設(shè)定的跟蹤精度門(mén)限,記優(yōu)勢(shì)系數(shù)κk=maxηk為tk時(shí)刻所有策略中資源效費(fèi)比的最大值,目的是讓跟蹤誤差超過(guò)門(mén)限的目標(biāo)波束調(diào)度效費(fèi)比絕對(duì)占優(yōu)。
定義R(Xk,ak,ak+1,…,ak+n,n)為在系統(tǒng)狀態(tài)為Xk時(shí)采取系列動(dòng)作Ak:k+n=[ak,ak+1,…,ak+n]時(shí)n步預(yù)測(cè)的回報(bào)函數(shù),即
(9)
式中:ατ為τ+1步預(yù)測(cè)的折扣因子,用于表示各步預(yù)測(cè)的重要程度。
目標(biāo)跟蹤算法主要用于對(duì)目標(biāo)狀態(tài)預(yù)測(cè)和觀測(cè)進(jìn)行濾波,使其更接近目標(biāo)實(shí)際運(yùn)動(dòng)情況??紤]到系統(tǒng)為非線性高斯,常用的算法有擴(kuò)展卡爾曼濾波(EKF)、無(wú)跡卡爾曼濾波(UKF)和粒子濾波(PF),EKF計(jì)算量較小,但僅適合于弱非線性高斯系統(tǒng);PF適用于任何非線性高斯系統(tǒng),但其本質(zhì)上屬于蒙特卡羅方法,計(jì)算量大;UKF計(jì)算量適中,且適合于非線性高斯系統(tǒng)。本文的狀態(tài)方程仍為線性高斯,故可采用簡(jiǎn)化無(wú)跡卡爾曼濾波(SUKF)算法,其具體步驟為
(10)
(11)
式中:λ=α2(L+b)-L為尺度參數(shù),用來(lái)降低總的預(yù)測(cè)誤差,α控制了采樣點(diǎn)的分布狀態(tài),通常設(shè)為一個(gè)較小的正數(shù)(1×10-4≤α<1),b為待選參數(shù),通常取0或3-L;β為狀態(tài)分布參數(shù),對(duì)于狀態(tài)變量為高斯分布,通常取β=0為最優(yōu)。
(12)
(13)
在調(diào)度過(guò)程中尋求的最優(yōu)策略,不僅是要最大化回報(bào)函數(shù),還要滿足檢測(cè)和跟蹤的基本要求,所以本文的長(zhǎng)時(shí)調(diào)度策略優(yōu)化模型可描述為
(14)
上述調(diào)度策略下的資源管理框架描述如圖2所示,資源管理流程實(shí)際上是一個(gè)最優(yōu)控制的過(guò)程,調(diào)度過(guò)程主要由波束調(diào)度及波形參數(shù)優(yōu)化和最優(yōu)策略執(zhí)行2個(gè)模塊構(gòu)成,具體步驟為
圖2 長(zhǎng)時(shí)調(diào)度策略最優(yōu)控制流程Fig.2 Optimal control flow of long-term scheduling strategy
步驟3tk時(shí)刻波束調(diào)度及波形參數(shù)優(yōu)化(為簡(jiǎn)化表示,以下推導(dǎo)忽略目標(biāo)編號(hào))。
(15)
式中:SNRref、τref和rref分別為參考信噪比、駐留時(shí)間和目標(biāo)跟蹤距離。
假設(shè)目標(biāo)的起伏模型為SwerlingⅢ型,虛警概率為Pf,故可得預(yù)測(cè)的檢測(cè)概率為
(16)
(17)
本文馬爾可夫決策問(wèn)題的最優(yōu)決策序列可轉(zhuǎn)化為動(dòng)態(tài)規(guī)劃算法結(jié)構(gòu)進(jìn)行求解,但是隨著預(yù)測(cè)步數(shù)的增加,尋求最優(yōu)策略的效率就會(huì)下降,故引入智能優(yōu)化算法加快尋優(yōu)速度。常用的遺傳算法(Genetic Algorithm, GA)全局搜索能力強(qiáng),粒子群優(yōu)化(Particle Swarm Optimization, PSO)算法收斂速度快,其混合算法在雷達(dá)參數(shù)優(yōu)化[27-29]方面得到了成功運(yùn)用,但是上述混合算法均是將其中某一算法的核心思想引入到另一種算法中,本文提出了一種并行混合GAPSO算法,將2種算法更新的種群對(duì)比選優(yōu)組成新的種群,其算法流程如圖3所示,流程中關(guān)鍵步驟說(shuō)明如下:
(18)
式中:cmin為常數(shù),取R(y)的最小值。
(19)
圖3 并行混合GAPSO算法實(shí)現(xiàn)流程圖Fig.3 Flow chart of parallel hybrid GAPSO algorithm implementation
1) 選擇算子。選擇又稱(chēng)為復(fù)制,是在群體中選擇生命力強(qiáng)的個(gè)體產(chǎn)生新群體的過(guò)程,利用比例選擇方法,則個(gè)體i被選則概率Pi為
(20)
通過(guò)上述方式會(huì)破壞適應(yīng)度較高的優(yōu)良個(gè)體,使問(wèn)題收斂速度慢甚至陷入局部最優(yōu),故引入最優(yōu)保存策略來(lái)保護(hù)優(yōu)秀個(gè)體,其基本思想概括為:當(dāng)前種群中適應(yīng)度最高的個(gè)體不參與進(jìn)化,而是用它替換掉本代種群中經(jīng)過(guò)雜交、變異等遺傳后所產(chǎn)生的適應(yīng)度最低的個(gè)體。
(21)
式中:α為一個(gè)參數(shù),α∈(0,1)。同時(shí),交叉操作的執(zhí)行與否由交叉概率Pc決定。
3) 變異算子。變異算子是個(gè)體間染色體等位基因替換的過(guò)程,為了增加種群的多樣性,本文采用均勻變異的方式,其操作過(guò)程描述為:依次指定個(gè)體中每個(gè)基因座為變異點(diǎn),對(duì)每個(gè)變異點(diǎn),以變異概率Pm從對(duì)應(yīng)基因的取值范圍內(nèi)取一隨機(jī)數(shù)代替原來(lái)的基因值。
由于目標(biāo)的機(jī)動(dòng)性和目標(biāo)位置預(yù)測(cè)的局限性,過(guò)分的長(zhǎng)期預(yù)測(cè)可能會(huì)帶來(lái)較大的預(yù)測(cè)誤差,從而影響目標(biāo)的跟蹤精度。因此,為分析長(zhǎng)時(shí)調(diào)度策略中決策步長(zhǎng)對(duì)目標(biāo)跟蹤精度的影響,選取不同的預(yù)測(cè)步長(zhǎng)n進(jìn)行實(shí)驗(yàn)。為了驗(yàn)證上述策略中回報(bào)函數(shù)和長(zhǎng)時(shí)調(diào)度方式2點(diǎn)創(chuàng)新性工作的有效性和優(yōu)越性,在同一仿真場(chǎng)景下,選取相應(yīng)短時(shí)調(diào)度策略和常規(guī)的波束波形聯(lián)合調(diào)度策略[9-10]2種方法進(jìn)行對(duì)比驗(yàn)證。
方法1 該方法在上述調(diào)度策略的基礎(chǔ)上,采用一步預(yù)測(cè)方式對(duì)目標(biāo)進(jìn)行跟蹤。
方法2[9-10]該方法中的調(diào)度策略的目標(biāo)函數(shù)選為預(yù)測(cè)跟蹤精度與波形能量的歸一化加權(quán)平均值。
圖4 責(zé)任區(qū)內(nèi)跟蹤目標(biāo)運(yùn)動(dòng)軌跡Fig.4 Tracking target motion trajectory in area of responsibility
在上述多目標(biāo)場(chǎng)景中,為了更全面地反映目標(biāo)的跟蹤情況,將均方根誤差(Root Mean Square Error,RMSE)作為跟蹤質(zhì)量的評(píng)價(jià)指標(biāo),信號(hào)駐留時(shí)間和采樣間隔時(shí)間作為資源消耗的評(píng)價(jià)指標(biāo)。圖5給出了不同方法下各目標(biāo)在調(diào)度過(guò)程中的RMSE,可以看出,長(zhǎng)時(shí)調(diào)度方法在調(diào)度過(guò)程中的跟蹤精度普遍高于方法1和2,同時(shí),方法1的跟蹤精度要高于方法2;圖6給出了不同方法下目標(biāo)在調(diào)度過(guò)程中的平均資源消耗情況,可以看出,長(zhǎng)時(shí)調(diào)度方法在保持適中的采樣間隔時(shí)間水平時(shí)能夠利用更多的駐留時(shí)間來(lái)跟蹤目標(biāo),然而方法2相對(duì)方法1具有更高的采樣間隔時(shí)間水平并利用更多的駐留時(shí)間來(lái)跟蹤目標(biāo)。綜上分析可得,長(zhǎng)時(shí)調(diào)度策略通過(guò)回報(bào)函數(shù)可以選擇各決策時(shí)刻的最優(yōu)跟蹤目標(biāo),進(jìn)而實(shí)現(xiàn)對(duì)采樣間隔時(shí)間和駐留時(shí)間的最優(yōu)控制,通過(guò)預(yù)測(cè)步長(zhǎng)的增加,來(lái)提高整體的調(diào)度性能。
為了精確刻畫(huà)長(zhǎng)時(shí)調(diào)度策略的優(yōu)越性,表1給出了各方法性能指標(biāo)和決策時(shí)長(zhǎng)的統(tǒng)計(jì)結(jié)果,實(shí)驗(yàn)環(huán)境為MATLAB2016a,實(shí)驗(yàn)的平臺(tái)為Windows10 64位操作系統(tǒng),計(jì)算機(jī)配置為Intel Corei5-8250U CPU,主頻1.6 GHz,顯示適配器NVIDIAGeForce MX150,可得當(dāng)預(yù)測(cè)步長(zhǎng)n=5時(shí),跟蹤精度相對(duì)方法1提高11.17%,方法1相對(duì)方法2提高1.69%。
圖5 不同方法下各目標(biāo)RMSEFig.5 RMSE of each target under different methods
圖6 不同方法下調(diào)度過(guò)程平均消耗資源Fig.6 Average consumption of resources in scheduling process under different methods
表1 長(zhǎng)時(shí)調(diào)度策略下跟蹤性能指標(biāo)和決策時(shí)長(zhǎng)統(tǒng)計(jì)值
Table 1 Tracking performance indicators and decision duration statistics under long-term scheduling strategy
方法均方誤差/m駐留時(shí)間/s采樣間隔/s決策時(shí)長(zhǎng)/s預(yù)測(cè)步長(zhǎng)n=2327.820.022931.15385.6698n=3319.170.030081.19357.4832n=4305.800.033551.21729.5013n=5292.600.034961.228012.507n=6306.740.035341.226515.445方法1329.410.015421.10723.9864方法2335.080.020441.48231.1809
圖7 RMSE和決策時(shí)長(zhǎng)隨預(yù)測(cè)步長(zhǎng)的變化曲線Fig.7 RMSE and decision duration as a function of predicted step size
為了更好地分析長(zhǎng)時(shí)調(diào)度策略整體調(diào)度性能和預(yù)測(cè)步長(zhǎng)的關(guān)系,取步長(zhǎng)n=2,3,4,5,6情況時(shí)進(jìn)行分析,圖6和表1給出了調(diào)度過(guò)程中時(shí)間資源消耗隨預(yù)測(cè)步長(zhǎng)的變化情況,可以看出,隨著預(yù)測(cè)步長(zhǎng)的增加,駐留時(shí)間和采樣間隔時(shí)間都有所增加;圖7給出了調(diào)度過(guò)程中RMSE和決策時(shí)長(zhǎng)與預(yù)測(cè)步長(zhǎng)的關(guān)系,可以看出,隨著預(yù)測(cè)步長(zhǎng)的增加,決策時(shí)長(zhǎng)增加且增長(zhǎng)速度越來(lái)越快,RMSE先減小再增加,即跟蹤精度先增加后減小,在預(yù)測(cè)步長(zhǎng)n=5時(shí)獲得最優(yōu)跟蹤精度,這是因?yàn)殚L(zhǎng)期預(yù)測(cè)的優(yōu)勢(shì)是建立在目標(biāo)狀態(tài)預(yù)測(cè)準(zhǔn)確的基礎(chǔ)上,而跟蹤目標(biāo)存在機(jī)動(dòng)特性,從而大大降低了預(yù)測(cè)的準(zhǔn)確性,最終導(dǎo)致決策的偏差。綜上所述,針對(duì)不同的作戰(zhàn)場(chǎng)景,在一定的預(yù)測(cè)步長(zhǎng)范圍內(nèi),長(zhǎng)期調(diào)度策略要優(yōu)于短期調(diào)度策略,最優(yōu)步長(zhǎng)需要在調(diào)度過(guò)程中尋找并設(shè)置。同時(shí),當(dāng)最優(yōu)預(yù)測(cè)步長(zhǎng)所需較長(zhǎng)的決策時(shí)長(zhǎng)時(shí),決策者需要在跟蹤性能和決策實(shí)時(shí)性之間進(jìn)行合理地權(quán)衡。
同時(shí),為了進(jìn)一步體現(xiàn)長(zhǎng)時(shí)調(diào)度策略的優(yōu)越性,選取在各方法中跟蹤調(diào)度情況均較好的目標(biāo)1進(jìn)行分析,考慮到上述情況分析的結(jié)果,選取n=5、方法1和方法2這3種方法進(jìn)行分析,結(jié)果如圖8所示,可以看出長(zhǎng)時(shí)調(diào)度策略在目標(biāo)跟蹤誤差超過(guò)門(mén)限后能及時(shí)對(duì)其進(jìn)行調(diào)度,很大程度上避免了目標(biāo)失跟,然而其他2種方法沒(méi)有這種控制效果;同時(shí)隨著時(shí)間的推移,目標(biāo)跟蹤精度的變化趨于穩(wěn)定且能保持在較低的跟蹤誤差水平。
為了更好地展現(xiàn)長(zhǎng)時(shí)調(diào)度方法在調(diào)度過(guò)程中對(duì)目標(biāo)跟蹤精度的控制情況,選取預(yù)測(cè)步長(zhǎng)n=5時(shí)對(duì)波束照射情況進(jìn)行分析,結(jié)果如圖9所示,可以看出,在整個(gè)調(diào)度過(guò)程中雷達(dá)對(duì)大部分目標(biāo)的照射次數(shù)相當(dāng),雖然各目標(biāo)在不同時(shí)刻的回報(bào)函數(shù)值存在差異,但各目標(biāo)本身的運(yùn)動(dòng)特性相似,所以回報(bào)函數(shù)在各決策時(shí)刻所反映的目標(biāo)間的差異體現(xiàn)在目標(biāo)的狀態(tài),而并不是目標(biāo)本身的屬性。
圖8 3種方法下目標(biāo)1調(diào)度過(guò)程RMSE 變化情況Fig.8 Changes in RMSE of target 1 scheduling process under three methods
圖9 預(yù)測(cè)步長(zhǎng)n=5時(shí)調(diào)度過(guò)程波束照射情況Fig.9 Scheduling process beam illumination when predicting step size n=5
借鑒了馬爾可夫決策過(guò)程的理論框架,將波束波形調(diào)度問(wèn)題建模為序列決策問(wèn)題,提出了基于馬爾可夫決策過(guò)程的波束波形聯(lián)合長(zhǎng)時(shí)調(diào)度策略,仿真分析表明,所提出的調(diào)度策略:
1) 可以在各決策時(shí)刻選取最為合適的目標(biāo)進(jìn)行調(diào)度,在保證跟蹤精度的同時(shí),適當(dāng)增大了跟蹤駐留時(shí)間和采樣間隔時(shí)間,提高了時(shí)間資源利用率。
2) 在調(diào)度過(guò)程中,能夠及時(shí)對(duì)跟蹤精度超門(mén)限目標(biāo)進(jìn)行調(diào)度,有效提高了跟蹤目標(biāo)容量,降低了失跟率。
3) 存在最優(yōu)步長(zhǎng),同時(shí),調(diào)度性能的提高是以犧牲決策實(shí)時(shí)性為代價(jià),實(shí)際運(yùn)用過(guò)程中決策者需要在性能和實(shí)時(shí)性之間進(jìn)行權(quán)衡,進(jìn)而選取合適的預(yù)測(cè)步長(zhǎng)。
4) 為解決波束波形聯(lián)合調(diào)度問(wèn)題提供了一個(gè)很好的理論框架,具有良好地拓展性,可解決多目標(biāo)決策問(wèn)題。