張昀普,單甘霖,段修生,王 猛
(1.陸軍工程大學(xué)石家莊校區(qū) 電子與光學(xué)工程系,河北 石家莊 050000;2.石家莊鐵道大學(xué) 機(jī)械工程學(xué)院,河北 石家莊 050000;3.中國(guó)人民解放軍63853部隊(duì),吉林 白城 137000)
目前,防空系統(tǒng)中裝備著多種多樣的傳感器。為了實(shí)現(xiàn)對(duì)整個(gè)傳感器網(wǎng)絡(luò)的智能化控制,達(dá)到作戰(zhàn)效能最大化,需要對(duì)傳感器資源進(jìn)行有效管理[1-2]。在偵察時(shí),主動(dòng)傳感器能夠獲得目標(biāo)的完整量測(cè)信息,但會(huì)向外輻射電磁波,極易暴露自身位置,隱蔽性差。與之相比,被動(dòng)傳感器雖然只能獲得角度信息,但其不向外輻射電磁波,具有良好的戰(zhàn)場(chǎng)生存能力。因此,如何對(duì)主/被動(dòng)傳感器系統(tǒng)進(jìn)行合理管理,使其在完成作戰(zhàn)任務(wù)的同時(shí),降低輻射風(fēng)險(xiǎn),已成為學(xué)者們的研究熱點(diǎn)。文獻(xiàn)[3]研究了基于輻射控制的單平臺(tái)主/被動(dòng)傳感器管理方法,當(dāng)被動(dòng)傳感器滿足任務(wù)要求時(shí),優(yōu)先調(diào)度被動(dòng)傳感器;否則,調(diào)動(dòng)主動(dòng)傳感器。進(jìn)一步,文獻(xiàn)[4]將該方法拓展到多機(jī)載平臺(tái)上來,提出一種時(shí)間和空間相結(jié)合的輻射控制方法,即從時(shí)間上優(yōu)先選擇滿足任務(wù)需求的被動(dòng)傳感器,若所有被動(dòng)傳感器均不滿足需求,則從空間上選擇受到目標(biāo)威脅最小的主動(dòng)傳感器執(zhí)行任務(wù)。然而,文獻(xiàn)[3-4]僅通過控制主動(dòng)傳感器的開機(jī)次數(shù)來減少輻射風(fēng)險(xiǎn),沒有量化傳感器的輻射,實(shí)際上不同傳感器的輻射代價(jià)是有差異的。文獻(xiàn)[5-6]研究了面向目標(biāo)跟蹤的主/被動(dòng)傳感器的調(diào)度方法,將使用一次主動(dòng)傳感器的輻射代價(jià)量化為固定值,通過建立基于跟蹤誤差與輻射代價(jià)目標(biāo)函數(shù),制定了相應(yīng)的調(diào)度策略,實(shí)現(xiàn)了輻射控制下對(duì)目標(biāo)的持續(xù)跟蹤。但隨著傳感器使用次數(shù)的增長(zhǎng),其輻射代價(jià)不可能是線性增長(zhǎng)的,僅僅將輻射代價(jià)量化為固定值是不準(zhǔn)確的。文獻(xiàn)[7-8]提出采用傳感器截獲概率的香農(nóng)熵量化輻射代價(jià),通過敵我傳感器的相關(guān)參數(shù)計(jì)算截獲概率,并以截獲概率最小為傳感器管理的目標(biāo)。然而在實(shí)際情況下,敵方設(shè)備的參數(shù)往往難以獲取,導(dǎo)致該方法的實(shí)際應(yīng)用較難。
在求取最優(yōu)的傳感器管理方案時(shí),主要有集中式[9-10]和分布式[11-12]兩種算法,集中式算法能夠獲得高質(zhì)量的解,但其計(jì)算速度較慢,容易給傳感器系統(tǒng)帶來較大的通信壓力。相比之下,分布式算法計(jì)算速度快,更符合現(xiàn)代戰(zhàn)爭(zhēng)對(duì)作戰(zhàn)決策的實(shí)時(shí)性要求[12]。因此,如何針對(duì)不同的任務(wù)場(chǎng)景設(shè)計(jì)有效的分布式算法已成為傳感器管理中的一大關(guān)鍵問題。
針對(duì)上述問題,筆者面向主/被動(dòng)傳感器系統(tǒng)協(xié)同目標(biāo)跟蹤問題,提出一種主被動(dòng)傳感器輻射控制的調(diào)度方法。首先建立部分可觀馬爾可夫決策過程(Partially Observable Markov Decision Process,POMDP)的傳感器調(diào)度模型,采用輻射度影響(Emission Level Impact,ELI)[13-14]量化主動(dòng)傳感器的輻射以彌補(bǔ)上述文獻(xiàn)的缺陷,并提出目標(biāo)跟蹤精度和系統(tǒng)輻射代價(jià)的計(jì)算方法;然后綜合考慮跟蹤任務(wù)要求和輻射代價(jià),構(gòu)建了目標(biāo)函數(shù);最后設(shè)計(jì)了一種改進(jìn)分布式拍賣算法以快速求解該調(diào)度問題。仿真實(shí)驗(yàn)的結(jié)果證明了模型和算法的有效性。
POMDP方法是一種研究隨機(jī)環(huán)境下多階段決策的理論方法,基于該理論,傳感器調(diào)度模型描述如下。
(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
(9)
定義k+1時(shí)刻系統(tǒng)輻射代價(jià)為在所有被調(diào)度的主動(dòng)傳感器ELI值的期望之和,則根據(jù)式(2)和式(9),可得系統(tǒng)輻射代價(jià)為
(10)
其中,V=[1,2,…,Emax]。
(11)
根據(jù)式(9)和式(11),可求出被調(diào)度主動(dòng)傳感器在k+1時(shí)刻的預(yù)測(cè)信念狀態(tài):
(12)
因此,得出整個(gè)系統(tǒng)在k+1時(shí)刻的輻射代價(jià)預(yù)測(cè)值為
(13)
考慮目標(biāo)跟蹤任務(wù)場(chǎng)景,為了使傳感器系統(tǒng)能夠在較好地完成跟蹤任務(wù)的同時(shí),降低輻射風(fēng)險(xiǎn),文中建立如下的目標(biāo)優(yōu)化函數(shù):
(14)
拍賣算法由Bertsekas提出,用以解決資源分配問題,其主要思想是若干個(gè)買家對(duì)若干個(gè)拍品進(jìn)行競(jìng)標(biāo),并以某一方的利益最大化為目標(biāo)進(jìn)行多次循環(huán)拍賣;當(dāng)所有拍品都被分配完畢,且整體的利益達(dá)到了最大化,則拍賣結(jié)束。其具有運(yùn)算復(fù)雜度低、實(shí)現(xiàn)簡(jiǎn)單的優(yōu)點(diǎn),尤其適用于分布式調(diào)度問題的求解[16]。但在拍賣循環(huán)的過程中,需要設(shè)定一個(gè)價(jià)格浮動(dòng)變量,該變量規(guī)定了各買方在新一輪拍賣時(shí)報(bào)價(jià)的最小浮動(dòng)幅度,以防止拍賣進(jìn)入死循環(huán),但其值往往難以確定。針對(duì)文中調(diào)度問題,筆者提出一種改進(jìn)分布式拍賣算法,與傳統(tǒng)的拍賣算法相比,該算法不需要設(shè)定價(jià)格浮動(dòng)變量,求解速度快,且更容易實(shí)現(xiàn)。該算法的具體步驟如下:
步驟1 初始化。得到k時(shí)刻目標(biāo)的狀態(tài)。
步驟2 計(jì)算預(yù)測(cè)值。各傳感器計(jì)算在k+1時(shí)刻的輻射代價(jià)和對(duì)各目標(biāo)的跟蹤精度預(yù)測(cè)值,主動(dòng)傳感器的輻射代價(jià)可結(jié)合式(12)和式(13)計(jì)算,被動(dòng)傳感器的輻射代價(jià)為零,跟蹤精度通過式(7)計(jì)算,如果傳感器不滿足目標(biāo)跟蹤閾值約束,則將其輻射代價(jià)記為100(即一個(gè)極大值)。
步驟3 迭代。以目標(biāo)為拍品,傳感器為買方,各傳感器對(duì)各目標(biāo)的輻射代價(jià)為投標(biāo)價(jià)格進(jìn)行拍賣,各個(gè)拍品選擇出價(jià)最小的買方(如果有多個(gè)最小報(bào)價(jià),則隨機(jī)選擇一個(gè)出價(jià)最小的買方),同時(shí)記錄各個(gè)拍品收到報(bào)價(jià)不為100的報(bào)價(jià)數(shù),稱為有效報(bào)價(jià)數(shù)。
步驟4 買方?jīng)Q策。如果存在方案沖突,即多個(gè)拍品被同一個(gè)買方拍下(將這些拍品稱為沖突拍品),則該買方按以下3個(gè)原則進(jìn)行決策以消解沖突:①如果買方對(duì)沖突拍品的報(bào)價(jià)不相等,則在未來迭代中該買方將只對(duì)此次接受最低報(bào)價(jià)的沖突拍品和其他非沖突拍品報(bào)價(jià);②如果買方對(duì)沖突拍品的報(bào)價(jià)相等,則在未來迭代中該買方將只對(duì)此次收到有效報(bào)價(jià)數(shù)最少的沖突拍品和其他非沖突拍品報(bào)價(jià);③如果所有沖突拍品收到的有效報(bào)價(jià)數(shù)也相等,則在未來迭代中該買方將只對(duì)預(yù)測(cè)跟蹤精度最優(yōu)的拍品和其他非沖突拍品報(bào)價(jià)。
步驟5 收斂檢驗(yàn)。如果分配方案無沖突,則說明計(jì)算已收斂,轉(zhuǎn)到步驟6;否則,轉(zhuǎn)到步驟3,繼續(xù)拍賣。
步驟6 狀態(tài)更新。根據(jù)所求得的傳感器調(diào)度動(dòng)作,獲取在k+1時(shí)刻的目標(biāo)真實(shí)量測(cè)值和瞬時(shí)輻射等級(jí),利用濾波方法更新目標(biāo)狀態(tài),根據(jù)式(9)更新主動(dòng)傳感器的ELI信念狀態(tài),算法結(jié)束。
算法收斂性證明:由于在迭代時(shí),拍品和買方的配對(duì)方案可能存在沖突,但是由于買方能夠自主使得一些買方在未來的迭代中不再對(duì)該拍品投標(biāo),所以隨著迭代的進(jìn)行,各個(gè)拍品的買方會(huì)越來越少,且同時(shí)競(jìng)拍多個(gè)拍品的買方也會(huì)越來越少,存在沖突的可能性會(huì)越來越小,在有限次迭代之后,所有拍品都會(huì)被不同的買方拍下,算法收斂。
算法復(fù)雜度分析:算法的復(fù)雜度主要體現(xiàn)拍賣時(shí)報(bào)價(jià)的計(jì)算次數(shù)上,在第1次迭代時(shí),需要所有買方計(jì)算對(duì)所有拍品的報(bào)價(jià)(包括跟蹤精度和輻射代價(jià)),但由于買方?jīng)Q策原則,使得在新一次迭代時(shí),買方需要報(bào)價(jià)的拍品必然減少,即計(jì)算報(bào)價(jià)的次數(shù)必然減少。因此,可知每一次迭代時(shí)最多需計(jì)算MN次,所以算法的復(fù)雜度為O(MN),而根據(jù)文獻(xiàn)[11]可知,窮舉法的算法復(fù)雜度為O(M2N),相比之下,文中算法的復(fù)雜度較低。
假定在三維監(jiān)視空間內(nèi),我方部署4個(gè)傳感器平臺(tái)跟蹤敵方兩個(gè)空中目標(biāo)。目標(biāo)1為非機(jī)動(dòng)目標(biāo),做勻速直線運(yùn)動(dòng),其初始位置為(2,2,3) km,初始速度為(150,180,10) m/s。目標(biāo)2為機(jī)動(dòng)目標(biāo),其在10~25 s內(nèi)以1 rad/s的速率向右轉(zhuǎn)彎,在25~40 s內(nèi)以1 rad/s的速率向左轉(zhuǎn)彎,其余時(shí)間均做勻速直線運(yùn)動(dòng),其初始位置為(10,-5,4) km,初始速度為(-200,140,0) m/s,規(guī)定對(duì)兩個(gè)目標(biāo)跟蹤要求的精度閾值均為50 m。將主動(dòng)傳感器的ELI狀態(tài)量化為{1,2,3}(1、2和3分別代表低、中和高3個(gè)輻射狀態(tài)等級(jí)),瞬時(shí)觀測(cè)輻射等級(jí)量化為{1,2,3}(1、2和3分別代表分別低、中和高3個(gè)瞬時(shí)輻射等級(jí))。傳感器具體量測(cè)參數(shù)見表1,表中,δr、δθ和δφ分別表示傳感器的斜距離、方位角和高低角的量測(cè)標(biāo)準(zhǔn)差。為了不失一般性,設(shè)定量測(cè)精度高的主動(dòng)傳感器更容易處于高輻射狀態(tài),各平臺(tái)上主動(dòng)傳感器的ELI狀態(tài)轉(zhuǎn)移矩陣為
表1 傳感器參數(shù)
傳感器采樣間隔為1 s,仿真時(shí)間為60 s,蒙特卡羅次數(shù)為200次。為了驗(yàn)證所提方法的有效性,采用4種經(jīng)典調(diào)度方法進(jìn)行對(duì)比:
方法1固定調(diào)度方法[10](Fixed Scheduling Method,F(xiàn)SM),一直使用固定的單平臺(tái)跟蹤目標(biāo),如果平臺(tái)上的被動(dòng)傳感器跟蹤精度符合閾值要求,則調(diào)度被動(dòng)傳感器;否則,調(diào)度誤差最小的傳感器。設(shè)定調(diào)度平臺(tái)2跟蹤目標(biāo)1,調(diào)度平臺(tái)1跟蹤目標(biāo)2,記為FSM 1。
方法2調(diào)度平臺(tái)1跟蹤目標(biāo)1,調(diào)度平臺(tái)3跟蹤目標(biāo)2,記為FSM 2。
方法3最近鄰調(diào)度方法[6](Closest Scheduling Method,CSM),調(diào)度與目標(biāo)最近的傳感器平臺(tái)上的傳感器跟蹤目標(biāo)。
方法4時(shí)間-空間結(jié)合調(diào)度方法[4](Time-Space Scheduling Method,TSSM),即輻射控制的調(diào)度方法。
為了驗(yàn)證算法對(duì)目標(biāo)跟蹤的效果,引入均方根誤差(Root Mean Squared Error,RMSE)作為衡量跟蹤精度的指標(biāo)。
筆者采用窮舉法、貪婪算法和拍賣算法3種經(jīng)典算法,以及多agent協(xié)商算法[12]和改進(jìn)蜂群算法[17]兩種改進(jìn)算法與文中算法進(jìn)行對(duì)比,并采用性能比體現(xiàn)各個(gè)算法的求解質(zhì)量,性能比定義為:各算法所得的指標(biāo)與窮舉法所得的最優(yōu)指標(biāo)相除。筆者以不滿足閾值的時(shí)刻數(shù)作為衡量跟蹤性能的指標(biāo),以目標(biāo)函數(shù)值(輻射代價(jià))作為衡量輻射性能的指標(biāo),其性能對(duì)比結(jié)果如表2所示??梢钥闯?,筆者提出的算法在跟蹤性能比和輻射性能比上均為最優(yōu),且運(yùn)算時(shí)間較短,說明筆者提出的算法能夠在較短的時(shí)間內(nèi)尋找出高質(zhì)量的傳感器調(diào)度方案,尋優(yōu)性能較好,體現(xiàn)出該算法的先進(jìn)性。
表2 算法性能對(duì)比
圖1 不同調(diào)度方法下歸一化輻射值
在整個(gè)仿真時(shí)間內(nèi),不同調(diào)度方法下系統(tǒng)歸一化輻射值如圖1所示,不同方法下目標(biāo)位置RMSE如圖2所示,文中方法對(duì)應(yīng)調(diào)度動(dòng)作如圖3所示。結(jié)合圖1和圖2可以看出,F(xiàn)SM 1、FSM 2和CSM無法在完成跟蹤任務(wù)和控制輻射代價(jià)上獲得很好的平衡,這是由于FSM和CSM的本質(zhì)都屬于單平臺(tái)調(diào)度方法,每一時(shí)刻的可供選擇的傳感器少,當(dāng)被動(dòng)傳感器不可用時(shí),就只能調(diào)度固定的主動(dòng)傳感器,容易使主動(dòng)傳感器的ELI狀態(tài)處于高輻射等級(jí),從而產(chǎn)生較高的輻射代價(jià)。TSSM方法在調(diào)度時(shí),不進(jìn)行輻射代價(jià)的預(yù)測(cè),無法根據(jù)不同的閾值要求進(jìn)行相應(yīng)的輻射控制。而結(jié)合圖3可以看出,文中方法能夠靈活切換各平臺(tái)上的傳感器跟蹤目標(biāo),使得兩個(gè)目標(biāo)的位置RMSE都基本符合閾值要求,且能產(chǎn)生最低的輻射代價(jià),驗(yàn)證了文中方法能夠在滿足跟蹤任務(wù)要求的同時(shí),進(jìn)行有效的輻射控制,體現(xiàn)出文中方法在調(diào)度性能上的優(yōu)勢(shì)。進(jìn)一步,從歸一化數(shù)值大小可以看出,累積ELI值和輻射代價(jià)值基本一致,說明文中所提利用信念狀態(tài)計(jì)算輻射代價(jià)的方法能夠準(zhǔn)確衡量傳感器的ELI值,在實(shí)際中既使不能預(yù)測(cè)到下一時(shí)刻傳感器的ELI值,但可以預(yù)測(cè)傳感器輻射代價(jià),并以此為依據(jù)控制系統(tǒng)輻射量,驗(yàn)證了文輻射模型的有效性。
圖2 目標(biāo)位置RMSE曲線
圖3 文中方法對(duì)應(yīng)的調(diào)度動(dòng)作
筆者研究了面向目標(biāo)跟蹤任務(wù)的主被動(dòng)傳感器調(diào)度問題,旨在使傳感器系統(tǒng)在完成跟蹤任務(wù)的同時(shí),降低輻射風(fēng)險(xiǎn)。為解決之前文獻(xiàn)中對(duì)傳感器輻射量化不準(zhǔn)確的問題,采用輻射度影響量化主動(dòng)傳感器的輻射狀態(tài),并基于POMDP方法建立了傳感器調(diào)度模型,給出了目標(biāo)跟蹤精度和輻射代價(jià)的預(yù)測(cè)公式,綜合考慮跟蹤任務(wù)需求和輻射代價(jià)建立了目標(biāo)優(yōu)化函數(shù),提出了一種改進(jìn)分布式拍賣算法以求解該調(diào)度問題。仿真實(shí)驗(yàn)驗(yàn)證了該算法和模型的有效性和合理性。