劉冰雁,葉雄兵,周赤非,劉必鎏
1. 軍事科學(xué)院,北京 100091 2. 中國人民解放軍32032部隊,北京 100094
隨著空間碎片清理、在軌加注等在軌服務(wù)技術(shù)的不斷應(yīng)用,有限的航天器資源與日益增長的在軌服務(wù)需求之間矛盾日益突出。當(dāng)前,“一對多”服務(wù)模式已是國內(nèi)外主要方式,為了提升任務(wù)完成效果與成功概率,“多對一”模式也多被采用[1-2]?!耙粚Χ唷薄岸鄬σ弧被旌瞎泊娴姆?wù)模式將成為在軌服務(wù)的主流。因此,突破傳統(tǒng)單一分配原則,最大限度地實現(xiàn)資源最少投入與服務(wù)效果最大化,是當(dāng)前在軌服務(wù)資源分配急需解決的重點問題。
任務(wù)執(zhí)行前的在軌資源分配問題本質(zhì)上是多目標(biāo)非線性組合優(yōu)化決策問題,屬于多項式復(fù)雜程度的非確定性(NP)難題。常用求解方法主要有整數(shù)規(guī)劃、拍賣機(jī)制、遺傳算法和蟻群算法等。例如,文獻(xiàn)[3-4]對“一對多”模式的航天器在軌加注服務(wù)分配問題進(jìn)行了研究,以軌道轉(zhuǎn)移燃耗為優(yōu)化目標(biāo),采用遺傳算法進(jìn)行求解。文獻(xiàn)[5]將空間燃料站技術(shù)與“一對多”在軌加注問題相結(jié)合,構(gòu)建了一種基于燃料站的可往返式在軌加注分配模型,并用遺傳算法求解。文獻(xiàn)[6]為實現(xiàn)“一對一”自主式在軌服務(wù),以服務(wù)效能、燃料消耗、燃料消耗均衡性為指標(biāo),對在軌服務(wù)飛行器目標(biāo)分配問題進(jìn)行了研究。通常,這些方法由于算法限制只能分別處理“一對多”和“多對一”決策問題[7],對復(fù)合服務(wù)模式下的資源分配問題適用性相對較差。
當(dāng)前,新一代人工智能方法依靠其在自主訓(xùn)練、自我優(yōu)化方面的優(yōu)勢,處理組合優(yōu)化決策問題不受服務(wù)模式限制,在軍事、計算機(jī)、通信和交通等領(lǐng)域廣泛運用,并取得了顯著成效。文獻(xiàn)[8]將電磁干擾信道分配問題建模為一個馬爾科夫決策過程,運用強(qiáng)化學(xué)習(xí)算法進(jìn)行求解,相較傳統(tǒng)方法收斂速度更快、方法更智能。文獻(xiàn)[9]針對蜂窩網(wǎng)資源分配多目標(biāo)優(yōu)化問題,基于深度強(qiáng)化學(xué)習(xí)提出了一種蜂窩網(wǎng)資源分配方法,在傳輸速率和系統(tǒng)能耗優(yōu)化方面明顯優(yōu)于傳統(tǒng)方法。文獻(xiàn)[10]針對傳統(tǒng)的流水車間資源分配方法數(shù)據(jù)利用率低、實時性較差等不足,利用神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)實時性、靈活性優(yōu)勢進(jìn)行改進(jìn),使新方法能夠在更小的迭代次數(shù)內(nèi)獲得較優(yōu)解。
本文依據(jù)在軌服務(wù)的復(fù)合服務(wù)模式需求,在任務(wù)執(zhí)行前,綜合考慮服務(wù)對象重要性、資源投入綜合效益以及總體能耗估計,基于對DQN(Deep Q-Network)收斂性和穩(wěn)定性的改進(jìn),提出了在軌服務(wù)資源分配方法。該方法在建立資源分配模型的基礎(chǔ)上,構(gòu)建資源分配雙向訓(xùn)練網(wǎng)絡(luò),即以綜合效益為優(yōu)化目標(biāo)進(jìn)行前向傳輸、能耗效率作為獎懲值進(jìn)行反向訓(xùn)練,是目前能夠滿足復(fù)合服務(wù)模式下資源分配需求的有效方法。該方法自主性強(qiáng)、收斂速度快,在分配效益和總體能耗的優(yōu)化方面具有明顯優(yōu)勢,能夠更有效地解決多目標(biāo)非線性組合優(yōu)化問題。
在軌服務(wù)的復(fù)合模式,是針對眾多不同類型、不同重要程度的服務(wù)對象,綜合考慮航天器投入及效益,采取普通對象“一對多”、重要對象“多對一”分配策略的一種混合服務(wù)模式。相較單一服務(wù)模式,此種方式需要同時兼顧航天器投入量和各類對象服務(wù)效果,對分配模型的綜合決策能力要求高,通常還需人工輔助。本文借鑒先期毀傷準(zhǔn)則[11-12]和能量效率思維[13-14],提出了一種滿足此類復(fù)合服務(wù)模式的資源自主分配模型。
假設(shè)m∈{1,2,…,M}表示能夠提供在軌服務(wù)的第m個航天器,n∈{1,2,…,N}表示在軌服務(wù)的第n個對象,Lm,n表示航天器m與服務(wù)對象n之間的資源分配關(guān)系,若航天器m服務(wù)對象n,則Lm,n=1,反之Lm,n=0。令Wn為第n個對象的重要程度。針對不同重要程度的服務(wù)對象,兼顧服務(wù)成功概率和燃料消耗,通過自主分配航天器,以達(dá)到既節(jié)省航天器投入又滿足期望效果。資源分配綜合效益可表示為
(1)
式中:G為航天器分配的綜合效益;Dm,n為任務(wù)執(zhí)行前,對航天器m服務(wù)對象n的燃料估計量,是對此次任務(wù)執(zhí)行成本的一種考量,其值可根據(jù)該航天器與服務(wù)對象的軌道根數(shù),基于當(dāng)前環(huán)境選取最優(yōu)軌道轉(zhuǎn)移方式,通過機(jī)動推進(jìn)劑消耗模型和服務(wù)過程燃料消耗模型計算獲得[15-17]。
用服務(wù)對象同時受多個航天器服務(wù)的燃料估計量以及服務(wù)成功概率來綜合衡量系統(tǒng)能耗,則資源分配的總體能耗效率可以表示為
(2)
根據(jù)資源分配目標(biāo),在滿足預(yù)期服務(wù)成功率約束的條件下,需要求解的多目標(biāo)非線性組合優(yōu)化決策問題描述為
(3)
本文除了考慮資源分配綜合效益外,還綜合考量能耗效率,于是復(fù)合服務(wù)模式下的在軌資源分配問題便成了NP-hard問題,難以求得最優(yōu)解。當(dāng)前常用方式是將該問題轉(zhuǎn)化為次最優(yōu)解求解,但這類求解的復(fù)雜度高,影響模型運行效率[7],本文對經(jīng)典DQN方法進(jìn)行了收斂性和穩(wěn)定性改進(jìn),并基于此求解該問題。
針對在軌服務(wù)資源分配智能化需求,彌補(bǔ)經(jīng)典DQN方法存在獎勵偏見和過估計的問題[18],進(jìn)行了方法適應(yīng)性改進(jìn),以提升方法的收斂性和穩(wěn)定性。
2.1.1 DQN的收斂性改進(jìn)
為大幅提升神經(jīng)網(wǎng)絡(luò)訓(xùn)練效果,加快收斂速度,采用一種競爭網(wǎng)絡(luò)取代經(jīng)典方法中的單輸出網(wǎng)絡(luò)模型[19]。行為值函數(shù)Q(St,a)可自然拆分為狀態(tài)值函數(shù)V(St)和行為優(yōu)勢函數(shù)A(St,a)2部分。其中,狀態(tài)值函數(shù)與行為無關(guān);動作優(yōu)勢函數(shù)與行為相關(guān),為行為相對狀態(tài)的平均回報的好壞程度,可用以解決獎勵偏見問題。據(jù)此,將經(jīng)典神經(jīng)網(wǎng)絡(luò)方法的全連接層分為一個輸出狀態(tài)函數(shù)V(St)和一個輸出行為優(yōu)勢函數(shù)A(St,a),最后再通過全連接合并成行為狀態(tài)Q(St,a),即
Q(St,a)=V(St)+A(St,a)
(4)
狀態(tài)值函數(shù)被拆分后,當(dāng)行為優(yōu)勢值一定時,狀態(tài)值和行為優(yōu)勢值有無窮種可行組合,而事實上只有小部分的組合是合乎情理的。為此,利用行為優(yōu)勢函數(shù)A(St,a)期望值為0這一特性[19],對行為優(yōu)勢函數(shù)A(St,a)加以限制,將式(4)修改為
Q(St,a)=V(St)+
(5)
這樣,用行為優(yōu)勢函數(shù)減去當(dāng)前狀態(tài)下所有A(St,a′)的均值,使行為優(yōu)勢函數(shù)的期望值保持為0,進(jìn)而確保模型快速收斂且輸出高效。
2.1.2 DQN的穩(wěn)定性改進(jìn)
深度強(qiáng)化學(xué)習(xí)的目標(biāo)是找到最優(yōu)的策略,但過估計量的非均勻出現(xiàn),致使值函數(shù)的過估計影響決策,從而導(dǎo)致最終的決策并非最優(yōu),而只是次優(yōu)。采用Q-learning學(xué)習(xí)機(jī)制的行為選擇中,通過值函數(shù)更新,時間差分(TD)方法的目標(biāo)為[20]
(6)
式中:Rt+1為狀態(tài)St+1的獎懲值;γ∈[0,1]為折扣因子;Q(St+1,a;θt)為采用行為a和參數(shù)θt時,神經(jīng)網(wǎng)絡(luò)對狀態(tài)St+1價值的預(yù)測。
選出狀態(tài)St+1的最佳行為a*后,DQN方法是利用同一個參數(shù)θt來選擇和評估行為。為了削弱最大誤差的影響,在此引入另一個神經(jīng)網(wǎng)絡(luò),分別用不同的值函數(shù)選擇和評估行為[21-22]。由此,利用參數(shù)θt通過式(6)進(jìn)行行為選擇,在選出最佳行為a*后,運用另一個神經(jīng)網(wǎng)絡(luò)的參數(shù)θ′t進(jìn)行行為評估:
(7)
將這一思路運用到強(qiáng)化學(xué)習(xí)中,修改得到新的TD目標(biāo)式為[23]
(8)
基于改進(jìn)的DQN方法,發(fā)揮強(qiáng)化學(xué)習(xí)試錯自主學(xué)習(xí)優(yōu)勢,運用神經(jīng)網(wǎng)絡(luò)前向傳輸和反向訓(xùn)練特性,求解在軌資源分配的多目標(biāo)非線性組合優(yōu)化決策問題。
2.2.1 前向傳輸優(yōu)化目標(biāo)
在前向傳輸過程中,在追求資源分配高效益的同時,為確保各對象要有航天器服務(wù)且均能達(dá)到預(yù)設(shè)服務(wù)成功概率門限,結(jié)合式(3),將資源分配綜合效益最優(yōu)化問題表示為
(9)
采用懲罰函數(shù)法將約束優(yōu)化問題轉(zhuǎn)換為如下無約束優(yōu)化問題
(10)
式中:參數(shù)δ為懲罰系數(shù);hn、gn和Dn的表達(dá)式分別為
(11)
2.2.2 反向訓(xùn)練獎懲值
在反向訓(xùn)練過程中,依據(jù)式(5)和式(8),構(gòu)建損失函數(shù):
(12)
其中,將資源分配的總體能耗效率作為獎懲值,即
(13)
為了有效解決強(qiáng)化學(xué)習(xí)中的探索與利用問題,即持續(xù)使用當(dāng)前最優(yōu)策略保持高回報的同時,敢于嘗試一些新的行為以求更大地獎勵,則依據(jù)探索率ε采取ε-greedy貪婪策略:
π(a|St)=
(14)
2.2.3 資源分配網(wǎng)絡(luò)架構(gòu)
整個網(wǎng)絡(luò)架構(gòu)由訓(xùn)練、誤差、Q現(xiàn)實、Q估計以及行為選擇等模塊組成,借助TensorFlow展現(xiàn)改進(jìn)的深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò),如圖1所示。圖中:S為當(dāng)前狀態(tài);S_為下一步狀態(tài);Value為價值函數(shù);Advantage為優(yōu)勢函數(shù);l1為神經(jīng)網(wǎng)絡(luò);eval_net為估計網(wǎng)絡(luò);target_net為目標(biāo)網(wǎng)絡(luò);Q_target為目標(biāo)Q函數(shù);loss為損失函數(shù);Assign[0-5]為分配;Train為訓(xùn)練網(wǎng)絡(luò);DuelDoubleDQN為DQN收斂性和穩(wěn)定性改進(jìn)網(wǎng)絡(luò)。
圖1 DQN收斂性和穩(wěn)定性改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)TensorFlow表示Fig.1 Network structure on DQN convergence and stability improvement by TensorFlow representation
2.2.4 DQN綜合改進(jìn)方法的流程
在明確網(wǎng)絡(luò)輸入、輸出、關(guān)鍵模型和訓(xùn)練結(jié)構(gòu)后,綜合DQN穩(wěn)定性改進(jìn)與收斂性改進(jìn),給出智能方法的主體流程:
步驟1 利用隨機(jī)θ初始化行為值Q。
步驟2 令θt=θ,根據(jù)式(4)和式(5)計算TD目標(biāo)的行為值Q。
步驟3 循環(huán)每次事件。
步驟4 初始化事件的第一個狀態(tài),通過式(1) 預(yù)處理得到當(dāng)前資源分配綜合效益。
步驟5 循環(huán)每個事件的每一步。
步驟7 仿真器中執(zhí)行行為at,觀測回報Rt。
步驟8 設(shè)置St+1=St,整合(St,at,Rt,St+1)并存儲在回放記憶Memory中。
步驟9 從Memory中均勻隨機(jī)采樣一個轉(zhuǎn)換樣本數(shù)據(jù),用(St,at,Rt,St+1)存儲結(jié)果表示。
步驟12 如果St+1是終止?fàn)顟B(tài),當(dāng)前輪迭代完畢,否則轉(zhuǎn)到步驟5。
為驗證本文構(gòu)建的復(fù)合服務(wù)模式下的在軌資源分配模型的適用性,以及DQN收斂性和穩(wěn)定性改進(jìn)方法求解該在軌資源分配問題的有效性和優(yōu)越性,進(jìn)行了算例仿真。
假設(shè)在某次在軌加注任務(wù)中,有9顆重要程度Wn=0.6(n=1,2,…,9)、1顆W10=0.9的ECO衛(wèi)星等待加注燃料,其軌道根數(shù)[24]如表1所示。表中:e為離心率;i為軌道傾角;Ω為升交點黃道經(jīng)度;ω為近心點角;τ為平近點角?,F(xiàn)有3架位于軌道半徑39 164 km、初始真近點角0°、推進(jìn)系統(tǒng)比沖300 s的航天器可開展在軌加注服務(wù)。航天器擬采用多圈Lambert軌道轉(zhuǎn)移方式,結(jié)合軌道根數(shù)確定到各目標(biāo)軌位的速度增量,結(jié)合齊奧爾科夫斯基公式估算得到燃料消耗量D[25-26]?,F(xiàn)已知各航天器對衛(wèi)星的服務(wù)成功概率P。
D=
表1 GEO衛(wèi)星的軌道根數(shù)[24]Table 1 Orbit elements of GEO satellite[24]
任務(wù)要求在滿足70%服務(wù)成功概率的基礎(chǔ)上,提升對10號衛(wèi)星的服務(wù)成功概率并達(dá)到85%。由此,決定采取“1對9”和“2對1”的復(fù)合服務(wù)模式。
為解決該資源分配問題,本文試圖借鑒在軌服務(wù)資源分配相關(guān)研究成果[4-6,25-28]進(jìn)行求解,但發(fā)現(xiàn)這些方法只能單獨解決“一對多”或“一對一”服務(wù)模式的資源分配問題,不適合本文涉及的復(fù)合服務(wù)模式。為了對比分析不同方法的運算耗時情況,只考慮算例中的“一對多”在軌服務(wù)資源分配問題,分別用3種方法進(jìn)行求解。
仿真運算依托1.6 GHz、1.8 GHz雙核CPU、8 G RAM計算硬件,運用python語言PyCharm編譯環(huán)境進(jìn)行,各方法的耗時情況如圖2所示。其中,蟻群算法運用全局搜索方式計算開銷較大,不同的起始方向?qū)е逻\算時間波動大,平均耗時0.32 s;遺傳算法沒能夠利用反饋信息訓(xùn)練時間相對較長,隨機(jī)交叉變異致使運算時間波動較大,平均耗時0.19 s;改進(jìn)DQN方法運用神經(jīng)網(wǎng)絡(luò)自主訓(xùn)練時間最短,探索與利用策略的使用致使運算時間有小范圍波動,平均耗時0.06 s。因此,本文所提方法充分發(fā)揮神經(jīng)網(wǎng)絡(luò)前向傳輸和反向訓(xùn)練的運算優(yōu)勢,利用強(qiáng)化學(xué)習(xí)試錯獎勵的決策機(jī)制,相比較運算效率更高,也更適合本文所涉及的復(fù)合模式下的在軌資源分配問題。
圖2 3種方法的運算耗時對比Fig.2 Operation time comparison between three method
針對復(fù)合模式下的在軌服務(wù)資源分配問題,根據(jù)問題描述,運用本文提出的基于DQN收斂性和穩(wěn)定性改進(jìn)的在軌服務(wù)資源分配方法,通過網(wǎng)絡(luò)自主訓(xùn)練、自主決策可獲得最優(yōu)資源分配策略,即由航天器2和3共同對衛(wèi)星10進(jìn)行加注,其他衛(wèi)星由航天器1提供服務(wù)。
如表2所示,以全0矩陣初始化資源分配狀態(tài)①,代入在軌資源分配模型,此時無資源投入,不符合任務(wù)要求,進(jìn)而通過改進(jìn)的深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)自主學(xué)習(xí)。訓(xùn)練過程中,狀態(tài)②資源投入較節(jié)省,但不符合服務(wù)模式要求;狀態(tài)③高資源投入使得能耗效率低,綜合效益達(dá)到最低值;狀態(tài)④符合各項約束,但綜合效益值非最大。通過多次自主學(xué)習(xí)、多輪迭代后,方法收斂至狀態(tài)⑤,所提供策略即滿足各項服務(wù)要素,又實現(xiàn)綜合效益最大化,是該任務(wù)的最優(yōu)資源分配策略。
與此同時,運用經(jīng)典DQN方法進(jìn)行求解,獲得了相同結(jié)果,側(cè)面印證了結(jié)果的準(zhǔn)確性。2種方法的誤差函數(shù)值對比如圖3所示,改進(jìn)DQN方法對全連接層的區(qū)分處理方式,促使僅學(xué)習(xí)70次便可實現(xiàn)誤差0.01的訓(xùn)練效果,整個訓(xùn)練過程的誤差函數(shù)值也以快近一倍的速率下降,在收斂性方面的改進(jìn)效果明顯。2種方法的獎懲值對比如圖4所示,改進(jìn)DQN方法在行為估計時引入另一神經(jīng)網(wǎng)絡(luò),確保獎懲值在快速上升的同時波動更小,自主學(xué)習(xí)僅33次后便可保持在0.197 8最佳獎懲值附近,充分體現(xiàn)了穩(wěn)定性方面的改進(jìn)優(yōu)勢。
表2 基于改進(jìn)深度學(xué)習(xí)的在軌加注資源分配策略Table 2 An on-orbit injection resource allocation strategy based on improved deep learning
圖3 2種方法的誤差函數(shù)值對比Fig.3 Error function value comparison between two method
圖4 2種方法的獎懲值對比Fig.4 Rewards comparison between two method
1) 構(gòu)建了復(fù)合服務(wù)模式下的在軌資源分配模型。針對在軌服務(wù)多樣化模式需求,為彌補(bǔ)當(dāng)前資源分配模型應(yīng)對復(fù)合任務(wù)的不足,同時考慮重要性、效益以及能耗因素,研究了在軌服務(wù)資源分配問題。
2) 進(jìn)行了DQN方法的收斂性和穩(wěn)定性改進(jìn)。針對在軌服務(wù)資源分配問題特性,彌補(bǔ)經(jīng)典方法獎勵偏見和過估計問題,改進(jìn)DQN方法,提升了方法斂性和穩(wěn)定性。
3) 提出了基于DQN收斂性和穩(wěn)定性改進(jìn)的在軌服務(wù)資源分配方法。區(qū)分服務(wù)對象重要程度,在提高資源分配綜合效益的同時,盡可能地增大總體能耗效率,有效解決了多目標(biāo)非線性組合優(yōu)化決策問題,同時對于解決其他領(lǐng)域資源分配問題具有較強(qiáng)的借鑒意義。