師明 高宇輝 崔云飛 張弓
(北京航天飛行控制中心,北京 100094)
我國探月工程四期任務(wù)將在2030年前后建成月球科研站基本形態(tài),由月球軌道器和月面探測器共同構(gòu)成基礎(chǔ)設(shè)施,初步具備月面科考作業(yè)、技術(shù)驗證和資源開發(fā)能力。與前期任務(wù)相比,后續(xù)深空探測任務(wù)并發(fā)密度高、技術(shù)狀態(tài)新、工程實施難度大。研究針對航天器的任務(wù)智能規(guī)劃方法,是滿足后續(xù)任務(wù)實時性、魯棒性和安全性的關(guān)鍵技術(shù)之一,也是未來深空探測技術(shù)發(fā)展的方向。
航天領(lǐng)域較早的引入人工智能算法,在地面飛控中心部署專用規(guī)劃器,用來輔助人工生成航天器行動序列,提高任務(wù)規(guī)劃效率。早期的規(guī)劃器通??紤]全行動序列,這種線性規(guī)劃的方法很快被發(fā)現(xiàn)是不完備的,不能求解一些非常簡單的問題,如麻省理工大學(xué)杰拉爾德·薩斯曼教授在1973年所提出的不規(guī)則積木問題[1]。1974年愛丁堡大學(xué)Warren教授首次使程序邏輯設(shè)計語言(Prolog)完成Waldinger規(guī)劃器的代碼編寫,其中所引入的偏序規(guī)劃思想,影響了之后將近20年的規(guī)劃器設(shè)計方法,包括行動層次網(wǎng)絡(luò)(NOAH)、非線性網(wǎng)絡(luò)層次規(guī)劃器(NONLIN)以及分布式實現(xiàn)的非線性系統(tǒng)規(guī)劃器(SNLP)、通用約束偏序規(guī)劃器(UCPOP)等。偏序規(guī)劃的思想發(fā)展至今,依然有借鑒學(xué)習(xí)的之處。之后,隨著狀態(tài)空間規(guī)劃思想興起,逐漸發(fā)展出圖規(guī)劃(Graphplan)[2]、約束可滿足技術(shù)(CSP)[3]、分層任務(wù)規(guī)劃(HTN)[4]、動作網(wǎng)絡(luò)[5]等技術(shù)。
NASA艾姆斯研究中心、戈達(dá)德空間飛行中心等機構(gòu),一直致力于研究和開發(fā)規(guī)劃前沿技術(shù),并在月球大氣與粉塵環(huán)境探測器(LADEE)、鳳凰號火星巡視器(Phoenix mars lander)、“國際空間站”(ISS)、哈勃望遠(yuǎn)鏡(Hubble)等各類航天任務(wù)進行推廣應(yīng)用。國內(nèi)在這方面的研究起步較晚,但是發(fā)展較快,如北京理工大學(xué)深空探測技術(shù)研究所在深空探測器自主規(guī)劃方面取得多項研究成果;華中科技大學(xué)管理學(xué)院的王紅衛(wèi)團隊重點關(guān)注復(fù)雜約束的層次任務(wù)網(wǎng)絡(luò)(HTN)規(guī)劃方法;國防科技大學(xué)羅亞中團隊對多任務(wù)約束的空間站問題建模和運營規(guī)劃進行研究;北京航天飛行控制中心、中國空間技術(shù)研究院等任務(wù)相關(guān)單位則以任務(wù)需求為牽引,突破多項關(guān)鍵技術(shù)。因此,開展航天器智能任務(wù)規(guī)劃技術(shù)研究,將為后續(xù)我國航天任務(wù)的高效執(zhí)行提供核心能力支撐。
本文總結(jié)了我國深空探測任務(wù)工程經(jīng)驗,結(jié)合前沿技術(shù)發(fā)展趨勢,提出飛控任務(wù)規(guī)劃處理的通用處理流程,針對其中的關(guān)鍵技術(shù)進行分析綜述,以期對提升我國任務(wù)規(guī)劃智能決策能力提供技術(shù)支撐。
深空探測任務(wù)具有探測目標(biāo)遠(yuǎn)、空間環(huán)境復(fù)雜等特點,需要地面飛控中心具備實時跟蹤測量、程遙統(tǒng)一規(guī)劃的能力。任務(wù)智能規(guī)劃技術(shù),即采用通用規(guī)劃理論構(gòu)建復(fù)雜航天器本體領(lǐng)域知識模型,處理軌道計算、測控通信、科學(xué)探測等復(fù)雜的事件約束關(guān)系,根據(jù)航天器的遙測狀態(tài)、測控通信條件、科學(xué)和工程目標(biāo)等要求,制定航天器未來一定周期內(nèi)的任務(wù)計劃。規(guī)劃的過程,就是在時間線上將航天器相關(guān)事件進行組合排列,生成滿足各種約束條件的指令計劃。約束類型包括時間約束、數(shù)值約束、因果約束,以及人機協(xié)同引入的條件約束等。
本文采用狀態(tài)空間規(guī)劃建模思想對飛控活動進行本體建模,將任務(wù)規(guī)劃定義為一個廣義活動。
定義:一個廣義活動為一個六元組為
g=〈TGa_Name,xp,tst,tdur,tend,R,Lt〉
(1)
式中:TGa_Name表示廣義活動的名字;xp表示該廣義活動的參數(shù)向量;tst、tdur、tend分別表示該活動的起始時間、持續(xù)時間和結(jié)束時間,并滿足0≤tst
廣義活動集可以定義該狀態(tài)所有可能取值的集合,即
G={g1,g2,…,gn}
(2)
式中:gi表示一個廣義活動,即狀態(tài)向量一種取值。
從上述定義可以看出,廣義活動能夠描述時間信息、資源信息以及對這些信息的處理函數(shù)。
任務(wù)規(guī)劃的約束條件具有典型的工程特性,使得智能技術(shù)在應(yīng)用中面臨諸多挑戰(zhàn),具體如下。
(1)時間約束的強制性。受限于天體運行力學(xué)規(guī)律,航天器活動都有著嚴(yán)格的時間窗口限制,且活動序列之間有著較強的耦合關(guān)系。
(2)約束條件的強一致性。環(huán)境、能源、測控等條件的約束,加上時態(tài)等要素共同構(gòu)成任務(wù)求解的約束條件,規(guī)劃結(jié)果需要滿足各個分系統(tǒng)和地面飛控的要求。
(3)任務(wù)的不確定性。受到不確定環(huán)境的影響,任務(wù)安排和計劃執(zhí)行都有可能面臨動態(tài)調(diào)整,如巡視器通過立體相機雙目測量技術(shù)恢復(fù)地貌,而科學(xué)探測目標(biāo)的選擇或任務(wù)整體規(guī)劃是建立在月面環(huán)境信息的基礎(chǔ)上的,地形地貌最終會影響巡到視器休眠喚醒等多個工作模式。
為應(yīng)對上述挑戰(zhàn),需要充分考慮飛控任務(wù)的特點,綜合使用建模、求解的相關(guān)技術(shù),在一個相對統(tǒng)一的架構(gòu)和流程內(nèi)進行軟件實現(xiàn)。
本文結(jié)合工程實踐經(jīng)驗,將深空探測中目標(biāo)航天器的任務(wù)規(guī)劃處理過程劃分為4個步驟,如圖1所示。
(1)進行領(lǐng)域知識建模,進行問題分析,定義航天器本體知識、行動約束條件、任務(wù)執(zhí)行時機,以及相互間的邏輯關(guān)系。航天領(lǐng)域規(guī)劃問題規(guī)模越來越大,需要重點關(guān)注復(fù)合任務(wù)分解的方法,提出清晰的邏輯關(guān)系來體現(xiàn)任務(wù)目標(biāo)的層次特性,便于記錄任務(wù)分解的關(guān)鍵節(jié)點。領(lǐng)域知識建模是任務(wù)規(guī)劃的首要條件,在3.1節(jié)中結(jié)合工程任務(wù)經(jīng)驗進行詳細(xì)論述。
在嫦娥三號任務(wù)中,把任務(wù)規(guī)劃的廣義活動定為整體規(guī)劃、周期規(guī)劃和單元規(guī)劃的三層體系,并把工作模式作為最小規(guī)劃單元[6]。工作模式通過預(yù)置配置模板,把巡視器的行為序列固化下來,以支持地面飛控中心根據(jù)遙測信息進行快速判斷。
(2)根據(jù)航天器行為序列特征和工作要求,用建模語言對領(lǐng)域知識模型進行語義描述,用表達(dá)式定義操作、狀態(tài)、資源和時間等約束條件,完成問題的實例化。
建模語言通過嚴(yán)格的定義,把現(xiàn)實工程問題轉(zhuǎn)化為程序可以判讀的輸入條件,但是對現(xiàn)實世界問題的限制過強,阻礙了智能規(guī)劃在實際生活中的應(yīng)用。對于問題松弛后的假設(shè)條件,在現(xiàn)實問題中多數(shù)是不成立的,例如,涉及數(shù)值變量的問題狀態(tài)空間通常是無限的;外部世界的信息可能是無法觀察的;當(dāng)動作無法給出確定效果時,狀態(tài)轉(zhuǎn)移的結(jié)果可能是隨機的;外部世界可能受到偶然事件的影響;現(xiàn)實世界的很多問題都不要求系統(tǒng)到達(dá)某一個目標(biāo)狀態(tài)后立即停止運轉(zhuǎn),而是循環(huán)執(zhí)行一段動作序列或要求在行動過程中避開某些特殊的狀態(tài);規(guī)劃解的形式也并不局限于線性的動作序列,很多實際運行的設(shè)備允許動作的并發(fā)執(zhí)行,并且動作的執(zhí)行帶有不同的持續(xù)時間;當(dāng)外部世界發(fā)生緊急事件時,規(guī)劃求解過程也應(yīng)根據(jù)環(huán)境信息的變化進行調(diào)整。
McDermott在1998年提出規(guī)劃領(lǐng)域定義語言(PDDL),指出一種語言的主要任務(wù)是表達(dá)世界的物理屬性。PDDL從1998年起被用作國際規(guī)劃競賽的標(biāo)準(zhǔn)語言,之后發(fā)展出多個擴展版本,最新的3.0版本支持定義使用偏好。NASA在可擴展通用遠(yuǎn)程操作規(guī)劃框架(EUROPA)中提出新領(lǐng)域定義語言(NDDL)[7],在自動化調(diào)度和規(guī)劃平臺(ASPEN)提出ASPEN建模語言(AML)[8]。表1對上述3種主流建模語言的分析比較。為避免生成不合理的活動序列,建模中需要結(jié)合任務(wù)特征進行具體分析,適當(dāng)進行語言功能拓展。
表1 主流規(guī)劃建模語言比較分析
我國遙操作任務(wù)中針對巡視器的科學(xué)探測行為,均采用了PDDL進行建模表示。圖2所示是對天問一號移動行為的建模描述。在建模實例文件中定義了巡視器科學(xué)探測的一個完整過程,包括起點(?from)、狀態(tài)約束(>=energy80)、開始時間(at start)、持續(xù)時間(?duration)、終點(at end)以及引入外部計算進行能源消耗的動態(tài)計算(proc2)。
圖2 天問一號移動行為的PDDL建模描述
(3)根據(jù)問題特性設(shè)計智能算法。適用深空探測任務(wù)的算法有3種:第1種是由卡耐基梅隆大學(xué)的Blurm和Furst在1995年提出的圖規(guī)劃方法;第2種是將規(guī)劃問題看作是CSP問題進行求解;第3種是啟發(fā)式搜索方法。算法問題在3.2節(jié)中進行詳細(xì)論述。
(4)調(diào)用規(guī)劃器進行問題求解。領(lǐng)域相關(guān)的規(guī)劃器在求解過程中,通過人機交互方式定制領(lǐng)域知識、規(guī)則或常識,從而避免一些不必要的動作或推理,以達(dá)到提高規(guī)劃求解效率的目的。這類領(lǐng)域相關(guān)的規(guī)劃器在設(shè)計時加入了特定的領(lǐng)域知識,一般都具有較高的規(guī)劃效率,但這也限制了規(guī)劃器的通用性,如用于火星快車(MEX)任務(wù)的MEXAR2系統(tǒng),基于時間演化構(gòu)建領(lǐng)域相關(guān)的約束能力模型和時間函數(shù),有效減少了數(shù)據(jù)處理量級。
與領(lǐng)域無關(guān)的規(guī)劃器通常是采用與領(lǐng)域無關(guān)的規(guī)劃策略來指導(dǎo)問題求解。一般情況下,同一啟發(fā)式函數(shù)很難對所有規(guī)劃領(lǐng)域都能產(chǎn)生出高效的指導(dǎo)作用,因此,這類規(guī)劃器的效率和規(guī)劃質(zhì)量會因應(yīng)用領(lǐng)域的不同而有所差異,細(xì)化求解分支策略可以達(dá)到最佳或接近最佳的計算程序效率。
在航天器活動計劃安排過程中,時間信息是必備的要素。因此,目前在航天領(lǐng)域主流的規(guī)劃器多是時態(tài)規(guī)劃器。表2比較了基于時態(tài)規(guī)劃建模的任務(wù)規(guī)劃器的差異。
表2 基于時態(tài)規(guī)劃建模的任務(wù)規(guī)劃器比較分析
北京航天飛行控制中心作為深空探測任務(wù)地面運控中心,采用經(jīng)典動作規(guī)劃思想構(gòu)建智能規(guī)劃系統(tǒng),解決了約束條件下多分支作業(yè)選擇困難和事件屬性設(shè)置復(fù)雜等難題,并應(yīng)用于嫦娥三號、嫦娥四號、首次火星探測等多次任務(wù)[5]。為提升測控效率,需要進一步完善領(lǐng)域知識模型,以支持巡視器活動序列的動態(tài)調(diào)整。
本文結(jié)合飛控領(lǐng)域知識,對工程任務(wù)進行逐層分析,自上而下分為任務(wù)、周期作業(yè)、動作序列、原子動作和指令計劃5個層級,完成任務(wù)目標(biāo)確定、約束傳播與狀態(tài)一致性判定,最后通過指令展開獲得指令計劃。每個層級都包含特有的領(lǐng)域知識,通過HTN的范式定義統(tǒng)一起來。與經(jīng)典規(guī)劃類似,在HTN中系統(tǒng)狀態(tài)用一個原子命題集合表示,動作對應(yīng)于確定的狀態(tài)轉(zhuǎn)換;不同的是HTN規(guī)劃的目的不是要達(dá)到某一目標(biāo)狀態(tài),而是要完成某一任務(wù)集合,規(guī)劃系統(tǒng)的輸入不僅包含與經(jīng)典規(guī)劃器類似的動作集合,還包含一個方法集合。
以月面巡視器進行說明。具體定義如下。
定義1:科學(xué)探測任務(wù)P=〈D,S0,T〉,其中D表示領(lǐng)域知識模型;S0表示任務(wù)初始狀態(tài);T表示任務(wù)約束網(wǎng)絡(luò)。一個HTN的規(guī)劃問題可以用上述三元組來表示??茖W(xué)探測任務(wù)從工程總體文件中,通過專家分析獲得巡視器科學(xué)探測的目標(biāo)。
定義2:狀態(tài)集合S=〈Q,C〉,其中Q表示巡視器本體相關(guān)的狀態(tài),包括主體坐標(biāo)、桅桿指向、天線指向、電量等;C表示外部約束條件集合,包括太陽高度角、通信鏈路、載波切換計劃等。每個目標(biāo)命題都具有Si={s′∈S,?s∈G},其中G為廣義活動集合,即任務(wù)目標(biāo)狀態(tài)集合。
定義3:領(lǐng)域知識模型D=〈O,M,δ〉,其中O表示動作序列的集合;M表示方法集合;δ表示狀態(tài)轉(zhuǎn)移函數(shù)。
下面對領(lǐng)域知識模型中的3個元素進行詳細(xì)描述,所涉及到變量定義中,均滿足條件?i∈N,N為自然集數(shù)。
用三元組〈h(oi),p(oi),e(oi)〉表示動作序列集合O,oi表示第i個動作序列;h(oi)為oi的頭部文件,包含了動作序列名稱和缺省參數(shù);p(oi)表示執(zhí)行oi需要滿足的前提條件;e(oi)是執(zhí)行oi產(chǎn)生的效果。動作序列集合O將任務(wù)進行分解為帶參數(shù)選項的工作模式,每個模式包含了缺省的動作序列,同時還定義了一些與規(guī)劃計算相關(guān)的屬性或約束,在領(lǐng)域模型中,動作序列執(zhí)行的前置條件即當(dāng)前巡視器本體狀態(tài)需要滿足的約束條件,判斷條件即p(o)={S(Q),S(C)}。
綜合分析探測點可達(dá)性評估方法、測控跟蹤條件計算方法、太陽高度角/方位角的預(yù)報方法、不同路況下能源消耗估算策略以及科學(xué)探測需求,使用PDDL建模語言將巡視器動作序列實例化表示為工作模式,具體包括:!perceive表示感知模式,即巡視器獲取導(dǎo)航信息數(shù)據(jù),并將導(dǎo)航信息數(shù)據(jù)下傳到地面控制中心;!move表示移動模式,即巡視器接收地面控制中心指令,達(dá)到目標(biāo)位置;!detect表示探測模式,即巡視器所攜帶的有效載荷設(shè)備加電工作,獲取科學(xué)探測數(shù)據(jù),并在通信窗口內(nèi)將數(shù)據(jù)下傳到地面控制中心;!charge表示充電模式,即巡視器調(diào)整太陽翼,按規(guī)定實現(xiàn)對日定向后保持靜止?fàn)顟B(tài),蓄電池組開始充電;!sleep表示休眠模式,巡視器其他設(shè)備完全斷電不工作。工作模式的名稱、前提條件和動作效果,作為參數(shù)寫入巡視器配置文件。工作模式構(gòu)成了HTN的原子任務(wù),動作序列則用來完成原子任務(wù)并改變當(dāng)前狀態(tài),當(dāng)序列數(shù)量N=1時,表示該工作模式僅包含一個動作。
用四元組〈h(mi),p(mi),l(mi),k(mi)〉表示方法集合M,mi表示第i個方法;h(mi)表示mi的頭部文件,包含了方法名稱和傳遞參數(shù);p(mi)表示使用mi需要滿足的前提條件,所有采用該方法的任務(wù)所傳遞的參數(shù)需保持一致;l(mi)表示mi所對應(yīng)的復(fù)合任務(wù)及其子任務(wù);k(mi)表示執(zhí)行mi需要引入的外部計算,包括能源消耗估算、本體坐標(biāo)時間轉(zhuǎn)換2個獨立的計算子程序。
狀態(tài)轉(zhuǎn)移函數(shù)δ可以表示為M×O→S,δ(s,o)表示在某個狀態(tài)si下應(yīng)用某個操作符oi的后繼狀態(tài),δ(si,oi)=si+1,δ(si+1,oi+1)=si+2,可知:規(guī)劃問題的求解是一個任務(wù)分解的過程,不斷利用方法分解任務(wù)網(wǎng)絡(luò)中的復(fù)合任務(wù)直到得到一個原子任務(wù)網(wǎng)絡(luò)。
3.2.1 啟發(fā)式搜索技術(shù)
啟發(fā)式搜索的效率依賴于需要優(yōu)化的目標(biāo)函數(shù)。在經(jīng)典規(guī)劃器中,僅考慮動作數(shù)量或者規(guī)劃的并行執(zhí)行時間,之后發(fā)展的擴展規(guī)劃框架支持處理動作的資源消耗,目標(biāo)函數(shù)中也加入其他一些質(zhì)量指標(biāo),如最大完成時間、規(guī)劃中的松弛量和資源的消耗量。包含更多目標(biāo)函數(shù)的啟發(fā)式函數(shù)能夠同時引導(dǎo)規(guī)劃和調(diào)度,控制動作的選擇和動作的執(zhí)行時間[22]。
啟發(fā)式函數(shù)一般都是從松弛問題中得到的,放松的約束越多,啟發(fā)式的信息就越少。松弛問題包括動作的前提和效果、動作邏輯間的相互作用、資源約束和和時間區(qū)間約束等。從這個角度出發(fā)來構(gòu)建規(guī)劃器,需要重點考慮的問題是應(yīng)該放松哪些約束,因為問題松弛簡化了建模難度,也會造成模型的失真。
3.2.2 圖規(guī)劃技術(shù)
圖規(guī)劃(Graphplan)先從規(guī)劃圖中產(chǎn)生出可選的動作集序列,然后根據(jù)動作之間的互斥性進行分析和逆向搜索,將規(guī)劃的隱式約束作用于規(guī)劃圖的生成和互斥關(guān)系傳播過程之中,以此構(gòu)建出一個高效搜索空間。圖規(guī)劃技術(shù)使規(guī)劃效率有了極大的改善,在處理經(jīng)典動作規(guī)劃的(Benchmark)問題,比以前的非線性規(guī)劃系統(tǒng)(SNLP)、反向搜索規(guī)劃器(Unpop)等快了幾個數(shù)量級。隨著以目標(biāo)為導(dǎo)向的后規(guī)劃技術(shù)的發(fā)展,圖規(guī)劃搜索大幅縮小了需要占用的存儲空間,進一步提高了效率。
Smith和Weld等人在1999提出了帶有互斥推理的時序圖規(guī)劃(TGP)技術(shù);Miguel、Jarvis等人在2000年引入軟約束的思想處理用戶使用偏好問題;2001年Cayrol等人引入限制更少的核準(zhǔn)準(zhǔn)則設(shè)計實現(xiàn)最小承諾規(guī)劃器。隨著PDDL2.1引入數(shù)值的概念,數(shù)值圖規(guī)劃技術(shù)也在2002年發(fā)展起來。
3.2.3 約束可滿足問題的剪枝技術(shù)
在常規(guī)的狀態(tài)空間搜索中,算法只能做一件事即搜索。在CSP中則有了選擇:算法可以搜索(從幾種可能性中選擇新的變量賦值),也可以做-種稱為約束傳播的特殊推理。約束傳播與搜索可以交替進行,從沖突集中找出問題沖突的最小變量集合,同步更新約束記錄,并使用獨立緩存來保留取值。典型代表是快速前向搜索規(guī)劃器(FF)將Graphplan的啟發(fā)式搜索用在貪婪算法中,采用了兩種技術(shù):一是空動作優(yōu)先,它保證了放松規(guī)劃的最低標(biāo)準(zhǔn);二是關(guān)于啟發(fā)式的最優(yōu)化技術(shù),取得很好的實驗效果[23]。
3.2.4 算法應(yīng)用分析
表3總結(jié)3種算法的特點和局限性,以適配不同的應(yīng)用場景。表3總結(jié)了3種算法的特點和局限性,以適配不同的應(yīng)用場景。啟發(fā)式算法因具備更好的靈活性,獲得更廣泛的應(yīng)用,近年來與人工智能技術(shù)相結(jié)合以提升求解效率。研究熱點包括:與強化學(xué)習(xí)技術(shù)結(jié)合,通過學(xué)習(xí)模型對搜索空間中的節(jié)點進行優(yōu)選評估;與深度學(xué)習(xí)技術(shù)結(jié)合,直接從大量數(shù)據(jù)中學(xué)習(xí)任務(wù)規(guī)劃的策略,代替?zhèn)鹘y(tǒng)的手工制定的啟發(fā)式規(guī)則;與知識圖譜技術(shù)集合,融入知識表示和推理技術(shù),改進問題表述,從而使算法能夠更有效地找到解決方案。
表3 規(guī)劃求解算法的比較
在我國首次火星探測活動中,天問一號采用多種工作模式嵌套組合和星上自主判斷的方式,使得我國地外天體巡視器具有一定的自主規(guī)劃能力。后續(xù)我國將開展更多航天工程,在軌航天器呈現(xiàn)數(shù)量多、多頻段測控等新的特征,當(dāng)前工程任務(wù)的技術(shù)積累已經(jīng)不能滿足后續(xù)任務(wù)的技術(shù)支撐,需要把理論研究與工程需求緊密結(jié)合,充分采用人工智能技術(shù),為飛控任務(wù)提供技術(shù)支撐。隨著任務(wù)復(fù)雜度的增加,任務(wù)規(guī)劃呈現(xiàn)如下的特征。
(1)在軌航天器由單目標(biāo)向多目標(biāo)發(fā)展。在未來5年內(nèi)深空探測任務(wù)在軌航天器將超過16個,同時兼顧航天器長期管理需求,測控資源申請和分配等將呈現(xiàn)緊張的競爭態(tài)勢,各器之間形成相互耦合的時間窗口約束關(guān)系。
(2)單一目標(biāo)指令級協(xié)同規(guī)劃向復(fù)雜約束狀態(tài)空間規(guī)劃發(fā)展。單一任務(wù)模態(tài)下航天器協(xié)同需求相對簡單,通過指令級協(xié)同即可完成控制工作。隨著在軌控制目標(biāo)的增多,任務(wù)間相互耦合關(guān)系復(fù)雜,需要從任務(wù)設(shè)計、策略控制、任務(wù)實施等多個層面進行任務(wù)狀態(tài)空間分析,解決多器復(fù)雜協(xié)同規(guī)劃問題。
(3)單一領(lǐng)域模型向多維度多尺度的數(shù)字化工程發(fā)展。單一的模型描述語言難以充分刻畫系統(tǒng)間的耦合約束條件。所以,需建立多維度、多尺度的規(guī)劃知識模型,既能夠提高規(guī)劃解的可行性,又能降低規(guī)劃算法的計算需求。
(4)人機協(xié)同的地面規(guī)劃向不確定性的動態(tài)任務(wù)規(guī)劃發(fā)展。未知的飛行環(huán)境、突發(fā)的科學(xué)目標(biāo)等會經(jīng)常導(dǎo)致預(yù)定規(guī)劃難以正常執(zhí)行。為了盡可能地完成任務(wù)目標(biāo),必須快速應(yīng)對和解決規(guī)劃失效的情況。所以,需要重點研究不確知環(huán)境下,預(yù)定規(guī)劃序列執(zhí)行失敗時的快速重規(guī)劃方法。
考慮到后續(xù)航天任務(wù)系統(tǒng)耦合性、資源有限和約束復(fù)雜等特殊性質(zhì),從當(dāng)前亟需解決的問題和發(fā)展趨勢來看,建議在飛控任務(wù)智能規(guī)劃技術(shù)方面重點開展以下研究,以提升我國深空探測智能決策的水平。
1)復(fù)雜空間環(huán)境下的約束表示
任務(wù)規(guī)劃知識模型是自主規(guī)劃技術(shù)基礎(chǔ)并影響規(guī)劃搜索技術(shù)的應(yīng)用。開源的PDDL、NDDL都存在弊端,如何有效結(jié)合各種建模語言的優(yōu)勢,構(gòu)建復(fù)雜約束的合理表示和科學(xué)規(guī)范,是當(dāng)前建模工作面臨的一個關(guān)鍵技術(shù)挑戰(zhàn)。
2)基于強化學(xué)習(xí)的多器協(xié)同規(guī)劃
以強化學(xué)習(xí)為代表的人工智能技術(shù)在理論和應(yīng)用上都取得了突破性發(fā)展,已經(jīng)成功應(yīng)用到機械臂規(guī)劃、車輛路徑規(guī)劃等各類控制決策系統(tǒng)中。強化學(xué)習(xí)通過不斷與環(huán)境的交互,得到狀態(tài)空間對應(yīng)動作的評價,作為搜索進程中選擇搜索分支的引導(dǎo)模型,以更快地達(dá)到搜索完成狀態(tài)。目前對強化學(xué)習(xí)的研究主要集中在狀態(tài)空間和動作空間表示、狀態(tài)-動作獎勵值更新機制、適合的動作選擇策略等方面。應(yīng)用強化學(xué)習(xí)的建模和優(yōu)化方法,為自動規(guī)劃中的搜索求解過程建立高效決策引導(dǎo)模型,是提高復(fù)雜任務(wù)規(guī)劃問題規(guī)劃求解效率的重要途徑。開展多器協(xié)同規(guī)劃,需要從層次劃分、任務(wù)分配、多器協(xié)同等角度指定分解策略,構(gòu)建強化學(xué)習(xí)決策模型,提高復(fù)雜規(guī)劃問題求解的自動化水平,解決后續(xù)任務(wù)中強資源、高時效、動態(tài)時變等約束難題。
3)復(fù)雜環(huán)境下的不確定規(guī)劃
不確定規(guī)劃是在時態(tài)規(guī)劃基礎(chǔ)上發(fā)展起來的一種問題模型,航天工程任務(wù)中的不確定性包括動作執(zhí)行狀態(tài)、地外天體位置環(huán)境、載荷突發(fā)性工況、事件完成時間等多個因素,處理帶有條件分支的規(guī)劃任務(wù)和應(yīng)急規(guī)劃,需要在航天器上部署快速規(guī)劃器來重新進行規(guī)劃;或者在地面提前制定應(yīng)急計劃,以處理不確定性。這方面的研究工作包括:通過選擇條件,在規(guī)劃中添加應(yīng)急分支;處理不確定持續(xù)時間、不確定資源消耗、不確定動作效果的規(guī)劃技術(shù)等。
4)分布式多智能體自主規(guī)劃技術(shù)
分布式多智能體規(guī)劃具有充分利用多航天器的規(guī)劃能力、避免系統(tǒng)單點失效等優(yōu)點,輔以合理的系統(tǒng)架構(gòu)、規(guī)劃協(xié)商模式及信息一致性策略,能提高規(guī)劃效率、提升系統(tǒng)可靠性。啟發(fā)式搜索、元啟發(fā)式算法、組合優(yōu)化技術(shù)、機器學(xué)習(xí)等理論都可作為分布式多智能體規(guī)劃的技術(shù)基礎(chǔ)。應(yīng)用到具體工程任務(wù),則需要選擇與場景需求相匹配的規(guī)劃方法,并結(jié)合任務(wù)特點進行擴展和改進。
隨著計算機技術(shù)的蓬勃發(fā)展,采用人工智能技術(shù)提升飛控任務(wù)規(guī)劃的智能化和自動化水平已經(jīng)成為大勢所趨,既有的設(shè)計模式、組織方式等都需要適應(yīng)新技術(shù)應(yīng)用帶來的變化。本文提出飛控任務(wù)智能規(guī)劃的內(nèi)涵,分析在工程任務(wù)背景下學(xué)科發(fā)展所面臨的技術(shù)挑戰(zhàn);提出通用型軟件處理流程,針對知識建模和求解算法兩個關(guān)鍵技術(shù)進行詳細(xì)研討,并總結(jié)了當(dāng)前工程任務(wù)中最新理論研究成果向工程實踐的應(yīng)用轉(zhuǎn)化現(xiàn)狀;立足后續(xù)國家重大工程任務(wù),提出發(fā)展需求和研究方向,以推動深空探測任務(wù)核心技術(shù)的自主化和智能化發(fā)展。