高宇輝,師 明,蔡敦波,張 弓
(1.航天飛行動(dòng)力學(xué)技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100094;2.北京航天飛行控制中心,北京 100094;3.中移(蘇州)軟件技術(shù)有限公司,蘇州 215000)
任務(wù)智能規(guī)劃技術(shù)起源于狀態(tài)空間搜索、定理證明和控制理論的研究,以及機(jī)器人技術(shù)、調(diào)度和其他領(lǐng)域的實(shí)際需要。在國防和空間技術(shù)領(lǐng)域,地外天體巡視器任務(wù)規(guī)劃技術(shù)是任務(wù)智能規(guī)劃技術(shù)的一類典型應(yīng)用。巡視器自身是一個(gè)包含時(shí)間約束、數(shù)值約束、因果約束、能源約束等多種約束類型的強(qiáng)耦合系統(tǒng),在計(jì)算理論中的問題求解難度是多項(xiàng)式空間完全(Polynomial SPACE- complete,PSPACE-complete)的;航天測(cè)控模式復(fù)雜,應(yīng)急控制需求多樣,需要專家參與來解決規(guī)劃過程中遇到的約束沖突,系統(tǒng)需要新增一類條件約束,使得規(guī)劃問題兼具了調(diào)度的需求,問題求解和系統(tǒng)設(shè)計(jì)變得更加復(fù)雜。
截至2021年4月,成功在月球和火星表面著陸并進(jìn)行巡視勘察的巡視器共有12輛,包括中國2輛、蘇聯(lián)2輛、美國8輛。早期巡視器遙操作主要采用完全的是由人工控制的方法。蘇聯(lián)在1970年和1971年分別向月球發(fā)射了“月球車1號(hào)”(Lunokhod 1)和“月球車2號(hào)”(Lunokhod 2)兩個(gè)巡視器,地面人員參考不同攝像頭獲取的小畫幅圖像辨識(shí)障礙、確定障礙距離、判斷路線可穿越性并控制巡視器運(yùn)動(dòng)[6]。美國在1971—1972年相繼發(fā)射了“阿波羅15號(hào)”(Apollo 15)、“阿波羅16號(hào)”(Apollo 16)和“阿波羅17號(hào)”(Apollo 17)3個(gè)月面著陸器,均搭載了載人巡視器,巡視器的操控由宇航員實(shí)施[6]。這類方法接近人類工作的方式,缺點(diǎn)是整個(gè)規(guī)劃過程均在單一粒度上進(jìn)行,計(jì)劃編制時(shí)間長,規(guī)劃系統(tǒng)智能程度低且容錯(cuò)性差。
2000年后,美國國家航空航天局(National Aeronautics and Space Administration,NASA)綜合應(yīng)用了多個(gè)任務(wù)智能規(guī)劃技術(shù),不斷更新和擴(kuò)展自動(dòng)規(guī)劃系統(tǒng)。在火星巡視器“火星探測(cè)漫游者”(Mars Exploration Rover,MER)和“火星科學(xué)實(shí)驗(yàn)室”(Mars Science Laboratory,MSL)項(xiàng)目中,“勇氣號(hào)”(Spirit)、“機(jī)遇號(hào)”(Opportunity)和“好奇號(hào)”(Curiosity)采用的MAPGEN(Mixed initiative Activity Plan GENerator)自動(dòng)規(guī)劃系統(tǒng)在控制任務(wù)上取得超預(yù)期成功[7-8]。MAPGEN系統(tǒng)由規(guī)劃方案編輯器系統(tǒng)APGEN(Activity Plan Generator)和規(guī)劃器EUROPA(Extensible Universal Remote Operations Planning Architecture),采用了人機(jī)協(xié)同的遙操作方法,支持操控員使用APGEN在時(shí)間線上對(duì)任務(wù)進(jìn)行手動(dòng)安排,由EUROPA完成邏輯推理、沖突提示和沖突消解[9]。針對(duì)具體問題域的問題求解,EUROPA提供專門的算法。這類方法大幅縮短了遙操作規(guī)劃的執(zhí)行時(shí)間,但是規(guī)劃效率依賴于規(guī)劃求解算法的有效性。
2013年,成功著陸的“玉兔號(hào)”巡視器,實(shí)現(xiàn)了一種基于動(dòng)作的經(jīng)典規(guī)劃,采用了地面控制與器上自主相結(jié)合的遙操作任務(wù)規(guī)劃方式[4,10]。但是該方法不支持動(dòng)態(tài)調(diào)整巡視器活動(dòng)序列,并且各自參數(shù)之間具有依賴關(guān)系,弱化了人機(jī)交互需求以及系統(tǒng)對(duì)約束沖突檢測(cè)的能力。在“嫦娥四號(hào)”任務(wù)中,“玉兔二號(hào)”巡視器的工作范圍處于月球背面的南極–艾特肯盆地(South Pole-Aitken basin,SPA)。著陸月球背面實(shí)施巡視探測(cè),一直是各國開展月球探測(cè)的重要目標(biāo)之一,在“嫦娥四號(hào)”任務(wù)之前各國均未實(shí)現(xiàn)?!版隙鹑?hào)”的技術(shù)儲(chǔ)備已不足以完成任務(wù)技術(shù)支持,需要研發(fā)新的平臺(tái)解決復(fù)雜約束規(guī)劃問題。
本文提出一種通用型的分層任務(wù)規(guī)劃軟件架構(gòu)和人機(jī)協(xié)同的規(guī)劃迭代求解方法,采用規(guī)劃領(lǐng)域定義語言(Planning Domain Definition Language,PDDL)完成領(lǐng)域建模?;谏鲜龇椒▽?shí)現(xiàn)的任務(wù)規(guī)劃系統(tǒng),成功應(yīng)用于“嫦娥四號(hào)”任務(wù),為任務(wù)圓滿成功提供了技術(shù)支持。
巡視器任務(wù)規(guī)劃是一個(gè)多約束規(guī)劃求解問題,規(guī)劃對(duì)象內(nèi)部包含了驅(qū)動(dòng)底層規(guī)劃器計(jì)算的狀態(tài)和目標(biāo)信息;通信窗口約束會(huì)導(dǎo)致單一規(guī)劃對(duì)象無法在一個(gè)時(shí)間窗口內(nèi)完成,從而導(dǎo)致了一些針對(duì)時(shí)間窗口的絕對(duì)約束。巡視器本身具有移動(dòng)、感知、科學(xué)探測(cè)等多種工作模式,每個(gè)工作模式既受溫度、能源、地形、測(cè)控資源等條件的限制,同時(shí)工作模式之間存在不同的轉(zhuǎn)換條件。工作模式對(duì)應(yīng)巡視器的不同行為,包括導(dǎo)航拍照、盲走移動(dòng)、充電等[11],每種行為都有多分支選擇,每一種選擇都會(huì)導(dǎo)致不同的耗時(shí)和能源消耗,因此規(guī)劃對(duì)象內(nèi)部的分支選擇會(huì)影響最終的規(guī)劃結(jié)果。此外,上述約束中部分是時(shí)變的,有較強(qiáng)的不確定性,容易導(dǎo)致部分規(guī)劃解出現(xiàn)不可執(zhí)行的問題。
月面工作序列生成復(fù)雜程度高,風(fēng)險(xiǎn)較大,需要人機(jī)協(xié)同完成作業(yè)多分支選擇、事件屬性設(shè)置等操作,降低任務(wù)執(zhí)行風(fēng)險(xiǎn)。
本文借鑒分層任務(wù)網(wǎng)絡(luò)(Hierarchical Task Network,HTN)規(guī)劃的設(shè)計(jì)思想,將作業(yè)剖解為多個(gè)原子命題的集合,設(shè)計(jì)了一種分層規(guī)劃對(duì)象模型(Hierarchical Plan Object Model,HPOM),以提高人機(jī)協(xié)同的效率。
自頂向下的設(shè)計(jì)對(duì)象包括多選項(xiàng)作業(yè)層、帶約束行為層、多分支指令序列層、參數(shù)化虛擬指令層,其組織結(jié)構(gòu)如圖1所示。結(jié)合時(shí)態(tài)約束與資源約束、時(shí)間窗口預(yù)報(bào)、資源使用模型等任務(wù)要素,將帶約束行為的工程問題轉(zhuǎn)化為時(shí)態(tài)規(guī)劃問題進(jìn)行求解。規(guī)劃的目的不是要達(dá)到某一目標(biāo)狀態(tài)的集合,而是要完成某一作業(yè)方法的集合。
圖1 分層規(guī)劃對(duì)象模型的層次結(jié)構(gòu)Fig.1 Hierarchical structure of HPOM
該模型方法應(yīng)用到工程任務(wù)中,首先需要借助操控員的經(jīng)驗(yàn)知識(shí)理解規(guī)劃任務(wù)的目標(biāo),完成作業(yè)選項(xiàng)的設(shè)定。由操控員為作業(yè)選擇行為序列、設(shè)定行為的約束和行為之間的邏輯順序。然后交由任務(wù)規(guī)劃系統(tǒng)將行為序列展開。如果指令序列之間存在參數(shù)計(jì)算、時(shí)間延遲等要求,則插入虛擬指令進(jìn)行表示,并調(diào)用外部計(jì)算過程予以處理。
對(duì)各層次的對(duì)象做如下定義。
1)(參數(shù)化)虛擬指令對(duì)象
虛擬指令由指令名和參數(shù)表構(gòu)成,指令名為字符串,參數(shù)表由參數(shù)名稱、類型構(gòu)成,每個(gè)參數(shù)的值均需計(jì)算。虛擬指令不僅僅用于表示真實(shí)指令,它可對(duì)應(yīng)時(shí)間占位需求(主動(dòng)延時(shí))、驅(qū)動(dòng)底層規(guī)劃器的參數(shù)計(jì)算需求(如圖2所示)。參數(shù)可以是靜態(tài),也可以是動(dòng)態(tài)的,以適應(yīng)上層規(guī)劃對(duì)象時(shí)序調(diào)整對(duì)虛擬指令的影響。
圖2 虛擬指令的抽象作用Fig.2 Abstract function of virtual instruction
2)多分支指令序列對(duì)象
指令序列對(duì)象由若干虛擬指令和(子)指令序列組成,并包含多個(gè)分支點(diǎn)(如圖3所示)。指令序列對(duì)象的描述能力具有兩個(gè)主要特點(diǎn):①指令序列對(duì)象能描述抽象的、層次化的指令序列結(jié)構(gòu),因?yàn)槠渲械淖又噶钚蛄锌煽醋鞒橄蟮暮曛噶睿?dāng)前指令序列對(duì)子指令序列的包含與子指令序列對(duì)下級(jí)子指令序列的包含反映了層次關(guān)系;②附帶分支點(diǎn)標(biāo)識(shí)的指令序列支持指令的模式化自動(dòng)擴(kuò)展,能夠解決行為多分支選擇的難題。
圖3 多分支指令序列的結(jié)構(gòu)示意圖Fig.3 Structure diagram of multi branch instruction sequence
3)帶約束的行為對(duì)象
每個(gè)行為對(duì)象可表示巡視器的一個(gè)行為。一個(gè)行為對(duì)象包含參數(shù)表、唯一的默認(rèn)指令序列,同時(shí)附帶若干時(shí)態(tài)約束和資源約束描述信息(如圖4所示)。
圖4 帶約束的行為對(duì)象結(jié)構(gòu)示意圖Fig.4 Schematic diagram of behavior object structure with constraints
4)多選項(xiàng)作業(yè)對(duì)象
每個(gè)作業(yè)對(duì)象表示完成某一明確目標(biāo)所對(duì)應(yīng)的行為組合(如圖5所示)。作業(yè)包含多個(gè)選項(xiàng),每個(gè)選項(xiàng)與一種行為組合關(guān)聯(lián)并統(tǒng)一設(shè)置這些行為所有相匹配的分支點(diǎn)選擇。這種設(shè)計(jì)符合操控員描述知識(shí)的方式。
圖5 多選項(xiàng)作業(yè)對(duì)象的結(jié)構(gòu)示意圖Fig.5 Structure diagram of multi option operation object
行為對(duì)象層位于作業(yè)對(duì)象層的下層,在操控人員做出較粗略的行為計(jì)劃之后,行為對(duì)象接著由自動(dòng)規(guī)劃系統(tǒng)根據(jù)系統(tǒng)中的各類資源約束、時(shí)間約束和各類預(yù)報(bào)數(shù)據(jù)進(jìn)行定時(shí)優(yōu)化。
本文采用PDDL規(guī)劃語言,完成對(duì)領(lǐng)域模型和具體問題模型的描述。規(guī)劃器識(shí)別規(guī)劃語義,生成巡視器工作序列。對(duì)于規(guī)劃解中的局部沖突和缺陷,采取解決沖突、彌補(bǔ)缺陷的算子,獲得最佳重規(guī)劃結(jié)果。
定義1“狀態(tài)”是真命題的有限集。每個(gè)命題的變量可為布爾變量(論域?yàn)閧T,F(xiàn)})或數(shù)值變量(論域?yàn)閷?shí)數(shù)R)。
定義2“行為”(動(dòng)作)是一個(gè)三元組〈P,eff+,eff-〉,其中P表示執(zhí)行該行為的前提條件,為命題的有限集;eff+表示執(zhí)行該行為后新成立的命題集,也稱為添加效果;eff-表示執(zhí)行該行為后不再成立的命題集,也稱為刪除效果。eff+和eff-中涉及同一數(shù)值變量的命題,可建模該變量的取值在動(dòng)作執(zhí)行前后的變化。
定義3(行為)規(guī)劃問題表示為一個(gè)三元組〈Dom,I,G〉,其中Dom包含行為組成的有限集,描述動(dòng)作所需的若干對(duì)象類型、函數(shù)和謂詞;I表示在規(guī)劃過程開始前已知成立的命題集,定義問題的初始狀態(tài);G為期望成立的命題集,定義問題的目標(biāo)狀態(tài)。
在定義2和定義3的基礎(chǔ)上,為行為增加開始時(shí)間(start time)和持續(xù)時(shí)長(duration)兩個(gè)屬性,將工程問題轉(zhuǎn)化為時(shí)態(tài)規(guī)劃問題(Temporal Planning Problem)進(jìn)行求解。依據(jù)各項(xiàng)預(yù)報(bào)數(shù)據(jù)確定命題的成立時(shí)間。如通信窗口預(yù)報(bào)數(shù)據(jù)中包含一個(gè)時(shí)間窗口[66,188],即,在66~188 s 內(nèi)存在一個(gè)通信鏈路,則構(gòu)建命題對(duì)偶:(at(communication_accessible)66)和(at(not(communication_accessible))189)。其中,(communication_accessible)為表示可否通信的命題變量。采用行為邏輯順序的約束關(guān)系構(gòu)建行為集,為了建模這類順序約束,提出的規(guī)則:若要求行為a1在行為a2之前執(zhí)行則在a2的前提中添加一個(gè)命題p1-2,然后在a1的添加效果中添加p1-2,最后在初始狀態(tài)I中指定命題p1-2的值為F(假)。
每個(gè)外部計(jì)算過程必須在每次計(jì)算前獲取詳細(xì)的行為狀態(tài)信息,才能確保規(guī)劃計(jì)算結(jié)果的正確性。
例如充電行為的時(shí)長計(jì)算,與該行為的開始時(shí)間、巡視器航向和姿態(tài)、巡視器當(dāng)前工作模式都有密切關(guān)系:
1)行為開始時(shí)間,影響太陽高度角,進(jìn)一步影響巡視器兩個(gè)太陽翼的光照夾角;
2)巡視器航向和姿態(tài),影響太陽翼的遮蔽情況和光照夾角;
3)巡視器當(dāng)前工作模式,不同工作模式下耗電不同,也會(huì)影響充電效率。
通過上述方法擴(kuò)展PDDL語言,完成對(duì)巡視器的各種行為和具體任務(wù)問題的建模描述。行為模型與對(duì)象類型定義、函數(shù)定義、外部計(jì)算過程定義形成領(lǐng)域模型,具體任務(wù)所涉及的對(duì)象實(shí)例、初始狀態(tài)和目標(biāo)狀態(tài)等描述一起形成具體問題模型。規(guī)劃求解器以上述兩個(gè)文件為輸入,進(jìn)行規(guī)劃求解計(jì)算。支持PDDL語言所建模型的開源求解器較多,改進(jìn)適用的求解器支持上述擴(kuò)展語法,即可完成規(guī)劃問題求解。
以HPOM為基礎(chǔ),本文設(shè)計(jì)了一種規(guī)劃迭代求解流程,實(shí)現(xiàn)了操控員人工選擇與智能規(guī)劃技術(shù)自動(dòng)求解規(guī)劃的有機(jī)結(jié)合。
人機(jī)協(xié)同規(guī)劃迭代求解(Human-In-The-Loop,HITL)的流程設(shè)計(jì)思想是:利用HPOM層次規(guī)劃對(duì)象模型,結(jié)合操控員手動(dòng)操作和規(guī)劃器的智能求解,通過多次迭代求解,計(jì)算生成完成任務(wù)作業(yè)的指令序列,如圖6所示。
在圖6中,操控員用分層規(guī)劃對(duì)象模型中的多選項(xiàng)作業(yè)對(duì)象和多約束行為對(duì)象進(jìn)行粗粒度的頂層規(guī)劃,形成行為計(jì)劃流程。巡視器行為規(guī)劃系統(tǒng)將帶約束行為展開為多分支指令,并進(jìn)一步映射為參數(shù)化虛擬指令序列,得到虛擬指令集的粗規(guī)劃。規(guī)劃系統(tǒng)對(duì)帶約束行為列表進(jìn)行行為定時(shí),結(jié)果映射為虛擬指令的精規(guī)劃。精規(guī)劃與粗規(guī)劃的不一致情況將提示給操控員,以進(jìn)行頂層計(jì)劃的修改。
圖6 巡視器任務(wù)規(guī)劃系統(tǒng)人機(jī)協(xié)同示意圖Fig.6 Schematic diagram of human-machine cooperation for mission planning system of Rover
規(guī)劃迭代求解的流程如圖7所示。
圖7 任務(wù)規(guī)劃迭代流程Fig.7 Iterative process of task planning
對(duì)各個(gè)規(guī)劃迭代步驟做如下定義。
1)作業(yè)規(guī)劃階段
由操控員根據(jù)任務(wù)場(chǎng)景和專家經(jīng)驗(yàn)自上而下地設(shè)計(jì)作業(yè)模式,并設(shè)置各作業(yè)的配置選項(xiàng),對(duì)行為的邏輯順序做出安排。
2)行為序列粗規(guī)劃階段
操控員根據(jù)作業(yè)選項(xiàng)和作業(yè)對(duì)應(yīng)的默認(rèn)行為序列設(shè)計(jì)粗略的行為序列,隨后由任務(wù)規(guī)劃系統(tǒng)根據(jù)作業(yè)選項(xiàng)具體化每個(gè)行為所附帶的分支點(diǎn)列表和參數(shù),最后操控員通過圖形化接口查看展開后的行為序列,并對(duì)行為的相對(duì)順序進(jìn)行調(diào)整。
3)多分支指令生成階段
基于行為序列中每個(gè)行為的參數(shù)取值和分支點(diǎn),系統(tǒng)生成對(duì)應(yīng)的多分支指令序列,同時(shí)確定各序列中每個(gè)分支點(diǎn)的設(shè)置。
4)虛擬指令展開階段
任務(wù)規(guī)劃系統(tǒng)將多分支指令展開為虛擬指令序列,增加必要的虛擬指令,之后按序啟動(dòng)每個(gè)虛擬指令的相關(guān)子規(guī)劃器(如路徑規(guī)劃器)的計(jì)算,依次計(jì)算每條虛擬指令相關(guān)的耗時(shí)和內(nèi)部控制數(shù)據(jù)。以此為基礎(chǔ),任務(wù)規(guī)劃系統(tǒng)確定行為粗規(guī)劃中各行為的建議分配時(shí)長。
5)行為規(guī)劃問題自動(dòng)構(gòu)建階段
基于上述信息,由規(guī)劃系統(tǒng)實(shí)時(shí)創(chuàng)建規(guī)劃領(lǐng)域模型文件和規(guī)劃問題模型文件。
6)行為規(guī)劃系統(tǒng)求解階段
規(guī)劃器進(jìn)行計(jì)算求解,將規(guī)劃結(jié)果重新映射回巡視器行為,并根據(jù)行為的開始時(shí)間與持續(xù)時(shí)長等信息得到虛擬指令序列的精規(guī)劃。
7)精規(guī)劃與粗規(guī)劃的一致性分析
由于規(guī)劃系統(tǒng)對(duì)行為時(shí)序的調(diào)整會(huì)導(dǎo)致虛擬指令精規(guī)劃中的指令執(zhí)行時(shí)長與內(nèi)部控制數(shù)據(jù)和粗規(guī)劃不匹配,因此需要進(jìn)行一致性分析,若存在不一致則需重新計(jì)算,并啟動(dòng)下一次迭代。
使用“嫦娥四號(hào)”任務(wù)實(shí)際場(chǎng)景進(jìn)行實(shí)例分析和方法驗(yàn)證。
圖8中,運(yùn)用多選項(xiàng)作業(yè)對(duì)象來表示在停泊點(diǎn)A進(jìn)行感知作業(yè)。其中,A點(diǎn)感知作業(yè)包含了感知行為和數(shù)據(jù)下傳行為的組合,當(dāng)對(duì)感知行為設(shè)置了“高碼率試拍下傳”分支點(diǎn),則在數(shù)據(jù)下傳行為中會(huì)相應(yīng)的設(shè)置“高碼率下傳”分支點(diǎn)。這兩個(gè)分支點(diǎn)與作業(yè)的同一選項(xiàng)綁定,一旦該選項(xiàng)被設(shè)置則兩個(gè)分支點(diǎn)同時(shí)被任務(wù)規(guī)劃系統(tǒng)自動(dòng)選擇。
圖8 多選項(xiàng)作業(yè)對(duì)象示例Fig.8 Example of multi option operation object
圖9中,建模的指令為一條真實(shí)指令:導(dǎo)航相機(jī)拍照,拍照目標(biāo)角度和拍照方式均需計(jì)算確定。
圖9 虛擬指令示例Fig.9 Example of virtual instruction
其對(duì)應(yīng)的指令序列流程為:〈試拍照,數(shù)據(jù)下傳,正式拍照〉。其中,試拍照指令需要執(zhí)行多少次可由對(duì)應(yīng)的分支點(diǎn)確定。若此分支點(diǎn)的取值為3,則此指令序列將被自動(dòng)展開包含3個(gè)試拍照指令的序列:〈試拍照,試拍照,試拍照,數(shù)據(jù)下傳,正式拍照〉。
使用功能擴(kuò)展后的PDDL對(duì)巡視器移動(dòng)行為進(jìn)行規(guī)劃建模。首先在規(guī)劃域描述結(jié)構(gòu)中增加元標(biāo)記“:processes”,對(duì)外部計(jì)算過程進(jìn)行說明,并同時(shí)定義名如proc1和proc2的外部計(jì)算過程;在移動(dòng)行為定義部分,運(yùn)用這些外部計(jì)算過程來建模動(dòng)作的動(dòng)態(tài)性。圖10中,使用(=?duration proc1)描述巡視器該行為的持續(xù)時(shí)長是由外部計(jì)算過程proc1負(fù)責(zé)每次迭代時(shí)重新計(jì)算;用(decrease energy proc2)描述巡視器剩余電量energy的降低數(shù)量由proc2計(jì)算。
圖10 移動(dòng)行為的PDDL擴(kuò)展定義Fig.10 PDDL Extended definition of mobile behavior
假設(shè)巡視器當(dāng)前位于S1點(diǎn)(坐標(biāo):–26.7,–1.2),科學(xué)家指定其移動(dòng)到目標(biāo)點(diǎn)(坐標(biāo):–45.1,–1.1)進(jìn)行科學(xué)探測(cè)。當(dāng)前點(diǎn)和目標(biāo)點(diǎn)之間的其余導(dǎo)航點(diǎn)分別是S2點(diǎn)(坐標(biāo):–32.5,–0.9)和S3點(diǎn)(坐標(biāo):–37.9,–0.9),然后根據(jù)初始狀態(tài)、目標(biāo)狀態(tài)以及測(cè)控約束、能源約束和光照約束等條件,啟動(dòng)任務(wù)規(guī)劃計(jì)算,得到動(dòng)作序列如表1所示。
表1 “玉兔二號(hào)”巡視器科學(xué)探測(cè)任務(wù)規(guī)劃實(shí)例結(jié)果分析Table 1 Analysis on the results of scientific exploration mission planning of Yutu 2 Rover
本文提出的方法融合了分層規(guī)劃、PDDL規(guī)劃、人機(jī)結(jié)合等智能規(guī)劃領(lǐng)域的多個(gè)概念。
1)提出的“分層規(guī)劃對(duì)象模型”契合人類操控員自頂向下、逐步細(xì)化求精的規(guī)劃模式。將作業(yè)分解為行為,將行為分解為指令序列。同時(shí)在分解過程中引入了“分支點(diǎn)”的概念,由分支點(diǎn)影響分解的結(jié)果,擴(kuò)展了HTN規(guī)劃的靈活性。軟件架構(gòu)具有通用性,有望在后續(xù)無人航天器、無人水下潛航器等復(fù)雜任務(wù)中獲得進(jìn)一步應(yīng)用。
2)在分層規(guī)劃的模型內(nèi),實(shí)現(xiàn)了將帶約束行為層的規(guī)劃問題轉(zhuǎn)化為PDDL規(guī)劃問題的方法,擴(kuò)展了PDDL規(guī)劃建模的使用思路。
3)以HPOM為基礎(chǔ)探索人機(jī)協(xié)同下的HITL方法,設(shè)計(jì)了高層對(duì)象映射為低層對(duì)象的自動(dòng)化方法,縮短了操控員構(gòu)建任務(wù)計(jì)劃的時(shí)間,實(shí)現(xiàn)了人類專家和智能規(guī)劃系統(tǒng)的優(yōu)勢(shì)互補(bǔ)。
采用該方法設(shè)計(jì)實(shí)現(xiàn)的任務(wù)智能規(guī)劃系統(tǒng),在“嫦娥四號(hào)”任務(wù)“玉兔二號(hào)”巡視器遙操作任務(wù)中獲得應(yīng)用并取得預(yù)期效果,為任務(wù)的圓滿成功提供了技術(shù)支撐。