解永春,王 勇,2,陳 奧,李林峰
1957年10月,前蘇聯(lián)發(fā)射了第一顆人造地球衛(wèi)星“Sputnik-1”,自此開啟了人類的航天時代[1].早期的航天器結構簡單、功能單一、按預定程序執(zhí)行任務,隨著人們對航天活動的功能、效益定義范圍的日趨擴大,對包括空間操作(space operation, SO)在內的航天技術提出了越來越高的要求.
空間操作是指航天器為完成空間規(guī)定動作或任務而從事的在軌活動,包括在軌服務(on-orbit servicing, OOS)、空間攔截、空間規(guī)避等[2],是一種任務主導的在軌活動.航天器在軌服務是眾多空間操作中最具有研究價值的方向之一,它是指在空間通過人、機器人或兩者協(xié)同完成涉及延長各種航天器壽命、提升執(zhí)行任務能力、降低費用和風險的一類空間操作.在軌服務涉及到許多與任務相關的操作,種類龐雜,對在軌服務的任務進行分析和劃分,可將在軌服務分為在軌裝配、在軌維護和后勤支持這三類[3].在軌裝配包括航天器級的組裝、零部件組裝和在軌制造等幾個層級,對于大型機構的在軌應用具有重要意義;在軌維護包括預防性維護、糾正性維護和升級性維護等,對于在軌排故和模塊的增加與更換很重要;后勤支持包括消耗品的更換、氣液加注、軌道清理、軌道轉移和在軌發(fā)射等,為空間系統(tǒng)正常運行和能力擴展所需的后勤和補給提供支持和保障.
不論是哪種在軌服務,最終都是要落實到具體的技術上才可以實現(xiàn),即在軌服務是通過服務航天器按照計劃方案采用一定的服務操作手段來實施的,這種手段就是在軌服務操作[3].在軌服務操作涉及遠距離交會/對接(rendezvous and docking, RVD)技術、消旋/捕獲技術、組合體控制技術、服務操作技術等關鍵技術.交會對接包含兩個或兩個以上的飛行器在軌道上按預定位置和時間相會的過程和隨后的在機械結構上連成一個整體的對接過程[4],RVD是實現(xiàn)其他在軌服務操作的基礎和上游技術,我國已掌握快速自主交會對接技術[5].按照是否有人直接參與,在軌服務操作可分為由航天員主導或航天員直接參與的有人在軌服務操作和無人現(xiàn)場參與的在軌服務操作[3].早期航天員對哈勃望遠鏡[6]、國際通信衛(wèi)星6號[3]及空間站的維修[7-8]均屬于有人在軌服務操作,隨著任務難度的增大,逐漸發(fā)展出以遙操作[9]、人員監(jiān)控下自主服務操作和完全自主服務操作等為代表的自主程度逐漸遞增的在軌服務.在完全自主在軌服務中,航天器在人工智能(artificial intelligence, AI)的支持管理下,不依賴地面測控,僅依靠自身敏感器和控制裝置就能自主的完成相關操作,具有更高的靈活性,是未來的發(fā)展趨勢.人工智能是研發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統(tǒng)的一門新學科[10],其主流方法包括以符號主義人工智能(symbolic AI)為核心的邏輯推理和以數(shù)據(jù)驅動(data-driven)為核心的機器學習.后者通過不斷地訓練和自我學習,可以構建出復雜的映射模型,將其用于在軌服務操作中,能夠實現(xiàn)完全自主的復雜操作,彌補傳統(tǒng)控制方法的不足.
為便于理解,將上文提到的空間操作、在軌服務、在軌服務操作及相關的分類在圖1中進行表示.
本文研究的是在空間交會對接基礎上,即在對接之后的、完全自主的、基于學習的空間機器人在軌服務操作技術.
圖1 主要概念關系圖Fig.1 Relationship of key conceptions
在過去的50多年里,圍繞在軌服務操作,世界各航天大國陸續(xù)進行了一系列探索性嘗試.
在航天活動初期,受各項技術的制約,在軌服務操作大多都是以有人直接參與為主,且任務單一,多停留在在軌維護任務上,例如,1984年,美國航天員對航天峰年任務衛(wèi)星進行在軌維修[3];1992年,奮進號航天飛機航天員對國際通信衛(wèi)星6號進行在軌維修[3];2002年,航天員為哈勃望遠鏡更換太陽能電池陣[6];2008年,航天員對國際空間進行在軌維修[8].
隨著航天技術的發(fā)展和對航天任務需求的提升,近20年以來,國外逐漸將研究重點轉向多任務自主在軌服務操作中,以取代航天員出艙活動,降低其工作風險,提高操作的靈活性,擴展應用空間.代表性的計劃項目有軌道快車(Orbital Express, OE)[11],“鳳凰(Phoenix)”計劃[12],“蜘蛛制造(SpiderFab)”計劃[13],“建筑師(Archinaut)”計劃[14-15],“地球同步軌道衛(wèi)星機器人服務(Robotic Servicing of Geosynchronous Satellites, RSGS)”[16],“機器人組裝模塊化空間望遠鏡(robotically assembled modular space telescope, RAMST)[17]等,表1對這些項目包括研究機構、主要任務、時間節(jié)點、自主性及任務所屬種類等在內的內容進行總結歸納.
限于表格篇幅,無法對各項計劃的自主性展開說明,而理解這些計劃中操作的自主性程度及趨勢是很有指導意義的.在OE任務中,在軌實驗分別在三個自主操作層級下(遙操作、人員監(jiān)控下自主和全自主),對上述兩項在軌服務操作進行了成功驗證,標志著自主在軌服務已經(jīng)突破了主要的關鍵技術;在Phoenix計劃中,在“非事先設計”的場景下采用人員遙操作,以確保其安全性,在“事先設計”的場景下的接觸操作及精細對準操作在人員監(jiān)控下自主運行,僅需人給出進行或停止指令,而在嚴格時序的操作下采取完全自主服務方式,由星載軟件給出進行或停止指令;在SpiderFab計劃中,采用7自由度的KRAKEN機械臂來實現(xiàn)人員遙操作方式及全自主模式下的裝配工作;在Archinaut計劃中, 驗證無航天員出艙活動的情況下,國際空間站的自主制造組裝技術,未來將用于大型空間望遠鏡的在軌組裝、航天器的維修、結構擴展、無人參與的新空間站的組裝等;在RSGS項目中,研究了配備于機器人服務航天器(Robotic Servicing Vehicle, RSV)上靈巧機械臂FREND在三個自主層級下的在軌檢查、維修、故障重定位和升級等多項功能;RAMST計劃在地球軌道上進行人員監(jiān)控下或全自主的包括桁架模塊、鏡片模塊等在內的在軌裝配.
從上述研究計劃可以看出,操作任務由簡單的模塊更換等發(fā)展為更加精細、復雜的在軌裝配;任務環(huán)境也逐步由確定性的“事先設計”發(fā)展到具備一定不確定性的“非事先設計”;自主性逐漸由有人參與轉向無人操作[18-19],對機械臂的操縱也將由遙操作轉變?yōu)榭臻g全自主.這些轉變將為航天器在空間更久地生存、更好地發(fā)揮功能、更順利地完成使命提供保障,將提高航天活動的安全性和效益[20].
2013年,美國國家航空航天局(NASA)制定了《機器人、遙機器人 和自主系統(tǒng)發(fā)展路線圖》,對機器人在空間探索領域的發(fā)展概況進行了詳細的介紹和解讀.2016年11月,以加州大學圣迭戈分校、卡耐基梅隆大學、克萊姆森大學為首的美國19所大學在美國科學基金會的支持下,聯(lián)合發(fā)布了《美國機器人技術路線圖:從互聯(lián)網(wǎng)到機器人》,對機器人技術目前的發(fā)展機會、面臨的挑戰(zhàn)及解決方案進行了全面的總結,詳細描述了機構與執(zhí)行器、移動與操作、感知、學習與適應、控制與規(guī)劃、人機交互、多智能體機器人七項關鍵技術的發(fā)展路徑.本文依托上述兩個“路線圖”和未來空間操作的發(fā)展趨勢,對在軌服務操作所涉及的關鍵技術進行總結.
表2 在軌服務操作關鍵技術發(fā)展趨勢Tab.2 The key technology trends of OOS manipulations
傳統(tǒng)的機器人技術建立在確定性的環(huán)境和精確的模型之上,在應對未來復雜的、非結構化和各種不確定性的場景時存在難以克服的困難:
(1)非結構化復雜環(huán)境下空間操作困難重重
空間操作特別是針對非合作目標的空間操作屬于非結構化環(huán)境,主要體現(xiàn)在以下幾個方面:
1)目標對象外形/尺寸多種多樣,運動狀態(tài)不確定
分布于不同軌道的各種型號的故障衛(wèi)星、飛船等,無論是外形結構還是大小尺寸都存在較大差異;故障航天器姿態(tài)往往處于快速自旋或翻滾的狀態(tài),接觸碰撞后動作軌跡預估不準確.
2)目標對象表面結構復雜、不確知
受體航天器沒有統(tǒng)一的結構設計,表面安裝各種附屬設備,空間機器人在軌操作需要識別安裝于不同位置的各種類型的附屬設備,并克服各種視覺遮擋.
3)光照條件復雜且不斷變化
空間光照條件變化和目標反射特性與地面認知有較大差異,在相同光照條件下,空間目標的反射特性也有較大差異,這給目標特征識別和測量帶來了不確定性和極大的困難.
(2)在軌操作任務復雜,對操作的精細化程度要求高
空間操作目標對象功能和結構復雜,造價昂貴,在維修維護時需要較為復雜的精細化操作,主要體現(xiàn)在:
1)在不確定環(huán)境下進行操作,要求精細的控制接觸力
2)在狹小空間操作,要求末端位置控制要精細
3)操作流程較為復雜,需要精細規(guī)劃
(3)遙操作無法滿足空間操作實時控制的要求
通訊時延大,遙操作無法滿足消旋抓捕等實時任務的要求.如對于消旋抓捕來說,空間機器人需要根據(jù)目標的實時運動狀態(tài),選擇特定的消旋和抓捕位置,并快速規(guī)劃消旋抓捕的接近路徑,整個過程處于實時控制回路,必須精準識別、快速決策.
綜上所述,為了實現(xiàn)對各種非結構化環(huán)境的自主感知和識別、在各種不確定場景下的自主靈活精細操作、對多種任務快速部署和實時響應,必須發(fā)展新的技術.將人工智能與空間操作相結合,賦予機器人自主學習能力,是滿足未來復雜、精細空間操作任務的一個必然發(fā)展方向.
學習是人工智能的核心.引用 H. Simon的觀點可以這樣描述學習:學習是系統(tǒng)中的任何改進,這種改進使得系統(tǒng)在重復同樣工作或進行類似工作時,能完成得更好[21].面對各種不確定性的環(huán)境,人類包括各種智能生物,正是通過學習來適應各種環(huán)境、并與環(huán)境進行交互.機器人本質上是一個經(jīng)常與不確知的環(huán)境進行主動交互的智能體,必須基于不完全和不確定的知識進行感知、決策、規(guī)劃和控制.因此,賦予機器人學習能力,是使其靈活應對復雜多變的環(huán)境的重要手段.
20世紀中期,得益于優(yōu)化理論和最優(yōu)控制的發(fā)展,動態(tài)規(guī)劃為學習控制設定了早期的研究框架[22].發(fā)展至今,學習控制已成為控制、優(yōu)化與機器學習的綜合交叉.而基于學習的機器人操作技術,是學習控制方法在機器人領域的重要應用.
機器人的學習控制包含三個要素(如圖2所示),即控制策略、學習方法、任務[22].控制策略是狀態(tài)到動作的映射,可分為基于模型的控制(先建模或估計模型,再學習控制策略,如以微分動態(tài)規(guī)劃DDP、順序二次規(guī)劃SQP為典型代表的軌跡規(guī)劃方法,以及模型預測控制MPC)和無模型的控制(也被稱為直接學習,如近似TD-learning[23],近似Q-learning,策略梯度[24]等).學習本質上是一種優(yōu)化,利用先驗知識或歷史數(shù)據(jù),更新控制策略的參數(shù),使系統(tǒng)實現(xiàn)輸出最優(yōu);學習方法的劃分標準不盡統(tǒng)一,基本可分為監(jiān)督、無監(jiān)督、半監(jiān)督、強化學習等.任務是控制策略在時間、空間序列上的綜合;任務可分為基本任務與復雜任務,基本任務包括常規(guī)動作任務(如定點路徑規(guī)劃、軌跡跟蹤)、離散動作任務(如抓取、放置)、周期動作任務(行走)等,復雜任務是多種基本任務的復合.
圖2 機器人學習控制的三要素Fig.2 Three essential factors of the learning-based robot control
機器人學家很早就開始了對學習控制的探索,并把機器學習的方法和技術引入到機器人的感知、決策、規(guī)劃和控制等環(huán)節(jié).例如,迭代學習控制(Iterative Learning Control)就是在機器人領域應用學習控制的早期嘗試.迭代學習控制最早由日本學者Uchiyama于1978年提出,其核心思想是“積累經(jīng)驗——提高性能”.迭代學習控制采用“在重復中學習”的學習策略,它具有記憶系統(tǒng)和修正機制,通過對被控系統(tǒng)進行控制嘗試,以輸出軌跡與給定軌跡的偏差修正不理想的控制信號,產(chǎn)生新的控制信號,進而提高系統(tǒng)的跟蹤性能[21].該方法廣泛應用于具有重復運動性質的工業(yè)機器人底層控制中,如搬運、裝配、焊接、噴涂等.此外,借鑒人類直接套用經(jīng)驗的思路,懶惰學習被應用于機器人軌跡規(guī)劃與控制中,在許多復雜的問題中取得很好的控制效果.相比于以上兩種方法,強化學習是一種能夠更好的模擬人類與環(huán)境進行交互并學習的理論框架,被廣泛用于棋類博弈、任務決策、機器人的路徑規(guī)劃與控制等方面.
在深度神經(jīng)網(wǎng)絡出現(xiàn)之前,高維信息(如視覺)的特征提取往往需要復雜的人工設計,經(jīng)降維后再用于機器人控制.因此,早期的機器人學習控制系統(tǒng)通常被劃分為“感知—規(guī)劃—執(zhí)行”三個階段,學習大多體現(xiàn)在后端的規(guī)劃層和執(zhí)行層.近年來,隨著深度神經(jīng)網(wǎng)絡的崛起,系統(tǒng)具備了高維信息自動特征提取的能力,因此,一種被稱為“端到端(end-to-end)”的設計思想成為當前研究的熱點.端到端設計的核心是統(tǒng)一化,這種統(tǒng)一化一方面體現(xiàn)在結構上,把感知-規(guī)劃-執(zhí)行器的控制統(tǒng)一定義為狀態(tài)到動作的映射,進行整體學習與優(yōu)化;另一方面體現(xiàn)在信號層,系統(tǒng)所有的輸入、輸出都依托于同一框架,即深度神經(jīng)網(wǎng)絡,實現(xiàn)像素到動作的映射.端到端模擬了人類的控制模式,不進行“圖像—位姿—動作”的轉化,直接通過學習建立“圖像—動作”的映射.
在本節(jié)的后續(xù)部分中,針對機器人的學習控制,我們將首先對懶惰學習、強化學習等早期方法進行闡述;接著,結合應用范例,對引入深度神經(jīng)網(wǎng)絡的深度強化學習、元學習和模仿學習等方法進行討論.
所謂懶惰學習,又稱為機械式學習,基于實例的學習,即時學習或基于記憶的學習,是一種最簡單最原始的學習策略,主要通過簡單記憶和重現(xiàn)來實現(xiàn)學習.當學習系統(tǒng)解決完一個問題(或稱為實例)后,就把該實例于其解存儲起來構成知識庫.當遇到一個新的問題時,從知識庫中查詢相似的實例,然后根據(jù)知識庫中相似實例的解決方案來得到新問題的解決方案.由于整個過程僅僅是存儲(記憶)與查詢,并不包括對信息的進一步處理,因此稱為懶惰學習或機械式學習.此類方法主要包括最近鄰法和局部加權回歸(LWR)法,更復雜的還包括基于案例的推理法.由于該方法思想簡單,實現(xiàn)容易,并且在實例比較豐富時效果顯著,因此,大量的應用于各種學習和控制問題.20世紀90年代初期,該思想被卡內基梅隆機器人研究所的SCHAAL和ATKESON發(fā)展為一種局部線性回歸建模方法(LWPR)可以有效解決在線模型學習問題,比傳統(tǒng)的基于神經(jīng)網(wǎng)絡等全局建模方法具有更好的性能.在此領域,ATKESON等采用LWPR訓練機器人學習雜技演員挑竹竿(Juggling)的復雜動作[25].英國Aberystwyth大學的LAW等為了模擬嬰兒學習基本運動技能的過程,利用 LWPR在線學習機器人動力學模型,利用iCub機器人模擬了從雙目掃視、固定凝視目標、軀干控制到手眼協(xié)調進行接觸抓取等基本動作[26].
20世紀80年代,基于試錯方法、動態(tài)規(guī)劃和瞬時誤差方法形成了強化學習理論.1984年Sutton提出了基于Markov過程的強化學習.強化學習主要解決這樣的問題:一個能夠感知環(huán)境的自治agent怎樣通過學習選擇能達到其目標的最優(yōu)動作,即智能系統(tǒng)通過反復試錯,把環(huán)境提供的強化信號當作其執(zhí)行動作好壞的評價作為反饋從而得到最優(yōu)行為的學習過程.強化學習的機理較為符合人及生物的學習過程,不同于監(jiān)督學習,強化學習可使智能體在環(huán)境中自發(fā)學習,從而構成一個實時的學習控制系統(tǒng).特別是在智能機器人的應用中,一方面可以構成底層的控制基礎,另一方面還可以實現(xiàn)高層的行為學習如路徑規(guī)劃、復雜操作等.強化學習主要有瞬時差分法(TD Learning),Q學習算法等,多用于各種棋類游戲、路徑規(guī)劃、任務調度等離散狀態(tài)問題.
由于固有的維數(shù)災難,傳統(tǒng)的強化學習難以解決高維空間、連續(xù)系統(tǒng)控制問題.在90年代后期,隨著研究的深入,大量學者通過引入各種策略梯度算法,如Episode Natural Actor-Critic[27]、Episodic REINFORCE∥PI2∥PoWER[28-29]等,已經(jīng)使得強化學習能夠在高維、連續(xù)系統(tǒng)的機器人控制中成功應用.
深度強化學習是近兩年來深度學習領域迅猛發(fā)展起來的一個分支,目的是解決計算機從感知到?jīng)Q策控制的問題,從而實現(xiàn)通用人工智能.以Google DeepMind公司為首,基于深度強化學習的算法已經(jīng)在視頻、游戲、圍棋、機器人等領域取得了突破性進展.
深度強化學習將深度學習和強化學習結合起來,深度學習用于表達或歸納經(jīng)驗知識,而強化學習為深度學習提供學習的目標(數(shù)據(jù)),這使得深度強化學習具備構建出復雜智能體的潛力,使機器人能夠實現(xiàn)從感知到?jīng)Q策控制的端到端自學習,具有非常廣闊的應用前景.
Actor-Critic框架是目前深度強化學習的一種通用架構,能夠囊括很多DRL算法,如圖3所示.主要包括策略網(wǎng)絡(Actor)和評價網(wǎng)絡(Critic).如果把整個系統(tǒng)看作大腦,那么Actor是大腦的執(zhí)行機構,輸入外部的狀態(tài)S,然后輸出動作A.而Critic則可認為是大腦的價值觀,根據(jù)歷史信息及回饋r進行自我調整,然后影響整個Actor.這種Actor-Critic的方法非常類似于人類自身的行為方式.
適用于機器人學習控制的深度強化學習,主要分為價值學習(Value-learning)方法和策略梯度 (Policy gradient)方法.在解決實際問題時,一般綜合使用這兩種方法.
圖3 Actor-Critic框架原理圖Fig.3 Actor-Critic framework diagram
2.4.1 價值學習方法
基于價值的方法,近似估計、逼近價值函數(shù)V(s)或者動作價值函數(shù)Q(s,a),是一種近似動態(tài)規(guī)劃的方法.在傳統(tǒng)的Q-learning中,當狀態(tài)s和動作a的組合數(shù)量龐大時(例如,視頻游戲任務),Q函數(shù)的計算與存儲代價過大.DQN (Deep Q-Network)利用深度神經(jīng)網(wǎng)絡逼近Q函數(shù),成功應用于ATARI視頻游戲[30],以及著名的圍棋對弈AI系統(tǒng)Alpha Go[31].
DQN的核心思想在于,讓Q-learning中的更新具有類似監(jiān)督學習的平穩(wěn)性.關鍵實現(xiàn)包括兩部分,即經(jīng)驗重演(Experience Replay)和目標網(wǎng)絡(Target Network).經(jīng)驗重演使用批量的過去經(jīng)驗,替代在線的更新,增加了數(shù)據(jù)之間的獨立性,數(shù)據(jù)的分布更趨于平穩(wěn).在DQN中設定有兩組網(wǎng)絡,目標網(wǎng)絡和Q網(wǎng)絡,分別以θ-和θ參數(shù)化;前者用來檢索目標Q值,后者在訓練中實時優(yōu)化與更新;周期性地將θ-與θ同步,兩次同步之間,目標Q值是固定的,增加了學習的穩(wěn)定性.整體目標函數(shù)定義為目標Q值和Q網(wǎng)絡輸出之間的誤差平方期望,如下式所示:
Ui(θi)=
DQN方法的改進包括DDQN (Double DQN)、Dueling DQN等.由于DQN輸出默認為離散量,由于動作維數(shù)過大,因此很難直接應用于機器人等控制輸入為連續(xù)量的系統(tǒng)中.該方法的重要性在于它用到的兩項技術,即經(jīng)驗重演和目標網(wǎng)絡,加上以它們?yōu)榛鶞实母倪M拓展了諸多策略梯度方法.
2.4.2 策略梯度方法
區(qū)別于以價值學習為代表的動態(tài)規(guī)劃方法,策略梯度是一種基于直接對策略網(wǎng)絡優(yōu)化的方法.相比于價值學習,它的求解目標更加直接.
DDPG (deep deterministic policy gradient)[32]是一種無模型的、離線策略的、actor-critic方法.它學習確定性的策略,將DQN的性能與優(yōu)勢拓展到連續(xù)空間上.為了達到更好的探索效果,DDPG通過在原策略μθ(s)上疊加噪聲項N,構建了探索策略μ′(s):=μθ(s)+N.此外,DDPG在actor網(wǎng)絡和critic網(wǎng)絡上進行軟更新(conservative policy iteration),目標網(wǎng)絡的輸出被限定為慢變信號,區(qū)別于DQN中對于目標網(wǎng)絡的凍結.Actor網(wǎng)絡參數(shù)利用如下式所示的目標函數(shù)梯度進行更新:
VECERIK等[33]將DDPG和人工示教結合,在EDRIAD工業(yè)機械臂上,實現(xiàn)了插銷入洞任務.該工作對于損失函數(shù)的設計頗為精細,關鍵步驟包括:訓練了一個分類器用以計算任務獎勵、添加了正面和負面示教、優(yōu)化actor網(wǎng)絡時添加了行為克隆 (behaviour cloning) 損失,將標準的TD損失替換為分布式的critic損失等.
DDPG的主要缺點是學習過程受到學習速率的影響可能會不穩(wěn)定.為了解決此問題,引入了TRPO (Trust region policy optimization)[34]方法.為了增加訓練穩(wěn)定性,避免每次迭代參數(shù)更新過大,對步長添加了KL散度約束,并引入優(yōu)勢函數(shù)(advantage function)
其中,m為采樣軌跡數(shù).上式表明,目標函數(shù)的梯度可以由對數(shù)策略梯度和優(yōu)勢項表示.
具體地,問題描述為
s.t. εs,a~πθold[DKL(πθ(·|s)‖πθold(·|s))]≤δ
(1)
PPO (Proximal policy optimization)[36]方法對問題(1)的約束做了進一步簡化,將新舊策略比例項rθ強制限定在[1-ε,1+ε]區(qū)間內,其中ε是一個超參數(shù).具體地,目標函數(shù)變?yōu)?/p>
εs,a~πθold[min{rθ(a|s)Aθold(s,a),
clip(rθ(a|s),1-ε,1+ε)Aθold(s,a)}]
ANDRYCHOWICZ等[37]利用PPO算法,實現(xiàn)了多指靈巧手翻轉立方塊.系統(tǒng)由姿態(tài)估計網(wǎng)絡和策略網(wǎng)絡構成,前者利用三個視角下的RGB圖像,預測立方塊姿態(tài);后者利用預測姿態(tài)和靈巧手的關節(jié)測量信息,輸出關節(jié)控制電壓.由于系統(tǒng)需要處理的信息量巨大,該工作用到了分布式的訓練方法.盡管這項工作并未引入人工示教,但結果最終呈現(xiàn)出了諸多類人特性,如利用重力操控,以及多指協(xié)調等.
SQL (Soft Q learning)[38]是一種基于最大熵的方法,它利用Boltzmann分布這種基于能量的模型,表示隨機策略,相應的能量對應于Q函數(shù).這種表示相比于高斯分布,具有多模態(tài)的特征.訓練結果表明,該方法產(chǎn)生的模型探索更充分,探索到有用的子模式更多.進一步的研究[39]表明,獨立訓練得到的最大熵策略,可以通過疊加它們的Q函數(shù),得到更加接近最優(yōu)的整合策略,這種整合性質將有利于任務的遷移.HAARNOJA等[39]利用SQL,在Sawyer機器人上實現(xiàn)了堆樂高積木操作.針對定點到達任務,相比于DDPG和NAF(normalized advantage functions)[40]方法,SQL在訓練速度上具有明顯優(yōu)勢.此外,實驗結果驗證了SQL策略的可整合性:先獨立訓練機械臂躲避障礙和堆放積木,在兩組策略經(jīng)整合后,可以實現(xiàn)繞障礙堆積木操作.
至此,上文介紹的深度強化學習方法都是無模型的.基于模型的搜索方法,相比于無模型方法,具有采樣效率高的優(yōu)勢.GPS(guided policy search)[41]是這類方法的典型代表,它的核心思想是利用模型生成采樣,并以此引導學習.具體環(huán)節(jié)包括控制階段和監(jiān)督階段:控制階段利用最優(yōu)控制方法,生成好的軌跡;監(jiān)督階段利用這些軌跡進行監(jiān)督學習.在PR2雙臂協(xié)作機器人上,LEVINE等[41]最早使用GPS方法實現(xiàn)了圖像到動作的端到端訓練,完成了擰瓶蓋、柱上套環(huán)等任務.MONTGOMERY等[42]進一步提出 MDGPS (mirror descent guided policy search)方法,減弱了對于確定性初始狀態(tài)的要求,實驗結果表明,PR2機械臂可以從任意初始位置將積木移至目標點.
人類學習某種技能時,很少從零開始.我們會下意識地從已習得的類似技能中提取經(jīng)驗,而這些經(jīng)驗將加速我們對于新技能的學習過程.為了在機器學習系統(tǒng)上復現(xiàn)這種機制,研究者們提出了元學習(Meta-learning)這一概念.元學習也被稱為學習如何學習(learning to learn),是一門系統(tǒng)地觀察機器學習方法在多種學習任務上的性能差異,學習這些經(jīng)驗(元數(shù)據(jù))并快速適應新任務的科學[43].
根據(jù)元數(shù)據(jù)類型的不同,文獻[43]將元學習方法劃分為三類,即從模型評價學習、從任務屬性學習和從先驗模型學習.第三類方法與深度神經(jīng)網(wǎng)絡的聯(lián)系更加緊密.FINN等提出的MAML (Model-agnostic Meta-learning)[44]是這類方法的代表性工作.MAML的核心思想是:先在原任務集上學習好的參數(shù)初始化,面對不同的新任務,做相應的優(yōu)化更新.在小樣本圖片分類任務上,MAML及其衍生方法Reptile、PLATIPUS等的分類準確率排名前列.
結合模仿學習的MAML方法在機器人操作上具有應用前景.FINN等[45]在元更新環(huán)節(jié)引入了人工示教,在PR2機器人上實現(xiàn)了對未學習物體的放置、抓取操作.在這里,示教是由人遠程控制機械臂完成的,示教信息包括了視頻和機械臂的測量信號.在后續(xù)工作中,YU 等[46]實現(xiàn)了僅利用人手臂本身的動作視頻作為示教信息,在PR2機器人和Sawyer機械臂上,實現(xiàn)了推動、抓取-放置等操作.
在沒有任何先驗知識的情況下,采用強化學習處理復雜問題時由于存在較大的搜索空間,往往導致不可接受的學習次數(shù)和極大的運算量.因此,學者們開始考慮模仿動物和人類的方式進行學習.首先由某一問題領域的專家(或老師)給出示范,然后學習示范實例,并在此基礎上進一步根據(jù)自身條件或具體任務不斷優(yōu)化.這種學習途徑稱為模仿學習或演示學習.
(1)DMPs(dynamics movement primitives)
在機器人領域常用的一種模仿學習是基于2002年由IJSPEERT提出的稱為 DMPs的方法[47].DMPs本質上是一種表示運動軌跡的參數(shù)化方法,可以通過調節(jié)參數(shù)來擬合任意形狀的軌跡,因此,首先利用DMPs直接擬合演示示例軌跡,然后在此基礎上以調節(jié)參數(shù)作為優(yōu)化對象,利用強化學習的策略優(yōu)化方法,如PI2,PoWER等根據(jù)實際任務進一步優(yōu)化.利用上述學習方法,德國Darmstadt技術大學的J.Peters等采用模仿學習的方法,訓練機械臂完成了一種被稱為ball-in-cup的游戲[48],即把杯子和一個小球用細繩連接,機械臂的末端與杯子固定,通過機械臂的運動帶動繩子和球一起運動,并最終使球落入杯中,在此基礎上通過進一步強化學習做到了任意條件下的成功操作.
(2)逆強化學習(inverse reinforcement learning)
強化學習是在確定的狀態(tài)空間下,根據(jù)設定的平均函數(shù)通過環(huán)境反饋從確定的動作集合中得到一組可使評價函數(shù)取最優(yōu)值的動作序列的過程.因此,評價函數(shù)起著非常關鍵的作用,然而,對于一些復雜的問題難以給出確定的評價函數(shù),如教練通過演示教學員打球,司機通過實際操作教學員如何開車.對于此類復雜的問題,人類通過較少的演示實例即可學習其中的機理,然后通過自身大量的反復訓練來不斷提高應用這些技術的水平.按照這個思路,2000年斯坦福大學的吳恩達(Andrew Ng)提出了基于逆優(yōu)化學習的評價函數(shù)學習方法.基本思路是首先從問題中提取一系列關鍵特征,把評價函數(shù)表示為特征的線性回歸函數(shù),以專家給出的若干演示示例作為最優(yōu)解,利用逆優(yōu)化學習方法不斷優(yōu)化評價函數(shù)的未知參數(shù).在求取未知參數(shù)后,即可獲得評價函數(shù).然后利用此評價函數(shù)在類似的問題中進行求解.由于評價函數(shù)和動作空間與專家一致,因此,可以認為學習者已經(jīng)具備了專家水平.逆強化學習在直升機特技飛行自動控制[49]和四足機器人自主規(guī)劃[50]等很多項目中獲得成功應用.
(3)GAIL(generative adversarial imitation learning)
GAIL 是逆強化學習與深度神經(jīng)網(wǎng)絡相結合的最新成果,最初由JONATHAN 等[51]于2016年提出,主要用于解決如何從專家示例中學習reward函數(shù)并應用于深度強化學習的問題.整個系統(tǒng)框架如圖4所示.
圖4 GAIL結構圖Fig.4 GAIL diagram
在Actor-Critic框架的基礎上增加了判決網(wǎng)絡,用于生成一個介于0和1之間的評價信號r(reward).判決網(wǎng)絡可以看作是生成對抗網(wǎng)絡(GAN)中的判別網(wǎng)絡(D),一方面接受專家數(shù)據(jù),另一方面接受學員數(shù)據(jù)(當前系統(tǒng)的輸入輸出),用于判別學員數(shù)據(jù)與專家數(shù)據(jù)的相似度(差異越大輸出趨向于0,差異越小輸出趨向于1).因此,整個系統(tǒng)的訓練目標是在給定某專家行為的基礎上,通過訓練策略網(wǎng)絡與判央網(wǎng)絡,使得當前策略網(wǎng)絡的輸出與專家行為近似.GAIL借助GAN把深度強化學習很好的引入逆強化學習框架中,在訓練自主行走、機器人操作、自動駕駛等問題上得到很好的應用.
為了探索人工智能在在軌服務操作中的應用,我們以深度強化學習為主要工具,開發(fā)了一個具備自主學習能力的在軌燃料補加機器人地面試驗系統(tǒng),以解決非結構化環(huán)境自主感知和在各種不確定情況下的自主操作問題.
在空間在軌維修維護領域,推進劑在軌補給技術處于核心地位,是帶動其他在軌服務技術的先導和基礎.衛(wèi)星推進劑在軌補給是指將推進劑通過特定裝備從服務衛(wèi)星傳輸至目標衛(wèi)星的過程,它是延長衛(wèi)星有效工作壽命、提高衛(wèi)星經(jīng)濟效益的主要技術手段.未來高價值衛(wèi)星應配置標準化的推進劑補加接口可接受服務航天器定期的推進劑補給.服務航天器需要具備能自主、快速補加、雙向輸送、精確控制功能,可對一定軌道范圍內衛(wèi)星實現(xiàn)“燃料快充”.燃料補加裝置主要由主動端和被動端及其附屬系統(tǒng)組成.自主補加系統(tǒng)的任務目標是由機械臂抓取補加系統(tǒng)的主動端,自主識別安裝于模擬衛(wèi)星端面的被動端,并完成“對接——插入——鎖緊——加注——撤出”等整套補加動作.整個過程涉及對非結構化環(huán)境的智能感知、路徑自主規(guī)劃和柔順力觸控制等復雜操作.整個系統(tǒng)主要由如下幾個部分組成.
(1)物理試驗系統(tǒng)
物理試驗系統(tǒng)主要由一個UR10工業(yè)機械臂(模擬服務星),燃料補加系統(tǒng)(包括主動端和被動端)、模擬衛(wèi)星端面(模擬受體星)和智能算法服務器組成,如圖5所示.機械臂操作系統(tǒng)配置單目手眼相機和6維力傳感器.
圖5 物理試驗系統(tǒng)(左)與虛擬學習訓練系統(tǒng)(右)Fig.5 The physical experimental system(left) and the virtual learning & training system(right)
(2)虛擬學習訓練系統(tǒng)
采用MUJOCO軟件搭建了燃料加注數(shù)學模擬學習訓練系統(tǒng),為機器人自我訓練提供訓練環(huán)境,具體如上圖所示,包括:UR10機械臂(配置單目相機和力傳感器)、模擬衛(wèi)星端面(對接環(huán)、490 N發(fā)動機、10 N發(fā)動機和加注端口、天線等).
系統(tǒng)的整體結構可用圖6表示.
圖6 燃料補加系統(tǒng)結構框圖Fig.6 The refueling system diagram
(3)基于目標檢測與識別的智能感知
本項目采用基于深度學習的Mask-RCNN網(wǎng)絡實現(xiàn)對興趣目標的自主識別與語義分割.目標識別與語義分割是指從復雜的環(huán)境中區(qū)分出目標圖像與背景圖像,并與背景分割,本質上是對每個像素自動識別并標注,從而實現(xiàn)目標在整個視覺場景中的精確定位.通過采集樣本圖像對網(wǎng)絡進行監(jiān)督訓練,最終實現(xiàn)了對模擬衛(wèi)星端面上主要部件(對接環(huán)、490 N發(fā)動機、10 N發(fā)動機和加注端口)的全方位準確分割,精度達到95%以上,如圖7所示:
圖7 語義分割效果Fig.7 The effect graphs of semantic segmentation
(4)基于深度強化學習的自主規(guī)劃
本項目采用深度強化學習的標準框架(圖3)研究在軌燃料補加的自主規(guī)劃問題.首先在虛擬學習訓練系統(tǒng)中構建幾十個機器人進行反復試錯訓練,使策略網(wǎng)絡建立了由單目視覺圖像到機械臂運動軌跡的直接映射.然后把訓練好的策略網(wǎng)絡遷移到物理試驗系統(tǒng)中,使機械臂具備端到端的視覺伺服能力.最終末端位置達到±5mm,角度±5°的控制精度,滿足插入條件,實現(xiàn)柔順插入.
本項目利用深度強化學習,成功構建了一套學習訓練系統(tǒng),使機器人從零開始,通過自主訓練具備了自主感知和智能規(guī)劃能力,最終實現(xiàn)了類人的端到端燃料補加全自主操作.
圖8 從虛擬學習訓練環(huán)境訓練(左)到物理環(huán)境部署(右)Fig.8 The deployment of from the virtual learning & training system(left) to the physical experimental system(right)
考慮到天地環(huán)境差異,將基于學習的機器人操作技術運用到空間操作這一領域面臨著以下幾個方面的問題:
(1)小樣本數(shù)據(jù)問題
深度神經(jīng)網(wǎng)絡對數(shù)據(jù)的數(shù)量、質量要求很高,然而,空間操作任務數(shù)量少、天地數(shù)據(jù)傳輸成本大,導致真實的數(shù)據(jù)量(如真實場景圖片)非常有限,且地面很難模擬出真實的太空環(huán)境,因此,如何在小樣本條件下訓練高質量的感知和操作策略網(wǎng)絡是一個挑戰(zhàn).
(2)魯棒性問題
魯棒性問題主要體現(xiàn)在感知和控制兩個方面.在感知層次,需要解決同一類樣本不同相對位姿下的成像、帶遮擋的成像、不同光照條件下的成像等問題.由于小樣本限制,會導致感知網(wǎng)絡魯棒性較差.在控制層次,要提高系統(tǒng)的魯棒性,需要為機器人提供各種可能的訓練條件,由于操作場景限制,這些條件不易滿足.
(3)測量信息的精度問題
在空間操作任務中,特別是那些復雜、精細的操作,往往對操作精度有極高的要求,例如在燃料加注時,加注槍與加注端的精準對接是成功實現(xiàn)燃料的安全加注的保障,而高精度操作在一定程度上也依賴于精確的測量,對于非結構化場景,需要研究融合視覺、觸覺等多種信息的高精度測量問題.
(4)遷移學習問題
遷移學習是學習控制方法的一個核心問題,特別對于深度強化學習來說,主要包括兩個方面:一是由虛擬學習訓練環(huán)境到物理環(huán)境的遷移,二是不同任務場景的遷移.由于空間操作環(huán)境的限制,機器人需要在虛擬仿真環(huán)境下進行大量訓練,當把訓練結果應用到真實場景時,由于存在視覺、觸覺、以及機器人動力學等各種差異,精度會下降很多甚至導致任務失敗.其次,如何把一個訓練場景下學會的操作策略推廣應用到其他場景下相同的任務中,也是考驗系統(tǒng)學習能力的一個關鍵.
(5)快速學習問題
利用強化學習或深度強化學習訓練機器人進行操作的關鍵是回報函數(shù)(reward函數(shù))設計問題,Reward函數(shù)指導著訓練的方向,還與算法收斂性和收斂速度息息相關,設計的好壞直接影響到學習的快慢甚至成敗.實踐證明對于一些獎懲結果反饋滯后(稱為稀疏reward函數(shù))的問題訓練起來非常困難,需要耗費大量的時間,甚至無法收斂.因此,研究獎勵函數(shù)的設計方法或是其他的替代方法是保證基于學習的控制方法在軌服務操作成功的關鍵.
除了上面提到的問題之外,在空間操作中還存在有限的載荷空間對計算能力限制的問題,能否攻克這個難題對人工智能能否上天起到了決定性的作用.
針對空間操作中所面臨的技術挑戰(zhàn),提出以下幾個具體的研究方向.
針對小樣本問題,研究同分布樣本生成技術及不同場景間的自適應學習問題;針對魯棒性問題,在感知層面研究基于上下文信息的高效神經(jīng)網(wǎng)絡,研究將常識推理、功能推理、關系推理及因果推理等知識與深度學習相結合的新方法,研究目標跟蹤方法,在控制層面,研究遷移學習的理論和方法,解決場景差異問題;針對操作精度問題,研究基于深度學習的目標位姿估計、3D場景估計以及多感知數(shù)據(jù)融合方法;針對遷移學習問題,需要研究新的機制和方法提高學習系統(tǒng)的泛化能力;針對快速學習問題,研究模仿學習、元學習等高效的學習方法;在計算能力的改善方面:可采用網(wǎng)絡修剪來簡化復雜的網(wǎng)絡結構;在計算能力方面,考慮研究FPGA來替代GPU的方案和分布式計算以實現(xiàn)高性能計算.
此外,未來的全自主在軌服務操作有兩個發(fā)展方向:一是,多模人機共融協(xié)作,即航天員與空間機械臂配合,各取所長,共同高效的完成操作任務;二是,多智能體協(xié)同.因此,在研究單體機器人學習操作技術的同時,還應重點研究人機混合智能、多智能體自學習協(xié)同操作等方向.
致謝:
本文工作得到了中國空間技術研究院張洪太研究員、李明研究員、北京控制工程研究所袁利研究員、黃獻龍研究員、劉磊研究員等的指導和大力支持,參與本項目研究的還有北京控制工程研究所唐寧高工、徐栓鋒高工、胡勇高工、李文高工、姜甜甜高工等,在此一并表示衷心感謝!