面向空間應(yīng)用的視覺位姿估計技術(shù)綜述

2022-10-28 08:55:10劉延芳齊乃明佘佳宇

光學(xué)精密工程 2022年20期

周芮，劉延芳，齊乃明，佘佳宇

（哈爾濱工業(yè)大學(xué) 航天學(xué)院，黑龍江哈爾濱 150090）

1 引言

隨著世界各國對太空資源探索的深入，航天任務(wù)范圍不斷拓展，空間任務(wù)應(yīng)用逐漸多元化，不再局限于通信、遙感、導(dǎo)航等傳統(tǒng)領(lǐng)域，而是面向在軌服務(wù)、編隊飛行、深空探測等新型任務(wù)，這些空間任務(wù)涉及非合作目標(biāo)檢測識別、繞飛接近、交會對接等過程。傳統(tǒng)星地回路控制方法的地面測控站由于定姿定軌精度和通訊響應(yīng)速度等的影響而不利于航天器自主任務(wù)完成。為保障新型空間任務(wù)的順利完成，急需開展航天器對空間目標(biāo)自主檢測跟蹤、軌跡規(guī)劃、自主控制等方法的研究，目標(biāo)位姿估計技術(shù)是其中的重點技術(shù)之一。

目標(biāo)位姿估計技術(shù)是非接觸測量技術(shù)領(lǐng)域的重點研究方向［1］，在空間操作［2-5］、自主導(dǎo)航［6-12］、工業(yè)檢測［13-15］、輔助醫(yī)療［16-17］等領(lǐng)域發(fā)揮著重要作用。精確位姿測量是完成空間任務(wù)諸如交會對接［18-19］、在軌裝配［20-22］、在軌維修［23］等在軌服務(wù)任務(wù)［24-26］的關(guān)鍵環(huán)節(jié)。

空間任務(wù)［27-28］中常用的傳感器技術(shù)有微波雷達技術(shù)［29］、激光雷達技術(shù)［30］、視覺測量技術(shù)［31］。微波雷達和激光雷達是目前常用來測量空間物體之間相對運動狀態(tài)的有源主動式傳感器，但由于功耗高、體積大和造價昂貴等因素，使得它們在實際工程應(yīng)用中受到了很大的限制，難以應(yīng)用在微小衛(wèi)星平臺上。視覺傳感器因具有體積小、質(zhì)量輕、功耗低、傳感信息豐富等特點，使得基于視覺的測量技術(shù)在近距離高精度空間目標(biāo)位姿估計任務(wù)中具有較大潛在優(yōu)勢［32］。特別是，隨著處理器算力的大幅提高、圖像處理技術(shù)的不斷發(fā)展、深度學(xué)習(xí)算法的日新月異，航天器在軌裝配、故障或失效衛(wèi)星維修、太空垃圾清理等空間任務(wù)對空間目標(biāo)位姿測量提出迫切需求，基于計算機視覺的空間目標(biāo)位姿估計技術(shù)逐步成為研究熱點［33］。

本文主要針對面向空間任務(wù)的視覺位姿估計技術(shù)進行綜述。首先，歸納總結(jié)在空間任務(wù)中視覺位姿估計技術(shù)及應(yīng)用，然后對視覺位姿估計技術(shù)進行概述，以深度學(xué)習(xí)算法作為切入點，系統(tǒng)地歸納了各種目標(biāo)識別及位姿估計算法；最后，針對空間任務(wù)的特殊性，在任務(wù)需求和研究現(xiàn)狀分析的基礎(chǔ)上，對視覺位姿估計技術(shù)的發(fā)展趨勢和應(yīng)用進行展望。

2 空間任務(wù)中視覺系統(tǒng)的應(yīng)用情況

隨著空間對抗技術(shù)與裝備的迅猛發(fā)展，構(gòu)建空間態(tài)勢感知系統(tǒng)已成為關(guān)系國家安全的重大戰(zhàn)略問題。視覺系統(tǒng)在自動交會對接、主動碎片清除、在軌裝配服務(wù)等空間任務(wù)中成為不可或缺的關(guān)鍵技術(shù)。

空間目標(biāo)近距離位姿估計任務(wù)中一般涉及目標(biāo)飛行器和追蹤飛行器，目標(biāo)飛行器按照三維模型是否已知或是否預(yù)先安裝合作靶標(biāo)分為合作目標(biāo)［34］和非合作目標(biāo)［35］。針對合作目標(biāo)的近距離視覺位姿估計技術(shù)較為成熟［36］，已經(jīng)在軌應(yīng)用。但對于空間垃圾、失效衛(wèi)星等非合作目標(biāo)，因其無法獲取先驗信息，也沒有預(yù)先布設(shè)的合作靶標(biāo)，其視覺位姿估計面臨著許多技術(shù)挑戰(zhàn)，仍有待深入研究［37］。穩(wěn)定可靠的非合作目標(biāo)的位姿估計對未來空間任務(wù)有重大意義［38］。視覺系統(tǒng)在空間任務(wù)中的發(fā)展如表1和圖1所示。

圖1 視覺空間任務(wù)發(fā)展Fig.1 Vision-based space mission development

表1 視覺技術(shù)在空間任務(wù)中的應(yīng)用Tab.1 Applications based on visual technology in space missions

續(xù)表1視覺技術(shù)在空間任務(wù)中的應(yīng)用Tab.1 Applications based on visual technology in space missions

2.1 空間遙操作

空間遙操作是最早應(yīng)用視覺系統(tǒng)的空間任務(wù)，宇航員通過視覺遠程操作完成空間任務(wù)，能避免出艙操作的風(fēng)險，有明顯優(yōu)勢。

1981年，加拿大研制出第一個航天飛機機械臂系統(tǒng)SRMS（Space Shuttle Remote Manipulator System），其具備遙操作功能，用來部署和回收衛(wèi)星、勘探及抓獲目標(biāo)，在國際空間站裝配任務(wù)中起到關(guān)鍵作用［39］。俄羅斯研制的遙操作交會對接系統(tǒng)TORU（Teleoperatornity Maneuvering Vehicle）成功應(yīng)用于“和平號”空間站與國際空間站的交會對接任務(wù)；1994年，歐空局應(yīng)用TORU遙操作系統(tǒng)實現(xiàn)了無人貨運飛船ATV與國際空間站的交會對接［40］。此外，美國機器人燃料加注任務(wù)RRM（Robotic Refueling Mission）使用機械臂在兩個相機監(jiān)控下為服役衛(wèi)星加注推進劑燃料［41］。2013年，我國“玉兔號”巡視器也采用了雙目相機進行遙操作［42］。

2.2 合作目標(biāo)位姿估計

空間遙操作方式受通信速率的影響，圖像質(zhì)量較差，通訊延遲較大，不能滿足所有任務(wù)需求。因此，空間任務(wù)需要航天器自主完成。合作目標(biāo)位姿估計技術(shù)能夠根據(jù)已知信息自主完成位姿估計，得到測量信息。

1997年，日本川崎重工業(yè)公司研發(fā)出鄰近敏感器用于ETS-VII上，采用100個紅色二極管作為靶標(biāo)，由CCD相機獲取圖像，得到相對位姿［43］。

1999年，美國開展軌道快車OE計劃（Orbital Express），采用NASA研發(fā) 的VGS（Video Guidance Sensor）系統(tǒng)，對合作目標(biāo)進行抓捕，過程中應(yīng)用合作目標(biāo)位姿估計技術(shù)。VGS系統(tǒng)經(jīng)過多次升級，2005年，AVGS（Advanced Video Guidance Sensor）系統(tǒng)應(yīng)用于DART太空船計劃［44］。我國也開展了相關(guān)研究，2011年，利用合作靶標(biāo)完成天宮一號和神舟八號交會對接任務(wù)［45］。

2.3 非合作目標(biāo)位姿估計

隨著航天技術(shù)的發(fā)展，空間任務(wù)不斷升級，對空間碎片清理、失效衛(wèi)星回收等非合作目標(biāo)任務(wù)有更多的需求，非合作目標(biāo)位姿估計尤為必要，越來越多的非合作目標(biāo)位姿估計計劃被提出。

美國DAPRA資助的前端機器人使能近期演示驗證計劃FREND（Fronted Robotics Enabling Near-term Demonstration）利用通用軌道修正器SUMO（Spacecraft for the Universal Modification of Orbits）平臺，采用基于多目視覺的位姿估計方案，當(dāng)航天器接近至100米處，選擇最優(yōu)角度的三個相機對目標(biāo)成像，估計位姿［46］。2011年，在FREND計劃的基礎(chǔ)上，美國提出了鳳凰計劃（PHOENIX），該計劃主要實現(xiàn)廢舊衛(wèi)星的維修及回收［47］。2002年，歐空局針對故障航天器及空間碎片等非合作目標(biāo)，開展地球靜止軌道清理機器人ROGER計劃（Robotic Geostationary Orbit Restorer），采用變焦相機對非合作目標(biāo)進行監(jiān)視和抓捕，該項目于2003年終止［48］。2005年，德國開展空間系統(tǒng)演示驗證技術(shù)衛(wèi)星計劃TECSAS（Technology Satellite for Demonstration and Verification of Space Systems），該計劃于2006年終止［49］。在此基礎(chǔ)上開展德國在軌服務(wù)DEOS（Deutsche Orbitale Servicing）項目，采用光學(xué)相機和激光雷達進行交會對接和重返大氣層等近地軌道技術(shù)演示任務(wù)，利用歐洲接近操作模擬器

EPOS（European Proximity Operations Simulator）完成半物理仿真試驗。此外，德國宇航局開發(fā)的靜止軌道延壽系統(tǒng)（CX-OLEV）采用多相機組合的測量方式，使兩個遠場相機測量距離由2 km到100 m，兩個中場相機測量距離由100 m到5 m，2007年，應(yīng)用SMART-1衛(wèi)星平臺進行驗證［50］。2009年，日本宇航探索局（JAXA）開展的空間碎片清理者項目SDMR（Space Debris Micro Remover）采用雙目立體視覺系統(tǒng)，對非合作目標(biāo)進行位姿估計，完成對目標(biāo)的繞飛、接近及抓?。?1］。2016年，美國DARPA提出地球同步軌道衛(wèi)星機器人服務(wù)（RSGS），2021年進行試驗驗證，采用立體視覺系統(tǒng)對非合作目標(biāo)進行機械排故、輔助變軌等。2012年，歐洲航天局啟動e.Deorbit任務(wù)，于2021年進行相關(guān)試驗驗證，目的為清除800 km～1 000 km太陽同步軌道和極軌道上的大質(zhì)量非合作目標(biāo)［53］。此外，我國火星探測器“天問一號”及著陸器“祝融號”均搭載不同的相機載荷，用于導(dǎo)航及火星表面情況探測［52］。

綜上所述，空間任務(wù)中的近距離目標(biāo)位姿估計大多采用視覺測量系統(tǒng)。目前，針對合作目標(biāo)位姿估計較為成熟，對非合作目標(biāo)的位姿估計仍存在許多技術(shù)挑戰(zhàn)。

3 視覺位姿估計方法

如圖2所示，視覺位姿估計方法可分為傳統(tǒng)測量方法［54］和深度學(xué)習(xí)方法［55］。傳統(tǒng)測量方法包含目標(biāo)識別和位姿估計兩方面，其中目標(biāo)識別分為基于特征匹配［56］和模板匹配方法［57］，位姿估計分為基于點特征、線特征和邊緣特征方法［58］。深度學(xué)習(xí)方法［59］分為基于目標(biāo)識別網(wǎng)絡(luò)的測量方法［60］和基于位姿估計網(wǎng)絡(luò)的測量方法［61-64］。前者先采用目標(biāo)識別網(wǎng)絡(luò)得到關(guān)鍵點位置，再采用傳統(tǒng)位姿解算方式得到位姿估計信息。目標(biāo)識別網(wǎng)絡(luò)又可分為一階回歸網(wǎng)絡(luò)［65］和二階區(qū)域候選網(wǎng)絡(luò)［66］。而基于位姿估計網(wǎng)絡(luò)的測量方法以圖像為輸入，直接由網(wǎng)絡(luò)輸出位姿估計結(jié)果。位姿估計網(wǎng)絡(luò)按結(jié)構(gòu)可以分為整體回歸［67］和分類投票［68］。

圖2 視覺位姿估計方法分類Fig.2 Classification of visual pose estimation methods

3.1 傳統(tǒng)視覺位姿估計方法

傳統(tǒng)視覺位姿估計技術(shù)始于上世紀(jì)八十年代，目前在實際工程任務(wù)中已得到大量應(yīng)用，其基本估計的算法流程如圖3所示，包括圖像預(yù)處理、目標(biāo)識別和位姿解算等環(huán)節(jié)。

圖3 傳統(tǒng)視覺測量方法流程圖Fig.3 Flowchart of traditional pose estimation method

傳統(tǒng)視覺位姿估計方法需要依據(jù)先驗知識設(shè)計特征，特定的場景下能夠達到較高的檢測速度和精度。但是，由于對先驗知識的特別依賴，導(dǎo)致其自適應(yīng)性及泛化性較差。

傳統(tǒng)位姿估計方法比較成熟，文獻［54］進行了較為詳細的論述。但傳統(tǒng)視覺方法需要手工設(shè)計特征，在背景復(fù)雜、高自主性的空間任務(wù)應(yīng)用中存在自適應(yīng)性差、魯棒性低的問題。隨著計算機視覺技術(shù)及人工智能的發(fā)展，基于深度學(xué)習(xí)的視覺位姿估計方法研究發(fā)展迅猛。

3.2 深度學(xué)習(xí)視覺位姿估計方法

基于學(xué)習(xí)方式的智能算法能夠自適應(yīng)地提取目標(biāo)特征，有效地提高檢測精度及泛化性，成為目前的研究熱點?；谏疃葘W(xué)習(xí)的視覺位姿估計方法主要可分為基于目標(biāo)識別網(wǎng)絡(luò)和基于位姿估計網(wǎng)絡(luò)兩類位姿估計算法，如圖4所示。

圖4 深度學(xué)習(xí)視覺位姿估計方法分類Fig.4 Classification of visual pose estimation methods based on deep learning

基于目標(biāo)識別網(wǎng)絡(luò)的位姿估計算法先采用目標(biāo)識別網(wǎng)絡(luò)進行特征提取，得到關(guān)鍵點位置信息，再采用傳統(tǒng)方式進行位姿估計。基于位姿估計網(wǎng)絡(luò)的位姿估計算法直接由圖像得到六自由度位姿估計結(jié)果，下面對目標(biāo)識別網(wǎng)絡(luò)和位姿估計網(wǎng)絡(luò)展開論述。

3.2.1 目標(biāo)識別網(wǎng)絡(luò)

目標(biāo)識別網(wǎng)絡(luò)大多利用卷積神經(jīng)網(wǎng)絡(luò)進行特征提取、特征匹配、目標(biāo)識別及關(guān)鍵點檢測，主要可分為基于回歸的單階目標(biāo)識別網(wǎng)絡(luò)和基于區(qū)域候選的兩階目標(biāo)識別網(wǎng)絡(luò)。單階網(wǎng)絡(luò)通過卷積層、特征圖、預(yù)測層直接輸出目標(biāo)識別結(jié)果；兩階網(wǎng)絡(luò)在單階網(wǎng)絡(luò)的基礎(chǔ)上增加區(qū)域候選網(wǎng)絡(luò)，先篩選感興趣區(qū)域，后進行目標(biāo)識別，目標(biāo)識別網(wǎng)絡(luò)結(jié)構(gòu)對比圖如圖5所示。圖5中陰影部分為單階網(wǎng)絡(luò)，包含區(qū)域候選網(wǎng)絡(luò)在內(nèi)的總體網(wǎng)絡(luò)為兩階網(wǎng)絡(luò)。目標(biāo)識別網(wǎng)絡(luò)對比見表2。

表2 目標(biāo)識別網(wǎng)絡(luò)對比Tab.2 Comparison of target recognition networks

圖5 目標(biāo)識別網(wǎng)絡(luò)結(jié)構(gòu)對比圖Fig.5 Comparison of target recognition network structure

3.2.1.1 回歸網(wǎng)絡(luò)

基于回歸的單階目標(biāo)識別網(wǎng)絡(luò)代表有YOLO（You Only Look Once）［69］和SSD（Single Shot Multi-box Detector）［70］等。

YOLO網(wǎng)絡(luò)是2015年Redmond首次提出的基于GoogleNet的分類回歸網(wǎng)絡(luò)，計算速度快，能夠應(yīng)用在實時任務(wù)中。SSD網(wǎng)絡(luò)同年被提出，其檢測精度和計算速度均優(yōu)于YOLO。SSD的相關(guān) 改進算法有DSSD［71］和RSSD［72］等。而后，YOLOv2［73］、YOLOv3［74］、YOLOv4［75］相繼問世，檢測精度和計算速度逐步提升。YOLOv3，YOLOv4因計算量小、計算速度快，被應(yīng)用在多種領(lǐng)域。2020年6月，Glenn J開源YOLOv5算法，其準(zhǔn)確度與YOLOv4相當(dāng)，但更加輕量級、速度更快。

3.2.1.2區(qū)域候選網(wǎng)絡(luò)

基于區(qū)域候選的兩階目標(biāo)識別網(wǎng)絡(luò)代表有R-CNN［76］、Fast R-CNN［77］、Faster R-CNN［78］、Mask R-CNN［79］、Mask Scoring R-CNN［80］等。

2014年提出的R-CNN是區(qū)域候選網(wǎng)絡(luò)的開山之作，F(xiàn)ast R-CNN在其基礎(chǔ)上將整張圖像送入卷積網(wǎng)絡(luò)計算，大大提高計算效率。Faster RCNN提出目標(biāo)有效定位方法，按區(qū)域在特征圖上進行索引，降低卷積計算消耗的時間。相較于Faster R-CNN，Mask R-CNN在速度上沒有提升，但通過改進區(qū)域池化部分，目標(biāo)檢測精度得到提升。Mask Scoring R-CNN于2019年被提出，在Mask R-CNN的基礎(chǔ)上增加了掩碼區(qū)域打分機制，精度進一步提升。

3.2.2 位姿估計網(wǎng)絡(luò)

位姿估計網(wǎng)絡(luò)直接通過輸入圖像進行位姿估計，可分為整體回歸和分類投票網(wǎng)絡(luò)，詳見表3。

表3 位姿估計網(wǎng)絡(luò)對比Tab.3 Comparison of pose estimation networks

3.2.2.1 整體回歸網(wǎng)絡(luò)

整體回歸網(wǎng)絡(luò)通常采用端對端網(wǎng)絡(luò)，以圖像作為輸入，直接輸出目標(biāo)位姿結(jié)果。典型的整體回歸法網(wǎng)絡(luò)結(jié)構(gòu)有PoseCNN［81］、BB8［82］、YOLO-6D［83］、SSD-6D［84］、Deep6DPose［85］等。

PoseCNN采用卷積網(wǎng)絡(luò)實現(xiàn)平移和旋轉(zhuǎn)解耦估計。該網(wǎng)絡(luò)通過圖像定位物體中心并預(yù)測其與攝像機的距離來估計物體的三維平移向量，再采用回歸方式估計物體的三維旋轉(zhuǎn)向量。該網(wǎng)絡(luò)包含13個卷積層和4個池化層，同時提取不同分辨率特征圖，并輸出高維特征圖，利用高維特征輸出語義標(biāo)簽，并將高維語義標(biāo)簽嵌入低維特征，與中心點建立聯(lián)系，輸出位姿估計結(jié)果。

BB8直接檢測目標(biāo)對象，再通過對象邊界框角點2D投影來預(yù)測3D姿態(tài)。BB8以單幀RGB圖像為輸入，采用卷積網(wǎng)絡(luò)完成圖像定位、分割、分類以及優(yōu)化估計，利用3D邊界盒8個頂點的2D投影結(jié)合N點透視法PnP算法來預(yù)測目標(biāo)3D姿態(tài)，并通過限制訓(xùn)練圖像的旋轉(zhuǎn)范圍解決各類旋轉(zhuǎn)對稱的姿態(tài)估計不確定問題。該網(wǎng)絡(luò)可同時針對多個目標(biāo)對象訓(xùn)練。

YOLO-6D采用YOLOv2網(wǎng)絡(luò)結(jié)構(gòu)，通過9個控制點參數(shù)化目標(biāo)的3D模型，相比BB8網(wǎng)絡(luò)增加了形心點，在投影預(yù)測2D坐標(biāo)點過程中優(yōu)先考慮形心點，再改進8個角點位置，加快運算速度，而后采用PnP方法估計六自由度位姿結(jié)果。YOLO-6D運行時間與目標(biāo)數(shù)量關(guān)聯(lián)不大，較為穩(wěn)定且不考慮微調(diào)環(huán)節(jié)，速度加快。

SSD-6D將SSD網(wǎng)絡(luò)用于位姿估計任務(wù)，采用離散化視圖而非直接回歸預(yù)測姿態(tài)，將姿態(tài)估計問題轉(zhuǎn)化為分類問題，加快了估計速度。SSD-6D基礎(chǔ)網(wǎng)絡(luò)采用InceptionV4，經(jīng)過不同尺寸模塊產(chǎn)生6個特征圖；將特征圖分別與預(yù)測卷積核卷積，得到不同尺寸和形狀的預(yù)測邊界框；最后給出離散視圖上的得分并進行分類，得到位姿結(jié)果。

Deep6DPose是一種端對端的多任務(wù)網(wǎng)絡(luò)，能夠進行目標(biāo)檢測、實例分割、以及位姿估計。在輸入RGB圖像后，首先采用深層卷積網(wǎng)絡(luò)進行圖像特征提取；再利用附加區(qū)域建議網(wǎng)絡(luò)輸出感興趣區(qū)域；最后，針對感興趣區(qū)域分別完成目標(biāo)檢測、實例分割和位姿估計任務(wù)。

3.2.2.2 分類投票法網(wǎng)絡(luò)

分類投票法可分為兩個階段，先對輸入圖像進行區(qū)域預(yù)選，然后根據(jù)預(yù)選區(qū)域估計目標(biāo)姿態(tài)。典型的分類投票法網(wǎng)絡(luò)有MCN［86］、Cull-Net［87］、DenseFusion［88］、PVNet［89］、PVN3D［90］等。

MCN是基于投票方法的多視圖融合網(wǎng)絡(luò)，采用單個姿態(tài)預(yù)測分支，分支可由多類共享，同時進行多類訓(xùn)練。此外，該網(wǎng)絡(luò)將類別圖與卷積層拼接，嵌入對象類別標(biāo)簽，并利用物體掩膜進行進一步檢測。MCN為大規(guī)模對象類和無約束的混亂背景提供可拓展的位姿估計學(xué)習(xí)網(wǎng)絡(luò)，減少單視圖的模糊性。

CullNet利用置信度評分對位姿估計結(jié)果進行篩選，剔除假陽性結(jié)果，選擇最優(yōu)位姿估計結(jié)果。該網(wǎng)絡(luò)分兩個階段操作：（1）提取階段：基于YOLOv3輸出3個不同比例的關(guān)鍵點提取結(jié)果；（2）篩選階段：將提取階段得到k組2D關(guān)鍵點經(jīng)E-PnP算法得到k個位姿估計結(jié)果同裁剪后緊密匹配的原始圖像和姿態(tài)渲染模板作為輸入，傳遞到CullNet網(wǎng)絡(luò)中，輸出位姿估計結(jié)果校準(zhǔn)后的置信度，挑選置信度最好的位姿估計結(jié)果輸出。

DenseFusion可以單獨處理兩個數(shù)據(jù)源，采用稠密融合網(wǎng)絡(luò)來提取像素級的稠密特征，并據(jù)此進行位姿估計。此外，該網(wǎng)絡(luò)集成了端到端迭代位姿細化步驟，進一步改善了位姿估計結(jié)果。該網(wǎng)絡(luò)包含兩個階段。第一個階段根據(jù)已知對象種類進行語義分割，針對每個對象分別提取深度信息和彩色信息。第二個階段處理分割的結(jié)果并進行位姿估計。

PVNet通過學(xué)習(xí)對物體2D關(guān)鍵點的方向向量場，能夠較好地處理遮擋效應(yīng)，并使用不確定性驅(qū)動的PNP算法來估計位姿。該網(wǎng)絡(luò)首先輸出語義分割結(jié)果和關(guān)鍵點的方向向量場；然后根據(jù)一致性投票從方向向量場中計算出物體的關(guān)鍵點，同時生成關(guān)鍵點的概率分布；隨后利用關(guān)鍵點的不確定性在PnP解算中進一步提高位姿估計的魯棒性。

PVN3D將基于二維關(guān)鍵點的PVNet擴展到三維關(guān)鍵點，充分利用剛性物體的幾何約束信息，顯著提高六自由度估計的精度。該網(wǎng)絡(luò)采用單一的RGB-D圖像作為輸入，首先，進行特征提取，分別輸入到三個模塊中預(yù)測關(guān)鍵點、語義標(biāo)簽和中心偏移；接著，應(yīng)用聚類算法來區(qū)分具有相同語義標(biāo)簽的不同實例；然后，利用深度霍夫投票網(wǎng)絡(luò)來檢測物體的三維關(guān)鍵點；最后，使用最小二乘法擬合位姿參數(shù)。

綜上所述，應(yīng)用在位姿估計任務(wù)上的深度學(xué)習(xí)網(wǎng)絡(luò)，有以下特點：

（1）引入關(guān)鍵點不確定性或者置信度機制對位姿估計結(jié)果進行篩選，例如CullNet與PVNet；

（2）劃分多個子網(wǎng)絡(luò)，將高維特征語義標(biāo)簽與低維特征中心點建立聯(lián)系，例如PoseCNN與PVN3D；

（3）采用不同類型的卷積網(wǎng)絡(luò)分別進行特征提取，使用融合網(wǎng)絡(luò)融合不同類型特征結(jié)果，例如Deep6DPose和DenseFusion。

4 深度學(xué)習(xí)在空間任務(wù)中的應(yīng)用

隨著片上系統(tǒng)的發(fā)展，諸如視覺、雷達的自主測量手段具有一定的應(yīng)用。同時，深度學(xué)習(xí)在不同領(lǐng)域，特別是計算機視覺領(lǐng)域，都取得了巨大的成功，吸引了很多空間研究者的注意。然而，空間應(yīng)用不同于地面任務(wù)，可靠性需求高且缺少真實數(shù)據(jù)集［91］。

4.1 空間視覺測量任務(wù)的特殊性

相比地面視覺應(yīng)用，空間視覺測量任務(wù)具有以下幾點特殊性：

（1）空間視覺的任務(wù)場景范圍更大，大多視覺任務(wù)包含遠距離接近、近距離環(huán)繞和抵近距離交會對接等，測量距離變化較大，需要適應(yīng)低紋理、低分辨率的目標(biāo)識別需求；

（2）空間環(huán)境存在較多恒星、人造天體等的雜散光背景、測量目標(biāo)表面包覆層反射及視線角變化帶來的光照變化劇烈問題，使得目標(biāo)在圖像中呈亮點狀且光照復(fù)雜多變，對目標(biāo)檢測帶來巨大挑戰(zhàn)。

4.2 典型網(wǎng)絡(luò)

4.2.1 SPN網(wǎng)絡(luò)

Sharma等人［92］提出了Spacecraft Pose Network（SPN）網(wǎng)絡(luò)，該網(wǎng)絡(luò)是第一個基于單目視覺的已知非合作航天器位姿估計方法，采用海馬8號氣象衛(wèi)星拍攝地球?qū)嶋H圖像和OpenGL生成SPEED數(shù)據(jù)集。該網(wǎng)絡(luò)使用五層CNN基本網(wǎng)絡(luò)，并連接到三個不同的分支：（1）使用R-CNN結(jié)構(gòu)進行2D邊界框提?。唬?）使用全連接網(wǎng)絡(luò)進行相對姿態(tài)分類；（3）通過分支2得到N個候選項，使用另一交叉熵損失最小化，獲得每個候選項的相對權(quán)重，采用四元數(shù)平均計算得到最終精細姿態(tài)。SPN網(wǎng)絡(luò)利用Gauss-Newton方法解決了估計相對位姿的最小化問題，相對位置誤差為厘米級、姿態(tài)誤差為度級。

4.2.2 基于ResNET方法

Proenca等人［93］在Unreal Engine 4虛幻引擎上構(gòu)建了面向已知非合作航天器的URSO數(shù)據(jù)集，提出基于ResNet網(wǎng)絡(luò)的位姿估計深度學(xué)習(xí)框架，直接回歸輸出位置，以最小化相對誤差為損失函數(shù)。此外，該框架贏得了歐洲航天局位姿估算挑戰(zhàn)賽第二名，并給出在太空真實圖像上的執(zhí)行方法。

4.2.3 基于LSTM方法

Kechagias等人［94］提出深度循環(huán)卷積神經(jīng)網(wǎng)絡(luò)，輸入多投影點云圖像，利用CNN架構(gòu)提取底層特征，采用LSTM進行建模，得到位姿估計結(jié)果。試驗中采用斯阿萊尼亞航天公司開發(fā)的衛(wèi)星模型用于非合作相對機器人空間應(yīng)用導(dǎo)航任務(wù)，僅針對模擬數(shù)據(jù)進行訓(xùn)練，多種情景下的評估結(jié)果表明網(wǎng)絡(luò)結(jié)構(gòu)有很強的適應(yīng)性，能夠在較低的運算需求下提供較優(yōu)的里程精度。

4.2.4 二階網(wǎng)絡(luò)方法

為了實現(xiàn)快速準(zhǔn)確的位姿估計，Huo等人［95］提出了基于深度神經(jīng)網(wǎng)絡(luò)方法并結(jié)合PnP算法和幾何優(yōu)化方法的網(wǎng)絡(luò)。該網(wǎng)絡(luò)在SPEED數(shù)據(jù)集實現(xiàn)，首先設(shè)計了輕量級的YOLOv3網(wǎng)絡(luò)用于預(yù)測關(guān)鍵點位置，接著回歸生成熱圖，最后利用PnP和EKF方法得到位姿結(jié)果并優(yōu)化，該方法實現(xiàn)了較低的計算消耗。

綜上所述，深度學(xué)習(xí)在空間位姿估計領(lǐng)域已有部分成果，理論研究表明位姿估計結(jié)果可在厘米級和度級，能夠滿足空間應(yīng)用的需求。但由于缺乏真實數(shù)據(jù)集，能否滿足空間任務(wù)對魯棒性的高要求，尚未在實際空間任務(wù)中驗證。

5 結(jié)論

本文對視覺位姿估計技術(shù)的發(fā)展及其在空間任務(wù)中的應(yīng)用展開綜述，得到了如下幾點結(jié)論：

（1）傳統(tǒng)視覺位姿估計技術(shù)較為成熟，有大量工程應(yīng)用，但受環(huán)境因素影響較大，需要針對任務(wù)設(shè)計特征，通用性和適應(yīng)性較差。

（2）利用深度學(xué)習(xí)方法進行視覺位姿估計的理論研究發(fā)展迅猛，但現(xiàn)仍存在訓(xùn)練需求數(shù)據(jù)集龐大，且運算量大等問題，尚未廣泛應(yīng)用。

（3）各國廣泛開展視覺位姿估計技術(shù)在空間任務(wù)中的應(yīng)用，其中，對于合作目標(biāo)的位姿估計較為成熟，非合作目標(biāo)位姿估計仍處于探索階段。

針對空間任務(wù)，相對位姿估計技術(shù)尚存在較大不足，需要針對以下特定問題展開研究：

（1）低紋理、低分辨率目標(biāo)識別。相比傳統(tǒng)任務(wù)，空間任務(wù)視場范圍大，目標(biāo)距離遠，運動速度較快，目標(biāo)紋理和分辨率較低，需要對目標(biāo)快速定位跟蹤。

（2）退化視覺環(huán)境成像。太空是典型的退化視覺環(huán)境，存在空間雜散光背景、目標(biāo)包覆層反射、光照變化劇烈等問題。要完成空間目標(biāo)的位姿估計任務(wù)，視覺位姿估計算法需要對環(huán)境有較好的適應(yīng)性。