劉暢 李嘉杰 眭海剛 雷俊鋒 葛亮
摘 要:研制高效魯棒的智能視覺定位方法是解決全球?qū)Ш叫l(wèi)星系統(tǒng)(GNSS)拒止條件下無人機(jī)導(dǎo)航定位的重要途徑之一。傳統(tǒng)視覺定位方法存在精度較差、容易丟失定位的問題。本文提出一種FLoFTR算法,通過對(duì)高精度影像匹配算法LoFTR進(jìn)行改進(jìn)優(yōu)化,在無人機(jī)計(jì)算平臺(tái)上實(shí)現(xiàn)實(shí)時(shí)高精度定位。FLoFTR采用知識(shí)蒸餾方法壓縮模型規(guī)模,提升推理效率,并通過改進(jìn)特征提取模塊和應(yīng)用基于余弦距離的特征匹配方法,進(jìn)一步降低了匹配時(shí)間并維持相當(dāng)?shù)钠ヅ湫阅堋T谘兄频能浻惨惑w的平臺(tái)上試驗(yàn)表明,優(yōu)化后模型平均定位誤差損失維持在0.1m以內(nèi),定位平均處理時(shí)間為47ms,定位速度提升超過7倍,可滿足無人機(jī)定位的精度和實(shí)時(shí)性要求。
關(guān)鍵詞:無人機(jī); 視覺定位; 圖像匹配; LoFTR; 知識(shí)蒸餾
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.19452/j.issn1007-5453.2023.05.012
基金項(xiàng)目: 航空科學(xué)基金(2019460S5001);廣西科技重大專項(xiàng)(AA22068072)
在現(xiàn)代戰(zhàn)爭中,無人機(jī)成為越來越重要的作戰(zhàn)裝備,無人機(jī)被大量應(yīng)用于偵察、目標(biāo)打擊等作戰(zhàn)任務(wù),對(duì)戰(zhàn)場有著舉足輕重的作用。然而面對(duì)復(fù)雜的作戰(zhàn)環(huán)境,目前的無人機(jī)裝備仍存在性能弱、無法建設(shè)成熟的作戰(zhàn)體系的問題。特別是隨著電磁干擾技術(shù)的發(fā)展,無人機(jī)常用的全球?qū)Ш叫l(wèi)星系統(tǒng)(GNSS)極易受到干擾,對(duì)無人機(jī)應(yīng)用于作戰(zhàn)環(huán)境存在非常不利的影響。
近年來,計(jì)算機(jī)視覺發(fā)展迅速,基于深度學(xué)習(xí)的圖像匹配技術(shù)通過在衛(wèi)星地圖上匹配無人機(jī)影像來實(shí)現(xiàn)無人機(jī)視覺地理定位[1-4],并成為解決GNSS拒止環(huán)境下無人機(jī)定位問題的一種有效途徑。然而,無人機(jī)平臺(tái)算力和功耗有限,如何在有限的設(shè)備環(huán)境下保證視覺定位實(shí)時(shí)性并兼顧定位精度,是實(shí)現(xiàn)無人機(jī)實(shí)時(shí)視覺定位的重點(diǎn)。
影像匹配作為視覺地理定位的核心算法[5-6],也是計(jì)算機(jī)視覺的重要研究方向。定向快速角點(diǎn)與抗旋轉(zhuǎn)描述(ORB)[7]、尺度不變特征變換(SIFT)[8]和加速穩(wěn)健特征(SURF)[9]等算法是具有代表性的傳統(tǒng)特征匹配方法,常被用于即時(shí)定位與地圖構(gòu)建(SLAM)、視覺里程計(jì)等無人機(jī)定位系統(tǒng)。然而,傳統(tǒng)特征匹配算法的效果并不穩(wěn)定,在無人機(jī)發(fā)生較大位姿變換或在紋理稀疏區(qū)域時(shí),傳統(tǒng)匹配算法無法實(shí)現(xiàn)魯棒匹配效果,導(dǎo)致位姿估計(jì)有較大的誤差。因此,這類方法常被用于室內(nèi)小范圍的定位感知。對(duì)于室外測繪應(yīng)用,傳統(tǒng)特征匹配方法雖然實(shí)時(shí)性較好,但無法保證定位的精度,魯棒性較差。
近年來,基于深度學(xué)習(xí)的匹配算法不斷涌現(xiàn),相比傳統(tǒng)算法,深度學(xué)習(xí)方法大幅提升了匹配精度。D. Detoe等 [10-11]提出了結(jié)合注意力機(jī)制[12] 的特征點(diǎn)提取和匹配方法,將基于深度學(xué)習(xí)的特征匹配性能提升到了新高度。此外,還有Sun等[13]、Wang等[14]和Chen Honghai等[15]基于深度學(xué)習(xí)的影像匹配方法,分別從匹配精度、模型規(guī)模等方面出發(fā),進(jìn)一步提升了匹配算法的性能。然而,大多數(shù)模型的設(shè)計(jì)都是在不考慮設(shè)備限制的情況下追求精度提升的,無法在算力受限的無人機(jī)上得到有效應(yīng)用,以至于深度學(xué)習(xí)匹配算法難以在無人機(jī)視覺定位應(yīng)用中發(fā)揮其高魯棒性和高精度匹配優(yōu)勢。
尋求高精度和高實(shí)時(shí)性的圖像匹配算法對(duì)于實(shí)時(shí)性要求較高的應(yīng)用場景具有重要意義[16]。針對(duì)圖像匹配算法魯棒性和實(shí)時(shí)性的“瓶頸”問題,本文基于無特征檢測的局部特征變換器匹配(LoFTR)算法,通過結(jié)合模型優(yōu)化算法,提出了一種在無人機(jī)平臺(tái)應(yīng)用智能化視覺定位方法的解決方案。優(yōu)化后的模型在魯棒性和實(shí)時(shí)性方面有較好的均衡,能夠在研制的軟硬一體的嵌入式平臺(tái)上實(shí)現(xiàn)較高精度的實(shí)時(shí)視覺地理定位。
1 無人機(jī)視覺地理定位
無人機(jī)視覺地理定位方法有效利用了無人機(jī)視覺載荷和預(yù)先制備的高分辨衛(wèi)星底圖,通過將無人機(jī)影像和衛(wèi)星底圖影像進(jìn)行匹配,實(shí)現(xiàn)無人機(jī)高精度、穩(wěn)定的定位。其基本框架如圖1所示。
無人機(jī)影像由云臺(tái)相機(jī)拍攝,并實(shí)時(shí)傳輸?shù)綑C(jī)載計(jì)算機(jī)進(jìn)行數(shù)據(jù)處理。衛(wèi)星影像預(yù)先在地面制備,根據(jù)無人機(jī)的飛行高度、飛行區(qū)域和飛行環(huán)境在起飛前從數(shù)據(jù)庫中提取最合適的衛(wèi)星影像,并存儲(chǔ)在機(jī)載計(jì)算機(jī)中。首先,對(duì)衛(wèi)星影像進(jìn)行分割,保證定位的精度和效率;其次,將無人機(jī)影像和切割的衛(wèi)星影像進(jìn)行匹配,輸出匹配點(diǎn);最后,估計(jì)單應(yīng)矩陣,得到影像間坐標(biāo)映射關(guān)系,將無人機(jī)影像投影到衛(wèi)星影像上,并通過衛(wèi)星影像上存儲(chǔ)的地理坐標(biāo)實(shí)現(xiàn)無人機(jī)定位,輸出無人機(jī)的經(jīng)緯度。
2 LoFTR影像匹配算法模型
影像匹配算法是視覺地理定位方法的核心,其性能直接影響定位的精度和效率。LoFTR算法是近兩年具有代表性的影像匹配算法,具有魯棒性強(qiáng)、精度高的優(yōu)點(diǎn)。因此,以LoFTR作為視覺地理定位的核心算法能改善定位精度和魯棒性,使無人機(jī)能在GNSS拒止下保持正常飛行。
LoFTR算法的模型框架如圖2所示,模型有4個(gè)模塊,分別是特征提取模塊、Transformer編碼模塊、粗匹配模塊和精匹配模塊。將待匹配的影像對(duì)輸入模型,通過融合特征金字塔的殘差網(wǎng)絡(luò)(ResNet)[17]骨干網(wǎng)提取多尺度特征,然后利用Transformer模塊分別對(duì)不同尺度的特征進(jìn)行自注意力和交叉注意力編碼,粗匹配模塊通過構(gòu)建代價(jià)矩陣和置信度矩陣輸出粗匹配點(diǎn),精匹配模塊通過高分辨率特征微調(diào)粗匹配的結(jié)果,輸出亞像素級(jí)的匹配點(diǎn),精匹配應(yīng)用了坐標(biāo)回歸 [18]。
3 模型優(yōu)化方法
由于多模型組合形成的龐大模型無法滿足有限的無人機(jī)計(jì)算和功耗資源,需要壓縮模型提高匹配效率。本文將從網(wǎng)絡(luò)規(guī)模壓縮和模型推理改進(jìn)進(jìn)行優(yōu)化,知識(shí)蒸餾實(shí)現(xiàn)對(duì)特征提取和Transformer模塊的網(wǎng)絡(luò)規(guī)模壓縮;余弦距離度量實(shí)現(xiàn)粗匹配推理提速。
3.1 知識(shí)蒸餾
Gou等[19]首次提出了知識(shí)蒸餾,通過教師網(wǎng)絡(luò)指導(dǎo)精簡學(xué)生網(wǎng)絡(luò)訓(xùn)練,實(shí)現(xiàn)知識(shí)遷移,使學(xué)生網(wǎng)絡(luò)兼顧效率和性能。知識(shí)蒸餾的基本框架如圖3所示。
將知識(shí)蒸餾引入教師網(wǎng)絡(luò),同時(shí)采用教師網(wǎng)絡(luò)輸出的軟標(biāo)簽和數(shù)據(jù)集的硬標(biāo)簽對(duì)學(xué)生模型進(jìn)行訓(xùn)練。在訓(xùn)練過程中,負(fù)樣本也帶有大量信息,對(duì)模型收斂有促進(jìn)作用。因此,采用軟標(biāo)簽?zāi)軌蛲ㄟ^增大信息量加速模型訓(xùn)練,提高模型精度,實(shí)現(xiàn)教師模型知識(shí)遷移。硬標(biāo)簽則保證模型精度,防止可能受到軟標(biāo)簽的錯(cuò)誤知識(shí)引導(dǎo)。知識(shí)蒸餾中的溫度T是用來控制對(duì)負(fù)樣本的關(guān)注程度,溫度較低時(shí),對(duì)負(fù)標(biāo)簽尤其是那些顯著低于平均值的負(fù)標(biāo)簽的關(guān)注較少;而溫度較高時(shí),負(fù)標(biāo)簽相關(guān)的值會(huì)相對(duì)增大。但由于負(fù)標(biāo)簽具有非常大的噪聲,并不可靠,因此溫度T是一個(gè)經(jīng)驗(yàn)值[20]。目前,知識(shí)蒸餾算法對(duì)于分類模型具有較好的效果。
LoFTR模型的粗匹配模塊實(shí)際是通過分類每個(gè)像素點(diǎn)實(shí)現(xiàn)最相關(guān)匹配的。其原理如圖4所示。
將提取的特征圖展平為L×256,在Transformer編碼后輸入粗匹配模塊,L代表特征圖的像素個(gè)數(shù)。通過計(jì)算每兩個(gè)特征矢量間的點(diǎn)積相似度,輸出L×L的代價(jià)矩陣。然后利用歸化指數(shù)函數(shù)(SoftMax)分別處理代價(jià)矩陣的行和列,將輸出的兩個(gè)結(jié)果相乘得到置信度矩陣。顯然,該矩陣的元素表示每個(gè)像素點(diǎn)的匹配概率。LoFTR的粗匹配模塊實(shí)質(zhì)上是對(duì)每個(gè)像素點(diǎn)的分類,因此可以將置信度矩陣作為知識(shí)蒸餾的軟標(biāo)簽指導(dǎo)學(xué)生模型訓(xùn)練。輸出能實(shí)現(xiàn)粗匹配的輕量化模型。
3.2 學(xué)生模型設(shè)計(jì)
根據(jù)3.1節(jié)的描述,粗匹配實(shí)質(zhì)上是分類模型,可以采用知識(shí)蒸餾框架訓(xùn)練學(xué)生模型的特征提取、Transformer和粗匹配模塊的相關(guān)網(wǎng)絡(luò)參數(shù)。
本文還對(duì)特征提取模塊進(jìn)行改進(jìn),提升推理速度。特征金字塔在無人機(jī)影像匹配中的作用并不明顯,如果無人機(jī)的飛行高度變化顯著,特征金字塔無法解決過大尺度變化;LoFTR粗匹配直接采用ResNet提取的低分辨特征,并未融合高分辨率特征;LoFTR模型的精匹配模塊以粗匹配結(jié)果為基礎(chǔ),即精匹配只提高粗匹配結(jié)果的精度。因此,特征金字塔大大降低了模型推理效率,本文在學(xué)生模型中直接采用兩個(gè)不同的1×1卷積層替代特征金字塔輸出多尺度特征,加速推理速度。
此外,本文改進(jìn)LoFTR模型精匹配模塊以進(jìn)一步提升推理速度。該模塊分為Transformer編碼和坐標(biāo)回歸兩部分,Transformer編碼參數(shù)量較大,推理時(shí)間慢;坐標(biāo)回歸基于特征圖,效率較高。但回歸會(huì)導(dǎo)致知識(shí)蒸餾無法訓(xùn)練網(wǎng)絡(luò)參數(shù),該模塊需要凍結(jié)參數(shù)二次訓(xùn)練。本階段改進(jìn)策略包括:(1)粗匹配模塊已經(jīng)利用Transformer建立了較精確的匹配關(guān)系,精匹配模塊采用未編碼特征圖直接回歸實(shí)現(xiàn)魯棒的坐標(biāo)精細(xì)化。(2)精匹配階段的Transformer編碼只面向以匹配點(diǎn)為中心5×5的局部特征圖,注意力的作用并不顯著。在改進(jìn)階段中舍棄了該編碼部分。
綜上,完整的學(xué)生模型框架如圖5所示。其需要兩次訓(xùn)練。知識(shí)蒸餾訓(xùn)練特征提取、Transformer編碼和粗匹配模塊的網(wǎng)絡(luò)參數(shù)。通過降低ResNet和Transformer網(wǎng)絡(luò)的通道數(shù)和層數(shù)等來提升推理效率。原模型和知識(shí)蒸餾的模型參數(shù)見表1。凍結(jié)訓(xùn)練用于單獨(dú)訓(xùn)練學(xué)生模型的精匹配模塊。
3.3 基于余弦相似度量的影像匹配
知識(shí)蒸餾只能提升模型中的卷積神經(jīng)網(wǎng)絡(luò)部分,對(duì)于特征間相似度計(jì)算、匹配點(diǎn)輸出等模塊并沒有顯著作用。實(shí)測表明,LoFTR模型中基于SoftMax的粗匹配方案計(jì)算較為延時(shí)。本文基于余弦距離改進(jìn)了粗匹配方法,提升了匹配速度。
根據(jù)3.1節(jié)的描述,LoFTR模型的粗匹配模塊實(shí)際是為了計(jì)算得到特征間的相似性。在訓(xùn)練過程中,由于梯度計(jì)算的要求,需要SoftMax輸出軟標(biāo)簽。而在推理過程中,SoftMax函數(shù)不是必須的,只需計(jì)算特征相似度并輸出最大值即可實(shí)現(xiàn)影像匹配。由此,相似度計(jì)算由特征點(diǎn)積修改成特征余弦距離,代價(jià)矩陣直接輸出匹配,效率進(jìn)一步提高。其原理如圖6所示。集合知識(shí)蒸餾,形成了FLoFTR模型。
3.4 訓(xùn)練
綜合模型優(yōu)化,完整的訓(xùn)練步驟分為兩步:首先,利用LoFTR預(yù)訓(xùn)練模型指導(dǎo)訓(xùn)練特征提取、Transformer和粗匹配模塊的網(wǎng)絡(luò)參數(shù)。其次,輸出模型后,凍結(jié)部分參數(shù)并單獨(dú)訓(xùn)練精匹配模塊,輸出完整的輕量化匹配模型。
對(duì)于知識(shí)蒸餾訓(xùn)練,根據(jù)3.1節(jié)的描述,訓(xùn)練損失由蒸餾損失和目標(biāo)損失兩部分組成,分別對(duì)應(yīng)相對(duì)教師模型和真值的損失。蒸餾損失采用相對(duì)熵(KL散度)計(jì)算信息損失程度。蒸餾損失利用原模型的代價(jià)矩陣生成的概率分布矩陣指導(dǎo)學(xué)生模型訓(xùn)練,計(jì)算方式如式(1)所示
對(duì)于精匹配模塊進(jìn)行單獨(dú)訓(xùn)練,僅需訓(xùn)練ResNet模型中輸出高分辨率特征圖的1×1卷積層的參數(shù),其他參數(shù)均凍結(jié)。本文同時(shí)訓(xùn)練了基于余弦距離和LoFTR模型匹配方法的兩個(gè)模型,用于后續(xù)試驗(yàn)對(duì)比。
4 對(duì)比試驗(yàn)
4.1 數(shù)據(jù)準(zhǔn)備和測試環(huán)境
試驗(yàn)使用了4個(gè)不同的數(shù)據(jù)集,分別是用于訓(xùn)練的MegaDepth[21]數(shù)據(jù)集、BlendedMVS[22]數(shù)據(jù)集,用于單應(yīng)性對(duì)比試驗(yàn)的HPatches[23]數(shù)據(jù)集和用于定位性能對(duì)比的武漢城郊自建數(shù)據(jù)集。
MegaDepth數(shù)據(jù)集和BlendedMVS數(shù)據(jù)集用于訓(xùn)練模型,這兩個(gè)數(shù)據(jù)集都是常見的用于訓(xùn)練影像匹配模型的數(shù)據(jù)集。根據(jù)本文3.1節(jié),訓(xùn)練分為兩步:首先,使用預(yù)訓(xùn)練的LoFTR模型作為教師模型訓(xùn)練出粗匹配的知識(shí)蒸餾模型。LoFTR預(yù)訓(xùn)練模型在MegaDepth數(shù)據(jù)集上訓(xùn)練得到,MegaDepth數(shù)據(jù)集包含了不同拍攝角度、尺度的匹配影像對(duì),具有數(shù)據(jù)量大、影像差異明顯的特點(diǎn),對(duì)訓(xùn)練出魯棒性強(qiáng)、精度高的模型有明顯作用。知識(shí)蒸餾模型在BlendedMVS數(shù)據(jù)集上訓(xùn)練,該數(shù)據(jù)集相比MegaDepth數(shù)據(jù)量較小,能有效緩解數(shù)據(jù)量大的訓(xùn)練時(shí)長和硬件要求高的問題,同時(shí)增強(qiáng)模型泛化性。其次,得到粗匹配的知識(shí)蒸餾模型后,在MegaDepth數(shù)據(jù)集上訓(xùn)練精匹配模塊。精匹配模塊對(duì)匹配精度有較大影響,因此采用與預(yù)訓(xùn)練模型相同的MegaDepth數(shù)據(jù)集保持?jǐn)?shù)據(jù)一致性。
HPatches數(shù)據(jù)集包含不同光照和不同角度的匹配影像,同時(shí)有對(duì)應(yīng)的單應(yīng)矩陣真值,用于評(píng)估模型估計(jì)的單應(yīng)矩陣的精度。
武漢城郊自建數(shù)據(jù)集由大疆精靈4拍攝,相機(jī)型號(hào)為DJI FC6310R魚眼相機(jī),傳感器尺寸為13.2mm×8.8mm,像幅尺寸為5472px×3648px,像元大小為2.41μm,相機(jī)焦距為8.8mm,采集過程為下視拍攝正射影像。魚眼鏡頭的焦距很短、視角很大,其拍攝的影像相較于平面底圖存在較大畸變,所以為了減小匹配定位難度和保證定位精度,根據(jù)相機(jī)參數(shù)對(duì)魚眼相機(jī)拍攝的影像做了畸變矯正。無人機(jī)平臺(tái)如圖7所示。
分別有200m、250m、300m拍攝高度的紋理豐富城區(qū)影像1500張,以及300m拍攝高度的紋理稀疏叢林影像260張。同時(shí)數(shù)據(jù)集包含了無人機(jī)拍攝時(shí)的GNSS數(shù)據(jù),作為定位精度的客觀真值。衛(wèi)星影像從谷歌地球上截取,地面分辨率0.5m。
本文分別使用經(jīng)典傳統(tǒng)匹配方法(SIFT)、LoFTR、知識(shí)蒸餾后的LoFTR(KD)和FLoFTR4種方法進(jìn)行對(duì)比試驗(yàn)。所有對(duì)比試驗(yàn)均在研制的軟硬一體的原型系統(tǒng)中進(jìn)行。該系統(tǒng)以嵌入式開發(fā)板Jetson AGX Orin為主體,集成了控制算法、定位算法和衛(wèi)星影像數(shù)據(jù)等,形成軟硬一體的無人機(jī)視覺地理定位系統(tǒng)。
4.2 單應(yīng)性對(duì)比
本文首先在HPatches上評(píng)估算法性能。HPatches數(shù)據(jù)集包含57個(gè)光照變化序列、59個(gè)視角變化序列,每一個(gè)序列包含6張匹配影像。對(duì)于每一個(gè)序列,取一幅圖像作為參考圖像,與其他5張圖像進(jìn)行匹配,并估計(jì)單應(yīng)矩陣。通過對(duì)比估計(jì)單應(yīng)矩陣和數(shù)據(jù)集內(nèi)的真實(shí)單應(yīng)矩陣判斷評(píng)估匹配算法的精度,并分析知識(shí)蒸餾模型的精度損失。單應(yīng)矩陣的精度通過影像4個(gè)角點(diǎn)的精度評(píng)估,計(jì)算公式如(5)所示
試驗(yàn)分別統(tǒng)計(jì)了誤差在3px以內(nèi)、3~5px和5px以上的單應(yīng)矩陣數(shù)量占比,結(jié)果見表2。
從試驗(yàn)結(jié)果可以發(fā)現(xiàn),F(xiàn)LoFTR綜合精度較優(yōu)于傳統(tǒng)SIFT方法,但與原模型LoFTR比較有一定的精度下降,這是由于壓縮模型后造成的不可避免的精度損失。具體分析來看,誤差在三個(gè)像素以內(nèi)的單應(yīng)矩陣,僅知識(shí)蒸餾后損失相對(duì)顯著,而FLoFTR模型則更好地保留了原模型精度,精度損失維持在15%以內(nèi)。精度在3~5px的單應(yīng)矩陣數(shù)據(jù)占比增加較多。對(duì)于像素誤差超過5px,不論是知識(shí)蒸餾模型還是FLoFTR模型,數(shù)量占比增長控制在7%左右。因此,知識(shí)蒸餾保持了較好的整體精度。而定位采用地面分辨率為0.5m的衛(wèi)星影像,5px誤差在2.5m左右,足夠滿足無人機(jī)定位要求。
4.3 定位性能對(duì)比
本文在武漢郊區(qū)自建數(shù)據(jù)集上進(jìn)行定位性能評(píng)估。無人機(jī)影像和衛(wèi)星影像匹配后,利用隨機(jī)抽樣一致(RANSAC)算法估計(jì)單應(yīng)矩陣并通過其計(jì)算無人機(jī)影像中心在衛(wèi)星底圖上的投影坐標(biāo),然后根據(jù)衛(wèi)星地圖的地理坐標(biāo)轉(zhuǎn)換得到無人機(jī)的經(jīng)緯度坐標(biāo)。
本文設(shè)計(jì)了不同拍攝高度對(duì)比試驗(yàn),用來比較驗(yàn)證本文算法在無人機(jī)不同飛行高度下的定位有效性,試驗(yàn)數(shù)據(jù)分別為200m、250m和300m拍攝高度的城區(qū)影像。試驗(yàn)結(jié)果如表3和圖8所示,圖中紅色直線代表真實(shí)軌跡,橙色代表SIFT算法預(yù)測軌跡,藍(lán)色代表LoFTR算法預(yù)測軌跡,紫色代表LoFTR算法知識(shí)蒸餾后預(yù)測軌跡,綠色代表FLoFTR算法預(yù)測軌跡。
從不同高度無人機(jī)定位試驗(yàn)結(jié)果可以發(fā)現(xiàn),SIFT算法定位失敗,這是由于SIFT算法無法有效匹配無人機(jī)與衛(wèi)星底圖這種異源且場景復(fù)雜的圖像。LoFTR算法在飛行高度300m定位成功,但在250m和200m定位失敗,這是因?yàn)長oFTR算法具有不抗尺度的局限性,從而對(duì)無人機(jī)飛行高度變化的定位適應(yīng)性差。其他兩個(gè)模型在不同飛行高度均可整體定位,軌跡的完整度和連續(xù)性都比較理想,這是因?yàn)樵谥R(shí)蒸餾的過程中舍棄了Transformer編碼與回歸部分,是算法模型直接學(xué)習(xí)擬合了訓(xùn)練數(shù)據(jù)中存在的多尺度特征,提高了算法對(duì)不同尺度圖像匹配的適應(yīng)性。同時(shí)根據(jù)表3數(shù)據(jù)對(duì)比,F(xiàn)LoFTR算法綜合適應(yīng)性和平均定位精度相較于其他算法最高,證明了知識(shí)蒸餾和余弦相似度量改進(jìn)的有效性。但隨著無人機(jī)飛行高度的降低,定位算法的單應(yīng)性假設(shè)也會(huì)逐漸失效,從而影響算法穩(wěn)定性,使部分定位區(qū)域誤差較大,飛行高度過低甚至?xí)?dǎo)致定位算法完全失效。
本文同時(shí)設(shè)計(jì)了紋理稀疏場景的試驗(yàn),試驗(yàn)數(shù)據(jù)還包括300m高度拍攝的叢林區(qū)域影像,定位結(jié)果如圖9所示,客觀評(píng)估結(jié)果見表4。
從圖9和表4中可以發(fā)現(xiàn),經(jīng)典傳統(tǒng)方法SIFT同樣無法實(shí)現(xiàn)無人機(jī)視覺定位,三個(gè)深度學(xué)習(xí)模型的定位差異較小,知識(shí)蒸餾后的模型保留了原模型的大部分精度,雖然受紋理影響,F(xiàn)LoFTR相比原模型最大定位誤差的精度損失接近1m,但平均定位誤差的精度損失維持在0.1m以內(nèi),證明FLoFTR對(duì)于不同場景的無人機(jī)定位仍具有一定的魯棒性。
綜合多場景試驗(yàn)可證明,經(jīng)過知識(shí)蒸餾壓縮改進(jìn)后的模型相較于原模型的定位精度未出現(xiàn)顯著下降,且增強(qiáng)了算法對(duì)飛行高度的適應(yīng)性,滿足無人機(jī)不低于200m飛行高度的自主定位的需求。
4.4 效率對(duì)比
優(yōu)化算法的核心目標(biāo)是提供可應(yīng)用在無人機(jī)平臺(tái)的高效視覺地理定位方法,因此對(duì)三個(gè)模型的運(yùn)行效率進(jìn)行了詳細(xì)測試。在Jetson AGX Orin嵌入式載板上推理時(shí)間(見表5),試驗(yàn)結(jié)果多次測試并取平均值,由于SIFT算法無法實(shí)現(xiàn)定位,試驗(yàn)未統(tǒng)計(jì)其計(jì)算耗時(shí)。
表5中數(shù)據(jù)表明,通過知識(shí)蒸餾壓縮模型,有效降低了特征提取和Transformer編碼模塊的推理時(shí)間,并進(jìn)一步提升了精匹配的效率;通過余弦距離計(jì)算相似度,有效改善了SoftMax方法時(shí)間復(fù)雜度高的問題,降低了粗匹配推理耗時(shí)。需要注意的是, LoFTR和知識(shí)蒸餾模型粗匹配模塊的耗時(shí)理論上應(yīng)該是一致的,此處存在細(xì)微差別是由測試存在波動(dòng)和誤差引起的。優(yōu)化后模型FLoFTR的推理時(shí)間為47ms,相比原模型提升超過7倍,基本達(dá)到實(shí)時(shí)定位。
5 結(jié)論
為解決無人機(jī)在GNSS拒止和計(jì)算資源受限條件下的定位問題,本文基于知識(shí)蒸餾提出了面向無人機(jī)實(shí)時(shí)在線視覺地理定位的FLoFTR算法。在研制的軟硬一體機(jī)載嵌入式平臺(tái)上的對(duì)比試驗(yàn)顯示,F(xiàn)LoFTR在定位精度與推理速度之間獲得了較好的均衡,滿足無人機(jī)應(yīng)用需求。
FLoFTR為無人機(jī)提供了一種機(jī)載高精度和高效的視覺地理定位方法,但目前的研究測試環(huán)境比較理想,對(duì)于真實(shí)復(fù)雜環(huán)境中的場景、天氣、天候等變化,算法的魯棒性和精確性需要進(jìn)一步提升,為復(fù)雜環(huán)境下的無人機(jī)定位提供堅(jiān)實(shí)技術(shù)支撐。
參考文獻(xiàn)
[1]Gyagenda N, Hatilima J V, Roth H, et al. A review of GNSSindependent UAV navigation techniques[J]. Robotics and Autonomous Systems, 2022, 135: 104069.
[2]Couturier A, Akhloufi M A. A review on absolute visual localization for UAV[J]. Robotics and Autonomous Systems, 2021, 135: 103666.
[3]Sui H, Li J, Lei J, et al. A fast and robust heterologous image matching method for visual Geo-localization of low-altitude UAVs[J]. Remote Sensing, 2022, 14(22): 5879.
[4]劉飛,單佳瑤,熊彬宇,等. 基于多傳感器融合的無人機(jī)可降落區(qū)域識(shí)別方法研究[J]. 航空科學(xué)技術(shù),2022,33(4):19-27. Liu Fei, Shan Jiayao, Xiong Binyu, et al. Research on the identification method of UAV landing area based on multisensor fusion[J]. Aeronautical Science & Technology, 2022, 33(4):19-27. (in Chinese)
[5]Ma J, Jiang X, Fan A, et al. Image matching from handcrafted to deep features: A survey[J]. International Journal of Computer Vision, 2021, 129(1): 23-79.
[6]羅世彬,劉海橋,胡茂青,等.無人飛行器異源圖像匹配輔助慣性導(dǎo)航定位技術(shù)綜述[J]. 國防科技大學(xué)學(xué)報(bào),2020,42(6): 1-10. Luo Shibin, Liu Haiqiao, Hu Maoqing, et al. Review of multimodal image matching assisted inertial navigation positioning technology for unmanned aerial vehicle[J]. Journal of National University of Defense Technology, 2020,42(6):1-10. (in Chinese)
[7]Rublee E, Rabaud V, Konolige K, et al. ORB: An efficient alternative to SIFT or SURF[C]. International Conference on Computer Vision. IEEE, 2011: 2564-2571.
[8]Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110.
[9]Bay H, Tuytelaars T, Van Gool L. Surf: speeded up robust features[C]. European Conference on Computer Vision. Springer,2006: 404-417.
[10]Detone D, Malisiewicz T, Rabinovich A. Superpoint: selfsupervised interest point detection and description[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2018: 224-236.
[11]Sarlin P E, Detone D, Malisiewicz T, et al. Superglue: Learning feature matching with graph neural networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 4938-4947.
[12]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in Neural Information Processing Systems, 2017,15: 30.
[13]Sun J, Shen Z, Wang Y, et al. LoFTR: Detector-free local feature matching with transformers[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 8922-8931.
[14]Wang Q, Zhang J, Yang K, et al. MatchFormer: Interleaving attention in transformers for feature matching[C].Proceedings of the Asian Conference on Computer Vision, 2022: 2746-2762.
[15]Chen Honghai, Luo Zixin, Zhou Lei, et al. ASpanFormer: Detector-free image matching with adaptive span transformer[C].European Conference on Computer Vision. Springer, 2022: 20-36.
[16]趙曉冬,張洵穎,車軍,等. 精確制導(dǎo)武器末制導(dǎo)目標(biāo)識(shí)別優(yōu)化算法研究[J]. 航空科學(xué)技術(shù), 2022,33(1):126-134. Zhao Xiaodong, Zhang Xunying, Che Jun, et al. Research on optimization algorithm of terminal guidance target recognition for precision-guided weapons[J]. Aeronautical Science & Technology, 2022, 33(1):126-134. (in Chinese)
[17]He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770-778.
[18]Pereira T D, Tabris N, Matsliah A, et al. SLEAP: A deep learning system for multi-animal pose tracking[J]. Nature Methods, 2022, 19(4): 486-495.
[19]Gou J, Yu B, Maybank S J, et al. Knowledge distillation: A survey[J]. International Journal of Computer Vision, 2021, 129: 1789-1819.
[20]Gao Y, Zhao L. Coarse TRVO: a robust visual odometry with detector-free local feature[J]. Journal of Advanced Computa‐tional Intelligence and Intelligent Informatics, 2022, 26(5): 731-739.
[21]Li Z, Snavely N. Megadepth: learning single-view depth prediction from internet photos[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 2041-2050.
[22]Yao Y, Luo Z, Li S, et al. Blendedmvs: A large-scale dataset for generalized multi-view stereo networks[C].Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 1790-1799.
[23]Balntas V, Lenc K, Vedaldi A, et al. HPatches: A benchmark and evaluation of handcrafted and learned local descriptors[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 5173-5182.
Real-time Geolocation on UAV Based on FLoFTR Algorithm
Liu Chang1, Li Jiajie1, Sui Haigang1, Lei Junfeng1, Ge Liang2
1. Wuhan University, Wuhan 430072, China
2. Tianjin Institute of Surveying and Mapping Co., Ltd., Tianjin 300381, China
Abstract: Developing an efficient and robust intelligent visual localization method is an effective means to solve the navigation and positioning of UAV under GNSS denial conditions. However, the accuracy of traditional visual localization method is poor, thus leading to lose location easily. By improving and optimizing the high-precision image matching algorithm LoFTR, this paper propose FLoFTR algorithm to achieve real-time localization on the UAV. FLoFTR uses knowledge distillation method to compress the model size and improve the inference efficiency. By improving the feature extraction module and applying the cosine distance, FLoFTR further reduces the matching time and maintains comparable matching performance. The experimental results show that the average localization error loss of the optimized model is less than 0.1m. And the average localization processing time is 47ms, which is increased by more than 7 times and can meet the precision and real-time requirements of UAV localization.
Key Words: UAV; visual localization; image matching; LoFTR; knowledge distillation