摘 要:精確的位姿信息是保障巡檢無(wú)人機(jī)高效運(yùn)行的關(guān)鍵要素,但是由于輸配電線路分布廣泛,傳統(tǒng)基于GNSS的無(wú)人機(jī)定位方式極易因受到遮擋而難以提供穩(wěn)定的位姿信息。本文利用了機(jī)巡無(wú)人機(jī)平臺(tái)搭載的單目相機(jī)和IMU,在傳統(tǒng)基于卷積神經(jīng)網(wǎng)絡(luò)的視覺(jué)里程計(jì)模型基礎(chǔ)上,結(jié)合長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)和IMU信息,提出了基于視覺(jué)慣性實(shí)例分割的深度學(xué)習(xí)模型,有效提升了系統(tǒng)的魯棒性和運(yùn)動(dòng)解算精度,通過(guò)對(duì)提出的自定位模型進(jìn)行實(shí)驗(yàn)評(píng)估,展示了模型的訓(xùn)練效果,并針對(duì)無(wú)人機(jī)的應(yīng)用環(huán)境設(shè)計(jì)了現(xiàn)場(chǎng)實(shí)驗(yàn),最終VIPS-Mono模型下的平均定位誤差為0.058m,優(yōu)于CNN-LSTM-VO模型下的0.234m。結(jié)果表明,本文所提的模型可為輸電線路巡檢無(wú)人機(jī)的自定位提供有效支撐。
關(guān)鍵詞:無(wú)人機(jī);深度學(xué)習(xí);自定位技術(shù)
DOI:10.15938/j.jhust.2024.04.014
中圖分類號(hào): O348.8
文獻(xiàn)標(biāo)志碼: A
文章編號(hào): 1007-2683(2024)04-0123-09
Research on Self-positioning Technology of Overhead Transmission Line Robot
ZHOU Shuai1,2, YU Hong1, ZHANG Chi2, SHEN Feng2
(1.Electric Power Research Institute, Yunnan Power Grid Co., Ltd., Kunming 650217, China;
2.School of Instrumentation Science and Engineering, Harbin Institute of Technology, Harbin 150006, China)
Abstract:Accurate position information is a key element to ensure the efficient operation of inspection UAVs, but due to the widespread distribution of transmission and distribution lines, the traditional GNSS-based UAV positioning method is very likely to be obstructed and difficult to provide stable position information. In this paper, the monocular camera and IMU carried by the machine patrol UAV platform are utilized. Based on the traditional visual odometry model utilizing convolutional neural network, combined with the long and short-term memory neural network and IMU information, a deep learning model based on the segmentation of visual inertial instances is proposed, which effectively improves the robustness of the system and the accuracy of the motion solution. Through experimental evaluation of the proposed self-localization model, the training effectiveness of the model is demonstrated. Field experiments are designed to address the application environment of UAVs. The final average localization error under the VIPS-Mono model is 0.058m, which is better than that under the CNN-LSTM-VO model of 0.234m. The results show that the model proposed in this paper can provide effective support for the self-localization of the UAVs for power transmission line inspections.
Keywords:UAV; deep learning; self-positioning technology
0 引 言
隨著電網(wǎng)建設(shè)的大規(guī)模開(kāi)展,電網(wǎng)基礎(chǔ)建設(shè)朝著智能化、大容量、大跨度輸送電力方向發(fā)展。輸配電線路的運(yùn)行維護(hù)任務(wù)強(qiáng)度也逐漸加大。由于客觀原因,大量的輸配電線路都分布在戶外,并且覆蓋面積廣,極易受到惡劣自然環(huán)境和人為因素影響,進(jìn)而產(chǎn)生重大的安全隱患。因此,開(kāi)展輸配電線路狀態(tài)監(jiān)測(cè)研究工作具有重要意義[1-8]。目前,云南電網(wǎng)公司在輸配電線路巡檢方面部署了大量機(jī)載平臺(tái),極大的提高了輸配電線路巡檢效率,但是,當(dāng)前在實(shí)際應(yīng)用方面仍有較大提升空間。
無(wú)人機(jī)運(yùn)行在輸電線路上,高空環(huán)境下背景較為單一,加之在室外較強(qiáng)光照的影響下,通過(guò)幾何變換求解視覺(jué)里程計(jì)的方法無(wú)法取得較好的效果[9-13]。本章節(jié)研究一種通過(guò)深度學(xué)習(xí)的方式來(lái)求解無(wú)人機(jī)自身的位姿變化,實(shí)現(xiàn)自定位。
傳統(tǒng)的視覺(jué)里程計(jì)方法中,特征點(diǎn)法需要人為設(shè)計(jì)特征,在特征提取時(shí)計(jì)算較為復(fù)雜,導(dǎo)致效率較低;直接法不需要提取特征點(diǎn),但是在相機(jī)運(yùn)動(dòng)較快,光照條件較為惡劣等情況下,表現(xiàn)效果較差[14]。隨著深度學(xué)習(xí)的不斷發(fā)展,人們將深度學(xué)習(xí)方法引入到視覺(jué)里程計(jì)(visual odometry, VO)中,改善了傳統(tǒng)方法的弊端。
2015年,KONDA 等[15]借助卷積神經(jīng)網(wǎng)絡(luò)提出一種端到端的相機(jī)位姿估計(jì)方法,驗(yàn)證了使用深度學(xué)習(xí)方法進(jìn)行相機(jī)位姿估計(jì)的可行性。同年,PoseNet方法由Kendall 等[16-18]提出,通過(guò)運(yùn)動(dòng)結(jié)構(gòu)(Structure from Motion, SfM)生成樣本標(biāo)簽,使用卷積神經(jīng)網(wǎng)絡(luò)與遷移學(xué)習(xí)的方式進(jìn)行訓(xùn)練,可以較為準(zhǔn)確的估計(jì)出相機(jī)的方向和速度。而后Wang等[19]提出一種DeepVO網(wǎng)絡(luò),在卷積神經(jīng)網(wǎng)絡(luò)后引入循環(huán)神經(jīng)網(wǎng)絡(luò)處理圖像序列問(wèn)題,在相機(jī)位姿估計(jì)方面取得了較好的實(shí)驗(yàn)效果,后續(xù)的應(yīng)用循環(huán)卷積神經(jīng)網(wǎng)絡(luò)求解單目相機(jī)位姿的方法大都參考了該方法的網(wǎng)絡(luò)框架。
2018年,Costante等[20]使用了三種卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)用于學(xué)習(xí)視覺(jué)里程計(jì)的特征,網(wǎng)絡(luò)的輸入為稠密光流,這種方式增加了該方法在光照惡劣與畫(huà)質(zhì)不清晰情況下的魯棒性,由于缺少相機(jī)高速運(yùn)動(dòng)的樣本用于模型訓(xùn)練,當(dāng)兩幀圖像相差較大時(shí),估計(jì)結(jié)果較差。
2020年,Pang等[21-23]提出一種多模態(tài)學(xué)習(xí)網(wǎng)絡(luò)CLOCs,同時(shí)學(xué)習(xí)雷達(dá)與圖像兩種數(shù)據(jù)集,相較于僅對(duì)圖像進(jìn)行學(xué)習(xí)的方式,在穩(wěn)定性與位姿估計(jì)精度方面均取得了不錯(cuò)的效果。
當(dāng)下,視覺(jué)里程計(jì)方法在機(jī)器人研究領(lǐng)域得到了廣泛的應(yīng)用,以深度學(xué)習(xí)方法為代表的視覺(jué)里程計(jì)研究取得了較大的發(fā)展,在背景單一、光照惡劣等情況下彌補(bǔ)了傳統(tǒng)方法的不足,但是相較于傳統(tǒng)的研究方法,在整體效果上還有一定的距離。本文用卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)卷積神經(jīng)網(wǎng)絡(luò)和單目視覺(jué)慣性測(cè)量單元(inertial measurement unit, IMU)語(yǔ)義融合系統(tǒng)三種方法對(duì)無(wú)人機(jī)自定位問(wèn)題展開(kāi)研究,探究三種方法對(duì)于無(wú)人機(jī)應(yīng)用自定位的實(shí)驗(yàn)效果。
1 基于卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的視覺(jué)里程計(jì)模型
傳統(tǒng)基于卷積神經(jīng)網(wǎng)絡(luò)的視覺(jué)里程計(jì)模型僅僅利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)相鄰兩張圖片之間的幾何變化關(guān)系,考慮到網(wǎng)絡(luò)的輸入為序列圖片,即連續(xù)多幀圖片,研究引入循環(huán)神經(jīng)網(wǎng)絡(luò)充足利用時(shí)間序列的輸入圖片。根據(jù)前文對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)的介紹,最終選擇長(zhǎng)短期記憶(long short-term memory, LSTM)連接在CNN-VO網(wǎng)絡(luò)之后,形成CNN-LSTM-VO網(wǎng)絡(luò)來(lái)解決多幀圖片之間位姿估計(jì)問(wèn)題。
循環(huán)神經(jīng)網(wǎng)絡(luò)(rerrent neural network, RNN)主要被用于處理序列相關(guān)的問(wèn)題,視覺(jué)里程計(jì)的輸入為連續(xù)的多幀圖像,因此考慮引入循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)解決多幀圖片之間的序列問(wèn)題。RNN模型結(jié)構(gòu)如圖1所示,可用式(1)表示:
ht=f(ht-1,xt)(1)
其中:x=(x1,x2,…,xn)標(biāo)志輸入序列,上標(biāo)代表序列時(shí)間;y=(y1,y2,…,yn)表示每個(gè)時(shí)刻對(duì)應(yīng)的輸出序列;h=(h1,h2,…,hn)表示RNN內(nèi)部隱藏狀態(tài)。
RNN所代表的循環(huán)層內(nèi)部運(yùn)算如圖2所示。其中,虛線部分表示循環(huán)層中的運(yùn)算,以第t+1個(gè)循環(huán)單元為例,W表示權(quán)重參數(shù),選擇tanh函數(shù)作為激活函數(shù),則運(yùn)算流程可由式(2)表示。
Ht+1=tanh(HtWHH+Xt+1WXH)(2)
若在RNN中使用了偏置,計(jì)算式由式(2)變?yōu)槭剑?),最后的輸出結(jié)果由式(4)獲得。
Ht+1=tanh(HtWHH+bHH+Xt+1WXH+bXH)(3)
Yt+1=Ht+1WHY(4)
盡管循環(huán)神經(jīng)網(wǎng)絡(luò)已經(jīng)能夠很好地對(duì)輸入的序列數(shù)據(jù)進(jìn)行處理,但它有一個(gè)弊端,就是不能進(jìn)行長(zhǎng)期記憶,其帶來(lái)的影響就是如果近期輸入的數(shù)據(jù)發(fā)生了變化,則會(huì)對(duì)當(dāng)前的輸出結(jié)果產(chǎn)生重大影響。為了避免這種情況的出現(xiàn),Hochreiter與Schmidhuber在1997年提出了LSTM [24]類型的循環(huán)神經(jīng)網(wǎng)絡(luò)模型。
LSTM由一系列LSTM單元組成,其具體結(jié)構(gòu)如圖3所示。LSTM采用了三個(gè)門(gate)分別處理輸入信號(hào)、內(nèi)部狀態(tài)以及輸出信號(hào),其中輸入門對(duì)輸入有選擇性地進(jìn)行“記憶”,決定有多少輸入信號(hào)xt可以保存到單元狀態(tài)ct;遺忘門對(duì)上一個(gè)節(jié)點(diǎn)傳進(jìn)來(lái)的單元狀態(tài)ct-1進(jìn)行過(guò)濾,決定遺忘多少信息;輸出門控制單元狀態(tài)ct有多少輸出到LSTM的輸出值ht。
門其實(shí)是一層全連接層,輸入是一個(gè)向量,輸出是一個(gè)0到1之間的實(shí)數(shù)向量。門的計(jì)算方程由式(7)~(8)表示。其中,Wc,Wi,Wf與Wo分別表示單元狀態(tài)、輸入門、遺忘門與輸出門的權(quán)重矩陣,[ht-1,xt]表示把兩個(gè)向量連接成一個(gè)更長(zhǎng)的向量,b代表每一項(xiàng)對(duì)應(yīng)的偏置,σ代表sigmoid函數(shù)。
at=tanh(Wc·[ht-1,xt]+ba)=tanh(t)(5)
it=σ(Wi·[ht-1,xt]+bi)=σ(i^t)(6)
ft=σ(Wf·[ht-1,xt]+bf)=σ(f^t)(7)
ot=σ(Wo·[ht-1,xt]+bo)=σ(t)(8)
在不考慮偏置與非線性環(huán)節(jié)的情況下,有:
zt=ti^tf^tt=
WcWiWfWo[ht-1 xt]=WIt(9)
LSTM單元狀態(tài)的更新方程由式(10)表示,隱節(jié)點(diǎn)的輸出ht可由式(11)計(jì)算得出,其中⊙表示向量點(diǎn)乘運(yùn)算。
ct=it⊙a(bǔ)t+ft⊙ct-1(10)
ht=ot⊙tanh(ct)(11)
LSTM按時(shí)間展開(kāi)的結(jié)構(gòu)如圖所示。相鄰兩個(gè)時(shí)刻的數(shù)據(jù)在LSTM方法中通過(guò)狀態(tài)c和h進(jìn)行傳遞[25]。
CNN-LSTM-VO網(wǎng)絡(luò)框架如圖5所示,與經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)的預(yù)處理過(guò)程一致,將輸入圖片微調(diào)大小至1280×384。將輸入的n+1張圖片(t0~tn)組成n組圖片對(duì)輸入給卷積層進(jìn)行特征提??;在CNN層后面引入一層最大池化層,降低特征圖譜的維度,從而大大減少了LSTM層需要訓(xùn)練的參數(shù)量;池化層輸出大小為10×3×1024的張量數(shù)據(jù),輸入至兩層LSTM層,每個(gè)時(shí)刻LSTM輸出的數(shù)據(jù)再經(jīng)過(guò)全連接層降維,最后經(jīng)過(guò)特征濃縮得到6維表示相互鄰近圖片之間的相對(duì)位置姿態(tài)變化,即(Δx,Δy,Δz,Δφ,Δχ,Δ)。
2 單目視覺(jué)IMU語(yǔ)義融合系統(tǒng)
在以上基礎(chǔ)上,本文額外引入IMU信息,提出VIPS-Mono系統(tǒng),框架[26]如圖6所示。IMU信息源于KITTI數(shù)據(jù)集,KITTI數(shù)據(jù)集是一個(gè)用于自動(dòng)駕駛場(chǎng)景下的計(jì)算機(jī)視覺(jué)算法測(cè)評(píng)數(shù)據(jù)集,數(shù)據(jù)集包含場(chǎng)景有市區(qū)、鄉(xiāng)村和高速公路等,KITTI數(shù)據(jù)集由立體圖像、光流圖、視覺(jué)測(cè)距序列、3D標(biāo)注物體的圖像等內(nèi)容組成。在數(shù)據(jù)集中,IMU(其實(shí)應(yīng)該是IMU+GPS或者慣性導(dǎo)航系統(tǒng)INS)數(shù)據(jù)的30個(gè)字段值,包含有空間位置(緯度lat、經(jīng)度lon、海拔高度alt)、姿態(tài)(橫滾角roll、俯仰角pitch、航向角yaw)、位置精度pos_accuracy、導(dǎo)航狀態(tài)navstat、速度模式velmode和方位模式orimode等多個(gè)信息。如圖中綠色區(qū)域,利用圖像池技術(shù),使得系統(tǒng)不會(huì)立刻處理當(dāng)前輸入幀,而是將當(dāng)前輸入幀置于序列之后。當(dāng)語(yǔ)義分割進(jìn)程處理完上一分割幀時(shí),把當(dāng)前圖像池中的最后幀設(shè)置為分割幀。VIPS-Mono以單目相機(jī)與IMU測(cè)量為輸入。利用BlendMask 輸出了(1)每一個(gè)備選運(yùn)動(dòng)物體的錨定框(Bounding box)。(2)每一個(gè)備選運(yùn)動(dòng)物體的掩膜(Mask)。
系統(tǒng)結(jié)合了IMU的測(cè)量數(shù)據(jù)求解了相機(jī)運(yùn)動(dòng)尺度與重力矢量,為了削弱運(yùn)動(dòng)物體在初始化過(guò)程中對(duì)于結(jié)果的影響,我們剔除了運(yùn)動(dòng)物體掩膜上所有特征。除此之外,由于KITTI中目標(biāo)在高速運(yùn)動(dòng),所以我們直接利用KITTI 數(shù)據(jù)中的GPS/IMU 數(shù)據(jù)作為輸入,并將輸出結(jié)果給到滑動(dòng)窗口中。藍(lán)色模塊利用圖像池中數(shù)據(jù)與 BlendMask 輸出的掩膜分割備選運(yùn)動(dòng)物體.利用運(yùn)動(dòng)物體判定算法篩選目標(biāo)。最后跟蹤運(yùn)動(dòng)物體。并根據(jù)每個(gè)運(yùn)動(dòng)物體上的特征點(diǎn)解算物體運(yùn)動(dòng),其中平移量為相機(jī)運(yùn)動(dòng)與物體運(yùn)動(dòng)的綜合,且無(wú)尺度約束。橙色區(qū)域利用BlendMask輸出的錨定框解算當(dāng)前坐標(biāo)系下目標(biāo)物體的相對(duì)位置,并根據(jù)物體深度高度聯(lián)合優(yōu)化算法進(jìn)行優(yōu)化.計(jì)算目標(biāo)的運(yùn)動(dòng)尺度。最后結(jié)合CNN-LSTM-VO與IMU計(jì)算部分的輸出結(jié)果獲得真實(shí)世界尺度下的載體自運(yùn)動(dòng)參數(shù)。
3 無(wú)人機(jī)自定位實(shí)驗(yàn)驗(yàn)證
本文選擇KITTI數(shù)據(jù)集中帶定位真值的前11個(gè)場(chǎng)景序列,其中,訓(xùn)練集選自序列00,01,02,05,08,09,測(cè)試集選自序列03,04,06,07,10。在模型訓(xùn)練過(guò)程中,驗(yàn)證集從訓(xùn)練集序列中隨機(jī)挑選,并采用不放回抽樣的方式保證驗(yàn)證集與訓(xùn)練集的不同。
3.1 視覺(jué)里程計(jì)訓(xùn)練過(guò)程
模型訓(xùn)練時(shí),具體參數(shù)設(shè)置如表1所示。整個(gè)訓(xùn)練過(guò)程花費(fèi)12 h達(dá)到一個(gè)較小的訓(xùn)練誤差,為避免過(guò)擬合,在表1的Conv6_1與第一層全連接層之間,第一層與第二層全連接層之間分別加入Dropout,同時(shí)引入early stopping技術(shù),在過(guò)擬合之前停止訓(xùn)練。
如圖7所示,圖中誤差表示loss值,通常數(shù)據(jù)集會(huì)被劃分成三部分,訓(xùn)練集(training dataset)、驗(yàn)證集(validation dataset)、測(cè)試集(test dataset)。訓(xùn)練模型時(shí)也經(jīng)常會(huì)根據(jù)訓(xùn)練集的loss和驗(yàn)證集loss來(lái)診斷模型,從而期望能夠優(yōu)化參數(shù)訓(xùn)練出一個(gè)更好的模型,即泛化能力(generalization)強(qiáng)的模型。在loss曲線上的特點(diǎn)是training loss和validation loss都已經(jīng)收斂并且之間相差很小很小。
如圖7所示,模型在20輪過(guò)后,兩個(gè)loss曲線都開(kāi)始收斂,而且兩者之間并沒(méi)有肉眼的差距模型訓(xùn)練誤差曲線(藍(lán)色)與驗(yàn)證誤差曲線(橙色)隨著迭代次數(shù)的增加,在對(duì)應(yīng)批次數(shù)據(jù)上的誤差逐漸收斂,最終兩者的誤差達(dá)到一個(gè)較小的范圍。
3.2 視覺(jué)慣性里程計(jì)訓(xùn)練過(guò)程
模型訓(xùn)練時(shí),本文隨機(jī)選取序列圖像中的一幀圖像作為起始幀,向后連續(xù)取出一定數(shù)量的圖片作為一個(gè)樣本序列,為減少樣本圖片之間的大量重疊,鄰近的兩組樣本序列中,使用間隔多幀的方式選取起始幀。該模型訓(xùn)練的優(yōu)化算法選擇批量梯度下降法,優(yōu)化器選擇自適應(yīng)矩陣計(jì),初始學(xué)習(xí)率設(shè)置為0.0001。該模型CNN部分參數(shù)選擇CNN-VO訓(xùn)練好的模型參數(shù)進(jìn)行初始化,LSTM的參數(shù)隨機(jī)初始化。為避免過(guò)擬合,本文在VIPS-Mono中加入Dropout,同樣引入early stopping技術(shù)。
模型訓(xùn)練時(shí),設(shè)置樣本序列長(zhǎng)度為2,4,8,分別間隔1,2,4幀選取樣本起始幀,LSTM的批量大小設(shè)置為4,網(wǎng)絡(luò)批量大小依次為80,40,20。
如圖8所示,VIPS-Mono訓(xùn)練過(guò)程曲線中,訓(xùn)練集誤差曲線(藍(lán)色)與驗(yàn)證集誤差曲線(橙色)隨著迭代次數(shù)的增加,在對(duì)應(yīng)批次數(shù)據(jù)上的誤差逐漸收斂,并且兩者之間相差較小,達(dá)到完美擬合狀態(tài)。對(duì)比圖7可以看出,引入IMU信息的VIPS-Mono系統(tǒng)模型精度較CNN-LSTM-VO精度高。
4 實(shí)驗(yàn)結(jié)果與分析
本文將CNN-VO、CNN-LSTM-VO和VIPS-Mono三種方法與VISO-S、VISO-M以及KITTI數(shù)據(jù)集提供的真實(shí)軌跡進(jìn)行對(duì)比,VISO-S為經(jīng)典的雙目VO方法,VISO-M為經(jīng)典的單目VO方法。從圖9可以看出,VIPS-Mono在序列03和序列04的表現(xiàn)效果相較于CNN-LSTM-VO與VISO-M方法較好,說(shuō)明加入Dropout的VIPS-Mono模型在直線與曲線的運(yùn)動(dòng)場(chǎng)景效果可以很好的預(yù)測(cè)相機(jī)運(yùn)動(dòng)軌跡。
從上圖各模型在測(cè)試集對(duì)相機(jī)運(yùn)動(dòng)軌跡的預(yù)測(cè)結(jié)果來(lái)看,VIPS-Mono模型對(duì)于位移的估計(jì)效果較好,在序列03,序列04與序列10上僅低于雙目方法VISO-S,這三個(gè)運(yùn)動(dòng)場(chǎng)景角度變化較小,因此具有較好的運(yùn)動(dòng)軌跡擬合效果;而CNN-LSTM-VO模型在角度變化較大的運(yùn)動(dòng)場(chǎng)場(chǎng)景中表現(xiàn)了較好的定位效果,從序列06與序列07中可以看出,該方法的相機(jī)運(yùn)動(dòng)軌跡擬合程度僅次于雙目方法VISO-S,在這種閉合曲線運(yùn)動(dòng)軌跡體現(xiàn)出較強(qiáng)的定位效果。
VIPS-Mono與CNN-LSTM-VO方法與VISO-M、VISO-S方法在不同長(zhǎng)度下子序列的平均平移誤差、不同長(zhǎng)度子序列的平均旋轉(zhuǎn)誤差、不同時(shí)速下的平均平移誤差與不同時(shí)速下的平均旋轉(zhuǎn)誤差四個(gè)指標(biāo)的對(duì)比如圖10所示。從圖中可以看出,VIPS-Mono模型在平移誤差好于VISO-M與CNN-LSTM-VO模型,低于VISO-S;而在旋轉(zhuǎn)誤差方面,加入循環(huán)卷積神經(jīng)網(wǎng)絡(luò)的CNN-LSTM-VO模型更受一籌。
綜合運(yùn)動(dòng)軌跡圖與評(píng)價(jià)指標(biāo),本文基于深度學(xué)習(xí)提出的模型在測(cè)試效果上,基本勝于單目VISO-M方法,證明了深度學(xué)習(xí)應(yīng)用于視覺(jué)里程計(jì)的可行性。無(wú)論是VIPS-Mono還是CNN-LSTM-VO模型,其效果較雙目算法VISO-S都還有提升空間。
為驗(yàn)證本文提出的算法在無(wú)人機(jī)應(yīng)用環(huán)境下的自定位效果,通過(guò)全站儀與無(wú)人機(jī)單目相機(jī)同步采集無(wú)人機(jī)在模擬線路環(huán)境下的運(yùn)動(dòng)數(shù)據(jù)與單目視頻數(shù)據(jù)。全站儀的采集精度為 ,動(dòng)態(tài)采集頻率最高可以設(shè)置為10幀,因此,為保證采集效果,單目相機(jī)與全站儀采集頻率均設(shè)置為10幀。
由上一小結(jié)分析,VIPS-Mono模型對(duì)于直線運(yùn)動(dòng)有較好的擬合效果,因此,采用VIPS-Mono模型預(yù)測(cè)輸電場(chǎng)景下的無(wú)人機(jī)自定位實(shí)現(xiàn)。無(wú)人機(jī)在模擬場(chǎng)地的自定位實(shí)驗(yàn)效果如圖12所示,圖中黑色曲線為全站儀給定的真值軌跡,紅色曲線為VIPS-Mono方法對(duì)單目相機(jī)數(shù)據(jù)預(yù)測(cè)的軌跡曲線。
除此之外,我們比較了架空巡檢機(jī)器人的真實(shí)軌跡、CNN-LSTM-VO模型軌跡和VIPS-Mono模型軌跡的結(jié)果,如圖13所示。
圖13中藍(lán)色為CNN-LSTM-VO模型下的軌跡,綠色代表目標(biāo)的真實(shí)軌跡,而紅色軌跡則由VIPS-Mono模型算法估計(jì)。由圖可以看出,KITTI tracking training數(shù)據(jù)中的真值軌跡估計(jì)非常不穩(wěn)定,這可能源于該數(shù)據(jù)集中的目標(biāo)軌跡估計(jì)也源于只是對(duì)錨定框進(jìn)行了簡(jiǎn)單處理與計(jì)算。而由VIPS-Mono模型優(yōu)化算法的軌跡明顯比CNN-LSTM-VO模型數(shù)據(jù)更為平滑。
由表2可知,針對(duì)3次實(shí)驗(yàn),CNN-LSTM-VO模型的誤差分別為0.131m、0.122m和0.068m。而VIPS-Mono模型下的實(shí)驗(yàn)誤差為0.072m、0.063m和0.033m。通過(guò)總體平均誤差可以看出,VIPS-Mono模型下的定位誤差小于CNN-LSTM-VO模型,驗(yàn)證了VIPS-Mono模型的定位精度,在輸配電線路巡檢無(wú)人機(jī)自定位問(wèn)題上的提升。
5 結(jié) 論
針對(duì)無(wú)人機(jī)在輸電線路的自定位問(wèn)題,對(duì)比分析了本文提出的CNN-VO、CNN-LSTM-VO和VIPS-Mono模型在KITTI數(shù)據(jù)集的自定位效果,并將語(yǔ)義分割信息融合到初始化進(jìn)程中,避免了運(yùn)動(dòng)特征點(diǎn)在視覺(jué)SFM過(guò)程中對(duì)初始化結(jié)果產(chǎn)生干擾,增強(qiáng)了VIPS-Mono在初始化過(guò)程中的魯棒性以及提高了尺度計(jì)算的精度。針對(duì)以上述創(chuàng)新點(diǎn),本文在KITTI數(shù)據(jù)集中進(jìn)行了實(shí)驗(yàn)對(duì)比,最終結(jié)果驗(yàn)證了VIPS-Mono系統(tǒng)的優(yōu)越性。
參 考 文 獻(xiàn):
[1] 歐發(fā)斌, 廖偉寧, 何邦權(quán),等. 輸電線路清障裝置機(jī)械結(jié)構(gòu)設(shè)計(jì)[J]. 現(xiàn)代商貿(mào)工業(yè), 2015,12(14):216.
OU Fabin, LIAO Weining, HE Bangquan, et al.Mechanical Structure Design of Transmission Line Clearing Device[J]. Modern Business Trade Industry, 2015,12(14):216.
[2] 李梁. 變電站巡檢機(jī)器人視頻監(jiān)控系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 上海:上海交通大學(xué), 2013.
[3] 蔡煥青,邵瑰瑋,胡霽,等.變電站巡檢機(jī)器人應(yīng)用現(xiàn)狀和主要性能指標(biāo)分析[J].電測(cè)與儀表,2017,54(14):117.
CAI Huanqing,SHAO Guiwei,HU Ji,et al.Analysis of the Main Performance Index and Application Status of Inspection Robot in Substation[J].Electrical Measurement amp; Instrumentation,2017,54(14):117.
[4] 羅宇亮,沈潔.智能機(jī)器人巡檢系統(tǒng)在輸變電工程中的應(yīng)用研究[J].電測(cè)與儀表,2020,57(23):17.
LUO Yuliang,SHEN Jie.Application Research of Intelligent Robot Inspection System in Power Transmission and Transformation Engineering[J].Electrical Measurement amp; Instrumentation,2020,57(23):17.
[5] LI X,OERTEL N, HUTTER A, et al. Laplace Distribution Based Lagrangian Rate Distortion Optimization for Hybrid Video Coding[J]. IEEE Transactions on Circuits and Systems for Video Technology,2009,19(2):193.
[6] 柯清派,史訓(xùn)濤,袁智勇,等.基于改進(jìn)遺傳算法的變電站巡檢機(jī)器人路徑規(guī)劃[J].電測(cè)與儀表,2023,60(8):144.
KE Qingpai,SHI Xuntao,YUAN Zhiyong,et al.Route Planning for Substation Patrol Robot Based on Improved Genetic Algorithms[J].Electrical Measurement amp; Instrumentation,2023,60(8):144.
[7] 馬鋒,高明亮,許崇耀,等,高際惟.基于仿真優(yōu)化智能變電站巡檢機(jī)器人路徑研究[J].電測(cè)與儀表,2023,60(9):14.
MA Feng,GAO Mingliang,XU Chongyao,et al.Research on path optimization of intelligent substation inspection robot based on simulation[J].Electrical Measurement amp; Instrumentation,2023,60(9):14.[8] 王魯單, 王洪光, 房立金,等. 一種輸電線路巡檢機(jī)器人控制系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 機(jī)器人,2007,2(1):9.
WANG Ludan, WANG Hongguang, FANG Lijin, et al. Design and Implementation of the Control System of a Transmission Line Inspection Robot[J]. Robot,2007,2(1):9.
[9] 繆航. 架空輸電線智能巡檢機(jī)器人控制系統(tǒng)設(shè)計(jì)[D]. 南昌:南昌大學(xué), 2017.
[10] 王萬(wàn)國(guó),張晶晶,韓軍,等.基于無(wú)人機(jī)圖像的輸電線斷股與異物缺陷檢測(cè)方法[J].計(jì)算機(jī)應(yīng)用,2015,35(8):2404.
WANG Wanguo, ZHANG Jingjing, HAN Jun, et al. Broken Strand and Foreign Body Fault Detection Method for Power Transmission Line Based on Unmanned Aerial Vehicle Image[J]. Journal of Computer Applications,2015,35(8):2404.
[11] 沙偉燕,何寧輝,丁培,等.基于無(wú)人機(jī)圖像處理的輸電線路提取技術(shù)研究[J].電測(cè)與儀表,2022,59(5):158.
SHA Weiyan,HE Ninghui,DING Pei,et al.Research on UAV Image Extraction Technology of Transmission Line[J].Electrical Measurement amp; Instrumentation,2022,59(5):158.
[12] 董靈鵬,鄒國(guó)平,楊仕友.電力巡檢無(wú)人機(jī)電磁場(chǎng)測(cè)距及校準(zhǔn)技術(shù)研究[J].電測(cè)與儀表,2023,60(9):1.
DONG Lingpeng,ZOU Guoping,YANG Shiyou.Research on Electromagnetic Field Ranging and Calibration Technology of Electric Patrol UAV[J].Electrical Measurement amp; Instrumentation,2023,60(9):1.
[13] 羅顯躍,周敬余,禹天潤(rùn),等.基于四旋翼無(wú)人機(jī)的二次屏柜巡檢系統(tǒng)[J].電測(cè)與儀表,2022,59(7):175.
LUO Xianyue,ZHOU Jingyu,YU Tianrun,et al.Secondary Screen Inspection System Based on Quadrotor UAV[J].Electrical Measurement amp; Instrumentation,2022,59(7):175.
[14]張桂南, 劉志剛. 基于角點(diǎn)匹配與譜聚類的接觸網(wǎng)絕緣子破損/夾雜異物故障檢測(cè)[J]. 儀器儀表學(xué)報(bào), 2014, 35(6):8.
ZHANG Guinan, LIU Zhigang. Fault Detection of Catenary Insulator Damage/Foreign Material Based on Corner Matching and Spectral Clustering[J]. Chinese Journal of Scientific Instrument, 2014, 35(6):8.
[15]KONDA K R,MEMISEVIC R. Learning Visual Odometry with a Convolutional Network[C]//Proceedings of International Conference on Computer Vision Theory and Applications.Washington D. C.,USA:IEEE Press,2015:486.
[16]KENDALL A,GRIMES M,CIPOLLA R.PoseNet: a Convolutionalnetwork for Real-time 6-DOF Camera Relocalization[C] IEEE International Conference on Computer Vision ( IC-CV) ,2015:2938.
[17]WANG S,CLARK R,WEN H K,et al.Deep VO: Towards End-to-end Visual Odometry with Deep Recurrent Convolutionalneural Networks[C]∥IEEE International Conference on Robotics and Automation ( ICRA),2017:2043.
[18]COSTANTE G,CIARFUGLIA T A.LS-VO: Learning Dense Opticalsubspace for Robust Visual Odometry Estimation[J]. IEEE Robotics and Automation Letters,2018,3(3):1735.
[19]PANG S,MORRIS D,RADHA H. CLOCs:Camera-LiDARobject Candidates Fusion for 3D Object Detection[EB/OL].[2021-01-01].
[20]GODARD C,AODHA O M,BROSTOW G J.Unsupervised Monoc-ular Depth Estimation with Left-right Consistency[C]∥IEEE Conference on Computer Vision and Pattern Recog-nition (CVPR),2017:270.
[21]ZHOU T H,BROWN M,SNAVELY N,et al.Unsupervised Learn-ing of Depth and Ego-motion from Video[C]∥IEEE Con-ference on Computer Vision and Pattern Recognition (CVPR),2017:6612.
[22]LIU Q,LI R H,HU H S,et al.Using Unsupervised Deeplearning Technique for Monocular Visual Odometry[J].IEEE Access,2019,7:18076.
[23]YANG N,STUMBERG L V,WANG R,et al. D3VO:Deepdepth,Deep Pose and Deep Uncertainty for Monocular Visualodometry[C] Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C.,USA:IEEE Press,2020:1281.
[24]HOCHREITER, SEPP, SCHMIDHUBER, et al. Long Short-term Memory[J]. Neural Computation,1997.
[25]FISCHER P, DOSOVITSKIY A, IlG E, et al. FlowNet: Learning Optical Flow with Convolutional Networks[C] 2015 IEEE International Conference on Computer Vision (ICCV). IEEE, 2016.
[26]盧曉昀. 動(dòng)態(tài)環(huán)境下的單目視覺(jué)同時(shí)定位與建圖[D].西安:中國(guó)科學(xué)院大學(xué),2021.
(編輯:溫澤宇)