賈迪,王子滔,李宇揚(yáng),金志楊,劉澤洋,吳思
1. 遼寧工程技術(shù)大學(xué)電子與信息工程學(xué)院, 葫蘆島 125105; 2. 遼寧工程技術(shù)大學(xué)電器與控制工程學(xué)院, 葫蘆島 125105
在自動(dòng)駕駛、增強(qiáng)現(xiàn)實(shí)和機(jī)器人導(dǎo)航等領(lǐng)域,獲取準(zhǔn)確的深度信息尤為重要。獲取深度信息的方式分為被動(dòng)傳感測(cè)距和主動(dòng)傳感測(cè)距兩類。被動(dòng)傳感測(cè)距通過立體匹配算法獲得像對(duì)的稠密視差圖,并根據(jù)三角測(cè)量原理計(jì)算深度信息,然而受相機(jī)分辨率及攝影基線的影響較大,視差精度不高;主動(dòng)傳感測(cè)距通過傳感器本身發(fā)射與收集能量的方式獲得深度信息,主要有TOF(time of flight)、結(jié)構(gòu)光和激光雷達(dá)(light detection and ranging,LiDAR)掃描等方法,由于激光雷達(dá)具有測(cè)距范圍廣和測(cè)量精度高的優(yōu)勢(shì),已廣泛應(yīng)用于3維空間感知的人工智能系統(tǒng)。通常,激光雷達(dá)獲取的場(chǎng)景中的深度信息是稀疏的,且受運(yùn)動(dòng)狀態(tài)和場(chǎng)景中運(yùn)動(dòng)物體的影響較大,導(dǎo)致收集的深度信息帶有噪聲。
為了解決上述問題,Ku等人(2018)提出將稀疏深度信息作為輸入推理缺失深度值,進(jìn)而得到稠密深度圖。然而該方法在遠(yuǎn)處物體和物體邊緣處激光雷達(dá)獲得的深度信息存在歧義,很難在這些位置上推理出缺失的深度信息。研究表明,利用RGB信息可以有效地構(gòu)建稠密深度圖(黃軍 等,2019;周大可 等,2021)。一些學(xué)者提出采用RGB圖像引導(dǎo)稀疏深度稠密化,通過RGB圖像中蘊(yùn)含的豐富信息提高稠密深度圖構(gòu)建質(zhì)量。Wang等人(2018)通過構(gòu)建多尺度融合模塊分別融合不同尺度下的RGB圖像和稀疏深度信息,學(xué)習(xí)它們之間的相關(guān)性,從而提取深度信息。Ma等人(2019)也采用多尺度學(xué)習(xí)的方式提取深度信息,與Wang等人(2018)方法不同之處在于,該方法首先將RGB圖像和稀疏深度信息級(jí)聯(lián)為4D張量進(jìn)行前期融合,之后再提取深度信息。與之對(duì)應(yīng)的方法為后期融合,Shivakumar等人(2019)分別從RGB圖像和稀疏深度中提取特征后再將二者融合,進(jìn)而提取深度信息。與前期融合相比,后期融合可以在RGB圖像和稀疏深度信息中提取到更多的上下文信息,進(jìn)而保留更多細(xì)節(jié)。Zhao等人(2021)采用圖傳播的方式捕獲空間信息,以此獲得場(chǎng)景中更多上下文信息。從RGB圖像中提取的信息也可用于引導(dǎo)稀疏深度信息的稠密化,Imran等人(2019)通過提取RGB圖像中豐富的語義線索引導(dǎo)構(gòu)建稠密深度圖。此外,還有很多其他方法也可融合與提取多模態(tài)信息中的深度信息。Tang等人(2020)通過學(xué)習(xí)自適應(yīng)卷積核大小和傳播迭代次數(shù),動(dòng)態(tài)地為每個(gè)像素分配所需的上下文和計(jì)算資源。Yan等人(2020)通過掩膜感知操作來處理和融合稀疏特征,從而學(xué)習(xí)到更多的深度信息。對(duì)于多模態(tài)信息中模態(tài)表示能力不足問題,Lee等人(2020)通過多模態(tài)特征融合交叉指導(dǎo)的方式解決。Park等人(2020)學(xué)習(xí)多模態(tài)信息中的親和度組合也可更好地構(gòu)建稠密深度圖。Xu等人(2019)的研究表明,在構(gòu)建稠密深度圖的過程中引入表面法線信息可以有效減小稀疏激光雷達(dá)點(diǎn)云受噪聲的影響。
受上述方法啟發(fā),本文采用單幅RGB圖像引導(dǎo)稀疏深度的方式構(gòu)建稠密深度圖,引入Dai等人(2017)提出的可變形卷積和Romera等人(2018)提出的ERF(efficient residual factorized)網(wǎng)絡(luò),并通過表面法線信息從幾何約束的角度提高稠密深度圖的構(gòu)建質(zhì)量。在多階段指導(dǎo)網(wǎng)絡(luò)(multi-stage guidance network,MsG)構(gòu)建稠密深度圖的策略上,以網(wǎng)絡(luò)中提取的深度和指導(dǎo)信息為主導(dǎo),將RGB圖像中提取的信息作為次引導(dǎo)信息,引導(dǎo)稀疏深度稠密化并修正深度信息中的誤差。在整體上,將稠密深度圖構(gòu)建工作分為指導(dǎo)信息引導(dǎo)路徑和RGB信息引導(dǎo)路徑,并將兩條路徑中的信息互補(bǔ)、整合獲得最終多階段指導(dǎo)網(wǎng)絡(luò)的稠密深度圖。本文的主要貢獻(xiàn)如下:1)構(gòu)造一種多階段指導(dǎo)網(wǎng)絡(luò),能夠有效處理物體邊緣和細(xì)節(jié)處的深度信息,提高稠密深度圖構(gòu)建準(zhǔn)確率;2)構(gòu)建了多模態(tài)信息融合指導(dǎo)模塊,可以在融合多模態(tài)信息的同時(shí)提取深度信息;3)構(gòu)建了精細(xì)化模塊,用于修正多模態(tài)信息融合指導(dǎo)模塊輸出結(jié)果。
圖1給出了多階段指導(dǎo)網(wǎng)絡(luò)結(jié)構(gòu),主要由指導(dǎo)信息引導(dǎo)路徑和RGB信息引導(dǎo)路徑構(gòu)成。在指導(dǎo)信息引導(dǎo)路徑上,首先通過ERF網(wǎng)絡(luò)融合稀疏深度信息及RGB圖像獲取前期指導(dǎo)信息,并與稀疏深度信息共同輸入指導(dǎo)信息處理模塊構(gòu)建表面法線。其次將多模態(tài)信息融合指導(dǎo)模塊獲得的中期指導(dǎo)信息與表面法線共同輸入到ERF網(wǎng)絡(luò)中,在表面法線的作用下,提取包含豐富深度信息的后期指導(dǎo)信息。然后利用后期指導(dǎo)信息引導(dǎo)稀疏深度稠密化,同時(shí)再次引入稀疏深度彌補(bǔ)前期忽略的深度信息,進(jìn)而得到此路徑上構(gòu)建的稠密深度圖。在RGB信息引導(dǎo)路徑上,前期指導(dǎo)信息用于引導(dǎo)融合稀疏深度信息與RGB圖像中提取的信息,并減小稀疏深度噪聲和稀疏性的影響。同時(shí),在多模態(tài)信息融合指導(dǎo)模塊中提取具有豐富深度信息的中期指導(dǎo)信息和初期稠密深度圖。但初期稠密深度圖中仍包含誤差信息,因此該圖在通過精細(xì)化模塊修正后才能夠得到此路徑上準(zhǔn)確的稠密深度圖。
網(wǎng)絡(luò)中采用加法操作融合稀疏深度和指導(dǎo)信息,可有效引導(dǎo)稀疏深度稠密化。采用級(jí)聯(lián)操作融合信息將有效保留不同信息中各自的特征,促使網(wǎng)絡(luò)或模塊提取到更多特征。
從整體上看,通過輸入信息初步提取前期指導(dǎo)信息,促進(jìn)表面法線構(gòu)建并引導(dǎo)稀疏深度與RGB信息融合;采用多模態(tài)信息融合指導(dǎo)模塊提取中期指導(dǎo)信息,以此作為連接兩條路徑的關(guān)鍵信息;融合中期指導(dǎo)信息與表面法線構(gòu)建后期指導(dǎo)信息,用于引導(dǎo)稀疏深度構(gòu)建稠密深度圖。從兩條路徑上看,在指導(dǎo)信息引導(dǎo)路徑上,通過包含豐富信息的前期、中期和后期指導(dǎo)信息引導(dǎo)稀疏深度構(gòu)建稠密深度圖;在RGB信息引導(dǎo)路徑上,多模態(tài)信息融合指導(dǎo)模塊通過RGB信息引導(dǎo)稀疏深度的稠密化,整合兩條路徑的結(jié)果從而對(duì)于物體細(xì)節(jié)和邊緣處收獲更好的效果。
圖1 多階段指導(dǎo)網(wǎng)絡(luò)結(jié)構(gòu)概覽Fig.1 Multi-stage guidance network structure overview
指導(dǎo)信息處理模塊不但能構(gòu)建指導(dǎo)信息引導(dǎo)路徑上的深度特征,而且可用于構(gòu)建表面法線信息,融合指導(dǎo)信息和稀疏深度以獲取深度信息。在構(gòu)建指導(dǎo)信息引導(dǎo)路徑上的深度特征時(shí),直接使用獲取的深度信息,而在構(gòu)建表面法線信息時(shí),采用深度信息到真實(shí)表面法線映射的形式,利用深度信息構(gòu)建表面法線,采用這種方式可以提高深度信息與表面法線信息之間更多的相關(guān)性。為了加強(qiáng)指導(dǎo)信息的指引性,促進(jìn)稀疏深度與指導(dǎo)信息的融合,本文采用圖2所示的網(wǎng)絡(luò)完成信息融合,圖中標(biāo)記“1”表示特征信息與輸入信息尺寸相同,“1/2”和“1/4”分別表示在輸入信息1/2和1/4尺寸下的特征信息。
圖2 指導(dǎo)信息處理模塊主要結(jié)構(gòu)Fig.2 The main structure of the guidance information processing module
為了更好地完成深度信息的提取,在多模態(tài)信息融合指導(dǎo)模塊中,通過前期指導(dǎo)信息引導(dǎo)稀疏深度進(jìn)行下采樣,并將融合后的稀疏深度與指導(dǎo)信息作為融合信息共同進(jìn)行特征提取操作。通過提取RGB圖像中的信息引導(dǎo)融合信息稠密化并剔除融合信息中的深度誤差。如圖3所示,其中,標(biāo)記“1”表示特征信息與輸入信息尺寸相同,“1/2”、“1/4”、“1/8”和“1/16”分別表示在輸入信息1/2、1/4、1/8和1/16尺寸下的特征信息。
圖3 多模態(tài)信息融合指導(dǎo)模塊Fig.3 Multi-modal information fusion guidance module
為了提取更加豐富的特征信息,采用殘差結(jié)構(gòu)塊(如圖4所示)進(jìn)行多尺度下采樣操作,其中BN為批歸一化操作,具體為
(1)
(2)
進(jìn)行多尺度特征提取的操作為
(3)
(4)
特征融合過程中,對(duì)不同尺度的特征設(shè)置不同的融合比例,在第一次和最后一次上采樣前的級(jí)聯(lián)操作中,可賦予融合特征信息更大的比例系數(shù)。上采樣及融合操作是將對(duì)應(yīng)尺度下的RGB特征與融合特征相加,得到對(duì)應(yīng)尺度下每個(gè)特征量的稠密信息增量。具體為
A1/m=D1/m+F1/m
(5)
式中,m=16、8、4、2,A1/16,A1/8,A1/4和A1/2表示在輸入圖像1/16、1/8、1/4和1/2尺寸下的稠密信息。
第1次上采樣操作表示為
U1/8=T(C(A1/16,D1/16,F1/16))
(6)
式中,C表示級(jí)聯(lián)操作,T表示逆卷積即上采樣操作,U1/8為輸入圖像1/8尺度下的上采樣結(jié)果。
第2 4次上采樣中,令K=4、2、1,則上采樣結(jié)果為
U1/k=T(C(A1/2k,D1/2k,U1/2k))
(7)
式中,U1/4、U1/2和U1分別表示在輸入圖像1/4、1/2和原尺寸下的上采樣結(jié)果。
在提取多階段融合圖U0時(shí),采用淺層融合特征與具有豐富特征信息的U1相結(jié)合,具體為
(8)
然后,根據(jù)得到的多階段融合圖提取中期指導(dǎo)信息Mg以及初期稠密深度圖Md,具體為
(9)
(10)
圖4 殘差結(jié)構(gòu)塊Fig.4 Residual block
常規(guī)卷積的主要操作過程為在輸入的特征圖上使用規(guī)則網(wǎng)格R進(jìn)行采樣,使用卷積核ω對(duì)采樣點(diǎn)進(jìn)行加權(quán)運(yùn)算,R定義了感受野大小和擴(kuò)張,具體為
R={(-1,-1),…,(0,1),(1,1)}
(11)
定義卷積核大小為3×3,擴(kuò)張率為1,對(duì)特征圖上的每個(gè)位置p0,則輸出值y(p0)為
(12)
式中,pn為R中所列出的位置。
在可變形卷積中,通過對(duì)規(guī)則網(wǎng)格R增加一個(gè)偏移量{Δpn|n=1,2,…,N-1,N},N=|R|,進(jìn)行擴(kuò)張。此外,對(duì)每個(gè)采樣點(diǎn)預(yù)測(cè)一個(gè)權(quán)重Δmn,則輸出值y(p0)為
(13)
圖5為精細(xì)化模塊結(jié)構(gòu)。為了減少初期稠密深度圖中的誤差,在多模態(tài)信息融合指導(dǎo)模塊中構(gòu)建具有豐富特征的多階段融合圖,提取輸入到可變形卷積的Δpn偏置項(xiàng)(x和y的偏置項(xiàng)),并將初期稠密深度圖和偏置項(xiàng)輸入到可變形卷積中,細(xì)化初期稠密深度圖并減小誤差信息,進(jìn)而得到RGB信息引導(dǎo)路徑上的深度特征。
圖5 精細(xì)化模塊結(jié)構(gòu)Fig.5 Structure of refined module
根據(jù)輸入的深度特征計(jì)算兩條路徑上的稠密深度圖,再采用深度特征計(jì)算對(duì)應(yīng)路徑上的組合權(quán)重,如圖6所示,進(jìn)而計(jì)算出最終的稠密深度圖,如圖7所示,其中?表示乘法操作。相關(guān)計(jì)算方法為
(14)
圖6 組合權(quán)重計(jì)算過程Fig.6 Combination weight calculation process
圖7 結(jié)果輸出模塊的主要結(jié)構(gòu)Fig.7 The main structure of the output result module
2.1.1 數(shù)據(jù)集
Uhrig等人(2017)構(gòu)建的KITTI(Karlsruhe Institute of Technology and Toyota Technological Institute at Chicago)深度估計(jì)數(shù)據(jù)集包含93 000多幅真實(shí)深度數(shù)據(jù)圖像、對(duì)齊的稀疏激光雷達(dá)深度圖和RGB圖像,大小為1 242×375像素。其中,采用85 898幅數(shù)據(jù)圖像進(jìn)行訓(xùn)練,采用KITTI官方提供的數(shù)據(jù)集(1 000幅帶有真值的驗(yàn)證集和1 000幅未帶有真值的測(cè)試集)進(jìn)行測(cè)試,由于驗(yàn)證集帶有真值,因此可直接對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)估。測(cè)試集不帶有真值,需要將實(shí)驗(yàn)結(jié)果提交到KITTI官方評(píng)估服務(wù)器才可獲得公開評(píng)估結(jié)果,該結(jié)果是公正評(píng)估模型性能的重要依據(jù),驗(yàn)證集與測(cè)試集均不參與網(wǎng)絡(luò)模型訓(xùn)練。此外,真實(shí)表面法線數(shù)據(jù)通過KITTI深度估計(jì)數(shù)據(jù)集中的真實(shí)深度數(shù)據(jù)計(jì)算獲得(Silberman等,2012)。
2.1.2 評(píng)價(jià)指標(biāo)
采用與KITTI官方評(píng)估服務(wù)器相同的指標(biāo)評(píng)估稠密深度圖的構(gòu)建結(jié)果,分別為均方根誤差(root mean square error,RMSE)、平均絕對(duì)誤差(mean absolute error,MAE)、反演深度的均方根誤差(root mean square error of the inverse depth,iRMSE)和反演深度的平均絕對(duì)誤差(mean absolute error of the inverse depth,iMAE)。MAE用于評(píng)估深度圖構(gòu)建的平均誤差,RMSE用于評(píng)估較遠(yuǎn)距離場(chǎng)景、目標(biāo)細(xì)節(jié)和邊緣處稠密深度圖的構(gòu)建誤差,該指標(biāo)對(duì)檢測(cè)異常值更為敏感,是KITTI官方評(píng)估服務(wù)器上對(duì)稠密深度圖構(gòu)建性能排名影響最為重要的指標(biāo)(Lu等,2020)。iMAE和iRMSE與深度倒數(shù)相關(guān)(反演深度),用于評(píng)估深度圖中近距離場(chǎng)景的構(gòu)建誤差(Bai等,2020)。KITTI官方評(píng)估服務(wù)器網(wǎng)址為http://www.cvlibs.net/datasets/kitti/。各評(píng)估指標(biāo)的相關(guān)公式為
(15)
(16)
(17)
(18)
2.1.3 訓(xùn)練
訓(xùn)練通過PyTorch和Adam優(yōu)化器實(shí)現(xiàn)。Adam優(yōu)化器的參數(shù)設(shè)置為β1= 0.9,β2= 0.999。將輸入網(wǎng)絡(luò)的圖像裁剪為256×512像素,顯卡選用NVIDIA 3090,批量大小設(shè)置為6,進(jìn)行30輪訓(xùn)練。初始學(xué)習(xí)率為0.000 125,每5輪學(xué)習(xí)率減少一半。網(wǎng)絡(luò)的損失函數(shù)(loss)為
(19)
(20)
式中,yi表示真實(shí)值,f(xi)表示估計(jì)值,用于計(jì)算構(gòu)建的稠密深度圖誤差。
(21)
式中,Ai和Bi分別表示估計(jì)值和真實(shí)值,用于計(jì)算構(gòu)建的表面法線誤差。
根據(jù)如上條件訓(xùn)練本文給出的網(wǎng)絡(luò)模型,在KITTI驗(yàn)證數(shù)據(jù)集上進(jìn)行測(cè)試,結(jié)果如圖8和表1所示。同時(shí),將該網(wǎng)絡(luò)模型在測(cè)試數(shù)據(jù)集上實(shí)驗(yàn)并將結(jié)果提交到KITTI官方評(píng)估服務(wù)器,結(jié)果如圖9和表2所示。
圖8 KITTI驗(yàn)證集上的稠密深度圖構(gòu)建結(jié)果Fig.8 The dense depth map construction result on the KITTI validation set ((a) LiDAR; (b) RGB information guidance path dense depth map construction result; (c) guidance information guidance path dense depth map construction result; (d) RGB; (e) final dense depth map construction result)
KITTI深度估計(jì)數(shù)據(jù)集中的稀疏深度信息會(huì)存在一些交錯(cuò)信息,如圖8(a)所示,路桿和后方景物的信息在邊緣處混合在一起,與圖8(d)中RGB圖像的描述明顯不同。從實(shí)驗(yàn)結(jié)果可以看出,RGB信息引導(dǎo)路徑上構(gòu)建的稠密深度圖(圖8(b))和指導(dǎo)信息引導(dǎo)路徑上構(gòu)建的稠密深度圖(圖8(c))均能夠較好地修正該誤差,最終的稠密深度圖構(gòu)建結(jié)果(圖8(d))同樣能夠較為細(xì)致地分辨前景與背景。此外,如圖8(a)中的紅框所示,兩根路桿中間幾乎沒有深度信息,而最終的稠密深度圖(圖8(d))良好地補(bǔ)全了相關(guān)深度,有效彌補(bǔ)了激光雷達(dá)點(diǎn)云的稀疏性缺陷,驗(yàn)證了本文方法在KITTI驗(yàn)證集上的有效性。
本文提出的多階段指導(dǎo)網(wǎng)絡(luò)通過整合指導(dǎo)信息引導(dǎo)路徑和RGB信息引導(dǎo)路徑的結(jié)果構(gòu)建稠密深度圖。此外,通過RGB圖像提取深度信息的同時(shí)也會(huì)產(chǎn)生誤差信息,因此本文通過精細(xì)化模塊修正多模態(tài)信息融合指導(dǎo)模塊的輸出結(jié)果,并額外引入表面法線,修正中期指導(dǎo)信息,進(jìn)而確保網(wǎng)絡(luò)中信息的準(zhǔn)確性。在圖9展示的本文方法與其他幾種方法的實(shí)驗(yàn)對(duì)比結(jié)果中,左側(cè)一列的對(duì)比圖中,其他方法構(gòu)建的稠密深度圖在近處的汽車(紅色方框)附近,只能得到較為模糊的汽車邊緣深度圖,而本文方法可有效構(gòu)建出清晰的邊緣深度,在遠(yuǎn)處樹木(藍(lán)色方框)構(gòu)建出的深度信息也十分清晰明顯。在右側(cè)一列的對(duì)比圖中,相較于其他方法,通過多階段指導(dǎo)網(wǎng)絡(luò)獲得的稠密深度圖在一些遠(yuǎn)處(紅色方框)及近處(藍(lán)色方框)較小的路標(biāo)上,獲取的細(xì)節(jié)處深度信息更加細(xì)致精確。由此可見,本文方法可以較好地利用RGB和LiDAR信息,更好地處理物體邊緣和細(xì)節(jié)處的深度信息,從而提升稠密深度圖的構(gòu)建性能。
表1 不同路徑在KITTI驗(yàn)證集上的稠密深度圖構(gòu)建性能Table 1 The dense depth map construction performance of different paths on KITTI validation dataset
表2 不同方法在KITTI測(cè)試集上的稠密深度圖構(gòu)建性能Table 2 The dense depth map construction performance of different methods on KITTI test set
在多階段指導(dǎo)網(wǎng)絡(luò)訓(xùn)練結(jié)束后,分別計(jì)算每條路徑及整個(gè)網(wǎng)絡(luò)輸出的稠密深度圖,評(píng)估結(jié)果如表1所示??梢钥闯?,指導(dǎo)信息引導(dǎo)路徑上的結(jié)果優(yōu)于RGB信息引導(dǎo)路徑,表明在RGB信息引導(dǎo)路徑上利用RGB圖像可以獲得更多的指導(dǎo)信息。此外,在指導(dǎo)信息引導(dǎo)路徑上的指導(dǎo)信息可以起到有效的指導(dǎo)作用,構(gòu)建良好的稠密深度圖。多階段指導(dǎo)網(wǎng)絡(luò)在重要的均方根誤差(RMSE)及反演深度的均方根誤差(iRMSE)指標(biāo)上獲得最優(yōu)值(見表2),與同樣獲得兩項(xiàng)最優(yōu)指標(biāo)的Yan等人(2020)方法相比,本文方法在物體邊緣和細(xì)節(jié)處的深度占有明顯優(yōu)勢(shì)(見圖9)??傮w而言,多階段指導(dǎo)網(wǎng)絡(luò)的結(jié)果優(yōu)于單獨(dú)使用兩條路徑的深度提取結(jié)果,驗(yàn)證了本文采用兩條路徑進(jìn)行RGB信息和指導(dǎo)信息引導(dǎo)稀疏深度稠密化的策略是有效的,通過兩種不同策略構(gòu)建稠密深度圖形成優(yōu)勢(shì)互補(bǔ),利用更多信息獲取更為準(zhǔn)確的稠密深度圖。
在不同條件下進(jìn)行實(shí)驗(yàn),驗(yàn)證每個(gè)模塊和路徑的有效性,包括指導(dǎo)信息處理模塊、精細(xì)化模塊、指導(dǎo)信息引導(dǎo)路徑和RGB信息引導(dǎo)路徑。在消融實(shí)驗(yàn)中,為減少訓(xùn)練時(shí)間,本文對(duì)不同路徑和模塊設(shè)置下的多階段指導(dǎo)網(wǎng)絡(luò)分別進(jìn)行10輪訓(xùn)練,調(diào)整初始學(xué)習(xí)率為0.001,其他與2.1.3節(jié)網(wǎng)絡(luò)訓(xùn)練的參數(shù)相同。根據(jù)如上訓(xùn)練條件獲得的實(shí)驗(yàn)結(jié)果如表3所示??梢钥闯?,多階段指導(dǎo)網(wǎng)絡(luò)的整體模型達(dá)到了最好的性能,驗(yàn)證了多階段指導(dǎo)網(wǎng)絡(luò)中的所有模塊和路徑都是有效的。
表3中,在僅使用RGB信息引導(dǎo)路徑或指導(dǎo)信息引導(dǎo)路徑進(jìn)行訓(xùn)練的情況下,后者構(gòu)建的稠密深度圖誤差更高。對(duì)網(wǎng)絡(luò)整體訓(xùn)練結(jié)果表明,指導(dǎo)信息引導(dǎo)路徑構(gòu)建的稠密深度圖比RGB信息引導(dǎo)路徑構(gòu)建的結(jié)果更加準(zhǔn)確(見表2)。多模態(tài)信息融合指導(dǎo)模塊提供的中期指導(dǎo)信息是兩條路徑結(jié)合的關(guān)鍵環(huán)節(jié)。該模塊由于具有較為復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),導(dǎo)致網(wǎng)絡(luò)整體訓(xùn)練時(shí)間有所增加(見表1),然而該結(jié)構(gòu)卻能更好地利用LiDAR與RGB信息提高稠密深度圖的構(gòu)建質(zhì)量。表面法線信息在網(wǎng)絡(luò)中起到重要作用,中期指導(dǎo)信息在表面法線的作用下更好地構(gòu)建了后期指導(dǎo)信息。此外,若在多階段指導(dǎo)網(wǎng)絡(luò)中去除指導(dǎo)信息處理模塊,會(huì)降低指導(dǎo)信息與稀疏深度信息的融合效能。多模態(tài)信息融合指導(dǎo)模塊中構(gòu)建的稠密深度圖在經(jīng)過精細(xì)化模塊后,可以有效減少相關(guān)誤差。綜上,在本文給出的模塊和路徑共同作用下,多階段指導(dǎo)網(wǎng)絡(luò)可以更好地完成稠密深度圖的構(gòu)建。
表3 不同路徑和模塊在KITTI驗(yàn)證集上的稠密深度圖構(gòu)建性能的消融實(shí)驗(yàn)結(jié)果Table 3 Results of ablation experiment for the dense depth map construction performance of different paths and modules on KITTI validation set
本文給出一種結(jié)合LiDAR與RGB數(shù)據(jù)構(gòu)建稠密深度圖的多階段指導(dǎo)網(wǎng)絡(luò)模型。采用指導(dǎo)信息處理模塊促進(jìn)指導(dǎo)信息與稀疏深度融合,通過多模態(tài)信息融合指導(dǎo)模塊能夠從稀疏深度和RGB圖像中學(xué)習(xí)到大量深度信息,精細(xì)化模塊用于修正多模態(tài)信息融合指導(dǎo)模塊輸出結(jié)果。多階段指導(dǎo)網(wǎng)絡(luò)通過RGB信息引導(dǎo)和指導(dǎo)信息引導(dǎo)兩條路徑的共同作用下實(shí)現(xiàn)。在KITTI深度估計(jì)數(shù)據(jù)集上的實(shí)驗(yàn)表明,與其他方法相比,多階段指導(dǎo)網(wǎng)絡(luò)能夠更好地處理物體邊緣和細(xì)節(jié)處的深度信息,提高稠密深度圖的構(gòu)建質(zhì)量,減少稀疏深度中的誤差信息。消融實(shí)驗(yàn)驗(yàn)證了每個(gè)模塊和路徑的有效性。
本文給出的多階段指導(dǎo)網(wǎng)絡(luò)可以更好地提高稠密深度圖構(gòu)建準(zhǔn)確率,但構(gòu)建的稠密深度圖在個(gè)別指標(biāo)上存在不足之處。如在景物較多且存在交錯(cuò)遮擋情況下,構(gòu)建出的稠密深度圖存在一定誤差,在此方面仍有較大提升空間,將在未來的工作中進(jìn)一步完善。