• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      視覺深度估計(jì)與點(diǎn)云建圖研究進(jìn)展

      2021-07-14 14:11:00陳苑鋒
      液晶與顯示 2021年6期
      關(guān)鍵詞:深度圖單目視圖

      陳苑鋒

      (美的集團(tuán)(上海)有限公司,上海 201799)

      1 引 言

      同步定位與地圖構(gòu)建(Simultaneous Localization and Mapping,SLAM)主要用于實(shí)現(xiàn)移動機(jī)器人在未知環(huán)境中運(yùn)行時定位導(dǎo)航與地圖構(gòu)建功能,通常包括特征提取、數(shù)據(jù)關(guān)聯(lián)、狀態(tài)估計(jì)、狀態(tài)更新以及特征更新等。一般分為3種形式:(1)在給定地圖的情況下,估計(jì)機(jī)器人的位姿;(2)同時估計(jì)機(jī)器人的位姿和環(huán)境地圖;(3)在給定機(jī)器人位姿的情況下,估計(jì)環(huán)境地圖。SLAM技術(shù)依賴于激光雷達(dá)傳感器,因其可提供高精度的3D點(diǎn)云信息。3D激光SLAM的幀間匹配方法包括以下3種:點(diǎn)云配準(zhǔn)算法、Point-to-Plane ICP、Feature-based Method。常用的3D激光SLAM的回環(huán)檢測方法包括Scan-to-Scan、Scan-to-Map、Branch and Bound和Lazy Decision。目前主流激光SLAM算法框架包括:(1)LOAM-純激光,勻速運(yùn)動假設(shè),無回環(huán);(2)V-LOAM-視覺激光融合、漂移勻速假設(shè),無回環(huán);(3)VELO-視覺激光融合,無運(yùn)動畸變假設(shè),有回環(huán)。

      因激光雷達(dá)價格昂貴,影響了其市場化的進(jìn)展。加上受制于線數(shù),在豎直方向的空間分辨率有限,難以精確反映目標(biāo)物體輪廓形態(tài),無法獲得精確的語義信息。相較之下,近些年隨著人工智能技術(shù)的快速發(fā)展,基于視覺的SLAM,即VSLAM逐漸成為研究熱點(diǎn)[1-2]。VSLAM涉及視覺深度估計(jì)和視覺建圖兩項(xiàng)核心技術(shù)。視覺建圖以3D視覺點(diǎn)云圖為輸入,通過多視角特征匹配進(jìn)行建圖,其方法邏輯與激光雷達(dá)點(diǎn)云建圖類似,技術(shù)較為成熟,且難度可控[3-4]。視覺深度估計(jì)則比激光雷達(dá)深度測量在測量精度方面面臨著較大挑戰(zhàn),成為研究界的熱門方向。

      2 視覺深度估計(jì)

      基于單目、雙目和多目的深度估計(jì)對于場景理解和實(shí)現(xiàn)自主導(dǎo)航定位均具有重要意義。以常用的幾種視覺深度估計(jì)方法為例,基于雙目視覺的深度估計(jì)受基線長度限制,導(dǎo)致設(shè)備體積與載具平臺難以良好匹配[5]?;赗GBD的深度估計(jì)量程較短、價格不菲,在實(shí)際應(yīng)用中能力有限,在室外環(huán)境中的表現(xiàn)也不盡理想,受環(huán)境變化影響較大。而單目攝像頭具有價格低廉、獲取信息內(nèi)容豐富、體積小等優(yōu)點(diǎn),可以有效克服上述傳感器的諸多不足。當(dāng)然,現(xiàn)有的單目攝像頭里,有監(jiān)督方案和無監(jiān)督方案均面臨著巨大的挑戰(zhàn)。有監(jiān)督方案需要大量的深度測量數(shù)據(jù),這些數(shù)據(jù)通常很難獲得,而無監(jiān)督方案在估計(jì)精度上受到限制。

      表1對業(yè)界視覺深度估計(jì)方法進(jìn)行了匯總,從攝像頭類型、計(jì)算模型(以深度學(xué)習(xí)模型為主)、所采用的數(shù)據(jù)集名稱、數(shù)據(jù)量、深度學(xué)習(xí)模型監(jiān)督類型和發(fā)布時間等方面進(jìn)行了對比。從攝像頭類型角度看,近年來更多的研究集中于單目攝像頭的深度估計(jì),主要原因是一方面單目攝像頭在硬件布置和成本上具有優(yōu)勢,另一方面神經(jīng)網(wǎng)絡(luò)加速芯片的性能提升進(jìn)一步推動了單目算法的進(jìn)展。本文先從雙目和多目深度估計(jì)入手進(jìn)行總結(jié),最后討論單目深度估計(jì)。表1中神經(jīng)網(wǎng)絡(luò)的類型包含了有監(jiān)督、半監(jiān)督、自監(jiān)督和無監(jiān)督,所列的文獻(xiàn)主要發(fā)表于2017~2020年間,是對近年來最新方法的總結(jié)。

      表1 視覺深度估計(jì)方案表Tab.1 Summary of visual depth prediction

      續(xù) 表

      2.1 雙目視覺深度估計(jì)

      雙目深度估計(jì),又稱視差估計(jì)(Disparity Estimation)[31],其輸入是一對在同一時刻捕捉到的、經(jīng)過極線校正的左右視圖,輸出是通過攝像頭焦距f、左右攝像頭基線長度b、以及左右眼對于同一目標(biāo)的視差等參數(shù)計(jì)算出的目標(biāo)深度圖d。視差是三維場景中某一點(diǎn)在左右圖像中對應(yīng)點(diǎn)位置的像素級差距,通過深度和視差的相互轉(zhuǎn)換關(guān)系來得到結(jié)果。雙目攝像頭的左右眼原始圖像以及雙目匹配獲得的深度圖如圖1所示。

      圖1 雙目攝像頭的原始數(shù)據(jù),以及通過左右眼的視差計(jì)算出的深度圖[5]。Fig.1 Raw images of the binocular camera, as well as the depth map calculated through the difference between the left and right images[5].

      立體匹配是深度估計(jì)中的基本模塊,通過獲得左右圖片中像素的對應(yīng)關(guān)系計(jì)算出視差圖。過去幾十年間,科研人員探索了多種雙目立體視覺匹配算法,如SAD匹配算法、SURF算法、BM算法、SGBM算法、GC算法等[5,32];代表性的工作包括Yao等人[33]提出的一個深度感知系統(tǒng),在一個類似于Kinect的激光投影機(jī)的兩側(cè)安裝兩個紅外攝像頭,采用雙目模式和單眼模式兩種匹配模式,可在不影響深度圖像質(zhì)量的前提下獲得更高精度的視差圖。

      深度學(xué)習(xí)算法在立體匹配領(lǐng)域也有進(jìn)展。立體匹配的深度學(xué)習(xí)方案將傳統(tǒng)立體匹配方法的4個步驟,即代價計(jì)算、代價聚合、視差計(jì)算和視差細(xì)化,融入到卷積神經(jīng)網(wǎng)絡(luò)當(dāng)中[34]。大多數(shù)在KITTI數(shù)據(jù)集上排名靠前的方法均基于深度學(xué)習(xí)[35],例如Song等人[7]在算法上對雙目深度預(yù)測方法做了提升,提出了兩種新抗欺騙干擾的魯棒性特征:基于雙目深度的模板人臉匹配特征和基于空間金字塔編碼的高階微紋理特征,配以新的模板人臉配準(zhǔn)算法和空間金字塔編碼算法,實(shí)現(xiàn)了多模態(tài)人臉欺騙檢測。

      在計(jì)算機(jī)視覺中,雙目立體信息和單眼聚焦線索通常是分開解決的。但Guo等人[6]同時使用這兩種類型的線索進(jìn)行深度推斷,構(gòu)建了3個獨(dú)立的網(wǎng)絡(luò):Focus-Net用于單個焦堆棧中提取深度,EDoF-net用于焦堆棧中獲得擴(kuò)展景深圖像,stereo-net用于立體匹配,最后集成到統(tǒng)一BDfF-Net中以獲得高質(zhì)量的深度圖。

      使用監(jiān)督回歸的深度學(xué)習(xí)算法在視覺處理中能取得顯著的效果,但監(jiān)督學(xué)習(xí)需要為算法訓(xùn)練進(jìn)行昂貴的真值(Ground truth)注釋。為解決這一問題,Pilzer等人[8]專門為雙目立體深度估計(jì)設(shè)計(jì)了一個新的計(jì)算框架——漸進(jìn)融合網(wǎng)絡(luò)(Progressive Fusion Network,PFN),該網(wǎng)絡(luò)結(jié)合了雙目攝像頭采集的兩個立體視圖,既可以從訓(xùn)練集圖像(前半周)學(xué)習(xí),也可以從合成圖像(后半周)學(xué)習(xí)。該架構(gòu)定性比較結(jié)果如圖2所示。作為無監(jiān)督學(xué)習(xí)方案在醫(yī)療領(lǐng)域的重大應(yīng)用,Xu等人[9]重建了雙目立體腹腔鏡的精確深度圖,讓外科醫(yī)生獲得了深度感知,從而克服了傳統(tǒng)的二維腹腔鏡成像缺乏深度感知、不能提供定量的深度信息,進(jìn)而限制手術(shù)時的視野和范圍等問題。

      圖2 各種方法定性比較[8]。(a) RGB圖;(b) Eigen等人的方法;(c)Zhou等人的方法;(d)Garg等人的方法;(e)Godard等人的方法;(f)Pilzer等人的方法;(g)PFN;(h)深度圖真值。Fig.2 Qualitative comparison of various methods[8].(a) RGB images; (b) Eigen et al.; (c) Zhou et al.; (d) Garg et al.; (e) Godard et al.; (f)Pilzer et al.; (g)PFN; (h) Ground truth.

      通過上述代表性文獻(xiàn)可以發(fā)現(xiàn),利用雙目硬件分別實(shí)現(xiàn)單目算法和雙目算法有可能在產(chǎn)品落地方面產(chǎn)生不錯的應(yīng)用效果,通過雙目立體線索和單眼聚焦線索獲得有效的三維感知、采用漸進(jìn)融合網(wǎng)絡(luò)(PFN)與對抗性學(xué)習(xí)共同訓(xùn)練也是值得探索的研究方向。

      2.2 多目視覺深度預(yù)測

      除雙目視覺外,學(xué)術(shù)界對多目視覺深度預(yù)測方法也開展了一系列研究。基于多視角圖像的視差/深度估計(jì)算法,Anantrasirichai等人[36]提出使用窗口相關(guān)的動態(tài)規(guī)劃方法和新的代價函數(shù),以視差/深度映射的平滑性和窗口的相關(guān)性為約束,得到適合多視圖圖像的深度圖。此外,Montserrat等人[37]提出了一種基于信念傳播的多視圖匹配與深度/顏色分割算法,并給出了一種信息傳遞壓縮策略。在此基礎(chǔ)上,Liu等人[38]通過引入深度候選對象將多視圖深度圖合并生成3D模型,將輪廓信息和外極約束集成到連續(xù)深度圖的變分方法中,通過多起始尺度框架生成多個深度候選對象,實(shí)現(xiàn)了路徑歸一化互相關(guān)度量合成到每個視圖的精細(xì)化深度圖。

      因上述方法并不適用于任意視角,Lee和Ho等[39]提出了一種基于視點(diǎn)一致性的多視點(diǎn)深度估計(jì)算法,使用傳統(tǒng)深度估計(jì)方法獲得左右視點(diǎn)的深度圖后,將其投影到中心視點(diǎn),采用多視點(diǎn)圖割算法使誤差最小化。Mieloch等人[40]提出了一種適用于任意攝像頭位置多視點(diǎn)系統(tǒng)的深度估計(jì)方法,通過在優(yōu)化圖中引入合適的連接,保證了對自由視點(diǎn)系統(tǒng)至關(guān)重要的深度圖的視圖間一致性,這使得該方法成為第一個使用基于分割估計(jì)和與生成空間一致的多視圖深度圖的方法,如圖3所示。

      圖3 深度圖與虛擬視點(diǎn)合成的比較[40]。(a)深度估計(jì)中使用的原始視圖的片段;(b)用DERS估算的深度圖片段;(c)使用建議的估計(jì)深度圖片段的方法;(d)原始視圖的片段(綜合的參考視圖);(e)用DERS估計(jì)的深度圖合在的視圖片段;(f)用建議的方法估計(jì)的深度圖合成的圖片段。Fig.3 Comparison of depth map and virtual viewpoint synthesis[40].(a) Fragment of the original view used in the depth estimation; (b) Fragment of the depth map estimated with DERS; (c) Fragment of the depth map estimated using the proposed method; (d) Fragment of the original view (the reference view for the synthesis); (e) Fragment of the view synthesized with depth maps estimated with DERS; (f) Fragment of the view synthesized with depth maps estimated using the proposed method.

      多視圖深度是高度精確的,但僅在高紋理區(qū)域和高視差的情況下;單視圖深度捕獲了中層區(qū)域的局部結(jié)構(gòu),包括無紋理區(qū)域,但估計(jì)的深度缺乏全局一致性。Facil等人[41]進(jìn)一步利用了基于CNN的單視圖深度估計(jì)與多視圖深度估計(jì)進(jìn)行了融合。

      另一方面,雖然之前的基于學(xué)習(xí)的方法已經(jīng)有了令人信服的結(jié)果,但大多數(shù)方法都是獨(dú)立地估計(jì)單個視頻幀的深度圖,而沒有考慮幀間強(qiáng)烈的幾何和時間一致性。而且,目前最先進(jìn)的(SOTA)模型大多采用全3D卷積網(wǎng)絡(luò),需要較高的計(jì)算成本,從而限制了其在現(xiàn)實(shí)應(yīng)用中的部署。Long等人[15]通過使用一個新的極時空變壓器來實(shí)現(xiàn)時間相干深度估計(jì),明確地關(guān)聯(lián)幾何和時間相關(guān)性,取得不錯的深度估計(jì)結(jié)果。Yang等人[42]則提出了一種從多視點(diǎn)同步和校準(zhǔn)視頻流中恢復(fù)空間和時間一致的深度圖的方法,將左右視圖匹配和基于顏色的分割相結(jié)合對深度圖進(jìn)行初始化,并將色彩一致性和空間一致性引入優(yōu)化框架,以保證單一時刻的空間一致性。最后以時空一致性約束的形式加入深度和運(yùn)動信息來細(xì)化和穩(wěn)定深度視頻,在每個瞬間的估計(jì)中不破壞原始的空間一致性。

      為進(jìn)一步提升深度估計(jì)的效率和精度,Ince等人[43]考慮了多視點(diǎn)視頻編碼中視點(diǎn)合成的深度估計(jì),可以有效地進(jìn)行視圖綜合預(yù)測和生成編碼比特?cái)?shù)更少的深度圖。Kusupati等人[12]利用正態(tài)估計(jì)模型和預(yù)測的法線圖提高了深度質(zhì)量。Hou等人[14]提出了一種求解非結(jié)構(gòu)化多視角圖像位姿以實(shí)現(xiàn)深度估計(jì)的新方法—MaskMVS,在平面掃描過程中,通過直方圖匹配對深度平面進(jìn)行采樣,確保覆蓋感的深度范圍。Sinha等人[10]提出了一種有效的步驟用于深度估計(jì)方法:(a)檢測和評估興趣點(diǎn)的描述符;(b)學(xué)習(xí)匹配和三角化一小組興趣點(diǎn);(c)使用CNN致密化這一稀疏的3D點(diǎn)集。他們采用端到端網(wǎng)絡(luò)在深度學(xué)習(xí)框架執(zhí)行所有這3個步驟,并通過中間2D圖像和3D幾何監(jiān)督以及深度監(jiān)督進(jìn)行訓(xùn)練,訓(xùn)練結(jié)果如圖4所示。

      圖4 深度預(yù)測定性表現(xiàn)[10]。(a)圖像;(b)深度圖真值;(c)MVDepthNet;(d)GPMVSNet;(e)DPSNet;(f)DELAS。Fig.4 Qualitative performance of depth prediction[10]. (a)Image; (b) Ground truth; (c) MVDepthNet; (d)GPMVSNet; (e)DPSNet; (f) DELAS.

      Long等人[44]通過引入了聯(lián)合法向圖(CNM)約束來保持高曲率特征和全局平面區(qū)域,將多個相鄰視圖初始深度預(yù)測聚合到最終深度圖和當(dāng)前參考視圖的遮擋概率圖中,提高了深度估計(jì)的精度。Strecha和Gool[45]研究了一種對多幅校正圖像進(jìn)行深度提取的方法,通過系統(tǒng)對來自不同視圖數(shù)據(jù)的相對置信度分配不同權(quán)重,在匹配過程中對不同權(quán)重的視圖數(shù)據(jù)進(jìn)行融合,從而取得了較高的深度信息精度。

      綜上所述,多目視覺深度預(yù)測主要有以下幾個方向:(1)輪廓信息和外極約束集在連續(xù)深度預(yù)測;(2)任意攝像頭位置的多視點(diǎn)系統(tǒng)的深度估計(jì);(3)多視點(diǎn)視頻編碼中視點(diǎn)合成的深度估計(jì)。另外,為提升深度預(yù)測準(zhǔn)確率,可以參考以下幾種方法:(1)端到端的深度學(xué)習(xí)架構(gòu)MVSNet;(2)利用正態(tài)估計(jì)模型和預(yù)測的法線圖來提高深度質(zhì)量;(3)使用單個局部移動攝像頭連續(xù)估計(jì)深度地圖;(4)將單視圖深度估計(jì)與多視圖深度估計(jì)融合。在多視角圖像融合方面,從多視角同步和校準(zhǔn)視頻流中恢復(fù)空間和時間一致的深度圖已經(jīng)取得進(jìn)展;在一致性問題上,Lee和Ho[39]考慮了視點(diǎn)一致性,而Liu等人[15]也考慮到了幀間強(qiáng)烈的幾何和時間一致性;為了更好地保持高曲率特征和全局平面區(qū)域,Liu等人[44]還引入了聯(lián)合法向圖(CNM)約束。這些方法為后續(xù)視覺深度估計(jì)方案創(chuàng)新提供了建設(shè)性的思路。

      2.3 單目視覺深度預(yù)測

      通過彩色圖像生成高質(zhì)量深度圖的研究有望以較低的成本實(shí)現(xiàn)深度建圖,通過使用大量未標(biāo)注數(shù)據(jù)集求解深度,可為下游具有識別任務(wù)的深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)預(yù)訓(xùn)練的目的,但具有精確標(biāo)簽的訓(xùn)練數(shù)據(jù)集本身就是一個巨大的挑戰(zhàn),故本節(jié)僅針對自監(jiān)督和無監(jiān)督方案進(jìn)行分析探討。

      目前已有自監(jiān)督的方法可以只使用雙目攝像頭的左右視圖[46-47]或單目視頻[48]來訓(xùn)練單目深度估計(jì)模型。在這兩種自我監(jiān)督的方法中,基于單目視頻訓(xùn)練是一種有吸引力的替代立體圖像監(jiān)督的方法,但除了估計(jì)深度外,模型還需要估計(jì)訓(xùn)練過程中時序圖像對之間的幀間運(yùn)動。這就需要訓(xùn)練一個以有限幀序列作為輸入,并輸出相應(yīng)的攝像頭變換的位姿估計(jì)網(wǎng)絡(luò)。Godard[16]采用單目自監(jiān)督的Monodepth2模型對每個像素的深度進(jìn)行學(xué)習(xí),使用損失小的重投影設(shè)計(jì)來處理遮擋,采用多尺度的采樣方法以及忽略明顯異常的訓(xùn)練像素,在KITTI數(shù)據(jù)集中實(shí)現(xiàn)了高精度的深度估計(jì),如圖5所示。

      圖5 Make3D定性結(jié)果(基于KITTI)[16]。 (a)輸入;(b)Zhou等;(c)DDVO;(d)Monodepth2(M);(e)深度圖真值。Fig.5 Qualitative results of Make3D (based on KITTI)[16].(a) Input; (b) Zhou et al.; (c) DDVO; (d) Monodepth2(M); (e) Ground truth.

      Aleotti等人[17]提出在GAN范式下進(jìn)行無監(jiān)督單目深度估計(jì),通過生成器網(wǎng)絡(luò)從參考圖像推斷深度以生成目標(biāo)圖像,訓(xùn)練鑒別器網(wǎng)絡(luò)學(xué)習(xí)如何區(qū)分由生成器生成的假圖像和通過立體裝備獲取的目標(biāo)幀,預(yù)測效果如圖6所示。

      圖6 GAN架構(gòu)與他人論文預(yù)測結(jié)果對比。(a)原始圖片;(b)由Godard等預(yù)測的深度圖;(c)由作者的GAN架構(gòu)預(yù)測的深度圖[17]。Fig.6 Comparison of GAN architecture and prediction results of other papers. (a)Original image; (b) Deth image predicted by Godard et al.; (c) Deth image predicted by the author's GAN architecture[17].

      Amir等人[18]利用風(fēng)格轉(zhuǎn)換和對抗性訓(xùn)練,實(shí)現(xiàn)了技術(shù)的優(yōu)化。Casser等人[20]在學(xué)習(xí)過程中引入幾何結(jié)構(gòu),通過對場景和單個物體的建模,以單目視頻為輸入學(xué)習(xí)攝像頭的自我運(yùn)動和物體運(yùn)動,引入了一種在線求精方法來適應(yīng)未知領(lǐng)域的動態(tài)學(xué)習(xí),結(jié)果如圖7所示。Mahjourian等人[25]提出了一種新的單目視頻深度和自我運(yùn)動的無監(jiān)督學(xué)習(xí)方法,不僅強(qiáng)化3D點(diǎn)云和連續(xù)幀自我運(yùn)動的一致性,而且采用了有效掩蔽,在KITTI數(shù)據(jù)集和在未校準(zhǔn)的手機(jī)攝像頭上驗(yàn)證了深度和自我運(yùn)動。Li等人[26]提出了分類(DABC)網(wǎng)絡(luò),將深度預(yù)測作為一個多類分類任務(wù),應(yīng)用Softmax分類器對每個像素的深度標(biāo)簽進(jìn)行分類,引入全局池化層和通道關(guān)注機(jī)制,自適應(yīng)地選擇特征的區(qū)分通道,并通過賦予權(quán)重進(jìn)行預(yù)測,可顯著提高單一圖像深度預(yù)測的魯棒性。低層次視覺中有幾個相互關(guān)聯(lián)問題的無監(jiān)督學(xué)習(xí):單視圖深度預(yù)測、攝像頭運(yùn)動估計(jì)、光流以及將視頻分割到靜態(tài)場景和移動區(qū)域。Ranjan等人[27]引入了競爭協(xié)作框架,即采用多個專門神經(jīng)網(wǎng)絡(luò)協(xié)調(diào)訓(xùn)練以解決復(fù)雜問題,其中神經(jīng)網(wǎng)絡(luò)既扮演著靜態(tài)或移動區(qū)域?qū)?yīng)像素的競爭對手角色,也扮演著將像素分配為靜態(tài)或獨(dú)立移動的協(xié)作者的角色。Wang等人[13]通過引入MVDepthNet卷積網(wǎng)絡(luò),采用幾何數(shù)據(jù)增強(qiáng)技術(shù),多視圖被編碼后與參考圖像結(jié)合,解決了局部單目攝像頭在相鄰視點(diǎn)的圖像對下的深度估計(jì)問題,提高了實(shí)時性和靈活性。

      圖7 各種方法預(yù)測結(jié)果比較[20]。(a)圖像;(b)Zhou等;(c)GeoNet;(d)DDVO;(e)HMP;(f)Casserole等;(g)深度圖真值。Fig.7 Comparison of prediction results of various methods[20]. (a) Images; (b) Zhou et al.; (c) GeoNet; (d) DDVO; (e) HMP; (f) Casserole et al.; (g) Ground truth.

      Eigen和Fergus[49]使用單一的多尺度卷積網(wǎng)絡(luò)架構(gòu)來處理3種不同的視覺任務(wù):深度預(yù)測、表面法線估計(jì)和語義標(biāo)記,如圖8所示。深度網(wǎng)絡(luò)不僅可適應(yīng)不同任務(wù),且使用一系列尺度逐步細(xì)化預(yù)測,能捕獲許多圖像細(xì)節(jié)信息而不需要任何超像素或低水平分割,在未來有很好的應(yīng)用前景。

      圖8 3種任務(wù)的預(yù)測[49]。 (a)深度圖;(b)正常圖;(c)標(biāo)簽。Fig.8 Prediction of three tasks[49]. (a) Depth; (b) Normals; (c)Labels.

      Chen等人[50]研究了野外單幅圖像的深度感知,即從無約束環(huán)境下拍攝的單幅圖像中恢復(fù)深度,可通過使用注釋的相對深度估計(jì)度量深度的方法來得到預(yù)測結(jié)果,見圖9。

      圖9 各種數(shù)據(jù)集(采用的為最右邊的數(shù)據(jù)集)[50]。(a)NYU V2數(shù)據(jù)集; (b)KITTI數(shù)據(jù)集; (c)Make3D數(shù)據(jù)集; (d)野外深度數(shù)據(jù)集。Fig.9 Various data sets (the one used is the rightmost data set)[50]. (a) NYU V2 data set; (b) KITTI adta set; (c) Make 3D data set; (d) Field depth data set.

      單目深度估計(jì)對理解三維場景幾何結(jié)構(gòu)起著至關(guān)重要的作用。Fu等人[21]引入了一種間距遞增離散化(Spacing-Increasing Discretization, SID)策略,將深度離散化,并將深度網(wǎng)絡(luò)學(xué)習(xí)作為一個有序回歸問題進(jìn)行重構(gòu)。通過使用普通的回歸損失訓(xùn)練網(wǎng)絡(luò),獲得了更高的精度和更快的同步收斂速度。Guo等人[22]采用圖形引擎生成的合成數(shù)據(jù)收集大量深度數(shù)據(jù),使用立體匹配網(wǎng)絡(luò)從合成數(shù)據(jù)中學(xué)習(xí)深度,并預(yù)測立體視差圖來監(jiān)控單目深度估計(jì)網(wǎng)絡(luò)。Jiang等人[23]

      為了從單個圖像中預(yù)測相對場景深度,在網(wǎng)絡(luò)中引入了一些特征,這些特征使得一組下游任務(wù)(包括語義分割、聯(lián)合道路分割和車輛檢測以及單目(絕對)深度估計(jì))在從頭開始訓(xùn)練的網(wǎng)絡(luò)上有了很大的改進(jìn);對于單目深度估計(jì),該文章實(shí)現(xiàn)的無監(jiān)督預(yù)訓(xùn)練方法甚至優(yōu)于ImageNet的有監(jiān)督預(yù)訓(xùn)練。Kendall等人[51]也提出了一種新的深度學(xué)習(xí)架構(gòu),用于從校正后的立體圖像對中回歸視差。

      有監(jiān)督的深度學(xué)習(xí)往往缺乏足夠的訓(xùn)練數(shù)據(jù)。特別是在單目深度圖預(yù)測的情況下,在真實(shí)的室外環(huán)境中,幾乎不可能確定地面深度信息。Kuznietsov等人[24]提出了一種基于半監(jiān)督學(xué)習(xí)的單目圖像深度圖預(yù)測方法,使用稀疏的真值進(jìn)行監(jiān)督學(xué)習(xí),同時通過圖像對齊損失函數(shù)來產(chǎn)生密集深度圖。Li和Snavely[52]提出了MegaDepth的大型深度數(shù)據(jù)集,從運(yùn)動和多視角立體(Multi-View Stereo, MVS)方法生成訓(xùn)練數(shù)據(jù),建議使用多視角互聯(lián)網(wǎng)照片集;通過驗(yàn)證了大量互聯(lián)網(wǎng)數(shù)據(jù),驗(yàn)證了模型具有很強(qiáng)的泛化能力:不僅可用于新場景,而且可用于其他不同的數(shù)據(jù)集,包括Make3D、KITTI和DIW。Liu[53]將單目深度估計(jì)表述為一個離散-連續(xù)優(yōu)化問題(其中連續(xù)變量編碼表示圖像中超像素的深度,離散變量表示相鄰超像素之間的關(guān)系),利用粒子信念傳播在圖形模型中進(jìn)行推理,獲得離散-連續(xù)優(yōu)化問題的解,解決了單一圖像中估計(jì)場景深度的問題。

      為了解決GPU功耗高的問題,利用從單個輸入圖像中提取的特征金字塔,可在CPU或嵌入式系統(tǒng)上,實(shí)現(xiàn)快速推斷出準(zhǔn)確深度圖的功能[28]。Montie等人[54]介紹了一種基于特征的單目SLAM系統(tǒng),該系統(tǒng)對嚴(yán)重的運(yùn)動雜波具有魯棒性,允許較寬的基線環(huán)路閉合和重新定位,并包括完整的自動初始化,可在各種操作系統(tǒng)環(huán)境中實(shí)時運(yùn)行。Zhan等人[29]使用立體序列學(xué)習(xí)深度和視覺里程測量,使空間(左右對之間)和時間(前向后)光度偏差的應(yīng)用成為可能,并限制場景深度和攝像頭運(yùn)動在一個共同的尺度,可使單目序列獲取不錯的單視點(diǎn)深度和雙視點(diǎn)里程。Wu等人[55]從提取真實(shí)世界物體尺寸的標(biāo)簽并根據(jù)尺寸標(biāo)簽的幾何關(guān)系推斷出一個粗糙的深度映射,同時對條件隨機(jī)場(CRF)進(jìn)行能量函數(shù)優(yōu)化并對深度圖進(jìn)行細(xì)化,對單目圖像深度估計(jì)問題進(jìn)行了新探索。

      高分辨率是實(shí)現(xiàn)高保真自監(jiān)督單目深度預(yù)測的關(guān)鍵。Pillai等人[30]提出了一種采用深度超分辨率的亞像素卷積層擴(kuò)展的方案,從相應(yīng)的低分辨率卷積特征中精確地合成出高分辨率特征,同時引入了一個翻轉(zhuǎn)增強(qiáng)層,可以準(zhǔn)確地融合來自圖像及其水平翻轉(zhuǎn)版本的預(yù)測結(jié)果,減少由于遮擋而產(chǎn)生的左右陰影區(qū)域的影響,如圖10所示。Yang等人[56]介紹了一種用于無監(jiān)督深度估計(jì)框架的表面法線標(biāo)識方法,估算深度被限制為與預(yù)測法線兼容,從而產(chǎn)生更穩(wěn)健的深度估計(jì)結(jié)果。

      圖10 深度效果圖[30]Fig.10 Depth maps[30]

      單目視覺深度估計(jì)的難度很大,但由于存在成本優(yōu)勢而被廣泛研究。近年來,基于深度學(xué)習(xí)的單目深度估計(jì)得到了有效提升,如利用深度神經(jīng)網(wǎng)絡(luò)對單個圖像進(jìn)行端到端的稠密深度圖估計(jì)。為了提高深度估計(jì)的精度,學(xué)術(shù)界提出了多種網(wǎng)絡(luò)結(jié)構(gòu)、損失函數(shù)和訓(xùn)練策略,如單目自監(jiān)督的Monodepth2、GAN范式下無監(jiān)督深度估計(jì)的MonoGAN和基于深度注意的DABC網(wǎng)絡(luò)等,這些工作推動了單目深度估計(jì)的快速發(fā)展。Madhu等人[19]使用未標(biāo)記的雙目立體圖像對訓(xùn)練,提出了基于深度網(wǎng)絡(luò)的無監(jiān)督視覺里程計(jì)系統(tǒng),用于六自由度攝像頭姿態(tài)估計(jì)和單目密集深度圖的獲取。

      3 視覺建圖

      通常,構(gòu)建SLAM稠密地圖的規(guī)模和計(jì)算量都較大,導(dǎo)致地圖的構(gòu)建很難滿足實(shí)時性要求;而基于深度視覺的建圖方案旨在快速構(gòu)建稠密準(zhǔn)確的高質(zhì)量地圖,可以實(shí)時提供給SLAM算法用于定位。視覺建圖需要與視覺里程計(jì)(VO)、回環(huán)檢測、后端非線性優(yōu)化配合以形成精確的建圖。下文將按照圖11所列舉的視覺SLAM模塊進(jìn)行展開。

      圖11 SLAM模塊Fig.11 SLAM architecture

      Schneider等人[1]提出Maplab視覺慣性測繪定位系統(tǒng),包括映射合并、視覺慣性批優(yōu)化和環(huán)路閉合,通過可創(chuàng)建視覺-慣性地圖的在線前端,實(shí)現(xiàn)在定位地圖中跟蹤一個全局無漂移姿態(tài)的處理和操作多會話映射。Konolige等人[2]用大量的點(diǎn)特征匹配視覺幀以實(shí)現(xiàn)特征提取,通過經(jīng)典束調(diào)整技術(shù),簡化保留相對的幀姿態(tài)信息(骨架) ,獲得了較好的建圖效果,如圖12所示。

      圖12 一個100 m城市場景的骨架縮小。完整貝葉斯圖是700 幀和約100 K的特征[2]。Fig.12 Scaled-down map of a 100 m city. The complete Bayesian diagram is 700 frames and about 100 K[2].

      Blake等人[57]采用混合不同圖像特征的方法,用以提高映射的準(zhǔn)確性和一致性。Qin等人[58]利用魯棒語義特征,構(gòu)建了停車場的地圖和車輛定位,如圖13所示。右下角的圖是地下停車場,較大的圖形是該停車場的語義視覺地圖,由語義特征(引導(dǎo)標(biāo)志、停車線、減速帶)組成。這張地圖可用于以厘米級精度對車輛進(jìn)行定位。與傳統(tǒng)特征相比,這些語義特征對透視和光照變化具有長期的穩(wěn)定性和魯棒性。Xavier等人[3-4]則提出了用人工標(biāo)記特征實(shí)現(xiàn)SLAM的方法。

      圖13 語義視覺地圖[58]Fig.13 Semantic visual map[58]

      如圖14所示, Fernandez等人[4]通過智能標(biāo)記系統(tǒng)實(shí)現(xiàn)運(yùn)動估計(jì),根據(jù)一組校準(zhǔn)圖像和PMS單元收集的方向/距離測量數(shù)據(jù)來估計(jì)標(biāo)記的姿態(tài),可以對具有正確比例尺的單目攝像頭進(jìn)行高精度的定位。Saeedi等人[59]通過開發(fā)新的度量,在不依賴任何SLAM或運(yùn)動估計(jì)算法的情況下正確地評估軌跡和環(huán)境。

      圖14 智能標(biāo)記:前面一個正方形平面基準(zhǔn)標(biāo)記(a),以及一個嵌入式姿態(tài)測量系統(tǒng)(PMS)單元 (b)[4]。Fig.14 Smart marker: a square plane fiducial mark in the front (a), and an embedded attitude measurement system (PMS) unit (b)[4].

      回環(huán)誤差檢測方面,Usenko等人[60]提出了利用非線性因子從視覺慣性里程測量中提取相關(guān)信息來進(jìn)行視覺慣性映射,通過重建一組非線性因子,使VIO積累的軌跡上的信息成為最佳近似,可使用Bundle調(diào)整這些因素以獲得全局一致的映射。VIO因子使全局映射的橫傾角和俯仰角變得可見,從而提高了映射的魯棒性和精度。Xiao等人[61]在跟蹤線程中通過選擇性跟蹤算法對動態(tài)目標(biāo)的特征點(diǎn)進(jìn)行處理,顯著減少了由于不正確匹配而導(dǎo)致的姿態(tài)估計(jì)誤差。

      在建圖方面,視覺建圖也采用幀對幀匹配來生成詳細(xì)的局部映射以及大回路的閉合。Qin等人[58]采用4個全景攝像頭來增加感知范圍,在慣性測量單元和車輪編碼器的輔助下,生成全局視覺語義圖。Hong和Kim[62]主要通過調(diào)整一個二維坐標(biāo)系的局部圖像以生成一個全局地圖,并做出適當(dāng)?shù)募m正以生成3D面板,如圖15所示。

      圖15 3D面板的姿態(tài)估計(jì)示例。實(shí)際面板的方向可以通過對旋轉(zhuǎn)矩陣Rci進(jìn)行逆(轉(zhuǎn)置)來估計(jì)[62]。Fig.15 An example of pose estimation for a 3D panel. The direction of the actual panel can be estimated by inverting (transposing) the rotation matrix Rci[62].

      4 結(jié) 論

      本文從視覺SLAM視覺深度的預(yù)測及視覺建圖兩項(xiàng)核心技術(shù)入手,進(jìn)行研究分析。視覺深度預(yù)測部分的分析包含了視覺數(shù)據(jù)的采集方式和算法的監(jiān)督設(shè)計(jì),按照視覺數(shù)據(jù)的視覺采集技術(shù)從單目、雙目以及多目的不同角度進(jìn)行探討,根據(jù)算法的設(shè)計(jì)方案分別從全監(jiān)督、半監(jiān)督和無(自)監(jiān)督等角度進(jìn)行梳理;視覺建圖部分則包含了特征提取、運(yùn)動估計(jì)、回環(huán)檢測和建圖等方面的最新方法綜述。研究表明:在視覺深度感知方面,未來的視覺深度感知策略仍然需要在硬件配置、算力需求和預(yù)測精度間尋求最優(yōu),單目雙目融合在成本和算力方面均有潛在優(yōu)勢,并且可以同時實(shí)現(xiàn)對靜態(tài)和動態(tài)目標(biāo)的三維重建,是未來的發(fā)展方向之一。在視覺語義建圖方面,由于可以提供更高層的語義特征,因而在算法上更具備魯棒性,是視覺建圖的發(fā)展方向,但由于語義分割算法本身對算力提出了較高的要求,算法需要與性能優(yōu)越的處理終端配合使用。在視覺建圖方面,特征提取是核心環(huán)節(jié)之一,按照計(jì)算量有小到大、精度由低到高可以分為點(diǎn)特征、圖像特征和語義特征匹配,所以需要根據(jù)計(jì)算量和精度的要求選擇合適的特征匹配策略;視覺建圖的另一項(xiàng)核心技術(shù)是運(yùn)動估計(jì),其既可以通過視覺幀匹配來完成,也可以通過視覺融合慣性測量單元和車輪編碼器共同完成;后者由于提高了定位精度,可以生成更精準(zhǔn)的三維地圖。

      猜你喜歡
      深度圖單目視圖
      基于深度圖的3D-HEVC魯棒視頻水印算法
      一種單目相機(jī)/三軸陀螺儀/里程計(jì)緊組合導(dǎo)航算法
      單目SLAM直線匹配增強(qiáng)平面發(fā)現(xiàn)方法
      5.3 視圖與投影
      視圖
      Y—20重型運(yùn)輸機(jī)多視圖
      SA2型76毫米車載高炮多視圖
      一種基于局部直方圖匹配的深度編碼濾波算法
      基于CAD模型的單目六自由度位姿測量
      疊加速度譜在鉆孔稀少地區(qū)資料解釋中的應(yīng)用
      科技視界(2016年2期)2016-03-30 11:17:03
      分宜县| 东莞市| 武乡县| 海安县| 房山区| 比如县| 梧州市| 张家口市| 白银市| 西昌市| 延边| 苏尼特右旗| 花莲市| 厦门市| 天峻县| 东至县| 绥江县| 高雄县| 土默特右旗| 社旗县| 筠连县| 兴海县| 石林| 灵丘县| 永新县| 澄江县| 佛山市| 百色市| 海南省| 汉中市| 时尚| 黔东| 工布江达县| 山丹县| 邻水| 丰原市| 会泽县| 应城市| 盖州市| 陵川县| 贵阳市|