• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于卷積神經(jīng)網(wǎng)絡(luò)的單目深度估計(jì)

    2020-07-06 13:35:08王欣盛張桂玲
    關(guān)鍵詞:視差空洞視圖

    王欣盛 ,張桂玲

    1.天津工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300387

    2.天津市自主智能技術(shù)與系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,天津 300387

    1 引言

    深度估計(jì)是計(jì)算機(jī)視覺中的一個(gè)重要課題。隨著人工智能技術(shù)的不斷發(fā)展,越來(lái)越多的智能產(chǎn)品逐漸問(wèn)世。計(jì)算機(jī)科學(xué)、模式識(shí)別和智能控制技術(shù)的逐步發(fā)展和融合,能夠?qū)χ車h(huán)境進(jìn)行感知的技術(shù)和自主運(yùn)動(dòng)的技術(shù)也越發(fā)成熟。這些技術(shù)都離不開對(duì)圖像深度的估計(jì),所以對(duì)圖像的深度估計(jì)在所有的自主導(dǎo)航技術(shù)中都有著寶貴的研究?jī)r(jià)值。

    深度估計(jì)在無(wú)人駕駛汽車、機(jī)器人等領(lǐng)域中有著廣泛的應(yīng)用。深度估計(jì)在三維重建的課題中起著至關(guān)重要的作用,可以對(duì)現(xiàn)有的識(shí)別任務(wù)進(jìn)行改善,如3D 建模、機(jī)器人運(yùn)動(dòng)[1-2]等。在出現(xiàn)深度學(xué)習(xí)技術(shù)之前,若完成場(chǎng)景中的物體距離估計(jì)需要通過(guò)多個(gè)攝像頭和激光雷達(dá)等設(shè)備,設(shè)備昂貴且笨重。隨著深度學(xué)習(xí)技術(shù)的不斷更新,出現(xiàn)了越來(lái)越多的算法通過(guò)深度神經(jīng)網(wǎng)絡(luò)來(lái)完成圖像深度的估計(jì),最新的研究已經(jīng)可以通過(guò)單目相機(jī)來(lái)完成深度估計(jì),如Moukari 等人[3]在單目深度估計(jì)的方向中提供了有效的方法。但是如果將單目深度估計(jì)作為監(jiān)督回歸問(wèn)題來(lái)解決,需要大量地面深度和場(chǎng)景中各個(gè)物體的具體距離,不僅步驟復(fù)雜,而且設(shè)備相當(dāng)昂貴,導(dǎo)致沒(méi)有足夠密集標(biāo)注深度信息的數(shù)據(jù)集。本文提出了一種無(wú)監(jiān)督的端到端網(wǎng)絡(luò)進(jìn)行深度估計(jì),計(jì)算左右視圖差來(lái)對(duì)圖像進(jìn)行像素級(jí)的密集預(yù)測(cè)[4],結(jié)合Deeplab[5]語(yǔ)義分割模型設(shè)計(jì)了一個(gè)全新的深度估計(jì)模型,通過(guò)對(duì)KITTI街道數(shù)據(jù)集進(jìn)行訓(xùn)練,可以對(duì)任意一張街道圖像進(jìn)行深度估計(jì)。優(yōu)點(diǎn)是預(yù)測(cè)深度只需一個(gè)攝像頭,不需要其他工具即可進(jìn)行密集估計(jì),相比傳統(tǒng)方法方便快捷,在無(wú)人駕駛汽車以及機(jī)器人中有著更大的應(yīng)用空間。訓(xùn)練過(guò)程不需要任何深度數(shù)據(jù),對(duì)左右圖像進(jìn)行擬合,利用計(jì)算左右視差的損失函數(shù)即可完成深度估計(jì)。模型中使用空洞卷積[6]增加增大感受野,從而減少圖像的下采樣程度,減少原始圖像中的信息損失,這也是在深度估計(jì)方向的研究中首次使用空洞卷積增加準(zhǔn)確率。其中難點(diǎn)有:(1)無(wú)監(jiān)督估計(jì)深度需要構(gòu)建合理的網(wǎng)絡(luò)模型,選取合適的參數(shù),否則容易出現(xiàn)梯度消失或模型不收斂等情況。(2)通過(guò)左右視圖視差估計(jì)需要嚴(yán)謹(jǐn)?shù)膿p失函數(shù)來(lái)計(jì)算誤差。(3)最后輸出的深度圖盡可能清晰。

    本文做出如下貢獻(xiàn):

    (1)提出一種新穎的深度估計(jì)網(wǎng)絡(luò)架構(gòu),采用類似于DispNet[7]來(lái)進(jìn)行特征金字塔的提取,并與DeepLab相結(jié)合,執(zhí)行端到端的無(wú)監(jiān)督單目深度估計(jì),根據(jù)左右圖像的差異來(lái)計(jì)算深度。

    (2)采用編碼-解碼器結(jié)構(gòu),在編碼器(表1)中添加語(yǔ)義分割層,采用多個(gè)空洞卷積并行來(lái)增大卷積核的感受野,從而減少了圖像縮小的程度,使生成的圖像更為清晰,可以顯示更遠(yuǎn)地方的物體。

    2 深度估計(jì)研究現(xiàn)狀

    雖然深度估計(jì)在計(jì)算機(jī)視覺中有著很長(zhǎng)的研究時(shí)間,但是始終難以跨越檢測(cè)硬件昂貴、笨重,計(jì)算效果與效率的很難平衡。完成視覺導(dǎo)航任務(wù)的傳統(tǒng)方法通常是使用SLAM,原理是通過(guò)在梯度變化明顯的圖像區(qū)域中采樣像素來(lái)進(jìn)行直接稀疏視覺測(cè)距,但是難以擺脫測(cè)量過(guò)程復(fù)雜,在復(fù)雜環(huán)境無(wú)法測(cè)量,難以進(jìn)行密集測(cè)量等缺點(diǎn)。隨著深度學(xué)習(xí)技術(shù)的不斷成熟,不斷有更加高效的卷積神經(jīng)網(wǎng)絡(luò)提出,利用深度學(xué)習(xí)進(jìn)行深度估計(jì)的研究也越來(lái)越受到重視。文獻(xiàn)[8]提出了對(duì)光流預(yù)測(cè)的FlowNet框架,對(duì)深度估計(jì)的研究起到了重要作用,并得到顯著的效果。最新研究也有將SLAM 與深度學(xué)習(xí)進(jìn)行結(jié)合,如通過(guò)深度學(xué)習(xí)改進(jìn)傳統(tǒng)SLAM 中的漂移問(wèn)題[9],通過(guò)深度學(xué)習(xí)將SLAM 的稀疏預(yù)測(cè)轉(zhuǎn)化為稠密預(yù)測(cè)[10]等等。

    表1 編碼器結(jié)構(gòu)詳情

    本文介紹的方法通過(guò)左右視圖差進(jìn)行深度估計(jì),不需要傳統(tǒng)SLAM 算法所需的設(shè)備。采用無(wú)監(jiān)督的訓(xùn)練方式,不需要大量密集標(biāo)注的數(shù)據(jù)集,便可以對(duì)圖像進(jìn)行像素級(jí)的密集預(yù)測(cè),同時(shí)避免了在傳統(tǒng)的單目深度估計(jì)中,與相機(jī)共同運(yùn)動(dòng)的物體則顯示為無(wú)限遠(yuǎn)的情況。有一些現(xiàn)有方法也解決了同樣的問(wèn)題,但有一些缺點(diǎn)。例如,圖像的形成模型不是完全可微分的,使得訓(xùn)練欠優(yōu)[11],或者不能生成輸出最大分辨率的圖像[12]。

    2.1 監(jiān)督單目深度估計(jì)

    Kuznietsov等人[13]提出的帶有稀疏標(biāo)注的數(shù)據(jù)集進(jìn)行半監(jiān)督訓(xùn)練,在有標(biāo)注的地方進(jìn)行監(jiān)督訓(xùn)練,無(wú)標(biāo)注的地方采用左右圖像對(duì)比的方法生成連續(xù)密集深度圖。Eigen等人[14]的采用兩個(gè)網(wǎng)絡(luò)疊加,第一個(gè)網(wǎng)絡(luò)對(duì)圖像進(jìn)行粗尺度的全局預(yù)測(cè),第二個(gè)網(wǎng)絡(luò)負(fù)責(zé)對(duì)局部進(jìn)行細(xì)化,采用大量帶有標(biāo)注深度信息的數(shù)據(jù)集進(jìn)行訓(xùn)練。并通過(guò)CRF 正則化[1]對(duì)性能進(jìn)行提升。Ummenhofer 等人[15]提出了Demon模型,采用Flownet模型,通過(guò)一串連續(xù)的圖像中估計(jì)估計(jì)物體的運(yùn)動(dòng),將深度估計(jì)作為一個(gè)運(yùn)動(dòng)恢復(fù)的問(wèn)題。Liu等人[16]創(chuàng)造性地提出了一種深度卷積神經(jīng)場(chǎng)模型,用來(lái)探究深層卷積神經(jīng)網(wǎng)絡(luò)(CNN)和連續(xù)隨機(jī)條件場(chǎng)(CRF)相結(jié)合的性能,在多個(gè)數(shù)據(jù)集上得到優(yōu)秀的效果。由于現(xiàn)有數(shù)據(jù)集的深度信息標(biāo)簽是稀疏的,無(wú)法對(duì)場(chǎng)景深度進(jìn)行密集預(yù)測(cè),所以無(wú)監(jiān)督深度估計(jì)的優(yōu)勢(shì)體現(xiàn)在這一方面。

    2.2 無(wú)監(jiān)督單目深度估計(jì)

    現(xiàn)在的無(wú)監(jiān)督單目深度估計(jì)大多根據(jù)場(chǎng)景之間的視圖差,如左右視圖差和視頻的前后差異來(lái)進(jìn)行訓(xùn)練。Garg 等人[17]提出將左側(cè)圖像傳入DeepCNN,再與右視圖形成視圖差重構(gòu)出擬合圖像。Godard 等人[4]提出了一種無(wú)監(jiān)督的框架,用于從單目的視頻中進(jìn)行深度估計(jì),可以通過(guò)沒(méi)有標(biāo)注的圖像序列和運(yùn)動(dòng)的視頻來(lái)進(jìn)行訓(xùn) 練 。Poggi 等提出的 PyDNet 對(duì) Godard 等人[4]的 框 架進(jìn)行了簡(jiǎn)化,極大地減少了參數(shù)量,使其可以在樹莓派等低功率的設(shè)備中運(yùn)行。Casser等人[18]在最新的研究中表明,將目標(biāo)檢測(cè)結(jié)合到深度估計(jì)的計(jì)算中也可以得到出色的結(jié)果。

    2.3 對(duì)圖像進(jìn)行語(yǔ)義分割

    在之前的研究中,證實(shí)了全連接神經(jīng)網(wǎng)絡(luò)是可以有效進(jìn)行語(yǔ)義分割,不過(guò)需要多次池化,才能使卷積核獲得更大的感受野,然后在通過(guò)上采樣恢復(fù)到原來(lái)尺寸,這樣在反復(fù)的池化操作中丟失掉了很多信息。Chen等人[19]提出將DeepCNN 和全連接的條件隨機(jī)場(chǎng)進(jìn)行結(jié)合,同時(shí)通過(guò)空洞卷積增大感受野,從而解決語(yǔ)義分割中過(guò)多下采樣和空間感知差等缺點(diǎn)。空洞卷積[15]的概念在隨后的文章中提出,rate=5 的空洞卷積結(jié)構(gòu)如圖1 所示,在原先3×3 的卷積核中間添加4 個(gè)值為0 的空洞,在計(jì)算復(fù)雜度上與步長(zhǎng)為1的3×3卷積核一樣,卻能達(dá)到11×11 卷積核的感受野。所以空洞卷積的作用是在不增加計(jì)算量的情況下增加感受野。同時(shí)并且提出ASPP,將多個(gè)尺度的空洞卷積串行連接,進(jìn)一步提升了空洞卷積的使用效率。隨后改進(jìn)了多尺度空洞卷積的聯(lián)級(jí)方式[5],比較了串行連接和并行連接兩種方式的不同,進(jìn)行改進(jìn)之后獲得的更好的結(jié)果。在串聯(lián)模式中,連續(xù)使用多個(gè)擴(kuò)展卷積,隨著采樣率變大,有效濾波器權(quán)重的數(shù) 量變小,當(dāng)擴(kuò)展的卷積核感受野過(guò)大,與圖像的分辨率相當(dāng)時(shí),就不會(huì)捕獲整個(gè)圖像上下文,反而退化為1×1 的濾波器,只有中間的濾波器權(quán)重是有效的,所以連續(xù)使用擴(kuò)展卷積對(duì)語(yǔ)義分割是有害的。為了克服這個(gè)問(wèn)題,改進(jìn)了ASPP模型,將提取到的特征分別通過(guò)一個(gè)1×1卷積和3個(gè)空洞卷積,將擴(kuò)張率分別為6、12、18 的3×3 卷積核并聯(lián),再將這些卷積層的提取到的特征匯集在最后一個(gè)特征圖上。

    圖1 空洞卷積圖例

    3 單目深度估計(jì)網(wǎng)絡(luò)模型

    本章介紹該模型如何通過(guò)一張圖像來(lái)進(jìn)行深度預(yù)測(cè)。網(wǎng)絡(luò)模型分為編碼和解碼兩部分,采用特征金字塔來(lái)提取特征。特征金字塔不同于圖像金字塔,圖像金字塔分別對(duì)縮小到不同尺寸的圖像進(jìn)行特征提取,特征金字塔在特征收縮階段先對(duì)已提取到的特征圖繼續(xù)進(jìn)行跨步提取,如圖2所示,在底層的特征擁有高的分辨率,但是提取的信息少,高層的特征分辨率較低,但是提取到了更多的信息。高層特征在預(yù)測(cè)的同時(shí)結(jié)合低層的特征圖,生成高清晰度的高階特征圖。編解碼器將輸入的原始圖像信息轉(zhuǎn)變成深度圖像信息。編碼器階段利用殘差網(wǎng)絡(luò)對(duì)輸入的圖像提取大量特征,并且在不同的階段對(duì)特征進(jìn)行大量提取,解碼器階段對(duì)提取到的特征進(jìn)行計(jì)算并進(jìn)行像素級(jí)預(yù)測(cè),得到深度圖像。

    圖2 特征金字塔圖例

    3.1 編碼器階段的特征提取

    在網(wǎng)絡(luò)的編碼階段,使用深度殘差網(wǎng)絡(luò)Resnet50[21]進(jìn)行特征提取。在深度殘差網(wǎng)絡(luò)中,與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)不同,跳過(guò)一些層,將前面提取到的信息直接傳到后面的層中,從而解決隨著網(wǎng)絡(luò)層數(shù)不斷加深,網(wǎng)絡(luò)性能反而退化的問(wèn)題。將某些層的結(jié)果H(x)直接近似于殘差函數(shù)F(x)=H(x)-x,而不是通過(guò)多層的卷積層計(jì)算得到H(x),雖然這兩種計(jì)算方式都能夠使結(jié)果直接地等于期望函數(shù),但是學(xué)習(xí)到的內(nèi)容有所不同,使網(wǎng)絡(luò)模型在更深的層次中也能進(jìn)行學(xué)習(xí)。

    整個(gè)網(wǎng)絡(luò)分為5個(gè)部分,conv2_x、conv3_x、conv4_x、為3個(gè)殘差塊,每個(gè)殘差塊內(nèi)部具體結(jié)構(gòu)如圖3所示,采用跳躍連接,其中conv2_x、conv3_x的步長(zhǎng)為2。不同于Resnet,在這個(gè)模型中,為了保留更多的信息,只把分辨率降到原始圖像的1/16。通過(guò)ASPP可以極大地增加卷積核的感受野,使得網(wǎng)絡(luò)模型可以免去過(guò)度下采樣的步驟。下采樣過(guò)程可以有效減少模型的參數(shù)量,如果完全舍棄下采樣會(huì)出現(xiàn)模型參數(shù)量過(guò)大無(wú)法訓(xùn)練,模型容易過(guò)擬合等問(wèn)題,但本文算法是根據(jù)左右視差進(jìn)行深度的計(jì)算,由于左右視圖的差別比較小,過(guò)度下采樣會(huì)造成計(jì)算的不準(zhǔn)確從而影響模型的精準(zhǔn)度,所以在權(quán)衡模型參數(shù)量與計(jì)算精度后決定下采樣的壓縮系數(shù)為16。

    網(wǎng)絡(luò)模型中第5 部分為ASPP,是由多個(gè)擴(kuò)展卷積并行連接組成的,可以對(duì)圖像進(jìn)行整體感知。連接如圖4所示,在文獻(xiàn)[13]中說(shuō)明,空洞卷積的感受野計(jì)算方式如下:對(duì)于一個(gè)大小為3×3,步長(zhǎng)為s,無(wú)空洞的卷積核來(lái)說(shuō),它在第n層網(wǎng)絡(luò)中的感受野計(jì)算為:

    圖3 編碼器結(jié)構(gòu)圖例

    圖4 殘差網(wǎng)絡(luò)圖例

    Rn-1表示上一層的感受野。某一層中,一個(gè)大小為k,擴(kuò)張率為d的空洞卷積感受野為:

    網(wǎng)絡(luò)中ASPP 輸出的結(jié)果先通過(guò)一個(gè)大小為3×3,擴(kuò)張率為2 的卷積核,再通過(guò)一個(gè)1×1 和3 個(gè)擴(kuò)張率分別為6、12、18 的卷積核。所以擴(kuò)張率分別為6、12、18 的3×3卷積核感受野分別為18、30和42。

    3.2 解碼器結(jié)構(gòu)

    解碼器根據(jù)提取到的特征圖生成深度圖。解碼器通過(guò)疊加卷積層和池化層來(lái)提取圖像特征,在空間上縮小特征映射。在文獻(xiàn)[8]提出了一種優(yōu)化池化層帶來(lái)的圖像粗糙的方法,將“上卷積”用于特征映射,同時(shí)接收來(lái)自網(wǎng)絡(luò)“收縮”部分的特征進(jìn)行結(jié)合來(lái)執(zhí)行圖像細(xì)化。“上卷積”層包括上采樣和卷積,上采樣層使用最近鄰插值法使特征圖分辨率翻倍。

    解碼器的結(jié)構(gòu)詳情如表2所示。編碼其階段由“上卷積”(upconv)、卷積層(iconv)和視差層(disp)交替組成,上采樣層(Udisp)對(duì)獲得的視差層(disp)使用最近鄰插值使分辨率擴(kuò)大一倍,從而能夠和下一層進(jìn)行卷積。結(jié)構(gòu)流程為:首先將編碼器輸出作為輸入,經(jīng)過(guò)“上卷積”擴(kuò)大分辨率。再將“上卷積”的輸出,來(lái)自編碼器階段的特征圖和來(lái)自上一個(gè)視差層的上采樣,結(jié)合在一起進(jìn)行卷積(iconv),生成視差(disp)。最后通過(guò)上采樣層(Udisp)對(duì)視差層(disp)進(jìn)行上采樣。

    表2 解碼器結(jié)構(gòu)詳情

    3.3 訓(xùn)練損失

    這個(gè)模型計(jì)算深度的方法是通過(guò)左右圖像一致性對(duì)圖像進(jìn)行深度估計(jì)。在DispNet的基礎(chǔ)上增加了視差層(disp)的計(jì)算,使此網(wǎng)絡(luò)在較高的層面上,通過(guò)推斷左圖像與正確圖像匹配的差異來(lái)估計(jì)深度。此方法的關(guān)鍵部分是,可以通過(guò)從左側(cè)采樣生成右邊的圖像,將產(chǎn)生的圖像與右圖像(目標(biāo))對(duì)比,同時(shí)從生成的右圖像產(chǎn)生左圖形,再進(jìn)行對(duì)比。使用雙線性采樣器生成具有反向映射的預(yù)測(cè)圖像,因?yàn)檫@種方法可以產(chǎn)生完全可微分的圖像,解決深度不連續(xù)處的“紋理復(fù)制”的誤差,并且通過(guò)強(qiáng)制它們彼此一致來(lái)獲得更好的深度。訓(xùn)練時(shí)給定左側(cè)圖像,訓(xùn)練目標(biāo)是可以預(yù)測(cè)每個(gè)像素的場(chǎng)景深度f(wàn)。在訓(xùn)練時(shí),將左視圖作為輸入,右視圖會(huì)在訓(xùn)練中用到。對(duì)于在同一時(shí)刻捕獲的左右圖像Il和Ir,首先嘗試找到密集的對(duì)應(yīng)部分dr,從左視圖重構(gòu)右視圖,我們定義從左視圖重構(gòu)的圖像為Ir′,同時(shí)從右視圖重構(gòu)左視圖,定義從右視圖重構(gòu)的圖像為Il′。d表示圖像的視圖差,b表示左右視圖相機(jī)的距離,f表示相機(jī)的焦距,可以得到深度d'=bf/d。

    由于該算法的原理是根據(jù)左右視差進(jìn)行深度估計(jì),所以模型可以在沒(méi)有真實(shí)深度的情況下進(jìn)行非監(jiān)督訓(xùn)練。在解碼階段,每個(gè)階段下都會(huì)通過(guò)損失模塊對(duì)當(dāng)前損失進(jìn)行計(jì)算,定義損失為L(zhǎng),總損失L由三部分組成:

    Lam表示重建的圖像與對(duì)應(yīng)的輸入圖像的相似度,Ldp表示視差圖的平滑度,Llr表示預(yù)測(cè)的左右視差的一致性。

    由于在訓(xùn)練網(wǎng)絡(luò)中需要使用視差對(duì)輸入的左右視角圖進(jìn)行采樣,再通過(guò)雙線性采樣來(lái)生成圖像,使用結(jié)合L1 正則化和單一尺度下的SSIM來(lái)組成我們的損失函數(shù)Lam:

    SSIM(I,J)用于計(jì)算I與J兩個(gè)圖像的相似度,根據(jù)文獻(xiàn)[22]提出的方案,用SSIM圖像相似度函數(shù)與L1 正則項(xiàng)相結(jié)合作為訓(xùn)練中的損失函數(shù),將文獻(xiàn)[22]中使用的高斯濾波器用3×3的卷積核代替,將α設(shè)為0.85 時(shí)獲得較好的實(shí)驗(yàn)效果和收斂速度。

    Ldp的作用是使得視差變得平滑。通過(guò)L1 正則化來(lái)使得視差盡可能的平滑,在深度不連續(xù)的地方出現(xiàn)圖像漸變。

    根據(jù)文獻(xiàn)[23]中得到的結(jié)論,由于圖像的不連續(xù)處常常在圖形梯度變化劇烈的地方,D用于計(jì)算相鄰兩個(gè)像素間的像素差,使用e|i|進(jìn)行像素級(jí)優(yōu)化,使圖像邊緣變得平滑。

    Llr是構(gòu)建左右視圖一致性的損失,在只輸入左視圖的前提下,同時(shí)對(duì)左右視圖的視圖差進(jìn)行預(yù)測(cè)。為了生成更準(zhǔn)確的視差圖,再一次根據(jù)生成的右側(cè)視圖生成左側(cè)視圖,計(jì)算誤差。表示由原始右視圖生成的左視圖,表示由生成的右視圖再生成的左視圖,計(jì)算兩者之間的差異,同樣引進(jìn)L1 正則化對(duì)損失函數(shù)進(jìn)行約束。

    4 實(shí)驗(yàn)細(xì)節(jié)

    4.1 數(shù)據(jù)集介紹

    實(shí)驗(yàn)使用了KITTI[24]數(shù)據(jù)集和Cityscapes[25]數(shù)據(jù)集。該數(shù)據(jù)集通過(guò)在2個(gè)灰度攝像機(jī),2個(gè)彩色攝像機(jī),1個(gè)Velodyne 3D激光雷達(dá),4個(gè)高分辨率攝像機(jī),以及1個(gè)先進(jìn)的GPS導(dǎo)航系統(tǒng),對(duì)街道進(jìn)行取景,并對(duì)車輛、行人等進(jìn)行標(biāo)注,是目前最大的自動(dòng)駕駛數(shù)據(jù)集。KITTI數(shù)據(jù)集中有37 830張訓(xùn)練圖片,包括28個(gè)場(chǎng)景,分辨率為1 242×375。對(duì)KITTI 官方訓(xùn)練集提供的697 張圖像進(jìn)行評(píng)估。實(shí)驗(yàn)中用到的另一個(gè)數(shù)據(jù)集是Cityscapes,其中包括22 972 張訓(xùn)練圖片,這個(gè)數(shù)據(jù)集的分辨率為2 048×1 024。實(shí)驗(yàn)中進(jìn)行了數(shù)據(jù)增強(qiáng),以50%的幾率對(duì)圖像進(jìn)行水平翻轉(zhuǎn),同時(shí)交換兩個(gè)圖像,使它們處于相對(duì)正確的位置。還增加了色彩增強(qiáng),有50%的幾率,對(duì)圖像重新進(jìn)行γ采樣,隨機(jī)伽馬、亮度和色彩偏移。

    4.2 實(shí)驗(yàn)具體介紹

    本文實(shí)驗(yàn)基于tensorflow 框架實(shí)現(xiàn),在ubuntu18.04系統(tǒng)下運(yùn)行,硬件環(huán)境為GTX1080Ti。模型中包括2 449萬(wàn)個(gè)參數(shù),通過(guò)47 小時(shí)的訓(xùn)練得到結(jié)果。在輸出多尺寸的視差圖時(shí),使用非線性Sigmoid作為激活函數(shù),輸出圖像的色彩范圍約束在0到dmax之間,其中dmax設(shè)定為圖像色彩的0.3 倍。學(xué)習(xí)率為0.000 1,訓(xùn)練進(jìn)程到60%和80%的時(shí)候?qū)W習(xí)率減半。對(duì)于網(wǎng)絡(luò)中的非線性,使用指數(shù)線性函數(shù)(eLU)而不是常用的整流線性函數(shù)(ReLU),因?yàn)榘l(fā)現(xiàn)使用ReLU激活函數(shù)在訓(xùn)練中會(huì)過(guò)早地將中間尺度的預(yù)測(cè)差異固定為單個(gè)值,從而使后續(xù)改進(jìn)變得困難。在用最近鄰使用Adam優(yōu)化器,其中參數(shù)設(shè)置為β1=0.9,β2=0.999,?=10-8。在每個(gè)殘差塊前面均增加批標(biāo)準(zhǔn)化(BatchNorm)[26],為了使來(lái)自不同層的特征圖可以有效的合并在一起,參數(shù)decay為0.99,在實(shí)驗(yàn)中發(fā)現(xiàn),添加BatchNorm 能夠明顯增加訓(xùn)練時(shí)的收斂速度和減少梯度消失的現(xiàn)象。整個(gè)訓(xùn)練過(guò)程共經(jīng)過(guò)50 次迭代,訓(xùn)練時(shí)間47 小時(shí)。在訓(xùn)練過(guò)程中計(jì)算損失時(shí),將4 個(gè)尺度下的損失一起進(jìn)行優(yōu)化。由于損失函數(shù)主要用來(lái)計(jì)算通過(guò)左右視圖生成深度圖的準(zhǔn)確性,同時(shí)增加平滑項(xiàng)增加深度圖的質(zhì)量,所以損失函數(shù)的各項(xiàng)權(quán)重αam=1,αlr=1,αdp=0.1。實(shí)驗(yàn)分為兩個(gè):一種為直接通過(guò)KITTI 數(shù)據(jù)集進(jìn)行訓(xùn)練;另一種為先在Cityscapes 上做預(yù)訓(xùn)練,再通過(guò)KITTI 數(shù)據(jù)集完成訓(xùn)練。

    5 實(shí)驗(yàn)結(jié)果

    本文實(shí)驗(yàn)從各個(gè)場(chǎng)景下的街道中取樣,將KITTI官方提供的697個(gè)未訓(xùn)練的視差圖像用于評(píng)估實(shí)驗(yàn)結(jié)果,這個(gè)數(shù)據(jù)集中包括29 個(gè)不同的場(chǎng)景。在表3 中列出了該實(shí)驗(yàn)結(jié)果與相同條件下其他的實(shí)驗(yàn)數(shù)據(jù)之間的對(duì)比,其中Abs Rel、Sq Rel、RMSE、RMSE log 這 4 個(gè)指標(biāo)的數(shù)值越小越好,δ<1.25,δ<1.252,δ<1.253這3 個(gè)指標(biāo)為越大越好。性能均優(yōu)于現(xiàn)有的算法。標(biāo)題后面的“k”表示使用KITTI 數(shù)據(jù)集訓(xùn)練,“cs+k”表示使用KITTI和Cityscapes兩個(gè)數(shù)據(jù)集訓(xùn)練。從實(shí)驗(yàn)效果圖中抽取了幾張有代表性的圖像,在圖5中展示了本文實(shí)驗(yàn)的效果圖與Godard等人的實(shí)驗(yàn)效果圖對(duì)比,可以看出,使用空洞卷積提取特征,除了可以正確估計(jì)深度外,可以將原圖不同的物體清晰的表現(xiàn)出來(lái),可以增強(qiáng)模型對(duì)圖像整體的感知,一些原本與背景融合的物體重新展現(xiàn)出來(lái)。但是如果使用擴(kuò)張率過(guò)大的卷積核,反而會(huì)使圖像變模糊,不能擬合出正確的圖像。在第一個(gè)例子中,例如原圖中與背景融合的電線桿在我們的效果圖中完整的展現(xiàn)出來(lái),并沒(méi)有出現(xiàn)斷裂,第二個(gè)例子地上的柱子和地面完全分割開來(lái),第三個(gè)例子體現(xiàn)出人物和樹木等事物的輪廓更為清晰。通過(guò)對(duì)比可以看出,如果圖像中出現(xiàn)與遠(yuǎn)處事物顏色相近的物體,在Godard 的算法表現(xiàn)欠佳,而在本實(shí)驗(yàn)中可以準(zhǔn)確表達(dá)。圖6選取了一些具體的事物的差別。Cityscapes數(shù)據(jù)集中測(cè)試的效果圖如圖7所示。

    表3 實(shí)驗(yàn)數(shù)據(jù)對(duì)比

    圖5 深度圖整體效果對(duì)比

    圖6 深度圖具體細(xì)節(jié)效果對(duì)比

    圖7 Cityscapes數(shù)據(jù)集效果圖

    6 結(jié)束語(yǔ)

    本文提出了一種基于特征金字塔結(jié)合語(yǔ)義分割的深度估計(jì)模型,在特征提取階段采取深度殘差網(wǎng)絡(luò)提取特征,并結(jié)合空洞卷積對(duì)圖形進(jìn)行語(yǔ)義分割,通過(guò)大型街道數(shù)據(jù)集KITTI 和Cityscapes 的訓(xùn)練,使該模型可以對(duì)街道圖像進(jìn)行有效的深度估計(jì),證實(shí)了在網(wǎng)絡(luò)中添加語(yǔ)義分割層可以有效地提高生成圖像的質(zhì)量,保證圖像中物體的完整性,使生成圖像更加接近于原圖像。在無(wú)人駕駛等方向有著重要的作用。通過(guò)左右視圖生成的視圖差計(jì)算深度。相比原先的算法[3],本文算法得到更好的實(shí)驗(yàn)數(shù)據(jù),可以將街道場(chǎng)景中陰影部分的物體處理得更好,對(duì)遠(yuǎn)處物體也有更好的處理。今后的工作將從以下方面做進(jìn)一步研究:

    (1)從連續(xù)圖像或者視頻中檢測(cè)深度,通過(guò)預(yù)測(cè)物體運(yùn)動(dòng)變化來(lái)估計(jì)深度。

    (2)本文使用的是ResNet50 的網(wǎng)絡(luò),嘗試使用更深的網(wǎng)絡(luò)使結(jié)果更加精確。

    猜你喜歡
    視差空洞視圖
    基于自適應(yīng)窗的立體相機(jī)視差圖優(yōu)化方法研究
    基于梯度域引導(dǎo)濾波的視差精煉迭代算法
    5.3 視圖與投影
    視圖
    Y—20重型運(yùn)輸機(jī)多視圖
    SA2型76毫米車載高炮多視圖
    空洞的眼神
    基于分割樹的視差圖修復(fù)算法研究
    立體視差對(duì)瞳孔直徑影響的研究
    用事實(shí)說(shuō)話勝過(guò)空洞的說(shuō)教——以教育類報(bào)道為例
    新聞傳播(2015年20期)2015-07-18 11:06:46
    高淳县| 泸定县| 鄂托克旗| 土默特右旗| 昭苏县| 文登市| 兴业县| 松江区| 榕江县| 北宁市| 海口市| 岳普湖县| 邛崃市| 鸡东县| 彭阳县| 永德县| 新宁县| 迁安市| 大宁县| 甘谷县| 金湖县| 克山县| 黔西县| 怀集县| 渝中区| 东乡县| 柘荣县| 正宁县| 昌图县| 崇明县| 德昌县| 宁陕县| 集贤县| 利川市| 祥云县| 莱阳市| 泌阳县| 呼伦贝尔市| 尉氏县| 阳新县| 湖州市|