• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合兩種深度線索的光場(chǎng)圖像深度估計(jì)方法

      2020-08-03 10:05:54蘇鈺生王亞飛
      關(guān)鍵詞:深度圖光場(chǎng)視差

      蘇鈺生,王亞飛

      北京信息科技大學(xué) 信息與通信工程學(xué)院,北京 100101

      1 引言

      光場(chǎng)作為VR技術(shù)的新的解決方案,它將光學(xué)和計(jì)算機(jī)視覺兩個(gè)方向銜接,可以實(shí)現(xiàn)如視角合成[1]、VR視頻[2]等功能,一直是研究的熱點(diǎn)。光場(chǎng)相機(jī)由于其特殊的光學(xué)結(jié)構(gòu),改進(jìn)了成像方式[3],克服了傳統(tǒng)成像設(shè)備只能記錄場(chǎng)景二維信息的局限性,它通過微透鏡陣列實(shí)現(xiàn)記錄不同方向的光線的強(qiáng)度,由此使用光場(chǎng)相機(jī)拍攝的圖像進(jìn)行場(chǎng)景深度估計(jì)變?yōu)榭赡堋?/p>

      由于光場(chǎng)相機(jī)一次曝光可以捕獲多張不同視角的照片,利用這些不同視角的光線信息可以估計(jì)出深度[4],目前主流的光場(chǎng)深度估計(jì)算法可以分為兩大類:基于匹配的算法和基于EPI的算法。

      基于匹配的代表算法有:文獻(xiàn)[5]提出了一種單目立體匹配算法,根據(jù)圖像中的幾何透視信息來估計(jì)場(chǎng)景深度,該方法將深度估計(jì)分成兩個(gè)部分,先提取幾何信息用于合成視圖,然后將多視圖進(jìn)行立體匹配,得出深度信息。文獻(xiàn)[6]基于DispNet[7]利用視差估計(jì)深度,其采用雙目立體匹配的思路,使用雙目視頻進(jìn)行訓(xùn)練,使用對(duì)極幾何約束,利用圖像重建損失訓(xùn)練網(wǎng)絡(luò)產(chǎn)生視差圖。文獻(xiàn)[8]利用相移理論,根據(jù)光場(chǎng)相機(jī)基線短的特點(diǎn),構(gòu)建位移圖像的表達(dá)式,得到了一種精度達(dá)到亞像素級(jí)別的多視角立體匹配方法。光場(chǎng)相機(jī)拍攝的照片擁有更多不同的視角,上述利用單目、雙目結(jié)合深度學(xué)習(xí)進(jìn)行深度估計(jì)的方法無法充分利用光場(chǎng)圖像中包含的信息,因此估計(jì)結(jié)果準(zhǔn)確率偏低;而多視角立體匹配需要構(gòu)建匹配代價(jià)并進(jìn)行多次迭代優(yōu)化,計(jì)算效率無法保證。

      也有很多學(xué)者利用光場(chǎng)的EPI結(jié)構(gòu)特性進(jìn)行光場(chǎng)的深度估計(jì):文獻(xiàn)[9]通過構(gòu)建EPI Patch,結(jié)合卷積神經(jīng)網(wǎng)絡(luò),將水平和豎直兩個(gè)方向的EPI Patch作為神經(jīng)網(wǎng)絡(luò)的輸入,通過特征提取和融合,得到對(duì)應(yīng)的初始深度,然后使用變分法,以中心視角的視圖作為先驗(yàn)結(jié)果對(duì)初始深度進(jìn)行優(yōu)化。文獻(xiàn)[10]也采用兩個(gè)方向的EPI Patch結(jié)合卷積神經(jīng)網(wǎng)絡(luò)估計(jì)出初始深度,然后采用基于能量函數(shù)的全局約束優(yōu)化初始深度。上述兩篇文獻(xiàn)雖然采用卷積神經(jīng)網(wǎng)絡(luò)簡(jiǎn)化了初始深度的獲取,但是其經(jīng)過一次前向傳播(forward propagation)計(jì)算僅能得到一個(gè)像素點(diǎn)的深度值,獲取完整的深度圖需要多次計(jì)算,同時(shí)需要進(jìn)行細(xì)化操作(refinement),進(jìn)一步增加計(jì)算量。文獻(xiàn)[11]受到SPO算法[12]的啟發(fā),使用了包含水平、豎直和對(duì)角線上的4個(gè)方向的EPI Patch,如圖1所示,結(jié)合 CAD(Constrained Adaptive Defocus)和 CAE(Constrained Angular Entropy)兩組代價(jià)可以得到準(zhǔn)確度高的深度圖,但是計(jì)算效率低,得到一張完整深度圖需要耗費(fèi)72 min。

      為了解決上述方法中顯露出的精度較低、耗時(shí)較長(zhǎng)的問題,提出融合兩種深度線索的深度估計(jì)方法EPI-RefocusNet。該方法使用的數(shù)據(jù)集為HCI 4D Light Field Dataset,結(jié)合卷積神經(jīng)網(wǎng)絡(luò),采用多個(gè)方向的EPI信息和數(shù)字重聚焦的圖像作為CNN的輸入,可實(shí)現(xiàn)端到端的深度估計(jì),一次前向傳播計(jì)算即可得到一張完整的深度圖,不需要再進(jìn)行refinement,達(dá)到高效準(zhǔn)確的深度估計(jì)。最終在對(duì)比現(xiàn)有算法的實(shí)驗(yàn)結(jié)果中表明,EPI-RefocusNet的估計(jì)結(jié)果在衡量準(zhǔn)確性的指標(biāo):均方誤差(Mean Squared Error,MSE)和壞像素率(Bad Pixel Ratio,BadPix)上優(yōu)于其他對(duì)比算法,同時(shí)在運(yùn)算時(shí)間(runtime)上也取得優(yōu)勢(shì)。

      圖1 多個(gè)方向的EPI Patch

      圖2 EPN網(wǎng)絡(luò)結(jié)構(gòu)

      2 傳統(tǒng)EPN模型

      在針對(duì)光場(chǎng)圖像進(jìn)行深度估計(jì)的處理方法中,文獻(xiàn)[10]提出的EPI Patch Net(以下簡(jiǎn)稱EPN)模型比較具有代表性,與以往的模型設(shè)計(jì)的區(qū)別在于傳統(tǒng)方法將深度估計(jì)當(dāng)做回歸(Regression)問題,而EPN通過分析深度值的范圍,發(fā)現(xiàn)深度值主要分布在?4~4,故將深度估計(jì)考慮為分類(Classification)問題,將深度值按照0.035為一個(gè)區(qū)間,分成了229個(gè)類。整體CNN網(wǎng)絡(luò)模型設(shè)計(jì)如圖2所示。

      網(wǎng)絡(luò)輸入為9×13的EPI Patch,是由9張圖像的同一行(列)的13個(gè)像素拼接而成,其采用了2個(gè)方向的EPI作為輸入,每一層都進(jìn)過7層2×2卷積,通道數(shù)為16,32,…,1 024,最終通過全連接層變成長(zhǎng)度為512的向量,再通過Softmax層變成長(zhǎng)度為229的向量,對(duì)應(yīng)深度值的229個(gè)分類,取概率最高的softmax值對(duì)應(yīng)的分類即作為此次輸入EPI Patch中心點(diǎn)的深度值。經(jīng)過多次迭代得到完整的深度圖,以此作為初始深度圖,并通過具有全局約束的后處理來細(xì)化CNN輸出的初始深度圖,提升精度。

      但是,實(shí)際的深度值并非是完全是離散的,并且該模型針對(duì)一個(gè)場(chǎng)景僅使用2個(gè)方向的EPI信息,即17張圖片,并未充分利用全部的圖片,因此該模型還有很多可改進(jìn)的空間。

      3 EPI-RefocusNet模型

      為了實(shí)現(xiàn)更準(zhǔn)確的深度估計(jì),EPI-RefocusNet結(jié)合兩種深度線索進(jìn)行特征提取和融合,即將EPI和重聚焦圖像中包含的深度信息提取,其中EPI提供視差線索,重聚焦圖像提供散焦線索,利用這兩條深度線索合成深度圖像,整體的算法的流程如圖3所示。本章將深度線索的構(gòu)建、網(wǎng)絡(luò)模型的結(jié)構(gòu)設(shè)計(jì)、數(shù)據(jù)擴(kuò)容和模型訓(xùn)練這幾個(gè)方面來介紹EPI-RefocusNet進(jìn)行深度估計(jì)的方法。

      圖3 EPI-RefocusNet算法流程

      3.1 深度線索的構(gòu)建

      光場(chǎng)相機(jī)可以捕獲多個(gè)視角的光線信息,即可以記錄光線的方向與強(qiáng)度,從而使針對(duì)光場(chǎng)圖像的深度信息估計(jì)成為可能,利用這些不同視角下拍攝的2D圖像提取深度線索,建立深度線索與深度圖之間的關(guān)系映射,即可完成深度估計(jì)。

      EPI-RefocusNet使用的數(shù)據(jù)集是HCI 4D光場(chǎng)標(biāo)準(zhǔn)數(shù)據(jù)集,該數(shù)據(jù)集是參考標(biāo)準(zhǔn)全光相機(jī)的參數(shù)進(jìn)行設(shè)計(jì)制作的,包含20個(gè)計(jì)算機(jī)合成的光場(chǎng)場(chǎng)景的RGB平面圖像以及其對(duì)應(yīng)的視差圖與深度圖,如圖4所示。該數(shù)據(jù)集提供的圖像的分辨率為512×512,共有9×9個(gè)視角的不同RGB圖像。

      為了更加充分利用這些圖片中包含的深度信息,EPI-RefocusNet采用兩種深度線索,分別為視差線索和散焦線索,通過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取與融合,建立深度圖與深度線索間的映射關(guān)系,完成深度估計(jì)。采用兩種深度線索對(duì)比單一線索在實(shí)行效率上略有犧牲,但是在計(jì)算誤差上具有優(yōu)勢(shì),如圖5所示。

      圖4 HCI數(shù)據(jù)集的2個(gè)場(chǎng)景

      圖5 對(duì)比單一線索

      可以看出采用兩種深度線索的EPI-RefocusNet在速度和準(zhǔn)確度之間做了較好的權(quán)衡,在保證計(jì)算速度的前提下,提高了估計(jì)的精度。

      3.1.1 視差線索的構(gòu)建

      通過光場(chǎng)的EPI結(jié)構(gòu)可以很容易獲得視差信息,視差的形成是同一點(diǎn)在不同視角下的相對(duì)位置存在偏差,由于光場(chǎng)相機(jī)的基線較短,同一點(diǎn)在不同視角的位置差異很小,將某一行的所有視角的同一行像素堆疊在一起即可形成光場(chǎng)特有的EPI結(jié)構(gòu),通過計(jì)算EPI結(jié)構(gòu)中的同一點(diǎn)構(gòu)成的斜線斜率,即可得出該點(diǎn)的深度值,如圖6所示。

      傳統(tǒng)方法采用EPI-Patch[9-10]作為CNN的輸入數(shù)據(jù),每次只能輸出一個(gè)點(diǎn)的深度值,若需要得到完成的深度圖,需要多次計(jì)算得到圖中每一個(gè)點(diǎn)的深度值,執(zhí)行時(shí)間會(huì)大幅增加,或者采用n個(gè)輸入,n為深度圖的像素點(diǎn)數(shù),將n個(gè)點(diǎn)的EPI-Patch同時(shí)輸入到網(wǎng)絡(luò)中,這樣設(shè)計(jì)的網(wǎng)絡(luò)參數(shù)量太大,執(zhí)行成本會(huì)大幅提高。RGB EPI Volume[13]的提出,提高了計(jì)算效率,由于其將不同視角的分量分別作為不同的通道疊加在一塊,構(gòu)成一個(gè)3維矩陣,通過卷積神經(jīng)網(wǎng)絡(luò)可以進(jìn)行跨通道計(jì)算,一次就可輸出完整的深度圖。為了進(jìn)一步壓縮計(jì)算量,EPIRefocusNet采用單色的EPI Volume作為網(wǎng)絡(luò)輸入,對(duì)于深度估計(jì)來說,RGB信息較冗余,因?yàn)閱紊獷PI和彩色EPI的斜線均清晰可見,如圖7所示,且單色EPI相對(duì)彩色EPI少了兩個(gè)通道的計(jì)算量,設(shè)計(jì)網(wǎng)絡(luò)時(shí)也可減少參數(shù)量,故采用單色的EPI作為網(wǎng)絡(luò)的輸入。

      圖6 EPI的形成

      圖7 單色EPI對(duì)比彩色EPI

      為了進(jìn)一步提升計(jì)算效率,充分利用卷積神經(jīng)網(wǎng)絡(luò)的特征提取能力,EPI-RefocusNet采用EPI Volume作為輸入,通過一次前向傳播計(jì)算即可得出深度值。EPI Volume結(jié)構(gòu)的形成如圖8所示,將所需視角的圖片通過加權(quán)平均法轉(zhuǎn)換為灰度圖,即Gray=0.299×R+0.578×G+0.144×B,其中R、G、B為彩色圖的三個(gè)顏色通道的分量;然后將所有灰度圖按照通道圖8中左側(cè)箭頭的所示順序進(jìn)行通道堆疊,得到一個(gè)512×512×9的矩陣,即9張分辨率為512×512的灰度圖堆疊形成的EPI Volume。EPI-RefocusNet采用4個(gè)方向的EPI Volume作為CNN輸入進(jìn)行訓(xùn)練,盡可能充分利用數(shù)據(jù)集中包含的視差信息,以保證估計(jì)結(jié)果的準(zhǔn)確性。

      圖8 一個(gè)方向的EPI Volume形成

      3.1.2 散焦線索構(gòu)建

      光場(chǎng)相機(jī)可以對(duì)拍攝好的照片進(jìn)行重聚焦,其原理可由雙平面法進(jìn)行說明,如圖9所示,L(u,v,s,t)表示光場(chǎng)的一個(gè)采樣,其中L表示光線強(qiáng)度,(u,v)和(s,t)分別為光線和兩個(gè)平面的交點(diǎn)坐標(biāo)。在4維坐標(biāo)(u,v,s,t)空間中,一條光線對(duì)應(yīng)光場(chǎng)的一個(gè)采樣點(diǎn)。在光場(chǎng)相機(jī)中,這兩個(gè)平面分別對(duì)應(yīng)主鏡頭與微透鏡陣列面。

      圖9 雙平面法

      為了方便說明,將光場(chǎng)簡(jiǎn)化為二維情形。用微透鏡陣列像面中的坐標(biāo)(x,y)表示光線的分布位置,則主鏡頭面坐標(biāo)(u,v)就反映了光線的傳輸方向,像面上的像素接受來自整個(gè)鏡頭面的光線進(jìn)行積分,則像面(x,y)處的光照度為:

      如圖10所示,重聚焦的過程是將采集到的光場(chǎng)重新投影到新的像面上進(jìn)行積分。在上式中L(u,v,s,t)為采集到的光場(chǎng),u和s分別表示鏡頭面和微透鏡陣列面,兩個(gè)平面之間的距離為l。重聚焦的平面為s',與平面u之間的距離為l'=α?l,則s'面所成的像等于u,S之間光場(chǎng)L的積分:

      此時(shí),像面處的光場(chǎng)積分表示為:

      圖10 重聚焦原理

      由于場(chǎng)景中每個(gè)物體所處深度不同,對(duì)于相同孔徑的主鏡頭而言,其聚焦面也不同,重聚焦可以獲知各個(gè)深度處所對(duì)應(yīng)的聚焦像,物體越接近確定的焦平面,其成像散焦量越低,也就越清晰,反之散焦量越高,也就越模糊,由此可見,通過衡量像素在不同焦棧處的“模糊度”(散焦量),也可以得到對(duì)應(yīng)的深度。

      通過改變?chǔ)恋娜≈担纯纱_定不同的聚焦面S',EPI-RefocusNet采用設(shè)置α∈[0.2,2),共生成了10張重聚焦圖片,如圖11所示,同樣采用灰度化和通道疊加,形成尺寸為512×512×10的Refocus Volume,作為神經(jīng)網(wǎng)絡(luò)的第5條輸入。

      3.2 網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)

      EPI-RefocusNet模型采用端到端的全卷積網(wǎng)絡(luò)設(shè)計(jì)以接受任意尺寸的圖像輸入,采用光場(chǎng)的EPI Volume結(jié)構(gòu)和Refocus Volume作為網(wǎng)絡(luò)輸入,以深度圖(depth map)作為ground truth同時(shí)feed給EPI-RefocusNet網(wǎng)絡(luò)進(jìn)行訓(xùn)練。如圖12所示,模型共有5條輸入支路,其中4條支路輸入數(shù)據(jù)為不同方向的EPI數(shù)據(jù),分別取0°、90°、45°和?45°方向的EPI;另一條支路的輸入數(shù)據(jù)為重聚焦的圖片。EPI-RefocusNet的前半部分在各自支路提取低階特征,隨后將低階特征圖(feature map)通過通道拼接(concatenate)合并為一條主路,完成將EPI和Defocus低階特征的融合,然后在EPI-RefocusNet的后半部分將合并的低階特征進(jìn)一步抽取高級(jí)特征,最終將所有特征轉(zhuǎn)換為深度圖。

      EPI-RefocusNet的5條支路部分采用了3個(gè)“Conv Block”,其結(jié)構(gòu)如圖13所示。為了使EPI-RefocusNet估計(jì)的結(jié)果達(dá)到像素級(jí)甚至亞像素級(jí),卷積核的尺寸設(shè)置為2×2大小,步長(zhǎng)為1,卷積核個(gè)數(shù)為70,這樣就能測(cè)量±4的視差,如果設(shè)置成1×1的卷積,則無法感受通道中的視差和散焦信息,而如果使用3×3的卷積會(huì)造成EPI-RefocusNet參數(shù)過多,網(wǎng)絡(luò)訓(xùn)練難度也會(huì)大大增加,同時(shí)由于同一物體的不同視角的視圖上的位置偏移量(視差)很小,所以不需要尺寸過大的卷積核。為了加快網(wǎng)絡(luò)訓(xùn)練速度,所有的卷積層都采用valid-padding,同時(shí)網(wǎng)絡(luò)采用批量隨機(jī)梯度下降(mini-batch stochastic gradient descent)進(jìn)行訓(xùn)練,這里引入Batch Normalization層(以下簡(jiǎn)稱BN層),其計(jì)算式為:

      公式(5)和公式(6)分別在計(jì)算BN層的輸入xi的均值與方差,公式(7)將輸入歸一化,式中的ε是為了防止方差為0導(dǎo)致無法計(jì)算而引入的一個(gè)數(shù)值很小的數(shù),其值為10?6;公式(8)將歸一化后的x?i進(jìn)行縮放平移,得到BN層的最終輸出yi,式中的γ和β為卷積神經(jīng)網(wǎng)絡(luò)需要訓(xùn)練的超參數(shù)。BN層將數(shù)據(jù)歸一化后再進(jìn)行線性變換以改善數(shù)據(jù)分布,同時(shí)其線性變化是學(xué)習(xí)的。采用BN層可以減輕過擬合,并且由于將輸入數(shù)據(jù)歸一化,可以減輕對(duì)初始化權(quán)重的依賴,權(quán)重不會(huì)過高或者過低,改善梯度的傳播,并且使數(shù)據(jù)分布在激活函數(shù)的非飽和區(qū)域,可以在一定程度上解決梯度消失的問題,同時(shí)容許較高的學(xué)習(xí)率,可以提高訓(xùn)練的速度,如今在圖像研究領(lǐng)域也在逐漸替代dropout。

      圖12 EPI-RefocusNet結(jié)構(gòu)

      圖13 Conv Block結(jié)構(gòu)

      輸入數(shù)據(jù)通過Conv2D和ReLU的計(jì)算式為:

      其中W為卷積核的權(quán)重,f(x)表示激活函數(shù)(activation function),b為偏置項(xiàng),是可由網(wǎng)絡(luò)學(xué)習(xí)的超參數(shù)。此處選擇的激活函數(shù)為ReLU(Rectified Linear Unit),則輸出數(shù)據(jù)變?yōu)椋?/p>

      ReLU函數(shù)在深度學(xué)習(xí)的圖像研究領(lǐng)域中應(yīng)用廣泛,由于其在x正半軸上的梯度始終為1,可有效地傳遞梯度,在一定程度上避免了梯度爆炸和梯度消失問題。將BN層置于Conv2D和ReLU之間,可以改變卷積層輸出結(jié)果的分布,使其落在激活函數(shù)的有效區(qū)域內(nèi),大大提高了神經(jīng)元的活躍性,使得整體計(jì)算成本降低。

      EPI-RefocusNet在經(jīng)過低階特征提取之后,將5條支路的特征圖進(jìn)行通道合并,此時(shí)通道數(shù)變成350,完成將EPI Volume和Refocus Volume的低階特征融合,再經(jīng)過8個(gè)Conv Block繼續(xù)提取高階特征,最終通過一個(gè)Block,如圖14所示,采用“Conv2D-ReLU-Conv2D”的結(jié)構(gòu),第一個(gè)卷積核通道數(shù)為350,最后一個(gè)卷積核通道數(shù)為1,將特征圖通道壓縮,完成高階特征融合,輸出一張深度圖(depth map)。

      圖14 最后一個(gè)Block

      3.3 數(shù)據(jù)擴(kuò)容

      使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行計(jì)算機(jī)視覺研究,要求訓(xùn)練數(shù)據(jù)必須充足,而HCI 4D光場(chǎng)數(shù)據(jù)集只提供了20組場(chǎng)景,劃分為訓(xùn)練集的場(chǎng)景僅16組,無法滿足訓(xùn)練網(wǎng)絡(luò)至收斂的要求。因此,除了對(duì)輸入數(shù)據(jù)進(jìn)行基本的預(yù)處理,在訓(xùn)練階段還需對(duì)數(shù)據(jù)進(jìn)行擴(kuò)容操作,使網(wǎng)絡(luò)可以正常訓(xùn)練,達(dá)到準(zhǔn)確估計(jì)深度信息的程度。

      文獻(xiàn)[14]使用CNN進(jìn)行深度估計(jì)的時(shí)候也進(jìn)行了數(shù)據(jù)擴(kuò)容,但是該方法針對(duì)的是單目視覺的深度估計(jì),而HCI數(shù)據(jù)集擁有9×9個(gè)視角,包含更多視差的信息,并且EPI-RefocusNet擁有7 875 911個(gè)參數(shù),需要訓(xùn)練的參數(shù)有7 868 911個(gè),需要大量數(shù)據(jù)用于訓(xùn)練,因此采取了如表1中的數(shù)據(jù)擴(kuò)容方法,得到了足夠多的訓(xùn)練數(shù)據(jù)。

      表1 數(shù)據(jù)擴(kuò)容方法

      數(shù)據(jù)擴(kuò)容主要分為兩大類方法,即變形(Transform)和顏色變換(Color Correction),其中圖像變形對(duì)光場(chǎng)圖像有廣泛的應(yīng)用,如縮放是對(duì)原圖進(jìn)行降采樣,以縮放為50%大小為例:將原圖的所有像素按照步長(zhǎng)為2進(jìn)行采樣,即每間隔1行進(jìn)行一次采樣,然后將所有采樣的行與列的像素進(jìn)行拼接,即得到原圖尺寸一半的圖像。針對(duì)光場(chǎng)圖像,就縮放而言,其特殊點(diǎn)在于對(duì)應(yīng)的深度圖除了尺寸要縮放為50%以外,深度值也需要減少為50%,這是因?yàn)楣鈭?chǎng)圖像產(chǎn)生的縮放和平移會(huì)影響其保存的場(chǎng)景中的空間幾何信息,將光場(chǎng)圖像縮放s倍,相當(dāng)于將光場(chǎng)相機(jī)靠近了s倍。

      隨機(jī)灰度化采用的方式為將灰度化過程中的R、G、B三個(gè)通道分量的權(quán)重進(jìn)行隨機(jī)生成,滿足以下三個(gè)條件:

      由于現(xiàn)實(shí)環(huán)境拍照時(shí)的光線條件是不一樣的,這將導(dǎo)致灰度化后圖片的灰度值也不一樣,采用隨機(jī)灰度化進(jìn)行數(shù)據(jù)擴(kuò)容是為了降低CNN對(duì)光照環(huán)境的依賴,提高模型的泛化能力。

      使用表1中的各種方法隨機(jī)組合,最終將數(shù)據(jù)量擴(kuò)充到滿足網(wǎng)絡(luò)訓(xùn)練要求的程度,完成了EPI-RefocusNet的訓(xùn)練。

      3.4 訓(xùn)練細(xì)節(jié)

      EPI-RefocusNet是一種全卷積神經(jīng)網(wǎng)絡(luò),沒有使用池化層(pooling)進(jìn)行降采樣,因此對(duì)輸入網(wǎng)絡(luò)的圖片尺寸沒有強(qiáng)制要求,可以采用小尺寸的圖片進(jìn)行網(wǎng)絡(luò)訓(xùn)練,再使用大尺寸的圖片進(jìn)行交叉驗(yàn)證(cross validation)。如果直接將尺寸為512×512的圖片輸入網(wǎng)絡(luò)訓(xùn)練,由于尺寸太大,訓(xùn)練批次大小(batch size)必須調(diào)小,這樣會(huì)造成訓(xùn)練緩慢,甚至無法完成訓(xùn)練,因此在訓(xùn)練時(shí),網(wǎng)絡(luò)輸入采用尺寸為25×25的擴(kuò)容后的數(shù)據(jù),訓(xùn)練完成后,再使用尺寸為512×512的圖像進(jìn)行驗(yàn)證。

      當(dāng)輸入圖像尺寸為512×512時(shí),網(wǎng)絡(luò)使用的卷積核大小為2×2,步長(zhǎng)為1,使用valid padding,因此輸出的特征圖尺寸為減少1,EPI-RefocusNet共有22層卷積,則此時(shí)網(wǎng)絡(luò)最終輸出的深度圖尺寸為490×490。

      在部分場(chǎng)景中,如圖15中箭頭指向的框中區(qū)域,其存在鏡面反射區(qū)域,對(duì)于網(wǎng)絡(luò)訓(xùn)練會(huì)產(chǎn)生不良的影響,因此在訓(xùn)練時(shí)需將這部分去除,以保證網(wǎng)絡(luò)可以正確地訓(xùn)練。

      圖15 鏡面反射區(qū)域

      文獻(xiàn)[15]中對(duì)比了不同的損失函數(shù)(loss function)對(duì)網(wǎng)絡(luò)訓(xùn)練結(jié)果的影響,EPI-RefocusNet訓(xùn)練選擇的損失函數(shù)為平均絕對(duì)誤差(Mean Absolute Error,MAE),其計(jì)算式為:

      式中,yi為第i個(gè)像素的ground truth深度值,y?i為第i個(gè)像素的估計(jì)深度值,m表示深度圖的像素點(diǎn)數(shù)量。

      訓(xùn)練方法使用小批量隨機(jī)梯度下降,batch-size為16,優(yōu)化器(optimizer)使用的是RMSprop,初始學(xué)習(xí)率(learning rate)為10?4。

      運(yùn)行程序的機(jī)器配置采用雙路E5-2650 v4,GPU為Nvidia Titan V,訓(xùn)練后端框架為Tensorflow,采用Keras進(jìn)行網(wǎng)絡(luò)模型的搭建。訓(xùn)練大約2~3天即可獲取良好的結(jié)果。

      在訓(xùn)練過程中,每迭代完一次,就使用512×512尺寸的圖像和對(duì)應(yīng)深度圖進(jìn)行交叉校驗(yàn),評(píng)估訓(xùn)練結(jié)果的指標(biāo)為MSE和BadPix,計(jì)算式如下:

      如果一個(gè)像素點(diǎn)的估計(jì)結(jié)果與ground truth相差超過t時(shí),該像素點(diǎn)為壞像素點(diǎn),壞像素點(diǎn)的數(shù)目占估計(jì)結(jié)果所有像素點(diǎn)的數(shù)目的比重就是BadPix,參考HCI官方的測(cè)試指標(biāo),這里t取值為0.07。

      整個(gè)訓(xùn)練過程中,MSE和BadPix的變化情況如圖16和圖17,從圖中可以看出,EPI-RefocusNet在訓(xùn)練過程中,MSE和BadPix總體趨勢(shì)為逐漸減少,說明網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)是合理的,并且采用的數(shù)據(jù)擴(kuò)容是有效的。由于EPI-RefocusNet采用視差和散焦兩種深度線索,在僅使用視差無法完成準(zhǔn)確估計(jì)的場(chǎng)景下,如遮擋場(chǎng)景和物體邊緣,這些部分在不同視角下的位置變化較大,可能無法構(gòu)成一條EPI中的直線,則無法準(zhǔn)確求出對(duì)應(yīng)深度,使用另一條視差線索即可完成此種場(chǎng)景下的深度估計(jì)。在此后的對(duì)比實(shí)驗(yàn)結(jié)果中,雙線索的EPI-RefocusNet在準(zhǔn)確率指標(biāo)MSE和BadPixel上也體現(xiàn)了這一特點(diǎn)。

      圖16 訓(xùn)練過程MSE變化

      圖17 訓(xùn)練過程BadPix變化

      4 實(shí)驗(yàn)結(jié)果與分析

      本章主要將EPI-RefocusNet和其他算法進(jìn)行對(duì)比實(shí)驗(yàn),并將所有的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比分析。實(shí)驗(yàn)使用的測(cè)試集為HCI中的4個(gè)測(cè)試場(chǎng)景:Cotton、Dino、Sideboard和Boxes,如圖18所示,其場(chǎng)景復(fù)雜度依次增大。Cotton中包含一個(gè)雕像,場(chǎng)景相對(duì)簡(jiǎn)單,估計(jì)難度較低;Dino場(chǎng)景中增加了更多立體幾何和光影的干擾,提高了估計(jì)難度;Sideboard場(chǎng)景使用了復(fù)雜的墻體紋理,并且書架部分由于書本高度不齊,邊緣信息較為復(fù)雜;Boxes場(chǎng)景使用一個(gè)鏤空盒子進(jìn)行遮擋,估計(jì)難度較高。

      圖18 測(cè)試場(chǎng)景

      將測(cè)試集圖像進(jìn)行數(shù)據(jù)預(yù)處理之后,輸入到訓(xùn)練完成的EPI-RefocuNet中,得到估計(jì)的深度圖,與其他文獻(xiàn)對(duì)比結(jié)果如圖19。

      圖19 對(duì)比結(jié)果

      從對(duì)比圖可以看出EPI-RefocusNet估計(jì)結(jié)果比較準(zhǔn)確,整體圖像也比較平滑,沒有出現(xiàn)估計(jì)明顯錯(cuò)誤的大片區(qū)域。左側(cè)兩個(gè)場(chǎng)景Cotton和Dino中,圖形相對(duì)簡(jiǎn)單,EPI-RefocusNet表現(xiàn)相對(duì)較好;在右側(cè)兩個(gè)稍復(fù)雜的場(chǎng)景中,EPI-RefocusNet在復(fù)雜多邊形場(chǎng)景和遮擋情況表現(xiàn)尚可。

      采用MSE、BadPix和Runtime這三項(xiàng)指標(biāo)對(duì)EPIRefocusNet和其他算法進(jìn)行性能比較,對(duì)比結(jié)果如表2和表3,其中MSE和BadPix用于評(píng)價(jià)算法的準(zhǔn)確性,Runtime用于評(píng)價(jià)算法的執(zhí)行效率。

      由表2可知,EPI-RefocusNet在測(cè)試場(chǎng)景中取得了良好的成績(jī),說明其估計(jì)結(jié)果準(zhǔn)確,且相對(duì)平滑。EPN[10]采用結(jié)合EPI和CNN的方式進(jìn)行深度估計(jì),SPO-MO[11]、SPO[12]和CAE[16]均是采用EPI作為深度估計(jì)的線索,通過構(gòu)建不同的匹配代價(jià)的方法進(jìn)行深度估計(jì)。EPIRefocusNet在MSE和BadPix指標(biāo)上均優(yōu)于這4種算法,說明采用兩種深度線索結(jié)合CNN的深度估計(jì)方法是有效的。

      在計(jì)算效率上,EPN[10]一次計(jì)算僅能得出一個(gè)像素點(diǎn)的深度,SPO-MO[11]、SPO[12]和 CAE[16]同樣需要多次迭代求解,因此為了得到高精度的深度圖需要耗費(fèi)大量時(shí)間,而EPI-RefocusNet一次計(jì)算就可得出完整的深度圖,計(jì)算調(diào)率明顯提高,具體結(jié)果如表3。

      可以看出,在測(cè)試場(chǎng)景中,EPI-RefocusNet在計(jì)算效率上明顯領(lǐng)先其他算法,并且在準(zhǔn)確度上也取得了良好的結(jié)果,因此EPI-RefocusNet在計(jì)算精度和運(yùn)行時(shí)間上做了良好的權(quán)衡,在保證估計(jì)結(jié)果準(zhǔn)確的前提下,大大提高了計(jì)算效率,因此可以說明EPI-RefocusNet是快速并且有效的。

      表2 實(shí)驗(yàn)結(jié)果準(zhǔn)確性對(duì)比

      表3 運(yùn)行時(shí)間對(duì)比 s

      5 結(jié)束語(yǔ)

      本文采用卷積神經(jīng)網(wǎng)絡(luò)融合兩種深度線索進(jìn)行針對(duì)光場(chǎng)圖像的深度信息估計(jì),通過縮放、顏色變換等數(shù)據(jù)擴(kuò)容手段擴(kuò)充了大量有效的訓(xùn)練數(shù)據(jù),使得網(wǎng)絡(luò)可以順利地訓(xùn)練收斂,且具備良好的泛化能力,最終,通過與其他主流算法進(jìn)行對(duì)比實(shí)驗(yàn),EPI-RefocusNet在針對(duì)光場(chǎng)圖像的深度估計(jì)中體現(xiàn)出了估計(jì)精度和準(zhǔn)確率高且執(zhí)行速度快的特點(diǎn)。

      猜你喜歡
      深度圖光場(chǎng)視差
      基于自適應(yīng)窗的立體相機(jī)視差圖優(yōu)化方法研究
      利用新型光場(chǎng)顯微鏡高速記錄神經(jīng)元活動(dòng)和血流動(dòng)態(tài)變化
      科學(xué)(2020年5期)2020-01-05 07:03:12
      基于深度圖的3D-HEVC魯棒視頻水印算法
      基于梯度域引導(dǎo)濾波的視差精煉迭代算法
      壓縮混沌光場(chǎng)的量子統(tǒng)計(jì)性質(zhì)研究
      一種基于局部直方圖匹配的深度編碼濾波算法
      基于分割樹的視差圖修復(fù)算法研究
      疊加速度譜在鉆孔稀少地區(qū)資料解釋中的應(yīng)用
      科技視界(2016年2期)2016-03-30 11:17:03
      立體視差對(duì)瞳孔直徑影響的研究
      集成光場(chǎng)三維顯示亮度均勻性校正方法
      富宁县| 东安县| 天台县| 蒙阴县| 武冈市| 宿州市| 大竹县| 洞头县| 城固县| 满城县| 保康县| 唐山市| 黄梅县| 若尔盖县| 景泰县| 新郑市| 本溪市| 腾冲县| 甘洛县| 白河县| 西畴县| 安徽省| 织金县| 宁城县| 开封县| 会泽县| 新龙县| 丽水市| 治多县| 宜春市| 讷河市| 宁蒗| 敦化市| 秭归县| 邵阳县| 兴业县| 镇雄县| 鞍山市| 涞源县| 喀喇沁旗| 泗洪县|