• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度學(xué)習(xí)的單目圖像深度信息恢復(fù)

      2022-06-23 10:58:12秦文光付新竹
      機(jī)電工程技術(shù) 2022年5期
      關(guān)鍵詞:單目殘差分組

      秦文光,付新竹,張 楠

      (1.山西中煤華晉集團(tuán)公司王家?guī)X礦,山西運(yùn)城 043300;2.中國礦業(yè)大學(xué),江蘇徐州 221100)

      0 引言

      隨著計(jì)算機(jī)視覺技術(shù)在日常生活中的普遍應(yīng)用[1-2],通過算法進(jìn)行圖像處理在近年獲得極大關(guān)注。計(jì)算機(jī)視覺研究領(lǐng)域的兩大主要任務(wù)為物體識別[3-4]和三維重建[5-6],2012 年深度學(xué)習(xí)興起后,三維重建打開了更為廣泛的思考角度,三維重建的關(guān)鍵就是獲取圖像對應(yīng)的真實(shí)深度信息。從圖像中估計(jì)場景的深度信息在計(jì)算機(jī)視覺領(lǐng)域已經(jīng)探索很久了,在深度學(xué)習(xí)的推動(dòng)下應(yīng)用廣泛。如最近比較流行增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)[7],就是借助于場景的深度信息來進(jìn)行視覺渲染以達(dá)到更好的效果。對于更高級的機(jī)器視覺任務(wù),如機(jī)器人導(dǎo)航[8]和汽車自動(dòng)駕駛[9-10]的導(dǎo)航定位系統(tǒng),就是通過場景的深度信息實(shí)現(xiàn)精準(zhǔn)定位,完成實(shí)際導(dǎo)航過程中障礙物躲避和智能路線規(guī)劃等任務(wù)。

      由于卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)的進(jìn)步和發(fā)展,單目圖像的深度估計(jì)效果逐漸增強(qiáng),Eigen 和Fergus[11]構(gòu)建了可獲取全局特征的粗網(wǎng)絡(luò)結(jié)構(gòu)和可獲取局部特征的精網(wǎng)絡(luò)結(jié)構(gòu),再聯(lián)合兩個(gè)架構(gòu)層獲取的特征得到深度信息。Tompson 等[12]提出了將深度卷積網(wǎng)絡(luò)和馬爾科夫隨機(jī)場(MRF)進(jìn)行結(jié)合,用于單幅圖像的人體姿態(tài)識別。Li 等[13]提出了一種深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)用于預(yù)測圖像的法線和深度信息,使用條件隨機(jī)場(CRF)對得到的深度圖進(jìn)行后處理。Liu 等[14]還提出了一種基于CNN 和CRF 的深度估計(jì)方法。Luo W 等[15]提出了一種使用交叉熵的匹配網(wǎng)絡(luò),有助于計(jì)算所有像素的浮動(dòng)差值。Laina 等[16]使用深度殘差網(wǎng)絡(luò)進(jìn)行深度估計(jì),提出了一種在網(wǎng)絡(luò)中高效學(xué)習(xí)特征映射上采樣的方法以提高輸出圖像的分辨率。上述文獻(xiàn)都得到了相對不錯(cuò)的研究結(jié)果,但圖像深度信息恢復(fù)網(wǎng)絡(luò)中參數(shù)量過大導(dǎo)致圖像細(xì)節(jié)深度信息的丟失進(jìn)而預(yù)測結(jié)果準(zhǔn)確率不高的問題一直存在。

      為了解決上述難題,本文提出一種改進(jìn)的RG-ResNet網(wǎng)絡(luò)模型。將大量的圖像和對應(yīng)深度信息的數(shù)據(jù)對輸入到網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,通過卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)提取輸入待恢復(fù)圖像的特征信息并輸出對應(yīng)的深度圖,以此實(shí)現(xiàn)對輸入的單張RGB 圖像的深度估計(jì),得到準(zhǔn)確的圖像深度恢復(fù)結(jié)果。

      1 RG-ResNet網(wǎng)絡(luò)模型

      分組卷積(Groupable Convolution,GConv)的方式可以大幅降低網(wǎng)絡(luò)參數(shù)數(shù)量,但存在組與組之間信息不相關(guān)的缺點(diǎn)。為此,本文提出一種改進(jìn)的RG-ResNet 網(wǎng)絡(luò)模型來實(shí)現(xiàn)單目圖像的深度信息恢復(fù)。主要研究內(nèi)容及創(chuàng)新點(diǎn)有:(1)基于分組卷積的思想提出相關(guān)聯(lián)分組卷積(Related Groupable Convolution,RGConv),解決分組卷積組與組之間信息無法關(guān)聯(lián)的缺陷,保留分組卷積少參數(shù)數(shù)量的優(yōu)勢;(2)基于RGConv 提出改進(jìn)后的RG-ResNet殘差模塊;(3)結(jié)合編-解碼端到端的網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)建RG-ResNet網(wǎng)絡(luò)模型。

      1.1 相關(guān)聯(lián)分組卷積

      GConv 是當(dāng)前輕量型網(wǎng)絡(luò)設(shè)計(jì)的核心模塊,簡潔且參數(shù)量低。GConv 易于實(shí)施,但是通過圖1 所示的分組卷積計(jì)算方式發(fā)現(xiàn),每次卷積都是對該組內(nèi)的信息進(jìn)行卷積,造成了不同組內(nèi)的通道數(shù)據(jù)無關(guān)聯(lián)。為了提升通道間的相關(guān)聯(lián)性,同時(shí)保留GConv 少參數(shù)量和低計(jì)算量的優(yōu)勢,本文提出了一種能夠使得不同分組的通道信息可以交流的分組方式RGConv。

      圖1 分組卷積和相關(guān)聯(lián)分組卷積Fig.1 Groupable convolution and related groupable convolution

      圖2 描述了具體的分組規(guī)則:將上一層分組卷積的結(jié)果進(jìn)行1~3 標(biāo)號,后對其每一個(gè)標(biāo)號組續(xù)分3 組,同以1~3標(biāo)號,續(xù)分組以其父組號和本身標(biāo)號組成新的標(biāo)號按照矩陣排列,根據(jù)矩陣中下標(biāo)不共線規(guī)則從左至右連線,組成新的排序組進(jìn)行后續(xù)的卷積操作。圖1 右圖同樣經(jīng)過GConv1得到對應(yīng)的特征圖,將得到的三組特征繼續(xù)劃分為3組,然后根據(jù)圖2所示的分組規(guī)則進(jìn)行對應(yīng)組合,最終使得輸出結(jié)果可融合不同組的通道信息。

      圖2 相關(guān)聯(lián)卷積分組規(guī)則Fig.2 Grouping rules ofrelated Convolution

      1.2 RG-ResNet殘差模塊

      ResNet 深層殘差結(jié)構(gòu)用于降維和升維的1*1 卷積實(shí)質(zhì)上是特殊的GConv,相當(dāng)于對輸入特征圖的每個(gè)通道都分配了一個(gè)通道數(shù)為1的1*1卷積核進(jìn)行卷積。因此基于ResNet 的殘差網(wǎng)絡(luò)模塊增加RGConv 結(jié)構(gòu),改進(jìn)后的模塊如圖3 中左圖(stride=1)所示,將ResNet 中的1*1卷積全部替換為RGConv,將原有的3*3 卷積替換為GConv,即為所提的RG-ResNet殘差模塊。

      圖3 RG-ResNet殘差模塊Fig.3 Residual structure of RG-ResNet

      圖3 所示分別為stride=1 和stride=2 的殘差結(jié)構(gòu),stride=1 為左圖,主分支通過1*1 的RGConv 的具體操作為:首先通過分組數(shù)為輸入通道數(shù)的GConv,而后通過相關(guān)聯(lián)分組規(guī)則輸出新排列的通道組。輸出經(jīng)過BN 層和ReLU 激活函數(shù)后,進(jìn)行3*3的分組卷積(分組數(shù)為輸入通道數(shù)),再次經(jīng)過BN 層后進(jìn)行1*1 的RGConv,與側(cè)分支的輸入通道進(jìn)行同維度的相加,結(jié)果經(jīng)過ReLU 激活函數(shù)輸出。右圖為當(dāng)stride=2 時(shí)的RG-ResNet 殘差結(jié)構(gòu),輸入首先通過主分支同stride=1 的結(jié)構(gòu),側(cè)分支將上一層的輸出進(jìn)行平均池化操作,而后與stride=1 的結(jié)構(gòu)不同在于這里主、側(cè)分支進(jìn)行通道拼接而非同維度的相加操作,拼接后的結(jié)果經(jīng)過ReLU激活函數(shù)輸出。

      1.3 網(wǎng)絡(luò)結(jié)構(gòu)

      網(wǎng)絡(luò)整體結(jié)構(gòu)如圖4所示,采用編-解碼結(jié)構(gòu)進(jìn)行網(wǎng)絡(luò)搭建。編碼部分采用RG-ResNet 殘差結(jié)構(gòu)堆疊進(jìn)行特征提取,解碼結(jié)構(gòu)采用上采樣逐步恢復(fù)圖像的細(xì)節(jié)特征和空間分辨率。

      圖4 RG-ResNet整體結(jié)構(gòu)Fig.4 The structure of RG-ResNet

      1.3.1 編碼器構(gòu)建

      網(wǎng)絡(luò)的編碼器部分采用所提的RG-ResNet 殘差模塊進(jìn)行多次疊加,不斷增加網(wǎng)絡(luò)深度用于提取圖像特征。本文采用50 層的殘差網(wǎng)絡(luò)的設(shè)計(jì)方式,對RG-ResNet 殘差模塊進(jìn)行疊加操作,網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。

      圖5 編碼器結(jié)構(gòu)Fig.5 Encoder structure

      RG-ResNet 的兩種殘差模塊,經(jīng)過第一個(gè)殘差模塊(黃色模塊)時(shí)的1*1卷積并非分在經(jīng)組卷積,因?yàn)榇藭r(shí)的網(wǎng)絡(luò)輸入通道數(shù)量較少。再對RG-ResNet 中stride=1(綠色模塊)和stride=2(藍(lán)色模塊)進(jìn)行如圖5 所示的疊加,構(gòu)成編碼器實(shí)現(xiàn)對圖像的特征提取,編碼部分詳細(xì)參數(shù)如表1所示。

      表1 編碼器網(wǎng)絡(luò)參數(shù)Tab.1 Encoder parameters

      1.3.2 解碼器構(gòu)建

      輸入圖像經(jīng)過前述編碼模塊提取輸入圖像的特征信息,但是由于經(jīng)過多層卷積,特征圖的分辨率較低,輸出的尺寸過小,需要將圖像恢復(fù)到原來的尺寸,選用反池化+卷積的上采樣操作擴(kuò)大圖像分辨率,流程如圖6所示。將分辨率較低的特征圖通過U1進(jìn)行反池化操作,池化索引采用圖6標(biāo)識的位置增補(bǔ)0的2×2像素塊。反池化操作后的結(jié)果進(jìn)行卷積核為5*5 的卷積C1、C3 操作,經(jīng)過BN歸一化和ReLU激活函數(shù)進(jìn)行處理,經(jīng)過C1操作后的特征圖再次進(jìn)行C3的卷積核為3*3的卷積操作,將C3和C2 處理后的結(jié)果進(jìn)行同維度的通道相加后經(jīng)過ReLU激活函數(shù),得到分辨率較高的特征圖輸出結(jié)果。

      圖6 上采樣結(jié)構(gòu)Fig.6 Upsampling structure

      1.3.3 損失函數(shù)

      Huber 損失函數(shù)又為平滑平均絕對誤差損失函數(shù),能夠比較清晰地估計(jì)出圖像中物體的深度信息,對異常值處理更加魯棒。Huber損失函數(shù)如式(1)所示。

      式中:f(xi)為估計(jì)值;Yi為目標(biāo)值;λ為超參數(shù)取λ=0.15; 設(shè) 置c的 值 如 式(2); 令a=f(xi)-Y,c=

      2 實(shí)驗(yàn)結(jié)果

      實(shí)驗(yàn)設(shè)備選取型號NVIDIA GTX 1080Ti 顯卡的計(jì)算機(jī),操作系統(tǒng)為Ubuntu18.04,選擇Pytorch 深度學(xué)習(xí)框架。訓(xùn)練初始學(xué)習(xí)率(learning rate)設(shè)為0.000 1,訓(xùn)練衰減因子α=0.999。預(yù)設(shè)批量處理大?。╞atch size)為8,最大迭代次數(shù)(max epoch)為20,損失函數(shù)使用Huber損失函數(shù),最終訓(xùn)練模型參數(shù)總數(shù)量為25 M。訓(xùn)練過程中對前幾層的模型權(quán)重進(jìn)行凍結(jié)不訓(xùn)練,同時(shí)進(jìn)行數(shù)據(jù)增強(qiáng),避免過擬合,提升訓(xùn)練效果。

      2.1 評價(jià)標(biāo)準(zhǔn)

      根據(jù)目前單目圖像深度信息恢復(fù)采用的最通用評價(jià)指標(biāo)進(jìn)行對所提出的網(wǎng)絡(luò)框架進(jìn)行評估,通用的評估方式[11]為:均方根誤差(Root Mean Squared Error,RMSE);平均對數(shù)誤差(Root Mean Squared log Error,RMSElog);平均相對誤差(Average Relative Error,Abs-REL);準(zhǔn)確度(Accuracy)。

      2.2 不同網(wǎng)絡(luò)對比實(shí)驗(yàn)與分析

      將所提出的網(wǎng)絡(luò)與目前已有的單目圖像深度信息恢復(fù)的編-解碼結(jié)構(gòu)網(wǎng)絡(luò)架構(gòu)進(jìn)行比對。本文提出的方法與單目圖像深度信息恢復(fù)的前沿方法[13-14,16]均采用NYU Depth V2 包含659 張圖像對的室內(nèi)場景進(jìn)行對比測試,實(shí)驗(yàn)結(jié)果如表2 所示。對表中分析,本文所提方法能夠在保證精度的前提下有效地降低錯(cuò)誤率。雖然該方法[13-14,16]在3 種誤差評估方面都達(dá)到了近期較高水平,但本文提出的模型在均方根誤差上比表中效果最佳的Laina 等[16]的方法提高了19.8%,同時(shí)平均相對誤差高于表中最優(yōu)數(shù)據(jù)3%,相比之下本文提出的方法要優(yōu)于表中的其他方法。

      表2 本文方法與其他方法的定量結(jié)果對比Tab.2 Comparison of network quantitative proposed by this paper and others

      由于該方法[16]在單目圖像深度估計(jì)的實(shí)驗(yàn)結(jié)果最優(yōu),采用此方法與本文提出的方法進(jìn)行定性實(shí)驗(yàn)比對,如圖7 所示。圖中Laina 等[16]所提網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果整體預(yù)測準(zhǔn)確,但是圖中物體邊緣模糊且輪廓不夠清晰,在物體細(xì)節(jié)和邊緣的深度信息恢復(fù)上存在信息丟失、錯(cuò)誤等缺陷。相較而言,本文所提方法在框線內(nèi)一些細(xì)節(jié)(如桌子、沙發(fā)、柜子、門框等)的深度信息恢復(fù)中,可得到較為準(zhǔn)確的結(jié)果,保證了深度信息恢復(fù)的完整性和準(zhǔn)確性。綜上,本文提出的方法能夠?qū)崿F(xiàn)單目圖像的深度信息恢復(fù),同比于目前其他先進(jìn)算法,準(zhǔn)確率占優(yōu)同時(shí)保證了場景細(xì)節(jié)深度信息的準(zhǔn)確恢復(fù)。

      圖7 不同網(wǎng)絡(luò)深度信息恢復(fù)結(jié)果對比Fig.7 Comparison of information recovery results of different network depths

      3 結(jié)束語

      為了解決目前圖像深度信息恢復(fù)網(wǎng)絡(luò)中參數(shù)量過大的難題提出RG-ResNet,用于實(shí)現(xiàn)單目圖像的深度信息恢復(fù),本文結(jié)合編-解碼結(jié)構(gòu),提出了兩個(gè)單目圖像深度信息恢復(fù)的網(wǎng)絡(luò)模型。

      本文首先提出了RGConv 的卷積方式,其保留了分組卷積低參數(shù)量的優(yōu)勢,同時(shí)彌補(bǔ)了組與組之間通道信息無關(guān)聯(lián)的缺陷,而后基于RGConv 對ResNet 殘差模塊進(jìn)行改進(jìn),構(gòu)建RG-ResNet 網(wǎng)絡(luò)模型。實(shí)驗(yàn)結(jié)果表明,在基于NYU Depth V2 數(shù)據(jù)集上RG-ResNet 網(wǎng)絡(luò)效果更好,并且與目前先進(jìn)算法相比在圖像物體邊界、局部細(xì)節(jié)深度信息的恢復(fù)方面能夠達(dá)到較好的效果。

      在實(shí)際應(yīng)用場景中,不同的天氣環(huán)境、硬件等因素都會(huì)對網(wǎng)絡(luò)的預(yù)測結(jié)果造成直接的影響,并且目前一個(gè)功能的應(yīng)用都是多種算法的相互配合,這就要求單一算法能夠?qū)崿F(xiàn)更加穩(wěn)定準(zhǔn)確的輸出,本文在對網(wǎng)絡(luò)的穩(wěn)定性和魯棒性方面的實(shí)驗(yàn)不足,因此下一步將加入實(shí)際場景影響因素的考慮和硬件優(yōu)化的處理,進(jìn)一步驗(yàn)證所提出方法的實(shí)際可應(yīng)用性。

      猜你喜歡
      單目殘差分組
      基于雙向GRU與殘差擬合的車輛跟馳建模
      基于殘差學(xué)習(xí)的自適應(yīng)無人機(jī)目標(biāo)跟蹤算法
      基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
      一種單目相機(jī)/三軸陀螺儀/里程計(jì)緊組合導(dǎo)航算法
      分組搭配
      怎么分組
      單目SLAM直線匹配增強(qiáng)平面發(fā)現(xiàn)方法
      分組
      基于CAD模型的單目六自由度位姿測量
      平穩(wěn)自相關(guān)過程的殘差累積和控制圖
      河南科技(2015年8期)2015-03-11 16:23:52
      铁岭县| 乌鲁木齐县| 余庆县| 南康市| 信阳市| 凌云县| 佛教| 宿州市| 河池市| 乃东县| 东城区| 建宁县| 咸宁市| 天全县| 平凉市| 安平县| 高青县| 万载县| 临邑县| 洛阳市| 清远市| 宁陵县| 平顶山市| 定陶县| 高邮市| 敖汉旗| 瓮安县| 盐边县| 宜春市| 肥西县| 斗六市| 巴楚县| 南岸区| 沁阳市| 深泽县| 邛崃市| 长泰县| 夏河县| 麻城市| 襄汾县| 石门县|