• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度學(xué)習(xí)的單幅圖像三維重建算法

      2020-03-24 06:06:16莉,陳
      關(guān)鍵詞:單幅體素三維重建

      朱 莉,陳 輝

      (上海電力大學(xué) 自動(dòng)化工程學(xué)院,上海 200090)

      三維重建是計(jì)算機(jī)視覺領(lǐng)域具有挑戰(zhàn)性的問題之一,根據(jù)真實(shí)圖像中的數(shù)據(jù)重建出具有精確幾何信息的三維結(jié)構(gòu)模型.目前流行的方法是多目圖像重建,需要對(duì)于目標(biāo)物體進(jìn)行多角度測(cè)量,耗費(fèi)資源,相比之下單幅圖像的三維重建輸入簡單,更適合便捷式三維重建的應(yīng)用場合,如逆向工程、模式識(shí)別、機(jī)器人導(dǎo)航[1]及無人駕駛領(lǐng)域中.傳統(tǒng)的單幅圖像三維重建主要包括基于幾何外形重建和模型重建的算法.基于幾何外形的方法以簡單的方式提取表面信息,但對(duì)光照和灰度要求高,基于模型的方法利用先驗(yàn)知識(shí)在特定物體上取得較好的重建,但很難應(yīng)用于所有類別.現(xiàn)研究中基于單幅圖像的重建.問題分為物體和場景兩種重建,本文中將對(duì)單個(gè)物體的重建進(jìn)行探究.隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用,目前數(shù)據(jù)的表達(dá)方式主要有體素、點(diǎn)云和網(wǎng)格三種,在不同的研究任務(wù)中,不同三維數(shù)據(jù)的表達(dá)方式各具優(yōu)勢(shì).本文針對(duì)這個(gè)問題選擇四種代表算法進(jìn)行深入研究,并得出結(jié)論.

      1 單幅圖像三維重建研究現(xiàn)狀

      單幅圖像三維重建的主要思想是從給定的單幅圖像中提取目標(biāo)的二維幾何信息,并利用先驗(yàn)知識(shí)來推測(cè)出被遮擋的部分,重構(gòu)出完整的三維結(jié)構(gòu),但重建過程中仍會(huì)存在圖像自身的屬性問題、重建的不適應(yīng)問題、地面的模糊性以及類間差異和類內(nèi)差異.

      圍繞深度學(xué)習(xí)的發(fā)展,基于體素表示的方法最先提出,將CAD模型進(jìn)行體素化,表示為二值或?qū)嵵档娜S張量.2015年,Wu等[2]提出3D shapenets,利用卷積深度置信網(wǎng)絡(luò)將3D幾何外形表示為3D體素網(wǎng)格上二值變量的概率分布,通過吉布斯采樣預(yù)測(cè)其表面形狀類型,并填補(bǔ)未知區(qū)域生成三維體素模型.為克服缺乏紋理、鏡面反射和基線等特征匹配問題,2016年Choy等[3]提出3D-R2N2,以端到端的方式自動(dòng)學(xué)習(xí),重建出單視圖或多視圖的三維體素模型.針對(duì)單幅圖像重建的數(shù)據(jù)集中出現(xiàn)的類內(nèi)和類間差異問題,Kanazawa等[4]結(jié)合卷積神經(jīng)網(wǎng)絡(luò)提出WarpNet網(wǎng)絡(luò)框架,利用細(xì)粒度數(shù)據(jù)集的結(jié)構(gòu)在類別和姿勢(shì)變化時(shí),預(yù)測(cè)不同圖像之間的對(duì)應(yīng)關(guān)系,實(shí)現(xiàn)與監(jiān)督方法相似質(zhì)量的重構(gòu).為更好的利用先驗(yàn)知識(shí),Wu等[5]提出,MarrNet模型,在真實(shí)圖像上進(jìn)行端到端的訓(xùn)練,順序估計(jì)出2.5D草圖和3D對(duì)象形狀.為克服體素重建易受信息稀疏的缺點(diǎn),F(xiàn)an等[6]提出PSGN生成點(diǎn)云表示的三維模型,利用條件采樣器解決不確定性與固有模糊性,有很好的重建效果.體素和點(diǎn)云表示存在計(jì)算復(fù)雜和缺乏更精細(xì)的幾何形狀等問題,基于網(wǎng)格表示的深度學(xué)習(xí)模型被提出.但圖像和網(wǎng)格之間的轉(zhuǎn)換或渲染易產(chǎn)生離散操作阻礙反向傳播.Wang等[7]基于圖形的卷積神經(jīng)網(wǎng)絡(luò)來表示三維網(wǎng)格提出Pixel2Mesh,通過逐步變形橢球,利用從輸入圖像中提取的感知特征生成正確的三角形網(wǎng)格表示的三維形狀.Groueix等[8]提出AtlasNet,通過將一組正方形映射到3D形狀的表面來局部地近似目標(biāo)表面,多個(gè)這樣的正方形使用非磁盤拓?fù)鋵?duì)復(fù)雜的表面進(jìn)行建模.

      為便于比較三種不同表示方法的優(yōu)劣性,以及適用于什么研究場合及方向,選擇基于體素表達(dá)的3D-R2N2網(wǎng)絡(luò)、基于點(diǎn)云表達(dá)的PSGN網(wǎng)絡(luò)、基于單片網(wǎng)格表達(dá)的Pixel2Mesh網(wǎng)絡(luò)和基于多片網(wǎng)格表達(dá)的AtlasNet網(wǎng)絡(luò)這4種網(wǎng)絡(luò)來進(jìn)行定性定量的分析.

      2 幾種典型的不同三維表示的點(diǎn)云重建算法

      2.1 基于體素表達(dá)的3D-R2N2網(wǎng)絡(luò)

      3D-R2N2網(wǎng)絡(luò)的主要思想是從大量的數(shù)據(jù)集中學(xué)習(xí)一個(gè)二維圖像到對(duì)應(yīng)三維底層模型的映射,利用數(shù)據(jù)驅(qū)動(dòng)的方法構(gòu)建的3D循環(huán)重建神經(jīng)網(wǎng)絡(luò)(3D-R2N2).以多個(gè)或單個(gè)圖像作為輸入,輸出三維像素塊的對(duì)應(yīng)3D重建模型.3D-R2N2網(wǎng)絡(luò)都由三部分組成:Encoder(2D-CNN)、LSTM(3D-LSTM)以及Decoder(3D-DCNN).見圖1.

      圖1 3D-R2N2網(wǎng)絡(luò)架構(gòu)

      Encoder:主要是將輸入的127*127的RGB圖像變換成低維的特征矩陣,然后送到LSTM單元進(jìn)行循環(huán)學(xué)習(xí),選擇性地更新它們的單元狀態(tài)或保持狀態(tài).其中CNN在每兩個(gè)卷積層之間都會(huì)增加一個(gè)殘余連接,來有效的加速深度神經(jīng)網(wǎng)絡(luò)的優(yōu)化過程.

      LSTM:是3D-R2N2的核心部分,由一組具有受限連接的結(jié)構(gòu)化LSTM單元組成,每個(gè)單元負(fù)責(zé)重建最終輸出的特定部分,與循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)類似,允許網(wǎng)絡(luò)保留讀取的內(nèi)容,并在讀取新圖像時(shí)更新內(nèi)存.

      Decoder:采用一個(gè)簡單的解碼器網(wǎng)絡(luò),包含5個(gè)卷積和一個(gè)深度殘差網(wǎng)絡(luò),其中包含4個(gè)殘余連接,最后是最終卷積,卷積層采取3*3*3大小的卷積核,來處理被賦予三維的結(jié)構(gòu)信息的像素?cái)?shù)據(jù),解碼LSTM隱藏狀態(tài),并生成最終的3D概率體素重建.

      2.2 基于點(diǎn)云表達(dá)的PSGN網(wǎng)絡(luò)

      PSGN網(wǎng)絡(luò)的結(jié)構(gòu)見圖2,主要包括點(diǎn)云生成模塊、點(diǎn)云損失函數(shù)設(shè)計(jì)和生成多個(gè)預(yù)測(cè)模型三部分.

      圖2 PSGN分布式建模模塊

      點(diǎn)云生成網(wǎng)絡(luò):具有編碼器和預(yù)測(cè)器兩個(gè)階段,見圖3.編碼器是卷積層和ReLU層的組合,輸入包括輸入圖像I與隨機(jī)向量r,r用來干擾I的預(yù)測(cè),目的是將I和r的輸入對(duì)映射到嵌入空間.預(yù)測(cè)器一種方案是由完全連接層組成,獨(dú)立預(yù)測(cè)各點(diǎn)的坐標(biāo),描述復(fù)雜的結(jié)構(gòu)時(shí)能表現(xiàn)出良好的性能,但該預(yù)測(cè)器不能充分利用自然幾何統(tǒng)計(jì).第二種網(wǎng)絡(luò)具有兩個(gè)預(yù)測(cè)分支,完全連接(fc)分支和反卷積(deconv)分支.改進(jìn)的網(wǎng)絡(luò)不僅在復(fù)雜結(jié)構(gòu)中具有很高的靈活性,而且能更好的利用幾何平滑性,反卷積分支通過權(quán)重共享減少參數(shù),同時(shí)Hourglass 卷積網(wǎng)絡(luò)反復(fù)進(jìn)行編解碼,可以更好地聯(lián)合全局和局部信息.

      圖3 PSGN點(diǎn)云的生成網(wǎng)絡(luò)結(jié)構(gòu)[6]

      點(diǎn)云損失函數(shù): 選取了兩種距離Chamfer distance (CD) 和Earth Mover0s distance (EMD) 作為候選,來比較預(yù)測(cè)的點(diǎn)云和地面真值.

      生成多個(gè)預(yù)測(cè)模型:實(shí)驗(yàn)中采用Mon損失或者VAE方法來進(jìn)行不確定性的建模,在重建結(jié)果上,能產(chǎn)生多個(gè)可能的輸出來解決單幅圖像三維重建的不適定問題.

      2.3 基于網(wǎng)格表達(dá)的網(wǎng)絡(luò)

      (1)基于單片網(wǎng)格表達(dá)的Pixel2Mesh網(wǎng)絡(luò)

      Pixel2Mesh網(wǎng)絡(luò)是基于圖形的卷積神經(jīng)網(wǎng)絡(luò),通過逐步變形橢球,采用粗到細(xì)的策略,定義各種網(wǎng)格相關(guān)損失來捕捉不同層次的特征,從端到端生成三角形網(wǎng)格表示的三維形狀的深度學(xué)習(xí)體系結(jié)構(gòu).

      圖4 Pixel2Mesh網(wǎng)絡(luò)結(jié)構(gòu)[7]

      Pixel2Mesh整個(gè)網(wǎng)絡(luò)包括一個(gè)圖像特征網(wǎng)絡(luò)和一個(gè)級(jí)聯(lián)的網(wǎng)格變形網(wǎng)絡(luò).圖像特征網(wǎng)絡(luò)是2D CNN結(jié)構(gòu),見圖4,可從輸入圖像中提取感知特征,網(wǎng)格變形網(wǎng)絡(luò)可利用該特征將橢圓形網(wǎng)格逐漸變形為所需的3D模型.級(jí)聯(lián)的網(wǎng)格變形網(wǎng)絡(luò)是一個(gè)基于圖的卷積網(wǎng)絡(luò)(GCN),其中包含三個(gè)變形塊.每個(gè)變形塊都會(huì)獲取一個(gè)表示當(dāng)前網(wǎng)格模型的輸入圖,并在頂點(diǎn)上附加3D形狀特征,并生成新的頂點(diǎn)位置和特征.而圖形解池層增加了頂點(diǎn)數(shù)量,以增加處理細(xì)節(jié)的能力,同時(shí)仍保持三角形網(wǎng)格拓?fù)?

      (2)基于多片網(wǎng)格表達(dá)AtlasNet網(wǎng)絡(luò)

      AtlasNet網(wǎng)絡(luò)主要思想是基于3D表面生成的,由可學(xué)習(xí)的參數(shù)化組成,受表面正式定義為局部類似于歐幾里德平面的拓?fù)淇臻g的啟發(fā),通過將一組正方形映射到3D形狀的表面來局部地近似目標(biāo)表面,多個(gè)這樣的正方形允許網(wǎng)絡(luò)使用非磁盤拓?fù)鋵?duì)復(fù)雜的表面進(jìn)行建模.

      AtlasNet網(wǎng)絡(luò)重點(diǎn)在于推理過程,分為兩大模塊,學(xué)習(xí)編碼目標(biāo)物體表面以及網(wǎng)格的生成.學(xué)習(xí)編碼目標(biāo)物體表面主要解決輸入3D點(diǎn)云時(shí)如何自動(dòng)編碼3D形狀以及輸入RGB圖像時(shí)如何重建3D形狀.對(duì)于自動(dòng)編碼器,采用PointNet的編碼器,將輸入點(diǎn)云轉(zhuǎn)換為尺寸為k = 1024 的潛矢量,對(duì)于圖像,采用ResNet-18作為編碼器,解碼器采用4個(gè)完全連接的層,大小分別為1024、512、256、128.訓(xùn)練中對(duì)學(xué)習(xí)到的參數(shù)化以及真值點(diǎn)云定期采樣,以避免過度擬合.網(wǎng)格生成過程是將單位正方形上的規(guī)則網(wǎng)格轉(zhuǎn)換為3D,以3D方式去連接之前以2D方式連接的點(diǎn),此方法可以生成高分辨率網(wǎng)格.為了避免網(wǎng)格不閉合或出現(xiàn)空洞或重疊,采用對(duì)表面進(jìn)行密集采樣并使用網(wǎng)格重建算法,最終生成閉合高分辨率網(wǎng)格.

      3 實(shí)例分析

      在三維重建研究中,針對(duì)三種不同表示,至今仍沒有一個(gè)完全統(tǒng)一的評(píng)價(jià)指標(biāo)[8].本實(shí)驗(yàn)中采用以下指標(biāo)對(duì)這四種網(wǎng)絡(luò)進(jìn)行分析,其中體素表示和點(diǎn)云表示采用交并比IoU指標(biāo),網(wǎng)格表示采用F-Score[9]和Metro指標(biāo),最后采用倒角距離CD和地球移動(dòng)距離EMD對(duì)三種三維表示的重建精度進(jìn)行對(duì)比.

      3.1 評(píng)價(jià)指標(biāo)

      (1)交并比IoU

      測(cè)量預(yù)測(cè)形狀體積與真值體積之間的交集與兩個(gè)體積的并集的比率,因此處理基于表面重建的其他表示時(shí)需要對(duì)重建的和真值模型先進(jìn)行體素化.

      (1)

      (2)F-Score

      從預(yù)測(cè)結(jié)果和真值中統(tǒng)一采樣,這些點(diǎn)可以在特定閾值τ內(nèi)找到彼此最近鄰居,然后計(jì)算F-score作為精度.對(duì)于F-Score,越大重建效果越好.

      (3)Metro

      為了說明網(wǎng)格的連通性,使用公開可用的Metro軟件,使用Metro標(biāo)準(zhǔn)比較了輸出網(wǎng)格和地面真實(shí)網(wǎng)格的平均歐式距離.

      (4)倒角距離CD和地球移動(dòng)距離EMD

      (2)

      (3)

      3.2 實(shí)驗(yàn)結(jié)果分析

      實(shí)驗(yàn)中所有環(huán)境配置見表2,并可視化這幾種算法在shapenet數(shù)據(jù)集的飛機(jī)類別上的運(yùn)行結(jié)果見圖5,各種指標(biāo)的結(jié)果比較見表3.

      表2 實(shí)驗(yàn)環(huán)境配置

      圖5 三種不同表示的網(wǎng)絡(luò)重建結(jié)果

      在圖5中,第一個(gè)為原始輸入圖像,從左至右依次為3D-R2N2網(wǎng)絡(luò)、PSGN網(wǎng)絡(luò)、Pixel2Mesh網(wǎng)絡(luò)和AtlasNet網(wǎng)絡(luò)生成圖像.從圖中的視覺外觀中,基于體素表示的3D-R2N2和基于網(wǎng)格表示的Pixel2Mesh和AtlasNet更注構(gòu)造物體表面這個(gè)曲面上的點(diǎn),而基于點(diǎn)云表示的PSGN更傾向于生成3D形狀體積內(nèi)的點(diǎn).3D-R2N2模型的分辨率較低,PSGN生成的模型精細(xì)度不夠,錯(cuò)過物體的薄特征比如飛機(jī)的機(jī)翼上的四個(gè)發(fā)動(dòng)機(jī),相比之下,PSGN的目標(biāo)函數(shù)鼓勵(lì)保留精細(xì)結(jié)構(gòu).但PSGN的模型由于點(diǎn)云之間缺少關(guān)聯(lián)信息,導(dǎo)致表面信息的模糊性,而Pixel2Mesh 和AtlasNet的模型相對(duì)前兩種表示而言,更注重表面信息,因此生成的模型更加逼真,更接近于原來的真實(shí)圖像.表3中顯示了評(píng)估標(biāo)準(zhǔn)數(shù)據(jù),從表格中可以看出PSGN的CD和EMD值小于Pixel2Mesh,但是由于點(diǎn)云具有最大的自由度而這種自由容易導(dǎo)致較小的CD和EMD,但從圖中發(fā)現(xiàn)Pixel2Mesh的重構(gòu)模型更逼真.

      表3 不同表示的網(wǎng)絡(luò)重建評(píng)估數(shù)值

      根據(jù)實(shí)驗(yàn)的可視化結(jié)果得出以下結(jié)論.

      (1)著重研究物體表面的課題研究,一般選用體素表達(dá)與網(wǎng)格表達(dá).體素和點(diǎn)云這兩種表示都失去了重要的表面細(xì)節(jié),而且重構(gòu)曲面模型也是很重要的,相比之下網(wǎng)格,能夠建模形狀細(xì)節(jié).

      (2)針對(duì)研究帶孔和精細(xì)細(xì)節(jié)的對(duì)象時(shí)一般選用體素表達(dá).由于點(diǎn)云的稀疏性與點(diǎn)云之間的不關(guān)聯(lián)性,不適用基于點(diǎn)云表示的模型,網(wǎng)格通常是用渲染管線或可微分的渲染器進(jìn)行調(diào)整以匹配圖像的統(tǒng)計(jì)信息,基于網(wǎng)格表示的模型難以一致的方式生成,此時(shí)更適宜選用體素表達(dá).

      (3)目標(biāo)物體物體結(jié)構(gòu)比較復(fù)雜時(shí)優(yōu)先選擇體素表達(dá).網(wǎng)格通常由三角形網(wǎng)格構(gòu)成,因此網(wǎng)格能夠很好地描述目標(biāo)對(duì)象的細(xì)節(jié)層次,局限于網(wǎng)絡(luò)拓?fù)涞目勺冃裕沟镁W(wǎng)絡(luò)對(duì)目標(biāo)物體的復(fù)雜性比較敏感,當(dāng)目標(biāo)物體的結(jié)構(gòu)比較復(fù)雜時(shí),網(wǎng)格重構(gòu)的精確度和效率降低.基于體素的網(wǎng)絡(luò)獲取三維物體的特征也比較多,因此可優(yōu)先選擇基于體素表達(dá)的網(wǎng)絡(luò).

      (4)研究方向更傾向于重建物體的變換或應(yīng)用于其他任務(wù)時(shí),可優(yōu)先選擇點(diǎn)云表示.

      4 結(jié) 論

      基于深度學(xué)習(xí)的單個(gè)物體三維重建中,不同三維表示的選擇在不同的任務(wù)以及與神經(jīng)網(wǎng)絡(luò)的結(jié)合上會(huì)產(chǎn)生不同的效果,也直接影響著網(wǎng)絡(luò)的選擇構(gòu)建、損失函數(shù)的設(shè)計(jì)以及輸出模型的精度,因此三維表示的選擇至關(guān)重要,應(yīng)根據(jù)研究內(nèi)容合理選擇三維表示方式.

      猜你喜歡
      單幅體素三維重建
      基于超體素聚合的流式細(xì)胞術(shù)自動(dòng)門控方法
      基于多級(jí)細(xì)分的彩色模型表面體素化算法
      基于改進(jìn)大氣散射模型的單幅圖像去霧方法
      運(yùn)用邊界狀態(tài)約束的表面體素加密細(xì)分算法
      基于Mimics的CT三維重建應(yīng)用分析
      軟件(2020年3期)2020-04-20 00:56:34
      基于體素格尺度不變特征變換的快速點(diǎn)云配準(zhǔn)方法
      基于圖像融合的快速單幅圖像去霧算法
      基于稀疏表示和結(jié)構(gòu)自相似性的單幅圖像盲解卷積算法
      基于關(guān)系圖的無人機(jī)影像三維重建
      基于改進(jìn)暗通道和導(dǎo)向?yàn)V波的單幅圖像去霧算法
      宁阳县| 秦皇岛市| 柞水县| 苏尼特右旗| 长顺县| 三江| 综艺| 冕宁县| 鄂托克前旗| 隆昌县| 安平县| 防城港市| 阿瓦提县| 涿州市| 鹤山市| 会东县| 平安县| 灵川县| 五台县| 固阳县| 康平县| 莆田市| 万全县| 丰台区| 敖汉旗| 西林县| 高雄市| 桂东县| 简阳市| 周口市| 堆龙德庆县| 沿河| 贺州市| 三亚市| 营口市| 琼结县| 原阳县| 郓城县| 扬州市| 秀山| 新乡市|