深度學(xué)習(xí)在基于單幅圖像的物體三維重建中的應(yīng)用

2019-06-22 07:42:16陳加張玉麒宋鵬魏艷濤王煜

自動化學(xué)報(bào) 2019年4期

陳加張玉麒宋鵬魏艷濤王煜

計(jì)算機(jī)視覺研究的主要目標(biāo)之一是從二維圖像復(fù)原三維結(jié)構(gòu)[1].二維圖像是當(dāng)今時(shí)代極易獲取的數(shù)據(jù)形式,互聯(lián)網(wǎng)上每時(shí)每刻都在產(chǎn)生海量的圖像數(shù)據(jù),而三維模型相對難以獲取.目前已經(jīng)有許多基于多幅圖像的物體三維重建方法[2?4]被提出,而基于單幅圖像的物體三維重建問題因輸入形式的特殊性使其更具挑戰(zhàn)性.僅以單幅圖像作為輸入使得重建丟失了很多幾何信息,這就需要一些假設(shè)或先驗(yàn)知識,亦或從已有的模型基于學(xué)習(xí)來進(jìn)行重建.此外針對重建對象的不同,當(dāng)前基于單幅圖像的重建問題可分為對物體(Object)的重建和對場景(Scene)的重建[5].本文屬于對物體的重建這一子類.評價(jià)基于單幅圖像的物體三維重建的重建精度目前沒有一個(gè)固定的標(biāo)準(zhǔn)[6],一些傳統(tǒng)方法采用Hausdor ff距離[7]作為評價(jià)重建效果的標(biāo)準(zhǔn).隨著深度學(xué)習(xí)的不斷發(fā)展,IoU(Intersection over union)值被引入[8],且被很多論文采用為評價(jià)標(biāo)準(zhǔn),此外亦有論文采用更注重物體幾何外形的CD(Chamfer distance)值等[9].

基于圖像的三維重建具有重要的實(shí)用價(jià)值和應(yīng)用前景.隨著互聯(lián)網(wǎng)及電子商務(wù)的發(fā)展,很多商家或企業(yè)開始利用三維模型來幫助自己進(jìn)行產(chǎn)品的展示與推廣.三維模型與二維圖像相比,因?yàn)槎嗔艘痪S信息,所以更能將物體的真實(shí)感和細(xì)節(jié)的質(zhì)感與紋理表現(xiàn)出來.同時(shí),在諸如虛擬現(xiàn)實(shí)、城市數(shù)字化建模、文物數(shù)字化保護(hù)、醫(yī)學(xué)CT器官重建、三維影視動漫制作等領(lǐng)域,基于圖像的三維重建也具有廣泛的應(yīng)用[5,10?13].多目圖像三維重建往往需要相機(jī)標(biāo)定等額外操作,相比之下基于單幅圖像的三維重建因輸入簡單,更適合需要便捷式三維重建的應(yīng)用場合,近年來逐漸成為一個(gè)新的學(xué)術(shù)研究熱點(diǎn)問題.

然而基于單幅圖像的三維重建常常面臨以下幾個(gè)方面的挑戰(zhàn):

1)類內(nèi)差異和類間差異.不同的重建物體即使是同一個(gè)類型,也會因?yàn)椴牧?、外形等存在較大的差異性.而不同類型的物體,亦可能存在較大的相似性.如果只是針對某個(gè)特定類別的物體進(jìn)行三維重建往往會使重建系統(tǒng)缺乏一般性[14?15],而針對多類別的重建系統(tǒng)則會因較大的類內(nèi)差異和較小的類間差異使得重建精度不高[16?17],如何構(gòu)建既具有一般性又重建精度高的三維重建算法是目前研究的重點(diǎn).

2)圖像自身屬性.真實(shí)世界視圖中的物體往往存在遮擋、非剛性變形等現(xiàn)象,且很多時(shí)候不滿足理想的朗伯特反射模型[18],這就使得待重建的物體存在較大的多樣性,因此對重建算法提出了更高的要求.

3)不適定問題.基于單幅圖像的三維重建本身就是一個(gè)不適定問題(Ill-posed problem)[5],即由于輸入形式為單幅圖像,深度信息不可避免地丟失,如果不給定一些先驗(yàn)知識或假設(shè),重建結(jié)果是不唯一的.如何根據(jù)一些假設(shè)和先驗(yàn)知識來重建最適合的模型,以及如何提供最少的假設(shè)和先驗(yàn),這對三維重建工作提出了不小的挑戰(zhàn).

針對上述基于單幅圖像物體三維重建問題,許多文獻(xiàn)提出了相應(yīng)的解決方案.文獻(xiàn)[19?20]探討了對特定種類物體進(jìn)行重建的問題;文獻(xiàn)[16?17]針對圖像自身屬性諸如非理想朗伯特模型的重建提出了解決辦法;此外有許多假設(shè)被提出[21?24]以解決不適定問題.但上述方法仍未能很好地解決這些問題,重建精度仍然有待提高.隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,很多基于深度學(xué)習(xí)的三維重建方法[8?9,25]近幾年開始被提出,且重建效果更好,逐漸成為該領(lǐng)域近年來研究的重點(diǎn).

本文結(jié)構(gòu)安排如下:第1節(jié)簡要介紹傳統(tǒng)的基于單幅圖像物體三維重建的研究成果;第2節(jié)介紹深度學(xué)習(xí)算法模型及其近年來在基于單幅圖像的三維重建領(lǐng)域的研究進(jìn)展;第3節(jié)介紹物體三維重建的常用公共數(shù)據(jù)集;第4節(jié)對該方向目前仍存在的問題提出思考和展望,并對文章進(jìn)行總結(jié),分析基于深度學(xué)習(xí)算法的優(yōu)缺點(diǎn).

1 傳統(tǒng)的基于單幅圖像的物體三維重建方法

基于單幅圖像的物體三維重建在計(jì)算機(jī)視覺領(lǐng)域是一個(gè)長期存在且具有挑戰(zhàn)性的問題,往往利用先驗(yàn)知識或引入合適的約束來進(jìn)行重建.按照重建方法的不同,傳統(tǒng)方法可以分為基于模型的重建方法和基于幾何外形恢復(fù)的重建方法兩類.

1.1 基于模型的重建方法

一般而言,基于模型的重建方法由要表示對象的參數(shù)模型組成,通過找到模型的投影和輸入圖像之間最佳擬合時(shí)模型的參數(shù)來完成重建[26].基于模型表示的物體重建反映了對模型表示的不同偏好.在早期的工作中,廣義柱體[27]對柱類外形進(jìn)行了緊湊地描述,而基于多面體模型的方法[28?29]則只能針對一些方形物體進(jìn)行重建,此外還有超二次曲面模型[30],一些只針對車輛的手工剛性三維模型[31?32]等.這些模型都能對某種外形進(jìn)行一定的描述,但是可描述的對象太具有局限性.基于CAD模型的方法[33?35]可以粗略地表示物體的近似外形,通過給予一組對應(yīng)點(diǎn),可以非常有效地確定近似實(shí)例的視點(diǎn),但生成的模型和訓(xùn)練的模型有較大的偏差.此外近期還出現(xiàn)了基于CAD模型的類似實(shí)例進(jìn)行非參數(shù)化重建的方法[36],但是該方法僅限于對預(yù)先分割好的在線商品圖像進(jìn)行重建.

近期,一些可以變形的模型因更具有表現(xiàn)力引起了更多學(xué)者的注意.形變模型(Morphable model)常用于對人臉進(jìn)行重建[14,37?38],它是一種線性組合模型,通過圖像光流算法來建立三維人臉點(diǎn)到點(diǎn)的稠密對應(yīng).通過調(diào)節(jié)模型參數(shù)使輸入圖像與形變模型匹配.因?yàn)樾巫兡Ｐ偷慕⑼峭ㄟ^三維掃描的形式來獲取三維信息,為了克服對三維數(shù)據(jù)的要求,Cashman等[15]提出了一種混合的方法,使用單個(gè)三維模型和大量二維信息學(xué)習(xí)得到動物的形變模型來重建諸如海豚這種較為復(fù)雜的動物模型.Vicente等[19]針對PASCAL VOC數(shù)據(jù)集中的圖像進(jìn)行重建,提出了一種新方法,先在圖像數(shù)據(jù)集中找到與輸入的單幅圖像同類型的相似視角的不同物體的圖像,然后使用可視外殼進(jìn)行重建,但是需要在測試的時(shí)候添加關(guān)鍵點(diǎn)注釋,且處于理想的分割狀態(tài),無法應(yīng)用于較為真實(shí)的圖像.Kar等[20]更進(jìn)一步,利用物體檢測數(shù)據(jù)集中的2D注釋來訓(xùn)練學(xué)習(xí)可變形的模型,僅在訓(xùn)練的時(shí)候使用了部分注釋,且可以重建真實(shí)圖像中的物體,利用自底向上的模塊來補(bǔ)充高頻外形細(xì)節(jié),重建效果較之前的方法有一定的提升.

基于模型的方法在針對特定類別物體的重建上能取得較好的效果,因?yàn)檫@種方法中的先驗(yàn)知識在模型的設(shè)計(jì)階段就已經(jīng)被設(shè)定好,能夠較好地對針對的物體提供更多的先驗(yàn)信息,但是這類方法很難擴(kuò)展到其他物體上.可變形的模型也往往只能沿著特定類別的變化模式變化.表1列出了近年來兩種常用的基準(zhǔn)算法和一種不針對具體重建類別的方法(均采用Hausdor ff距離[7]作為評價(jià)參數(shù))[39]在PASCAL VOC數(shù)據(jù)集上的三維重建結(jié)果,其中Hausdor ff距離越小代表精度越高.

1.2 基于幾何外形恢復(fù)的方法

根據(jù)二維圖像中的三維信息來恢復(fù)物體三維幾何外形的技術(shù)統(tǒng)稱為Shape from X,X可以是:陰影 (Shading)、紋理 (Texture)、運(yùn)動 (Motion)、光度立體(Stereo)、輪廓(Silhouette)等.基于光度立體、運(yùn)動和輪廓恢復(fù)三維外形的方法常用于多目重建.基于紋理和陰影恢復(fù)三維外形的方法常用于針對單幅圖像的三維重建.

從紋理中恢復(fù)外形(Shape from texture)[40]往往要求假定紋理滿足某種先驗(yàn)性質(zhì),例如假設(shè)紋理分布具有均一性[41],或要求紋理由明確的紋理基元組成[42].從紋理中恢復(fù)外形的方法重建精度相對較低,并且適用性窄,實(shí)際應(yīng)用相對較少.

從陰影中恢復(fù)外形(Shape from shading,SFS)[43]主要利用物體表面的明暗變化解析物體表面的矢量信息,最后轉(zhuǎn)化為深度信息.通常是在假定理想光照下,即滿足朗伯特(Lambertian)反射模型的狀態(tài)下進(jìn)行重建,但是在滿足假定朗伯特反射模型狀態(tài)下的SFS問題本身也是不適定的(Illposed),因此需要引入相應(yīng)的附加條件對其正則化.Ikeuchi等[22]在SFS中加入平滑度約束,即假定物體表面是光滑的,以此使問題變?yōu)檫m定,但這對于具有分形特征的自然景物三維外形恢復(fù)效果仍不太理想.

大多數(shù)傳統(tǒng)的SFS方法是基于正交投影[44?45],且假設(shè)光源都在無窮遠(yuǎn)處.而透視投影因比正交投影更為精準(zhǔn),慢慢被引入到SFS方法中[46?47].同時(shí),使用朗伯特模型的三維重建誤差較大,為了提高重建精度,許多非朗伯特模型被提出來.Ahmed等[17]用Ward反射模型對三維外形恢復(fù)進(jìn)行了研究,Bakshi等[16]將SFS方法應(yīng)用到包含有漫反射和鏡面反射兩種情況的混合表面重建.

此外,還有一些方法通過監(jiān)督學(xué)習(xí)的方式來學(xué)習(xí)幾何信息[48?50],以此來預(yù)測深度圖,但是對深度圖的估計(jì)往往針對的是場景三維重建[51],而本文主要針對的是對物體三維重建的綜述,因此對此類方法以及一些其他基于場景的三維重建方法[52?54],本文不再做詳細(xì)論述.

基于幾何外形恢復(fù)的方法往往具有更好的泛化性,其重建不是針對特定類別的物體,能夠以較自然簡單的方式提取物體的表面信息.但同時(shí)該類方法往往對光照和灰度提出了較高的要求,通過理想光源之類的一些約束來使重建的解唯一.因此該方法往往難以對真實(shí)圖像進(jìn)行較好質(zhì)量的重建.

2 基于深度學(xué)習(xí)的單幅圖像三維重建

2.1 深度學(xué)習(xí)及其模型簡介

深度學(xué)習(xí)的概念源于對人工神經(jīng)網(wǎng)絡(luò)(Arti ficial neural network,ANN)的研究.它是一種特征學(xué)習(xí)的方法,把低層次的原始數(shù)據(jù)通過一些簡單而非線性的模型轉(zhuǎn)化成為更高層次的表達(dá)[55].通過大量的轉(zhuǎn)換組合,得到更好的特征表示.早在1986年,Rumelhart等[56]就提出人工神經(jīng)網(wǎng)絡(luò)的反向傳播(Back propagation,BP)算法,但這一時(shí)期人們普遍認(rèn)為梯度下降會陷入局部極值,且存在梯度消失、硬件條件不足等問題,直到2006年,Hinton等[57]介紹了一種新的深度神經(jīng)網(wǎng)絡(luò)模型DBN及訓(xùn)練方法,降低了深度神經(jīng)網(wǎng)絡(luò)的優(yōu)化難度,利用預(yù)訓(xùn)練方法緩解了局部極值問題,從此深度學(xué)習(xí)受到學(xué)術(shù)界的關(guān)注.之后LeCun、Bengio、Ng等對深度神經(jīng)網(wǎng)絡(luò)展開研究[58].隨著一些新的模型訓(xùn)練方法的涌現(xiàn),深度學(xué)習(xí)在諸如語音識別[59?60]、自然語言處理[61?63]、圖像識別和分割等[64?65]多個(gè)領(lǐng)域都取得了較大的進(jìn)展.近年來,深度學(xué)習(xí)在三維數(shù)據(jù)的分類、識別和重建上也取得了很大的進(jìn)展[66?68].目前廣泛應(yīng)用的深度學(xué)習(xí)模型主要包括深度置信網(wǎng)絡(luò)(Deep belief network,DBN)[57,69]、堆疊自動編碼器(Stacked auto-encoders,SAE)[70]、卷積神經(jīng)網(wǎng)絡(luò) (Convolutional neural networks,CNN)[71]、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural networks,RNN)[72]等.

表1 不同方法對PASCAL VOC數(shù)據(jù)集圖像中的物體重建的結(jié)果對比[20]Table 1 Comparison of different methods on the PASCAL VOC[20]

2.2 深度學(xué)習(xí)在基于單幅圖像三維重建中的應(yīng)用

相較于二維圖像領(lǐng)域,深度學(xué)習(xí)在三維外形重建上的研究起步較晚,但在近三年內(nèi)也取得了較大的進(jìn)展.本節(jié)依據(jù)三維外形的不同表示,從基于體素表示和基于點(diǎn)云、網(wǎng)格表示兩個(gè)方面介紹深度學(xué)習(xí)在三維重建中的研究現(xiàn)狀.

2.2.1 基于體素表示的三維重建

隨著深度學(xué)習(xí)在三維領(lǐng)域的不斷擴(kuò)展,圍繞深度學(xué)習(xí)研究基于體素的三維重建方法開始被提出,利用體素化的方法將所有的CAD模型表示為二值或?qū)嵵档娜S張量,保證了模型大小的相同.Wu等[67]建立的網(wǎng)絡(luò)結(jié)構(gòu)3D shapenets是較早提出的基于體素表示的三維重建網(wǎng)絡(luò),其利用深度卷積置信網(wǎng)絡(luò)(CDBN)將三維幾何外形表示為三維體素上二值變量的概率分布,輸入深度圖,通過吉布斯采樣(Gibbs sampling)不斷預(yù)測外形類型和填補(bǔ)未知的體素來完成重建.為了得到更好的訓(xùn)練效果,其同時(shí)建立了大型的CAD模型數(shù)據(jù)集ModelNet.Choy等[8]提出了一種基于標(biāo)準(zhǔn)LSTM 的擴(kuò)展網(wǎng)絡(luò)結(jié)構(gòu)3D-R2N2(3D recurrent reconstruction neural network),使用該網(wǎng)絡(luò)學(xué)習(xí)二維圖像與三維外形間的映射,網(wǎng)絡(luò)以端到端的形式獲取一個(gè)或多個(gè)對象實(shí)例的圖像,首先利用一個(gè)標(biāo)準(zhǔn)的CNN結(jié)構(gòu)對原始輸入圖像進(jìn)行編碼,用其提出的3D-LSTM 進(jìn)行過渡連接,3D-LSTM單元排列成三維網(wǎng)格結(jié)構(gòu),每個(gè)單元接收一個(gè)從編碼器中得到的特征向量,并將他們輸送到解碼器中.這樣每個(gè)3D-LSTM單元重構(gòu)輸出體素的一部分.再利用一個(gè)標(biāo)準(zhǔn)反卷積網(wǎng)絡(luò)對其解碼,通過這樣的網(wǎng)絡(luò)結(jié)構(gòu)建立了二維圖像和三維模型的映射.該方法還在單個(gè)框架中統(tǒng)一了單視圖和多視圖重建,且不需要圖像注釋或分類標(biāo)簽進(jìn)行訓(xùn)練,克服了過去無法解決的缺乏紋理和寬基線特征匹配等問題的挑戰(zhàn).通過以IoU(Intersectionover-union)作為評價(jià)重建效果指標(biāo)的實(shí)驗(yàn),驗(yàn)證了在單幅圖像的三維重建效果優(yōu)于Kar等[20]的傳統(tǒng)方法,但該方法在重建椅子細(xì)腿等方面存在斷裂失真的問題.Girdhar等[73]提出了一種名為TL-embedding network的網(wǎng)絡(luò)結(jié)構(gòu),該網(wǎng)絡(luò)的自編碼器以20×20×20的像素網(wǎng)格表示作為輸入,通過自編碼學(xué)習(xí)三維模型的嵌入(Embedding),形成一個(gè)64維的嵌入空間(Embedding space),然后通過ConvNets輸入二維圖像,找到對應(yīng)的嵌入,最后通過解碼器得到體素表示的三維模型.在重建結(jié)果上,更能抓住重建的細(xì)節(jié),例如椅子的腿部和靠背,重建效果優(yōu)于Kar等[20]的方法.Kar等[74]嘗試在同一系統(tǒng)中統(tǒng)一單視圖和多視圖的三維重建,提出了一種叫做立體學(xué)習(xí)機(jī)(Learnt stereo machine,LSM)的新系統(tǒng),其可以利用單視角和語義線索進(jìn)行單視圖三維重建,同時(shí)也可以利用立體視覺整合來自不同視角的信息進(jìn)行多視圖重建.該方法在編碼部分提取特征后,加入一個(gè)反投影模塊,將由前饋卷積神經(jīng)網(wǎng)絡(luò)獲取的二維圖像中的特征投影到三維網(wǎng)格中,并使得結(jié)果根據(jù)極線約束在三維網(wǎng)格中對齊,簡化了特征匹配.通過實(shí)驗(yàn)與3D-R2N2[8]的IoU值對比,無論在單視圖還是多視圖均取得了更好的效果,并且在實(shí)驗(yàn)中即便只給出飛機(jī)和椅子的數(shù)據(jù),還是可以完成汽車模型的重建,因而具有較好的泛化能力.Wu等[75]等提出了一種叫MarrNet的網(wǎng)絡(luò)模型,在端到端生成重建結(jié)果的網(wǎng)絡(luò)結(jié)構(gòu)中加入了生成2.5D草圖的步驟,增強(qiáng)了重建效果并使得網(wǎng)絡(luò)可以更輕松地針對不同類別的物體進(jìn)行重建.

早期的工作主要基于監(jiān)督學(xué)習(xí),但獲得大規(guī)模監(jiān)督數(shù)據(jù)的成本往往是巨大的,隨著研究的深入,一些基于生成模型的弱監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的方法逐漸被提出.Kanazawa等[76]提出了一種新的網(wǎng)絡(luò)結(jié)構(gòu)WarpNet,利用薄板樣條插值(Thin-Platespline)進(jìn)行轉(zhuǎn)換,從一幅鳥的圖像變形得到另一幅鳥的圖像,得到一個(gè)人工的對應(yīng),通過將這樣的兩幅圖像作為原始圖和目標(biāo)圖來學(xué)習(xí)其中的變化,最后將通過網(wǎng)絡(luò)學(xué)習(xí)得到的結(jié)果作為空間先驗(yàn)來匹配圖像中的外表變化、視點(diǎn)和關(guān)節(jié),不需要部分注釋來進(jìn)行單視圖重建.Tulsiani等[77?78]采用另一種監(jiān)督形式,通過學(xué)習(xí)單視角的三維結(jié)構(gòu)來構(gòu)建多視角觀察(Multi-view observations),再通過多視角觀察得到幾何一致性,其利用經(jīng)典射線一致性公式引入了一個(gè)一般的檢驗(yàn)器,可以測量3D外形與不同種類觀測結(jié)果間的一致性.Rezende等[1]首次提出了一個(gè)無監(jiān)督的生成模型,在二維圖像上可以進(jìn)行端到端的無監(jiān)督訓(xùn)練,不需要真實(shí)的三維標(biāo)簽,證明了無監(jiān)督生成模型學(xué)習(xí)三維表征的可能性.在此基礎(chǔ)上,Yan等[79]提出一個(gè)名為Perspective transformer nets的網(wǎng)絡(luò)結(jié)構(gòu),在傳統(tǒng)的編解碼卷積神經(jīng)網(wǎng)絡(luò)中加入了透視變換作為正則化,在不知道對應(yīng)的真實(shí)模型的情況下,提出了一種輪廓損失函數(shù),通過透視變換,將在不同特定視角下的二維物體輪廓和對應(yīng)體素輪廓的距離作為新的損失函數(shù),該方法在無監(jiān)督學(xué)習(xí)下的重建具有良好的泛化能力.此外,一些學(xué)者利用生成對抗網(wǎng)絡(luò)進(jìn)行重建[80?83].Wu等[84]提出了3D-VAE-GAN的網(wǎng)絡(luò)結(jié)構(gòu),輸入單幅圖像,通過變分自編碼網(wǎng)絡(luò)的編碼器得到圖像的潛在向量(Latent vector),再通過生成對抗網(wǎng)絡(luò)的生成器得到重建的物體.使用生成對抗網(wǎng)絡(luò)的優(yōu)點(diǎn)是可以從高斯或均勻分布等概率表征空間中采樣新的三維對象,并且判別器(Discrimitator)帶有三維物體識別的信息特征.該方法與TL-embedding network的重建精度對比,取得了更好的效果.Zhu等[82]對圖像中物體的二維輪廓使用了更簡單的標(biāo)注,對TL-embedding network和3D-VAE-GAN網(wǎng)絡(luò)進(jìn)行了微調(diào),重建取得了更好的效果.Gadelha等[85]提出了一種Projective GANs(PrGANs)的生成對抗網(wǎng)絡(luò),在生成器上加入了投影模塊,投影模塊通過給定視角呈現(xiàn)體素形狀來捕獲三維表示,而后轉(zhuǎn)化為二維圖像再傳遞給判別器,通過判別器判定輸入圖像是生成的還是真實(shí)的.通過反復(fù)訓(xùn)練,調(diào)整生成器,改進(jìn)了生成的三維體素外形.增加投影模塊使該方法與之前3D-VAE-GAN網(wǎng)絡(luò)需要聯(lián)合三維數(shù)據(jù)相比,在學(xué)習(xí)階段不使用任何標(biāo)注、三維信息或視角信息來推斷潛在的三維外形分布.Rosca等[81]對AE-GANs的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了改進(jìn),提出了一種新的變分自編碼器和GANs結(jié)合的方法α-GAN,融合兩種方法的優(yōu)勢,構(gòu)建新的優(yōu)化目標(biāo)函數(shù),重建也取得了較好的效果.

體素表示的三維物體相較于二維圖像,計(jì)算量更大,需求內(nèi)存更多,往往因計(jì)算和內(nèi)存的限制,分辨率主要為32×32×32以下.針對這一問題,一些基于八叉樹的卷積神經(jīng)網(wǎng)絡(luò)被提出[86?88].Riegler等[89]提出了一種卷積網(wǎng)絡(luò)OctNet,取代體素部分,將三維空間分割成一組不平衡八叉樹,每個(gè)八叉樹根據(jù)數(shù)據(jù)的密度來分割三維空間.其充分利用了三維輸入數(shù)據(jù)的稀疏性,從而能夠更加合理地使用內(nèi)存及計(jì)算.受此啟發(fā),Hne等[90]提出了一個(gè)叫做層次表面預(yù)測(Hierarchical surface prediction,HSP)的通用框架,將體素分為占用、未占用和邊界三類.使用這種方法,在一個(gè)八叉樹中分層次地預(yù)測從粗到細(xì)多分辨率的體素塊,只要保證在那些標(biāo)記為邊界的區(qū)域有相對較高的分辨率即可.通過迭代,可以層進(jìn)地預(yù)測出分辨率為256×256×256的體素表示.同樣是使用八叉樹結(jié)構(gòu),與Riegler等[89]提出的方法中需要假設(shè)在測試期間八叉樹結(jié)構(gòu)為已知的不同,Tatarchenko等[88]提出了一種稱作OGN(Octree generating networks)的網(wǎng)絡(luò)結(jié)構(gòu),通過網(wǎng)絡(luò)學(xué)習(xí)預(yù)測八叉樹的結(jié)構(gòu),同時(shí)在網(wǎng)絡(luò)的解碼初期預(yù)測大量的輸出空間,而直到網(wǎng)絡(luò)的某一層,密集的網(wǎng)格才被八叉樹替代,從而節(jié)省了后續(xù)高分辨率計(jì)算需要的內(nèi)存,并且可以將分辨率提升為512×512×512.Sun等[87]提出了一種稱作CVN(Colorful voxel network)的網(wǎng)絡(luò)結(jié)構(gòu),這是第一個(gè)基于深度學(xué)習(xí)的能夠端到端同時(shí)從單一圖像恢復(fù)三維外形和表面顏色的網(wǎng)絡(luò)結(jié)構(gòu),設(shè)計(jì)了一種新的損失函數(shù)MSFCEL(Mean squared false cross-entropy loss)用于解決體素表示的稀疏問題,從而能夠生成更高分辨率的結(jié)果.

ShapeNet團(tuán)隊(duì)組織了一次基于單幅圖像物體三維重建的挑戰(zhàn)賽[6],共3支隊(duì)伍參加,包括上文提到的HSP[90]和α-GAN[81].每個(gè)隊(duì)伍從測試圖像重建出分辨率為256×256×256的三維模型,挑戰(zhàn)賽采用IoU和CD兩種評價(jià)標(biāo)準(zhǔn).在與3D-R2N2[8]結(jié)果的對比中,HSP在基于IoU的評價(jià)標(biāo)準(zhǔn)中贏得第一,而α-GAN在基于CD的評價(jià)標(biāo)準(zhǔn)中贏得第一,ShapeNet團(tuán)隊(duì)猜測原因是gan損失比交叉熵?fù)p失更有助于描繪幾何的正確性[6].

2.2.2 基于點(diǎn)云和網(wǎng)格表示的三維重建

基于點(diǎn)云和網(wǎng)格的單幅圖像三維重建工作目前還比較少,原因在于相較于可以直接用于卷積神經(jīng)網(wǎng)絡(luò)中的體素表示,點(diǎn)云和網(wǎng)格表示則需要一定的改變.例如,系統(tǒng)若需處理點(diǎn)云時(shí)一般需要維持點(diǎn)順序不變.隨著一些基于深度學(xué)習(xí)和點(diǎn)云形式的物體識別的相關(guān)工作的出現(xiàn)[91?93]和相關(guān)研究的不斷推進(jìn),Fan等[9]提出了一個(gè)點(diǎn)集生成網(wǎng)絡(luò),這是第一個(gè)用深度學(xué)習(xí)研究點(diǎn)云表示點(diǎn)集產(chǎn)生的網(wǎng)絡(luò)結(jié)構(gòu).它有多個(gè)平行的預(yù)測分支,網(wǎng)絡(luò)結(jié)構(gòu)中包含卷積模塊、反卷積模塊、全連接模塊.這樣復(fù)雜的模型具有高度的靈活性,在描述復(fù)雜結(jié)構(gòu)方面表現(xiàn)出色,而由于卷積層和反卷積層引起的空間連續(xù)性,其對大光滑表面更友好.而該網(wǎng)絡(luò)引入了Hourglass卷積網(wǎng)絡(luò)結(jié)構(gòu)[94]反復(fù)進(jìn)行的編解碼操作,使該方法具有更強(qiáng)的表示能力,可以更好地聯(lián)合全局和局部信息.其系統(tǒng)地探討了點(diǎn)云生成網(wǎng)絡(luò)的損失函數(shù)設(shè)計(jì),選取了兩種距離Chamfer distance(CD)和Earth Mover's distance(EMD)作為候選.在重建結(jié)果上,該方法能產(chǎn)生多個(gè)可能的輸出來解決單幅圖像三維重建的不適定問題,在與3D-R2N2方法的結(jié)果對比中,該方法在所有類別中均能獲得更高的IoU值,擁有更好的重建效果,但是在輸入圖像中有多個(gè)對象的情況下,由于網(wǎng)絡(luò)還沒有采取任何檢測或注意力機(jī)制,網(wǎng)絡(luò)會產(chǎn)生扭曲的輸出.并且其所需的可學(xué)習(xí)參數(shù)與三維點(diǎn)預(yù)測的數(shù)量成線性比例且不能很好地縮放,使用三維距離度量作為優(yōu)化標(biāo)準(zhǔn)對于大量點(diǎn)來說仍是困難的.Lin等[95]針對上述問題,在網(wǎng)絡(luò)結(jié)構(gòu)中使用了二維卷積運(yùn)算來捕獲生成的點(diǎn)云之間的相關(guān)性并以更易于計(jì)算的方式進(jìn)行優(yōu)化,生成的點(diǎn)云具有更好的精度.

圖像和網(wǎng)格之間的轉(zhuǎn)換產(chǎn)生的離散操作會阻礙反向傳播的過程,導(dǎo)致基于深度學(xué)習(xí)重建網(wǎng)格表示的三維模型面臨不小的挑戰(zhàn).Kato等[25]針對這個(gè)問題提出了一種渲染網(wǎng)格的近似梯度,將該部分作為一個(gè)渲染器集成到神經(jīng)網(wǎng)絡(luò)中.經(jīng)過渲染器處理,其使用輪廓圖像監(jiān)督來執(zhí)行單圖像3D網(wǎng)格重建.通過對比Yan等[79]基于體素的重建方法,驗(yàn)證了其在視覺和IoU值方面均超過了基于體素的方法,但該方法存在一個(gè)明顯的不足,即不能生成一個(gè)具有各種拓?fù)涞膶ο?Pontes等[96]提出了一個(gè)新的學(xué)習(xí)框架,通過學(xué)習(xí)框架推斷網(wǎng)格表示的參數(shù)來解決基于網(wǎng)格重建所面臨的問題,其在面對輸入為真實(shí)世界的單幅圖像時(shí)表現(xiàn)更好.Wang等[97]將網(wǎng)絡(luò)分為特征提取和網(wǎng)格變形兩個(gè)部分,先由2D CNN部分提取特征,再利用提取的特征通過GCN(Graph convolutional network)來解決網(wǎng)格結(jié)構(gòu)無法直接作用于CNN的問題,最后生成重建模型.該文章對比了基于體素的3D-R2N2[8]、Fan等[9]基于點(diǎn)云及Kato[25]基于網(wǎng)格的方法,實(shí)驗(yàn)中重建效果均高于上述三種方法,但仍存在只能生成相同拓?fù)渚W(wǎng)格的局限性.

3 基于單幅圖像三維重建的常用數(shù)據(jù)集

為了更好地研究基于單幅圖像的物體三維重建,構(gòu)建大規(guī)模的三維模型數(shù)據(jù)集成為必然要求.目前有多個(gè)三維模型的公共數(shù)據(jù)集供科研人員使用.

1)PASCAL 3D+數(shù)據(jù)集[98]

PASCAL VOC數(shù)據(jù)集是在圖像識別、圖像分割和目標(biāo)檢測等領(lǐng)域經(jīng)常使用的大型數(shù)據(jù)集,它的廣泛使用也推動了計(jì)算機(jī)視覺領(lǐng)域的不斷發(fā)展.而PASCAL 3D+正是基于PASCAL VOC 2012[99]的12種剛體類別的圖像,為它們添加了三維模型標(biāo)注的數(shù)據(jù)集,其每一類通過ImageNet[100]擴(kuò)展得到更多的圖像,最終每一類平均有3000左右的物體.該數(shù)據(jù)集圖像物體變化較大,且包含遮擋和截?cái)嗟惹闆r,能夠更好地反映真實(shí)世界中的變化.

2)ShapeNet數(shù)據(jù)集[101]

該數(shù)據(jù)集由物體的三維CAD模型組成,是目前為止包含豐富注釋的最大的三維模型數(shù)據(jù)集.其在WordNet[102]分類下進(jìn)行組織,為每一個(gè)三維模型提供豐富的語義注釋,包括物理尺寸、關(guān)鍵字等,注釋可通過基于Web的界面提供,以實(shí)現(xiàn)對象屬性的數(shù)據(jù)可視化.ShapeNet共包含超過300萬個(gè)模型,其中22萬個(gè)模型被歸類為3135個(gè)類別.

3)Online Products數(shù)據(jù)集[103]

該數(shù)據(jù)集包含在線銷售的23000個(gè)物體的圖像.由于存在寬基線的問題,傳統(tǒng)的MVS和SFM方法無法通過這些圖像進(jìn)行重建.

4)ModelNet數(shù)據(jù)集[67]

該數(shù)據(jù)集是當(dāng)前規(guī)模較大、模型類別較多的一個(gè)大型CAD數(shù)據(jù)集,收集了各類3D CAD網(wǎng)站,3D Warehouse以及Princeton Shape Benchmark[104]660種共計(jì)151125個(gè)CAD模型.

5)IKEA Dataset數(shù)據(jù)集[33]

該數(shù)據(jù)集收集了來自Google 3D Warehouse的225個(gè)IKEA的三維模型和從Flickr得到的800幅圖像,分為IKEA家具和IKEA房間兩個(gè)部分,主要集中了室內(nèi)家具的模型,模型類別及數(shù)量相對較少,同時(shí)部分圖像存在遮擋.該數(shù)據(jù)集的每一幅圖像都標(biāo)注其關(guān)聯(lián)的三維模型,可以借此評估三維重建的效果.

4 思考、展望與結(jié)論

隨著深度學(xué)習(xí)的不斷發(fā)展和三維數(shù)據(jù)集的不斷完善,基于單幅圖像的三維重建取得了較大的進(jìn)展,表2展示了目前代表性傳統(tǒng)方法[20]和3D-R2N2在PASCAL 3D+數(shù)據(jù)集上以IoU值作為重建評價(jià)標(biāo)準(zhǔn)的重建效果對比.可以看出與傳統(tǒng)手工設(shè)計(jì)的方法相比,基于深度學(xué)習(xí)的端到端的訓(xùn)練方法能夠直接以單幅圖像作為輸入,并以重建的三維模型作為輸出,提取特征效率更高,重建效果更好.同時(shí)深度學(xué)習(xí)使用諸如dropout等稀疏化網(wǎng)絡(luò)參數(shù)的方法來防止過擬合,以此來利用大規(guī)模的數(shù)據(jù),具有更好的泛化性.正如人看到二維圖像即可聯(lián)想到它的三維表示,基于深度學(xué)習(xí)的單幅圖像重建也越來越趨向于與人類認(rèn)知三維物體方法相同的無監(jiān)督學(xué)習(xí)[1,79,84],也有越來越多的網(wǎng)絡(luò)融合了單幅圖像和多幅圖像兩種方式,使得重建能夠更加靈活.同時(shí)基于深度學(xué)習(xí)的方法也不斷地在各種三維表示形式上進(jìn)行著嘗試,表3對比了目前基于體素、點(diǎn)云、網(wǎng)格的主流方法在ShapeNetCore[77]數(shù)據(jù)集上以平均IoU值作為重建評價(jià)準(zhǔn)則的重建精度.

表2 現(xiàn)有的傳統(tǒng)方法與3D-R2N2重建結(jié)果的對比[8]Table 2 Comparison of traditional methods and 3D-R2N2[8]

綜上所述,基于深度學(xué)習(xí)的方法相較于傳統(tǒng)的方法擁有較多的優(yōu)勢,并且在這一領(lǐng)域逐漸取得了顯著進(jìn)展,但是同時(shí)在這一領(lǐng)域也存在如下問題:

1)公共數(shù)據(jù)集較小.對于一個(gè)三維重建任務(wù)來說,增加訓(xùn)練數(shù)據(jù)的種類和規(guī)?？梢栽黾訉W(xué)習(xí)的泛化能力.但是與目前千萬級的二維圖像數(shù)據(jù)集相比,三維公共數(shù)據(jù)集規(guī)模小、種類少.即使是近年來發(fā)布的較大的數(shù)據(jù)集ModelNet也僅包含了來自662個(gè)類的127915個(gè)三維外形.相信隨著深度學(xué)習(xí)在三維領(lǐng)域的不斷深入,在未來會涌現(xiàn)出更大規(guī)模的三維公共數(shù)據(jù)集.

2)重建分辨率及精度問題.三維物體相較于二維多了一個(gè)維度,基于體素的重建隨著重建分辨率的增加,物體體積成立方體增長,使其受限于計(jì)算和內(nèi)存,重建物體常見的分辨率是32×32×32.這樣分辨率的重建結(jié)果是非常粗糙的,離真實(shí)物體還有較大差距.即使有針對這一問題提出的改進(jìn)方法[90],改進(jìn)后仍然無法達(dá)到較為精密的重建效果.而在以主要依賴于大規(guī)模多樣性標(biāo)記數(shù)據(jù)集的監(jiān)督學(xué)習(xí)的方法中,在實(shí)驗(yàn)中與真實(shí)模型對比,重建精度也未達(dá)到0.85以上.要提高基于體素重建的分辨率,還要考慮三維體素的稀疏性,未來針對如何在基于體素的重建中提升計(jì)算效率,避免在未占用的部分浪費(fèi)過多內(nèi)存,提高重建的分辨率以及如何改善網(wǎng)絡(luò)結(jié)構(gòu)以提高重建效果,能夠恢復(fù)更多細(xì)節(jié),這些仍然是未來值得關(guān)注的問題.

3)基于點(diǎn)云和網(wǎng)格重建的問題.圖像是結(jié)構(gòu)化的,可以表示為二維平面上的一個(gè)矩陣,基于體素的重建使模型通過體素化變?yōu)槎的Ｊ?也保證了大小的相同.但三維點(diǎn)云和網(wǎng)格都是不規(guī)則的數(shù)據(jù)形式,這使得學(xué)習(xí)方法的應(yīng)用存在問題,由于歐幾里德卷積運(yùn)算不能直接應(yīng)用,這些數(shù)據(jù)表示不能很好地適應(yīng)傳統(tǒng)的CNN.目前針對該問題僅有少數(shù)前期探索工作[9],主要思路有:a)先將三維點(diǎn)云或網(wǎng)格數(shù)據(jù)轉(zhuǎn)化成二維圖像,再在神經(jīng)網(wǎng)絡(luò)中提取特征;b)設(shè)計(jì)適應(yīng)原始三維數(shù)據(jù)特點(diǎn)的網(wǎng)絡(luò)模型,例如結(jié)合GCN的網(wǎng)絡(luò)模型;c)在三維外形上手工提取低級特征,再采用深度學(xué)習(xí)模型提取高級特征.但總體而言,該問題仍未得到有效解決.如何設(shè)計(jì)能適應(yīng)原始三維數(shù)據(jù)特點(diǎn)的深度學(xué)習(xí)模型,以及如何設(shè)計(jì)點(diǎn)云生成網(wǎng)絡(luò)的損失函數(shù)仍是未來一個(gè)值得研究的課題.而基于網(wǎng)格的重建,如何生成具有不同拓?fù)涞膶ο?是一個(gè)具有重要意義的研究方向.

4)單幅圖像重建的不適定問題.正如在傳統(tǒng)方法中提到的,對一幅圖像的三維重建,特別是對一幅來自真實(shí)世界的圖像(區(qū)別于從CAD模型中生成的二維圖像),其不可見部分的幾何外形需要猜測,一幅圖像往往可能對應(yīng)多個(gè)不同的重建模型,且均可以看作是該幅圖像的重建結(jié)果.從統(tǒng)計(jì)的角度來看,輸入圖像的合理預(yù)測形成一個(gè)分布.反映在訓(xùn)練集中,兩個(gè)看起來相似的圖像可能具有相當(dāng)不同的重建結(jié)果.如果將這個(gè)問題看作是一個(gè)回歸問題,就與傳統(tǒng)的只有一個(gè)對應(yīng)真實(shí)模型的三維重建大有不同,定義正確的損失函數(shù)就顯得尤為重要.針對這一問題,Fan等[9]通過VAE網(wǎng)絡(luò)結(jié)構(gòu)和其定義的MoN損失使得網(wǎng)絡(luò)能對單幅圖像生成多種可能的重建結(jié)果,該方法進(jìn)行了一次有益的嘗試,但在實(shí)現(xiàn)細(xì)節(jié)和準(zhǔn)確度上仍有提高的空間.

5)三維模型的表示形式和評價(jià)指標(biāo).與深度學(xué)習(xí)在二維圖像中的應(yīng)用不同,目前人們?nèi)匀贿€在探索什么樣的三維表示是最準(zhǔn)確有效的,因此基于體素、網(wǎng)格、點(diǎn)云表示的方法也仍然在不斷涌現(xiàn).而在對基于單幅圖像的三維重建的評價(jià)標(biāo)準(zhǔn)上,至今也仍沒有一個(gè)完全統(tǒng)一的定論[6],哪種評價(jià)指標(biāo)最能夠反映重建的效果,仍然有待進(jìn)一步的研究.

本文綜述了近年來深度學(xué)習(xí)在單幅圖像三維重建中的應(yīng)用和展望.首先說明了傳統(tǒng)的基于單幅圖像的三維重建的方法和常用的公共數(shù)據(jù)集,然后重點(diǎn)介紹了深度學(xué)習(xí)方法在基于單幅圖像的三維重建的最新應(yīng)用進(jìn)展,最后對深度學(xué)習(xí)在基于單幅圖像的三維重建進(jìn)行了分析,對未來的發(fā)展趨勢進(jìn)行了思考與展望.總體而言,深度學(xué)習(xí)為解決基于單幅圖像的三維重建提供了新的技術(shù),取得了較為顯著的科研成果,但其研究大部分仍存在大量的問題,未來基于深度學(xué)習(xí)的單幅圖像的三維重建仍然是一個(gè)亟待研究的重點(diǎn)方向.

表3 不同方法以平均IoU值作為評價(jià)標(biāo)準(zhǔn)的重建精度對比Table 3 3D reconstruction comparison with different methods using IoU

致謝

感謝英國薩里大學(xué)視覺、語音和信號處理中心Evren Imre博士(現(xiàn)工作于動作捕捉公司Vicon)對本文提出的建設(shè)性意見.