連遠(yuǎn)鋒裴守爽胡偉
融合NFFD與圖卷積的單視圖三維物體重建
連遠(yuǎn)鋒1,2*,裴守爽1,胡偉1
(1.中國石油大學(xué)(北京) 計算機科學(xué)與技術(shù)系,北京 102249;2.石油數(shù)據(jù)挖掘北京市重點實驗室,北京 102249)
為了解決復(fù)雜拓?fù)浣Y(jié)構(gòu)及非規(guī)則表面細(xì)節(jié)缺失等導(dǎo)致的單視圖三維物體重建結(jié)果不準(zhǔn)確問題,本文提出了一種融合非均勻有理B樣條自由形變(NFFD)與圖卷積神經(jīng)網(wǎng)絡(luò)的三維物體重建方法。首先,通過引入連接權(quán)重策略的控制點生成網(wǎng)絡(luò)對2D視圖進(jìn)行特征學(xué)習(xí),獲得其控制點拓?fù)浣Y(jié)構(gòu)。然后,利用NURBS基函數(shù)對控制點坐標(biāo)自適應(yīng)特性建立點云模型輪廓間頂點的形變關(guān)系。最后,為增強細(xì)節(jié)信息,將混合注意力模塊嵌入圖卷積網(wǎng)絡(luò)對形變后的點云位置進(jìn)行調(diào)整,從而實現(xiàn)復(fù)雜拓?fù)浣Y(jié)構(gòu)和非規(guī)則表面的高效重建。在ShapeNet數(shù)據(jù)集的實驗表明,CD指標(biāo)平均值為3.79,EMD指標(biāo)平均值為3.94,并在Pix3D真實場景數(shù)據(jù)集上取得較好重建效果。與已有的單視圖點云三維重建方法比較,本文方法有效地提高了重建精度,具有較強的魯棒性。
NURBS自由形變;三維重建;圖卷積網(wǎng)絡(luò);混合注意力;控制點生成網(wǎng)絡(luò)
單視圖三維物體重建技術(shù)廣泛應(yīng)用于姿態(tài)估計、形狀檢索、自動駕駛和增強現(xiàn)實等多種場景,成為計算機視覺領(lǐng)域的研究熱點。由于物體單視圖受觀察視角影響導(dǎo)致幾何信息缺失,使得恢復(fù)物體完整的三維結(jié)構(gòu)非常具有挑戰(zhàn)性。
近年來,基于深度學(xué)習(xí)的三維模型重建得到了廣泛應(yīng)用。根據(jù)重建對象的表示形式可分為網(wǎng)格、體素和點云[1-2]?;诰W(wǎng)格[3]和體素[4]進(jìn)行物體三維重建是利用網(wǎng)絡(luò)學(xué)習(xí)二維圖像到三維網(wǎng)格或三維體素塊上的概率分布映射關(guān)系來表達(dá)三維幾何形狀。由于三維物體的網(wǎng)格表示形式存在復(fù)雜的拓?fù)潢P(guān)系,使得在利用同類形狀模板進(jìn)行變形過程中容易出現(xiàn)網(wǎng)格自交叉[5]。基于體素的物體表示形式可以直接實現(xiàn)卷積與池化操作,但受限于計算資源和分辨率等問題會丟失局部細(xì)節(jié),難以處理高精度的模型[6]。一些工作[7-8]基于點云的不規(guī)則數(shù)據(jù)形式進(jìn)行三維形狀重建。Fan等[9]提出了一種基于點云的三維模型重建方法PSGN,通過定義倒角距離與空間距離等損失函數(shù),取得了較好的重建精度。Zhang等[10]基于融合特征對內(nèi)部點和外部點進(jìn)行分類,并提出一種點云采樣優(yōu)化策略,使得重建點云的細(xì)節(jié)更為豐富。為了有效恢復(fù)物體單視圖的遮擋區(qū)域,Yang等[11]將3D編碼器-解碼器結(jié)構(gòu)與生成對抗網(wǎng)絡(luò)結(jié)合,從單幅視圖重建物體精細(xì)的三維結(jié)構(gòu),在合成數(shù)據(jù)集上得到較好的實驗結(jié)果。
基于點云的三維重建方法中,三維模型中每個頂點的位置及其鄰接關(guān)系可以通過拓?fù)鋱D來表示,而圖卷積網(wǎng)絡(luò)(Graph Convolution Network,GCN)能夠更好地在拓?fù)鋱D上捕獲隱含、非線性空間特征,因而采用GCN模型實現(xiàn)點云的三維重建得到了廣泛應(yīng)用[12-13]。Wang等[14]提出一種多階段網(wǎng)格形變的三維重建方法Pixel2Mesh,通過圖卷積神經(jīng)網(wǎng)絡(luò)精確預(yù)測三維模型中每個頂點的位置,實現(xiàn)網(wǎng)格的形變。在文獻(xiàn)[14]基礎(chǔ)上,Nguyen等[15]通過多尺度的編碼器獲得更為準(zhǔn)確的圖像特征,并將這些特征映射到隨機點云的每個頂點實現(xiàn)模型重建。雖然上述方法在部分?jǐn)?shù)據(jù)集上取得較好的結(jié)果,但仍存在由于局部紋理缺失、物體拓?fù)浣Y(jié)構(gòu)復(fù)雜等因素導(dǎo)致重建結(jié)果不準(zhǔn)確的局限性。
由于點云具有可伸縮性和延展性,一些方法將自由形變(Free-Form Deformation, FFD)引入三維物體重建任務(wù)中。Kurenkov等[16]基于FFD模型,提出一種點云三維重建方法,利用網(wǎng)格體包圍目標(biāo),并在網(wǎng)格上定義若干控制點,通過深度學(xué)習(xí)方法預(yù)測控制點偏移來實現(xiàn)三維重建。Pontes等[17]擴展了這種方法,并引入模型檢索思想,根據(jù)輸入的圖像在數(shù)據(jù)庫中查找與其最為相近的三維模型,然后經(jīng)過自由形變技術(shù)得到最終模型。由于FFD模型對計算資源要求較高,任意控制點的坐標(biāo)變化均會導(dǎo)致模型整體形變,文獻(xiàn)[18]改進(jìn)了FFD模型,提出NFFD (NURBS-based Free-Form Deformation)自由形變模型,增加了形變自由度,在一定程度上提升了自由形變的精度。
為了提升單視圖三維物體重建精度,本文提出了一種融合NFFD與圖卷積神經(jīng)網(wǎng)絡(luò)的三維重建方法。首先,通過引入連接權(quán)重策略的控制點生成網(wǎng)絡(luò)對2D視圖進(jìn)行特征學(xué)習(xí),獲得其控制點拓?fù)浣Y(jié)構(gòu)。其次,利用NURBS基函數(shù)對控制點坐標(biāo)自適應(yīng)特性建立點云模型輪廓間頂點的形變關(guān)系。最后,為增強細(xì)節(jié)信息,將混合注意力模塊嵌入圖卷積網(wǎng)絡(luò)對形變后的點云位置進(jìn)行調(diào)整。通過以上兩階段的位置映射,實現(xiàn)復(fù)雜拓?fù)浣Y(jié)構(gòu)和非規(guī)則表面的高效重建。
本文提出的系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,包括控制點生成網(wǎng)絡(luò)、NFFD自由形變和圖卷積局部點云形變模塊。首先將單幅圖像輸入到控制點生成網(wǎng)絡(luò)獲得三維模型的控制點,然后利用NFFD自由形變方法對模板模型進(jìn)行調(diào)整,最后利用圖卷積對局部點云進(jìn)行調(diào)整,得到最終的三維點云重建結(jié)果。
為了利用單幅圖像的特征信息生成準(zhǔn)確的三維模型控制點,采用編碼器-解碼器-預(yù)測器機制,設(shè)計了一個對復(fù)雜三維模型結(jié)構(gòu)具有良好表現(xiàn)力的控制點生成網(wǎng)絡(luò)(Control Points Generation Network,CPGN),如圖2所示。編碼器由卷積層和ReLU層組成,這里采用了多尺度的卷積層以獲得不同層次的特征信息。解碼器由反卷積層和ReLU層組成,利用步長為1的卷積代替pooling層,同樣用步長為2的反卷積代替unpooling層,這種設(shè)計可以減少圖像紋理信息的丟失。編碼器中每一層的輸出與相應(yīng)的解碼器輸出通過矩陣加法相融合,以產(chǎn)生增強的特征。為了防止過擬合,加快收斂速度,預(yù)測器由卷積模塊和兩個全連接層組成,最后的一個全連接層實現(xiàn)維度變換,輸出控制點坐標(biāo)偏移量,并與初始控制點坐標(biāo)相加,獲得最終的控制點坐標(biāo)。
圖1 系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)
圖2 控制點生成網(wǎng)絡(luò)結(jié)構(gòu)
基于非均勻有理B樣條曲面自由形變,采用非均勻控制點矩陣對曲面進(jìn)行約束,能夠有效提升模型形變精度[19-20]。NFFD方法形變過程描述如下:
首先根據(jù)輸入圖像的類別,從模型數(shù)據(jù)庫選擇模型點云,其中每個類別對應(yīng)一種模型點云。建立方向上的局部坐標(biāo)系,定義模型點云頂點的三元組坐標(biāo),記為(,,)。CPGN根據(jù)輸入圖像生成對應(yīng)三維模型的控制點坐標(biāo)形變量,并與初始控制點坐標(biāo)相加,獲得最終的控制點坐標(biāo)。
初始控制點在各個方向上均勻分布,設(shè)在三個方向上分別有個控制點,已知坐標(biāo)系原點為,則初始控制點p的坐標(biāo)滿足如下公式:
設(shè)p為最終的控制點坐標(biāo),形變后點云模型的頂點坐標(biāo)由公式(2)定義:
(2)
通常,B樣條基函數(shù)的次數(shù)與控制點影響的區(qū)域正相關(guān)。在三個方向上,B樣條基函數(shù)的次數(shù)滿足以下條件:
通道注意力模塊能有效提取通道間有用的信息。輸入特征經(jīng)過與自身兩次矩陣相乘后,再與自身相加獲得輸出特征。通道注意力模塊的表達(dá)式為:
圖3 圖卷積點云形變模塊
為實現(xiàn)對點云的位置進(jìn)行預(yù)測,采用EMD、CD、等距先驗損失與對稱損失作為模型訓(xùn)練的損失函數(shù),具體定義如下:
241Earth mover’s distance(EMD)
242倒角距離(CD)
倒角距離(CD)用于衡量兩組點云之間的距離。形式上被定義為:
243等距先驗損失
等距先驗損失定義如下:
244對稱損失
為了使形變過程中的點云模型保持對稱性,引入點云的對稱損失函數(shù),即:
245歸一化
總損失函數(shù)為上述各項損失函數(shù)之和:
在所有的實驗中,模型輸入均為RGB彩色圖像,輸出頂點數(shù)為2 048的三維點云。同時,為了端到端訓(xùn)練圖卷積網(wǎng)絡(luò),在實驗中使用了Adam優(yōu)化器[26],學(xué)習(xí)率初始化為5×105。模型的迭代次數(shù)為50個epoch,批量大?。˙atchsize)為32。所有實驗均在NVIDIA GeForce GTX1080Ti GPU上使用開源機器學(xué)習(xí)框架Pytorch實現(xiàn)。
為評估本文所提算法的重建性能,使用了ShapeNet[27]合成數(shù)據(jù)集和Pix3D[28]真實場景數(shù)據(jù)集進(jìn)行實驗。ShapeNet中共有13個模型類別,共51 300個3D模型,將部分遮擋或截斷的數(shù)據(jù)排除,并按照4:1的比例隨機劃分訓(xùn)練集與測試集。同樣對Pix3D數(shù)據(jù)集做了預(yù)處理,用提供的背景遮罩信息去除無用背景并將物體移動至中心位置,最終將圖像縮放或裁剪至224×224作為輸入圖像。
此外,本文使用IoU(Intersection-over-Union)、CD和EMD作為實驗結(jié)果的衡量指標(biāo)。IoU表示網(wǎng)絡(luò)重建的3D體素形狀與真實體素形狀的交并比,這里采用與PSGN[9]相同的體素生成方法。CD與EMD表示兩個點云之間的差異性,這里對GT點云進(jìn)行采樣,生成頂點數(shù)為2 048的點云模型,并與本文重建點云進(jìn)行對比。
對本文提出的損失函數(shù)設(shè)計策略的魯棒性進(jìn)行驗證如圖4所示,圖4(a)展示了損失函數(shù)在不同訓(xùn)練集上的效果對比。通過對比可知,在三種不同的訓(xùn)練集上,損失函數(shù)在訓(xùn)練中總體保持不斷下降的趨勢,訓(xùn)練集的損失函數(shù)在前20次epoch中下降較為迅速,而在第40次之后總體趨于穩(wěn)定,可知本文方法具有較高的魯棒性。進(jìn)一步,圖4(b)展示了圖卷積點云形變過程中損失函數(shù)收斂情況。通過圖4(b)可以看到圖卷積形變階段網(wǎng)絡(luò)收斂結(jié)果較好,表明模型具有較好的三維重建效果。
圖4 訓(xùn)練過程損失函數(shù)收斂曲線
圖5展示了本文方法與3D-LMNet[29]、Occupancy networks[30]、DISN[31]與PSGN在lamp、phone與monitor數(shù)據(jù)集上的重建結(jié)果對比。通過觀察可以發(fā)現(xiàn),本文方法在不同數(shù)據(jù)集下的重建精度均高于其他方法。對于不同的幾何結(jié)構(gòu)都有良好的表達(dá)能力,并保留更多細(xì)節(jié)。
圖5 本文三維重建結(jié)果與3D-LMNet、Occupancy networks、DISN、PSGN對比
圖6展示了本文方法和Pixel2Mesh[14]、DISN、PSGN方法在bench與airplane數(shù)據(jù)集上對比結(jié)果。為了更好地展示對比效果,這里選取三種不同的Pixel2Mesh模型??梢钥闯?,在非孔洞的airplane模型中,VGG-Pixel2Mesh重建效果與本文方法差別不大,優(yōu)于其他兩種Pixel2Mesh方法;在有孔洞的模型中,本文方法明顯具有更好的重建效果,能夠更準(zhǔn)確地表達(dá)物體的拓?fù)浣Y(jié)構(gòu)。
為了進(jìn)一步展示本文方法的三維重建效果,在rifle、monitor和chair數(shù)據(jù)集上與VGG-Pixel2Mesh、Occupancy networks、DISN和PSGN四種方法進(jìn)行比較。如圖7所示,本文方法在rifle與monitor數(shù)據(jù)集上的重建效果要優(yōu)于其他方法,更加接近GT。在chair數(shù)據(jù)集中,本文重建效果與Pixel2Mesh、Occupancy networks和DISN相近,均取得較好的重建效果。但本文重建的點云模型分布更加均勻,細(xì)節(jié)更加準(zhǔn)確,視覺效果更好。在圖7中,Occupancy networks方法對第四幅輸入圖像的重建效果較好。但總體來看,本文重建效果的細(xì)節(jié)更加準(zhǔn)確。
圖6 本文三維重建結(jié)果與Pixel2Mesh、DISN與PSGN對比
圖7 本文三維重建結(jié)果與VGG-Pixel2Mesh、Occupancy networks、DISN與PSGN對比
為了定量分析本文的方法和其他方法的差異,表1展示了在ShapeNet數(shù)據(jù)集中的重建精度對比。將評價指標(biāo)縮放100倍,與PSGN、3D-LMNet和pix2point[32]方法比較,在CD評價指標(biāo)上,本文方法在airplane等13個類別上取得了更高的重建精度;同樣在EMD評價指標(biāo)上,本文方法在所有類別均優(yōu)于其他方法。在平均重建精度上,CD和EMD比其他方法均有較大的提高。
表1CD、EMD評價指標(biāo)
Tab.1 CD、EMD evaluation indicators
進(jìn)一步地,我們對比了本文方法與PSGN、3D-R2N2在不同類別中IoU的差異。從表2可以看出,本文方法在airplane等8個類別中IoU較高,PSGN在sofa與speaker類別中IoU較高。3D-R2N2在5視圖重建下,在cabinet、car與phone類別取得最好表現(xiàn)。但在平均IoU上,本文比3D-R2N2在5視圖下提升7.7%,比PSGN提升6.25%。
表2IoU評價指標(biāo)
Tab.2 IoU evaluation indicators
361圖卷積模塊消融實驗
本文2.3節(jié)利用圖卷積模塊對NFFD重建點云模型進(jìn)行調(diào)整。為了驗證該方法的有效性,這里將圖卷積模塊替換為普通的全連接層,并對模型進(jìn)行訓(xùn)練與測試。使用CD與EMD兩個指標(biāo)來衡量生成點云的質(zhì)量,測試結(jié)果如表3所示。
從表3可以發(fā)現(xiàn),加入圖卷積模塊后,CD與EMD在大部分?jǐn)?shù)據(jù)集上均有一定提升,但在部分?jǐn)?shù)據(jù)集略有下降。其中,CD平均提升0.11,EMD平均提升0.06。對于CD指標(biāo),chair數(shù)據(jù)集提升0.32;對于EMD指標(biāo),monitor數(shù)據(jù)集提升0.40。由此可知,引入圖卷積模塊可以有效提升點云的重建精度。
表3圖卷積消融實驗評價指標(biāo)
Tab.3 Evaluation indicators of GCN ablation experiments
為了驗證NFFD點云映射圖像特征圖的有效性,針對bench數(shù)據(jù)集,去除圖卷積模塊的NFFD點云映射圖像特征圖,并重新訓(xùn)練網(wǎng)絡(luò)。經(jīng)過測試,未添加映射操作,CD評價指標(biāo)為3.348 6,添加點云映射圖像特征圖操作后,CD評價指標(biāo)為3.342 0,驗證了點云映射圖像特征圖的有效性。
為了驗證NFFD形變網(wǎng)絡(luò)性能,在bench、monitor與phone數(shù)據(jù)集上訓(xùn)練并測試評價指標(biāo)。如表4所示,加入圖卷積模塊后,不同數(shù)據(jù)集的評價指標(biāo)均有提升,CD指標(biāo)平均提升0.35,EMD指標(biāo)平均提升0.52。由此證明所提出的圖卷積模塊對點云坐標(biāo)具有良好的預(yù)測性。
表4NFFD消融實驗評價指標(biāo)
Tab.4 Evaluation indicators of NFFD ablation experiments
362損失函數(shù)消融實驗
為了驗證本文采用損失函數(shù)的有效性,選取不同的損失函數(shù)組合,并對模型進(jìn)行重新訓(xùn)練,基于bench、rifle與vessel數(shù)據(jù)集,測試結(jié)果如表5所示。觀察表5可知,采用全部損失函數(shù)后,CD指標(biāo)取得較好表現(xiàn),超過其他兩種策略,且對不同數(shù)據(jù)集均有效,提高了模型的泛化性能。
表5損失函數(shù)消融實驗CD對比
Tab.5 CD comparison of loss function ablation experiments
363控制點生成網(wǎng)絡(luò)消融實驗
為了驗證CPGN設(shè)計合理性,我們將CPGN解碼器中步長為1的卷積替換為平均池化,將反卷積替換為反池化,并重新訓(xùn)練網(wǎng)絡(luò)。測試過程中,隨機選取bench數(shù)據(jù)集80幅圖像,分別用兩種網(wǎng)絡(luò)生成控制點,采用NFFD方法進(jìn)行三維重建。其中,卷積-反卷積CPGN的CD指標(biāo)平均值為3.69,而池化-反池化CPGN的CD指標(biāo)平均值為3.93,比卷積-反卷積CPGN減少約6.50%。由此說明本文CPGN的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計的合理性。
進(jìn)一步,與文獻(xiàn)[33]的控制點生成網(wǎng)絡(luò)對比,以car數(shù)據(jù)集為例,隨機選取100幅圖像進(jìn)行測試。通過對比,CPGN效果更好,評價指標(biāo)CD與EMD的數(shù)值更小,比文獻(xiàn)[33]的控制點生成網(wǎng)絡(luò)提升3.81%。
364混合注意力模塊消融實驗
為了驗證2.3節(jié)圖卷積網(wǎng)絡(luò)中混合注意力模塊的作用,本節(jié)去除混合注意力模塊,重新訓(xùn)練網(wǎng)絡(luò)。以bench數(shù)據(jù)集為例,添加混合注意力模塊后,模型的收斂效果更好,局部細(xì)節(jié)得到一定提升,更加接近GT點云,如圖8所示。
圖8 混合注意力模塊對點云局部細(xì)節(jié)的影響
本文選取了Pix3D數(shù)據(jù)集中真實場景下的圖像進(jìn)行了三維重建,以驗證所提出方法的適應(yīng)性和泛化能力。圖9展示了本文方法對于不同場景的重建效果。如圖9所示,本文方法在包含椅子、桌子與沙發(fā)三個類別的真實場景中達(dá)到較好的三維重建效果。
圖9 本文真實場景三維重建效果
本文提出了一種融合NFFD與圖卷積的點云三維重建網(wǎng)絡(luò)。設(shè)計了控制點生成網(wǎng)絡(luò)對2D視圖進(jìn)行特征學(xué)習(xí),獲得其控制點拓?fù)浣Y(jié)構(gòu)。為了實現(xiàn)高質(zhì)量的3D點云重建模型,利用NURBS基函數(shù)對控制點坐標(biāo)自適應(yīng)特性建立點云模型輪廓間頂點的形變關(guān)系,并在此基礎(chǔ)上將混合注意力模塊嵌入圖卷積網(wǎng)絡(luò)對形變后的點云位置進(jìn)行調(diào)整。在ShapeNet數(shù)據(jù)集的實驗表明,CD指標(biāo)平均值為3.79,EMD指標(biāo)平均值為3.94,本文所提出的方法提升了單視圖的三維重建結(jié)果,能夠從不同角度保持重建的一致性。未來將優(yōu)化圖卷積網(wǎng)絡(luò)模型,進(jìn)一步提高點云重建精度。
[1] JIN Y W, JIANG D Q, CAI M. 3D reconstruction using deep learning: a survey[J]., 2020, 20(4): 389-413.
[2] FAHIM G, AMIN K, ZARIF S. Single-View 3D reconstruction: a Survey of deep learning methods[J]., 2021, 94: 164-190.
[3] HENDERSON P, FERRARI V. Learning single-image 3D reconstruction by generative modelling of shape, pose and shading[J]., 2020, 128(4): 835-854.
[4] CHOY C B, XU D F, GWAK J,. 322:3[M]. Computer Vision – ECCV 2016. Cham: Springer International Publishing, 2016: 628-644.
[5] 李雷,徐浩,吳素萍. 基于DDPG的三維重建模糊概率點推理[J]. 自動化學(xué)報, 2022, 48(4): 1105-1118.
LI L, XU H, WU S P. Fuzzy Probability Points Reasoning for 3D Reconstruction via Deep Deterministic Policy Gradient[J]., 2022, 48(4): 1105-1118. (in Chinese)
[6] 夏清,李帥,郝愛民,等. 基于深度學(xué)習(xí)的數(shù)字幾何處理與分析技術(shù)研究進(jìn)展[J]. 計算機研究與發(fā)展, 2019, 56(1): 155-182.
XIA Q, LI S, HAO A M,. Deep learning for digital geometry processing and analysis: a review[J]., 2019, 56(1): 155-182.(in Chinese)
[7] CHENG Q Q, SUN P Y, YANG C S,. A morphing-Based 3D point cloud reconstruction framework for medical image processing[J]., 2020, 193: 105495.
[8] JIN P, LIU S L, LIU J H,. Weakly-supervised single-view dense 3D point cloud reconstruction via differentiable renderer[J]., 2021, 34: 93.
[9] FAN H Q, SU H, GUIBAS L. A point set generation network for 3D object reconstruction from a single image[C]. 20172126,2017,,,IEEE, 2017: 2463-2471.
[10] ZHANG S F, LIU J, LIU Y H,. DIMNet: Dense implicit function network for 3D human body reconstruction[J]., 2021, 98: 1-10.
[11] YANG B, ROSA S, MARKHAM A,. Dense 3D object reconstruction from a single depth view[J]., 2019, 41(12): 2820-2834.
[12] WU Z H, PAN S R, CHEN F W,. A comprehensive survey on graph neural networks[J]., 2021, 32(1): 4-24.
[13] VALSESIA D, FRACASTORO G, MAGLI E. Learning localized representations of point clouds with graph-convolutional generative adversarial networks[J]., 2021, 23: 402-414.
[14] WANG N Y, ZHANG Y D, LI Z W,. Pixel2Mesh: generating 3D mesh models from single RGB images[C].(). 2008:52-67
[15] NGUYEN D, CHOI S, KIM W,. GraphX-convolution for point cloud deformation in 2D-to-3D conversion[C]. 2019()272,2019,,(). IEEE, 2019: 8627-8636.
[16] KURENKOV A, JI J W, GARG A,. DeformNet: free-form deformation network for 3D shape reconstruction from a single image[C]. 20181215,2018,,,IEEE, 2018: 858-866.
[17] PONTES J K, KONG C, SRIDHARAN S,.2:3[M]. Computer Vision-ACCV 2018. Cham: Springer International Publishing, 2019: 365-381.
[18] LAMOUSIN H J, WAGGENSPACK N N. NURBS-based free-form deformations[J]., 1994, 14(6): 59-65.
[19] TAO J, SUN G, SI J Z,. A robust design for a winglet based on NURBS-FFD method and PSO algorithm[J]., 2017, 70: 568-577.
[20] ORAZI L, REGGIANI B. Point inversion for triparametric NURBS[J].(), 2021, 15(1): 55-61.
[21] 孟月波,金丹,劉光輝,等. 共享核空洞卷積與注意力引導(dǎo)FPN文本檢測[J]. 光學(xué)精密工程, 2021, 29(8): 1955-1967.
MENG Y B, JIN D, LIU G H,. Text detection with kernel-sharing dilated convolutions and attention-guided FPN[J]., 2021, 29(8): 1955-1967.(in Chinese)
[22] 李經(jīng)宇,楊靜,孔斌,等. 基于注意力機制的多尺度車輛行人檢測算法[J]. 光學(xué)精密工程, 2021, 29(6): 1448-1458.
LI J Y, YANG J, KONG B,. Multi-scale vehicle and pedestrian detection algorithm based on attention mechanism[J]., 2021, 29(6): 1448-1458.(in Chinese)
[23] 蔡體健,彭瀟雨,石亞鵬,等. 通道注意力與殘差級聯(lián)的圖像超分辨率重建[J]. 光學(xué)精密工程, 2021, 29(1): 142-151.
CAI T J, PENG X Y, SHI Y P,. Channel attention and residual concatenation network for image super-resolution[J]., 2021, 29(1): 142-151.(in Chinese)
[24] 秦傳波,宋子玉,曾軍英,等. 聯(lián)合多尺度和注意力-殘差的深度監(jiān)督乳腺癌分割[J]. 光學(xué)精密工程, 2021, 29(4): 877-895.
QIN C B, SONG Z Y, ZENG J Y,. Deeply supervised breast cancer segmentation combined with multi-scale and attention-residuals[J]., 2021, 29(4): 877-895.(in Chinese)
[25] MA J Y, ZHANG H, YI P,. SCSCN: a separated channel-spatial convolution net with attention for single-view reconstruction[J]., 2020, 67(10): 8649-8658.
[26] KINGMA D P, BA J. Adam: a method for stochastic optimization[EB/OL]. 2014:: 1412.6980[cs.LG]. https://arxiv.org/abs/1412.6980
[27] CHANG A X, FUNKHOUSER T A, GUIBAS L J,. ShapeNet: an information-rich 3D model repository[J]., 2015, abs/1512.03012.
[28] SUN X Y, WU J J, ZHANG X M,. Pix3D: dataset and methods for single-image 3D shape modeling[C]. 20181823,2018,,,IEEE, 2018: 2974-2983.
[29] MANDIKAL P, MURTHY N, AGARWAL M,. 3D-LMNet: latent embedding matching for accurate and diverse 3D point cloud reconstruction from a single image[C].,:, 2018.55-56.
[30] MESCHEDER L, OECHSLE M, NIEMEYER M,. Occupancy networks: learning 3D reconstruction in function space[C]. 2019()1520,2019,,,IEEE, 2019: 4455-4465.
[31] XU Q G, WANG W Y, CEYLAN D,. DISN: deep implicit surface network for high-quality single-view 3D reconstruction[J]., 2019, 32: 492-502.
[32] AFIFI A J, MAGNUSSON J, SOOMRO T A,. Pixel2point: 3D object reconstruction from a single image using CNN and initial sphere[J]., 2020, 9: 110-121.
[33] JACK D, PONTES J K, SRIDHARAN S,. Learning free-form deformations for 3D object reconstruction[C].2018, 2019: 317-333.
Single-view 3D object reconstruction based on NFFD and graph convolution
LIAN Yuanfeng1,2*,PEI Shoushuang1,HU Wei1
(1,,102249,;2,102249,),:
To address the issue of inaccurate single-view three-dimensional (3D) object reconstruction results caused by complex topological objects and the absence of irregular surface details, a novel single-view 3D object reconstruction method combining non-uniform rational B-spline free deformation with a graph convolution neural network is proposed. First, a control points generation network, which introduces the connection weight policy, is used for the feature learning of two-dimensional views to obtain their control points topology. Subsequently, the NURBS basis function is used to establish the deformation relationship between the vertex contours of the point cloud model. Finally, to enhance the details, a convolutional network embedded with a mixed attention module is used to adjust the position of the deformed point cloud to reconstruct complex topological structures and irregular surfaces efficiently. Experiments on ShapeNet data show that the average values of the CD and EMD indices are 3.79 and 3.94, respectively, and that good reconstruction is achieved on the Pix3D real scene dataset. In contrast to existing single view point cloud 3D reconstruction methods, the proposed method offers a higher reconstruction accuracy of 3D objects and demonstrates higher robustness.
NURBS-based free-form deformation; 3D reconstruction; graph convolution network; mixed attention; control points generation network
TP391
A
10.37188/OPE.20223010.1189
1004-924X(2022)10-1189-14
2021-11-10;
2021-12-08.
國家自然科學(xué)基金資助項目(No.61972353);中國石油天然氣集團(tuán)有限公司-中國石油大學(xué)(北京)戰(zhàn)略合作科技專項:“一帶一路”海外長輸管道完整性關(guān)鍵技術(shù)研究與應(yīng)用項目(No.2006A10401006)
連遠(yuǎn)鋒(1977-),男,吉林延吉人,博士,副教授,碩士生導(dǎo)師,2012年于北京航空航天大學(xué)獲得博士學(xué)位,主要研究方向為圖像處理與虛擬現(xiàn)實、機器視覺與機器人、深度學(xué)習(xí)與數(shù)字幾何。E-mail:lianyuanfeng@cup.edu.cn
裴守爽(1997-),男,河北唐山人,碩士研究生,2020 年于河北農(nóng)業(yè)大學(xué)取得學(xué)士學(xué)位,主要研究方向為深度學(xué)習(xí)與三維重建。E-mail:peishoushuang@163.com