基于深度圖及分離池化技術(shù)的場景復(fù)原及語義分類網(wǎng)絡(luò)

2019-12-12 06:54:32林金花姚禹王瑩

自動化學(xué)報 2019年11期

林金花姚禹王瑩

在客觀物質(zhì)世界中,目標(biāo)實體的客觀存在形式通常取決于其所占用的三維空間位置.機(jī)器系統(tǒng)識別客觀實體的語義及其拓?fù)浯嬖谛孕枰珳?zhǔn)的神經(jīng)網(wǎng)絡(luò)模型.在機(jī)器視覺感知系統(tǒng)中,魯棒重建三維場景以及識別目標(biāo)語義至關(guān)重要,能夠?qū)崿F(xiàn)機(jī)器系統(tǒng)對目標(biāo)區(qū)域信息的有效捕捉與精準(zhǔn)定義,有效地識別出目標(biāo)場景形狀及其語義信息,語義識別與場景重建相互作用以確保機(jī)器視覺系統(tǒng)能夠魯棒識別并復(fù)原目標(biāo)場景.傳統(tǒng)方法一般分別完成這兩項工作,例如,二維識別方法一般僅對二維圖像進(jìn)行分類處理,不會重建目標(biāo)拓?fù)浣Y(jié)構(gòu)[1?2];相反,幾何重建方法僅復(fù)原三維結(jié)構(gòu)信息,而不識別目標(biāo)語義.針對這一問題,本文構(gòu)建了一種場景重建與語義識別相互結(jié)合的深度卷積神經(jīng)網(wǎng)絡(luò)模型,同時實現(xiàn)了對三維場景的重建與語義分類功能.

為了高效訓(xùn)練本文的模型,使用監(jiān)督式學(xué)習(xí)方法完成卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程,進(jìn)而實現(xiàn)場景重建與語義識別功能.本文方法對深度數(shù)據(jù)進(jìn)行重新表示,使用截斷式帶符號距離函數(shù)(Truncated signed distance function,TSDF)編碼方式對目標(biāo)場景進(jìn)行三維體素重定義,每個體素包含:被占用體素與空閑體素兩種含義.如何從不完整的目標(biāo)場景中識別其語義以及不可見區(qū)域的語義標(biāo)注問題是本文需要解決的關(guān)鍵問題.

針對上述問題,本文構(gòu)造了一種上下文區(qū)域拓展網(wǎng)絡(luò),增加了接收區(qū)域場景的體素信息,使得目標(biāo)語義識別面更廣.另一方面,本文構(gòu)建了一種有效的用于深度學(xué)習(xí)的數(shù)據(jù)集,并對其完成了體素標(biāo)注.

1 相關(guān)工作

在機(jī)器視覺系統(tǒng)中,魯棒完成三維場景的語義分割任務(wù)至關(guān)重要,常用任務(wù)包括機(jī)器人路徑規(guī)劃、人員協(xié)調(diào)輔助以及智能監(jiān)控等.近年來,為了滿足視覺系統(tǒng)需求,實現(xiàn)對目標(biāo)場景的語義分割任務(wù),深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)得到廣泛應(yīng)用,深度神經(jīng)網(wǎng)絡(luò)通過學(xué)習(xí)大規(guī)模場景數(shù)據(jù),生成訓(xùn)練標(biāo)簽,進(jìn)而實現(xiàn)目標(biāo)場景理解任務(wù).然而,對于大多數(shù)的視覺處理任務(wù),真實場景數(shù)據(jù)是有限的,并且受深度感知技術(shù)和語義分類方法的限制,使得構(gòu)建高效的深度學(xué)習(xí)網(wǎng)絡(luò)并不容易.

深度神經(jīng)網(wǎng)絡(luò)被廣泛用于解決對象分類和目標(biāo)檢測問題[3?4].然而受數(shù)據(jù)規(guī)模、存儲介質(zhì)和計算能力的限制,深度神經(jīng)網(wǎng)絡(luò)的復(fù)雜程度也隨之提高,限制了深度神經(jīng)網(wǎng)絡(luò)的適用范圍.這種限制主要出于兩個方面:1)隨著模型尺度的增大,網(wǎng)絡(luò)的復(fù)雜度也隨之增加,例如Googlenet 數(shù)據(jù)集的50 MB 模型,Resnet-101 的200 MB 模型,Alexnet 的250 MB 和VGG-net 的500 MB 模型;2)復(fù)雜神經(jīng)網(wǎng)絡(luò)通常需要超高性能的處理器的支持,即高配置的GPU 高速并行處理單元的支持,這使得研究人員致力于模型的壓縮,以減小神經(jīng)網(wǎng)絡(luò)的內(nèi)存和處理單元占用率[5?6].例如,Ren 等[7]對遮擋目標(biāo)場景魯棒地完成重建過程,將大權(quán)重矩陣分解為幾個可分離小矩陣來減少冗余,重建效果較好,但無法實現(xiàn)語義識別功能.對于神經(jīng)網(wǎng)絡(luò)的完全連接層,這種方法已被證明非常有效.科研工作者給出了多種基于連接限幅的語義重建方法,刪除了預(yù)訓(xùn)練和再訓(xùn)練模型的冗余連接.這些方法將模型參數(shù)的數(shù)量減少了一個數(shù)量級,而不會對分類精度造成重大影響,但三維重建精度會隨著降低[8?11].另一種語義重建策略是限制模型本身的架構(gòu).例如,去除完全連接的層,使用小尺寸的卷積濾波器等,目前較先進(jìn)的深層網(wǎng)絡(luò),如Nin、Googlenet 和Resnet 都采用這種架構(gòu).然而這種方法對重建場景的幾何拓?fù)浼?xì)節(jié)表示不佳影響了重建分辨率[12?13].Zheng 等[14]使用固定點表示來量化預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)的權(quán)重,以加快網(wǎng)絡(luò)在CPU上的運行時間,同時使用空間預(yù)測方法來推斷遮擋場景信息.Kim 等[15]提出了替代量化方法來減小模型尺寸,在保證最小精度損失的情況下,使用k級均值矢量量化實現(xiàn)了4～8 倍的重建精度,然而引起網(wǎng)絡(luò)訓(xùn)練時間的增加.Hane 等[16]和Blaha 等[17]使用綁定更新優(yōu)化策略來保證重建視覺的多樣性,以此加強網(wǎng)絡(luò)的重建精度.

針對上述問題,本文給出了一種適用于大尺度場景重建與語義識別的深度卷積神經(jīng)網(wǎng)絡(luò)模型,將目標(biāo)幾何信息與目標(biāo)上下文語義信息相結(jié)合,進(jìn)而完成對目標(biāo)場景的魯棒重建與識別.另外,本文建立了一種用于三維場景學(xué)習(xí)的數(shù)據(jù)集,可用于對RGB圖像的語義分割過程[18?21].

2 語義場景復(fù)原網(wǎng)絡(luò)

本文的深度卷積神經(jīng)網(wǎng)絡(luò)由多個層次的處理單元組成,關(guān)鍵核心是完成攝像機(jī)視錐體劃分范圍里的空間體素分配到一系列語義類別標(biāo)注,假設(shè)C{c0,···,cN+1},其中,N表示目標(biāo)場景包含的類別總數(shù),c0代表未被占用的體素.每個神經(jīng)單元的激勵函數(shù)如下:zg(wwwTx),其中,Rc×w×h為權(quán)重向量,Rc×w×h為輸入向量,g(·)為非線性函數(shù).本文卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)了由這些單元構(gòu)成的多個層,并用張量Rc×w×h來表示權(quán)重.c,w和h分別用來定義濾波器通道的數(shù)量,寬度和高度.由于這種基本運算在整個網(wǎng)絡(luò)中重復(fù),且神經(jīng)網(wǎng)絡(luò)通常由繁多的處理單位組成,式(1)的表示方式是決定整個網(wǎng)絡(luò)模型復(fù)雜程度的主要因素.網(wǎng)絡(luò)的復(fù)雜程度主要與兩個因素有關(guān):1)存儲權(quán)重www需要巨大的內(nèi)存開銷;2)大量的點積運算wwwTx需要高成本的計算開銷.當(dāng)權(quán)重和點積運算為浮點值時,上述兩個方面的開銷會劇增,導(dǎo)致實際應(yīng)用能力差[22].因此本文所提的低精度卷積神經(jīng)網(wǎng)絡(luò)更適用于解決實際三維重建與語義分類問題.本文網(wǎng)絡(luò)的場景重建與語義識別過程如圖1 所示.下面分節(jié)闡述本文網(wǎng)絡(luò)模型的構(gòu)造與重建過程.

圖1 本文深度卷積神經(jīng)網(wǎng)絡(luò)的場景重建與語義分類過程Fig.1 3D reconstruction and semantic classification of our depth convolutional neural network

2.1 體素數(shù)據(jù)編碼及分離池化方法

首先,對三維場景的語義分類原理進(jìn)行分析,構(gòu)建基于改進(jìn)的TSDF 編碼以及細(xì)粒度池化特性的深度卷積神經(jīng)網(wǎng)絡(luò)模型;其次,提出估計算法對三維語義感知特性參數(shù)進(jìn)行估計,解決TSDF 編碼下具有細(xì)粒度池化層的深度卷積神經(jīng)網(wǎng)絡(luò)的模型優(yōu)化問題;最后,建立考慮改進(jìn)的TSDF 編碼下三維語義場景的語義分類性能評價體系,預(yù)測網(wǎng)絡(luò)對三維場景的語義分類性能,改善機(jī)器系統(tǒng)對三維場景的語義感知性能,為具有三維語義感知能力的機(jī)器視覺系統(tǒng)在軍用和民用上的應(yīng)用提供理論依據(jù).

本文對TSDF 進(jìn)行了改進(jìn),使之適應(yīng)于場景重建與語義分類的混合卷積神經(jīng)網(wǎng)絡(luò)模型.一般情況下,深度卷神經(jīng)網(wǎng)絡(luò)模型使用距離相機(jī)位置最近投影直線的方式來獲取場景關(guān)鍵點.然而,該方法在節(jié)省重建投影視覺的同時,卻以關(guān)鍵點捕獲精度為代價,影響了對三維場景的最終重建精度以分類性能.為提高重建精度及語義分類性能,本來采用了一種隨機(jī)選取池化層內(nèi)部表面點的方式來提取關(guān)鍵點,改善了TSDF 距離的計算時間,同時保證了重建與分類精度.分離池化后的特征區(qū)域本身具有細(xì)粒度空間幾何拓?fù)浣Y(jié)構(gòu)的特性,當(dāng)隨機(jī)采用發(fā)生時,平均池化粒度值基本保持不變,因此確保了隨機(jī)采用的平均精準(zhǔn)度,以此構(gòu)建的TSDF 的精度也隨之增加.本文采用池化技術(shù)的體素編碼方式如圖2 所示.

2.2 復(fù)原網(wǎng)絡(luò)結(jié)構(gòu)

圖2 常用的TSDF 編碼可視化結(jié)果Fig.2 Visualization of several encoding TSDF

三維場景語義分類問題是機(jī)器視覺領(lǐng)域的熱點研究問題.本文考慮結(jié)合TSDF 編碼與分類池化技術(shù)的三維場景重建與語義分類網(wǎng)絡(luò)模型如圖3 所示.下面分五個方面闡述本文深度卷積神經(jīng)網(wǎng)絡(luò)的場景復(fù)原與語義分類過程.

圖3 本文所提深度卷積神經(jīng)網(wǎng)絡(luò)模型Fig.3 Our depth convolutional neural network

1)本文構(gòu)建了一種以RGB-D 深度圖作為輸入的深度學(xué)習(xí)網(wǎng)絡(luò)框架.一個點云由一組三維點數(shù)據(jù)構(gòu)成,即{Pi|i1,···,n},每個三維點Pi由五維向量表示.對于對象分類任務(wù),輸入點云直接從目標(biāo)形狀采樣,或者從一個場景點云預(yù)分割得到.對于語義分割,輸入可以是用于部分區(qū)域分割的單個對象,或者用于對象區(qū)域分割的三維場景子體積.本文網(wǎng)絡(luò)將為n個點和m個語義子類別中的每一個輸出n × m個分?jǐn)?shù).圖4 給出了本文語義分類網(wǎng)絡(luò)架構(gòu).T1 和T2 是輸入點和特征的對稱轉(zhuǎn)換網(wǎng)絡(luò).FC是完全連接的層在每個點上操作.MLP是每個點上的多層感知器.vec是大小為16 的向量,指示輸入形狀的類別.本文網(wǎng)絡(luò)能夠預(yù)測體素數(shù)量,如圖4 中的左下角曲線圖所示,這表明本文復(fù)原網(wǎng)絡(luò)能夠從本地鄰域獲取信息,對區(qū)域分割具有魯棒性.

圖4 本文語義分類的卷積流程Fig.4 Convolutional streamline of our semantic classification

2)本文語義復(fù)原網(wǎng)絡(luò)從訓(xùn)練LS-3DDS 合成數(shù)據(jù)集中,直接學(xué)習(xí)接收域信息來獲取條件概率矩陣,即在三維場景語義分類中,條件概率p(Ai|Cn)表示在語義類別Cn中出現(xiàn)的語義對象Ai的比率來計算概率分布

其中,Cn表示 LS-3DDS 數(shù)據(jù)集中屬于類別Cn的場景個數(shù),且i p(Ai|Cn)1.本文的三維場景語義類別個數(shù)N,對象個數(shù)為M,語義對象條件概率矩陣為N ×M階矩陣,即這里通過計數(shù)隨機(jī)事件的出現(xiàn)頻率來估計概率分布,需要大量的真實觀測數(shù)據(jù).使用本文構(gòu)建的LS-3DDS數(shù)據(jù)集訓(xùn)練語義神經(jīng)網(wǎng)絡(luò)模型,由于合成數(shù)據(jù)集規(guī)模較大且手動標(biāo)記標(biāo)簽精準(zhǔn),使得計算得出的條件概率較準(zhǔn)確,保證了本文語義場景復(fù)原網(wǎng)絡(luò)的精準(zhǔn)度,如圖5 所示,接收區(qū)域的增大提高了本文網(wǎng)絡(luò)的上下文語義識別精準(zhǔn)度.

3)本文神經(jīng)網(wǎng)絡(luò)的池化器采用分段常值函數(shù),定義為

該池化器將量化間隔(ti,ti+1]內(nèi)的所有x,并將其映射為量化級別qiR,其中,i1,···,m,且t1?∞,tm+1+∞.這將泛化符號函數(shù),將其看作是1 位池化器.一個均勻池化器需要滿足以下條件:

其中,?是恒定量化步長.受精度降低的約束,量化級qi作為激勵x的重構(gòu)值.因為對于任意x,該池化器足以存儲式(2)的量化索引i以恢復(fù)量化級別qi,所以非均勻池化器需要log2m比特的存儲空間來存放激勵x.然而,在算術(shù)運算過程中,通常需要超過log2m比特來表示x,并使用qi代替索引i.對于均勻池化器,?是通用縮放因子,通常以log2m比特來存儲激勵x而不存索引.本文在卷積運算中也同樣采用這種存儲策略.

圖5 本文攝像頭接收范圍直接影響網(wǎng)絡(luò)性能Fig.5 Our camera receiving range directly affects performance of network

4)設(shè)計最優(yōu)池化器以保證三維重建精度與語義分類準(zhǔn)確率,需要將池化器定義在均值誤差范圍內(nèi),即

其中,p(x)是x的概率密度函數(shù).因此,式(2)中點積的最優(yōu)池化器取決于它們的統(tǒng)計值.雖然式(4)的最優(yōu)解Q?(x)通常是不均勻的,但通過將式(3)的約束代入式(4),可以得到均勻解Q?(x).給定點積樣本,式(4)的最優(yōu)解可以通過勞埃德算法獲得.這是一個迭代算法.由于每個網(wǎng)絡(luò)單元必須設(shè)計不同的池化器,并且該池化器隨反向傳播迭代而改變,因此該過程的直接計算實現(xiàn)是較繁瑣且有難度的.

5)本文使用半波高斯池化器來實現(xiàn)反向近似操作,通過利用深層網(wǎng)絡(luò)激勵的統(tǒng)計結(jié)構(gòu)來的克服池化器隨反向傳播迭代而改變的問題.文獻(xiàn)[23?24]證明了點積近似具有接近高斯分布的對稱、非稀疏分布特性.考慮到ReLU 是半波整流器,本文使用半波高斯池化器(Half wave Gauss pool,HWGP)來實現(xiàn)反向近似操作,定義如下:

其中,qiR+,i1,···,m,tiR+,i1,···,m+1,t10,tm+1∞;qi和ti是高斯分布的最優(yōu)量化參數(shù).SGNN 保證了這些參數(shù)僅取決于點積分布的均值和方差.然而,因為這些參數(shù)在不同的單元之間變化,所以無法消除網(wǎng)絡(luò)上勞埃德算法的重復(fù)使用.

這個問題可以通過批量歸一化方法來緩解,這迫使網(wǎng)絡(luò)的每個層的響應(yīng)都具有零均值和單位方差.本文將這種歸一化操作應(yīng)用于點積運算,結(jié)果如圖6所示.盡管點積分布不完全符合高斯分布,它們之間存在微小差異,但二者都接近高斯分布,且平均值和單位方差為零.因此,最佳量化參數(shù)和在神經(jīng)網(wǎng)絡(luò)的單元、層和反向傳播迭代過程中大致相同.因此,勞埃德算法在整個網(wǎng)絡(luò)上僅使用一次即可.實際上,由于所有分布都近似于零均值和單位方差的高斯分布,因此可以從該分布的樣本中設(shè)計池化器.本文從零均值和單位方差的標(biāo)準(zhǔn)高斯分布中抽取了106個樣本,并通過勞埃德算法獲得了最優(yōu)量化參數(shù).在點積批量歸一化之后,再將所得到的參數(shù)和用于參數(shù)化在所有層中使用的SGNN.

3 實驗結(jié)果與分析

為測試本文卷積神經(jīng)網(wǎng)絡(luò)的重建精度與語義分類性能,本節(jié)采用攝像機(jī)捕獲的三維場景數(shù)據(jù)以及合成數(shù)據(jù)對網(wǎng)絡(luò)進(jìn)行訓(xùn)練與測試.

在使用真實場景數(shù)據(jù)進(jìn)行訓(xùn)練時,本文使用NYU 數(shù)據(jù)集訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)模型,該數(shù)據(jù)集由1 449 個RGB-D 深度圖.本文針對由Guo 等[25]提出的帶有幾何標(biāo)注的三維體積模型,捕獲了大量的三維真實場景數(shù)據(jù)信息.另外,同時采用了Sun等[26]的采樣策略捕獲了多種三維場景對象數(shù)據(jù).通常情況下,當(dāng)語義標(biāo)注信息與實際網(wǎng)絡(luò)拓?fù)湫畔⒉煌耆珜?yīng)時,數(shù)據(jù)集中的深度信息與幾何信息也會出現(xiàn)不匹配的現(xiàn)象.針對這一問題,Silberman 等[3]等采用繪制RGB-D 圖的方式對目標(biāo)三維場景的三維物理位置信息進(jìn)行標(biāo)記.然而在標(biāo)記的過程中不可避免的影響原有三維拓?fù)浣Y(jié)構(gòu),使得三維重建場景的本地特性未能較好地保留.為此,本文結(jié)合了上述幾種重建數(shù)據(jù)集的構(gòu)造方式,對本文神經(jīng)網(wǎng)絡(luò)進(jìn)行測試.

圖6 帶有二進(jìn)制權(quán)值和量化激勵的網(wǎng)絡(luò)層點積分布圖.(a),(b),(c),(d)分別為下采樣層1、卷積層3、下采樣層6、卷積層7 的點積分布圖(具有不同的均值和標(biāo)準(zhǔn)偏差);(e),(f),(g),(h)分別為下采樣層1、卷積層3、下采樣層6、卷積層7 對應(yīng)的點積誤差分布曲線Fig.6 Dot product distribution of network with binary weights and quantitative activation.(a),(b),(c)and (d)are the point product distribution maps of the pooling layer 1,the convolution layer 3,the pooling layer 6 and the convolution layer 7,respectively,they share a different mean and standard deviation;(e),(f),(g)and (h)are the dot product error distribution curves corresponding to the pooling layer 1,the convolution layer 3,the pooling layer 6 and the convolution layer 7,respectively.

本文在表1 和表2 中展示了對神經(jīng)網(wǎng)絡(luò)性能的定量分析,同時在圖7 中給出了網(wǎng)絡(luò)的定性分析結(jié)果.在表1 中,將本文網(wǎng)絡(luò)模型與Lin 等[12]以及Gupta 等[8]和Wang 等[21]提出的網(wǎng)絡(luò)模型展開對比,為方便引用,文中下述段落將上述幾種網(wǎng)絡(luò)重命名為L 網(wǎng)、GW 網(wǎng).這兩種網(wǎng)絡(luò)模型采用深度輸入幀為神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù),同時在目標(biāo)場景的體素級網(wǎng)絡(luò)上生成語義標(biāo)注.L 網(wǎng)采用包圍盒以及超平面近似的方式標(biāo)記全部體素網(wǎng)格.GW 網(wǎng)對場景進(jìn)行測試的同時搜索RGB-D 數(shù)據(jù)信息,進(jìn)而完成對全局場景的重建測試.以上兩種網(wǎng)絡(luò)能夠在較小的訓(xùn)練數(shù)據(jù)集上重構(gòu)精準(zhǔn)的三維場景幾何結(jié)構(gòu)模型,對應(yīng)關(guān)系的匹配方法較精準(zhǔn).與之不同,本文網(wǎng)絡(luò)采用單一深度圖作為輸入,同時結(jié)合分離池化技術(shù)對特征采用關(guān)鍵點進(jìn)行優(yōu)化處理,生成細(xì)節(jié)豐富的TSDF 編碼方法,另外無需附加網(wǎng)絡(luò)來協(xié)調(diào)測試過程,提高了重建性能.因此,本文深度卷積神經(jīng)網(wǎng)絡(luò)模型能夠生成更加精準(zhǔn)的重建模型,同時保證了語義分類精度.本文深度卷積神經(jīng)網(wǎng)絡(luò)的三維場景復(fù)原精度值為30.5%,GW 網(wǎng)的精度百分比為19.6%.由圖7 給出的重建對比圖可知,這兩種網(wǎng)絡(luò)模型同時將沙發(fā)對象語義標(biāo)記為床,然而,本文網(wǎng)絡(luò)模型能夠準(zhǔn)確識別目標(biāo)對象語義,并采用虛線方框來標(biāo)記,本文方法的語義標(biāo)記精準(zhǔn)度更高,同時,本文網(wǎng)絡(luò)無需對目標(biāo)場景進(jìn)行預(yù)處理,三維場景復(fù)原與語義分類同時完成,在保證重建精度的同時,節(jié)省了對三維目標(biāo)場景的重建時間已經(jīng)語義分類開銷.

表1 本文網(wǎng)絡(luò)與L、GW 網(wǎng)絡(luò)的復(fù)原與分類性能比較(%)Table 1 Comparison of three networks for performance of reconstruction and semantic classification (%)

表2 本文網(wǎng)與F 網(wǎng)、Z 網(wǎng)的重建性能對比數(shù)據(jù)(%)Table 2 Comparison of our network reconstruction performance with F and Z networks (%)

圖7 幾種復(fù)原網(wǎng)絡(luò)的可視化性能對比圖Fig.7 Visualization performance comparison for several completion neural networks

本文對卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,進(jìn)而檢測三維體素的空間占用比率,首先將單個體素數(shù)據(jù)進(jìn)行編碼,未被占用的體素用二進(jìn)制字符“0”來標(biāo)記,已經(jīng)被占用的體素項目用字符“1”來標(biāo)記.表2 給出了使用以上數(shù)據(jù)集訓(xùn)練完成的網(wǎng)絡(luò)模型的性能對比數(shù)據(jù).使用本文網(wǎng)絡(luò)對場景進(jìn)行重建復(fù)原,同時使用Silberman 等[3]和Zheng[14]等提出的網(wǎng)絡(luò)對場景重建復(fù)原,為方便引用,文中下述段落將上述幾種網(wǎng)絡(luò)重命名為F 網(wǎng)、Z 網(wǎng).這兩種方法采用RGB-D圖作為網(wǎng)絡(luò)的輸入,實現(xiàn)對三維場景的復(fù)原處理,然而二者皆不具有語義分類標(biāo)注功能.本文網(wǎng)絡(luò)針對上述兩種網(wǎng)絡(luò)完成了整合改進(jìn),將場景復(fù)原與語義分類融合到統(tǒng)一的深度卷積神經(jīng)網(wǎng)絡(luò)模型中.本文網(wǎng)絡(luò)首先在測試階段,采用200 張輸入深度圖,同時采用NYU 體系來平均本文網(wǎng)絡(luò)的重建與分類性能.F 網(wǎng)實現(xiàn)了對大規(guī)模場景的三維重建過程,并且重建的精度較高,然而,當(dāng)場景的目標(biāo)語義較復(fù)雜,遮擋現(xiàn)象嚴(yán)重時,網(wǎng)絡(luò)的重建精度受到限制,三維場景的重建效果受到影響.例如,在圖7 中第4 行的椅子復(fù)原失敗(如圖中藍(lán)色圓圈所示).然而,使用本文網(wǎng)絡(luò)來重建目標(biāo)場景時,由于結(jié)合了上下文語義評價體系,改善了語義重建的精準(zhǔn)度.從本組實驗結(jié)果可以看出,本文的將重建與語義分類相結(jié)合的方法,在提高三維重建精度的同時,避免了不必要的語義檢測失效問題.

本文訓(xùn)練了一種用于三維重建與語義分類的統(tǒng)一架構(gòu)深度卷積神經(jīng)網(wǎng)絡(luò)模型,本文對未被遮擋的場景表面幾何進(jìn)行具體的語義標(biāo)注,同時采用聯(lián)合策略對目標(biāo)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,并對比起重建結(jié)果.然而,當(dāng)本文網(wǎng)絡(luò)對未被遮擋的表面進(jìn)行測試是,采用三維場景重建結(jié)合語義分類來訓(xùn)練三維神經(jīng)卷積神經(jīng)網(wǎng)絡(luò)模型的效果由于僅使用幾何表面語義訓(xùn)練的網(wǎng)絡(luò)模型,實驗結(jié)果表明帶有幾何標(biāo)注的三維場景重建精準(zhǔn)度為52.3%,然而,聯(lián)合兩種網(wǎng)絡(luò)得到的三維場景重建精準(zhǔn)度為55.3%.因此,本文提出的重建與語義分類相互結(jié)合的網(wǎng)絡(luò)模型,具有互相協(xié)作相互促進(jìn)的優(yōu)勢.

在圖8 中,本文網(wǎng)絡(luò)對未知區(qū)域的場景語義及幾何形狀進(jìn)行了預(yù)測.當(dāng)桌子場景周邊的目標(biāo)場景未出現(xiàn)在攝像頭捕獲范圍內(nèi)時,使用本文網(wǎng)絡(luò)仍然能夠較精準(zhǔn)的預(yù)測出目標(biāo)場景的上下文語義信息,從預(yù)測結(jié)果可見,本文網(wǎng)絡(luò)的重建精度較好,語義分類預(yù)測出的對象標(biāo)注信息較準(zhǔn)確.例如,在圖8 中出現(xiàn)的第1 張深度圖中,該圖中的周邊對象均不可見,然而,即便信息被完全遮擋,依據(jù)本文的池化技術(shù)仍然能夠精準(zhǔn)的預(yù)測出上下文語義,擴(kuò)大了語義識別的目標(biāo)場景面積,本文網(wǎng)絡(luò)的重建性能從39.0% 提高到45.3%.

圖9 給出了不同體素編碼方式對復(fù)原網(wǎng)絡(luò)性能的影響.無增量卷積和帶增量卷積網(wǎng)格具有相同數(shù)量的參數(shù),而在帶增量卷積網(wǎng)絡(luò)結(jié)構(gòu)中,三個卷積層被增量卷積取代(如圖3 所示),將接收域從1.62 m增加到2.26 m (如圖5 所示).增加接收區(qū)域使網(wǎng)絡(luò)能夠獲得更豐富的上下文信息,并將網(wǎng)絡(luò)性能從38.0% 提高到44.3%.將帶有和不帶有聚合層的兩種網(wǎng)絡(luò)進(jìn)行性能比較,如圖9 所示,結(jié)果表明帶有聚合層的模型對場景復(fù)原和語義分類都產(chǎn)生較高的IoU 值,分別增漲3.1% 和2.1%.

圖8 本文網(wǎng)絡(luò)預(yù)測出的周圍對象Fig.8 Prediction of surrounding object by our network

圖9 中給出了采用不同體素編碼方式的網(wǎng)絡(luò)性能,即投影TSDF,標(biāo)準(zhǔn)TSDF 和翻轉(zhuǎn)TSDF (改進(jìn)后)三種編碼方式的比較.實驗結(jié)果顯示,使用標(biāo)準(zhǔn)TSDF 可以消除攝像機(jī)視角的依賴性,并使得IoU值提高了2.4%;而使用翻轉(zhuǎn)TSDF 時,梯度變化集中在表面上,IoU 值比標(biāo)準(zhǔn)TSDF 提高了10.1%,比投影TSDF 提高了12.5%.

4 結(jié)束語

本文提出了一種基于深度圖與分離池化技術(shù)的深度卷積神經(jīng)網(wǎng)絡(luò)模型,將深度圖作為輸入并使用分離池化方法提取深度特征,進(jìn)而完成對三維場景的幾何結(jié)構(gòu)重建及語義分類任務(wù).同時,構(gòu)建了一種用于訓(xùn)練本文網(wǎng)絡(luò)模型的三維合成數(shù)據(jù)集,增強了神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力.實驗結(jié)果表明,本文網(wǎng)絡(luò)兼具復(fù)原與分類功能為一體,與單一形式的網(wǎng)絡(luò)模型相比,本文網(wǎng)絡(luò)的重建精度提高了2.1%.本文網(wǎng)絡(luò)采用分離池化技術(shù)及語義豐富的訓(xùn)練數(shù)據(jù)集,優(yōu)化了傳統(tǒng)單一類型網(wǎng)絡(luò)的性能,實現(xiàn)了對三維場景的魯棒重建與分類.

圖9 改進(jìn)的TSDF 編碼對語義場景復(fù)原性能的影響Fig.9 Effect of improved TSDF on semantic scene completion