邱起璐 趙杰煜,2 陳 瑜
隨著自動(dòng)駕駛、無人超市等與計(jì)算機(jī)視覺應(yīng)用相關(guān)的新技術(shù)的迅速發(fā)展,二維數(shù)據(jù)已無法契合三維應(yīng)用,將計(jì)算機(jī)視覺主要的處理數(shù)據(jù)從二維轉(zhuǎn)變到三維勢在必行.如何結(jié)合在圖像處理領(lǐng)域性能較優(yōu)的深度學(xué)習(xí)方法,識別比二維數(shù)據(jù)更龐大、復(fù)雜、多變的三維目標(biāo),受到學(xué)者的廣泛關(guān)注.
目前對三維目標(biāo)的研究大多利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)高效的特征提取能力,完成分類分割或其它任務(wù)[1].早期的三維目標(biāo)識別研究主要通過特征描述符提取低層特征,再通過簡單機(jī)器學(xué)習(xí)方法進(jìn)行分類.Saupe等[2]先將數(shù)據(jù)離散化,再用主成分分析對目標(biāo)降維,用歐氏距離求出幾何距離,以此作為目標(biāo)特征.Paquet等[3]在數(shù)據(jù)離散化和數(shù)據(jù)降維后,以目標(biāo)表面面片的質(zhì)心作為幾何矩,在特定條件下獲取的表征更有效.
為了解決手工提取特征方法計(jì)算量較大、局限特定目標(biāo)的問題,學(xué)者們結(jié)合在二維圖像處理領(lǐng)域突破性的深度學(xué)習(xí)方法,提出基于視圖的深度學(xué)習(xí)方法.Shi等[4]將三維目標(biāo)轉(zhuǎn)化成全景視圖,利用CNN提取高層特征,該方法是最早通過視圖方法處理三維數(shù)據(jù)的方法之一.Sinha等[5]將三維目標(biāo)生成球面,結(jié)合基于熱核特征和主曲率特征的低層次特征提取方法,獲得特征圖.
然而,基于視圖方法在轉(zhuǎn)換過程中會(huì)丟失三維數(shù)據(jù)的整體結(jié)構(gòu)信息和視圖間的相關(guān)性,這在一定程度上降低深度網(wǎng)絡(luò)的鑒別能力[6],因此,學(xué)者們提出多種直接處理三維數(shù)據(jù)的深度神經(jīng)網(wǎng)絡(luò).Wu等[7]提出針對三維數(shù)據(jù)體素目標(biāo)的深度置信網(wǎng)絡(luò),把深度學(xué)習(xí)方法擴(kuò)展到三維領(lǐng)域.Brock等[8]基于體素,結(jié)合變分自編碼器和卷積神經(jīng)網(wǎng)絡(luò),提出基于變分自編碼器的三維目標(biāo)分類網(wǎng)絡(luò).Qi等[9]使用深度學(xué)習(xí)網(wǎng)絡(luò)直接處理點(diǎn)云數(shù)據(jù),使用空間不變網(wǎng)絡(luò)組件和最大池化,解決點(diǎn)云數(shù)據(jù)的不規(guī)則特性問題.Lan等[10]強(qiáng)調(diào)局部區(qū)域點(diǎn)之間的幾何結(jié)構(gòu),將點(diǎn)和點(diǎn)之間向量拆分成三個(gè)基本方向的向量,再通過對應(yīng)的權(quán)值比重,學(xué)習(xí)每個(gè)方向的特征.Hanocka等[1]將特征放在邊上傳遞,使用固定邊的鄰邊讀取順序的方法設(shè)計(jì)卷積,解決網(wǎng)格目標(biāo)的不規(guī)則性問題,再使用網(wǎng)格簡化算法聚合特征,實(shí)現(xiàn)直接針對網(wǎng)格目標(biāo)數(shù)據(jù)的特征提取.Vakalopoulou等[11]提出形狀生成框架,主要思想是任何一塊三維目標(biāo)表面都可通過二維平面擠壓、撕裂、折疊等操作得到,提取代表這些操作的參數(shù),生成三維網(wǎng)格目標(biāo)的轉(zhuǎn)換表示.
上述方法均在三維目標(biāo)上沿用二維圖像處理方法,在數(shù)據(jù)前向傳播過程中,內(nèi)含的CNN通過最大池化或平均池化之類的操作獲得圖像變換的不變性、更緊湊的表征、更好的噪聲和聚類的魯棒性[12].然而,因?yàn)槌鼗^程只完成特征的聚集,卻丟失對應(yīng)特征的來源,從而丟棄高層特征其它參數(shù)信息和編碼特征間的相對位置關(guān)系,因此使用池化操作提取的特征不會(huì)隨視角的變化而變化,即存在位置不變性(Positional-Invariance).區(qū)分三維目標(biāo)需要綜合目標(biāo)本身表征和目標(biāo)內(nèi)部結(jié)構(gòu)的相對空間關(guān)系,空間信息的缺失會(huì)對三維目標(biāo)的識別提取造成重大影響[13].
為了解決CNN使用池化采樣而丟失空間信息的問題,Hinton等[14]提出使用矢量型特征代替標(biāo)量型特征,并基于此實(shí)現(xiàn)膠囊網(wǎng)絡(luò).用動(dòng)態(tài)路由引入位置等變性(Positional-Equivariance)[15]替代CNN中的位置不變性,更好地保留空間信息.目前已有實(shí)驗(yàn)驗(yàn)證膠囊網(wǎng)絡(luò)在二維圖像分類上更具優(yōu)勢[16].在應(yīng)用方面,Iesmantas等[17]將基于二進(jìn)制分類的膠囊網(wǎng)絡(luò)應(yīng)用于乳腺癌的檢測.Jaiswal等[18]設(shè)計(jì)基于膠囊的生成式對抗網(wǎng)絡(luò).Zhao等[19]將膠囊網(wǎng)絡(luò)應(yīng)用到文本領(lǐng)域.Nguyen等[20]將膠囊網(wǎng)絡(luò)應(yīng)用于數(shù)字媒體取證.這些研究驗(yàn)證膠囊網(wǎng)絡(luò)在多個(gè)領(lǐng)域的有效性,但目前大多數(shù)基于膠囊網(wǎng)絡(luò)的矢量型研究仍局限于二維圖像處理領(lǐng)域.這是因?yàn)槿S模型數(shù)據(jù)的結(jié)構(gòu)更復(fù)雜、無規(guī)則,卷積操作難以通用,這使提取數(shù)據(jù)特征更困難.
三維網(wǎng)格(Mesh)數(shù)據(jù)是三維目標(biāo)中最復(fù)雜的數(shù)據(jù),但作為點(diǎn)、面、邊的集合,通過三角面片進(jìn)行拓?fù)浣M合,能準(zhǔn)確表達(dá)點(diǎn)的鄰域信息,具有表達(dá)物體復(fù)雜表面的天然優(yōu)勢[21].不同于二維數(shù)據(jù),如何獲取三維目標(biāo)的矢量型特征,并進(jìn)一步設(shè)計(jì)能在三維領(lǐng)域使用的矢量型網(wǎng)絡(luò),成為目前的研究熱點(diǎn).
此外,雖然動(dòng)態(tài)路由能較好地學(xué)習(xí)初級膠囊之間的全局關(guān)系,卻忽視局部特征和高于初級膠囊層次的信息的重要性,因此,需要設(shè)計(jì)一個(gè)改進(jìn)的結(jié)構(gòu),解決膠囊網(wǎng)絡(luò)的局限性問題[22].
因此,本文提出面向三維目標(biāo)的矢量型卷積網(wǎng)絡(luò),實(shí)現(xiàn)矢量型網(wǎng)絡(luò)在三維網(wǎng)格數(shù)據(jù)上的應(yīng)用.首先,使用曲面多項(xiàng)式擬合網(wǎng)格目標(biāo)的局部區(qū)域.然后,使用聚類算法得出曲面形狀卷積核,通過卷積核和目標(biāo)表面的相似度度量生成結(jié)構(gòu)感知的特征向量,局部區(qū)域的特征向量通過多頭自注意力機(jī)制模塊組成目標(biāo)部件.最后,使用三維矢量型網(wǎng)絡(luò)實(shí)現(xiàn)目標(biāo)分類.本文網(wǎng)絡(luò)在SHREC10、SHREC11、SHREC15數(shù)據(jù)集上均取得較高的分類精度.此外,多分辨率目標(biāo)對比實(shí)驗(yàn)和多采樣點(diǎn)數(shù)量對比實(shí)驗(yàn)表明本文網(wǎng)絡(luò)具有較強(qiáng)的泛化性和魯棒性.
網(wǎng)絡(luò)
本文從學(xué)習(xí)局部特征到整體目標(biāo)關(guān)系的角度出發(fā),提出面向三維目標(biāo)的矢量型卷積網(wǎng)絡(luò),具體網(wǎng)絡(luò)框架如圖1所示.網(wǎng)絡(luò)可分成3部分:三維網(wǎng)格卷積特征提取模塊、多頭自注意力特征整合模塊、矢量型分類網(wǎng)絡(luò).受到二維圖像處理中卷積的啟發(fā),三維網(wǎng)格卷積特征模塊使用曲面多項(xiàng)式擬合網(wǎng)格目標(biāo)的局部區(qū)域,通過聚類生成曲面形狀卷積核,得到高層語義信息特征.多頭自注意力特征整合模塊學(xué)習(xí)局部區(qū)域特征到目標(biāo)部件特征的組合關(guān)系,實(shí)現(xiàn)從局部特征到高級特征的轉(zhuǎn)化.矢量型分類網(wǎng)絡(luò)根據(jù)動(dòng)態(tài)路由特點(diǎn)保留相對空間信息,學(xué)習(xí)部件特征和目標(biāo)整體的構(gòu)成關(guān)系,最終獲取目標(biāo)的整體特征.
圖1 三維目標(biāo)的矢量型卷積網(wǎng)絡(luò)框圖Fig.1 Framework of 3D object vector convolutional network
相比點(diǎn)云目標(biāo)和體素目標(biāo),三維網(wǎng)格(Mesh)目標(biāo)表現(xiàn)形式更復(fù)雜,除了簡單的三維坐標(biāo)信息以外,增加頂點(diǎn)間的關(guān)聯(lián)信息.常規(guī)的三維卷積特征提取方法無法直接用于不規(guī)則的網(wǎng)格目標(biāo),因此本文提出新的特征提取方法,參照二維數(shù)據(jù)構(gòu)造卷積模板,進(jìn)行特征提取.具體做法如下:先使用曲面多項(xiàng)式擬合網(wǎng)格目標(biāo)的局部區(qū)域,在多項(xiàng)式整合后使用譜聚類生成K種曲面形狀卷積核(卷積模板);再使用原始目標(biāo)的局部區(qū)域和卷積核進(jìn)行相似度度量,每個(gè)目標(biāo)點(diǎn)都會(huì)得到K維的高層特征.三維網(wǎng)格卷積特征提取過程如圖2所示.
圖2 三維網(wǎng)格卷積特征提取過程Fig.2 Feature extraction process of 3D mesh convolution
1.1.1 網(wǎng)格目標(biāo)局部區(qū)域表示
給定一個(gè)網(wǎng)格目標(biāo)Mesh,可看成點(diǎn)集V和邊集E的集合.局部區(qū)域定義為:從點(diǎn)集V中的任一點(diǎn)出發(fā),進(jìn)行廣度優(yōu)先搜索,獲取M-1個(gè)鄰域點(diǎn)后,該M個(gè)點(diǎn)組成的點(diǎn)集Vl加上邊兩端頂點(diǎn)都在Vl內(nèi)的邊組成的邊集El,即為局部區(qū)域S.
為了防止目標(biāo)旋轉(zhuǎn)和絕對坐標(biāo)對局部區(qū)域造成影響,需建立相對坐標(biāo)系,將局部區(qū)域歸一化.以出發(fā)點(diǎn)Vi為坐標(biāo)軸原點(diǎn),以局部區(qū)域所有頂點(diǎn)平均法向量的方向?yàn)閦軸,將所有頂點(diǎn)投射到XOY平面上,選取距離原點(diǎn)最遠(yuǎn)的點(diǎn)Vt并連接原點(diǎn),以Vi至Vt方向?yàn)閤軸,根據(jù)現(xiàn)有坐標(biāo)增加y軸,相對坐標(biāo)系建立完成.歸一化后采用高階多項(xiàng)式
F(vc,θ)=0
描述局部區(qū)域,其中,vc為局部區(qū)域內(nèi)頂點(diǎn)信息,θ為高階多項(xiàng)式參數(shù).單純使用頂點(diǎn)坐標(biāo)信息(X,Y,Z)無法充分利用網(wǎng)格目標(biāo)的信息,在實(shí)驗(yàn)中發(fā)現(xiàn)增加頂點(diǎn)到局部坐標(biāo)系原點(diǎn)的最短距離屬性D可有效攜帶網(wǎng)格目標(biāo)的語義信息,使形狀相似的局部區(qū)域之間的區(qū)分度更高.因此,定義vc=(X,Y,Z,D),最終得到的高階多項(xiàng)式:
F(vc,θ)=θ0+θ1X+θ2Y+θ3D+θ4X2+θ5Y2+θ6D2+θ7XY+θ8XD+θ9YD-Z,
(1)
采用最小二乘法求解多項(xiàng)式參數(shù)
θ=(θ0,θ1,…,θ9).
1.1.2 局部區(qū)域相似度度量
兩個(gè)局部區(qū)域的相似性很難使用高階多項(xiàng)式衡量,每個(gè)高階多項(xiàng)式系數(shù)對局部區(qū)域整體構(gòu)造的影響程度不同.最直觀的相似度度量是直接計(jì)算兩個(gè)曲面的平均距離,本文結(jié)合式(1),給出起始局部區(qū)域Sf到目標(biāo)局部區(qū)域St的度量公式:
其中,θt為目標(biāo)局部區(qū)域St對應(yīng)的多項(xiàng)式參數(shù),vc為起始局部區(qū)域Sf中的頂點(diǎn)屬性.因每個(gè)局部區(qū)域頂點(diǎn)數(shù)相同,所以略去平均過程.單向度量公式只能衡量單向誤差,進(jìn)一步給出2個(gè)局部區(qū)域之間的度量公式:
(2)
1.1.3 三維網(wǎng)格卷積
在二維圖像處理領(lǐng)域,卷積核(卷積模板)被定義為小尺度二維圖像,在原圖像上規(guī)律滑動(dòng),得到高維特征圖.本文參照這一過程,以典型的局部區(qū)域形狀為卷積核,與目標(biāo)內(nèi)每個(gè)頂點(diǎn)為中心的局部區(qū)域進(jìn)行對比,計(jì)算每個(gè)局部區(qū)域卷積核的相似度差異大小,即局部區(qū)域?qū)儆谠摼矸e核的概率,并將其對應(yīng)二維圖像中的卷積操作.
假設(shè)在當(dāng)前三維目標(biāo)數(shù)據(jù)集上存在K類曲面形狀卷積核,對應(yīng)K個(gè)典型局部區(qū)域形狀.本文采用譜聚類算法對數(shù)據(jù)樣本進(jìn)行無監(jiān)督學(xué)習(xí),獲得K類曲面形狀卷積核的多項(xiàng)式表達(dá).
給定一類曲面形狀集合,可用高階多項(xiàng)式Fk(vc,θk),k∈{1,2,…,K}表示,假設(shè)該類曲面形狀在網(wǎng)格數(shù)據(jù)目標(biāo)數(shù)據(jù)集服從高斯分布,分布方差為σk,那么當(dāng)前的局部區(qū)域SX屬于該類曲面形狀集合的概率為:
化簡為
可以看出,這里的表現(xiàn)形式和二維圖像中的卷積操作
H*=WH+b
相似,將其一一對應(yīng),可轉(zhuǎn)化為
其中,H對應(yīng)局部區(qū)域內(nèi)所有頂點(diǎn)的屬性,W對應(yīng)曲面形狀卷積核的高階多項(xiàng)式和其分布方差的組合,b對應(yīng)曲面形狀卷積核分布方差和常數(shù)的組合,θk、σk為曲面形狀卷積核的相關(guān)參數(shù),在選取曲面形狀卷積核時(shí)得到.
1.1.4 卷積模板選取
根據(jù)1.1.3節(jié)定義的網(wǎng)格卷積,介紹卷積模板的選取.與二維圖像處理領(lǐng)域的卷積模板不同,為了保證所有的卷積模板都是高效的,本文的卷積模板是由現(xiàn)有目標(biāo)中提取的局部區(qū)域聚類得到.
其中nk為局部區(qū)域集合Sk中局部區(qū)域的數(shù)量.
在1.1節(jié)得到目標(biāo)上每點(diǎn)的K維特征,直觀上可看成是以當(dāng)前點(diǎn)為中心生成的局部區(qū)域分別與K種曲面形狀卷積核的擬合情況,即使用K種已有的曲面形狀卷積核,通過對應(yīng)的權(quán)值組合,得到當(dāng)前點(diǎn)生成的局部區(qū)域.
但是,僅依靠局部區(qū)域很難高效區(qū)分目標(biāo),現(xiàn)實(shí)世界區(qū)分物體更傾向于部件而不是紋理和細(xì)節(jié).直接依據(jù)局部區(qū)域或直接聚集所有局部區(qū)域細(xì)節(jié)都無法提取高區(qū)分度的部位特征(如人手、魚尾等),需要引入新的結(jié)構(gòu),實(shí)現(xiàn)局部區(qū)域到更大范圍的特征聚集,得到部件層次特征.
針對此問題,本文提出基于多頭自注意力機(jī)制的轉(zhuǎn)化組件,實(shí)現(xiàn)局部區(qū)域到目標(biāo)部件的特征整合.
1.2.1 網(wǎng)絡(luò)性能影響因素
直接使用局部區(qū)域?qū)哟翁卣鳛榉诸愐罁?jù)會(huì)存在如下問題.
1)冗余曲面形狀卷積核信息干擾.每個(gè)局部區(qū)域包含若干個(gè)曲面形狀卷積核信息,但在網(wǎng)絡(luò)使用當(dāng)前局部區(qū)域信息時(shí),不是所有的曲面形狀卷積核信息都有正作用,冗余的信息會(huì)導(dǎo)致網(wǎng)絡(luò)性能下降.
2)局部區(qū)域語義信息不足.雖然局部區(qū)域可有效描述網(wǎng)格目標(biāo)的構(gòu)成比例,但在目標(biāo)整體構(gòu)成相似的情況下,會(huì)忽略明顯不同的特征.然而,這兩種目標(biāo)的局部區(qū)域組成相似度非常高,只要局部區(qū)域有差異,就會(huì)產(chǎn)生將兩種目標(biāo)數(shù)據(jù)歸為一類的情況.
1.2.2 多頭自注意力模塊結(jié)構(gòu)
想要實(shí)現(xiàn)局部區(qū)域到目標(biāo)部件的特征整合,顯然不能完全依賴目標(biāo)部件中局部區(qū)域簡單的權(quán)值計(jì)算,應(yīng)當(dāng)給予關(guān)鍵局部區(qū)域更多的關(guān)注.此外,復(fù)雜的幾何輪廓需要長距離依賴(Long-Range Depen-
dencies),而卷積的特點(diǎn)就是局部性,受到感受野大小的限制很難提取目標(biāo)中這些長距離依賴.雖然可通過加深網(wǎng)絡(luò)或擴(kuò)大卷積核的尺寸在一定程度上解決該問題,但這會(huì)使卷積網(wǎng)絡(luò)喪失其參數(shù)和計(jì)算的效率優(yōu)勢.本文使用自注意力機(jī)制[23]實(shí)現(xiàn)局部區(qū)域重要程度的自適應(yīng)調(diào)整,并進(jìn)一步得到距離更遠(yuǎn)的特征,解決冗余曲面形狀卷積核信息干擾和局部區(qū)域語義信息不足的問題.
多頭自注意力模塊結(jié)構(gòu)如圖3所示.
圖3 多頭自注意力模塊結(jié)構(gòu)圖Fig.3 Structure of multi-headed self-attention module
特征圖為局部區(qū)域?qū)哟翁崛〉奶卣?f(x)=Wf·x和g(x)=Wgx用于計(jì)算對應(yīng)局部區(qū)域特征的注意力,其中Wf和Wg為學(xué)習(xí)的權(quán)重矩陣.自注意力矩陣經(jīng)過f(x)和g(x)進(jìn)行矩陣乘法之后,再通過Sigmoid函數(shù),得
其中,i=1,2,…,d,j=1,2,…,d,d為特征維度.自注意力特征圖如下所示:
h(xi)=Whxi,v(xi)=Wvxi,
輸出的自注意力特征圖O=(o1,o2,…,od)為自注意力層的輸出.
最終該模塊輸出如下:
yi=γoi+xi
.
本文遵循自注意力機(jī)制的相關(guān)工作,將其中的γ初始化為0[24].這樣做模塊一開始可充分利用當(dāng)前局部區(qū)域信息,并且通過對參數(shù)γ的學(xué)習(xí),逐漸將權(quán)重分給關(guān)鍵局部區(qū)域特征.
通過自注意力模塊,能避免冗余的曲面形狀卷積核信息干擾,實(shí)現(xiàn)比局部區(qū)域更遠(yuǎn)范圍的特征聚集,讓網(wǎng)絡(luò)自適應(yīng)學(xué)習(xí),構(gòu)建由局部區(qū)域特征組合而成的部件層次特征,達(dá)到更好的分類效果.此外,現(xiàn)在的自注意力機(jī)制多是直接作用于輸入,輸入層的冗余和干擾較多、規(guī)模較大導(dǎo)致效率較低,也使在網(wǎng)絡(luò)訓(xùn)練時(shí)需要更多的數(shù)據(jù)量和更久的時(shí)間.本文將自注意力機(jī)制運(yùn)用于特征層,規(guī)模較小但效率較高.
部件層次特征加上后續(xù)矢量型分類網(wǎng)絡(luò)保證的相對空間位置關(guān)系已可精確表達(dá)三維模型,能否選取合適的部件層次特征成為影響模型精度的關(guān)鍵因素.多頭結(jié)構(gòu)在自然語言處理和計(jì)算機(jī)視覺中均表現(xiàn)優(yōu)異[25],僅靠單一部件生成方式不能較好地體現(xiàn)多種目標(biāo)相互間的相似度與差別大小.本文引入多頭機(jī)制,對局部區(qū)域到目標(biāo)部件的特征整合進(jìn)行擴(kuò)展,同時(shí)生成目標(biāo)的多個(gè)不同部件,增加特征廣度,進(jìn)一步增加網(wǎng)絡(luò)的穩(wěn)定性.
基于膠囊網(wǎng)絡(luò),本文構(gòu)建矢量型分類網(wǎng)絡(luò),以生成的部件作為初始膠囊的構(gòu)成部分.為了使網(wǎng)絡(luò)多元化,基于原始膠囊網(wǎng)絡(luò)的建議[15]構(gòu)造多個(gè)網(wǎng)絡(luò)分支,形成多個(gè)部件,不同部件集合不同局部區(qū)域的組合方式,提高分類網(wǎng)絡(luò)的泛化能力.
不同于CNN,膠囊網(wǎng)絡(luò)的輸入輸出都是向量,中間的權(quán)值不是簡單的標(biāo)量權(quán)重,而是矩陣形式,可看作是空間中位置關(guān)系的變化系數(shù),可學(xué)習(xí)部件到整體目標(biāo)之間的空間位置信息,契合本文提取的高層特征.
1.3.1 膠囊網(wǎng)絡(luò)流程
膠囊網(wǎng)絡(luò)的流程如圖4所示,可概括為如下步驟.
1)將初始向量ui和矩陣Wij相乘,得到新輸出向量uj|i.
2)將輸入向量uj|i乘以標(biāo)量權(quán)重cij,cij由動(dòng)態(tài)路由決定.
3)對所有的cijuj|i求和,得到向量sj.
4)使用壓縮激活函數(shù)Squash,將sj轉(zhuǎn)化為vj.
圖4 膠囊網(wǎng)絡(luò)流程圖Fig.4 Flow chart of capsule network
1.3.2 壓縮激活函數(shù)
膠囊網(wǎng)絡(luò)采用壓縮激活函數(shù)Squash,即
其中v、s為壓縮激活函數(shù)前后的特征向量.該函數(shù)的作用是在保持向量方向不變的情況下,將輸出向量的模長壓縮到0~1之間.前半部分得到0~1之間的常數(shù),輸入向量s的模長越大,值越接近1,否則接近0.后半部分得到單位長度的方向向量.
1.3.3 動(dòng)態(tài)路由算法
動(dòng)態(tài)路由算法的核心思想是增加與輸出向量相似度較高的輸入向量的權(quán)值,也可看作聚類過程,相似特征越多,該類特征就越強(qiáng),以此進(jìn)行特征選擇.具體算法步驟如下.
算法 1動(dòng)態(tài)路由算法
輸入輸入向量uj|i,迭代次數(shù)r
輸出輸出向量vj
INITIALIZEbij←0
FORriterations DO
FOR all capsulei:ci←softmax(bi)
FOR all capsulej:vj←squash(sj)
FOR all capsule:bij←(bij+uj|i·vj)
RETURNvj
在算法1中,i表示輸入層,j表示輸出層.
1.3.4 膠囊網(wǎng)絡(luò)損失
膠囊網(wǎng)絡(luò)會(huì)輸出目標(biāo)類別數(shù)個(gè)膠囊作為最終結(jié)果, 每個(gè)膠囊里的向量范數(shù)表示目標(biāo)屬于對應(yīng)類別的可能性,范數(shù)越大,可能性越大,每個(gè)目標(biāo)對應(yīng)的輸出長度為目標(biāo)總類別數(shù)的向量.損失通過2個(gè)向量反傳:1)目標(biāo)所屬類別的one-hot編碼;2)長度相同的網(wǎng)絡(luò)輸出結(jié)果,每維對應(yīng)目標(biāo)屬于該類別概率.膠囊網(wǎng)絡(luò)使用分離邊界損失函數(shù):
Lk=Tkmax(0,m+-‖vk‖)2+λ(1-Tk)max(0,‖vk‖-m-)2.
其中:‖vk‖為輸出結(jié)果第k維對應(yīng)數(shù)值;Tk當(dāng)且僅當(dāng)one-hot編碼1所在維度為k時(shí)為1,其余情況等于0;λ為權(quán)值參數(shù);m+、m-為損失給定的上下界.
為了有效評判本文網(wǎng)絡(luò)的泛化能力和魯棒性,采用三維非剛性數(shù)據(jù)集SHREC10、SHREC11、SHREC15作為對比數(shù)據(jù)集.SHEREC10數(shù)據(jù)集包含10類,每類20個(gè),共200個(gè)三維目標(biāo)數(shù)據(jù),每個(gè)目標(biāo)平均含頂點(diǎn)數(shù)約為1 000個(gè).SHEREC11數(shù)據(jù)集包含30類,每類20個(gè),共600個(gè)三維目標(biāo)數(shù)據(jù).SHREC15數(shù)據(jù)集包含50類,每類24個(gè),共1 200個(gè)三維目標(biāo)數(shù)據(jù),每個(gè)目標(biāo)平均包含頂點(diǎn)數(shù)約為10 000個(gè).三維非剛性目標(biāo)的特點(diǎn)是復(fù)雜的形變,因此處理難度高于普通三維目標(biāo).
實(shí)驗(yàn)中如無特別指出,默認(rèn)以數(shù)據(jù)集上80%的數(shù)據(jù)作為訓(xùn)練集,其余20%的數(shù)據(jù)作為測試集.SHREC15數(shù)據(jù)集的局部區(qū)域類別數(shù)為45,每個(gè)局部區(qū)域含有的頂點(diǎn)數(shù)為128,對每個(gè)目標(biāo)數(shù)據(jù)隨機(jī)采取10組進(jìn)行數(shù)據(jù)擴(kuò)充,每組700個(gè)點(diǎn),得到低級特征作為后續(xù)網(wǎng)絡(luò)的輸入.經(jīng)過多頭自注意力特征整合模塊后為16×700×1 024,通過1×1卷積后為16×1 024,以此作為初級膠囊,其中,1 024為膠囊數(shù)量,16為膠囊維度.經(jīng)過3次動(dòng)態(tài)路由算法,得到50×32的最終膠囊.故最終得到50維的分類結(jié)果.
為了驗(yàn)證本文網(wǎng)絡(luò)的高效性,選擇如下基于深度學(xué)習(xí)的方法.1)手工提取的低層特征參與的方法:GA-BoF(Geodesics-Aware Bag-of-Features)[26]、SA-BoF(Shape-Aware Bag-of-Features)[27]、SGWC(Spectral Graph Wavelet Codes)-BoF(Bag-of-Fea-tures)[28]、DeepShape(Deep Learned Shape Descriptor for 3D Shape Matching and Retrieval)[29]、DeepGM(Deep Geodesic Moment)[30]、結(jié)構(gòu)感知深度學(xué)習(xí)的三維形狀分類方法(簡記為文獻(xiàn)[31]方法)[31].2)基于多視圖的深度學(xué)習(xí)方法:MVCNN(Multi-view CNN)[32].3)原始數(shù)據(jù)為點(diǎn)云的深度學(xué)習(xí)方法:PointNet++[33]、SpiderCNN[34].4)直接對網(wǎng)格數(shù)據(jù)進(jìn)行處理的深度學(xué)習(xí)方法:FeaStNet[35]、PFCNN(CNN on 3D Surfaces Using Parallel Frames)[36].
實(shí)驗(yàn)中使用AP(Average Precision)和mAP(mean AP)作為評價(jià)指標(biāo).
各方法的分類性能如表1所示.由表可知,GA-BoF基于熱核提取局部的底層特征,再通過測地線核函數(shù)提取目標(biāo)整體特征,將所得結(jié)果輸入深度信念網(wǎng)絡(luò).SA-BoF、SGWC-BoF采用譜圖小波作為底層特征.SA-BoF使用自編碼器.SGWC-BoF使用多類支持向量機(jī).DeepShape以熱核特征描述符提取特征,采用多對一編碼的神經(jīng)網(wǎng)絡(luò)作為分類網(wǎng)絡(luò).實(shí)驗(yàn)結(jié)果都表明手動(dòng)提取底層特征結(jié)合深度學(xué)習(xí)方法在三維目標(biāo)特征提取與分析上的有效性,但導(dǎo)致它們效果低于其它方法的主要原因是后接的深度學(xué)習(xí)網(wǎng)絡(luò)較老舊.DeepGM將基于測地線距離的底層特征放入自編碼器分類.雖然網(wǎng)絡(luò)結(jié)構(gòu)不是最新,但由于深度網(wǎng)絡(luò)對幾何特征更敏感,因此分類效果略優(yōu)于上述方法.
MVCNN是經(jīng)典的多視圖方法,投影多角度的三維目標(biāo)樣本,再以圖像形式并行輸入CNN,得益于投影對目標(biāo)的全覆蓋和CNN對圖像的高性能處理,效果優(yōu)于早期的基于低層次特征的深度學(xué)習(xí)方法,但由于轉(zhuǎn)換過程中不同視圖只能獲取當(dāng)前視圖特征,對目標(biāo)整體和不同視圖間的相互聯(lián)系把握不足,性能仍有提升空間.文獻(xiàn)[31]方法結(jié)合低層次特征提取和多視圖,先提取多尺度熱核特征,再提取多視圖的空間特征,結(jié)合后對三維目標(biāo)進(jìn)行分類.對比兩種方法的分類性能可看出,低層次特征對于三維目標(biāo)分類具有額外的指導(dǎo)作用.
PointNet++和SpiderCNN是針對點(diǎn)云數(shù)據(jù)的深度學(xué)習(xí)方法,兩種方法根據(jù)點(diǎn)云數(shù)據(jù)特點(diǎn)構(gòu)建深度學(xué)習(xí)網(wǎng)絡(luò),在剛性數(shù)據(jù)集上表現(xiàn)較優(yōu),但在非剛性數(shù)據(jù)集上,效果略差于MVCNN.主要原因是點(diǎn)云數(shù)據(jù)無法完全表達(dá)非剛性目標(biāo)之間的相似性,僅靠數(shù)據(jù)的空間位置和網(wǎng)絡(luò)參數(shù)無法完成差異度較小的非剛性目標(biāo)分類.
FeaStNet和PFCNN都是直接針對網(wǎng)格數(shù)據(jù)的深度學(xué)習(xí)方法.FeaStNet在局部區(qū)域使用動(dòng)態(tài)圖卷積算子提取特征,PFCNN使用平行標(biāo)架場(Parallel Frames)構(gòu)造局部的平直聯(lián)絡(luò)(Locally Flat Con-nection)和歐氏平移結(jié)構(gòu).網(wǎng)格數(shù)據(jù)攜帶信息豐富,端到端的網(wǎng)絡(luò)結(jié)構(gòu)不會(huì)有信息丟失,因此能在三維數(shù)據(jù)目標(biāo)上表現(xiàn)較優(yōu).然而,本文網(wǎng)絡(luò)依然優(yōu)于FeaStNet和PFCNN,說明本文網(wǎng)絡(luò)在非剛性數(shù)據(jù)集上的性能遠(yuǎn)高于對比方法.
表1 各方法在3個(gè)數(shù)據(jù)集上的分類性能對比
為了驗(yàn)證本文網(wǎng)絡(luò)為多部分相互協(xié)作,在識別目標(biāo)局部特征和內(nèi)部相對空間關(guān)系上起到良好作用,而不是單獨(dú)部分功能過于強(qiáng)大,本節(jié)給出詳細(xì)的消融實(shí)驗(yàn).
2.3.1 特征提取有效性
為了說明本文提取的低層特征給予后續(xù)網(wǎng)絡(luò)指導(dǎo)作用,而不是網(wǎng)絡(luò)本身的性能強(qiáng)大,采用3種不同的輸入進(jìn)行驗(yàn)證:1)坐標(biāo)點(diǎn)信息.直接針對對應(yīng)目標(biāo)數(shù)據(jù)采樣相同點(diǎn)數(shù),每點(diǎn)的攜帶信息即為頂點(diǎn)對應(yīng)三維坐標(biāo)信息.2)多項(xiàng)式參數(shù),即在采樣點(diǎn)生成的局部區(qū)域函數(shù)化后,對應(yīng)函數(shù)的多項(xiàng)式參數(shù).3)相似度.采樣點(diǎn)生成的局部區(qū)域和曲面形狀卷積核之間的相似度,即本文提出的三維網(wǎng)格聚集特征提取的結(jié)果.
不同輸入數(shù)據(jù)的分類準(zhǔn)確率對比如表2所示.由表可看出,以多項(xiàng)式參數(shù)為輸入的網(wǎng)絡(luò)結(jié)果優(yōu)于以坐標(biāo)點(diǎn)信息為輸入的結(jié)果.這是因?yàn)槎囗?xiàng)式參數(shù)輸入實(shí)質(zhì)上是一小塊局部區(qū)域的提取特征,而坐標(biāo)點(diǎn)信息只考慮當(dāng)前節(jié)點(diǎn)坐標(biāo)點(diǎn)信息,未完全考慮局部關(guān)系,實(shí)際上可看作點(diǎn)云網(wǎng)絡(luò).點(diǎn)云網(wǎng)絡(luò)性能可隨著非剛性目標(biāo)的點(diǎn)云密度逐漸增強(qiáng),因?yàn)槊芗狞c(diǎn)云也可捕獲非剛性變化.例如,SHREC15數(shù)據(jù)集就可捕獲一部分,但SHREC10數(shù)據(jù)集因?yàn)槠骄旤c(diǎn)數(shù)只有1 000左右,效果很差.而本文采用的相似度輸入提取的特征效果優(yōu)于利用多項(xiàng)式參數(shù)的效果.
表2 不同輸入數(shù)據(jù)的分類準(zhǔn)確率對比
2.3.2 特征整合模塊的必要性
為了驗(yàn)證本文的多頭自注意力特征整合模塊學(xué)到局部區(qū)域和目標(biāo)部件關(guān)系的有效性,對兩種數(shù)據(jù)集進(jìn)行有/無多頭自注意力特征整合部分的對比實(shí)驗(yàn),分類準(zhǔn)確率如表3所示,表中的不存在對應(yīng)直接以輸入數(shù)據(jù)構(gòu)建初級膠囊的網(wǎng)絡(luò)結(jié)構(gòu).
表3 多頭自注意力特征整合模塊的有效性對比
由表3可看出,多頭自注意力特征整合模塊在整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)中起到至關(guān)重要的作用,該部分缺失會(huì)直接導(dǎo)致網(wǎng)絡(luò)無法起到識別作用.因?yàn)镾HREC15數(shù)據(jù)集的數(shù)據(jù)比SHREC10數(shù)據(jù)集更復(fù)雜,需要學(xué)習(xí)的局部區(qū)域到目標(biāo)部件關(guān)系的參數(shù)也更多,起到的作用也更大.因此缺失多頭自注意力特征整合部分對SHREC15數(shù)據(jù)集的影響大于SHREC10數(shù)據(jù)集.
2.3.3 分類網(wǎng)絡(luò)優(yōu)越性
為了說明本文網(wǎng)絡(luò)是特征提取部分和分類網(wǎng)絡(luò)的互補(bǔ)組合,而不是完全依賴表征提取的高效性,本文在使用同樣輸入特征的情況下,采用不同網(wǎng)絡(luò)對數(shù)據(jù)集進(jìn)行分類,分類準(zhǔn)確率如表4所示.由表可看出,當(dāng)本文網(wǎng)絡(luò)提取的特征用于其它分類網(wǎng)絡(luò)時(shí),能提升識別精度,但幅度有限,相比本文的分類網(wǎng)絡(luò),表現(xiàn)并不突出,在PointNet++上的結(jié)果甚至低于對應(yīng)論文的結(jié)果.其原因在于原文獻(xiàn)中該網(wǎng)絡(luò)輸入不是基礎(chǔ)的三維坐標(biāo)信息,而是先用測地距離提取的高階特征,再使用傳統(tǒng)特征提取方式進(jìn)一步得到富含目標(biāo)內(nèi)部結(jié)構(gòu)信息的特征.可看出特征提取部分雖然能有效聚集局部區(qū)域特征,但優(yōu)勢并不明顯.結(jié)合2.3.1節(jié)可證實(shí),本文網(wǎng)絡(luò)是特征提取部分和分類網(wǎng)絡(luò)兩部分相互作用的結(jié)果,這也表明從區(qū)域到部件再到整體的算法思路切實(shí)可行.
表4 相同輸入特征在不同網(wǎng)絡(luò)中的效果對比
2.3.4 頂點(diǎn)攜帶信息的優(yōu)異性
為了說明頂點(diǎn)到局部坐標(biāo)原點(diǎn)的最短距離D能有效攜帶語義信息,本文對多種包含信息不同的輸入數(shù)據(jù)進(jìn)行對比,分類準(zhǔn)確率如表5所示.
表5 包含不同信息輸入數(shù)據(jù)的對比結(jié)果
由表5可看出,單純使用相對三維空間坐標(biāo)和頂點(diǎn)到局部坐標(biāo)原點(diǎn)的最短距離D時(shí)分類效果不佳,主要原因是對形變目標(biāo)進(jìn)行分析時(shí),相對三維空間坐標(biāo)雖然可作為主要分類憑據(jù),但當(dāng)形變明顯時(shí),類測地距離可使同類目標(biāo)聯(lián)系緊密.例如,對于一個(gè)握緊的手和一個(gè)分開的手,可通過相對空間坐標(biāo)劃分手掌和手指的部分,手掌和手指的局部數(shù)據(jù)點(diǎn)都是相對固定的.然而,手掌到手指的相對距離發(fā)生改變,這會(huì)對識別結(jié)果造成影響.本文引入類測地距離,抓住手指沿皮膚到手掌的距離不變性,拉近兩種目標(biāo)聯(lián)系,優(yōu)化識別結(jié)果.
為了測試本文網(wǎng)絡(luò)對目標(biāo)的泛化性和通用性,下面在不同訓(xùn)練集樣本比例和不同分辨率數(shù)據(jù)下進(jìn)行詳細(xì)的對比實(shí)驗(yàn).
2.4.1 不同訓(xùn)練集樣本比例
通用性算法應(yīng)當(dāng)具有較強(qiáng)的泛化能力,是否能在訓(xùn)練數(shù)據(jù)足夠少的情況下,目標(biāo)識別仍具有高精度是重要的泛化性評價(jià)標(biāo)準(zhǔn).本文針對SHREC10、SHREC15數(shù)據(jù)集,調(diào)整訓(xùn)練集大小,進(jìn)行對比實(shí)驗(yàn),分類準(zhǔn)確率如表6所示.由表可看出,本文網(wǎng)絡(luò)具有極強(qiáng)的泛化能力.在SHREC15數(shù)據(jù)集上只需使用20%的訓(xùn)練數(shù)據(jù),就可達(dá)到98.42%的分類準(zhǔn)確率.在SHREC10數(shù)據(jù)集上只需使用40%的訓(xùn)練數(shù)據(jù)就能達(dá)到正常訓(xùn)練的分類準(zhǔn)確率.隨著訓(xùn)練數(shù)據(jù)的減少,SHREC10數(shù)據(jù)集受到的影響大于SHREC15數(shù)據(jù)集,并不是因?yàn)榫W(wǎng)絡(luò)在SHREC10數(shù)據(jù)集上需要更多的參數(shù),而是因?yàn)镾HREC10數(shù)據(jù)集數(shù)據(jù)量太少,40%的數(shù)據(jù)量只有80個(gè)目標(biāo),很難使網(wǎng)絡(luò)擬合.
表6 訓(xùn)練集占比不同時(shí)本文網(wǎng)絡(luò)的分類準(zhǔn)確率對比
訓(xùn)練集占比不同時(shí),本文網(wǎng)絡(luò)的分類準(zhǔn)確率隨迭代次數(shù)的變化情況如圖5所示.(a)為本文網(wǎng)絡(luò)在SHREC10數(shù)據(jù)集上的擬合情況,當(dāng)選取70%的訓(xùn)練數(shù)據(jù)時(shí),在15次迭代后網(wǎng)絡(luò)就基本穩(wěn)定,而選取10%的訓(xùn)練數(shù)據(jù)時(shí),在28次迭代后網(wǎng)絡(luò)還未完全穩(wěn)定.(b)為本文網(wǎng)絡(luò)在SHREC15數(shù)據(jù)集上的擬合情況,當(dāng)選取30%的訓(xùn)練數(shù)據(jù)時(shí),曲線走向已趨近正常訓(xùn)練,故無需給出更高比例測試集占比訓(xùn)練結(jié)果.在同等訓(xùn)練集比例的情況下,SHREC15數(shù)據(jù)集上的網(wǎng)絡(luò)穩(wěn)定速度要明顯快于SHREC10數(shù)據(jù)集上.這是因?yàn)閿?shù)據(jù)集本身限制網(wǎng)絡(luò)性能,在更大型的數(shù)據(jù)集上,使用同等比例的數(shù)據(jù)集進(jìn)行訓(xùn)練,效果應(yīng)更優(yōu).
(a)SHREC10
(b)SHREC15圖5 本文網(wǎng)絡(luò)在2個(gè)數(shù)據(jù)集上的擬合情況Fig.5 Convergence trend of the proposed network on 2 datasets
2.4.2 不同尺度數(shù)據(jù)
為了驗(yàn)證本文網(wǎng)絡(luò)在不同分辨率數(shù)據(jù)集上的通用性,使用QEM(Quadric Error Metrics)三維網(wǎng)絡(luò)簡化算法對SHREC15數(shù)據(jù)集進(jìn)行簡化,將原本平均目標(biāo)含頂點(diǎn)數(shù)約10 000個(gè)的數(shù)據(jù)集簡化到多個(gè)分辨率,再使用本文網(wǎng)絡(luò)對其進(jìn)行分類,參考參數(shù)如表7所示.
對于多分辨率的數(shù)據(jù),無論數(shù)據(jù)集平均目標(biāo)含頂點(diǎn)數(shù)多少,本文網(wǎng)絡(luò)都能達(dá)到99.9%的分類正確率,充分說明本文網(wǎng)絡(luò)的通用性和泛化性.值得注意的是,隨著數(shù)據(jù)集分辨率變動(dòng),對應(yīng)的局部區(qū)域采樣范圍和曲面形狀卷積核數(shù)量都應(yīng)適當(dāng)改變.然而這種改變并不意味需要長時(shí)間的調(diào)參,只要局部區(qū)域采樣范圍控制合理即可.以人體目標(biāo)為例,局部采樣范圍為手指、手掌,乃至手臂都是可以的,但不能太大采樣到半個(gè)身體或太小采樣到一小塊皮膚.
表7 SHREC15數(shù)據(jù)集的參考參數(shù)Table 7 Recommended parameters of SHREC15 dataset
2.4.3 遷移學(xué)習(xí)
考慮到泛化性能較強(qiáng)的網(wǎng)絡(luò)大多能基于網(wǎng)絡(luò)進(jìn)行遷移學(xué)習(xí),遵循基于網(wǎng)絡(luò)的深度遷移學(xué)習(xí)的相關(guān)標(biāo)準(zhǔn)[37],保持特征提取部分的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)不變,探究本文網(wǎng)絡(luò)在SHREC15、SHREC10數(shù)據(jù)集之間的遷移能力,結(jié)果如圖6所示.圖中,SHREC10表示基于SHREC15數(shù)據(jù)集進(jìn)行訓(xùn)練得到的網(wǎng)絡(luò)遷移到SHREC10數(shù)據(jù)集上得到的測試效果,SHREC15則恰好相反.
由圖6可看出,預(yù)訓(xùn)練的網(wǎng)絡(luò)在跨域訓(xùn)練時(shí),一開始就獲得更高的正確率且收斂速度更快,表示預(yù)先訓(xùn)練得到的特征提取器在不同數(shù)據(jù)集上同樣發(fā)揮效果.但在訓(xùn)練曲線穩(wěn)定后發(fā)現(xiàn)最終效果不如重新開始訓(xùn)練的結(jié)果,這是因?yàn)椴煌瑪?shù)據(jù)集之間的基礎(chǔ)特征提取側(cè)重點(diǎn)不同,在網(wǎng)絡(luò)提取部分參數(shù)不變的情況下,分類網(wǎng)絡(luò)缺失該數(shù)據(jù)集的特殊特征,導(dǎo)致網(wǎng)絡(luò)性能下降.
圖6 本文網(wǎng)絡(luò)的遷移學(xué)習(xí)性能Fig.6 Transfer learning performance of the proposed network
除了泛化性能以外,魯棒性是決定一種算法是否具有實(shí)用價(jià)值的重要評判標(biāo)準(zhǔn).在實(shí)際應(yīng)用場景中,精度可達(dá)到數(shù)據(jù)集標(biāo)準(zhǔn),但目標(biāo)完整度取決于采樣環(huán)境和采樣設(shè)備,相對來說更難保證.一種算法能否識別低完整度目標(biāo)是算法的重要評判標(biāo)準(zhǔn).本文在SHREC10、SHREC15數(shù)據(jù)集上以減少輸入數(shù)據(jù)采樣點(diǎn)的方式模擬識別低完整度目標(biāo),實(shí)際運(yùn)用到的目標(biāo)數(shù)據(jù)點(diǎn)數(shù)為采樣點(diǎn)數(shù)乘以局部區(qū)域含頂點(diǎn)數(shù),結(jié)果如圖7所示.
圖7 不同采樣點(diǎn)個(gè)數(shù)下的魯棒性實(shí)驗(yàn)結(jié)果Fig.7 Results of robustness experiments with different numbers of sampling points
SHREC10數(shù)據(jù)集上的局部區(qū)域含頂點(diǎn)數(shù)為32個(gè),SHREC15數(shù)據(jù)集上的局部區(qū)域含頂點(diǎn)數(shù)為128個(gè).當(dāng)SHREC10數(shù)據(jù)集上的分類采樣點(diǎn)個(gè)數(shù)為10個(gè)時(shí),最多利用目標(biāo)中320個(gè)頂點(diǎn),就可達(dá)到88.1%的分類準(zhǔn)確率.而且本文實(shí)驗(yàn)是隨機(jī)采樣,若采樣點(diǎn)距離過近,實(shí)際利用頂點(diǎn)數(shù)會(huì)遠(yuǎn)低于該數(shù)值.SHREC15數(shù)據(jù)集上分類采樣點(diǎn)數(shù)為10個(gè)時(shí),最多利用目標(biāo)中1 280個(gè)頂點(diǎn),只占目標(biāo)總頂點(diǎn)數(shù)的1/9,就可達(dá)到92.9%的分類準(zhǔn)確率.SHREC10數(shù)據(jù)集在同等采樣點(diǎn)數(shù)的情況下分類準(zhǔn)確率差于SHREC15數(shù)據(jù)集的原因是,SHREC10數(shù)據(jù)集上局部區(qū)域較相似且局部區(qū)域形狀平緩,在少量采樣點(diǎn)的情況下,區(qū)分度更小.上述實(shí)驗(yàn)表明,本文網(wǎng)絡(luò)對不同比例的采樣點(diǎn)輸入均有良好的分類性能和較強(qiáng)的魯棒性.
本文提出三維目標(biāo)的矢量型卷積網(wǎng)絡(luò),基于構(gòu)成目標(biāo)的局部區(qū)域形狀不同,聚類曲面形狀卷積核,構(gòu)建局部區(qū)域模板,通過和目標(biāo)表面局部區(qū)域相似度度量,獲取低層次目標(biāo)特征.使用基于多頭自注意力機(jī)制的轉(zhuǎn)化組件,實(shí)現(xiàn)局部區(qū)域到目標(biāo)部件的特征整合.再借鑒膠囊網(wǎng)絡(luò)構(gòu)建矢量型卷積網(wǎng)絡(luò),學(xué)習(xí)部件之間的相對空間位置和組合關(guān)系,完成對三維網(wǎng)格數(shù)據(jù)集的分類.本文網(wǎng)絡(luò)結(jié)合基于低層特征提取方法和基于深度網(wǎng)絡(luò)方法的優(yōu)點(diǎn),為三維目標(biāo)識別提供新思路.實(shí)驗(yàn)表明,本文網(wǎng)絡(luò)在SHREC10、SHREC11、SHREC15數(shù)據(jù)集上表現(xiàn)較優(yōu),并且具有良好的泛化性和魯棒性.本文網(wǎng)絡(luò)可有效識別三維網(wǎng)格目標(biāo),但由于三維目標(biāo)的結(jié)構(gòu)和表征更復(fù)雜,識別新的數(shù)據(jù)集需要重新進(jìn)行特征提取,才能達(dá)到最佳效果.因此,今后將針對提取更普適的特征設(shè)計(jì)有效的目標(biāo)函數(shù),優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),最終實(shí)現(xiàn)泛化性能更強(qiáng)的三維目標(biāo)識別網(wǎng)絡(luò).