鄭 陽,趙杰煜,2*,陳 瑜,唐 晨,俞書世
(1.寧波大學信息科學與工程學院,浙江 寧波 315211;2.浙江省移動網(wǎng)絡應用技術(shù)重點實驗室,浙江 寧波 315211)
卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)作為目前深度學習技術(shù)領(lǐng)域中非常具有代表性的神經(jīng)網(wǎng)絡之一,在圖像分類和語義分割等熱門任務上取得了眾多突破性的進展.而三維圖像數(shù)據(jù)相比于二維圖像包含的信息更為豐富,具有更好的光照不變性和姿態(tài)不變性,因此如何將深度學習應用到三維模型表示,已成為數(shù)字幾何領(lǐng)域的研究熱點[1].
目前三維模型識別方法的數(shù)據(jù)格式主要集中在體素表示、點云表示和三維網(wǎng)格表示.
對于點云表示,由于點云數(shù)據(jù)的無序性,通常的網(wǎng)絡框架不適合直接應用于點云數(shù)據(jù).Qi等[2]提出PointNet,通過一個對稱函數(shù)解決了該問題,但它忽略了點云的局部信息.Qi等[3]之后又提出了PointNet的改進版PointNet++,添加了與鄰居的聚合操作來解決此問題.由于點云數(shù)據(jù)結(jié)構(gòu)過于簡單,對于兩個緊湊的非連接局部表面無法單純通過歐氏距離進行判別,所以無法很好地表示復雜模型.
網(wǎng)格表示作為點、面、邊的集合,通過三角面片進行拓撲組合,數(shù)據(jù)較為復雜,但能夠準確表達點的鄰域信息,具有表達物體復雜表面的天然優(yōu)勢.由于普通的卷積操作無法直接應用于網(wǎng)格模型,近兩年為解決網(wǎng)格模型難以處理問題的深度學習方法逐漸增多.2019年Hanocka等[4]提出網(wǎng)格CNN(MeshCNN),以邊為中心定義卷積,將一條邊上的兩個三角形各自的二面角(此為2維特征向量)、內(nèi)角、三角形的高與底邊的比值作為5維特征向量,通過邊折疊進行池化,從而將卷積網(wǎng)絡應用到網(wǎng)格結(jié)構(gòu)上.2019年Feng等[5]提出網(wǎng)格網(wǎng)絡(MeshNet),將三角面片作為最小單元,提取其中心點坐標、法向量、鄰域多邊形索引等多種特征,設計CNN進行分類,在ModelNet40數(shù)據(jù)集中達到91.9%的識別率.2020年Yang等[6]提出基于網(wǎng)格的卷積框架PFCNN,通過使用多個方向的平行標架場編碼曲面上的平面連接來構(gòu)造一種新的平移結(jié)構(gòu),保證了卷積的平移共變性,在精細尺度特征學習方面比基于表面的CNN精度更高.2020年Wang等[7]提出首個通過風格轉(zhuǎn)換進行網(wǎng)格姿態(tài)轉(zhuǎn)換的方法,通過空間自適應實例歸一化(SPAdaIN)來模擬圖像像素和網(wǎng)格頂點,學習源網(wǎng)格中每個頂點的姿態(tài)特征并使用從目標網(wǎng)格頂點學習的仿射變換對其進行變換,從而有效地將源網(wǎng)格的姿態(tài)遷移到目標網(wǎng)格上.Qiao等[8]提出LaplacianNet,在拉普拉斯譜聚類的基礎(chǔ)上進行多尺度池化,在池化后使用網(wǎng)格池化塊來利用全局信息,并引入一個相關(guān)網(wǎng)絡來計算相關(guān)矩陣,該矩陣通過與聚類特征的矩陣相乘來聚合全局特征,在ShapeNet和COSEG數(shù)據(jù)集上取得較好的效果.Litany等[9]提出了一種基于學習的方法來完成三維圖形生成補全.通過訓練一個圖卷積變分自動編碼器來構(gòu)造參考形狀與隱空間參數(shù),推斷時只使用解碼器及部分缺失的形狀作為輸入,并與參考形狀對應,重建人體和面部網(wǎng)格.
上述方法大多采用CNN完成分類分割或其他任務,盡管CNN在大多數(shù)任務上獲得成功,但也存在一些局限性,主要是由于在數(shù)據(jù)前向傳播的過程中,CNN通過諸如最大池化或平均池化之類的操作來獲得圖像變換的不變性、更緊湊的表征、更好的噪聲和聚類的魯棒性[10].這些池化操作會丟棄高層特征層其他參數(shù)信息和編碼特征間的相對位置關(guān)系,例如對于圖像識別中的“畢加索問題”(具有所有正確部分但不具有正確空間關(guān)系的圖像),CNN仍舊會識別出人臉,而不會在乎構(gòu)成人臉的部位之間的結(jié)構(gòu)關(guān)系組成.
為克服CNN中的上述問題,Hinton等[11]提出了一種稱為膠囊網(wǎng)絡的新算法,用向量特征代替CNN的標量特征,通過類似聚類的方法,對輸出向量根據(jù)內(nèi)積進行多次路由以替換CNN中的最大池化下采樣,保存了不同維度的特征信息,并重用其中一些膠囊的輸出,以形成更穩(wěn)定的高階膠囊表示[12],更好地保留了特征的空間信息.目前已有實驗驗證了膠囊網(wǎng)絡較CNN在二維圖像分類上更具優(yōu)勢[13].在應用方面,Iesmantas等[14]將基于二進制分類的膠囊網(wǎng)絡應用于乳腺癌的檢測.Jaiswal等[15]設計了基于膠囊的生成式對抗網(wǎng)絡(generative adversarial networks,GAN).Yang等[16]將膠囊網(wǎng)絡應用到文本域.Nguyen等[17]將膠囊網(wǎng)絡應用于數(shù)字媒體取證.這些研究證明膠囊網(wǎng)絡在多個領(lǐng)域的有效性,但由于三維網(wǎng)格模型數(shù)據(jù)較為復雜,至今還未有膠囊網(wǎng)絡應用于三維網(wǎng)格處理中.
本文提出一種基于膠囊網(wǎng)絡的三維網(wǎng)格分類方法(3D mesh capsule networks,MeshCaps),以擴展膠囊網(wǎng)絡的應用領(lǐng)域.MeshCaps類似于傳統(tǒng)的多層神經(jīng)網(wǎng)絡,可以直接在不規(guī)則網(wǎng)格上運行,并且可以通過多層網(wǎng)絡結(jié)構(gòu)提取高層特征.
在MeshCaps中,通過設計好的卷積模板對網(wǎng)格表面進行卷積.由于多項式可有效表達一個曲面且表示方式更為簡潔,將卷積核設計為一個高階方程,窗口內(nèi)采用多項式擬合曲面方式,將高階方程參數(shù)作為窗口曲面的局部特征,這使得本方法能夠按曲面單元來解決網(wǎng)格的復雜性和不規(guī)則性問題.
此外,考慮到三維網(wǎng)格模型輸入大小不一致的問題,引入共享姿態(tài)矩陣權(quán)值的膠囊網(wǎng)絡,并將膠囊網(wǎng)絡的概念擴展到三維網(wǎng)格模型中.基于這些想法,本文設計了一個網(wǎng)絡結(jié)構(gòu),其中包括一個用于學習面片單元特征描述符的多項式模板卷積核以及一個用于聚集相鄰隱層特征并分類的膠囊網(wǎng)絡.與最新的基于邊折疊進行卷積池化方法MeshCNN相比,有望通過改進的膠囊網(wǎng)絡在更具表達性的多項式特征下達到更好的分類效果.
膠囊網(wǎng)絡由多個膠囊層組成,其中膠囊作為一個獨立的邏輯單元,通過向量來表示一個整體或整體的部分.傳統(tǒng)的CNN輸入輸出為標量形式,而膠囊網(wǎng)絡的輸入輸出為矢量形式,其特征向量的每一維都可以表示為一個特征模式(如形變、姿勢、反射率、紋理等),用特征向量的范數(shù)表示實體存在的置信度,不僅可以根據(jù)統(tǒng)計信息進行特征檢測,還可以學習到部件與整體的位置關(guān)系并能理解特征向量中維度的表示模式.
圖中膠囊輸出向量的方向蘊含圖像的位置、大小、形狀和姿態(tài)等特征信息.圖1 膠囊內(nèi)運算過程Fig.1 Calculation process in capsule
與CNN的最大池化不同,膠囊網(wǎng)絡不會丟棄有關(guān)實體在區(qū)域內(nèi)的精確位置信息,在膠囊傳遞到下一層之前,都要進行一個姿態(tài)矩陣W的變換,W通過梯度下降學習參數(shù),以使網(wǎng)絡具有多角度標識特征的能力.對于低級膠囊,位置信息被編碼,隨著層次結(jié)構(gòu)提升,越來越多的位置信息被壓縮編碼到膠囊輸出矢量的實值分量中.
本節(jié)將詳細介紹MeshCaps的設計.首先介紹整體的網(wǎng)絡架構(gòu),根據(jù)網(wǎng)格數(shù)據(jù)的特性,為了直接將卷積應用在網(wǎng)格數(shù)據(jù)上,同時考慮到參數(shù)方程表達的簡潔性,將卷積模板設計為參數(shù)方程的形式,通過多項式卷積核提取特征重新組織輸入數(shù)據(jù),根據(jù)頂點在局部空間中的相對位置來計算相應的權(quán)重值,以捕獲網(wǎng)格局部區(qū)域精細的幾何變化.經(jīng)過改進的多層膠囊網(wǎng)絡結(jié)構(gòu)對融合形狀與姿態(tài)的特征進行分類.
N表示窗口曲面數(shù)量;K表示曲面內(nèi)點數(shù)量;d表示初級膠囊維度;C表示類別數(shù)量.圖2 網(wǎng)絡框架圖Fig.2 Network framework
MeshCaps網(wǎng)絡結(jié)構(gòu)如圖2所示,訓練分為兩個階段:1) 卷積特征映射階段.以多項式模板作為卷積核對整個模型進行特征提取操作,最終生成該階段的卷積特征映射F(X,Y,Z).2) 膠囊網(wǎng)絡的訓練階段.膠囊網(wǎng)絡由膠囊組成層、初級膠囊層和Mesh膠囊層構(gòu)成,最終輸出用于分類.與普通的膠囊網(wǎng)絡相比,MeshCaps增加了一個膠囊組成層,將多項式參數(shù)特征映射到初級膠囊層以提取更具代表性的特征;對于膠囊層之間的姿態(tài)變換矩陣采用權(quán)值共享進行訓練,不再依賴于輸入模型的大小.
本文嘗試將一種更具表達性的特征提取方法應用到網(wǎng)絡模型中.給定一個三維形變目標的網(wǎng)格模型,以網(wǎng)格模型頂點為窗口中心,采用廣度優(yōu)先搜索獲取其前K-1個鄰域頂點,選中的頂點和頂點間的邊構(gòu)成連通的局部網(wǎng)格曲面即為局部曲面窗口
Mwin={Vwin,Ewin},
其中:
Vwin={vj|(xj,yj,zj)},j=1,2,…,K,
(1)
Ewin={(va,vb)|va,vb∈Vwin}.
(2)
其中,xj,yj,zj為點vj的坐標.
首先,為避免剛性變換以及非剛性變換的影響,在窗口中建立局部坐標系并將窗口內(nèi)頂點的絕對坐標轉(zhuǎn)換為局部坐標系內(nèi)的坐標表示.然后,考慮到窗口內(nèi)局部曲面較為簡單,因此在窗口局部坐標系下采用高階多項式對其形狀進行描述,如式(3):
Mwin={v|F(xv,yv,zv,dv|θ)=0}.
(3)
其中:F是用于描述局部網(wǎng)格窗口形狀的連續(xù)函數(shù);θ=(θ0,θ1,…,θ9)是網(wǎng)格的參數(shù)表示向量;xv,yv和zv是局部坐標系下窗口中頂點的相對坐標.在實驗過程中,當局部窗口尺寸設置得非常小時,網(wǎng)格形狀基本相同,而當K增加時,窗口中的網(wǎng)格變得更加復雜.僅僅通過頂點的局部Mwin-估計坐標信息xv,yv和zv不足以描述網(wǎng)格形狀.因此,一般引入測地距離以改進多項式函數(shù)的表達.但測地距離的計算較為耗時,會影響整個網(wǎng)絡的性能,因此采用街區(qū)距離dv作為測地距離的近似表達.
dv=|xv-xm|+|yv-ym|+|zv-zm|,
(4)
其中,卷積窗口中頂點(x,y,z)的街區(qū)距離表示為該點與曲面單元中心點(xm,ym,zm)的街區(qū)距離.
對于一個網(wǎng)格窗口,假設窗口中頂點的位置特征vc=(xv,yv,zv,dv),窗口曲面的擬合函數(shù)如式(5):
F(vc|θ)=z-(θ0+θ1x+θ2y+θ3d+θ4x2+
θ5y2+θ6d2+θ7xy+θ8xd+θ9yd).
(5)
窗口曲面的擬合函數(shù)F(vc|θ),即為所求卷積特征映射F(X,Y,Z),令其等于0用于描述局部窗口形狀的連續(xù)函數(shù).對局部三角形集合信息進行編碼,描述面片的局部形狀,捕獲網(wǎng)格窗口的形狀變換.z為網(wǎng)格上點的z軸坐標,用于度量擬合誤差.擬合后的整個函數(shù)F便可作為局部網(wǎng)格的近似表示.
曲面擬合結(jié)果如圖3所示,藍色的散點圖表示網(wǎng)格窗口中頂點的分布,紅色的表面表示使用多項式函數(shù)擬合的結(jié)果.擬合誤差為面片所有頂點的誤差均值Lf.
圖3 網(wǎng)格形狀與二階多項式的擬合Fig.3 Fitting of mesh shape and second order polynomial
(6)
在擬合過程中,為避免曲面不同位置與姿態(tài)對特征層的影響,首先對網(wǎng)格進行正定操作,使其中心點與三維坐標系原點對齊,法向量與三維坐標系z軸平行.方程參數(shù)θ=(θ0,θ1,…,θ9)通過廣義最小二乘法(GLS)求解.
從圖4可以看到,每個模型通過窗口滑動卷積后可以用n個參數(shù)方程表示,參數(shù)θ可以作為該窗口下某片網(wǎng)格碎片的形狀特征描述符.同時,為引入曲面姿態(tài)信息,在提取網(wǎng)格曲面形狀特征后,加入曲面中心點坐標與法向量,使得網(wǎng)絡能夠?qū)W習到曲面的方向信息.
圖4 網(wǎng)格模型多項式特征提取Fig.4 Polynomial feature extraction of grid model
傳統(tǒng)膠囊網(wǎng)絡首先利用卷積層進行特征提取,然后通過膠囊層逐步將其整合成更深層的特征并用于分類結(jié)果.但由于在前文中特征提取的結(jié)果為淺層特征,保留有一定的空間信息,且包含語義信息較少,所以在特征提取模塊后,加入一個膠囊組成層將方程參數(shù)特征向量輸出映射到初級膠囊層.對于卷積后的特征層,每個面片表示為一個帶有10維參數(shù)的多項式.通過3個一維卷積,不斷增加通道數(shù),提取更高維度的特征,同時每個卷積后通過一個歸一化層來加快網(wǎng)絡的訓練和收斂速度.
如圖3所示,初級膠囊層的膠囊個數(shù)由窗口曲面數(shù)決定,取N,每個膠囊維度為d.將膠囊組成層得到的特征向量U∈RN×d映射到初級膠囊層,設U=(ui),則每個初級膠囊層的膠囊表示為ui,i=1,2,…,N,ui∈Rd.
通過姿態(tài)矩陣不僅可以學習到實體的組成,而且能夠保證三維模型在經(jīng)過非剛性變換后父膠囊與子組件的姿態(tài)信息相匹配.但由于該矩陣為兩個相鄰膠囊層間膠囊的全連接,會增加整個網(wǎng)絡的參數(shù)量從而導致運算量過大.
(7)
(8)
(9)
其中bij是膠囊i與膠囊j的耦合概率,初始bij設為先驗概率.
作為衡量一個矢量特征的顯著程度,膠囊網(wǎng)絡通過一個壓縮函數(shù)進行歸一化,將膠囊值映射到[0,1]范圍,使得膠囊向量的模長可以代表這個特征的概率,同時保留向量中每一維的特征值,其表達式為
(10)
其中,v是膠囊的輸出向量,s是Mesh膠囊層的輸入向量.MeshCaps的動態(tài)路由算法與原始公式中的路由算法相同.
MeshCaps只應用于三維網(wǎng)格分類,因此在訓練與預測過程中舍棄了傳統(tǒng)膠囊網(wǎng)絡中的重構(gòu)模塊及重構(gòu)損失,降低了模型的復雜度,有助于提高模型的訓練效率.損失函數(shù)為:
(11)
Lc=Tc(max(0,m+-‖vc‖))2+λ(1-Tc)·
(max(0,‖vc‖-m-))2.
(12)
其中:c是類別;vc表示最終輸出的膠囊向量;Tc是分類的指示函數(shù),如果正確預測了類c,則Tc等于1,否則為0;m+作為上界,即預測c類存在但真實不存在并且識別錯誤;m-作為下界,即預測c類不存在但真實存在,未識別出來;λ是比例系數(shù),用于調(diào)整Tc中兩者比重.具體參數(shù)設置如下:m+=0.9,m-=0.1,λ=0.5.總損失是對C個類的單獨損失函數(shù)的和.
為驗證本文方法的有效性,在標準三維形變網(wǎng)格模型數(shù)據(jù)集SHREC15上進行實驗驗證.實驗所用計算機配置為 Intel(R)Xeon(R)處理器64 GB內(nèi)存.SHREC15數(shù)據(jù)集包括 50個類別1 200個三維網(wǎng)格模型,每類24個模型,每類模型均有剛體變換和非剛體變換.訓練分類器時在每類中隨機抽取20個三維模型作為訓練樣本,其余作為測試樣本.
實驗基于Pytorch框架設計,模型先經(jīng)過特征提取模塊,隨機采樣模型85%的點,以頂點為中心取卷積窗口曲面大小為152,卷積后的多項式參數(shù)特征經(jīng)過膠囊組成層,包括3個20維、30維、40維的卷積層,然后通過膠囊維度為40的輸入膠囊層,再經(jīng)過膠囊數(shù)量為類別數(shù)50、膠囊維度為16的輸出膠囊層獲得最終分類輸出.以Mesh膠囊層每個膠囊的模長作為模型屬于類別的概率獲得最終結(jié)果.整個網(wǎng)絡訓練期間學習率最低不小于0.001,批量大小取10,使用一個圖形處理器(GPU)加速計算,訓練總耗時2 158 s.
為了對比提出方法的分類性能的優(yōu)越性,本文比較了基于傳統(tǒng)手工特征進行分類的方法SPH[18]和MeshNet[5]以及MeshCNN[4]直接應用深度學習對三維網(wǎng)格分類的方法.表 1給出了對于不同數(shù)據(jù)集類別下的分類結(jié)果和平均準確率.可以看出,本文提出的MeshCaps算法的分類性能高于其他對比的方法,在SHREC15數(shù)據(jù)集上,平均準確率達到93.8%,與對比方法的最好結(jié)果相比較,提高了2.1個百分點,表明提出的MeshCaps可以在三維網(wǎng)格數(shù)據(jù)分類中得到更好的結(jié)果.
為進一步證明MeshCaps的有效性,對比不同方法的收斂性能,通過圖5的曲線可以直觀地觀察到MeshCaps方法具有較好的收斂性,在第15輪迭代時準確率達到86.63%,較早達到收斂拐點及最終收斂點,證明了膠囊網(wǎng)絡中動態(tài)路由對矢量特征進行無監(jiān)督聚類,使整個網(wǎng)絡快速收斂的特性.
圖5 各方法最終收斂圖Fig.5 The final convergence chart of each method
由于SHREC15數(shù)據(jù)集中的類別過多,所以僅顯示13個類別的混淆矩陣. 從圖6可以看出,MeshCaps已經(jīng)能夠識別大多數(shù)模型.但是,還有幾種識別準確率較低的型號,例如眼鏡. 我們猜測由于眼鏡的尾巴與鉗子更相似,在多項式特征提取時,將模型分割為曲面單元,曲面單元形狀近似,所以在識別這兩種類型的模型時將導致模型具有較高的誤識別率.
圖6 SHREC15數(shù)據(jù)集上的識別混淆矩陣Fig.6 Confusion matrix on SHREC15
為了驗證MeshCaps中卷積窗口大小對結(jié)果的影響,分別將卷積窗口設置為32~1 024,用于訓練,圖7表示窗口大小,即取不同鄰域點數(shù)量作為計算單元對分類準確率的影響.
圖7 卷積窗口大小實驗Fig.7 Experiment of convolution window size
由圖7可知,在其他參數(shù)取值固定的前提下,最優(yōu)卷積窗口大小在140~160范圍內(nèi).當窗口大小為32,512和1 024時,分類準確率分別為67.9%,85.7%,54.3%.這是由于當局部窗口尺寸設置得非常小時,網(wǎng)格形狀基本相同,各種網(wǎng)格間的差異性過小,影響了特征聚類的效果;而當卷積窗口設置過大時,窗口中的網(wǎng)格變得更加復雜,增加了網(wǎng)絡復雜度和參數(shù)量,使得網(wǎng)絡容易過擬合.對于該范圍內(nèi)窗口大小進行實驗,因不同數(shù)據(jù)集的點數(shù)量級不同,對于SHREC15數(shù)據(jù)集實驗驗證卷積窗口大小最優(yōu)值為152,即按廣度優(yōu)先搜索取頂點周圍151個點作為一個計算窗口時分類準確率最高,達到93.8%.
表2將網(wǎng)絡的時間和空間復雜性與基于分類任務的其他代表性方法進行了比較.標記為#params的列顯示了網(wǎng)絡中的參數(shù)總數(shù),標記為FLOPs/sample的列顯示了對每個輸入樣本執(zhí)行的浮點操作數(shù),分別代表了空間和時間復雜度.其中,MeshCaps由于膠囊網(wǎng)絡采用動態(tài)路由多次迭代的方式進行特征聚類,所以在操作數(shù)方面較高,但同時也使得整個網(wǎng)絡能夠快速地收斂,如圖5所示,訓練中僅僅幾輪迭代就可以達到較高的分類準確率.
表2 參數(shù)量比較試驗Tab.2 Comparative experiment of parameter
為了驗證MeshCaps特征提取模塊中特征融合的有效性和分類模塊中膠囊網(wǎng)絡的有效性,分別將膠囊網(wǎng)絡替換成三層CNN和LeNet進行試驗,在SHREC15數(shù)據(jù)集進行分類準確率對比,Feature+3層CNN、Feature+LeNet和MeshCaps的分類準確率分別為89.9%,90.8%,93.8%.
在采用同樣特征方法的情況下,相比于不同的分類網(wǎng)絡模型,MeshCaps達到93.8%的準確率,說明MeshCaps在SHREC15數(shù)據(jù)集分類任務上的優(yōu)越性,對于復雜數(shù)據(jù)而言,膠囊網(wǎng)絡對比多層CNN結(jié)構(gòu)具有一定的優(yōu)勢.直接對多項式參數(shù)特征通過3層CNN進行分類,平均準確率也能達到89.9%,高于SPH方法88.2%的準確率,也進一步驗證了特征提取方法的有效性.
由于MeshCaps與MeshCNN和MeshNet網(wǎng)絡結(jié)構(gòu)不同,網(wǎng)絡中無池化操作,而是直接選取頂點按照廣度優(yōu)先搜索方式獲取局部曲面作為一個輸入單元,所以在訓練時通過對頂點隨機采樣方式進行簡化,當采樣點占比分別為70%,75%,80%,85%,90%,95%,100%時平均準確率依次為87.4%,85.8%,91.8%,93.8%,89.5%,79.1%,80.4%.
最優(yōu)采樣比為85%,這是因為一個面片單元由一頂點周圍多個點組成,采樣百分比過高不免出現(xiàn)面片重疊的現(xiàn)象,影響整個網(wǎng)絡訓練,而采樣比過低模型容易欠擬合.最終選取隨機抽樣模型總頂點數(shù)85%的頂點為輸入.
網(wǎng)絡設計中對中心點坐標、法向量與多項式參數(shù)進行了特征融合,且加入了膠囊組成層用于特征映射,對于膠囊組成層及特征融合的影響做了對比實驗,結(jié)果如表3所示.
表3 MeshCaps特征融合與組成層影響實驗Fig.3 Influence experiment of feature fusion and composition layer of meshcaps
在不進行特征融合且無膠囊組成層的MeshCaps分類中平均精度仍達到91.2%,高于通過CNN方法得到的結(jié)果,證明了膠囊網(wǎng)絡對于復雜數(shù)據(jù)模型有一定優(yōu)勢.在融合特征后分類準確率有所提升說明了特征融合的有效性,但其低于有膠囊組成層且未融合特征的準確率,驗證了膠囊組成層在整個網(wǎng)絡結(jié)構(gòu)中的重要性.
本文提出了一種基于改進膠囊網(wǎng)絡的三維網(wǎng)格模型識別算法MeshCaps,將卷積直接應用到不規(guī)則三維網(wǎng)格模型,通過多項式擬合方式提取網(wǎng)格特征參數(shù),加入膠囊組成層,提取更高層特征,同時改進膠囊網(wǎng)絡中的共享權(quán)重的姿態(tài)矩陣來適應不同模型輸入尺寸上的差異,經(jīng)過訓練在原始測試集上達到93.8%的平均分類準確率.通過與傳統(tǒng)CNN網(wǎng)絡進行對比實驗,驗證了膠囊網(wǎng)絡的有效性;同時經(jīng)過與基于網(wǎng)格模型的其他深度學習對比,驗證了MeshCaps收斂速度上的優(yōu)勢.在后續(xù)的研究中,可以進一步開發(fā)該網(wǎng)絡以用于三維網(wǎng)格分割,或與網(wǎng)格生成算法相結(jié)合執(zhí)行更多計算機視覺任務.