毛福新,楊旭,程嘉強(qiáng),彭濤
(1.天津職業(yè)技術(shù)師范大學(xué) 工程實(shí)訓(xùn)中心,天津 300222;2.天津華大科技有限公司,天津 300131;3.天津職業(yè)技術(shù)師范大學(xué) 汽車與交通學(xué)院,天津 300222)
近年來,越來越多的工作者開始使用深度學(xué)習(xí)方法處理三維模型數(shù)據(jù).與傳統(tǒng)非深度學(xué)習(xí)的三維模型算法相比,基于深度學(xué)習(xí)的方法在準(zhǔn)確率及各項(xiàng)指標(biāo)上具有更好的表現(xiàn),泛化能力更強(qiáng),能夠處理更復(fù)雜的問題,在實(shí)際應(yīng)用中更具有可行性.目前已有眾多基于深度學(xué)習(xí)算法處理不同格式三維模型數(shù)據(jù)的研究,如使用三維模型多視圖作為輸入的MVCNN[1]算法、用于處理三維模型點(diǎn)云數(shù)據(jù)的PointNet[2]算法、處理三維網(wǎng)格數(shù)據(jù)的MeshNet[3]算法等.為了進(jìn)一步提升算法的性能,許多研究開始轉(zhuǎn)變?yōu)橥诰蛉S數(shù)據(jù)中的更多信息,如KD-Networks[4]算法使用kd-tree 的樹狀結(jié)構(gòu)探索點(diǎn)云模型的結(jié)構(gòu),SeqView2Seq-Labels[5]算法使用序列模型探索三維模型多視圖數(shù)據(jù)之間的視圖關(guān)聯(lián)性.Li 等[6]發(fā)現(xiàn)單一模態(tài)下的三維模型表征能力是有限的,因此三維模型算法的研究方向逐漸轉(zhuǎn)變?yōu)槿诤隙嗄B(tài)的數(shù)據(jù)以獲得更多信息.鑒于自然語言處理領(lǐng)域中Transformer模型[7]在各項(xiàng)任務(wù)上的優(yōu)秀表現(xiàn),Dosovitskiy 等[8]將其遷移至計(jì)算機(jī)視覺領(lǐng)域中,用于處理圖像和三維模型數(shù)據(jù).
與此同時(shí),F(xiàn)eng 等[9]開始研究基于開集數(shù)據(jù)的三維模型算法.目前已有算法大多是基于閉集數(shù)據(jù)的,而在閉集數(shù)據(jù)上的研究成果難以應(yīng)用于開集數(shù)據(jù),在面對未知類的三維模型時(shí)難以發(fā)揮其優(yōu)勢,因此現(xiàn)有算法在開集數(shù)據(jù)上的準(zhǔn)確率及各項(xiàng)指標(biāo)往往較低.考慮到三維模型在多個(gè)領(lǐng)域的發(fā)展趨勢,將來會(huì)有更多新類型的三維模型參與到應(yīng)用中,因此開放域下的三維模型算法研究具有重大意義.
針對開放域下未知三維模型數(shù)據(jù)的表征及檢索問題,本文提出開放域三維模型檢索算法.算法充分挖掘多模態(tài)信息語義的關(guān)聯(lián)性和一致性,以無監(jiān)督方式探尋未知樣本間的類別信息,并在網(wǎng)絡(luò)模型的參數(shù)優(yōu)化過程中引入未知類信息,促使網(wǎng)絡(luò)模型在開放域條件下具備更好的表征及檢索性能.算法基于Transformer 注意力機(jī)制實(shí)現(xiàn)了多模態(tài)數(shù)據(jù)的層級(jí)化融合,利用多模態(tài)數(shù)據(jù)的多元信息和多角度表征能力實(shí)現(xiàn)了更高效的模型特征.在對開放域類別信息的探索中,算法利用高效的表征能力探索未知數(shù)據(jù)分布,并利用探索信息實(shí)現(xiàn)模型參數(shù)的再次優(yōu)化,強(qiáng)化了算法的表征能力.
目前的三維模型檢索算法主要分為3 類:基于形狀的三維模型檢索、基于視圖的三維模型檢索和基于多模態(tài)融合的三維模型檢索.下文將對上述3 類算法中的典型工作進(jìn)行介紹.
Osada 等[10]提出基于三維模型形狀分布的算法,該研究提出計(jì)算任意三維多邊形模型形狀特征的算法.Hedi 等[11]提出適用于非剛性模型和局部相似模型的三維目標(biāo)的匹配算法,該算法使用在特征點(diǎn)周圍提取的三維曲線來表示模型的曲面.隨著深度學(xué)習(xí)領(lǐng)域的發(fā)展,許多基于深度學(xué)習(xí)的算法被提出.Avetisyan 等[12]提出端到端三維模型檢索的方法,該方法將不完整的3D 掃描模型轉(zhuǎn)換為具有完整對象幾何結(jié)構(gòu)的CAD 重建模型.
Sarkar 等[13]提出新的基于多層高度圖(multilayered height-maps,MLH)的三維形狀全局表征算法,該方法中視圖合并體系結(jié)構(gòu)的引入融合了來自多個(gè)視圖的視圖關(guān)聯(lián)信息.Yang 等[14]利用關(guān)系網(wǎng)絡(luò)學(xué)習(xí)多視圖之間的局部關(guān)聯(lián),采用增強(qiáng)模塊作為網(wǎng)絡(luò)中的關(guān)鍵結(jié)構(gòu),通過建模不同區(qū)域之間的相關(guān)性來增強(qiáng)多個(gè)視圖的信息.Huang 等[15]提出新的基于視圖的權(quán)重網(wǎng)絡(luò)(view-based weight network,VWN),用于獲取三維形狀表征,其中基于視圖的權(quán)重池層被設(shè)計(jì)用于特征聚合.與基于多視圖的方法相比,Sfikas 等[16]提出基于全景圖的卷積神經(jīng)網(wǎng)絡(luò)算法,目的是通過使用三通道的全景圖像構(gòu)建增強(qiáng)圖像表征,在捕獲特征連續(xù)性的同時(shí)減少冗余信息.
Pérez-Rúa 等[17]提出新的多模態(tài)融合網(wǎng)絡(luò)結(jié)構(gòu),利用神經(jīng)網(wǎng)絡(luò)的方法指導(dǎo)融合操作.該方法利用網(wǎng)絡(luò)模型對各模態(tài)之間不同層次的輸出進(jìn)行評價(jià),使用評價(jià)結(jié)果指導(dǎo)多模態(tài)融合進(jìn)程.Zhang等[18]提出基于稀疏表示的多模態(tài)融合算法,與傳統(tǒng)的假定基函數(shù)的多尺度變換算法不同,基于稀疏表示的融合算法從1 組訓(xùn)練圖像中學(xué)習(xí)過完備字典(over-complete dictionary)進(jìn)行圖像融合,實(shí)現(xiàn)了對源圖像更加穩(wěn)定和有意義的表示.Hou 等[19]提出多模態(tài)融合算法,算法采用多項(xiàng)式張量池(polynomial tensor pooling,PTP)結(jié)構(gòu)融合多模態(tài)特征,并以PTP 為基本單元建立層次多項(xiàng)式融合網(wǎng)絡(luò)(hierarchical polynomial fusion network,HPFN),遞歸地將局部關(guān)聯(lián)信息進(jìn)行傳遞,獲得全局關(guān)聯(lián)信息.
本文算法的網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示.網(wǎng)絡(luò)使用無監(jiān)督方式學(xué)習(xí)未知類信息,以提升開放域條件下的檢索性能,共包括以下3 個(gè)子網(wǎng)絡(luò).1)單模態(tài)特征提取網(wǎng)絡(luò):實(shí)現(xiàn)不同模態(tài)數(shù)據(jù)的向量化,網(wǎng)絡(luò)分為多個(gè)不同的支路,用于從對應(yīng)模態(tài)的三維模型數(shù)據(jù)提取特征向量.2)多模態(tài)融合網(wǎng)絡(luò):采用改進(jìn)的Transformer 解碼器逐步融合多模態(tài)信息,當(dāng)面對未知樣本時(shí),利用多模態(tài)融合信息可以有效地提升三維描述符的表征能力.3)開放域的檢索模塊:利用無監(jiān)督的分類模型實(shí)現(xiàn)對未知數(shù)據(jù)的類別探索,通過迭代實(shí)現(xiàn)模型參數(shù)的優(yōu)化,使得網(wǎng)絡(luò)模型在開放域條件下獲得更好的檢索性能.
圖1 基于多模態(tài)融合的開放域三維模型檢索算法的原理圖Fig.1 Schematic diagram of open domain 3D model retrieval algorithm based on multi-modal fusion
單模態(tài)特征提取網(wǎng)絡(luò)的結(jié)構(gòu)如圖2 所示.該網(wǎng)絡(luò)用于處理不同模態(tài)的三維模型數(shù)據(jù),包括多視圖、點(diǎn)云、網(wǎng)格和體素?cái)?shù)據(jù).設(shè)置4 個(gè)支路用于分別提取不同模態(tài)的特征向量,其中多視圖支路采用圖像處理網(wǎng)絡(luò)VggNet[20],多視圖特征定義為Fi.點(diǎn)云支路使用VoxNet[21]提取模型的局部特征Fp.網(wǎng)格支路使用MeshNet[22]提取特征向量Fm,體素支路使用三維卷積神經(jīng)網(wǎng)絡(luò)提取特征,對應(yīng)特征定義為Fv.在獲得作為各模態(tài)的特征向量后,在每個(gè)支路后端分別設(shè)置多層堆疊的Transformer 編碼器結(jié)構(gòu),用于學(xué)習(xí)三維模型模態(tài)內(nèi)的關(guān)聯(lián)信息,并采用該結(jié)構(gòu)更新特征向量.每層編碼器都包含2 個(gè)子層,分別為自注意力層和前饋網(wǎng)絡(luò).
圖2 單模態(tài)特征提取網(wǎng)絡(luò)Fig.2 Single mode feature extraction network
自注意力層的網(wǎng)絡(luò)結(jié)構(gòu)由全連接層(fully connected layer)和歸一化點(diǎn)乘注意力機(jī)制(scaled dotproduct attention)構(gòu)成.由全連接層將輸入特征X分別映射為歸一化點(diǎn)乘注意力機(jī)制的3 個(gè)輸入——查詢(query)向量、鍵(key)向量和值(value)向量,分別記為Q、K和V.歸一化點(diǎn)乘注意力機(jī)制的過程可以表示為
式中:A ttentionscaled(·) 為歸一化點(diǎn)乘注意力機(jī)制,X′為經(jīng)注意力機(jī)制更新后的特征向量,d為特征向量的維度,S oftmax(·) 函數(shù)能夠?qū)⑾蛄恐械脑赜成渲?~1.0,對數(shù)值進(jìn)行歸一化.歸一化點(diǎn)乘注意力機(jī)制將Q和K中的向量逐一點(diǎn)乘并進(jìn)行歸一化,得到輸入特征之間的相關(guān)矩陣,再使用相關(guān)矩陣與值向量相乘,對輸入特征向量進(jìn)行更新.
前饋網(wǎng)絡(luò)由全連接層和激活函數(shù)組成,用于更新歸一化點(diǎn)乘注意力機(jī)制輸出的特征向量X′
.前饋網(wǎng)絡(luò)的計(jì)算過程可以表示為
式中:W1、b1、W2和b2為前饋網(wǎng)絡(luò)中的可學(xué)習(xí)參數(shù),用于對特征向量進(jìn)行線性變換;X′′為前饋網(wǎng)絡(luò)輸出的特征向量;m ax(0,XW1+b1) 為激活函數(shù)的計(jì)算方式,激活函數(shù)為ReLU 函數(shù).
多模態(tài)特征融合網(wǎng)絡(luò)的結(jié)構(gòu)如圖3 所示.該網(wǎng)絡(luò)由多層堆疊的特征融合模塊構(gòu)成,特征融合模塊由Transformer 解碼器結(jié)構(gòu)改進(jìn)而來,用于融合2 個(gè)模態(tài)的特征向量.特征融合模塊的數(shù)量應(yīng)與網(wǎng)絡(luò)模型輸入的模態(tài)數(shù)量相同,定義特征融合模塊的數(shù)量為h.特征融合模塊的運(yùn)算過程可以由以下公式表示:
圖3 多模態(tài)特征融合網(wǎng)絡(luò)Fig.3 Multi-modal feature fusion network
式中:t為特征融合模塊的層數(shù);Ft為第t層特征融合模塊輸出的特征向量;Ft-1為t-1層的輸出;It∈RNd為特征融合模塊第t層的輸入,是特征提取網(wǎng)絡(luò)對應(yīng)支路的輸出,其中N為特征向量的數(shù)量,d為特征向量的維度.
考慮到基于Transformer 的BERT 算法[23]在輸入數(shù)據(jù)中加入class token,專門用于進(jìn)行分類任務(wù),以消除網(wǎng)絡(luò)對某個(gè)樣本的偏向性.鑒于BERT算法在表征任務(wù)上的先進(jìn)性,本文算法設(shè)置了class token 用于分類.當(dāng)t=1 時(shí),當(dāng)前特征融合模塊為初始層,不存在t-1 層的輸出,此時(shí)設(shè)置F0為class token 和I1拼接后的組合,記為F0∈R(N+1)d.網(wǎng)絡(luò)最終層輸出Fh中對應(yīng)class token 位置的特征向量為三維模型的描述符.
在多模態(tài)融合網(wǎng)絡(luò)后設(shè)置分類器,采用融合特征和樣本標(biāo)簽計(jì)算交叉熵?fù)p失,根據(jù)梯度反向傳播優(yōu)化網(wǎng)絡(luò)模型中的參數(shù).分類器由2 層全連接層及激活函數(shù)組成,分類過程可以表示為
式中:p為分類器輸出的分類結(jié)果;W3、b3、W和b4為分類器中的可學(xué)習(xí)參數(shù);Fh為多模態(tài)融合網(wǎng)絡(luò)輸出,F(xiàn)h[0:1] 表示Fh中的第1 個(gè)特征向量;max(0,·)函數(shù)為激活函數(shù)ReLU,用于增強(qiáng)網(wǎng)絡(luò)模型處理非線性問題的能力.
面對開放域的數(shù)據(jù)集僅使用帶標(biāo)注的已知樣本進(jìn)行訓(xùn)練,網(wǎng)絡(luò)模型難以學(xué)習(xí)和提取未知類樣本的特征.本文借鑒無監(jiān)督算法以學(xué)習(xí)未知樣本信息,在多模態(tài)融合的基礎(chǔ)上進(jìn)一步提升網(wǎng)絡(luò)模型對未知樣本的檢索能力.
根據(jù)已標(biāo)注數(shù)據(jù)集對網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,得到預(yù)訓(xùn)練模型.使用預(yù)訓(xùn)練模型提取所有未知樣本的特征,采用無監(jiān)督算法對特征向量進(jìn)行聚類,得到未知樣本的聚類結(jié)果及聚類中心.設(shè)置距離閾值,選取與類中心距離低于閾值的樣本,將聚類結(jié)果作為偽標(biāo)簽,用于進(jìn)一步訓(xùn)練網(wǎng)絡(luò)模型,其中距離度量采用余弦距離進(jìn)行計(jì)算.對于得到的聚類中心,定義為Ic∈RCd,其中C為未知樣本類別的數(shù)量.將class token 由隨機(jī)初始化的嵌入替換為聚類中心,此時(shí)多模態(tài)特征融合網(wǎng)絡(luò)的輸入為F0∈R(C+N)d,融合網(wǎng)絡(luò)的輸出為Fh∈R(C+N)d.將Fh中的前C個(gè)特征向量進(jìn)行拼接,并作為三維模型的描述符,記作Fs∈RCd,用于進(jìn)行檢索任務(wù).
利用無監(jiān)督算法逐步探索未知樣本類別信息,為樣本生成偽標(biāo)簽,設(shè)置相應(yīng)的損失函數(shù),對模型進(jìn)行多次優(yōu)化.損失函數(shù)可以表示為
式中:fs為三維模型的描述符;ti為樣本的偽標(biāo)簽,當(dāng)輸入樣本屬于第j類時(shí)tj=1,否則tj=0,此處偽標(biāo)簽由無監(jiān)督算法給出;c lassifier(·) 為分類器,計(jì)算方式見式(4),其中Softmax 操作的第i個(gè)輸出項(xiàng)表示為S oftmax(·)i.
實(shí)驗(yàn)采用的開放域數(shù)據(jù)集由開源數(shù)據(jù)集Model-Net40 樣本組成,如圖4 所示.ModelNet40 數(shù)據(jù)集包含40 個(gè)類別的樣本及樣本對應(yīng)的標(biāo)簽,含有桌子、椅子、飛機(jī)、轎車等.整個(gè)數(shù)據(jù)集共包含12 311個(gè)三維模型,其中訓(xùn)練集中包含9 843 個(gè)三維模型,測試集中包含2 468 個(gè)三維模型.將Model-Net40 數(shù)據(jù)集按類劃分為2 個(gè)子數(shù)據(jù)集,每個(gè)子數(shù)據(jù)集分別包含不同的20 個(gè)類的三維模型,舍棄其中一個(gè)子數(shù)據(jù)集的標(biāo)簽并將其作為開放域數(shù)據(jù)集的未知類數(shù)據(jù),另一個(gè)包含標(biāo)簽的子數(shù)據(jù)集作為開放域數(shù)據(jù)集的已知類數(shù)據(jù).
圖4 ModelNet40 數(shù)據(jù)集的三維模型數(shù)據(jù)Fig.4 Three-dimensional model data of ModelNet40 datasets
采用的檢索性能評價(jià)指標(biāo)包括全類平均正確率(mAP)、最近鄰(NN)相似度、歸一化折損累計(jì)增益(NDCG)和平均歸一化檢索秩(ANMRR).前3 個(gè)指標(biāo)越大,則方法表現(xiàn)越好;最后一個(gè)指標(biāo)越小,則方法表現(xiàn)越好.為了評估算法在開放域上的性能,在未知類數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),計(jì)算各項(xiàng)檢索指標(biāo).mAP 是綜合性量化指標(biāo),綜合了所有檢索結(jié)果的平均精確率.NN 是指在檢索結(jié)果中與查詢模型相似度最高的三維模型的檢索精度.NDCG 對檢索結(jié)果中排名靠后的樣本賦予較小的權(quán)重,因?yàn)榕琶亢蟮娜S模型相似度低,基本不具有參考意義.ANMRR 為基于排序的度量指標(biāo),考慮了實(shí)際檢索結(jié)果中相關(guān)對象的排序信息.
為了驗(yàn)證本文算法在開放域條件下的有效性和性能先進(jìn)性,選取當(dāng)前主要的三維模型表征模型進(jìn)行對比實(shí)驗(yàn).所選取的方法包括基于點(diǎn)云、基于多視圖、基于網(wǎng)格和基于體素的三維模型算法.
檢索實(shí)驗(yàn)的各項(xiàng)指標(biāo)如表1 所示.對比方法中基于點(diǎn)云的經(jīng)典方法PointNet 取得了81.72%的mAP 指標(biāo),經(jīng)典多視圖方法MVCNN 取得了83.86%的mAP 指標(biāo),基于網(wǎng)格的方法MeshNet 取得了82.15%的指標(biāo),基于體素的方法3D Shape-Nets 取得了71.41%的指標(biāo).其中基于多視圖的算法GVCNN 考慮了視圖之間的關(guān)聯(lián)信息,強(qiáng)化了三維描述符的表征能力,取得了84.94% 的指標(biāo)值,與MVCNN 相比提升了1.08%.相較于體素、網(wǎng)格及點(diǎn)云模態(tài),多視圖模態(tài)通常會(huì)帶來更好的檢索性能,主要原因在于前幾種模態(tài)直接處理三維模型的原始表示,只具備局部幾何信息,沒有考慮全局相關(guān)性,缺少一些全局信息,實(shí)際三維模型的表征能力不佳.多視圖通過從多角度獲取視圖,不僅能夠捕獲局部信息,而且具有緊湊的全局信息,二者相輔相成.多視圖模態(tài)存在一些缺點(diǎn),如缺少三維模型的一些幾何信息.采用多模態(tài)融合的方式,可以充分利用不同模態(tài)所特有的顯著信息,能夠明顯地提升檢索性能.
表1 各類算法在未知類數(shù)據(jù)集的檢索性能Tab.1 Retrieval performance of various algorithms in unknown class data sets
使用編碼器更新特征間關(guān)聯(lián)性,借助多模態(tài)融合及無監(jiān)督學(xué)習(xí)帶來的信息優(yōu)勢,在開放域條件下取得了優(yōu)秀的檢索性能.本文算法的mAP 指標(biāo)為86.23%,與之前的最佳方法GVCNN 相比提升了1.29%,在對比實(shí)驗(yàn)中實(shí)現(xiàn)了最佳的檢索性能,驗(yàn)證了本文算法在檢索性能上的先進(jìn)性.從實(shí)驗(yàn)結(jié)果可知,即使只采用單模態(tài)形式,本文方法的檢索性能也比相應(yīng)模態(tài)的方法更好,主要原因是采用無監(jiān)督算法能夠顯著提升模型在開放域上的性能表現(xiàn).
為了驗(yàn)證本文網(wǎng)絡(luò)模型各模塊的有效性,評估各模塊對網(wǎng)絡(luò)模型檢索性能的貢獻(xiàn),開展消融實(shí)驗(yàn),其中對比的模塊包括編碼器、解碼器和無監(jiān)督學(xué)習(xí).消融實(shí)驗(yàn)數(shù)據(jù)如表2 所示.
表2 提出算法在不同網(wǎng)絡(luò)結(jié)構(gòu)下的檢索性能Tab.2 Retrieval performance of proposed algorithm in different network structures
實(shí)驗(yàn)結(jié)果如表2 所示.表中,“√”表示使用該網(wǎng)絡(luò)結(jié)構(gòu).由于編碼器的輸入與輸出格式一致,去除編碼器不影響后續(xù)網(wǎng)絡(luò)的運(yùn)行.若不使用編碼器,則將原編碼器輸出直接輸入至后續(xù)網(wǎng)絡(luò)中.解碼器作為多模態(tài)融合模塊,若不使用解碼器模塊,則采取拼接的方式融合多模態(tài)特征.當(dāng)不采用無監(jiān)督學(xué)習(xí)時(shí),僅使用已標(biāo)注數(shù)據(jù)集對網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,隨后直接使用網(wǎng)絡(luò)模型在未知類數(shù)據(jù)集上進(jìn)行檢索實(shí)驗(yàn).
從表2 可知,編碼器和解碼器將網(wǎng)絡(luò)模型的mAP 指標(biāo)分別提升了約3%和4%.編碼器模塊可以學(xué)習(xí)三維模型模態(tài)內(nèi)的關(guān)聯(lián)信息,挖掘模態(tài)顯著性特征.解碼器模塊相較于簡單的拼接方式,可以高效地融合多模態(tài)特征,不僅剔除了表征數(shù)據(jù)的冗余信息,而且能夠獲得更加魯棒的特征向量.引入無監(jiān)督學(xué)習(xí)提升了約14%的mAP 指標(biāo),說明使用無監(jiān)督算法學(xué)習(xí)未知類樣本信息,可以大幅提升網(wǎng)絡(luò)模型在開放域上的檢索性能.當(dāng)使用多個(gè)模態(tài)功能時(shí),mAP 指標(biāo)進(jìn)一步提升,說明不同模塊之間不會(huì)產(chǎn)生副作用,相反,均會(huì)對整體網(wǎng)絡(luò)產(chǎn)生積極作用,提升最終性能.
在單模態(tài)特征提取網(wǎng)絡(luò)后端設(shè)置多層堆疊的編碼器結(jié)構(gòu),用于學(xué)習(xí)三維模型模態(tài)內(nèi)的關(guān)聯(lián)信息.為了驗(yàn)證編碼器的層數(shù)設(shè)置對網(wǎng)絡(luò)模型性能的影響,開展編碼器參數(shù)實(shí)驗(yàn).
實(shí)驗(yàn)結(jié)果如表3 所示.表中,第1 列為編碼器層數(shù),分別設(shè)置2~10 層的編碼器進(jìn)行實(shí)驗(yàn).網(wǎng)絡(luò)模型在設(shè)置5~8 層編碼器時(shí)mAP 指標(biāo)均達(dá)到約85.8%,當(dāng)前層數(shù)能夠達(dá)到較好的網(wǎng)絡(luò)模型性能,繼續(xù)增加編碼器層數(shù)將增加不必要的計(jì)算量.原因是編碼器中注意力機(jī)制的目的是實(shí)現(xiàn)對冗余信息的剔除,但是當(dāng)編碼器層數(shù)過多時(shí),往往會(huì)由于q和v的向量積操作而造成數(shù)據(jù)的平均化,降低數(shù)據(jù)的區(qū)分性,導(dǎo)致檢索性能變差,因此網(wǎng)絡(luò)模型的檢索性能整體上隨著編碼器層數(shù)的增加而提高.增加編碼器帶來的性能提升有限,但會(huì)造成計(jì)算量的增加,因此需要考慮增加編碼器所帶來的計(jì)算量,選擇適當(dāng)?shù)木幋a器參數(shù)進(jìn)行實(shí)驗(yàn).
表3 提出算法在不同編碼器層數(shù)下的檢索性能Tab.3 Retrieval performance of proposed algorithm under different encoder layers
采用無監(jiān)督算法生產(chǎn)樣本的偽標(biāo)簽作為分類參考,以實(shí)現(xiàn)網(wǎng)絡(luò)參數(shù)的優(yōu)化.其中無監(jiān)督算法選擇了常見的K-means 方法[31].為了探究聚類方法對網(wǎng)絡(luò)模型檢索性能的影響,開展無監(jiān)督算法間的對比實(shí)驗(yàn).
實(shí)驗(yàn)設(shè)置的無監(jiān)督算法包括K-means、分層聚類、DBSCAN、Canopy 和高斯混合模型(GMM).實(shí)驗(yàn)結(jié)果如表4 所示,采用K-means 算法取得了最高的指標(biāo),其中mAP 為86.23%,而其余無監(jiān)督算法的mAP 均低于86%.由實(shí)驗(yàn)數(shù)據(jù)可知,不同的無監(jiān)督算法對網(wǎng)絡(luò)模型的檢索性能會(huì)產(chǎn)生一定的影響,采用樸素的聚類方法難以獲得未知類的信息,因此需要選擇更合適的算法用于學(xué)習(xí)未知類樣本.
表4 提出算法在不同無監(jiān)督算法下的檢索性能Tab.4 Retrieval performance of proposed algorithm under different unsupervised algorithms
利用多模態(tài)融合得到表征能力更強(qiáng)的三維模型描述符,以提升檢索性能.為了驗(yàn)證多模態(tài)對三維描述符表征能力和網(wǎng)絡(luò)檢索性能的影響,開展多模態(tài)表征對比實(shí)驗(yàn).
實(shí)驗(yàn)結(jié)果如表5 所示.表中,第1~4 行展示了單模態(tài)輸入時(shí)網(wǎng)絡(luò)模型的檢索性能;第5、6 行展示了雙模態(tài)輸入時(shí)網(wǎng)絡(luò)模型的性能,其mAP 指標(biāo)均值比單模態(tài)mAP 指標(biāo)高約3%;最后1 行展示了使用全部模態(tài)時(shí)網(wǎng)絡(luò)模型的檢索性能,達(dá)到86.23%的mAP.整體而言,網(wǎng)絡(luò)模型的檢索性能隨著輸入的模態(tài)數(shù)量增加而提高,驗(yàn)證了采用多模態(tài)信息提升開放域下檢索性能的思路的正確性.
表5 提出算法在不同模態(tài)輸入下的檢索性能Tab.5 Retrieval performance of proposed algorithm under different input modalities
考慮到采用層級(jí)化的多模態(tài)融合網(wǎng)絡(luò),用于逐步融合各模態(tài)信息,該結(jié)構(gòu)導(dǎo)致不同模態(tài)進(jìn)行融合的順序不同.為了探究多模態(tài)融合網(wǎng)絡(luò)的輸入順序?qū)W(wǎng)絡(luò)模型性能的影響,開展不同融合順序下的性能對比實(shí)驗(yàn).
實(shí)驗(yàn)結(jié)果如表6 所示.表中標(biāo)注了不同模態(tài)的融合順序,由1~4 的序號(hào)表示.4 個(gè)模態(tài)具有24 種不同的融合順序,由于篇幅原因無法完全展示,如表6 所示為部分融合順序時(shí)的網(wǎng)絡(luò)模型檢索指標(biāo)、最低和最高檢索性能時(shí)的指標(biāo)及對應(yīng)的融合順序.從表6 可知,不同的融合順序?qū)W(wǎng)絡(luò)模型性能產(chǎn)生的影響較小,最低和最高檢索性能時(shí)的mAP 指標(biāo)分別為85.14%和86.23%,不同融合順序?qū)е碌男阅苷`差小于1.09%,因此可以驗(yàn)證融合順序?qū)W(wǎng)絡(luò)模型性能的影響較小.
表6 提出算法在不同融合順序時(shí)的檢索性能Tab.6 Retrieval performance of proposed algorithm in different fusion sequences
為了體現(xiàn)本文方法在檢索任務(wù)上的優(yōu)越性,開展可視化實(shí)驗(yàn).采用t-SNE(t-distributed stochastic neighbor embedding)方法進(jìn)行可視化[36],具體而言,使用t-SNE 方法將數(shù)據(jù)集中所有樣本的高維特征進(jìn)行降維,以獲得每個(gè)樣本的二維表示,近似地展示高維特征的分布情況[37].為了驗(yàn)證開放域條件下的檢索性能,提取無標(biāo)簽數(shù)據(jù)集內(nèi)的樣本特征,其中包含20 類的三維模型樣本.
如圖5(a)所示為不進(jìn)行開放域?qū)W習(xí),僅使用有標(biāo)簽數(shù)據(jù)訓(xùn)練時(shí)的可視化結(jié)果,此時(shí)網(wǎng)絡(luò)模型難以處理未知類樣本.如圖5(b)所示為利用無監(jiān)督算法進(jìn)行開放域?qū)W習(xí)后的可視化結(jié)果,與僅使用有標(biāo)簽數(shù)據(jù)訓(xùn)練相比,采用提出的模型能夠更有效地區(qū)分未知類樣本,使得不同類別間的樣本區(qū)分度更大.本文算法通過無監(jiān)督方法引入未知類信息,能夠有效地提升網(wǎng)絡(luò)模型在開放域環(huán)境下的目標(biāo)識(shí)別性能.
圖5 t-SNE 特征分布圖Fig.5 Feature distribution visualized by t-SNE
如圖6 所示為本文算法在開放域條件下的部分檢索效果圖,展示了輸入的三維模型樣本以及數(shù)據(jù)集中與其最相似的10 個(gè)三維模型.提取輸入三維模型的特征向量,將其與開放域數(shù)據(jù)集中所有樣本的特征向量進(jìn)行相似度比較;按照相似度從高到低的原則,對檢索結(jié)果進(jìn)行排序,將排序結(jié)果作為輸出結(jié)果,其中使用的相似性度量方法為余弦距離[38].從結(jié)果可以看出,檢索結(jié)果基本與輸入的待檢索樣本一致,表明本文提出的表征模型能夠?qū)崿F(xiàn)對開放域未標(biāo)注數(shù)據(jù)的有效探索和高效表征.
圖6 輸入樣本及相應(yīng)檢索結(jié)果中的前十項(xiàng)Fig.6 Input models and corresponding Top10 ranked results
本文提出基于多模態(tài)融合的開放域三維模型檢索算法.該算法有效利用了多模態(tài)信息語義一致的關(guān)聯(lián)性,借助無監(jiān)督算法探尋未知樣本間的類別信息,實(shí)現(xiàn)了對表征網(wǎng)絡(luò)模型的參數(shù)優(yōu)化,使得網(wǎng)絡(luò)模型在開放域條件下通過迭代優(yōu)化學(xué)習(xí)實(shí)現(xiàn)未知數(shù)據(jù)的有效表征,取得更好的檢索性能.實(shí)驗(yàn)部分采用三維模型領(lǐng)域權(quán)威數(shù)據(jù)集Model-Net40 進(jìn)行實(shí)驗(yàn),通過與其他典型算法的對比實(shí)驗(yàn)及消融實(shí)驗(yàn),證明了本文方法的合理性和優(yōu)越性.