梁新彥 錢宇華 郭 倩 黃 琴
(山西大學大數(shù)據(jù)科學與產(chǎn)業(yè)研究院 太原 030006) (山西省機器視覺與數(shù)據(jù)挖掘工程研究中心 太原 030006)
迅猛發(fā)展的表征學習技術(shù)和特征提取技術(shù)使得研究人員可以方便、容易地提取到數(shù)據(jù)不同視角的特征表示,進而可以更全面地認識數(shù)據(jù)、分析數(shù)據(jù)和管理數(shù)據(jù).例如1張圖片可以用尺度不變特征轉(zhuǎn)換(scale invariant feature transform, SIFT)、局部二值模式(local binary pattern, LBP)、方向梯度直方圖(histogram of direction gradient, HOG)等不同類型的特征描述;一段文本可以用漢語、英文、德文等語言描述;一段音頻可以用梅爾倒譜系數(shù)(mel frequency vepstrum voefficient, MFCC)、語譜圖(spectrogram)、過零率等不同類型的特征描述.
與單一視圖特征相比,多視圖數(shù)據(jù)可以提供更豐富、更多樣的特征信息.在多視圖數(shù)據(jù)的加持下,許多學習方法的性能得到了進一步的提升,如多視圖分類[1-3]、多視圖聚類[4-6]、多視圖度量學習[7-9]、特征選擇[10-12].此外,大量的應(yīng)用也得到了進一步提升[13-15].其中,多視圖分類方法由于廣泛的應(yīng)用場景,得到了越來越多學者的關(guān)注.
在多視圖分類任務(wù)中,融合算子起著非常重要的作用[16],因此設(shè)計有效的融合算子是這個研究領(lǐng)域的熱點研究之一.早期的研究常常依據(jù)多視圖分類方法中融合發(fā)生的階段將其分為3類:早期融合、中期融合和后期融合.
本文的關(guān)注點也是融合算子.與現(xiàn)有工作的區(qū)別是本文研究如何更好地使用融合算子,而不是設(shè)計融合算子.為了我們的研究目的,本文依據(jù)多視圖分類方法所使用的融合算子類型將其分為2類:基本融合算子和高級融合算子.
基本融合算子主要包括逐元素加、逐元素乘、逐元素平均、逐元素最大以及級聯(lián).其中,4個逐元素算子要求待融合的視圖特征維度相同;級聯(lián)會造成融合特征維度急劇增大.相比于高級融合算子,使用上述簡單算子不會給模型帶來額外的參數(shù),同時,性能表現(xiàn)尚可.這些優(yōu)勢使得這些基本融合算子一直非常受歡迎,至今它們?nèi)匀槐淮罅康难芯抗ぷ魉捎肹17-20].
高級融合算子主要包括基于雙向性和基于張量2種融合算子,其可以建模更多、更復(fù)雜的特征交互,其產(chǎn)生的融合向量表達能力趨向于更強.然而,由于這2類融合算子都是基于向量外積被提出的,導致基于它們實現(xiàn)的早期方法面臨融合向量維度災(zāi)難問題.如圖1所示,隨著視圖個數(shù)的增加,每個視圖的特征維度急劇下降.例如,即使融合向量維度空間設(shè)置為100 000,對于包含5個視圖特征的任務(wù),在融合前,每個視圖特征必須被壓縮到10維,這必定會造成信息的嚴重缺失.因此,這些高級融合算子幾乎只在視圖個數(shù)較少的場景中被使用.例如,情感分析(3個視圖)[21]、細粒度圖像識別(2個視圖)[22]、視覺問答(2個視圖)[23-24].然而,在實際應(yīng)用中,存在許多包含超多視圖(視圖個數(shù)大于3時稱為超多視圖)的場景.比如,在文獻[25]分析的多語言分類任務(wù)中,每個文本被5種語言視圖特征描述;在文獻[15,26,27]的圖像識別任務(wù)中,每張圖片分別被10個視圖特征、7個視圖特征和6個視圖特征描述.盡管基于高級融合算子多視圖學習方法在包含3個及以下視圖任務(wù)上取得極大成功,然而當視圖個數(shù)較多時,它們的表現(xiàn)有待提升.
Fig. 1 Relation between the dimension of fused vector and dimension of views圖1 融合向量維度和每個視圖特征維度間的關(guān)系
總的來說,現(xiàn)有方法中存在2個問題:
1) 如圖1所示,由于張量的融合算子導致融合向量維度災(zāi)難問題,導致基于它的方法難以推廣到包含更多視圖的應(yīng)用中.
2) 如圖2(a)所示,現(xiàn)有多視圖分類方法趨于使用某種融合算子直接作用于全部視圖特征,一次得到最終的融合向量.當視圖數(shù)量較多時,這種策略對于有效建模不同視圖的關(guān)系較困難.
Fig. 2 Difference between existing methods and our method圖2 現(xiàn)有方法與本文方法的差異
人類的多粒度認知能力是求解復(fù)雜問題、分析復(fù)雜數(shù)據(jù)的一種有效策略,為我們從多視角、多層次建模數(shù)據(jù)提供了一個新的視角和方法.多粒度粗糙建模[28]是對人類多粒度認知能力的一種有效模擬實現(xiàn),借助于它,我們可以靈活地在不同粒度水平上管理、分析、認識數(shù)據(jù).特別地,當對數(shù)據(jù)認識不足時,我們可以在一個較粗粒度水平下分析數(shù)據(jù);隨著對數(shù)據(jù)的了解,可以在一個更細粒度水平下處理數(shù)據(jù).圖3展示了在多粒度建模背景下7種生物從2個視角和3個層次進行分類的示意圖.其中,平面AOB和BOC分別表示分類7種生物的一個視角,藍色、橙色和黃色分別表示分類7種生物的一個層次,其具體語義如圖3(a)所示.每個視角、層次下的分類結(jié)果對應(yīng)于粒度建模理論中的1個粒結(jié)構(gòu),顯然本例中共包含6個粒結(jié)構(gòu),如圖3(b)所示.在同一視角下,不同層次下構(gòu)建的粒結(jié)構(gòu)具有偏序關(guān)系;同一層次下,不同視角下構(gòu)建的粒結(jié)構(gòu)間通常不具有偏序關(guān)系.顯然,多粒度建模是一種比多視角和多層次更一般的建模理論,多視角和多層次都是它的特殊情況.
受多粒度思想的啟發(fā),本文提出一種基于多粒度融合的超多視圖分類方法.正如圖2所示,與使用1個融合算子直接作用于全部視圖特征融合得到最終的融合向量的方法不同,本文所提方法在3個粒度水平上,由易到難分層實現(xiàn)多視圖特征融合.具體來說,本文方法首先建模任意2個視圖對之間的關(guān)系;然后,基于成對關(guān)系結(jié)果,建模每個視圖與其他全部視圖的關(guān)系;最后,基于每個視圖與其他全部視圖的關(guān)系結(jié)果,建模全部視圖間的關(guān)系.
本文工作的主要貢獻包括3個方面:
1) 將多粒度建模思想引入到多視圖機器學習中,提出一種多視圖數(shù)據(jù)的多粒度空間構(gòu)造方法;
2) 基于構(gòu)造的多視圖多粒度空間,提出了一種多粒度融合方法(multi-granulation fusion method, MGF),該方法從視圖對、每個視圖和其他全部視圖與全部視圖3個粒度水平上由易到難分層實現(xiàn)多視圖特征融合;
3) 在4個超多視圖數(shù)據(jù)集上的實驗結(jié)果表明MGF方法可以有效融合更多的視圖,驗證了本文方法的有效性.
人類的多粒度認知能力是求解復(fù)雜問題、分析復(fù)雜數(shù)據(jù)的一種有效策略[29].多粒度認知為我們從多視角、多層次、多粒度建模數(shù)據(jù)提供了一個新的視角和方法.借助于它,我們可以靈活地在不同粒度水平上管理、分析、認識數(shù)據(jù).由于多粒度思想的普適性,目前,它已經(jīng)被成功應(yīng)用于不同領(lǐng)域.通常,不同領(lǐng)域有其特有的多粒度空間構(gòu)造方法.比如,在粒計算領(lǐng)域,可以通過同時使用諸如等價關(guān)系、鄰域關(guān)系、相容關(guān)系等多種二元關(guān)系來構(gòu)造特征空間的多粒度結(jié)構(gòu);在計算機視覺領(lǐng)域,空間金字塔、多尺度等技術(shù)可用于獲取圖片的多粒度結(jié)構(gòu);在自然語言處理領(lǐng)域,可以分別從字符、詞、句子、段落等表示來構(gòu)造語言的多粒度結(jié)構(gòu);在語音處理領(lǐng)域,可以使用不同采樣率獲取的音頻構(gòu)造其多粒度結(jié)構(gòu).事實上,對于不同領(lǐng)域,一個通用的獲取多粒度空間的方法是基于數(shù)據(jù)的多個視圖表示,通過將每個視圖看作數(shù)據(jù)的一個粒度.可見多視圖特征是數(shù)據(jù)的一個典型多粒度表示.本文的目的是通過重新分組現(xiàn)有的特征組來構(gòu)造一個有效的多粒度融合空間,融合發(fā)生在每個粒度空間,以達到更有效的多視圖融合.
給定一個多視圖數(shù)據(jù)集,其中每個樣本同時被多個特征集V={v1,v2,…,vm}所描述,其中,vi表示第i個視圖的特征集,m表示視圖個數(shù).基于多視圖數(shù)據(jù)學習的分類任務(wù)稱為多視圖分類.其旨在通過融合多個視圖的信息來提升模型的分類性能.不同視圖的融合過程可以簡單形式化為
c=f(g1(v1),g2(v2),…,gm(vm)),
(1)
其中,f表示一個融合算子,例如逐元素加,級聯(lián),張量乘積;gi表示對每個視圖的映射函數(shù),比如,當f為逐元素加時,gi可以將不同維度的視圖特征映射為相同維度大小,以便f可以有效工作.
依據(jù)融合視圖過程中所使用的融合算子f類型,大致分為2類:基于簡單融合算子的方法和基于先進融合算子的方法.
1) 基本融合算子
基本融合算子包括逐元素加、逐元素乘、逐元素平均、逐元素最大以及級聯(lián).它們可以形式化表示為
① 逐元素加:c=v1+v2+…+v|V|;
② 逐元素乘:c=v1°v2°…°v|V|;
③ 逐元素平均:c= (v1+v2+…+v|V|)/|V|;
④ 逐元素最大:c=max(v1,v2,…,v|V|);
⑤ 級聯(lián):c=[v1,v2,…,v|V|].
由于基本融合算子具有融合維度緊湊(逐元素運算融合向量維度不會增大,級聯(lián)運算融合向量維度線性增大),計算代價較小等優(yōu)勢而被廣泛使用.例如,Wang等人[17]提出了ARTNets用于分類視頻,該方法通過級聯(lián)融合算子融合不同視圖的特征,然后,將級聯(lián)的特征向量輸入到一個分類器中.但這類方法在建模特征交互方面的能力不強.
2) 高級融合算子
為了增強特征間的交互作用,雙向性融合算子和張量融合算子被引進到多視圖機器學習中.
① 基于雙向性融合方法.雙向性聚合算子通過使用外積運算來建模不同視圖間的關(guān)系.Kim等人[23]提出了多模態(tài)低秩雙向性聚合(multi-modal low-rank bilinear pooling, MLB).該方法首先將每個視圖映射到一個低維空間,然后使用逐元素乘算子來聚合全部的低維向量,最后通過一個低秩矩陣來將聚合的向量映射為最終的融合向量.這個過程可形式化為
(2)
進一步,Yu等人[24]通過引入一個和聚合函數(shù)來增強MLB融合向量的表達能力.這個過程被形式化為
(3)
其中,SumPool(x,k)表示和聚合函數(shù),它通過一個大小為k的非重疊的窗口來聚合x中元素.
② 基于張量融合方法.代表性的工作包括:張量融合網(wǎng)絡(luò)(tensor fusion network, TFN)[30]、低秩多模態(tài)融合(low-rank multi-modal fusion, LMF)[31]和多項式張量聚合(polynomial tensor pooling, PTP)[21].
TFN融合不同的視圖:
(4)
其中,?表示克羅內(nèi)克積,W∈(m1+1)×(m2+1)×…×(m|V|+1).當視圖個數(shù)|V|很多時,W是一個非常高維的參數(shù)張量,這導致TFN訓練需要非常大的內(nèi)存開銷,有時甚至由于內(nèi)存限制不能被訓練.
為緩解W造成的維度災(zāi)難問題,Liu等人[31]提出了低秩多視圖融合方法,這個過程可以形式化為
(5)
注意到LMF最多可以考慮不同視圖特征的二階交互,Hou等人[21]提出了一個可以建模P階特征交互的多項式張量融合方法,這個過程可以形式化為
(6)
其中,f=[v1,v2,…,v|V|],P表示建模特征的階數(shù).
為了實現(xiàn)超多視圖的融合,本文提出了一種多粒度融合驅(qū)動的多視圖分類方法(multi-granulation fusion method, MGF),模型框架如圖4所示.
Fig. 4 Model architecture圖4 模型架構(gòu)圖
本節(jié)我們將詳細介紹本文提出MGF方法.如圖4所示,MGF方法由3個模塊組成:多視圖特征提取、多粒度融合空間構(gòu)造及融合和決策.下面,將依次介紹每個模塊的功能及工作原理.
如圖4所示,多視圖特征提取模塊主要目的是借助于不同的特征提取器,如SIFT,HOG,CNNs提取圖片、文本等數(shù)據(jù)的不同類型特征.提取的多視圖特征將被輸入到基于多粒度的多視圖特征融合模塊中用于后續(xù)的融合.為了消除特征提取給實驗結(jié)果帶來的影響,本文實驗使用了4個提供了多視圖特征的超多視圖數(shù)據(jù)集用于比較研究.
基于多粒度的多視圖特征融合模塊是MGF方法的核心.該模塊的主要目的是在不同粒度水平上對視圖特征進行逐層融合.該模塊學習人類在求解復(fù)雜問題時所采用的多粒度認知行為——將原問題分層求解,不同粒度之間互相關(guān)聯(lián),且不同粒度之間可以自由轉(zhuǎn)換——將現(xiàn)有方法采用的直接融合全部視圖的策略改為分層融合策略以實現(xiàn)更有效的視圖融合.當視圖個數(shù)較少時,視圖間的關(guān)系更容易建模,此時,有大量的融合算子可供選擇.因此,基于分而治之的思想,我們將全部視圖的融合分解為3部分視圖融合,本文構(gòu)造了一個具有分層結(jié)構(gòu)的3粒度融合空間.如圖5所示,這個融合空間依次從視圖對、當前視圖和其他視圖與全部視圖3個視角構(gòu)造粒度空間,在這3個不同粒度水平上可以對視圖特征進行由簡到易分層融合.多粒度融合空間構(gòu)造的核心思想為:當前層的融合空間考慮的對象要比后一層簡單,且通過融合算子可以轉(zhuǎn)化到下一層的融合空間;當前層的融合依賴于前一層的融合結(jié)果.
Fig. 5 A three granularity space for multi-view fusion圖5 多視圖融合的一個3粒度空間
具體地說,給定1個多視圖特征集合V={v1,v2,…,v|V|},其中,vi表示第i個視圖的特征,|V|表示視圖個數(shù).首先,在第1個粒度上,MGF考慮所有視圖對(vi,vj)之間的融合,相比于直接建模全部視圖之間的關(guān)系,建模視圖對之間的關(guān)系更容易;其次,在第2個粒度上,MGF通過逐元素加融合算子建模每個視圖vi與其他視圖v1,v2,…,v|V|之間的關(guān)系oi;最后,在第3個粒度上,使用逐元素加融合算子建模全部視圖o1,o2,…,o|V|間的關(guān)系.其中,n為樣本總數(shù).
基于多粒度的多視圖特征融合和決策模塊包括4個步驟:
步驟1.在粒度1(視圖對)水平下,按照式(7)融合每一對視圖(vi,vj).
vij=gθ(f(vi,vj)).
(7)
步驟2.在粒度2(每個視圖與其他全部視圖粒度)水平下,利用在粒度1水平下得到的視圖對融合結(jié)果,首先使用逐元素加聚合視圖i與其他視圖,得到它們間的融合結(jié)果ui:
ui=vi1+vi2+…+vi|V|,
(8)
然后,使用函數(shù)hθ對聚合結(jié)果ui進行深度融合:
oi=hθ(ui).
(9)
步驟3.在粒度3(全部視圖粒度)水平下,使用逐元素加融合算子聚合在粒度2水平下得到的每個視圖與其他視圖間融合的結(jié)果,得到視圖v1,v2,…,v|V|最終的融合結(jié)果c:
c=o1+o2+…+o|V|,
(10)
由于參與融合的oi較多,融合結(jié)果c的變化范圍也很大,因此,將c進行規(guī)范化操作.
步驟4.規(guī)范化c:
(11)
(12)
其中,sgn表示符號位函數(shù).式(11)表示冪律歸一化(power-law normalization);式(12)表示L2范數(shù)歸一化(L2 normalization),在多模態(tài)數(shù)據(jù)融合過程中,這2個公式常被聯(lián)合用于緩解融合向量波動值范圍較大的情況.
如圖4所示,分類模塊的目的是將融合向量映射到?jīng)Q策空間,對多視圖數(shù)據(jù)完成分類.使用1個全連接層(fully-connected layer,FC)和softmax函數(shù)將融合向量c映射到1個概率向量,得到每個樣本屬于每類的概率.也即:
(13)
其中,softmax函數(shù)定義為
(14)
其中,z=FC(c)是1個長度為k的向量,k為類別數(shù).
MGF通過隨機梯度下降法進行優(yōu)化求解,定義的交叉熵作為損失函數(shù):
(15)
其中,n為樣本總數(shù).
對于MGF需要說明3點:
1) 在粒度1水平下,視圖對間的融合較容易,因此,用于視圖對間的融合算子f的選擇較多,理論上,現(xiàn)有的融合算子都可以使用.
2) 在粒度2和粒度3水平下,待融合的向量較多,不宜選擇產(chǎn)生額外參數(shù)的融合算子.因此本文使用逐元素加融合算子.
3) 在粒度1和粒度2中使用的深度融合函數(shù)gθ和hθ作用的對象為融合后的向量,對其進一步的融合帶來很少的參數(shù).本文中,它們通過1個多層感知機來實現(xiàn).
本文所有方法使用Tensorflow實現(xiàn).計算環(huán)境是Ubuntu 16.04.4,512GB DDR4 RDIMM,2X 40-Core Intel?Xeon?CPU E5-2698 v4 @2.20 GHz, NVIDIA Tesla P100,顯存16 GB.
所有模型采用相同的訓練設(shè)置.具體來說,使用Adam優(yōu)化器,其學習率設(shè)置為0.001.每個模型訓練100輪(epoch),如果一個模型的性能在10個epoch內(nèi)沒有提升則訓練結(jié)束.
本文實驗使用4個超多視圖基準數(shù)據(jù)集:Chekbook-10k(CB)[15],Ainimal with Attributes(AWA)[26],NUS-WIDE(NUS)[27]和Reuters[25],它們的統(tǒng)計信息如表1 所示.
Table 1 Statistic Information of Datasets表1 數(shù)據(jù)集統(tǒng)計信息
CB[15]是1個化學結(jié)構(gòu)識別的多視圖數(shù)據(jù)集,包含10萬張化學結(jié)構(gòu)圖片,屬于10 000類,每類包含10張圖片,每張圖片由10個深度特征描述.
AWA[26]是一個包含50種動物的多視圖數(shù)據(jù)集,包含30 475張動物圖片,每張圖片由7個視圖特征描述.
NUS[27]由23 438張圖片組成,每張圖片由6個圖片相關(guān)的視圖特征和1個文本相關(guān)的視圖特征描述,它們被分成10類.
Reuters[25]是一個包含111 740條文本,每條文本由5種語言描述的多視圖文本分類數(shù)據(jù)集.
各個數(shù)據(jù)的各個視圖的分類性能如圖6所示.從圖6可以看出,CB和Reuters數(shù)據(jù)集中每個視圖性能都可以獲得較好的性能,AWA中深度特征性能要遠遠好于其他手工特征,NUS中語義特征tags1k遠遠好于其他手工特征.
Fig. 6 Experimental results for single view on four datasets圖6 4個數(shù)據(jù)集上單視圖實驗結(jié)果
為減少數(shù)據(jù)集劃分與模型訓練隨機性帶來的影響,所有數(shù)據(jù)集按照8∶2(訓練集:測試集)的比例隨機劃分5次.每個方法在5個劃分數(shù)據(jù)集上的平均性能和標準差將被報告.
本文方法分別與14個多視圖方法進行比較研究,包括3個集成學習方法、5個多視圖基線方法和6個最先進的多視圖方法.
1) 3個集成學習方法
① Best.使用每個視圖訓練1個模型,選擇性能最好的模型作為最終融合模型.
② SSV(simple soft voting).使用每個視圖訓練一個模型,簡單平均全部模型的概率輸出結(jié)果作為最終的融合結(jié)果.
③ MR(maximum rule).使用每個視圖訓練一個模型,選擇全部模型中最高置信度值的輸出結(jié)果作為最終的融合結(jié)果.
2) 5個多視圖分類基線方法:逐元素加(Addition)、逐元素平均(Average)、逐元素最大(Max)、逐元素乘(Multiplication)和級聯(lián)(Concatenation)
3) 6個最先進的多視圖分類方法
① MLB[23].它是基于雙線性聚合的方法,通過|V|+1個矩陣乘積運算近似|V|個向量的外積運算來緩解融合向量維度災(zāi)難問題.超參數(shù)m被設(shè)置為128,d依次從{64,128,256,512}取值.
② MFB[24].它是MLB一個增強方法,在MLB使用|V|個矩陣將每個視圖特征映射到低維空間后,通過引用一個帶有無重疊一維窗口的和聚合函數(shù)來提升每個映射向量的表達能力,然后再使用逐元素乘積融合算子聚合它們.超參數(shù)m設(shè)置為128,k依次從{1,2,3,4,5}取值.
③ TFN[28].首先將每個視圖特征與常數(shù)“1”進行拼接,然后使用外積依次融合每一個拼接后的視圖特征.用這種方式顯示建模單視圖、2個視圖,…,|V|個視圖之間的交互.超參數(shù)m設(shè)置為128,mi依次從{2,4,6,8}取值.
④ LMF[30]. 它通過帶有視圖私有的因子的低秩多模態(tài)完成視圖融合.m設(shè)置為128,mi設(shè)置為128,r依次從{2,4,6,8}取值.
⑤ PTP[21].不同于其他直接使用外積融合不同的視圖特征,PTP先級聯(lián)全部視圖特征,然后計算級聯(lián)向量的張量積.超參數(shù)m設(shè)置為128,mi依次從{16,32,64}取值,p依次從{1,2,3}取值.
⑥ EmbraceNet[32].它是一個對缺失視圖數(shù)據(jù)魯棒的方法.首先將不同視圖映射到相同維度的向量,然后,隨機選擇一個視圖中第i位置的元素作為融合向量第i位置的值.重復(fù)該過程,選擇出融合向量的全部位置的值.在實驗中,每個視圖被選擇的概率值p設(shè)置為1/|V|.
本文使用準確度(Acc)和卡帕(Kappa)這2個指標來評價方法的性能.
Acc是分類任務(wù)常用的指標,然而對于樣本不平衡、噪聲干擾的數(shù)據(jù)集,分類方法易出現(xiàn)隨機一致性問題[33].此時,準確度指標不能真實反映出方法的性能.因此,本文也采用了更公平的kappa指標.這2個指標的定義可以基于表2的混淆矩陣誘導出.
Acc的定義為
Table 2 Confusion Matrix表2 混淆矩陣
(16)
Kappa指標的定義為
(17)
這2個評價指標的值越大,方法性能越好.
本文所提方法與14種對比方法在4個數(shù)據(jù)集上的實驗結(jié)果如表3和表4所示.其中,最好的結(jié)果使用粗體標記,+,=,-分別表示在成對t-test下MGF在95%的置信水平顯著好于、持平和差于對應(yīng)的比較方法.
實驗結(jié)果如表3和表4所示,在CB,AWA和NUS數(shù)據(jù)集上,MGF排在第1名,在準確度指標上比第2名分別高2.56%,1.08%和0.33%;在kappa指標上分別高2.56%,1.11%和0.34%.在Reuters數(shù)據(jù)集上,MGF方法排在第2名,在準確度和Kappa指標上比第3名分別高1.80%和2.15%.在Reuters數(shù)據(jù)集,SSV 表現(xiàn)優(yōu)于MGF,這主要是由于它們的訓練策略.具體來說,相比于其他數(shù)據(jù)集,Reuters數(shù)據(jù)集的每個視圖特征維度極大,最小維度為11 547,最大維度為34 279. SSV首先在每個視圖上單獨訓練一個模型,然后平均|V|個模型的分類概率值作為融合模型的得分概率.然而,MGF需全部視圖特征都參與訓練,高維的視圖特征給模型帶來了大量的參數(shù),導致模型訓練困難.然而,方法MGF仍然取得了采用同類融合策略方法中的第1名.此外,就平均準確度指標而言,MGF取得84.68%,排名第1,比排在第2名的MFB方法高1.67%.再者,根據(jù)成對t-test,MGF在112個不同實驗設(shè)置下(14個對比方法、2個評價指標、4個數(shù)據(jù)集),在95%的置信水平顯著好于對比方法的次數(shù)為106,持平次數(shù)為4,差于對比方法的次數(shù)為2.這些結(jié)果清晰表明本文提出的MGF方法的性能統(tǒng)計上優(yōu)于對比方法,證明多粒度融合策略在多視圖分類任務(wù)上確實有用.
Table 3 Accuracy Results (Mean±Standard Deviation) Among Different Comparative Methods on Four Datasets表3 不同方法在4個數(shù)據(jù)集上的準確度比較(均值±標準差)
Table 4 Kappa Results (Mean±Standard Deviation) Among Different Comparative Methods on Four Fatasets表4 不同方法在4個數(shù)據(jù)集上的Kappa值比較(均值±標準差)
此外,在視圖個數(shù)較大的場景下,采用高級融合算子的方法無法獲得理想結(jié)果.它們的性能甚至比采用簡單融合算子的方法還差,這主要是因為簡單融合算子(級聯(lián)除外)不會引入額外參數(shù),然而,高級融合算子會引入額外的參數(shù),且參數(shù)量會隨著視圖個數(shù)的增加而增大,增大了這些模型過擬合的風險.
為了從統(tǒng)計上驗證MGF的有效性,基于表3和4實驗數(shù)據(jù),通過統(tǒng)計每個方法顯著性優(yōu)于與顯著性差于其他方法的次數(shù)之間的差值來分析每個方法的統(tǒng)計性能[34].具體地說,給定2個方法a和b,假設(shè)它們分別在同一數(shù)據(jù)集上運行n次, 2個方法n次實驗結(jié)果的均值分別表示為μa與μb,方差分別表示為σa與σb.如果滿足:
(18)
那么方法a顯著性優(yōu)于方法b,否則方法a顯著性差于方法b.
如圖7所示,方法MGF的條形圖最高,表明它的性能顯著性優(yōu)于其他對比方法.此外,注意到TFN方法的負半軸最高,表明其性能顯著性差于其他方法,這進一步驗證了視圖維度的過度壓縮會導致性能的嚴重退化.因此,那些會導致融合向量維度急劇增大的方法不適用于視圖個數(shù)過多的情景.
Fig. 7 Significant difference comparison of Acc and Kappa圖7 ACC和Kappa顯著性差異比較
總體來說,大量的實驗驗證了方法MGF的有效性.這些結(jié)果表明,分層融合策略確實可行.
與其他對比方法相比,MGF方法由于采用在多個粒度下對視圖信息進行融合的策略,導致其會引入額外的學習參數(shù).因此,我們分析、比較了所有方法的可學習參數(shù)量和訓練時間,實驗結(jié)果如圖8所示.從中可以發(fā)現(xiàn),在4個數(shù)據(jù)集上,逐元素加(addition)和級聯(lián)(concat)方法學習參數(shù)量和訓練時間都是較少的.雖然MGF的學習參數(shù)量和訓練時間比基于逐元素加(addition)和級聯(lián)(concat)算子的多視圖方法要多和長.但是,由于它只使用這2種融合算子,與一些基于張量的融合算子方法如TFB相比,它的學習參數(shù)量和訓練時間都是可接受的.
Fig. 8 Comparison of parameters and training time among different methods圖8 不同方法的學習參數(shù)和訓練時間對比情況
本節(jié)旨在研究融合維度大小和不同粒度層中融合算子的選擇對MGF方法的影響.
1) 融合維度影響分析
本實驗對融合維度設(shè)置為64,128,256及512的MGF方法的實驗性能進行比較,實驗結(jié)果如圖9所示,從中可以看出:對于數(shù)據(jù)集CB和NUS,隨著融合維度增大,MGF的準確度增加.例如在CB數(shù)據(jù)集上,融合維度512的MGF要比64的MGF的準確度值提高了91.96%-87.95%=4.01%,在AWA和Reuters數(shù)據(jù)集上,準確度值隨融合維度的增大變化較小,圖9(b)和(d)出現(xiàn)的波動可能是隨機性造成的,例如對于AWA數(shù)據(jù),當融入維度由128變?yōu)?56時,MGF模型性能提高了89.82%-89.71%=0.11%,而當融入維度由256變?yōu)?12時,性能下降了89.82%-89.65%=0.17%.上述實驗結(jié)果表明不同的數(shù)據(jù)集對于融合維度的敏感性是不同的,因此使用交叉驗證選擇合適的融合維度值是一個不錯的策略.
Fig. 9 Change of accuracy with the dimension of fused vector圖9 Acc隨融合維度取值的變化情況
2) 融合算子影響分析
本部分旨在研究在不同粒度層上融合算子的選擇對MGF方法的影響,實驗結(jié)果如圖10所示.
Fig. 10 The relation between fusion operator adopted by the first, second and third granularities and accuracy圖10 粒度層1,2,3所采用融合算子與分類準確度之間的關(guān)系
實驗設(shè)置:融合維度設(shè)置為64,選擇Addition,Mul,Max,Average和Concat這5種基本融合算子用于實驗比較.MGF方法包含3個粒度層,每個粒度層可從5種融合算子任取一種,共125種情況,為了緩解隨機性對實驗結(jié)果的影響,每種參數(shù)組合的MGF方法都運行5次,報告5次結(jié)果的均值,因此MGF方法需在每個數(shù)據(jù)集上運行625次.為了緩解參數(shù)組合太多的問題,采用“固定變量法”策略,即改變一個粒度層中的融合算子,固定其他粒度層中的融合算子.實驗分為3組:①粒度1改變,粒度2和3固定選取Addition融合算子;②粒度2改變,粒度1和3固定選取Addition融合算子;③粒度3改變,粒度1和2固定選取Addition融合算子.實驗結(jié)果如圖10所示,其中每個子圖橫坐標軸上粒度1、粒度2和粒度3分別對應(yīng)上述3組實驗.
從圖10中可知:①Mul算子對MGF的性能影響最大,特別是涉及的待融合元素較多時,比如當MGF中粒度層2,3采用Mul時,其分類性能幾乎為0.這是由于當融合視圖數(shù)量是10時,1個標量需要與其他9個標量進行9次乘法運算,這將導致信息消失或者彌散,進而引起模型訓練崩塌.②Addition融合算子在4個數(shù)據(jù)集、3個粒度層上都表現(xiàn)出了有競爭力的性能,這反映了加運算可以增強信號,這也與文獻[15]中對EDF搜索發(fā)現(xiàn)的融合網(wǎng)絡(luò)中所使用融合算子的頻次統(tǒng)計結(jié)論一致.
針對超多視圖分類場景問題,本文提出了一種多粒度融合的超多視圖分類方法.該方法從3個粒度,由簡單到難,分層建模視圖對,每個視圖與其他視圖之間,全部視圖之間關(guān)系.在4個代表性數(shù)據(jù)集上的實驗結(jié)果展示了本文提出方法的有效性,表明了在不同粒度水平進行多視圖特征融合策略具有一定的優(yōu)勢.
粒度空間的構(gòu)造不是唯一的,不同融合粒度的構(gòu)建方式多種多樣.在接下來的研究中,構(gòu)建更加有效的融合粒度空間是一個值得研究的重要科學問題.