杜國王 周麗華 王麗珍 杜經緯
(云南大學信息學院 昆明 650500)
(dugking@mail.ynu.edu.cn)
隨著數(shù)字傳感器的快速增長和社交網(wǎng)絡的廣泛應用,數(shù)據(jù)獲取的方式和渠道越來越多樣化.同一事件或樣本可以從不同的視角收集不同類型的數(shù)據(jù),對于單模態(tài)的數(shù)據(jù)也可以提取多種特征來描述樣本,例如可以從圖像中提取顏色、紋理等多種特征以捕獲比例、遮擋、照明及旋轉變化,從而提高圖像識別的魯棒性[1].通常,從不同視角收集的數(shù)據(jù)既包含一致性信息也存在互補性信息,綜合考慮不同視角之間的關聯(lián)信息有助于提高數(shù)據(jù)分析的性能.由于現(xiàn)實中多視角數(shù)據(jù)的標簽難以獲取,因此多視角聚類作為一種無監(jiān)督學習方法受到眾多研究者的關注.
多視角聚類旨在融合多視角數(shù)據(jù)中蘊含的一致性和互補性信息,據(jù)此將樣本劃分為簇,使得同一簇中樣本間的相似度高,不同簇中樣本間的相似度低.根據(jù)不同的劃分策略,現(xiàn)有的多視角聚類算法大致可以分為基于重構的、基于圖的、基于k-means的和基于信息瓶頸的4類.基于重構的多視角聚類算法主要使用非負矩陣分解或自編碼技術[1-6]完成聚類,其主要思想是通過重構原始數(shù)據(jù)尋找樣本的低維表征,然后基于低維表征進行聚類分析.基于圖的多視角聚類算法[7-11]在每個視角內構造近鄰圖,然后將基于各個視角的近鄰圖融合為一個公共的近鄰圖,最后基于公共的近鄰圖完成聚類.基于k-means的多視角聚類算法[1,5,10,12-13]在各個視角內獨立進行k-means聚類,然后融合各個視角的聚類結果為最終結果.基于信息瓶頸的多視角聚類算法[14-15]通過將不同視角中的數(shù)據(jù)對象壓縮到一個“瓶頸變量”中,同時最大化地保存數(shù)據(jù)所蘊含的信息量以獲取數(shù)據(jù)對象間的內在模式.
雖然現(xiàn)有的多視角聚類算法能夠取得較好的聚類結果,并廣泛應用于眾多領域,但它們沒有同時考慮視角內描述樣本的不同特征的重要性和同一樣本在不同視角內的權重.實際上,多視角數(shù)據(jù)通常具有高維性,而這些高維特征中又僅有部分特征對聚類有較大貢獻,并且當數(shù)據(jù)非常稀疏時,數(shù)據(jù)重構過程會過多關注0元素的貢獻,使得學習的低維表征不能很好地近似原始數(shù)據(jù);同時數(shù)據(jù)稀疏性也會導致樣本間距離度量不準確,以致每個視角內構造的近鄰圖不能合理地刻畫樣本間的相似性.因此,現(xiàn)有的多視角聚類算法在稀疏數(shù)據(jù)中難以獲得較好的聚類性能.另外,同一樣本在不同的視角中對聚類的貢獻也可能不同,在一個視角內位于簇中心的樣本在另一個視角內可能位于簇邊緣.因此,有效區(qū)分視角內不同特征的權重和同一樣本在不同視角內的權重是提高多視角聚類性能的重要因素.
文獻[13,16-17]提出了基于加權k-means的策略來學習視角內每個特征的權重,但是它們沒有考慮數(shù)據(jù)稀疏性問題,因此特征權重的分配不一定合理.文獻[1,5,10,13]考慮了不同視角的權重,但是它們將每個視角的權重作為相應視角中所有樣本的權重,沒有區(qū)分每個樣本在不同視角中的不同重要性.此外,許多聚類算法獨立處理表征學習和聚類,即首先提取多視角特征,然后使用k-means或譜聚類等傳統(tǒng)聚類算法獲得聚類結果.這種分離式學習策略沒有很好地利用多視角表征學習與聚類之間的關系,也會導致聚類效果不理想.最近,深度嵌入聚類(deep embedding clustering, DEC)[18]設計了一個聚類嵌入層,將表征學習和聚類融為一體,協(xié)同訓練、相互促進,進一步提升了聚類性能.然而,DEC模型只適用于單視角數(shù)據(jù),在多視角數(shù)據(jù)的每個視角上獨立使用DEC模型雖然能夠完成聚類,但是由于沒有融合蘊含在多視角數(shù)據(jù)中的關聯(lián)信息,聚類性能往往不盡人意.
本文提出了一種基于兩級權重的多視角聚類(multi-view clustering based on two-level weights, MVC2W)算法,該算法設計了特征級和樣本級的權重策略,引入特征級和樣本級注意力機制學習視角內每個特征的權重和每個樣本在不同視角內的權重.兩級注意力機制的引入使得算法在訓練過程中能夠更加關注重要的特征和重要的樣本,能夠合理融合不同視角的信息,從而有效克服數(shù)據(jù)高維性和稀疏性對聚類結果的影響.同時,MVC2W引入了DEC模型中的聚類嵌入層[18],將表征學習和聚類融為一體,協(xié)同訓練,進一步提高多視角聚類的性能.
本文的主要貢獻概括為3個方面:
1) 提出了一種基于兩級權重的多視角聚類算法MVC2W,該算法設計了特征級和樣本級的權重策略,層次化地區(qū)分了多視角數(shù)據(jù)中2種信息的權重.同時引入聚類嵌入層,將表征學習和聚類融合在一起,協(xié)同訓練、相互促進.
2) 引入特征級注意力機制和樣本級注意力機制學習特征級和樣本級權重,使算法在訓練過程中能夠更加關注重要的特征和重要的樣本,合理融合不同視角的信息,有效克服數(shù)據(jù)高維性和稀疏性對聚類結果的影響.
3) 在5個稀疏程度不同的數(shù)據(jù)集上進行了大量實驗,實驗結果表明,本文所提的MVC2W算法的聚類性能均優(yōu)于11個基線算法,尤其是在稀疏程度較高的數(shù)據(jù)集上,MVC2W的聚類性能的提升更加顯著.
1) 基于重構的多視角聚類算法.文獻[2]提出了基于非負矩陣分解的多視角聚類(multi-view clustering via nonnegative matrix factorization, Multi-NMF)算法,該算法通過最小化每個視角的系數(shù)矩陣與一致性矩陣之間的差異來學習一致性矩陣并獲得聚類結果;為了捕獲每一個視角的局部幾何信息,文獻[3]結合圖正則約束[19]和MultiNMF,提出了基于圖正則非負矩陣分解的多視角聚類(multi-view clustering via graph regularized nonnegative matrix factorization, MultiGNMF)算法;文獻[5]結合概念矩陣分解[20]和圖正則[19]約束,提出了基于圖正則概念矩陣分解的多視角聚類(multi-view clustering via concept factorization with local manifold regularization, MVCC)算法,該算法能夠自動學習每個視角權重;文獻[1]提出了基于深度半正定矩陣分解的多視角聚類(deep matrix factorization multi-view clustering, DMF-MVC)算法,該算法通過多層的半正定矩陣分解以消除來自不同視角的干擾因素,達到僅將聚類信息保留在最后表征層的目的,同時DMF-MVC也設計了權重學習策略來捕獲不同視角的重要性;文獻[6]聯(lián)合學習每個視角的表征,并使用新的嵌套自編碼器框架將各個視角的表征編碼為完整的潛在表征(autoencoder in autoencoder networks, AE2-Net),從而靈活地融合來自每個視角的內在信息.
上述多視角聚類算法主要使用了非負矩陣分解或自編碼技術,其中一些算法也能夠學習不同視角的權重.然而,這些算法均沒有考慮每一個視角內表征的多樣性,這在很大程度上影響了多視角聚類的效果.雖然文獻[4]利用基于協(xié)同正交約束的非負矩陣分解(non-negative matrix factorization with co-orthogonal constraints, NMFCC)捕獲每一個視角內部的多樣性,但是它沒有區(qū)分同一樣本在不同視角中的不同貢獻.
2) 基于圖的多視角聚類算法.多視角數(shù)據(jù)的不同視角之間往往蘊含一些互補信息,文獻[9]將子空間聚類擴展到多視角聚類(diversity-induced multi-view subspace clustering, DiMSC),并利用希爾伯特-施密特獨立標準(Hilbert-Schmidt independence criterion, HSIC)作為多樣性正則項來約束近鄰矩陣之間的互補性;文獻[7]提出了一種不需任何參數(shù)即可自動學習權重的多圖學習框架(auto-weighted multi-view graph learning, AMGL);文獻[8]提出了一致性多圖多視角聚類(multiview consensus graph clustering, MCGL)算法,該算法在每一個視角內通過秩約束學習圖矩陣,然后將各個視角學習到的圖矩陣優(yōu)化為一個全局圖,最后通過拉普拉斯圖約束優(yōu)化全局圖;文獻[21]提出了一種基于自適應結構概念矩陣分解的多視角聚類(adaptive structure concept factorization for multiview clustering, ASMV)算法,對全局圖的拉普拉斯矩陣施加秩約束,以實現(xiàn)理想的近鄰分配,并且通過學習視角權重和無監(jiān)督降維的自適應圖來融合不同視角的信息,以獲得最優(yōu)聚類結果.
3) 基于信息瓶頸的多視角聚類算法.文獻[14]提出了一種雙重加權的多視角聚類(dual-weighted multi-view clustering, DWMVC)算法,通過互信息自動學習視角權重,并將這些權重施加到基于內容和上下文的多視角數(shù)據(jù)表示上,使2種數(shù)據(jù)表示的視角互補信息得以充分利用;文獻[15]提出了基于信息瓶頸的無冗余多視角聚類(non-redundant multi-view clustering based on information bottleneck, NrMIB)算法,該算法基于信息瓶頸最大化數(shù)據(jù)中的信息,確保高質量的聚類結果,同時通過最小化聚類結果與已知數(shù)據(jù)劃分模式之間的互信息,降低冗余.
4) 基于k-means的多視角聚類算法.文獻[16]同時學習視角和特征的重要性,提出了基于加權k-means的多視角聚類(TW-k-means)算法,但是該算法忽略了視角之間的相互關系;文獻[12]提出了基于特征選擇的加權多視角聚類,將特征級和視角級權重方案引入多視角聚類任務;文獻[13]提出了融合特征級和視角級兩級權重的協(xié)同k-means多視角聚類(two-level weighted collaborativek-means for multi-view clustering, TWCOKM)算法,該算法通過加權策略學習每個特征和每個視角的重要性,同時以協(xié)作方式設計目標函數(shù),從而有效地發(fā)現(xiàn)嵌入在多視角中的公共結構.
表征學習和聚類的融合.文獻[22]提出了一種基于深度神經網(wǎng)絡和k-means的聚類框架(deep clustering network, DCN).在t-SNE[23](t-distributed stochastic neighbor embedding)啟發(fā)下,DEC[18]采用了一個深度棧式自編碼(stacked autoencoder, SAE)[24]初始化特征提取模型,然后通過自訓練目標分布迭代優(yōu)化基于KL(Kullback Leibler)散度的聚類目標.與表征學習和聚類分離的方式相比,這些聯(lián)合學習算法展示出極大的優(yōu)越性.但是,目前的研究主要是單視角數(shù)據(jù)的聚類,對于多視角數(shù)據(jù)中表征和聚類的聯(lián)合學習尚末深入研究.
目前,在多視角聚類框架中,如何學習視角內每個特征的權重和同一樣本在不同視角內的權重,以及如何聯(lián)合聚類和表征學習仍然是一個開放性的問題.近年來,注意力機制由于能夠捕獲數(shù)據(jù)中的重要信息,已經被廣泛應用于自然語言處理[25]、圖像識別[26]和圖數(shù)據(jù)分析[27].同時,自編碼[28]由于能夠無監(jiān)督地學習數(shù)據(jù)中的非線性結構,已經成為表征學習和數(shù)據(jù)降維的主流方案之一.本文提出的算法MVC2W結合了注意力機制和自編碼模型.與MVC2W相關的算法是AE2-Net,TWCOKM,DWMVC.AE2-Net和MVC2W都是基于自編碼的深度多視角聚類,但是AE2-Net并沒有考慮2種類型的權重.TWCOKM雖然考慮了特征級權重,但是TWCOKM不能很好地處理稀疏度高的數(shù)據(jù).DWMVC利用互信息度量每個視角的權重,但是忽略了特征級權重.MVC2W同時考慮了特征級和樣本級的權重,能夠有效應對高維特征和數(shù)據(jù)稀疏問題.另外,MVC2W引入了DEC框架,將表征學習和聚類融合在一個統(tǒng)一的框架中,協(xié)同訓練、相互促進.
本節(jié)首先給出多視角聚類的相關定義,然后詳細介紹所提的MVC2W多視角聚類算法.
定義1.多視角數(shù)據(jù).設{X(v)∈表示M個視角中的N個樣本,其中X(v)∈N×d(v)表示第v個視角的特征矩陣,d(v)表示第v個視角的特征維度.表示第v個視角中的第i個樣本.表示第v個視角內第i個樣本的第j個特征.
定義2.多視角聚類.給定多視角數(shù)據(jù){X(v)∈多視角聚類通過結合不同視角的特征信息,將N個樣本劃分為C個簇,同一簇內樣本間的相似度高,不同簇間樣本的相似度低.
本文所提的MVC2W多視角聚類算法設計了兩級權重策略,能夠層次化地學習視角內各個特征的權重和同一樣本在每個視角內的權重,以緩解數(shù)據(jù)的高維及稀疏問題.MVC2W算法的整體結構如圖1所示,其中包含了3個組件:1)特征級權重組件.該組件設計了基于特征級注意力機制重構的自編碼器,用于學習視角內每個特征的權重并獲得每個視角的低維表征.2)樣本級權重組件.該組件利用樣本級注意力機制學習每個樣本在不同視角中的權重,并對樣本在每個視角內的低維表征進行加權求和,以獲得樣本的公共表征.3)聚類嵌入層[18]組件.該組件聯(lián)合優(yōu)化樣本的公共表征和聚類分布,并基于樣本的聚類分布為樣本分配簇標簽.
Fig. 1 The overview of MVC2W圖1 MVC2W算法整體結構
2.2.1 特征級權重組件
(1)
(2)
(3)
通過最小化式(3),每個視角內優(yōu)化的自編碼能夠平滑數(shù)據(jù)流形信息并保存樣本之間的相似性[29].然而,式(3)同等對待每個特征對于損失函數(shù)的貢獻,忽略了視角內不同特征往往具有不同重要性的事實.此外,當數(shù)據(jù)的稀疏程度非常高時,解碼器重構過程中0元素會得到更多關注.因此,對非0元素與0元素在重構誤差中施加不同權重,將式(3)的損失函數(shù)修正為
(4)
其中,B(v)∈N×d(v)表示第v個視角的權重矩陣,⊙表示逐元素相乘.
對于權重矩陣B(v)的選取,本文提出了3種方案.第1種方案將與X(v)中特征值為0的元素對應的項賦值為0,將與X(v)中特征值為非0的元素對應的項賦值為β>0,即:
(5)
這種方案完全抑制了特征值0的貢獻.然而,這些特征值0雖然導致了數(shù)據(jù)的稀疏性,但是完全抑制它們的貢獻也不盡合理.因此第2種方案將與X(v)中特征值為0的元素對應的項賦值為α>0,即:
(6)
(7)
基于注意力機制重構的損失函數(shù)定義為
(8)
2.2.2 樣本級權重組件
通常,多視角數(shù)據(jù)中不同的視角提供了不同的語義,同一樣本在不同的視角中對于聚類的貢獻可能不同.為此,本文引入樣本級注意力機制,自動學習每個樣本在不同視角中的權重.
(9)
(10)
(11)
2.2.3 聚類嵌入層組件
受DEC[18]的啟發(fā),本文引入聚類嵌入層將表征學習和聚類融合在一起,協(xié)同訓練、相互促進.
(12)
由于樣本的簇標簽是未知的,因此定義一個目標分布來輔助優(yōu)化聚類.目標分布P可以基于軟聚類分布Q=[qi,j]∈N×C進行計算,P中的元素pi,j的計算方式為
(13)
聚類嵌入層的損失函數(shù)定義為分布Q和P之間的KL散度:
(14)
聚類嵌入層可以看作是一種自監(jiān)督訓練模塊,該模塊通過分布Q計算目標分布P,進而,分布P又用于監(jiān)督分布Q的更新.最后,基于qi,j(j=1,2,…,C)的值,分配樣本i的簇標簽yi∈{1,2,…,C}為
(15)
N個樣本的簇標簽向量表示為y=(y1,y2,…,yN).
4.4 在該工程鋼筋混凝土不等肢剪力墻結構中,增大了連梁剛度。但不等肢聯(lián)肢墻的抗震研究尚有很多問題,在今后的研究中會得到更好的解決。
聯(lián)合優(yōu)化3個組件,MVC2W算法整體的損失函數(shù)為
(16)
圖1所示模型的優(yōu)化過程包括預訓練和微調訓練2個步驟.
預訓練采用Adam優(yōu)化器完成,主要用于初始化模型,學習率設定為10-3,所有數(shù)據(jù)樣本作為一個批次訓練每個視角的自編碼器.其中,特征級和樣本級注意力機制以及聚類嵌入層并不參與預訓練.
(17)
其中,N是樣本總數(shù).
MVC2W算法如算法1所示,利用深度學習框架Tensorflow實現(xiàn)該算法,其運行環(huán)境為Ubuntu 16.04和1080ti顯卡以及64GB內存.
算法1.MVC2W算法.
輸入:多視角數(shù)據(jù){X(v)∈學習率l、平衡參數(shù)λ、迭代停止閾值δ、迭代次數(shù)epochs、聚類數(shù)目C、目標分布更新間隔T;
輸出:聚類結果y.
③t=0;
④ Repeat
⑤ 根據(jù)式(12)計算軟聚類分布Q;
⑥ if (t%T==0) then
⑦ 根據(jù)式(11)~(13)更新目標分布P;
⑧ end if
⑨ 根據(jù)式(15)計算簇標簽y;
⑩ 根據(jù)式(17)計算連續(xù)2次迭代中簇標簽發(fā)生變化的樣本比例g;
1) 數(shù)據(jù)集.為了驗證MVC2W算法的聚類效果,本文選取了5個真實數(shù)據(jù)集進行實驗.5個數(shù)據(jù)集分別為BBC,BBCSport,NGs,HW2Source,100Leaves.數(shù)據(jù)集的統(tǒng)計信息如表1所示:
Table 1 The Statistics of Datasets表1 數(shù)據(jù)集統(tǒng)計信息
表1中BBC,BBCSport數(shù)據(jù)集中的文檔分別從BBC新聞網(wǎng)站和BBCSport網(wǎng)站收集,文檔分為田徑、板球、足球、橄欖球和網(wǎng)球5個類;NGs中文檔的3個視角對應于數(shù)據(jù)預處理的3種特征提取方法;HW2Source中的2個視角對應于MNIST和USPS這2個手寫體數(shù)字(0~9)源;100Leaves包含100種植物,每種植物有16個樣本,每個樣本從紋理、邊距和形狀3個視角進行描述.
本文使用每個視角內所有樣本稀疏度的平均值作為每個視角的稀疏度.每個樣本的稀疏度使用稀疏度算子[30]進行度量,該算子計算為
(18)
其中,d表示樣本的維度,x=(x1,x2,…,xn)表示需要計算稀疏度的樣本.當樣本x僅包含一個非0分量時,樣本x的稀疏度為1;當樣本x的所有分量均相等時,樣本x的稀疏度為0.稀疏度數(shù)值越大,表明數(shù)據(jù)越稀疏.5個數(shù)據(jù)集中各個視角的稀疏度如表2所示.從表2可以看出,HW2Source和100Leaves這2個數(shù)據(jù)集在各個視角的稀疏度較低,但是BBC,BBCSport,NGs這3個數(shù)據(jù)集在各個視角的稀疏度都非常高.
Table 2 Sparseness of Different Views of Datasets表2 數(shù)據(jù)集不同視角的稀疏度
2) 對比算法.本文實驗的對比算法選取了11種流行的多視角聚類算法,包含6種基于重構的算法(MultiNMF[2],MultiGNMF[3],DMF-MVC[1],MVCC[5],AE2-Net[6],NMFCC[4]),3種基于圖的算法(ASMV[10],DiMSC[9],MCGL[8]),1種基于k-means的算法(TWCOKM[13])以及1種基于信息瓶頸的算法(DWMVC[14]).實驗中所有對比算法的代碼均從各文獻的作者個人主頁下載,并根據(jù)原論文建議的參數(shù)區(qū)間,調整所有對比算法的相應參數(shù),使其獲得最優(yōu)結果.在MVC2W算法中,設置λ=0.1,每個視角內的自編碼器采用5層結構,網(wǎng)絡結構均設置為[d(v),512,32,512,d(v)],其中d(v)是指每個視角數(shù)據(jù)的輸入維度.所有算法使用的相關參數(shù)如表3所示:
Table 3 Related Parameters of Algorithms表3 算法的相關參數(shù)
3) 估指標.本文采用聚類分析中常用的2種指標,即準確度(accuracy,ACC)和規(guī)范化互信息(nor-malized mutual information,NMI),評價所有算法的聚類效果.ACC和NMI的值越大,則表示聚類效果越好.
為了避免實驗過程中隨機初始化帶來的干擾,實驗結果均由相關算法在每個數(shù)據(jù)集上運行10次得到的均值和標準差組成.表4和表5展示了12種算法在5個數(shù)據(jù)集上的ACC和NMI,其中粗體表示最好的聚類結果,括號內的值表示標準差.
從表4和表5可以看出,MVC2W在BBC,BBCSport,100Leaves數(shù)據(jù)集上均獲得了最高的ACC和NMI值,并且與次高ACC和NMI值相比,MVC2W在3個數(shù)據(jù)集上的ACC和NMI值分別提高了9%和15%、9%和9%、12%和6%.盡管在HW2Source和NGs數(shù)據(jù)集上MVC2W沒有取得最好的聚類結果,但是它的效果僅次于最好的MCGL和DWMVC.實驗結果表明:MVC2W提出的兩級權重策略是有效的.
從表4和表5中也可以看出,DMF-MVC,MVCC,MCGL,ASMV的聚類效果較差.這些算法雖然學習了每個視角的權重,但是它們均忽略了視角中各個特征的權重.TWCOKM在稀疏度低的數(shù)據(jù)集上聚類效果較好,但是對稀疏度高的數(shù)據(jù)集,TWCOKM的聚類效果變差.說明TWCOKM不適用于稀疏度高的數(shù)據(jù)集.
DWMVC在NGs數(shù)據(jù)集上獲得最好的聚類結果,但是在其他4個數(shù)據(jù)集上的聚類效果均低于MVC2W.AE2-Net也是基于自編碼器的多視角聚類算法,但是并沒有獲得良好的聚類結果,這是因為它沒有考慮數(shù)據(jù)中的稀疏因素.這些實驗結果進一步表明MVC2W算法提出的兩級權重的有效性.
基于非負矩陣分解的多視角聚類算法(MultiNMF,NMFCC,MultiGNMF)與基于概念矩陣分解的多視角聚類算法(MVCC)相比,MVCC在稀疏度高的數(shù)據(jù)集上聚類結果較好,這是因為MVCC算法雖然沒有明確考慮稀疏關系,但是它的損失函數(shù)使算法在重構過程相當于采用了基于式(6)(β=1)的權重方案.
Table 4 ACC of Various Algorithms on All Datasets表4 所有數(shù)據(jù)集上各種算法的ACC
Table 5 NMI of Various Algorithms on All Datasets表5 所有數(shù)據(jù)集上各種算法的NMI
基于圖模型的多視角聚類算法MCGL和ASMV在稀疏度低的數(shù)據(jù)集上能夠獲得較好的聚類結果,尤其是MCGL在HW2Sources上獲得了最好的聚類結果,但是2種算法在稀疏度高的數(shù)據(jù)集上的聚類結果普遍不好.這是由于數(shù)據(jù)過于稀疏時,近鄰圖的計算會產生較大誤差,不能很好地度量樣本之間的近鄰程度.與此類似,MultiNMF和NMFCC在稀疏度高的數(shù)據(jù)集上優(yōu)于MultiGNMF,也是由于數(shù)據(jù)過于稀疏使得構造的近鄰圖不能準確保存樣本間的流形關系,從而降低了聚類結果.與MCGL和ASMV相比,DiMSC在稀疏度高的數(shù)據(jù)集上聚類結果較好,這也是因為DiMSC計算每個視角的近鄰圖方式相當于考慮了基于式(6)(β=1)的權重方案.
為了進一步驗證兩級權重的有效性,本節(jié)提出了MVC2W的4個變種算法:1)MVC2WNo-W.不使用權重方案.2)MVC2W1.使用基于式(3)的損失函數(shù),選擇第1種權重方案(式(4)).3)MVC2W2.使用基于式(3)的損失函數(shù),選擇第2種權重方案(式(5)).4)MVC2WNo-SA.使用基于式(8)的損失函數(shù),但是不加入樣本級權重.4個變種算法的參數(shù)λ均設置為0.1,MVC2W1和MVC2W2的參數(shù)β設置為10,MVC2W2的參數(shù)α設置為1.MVC2W和4個變種算法的ACC和NMI如表6和表7所示.
從表6和表7可以看出,在稀疏度高的數(shù)據(jù)集上,與MVC2WNo-W相比,加入權重方案的算法的聚類性能都有較大提升,說明3種權重方案對于稀疏數(shù)據(jù)建模都是有效的.但是在稀疏度低的數(shù)據(jù)集上,與MVC2WNo-W相比,MVC2W1和MVC2W2的聚類結果在HW2Source數(shù)據(jù)集上提升很小且在100Leaves上變得更差.在式(5)(6)的權重重構方案中,式(6)的聚類效果更好,這是由于式(5)雖然增大了非0元素的權重,但是直接忽略了所有0元素對于損失函數(shù)的貢獻,而式(6)在增大非0元素權重的同時還考慮了0元素對于損失函數(shù)的貢獻.與式(6)的權重方案相比,基于特征級注意力的權重方案在大部分數(shù)據(jù)集上均獲得了更好的聚類結果,表明基于特征級注意力權重的有效性.并且相對于式(5)(6)的權重方案,基于特征級注意力機制的權重方案不需要人為選擇權重β,更有利于實際應用.與MVC2WNo-SA,相比,MVC2W在多數(shù)數(shù)據(jù)集上都能夠獲得更好的聚類結果,驗證了樣本級注意力機制的有效性.
Table 6 ACC of MVC2W and Four Variant Algorithms表6 MVC2W和4個變種算法的ACC
Table 7 NMI of MVC2W and Four Variant Algorithms表7 MVC2W和4個變種算法的NMI
MVC2W算法能夠學習同一樣本在不同視角中的權重.本節(jié)以BBC和BBCSport數(shù)據(jù)集為例,進一步探索樣本級權重的重要性.
1) 聚類結果和視角級注意力權重的相關性.本實驗使用當前視角中所有樣本注意力權重的平均值作為不同視角的注意力權重.圖2(a)(b)展示了在不同視角中進行聚類時獲得的ACC和相應視角的注意力權重.從圖2(a)(b)可以發(fā)現(xiàn),圖2(a)中第1個視角的ACC最小,視角注意力權重最低;第2個視角的ACC最大,視角注意力權重值最高;在圖2(b)中,第2個視角的ACC最小,視角注意力權重最低;第1,3,4個視角的ACC較大,這3個的視角注意權重值也較大.從以上結果可以看出,視角注意力權重和ACC之間存在正相關關系:當視角注意力權重大時,相應視角的聚類結果ACC高;當視角注意力權重小時,相應視角的聚類結果ACC低.這說明了設置視角級權重的合理性.
2) 樣本級權重.在圖2(c)(d)展示了2個數(shù)據(jù)集的前10個樣本在不同視角中的注意力權重.從圖2(c)(d)可以看出,同一樣本在不同視角內的權重是不一樣的.由于本文提出的樣本級注意力機制能夠更好地學習到每個樣本在不同視角中的權重,因此能夠獲得更好的聚類結果.
Fig. 2 View attention weights and sample attention weights圖2 視角注意力權重和樣本注意力權重
Fig. 3 ACC and NMI under different β圖3 β取不同值時所獲得的ACC和NMI
MVC2W2算法需要人為選擇3個參數(shù)λ,α和β.在DEC[18]的實驗中,當λ=0.1時,聚類結果良好,因此本文設置λ=0.1.本節(jié)主要探索當α=1時,參數(shù)β對于聚類結果的影響.權重β用于控制重構過程中對于0元素的懲罰程度.β越大,表示越傾向于重構非0元素.
圖3示例了MVC2W2算法中ACC和NMI隨β變化的情況.從圖3可以看出,在稀疏度低的數(shù)據(jù)集上,β的改變對于ACC和NMI影響不大;而對于稀疏度高的數(shù)據(jù)集,當β=0時結果相當差,當β=1時實驗效果也并不佳.這是因為雖然在一定程度上懲罰了0元素,但是由于數(shù)據(jù)稀疏度較高,0元素在重構中所占的比重還是相當大;當β增大到10以后,除了BBCSport,其他數(shù)據(jù)集的聚類結果都較好,并且性能平穩(wěn);當β增大到70以后,聚類性能又下降,這是因為當權重β特別大的時候,相當于忽略了0元素,MVC2W2算法退化成為MVC2W1算法.本實驗表明,在進行表征學習時,應該更加關注訓練網(wǎng)絡中非0元素的重構誤差,但是也不能完全忽略0元素的重構誤差.因此,對于β的選取,本文建議選擇10.
本節(jié)主要研究在保持其他層大小不變的情況下,MVC2W算法聚類結果如何隨著低維表征維度dh大小而變化.使用不同大小的維度dh∈{4,8,16,…,256}構建聚類算法,當dh=16時,每次為dh增加16構建新的算法,以此類推,直到dh=256.在BBC數(shù)據(jù)集上執(zhí)行聚類實驗,不同維度dh的聚類結果如圖4所示.
Fig. 4 ACC and NMI under different dh on BBC圖4 BBC數(shù)據(jù)集上dh取不同值時所獲得的 ACC和NMI
從圖4可以看出,隨著dh增大,ACC和NMI先增加,然后降低,這是由于當dh太小時,數(shù)據(jù)信息被過度壓縮,導致低維表征無法保存視角中的有效信息;當dh太大時,低維表征包含了冗余信息,不利于聚類.當dh=32時,聚類結果最好,因此,在實驗中對于BBC數(shù)據(jù)集選擇{512,32,512}作為隱藏層結構.與此類似,在BBCSport,NGs,100Leaves,HW2Sources的實驗中本文也使用了{512,32,512}的網(wǎng)絡結構.
Fig. 5 Visualizing BBC dataset圖5 可視化BBC數(shù)據(jù)集
為了進一步驗證MVC2W是否能夠學習到具有判別性的低維表征,本節(jié)使用t-SNE[23]將MVC2W和基于重構的多視角算法在BBC數(shù)據(jù)集上學習得到的低維表征投影到2維空間進行可視化,相應的可視化結果示于圖5,圖5中不同的簇用不同的顏色進行標記.
從圖5中可以看出,圖5(g)~(j)中相同顏色的樣本點明顯比圖5(a)~(f)中更集中,能夠顯示出簇的大致輪廓,而圖5(a)~(f)中不同顏色的樣本點則較為分散.雖然圖5(d)中相同顏色的樣本點也較為聚集,但是不同顏色的樣本點之間重疊度非常高,尤其是棕色和藍色的點均存在大量重疊.這說明MVC2W系列算法學習到的低維表征比其他算法學到的表征有更好的判別性.
在圖5(g)~(j)中,圖5(g)中相同顏色的樣本點顯得有些分散,而圖5(h)~(j)中相同顏色的點更為集中且輪廓更加明顯,這說明權重方案的有效性.對比圖5(h)(i),可以發(fā)現(xiàn)圖5(i)中棕色的樣本點更加分散且綠色樣本點分散為2簇,而圖5(h)中棕色和綠色的樣本點更加緊湊,說明使用式(6)權重方案的聚類算法比使用式(5)權重方案的聚類算法獲得的表征有更好的區(qū)分度,進一步說明了在分配特征權重時不能夠忽略數(shù)據(jù)中的0元素的信息.與圖5(g)~(i)相比,圖5(j)中樣本點更加緊湊和集中,并且簇的輪廓也更加明顯,進一步證明了基于注意力機制的權重方案的有效性.
本文提出了一種基于兩級權重的多視角聚類算法MVC2W.該算法能夠同時學習視角內每個特征的權重和每個樣本在不同視角內的權重,使得訓練過程中能夠更加關注重要的特征和重要的樣本,更加合理地融合不同視角的信息,從而有效克服數(shù)據(jù)高維性和稀疏性對聚類結果的影響.在5個稀疏程度不同的數(shù)據(jù)集上的實驗結果表明,MVC2W算法的聚類效果比11個基線算法均有提升,尤其是在稀疏程度高的數(shù)據(jù)集上,MVC2W的提升更加顯著,說明MVC2W能更好地適用于稀疏數(shù)據(jù)集.同時,消融實驗也說明了兩級權重的有效性,與4種變種算法相比,MVC2W在不同稀疏程度的數(shù)據(jù)集上能夠獲得良好的聚類結果.并且MVC2W算法自動學習視角內每個特征的權重,更易于在實際中應用.
本文在學習樣本的公共表征時,將每個視圖的低維表征簡單地加權串聯(lián).在未來的工作中,我們將采用更加高效的學習方法來融合多個視圖的低維表征,比如施加協(xié)同正則約束或HSIC約束,以最大化視角之間的關聯(lián).另外,多視角數(shù)據(jù)在收集過程中可能存在缺失.如何在有缺失的數(shù)據(jù)中進行有效聚類也將是我們下一步的研究重點.
作者貢獻聲明:杜國王設計并實現(xiàn)所提算法,完成實驗并撰寫論文;周麗華提出指導性意見并修改論文;王麗珍指導實驗方案的完善及結果分析;杜經緯收集、整理實驗數(shù)據(jù).