郭晴晴, 王衛(wèi)衛(wèi)
(西安電子科技大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院, 西安 710126)
聚類是機(jī)器學(xué)習(xí)領(lǐng)域最基本的無(wú)監(jiān)督學(xué)習(xí)任務(wù), 其核心思想是基于相似性度量將相似的數(shù)據(jù)劃分到同一類, 不相似的數(shù)據(jù)劃分到不同類.近年來(lái), 對(duì)聚類的研究已取得了許多成果, 如K-均值聚類(K-means)[1]、譜聚類(SC)[2]、高斯混合聚類(GMM)[3]、非負(fù)矩陣分解聚類(NMF)[4]等經(jīng)典方法, 有效解決了低維數(shù)據(jù)的聚類問(wèn)題.但隨著數(shù)據(jù)維度的增加, 傳統(tǒng)聚類方法面臨如下問(wèn)題[5]: 1) 高維空間中, 數(shù)據(jù)點(diǎn)之間的常用距離將趨于相等, 導(dǎo)致基于距離的聚類方法失效;2) 高維數(shù)據(jù)導(dǎo)致計(jì)算復(fù)雜代價(jià)急劇上升;3) 高維數(shù)據(jù)常會(huì)出現(xiàn)冗余特征且有噪聲, 嚴(yán)重影響聚類性能.目前, 解決高維數(shù)據(jù)聚類的方法主要是對(duì)高維數(shù)據(jù)進(jìn)行降維或特征變換, 先將原始高維數(shù)據(jù)映射到低維特征空間, 然后對(duì)低維特征采用傳統(tǒng)方法進(jìn)行聚類.但一些具有高度復(fù)雜非線性結(jié)構(gòu)的數(shù)據(jù)聚類問(wèn)題仍面臨很大挑戰(zhàn)[6].
由于深度神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的學(xué)習(xí)非線性變換的能力, 因此基于深度神經(jīng)網(wǎng)絡(luò)的降維方法在聚類中被廣泛應(yīng)用[7-12], 目前已有的方法主要分兩類: 一類是兩階段法[9-11], 先利用深度神經(jīng)網(wǎng)絡(luò)提取原數(shù)據(jù)的低維特征, 然后將低維特征作為傳統(tǒng)聚類方法的輸入, 得到最終聚類結(jié)果, 但該方法不能保證提取的低維特征符合所用聚類方法對(duì)數(shù)據(jù)的假設(shè), 聚類性能并非最優(yōu);另一類方法是單階段法[7-8,12-13], 為保證提取的低維特征適合所用的聚類方法, 單階段方法在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí), 將聚類損失和特征提取損失相結(jié)合, 即用聚類方法驅(qū)動(dòng)特征提取, 有效改善了特征提取和聚類的匹配度, 顯著提高了聚類性能.例如, 深度嵌入聚類(deep embedding clustering, DEC)[7]將特征提取和聚類兩個(gè)階段相結(jié)合, 利用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)原數(shù)據(jù)的低維特征, 同時(shí)利用學(xué)習(xí)到的低維特征進(jìn)行聚類.DEC中引入了一種廣泛應(yīng)用的聚類損失, 即軟分配分布和輔助目標(biāo)分布的Kullback-Leibler(KL)散度[14].但該方法存在兩個(gè)不足: 首先, 它在訓(xùn)練時(shí)舍棄了自動(dòng)編碼器的解碼器部分和重構(gòu)損失, 未考慮到微調(diào)會(huì)扭曲特征空間, 削弱了特征表示的代表性, 從而影響聚類效果;其次, 軟分配分布和輔助目標(biāo)分布使特征類內(nèi)盡可能靠近, 忽略了特征的類間關(guān)系.針對(duì)第一個(gè)問(wèn)題, 改進(jìn)DEC(IDEC)[8]結(jié)合自動(dòng)編碼器的重構(gòu)損失和聚類損失保存局部結(jié)構(gòu), 避免了微調(diào)時(shí)對(duì)特征空間的扭曲;但第二個(gè)問(wèn)題仍然被忽視.此外, 這些方法還存在很大的局限性, 即僅考慮了對(duì)單視圖數(shù)據(jù)的聚類.事實(shí)上, 在許多實(shí)際聚類任務(wù)中, 數(shù)據(jù)可能來(lái)自不同領(lǐng)域或者不同的特征收集器, 這類數(shù)據(jù)稱為多視圖數(shù)據(jù).例如, 對(duì)同一事件, 多個(gè)新聞機(jī)構(gòu)、多種媒介報(bào)道的新聞就是這一事件的多視圖數(shù)據(jù);相同語(yǔ)義的多語(yǔ)言形式表示也是多視圖數(shù)據(jù).由于多視圖數(shù)據(jù)的普遍性, 因此研究多視圖數(shù)據(jù)的聚類具有重要意義和廣泛的應(yīng)用場(chǎng)景.多視圖數(shù)據(jù)包括各視圖之間的公共信息和互補(bǔ)信息, 其中公共信息有助于提高對(duì)研究對(duì)象共性的認(rèn)識(shí), 而互補(bǔ)信息則能體現(xiàn)多視圖數(shù)據(jù)的潛在價(jià)值.多視圖數(shù)據(jù)聚類要解決的關(guān)鍵問(wèn)題是如何充分挖掘各視圖之間的公共信息和互補(bǔ)信息, 從而最大程度地提高不同視圖之間類別的一致性, 提高聚類性能.文獻(xiàn)[15-21]提出了多種多視圖聚類方法.深度典型相關(guān)分析(DCCA)[15]和深度廣義典型相關(guān)分析(DGCCA)[16]將深度神經(jīng)網(wǎng)絡(luò)與典型相關(guān)分析(CCA)相結(jié)合, 以實(shí)現(xiàn)多視圖數(shù)據(jù)的聯(lián)合非線性降維, 然后對(duì)低維特征使用傳統(tǒng)聚類方法[1-4]進(jìn)行聚類, 其優(yōu)點(diǎn)是DCCA能有效地聯(lián)合提取多視圖數(shù)據(jù)的低維特征, 但特征學(xué)習(xí)與聚類沒(méi)有聯(lián)合優(yōu)化.深度多模態(tài)子空間聚類(DMSC)[18]將多視圖融合技術(shù)應(yīng)用到子空間聚類上, 為每個(gè)視圖設(shè)計(jì)一個(gè)自動(dòng)編碼器學(xué)習(xí)每個(gè)視圖的低維特征, 對(duì)低維特征進(jìn)行空間融合, 并提出了幾種基于空間融合的網(wǎng)絡(luò)結(jié)構(gòu)和融合函數(shù).這些方法雖然在多視圖聚類中取得了較好的效果, 但特征學(xué)習(xí)與聚類并沒(méi)有聯(lián)合優(yōu)化, 屬于兩階段的訓(xùn)練方法, 聚類性能并非最優(yōu).具有協(xié)作訓(xùn)練的深度嵌入多視圖聚類(DEMVC)[19]是一種單階段的多視圖聚類方法, 首先通過(guò)自動(dòng)編碼器學(xué)習(xí)多個(gè)視圖的特征表示, 然后通過(guò)協(xié)作訓(xùn)練促使不同視圖的軟分配分布最終趨于相同, 但協(xié)作訓(xùn)練對(duì)各視圖視為相同的重要性, 因此對(duì)多視圖不均衡的問(wèn)題存在缺陷;同時(shí)該方法充分利用了DEC的優(yōu)勢(shì), 并添加重構(gòu)損失以保存局部結(jié)構(gòu), 但仍忽略了類間關(guān)系.
本文主要考慮多視圖數(shù)據(jù)聚類.在理想情況下, 對(duì)聚類友好的特征表示不僅應(yīng)保證屬于同一類的數(shù)據(jù)要盡可能靠近, 而且還要確保不同類的數(shù)據(jù)之間盡可能遠(yuǎn)離.但現(xiàn)有聚類方法僅考慮了特征表示的類內(nèi)一致性, 而忽略了類間關(guān)系.因此最終學(xué)習(xí)到的特征表示不具有判別性, 從而影響聚類性能.基于此, 本文通過(guò)在DEC聚類損失的基礎(chǔ)上引入一個(gè)新的類間損失函數(shù), 使通過(guò)多視圖特征融合網(wǎng)絡(luò)學(xué)到的各視圖的公共特征具有類間盡可能遠(yuǎn)離, 類內(nèi)盡可能靠近的特點(diǎn), 使其更具有判別性, 從而更適合聚類.通過(guò)與多視圖特征融合網(wǎng)絡(luò)結(jié)合, 本文提出一種基于類間損失和多視圖特征融合的深度嵌入聚類方法, 不僅可保證各視圖共享特征表示的類內(nèi)一致性和類間判別性, 而且還針對(duì)DEMVC中協(xié)作訓(xùn)練存在的不足引入一種新的基于全連接層的多視圖特征融合技術(shù), 以提高訓(xùn)練網(wǎng)絡(luò)的泛化能力.在多個(gè)常用數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果表明, 本文方法聚類性能相對(duì)于對(duì)比方法有顯著提高.
圖1 DEC網(wǎng)絡(luò)框架Fig.1 Framework of DEC network
DEC是一種單視圖的深度聚類方法, 其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示.首先, 使用稀疏自編碼網(wǎng)絡(luò)(sparse auto-encoder, SAE)對(duì)數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練, 得到特征zi, 執(zhí)行K-means得到初始聚類中心μj; 然后利用t分布, 計(jì)算特征zi和聚類中心μj之間的相似度:
(1)
由于其可視為將樣本i分配給第j類的概率, 因此也稱為軟分配分布.DEC還定義了一個(gè)輔助目標(biāo)分布pij確定樣本所屬的類, 用公式表示為
(2)
DEC進(jìn)一步優(yōu)化基于KL散度的聚類損失:
(3)
根據(jù)上述聚類損失, 用帶有動(dòng)量的隨機(jī)梯度下降(SGD)[22]法對(duì)特征zi和聚類中心μj進(jìn)行聯(lián)合優(yōu)化.該方法有利于把屬于每一類的數(shù)據(jù)個(gè)數(shù)進(jìn)行平均分配, 使類內(nèi)盡可能靠近, 從而使數(shù)據(jù)在特征空間更具有可分性, 但缺點(diǎn)是未考慮到數(shù)據(jù)的類間關(guān)系, 導(dǎo)致聚類效果不穩(wěn)定.
DEMVC是一種多視圖深度嵌入聚類方法, 可同時(shí)優(yōu)化多視圖的特征表示和聚類分配, 并根據(jù)協(xié)作訓(xùn)練對(duì)多視圖的互補(bǔ)信息進(jìn)行有效學(xué)習(xí), 最終使不同視圖的軟分配分布趨于相同.其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示.
圖2 DEMVC網(wǎng)絡(luò)框架Fig.2 Framework of DEMVC network
(4)
其中γ為非負(fù)參數(shù).最后, 通過(guò)對(duì)上述損失函數(shù)進(jìn)行優(yōu)化, 微調(diào)整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)達(dá)到平衡, 再對(duì)各視圖的聚類結(jié)果取平均得到最終的聚類結(jié)果.協(xié)作訓(xùn)練旨在最大程度地實(shí)現(xiàn)所有視圖之間的公共信息, 它將各視圖視為同等重要, 因此無(wú)法解決存在多視圖重要性不均衡的問(wèn)題.而多視圖特征融合方法則利用網(wǎng)絡(luò)的靈活性, 將提取的特征合并為一個(gè)更具有判別力的特征, 泛化能力更強(qiáng).
為改進(jìn)多視圖特征表示的訓(xùn)練方式, 并保證學(xué)到的各視圖公共特征的類內(nèi)一致性和類間判別性, 本文提出一種基于類間損失的深度嵌入聚類方法.本文的網(wǎng)絡(luò)框架主要由兩部分構(gòu)成: 多視圖融合模塊和深度嵌入聚類模塊.首先將不同視圖的數(shù)據(jù)輸入到自動(dòng)編碼器中, 得到多個(gè)視圖的特征表示;然后借助網(wǎng)絡(luò)的靈活性, 在編碼器和解碼器之間使用一層全連接網(wǎng)絡(luò), 組合出判別性更強(qiáng)的各視圖的公共表示;最后將公共表示輸入到聚類模塊中, 這里聚類模塊采用DEC中的聚類損失, 并在其原有類內(nèi)關(guān)系的基礎(chǔ)上, 添加類間損失以增強(qiáng)公共表示的判別性.其網(wǎng)絡(luò)框架如圖3所示.總的目標(biāo)函數(shù)包括各視圖數(shù)據(jù)的重構(gòu)損失和聚類損失兩部分, 用公式表示為
L=Lrec+λ1Lclu,
(5)
其中Lrec和Lclu分別為自編碼網(wǎng)絡(luò)的重構(gòu)損失和聚類損失,λ1為權(quán)衡系數(shù).
圖3 本文的網(wǎng)絡(luò)框架Fig.3 Framework of proposed network
本文以雙視圖數(shù)據(jù)集為例, 給定多視圖數(shù)據(jù)集{x1,x2}, 其中x1,x2∈D分別是第1個(gè)視圖和第2個(gè)視圖的數(shù)據(jù).可令N為每個(gè)視圖的樣本數(shù), 則表示xv的第i個(gè)樣本(i=1,2,…,N), 且v={1,2}.
為利用不同視圖之間的多樣性, 需將多個(gè)視圖的特征表示進(jìn)行融合.而DEMVC的融合方法基于各視圖的加權(quán)融合, 對(duì)多視圖不均衡問(wèn)題存在不足, 因此本文通過(guò)引入全連接層對(duì)多視圖特征進(jìn)行融合, 以提高訓(xùn)練網(wǎng)絡(luò)的泛化能力.首先通過(guò)自動(dòng)編碼器對(duì)多視圖數(shù)據(jù)進(jìn)行訓(xùn)練, 得到不同視圖的特征表示, 再對(duì)各視圖的特征進(jìn)行拼接后, 按上述方法對(duì)得到的特征表示進(jìn)行融合, 最終得到各視圖的公共表示.
對(duì)于每個(gè)視圖, 卷積自動(dòng)編碼器的f(v)將輸入xv進(jìn)行壓縮得到d維的特征表示zv∈d, 即zv=f(v)(xv)∈d(d (6) 在得到各視圖的特征表示后, 先將不同視圖的特征進(jìn)行簡(jiǎn)單拼接, 然后經(jīng)過(guò)單層全連接層進(jìn)行融合, 得到公共表示z=h(z1⊕z2), 其中h(·)是全連接層, ⊕表示矩陣的拼接操作.此時(shí)得到的公共表示z包含兩個(gè)視圖x1,x2的特征, 可為后續(xù)的聚類任務(wù)提供更多的信息, 從而達(dá)到聚類的目的. 首先考慮一般的深度嵌入聚類損失, 該損失通過(guò)軟分配分布和輔助目標(biāo)分布之間的KL散度進(jìn)行優(yōu)化.首先利用K-means對(duì)各視圖的公共特征表示zi(zi是特征z的第i個(gè)樣本)進(jìn)行聚類, 得到初始的聚類中心μj, 然后再使用Softmax函數(shù)測(cè)量特征zi與聚類中心μj之間的相似度sij, 用公式表示為 (7) 其中ε為參數(shù).與式(1)類似,sij也可視為將特征i分配給第j類的概率, 稱為新的軟分配分布.根據(jù)深度嵌入聚類方法的損失函數(shù), 軟分配分布所對(duì)應(yīng)的輔助目標(biāo)分布可定義為 (8) (9) 與式(3)類似, 最小化KL散度的損失函數(shù)L1主要考慮類內(nèi)置信度高的特征點(diǎn), 但未考慮類間關(guān)系.這里為使不同聚類中心之間的相似度盡可能小, 使用歐氏距離度量不同類中心的相似度, 并定義如下類間損失: (10) 只有當(dāng)不同聚類中心之間的距離足夠大時(shí),L2才會(huì)盡可能小.因此通過(guò)最小化該損失可使不同類中心之間的距離盡可能遠(yuǎn), 從而有助于提高特征的判別性.如圖3右下角橙色虛線框所示, 在損失L2的作用下, 不同類之間的聚類中心彼此遠(yuǎn)離, 同時(shí)使屬于某一類的特征表示趨于靠近該類的聚類中心, 從而不同類的特征表示互相遠(yuǎn)離, 學(xué)習(xí)到的特征表示更具有判別性. 因此, 結(jié)合特征的類內(nèi)關(guān)系和類間關(guān)系, 可將聚類損失表示為 Lclu=L1+λ0L2, (11) 其中λ0為非負(fù)參數(shù). 模型訓(xùn)練包括兩個(gè)階段: 初始化階段和微調(diào)階段.首先, 初始化階段對(duì)所有視圖的自動(dòng)編碼器最小化式(6), 然后通過(guò)最小化式(5)微調(diào)所有視圖的自動(dòng)編碼器、聚類分配和聚類中心;最后當(dāng)微調(diào)階段結(jié)束時(shí), 基于軟分配sij, 分配給xi的標(biāo)簽ui可由下式計(jì)算: (12) 模型訓(xùn)練過(guò)程如下. 算法1基于類間損失和多視圖融合的深度嵌入聚類優(yōu)化算法. 輸出: 聚類標(biāo)簽; 步驟2) 基于多視圖特征融合方法, 將各視圖的特征表示輸入到全連接層得到公共表示zi; 步驟3) 基于K-means聚類算法得到特征的初始聚類中心μj; 步驟4) 基于Adam優(yōu)化器優(yōu)化目標(biāo)函數(shù)(5)直至收斂; 步驟5) 基于sij每行最大值的索引進(jìn)行樣本聚類中心(式(12))獲取標(biāo)簽. 為驗(yàn)證本文方法的有效性, 采用不同類型的多視圖數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證, 選擇MNIST[23],Fashion-MNIST[24]和USPS三個(gè)手寫(xiě)數(shù)字?jǐn)?shù)據(jù)集, COIL20[25],COIL100[26]兩個(gè)物體數(shù)據(jù)集以及Yale_32[27],ORL_32[28]兩個(gè)人臉數(shù)據(jù)集構(gòu)造多視圖數(shù)據(jù)集.這些單視圖數(shù)據(jù)集的信息列于表1. 表1 單視圖數(shù)據(jù)集信息 構(gòu)造多視圖數(shù)據(jù)集的方法有3種: 1) 對(duì)原始數(shù)據(jù)集進(jìn)行不同類型的數(shù)據(jù)增強(qiáng)獲得不同視圖的樣本;2) 使用不同的數(shù)據(jù)集作為不同的視圖;3) 使用原始數(shù)據(jù)集的不同部分構(gòu)造不同的視圖.下面分別介紹本文使用上述方法構(gòu)造出的9個(gè)多視圖數(shù)據(jù)集. 數(shù)據(jù)集Nosiy-RotatingMNIST: 該多視圖數(shù)據(jù)集由第一種構(gòu)造方法得到, 它使用數(shù)據(jù)集MNIST生成兩個(gè)視圖的數(shù)據(jù)集.根據(jù)DGCCA, 首先以[-π/4,π/4]的角度對(duì)圖像隨機(jī)旋轉(zhuǎn), 將生成的圖像作為第一個(gè)視圖的樣本.然后對(duì)第一個(gè)視圖的每張圖像, 從原始數(shù)據(jù)集中隨機(jī)選取一張具有相同類別的圖像, 在每個(gè)像素點(diǎn)上加入從[0,1]均勻采樣的獨(dú)立隨機(jī)噪聲, 得到對(duì)應(yīng)的第二個(gè)視圖的樣本.數(shù)據(jù)集Nosiy-RotatingCOIL20,Nosiy-RotatingCOIL100,Nosiy-RotatingYale32,Nosiy-RotatingORL32: 這4個(gè)多視圖數(shù)據(jù)集的構(gòu)造方法與數(shù)據(jù)集Nosiy-RotatingMNIST的構(gòu)造方法類似.數(shù)據(jù)集MNIST-USPS: 該多視圖數(shù)據(jù)集由第二種構(gòu)造方法得到, 它將USPS和MNIST分別作為兩個(gè)視圖, 并從每個(gè)視圖中隨機(jī)選擇分布在10個(gè)數(shù)字上的5 000個(gè)樣本.數(shù)據(jù)集Fashion-10K: 該多視圖數(shù)據(jù)集由第三種構(gòu)造方法得到, 由數(shù)據(jù)集Fashion-MNIST生成, 其中10 000張圖像作為測(cè)試集.先將該測(cè)試集作為第一個(gè)視圖的樣本, 再對(duì)每個(gè)樣本, 從該集合中隨機(jī)選擇一個(gè)具有相同標(biāo)簽的樣本, 以構(gòu)造第二個(gè)或第三個(gè)視圖, 每個(gè)樣本的不同視圖是同一類別的不同樣本.因此該數(shù)據(jù)集有雙視圖和三視圖兩個(gè)版本, 以在名稱最后添加“_2view”和“_3view”進(jìn)行區(qū)分.數(shù)據(jù)集MNIST-10K_3view: 該多視圖數(shù)據(jù)集由數(shù)據(jù)集MNIST生成, 同理, 將MNIST的測(cè)試集作為第一個(gè)視圖, 而第二和第三個(gè)視圖的構(gòu)造方法與Fashion-10K的構(gòu)造方法相同, 后綴“_3view”表示三視圖版本. 選取兩個(gè)常用的聚類評(píng)價(jià)指標(biāo): 聚類準(zhǔn)確度(accuracy, ACC)和標(biāo)準(zhǔn)化互信息(normalized mutual information, NMI)[29].這兩個(gè)評(píng)價(jià)指標(biāo)從兩方面對(duì)聚類結(jié)果進(jìn)行評(píng)估, 其值越高表明聚類效果越好.ACC表示聚類結(jié)果的正確率, 計(jì)算公式為 (13) 其中l(wèi)i為第i個(gè)數(shù)據(jù)的真實(shí)標(biāo)簽,ci為模型產(chǎn)生的第i個(gè)預(yù)測(cè)標(biāo)簽,m(ci)為映射函數(shù), 最佳的映射可使用Hungarian算法[30]求解.NMI計(jì)算相同數(shù)據(jù)的兩個(gè)標(biāo)簽之間相似性的標(biāo)準(zhǔn)化度量, 計(jì)算公式為 NMI=I(l;c)/max{H(l),H(c)}, (14) 其中l(wèi)和c分別表示聚類結(jié)果的標(biāo)簽和真實(shí)標(biāo)簽,I(l;c)表示l和c之間的互信息,H(l)和H(c)分別為l和c的信息熵. 為證明本文方法的有效性, 設(shè)置對(duì)比實(shí)驗(yàn)分別驗(yàn)證本文方法在手寫(xiě)數(shù)字?jǐn)?shù)據(jù)集、物體和人臉數(shù)據(jù)集上的有效性.本文方法在物體、人臉數(shù)據(jù)集和手寫(xiě)數(shù)字?jǐn)?shù)據(jù)集上與其他各方法的聚類性能對(duì)比結(jié)果列于表2和表3.表2列出了雙視圖的物體數(shù)據(jù)集和人臉數(shù)據(jù)集用多視圖深度聚類方法的實(shí)驗(yàn)結(jié)果, 主要比較了各方法在物體和人臉數(shù)據(jù)集上的聚類結(jié)果, 所有結(jié)果均為運(yùn)行3次取平均得到.表3列出了雙視圖和三視圖的手寫(xiě)數(shù)字?jǐn)?shù)據(jù)集用多視圖深度聚類方法的實(shí)驗(yàn)結(jié)果, 主要比較了各方法在兩個(gè)視圖版本的手寫(xiě)數(shù)字?jǐn)?shù)據(jù)集上的聚類結(jié)果, 其中*表示精度值摘自文獻(xiàn)[16]和文獻(xiàn)[29].由于K-means聚類中心的影響, 運(yùn)行結(jié)果均為運(yùn)行3次取平均得到. 表2 不同方法在物體數(shù)據(jù)集和人臉數(shù)據(jù)集上的聚類性能對(duì)比 表3 不同方法在手寫(xiě)數(shù)據(jù)集上的聚類性能對(duì)比 由表2和表3可見(jiàn): 首先, 本文方法的聚類結(jié)果在大部分?jǐn)?shù)據(jù)集上均優(yōu)于其他方法;其次, 在數(shù)據(jù)集的類型上, 手寫(xiě)數(shù)字?jǐn)?shù)據(jù)集的聚類結(jié)果雖提升較小, 但總體水平高, 而由于物體數(shù)據(jù)集和人臉數(shù)據(jù)集的聚類難度偏高, 聚類結(jié)果提升相對(duì)較大;最后, 在數(shù)據(jù)集的視圖個(gè)數(shù)上, 3個(gè)視圖數(shù)據(jù)集的結(jié)果均優(yōu)于兩個(gè)視圖數(shù)據(jù)集的結(jié)果.實(shí)驗(yàn)結(jié)果表明, 本文方法能有效地從多視圖中提取到更具有判別性的特征, 同時(shí)也驗(yàn)證了該方法在多視圖聚類中的有效性. 為驗(yàn)證本文方法各模塊的有效性, 實(shí)驗(yàn)對(duì)比多視圖特征融合下的重構(gòu)損失Lrec和平均融合下的重構(gòu)損失Lrec及聚類損失Lclu中的L1和L2的影響.數(shù)據(jù)集Nosiy-Rotating的消融實(shí)驗(yàn)結(jié)果列于表4, 其中“√”表示帶有該模塊的方法.由表4可見(jiàn): 一方面, 當(dāng)僅使用重構(gòu)損失Lrec時(shí), 采用多視圖特征融合的本文方法顯然比平均融合的DEMVC方法的聚類性能高;另一方面, 總的損失函數(shù)僅有Lrec或L1的ACC值小于0.95, 同時(shí)損失函數(shù)不包含與包含L2相比, 聚類效果約提升了1%.因此, 聚類精度會(huì)隨著損失的逐漸增加而增加, 表明損失函數(shù)中的每個(gè)損失對(duì)最終的聚類性能都很重要. 為進(jìn)一步驗(yàn)證類間損失的有效性, 采用t-SNE可視化方法對(duì)DEMVC方法的嵌入進(jìn)行二維降維與可視化.利用Python環(huán)境下sklearn工具包中的manifold.TSNE 函數(shù)進(jìn)行降維(降至二維), 并用matplotlib工具包中的pyplot.plot進(jìn)行繪圖, 實(shí)驗(yàn)結(jié)果如圖4所示(不同顏色表示不同的數(shù)據(jù)聚集).由圖4可見(jiàn), 在數(shù)據(jù)集Nosiy-RotatingMNIST上, 與DEMVC方法進(jìn)行對(duì)比, 本文方法使不同類之間的樣本更易區(qū)分, 即聚集更明顯且易劃分. 表4 數(shù)據(jù)集Nosiy-Rotating的消融實(shí)驗(yàn)結(jié)果 圖4 數(shù)據(jù)集Nosiy-Rotating上不同方法的t-SNE對(duì)比Fig.4 t-SNE comparison of different methods on Nosiy-Rotating dataset 為進(jìn)一步驗(yàn)證本文方法的收斂性, 本文可視化隨著迭代次數(shù)特征表示的t-SNE圖和隨著迭代次數(shù)增加的聚類性能曲線圖分別如圖5和圖6所示. 圖5 數(shù)據(jù)集Nosiy-Rotating隨著迭代次數(shù)增加的t-SNEFig.5 t-SNE increasing with number of iterations on Nosiy-Rotating dataset 由圖5可見(jiàn), 隨著迭代次數(shù)的增加, 類內(nèi)的數(shù)據(jù)點(diǎn)逐漸靠近, 不同類的數(shù)據(jù)點(diǎn)逐漸遠(yuǎn)離, 同時(shí)不同類的分類邊界更清晰, 當(dāng)T=100時(shí)基本穩(wěn)定.由圖6可見(jiàn), 聚類指標(biāo)ACC和NMI隨著迭代次數(shù)的增加趨于穩(wěn)定.實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法最終達(dá)到收斂, 同時(shí)由于數(shù)據(jù)集較大, 本文方法存在運(yùn)行時(shí)間較長(zhǎng)等不足. 圖6 數(shù)據(jù)集Nosiy-Rotating的聚類性能指標(biāo)變化曲線Fig.6 Variation curves of clustering performance index on Nosiy-Rotating dataset 綜上所述, 為有效解決實(shí)際應(yīng)用中的多視圖聚類問(wèn)題, 本文提出了一種基于類間損失和多視圖融合的深度嵌入聚類方法.首先, 通過(guò)自動(dòng)編碼器對(duì)多視圖數(shù)據(jù)進(jìn)行訓(xùn)練, 得到不同視圖的特征表示;然后, 利用全連接層對(duì)各視圖的特征進(jìn)行融合, 再根據(jù)公共表示得到改進(jìn)的軟分配分布和輔助目標(biāo)分布;最后, 基于類間損失和軟分配分布及輔助目標(biāo)分布之間的KL散度對(duì)公共表示和聚類分配進(jìn)行聯(lián)合訓(xùn)練, 進(jìn)而得到聚類結(jié)果.實(shí)驗(yàn)結(jié)果表明, 該方法在多個(gè)多視圖數(shù)據(jù)集上的聚類精度均效果良好.2.2 基于類間損失的深度嵌入聚類
2.3 模型訓(xùn)練
3 實(shí)驗(yàn)與分析
3.1 實(shí)驗(yàn)數(shù)據(jù)集
3.2 實(shí)驗(yàn)設(shè)置
3.3 聚類性能對(duì)比
3.4 消融實(shí)驗(yàn)
3.5 收斂性分析