吳 峰, 劉 改, 劉詩儀
(西安工程大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院, 西安 710600)
聚類分析是數(shù)據(jù)挖掘和人工智能領(lǐng)域中一種重要的數(shù)據(jù)處理技術(shù), 其目的是根據(jù)未標(biāo)記的數(shù)據(jù)點(diǎn)的內(nèi)在相似性, 將其劃分為相應(yīng)的簇[1]. 聚類分析作為無監(jiān)督學(xué)習(xí)中的一項(xiàng)基本任務(wù), 在圖像處理、數(shù)據(jù)挖掘等眾多領(lǐng)域具有廣泛的應(yīng)用前景. 傳統(tǒng)的聚類方法包含子空間聚類[1]、譜聚類[1]和K-means 聚類[2]等. 近年來, 也有學(xué)者提出基于深度學(xué)習(xí)的聚類方法, 但目前這類方法通常用于處理傳統(tǒng)的單視角數(shù)據(jù). 多視角數(shù)據(jù)對(duì)象由多個(gè)視角的數(shù)據(jù)實(shí)例組成, 不同視角間存在一致性和互補(bǔ)性關(guān)系, 僅直接采用傳統(tǒng)的單視角聚類方法, 無法有效挖掘多視角數(shù)據(jù)所包含的豐富信息. 因而,近年來出現(xiàn)了一些多視角聚類方法. 其中Wang 等人[3]考慮到不同視角的權(quán)重問題, 提出一種基于圖的多視角聚類算法(GMC), 該方法首先將每個(gè)視角的數(shù)據(jù)矩陣轉(zhuǎn)換為由相似度圖矩陣構(gòu)成的圖矩陣, 其次將它們進(jìn)行融合生成統(tǒng)一的圖矩陣. GMC 自動(dòng)為每個(gè)視角分配權(quán)重, 共同學(xué)習(xí)每個(gè)視角的圖矩陣和融合圖, 并在融合后直接生成最終的簇. Tang 等人[4]提出基于聯(lián)合潛在表示和相似性學(xué)習(xí)的多視角聚類方法(LALMVC),用于解決相似性矩陣無法有效表示數(shù)據(jù)內(nèi)在幾何結(jié)構(gòu)與數(shù)據(jù)間鄰域關(guān)系的問題. LALMVC 首先學(xué)習(xí)各視角共享數(shù)據(jù)的潛在表示, 然后在數(shù)據(jù)的潛在表示中利用流形學(xué)習(xí)自適應(yīng)地獲得相似性矩陣, 從而較好描述數(shù)據(jù)幾何關(guān)系. 由于多視角的一致性與特定性通常無法共同用于子空間表示的學(xué)習(xí)過程, Luo 等人[5]提出一致與特定多視角子空間聚類方法(CSMSC). 該方法使用一個(gè)共享的一致性表示與一組特定性表示描述多視角自表示屬性. 其中一致性用于描述所有視角間的共同特性, 而特定性用于捕獲每個(gè)視角的內(nèi)在差異. Zheng等人[6]通過挖掘局部和全局圖信息并將其融合, 用于約束子空間表示學(xué)習(xí)過程. 由于該方法缺乏對(duì)自表達(dá)系數(shù)矩陣的監(jiān)督過程, 不能學(xué)到很好的特征表示. 因此可以使用聚類標(biāo)簽監(jiān)督自表達(dá)模塊的訓(xùn)練, 以獲得更好的聚類效果.
基于上述問題, 本文提出一種基于圖信息的自監(jiān)督子空間聚類方法, 用來自監(jiān)督式地挖掘多視角數(shù)據(jù)的潛在圖信息. 本文的主要貢獻(xiàn)包含: (1)通過添加圖正則化項(xiàng)獲得更好的潛在空間表示; (2)通過在目標(biāo)函數(shù)中添加自監(jiān)督規(guī)范化項(xiàng), 實(shí)現(xiàn)聚類標(biāo)簽對(duì)自表達(dá)系數(shù)學(xué)習(xí)過程的監(jiān)督.
子空間聚類旨在從多個(gè)子空間組成的數(shù)據(jù)中揭示固有的簇結(jié)構(gòu). 現(xiàn)有的子空間聚類方法主要集中于構(gòu)造好的自表達(dá)系數(shù)矩陣, 然后學(xué)習(xí)良好的親和矩陣并進(jìn)行譜聚類, 其中具有代表性的方法包括深度子空間聚類(DSCN)[7]、稀疏子空間聚類(SSC)[8]和超完全深度子空間聚類(ODSC)[9]. DSCN 設(shè)計(jì)一種新的無監(jiān)督子空間聚類深度神經(jīng)網(wǎng)絡(luò). 該架構(gòu)建立在深度自編碼器上, 非線性地將輸入數(shù)據(jù)映射到潛在空間. 在編碼器和解碼器之間引入一種新的自表達(dá)層模擬在傳統(tǒng)子空間聚類中被證明有效的“自表達(dá)性”特性. SSC 通過對(duì)自表達(dá)系數(shù)矩陣添加L1范數(shù), 保證了自表達(dá)系數(shù)矩陣的稀疏性. 該方法在處理噪聲和缺失數(shù)據(jù)方面也起到了重要作用. ODSC 首先融合不完全和過完全的自動(dòng)編碼器網(wǎng)絡(luò)的特征, 然后將它們通過自表達(dá)層提取一個(gè)更有意義和更魯棒的輸入數(shù)據(jù)表示進(jìn)行聚類.
傳統(tǒng)的單視角子空間聚類處理多視角數(shù)據(jù)只是進(jìn)行簡(jiǎn)單的特征拼接, 容易造成維度災(zāi)難等問題. 多視角子空間聚類以單視角子空間聚類為基礎(chǔ), 分別處理每個(gè)視角的特征. 在互補(bǔ)性原則和一致性原則[10]的輔助下, 多視角子空間聚類建立不同視角間的聯(lián)系并進(jìn)行信息交互, 克服了單視角子空間聚類劃分多視角數(shù)據(jù)的問題. 潛在多視角子空間聚類(LMSC)[11]從多個(gè)視角探索潛在的互補(bǔ)信息, 利用多個(gè)視角的互補(bǔ)性, 潛在表示比每個(gè)視角更全面地描述數(shù)據(jù), 從而使子空間表示更準(zhǔn)確和穩(wěn)健. 多視角深度子空間聚類(MDSC)[12]由兩個(gè)子網(wǎng)絡(luò)組成, 且分別完成所有視角的公共自表示矩陣和特定視角的自表示矩陣的學(xué)習(xí). 該方法通過引入希爾伯特·施密特獨(dú)立標(biāo)準(zhǔn)作為多樣性正則化項(xiàng),將每個(gè)視角的自表示矩陣與公共的自表示矩陣對(duì)齊,從而取得了較好的聚類效果.
監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)兩種基本的學(xué)習(xí)范式, 而自監(jiān)督學(xué)習(xí)是使用無標(biāo)注數(shù)據(jù)自我監(jiān)督的方式開展學(xué)習(xí), 其歸類于無監(jiān)督學(xué)習(xí)的范疇. 自監(jiān)督學(xué)習(xí)[13]的思想較為簡(jiǎn)單, 即輸入的無監(jiān)督數(shù)據(jù)通過數(shù)據(jù)本身的結(jié)構(gòu)或者特性, 構(gòu)造偽標(biāo)簽(pseudo label)出來.有了標(biāo)簽以后就可以類似監(jiān)督學(xué)習(xí)一樣進(jìn)行訓(xùn)練. 近年來, 有學(xué)者試圖將自監(jiān)督學(xué)習(xí)與多視角子空間聚類相結(jié)合, 獲得構(gòu)造的偽標(biāo)簽后對(duì)整體網(wǎng)絡(luò)進(jìn)行訓(xùn)練.自監(jiān)督卷積子空間聚類網(wǎng)絡(luò)(S2ConvSCN)[14]通過聚類標(biāo)簽監(jiān)督每個(gè)特定視角的潛在表示學(xué)習(xí)過程和多個(gè)視角的公共潛在子空間表示學(xué)習(xí)過程, 實(shí)現(xiàn)數(shù)據(jù)的自監(jiān)督目的. 多視角聚類中的自監(jiān)督判別特征學(xué)習(xí)(SDMVC)[15]應(yīng)用深度自編碼器獨(dú)立學(xué)習(xí)每個(gè)視角的嵌入式特性, 并利用多視角互補(bǔ)信息連接所有視角的嵌入特性, 形成全局特性. 以一種自監(jiān)督的方式, 獲得偽標(biāo)簽建立統(tǒng)一的目標(biāo)分布并執(zhí)行多視角判別特征學(xué)習(xí).這種統(tǒng)一的目標(biāo)分布可實(shí)現(xiàn)多個(gè)視角一致性與多樣性.
圖1 基于圖信息的自監(jiān)督多視角子空間聚類網(wǎng)絡(luò)結(jié)構(gòu)
表示每個(gè)指定簇的數(shù)據(jù)點(diǎn)的所屬類別. 譜聚類產(chǎn)生了數(shù)據(jù)集的聚類標(biāo)簽, 盡管不一定是所有數(shù)據(jù)點(diǎn)的正確標(biāo)簽, 但它包含了關(guān)于數(shù)據(jù)集的有意義的信息, 這促使我們使用譜聚類的輸出來監(jiān)督自表達(dá)模塊的訓(xùn)練. 自監(jiān)督損失函數(shù)如下:
本文所提出的方法在4 個(gè)標(biāo)準(zhǔn)的真實(shí)數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn). 其中, Yale Face 包含15 個(gè)人的面部圖像, 共165 張. ORL 包含40 個(gè)人的面部圖像, 共400 張. Yale Face 和ORL 數(shù)據(jù)集的每個(gè)圖像都由3 個(gè)特征來描述: intensity、LBP 和Gabor. 而且每張圖像的面部表情、光線強(qiáng)弱都是不同的. MSRCV1 數(shù)據(jù)集是由從7 個(gè)簇中收集的210 個(gè)圖像樣本組成, 每張圖像由6 個(gè)特征來描述: CENT、CMT、GIST、HOG、LBP 和SIFT. BBC 數(shù)據(jù)集由英國(guó)廣播公司的685 份文本文件組成, 每份文件分為4 個(gè)子部分.
本文采用了4 種評(píng)價(jià)指標(biāo)[11]來評(píng)估算法的聚類效果, 分別是歸一化互信息(NMI)、準(zhǔn)確率(ACC)、F-度量值(F-Measure)和蘭德指數(shù)(RI).
結(jié)果表明, 本文所提出的SMSC 相較于其他對(duì)比方法獲得了更好的聚類結(jié)果. 與傳統(tǒng)的多視角子空間聚類方法相比, SMSC 取得了顯著的改進(jìn). 從表1 中可以看出, 在Yale Face 數(shù)據(jù)集上, SMSC 與LMSC 相比,NMI 和ACC 指標(biāo)分別提升了20.56%和25.84%, 說明SMSC 的效果是更好的一方. 在另外3 個(gè)數(shù)據(jù)集上,相比其他多視角算法, SMSC 也都有顯著的提升. SMSC首先挖掘數(shù)據(jù)的潛在信息, 其次通過自表達(dá)系數(shù)矩陣獲得相似性矩陣并在其上應(yīng)用譜聚類, 獲得聚類標(biāo)簽信息后, 通過自監(jiān)督規(guī)范化項(xiàng)對(duì)自表達(dá)系數(shù)矩陣進(jìn)行監(jiān)督, 獲得更好的聚類效果.
表1 Yale Face 數(shù)據(jù)集對(duì)比實(shí)驗(yàn)結(jié)果
表2 ORL 數(shù)據(jù)集對(duì)比實(shí)驗(yàn)結(jié)果
表3 MSRCV1 數(shù)據(jù)集對(duì)比實(shí)驗(yàn)結(jié)果
表4 BBC 數(shù)據(jù)集對(duì)比實(shí)驗(yàn)結(jié)果
以Yale Face 數(shù)據(jù)集上的實(shí)驗(yàn)為例. 圖2 顯示了標(biāo)準(zhǔn)化損失和聚類結(jié)果指標(biāo)(NMI 和ACC)隨著迭代次數(shù)增加的變化情況. 可以很明顯的看出, SMSC 具有較快的收斂速度.
圖2 收斂性結(jié)果示意圖
本文提出一種基于圖信息的自監(jiān)督多視角子空間聚類方法, 該方法自監(jiān)督式地挖掘多視角數(shù)據(jù)的潛在信息, 提升聚類效果. 通過在4 個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上的大量實(shí)驗(yàn)驗(yàn)證, 結(jié)果表明所提方法優(yōu)于幾種常用的多視角聚類方法.