• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于無監(jiān)督表征學習的深度聚類研究進展

      2023-01-30 01:11:32侯海薇丁世飛
      模式識別與人工智能 2022年11期
      關鍵詞:編碼器標簽聚類

      侯海薇 丁世飛,2 徐 曉,2

      一般而言,聚類是指將沒有標簽的數(shù)據(jù)集,通過某種相似性度量方法分為若干個簇的過程,這是一種典型的無監(jiān)督學習方法[1].聚類在機器學習[2]、圖像識別[3]、計算機視覺[4]等領域都具有廣泛應用.隨著互聯(lián)網(wǎng)和移動設備的發(fā)展,數(shù)據(jù)維度越來越高,規(guī)模越來越大,所以學者們廣泛開展數(shù)據(jù)降維和特征提取方法的研究[5].目前存在的數(shù)據(jù)降維方法包括主成分分析的線性方法[6]和基于核函數(shù)的非線性方法[7]等.

      傳統(tǒng)聚類算法聚焦于給定數(shù)據(jù)表征并在表征空間進行聚類,而真實場景中很多數(shù)據(jù)難以使用簡單的表征進行描述.深度聚類結合深度學習和神經(jīng)網(wǎng)絡的優(yōu)勢,可有效提取復雜類型數(shù)據(jù)的非線性表征,并應用于較大規(guī)模數(shù)據(jù)集上.深度學習[8]概念來源于人工神經(jīng)網(wǎng)絡的研究,結合底層特征,形成更抽象、更高層次的屬性表征,深層次地發(fā)現(xiàn)數(shù)據(jù)的分布特征表示[9].

      隨著神經(jīng)網(wǎng)絡的發(fā)展[10],深度學習廣泛應用于各領域,如自然語言處理[11]、語音識別[12]、目標檢測[13]等.由于深度學習在特征降維與表征學習方面的優(yōu)異表現(xiàn),越來越多的研究者將重點轉移到如何獲取數(shù)據(jù)的有效表征以提高聚類性能,因此將基于深度學習的聚類稱為深度聚類[14].在深度聚類中,整個模型可分為表征學習模塊和聚類模塊,表征學習模塊將復雜的數(shù)據(jù)類型轉化為傳統(tǒng)聚類容易處理的特征向量形式.

      神經(jīng)網(wǎng)絡具有強大的非線性特征提取能力,使深度聚類在大規(guī)模高維數(shù)據(jù)集上具有較好的聚類效果.深度聚類不僅能發(fā)揮原有聚類算法的作用,而且能更好地適應當今大數(shù)據(jù)時代的需求,更有效地處理大規(guī)模高維數(shù)據(jù)[15].神經(jīng)網(wǎng)絡需要進行監(jiān)督訓練才能服務具體的任務.某些特定任務無法獲得足夠的標簽,如罕有疾病圖像數(shù)據(jù)的研究、軍事信息等機密數(shù)據(jù)的分析等,而深度聚類可為這些任務提供輔助作用,分配標簽,為網(wǎng)絡訓練提供監(jiān)督信號.

      由于深度聚類應用的廣泛性,近些年吸引大量學者對其探索,涌現(xiàn)很多深度聚類算法,卻缺少深度聚類的綜述對其總結分析,無法為初步研究者提供理論基礎,也不能為學者們提供新的思路.

      本文是對深度聚類的系統(tǒng)闡述和總結.首先,總結深度聚類算法中常用的傳統(tǒng)聚類算法并歸納總結其優(yōu)缺點.再基于深度聚類中表征學習方法的不同,對算法進行綜述,包括基于生成式模型的深度聚類、基于判別式模型的深度聚類.然后,通過實驗對比分析各類算法,總結算法特點.最后,總結深度聚類的常用損失函數(shù)和評估標準,討論深度聚類的應用場景.

      1 傳統(tǒng)聚類算法

      傳統(tǒng)聚類算法主要包含如下5類:基于劃分的聚類算法、基于層次的聚類算法、基于密度的聚類算法、基于圖的聚類算法、基于模型的聚類算法.各類算法的優(yōu)缺點總結如表1所示.

      表1 傳統(tǒng)聚類算法優(yōu)缺點總結Table 1 Summary of advantages and disadvantages of traditional clustering algorithms

      基于劃分的聚類算法主要思想是預先指定聚類中心,通過迭代運算不斷降低與目標函數(shù)的誤差值,當目標函數(shù)收斂時,獲得最終的聚類結果.K-means是基于劃分的聚類算法的經(jīng)典算法,也是在深度聚類算法中常用的方法之一.該算法需要事先指定簇的個數(shù)K,然后隨機選取數(shù)據(jù)中的K個點作為聚類中心,在每次迭代中,每個樣本被分配到距離最近的聚類中心,更新簇,使每個樣本與其聚類中心的平方距離和最小.

      基于層次的聚類算法的主要思想是通過構造數(shù)據(jù)之間的樹狀型層次關系實現(xiàn)聚類.根據(jù)構建層次關系的方式不同,可將層次聚類分為自底向上的凝聚聚類(Agglomerative Clustering, AC)[16]和自頂向下的分裂聚類[17].用于深度聚類的一般是凝聚聚類.凝聚聚類的特點是剛開始將每個點作為一個簇,在每次迭代中,合并原始特征域中最接近的兩個點,并依此更新聚類中心,直至達到結束條件.

      基于密度的聚類算法的主要思想是根據(jù)數(shù)據(jù)的密度發(fā)現(xiàn)任意形狀的簇,將簇看作是數(shù)據(jù)空間中相對于其它部分密度更大的區(qū)域.密度峰值聚類算法(Density Peaks Clustering, DPC)[18]是近年來的通用算法.DPC的聚類過程基于兩個假設:簇中心為密度峰值;非中心點與其最近的高密度點的簇相同.

      基于圖的聚類算法利用圖劃分理論,首先將數(shù)據(jù)表示為圖數(shù)據(jù),再將聚類問題轉化為圖劃分問題[19].隨著互聯(lián)網(wǎng)的發(fā)展及人們?nèi)找嬖鲩L的需求,圖數(shù)據(jù)大量涌現(xiàn),圖聚類可充分利用圖數(shù)據(jù)中的屬性和結構信息,對圖數(shù)據(jù)進行分析及理解,成為近年來的研究熱點.譜聚類(Spectral Clustering, SC)[20]是圖聚類的典型代表,也與深度聚類聯(lián)系緊密.譜聚類是將給定數(shù)據(jù)集的樣本看作空間中的點,計算樣本的相似度矩陣、度矩陣及拉普拉斯矩陣,再進行特征分解,得到特征向量,進而聚類特征向量,得到最終劃分.

      基于模型的聚類算法主要思想是假設每個簇是一個模型,然后尋找與該模型擬合的最好數(shù)據(jù)[21].高斯混合模型(Gaussian Mixture Models, GMM)是經(jīng)典的基于概率生成模型的聚類算法,是多個高斯分布函數(shù)的線性組合.GMM假設所有樣本數(shù)據(jù)均服從混合高斯分布,并對其概率密度函數(shù)進行估計,采用期望最大算法(Expectation Maximization, EM)進行求解,得到的模型就是高斯模型的線性組合,其中每個高斯分布表示一個簇.

      2 深度聚類算法

      為了解決大規(guī)模、高維數(shù)據(jù)的降維和特征表示問題,在聚類任務中引入深度學習,以無監(jiān)督表征學習為研究中心,提高聚類性能.所以本文基于無監(jiān)督表征學習分類深度聚類算法,歸納典型的相關算法,并簡要介紹各類算法的優(yōu)缺點.

      2.1 基于生成模型的深度聚類

      基于生成模型的深度聚類通過盡可能生成與輸入相同的樣本或相同的分布以確保獲得有效的表征,再推斷聚類分配.因此往往需在中間層加入聚類層聯(lián)合表征學習與聚類或在表征學習完成之后進行聚類.在深度聚類中,常用的是基于自動編碼器的表征學習方法和基于生成對抗網(wǎng)絡的表征學習方法.而自動編碼器(Autoencoder, AE)又包含堆疊自動編碼器、卷積自動編碼器和變分自動編碼器.本節(jié)將以上述表征學習方式為分類依據(jù),對經(jīng)典深度聚類算法進行總結分析.

      2.1.1 基于自動編碼器的深度聚類

      自動編碼器是一種應用于無監(jiān)督學習的神經(jīng)網(wǎng)絡,由編碼器和解碼器兩部分組成.輸入數(shù)據(jù)通過編碼器得到潛在空間,解碼器重構潛在空間特征向量,得到輸出.自動編碼器最小化原始輸入數(shù)據(jù)與重構數(shù)據(jù)的誤差,盡可能地保留數(shù)據(jù)有效的表征信息,不需要額外的標簽信息進行監(jiān)督學習,這一屬性使其廣泛應用于無監(jiān)督的聚類任務中.深層次的網(wǎng)絡結構能提取抽象的數(shù)據(jù)特征,所以深度聚類多采用堆疊自動編碼器(Stacked AE, SAE)[22]對數(shù)據(jù)進行降維和特征提取.基于AE的深度聚類結構如圖1所示.

      圖1 基于AE的深度聚類結構圖Fig.1 Structure of autoencoder for deep clustering

      基于AE,Xie等[23]提出DEC(Deep Embedded Clustering).DEC是具有代表性的深度聚類算法之一,核心思想是輔助目標分布P的構造,實現(xiàn)無監(jiān)督表征學習和聚類任務的同時進行.目標分布P的定義遵循如下原則:1)增強預測;2)更重視分配的高置信度數(shù)據(jù)點;3)歸一化每個聚類中心的損失貢獻.DEC首先利用重構損失函數(shù)對堆疊自動編碼器進行預訓練,初始化網(wǎng)絡參數(shù),使?jié)撛诳臻g變?yōu)檩斎氲挠行П硎?然后丟棄解碼器部分,加入聚類層,將編碼器編碼后的表征作為聚類輸入,使用K-means初始化聚類中心,采用學生t分布(Student′st-distribu-tion)作為內(nèi)核,衡量聚類中心和嵌入點的相似度,得到軟標簽分布Q,隨后利用KL散度對網(wǎng)絡進行微調(diào),即最小化目標輔助函數(shù)P和軟標簽分布Q的KL散度.

      DEC突出的貢獻是對輔助目標分布P的定義與引入,使無監(jiān)督的聚類任務能在有監(jiān)督的深度學習中得到發(fā)展,通過神經(jīng)網(wǎng)絡獲得數(shù)據(jù)的非線性表征并降維,大幅提高聚類在大規(guī)模高維數(shù)據(jù)上的準確度.后續(xù)的很多深度聚類算法都是以此為基礎進行改進或疊加其它思想.Guo等[24]提出IDEC(Impro-ved DEC),在DEC的基礎上,在微調(diào)階段保留解碼器,加入重構損失,保護數(shù)據(jù)的局部結構.為了更好地利用卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network, CNN)對圖像進行特征提取,Guo等[25]又提出DCEC(Deep Convolutional Embedded Clustering),利用卷積自動編碼器對圖像數(shù)據(jù)集進行特征提取,提高自動編碼器對圖像數(shù)據(jù)的聚類結果.

      K-means常應用在嵌入空間,得到相應的聚類中心,而這類方法容易形成數(shù)據(jù)崩塌,Opochinsky等[26]提出K-DAE(K-Deep-Autoencoder),每個簇由每個自動編碼器表示,將數(shù)據(jù)點分配給重構誤差最小的編碼器,全局重構損失最小的一組即為最優(yōu)聚類.通過此方法,可使每個簇獲得更豐富的表示,避免造成數(shù)據(jù)崩塌,并且無需加入正則化,網(wǎng)絡訓練相對簡單.

      雖然重構損失實現(xiàn)無監(jiān)督的表征學習,但是很難學習到具有判別性的表征,因此一些樣本在聚類層一直被錯誤分類.為了增強表征的判別性,Cai等[27]提出DCCF(Deep Clustering with Contractive Representation Learning and Focal Loss),在嵌入層中加入雅克比矩陣F-范數(shù)約束項,增強表征的收縮性,在損失函數(shù)中加入焦點損失,增強表征的判別性,提高聚類分配準確度.

      為了滿足更多的要求及提高聚類性能,研究者們在學習表征的過程中加入交替更新優(yōu)化的思想.Dijazi等[28]提出DEPICT(Deep Embedded Regula-rized Clustering),作為一個端到端的聯(lián)合學習框架,避免堆疊自動編碼器的逐層預訓練.首先使用深度卷積自動編碼器將數(shù)據(jù)映射到一個可判別的子空間.再在KL散度的基礎上加入正則化項,平衡樣本分配,避免出現(xiàn)平凡解.最后采用交替學習步驟優(yōu)化目標函數(shù).在期望步驟中,固定參數(shù),估計目標函數(shù)Q.在最大化步驟中,假設目標函數(shù)Q已知,更新參數(shù).交替更新目標函數(shù)的思想同樣用在Yang等[29]提出的DCN(Deep Clustering Network)中.

      上述算法利用KL散度聚類損失函數(shù),結合聚類與神經(jīng)網(wǎng)絡,發(fā)掘神經(jīng)網(wǎng)絡在聚類任務的應用前景,所以學者們開始探索如何使神經(jīng)網(wǎng)絡提取的表征更適合于某個具體的聚類算法,更好地按需應用.DCN以K-means為例,探索如何使表征更有利于K-means,即將樣本均勻分布在聚類中心,采用重構損失函數(shù)進行約束,增加K-means損失函數(shù),獲得聚類“友好”空間.DCN使用隨機梯度下降的方法交替更新神經(jīng)網(wǎng)絡參數(shù)、分配函數(shù)及聚類中心,固定聚類中心和分配函數(shù),更新神經(jīng)網(wǎng)絡參數(shù).然后固定神經(jīng)網(wǎng)絡參數(shù),更新聚類中心和分配函數(shù).DCN為聚類和神經(jīng)網(wǎng)絡結合時設計優(yōu)化規(guī)則提供了方向.

      上述深度聚類算法均采用K-means初始化聚類中心,但存在如下局限:1)在現(xiàn)實條件下,時常難以預知聚類數(shù)目;2)基于劃分的K-means不能發(fā)現(xiàn)球形簇,在不平衡數(shù)據(jù)上性能較差;3)K-means具有隨機性,會造成聚類結果不穩(wěn)定.因此Yang等[30]提出Deep Spectral Clustering Using Dual Autoencoder Net-work,利用雙自編碼器獲得魯棒性特征,即在獲得的表征中加入噪聲后再進行重構,加入互信息獲得更具判別性表征,即最大化輸入與表征分布的互信息,最后同時進行譜聚類與表征學習.Ren等[31]提出DDC(Two-Stage Deep Density-Based Image Cluste-ring),不同于聯(lián)合進行的聚類與表征學習,DDC采用二階段方法,分開進行表征學習與聚類.首先采用卷積自動編碼器獲取表征,再采用t-SNE(t-Distribu-ted Stochastic Neighbor Embedding)流形方法獲得二維表征以有利于基于密度的聚類方法,最后設計基于密度的聚類算法,獲得最終結果.McConville等[32]提出N2D,也采用二階段方法,先用自動編碼器獲取數(shù)據(jù)表征,再用流形學習技術代替聚類網(wǎng)絡,尋找表征中更適合聚類的流形.然后采用傳統(tǒng)聚類算法,獲得聚類結果.二階段的方法及流形學習技術再次應用于DERC(Deep Embedded Dimensionality Reduction Clustering)[33]中,DERC替換自動編碼器為卷積神經(jīng)網(wǎng)絡,采用高斯混合模型進行聚類.

      為了增強表征的魯棒性,Yang等[34]提出Adver-sarial Learning for Robust Deep Clustering,在表征中加入攪動特征作為對抗樣本,提出對抗攻擊策略,使攪動特征生成的樣本與干凈樣本盡可能一致,進而提高表征的魯棒性.

      2.1.2 基于變分自動編碼器和生成對抗網(wǎng)絡的深度聚類

      變分自動編碼器(Variational AE, VAE)和生成對抗網(wǎng)絡(Generative Adversarial Network, GAN)都是深度生成學習模型[35].VAE最大化數(shù)據(jù)對數(shù)似然的下界,GAN在生成器和判別器對抗訓練中找到平衡.之所以將二者放在一起,是因為VAE和GAN不僅可聯(lián)合表征學習和聚類,同時還能生成樣本數(shù)據(jù).

      VAE是自動編碼器的變體,使AE的潛在特征服從一個預先定義的分布.用于聚類的VAE通常采用高斯混合分布模型作為先驗,因為該模型較利于描述聚類結構.判斷數(shù)據(jù)點屬于哪一個簇等同于判斷數(shù)據(jù)點是由哪類潛在模型產(chǎn)生,所以在最大化證據(jù)下界之后,可通過學習到的高斯混合模型得到數(shù)據(jù)點的聚類.

      GAN的目標是學習一個與數(shù)據(jù)真實分布相似的生成分布.生成網(wǎng)絡G從噪聲中產(chǎn)生一個樣本,判別網(wǎng)絡D會判斷樣本數(shù)據(jù)是真實的還是生成的,若判別器判斷正確,對判別器進行獎勵,否則對生成器進行懲罰,繼續(xù)進行下一個周期,直到判別器無法判斷真?zhèn)?GAN的結構如圖2所示.

      圖2 GAN結構圖Fig.2 Structure of GAN

      基于上述神經(jīng)網(wǎng)絡,Jiang等[36]提出VaDE(Varia-tional Deep Embedding),基于VAE和高斯混合模型,使用混合高斯分布先驗代替單個高斯分布先驗,更有利于聚類任務.VaDE與其它聚類任務的根本區(qū)別是能生成指定簇中的樣本.VaDE流程如下:1)初始化參數(shù).通過SAE預訓練,得到初始的潛在向量z.再采用GMM擬合z,初始化高斯分布的均值u、方差σ及GMM中簇的先驗概率π.2)編碼.原始數(shù)據(jù)X經(jīng)過映射函數(shù)g得到均值、方差,即后驗分布,再在后驗分布中采樣得到z.3)解碼.經(jīng)過映射函數(shù)f對z進行解碼,重構X.4)利用反向傳播更新參數(shù)u、σ、π.

      上述生成過程可將聯(lián)合概率p(x,z,c)表示為

      p(x,z,c)=p(x|z)p(z|c)p(c),

      其中,c為簇,z為潛在向量,x為真實數(shù)據(jù).由于VaDE中的推斷是采用變分的方法,所以可采用SGVB(Stochastic Gradient Variational Bayes)估計器和參數(shù)化技巧優(yōu)化ELBO(Evidence Lower Bound).

      Xu等[37]將最大化互信息引入變分自動編碼器網(wǎng)絡模型中,提出DC-VAE(Deep Clustering via V-AE),首先將深度聚類問題在VAE框架中定義為軟聚類分配,然后對可觀測數(shù)據(jù)和信息表示實施互信息最大化,防止進行軟聚類分配時扭曲學習到的表征,最后推導新的泛化證據(jù)下界對象.

      GAN通過生成對抗學習思想生成樣本或用于分類,但聚類將樣本劃分成簇,卻缺少標簽對網(wǎng)絡進行監(jiān)督訓練,所以信息理論在基于GAN的聚類任務中得到廣泛應用.互信息I(X;Y)表示在已知Y的情況下可得到多少X的信息.如X與Y無關,則I(X;Y)=0,取得最小值;如已知Y能確定X,則I(X;Y)取得最大值.Springenberg[38]提出CatGAN(Catego-rical GAN),從未標記數(shù)據(jù)中學習一個判別分類器D,可看作是GAN的泛化和正則化信息最大化的擴展.CatGAN與GAN的不同之處是:1)GAN中的判別器D的判斷結果只有兩類,即數(shù)據(jù)是真實樣本還是來自于生成器G的樣本,而CatGAN中的判別器D是將輸入劃分成預先已知的k個類,從而變?yōu)橐粋€分類器;2)GAN中的生成器G是生成數(shù)據(jù)集中的樣本,而CatGAN的生成器G是生成屬于k類中的樣本.將分類轉化為聚類問題,通常使用距離作為度量原則,而本文采用熵H作為度量,對確定度進行衡量,即CatGAN的判別器D使真實數(shù)據(jù)不僅有較高的確信度劃分為真實樣本,而且具有較大的確信度劃分到現(xiàn)有的類別中去,但對于生成器產(chǎn)生的樣本則不確定劃分到現(xiàn)有的哪個類別,即不確定度較大.數(shù)學化表示為,最大化H[p(y|x,D)]和H[p(y|D)],而最小化H[p(y|G(z),D)],其中,y為類別標簽,x為真實樣本,z為隨機噪聲,G(z)為生成器產(chǎn)生的樣本,E為期望.所以判別器和生成器的目標函數(shù)分別為:

      同樣將信息理論擴展到GAN的還有Chen等[39]提出的InfoGAN(Information Maximizing GAN),在無監(jiān)督的方式下學習數(shù)據(jù)的分解表示(Disentangled Representation),將表征學習變得更具體,有利于聚類任務.原來的GAN是對一段連續(xù)單一的噪聲z進行生成,無法通過控制z的某些維度以生成特定的語義特征.而InfoGAN是把原始的輸入噪聲分成兩部分:一部分為不可再分解的噪聲z,另一部分叫作潛在編碼c,是由若干個潛在變量組成,這些變量具有先驗概率分布,代表不同維度的特征.例如:MNIST數(shù)據(jù)集的手寫數(shù)字特征可分成多個維度(數(shù)字粗細,傾斜角度等).所以生成器分布變成G(z,c).為了避免出現(xiàn)平凡解,加入信息論的互信息[40]進行約束.隱編碼c輸入生成器,使生成器G產(chǎn)生的數(shù)據(jù)具有可解釋性,所以c和G(z,c)的互信息越大,說明保留的c信息越多,所以InfoGAN的目標函數(shù)為:

      其中,V(D,G)為標準GAN的目標函數(shù),I(c;G(z,c))為信息理論的正則化項,λ為超參數(shù).在計算互信息I(c;G(z,c))的過程中,后驗分布P(c|x)不易獲得,所以采用變分推斷的思想,定義輔助分布Q(c|x)逼近P(c|x),所以InfoGAN的目標函數(shù)為:

      生成模型雖然能估計聚類的潛在分布及生成數(shù)據(jù),但學習到的數(shù)據(jù)表征缺乏判別性,不同簇的分布往往具有重疊性.為了解決該問題,Yang等[41]提出IMDGC(Mutual Information Maximization Deep Gene-rative Clustering),與InfoGAN直接生成數(shù)據(jù)不同的是,IMDGC中生成數(shù)據(jù)的過程具有層次性,即先從潛在編碼中學習先驗,后從先驗中生成數(shù)據(jù).這種具有層次性的結構和互信息最大化可通過低密度區(qū)域分離不同簇,提高表征的判別性.

      為了解決聚類算法中使用淺層模型無法獲得數(shù)據(jù)有效的非線性表征及深度模型參數(shù)量過多造成過擬合的問題,Dizaji等[42]提出ClusterGAN,與上述引入互信息進行無監(jiān)督學習的方法不同,ClusterGAN包括3部分:生成器、聚類器、判別器.生成器從具有類別信息的變量z中生成樣本x′,聚類器對真實樣本x提取表征并生成具有類別信息的變量z′,判別器判斷(z,x)是來自生成器還是聚類器.通過三者之間的對抗關系實現(xiàn)無監(jiān)督學習,為了提高聚類器的泛化能力,增加相對熵損失和平衡自步學習損失.平衡自步學習算法是在訓練過程中逐漸降低選擇的樣本難度,同時逐步增加選擇樣本的數(shù)量.

      Larsen等[43]提出VAE-GAN,提高生成樣本的質(zhì)量,卻無法直接應用到聚類.VaDE將聚類應用于變分自動編碼器.因此Yang等[44]提出WGAN-GP

      (Clustering Approach Based on Wasserstein GAN with Gradient Penalty),結合VAE-GAN與VaDE的優(yōu)勢.采用具有梯度懲罰的Wasserstein GAN與具有高斯混合模型的VAE,兩個模型的結合提高模型訓練的穩(wěn)定性及聚類結果.具體來說,Wasserstein GAN的引入緩解GAN訓練不穩(wěn)定的問題,GAN通過VaDE中的高斯混合模型先驗生成潛在表征,后續(xù)為了增加模型對離群值的魯棒性,將高斯混合模型替換為SMM(Student′st-mixture Model).

      2.2 基于判別模型的深度聚類

      判別式模型直接學習到具有判別性的表征用于聚類,模型輸出對聚類結果的預測,其中常用的就是卷積神經(jīng)網(wǎng)絡(CNN)[45].CNN往往與其它網(wǎng)絡結合,或特定于某個聚類算法進行設計改造,達到較優(yōu)的聚類結果.CNN能獲得圖像的多維復雜特征,有利于圖像的特征提取.近些年來,隨著深度學習的不斷發(fā)展,CNN得到廣泛應用.但是,由于需要標注大量的樣本對其訓練以獲得有效表征,造成昂貴的時間與人力成本,因此如何將無標簽的聚類任務與表征學習統(tǒng)一,成為研究者們關注的熱點話題.目前,CNN在聚類任務中的表征學習主要分為基于偽標簽信息的深度聚類與基于對比學習的深度聚類兩類.

      2.2.1 基于偽標簽信息的深度聚類

      聚類任務中偽標簽信息的獲取主要可分為:1)通過聚類算法獲得偽標簽,引導CNN進行訓練.2)自定義一種方法,估計偽標簽,監(jiān)督CNN訓練.Yang等[46]提出Recurrent Framework for Joint Unsuper-vised Learning of Deep Representations and Image Clusters,利用一個循環(huán)框架,通過迭代的方式更新優(yōu)化參數(shù).神經(jīng)網(wǎng)絡提取的表征使聚類算法獲得更優(yōu)的聚類結果,而聚類算法產(chǎn)生的聚類結果又能作為監(jiān)督信號對神經(jīng)網(wǎng)絡進行監(jiān)督訓練,所以二者相輔相成.該算法首先通過ImageNet預訓練CNN,并選取k個樣本作為初始的聚類中心,然后采用小批量K-means,為每個樣本分配聚類標簽.優(yōu)化過程采用迭代方式:在前向過程中,固定神經(jīng)網(wǎng)絡的參數(shù),利用層次聚類中的凝聚聚類聚類表征,并更新聚類標簽;在后向過程中,固定聚類標簽,更新神經(jīng)網(wǎng)絡參數(shù),獲得更優(yōu)的表征.該算法為了解決小批量K-means連續(xù)迭代之間的特征不匹配而引起的漂移誤差問題,約束聚類中心的更新.通過實驗發(fā)現(xiàn),該算法在圖像數(shù)據(jù)集上具有較好的聚類效果,學習到的表征表示能遷移到其它圖像數(shù)據(jù)集上,但凝聚聚類采用的相似方法為有向圖,需要構建相似矩陣,因此計算復雜度較高.

      為了模擬CNN在圖像分類上的巨大成功,研究者們嘗試在聚類任務中加入約束以產(chǎn)生標簽信息.Chang等[47]提出DAC(Deep Adaptive Clustering),并提出標簽特征理論以獲得偽標簽.DAC假設成對圖像的關系是在二進制基礎上,即兩幅圖像在一個簇中或不在一個簇中,將圖像聚類問題轉變成一個二進制成對分類問題.首先輸入無標記的圖像,通過CNN得到圖像的標簽特征,并利用余弦距離得到標簽特征的相似度.為了獲得標簽特征的one-hot向量,對標簽特征加入約束.為了解決圖像聚類任務中真實相似度(Ground-Truth Similarities)未知的問題,DAC提出交替迭代自適應算法.在固定神經(jīng)網(wǎng)絡的基礎上選擇成對的圖像估計相似度,又通過選定的標記樣本訓練CNN,最終圖像自動通過標簽特征進行聚類,當所有樣本都訓練后算法收斂.DAC是將聚類問題巧妙轉換為分類問題,Niu等[48]將標簽特征理論繼續(xù)深化,提出GATCluster(Self-Super-vised Gaussian Attention Network for Image Cluste-ring),基于標簽特征理論,設計4個自監(jiān)督學習任務對平移不變性、分離最大化、熵分析和注意力映射這4個方面進行約束.平移不變性是最大化樣本和任意平移樣本的相似度,即原圖像與平移旋轉后圖像特征盡可能相似.分離最大化任務對每對樣本探索相似性和分離性,引導模型學習,即相似樣本盡可能聚集,不相似樣本盡可能遠離.熵分析任務是為了避免平凡解.基于判別性信息通常在局部區(qū)域假設,提出注意力機制,捕捉物體的語義信息.

      在沒有標簽的情況下,只能在現(xiàn)有數(shù)據(jù)中挖掘它們之間更多的相互關系,并以此提供監(jiān)督信息.Wu等[49]提出DCCM(Deep Comprehensive Correlation Mining),將圖像之間的相互關系分為4種關系:樣本之間的關系、特征之間的聯(lián)系、內(nèi)在關系及局部魯棒性.樣本之間的關系通過加入約束,使網(wǎng)絡預測的特征接近one-hot,然后計算余弦距離構造相似圖,在相似圖和預測特征的基礎上,設置一個閾值,獲得高置信的偽圖和偽標簽,用此監(jiān)督網(wǎng)絡訓練.特征之間的聯(lián)系是指最大化深層特征和淺特征的互信息.局部魯棒性是指原輸入圖像的特征和幾何變換后圖像輸入的特征距離應盡量相近.內(nèi)在關系是指組合上述三個關系.

      在非參數(shù)實例判別方法[50]中,作者在有監(jiān)督學習結果中觀察發(fā)現(xiàn),判別式學習可自動發(fā)現(xiàn)語義類別之間的相似性,而不需要人為標注.由此想到,如果把每個實例當作一個類別,可將有監(jiān)督的分類學習轉換為無監(jiān)督的實例學習,而通過判別式學習就能獲得實例之間語義的相似性.但這樣需要面臨一個問題,即類別數(shù)等于實例數(shù),將softmax的輸出擴展到與實例數(shù)相同是不可行的,所以作者采用NCE(Noise-Contrastive Estimation)逼近softmax的分布.由此Tao等[51]提出Clustering-Friendly Represen-tation Learning Method Using Instance Discrimina-tion and Feature Decorrelation,在實例判別中加入對控制分布參數(shù)的討論,提升表征學習的效果.特征去關聯(lián)是指將獲得的特征正交以獲得獨立的特征,確保冗余信息的減少,最后通過譜聚類獲得聚類結果.

      2.2.2 基于對比學習的深度聚類

      基于偽標簽信息的深度聚類目標是將無監(jiān)督的深度聚類轉化為有監(jiān)督的方式對神經(jīng)網(wǎng)絡進行訓練,進而獲得適合聚類的表征.隨著自監(jiān)督表征學習的發(fā)展,對比學習應用于聚類任務中.對比學習的基本思想是將原始數(shù)據(jù)映射到表征空間,其中正樣本對相似性最大化,負樣本對相似性最小化,以此獲得判別性的表征.在早期工作中,正負樣本是作為已知的先驗,近期研究表明樣本對的質(zhì)量對對比學習結果至關重要,而先驗存在一定的局限性,因此學者們開始采用無監(jiān)督的方式構建樣本對.具體地,原樣本的增強樣本作為正樣本,其它樣本作為負樣本.

      Tsai等[52]提出MiCE(Mixture of Contrastive Ex-perts),同時利用對比學習獲得判別式的表征以及利用潛在混合模型獲得語義結構,受MoE(Mixture of Experts)的啟發(fā),引入潛變量,表示圖像的聚類標簽,形成混合條件模型.每個條件模型學會區(qū)分實例的子集,將數(shù)據(jù)集根據(jù)語義信息劃分為子集.

      MiCE通過對比學習獲得聚類所需的判別性表征,但只將對比學習應用于實例級別.因此Li等[53]提出CC(Contrastive Clustering),將對比學習同時應用于實例級別和簇級別.數(shù)據(jù)經(jīng)過神經(jīng)網(wǎng)絡獲得特征矩陣,將矩陣的行看作實例表征,矩陣的列看作簇表征.圖像經(jīng)過隨機旋轉平移之后經(jīng)過另一個共享權重的神經(jīng)網(wǎng)絡,得到增強特征矩陣,將兩個矩陣的行和列分別最大化相似度.經(jīng)過上述兩個目標函數(shù)優(yōu)化神經(jīng)網(wǎng)絡后,取每列特征最大值作為簇標簽.

      上述基于對比學習的深度聚類均取得優(yōu)異的聚類性能,但都僅應用對比學習的基本框架,即假設樣本和它的增強樣本的特征與分配應盡可能相似,卻忽略潛在的類別信息. Zhong等[54]提出GCC(Graph CC),同時考慮實例級別與簇級別的一致性.但與對比聚類不同的是,GCC采用圖的方式表示樣本之間及簇間的關系,而非直接最大化原特征與增強特征的一致性.具體來說,首先根據(jù)神經(jīng)網(wǎng)絡獲得的表征構造相似圖,對于實例級別,采用基于圖拉普拉斯的對比損失,對于簇級別,又構造樣本的K近鄰(K-Nearest Neighbor, KNN)圖,且假設樣本和它們的鄰居應有相同的聚類分配,因此最大化樣本及其鄰居樣本簇分配的相似性.

      Zhong等[55]提出DRC(Deep Robust Clustering),提高深度聚類的魯棒性.DRC為了解決目前深度聚類交替更新造成的誤差傳播問題,將深度聚類研究從分配特征與分配概率兩個角度進行,并且挖掘互信息與對比學習的聯(lián)系,將常用的最大化互信息轉化為最小化對比損失,并成功應用于分配特征與分配概率.DRC定義分配特征為CNN中全連接網(wǎng)絡層的輸出,為K(類別數(shù))維向量,分配概率為softmax層的輸出.具體來說:一是從全局角度最大化原始圖像與增強圖像的分配概率的互信息,增加簇間方差,并獲得高置信度的劃分;二是從局部角度最大化原始圖像與增強圖像的分配特征的互信息,減少類內(nèi)方差,并獲得更具有魯棒性的簇. 最近研究表明,相比互信息,在無監(jiān)督學習訓練中對比學習更有效,因此DRC將最大化互信息轉換為最小化對比損失.

      2.3 基于圖表征學習的深度聚類

      嚴格來說,基于圖表征學習的深度聚類可按照表征學習思想的不同劃分到上述的生成式和判別式兩類模型中.但由于圖神經(jīng)網(wǎng)絡的特殊性,將基于圖表征學習的深度聚類單獨作為一個章節(jié),方便讀者更好地理解與分析應用于深度聚類中的圖神經(jīng)網(wǎng)絡和圖表征學習.

      由于現(xiàn)實生活中存在很多圖數(shù)據(jù),如社交網(wǎng)絡、電子購物、交通網(wǎng)絡等.為了更好地挖掘圖數(shù)據(jù)存在的結構和屬性信息,Gori等[56]提出圖神經(jīng)網(wǎng)絡的概念.CNN在圖像數(shù)據(jù)中取得不錯成績后,學者們開始思考如何將卷積操作加入圖神經(jīng)網(wǎng)絡中,所以Bruna等[57]結合基于頻域的卷積操作與圖神經(jīng)網(wǎng)絡,將可學習的卷積操作用于圖數(shù)據(jù)之上.但基于頻域的卷積操作要求處理整個圖,并需要進行矩陣分解,時間復雜度較高,難以應用于大規(guī)模的圖數(shù)據(jù). Kipf等[58]簡化頻域圖卷積,使圖卷積能在空域中進行,大幅提升圖卷積模型的計算效率.常用于深度聚類的圖神經(jīng)網(wǎng)絡結構如圖3所示,圖中σ(·)表示激活函數(shù).

      圖3 基于圖表征學習的深度聚類結構圖Fig.3 Deep clustering structure based on graph representation learning

      基于圖神經(jīng)網(wǎng)絡的圖表征學習目的在于獲得節(jié)點在低維空間中向量表示的同時保存圖結構中節(jié)點之間的結構關系,正是由于這個屬性,圖神經(jīng)網(wǎng)絡可挖掘數(shù)據(jù)之間的結構信息,增加表征中包含的信息.Kipf等[59]提出VGAE(Variational Graph Autoenco-der),對節(jié)點進行低維向量表示,使用圖卷積網(wǎng)絡作為編碼器,得到所有節(jié)點的潛在表示Z,然后采用隱向量的內(nèi)積作為解碼器輸出重構圖.Wang等[60]提出DAEGC(Deep Attentional Embedded Graph Cluste-ring),利用圖神經(jīng)網(wǎng)絡獲得圖數(shù)據(jù)的結構信息,在輸入中同時加入節(jié)點的屬性信息,融合節(jié)點信息和結構信息進行表征學習,并引用注意力機制,更有效地對節(jié)點的鄰居節(jié)點進行聚合,在得到的潛在表示中使用K-means初始化聚類中心.借鑒DEC自監(jiān)督的訓練方式,得到重構損失和KL散度統(tǒng)一的目標函數(shù),對聚類中心和神經(jīng)網(wǎng)絡參數(shù)進行聯(lián)合優(yōu)化. Bo等[61]提出SDCN(Structural Deep Clustering Network),不僅利用圖神經(jīng)網(wǎng)絡挖掘數(shù)據(jù)結構信息,并且將輸入數(shù)據(jù)從圖數(shù)據(jù)拓展到規(guī)則化數(shù)據(jù),面對非圖結構數(shù)據(jù)集時,利用KNN得到無向K近鄰圖,作為圖卷積網(wǎng)絡的輸入.SDCN另一方面將原始數(shù)據(jù)作為自動編碼器的輸入,并將自動編碼器每層學習到的表示逐層輸入圖卷積網(wǎng)絡中,與對應層數(shù)據(jù)的結構信息結合,經(jīng)過堆疊圖卷積網(wǎng)絡的編碼,在其最后一層使用softmax激活函數(shù),得到數(shù)據(jù)的分配概率Z,并將Z看作概率分布.在自動編碼器得到的潛在表示中,使用K-means初始化聚類中心,使用學生t分布作為內(nèi)核,衡量聚類中心和嵌入點的相似度,得到Q.利用Q得到目標輔助分布P,將P與Q進行KL散度處理,得到自動編碼的聚類損失函數(shù)Lclus,P與Z進行KL散度處理,得到圖卷積網(wǎng)絡的損失函數(shù)Lgcn,二者加上自編碼器的重構損失Lres,得到整個模型的目標函數(shù).

      與傳統(tǒng)的自動編碼器不同,圖自動編碼器是采用內(nèi)積距離重構圖,因此學習到的表征是在內(nèi)積空間中而不是在歐幾里得空間中,而繼續(xù)采用基于歐幾里得的K-means會影響聚類結果,所以,Zhang等[62]提出EGAE(Embedding Graph Autoencoder),采用松弛K-means進行聚類.

      圖聚類是采用無監(jiān)督的方法將節(jié)點劃分為若干個簇.正因如此,圖聚類常常與圖神經(jīng)網(wǎng)絡結合,將樣本看作節(jié)點,節(jié)點之間的連接權重看作相似性.圖神經(jīng)網(wǎng)絡具有推斷樣本和鄰居連接性的強大能力.樣本經(jīng)過圖神經(jīng)網(wǎng)絡之后,會獲得節(jié)點之間邊的權重,再采用圖聚類的方法切割子圖.Qi等[63]提出RGCN(Deep Face Clustering Method Using Residual Graph Convolutional Network),將每張人臉看作節(jié)點,采用KNN獲得圖數(shù)據(jù),輸入圖神經(jīng)網(wǎng)絡后,獲得節(jié)點之間的邊權重,再采用圖聚類進行切圖.為了避免圖神經(jīng)網(wǎng)絡的過平滑問題,將殘差學習思想引入圖神經(jīng)網(wǎng)絡中,提高聚類結果.

      譜聚類是圖聚類中的經(jīng)典方法,但譜聚類中的拉普拉斯矩陣分解復雜度較高,且譜聚類未用到節(jié)點特征,因此Bianchi等[64]提出Spectral Clustering with Graph Neural Networks for Graph Pooling,在圖神經(jīng)網(wǎng)絡中加入池化層,提出mincut,可求導而不需要求解,并學習一個分配矩陣,同時加入約束,在正交空間中尋找可行解,避免出現(xiàn)平凡解.

      圖神經(jīng)網(wǎng)絡不但在圖聚類中,也在集成聚類中得到發(fā)展.Tao等[65]提出AGAE(Adversarial Graph Auto-Encoders),結合對抗性圖自動編碼器與集成聚類,具體表現(xiàn)在將一致圖和原始數(shù)據(jù)的特征矩陣作為輸入,解決傳統(tǒng)集成聚類忽略原始數(shù)據(jù)特征重利用的問題.引入對抗性正則化引導網(wǎng)絡進行訓練,圖卷積網(wǎng)絡作為概率編碼器,對潛在表示的后驗分布建模,矩陣內(nèi)積作為解碼器,多層神經(jīng)網(wǎng)絡當作判別器,通過這種方法將自適應劃分先驗引入聚類任務中.杜航原等[66]提出深度自監(jiān)督聚類集成算法,將集成聚類結果采用加權連同三元組計算相似度矩陣,將集成聚類從特征空間的數(shù)據(jù)表示轉換為圖數(shù)據(jù)表示,進而將集成聚類的一致性問題轉換為圖聚類.該算法將相似度矩陣作為輸入,圖卷積網(wǎng)絡作為編碼器,得到圖的低維嵌入,矩陣內(nèi)積作為解碼器.并依據(jù)低維嵌入似然分布估計聚類集成的目標分布,將二者的KL散度與重構損失函數(shù)的和作為目標函數(shù),對圖自編碼器進行訓練,得到最優(yōu)的集成結果.

      3 實驗及結果分析

      為了進一步分析各類算法,本文選擇傳統(tǒng)聚類算法與深度聚類算法中具有代表性的算法進行對比實驗.

      實驗軟硬件環(huán)境如下:AMD Ryzen 4800H 2.90 GHz,內(nèi)存16 GB,操作系統(tǒng)為Windows 10,編程語言為python.DEC采用tensorflow 1.15框架,VaDE、DAC采用theano 1.0框架,InfoGAN、DAEGC采用torch 1.0框架.

      3.1 實驗數(shù)據(jù)集

      本文采用UCI機器學習數(shù)據(jù)庫中常用的WDBC數(shù)據(jù)集與深度學習中常用的MNIST數(shù)據(jù)集,針對傳統(tǒng)聚類算法與深度聚類算法進行對比實驗;采用Core、Citeseer圖數(shù)據(jù)集,針對譜聚類與基于圖神經(jīng)網(wǎng)絡的深度聚類算法進行對比實驗.數(shù)據(jù)集具體信息如表2所示.

      表2 實驗數(shù)據(jù)集Table 2 Experimental datasets

      3.2 深度聚類算法性能對比

      為了對比傳統(tǒng)聚類算法與深度聚類算法在不同規(guī)模與維度數(shù)據(jù)集上的性能差異,本文選取如下傳統(tǒng)聚類算法:基于劃分的K-means、基于密度的DPC、基于層次的AC、基于圖的SC、基于模型的GMM.深度聚類算法選擇基于生成模型的DEC、VaDE、InfoGAN與基于判別模型的DAC.各算法的聚類準確率(Accuracy, ACC)對比如表3所示.

      表3 各聚類算法在2個數(shù)據(jù)集上的聚類準確率對比Table 3 Clustering accuracy comparison of different clustering algorithms on 2 datasets %

      WDBC數(shù)據(jù)集與MNIST 數(shù)據(jù)集在規(guī)模與維度方面存在顯著差異,由表3可看出,由于DPC與AC空間復雜度較高,在本實驗環(huán)境下會超出內(nèi)存,無法得到實驗結果.InfoGAN與DAC無法直接處理WDBC數(shù)據(jù),體現(xiàn)傳統(tǒng)聚類算法在大規(guī)模高維數(shù)據(jù)的局限性及CNN對非圖像數(shù)據(jù)處理的局限性.傳統(tǒng)聚類算法在WDBC數(shù)據(jù)集上表現(xiàn)較優(yōu),GMM得到最高準確率,DEC次之,深度聚類算法VaDE準確率最低.而在MNIST數(shù)據(jù)集上,傳統(tǒng)聚類算法與深度聚類算法具有明顯差距,傳統(tǒng)聚類算法準確率均低于70%,需要較高的空間內(nèi)存運行算法,而深度聚類算法聚類準確率均高于80%,VaDE和DAC的準確率甚至超過90%.因此在大數(shù)據(jù)的時代背景下,深度聚類算法會發(fā)揮更重要的作用.

      由于實驗環(huán)境中內(nèi)存的限制,本文采用MNIST_

      test數(shù)據(jù)集進行實驗,MNIST_test數(shù)據(jù)集除了數(shù)據(jù)樣本數(shù)為10 000之外,其余均與MNIST數(shù)據(jù)集相同.

      傳統(tǒng)聚類算法在MNIST_test數(shù)據(jù)集上的聚類性能如表4所示.由表可看出,各算法的準確率都較低,再次驗證傳統(tǒng)聚類算法在大規(guī)模數(shù)據(jù)上的局限性.從聚類時間可看出:DPC最長,準確率最低;K-mean效率最快,準確率差于AC和SC;AC雖然空間復雜度較高,但性能方面較優(yōu);SC在聚類準確率與效率之間達到均衡.

      表4 傳統(tǒng)聚類算法在MNIST_test數(shù)據(jù)集上的聚類性能對比Table 4 Clustering performance comparison of traditional clustering algorithms on MNIST_test dataset

      為了驗證基于圖神經(jīng)網(wǎng)絡的深度聚類算法與傳統(tǒng)圖聚類算法的差異,在Core、Citeseer數(shù)據(jù)集上對比SC和DAEGC,結果如表5所示.由表可發(fā)現(xiàn),DA-EGC在ACC與標準化互信息(Normalized Mutual Information, NMI)上明顯優(yōu)于SC,尤其在Citeseer數(shù)據(jù)集上,SC的2項指標未達到DAEGC的50%,原因在于Citeseer數(shù)據(jù)集圖像維度達3 703維.對于高維數(shù)據(jù),基于圖神經(jīng)網(wǎng)絡的表征學習優(yōu)于傳統(tǒng)聚類算法,因此基于圖神經(jīng)網(wǎng)絡的深度聚類可更有效處理目前的高維圖數(shù)據(jù).

      表5 SC和DAEGC的聚類性能對比Table 5 Clustering performance comparison of SC and DAEGC

      為了對比深度聚類算法中不同算法的復雜度,得到各算法的參數(shù)量如下:DEC為12.7 M,VaDE為10.03 M,InfoGAN為50.52 M,DAC為1.71 M,DAEGC為0.95 M.DEC、VaDE中分別包含自動編碼器與變分自動編碼器,InfoGAN含有 GAN,DAC中含有CNN,DAEGC含有圖神經(jīng)網(wǎng)絡.由參數(shù)量可看出,InfoGAN參數(shù)量最多,DAEGC參數(shù)量最少,DAC參數(shù)量次少,DEC與VaDE參數(shù)量相當.InfoGAN較復雜,在MNIST數(shù)據(jù)集上準確率較低,但能生成指定樣本,適用于數(shù)據(jù)缺失的樣本.DAEGC參數(shù)量較少,這是由于圖神經(jīng)網(wǎng)絡過深容易產(chǎn)生過平滑問題,因此圖神經(jīng)網(wǎng)絡一般是2~3層,但是圖神經(jīng)網(wǎng)絡要求輸入為矩陣,因此構建非圖數(shù)據(jù)集時仍需要較高的空間復雜度,更適合于圖數(shù)據(jù)集.DAC不但參數(shù)較少,在MNIST數(shù)據(jù)集上性能也較優(yōu),但局限于圖像數(shù)據(jù)集.DEC泛化性最好,在小規(guī)模數(shù)據(jù)集與大規(guī)模數(shù)據(jù)集上的表現(xiàn)都較好,模型參數(shù)量適中.

      3.3 總結與分析

      生成式模型中的基于自動編碼器的深度聚類最早將無監(jiān)督表征學習與聚類任務結合.重構損失的存在使模型學習的表征魯棒性較好.主要原因是聚類任務中缺少標簽,缺乏確定的先驗性信息,重構損失能在聚類損失得到充分優(yōu)化的同時將表征約束在合理范圍之內(nèi),以防只有聚類損失將潛在空間扭曲而失去實際意義.首先是采用最常用的K-means聚類算法,聯(lián)合表征學習與聚類,后來為了減少預訓練階段及更好地結合其它聚類算法,在優(yōu)化過程中加入交替更新的思想,并從此出現(xiàn)其它聚類算法損失與表征學習結合的深度聚類.

      隨著研究的不斷深入,研究者們發(fā)現(xiàn)將表征學習與聚類任務分開進行,也能獲得較好的聚類結果,并在表征學習中加入流形學習、數(shù)據(jù)增強、正則化、對抗學習等技術,不斷提高聚類性能.但由于自動編碼器具有對稱的結構特性,會限制神經(jīng)網(wǎng)絡的深度,進而影響表征學習能力.

      基于VAE的表征學習模型,為了使無監(jiān)督的訓練網(wǎng)絡模型獲得較好的表征用于聚類,將VAE中的先驗由單一分布換成混合高斯分布,并采用SGVB優(yōu)化證據(jù)下界,損失函數(shù)擁有完備的理論保證,提高模型的魯棒性,而GAN的先驗分布更靈活,因此在生成數(shù)據(jù)方面,GAN性能較優(yōu).在GAN中加入信息論,最大化互信息,避免平凡解及提高表征的判別性,提高聚類結果.即便如此,GAN的聚類性能仍較差,原因在于對抗訓練的方式收斂速度較慢.

      判別式模型由于沒有生成式模型框架的束縛,如固有的解碼器、判別器等,所以可擴展性較強.損失函數(shù)一般只包括聚類損失函數(shù).該類算法的目標函數(shù)簡單、易于優(yōu)化,網(wǎng)絡結構靈活,可使算法應用到大型復雜數(shù)據(jù)集,但由于沒有非聚類損失函數(shù)的限制,可能會出現(xiàn)特征空間扭曲、坍塌等問題.

      在無監(jiān)督表征學習和聚類任務中,一般有如下思路.

      1)聚類標簽和網(wǎng)絡參數(shù)交替更新,將聚類結果作為監(jiān)督信號促使學習有效的表征,而學習的表征又提高聚類結果.

      2)對輸出預測施加一定約束,獲得one-hot標簽特征,將聚類任務轉換為分類任務.

      3)利用自監(jiān)督學習的思想,根據(jù)聚類任務的屬性挖掘樣本之間的關系,由此作為目標函數(shù)優(yōu)化神經(jīng)網(wǎng)絡,獲得適合于聚類的表征,再進行聚類或加入聚類損失函數(shù)聯(lián)合聚類.

      4)根據(jù)判別式學習能自動獲得樣本之間語義相似性,即根據(jù)語義相似性利用聚類算法進行劃分.

      基于圖神經(jīng)網(wǎng)絡的圖表征學習首先在面向圖數(shù)據(jù)的深度聚類算法中得到應用,圖神經(jīng)網(wǎng)絡對圖數(shù)據(jù)具有強大的編碼能力,能有效利用數(shù)據(jù)的屬性和結構信息,使學習到的特征信息更豐富,進而提高聚類效果.但由于圖神經(jīng)網(wǎng)絡的輸入為圖數(shù)據(jù),對于其它類型數(shù)據(jù)集首先需要構造圖數(shù)據(jù),空間復雜度會隨著圖復雜度急劇增長.利用圖自動編碼器無監(jiān)督訓練的屬性,在K-means、圖聚類、集成聚類等方面用于數(shù)據(jù)的表征學習、圖劃分,但圖神經(jīng)網(wǎng)絡大多是半監(jiān)督的訓練方式及存在訓練不穩(wěn)定、過平滑等問題,所以圖表征學習需要更深入研究如何結合自監(jiān)督訓練任務與聚類、集成聚類.

      4 損失函數(shù)與評估標準

      4.1 損失函數(shù)

      4.1.1 聚類損失函數(shù)

      聚類損失函數(shù)是針對特定聚類算法及約束神經(jīng)網(wǎng)絡學習適合該聚類算法的特征.聚類損失函數(shù)大致可分為K-means損失函數(shù)、簇分配強化損失函數(shù)(Cluster Assignment Hardening Loss)和平衡分配損失函數(shù)(Balanced Assignment Loss)[67].

      為了保證學習到的表示有利于K-means聚類算法進行聚類,使數(shù)據(jù)均勻分布在聚類中心,K-means損失函數(shù)表示如下:

      其中,zi為嵌入到子空間的點,uk為聚類中心,sik為布爾變量表示zi是否分配到uk中的點.

      簇分配強化損失函數(shù)使用軟分配將數(shù)據(jù)分配到簇中.例如,使用t分布作為內(nèi)核衡量聚類中心和數(shù)據(jù)點的相似度,即

      其中,uj為聚類中心,zi為嵌入點,α為自由度,通常定義為α=1.

      數(shù)據(jù)點和聚類中心的歸一化可看成是軟分配,又通過KL散度接近輔助目標分布P,使軟分配概率更嚴格.輔助目標分布P的目的是為了提高聚類純度,重點放在高置信度的點上,并且防止大的簇扭曲潛在空間.輔助目標分布P和KL散度定義如下:

      平衡分配損失函數(shù)的目的是為了使簇分配平衡,定義如下:

      Lba=KL(G‖U),

      其中,U為均勻分布,G為一個點分配到每個簇的概率分布,

      通過最小化KL散度使每個點分配到某些簇的概率相同.

      4.1.2 網(wǎng)絡輔助損失函數(shù)

      網(wǎng)絡輔助損失函數(shù)獨立于聚類算法,通常是為了對學習模型施加需要的約束,輔助模型訓練.通過對模型的參數(shù)施加約束,可提升表征學習的有效性,避免平凡解.典型的非聚類損失函數(shù)有重構損失函數(shù)(Reconstruction Loss)[68]和自我加強損失函數(shù)(Self-Augmentation Loss).

      重構損失函數(shù)最小化輸入xi和解碼器重構的f(xi)的距離,保證數(shù)據(jù)有用的特征信息在經(jīng)過編碼器的編碼之后不會丟失,函數(shù)表示如下:

      自我加強損失組合原始樣本和它們的增強樣本,函數(shù)表示如下:

      其中,x為原始樣本,T為加強函數(shù),f(x)為通過模型產(chǎn)生的表示,s為相似度度量方法,N為樣本總數(shù).

      4.2 性能評估標準

      兩個無監(jiān)督的評估標準已廣泛用于深度聚類,分別為聚類準確率(ACC)和標準化互信息(NMI)[69].

      聚類準確率(ACC)度量聚類算法分配的正確率:

      其中,yi為真實標簽,ci為通過算法產(chǎn)生的聚類分配,m(·)為映射函數(shù),N為樣本總數(shù),將聚類分配與標簽一一對應.

      互信息是指兩個隨機變量之間的關聯(lián)程度,標準化互信息(NMI)是將互信息歸一化為[0,1].數(shù)學表示如下:

      其中,Y為真實標簽,C為聚類標簽,I為互信息,H為熵.

      調(diào)整蘭德系數(shù)(Adjusted Rand Index, ARI)為衡量聚類標簽和真實標簽相似性的度量標準,需要數(shù)據(jù)集本身有標簽.ARI的取值范圍為[-1,1],值越大表示聚類效果越優(yōu).ARI數(shù)學表示如下:

      其中,I為聚類得到的簇的個數(shù),J為數(shù)據(jù)集真實的類別數(shù),ni.為第i個簇中的樣本數(shù),n.j為標簽j中的樣本數(shù),nij為在第i個簇中包含標簽j的樣本總數(shù),n為總的樣本數(shù).

      5 算法應用

      隨著互聯(lián)網(wǎng)的發(fā)展及移動通訊工具的普及,面對海量數(shù)據(jù),如何快速給用戶推薦需要、值得關注的信息是亟待解決的問題,因此個性化信息推薦成為計算機領域的一個研究熱點.

      在新聞推薦領域,首先聚類新聞內(nèi)容,再結合用戶行為對用戶進行個性化的信息推薦.新聞推薦大多是對本文信息進行聚類.李悅[70]提出基于CNN的文本聚類方法,能較好地處理目前高維和大規(guī)模的數(shù)據(jù),克服傳統(tǒng)聚類算法需要人為設定特征提取器等問題.在視頻推薦中,大多是對圖像進行聚類,李文杰等[71]提出融合時間因素的用戶偏好和聚類加權的聚類方法,使推薦視頻更符合用戶的需求,提高用戶的滿意度.

      隨著深度聚類的發(fā)展,將深度聚類算法應用于多維的醫(yī)療數(shù)據(jù),對疾病進行預測及防控,已成為研究熱點.王振飛等[72]使用自適應模塊化神經(jīng)網(wǎng)絡預測心血管疾病,首先使用密度峰值聚類確定數(shù)據(jù)集的聚類中心,確定每個模塊的訓練樣本集,再采用反向傳播(Backpropagation)訓練網(wǎng)絡.

      周峰[73]提出基于神經(jīng)網(wǎng)絡的慢性乙肝相關疾病患者聚類及醫(yī)療費用預測研究,由于影響醫(yī)療費用的因素分布呈現(xiàn)類型復雜、高維度等特點,所以采用基于SOM(Self-Organizing Feature Map)神經(jīng)網(wǎng)絡對患者入院時的檢測結果及住院時的治療方案進行聚類分析,可幫助建立有效的住院費用預測模型,對今后患者的治療方法和住院費用提供有力依據(jù).

      隨著計算機技術和互聯(lián)網(wǎng)的不斷發(fā)展,網(wǎng)絡和信息安全問題逐漸得到社會重視.深度聚類能較好地挖掘大數(shù)據(jù)中的有效、異常信息,因此得到廣泛應用.在網(wǎng)絡安全領域,僵尸網(wǎng)絡變得日益復雜和危險,為此Chowdhury等[74]提出Botnet Detection Using Graph-Based Feature Clustering,基于圖節(jié)點特征,采用自組織映射聚類對網(wǎng)絡中的節(jié)點進行聚類,能將僵尸節(jié)點隔離在小的簇中,同時同一大型簇中包含大多數(shù)正常節(jié)點,因此可通過搜索很小數(shù)量的節(jié)點檢測到僵尸網(wǎng)絡.

      在信息領域,人臉識別系統(tǒng)已應用于生活的各方面,如支付寶付款、手機開鎖等.人臉欺騙檢測對于人臉識別系統(tǒng)的安全性起到關鍵作用.EL-DIN等[75]提出DCDA(Deep Clustering Guided Unsuper-vised Domain Adaptation).傳統(tǒng)的人臉欺騙檢測方法假設攻擊來自與訓練相同的域,而不能較好地應用于隱形攻擊場景,為此DCDA提出域自適應的端到端訓練框架,提高模型的泛化能力.而單獨在人臉欺騙檢測中使用域自適應方法不能較好地適應在不同設備和攻擊類型下的目標域,因此為了保持目標域的內(nèi)在屬性,在目標樣本中需要進行深度聚類.

      6 結 束 語

      由于深度聚類在大規(guī)模高維數(shù)據(jù)表現(xiàn)的優(yōu)越性,深度聚類現(xiàn)已成為研究熱點.神經(jīng)網(wǎng)絡強大的表征學習能力大幅提高傳統(tǒng)聚類算法性能.面對目前的海量數(shù)據(jù)與高維數(shù)據(jù),神經(jīng)網(wǎng)絡與傳統(tǒng)聚類算法結合會有更廣泛的應用前景.

      本文系統(tǒng)闡述深度聚類算法,將深度聚類按照表征學習方法的不同進行分類,綜述各類具有代表性的算法,描述深度聚類的應用前景.

      基于上述總結與分析,深度聚類還可在如下方向進行深入研究.

      1)多樣化的網(wǎng)絡結構.(1)目前深度聚類多集中于對圖像的聚類研究,對時序數(shù)據(jù)的研究較少,如語音、文件等,今后可探索聚類算法與其它類型網(wǎng)絡結構的結合.(2)目前表征學習的網(wǎng)絡結構大多集中于主流架構,通過施加約束達到適合聚類表征的目的,如何利用機器學習思想設計針對聚類的網(wǎng)絡結構也是值得探索的方向之一.

      2)深度聚類模型推理性的研究.目前深度聚類用到的深度模型都是連續(xù)的幾何變換,將一個向量空間映射到另一個,使深度學習缺少推理能力,阻礙其向更深層次應用方面的發(fā)展.例如:對于即使有足夠的產(chǎn)品使用說明書的數(shù)據(jù)進行訓練以聚類,深度生成學習模型也無法生成指定產(chǎn)品的使用說明程序.

      3)在線深度聚類算法的研究.目前深度聚類都是以離線形式完成的,導致訓練神經(jīng)網(wǎng)絡學習到有效的表征需要整個數(shù)據(jù)集,而無法處理數(shù)據(jù)流形式的樣本,進而限制深度聚類算法在更大規(guī)模在線學習場景的應用.因此在線計算的深度聚類算法研究將是一個重要的研究方向.

      4)可解釋深度聚類算法的研究.即使深度聚類能解決高維數(shù)據(jù)線性不可分問題,應用廣泛,但面對目前更復雜的數(shù)據(jù)和場景,理解模型的決策和機理顯得更重要.由于神經(jīng)網(wǎng)絡“黑盒子”的特性,其工作機制難以理解,需要費時費力且無依據(jù)的調(diào)整超參數(shù)以達到滿意結果.相比有監(jiān)督的分類任務,無監(jiān)督的聚類任務可解釋性的難度更高,因為分類解釋為什么樣本被分到某類,而聚類需要解釋模型發(fā)現(xiàn)簇的語義信息,即前者是模型的可解釋性,后者是樣本的可解釋性.所以如何設計可解釋的深度聚類模型或加強對深度聚類模型的可解釋性都是值得關注的研究方向.

      猜你喜歡
      編碼器標簽聚類
      無懼標簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      基于FPGA的同步機軸角編碼器
      不害怕撕掉標簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      基于PRBS檢測的8B/IOB編碼器設計
      標簽化傷害了誰
      JESD204B接口協(xié)議中的8B10B編碼器設計
      電子器件(2015年5期)2015-12-29 08:42:24
      基于改進的遺傳算法的模糊聚類算法
      基于多進制查詢樹的多標簽識別方法
      計算機工程(2015年8期)2015-07-03 12:20:27
      一種層次初始的聚類個數(shù)自適應的聚類方法研究
      信宜市| 巢湖市| 渝北区| 镇宁| 台北县| 宜阳县| 福清市| 玛多县| 孟村| 白银市| 兰坪| 吕梁市| 民乐县| 和平县| 隆回县| 蓝山县| 石城县| 舒城县| 礼泉县| 太仓市| 奎屯市| 兴安盟| 土默特左旗| 临沧市| 江安县| 寻乌县| 贵州省| 荆门市| 繁峙县| 久治县| 汪清县| 施秉县| 南昌县| 视频| 波密县| 京山县| 太仆寺旗| 韩城市| 图木舒克市| 民乐县| 五峰|