李丁園,李曉杰
(1.中國(guó)電子科技集團(tuán)公司電子科學(xué)研究院,北京 100041;2.內(nèi)蒙古機(jī)電職業(yè)技術(shù)學(xué)院 電氣工程系,呼和浩特 010070)
聚類的目的是在數(shù)據(jù)中基于某些相似性度量指標(biāo),將表征相近的數(shù)據(jù)歸為同一類簇,同時(shí)將表征相差較大的數(shù)據(jù)歸為不同類簇[1]。傳統(tǒng)的聚類方法包括基于分區(qū)的方法、基于密度的方法和基于分層的方法[2]。這些傳統(tǒng)的聚類方法,其使用的相似性度量方法效率較低,且在高維數(shù)據(jù)上的性能較差,在大規(guī)模數(shù)據(jù)集上具有較高的計(jì)算復(fù)雜度。雖然經(jīng)過降維和特征轉(zhuǎn)換(如通過主成分分析的線性變換或核方法、譜方法的非線性變換),能將高維原始數(shù)據(jù)映射到新的低維特征空間,但選擇合適的維度轉(zhuǎn)換方法較為困難,且轉(zhuǎn)換后進(jìn)行聚類的準(zhǔn)確率仍然較低[3]。
近幾年,深度學(xué)習(xí)作為人工智能領(lǐng)域十分高效的方法,在計(jì)算機(jī)視覺(CV:Computer Vision)[4]、自然語(yǔ)言處理(NLP:Natural Language Processing)[5-6]等領(lǐng)域得到了廣泛應(yīng)用,基于深度學(xué)習(xí)的深度聚類算法逐漸成為聚類領(lǐng)域的主流方法。深度聚類算法主要包括先學(xué)習(xí)特征再聚類以及特征學(xué)習(xí)同時(shí)進(jìn)行聚類兩種。深度子空間聚類網(wǎng)絡(luò)(DSC-Nets:Deep Subspace Clustering Networks)[7]通過在深度自編碼網(wǎng)絡(luò)的編碼層和解碼層之間引入自表達(dá)層獲得樣本之間的相似性矩陣,再利用該相似性矩陣在子空間中對(duì)樣本進(jìn)行譜聚類。深度嵌入聚類(DEC:Deep Embedding Clustering)[8]在降噪自編碼器中構(gòu)建逐層貪婪訓(xùn)練的棧式自編碼網(wǎng)絡(luò),通過相對(duì)熵?fù)p失函數(shù),僅利用編碼層同時(shí)對(duì)樣本數(shù)據(jù)進(jìn)行特征學(xué)習(xí)和聚類。DEC在處理圖像數(shù)據(jù)時(shí)只利用梯度方向直方圖的人工構(gòu)建特征,該特征對(duì)圖像特征的表達(dá)較弱且不夠豐富,因而對(duì)圖像的聚類效果有待提升。
鑒于卷積神經(jīng)網(wǎng)絡(luò)(CNN:Convolutional Neural Network)在圖像領(lǐng)域取得了較好的特征提取效果[9],卷積自編碼神經(jīng)網(wǎng)絡(luò)應(yīng)運(yùn)而生[10]。卷積自編碼器通過將卷積神經(jīng)網(wǎng)絡(luò)的卷積層用于自編碼器的編碼層和解碼層,能在高維特征空間上保留原始數(shù)據(jù)的局部特征信息,因而能取得更好的聚類效果。為此,筆者在卷積自編碼器的基礎(chǔ)上,引入Inception模塊[11]和殘差連接[12],通過不同大小的卷積核提取圖像不同尺度的信息,從而獲取圖像不同尺度下的特征,最后進(jìn)行融合,得到圖像更豐富的特征信息,通過殘差連接使輸入層的信息跨層映射到輸出層并進(jìn)行求和,從而允許梯度直接流向更淺的層,加快學(xué)習(xí)速度。
基于多尺度殘差卷積自編碼器的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 多尺度殘差卷積自編碼器的網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Network structure of the multi-scale residual convolutional autoencoder
該網(wǎng)絡(luò)結(jié)構(gòu)由編碼階段(網(wǎng)絡(luò)的上部分,從28×28到7×7)和對(duì)稱的解碼階段(網(wǎng)絡(luò)的下部分,從7×7到28×28)組成。原始圖片經(jīng)過編碼階段的卷積層、下采樣層得到高維的中間層的特征表達(dá),然后經(jīng)過解碼階段上采樣層、反卷積層將該特征表達(dá)還原為接近原始圖像的輸出。解碼階段每個(gè)級(jí)別的特征圖來自兩個(gè)層級(jí):一是編碼階段卷積層的輸出,二是解碼階段對(duì)相應(yīng)級(jí)別網(wǎng)絡(luò)層的輸出。對(duì)這兩個(gè)層級(jí)的特征圖進(jìn)行合并,然后將合并后的特征圖傳遞到下一卷積階段。在每個(gè)卷積階段(兩個(gè)采樣操作之間),均有一條殘差連接輸入與輸出,以此實(shí)現(xiàn)特征的重復(fù)利用,同時(shí)加快訓(xùn)練速度。經(jīng)過交叉熵?fù)p失計(jì)算還原圖像與原始圖像之間的誤差,并利用Adam[13]自適應(yīng)梯度下降算法對(duì)該誤差進(jìn)行反向傳播,對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,最后利用訓(xùn)練好的網(wǎng)絡(luò)中間層的特征表達(dá)對(duì)圖像進(jìn)行聚類。
圖2 含有殘差連接的多尺度卷積模塊結(jié)構(gòu)圖Fig.2 Structure of multi-scale convolutional module with residual connections
基于多尺度殘差卷積自編碼器共包含5種類型的基本模塊:長(zhǎng)方形模塊代表特征圖;點(diǎn)狀虛線箭頭代表含有殘差連接的多尺度卷積模塊(見圖2),其中包括4條通路,分別是:1)殘差連接;2)1×1卷積;3)3×3卷積;4)兩個(gè)3×3卷積(即5×5卷積)。其中使用了大量的1×1卷積,同時(shí)使用了1×3卷積和3×1卷積代替了3×3卷積圖像,從而在保證模型深度的條件下減少了模型的參數(shù)量。特征圖每次經(jīng)過含有殘差連接的多尺度卷積模塊進(jìn)行卷積操作前,均進(jìn)行長(zhǎng)度為2的零填充(zero-padding)以維持特征圖的尺寸在卷積前后不發(fā)生變化。下采樣操作位于編碼階段中的各個(gè)級(jí)別之間,以執(zhí)行特征壓縮的下采樣,使用最大池化減半特征圖維度。反卷積操作位于解碼階段中的各個(gè)級(jí)別之間,從而實(shí)現(xiàn)可學(xué)習(xí)內(nèi)插值方法對(duì)輸入數(shù)據(jù)進(jìn)行上采樣。
為驗(yàn)證提出的基于多尺度殘差卷積自編碼器對(duì)圖像聚類的有效性,選擇最經(jīng)典的MNIST數(shù)據(jù)集[14],其是一個(gè)經(jīng)典的手寫數(shù)字識(shí)別數(shù)據(jù)集,包含70 000幅像素為28×28像素的手寫數(shù)字圖像。隨機(jī)選擇其中50 000幅圖像作為訓(xùn)練數(shù)據(jù)集,其余20 000幅圖像作為測(cè)試數(shù)據(jù)集。
對(duì)聚類結(jié)果進(jìn)行評(píng)價(jià),將使用多標(biāo)簽聚類的評(píng)價(jià)指標(biāo),筆者使用調(diào)整蘭德爾指數(shù)(ARI:Adjusted Rand Index)[15]、歸一化互信息(NMI:Normalized Mutual Information)和準(zhǔn)確率評(píng)價(jià)聚類結(jié)果。
VARI描述了聚類結(jié)果與真實(shí)情況的吻合程度,即ARI指標(biāo)
(1)
其中VTP(真陽(yáng)性)和VFP(假陽(yáng)性)分別為真正屬于同一類的圖像聚在同一類和不同類中的數(shù)目;VFN(假陰性)和VTN(真陰性)分別為不同圖像聚集成同一類和不同類的數(shù)目。
VNMI用于度量聚類結(jié)果的相似程度,即NMI指標(biāo)
(2)
其中I為互信息,H為熵,互信息I(W,C)表示給定類簇信息C的前提下,類別信息W的增加量,或其不確定度的減少量。
準(zhǔn)確率VACC是正確預(yù)測(cè)的樣本數(shù)占所有樣本數(shù)的比例,即
(3)
圖3 迭代過程中的損失、ARI、NMI和準(zhǔn)確率Fig.3 The curves of loss,ARI,NMI and accuracy during the iterations
將訓(xùn)練數(shù)據(jù)集中的圖像輸入多尺度殘差卷積自編碼器中,用解碼器生成的圖像與輸入圖像計(jì)算交叉熵?fù)p失,并利用Adam算法對(duì)誤差進(jìn)行反向傳播,更新網(wǎng)絡(luò)參數(shù)。每次迭代后,將測(cè)試數(shù)據(jù)集中的圖像依次輸入多尺度殘差卷積自編碼器的編碼器,經(jīng)過網(wǎng)絡(luò)的運(yùn)算獲取相應(yīng)圖像的高維特征表示,并利用K均值算法[16]對(duì)這些圖像的高維特征進(jìn)行聚類,前45次的迭代,其損失、ARI、NMI和準(zhǔn)確率如圖3所示。當(dāng)訓(xùn)練迭代次數(shù)為10時(shí),ARI、NMI和準(zhǔn)確率達(dá)到了最大值,因此選擇訓(xùn)練10次后的多尺度殘差卷積自編碼器模型作為最終獲取圖像高維特征的模型。利用這些特征使用K均值算法進(jìn)行聚類的結(jié)果如表1所示。訓(xùn)練好的多尺度殘差卷積自編碼器模型的準(zhǔn)確率為82.2%,表明模型達(dá)到了較高的聚類效果。其ARI值為0.781 0,NMI值為0.853 2,均達(dá)到了較好的聚類效果。
表1 模型的聚類結(jié)果Tab.1 The clustering results of the model
對(duì)目前圖像聚類方法在特征提取方面存在的圖像特征表達(dá)較弱且不夠豐富的問題,提出了一種基于多尺度殘差卷積自編碼器的圖像聚類方法。在MNIST數(shù)據(jù)集上的聚類準(zhǔn)確率為82.2%,ARI值為0.781 0,NMI值為0.853 2,表明模型達(dá)到了較好的聚類效果。