陳 博,孫鶴鵬,席劍輝,張鵬帆
(沈陽航空航天大學(xué) 自動(dòng)化學(xué)院,沈陽 110136)
基于分子的振動(dòng)和轉(zhuǎn)動(dòng)理論,紅外光譜能夠反映分子的微觀結(jié)構(gòu)和狀態(tài),被廣泛應(yīng)用于成分分析和結(jié)構(gòu)測定等[1]。紅外光譜適用性較強(qiáng),可以檢測固態(tài)、液態(tài)或氣態(tài)樣品,同時(shí),對(duì)于無機(jī)、有機(jī)、高分子化合物均可檢測。因此紅外光譜在高聚物的定性定量分析[2]、農(nóng)業(yè)、制藥、遙感、生物、醫(yī)學(xué)等領(lǐng)域都有廣泛的應(yīng)用。紅外光譜分析可以迅速、無損、高精度地檢測物品,通過對(duì)已知目標(biāo)紅外光譜吸收峰的位置、強(qiáng)度和形狀的分析,可以構(gòu)建該目標(biāo)特征,從而確定目標(biāo)紅外光譜特征。隨著計(jì)算機(jī)技術(shù)的發(fā)展,紅外光譜分析技術(shù)得到了進(jìn)一步發(fā)展和應(yīng)用。
20世紀(jì)80年代以來,隨著紅外光譜采集技術(shù)和計(jì)算機(jī)處理技術(shù)的發(fā)展,紅外光譜在農(nóng)業(yè)[3]和林業(yè)[4]中被廣泛應(yīng)用,Sankaran等[5]使用逐步判別分析和逐步回歸分析的方法利用紅外光譜技術(shù)判別柑橘葉子是否病變。Lang等[6]利用近紅外光譜辨別植物不同發(fā)育階段,為植物多樣性高的地區(qū)開展各種生態(tài)研究提供了可能性。在遙感領(lǐng)域,Wei等[7]利用光譜遙感技術(shù)進(jìn)行地物識(shí)別的應(yīng)用與分類。光譜遙感數(shù)據(jù)被有效利用于遙感影像分割[8]與分類[9]中。在醫(yī)療領(lǐng)域紅外光譜也發(fā)揮了許多作用,Kobrina等[10]通過紅外光譜聚類分析區(qū)分完好和修復(fù)的關(guān)節(jié)軟骨。
紅外光譜數(shù)據(jù)的聚類問題是紅外光譜分析領(lǐng)域的重要問題,陳林杰等[11]提出了基于紅外光譜指紋圖譜研究鑒別不同品種的桑黃,利用多點(diǎn)基線校正等方法對(duì)原始光譜建立指紋圖譜共有模式,然后利用主成分分析和載荷因子分析鑒別不同產(chǎn)地的桑黃,發(fā)現(xiàn)各類產(chǎn)地桑黃有明顯的地域性聚集。Kobrina等[12]選取包含兔皮質(zhì)骨主要吸收帶的光譜區(qū)域進(jìn)行分析,分別測試了K均值(KM)、模糊C-均值(FCM)和層次聚類(HCA)3種聚類方法,研究發(fā)現(xiàn)其中FCM更適合生物組織樣本。王琰等[13]對(duì)頭孢呋辛鈉紅外光譜進(jìn)行矢量歸一處理,采用歐氏距離進(jìn)行標(biāo)準(zhǔn)聚類分析,探討了聚類分析與穩(wěn)定性試驗(yàn)的可替代性。吳江等[14]提出基于紅外光譜聚類分析鑒別斑花黃堇產(chǎn)地的方法,利用小波變換對(duì)原始紅外光譜數(shù)據(jù)去噪壓縮,再對(duì)其系統(tǒng)聚類,并將聚類結(jié)果同主成分分析結(jié)果進(jìn)行對(duì)比,說明了系統(tǒng)聚類的有效性。在茶葉品種鑒別上,紅外光譜聚類也具有一定的適用性。傅海軍等[15]提出了傅里葉近紅外光譜和模糊極大熵聚類分析相結(jié)合的茶葉品種鑒別方法,采用線性判別分析對(duì)降維后的近紅外光譜數(shù)據(jù)進(jìn)行特征提取,實(shí)驗(yàn)顯示混合模糊極大熵聚類比傳統(tǒng)的模糊極大熵聚類具有更好的準(zhǔn)確性。He等[16]提出了主成分分析和BP模型的近紅外光譜鑒別茶葉品種的方法,分析光譜反射率與茶葉品種的關(guān)系,利用前8個(gè)主成分對(duì)40個(gè)未知樣本進(jìn)行聚類分析,實(shí)驗(yàn)結(jié)果顯示模型較為可靠。
上述研究工作在紅外光譜的分析和紅外光譜聚類上取得了一定成效,但是只利用光譜數(shù)據(jù)的某種特征或使用單一聚類方法,不能充分利用紅外光譜在不同通道和不同波段的信息以及各種特征的一致性。有鑒于此,本文提出了基于多種特征提取方法的多視角目標(biāo)聚類方法,既提取了紅外光譜的主元特征又保持了原始數(shù)據(jù)的分布一致性,利用多視角聚類學(xué)習(xí)數(shù)據(jù)互補(bǔ)性和一致性。利用PCA算法提取紅外數(shù)據(jù)的主元特征,利用去噪自編碼器提取數(shù)據(jù)的低維流形特征,對(duì)噪音具有一定的魯棒性,取得了較好的聚類效果。
主成分分析(principal component analysis,PCA)是數(shù)據(jù)分析中被廣泛使用的降維方法,能夠從復(fù)雜數(shù)據(jù)中提取特征信息[17]?,F(xiàn)實(shí)世界中的數(shù)據(jù)往往是高維的并且具有較多冗余,對(duì)于紅外光譜數(shù)據(jù),多波段的采集點(diǎn)和不同通道往往會(huì)產(chǎn)生高維數(shù)據(jù)。高維數(shù)據(jù)的不同維度之間可能具有較強(qiáng)的關(guān)聯(lián)性,因此為數(shù)據(jù)的降維提供了可行性。主成分分析法通過尋找數(shù)據(jù)中的最大變化方向,把每個(gè)數(shù)據(jù)都投影到這些方向構(gòu)成的坐標(biāo)系中并表示出來,從而實(shí)現(xiàn)將原始數(shù)據(jù)n維特征映射到k維特征上,通常有基于特征值分解協(xié)方差矩陣的實(shí)現(xiàn)方法和基于SVD分解協(xié)方差矩陣的方法。主成分分析不僅能夠?qū)?shù)據(jù)進(jìn)行降維和數(shù)據(jù)壓縮,同時(shí)也可以處理少量較大幅值噪聲。本文采用基于SVD分解實(shí)現(xiàn)的主成分分析法,對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行主成分分析,獲取前3個(gè)主成分。
隨著深度學(xué)習(xí)的迅速崛起和發(fā)展,近幾年基于深度學(xué)習(xí)的生成式模型也越來越被廣泛應(yīng)用。Hinton等[18]提出了可以通過多層神經(jīng)網(wǎng)絡(luò)把高維數(shù)據(jù)編碼成低維數(shù)據(jù),進(jìn)而重建高維數(shù)據(jù),中間層神經(jīng)元數(shù)量較少,將模型作為自動(dòng)編碼器。自動(dòng)編碼器(Auto-encoder)屬于分監(jiān)督學(xué)習(xí)模型,不需要對(duì)樣本進(jìn)行標(biāo)記,通常包括編碼器和解碼器,編碼器用于學(xué)習(xí)輸入數(shù)據(jù)的隱含特征,這個(gè)過程稱為編碼(coding),同時(shí)用學(xué)習(xí)到的新特征重構(gòu)出原始輸入數(shù)據(jù),即解碼(decoding),單隱層的自動(dòng)編碼器模型如圖1所示。
圖1 單隱層自動(dòng)編碼器
圖1中X=[X1,X2,…,Xn]為原始n維數(shù)據(jù),其中編碼器部分可以表示為h=σ(Wx+b),σ為激活函數(shù),W為神經(jīng)網(wǎng)絡(luò)權(quán)重,b為偏置,解碼器部分表示為x′=σ(W′h+b′),x′為重建的高維數(shù)據(jù)。編碼器輸出層的節(jié)點(diǎn)數(shù)與輸入層相等,以隨機(jī)初始化的方式對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行初始化,訓(xùn)練這個(gè)網(wǎng)絡(luò)以期望得到近似恒等函數(shù),重構(gòu)損失函數(shù)為{W,b,W′,b′}=argmin Loss(x,x′)=||x-x′||2。
本文使用去噪自編碼器(DenoisingAutoencoders,DAE)提取低維特征,由于上述損失函數(shù)可能導(dǎo)致學(xué)習(xí)到恒等函數(shù),所以為了迫使隱藏層單元發(fā)現(xiàn)更多魯棒性好的特征,去噪自編碼器利用帶噪聲的輸入來訓(xùn)練自編碼器重構(gòu)參數(shù)[19],對(duì)輸入加入噪聲損壞,其他部分和自編碼器一致。
線性判別分析(Linear Discriminant Analysis,LDA)也是一種經(jīng)典的降維方法,在模式識(shí)別領(lǐng)域中有非常廣泛的應(yīng)用。不同于PCA方差最大化理論,LDA算法的思想是將數(shù)據(jù)投影到低維空間之后,使得同一類數(shù)據(jù)盡可能緊湊,不同類的數(shù)據(jù)盡可能分散。已知訓(xùn)練樣本集{xi}ni=1,xi∈Rm,X=[x1,x2,…,xn]∈Rm×n表示所有樣本組成的數(shù)據(jù)矩陣,假設(shè)所有樣本的類別數(shù)為K,LDA的目標(biāo)是最大化類間散度并最小化類內(nèi)散度[20]。LDA的目標(biāo)函數(shù)定義為
(1)
本文對(duì)紅外光譜亮度數(shù)據(jù)按照以上3種特征提取方法進(jìn)行提取,將所提取到的特征向量作為多視角聚類算法輸入。其中主成分分析法LDA選擇的樣本點(diǎn)投影方向具有最大方差,使高維空間中分散的數(shù)據(jù)點(diǎn)在有限多的方向上得到新的表示,從而起到特征提取和數(shù)據(jù)降維的作用。去噪自編碼器則能夠從損壞的輸入中恢復(fù)出真正的原始數(shù)據(jù),這樣的特征能更好表達(dá)輸入信號(hào)的原始分布。線性判別分析法為有監(jiān)督學(xué)習(xí),可以使用類別的先驗(yàn)知識(shí)經(jīng)驗(yàn),能夠在一定程度上提高特征可靠性。
主成分分析(PCA)和線性判別分析(LDA)都是線性降維方法,皆以投影的方式,以低維表示高維;PCA只是將整組數(shù)據(jù)整體映射到便于表示這組數(shù)據(jù)的坐標(biāo)軸上,映射時(shí)沒有利用任何內(nèi)部分類信息;LDA在基礎(chǔ)上增加了分類信息,使得降維后數(shù)據(jù)盡可能被區(qū)分開;另外PCA捕捉數(shù)據(jù)集中方差較大的特征,同時(shí)提取的新特征之間彼此不相關(guān)。去噪自編碼器(DAE)基于解碼器結(jié)構(gòu),將高維數(shù)據(jù)編碼到低維,解碼器接收低維數(shù)據(jù)并嘗試重建原始高維數(shù)據(jù)。綜合3種特征提取方法,融合不同形式的提取特征既能表示原始數(shù)據(jù),又能提取特征降維數(shù)據(jù)對(duì)后期的聚類處理提供支持,還能降低噪聲等影響。
多視角聚類近幾年被廣泛應(yīng)用于數(shù)據(jù)分析,由于其對(duì)多模態(tài)數(shù)據(jù)和多特征數(shù)據(jù)的充分利用,可以有效提高聚類效果。多視角聚類通常分為子空間聚類和譜聚類[22],其中譜聚類為基于圖論的一種聚類算法,無論是基于圖融合的譜聚類[23],還是基于低秩稀疏矩陣分解[24]的多視角譜聚類,都能夠有效挖掘各視角特征之間的一致性信息,從而提高聚類效果。本文利用多視角譜聚類實(shí)現(xiàn)紅外光譜數(shù)據(jù)的多特征聚類,多視角譜聚類過程如圖2所示。
圖2 多視角聚類過程
采用主成分分析、去噪自編碼器和線性判別分析提取紅外光譜數(shù)據(jù)特征,將物種特征作為一種視角,不同物體在不同特征上表現(xiàn)出的相似性和差異性不盡相同,同一類別的高維數(shù)據(jù)在低維空間中往往具有一致性表達(dá)[25],利用多種特征同時(shí)聚類能夠盡量保留各個(gè)視角的一致性,同時(shí)對(duì)噪聲具有一定的魯棒性。本文方法由兩部分組成,算法框架如圖3所示。第一部分對(duì)紅外數(shù)據(jù)進(jìn)行預(yù)處理和校正,采取中值濾波法對(duì)原始紅外數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理。利用PCA提取特征f1,利用去噪自編碼器提取特征f2,利用線性判別分析提取特征f3,設(shè)樣本數(shù)為n,特征維度為k,則fi∈Rn×ki,i=1,2,3。將3種特征作為第二部分輸入,第二部分利用樣本特征向量構(gòu)建相似度矩陣,根據(jù)譜聚類算法,所有樣本均表示圖上的頂點(diǎn)V=[v1,v2,v3,…,vn],利用全連接法計(jì)算鄰接矩陣W,所有頂點(diǎn)之間的權(quán)重值都大于0,因此全部保留,W=[w11,w12,…,wnn]∈Rn×n,利用高斯核函數(shù)(RBF)計(jì)算相似度矩陣S,見式(2)
圖3 基于多特征的紅外光譜多視角聚類算法框架
(2)
(3)
利用交替方向乘子法(alternating direction method of multipliers,ADMM)[24]求解目標(biāo)函數(shù),得到低秩的轉(zhuǎn)移概率矩陣Z,最后對(duì)包含樣本一致性信息的低秩矩陣輸入K-means聚類算法中得到最終聚類結(jié)果。
為驗(yàn)證算法有效性,分別在3個(gè)紅外光譜數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),分別是實(shí)驗(yàn)采集的黑體數(shù)據(jù)集、鋼板數(shù)據(jù)集和公開數(shù)據(jù)集corn。其中,黑體數(shù)據(jù)集包含23個(gè)樣本,在不同溫度下的41組數(shù)據(jù),每組采集141個(gè)點(diǎn)的輻射亮度數(shù)據(jù),包括2個(gè)通道;鋼板數(shù)據(jù)包含41個(gè)樣本,在不同溫度下的12組數(shù)據(jù);每組采集100個(gè)點(diǎn)的輻射亮度數(shù)據(jù);corn數(shù)據(jù)集由3個(gè)不同的近紅外光譜儀測量的80個(gè)玉米樣品組成。波長范圍為1 100~2 498 nm,間隔2 nm(700通道)。每個(gè)樣品的水分、油、蛋白質(zhì)和淀粉值也包括在內(nèi)。在每臺(tái)儀器上也測量了一些NBS玻璃標(biāo)準(zhǔn)。
因?yàn)閿?shù)據(jù)冗雜,在此列舉展示黑體和鋼板的部分原始數(shù)據(jù),忽略公開數(shù)據(jù)集corn。黑體和鋼板的某一樣本如表1~2所示。黑體數(shù)據(jù)為在固定發(fā)射率時(shí),41個(gè)溫度跨度下的紅外輻射亮度值,鋼板數(shù)據(jù)為固定材質(zhì)12個(gè)溫度跨度下的紅外輻射亮度值。
表1 黑體樣本數(shù)據(jù)
聚類任務(wù)的評(píng)價(jià)指標(biāo)通常采用準(zhǔn)確率(ACC)、查準(zhǔn)率(Precision)、標(biāo)準(zhǔn)互信息(NMI)、查全率與查準(zhǔn)率的加權(quán)調(diào)和系數(shù)(F-score)、調(diào)整蘭德系數(shù)(Adj-RI)。各評(píng)價(jià)指標(biāo)意義如表3如示。
表3 各評(píng)價(jià)指標(biāo)意義
表2 鋼板樣本數(shù)據(jù)
本文將提出算法與以下幾種傳統(tǒng)基線方法進(jìn)行對(duì)比,首先將利用PCA、去噪自編碼器和線性判別分析所獲得的3種特征分別作為獨(dú)立的輸入,并利用傳統(tǒng)K-means方法進(jìn)行聚類,從而對(duì)比3種特征在本實(shí)驗(yàn)中的表現(xiàn)。同時(shí)與本文所提算法的結(jié)果進(jìn)行對(duì)比。
在以上3個(gè)數(shù)據(jù)集上分別對(duì)單一特征方法和多特征聚類方法進(jìn)行測試,為了保證測試結(jié)果的穩(wěn)定性,采用30次測試的平均值作為實(shí)驗(yàn)結(jié)果,其中同一個(gè)數(shù)據(jù)集上指標(biāo)的最大值用加粗表示。實(shí)驗(yàn)結(jié)果如表4所示,表4里詳細(xì)給出了不同方法在3個(gè)數(shù)據(jù)集上的各種指標(biāo)。可以看出,本文的算法在3個(gè)數(shù)據(jù)集上都取得了較好的聚類結(jié)果。在黑體數(shù)據(jù)集上,本文算法在指標(biāo)ACC和Adj-RI上比PCA分別提高了15.80%和5.52%;在鋼板數(shù)據(jù)集上,本文算法在NMI和F-sorce指標(biāo)上比DAE分別提高了14.48%和15.37%;在玉米數(shù)據(jù)集上,本文算法在指標(biāo)NMI 和Precision上比最優(yōu)單視角分別提高了10.32%和27.38%。此外,在黑體和鋼板數(shù)據(jù)上DAE+K-means的方法比其他兩種對(duì)比方法性能更好,主要原因是對(duì)于樣本分布信息較為一致的物體,通過去噪自編碼器能夠更好學(xué)習(xí)低維分布和空間特征。本文提出的基于多特征的多視角聚類方法在所有對(duì)比算法中取得了最佳效果,得益于充分利用了各種特征,并且在多視角聚類求解過程中解決了各個(gè)視角的噪聲影響,能夠更好捕捉樣本在低維空間中的一致性低秩表達(dá)。
表4 各算法在3個(gè)數(shù)據(jù)集上的不同性能結(jié)果對(duì)比
本文提出了一種基于多特征提取的紅外光譜目標(biāo)聚類算法,分別采用主成分分析、去噪自編碼器和線性判別分析法對(duì)紅外光譜數(shù)據(jù)進(jìn)行特征提取,充分利用了紅外光譜數(shù)據(jù)的主元信息、自表達(dá)信息以及低維空間投影信息。本文算法將多視角聚類利用到紅外光譜數(shù)據(jù)分析中,充分利用了紅外光譜多波段、多通道數(shù)據(jù)多樣性的特點(diǎn)。在黑體、鋼板、玉米樣本數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,實(shí)驗(yàn)結(jié)果表明,在ACC、NMI、F-score以及Adj-RI4種系數(shù)上多視角聚類方法的結(jié)果明顯優(yōu)于其他對(duì)比算法。另外,在玉米數(shù)據(jù)集上查準(zhǔn)率(Precision)比DAE單視角聚類方法提高了27.39%,在鋼板數(shù)據(jù)集上本文算法的調(diào)整蘭德系數(shù)(Adj-RI)比最優(yōu)的單視角聚類方法提高了4.1%。同時(shí),本文算法參數(shù)較少,具有一定的魯棒性。