樊 娟,鄧秀勤,火博豐,王卓薇
(1.廣東工業(yè)大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院 廣東 廣州 510520;2.青海師范大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院 青海 西寧 810008;3.藏語智能信息處理及應(yīng)用國家重點(diǎn)實(shí)驗(yàn)室 青海 西寧 810008;4.廣東工業(yè)大學(xué) 計算機(jī)學(xué)院 廣東 廣州 510006)
隨著光譜成像技術(shù)的發(fā)展,高光譜圖像(hyperspectral images,HSIs)已經(jīng)成為檢測技術(shù)的一個有效工具。HSIs廣泛應(yīng)用于目標(biāo)檢測[1-2]、精準(zhǔn)農(nóng)業(yè)[3]、環(huán)境監(jiān)測[4]和公共安全[5]等領(lǐng)域。隨著HSIs技術(shù)的發(fā)展,HSIs分析處理也變得越來越重要。近年來,高光譜圖像聚類作為高光譜圖像分析處理的手段之一,備受關(guān)注。
HSIs是典型的高維數(shù)據(jù),具有十分復(fù)雜的內(nèi)部結(jié)構(gòu)、多變的地物光譜信息。一些傳統(tǒng)的方法已被用于HSIs聚類,如K均值聚類[6]和模糊C均值聚類[7],這類方法對初始化和噪聲相對敏感。由于光譜域中的判別信息有限,地面物體的復(fù)雜性以及同一類別中光譜特征的多樣性,直接在HSIs上應(yīng)用這些方法往往會產(chǎn)生帶有大量噪聲的聚類圖?;趫D譜的方法譜聚類(SC)[8-10],由于HSIs內(nèi)部結(jié)構(gòu)的復(fù)雜性,以及譜聚類對光譜變化的有限適應(yīng)性,直接將譜聚類應(yīng)用于HSIs得到的聚類結(jié)果是不理想的。近年來,子空間聚類方法在高光譜遙感領(lǐng)域得到了廣泛關(guān)注,并取得了顯著的成績。子空間聚類算法實(shí)際上是將傳統(tǒng)的特征選擇技術(shù)和聚類算法進(jìn)行結(jié)合,在對數(shù)據(jù)樣本聚類劃分的過程中,得到各個數(shù)據(jù)簇對應(yīng)的特征子集或特征權(quán)重。自Elhamifar等[10]提出稀疏子空間算法后,出現(xiàn)了眾多的衍生模型。主要包括稀疏子空間聚類算法[11](sparse subspace clustering,SSC)和低秩子空間聚類算法[12](low rank representation,LRSC)。這些算法的關(guān)鍵是找到原始數(shù)據(jù)的稀疏或低秩表示矩陣,然后在相應(yīng)的稀疏系數(shù)矩陣上建立相似圖,并利用譜聚類得到聚類結(jié)果。
SSC算法已經(jīng)應(yīng)用于人臉聚類[13]、運(yùn)動分割[14]和計算機(jī)視覺[15]等,但SSC算法也存在一些局限性,一方面SSC依賴于稀疏自表示模型來重建親和力矩陣,這導(dǎo)致SSC算法對HSIs聚類的潛力沒有被全部開發(fā)出來;另一方面SSC獨(dú)立處理每個像素,對HSIs的光譜相關(guān)性和空間相關(guān)性利用不夠充分。在HSIs的稀疏子空間聚類中,為利用HSIs豐富的光譜信息和空間信息,文獻(xiàn)[16]利用歐幾里得距離度量稀疏相似矩陣,提出了余弦-歐氏動態(tài)加權(quán)相似矩陣(CEDW)的構(gòu)造方法,但該方法在重構(gòu)親和力矩陣時易受到異常像素的干擾。文獻(xiàn)[17]考慮到HSIs的光譜相關(guān)性和豐富的空間信息,提出了一種譜空間稀疏子空間聚類方法(S4C)來提高聚類性能,但該方法需要通過子空間檢測自動確定集群數(shù)量和自適應(yīng)確定正則化參數(shù)。本文提出了一種基于弗雷歇距離的高光譜圖像稀疏子空間聚類算法(sparse subspace clustering algorithim based on Fréchet distance,FSSC)。該方法一方面利用SSC算法求解全稀疏表示矩陣,探索HSIs在低維子空間的結(jié)構(gòu);另一方面考慮像素點(diǎn)間的光譜信號的相關(guān)性,以及傳統(tǒng)的子空間模型容易受到歐幾里得域中的噪聲數(shù)據(jù)和異常值的影響,利用弗雷歇距離度量相似度,建立光譜加權(quán)稀疏子空間聚類模型,基于稀疏系數(shù)矩陣和相似度矩陣重構(gòu)親和力矩陣,以確保每個像素的稀疏表示更接近真實(shí)的情況,最后將親和力矩陣應(yīng)用于譜聚類,得到聚類結(jié)果。
本文的貢獻(xiàn)如下。
1) 將同一土地覆蓋類的像素視為位于一個獨(dú)立的子空間,利用稀疏子空間模型求解稀疏自表示矩陣。
2) 考慮HSIs豐富的光譜信息和像素點(diǎn)間的光譜相關(guān)性,利用弗雷歇距離度量像素點(diǎn)光譜曲線間的相似度。
3) 建立FSSC模型,利用稀疏自表示和光譜連續(xù)性學(xué)習(xí)更有利的表示矩陣,充分挖掘了HSIs的光譜結(jié)構(gòu)信息。通過加權(quán)稀疏約束,更好地探索了HSls的結(jié)構(gòu)信息。
稀疏子空間聚類是一種基于譜聚類的子空間聚類框架,基本思想是假設(shè)高維數(shù)據(jù)能夠在低維子空間中進(jìn)行線性表示,然后根據(jù)表示系數(shù)矩陣構(gòu)造親和力矩陣,最后將親和力矩陣應(yīng)用于譜聚類。稀疏子空間聚類的優(yōu)化問題模型為
s.t.Y=YC+N,diag(C)=0,CT1=1,
(1)
其中:Y是高維數(shù)據(jù)矩陣;C是稀疏系數(shù)矩陣;N表示誤差矩陣;λ是系數(shù)矩陣稀疏性和數(shù)據(jù)保真度的平衡參數(shù)。約束diag(C)=0用來消除表示像素點(diǎn)自身的瑣碎解,diag(C)表示矩陣C的對角元素。另外,約束CT1=1確保了向量元素具有合適的大小,其中1表示一個全1列向量。這個目標(biāo)函數(shù)是一個可處理的凸優(yōu)化問題,可以用交替乘子法(ADMM)[18]來求解。然后構(gòu)造親和力矩陣,
W=(|C|+|C|T)/2,
(2)
針對HSIs的稀疏子空間聚類,假設(shè)三維高光譜圖像大小是M×N×B,M、N分別表示圖像的高度和寬度,B表示光譜的數(shù)目,通常情況下先將高光譜圖像數(shù)據(jù)展開為二維矩陣Y=[Y1,Y2,…,YMN]∈RB×MN,利用SSC模型的公式(1)可以求解HSls稀疏系數(shù)矩陣C,再利用公式(2)求解親和力矩陣W,最后將譜聚類應(yīng)用于親和力矩陣,得到聚類結(jié)果。
1.2.1弗雷歇距離 弗雷歇距離算法在相似性識別方面具有優(yōu)勢,并已成功地應(yīng)用于簽名手寫識別、計算機(jī)圖形以及地理等領(lǐng)域[21-22]。弗雷歇距離的定義為[23],設(shè)A和B是S上的兩條連續(xù)曲線,即A:[0,1]→S,B:[0,1]→S。又設(shè)α和β是單位區(qū)間的兩個重參數(shù)化函數(shù),即α:[0,1]→S,β:[0,1]→S。則曲線A和B的弗雷歇距離定義為
(3)
其中:d是S上的度量函數(shù)。
1.2.2基于弗雷歇距離的相似度矩陣Yi、Yj是像素點(diǎn)i和j的光譜值向量,這里定義兩個非連續(xù)的映射為f:[0,1]→Yi,g:[0,1]→Yj,曲線yi、yj表示Yi、Yj對應(yīng)的光譜值曲線,引入離散的弗雷歇距離
(4)
其中:d是R上的度量函數(shù)。在這里選擇歐拉距離作為度量,即兩點(diǎn)間在幾何空間上的最小距離。連續(xù)的光譜值曲線間的弗雷歇距離首先要找出這無窮多個距離中的最大值,即在yi、yj上兩個采樣點(diǎn)yi(f(t))與yj(g(t))之間的歐氏距離最大值。然后找到這一系列采樣點(diǎn)距離最大值的下確界,即該最大距離最小化的采樣方式下的值。這個值就是弗雷歇距離。
對于HSIs而言,考慮到高光譜圖像像素光譜帶的連續(xù)性,本文將像素點(diǎn)的光譜值向量映射為光譜曲線。為了保證所有的權(quán)重都在0~1范圍內(nèi),對弗雷歇距離矩陣F進(jìn)行歸一化處理,求解對應(yīng)光譜曲線,
(5)
其中:Fi.表示弗雷歇距離矩陣F第i行的和。
本文提出了一種用于HSIs聚類的相似矩陣構(gòu)造方法(FSSC)。該方法構(gòu)造的相似矩陣結(jié)合了整體稀疏表示矩陣和HSIs的光譜信息。首先,該算法通過稀疏表示模型探索高光譜圖像的稀疏表示矩陣。然后,為充分利用HSIs的光譜信息并克服SSC算法對異常值的敏感性,引入弗雷歇距離度量像素點(diǎn)間的相似度。最后,為確保HSIs中高度相關(guān)的像素參與表示過程,在親和力矩陣重構(gòu)的過程中添加一個光譜約束來獲得一個更精確的親和力矩陣。FSSC算法的主要流程如圖1所示。
圖1 基于弗雷歇距離的稀疏子空間聚類相似矩陣構(gòu)造方法Figure 1 Construction of sparse subspace clustering similarity matrix based on Fréchet distance
由于相似數(shù)據(jù)點(diǎn)具有高概率共享同一子空間的特點(diǎn),通過對相似數(shù)據(jù)點(diǎn)施加更大權(quán)重、對不同數(shù)據(jù)點(diǎn)施加更小權(quán)重來建立FSSC模型。對于HSIs來說,添加光譜信息和光譜相關(guān)性來改進(jìn)SSC中親和力矩陣的構(gòu)造,可以很大程度上提高HSIs的聚類精度。因此,通過加權(quán)稀疏優(yōu)化問題,可以實(shí)現(xiàn)更精確的HSIs表示系數(shù)矩陣C,
s.t.diag(C)=0,CT1=1,
(6)
其中:F作為一個光譜信息添加到稀疏表示矩陣中。與式(1)不同的是,這里通過弗雷歇距離矩陣的加權(quán),可以有效利用像素點(diǎn)間的相似性來調(diào)節(jié)相似圖邊的權(quán)重,并求解更真實(shí)的親和力矩陣,該問題可以通過ADMM算法求解。引入輔助變量A,將優(yōu)化問題轉(zhuǎn)化為
s.t.diag(C)=0,AT1=1,A=C。
(7)
式(7)的增廣拉格朗日函數(shù)為
(8)
固定A,對C求導(dǎo)數(shù)并令其等于0,
(9)
同理,
(10)
(11)
(12)
當(dāng)‖A(k)T-C(k)‖∞≤ε,‖A(k)-C(k)‖∞≤ε或者‖A(k+1)-A(k)‖∞≤ε時,迭代將被終止,ε表示原始和雙殘差的誤差公差。受基于質(zhì)心簇方法的啟發(fā),較短弗雷歇距離內(nèi)的高光譜像素在特征空間中具有較高的相關(guān)性[24]。因此,可以選擇弗雷歇距離矩陣F作為光譜加權(quán)約束矩陣。面向高光譜圖像的FSSC算法可歸納為算法1。
算法1高光譜圖像的FSSC算法
輸入:HSIs圖像Y=[Y1,Y2,…,YMN]∈RB×MN,簇數(shù)k,正則化參數(shù)λ。
輸出:聚類結(jié)果C1,C2,…,Ck。
1) 通過式(4)求解弗雷歇距離矩陣,并根據(jù)式(5)歸一化處理;
2) 由式(6)構(gòu)造FSSC優(yōu)化模型,求解稀疏系數(shù)矩陣C;
3) 利用相似度矩陣F對系數(shù)稀疏表示矩陣C進(jìn)行加權(quán)重構(gòu);
4) 根據(jù)式(2)求解親和力矩陣W;
5) 將親和力矩陣W應(yīng)用于譜聚類。
Indian pines數(shù)據(jù)集是由AVIRIS傳感器獲得的。本文考慮計算效率,選擇了大小為85×70的子圖像來驗(yàn)證算法的有效性,其中包括4個主要的土地覆蓋類型:Corn_no_till、Grass、Soybeans_no_till、Soybeans_minimum_till??夏岬虾教熘行?kennedy space center,KSC)數(shù)據(jù)集由AVIRIS傳感器獲取的,大小是512×614,包含了13個土地覆蓋類型,分別是Scrub、Willow swamp、CP hammock、Slash pine、Oak、Hardwood、Swamp、Graminoid marsh、Spartina marsh、Cattail marsh、Salt marsh、Mud flats、Water。
在這一部分中,為評估FSSC算法的有效性,分別將K均值(K-means)、模糊C均值(FCM)、譜聚類(SC)、稀疏子空間聚類(SSC)、歐氏余弦動態(tài)權(quán)重法(CEDW)和光譜空間稀疏子空間聚類(S4C)算法作為對比算法。本文選擇用戶精度(user′s accuracy,UA)、總體精度(overall accuracy,OA)和Kappa系數(shù)(Kappa)來評估FSSC算法的聚類性能。
3.3.1Indian pines數(shù)據(jù)集聚類結(jié)果分析 為了驗(yàn)證FSSC算法的有效性,本文在Indian pines數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),圖2展示了Indian pines的地面真實(shí)情況和對比算法的聚類圖。從圖2可以看出FSSC算法的聚類圖更接近Indian pines數(shù)據(jù)集的真實(shí)情況。
圖2 Indian pines在不同算法下的聚類結(jié)果Figure 2 The Indian pines clustering results with different algorithms
表1展示了數(shù)據(jù)集不同算法對Indian pines各類地物的聚類精度??梢钥闯?,F(xiàn)SSC算法在Corn_no_till的UA值比S4C提升了約40%,達(dá)到了62.69%。表2展示了Indian pines數(shù)據(jù)集在不同算法下的OA值和Kappa值,其中OA值達(dá)到了73.63%,在SSC和S4C的基礎(chǔ)上分別提高了17.88%和4.92%,Kappa值則提高到了0.623 3。
3.3.2KSC數(shù)據(jù)集聚類結(jié)果分析 為進(jìn)一步評估FSSC算法的有效性,本文還在KSC數(shù)據(jù)集上進(jìn)行相應(yīng)的實(shí)驗(yàn)。圖3展示了該數(shù)據(jù)集的地面真實(shí)情況以及不同聚類算法下的聚類圖。從圖3可以看出,F(xiàn)SSC算法下的聚類圖更接近KSC數(shù)據(jù)集的地面真實(shí)情況。
表1 Indian pines 圖像在不同聚類算法下的UA值Table 1 The UA value of Indian pines image with different clustering algorithms 單位:%
表2 Indian pines 和KSC圖像在不同聚類算法下的聚類精度表Table 2 The clustering accuracy evaluation of Indian pines and KSC with different clustering algorithms
表3展示了不同算法下對KSC數(shù)據(jù)集各類地物的聚類精度,可以看出FSSC算法在Willow swamp的UA值達(dá)到了99.18%,并有效區(qū)分了Hardwood這一類別,UA值達(dá)到了65.07%。Salt marsh和Mud flats的UA值與SSC相比分別提高了40.58%和16.5%。該數(shù)據(jù)集的OA、Kappa值見表2,可以發(fā)現(xiàn),F(xiàn)SSC算法的OA值達(dá)到了70.97%,在SSC和S4C的基礎(chǔ)上分別提高了16.80%和8.06%,Kappa值提高到了0.681 7。以上實(shí)驗(yàn)表明,弗雷歇距離度量的相似度矩陣充分利用了HSIs的光譜信息,使實(shí)驗(yàn)的整體分割精度得到了提升。
圖3 KSC在不同算法下的聚類結(jié)果展示Figure 3 The KSC clustering results with different algorithms
表3 KSC 圖像在不同聚類算法下的UA值Table 3 The UA value of KSC image with different clustering algorithm 單位:%
針對稀疏子空間聚類算法在HSls分割中的缺點(diǎn),本文提出了一種基于弗雷歇距離的HSls稀疏子空間聚類的相似矩陣構(gòu)造方法(FSSC)。通過引入弗雷歇距離度量,克服了傳統(tǒng)的SSC很容易受到歐幾里得域中的噪聲數(shù)據(jù)和異常值的影響。利用像素點(diǎn)光譜曲線之間的相似性構(gòu)建相似度矩陣,并建立了光譜加權(quán)稀疏子空間聚類模型,基于稀疏系數(shù)矩陣和相似度矩陣重構(gòu)鄰接矩陣,更好地探索了HSIs的光譜結(jié)構(gòu)信息。在兩個HSIs數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,F(xiàn)SSC算法明顯優(yōu)于現(xiàn)有的稀疏子空間聚類及一些改進(jìn)算法。