基于相似性的高光譜海冰圖像的波段選擇研究

2015-01-24 12:24:44韓彥嶺袁國良

電子設(shè)計(jì)工程 2015年21期

張龍，韓彥嶺，張云，袁國良

（1.上海海事大學(xué) 上海 201306；2.上海海洋大學(xué) 上海 201306）

海冰是影響極地乃至全球氣候系統(tǒng)的一個(gè)重要因子[1]，因此研究極地海冰變化成為氣候研究的重要方向。與常規(guī)的觀測手段相比，高光譜遙感技術(shù)可以及時(shí)有效地獲取海冰變化的詳細(xì)信息以及海冰接近連續(xù)的光譜信息，為極地海冰檢測及重要信息的獲取提供了重要手段。然而，高光譜數(shù)據(jù)量大，波段多且窄，波段之間相關(guān)性強(qiáng)，信息冗余度較高。一方面數(shù)據(jù)量的劇增給數(shù)據(jù)的處理和解譯帶來很多問題；同時(shí)波段之間的相關(guān)性和冗余信息對傳統(tǒng)的圖像分類算法提出了巨大挑戰(zhàn)。因此，有必要對高光譜海冰數(shù)據(jù)進(jìn)行降維處理?，F(xiàn)有的降維方法有基于特征提取和基于波段選擇兩種方法，而波段選擇方法可以保持圖像的原有特性，更有利于對圖像進(jìn)行分析，成為高光譜降維的重要研究方向。目前已經(jīng)提出的波段選擇算法很多，具體分為監(jiān)督波段選擇和非監(jiān)督波段選擇兩類，非監(jiān)督波段選擇方法不需要有關(guān)地物類型的先驗(yàn)知識，更符合遙感圖像處理的實(shí)際情況，在遙感圖像處理中有著廣泛的應(yīng)用。

非監(jiān)督波段選擇的基本思路是選擇具有代表性的波段子集，使得該子集內(nèi)的波段間相關(guān)程度最小且各波段自身信息量盡量大[2]。目前對非監(jiān)督波段選擇的研究很多，如基于信息理論的波段選擇算法[3]等。但這些方法存在缺點(diǎn)，例如熵只考慮了波段的信息量，忽略了波段間的相關(guān)性使得所選擇的波段子集不一定最優(yōu)。應(yīng)用于衡量不同像元間光譜相似性度量的方法[4]，如光譜相關(guān)性度量（SCM），光譜信息散度（SID）和波譜角（SAM）、以及結(jié)合SID和SAM優(yōu)點(diǎn)的混合度量方法SID_SAM[5]等在光譜識別方面取得較好的效果。因此，本文提出將這些基于光譜相似性度量的方法應(yīng)用于高光譜海冰圖像的非監(jiān)督波段選擇中，利用光譜相似性度量比較波段間的不相似性，首先以熵最大的波段開始，然后采用SCM和SID_SAM方法進(jìn)行初始波段選擇，再通過LP算法進(jìn)行后續(xù)波段選擇，為了確保選出信息量較大，又有區(qū)別性的波段，數(shù)據(jù)需要進(jìn)行預(yù)處理，例如，確定針對高光譜海冰數(shù)據(jù)可分性較好的波段范圍、移除壞波段等。另外，波段選擇過程中像素選擇的影響，需要選擇的波段數(shù)本文也進(jìn)行了分析研究，并通過一些已廣泛運(yùn)用的波段選擇算法，如熵（ENTROPY），一階光譜導(dǎo)數(shù)（FSD）[6]進(jìn)行對比分析，實(shí)驗(yàn)結(jié)果表明，就分類性能而言本文提出的方法優(yōu)于其他傳統(tǒng)方法。

1 基于相似性的波段選擇算法

基于相似性的波段選擇是在考慮波段信息量的基礎(chǔ)上，盡量選擇相似性低的波段。該算法包括兩個(gè)過程：先通過計(jì)算單波段之間的相似度進(jìn)行初始波段選擇，從而選出最不相似的兩個(gè)波段；然后聯(lián)合計(jì)算單波段與多波段之間的相似度進(jìn)行后續(xù)波段選擇，從而能夠從整個(gè)波段空間選擇相似性最小的波段組合。

1.1 初始波段選擇算法

假設(shè)原始高光譜圖像有M個(gè)波段，初始波段選擇算法的基本步驟如下：

1）結(jié)合海冰的光譜特征，以隨機(jī)的或者熵最大的波段B1初始化算法。

2）從剩下的M-1個(gè)波段中找到與波段B1最優(yōu)的組合波段B2，B2與B1最不相似。

3）從剩下的M-1個(gè)波段中找到與波段B2最優(yōu)的組合波段B3，B3與B2最不相似。

4）如果B3＝B1，則證明B1和B2為最不相似的波段組合，此時(shí)，算法中止執(zhí)行。如果B3≠B1，繼續(xù)執(zhí)行下一步。

5）繼續(xù)執(zhí)行算法直到Bi+1＝Bi-1為止，然后將選擇的波段Bi-1或者Bi作為初始波段（或者將二者作為初始波段對）。

采用的兩種初始波段選擇算法定義如下：

1）SID:由輻射或者反射的性質(zhì)，假設(shè)波段B中所有的分量都是非負(fù)的，光譜信息散度定義如下：假設(shè)波段B1對應(yīng)像素概率為 q =（q1，q2，…，qL），其中：qi=b1i/相應(yīng)的可得到波段 B 2 對應(yīng)像素概率為 p =（p1，p2，…，pL），其中：由信息理論得到波段B2關(guān)于波段B1的相對熵：

B1關(guān)于B2的相對熵為：

則兩個(gè)波段之間的光譜信息散度定義如下：

其中，Ii（B1）和 Ii（B2）為波段 B1 和 B2 在第 i個(gè)分量上的自信息，越小的度量值表明了兩個(gè)波段之間越大的相似性。

2）SAM：兩個(gè)波段的波譜角定義如下：

SID 與 S AM的混合度量有 S ID×sin（SAM）和 S ID×tan（SAM）兩種[5]，都取得了比較好的評價(jià)結(jié)果，本文選擇前者。

3）SCM:假設(shè)波段B1和B2為集合Φ中的兩個(gè)波段B1=（b11，b12，…，b1L），其中波段和波段 B 2=（b21，b22，…，b2L），則兩個(gè)波段之間的相關(guān)性度量：

1.2 后續(xù)波段選擇算法

后續(xù)波段選擇算法的基本步驟如下：

1）以選擇的初始波段B1開始，初始化算法，得到選擇的波段子集Φ={B1}。

2）由確定的算法，找到與B1最不相似的波段B2，此時(shí)選擇的波段子集更新為Φ=ΦU{B2}。

3）繼續(xù)執(zhí)行第二步，直到子集Φ中選擇的波段數(shù)目滿足要求為止。

采用的后續(xù)波段選擇算法定義如下：

LP:假設(shè)波段B1，B2為子集Φ中的兩個(gè)波段，為了找到與波段B1和B2最不相似的波段B，B1和B2可以用來估計(jì)波段B:

其中B′，為使用波段B1和B2對波段B的估計(jì)或者線性預(yù)測，a0，a1和a2是最小化線性預(yù)測誤差的參數(shù)，誤差：emin=PB-B′P，參數(shù)向量 a=（a0，a1，a2）T可以由最小二乘解來確定：

其中，x為L×3矩陣，第一列均為1，第二列包含波段B1的所有選擇像素，第三列包含波段B2的所有選擇像素，y為包含波段B的所有選擇像素的L×1向量。則獲得最大誤差emin的波段被認(rèn)為與波段B1、B2最不相似，作為波段B3選入子集Φ中，很顯然，繼續(xù)執(zhí)行算法可以繼續(xù)選擇波段，直到子集Φ中選擇的波段數(shù)目滿足要求為止。

2 波段選擇過程中相關(guān)問題分析

2.1 像素選擇

由于高光譜的波段圖像之間具有很高的空間相關(guān)性，為了減少計(jì)算量提高波段選擇的效率需要對像素進(jìn)行選擇。選擇的像素?cái)?shù)目和像素位置往往對波段選擇算法的性能影響很大，因此本文中對不同的像素選擇方法做了對比分析。

1）選擇像素的數(shù)目：首先選擇所有像素進(jìn)行波段選擇，然后分別選擇1%的像素和1‰的像素進(jìn)行對比分析。

2）選擇像素的位置：為了消除隨機(jī)選擇像素時(shí)可能無法包含所有類別像素的影響，本文提出基于k_means聚類的像素選擇方法，具體步驟如下：

①選擇所有原始波段（壞波段移除后）進(jìn)行k_means聚類，合并相同類別。

②對不同類別的數(shù)目和位置進(jìn)行統(tǒng)計(jì)，確定每類要選擇的像素?cái)?shù)目。

③根據(jù)②，均勻的選擇相應(yīng)類別的像素，直到每類像素的數(shù)目滿足要求為止。

通過實(shí)驗(yàn)分析發(fā)現(xiàn)，基于k_means聚類的像素選擇方法能夠根據(jù)不同類別的像素所占比例，選擇相應(yīng)的像素，為了對不同波段選擇算法的性能進(jìn)行分析，可以存儲選擇的像素，從而提高分析的可靠性。

2.2 選擇的波段數(shù)

實(shí)際應(yīng)用中很難確定需要選擇的波段數(shù)，根據(jù)經(jīng)驗(yàn)，如果圖像場景很復(fù)雜包含較多的類別時(shí)就需要選擇較多的波段，這是因?yàn)閿?shù)據(jù)的維度應(yīng)該足夠高以容納這些類別用于檢波或者分類[2]。高光譜圖像中不同信號源的最小數(shù)目可以使用虛擬維度（VD）來估計(jì)[7]。虛擬維度估計(jì)方法中，一般情況下，噪聲子空間投影（NSP）獲得了最大的估計(jì)，結(jié)果可以作為需要選擇波段數(shù)的一個(gè)參考值。

2.3 性能評價(jià)

為了對選擇的波段信息量和類可分性進(jìn)行評價(jià)，文中分別采用支持向量（SVM）進(jìn)行監(jiān)督分類和k_means進(jìn)行非監(jiān)督分類用于結(jié)果分析。當(dāng)沒有可利用的像素級的真實(shí)地表信息時(shí)，來自于所有原始波段的分類圖可被看作真實(shí)地表，來自于選擇波段的分類圖可以用空間相關(guān)系數(shù)ρ與該真實(shí)地表進(jìn)行對比，平均相關(guān)系數(shù)ρ越趨近于1意味著越好的分類結(jié)果。該方法是基于針對類別相似但光譜可分離情況下的一種合理假設(shè)[8]：使用所有的原始波段（壞波段剔除后），可得到一個(gè)很好或者至少令人滿意的分類性能。這種基于圖像相似性的方法在非監(jiān)督情況下或者缺少像素級地表真實(shí)圖像的情況下，可以給出定量的評價(jià)。

3 實(shí)驗(yàn)分析

實(shí)驗(yàn)采用2014年4月12日采集的左上角經(jīng)緯度74°1′10.93″N，79°47.22″W，右下角經(jīng) 緯度 73°2′12.71″N，80°5′33.86″W，具有 242個(gè)波段，大小為 3233×256海冰類型較容易判別EO-1高光譜海冰圖像。圖像中的地物類別主要有4類：厚冰，薄冰，海水和積雪。

3.1 數(shù)據(jù)的預(yù)處理

為了選擇信息量較大又有區(qū)別性的波段，水汽吸收波段和低信噪比波段需要先移除，這是因?yàn)檫@些波段雖然不相似，但是幾乎不包含有用信息[2]。EO-1高光譜遙感L1產(chǎn)品數(shù)據(jù)包含242個(gè)波段，剔除受水汽影響、未經(jīng)過輻射定標(biāo)處理和重疊的波段后，剩下176個(gè)波段，即：8至57、79至120、128 至 166、179 至 223[9]。

由北極海冰的反射率特征[1]和實(shí)驗(yàn)中高光譜海冰圖像的海冰反射率特征可以確定選擇波段的波長范圍為400~1 350 nm。包含在此波長范圍的已選擇波段為8至57和79至120，共92個(gè)波段作為波段選擇的原始波段。

3.2 選擇的波段數(shù)

表1列出了在給定不同虛警概率情Pf況下由NSP得到的虛擬維度的估計(jì)：

表1 NSP得到虛擬維度的估計(jì)Tab.1 VD estim ates obtained by the NSP method

如表1所示，在給定不同虛警概率時(shí)VD的值均為4，在后面的分析中，將此作為需要選擇波段數(shù)的一個(gè)參考值。

3.3 像素選擇的影響

實(shí)驗(yàn)中，通過隨機(jī)選擇1%的像素，k_means法選擇1%像素，k_means法選擇1‰像素和選擇所有像素分別進(jìn)行波段選擇以進(jìn)行對比分析。

圖1展示了不同像素條件下，SCM+LP選擇的波段進(jìn)行監(jiān)督和非監(jiān)督分類結(jié)果與使用所有原始波段（壞波段移除）對應(yīng)分類圖之間的平均相關(guān)系數(shù)。如圖1（a）所示，在k_means選擇1‰的像素時(shí)，SCM+LP選擇4個(gè)波段的監(jiān)督分類平均相關(guān)系數(shù)0.9861，選擇8個(gè)波段的監(jiān)督分類平均相關(guān)系數(shù)為0.9864，分類精度只有細(xì)微的提高，而波段數(shù)卻增加了一倍。同時(shí)隨著選擇波段數(shù)的增加，分類精度也幾乎沒有變化。因此，虛擬維度的值VD=4在選擇合適的波段數(shù)目上給出了合理的預(yù)測，它可以在分類精度與所需降低的數(shù)據(jù)維數(shù)之間取得平衡。由圖1（a-b）可知k_means法選擇1%像素時(shí)選擇波段的分類精度與使用所有像素選擇波段的分類精度幾乎相同。同時(shí)k_means法選擇1‰像素時(shí)，SCM+LP選擇波段的分類精度是最高的，這表明了k_means法是一種非常有效的像素選擇方法。

在隨機(jī)選擇像素的情況下，由于選擇的像素的變化，選擇的波段也隨之變化很大，更重要的是，隨機(jī)選擇像素時(shí)不能保證所選擇的像素總能包含所有類別，尤其是像素較少的類別。相比較而言，k_means法選擇的像素總能包含不同類別的像素，在進(jìn)行重復(fù)選擇時(shí)所選擇的波段號是固定不變的，便于對不同算法進(jìn)行對比分析。需要指出的是，當(dāng)k_means選擇0.1‰像素時(shí)，由于聚類誤差的存在，選擇像素太少時(shí)降低了波段選擇算法的性能，因此這里不再討論。

3.4 波段選擇算法的性能評價(jià)

由3.3中的結(jié)果，這里僅對1‰像素的波段選擇結(jié)果進(jìn)行對比分析。圖2給出了92個(gè)原始波段的熵，如圖2所示，第33個(gè)波段即40號波段的熵最大，在后面的分析中，將此作為選擇初始波段的起始波段。圖3為各個(gè)算法選擇波段的監(jiān)督和非監(jiān)督分類結(jié)果與所有原始波（壞波段移除后）對應(yīng)分類圖之間的平均相關(guān)系數(shù)。

圖1 SCM+LP選擇波段性能（所有像素，隨機(jī)選擇1%，k_means選擇1%和k_means選擇1‰）Fig.1 The performance analysis of band selection based on SCM+LP（Comparison between using all pixels， 1%pixels with random selection pixels，1%pixels with k_means and 1‰ pixels with k_means）

如圖3所示，雖然ENTROPY+SCM和ENTROPY+SID_SAM選擇初始波段的分類精度要低于ENTROPY和FSD，但是隨著選擇波段數(shù)的增加，分類精度均高于后二者。LP在選擇3個(gè)波段時(shí)，分類精度也高于后二者。選擇6個(gè)波段時(shí)，三者分類精度均收斂。因此，就整體而言ENTROPY+SCM+LP、ENTROPY+SID_SAM+LP和LP選擇波段的分類精度是最好的，這說明了三者的波段選擇性能要優(yōu)于ENTROPY和FSD。同時(shí)，本文提出的方法ENTROPY+SCM+LP獲得了最高的評價(jià)，分類精度優(yōu)于ENTROPY+SID_SAM+LP和傳統(tǒng)的LP算法。ENTROPY+SCM+LP在選擇4個(gè)波段時(shí)，分類精度已經(jīng)收斂，監(jiān)督分類平均相關(guān)系數(shù)為0.98幾乎接近于1，但是數(shù)據(jù)的維數(shù)由92降到了4。

圖2 所有波段的熵Fig.2 The entropy of all bands

圖3 ENTROPY+SCM+LP，ENTROPY+SID_SAM+LP，LP，F(xiàn)SD和 ENTROPY的分類精度對比（k_means選擇1‰像素）Fig.3 Comparison on classification accuracy for ENTROPY+SCM+LP，ENTROPY+SID_SAM+LP，F(xiàn)SD and ENTROPY methods（1‰ pixels selected by k_means）

4 結(jié) 論

本文從極地海冰光譜特性出發(fā)，針對不同海冰類型在可分性較好的波段上進(jìn)行波段選擇，將基于波段相似性度量的非監(jiān)督波段選擇算法應(yīng)用于高光譜海冰檢測，根據(jù)實(shí)驗(yàn)結(jié)果分析，所研究方法，在考慮波段信息量的基礎(chǔ)上找出最不相似的波段，大大提高波段選擇效率的同時(shí)獲得較高的分類性能。主要貢獻(xiàn)如下：1）考慮到極地海冰的光譜特征，選擇光譜特征明顯且可分性較好的波段應(yīng)用到高光譜圖像的波段選擇過程，可以有效縮減原始波段范圍，提高算法效率的同時(shí)選出信息含量比較高的波段。2）考慮到高光譜圖像較高的空間相關(guān)性，采用基于k_means聚類的像素選擇，分析以不同比率選擇像素情況下分類精度的變化，得出基于k_means聚類的1‰像素選擇可以兼顧效率與性能的平衡，在降低像素?cái)?shù)目的同時(shí)保證了較高的分類性能。3）將光譜相似性度量方法應(yīng)用于高光譜海冰圖像的初始波段選擇中，分析了不同的初始波段算法與后續(xù)波段算法組合的性能，本文提出的ENTROPY+SCM+LP方法獲得了最高的評價(jià)，能夠有效應(yīng)用于高光譜海冰圖像的數(shù)據(jù)降維。

[1]柯長青，謝紅接，雷瑞波，等.北極海冰的光譜特征分析[J].光譜學(xué)與光譜分析，2012，32（4）:1081.KE Chang-qing，XIE Hong-jie，LEI Rui-bo，et al.Analysis of the spectral characteristicsof the arctic sea ice[J].Spectroscopy and Spectral Analysis，2012，32（4）:1081.

[2]Du Q，Yang H.Similarity-based unsupervised band selection for hyperspectral image analysis[J].Geoscience and Remote Sensing Letters， IEEE，2008，5（4）:564-568.

[3]Martínez-UsóA，Pla F，Sotoca J M，et al.Clustering-based hyperspectral band selection using information measures[J].Geoscience and Remote Sensing， IEEE Transactions on，2007，45（12）:4158-4171.

[4]Kong X，Shu N，Huang W，et al.The research on effectiveness of spectral similarity measures for hyperspectral image[C]//Image and Signal Processing （CISP）， 2010 3rd International Congress on.IEEE，2010，5:2269-2273.

[5]Du Y，Chang C I，Ren H，et al.New hyperspectral discrimination measure for spectral characterization[J].Optical Engineering，2004，43（8）:1777-1786.

[6]Bajcsy P，Groves P.Methodology for hyperspectral band selection[J].Photogrammetric Engineering&Remote Sensing，2004，70（7）:793-802.

[7]Chang C I，Du Q.Estimation of number of spectrally distinct signal sources in hyperspectral imagery[J].Geoscience and Remote Sensing， IEEETransactionson，2004，42（3）:608-619.

[8]Platt R V，Goetz A F H.A comparison of AVIRIS and Landsat for land use classification at the urban fringe[J].Photogrammetric Engineering&Remote Sensing，2004，70 （7）:813-819.

[9]譚炳香，李增元，陳爾學(xué)，等.EO-1 Hyperion高光譜數(shù)據(jù)的預(yù)處理[J].遙感信息，2006（6）:36-41.TAN Bing-xiang，LI Zeng-yuan，CHEN Er-xue，et al.EO-1 Hyperion hyperspectral data preprocessing[J].Remote Sensing Imformation，2006（6）:36-41.