涂兵, 張曉飛, 張國云, 王錦萍, 周瑤
(1.湖南理工學院信息與通信工程學院,岳陽 414006; 2.湖南理工學院復(fù)雜系統(tǒng)優(yōu)化與控制湖南省普通高等學校重點實驗室,岳陽 414006; 3.湖南理工學院IIP創(chuàng)新實驗室,岳陽 414006)
高光譜遙感圖像因其具有較高的光譜分辨率和豐富的光譜信息[1],被廣泛應(yīng)用于精確農(nóng)業(yè)、環(huán)境監(jiān)測和公共安全等方面[2]。作為高光譜應(yīng)用系統(tǒng)中的關(guān)鍵技術(shù),快速高精度的高光譜圖像分類算法是實現(xiàn)各種實際應(yīng)用的前提[3]。近年來,高光譜圖像分類成為了國內(nèi)外的研究熱點。在早期研究中,許多經(jīng)典的模式識別與機器學習算法,如最大似然分類法[4]和支持向量機(support vector machine,SVM)分類算法[5],被有效應(yīng)用于高光譜遙感圖像分類中。但是,這些算法僅利用高光譜圖像的光譜信息,忽略了其空間結(jié)構(gòu)信息的作用,因而無法有效提高分類精度。
隨著研究人員的深入挖掘,發(fā)現(xiàn)通過將光譜信息和空間信息有效融合,可大大改善高光譜遙感圖像的分類結(jié)果。由于局部空間區(qū)域內(nèi)有較大的概率屬于同一類別,且其光譜值也可能非常相近。因此,一種基于分割的高光譜圖像分類方法[6-10]被提出,這類方法通過提取像元間相鄰的空間信息實現(xiàn)圖像分割,且可取得較好的分類效果,但大部分算法時間復(fù)雜度較高。為解決這一問題,李旭超等[11]提出了馬爾可夫隨機場方法,該方法通過將像素空間關(guān)系緊密地結(jié)合在一起,可用低階的馬爾可夫隨機場描述像素間的作用關(guān)系,減少方法時間復(fù)雜度。由于該方法對紋理結(jié)構(gòu)要求高,分割效果也需進一步改進。在此基礎(chǔ)上,Tarabalka等[12]提出了一種基于markers的最小傳播森林分割分類方法(minimum spanning forest,MSF),充分考慮鄰近像素的空間與光譜信息,通過選取粗分類中可信度最高的像素點為標記點(markers)作為MSF的初始點,實現(xiàn)對像素點區(qū)域的平滑與精準分割,取得了較好的實驗效果。
同時基于特征提取的空間與光譜分類[13-16]方法也被提出。Camps-Valls等[17]提出了一種基于數(shù)學形態(tài)學特征合成核的SVM分類算法,此算法利用空間統(tǒng)計特征作為空間信息,通過不同的合成核構(gòu)造方式,有效地將空間信息和光譜信息融合應(yīng)用于高光譜圖像分類; Zhang等[18]通過將光譜、紋理和形狀特征結(jié)合,構(gòu)成特征向量,進而使用SVM算法實現(xiàn)最終分類; Kang等[19]提出了邊緣保持濾波的特征提取算法,通過利用雙邊濾波與引導(dǎo)濾波有效保持高光譜遙感圖像的邊緣特性,從而提高分類精度。
以上結(jié)合空間與光譜信息的分類方法雖然取得了較好的效果,但性能上仍有進一步提升的空間。為此,本文提出一種融合遞歸濾波(recursive filtering,RF)與KNN(k-nearest neighbor)的高光譜遙感圖像分類方法,利用RF算法有效去除高光譜圖像中的噪聲,強化空間結(jié)構(gòu),充分利用地物目標的空間上下文信息,然后利用KNN算法計算圖像像素點的歐式距離,進行決策分類。
RF算法的原理為對給定的變換域Ct: Ω→Ωω和輸入圖像I,可通過域變換將輸入圖像I轉(zhuǎn)換到變換域Ωω中。首先利用圖像的空間結(jié)構(gòu)信息,計算輸入圖像I的每個像素轉(zhuǎn)換前的坐標Ct(xm),再計算每個像素變換后的坐標Ct(xs),計算結(jié)果表明位于同側(cè)圖像邊緣像素具有相似的坐標,而位于異側(cè)圖像邊緣像素坐標相距較遠,基于此原理,可在轉(zhuǎn)換域中定義RF,即
J[m]=(1-ab)I[m]+abJ[m-1] ,
(1)
(2)
式中:I′(x)為I(x)的導(dǎo)數(shù);δr表示范圍標準差。將圖像I進行域變換處理,當式(1)中ab趨近于0,式(2)中的遞歸過程逐漸收斂,使得濾波后輸出結(jié)果中同一側(cè)圖像邊緣的像素會取得相近的值,不同側(cè)圖像邊緣的像素會有很大差別,從而有效保留圖像中的邊緣信息。
NN(nearest neighbor)分類器的原理是通過距離度量為測試樣本找到最鄰近的訓練樣本,根據(jù)訓練樣本類別來決策測試樣本的類別。KNN算法基于此原理,已知訓練樣本標簽的類別,尋找測試樣本的k個最相似或最鄰近的訓練樣本,然后根據(jù)k個最鄰近的訓練樣本類別來決策測試樣本的類別。計算測試樣本與訓練樣本之間的歐式距離為
(3)
式中:xi為訓練樣本集中第i類樣本;yi為測試樣本的第i類樣本;n為空間維數(shù)。
本文提出的RF-KNN分類方法實現(xiàn)過程主要為4步驟: ①利用主成分分析法(principal component analysis,PCA)對高光譜圖像進行降維; ②對降維后的PCA分量圖像進行RF,強化空間結(jié)構(gòu)信息; ③計算測試樣本與每一類訓練樣本的歐式距離; ④選取與測試樣本距離最近的k個測試樣本,根據(jù)k個訓練樣本的類別判斷測試樣本所屬類別。
在完成高光譜圖像分類后,需要對高光譜圖像的分類結(jié)果進行客觀評價。通常依據(jù)地面參考數(shù)據(jù),評估分類結(jié)果的準確性。采用4個常見的高光譜圖像分類精度指標來衡量分類算法的精度: 每類分類精度(class accuracy,CA)、整體分類精度(overall accuracy,OA)、平均分類精度(average accuracy,AA)以及Kappa系數(shù)。同時,為了避免實驗存在隨機誤差,每個實驗重復(fù)20次記錄平均結(jié)果與方差。
采用Indian Pines和 Salinas這2個高光譜數(shù)據(jù)集作為實驗數(shù)據(jù)集,分別如圖1和圖2所示。2景遙感圖像均來自AVIRIS(airborne visible infra-red imaging spectrometer)光譜儀收集到的高光譜遙感圖像,Indian Pines影像為1992年在印第安納州西北部地區(qū)影像,具有20 m的空間分辨率,由于噪聲和水吸收等因素除去其中的20個波段,剩余200個波段,圖像范圍大小為145像素×145像素,其中包含16種地物。Salinas影像為美國加利福尼亞州薩利納斯山谷地區(qū)影像,含224個波段,空間分辨率為3.7 m,圖像范圍大小為512像素×217像素,其中包含16種地物,由于噪聲和水吸收等因素亦除去遙感圖像中的20個波段。
(a) B40波段影像(b) 地面參考數(shù)據(jù)(c) 顏色編碼
圖1IndianPines區(qū)域?qū)嶒灁?shù)據(jù)
Fig.1IndianPinesdataset
(a) B100波段影像(b) 地面參考數(shù)據(jù)(c) 顏色編碼
圖2Salinas區(qū)域?qū)嶒灁?shù)據(jù)
Fig.2Salinasdataset
為了得到最佳的分類精度,對RF算法中的δs和δr、最近鄰數(shù)k以及維度Dim進行分析。分別在Indian Pines和Salinas數(shù)據(jù)集上進行試驗,獲取最優(yōu)分類結(jié)果對應(yīng)的參數(shù)值。
通過確定RF算法中δs和δr的值,使濾波效果達到最佳。首先確定RF算法中這2個參數(shù)的取值范圍,如圖3所示。
(a) Indian Pines數(shù)據(jù)集(b) Salinas數(shù)據(jù)集
圖3RF參數(shù)對不同數(shù)據(jù)集分類精度的影響分析
Fig.3AnalysisofRFparametersonclassificationaccuracyindifferentdatasets
在分析δr影響時,δs為固定值,隨著δr值增大,平均分類精度明顯降低。這是因為δr值較大時,RF會退化為高斯濾波,造成影像過度模糊而丟失有用的形狀和輪廓等空間結(jié)構(gòu)信息,導(dǎo)致物體的分類錯誤。而當δs和δr取最小值時,就意味著在特征提取過程中僅考慮較小鄰域的局部空間信息,而忽略整體空間信息,則會導(dǎo)致濾波效果較差。由圖3可知,在Indian Pines數(shù)據(jù)集上,當δs=212且δr=0.9時,能得到最優(yōu)分類精度; 在Salinas數(shù)據(jù)集上,當δs=210且δr=0.7時,獲得最優(yōu)分類精度。
分析最鄰近數(shù)k對分類精度的影響時,僅改變k參數(shù),其余參數(shù)選為常數(shù)。如圖4所示,當k=1時,2個數(shù)據(jù)集都能獲得最高的分類精度,分別為98.96%和99.51%。隨著k的增加,引入的噪聲數(shù)據(jù)也會相應(yīng)增加,導(dǎo)致分類精度下降。
(a) Indian Pines數(shù)據(jù)集(b) Salinas數(shù)據(jù)集
圖4最近鄰數(shù)k對不同數(shù)據(jù)集分類精度的影響分析
Fig.4Analysisofthenumberofnearestneighboronclassificationaccuracyindifferentdatasets
此外,特征維度Dim也是影響高光譜分類精度的重要因素。實驗分析如圖5所示。
(a) Indian Pines數(shù)據(jù)集(b) Salinas數(shù)據(jù)集
圖5維度對不同數(shù)據(jù)集分類精度的影響分析
Fig.5Analysisofdimensiononclassificationaccuracyindifferentdatasets
當Dim=4時,分類精度較低。其原因是圖像降維過程中會丟失大量有用的光譜信息,使分類精度降低。隨著Dim增加,2個數(shù)據(jù)集的分類精度變化趨勢類似,都是先增加再保持不變。在Indian Pines數(shù)據(jù)集上,當Dim=20時,分類精度最高; 在Salinas數(shù)據(jù)集上,當Dim=30時,分類精度最高。
為了驗證本文提出方法的優(yōu)越性,實驗比較了本文提出的方法與傳統(tǒng)的分類算法和幾種空譜分類算法的分類效果,其算法包括: 傳統(tǒng)分類算法SVM[5]、稀疏表示分類(sparse representation classification,SRC)[20]算法、聯(lián)合稀疏表示分類算法(joint sparse representation classification,JSRC)[21]、擴展形態(tài)特征(extended morphological profiles,EMP)算法[22]、邊緣保持濾波(edge preserving filtering,EPF)的算法[23]、基于圖像融合和遞歸濾波(image fusion and recursive filtering,IFRF)的算法[19]以及邏輯回歸與多層回歸(logistic regression and multi-level logistic,LMLL)算法[24]。在進行實驗比較之前,先設(shè)置不同類算法的參數(shù)。SVM的最佳參數(shù)通過10次交叉驗證確定。對于EMP算法,利用HSI的前3個主成分分量,形態(tài)學算子的尺寸依次遞增2個像素,共進行4次形態(tài)學開閉和重構(gòu)運算,構(gòu)建多尺度形態(tài)學特征。對于EPF算法,使用前4個主要部件,圓形結(jié)構(gòu)元件、二階梯形增量及4個開口和關(guān)閉構(gòu)造形態(tài)輪廓進行參數(shù)設(shè)置。對于SRC,JSRC,IFRF和LMLL算法,實驗均采用默認參數(shù),通過Matlab編寫代碼實現(xiàn)。
4.2.1 Indian Pines數(shù)據(jù)集
在Indian Pines數(shù)據(jù)集中,隨機選取10%作為訓練樣本,剩余的90%作為測試樣本。為了分析訓練樣本數(shù)量對算法分類精度的影響,再采用1%的訓練樣本和99%測試樣本進行實驗。不同算法分類結(jié)果如圖6和圖7所示。
(a) SVM(b) SRC(c) JSRC(d) EMP
(e) EPF(f) IFRF(g) LMLL(h) RF-KNN
圖6不同算法在IndianPines數(shù)據(jù)集的分類結(jié)果(10%訓練樣本)
Fig.6ClassificationresultsofdifferentalgorithmsintheIndianPinesdataset(10%oftrainingsamples)
(a) SVM(b) SRC(c) JSRC(d) EMP
(e) EPF(f) IFRF(g) LMLL(h) RF-KNN
圖7不同算法在IndianPines數(shù)據(jù)集的分類結(jié)果(1%訓練樣本)
Fig.7ClassificationresultsofdifferentalgorithmsintheIndianPinesdataset(1%oftrainingsamples)
對于僅使用光譜信息的SVM分類算法而言,分類結(jié)果中噪聲點較多,并且每種地物類型與實際地物類型對應(yīng)關(guān)系錯誤率也較高,分類精度較低。相比SVM分類算法,EMP算法在分類時通過利用圖像空間結(jié)構(gòu)信息總是能獲得更高的分類精度,然而在分類結(jié)果中一些“噪聲”狀的誤分類仍然可見。相比EMP算法,EPF算法通過邊緣保持濾波聯(lián)合空間信息與光譜分類結(jié)果,能提升分類精度。對于本文提出的RF-KNN方法而言,不但利用RF算法平滑了噪聲,增強空間結(jié)構(gòu),而且還結(jié)合空間鄰域信息進行分類,分類精度優(yōu)于其他空譜分類算法。當訓練樣本極少時,本文提出的方法依然能獲得較好的分類精度。比如能準確地識別位于實驗區(qū)右上方的地物類別。該方法通過有效地聯(lián)合空間信息,對大多數(shù)地物類別的識別精度均優(yōu)于其他空譜分類算法。
表1和表2分別顯示了訓練樣本數(shù)、測試樣本數(shù)和不同分類算法的分類精度。表中括號外數(shù)值表示各個精度均值,單位為%,括號內(nèi)數(shù)值表示各精度的均方差,下同。
表1 Indian Pines高光譜圖像不同算法分類精度(10%訓練樣本)Tab.1 Indian Pines data set classification accuracy of different algorithms (10% of training samples)
表2 Indian Pines高光譜圖像不同算法分類精度(1%訓練樣本)Tab.2 Indian Pines data set classification accuracy of different algorithms (1% of training samples)
由表1和表2可知,本文提出的RF-KNN方法在OA,AA和Kappa指標上有相對的優(yōu)勢。SRC的分類算法精度最低,SVM算法在訓練樣本占地面參考數(shù)據(jù)10%的情況下,能夠有效地區(qū)分Wheat,Woods和Stone等光譜區(qū)分度較大的地物,然而由于未考慮高光譜圖像的空間信息,對于一些光譜類似的地物,分類識別精度不高。例如,Oats的分類精度僅為46.35%。相比SVM算法,其他空譜分類算法能提升分類精度,但對某些類別的分類精度較低,比如對于Soybean的識別。本文的RF-KNN方法能取得最高的分類精度。例如Grass-P,Hay-W和Oats的分類精度能達到100%,大多數(shù)類別上的分類精度均高于98%; 相比SRC算法,對于Alfalfa的識別,提高了32.86%。在訓練樣本占地面參考數(shù)據(jù)1%的情況下,大部分算法識別精度明顯下降,而本文方法依然能獲得最佳的分類精度,且對Grass-P和Hay-W的分類精度仍保持為100%。
4.2.2 Salinas數(shù)據(jù)集
在Salinas數(shù)據(jù)集中,將所有數(shù)據(jù)分為訓練樣本和測試樣本。隨機選取參考數(shù)據(jù)中的2%作為訓練樣本,其余作為測試樣本。并進一步改變訓練樣本的數(shù)量進行實驗,隨機選取參考數(shù)據(jù)中的0.2%作為訓練樣本,剩下99.8%的參考數(shù)據(jù)作為測試樣本。Salinas數(shù)據(jù)集不同算法分類結(jié)果如圖8和圖9所示,SVM算法分類結(jié)果中噪聲點較多。與僅使用光譜信息的SVM算法相比,JSRC算法通過聯(lián)合空間信息能有效去除這種類似噪聲的誤分類,提高了分類精度。相比其他7種高光譜遙感圖像分類算法,本文所提出的RF-KNN方法總能獲得更高的分類精度,其原因在于利用RF算法有效地平滑了噪聲,強化了地物輪廓,對圖像區(qū)域邊緣劃分效果較好。隨著訓練樣本數(shù)量的減少,JSRC,EPF和LMLL算法分類結(jié)果中出現(xiàn)明顯誤分類現(xiàn)象,IFRF算法和RF-KNN方法均能在訓練樣本減少時較好地區(qū)分各種地物覆蓋類別。雖然兩者均有去除圖像噪聲與增強影像空間結(jié)構(gòu)的特性,但是相比于IFRF算法,RF-KNN方法通過加入空間近鄰信息進一步提高了分類精度。分類精度分別如表3和表4所示。
(a) SVM(b) SRC(c) JSRC(d) EMP
(e) EPF(f) IFRF(g) LMLL(h) RF-KNN
圖8不同算法在Salinas數(shù)據(jù)集的分類結(jié)果(2%訓練樣本)
Fig.8ClassificationresultsofdifferentalgorithmsintheSalinasdataset(2%oftrainingsamples)
(a) SVM(b) SRC(c) JSRC(d) EMP
圖9-1不同算法在Salinas數(shù)據(jù)集的分類結(jié)果(0.2%訓練樣本)
Fig.9-1ClassificationresultsofdifferentalgorithmsintheSalinasdataset(0.2%oftrainingsamples)
(e) EPF(f) IFRF(g) LMLL(h) RF-KNN
圖9-2不同算法在Salinas數(shù)據(jù)集的分類結(jié)果(0.2%訓練樣本)
Fig.9-2ClassificationresultsofdifferentalgorithmsintheSalinasdataset(0.2%oftrainingsamples)
表3 Salinas高光譜圖像不同算法分類精度(2%訓練樣本)Tab.3 Salinas data set classification accuracy of different algorithms (2% of training samples)
表4 Salinas高光譜圖像不同算法分類精度(0.2%訓練樣本)Tab.4 Salinas data set classification accuracy of different algorithms (0.2% of training samples)
從表3和表4可以看出,本文提出的RF-KNN分類方法均能獲得最高的分類精度。相比SRC算法,對于一些識別分類不準確的類別,比如Graps,從73.62%提高到了99.87%,Vinyard_U的識別精度提升了37.60%,在Soil類別中識別精度可以達到100%。相比其他的空譜分類算法,大部分類別分類精度都高于97%; 當訓練樣本極少時,本文提出的方法識別精度均優(yōu)于其他的空譜分類算法; 對于Soil的分類精度仍保持100%。SRC,JSRC,EMP和EPF算法的分類精度明顯下降。實驗證明,RF-KNN方法能有效聯(lián)合高光譜圖像的空間信息與光譜信息,進而提升地物覆蓋類別的識別精度。
在本文所提出的基于遞歸濾波和KNN的高光譜圖像分類方法較好地結(jié)合光譜和空間鄰域信息,有效降低了錯誤分類概率。該方法通過在2個經(jīng)典實驗數(shù)據(jù)庫上進行實驗并且與其他算法進行了對比驗證,結(jié)果表明,與現(xiàn)有高光譜遙感圖像分類算法相比,該方法在不同訓練樣本下都具有較好的分類性能,并且具有較好的魯棒性,為高光譜遙感圖像分類領(lǐng)域提供了新的研究思路與方法。但在實驗過程中,該方法的時間復(fù)雜度較高,因此如何有效降低該方法的時間復(fù)雜度是下一步研究的重點。
志謝: 康旭東博士提供了EPF和IFRF算法代碼,李軍教授提供了LMLL算法代碼,在此一并表示感謝。最后,感謝李樹濤教授和康旭東博士對論文給出的深刻意見。