曹 浩,韓賢權,黎建洲*,吳 柯,劉慧澤
(1.長江水利委員會長江科學院,湖北 武漢 430010;2.中國地質大學(武漢) 地球物理與空間信息學院,湖北 武漢 430074)
高光譜數據具有維數高、冗余信息巨大等特點,在真實訓練樣本信息不足的情況下,易出現大量Hughes現象,這將極大影響地物探測和識別的精度[1]。支持向量機(SVM)自提出起就受到了廣泛的關注。利用SVM空間構建的核函數,合理地避開了高維空間計算的復雜性,在線性可分的情況下能有效求解對應高維空間的決策問題。將這種單核SVM應用于數據量龐大的高光譜遙感影像分類、識別中,效果非常顯 著[2-3]。2002年Smits G F[4]等在單核SVM的基礎上提出了一種混合核SVM的高光譜影像分類方法,主要通過構建與組合不同的核函數來完成SVM的空間映射;相較于單核SVM,混合核能取得更好的分類效果;隨后一些研究者陸續(xù)發(fā)展了不同形式的混合核SVM,并取得了良好的效果[5-8]。然而,利用混合核SVM的傳統分類方法完全是從光譜維的角度來構建混合核SVM模型,并未考慮影像的空間結構信息,基于單一的光譜維的分類器并不一定能滿足需求[9]。已有研究結果表明,將空間結構信息加入SVM模型能有效提高分類精度,如TAN K[10]等提出了基于空間形態(tài)學屬性的分類模型,Tarabalka Y[11]等提出了SVM與馬爾科夫隨機場(MRF)相結合的模型,王曉玲[12]等提出了融合形態(tài)學特征的SVM模型等;但這些方法均是利用同一映射形式的單核SVM對空間信息與光譜信息的疊加信息進行統一處理,并未考慮混合核函數的形式。由于SVM不同核函數具有不同的特性,且空間信息與光譜信息存在差異性,因此如何構造混合核函數來有效地結合空間信息與光譜信息成為一個難點問題。
鑒于此,本文提出了一種全新的基于擴展的形態(tài)學剖面(EMP)與混合核SVM的高光譜影像分類方法。該方法既利用EMP提取了高光譜影像中的空間特征,并將空間特征與光譜特征進行有效結合,又在單核SVM的基礎上構建了兩種混合核SVM,充分發(fā)揮了混合核SVM的優(yōu)勢,進一步提高了高光譜影像的分類質量,尤其是對于一些混合情況比較復雜的區(qū)域,分類效果更顯著,適用性更強。本文通過兩組高光譜影像的分類實驗驗證了該方法的分類精度。
高光譜影像的EMP提取,是通過一系列半徑增量相同的結構元素依次對影像做開運算與閉運算,從而得到一系列的開運算剖面與閉運算剖面[13]。開運算剖面的定義為:
式中,(x)為對尺寸為i的結構元素進行開運算操作;n為開運算剖面的總數量;x為圖像上進行開運算的像素點,從而產生n維的特征向量。閉運算剖面的定義為:
式中,(x)為對尺寸為i的結構元素進行閉運算操作;n為閉運算剖面的總數量;x為圖像上進行閉運算的像素點,從而產生n維的特征向量。
假設原始影像上的x為I(x),當式(1)和式(2)中的i=0,則OP0(x) =CP0=I(x)。此時將開運算與閉運算的剖面結合起來,就得到EMP,即
為了將EMP的提取應用到高光譜數據上,需要對高光譜數據進行特征提取。研究表明,對高光譜數據進行主成分分析(PCA),再選取方差較大的幾個主成分進行形態(tài)學變換,能取得較好的效果。因此,對提取的每個主成分進行形態(tài)學變換得到一個疊置的特征向量,稱為EMP。EMP一個維數為m(2n+1)的特征向量為:
式中,i=1,2,…,m,m為保留的成分數目。
SVM的核心思想是將數據映射到高維空間來尋求最優(yōu)的分類超平面;由于小樣本學習的特點,在統計樣本量較少且特征維數較高的情況下,亦能獲得良好統計規(guī)律[14]。對于給定的訓練集{(x1,y1),…,(xn,yn)},xi∈RN,yi∈{-1,+1}以及對應的一個高維空間(希爾伯特空間)非線性的映射φ(.):RN→H,SVM主要求解的問題為:
式中,ξi為一定程度內允許的誤差;c為對誤差的容忍程度。
根據拉格朗日對偶算子,求解問題進一步轉化為:
式中,0<αi<c且∑iαiiy=0,i=1,…,n。
由于SVM中的映射φ(.)都是以內積形式實現的,因此有核函數的定義為:
將式(7)代入式(6)求解對偶問題,得到對于預測數據向量x的分類決策函數為:
此時,SVM的核函數K由代表不同映射的核函數組合而成,其中一些常用的核函數為:①線性核函 數K(xi,x)=
根據Mercer定理可以推論:若在Rn×Rn上的空間,K1、K2均為核函數,對應的核矩陣半正定,則式(9)、式(10)的函數也是核函數[5]。
對于高光譜遙感影像,令每個像元為xi,像素點的光譜信息值為xis,像素點的空間信息值為xiw,本文構造了兩種類型的SVM混合核函數。
1)權重累加混合核。
式中,μ為空間信息與光譜信息之間的權重系數,范圍為0~1,可根據高光譜遙感影像的相關先驗信息自行調整。
2)交叉信息混合核。
這是光譜信息與空間信息進行交叉內積時的一種交叉混合核。需要注意的是,在交叉信息混合核進行內積運算時,空間信息特征維數必須與光譜信息特征維數相同。
基于EMP與混合核SVM的高光譜遙感影像分類方法的主要步驟為:①利用基于相似性度量的波段選擇算法提取光譜數據的光譜信息;②利用基于PCA的形態(tài)學運算提取EMP,作為空間信息;③構造空間信息與光譜信息相結合的SVM混合核;④進行高光譜數據的混合核SVM分類,如圖1所示。
圖1 基于EMP和混合核SVM的高光譜遙感影像 分類基本流程圖
本文選取的分類精度評價指標為總體精度(OA)和Kappa系數。對于單核SVM,采用RBF函數;對于混合核SVM,空間信息的EMP采用RBF核函數,光譜信息采用多項式核函數。在累加權重混合核的參數設置中,懲罰參數c的范圍為[1,200],且步長為1;對應空間信息的RBF核函數參數γ1的范圍為[0.01,1],且增幅為0.01;對應光譜信息的RBF核函數參數γ2的范圍為[0.01,1],且步長為0.01;權重參數λ的范圍為[0.1,1],且步長為1,4個參數通過三重網格法交叉驗證搜索得到。
常州夏橋數據由國產推掃式光譜成像儀(PHI)生成,研究區(qū)域為江蘇省常州市夏橋及其附近區(qū)域;原始數據包括80個波段,刪除2個噪聲波段,剩余78個波段;影像大小為400×346,光譜范圍為0.417~0.854 μm,如圖2所示。影像中地物被分為道路、農田、碎石地、菜地、荒草地、水體6類,結合影像具體情況依次選取感興趣區(qū)作為訓練樣本,數據的類別信息如表1所示。
圖2 常州夏橋高光譜數據
表1 常州夏橋數據類別信息
實驗在PCA提取前4個主成分的基礎上,進行EMP提取;分別采用尺度為3×3和5×5的方形結構元素窗口對4個主成分進行對應的開運算與閉運算操作,每個主成分產生一個維數為5的EMP,最終的維度為20,如圖3所示。
圖3 EMP對夏橋影像運算的結果
本文分別利用單核SVM和混合核SVM組合不同的特征進行實驗。
對于單核SVM,首先對原始光譜信息(OSI)、累計方差達99.18%的PCA前4個主成分(PCs)、利用波段選擇得到的10維的最佳波段組合(SBs)和20維的EMPs等4種單一特征進行測試;再對EMPs+OSI、EMPs+PCs以及EMPs+SBs等3種組合特征進行測試。7種不同形式的分類結果如表2所示,可以看出,在利用單一特征進行分類的方法中,OSI的分類效果最差,OA為87.05%,Kappa系數為0.824;在利用組合特征進行分類的方法中,加入EMP作為空間信息后分類精度均得到了提高,EMPs+SBs的效果最好,OA為89.65%,Kappa系數為0.852;與EMPs+OSI相比,在數據降維后將光譜信息特征與EMP相結合能進一步提高分類精度。
對于混合核SVM,實驗分為兩種形式進行組合:累加權重和交叉信息。累加權重混合核組合了EMPs+ OSI、EMPs+PCs和EMPs+SBs等3種空間信息與光譜信息;由于交叉信息核中對應的數據維數必須相同,因此只選擇EMPs+PCs,滿足數據均為20維。 4種混合核的分類結果如表3所示,可以看出,混合核SVM的分類精度均高于單核SVM,其中EMPs+SBs的分類精度最高,OA達到了93.65%,Kappa系數為0.901。
表3 常州夏橋實驗混合核的分類結果
為了更直觀地比較分類的效果,OSI、單核EMPs+ SBs、混合核EMPs+PCs和EMPs+SBs的分類結果如圖4所示,分類結果圖與表2、3的統計結果一致,可以看出,4種分類圖的局部差異較明顯,對于碎石地和道路兩個混雜類別,OSI無法較好地區(qū)分兩種類別,尤其是圖4a中道路基本上被誤判為碎石地;單核SVM與交叉信息混合核SVM雖可改善該缺陷,但圖4b、4c 中仍存在許多幾何形態(tài)各異的離散點,且誤判區(qū)域較多;累加權重混合核SVM能獲取最好的分類精度 (圖4d),較好地反映真實的類別分布情況。
圖4 PHI數據混合核SVM與單核SVM分類結果對比圖
表2 常州夏橋實驗單核的分類結果
該實驗數據由HYDICE傳感器獲取生成,獲取時間為1995年10月,研究區(qū)域為美國德克薩斯州的Copperas Cove鎮(zhèn);原始影像包含210個波段,經噪聲去除,剩余187個波段;光譜分辨率為10 nm,空間分辨率為2 m,影像大小為307×307,如圖5所示。影像中的地物被分為瀝青道路、草地、樹木、屋頂、含陰影屋頂和混凝土6類,結合影像具體情況依次選取感興趣區(qū)作為訓練樣本,數據的類別信息如表4 所示。
表4 HYDICE數據類別信息
圖5 HYDICE高光譜數據
該實驗仍分別采用尺度為3×3、5×5的方形結構元素窗口對PCA的4個主成分進行相應的開運算與閉運算操作,產生維度為20的特征分量,如圖6所示。
圖6 EMP對HYDICE影像運算的結果
與常州夏橋數據類似,對于單核SVM,首先采用OSI、PCs、SBs以及EMPs等4種單一特征進行測試;再采用EMPs+OSI、EMPs+PCs和EMPs+SBs等3種組合特征進行測試。7種形式的分類結果如表5 所示,可以看出,在利用單一特征進行分類的方法中,EMPs的分類精度最低,OA僅為74.23%,Kappa系數為0.682;在利用組合特征進行分類的方法中,EMPs+SBs的分類精度最高,OA為91.35%,比PCs和EMPs分別提高了2.01%和17.12%,同時,Kappa系數達到了0.868。
表5 HYDICE實驗單核的分類結果
對于混合核SVM,累加權重混合核EMPs+OSI、EMPs+PCs、 EMPs+SBs以及交叉信息混合核EMPs+ PCs得到的4種分類結果如表6所示,可以看出,4種混合核的實驗精度均達到了預期效果,在同等實驗條件下,它們的分類精度均在91%以上,高于單核的分類精度;其中EMPs+SBs的分類精度最高,OA達到了92.69%,Kappa系數為0.881。
表6 HYDICE實驗混合核的分類結果
OSI、單核EMPs+SBs、交叉信息混合核EMPs+PCs和累加權重混合核EMPs+SBs的分類結果如圖7所示,可以看出,圖7a左邊局部區(qū)域出現了一些明顯的誤分現象,由于陰影的影響,屋頂、樹木以及含陰影屋頂混雜在一起;圖7b右下部分大面積的樹木和草地的覆蓋區(qū)域中,混雜有許多其他類別,存在明顯的誤判現象;圖7c、7d極大地改善了這種誤判,證明混合核SVM比單核SVM具有更好的分類結果。
圖7 HYDICE數據混合核SVM與單核SVM分類結果對比圖
本文提出了一種基于EMP與混合核SVM的高光譜遙感影像分類方法;并通過實驗對比了單核SVM以及混合核SVM不同組合形式下的分類結果。結果表明,本文提出的方法比傳統SVM分類模型具有更高的精度。本文方法的優(yōu)勢為:①利用EMP技術能將高光譜影像中的空間特征與光譜信息結合起來,有效提高分類精度;②構建了累加權重和交叉信息兩種SVM混合核,能進一步提升單核SVM的分類質量。對于一些混合情況較復雜的區(qū)域,該方法的效果顯著,適用性強。未來的工作將集中在探索一種更為自動合理的形態(tài)學結構元素與波段數選擇機制。