劉 穎,毛云舸,黃 娜,趙成麗,李 慧
(吉林財(cái)經(jīng)大學(xué) 管理科學(xué)與信息工程學(xué)院,長春 130117)
遙感技術(shù)可有效反映地球表面地物的綜合信息,但由于地物種類繁多且相關(guān)地物間存在一定的重疊性和模糊性,從而導(dǎo)致遙感影像混合像元難以達(dá)到像元級遙感分類和面積測量精度的實(shí)用要求[1].因此,人們提出了神經(jīng)網(wǎng)絡(luò)模型[2-3]、隨機(jī)混合模型[4]、非線性逐步回歸模型[5]和優(yōu)化的搜索模型[6]等方法提高像元的分類精度.目前,支持向量機(jī)(support vector machines,SVM)分類方法是機(jī)器學(xué)習(xí)與模式識(shí)別領(lǐng)域的研究熱點(diǎn)[7-8].SVM既能克服神經(jīng)網(wǎng)絡(luò)方法無法避免的局部極值不足,同時(shí)也解決了統(tǒng)計(jì)方法要求特征向量服從正態(tài)分布的問題,適合解決復(fù)雜的小樣本、高/多維數(shù)據(jù)分類[9-11].但該方法受準(zhǔn)確訓(xùn)練樣本的制約,如果樣本中存在混合像元,則分類器的精度會(huì)受到影響.
為了提高SVM的分類精度,目前主要采用K-means和FCMclust模糊聚類算法對樣本進(jìn)行篩選.傳統(tǒng)K-means聚類算法具有實(shí)現(xiàn)簡單、收斂速度快等優(yōu)點(diǎn)[12],但K-means聚類算法是一種非此即彼的硬分類方法,它嚴(yán)格地把待識(shí)別對象劃分到各類別中,因此很難解決混合像元?jiǎng)澐謫栴}.相對于K-means的硬分割方法,F(xiàn)CMclust算法保留了初始圖像的更多信息,但較少考慮圖像上下文空間信息,對人造圖像和其他噪聲非常敏感.此外,該方法采用平方誤差和準(zhǔn)則,更適合發(fā)現(xiàn)類似球形和球形分布的類別,而多光譜遙感圖像的散點(diǎn)圖多趨于橢球體分布[13].因此,研究者們提出了修改FCMclust算法的準(zhǔn)則函數(shù),實(shí)現(xiàn)了對不同形狀分布樣本的聚類[14-15],如更適合橢球形分布樣本聚類的Gustafson-Kessel(GKclust)算法.
本文利用GKclust模糊聚類的SVM對遙感影像進(jìn)行像元分類(簡稱GSVM),利用模糊隸屬度函數(shù)將離聚類中心較近的點(diǎn)作為訓(xùn)練樣本,進(jìn)一步提高SVM在混合像元非線性分解中的分類精度,實(shí)驗(yàn)結(jié)果表明,與標(biāo)準(zhǔn)SVM混合像元分類結(jié)果相比,其分類性能更優(yōu).
支持向量機(jī)的核心思想是以結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理為原則,通過非線性映射把待分類樣本投影到高維特征空間,并在高維特征空間中構(gòu)造VC維(vapnik-chervonenkis dimension),以盡可能低的最優(yōu)分類超平面作為分類面,使分類風(fēng)險(xiǎn)上界最小化,從而使分類算法性能更優(yōu)[7],其原理如圖1所示.
圖1 SVM理論描述Fig.1 Theory description of SVM
假設(shè)給定訓(xùn)練樣本集{(xi,yi),i=1,2,…,n}由兩類組成,其中:xi∈Rn為N維向量;yi∈{+1,-1}.考慮
其中:c是懲罰系數(shù),用于控制對錯(cuò)誤判別樣本的懲罰程度,其取值與錯(cuò)誤分類樣本懲罰程度成正比;松弛變量ξi>0(i=1,2,…,n),解決樣本集線性不可分;Lagrange乘子滿足c≥ai≥0(i=1,2,…,n),ai非零所對應(yīng)的數(shù)據(jù)樣本為支持向量.SVM首先解決式(1)的優(yōu)化問題,進(jìn)而獲得理想的分類超平面決策函數(shù)f(x)=(w·x)+b,其中w和b分別為權(quán)向量和偏移量.
在非線性情況下,分類超平面為ω·φ(x)+b=0,求最優(yōu)分類超平面,即
GKclust算法可有效地搜索線型、超橢球或平面的數(shù)據(jù)類,是距離自適應(yīng)動(dòng)態(tài)聚類算法(adaptive distance dynamic clustering algorithm)的模糊推廣[16].在GKclust算法中,n維數(shù)據(jù)空間中點(diǎn)xk到聚類中心vi的距離是一個(gè)平方內(nèi)積距離范數(shù)
其中Mi=det(Fi)1/nF-1i,F(xiàn)i是第i個(gè)聚類中心的協(xié)方差矩陣,為正定對稱矩陣.將數(shù)據(jù)集{x1,x2…,xN}劃分為c個(gè)模糊類是通過最小化目標(biāo)函數(shù)
uik即為模糊隸屬度函數(shù),且滿足
完成的,其中U=(uik)是數(shù)據(jù)集的模糊劃分矩陣.Lagrange乘子λk可將目標(biāo)函數(shù)轉(zhuǎn)化為新的目標(biāo)函數(shù)
SVM分類模型的構(gòu)建過程中,充足且準(zhǔn)確的訓(xùn)練樣本是影響模型分類性能的主要因素.訓(xùn)練樣本二次篩選過程中,采用GKclust模糊聚類算法對訓(xùn)練樣本聚類能產(chǎn)生相應(yīng)的模糊隸屬度函數(shù),利用該函數(shù)的取值將距離樣本最近的有效訓(xùn)練樣本作為標(biāo)注對象,以控制錯(cuò)誤信息的輸入.
有效性分析是指評價(jià)聚類結(jié)果優(yōu)劣的過程.通常類間距離最大化而類內(nèi)距離極小化的聚類被認(rèn)為是最優(yōu)聚類.本文選取劃分系數(shù)PC[17]、分類熵CE[17]和指標(biāo)XB[18]3個(gè)參數(shù)判別不同算法的聚類性能.設(shè)c表示聚類個(gè)數(shù);N表示數(shù)據(jù)個(gè)數(shù);vi表示第i個(gè)聚類的中心點(diǎn);ci表示第i個(gè)聚類;uij表示點(diǎn)xi屬于cj的隸屬度.
劃分系數(shù)PC用于判別分類簇間的分離程度,相同分類簇?cái)?shù)目情況下,PC取值越接近1,分類效果越好,但該指標(biāo)隨c的增加單調(diào)下降.其定義如下:
為了評價(jià)算法的有效性,本文用實(shí)例進(jìn)行驗(yàn)證.先對研究區(qū)遙感影像進(jìn)行數(shù)字化處理,構(gòu)造遙感影像數(shù)字集合,再分別對數(shù)字集合和影像集合進(jìn)行分類實(shí)驗(yàn).
實(shí)驗(yàn)1 將GKclust聚類算法與其他相關(guān)算法(FCMclust算法和K-means算法)在聚類有效指數(shù)、聚類精度方面進(jìn)行比較.
實(shí)驗(yàn)2 將基于GKclust模糊聚類SVM分類模型應(yīng)用于研究區(qū)TM遙感影像的分類實(shí)驗(yàn),并與傳統(tǒng)SVM分類算法進(jìn)行對比.
本文研究區(qū)域地理位置位于 N41°06′~44°05′,E127°39′~131°44′范圍內(nèi),覆蓋中國吉林、朝鮮咸鏡北道及俄羅斯濱海邊疆區(qū).選取行列號(hào)115-30多光譜Landsat-5TM遙感影像(2009年9月30日獲?。┳鳛閷?shí)驗(yàn)對象,該影像空間分辨率30m,UTM投影.研究區(qū)域?qū)贉貛Т箨懶约撅L(fēng)氣候,夏季以東南風(fēng)為主,冬季以西北風(fēng)為主,植被覆蓋面積大,類型豐富,森林植被以落葉針葉林、常綠針葉林和落葉闊葉林為主.
以植被的空間分布規(guī)律和光譜特征為分類基礎(chǔ),選取8個(gè)屬性特征,包括植被指數(shù)(NDVI)、K-T變換的第一主分量、TM圖像的6個(gè)波段(1~5,7)信息,其中熱紅外波段TM6由于包含植被分類信息較少而被排除.數(shù)字集采用隨機(jī)像素選擇原則,以確保每個(gè)類別數(shù)據(jù)的代表性和變化性.將待分影像數(shù)字集分成兩個(gè)子集,分別用于訓(xùn)練和測試.分類類別及數(shù)量列于表1.
表1 類別及樣本數(shù)量Table 1 Numbers of classes and samples
將K-means,F(xiàn)CMclust,GKclust 3種算法的聚類精度和有效性指數(shù)進(jìn)行對比.圖2(A)~(D)分別表示901個(gè)訓(xùn)練樣本點(diǎn)的分布情況及3種模糊聚類算法的聚類結(jié)果.利用等高線圖描述二維空間數(shù)據(jù)分布以達(dá)到更好的可視化效果,其中“o”表示錯(cuò)分樣本點(diǎn),類簇聚類中心用“*”標(biāo)識(shí),3個(gè)疊加的橢圓形集群分別表示3個(gè)地物類別.由圖2可見,GKclust算法相比于FCMclust算法橢球形較長,錯(cuò)分類別的點(diǎn)集少于FCMclust和K-means方法.
圖2 3種方法的聚類結(jié)果Fig.2 Results of three clustering methods
為了更好的比較聚類效果,表2列出了不同聚類算法產(chǎn)生的聚類精度(accuracy,ACC)及有效指數(shù).由表2可見,對比3個(gè)聚類指數(shù),GKclust算法產(chǎn)生的結(jié)果最好,對于硬聚類算法K-means,PC和CE值是無效的.由聚類精度可見,GKclust算法產(chǎn)生的聚類精度比K-means算法高5.43%,比FCMclust算法高2.54%.因此,本文選GKclust模糊聚類算法對訓(xùn)練樣本進(jìn)行優(yōu)選以刪除部分混合像元.
表2 聚類有效性指數(shù)Table 2 Numerical values of validity measures
通過對比實(shí)驗(yàn)可知,GKclust算法聚類性能較優(yōu),因此,本文實(shí)驗(yàn)利用GKclust對901個(gè)訓(xùn)練樣本進(jìn)行聚類,二次篩選出訓(xùn)練樣本集,然后對949個(gè)測試樣本進(jìn)行測試,以SVM算法的徑向基核函數(shù)為實(shí)驗(yàn)核函數(shù),懲罰參數(shù)c和Gauss函數(shù)參數(shù)g通過Libsvm軟件訓(xùn)練樣本數(shù)據(jù)取值,確定為1.8和0.06.并將分類結(jié)果與傳統(tǒng)SVM方法在Kappa系數(shù)、分類精度及混淆矩陣情況進(jìn)行比較.GSVM算法分類精度與傳統(tǒng)SVM 算法相比,由87.46%提高到90.94%,Kappa系數(shù)由0.808 8提高到0.861 9.由混淆矩陣也可見分類性能有所提高.最后,針對1 850個(gè)樣本,利用GSVM算法和SVM算法對遙感圖像進(jìn)行分類,分類結(jié)果如圖3所示.由圖3可見,GSVM算法能有效提高影像的分類性能,較好地解決了針葉林和闊葉林混合像素的分類.
圖3 GSVM和SVM對TM影像的分類結(jié)果Fig.3 Classification results by GSVM and SVM
綜上所述,混合像元是遙感影像中普遍存在的現(xiàn)象,因此本文提出了一種基于模糊聚類SVM的混合像元分類方法,利用GKclust模糊聚類算法對訓(xùn)練樣本產(chǎn)生的模糊隸屬度函數(shù)對訓(xùn)練樣本預(yù)先篩選,避免混合像元存在導(dǎo)致的分類精度低問題.該方法不僅具有非線性模型分解精度高的特點(diǎn),還能有效提高標(biāo)準(zhǔn)支持向量機(jī)的分類性能,具有較強(qiáng)的適應(yīng)性.
[1]Andrefouet S,Roux L,Chancerelle Y,et al.A Fuzzy-Possibilistic Scheme of Study for Objects with Indeterminate Boundaries:Application to French Polynesian Reefscapes[J].IEEE Transaction on Geoscience and Remote Sensing,2000,38(1):257-270.
[2]張彥,邵美珍.基于徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)的混合像元分解 [J].遙感學(xué)報(bào),2002,6(4):285-289.(ZHANG Yan,SHAO Meizhen.Mixed Image Cell Decomposition Based on Radial-Basis Function Neural Networks[J].Journal of Remote Sensing,2002,6(4):285-289.)
[3]LIU Weiguo,Seto K C,Wu E Y,et al.ART-MMAP:A Neural Network Approach to Subpixel Classification[J].IEEE Transactions on Geoscience and Remote Sensing,2004,42(9):1976-1983.
[4]Chang C I,Chiang S S,Smith J A.Linear Spectral Random Mixture Analysis for Hyperspectral Imagery[J].IEEE Transactions on Geosciences and Remote Sensing,2002,40(2):375-392.
[5]Huang C,Townshend J R G.A Stepwise Regression Tree for Nonlinear Approximation:Applications to Estimating Subpixel Land Cover[J].International Journal of Remote Sensing,2003,24(1):75-90.
[6]唐世浩,朱啟疆,閆廣建,等.遺傳算法及其在遙感線性、非線性模型反演中的應(yīng)用效果分析 [J].北京師范大學(xué)學(xué)報(bào):自然科學(xué)版,2002,38(2):266-272.(TANG Shihao,ZHU Qijiang,YAN Guangjian,et al.Effects of GA on the Inversion of Linear and Nonliner Remote Sensing Models[J].Journal of Beijing Normal University:Natural Science,2002,38(2):266-272.)
[7]Vapnik V N.Statistical Learning Theory[M].New York:Wiley,1998.
[8]Foody G M,Mathur A.A Relative Evaluation of Multiclass Image Classification by Support Vector Machines[J].IEEE Transactions on Geoscience and Remote Sensing,2004,42(6):1335-1343.
[9]ZHANG Rui,MA Jianwen.Feature Selection for Hyperspectral Data Based on Recursive Support Vector Machines[J].International Journal of Remote Sensing,2009,30(14):3669-3677.
[10]WANG Liguo,JIA Xiuping.Integration of Soft and Hard Classifications Using Extended Support Vector Machines[J].IEEE Geoscience and Remote Sensing Letters,2009,6(3):543-547.
[11]劉穎,張柏,王愛蓮,等.一種基于半監(jiān)督集成SVM的土地覆蓋分類模型 [J].計(jì)算機(jī)科學(xué),2013,40(7):206-210.(LIU Ying,ZHANG Bai,WANG Ailian,et al.Ensemble Model with Semisupervised SVM for Remote Sensing Land Cover Classification[J].Computer Science,2013,40(7):206-210.)
[12]ZHONG Yanfei,ZHANG Liangpei,HUANG Bo,et al.An Unsupervised Artificial Immune Classifier for Multihyperspectral Remote Sensing Imagery[J].IEEE Transactions on Geoscience and Remote Sensing,2006,44(2):420-431.
[13]Sweet J N.The Spectral Similarity Scale and Its Application to the Classification of Hyperspectral Remote Sensing Data[C]//IEEE Workshop on Advances in Techniques for Analysis of Remotely Sensed Data.Piscataway:IEEE Press,2003:92-99.
[14]黃金杰,李士勇,蔡云澤.一種建立粗糙數(shù)據(jù)模型的監(jiān)督模糊聚類方法 [J].軟件學(xué)報(bào),2005,16(5):744-753.(HUANG Jinjie,LI Shiyong,CAI Yunze.An Approach to Building Rough Data Model through Supervised Fuzzy Clustering[J].Journal of Software,2005,16(5):744-753.)
[15]LIU Ying,ZHANG Bai,WANG Limin,et al.A Self-trained Semisupervised SVM Approach to the Remote Sensing Land Cover Classification[J].Computer and Geosciences,2013,59:98-107.
[16]H?pper F,Klawonn F,Kruse R,et al.Fuzzy Cluster Analysis[M].Chichester:John Wiley &Sons Ltd,1999.
[17]Bezdek J C.Pattern Recognition with Fuzzy Objective Function Algorithms[M].New York:Plenum,1981.
[18]Xie X L,Beni G.A Validity Measure for Fuzzy Clustering[J].IEEE Transactions Pattern Analysis and Machine Intelligence,1991,13(8):841-847.