彭正林,毛先成,劉文毅,何美香
(中南大學地學與環(huán)境工程學院,長沙410083)
基于多分類器組合的遙感影像分類方法研究
彭正林,毛先成,劉文毅,何美香
(中南大學地學與環(huán)境工程學院,長沙410083)
針對遙感影像分類特點,提出了一種基于多分類器組合的遙感影像分類方法。該方法選取分類性能以及多樣性最好的馬氏距離、支持向量機(SVM)和最大似然等3種分類器作為子分類器,自定義規(guī)則對簡單投票法、最大概率類別法以及模糊積分法進行組合,并以山西懷仁縣為研究區(qū),對基于航攝數(shù)字正射影像進行分類。結果表明,與單個子分類器中精度最高的SVM分類相比,基于多分類器組合的遙感影像分類總體分類精度提高了12%,Kappa系數(shù)提高了0.12,該方法是一種有效的分類方法。
多分類器;遙感影像分類;土地利用類型;IDL
目前,常見的土地利用信息提取技術主要包括3種:基于像元提取技術、面向?qū)ο筇崛〖夹g以及多分類器組合分類技術。由于遙感圖像中“同物異譜”以及“同譜異物”現(xiàn)象的存在,傳統(tǒng)的基于像元的分類技術容易造成較多的錯分、漏分現(xiàn)象,從而導致分類精度較低。對于高分辨率的遙感圖像,盡管各種分類器分類性能有所差異,而且針對某一種類的分類精度不盡相同,但被不同分類器錯分的樣本并非重疊的[1],即對于某個分類器錯分的樣本,運用其他分類器有可能得到正確的分類結果。這表明,不同分類器之間存在著分類模式的互補[2]。如何對這些互補信息加以利用,多分類器組合分類思想就是在這種條件下被提出來的。
國內(nèi)外多數(shù)學者使用一種算法或者規(guī)則將多個分類器進行組合[3-8],提高了分類精度。常見的分類器組合算法有簡單投票法、最大概率類別法及模糊積分判別法等。簡單投票法基于群體的判斷優(yōu)于個體的判斷假設,簡單、準確且易操作,由于其判決條件比較苛刻,結果的可靠性較高,但會出現(xiàn)判決率降低,而且沒有考慮各分類器本身的特性;最大概率判別法受主觀因素影響較大,也會因?qū)<疫^多或過少無法分類;模糊積分判別法不僅反映了各個獨立分類器的重要程度,而且也反映了分類器之間的相互作用,同時其可視為一種復雜的神經(jīng)網(wǎng)絡,分類效果較好,但其計算量比前兩種組合算法大很多。為此,本文提出了一種基于多分類器組合的遙感影像分類方法,該方法選取分類性能以及多樣性最好的馬氏距離、支持向量機(SVM)和最大似然3種分類器作為子分類器,用自定義規(guī)則對簡單投票法、最大概率類別法以及模糊積分法進行組合;以山西懷仁縣為研究區(qū),基于航攝數(shù)字正射影像進行土地利用分類;對分類過程和結果進行了綜合分析,并與傳統(tǒng)分類方法進行比較。
多分類器組合方法有多種,常見的有3種分類標準,分別是根據(jù)單個分類器的輸出結果進行分類(抽象級、排序級和測量級3大類[9])、根據(jù)訓練樣本的選取進行分類(Bagging算法[10]和Boosting算法[11])以及根據(jù)分類器組合的形式進行分類(級聯(lián)方式、并聯(lián)方式、嵌入方式和混合方式)。
(1)簡單投票判決法[12-14]。簡單投票判決法屬于典型的抽象級分類器融合方法,其基本思想是當各子分類器輸出結果不完全一致時,可以通過投票的方式來決定類別的歸屬問題[9]。
(2)最大概率類別法[14]。最大概率類別法是將分類精度較高的某種子分類器作為“專家分類器”來對目標進行分類判別。所謂專家分類器就是指對遙感圖像中某種地物分類精度極高的一種分量分類器。在具體的實現(xiàn)過程中,可以將各個分量分類器對各個地物的分類精度組成一個類別精度矩陣,在進行目標分類提取時,通過該矩陣選取出專家分類器的分類作為判別最終輸出分類結果的標準。
(3)模糊積分融合法。一般而言,單個分類器可以視作一個單層的多輸入單輸出的神經(jīng)網(wǎng)絡,而模糊積分融合模型可以視作一個兩層的多輸入、多輸出的神經(jīng)網(wǎng)絡。根據(jù)最大值規(guī)則,未知事例對應的類標[15]可以表示為
式中,φ(xi)為未知事例對應的類標,i=1,2,…,n;K為對應類標的最大值。
模糊測度定義如下:設X為非空集合,F(xiàn)為由X的子集構成的σ-代數(shù);集函數(shù)g:F→(-∞,+∞)如果滿足g(?)=0,則稱g為定義在F上的廣義模糊測度,集函數(shù)g:F→(0,+∞)如果滿足g(?)=0,并且滿足E∈F,A∈F E?A,則g(E)≤g(A),稱g為定義在F上的模糊測度。
當X為有限集合時,通常取X的冪集作為模糊測度定義中的σ-代數(shù)F。
模糊測度有多種具有特殊構造的模糊測度類型,如可能性測度、必要性測度、信任度測度以及λ-模糊測度等。在此介紹融合中應用較多的λ-模糊測度[20]。
模糊測度g如果滿足:存在常數(shù)λ>-1,使得g(A∪B)=g(A)+g(B)+λg(A)g(B),其中A∈F,B∈F,A∩B=?,則稱g為λ-模糊測度。
設有限集合A={x1,x2,…,xn},單點集上的模糊測度值為gi=g({xi}),則gλ(A1)=g({x1})=g1,gλ(Ai)=gi+gλ(Ai-1)+λgigλ(Ai-1),其中λ>-1且λ≠0,可以按照式(7)、(8)確定,即
在模糊積分中,最常見同時也是最典型的一種積分方法為Choquet模糊積分法[16-18]。
設f為定義在X上的實值函數(shù),F(xiàn)為由X的子集構成的σ-代數(shù)(X有限時,F(xiàn)為X的冥集),g為定義在F上的廣義模糊測度,則函數(shù)f在集合X上關于模糊測度g的Choquet模糊積分定義為
式中,F(xiàn)α={x|f(x)≥α,x∈X},α∈[0,∞],表示黎曼積分。
當X是有限集合時,將f(x1),f(x2),…,f(xn)進行重新排列,并使其滿足,其中是X的一個按列排列,則基于普通模糊測度的Choquet模糊積分的計算公式可簡化為
根據(jù)式(10)可以得出,計算Choquet模糊積分的關鍵是求出模糊測度。如果模糊測度選擇得當,該方法的分類精度較單個子分類器的分類精度有明顯提高,反之,則降低。本文根據(jù)實際情況,總結前人的寶貴經(jīng)驗,提出了一種基于模糊一致矩陣的主客觀相結合的模糊測度確定方法。
1.3.1 基于模糊一致矩陣[19]的模糊測度確定方法
設組合分類器共有n個子分類器xi(i=1,2,…,n),則基于模糊一致矩陣的模糊測度值可以按照以下步驟得出:
(1)對n個子分類器的分類性能進行比較評價,給出兩兩間的優(yōu)劣關系,進而建立起模糊優(yōu)先關系矩陣B=(bij)n×n,其中bij稱為分類器xi對分類器xj的優(yōu)先關系系數(shù),其值為
(2)根據(jù)步驟(1)得出的模糊優(yōu)先關系矩陣B,將其轉(zhuǎn)換成模糊一致矩陣R,即
(3)計算出各子分類器xi的模糊測度值si,即
1.3.2 主客觀相結合的λ-模糊測度確定方法
上面所講述的基于模糊一致矩陣的模糊測度確定方法是以對各子分類器性能評價為判斷基礎的,帶有人為主觀因素。為了減少人為主觀因素帶來的影響,這里提出了一種基于主客觀相結合的模糊測度方法。其中,將基于模糊一致矩陣的模糊測度值si稱為主觀模糊測度值?;谥骺陀^相結合的模糊測度確定方法包括以下4步:
(1)首先,計算各子分類器的主觀模糊測度值si(i=1,2,…,n);
(2)以各子分類器的整體判別精度作為各子分類器的客觀模糊測度值ti(i=1,2,…,n);
(3)取各子分類器的主客觀模糊測度的平均值作為綜合模糊測度值,表示為
(4)以各子分類器的綜合模糊測度值gi(i=1,2,…,n)為基礎,計算多分類器組合模糊積分融合分類的模糊測度值gλ(Ai),即先由式(7)確定λ的值,再利用式(8)求得模糊測度值。
組合子分類器的選擇標準不一,可以任意選取,也可以根據(jù)分類器的整體分類精度來選取。多分類器組合分類能夠提高分類精度是因為各子分類器間分類信息的互補。對于多分類器組合系統(tǒng),其各成員子分類器的分類精度、效率要高,且分類結果應該具有多樣性[21]。
成員分類器不是越多越好。分類器過多,會增加運算的復雜度,而且很難保證所有的分類器都滿足上面所講的子分類器的選取條件。
研究區(qū)懷仁縣隸屬于山西省,地處112°45'~113°56'E,39°36'~39°57'N之間。區(qū)內(nèi)平原占70%,山地占24%,丘陵山坡占6%;地形東西高、南部低,似一槽形;屬北溫帶大陸性季風氣候,四季分明。土地利用類型以水澆地、林地及旱地為主。
采用全國第二次土地調(diào)查山西省懷仁縣76幅彩紅外數(shù)字正射影像圖(DOM)中的J49G003084作為數(shù)據(jù)源。該圖像于2007年9月航空拍攝,TIFF格式;影像色彩為彩紅外,平面坐標系為1980西安坐標系,投影方式為高斯-克呂格投影;比例尺為1∶10 000,中央子午線114°,采用3°帶分帶。圖像包含3個波段(R,G,B),分辨率為1 m。為了能夠取得更好的分類效果,有必要在分類前進行一些圖像處理:圖像裁剪,如圖1(左);大氣校正-對數(shù)殘差處理;獨立成分分析;最小噪聲分離;紋理濾波提取紋理特征,與分類圖像疊加,如圖1(右)。
圖1 研究區(qū)航空彩紅外數(shù)字正射影像(左)及其前期處理結果(右)Fig.1DOM(left)and pre-processing result(right)of the study area color infrared aerial image
以檢驗分類技術和方法對比為目的,參照全國第二次土地調(diào)查中土地利用的分類方式,針對實驗區(qū)的特點,確定該區(qū)土地利用類別為7類,即水澆地、旱地、林地、其他草地、水域(顏色較深的水域)、建設用地及水域2(顏色較淺的水域或灘地)。
為了保證監(jiān)督分類結果的精度,選取感興趣區(qū)域(Region Of Interest,ROI)訓練樣本有兩個標準:一是訓練樣本的數(shù)量要足夠多,一般情況下,每類至少要有10~100個訓練樣本數(shù)據(jù);二是訓練樣本應具有代表性,避免集中在某個局部位置上。
本文所用的遙感圖像分辨率高,且含有混合像元,因此所選取的訓練樣本排除類型一致但光譜值異常的像元,同時,相同的地物類別,但像元中含有幾種地物類型,即混合像元,也應該成為排除的對象。通過ROI樣本訓練區(qū)純化方案[22]進行反復訓練,得到比較滿意的訓練樣本。
圖像數(shù)據(jù)經(jīng)過前期預處理,選取ROI樣本進行子分類器的訓練,然后利用子分類器單獨進行影像分類。采用的子分類器方法主要有兩大類,非監(jiān)督分類與監(jiān)督分類。通過比較所有訓練后的子分類器的整體分類精度和Kappa系數(shù),參照1.4節(jié)組合子分類器選擇的原則,在確保分類精度和分類結果多樣性平衡的前提下,選取分類性能以及多樣性相對較好的3種分類器進行多分類器融合分類。分類借助于ENVI 4.5遙感圖像處理軟件及IDL等工具,研究重點在于多分類器組合中各子分類器的選取、多分類器算法的選擇以及組合規(guī)則的制定。經(jīng)過多次試驗求證,確定組合多分類器的各子分類器為馬氏距離分類法、最大似然分類法和SVM分類法,以及采用簡單投票法、最大概率法和模糊積分融合法,并通過制定相應的分類規(guī)則對實驗區(qū)遙感影像進行分類處理。具體分類流程如圖2所示。
圖2 基于多分類器組合的遙感影像分類技術流程Fig.2Technical process of remote sensing classification based on multiple classifiers combination
多分類器組合的分類過程不僅是各子分類器組合的過程,更是各種多分類器組合算法組合的過程。由于本文多分類器組合分類重點是在分類器的組合上,所以各子分類器的分類結果由相同的樣本通過ENVI軟件得到。以下為基于IDL的多分類器組合實現(xiàn)遙感圖像分類的過程。多分類器組合分類界面如圖3所示。
圖3 多分類器組合分類界面Fig.3Software interface of multiple classifiers combination classification
(1)讀取各子分類器分類結果。在進行多分類器組合分類前,需要先解析分類結果頭文件,再讀取各子分類器分類結果文件。
(2)簡單投票法進行分類。本文簡單投票法具體規(guī)則是當3種子分類器對某個像元值都做出了一致的判別結果時,方可將該結果作為分類結果輸出并存儲起來。3種子分類器的判別結果可以當作一個像元值矩陣,因此對3種子分類器進行同一位置像元值的比較,就可以轉(zhuǎn)換為比較3種子分類器的分類結果矩陣,即對矩陣進行同一位置的求交運算。通過簡單投票法,共有3 779 205個像元值輸出。
(3)最大概率法分類。首先利用矩陣求差查找通過簡單投票法后未分類的像元。最大概率法分類首先要得到3種子分類器的混淆矩陣(對其進行“歸一化”處理),然后通過比較3種子分類器對7種類別的分類精度(混淆矩陣對角線上的值)來選取專家(專家即是這3種子分類器中對某種類別分類精度最高,本文設定85%的子分類器)。如果某種子分類器的其中一種類型符合專家條件,那么就把它作為專家,并認為它所判別的類別是正確的,可以直接輸出結果。反之,則不分類。
通過實驗,本文共產(chǎn)生4個專家:水澆地的分類專家是最大似然分類(分類精度為0.86);旱地的分類專家是SVM(分類精度為0.85);林地的分類專家是最大似然分類(分類精度為0.89);水域2的分類專家是馬氏分類(分類精度為0.89)。這里需要注意的是,如果某一個像元值出現(xiàn)有兩個或兩個以上的判別專家,那么根據(jù)專家所對應的子分類器的信任度,選取信任度最高的子分類器所對應的專家分類。這里,信任度從高到低的分類專家依次為:SVM、最大似然分類及馬氏分類。通過最大概率法,共有527 383個像元值輸出,同時將輸出的分類結果保存起來。
(4)模糊積分法分類。利用矩陣求差得到未分類的像元。模糊積分法分類的關鍵是計算模糊測度值。需要說明的是,這里的模糊測度值是通過構造矩陣來計算的。由于本文是3種子分類器以及7種分類類別,因此構造的矩陣為3行7列,對位置相同的某一個像元,第一、二、三行分別設定為馬氏分類、最大概率分類、SVM分類中將該像元判別為某種類別所對應的模糊矩陣的向量值。通過這個矩陣求出模糊測度值,進而計算模糊積分值,根據(jù)最大值原則,將剩余像元值進行分類。通過模糊積分法,共有535 975個像元值輸出,同時將輸出的結果保存起來。
(5)分類結果保存。簡單投票法分出的像元數(shù)(為3 779 205)、最大概率法分出的像元數(shù)(為527 383)以及模糊積分法分出的像元數(shù)(為535 975)的總和為4 842 563,與實驗影像的像元數(shù)(2 281×2 123=4 842 563)相吻合。說明實驗影像中所有的像元都得到了分類。最后,將包含3種組合分類結果的數(shù)組矩陣保存為ENVI的分類格式,得到的結果就是通過多分類器融合后的分類結果圖。
但由多分類器組合分類法得到的分類圖像仍存在許多不足,比如分類圖像中存在很多噪聲,因此,在多分類組合分類完成后,要對分類圖像進行分類后處理,以達到更好的分類效果:利用類別篩選法消除圖像中的“孤島”;利用類別集群處理增加分類圖像的空間連續(xù)性,同時消除分類中的噪聲;通過分析,將小圖斑合并到周圍的地物中。最后,將得到的結果轉(zhuǎn)成矢量格式輸出。
各子分類器分類結果和多分類器組合分類結果如圖4所示。
圖4 3種常用監(jiān)督分類法分類結果和多分類器組合分類結果Fig.4The classification results of three common supervised classification and multiple classifiers combination classification
結合第二次土地調(diào)查外業(yè)成果,通過ENVI軟件的隨機采樣工具,對各分類分別選取200個測試樣本,并將多分類器組合分類圖像導入到ENVI中,對各分類器分類結果進行精度評價。生成一個包含分類總體精度、Kappa系數(shù)、混淆矩陣(表1)以及各種類別精度的報告文本文件。
表1 多分類器組合分類混淆矩陣Tab.1Confusion matrix of multiple classifiers combination classification(%)
采用多分類器組合分類以及各傳統(tǒng)分類法得到的每一種類別的精度如表2所示。
表2 各分類法分類精度以及整體精度比較Tab.2Classification accuracy and overall accuracy comparison of different methods
從表2可以看出,應用非監(jiān)督分類方法分類精度普遍較低,而監(jiān)督分類除了平行六面體、SAM及二進制編碼3種分類的分類效果較差外,其余5種分類方法對大部分地物的分類精度都能夠達到60%以上,部分甚至能夠達到80%以上。說明這5種分類器的分類效果相對其他幾種分類器來說較好。其中馬氏距離分類、最大似然分類和SVM分類的分類性能最好,這是選取這3種分類方法作為子分類器的理由之一。
將多分類器組合得出的結果與3種子分類器分類結果進行比較,并繪制出類別精度(圖5)。
圖5 4種分類器比較結果Fig.5Comparison of four different classifications
從表2、圖5可以看出,通過多分類器組合分類得到的總體分類精度(93.53%)遠大于各子分類器的總體分類精度(最大的是SVM的81%)。從各種分類類別來講,通過圖5可以看出,多分類器組合分類所得的各種類別的精度相比3種子分類器都得到了明顯的提高。而且通過研究各子分類器之間分類信息的相關性以及互補性,多分類器組合分類方法有效地提高了分類精度,極大地減少了各種類別的誤分、錯分現(xiàn)象。
(1)采用混合分類器組合方式,利用多種組合算法,綜合各個子分類器的優(yōu)點,同時對各子分類器的分類互補,有效地提高了分類精度。
(2)與傳統(tǒng)分類方法比較,多分類器分類方法具有更好的擴展性,可以通過設計更好的組合算法來提高分類性能。
(3)對組合子分類器、多分類器組合算法的選擇以及分類規(guī)則的制定,還需進一步優(yōu)化,但從多分類器組合分類得到的結果可以看出,這種方法是一種提高分類精度行之有效的方法,也是遙感信息提取的一種有效途徑。
[1]馬文駟.多分類器融合模式識別方法研究[D].西安:西安電子科技大學,2002.
[2]韓宏.多分類器組合及其在手寫數(shù)學識別中的應用[D].南京:南京理工大學,2000.
[3]Giorgio Giacinto,F(xiàn)abio Roli.Automatic Design of Multiple Classifier Systems by Unsupervised Learning[J].Machine Learning and Data Mining in Pattern Recognition,1999,1715:131-143.
[4]Farhad Samadzadegan,Behnaz Bigdeli,Pouria Ramzi.A Multiple Classifier System for Classification of LiDAR Remote Sensing Data Using Multi-class SVM[J].Multiple Classifier Systems,2010,5997:254-263.
[5]李明詩,彭世揆,周林,等.基于ASTER數(shù)據(jù)的決策樹自動構建及分類研究[J].國土資源遙感,2006(3):33-36.
[6]張秀英,馮學智,劉偉.基于多分類器結合的IKONOS影像城市植被類型識別[J].東南大學學報(自然科學版),2007,37(3):399-403.
[7]韓建峰,楊哲海.組合分類器及其在高光譜影像分類中的應用[J].測繪科學技術學報,2007,24(3):231-234.
[8]袁林山,杜培軍,張華鵬,等.基于決策樹的CBERS遙感影像分類及分析評價[J].國土資源遙感,2008(2):92-98.
[9]Xu L,Krzyzak A,Suen C Y.Methods of Combining Multiple Classifiers and the Applications to Handwriting Recognition[J].IEEE Transactions on Systems Man and Cybernetics,1992,22(3):418-435.
[10]BreimanL.Bagging Predictors[J].Machine Learning,1996,24(2):123-140.
[11]FreundY.Boosting a Weak Learning Algorithm by Majority[J].Information and Computation,1995,121(2):256-285.
[12]呂岳,施鵬飛,趙宇明.多分類器組合的投票表決規(guī)則[J].上海交通大學學報,2000,34(5):680-683.
[13]周夷,景奉廣.多分類器組合的遙感圖像分類的方法[J].城市勘測,2008(2):56-59.
[14]陳忠.高分辨率遙感圖像分類技術研究[D].北京:中國科學院研究生院,2006.
[15]潘泉,于昕,程詠梅,等.信息融合理論的基本方法與進展[J].自動化學報,2003,29(4):599-615.
[16]傅玥.基于模糊積分融合的網(wǎng)絡入侵檢測模型的研究[J].福建電腦,2008(8):106-107.
[17]孔志周,蔡自興.分類器融合中模糊積分理論研究進展[J].小型微型計算機系統(tǒng),2008,29(6):1093-1098.
[18]李戈.一種新的信息融合模式及應用[D].天津:天津大學,2007.
[19]姚敏,張森.模糊一致矩陣及其在決策分析中的應用[J].系統(tǒng)工程理論與實踐,1998(5):78-81.
[20]Chiang J.Aggregating Membership Values by a Choquet-Fuzzy-Integral Based Operator[J].Fuzzy Sets Syst,2000,114(5):367-375.
[21]韓宏,楊靜宇.多分類器組合及其應用[J].計算機科學,2000,27(1):58-61.
[22]吳健平.遙感數(shù)據(jù)監(jiān)督分類中訓練樣本的純化[J].國土資源遙感,1996(1):36-41.
Method for Classification of Remote Sensing Images Based on Multiple Classifiers Combination
PENG Zheng-lin,MAO Xian-cheng,LIU Wen-yi,HE Mei-xiang
(School of Geoscience and Environment Engineering,Central South University,Changsha 410083,China)
In consideration of the features of remote sensing image,this paper presents a new method for classification of remote sensing images based on multiple classifiers combination.In this method,three supervised classifications,Mahalanobis Distance,Maximum Likelihood and SVM,which are of more precision and better diversity in classification,are selected to serve as the sub-classifications,and the simple vote classification,maximum probability category method and fussy integral method are combined together according to certain rules.The authors adopted Huairen county in Shanxi as the study area for land use classification using color infrared aerial images.Experimental result showed that the overall classification accuracy was improved by 12%and Kappa coefficient was increased by 0.12 in comparison with SVM classification which has the highest accuracy in single sub-classifications.This result indicates that the classification of multiple classifiers combination is an effective classification method.
Multiple classifiers;Remote sensing classification;Land use;IDL
TP 75
A
1001-070X(2011)02-0019-07
彭正林(1985-),男,中南大學地學與環(huán)境工程學院碩士研究生,主要從事遙感與地理信息系統(tǒng)研究。
毛先成(1963-),男,中南大學地學與環(huán)境工程學院教授,博士生導師,從事隱伏礦床預測、地學信息技術研究。電話:0731-88877571;E-mail:xcmao@126.com。
(責任編輯:刁淑娟)
2010-08-01;
2010-09-08
國家“十一五”科技支撐計劃課題(編號:2006BAB01A12)資助成果。