基于視覺詞袋模型的遙感圖像分類方法
周宇谷,王平,高穎慧
(國防科學技術(shù)大學自動目標識別重點實驗室,長沙410073)
研究了基于視覺詞袋模型的單幅全色遙感圖像的分類方法。首先提取圖像邊緣特征與圖像區(qū)域,以旋轉(zhuǎn)不變紋理基元作為視覺詞匯,再采用面向?qū)ο蠓椒ㄟM行分類。仿真結(jié)果表明:該方法具有較高的分類精度,且具有用時成本較低和適應性強的優(yōu)點。
遙感圖像;分類;視覺詞袋模型;面向?qū)ο?/p>
遙感圖像分類技術(shù)作為遙感圖像的分析解譯手段,一直是相關(guān)領(lǐng)域研究的熱點。目前國內(nèi)外的研究主要集中在遙感圖像高光譜信息運用[1-2]和學習監(jiān)督型分類器的改進設計[3]方面。但是特征維數(shù)過高造成的“維數(shù)爆炸”和“無盡等待”已成為研究的瓶頸,而依賴基于像素的多光譜信息也使得“同譜異物”問題在所難免[4]。此外,分類器學習過程對觀測區(qū)域大量先驗知識的需求也導致分類算法對陌生地域分類的適應能力下降。本文采用面向?qū)ο髨D像分析(OBIA)的思想,以圖像分割所得的一系列的同質(zhì)區(qū)域(圖像對象)作為分類處理的最小單位[5],從單幅全色高分辨遙感圖像提取紋理、邊緣、區(qū)域和顏色等特征基元作為圖像分割和分類的依據(jù),避免了特征維數(shù)過高和運算耗時嚴重的問題。利用視覺詞袋(BoVW)模型在圖像語意分析中的優(yōu)越表現(xiàn),提出基于視覺詞袋(BoVW)模型的全色遙感圖像分類方法。采用非學習監(jiān)督方式對圖像對象進行聚類,克服了監(jiān)督學習分類算法對先驗知識的依賴,增強了算法對陌生地域遙感圖像的分類能力和適應性。
紋理、邊緣、區(qū)域是組成圖像的基元,也是圖像中地物區(qū)分和辨識的重要依據(jù)。本文首先從單幅遙感圖像中提取紋理、邊緣、區(qū)域和語意等特征基元,并運用這些基元進行圖像分割、對象特征表達和地物分類等各步驟的處理。
1.1基于相位一致的邊緣特征提取
邊緣特征指示了地物的區(qū)分界限,是圖像分割獲取圖像對象的前提和基礎?;谙辔灰恢逻吘墮z測方法,分別對全色圖像R、G、B三個分量求解圖像梯度信息,融合后得到更準確的邊緣特征。
1.1.1相位一致邊緣檢測
常用空域檢測算子對亮度和對比度非常敏感,易受光照、氣候或噪聲因素影響。相位一致邊緣檢測算法利用圖像的相位譜信息,具有亮度和平移不變性[6]。具體計算步驟如下:
首先對原圖像使用log Gabor濾波器組,得到一組復矢量數(shù)據(jù)。Men和Mon分別為尺度n上log Gabor的偶對稱和奇對稱濾波器,信號響應表示為
按式(2)、式(3)分別計算信號的在各個尺度和方向上的幅度和相位。
根據(jù)Kovesi對相位一致計算式的改進,推廣到二維信號,其表達式如式(4)所示。
展頻函數(shù)為:
實驗結(jié)果表明:使用該方法融合得到的邊緣更豐富,較好地保留了微弱的邊界。
1.2基于形態(tài)學重構(gòu)分水嶺變換的圖像區(qū)域提取
根據(jù)梯度信息進行分水嶺變換能在保留邊緣特征的同時將圖像分割成一系列閉合的區(qū)域,確保其作為圖像對象分類時的同質(zhì)性。但標準分水嶺變換受明、暗細節(jié)和噪聲的影響,存在過分割現(xiàn)象[7]。為此采用形態(tài)學重構(gòu)對梯度圖像進行重構(gòu),剔除局部極小值恢復地物的顯著輪廓,并采用閾值法對圖像前景進行二值標記,在此基礎上再使用分水嶺變換可有效避免過分割現(xiàn)象。
數(shù)學形態(tài)學重構(gòu)的開運算重構(gòu)和閉運算重構(gòu)建立在測地學膨脹和腐蝕基礎上。對于梯度圖像g(x,y)、參考圖像r(x,y)和結(jié)構(gòu)元素B,其測地學膨脹定義為:
其中:“∧”表示逐點求取最小值;B為圓形結(jié)構(gòu)元素。形態(tài)學測地膨脹為迭代運算,當?shù)螖?shù)達到預定值或=DnB時,迭代終止。基于此定義形態(tài)學開重建O(Brec)為
其中:o表示濾波器的方向;n表示濾波器的尺度;N為濾波器尺度數(shù)目;Amax(x)為濾波器響應最大幅度;c為展頻函數(shù)的截止平率;g為增益因子。根據(jù)式(4)計算每一點上各尺度和方向的局部能量之和,除以幅度之和得到圖像的相位一致值,其中ε取0.01。
1.1.2全色圖像邊緣特征融合
為解決不同顏色地物變換成灰度圖后,因灰度強度接近而導致的邊緣漏檢問題。對原始彩色圖像的R、G、B分量圖,分別求取邊緣梯度圖像Gr、Gg、Gb,按式(7)取像素點(i,j)在各分量中相應坐標點的梯度最大值作為該點的梯度強度。
其中:D(Brec)為形態(tài)學測地膨脹收斂結(jié)果;“°”為形態(tài)學開運算。形態(tài)學閉重建是開重建的對偶運算。對應的測地學腐蝕定義為:
形態(tài)學閉重建定義為:
其中:“∨”表示逐點求取最大值;E(rec)B表示形態(tài)學測地腐蝕收斂的結(jié)果;“·”為形態(tài)學閉運算。
建立在開重建和閉重建基礎之上,形態(tài)學開閉混合重建運算g(rec)B定義為先開后閉的二次重建運算:
形態(tài)學開閉重構(gòu)了修正區(qū)域的極大值和極小值,減少和消除了分水嶺過分割現(xiàn)象,同時不會造成邊緣偏移,較好地保留了重要的輪廓信息。此外,結(jié)構(gòu)元素的尺寸密切關(guān)系處理結(jié)果,過大會導致結(jié)構(gòu)信息丟失,過小則達不到消除過分割的目的。針對分辨率為0.61 m的高分辨率遙感圖像處理,經(jīng)過實驗驗證,本文使用尺寸為2(像素)的圓形結(jié)構(gòu)元素。
1.3旋轉(zhuǎn)不變紋理基元提取
紋理表征了像素排列的結(jié)構(gòu)信息,是認識和分辨物體的重要視覺特征。經(jīng)多年研究,紋理的分析和表達方法主要有統(tǒng)計方法、模型方法、結(jié)構(gòu)方法和信號處理方法,其中Gabor濾波因性能良好受到普遍推崇。近年,Varma M[8-9]等經(jīng)研究指出,濾波器組方法存在計算復雜、導致圖像模糊和信息損失等問題,質(zhì)疑其被廣泛認同的地位,并提出了使用原始圖像塊(image patch)提取特征的紋理表達方法。該方法計算簡單,無信息損失,且經(jīng)實驗證明較濾波器組法可取得更高的紋理分類精度。在此基礎上,Li Liu等[10]提出了基于原始圖像塊的旋轉(zhuǎn)不變紋理特征(SIP,sorted image patch)提取方法。具體方法是在原始圖像塊區(qū)域內(nèi),根據(jù)灰度值大小對與中心像素距離相等的各包圍層上所有像素重新排序。該方法不但保留了各層之間的相對關(guān)系,也消除了像素之間的位置關(guān)系,使紋理的表達更加穩(wěn)定。實驗表明該紋理特征具有旋轉(zhuǎn)不變性,在標準紋理數(shù)據(jù)庫中獲得很好的分類效果。
假設對圖像據(jù)像素提取m×m區(qū)域大小的圖像塊,按式(13)規(guī)則進行排序。
其中:a=1,2,…,fix(m/2);p0,0為中心像素點。式(13)表示在m×m區(qū)域中對以p0,0為中心的矩形環(huán)上所有像素的灰度值排序,再按層數(shù)從內(nèi)向外串聯(lián)成特征向量fSIP∈Rm2,如圖1所示。本文采用此方法提取圖像紋理基元作為地物分類的依據(jù)。
圖1 旋轉(zhuǎn)不變紋理特征提取示意圖
高分辨遙感圖像可辨識性強,包含了大量的紋理信息,可以提取出離散的、獨立的、具有確定語意的紋元,滿足BoVW模型對局部視覺特征具有獨立分布性的適用要求[11-12]。鑒于陌生地域分類時缺少先驗知識支撐的實際情況,本文采用BoVW模型框架,對圖像對象進行非監(jiān)督學習分類,以期達到先驗需求低、分類精度高的分類效果。結(jié)合BoVW模型各要素,即以紋理特征為視覺詞匯,以提取所得的紋理基元集合為視覺詞匯字典,分割所得圖像對象為視覺詞匯字典。實現(xiàn)框架由4個部分組成,依次是視覺詞匯提取與描述、視覺詞匯字典生成、全局特征表達、地物分類,具體流程如圖2所示。
2.1視覺詞匯提取
視覺詞匯是BoVW模型對圖像表達的最小基元,是對原圖中局部特征的描述。局部特征提取分為稀疏采樣和稠密采樣。稀疏采樣是通過關(guān)鍵點算子提取興趣點,常用的有SIFT算子和SURF算子,但該方法會丟失大量的圖像空間信息。稠密方法是對圖像逐像素的進行局部特征的提取,這種方法能夠保證圖像的信息不損失。
因旋轉(zhuǎn)不變紋理特征具備優(yōu)越的紋理表達能力,所以用其作為局部特征構(gòu)建BoVW模型。假設圖像I大小為M×M,對圖像逐像素選取m×m區(qū)域的圖像塊,提取SIP旋轉(zhuǎn)不變紋理特征fSIP,特征向量構(gòu)成的集合FSIP={fSIP}包含了圖像的全部紋理信息。
圖2 BoVW模型分類流程
2.2視覺詞匯字典生成
紋理是由紋理基元(紋元)構(gòu)建而成,而紋理圖像可以由紋元通過排列組合重建,因此SIP特征構(gòu)成的集合FSIP中包含了這些構(gòu)成紋理圖像的紋元,且較于其他紋理特征出現(xiàn)頻率較高。當對集合FSIP進行聚類分析時,紋理特征分布具有聚合性,而聚類的中心就是構(gòu)成紋理圖像的紋元。
視覺詞匯字典的生成就是通過聚類算法對視覺詞匯集合聚類,將所得聚類中心的集合作為視覺詞匯字典,即詞袋模型中的“詞袋”。本文采用K-Means聚類方法對SIP特征集合FSIP進行聚類,K個聚類中心構(gòu)成視覺詞匯字典D={w1,w2,…,wK}。在此次聚類中相似性測度使用歐式距離:
視覺詞匯字典的大小即聚類中心數(shù)K是一個重要的參數(shù)。它既要保證完整包含圖像中不同性質(zhì)的詞匯,還要保證詞匯的區(qū)分性。K過大會增加字典的維數(shù),削弱字典的概括性;K過小則會使信息丟失,導致區(qū)分性較弱。本研究通過實驗確定K取30。
2.3圖像對象特征表達
圖像對象特征表達是用視覺詞匯字典對分類對象的全局特征編碼后進行的描述。在此步驟中使用面向?qū)ο蠓椒?,將根?jù)邊緣信息分割所得的同質(zhì)區(qū)域作為表達對象。首先用式(15)統(tǒng)計每一個圖像對象內(nèi)各紋元出現(xiàn)的頻數(shù)Pc(wi),得到紋元統(tǒng)計直方圖。
其中:ni為聚類中心wi在圖像對象c中出現(xiàn)的次數(shù);Nc為圖像對象c中的像素總數(shù)。然后按式(16)對所得直方圖編碼,用一組維數(shù)相同的特征向量表達各圖像對象,特征維數(shù)為詞匯字典中紋元的個數(shù)。
由于紋元是通過K-Means聚類所得,所以圖像對象中提取的局部特征與其所映射到的紋元特征不存在百分之一百完全匹配,這就意味著當圖像對象內(nèi)局部特征與紋元特征比較時,存在兩者間的相似性問題。比較時,使用式(17)將當前局部特征fj到紋元wi的距離dj(wi)與全體特征到該紋元的平均距離d(wi)的比值作為相似性測度。符合閾值要求就近似認為當前局部特征為該紋元,所組成的局部特征集合的總數(shù)即為該紋元的出現(xiàn)次數(shù)。
2.4地物分類
地物分類過程就是對表征各圖像對象的特征向量之間相似度的計算。再次使用K-Means聚類方法,按照預先人工判讀的結(jié)果,將所有圖像對象聚類成C類。聚類完成后對各圖像對象按聚類結(jié)果進行標記,合并相鄰的同一類屬的圖像對象。在聚類過程中距離測度使用χ2距離:
經(jīng)對比實驗結(jié)果發(fā)現(xiàn):χ2距離比傳統(tǒng)的歐氏距離在相似性度量上具有更好的性能,不論是聚類的精度還是穩(wěn)定性都表現(xiàn)更好。
使用長沙市開福區(qū)近郊的全色遙感圖像作為實驗樣本,采用QuickBird平臺的可見光高分辨率遙感數(shù)據(jù),分辨率為0.61 M,圖像圖幅大小為600像素×600像素。如圖3所示,根據(jù)人工判讀圖像中地物有房屋、樹林、水體、水稻田和其他農(nóng)田5類。圖4為實驗流程。
圖3 全色高分辨率遙感圖像
圖4 實驗流程
3.1算法實現(xiàn)步驟
1)輸入原始全色遙感圖像,并將其分為R、G、B三種顏色的分量圖。
2)對每個分量圖分別采用相位一致方法檢測邊緣,融合各分量檢測結(jié)果生成邊緣梯度圖像,其中l(wèi)og Gabor濾波器組參數(shù)按文獻[6]設置,如表1所示。
3)使用形態(tài)學重構(gòu)方法對邊緣梯度圖像進行標記,并對結(jié)果采用分水嶺算法進行分割。
4)過小的圖像碎片與其他圖像片元相比類間距離較大,嚴重影像后續(xù)的分類。以250像素為閾值,剔除分割結(jié)果中面積過小的圖像碎片。剔除后的分割結(jié)果即為后續(xù)分類的圖像對象。
5)對原圖像使用密集采樣的形式提取旋轉(zhuǎn)不變紋理特征,構(gòu)建視覺詞匯集合FSIP。
6)采用K-Means方法對視覺詞匯集合FSIP聚類提取全局紋理基元,生成視覺詞匯字典D={w1,w2,…,wK},聚類中心K取值為30。
7)以圖像分割所得的區(qū)域為圖像對象,逐區(qū)域統(tǒng)計全局紋元頻數(shù)直方圖,編碼表達各區(qū)域的圖像對象特征。
8)使用χ2距離作為各圖像對象特征的距離測度,將所有圖像對象聚類成C類。將同一類屬的圖像對象區(qū)域合并,合并結(jié)果即為最終的地物分類結(jié)果。
表1 log Gabor濾波器組參數(shù)
3.2實驗結(jié)果分析
從最終的分類結(jié)果可以看出本文算法有以下優(yōu)點:
1)邊緣清晰。5類地物之間的邊緣都完整地保留下來,尤其是水體和房屋,能夠清晰地辨識出水岸和道路。地物之間清晰的邊緣信息對于后續(xù)的圖像分析具有重要的作用。
2)不受地物分布影響。從地物分布來看,房屋和水稻田分布集中易于分類,而水體和樹林分布分散,如水體呈3個部分分布在不同的區(qū)域,樹林有多處單獨分布于房屋之中。但是最終結(jié)果顯示,分散分布的水體和樹林也成功地分為一類。
3)不受地物旋轉(zhuǎn)影響。雖然樹林和房屋都存在方向的變化,但并沒有影響最后的分類結(jié)果,由此可見本文方法能克服地物旋轉(zhuǎn)的影響。
4)計算用時成本低。仿真實驗使用臺式計算機作為實驗平臺。硬件配置:CPU為英特爾酷睿I5芯片,主頻2.8G,內(nèi)存4G。軟件平臺為Matlab2010。本文算法中各步驟的用時如表2所示,總體而言算法耗時較少。
表2 算法耗時統(tǒng)計表s
5)算法適應性強。本文算法采用面向?qū)ο蠓潜O(jiān)督學習的分類方法,全過程不需要先驗知識的支撐即可取得較高的分類精度,可以勝任對陌生地域的遙感圖像分析任務,具有較強的分類適應性。
分類結(jié)果中仍然有錯分現(xiàn)象存在,分析其原因主要有以下幾條:
1)由于采用面向?qū)ο蟮姆诸惙椒?,錯分的區(qū)域在圖像對象分割時就沒有將不同地物分開,如錯分區(qū)域中樹林房屋同時存在,沒有確保圖像對象的同質(zhì)性,直接影響了BoVW模型中圖像對象的特征表達,從而導致錯分。
2)由于本文使用紋理特征作為分類的依據(jù),所以當?shù)匚锉砻婕y理不清晰或者灰度較為平坦時,提取的局部特征相似性較大,影響本文算法的區(qū)分能力。
3)雖然融合顏色信息取得了較好的邊緣特征,但分類算法所使用的旋轉(zhuǎn)不變紋理特征仍是建立在灰度圖的基礎上,對顏色信息使用的不足削弱了分類能力。如何利用顏色信息進一步提高分類精度可作為下一步研究的重點。
本文提出一種基于視覺詞袋模型的遙感圖像分類方法,以QuickBird平臺分辨率為0.61 M的可見光高分辨率遙感數(shù)據(jù)為對象,采用面向?qū)ο蟮姆椒ㄟM行分類,得出了較為準確的結(jié)果。利用此算法在人工預先判讀地物類型數(shù)量的前提下,可以對遙感圖像中的地物進行自動分類。仿真實驗結(jié)果表明:采用本文方法對紋理清晰的自然和人工地物分類時,不僅計算和耗時成本較低,且不需要先驗知識,具有較強的適應性。
[1]Tarabalka,Benediktsson JA,Chanussot J,et al.Multiple spectral-spatial classification approach for hyperspectral data[J].IEEE Transactions on Geoscience and Remote Sensing,2010,48(11):4122-4132.
[2]FauvelM,Tarabalka Y,Benediktsson JA,etal,Advances in spectral-spatial classification of hyperspectral images[C]//Proceedings of the IEEE.USA:[s.n.],2012:1-22.
[3]Xin Huang,Liangpei Z.Comparison of Vector Stacking. Multi-SVMs Fuzzy Output,and Multi-SVMs Voting Methods for Mutiscale VHR Urban Mapping[J].IEEEGeoscience and Remote Sensing Letters,2010,7(2):261-265.
[4]Blasehke T,Lang S,Hay G J.Object Based Image Analysis[M].New York:Springer,2008.
[5]Benz UC,Pottier E.Object based analysis of polarmetric SAR data inalpha-entropy-anisotropy Decomposition U-sing Fuzzy Classification by Coegnition[J].IEEE International Geoscience and Remote Sensing Symposium, 2001(3):1427-1429.
[6]肖鵬峰,馮學智,趙書河,等.基于相位一致的高分辨率遙感圖像分割方法[J].測繪學報,2007(2):146-151,186.
[7]王宇,陳殿仁.基于灰度形態(tài)梯度重構(gòu)和標記提取的分水嶺圖像分割[J].中國圖象圖形學報,2008,13(11):2177-2180.
[8]Varma M,Zisserman A.Texture classification:are filter banks necessary[J].Computer Society Conference on Computer Vision and Pattern Recognition,2003,18(20):691-698.
[9]Varma M,Zisserman A.A Statistical Approach to Material Classification Using Image Patches[J].IEEE Trans. Pattern Analysis and Machine Intelligence,2009,31:2032-2047.
[10]Li Liu,Paul W.Fieguth.Sorted random projections for robust rotation-invariant texture classification[J].Pattern Recognition,2012,5(6):2405-2418.
[11]Lei Wu,Steven C H.Semantics-Preserveing Bag-of-Words Models and Application[C]//IEEE Transactions on Image Processing.2010:1908-1920.
[12]Fei Fei Li,Perona P.A bayesian hierarchical model for learning natural scene categories[C]//Proceedings of Computer Vision and Pattern Recognition.[S.l.]:[s. n.],2005:524-531.
(責任編輯楊黎麗)
Remote Sensing Image Classification w ith Bag-of-Visual-W ords M odel
ZHOU Yu-gu,WANG Ping,GAO Ying-hui
(Science and Technology on Automatic Target Recognition Laboratory,National University of Defense Technology,Changsha 410073,China)
The method of panchromatic remote sensing image classification based on bag-of-visualwordsmodel was studied.Firstly,we extracted the feature of boundaries and the segments.Secondly,we used the rotation invariant texture feature as visual vocabulary.Finally,we applied themethod of object-based for classification.The simulation results demonstrate that the proposed method has higher classification accuracy and has the advantages of low time-costand strong adaptability.
remote sensing image;classification;bag-of-visual-wordsmodel;object-based;
TP301
A
1674-8425(2015)05-0071-07
10.3969/j.issn.1674-8425(z).2015.05.013
2015-03-11
國家自然科學基金資助項目(61103082)
周宇谷(1985—),男,上海人,碩士研究生,主要從事圖像信號處理研究。
周宇谷,王平,高穎慧.基于視覺詞袋模型的遙感圖像分類方法[J].重慶理工大學學報:自然科學版,2015(5):71-77.
format:ZHOU Yu-gu,WANG Ping,GAO Ying-hui.Remote Sensing Image Classification with Bag-of-Visual-Words Model[J].Journal of Chongqing University of Technology:Natural Science,2015(5):71-77.