郭亞寧 林偉 潘泉 趙春暉 胡勁文 馬娟娟
隨著計算機、空間定位、航空航天以及傳感器技術的不斷發(fā)展,對地觀測系統(tǒng)的光譜和頻譜分辨率不斷增加,時間和空間分辨率不斷提高,現(xiàn)代遙感技術已經形成高光譜、高空間分辨率、全天時/全天候、實時/準時的對地觀測能力,可以采集到分米甚至納米級的高分辨率遙感影像[1].眾所周知,高分辨率遙感影像不僅在現(xiàn)代軍事戰(zhàn)爭中承擔及時、準確獲取軍事信息的重大任務,在城市規(guī)劃、災害監(jiān)測與評估等民用領域也具有廣泛應用[2].然而,高分辨遙感影像解譯技術遠遠滯后于影像的獲取技術,使其在現(xiàn)實應用中并未得到充分利用.大量的理論分析與實驗結果表明,高分辨率遙感影像數(shù)據在帶來強烈視覺沖擊的同時,也帶來了一系列信息處理與模式識別的新問題,影像空間分辨率的提高并不意味著解譯精度也一定提高[3].
如何對高分辨率遙感影像數(shù)據進行快速準確解譯是目前亟待解決的一個難題.目標分類與識別是高分辨遙感影像解譯的關鍵技術之一.目前,高分辨率遙感影像目標分類主要存在兩個挑戰(zhàn)[4]:1)目標的結構特征成為影像分類的主導因素[5];2)影像光譜特征的統(tǒng)計可分性減弱,類間方差[6]減小,類內方差變大,“同物異譜、同譜異物”的現(xiàn)象普遍存在.因此,適用于中低分辨率遙感影像的特征(例如強度特征、紋理特征等)及光譜解譯方法并不適用于高分辨率遙感影像.
但是,如果將圖像的重構信息和分類識別信息看作是嵌入在低維子空間中的一個流形,則既可以處理高維數(shù)據又可以挖掘數(shù)據內蘊幾何結構特征的流形學習是解決上述問題的有效途徑.近年來,流形學習被廣泛用于行人檢測[7]、視覺物體分類[8]、高光譜遙感圖像分類[9]、人臉識別[10]、圖像分類[11]等模式識別和數(shù)據分類問題,及動態(tài)目標追蹤[12]、醫(yī)學圖像分割[13]、顯著性檢測[14]等計算機視覺和人工智能領域.
流形是不同維數(shù)下的曲線和曲面等幾何對象的總稱.流形學習本質是通過非線性映射將高維數(shù)據投影到低維空間,提取數(shù)據內蘊結構特征,實現(xiàn)維數(shù)約簡或數(shù)據可視化.Tenenbaum等[15]和Roweis等[16]首先在非歐框架下考慮數(shù)據集的幾何結構分析問題,在2000年的Science雜志上分別提出考慮全局幾何結構的保測地距離映射(Isometric mapping,Isomap)和考慮局部幾何結構的局部線性嵌入(Locally linear embedding,LLE).Isomap和LLE方法均可以把采樣數(shù)據所在的低維流形展開成低維子空間.受Isomap和LLE啟發(fā),各種非線性維數(shù)約簡算法大量涌現(xiàn).具有代表性的方法主要包括:拉普拉斯特征映射(Laplacian eigenmap,LE)[17]、局部切空間排列(Local tangent space alignment,LTSA)[18]、最大方差展開(Maximum variance unfolding,MVD)[19]、黑塞局部線性嵌入(Hessian locally linear embedding,HLLE)[20]和局部坐標排列(Local coordinates alignment,LCA)[21]等.
但上述方法中的投影函數(shù)均是非線性的,即沒有顯式表達.因此,無法直接利用投影函數(shù)求出測試樣本或新樣本的低維投影,而需要將其加入訓練樣本重新訓練算法,且每重新運行一次,就相當于摒棄了之前的運算結果,這將耗費大量的時間和計算量,在實際應用中并不可取.為此,He等[22]提出LE的線性化算法:局部保持投影(Locality preserving projection,LPP);Kokiopoulou等[23]和He等[24]提出了LLE的線性化算法:正交鄰域保持投影(Orthogonal neighborhood preserving projection,ONPP)和鄰域保持嵌入(Neighborhood preserving embedding,NPE).
雖然線性化方法很好地解決了新樣本問題,但仍存在以下缺點:1)均是無監(jiān)督學習方法,即沒有利用樣本類標信息,不利于分類識別問題;2)均是在歐幾里得框架下基于數(shù)據特征向量化表示的降維算法,但實際應用中的數(shù)據并非全分布在歐氏空間內,例如對稱正定(Symmetric positive define,SPD)矩陣,其所誘導的空間是非歐、彎曲的黎曼流形.作為一種典型的SPD矩陣,協(xié)方差描述子融合了圖像多種特征,對目標大小、形狀和光照變化等具有較強的魯棒性,近年來被廣泛應用于目標跟蹤[10]、人臉識別[25]、行人檢測[26]等方面.若對大小為n1×n2的協(xié)方差描述子進行降維處理,經典流形學習算法需要首先將其向量化為(n1×n2)×1的向量,然后利用歐氏距離進行相似性度量.但向量化表示通常會忽略數(shù)據各維度的變化,且易破壞數(shù)據內蘊幾何結構.同時,利用歐氏距離度量黎曼流形上兩點間的相似性會忽略數(shù)據特征的空間分布信息.此外,當數(shù)據維度較高時,將面臨“維數(shù)災難”和較大計算復雜度.因此,傳統(tǒng)歐氏框架下的流形學習算法不能有效用于黎曼流形.
為此,本文結合黎曼流形理論與核方法,提出一種推廣的流形學習算法,即基于Log-Euclidean黎曼核的自適應半監(jiān)督正交局部保持投影(Log-Euclidean Riemannian kernel-based adaptive semi-supervised orthogonal locality preserving projection,LRK-ASOLPP)算法,并將其應用于高分辨率遙感影像目標分類研究.該方法是針對高分辨率遙感影像目標分類提出,但具有通用性,也適用于其他類圖像的分類與識別研究.也可以通過類似的方法將流形學習算法ONPP從歐氏空間推廣到黎曼流形上.與經典的流形學習算法相比,本文提出的LRK-ASOLPP算法在繼承LPP優(yōu)點的同時,具有如下優(yōu)點:1)該算法成功地將傳統(tǒng)的流形學習算法LPP推廣到黎曼流形上,無需對協(xié)方差描述子進行向量化表示,就可將其投影成低維向量,在有效保持圖像特性內蘊幾何結構的同時,減少了計算量和存儲空間;2)在核化的過程中,通過引用無參Log-Euclidean黎曼核,克服傳統(tǒng)核方法中存在的核參數(shù)的選擇問題;3)經典的流形學習通常在原始特征空間中構建近鄰圖,本文所提出的算法則充分利用數(shù)據特征在低維空間中空間分布與樣本點的先驗類標信息,在低維特征空間中構建近鄰圖來估計數(shù)據特征的內蘊幾何結構,并通過交替迭代優(yōu)化算法進行求解,同時獲得相似性權矩陣與低維投影矩陣,以此提高算法性能.
本文內容安排如下:第1節(jié)簡單介紹圖像協(xié)方差描述子;第2節(jié)基于黎曼流形理論給出了黎曼流形上的Log-Euclidean黎曼核的定義;第3節(jié)重點闡述和分析了所提出的LRK-ASOLPP算法;第4節(jié)是高分辨率遙感影像目標分類的實驗結果;最后總結全文.
Tuzel等[27]首先提出用協(xié)方差矩陣作為圖像區(qū)域特征描述子,即給定灰度或RGB圖像I∈RW×H,記F=[f(x,y)]∈RW×H×d為圖像I的特征張量,f(x,y)=φ(I,x,y)∈Rd表示像素點(x,y)處的特征向量.函數(shù)φ(I,xi,yi)=fi可以是灰度值、顏色、一階和二階(水平、垂直)差分、梯度模、梯度方向以及濾波響應等圖像特征信息,(xi,yi)表示第i個像素點的位置.給定圖像區(qū)域R?F,記表示區(qū)域R內每個像素點處的d維特征向量集,則區(qū)域R的d×d維協(xié)方差矩陣為
其中,exp(·),ln(·)分別為矩陣的指數(shù)算子和對數(shù)算子.對,根據奇異值分解(SVD),X可被分解為X=UΣUT,其中 Σ =diag{λ1,λ2,···,λd},λi,i=1,2,···,d為特征值,U為特征值所對應的特征向量所構成的矩陣.則
其中,
由式(5),(7),(9)可知,Log-Euclidean黎曼核無核參數(shù),且充分利用了樣本點的正定對稱特性,簡化了核矩陣的計算過程.
定理1.Log-Euclidean黎曼核滿足Mercer條件.
證明.
1)kln實對稱:kln(Xi,Xj)=kln(Xj,Xi)
因為
對?A,B∈RN×N,tr[A·B]=tr[B·A],故
2)kln正定: 對,?b1,b2,···,bN∈R
因此,本文在核化的過程中選用Log-Euclidean黎曼核,以克服傳統(tǒng)核方法中存在核參數(shù)選擇問題.
算法原理:1)提取圖像每個像素點處的幾何結構特征,計算圖像特征的協(xié)方差描述子;2)采用Log-Euclidean黎曼核將協(xié)方差描述子投影到再生核Hilbert空間;3)基于流形學習理論,建立黎曼流形上半監(jiān)督正交局部保持投影算法模型,利用交替迭代更新算法對目標函數(shù)進行優(yōu)化求解,獲取相似性權矩陣和低維投影矩陣;4)利用所求得的低維投影矩陣計算測試樣本的低維投影.
3.1.1 模型建立
定義非線性映射φ:M 7→F,將分布在黎曼流形M上的樣本點Xi投影到再生核Hilbert空間F:
定義低維投影矩陣V:F 7→Rr,使得
1)構建相似性權矩陣
在低維空間中,利用k近鄰法尋求每個低維特征Yi的k個最近鄰點,記作,記為中與Yi異類的樣本.定義相似性權矩陣.
2)構建黎曼流形上半監(jiān)督正交局部保持投影算法模型
由于對?V∈F都有V∈span{φ(X1),φ(X2),···,φ(XN)},即存在數(shù)組使得
將φ(Xi)投影到V上,有
定義核矩陣K=(Kij)N×N,其中
記
將式(16),(18)和(19)代入式(17),得
則由
得優(yōu)化問題(15)的求解等價于求解
其中,Lapt是Laplacian矩陣,是度矩陣,.
由Rayleittz-Riz定理可知,上述優(yōu)化問題的求解等價于求解如下廣義特征問題:
其中,α=(α1,α2,···,αr)即為前r個 (除 0 之外)最小特征值λ1,λ2,···,λr對應的特征向量.
3.1.2 優(yōu)化求解
由權矩陣Wapt的構造方法可知,Lapt由α決定,而由式(23)可知α由Lapt決定,因此優(yōu)化問題(22)沒有封閉解.為此,本文利用交替迭代優(yōu)化算法對其進行求解. 首先,給定αt?1,求Lapt(αt?1),然后利用Lapt(αt?1)求αt,依次循環(huán)迭代,得到局部最優(yōu)解.
則廣義特征問題(23)修正為如下特征問題:
進一步,由式(20),訓練樣本的低維投影為
由于α∈RN×r,K∈RN×N,故Y∈Rr×N,即協(xié)方差描述子的低維投影是歐氏空間中r×1維向量.特別地,當?shù)螖?shù)t=1時,LRK-ASOLPP算法是在數(shù)據原始特征空間中構建的近鄰圖,此時算法記為LRK-SOLPP.
3.2.1 算法描述
基于Log-Euclidean黎曼核的自適應半監(jiān)督正交局部保持投影(LRK-ASOLPP)算法描述如下:
算法1.LRK-ASOLPP算法
輸入.X={X1,X2,···,XN}?M,Xi∈Rd×d,為有標簽集,是無標簽集,N為訓練樣本的總個數(shù),降維后的維數(shù)r,最大迭代次數(shù)T.
輸出.α=(α1,α2,···,αr),r,Y=(Y1,Y2,···,YN).
3.2.2 計算復雜性分析
算法的時間復雜性主要包括計算Lapt和計算廣義特征值.計算Lapt的時間復雜性為O(kN2),k是近鄰個數(shù),N是樣本總數(shù);計算廣義特征問題(23)的時間復雜性為O((N+r)N2).因此,算法整體計算時間復雜性為O((N+r)N2).
對于測試樣本或新樣本Xt,其低維投影為
其中,
為驗證LRK-ASOLPP算法的有效性,本文選用高分辨率遙感數(shù)據集UCMerced LandUse Dataset[29],WHU-RS Dataset[30]及Quick bird Dataset作為實驗數(shù)據,從參數(shù)設置及其敏感性、低維特征可視化和分類精度三個方面對算法性能進行分析,并與基于Log-Euclidean高斯核局部保持投影(Log-Euclidean Gaussian kernel-based locality preserving projection,KLPP)算法[31]和LRKSOLPP算法進行對比.
1)UCMerced LandUse Dataset共包含21類地物,每類包含100張不同時間、地點、光照和拍攝角度等條件下,大小為256像素×256像素的影像.
2)WHU-RS Dataset包含19類地物,每類包含55張不同時間、地點、光照和拍攝角度等條件下,大小為600像素×600像素的影像.
3)Quick bird Dataset包含17類地物,每類包含80張不同時間、地點、光照和拍攝角度等條件下,大小為400像素×400像素的圖像.
實驗中,在每個數(shù)據集中,首先將每類圖像平均分為5個子集,每次無放回隨機選擇3個子集作為訓練樣本,其余2個子集作為測試樣本,將圖像大小統(tǒng)一調整為64像素×64像素,并對像素值做歸一化處理;其次,計算每張圖像的每個像素點(x,y)處的特征向量f(x,y)=(x,y,HR(x,y),HG(x,y),HB(x,y))T,其中表示圖像的一個通道,再根據式(1)計算協(xié)方差矩陣X,其中X為17×17的對稱正定矩陣;然后,分別利用KLPP,LRK-SOLPP和LRK-ASOLPP算法將其投影到低維歐氏空間;最后,利用K-NN,K-means,SVM,BP-ANN等分類器進行分類.類似十折交叉驗證法,實驗重復10次,取分類精度平均值作為算法性能的評價指標.
本文提出的LRK-ASOLPP算法涉及的參數(shù)有γ,ξ,ζ,k以及有標簽訓練樣本的個數(shù)l'.其中,γ,ζ分別表示同類樣本點和異類樣本點之間的相似性權重,ξ表示k個近鄰點中類別不確定的點之間的權重.實驗中,取γ=?ζ=8,ξ=1;顯然,有標簽樣本個數(shù)越多,分類精度就越高,本文實驗中均取l'=3;設置最近鄰參數(shù)k搜索范圍為k={1,2,···,l?1},其中l(wèi)為訓練樣本的個數(shù).為驗證算法LRK-SOLPP,KLPP及LRK-ASOLPP對最近鄰參數(shù)k的敏感性,選用SVM作為分類器.最佳分類精度隨k的變化曲線如圖1所示.
由圖1可知,在三個數(shù)據集上,當k≥12時,本文提出的LRK-ASOLPP算法趨于穩(wěn)定,且當k分別取12,10,14時,分類精度最高,分別為0.9428,0.9645,0.9487.
以WHU-RS Dataset為例.首先從WHU-RS Dataset中任選4類地物,以機場、海岸線、橋梁和山脈為例,然后計算每個像素點處特征向量f(x,y)=(x,y,HR(x,y),HG(x,y),HB(x,y))T,其中,f(x,y)=(x,y,HR(x,y),HG(x,y),HB(x,y))T,其中,,h∈{R,G,B}表示圖像的一個通道,再根據式(1)計算協(xié)方差矩陣X∈R17×17;最后,利用KLPP,LRKSOLPP和LRK-ASOLPP算法將其投影到三維空間,實驗結果如圖2所示.
由圖2可知,使用KLPP投影后,類間存在交叉重疊,而使用本文提出的LRK-ASOLPP算法將高維特征投影到低維特征空間后,類內緊湊、類間分散,而且明顯優(yōu)于LRK-SOLPP.
本節(jié)從三個方面將本文提出的LRK-ASOLPP算法與LRK-SOLPP和KLPP算法進行比較,分析評價LRK-ASOLPP算法的性能.
1)基于特征維數(shù)r的分類精度
根據圖1取k=12,在三個不同數(shù)據集上,對不同特征維數(shù)r,算法KLPP,LRK-SOLPP,LRKASOLPP分別結合SVM的分類效果如圖3所示,各方法最佳分類精度及其對應特征維數(shù)見表1.
表1 最佳分類精度(Ac)及對應特征維數(shù)(r)Table 1 The classification accuracy(Ac)and the corresponding feature dimension(r)
圖1 不同近鄰數(shù)k對應的分類精度Fig.1 Classification accuracy for different values ofk
由圖3及表1可知,LRK-ASOLPP算法分類效果最佳,且對比LRK-SOLPP與LRK-ASOLPP的實驗結果可知,選用交替優(yōu)化迭代求解方法可以明顯提高算法的分類精度.
2)基于訓練樣本個數(shù)的分類精度
圖2 三維特征可視化圖Fig.2 3D feature visualization
對每個數(shù)據集,分別從每類圖像中隨機選擇2,3,4個子集作為訓練樣本,其余子集作為測試樣本,結合SVM的實驗結果如圖4所示.
由圖4可知,訓練樣本個數(shù)對算法的性能有一定的影響,即隨訓練樣本的增加,算法的分類精度提高,LRK-ASOLPP算法的分類精度最高,且明顯優(yōu)于LRK-SOLPP和KLPP算法.
3)基于不同分類器的分類精度
圖3 最佳分類精度隨特征維數(shù)變化曲線圖Fig.3 The varying curves of the optimal classification accuracy with feature dimension
在三個數(shù)據集上,首先利用 LRK-SOLPP,KLPP及LRK-ASOLPP將測試樣本的協(xié)方差描述子投影到低維空間;其次,利用不同的分類器(KNN,K-means,SVM,BP-ANN)進行分類.其中,對于K-NN和K-means,取k=15,對于SVM,選擇線性核函數(shù).實驗結果如表2~4所示.
圖4 三個數(shù)據集上不同訓練樣本數(shù)算法最佳平均分類精度Fig.4 The average classification accuracy of different training sample number on three datasets
由上述實驗結果可知,分類器不同,算法的分類效果也不同.本文提出的LRK-ASOLPP算法結合K-NN,K-means及SVM時,分類效果均優(yōu)于其他算法,且與BP-ANN結合時,分類精度最高.
傳統(tǒng)的流形學習算法均是歐氏框架下基于圖像特征向量化表示的降維算法,而協(xié)方差描述子所在的空間是非歐和彎曲的黎曼流形,對其進行向量化表示并用歐氏距離進行相似性度量容易丟失有效的結構信息.因此,本文結合黎曼流形理論與核方法,將流形學習算法LPP從歐氏空間推廣到黎曼流形上,提出LRK-ASOLPP算法,并應用于高分辨率遙感影像目標分類.1)提取圖像每個像素點處的幾何結構特征,計算圖像特征的協(xié)方差描述子;2)通過采用Log-Euclidean黎曼核將協(xié)方差描述子投影到再生核Hilbert空間;3)基于流形學習理論,建立黎曼流形上半監(jiān)督正交局部保持投影算法模型,利用交替迭代更新算法對目標函數(shù)進行優(yōu)化求解,同時獲得相似性權矩陣和低維投影矩陣;4)利用求得的低維投影矩陣計算測試樣本的低維投影,并用K–近鄰和SVM 等分類器對其進行分類.與傳統(tǒng)的流形學習算法相比,本文提出的LRK-ASOLPP算法在降維的過程中無需進行圖像特征向量化表示,有效保留了數(shù)據特征的內蘊幾何結構和判別信息,并通過選用無參的Log-Euclidean黎曼核克服了傳統(tǒng)核方法中的核參數(shù)選擇問題.實驗結果表明,該算法在高分辨率遙感影像目標分類方面具有良好的分類性能,為后續(xù)的圖像目標分類與識別研究提供了有效的方法.但該算法還有很大的研究空間,例如采用多核學習法來克服核函數(shù)與核參數(shù)的選擇問題,利用稀疏表示構建相似性權矩陣來克服近鄰參數(shù)的選擇問題等,后續(xù)將繼續(xù)進行相關的研究.
表2 UCMerced LandUse dataset上的最佳分類精度(Ac)及對應特征維數(shù)(r)Table 2 The classification accuracy(Ac)and the feature dimension(r)on UCMerced LandUse dataset
表3 WHU-RS dataset上的最佳分類精度(Ac)及對應特征維數(shù)(r)Table 3 The classification accuracy(Ac)and the feature dimension(r)on WHU-RS dataset
表4 Quick bird dataset上的最佳分類精度(Ac)及對應特征維數(shù)(r)Table 4 The classification accuracy(Ac)and the feature dimension(r)on Quick bird dataset