劉媛
( 北京建筑大學 測繪與城市空間信息學院,北京100044)
遙感數(shù)據(jù)日益多元化,數(shù)據(jù)獲取的速度加快,更新周期縮短,時效性越來越強[1],極大的促進了遙感影像相關(guān)的應(yīng)用研究。傳統(tǒng)的遙感影像目標識別主要是基于人工提取特征的方法,但遙感圖像中豐富多樣的細節(jié)信息使得人工描述的單一特征不足以全面表達目標地物,且多依賴于專家經(jīng)驗。此外,建立在概率統(tǒng)計基礎(chǔ)上的機器學習通常需要復(fù)雜的特征描述,并且基于其淺層的網(wǎng)絡(luò)結(jié)構(gòu)學到的特征表達在處理復(fù)雜的目標檢測問題時表現(xiàn)性能及泛化能力有明顯不足。
2000 年以后隨著計算資源大規(guī)模提高,基于人工神經(jīng)網(wǎng)絡(luò)的深度學習方法蓬勃發(fā)展。深度神經(jīng)網(wǎng)絡(luò)能夠通過大量的訓(xùn)練數(shù)據(jù)及具有隱藏層的深度學習模型學習高維特征,提高了目標檢測的分類精度。深度學習的深層結(jié)構(gòu)及特征學習能力在圖像處理領(lǐng)域取得了巨大的成功,大量學者也將其運用到遙感目標檢測與識別領(lǐng)域。本文對當前深度學習應(yīng)用于遙感圖像處理的方法進行對比分析,有助于追趕深度學習的發(fā)展步伐,幫助研究人員更好的了解這一研究領(lǐng)域。
遙感圖像目標檢測方法包括基于區(qū)域提議方法和基于回歸的方法,基于區(qū)域提議的方法先生成一系列目標候選框,然后再利用卷積神經(jīng)網(wǎng)絡(luò)對目標進行分類與邊框回歸,具有高精度的優(yōu)點。本文主要對基于區(qū)域提議的目標檢測進行分析與對比。
1.1 R-CNN。2014 年,Girshick[2]使用“區(qū)域提議+卷積神經(jīng)網(wǎng)絡(luò)”的方法代替?zhèn)鹘y(tǒng)目標檢測使用的“滑動窗口+手工設(shè)計特征”方法,設(shè)計了R-CNN框架,使得目標檢測技術(shù)取得了巨大突破。R-CNN利用選擇性搜索算法在輸入圖像中提取約2000 個候選區(qū)域;然后將每個候選區(qū)域縮放為固定大小后送入模型中提取特征向量;最后把特征向量輸入一組多類別支持向量機對每個候選區(qū)域進行分類與候選框精修。R-CNN的處理過程如圖1 所示。雖然R-CNN方法相較于傳統(tǒng)方法進步巨大,但其重復(fù)計算提取特征造成了效率低下。
圖1 R-CNN 檢測流程
1.2 Fast R-CNN。為了提高目標檢測的效率及精度,SPP-net[3]去掉了R-CNN 縮放候選區(qū)域以統(tǒng)一圖片尺寸的處理方式,在CNN結(jié)構(gòu)中加入了空間金字塔池化層使得任意尺寸的圖像輸入網(wǎng)絡(luò)可以輸出固定維數(shù)的特征向量。Fast R-CNN[4]采納了類似方法,增加了類似空間金字塔池化層的RoI 池化層,對輸入全連接層的特征向量尺寸進行歸一化處理。另外,SPP-net 與Fast R-CNN 對輸入圖像只進行一次卷積特征提取也大大縮短了計算時間。Fast R-CNN的處理過程如圖2 所示。雖然這一改進提高了速度,但是仍然沿用選擇性搜索算法獲得目標候選框的方式也嚴重制約其效率。
圖2 Fast R-CNN 檢測流程
1.3 Faster R-CNN。2017 年,Ren 等人在Fast R-CNN的基礎(chǔ)上提出了Faster R-CNN[5],采用區(qū)域提議網(wǎng)絡(luò)取代選擇性搜索算法生成目標候選框,并與Fast R-CNN結(jié)合形成了一個端到端的卷積神經(jīng)網(wǎng)絡(luò)目標檢測模型。其中區(qū)域提議網(wǎng)絡(luò)僅需通過一次卷積操作提取目標候選框及特征圖,并且進行了兩次候選框精修與分類,在效率與精度方面都得到了很大的提升。Faster R-CNN的處理過程如圖3 所示。
圖3 Faster R-CNN 檢測流程
1.4 Mask R-CNN。Mask R-CNN[6]算法是在Faster R-CNN的基礎(chǔ)上添加了一個額外的掩碼分支與現(xiàn)有分支并行來預(yù)測用于包圍框檢測的目標掩碼。Mask R-CNN采用“ResNet+FPN”的主干網(wǎng)絡(luò)結(jié)構(gòu),將低層次特征與高層次特征結(jié)合,適用于多尺度目標的檢測。此外還將RoI 池化層替換為RoIAlign 層,在下采樣時對齊特征以減少多量化引起的誤差對回歸定位產(chǎn)生的影響。Mask R-CNN的處理過程如圖4 所示。
圖4 Mask R-CNN 檢測流程
遙感圖像目標檢測方法常用的評價指標包括精確率(Precision)、召回率(Recall)、平均精度(AP)、F1-score 等。
上式中,TP(真正,True Positive)表示被模型預(yù)測為正的正樣本數(shù)量;FP(假正,F(xiàn)alse Positive)表示被模型預(yù)測為正的負樣本數(shù)量。
上式中,F(xiàn)N(假負,F(xiàn)alse Negative)表示被模型預(yù)測為負的正樣本數(shù)量。上式中,P 指精確率Precision;R 指召回率Recall。
上式中,P 指精確率Precision;R 指召回率Recall。
數(shù)據(jù)集對于深度學習目標檢測方法非常重要,具有較強適應(yīng)性的數(shù)據(jù)集能夠促進遙感圖像目標檢測技術(shù)的發(fā)展。在過去的幾十年中,多個研究小組發(fā)布了公開的遙感圖像數(shù)據(jù)集。表1 中介紹了流行的遙感圖像數(shù)據(jù)集相關(guān)信息。
表1 常用遙感圖像數(shù)據(jù)集
隨著遙感圖像目標檢測需求的不斷增長以及計算機技術(shù)的發(fā)展,極大地促進了深度學習在遙感圖像目標檢測領(lǐng)域的應(yīng)用研究。目標檢測算法日新月異,遙感圖像目標檢測與識別任務(wù)仍面臨著諸多挑戰(zhàn)。
(1)遙感圖像目標具有尺度差異性,目前大多采用融合多層特征的方式來獲取多尺度特征以優(yōu)化小目標及密集目標的識別效果,但目前仍舊缺乏適合遙感多尺度目標檢測的性能更優(yōu)異的方法。
(2)由于大量的遙感標注數(shù)據(jù)耗費巨大獲取不易,缺乏有效的訓(xùn)練集也是制約目標檢測精度提升的瓶頸,因此采用弱監(jiān)督、無監(jiān)督的方法,或利用遷移學習解決數(shù)據(jù)不足的問題也是今后發(fā)展的趨勢。
(3)遙感數(shù)據(jù)是多模態(tài)的,特定數(shù)據(jù)集針對特定任務(wù)的難以遷移問題也是面臨的挑戰(zhàn)之一,因此利用多源異構(gòu)數(shù)據(jù)和信息的融合,協(xié)同互補地利用這些數(shù)據(jù)源構(gòu)建易遷移的通用模型十分重要。
(4)雖然理論上多層網(wǎng)絡(luò)確實可能學習出最優(yōu)的函數(shù)模型,但它無法解釋該模型如何構(gòu)建以及模型背后的含義[13]。加強網(wǎng)絡(luò)的理論研究并掌握最佳網(wǎng)絡(luò)深度與檢測性能、硬件、效率之間的平衡也是今后重要的研究課題之一。