李 昂,王晟全,張 晨
(1.南京郵電大學 通信學院,南京 210003;2.南京理工大學紫金學院,南京 210003)
機場目標的識別是一種常見的遙感圖像目標提取,具有重要的戰(zhàn)略意義,并且因為識別難度較大,一直是研究人員關注的重點[1-4]。常用的機場目標檢測算法,如Darknet,是整體求解特殊場景的目標檢測[5-6],它對遙感衛(wèi)星圖片的小特征目標不是很有效。其次,衛(wèi)星圖像中的目標大小和方向各不相同,因為衛(wèi)星地圖是從空中角度拍攝,所以角度不固定,變化較大,目標方向可能并不相同[7-8],因此,傳統(tǒng)的目標檢測算法很難準確檢測到目標。肖志堅等[9]提出了一種遙感圖像中機場跑道的自動識別方法。在分析機場結(jié)構(gòu)特征的基礎上,首先采用形態(tài)學方法提取圖像的線結(jié)構(gòu);然后通過非監(jiān)督聚類方法將直線段動態(tài)分組;最后進行直線段修復和跑道配對,實現(xiàn)對機場的識別定位。王鑫等[10]提出了基于圖像顯著性區(qū)域的遙感圖像機場檢測。朱丹等[11]提出了基于直線鄰近平行性和GBVS顯著性的遙感圖像機場目標檢測。國外的研究人員也對此進行了相關的研究[12]。工程上常用的解決方法是對數(shù)據(jù)進行規(guī)模轉(zhuǎn)換、旋轉(zhuǎn)等數(shù)據(jù)增強操作,這就造成了很多有效時間的浪費,效率不高[13]。本文提出應用Rsnet目標檢測框架來實現(xiàn)對遙感機場目標的識別。該框架最重要的改進是使用了Global Maxpooling,并且將遷移網(wǎng)絡Mobilenet的思想用于主干網(wǎng)絡上,主要用于解決全連接問題只對最后一層的特征圖進行池化,形成特征點。所以使用Rsnet可以較好地規(guī)避特征不明確的問題,使得小型目標識別更加準確。
表1列舉了近年來常見的目標檢測算法框架和測試結(jié)果,可以發(fā)現(xiàn)使用了Darknet為框架的Yolo系列框架取得了較好的成績,但是這些只是對于相同的公開數(shù)據(jù)集VOCdevikt的測試,研究發(fā)現(xiàn),現(xiàn)有的網(wǎng)絡對于細小目標檢測的魯棒性和準確率不是很好。
表1 近年來的各種目標檢測框架的對比(均使用相同數(shù)據(jù)集和批次)
在Rsnet網(wǎng)絡框架中,Global Maxpooling對有可能的特征進行特征選擇,選出具有更好分類識別效果的特征,并減小非線性的誤差。根據(jù)相關理論,特征提取的誤差主要來自于2個方面:
1)受限鄰域大小增加引起的估計方差。
2)卷積層的參數(shù)誤差導致估計平均值的偏移。
局部池化主要還是為了增大卷積核的感受野,需要把一塊區(qū)域內(nèi)的信息集中起來,相當于對圖像做了一個下采樣。這個時候有2種保留原來圖像信息的方式,一種是取均值、一種是取最大值。對于這種小范圍的局部池化有最大池化保留紋理信息,平均池化保留總體信息這種概念。使用全局池化之后,特征圖每個channel都被壓縮到了一個點,這實際上是對每個channel做了一個信息壓縮。這樣就對特征不明顯的目標的特征提取提供了方便,可以對每個channal進行一次篩選,避免了Darknet對全圖整體進行計算的誤差。
Moblienet作為遷移網(wǎng)絡,具有體積小、易訓練、算法空間復雜度小的特點,因此Rsnet和Mobilenet結(jié)合的網(wǎng)絡框架具有高采樣率和對設備性能的低依賴性。
Rsnet框架主要目的是提高對細微目標的整體感知質(zhì)量,而遷移網(wǎng)絡Mobilenet的作用是為了提高模型的可移植性和可訓練性。這部分首先描述了研究提出的網(wǎng)絡體系結(jié)構(gòu),然后講解為何這樣做,最后對該算法進行整體的客觀評價指標的測試,使用的數(shù)據(jù)集是武漢大學開源的Dota數(shù)據(jù)集里的機場目標。
Rsnet的框架結(jié)構(gòu)如圖1所示,該網(wǎng)絡將原先的Maxpooling改成了GlobalMaxpooling層,因為這個是基于Darknet-19框架的,所以仍然使用了3×3和1×1的卷積層,其網(wǎng)絡框架的連接圖如圖2所示,較好地表示出該網(wǎng)絡的運作機制。
圖1 Rsnet的框架
圖2 網(wǎng)絡框架的連接層
Mobilenet的網(wǎng)絡結(jié)構(gòu)如圖3所示,MobileNet的結(jié)構(gòu)過于簡單,是類似于VGG的直筒結(jié)構(gòu),導致此網(wǎng)絡的性能并不高。但是如果和Darknet、Rsnet等結(jié)構(gòu)結(jié)合(復用圖像特征,添加Shortcuts)可以大幅提升網(wǎng)絡的性能。
圖3 Mobilenet的網(wǎng)絡結(jié)構(gòu)
統(tǒng)一取80%的數(shù)據(jù)作為訓練集,20%的數(shù)據(jù)作為測試集。
Rsnet與Mobilenet的結(jié)合方案如圖4所示,將Rsnet的最后一層卷積層與Mobilenet的BN和Re-LU連接,這就是與遷移網(wǎng)絡的結(jié)合方案,與BN層連接的目的有以下4點:
圖4 Rsnet與遷移網(wǎng)絡Mobilenet結(jié)合的網(wǎng)絡結(jié)構(gòu)
1)加快訓練速度,這樣就可以使用較大的學習率來訓練網(wǎng)絡。
2)提高網(wǎng)絡的泛化能力。
3)BN層本質(zhì)上是一個歸一化網(wǎng)絡層,可以替代局部響應歸一化層(LRN層)。
4)可以打亂樣本訓練順序從而提高精度。
而ReLU的作用是增加了神經(jīng)網(wǎng)絡各層之間的非線性關系,如果沒有激活函數(shù),層與層之間是簡單的線性關系,每層都相當于矩陣相乘,神經(jīng)網(wǎng)絡完成的復雜任務是非常困難的。
傳統(tǒng)的卷積操作下,計算量為DF*DF*DK*DK*M*N,而Mobilenet使用了深度卷積,其計算量為DK*DK*M*DF*DF+1*1*M*N*DF*DF通過深度可分離卷積,計算量下降了1/N+。將Rsnet的最后一個4組層用遷移網(wǎng)絡Mobilenet連接,可以同時兼顧精度和速度,也降低了對硬件性能的需求。同時Rsnet使用的Focal loss如圖5所示,在表2中展示了Focal loss和常用的Center loss在相同測試環(huán)境下的Map。
圖5 Focal loss
表2 Focal loss和常用的Center loss在相同測試環(huán)境下的Map
遵循YOLO預測邊界框,使用維度簇作為錨盒。該網(wǎng)絡預測每個邊界框的4個坐標,tx,ty,tw,th。如果單元格從左上角偏移,則圖像的NER由(Cx,Cy)和先驗框的寬度和高度由(pw,ph)表示,然后進行分類預測。式(1)為目標檢測框的工作原理方程,和YOLO一致。
本文采取的主觀驗證方法是只改變單一變量的對比試驗,使用的實驗設備是GPU:RTX2060s(8G)、CPU:i5-9400F、RAM:16G的個人計算機平臺,在實驗中采用使用了Averagepool、Maxpool、GlobalMaxpool以及結(jié)合遷移網(wǎng)絡的樣本進行訓練,數(shù)據(jù)集是武漢大學的航拍數(shù)據(jù)集Dota,最后測試得到了相應的結(jié)果,如圖6所示。
從圖6可以看出,GlobalMaxpool+Mobilenet在識別的實際效果上要好于其余的方法,錯檢的結(jié)果較少,并且Ground truth和Anthor Box的吻合程度較高,也就是圖中的藍色框和綠色框的重合率,這表明使用GlobalMaxpool的Rsnet和Mobilenet的結(jié)合在實際效果上是良好的,為此,做出了圖7展示Map,本文所提方法的Map較高。
圖6 使用了Averagepool、Maxpool、GlobalMaxpool以及結(jié)合遷移網(wǎng)絡對遙感機場目標檢測的結(jié)果示意圖
圖7 使用了Averagepool、Maxpool、GlobalMaxpool以及結(jié)合遷移網(wǎng)絡對遙感機場目標檢測的結(jié)果示意圖
由表3可以看出,當實驗中統(tǒng)一取80%的數(shù)據(jù)作為訓練集,20%的數(shù)據(jù)作為測試集時,Rsnet+Mobilenet在VOC數(shù)據(jù)集上具有較好的Map,并且由于是基于Darknet改造的,所以識別速度和YOLO相近。
表3 本方法與各種目標檢測框架的檢測結(jié)果(使用相同的通用數(shù)據(jù)集和批次)
統(tǒng)一取80%的數(shù)據(jù)作為訓練集,20%的數(shù)據(jù)作為測試集,選用較為典型的框架在Batchsize=5的情況下測試GPU和CPU的內(nèi)存占用率,得出的結(jié)果如表4所示。
表4 不同算法內(nèi)存占用率測試結(jié)果
在同樣的測試條件下,傳統(tǒng)Darknet-19的Map是76.9/AP50,而通過將Mobilenet和Rsnet結(jié)合的方法,得到了Map值,并且提高了10%的下采樣效率,在提高目標識別性能的同時,有效減少了時間開銷;同時,每批訓練數(shù)量Batch Size也可以提高到原來的5~6倍,有效降低了對于高配置、高性能運算設備的依賴,有助于擴大受眾面。