吳曉強, 曾朝陽
(陸軍工程大學 野戰(zhàn)工程學院, 江蘇 南京 210007)
近年來,隨著基于深度學習的神經網絡技術的引入,機器視覺目標檢測的效率和準確率得到大幅度提升,已經越過了應用的技術門檻, 正在廣泛領域得到普及和應用。在這樣的背景下,基于機器視覺的軍事目標檢測也日益受到研究者的重視。多年來,軍事目標的自動檢測技術一直是國防技術領域的研究重點, 但礙于準確性和效果沒有達到滿意的效果, 很長時間沒有得到大范圍廣泛應用?,F在,隨著深度學習技術的引入,這些問題不復存在,因此, 基于機器視覺的目標檢測技術在軍事上的推廣越來越受到重視。 Zheng 等[1]構建密集反卷積網絡提取目標深層次的語義信息對偽裝人員進行檢測;Fang 等[2]構建強語義膨脹網絡檢測架構, 進一步提高偽裝人員的檢測效果;鄧小桐等[3]通過改進RetinaNet 檢測網絡,對偽裝人員進行檢測。
不過,與普通的目標檢測相比,軍事目標探測有其自身的特殊性,比如戰(zhàn)場環(huán)境的復雜多變,敵對雙方的欺騙和攻擊等,都使得軍事目標探測面臨更加復雜的情況。 而最根本的區(qū)別在于, 軍事目標的探測方和所有方總是敵對的雙方, 因此探測方所需要用來訓練檢測模型的數據不易獲得。 而基于神經網絡的機器視覺系統(tǒng)的能力從根本上依賴所訓練的數據,當數據不完備時,檢測系統(tǒng)的能力就會受到影響。 當然,目標的探測方可以為檢測系統(tǒng)建設必要的數據集, 以反映假想的戰(zhàn)場環(huán)境和敵方目標的特性。 盡管如此,真實的戰(zhàn)場仍會出現難以預測的情況,比如敵方采取的臨時偽裝措施, 敵方對探測平臺的攻擊等。 這些不曾預想的情況究竟會對目標檢測系統(tǒng)造成多大的影響? 為回答這個問題,本文設想了敵方攻擊導致探測距離變遠(導致圖像分辨率降低)和敵方設置了偽裝措施(導致目標顯著性降低)兩種情形,通過對比分析這兩種情況出現和不出現的檢測結果, 試圖說明戰(zhàn)場環(huán)境中不可知因素對機器視覺目標探測的影響。 毫無疑問,這種影響對目標檢測技術和隱身偽裝技術都非常重要。
根據當前目標檢測算法的發(fā)展現狀, 可將其分為三大類。 一類是基于候選區(qū)域的目標檢測算法, 如R-CNN[4]、SPP-Net[5]、Fast R-CNN[6]、Faster R-CNN[7]、Mask R-CNN[8]和R-FCN[9]等。 此類算法先對輸入圖像提取若干個候選區(qū)域,然后對候選區(qū)域進行分類和預測,最后利用非極大值抑制((Non-Maximum Suppression,NMS)消除多余的目標框。 二類是基于回歸的目標檢測算法, 如YOLO[10]、YOLOv2[11]、YOLOv3[12]、YOLOv4[13]、SSD[14]、DSSD[15]和RetinaNet[16]等。 此類算法對輸入圖像直接進行分類和回歸預測。第三類是基于anchor-free 的目標檢測算法。此類檢測模型包含基于關鍵點的檢測和基于分類和回歸進行改進的檢測這兩種,如CornerNet[17]、CenterNet[18]和FCOS[19]等。
本文以Faster R-CNN、YOLOv4 和CenterNet 三種類型的目標檢測算法為基礎, 將該三種模型在單個目標場景下進行多輪迭代訓練, 將迭代損失最小的權重值作為預測權重, 分別對分辨率降低前后和偽裝措施施加前后的測試集目標進行檢測。 本文所用的數據集是在野外現地采集,并對該數據集進行了數據擴展。
由于當前沒有公開的偽裝后的軍事車輛數據集,因此針對當前實驗任務,為貼近實際的戰(zhàn)場偵察環(huán)境,在野外條件下,采集了348 張偽裝后的軍事目標圖片數據,圖像大小為5472×3048,此圖片數據滿足以下兩個特點:
(1)圖片數據包含不同明暗程度,不同俯仰,不同遮擋程度的目標。
(2)圖片數據包含不同尺度的目標,即從不同高度,不同距離對圖像數據進行采集。
(3)通過翻轉,旋轉,裁剪,變形,縮放,顏色增強等數據增強的方式,將原圖片數據庫擴展至1740 張,并采用PASCAL VOC 數據集標注方式, 對擴展后的圖片數據進行標注。 擴展數據集統(tǒng)一標注為Car, 擴充的圖像及其標注如圖1 所示,其 中 圖(a)和 圖(b) 為選取的訓練集中的兩張圖片,圖(c)和圖(d)分別為其對應的標注圖片。
圖1 數據集標注Fig.1 Dataset annotation
對擴展后的軍事目標數據集中的測試集圖像數據,進行不同分辨率的圖像處理,得到當前的不同分辨率的測試集。 圖像分辨率按照原圖大小進行等比例縮小之后,再擴大至原圖大小, 圖像寬度分別設置為600、500、400、300、200 和100, 經過縮小后的圖像,再擴張成原圖尺寸大小,不同分辨率圖像如圖2 所示,其中圖(a)、圖(b)、圖(c)、圖(d)、圖(e)和圖(f)分別為寬度設置分別是100、200、300、400、500和600 下的不同分辨率測試集下的標注圖片。
圖2 不同分辨率數據集標注Fig.2 Different resolution dataset annotation
對擴展后的軍事目標數據集中的測試集圖像數據,施加偽裝措施。 通過對圖像目標周圍的背景特征進行提取,將提取的背景特征對圖像進行不同程度的遮擋。本文選擇測試集1 進行遮擋,形成遮擋測試集。 遮擋數據集標注如圖3 所示。 其中圖(a)和圖(b)分別為選取的遮擋數據集下的兩張標注圖片。
圖3 遮擋數據集標注Fig.3 Occlusion dataset annotation
本實驗所使用的Faster R-CNN、YOLOv4 和Center-Net 三種目標檢測模型, 均是以Tensorflow 作為基礎框架,使用的電腦配置內存128GB,CPU 為i9-10980XE,并使用NVIDIA TITAN V 進行模型訓練的加速并行運算。使得模型迭代運行速度大大提升,模型訓練誤差能夠較快的收斂。 對擴展后的偽裝目標數據集, 按照8:1:1 的比例,將其分為訓練集、驗證集和測試集。
三個目標檢測模型的訓練, 為保證模型在不同背景下預測時,具有較好的識別準確率。 選擇模型多輪迭代訓練后的最低損失權重作為該檢測模型的預測權重。Faster R-CNN 目標檢測網絡模型經過多輪迭代訓練后,損失最低值在0.507 左右, 損失收斂曲線見圖4。YOLOv4 檢測模型經過多輪迭代訓練后, 損失最低值在3.955 左右,損失收斂曲線見圖5。 CenterNet 檢測模型經過多輪迭代訓練后,損失最低值在0.615 左右,損失收斂曲線如圖6 所示。
圖4 Faster R-CNN 訓練損失Fig.4 Faster R-CNN Training loss
圖5 YOLOv4 訓練損失Fig.5 YOLOv4 Training loss
圖6 CenterNet 訓練損失Fig.6 CenterNet Training loss
2.3.1 實驗一
將三個訓練好的目標網絡模型,在驗證集上進行測試,由于該數據集統(tǒng)一標注為Car 這一類,因而,只需通過計算模型在驗證集上的平均準確率(Mean Average Precision,MAP)來衡量模型訓練的好壞,平均準確率(MAP)越高,即該檢測模型的性能越好。 平均準確率(MAP)從精確率(Precision)和召回率(Recall)兩個方面進行衡量。
擴展后的偽裝目標數據集1740 張, 測試集為即174張。 由于在設置時,測試集為隨機選取數據集的10%,因而將在Faster R-CNN、YOLOv4 和CenterNet 三個模型上的測試集分別命名為測試集1、測試集2 和測試集3。
三個目標檢測模型在各自的測試集上的檢測結果如表1 所示。 從表1 各檢測模型在各自測試集上的檢測結果可以看出,三個目標檢測模型檢測效果較好。
表1 不同模型檢測結果對比圖表Tab.1 Comparison of test results of different models
2.3.2 實驗二
分別對測試集1、測試集2 和測試集3 這三個數據集按照原圖寬高比,進行圖像分辨率的調整。為了體現圖像不同分辨率之間的差異, 將其原圖像寬高調整為100×56、200×112、300×168、400×225、500×281 和600×337。 然后再將圖像擴展至原圖比例尺寸。
利用Faster R-CNN、YOLOv4 和CenterNet 三個目標檢測模型在擴展后的分辨率數據集上對Car 這一類目標進行測試,并計算該模型在不同分辨率的圖像數據集上的MAP。
從表2、表3 和表4 的檢測結果可知,Faster R-CNN、YOLOv4 和CenterNet 三個目標檢測模型在各自不同分辨率測試集上的檢測結果, 隨著測試集圖像分辨率的不斷下降,檢測精度也在不斷下降。 從此檢測數據可以看出,檢測模型在充分訓練的情況下, 在敵方攻擊導致探測距離變遠(導致圖像分辨率降低)時,對目標檢測模型檢測結果具有一定的影響。
表2 Faster R- CNN 的檢測結果Tab.2 Test results of Faster R- CNN
表3 YOLOv4 的檢測結果Tab.3 Test results of YOLOv4
表4 CenterNet 的檢測結果Tab.4 Test results of CenterNet
2.3.3 實驗三
對測試集1 中的圖像目標顯著性進行調整, 即降低目標與周圍背景之間的差異。目標與背景差異越大,即顯著性越高。 反之。 具體操作:通過對圖像目標周圍的背景特征進行提取, 將提取的背景特征對圖像進行不同程度的遮擋。 本文選擇測試集1 進行遮擋,形成遮擋數據集。利用Faster R-CNN、YOLOv4 和CenterNet 三個目標檢測模型在遮擋數據集上對Car 這一類目標進行檢測。
各模型的檢測圖如圖7 所示,其中圖(a)、圖(b)和圖(c)分別為Faster R-CNN、YOLOv4 和CenterNet 在遮擋數據集上的識別圖片。 模型在遮擋測試集上的檢測結果如表5 所示,從表中數據可以看出,通過對目標圖像設置偽裝措施(導致目標與背景的顯著性差異降低),模型檢測的MAP 值明顯降低。
圖7 模型識別Fig.7 Model recognition
表5 不同模型檢測結果對比Tab.5 Comparison of test results of different models
為考察戰(zhàn)場環(huán)境因素對機器視覺目標檢測的影響, 本文基于三種目標檢測模型, 對比分析了分辨率降低和偽裝措施增加前后檢測結果的變化。 根據實驗二、實驗三的檢測結果,分別從分辨率和顯著性兩個方面, 對基于機器視覺下的目標檢測模型的影響進行了分析。
從實驗二的模型檢測結果中可以看出, 通過對測試集圖像進行的分辨率調整, 檢測模型對軍事車輛偽裝目標的MAP 也在變化。
從實驗三的模型檢測結果中可以看出, 通過對測試集圖像施加偽裝措施。 導致測試集圖像與背景的顯著性差異變小,模型檢測的MAP 也在降低。
結果表明,對經過多次迭代、訓練效果良好的檢測模型,隨著分辨率的逐漸降低和偽裝目標顯著性的改變,模型探測結果也受到極大影響。 這樣的結果對目標檢測和軍事偽裝都有很好的參考意義。