潘 健,董 翔,楊玉永,婁世平,徐秀杰,王 宇
1(山東省地震局,濟(jì)南 250014)
2(山東省國(guó)土測(cè)繪院,濟(jì)南 250100)
近年來,我國(guó)“高分”系列和各類商用遙感衛(wèi)星投入使用,無人機(jī)平臺(tái)的快速普及,各類高分辨率航空航天遙感影像數(shù)據(jù)變得越來越容易獲取.高分辨率航空?qǐng)D像為圖像識(shí)別提供了足夠的結(jié)構(gòu)和紋理信息,同時(shí)也對(duì)現(xiàn)有的分割方法提出了新的挑戰(zhàn)[1].近年來,深度學(xué)習(xí)、卷積神經(jīng)網(wǎng)絡(luò)技術(shù)作為機(jī)器學(xué)習(xí)的一個(gè)熱門方向,被引入到遙感圖像處理中,在遙感領(lǐng)域得到廣泛關(guān)注.在高分辨率遙感圖像分割研究中取得了顯著效果[2,3],同時(shí)也在圖像預(yù)處理、基于像素的分類、場(chǎng)景理解、目標(biāo)檢測(cè)4 個(gè)領(lǐng)域[4],推動(dòng)了遙感技術(shù)應(yīng)用方法的創(chuàng)新.
目標(biāo)檢測(cè)屬于遙感圖像處理的一個(gè)子類,但具有特殊的難點(diǎn)與技術(shù)復(fù)雜度,深度學(xué)習(xí)由于其特征提取潛力可以在遙感圖像目標(biāo)檢測(cè)中發(fā)揮重要作用.遙感圖像目標(biāo)由于背景復(fù)雜度高、噪聲大、干擾強(qiáng)等的原因,其目標(biāo)檢測(cè)難度,較客觀物體、人體行為等自然圖像更大.Chen 等[5]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的車輛檢測(cè)算法,Zhang 等[6]、Tang 等[7]和YU 等[8]分別實(shí)現(xiàn)了基于CNN、RCNN、FCN、U-NET 等深度學(xué)習(xí)技術(shù)的油罐、艦船和飛機(jī)目標(biāo)檢測(cè).
有學(xué)者Vakalopoulou 等[9–11]在深度學(xué)習(xí)識(shí)別建筑物輪廓信息領(lǐng)域開展應(yīng)用研究,拓展了深度學(xué)習(xí)的應(yīng)用領(lǐng)域,但以往研究往往局限于城市地區(qū),數(shù)據(jù)源多選擇正視高分辨遙感影像.黑盒深度學(xué)習(xí)和無人機(jī)傾斜攝影技術(shù)方興未艾,兩種技術(shù)的交叉應(yīng)用尚處于起步探索階段,本文以無人機(jī)傾斜攝影圖像為數(shù)據(jù)源,深度學(xué)習(xí)技術(shù)為主要技術(shù)手段,對(duì)村鎮(zhèn)磚(混)木房屋進(jìn)行識(shí)別研究.
基于卷積神經(jīng)網(wǎng)絡(luò)CNN 技術(shù)的目標(biāo)檢測(cè)識(shí)別、圖像分類,豐富了傳統(tǒng)監(jiān)督分類、非監(jiān)督分類、面向?qū)ο蟮冗b感圖像的解譯方法,提高了遙感圖像后期分類處理準(zhǔn)確率[12].Girshick 等于2014年提出了基于候選框的目標(biāo)檢測(cè)分割算法R-CNN[13],使用選擇性搜索策略得到大量目標(biāo)候選框,利用卷積網(wǎng)絡(luò)獲取所有區(qū)域特征,然后對(duì)所有區(qū)域逐一進(jìn)行分類.這也造成了因候選區(qū)域重疊、冗余圖像重復(fù)計(jì)算,而引發(fā)的算力浪費(fèi)問題.He 等[14]將空間金字塔池化層引入R-CNN,從特征圖中提取特征取代了從原圖獲取特征,解決了R-CNN 重復(fù)運(yùn)算的缺點(diǎn),提高了運(yùn)算效率.Girshick 等人在此基礎(chǔ)上提出了Fast R-CNN,每張圖像提取特征圖只通過一次運(yùn)算,再一次提高了算法的效能.候選區(qū)域生成速度緩慢,依然是Fast R-CNN 算法的痛點(diǎn).為解決此問題,Ren 等[15]又提出了Faster R-CNN,增加了區(qū)域建議網(wǎng)絡(luò),使得全局特征圖中的目標(biāo)可以在各個(gè)候選框共享,現(xiàn)了端到端的訓(xùn)練.在Faster R-CNN的基礎(chǔ)上He 等[16]增加了一個(gè)進(jìn)行語義分割的分支得到了Mask R-CNN,并且將原來的ROI Pooling 改為了ROI Align 策略,使得Mask R-CNN 可以保持Faster R-CNN快速的同時(shí),可以完成包括目標(biāo)分類、目標(biāo)檢測(cè)、語義分割、人體關(guān)鍵動(dòng)作識(shí)別等多種任務(wù),刷新了COCO數(shù)據(jù)集上的記錄[16].
本文基于Faster R-CNN 模型,對(duì)村鎮(zhèn)磚(混)木房屋進(jìn)行識(shí)別提取的詳細(xì)步驟如下:
(1)將磚(混)木房屋訓(xùn)練集圖片,導(dǎo)入訓(xùn)練網(wǎng)絡(luò)進(jìn)行訓(xùn)練,利用特征提取網(wǎng)絡(luò)提取磚(混)木房屋的特征圖像,得到的特征圖像由所有候選區(qū)域RPN[17]網(wǎng)絡(luò)和Fast R-CNN 網(wǎng)絡(luò)二者共享.較傳統(tǒng)Fast R-CNN 中Selective Search[18]方法實(shí)現(xiàn)了候選框提取,提高了圖像檢測(cè)精度,減少了重復(fù)訓(xùn)練次數(shù),節(jié)約了計(jì)算機(jī)硬件資源.
(2)候選區(qū)域RPN 網(wǎng)絡(luò)中的Softmax 分類器,對(duì)特征圖像進(jìn)行二分類,確定所劃分錨點(diǎn)(anchors)屬于前景還是背景,同時(shí)利用錨點(diǎn)回歸規(guī)則,得到候選框位置.
(3)Fast R-CNN 結(jié)合特征圖和候選框信息,通過多重卷積層和池化層處理,對(duì)圖像中候選區(qū)域所在部分進(jìn)行特征提取和學(xué)習(xí),識(shí)別前景所屬類別,對(duì)候選區(qū)域進(jìn)行識(shí)別,判斷其是否為磚(混)木房屋目標(biāo),隨即產(chǎn)出檢測(cè)框所在精確位置.
Fast R-CNN 依據(jù)所制作圖片集中訓(xùn)練圖片的標(biāo)注屬性,類似機(jī)器學(xué)習(xí)中的訓(xùn)練樣本的標(biāo)簽,經(jīng)過迭代訓(xùn)練網(wǎng)絡(luò),網(wǎng)絡(luò)中的參數(shù)趨近最優(yōu),增加目標(biāo)識(shí)別精度.技術(shù)流程圖,如圖1所示.
因RPN 網(wǎng)絡(luò)提取候選框的應(yīng)用,使得Faster RCNN 克服了多任務(wù)模塊串行模式,模型誤差不斷收斂,實(shí)現(xiàn)了從輸入端到輸出端的物體檢測(cè).在特征圖傳入全卷積網(wǎng)絡(luò)RPN 后,使用3×3的滑窗生成一個(gè)n 維長(zhǎng)度的特征向量,然后將此特征向量分別傳入回歸層與分類層.在分類層中,使用Softmax 分類器對(duì)anchors進(jìn)行前景或背景的二分判斷.在回歸層中,通過調(diào)整錨點(diǎn)邊框的中心坐標(biāo)與長(zhǎng)寬,擬合出候選框位置[19].另外,在訓(xùn)練過程中,RPN 網(wǎng)絡(luò)需要使用損失函數(shù)分類層損失函數(shù)與回歸層損失函數(shù).
圖1 Faster R-CNN 模型結(jié)構(gòu)
RPN和Fast R-CNN 兩個(gè)網(wǎng)絡(luò)相互獨(dú)立,單獨(dú)網(wǎng)絡(luò)進(jìn)行訓(xùn)練很難得到最終的收斂結(jié)果,本文采用交替訓(xùn)練的思路對(duì)RPN和Fast R-CNN 兩個(gè)網(wǎng)絡(luò)進(jìn)行訓(xùn)練.
首先采用ImageNet 提供的預(yù)訓(xùn)練模型對(duì)RPN 網(wǎng)絡(luò)中的卷積層進(jìn)行參數(shù)初始化,獲得磚(混)木房屋圖像通用特征,并生成候選區(qū)域框.其次,利用RPN 網(wǎng)絡(luò)輸出的特征候選框?qū)ast R-CNN 進(jìn)行訓(xùn)練,得到卷積層實(shí)時(shí)參數(shù),反作用于RPN 網(wǎng)絡(luò),RPN 訓(xùn)練結(jié)束后,僅更新RPN 中特有網(wǎng)絡(luò)層參數(shù).最后固定共享卷積層,并對(duì)Fast R-CNN的全連接層進(jìn)行細(xì)微調(diào)整.通過以上操作,將RPN與Fast R-CNN 兩個(gè)網(wǎng)絡(luò)統(tǒng)一一致,相同的卷積層在兩個(gè)網(wǎng)絡(luò)中得到共享.
為保證樣本集能充分涵蓋不同建筑結(jié)構(gòu)、建筑習(xí)俗的村鎮(zhèn)房屋類型,最大限度增加深度學(xué)習(xí)模型泛化性,采用擴(kuò)大研究區(qū)面積并隨機(jī)選取的原則.沿山東境內(nèi)郯廬斷裂帶兩側(cè)10~20 千米,劃定54 行5×5 千米正方形樣本格網(wǎng),每行格網(wǎng)隨機(jī)選取一個(gè)格網(wǎng),并在其內(nèi)部隨機(jī)選取一個(gè)村鎮(zhèn).根據(jù)測(cè)區(qū)環(huán)境,使用飛馬F200(原始影像分辨率5456×3632)或大疆精靈(原始影像分辨率5472×3648)無人機(jī)進(jìn)行傾斜攝影航測(cè).實(shí)際航測(cè)區(qū)域,如圖2所示.
圖2 傾斜攝影作業(yè)區(qū)
因航測(cè)現(xiàn)場(chǎng)存在平原、丘陵、山地多種地形,及無人機(jī)型號(hào)、電量等客觀條件限制,原始航片地面采樣間隔GSD 不一,但最大不超過3 cm.共獲取54 個(gè)村鎮(zhèn)駐地的航空遙感影像,原始影像集共計(jì)732 GB.
由于無人機(jī)傾斜攝影可以從目標(biāo)正視、左視、后視、后視、俯視5 個(gè)方向進(jìn)行拍攝,故從每個(gè)視角各隨機(jī)選取1100 個(gè)樣本,組成樣本集,共計(jì)5500 個(gè)樣本,如表1所示.
表1 樣本數(shù)據(jù)集組成
本次實(shí)驗(yàn)使用的處理器CPU Intel i7-8700K,顯卡GPU NVIDIA GTX1080Ti,固態(tài)硬盤512 GB,內(nèi)存32 GB.在開源Caffe (Convolutional architecture for fast feature embedding)深度學(xué)習(xí)框架[20]上,采用Python 作為編程語言,實(shí)現(xiàn)本文磚(混)木房屋識(shí)別Faster RCNN 算法.
本文從多個(gè)視角對(duì)磚(混)木房屋目標(biāo)進(jìn)行檢測(cè),房屋訓(xùn)練集圖片的大小統(tǒng)一為200×200,并且將檢測(cè)出的房屋用紅色框標(biāo)出,為了驗(yàn)證該方法檢測(cè)準(zhǔn)確度,將檢測(cè)框概率的閾值設(shè)置為0.81,同時(shí)避免部分和待檢測(cè)目標(biāo)關(guān)聯(lián)度較小的區(qū)域參與計(jì)算,圖像中低于0.81 閾值的目標(biāo)不被框選.雖然RPN 網(wǎng)絡(luò)篩選出的候選區(qū)域數(shù)量較少,但若全部候選區(qū)域都進(jìn)行分類判定,容易引起過擬合現(xiàn)象.本實(shí)驗(yàn)中,檢測(cè)框上部的藍(lán)色區(qū)域即表示房屋的概率大小,被標(biāo)注出的房屋目標(biāo)概率總體高于0.88,如圖3所示.
圖3 磚(混)木房屋識(shí)別結(jié)果
通過實(shí)驗(yàn)結(jié)果可以看出,在拍攝不同角度、光照條件、復(fù)雜背景等條件下,絕大多數(shù)磚(混)木房屋已被標(biāo)記識(shí)別,但存在少量的漏檢、誤標(biāo)問題發(fā)生.小部分土木、石木結(jié)構(gòu)房屋被標(biāo)記,被樹木、高大建筑遮擋的房屋不能得到很好的識(shí)別.
采用平均準(zhǔn)確率Ap(Average precision)作為磚(混)木房屋檢測(cè)的評(píng)價(jià)指標(biāo),相關(guān)計(jì)算公式如下:
其中,Pre—精確率,Rec—召回率,TP—被正確劃分為正樣本的數(shù)量,FP—被錯(cuò)誤劃分為正樣本的數(shù)量,FN—被錯(cuò)誤劃分為負(fù)樣本的數(shù)量.Ap平均精度,平均精度代表模型識(shí)別效果,其值越大效果越好,反之越差.
精確率-召回率曲線,平均精度是對(duì)精確率-召回率曲線進(jìn)行積分,曲線的橫軸召回率表示分類器對(duì)正樣本的覆蓋能力,縱軸精確率表示分類器預(yù)測(cè)正樣本的精準(zhǔn)度,結(jié)果如表2所示.
表2 精度評(píng)價(jià)結(jié)果
綜上研究可知,本文采用的Faster R-CNN 在村鎮(zhèn)磚石木房屋識(shí)別應(yīng)用中取得了良好的效果,在復(fù)雜背景目標(biāo)識(shí)別過程中體現(xiàn)了模型較強(qiáng)的魯棒性.隨著對(duì)測(cè)試集數(shù)據(jù)進(jìn)行,人為降低目標(biāo)大小、提高目標(biāo)遮擋率等操作,模型識(shí)別精度隨之降低,暴露了模型在弱小目標(biāo)識(shí)別、強(qiáng)遮擋等方面的缺陷.同時(shí),針對(duì)本文所用訓(xùn)練數(shù)據(jù)集、驗(yàn)證數(shù)據(jù)集采用Faste R-CNN 進(jìn)行對(duì)比實(shí)驗(yàn),提升了0.2%左右準(zhǔn)確度.
本文雖取得了一定的研究成果,但在此研究方法的基礎(chǔ)上,可進(jìn)一步豐富訓(xùn)練樣本、改進(jìn)算法、優(yōu)化模型參數(shù).提高傾斜攝影圖像建筑物目標(biāo)分類能力,實(shí)現(xiàn)自動(dòng)識(shí)別多類建筑結(jié)構(gòu),達(dá)到產(chǎn)出區(qū)域性地震災(zāi)害風(fēng)險(xiǎn)報(bào)告的中長(zhǎng)期目標(biāo).
推動(dòng)深度學(xué)習(xí)技術(shù)在地震行業(yè)應(yīng)用,是提升防震減災(zāi)能力的有力抓手,更是新時(shí)代防震減災(zāi)工作的內(nèi)在要求.震前和震后開展的各項(xiàng)現(xiàn)場(chǎng)工作,離不開房屋結(jié)構(gòu)數(shù)據(jù)的支持,本研究可起到減少人力成本,提供精準(zhǔn)輔助決策數(shù)據(jù)的關(guān)鍵作用.