姚沐風(fēng),昝露洋,李柏鵬,李慶亭,陳正超?
(1 中國科學(xué)院空天信息創(chuàng)新研究院 航空遙感中心, 北京 100094; 2 中國科學(xué)院大學(xué)資源與環(huán)境學(xué)院, 北京 100049)
建筑物是城市和農(nóng)村的重要組成部分,對建筑物的提取一直是遙感的一個重要應(yīng)用。此外,建筑物的變化與社會經(jīng)濟發(fā)展息息相關(guān),是人文地理、城鄉(xiāng)規(guī)劃、土地利用等許多領(lǐng)域分析研究的基礎(chǔ)[1-2],對建筑物變化區(qū)域的提取可為地理國情監(jiān)測提供重要的基礎(chǔ)數(shù)據(jù)[3],對城市擴張進行有效監(jiān)測,促進可持續(xù)發(fā)展[4]。
衛(wèi)星遙感能夠在短時間內(nèi)獲取大范圍的地物信息,從遙感影像中自動地提取建筑物變化信息,大大提升工作效率。傳統(tǒng)遙感影像建筑物變化檢測方法包括變化向量分析法[5]、變化特征提取法[6-7]及分類后處理法等[8-10]。然而,由于不同地區(qū)的建筑物在外形、高度、顏色、風(fēng)格上有著豐富的多樣性,以及同一地區(qū)建筑物在不同時相遙感影像上的異質(zhì)性,傳統(tǒng)方法難以在大范圍場景下自動、準(zhǔn)確地提取建筑物變化區(qū)域。因此,提出一種快速、準(zhǔn)確、適應(yīng)不同場景的建筑物變化檢測方法十分有意義。
深度學(xué)習(xí)方法近年來在圖像處理領(lǐng)域得到迅速發(fā)展:Krizhevsky等提出的AlexNet[11]獲得當(dāng)年ImageNet圖像分類競賽的冠軍;Shelhamer等提出全卷積神經(jīng)網(wǎng)絡(luò)[12],實現(xiàn)了任意圖像大小的端到端的語義分割;Faster-RCNN[13]的提出實現(xiàn)了端到端的高精度圖像目標(biāo)檢測。除常見的圖像識別領(lǐng)域外,深度學(xué)習(xí)方法同樣應(yīng)用到圖像變化檢測領(lǐng)域。
Gong等[14]提出用面向?qū)ο蠓指畹姆绞教崛∽兓瘏^(qū)域,之后用神經(jīng)網(wǎng)絡(luò)判別每個變化塊是否為建筑物變化塊,以輸出像素級建筑物變化檢測結(jié)果。Ji等[15]采用深度學(xué)習(xí)語義分割網(wǎng)絡(luò)從兩時相影像中分別提取建筑物,之后將提取結(jié)果與模擬樣本結(jié)合來訓(xùn)練建筑物變化檢測網(wǎng)絡(luò),以此實現(xiàn)建筑物變化檢測。此類兩階段的方法存在速度慢、誤差累積的問題。端到端的建筑物變化檢測網(wǎng)絡(luò)以2期或多期影像為輸入,直接輸出變化圖,避免了誤差累積問題,且速度更快,較兩階段方法更為高效。單階段深度學(xué)習(xí)變化檢測網(wǎng)絡(luò)中最具代表性的是孿生網(wǎng)絡(luò)。孿生網(wǎng)絡(luò)[16]是一種雙路徑權(quán)重共享的卷積神經(jīng)網(wǎng)絡(luò),在基于神經(jīng)網(wǎng)絡(luò)的圖像變化檢測領(lǐng)域有著廣泛的應(yīng)用。Zhan等[17]提出用共享權(quán)重網(wǎng)絡(luò)結(jié)合對比度損失函數(shù)實現(xiàn)變化檢測。El Amin等[18]利用VGG網(wǎng)絡(luò)[19]挖掘特征圖,然后對多時相特征圖進行PCA變換挖掘變化信息。Daudt等[20]基于哨兵2號衛(wèi)星影像制作了Onera衛(wèi)星變化檢測(OSCD)數(shù)據(jù)集,并提出基于早期融合和基于雙生網(wǎng)絡(luò)的卷積神經(jīng)網(wǎng)絡(luò)用于圖像塊的變化檢測。Bao等[21]提出PPCNET,在孿生網(wǎng)絡(luò)基礎(chǔ)上引入變化塊分支。Jiang等[22]提出PGA-Siames網(wǎng)絡(luò),將變化殘差模塊引入孿生網(wǎng)絡(luò),提高了建筑物變化檢測精度。
以上方法主要通過網(wǎng)絡(luò)結(jié)構(gòu)上的修改以提升網(wǎng)絡(luò)對變化檢測任務(wù)的學(xué)習(xí)能力,未考慮解決建筑物變化檢測樣本不足帶來的精度受限問題。本文除對孿生網(wǎng)絡(luò)結(jié)構(gòu)進行改進以外,還通過分割樣本預(yù)訓(xùn)練的方式充分利用建筑物變化檢測樣本制作過程中的副產(chǎn)品——“建筑物分割樣本”來提升網(wǎng)絡(luò)檢測能力。
綜上所述,本文主要有以下3個貢獻(xiàn)點:
1)在網(wǎng)絡(luò)結(jié)構(gòu)上,以孿生網(wǎng)絡(luò)為基礎(chǔ),提出變化注意力殘差模塊,將變化殘差與注意力機制相結(jié)合,有效提升網(wǎng)絡(luò)對變化特征圖的提取能力,提高了建筑物變化檢測精度。
2)提出利用建筑物分割樣本對網(wǎng)絡(luò)骨架進行預(yù)訓(xùn)練的策略,使得孿生網(wǎng)絡(luò)能充分利用制作成本更加低廉的建筑物分割樣本進行學(xué)習(xí),提高變化檢測精度。
3)本文提出的建筑物變化檢測流程能夠為城鄉(xiāng)規(guī)劃、地理國情監(jiān)測等領(lǐng)域提供重要的方法基礎(chǔ)。
本文基于孿生卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)建筑物變化檢測任務(wù),整體流程如圖1所示。首先,對兩期影像進行幾何配準(zhǔn),輻射校正以緩解影像異質(zhì)性引入的檢測誤差。之后在配準(zhǔn)影像基礎(chǔ)上進行變化檢測樣本標(biāo)記,得到變化檢測數(shù)據(jù)集。在利用數(shù)據(jù)集進行訓(xùn)練之前,在孿生網(wǎng)絡(luò)基礎(chǔ)上提出變化注意力殘差結(jié)構(gòu),構(gòu)建CAR-Siamese網(wǎng)絡(luò)來實現(xiàn)建筑物變化檢測。完成模型構(gòu)建后在新構(gòu)建數(shù)據(jù)集上進行模型訓(xùn)練和參數(shù)調(diào)整、迭代訓(xùn)練,訓(xùn)練過程包括本文提出的建筑物語義分割預(yù)訓(xùn)練和建筑物變化檢測訓(xùn)練。最后,將訓(xùn)練期間得到的最佳模型用于測試集精度評估,并輸出變化檢測預(yù)測結(jié)果圖。
圖1 本文建筑物變化檢測流程圖Fig.1 Flow chart of the proposed building change detection method
CAR-Siamese網(wǎng)絡(luò)整體結(jié)構(gòu)如圖2所示。兩時相影像首先輸入到共享權(quán)重的孿生ResUNet網(wǎng)絡(luò)骨架部分(圖2橙色部分),其中前5層分辨率通過最大值池化逐層遞減為上一層的1/2,分別為ResNet第1個卷積層和第1~4個ResBlock,6~10層通過雙線性插值使分辨率逐層遞增為上一層的2倍,最終輸出與原圖分辨率相同的語義分割圖。網(wǎng)絡(luò)在6~10層產(chǎn)生5對語義特征圖。將5對語義特征圖分別輸入到變化注意力殘差結(jié)構(gòu)中得到5張變化特征圖,通過逐層按通道拼接后上采樣的方式(例如第6層上采樣2倍后與第7層按通道拼接+卷積實現(xiàn)融合,之后繼續(xù)進行7~8層的融合)將5張變化特征圖進行融合,得到最終的變化檢測結(jié)果。
圖2 孿生變化注意力殘差網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Change attention residual siamese network
孿生網(wǎng)絡(luò)的基本思想是利用共享權(quán)重的網(wǎng)絡(luò)骨架輸出兩時相特征圖,并對兩時相特征圖進行差分以突出變化特征。在原始孿生網(wǎng)絡(luò)中,編碼器部分的兩期特征圖直接相減得到變化特征圖,然后通過按通道拼接后上采樣的方式將變化特征圖融合到解碼器部分。Jiang等[22]在此基礎(chǔ)上引入變化殘差模塊來代替特征圖之間的直接差分,有效地提高了變化檢測精度。
本文將變化殘差結(jié)構(gòu)與注意力機制[23]相結(jié)合,提出變化注意力殘差結(jié)構(gòu)。該結(jié)構(gòu)以兩時相特征圖為輸入,以兩期特征圖的差分為變化殘差路徑,以兩期特征圖的融合為變化特征路徑。在變化特征路徑中,兩期特征圖首先按通道拼接,然后對拼接后特征圖進行3×3卷積得到通道數(shù)與拼接前相同的融合特征圖,最后利用通道注意力機制對融合特征圖進行通道加權(quán)。2個分支的特征圖通過相加得到最終變化特征圖。通道注意力機制首先對高、寬、道分別為(h,w,c)的特征圖進行全局平均池化,得到(1,1,c)大小的通道向量,通道向量經(jīng)過2層全連接層和sigmoid函數(shù)得到(1,1,c)大小,值域范圍為[0,1]的注意力向量,該向量與原圖按通道相乘得到通道注意力加權(quán)后的特征圖。圖3展示了本文的變化注意力殘差結(jié)構(gòu)示例。與變化殘差結(jié)構(gòu)相比,本文的變化注意力殘差結(jié)構(gòu)有以下改進:1)利用特征圖按通道拼接后卷積的方式實現(xiàn)兩時相特征圖的融合,與原始變化殘差結(jié)構(gòu)直接相加的方式相比,這種方式允許網(wǎng)絡(luò)學(xué)習(xí)更豐富的特征圖融合模式。2)對融合特征圖采用通道注意力機制進行加權(quán),使得網(wǎng)絡(luò)能夠?qū)χ匾卣鹘o與更高權(quán)重。
Chen和Shi[24]的實驗結(jié)果表明,先用圖像場景分類數(shù)據(jù)訓(xùn)練目標(biāo)檢測或語義分割網(wǎng)絡(luò)的骨架部分進行預(yù)訓(xùn)練,再用自己的數(shù)據(jù)訓(xùn)練目標(biāo)檢測或語義分割網(wǎng)絡(luò),能有效提高網(wǎng)絡(luò)檢測精度。然而圖像場景分類數(shù)據(jù)主要來自于日常生活的手持拍攝,與從天頂往地面拍攝的遙感圖像在視角、光照條件、紋理等方面均存在較大差異,本文受場景分類預(yù)訓(xùn)練的啟發(fā),使用建筑物語義分割樣本訓(xùn)練網(wǎng)絡(luò)骨架,以提升網(wǎng)絡(luò)對建筑物特征的提取與判別能力。建筑物語義分割樣本制作成本低于變化檢測樣本,且變化檢測樣本通常也是由兩期語義分割樣本進行對比得到,故本文提出的這種預(yù)訓(xùn)練策略如果有效,將充分提高建筑物語義分割樣本的利用率,緩解由于變化檢測樣本制作成本高帶來的樣本短缺、網(wǎng)絡(luò)學(xué)習(xí)不充分從而導(dǎo)致模型精度受限的問題。由于本文變化檢測網(wǎng)絡(luò)骨架部分是一個完整的圖像語義分割網(wǎng)絡(luò)結(jié)構(gòu),訓(xùn)練建筑物分割時,只需要將輸入由兩期圖像改為一期圖像,并以骨架部分輸出的分割概率圖作為網(wǎng)絡(luò)最終輸出,配合建筑物語義分割樣本進行訓(xùn)練。語義分割訓(xùn)練完畢后,將訓(xùn)練好的網(wǎng)絡(luò)權(quán)重保存,在開始變化檢測網(wǎng)絡(luò)訓(xùn)練前首先加載骨架部分的預(yù)訓(xùn)練權(quán)重,即完成了用語義分割數(shù)據(jù)對變化檢測網(wǎng)絡(luò)的預(yù)訓(xùn)練。訓(xùn)練變化檢測期間,骨架部分不再輸出語義分割特征圖,網(wǎng)絡(luò)輸出來自5層變化注意力殘差層的融合。
圖3 變化注意力殘差(CAR)結(jié)構(gòu)示意圖Fig.3 Structure of the change attention residual module
本文精度評價指標(biāo)采用圖像分割領(lǐng)域常用的準(zhǔn)確率、召回率、F1-score作為評價標(biāo)準(zhǔn)。準(zhǔn)確率能反映模型檢準(zhǔn)率,召回率能反映模型檢全率。F1-score綜合考慮了模型的精度和召回率,是一種較為全面的檢測精度評價指標(biāo)。具體公式如下
(1)
(2)
(3)
其中:precision表示模型準(zhǔn)確率,recall代表模型召回率。此處TP表示模型判別為正類而真實標(biāo)簽也為正類的像素個數(shù),FP表示模型判別為正類而真實標(biāo)簽為負(fù)類的像素個數(shù),FN表示模型判別為負(fù)類而真實標(biāo)簽為正類的個數(shù)。聯(lián)立化簡可得到F1-score的最終簡化計算公式
(4)
2.1.1 北京市昌平區(qū)建筑物變化檢測數(shù)據(jù)集
圖4 影像直方圖匹配前后效果對比Fig.4 Comparison before and after image histogram matching
本文以北京市昌平區(qū)為研究區(qū)域,以2005年QuickBird(分辨率0.6 m)和IKONOS影像(分辨率0.82 m)為變化前底圖,以2012年WorldViewⅡ影像(分辨率0.5 m)為變化后底圖制作了建筑物變化檢測數(shù)據(jù)集。兩期圖像經(jīng)過人工選擇控制點,二次多項式校正的方式完成幾何配準(zhǔn),偏移控制在一個像素以內(nèi)。以兩時相底圖為基礎(chǔ)分別標(biāo)記兩期建筑物輪廓。變化輪廓通過計算兩期輪廓的并減去兩期輪廓的交得到。由于2005年和2012年影像來自不同衛(wèi)星不同傳感器,其成像質(zhì)量存在明顯差異,2005年影像明顯過暗,而2012年影像則明亮清晰,本文除使用2005年原始影像外,還以2012年影像色彩為基準(zhǔn),對2005年影像進行了直方圖匹配處理。圖4分別展示了2005年原始影像、2005年匹配后影像和2012年影像。
將處理得到的建筑物輪廓和建筑物變化輪廓轉(zhuǎn)化為二值的柵格圖像,其中255表示建筑物或建筑物變化,0表示背景。對配準(zhǔn)的2005年影像、2012年影像、建筑物標(biāo)記影像、建筑物變化標(biāo)記影像大圖進行切割。切圖大小為512×512。舍棄變化標(biāo)簽中不包含變化的圖像,共得到9 216對圖像與標(biāo)簽,按訓(xùn)練集∶驗證集∶測試集 = 7∶2∶1的比例進行訓(xùn)練數(shù)據(jù)劃分,訓(xùn)練集用于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,驗證集用于判別網(wǎng)絡(luò)當(dāng)前精度以指導(dǎo)網(wǎng)絡(luò)參數(shù)的調(diào)整,測試集用于最終精度評價。
2.1.2 Levir-CD建筑物變化檢測數(shù)據(jù)集
為了將本文方法與現(xiàn)有最新變化檢測方法進行對比,本文還在公開數(shù)據(jù)集Levir-CD[25]上開展了建筑物變化檢測實驗。Levir-CD數(shù)據(jù)集由637對1 024×1 024大小的兩時相RGB影像對以及對應(yīng)的建筑物變化標(biāo)簽圖像組成,這些影像位于美國德克薩斯州的多個地區(qū),空間分辨率0.5 m。所有影像來自于2002—2018年間的谷歌影像,兩時相影像間的時間跨度為5~14 a不等。本文在1 024×1 024大小圖像的原圖上對其進行裁切,得到256×256大小的樣本圖像10 192對,與其他現(xiàn)有方法的裁圖保持一致。
為有效考察本文所提出的變化注意力殘差結(jié)構(gòu)和建筑物分割樣本預(yù)訓(xùn)練2種改進措施對建筑物變化檢測精度的提升作用,本文分別在北京昌平數(shù)據(jù)集上設(shè)置4組實驗。其中第1組采用孿生網(wǎng)絡(luò)與原始變化殘差結(jié)構(gòu)的組合,將該組作為基準(zhǔn)模型;第2組在第1組基礎(chǔ)上采用本文的建筑物分割樣本預(yù)訓(xùn)練策略;第3組在第1組基礎(chǔ)上用本文的變化注意力殘差結(jié)構(gòu)替換原始變化殘差結(jié)構(gòu)(基準(zhǔn)模型+CAR);第4組同時使用本文提出的變化注意力殘差結(jié)構(gòu)和分割樣本預(yù)訓(xùn)練策略(基準(zhǔn)模型+CAR+預(yù)訓(xùn)練)。
為了與最新的基于深度學(xué)習(xí)的建筑物變化檢測方法對比,本文在Levir-CD上進行實驗。由于Levir-CD數(shù)據(jù)集只包含建筑物變化檢測標(biāo)簽而不包含建筑物語義分割標(biāo)簽,故分割樣本預(yù)訓(xùn)練環(huán)節(jié)利用北京昌平區(qū)建筑物分割樣本進行預(yù)訓(xùn)練。
在神經(jīng)網(wǎng)絡(luò)參數(shù)設(shè)置方面,所有實驗保持一致:采用Adam優(yōu)化器對網(wǎng)絡(luò)參數(shù)進行訓(xùn)練,學(xué)習(xí)率設(shè)置為以0.000 2為基礎(chǔ)在第30、50、80、110、170、190輪訓(xùn)練周期降為原來的1/2,總訓(xùn)練周期為200輪。每次迭代的樣本批次大小設(shè)置為6。損失函數(shù)選取像素級語義分割常用的二元交叉熵?fù)p失函數(shù)。二元交叉熵?fù)p失函數(shù)(BCELoss)計算公式如下
BCELoss(Yout,Ylabel)=
Ylabellog(Yout)+(1-Ylabel)log(1-Yout).
(5)
其中:Yout表示模型預(yù)測值,范圍為[0,1],Ylabel表示真實標(biāo)簽,為1表示建筑物變化,為0表示背景。
2.3.1 模型改進有效性分析
圖5展示了測試集的檢測結(jié)果對比圖,表1展示了北京昌平數(shù)據(jù)集上的各方法精度對比。從表1可以看到在基準(zhǔn)模型基礎(chǔ)上單獨添加變化注意力殘差結(jié)構(gòu)或分割樣本預(yù)訓(xùn)練策略均能有效提升變化檢測F1-score(分別獲得0.700 3和0.703 2,高于基準(zhǔn)模型的0.688 9),同時使用2種方法時能進一步提升精度,獲得了最高的F1-score:0.712 0。說明本文所提出的2種改進方案均能有效提升建筑物變化檢測精度。從圖5第1行黃色圓圈位置可以看到2種方法相結(jié)合后有效解決了圖中誤檢問題。從第2第3行紅色圓圈位置可以看到2種方法相結(jié)合的檢測結(jié)果漏檢更少,輪廓更完整。
表1 北京昌平數(shù)據(jù)集精度對比Table 1 Accuracy comparison of Changping dataset
2.3.2 同類型網(wǎng)絡(luò)精度對比
本文在Levir-CD公開數(shù)據(jù)集上開展對比實驗,將本文方法與最新的基于深度學(xué)習(xí)的建筑物變化檢測方法STANet[25]和DDCNN[26]進行對比。圖6展示了測試集上檢測結(jié)果對比圖,表2展示了該數(shù)據(jù)集上各方法的測試集精度。
從表2可以看到本文方法的準(zhǔn)確度和召回率均高于0.9,F1-score達(dá)到0.916 6,高于其他同類型深度學(xué)習(xí)方法1.5%以上。
從圖6第1、第2行紅色圓圈區(qū)域可以看到本文方法較其他方法漏檢更少。從圖6第3行黃色圓圈區(qū)域可以看到本文方法較其他方法誤檢更少。
圖5 北京昌平數(shù)據(jù)集測試結(jié)果對比Fig.5 Comparison of testing results of Beijing-Changping dataset
圖6 Levir-CD測試集檢測結(jié)果對比圖Fig.6 Comparison of testing results of Levir-CD dataset
表2 Levir-CD數(shù)據(jù)集精度對比Table 2 Accuracy comparison of Levir-CD
本文在孿生卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上,提出變化注意力殘差結(jié)構(gòu),有效提升了孿生網(wǎng)絡(luò)的變化檢測精度。此外還提出使用建筑物分割樣本對變化檢測網(wǎng)絡(luò)骨架進行預(yù)訓(xùn)練的策略,該策略能充分利用現(xiàn)有建筑物語義分割樣本來訓(xùn)練建筑物變化檢測網(wǎng)絡(luò)。以北京市昌平區(qū)為研究區(qū)域,以2005與2012年影像為底圖,制作了昌平區(qū)建筑物變化檢測數(shù)據(jù)集。在昌平數(shù)據(jù)集上的實驗結(jié)果表明,本文提出的分割樣本預(yù)訓(xùn)練策略和變化注意力殘差結(jié)構(gòu)能夠有效提高建筑物變化檢測精度。在公開數(shù)據(jù)集Levir-CD上的實驗結(jié)果表明,該方法與同類型方法相比具備精度優(yōu)勢。本文提出的建筑物變化檢測流程能為地理國情監(jiān)測提供重要的方法基礎(chǔ)。