基于孿生Transformers 的遙感目標(biāo)多元變化檢測方法*

2023-06-27 08:51:16王得成張宏鋼

火力與指揮控制 2023年5期

郭健，王得成，張宏鋼，許慶

（航天工程大學(xué)，北京 101416）

0 引言

變化檢測是目前遙感領(lǐng)域重要的研究主題之一，其目的是在同一區(qū)域的雙時相遙感影像中檢測出感興趣的變化目標(biāo)。自動變化檢測技術(shù)可以減少大量的勞動力成本和時間消耗，從而廣泛應(yīng)用于城市規(guī)劃［1-2］、軍事偵察以及自然災(zāi)害評估［3-5］。根據(jù)變化圖中變化像素的表現(xiàn)形式，變化檢測可分為二分類和多分類兩種。二分類變化檢測是指在生成的變化圖中用二進制標(biāo)簽（變化和未變化）表示每個對應(yīng)像素的變化情況［6-7］；多分類（又稱多元）變化檢測生成的變化圖中用多元標(biāo)簽表示不同地物的變化情況，提供詳細的“從-到”或“消-長”變化信息［8-9］。

隨著高分辨率衛(wèi)星和航空遙感數(shù)據(jù)的爆炸式增長以及深度學(xué)習(xí)技術(shù)的快速發(fā)展，遙感領(lǐng)域的相關(guān)問題也得到了有效解決，如建筑物檢測、土地分類、地物分割等。但在變化檢測中，高分辨率增加了遙感影像的復(fù)雜性，模型難以區(qū)分場景中的真實變化和無關(guān)變化。目前常用的變化檢測方法是基于卷積神經(jīng)網(wǎng)絡(luò)（CNNs）的深度學(xué)習(xí)模型，該方法利用卷積層強大的特征提取能力，學(xué)習(xí)雙時相影像的變化特征，并通過上采樣恢復(fù)到原來的圖像尺寸，輸出像素級預(yù)測結(jié)果。例如，DAUDT 等提出了兩個孿生全卷積網(wǎng)絡(luò)用于變化檢測，訓(xùn)練過程中分別融合了圖像的差分和圖像的級聯(lián)特征，表現(xiàn)出比傳統(tǒng)方法更好的性能［10］。最近的研究結(jié)果表明，在CNNs 的特征融合階段加入注意力機制，能夠有效改善變化檢測結(jié)果。例如，ZHANG 等在差異判別網(wǎng)絡(luò)中將空間注意力和通道注意力模塊串聯(lián)，用來增強對雙時相融合特征的變化檢測［7］；CHEN 等設(shè)計了一種金字塔時空注意力模塊，建立不同尺度的時空依賴關(guān)系，得到較好的變化檢測效果［11］。然而，由于卷積運算中感受野的局限性，使得CNNs 無法對雙時相影像的遠程上下文關(guān)系很好地建模，并且深層卷積引起的高計算復(fù)雜度導(dǎo)致模型的計算效率降低。因此，基于高分辨率遙感圖像的變化檢測任務(wù)仍然具有挑戰(zhàn)性。

近年來，隨著Transforemrs 模型在計算機視覺領(lǐng)域的廣泛應(yīng)用，為遙感變化檢測提供了新的思路。CHEN 等提出了BIT 檢測器將Transformers 和CNNs 網(wǎng)絡(luò)相融合，利用Transformers 對CNN 提取的變化特征進行建模，雖然改善了檢測效果，但在編碼階段仍然沒有脫離CNN 的卷積操作，編碼效率依然不高［12］。BANDARA 等提出了ChangeFormer 檢測器，采用了Transformers 編碼器與多層感知機（MLP）解碼器相結(jié)合的方式，提升了多尺度遠程變化檢測的效率，但簡單的MLP 解碼器結(jié)構(gòu)難以適應(yīng)具有不同類別的復(fù)雜多元變化檢測任務(wù)［13］。

目前大多數(shù)方法還是針對二分類變化檢測，對于不同類別目標(biāo)的“消失”“新增”等變化情況鮮有研究。本文針對飛機和艦船兩類常見軍事目標(biāo)的變化情況，提出了一種基于孿生Transformers 的多元變化檢測方法，對于雙時相變化檢測任務(wù)而言，孿生網(wǎng)絡(luò)不僅有利于同時提取前后時相的圖像特征，還通過權(quán)值共享策略減少了模型參數(shù)量，以此更加高效地獲取變化信息。提出方法的主要貢獻為：1）在特征編碼階段利用Transformers 代替了CNNs，更好地對雙時相圖像的遠程語義信息進行建模，提高了模型計算效率；2）設(shè)計了融合Transformers 模塊，整合了不同深度Transformers 的特征信息，進一步挖掘了Transformers 在遙感變化檢測任務(wù)中的潛力；3）構(gòu)建了軍事目標(biāo)變化檢測的小型數(shù)據(jù)集，并且通過對多元目標(biāo)變化的快速檢測，嘗試為戰(zhàn)場提供穩(wěn)定可靠的軍事偵察情報。

1 視覺Transformers 模型

Transformers 是VASWANI 等在2017 年提出的基于自注意力的深度學(xué)習(xí)模型，最初在自然語言處理領(lǐng)域用于解決序列到序列任務(wù)［14］。Transformers對遠距離依賴關(guān)系建模的有效性引起了廣大學(xué)者對其在計算機視覺領(lǐng)域的應(yīng)用。自首個基于Transformers 的圖像分類模型Vision Transformers（ViT）［15］被提出后，用于遙感任務(wù)的Transformers 變體層出不窮，如遙感目標(biāo)檢測［16］、語義分割［17］以及遙感圖像分類［18］等。

Transformer 模型的成功很大程度上得益于自我注意機制，該機制旨在捕捉序列元素之間的遠距離關(guān)系，能夠在不依賴任何卷積網(wǎng)絡(luò)的情況下并行處理順序數(shù)據(jù)。ViT 利用Transformer 的編碼器模塊，通過將圖像塊序列映射到語義標(biāo)簽來執(zhí)行分類，與通常使用具有局部感受野的過濾器的傳統(tǒng)CNN 架構(gòu)不同，ViT 中的注意力機制使其能夠關(guān)注圖像的不同區(qū)域并整合全部圖像的信息。圖1 為Transformers的基本結(jié)構(gòu)以及其中多頭注意力模塊（multi-head self-attention，MSA）的原理圖。Transformers 由MHSA、多層感知機（multi-layer perceptron，MLP）和兩個歸一化層（norm）組成，并采用殘差連接增強信息交互。Transformers 的核心模塊是自注意力（selfattention，SA），自注意力的輸入是根據(jù)語義tokens計算得到的三元組（query：q，key：k，value：v），其表達式如下：

圖1 Transformers 和MSA 模塊的基本結(jié)構(gòu)圖Fig.1 Basic block diagram of Transformers and MSA modules

所謂多頭注意力就是指在Transformers 中并行執(zhí)行多個單獨的自注意力模塊，在不同的位置聯(lián)合處理來自不同表示子空間的信息，并將輸出連接在一起線性投射出最終的值。其過程如式（3），h 為注意力頭的個數(shù)；表示MSA 的線性投影矩陣。

視覺Transformers 編碼器的輸入一般為帶有位置信息的圖像塊向量，它們經(jīng)過上述Transformers的特征建模后，得到了具有長距離上下文信息的新向量（Tokens），用于提高計算機視覺領(lǐng)域分類、檢測和分割等任務(wù)的效率。

2 孿生Transformers 的變化檢測方法

本文提出的孿生Transformers 變化檢測模型主要由3 部分組成：圖像塊線性映射與位置編碼、多級融合Transformers 編碼器以及基于軸向注意力的變化圖預(yù)測，圖2 為本文模型的整體結(jié)構(gòu)圖。

圖2 提出的孿生Transformers 變化檢測模型結(jié)構(gòu)圖Fig.2 Structure diagram of the proposed twin Transformers change detection model

2.1 圖像塊線性映射與位置編碼

在Transformers 進行全局上下文建模之前，首先要將圖像轉(zhuǎn)化為序列。類似于自然語言處理中的標(biāo)記器（tokenizer）將輸入的句子轉(zhuǎn)化為幾個單詞，視覺Transformers 將整個圖像拆分為幾個視覺tokens 作為編碼器的輸入。不同于TransCD［19］等方法先將圖像經(jīng)過CNN 提取特征，本文為了節(jié)省模型容量，減少不必要的計算成本，直接將輸入圖像T1和T2轉(zhuǎn)化為帶有可學(xué)習(xí)位置編碼的tokens1 和tokens2，該過程可定義如下：

其中，xi表示Ti時刻遙感影像；E 表示線性映射操作，將輸入圖像（H×W×3）轉(zhuǎn)化為（）。如圖2 所示，C 是token 的維度，L 是token 的總數(shù)。F 函數(shù)表示降維和轉(zhuǎn)置操作，將經(jīng)過線性映射的tokens 轉(zhuǎn)化成（L×C）形狀。最后在語義token 中加入可學(xué)習(xí)的位置編碼以保留位置信息。

簡言之，輸入圖像塊經(jīng)過線性映射與位置編碼后轉(zhuǎn)化為序列向量，用于輸入到Transformers 編碼器中進行上下文建模，從而獲得具有遠距離語義信息的特征向量。

2.2 多級融合Transformers 編碼器

為了減少模型參數(shù)和顯存消耗，本文利用權(quán)值共享的孿生Transformers 分別進行雙時相遙感影像的特征編碼?？紤]到一個Transformers 模塊難以對復(fù)雜語義特征進行上下文建模，因此，本文提出了多級融合的策略，將帶有位置信息的圖像塊向量輸入多個Transformers 編碼器對不同層級特征建模；把每個Transformers 中的輸出向量級聯(lián)后作為最后一層融合Transformers 的輸入，整合不同深度的編碼特征；最后，將雙時相編碼特征逐像素相減得到差異圖。其中，多級Transformers 的融合過程如式（5）所示：

式中，Q，K，V 分別為多級Transformers 融合后的query、key 和value；T 為上一層輸出的Tokens；l 表示多級Transformers 的層數(shù)。因此，本文提出的融合Transformers 是將整個編碼器中的所有Transformers層的query、key 和value 整合為包含不同深度信息的Q，K，V，再將其輸入到最后的Transformers 層中，進行特征建模。

2.3 基于軸向注意力的變化圖預(yù)測

經(jīng)過多級融合Transformers 編碼器的特征向量還需要上采樣和分類等解碼步驟才能獲得最終變化圖。本文旨在遙感圖像中檢測飛機和艦船的變化情況，需要對其微小變化十分敏感，而現(xiàn)有的基于CNN 的解碼器難以滿足較高的精確度。因此，在解碼階段提出了一種基于軸向注意力的變化圖預(yù)測方法，將編碼后的特征向量上采樣到與原始圖像相同大小，分別經(jīng)過圖像3 個維度上的軸向注意力模塊，并與輸入向量殘差連接，最后經(jīng)過由兩個卷積塊構(gòu)成的輕量級分類器獲得每個像素對應(yīng)的變化類別，從而生成多元變化圖。

軸向注意力機制［20］將三維向量的自注意分解為3 個步驟，依次在高度軸和寬度軸以及通道軸上應(yīng)用一維自注意機制，按順序組合可以捕獲遠全局上下文信息。這種做法可以減少計算復(fù)雜度，能夠在大區(qū)域內(nèi)捕獲更遠距離的依賴關(guān)系。將經(jīng)過軸向注意力后的特征與之前特征通過殘差連接，增強變化特征的同時抑制了無關(guān)信息，將原始特征中豐富的語義信息解碼到變化圖中?；谳S向注意力的上采樣過程可以表示如下：

其中，AxH，AxW，AxC分別表示高度、寬度和通道維度的軸向注意力；x 為原始特征；Up 表示上采樣模塊；Z 為x 經(jīng)過上采樣輸出的特征。圖3 為軸向注意力的示意圖。

圖3 三維軸向注意力模塊原理示意圖Fig.3 Schematic diagram of 3D axial attention module

通過軸向注意力得到豐富的變化信息，再利用卷積層和Sigmoid 函數(shù)將其進行像素分類。在生成的多元變化圖中以不同顏色的像素表示飛機和艦船的出現(xiàn)與消失情況，旨在為軍事偵察提供快速高效的戰(zhàn)場情報。

3 實驗過程與結(jié)果分析

本章對提出的基于孿生Transformers 的多元變化檢測方法進行訓(xùn)練與測試，與其他流行方法進行對比，并根據(jù)實驗結(jié)果展開分析。

模型的實驗平臺為搭載Titan RTX GPU 和Intel（R）Xeon（R）W-2245 CPU（3.9 GHz，256 GB RAM）的服務(wù)器。實驗使用Pytorch 深度學(xué)習(xí)框架，將batchsize 設(shè)置為32，訓(xùn)練周期為200 個epoch，訓(xùn)練每個epoch 后驗證模型，并將驗證集上的最佳模型用于在測試集上評估。訓(xùn)練過程使用帶動量的隨機梯度下降（SGD）算法對模型進行優(yōu)化，動量設(shè)置為0.99，權(quán)重衰減為0.000 5。初始學(xué)習(xí)率為0.01，隨著迭代次數(shù)增加，學(xué)習(xí)率呈線性下降。

3.1 數(shù)據(jù)集介紹

本文使用的變化檢測數(shù)據(jù)集來自光學(xué)衛(wèi)星“吉林一號”拍攝的雙時相遙感影像，主要覆蓋北京大興機場、福克斯空軍基地、橫須賀海軍基地、紐約港口、圣迭戈軍事基地5 個場景。標(biāo)注的變化目標(biāo)有飛機和艦船兩類，變化類型為“未變化”“飛機消失”“飛機出現(xiàn)”“艦船消失”“艦船出現(xiàn)”5 種。每組數(shù)據(jù)中，前后時相的兩張圖片各自對應(yīng)一張標(biāo)注圖，表示發(fā)生變化的目標(biāo)及類別，空間分辨率均為0.5 m～1 m。圖4 所示為數(shù)據(jù)集的部分樣本示例，不同顏色像素代表不同類別的變化目標(biāo)。前兩行分別為同一區(qū)域前后時刻的遙感影像，最后一行是兩種目標(biāo)的變化參考圖。

圖4 數(shù)據(jù)集的部分樣本示例圖Fig.4 Partial sample example of datasets

由于整張遙感影像較大，為了減輕顯存壓力，將其剪裁為256×256 大小，以便網(wǎng)絡(luò)的訓(xùn)練與測試，從中挑選出包含變化像素的圖像塊作為樣本構(gòu)建數(shù)據(jù)集。經(jīng)過剪裁、旋轉(zhuǎn)等數(shù)據(jù)增強，最終制備的數(shù)據(jù)集共包含1 511 對雙時相影像，其中，訓(xùn)練集、驗證集、測試集圖像對分別為1 211，240 和150。

3.2 對比方法與評價指標(biāo)

為了準(zhǔn)確評估并比較本文方法的多元變化檢測性能，下面介紹幾種流行的變化檢測方法用于對比實驗。

1）U-Net++CD［21］：基于改進U-Net++ 的變化檢測模型，將雙時相圖像級聯(lián)后輸入到U-Net++網(wǎng)絡(luò)中，在解碼器中利用深度監(jiān)督策略，生成精確的變化圖。

2）IFN［7］：一種基于空間和通道注意力的深度監(jiān)督網(wǎng)絡(luò)，采用U-Net 作為編碼-解碼器的基本架構(gòu)，通過注意力模塊增強雙時相特征在解碼階段的融合。

3）BIT［12］：基于Transformers 的編碼器-解碼器變化檢測模型，利用Transformers 對CNN 提取的雙時相特征進行上下文建模，然后通過轉(zhuǎn)換器解碼器提煉原始特征，以預(yù)測變化圖。

4）ChangeFormer［13］：一種基于分層結(jié)構(gòu)的Transformers 變化檢測模型，在孿生網(wǎng)絡(luò)架構(gòu)中將多層Transformer 編碼器與MLP 解碼器相結(jié)合，以有效獲取多尺度遠程準(zhǔn)確變化檢測所需的詳細信息。

本文使用精確度（Pr）、召回率（Re）、交并比（IoU）和F 1 分數(shù)4 項指標(biāo)來評估預(yù)測變化圖和參考變化圖之間的一致性。其中，IoU 是語義分割任務(wù)中的常用指標(biāo)，F(xiàn) 1 分數(shù)是衡量二分類模型整體性能的綜合指標(biāo)，在多分類變化檢測中計算每個類別的指標(biāo)后取平均作為最終指標(biāo)。上述指標(biāo)的定義如下所示：

其中，TP、FP 和FN 分別代表真陽性、假陽性和假陰性的像素數(shù)。

3.3 實驗結(jié)果分析

本文提出的基于孿生Transformers 的遙感目標(biāo)多元變化檢測方法，與上述4 種對比方法在變化檢測數(shù)據(jù)集中進行了訓(xùn)練與測試，其部分檢測結(jié)果如圖5 所示。通過定性對比實驗結(jié)果可以看出，本文方法在關(guān)于飛機和艦船的變化檢測數(shù)據(jù)集中生成的多元變化圖效果最佳，利用遠距離上下文的語義信息可以更好地對變化特征進行建模，并且減少對偽變化區(qū)域的誤判。在4 種對比方法中，U-Net++CD和IFN 是基于CNN 的變化檢測模型，而BIT 和ChangeFormer 是基于Transformers 的變化檢測模型。在圖5 的實驗結(jié)果中，基于Transformers 模型的結(jié)果（圖5（d）、圖5（e））明顯比CNN 模型的結(jié)果（圖5（f）、圖5（g））具有更高的檢測精度，這是由于Transformers 具有對遠距離語義信息的強大建模能力，使得變化檢測中能夠獲取更多全局特征，改善了CNN感受野的局限性。然而基于Transformers 模型對于部分變化目標(biāo)的召回率卻不如CNN，如圖5 最后一個場景中，IFN 方法（e）檢測到兩艘消失的艦船，而BIT 方法（f）只檢測出一艘，并且對于變化目標(biāo)的形狀表示不夠準(zhǔn)確。相比于4 種對比方法，本文方法得到的實驗結(jié)果（h）不僅具有更高的檢測精度，生成多元變化圖中對變化目標(biāo)的形狀描述也具有更好的完整度。

圖5 不同方法在本文數(shù)據(jù)集中變化檢測結(jié)果圖Fig.5 Change detection results of different methods in the proposed dataset

為了準(zhǔn)確驗證本文模型的變化檢測性能，定量評價了上述對比方法和本文方法的相關(guān)指標(biāo)，如下頁表1 所示。通過比較可以看出，本文方法在除了“艦船消失”外的所有變化類別中都取得了最優(yōu)指標(biāo)，平均IoU 和F1 分數(shù)分別達到了68.69%和80.43%。另外，基于Transformers 的3 種模型性能明顯優(yōu)于CNN 模型，其中，ChangeFormer 方法對“艦船消失”類別的變化檢測較為敏感?？梢奣ransformers 的遠距離建模性能比CNN 更適合于多元變化檢測任務(wù)，易于捕捉到更加精確的變化目標(biāo)。

表1 變化檢測方法在多元數(shù)據(jù)集上的評價指標(biāo)Table 1 Evaluation metrics of change detection methods on the multiple dataset

3.4 消融實驗

本文提出的基于孿生Transformers 的多元變化檢測方法中主要貢獻有兩方面：1）在編碼階段構(gòu)建多級Transformers 融合網(wǎng)絡(luò)對不同深度特征建模；2）在解碼階段中加入軸向注意力機制生成更精確的多元變化圖。為了進一步驗證多級Transformers融合以及軸向注意力對于多元變化檢測的效果，并確定編碼器中Transformers 的層數(shù)，在本節(jié)中進行了消融實驗。

表2 中展示了在編碼階段通過訓(xùn)練不同層數(shù)的多級Transformers 后得到的測試結(jié)果，Transformers層數(shù)分別取2，3，4，5，6，7?？梢钥闯鰧訑?shù)越多，模型普遍對于變化檢測的召回率越高，而層數(shù)越少，模型的準(zhǔn)確度越高。當(dāng)層數(shù)為4 時，綜合評價指標(biāo)平均IoU 最高；當(dāng)層數(shù)為6 時，平均F1 分數(shù)最高，然而比4 層Transformers 僅高出0.3%，卻增加了大量的計算成本。因此，為了準(zhǔn)確全面地檢測到變化目標(biāo)，并且能夠相對節(jié)約計算資源，本文模型的編碼階段最終選擇4 層Transformers 融合進行上下文建模。

表2 多級Transformers 層數(shù)對變化檢測結(jié)果的影響Table 2 Effect of the number of multi-level transformers layers on the change detection results

在確定Transformers 的層數(shù)（L）后，對Transformers 融合機制以及注意力模塊的作用進行了驗證，結(jié)果如表3 所示。從表中可以得出，僅引入Transformers 融合機制后，平均IoU 和F 1 分數(shù)分別提升5.13%和5.23%；僅加入軸向注意力模塊后，平均IoU 和F 1 分數(shù)分別提升7.67%和7.39%；同時增加兩者后，模型的變化檢測性能大幅提升，平均IoU和F 1 分數(shù)分別增加10.32%和9.51%。因此，本文提出的兩點貢獻對多元變化檢測模型的性能提升明顯，其中，在解碼階段以殘差連接方式加入軸向注意力對于模型效果的提升更為顯著。

表3 Transformers 融合機制和軸向注意力的消融實驗結(jié)果Table 3 The ablation experiment results of the Transformers fusion mechanism and axial attention

4 結(jié)論

針對雙時相遙感影像目標(biāo)的多元變化檢測問題，提出了一種基于孿生Transformers 的多級融合網(wǎng)絡(luò)。將圖像轉(zhuǎn)化為序列向量輸入Transformers網(wǎng)絡(luò)，融合4 個級聯(lián)的Transformers 對不同深度特征的語義信息進行建模，最后，引入殘差連接的軸向注意力模塊解碼變化目標(biāo)，生成多元變化圖。

本文利用遙感影像構(gòu)建了包含飛機和艦船軍事目標(biāo)變化情況的數(shù)據(jù)集，并在變化檢測數(shù)據(jù)集上訓(xùn)練和測試了提出的模型和其他流行的對比方法。經(jīng)過定量評價和定性分析表明，提出的方法能夠有效檢測飛機和艦船的變化情況，并生成準(zhǔn)確完整的多元變化圖，平均IoU 和F 1 分數(shù)分別達到68.69%和80.43%，顯著優(yōu)于其他流行方法。通過消融實驗，驗證了本文提出的多級Transformers 融合策略和基于殘差連接的軸向注意力機制的有效性，兩種改進的引入使得模型的平均F 1 分數(shù)分別增加5.23%和7.39%。目前，基于Transformers 的變化檢測模型還在研究初期，如何減少模型參數(shù)、提高模型效率將是下一步的研究重點。