• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于多任務聯(lián)合學習的跨視角地理定位方法

      2023-05-24 03:19:16王先蘭周金坤
      計算機應用 2023年5期
      關鍵詞:視圖檢索衛(wèi)星

      王先蘭,周金坤,穆 楠,王 晨

      (1.武漢郵電科學研究院,武漢 430074;2.四川師范大學 計算機科學學院,成都 610101;3.南京烽火天地通信科技有限公司,南京 210019)

      0 引言

      跨視角地理定位(cross-view geo-localization)指從不同視角(如地面、無人機(Unmanned Aerial Vehicle,UAV)、衛(wèi)星視角)檢索相似度最高的圖像,將無地理標記的圖像與數(shù)據(jù)庫中有地理標記的圖像進行匹配,從而實現(xiàn)定位任務[1-4],被廣泛應用于航空攝影、機器人導航、精準交付[5-6]等領域。在數(shù)字地圖時代,通常需要估計給定圖像的空間地理位置,隨著計算機視覺技術的發(fā)展,基于跨視角圖像匹配的跨視角地理定位技術成為一種有效且穩(wěn)定的解決方案。早期的跨視角地理定位研究是基于地面視圖(平行視角)和衛(wèi)星視圖(垂直視角)之間的圖像匹配[7-13]。然而,這兩個視圖圖像的成像方式有很大不同:攝像機于地面的拍攝角度近乎平行于地平線,與衛(wèi)星的拍攝角度近乎垂直于地平線。由于地面和空中視圖之間視點的劇烈變化會導致嚴重的空間域差(domain gap)問題,因此,跨視圖地理定位仍然是一項非常具有挑戰(zhàn)性的任務。

      隨著無人機技術的發(fā)展,它已被廣泛應用于各個領域,如植被細分[14]、車輛監(jiān)測[15]、建筑提?。?6]等。與傳統(tǒng)的地面圖像相比,無人機圖像的遮擋物更少,它提供了接近45°視角的真實視點。傾斜視角相較于平行視角更接近垂直視角,這更適合跨視角地理定位。因此,為了彌補地面-衛(wèi)星跨視角地理定位方法的不足,Zheng 等[17]引入無人機視角,通過無人機圖像與衛(wèi)星圖像匹配解決跨視角地理定位的問題。此外,它還可適用于兩個新應用:1)無人機定位,即給定無人機圖像,在參考衛(wèi)星圖像中檢索相同位置的圖像;2)無人機導航,即給定衛(wèi)星圖像,在無人機圖像中找到它經(jīng)過的最相關位置圖像,如圖1 所示。其中:A 表示給定無人機視圖,查詢對應衛(wèi)星視圖,執(zhí)行無人機定位任務;B 表示給定衛(wèi)星視圖,查詢對應無人機視圖,執(zhí)行無人機導航任務。然而,無人機視圖(傾斜視角)和衛(wèi)星視圖(垂直視角)之間的圖像匹配算法仍處于探索階段。目前,用于上述兩種應用的現(xiàn)有跨視角地理定位方法[17-25]大多只學習基于圖像內容的視點不變特征,并沒有考慮無人機與衛(wèi)星視圖之間的空間對應關系。

      圖1 無人機圖像定位和導航任務示意圖Fig.1 Schematic diagram of UAV image localization and navigation tasks

      Zheng 等[17]將無人機視角引入跨視圖地理定位問題中提出的University-1652 數(shù)據(jù)集包含了地面街景、無人機、衛(wèi)星三個視圖的圖像。他們首次將跨視角圖像匹配方法應用在無人機視圖與衛(wèi)星視圖的匹配中,取得了不錯的效果,實現(xiàn)了無人機定位和導航任務。但該方法忽略了鄰近區(qū)域的上下文信息,因此Wang 等[18]采用方形環(huán)特征切分策略實現(xiàn)了上下文信息的端到端學習。He 等[19]基于顯著性特征將特征劃分為前景與背景,利用背景特征作為輔助信息,使圖像更具鑒別性。Ding 等[20]提出了一種基于位置分類的跨視角圖像匹配方法,緩解了衛(wèi)星圖像與無人機圖像之間輸入樣本不平衡帶來的影響。為了減小圖像縮放、偏移對圖像匹配的影響,Zhuang 等[21]改進了Wang 等[18]提出的方形環(huán)特征切分策略,此外還利用注意力機制提取更加有效的特征;Dai 等[22]引入Transformer 作為骨干網(wǎng),提取圖像的熱力圖,然后基于熱力圖進行特征切分、對齊、匹配,以增強模型理解上下文信息和實例分布的能力。田曉陽等[26]首次將視角轉換方法引入無人機-衛(wèi)星跨視角地理定位中,在LPN((Local Pattern Network)[18]檢索模型基礎上顯著提升了無人機定位和導航性能;但該方法將視角轉換模型割裂地視為視點不變特征檢索模型和預訓練模型,兩個模型的訓練彼此獨立,未充分發(fā)揮神經(jīng)網(wǎng)絡的聯(lián)合學習功能。周金坤等[25]在統(tǒng)一的網(wǎng)絡架構下學習全局和局部特征,以多監(jiān)督方式訓練分類網(wǎng)絡并執(zhí)行度量任務,同時提出多視角平衡采樣策略以及重加權正則化策略來緩解數(shù)據(jù)集視角樣本不平衡導致的訓練問題。以上方法均直接提取無人機視圖和衛(wèi)星視圖間幾何一致且顯著的視點不變特征,但依然難以消除域差過大帶來的視覺外觀畸變、空間布局信息缺失等影響。因此,本文將視角轉換方法應用于無人機與衛(wèi)星圖像間的跨視角地理定位中,采用視角轉換模型與視點不變特征提取模型聯(lián)合訓練的方式,為無人機定位和導航任務提供新的思路。

      本文針對視點不變特征與視角轉換方法割裂導致的性能提升瓶頸問題,從決策級層面出發(fā),以深度特征對抗決策為基礎,提出了多任務聯(lián)合學習模型(Multi-task Joint Learning Model,MJLM)。MJLM 的主要思想是在一個聚合框架體系內聯(lián)合處理跨視角(無人機-衛(wèi)星視圖)圖像生成任務以及檢索任務,實現(xiàn)基于視角轉換與視點不變特征方法的融合。具體來說,本文將給定的一對無人機圖像和衛(wèi)星圖像映射到它們的潛在特征空間并建立聯(lián)系,使用這些特征來完成這兩個任務。一方面,后置檢索任務確保生成衛(wèi)星圖的內容和紋理無限接近于真實衛(wèi)星圖;另一方面,前置生成任務使MJLM 在兩個視域之間學習幾何一致的特征,初步彌合空間域差,這將有利于無人機定位任務。MJLM 是一個端到端的方法,通過無人機圖像創(chuàng)建類似真實的衛(wèi)星圖,并同時匹配相應的真實衛(wèi)星圖從而實現(xiàn)無人機定位任務。此外,不同于地面與衛(wèi)星視圖間的相關工作[13,27-29],本文通過探索無人機-衛(wèi)星目標場景的幾何結構,使用經(jīng)逆透視映射(Inverse Perspective Mapping,IPM)坐標變換后的無人機圖像作為跨視角生成對抗網(wǎng)絡(Cross-View Generative Adversarial Network,CVGAN)的輸入,因為透視變換后的圖像與衛(wèi)星圖像的空間布局更為接近。

      本文的主要工作如下:

      1)提出了無人機視圖與衛(wèi)星視圖間的跨視角圖像生成模型。

      2)結合顯式的基于IPM 的坐標轉換方法與隱式的生成對抗方法,在不依賴任何先驗語義信息的情況下,基于無人機圖像生成內容真實、平滑且?guī)缀慰臻g一致的衛(wèi)星圖像。

      3)提出了多任務聯(lián)合學習模型MJLM 實現(xiàn)無人機定位任務。該模型聯(lián)合考慮圖像生成和檢索任務,將兩個任務集成到一個聚合架構中,將視角轉換方法應用在衛(wèi)星與無人機間的跨視角匹配任務中,初步彌合了空間域差,實現(xiàn)了與視點不變特征方法的融合。

      4)在最新提出的無人機數(shù)據(jù)集University-1652 上進行了大量實驗驗證,結果顯示本文方法相較于基線方法有了很大的性能提升,相較于現(xiàn)有跨視角地理定位方法取得了最優(yōu)性能。此外,實驗結果表明本文方法可以作為現(xiàn)有工作的補充,與先進方法融合可以進一步提高性能。

      1 多任務聯(lián)合學習模型

      本文提出的多任務聯(lián)合學習模型MJLM 由前置圖像生成模型(網(wǎng)絡架構如圖2 所示)和后置圖像檢索模型組成。首先,通過IPM 將無人機圖像進行坐標轉換,使它的內容映射到近似于衛(wèi)星視角的投影衛(wèi)星圖,實現(xiàn)無人機圖像從傾斜視角到垂直視角的初步轉換;然后,將投影衛(wèi)星圖通過CVGAN 生成內容保留、紋理真實的生成衛(wèi)星圖(垂直視角);最后,通過后置檢索模型進行生成衛(wèi)星圖與真實衛(wèi)星圖的圖像匹配,學習更顯著的視點不變特征。MJLM 將這些模塊聚合在一起,相互激勵,實現(xiàn)端到端的無人機定位。

      圖2 基于視角轉換的前置圖像生成模型Fig.2 Proactive image generation model based on view transformation

      1.1 基于IPM的坐標變換

      無人機視圖與衛(wèi)星視圖由于視角不同,存在著巨大的空間域差,直接采用神經(jīng)網(wǎng)絡隱式地學習不同視角域的映射可能會存在收斂過慢、擬合效果不好等問題。本文采用了一種基于IPM 的坐標轉換算法,顯式地通過IPM 將無人機圖像映射為衛(wèi)星圖像,可以粗略地縮小兩個視域的幾何空間域差。

      透視變換可以看成是一種特定的單應性變換,可以將同一個三維物體分別投影到2 個不同投影平面下的2 幅圖像聯(lián)系起來。常采用逆透視映射實現(xiàn)這種二次投影變換。逆透視映射在數(shù)學上為透視變換的逆過程,可以消除由于透視效應引起的“近大遠小”問題,將具有透視形變的斜投影圖變?yōu)檎队皥D。

      考慮到數(shù)據(jù)集University-1652[17]中的圖像并未提供攝像機參數(shù)或者平面位置的任何信息,無法根據(jù)攝像機參數(shù)模型進行逆透視映射。而數(shù)據(jù)集中提供了以每個目標建筑點為中心的無人機視圖和衛(wèi)星視圖,所以本文可以利用對應點對單應變換法進行逆透視映射。

      令無人機圖的像空間坐標系統(tǒng)繞Y軸旋轉φ,繞Xφ軸旋轉ω,繞Zφω旋轉κ后可以得到與衛(wèi)星圖像空間坐標系平行的坐標系(如圖3 所示),經(jīng)平移即可實現(xiàn)兩者重合。則兩者關系如式(1)所示:

      圖3 無人機定位場景的IPM示意圖Fig.3 Schematic diagram of IPM of UAV localization scene

      其中:T=[xt yt zt]T是平移矩陣;RφRωRκ為3 × 3 的旋轉矩陣,可表達為:

      經(jīng)變換得:

      其中:A={aij}3×3為透視變換矩陣;[x',y',1]T為轉換后的目標點坐標,即無人機圖Is通過透視變換生成的投影衛(wèi)星圖Ips。

      將式(3)變換為等式形式,輸入圖像與輸出圖像的對應關系為:

      其中:(x,y)為源圖像坐標,即無人機圖Iu(斜向視角)坐標;(x',y')為目標圖像坐標,即投影衛(wèi)星圖Ips(垂直視角)坐標。

      按照對應點對單應變換法原理,只需要找到變換前后的4 個點對坐標并求出透視變換矩陣即可實現(xiàn)無人機視角到衛(wèi)星視角的逆透視映射,其中4 個點中任意3 點不能在同一直線上。

      透視變換的實質是將圖像重新投影到另一個平面上。為了便于透視變換的訓練,前置生成模型將轉換后的無人機圖像大小限制為與衛(wèi)星圖像大小相同。本文會在在源圖像和目標圖像之間找到4 個基本坐標點對,將透視變換矩陣A中的a33設為1,對8 個未知量解8 個方程,得到映射矩陣,最后對剩下的點進行反向映射插值。鑒于張建偉等[30]提出的對于不同傾斜視角,僅改變a31、a13兩個參數(shù)即可實現(xiàn)各個角度的正投影結論,本文結合University-1652 數(shù)據(jù)集的無人機圖像數(shù)據(jù)特性,在找到可靠的其他6 個參數(shù)的情況下,根據(jù)54 個傾斜視角僅需計算出54 套a31,a13參數(shù)組合,再結合輸入無人機圖像的角度類別參數(shù),即可計算出54 組通用透視變換矩陣A參數(shù),大幅節(jié)省了透視變換矩陣的計算量,提高了實時性。

      通過透視變換得到的投影衛(wèi)星圖Ips與真實衛(wèi)星圖Is較為相似,且圖像滿足斜向視圖和垂直視圖的幾何空間對應關系。但是,透視變換假設世界是扁平的,任何三維物體都會違背這一假設,投影衛(wèi)星圖的外觀畸變仍較為明顯。透視變換只能進行粗粒度的幾何結構匹配,還不足以完全消除兩個視圖之間的幾何空間域差。如圖4 所示,投影衛(wèi)星圖有較明顯的失真,轉換后的目標建筑在垂直視角中不是矩形,而是梯形,且會出現(xiàn)黑色缺失區(qū)域。因此,為了彌合顯式的透視變換帶來的一定程度的外觀畸變,1.2 節(jié)以CVGAN 作為圖像生成模型,以透視變換后的投影衛(wèi)星圖Ips作為輸入,以建筑類別作為條件,結合真實衛(wèi)星圖Is,對圖像內容及紋理進行細粒度的匹配及修復,合成出更平滑且真實的生成衛(wèi)星圖G(Ips)。

      圖4 基于IPM的坐標轉換效果圖Fig.4 Effect diagram of coordinate transformation based on IPM

      1.2 跨視角生成對抗網(wǎng)絡

      生成對抗網(wǎng)絡(Generative Adversarial Network,GAN)由于能夠生成高度真實的圖像而被廣泛應用于計算機圖像合成領域。一般通過對兩個對立的網(wǎng)絡:生成器G(Generator)和判別器D(Discriminator)進行對抗訓練,實現(xiàn)網(wǎng)絡整體生成性能的提升。

      條件生成式對抗網(wǎng)絡(conditional GAN,cGAN)是在GAN 基礎上的擴展和改進,通過引入條件約束來實現(xiàn)有監(jiān)督的學習方式,解決了生成數(shù)據(jù)樣本隨機以及無法針對指定域建模的缺點,使模型的數(shù)據(jù)生成具備可控性和目的性。這些特點使cGAN 適用于特定視域間的跨域圖像轉換生成。

      本節(jié)基于cGAN 架構、殘差采樣模塊、網(wǎng)絡瓶頸層(bottleneck)并結合自注意力機制構建了一個跨視角生成對抗網(wǎng)絡CVGAN,它能夠基于無人機圖像內容生成內容保留、外觀真實且?guī)缀我恢碌男l(wèi)星視角圖像。

      CVGAN 主要由生成器G以及判別器D構成。訓練流程如下:

      1)生成器G將經(jīng)逆透視映射后的投影衛(wèi)星圖Ips作為輸入,并將它轉換成極盡真實的生成衛(wèi)星圖。在該情況下,逆透視映射是必要且有效的預處理步驟,因為轉換后的圖像的整體輪廓與真實衛(wèi)星圖像相似,減少了生成器G彌合無人機視圖及衛(wèi)星視圖幾何空間域差的一些負擔。

      2)判別器D對生成衛(wèi)星圖G(Ips)及真實衛(wèi)星圖Is進行判別,判斷輸入圖像的真假。

      3)判別器D的反饋結果會不斷促使生成器G合成出難以與真實衛(wèi)星圖區(qū)分的圖像。

      1.2.1 生成器模型設計

      1)模塊組成。

      受現(xiàn)有圖到圖生成器模型網(wǎng)絡[18-21]的啟發(fā),將生成器G構造為U-Net 架構[22],以更好地進行圖片還原。因為基于U-Net 結構的跳躍連接技巧允許大量的低頻信息跳過瓶頸層在編、解碼器網(wǎng)絡間進行快捷傳遞。如圖5 所示,U-Net 結構主要由下采樣模塊(downsampling block)和上采樣模塊(upsampling block)構成,為了能夠充分挖掘特征圖的潛在特征,本文在最深層特征圖(512,32,32)的尺寸維度下,于下/上采樣模塊間構造了潛在特征挖掘模塊。

      圖5 生成器架構示意圖Fig.5 Schematic diagram of generator architecture

      鑒于殘差網(wǎng)絡在特征提取領域的廣泛應用,且為了能夠與檢索分支建立一定程度的潛在特征聯(lián)系性,便于特征還原與分類,生成器內部模塊的網(wǎng)絡采用了與檢索分支骨干網(wǎng)(backbone)ResNet-50 類似的殘差網(wǎng)絡設計。

      所以生成器內部主體由3 個殘差下采樣模塊(Residual Downsampling,RD)、6 個網(wǎng)絡瓶頸層(bottleneck)及3 個鏡像的殘差上采樣(Residual Upsampling,RU)模塊構成,本文將3 個殘差下采樣模塊以及6 個網(wǎng)絡瓶頸層合稱為編碼器GE,3 個殘差上采樣模塊即為解碼器。此外,于第一個殘差上采樣模塊之后,在64 × 64 尺寸的特征圖上添加了自注意力模塊[23]。文獻[31]的研究表明,該自注意力模塊有助于學習圖像中的全局依賴關系。

      2)數(shù)據(jù)流說明。

      ①三個殘差下采樣RD 模塊(如圖6(a))對特征圖進行圖像編碼,旨在挖掘它的深層特征。RD 模塊采用殘差網(wǎng)絡設計,可以使特征圖在訓練過程中融合不同層次的特征信息,增強梯度的傳播,同時減輕神經(jīng)網(wǎng)絡的退化。

      圖6 生成器網(wǎng)絡細節(jié)示意圖Fig.6 Schematic diagram of generator details

      如圖6(a)所示,RD 模塊主體由兩個1×1 Conv 和1 個3×3 Conv 構成,第一個1×1 Conv 主要作用是通過卷積對特征圖進行下采樣,使特征圖的尺寸減半。步長為2,通道數(shù)為C1(RD1 中,C1=C,保持維度不變;RD2 與RD3 中C1=C/2,先進行了一次降維)。3×3 Conv 主要作用為擴大感受野,它并沒有改變特征圖的尺寸與維度。第二個1 × 1 Conv 對特征圖進行了一次升維。所以特征圖每經(jīng)過一層RD 均會使其長寬減半、維度擴增。其中RD1 與RD2、RD3 不同的是,由于RD1 的第一個1×1 Conv 沒有進行降維,所以RD1 輸出維度為輸入維度4 倍。

      ②特征圖經(jīng)過RD 后,在維持同等分辨率及通道數(shù)的情況下,6 個網(wǎng)絡瓶頸層(如圖6(b))會進一步挖掘它潛在的表示特征。

      ③生成器G采用殘差下采樣RD 模塊的鏡像模塊——殘差上采樣RU 模塊(如圖6(c))對深層的特征圖進行上采樣,還原它的特征表示,從而使生成器G的輸入/輸出圖像(投影衛(wèi)星圖Ips/生成衛(wèi)星圖G(Ips))保持相同的尺寸。RU 為RD 的鏡像模塊,但由于上下采樣細節(jié)不同,RU1、RU2 相較于圖中的RU3 而言,在Upsample 及3×3 Conv 間去除了1×1 Conv、批歸一化(Batch Normalization,BN)層、整流線 性單元(Rectified Linear Unit,ReLU)層。RU1、RU2 的上采樣維度變化僅為RU3 的一半,即1/4。由于U-Net 架構,每次上采樣前要將下采樣特征圖與經(jīng)過網(wǎng)絡瓶頸層的上采樣特征圖進行嵌合,相較于下采樣,上采樣多進行了一次降維操作。

      投影衛(wèi)星圖Ips(3,256,256)在進入殘差下采樣模塊前,須先經(jīng)過1×1 Conv 進行升維,即對每個像素點,在不同的通道(channels)上進行線性組合(信息整合),在保持特征圖尺度不變的前提下大幅增加非線性特性(利用后接的非線性激活函數(shù))。特征圖在經(jīng)過殘差上采樣模塊后,還需經(jīng)過3×3 Conv 及Tanh 函數(shù)進行降維和激活,最后還原成生成圖像。

      3)網(wǎng)絡結構參數(shù)說明如表1 所示。其中:在Ips的特征尺寸“(3,256,256)”中,“3”表示投影衛(wèi)星圖Ips的維度即通道數(shù),“(256,256)”表示特 征圖的尺寸,即長和 寬;“1 × 1 Conv(32,256,256)”表示經(jīng)過1 × 1 卷積后的特征圖維度和尺寸分別為32、256 × 256;“(enc1)殘差下采樣模塊RD1(128,128,128)”表示經(jīng)過殘差下采樣模塊(即圖中的RD1)后的特征圖維度和尺寸分別為128 與128 × 128,該特征圖表示為(enc1);“+嵌合(enc3)殘差上采樣模塊RU1(256,64,64)”表示特征圖先與(enc3)進行拼接,再經(jīng)過RU1。

      表1 生成器網(wǎng)絡結構參數(shù)Tab.1 Network structure parameters of generator

      4)值得注意的是,與常見的后激活(post-activation)方式不同,本文在網(wǎng)絡瓶頸層及所有基于殘差網(wǎng)絡設計的網(wǎng)絡模塊(如RD、RU)均采用了前激活(pre-activation)方式,即在卷積之前進行歸一化和激活處理(BN+ReLU)。在這種結構中,反向傳播基本符合假設,信息傳遞無阻礙;BN 層作為前激活方式,起到了正則化的作用。文獻[32]中也證實了這一點。本文還在每個卷積層之后均使用譜歸一化(Spectral Normalization,SN)[33],生成器的譜歸一化可以有效抑制參數(shù)幅度的異常波動并避免梯度消失或爆炸[31],有利于對GAN的訓練;在所有殘差下采樣和上采樣模塊間,本文使用“跳躍連接(skip connections)”作為提高網(wǎng)絡收斂性的技巧,它能夠保存輸入圖像的空間布局信息,并將其轉換為目標視圖圖像。

      1.2.2 判別器模型設計

      為了能夠有效建模圖像高頻特征信息,需要將注意力視野放在局部圖像塊中的結構上。因此本文將判別器D構造為PatchGAN[25],它能夠對圖像中的每個N×N塊進行分類。判別器主要由斜率為0.2 的帶泄露修正線性單元(Leaky Rectified Linear Unit,Leaky ReLU)以及4 × 4 Conv 構成,其中4 × 4 Conv 步長為2,如表2 所示。它的輸入分別為真實衛(wèi)星圖Is以及生成衛(wèi)星圖G(Ips)。對于給定的Ws×Ws衛(wèi)星圖,判別器D將會下采樣到更小patch 的空間尺寸,并將每個patch 進行真假分類。PatchGAN 的功能類似于生成器G的編碼器,只不過最后輸出的是判別圖像對真?zhèn)蔚母怕?。這種判別器有效地將圖像建模為馬爾可夫隨機場,假設像素之間的獨立性大于一個patch 直徑,可以理解成是一種紋理/風格的損失學習模型。該采樣策略有益于合成出更加真實的生成衛(wèi)星圖G(Ips)。由于生成衛(wèi)星圖中的語義特征如街道、樹木及建筑物均為重復的局部細粒度特征,所以全局一致性相較于局部特征顯得不那么重要,因此判別器D更加注重細粒度特征的判別。

      表2 判別器網(wǎng)絡結構參數(shù)Tab.2 Network structure parameters of discriminator

      與生成器類似,本文對尺寸為64 × 64 的特征圖作了非局部自注意力模塊處理,且在每個卷積層之后使用譜歸一化,將每個單獨的特征正則化到為1 的譜半徑。當然,在生成器和鑒別器的最后一層1×1 Conv 后不使用譜歸一化。我們從經(jīng)驗中發(fā)現(xiàn),生成器和判別器的譜歸一化可以在每次生成器更新時減少判別器更新,從而顯著降低訓練的計算成本。該方法也表現(xiàn)出更穩(wěn)定的訓練行為。

      1.3 圖像檢索模型

      MJLM 的整體網(wǎng)絡架構如圖7 所示。1.1 與1.2 節(jié)介紹了前置圖像生成模型,本節(jié)將介紹后置圖像檢索模型。該模型的目標是通過將給定的無人機圖像與衛(wèi)星圖像數(shù)據(jù)庫進行匹配來定位它的位置。后置圖像檢索模型選擇了多視角多監(jiān)督網(wǎng)絡(Multi-view and Multi-supervision Network,MMNet)[25]作為視點不變特征提取模型,其中MMNet 的骨干網(wǎng)為ResNet-50。

      圖7 MJLM架構示意圖Fig.7 Schematic diagram of MJLM architecture

      該模型主要由多監(jiān)督學習、多尺度特征融合、重加權正則化策略及多視角平衡采樣策略四個部分組成。首先,該模型融合衛(wèi)星視角和無人機視角,在統(tǒng)一的網(wǎng)絡架構下學習多尺度融合特征,再以多監(jiān)督方式訓練分類網(wǎng)絡并執(zhí)行度量任務。具體來說,MMNet 主要采用了重加權正則化三元組(Reweighted Regularization Triplet,RRT)損失學習全局特征,該損失利用重加權和距離正則化加權策略來解決視角樣本不平衡以及特征空間結構紊亂的問題。同時,為了關注目標地點中心建筑的上下文信息,MMNet 對特征圖進行方形環(huán)切割獲取局部特征。然后,分別用交叉熵損失和RRT 執(zhí)行分類和度量任務。最終,使用加權策略聚合全局和局部特征來表征目標地點圖像,從而完成無人機定位和導航任務。因此,在逆透視映射和跨視角生成對抗網(wǎng)絡之后,利用MMNet將多監(jiān)督學習、多尺度特征融合、重加權正則化策略及多視角平衡采樣策略融入本文的多任務學習方法中。

      同時,為了更好地銜接前置生成模型以及后置檢索模型,本文方法將CVGAN 中編碼器GE的潛在特征圖GE(Ips)作為MMNet 無人機分支的輸入(MMNet 無人機分支原輸入為無人機圖像),這樣可減少解碼器解碼過程中的信息缺失,保留最原始的潛在特征以及編碼器GE的特性。但由于生成器G與骨干網(wǎng)的特征提取網(wǎng)絡不同,輸出特征圖的尺寸與維度并不相同。具體來說,為了能夠保證兩個分支輸出的尺寸與維度相同,MJLM 將GE(Ips)作為Resnet-50 stage3 的輸入而不是stage 0 的輸入,這也是CVGAN 深層特征尺度設定為(32,32,516)的一方面考慮。

      多任務訓練設置的核心思想為:通過使用潛在學習特征GE(Ips)來連接圖像生成任務與檢索任務,使前置生成模型與后置檢索模型在訓練時相互作用與加強。后置檢索模型本身僅能隱式地學習圖像間的視點不變特征。圖像生成任務中學習到的特征提供了一個明確的跨域轉移映射,能夠幫助后置檢索模型獲得更好的圖像匹配性能。反之,后置檢索模型迫使前置生成模型學習最終對圖像匹配有用的特征——這就產生了內容保留、外觀真實且?guī)缀我恢碌纳蓤D像。

      1.4 多任務學習

      MJLM 的目標是聯(lián)合前置生成模型以及后置檢索模型進行多任務學習。相較于兩個模型獨立訓練,多任務學習方式需要同時對兩個模型進行訓練。首先通過建立總損失函數(shù)將兩個模型聯(lián)系起來;然后利用反向傳播來降低損失,實現(xiàn)基于跨視角圖像匹配任務的梯度下降。

      為此,本文設計了以下?lián)p失函數(shù):

      其中:LcGAN、LL1、Lret分別為cGAN 損失、L1 損失和檢索損失;LcGAN、LL1、Lret分別為MJLM 中各損失的權重。

      在訓練時,MJLM 以對抗性的方式動態(tài)更新生成器、判別器、MMNet 三個網(wǎng)絡的權重:

      其中:G、R、D分別表示生成器、MMNet、判別器。

      接下來將介紹這三部分的損失函數(shù)定義。

      1)cGAN 損失。對于圖像生成任務,cGAN 損失如下:

      當判別器D試圖將圖像分類為真(Is)或假(G(Ips))時,生成器G一直嘗試通過生成真實圖像來最小化損失。對應的投影衛(wèi)星圖Ips作為生成器G和判別器D的條件。

      2)L1 損失。L1 損失使預測的生成圖像G(Ips)與真實衛(wèi)星圖像Is之間的特征距離最小。

      L1 損失為生成器產生的生成圖像G(Ips)與真實衛(wèi)星圖像Is像素級距離差(pixel-by-pixel difference)的絕對值之和。輸入的無人機圖像不是原始圖像,而是透視投影變換后的圖像,它的外觀與真實衛(wèi)星圖比較相似,因此可以使用L1損失。

      即使LcGAN能夠實現(xiàn)有效的監(jiān)督效果,但是LL1能夠幫助網(wǎng)絡有效捕捉圖像的低頻特征信息,從而使圖像生成網(wǎng)絡得到收斂。

      3)檢索損失。MMNet 損失由交叉熵損失和RRT 損失[25]構成,RRT 損失定義如下:

      MJLM 沿用了MMNet 所采用的MBM 采樣策略。在一個訓練批次中,選擇P類ID 的目標建筑圖像,每類ID 選擇γ幅無人機視圖,1 幅衛(wèi)星視圖。因此一個批次中,共有P× (γ+1)幅圖像。(i,j,k)表示每次訓練批次中的三元組;對于每張圖像i,Pi是與之對應的正樣本;Ni是與之相對應的負樣本;分別表示正負樣本對之間的距離分別代表每個正負樣本對的正則化權重;αp、αn為正負樣本的縮放系數(shù)。

      2 實驗與結果分析

      2.1 實驗設置

      2.1.1 數(shù)據(jù)集

      本文考慮新提出的無人機定位及導航任務數(shù)據(jù)集University-1652[17],由44 416 和137 218 對頂視圖衛(wèi)星圖像和全景街景圖像組成。這是目前為止唯一包含無人機視圖和衛(wèi)星視圖圖像的數(shù)據(jù)集。圖像描繪了鄉(xiāng)村和城市的街道場景。對圖像的方向進行歸一化處理,使北方向對應于衛(wèi)星圖像的頂部和街道圖像的中心。每個建筑都與三個不同視角的圖像相關聯(lián)(如圖8 所示),包括一個衛(wèi)星視圖圖像,54 個不同高度和角度的無人機視圖圖像,以及一個或多個地面視圖圖像。本文利用衛(wèi)星圖像(垂直視角)和無人機圖像(斜向視角)實現(xiàn)無人機視覺定位任務。對于大多數(shù)為傾斜視角的無人機視圖數(shù)據(jù)集,使用透視投影變換能提高跨視角圖像匹配性能和效率。

      圖8 University-1652數(shù)據(jù)集圖像示例Fig.8 Samples of images from University-1652 dataset

      2.1.2 實驗細節(jié)

      1)IPM。

      University-1652 數(shù)據(jù)集使用合成的無人機圖像代替真實的無人機圖像。具體方法是將飛行軌跡設置為螺旋曲線。攝像機圍繞目標飛行3 圈,飛行高度從256 m 下降到121.5 m。飛行視頻以每秒30 幀的速度錄制,每15 幀無人機視角視頻中截取圖像,生成54 幅無人機圖像。因此,相同序列號的無人機圖像在不同目標建筑位置上的角度和高度幾乎相同,所以本文選擇相同目標建筑的4 個點進行逆透視映射。具體來說,將一幢建筑物的無人機圖像與對應的衛(wèi)星圖像進行尺度不變特征變化(Scale-Invariant Feature Transform,SIFT)[34]關鍵點匹配預處理,并確定對應的4 個視角點靠近衛(wèi)星圖像邊緣的位置。鑒于張建偉等[30]提出的對于不同傾斜視角,僅改變a31和a13兩個參數(shù)即可實現(xiàn)各個角度的正投影結論。本文結合University-1652 數(shù)據(jù)集的無人機圖特性,在找到其他可靠的6 個參數(shù)的情況下,根據(jù)54 個傾斜視角僅需計算出54 套a31,a13參數(shù)組合,再結合輸入無人機圖像的角度類別參數(shù),即可計算出54 組通用透視變換矩陣A參數(shù),它可將54 個斜投影視圖轉換為54 個正投影視圖。對于其他目標建筑而言,同樣的序號選擇與第一個基準建筑相同的單應性矩陣即可。

      2)CVGAN。

      本文使用Adam 優(yōu)化器在PyTorch 中實現(xiàn)模型訓練。動量參數(shù)β1和β2分別設置為0.5 和0.999,生成器和判別器網(wǎng)絡的學習速率(learning rate)均設置為0.000 1。所有輸入圖像的分辨率均為256 × 256。通過隨機水平翻轉、隨機裁剪以及隨機旋轉對真實衛(wèi)星圖及投影衛(wèi)星圖進行數(shù)據(jù)增強。此外,本文將像素強度值(pixel intensity values)歸一化到[-1,1]。在訓練期間,本文遵循GAN 優(yōu)化的相關標準。具體來說,本文交替對兩個網(wǎng)絡進行參數(shù)更新,在每個訓練周期中,先對生成器參數(shù)進行固定,訓練判別器,使其盡可能區(qū)分真實數(shù)據(jù)與生成數(shù)據(jù);再固定判別器參數(shù),訓練生成器,使其盡可能生成真實的數(shù)據(jù)。

      3)MMNet。

      MMNet 的骨干網(wǎng)采用了微調的ResNet-50,在ImageNet數(shù)據(jù)集上對ResNet-50 進行了預處理。本實驗中,對于無人機分支,無論是訓練還是測試,均以前置生成模型生成的特征圖GE(Ips)為輸入,其中前置生成模型的輸入為256 × 256的無人機圖像;對于衛(wèi)星分支,輸入的是256 × 256 的衛(wèi)星圖像。在訓練時,使用隨機水平翻轉、隨機裁剪以及隨機旋轉來增加數(shù)據(jù)的多樣性。ResNet-50 stage4 下采樣層的步幅由2 調整為1,以增加骨干輸出的特征圖的大小,這是圖像檢索中常見的技巧。本文采用多視角平衡采樣策略,訓練批次設置為32,γ設置為3,即一個批次中隨機選取8 類目標地點圖像,每類圖像包含3 幅無人機視圖和1 幅衛(wèi)星視圖。在反傳過程當中,本文采用隨機梯度下降法優(yōu)化參數(shù),momentum設置為0.9,weight_decay為0.000 5。骨干網(wǎng)初始學習率設為0.001,分類模塊學習率為0.01,經(jīng)過80 個epoch 完成訓練。對于RRT 損失中的超參數(shù),按經(jīng)驗分別設αp=5,αn=20。在測試過程中,利用歐氏距離度量Query 圖像和Gallery 集中候選圖像之間的相似性。本文模型在Pytorch 上實現(xiàn),所有實驗都在NVIDIA RTX 2080Ti GPU 上進行。最后,設置各個損失函數(shù)的權值為:λret=800,λL1=80,λcGAN=1。

      2.1.3 評價指標

      1)圖像生成模型評價指標。對于圖像生成任務,本文使用均方根誤差(Root Mean Square Error,RMSE)、峰值信噪比(Peak Signal to Noise Ratio,PSNR)、結構相似性(Structural SIMilarity,SSIM)和銳度差(Sharpness Difference,SD)指標。這些指標根據(jù)原始幾何空間屬性量化了生成衛(wèi)星圖和真實衛(wèi)星圖的像素級差異。

      2)圖像檢索模型評價指標。實驗中,使用K-召回率R@K和平均精確率(Average Precision,AP)評估模型的性能。如果在Top-K的Ranking List 中查詢圖像的真實匹配圖像出現(xiàn)在(K+1)圖像之前,則R@K設置為1;否則,將其設置為0。較高的R@K表明網(wǎng)絡性能較好。對于無人機定位任務,無人機視圖數(shù)據(jù)庫中有54 幅匹配圖像。因此,為了盡可能全面地評估匹配結果,將AP 用作第二評估指標。AP 評估指標綜合考慮了所有真實匹配圖像的位置。

      2.2 前沿方法對比

      相較于ORB(ORiented Brief)[35]、SIFT、加速魯棒特征(Speed-Up Robust Features,SURF)[36]這些基于傳統(tǒng)手工特征的方法,可以發(fā)現(xiàn)基于深度特征的方法大幅提升了跨視角圖像匹配的性能,取得了不錯的效果。

      在University-1652 數(shù)據(jù)集上進行了廣泛的實驗,通過和9 個具有競爭性的前沿方法進行比較以評估本文模型的性能。如表3 所列,與文中方法作對比的9 個前沿方法分別為:加權軟邊界三元組損失[10]、實例損失[17]、LCM(cross-view Matching based on Location Classification)方 法[20]、SFPN(Salient Feature Partition Network)方法[19]、LPN 方法[18]、PCL(Perspective projection transformation+Conditional generative adversarial nets+LPN)[26]、FSRA(Feature Segmentation and Region Alignment)方 法[22]、MMNet 方法[25]、MSBA(Multiscale Block Attention)方法[21]。由于MJLM 是為了無人機定位任務而提出的,且逆透視映射方法適用于傾斜視角至垂直視角的坐標變換,所以前置生成模型只做了無人機至衛(wèi)星視圖的圖像生成任務,本文僅討論MJLM 在無人機定位任務上的性能表現(xiàn)。

      表3 University-1652數(shù)據(jù)集上MJLM與前沿方法的性能比較 單位:%Tab.3 Performance comparison between MJLM and state-of-the-art methods on University-1652 dataset unit:%

      MJLM 在無人機定位任務中(無人機視圖→衛(wèi)星視圖)的R@1 為87.54%,AP 為89.22%。相較于性能最好的MSBA 方法,MJLM 在無人機定位任務中的R@1 指標提升了1.07%,AP 指標提升了0.76%,這些數(shù)據(jù)表明MJLM 在University-1652 數(shù)據(jù)集上的無人機定位任務中優(yōu)于現(xiàn)有的最佳方法。

      此外,MJLM 方法可以作為前沿方法的補充,當MJLM 的前置生成模型與LPN 結合時(IPM+CVGAN+LPN),可以發(fā)現(xiàn)在無人機定位任務的R@1 和AP 指標上較LPN 上分別提高了5.65 和6.31 個百分點。由此看出多任務聯(lián)合學習方法可以有效提高無人機定位模型的匹配性能。

      如圖9 所示,MJLM 模型在無人機定位任務中均成功檢索到了對應的衛(wèi)星圖,并在ranking-list 中排第一。

      圖9 無人機定位任務結果圖Fig.9 Result graphs of UAV localization tasks

      2.3 消融實驗

      2.3.1 聯(lián)合訓練對前置生成模型的影響

      對于前置生成模型,考慮了以下消融實驗,結果如表4所示。

      表4 University-1652數(shù)據(jù)集上前置圖像生成模型的消融實驗結果Tab.4 Ablation study results of proactive image generation model on University-1652 dataset

      1)將經(jīng)過IPM 的投影衛(wèi)星圖與輸入的衛(wèi)星圖像進行淺層特征比較(記作i)。

      2)對前置生成模型單獨進行訓練(記作ii),為了探究在沒有檢索任務聯(lián)合訓練下的圖像生成質量。

      3)將前置生成模型聯(lián)合后置檢索模型同時進行訓練,本文分別采用LPN(記作iii)和MMNet(記作iv)作為后置檢索模型,以確認不同檢索分支網(wǎng)絡模型對聯(lián)合訓練是否有較大的影響。

      通過對比表4(i)與(ii)可發(fā)現(xiàn),經(jīng)過CVGAN 后可得到更加真實的衛(wèi)星視角圖像。對比表4 w/o R 與w/ MMNet 消融實驗結果可發(fā)現(xiàn),聯(lián)合訓練確實有利于圖像生成任務。原因是,多任務的學習方式會反向促使生成對抗網(wǎng)絡學習更優(yōu)秀的特征,最終同時提高兩項任務的性能。通過對比表4 w/LPN 與w/ MMNet 消融實驗結果可發(fā)現(xiàn),檢索分支采用不同網(wǎng)絡模型,對圖像生成質量影響不是特別大,但結合全局與局部特征進行多監(jiān)督學習的MMNet 確實更有利于生成高質量的衛(wèi)星圖。

      2.3.2 前置生成模型對后置檢索模型定位效果的影響

      為了在University-1652 數(shù)據(jù)集上研究了前置生成模型的不同組件對后置檢索模型的定位性能影響,進行以下消融實驗,結果如表5。

      表5 University-1652數(shù)據(jù)集上后置圖像檢索模型的消融實驗結果 單位:%Tab.5 Ablation study results of posterior image retrieval model on University-1652 dataset unit:%

      1)放棄顯式的IPM 變換,將未經(jīng)過投影映射的真實無人機圖作為CVGAN 的輸入(記作i),這意味著僅利用CVGAN進行隱式的學習訓練。

      2)放棄CVGAN 中生成器G的解碼器和判別器D,直接將編碼器編碼的潛在特征GE(Ips)作為后置檢索模型中無人機分支的輸入(記作ii),這意味著前置生成模型幾乎僅使用了顯式的IPM 變換,不能對圖像進行內容和幾何特征增強,可以看出效果并不太好。

      3)僅放棄CVGAN 中的判別器D,意味著放棄了LcGAN,僅基于L1 損失LL1去預測生成衛(wèi)星圖(記作iii)。這意味著生成器沒有經(jīng)過和判別器的博弈訓練,直接生成衛(wèi)星圖。因為它不能利用生成對抗訓練的學習能力,生成的衛(wèi)星圖顯得并不真實,但由于LL1至少一定程度上支持圖像檢索任務,所以這種修改對精度的降低不是特別明顯。

      4)將生成的圖像G(Ips)作為MMNet 的無人機分支輸入,而不是傳遞編碼器GE的潛在網(wǎng)絡瓶頸層特征(記作iv),可觀察到性能的下降。因為生成圖像相較于深層網(wǎng)絡瓶頸層特征GE(Ips)多了解碼再編碼的過程,自然會丟失很多細粒度信息。

      通過對比表5 的MMNet、(i)、(ii)三個消融實驗可發(fā)現(xiàn),CVGAN 和IPM 單獨使用,效果提升并不明顯,其中IPM 對R@1 的提升效果較強,CVGAN 對AP 提升明顯一些。而當IPM 與CVGAN 聯(lián)合訓練后,效果提升非常明顯。綜上所述,表5 的結果表明,前置生成模型確實有利于提高整體匹配性能。

      2.4 任務性能分析

      2.4.1 拍攝距離對定位的影響

      University-1652 數(shù)據(jù)集中衛(wèi)星圖像的要素比例是固定的,而無人機圖像的要素比例隨著無人機到地理目標的距離和角度而動態(tài)變化。本文采用距離地理目標不同距離的無人機圖像作為查詢圖像,研究距離變化對MJLM 的影響。如表6 所示,當無人機圖像在距離地理目標的中度距離拍攝時,獲得了最佳性能。當無人機距離地理目標較近時,與使用全部無人機圖像作為查詢圖像相比較,結果仍然具有競爭力。通過大量觀察,可得出原因,即這些圖像在要素比例上非常接近衛(wèi)星圖像;另外一個可能原因是,這些無人機圖像主要為目標建筑,沒有額外的樹木和其他建筑干擾物。

      表6 University-1652數(shù)據(jù)集上拍攝距離對定位性能的影響 單位:%Tab.6 Influence of shooting distance on localization performance on University-1652 dataset unit:%

      2.4.2 偏移不變性

      在現(xiàn)實場景中,查詢圖像和真實匹配的衛(wèi)星圖之間的目標位置通常會有偏移。為了探究MJLM 是否能夠應對這種現(xiàn)實應用場景的挑戰(zhàn),在測試過程中驗證MJLM 對位置偏移的魯棒性,實驗結果見表7。具體來說,將查詢圖像以像素為單位向右平移0~50 像素,保持Gallary 集中的圖像不變,0表示不對查詢圖像進行偏移。實驗結果表明,當偏移量從0緩慢增加時,模型性能沒有特別明顯的變化。在30 像素的偏移量內,性能只是略微下降,即使偏移量達到50,也依然具有競爭力。如圖10 為MJLM 與當前性能較好且權威的LPN 的對比結果,可以看出,隨著偏移量的增加,模型的衰減比現(xiàn)有模型的衰減要小得多,這說明模型對位置偏移的魯棒性更強。2.4.3 旋轉不變性

      圖10 偏移不變性消融實驗對比圖Fig.10 Comparison map of offset-invariance ablation experiment

      表7 University-1652數(shù)據(jù)集上偏移不變性的驗證結果 單位:%Tab.7 Verification results of offset-invariance on University-1652 dataset unit:%

      由于University-1652 數(shù)據(jù)集中的衛(wèi)星視圖是北向(圖片0 度方向朝北)的,而無人機視圖的方向是隨機的。在訓練階段,旋轉增強僅僅應用于衛(wèi)星視圖分支,而無人機視圖不受影響。為了驗證MJLM 的旋轉不變性性能,本文通過實驗將查詢圖像進行旋轉來進行跨視角匹配。實驗結果如表8所示,其中0°表示沒有旋轉的輸入查詢圖像。對于無人機定位任務,MJLM 仍然實現(xiàn)了有競爭力的性能目標,而沒有顯著的性能下降。此外,本文還嘗試在Query 集和Gallery 集上旋轉不同的角度,以進一步測試模型的性能。實驗結果表明,該模型對旋轉變化具有良好的可擴展性。

      表8 University-1652數(shù)據(jù)集上旋轉不變性驗證結果Tab.8 Verification results of rotation-invariance on University-1652 dataset

      3 結語

      本文從決策級層面出發(fā),通過多任務聯(lián)合學習方法實現(xiàn)跨視角地理定位任務。在一個聚合框架體系內聯(lián)合處理跨視角(無人機-衛(wèi)星視圖)圖像生成任務以及檢索任務,實現(xiàn)基于視角轉換與視點不變特征方法的融合。具體來說,MJLM 將給定的一對無人機圖像和衛(wèi)星圖像映射到它們的潛在特征空間并建立聯(lián)系,使用這些特征來完成這兩個任務。通過在University-162 數(shù)據(jù)集上的大量實驗,表明了MJLM 相較于前沿方法的先進性,此外還可作為前沿方法的補充,更進一步提升跨視角地理定位的性能。消融實驗驗證了前置生成模型與后置檢索模型聯(lián)合訓練的有效性。另外考慮MJLM 工程應用場景的魯棒性,從拍攝距離、偏移不變性、旋轉不變性等角度進行了實驗,同樣驗證了模型在準確性和魯棒性方面的良好表現(xiàn)。

      下一步工作將繼續(xù)探索如何進一步提高無人機圖像與與衛(wèi)星圖像的匹配精度及魯棒性,以及如何利用無人機圖像作為中間橋梁,提高地面街景圖與衛(wèi)星圖像的匹配精度。

      猜你喜歡
      視圖檢索衛(wèi)星
      miniSAR遙感衛(wèi)星
      靜止衛(wèi)星派
      科學家(2019年3期)2019-08-18 09:47:43
      2019年第4-6期便捷檢索目錄
      5.3 視圖與投影
      視圖
      Y—20重型運輸機多視圖
      SA2型76毫米車載高炮多視圖
      Puma" suede shoes with a focus on the Product variables
      專利檢索中“語義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      What Would Happen If All Satellites Stopped Working? 假如衛(wèi)星罷工一天
      新東方英語(2014年1期)2014-01-07 19:56:11
      渑池县| 泌阳县| 如皋市| 邓州市| 兴城市| 辰溪县| 丹东市| 郸城县| 元江| 昂仁县| 金坛市| 普安县| 三台县| 儋州市| 称多县| 织金县| 桓台县| 乌拉特后旗| 尤溪县| 鹰潭市| 宁波市| 白银市| 新晃| 蚌埠市| 历史| 揭东县| 当涂县| 长子县| 阜康市| 云安县| 雅江县| 永胜县| 龙口市| 肇源县| 新巴尔虎右旗| 东阳市| 吉木乃县| 尼勒克县| 伊通| 沭阳县| 江川县|