何 友,劉 瑜*,譚大寧,張一鳴,張財生,孫 順,丁自然,姜喬文
(1. 海軍航空大學, 山東 煙臺 264001; 2. 清華大學 電子工程系, 北京 100084)
近年來,隨著空間感知技術的發(fā)展,機載和星載平臺的任務載荷不斷豐富,超高分辨率光學相機、合成孔徑雷達(SAR)和激光雷達(LiDAR)等多種傳感器被用于對地、對海探測任務,數據獲取來源正從過去的單一型向多樣化方向發(fā)展[1-3]。由于技術局限性,利用單一傳感器數據的探測識別技術往往不能夠全面地反映目標物的整體和局部特征。無論是民用領域的地質災害監(jiān)測、滸苔赤潮監(jiān)測、土地利用監(jiān)測,還是軍用領域的機場港口監(jiān)測、邊境態(tài)勢監(jiān)測和海上艦船目標檢測,單一傳感器獲取的信息已經很難滿足實際需求,探索多源遙感圖像語義信息提取成為當下研究的一大熱點[4-5]。
多源遙感圖像語義信息提取就是將不同種類傳感器獲取的同一地區(qū)的影像數據進行預處理,然后通過特定算法將多遙感平臺、多遙感器、多電磁譜段影像的優(yōu)勢有機結合起來,執(zhí)行目標檢測和地物分類等任務[6-7]。以SAR與光學圖像為例,SAR圖像具有全天時、全天候、寬視場以及極化信息豐富等顯著優(yōu)勢,而光學影像則更加適合人眼的視覺解譯,因此將SAR與光學圖像進行融合,可以充分發(fā)揮多類型傳感器數據融合的優(yōu)勢[8]。發(fā)展多源遙感圖像融合語義信息提取技術已成為國內外遙感發(fā)展的重要趨勢。美國、德國等利用多源衛(wèi)星開展在軌信息融合處理技術研究。自2012年起,美國著手發(fā)展空間計算技術,組織開展了一系列包括在軌信息處理、空天地一體化觀測和協(xié)同組網等在內的關鍵技術研究。德國的BIRD小衛(wèi)星綜合可見光、中波紅外和熱紅外3個波段的遙感圖像實現(xiàn)地物分類和亞像元火點探測等在軌融合處理任務。澳大利亞開展了在軌處理驗證試驗,其在FedSat衛(wèi)星搭載了可重構的在軌處理原型系統(tǒng),滿足在軌處理需求下利用光學傳感器融合數據實現(xiàn)災害監(jiān)測。然而,利用多源遙感圖像進行語義信息提取涉及較多技術難題。在數據的獲取上,各種平臺的傳感器精度和時鐘難以完全相同,且數據在觀測角度、時相、尺度和譜段上有差異,如何將多源乃至多模態(tài)遙感圖像進行時空對準仍是實現(xiàn)多源遙感圖像語義分割的首要問題;在融合層級上,遙感圖像融合分為數據層融合、特征層融合和決策層融合,前者面臨計算開銷大、難以滿足時效性要求的問題,后者則容易遺漏部分特征細節(jié)信息造成誤判,如何快速智能提取有用信息仍需要設計一體化處理流程,克服單一層面融合的局限性;在模型訓練方式上,一般的遙感圖像語義分割采用從頭訓練的方式,語義信息提取網絡的遷移性和可解釋性不高,先驗信息和數字地圖信息沒有利用到輔助分割中來。
隨著人工智能的快速發(fā)展,利用深度學習方法解決上述問題逐漸成為可能。在醫(yī)學和自動駕駛領域的配準與分割技術已經可以實現(xiàn)多模態(tài)信息的融合互補,證明了利用不同成像模式的互補信息進行單類圖像分割方面的有效性與可行性[9]。對于遙感圖像解譯而言,單源遙感圖像語義分割可將圖像中的每個像素鏈接到類標簽,這些標簽包括建筑物、車、艦船、植被等。隨著衛(wèi)星觀測數據的爆炸式增長,多光譜、高光譜、全色、紅外、SAR等遙感圖像的高效、快速融合是未來新的研究熱點。相比單源遙感圖像,多源遙感圖像的融合分割可以將同一地物的不同類型進行綜合,以獲得滿足目標檢測、災害評估和關注區(qū)域提取等任務的高質量信息,產生比單一傳感器圖像更加精準、可靠的估計和判決。以全卷積神經網絡 (FCN)為主要結構的基于深度學習的快速語義分割網絡發(fā)展迅速,有監(jiān)督語義分割和無監(jiān)督語義分割均可滿足一般圖像處理應用時效性和準確性要求[10-11]。近年來,人工智能、大數據分析和多模態(tài)等技術飛速發(fā)展,基于數據驅動的多源數據融合框架得到了廣泛關注,其將來自不同類型衛(wèi)星的多源、多維和多特征的數據進行融合,快速對互補冗余信息進行預處理、特征提取、分類等綜合處理,最后進行特征級和決策級的智能化融合,從而提高融合檢測結果的可信水平和量測精度,提升全地域、全天候、全天時的快速響應和空間信息處理能力。大量研究表明,多源遙感圖像語義分割已經進入快速發(fā)展階段,但是該技術涉及遙感圖像從獲取、預處理、配準、融合到分割的復雜過程,目前的研究缺乏系統(tǒng)性梳理和總結。本文立足國內外遙感圖像語義分割發(fā)展現(xiàn)狀,系統(tǒng)性梳理了多源遙感圖像語義分割的關鍵技術及前沿進展,通過仿真的方式對各關鍵技術的理論原理與適用條件進行了分析,歸納出現(xiàn)有關鍵技術的薄弱環(huán)節(jié),并提出一體化智能處理思路,為多源遙感圖像融合處理提供參考借鑒。
語義分割的根本是從圖像中提取感興趣的目標區(qū)域,它將圖像中的每個像素都標注上對應的類別,可以用來識別構成可區(qū)分類別的像素集合。在語義分割完的圖像上,不同像素區(qū)域被劃分為不同的語義可解釋性類別。目前,針對單一來源的語義分割發(fā)展迅速,研究覆蓋遙感地物分類、災害評估和目標提取等。多源信息融合語義分割仍以兩個信息源的數據融合為主,二維空間如紅外與光學圖像、SAR與光學圖像融合語義分割,三維空間如LiDAR與光學圖像、高程/深度信息與光學圖像融合語義分割。當某一來源的信息出現(xiàn)時序變化時,又衍生出時相數據變化檢測,如災害變化檢測、苔滸赤潮變化檢測、溢油變化檢測等,其原理與語義分割方法相近,都是綜合利用多源數據提取感興趣的目標區(qū)域。本節(jié)主要內容是對從“單源”到“多源”遙感圖像融合語義分割的理論原理與研究方法進行詳細總結。
目前,圖像的語義分割方法可以分為傳統(tǒng)方法和基于深度學習的方法。傳統(tǒng)語義分割算法基于機器學習分類器,如Texton Forest和Random Forest等。隨著以卷積神經網絡(CNN)為代表的深度學習的發(fā)展,使用“數據+模型”驅動的深度學習方法進行圖像分割任務逐漸成為主流[12-14]。
基于深度學習的語義分割方法主要包括兩類:第一類是基于滑窗/候選區(qū)域的語義分割模型?;诨暗恼Z義分割模型[15]從圖像分類領域衍生而來,它以滑窗的形式對以像素點為中心的圖像窗口進行處理,通過卷積分類網絡對滑動窗口進行分類,以此預測窗口像素中心點的語義類別。而基于候選區(qū)域的語義分割方法[16]則從目標檢測領域擴展而來。它首先提取圖像中的候選框,然后對各個候選框進行特征提取和分類預測,在確定候選框中對象的語義類別后對整幅圖像的語義分割,區(qū)分出不同語義類別和背景。第二類是基于編碼器-解碼器(上采樣/反卷積)結構的端到端語義分割模型。文獻[17]在2015年的CVPR上提出FCN,與CNN不同的是FCN移除了全連接層,在解碼器中使用轉置卷積進行特征圖上采樣。FCN具有開創(chuàng)性意義,但也存在對細節(jié)不敏感、精度不高等問題。為了彌補缺陷,文獻[18]提出了U-Net模型,它是FCN的延續(xù)和改進,使用典型的編碼器-解碼器結構,編碼器采用卷積層下采樣,解碼器采用反卷積上采樣。U-Net的優(yōu)勢在于通過對低層次特征映射的組合,構建起高層次的語義特征,從而精確定位語義類別,提高了圖像分割的精度。文獻[19]隨后提出SegNet模型,它由一個編碼器網絡(與VGG16的13個卷積層相同)、一個對應的解碼器網絡以及一個像素級分類層Softmax組成,具有模型參數數量少的特點。隨后文獻[20]提出的Deeplab系列模型進行了進一步優(yōu)化了編碼器-解碼器結構模型。Deeplab v1結合深度卷積神經網絡和概率圖模型DenseCRFs,將DenseCRFs作為網絡的后處理方法,使得語義分割不僅針對像素點本身,還要考慮以該像素點為中心的周圍像素點的值,最終分割結果的邊界更加準確清晰。Deeplab v2和v3[21]分別設計和改進了ASPP模塊,先由空洞卷積產生的不同感受野的特征圖,然后通過對不同特征圖進行組合,從而獲得更加豐富的局部/全局上下文信息。Deeplab v3+[22]在v3的基礎上改進了解碼器模塊,使得分割結果變得更加精細。語義分割的難點在于感受野的設置上,相近類別的語義信息容易出現(xiàn)混淆,PSPNet[23]被提出用于解決網絡感受野的問題,它延續(xù)了FCN的設計思路,引入了更多的上下文信息進行分割,提出的金字塔池化模塊包含了不同區(qū)域不同尺度的特征,因而具有更好的分割精度。
近年來,紅外圖像、多光譜圖像、SAR圖像及LiDAR點云數據的融合語義分割成為研究熱點和數據大賽的熱門賽題。一方面,以光學和SAR為基礎的遙感數據處理更偏向于多源化,融合分割處理可以進一步提升地物分類精度[24];另一方面,以自動駕駛為代表的人工智能技術對環(huán)境的感知從2D平面擴展到3D立體空間,多源數據融合分割正成為控制與決策的重要數據來源[25]。自2006年以來,國際電氣與電子工程師協(xié)會地球科學和遙感學會為了推動多源遙感數據融合處理的研究,逐年舉辦涉及光電融合和空-時-譜融合等領域的多源遙感數據融合的比賽。
目前,大多數的多源融合技術針對的是兩種數據的融合處理。文獻[26]首次提出基于彩色(RGB)圖像和深度(Depth)圖像的深度多模態(tài)融合,并提出早期融合的概念,在特征圖進入分割網絡之前,將RGB和深度通道拼接,實現(xiàn)對室內場景的精準分割。由于不同數據源的圖像具有異質性,簡單的圖像拼接對多源特征提取的效果提升有限。隨后FuseNet[27]在2016年被提出以合并互補的RGB圖像信息和深度信息到語義融合分割框架。FuseNet采用編碼器-解碼器分割框架,雙分支的網絡同時從RGB和Depth提取特征,并將Depth特征融入RGB的特征圖中作為下一層的輸入,隨著網絡的深入,從深度編碼器獲得的抽象特征融入RGB分支。在遙感圖像處理方面,文獻[28]提出一種用于建筑物目標分割任務的LiDAR和光學遙感圖像融合分割方法。該算法首先基于迭代形態(tài)濾波方法從激光雷達點云中提取初始建筑區(qū)域,然后通過融合LiDAR數據和相應的RGB遙感圖像來生成一個組合梯度表面,最后應用LiDAR分割初始化的流域算法在表面上找到建筑物邊緣。文獻[29]提出了一種用于多模態(tài)遙感數據分割的多階段融合多源注意力網絡。該網絡采用編碼器-解碼器結構,其多級融合模塊通過過濾多源遙感數據噪聲校正偏差信息,然后融合多源互補信息,通過提出的多源注意力機制聚合相似特征,增強異質特征的可辨別性,融合分割效果優(yōu)于Mp-ResNet、ACNet、ESANet等方法。隨著多視點、多分辨率對地觀測系統(tǒng)的發(fā)展,跨傳感器平臺(衛(wèi)星、飛機、無人機和車輛)的數據融合成為可能。文獻[30]提出一種針對激光雷達數據和相機光學圖像融合的語義分割網絡,可部署于自動駕駛汽車用于車道線分割。它使用Deeplab v3+網絡對汽車前方的相機圖像進行分割,然后與激光雷達采集的點云融合。除此之外,在建筑物和道路提取、自然災害受損區(qū)域提取和海面溢油監(jiān)測等方面,多源遙感圖像融合分割也顯示出優(yōu)勢[31-32]。
作為多源遙感圖像融合中的重要分支,多時相遙感圖像變化檢測是借助多源遙感圖像進行變化信息提取的有效手段。它通過處理同一區(qū)域前后時刻兩幅遙感圖像,獲取地面或海面前后不同時刻的變化信息[33]。早期的遙感影響變化檢測一直都是以像素為圖像分析的基本單元,即假設遙感圖像中各個像素是空間獨立的,不存在像素相關,通過分析像素點的特征來檢測地面發(fā)生變化的區(qū)域。主要的變化檢測方法有圖像差分[34]、圖像比值[35]和回歸分析[36]等。由于基于像素的變化檢測方法無法區(qū)分出發(fā)生變化的具體目標,因此出現(xiàn)了基于對象的變化檢測方法。這類方法對于光譜差異、畸變等表現(xiàn)出良好的穩(wěn)定性,同時對于判讀發(fā)生變化的具體信息更有幫助。文獻[37]提出一種基于對象的變化檢測方法,它以目標作為變化檢測的基本分析單元,從而可以從目標的不同維度特征獲取更加準確的地面目標變化信息。文獻[38]提出一種多尺度的變化檢測方法,其中小尺度針對建筑物,大尺度針對成片區(qū)域的植被,相比基于像素的變化檢測方法,該方法的檢測準確率提升18%。之后又有研究者提出一種基于圖像目標相關性分析的變化檢測方法,它以目標的多維特征向量為基礎,度量多時相圖像中不同目標的相關性,并通過機器學習分類算法得到變化檢測結果。
隨著深度學習技術的發(fā)展,研究者提出基于孿生網絡[39-40]的變化檢測方法。文獻[41]在FCN的基礎上設計了三種經典的變化檢測網絡,這些網絡利用配準的多時相遙感圖像進行變化檢測,不同之處在于網絡的分支設計和融合方式上。值得注意的是,它提出的孿生全卷積網絡結構,對于解決變化檢測問題具有啟發(fā)意義。文獻[42]針對異質性遙感圖像提出了一種無監(jiān)督的變化檢測方法,它使用對稱的網絡結構,通過兩邊的卷積層和深度卷積耦合層,將連接在網絡兩側的兩個輸入圖像分別轉換到同一特征空間,從而計算出同一特征空間不同的特征圖,然后應用閾值算法得到最終的檢測結果。文獻[43]提出了一種基于CGAN圖像變化檢測方法,其原型結構為pix2pix[44],它不考慮特定季節(jié)的物體變化以及亮度變化等因素造成的差異,能夠有效地對不同季節(jié)的多時相遙感圖像進行變化檢測。然而,該方法對于高分辨率遙感圖像的變化檢測效果不佳,原因是上述方法是通過利用深度特征生成差異圖像或學習像素塊之間的變化關系來實現(xiàn)變化檢測的,這導致了誤差積累問題,因為獲得最終的變化圖需要較多的中間處理步驟。為了解決這一問題,文獻[45]提出了一種新的端到端的變化檢測方法,該方法基于有效的語義分割編解碼器體系結構UNet++[46],利用全局信息和細粒度信息生成具有較高空間精度的特征圖,然后采用多側輸出的融合策略,將不同語義層的變化圖進行組合,生成精度較高的最終變化圖。在極高分辨率衛(wèi)星影像數據集上的實驗結果驗證了該方法的有效性和可靠性。除了光學和SAR圖像的變化檢測,文獻[47]提出了一種LiDAR與光學圖像之間的變化檢測方法。該方法將多模態(tài)輸入一個輕量化孿生卷積神經網絡進行變化檢測,為多模態(tài)變化檢測網絡的設計提供了借鑒意義。為了對時空信息進行全局特征建模,文獻[48]在注意力機制的基礎上提出了基于孿生網絡的時空注意力變化檢測網絡,它在特征提取過程中增加了一個時空注意力模塊以及金字塔時空注意力模塊,對于雙時相圖像的配準誤差,以及遙感圖像的顏色和尺度的變化具有較強的魯棒性。為了提升高分辨率遙感圖像的變化檢測精度及準確率,文獻[49]和文獻[50]分別使用Attention和Transformer注意力模塊提出了基于DenseNet的孿生變化檢測網絡和基于Transformer的變化檢測網絡,模型在參數數量和結構上更精簡。
隨著遙感、人工智能等領域的快速發(fā)展,多源遙感圖像融合語義分割逐漸成為提升單源分割效果的主流方法。在實際的處理過程中,涉及快速語義分割、聯(lián)合語義輔助的多源圖像配準與時序合成、多源遙感圖像語義信息提取等關鍵技術。多源遙感圖像語義分割的處理思路如圖1所示,輸入數據為多源遙感衛(wèi)星圖像、輔助地理信息數據(如控制點、參考圖像等),處理過程分為快速語義分割、語義輔助精確配準與時序合成、語義信息智能提取3個有機融合的環(huán)節(jié),輸出地物覆蓋類型圖、語義信息掩膜和變化圖等。
圖1 多源遙感圖像語義分割關鍵技術路線
首先通過深度學習方法提取高分辨率遙感圖像語義信息,實現(xiàn)建筑物、水體和目標(如艦船、飛機)等少量類別的快速語義分割,實際中常從衛(wèi)星遙感圖像中快速分割道路、水體、建筑物、植被等目標地物,從而為后續(xù)遙感圖像配準和合成提供有效輔助。由于單景遙感圖像分辨率高,直接進行處理速度較慢,因此通常先進行裁剪,通過滑窗方式裁剪指定尺寸的圖像塊作為快速語義分割的輸入。文獻[51]提出一種針對高分辨率遙感圖像的圖像處理方法,即通過滑窗方式將4 000×4 000像素的圖像裁剪指定尺寸(416×416像素)的圖像作為模型的輸入,且相鄰裁剪圖像重疊15%的區(qū)域以保證原圖各區(qū)域均能被正確分割。經過逐個分割后將分割結果合并得到最終檢測結果。在快速語義分割方面,開創(chuàng)性的FCN是大多數語義分割網絡結構的基礎,U-Net使用密集的跳躍連接進一步利用了空間細節(jié),使得分割結果具有更準確的邊緣。此后,為了改進整體特征提取能力,采用金字塔池化模塊的PSPNet和采用空洞卷積金字塔池化模塊的DeepLab對全局上下文進行編碼,提取全局語義信息。由于圖像分割速度與模型的計算開銷緊密聯(lián)系,為了提高語義分割速度,基于FCN的SegNet[19]和ENet[52]相繼被提出,通過引入聯(lián)合編碼器-解碼器模型和減少層數的編碼器-解碼器模型,減少了計算成本。在ICNet[53]、BiSeNet[54]和GUN[55]等雙分支輕量化語義分割方法啟發(fā),Fast-SCNN結合共享權值的淺層網絡來學習細節(jié)特征,同時在低分辨率下高效地學習全局上下文特征,將語義分割速度提升至實時處理水平。通過快速語義分割,得到云區(qū)、水體、建筑物、樹木等對目標地物,便于后續(xù)配準和時序合成。隨著大型語言模型的成功,通用視覺分割模型GPT、采用 Transformer 編碼器-解碼器結構的SEEM、集多種分割任務于一身的OMG-Seg等被用于語義分割任務。例如SEEM模型[56],盡管監(jiān)督學習使用數據標簽來統(tǒng)一多源圖像并將它們與標簽對齊,但它們的嵌入空間本質上仍然不同,為了解決這個問題,SEEM模型將不同類型的標簽與不同的輸出進行匹配,使其支持各種組合方式,多源提取標簽也可以簡單地連接并饋送到 SEEM 解碼器中。
通過語義信息輔助實現(xiàn)多源遙感圖像配準,相比傳統(tǒng)幾何處理手段可以大幅度提升配準的速度、魯棒性和自動化程度。具體來說就是充分利用前述環(huán)節(jié)識別出的語義分割信息剔除云層、植被等非固定目標特征點,同時利用提取的固定目標特征信息用于多源異構遙感數據高精度配準與融合。文獻[57]提出一種用于多時相高分辨率航空圖像配準的語義特征提取方法,通過語義分割網絡提取隨時間變化不大的對象(如道路)的特征信息,幫助處理圖像配準中的樹葉變化等問題,解決了經典手工特征無法解決的時變問題,經檢驗在跨年份和季節(jié)的航拍圖像配準實驗中展示出良好的魯棒性和準確性。為了在融合任務中考慮語義信息,文獻[58]提出一種基于語義分割的生成對抗網絡,該網絡可根據熱輻射信息和紋理細節(jié)的差異,通過掩模將每個源圖像分為前景和背景,對前景和背景使用不同的特征提取方法,以更好地保留源圖像的信息實現(xiàn)異源融合。上述兩種應用代表了語義分割提取出的語義信息輔助多源遙感圖像精確配準和融合的方向,越來越多的研究者通過語義分割剔除影響配準精度的特征點或者區(qū)域,并提高了配準和融合的速度,以便壓縮多源遙感圖像語義信息智能提取的時間。
經過前兩步處理后,多源異構遙感圖像完成配準與融合,因此可以通過人工智能等先進技術手段,利用不同數據來源的差異性和互補性,從多源/多時相遙感圖像中提取目標的幾何物理信息、語義信息及其時序變化信息,從而得到目標掩膜、有地物覆蓋分類的語義地圖、變化信息圖,如道路及建筑物輪廓、水體情況以及地物目標的多時相變化圖等。文獻[59]提出一種基于U-Net的語義分割方法,從高分辨率多光譜遙感圖像中提取建筑,利用GIS地圖數據集來改進建筑物提取結果。文獻[60]提出一種雙流高分辨率網絡HRNet來合并兩種異構數據(SAR和光學圖像),并利用多模態(tài)壓縮激勵模塊來融合特征圖。實驗表明,該方法對GF2和GF3衛(wèi)星獲取的遙感數據具有良好的處理效果。文獻[61]提出了一種端到端的多源遙感圖像語義分割網絡MCENet,它通過協(xié)同增強融合模塊來挖掘多源遙感圖像的互補特征,其中協(xié)同融合模塊用于解決類內差異問題,增強聚合模塊用于解決類間相似問題。MCENet還采用了一種多尺度解碼器,通過學習尺度不變性特征來提高模型對小目標和大尺度變化的魯棒性。實驗證明MCENet在參數數量和推理速度方面更具優(yōu)勢。隨著遙感數據的爆炸式增長,如何高效地利用多源遙感數據的互補性提取有用信息成為研究的重點。
對于遙感圖像解譯而言,對地面覆蓋物進行分類是一項重要的任務,而語義分割則可以解決這一問題。隨著衛(wèi)星觀測數據的爆炸式增長,多光譜、高光譜、全色、紅外、SAR等遙感圖像的高效、快速融合分割是未來新的研究熱點。相比單源遙感數據,多源遙感圖像的融合分割可以將同一地物的不同類型進行綜合,以獲得滿足狀態(tài)判讀和變化區(qū)域檢測等任務的高質量信息,產生比單一傳感器圖像更加精準、可靠的估計和判決。對于多源遙感圖像語義分割與變化檢測任務而言,遙感數據呈現(xiàn)多波段、多極化、多尺度和異質性等特點,目前,仍然面臨著許多挑戰(zhàn):
1)數據規(guī)模與標注問題。多源遙感圖像語義分割任務需要處理的數據規(guī)模龐大且多樣,每個數據源可能具有不同的特性、分辨率和覆蓋范圍。GPT等AI大模型在處理自然語言任務時,依賴于大規(guī)模的語料庫進行訓練。類似地,多源遙感圖像語義分割也需要大量的標注數據來訓練模型,以學習從圖像到語義標簽的映射。然而,遙感圖像的標注工作既耗時又耗力,且標注質量直接影響模型的性能。因此,如何獲取足夠多且質量高的標注數據是一個重要挑戰(zhàn)。
2)多源圖像之間的相關性度量問題。在多源遙感圖像語義分割任務中,如何準確度量不同來源圖像之間的相關性是一個重要的技術挑戰(zhàn)。由于不同遙感數據源可能采用不同的傳感器、分辨率和拍攝角度,因此圖像之間的信息含量、特征表示和噪聲水平可能存在顯著差異。這導致在融合這些圖像時,需要解決不同數據源之間的信息對齊和互補問題。具體來說,度量多源圖像之間的相關性需要考慮以下幾個方面:
(1) 特征空間的一致性:不同遙感圖像可能具有不同的特征空間,因此需要將它們轉換到一個共同的表示空間,以便進行比較和融合。這通常需要復雜的特征轉換和校準技術。
(2) 時空對齊:由于不同遙感數據源可能采用不同的拍攝時間和地點,因此需要進行精確的時空對齊,以確保圖像之間的信息能夠準確對應。這涉及到復雜的圖像配準和校正技術。
(3) 信息互補性:不同遙感數據源可能包含不同的信息,例如光學圖像可能提供地表紋理和顏色信息,而雷達圖像可能提供地表形態(tài)和結構信息。因此,在度量相關性時,需要考慮如何充分利用這些互補信息,以提高分割的精度和可靠性。
3)在軌或終端處理的時效性保障。對于多源遙感圖像語義分割任務來說,時效性是一個至關重要的考慮因素。由于遙感數據量大、處理復雜度高,因此在軌或終端處理的時效性保障成為了一個技術挑戰(zhàn)。具體來說,保障時效性需要考慮以下幾個方面:
(1) 高效算法設計:為了實現(xiàn)在軌或終端的快速處理,需要設計高效的算法來降低計算復雜度,包括采用輕量級的網絡結構、優(yōu)化算法參數、使用并行計算技術等。
(2) 硬件加速:利用高性能計算設備和專用硬件加速器(如GPU、FPGA等)可以顯著提高處理速度。通過優(yōu)化硬件和軟件之間的協(xié)同工作,可以實現(xiàn)在軌或終端的實時處理。
(3) 數據流管理:對于大規(guī)模遙感數據流的管理和調度也是一個挑戰(zhàn)。需要設計有效的數據流管理策略,確保數據能夠高效地從數據源傳輸到處理終端,并及時進行處理和分析。
4結束語
本文從遙感圖像解譯角度簡述了多源遙感圖像融合語義分割的優(yōu)勢,具體對單源遙感圖像語義分割、多源遙感圖像融合語義分割和多時相遙感圖像變化檢測的發(fā)展現(xiàn)狀進行了概述,梳理了多源遙感圖像融合語義分割的理論脈絡,并總結了多源遙感圖像語義分割的關鍵技術,厘清了多源高分辨率遙感圖像融合語義信息提取的基本思路和大體框架。
隨著天基探測需求的不斷增大,以及AI大模型的井噴式發(fā)展,多源遙感圖像融合也面臨著許多新的機遇。對于多源遙感圖像融合語義分割有以下方面的研究展望:
(1)AI大模型的應用將極大提升多源遙感圖像語義分割的精度和效率。這些模型經過大規(guī)模數據的訓練,能夠學習到豐富的特征和上下文信息,從而更準確地識別并分割出不同地物類別。同時,隨著模型的不斷優(yōu)化和簡化,其計算復雜度將逐漸降低,為在軌快速處理提供了可能。
(2)多源遙感圖像的處理將更加注重信息的融合與協(xié)同。不同數據源之間的信息互補性使得多源數據的融合成為提高語義分割精度的關鍵。基于AI大模型的多源融合語義分割技術將更加注重如何有效地融合不同數據源的信息,以充分利用各自的優(yōu)勢,提高分割的準確性和可靠性。
(3)在軌快速處理方面,隨著硬件技術的不斷進步,高性能計算設備和專用硬件加速器將在衛(wèi)星上得到更廣泛的應用。這些設備能夠提供強大的計算能力,支持AI大模型在軌實時處理多源遙感圖像。同時,針對在軌環(huán)境的特殊需求,未來的技術還將更加注重能耗和重量的優(yōu)化,以確保在軌處理的高效性和可持續(xù)性。此外,隨著深度學習技術的不斷發(fā)展,新的算法和模型將不斷涌現(xiàn),為多源遙感圖像語義分割提供更強大的支持。例如,通過引入注意力機制、圖神經網絡等先進技術,可以進一步提高模型的分割精度和魯棒性;通過設計更加輕量級的模型結構,可以實現(xiàn)在軌快速處理的同時保持較高的性能。
隨著相關技術的不斷進步和優(yōu)化,有理由相信未來多源遙感圖像語義分割將更加準確、高效和可靠,為城市規(guī)劃、環(huán)境監(jiān)測、災害預警等領域提供更強大的支持。