• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度學(xué)習(xí)的航空遙感影像密集匹配

      2019-09-26 08:13:46季順平
      測(cè)繪學(xué)報(bào) 2019年9期
      關(guān)鍵詞:視差集上像素

      劉 瑾,季順平

      武漢大學(xué)遙感信息工程學(xué)院,湖北 武漢 430079

      從立體或多視航空航天遙感圖像重建地面三維場(chǎng)景一直是攝影測(cè)量與遙感中的核心問題。自動(dòng)獲取立體像對(duì)中每個(gè)像素的同名點(diǎn)是:三維重建的關(guān)鍵技術(shù),通常稱為“圖像密集匹配”。圖像密集匹配可分為4個(gè)過程[1]。第1步是匹配代價(jià)的計(jì)算。像素值的亮度差、相關(guān)系數(shù)及互信息是一些經(jīng)典的匹配代價(jià)。這些代價(jià)主要基于灰度、梯度或信息熵,以待匹配圖像塊作為模板,按照給定的相似性度量在搜索區(qū)域內(nèi)逐像素遍歷計(jì)算。這些匹配代價(jià)雖然實(shí)現(xiàn)簡(jiǎn)單,但易受無(wú)紋理區(qū)域、表面鏡反射、單一結(jié)構(gòu)和重復(fù)圖案的影響[2]。第2步是匹配代價(jià)聚合。代價(jià)聚合通常是對(duì)匹配點(diǎn)鄰域內(nèi)所有匹配代價(jià)加權(quán)求和。代價(jià)聚合能達(dá)到局部濾波的效果。但傳統(tǒng)的算法中,包括半全局匹配法和圖割法(GraphCut)[3],都對(duì)代價(jià)聚合做了不同程度的簡(jiǎn)化。第3步是視差值計(jì)算。最小匹配代價(jià)對(duì)應(yīng)的視差值即為最優(yōu)結(jié)果。通常采用能量函數(shù)的方法計(jì)算最優(yōu)視差值。最后一步是視差精化。該步驟是對(duì)視差值執(zhí)行優(yōu)化的過程,包括一系列后處理技術(shù),如左右一致性檢驗(yàn)、中值濾波、子像素增強(qiáng)等。最后可由密集匹配獲得視差圖,轉(zhuǎn)換為深度信息,從而重建三維場(chǎng)景。

      在各個(gè)階段,經(jīng)典匹配算法都或多或少地采用了經(jīng)驗(yàn)性的方法而非嚴(yán)格的數(shù)學(xué)模型,如設(shè)計(jì)特征、測(cè)度、聚合方式等,并做了不同程度的簡(jiǎn)化,如認(rèn)為鄰域內(nèi)像素的匹配代價(jià)獨(dú)立,因此難以達(dá)到數(shù)學(xué)上的最優(yōu)。采用深度學(xué)習(xí)算法,是否能夠克服上述傳統(tǒng)方法中的難點(diǎn)、進(jìn)一步提高匹配精度,是值得深入研究的問題。

      密集匹配作為三維重建的核心內(nèi)容,受到廣泛的重視。圖割法[3]是一種經(jīng)典的全局立體匹配算法。利用圖論的思想,將求解圖的最小割算法作為核心技術(shù),以求解二維區(qū)域的能量最小問題。PMVS(patch-based multi-view stereo)算法[4]首先提取特征點(diǎn)并進(jìn)行匹配,然后以特征點(diǎn)為中心擴(kuò)張到周圍面塊,對(duì)面塊匹配,得到準(zhǔn)密集匹配點(diǎn)。在效率上,圖割法等全局匹配算法采用近似最優(yōu)的優(yōu)化方法,計(jì)算量大,運(yùn)行時(shí)間過長(zhǎng),不太適合大容量的遙感影像。2008年提出了效率更高的半全局匹配方法(semi-global matching,SGM)[5]。SGM將匹配點(diǎn)鄰域的二維代價(jià)聚合替代為多個(gè)簡(jiǎn)單的一維代價(jià)聚合,對(duì)當(dāng)前區(qū)域的16個(gè)一維方向進(jìn)行動(dòng)態(tài)規(guī)劃計(jì)算,以求解最小代價(jià)。影像塊匹配算法[6](patch-match method)利用圖像的局部相關(guān)性,認(rèn)為匹配點(diǎn)周圍的區(qū)域也相互匹配。文獻(xiàn)[7]開發(fā)的SURE軟件是基于SGM的多視影像匹配算法。

      隨著機(jī)器學(xué)習(xí)的普及,深度學(xué)習(xí)[8-11]在各個(gè)研究領(lǐng)域都得到了廣泛的應(yīng)用。尤其是卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN),不僅提高了圖像識(shí)別和分類的準(zhǔn)確性,提升了在線運(yùn)算效率,更關(guān)鍵的是它避免了各類特征設(shè)計(jì)。一些研究者逐漸將深度學(xué)習(xí)引入到立體匹配中,在計(jì)算機(jī)視覺標(biāo)準(zhǔn)測(cè)試集上的匹配結(jié)果逐漸超過傳統(tǒng)匹配方法,展示了一定的優(yōu)越性。

      基于深度學(xué)習(xí)的密集匹配有兩種策略:只學(xué)習(xí)立體匹配4個(gè)標(biāo)準(zhǔn)步驟中的一部分和端到端學(xué)習(xí)。前者的例子包括MC-CNN網(wǎng)絡(luò)[12],只用于學(xué)習(xí)匹配代價(jià),以及SGM-Net網(wǎng)絡(luò)[13],在SGM中引入CNN學(xué)習(xí)懲罰項(xiàng),以解決懲罰參數(shù)調(diào)整困難的問題。

      端到端的學(xué)習(xí)策略是直接從立體像對(duì)預(yù)測(cè)視差圖。DispNet[14]是一種用于視差圖預(yù)測(cè)的普適的全卷積網(wǎng)絡(luò)。GC-Net(geometry and context network)[2]利用像素間的幾何信息和語(yǔ)義信息構(gòu)建3D張量,從3D特征中學(xué)習(xí)視差圖。PSM-Net(pyramid stereo matching network)[15]是由空間金字塔池和三維卷積層組成的網(wǎng)絡(luò),將全局的背景信息納入立體匹配中,以實(shí)現(xiàn)遮擋區(qū)域、無(wú)紋理或重復(fù)區(qū)域的可靠估計(jì)。CRL(cascade residual learning)[16]串聯(lián)了兩個(gè)改進(jìn)的DispNet[14]網(wǎng)絡(luò),第1個(gè)網(wǎng)絡(luò)得到立體像對(duì)間的初始化視差值,第2個(gè)網(wǎng)絡(luò)利用第1個(gè)網(wǎng)絡(luò)的殘差值進(jìn)一步精化。文獻(xiàn)[17]提出一種Highway網(wǎng)絡(luò)結(jié)構(gòu),引入多級(jí)加權(quán)殘差的跳接,利用復(fù)合損失函數(shù)進(jìn)行訓(xùn)練。以上方法均在監(jiān)督方式下運(yùn)行。文獻(xiàn)[18]設(shè)計(jì)了一種卷積神經(jīng)元網(wǎng)絡(luò),利用左右圖像(和右左圖像)的視差一致性學(xué)習(xí)視差圖,無(wú)需真實(shí)視差圖作為訓(xùn)練。

      深度學(xué)習(xí)方法已經(jīng)較成功地應(yīng)用于計(jì)算機(jī)視覺標(biāo)準(zhǔn)測(cè)試集的立體匹配,但是應(yīng)用于遙感影像的處理尚不成熟。本文研究了深度學(xué)習(xí)的方法在航空遙感影像密集匹配上的性能,并在多個(gè)數(shù)據(jù)集上與經(jīng)典方法和商業(yè)軟件進(jìn)行比較。此外,本文還評(píng)估了深度學(xué)習(xí)在航空遙感圖像匹配中的泛化能力,即在計(jì)算機(jī)視覺標(biāo)準(zhǔn)數(shù)據(jù)集上訓(xùn)練的模型,是否能直接應(yīng)用到航空遙感影像中。

      1 方 法

      1.1 MC-CNN

      MC-CNN通過深度卷積神經(jīng)元網(wǎng)絡(luò)的自我學(xué)習(xí),得到最優(yōu)的相似性測(cè)度,用于匹配代價(jià)的計(jì)算,而取代相關(guān)系數(shù)、灰度差等經(jīng)驗(yàn)設(shè)計(jì)的方法。

      MC-CNN中包括兩種不同結(jié)構(gòu)的網(wǎng)絡(luò):Fast結(jié)構(gòu)和Slow結(jié)構(gòu),前者比后者的處理速度更快,但得到的視差值精度稍遜于后者。兩種結(jié)構(gòu)均利用一系列卷積層從輸入圖塊中提取特征向量,依據(jù)特征向量計(jì)算圖塊間的相似性。Fast結(jié)構(gòu)采用固定的余弦度量(即點(diǎn)積)比較提取出的兩個(gè)特征向量是否相似,Slow結(jié)構(gòu)嘗試用一系列全連接層學(xué)習(xí)出特征向量間的相似性分?jǐn)?shù)。由于Slow網(wǎng)絡(luò)對(duì)訓(xùn)練數(shù)據(jù)集容量和內(nèi)存均有較高要求,本文采用Fast網(wǎng)絡(luò)作為試驗(yàn)網(wǎng)絡(luò)。網(wǎng)絡(luò)框架如圖1所示。

      Fast結(jié)構(gòu)是一種連體(siamese)網(wǎng)絡(luò),兩個(gè)子網(wǎng)絡(luò)分別由多個(gè)卷積層組成,且共享參數(shù),分別用于提取左圖塊和右圖塊中的特征向量。在本文中,卷積層數(shù)設(shè)置為4,卷積核大小為3×3。兩個(gè)歸一化特征向量通過點(diǎn)積得到相似性分?jǐn)?shù)。MC-CNN每次輸入一對(duì)正負(fù)樣本,計(jì)算損失值,并通過最小化Hinge Loss函數(shù)訓(xùn)練網(wǎng)絡(luò)。設(shè)s+、s-分別為正負(fù)樣本的輸出,限差為m, 則Hinge Loss定義為max(0,m+s--s+)。在本文試驗(yàn)中,m設(shè)置為0.2。

      MC-CNN只用于學(xué)習(xí)代價(jià)函數(shù),諸如代價(jià)聚合[19]、半全局匹配、左右一致性檢驗(yàn)、子像素增強(qiáng)、中值濾波和雙邊濾波等后處理步驟參考了SGM的相關(guān)流程。

      1.2 GC-Net

      GC-Net采用端到端的學(xué)習(xí)策略,直接學(xué)習(xí)從核線立體像對(duì)到深度圖的可微映射函數(shù)。GC-Net將視差看作第3維,構(gòu)建圖像-視差張量。由3D卷積學(xué)習(xí)特征,得到最優(yōu)視差圖(即3D張量中的一個(gè)曲面)。在圖2中,立體像對(duì)首先通過一系列共享的2D卷積核提取特征圖。第2步,將特征圖串聯(lián)并構(gòu)建代價(jià)立方體(cost volume)。具體的,以左片特征圖為例,設(shè)其寬度和長(zhǎng)度分別為w和h,右片相對(duì)于左片的最大視差為n。將對(duì)應(yīng)的右片特征圖每次平移一個(gè)像素,即共生成n張圖。左片特征圖與平移后的n張右片特征圖逐個(gè)串聯(lián),得到w×h×(n+1)的3D張量。第3步,利用3D卷積和3D反卷積學(xué)習(xí)一系列的3D特征圖,其最終的大小為W×H×n。H和W分別為原始圖像的長(zhǎng)寬。第4步,通過定義一個(gè)SoftArgmin函數(shù),將3D特征圖壓縮為2D視差圖d′。最后,采用d′與參考視差圖d之間的一次范式誤差作為代價(jià)函數(shù),反向傳播并迭代得到最優(yōu)參數(shù)。

      在試驗(yàn)中,2D卷積部分包含18個(gè)卷積層,每一層含32個(gè)卷積核,其中第1層的卷積核大小為5×5,剩余17層均為3×3。3D卷積部分包含14個(gè)卷積層,卷積核大小均為3×3×3。前兩層的卷積核個(gè)數(shù)為32,后3層為128,剩余3D卷積層的卷積核個(gè)數(shù)為64。反卷積部分由5層反卷積組成,反卷積核大小為3×3×3,每一層的反卷積核個(gè)數(shù)分別為64/64/64/32/1。

      1.3 DispNet

      DispNet網(wǎng)絡(luò)以FlowNet(flow estimation network)[20]網(wǎng)絡(luò)為基礎(chǔ),是一種通用的全卷積神經(jīng)元網(wǎng)絡(luò),由編碼和解碼兩階段組成,以核線影像對(duì)為輸入,直接輸出對(duì)應(yīng)的視差圖。其中編碼階段由6個(gè)卷積層組成,前兩層的卷積核大小分別為7×7和5×5,其余層均為3×3。解碼部分由5個(gè)上卷積層組成,卷積核大小為4×4。每一尺度的特征圖都與真實(shí)視差圖比較,得到對(duì)應(yīng)的損失值。在訓(xùn)練過程中采用加權(quán)的方式賦予這些損失值不同的重要程度。DispNet網(wǎng)絡(luò)的示意圖如圖3所示。DispNet網(wǎng)絡(luò)采用Adam優(yōu)化器調(diào)整模型中的權(quán)值,學(xué)習(xí)速率設(shè)置為1e-4,且每200 k次迭代學(xué)習(xí)速率減半。

      圖3 DispNet網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 The structure of DispNet

      1.4 遷移學(xué)習(xí)

      遷移學(xué)習(xí)(transfer learning)[21]是一種將從源數(shù)據(jù)集學(xué)習(xí)的模型應(yīng)用于新的目標(biāo)數(shù)據(jù)集的策略。如果已有模型能夠直接應(yīng)用于目標(biāo)數(shù)據(jù)集上,將避免大量工作,特別是在目標(biāo)集樣本不充足的情況下。遷移學(xué)習(xí)可分為直推式遷移和模型微調(diào)(fine-tuning)。

      直推式遷移學(xué)習(xí)使用源數(shù)據(jù)集的訓(xùn)練模型,在不進(jìn)行任何參數(shù)調(diào)整的情況下,直接對(duì)目標(biāo)數(shù)據(jù)集進(jìn)行預(yù)測(cè)。該方法要求模型本身具有良好的泛化能力,且要求源任務(wù)和目標(biāo)任務(wù)是同一類問題。

      利用少量目標(biāo)數(shù)據(jù)集樣本進(jìn)行模型微調(diào)是另一種常見的遷移學(xué)習(xí)模式。將預(yù)訓(xùn)練模型的參數(shù)作為初值,用目標(biāo)數(shù)據(jù)集的樣本進(jìn)行精調(diào)整,以減少新模型訓(xùn)練需要的迭代次數(shù),并彌補(bǔ)樣本量不足帶來(lái)的弊端。

      參數(shù)遷移可分為兩種:一種是微調(diào)所有層的參數(shù);另一種是僅調(diào)整最后幾層,并凍結(jié)具有普遍性和重用性底層特征。由于本文涉及的網(wǎng)絡(luò)層數(shù)較淺,統(tǒng)一采用前一種方式。

      圖4 參數(shù)遷移Fig.4 Parameter transfer

      2 數(shù)據(jù)集

      為全面評(píng)價(jià)深度學(xué)習(xí)方法在航空遙感立體像對(duì)密集匹配中的性能,本文試驗(yàn)中共采用5套數(shù)據(jù)集,其中KITTI、Driving是開源的近景數(shù)據(jù)集,Hangzhou、München、Vaihingen 3套是采集自無(wú)人機(jī)平臺(tái)和傳統(tǒng)航攝平臺(tái)的完整航空遙感數(shù)據(jù)集。

      2.1 KITTI數(shù)據(jù)集

      KITTI街景數(shù)據(jù)集[22]采集自汽車車頂上安裝的兩個(gè)高分辨率立體相機(jī)。真實(shí)深度值是由一個(gè)旋轉(zhuǎn)激光掃描儀記錄所得,點(diǎn)云密度約為影像像素的30%。KITTI數(shù)據(jù)集包括KITTI2012和KITTI2015。KITTI2012數(shù)據(jù)集為灰度核線影像,平均大小為1240×376像素,包含194對(duì)訓(xùn)練圖像和195對(duì)測(cè)試圖像。KITTI2015數(shù)據(jù)集包含灰度影像和彩色影像,平均大小為1242×375像素;包括200對(duì)訓(xùn)練圖像和200對(duì)測(cè)試圖像。KITTI數(shù)據(jù)集只提供訓(xùn)練集的真實(shí)深度圖參考,因此,本文將訓(xùn)練集中的80%作為訓(xùn)練集,剩余20%作為測(cè)試集以統(tǒng)計(jì)精度。這也是其他文獻(xiàn)通行的方法。

      2.2 Driving數(shù)據(jù)集

      Driving數(shù)據(jù)集[23]是一套虛擬的街景影像集。它是由一個(gè)汽車模型動(dòng)態(tài)行駛在虛擬街景模型中,每一幀獲取一對(duì)立體像對(duì)。Driving數(shù)據(jù)集提供多種參數(shù)設(shè)置下的共超過4000對(duì)數(shù)據(jù),并提供密集的真實(shí)視差圖。其數(shù)據(jù)量比現(xiàn)有的其他數(shù)據(jù)集多幾個(gè)數(shù)量級(jí),有效促進(jìn)了大型卷積神經(jīng)元網(wǎng)絡(luò)的訓(xùn)練。Driving數(shù)據(jù)集中的左右像對(duì)為核線影像,影像大小固定為960×540。本文試驗(yàn)中選取了300對(duì)數(shù)據(jù),其中80%作為測(cè)試集,其余20%作為測(cè)試集。

      2.3 Hangzhou數(shù)據(jù)集

      Hangzhou數(shù)據(jù)集由無(wú)人機(jī)采集。無(wú)人機(jī)在距地面約640 m的低空拍攝,記錄了2017年8月杭州附近山村地區(qū)的場(chǎng)景。包括4條航帶20張9000×6732像素的像片,具有80%的航向重疊度和60%的旁向重疊度。影像中包括高速公路、低矮房屋、工業(yè)廠房、裸露田地、樹林,以及裸露山體等地物類型。由LiDAR獲得的該地區(qū)的激光點(diǎn)云作為地面真實(shí)深度值。

      本文在空中三角測(cè)量解算后,將原始影像兩兩糾正為核線影像,并由激光點(diǎn)云得到對(duì)應(yīng)每個(gè)同名像素點(diǎn)的視差值。受計(jì)算機(jī)顯卡容量的限制,原始大小的航空影像不能直接用于訓(xùn)練,因此將核線影像裁剪為1325×354像素的子圖像。通過手工挑選的方式去除一部分山區(qū)不理想的影像對(duì)(主要是LiDAR點(diǎn)云誤差),剩余的328對(duì)影像作為訓(xùn)練集,40對(duì)作為測(cè)試集。

      2.4 München與Vaihingen數(shù)據(jù)集

      München數(shù)據(jù)集和Vaihingen數(shù)據(jù)集采集自航攝飛機(jī)拍攝的標(biāo)準(zhǔn)航空遙感影像。兩套影像均為德國(guó)地區(qū)的場(chǎng)景。其中München包含3條航帶15張14 114×15 552像素的航空影像,具有80%的航向重疊度和80%的旁向重疊度。影像中的主要地物類型為城市建筑、道路、綠化帶等。Vaihingen為3條航帶36張鄉(xiāng)村影像,大小為9420×14 430像素;航向重疊度60%,旁向重疊度60%。影像中的地物多為平坦的種植區(qū),其余為密集低矮的房屋以及樹林、河流等。兩套數(shù)據(jù)分辨率高,地物清晰,分別作為城市和鄉(xiāng)村的典型,具有較強(qiáng)的代表性。

      兩套數(shù)據(jù)中,作為參考的地面高程信息以半密集的DSM形式提供。該DSM由7種商業(yè)軟件生成,取中值作為最終深度值,目視精度較高。

      與Hangzhou數(shù)據(jù)處理過程類似,將糾正后的核線影像分別裁剪為1150×435像素和955×360像素大小的子圖像。經(jīng)篩選后,最終得到由540對(duì)影像構(gòu)成的München數(shù)據(jù)集以及由740對(duì)影像構(gòu)成的Vaihingen數(shù)據(jù)集。訓(xùn)練集和測(cè)試集的比例設(shè)置為4∶1。

      3 試驗(yàn)與結(jié)果分析

      為全面評(píng)價(jià)深度學(xué)習(xí)在航空遙感影像中的性能和泛化能力,本文設(shè)計(jì)了兩類試驗(yàn)。第1類是利用3套航空數(shù)據(jù)集Hangzhou、München、Vaihingen測(cè)試各種深度學(xué)習(xí)方法的性能,并與經(jīng)典的SGM和主流攝影測(cè)量軟件SURE作對(duì)比。第2類是測(cè)試深度學(xué)習(xí)模型的泛化性能。包括將計(jì)算機(jī)視覺標(biāo)準(zhǔn)測(cè)試集上訓(xùn)練的模型直接應(yīng)用于航空影像,以及測(cè)試基于目標(biāo)集小樣本訓(xùn)練的遷移學(xué)習(xí)。

      所有試驗(yàn)均以訓(xùn)練后的網(wǎng)絡(luò)模型在測(cè)試集上的結(jié)果作為評(píng)價(jià)依據(jù)。本文采用三像素誤差(three-pixel-error,3PE)和一像素誤差(one-pixel-error,1PE)作為評(píng)價(jià)標(biāo)準(zhǔn)。如3PE指點(diǎn)位誤差小于3個(gè)像素的個(gè)數(shù)占所有像素的百分比。

      所有的深度學(xué)習(xí)算法均在Linux系統(tǒng)下實(shí)現(xiàn)。其中MC-CNN在深度學(xué)習(xí)框架torch下實(shí)現(xiàn),采用Lua語(yǔ)言編寫核心代碼。GC-Net模型和DispNet模型分別在Keras和Tensorflow下實(shí)現(xiàn),采用Python作為主要語(yǔ)言。所有模型的訓(xùn)練和測(cè)試均在NVIDIA Titan Xp 12 G GPU上運(yùn)行。

      3.1 深度學(xué)習(xí)方法與傳統(tǒng)方法的比較

      試驗(yàn)評(píng)估了3種網(wǎng)絡(luò)模型MC-CNN、GC-Net、DispNet在密集匹配上的表現(xiàn),并與SGM、商業(yè)軟件SURE比較。各種方法/軟件的設(shè)定如下:

      (1) MC-CNN:MC-CNN的訓(xùn)練輸入是以匹配點(diǎn)為中心的9×9窗口。在訓(xùn)練階段,模型每次輸入128對(duì)正負(fù)樣本,采用小批量梯度下降法最小化損失,動(dòng)量設(shè)置為0.9。所有數(shù)據(jù)迭代14次,學(xué)習(xí)速率設(shè)置為0.002。第11次迭代后,學(xué)習(xí)速率調(diào)整至0.000 2。預(yù)測(cè)階段,輸入一對(duì)核線立體像對(duì),輸出相似性分?jǐn)?shù),通過一系列后處理過程得到最終的視差圖。

      (2) GC-Net:訓(xùn)練輸入為整幅核線像對(duì)及對(duì)應(yīng)的視差圖。GC-Net在稀疏的視差圖上訓(xùn)練效果較差,因此只在3套密集型的數(shù)據(jù)集上訓(xùn)練模型(不能處理的數(shù)據(jù)集在表1中統(tǒng)一以“—”表示)。輸入數(shù)據(jù)的批量大小設(shè)置為1,所有數(shù)據(jù)迭代50次,學(xué)習(xí)速率設(shè)置為0.001。測(cè)試階段直接輸出視差圖及精度。

      (3) DispNet:整幅核線影像對(duì)作為輸入。批量大小設(shè)置為32。所有數(shù)據(jù)迭代1500次,學(xué)習(xí)速率設(shè)置為0.000 1,并在訓(xùn)練過程中逐漸下降。輸出視差圖及精度。

      (4) SGM:采用Opencv3.0庫(kù)中自帶函數(shù),并附加高斯平滑、中值濾波等后處理過程。以批處理的方式對(duì)每一套測(cè)試集進(jìn)行處理,由生成的視差圖和真實(shí)視差圖比較計(jì)算點(diǎn)位誤差并統(tǒng)計(jì)精度。

      (5) SURE:作為商業(yè)軟件,輸入為所有原始影像及外方位元素信息,輸出為OSGB格式的三維模型。因此只在3套航空影像數(shù)據(jù)集上進(jìn)行試驗(yàn)。該軟件輸出的三維模型反映的是地物點(diǎn)的真實(shí)坐標(biāo),為了參與精度評(píng)定,由三維坐標(biāo)計(jì)算每個(gè)點(diǎn)在核線影像上對(duì)應(yīng)的視差值,并與真實(shí)視差值比較。

      傳統(tǒng)方法和深度學(xué)習(xí)方法在5套數(shù)據(jù)集上的表現(xiàn)見表1。

      從表1可見,第1,在3種深度學(xué)習(xí)方法中,端到端的GC-Net模型表現(xiàn)最好。在3套數(shù)據(jù)集上均優(yōu)于其他方法,在地勢(shì)平坦的Vaihingen數(shù)據(jù)集上精度達(dá)到99.7%(98.0%)。在地物高差變化較大的München數(shù)據(jù)集上,3PE比第2名的MC-CNN模型高2%左右,1PE高出近9%。在效果較差的Driving數(shù)據(jù)集上,92.6%的測(cè)試精度遠(yuǎn)超其他方法。

      第2,MC-CNN模型表現(xiàn)良好且穩(wěn)定,在各套數(shù)據(jù)集上的精度均遠(yuǎn)超SGM,在KITTI2015和Hangzhou數(shù)據(jù)集上優(yōu)勢(shì)最明顯。在München和Vaihingen兩套航空影像數(shù)據(jù)集上,與基于多視匹配的SURE相當(dāng)。在Hangzhou數(shù)據(jù)集上稍遜色于SURE。

      第3,DispNet模型在遙感影像數(shù)據(jù)集上表現(xiàn)最差,甚至弱于SGM。DispNet網(wǎng)絡(luò)結(jié)構(gòu)屬于通用架構(gòu),而非專門為立體匹配設(shè)計(jì)。在1PE標(biāo)準(zhǔn)上較差的結(jié)果反映了通用模型架構(gòu)在密集匹配任務(wù)上的局限性。

      第4,GC-Net在所有方法中表現(xiàn)最優(yōu);MC-CNN與基于多視匹配的商業(yè)軟件SURE相當(dāng),且遠(yuǎn)優(yōu)于SGM;DispNet表現(xiàn)最差。本文預(yù)測(cè):若在GC-Net或MC-CNN中加入多視約束,基于深度學(xué)習(xí)的方法將可能明顯超越傳統(tǒng)方法。

      圖5分別展示了兩種深度學(xué)習(xí)方法和一種傳統(tǒng)方法在3套航空影像數(shù)據(jù)集上的預(yù)測(cè)視差圖。從上到下分別是立體像對(duì)的左圖、右圖、參考深度圖、MC-CNN、GC-Net、SGM方法的預(yù)測(cè)結(jié)果??梢奊C-Net表現(xiàn)最為優(yōu)秀,與參考圖最為相似;而傳統(tǒng)方法SGM效果略差。

      圖6是由4種方法的視差圖恢復(fù)得到的三維立體場(chǎng)景。從上到下分別是左圖、參考三維場(chǎng)景、MC-CNN、GC-Net、SGM和SURE的預(yù)測(cè)結(jié)果。由圖6可見,SURE在Hangzhou數(shù)據(jù)集上有一定的扭曲,其他方法則表現(xiàn)相對(duì)較好。在München數(shù)據(jù)集上,各種方法均較為接近參考三維場(chǎng)景,但SURE的側(cè)面紋理更加細(xì)致。在地勢(shì)平坦的Vaihingen數(shù)據(jù)集上,所有方法都達(dá)到了很好的水平。

      3.2 遷移學(xué)習(xí)

      3.2.1 直接遷移學(xué)習(xí)

      直接遷移學(xué)習(xí)是將預(yù)訓(xùn)練得到的模型,直接應(yīng)用于目標(biāo)數(shù)據(jù)集的預(yù)測(cè)。表2是基于MC-CNN的預(yù)訓(xùn)練模型在目標(biāo)集上的測(cè)試結(jié)果。訓(xùn)練集表示用于模型訓(xùn)練的源數(shù)據(jù)集,測(cè)試集表示目標(biāo)數(shù)據(jù)集。例如,對(duì)于Hangzhou目標(biāo)數(shù)據(jù)集,若用自身作為源數(shù)據(jù)集訓(xùn)練,其精度為95.3%(加粗的對(duì)角線元素);若采用KITTI2012作為源數(shù)據(jù)集,則其精度為94.4%。

      試驗(yàn)的測(cè)試精度同樣由3PE和1PE評(píng)價(jià)。總體而言,基于MC-CNN的深度學(xué)習(xí)方法具有良好的泛化能力,3PE標(biāo)準(zhǔn)上其模型退化程度(即采用其他數(shù)據(jù)源進(jìn)行訓(xùn)練導(dǎo)致的精度降低)為0.2%~2.2%,在1PE標(biāo)準(zhǔn)上為0.8%~5.6%。即使用預(yù)訓(xùn)練的模型直接預(yù)測(cè)而不進(jìn)行任何新的學(xué)習(xí),MC-CNN依然遠(yuǎn)超SGM,并與SURE軟件幾乎相當(dāng)。

      圖6 由4種方法的密集視差圖恢復(fù)出的三維場(chǎng)景Fig.6 3D scenes recovered from disparity maps of 4 methods

      測(cè)試集精度(3PE/1PE)訓(xùn)練集KITTI2012KITTI2015HangzhouMünchenVaihingenKITTI20120.963/0.8660.957/0.8480.941/0.8560.945/0.7970.946/0.813KITTI20150.958/0.7680.960/0.7780.951/0.7610.955/0.7510.953/0.750Hangzhou0.944/0.8080.942/0.8050.953/0.8160.948/0.7700.940/0.760München0.960/0.8540.960/0.8510.960/0.8440.965/0.8670.959/0.850Vaihingen0.988/0.9190.987/0.9120.987/0.9160.989/0.9220.992/0.932

      表3是基于GC-Net直接遷移學(xué)習(xí)的結(jié)果。由于只有Driving、München、Vaihingen 3套數(shù)據(jù)具有密集的深度圖標(biāo)簽,因此將這3套數(shù)據(jù)作為源數(shù)據(jù)集訓(xùn)練模型。其數(shù)據(jù)的表示方法與表2相同。

      表3 基于GC-Net的訓(xùn)練模型在目標(biāo)集上的測(cè)試結(jié)果

      GC-Net同樣具有很強(qiáng)的泛化能力,但稍弱于MC-CNN。遷移學(xué)習(xí)時(shí),3PE標(biāo)準(zhǔn)下模型退化程度約為1.5%~3%(1PE標(biāo)準(zhǔn)下為3.1%~9.9%)。測(cè)試精度平均下降2%,而MC-CNN只有0.6%。這是可以預(yù)料的,因?yàn)镸C-CNN只用來(lái)學(xué)習(xí)更底層的相似測(cè)度。

      3.2.2 參數(shù)微調(diào)

      在目標(biāo)集含有少量樣本的前提下,可以采用第2種遷移學(xué)習(xí)策略:以預(yù)訓(xùn)練模型作為初值,利用目標(biāo)樣本進(jìn)一步微調(diào)。

      表4和表5分別為基于MC-CNN方法和基于GC-Net方法的參數(shù)微調(diào)結(jié)果?!澳繕?biāo)訓(xùn)練集”表示參與訓(xùn)練的目標(biāo)集樣本數(shù)量,DT方法表示直接在目標(biāo)集上的訓(xùn)練,模型參數(shù)隨機(jī)初始化;TL方法表示參數(shù)遷移學(xué)習(xí)并微調(diào)?!跋鄬?duì)提升”是在同樣大小的訓(xùn)練集下,TL相對(duì)于DL的精度提高。在表4中,KITTI2015為源數(shù)據(jù)集,預(yù)訓(xùn)練了MC-CNN模型,Hangzhou為目標(biāo)集;在表5中,Vaihingen為源數(shù)據(jù)集,預(yù)訓(xùn)練了GC-Net模型,München為目標(biāo)集。

      表4 MC-CNN方法在不同數(shù)量訓(xùn)練樣本下的預(yù)測(cè)結(jié)果

      表5 GC-Net方法在不同數(shù)量訓(xùn)練樣本的預(yù)測(cè)結(jié)果

      表4中,當(dāng)用25對(duì)訓(xùn)練集直接訓(xùn)練模型時(shí),可達(dá)到94.4%的精度;樣本量增加一倍時(shí),測(cè)試精度提高0.09%左右??梢姡琈C-CNN方法對(duì)訓(xùn)練樣本的數(shù)量要求不高,少量樣本的微調(diào)也能得到較好的訓(xùn)練模型。當(dāng)采用遷移學(xué)習(xí)策略時(shí),25對(duì)訓(xùn)練樣本可達(dá)到94.9%的精度,相比于隨機(jī)初值的直接訓(xùn)練,具有0.5%的優(yōu)勢(shì)。

      在表5的GC-Net方法中,只用25對(duì)訓(xùn)練樣本時(shí),直接訓(xùn)練模型(DT)僅有78.3%的測(cè)試精度;樣本量增加一倍時(shí),測(cè)試精度達(dá)到90.2%,提高11.9%。當(dāng)樣本量逐漸增加,最終達(dá)到97.2%??梢姡啾扔贛C-CNN,端到端的GC-Net需要更多的訓(xùn)練樣本。而采用遷移學(xué)習(xí)并微調(diào)的策略(TL),25對(duì)訓(xùn)練樣本即可達(dá)到96.5%的精度。

      從以上統(tǒng)計(jì)結(jié)果可見,遷移學(xué)習(xí)并微調(diào)對(duì)于模型精度的提高提供了較好的幫助。樣本量越少,遷移學(xué)習(xí)的作用越大。同時(shí)在試驗(yàn)中發(fā)現(xiàn),遷移學(xué)習(xí)不僅能提高精度,還可以減少在目標(biāo)集上訓(xùn)練新模型的迭代次數(shù),以更短的時(shí)間得到更優(yōu)的結(jié)果。因此,本文建議:在基于深度學(xué)習(xí)的密集匹配中,盡量以訓(xùn)練好的模型作為目標(biāo)數(shù)據(jù)集的初值,以得到效率和精度上的提升。

      4 結(jié) 論

      本文將深度學(xué)習(xí)方法引入到航空影像的密集匹配中,在多個(gè)數(shù)據(jù)集上與傳統(tǒng)方法做了詳細(xì)的比較,并分析了深度學(xué)習(xí)的泛化能力。首先,驗(yàn)證了深度學(xué)習(xí)方法與商業(yè)軟件SURE相比略有優(yōu)勢(shì),且遠(yuǎn)遠(yuǎn)好于SGM。其次,在深度學(xué)習(xí)方法中,GC-Net作為端到端的方法,取得了最好的效果,只學(xué)習(xí)相似性測(cè)度的MC-CNN次之。最后,測(cè)試了深度學(xué)習(xí)在立體密集匹配中的泛化能力并發(fā)現(xiàn):MC-CNN和GC-Net具有較強(qiáng)的泛化能力,在標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)上訓(xùn)練的模型,可直接用于航空數(shù)據(jù)集,且3PE精度下降并不明顯,尤其以MC-CNN表現(xiàn)最佳。這種泛化能力來(lái)自圖像匹配只依賴于底層特征,而這些特征無(wú)論在近景、航空甚至模擬場(chǎng)景都是通用的。此外,通過遷移學(xué)習(xí)和參數(shù)微調(diào),深度學(xué)習(xí)方法可實(shí)現(xiàn)效率和性能的同時(shí)提升。

      猜你喜歡
      視差集上像素
      趙運(yùn)哲作品
      藝術(shù)家(2023年8期)2023-11-02 02:05:28
      像素前線之“幻影”2000
      基于自適應(yīng)窗的立體相機(jī)視差圖優(yōu)化方法研究
      Cookie-Cutter集上的Gibbs測(cè)度
      鏈完備偏序集上廣義向量均衡問題解映射的保序性
      “像素”仙人掌
      基于梯度域引導(dǎo)濾波的視差精煉迭代算法
      復(fù)扇形指標(biāo)集上的分布混沌
      基于分割樹的視差圖修復(fù)算法研究
      高像素不是全部
      CHIP新電腦(2016年3期)2016-03-10 14:22:03
      双城市| 大兴区| 十堰市| 巴彦淖尔市| 嘉义县| 南丰县| 荃湾区| 塔城市| 盐源县| 吉木萨尔县| 鄄城县| 孙吴县| 堆龙德庆县| 甘肃省| 民权县| 四子王旗| 远安县| 钟祥市| 大连市| 庆云县| 彰化县| 平舆县| 平定县| 宿州市| 阳西县| 苏尼特左旗| 南丰县| 平度市| 安化县| 白河县| 富平县| 安康市| 伊宁县| 陆丰市| 北辰区| 石林| 丁青县| 安福县| 沭阳县| 巩义市| 碌曲县|