• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于邊緣輔助極線Transformer的多視角場景重建

    2023-11-18 08:49:56張苗苗李東方宋愛國
    電子與信息學(xué)報 2023年10期
    關(guān)鍵詞:極線深度圖代價

    童 偉 張苗苗 李東方 吳 奇* 宋愛國

    ①(南京理工大學(xué)機械工程學(xué)院 南京 210094)

    ②(上海交通大學(xué)電子信息與電氣工程學(xué)院 上海 200240)

    ③(福州大學(xué)電氣工程與自動化學(xué)院 福州 350108)

    ④(東南大學(xué)儀器科學(xué)與工程學(xué)院 南京 210096)

    1 引言

    作為計算機視覺領(lǐng)域廣泛研究的核心問題之一,多視角立體幾何(Multi-View Stereo, MVS)通過具有重疊區(qū)域的多幅圖像以及預(yù)先標(biāo)定的相機參數(shù),旨在重建出稠密的3維場景。該技術(shù)正廣泛應(yīng)用于機器人導(dǎo)航、虛擬增強現(xiàn)實、無人搜救、自動駕駛等領(lǐng)域。傳統(tǒng)方法[1]通過多個視圖間的投影關(guān)系恢復(fù)3D點,在理想的散射方案下取得了不錯的效果,但在鏡面反射、弱紋理等區(qū)域難以保證準(zhǔn)確的密集匹配。

    基于深度圖的MVS[2—5]利用2D卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)提取多視圖的特征,并根據(jù)假定的深度采樣值將源圖像特征映射到參考視角上構(gòu)建3D代價體,之后對代價體進行正則化從而預(yù)測出深度圖,最后通過深度圖融合重建出場景?;贑NN的方法融合了諸如鏡面反射、反射先驗之類的全局特征信息,因此其密集匹配更加可靠。特別地,Gu等人[2]采用級聯(lián)的方式構(gòu)建代價體并在更高的特征分辨率上精細深度圖,其關(guān)鍵的一步是通過逐步細化深度值的采樣范圍,確保了計算資源的合理分配。主流的方法大都采用靜態(tài)或預(yù)先設(shè)定的深度采樣范圍來確定深度采樣值,然而由于每個像素深度值推斷的不確定性不同,因此靜態(tài)采樣假設(shè)并不適用于所有的像素。此外,現(xiàn)有的方法[2,4,6]采用方差操作聚合所有視角的代價體,然而這種方式忽略了不同視角下的像素可見性。為了應(yīng)對這一問題,文獻[7]設(shè)計2D 網(wǎng)絡(luò)模塊生成像素可見性圖來聚合多視角,文獻[8]通過可變形卷積網(wǎng)絡(luò)聚合跨尺度的代價體以處理弱紋理區(qū)域。然而這些方法僅僅從2D局部相似性的角度通過引入繁重的網(wǎng)絡(luò)模塊來學(xué)習(xí)每個視角下像素的權(quán)重,但忽略了深度方向的3D一致性[9]。

    為了緩解上述問題,本文提出基于邊緣輔助極線T ransform er的多階段深度推斷網(wǎng)絡(luò)。利用極線T ransform er的跨注意力機制顯式地對不同視角下構(gòu)建的代價體進行3D建模,并結(jié)合輔助的邊緣檢測分支約束2D底層特征在極線方向的一致性。此外,本文將深度值回歸轉(zhuǎn)換為多個采樣深度值的分類問題進行求解,降低深度采樣率的數(shù)目與顯存占用。另一方面,本文利用概率代價體的信息熵生成不確定性圖,并以此自適應(yīng)調(diào)整深度值采樣的范圍,提高深度范圍采樣在不同區(qū)域的適應(yīng)能力。

    本文的主要貢獻如下:

    (1)提出一種多視圖深度推斷網(wǎng)絡(luò),利用基于邊緣輔助的T ransform er跨注意力機制有效地學(xué)習(xí)不同視角下代價體聚合的3D關(guān)聯(lián)性;

    (2)將深度回歸轉(zhuǎn)換為多深度值分類模型進行訓(xùn)練,并引入基于概率代價體分布的不確定性模塊,動態(tài)調(diào)整深度采樣間隔以提高弱紋理區(qū)域的深度推斷精度;

    (3)與主流方法在公開數(shù)據(jù)集DTU和Tanks&Tem ples的實驗對比表明,給定有限的內(nèi)存占用與運行時間,所提出的方法可以實現(xiàn)密集準(zhǔn)確的場景重建。

    本文其余部分組織如下:第2節(jié)介紹MVS的相關(guān)工作;第3節(jié)詳細介紹所提出的M VS網(wǎng)絡(luò);第4節(jié)開展了與主流方法的實驗對比;第5節(jié)進行總結(jié)。

    2 相關(guān)工作

    2.1 基于深度學(xué)習(xí)的MVS

    深度學(xué)習(xí)強大的特征提取能力,推動M VS領(lǐng)域取得了顯著發(fā)展?;谏疃葘W(xué)習(xí)的MVS[10,11]場景重建的完整性與準(zhǔn)確性質(zhì)量更高,逐漸取代傳統(tǒng)的方法。Yao等人[4]提出了MVSNet模型,利用可微的單應(yīng)性映射構(gòu)建成本代價體,并利用3D卷積模塊對局部信息與多尺度上下文信息進行正則化,實現(xiàn)端對端的深度推斷。為了緩解3D卷積顯存占用高的問題,Yao等人[5]提出了R-M VSNet,利用GRU(Gate Recurrent Unit)結(jié)構(gòu)對代價體進行正則化,有效降低了顯存占用,并解決了MVSNet難以估計高分辨率場景的問題。為了提高深度推斷在不同場景與光照條件下的適應(yīng)性能力,文獻[7]通過自適應(yīng)聚合多視角的局部特征,生成不同視角的代價體權(quán)重圖。Zhang等人[12]設(shè)計一種概率代價體不確定性估計的像素可見性模塊,并以此聚合多視角代價體。Xi等人[13]通過沿每條相機光線直接優(yōu)化深度值,模擬激光掃描儀深度范圍查找,僅使用稀疏的代價體就預(yù)測出準(zhǔn)確的深度圖。

    2.2 深度采樣范圍設(shè)定

    為了開發(fā)計算效率高的網(wǎng)絡(luò),一些工作提出了由粗到精的多階段MVS框架。在這些方法中,初始階段設(shè)定的深度采樣范圍覆蓋了輸入場景的整個深度值,根據(jù)當(dāng)前預(yù)測的深度值縮短下一階段深度采樣的范圍。Cas-MVSNet[2]通過縮減因子手動縮小深度范圍,實現(xiàn)高分辨率高質(zhì)量的深度圖推斷。Cheng等人[7]利用深度分布的方差逐漸縮小深度掃描范圍,在有限的顯存占用下保證了場景重建的質(zhì)量。Yu等人[14]使用稀疏代價體推斷初始的低分辨率深度圖,并采用高斯-牛頓層逐階段優(yōu)化稀疏的深度圖。W ang等人[15]融合了傳統(tǒng)的立體聲算法與多尺度深度推斷框架。

    2.3 基于Transformer的特征匹配

    T ransformer[16]最初應(yīng)用于自然語言處理任務(wù),其強大的遠程建模能力,受到了計算機視覺領(lǐng)域研究學(xué)者的青睞。在3D視覺任務(wù)中,借助Transformer捕獲全局上下文信息方面的天然優(yōu)勢,Li等人[17]從序列到序列的角度建模,使用位置編碼、自注意力和跨視角注意力機制捕獲代價體的特征,實現(xiàn)密集的雙目估計。Sun等人[18]提出了基于Transformer的局部特征匹配方法,使用注意力機制獲得圖像的特征描述符以建立精確的匹配,并證明這種密集匹配在弱紋理區(qū)域依然有效。最近,T ransform er也應(yīng)用到了MVS中。例如文獻[19]僅利用T ransform er的跨視角注意力機制,有效融合了不同視角的代價體。Ding等人[20]以及文獻[21]分別引入了一種全局上下文T ransformer,實現(xiàn)了密集魯棒的特征匹配。

    3 實驗方法

    3.1 多視角3D代價體構(gòu)建

    如圖1所示,為了實現(xiàn)高分辨率圖像語義特征的編碼,給定輸入圖像I ∈R H×W×3,本文使用金字塔特征網(wǎng)絡(luò)(Feature Pyram id Network, FPN)提取多尺度特征。該網(wǎng)絡(luò)經(jīng)過多次卷積層處理與上采樣操作,輸出3個尺度的特征圖尺寸分別是輸入圖像的1/4,1/2和1。給定采樣的深度值,本文通過前向平行平面將源視角的特征映射到參考圖像的視角,建立多視角代價體。給定采樣的深度值d,跨視角可微矩陣變換表示為

    其中,K i,Ri,t i分別表示第i個視角相機的內(nèi)參、旋轉(zhuǎn)參數(shù)、平移參數(shù),n1表示參考相機的主軸。特別地,3個階段假定的深度采樣數(shù)目分別是16, 8和4。

    3.2 基于邊緣輔助極線Transform er的代價體聚合

    3.2.1 基于Transformer的代價體聚合

    直接使用基于方差的機制對映射至參考視角的代價體進行聚合,通常包含很多噪聲。為了防止噪聲導(dǎo)致代價體正則化模塊產(chǎn)生過擬合現(xiàn)象,本文利用T ransform er注意力機制探索跨視角代價體的極線幾何以及不同空間位置的全局相關(guān)性。以參考視角代價體作為Query特征,與源視角代價體進行特征匹配,生成注意力圖以聚合多視角的代價體。最后使用3D卷積模塊正則化聚合后的代價體,輸出概率代價體以推斷深度。

    圖2 跨視角代價體聚合注意力模塊

    特別地,本文采用文獻[2]的代價體編碼方式對跨視角的特征和進行編碼,得到每對跨視角代價體,其尺寸是G表示當(dāng)前尺度的特征通道數(shù)。進一步,區(qū)別于先前工作使用方差機制來聚合多視角代價體,本文采用式(4)聚合跨視角的特征,得到聚合后的代價體

    3.2.2 基于邊緣輔助的代價體聚合

    深度推斷網(wǎng)絡(luò)在普通區(qū)域能夠捕獲密集的特征匹配線索,而物體邊界附近由于缺乏幾何特性與約束,難以保證深度推斷的可靠性,為此本文進一步引入邊緣特征以調(diào)整跨視角代價體的聚合。如圖1所示,邊緣檢測子網(wǎng)絡(luò)分支的輸入是金字塔特征提取網(wǎng)絡(luò)(FPN)輸出的特征圖,經(jīng)過多個卷積層、上采樣層以及多尺度特征的融合,得到用于后續(xù)跨視角代價體聚合的邊緣特征。之后使用的卷積層和Softm ax激活層輸出尺度為1/2的邊緣圖,表示每個像素疑似邊緣的概率。

    為了約束跨視角代價體的2D底層特征在深度方向的3D一致性,如圖2所示,對提取到的表達能力豐富的邊緣特征輔助用于跨視角代價體的聚合,從而提高在物體邊界的深度推斷可靠性。將作為源視角參考視角代價體Query特征的輔助輸入,并計算跨視角特征向量的相似性

    3.3 動態(tài)深度范圍采樣

    對多尺度深度推斷網(wǎng)絡(luò)而言,合適的深度采樣范圍對于生成高質(zhì)量的深度圖至關(guān)重要。給定前一階段的概率代價體,之前的方法僅僅關(guān)注單個像素的概率體分布以調(diào)整當(dāng)前階段的深度采樣范圍,然而上下文信息以及鄰域像素的特征與當(dāng)前像素的深度采樣范圍具有一定的相關(guān)性。受到文獻[12]利用概率體的信息熵融合多視角代價體的啟發(fā),本文以當(dāng)前階段概率體的信息熵作為不確定性子模塊的輸入,評測深度推斷的可靠性。該模塊由5個卷積層和激活函數(shù)層組成,輸出值介于0~1之間。該輸出值越大,說明當(dāng)前深度估計的不確定性高,應(yīng)該擴大下一階段的采樣范圍以覆蓋真實的深度值,反之亦然。

    3.4 模型訓(xùn)練損失

    區(qū)別于現(xiàn)有工作使用Smooth L1損失最小化預(yù)測值與真實值的差異,本文將深度估計轉(zhuǎn)換為多采樣深度值下的分類進行求解,交叉熵損失如式(7)所示

    考慮到本文較低的深度采樣率,因此僅在初始階段根據(jù)概率代價體分布的不確定性動態(tài)調(diào)整第2階段的深度采樣范圍。為了聯(lián)合學(xué)習(xí)深度值分類及其不確定性本文對初始階段的損失添加負對數(shù)似然最小化的約束

    此外,本文使用交叉熵函數(shù)約束邊緣檢測分支的輸出,真實的邊緣是通過對原始圖像使用Sobel算子提取得到的。多階段深度推斷的總損失定義為

    4 實驗結(jié)果與分析

    4.1 數(shù)據(jù)集

    DTU數(shù)據(jù)集:作為大規(guī)模的MVS數(shù)據(jù)集,該數(shù)據(jù)集共包括124個場景,每個場景包含了49個視角,并在7種不同的照明條件下掃描得到。本文采用與Cas-MVSNet相同的訓(xùn)練集、驗證集劃分方式。

    Tanks&Temp lates數(shù)據(jù)集:該基準(zhǔn)數(shù)據(jù)集包含了室內(nèi)外不同分辨率的場景。本文在包含8個場景的Intermediate數(shù)據(jù)集上,使用在DTU數(shù)據(jù)集上已訓(xùn)練好的模型,驗證模型的生成能力。

    開幕式結(jié)束后,王顯政、付建華、梁嘉琨等領(lǐng)導(dǎo)和嘉賓認(rèn)真參觀了展覽,對展會內(nèi)容給予了高度評價,并對舉辦單位給予了充分肯定。本次展覽會的成功舉辦,搭建了煤炭加工利用及煤化工領(lǐng)域的展覽展示交流平臺,將使煤炭工業(yè)形成采礦設(shè)備、安全生產(chǎn)技術(shù)和煤炭加工利用三個完整的展覽展示交流體系,成為煤炭行業(yè)三個行業(yè)品牌展覽會,對推動我國煤炭工業(yè)科學(xué)發(fā)展和煤炭清潔高效利用,加強國內(nèi)外交流與合作將發(fā)揮重要作用。

    4.2 實驗細節(jié)

    在訓(xùn)練階段,迭代次數(shù)是12,初始學(xué)習(xí)率為0.001,并分別在第6、第8和第10個迭代進行權(quán)重衰減,以避免模型陷入局部最優(yōu)。模型在單個NVIDIA RTX 3090顯卡上訓(xùn)練,多階段的深度采樣數(shù)目分別是16, 8和4,深度范圍介于425~935 mm之間。特別地,在測試階段,DTU評估集的源圖像數(shù)量同樣設(shè)置為4,輸入圖像分辨率為864×1 152。在Tanks&Tem p lates數(shù)據(jù)集的源圖像數(shù)量是6,輸入圖像的分辨率為1 080×2 048。

    4.3 DTU數(shù)據(jù)集對比結(jié)果

    為了驗證所提模型的有效性,本文在DTU數(shù)據(jù)集上開展了定量與定性實驗對比。表1所示為不同方法在D TU測試集的定量對比,可以看出Gipum a[1]方法在準(zhǔn)確性上最優(yōu),而本文重建的點云在綜合性上明顯優(yōu)于其他主流的方法。此外,圖3(a)表示不同方法在DTU測試集的顯存占用對比,可以看出,本文的GPU顯存占用僅為3 311 MB,明顯低于其他主流方法。

    表1 DTU測試集上不同方法的重建結(jié)果定量比較

    圖3 不同方法的顯存占用與運行時間對比

    圖4所示為本文方法與Cas-MVSNet關(guān)于場景重建的定性對比。盡管本文方法基于Cas-MVSNet框架,但在給定較低的深度采樣率下,本文方法在弱紋理區(qū)域的重建更加稠密準(zhǔn)確。此外,部分區(qū)域的重建完整性優(yōu)于真實點云,這可能是由于引入基于T ransform er的代價體聚合模塊,捕獲了魯棒的上下文感知特征,減少了挑戰(zhàn)區(qū)域中的匹配模糊和誤匹配。

    圖4 所提方法與Cas-MVSNet的重建結(jié)果比較

    4.4 Tanks & Temples數(shù)據(jù)集對比結(jié)果

    為了驗證本文方法在不同場景下的生成能力,將DTU訓(xùn)練好的模型不經(jīng)過任何微調(diào)直接在Tanks數(shù)據(jù)集上測試。表2所示為不同方法的定量對比結(jié)果,相比于主流的方法,在給定非常低的深度采樣率下,本文方法重建的性能仍然具有競爭力,在8個場景的平均F-score得分僅低于AA-RMVSNet[22]。如圖5所示,本文方法可以重建出相對完整的場景,這驗證了所提模型的泛化能力。圖3(b)是不同方法在輸入分辨率為1 080×2 048的單幀深度圖預(yù)測時間對比,可以看出本文方法的實時性僅低于Cas-MVSNet與DDR-Net[23]。

    表2 不同方法在Tanks & Tem ples數(shù)據(jù)集的定量比較

    圖5 所提方法在Tanks&Tem plates數(shù)據(jù)集的重建結(jié)果

    4.5 消融實驗對比

    4.5.1 基于分類的深度圖推斷

    為了驗證該模塊的有效性,本文在DTU測試集上進行了定量實驗對比,并以平均絕對誤差與固定閾值(2 mm, 4 mm, 8 mm)下的預(yù)測精度評測深度圖的質(zhì)量。如表3所示,為了公平地對比,本文以深度采樣率為16, 8和4的Cas-M VSNet作為基準(zhǔn)模型??梢钥闯?,將深度回歸轉(zhuǎn)換為多深度值分類進行求解,模型的平均絕對誤差從8.42降低到了8.30,而在固定的距離閾值內(nèi),預(yù)測精度也進一步提高。此外,如表4所示,相比于基準(zhǔn)模型,引入分類損失使D TU數(shù)據(jù)集上綜合性指標(biāo)從0.372降低至0.357,已經(jīng)接近表1中原始Cas-MVSNet(深度采樣數(shù)目為48, 32, 8)的綜合性指標(biāo)0.355,進一步驗證了該模塊的有效性。

    表3 DTU測試集上消融實驗定量比較

    表4 DTU測試集上不同模塊的定量比較(mm)

    4.5.2 動態(tài)深度值采樣

    表5所示為多階段的深度范圍比較,其第5行和第6行顯示采用動態(tài)深度范圍采樣機制的差異。可以看出,利用首階段概率代價體的數(shù)值特性自適應(yīng)調(diào)整次階段的深度值采樣范圍,最大采樣范圍從54.42 mm擴大到78.12 mm,而覆蓋真實深度值的比率從0.889 1提高到0.900 3。這表明在低采樣率下,一些信息熵值較大的區(qū)域的深度估計不確定性高,而通過擴大相應(yīng)的采樣范圍能夠進一步覆蓋真實的深度值,有效提高了弱紋理和物體邊界的預(yù)測精度。

    表5 DTU測試集上動態(tài)采樣模塊消融實驗定量比較

    4.5.3 跨視角代價體聚合

    為了驗證基于極線T ransformer的跨視角代價體聚合的有效性,本文對參考視角與任一源視角所構(gòu)建的代價體的特征圖進行可視化。如圖6所示,以文獻[2]采用的G roup-w ise聚合參考視角-源視角代價體作為基準(zhǔn)模型,所提出的跨視角代價體聚合機制由于約束了參考視角和源視角的2D幾何特征在深度方向上的一致性,弱紋理區(qū)域聚合后的特征細節(jié)更加清晰,因此聚合后的代價體抗噪能力更強。如表3所示,加入本文所提代價體聚合模塊,平均絕對誤差從8.30降低到了7.69,固定的距離閾值內(nèi)的預(yù)測精度也相應(yīng)提高。此外,如表4所示,在代價體聚合模塊中引入邊緣輔助信息,DTU數(shù)據(jù)集的綜合性指標(biāo)從0.331降低至0.327,這可能是由于邊緣底層信息的約束,進一步提高了圖像邊界的深度推斷的精度。

    圖6 代價體聚合的特征圖可視化對比

    圖7所示為深度圖的定性對比,可以看出,相比于原始的Cas-MVSNet(深度采樣率48, 32, 8),加入分類損失模塊與動態(tài)深度采樣模塊后,圖7(d)預(yù)測的深度圖更加完整,且在弱紋理區(qū)域的深度值劇烈變化的現(xiàn)象較少。而本文在加入所提出的基于邊緣輔助極線T ransform er的代價體聚合模塊,圖7(e)預(yù)測的深度圖在弱紋理區(qū)域具有更好的抗噪能力,且在物體邊界處的預(yù)測更加清晰。

    圖7 不同方法的深度圖定性對比

    5 結(jié)束語

    本文提出一種基于邊緣輔助極線T ransform er的多視圖深度推斷網(wǎng)絡(luò)。首先將深度回歸轉(zhuǎn)換為多深度值的分類進行求解,可以在有限的深度采樣率下保證深度推斷的準(zhǔn)確性。其次,采用基于邊緣輔助極線T ransform er的跨視角代價體聚合模塊捕獲全局上下文特征以及3D幾何一致性特征,提高弱紋理區(qū)域的密集匹配。為了進一步提高深度推斷的精度,采用基于概率代價體的數(shù)值特性的自適應(yīng)深度范圍采樣機制。相比于現(xiàn)有的基于CNN的MVS網(wǎng)絡(luò),在DTU和Tanks & Temp les數(shù)據(jù)集的綜合實驗表明本文方法在有限的顯存和運行時間下,能夠?qū)崿F(xiàn)稠密準(zhǔn)確的場景重建,且模型具有良好的泛化能力。在未來的工作中,希望進一步探索基于T ransform er的密集特征匹配,替代3D CNN對代價體進行正則化處理,降低模型對于高顯存的依賴,并提高模型在移動端部署的實用性。

    猜你喜歡
    極線深度圖代價
    破解定值有妙法,極點極線顯神威
    一道高考試題的背景簡介
    基于深度圖的3D-HEVC魯棒視頻水印算法
    愛的代價
    海峽姐妹(2017年12期)2018-01-31 02:12:22
    代價
    一種基于局部直方圖匹配的深度編碼濾波算法
    疊加速度譜在鉆孔稀少地區(qū)資料解釋中的應(yīng)用
    科技視界(2016年2期)2016-03-30 11:17:03
    成熟的代價
    Kinect深度圖像快速修復(fù)算法
    簡述與圓錐曲線的極點和極線有關(guān)的性質(zhì)
    喀喇沁旗| 平凉市| 岗巴县| 平和县| 涞水县| 连江县| 临沭县| 峨眉山市| 布拖县| 化德县| 东山县| 浦城县| 麦盖提县| 江城| 富平县| 宜川县| 甘洛县| 淮安市| 兰溪市| SHOW| 眉山市| 新安县| 大厂| 任丘市| 吉安县| 宜春市| 扶沟县| 神木县| 佳木斯市| 横峰县| 陕西省| 徐水县| 铜陵市| 乌拉特前旗| 天镇县| 通河县| 叶城县| 平定县| 石狮市| 英超| 育儿|