李傳彪,畢遠偉
基于跨域自適應的立體匹配算法
李傳彪,畢遠偉*
(煙臺大學 計算機與控制工程學院,山東 煙臺 264005)( ? 通信作者電子郵箱byw@ytu.edu.cn)
雖然卷積神經網絡(CNN)在有監(jiān)督立體匹配任務中取得了較好的進展,但多數(shù)CNN算法的跨域表現(xiàn)較差。針對跨數(shù)據域的立體匹配問題,提出一種基于CNN的使用遷移學習實現(xiàn)域自適應立體匹配任務的跨域自適應立體匹配(CASM-Net)算法。所提算法使用一個可供遷移的特征提取模塊提取豐富的廣域特征用于跨域立體匹配任務;并且,設計一個自適應代價優(yōu)化模塊,從而通過自適應地利用不同感受野的相似度信息優(yōu)化代價,進而得到最優(yōu)的代價分布;此外,提出一個視差分數(shù)預測模塊,以量化不同區(qū)域的立體匹配能力,并通過調整圖像的視差搜索范圍進一步優(yōu)化視差結果。實驗結果表明:在KITTI2012和KITTI2015數(shù)據集上,CASM-Net算法的2-PE-Noc、2-PE-All和3-PE-fg相較于PSMNet(Pyramid Stereo Matching Network)算法分別降低了6.1%、3.3%和19.3%;在Middlebury數(shù)據集上,在未經重新訓練的情況下,在和其他算法的對比中,CASM-Net算法在所有樣本上取得了最優(yōu)或次優(yōu)的2-PE結果??梢?,CASM-Net算法具有改善跨域立體匹配的作用。
有監(jiān)督立體匹配;卷積神經網絡;遷移學習;跨域;視差分數(shù)
立體匹配算法對于理解三維場景和重建至關重要,已經廣泛應用于無人機[1]、自動駕駛[2]和虛擬現(xiàn)實[3]等領域。通常,立體匹配算法指計算兩幅經過矯正的圖像中對應像素的水平位移,即視差。一般情況下,傳統(tǒng)方法利用圖像的先驗知識構造一個立體匹配函數(shù),得到一個密集的視差圖[4]。
卷積神經網絡(Convolutional Neural Network, CNN)因為具有強大的特征表示能力,已經被廣泛應用于視覺任務,如目標檢測[5]、圖像分類[6]等?;贑NN的有監(jiān)督立體匹配算法顯著提高了立體匹配的性能,成為當前主流的研究方向?;贑NN的有監(jiān)督立體匹配算法的主要流程包括:特征提取和代價構建及優(yōu)化?;贑NN的立體匹配算法只有經過大型數(shù)據集訓練多輪次后才能得到良好的表現(xiàn),部分原因是小型數(shù)據集特征提取不夠充分,導致算法跨域效果差[7]。近期,研究者提出使用注意力機制獲取更廣泛的特征。張亞茹等[8]提出了一種多維注意力特征聚合立體匹配算法以提取豐富的全局特征信息,增加信息交互以自適應地調整視差結果。Kendall等[9]最早提出通過殘差網絡(Residual Network, ResNet)結構獲取圖像特征,并使用它們構建代價立方體,并使用3D-CNN優(yōu)化代價分布。對于代價構建與優(yōu)化階段,大部分算法使用單一尺度特征構造代價,但是不同數(shù)據集的圖像分辨率不同,使用單一尺度代價可能導致信息丟失,影響跨域精度。此外,構造的代價立方體由于視差搜索范圍固定,很難自適應地優(yōu)化代價分布,這也是大多數(shù)算法魯棒性差的原因。Rao等[10]提出了一個非局部上下文注意模塊,通過優(yōu)化上下文信息以自適應地調整代價分布。以上工作充分顯示了特征提取和代價優(yōu)化對于立體匹配任務的重要性。
為了緩解上述問題的干擾,本文提出了一種融合跨域特征信息的跨域自適應立體匹配(Cross-domain Adaptation Stereo Matching Network, CASM-Net)算法。首先,針對特征學習不充分的問題,使用遷移的特征提取模塊提取廣域特征,為跨域立體匹配任務提供豐富匹配線索;其次,提出域自適應代價優(yōu)化模塊,使用組相關方法[11]構造不同階段多尺度代價,以逐階段更新的方式優(yōu)化匹配代價,通過對匹配代價回歸得到視差結果;最后,提出視差分數(shù)預測模塊,獲取的視差分數(shù)可以調整視差范圍,進一步更新視差結果,同時使用視差分數(shù)量化不同區(qū)域的立體匹配能力。
本文提出了一個用于從一對矯正的圖像中獲取視差圖的跨域自適應立體匹配(CASM-Net)算法,算法架構如圖1所示。首先,輸入的立體圖像對經過一個遷移ResNet算法(即特征提取模塊)獲取圖像不同尺度的廣域特征;同時使用一個U型結構過濾廣域特征,減少冗余信息干擾。其次,將不同尺度的特征圖作為域自適應代價構建和聚合的輸入,每個階段經過一個編解碼器結構過濾噪聲,優(yōu)化多尺度代價。最后,通過回歸方法獲得視差圖,經過逐階段更新視差結果,得到優(yōu)化后的視差圖。CASM-Net算法使用Smooth L1損失與平均絕對誤差(Mean Absolute Error, MAE)損失共同監(jiān)督算法訓練。
圖1 CASM-Net算法的架構
特征提取影響著算法的立體匹配表現(xiàn),本文選用了在大規(guī)模數(shù)據集上預訓練的模型抵抗域偏移。文獻[12]中提出了一種基于遷移學習的煤料立體匹配算法,但它應用的模型只是在特定立體匹配數(shù)據集上預訓練。與上述研究不同,本文希望從大規(guī)模廣域數(shù)據集中獲取更多有利于立體匹配任務的線索,從而優(yōu)化跨域立體匹配效果。在大規(guī)模數(shù)據集(如ImageNet數(shù)據集[13])上,算法能夠學習各種風格的圖像,因此可以很好地執(zhí)行跨數(shù)據域任務。如圖1所示,CASM-Net算法使用了在ImageNet上預訓練的ResNet算法作為特征提取模塊的骨干結構,并固定它的參數(shù),因此在訓練階段,不更新它的參數(shù),以提高算法訓練效率。預訓練的ResNet算法可以從淺層特征中進一步提取廣域特征信息,與分類任務相比,CASM-Net算法只使用ResNet算法第3次下采樣前的結構獲取特征,最終可以得到原圖大小1/2、1/4和1/8的特征圖?;A結構包含2D Conv(Convolution)層、BN(Batch Normalization)層、ReLU(Rectified Linear Unit)激活函數(shù)和最大值池化(Max-pooling)下采樣層。
此外,為了減少特征帶來的冗余信息,并為之后的匹配代價構建提供更多的特定任務信息,CASM-Net算法使用一個U型結構進一步優(yōu)化廣域信息。該沙漏結構作為特征提取模塊的一部分,隨著特征提取模塊進行訓練并優(yōu)化廣域特征信息。U型結構雖然不使用大規(guī)模數(shù)據集訓練,但是它仍具有域泛化的能力,原因在于它的輸入是廣域特征,同時U型結構也可以降低網絡過擬合的風險。
通常只使用單一尺度的代價進行回歸或分類會導致特征信息冗余或不足,可能在某一個域上過擬合,影響算法的魯棒性。張錫英等[14]結合密集連接模塊和空間金字塔池化模塊獲取多尺度特征,以構造多尺度代價;邱哲瀚等[15]使用稀疏卷積獲取并融合不同尺度的特征信息;唐家輝等[16]使用4種不同尺度的特征提取模塊提取多尺度特征。與上述研究相比,CASM-Net算法直接利用U型結構輸出的多尺度特征信息作為多尺度代價構造的輸入。
經過優(yōu)化的多尺度特征信息通過組相關方法[11]構造多個匹配代價。與組相關方法使用的單一尺度特征相比,不同尺度特征構造的代價可以增加多尺度信息之間的交互。不同尺度代價分別經過編解碼器進一步過濾噪聲信息,低尺度代價上采樣后與高尺度代價融合,減少由于病態(tài)區(qū)域而導致的誤匹配。編解碼器主要包括3D卷積層和3D反卷積層,編解碼器的主要結構如圖2所示。
圖2 編解碼器結構
代價分布反映了候選像素對的匹配相似度,大多數(shù)情況下像素的代價分布為多峰分布,易導致高估計錯誤率。為了緩解上述問題,在融合3個由低到高的匹配代價后,對匹配代價進行視差分數(shù)預測,并將預測的分數(shù)作為視差范圍預測的輸入,視差分數(shù)的預測公式為:
通過調整視差搜索范圍和預測視差分數(shù),優(yōu)化代價分布,增強算法對不同數(shù)據域的適應能力。
1)Scene Flow[17]。大型合成數(shù)據集,圖像大小為960×540,包括訓練、測試圖像對35 454、4 370張,提供視差真實值,最大視差為192。網絡訓練10個周期需要約50 h,學習率設置為0.001。
2)KITTI[18]。包括KITTI2012和KITTI2015,是具有挑戰(zhàn)性和多樣性的道路場景數(shù)據集,圖像大小為1 236×376,僅提供稀疏視差圖作為訓練的標準。CASM-Net算法在這兩個數(shù)據集上微調模型,網絡訓練300個周期需要約48 h,在前200個周期學習率設置為0.001,后100個周期設置為0.000 1。
3)Middlebury[19]。小型室內數(shù)據集,用于驗證模型對真實場景的泛化能力,圖像分為F、H、Q這3個尺度,最大視差為256。實驗使用1/2大小的數(shù)據在模型未經重新訓練的情況下進行驗證。
4)ETH3D[20]。小型室內和室外場景的灰度數(shù)據集,包含27個訓練圖像對和20個測試圖像對,該數(shù)據集帶有稀疏的視差真實值,視差范圍為[0,64]。實驗在模型未經重新訓練的情況下進行驗證。
對不同模塊進行了消融研究,實驗結果如表1所示。
1)特征提取。
分別使用原始ResNet算法和遷移ResNet算法進行對比實驗。由表1可知,相較于原始ResNet,遷移ResNet可以達到更優(yōu)的性能。在3個數(shù)據集上,使用遷移ResNet的3-PE均有所降低,其中,在KITTI數(shù)據集上,使用遷移ResNet的3-PE降低了15.2%。雖然遷移ResNet與原始ResNet的推理時間相同,但由于遷移的ResNet算法訓練階段參數(shù)不需要更新,算法訓練的效率得到了提高。使用遷移ResNet獲得的特征可視化結果如圖3所示,可以發(fā)現(xiàn),兩個樣本獲取的特征圖包含大量的紋理信息,并且不同特征對不同信息各有側重。如圖3第2列對輪廓邊緣的信息較敏感,圖3第3列對小物體的特征值較高。定量和定性結果都顯示使用遷移ResNet有很好的特征獲取能力,有利于立體匹配任務。
表1 在多個數(shù)據集上不同網絡設置的實驗結果
2)代價優(yōu)化。
由表1可知,相較于單尺度代價優(yōu)化方法,CASM-Net算法的多尺度優(yōu)化方法在損失少量推理時間的前提下可以獲得更好的性能。具體地,在3個數(shù)據集上,相較于單尺度代價優(yōu)化模型,多尺度代價優(yōu)化模型的3-PE均有所降低,在KITTI數(shù)據集上效果最明顯,為34.0%。由定量結果可知,多尺度代價優(yōu)化模塊在損失少量推理時間的前提下,達到了更優(yōu)的性能。由于代價分布較為復雜,本文研究了不同階段代價優(yōu)化模塊,實驗結果如圖4所示。由于輸入圖像包含無紋理區(qū)域、遮擋區(qū)域等病態(tài)區(qū)域,而不準確的初始匹配代價通常會導致匹配錯誤,獲得錯誤視差結果。如圖4所示,當使用單尺度代價優(yōu)化時,4個樣本的代價概率分布呈多峰分布,不利于算法通過匹配代價獲得最優(yōu)的視差結果;當使用多尺度代價優(yōu)化策略時,代價概率分布趨向于單峰分布,且最優(yōu)代價值趨向于視差真實值。實驗結果表明,多個階段的代價優(yōu)化策略可以優(yōu)化代價分布,從而獲取最優(yōu)視差值。
圖3 使用遷移ResNet算法預訓練特征的可視化結果
圖4 不同尺度下代價預測策略的代價概率分布
3)視差分數(shù)預測。
不同階段的代價由于尺度不一致,視差搜索范圍變化較大,而簡單地對圖像上采樣可能導致錯過真實視差。本文提出的視差分數(shù)預測通過調整不同階段的視差搜索范圍,得到最優(yōu)視差。由表1可知,視差分數(shù)預測有利于提升立體匹配性能,其中在KITTI數(shù)據集上3-PE降低了27.7%,在Middlebury和ETH3D數(shù)據集上誤差也有所降低。此外,本文還將預測的視差不確定性分數(shù)圖,以及視差分數(shù)預測前后的視差圖和誤差圖進行了對比實驗,實驗結果如圖5所示,其中,誤差圖中的暖色區(qū)域表示誤差較大的區(qū)域。經過視差分數(shù)調整后,與初始視差圖相比,細化視差圖的視差邊緣更平滑,并且誤差圖中的暖色區(qū)域明顯下降,驗證了視差分數(shù)優(yōu)化視差的能力。由式(1)的計算過程可知,當代價概率分布呈多峰分布時(如視差邊緣區(qū)域),由式(1)得到的視差分數(shù)值較大;當代價概率分布趨向于單峰分布時,由式(1)得到的視差分數(shù)值較小,呈多峰分布的代價曲線,有更大的概率得到錯誤的匹配結果。這也就意味著誤差較大的匹配點視差分數(shù)也越大,符合圖4中不同代價的抽樣結果。定量和定性實驗結果顯示,視差分數(shù)預測可以優(yōu)化視差結果,提升立體匹配性能。
4)損失函數(shù)。
由表1可知,相較于只使用Smooth L1損失函數(shù),搭配使用MAE損失函數(shù)后,算法性能在3個數(shù)據集上也有小幅提升。
圖5 不同階段視差圖和誤差圖的對比結果
綜上所述,算法各個模塊均能不同程度地優(yōu)化立體匹配性能,且不會消耗過多的時間。
為了驗證算法的跨域泛化性能,本文選用了KITTI、Middlebury和ETH3D數(shù)據集作為測試集,Scene Flow數(shù)據集作為訓練集對算法進行實驗。實驗的對比算法如下。
1)半全局立體匹配(Semi-Global Matching, SGM)算法[21]。SGM算法是一種較成熟的傳統(tǒng)算法,跨域立體匹配表現(xiàn)較為穩(wěn)定。與SGM算法相比,CASM-Net算法引用了廣域特征信息,并設計了一個域自適應的代價優(yōu)化模塊,實現(xiàn)跨域立體匹配任務。
2)PSMNet(Pyramid Stereo Matching Network)[22]。經典的端到端立體匹配算法。與CASM-Net算法的多尺度代價優(yōu)化策略不同,它使用了一個級聯(lián)的沙漏模塊優(yōu)化單一尺度代價。
3)SegStereo算法[23]。該算法將分割數(shù)據集上訓練的分割子網絡遷移到立體匹配任務中,改進了視差邊緣的結果。與SegStereo算法相比,CASM-Net算法利用了ImageNet廣域數(shù)據集上預訓練的模型并遷移到立體匹配任務中。
4)PBCP(Patch Based Confidence Prediction)算法[24]。該算法引入一個置信度預測網絡預測視差置信度,再將置信度與SGM傳統(tǒng)算法融合,利用預測的置信度調整SGM算法的懲罰項。
5)CRD-Fusion(Confidence guided Raw Disparity Fusion)[25]。提出一種針對遮擋區(qū)域的置信度預測方法,通過置信度的引導,優(yōu)化遮擋區(qū)域立體匹配效果。與上述兩種算法相比,CASM-Net算法在成本優(yōu)化的中間階段預測視差分數(shù),利用視差分數(shù)端到端逐層更新的方式優(yōu)化代價分布。
6)iResNet[26]。iResNet是一個使用多尺度特征進行視差優(yōu)化的立體匹配網絡,與CASM-Net算法相同,使用多尺度特征構造代價并優(yōu)化。
在兩個KITTI數(shù)據集上的測試結果如表2所示。與PSMNet相比,在KITTI2012數(shù)據集上,CASM-Net算法的2-PE-Noc、2-PE-All分別降低了6.1%、3.3%;在KITTI2015數(shù)據集上,3-PE-fg降低了19.3%。在KITTI2015數(shù)據集上,與SegStereo相比,CASM-Net算法的所有誤差指標更優(yōu)。定性實驗結果如圖6所示,對于一些病態(tài)區(qū)域,如無紋理區(qū)域和細薄結構等,相較于SGM和PSMNet,CASM-Net算法可以產生更平滑且正確的視差圖;相較于SegStereo,CASM-Net算法在細薄結構上取得了更好的視差結果(圖6中樣本一)。因此,CASM-Net算法可以很好地適應KITTI室外數(shù)據域。
表2 在KITTI數(shù)據集上不同方法的實驗結果
注:Noc(Non occluded)表示非遮擋區(qū)域;All表示所有區(qū)域;bg(background)表示背景區(qū)域;fg(foreground)表示前景區(qū)域;加粗數(shù)據為該列最優(yōu)值,下劃線數(shù)據為該列次優(yōu)值。
圖6 在KITTI數(shù)據集上不同算法的定性結果
此外,本文選取了Middlebury訓練集中的Adirondack等7個典型室內樣本進行驗證,實驗結果如表3所示。在未經重新訓練的情況下,CASM-Net算法的2-PE在Teddy以外的樣本上取得了最優(yōu)或次優(yōu)結果,在樣本ArtL、Piano和Recycle上取得了最低的誤差;此外,在KITTI數(shù)據集上表現(xiàn)一般的SGM在Middlebury數(shù)據集上的表現(xiàn)良好。
表3 在Middlebury數(shù)據集上不同算法的2-PE結果 單位:%
Middlebury數(shù)據集上的定性實驗結果如圖7所示,相較于SGM和PSMNet,CASM-Net算法對細薄結構視差預測更準確且視差邊緣較平滑。
圖7 在Middlebury數(shù)據集上不同算法的定性結果
圖8顯示了CASM-Net算法在ETH3D數(shù)據集上取得的定性實驗結果,可以發(fā)現(xiàn),ETH3D數(shù)據集包含室內和室外場景且均為灰度圖像;對于大部分測試樣本,CASM-Net算法可以得到平滑且正確的視差圖,這進一步說明算法對于不同數(shù)據域的立體匹配性能。
圖8 CASM-Net算法在ETH3D數(shù)據集上的定性結果
在KITTI、ETH3D和Middlebury數(shù)據集上的定量和定性實驗結果顯示,CASM-Net算法具有一定的跨域能力。
本文提出了一種基于跨域自適應的立體匹配算法CASM-Net。為了更好地獲取不同數(shù)據域的特征,CASM-Net使用了預訓練的廣域模型作為特征提取模塊,獲取廣域特征信息用于立體匹配任務;此外,為了減少因為單一尺度代價造成的錯誤匹配,本文提出多尺度代價優(yōu)化策略,進一步優(yōu)化了代價分布,同時多尺度代價預測階段的視差分數(shù)預測可以幫助算法處理更多的病態(tài)區(qū)域。實驗結果表明,本文提出的立體匹配算法的各個模塊對提升匹配精度都有一定作用,并且在各個數(shù)據域的實驗結果也充分驗證了該算法具有一定的泛化能力。
未來將進一步嘗試提升該算法的立體匹配性能,并在更多數(shù)據域進行實驗驗證。此外,受一些遮擋區(qū)域的影響,即使經過視差調整,最終也未獲得正確視差結果,如何進一步優(yōu)化病態(tài)區(qū)域匹配效果,將在今后的工作中繼續(xù)開展。
[1] 周思達,邱爽,唐嘉寧,等. 基于深度神經網絡的無人機路徑決策的研究[J]. 計算機仿真, 2022, 39(6):449-452, 477.(ZHOU S D, QIU S, TANG J N, et al. Research on path decision of UAV based on deep neural network research[J]. Computer Simulation, 2022, 39(6):449-452, 477.)
[2] 陸慧敏,楊朔. 基于深度神經網絡的自動駕駛場景三維目標檢測算法[J]. 北京工業(yè)大學學報, 2022, 48(6):589-597.(LU H M, YANG S. Three-dimensional object detection algorithm based on deep neural networks for automatic driving[J]. Journal of Beijing University of Technology, 2022, 48(6):589-597.)
[3] 呂霽. 基于VR全景圖像處理的三維重構算法研究[J]. 安陽師范學院學報, 2022(2):31-34.(LYU J. Research on 3D reconstruction algorithm based on VR panoramic image processing[J]. Journal of Anyang Normal University, 2022(2):31-34.)
[4] 黃松梅,畢遠偉,許曉. 雙目立體匹配算法的研究與實現(xiàn)[J]. 魯東大學學報(自然科學版), 2018, 34(1):25-30.(HUANG S M, BI Y W, XU X. Research and implementation of binocular stereo matching algorithms[J]. Journal of Ludong University (Natural Science Edition), 2018, 34(1):25-30.)
[5] 王啟勝,王鳳隨,陳金剛,等. 融合自適應注意力機制的Faster R-CNN目標檢測算法[J]. 激光與光電子學進展, 2022, 59(12): No.1215016.(WANG Q S, WANG F S, CHEN J G, et al. Faster R-CNN target-detection algorithm fused with adaptive attention mechanism[J]. Laser and Optoelectronics Progress, 2022, 59(12): No.1215016.)
[6] 張雪晴. 基于CNN的圖像分類[J]. 電子技術與軟件工程, 2022(7):182-185.(ZHANG X Q. CNN-based image classification[J]. Electronic Technology and Software Engineering, 2022(7):182-185.)
[7] ?BONTAR J, LeCUN Y. Computing the stereo matching cost with a convolutional neural network[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015:1592-1599.
[8] 張亞茹,孔雅婷,劉彬. 多維注意力特征聚合立體匹配算法[J]. 自動化學報, 2022, 48(7):1805-1815.(ZHANG Y R, KONG Y T, LIU B. Multi-dimensional attention feature aggregation stereo matching algorithm[J]. Acta Automatica Sinica, 2022, 48(7): 1805-1815.)
[9] KENDALL A, MARTIROSYAN H, DASGUPTA S, et al. End-to-end learning of geometry and context for deep stereo regression[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 66-75.
[10] RAO Z, HE M, DAI Y, et al. NLCA-Net: a non-local context attention network for stereo matching[J]. APSIPA Transactions on Signal and Information Processing, 2020, 9: No.E18.
[11] GUO X, YANG K, YANG W, et al. Group-wise correlation stereo network[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 3268-3277.
[12] 中國礦業(yè)大學. 基于深度遷移學習的帶式輸送機煤流量雙目視覺測量方法:202011509023.7[P]. 2021-03-26.(China University of Mining and Technology. Binocular vision measurement method for coal flow of belt conveyor based on deep transfer learning: 202011509023.7[P]. 2021-03-26.)
[13] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.
[14] 張錫英,王厚博,邊繼龍. 多成本融合的立體匹配網絡[J]. 計算機工程, 2022, 48(2):186-193.(ZHANG X Y, WANG H B, BIAN J L. Stereo matching network with multi-cost fusion[J]. Computer Engineering, 2022, 48(2):186-193.)
[15] 邱哲瀚,李揚. 基于稀疏卷積的前景實時雙目深度估計算法[J]. 計算機應用, 2021, 41(12):3680-3685.(QIU Z H, LI Y. Real-time binocular foreground depth estimation algorithm based on sparse convolution[J]. Journal of Computer Applications, 2021, 41(12):3680-3685.)
[16] 唐家輝,趙蕓,徐興. 一種改進的多尺度引導聚合立體匹配網絡研究[J]. 浙江科技學院學報, 2021, 33(5):378-385.(TANG J H, ZHAO Y, XU X. Research on an improved multi-scale guided aggregation stereo matching network[J]. Journal of Zhejiang University of Science and Technology, 2021, 33(5): 378-385.)
[17] MAYER N, ILG E, H?USSER P, et al. A large dataset to train convolutional networks for disparity, optical flow, and scene flow estimation[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 4040-4048.
[18] GEIGER A, LENZ P, URTASUN R. Are we ready for autonomous driving? the KITTI vision benchmark suite[C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2012: 3354-3361.
[19] SCHARSTEIN D, HIRSCHMüLLER H, KITAJIMA Y, et al. High-resolution stereo datasets with subpixel-accurate ground truth[C]// Proceedings of the 2014 German Conference on Pattern Recognition, LNCS 8753. Cham: Springer, 2014: 31-42.
[20] SCH?PS T, SCH?NBERGER J L, GALLIANI S, et al. A multi-view stereo benchmark with high-resolution images and multi-camera videos[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 2538-2547.
[21] HIRSCHMüLLER H. Accurate and efficient stereo processing by semi-global matching and mutual information[C]// Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition — Volume 2. Piscataway: IEEE, 2005: 807-814.
[22] CHANG J R, CHEN Y S. Pyramid stereo matching network[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 5410-5418.
[23] YANG G, ZHAO H, SHI J, et al. SegStereo: exploiting semantic information for disparity estimation[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11211. Cham: Springer, 2018: 660-676.
[24] SEKI A, POLLEFEYS M. Patch based confidence prediction for dense disparity map[C]// Proceedings of the 2016 British Machine Vision Conference. Durham: BMVA Press, 2016: No.23.
[25] FAN X, JEON S, FIDAN B. Occlusion-aware self-supervised stereo matching with confidence guided raw disparity fusion[C]// Proceedings of the 19th Conference on Robots and Vision. Piscataway: IEEE, 2022:132-139.
[26] LIANG Z, FENG Y, GUO Y, et al. Learning for disparity estimation through feature constancy[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 2811-2820.
Stereo matching algorithm based on cross-domain adaptation
LI Chuanbiao, BI Yuanwei*
(,,264005,)
Convolutional Neural Networks (CNNs) have made good progress in supervised stereo matching tasks, but most CNN algorithms are difficult to perform well in cross-domain situations. Aiming at the stereo matching problem of cross-domain data, a Cross-domain Adaptation Stereo Matching Network (CASM-Net) algorithm was proposed to achieve domain adaptive stereo matching tasks using transfer learning based on CNN. In the algorithm, a transferable feature extraction module was used to extract rich wide-domain features for stereo matching tasks. At the same time, an adaptive cost optimization module was designed to obtain the optimal cost distribution by making use of the similarity information on different receptive fields to optimize the cost. In addition, a disparity score prediction module was proposed to quantify the stereo matching ability of different regions, and the disparity results were further optimized by adjusting the disparity search range of the image. Experimental results show that on KITTI2012 and KITTI2015 datasets, compared with PSMNet (Pyramid Stereo Matching Network) algorithm, CASM-Net algorithm reduces 6.1%, 3.3% and 19.3% in 2-PE-Noc, 2-PE-All and 3-PE-fg, respectively; on Middlebury dataset, without re-training, CASM-Net algorithm achieves the optimal or suboptimal 2-PE results on all samples in the comparison with other algorithms. It can be seen that CASM-Net algorithm can improve cross-domain stereo matching.
supervised stereo matching; Convolutional Neural Network (CNN); transfer learning; cross-domain; disparity score
1001-9081(2023)10-3230-06
10.11772/j.issn.1001-9081.2022091398
2022?09?19;
2023?02?04;
李傳彪(1997—),男,山東濟南人,碩士研究生,主要研究方向:雙目立體匹配、三維重建; 畢遠偉(1972—),男,山東威海人,副教授,碩士,主要研究方向:三維重建系統(tǒng)、軟件工程、數(shù)據庫技術、嵌入式技術。
TP391.41
A
2023?02?08。
LI Chuanbiao, born in 1997, M. S. candidate. His research interests include binocular stereo matching, three-dimensional reconstruction.
BI Yuanwei, born in 1972, M. S., associate professor. His research interests include three-dimensional reconstruction system, software engineering, database technology, embedded technology.