王晨麟,趙 正,張 濤,劉 洋
1(國網(wǎng)江蘇省電力有限公司 徐州供電分公司,徐州 221000)
2(江蘇萬安電力科技有限公司,南通 210018)
對(duì)真實(shí)世界的三維數(shù)字化是虛擬現(xiàn)實(shí)的核心研究任務(wù)之一. 高質(zhì)量三維重建將可顯著提升虛擬現(xiàn)實(shí)場(chǎng)景的真實(shí)感并簡(jiǎn)化建模過程,并廣泛應(yīng)用于其他領(lǐng)域,如現(xiàn)場(chǎng)勘測(cè)、遙感航拍和消費(fèi)電子等. 對(duì)真實(shí)場(chǎng)景的三維重建有多種方法,如結(jié)構(gòu)光法、立體法、明暗法、光場(chǎng)法等. 在這些方法當(dāng)中,立體方法(shape from stereo)通過場(chǎng)景不同角度的圖像信息進(jìn)行場(chǎng)景的三維重建,具有低成本、易于部署和擴(kuò)展性好等優(yōu)勢(shì). 特別地,隨著數(shù)碼相機(jī)和手機(jī)相機(jī)的發(fā)展,圖片質(zhì)量和分辨率均得到顯著提高,捕獲場(chǎng)景圖像視頻數(shù)據(jù)變得非常便捷. 在這一背景下,立體方法,特別是多視角方法,日益成為對(duì)真實(shí)世界的重要三維感知手段. 多視角立體方法需要用戶在多個(gè)角度拍攝圖片或圍繞場(chǎng)景進(jìn)行視頻的錄制,需保證圖片間具有足夠的基線以實(shí)現(xiàn)精確的三維重建. 寬基線假設(shè)增加了用戶拍攝和三維獲取的成本,并且在某些空間受限情況下,大范圍的移動(dòng)相機(jī)并不可行.
與經(jīng)典的多視角立體方法不同,本文考慮如下場(chǎng)景: 手持相機(jī)或智能手機(jī)進(jìn)行拍照時(shí),由于手部抖動(dòng)或拍攝者對(duì)攝影畫面的局部調(diào)整,不可避免的導(dǎo)致相機(jī)發(fā)生微小運(yùn)動(dòng)(small motion),如圖1 所示. 對(duì)于此類包含極小視差的數(shù)據(jù),主流三維重建方法,如COLMAP,將會(huì)由于較窄的基線導(dǎo)致重建過程失敗. 特別地,一些相機(jī)和數(shù)碼相機(jī)在拍照的同時(shí)可以直接記錄這樣的微小運(yùn)動(dòng)視頻(small motion clips),如iPhone 的實(shí)況照片(LivePhoto),松下相機(jī)的4K 預(yù)連拍和GoPro 相機(jī)的實(shí)況連拍(LiveBurst)等. 這類包含微小運(yùn)動(dòng)的極短視頻數(shù)據(jù)已經(jīng)成為介于寬基線(wide-baseline)視頻和單目圖像之間的一類數(shù)據(jù)形式. 一方面,微運(yùn)動(dòng)視頻蘊(yùn)含的視差信息可以有助于恢復(fù)三維場(chǎng)景; 另一方面,由于小基高比特性(相機(jī)的位移遠(yuǎn)小于相機(jī)距離場(chǎng)景的距離),對(duì)應(yīng)點(diǎn)的三角化過程易受噪聲影響,導(dǎo)致三維點(diǎn)重建過程具有較高的不確定性.
圖1 微運(yùn)動(dòng)視頻三維重建示意圖
為了解決微運(yùn)動(dòng)視頻三維重建問題,學(xué)術(shù)界已提出了一系列專門的方法. Yu 等[1]首次提出針對(duì)小運(yùn)動(dòng)視頻的三維重建方法,他們的方法首先基于小運(yùn)動(dòng)假設(shè)簡(jiǎn)化旋轉(zhuǎn)矩陣的參數(shù),在此基礎(chǔ)上提出基于特征跟蹤—光束平差重建—條件隨機(jī)場(chǎng)稠密深度估計(jì)的重建流程. Im 等[2]提出一種高效的小運(yùn)動(dòng)視頻稠密重建方法,其中包括一種法線約束和顏色信息引導(dǎo)的從稀疏到稠密插值方法,可以獲得場(chǎng)景的光滑深度. 文獻(xiàn)[3]進(jìn)一步在文獻(xiàn)[2]的基礎(chǔ)上,引入基于平面掃描(planesweep)的精化操作,提升在特征分布稀少區(qū)域的稠密重建效果. 以上方法需要假設(shè)相機(jī)內(nèi)參數(shù)已知(焦距和畸變系數(shù)等),限制了方法在任意相機(jī)模型和拍攝場(chǎng)景中的應(yīng)用. Ha 等[4]提出面向無標(biāo)定微運(yùn)動(dòng)視頻的方法,采用D-U 畸變模型來簡(jiǎn)化畸變系數(shù)估計(jì)所帶來的復(fù)雜優(yōu)化,并提出基于方差最小化成本函數(shù)的平面掃描法獲得深度圖. 文獻(xiàn)[5]進(jìn)一步將深度學(xué)習(xí)方法引入微運(yùn)動(dòng)視頻的稠密重建中,實(shí)現(xiàn)對(duì)弱紋理的魯棒性. 針對(duì)城市場(chǎng)景,Li 等[6]提出一種魯棒的微運(yùn)動(dòng)視頻三維重建方法,包括基于線段特征約束的相機(jī)自標(biāo)定和對(duì)噪聲魯棒的PatchMatch 稠密重建方法,并通過加權(quán)平均多個(gè)關(guān)鍵幀的深度圖進(jìn)一步減小噪聲的影響.
雖然以上工作針對(duì)微運(yùn)動(dòng)視頻提出了一系列改進(jìn)方法,逐漸提升了重建質(zhì)量,然而這些方法[1–6]沒有考慮微運(yùn)動(dòng)視頻重建過程中的不確定性,賦予微運(yùn)動(dòng)視頻中不同鄰域視頻幀相同的權(quán)重,導(dǎo)致重建結(jié)果容易受到噪聲的影響,同時(shí)在稠密重建階段,缺乏一種有效的正則化方法來平滑噪聲的同時(shí)保持幾何結(jié)構(gòu). 針對(duì)這些問題,本文提出一種高精度的微運(yùn)動(dòng)三維重建方法,將不確定性顯示地考慮進(jìn)重建過程中,在自標(biāo)定階段,提出一種視點(diǎn)加權(quán)方法,減少窄基線的負(fù)面影響,在稠密重建階段,提出基于廣義全變分的深度圖平滑方法,提升稠密重建質(zhì)量.本文方法技術(shù)流程圖如圖2 所示,主要貢獻(xiàn)總結(jié)如下.
圖2 提出的微運(yùn)動(dòng)視頻三維重建方法的技術(shù)流程圖.
(2)提出基于廣義全變分的深度估計(jì)方法,在抑制深度圖噪聲的同時(shí)保持傾斜結(jié)構(gòu)和精細(xì)幾何特征.
本文在真實(shí)數(shù)據(jù)和合成上與主流方法進(jìn)行了定量和定性評(píng)估實(shí)驗(yàn),驗(yàn)證了提出方法的有效性.
本文余下內(nèi)容組織如下: 第2 節(jié)論述相關(guān)工作,第3 節(jié)介紹提出的算法,第4 節(jié)給出實(shí)驗(yàn)評(píng)估結(jié)果,第5 節(jié)對(duì)全文進(jìn)行總結(jié).
基于圖像的立體三維重建是圖像生成的逆過程,旨在通過匹配多視角圖像間的對(duì)應(yīng)點(diǎn),估計(jì)場(chǎng)景的三維表面. 基于立體線索信息的三維重建可以分為兩個(gè)主要步驟: 從運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)(structure from motion,SFM)和多視角立體稠密重建(multi-view stereo,MVS). 針對(duì)這兩個(gè)子問題,已經(jīng)提出了大量的研究工作[7–14],嘗試解決基于圖像的三維重建中存在的若干關(guān)鍵問題,包括: 弱紋理、大尺度重建、高反光重建等,逐漸提升了重建精度. 這些方法需要假設(shè)圖像間包含足夠的視差,以準(zhǔn)確復(fù)原有效像素對(duì)應(yīng)點(diǎn). 然而,對(duì)于微小運(yùn)動(dòng)視頻,其運(yùn)動(dòng)幅度所誘導(dǎo)的視差非常小,對(duì)當(dāng)前主流重建方法提出了挑戰(zhàn).
針對(duì)微運(yùn)動(dòng)視頻的三維重建問題,學(xué)術(shù)界已經(jīng)提出了若干重建方法. Yu 等[1]首次研究這一問題,提出簡(jiǎn)化的旋轉(zhuǎn)矩陣參數(shù)化來減少問題的復(fù)雜性,并提出使用逆深度來約束深度的不確定性對(duì)優(yōu)化過程的影響,提出基于能量最小化的深度估計(jì)方法改善噪聲的影響.該方法可復(fù)原由于手部抖動(dòng)造成的微小運(yùn)動(dòng),但其需要假設(shè)相機(jī)的內(nèi)參數(shù)已知,并依賴耗時(shí)的能量?jī)?yōu)化過程. Im 等[2]提出了從稀疏到稠密的插值方法避免了耗時(shí)的稠密重建過程,其方法首先提出一種基于微小運(yùn)動(dòng)復(fù)原結(jié)構(gòu)(strucure from small motion,SFSM)重建一組三維稀疏點(diǎn),在此基礎(chǔ)上將三維稀疏點(diǎn)的二維投影當(dāng)作是控制點(diǎn),通過求解基于法線約束的權(quán)重最小平方的能量函數(shù)來補(bǔ)全缺失的深度. 這一方法依賴SFSM階段重建的稀疏三維特征點(diǎn)的分布和密度,如果稀疏三維特征點(diǎn)數(shù)量過少,則插值結(jié)果將偏離真實(shí)表面.Im 等[3]在其改進(jìn)工作中,提出采用插值結(jié)果作為初始值,在此基礎(chǔ)上執(zhí)行局部的平面掃描立體算法,提升了表明細(xì)節(jié)的重建效果. 文獻(xiàn)[15]將相機(jī)模型從透視模型寬展到球面模型,嘗試解決全景相機(jī)的微運(yùn)動(dòng)三維重建問題. 文獻(xiàn)[2,3,15]的方法也需要假設(shè)相機(jī)的內(nèi)參數(shù)已經(jīng)標(biāo)定并且輸入圖像為已經(jīng)過畸變矯正的圖像,然而在真實(shí)場(chǎng)景下相機(jī)的焦距和畸變系數(shù)可能和標(biāo)定時(shí)不一樣(如對(duì)近景的焦距不適合遠(yuǎn)景),因此固定相機(jī)內(nèi)參數(shù)限制了方法在真實(shí)場(chǎng)景下的適用性.
為了增強(qiáng)方法處理真實(shí)拍攝場(chǎng)景下的靈活性,Ha等[4]提出了面向無標(biāo)定微小運(yùn)動(dòng)視頻的三維重建方法.為了將相機(jī)內(nèi)參,如焦距和畸變系數(shù)引入SFSM 的優(yōu)化過程中,他們提出采用D-U 畸變模型來簡(jiǎn)化畸變系數(shù)帶來的復(fù)雜的非線性優(yōu)化問題. 在稠密重建階段,文獻(xiàn)[4]提出一種基于方差成本最小化的平面掃描方法,并通過基于最小生成樹的深度精化算法[16]來平滑噪聲和補(bǔ)全空洞. Im 等[5]將文獻(xiàn)[4]中的稠密重建步驟替換為深度學(xué)習(xí)方法,提升了弱紋理表面的重建完整度,但是由于深度學(xué)習(xí)的泛化能力問題,方法在一些與訓(xùn)練數(shù)據(jù)差異較大的場(chǎng)景下表現(xiàn)較差,并且無法復(fù)原物體表面的細(xì)致結(jié)構(gòu). 針對(duì)城市場(chǎng)景,Li 等[6]提出基于點(diǎn)特征和線特征共同約束的SFSM 方法,提升了相機(jī)自標(biāo)定的準(zhǔn)確性,并提出一種對(duì)噪聲魯棒的PatchMatch深度圖估計(jì)方法快速復(fù)原一組關(guān)鍵幀的深度圖,通過多幀深度圖的加權(quán)平均進(jìn)一步減小重建噪聲.
窄基線立體視差計(jì)算問題在遙感領(lǐng)域獲得了關(guān)注[17–19],用于遙感影像中的小基高比建筑物的視差,然而此類方法需要預(yù)先極線校正的立體圖像對(duì)作為輸入.微運(yùn)動(dòng)視頻也可以看作是光場(chǎng)問題的特例,在光場(chǎng)問題中,經(jīng)過內(nèi)參數(shù)和位姿標(biāo)定的相機(jī)陣列稠密且均勻分布在空間中,光場(chǎng)方法[20,21]通過這一均勻且稠密的相機(jī)分布特性來計(jì)算圖像間的遮擋. 然而,微運(yùn)動(dòng)視頻相比窄基線立體視覺和光場(chǎng)問題更具挑戰(zhàn)性,這是因?yàn)槠溥\(yùn)動(dòng)軌跡是任意的,并且相機(jī)參數(shù)未知. 因此從微運(yùn)動(dòng)復(fù)原三維結(jié)構(gòu)不僅需要進(jìn)行深度的估計(jì)還需要考慮相機(jī)的標(biāo)定問題.
阿魚不讓人騎,干活卻是憋足力氣的。所以,爺爺待阿魚很好,每天半夜起身給它加草料,隔三岔五用自己做的大毛刷給它梳理毛發(fā)。
雖然方法[4–6]可以處理無標(biāo)定的微運(yùn)動(dòng)視頻,但是這些方法在光束平差過程中,將所有鄰域視頻幀相同對(duì)待,忽略了不同視頻幀由于相對(duì)參考圖像的基線不同而具有不同可信度的事實(shí),導(dǎo)致較差的重建精度. 并且在稠密重建階段,文獻(xiàn)[1–5]提出方法的重建結(jié)果忽略了場(chǎng)景的表面幾何細(xì)節(jié)和傾斜結(jié)構(gòu),而文獻(xiàn)[6]的方法缺乏有效的噪聲平滑手段,其重建結(jié)果仍包含明顯噪聲.本文提出一種高精度的微運(yùn)動(dòng)視頻三維重建方法,包含視點(diǎn)加權(quán)的光束平差方法和基于廣義全變分的稠密深度估計(jì)方法,可提升對(duì)窄基線所造成的噪聲的魯棒性.
假設(shè)輸入微運(yùn)動(dòng)視頻序列為I={I1,I2,I2,···,IN},其中I∈I為視頻序列的參考幀. 參照主流工作[1–6],本文設(shè)置參考幀為視頻序列的第一幀. 微運(yùn)動(dòng)三維重建的目標(biāo)是從輸入的視頻序列,估計(jì)每一視頻幀I的相機(jī)外參數(shù){Ri,ti}和相機(jī)內(nèi)參數(shù)f,k1,k2. 其中f為相機(jī)的焦距,k1,k2為相機(jī)的多項(xiàng)式畸變模型的一階和二階系數(shù). 令鄰域視頻幀集合為J ?I,包含除了參考圖像之外的所有視頻幀. 在此基礎(chǔ)上,估計(jì)參考視頻幀的稠密深度圖D.
針對(duì)微運(yùn)動(dòng)視頻,本文提出的三維重建方法包括:(a)相機(jī)自標(biāo)定和(b)稠密重建. 其中相機(jī)自標(biāo)定將根據(jù)輸入視頻序列估計(jì)對(duì)應(yīng)的相機(jī)位置姿態(tài)(旋轉(zhuǎn)和平移)和相機(jī)內(nèi)參數(shù)(焦距和畸變系數(shù)); 而稠密重建計(jì)算參考圖像的稠密深度圖. 在第3.2 節(jié)和第3.3 節(jié),將對(duì)這兩個(gè)步驟分別詳細(xì)介紹.
根據(jù)文獻(xiàn)[4],給定參考圖像I∈I和其對(duì)應(yīng)的鄰域圖像J ?I,執(zhí)行從微小運(yùn)動(dòng)復(fù)原結(jié)構(gòu)算法,包括2 個(gè)關(guān)鍵步驟:
步驟1. 特征點(diǎn)檢測(cè)和匹配. 首先,使用Harris 角點(diǎn)檢測(cè)方法在參考圖像上檢測(cè)特征點(diǎn),設(shè)特征集合為 P,其中p∈P為某一特征點(diǎn). 然后針對(duì)參考圖像I和鄰域圖像集合 J,執(zhí)行雙向的Kanade-Lucas-Tomasi (KLT)追蹤,如果參考圖像上的特征點(diǎn)p和它經(jīng)由鄰域反追蹤回來的對(duì)應(yīng)點(diǎn)q之間的距離小于閾值ε,則此特征點(diǎn)為候選特征點(diǎn). 一個(gè)特征點(diǎn)是正確特征點(diǎn)(inlier)僅當(dāng)它能夠在所有的鄰域圖像的雙向跟蹤下成為候選點(diǎn). 令{P1,P2,···,PMp}表示特征點(diǎn)的軌跡集合,其中Pm=而pim∈Pm為參考圖像特征點(diǎn)pm在鄰域圖像Ii上的對(duì)應(yīng)點(diǎn).
步驟2. 光束平差. 假設(shè)在拍攝瞬間的相機(jī)焦距和鏡頭畸變固定不變,即所有輸入視頻幀I={I1,I2,I2,···,IN}具有相同的相機(jī)內(nèi)參數(shù). 令f是焦距,圖像中心為相機(jī)主點(diǎn)位置,畸變過程使用D-U 畸變模型F(·)=1+k1∥·∥+k2∥·∥將畸變圖像空間的像素點(diǎn)映射到無畸變空間,其中k1和k2是待估計(jì)的畸變系數(shù). Ha 等[4]提出SFSM 優(yōu)化模型如式(1):
其中,xm是特征點(diǎn)pm對(duì)應(yīng)的三維點(diǎn).ri和ti是旋轉(zhuǎn)和平移向量,πi是一個(gè)復(fù)合函數(shù),其首先將三維點(diǎn)變換到視角i坐標(biāo)系下,然后投影三維點(diǎn)到歸一化坐標(biāo)空間,ρ為Huber損失函數(shù). 微運(yùn)動(dòng)情況下,旋轉(zhuǎn)矩陣可以用式(2)近似:
其中,R代表從向量到矩陣的參數(shù)化,其中ri=(ri,1,ri,2,ri,3). 式(1)所定義的SFSM 方法已在文獻(xiàn)[4,5]中應(yīng)用,將作為本文的基準(zhǔn)方法. 本文指出,該方法將各個(gè)鄰域視角平等對(duì)待,忽略了不同視角相對(duì)于參考視角的基線不同,根據(jù)誤差傳播公式ez=(z)2/(baseline·focallength),假如鄰域視角Ii比Ij的基線更小,則Ii更易導(dǎo)致較大重建不確定性. 因此,如果Ii相對(duì)于參考視角的基線較小,則其應(yīng)該具有更小的可信度. 基于以上討論,定義鄰域視角圖像Ii的權(quán)重為代表該視角的置信度,其中di是參考視角到鄰域視角Ii的所有對(duì)應(yīng)點(diǎn)運(yùn)動(dòng)位移之和,即直觀上說,如果鄰域視角Ii相對(duì)于參考視角具有較大的運(yùn)動(dòng)位移,則該視角具有較大的權(quán)重. 基于以上分析,本文提出視角加權(quán)的光束平差方法,用于在優(yōu)化過程中刻畫視角間的不確定性,其定義如下:
在實(shí)驗(yàn)部分本文將對(duì)所提出的視點(diǎn)加權(quán)的光束平差方法與主流方法進(jìn)行詳細(xì)的實(shí)驗(yàn)比較,由于本文方法將視點(diǎn)不確定性考慮進(jìn)優(yōu)化過程,可顯著提升相機(jī)自標(biāo)定的精度. 需要指出的是,相比基準(zhǔn)方法,所提出的視點(diǎn)加權(quán)方法僅需要額外計(jì)算視角權(quán)重,因此并不顯著增加計(jì)算量.
稠密重建的目標(biāo)是基于SFSM 估計(jì)的相機(jī)參數(shù)和|J|個(gè)鄰域圖像數(shù)據(jù),估計(jì)參考圖像I的深度圖D. 本文基于文獻(xiàn)[6],采用GPU 加速的PatchMatch Stereo 方法快速重建初始深度圖. 由于窄基線的影響,重建的深度圖包含噪聲,本文在此基礎(chǔ)上,引入廣義全變分對(duì)噪聲深度圖進(jìn)行自適應(yīng)平滑.
首先,對(duì)于像素p∈Ii,設(shè)它當(dāng)前的深度假設(shè)值為dp與法線假設(shè)值為np,經(jīng)由深度zp和法線np所構(gòu)成的平面 Π和相機(jī)參數(shù)Pi,Pj,可計(jì)算p在鄰域圖像Ij的對(duì)應(yīng)點(diǎn)qj. 通過參考圖像中以p為中心的r×r的圖像塊Rp與鄰域圖像Ij∈V(i)的對(duì)應(yīng)匹配圖像塊Rq j計(jì)算匹配代價(jià)選擇最優(yōu)的深度和法線假設(shè). 匹配相似性函數(shù)定義為:ρj=ρ(R(p),R(qj)). 本文采用了如下intensity+gradient的成本函數(shù):
其中,s∈Rp和t∈Rq j是參考圖像和鄰域圖像的對(duì)應(yīng)點(diǎn),參數(shù) α調(diào)節(jié)圖像塊的灰度值差異和梯度值差異的權(quán)重,τc和 τg為兩個(gè)控制最大差異的常數(shù). 仿射權(quán)重函數(shù)定義為其中 γ是參數(shù),而 ∥I(p)?I(q)∥1計(jì)算I(p)和I(q)之間的L1-距離. 仿射權(quán)重減少遠(yuǎn)離中心像素的像素影響.
對(duì)于小運(yùn)動(dòng)視頻,由于各幀之間視差很小,可以忽略遮擋的影響,則關(guān)于像素p的深度dp和法線np的多視角累積成本為:
PatchMatch 首先隨機(jī)初始化深度和法線值,方法通過交替執(zhí)行鄰域傳播(propagation)和精化(refinement)步驟來不斷地優(yōu)化深度和法線假設(shè). 在文獻(xiàn)[22]所提出的方法中,采用一種基于GPU 的紅黑棋盤格傳播算法,可以在整幅圖像上并行的傳播鄰域的深度與法線假設(shè). 其中精化操作采用二分法,不斷地在更小的區(qū)間內(nèi)隨機(jī)尋找更優(yōu)的深度和法線. Li 等[6]在文獻(xiàn)[8]的基礎(chǔ)上提出一種噪聲魯棒的PatchMatch 算法(noiseaware PatchMatch,N-PM),通過成本松弛和局部假設(shè)更新來改善噪聲的影響,并通過加權(quán)融合一組關(guān)鍵幀的深度圖實(shí)現(xiàn)對(duì)噪聲的進(jìn)一步抑制. 然而由于窄基線的影響,重建的深度圖z0p仍包含噪聲,本文在文獻(xiàn)[6]的基礎(chǔ)上進(jìn)一步改進(jìn),使用廣義全變分(generalized total variation,TGV)精化深度圖zp,使得平滑噪聲的同時(shí)保持傾斜結(jié)構(gòu)和顯著幾何特征. 提出的基于TGV 的深度圖精細(xì)化操作定義如下:
其中,η(x)表示對(duì)稱梯度操作子α0和α1是控制平滑項(xiàng)的參數(shù),v是一個(gè)輔助變量. 由于較小的基線將導(dǎo)致重建深度圖z0p的噪聲較大,因此需要較強(qiáng)的正則化項(xiàng). 因此,正則化的強(qiáng)度需要根據(jù)當(dāng)前輸入視頻序列的基線大小進(jìn)行調(diào)整. 給定視頻片段 V,基線比例定義為其中dmin是當(dāng)前深度圖z0p的最小深度點(diǎn),而bmax是鄰域圖像集中相對(duì)于參考圖像的最大基線. 本文定義?和 α1的關(guān)系為α1=(??/σ)3,其中σ設(shè)置為20.
本文在多種數(shù)據(jù)集上對(duì)微運(yùn)動(dòng)視頻的自標(biāo)定和稠密重建進(jìn)行了定性和定量對(duì)比實(shí)驗(yàn). 數(shù)據(jù)集包括來自主流方法[3,4]的公開數(shù)據(jù)集和合成數(shù)據(jù)集,以及本文作者捕獲的數(shù)據(jù)集.
首先,本文對(duì)所提出的視點(diǎn)加權(quán)的自標(biāo)定方法進(jìn)行評(píng)估. 本文方法和基準(zhǔn)方法[4,6]均采用30 幀微運(yùn)動(dòng)視頻幀作為輸入.
由于真實(shí)數(shù)據(jù)的外部參數(shù)未知,根據(jù)文獻(xiàn)[4,6]所提出的策略評(píng)估相機(jī)內(nèi)參數(shù)估計(jì)的準(zhǔn)確度,包含焦距和畸變系數(shù). 其中焦距的評(píng)價(jià)包含了在數(shù)據(jù)集上的平均值、最大值和最小值. 畸變系數(shù)的估計(jì)采用文獻(xiàn)[4]所提出的策略: 首先在圖像閾建立一張均勻網(wǎng)格,使用真值畸變系數(shù)對(duì)網(wǎng)格進(jìn)行形變,然后采用算法估計(jì)的畸變系數(shù)對(duì)其進(jìn)行去畸變,計(jì)算去除畸變后的網(wǎng)格和原始網(wǎng)格的誤差,從而得到畸變系數(shù)的誤差. 本文給出各個(gè)算法在數(shù)據(jù)集上的平均畸變誤差、最大畸變誤差和最小畸變誤差.
本文分別在文獻(xiàn)[3]所給出的Canon 60D 數(shù)據(jù)集(4 個(gè)視頻片段),文獻(xiàn)[6]所給出的Nikon D5500 數(shù)據(jù)集(10 個(gè)視頻片段)和本文作者捕獲的Nikon D600 數(shù)據(jù)集(18 個(gè)視頻片段)上進(jìn)行了定量評(píng)價(jià). 其中Canon 60D 數(shù)據(jù)集如圖3 所示,Nikon D5500 數(shù)據(jù)集如圖4 所示,本文捕獲數(shù)據(jù)集如圖5 所示. 這3 個(gè)數(shù)據(jù)集的視頻規(guī)格均為30 幀,1920×1080,數(shù)據(jù)拍攝時(shí)候保持鏡頭焦距固定,數(shù)據(jù)集的內(nèi)參數(shù)的真值采用棋盤格法[23]獲得.對(duì)于Canon 60D 和Nikon D600 數(shù)據(jù)集,本文使用Ha 等提出的方法[4]作為基準(zhǔn)方法. 對(duì)于Nikon D5500 數(shù)據(jù)集,由于其弱紋理等挑戰(zhàn)性,文獻(xiàn)[4]方法容易導(dǎo)致較大重建誤差,為此選用文獻(xiàn)[6]的線特征約束的SFSM方法作為基準(zhǔn)方法,在此方法基礎(chǔ)上引入本文提出的視點(diǎn)加權(quán)策略. 對(duì)于每個(gè)數(shù)據(jù)集,執(zhí)行SFSM 之前的焦距的初始值等于圖像維度的最大值,畸變系數(shù)設(shè)置為0.
圖3 Canon 60D 數(shù)據(jù)集[3]
圖4 Nikon D5500 數(shù)據(jù)集[6]
圖5 本文捕獲的Nikon D600 數(shù)據(jù)集部分樣例
表1–表3 分別展示了本文方法和基準(zhǔn)方法[4,6]在3 個(gè)數(shù)據(jù)集上的量化對(duì)比. 從實(shí)驗(yàn)結(jié)果可以看出本文提出的視點(diǎn)加權(quán)方法在不同相機(jī)拍攝的室內(nèi)和室外視頻片段中均可以實(shí)現(xiàn)高質(zhì)量的自標(biāo)定,在絕大多數(shù)量化指標(biāo)項(xiàng)上實(shí)現(xiàn)了比基準(zhǔn)方法更好的結(jié)果,本文分析這是由于所提出的視點(diǎn)加權(quán)的光束平差方法考慮了不同鄰域視點(diǎn)的基線大小導(dǎo)致的重建不確定性,可以減小窄基線視點(diǎn)的影響同時(shí)增大較寬基線視點(diǎn)的權(quán)重,從而有效地減弱了微運(yùn)動(dòng)視頻的窄基線對(duì)自標(biāo)定的影響,提升了自標(biāo)定的精度.
表1 Canon 60D 數(shù)據(jù)集上的自標(biāo)定結(jié)果(像素)
表2 在Nikon D600 數(shù)據(jù)集上的自標(biāo)定結(jié)果(像素)
表3 在Nikon D5500 數(shù)據(jù)集上的自標(biāo)定結(jié)果(像素)
進(jìn)一步地,本文對(duì)稠密重建算法進(jìn)行評(píng)估. 首先在合成數(shù)據(jù)集上進(jìn)行定量評(píng)價(jià). 合成數(shù)據(jù)集來自文獻(xiàn)[6],其使用Blender 軟件對(duì)真實(shí)感場(chǎng)景沿一條直線上均勻分布的視點(diǎn)進(jìn)行渲染,獲得微運(yùn)動(dòng)相機(jī)軌跡. 合成數(shù)據(jù)總共包含5 組相機(jī)軌跡和對(duì)應(yīng)圖像數(shù)據(jù),每組包含31 張圖像,并提供了深度真實(shí)值. 相機(jī)的基高比使用基線與最小深度比值的log10 來刻畫,分別為: ?3.0,?2.5,?2.0,?1.5 和?1.0,值越小則基高比越小,重建的不確定性越大. 為了專注于稠密重建算法本身的誤差,稠密重建算法相機(jī)參數(shù)采用數(shù)據(jù)集提供的真值參數(shù). 誤差度量指標(biāo)包括R1 和MAD. 其中MAD 表示估計(jì)深度與真值深度的平均絕對(duì)差異值,該指越小越好,而R1 表示像素的深度估計(jì)值與真值深度的誤差值小于最大真值深度的1%的像素比例,該值越大越好. 量化評(píng)估結(jié)果如表4 所示. 在表4 中,本文分別給出了主流方法[4–6]的重建結(jié)果,其中,R1 指標(biāo)越大越好,MAD 指標(biāo)越小越好. 可以看出,本文方法顯著提升了重建精度,在不同基線下均實(shí)現(xiàn)最好的重建結(jié)果,證明了方法的有效性.
表4 合成數(shù)據(jù)集上不同基高比的量化評(píng)價(jià)結(jié)果
除了定量比較,本文還定性地比較了在不同基高比下,提出的方法和對(duì)比方法[4–6]的重建結(jié)果,如圖6所示. 其中數(shù)據(jù)集的基高比為–2.0. 為了幫助可視化,深度圖使用法線圖形式進(jìn)行渲染. 可以看出本文方法顯著減少了重建誤差,重建結(jié)果更加平滑且保留傾斜結(jié)構(gòu)和豐富的幾何細(xì)節(jié). 本文還在真實(shí)數(shù)據(jù)集上進(jìn)行了稠密重建的定性比較實(shí)驗(yàn),如圖7 所示,平滑的重建結(jié)果進(jìn)一步驗(yàn)證了方法的有效性.
圖6 合成數(shù)據(jù)上的深度估計(jì) (第2 行為對(duì)應(yīng)的R1 誤差圖)
圖7 真實(shí)數(shù)據(jù)集上的定性評(píng)估,數(shù)據(jù)集來自文獻(xiàn)[4]
特別地,本文采用iPhone 6S 的實(shí)況照片模式捕獲了一組真實(shí)場(chǎng)景的微運(yùn)動(dòng)視頻數(shù)據(jù). 在實(shí)況照片模式下,用戶手持手機(jī)按下快門,可同時(shí)拍攝一張照片和一個(gè)記錄了拍攝瞬間前1.5 s 和后1.5 s 的視頻. 首先將視頻等間隔采樣,獲得30 幀數(shù)據(jù). 在此數(shù)據(jù)基礎(chǔ)上,執(zhí)行本文提出的視點(diǎn)選擇和稠密重建,獲得的重建結(jié)果如圖8 和圖9 所示. 可以看出針對(duì)不同的場(chǎng)景下拍攝的實(shí)況照片,本文方法可以實(shí)現(xiàn)高質(zhì)量的三維重建,驗(yàn)證了方法的有效性.
圖8 針對(duì)iPhone 實(shí)況照片拍攝的貓雕塑數(shù)據(jù)的重建結(jié)果
圖9 針對(duì)iPhone 實(shí)況照片拍攝的咖啡杯數(shù)據(jù)的重建結(jié)果
微運(yùn)動(dòng)視頻來自拍攝瞬間的手部抖動(dòng),提供了一種獲取場(chǎng)景深度信息的便捷方式,同時(shí)極小的基線也為三維重建算法提出了挑戰(zhàn). 本文提出一種高精度的微運(yùn)動(dòng)重建方法,包括一種基于不確定性的視點(diǎn)加權(quán)相機(jī)自標(biāo)定精度,以及一種基于廣義全變分的稠密重建算法,提升了重建算法對(duì)于窄基線所誘導(dǎo)的噪聲的魯棒性. 此外提出的整個(gè)系統(tǒng)框架還可以應(yīng)用于手機(jī)自帶的動(dòng)態(tài)照片,可方便的重建場(chǎng)景的深度圖. 基于重建的深度圖,提出的方法可潛在地應(yīng)用于場(chǎng)景建模、照片重定焦、局部著色等任務(wù).