范兵兵 葛利躍 張聰炫 李 兵 馮 誠(chéng) 陳 震
光流是指圖像序列中運(yùn)動(dòng)目標(biāo)或場(chǎng)景表面像素點(diǎn)的二維運(yùn)動(dòng)矢量,其不僅包含了物體或場(chǎng)景的運(yùn)動(dòng)參數(shù),還攜帶了圖像中運(yùn)動(dòng)目標(biāo)豐富的結(jié)構(gòu)信息,因此,針對(duì)圖像序列光流計(jì)算技術(shù)的研究一直是圖像處理、計(jì)算機(jī)視覺(jué)等領(lǐng)域的研究熱點(diǎn).相關(guān)研究成果廣泛應(yīng)用于目標(biāo)跟蹤[1]、圖像配準(zhǔn)[2]、表情識(shí)別[3]、運(yùn)動(dòng)遮擋檢測(cè)[4]和機(jī)器人視覺(jué)導(dǎo)航[5]等高級(jí)視覺(jué)任務(wù).
自 Horn和 Schunck 提出變分光流計(jì)算技術(shù)以來(lái),圖像序列光流計(jì)算技術(shù)在光流計(jì)算精度和魯棒性方面已經(jīng)取得顯著提升[6].然而,隨著圖像序列包含的場(chǎng)景任務(wù)日益復(fù)雜,光流計(jì)算的難度越來(lái)越大.例如,當(dāng)圖像序列中包含運(yùn)動(dòng)遮擋、大位移以及非剛性形變等困難復(fù)雜場(chǎng)景時(shí),當(dāng)前光流計(jì)算方法在精度與魯棒性方面仍亟需進(jìn)一步提高.特別在圖像與運(yùn)動(dòng)邊緣區(qū)域,現(xiàn)有光流計(jì)算方法普遍存在較為嚴(yán)重的信息丟失與模糊問(wèn)題.針對(duì)該問(wèn)題,傳統(tǒng)變分光流計(jì)算方法通常采用在能量泛函中附加約束項(xiàng)[6]或設(shè)計(jì)邊緣保護(hù)策略來(lái)改善該問(wèn)題[7].例如,Zhang 等[8]提出一種基于三角網(wǎng)格的遮擋檢測(cè)約束項(xiàng)并將其與變分能量泛函耦合,通過(guò)補(bǔ)償光流計(jì)算中損失的遮擋信息,顯著提升了圖像與運(yùn)動(dòng)邊緣區(qū)域光流計(jì)算精度.Mei 等[9]將局部?jī)?yōu)化策略與全局優(yōu)化策略相結(jié)合,提出一種局部與全局耦合的加權(quán)正則變分光流計(jì)算模型,提高了光照變化場(chǎng)景光流計(jì)算的精度與魯棒性.針對(duì)大位移運(yùn)動(dòng)場(chǎng)景光流計(jì)算準(zhǔn)確性較低問(wèn)題,Chen 等[10]將塊匹配策略與由粗到細(xì)的光流計(jì)算方案相結(jié)合,提高了大位移運(yùn)動(dòng)光流計(jì)算精度,但該方案易導(dǎo)致邊緣模糊和細(xì)節(jié)結(jié)構(gòu)信息丟失.為此,Deng 等[11]提出一種新穎的可微鄰域搜索上采樣模塊,并將其與由粗到細(xì)光流計(jì)算方案結(jié)合,較好地保護(hù)了圖像與邊緣結(jié)構(gòu).后續(xù),文獻(xiàn)[12] 在光流金字塔分層優(yōu)化過(guò)程中集成結(jié)構(gòu)引導(dǎo)濾波,利用結(jié)構(gòu)引導(dǎo)濾波具有邊緣保護(hù)的作用,實(shí)現(xiàn)光流計(jì)算運(yùn)動(dòng)邊緣的保護(hù).Dong 等[13]進(jìn)一步將濾波技術(shù)與非局部項(xiàng)相結(jié)合,提出一種非局部傳播的濾波光流優(yōu)化方案,在減少光流計(jì)算異常值的同時(shí)保留了豐富的上下文信息.
近年來(lái),隨著人工智能與深度學(xué)習(xí)技術(shù)的飛速發(fā)展,基于深度學(xué)習(xí)的光流計(jì)算技術(shù)得到廣泛關(guān)注.Dosovitskiy 等[14]率先將卷積神經(jīng)網(wǎng)絡(luò)引入光流計(jì)算,提出 FlowNet 深度學(xué)習(xí)光流計(jì)算模型,該模型通過(guò)采用編碼-解碼結(jié)構(gòu)極大地縮短了光流計(jì)算所需的時(shí)間,同時(shí)也奠定了深度學(xué)習(xí)光流計(jì)算網(wǎng)絡(luò)的基本結(jié)構(gòu).然而,FlowNet 的網(wǎng)絡(luò)結(jié)構(gòu)比較簡(jiǎn)單,光流計(jì)算精度較低.后續(xù),Ilg 等[15]將FlowNet 網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行多次堆疊,并將堆疊后的網(wǎng)絡(luò)命名為 Flow-Net 2.0,與 FlowNet 相比,FlowNet 2.0 網(wǎng)絡(luò)深度更深,光流計(jì)算精度也更高.但多次堆疊操作使得FlowNet 2.0 網(wǎng)絡(luò)結(jié)構(gòu)過(guò)于臃腫復(fù)雜,模型訓(xùn)練不僅困難而且易陷入過(guò)擬合.為了在光流計(jì)算精度與模型尺寸之間尋求平衡,Sun 等[16]將特征金字塔、變形操作、成本體積代價(jià)集成在統(tǒng)一的光流計(jì)算網(wǎng)絡(luò)框架中,提出 PWC-Net 光流計(jì)算方法.該方法在簡(jiǎn)化網(wǎng)絡(luò)尺寸的同時(shí)大幅提高了光流計(jì)算的精度與魯棒性.然而,上述方法均為有監(jiān)督深度學(xué)習(xí)光流計(jì)算方法,需要提供大量具有真實(shí)標(biāo)簽的樣本數(shù)據(jù)用于模型訓(xùn)練,因此難以應(yīng)用于真實(shí)任務(wù)場(chǎng)景.受傳統(tǒng)變分光流中的能量泛函啟發(fā),Yu 等[17]通過(guò)設(shè)計(jì)基于數(shù)據(jù)項(xiàng)與平滑項(xiàng)相結(jié)合的損失函數(shù),實(shí)現(xiàn)了基于無(wú)監(jiān)督學(xué)習(xí)的光流計(jì)算.這在一定程度使深度學(xué)習(xí)光流計(jì)算模型擺脫了對(duì)標(biāo)簽樣本數(shù)據(jù)的依賴,但光流計(jì)算精度大幅落后于有監(jiān)督學(xué)習(xí)方法.為此,Liu 等[18]借鑒知識(shí)蒸餾思想,提出一種基于數(shù)據(jù)驅(qū)動(dòng)的蒸餾學(xué)習(xí)無(wú)監(jiān)督光流計(jì)算模型 DDFlow.該方法通過(guò)數(shù)據(jù)驅(qū)動(dòng)自動(dòng)學(xué)習(xí)和預(yù)測(cè)光流,在提高光流計(jì)算精度的同時(shí)實(shí)現(xiàn)了實(shí)時(shí)無(wú)監(jiān)督光流計(jì)算.
現(xiàn)階段,基于深度學(xué)習(xí)的光流計(jì)算方法雖然已取得較大進(jìn)展,光流計(jì)算精度不斷提高.但是,由于大位移、運(yùn)動(dòng)遮擋以及非剛性運(yùn)動(dòng)違背了網(wǎng)絡(luò)模型設(shè)計(jì)的先驗(yàn)知識(shí),因此光流計(jì)算在圖像與運(yùn)動(dòng)邊緣區(qū)域存在模糊的問(wèn)題仍未得到妥善解決.Hur 等[19]通過(guò)引入遮擋真實(shí)值,設(shè)計(jì)一種遮擋解碼器對(duì)遮擋區(qū)域特征學(xué)習(xí)并利用學(xué)習(xí)到的遮擋信息約束遮擋區(qū)域的光流計(jì)算,一定程度緩解了該問(wèn)題.然而,包含遮擋真實(shí)值的數(shù)據(jù)集較少,難以滿足大規(guī)模使用.為了克服該問(wèn)題,Zhao 等[20]提出一種不需要遮擋真實(shí)值的非對(duì)稱特征匹配模塊學(xué)習(xí)遮擋掩膜,以約束遮擋區(qū)域光流計(jì)算.Meister 等[21]借鑒變分遮擋光流計(jì)算策略,設(shè)計(jì)一種前后一致性損失函數(shù)用于指導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)遮擋特征信息,有效保護(hù)了圖像與運(yùn)動(dòng)邊緣.
當(dāng)前,基于深度學(xué)習(xí)的光流計(jì)算網(wǎng)絡(luò)模型大多都致力于研究新的先驗(yàn)知識(shí)來(lái)設(shè)計(jì)光流計(jì)算網(wǎng)絡(luò)結(jié)構(gòu).然而,相對(duì)于之前的網(wǎng)絡(luò),這些網(wǎng)絡(luò)結(jié)構(gòu)往往非常復(fù)雜且難以訓(xùn)練,不僅大幅增加了深度學(xué)習(xí)光流計(jì)算的難度,而且還進(jìn)一步提高了計(jì)算成本.針對(duì)上述問(wèn)題,本文從圖像特征提取網(wǎng)絡(luò)模型的設(shè)計(jì)入手,提出一種基于多尺度變形卷積的特征提取模型,并將其與特征金字塔光流計(jì)算網(wǎng)絡(luò)耦合,在少量增加原有網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜度的同時(shí)提高編碼器網(wǎng)絡(luò)的特征提取能力,從而獲取更加準(zhǔn)確的圖像特征.此外,為了保護(hù)圖像與運(yùn)動(dòng)邊緣,本文又設(shè)計(jì)一種結(jié)合圖像與運(yùn)動(dòng)邊緣約束的混合損失函數(shù),來(lái)指導(dǎo)模型學(xué)習(xí)更加精準(zhǔn)的邊緣信息.實(shí)驗(yàn)結(jié)果證明,本文方法具有更高的光流計(jì)算精度,有效解決了光流計(jì)算的邊緣模糊問(wèn)題.
當(dāng)前,深度學(xué)習(xí)光流計(jì)算網(wǎng)絡(luò)模型普遍采用標(biāo)準(zhǔn)卷積實(shí)現(xiàn)圖像特征提取.然而,標(biāo)準(zhǔn)卷積具有較為顯著的平滑作用,導(dǎo)致提取的圖像特征過(guò)于平滑.同時(shí),標(biāo)準(zhǔn)卷積對(duì)規(guī)則區(qū)域的特征信息捕獲較為準(zhǔn)確,在不規(guī)則區(qū)域往往無(wú)法獲取完整的圖像特征.因此,僅利用標(biāo)準(zhǔn)卷積構(gòu)建圖像特征提取網(wǎng)絡(luò)難以獲取準(zhǔn)確的圖像特征信息.
針對(duì)該問(wèn)題,本文從圖像特征提取策略出發(fā),提出一種多尺度變形卷積特征提取網(wǎng)絡(luò).通過(guò)聚合多尺度圖像特征信息,讓多尺度變形卷積感受野可以擬合不同尺寸和形狀的目標(biāo),從而更加精準(zhǔn)地提取出圖像特征.圖1 展示了標(biāo)準(zhǔn)卷積與變形卷積在運(yùn)動(dòng)目標(biāo)翅膀區(qū)域圖像特征提取示意圖與對(duì)應(yīng)模型光流計(jì)算結(jié)果.從圖1(a)、圖1(b) 中可以看出,標(biāo)準(zhǔn)卷積相對(duì)變形卷積捕獲了更多非目標(biāo)的像素點(diǎn)信息,而變形卷積通過(guò)擬合翅膀區(qū)域形狀捕獲了更加準(zhǔn)確的圖像特征,特別是邊緣區(qū)域更貼近真實(shí)圖像邊緣.圖1(c)和圖1(d) 分別展示了使用兩種卷積提取特征后的模型光流計(jì)算結(jié)果,圖中右上角為光流真實(shí)值.從圖中可以看出,在運(yùn)動(dòng)目標(biāo)的翅膀區(qū)域,使用變形卷積提取特征的光流計(jì)算結(jié)果與真實(shí)值更加接近且未出現(xiàn)中斷.而使用標(biāo)準(zhǔn)卷積的光流計(jì)算結(jié)果在翅膀區(qū)域與真實(shí)值存在較大差異且存在明顯的中斷.說(shuō)明變形卷積通過(guò)擬合翅膀區(qū)域形狀捕獲更加準(zhǔn)確的圖像特征信息,對(duì)提高光流計(jì)算的精度具有較好的促進(jìn)作用.
圖1 標(biāo)準(zhǔn)卷積與變形卷積圖像特征提取示意圖與對(duì)應(yīng)模型光流計(jì)算結(jié)果Fig.1 Schematic diagram of standard convolution and deformed convolution image feature extraction and corresponding model optical flow estimation results
圖2 展示了本文所提的多尺度變形卷積特征提取網(wǎng)絡(luò)結(jié)構(gòu)示意圖.從圖中可以看出,在輸入原始圖像序列后,首先使用標(biāo)準(zhǔn)卷積獲取稠密的初始圖像特征,該步驟一定程度起到圖像預(yù)處理作用.然后,使用不同尺度的變形卷積對(duì)稠密的初始圖像特征進(jìn)行細(xì)化,以提取不同尺寸的目標(biāo)特征信息.其中,變形卷積特征提取網(wǎng)絡(luò)包含3 條并行的分支,每條分支均包含1 個(gè)變形卷積層.且變形卷積核尺寸分別為 3×3、5×5和 7×7,每條分支的輸出均為12 通道的特征圖.最后,對(duì)每個(gè)變形卷積提取的特征使用 3×3 標(biāo)準(zhǔn)卷積,并通過(guò)1 個(gè)標(biāo)準(zhǔn) 3×3 卷積層將每條分支的輸出特征圖進(jìn)行通道拼接,以聚合所有分支捕獲的圖像特征信息.由于在連續(xù)幀的圖像序列中,即使是相同運(yùn)動(dòng)目標(biāo),它的大小和形狀也有可能不同.因此,本文通過(guò)引入變形卷積使卷積層的感受野可以靈活改變,以適合運(yùn)動(dòng)目標(biāo)不同的大小和形狀,從而獲取不同范圍內(nèi)不同尺度的圖像特征信息.
圖2 多尺度變形卷積特征提取網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.2 Schematic diagram of multi-scale deformed convolution feature extraction network structure
在圖2 中虛線方框區(qū)域,本文先使用變形卷積再使用標(biāo)準(zhǔn)卷積的原因有兩方面:一方面,盡管變形卷積對(duì)目標(biāo)有更好的適應(yīng)性,但是在多尺度特征提取網(wǎng)絡(luò)模型中,隨著圖像尺度的減小,圖像中目標(biāo)的形態(tài)輪廓信息逐漸損失變得模糊.此時(shí)變形卷積難以準(zhǔn)確地?cái)M合不同尺寸和形狀的目標(biāo),并且隨著擬合精度的下降還會(huì)引入大量噪聲與異常值.因此,為了緩解進(jìn)而改善該問(wèn)題,本文在變形卷積之后對(duì)應(yīng)增加了 3×3 標(biāo)準(zhǔn)卷積操作,其作用是在提高低分辨率特征提取精度的同時(shí)進(jìn)行濾波以去除提取特征中的噪聲與異常值.另一方面,變形卷積由于具有擬合不同尺寸和形狀的目標(biāo)的特性,因此,變形卷積相對(duì)傳統(tǒng)卷積包含更多的參數(shù).如果單一使用變形卷積構(gòu)建多尺度特征提取模型將大幅增加模型尺寸,訓(xùn)練參數(shù)也將大幅增加,導(dǎo)致模型訓(xùn)練困難,難以收斂擬合.
將上述過(guò)程公式化:令Fin表示多尺度變形卷積特征提取網(wǎng)絡(luò)的輸入,多尺度變形卷積特征提取網(wǎng)絡(luò)的3 條平行分支的輸出計(jì)算公式可以表示為
式 (1) 中,F1,F2,F3分別代表第1、2、3 條分支的輸出,運(yùn)算符號(hào) C onv1,C onv2,C onv3代表第1、2、3條分支的標(biāo)準(zhǔn)卷積運(yùn)算,運(yùn)算符號(hào) D econv1,D econv2,Deconv3代表第1、2、3 條分支對(duì)應(yīng)的變形卷積運(yùn)算,運(yùn)算符號(hào) C onv 代表3 條并行分支之前的標(biāo)準(zhǔn)卷積運(yùn)算.將各條分支的輸出特征拼接起來(lái)進(jìn)行信息聚合,多尺度變形卷積特征提取網(wǎng)絡(luò)的最終輸出可以表示為
式(2)中,C onvf是一個(gè) 3×3 標(biāo)準(zhǔn)卷積,代表最終聚合信息的卷積操作,c oncatenate 是通道拼接操作.圖3 展示了本文方法特征提取結(jié)果與僅使用標(biāo)準(zhǔn)卷積特征提取結(jié)果的可視化對(duì)比,其中,標(biāo)簽A、B、C 分別對(duì)應(yīng)運(yùn)動(dòng)目標(biāo)不同的三個(gè)邊緣區(qū)域.從圖3(e)中可以看出,僅使用標(biāo)準(zhǔn)卷積構(gòu)建的多尺度特征提取網(wǎng)絡(luò)模型,所獲取的圖像特征在邊緣區(qū)域明顯模糊,且異常值較多.而本文所提的多尺度變形卷積特征提取網(wǎng)絡(luò)獲取的圖像特征在邊緣區(qū)域更為清晰,異常值與噪聲也較少,并且獲取的圖像特征值更大.
圖3 本文方法特征提取與標(biāo)準(zhǔn)卷積特征提取結(jié)果可視化對(duì)比Fig.3 Visual comparison of feature extraction results of the method in this paper and standard convolution feature extraction results
本文將多尺度變形卷積特征提取網(wǎng)絡(luò)與特征金字塔光流計(jì)算網(wǎng)絡(luò)耦合,構(gòu)建基于多尺度變形卷積的特征金字塔光流計(jì)算模型,以實(shí)現(xiàn)高精度的光流計(jì)算.圖4 展示了本文提出的基于多尺度變形卷積的特征金字塔光流計(jì)算網(wǎng)絡(luò)模型.從圖中可以看出,網(wǎng)絡(luò)模型主要由編碼器網(wǎng)絡(luò)與解碼器網(wǎng)絡(luò)組成.其中,編碼器網(wǎng)絡(luò)由基于多尺度變形卷積的特征提取網(wǎng)絡(luò)和編碼器組成.解碼器網(wǎng)絡(luò)由解碼器和上下文信息聚合網(wǎng)絡(luò)組成.在光流計(jì)算過(guò)程中,首先將連續(xù)兩幀圖像輸入多尺度變形卷積特征提取網(wǎng)絡(luò)進(jìn)行圖像特征提取,然后將獲取的圖像特征輸入下采樣因子為0.5 的編碼器進(jìn)行更加細(xì)化的特征提取.最后,從最小分辨率特征圖所在的金字塔頂層計(jì)算相關(guān)度,并將相關(guān)度輸入解碼器計(jì)算光流.
圖4 基于多尺度變形卷積的特征金字塔光流計(jì)算網(wǎng)絡(luò)模型Fig.4 Feature pyramid optical flow computing network model based on multi-scale deformed convolution
在金字塔的每一層,本文首先計(jì)算第一幀圖像特征圖與第二幀經(jīng)上一層光流變形后的特征圖的相關(guān)度,然后通過(guò)光流解碼器計(jì)算該層的光流,并使用上下文網(wǎng)絡(luò)進(jìn)行優(yōu)化.該層光流經(jīng)過(guò)上采樣后作為初始光流送入金字塔下一層,進(jìn)行下一層的光流計(jì)算.經(jīng)過(guò)對(duì)應(yīng)特征金字塔層數(shù)的迭代后,模型將輸出原分辨率1/4 大小的光流計(jì)算結(jié)果,最后通過(guò)插值上采樣運(yùn)算,將光流計(jì)算結(jié)果恢復(fù)為輸入圖像的原始分辨率.
在實(shí)際計(jì)算過(guò)程中,本文只在分辨率最大的底部?jī)蓪邮褂昧硕喑叨茸冃尉矸e特征提取網(wǎng)絡(luò).這是因?yàn)樽冃尉矸e改變感受野是通過(guò)偏置因數(shù)來(lái)實(shí)現(xiàn)的,偏置因數(shù)對(duì)運(yùn)動(dòng)目標(biāo)的輪廓較為敏感,而下采樣操作會(huì)丟失圖像中大量的空間信息,使得運(yùn)動(dòng)目標(biāo)輪廓會(huì)變得模糊,甚至丟失.圖5 展示了不同層數(shù)多尺度變形卷積對(duì)光流計(jì)算在運(yùn)動(dòng)邊緣的影響.圖中標(biāo)簽區(qū)域?yàn)檫吘壿喞獏^(qū)域與其對(duì)應(yīng)放大圖.從圖中可以看出,使用4 層多尺度變形卷積模型與使用2 層多尺度變形卷積模型相比,其光流計(jì)算結(jié)果在標(biāo)簽區(qū)域中的手部存在明顯的模糊與邊緣擴(kuò)張,手指邊緣輪廓計(jì)算效果明顯低于使用2 層多尺度變形卷積模型的光流計(jì)算效果.因此,本文只在分辨率最大的底部?jī)蓪邮褂?以發(fā)揮多尺度變形卷積特征提取的能力,提高運(yùn)動(dòng)邊緣處光流計(jì)算精度.
圖5 不同層數(shù)多尺度變形卷積模型光流計(jì)算結(jié)果對(duì)比Fig.5 Comparison of optical flow calculation results of multi-scale deformed convolution models with different layers
現(xiàn)階段,大部分深度學(xué)習(xí)光流計(jì)算網(wǎng)絡(luò)模型的損失函數(shù)由端點(diǎn)誤差函數(shù)構(gòu)成.由于端點(diǎn)誤差損失函數(shù)更關(guān)注光流計(jì)算的整體效果,難以對(duì)運(yùn)動(dòng)邊緣區(qū)域進(jìn)行引導(dǎo)訓(xùn)練,導(dǎo)致光流計(jì)算結(jié)果易產(chǎn)生邊緣模糊現(xiàn)象.為了約束運(yùn)動(dòng)邊緣處光流計(jì)算,本文設(shè)計(jì)了一種結(jié)合圖像與運(yùn)動(dòng)邊緣約束的混合損失函數(shù),該損失函數(shù)由端點(diǎn)誤差損失、數(shù)據(jù)項(xiàng)損失以及根據(jù)圖像與運(yùn)動(dòng)邊緣控制光流擴(kuò)散方式的正則化項(xiàng)共同組成.計(jì)算公式如下
式 (3) 中,Lepe代表端點(diǎn)誤差,Ldata代表數(shù)據(jù)項(xiàng)損失,Lsmooth代表正則化項(xiàng) (平滑項(xiàng)).端點(diǎn)誤差的計(jì)算公式如下
式 (4) 中,Flowout(x,y)和Flowgt(x,y) 分別代表光流計(jì)算值和真實(shí)值在像素點(diǎn)坐標(biāo) (x,y)T處的值,|·|2代表L2范數(shù)運(yùn)算.f(x,y) 是一種廣義的魯棒 Charbonnier 懲罰函數(shù),主要作用是懲罰異常值,計(jì)算公式如下
為了使懲罰函數(shù)能夠發(fā)揮最佳性能,本文依據(jù)文獻(xiàn)[22]的參數(shù)設(shè)置方法,將參數(shù)ε和κ分別設(shè)置為ε=0.001,κ=0.4.
數(shù)據(jù)項(xiàng)損失計(jì)算公式如下
式 (6) 中,X=(x,y)T表示在圖像區(qū)域 Ω 中的像素點(diǎn)坐標(biāo),I(X+F lowgt(X),t+1) 代表使用真實(shí)光流值變形的第二幀圖像在像素點(diǎn)X處的亮度值.I(X+F lowout(X),t+1)代表使用計(jì)算光流值變形的第二幀圖像在像素點(diǎn)X處的亮度值.真實(shí)光流與計(jì)算光流變形第二幀圖像時(shí),通常會(huì)在錯(cuò)誤的光流計(jì)算區(qū)域出現(xiàn)較大差別,因而使用數(shù)據(jù)損失的目的是對(duì)錯(cuò)誤的大位移運(yùn)動(dòng)區(qū)域進(jìn)行二次監(jiān)督,以提高模型的光流計(jì)算精度.
正則化項(xiàng)計(jì)算公式如下
式 (7) 中,?d表示在d方向上進(jìn)行求導(dǎo),α是控制光流平滑的邊緣系數(shù),I(t) 是第一幀圖像的亮度值.正則化項(xiàng)通過(guò)控制光流的擴(kuò)散形式保護(hù)運(yùn)動(dòng)邊緣,當(dāng)運(yùn)動(dòng)邊緣處的圖像導(dǎo)數(shù)較大時(shí)使 e-α|?dI(t)|變小,以減少光流擴(kuò)散,從而保護(hù)運(yùn)動(dòng)邊緣.當(dāng)運(yùn)動(dòng)邊緣處的圖像導(dǎo)數(shù)較小時(shí)使 e-α|?dI(t)|變大,以增加光流擴(kuò)散程度,保護(hù)背景光流.通過(guò)將該正則化項(xiàng)與端點(diǎn)誤差損失、數(shù)據(jù)項(xiàng)損失聯(lián)合指導(dǎo)光流計(jì)算模型訓(xùn)練,使模型學(xué)習(xí)到更加精準(zhǔn)的邊緣信息.
圖6 展示了使用不同損失函數(shù)對(duì)模型訓(xùn)練的影響.從圖中可以看出,使用數(shù)據(jù)項(xiàng)與平滑項(xiàng)作為損失函數(shù)訓(xùn)練模型,可以引導(dǎo)模型收斂但模型收斂速度較慢,收斂效果不佳.其原因在于數(shù)據(jù)項(xiàng)與平滑項(xiàng)組成的損失函數(shù)參考了變分光流能量泛函的設(shè)計(jì),其在最小化過(guò)程中需要一定的迭代計(jì)算且易陷入局部最優(yōu),因而收斂速度較慢,收斂效果也相對(duì)較差.使用端點(diǎn)誤差損失函數(shù)訓(xùn)練模型,模型收斂速度和收斂效果優(yōu)于數(shù)據(jù)項(xiàng)與平滑項(xiàng)損失函數(shù).其原因是端點(diǎn)誤差損失本質(zhì)上就是求解計(jì)算值與真實(shí)值之間的最小誤差,其計(jì)算過(guò)程簡(jiǎn)單、耗時(shí)較少且又有真實(shí)值作為參考,所以收斂效果優(yōu)于前者.使用本文所提的混合損失函數(shù)訓(xùn)練模型,模型整體不僅收斂速度較快,而且收斂效果也明顯優(yōu)于前兩種損失函數(shù).因此,通過(guò)將端點(diǎn)誤差損失、數(shù)據(jù)項(xiàng)損失與平滑項(xiàng)損失結(jié)合,既可以加快模型收斂速度又可以提高模型訓(xùn)練效果.
圖6 不同損失函數(shù)訓(xùn)練模型Fig.6 Training models with different loss functions
為了展示混合損失函數(shù)不同組成部分對(duì)邊緣區(qū)域的保護(hù)效果,圖7 展示了不同損失函數(shù)訓(xùn)練模型后的光流計(jì)算結(jié)果可視化對(duì)比.其中,圖中第二行為第一行圖像標(biāo)簽區(qū)域的局部放大圖.從圖中可以看出,使用數(shù)據(jù)項(xiàng)與平滑項(xiàng)損失函數(shù)訓(xùn)練后的模型光流計(jì)算結(jié)果可以計(jì)算出目標(biāo)的完整輪廓與邊緣,但結(jié)果中包含較多異常值且存在明顯的模糊現(xiàn)象.使用端點(diǎn)誤差損失函數(shù)訓(xùn)練后的模型光流計(jì)算精度相對(duì)較高,但仍然存在較為明顯的邊緣模糊,例如圖7(d) 中的A 區(qū)域.而使用混合損失函數(shù)訓(xùn)練后的模型光流計(jì)算結(jié)果達(dá)到了最佳的光流估計(jì)效果,特別在標(biāo)簽區(qū)域的邊緣,既消除了異常值又實(shí)現(xiàn)了高精度的邊緣保護(hù).說(shuō)明將端點(diǎn)誤差損失、數(shù)據(jù)項(xiàng)損失與平滑項(xiàng)損失結(jié)合用于模型訓(xùn)練,不僅可以加快模型收斂速度,還可以學(xué)習(xí)到更多邊緣信息.
圖7 不同損失函數(shù)訓(xùn)練模型后的光流計(jì)算結(jié)果可視化對(duì)比Fig.7 Visual comparison of optical flow calculation results after training models with different loss functions
實(shí)驗(yàn)采用當(dāng)前光流計(jì)算技術(shù)研究領(lǐng)域內(nèi)具有權(quán)威性的 MPI-Sintel[23]與 KITTI2015[24]測(cè)試圖像數(shù)據(jù)集進(jìn)行算法性能測(cè)試.分別采用端點(diǎn)誤差和異常值百分比兩種量化評(píng)價(jià)指標(biāo)對(duì)本文方法光流計(jì)算的準(zhǔn)確性和魯棒性進(jìn)行量化評(píng)價(jià).其中,端點(diǎn)誤差是光流計(jì)算領(lǐng)域評(píng)價(jià)光流精度最常用的一種指標(biāo),表示的含義是計(jì)算光流與真實(shí)光流的幾何距離誤差.其計(jì)算公式如下
上式中,N是整張圖像中總的像素點(diǎn)數(shù)量,ugt是水平方向上的真實(shí)光流值,uout是水平方向上的計(jì)算光流值,vgt是垂直方向上的真實(shí)光流值,vout是垂直方向上的計(jì)算光流值.
異常值百分比指標(biāo)常用于 KITTI2015 測(cè)試圖像數(shù)據(jù)集的光流計(jì)算結(jié)果評(píng)價(jià),計(jì)算公式如下
式中,N是整張圖像中總的像素點(diǎn)數(shù)量,Fl表示光流異常值百分比,P(EPE >τ) 表示光流端點(diǎn)誤差大于τ的像素點(diǎn),其中τ=3.
為了驗(yàn)證本文方法光流計(jì)算精度和邊緣保護(hù)效果,分別選取具有代表性的 FlowNet 2.0[15]、PWCNet[16]、IRR-PWC_RVC[19]、FastFlowNet[25]、Lite-FlowNet[26]、FlowNet3[27]、Semantic_Lattice[28]、OAS-Net[29]、LSM_RVC[30]以及 FDFlowNet[31]等深度學(xué)習(xí)光流計(jì)算方法進(jìn)行綜合對(duì)比分析.其中,FlowNet 2.0 通過(guò)堆疊多個(gè) FlowNet 結(jié)構(gòu)提高網(wǎng)絡(luò)深度,成為首個(gè)超越傳統(tǒng)變分光流計(jì)算精度的深度學(xué)習(xí)光流計(jì)算方法.PWC-Net 通過(guò)將特征金字塔、變形操作以及成本體積代價(jià)集成于統(tǒng)一框架,在簡(jiǎn)化網(wǎng)絡(luò)結(jié)構(gòu)減少訓(xùn)練參數(shù)的同時(shí)顯著提升了光流計(jì)算精度.IRR-PWC_RVC 是首個(gè)采用遮擋真實(shí)值計(jì)算遮擋掩膜來(lái)提高遮擋區(qū)域光流計(jì)算精度的方法.FastFlowNet 采用新的增強(qiáng)池化金字塔特征提取器增強(qiáng)高分辨率金字塔特征,并引入中心密集擴(kuò)張相關(guān)層構(gòu)建緊湊的代價(jià)量,在保持精度的同時(shí)極大地提升了光流計(jì)算速度.LiteFlowNet 通過(guò)使用短程匹配產(chǎn)生一個(gè)光流場(chǎng)對(duì)原始光流場(chǎng)進(jìn)行優(yōu)化,提高了大位移運(yùn)動(dòng)區(qū)域的光流計(jì)算精度.FlowNet3 將遮擋、光流和視差進(jìn)行聯(lián)合學(xué)習(xí),提出了一種有效的可學(xué)習(xí)的遮擋區(qū)域計(jì)算方法,不僅大幅提高光流計(jì)算精度也有效保護(hù)了運(yùn)動(dòng)邊緣.Semantic_Lattice 定義了一種廣義的卷積方式,并將這種廣義的卷積方式應(yīng)用到解碼器中減少邊緣偽影,保護(hù)光流的運(yùn)動(dòng)邊緣.OAS-Net 提出了一個(gè)新的遮擋感知采樣模塊,抑制噪聲對(duì)遮擋區(qū)域的影響,從而提高遮擋區(qū)域的光流計(jì)算精度,以實(shí)現(xiàn)光流運(yùn)動(dòng)邊緣保護(hù).LSM_RVC 提出了學(xué)習(xí)子空間最小化框架,利用卷積神經(jīng)網(wǎng)絡(luò)生成一個(gè)子空間約束取代正則化項(xiàng),增強(qiáng)了網(wǎng)絡(luò)模型的泛化能力.FDFlowNet 使用 U 形網(wǎng)絡(luò)融合特征代替原有的金字塔特征,并提出一種新的局部全連接結(jié)構(gòu),平衡了模型的尺寸、計(jì)算成本和網(wǎng)絡(luò)性能,顯著提升了光流計(jì)算精度與速度.
MPI-Sintel[22]測(cè)試圖像數(shù)據(jù)集是一種開(kāi)源的合成光流數(shù)據(jù)集,包含了大位移、運(yùn)動(dòng)遮擋以及非剛性大形變等困難場(chǎng)景.該測(cè)試集分為 Clean和 Final兩個(gè)數(shù)據(jù)集,其中 Final 數(shù)據(jù)集相對(duì) Clean 數(shù)據(jù)集包含了大量的運(yùn)動(dòng)模糊、光照變化以及大氣效果等挑戰(zhàn)性元素,光流計(jì)算難度較大.表1 展示了本文方法與對(duì)比方法針對(duì) MPI-Sintel 測(cè)試圖像數(shù)據(jù)集的光流計(jì)算結(jié)果.其中,All 代表所有像素點(diǎn)的平均端點(diǎn)誤差,Matched 代表圖像序列中非遮擋像素點(diǎn)的端點(diǎn)誤差,Unmatched 代表圖像序列中遮擋像素點(diǎn)的端點(diǎn)誤差.
從表1 可以看出,本文方法在 Clean和 Final子數(shù)據(jù)集的 All和 Matched 指標(biāo)上均取得了最優(yōu)表現(xiàn),IRR-PWC_RVC 在 Unmatched 指標(biāo)取得最佳的光流計(jì)算精度.OAS-Net 方法在 Clean 數(shù)據(jù)集的光流估計(jì)精度除低于本文方法外,整體性能優(yōu)于其他對(duì)比方法,這源于該模型的遮擋感知采樣模塊既抑制了噪聲又提高了遮擋區(qū)域的光流估計(jì)精度.在 Final 數(shù)據(jù)集上,IRR-PWC_RVC 方法的光流計(jì)算精度與本文方法接近,主要原因是 IRRPWC_RVC 方法在圖像特征提取骨干網(wǎng)絡(luò)中引入遮擋檢測(cè)模塊,通過(guò)在特征提取的過(guò)程中加入遮擋信息以補(bǔ)償運(yùn)動(dòng)遮擋產(chǎn)生的信息丟失,進(jìn)而提高圖像特征提取精度.此外,該方法在端點(diǎn)誤差損失函數(shù)的基礎(chǔ)上設(shè)計(jì)了一種包含遮擋損失項(xiàng)的復(fù)合損失函數(shù),使得遮擋信息能夠引導(dǎo)模型得到充分訓(xùn)練.本文方法通過(guò)構(gòu)建多尺度變形卷積圖像特征提取模型,并設(shè)計(jì)包含邊緣結(jié)構(gòu)信息的混合損失函數(shù),使得光流估計(jì)模型的特征提取精度與邊緣保護(hù)效果得到有效改善.二者的相同點(diǎn)在于都遵循了相似的網(wǎng)絡(luò)模型設(shè)計(jì)思路,通過(guò)提高圖像特征提取精度和利用率的方式實(shí)現(xiàn)高精度光流估計(jì).區(qū)別在于本文方法側(cè)重于光流邊緣結(jié)構(gòu)的保護(hù),而 IRR-PWC_RVC方法關(guān)注于遮擋區(qū)域光流信息的獲取.因此,雖然本文方法與 IRR-PWC_RVC 方法的光流估計(jì)精度相近,但兩種方法提高光流估計(jì)性能的具體方式和側(cè)重點(diǎn)具有很大區(qū)別.
表1 MPI-Sintel 數(shù)據(jù)集圖像序列光流計(jì)算結(jié)果Table 1 Optical flow calculation results of image sequences in MPI-Sintel dataset
上述指標(biāo)從宏觀角度對(duì)比了各方法光流計(jì)算性能,為了更加細(xì)化地對(duì)各方法光流計(jì)算效果進(jìn)行對(duì)比分析,本文使用 MPI-Sintel 測(cè)試圖像數(shù)據(jù)集提供的 d0-10,d10-60,d60-140以及 s0-10,s10-40,s40+指標(biāo)進(jìn)行量化對(duì)比分析.其中,d0-10,d10-60,d60-140代表距離運(yùn)動(dòng)邊緣不同距離像素點(diǎn)的端點(diǎn)誤差,s0-10,s10-40,s40+代表不同位移速度像素點(diǎn)的端點(diǎn)誤差.實(shí)驗(yàn)結(jié)果如表2 所示,從表2 可以看出,針對(duì) Clean 子數(shù)據(jù)集,本文方法在 d0-10,d10-60,d60-140等衡量運(yùn)動(dòng)邊緣光流計(jì)算效果的指標(biāo)上取得了最佳的光流計(jì)算精度.在挑戰(zhàn)性較大的 Final數(shù)據(jù)集,本文方法在 d0-10,d10-60,d60-140指標(biāo)上的整體性能仍然優(yōu)于其他對(duì)比算法.說(shuō)明本文方法在運(yùn)動(dòng)邊緣區(qū)域具有較高的光流計(jì)算精度與魯棒性.此外,在 Clean 數(shù)據(jù)集的 s10-40,s40+指標(biāo)和Final 數(shù)據(jù)集的 s10-40指標(biāo)也顯著優(yōu)于對(duì)比方法,說(shuō)明本文方法針對(duì)大位移運(yùn)動(dòng)場(chǎng)景也具有較高的光流計(jì)算精度.但在 s0-10指標(biāo)上,本文方法未取得最優(yōu)的光流計(jì)算精度,這說(shuō)明在小位移運(yùn)動(dòng)光流計(jì)算方面,本文方法仍然存在一定限制.此外,在具有挑戰(zhàn)性的 Final 數(shù)據(jù)集,本文方法在 d60-140和 s40+指標(biāo)存在一定性能下降,產(chǎn)生該現(xiàn)象的原因可能是圖像序列中的運(yùn)動(dòng)模糊效果導(dǎo)致本文方法難以捕捉更加精準(zhǔn)的像素運(yùn)動(dòng)信息.
表2 MPI-Sintel 數(shù)據(jù)集運(yùn)動(dòng)邊緣與大位移指標(biāo)對(duì)比結(jié)果Table 2 Comparison results of motion edge and large displacement index in MPI-Sintel dataset
為進(jìn)一步定性對(duì)比分析本文方法光流計(jì)算效果,本文分別選取如圖8 所示的圖像序列進(jìn)行光流結(jié)果可視化展示.其中方框區(qū)域?yàn)榈湫偷倪\(yùn)動(dòng)邊緣區(qū)域,并且為了便于觀察對(duì)比,本文對(duì)該區(qū)域進(jìn)行局部放大.從圖中可以看出,FlowNet 2.0 光流計(jì)算結(jié)果在運(yùn)動(dòng)邊緣區(qū)域呈現(xiàn)過(guò)度平滑,這是因?yàn)镕lowNet 2.0 堆疊了多個(gè)包含大量標(biāo)準(zhǔn)卷積操作的FlowNet 結(jié)構(gòu)所致;PWC-Net 光流計(jì)算結(jié)果存在明顯邊緣擴(kuò)張;OSA-Net 光流計(jì)算精度較高,但在Bamboo3 人物身體和 Market4 龍的尾部區(qū)域光流計(jì)算存在明顯的錯(cuò)誤估計(jì);IRR-PWC_RVC 方法在標(biāo)簽區(qū)域存在明顯信息丟失.與各對(duì)比方法相比,本文方法光流計(jì)算精度最優(yōu),特別在 Ambush3 標(biāo)簽區(qū)域、Bamboo3 人物的身體區(qū)域、Cave3 龍角處、Market1 人腿部區(qū)域和 Market4 龍的尾部區(qū)域,本文方法不僅更加準(zhǔn)確地計(jì)算出上述區(qū)域光流信息,而且還有效緩解了運(yùn)動(dòng)邊緣模糊問(wèn)題.
圖8 MPI-Sintel 數(shù)據(jù)集光流結(jié)果可視化對(duì)比圖Fig.8 Visualization comparison of optical flow results in MPI-Sintel dataset
KITTI2015[23]測(cè)試圖像數(shù)據(jù)集是包含大量真實(shí)道路場(chǎng)景的數(shù)據(jù)集,其主要用于測(cè)試算法針對(duì)真實(shí)場(chǎng)景任務(wù)時(shí)光流計(jì)算的準(zhǔn)確性與魯棒性.因此,對(duì)算法的性能要求較高,挑戰(zhàn)性更大.表3 展示了本文方法與對(duì)比方法針對(duì) KITTI2015 數(shù)據(jù)集圖像序列光流計(jì)算異常值百分比結(jié)果對(duì)比.表中 Fl-bg代表圖像中背景光流異常值百分比,Fl-fg 代表圖像中前景光流異常值百分比,Fl-all 代表圖像中平均光流異常值百分比.從表3 可以看出,FlowNet 2.0光流計(jì)算精度最低,說(shuō)明僅通過(guò)堆疊網(wǎng)絡(luò)提高模型深度方式,難以應(yīng)對(duì)真實(shí)復(fù)雜場(chǎng)景光流計(jì)算的需求.LSM_RVC 光流計(jì)算精度與本方法較為接近,但在Fl-fg 指標(biāo)誤差明顯高于本文方法.相對(duì)于其他方法,本文方法整體光流計(jì)算精度較高,僅 Fl-fg 指標(biāo)略低于對(duì)比方法,產(chǎn)生該現(xiàn)象的原因是真實(shí)場(chǎng)景包含較為強(qiáng)烈的光照變化與陰影等情況,使得運(yùn)動(dòng)目標(biāo)輪廓信息發(fā)生一定變化,致使本文方法所使用的變形卷積在擬合目標(biāo)形態(tài)時(shí)產(chǎn)生一定的偏差.為了驗(yàn)證本文方法針對(duì)真實(shí)場(chǎng)景圖像序列光流計(jì)算在運(yùn)動(dòng)邊緣區(qū)域的保護(hù)效果,選取 KITTI2015 數(shù)據(jù)集中具有代表性的4 幀連續(xù)圖像序列對(duì)本文方法和對(duì)比方法進(jìn)行綜合對(duì)比.
表3 KITTI2015 數(shù)據(jù)集計(jì)算結(jié)果Table 3 Calculation results in KITTI2015 dataset
圖9 展示了本文方法與各對(duì)比方法針對(duì)測(cè)試圖像序列的光流計(jì)算誤差可視化對(duì)比,標(biāo)簽區(qū)域?yàn)檫\(yùn)動(dòng)邊緣區(qū)域.為了更好地觀察圖中各對(duì)比方法在運(yùn)動(dòng)邊緣區(qū)域光流計(jì)算效果,本文對(duì)標(biāo)簽區(qū)域進(jìn)行了局部放大.從圖中可以看出,在光照不足且邊緣輪廓信息缺乏的 KITTI15_000000 序列,本文方法取得了最佳的光流計(jì)算效果,在汽車邊緣輪廓區(qū)域異常值面積占比最小.在 KITTI15_000005 序列,本文方法在左側(cè)汽車頂部區(qū)域光流計(jì)算效果較好,FlowNet3 在右側(cè)白色背景區(qū)域取得了最佳的光流計(jì)算效果,說(shuō)明本文方法針對(duì)缺乏紋理信息的場(chǎng)景光流計(jì)算存在一定限制.在包含大位移運(yùn)動(dòng)的KITTI15_000006和 KITTI15_000014 序列,本文方法取得了最佳的光流計(jì)算精度,特別在汽車邊緣輪廓區(qū)域包含了較少的異常值.說(shuō)明在真實(shí)場(chǎng)景光流計(jì)算中,本文方法仍然能夠表現(xiàn)出較高的光流計(jì)算準(zhǔn)確性,且對(duì)運(yùn)動(dòng)邊緣具有較好的保護(hù)效果.
圖9 KITTI2015 數(shù)據(jù)集光流誤差結(jié)果對(duì)比圖Fig.9 Comparison of optical flow error results in KITTI2015 dataset
表3 列出了本文方法與對(duì)比方法在 KITTI2015數(shù)據(jù)集的平均光流計(jì)算時(shí)間.從表3 中可以看出,FDFlowNet 方法的計(jì)算效率最高,本文方法提出的多尺度變形卷積特征提取網(wǎng)絡(luò)由于使用了較多變形卷積操作,因此時(shí)間消耗相對(duì)較長(zhǎng).在基于深度學(xué)習(xí)的光流計(jì)算中,隨著網(wǎng)絡(luò)復(fù)雜度和參數(shù)量的增加,光流估計(jì)模型往往犧牲計(jì)算效率換取光流計(jì)算精度的提高,而本文方法在不大幅增加時(shí)間消耗的基礎(chǔ)上顯著提升了光流計(jì)算精度,綜合性能較優(yōu).
為了進(jìn)一步分析本文提出的多尺度變形卷積特征提取網(wǎng)絡(luò)模型和混合損失函數(shù)對(duì)光流計(jì)算性能提升的作用,本文采用消融實(shí)驗(yàn)進(jìn)行綜合對(duì)比分析.實(shí)驗(yàn)采用 MPI-Sintel 數(shù)據(jù)集中的 Clean 子數(shù)據(jù)集對(duì)各消融實(shí)驗(yàn)?zāi)P瓦M(jìn)行測(cè)試對(duì)比分析,各消融實(shí)驗(yàn)?zāi)P蛯?shí)驗(yàn)數(shù)據(jù)結(jié)果如表4 所示.其中,baseline 為基準(zhǔn)模型,baseline_loss 為基準(zhǔn)模型加混合損失函數(shù)模型,baseline_md 為基準(zhǔn)模型加多尺度變形卷積特征提取網(wǎng)絡(luò)模型,full model 是基準(zhǔn)模型加上混合損失函數(shù)和多尺度變形卷積特征提取網(wǎng)絡(luò)模型.從表4 可以看出,相比于單獨(dú)去除多尺度變形卷積特征提取網(wǎng)絡(luò)的 baseline_loss 模型和單獨(dú)去除邊緣損失函數(shù)的 baseline_md 模型,全模型在Clean 數(shù)據(jù)集的所有指標(biāo)上取得了最好的光流計(jì)算效果.并且從 d0-10,d10-60,d60-140運(yùn)動(dòng)邊緣指標(biāo)可以看出,通過(guò)分別增加多尺度變形卷積特征提取網(wǎng)絡(luò)和混合損失函數(shù),可以有效提升光流運(yùn)動(dòng)邊緣計(jì)算精度.當(dāng)多尺度變形卷積特征提取網(wǎng)絡(luò)與混合損失函數(shù)共同作用時(shí),可以顯著提高網(wǎng)絡(luò)光流計(jì)算精度,二者的協(xié)同作用進(jìn)一步提升了 d60-140指標(biāo)精度.這進(jìn)一步說(shuō)明,本文所提方法各模塊可以有效提高網(wǎng)絡(luò)的光流計(jì)算精度,保護(hù)運(yùn)動(dòng)邊緣.此外,從baseline_loss 模型數(shù)據(jù)可以看出,在全模型之外,該模型得到了最高的光流計(jì)算精度.反映出本文提出的混合損失函數(shù)對(duì)模型光流計(jì)算精度的提升具有明顯的積極作用.
表4 MPI-Sintel 數(shù)據(jù)集上消融實(shí)驗(yàn)結(jié)果對(duì)比Table 4 Comparison of ablation experiment results in MPI-Sintel dataset
同樣,為了更直觀地展示各模塊的工作性能,同時(shí),定性分析本文提出的模型各組成模塊對(duì)光流計(jì)算運(yùn)動(dòng)邊緣的保護(hù)效果.本文將消融實(shí)驗(yàn)中各模型針對(duì) Cave3 序列光流計(jì)算結(jié)果進(jìn)行可視化對(duì)比,結(jié)果如圖10 所示.其中,圖10 中標(biāo)簽區(qū)域?yàn)閳D像序列場(chǎng)景中對(duì)應(yīng)的圖像與運(yùn)動(dòng)邊緣區(qū)域.從圖10中可以看出,本文方法所提各模塊在去除異常值方面均具有較好的效果,相對(duì)于 baseline 模型較為準(zhǔn)確地計(jì)算出人腿部附近區(qū)域的光流信息.同時(shí),本文提出的各模塊對(duì)于圖像與運(yùn)動(dòng)邊緣區(qū)域光流計(jì)算精度均具有明顯提升.例如,圖中龍角與人物腿部的中間區(qū)域圖像邊緣模糊現(xiàn)象得到有效抑制,并且光流估計(jì)結(jié)果邊緣結(jié)構(gòu)更加清晰.這也從側(cè)面說(shuō)明本文提出的多尺度變形卷積特征提取網(wǎng)絡(luò)可以捕獲更加準(zhǔn)確的圖像特征信息,所提出的混合損失函數(shù)能夠更好地約束運(yùn)動(dòng)邊緣區(qū)域的光流計(jì)算.
圖10 各消融模型光流計(jì)算結(jié)果可視化對(duì)比圖,第2、4 行為標(biāo)簽區(qū)域放大圖Fig.10 Visual comparison of optical flow calculation results for each ablation model,the second and fourth rows are enlarged images of the label area
本文通過(guò)構(gòu)建多尺度變形卷積特征提取網(wǎng)絡(luò)并將其與特征金字塔光流估計(jì)網(wǎng)絡(luò)模型耦合,提出了一種基于多尺度變形卷積的圖像序列光流計(jì)算方法.該方法首先通過(guò)多尺度變形卷積特征提取網(wǎng)絡(luò)獲取準(zhǔn)確的圖像特征信息.然后,設(shè)計(jì)了一種新的混合損失函數(shù),將圖像與運(yùn)動(dòng)邊緣約束正則化項(xiàng)、數(shù)據(jù)項(xiàng)損失和端點(diǎn)誤差結(jié)合,用以指導(dǎo)網(wǎng)絡(luò)模型學(xué)習(xí)更加精準(zhǔn)的圖像與運(yùn)動(dòng)邊緣信息,使損失函數(shù)可以更好地約束圖像與運(yùn)動(dòng)邊緣區(qū)域光流計(jì)算.通過(guò)大量實(shí)驗(yàn)對(duì)比分析,表明本文方法具有較高的光流計(jì)算精度,特別在運(yùn)動(dòng)邊緣區(qū)域具有較好的保護(hù)效果.