李佳田 李顯凱 李應(yīng)蕓 李果家 錢堂慧
(昆明理工大學國土資源工程學院 昆明 650093)
?
總變差一范數(shù)光流場計算綜述①
李佳田②李顯凱③李應(yīng)蕓 李果家 錢堂慧
(昆明理工大學國土資源工程學院 昆明 650093)
重點回顧與總結(jié)了計算光流場的總變差線性一范數(shù)方法,簡稱總變差一范數(shù)(TV-L1)方法。通過一致的形式化描述,將亮度守恒模型與梯度守恒模型過渡至全局平滑模型,并著重描述了模型的數(shù)值計算過程,透析計算原理與算法底層。最后給出了光流場可視化及質(zhì)量評估方法,并對總變差一范數(shù)方法中的技術(shù)難點與下一步工作進行總結(jié)。
光流場, 總變差, 數(shù)值計算, 算法, 綜述
光流場目標的運動速度在圖像上的投影[1,2],其在目標提取、圖像重建與圖像匹配等方面已有初步應(yīng)用[3-7]。光流場計算(或光流場估計)實際上是依據(jù)圖像亮度模式的變化對物體的運動進行估計,因此,解決該問題的一個切入點為:假設(shè)運動前后像素點保持亮度一致。然而,亮度一致性假設(shè)僅提供了一個約束方程來限定光流的兩個分量,不能獲取唯一解[8]。為此,Horn和Schunck(HS)、Lucas和Kanade(LK)等分別通過附加全局平滑約束[8]和多點鄰域約束[9]的方法以適定光流的解,形成了以HS算法為代表的全局法和LK算法為代表的局部法,其中全局法因能獲得稠密光流場、易于集成不同模型進行改進與獲取的光流精度高等顯著優(yōu)點而更受青睞。全局法通過數(shù)據(jù)約束和先驗約束下的總誤差構(gòu)成的能量泛函來獲取全局最優(yōu)解,通常將此類方法稱為總變差方法??傋儾罘椒ǖ膬?yōu)化技術(shù)主要分為三個方面:一是對數(shù)據(jù)模型進行改進,如利用光學不變測度或多模型結(jié)合的方法構(gòu)建數(shù)據(jù)約束;二是對平滑模型進行改進,如采用高階先驗約束、加權(quán)的先驗約束或各向異性的先驗約束等;三是總體約束誤差的表達,早期的方法采用L2范數(shù)來整合單點約束誤差,L2范數(shù)要求誤差滿足高斯分布,這在大部分真實場景中不成立。因此,提出了不同的穩(wěn)健函數(shù)來優(yōu)化誤差表達,其中L1范數(shù)因效果較好而被廣泛使用,此時,認為數(shù)據(jù)項與平滑項以線性組合方式作用于光流計算,所以稱這種方法為總變差線性一范數(shù)(total variation linearly1 norm,TV-L1),簡稱為總變差一范數(shù),它是目前最主要的光流場計算方法。
通過一致的形式化描述,本文總結(jié)了總變差一范數(shù)計算方法的基本原理與模型演變,以及透視光流計算中非線性約束下的凸優(yōu)化問題。在數(shù)值計算方法上,通過變分法最小化能量泛函把問題轉(zhuǎn)變?yōu)榉蔷€性方程組的求解,考慮到計算效率及避免陷入局部最小值,歸納了固定點迭代和金字塔結(jié)合的求解策略,使得問題最終簡化為大型稀疏線性方程組的求解。
光流場計算產(chǎn)生了多種基本假設(shè)模型,這些模型各有優(yōu)劣,如何選取合適的模型進行集成以獲取高精度光流是近年來的研究熱點??傋儾钍遣煌P瓦M行集成、優(yōu)化的強有力工具,形式如下:
EGlobal=EData+αEPrior
(1)
式中EData表示數(shù)據(jù)項,用于描述原始圖像數(shù)據(jù)隨時間的變化不滿足特定恒等關(guān)系時的誤差,由數(shù)據(jù)約束模型(如亮度守恒模型、梯度守恒模型)給出;EPrior表示先驗項,用于描述光流場變化不滿足先驗恒等關(guān)系時的誤差,由平滑約束模型給出;α>0,表示正則化參數(shù)。
1.1 數(shù)據(jù)項
1.1.1 亮度守恒假設(shè)
亮度守恒假設(shè)是光流估計的基本假設(shè),假定目標點發(fā)生位移之后像素強度或顏色值保持不變,其隱含了三個假設(shè)條件,即目標反射特性(如:假設(shè)目標表面為理想散射表面)、場景狀態(tài)(如:假設(shè)場景光照不發(fā)生變化)與圖像采集傳輸(如:假設(shè)相機成像過程不產(chǎn)生暈影)。如果以f(x, y, t)表示像點(x, y)在t時刻的像素值,以(u(x, y, t), v(x, y, t))表示光流,則亮度守恒假設(shè)可表示為
f(x, y, t)=f(x+u, y+v, t+1)
(2)
線性化式(2),即對其進行一階泰勒級數(shù)展開,則有等式
(3)
fxu+fyv+ft=0
(4)
1.1.2 懲罰函數(shù)選擇
式(2)和(4)給出了單點約束誤差,關(guān)于圖像總體誤差的表達,Horn和Schunck采用L2范數(shù)[8],則以亮度守恒假設(shè)為約束的數(shù)據(jù)項表示如下:
EData=∑x,y(fxu+fyv+ft)2
(5)
從概率分布的角度來看,采用L2范數(shù)意味著假設(shè)約束誤差滿足高斯獨立同分布,然而在多數(shù)真實場景中,尤其是在邊界發(fā)生遮擋的區(qū)域,此假設(shè)并不成立。Black和Anandan[10]使用Lorentzian懲罰函數(shù)有效地解決了這一問題。Lorentzian懲罰函數(shù)雖然具有很強的穩(wěn)健性,但因?qū)儆诜峭购瘮?shù),使得后續(xù)優(yōu)化過程變得復雜,且容易陷入局部最小值。因此,Brox[11]和Wedel[12]提出采用L1范數(shù)克服上述缺陷,并用一個基于Charbonnier函數(shù)改寫的可微函數(shù)來近似L1范數(shù)
(6)
式中E是關(guān)于單點約束誤差Ex, y的向量;‖·‖1表示L1范數(shù);是一個很小的正常數(shù)。
1.1.3 光學不變特征
亮度守恒假設(shè)是一種理想假設(shè),在自然場景中由于成像設(shè)備噪聲、光照變化、表面反射以及遮擋等原因往往會使得亮度值發(fā)生變化,尤其在某些應(yīng)用情況下這種變化十分明顯,極大違背了亮度守恒假設(shè)。早期的算法[13]主要通過對圖像進行濾波預處理來消除亮度變化的影響,但改善效果不是很明顯,后來有學者提出基于光學不變特征構(gòu)建數(shù)據(jù)項,其中梯度特征、紋理特征在算法中被廣泛應(yīng)用。此外,也有學者采用更復雜的特征,如:Liu采用尺度不變特征變換(SIFT)特征[14]、Mileva等采用基于彩色信息的光度不變量[15]。
(1) 梯度特征
圖像梯度是指像素值在時間、空間上的導數(shù),由于數(shù)字圖像是離散化的,每一個像點梯度的求解與周圍像點有著密切關(guān)系,當發(fā)生均勻光照變化時,像點強度值發(fā)生變化而梯度值不會改變,為此Brox等[11]提出了梯度守恒假設(shè),即
(7)
(2) 紋理特征
圖像可以看作是結(jié)構(gòu)部分和紋理部分的線性組合,光照變化發(fā)生后,產(chǎn)生的負面影響主要集中在結(jié)構(gòu)部分,而紋理部分幾乎不受影響[12]。因此,以圖像紋理特征作為光流計算的輸入可避免光照變化的影響。紋理特征的提取通過紋理結(jié)構(gòu)分解(structure texture decomposition,STD)完成,STD基于總變差ROF(rudin osher fatemi)去噪模型實現(xiàn)[16],對于圖像f(x),其結(jié)構(gòu)部分fs(x)的求解模型為
(8)
其中Ω表示所求圖像范圍,θ為常數(shù),模型(8)的求解采用原始對偶算法[17]。圖像紋理部分fτ(x)為原始圖像與結(jié)構(gòu)部分之差,即fτ(α, x)=f(x)-αfs(x),其中α∈(0,1),經(jīng)驗證,α取值為0.95時,平均端點誤差(Average End-point Error,AEE)最小[12]。
1.1.4 多通道圖像
在構(gòu)建數(shù)據(jù)項時,如果僅基于單通道圖像進行考慮,則數(shù)據(jù)項無法滿足多通道圖像的光流場計算,一個較簡單的解決辦法就是以各通道的總體誤差之和來表達數(shù)據(jù)項:
(9)
1.2 先驗項
由于每個像點的光流均包含了兩個分量,而式(2)或(4)僅給出一個約束方程來限定這兩個分量,即該問題是不適定的,這種現(xiàn)象被稱為“孔徑問題”[8]。因此,必須增加一個先驗項來正則化該病態(tài)問題,先驗項一般由平滑函數(shù)構(gòu)成。
1.2.1 一階先驗約束
Horn和Schunck根據(jù)有限區(qū)域內(nèi)的光流具有相同變化規(guī)律的先驗知識,提出全局平滑假設(shè)[8],并用光流場的一階導數(shù)來表示,
(10)
約束式(10)主要應(yīng)用于2幀圖像的光流估計,當應(yīng)用情況變?yōu)槎鄮蛘麄€圖像序列的光流場估計時,需要在式(10)中增加時間平滑約束,并使用單向[19]或雙向[20]時間校正技術(shù)。單向時間校正技術(shù)假設(shè)光流場隨時間是漸變的,即在先驗約束中增加時間平滑項?u/?t和?v/?t。雙向時間校正技術(shù)需要選擇中間幀作為參考進行雙向迭代校正,因此,只能在圖像幀數(shù)已知的情況下使用。
1.2.2 懲罰函數(shù)選擇
先驗項(式(10))采用了L2范數(shù)來表示先驗約束誤差,如1.1.2中所述,真實場景難以滿足L2范數(shù)的使用條件。Anandan[10]提出在先驗項中,通過引進穩(wěn)健懲罰函數(shù)來對該問題進行修正,并在算法中對數(shù)據(jù)項和先驗項運用了一致的懲罰函數(shù)。實際使用中,數(shù)據(jù)項和先驗項可不必采取一致的懲罰函數(shù)。在多樣的懲罰函數(shù)中,L1范數(shù)的懲罰函數(shù)因其顯著優(yōu)點而被廣泛使用[11,12]。
在先驗項中,懲罰函數(shù)有兩種作用方式:一是對每一項先驗約束誤差分別利用懲罰函數(shù),再將其總和作為先驗項;二是先求取所有約束誤差的平方和或絕對值之和,再對其利用懲罰函數(shù)作為先驗項。第一種方式有助于獲取更加平滑的光流場,Black和Anandan等[10]就采用了這種作用方式;第二種方式因能有效濾除異質(zhì)點而應(yīng)用更為廣泛,Brox[11]、Wedel[12]與Bruhn[19]均采用了這種方式。
1.2.3 帶權(quán)先驗約束
另一種比較常用的先驗約束是帶權(quán)的一階約束,即基于圖像梯度對L2范數(shù)的懲罰函數(shù)進行加權(quán):Eprior=∑x, yw(
(11)
其中w是關(guān)于像素梯度的權(quán)重函數(shù),在邊緣處像素梯度較大,對應(yīng)權(quán)重w(f)較小,減弱了對光流的懲罰力度,有利于保留邊緣信息。當然,權(quán)重函數(shù)也可不必基于圖像梯度,如Seitz[21]采用分段的權(quán)重函數(shù)。
1.2.4 各向異性的先驗約束
式(11)給出了一個各向同性的先驗項,其缺點是無法避免先驗約束與數(shù)據(jù)約束產(chǎn)生的相互干擾問題,應(yīng)削弱先驗約束在數(shù)據(jù)約束方向的作用力度,增強在數(shù)據(jù)約束正交方向的作用力度[1]。為此,Nagel[22]和Welberger[20]提出各向異性的平滑模型,使得先驗約束在像素梯度方向的作用力度小于像素梯度正交方向;Sun等[23]通過構(gòu)建可控隨機場,根據(jù)光流分布及圖像結(jié)構(gòu)自適應(yīng)調(diào)整約束方向;Zimmer等[18]提出不再基于像素梯度衡量方向信息,根據(jù)數(shù)據(jù)約束來考慮作用方向。
1.2.5 高階先驗約束
在弱紋理區(qū)域,光流估計存在分區(qū)域恒定現(xiàn)象[1],為此Trobin等[24]提出采用二階先驗項來懲罰分區(qū)恒定,以歐式向量范數(shù)表示如下:
‖·‖=
(12)
高階的先驗約束能產(chǎn)生相對較平滑的光流場,但在邊緣處容易產(chǎn)生過度平滑現(xiàn)象,為此,Nir等[21,25]提出采用仿射平滑先驗約束獲取更精確的光流場。首先參數(shù)化光流,然后對于每一像點不再直接求解光流矢量(u(x, y, t), v(x, y, t)),而是求解6個仿射參數(shù),通過所求參數(shù)來表示光流:
(13)
(14)
其中(x0, y0)是圖像的中點,通過式(13)和(14)可取代數(shù)據(jù)項直接進行光流求解。
1.3 總變差一范數(shù)模型
1.3.1 復合數(shù)據(jù)項構(gòu)建
考慮到光照影響及特征提取的簡易性,梯度特征是構(gòu)建數(shù)據(jù)項的較好選擇。然而,由于梯度守恒假設(shè)包含了方向信息使得約束式(7)僅在物體發(fā)生平移運動時成立[26],且在后續(xù)優(yōu)化過程中線性化能量函數(shù)時圖像需滿足二次可微條件,在多運動模式并存或一些更復雜的運動模式中,上述限制將會嚴重降低算法性能[1]。這些缺陷在亮度守恒假設(shè)中是完全可以避免的,因此,將基于亮度守恒模型和梯度守恒模型構(gòu)建復合數(shù)據(jù)項。
線性化的亮度守恒約束式(4)建立在兩個基本假設(shè)之上:圖像像素強度是連續(xù)的;物體的運動是微小的。然而,自然場景中目標的運動難以嚴格滿足這兩個條件,因此,在建模階段依然沿用原始的非線性守恒約束式(2)和式(7)[11]。根據(jù)1.1.2中的描述,廣義Charbonnier懲罰函數(shù)表示如下:
(15)
定義x=(x, y, t)T, w=(u, v, 1)τ,則復合數(shù)據(jù)項表示為
ED(u, v)=∫Ωψ(|f(x+w)-f(x)|2
(16)
其中γ是兩個假設(shè)之間的權(quán)重,用于調(diào)節(jié)模型間的相對作用程度。
1.3.2 先驗項選擇
在1.2中總結(jié)了5種不同類型的先驗項,從作用方式看,這些模型主要分為兩大類:全局平滑模型和有向平滑模型[27]。其中有向平滑模型對噪聲比較敏感,且計算較為復雜,應(yīng)用不如全局平滑模型廣泛?;诖?,選用一階先驗約束,并采用L1范數(shù)的懲罰函數(shù)式(15)來保持邊緣信息,用光流場的空間梯度算子表示[11],約束式(10)改寫為
EP(u,v)=∫Ωψ(|u|2+|v|2)dx
(17)
式(16)和(17)分別給出了數(shù)據(jù)項和先驗項,根據(jù)式(1)可得出總變差一范數(shù)光流場計算模型[14]
EG(u, v)=ED+αEP
(18)
現(xiàn)在的目標是需要找到使得式(18)所示泛函EG(u, v)最小的函數(shù)u和v,即問題轉(zhuǎn)變?yōu)镋G(u, v)的最優(yōu)化問題,通常通過連續(xù)優(yōu)化方法實現(xiàn)。
在光流場計算中常用的連續(xù)優(yōu)化技術(shù)有兩種[26]:梯度下降法; 全變分法或極值法。近年也提出了一些比較新的方法,如Trobin[24]和Wedel[12]等采用的解耦算法、Seitz和Baker[21]提出的基于線性規(guī)劃的凸優(yōu)算法,但這些方法仍不成熟。梯度下降算法中以最速下降法[26]最為簡明,但其需要大量迭代計算才能達到收斂,為此提出了Hessian矩陣的方法[28],當圖像含有N個像素點時,該方法需要求解2N×2N的矩陣及其逆矩陣,因此,梯度下降優(yōu)化方法僅適用于以LK算法為代表的一類求取未知量較少的算法[9,29]。對于能量函數(shù)式(18)的優(yōu)化,采用全變分法比較合適,根據(jù)變分原理,如果式(18)存在最小值,則必滿足歐拉—拉格朗日方程[11]:
(19)
另一種與全變分法類似的方法是極值法,以κ表示每個像點的光流(u,v),極值法通過?EG/?κ=0來獲取約束方程組,該方法與全變分法的區(qū)別僅在于能量函數(shù)的逐像素化是在式(19)之前還是之后進行[26]。選用全變分法進行優(yōu)化,由于EG(u,v)是高度非線性的,最小化過程比較繁瑣,因此,為了提高可讀性,定義下列縮寫表示:
(20)
其中用含z的變量表示特定的差值便于同時間導數(shù)進行區(qū)分。
用上述變量表示式(19)的結(jié)果如下:
(21)
通過變分最小化后,每個像素點將產(chǎn)生如式(21)所示兩個非線性方程,假設(shè)圖像像素點個數(shù)為N,則結(jié)果為一個含有2N個歐拉-拉格朗日方程式的大型非線性方程組。此時,光流場計算簡化為該方程組的求解,通過雙重不動點迭代策略[11]消除方程組非線性后可把問題進一步簡化為稀疏線性方程組的求解,運用一般的線性方程組解法[26](如雅克比迭代、高斯-賽德爾迭代、超松弛迭代等)即可解出光流。同時,為了避免陷入局部最小值及加快迭代收斂速率,采用不動點迭代和多尺度方法相結(jié)合的求解策略[11,30]。
3.1 多尺度運動估計
實現(xiàn)多尺度運動估計主要依靠由粗到細的金字塔結(jié)構(gòu)實現(xiàn),首先通過下采樣建金字塔來構(gòu)造不同的尺度空間,然后光流估計從粗尺度開始進行,在獲取粗略解后,將粗略解映射到精細尺度下做進一步計算。尺度越粗糙,所含像點越少,收斂速度越快,以粗略的解作為精細尺度解的初始值有利于減少迭代次數(shù),提高算法的效率[1];且粗尺度下的圖像含有較少的高頻分量,能有效減少局部最小值的數(shù)量;在粗尺度下,光流較小,因此對亮度守恒、梯度守恒進行線性化是合理的[26]。
3.1.1 高斯金字塔構(gòu)建
高斯金字塔構(gòu)建主要包括高斯濾波和降采樣[27]。首先采用高斯濾波作用于原始圖像以消除噪聲,降低異質(zhì)點影響,然后通過降采樣為金字塔每一層獲取數(shù)據(jù)。
(1) 高斯濾波
高斯濾波是一種線性平滑濾波,被廣泛用于圖像去噪,其實質(zhì)是對圖像進行加權(quán)平均的過程[31]。定義濾波器gfilter,根據(jù)正態(tài)分布3原則可知位于當前像點3σ個像素外的像點基本不會對當前像點產(chǎn)生影響,則可設(shè)置濾波器寬度k=3σ×2+1,得到下式:
(22)
其中i表示濾波器中元素的位置,di表示其對應(yīng)點距離當前像點的距離,σ通常設(shè)置為1。實現(xiàn)高斯濾波的方式一般有兩種,一是采用濾波模板與圖像做卷積,另一種是通過傅里葉變換實現(xiàn)。σ為1時,模板大小為7×7,卷積運算量較小。由于高斯函數(shù)有可分離性,可采用分離濾波器來加快速度,即把二維窗口卷積分離為兩次一維卷積運算。
(2) 降采樣
降采樣過程是建立高斯金字塔的關(guān)鍵步驟,整個過程有兩方面需要注意:
① 金字塔采樣因子和層數(shù)。金字塔采樣因子ratio是指當前層與下一層圖像行或列的比值,一般采用隔行隔列采樣,即ratio=0.5。金字塔層數(shù)直接關(guān)系著光流計算精度及計算效率,通常由一個給定的最小寬度來控制。
② 下采樣插值。下采樣插值主要用于構(gòu)建金字塔過程中不是間隔固定行列采樣時非整數(shù)坐標取值問題。主要的插值方法有雙線性插值[7]和雙三次插值[32],后者獲得的圖像具有更好的平滑性。
3.1.2 光流逐層估計
逐層估計包含了金字塔不同層級間的增量校正過程及同一層級間的光流迭代更新過程,其計算過程將在3.2節(jié)給出,本節(jié)著重關(guān)注逐層估計中的Warping處理。Warping處理是指通過已解出的光流在第2幀上封裝出一幅新圖像[11],其主要作用于兩個過程:一是在低分辨率層光流場向高分辨率層映射;二是內(nèi)層迭代(詳見3.3節(jié))結(jié)束后通過Warping處理縮小與第1幀圖像的殘差。其中,對于非整數(shù)坐標取值問題采用雙線性或雙三次插值解決,光流(u,v)越界問題通過下式處理:
(23)
3.2 外層不動點迭代
(24)
然后把未知量ul+1,vl+1分離為前一步的迭代結(jié)果ul,vl和未知增量dul,dvl。設(shè)
(25)
3.3 內(nèi)層不動點迭代
(26)
3.4 梯度、散度離散近似
采用有限差分近似像素梯度與光流梯度。設(shè)定當前點位置(x, y),對于寬M、高N的圖像,光流增量du水平方向梯度的前向差分如下:
(27)
豎直方向梯度,
(28)
梯度的散度采用后向差分結(jié)果表達,目的是通過在前向差分結(jié)果上進行后向差分等價實現(xiàn)二階中心差分:
(29)
式(26)經(jīng)過差分近似后可得到兩個線性方程式,則圖像上所有像點對應(yīng)的方程式就構(gòu)成了一個大型的線性方程組。其中,待求解的列向量即為光流場增量,為加快收斂速度,采用超松弛迭代法[33]求解。
總變差一范數(shù)光流算法流程圖如圖1所示。
4.1 可視化
通過總變差一范數(shù)算法,可以獲得一個致密的光流場,如何在圖像上以直觀的方式對光流場進行顯示也是一個重要的問題。目前光流場顯示主要有三種方法:灰度圖、二維矢量圖與彩色蘊含圖[26]。
(1) 灰度圖。對于流場的兩個分量場,由于其值有正有負,因此將光流絕對值化后再進行歸一化處理,就可以用兩個灰度圖來進行顯示,但是這種顯示方案在絕對值化時舍去了流場的方向信息,因此只能用于運動物體檢測,無法提供更多運動相關(guān)信息。
(2) 二維矢量圖。二維矢量圖是比較直觀顯示方案,主要通過有向線段來表示光流矢量。由于每個像點具有一個光流矢量,為了觀察方便,通常采用稀疏流場或放大的流場顯示。
圖1 總變差一范數(shù)光流算法流程圖
(3) 彩色蘊含圖。由于人眼對彩色的分辨能力比對灰度的強,因此基于彩色信息來表達光流有利于肉眼觀察。彩色蘊含圖是一種比較常用的顯示方法,它一般基于面向視覺感知的顏色模型(如HIS、HSV等)來進行顯示。其中,最常用的是HIS模型,它采用三個參數(shù)—色調(diào)、飽和度、亮度來描述顏色。當飽和度、亮度固定時,把最敏感的紅、綠、藍三種色調(diào)間的連續(xù)變化用離散圓域來表示,構(gòu)成孟塞爾色輪。由于光流場是一個二維向量場,因此,可以將光流值與色輪上的顏色值一一對應(yīng),按相應(yīng)顏色值進行顯示即可得到一個彩色表示的光流場。
4.2 質(zhì)量評價
(30)
AAE定義為
(31)
光流場算法一直致力于對孔徑問題、成像噪聲、運動不連續(xù)性、無紋理區(qū)域、光照變化、大位移光流、非剛體運動、小目標等方面進行改善,并取得了顯著成果,但要在實際中深入應(yīng)用,還需著重解決以下幾個方面的問題:
(1) 設(shè)計合適的優(yōu)化算法。目前廣泛使用的優(yōu)化方法都屬于連續(xù)優(yōu)化算法,此類算法通過數(shù)值迭代獲取光流解,但每次迭代只能實現(xiàn)微小的更新,使得算法效率不高。許多學者提出了離散優(yōu)化算法(如圖割法[35]、置信度傳播[36]等)。離散優(yōu)化算法是在一個事先定義的離散的光流空間里搜索最優(yōu)解,有利于可提高收斂速度,但此類方法尚屬于起步階段,存在著許多問題需要解決[1]。
(2) 復雜光照變化的影響。由于受陰影遮擋、拍攝角度與成像傳輸設(shè)備的影響,光流算法對亮度變化異常敏感,無法進行精確光流估計。為此,對圖像進行濾波預處理、尋求光學不變特征、多模型結(jié)合等方法被用來改善算法在光照變化下的估計效果,此舉在一定程度上降低了光照變化帶來的不利影響,但由于真實場景中光照變化的復雜性,目前還沒有一種算法能夠自適應(yīng)地解決復雜光照變化問題[1],該問題嚴重限制著光流技術(shù)在實際中的應(yīng)用。
(3) 大位移運動估計。雖然采用了由粗到細的金字塔法來解決大位移光流的獲取,但是所能估計的位移尺度依然有限,Alvarez等[37]通過對基本光流場進行多方面改進后能解決10個像素大小的位移估計問題,但如何獲取更大位移的光流依然是值得考慮的問題。由于傳統(tǒng)的金字塔法提供的改進空間有限,可考慮融合其他圖像特征作為引導信息來降低最優(yōu)化的搜索范圍及難度[38]。其次是小目標的大位移問題,為實現(xiàn)多尺度的方法,需要構(gòu)造許多不同的尺度空間,這樣將會造成低分辨率下小目標的丟失而無法估計其光流,融合通道表示下描述符匹配的方法[39]可以實現(xiàn)對小目標的捕捉,但是該方法不能有效處理結(jié)構(gòu)復雜的運動圖像,因此如何更好地對小目標的運動進行估計依然值得深入研究。
(4) 算法實時性。當光流技術(shù)應(yīng)用到機器人導航、視頻運動目標跟蹤這些場景下時,必須考慮算法實時計算性能。為了求解非線性系統(tǒng)及獲取大位移光流,需要采用不動點迭代、多尺度運動估計等求解策略,這就會極大地增大算法的時間復雜度,且整個估計過程需要逐層、逐點進行迭代計算,隨著圖像增大,大量浮點運算將會給CPU帶來沉重負荷,因而設(shè)計結(jié)合GPU的并行處理架構(gòu)或采用多核處理器將會為實時系統(tǒng)的構(gòu)建提供有力支持[1,38]。
[1] 宋爽, 楊健, 王涌天. 全局光流場估計技術(shù)及展望. 計算機輔助設(shè)計與圖形學學報, 2014, 26(5): 841-850
[2] 涂志剛, 謝偉, 熊淑芬等. 一種高精度的TV-L1光流算法. 武漢大學學報·信息科學版, 2012, 37(4): 496-499
[3] 范沖, 龔健雅, 朱建軍等. ALOS-PRISM遙感影像超分辨率重建. 遙感學報, 2009, 13(1): 75-82
[4] 陳王麗, 孫濤, 陳喆等. 利用光流配準進行嫦娥一號CCD多視影像超分辨率重建. 武漢大學學報·信息科學版, 2014, 39(9): 1103-1108
[5] 閆利, 鞏翼龍, 張毅等. 光流動態(tài)紋理在土地利用/覆蓋變化檢測研究中的應(yīng)用. 光譜學與光譜分析, 2014, 34(11): 3056-3061
[6] 張正鵬, 江萬壽, 張靖. 光流特征聚類的車載全景序列影像匹配方法. 測繪學報, 2014,43(12): 1266-1273
[7] 王昊京, 王建立, 王鳴浩等. 采用雙線性插值收縮的圖像修復方法. 光學精密工程, 2010, 18(5): 1234-1241
[8] Horn B K P, Schunck B G. Determining optical flow.ArtificialIntelligence, 1981, 17(1):185-203
[9] Lucas B D, Kanade T. An iterative image registration technique with an application to stereo vision. In: Proceedings of the 7th International Joint Conference on Artificial Intelligence, San Francisco, USA, 1981, 81: 674-679
[10] Black M J, Anandan P. The Robust Estimation of Multiple Motions: Parametric and Piecewise-Smooth Flow Fields.ComputerVisionandImageUnderstanding, 1996, 63(1): 75-104
[11] Brox T, Bruhn A, Papenberg N, et al. High accuracy optical flow estimation based on a theory for warping. In: Proceedings of the 8th European Conference on Computer Vision, Heidelberg: Springer, 2004, 3024: 25-36
[12] Wedel A, Pock T, Zach C, et al. An improved algorithm for TV-L1 optical flow. In: Lecture Notes in Computer Science. Heidelberg: Springer, 2008, 5064: 23-45
[13] Anandan P. A computational framework and an algorithm for the measurement of visual motion.InternationalJournalofComputerVision, 1989, 2(3): 283-310
[14] Liu C, Yune J, Torralba A, et al. SIFT flow: dense correspondence across difference scenes. In: Proceedings of the 10th European Conference on Computer Vision, 2008, 5304:28-42
[15] Mileva Y, Bruhn A, Weickert J. Illumination robust variational optical flow with photometric invariants. In: Proceedings of the DAGM Symposium on Pattern Recognition. Heidelberg: Springer-Verlag, 2007. 152-159
[16] Rudin Li, Osher S, Fatemi E. Nonlinear total variation based noise removal algorithms.PhysicaD, 1992, 60(1-4): 259-268
[17] 李秀智, 譚君, 賈松敏等. 基于結(jié)構(gòu)紋理分解和多重網(wǎng)格的光流估計算法. 上海交通大學學報, 2014, 48(7): 959-964, 970
[18] Zimmer H, Bruhn A, Weickert J, et al. Complementary optic flow. In: Proceedings of the 7th international workshop on energy minimization methods in computer vision and pattern recognition, Bonn, Germany, 2009, 5681: 207-220
[19] Bruhn A, Weickert J, Schnorr C. Combine local and global optical flow methods.InternationalJournalofComputerVision, 2005, 61(3): 211-231
[20] Werlberger M, Trobin W, Pock T, et al. Anisotropic Huber-L1 optical flow. In: Proceedings of the British machine vision conference, Manchester, UK, 2009. 1-11
[21] Seitz S M, Baker S. Filter flow. In: Proceedings of the 12th IEEE International Conference on Computer Vision. Los Alamitos, USA, 2009. 143-150
[22] Nagel H, Enkelmann W. An investigation of smoothness constraints for the estimation of displacement vector fields from image sequences.IEEETransactionsonPatternAnalysisandMachineIntelligence, 1986, 8(5): 565-593
[23] Sun D, Roth S, Lewis J, et al. Learning optical flow. In: Proceedings of the 10th European conference on computer vision, Heidelberg: Springer, 2008, 5304: 83-97
[24] Trobin W, Pock T, Cremers D, et al. An unbiased second-order prior for high-accuracy motion estimation. In: Proceedings of the 30th DAGM Symposium Munich, Heidelberg: Springer, 2008, 5096: 396-405
[25] Nir T, Bruckstein A M, Kimmel R. Over-parameterized variational optical flow.InternationalJournalofComputerVision, 2008, 76(2): 205-216
[26] Baker S, Scharstein D, Lewis J P, et al. A Database and Evaluation Methodology for Optical Flow.InternationalJournalofComputervision, 2011, 92(1): 1-31
[27] 項學智, 開湘龍, 張磊等. 一種變分偏微分多模型光流求解方法. 儀器儀表學報, 2014, 35(1): 109-116
[28] Baker S, Matthews I. Lucas-Kanade 20 years on: a unifying framework.InternationalJournalofComputerVision, 2004, 56(4): 221-255
[29] Le Besnerais G, Champagnat F. Dense optical flow by iterative local window registration. In: Proceedings of the International Conference on Image Processing, 2005, 1:137-140
[30] Lei C, Yang Y H. Optical flow estimation on coarse-to-fine region-trees using discrete optimization. In: Proceedings of the 12th IEEE International Conference on Computer Vision. Los Alamitos: IEEE Computer Society Press, 2009, 1562-1569
[31] 李秀智, 尹曉琳, 賈松敏等. 改進的TV-L1平滑光流估計. 光學學報, 2013, 33(10): 188-194
[32] 龐志勇, 譚洪舟, 陳弟虎. 一種改進的低成本自適應(yīng)雙三次插值算法及VLSI實現(xiàn). 自動化學報, 2013, 39(4): 407-417
[33] 李慶揚, 王能超, 易大義. 數(shù)值分析. 北京:清華大學出版社, 2006
[34] Baker S, Scharstein D, Lewis J P, et al. The middlebury computer vision pages [BE/OL]. http://vision.middlebury.edu/flow/
[35] 路子赟, 唐土生, 高雋等. 帶有局部控制因子的圖割光流估計. 中國圖像圖形學報, 2012, 17(7): 846-852
[36] 郁理, 郭立, 袁紅星. 基于分級置信度傳播的立體匹配新方法. 中國圖像圖形學報, 2011, 16(1): 103-109
[37] Alvarez L, Weickert J, Sanchez J. Reliable estimation of dense optical flow field with large displacements.InternationalJournalofComputerVision, 2000, 39(1): 41-56
[38] 李秀智, 賈松敏, 尹曉琳等. 視覺光流矢量場估計算法綜述. 北京工業(yè)大學學報, 2013, 39(11): 1638-1643
[39] Laura S, Deqing S, Erik G, et al. Optical flow estimation with channel constancy. In: Proceedings of the 13th European Conference, Switzerland: Springer, 2014, 8689: 423-438
A review on TV-L1optical flow field calculation
Li Jiatian, Li Xiankai, Li Yingyun, Li Guojia, Qian Tanghui
(Faculty of Land Resource Engineering, Kunming University of Science and Technology, Kunming 650093)
The method for optical flow field calculation using the Total Variation Linearly 1 norm, called the TV-L1method for short, is reviewed and summarized emphatically. By means of the coherent formal description, the bright conservation model and the gradient conservation model are transferred to a global smooth model, and the models’ numerical computing progress, analytical calculation principle and physical level of algorithm are emphatically described. At the end, the method for visualization of optical flow fields and the method for quality assessment optical flow fields are given, and the technical difficulties of the TV-L1and its future work are concluded.
optical flow field, total variation, numerical calculation, algorithm, review
10.3772/j.issn.1002-0470.2016.04.004
①國家自然科學基金(41561082, 41161061)資助項目。
,E-mail: 1132468376@qq.com(
2016-01-26)
②男,1975年生,博士,碩士生導師,副教授;研究方向:視覺測量與機器場景理解;E-mail: ljtwcx@163.com