楊敬鈺,師?雯,李?坤,宋曉林,岳煥景
基于時空感知級聯(lián)神經(jīng)網(wǎng)絡的視頻前背景分離
楊敬鈺1,師?雯1,李?坤2,宋曉林1,岳煥景1
(1. 天津大學電氣自動化與信息工程學院,天津 300072;2. 天津大學計算機科學與技術學院,天津 300350)
針對在復雜情景下視頻前背景分離技術中存在的前景泄露問題,設計開發(fā)了一個端對端的二級級聯(lián)深度卷積神經(jīng)網(wǎng)絡,實現(xiàn)了對輸入視頻序列進行精確的前景和背景分離.所提網(wǎng)絡由一級前景檢測子網(wǎng)絡和二級背景重建子網(wǎng)絡串聯(lián)而成.一級網(wǎng)絡融合時間和空間信息,其輸入包含2個部分:第1個部分是3張連續(xù)的彩色RGB視頻幀,分別為上一幀、當前幀和下一幀;第2個部分是3張與彩色視頻幀相對應的光流圖.一級前景檢測子網(wǎng)絡通過結合2部分輸入對視頻序列中運動的前景進行精確檢測,生成二值化的前景掩膜.該部分網(wǎng)絡是一個編碼器-解碼器網(wǎng)絡:編碼器采用VGG16的前5個卷積塊,用來提取兩部分輸入的特征圖,并在經(jīng)過每一個卷積層后對兩類特征圖進行特征融合;解碼器由5個反卷積模塊構成,通過學習特征空間到圖像空間的映射,從而生成當前幀的二值化的前景掩膜.二級網(wǎng)絡包含3個部分:編碼器、傳輸層和解碼器.二級網(wǎng)絡能夠利用當前幀和生成的前景掩膜對缺失的背景圖像進行高質量的修復重建.實驗結果表明,本文所提時空感知級聯(lián)卷積神經(jīng)網(wǎng)絡在公共數(shù)據(jù)集上取得了較其他方法更好的結果,能夠應對各種復雜場景,具有較強的通用性和泛化能力,且前景檢測和背景重建結果顯著超越多種現(xiàn)有方法.
背景重建;運動物體檢測;卷積神經(jīng)網(wǎng)絡;光流
前背景分離是視頻分析技術中的一項基本任務,目的是從輸入視頻序列中提取出兩個互補分量:靜態(tài)背景分量和運動前景分量,其在計算機視覺領域中有非常廣泛的應用,包括運動檢測[1]、目標跟蹤[2]、行為識別[3]等.前背景分離任務在真實的視頻場景下面臨著各種挑戰(zhàn),如惡劣天氣、相機抖動、光照條件變化、背景移動等,在這些情況下,前景常常會泄露到背景當中,造成不準確的分離結果.
在過去的十數(shù)年間,研究者們已提出許多方法用來解決這一問題.早期的研究工作通過在各種統(tǒng)計模型(如高斯混合模型[4]、非參數(shù)模型等[5])下局部地估計像素強度的分布,從而將像素分類為背景成分或前景成分.這類方法計算復雜度低,分離速度快,可以很好地處理簡單的視頻場景.但由于其忽略了視頻序列中重要的全局結構,在復雜場景下分離效果往往不盡如人意,常常丟失復雜的紋理、輪廓等細節(jié)信息.
近年來,基于魯棒主成分分析[6](robust principal component analysis,RPCA)的方法引起了學界的廣泛關注.Candès等[6]表明前背景分離可以建模成一個低秩矩陣恢復問題:將每一個視頻幀拉成一列,按時間順序組成一個二維觀測矩陣.背景分量在時域上是不變的,因此其對應一個低秩矩陣分量;而前景分量在視頻幀上通常只占據(jù)一小部分,可通過稀疏矩陣建模.因此,前背景分離任務則轉化成了將觀測矩陣分解為低秩陣和稀疏陣的問題.這種方法充分利用了視頻序列的全局結構信息,許多研究工作基于這一基本原理針對特定問題做出了相應改進,極大地提高了分離的準確性.Zhou等[7]提出通過檢測連續(xù)異常值來分離運動物體,前景和背景分量通過馬爾科夫隨機場(Markov random field,MRF)同時優(yōu)化,分離結果連續(xù)平滑,具有很好的視覺效果.同時Zhou等[7]的模型中還引入了仿射變換算子,可以將相機視角不固定的視頻序列配準到固定視角下,從而解決動態(tài)視頻背景恢復困難的問題.但該方法僅可以處理背景的小范圍移動,當背景運動相對較大時,分離結果嚴重失真,且分離出的前景分量的輪廓信息不精確.Cao等[8]在魯棒主成分分析的框架基礎上引入總變差正則化約束時空連續(xù)性,該方法對于一些包含不規(guī)則運動的場景能夠取得不錯的效果,例如當視頻中含有搖晃的樹枝、波動的水面等,一般的方法會將這類物體歸為前景,但事實上它們是屬于背景的,Cao等[8]的方法則可以很好地處理這類問題.但該方法是批處理方法,需要將所有的視頻幀統(tǒng)一處理,計算復雜度高,程序運行較慢,對計算機硬件要求較高,且同樣不能處理動態(tài)背景.
簡而言之,這些傳統(tǒng)方法通常依賴于很強的先驗條件,所以它們可以在特定的條件下很好地處理一些場景.但是,當面對更加復雜的視頻場景,約束條件不再滿足時,這些方法則無法取得很好的效果.在這種情況下,迫切需要提高前背景分離方法對通用復雜視頻的適用性.近年來,卷積神經(jīng)網(wǎng)絡(convolu-tional neural network,CNN)被廣泛應用于計算機視覺領域,在圖像和視頻處理方面取得了一系列卓越成就.CNN在前背景分離方面的應用也逐漸興起.
Xu等[9]使用一個串聯(lián)網(wǎng)絡實現(xiàn)背景重建和前景檢測,該方法首先通過基于自動編碼器的卷積神經(jīng)網(wǎng)絡恢復背景圖,然后根據(jù)已生成的背景圖和原始圖像,使用全卷積網(wǎng)絡生成二值化的前景圖.Lim等[10]提出基于三重卷積神經(jīng)網(wǎng)絡的前景分割方法,利用多尺度特征編碼實現(xiàn)對單個視頻幀的前景檢測.雖然基于深度學習的方法較傳統(tǒng)方法相比有諸多優(yōu)勢,且在復雜視頻的分析上取得了很大的進展,但這些方法仍存在一些缺陷.首先,大多數(shù)方法采用單張視頻幀作為輸入,而從單張圖片上是無法捕捉運動信息的,此時前景檢測的結果往往不夠準確.其次,這些方法的通用性較差,一個網(wǎng)絡模型只能處理一種場景,當換用不同場景時,就需要重新訓練模型,這會導致過擬合的問題,且在實際應用中是十分不便捷的.
本文提出了一個時空感知的端對端級聯(lián)深度卷積神經(jīng)網(wǎng)絡,以實現(xiàn)前景和背景的準確分離.它由一級前景檢測子網(wǎng)絡(FDnet)和二級背景重建子網(wǎng)絡(BRnet)組成.一級網(wǎng)絡的輸入分為2個部分:第1個部分是作為空間信息為引導的3張連續(xù)彩色RGB視頻幀(前一幀、當前幀和下一幀),以避免因單張視頻幀造成的運動信息不準確的問題;第2個部分是作為時間信息引導的3張連續(xù)光流圖(與3張彩色RGB視頻幀相對應).由于光流圖可用來表征相鄰視頻幀之間的移動物體的運動速度,包括速度大小和方向,所以將光流圖輸入到網(wǎng)絡中有利于模型檢測前景的運動信息.這部分網(wǎng)絡的輸出是當前幀的二值化前景掩膜,以指示移動對象的區(qū)域(1代表前景,0代表背景);接著,二級網(wǎng)絡以一級網(wǎng)絡生成的前景掩膜和當前幀作為輸入,重建出完整的背景.由于背景通常具有局部相似性,因此網(wǎng)絡能夠很好地學習這種相似性并有效地恢復背景.同時,本文方法充分考慮了訓練數(shù)據(jù)的多樣性和復雜性,在訓練網(wǎng)絡時將不同的視頻場景數(shù)據(jù)混合,保證網(wǎng)絡具有較強的泛化??能力.
本文提出了一種融合時空信息的級聯(lián)卷積神經(jīng)網(wǎng)絡,網(wǎng)絡架構如圖1所示.具體而言,一級前景檢測子網(wǎng)絡通過融合時間和空間信息來檢測前景.接著,將當前幀乘以生成的二值化前景掩膜輸入到二級背景重建子網(wǎng)絡中,對前景缺失的視頻幀進行高質量的修復重構.
圖1?本文所提的網(wǎng)絡框架
本文提出了一個融合時空信息的多輸入編碼-解碼前景檢測子網(wǎng)絡(如圖1中綠色框圖所示),目的是從原始的視頻幀中檢測出運動的物體.具體來說,采用VGG16[11]的前5個卷積塊作為編碼器來提取運動物體的豐富特征,并利用5個轉置卷積層作為解碼器將特征映射到掩膜中.準確地檢測出前景的關鍵是識別出畫面中哪些物體是運動的,因此僅從單張視頻幀中檢測前景是不合適的.與先前的工作不同,本方法的網(wǎng)絡輸入分為2部分.第1個部分是9通道的?3張連續(xù)的原始RGB視頻幀(前一幀、當前幀和下一幀),以引入前景的空間信息,網(wǎng)絡可以從3張不同的視頻幀中學習到它們之間的差異,這種差異暗含著運動信息.第2個部分是6通道的與原始視頻幀相對應的光流圖,以引入前景的時域信息.注意光流圖與視頻幀是一一對應的關系.兩個輸入分別用權重不共享的卷積層提取特征,在每一個卷積層后面都增加一個特征融合層對兩類特征圖進行融合,即
對于神經(jīng)網(wǎng)絡,選取合適的網(wǎng)絡優(yōu)化算法能夠極大地提升網(wǎng)絡訓練速度.因此,本文采用均方根誤差(RMSprop)優(yōu)化函數(shù)來降低損失,RMSprop優(yōu)化函數(shù)是很長時間以來經(jīng)得住考驗的優(yōu)化算法,并且適用于各種不同的深度學習網(wǎng)絡結構,收斂速度更快的同時波動幅度更小.對于兩個子網(wǎng)絡,訓練時批尺寸大小設置為8,學習率設為0.001.子網(wǎng)絡訓練好后,接著訓練整體網(wǎng)絡進行微調,此時批尺寸設為4,學習率設為0.0001.在硬件條件滿足的情況下,批尺寸設置越大越好.通過這種逐步訓練方式,網(wǎng)絡可以很快收斂.
為了保證訓練好的網(wǎng)絡能夠有效地應對各種不同的場景,在選取訓練集時應盡量確保訓練數(shù)據(jù)集的多樣化和合理性.本方法采用CDnet2014異常物檢測公開數(shù)據(jù)集[13]作為訓練數(shù)據(jù).該數(shù)據(jù)集包含11種場景類別,53個不同的視頻序列,但其中有些視頻序列的前景真值掩膜不完整,因此,本文從中選出了30個具有合適標簽的視頻序列.訓練數(shù)據(jù)充分考慮了場景和運動物體的多樣性,例如冰雪天氣、相機抖動、運動遮擋、光照變化等真實場景,場景中包含人、汽車、船、動物等各種運動目標.訓練數(shù)據(jù)的多樣性能夠保證網(wǎng)絡具有較強的通用性和泛化能力.
考慮到訓練數(shù)據(jù)的均衡性,對于每一個場景,隨機選取500幀.有一些場景的視頻幀數(shù)比較少,不足500幀,則需要進行數(shù)據(jù)增廣.具體的做法是:首先用前景的二值化真值掩膜將前景從原始視頻幀中分割出來,然后將分割出來的前景圖進行水平翻轉,最后將翻轉后的前景圖貼到背景的真值圖上.保證訓練數(shù)據(jù)的均衡性有助于提高網(wǎng)絡的泛化能力,避免網(wǎng)絡過度擬合某一種特定類型的場景,而對其他場景欠擬合.在全部的15000幀訓練數(shù)據(jù)中,隨機劃分80%的數(shù)據(jù)作為訓練集,其他20%作為測試集.值得一提的是,由于各個場景圖像的尺寸大小不一,在訓練網(wǎng)絡之前需要將所有的訓練數(shù)據(jù)統(tǒng)一調整為256× 256的大?。?/p>
為了合理評估所提網(wǎng)絡在前景檢測方面的有效性,本文從測試數(shù)據(jù)集中選取了4個有代表性的數(shù)據(jù):辦公室(office)、林蔭道(boulevard)、滑冰(skating)、落葉(fall).它們分別代表不同類型的復雜場景:運動遮擋、相機抖動、惡劣冰雪天氣、動態(tài)背景.為了客觀準確地評估所提方法的有效性,采用測度值(-measure)作為量化指標,測度值是前景檢測方向被廣泛使用的一種測量指標,值越大代表效果越好.本文方法與現(xiàn)有8種具有代表性的算法的量化比較結果如表1所示.第1~5行代表傳統(tǒng)方法,第6~9行代表深度學習方法.從表中可以看出,本文方法除落葉(fall)場景較DeepBS[16]方法稍低外,在其他3個場景上都達到了最好結果,平均指標超過次優(yōu)方法DeepBS[16]4.53%.
表1?9種方法的前景檢測結果的測度值比較
Tab.1?F-measure comparison of nine methods of foreground detection
除了數(shù)值上的客觀比較,前景檢測結果還需要滿足視覺上的可觀性.圖2顯示了本方法與其他5種方法的視覺質量比較結果.從對比圖中可以看出,本方法在視覺上更加接近真值圖,檢測出來的前景掩膜更加準確,能夠保持物體邊緣的輪廓信息,同時結果圖像中的噪聲更低.而其他方法則出現(xiàn)了不同程度的噪聲.例如在落葉(fall)場景中,由于該場景的背景包含搖擺的樹枝,RPCA[6]、TVRPCA[8]和CL_ VID[17]錯誤地把樹枝當成了前景,導致結果圖中出現(xiàn)了嚴重的噪聲.而DECOLOR[7]和CascadeCNN[15]方法的結果圖中雖然噪聲并不明顯,但檢測出來的車的輪廓信息與真值圖相比有較大差距.在包含相機抖動問題的林蔭道(boulevard)場景中,所有的對比方法均出現(xiàn)了不同程度的噪聲,尤其是CL_VID[17]方法.而在相對簡單的辦公室(office)場景中,RPCA[6]方法和TVRPCA[8]方法都出現(xiàn)了非常明顯的空洞,這些空洞是由運動遮擋造成的,人物在同一個位置停留時間較長,這兩種方法將空洞部分的前景像素誤當成背景像素.
圖2?前景檢測結果的視覺質量比較
綜合客觀上的量化結果以及主觀上的視覺質量結果,本文所提方法可以應對各種復雜的視頻場景,實現(xiàn)準確的前景檢測,通用性和可擴展性較強,具有一定實際意義.
為了驗證多輸入的方法對前景檢測的有效性,同時測試以連續(xù)的3個視頻幀作為輸入是否會損失長程信息,本小節(jié)設置了對比實驗:分別以1幀、3幀、5幀作為網(wǎng)絡輸入,采用在VGG16[11]上預訓練好的參數(shù)作為初始化權重,比較它們的前景檢測結果.圖3給出了不同的輸入分別在3種場景下的視覺質量結果.從結果圖中可以看出,多幀輸入(圖3(d)和(e))的前景檢測結果更加接近真值圖,能夠保持較為準確的輪廓信息.單幀輸入的結果則較為遜色,甚至在highway這個場景下沒有檢測出右上角運動的汽車,這是因為將多種視頻場景混合在一起訓練時,網(wǎng)絡無法從一張圖像中準確地判斷出哪個物體是運動的,哪個物體是靜止的,所以網(wǎng)絡只能大致判斷出圖像中的顯著性物體.從圖中還可以看出,3幀輸入和5幀輸入的結果差別并不明顯,但是在office這個場景中,5幀輸入的結果沒有3幀的好,這是因為增加的視頻幀與當前幀相關性并不大,從而引入了一些不必要的誤差,由此可以得出,網(wǎng)絡的輸入并不是越多越好.對比實驗的量化結果如表2所示,多輸入的測度值十分接近,而3幀輸入的平均測度值最高,從而進一步驗證了本文所提方法的有效性.
表2 不同輸入下的前景檢測結果的測度值比較
Tab.2 F-measure comparison on different inputs for foreground detection
圖3?不同輸入下前景檢測視覺質量結果
通過以上的對比實驗證明了所提方法的有效性,但在一些情況下也存在一些局限性.例如當視頻中存在偽裝物,即前景物體在視頻中靜止了一段時間,那么該前景物體在一些連續(xù)的視頻幀中始終處在同一位置,這時網(wǎng)絡輸入3個視頻幀與輸入1個視頻幀的效果是一樣的.另外網(wǎng)絡對視頻的時間信息的利用還不夠充分,在視頻幀輸入到網(wǎng)絡中后,時間信息在第1個卷積層后就消失了.針對這個問題,筆者將在日后的工作中努力克服改進,通過3D卷積神經(jīng)網(wǎng)絡探求更加豐富的時間信息.
光流法也常常被用作運動物體的檢測,光流是一種反映空間運動物體在成像平面上的像素運動的方法[18].傳統(tǒng)的光流算法是利用圖像序列中像素在時域上的變化以及相鄰幀之間的相關性來找到兩幀之間存在的對應關系,從而計算出物體的運動信息.光流圖是一種兩通道的特殊運動場,其中一個通道能夠反映圖像像素的水平運動場,另一個通道反映垂直運動場.但是,光流法通常具有較強的約束條件,需要假設參與運算的兩幀之間的亮度恒定,且物體的運動比較微?。趯嶋H情況下,受到運動模糊、圖像分辨率不足等各種因素的影響,通過光流法檢測出的運動物體往往是不精確的.如圖4所示,光流圖只能大致檢測出視頻幀中的運動區(qū)域,其輪廓是粗糙的,而通過本文所提方法得到的前景圖則更加準確.本文引入光流圖作為網(wǎng)絡輸入,目的是強化網(wǎng)絡的注意力機制,使前景檢測子網(wǎng)絡更加關注運動物體.
圖4?光流圖與前景圖對比
圖5顯示了本文所提方法與其他5種方法(RPCA[6]、TVRPCA[8]、DECOLOR[7]、ORPCA[19]和OMoGMF[20])的視覺質量對比結果,使用了5個具有挑戰(zhàn)性的視頻序列:辦公室(office)、沙發(fā)(sofa)和公交車站(bus station).由于前文提到的深度學習方法(CascadeCNN[15]和CL_VID[17])沒有進行背景重建實驗,本文選取了另外兩種傳統(tǒng)算法(ORPCA[19]和OMoGMF[20])進行對比.如圖5中紅框框出的局部圖所示,其他方法的結果均出現(xiàn)了嚴重的噪聲,這是由于前背景分離不準確,導致前景像素泄漏到了背景圖中.而本文所提算法可以重建出令人滿意的背景圖像,沒有明顯的噪聲存在.由于背景重建子網(wǎng)絡的性能依賴于前景檢測子網(wǎng)絡的結果,所以本文方法在背景重建方面的表現(xiàn)出色,同時也可以證明本文所提方法的前景檢測結果是準確的.
為了進一步對背景重建結果進行定量比較,本文選取圖像處理中使用較為廣泛的峰值信噪比(PSNR)和結構相似性(SSIM)作為質量評估指標.從表3中可以看出,在多個場景中,本文所提方法的PSNR和SSIM值普遍高于其他方法,平均PSNR值超過次優(yōu)方法5.52dB.綜合以上對比結果,本方法可以有效地實現(xiàn)前景檢測和背景重建.
圖5?背景重建結果的視覺質量比較
表3?6種方法的前景檢測結果的測度值比較
Tab.3?F-measure comparison of six different methods of foreground detection
本文提出了一個用于前背景分離的時空感知的級聯(lián)卷積神經(jīng)網(wǎng)絡;網(wǎng)絡分為兩個部分,通過端對端的方式實現(xiàn);第一級的前景檢測子網(wǎng)絡能夠在一些具有挑戰(zhàn)性的場景中準確地檢測出移動物體;接著,第二級的背景重建子網(wǎng)絡利用一級網(wǎng)絡的結果對背景進行高質量重建;最后,通過將兩個子網(wǎng)絡組合在一起,可獲得更準確的前背景分離結果.
在未來的工作中,希望在本文方法的基礎上進行擴展,致力于重建紋理更加豐富的背景圖,并嘗試利用更多的時域信息,借助3D卷積神經(jīng)網(wǎng)絡生成更加準確的前景圖.
[1] Klein L,Schlunzen H,von S K. An advanced motion detection algorithm with video quality analysis for video surveillance systems[J]. IEEE Transactions on Circuits and Systems for Video Technology,2011,21(1):1-14.
[2] Yilmaz A,Javed O,Shah M. Object tracking:A survey[J]. Acm Computing Surveys,2006,38(4):13-13.
[3] Tsaig Y. Automatic segmentation of moving objects in video sequences[J]. IEEE Transactions on Circuits and Systems for Video Technology,2002,12(7):597- 612.
[4] Zivkovic Z. Improved adaptive gaussian mixture model for background subtraction[C]// Proceedings of the 17th International Conference on Pattern Recognition. Cambridge,UK,2004:28-31.
[5] Elgammal A,Harwood D,Davis L. Non-parametric model for background subtraction[C]//European Conference on Computer Vision. Heidelberg,Berlin,2000:751-767.
[6] Candès E J,Li X,Ma Y,et al. Robust principal component analysis?[J] Journal of the ACM,2011,58(3):1-37.
[7] Zhou X,Yang C,Yu W. Moving object detection by detecting contiguous outliers in the low-rank representation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(3):597-610.
[8] Cao X,Yang L,Guo X. Total variation regularized RPCA for irregularly moving object detection under dynamic background[J]. IEEE Transactions Cybernetics,2016,46(4):1014-1027.
[9] Xu Z,Chen Y,Ming T,et al. Joint background reconstruction and foreground segmentation via a two-stage convolutional neural network[C]//IEEE International Conference on Multimedia and Expo. Ypsilanti,Michigan,USA,2017:343-348.
[10] Lim L A,Keles H. Foreground segmentation using a triplet convolutional neural network for multiscale feature encoding[J]. Pattern Recognition Letters,2018,112:256-262.
[11] Simonyan K,Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL]. http://arxiv.org/abs/1801.02225,2014-01-07.
[12] He K,Zhang X,Ren S,et al. Deep residual learning for image recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas,USA,2016:770-778.
[13] Goyette N,Jodoin P M,Porikli F,et al. Changedetection. net:A new change detection benchmark dataset[C]// IEEE Conference on Computer Vision and Pattern Recognition Workshops. Providence Rhode Island,USA,2012:1-8.
[14] Chen Y,Wang J,Lu H. Learning sharable models for robust background subtraction[C]// IEEE International Conference on Multimedia and Expo. Providence Rhode Island,USA,2015:1-6.
[15] Wang Y,Luo Z,Jodoin P M. Interactive deep learning method for segmenting moving objects[J]. Pattern Recognition Letters,2017,96:66-75.
[16] Babaee M,Dinh D T,Rigoll G. A deep convolutional neural network for video sequence background subtraction[J]. Pattern Recognition,2018,76:635-649.
[17] López-Rubio E,Molina-Cabello M A,Luque-Baena R M,et al. Foreground detection by competitive learning for varying input distributions[J]. International Journal of Neural Systems,2018,28(5):1750056.
[18] 袁?猛. 基于變分理論的光流計算技術研究[D]. 南昌:南昌航空大學信息工程學院,2010.
Yuan Meng. A Study of Optical Flow Computation Technology Based on Variational Theory[D]. Nanchang:School of Measuring and Optical Engineering,Nanchang Hangkong University,2010(in Chinese).
[19] Feng J,Xu H,Yan S. Online robust PCA via stochastic optimization[C]//Advances in Neural Information Processing Systems. Lake Tahoe,USA,2013:404-412.
[20] Yong H,Meng D,Zuo W,et al,Robust online matrix factorization for dynamic background subtraction[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,40(7):1726-1740.
Fusing Spatiotemporal Clues with Cascading Neural Networks for Foreground-Background Separation
Yang Jingyu1,Shi Wen1,Li Kun2,Song Xiaolin1,Yue Huanjing1
(1. School of Electrical and Information Engineering,Tianjin University,Tianjin 300072,China;2. School of Computer Science and Technology,Tianjin University,Tianjin 300350,China)
Separation of foreground and background in video clips presented various problems,such as foreground leakage.To solve these problems,this paper proposed an end-to-end cascading deep convolutional neural network,which can accurately separate foreground and background in video clips.The proposed method included foreground detection and background reconstruction sub-network,and they were cascaded.The first network fused time and space information,and its input consisted of two parts:the first part included three consecutive RGB video frames,the previous,current and next frames;the second part included three optical flow maps corresponding to RGB video frames.These two inputs were combined by the first sub-network in order to detect moving objects and generate a binary foreground mask.The foreground detection sub-network was a multi-input encoder-decoder network:the encoder was the first five convolution blocks of VGG16 to extract the feature maps of two inputs.These two types of feature maps were fused after each convolution layer.The decoder consisted of five transpose convolution layers that could generate a binary mask for the current frame through learning a projection from the feature space to the image space.The background reconstruction sub-network contained three parts:the encoder,the transmitter and the decoder,which took the generated mask and the current frame to reconstruct the background pixels occluded by the foreground.Experimental results showed that the proposed spatiotemporal fused cascade convolutional neural network has achieved better performance on the public dataset than other methods and can handle various complex scenarios.Foreground detection and background reconstruction results greatly outperformed the existing state-of-the-art methods.
background reconstruction;moving objects detection;convolutional neural network;optical ?ow
TP391
A
0493-2137(2020)06-0633-08
10.11784/tdxbz201905029
2019-05-09;
2019-07-28.
楊敬鈺(1982—??),男,博士,教授,yjy@tju.edu.cn.
師?雯,wenshi@tju.edu.cn.
國家自然科學基金資助項目(61571322,61771339,61672378);天津市科學技術計劃資助項目(17ZXRGGX00160,18JCYBJC19200).
Supported bythe National Natural Science Foundation of China(No.61571322,No.61771339,No.61672378);Tianjin Science and Technology Program(No.17ZXRGGX00160,No.18JCYBJC19200).
(責任編輯:王曉燕)