劉方濤,楊 劍,白瑞君,張啟堯,任宇杰
(中北大學 軟件學院,山西 太原 030051)
圖像分割是許多視頻應用中的基本任務,需要對對象進行某種程度的興趣分割,因為它允許在幀與幀之間建立對象對應關系。而火災煙霧圖像分割適用于各種消防嵌入式設備中,對火災前期有很好的預警。鑒于煙霧目標的位置視頻的第一幀輸入,視頻對象分割的目的是用第一幀來估計視頻在所有后續(xù)幀中的對象位置。對于許多應用程序,煙霧視頻圖像分割可以很準確的在視頻播放時在線跟蹤識別,但是實時性不足。
半監(jiān)督視頻對象分割(VOS)需要估計第一幀中指定的任意煙霧對象的位置。但是在這種情況下,煙霧表示由二進制分割掩碼組成,它可以按像素是否屬于目標來分割。這種表示對于需要像素級信息的應用來說更為準確,而創(chuàng)建像素級估計需要比簡單環(huán)繞框有更多的計算。所以傳統(tǒng)的VOS方法很慢,并且每幀通常需要幾秒鐘。為了加快識別速度,改變在孿生網絡上訓練兩項任務,兩項任務在新框架中建立目標對象與候選區(qū)域之間對應的關系是不同的。一個任務是以滑動方式了解目標之間的相似性,輸出是一個密集的響應圖,僅顯示對象的位置,并不提供其周圍的任何空間范圍信息,另一個任務使用區(qū)域提議網格來生成二元掩模。最終通過以上兩個任務完成對煙霧目標識別研究。
半監(jiān)督視頻對象分割是用于任意對象跟蹤的基準[1-3],表示跟蹤器以順序方式接收輸入幀。此外通常側重于實現超過典型視頻幀速率的速度[4],相反半監(jiān)督的VOS算法傳統(tǒng)上更關注于感興趣對象的準確表示[5,6]。為了利用視頻幀之間的一致性,幾種方法將第一幀的監(jiān)督分段掩碼傳播到時間相鄰的由圖像標記的方法中[7-11]。特別是鮑等[11],最近提出了一種非常精確的方法,利用時空MRF,其中時間依賴性由光流建模,而空間依賴性由CNN表示。
另一種流行的策略是依賴處理視頻幀[12-14],類似于大多數跟蹤方法中發(fā)生的情況。例如,在OSVOS-S Maninis等[12]不利用任何時間形成,它們依賴于預先進行分類的完全卷積網絡,然后在測試時使用第一幀中提供的實例掩碼對其進行微調。而MaskTrack[13]則是從頭開始訓練單個圖像,但它通過使用最新的掩模預測和光流作為網絡的附加輸入,在測試時利用某種形式的時間性來預測結果。為獲得盡可能高的精度,在測試時VOS方法通常采用計算密集型技術,如微調[12-14]、數據增強[15,16]和光流[9,11,13,16,17]。因此這些方法通常以低框架和無法在線操作為特征。對于只有幾秒鐘的視頻效果可以,像DAVIS那樣,需要分鐘[13,18]甚至更短時間[9,11]的方法不是很好。
最近,VOS社區(qū)對更快的方法越來越感興趣[10,19,17,20-22]?,F有的最快速的方法是Yang等[23]和Wug等[19]。前者使用元網絡“調制器”來快速適應在測試時間內分段網絡的參數,而后者不使用任何微調并采用在多個階段訓練的編碼器-解碼器Siamese架構。這兩種方法都低于每秒10幀,而本文方法的速度要比上述兩種方法快6倍,并且只依賴于邊界框初始化。
為了實現在線可操作性和快速性,本文采用了完全卷積的孿生網絡框架。本文將SiamFC和SiamRPN視為代表性的例子。本文在2.1節(jié)中首先介紹它們,然后在2.2節(jié)中介紹改進的方法。
SiamFC。Bertinetto等建議使用離線訓練的完全卷積孿生網絡作為跟蹤系統(tǒng)的基本構建塊,網絡將圖像z的示例與密集響應圖的搜索圖像(最大)x進行比較。z和x分別是以目標對象為中心的W*H(寬*高)裁剪和以目標的最后估計位置為中心的較大裁剪。這兩個輸入由相同的CNNf(θ) 處理,產生兩個交叉相關的特征圖
gθ(z,x)=fθ(z)?fθ(x)
(1)
在本文中將響應圖的每個空間元素(等式(1)的左側)稱為濾波器窗口響應(RoW)。即x編碼中理想z和第n個窗口之間的相似性。對于SiamFC,目標是獲得與目標位置搜索區(qū)域x對應的最大響應映射值。相反,為了獲得有關目標煙霧周圍每個RoW加密的豐富信息,只需將等式(1)替換為交叉鏈接的方法,并創(chuàng)建一個多通道響應圖。SiamFC在數百萬視頻幀上離線訓練后損失稱之為Lsiam。
SiamRPN。李等[24]依靠 region proposal network大大提高了SiamFC的績效(RPN),它允許估計目標位置帶有可變長寬比的邊界框。在SiamRPN中,每個RoW編碼一組有k個高程點和相應的對象分數。所以SiamRPN和分數是輸出框的并行預測,是使用平滑L1和交叉熵損失訓練兩個輸出部分。在下文中,本文分別將它們稱為Lscore和Lmask。
與依賴低保真對象表示的現有分割方法不同,煙霧識別實驗認為生成每幀二進制分割掩碼的重要性。所以完全卷積孿生網絡的RoW還可以編碼產生像素方式的二元掩模所需的信息。這可以通過擴展現有的Siamese跟蹤器來實現額外的分支和損失如圖1所示。
本文使用具有可學習參數的簡單雙層神經網絡hφ預測w×h二進制掩模(每個RoW有一個)。設mn表示對應于第n個RoW的預測掩模
(2)
(3)
因此,hφ的分類層由w×h分類組成,每個分類層指示像素是否屬于候選窗口中的對象。請注意Lmask僅被視為正向行(即yn=1)。
掩碼表示與FCN和Mask RCNN風格的語義分割方法相比,它們在整個網絡中保持顯式的空間信息,本文的方法從平坦的表示形式開始生成掩模對象。該表示對應于由fθ(z) 和fθ(x) 之間的深度方向互相關產生的(17×17)個RoW。重要的是分割任務的網絡hφ由兩個1×1卷積層組成,一個具有256個通道,另一個具有632個通道(圖1)。這允許每個像素分類器利用整個RoW中包含的信息,從而在x中具有其對應候選窗口的完整視圖,這對于消除看起來像目標煙霧的實例之間的歧義對象是至關重要的。為了生成更精確的對象掩模,本文使用由上采樣層和跳過連接組成的多個細化模塊來合并低分辨率和高分辨率特征對象,如圖2所示。
圖2 掩模生成神經網絡結構
對于我們的實驗,本文使用分段分支和損失Lmask來擴充SiamFC和SiamRPN的體系結構,獲得改進的雙分支網絡,這些優(yōu)化了多任務損失L。 其定義如下
L=λ1·Lmask+λ2·Lscore
(4)
而式(4)中的Lscore是應用Siamese方法中的損失函數,在訓練之前設置超參數λ1=32,λ2=1。
在邊框初始化中雖然VOS標準需要二進制掩碼,但標準分割需要一個邊界框作為目標對象的最初表示??紤]3種不同的策略從二元掩模生成邊界框(圖3):圖3(a)軸對齊邊界矩形(Min-max),圖3(b)旋轉最小周長矩形(MBR)和圖3(c)優(yōu)化策略用于VOT-2016中提出的自動生成邊界框(opt)。
圖3 煙霧圖像初始化box
表1說明了主干架構的細節(jié)(圖1中的fθ)。對于輸出兩分支網絡使用ResNet-50包括前4層卷積層圖2。為了在深層中獲得更高的空間分辨率,是通過使用具有步幅1的卷積將輸出步幅減小到8。此外,使用擴張卷積來增加感受野,實驗在conv4的3×3轉換層中將步幅設置為1并將擴張率設置為2。與原始ResNet-50不同,conv4_x中沒有下采樣。實驗還向主干網絡中添加了調整層(具有256個輸出通道的1×1卷積層),從conv1到conv4共享網絡參數,而調整層的參數不共享。然后調整層的輸出特征在深度方向上相互交叉相關,得到尺寸為17×17的特征圖。
分支的網絡架構見表2。分支網絡中的conv5塊包含歸一化層和ReLU非線性,而conv6僅包含1×1。
表1 主干網絡架構
表2 雙分支頭的結構細節(jié)
在本節(jié)中進行了相關實驗任務,半監(jiān)督視頻對象分割(煙霧視頻數據集上)在孿生神經網絡的測試。
有關煙霧數據在半監(jiān)督設置中,VOS方法用二進制掩碼初始化[5]。其中許多方法在測試時需要加入密集型技術,如圖4(a)原始數據,圖4(b)數據增強[15,16],圖4(c)推斷MRF/CRF[9-11]精細調整[11-14]。因此,VOS技術需要幾分鐘來處理數據。
對于煙霧數據集使用官方性能度量:表示區(qū)域相似性的Jaccard索引(J)和表示輪廓精度的F-measure(F)。對于每個度量C∈{J,F}, 考慮3個統(tǒng)計量:平均CM,召回CO和衰減CD,并測試隨時間的性能增益/損失[6],測試了不遮擋(JS,FS)和遮擋的類別(JU,FU)的平均Jaccard指數和F-measure,O是這4項指標的平均值。為了初始化網絡,則從第一幀中提供的掩碼中提取軸對齊的邊界框(Min-max策略,參見圖3)。與大多數VOS方法類似,如果同一視頻中有多個煙霧目標本實驗只進行多次預測。
數據集上的EAO、準確度和魯棒性指標對比見表3,煙霧視頻的結果(驗證集),FT和M分別表示該方法是否需要微調以及是否使用掩碼(+)或邊界框(*)進行初始化見表4和不同煙霧視頻上的結果見表5,顯示了本文提出方法在煙霧視頻檢測中的實驗結果。首先,它比OnAVOS[14]或SFL[18]等準確方法快了近兩個數量級。其次,它與最近使用的微調VOS方法相比具有很好的準確率,而效率是最快的分割的4倍。注意到本文的網絡在區(qū)域相似性(JD)和輪廓精度(FD)方面都實現了非常低的衰減[6]。這表明我們的方法隨著時間的推移是穩(wěn)健的,因此它表示特別長的序列。
圖4 煙霧數據處理
表3 數據集上的EAO、準確度和魯棒性指標對比
表4 FT和M分別表示該方法是否需要微調以及是否使用掩碼(+)或邊界框(*)進行初始化
表5 煙霧視頻上的結果(驗證集)
在本節(jié)中說明消融研究,對比幾種不同網絡架構以及可視化實驗結果對比。在表6中,AN和RN表示的是使用AlexNet還是ResNet-50作為共享骨干fθ(圖1),而使用“w/oR”表示該方法不使用Pinheiro等的細化策略[26]。從表5的結果可以進行多次觀察。①第一組行表明,通過簡單地更新fθ的架構,可以實現重要的性能改進。然而,這是以犧牲速度為代價的,特別是對于SiamRPN。②本文的網絡在對于(使用相同的fθ)SiamFC和SiamRPN方面有顯著改善。③在Pinheiro等的改進方法[26],對于輪廓精度FM非常準確,但對其它指標則不是很好。
本文網絡在線運行在單個NVIDIA GTX 1060 GPU上,網絡平均速度為55幀/秒。最高的計算負擔來自特征提取器fθ, 實驗中輸出的圖5(a)原圖與圖5(b)mask圖像(ground truth,真值圖)。
表6 關于煙霧數據集的消融研究
本文使用Min-max,MBR和Opt方法比較本文的二分支變體,在3種不同初始化下比較SiamFC和SiamRPN與本文網絡的交并比(IU)。
圖5 煙霧mask真值圖
表7顯示,無論使用何種初始化生成策略,本文的方法都能達到最佳mIU。盡管Our-opt提供了最高的IU和mAP,但由于其優(yōu)化過程緩慢,它需要大量的計算資源。Our-MBR達到85.34的mAP@0.5 IU,相應的改進分別為+29和+9.2 score。當在mAP0.7 IU的較高準確度方案中差距顯著擴大:分別為+41.6和+18.4 score。所以可以得出,通過簡單地改變邊界框表示有很大的改進空間。
綜合上述實驗結果并進行可視化比較,盡管速度很快,但即使存在干擾物,網絡也能產生精確的分割掩模,圖6(a) OnAVOS,圖6(b)OSVOS,圖6(c)OSMN,圖6(d)本文數據訓練結果對比如圖6所示。
表7 不同邊界框表示的交并比
圖6 實驗煙霧視頻跟蹤效果
在本文中介紹了孿生神經網絡,這是一種雙輸入的方法,可以使完全卷積Siamese跟蹤器生成目標對象類,同時也生成了不可知的二進制分割掩碼。本文展示了它如何成功應用于半監(jiān)督視頻對象分割任務,同時也是VOS方法中最快的速度,并提出一個簡單的邊界框初始化在線操作,實時運行不需要對測試序列進行任何調整。同時算法可以取得可比較的分割精度,同時速度快了近一個數量級。對比經典的OSVOS,我們的算法快了近3個數量級,使得視頻目標分割可以得到實際使用。