• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      多層次特征融合的視頻顯著目標(biāo)檢測系統(tǒng)設(shè)計(jì)

      2022-08-04 09:27:46畢洪波朱徽徽楊麗娜吳然萬
      實(shí)驗(yàn)室研究與探索 2022年3期
      關(guān)鍵詞:注意力卷積顯著性

      畢洪波, 朱徽徽, 楊麗娜, 張 叢, 吳然萬

      (東北石油大學(xué) 電氣信息工程學(xué)院,黑龍江 大慶 163318)

      0 引 言

      視頻顯著性目標(biāo)檢測(Video Saliency Object Detection,VSOD)可以提取視頻中最吸引注意力的對象。這項(xiàng)任務(wù)起始于對人類視覺系統(tǒng)(Human Vision System,HVS)的研究,并且體現(xiàn)了人類可以快速且不受干擾地將注意力轉(zhuǎn)移到復(fù)雜場景中信息最豐富的部分的能力。

      在計(jì)算機(jī)視覺領(lǐng)域,VSOD受到了廣泛的關(guān)注,包括視頻壓縮[1]等。Song等[2]設(shè)計(jì)了一個并行網(wǎng)絡(luò),其中一個網(wǎng)絡(luò)學(xué)習(xí)全局結(jié)構(gòu)的特征;另一個網(wǎng)絡(luò)融合上下文信息并細(xì)化顯著性結(jié)果。Li等[3]構(gòu)造了一個時間一致的特征,引入了長短期記憶(Long Short-Term Memory,LSTM)的流網(wǎng)絡(luò)和特征編碼器的聯(lián)合作用。然而,這些模型忽略了對于理解人類視覺注意力機(jī)制很重要的視頻幀的顯著變化。

      深度學(xué)習(xí)領(lǐng)域中核心的技術(shù)之一便是注意力機(jī)制模型,廣泛應(yīng)用于圖像處理、語音識別、自然語言處理等各個領(lǐng)域。注意力模型工作原理和人類視覺選擇性注意力機(jī)制相似,人類視覺系統(tǒng)具有特殊的大腦信號處理機(jī)制,該機(jī)制可對獲取到的圖像信號進(jìn)行快速掃描,并準(zhǔn)確地將模型關(guān)注的權(quán)重放在重要目標(biāo)所在區(qū)域,將更多的注意力資源放在目標(biāo)區(qū)域可以獲得顯著目標(biāo)更多細(xì)節(jié)特征。與此同時,無用的信息在信息處理過程中被有效抑制。

      另外,循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)擅長處理可變長度序列數(shù)據(jù),比如文字序列、時間序列等,待處理的數(shù)據(jù)具有共同的特點(diǎn)就是后面的信息和前面的信息有強(qiáng)烈的相關(guān)性。LSTM神經(jīng)網(wǎng)絡(luò)是RNN的變形結(jié)構(gòu),相較于傳統(tǒng)的RNN,LSTM可以記憶長期的信息間的聯(lián)系。LSTM網(wǎng)絡(luò)主要有三部分組成,即輸入門、輸出門和遺忘門。該網(wǎng)絡(luò)可以將過去信息與當(dāng)前信息進(jìn)行聯(lián)系,利用過去記憶的信息對未來信息進(jìn)行預(yù)測。LSTM已廣泛應(yīng)用于視頻處理等任務(wù)中。卷積LSTM(Convolutional LSTM, ConvLSTM)原理類似于LSTM,兩者最大的不同在于卷積LSTM模塊中的乘法運(yùn)算轉(zhuǎn)換為卷積運(yùn)算來代替,其可以被應(yīng)用于VSOD任務(wù)中。

      本文結(jié)合注意力機(jī)制和循環(huán)神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)了視頻顯著目標(biāo)檢測系統(tǒng),使用全局上下文對不同通道進(jìn)行權(quán)值重標(biāo)定,并且可以捕獲長時間依賴關(guān)系,充分利用全局上下文信息對視覺場景進(jìn)行全局理解。另外,該系統(tǒng)以聯(lián)合和協(xié)作的方式集成了自上而下和自下而上的消息。因此,語義信息和空間細(xì)節(jié)被納入每個層次,以粗到細(xì)的方式完成顯著性估計(jì)推理,更好地定位突出區(qū)域。在標(biāo)準(zhǔn)數(shù)據(jù)集的仿真結(jié)果表明,與11種最先進(jìn)的系統(tǒng)相比,該系統(tǒng)的性能均得到比較大的提升。

      1 視頻顯著目標(biāo)檢測系統(tǒng)

      圖1展示了檢測系統(tǒng)的整體結(jié)構(gòu)示意圖。該系統(tǒng)用ResNet-50作為主干網(wǎng)絡(luò),主要分為兩大模塊:上下文語義聚合模塊(用于空間特征的提取)和雙層卷積LSTM模塊(用于連續(xù)幀間時間相關(guān)性的提取)。在ResNet-50的各個卷積模塊中增加了注意力模塊:壓縮激勵網(wǎng)絡(luò)(Squeeze-and-Excitation Networks,SE-Net),經(jīng)過通道注意力單元重新分配權(quán)重的顯著性特征,分別進(jìn)行了自上而下和自下而上的特征聯(lián)合,最后將融合后的特征進(jìn)行整合,輸入到雙層卷積LSTM模塊中提取時間相關(guān)性特征,從而完成整個系統(tǒng)的學(xué)習(xí)。

      圖1 目標(biāo)檢測系統(tǒng)整體結(jié)構(gòu)示意圖

      1.1 上下文語義聚合模塊

      現(xiàn)有的部分視頻顯著性檢測系統(tǒng)并沒有充分考慮特征融合,因此顯著目標(biāo)不能被完全檢測。本文利用注意力SE-Net使通道特征權(quán)重分配,利用自上而下和自下而上的結(jié)構(gòu)將深層特征和淺層特征相融合,既能靈活調(diào)整不同層次特征的貢獻(xiàn),同時可以有效地進(jìn)行信息交換,避免過多的冗余信息。

      如圖1所示,ResNet-50作為該系統(tǒng)的基礎(chǔ)網(wǎng)絡(luò),并且將每個卷積模塊的特征進(jìn)行輸出,輸出分別表示為C(1)~C(5)。由于深層網(wǎng)絡(luò)主要提取豐富的語義信息和紋理信息,為了重建通道特征并抑制無用信息,本文采用深特層征C(3)、C(4)、C(5)分別輸入SE-Net,然后將每個卷積模塊處理后的特征分別輸入到CA(Context Aggregation)模塊,SE-Net和CA模塊串聯(lián)的上下文語義聚合模塊圖如圖2所示。

      圖2 上下文語義聚合模塊

      首先通過自上而下的過程傳遞淺層特征細(xì)節(jié),ResNet-50的每層輸出經(jīng)過SE-Net權(quán)重重新規(guī)劃后,輸入到CA模塊與上一層特征進(jìn)行連接,連接后的特征向下輸入以便和下層特征進(jìn)行連接,從而使高層次的特征逐步完善。CA模塊中卷積層的參數(shù)為Kernel-size:3,Padding:1,Stride:1。然后通過自下而上的過程向頂層網(wǎng)絡(luò)傳輸更多的空間細(xì)節(jié),并且背景不存在噪聲。

      自下而上的特征傳輸與自上而下傳輸相似,但傳輸方向相反,用自下而上的聯(lián)合過程細(xì)化上下文信息,提供更準(zhǔn)確的高級顯著性估計(jì)。自上而下的特征傳遞可表示為

      (1)

      (2)

      (3)

      1.2 雙層卷積LSTM模塊

      為了預(yù)測連續(xù)視頻幀中的動態(tài)顯著信息,本文運(yùn)用雙層ConvLSTM來探索視頻幀之間注意力的動態(tài)轉(zhuǎn)換,并且聯(lián)合頭部視頻幀信息以增強(qiáng)連續(xù)視頻幀間運(yùn)動信息的表達(dá)。雙層卷積LSTM模塊模型圖如圖3所示。

      圖3 雙層卷積LSTM模塊

      式中:σ代表Sigmoid激活函數(shù);*代表卷積操作;·代表元素級別的相乘;it、ot、ft分別代表輸入門,輸出門,遺忘門;gt表示輸入調(diào)制;mt表示細(xì)胞記憶;上標(biāo)H為卷積LSTM的隱藏層;H和m1表示視頻序列第1幀的輸出和細(xì)胞狀態(tài),目的是添加頭部幀的輸出信息使長距離注意力轉(zhuǎn)移得到體現(xiàn)。本文采用雙層ConvLSTM傳輸模式來提高運(yùn)動物體的感知能力,并通過監(jiān)督學(xué)習(xí)逐步更新狀態(tài)。

      2 實(shí)驗(yàn)設(shè)計(jì)

      2.1 參數(shù)及評價準(zhǔn)則

      2.1.1 實(shí)驗(yàn)設(shè)置

      本文模型基于caffe框架中實(shí)現(xiàn),并使用DAVIS和DAVSOD作為訓(xùn)練集。訓(xùn)練階段超參數(shù)設(shè)置如下:batchsize(4),the moment(0.9),the weight decay(0.000 5),基礎(chǔ)學(xué)習(xí)率設(shè)置為1×e-8。

      2.1.2 數(shù)據(jù)集

      本文使用了3個常見的視頻顯著數(shù)據(jù)集:ViSal、FBMS數(shù)據(jù)集以及UVSD數(shù)據(jù)集。

      2.1.3 評價準(zhǔn)則

      為了評估所提出網(wǎng)絡(luò)的性能,本文采用了3種流行的評估指標(biāo),包括平均絕對誤差MAE[4]、F-measure[5]和S-measure[6]。為了測量兩個圖像的區(qū)域符合的程度,通過評估精確度(Precision)和召回率(Recall)來估計(jì) F-measure 分?jǐn)?shù),其公式如下:

      (9)

      基于以往的工作經(jīng)驗(yàn),本文在評估實(shí)驗(yàn)中將β2設(shè)置為0.3。另外,采用F-measure的最大值maxF作為一種評估指標(biāo)。

      使用結(jié)構(gòu)相似度來評估顯著圖和真值圖之間的相似性。S-measure定義為

      S=αSo+(1-α)Sr

      (10)

      式中:α∈[0,1];So表示目標(biāo)級別的結(jié)構(gòu)相似度;Sr表示位置級別的結(jié)構(gòu)相似度。

      MAE常用于測量顯著概率圖P與其對應(yīng)的真值圖G之間的平均像素差,計(jì)算公式如下:

      (11)

      式中:H表示輸入幀的高;W表示輸入幀的寬。

      使用經(jīng)典的交叉熵?fù)p失函數(shù)來完成整個網(wǎng)絡(luò)的學(xué)習(xí)過程其中網(wǎng)絡(luò)的總體損失,公式如下:

      (12)

      2.2 實(shí)驗(yàn)結(jié)果及分析

      如表1所示,為了驗(yàn)證本文系統(tǒng)的有效性,和11種常見的視頻顯著性目標(biāo)檢測系統(tǒng)進(jìn)行定量比較,這些方法分別為:PQFT[7]、SST[8]、TIMP[9]、RWRV[10]、MST[11]、SAGE[12]、GF[13]、SGSP[14]、SFLR[15]、FGRNE[16]和 DLVSD[17]。其中PQFT、SST、MST、TIMP、SAGE、GF、RWRV、SGSP和SFLR是基于傳統(tǒng)方法生成的顯著目標(biāo)檢測系統(tǒng),在過去的研究中被廣泛比較。FGRNE和DLVSD是利用卷積神經(jīng)網(wǎng)絡(luò)方法提取特征的視頻顯著性檢測系統(tǒng)。

      表1 常用數(shù)據(jù)集定量比較

      表1的數(shù)據(jù)結(jié)果顯示,字體加粗?jǐn)?shù)據(jù)是對比結(jié)果中最好的結(jié)果。本文設(shè)計(jì)的系統(tǒng)明顯優(yōu)于其他系統(tǒng),尤其在具有挑戰(zhàn)的UVSD數(shù)據(jù)集中,獲得了更好的性能。由于其他系統(tǒng)使用不同的數(shù)據(jù)增廣方式可能會導(dǎo)致測評結(jié)果出現(xiàn)偏差,但本文系統(tǒng)仍然具有顯著的優(yōu)越性,因此表明該系統(tǒng)的有效性。

      圖4展現(xiàn)了3個數(shù)據(jù)集中6對視頻序列的視覺效果圖,第1行表示原圖像,第2行表示標(biāo)準(zhǔn)真值圖,第3行表示本文方法的檢測結(jié)果,其余各行表示其他算法的檢測結(jié)果。從圖4可以看出,這些圖像擁有復(fù)雜的背景和相機(jī)的快速運(yùn)動,但本系統(tǒng)檢測了完整的顯著目標(biāo)區(qū)域包括圖像中較小的顯著目標(biāo)和圖像中多個顯著目標(biāo)均可得到正確檢測。從視覺效果比較圖中可以看出,本系統(tǒng)在一些具有挑戰(zhàn)性的視頻中,如飛機(jī)和滑冰視頻段均可以生成良好的顯著區(qū)域和令人滿意的細(xì)節(jié)。

      3 結(jié) 語

      針對特征聚合過程中特征之間的差異沒有被充分考慮,導(dǎo)致顯著目標(biāo)的空間細(xì)節(jié)不完善的問題,本系統(tǒng)提出了上下文語義聚合模塊。另外,該模塊可以解決特征聚合忽略多層次特征之間差異,無法充分利用適合于定位的空間細(xì)節(jié),導(dǎo)致預(yù)測結(jié)果表現(xiàn)不佳等問題。同時,靜態(tài)信息不能準(zhǔn)確的表達(dá)運(yùn)動物體的顯著性,而連續(xù)幀之間的運(yùn)動信息又難于被捕捉,為了預(yù)測連續(xù)視頻幀中的動態(tài)顯著信息,本系統(tǒng)運(yùn)用雙層ConvLSTM來探索視頻幀之間注意力的動態(tài)轉(zhuǎn)換,并且聯(lián)合頭部視頻幀信息以增強(qiáng)連續(xù)視頻幀間運(yùn)動信息,使遠(yuǎn)距離視頻幀中豐富的語義特征被挖掘。實(shí)驗(yàn)結(jié)果表明,本系統(tǒng)的性能更加優(yōu)越。

      猜你喜歡
      注意力卷積顯著性
      讓注意力“飛”回來
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于顯著性權(quán)重融合的圖像拼接算法
      電子制作(2019年24期)2019-02-23 13:22:26
      基于視覺顯著性的視頻差錯掩蓋算法
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      一種基于顯著性邊緣的運(yùn)動模糊圖像復(fù)原方法
      論商標(biāo)固有顯著性的認(rèn)定
      A Beautiful Way Of Looking At Things
      红安县| 乌拉特中旗| 陵川县| 肥城市| 德阳市| 杭锦旗| 南城县| 炎陵县| 富宁县| 息烽县| 三亚市| 大理市| 咸阳市| 彭阳县| 天峨县| 廉江市| 靖西县| 上林县| 西平县| 高青县| 舒城县| 绥中县| 灵璧县| 肥西县| 分宜县| 洞口县| 凤庆县| 陆河县| 德化县| 阿拉尔市| 正宁县| 林芝县| 萝北县| 中宁县| 宁河县| 九龙坡区| 三明市| 峨山| 聊城市| 牟定县| 普安县|