• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于邊界敏感網(wǎng)絡(luò)的時序行為定位研究*

    2023-09-29 05:51:58余思成
    計算機(jī)與數(shù)字工程 2023年6期
    關(guān)鍵詞:時序卷積概率

    余思成 彭 力

    (江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院 無錫 214000)

    1 引言

    為了保證自身的利益和安全,人們每年都會在不同的區(qū)域投放數(shù)百萬的攝像頭,這將會產(chǎn)生大量的記錄、傳輸和存儲視頻。視頻是一種有著密集的信息和背景變化復(fù)雜的媒介,為了減少日常繁瑣的視頻檢索任務(wù),研究人員著手開發(fā)一項能夠檢測未修剪的視頻中發(fā)生人員活動片段的技術(shù),這在計算機(jī)視覺中是一項具有挑戰(zhàn)性的任務(wù),隨著互聯(lián)網(wǎng)的迅速發(fā)展,在引入卷積神經(jīng)網(wǎng)絡(luò)之后,越來越多的算法也被研究者提出。

    在視頻行為識別領(lǐng)域中,要對一段長視頻進(jìn)行行為識別通常分為兩個步驟:行為分類和行為定位。在行為分類中很多算法已經(jīng)達(dá)到了很高的準(zhǔn)確性,大致分為兩種方法,第一種方法是Simonyan[1]等提出的雙流卷積網(wǎng)絡(luò),他采用兩個二維卷積網(wǎng)絡(luò)分別提取視頻的時間和空間特征,最后進(jìn)行特征融合,Wang L[2]等的TSN 算中在雙流卷積上增加了稀疏采樣的過程,解決了雙流卷積無法對長時間視頻建模的短板,本文的視頻特征提取部分也將采用此算法進(jìn)行。第二種方法是直接使用三維卷積神經(jīng)網(wǎng)絡(luò)提取時空特征,如3-Dimensionsal Convolutional Networks(C3D)[3],Tran 等把2D 卷積結(jié)構(gòu)拓展到3D卷積結(jié)結(jié)構(gòu),對多幀連續(xù)的視頻序列提取時空特征,由于模型計算量小,所以比第一種方法速率快,但精確度不高。在行為定位領(lǐng)域中,GAO J[4]等提出了一種TURN 模型,借鑒Faster-Rcnn[5]中采用anchor的方式生成預(yù)測序列,并用時空坐標(biāo)進(jìn)行修正,Bush S[6]等的SST 算法網(wǎng)絡(luò)通過結(jié)構(gòu)化時序金字塔對每一個動作實例的時序結(jié)構(gòu)建模。在金字塔的頂端,引入一個判別模型進(jìn)行視頻序列預(yù)測。

    本文結(jié)合Lin T[7]提出的邊界敏感網(wǎng)絡(luò)(Boundary-Sensitive Network,BSN)算法,沿用了時序動作檢測的傳統(tǒng)的兩個階段,第一階段輸入原始視頻的圖像序列,為了獲得較高的準(zhǔn)確率,通常引入光流來增強視頻的特征表達(dá),原始圖片和光流序列經(jīng)過二維卷積后,采用TSN 模型進(jìn)行分?jǐn)?shù)融合,生成視頻特征序列作為第二階段的輸入,然后使用三個獨立的模型分別進(jìn)行動作時間預(yù)測,動作序列融合和預(yù)測序列置信度。本文主要貢獻(xiàn)如下:

    1)改變了時序評估模塊中的網(wǎng)絡(luò)模型,在一維卷積中構(gòu)造低級雙流特征,豐富了視頻原始特征的語義信息,使得生成的時序概率序列更加準(zhǔn)確。

    2)引入了目標(biāo)檢測領(lǐng)域中的softer-NMS,應(yīng)用在時序行為定位中,能夠?qū)崿F(xiàn)修正最佳序列坐標(biāo)的效果。

    將改進(jìn)的算法與baseline的邊界敏感網(wǎng)絡(luò)BSN以及目前的state-of-the-art 算法比較,通過在THUMOS-14 數(shù)據(jù)集上進(jìn)行測試,證明該算法取得了較好的效果。

    2 相關(guān)工作

    算法主要包含三個模塊,依次為時序評估模塊,提名生成模塊和提名評估模塊,結(jié)構(gòu)框圖如圖1所示。

    圖1 BSN網(wǎng)絡(luò)框架

    1)視頻特征編碼(visual encoder)

    雙流法的視頻提取特征算法具有高效的性能,采用經(jīng)典的雙流法TSN 用以提取視頻中豐富的特征信息,對每個包含T 幀的視頻分為T/ns T/ns個snippet 作為網(wǎng)絡(luò)輸入的最小單元,其中ns=16ns=16 為每個最小單元的長度。兩個通道均采用Inception-v4 作為基礎(chǔ)的卷積網(wǎng)絡(luò),空間層將視頻的RGB 圖像作為網(wǎng)絡(luò)輸入,時空層的輸入的是包含x方向和y方向的兩張光流圖像,最終兩個網(wǎng)絡(luò)進(jìn)行特征融合得到提取好的視頻特征作為下一個模塊的輸入。

    2)時序評估模塊(Temporal Evaluation Module)

    原BSN算法基于提取的圖像特征序列,時序評估模塊采用三層一維時序卷積層來對視頻序列中每個位置上動作開始的概率、動作結(jié)束的概率和動作進(jìn)行的概率同時進(jìn)行建模。本文框架延續(xù)了一維時間卷積層去探索局部語義信息,用以捕捉和判斷在時序邊界上的動作特征,不在特征提取階段將RGB特征和光流特征融合,而是在時序評估階段分別對其進(jìn)行卷積融合構(gòu)造低級雙流特征,從而生成動作開始概率序列,動作結(jié)束概率序列和動作概率序列。

    3)提名生成模塊(Proposal Generation Module)

    為了生成候選時序動作提名,將上一模塊輸出產(chǎn)生的時序序列中滿足條件的時間位置點篩選出來,組成多個候選序列。選擇動作開始和動作結(jié)束概率序列中滿足以下兩點條件之一的時間節(jié)點作為候選時序邊界節(jié)點:

    (1)概率高于一個閾值;

    (2)該時間節(jié)點的概率高于前一時刻以及后一時刻的概率(即一個概率峰值)。

    然后將候選開始時間節(jié)點和候選結(jié)束時間節(jié)點兩兩結(jié)合,保留條件符合要求的開始節(jié)點-結(jié)束節(jié)點組合作為候選時序動作提名。對于生成的每一段候選序列,采用線性插值的方法生成BSP(Boundary-Sensitive-Proposal)特征,用于第三步的輸入。

    4)提名評估模塊(Proposal Evaluation Module)

    經(jīng)過上述處理,生成的一個時序序列可以表示為Pro=()Ts,Te,Fbsp,Ts表示對應(yīng)的動作開始時間點,Te表示對應(yīng)的動作結(jié)束時間點,F(xiàn)bsp表示通過PGM產(chǎn)生的BSP特征,該模塊采用一個簡單的多層感知器(MLP)對于每個時序序列進(jìn)行置信度評估,置信度分?jǐn)?shù)越高代表該時序序列是一個完整的動作序列的可能性越高。最后通過Soft-NMS 對結(jié)果進(jìn)行非極大值抑制,降低算法產(chǎn)生重疊序列的可能性。

    3 基于BSN的改進(jìn)方法

    3.1 生成時序概率序列模型

    基于提取的圖像特征序列,時序評估模塊(TEM)接收時序視頻特征序列作為輸入,經(jīng)過前期的視頻特征提取之后,每個視頻可以表示為V={Fw,ψw},其中Fw和ψw分別表示該視頻的特征序列和動作實例。對每一個動作實例ψw=(ts,te),其中的開始時序區(qū)域在模型中擴(kuò)展為,結(jié)束時序區(qū)域擴(kuò)展為,其中dg=ts-te,將作為該模型的輸入。

    原算法僅采用3 層一維時序卷積層來對視頻序列進(jìn)行建模,將視頻特征融合之后進(jìn)行簡單的一維卷積會丟失掉視頻語義信息。為了豐富原始視頻特征,本文不在視頻特征提取階段提前將信息融合,而是利用兩個堆疊的一維卷積層分別對空間和時間特征進(jìn)行卷積,如圖2 所示,時間和空間特征信息分別由Sf=Fconv(12Fconv11(S))和Tf=Fconv22(Fconv21(T))表示,然后在第二層將Sf和Tf進(jìn)行融合構(gòu)造低級雙流特征,dsf=Fsu(mSf,Tf)。Sf,Tf和dsf將分別采用三個卷積層用以生成三個動作特征序列Pa=(Fconv13(Sf),F(xiàn)conv23(Tf),F(xiàn)conv33(dsf)。

    圖2 TEM網(wǎng)絡(luò)結(jié)構(gòu)

    定義一個1D-Resnet單元為

    其中,x和y分別表示該殘差單元的輸入和輸出,F(xiàn)(x,w)表示經(jīng)過2 次一維卷積之后的特征序列,W1和W2為單元中的卷積核權(quán)重,σ為激活函數(shù),本文中采用Relu函數(shù)作為激活函數(shù)。

    該模型結(jié)構(gòu)組成如下:

    1)輸入層(Input)為經(jīng)過TSN 網(wǎng)絡(luò)得到的[nvmt,fd]序列,其中nv表示輸入的視頻數(shù)量,訓(xùn)練集中數(shù)量為200,測試集為213,mt為時間最長的視頻序列長度,TSN 網(wǎng)絡(luò)的兩路輸出特征層維度都為1024,作為該網(wǎng)絡(luò)輸入的特征長度。

    2)一維卷積(1D-Conv)分別對輸入的視頻特征卷積,過濾器設(shè)為512,卷積核大小為3,步長為1,并采用zero-padding填充保證尺度不變。

    3)為加快模型收斂和防止梯度消失,在每一層卷積之后采用歸一化(Batch Normalization)操作,加快了訓(xùn)練速度。

    4)在歸一化之后添加dropout 層調(diào)節(jié)模型的泛化能力,這里參數(shù)設(shè)置為0.2。

    5)對于構(gòu)造出的低級雙流特征層,連接融合并采用下采樣(Down sample)改變特征維度,使得其與最后的輸出層特征相同。

    6)全連接層(FC),其輸出維度為每個視頻的時序概率點,輸出格式為[nv*mt,cv,lp],其中cv=3表示輸出的是三通道,分別代表運動序列、開始序列和結(jié)束序列。lp分別是在時間軸上每個時間點關(guān)于行為,開始,結(jié)束的概率,從而生成動作概率序列,動作開始概率序列和動作結(jié)束概率序列,序列長度lp設(shè)為100。

    在模型訓(xùn)練時,考慮到這是一個多輸出的預(yù)測任務(wù),分別計算三個預(yù)測部分各自的二元邏輯回歸損失函數(shù)Lbl,然后加權(quán)組合為該模型的損失函數(shù),總體損失函數(shù)公式如下:

    其中λ用來控制動作區(qū)域損失對結(jié)果的影響,實驗中λ=2,Lbl Lbl公式如下:

    其中bi=sign(gi-θIoP)是用于轉(zhuǎn)換真值分?jǐn)?shù)的二值函數(shù),gi為在θIoP=0.5 指標(biāo)下的真值iou分?jǐn)?shù),定義l+=和l-=lw-l+,均衡正負(fù)樣本數(shù)量

    如表1 所示,經(jīng)過模型的修改,能看出替換了時序概率階段的模型能夠在提議數(shù)量為100和200時有著近0.5 的召回率提升,相對于原始模型能夠更好地捕捉原始視頻特征信息,從而使得初步構(gòu)建的時序概率曲線能將原始視頻表現(xiàn)的更加完整。

    表1 不同模型下的召回率比較

    3.2 非極大值抑制(non-maximum suppression)

    在最后生成行為預(yù)測序列時,經(jīng)常會出現(xiàn)大量用于表示同一行為的重疊序列,所以需要進(jìn)行非極大值抑制從而排出重疊序列并識別和定位出我們想要看到的行為序列。NMS[8]算法被廣泛地應(yīng)用在邊緣檢測和目標(biāo)檢測中,主要用于解決分類器分類時,目標(biāo)被大量的候選區(qū)域框包圍從而出現(xiàn)候選區(qū)域大量重疊的現(xiàn)象,該算法在時序行為定位領(lǐng)域同樣具有較好的效果。

    傳統(tǒng)的NMS 是根據(jù)每個目標(biāo)與得分最高目標(biāo)的iou值,若大于規(guī)定閾值則刪除,低于閾值的保留。Soft-NMS算法在執(zhí)行過程中不是簡單的對iou大于閾值的檢測框刪除,而是加入了高斯加權(quán)法對其進(jìn)行降分,softer-NMS則是在非極值抑制之后對最終目標(biāo)進(jìn)行修正,具體算法如下:

    1)對候選序列集合P中所有序列按照得分大小排序,選擇最大的框記為M。

    2)分別計算所有的序列與M的iou值,大于某閾值的序列放入集合S中。

    3)利用線性加權(quán)法將S集合中的序列逐一進(jìn)行降分,并對集合S中的序列坐標(biāo)進(jìn)行加權(quán)平均計算,然后對M進(jìn)行修正。

    4)在P中刪除M,并將M放入有效結(jié)果集合R中,返回步驟1),直至P中無序列。

    算法原理圖如圖3所示。

    圖3 Softer-NMS算法步驟

    Soft-NMS中采用高斯加權(quán)法降分,公式如下:

    其中M為當(dāng)前時序序列置信分?jǐn)?shù)最大的序列,bi為待處理的時序序列,si是bi序列的置信分,IoU是兩者序列的重疊率,具體表達(dá)式如下:

    其中A是預(yù)測序列,B是實際序列,由此可看出bi和M的IoU越大,bi的得分si就下降的越厲害。

    Softer-NMS 中分別對所有IoU>Nt的預(yù)測序列坐標(biāo)進(jìn)行加權(quán)平均計算,得到兩個新的時間點,第i個時序序列的計算公式如下(j表示所有IoU>Nt的序列):

    通過文獻(xiàn)Softer-NMS[9]中的實驗結(jié)果可知閾值Nt Nt設(shè)置為0.45到0.6效果最佳,通過實驗可得閾值Nt取為0.6 時能得到最佳效果。通過上述可知,為了解決時序行為定位中的預(yù)測序列重疊難以分辨,soft-NMS引入了高斯加權(quán)法對重疊部分進(jìn)行降分,從而達(dá)到去除重疊時序的效果,但反而忽略了這些被降分的重疊部分的時序信息。Softer-NMS則是對這些被忽略的時序信息的時序坐標(biāo)得分進(jìn)行加權(quán),實現(xiàn)了“多條合一”,優(yōu)化了最佳候選序列坐標(biāo),充分利用了所有的時序序列信息,效果如圖4所示。

    圖4 實驗效果展示

    4 實驗結(jié)果與過程

    4.1 數(shù)據(jù)集和評價指標(biāo)

    THUMOS 是一個包含大量的人類動作在真實環(huán)境中開源視頻數(shù)據(jù)集,其中人類動作包括刷牙、吹頭發(fā)等日常動作和汽車、打籃球等體育動作。THUMOS-14中包括行為識別和時序行為檢測兩項任務(wù),帶有時序標(biāo)注的視頻是用來驗證時序信為檢測算法,驗證集含有3007 個動作片段的200 個視頻,測試集含有2558 個動作片段的213 個視頻,動作類別共有20 個種類,目前大多時序行為算法都以此數(shù)據(jù)集作為評估。

    評價指標(biāo)通常采用平均召回率(Average Rec call)和平均視頻數(shù)量(Average Number of Proposals per Video)曲線(AR-AN),其中預(yù)測出的時序序列為正確目標(biāo)的條件是該序列的時間區(qū)間和標(biāo)注中的真實動作區(qū)間的tIoU(temporal intersection over union)大于等于一個閾值,遵照慣例通常設(shè)置tIoU=[0.5∶0.05∶1.0],AN具體定義公式如下:

    4.2 實驗對比及其分析

    實驗采用python2.7 編程,均在ubuntu16.04 操作系統(tǒng)下進(jìn)行,處理器為intel i7-8700,主頻是3.20 GHz,內(nèi)存是16G。顯卡是NVIDIA Geforce GTX 1070,顯存為8G。為了證明算法的有效性,論文實驗在THUMOS-14 數(shù)據(jù)集上與目前的state-of-the-art算法進(jìn)行比較,結(jié)果如表2所示。

    表2 不同tIoU下的召回率比較

    根據(jù)實驗結(jié)果表明,本文的算法相比于baseline的BSN能夠提升1%~2%的精確度,在特征提取方面,雙流卷積相對于3D 卷積提取到的視頻信息更加豐富,在時序行為定位任務(wù)中也應(yīng)用地更加廣泛。當(dāng)候選提議數(shù)量處于50~200 之前,基于局部到全局生成時序概率曲線的方式要優(yōu)于傳統(tǒng)的滑動窗口方法和anchor 方式,有明顯的召回率提升。本文中因為加深了第一步的網(wǎng)絡(luò)模型,使得整個算法能夠處理到更多的視頻語義信息,在極大值抑制時能夠修正最終序列,最終提高了提議數(shù)量少時的召回率,但在提議數(shù)量較大時提升不明顯。

    5 結(jié)語

    提出了一種基于局部到全局的BSN改進(jìn)算法,替換了原算法的基礎(chǔ)網(wǎng)絡(luò),構(gòu)造低級雙流特征,豐富了視頻的原始特征信息,并在非極大值抑制階段引入了softer-nms 對預(yù)測序列進(jìn)行修正,得到了更加準(zhǔn)確的時序動作坐標(biāo)。在共享數(shù)據(jù)集THUMOS14中的實驗結(jié)果表明,文本的算法在視頻不同的提議數(shù)量指標(biāo)下均有提升。由于生成的時序概率序列的長度固定,基于局部到全局的方法能夠在提議數(shù)量較少時有著領(lǐng)先的精度,但在面對長時間的視頻建模卻稍顯乏力,未來將繼續(xù)改進(jìn)該方法,解決時序長度不靈活的缺點,將多個模塊聯(lián)合化學(xué)習(xí)。

    猜你喜歡
    時序卷積概率
    時序坐標(biāo)
    第6講 “統(tǒng)計與概率”復(fù)習(xí)精講
    第6講 “統(tǒng)計與概率”復(fù)習(xí)精講
    基于Sentinel-2時序NDVI的麥冬識別研究
    基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
    概率與統(tǒng)計(一)
    概率與統(tǒng)計(二)
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    基于傅里葉域卷積表示的目標(biāo)跟蹤算法
    一種毫米波放大器時序直流電源的設(shè)計
    電子制作(2016年15期)2017-01-15 13:39:08
    广丰县| 鄂托克前旗| 大新县| 于都县| 通渭县| 湾仔区| 莱阳市| 榆林市| 达州市| 武乡县| 鹿邑县| 达孜县| 无极县| 扎赉特旗| 苏尼特右旗| 射阳县| 濉溪县| 武平县| 章丘市| 嵊州市| 巴彦县| 太仓市| 盖州市| 阳城县| 横山县| 广元市| 兴文县| 宿松县| 江安县| 博客| 呈贡县| 隆安县| 安阳县| 无锡市| 丰宁| 云安县| 梁山县| 巴彦淖尔市| 綦江县| 清流县| 禄丰县|