• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于時(shí)空異構(gòu)雙流卷積網(wǎng)絡(luò)的行為識(shí)別

      2022-03-18 05:01:14丁雪琴朱軼昇朱浩華劉光燦
      關(guān)鍵詞:雙流網(wǎng)絡(luò)結(jié)構(gòu)異構(gòu)

      丁雪琴 朱軼昇 朱浩華 劉光燦

      (南京信息工程大學(xué)自動(dòng)化學(xué)院 江蘇 南京 210000)

      0 引 言

      行為識(shí)別是計(jì)算機(jī)視覺研究的一個(gè)熱點(diǎn),目標(biāo)是從一個(gè)未知的視頻或圖像序列中自動(dòng)分析其中正在進(jìn)行的行為。它在視頻監(jiān)控、行為分析、智能家居、視頻檢索和人機(jī)智能交互等領(lǐng)域發(fā)揮著重要的作用,但由于視點(diǎn)變化、背景雜亂和光照條件等限制,行為識(shí)別仍然面臨著重大挑戰(zhàn)。近年來,深度卷積網(wǎng)絡(luò)(ConvNets)[1]在圖像和語音識(shí)別方面取得了巨大的突破。此后,計(jì)算機(jī)視覺的研究人員一直試圖將卷積網(wǎng)絡(luò)轉(zhuǎn)移到行為識(shí)別上來應(yīng)用。

      與圖像領(lǐng)域的成功相比,深度學(xué)習(xí)在基于視頻的行為識(shí)別領(lǐng)域發(fā)展相對(duì)緩慢。主要有兩個(gè)原因:(1) 與圖像數(shù)據(jù)集相比,視頻數(shù)據(jù)的規(guī)模和多樣性是不可比擬的,因此需要建立一個(gè)用于深度網(wǎng)絡(luò)訓(xùn)練的大規(guī)模標(biāo)記視頻數(shù)據(jù)庫;(2) 與二維圖像相比,視頻包含更多的時(shí)序信息,引入了比圖像更復(fù)雜的分析工作。

      為了解決上述問題,近年來人們針對(duì)基于深度卷積網(wǎng)絡(luò)的視頻行為識(shí)別進(jìn)行了許多嘗試,也獲得快速發(fā)展。Karpathy等[2]比較了幾種用于行為識(shí)別的卷積網(wǎng)絡(luò)體系結(jié)構(gòu),并在一個(gè)非常大的Sports-1M數(shù)據(jù)集上進(jìn)行了相應(yīng)的訓(xùn)練過程。Tran等[3]介紹了一種基于三維卷積網(wǎng)絡(luò)的動(dòng)作識(shí)別方法。Simonyan等[4]提出了一種基于雙流網(wǎng)絡(luò)的性能優(yōu)化方法。雖然這些方法在一定限度上利用了視頻中的時(shí)間信息,但它們只關(guān)注短期的運(yùn)動(dòng)變化,沒有捕獲視頻中的長時(shí)間信息。為了解決這個(gè)問題,Wang等[5]提出了一種從視頻數(shù)據(jù)中提取長時(shí)間信息的時(shí)域網(wǎng)絡(luò)(TSN)。對(duì)于時(shí)間跨度較長的視頻行為識(shí)別而言,單幀或者是單個(gè)短片段中單幀堆棧的數(shù)據(jù)量是不夠的,需要采用密集時(shí)間采樣的方式來獲取長范圍時(shí)間結(jié)構(gòu),但是這樣會(huì)存在視頻連續(xù)幀之間的冗余,因此要用稀疏的時(shí)間采樣來代替密集的時(shí)間采樣,也就是對(duì)視頻做抽幀的時(shí)候采取較為稀疏的抽幀方式,這樣可以去除一些冗余信息,同時(shí)降低計(jì)算量。Cho等[6]提出了一個(gè)新的時(shí)空融合網(wǎng)絡(luò)(STFN),它集成了整個(gè)視頻的外觀和運(yùn)動(dòng)信息的時(shí)間動(dòng)態(tài),然后將捕獲的時(shí)間動(dòng)態(tài)信息進(jìn)行融合,以獲得更好的視頻級(jí)表示,并通過端到端訓(xùn)練進(jìn)行學(xué)習(xí)。Martinez等[7]利用細(xì)粒度識(shí)別方面的進(jìn)展來改進(jìn)行為識(shí)別的模型,將重點(diǎn)放在如何提高網(wǎng)絡(luò)的表示能力,也就是改進(jìn)網(wǎng)絡(luò)的最后一層,在這一層中變化對(duì)計(jì)算成本的影響很小。Torpey等[8]使用三維卷積神經(jīng)網(wǎng)絡(luò)從視頻采樣片段中分別提取局部外觀和運(yùn)動(dòng)特征,將局部特征連接起來形成全局表示,然后用全局表示訓(xùn)練一個(gè)線性支持向量機(jī)來執(zhí)行行為分類。

      基于以上方法,本文提出一種基于行為識(shí)別的雙流卷積網(wǎng)絡(luò)結(jié)構(gòu)。在原雙流網(wǎng)絡(luò)結(jié)構(gòu)中,時(shí)間網(wǎng)絡(luò)和空間網(wǎng)絡(luò)具有相同的結(jié)構(gòu),但人們對(duì)表觀和運(yùn)動(dòng)的理解是兩個(gè)截然不同的過程,因此空間和時(shí)間網(wǎng)絡(luò)應(yīng)該是不一樣的。為了解決這一難題,本文提出了一種基于時(shí)空異雙流網(wǎng)絡(luò)的行為識(shí)別方法。此外,為了從視頻序列中提取長時(shí)間信息,將視頻分段[5]的思想引入到提出的時(shí)空異構(gòu)網(wǎng)絡(luò)中。實(shí)驗(yàn)結(jié)果表明,本文時(shí)空異構(gòu)雙流網(wǎng)絡(luò)的性能優(yōu)于時(shí)空同構(gòu)網(wǎng)絡(luò)。

      1 時(shí)空異構(gòu)雙流卷積網(wǎng)絡(luò)模型

      本文基于雙流卷積網(wǎng)絡(luò),提出了時(shí)空異構(gòu)的雙流網(wǎng)絡(luò)結(jié)構(gòu),在此基礎(chǔ)上,將BN-Inception和ResNet引入作為時(shí)空異構(gòu)雙流網(wǎng)絡(luò)的基本網(wǎng)絡(luò),最后引入視頻分段的思想,建立了視頻分段的時(shí)空異構(gòu)雙流卷積網(wǎng)絡(luò)模型,整體框架如圖1所示。

      圖1 整體框架

      1.1 時(shí)空異構(gòu)雙流網(wǎng)絡(luò)

      時(shí)空異構(gòu)雙流網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,其采用了不同的網(wǎng)絡(luò)結(jié)構(gòu)??梢钥闯觯O(shè)計(jì)時(shí)空異構(gòu)雙流網(wǎng)絡(luò)有兩個(gè)動(dòng)機(jī):(1) 當(dāng)雙流網(wǎng)絡(luò)中的時(shí)空網(wǎng)絡(luò)具有相同的結(jié)構(gòu)即時(shí)空同構(gòu)時(shí),雙流合并時(shí)會(huì)產(chǎn)生大量的冗余信息;(2) 由于人對(duì)表觀和運(yùn)動(dòng)的理解是兩個(gè)截然不同的過程,所以時(shí)空的網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)該是不一樣的。

      圖2 時(shí)空異構(gòu)雙流結(jié)構(gòu)

      輸入數(shù)據(jù)的形式是RGB圖像和光流場(chǎng),如圖3所示。單個(gè)RGB圖像是對(duì)視頻的中的某一幀的靜態(tài)外觀進(jìn)行編碼,光流場(chǎng)是視頻的光流信息用來獲取運(yùn)動(dòng)信息。與原始的雙流卷積神經(jīng)網(wǎng)絡(luò)[1]一樣,空間卷積神經(jīng)網(wǎng)絡(luò)對(duì)單個(gè)RGB圖像進(jìn)行操作,而時(shí)間卷積神經(jīng)網(wǎng)絡(luò)以一組連續(xù)的光流場(chǎng)作為輸入。

      圖3 輸入數(shù)據(jù)形式

      1.2 網(wǎng)絡(luò)架構(gòu)

      一個(gè)好的視頻網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)該提取更多不同的時(shí)空信息。為了最大限度地挖掘時(shí)空異構(gòu)雙流網(wǎng)絡(luò)的潛力,本文在時(shí)空異構(gòu)雙流網(wǎng)絡(luò)中引入ResNet和BN-Inception網(wǎng)絡(luò)作為提取時(shí)空特征的網(wǎng)絡(luò)結(jié)構(gòu)。

      1.2.1殘差網(wǎng)絡(luò)

      圖4 殘差單元結(jié)構(gòu)

      殘差單元被定義為[9]:

      xl+1=σ(xl+F(xl;wl))

      (1)

      式中:xl和xl+1分別為第l層的輸入和輸出;F(xl;wl)是非線性殘差映射;σ(·)表示ReLU函數(shù)[10]。殘差單元的主要優(yōu)勢(shì)是跨層連接的方式可以從第一層直接傳播到網(wǎng)絡(luò)中的任何層,避免了梯度爆炸和消失的問題。同時(shí),跨層連接不會(huì)引入額外的參數(shù)和計(jì)算復(fù)雜度,而且可以加快網(wǎng)絡(luò)的收斂速度。

      1.2.2BN-Inception

      BN-Inception[11]用一個(gè)非常有效的正則化方法,使大型卷積網(wǎng)絡(luò)的訓(xùn)練速度加快,同時(shí)收斂后的分類準(zhǔn)確率也得到大幅提高。它不再依賴于具有技巧性的參數(shù)初始化點(diǎn),可以使用更大的學(xué)習(xí)率加快訓(xùn)練過程,另外其正則化手段可以有效緩解Sigmoid或tanh等激活函數(shù)的梯度消失問題,同時(shí)在一定程度上也降低了對(duì)Dropout等手段的依賴。

      由于ResNet能夠通過增加相當(dāng)?shù)纳疃葋硖岣邷?zhǔn)確率,BN-Inception網(wǎng)絡(luò)用一個(gè)非常有效的正則化方法,讓大型卷積網(wǎng)絡(luò)的訓(xùn)練速度加快,同時(shí)收斂后的分類準(zhǔn)確率也得到大幅提高。因此本文將ResNet和BN-Inception網(wǎng)絡(luò)作為基本網(wǎng)絡(luò),構(gòu)建了一個(gè)更深層次的時(shí)空異構(gòu)雙流網(wǎng)絡(luò)。與雙流網(wǎng)絡(luò)使用的VGG網(wǎng)絡(luò)相比,ResNet具有更少的濾波器和更低的計(jì)算復(fù)雜度。雖然增加了ResNet的深度,但ResNet- 50(38億次)和ResNet-101(76億次)的計(jì)算復(fù)雜度仍然低于VGG-16(153億次)和VGG-19(196億次)。

      1.3 建模長范圍時(shí)間結(jié)構(gòu)

      視頻中的長時(shí)間信息對(duì)行為識(shí)別也起著非常重要的作用。從TSN[5]中得到引導(dǎo),通過視頻分段來提取視頻序列中長時(shí)間的時(shí)間信息來提高時(shí)空異構(gòu)雙流網(wǎng)絡(luò)的性能。根據(jù)時(shí)間的長短,將視頻分成K個(gè)等長片段{S1,S2,…,SK},基于分段的空時(shí)異構(gòu)雙流卷積網(wǎng)絡(luò)Y對(duì)行為的識(shí)別可以表示為:

      Y(T1,T2,…,TK)=H(g(F(T1;W),F(T2;W),…,

      F(TK;W)))

      (2)

      式中:(T1,T2,…,TK)是一個(gè)片段序列,每個(gè)代碼片段TK從其對(duì)應(yīng)的片段SK中隨機(jī)采樣,在空間網(wǎng)絡(luò)對(duì)應(yīng)的是RGB幀圖像,時(shí)間網(wǎng)絡(luò)是光流;F(TK;W)是一個(gè)帶有參數(shù)W的卷積神經(jīng)網(wǎng)絡(luò)函數(shù),該函數(shù)對(duì)代碼片段TK進(jìn)行操作,生成所有類的類分?jǐn)?shù);分段融合函數(shù)g(·)將多個(gè)短片段的輸出融合,得到空間網(wǎng)絡(luò)或時(shí)間網(wǎng)絡(luò)的特征。利用輸出函數(shù)H(·)對(duì)識(shí)別結(jié)果進(jìn)行分類,利用Softmax函數(shù)得到各行為類別的概率值。

      分段融合的最終損失函數(shù)定義為:

      (3)

      式中:C表示動(dòng)作類別的數(shù)量;yi表示關(guān)于類別i的基準(zhǔn)標(biāo)簽;Gi=g(F(T1;W),F(T2;W),…,F(TK;W))是類i的類得分,通過對(duì)K個(gè)片段的同一類別的得分進(jìn)行平均得到。本文利用多個(gè)片段,用標(biāo)準(zhǔn)的反向傳播算法聯(lián)合優(yōu)化模型參數(shù)W。反向傳播過程中,W的梯度對(duì)時(shí)空異構(gòu)雙流網(wǎng)絡(luò)行為識(shí)別損失值L可以推導(dǎo)出如下公式:

      (4)

      然后,通過小批量隨機(jī)梯度下降法得到相關(guān)的模型參數(shù)。從式(4)可以看出,使用K個(gè)小片段的類別融合G來更新參數(shù)。使用此類優(yōu)化方式,能學(xué)習(xí)到視頻級(jí)的模型參數(shù),進(jìn)而獲得長期的時(shí)間信息。

      2 實(shí) 驗(yàn)

      2.1 數(shù)據(jù)集

      本文在UCF101[12]和HMDB51[13]兩大數(shù)據(jù)集上驗(yàn)證方法的有效性。UCF101數(shù)據(jù)集包含101個(gè)動(dòng)作類和13 320個(gè)視頻剪輯。HMDB51由51個(gè)動(dòng)作類別的6 766個(gè)視頻剪輯組成。對(duì)于這兩個(gè)數(shù)據(jù)集,本文遵循THUMOS13挑戰(zhàn)機(jī)制[14]的評(píng)估方案,在訓(xùn)練和測(cè)試過程中,將每個(gè)數(shù)據(jù)集分為三組,以三組數(shù)據(jù)的平均準(zhǔn)確性作為評(píng)價(jià)模型效果的指標(biāo)。

      2.2 基本參數(shù)設(shè)置

      本次實(shí)驗(yàn)是基于PyTorch 0.3.0深度學(xué)習(xí)框架。采用MBGD來學(xué)習(xí)網(wǎng)絡(luò)參數(shù),批量參數(shù)為256,動(dòng)量參數(shù)為0.9,使用來自ImageNet的預(yù)訓(xùn)練模型初來始化網(wǎng)絡(luò)權(quán)重。在實(shí)驗(yàn)中設(shè)置了一個(gè)較小的學(xué)習(xí)率。對(duì)于空間網(wǎng)絡(luò),初始化學(xué)習(xí)率為0.001,每2 000次迭代減少到它的1/10次。整個(gè)訓(xùn)練過程在4 500次迭代停止。對(duì)于時(shí)間網(wǎng)絡(luò),設(shè)置初始化學(xué)習(xí)率為0.005,經(jīng)過12 000和18 000次迭代后,學(xué)習(xí)率降低到它的1/10,最大迭代設(shè)置為20 000。

      在測(cè)試過程中按照雙流網(wǎng)絡(luò)結(jié)構(gòu)[4]的測(cè)試方法。在相同的時(shí)間間隔內(nèi),從動(dòng)作視頻中采樣25幀RGB幀或光流堆棧。對(duì)于每個(gè)采樣幀,通過裁剪4個(gè)角、1個(gè)中心和其水平翻轉(zhuǎn)來獲得網(wǎng)絡(luò)的10個(gè)輸入。本文融合時(shí)空網(wǎng)絡(luò)采用的是加權(quán)平均,設(shè)置空間網(wǎng)絡(luò)和時(shí)間網(wǎng)絡(luò)的權(quán)值比為1 ∶1.5。以下所有的實(shí)驗(yàn)都是在UCF101第一組數(shù)據(jù)集上進(jìn)行。

      2.3 不同分段數(shù)目性能分析

      將視頻分為K個(gè)等長的片段來對(duì)長范圍時(shí)間視頻進(jìn)行建模。當(dāng)視頻段數(shù)較少時(shí),會(huì)導(dǎo)致行為信息提取不足,訓(xùn)練模型過于簡(jiǎn)單;當(dāng)視頻段數(shù)較多時(shí),將導(dǎo)致數(shù)據(jù)冗余,增加計(jì)算量。表1顯示了使用ResNet50/101網(wǎng)絡(luò)時(shí),不同視頻段下時(shí)間網(wǎng)絡(luò)的識(shí)別性能。結(jié)果表明,將視頻分成三段時(shí)有較好的識(shí)別性能。因此在以下實(shí)驗(yàn)中,視頻片段的數(shù)目都設(shè)置為3。

      表1 時(shí)間網(wǎng)絡(luò)中不同視頻段數(shù)的行為識(shí)別準(zhǔn)確率對(duì)比(%)

      2.4 不同分段融合函數(shù)性能分析

      在式(2)中,分段融合函數(shù)由函數(shù)g(·)定義。本文評(píng)估了最大池化、平均池化和加權(quán)平均池化三個(gè)融合方案來作為融合函數(shù)的形式。實(shí)驗(yàn)結(jié)果見表2??梢钥闯觯骄鼗瘮?shù)可以獲得最佳性能,最大池化的方式整體性能較差,可能是由于視頻分段中內(nèi)容不同會(huì)導(dǎo)致判別誤差比較大。因此在以下實(shí)驗(yàn)中,本文選擇平均池化作為默認(rèn)的分段融合函數(shù)。

      表2 基于BN-Inception結(jié)構(gòu)下不同融合方式準(zhǔn)確率對(duì)比(%)

      2.5 時(shí)空異構(gòu)和時(shí)空同構(gòu)網(wǎng)絡(luò)分析

      本節(jié)中的所有實(shí)驗(yàn)都是在UCF101的第一組數(shù)據(jù)上進(jìn)行的。本文將時(shí)空異構(gòu)網(wǎng)絡(luò)分為同一類型的不同深度的網(wǎng)絡(luò)和不同類型的網(wǎng)絡(luò)。測(cè)試使用了ResNet-50、ResNet-101和BN-Inception[11]。比較了三種不同網(wǎng)絡(luò)結(jié)構(gòu)的性能,分別為:(1) 具有相同結(jié)構(gòu)的時(shí)空網(wǎng)絡(luò);(2) 深度不同但結(jié)構(gòu)相同的時(shí)空網(wǎng)絡(luò);(3) 具有不同網(wǎng)絡(luò)結(jié)構(gòu)的時(shí)空網(wǎng)絡(luò)。在實(shí)驗(yàn)中可以發(fā)現(xiàn)結(jié)構(gòu)相同但深度不同的時(shí)空網(wǎng)絡(luò)的性能要優(yōu)于時(shí)空同構(gòu)網(wǎng)絡(luò),實(shí)驗(yàn)結(jié)果見表3。從雙流融合的結(jié)果來看,ResNet-101是時(shí)間網(wǎng)絡(luò)的最佳選擇。選擇ResNet-101作為時(shí)間網(wǎng)絡(luò),選擇不同結(jié)構(gòu)的BN-Inception作為空間網(wǎng)絡(luò)時(shí),其對(duì)UCF101的第一組數(shù)據(jù)的準(zhǔn)確率為92.24%。實(shí)驗(yàn)表明,時(shí)空異構(gòu)網(wǎng)絡(luò)的性能優(yōu)于時(shí)空同構(gòu)網(wǎng)絡(luò)。

      表3 時(shí)空異構(gòu)和時(shí)空同構(gòu)網(wǎng)絡(luò)的準(zhǔn)確率比較(%)

      2.6 與現(xiàn)有方法對(duì)比

      表4將本文方法與現(xiàn)有方法進(jìn)行比較,如基于稠密軌跡編碼方式的DT[15]和iDT[16]表示方法、基于深度學(xué)習(xí)方法的3D卷積網(wǎng)絡(luò)(C3D)[17]、雙流卷積網(wǎng)絡(luò)(Two Stream)[4]、空間時(shí)間分解卷積網(wǎng)絡(luò)(FSTCN)[18]和長期卷積網(wǎng)絡(luò)(LTC)[21]。從表4中UCF 101和HMDB51數(shù)據(jù)集可以看出,本文方法優(yōu)于其他方法。與雙流方法(Two Stream)[4]相比,其準(zhǔn)確率分別提高了4.3百分點(diǎn)和3.1百分點(diǎn)。驗(yàn)證了時(shí)空異構(gòu)雙流網(wǎng)絡(luò)在基于長時(shí)間結(jié)構(gòu)上的建模是效果顯著的,相比于時(shí)空同構(gòu)雙流網(wǎng)絡(luò),時(shí)空異構(gòu)雙流網(wǎng)絡(luò)的性能有一定的提高。

      表4 本文方法與其他方法的準(zhǔn)確率比較(%)

      3 結(jié) 語

      本文提出了一種用于人體行為識(shí)別的時(shí)空異構(gòu)雙流網(wǎng)絡(luò)。由于人類對(duì)表象和運(yùn)動(dòng)的認(rèn)識(shí)和理解是兩個(gè)完全不同的過程,本文改進(jìn)了現(xiàn)有的方法,設(shè)計(jì)了不同的網(wǎng)絡(luò)結(jié)構(gòu)來提取時(shí)空信息。通過實(shí)驗(yàn)研究在性能上對(duì)時(shí)空異構(gòu)雙流網(wǎng)絡(luò)和時(shí)空同構(gòu)雙流網(wǎng)絡(luò)進(jìn)行比較,從結(jié)果可見時(shí)空異構(gòu)雙流網(wǎng)絡(luò)的性能更好。同時(shí)為了發(fā)掘時(shí)空異構(gòu)網(wǎng)絡(luò)的最大潛力,以ResNets和BN-Inception作為基本網(wǎng)絡(luò)來提取更多的表觀和運(yùn)動(dòng)特征。在此基礎(chǔ)上,建立了視頻的長時(shí)間時(shí)間信息提取結(jié)構(gòu)。通過端到端培訓(xùn),該網(wǎng)絡(luò)在HMDB51和UCF101數(shù)據(jù)集上的性能顯著提高。

      猜你喜歡
      雙流網(wǎng)絡(luò)結(jié)構(gòu)異構(gòu)
      方一帆
      四川省成都市雙流區(qū)東升迎春小學(xué)
      試論同課異構(gòu)之“同”與“異”
      雙流板坯側(cè)面鼓肚與邊角掛鋼原因與對(duì)策
      四川省成都雙流中學(xué)實(shí)驗(yàn)學(xué)校
      overlay SDN實(shí)現(xiàn)異構(gòu)兼容的關(guān)鍵技術(shù)
      LTE異構(gòu)網(wǎng)技術(shù)與組網(wǎng)研究
      基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
      知識(shí)網(wǎng)絡(luò)結(jié)構(gòu)維對(duì)于創(chuàng)新績效的作用機(jī)制——遠(yuǎn)程創(chuàng)新搜尋的中介作用
      滬港通下A+ H股票網(wǎng)絡(luò)結(jié)構(gòu)演化的實(shí)證分析
      汉源县| 阳高县| 慈利县| 东兰县| 仙桃市| 蓬莱市| 东乡族自治县| 杂多县| 朝阳县| 独山县| 昔阳县| 柳江县| 白河县| 玉林市| 兴和县| 泽库县| 株洲县| 云龙县| 尉氏县| 长武县| 张家港市| 剑川县| 太康县| 阳山县| 邯郸市| 无极县| 灵宝市| 泰州市| 抚顺县| 东海县| 金坛市| 濉溪县| 井冈山市| 江山市| 抚远县| 潜山县| 巴彦淖尔市| 娄底市| 资溪县| 彩票| 时尚|