• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于多輸入流的卷積行為識別網(wǎng)絡(luò)*

    2023-03-18 11:40:48劉石磊李欽楊耿
    科學(xué)與信息化 2023年5期
    關(guān)鍵詞:訓(xùn)練樣本卷積神經(jīng)網(wǎng)絡(luò)

    劉石磊 李欽 楊耿

    1. 深圳信息職業(yè)技術(shù)學(xué)院 廣東 深圳 518172;

    2. 香港理工大學(xué) 香港 999077

    引言

    行為識別作為計算機(jī)世界領(lǐng)域的研究重點(diǎn),在視頻監(jiān)控、人機(jī)交互、環(huán)境輔助生活、智能駕駛等應(yīng)用方面有很大的應(yīng)用空間。但是,受到遮擋、視角變化、尺度變化、陰影、光照變化和類內(nèi)變異與類間相似性等的影響,人體行為識別率并不理想。

    由當(dāng)前的行為識別方法上看,主要體現(xiàn)在以下方面:第一,基于圖像局部特征檢測的方法,即利用多極體系結(jié)構(gòu)分級的建構(gòu)實(shí)施行為識別的方法;第二,運(yùn)用深度學(xué)習(xí)開展行為識別的方法。

    基于圖像局部特征檢測的方法:使用方向梯度直方圖(Hog)或尺度不變(SHIFT)檢測子來提取視頻中的形狀信息,并用光流直方圖(HOF)或運(yùn)動邊界直方圖特征提取視頻中的運(yùn)動信息(MBH),然后用詞包形式進(jìn)行編碼,并訓(xùn)練分類器識別人體行為[1-3]。

    基于深度學(xué)習(xí)的方法:以上所提出的基于圖像局部特征的人體行為識別方法,即把視頻圖像中所提取的局部特征,依托手工制造獲得高維特征,所以這些方法具有很強(qiáng)的針對性,但通用性并不是很好。為了獲取通用性強(qiáng)的視頻中人體行為識別的方法,近些年來,學(xué)者們開始對基于深度學(xué)習(xí)算法應(yīng)用的研究。

    由目前的基于深度學(xué)習(xí)的方法上看,主要如下:第一,基于雙流的方法,即運(yùn)用空間流(spatial)、結(jié)合幀圖像提取到的光流場圖像(temporal flow),并對視頻圖像、密集分流開展CNN模型的訓(xùn)練,判斷兩個分支網(wǎng)絡(luò)關(guān)于動作的識別,融合兩個網(wǎng)絡(luò)的直接平均分類得分、svm分類得分,從而得出最終的結(jié)果[4-6]。

    第二類是基于3D卷積網(wǎng)絡(luò)的方法,通過3D卷積,可以直接處理視頻[7-9]。

    當(dāng)前,在基于視頻的行為識別應(yīng)用領(lǐng)域,深度學(xué)習(xí)得到了普遍應(yīng)用,但是仍面臨著兩個主要問題:一是長范圍時間結(jié)構(gòu)在理解視頻中較長時間的行為上起著重要作用,但是目前的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)大多只關(guān)注表象和短時間段的運(yùn)動;二是在實(shí)際中,對于深度卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練而言,亟須大量的訓(xùn)練樣本,進(jìn)一步優(yōu)化其網(wǎng)絡(luò)性能,但視頻數(shù)據(jù)的樣本量是有限的。因此如何設(shè)計有效的深度網(wǎng)絡(luò)來學(xué)習(xí)視頻序列的最佳表示,并在有限的訓(xùn)練樣本下,訓(xùn)練網(wǎng)絡(luò)以提高模型的性能是目前急需解決的研究課題。本文提出一種基于多輸入流的行為識別網(wǎng)絡(luò),首先將視頻分段,然后利用稀疏采樣策略提取視頻序列, 使得網(wǎng)絡(luò)能學(xué)習(xí)到較長時間范圍結(jié)構(gòu),同時提出基于多輸入流的卷積網(wǎng)絡(luò)結(jié)構(gòu)來提高雙流卷積神經(jīng)網(wǎng)絡(luò)在視頻行為識別方面的處理能力。

    1 方法

    1.1 稀疏采樣

    在時間結(jié)構(gòu)上視頻的連續(xù)幀是高度冗余的。因此,密集的時間采樣,通常導(dǎo)致高度相似的采樣幀,這是不必要的。相反,基于這種情況,使用稀疏時間采樣策略更有利。所以,我們在長視頻序列上,利用稀疏采樣方案,對短片段進(jìn)行提取,值得注意的是,樣本依時間維度進(jìn)行均勻分布。在這一前提下,使用分段結(jié)構(gòu),對源自采樣片段的信息實(shí)施聚合處理。由這個層面上看,時間段網(wǎng)絡(luò)能夠在整體上建模遠(yuǎn)程時間結(jié)構(gòu)視頻。此外,這種稀疏采樣策略,使用比較低的成本,對相關(guān)信息進(jìn)行保留,對時間和資源進(jìn)行合理預(yù)算,以此開展對長視頻序列的端到端學(xué)習(xí)。為了充分利用視頻中的視覺內(nèi)容,我們提出基于多輸入流的卷積行為識別網(wǎng)絡(luò)。

    具體的網(wǎng)絡(luò)結(jié)構(gòu)如下:

    具體實(shí)施方法:首先,將一個輸入的視頻分割成K個部分,如接著,對得到的K組視頻序列稀疏隨機(jī)采樣得到并將輸入雙流(two-stream)卷積神經(jīng)網(wǎng)絡(luò)中(圖中K組網(wǎng)絡(luò)共享參數(shù)W),輸出對應(yīng)K組得分;接下來,運(yùn)用平均均值的融合方法得到最終類別得分,該部分對應(yīng)圖1中segmental consensus部分,并且用 表示融合后的輸出。最后將提取出時間和空間信息合并作為最終特征來進(jìn)行分類處理。

    在此,我們使用Softmax函數(shù)來進(jìn)行分類,使用標(biāo)準(zhǔn)的分類交叉熵?fù)p失(cross-entropy loss)來度量損失函數(shù),以及隨機(jī)梯度下降法(SGD)來訓(xùn)練網(wǎng)絡(luò)參數(shù)。

    網(wǎng)絡(luò)損失函數(shù)定義如下:

    其中,C是動作的類別數(shù),yi代表第i類的groundtruth標(biāo)簽。

    網(wǎng)絡(luò)結(jié)構(gòu):選擇BN-Inception結(jié)構(gòu)設(shè)計時空雙流(twostream)卷積神經(jīng)網(wǎng)絡(luò),其中,空間流卷積神經(jīng)網(wǎng)絡(luò)作用在單幀的RGB圖像上(single RGB images),而時間流卷積神經(jīng)網(wǎng)絡(luò)以堆疊的光流數(shù)據(jù)幀(stacked optical flow field)作為輸入。

    1.2 防止過擬合

    視頻數(shù)據(jù)量過少會使得網(wǎng)絡(luò)面臨嚴(yán)重的過擬合問題。針對此類問題我們提出三種防止過擬合的方法

    1.2.1 數(shù)據(jù)增強(qiáng)。數(shù)據(jù)增強(qiáng)能出現(xiàn)不同的訓(xùn)練樣本,能有效避免出現(xiàn)嚴(yán)重的過擬合情況。在傳統(tǒng)的 two-stream 中,運(yùn)用隨機(jī)裁剪、水平翻轉(zhuǎn)方法,拓展訓(xùn)練樣本的量。此外,還可以采用兩種新方法:①角裁剪(corner cropping),即只由圖片的中心、邊角對區(qū)域進(jìn)行提取,以此防止對關(guān)注圖片的中心進(jìn)行默認(rèn)。②尺度抖動(scale-jittering),即把輸入圖像、光流場的大小進(jìn)行固定,對于裁剪區(qū)域的寬和高而言,對其進(jìn)行隨機(jī)選擇。最終,這些裁剪區(qū)域能被調(diào)整成最為恰當(dāng)?shù)拇笮?,并在網(wǎng)絡(luò)訓(xùn)練中得以運(yùn)用。事實(shí)上,這種方法不光包括了尺度抖動,還包括了寬高比抖動。

    1.2.2 交叉 - 模態(tài)預(yù)訓(xùn)練(Cross modality Pre-training)。當(dāng)訓(xùn)練樣本較少時,預(yù)訓(xùn)練是一種較好的訓(xùn)練神經(jīng)網(wǎng)絡(luò)防止過擬合的方法。

    1.2.3 正則化(Regularization Technique)。批量歸一化(BN)可以用來解決協(xié)方差偏移(covariate shift)的問題。

    2 實(shí)驗(yàn)結(jié)果

    在HW[10]和Caltech101[11]數(shù)據(jù)可上進(jìn)行了實(shí)驗(yàn),表1和表2給出了幾種算法和我們提出的算法的比較。由表1和表2可知,我們算法明顯優(yōu)于其他幾種算法。

    表1 幾種算法在HW數(shù)據(jù)庫上的識別率(%)和方差

    表2 幾種算法在Caltech101數(shù)據(jù)庫上的識別率(%)和方差

    3 結(jié)束語

    長范圍時間結(jié)構(gòu)在理解視頻中較長時間的行為上起著重要作用。深度學(xué)習(xí)雖然已經(jīng)被有效地運(yùn)用到靜止圖像的分類研究上,但并不能有效地提取出較長時間范圍視頻序列中的時序結(jié)構(gòu)信息,因此如何設(shè)計出合適的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來有效提取長時間范圍結(jié)構(gòu)是目前行為識別需要解決的一個關(guān)鍵問題和難點(diǎn)。本文設(shè)計了一種卷積神經(jīng)網(wǎng)絡(luò),能夠有效地提出視頻序列中的圖像信息和時序結(jié)構(gòu),從而達(dá)到對行為視頻進(jìn)行分類的目的。

    猜你喜歡
    訓(xùn)練樣本卷積神經(jīng)網(wǎng)絡(luò)
    基于3D-Winograd的快速卷積算法設(shè)計及FPGA實(shí)現(xiàn)
    人工智能
    神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
    電子制作(2019年19期)2019-11-23 08:42:00
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    基于傅里葉域卷積表示的目標(biāo)跟蹤算法
    寬帶光譜成像系統(tǒng)最優(yōu)訓(xùn)練樣本選擇方法研究
    融合原始樣本和虛擬樣本的人臉識別算法
    基于稀疏重構(gòu)的機(jī)載雷達(dá)訓(xùn)練樣本挑選方法
    基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
    復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
    会理县| 龙川县| 乌什县| 班玛县| 周口市| 灯塔市| 浙江省| 舒兰市| 浦县| 樟树市| 宜春市| 慈利县| 榆中县| 油尖旺区| 黑龙江省| 台安县| 曲松县| 茌平县| 马龙县| 忻州市| 育儿| 江口县| 昆明市| 宜黄县| 资溪县| 湖南省| 田阳县| 镇沅| 常山县| 大安市| 革吉县| 九寨沟县| 东平县| 贵阳市| 怀柔区| 富民县| 巴彦淖尔市| 法库县| 兰州市| 青铜峡市| 织金县|