• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于3D卷積的視頻錯幀篩選方法

      2018-05-25 08:50:55繆宇杰吳智鈞
      關(guān)鍵詞:卷積編碼深度

      繆宇杰,吳智鈞,宮 婧

      (1.南京郵電大學(xué) 物聯(lián)網(wǎng)學(xué)院,江蘇 南京 210003; 2.南京郵電大學(xué) 理學(xué)院,江蘇 南京 210003)

      0 引 言

      近年來,隨著深度學(xué)習(xí)的興起,諸如CNN等深度學(xué)習(xí)框架的提出,很多機(jī)器學(xué)習(xí)的問題得到了解決,比如在真實(shí)場景下的目標(biāo)識別、人體行為分析等等。但是,其識別結(jié)果的精準(zhǔn)度還是不能令人滿意,精準(zhǔn)度的提高依然是深度學(xué)習(xí)領(lǐng)域一項(xiàng)具有挑戰(zhàn)性的任務(wù)。

      好的視頻特征應(yīng)該具備豐富的與識別內(nèi)容相關(guān)的信息。視頻可以看作是一組連續(xù)幀,即靜態(tài)圖片。每張靜態(tài)圖片所提取的特征是獨(dú)立的、互不相關(guān)的,并且只存在于空間維度上。為了更好地提取視頻信息,有必要找到幀與幀之間的聯(lián)系。文中采用3D卷積的方法,能夠同時在時間和空間維度上提取視頻特征[1]。

      要正確提取視頻的特征視頻,首要條件是必須保證幀序列有序。假設(shè)幀序列是無序的,那么根據(jù)該序列所提取的特征很有可能是不準(zhǔn)確的,利用這樣的特征來訓(xùn)練或者測試深度學(xué)習(xí)的模型,很可能會導(dǎo)致最終結(jié)果的誤判。所以,驗(yàn)證幀序列是否有序是一項(xiàng)很重要的任務(wù)。

      文中提出一種方法來驗(yàn)證視頻幀序列的順序。首先,提出錯幀篩選模型,描述了其整體結(jié)構(gòu);其次,對該模型的主要技術(shù)關(guān)鍵點(diǎn)進(jìn)行詳細(xì)介紹;最后,通過實(shí)驗(yàn)對該方法進(jìn)行驗(yàn)證。

      1 相關(guān)研究

      機(jī)器學(xué)習(xí)[2]分為有監(jiān)督和無監(jiān)督兩個類,基本上可以從它們會不會得到一個特定的標(biāo)簽輸出來區(qū)分。監(jiān)督學(xué)習(xí)(supervised learning)是通過已有的訓(xùn)練樣本(即已知數(shù)據(jù)及其對應(yīng)的輸出)來訓(xùn)練,從而得到一個最優(yōu)模型,再利用這個模型將所有新的數(shù)據(jù)樣本映射為相應(yīng)的輸出結(jié)果,對輸出結(jié)果進(jìn)行簡單的判斷從而實(shí)現(xiàn)分類的目的。那么這個最優(yōu)模型也就具有了對未知數(shù)據(jù)進(jìn)行分類的能力。而無監(jiān)督學(xué)習(xí)(unsupervised learning)[3]事先沒有任何訓(xùn)練數(shù)據(jù)樣本,需要直接對數(shù)據(jù)進(jìn)行建模。無監(jiān)督學(xué)習(xí)在學(xué)習(xí)時并不知道其分類結(jié)果是否正確,亦即沒有受到監(jiān)督式增強(qiáng)(告訴它何種學(xué)習(xí)是正確的)。其特點(diǎn)是僅對此種網(wǎng)絡(luò)提供輸入范例,且自動從這些范例中找出其潛在類別規(guī)則。當(dāng)學(xué)習(xí)完畢并經(jīng)測試后,也可以將之應(yīng)用到新的案例上。

      現(xiàn)有的大多數(shù)深度學(xué)習(xí)模式識別方法通常由兩個關(guān)鍵步驟組成:第一步是手工標(biāo)注數(shù)據(jù)集的特征,第二步是在已標(biāo)注的特征基礎(chǔ)上學(xué)習(xí)分類器[4-7]。但是,手工標(biāo)注作為有監(jiān)督學(xué)習(xí)的特點(diǎn)之一正變得越來越不受歡迎,原因是耗費(fèi)了大量的時間和精力,尤其在數(shù)據(jù)集更加復(fù)雜的情況下,手工標(biāo)注的代價成倍增長。因此,文中采用無監(jiān)督學(xué)習(xí)的方法來學(xué)習(xí)沒有經(jīng)過手工標(biāo)注的視頻特征。

      2 錯幀篩選模型

      文中的目標(biāo)是通過錯幀篩選模型,從若干組幀序列中,將錯誤的一組幀序列篩選出來。從同一個視頻中采樣出若干組視頻幀序列(詳見3.1小節(jié)),假設(shè)有N+1組幀序列,那么此模型的輸入可表示為f={f1,f2,…,fN+1,其中,fi為第i組幀序列。在這組輸入中,有N組幀序列是有序的,只有一組幀序列是錯序的,且這組錯幀的位置隨機(jī)。

      將f的每一組幀分別輸入錯幀篩選模型的一個分支,如圖1所示。首先對其進(jìn)行編碼(詳見2.2小節(jié)),編碼后每個分支會通過5個卷積層和1個全連接層,這一部分與AlexNet[13]相同。每個分支網(wǎng)絡(luò)的權(quán)值以及參數(shù)均相同。

      圖1 錯幀篩選模型

      將上述計算結(jié)果輸入最后兩個全連接層和一個線性分類器,這個分類器能夠?qū)+1個輸入進(jìn)行分析對比,進(jìn)而預(yù)測出錯幀的一組視頻序列。

      3 關(guān)鍵技術(shù)

      3.1 視頻幀采樣

      視頻幀的采樣也是一項(xiàng)非常重要的工作,具有良好特性的幀序列有助于預(yù)測結(jié)果精準(zhǔn)度的提升。如果采樣的幀序列之間的變化很小,那么很難判斷出這組幀序列是順序還是亂序。圖2所示為一組有序的視頻幀,幀a和b、幀e和f之間的動作變化很小,而幀b、c、d、e之間差別很明顯。由圖2易知,很難判斷{a,b,c}、{b,a,c}哪組是亂序,但{c,d,e}、{e,c,d}很容易判斷,因此需要選取幀間差異較大的幀作為輸入。使用粗幀級光流[14]來測量幀與幀之間的變化程度,把每個幀的平均流量大小作為該幀的權(quán)重,并用它來偏置采樣較大變化幀的窗口。此方法保證了采樣的幀序列不會出現(xiàn)難以分辨是否為錯幀的情況。

      圖2 幀間差異示例

      設(shè)采樣結(jié)果為I=I1,I2, …,In這樣一組包含n幀的視頻序列,且有序,即I1I2…In。在上述的采樣結(jié)果I中,還需要再進(jìn)行一次采樣作為錯幀篩選模型的輸入。在這個步驟中,采用了隨機(jī)采樣的方法。在I中隨機(jī)采樣出X幀圖像N次,則產(chǎn)生了N組有序的幀序列,每組有X幀。亂序的幀序列的采樣也是隨機(jī)采樣X幀,并保證亂序。

      3.2 視頻幀編碼

      在完成視頻幀采樣之后,需要對每一組幀序列進(jìn)行編碼,編碼的目的是提取幀序列的結(jié)構(gòu)信息。完成編碼后,可以將多幀圖片合并為一幀。這樣做的好處是在訓(xùn)練錯幀篩選模型時,不需要限定每組輸入的幀數(shù),因?yàn)椴徽撁拷M輸入的幀數(shù)是多少,通過編碼都可以提取為一幀的信息。

      文中采用3D卷積[15]的方法進(jìn)行編碼。在2D CNN中,2D卷積在卷積層具有提取局部鄰域上層特征映射的功能。坐標(biāo)為(x,y)的單元在第i層的第j個特征映射的值為:

      成本有效是指成本可以被收益補(bǔ)償。再生水項(xiàng)目的投資較大,而再生水水價一般需要維持在低于甚至遠(yuǎn)低于飲用水水價的水平,因此再生水項(xiàng)目實(shí)現(xiàn)成本有效性面臨很大困難。除了選擇有利的技術(shù)方案以降低成本外,爭取到撥款和優(yōu)惠利率的長期貸款對于降低成本也很重要,而用戶收費(fèi)(包括使用費(fèi)和入戶管網(wǎng)費(fèi)等)也必須有保障。成本有效是再生水項(xiàng)目作為公用事業(yè)實(shí)現(xiàn)商業(yè)化運(yùn)作的前提。

      (1)

      2D CNN中的特征映射也是2D的,只反映了圖像空間上的信息,沒有考慮時間上的信息。文中采用3D CNN中的3D卷積方法,在卷積層的特征映射連接了上一層多幀連續(xù)圖像,這樣既包含了空間信息,也包含了時間信息,從而可以獲取一組幀序列的信息。則式1可以改寫為:

      (2)

      其中,Ri是3D卷積核在時間維度上的大小。

      在視頻幀編碼中只進(jìn)行了一次卷積運(yùn)算,然后對一組幀序列的特征映射求均值,結(jié)果即為編碼的結(jié)果。

      4 實(shí)驗(yàn)結(jié)果與分析

      使用UCF101數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。UCF101數(shù)據(jù)集是由真實(shí)用戶拍攝上傳的具有復(fù)雜背景的視頻,共有101個動作類別,13 000個視頻片段,時長共27小時。

      實(shí)驗(yàn)中,從同一個視頻片段中采樣7組幀序列,其中6組是有序的,1組是無序的。每組幀序列有7幀圖像,大小為80*60,卷積核大小為7*7*3(7*7表示空間維度,3表示時間維度)。將幀序列輸入網(wǎng)絡(luò),首先對幀序列進(jìn)行編碼,編碼結(jié)果如圖3所示。

      圖3 幀序列編碼結(jié)果

      為了驗(yàn)證該方法的有效性,將實(shí)驗(yàn)獲得的驗(yàn)證錯幀結(jié)果的準(zhǔn)確性與文獻(xiàn)[12]比較,結(jié)果如表1所示。從表1可見,文中方法提高了對錯幀檢驗(yàn)的準(zhǔn)確性。

      表1 不同幀順序驗(yàn)證方法準(zhǔn)確性對比

      5 結(jié)束語

      文中提出了一種基于3D卷積的視頻幀順序驗(yàn)證方法,能夠?qū)σ曨l幀序列順序與否進(jìn)行驗(yàn)證。通過無監(jiān)督學(xué)習(xí)視頻特征的方法,避免了有監(jiān)督學(xué)習(xí)中所需的手工標(biāo)注標(biāo)簽的過程,很大程度上減少了時間與精力的耗費(fèi)。3D卷積對視頻序列特征的提取,不僅獲取了該序列空間上的信息,同時獲取到了時間上的信息,提升了驗(yàn)證的準(zhǔn)確性。

      參考文獻(xiàn):

      [1] 林海波,李 揚(yáng),張 毅,等.基于時序分析的人體運(yùn)動模式的識別及應(yīng)用[J].計算機(jī)應(yīng)用與軟件,2014,31(12):225-228.

      [2] 郭麗麗,丁世飛. 深度學(xué)習(xí)研究進(jìn)展[J].計算機(jī)科學(xué),2015,42(5):28-33.

      [3] 殷瑞剛,魏 帥,李 晗,等.深度學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)方法綜述[J].計算機(jī)系統(tǒng)應(yīng)用,2016,25(8):1-7.

      [4] 王滿一,宋亞玲,李 玉,等.結(jié)合區(qū)域光流特征的時序模板行為識別[J].系統(tǒng)仿真學(xué)報,2015,27(5):1146-1151.

      [5] JHUANG H,SERRE T,WOLF L,et al. A biologically inspired system for action recognition[C]//International conference on computer vision.Rio de Janeiro,Brazil:IEEE,2007:1-8.

      [6] 楊祎玥,伏 潛,萬定生.基于深度循環(huán)神經(jīng)網(wǎng)絡(luò)的時間序列預(yù)測模型[J].計算機(jī)技術(shù)與發(fā)展,2017,27(3):35-38.

      [7] 徐慶伶,汪西莉.一種基于支持向量機(jī)的半監(jiān)督分類方法[J].計算機(jī)技術(shù)與發(fā)展,2010,20(10):115-117.

      [8] DOERSCH C,GUPTA A,EFROS A A.Unsupervised visual representation learning by context prediction[C]//International conference on computer vision.[s.l.]:IEEE,2015.

      [9] 朱 陶,任海軍,洪衛(wèi)軍.一種基于前向無監(jiān)督卷積神經(jīng)網(wǎng)絡(luò)的人臉表示學(xué)習(xí)方法[J].計算機(jī)科學(xué),2016,43(6):303-307.

      [10] PICKUP L C,PAN Z,WEI D,et al.Seeing the arrow of time[C]//IEEE conference on computer vision and pattern recognition.Columbus,OH,USA:IEEE,2014:2043-2050.

      [11] JAYARAMAN D,GRAUMAN K.Learning image representations tied to ego-motion[C]//International conference on computer vision.Santiago,Chile:IEEE,2015:1413-1421.

      [12] MISRA I,ZITNICK C L,HEBERT M.Shuffle and learn:unsupervised learning using temporal order verification[C]//European conference on computer vision.Berlin:Springer,2016:527-544.

      [13] JEFF D,JIA Yangqing,VINYALS O,et al.DeCAF:a deep convolutional activation feature for generic visual recognition[C]//International conference on machine learning.Beijing,China:ACM,2014.

      [15] JI Shuiwang,XU Wei,YANG Ming,et al.3D convolutional neural networks for human action recognition[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2013,35(1):221-231.

      猜你喜歡
      卷積編碼深度
      基于3D-Winograd的快速卷積算法設(shè)計及FPGA實(shí)現(xiàn)
      基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達(dá)圖像配準(zhǔn)
      深度理解一元一次方程
      《全元詩》未編碼疑難字考辨十五則
      子帶編碼在圖像壓縮編碼中的應(yīng)用
      電子制作(2019年22期)2020-01-14 03:16:24
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      深度觀察
      深度觀察
      Genome and healthcare
      深度觀察
      潜山县| 涿州市| 九台市| 桂平市| 望城县| 白玉县| 江津市| 思南县| 五家渠市| 察隅县| 甘德县| 青铜峡市| 轮台县| 屏东县| 疏勒县| 昔阳县| 民和| 镇远县| 靖西县| 唐河县| 双鸭山市| 彭水| 伊吾县| 岳西县| 华蓥市| 烟台市| 凤城市| 久治县| 岢岚县| 施秉县| 高碑店市| 内江市| 大宁县| 荔浦县| 永和县| 信宜市| 铁岭县| 平阳县| 商都县| 澜沧| 衡水市|