• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于VGG16和BiLSTM的視頻摘要生成

      2021-08-03 08:57:58王明江賈娟娟
      關(guān)鍵詞:卷積分?jǐn)?shù)狀態(tài)

      ■文/王明江 賈娟娟

      1.西北師范大學(xué)附屬中學(xué) 2.甘肅政法大學(xué)

      1 引言

      隨著信息技術(shù)的發(fā)展進(jìn)步,視頻數(shù)據(jù)已迅速成為常見的視覺信息來源。據(jù)統(tǒng)計,2020年,中國網(wǎng)絡(luò)視頻用戶規(guī)模已達(dá)到8億,并且增長趨勢逐年遞增。如何高效瀏覽、管理和檢索龐大的視頻數(shù)據(jù)已成為當(dāng)下的熱點問題之一。

      視頻摘要是一種前景廣闊的技術(shù),能夠很好地應(yīng)對海量數(shù)據(jù)的挑戰(zhàn)。視頻摘要的目的是產(chǎn)生一個能夠包含關(guān)鍵信息且內(nèi)容緊湊連貫的壓縮視頻,讓用戶可以在最短的時間內(nèi)了解到視頻的主要內(nèi)容。

      根據(jù)現(xiàn)有視頻摘要生成方式,視頻摘要生成主要分為靜態(tài)視頻摘要和動態(tài)視頻摘要。靜態(tài)摘要以關(guān)鍵幀為基礎(chǔ),通過選取若干關(guān)鍵幀,將關(guān)鍵幀融合形成摘要視頻;動態(tài)摘要則側(cè)重于生成連貫視頻,因此動態(tài)摘要需要對視頻進(jìn)行鏡頭劃分,然后選取關(guān)鍵鏡頭,最后將鏡頭組合成摘要視頻。

      2 相關(guān)工作

      2.1 卷積神經(jīng)網(wǎng)絡(luò)

      VGG網(wǎng)絡(luò)是由牛津大學(xué)視覺幾何組在2014年提出的網(wǎng)絡(luò)模型(Simonyan K 等,2014)。VGG的特點之一是簡潔性,例如常用的VGG16包含13個卷積層和3個全連接層以及5個池化層,其中卷積層采用相同的卷積核參數(shù),由3*3的卷積濾波器構(gòu)成卷積核,設(shè)定步長為1,這樣的設(shè)計能夠讓每個卷積層卷積之后的結(jié)果與該卷積層的輸入保持相同的尺寸。池化層參數(shù)均為2,這使得每次池化后特征圖的長與寬均為前一次的一半。VGG16網(wǎng)絡(luò)模型主要將卷積層和池化層相互堆疊,加上全連接層組成的分類器構(gòu)成,VGG16的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

      圖1 VGG16網(wǎng)絡(luò)結(jié)構(gòu)圖

      2.2 長短期記憶網(wǎng)絡(luò)

      長短期記憶網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一個變形,RNN的一個顯著缺點就是無法處理較長的序列數(shù)據(jù),容易出現(xiàn)梯度消失和梯度爆炸等問題。針對這些問題,LSTM新增一種細(xì)胞結(jié)構(gòu),這種結(jié)構(gòu)由細(xì)胞狀態(tài)Ct和三個門組成。細(xì)胞狀態(tài)可以理解為一條傳送帶,在整條鏈上運行,通常Ct是由上一個狀態(tài)Ct -1和一些其他數(shù)值構(gòu)成,因此細(xì)胞狀態(tài)的改變是緩慢的。門可以選擇性讓信息通過,主要由一個sigmoid層和點乘運算構(gòu)成,sigmoid層的輸出中每個元素都是0-1之間的實數(shù),其大小代表是否允許信息通過的權(quán)重,0代表不允許通過,1代表全部通過。細(xì)胞結(jié)構(gòu)如圖2所示。

      圖2 LSTM細(xì)胞結(jié)構(gòu)圖

      細(xì)胞結(jié)構(gòu)中的第一個門被稱為遺忘門“ft”,決定著從細(xì)胞狀態(tài)中丟棄多少信息。該門首先會讀取上一次輸出的隱藏狀態(tài)ht-1和本次的輸入xt,經(jīng)過處理后,輸出一個0和1之間的數(shù),這個數(shù)的意義就是前面提到的sigmoid輸出值的意義。遺忘門計算公式如下:

      式中σ為sigmoid函數(shù),wf是權(quán)重系數(shù),bf是偏置系數(shù)。

      在組成LSTM網(wǎng)絡(luò)的LSTM細(xì)胞結(jié)構(gòu)中,第二個門被稱為輸入門,該門的主要功能是控制加入到細(xì)胞狀態(tài)中的新信息數(shù)量,該項功能主要由以下兩個步驟實現(xiàn):首先輸入狀態(tài)it決定哪些信息需要更新決定用于更新的備選信息;其次兩者通過乘運算得出的結(jié)果對細(xì)胞狀態(tài)更新。由上一狀態(tài)得到的Ct-1與ft乘運算,之后加上it與的乘運算結(jié)果,形成新的候選值。運用的公式如下:

      LSTM細(xì)胞結(jié)構(gòu)中的第三個門被稱為輸出門,其功能是決定最終輸出的信息。輸出的信息基于細(xì)胞狀態(tài)和輸出狀態(tài)ot,ot根據(jù)上時刻隱藏狀態(tài)ht-1和當(dāng)前輸入xt來決定要輸出細(xì)胞狀態(tài)的某一部分,然后將細(xì)胞狀態(tài)經(jīng)過tanh運算后與ot進(jìn)行乘運算得到最終輸出結(jié)果,涉及公式如下:

      3模型構(gòu)建

      模型主要由兩部分構(gòu)成:圖像特征提取和重要性分值預(yù)測。具體參見圖3。

      圖3 模型結(jié)構(gòu)圖

      3.1 圖像特征提取

      VGG網(wǎng)絡(luò)實現(xiàn)對視頻幀的幀特征提取。基于ImageNet預(yù)訓(xùn)練的VGG16模型參數(shù)作為本次實驗的特征提取網(wǎng)絡(luò)。VGG16前半部分的卷積層感受野較小,可以提取到視頻幀的細(xì)節(jié)特征,后半部分感受野較大,能夠捕獲視頻幀整體特征。因此基于VGG16提取的視頻幀特征能夠較好的包含關(guān)鍵信息,便于后續(xù)模型的學(xué)習(xí)。

      3.2 重要性分值預(yù)測

      BiLSTM是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種改進(jìn)模型,處理序列問題效果顯著。BiLSTM將卷積神經(jīng)網(wǎng)絡(luò)階段輸出的特征以時間步的形式輸入到BiLSTM網(wǎng)絡(luò)中,同時基于監(jiān)督學(xué)習(xí)與深度學(xué)習(xí)進(jìn)行模型訓(xùn)練,最終生成預(yù)測。監(jiān)督學(xué)習(xí)的方式能夠提升訓(xùn)練的準(zhǔn)確度和速度,標(biāo)簽質(zhì)量對訓(xùn)練結(jié)果影響巨大。未進(jìn)行標(biāo)簽處理前,每個視頻幀由20個人進(jìn)行人工打分,為了使得分更具代表性,本文選取20個人打分的平均值作為標(biāo)簽的最終值。此外,為了使VGG16輸出的特征能更好的作為BiLSTM的特征輸入,將原輸入特征(512,7,7)重新進(jìn)行維度定義得到特征(512,7*7),這樣能夠使得每一幀的特征信息完整傳遞。同時,為了更好的考慮時間序列帶來的影響,本文選取雙向LSTM,因為當(dāng)前時刻的輸出不僅與之前的狀態(tài)相關(guān),還可能與將來的狀態(tài)有關(guān),因此兩個LSTM分別從正向和反向進(jìn)行計算,最終對兩個結(jié)果進(jìn)行處理。

      4 實驗結(jié)果與分析

      4.1 數(shù)據(jù)集

      本實驗使用了視頻摘要常用的兩個標(biāo)準(zhǔn)數(shù)據(jù)集TvSum和SumMe。其中TvSum數(shù)據(jù)集主要由來自YouTube的結(jié)構(gòu)化視頻構(gòu)成,該數(shù)據(jù)集的視頻主要分為10個大類共50個視頻。每個視頻的每一幀均由20個專業(yè)人員進(jìn)行標(biāo)注,得分從1-5劃分為5個重要性程度。SumMe數(shù)據(jù)集由25個非結(jié)構(gòu)化視頻構(gòu)成,涉及運動、假日游、飛行等多個主題,每個視頻幀由10-15進(jìn)行標(biāo)注,標(biāo)注分為重要(0)和不重要(1)。具體參見表1。

      表1 TVSum數(shù)據(jù)集視頻數(shù)據(jù)

      4.2 鏡頭分?jǐn)?shù)轉(zhuǎn)換

      基于動態(tài)的視頻摘要,需要選出關(guān)鍵鏡頭進(jìn)行組合,由于模型得到的是幀級重要性分?jǐn)?shù),因此需要將其轉(zhuǎn)化為鏡頭分?jǐn)?shù)。而對視頻進(jìn)行視頻鏡頭劃分是計算視頻分?jǐn)?shù)前最為關(guān)鍵的一步。首先利用KTS算法對視頻進(jìn)行變點檢測,根據(jù)變點檢測劃分鏡頭,鏡頭劃分完成后,根據(jù)模型預(yù)測的幀級重要性分?jǐn)?shù)計算出鏡頭分?jǐn)?shù)(公式6)。得到鏡頭分?jǐn)?shù)后,需要進(jìn)行關(guān)鍵鏡頭選擇,考慮到需要限制摘要長度,這里限制摘要的時長不超過原視頻的15%,此時,鏡頭的選擇等價于NP難問題,選用0/1背包算法完成任務(wù)(公式7)。

      4.3 評價指標(biāo)

      為了更好反應(yīng)出本文算法的效果,本文對TvSum和SumMe數(shù)據(jù)集進(jìn)行數(shù)據(jù)劃分,其中80%用于訓(xùn)練,剩余20%用于測試。

      本文采用precision、recall、F1-mesure作為評價指標(biāo)。設(shè)M為模型生成的摘要,N為標(biāo)注對應(yīng)的摘要,因此precision,recall計算如下:

      由公式(8)(9)可以計算出用于評估視頻摘要的F-score。

      表2和表3分別展示了在兩個數(shù)據(jù)集上的實驗結(jié)果。

      表2 TvSum數(shù)據(jù)集實驗結(jié)果(%)

      表3 SumMe數(shù)據(jù)集實驗結(jié)果(%)

      由表2和表3的實驗結(jié)果可知,本文提出的方法具有可行性和有效性。對比發(fā)現(xiàn),TvSum數(shù)據(jù)集的實驗效果要好于SumMe數(shù)據(jù)集。分析可知,TvSum數(shù)據(jù)集中的視頻多為結(jié)構(gòu)化視頻且邊界變化明顯,有利于鏡頭分割和特征提取,因此完成視頻摘要任務(wù)的效果更好。

      4.4 定性結(jié)果分析展示

      本文以TvSum數(shù)據(jù)集中第20個視頻進(jìn)行展示,圖4展示了真實標(biāo)注分?jǐn)?shù)與模型預(yù)測分?jǐn)?shù)。

      圖4 視頻“20”預(yù)測結(jié)果圖

      總體而言,預(yù)測分值與真實值相對接近,變化趨勢基本一致,但個別預(yù)測不夠準(zhǔn)確,產(chǎn)生了比較大的波動,如5600幀左右,預(yù)測值高出真實值較多。

      圖5展示了根據(jù)0/1背包算法選出的部分關(guān)鍵鏡頭。

      圖5 關(guān)鍵鏡頭展示

      5 結(jié)語

      本文通過視頻摘要方法分析,提出了基于VGG16和BiLSTM的視頻摘要生成模型,同時摘要任務(wù)的完成基于動態(tài)視頻摘要技術(shù),對視頻進(jìn)行鏡頭劃分,能夠有效解決生成摘要不連貫的問題,形成更符合用戶視覺效果的摘要視頻。VGG16與BiLSTM的聯(lián)合使用,既發(fā)揮了VGG16高效提取特征的優(yōu)勢,又利用BiLSTM考慮到視頻的時序問題,使得生成的摘要具有一定的代表性。目前,視頻摘要的研究相對較少,因此在未來的研究中將進(jìn)一步擴(kuò)大視頻摘要的影響范圍,將其應(yīng)用到監(jiān)控視頻領(lǐng)域,完成對冗長視頻準(zhǔn)確、快速的壓縮,節(jié)約人力、財力的投入,幫助公安部門提高辦案效率。

      猜你喜歡
      卷積分?jǐn)?shù)狀態(tài)
      基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
      分?jǐn)?shù)的由來
      無限循環(huán)小數(shù)化為分?jǐn)?shù)的反思
      狀態(tài)聯(lián)想
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      可怕的分?jǐn)?shù)
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      生命的另一種狀態(tài)
      算分?jǐn)?shù)
      熱圖
      家庭百事通(2016年3期)2016-03-14 08:07:17
      织金县| 新兴县| 东兴市| 鹤岗市| 资兴市| 武清区| 鞍山市| 丽江市| 扎赉特旗| 南岸区| 绥阳县| 镇原县| 申扎县| 呈贡县| 泸定县| 乐至县| 三门峡市| 镇宁| 凤翔县| 贵州省| 淮滨县| 象山县| 乌什县| 楚雄市| 磴口县| 九龙城区| 海丰县| 安乡县| 赣州市| 双牌县| 怀仁县| 伊金霍洛旗| 临夏市| 岳普湖县| 颍上县| 正定县| 武清区| 泸州市| 潞西市| 博白县| 贺兰县|