• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于FSCD-CNN的深度圖像快速幀內(nèi)預測模式選擇算法

      2022-01-19 12:43:08崔鵬濤劉敬懷
      應用科學學報 2021年3期
      關鍵詞:深度圖復雜度卷積

      崔鵬濤, 張 倩, 劉敬懷, 周 超, 王 斌, 司 文

      1.上海師范大學信息與機電工程學院,上海200234

      2.上海商學院商務信息學院,上海201400

      近年來,隨著多媒體技術的不斷發(fā)展,3D 視頻逐漸受到了人們的青睞。3D 視頻在給觀眾帶來極佳的視覺盛宴的同時也帶來數(shù)據(jù)量過大、存儲要求高、傳輸難度大等問題。為了更好地滿足大眾的需求,立體視頻編碼聯(lián)合工作組在HEVC 的基礎上提出了新一代高效立體視頻編碼標準,即3D-HEVC[1]。3D-HEVC 采用了多視點視頻加深度圖的編碼格式,可以同時對多個視點的紋理圖以及相應的深度圖進行編碼,從而提高了3D 視頻的編碼性能。在幀內(nèi)編碼中,3D-HEVC 不僅保留了原有HEVC 的四叉樹的編碼結(jié)構(gòu)和35 種幀內(nèi)預測模式,而且針對深度圖的幀內(nèi)預測增加了深度建模模式(depth modeling mode, DMM),從而更有效地提高了編碼性能。但由于3D-HEVC 使用的四叉樹結(jié)構(gòu)即要對所有編碼單元(coding uint, CU)進行遞歸計算,又要計算多個預測模式的最小率失真代價以確定最優(yōu)的編碼模式及CU 深度,因此大大提升了編碼的復雜度。

      為了提高深度圖編碼效率,減少DMM 模式的編碼時間,文獻[2] 利用梯度濾波器探索深度圖特征,檢測DMM 最佳位置,從而提出了一種基于梯度的空間探索算法。文獻[3] 通過角點特征來判別深度圖的邊緣信息,以此對CU 進行劃分,無需探索DMM 編碼模式的過程。文獻[4] 提出了一種基于平滑度的DMM 模式快速決策算法,根據(jù)當前塊的平滑度來判斷是否提前終止DMM 模式的探索,避免對DMM 模式進行不必要的評估。文獻[5] 提出了一種基于灰度共生矩陣(gray-level co-occurrence matrix, GLCM)的優(yōu)化編碼算法,使用GLCM 檢測同類區(qū)域,將編碼單元劃分為不同類型,從而跳過一些模式的探索,減少DMM 模式的編碼時間。文獻[6] 基于紋理特征和空間特征,提出一種基于K-Means 的DMM 模式快速決策算法,從而降低DMM 模式的復雜度。文獻[7] 提出了一種基于角點特征的DMM 模式快速算法,根據(jù)特征角點來評估邊緣的朝向,從而加快DMM 模式的探索。文獻[8] 提出了一種基于方差的快速模式選擇算法,根據(jù)方差來評估DMM 模式的代價值,降低計算復雜度。文獻[9]通過計算PU 的梯度值,提出了基于梯度信息的幀內(nèi)模式快速算法,利用PU 的梯度信息,省去部分幀內(nèi)DMM 模式的探索,降低計算復雜度。這些方法雖然降低了編碼時間,但是卻增加了3D-HEVC 編碼和解碼的復雜性。

      由于3D-HEVC 采用了四叉樹形式的CU 劃分結(jié)構(gòu),在編碼過程中耗費了大量的時間。文獻[10] 通過為不同大小的CU 設置相應的恰可察覺失真(just noticeable difference, JND)值來判斷CU 是否需要進一步劃分為更小的CU,從而降低CU 劃分過程中的計算復雜度。文獻[11] 把CU 分為前景、不均勻背景以及均勻背景,對于均勻的背景可以提前終止CU 劃分。同時,隨著機器學習和人工智能技術的不斷發(fā)展,很多機器學習的方法都將用在視頻編碼中,文獻[12] 使用大數(shù)據(jù)聚類,提取用于3D-HEVC 編碼中紋理圖CU 深度的決策模型,對CU遞歸劃分進行預測。文獻[13] 使用數(shù)據(jù)挖掘,建立決策樹,來判定當前深度圖CU 是否需要再劃分。文獻[14] 使用機器學習方法,根據(jù)HEVC 紋理圖CU 的復雜度,構(gòu)建了基于SVM 的復雜度分類模型,來確定CU 的最優(yōu)深度,從而跳過部分CU 的計算。但是傳統(tǒng)的機器學習方法還存在弊端,需要手工選取和提取特征來選擇性能最佳的特征進行學習,這大大提高了復雜度。同時這些方法的可移植性較差,只適用于特定的系統(tǒng)或者模型環(huán)境。而近年來,深度學習的出現(xiàn)和快速發(fā)展克服了這些弊端。

      深度學習是自端到端的學習過程,它具有很強大的分類處理能力,同時適應性強。在HEVC 編碼中,文獻[15] 將深度學習用于HEVC 紋理圖CU 的劃分中,引入了卷積神經(jīng)網(wǎng)絡(convolutional neural network, CNN)和長短期記憶網(wǎng)絡(long short-term memory,LSTM)來預測紋理圖CU 的劃分,從而跳過了部分計算,降低了HEVC 編碼復雜度。文獻[16] 在HEVC 的CU 劃分中加入了CNN 網(wǎng)絡以確定紋理圖CU 的最優(yōu)候選模式,減少了LCU 中CU 候選模式的最大數(shù)目,降低了計算復雜度。文獻[17] 在HEVC 編碼中引入了CNN 網(wǎng)絡,將LCU 分為簡單CU 和復雜CU,然后預測紋理圖LCU 的最佳劃分范圍,跳過了不必要的CU 計算,降低了計算復雜度。文獻[18] 也在HEVC 的編碼中,采用一種多輸入的CNN 網(wǎng)絡架構(gòu)來預測紋理圖CU 的劃分。文獻[19] 通過殘差、宏塊劃分和位分配等特性,提出了一種使用LSTM 來預測CU 劃分的方法,降低了編碼復雜度。以上文獻說明深度學習在視頻紋理圖編碼上有著巨大潛力。

      這些現(xiàn)有的深度學習技術主要集中在如何提高紋理圖編碼性能,以使視頻的編碼效率得到最大限度的提高,而沒有充分考慮3D 視頻序列深度圖的特點和編碼復雜度,于是本文在深度圖LCU 的快速劃分算法中引入了擁有強大特征提取能力的卷積神經(jīng)網(wǎng)絡,構(gòu)建相應的Cu 深度快速選擇卷積神經(jīng)網(wǎng)絡(fast selecting Cu’s depth-convolutional neural network,FSCD-CNN),從而降低了幀內(nèi)編碼的復雜度并減少了編碼時間。

      1 基于FSCD-CNN 的深度圖像快速幀內(nèi)預測模式選擇算法

      1.1 算法設計思想

      在3D-HEVC 中,深度圖和紋理圖的主要編碼過程基本一致,但在紋理圖編碼框架的基礎上加入了一些新的編碼模式來提高性能。本文從視頻序列“Newspaper”中取出的紋理圖和深度圖如圖1 所示,可以看到:相比于紋理圖,深度圖有大量的平緩區(qū)域以及少量的不均勻區(qū)域,且深度圖中LCU 最優(yōu)劃分深度大多為0。

      圖1 “Newspaper”視點2 深度圖Figure 1 Depth map of “Newspaper” viewpoint 2

      經(jīng)“Newspaper”等視頻序列的深度圖測試分析發(fā)現(xiàn),平均94.53% 的LCU 是以64×64或32×32 的尺寸進行編碼的,只有5.45% 的LCU 以16×16 或8×8 的尺寸進行編碼,如表1 所示。

      表1 各視頻序列的LCU 尺寸劃分占比Table 1 LCU size partition proportion of different video sequence %

      因此,當CU 達到最優(yōu)深度的時候,如果通過算法檢測并終止CU 的繼續(xù)劃分,則可以提高編碼性能。卷積神經(jīng)網(wǎng)絡在預測、分類等方面有著非常優(yōu)良的性能,它克服了傳統(tǒng)機器學習中人工提取特征的弊端,實現(xiàn)了端對端的學習。將卷積神經(jīng)網(wǎng)絡與編碼器相結(jié)合,應用于HEVC 的紋理圖編碼以及3D-HEVC 的運動估計,以達到提升編碼效率的目的?;谏鲜鏊枷耄疚膶⒕矸e神經(jīng)網(wǎng)絡應用于3D-HEVC 的深度圖LCU 遞歸劃分中,搭建了適用于深度圖劃分的FSCD-CNN 框架,借助于卷積神經(jīng)網(wǎng)絡優(yōu)秀的特征提取性能,將3D-HEVC 編碼與深度學習相結(jié)合,提出了一種基于FSCD-CNN 的深度圖像快速幀內(nèi)預測模式選擇算法,對深度圖LCU 的最優(yōu)劃分深度進行預測,得到最優(yōu)深度值depth_pre,從而提前終止CU 劃分,跳過了預測范圍外的RD-cost 計算。實驗結(jié)果表明:本文所提方法在減少編碼復雜度的同時,編碼質(zhì)量幾乎保持不變。

      1.2 FSCD-CNN 模型搭建與訓練

      1.2.1 訓練數(shù)據(jù)的獲取

      本文訓練數(shù)據(jù)來自3D-HEVC 標準視頻序列(包括“Balloons”“Kendo”“Poznan Street”),算法不需要進行人工提取特征,而是直接構(gòu)建具有代表性和概括性的訓練數(shù)據(jù)集就可以獲得優(yōu)良的分類預測模型。將每個深度序列前6 幀的LCU 作為深度圖LCU 的訓練集,由于編碼采用的是雙視點合成,取出的LCU 約10 728 個,如表2 所示。

      表2 訓練樣本Table 2 Training samples 個

      對于取出的LCU 數(shù)據(jù)集,根據(jù)其編碼后的最優(yōu)深度結(jié)果貼上標簽D,D的取值為{D1,D2,D3,D4},分別對應4 層CU 劃分深度。

      1.2.2 FSCD-CNN 模型

      本文搭建的適合深度圖LCU 分類的深度框架如圖2 所示,模型通過對深度圖LCU 的分類進行學習,加快了視頻編碼的速度。

      圖2 FSCD-CNN 模型Figure 2 FSCD-CNN model

      整個深度學習框架是由10 層組成,其中包括5 個卷積層、2 個池化層以及3 個全連接層。FSCD-CNN 的第1 層具有64 個特征圖的卷積層,輸入是從視頻序列獲得的大量64×64像素的圖像及與之相應的深度標簽。第1 層的卷積核大小是3×3,其特征圖的尺寸是62×62。然后進行批規(guī)范化(batch normalization, BN)以更好地提高訓練速度,同時防止過擬合,使模型性能更加優(yōu)良。對比訓練集上的實驗發(fā)現(xiàn),在第1 層卷積層后面使用BN 能得到更好的模型精度,獲得了更好的分類結(jié)果。第2 層卷積層具有64 個60×60 的特征圖,其卷積核大小也是3×3。第3 層是2×2 的池化層,具有64 個30×30 的特征圖。然后是卷積核為3×3的連續(xù)3 層卷積層,它們分別具有64 個28×28 的特征圖、64 個26×26 的特征圖以及64 個24×24 的特征圖。連續(xù)的3 層卷積層獲得了更大的感受野,可以更好地總結(jié)卷積層信息,讓決策函數(shù)性能得以提升。第7 層是2×2 的池化層,具有64 個12×12 的特征圖。第8 層和第9 層都是具有256 個神經(jīng)元的全連接層,同時為了防止過擬合,將隨機丟棄50% 的特征。第10 層是具有4 個單元的層,它是整個模型的輸出層,用以輸出分類結(jié)果。輸出層使用softmax激活函數(shù),對輸入的數(shù)據(jù)進行分類判定,給出每個深度圖的最優(yōu)預測分類結(jié)果。

      模型采用的損失函數(shù)是交叉熵損失函數(shù),公式為

      式中:a為實際輸出,y為期望輸出,L為損失值,N為數(shù)據(jù)總數(shù),x為訓練輸入。

      3D-HEVC 使用了四叉樹結(jié)構(gòu)對CU 進行遞歸計算,并且對多個預測模式計算最小率失真代價,由此帶來了大量復雜度。本文提出基于FSCD-CNN 的深度圖像快速幀內(nèi)預測模式選擇算法,預測CU 劃分深度,提前終止CU 遞歸劃分。本文所提出的深度決策算法流程圖如

      1.3 基于FSCD-CNN 的深度圖像快速幀內(nèi)預測模式選擇算法

      圖3 所示。該算法主要分為以下3 個模塊:首先是讀取模塊,從視頻序列中獲取深度圖LCU,并將其傳給CNN 網(wǎng)絡,用于識別預測;其次是預測模塊,使用已訓練的CNN 網(wǎng)絡對輸入的深度圖LCU 進行預測,將其分為4 類,分別是深度D1、D2、D3、D4,同時把初步的分類預測結(jié)果輸入到模式?jīng)Q策模塊;最后由模式?jīng)Q策模塊對這個數(shù)據(jù)進行判定再處理,進而得到CU的最佳決策深度,如果當前深度圖LCU 預測的深度是0,則遍歷35 種幀內(nèi)模式,將最大可能模式(most possible modes, MPM)加入到候選模式,同時跳過DMM 模式,停止CU 遞歸劃分,確定最佳預測模式與CU 深度。如果預測的深度不為0,則繼續(xù)幀內(nèi)模式遍歷、DMM 探索以及CU 的遞歸劃分,直到當前CU 深度等于預測CU 深度為止。實驗結(jié)果表明,本文提出的算法相對于3D-HEVC 的測試序列,其LCU 深度預測平均節(jié)省了42.58% 的時間,對編碼性能影響很少,可以實現(xiàn)編碼效率的大幅提升。

      2 算法實現(xiàn)

      在3D-HEVC 幀內(nèi)預測中,有37 種預測模式,分別是PLANAR 模式、DC 模式、33 種角度模式以及2 種DMM 模式,如表3 所示。

      表3 幀內(nèi)預測模式Table 3 Intra-frame prediction modes

      DMM 模式是3D-HEVC 在HEVC 基礎上設計的。加入DMM 模式是為了更準確地描繪深度圖CU 的邊緣情況。對于這些FSCD-CNN 預測最優(yōu)深度為0 的深度圖LCU,直接跳過DMM 搜索,節(jié)省了編碼時間。對于那些預測深度小于3 的LCU,提前終止該CU 的劃分。

      基于FSCD-CNN 的深度圖像快速幀內(nèi)預測模式選擇算法的流程如圖3 所示。

      圖3 基于FSCD-CNN 的深度圖像快速幀內(nèi)預測模式選擇算法Figure 3 Fast intra prediction mode selection algorithm for depth images based on FSCD-CNN

      具體的算法步驟如下:

      步驟1輸入深度圖序列;

      步驟2使用FSCD-CNN 模型對輸入的深度圖LCU 進行最佳深度預測;

      步驟3如果模型預測的最優(yōu)分類結(jié)果是深度0,那么就遍歷35 種幀內(nèi)模式,同時把MPM 放進候選列表,跳過DMM 模式搜索,然后進入步驟5,否則進入步驟4;

      步驟4遍歷35 種幀內(nèi)模式,同時把MPM 放進候選列表以進行DMM 模式搜索;

      步驟5決定LCU 最佳劃分深度,從候選列表選擇最佳模式;

      步驟6對下一個LCU 進行判定,直至全部判定完。

      3 實驗結(jié)果和分析

      為了評估所提算法的性能,對該算法和3D-HEVC 的視頻編碼平臺HTM-13.0 進行了對比實驗。測試序列是官方的5 個視頻序列,分別是“Balloon”“Kendo”“Newspaper”“Poznan Hall2”“Poznan street”。這些視頻采用的是雙視點編碼,視頻序列信息如表4 所示。本文的4 組量化參數(shù)分別設置為(25,34)、(30,39)、(35,42)、(40,45),相應的實驗配置如表5 所示。實驗所采用的硬件設備為2.8GHZ 的CPU,16G 的內(nèi)存以及GTX1060 顯卡。

      表4 序列信息Table 4 Sequence information

      表5 編碼配置Table 5 Encoding configuration

      使用相同峰值信噪比下的碼率差異(Bjontegaard delta bitrate, BDBR)和相同碼率下的峰值信噪比差異(Bjontegaard delta peak signal-to-noise rate, BDPSNR)來評估視頻編碼性能,則節(jié)省的時間比率為

      式中:T0為HTM13 原始編碼運行時間,T1為所提出算法運行時間。

      對合成視點的BDBR、BDPSNR 和節(jié)省的時間T進行評估的實驗結(jié)果如表6 所示,可以看出,所提算法與原編碼器相比平均節(jié)省了42.6% 的編碼時間,同時性能損失可以忽略不計。

      如圖4 所示,“Newspaper”和“Kendo”視頻序列在HTM13 原始編碼平臺下以及所提出的算法下的RD 曲線幾乎一致,因此編碼性能的損失幾乎可以忽略不計,而本文所提出的算法分別減少了41.6% 和47.6% 的時間復雜度。為了進一步對所提算法進行評估,將本算法與文獻[20] 及文獻[21] 的算法進行比較。文獻[20-21] 都針對深度圖CU 四叉樹劃分中復雜度過高問題給出了優(yōu)化方法和解決方案,文獻[20] 是對LCU 的最優(yōu)劃分深度進行預測,文獻[21]是對當前CU 是否劃分進行判定,旨在CU 劃分部分進行優(yōu)化以降低編碼復雜度。

      圖4 視頻序列RD 曲線Figure 4 RD curves of video sequence

      由表6 可以發(fā)現(xiàn),文獻[20] 在序列“Newspaper”以及序列“Kendo”上分別節(jié)省23.5%和23.1% 的編碼時間,所有序列平均節(jié)省了25.2% 編碼時間;文獻[21] 所提算法在序列“Newspaper”和“Kendo”上分別節(jié)省了21.1% 和22.7% 的編碼時間。而本文算法在上述序列上分別節(jié)省了41.6% 和47.6% 的編碼時間,所有序列平均節(jié)省了42.6% 的編碼時間。

      表6 實驗結(jié)果對比Table 6 Comparison of experimental results

      實驗結(jié)果表明,相比于文獻[20-21] 所提的算法,本文算法進一步節(jié)省了近15% 的編碼時間,而編碼性能卻幾乎一致。由此可見,本文提出的基于FSCD-CNN 的深度圖像快速幀內(nèi)預測模式選擇算法可以有效提高3D-HEVC 深度圖編碼性能。

      4 結(jié) 語

      本文提出了一種基于FSCD-CNN 的深度圖像快速幀內(nèi)預測模式選擇算法,用以減少3D-HEVC 的幀內(nèi)編碼時間。深入研究了深度圖的平滑程度與CU 深度劃分之間的關系,探討了基于深度學習的CU 提前終止劃分的問題,進而提出了FSCD-CNN 框架,并借助CNN出色的特征提取及分類能力對LCU 的最優(yōu)劃分深度進行預測。實驗結(jié)果表明,相比于原始HTM13.0 編碼平臺,本文算法幾乎沒有性能的損失,且能減少42.6% 的編碼時間。與文獻[20-21] 中的算法相比,本文算法節(jié)省時間更多。在未來的研究中將進一步優(yōu)化和提升網(wǎng)絡結(jié)構(gòu)。

      (編輯:管玉娟)

      猜你喜歡
      深度圖復雜度卷積
      基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
      基于深度圖的3D-HEVC魯棒視頻水印算法
      計算機應用(2019年3期)2019-07-31 12:14:01
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      一種低復雜度的慣性/GNSS矢量深組合方法
      基于傅里葉域卷積表示的目標跟蹤算法
      求圖上廣探樹的時間復雜度
      一種基于局部直方圖匹配的深度編碼濾波算法
      軟件導刊(2016年9期)2016-11-07 22:22:57
      疊加速度譜在鉆孔稀少地區(qū)資料解釋中的應用
      科技視界(2016年2期)2016-03-30 11:17:03
      某雷達導51 頭中心控制軟件圈復雜度分析與改進
      出口技術復雜度研究回顧與評述
      牙克石市| 大荔县| 元阳县| 措勤县| 策勒县| 喀什市| 武山县| 武平县| 邻水| 河北省| 钦州市| 溆浦县| 秦安县| 绥棱县| 冷水江市| 隆子县| 柯坪县| 宁陵县| 英山县| 沾益县| 额敏县| 康平县| 莆田市| 峡江县| 东源县| 渭南市| 大理市| 金川县| 南华县| 乌拉特中旗| 永康市| 甘南县| 玉田县| 高陵县| 错那县| 大埔区| 酒泉市| 双流县| 新干县| 清新县| 汤原县|