• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Cache的HEVC運(yùn)動(dòng)補(bǔ)償帶寬優(yōu)化設(shè)計(jì)

      2014-09-18 00:15:12郭錚言方向忠
      電視技術(shù) 2014年15期
      關(guān)鍵詞:存儲(chǔ)器解碼插值

      郭錚言,方向忠,王 慈

      (上海交通大學(xué)電子工程系,上海200240)

      HEVC是由JCT-VC組織研發(fā)的最新一代視頻壓縮標(biāo)準(zhǔn)[1],和上一代 H.264/AVC 標(biāo)準(zhǔn)[2]相比,HEVC 在保證視頻質(zhì)量的同時(shí)可以帶來兩倍的視頻編碼壓縮量?,F(xiàn)在電視廣播以及家庭影音中的主流視頻格式是1 080p和720p,新一代高端影音產(chǎn)品將目標(biāo)鎖定在更高分辨率的視頻格式,比如QFHD(4K×2K)。HEVC的高視頻壓縮率將會(huì)更好地滿足超高清分辨率視頻對(duì)于海量數(shù)據(jù)吞吐的需求,也被業(yè)界公認(rèn)為下一代最為普遍應(yīng)用的標(biāo)準(zhǔn)。新標(biāo)準(zhǔn)中采用了很多先進(jìn)視頻壓縮技術(shù),比如說在運(yùn)動(dòng)補(bǔ)償模塊亮度插值中使用8抽頭濾波器來預(yù)測(cè)1/4分?jǐn)?shù)精度像素值,同時(shí)在色度差值中使用4抽頭濾波器來預(yù)測(cè)1/8分?jǐn)?shù)精度像素值。與之前的視頻壓縮標(biāo)準(zhǔn)相比,更高精度的插值預(yù)測(cè)能夠帶來更好的視頻壓縮效果,與此同時(shí)視頻編解碼的過程對(duì)于帶寬的需求就更高。

      運(yùn)動(dòng)補(bǔ)償插值模塊是視頻解碼器中計(jì)算需求最大的模塊之一,插值預(yù)測(cè)的過程中需要大量讀取外設(shè)存儲(chǔ)器中的參考幀信息,占用了約70%的解碼帶寬。實(shí)時(shí)解碼3 840×2 160@60 f/s(幀/秒)格式視頻,數(shù)據(jù)吞吐量會(huì)達(dá)到500 Mpixel/s[3]。假如使用 H.264/AVC 解碼,帶寬的需求將會(huì)是1 080p的4.3倍,即7 Gbit/s。HEVC標(biāo)準(zhǔn)的插值部分因?yàn)閼?yīng)用了抽頭數(shù)更多的8抽頭濾波器,相比H.264標(biāo)準(zhǔn)需要更多的參考幀信息,因此會(huì)帶來更大的帶寬消耗。所以,運(yùn)動(dòng)補(bǔ)償模塊會(huì)是HEVC標(biāo)準(zhǔn)進(jìn)行超高清視頻實(shí)時(shí)解碼過程中的瓶頸。

      通過利用2D Cache結(jié)構(gòu)和插值順序重排,本文提出了一種有效合理的運(yùn)動(dòng)補(bǔ)償帶寬優(yōu)化設(shè)計(jì)。首先,并行化插值結(jié)構(gòu)設(shè)計(jì)可以保證3 840×2 160@60 f/s的視頻實(shí)時(shí)解碼時(shí)的數(shù)據(jù)吞吐量需求。其次,利用在插值計(jì)算處理器與主存儲(chǔ)器中間使用2D Cache結(jié)構(gòu)進(jìn)行高速緩沖存儲(chǔ),從而達(dá)到數(shù)據(jù)快速讀取以及大量減少帶寬的目的。然后,在保證Cache讀取命中率的前提下,利用插值順序重排方案提高每次所讀取參考幀數(shù)據(jù)之間的時(shí)/空相關(guān)性,從而減少Cache面積,減少片內(nèi)硬件開銷。

      1 HEVC運(yùn)動(dòng)補(bǔ)償系統(tǒng)框架

      圖1為所設(shè)計(jì)的運(yùn)動(dòng)補(bǔ)償模塊系統(tǒng)框架,主要由亮度插值計(jì)算模塊、色度插值計(jì)算模塊、Cache高速緩沖存儲(chǔ)模塊以及外設(shè)主存儲(chǔ)器組成。

      圖1 HEVC運(yùn)動(dòng)補(bǔ)償模塊系統(tǒng)框架

      1.1 運(yùn)動(dòng)補(bǔ)償插值模塊

      在許多基于H.264/AVC標(biāo)準(zhǔn)所設(shè)計(jì)的運(yùn)動(dòng)補(bǔ)償結(jié)構(gòu)中,一個(gè)宏塊往往被拆分成16個(gè)4×4模塊然后進(jìn)行插值計(jì)算,一個(gè)4×4亮度模塊需要最多讀取9×9參考幀像素信息[4-5]。在HEVC中,3種不同系數(shù)的8抽頭濾波器的應(yīng)用使得插值一個(gè)4×4亮度模塊需要讀取最多11×11參考幀像素信息。

      本文運(yùn)動(dòng)補(bǔ)償模塊基于作者先前的研究成果[6],利用亮度插值中3種系數(shù)結(jié)構(gòu)中的相同項(xiàng),將3種不同系數(shù)的濾波器整合設(shè)計(jì)成為一個(gè)具有復(fù)用結(jié)構(gòu)的8抽頭濾波器,減少了計(jì)算模塊的硬件開銷。插值計(jì)算模塊采用流水線設(shè)計(jì),1/4精度亮度插值首先由8抽頭濾波器進(jìn)行水平方向插值,得到半像素值或者1/4像素精度中間值。在8個(gè)時(shí)鐘周期之后,寄存器陣列中的8個(gè)中間值被傳送至垂直方向8抽頭濾波器進(jìn)行插值計(jì)算,最后得到所求像素預(yù)測(cè)值。對(duì)于N個(gè)像素并行插值計(jì)算,整個(gè)HEVC亮度插值模塊需要由2N個(gè)8抽頭濾波器(N個(gè)水平方向,N個(gè)垂直方向)和N×8個(gè)15 bit寄存器組成。而在H.264/AVC中,亮度插值模需要(3N+1)個(gè)6抽頭濾波器(N個(gè)水平方向,2N+1個(gè)垂直方向),(2N+1)×6個(gè)8 bit寄存器和N個(gè)2抽頭濾波器[7-8]。和H.264/AVC相比,HEVC所需的濾波器數(shù)量和寄存器隊(duì)列減少了,但是濾波器的面積、寄存器的位寬以及寄存器隊(duì)列的長度增加了。同時(shí)因?yàn)椴逯邓鑵⒖紟袼匦畔⒌脑黾?,HEVC運(yùn)動(dòng)補(bǔ)償對(duì)于帶寬需求也更大了。本文中的亮度插值結(jié)構(gòu)為8個(gè)像素并行預(yù)測(cè)。色度模塊與亮度模塊結(jié)構(gòu)相似。

      1.2 Cache模塊

      運(yùn)動(dòng)補(bǔ)償插值模塊計(jì)算時(shí)所用到的參考幀信息由于數(shù)據(jù)量巨大,存儲(chǔ)在片外的主存儲(chǔ)器中。為了減少從數(shù)據(jù)片內(nèi)外數(shù)據(jù)交互帶寬,計(jì)算模塊與片外主存儲(chǔ)器之間引入Cache[9]。首先,用來描述插值位置和參考?jí)K大小的插值指令會(huì)被發(fā)送到判斷模塊中,判斷模塊通過訪問標(biāo)志存儲(chǔ)器判斷得出所需數(shù)據(jù)是否命中。若命中,則將插值指令發(fā)送至任務(wù)隊(duì)列;若沒有命中,則將數(shù)據(jù)讀取請(qǐng)求發(fā)送給片外主存儲(chǔ)器,主存儲(chǔ)器確認(rèn)請(qǐng)求后會(huì)將被請(qǐng)求數(shù)據(jù)傳送寫入片內(nèi)數(shù)據(jù)存儲(chǔ)器中。當(dāng)所有所需參考幀數(shù)據(jù)都已經(jīng)被寫入數(shù)據(jù)存儲(chǔ)器中并且插值模塊已經(jīng)準(zhǔn)備就緒時(shí),參考幀數(shù)據(jù)和插值指令隨后被發(fā)送至插值模塊中進(jìn)行插值計(jì)算。

      2 Cache優(yōu)化設(shè)計(jì)

      Cache設(shè)計(jì)中的三個(gè)主要問題為高速緩存映射機(jī)制,內(nèi)部存儲(chǔ)器結(jié)構(gòu)以及Cache緩存區(qū)面積優(yōu)化。高速緩存映射機(jī)制[10-11]在許多研究者的文章中都被討論過,而內(nèi)部存儲(chǔ)器結(jié)構(gòu)和緩存區(qū)面積優(yōu)化問題卻很少被研究。

      2.1 內(nèi)部存儲(chǔ)結(jié)構(gòu)設(shè)計(jì)

      本文的內(nèi)部存儲(chǔ)器結(jié)構(gòu)設(shè)計(jì)主要為了優(yōu)化存儲(chǔ)器面積和功耗問題。首先,和標(biāo)清視頻圖像解碼相比,在超高清視頻圖像解碼的過程中,插值模塊往往采用并行化流水線結(jié)構(gòu)來增加數(shù)據(jù)吞吐量,導(dǎo)致內(nèi)部存儲(chǔ)器的寬度也會(huì)成比例增加。其次,內(nèi)存訪問過程中的數(shù)據(jù)對(duì)齊問題也會(huì)導(dǎo)致存儲(chǔ)器寬度的增加。如圖2a所示,RAM中數(shù)據(jù)通常是一列中多個(gè)像素在一起存儲(chǔ)和讀取,被稱為存儲(chǔ)單元。圖2a中以4個(gè)像素為基本存儲(chǔ)單元,假設(shè)內(nèi)存輸出寬度為2個(gè)存儲(chǔ)單元即8個(gè)像素,以讀取8個(gè)像素值為例說明RAM數(shù)據(jù)訪問對(duì)齊問題。圖2a(1)中所示情況為數(shù)據(jù)對(duì)齊訪問,即所需8個(gè)數(shù)據(jù)正好完全包含2個(gè)存儲(chǔ)單元內(nèi)數(shù)據(jù),因此只要一個(gè)時(shí)鐘周期便可以讀取所需數(shù)據(jù)。圖2a(2)中所示情況為數(shù)據(jù)未對(duì)齊訪問,即只需要3個(gè)存儲(chǔ)單元內(nèi)的部分?jǐn)?shù)據(jù),因?yàn)镽AM一次只能輸出2個(gè)存儲(chǔ)單元的數(shù)據(jù),因此需要2個(gè)時(shí)鐘周期來讀取所需數(shù)據(jù)。為了保證數(shù)據(jù)讀取速度滿足一個(gè)時(shí)鐘周期內(nèi)讀取所有所需值,就需要增加RAM寬度。內(nèi)存輸出寬度的增加雖然不會(huì)影響內(nèi)存緩存區(qū)的大小,但是會(huì)導(dǎo)致功耗增加。

      圖2 內(nèi)部存儲(chǔ)器RAM結(jié)構(gòu)設(shè)計(jì)

      一個(gè)解碼單元通常會(huì)被拆分成多個(gè)4×4或者8×4小模塊來進(jìn)行插值計(jì)算。插值一個(gè)8×4模塊,在H.264中需要參考幀模塊大小為12×9,而在HEVC中需要大小為15×11的參考幀模塊。文獻(xiàn)[3]使用4片寬度為32 bit(4個(gè)像素)的RAM結(jié)構(gòu)來輸出數(shù)據(jù),稱之為4S×4結(jié)構(gòu)。這種4S×4結(jié)構(gòu)保證了12個(gè)參考幀像素值能在1個(gè)時(shí)鐘周期內(nèi)從RAM中被讀取出來,但是無法滿足HEVC亮度插值時(shí)一個(gè)時(shí)鐘周期讀取15個(gè)像素值的需求。有兩種方法可以增加RAM輸出,保證HEVC的快速數(shù)據(jù)讀取需求。第一種方法是增加1片寬度為32 bit的RAM,即4S×5結(jié)構(gòu)如圖2c所示。但是這種結(jié)構(gòu)雖然保證了數(shù)據(jù)輸出速度,卻也增加了RAM寬度,為原先的1.25倍。本文提出了另一種2S×8結(jié)構(gòu),即使用8片RAM,每片RAM寬度為16 bit(2個(gè)像素)。這種2S×8結(jié)構(gòu)使得15個(gè)參考幀像素能在1個(gè)時(shí)鐘周期內(nèi)被全部讀取,從而有效地保證了亮度插值模塊的并行計(jì)算速度,并且沒有增加內(nèi)存寬度。

      2.2 Cache緩存區(qū)面積優(yōu)化

      運(yùn)動(dòng)補(bǔ)償插值計(jì)算過程中所需要的參考幀模塊數(shù)據(jù)之間事實(shí)上是有相關(guān)性的[9]。圖3展示了當(dāng)前幀解碼單元P0,P1,P2,P3在進(jìn)行運(yùn)動(dòng)補(bǔ)償時(shí)所需參考幀模塊大小的例子。從圖3可以發(fā)現(xiàn),參考幀模塊之間互相有重疊。即在當(dāng)前插值模塊Pk所需的參考幀模塊中,有部分信息有很大概率仍然會(huì)被下一個(gè)插值模塊Pk+1所需要,此為數(shù)據(jù)的時(shí)域相關(guān)性。另一種數(shù)據(jù)相關(guān)性是由存儲(chǔ)器中數(shù)據(jù)的存放格式所引起的。在外部存儲(chǔ)器中,多個(gè)像素通常被組合在一起當(dāng)作一個(gè)訪問單元來存放和讀取。比如在本文設(shè)計(jì)的Cache中,一個(gè)訪問單元由8 byte(64 bit)組成。當(dāng)這個(gè)訪問單元中的部分?jǐn)?shù)據(jù)需要被讀取時(shí),整個(gè)訪問單元都會(huì)從存儲(chǔ)器中讀取出來,包括單元中剩下的不需要數(shù)據(jù)。而那些當(dāng)前模塊插值過程中所不需要的數(shù)據(jù)信息有很大概率在下一個(gè)模塊插值的過程中被請(qǐng)求讀取。因此,同一個(gè)訪問單元可能被連續(xù)多次地反復(fù)讀取,此為數(shù)據(jù)的空域相關(guān)性。在2D Cache結(jié)構(gòu)中,這些數(shù)據(jù)相關(guān)性直接影響了Cache高速緩沖區(qū)的大小。合理高效地運(yùn)用這些數(shù)據(jù)相關(guān)性來進(jìn)行數(shù)據(jù)讀取,可以在保證帶寬減少的同時(shí),優(yōu)化Cache緩沖區(qū)的大小和減少硬件開銷。

      文獻(xiàn)[12]使用了4×64×64大小的Cache緩沖區(qū)來減少帶寬,是H.264中32×32大小的Cache設(shè)計(jì)[10]的16倍。雖然帶寬減少了,但是也為解碼芯片帶來了巨大的片內(nèi)硬件開銷。圖4a為HEVC中最大解碼單元(64×64)的原始運(yùn)動(dòng)補(bǔ)償插值順序,基于HM 9.0。由圖可知,各個(gè)模塊的原始插值計(jì)算順序與預(yù)測(cè)單元的存放結(jié)構(gòu)有關(guān)。但是,按照這種樹狀存放結(jié)構(gòu)讀取的參考幀模塊,其數(shù)據(jù)相關(guān)性的利用率很低。因此,本文提出3種插值順序重排方法,目的是為了提高參考幀數(shù)據(jù)相關(guān)性的利用率來減少Cache大小,從而減少片內(nèi)硬件開銷。如圖4b~4d所示,分別為垂直讀取、水平讀取和混合讀取(將解碼單元分成上下兩塊進(jìn)行垂直讀取)。

      圖3 數(shù)據(jù)時(shí)域空域相關(guān)性

      圖5 部分插值順序重排實(shí)驗(yàn)結(jié)果及混合讀取帶寬減少率

      3 實(shí)驗(yàn)結(jié)果及分析

      圖5為部分插值順序重排實(shí)驗(yàn)結(jié)果,所使用的視頻來自HEVC標(biāo)準(zhǔn)測(cè)試序列集,為IPPPP編碼模式,測(cè)試工具為HM 9.0。

      以圖5a為例,測(cè)試了3種插值順序重排在不同的緩沖區(qū)大小情況下的帶寬優(yōu)化結(jié)果,其中橫坐標(biāo)表示Cache緩沖區(qū)大小(高×寬字節(jié)),縱坐標(biāo)表示帶寬減少率。從此圖中可以看出,在原始插值順序的情況下,帶寬優(yōu)化曲線(此處稱之為Rc曲線)在128×128處收斂,即在這個(gè)緩沖區(qū)大小下帶寬優(yōu)化效果最佳。另外三種插值順序使得曲線提前收斂,其中混合順序重排使得帶寬優(yōu)化效果在Cache緩沖區(qū)大小為32×64時(shí)就已經(jīng)接近于最佳。其他視頻序列的測(cè)試結(jié)果也均表明利用混合插值順序重排,在保證帶寬優(yōu)化效果的同時(shí),可以將片內(nèi)Cache硬件開銷減少為原來的(32×64)/(128×128)=1/8。使用插值順序重排的方法也會(huì)帶來一些額外的硬件開銷,那就是需要在外部存儲(chǔ)器中利用一塊64×64 byte大小的存儲(chǔ)空間來存儲(chǔ)整個(gè)最大解碼單元內(nèi)的參考幀數(shù)據(jù)信息。片外存儲(chǔ)器原先存儲(chǔ)空間遠(yuǎn)大于64×64 byte,而且流水線設(shè)計(jì)有效地解決了數(shù)據(jù)等待時(shí)間問題,因此這點(diǎn)額外的硬件開銷是可接受的。圖5d為混合插值順序重排下的帶寬減少率,從圖中可以看出帶寬優(yōu)化率達(dá)到80% ~90%,合理有效地優(yōu)化了超高清視頻編解碼過程中帶寬過大的問題。

      4 結(jié)論

      本文提出了一種基于Cache的HEVC運(yùn)動(dòng)補(bǔ)償帶寬優(yōu)化設(shè)計(jì)。主要貢獻(xiàn)有:1)提出了內(nèi)部存儲(chǔ)器低功耗結(jié)構(gòu)設(shè)計(jì),保證HEVC標(biāo)準(zhǔn)下超高清視頻解碼數(shù)據(jù)吞吐量需求,同時(shí)降低RAM功耗。2)提出了Cache大小優(yōu)化設(shè)計(jì),通過插值順序重排的方法高效地利用了參考幀數(shù)據(jù)間的相關(guān)性,將片內(nèi)Cache硬件開銷減少了87.5%。

      HEVC視頻測(cè)試集的實(shí)驗(yàn)結(jié)果表明,本文Cache設(shè)計(jì)用與H.264有可比性的32×64 byte內(nèi)存就可以減少HEVC運(yùn)動(dòng)補(bǔ)償插值計(jì)算過程中的80%以上的帶寬。本文為HEVC解碼器芯片的實(shí)際生產(chǎn)和未來針對(duì)超高清視頻實(shí)時(shí)解碼應(yīng)用提出了合理的解決方案,同時(shí)比較了HEVC和H.264運(yùn)動(dòng)補(bǔ)償模塊在硬件實(shí)現(xiàn)和開銷上的異同。

      :

      [1] Working draft 5 of high-efficiency video coding,joint collaborative team on video coding(JCT-VC)[S].2011.

      [2] Draft ITU-T recommenda-tion and final draft international standard of joint video specification[S].2003.

      [3] ZHOU J,ZHOU D,HE G,et al.Cache based motion compen-sation architecture for quad-HD H.264/AVC video decoder[J].IEICE Trans.Electron.,2011(4):439-447.

      [4] GUO Zhengyan,ZHOU Dajiang,GOTO S.An optimized mcinterpolation architecture for HEVC[C]//Proc.IEEE Int.Conf.on Acoustics,Speech,and Signal Processing.[S.l.]:IEEE Press,2012:1117-1120.

      [5]劉立峰,方向忠.低運(yùn)算復(fù)雜度的H.264解碼器運(yùn)動(dòng)補(bǔ)償模塊[J].電視技術(shù),2011,35(9):23-26.

      [6] SZE V,F(xiàn)INCHELSTEIN D,SINANGIL M,et al.Chandrakasan.A 0.7-V 1.8-mW H.264/AVC 720 p video decoder[C]//Proc.IEEE J.Solid-State Circuits.[S.l.]:IEEE Press,2009:2943-2956.

      [7] WANG S,LIN T,LIU T,et al.A new motion compensation designfor H.264/AVC decoder[C]//Proc.IEEE Int.Symp.Circuits Syst. [S.l.]:IEEE Press,2005:4558-4561.

      [8] ZHOU D,LIU P.A hardware-efficient dual-standard VLSI archi-tecture for MC interpolation in AVS and H.264[C]//Proc.IEEE Int.Symp.Circuits and Syst..[S.l.]:IEEE Press,2007:2910-2913.

      [9] CHEN X,LIU P,ZHOU D,et al.A high performance and low bandwidth multi-standard motion compensation design for HD video decoder[J].IEICE Trans.Electronics.,2010(3):253-260.

      [10] CHUANG T,CHANG L,CHIU T,et al.Bandwidth-efficient Cachebased motion compensation architecture with DRAM-friendly data access control[C]//Proc.IEEE Acoust.,Speech and Signal Process..[S.l.]:IEEE Press,2009:200-2012.

      [11] MEHENDALE M,DAS S,SHARMA M,et al.A true multistandard,programmable,low-power,full HD video-codec engine for smartphone SoC[C]//Proc.IEEE Solid-State Circuits Conf.[S.l.]:IEEE Press,2012:226-228.

      [12] HUANG C,TIKEKAR M.A 249Mpixel/s HEVC video-decoder chip for quad full HD applications[C]//Proc.IEEE Solid-State Circuits.[S.l.]:IEEE Press,2013:162-163.

      猜你喜歡
      存儲(chǔ)器解碼插值
      《解碼萬噸站》
      靜態(tài)隨機(jī)存儲(chǔ)器在軌自檢算法
      解碼eUCP2.0
      中國外匯(2019年19期)2019-11-26 00:57:32
      基于Sinc插值與相關(guān)譜的縱橫波速度比掃描方法
      NAD C368解碼/放大器一體機(jī)
      Quad(國都)Vena解碼/放大器一體機(jī)
      一種改進(jìn)FFT多譜線插值諧波分析方法
      基于四項(xiàng)最低旁瓣Nuttall窗的插值FFT諧波分析
      存儲(chǔ)器——安格爾(墨西哥)▲
      Blackman-Harris窗的插值FFT諧波分析與應(yīng)用
      峨眉山市| 安多县| 吕梁市| 佛学| 杂多县| 河东区| 高雄县| 鄂尔多斯市| 延安市| 芜湖县| 辰溪县| 二手房| 平利县| 永福县| 岐山县| 越西县| 贞丰县| 涞水县| 开化县| 甘孜县| 宁陕县| 游戏| 旺苍县| 伊金霍洛旗| 临武县| 秀山| 青田县| 渝北区| 深水埗区| 西城区| 商城县| 玛多县| 新疆| 岳阳县| 湘潭市| 望奎县| 鹤山市| 石首市| 岱山县| 隆子县| 石狮市|