黃 哲,陳 浩,張 曄
(1.哈爾濱工業(yè)大學(xué)圖像與信息技術(shù)研究所,哈爾濱 150001,huangzhe.hit@gmail.com;2.北京宇航系統(tǒng)工程研究所,北京 100076)
H.264標(biāo)準(zhǔn)壓縮視頻的超分辨率重建
黃 哲1,2,陳 浩1,張 曄1
(1.哈爾濱工業(yè)大學(xué)圖像與信息技術(shù)研究所,哈爾濱 150001,huangzhe.hit@gmail.com;2.北京宇航系統(tǒng)工程研究所,北京 100076)
為利用低分辨率壓縮圖像序列來(lái)重建高分辨率圖像序列,提出一種在凸集投影(POCS)方法框架下基于整數(shù)DCT域量化噪聲模型的針對(duì)H.264標(biāo)準(zhǔn)壓縮視頻的超分辨率重建方法.首先建立壓縮視頻的降質(zhì)退化模型,然后根據(jù)H.264標(biāo)準(zhǔn)中的整數(shù)DCT變換和量化過(guò)程建立整數(shù)DCT域的量化噪聲模型,最后在凸集投影算法的框架下給出了基于整數(shù)DCT域量化噪聲的超分辨率重建算法.實(shí)驗(yàn)表明該算法的超分辨率重建結(jié)果的主觀質(zhì)量提高明顯,峰值信噪比可達(dá)到30 dB,一般迭代5次即可得到良好結(jié)果,算法復(fù)雜度較低.
超分辨率重建;整數(shù)DCT變換;量化噪聲;H.264壓縮視頻
圖像超分辨率重建是指利用一系列低分辨率圖像來(lái)恢復(fù)原始高分辨率圖像的重建過(guò)程.基于多幀圖像的超分辨率算法最早由Tsai和Huang[1]提出;Stark[2]和 Petti[3]等將凸集投影(POCS)理論應(yīng)用到圖像超分辨率重建當(dāng)中;Schultz和Stevenson[4]建立了基于最大后驗(yàn)概率(MAP)準(zhǔn)則的超分辨率重建方法.這些方法在解決傳統(tǒng)圖像超分辨率重建問(wèn)題時(shí)都取得良好的效果.
因原始視頻的數(shù)據(jù)量十分龐大而難于存儲(chǔ)和應(yīng)用,所以壓縮視頻成為視頻在應(yīng)用中的主要形式,也形成了多種視頻壓縮標(biāo)準(zhǔn),如MPEG和H.26X系列標(biāo)準(zhǔn)等.壓縮過(guò)程勢(shì)必引入下采樣、模糊和量化噪聲等降質(zhì)過(guò)程.為解決這些問(wèn)題,提高壓縮視頻的還原質(zhì)量,針對(duì)壓縮視頻的超分辨率重建逐漸成為研究熱點(diǎn).初期的研究將傳統(tǒng)的超分辨率重建方法應(yīng)用于壓縮視頻,但因沒(méi)有考慮壓縮過(guò)程的降質(zhì)特點(diǎn)而存在諸多弊端[5-6].后來(lái)涌現(xiàn)出很多針對(duì)壓縮視頻的超分辨率重建方法,如Gunturk[7]和 Segall[8]等提出在貝葉斯框架下的基于最大后驗(yàn)概率(MAP)準(zhǔn)則的重建方法;Altunbasak和 Patti等[9-10]利用壓縮過(guò)程中的量化噪聲提出基于凸集投影(POCS)理論的重建方法.這些方法多數(shù)是針對(duì)以8×8 DCT變換為核心的MPEG等視頻壓縮標(biāo)準(zhǔn).如今以4×4整數(shù)DCT變換為核心的H.264標(biāo)準(zhǔn)已逐漸成為主流,可針對(duì)H.264標(biāo)準(zhǔn)的超分辨率重建研究卻很少.
本文充分考慮H.264標(biāo)準(zhǔn)的特點(diǎn),首先建立視頻在壓縮過(guò)程中的降質(zhì)模型;其次分析H.264標(biāo)準(zhǔn)中整數(shù)DCT變換和量化的特點(diǎn),建立整數(shù)DCT域量化噪聲模型;然后提出在凸集投影(POCS)理論框架下的整數(shù)DCT域壓縮視頻超分辨率重建算法;最后進(jìn)行仿真實(shí)驗(yàn),分析實(shí)驗(yàn)結(jié)果和算法性能.
研究如何利用壓縮后的低分辨率序列來(lái)重建原始高分辨率序列的基礎(chǔ)之一,就是建立高分辨率原始視頻和低分辨率壓縮視頻的關(guān)系,即壓縮視頻模型.
本文將所有圖像均用一維向量表示.原始大小為pM×pN的高分辨率圖像用(p2MN)×1的向量f表示,其中p為伸縮因子;經(jīng)過(guò)下采樣、模糊等降質(zhì)過(guò)程后得到大小為M×N的低分辨率圖像用(MN)×1的向量g表示;將g壓縮后得到大小為M×N的解壓縮圖像,用(MN)×1的向量表示;通過(guò)超分辨率重建算法得到大小為pM×pN的高分辨率重建圖像,用(p2MN)×1的向量^f表示.可由壓縮碼流獲得,所以壓縮視頻超分辨率重建就是一個(gè)利用低分辨率解壓縮圖像來(lái)恢復(fù)高分辨率重建圖像^f的過(guò)程.
其中CfXCTf是二維正向變換核,Ef是尺度因子矩陣,符號(hào)?表示兩個(gè)矩陣中的對(duì)應(yīng)點(diǎn)相乘,d=c/b ≈ 0.41[11].
H.264標(biāo)準(zhǔn)為在減少整數(shù)DCT變換環(huán)節(jié)中的非整數(shù)運(yùn)算的同時(shí)保證變換的正交性,將b,c和d的值重新分配,就得到了最終的4×4整數(shù)DCT變換,即
上述整數(shù)DCT變換就是H.264編碼器中采用的主要變換方式,是傳統(tǒng)DCT變換的近似,在保證其正交性的同時(shí)擁有和傳統(tǒng)DCT變換幾乎一樣的壓縮性能,并避免了大量的非整數(shù)運(yùn)算.其反變換為
因?yàn)樵撟儞Q是正交的,所以有如下關(guān)系:
H.264標(biāo)準(zhǔn)中的量化部分采用的是尺度量化器,其基本的正向量化和反向量化分別為
其中Yij是碼塊經(jīng)過(guò)整數(shù)DCT變換后在系數(shù)矩陣Y中(i,j)處的系數(shù);Y′ij是Zij經(jīng)反向量化后得到的整數(shù)DCT系數(shù)矩陣Y′中(i,j)處的系數(shù);Qstep為量化步長(zhǎng),由QP值決定,Rround函數(shù)表示取整操作.取整操作使量化后的結(jié)果丟棄了小數(shù)部分,在減少數(shù)據(jù)量的同時(shí)帶來(lái)的后果是Y′ij≠Yij,造成了整數(shù)DCT系數(shù)的失真,即信息的丟失.這種信息的丟失,可以認(rèn)為是在原有整數(shù)DCT系數(shù)上面加或者減去一個(gè)絕對(duì)值小于0.5Qstep的噪聲,因此,用引入加性量化噪聲Ndij的方式來(lái)表示,即:
其中Ndij表示由于量化而引入到整數(shù)DCT域每個(gè)系數(shù)上的加性量化噪聲.
由(4)和(5)得
其中ndQ表示整數(shù)DCT域量化噪聲的一維向量,nQ是表示空域量化噪聲的一維向量,且ndQ=T(nQ).
將(6)帶入(1)得
上述推導(dǎo)給出了整數(shù)DCT域和空域的量化噪聲模型,以及原始高分辨圖像和解壓縮端得到的低分辨率圖像的關(guān)系.可以看出壓縮端的運(yùn)動(dòng)估計(jì)并不出現(xiàn)在原始高分辨圖像和解壓縮低分辨率圖像的關(guān)系式中,因此本文將整數(shù)DCT域量化噪聲降質(zhì)模型作為后續(xù)超分辨率重建方法的基礎(chǔ).
將前文對(duì)碼塊矩陣的整數(shù)DCT變換和量化轉(zhuǎn)換為對(duì)碼塊向量的操作.如果將碼塊矩陣X用16×1的一維向量x表示,整數(shù)DCT變換域系數(shù)矩陣Y用16×1的一維向量y表示,則(2)和(3)通過(guò)矩陣變換可以表示為
其中TDCT為16×16的整數(shù)DCT變換矩陣,TIDCT為16×16的反向整數(shù)DCT變換矩陣.
量化和反量化可以表示為
其中z為16×1的一維向量.
POCS算法中的初始值理論上可以是任意值,足夠致密的有效解集中任意解都是可以接受的重建結(jié)果,但初始值和限制集的選擇直接決定了算法的收斂速度和重建效果.下面,本文就根據(jù)前面的整數(shù)DCT域量化噪聲模型推導(dǎo)限制集,并給出相應(yīng)的投影算法來(lái)完成超分辨率重建.
下面來(lái)建立整數(shù)DCT域量化噪聲模型的限制凸集.因?yàn)镽round函數(shù)表示四舍五入的取整操作,可以得出
對(duì)于高分辨率原始圖像f經(jīng)過(guò)下采樣后的低分辨率圖像g=Cf和它的低分辨率解壓縮圖像來(lái)說(shuō),它們對(duì)應(yīng)的4×4的碼塊都應(yīng)該滿足即g和在對(duì)應(yīng)4×4碼塊上的差值經(jīng)過(guò)整數(shù)DCT變換后每個(gè)變換域系數(shù)的值都在區(qū)間(-0.5Qstep,0.5Qstep)當(dāng)中.式中(i,j)表示4 ×4碼塊在圖像中的位置.
這樣就可以構(gòu)造一個(gè)如下的集合:
在文獻(xiàn)[9-10],[12]和[13]中提出的針對(duì)MPEG視頻壓縮標(biāo)準(zhǔn)中DCT變換及量化的凸集投影算法的基礎(chǔ)上,利用前文建立的針對(duì)H.264標(biāo)準(zhǔn)的視頻壓縮模型和整數(shù)DCT域量化噪聲模型,提出在凸集投影算法框架下的基于整數(shù)DCT域量化噪聲限制集的壓縮視頻超分辨率重建算法,表達(dá)式如下:
當(dāng)每個(gè)碼塊對(duì)應(yīng)的Δk(m,n)都已計(jì)算出來(lái)后就可得到Δk.在計(jì)算ΔDk(m,n)時(shí),如果每一個(gè)Dk(m,n;i)(1≤i≤16)都在區(qū)間(-0.5Qstep,0.5Qstep)時(shí),則放棄對(duì)這個(gè)碼塊的修正,保持其原始空域的值不變.通過(guò)上面的過(guò)程將Δk計(jì)算出后,就可以通過(guò)式(8)迭代計(jì)算出.當(dāng)所有的Dk(m,n;i)都在區(qū)間(- 0.5Qstep,0.5Qstep)時(shí)就停止迭代運(yùn)算,此時(shí)的就是最后的超分辨率重建結(jié)果.迭代運(yùn)算的起始值理論上可以設(shè)為空間中的任何一個(gè)向量,此處將低分辨率解壓縮的圖像的雙線性插值圖像作為,因?yàn)榇朔椒ㄒ话愕貌坏绞諗康慕猓员舅惴ㄕJ(rèn)為經(jīng)過(guò)若干次迭代之后,若^fk的質(zhì)量不再明顯變化時(shí)就停止迭代,此時(shí)的^fk就是超分辨率重建結(jié)果.
用實(shí)驗(yàn)來(lái)驗(yàn)證上述整數(shù)DCT域超分辨率重建方法的性能.首先,將CIF(352×288)大小的foreman序列中的一幀作為高分辨率原始圖像,對(duì)其下采樣得到4幅QCIF(176×144)大小的圖像,并構(gòu)成一個(gè)低分辨率序列.然后用JM8.6軟件按照H.264標(biāo)準(zhǔn)的baseline檔次,QP值設(shè)為 28,對(duì)上述低分辨率圖像序列進(jìn)行壓縮,其中第1幀作為I幀,其他3幀為P幀,壓縮比為27倍.解壓縮后得到4幀低分辨率序列,對(duì)其中的一幀進(jìn)行雙線性插值得到一幅CIF大小的圖像f0.以f0作為起始點(diǎn)利用上述算法進(jìn)行迭代得到最終的重建結(jié)果,如圖1所示,細(xì)節(jié)對(duì)比如圖 2,對(duì)mobile序列與上述相同的實(shí)驗(yàn),結(jié)果如圖3所示.
上面的實(shí)驗(yàn)中重建結(jié)果的峰值信噪比(RPSN)相比雙線性插值算法有很大的提高,可以達(dá)到30 dB以上.同樣,重建結(jié)果相比雙線性插值算法在信噪比(SNR)方面具有明顯的優(yōu)勢(shì),提升均在5 dB以上.同樣可以看出視覺(jué)效果上細(xì)節(jié)信息更加豐富.同時(shí)本文算法通過(guò)較少迭代次數(shù)可得到穩(wěn)定的重建結(jié)果,如圖4所示,兩組實(shí)驗(yàn)均迭代5次即可得到穩(wěn)定的重建結(jié)果.對(duì)foreman序列在不同QP值下用JM8.6軟件壓縮并用本文算法進(jìn)行重建,其結(jié)果相對(duì)于雙線性插值算法重建結(jié)果的RPSN增量,如圖5所示.而SNR的增量也有同樣的趨勢(shì).因此得出本文算法在QP較小的情況下,具有更優(yōu)的重建效果.采用分塊操作盡可能化簡(jiǎn)了運(yùn)算中矩陣和向量的大小,節(jié)省了計(jì)算時(shí)間和所需內(nèi)存.
圖1 foreman序列實(shí)驗(yàn)結(jié)果
圖2 細(xì)節(jié)對(duì)比
圖3 Mobile序列實(shí)驗(yàn)結(jié)果
圖4 RPSN隨迭代次數(shù)變化曲線
綜上所述,本文提出的基于整數(shù)DCT域量化噪聲的壓縮視頻超分辨率重建方法在峰值信噪比和信噪比方面相比傳統(tǒng)的插值算法有較大的提高,而且運(yùn)算復(fù)雜度低,該算法中所使用的大量整數(shù)運(yùn)算使其具有良好的優(yōu)化前景.
圖5 RPSN增量與Qstep的關(guān)系
本文提出的基于整數(shù)DCT域量化噪聲的壓縮視頻超分辨率重建方法,針對(duì)H.264標(biāo)準(zhǔn)的壓縮視頻擁有較好的主觀重建效果,峰值信噪比較雙線性插值等方法有較大提高,收斂速度較快,對(duì)計(jì)算機(jī)資源消耗較小.但本文的算法仍有很多局限性,例如只考慮量化噪聲這一個(gè)壓縮視頻降質(zhì)因素,并沒(méi)有考慮由于預(yù)測(cè)和運(yùn)動(dòng)補(bǔ)償?shù)仍蛞鸬慕蒂|(zhì)過(guò)程;算法需要已知降質(zhì)矩陣C,而通常這個(gè)矩陣也具有不確定性.在未來(lái)針對(duì)H.264標(biāo)準(zhǔn)的壓縮視頻超分辨研究當(dāng)中,可以進(jìn)一步引入運(yùn)動(dòng)補(bǔ)償?shù)冉蒂|(zhì)模型;同時(shí)也可以根據(jù)整數(shù)DCT域量化噪聲的統(tǒng)計(jì)模型建立在貝葉斯框架下的壓縮視頻超分辨算法.
[1]TSAI R,HUANG T.Advances in Computer Vision and Image Processing[M].Greenwich:JAI Press Inc,1984:317-339.
[2]STARK H,OSKOUI P.High-resolution image recovery from image-plane arrays,using convex projections[J].Journal of the Opt Soc of America, 1989,6(11):1715-1726.
[3]PATTI A J,SEZAN M I,TEKALP A M.Super-resolution video reconstruction with arbitrary sampling lattices and nonzero aperture time[J].IEEE Trans on Image Processing, 1997,6(8):1064-1076.
[4]SCHULTZ R R,STEVENSON R L.Extraction of high resolution frames from video sequences[J].IEEE Trans on Image Processing,1996(6):996-1001.
[5]SEGALL C A,MOLINA R,KATSAGGELOS A K.High-resolution images from low-resolution compressed video[J].IEEE Signal Processing Magazine, 2003,20(3):37-48.
[6]徐忠強(qiáng),朱秀昌.壓縮視頻超分辨率重建技術(shù)[J].電子與信息學(xué)報(bào), 2007,29(2):499-505.
[7]GUNTURK B K,ANTUNBASAK Y,MERSEREAU R.Bayesian resolution-enhancement framework for transform-coded video[C]//IEEE Int.Conf.Image Processing.Thessaloniki,Greece:[s.n.],2001:444.
[8]SEGALL C A,KATSAGGELOS A K,MOLINA R,et al.Bayesian resolution enhancement of compressed video[J].IEEE Trans on Image Processing, 2004,13(7):898-911.
[9]PATTI A J,ALTUNBASAK Y.Super-Resolution image estimation for transform coded video with application to MPEG[C]//IEEE International Conference on Image Processing.Kobe,Japan:[s.n.],1999:179 -183.
[10]ALTUNBASAK Y,PATTI A J,MERSEREAU R M.Super-resolution stilland video reconstruction from MPEG coded video[J].IEEE Trans.on Circuits and System for Video Technology, 2002,12(4):217 -226.
[11]RICHARDSON IAIN E G.H.264 and MPEG -4 Video Compression[M].England:John Wiley and Sons Inc,2003:189-190.
[12]CHAUDHURI S.Super-Resolution Imaging[M]//SEGALL C A,KATSAGGELOS A K,MOLINA R.The International Series in Engineering and Computer Science.Norwell:Kluwer,2001:211 -242.
[13]胡辛.壓縮圖像超分辨重建算法研究[D].西安:西安電子科技大學(xué),2006:37-38.
Super-resolution reconstruction of H.264 compressed video
HUANG Zhe1,2,CHEN Hao1,ZHANG Ye1
(1.Institute of Image and Information Technology,Harbin Institute of Technology,Harbin 150001,China,huangzhe.hit@gmail.com;2.Beijing Institute of Astronautical Systems Engineering,Beijing 100076,China)
To reconstruct high-resolution(HR)images from a sequence of low-resolution(LR)compressed images,this paper proposes a novel algorithm focused on super-resolution reconstruction of H.264 compressed video,which is based on the integer DCT transform-domain quantization noise.Firstly,models of compressed video and integer DCT transform-domain quantization noise are surveyed.Then the reconstruction algorithm under the POCS theory is proposed.Experimental results demonstrate that this algorithm has a great improvement in subjective visual quality and low computation complexity,in which PSNR can reach 30 dB and iterations are less than 5 times.
super-resolution reconstruction;integer DCT;quantization noise;H.264 compressed video
TN911.73
A
0367-6234(2010)05-0721-06
2009-03-24.
黑龍江省自然科學(xué)基金資助項(xiàng)目(ZJG04-0701).
黃 哲(1983—),男,碩士研究生;
張 曄(1960—),男,教授,博士生導(dǎo)師.
book=42,ebook=95
(編輯 張 宏)