蘇建軍,慕世友,楊 波,孫曉斌,趙海武,顧 曉
(1.國網山東省電力公司電力科學研究院,濟南 250000; 2.山東魯能智能技術有限公司,濟南 250101;3.上海大學 通信與信息工程學院,上海 200444) (*通信作者電子郵箱814313949@qq.com)
數(shù)字視頻轉碼失真分析
蘇建軍1,慕世友2,楊 波1,孫曉斌1,趙海武3,顧 曉3*
(1.國網山東省電力公司電力科學研究院,濟南 250000; 2.山東魯能智能技術有限公司,濟南 250101;3.上海大學 通信與信息工程學院,上海 200444) (*通信作者電子郵箱814313949@qq.com)
在互聯(lián)網視頻應用領域中,視頻在經過多次轉碼后相對于原始節(jié)目的失真難以控制,為此,提出一種對視頻多次轉碼后的總失真進行估計的方法。首先,研究多次有損轉碼失真的疊加過程,找到了多次失真疊加后總體失真的下限;然后,用概率論的方法給出了總體失真的一個估計;最后,根據估計誤差,采用最小二乘擬合對該估計進行修正。實驗結果表明,經過修正后,Y、U和V三分量最終失真的平均估計誤差僅為0.02 dB, 0.05 dB和0.06 dB,這說明該方法能夠有效且準確地估計出視頻轉碼的總體失真值。
視頻轉碼;視頻編碼;失真分析;MPEG2;中國數(shù)字音視頻編解碼技術標準
在數(shù)字視頻應用中經常需要轉碼。所謂轉碼就是把數(shù)字視頻數(shù)據從一種格式轉換為另一種格式,例如從碼率50 Mb/s的MPEG-2全I幀轉換為碼率6 Mb/s的MPEG-2含I/P/B幀的基本流,或者從MPEG-2格式轉換為MPEG-4、H.264以及音視頻編解碼技術標準(Audio Video coding Standard, AVS)等。尤其是最近新涌現(xiàn)出了多種視頻應用,比如網絡直播、虛擬現(xiàn)實等,這些應用的內容在到達最終用戶眼前之前,往往要經過多次轉碼,以適應各種不同的、不斷變化的環(huán)境。由于視頻格式都是有損壓縮格式,所以每次轉碼都會引起視頻信號質量的下降。在設計應用系統(tǒng)時,需要對最終的節(jié)目質量有所控制。但是在轉碼時往往拿不到原始節(jié)目,也就不能準確計算出轉碼后的節(jié)目相對于原始節(jié)目的失真情況,這個問題會對數(shù)字視頻應用的發(fā)展造成制約。為了解決該問題,本文提出了一種估計視頻多次轉碼后的總失真的方法。
以前關于轉碼的研究,包括不同標準之間的轉碼和同標準之間的轉碼。文獻[1-2]對視頻轉碼的研究進行了全面的綜述,包括轉碼過程中遇到的各種技術問題。隨著新的視頻編碼標準的出現(xiàn),新老標準之間的轉碼成為視頻轉碼研究的主要內容,文獻[3-8]都是關于新老標準之間轉碼的文獻。但是,在眾多的轉碼文獻當中,探討多次轉碼后失真的疊加情況的文獻非常少,因此目前還沒有可以準確估計視頻經過多次轉碼的總失真的方法。
本文將對轉碼過程中引起質量下降的過程進行分析,給出定量估計多次轉碼后峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)的公式,并通過初次的估計誤差得到修正公式對估計結果進行修正。這種方法能準確高效地估計視頻經過多次轉碼的總失真。值得注意的是本文討論的是發(fā)生在數(shù)字壓縮格式之間的轉碼,不包括視頻信號的A/D、D/A轉換以及模擬格式之間的轉換。
目前常用的數(shù)字視頻編碼格式有MPEG-2、H.264和AVS。另外,一些新出現(xiàn)的數(shù)字視頻編碼標準例如H.265和AVS2等,也會逐漸在實際中采用。AVS是我國制定的數(shù)字音視頻編解碼標準,本文以MPEG-2和AVS之間的轉碼為例,實際上相關方法對于其他轉碼也是適用的。
(1)
(2)
(3)
(4)
其中:di為第i個采樣點的失真。由于在轉碼時得不到原始視頻數(shù)據,因此無法精確計算出壓縮后的視頻序列相對于原始視頻序列的失真。本文的目的就是在假定已知轉碼前的視頻序列相對于原始序列的PSNR值的條件下,給出估計轉碼后的視頻序列相對于原始序列的PSNR值的公式。
根據柯西(Cauchy)不等式,可得
(5)
依據式(5),則:
(6)
(7)
類似地,得到:
(8)
(9)
其中:R是第二次壓縮后相對于原始序列的PSNR值。將式(7)~(9)代入式(6)并化簡后,得到
再經過變形,可得R下限公式:
(10)
式(10)給出了R的下限公式,但是在實際應用中是不可能達到這個下限的。因為只有當兩次壓縮在每一個采樣點的失真成比例時才能達到這個下限,由于視頻序列采樣點數(shù)很多,在每個采樣點的失真成比例是極小概率事件。本文更關心的應該是R最可能的取值,或者R最可能的取值范圍。
設視頻序列有N個亮度采樣點,亮度的取值范圍是0~255,令Ω={-255,-254,…,254,255},F={A|A是Ω的子集},P(A)=NA/N,其中NA是失真值為A中元素的采樣點總數(shù),則(Ω,F,P)構成一個概率空間。每一次有損壓縮,都確定了一個定義在(Ω,F,P)上的隨機變量ξ。若依次進行的兩次有損壓縮確定的隨機變量分別為ξ和η,則兩次壓縮產生的總失真對應的隨機變量ζ等于ξ與η的和,即
ζ=ξ+η
(11)
由第2章的符號,可得
(12)
(13)
(14)
由于MPEG-2、H.264和AVS等壓縮算法對直流分量的保真度高,因此直流分量的失真非常小,一般情況下,可以認為直流分量的失真為0,即E(ξ)=E(η)=0。因此可得:
(15)
(16)
D(ξ+η)=E[(ξ+η)2]-[E(ξ+η)]2=
(17)
假設ξ和η是相互獨立的,則:
D(ξ+η)=D(ξ)+D(η)
(18)
將式(15)~(17)代入式(18)并化簡,得
(19)
將式(7)~(9)代入式(19)并化簡,得
(20)
解得
(21)
式(21)給出了兩次有損壓縮后總的PSNR的估計值。該公式需要知道兩次有損壓縮的分別的PSNR。
表1 MPEG2壓縮至不同碼率后再用AVS壓縮的PSNR值 dB
圖2 估計誤差與兩次壓縮的PSNR之差的絕對值之間的關系
本章對式(21)進行驗證。采用運動較劇烈的通用影像傳輸格式(Common Intermediate Format, CIF)的Stefan序列作為測試序列。第一次壓縮采用MPEG-2,分別壓縮到2 Mb/s、3 Mb/s和4 Mb/s三種不同碼率;第二次壓縮采用AVS,采用固定QP的方式壓縮編碼,QP取28、32、36三個值。
為描述方便,先定義以下符號:R1是用MPEG2按確定碼率壓縮原始視頻的PSNR;R2是在MPEG2壓縮后的視頻再用AVS按確定QP壓縮的PSNR;R是經過MEPG2和AVS兩次壓縮后的視頻相對于原始視頻后的PSNR;R3是根據理論計算得到的PSNR。
測試流程如圖1所示,測試所得數(shù)據見表1。
從實驗數(shù)據可以看出,實際的PSNR比用式(21)估計的PSNR要高,也就是說式(21)比較保守。出現(xiàn)估計誤差的原因是兩次壓縮產生的失真不是完全獨立的。由于MPEG2和AVS都是以宏塊為基本編碼單元,變換和量化的基本塊尺寸都是8×8,因此在失真上具有相關性。另外,失真的相關性還來自視頻的內容。一般而言,在紋理較為復雜的區(qū)域,失真較大,在紋理較為平坦的區(qū)域失真較小,無論是MPEG-2還是AVS,失真都具有這個特點。
圖1 測試流程
由表1的數(shù)據可得出:兩次壓縮產生的失真不完全獨立,從而使得概率論方法的估計結果存在一定誤差;并且由于視頻轉碼過程涉及的因素較多,難以對該類誤差進行理論分析。從表1可看出,估計誤差R-R3的值基本在1~2 dB內。估計誤差的值與兩次壓縮的PSNR有關,當兩次壓縮的PSNR相差比較大時,估計誤差較小,說明失真的相關性較小;當兩次壓縮的PSNR相差比較小時,估計誤差較大,說明失真的相關性較大。
把估計誤差和兩次壓縮的PSNR之差的絕對值畫出來,得到圖2。
采用最小二乘擬合得到的R~R3和|R1-R2|之間的關系為:
Y:y=-0.116 62x+1.770 4
(22)
U:y=-0.144 12x+2.031 2
(23)
V:y=-0.149 15x+2.087 4
(24)
使用式(22)~(24)對結果進行修正,得到表2~4,其中:R4是經過修正后的結果,Δ是R4相對于原計算結果R3的偏移量,D是R減去R4的差。表中的數(shù)據按照|R1-R2|從小到大排列。值得注意的是,雖然不同的視頻序列局部紋理不同導致局部的轉碼失真也不同,但是整體的轉碼失真都是服從正態(tài)分布的,因此式(22)~(24)并非只適用于本實驗中用到的序列,而是適用于所有序列。
從表2~4可以看出,經過修正以后,對兩次編碼后總的PSNR的估計已經非常準確了,尤其是Y分量,誤差小于0.1 dB。
表2 Y分量修正后的結果
表3 U分量修正后的結果
表4 V分量修正后的結果
本文研究了在視頻轉碼過程中的失真疊加問題,根據理論推導給出了失真疊加后PSNR的下限值和估計值,而且該方法可以推廣到N次轉碼的情形。
本文首先推導出失真值的初始估計,實驗中該值大于實際失真值。這是因為兩次有損壓縮的失真具有相關性,而且這種相關性和有損壓縮的算法有關,也和視頻的內容有關。
根據實驗統(tǒng)計分析,發(fā)現(xiàn)初始估計誤差與先后兩次編碼的PSNR之差的絕對值基本成線性關系。采用最小二乘擬合算法對初始估計值進行修正以后,獲得了良好的效果,Y、U和V三分量的平均估計誤差僅0.02 dB,0.05 dB, 0.06 dB。
在此估計的基礎上,在進行轉碼時,可以根據第一次編碼的失真(PSNR)和轉碼后期望的節(jié)目質量(PSNR),倒推得到轉碼時失真(PSNR),從而保證最終的節(jié)目質量。
References)
[1] VETRO A, CHRISTOPOULOS C, SUN H. Video transcoding architectures and techniques: an overview[J]. IEEE Signal Processing Magazine, 2003, 20(2): 18-29.
[2] AHMAD I, WEI X, SUN Y, et al. Video transcoding: an overview of various techniques and research issues[J]. IEEE Transactions on Multimedia, 2005, 7(5): 793-804.
[3] 王國中, 趙海武, 顧君忠. Mpeg-2 到AVS視頻轉碼器的實現(xiàn)[J]. 計算機工程, 2005, 31(19): 189-191. (WANG G Z, ZHAO H W, GU J Z. Implementation of efficient transcoding from MPEG-2 to AVS[J]. Computer Engineering, 2005, 31(19): 189-191.)
[4] WANG G, ZHAO H, TENG G. Usage of MPEG-2 to AVS transcoder in IPTV system[C]// PCM 2007: Proceedings of the 8th Pacific Rim Conference on Multimedia. Berlin: Springer, 2007: 65-70.
[5] WANG B, SHI Y, YIN B. Transcoding of H.264 bitstream to AVS bitstream [C]// WiCom 2009: Proceedings of the 5th International Conference on Wireless Communications, Networking and Mobile Computing. Piscataway, NJ: IEEE, 2009: 1-4.
[6] LU Z, SIU W, JIA K. Fast block size selection for H.264 video-downsizing transcoding[C]// Proceedings of the 2010 10th International Conference on Information Sciences Signal Processing and their Applications. Piscataway, NJ: IEEE, 2010: 101-104.
[7] HUANG S-C, HSU C-T, CHEN M-J. Efficient motion re-estimation for H.264 B- and P-frame transcoding by using maximun likelihood[C]// Proceedings of the 2010 International Conference on Electronics and Information Engineering. Piscataway, NJ: IEEE, 2010, 1: 557-561.
[8] FERNANDEZ-ESCRIBANO G, KALVA H, MARTINEZ J L, et al. An MPEG-2 to H.264 video transcoder in the baseline profile[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2010, 20(5): 763-768.
[9] LUO R, XIE R, ZHANG L. Fast AVS to HEVC transcoding based on ROI detection using visual characteristics [C]// Proceedings of the 2014 IEEE International Symposium on Broadband Multimedia Systems and Broadcasting. Piscataway, NJ: IEEE, 2014: 1-6.
[10] DIAZ-HONRUBIA A J, MARTINEZ J L, CUENCA P, et al. Adaptive fast quadtree level decision algorithm for H.264 to HEVC video transcoding[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2016, 26(1): 154-168.
[11] MORA E G, CAGNAZZO M, DUFAUX F. AVC to HEVC transcoder based on quadtree limitation[J]. Multimedia Tools and Applications, 2017, 76(6): 8991-9015.
[12] XIN J, LIN C-W, SUN M-T. Digital video transcoding[J]. Proceedings of the IEEE, 2005, 93(1): 84-97.
Distortionanalysisofdigitalvideotranscoding
SU Jianjun1, MU Shiyou2, YANG bo1,SUN Xiaobin1,ZHAO Haiwu3, GU Xiao3*
(1.StateGridShandongElectricPowerResearchInstitute,JinanShandong250000,China;2.ShandongLunengIntelligenceTechnologyCompanyLimited,JinanShandong250101,China;3.SchoolofCommunicationandInformationEngineering,ShanghaiUniversity,Shanghai200444,China)
Video transcoding is applied in the field of Internet video coding. When the original video is transcoded multiple times, only the distortion between the input video and the output video can be calculated and the distortion between the output video and the original video can not be learned. Here an algorithm for estimating the distortion between the output video and the original video was proposed to control the quality of the output program. Firstly, the superposition of distortion caused by multiple lossy transcoding was analyzed to derive the lower limit of total distortion. Then the probability method was exploited to make an estimation on the distortion between the original video and the final output video. Finally, the least square fitting was used to correct the estimation according to the prediction error. Experimental results demonstrate that the proposed algorithm can accurately estimate the distortion with the prediction error of 0.02 dB, 0.05 dB and 0.06 dB for Y, U and V components on average respectively after correction.
video transcoding; video coding; distortion analysis; MPEG2; Audio Video coding Standard (AVS)
2017- 04- 28;
2017- 06- 27。
國家電網公司總部科技項目(520626140006)。
蘇建軍(1962—),男,山東濟南人,高級工程師,碩士,主要研究方向:電力系統(tǒng)與自動化; 慕世友(1968—),男,山東濟南人,高級工程師,主要研究方向:高電壓及信息處理、目標識別; 楊波(1977—),男,山東濟南人,高級工程師,碩士,主要研究方向:電力系統(tǒng)巡檢、機器視覺; 孫曉斌(1979—),男,山東濟南人,高級工程師,碩士,主要研究方向:架空輸電線運行與檢修、缺陷識別與檢測; 趙海武(1973—),男,河北廊坊人,高級工程師,博士,主要研究方向:數(shù)字視音頻編碼與通信、視頻壓縮; 顧曉(1994—),男,上海人,碩士研究生,主要研究方向:視頻壓縮、VR視頻編碼。
1001- 9081(2017)10- 2899- 04
10.11772/j.issn.1001- 9081.2017.10.2899
TN911.73
A
This work is partially supported by the Science and Technology Program of State Grid Corporation (520626140006).
SUJianjun, born in 1962, M. S., senior engineer. His research interests include power system and automation.
MUShiyou, born in 1968, senior engineer. His research interests include high voltage technology and information processing, target recognition.
YANGBo, born in 1977, M. S., senior engineer. His research interests include power system inspection, machine vision.
SUNXiaobin, born in 1979, M. S., senior engineer. His research interests include overhead transmission line operation and maintenance, defect identification and detection.
ZHAOHaiwu, born in 1973, Ph. D., senior engineer. His research interests include digital video and audio coding and communication, video compression.
GUXiao, born in 1994, M. S. candidate. His research interests include video compression technology, VR video coding.