周 圓,侯春萍
(天津大學(xué)電子信息工程學(xué)院,天津300072)
立體信息技術(shù)是下一代信息技術(shù)發(fā)展方向,有廣泛的應(yīng)用前景。一個多視點視頻系統(tǒng)需要傳輸來自多個視點的多個視頻序列。多視點視頻可大大增強使用者的視覺享受,因而受到廣泛的關(guān)注。多視點視頻的通信意味著需要傳輸更多的數(shù)據(jù)和進行更多的處理運算,所以目前這個領(lǐng)域的研究匯集了視頻編碼,圖像處理、計算機視覺和顯示技術(shù)上所有的前沿技術(shù)。
高比特率的多視點視頻處理對于內(nèi)容提供商和最終用戶來說是一個重要的挑戰(zhàn)。即使經(jīng)過先進的壓縮技術(shù)處理后,多視點視頻仍然有很高的數(shù)據(jù)量。最近在學(xué)術(shù)文獻中提出了多種視頻傳輸方案:在最終用戶方面,已經(jīng)有學(xué)者從事選擇性數(shù)據(jù)流這方面的工作,根據(jù)觀看者的頭部位置,將必要部分的多視點視頻編碼成數(shù)據(jù)流。文獻[1]使用不等重要片組以適應(yīng)FMO到MVC的轉(zhuǎn)換。文獻[2]提出了一種率失真算法,為每個質(zhì)量層確定來源和通道。其他方案,如文獻[3]中提到的數(shù)據(jù)分割系統(tǒng),使用Turbo碼來實現(xiàn)通道保護。但由于RS碼和Turbo碼較高的計算成本,不適合在實時系統(tǒng)中應(yīng)用。
在3DTV流通過IP網(wǎng)絡(luò)傳輸?shù)难芯恐?,文獻[4]提出利用NUEPMuT協(xié)議通過多樹點對點(P2P)網(wǎng)絡(luò)來傳輸多視點視頻流。文獻[5]提出了使用一個有效應(yīng)用于可擴展的立體視頻編碼的層提取方法,以實現(xiàn)在任何給定的視頻數(shù)據(jù)包之間有效分配比特率預(yù)算。文獻[6]提出了遞歸式的多視點視頻傳輸失真模型,對多視點視頻根據(jù)網(wǎng)絡(luò)環(huán)境進行了失真率的計算。一些學(xué)術(shù)機構(gòu)和企業(yè)也展示了應(yīng)用在IP網(wǎng)絡(luò)上的多視點立體視頻服務(wù)的原型系統(tǒng)。微軟亞洲研究院提出了一個可提供實時、互動和可靠的多視點視頻服務(wù)系統(tǒng)架構(gòu)[7]。MERL(三菱電子研究實驗室)提出了多視點3DTV原型系統(tǒng)與實時采集、傳輸和自動立體顯示[8]。
但是,在包交換網(wǎng)絡(luò)中,網(wǎng)絡(luò)中某節(jié)點上的存儲區(qū)溢出可能會引起丟包,也可能因為時間延遲而認為某個包丟失了。然而,被壓縮的視頻信號,特別是被編碼的立體視頻,由于其采用低比特率視頻編碼方案依靠幀間編碼提高編碼效率,在面對錯誤時都是很脆弱的。這種運動補償和視差補償?shù)木幋a結(jié)構(gòu)在碼間預(yù)測時,對視頻幀間具有很強的時空依賴[9,10]。這種傳輸中不可避免的丟包造成重建視頻錯誤傳播,嚴重影響傳輸質(zhì)量。
無論是服務(wù)提供商還是用戶,對于視頻通信技術(shù)的期望都是能夠獲得有服務(wù)質(zhì)量(Quality of service,QoS)保證的視頻服務(wù)。因此,更準確理解網(wǎng)絡(luò)特性與解碼端立體視頻質(zhì)量的關(guān)系,就顯得尤為迫切。筆者在文獻[11]中首次提出了面向IP網(wǎng)絡(luò)的多視點視頻失真估計模型,以遞歸公式的形式在幀水平(frame-level)上建立了以MSE為指標的、任意丟包模式下的多視點視頻失真估計模型。
本文以前期提出的失真模型為基礎(chǔ),采用理論分析與實驗研究相結(jié)合的方法,研究網(wǎng)絡(luò)傳輸差錯對多視點立體視頻質(zhì)量的影響。根據(jù)人眼所能忍受的立體感,由丟包和數(shù)據(jù)包出錯而減弱的程度近似確定出可接受的立體視頻在IP網(wǎng)絡(luò)傳輸中的丟包率和錯誤率。
視頻的幀間編碼模式在帶來高壓縮率的同時,也導(dǎo)致一個GOP中圖像幀間的高依賴性。一旦某一個幀因信道出錯而丟失,不僅該幀在重建時會出現(xiàn)失真,其后續(xù)幀也將因幀間的參考不匹配而出現(xiàn)失真,即失真將在后續(xù)幀間傳播。假定一個包含當(dāng)前幀壓縮數(shù)據(jù)的包在信道傳輸中丟失,解碼器采用前一幀替代的錯誤掩蓋方法,顯然,此時解碼器得到的當(dāng)前幀重建和編碼端的重建是不一樣的。需要注意的是,這個因信道丟失而受損的重建幀,仍然會在解碼器端作為其后續(xù)視頻幀的運動補償參考。這種情況下,如果某一幀中的數(shù)據(jù)由于網(wǎng)絡(luò)丟包產(chǎn)生了解碼錯誤,這種相關(guān)性將導(dǎo)致下一幀或同一幀中相關(guān)的數(shù)據(jù)也存在解碼錯誤,并將在后續(xù)幀之間隨著運動補償路徑進行傳播。而當(dāng)運動矢量不為零時,失真還將在圖像幀的空域進行擴散,錯誤擴散會在時間和空間上同時累積,嚴重破壞重建圖像的質(zhì)量。其次,目前的熵編碼普遍采用可變長編碼技術(shù),這將使網(wǎng)絡(luò)傳輸產(chǎn)生的隨機比特錯誤向后擴散,導(dǎo)致后續(xù)更多的比特不可解,從而使連續(xù)的比特段損壞,引發(fā)和丟包一樣的刪除性錯誤,造成持續(xù)多幀的大面積破壞,這種錯誤不僅在時間軸上擴散,同時也在空間擴散。受感染的幀如果使用幀內(nèi)預(yù)測,錯誤也會擴散至同一幀的其他宏塊。這種錯誤的時域、空域傳播會造成解碼端視頻質(zhì)量的嚴重下降。
對于多視點立體視頻,每個視點的視頻序列與普通視頻一樣具有時域、空域冗余性,不同之處是某一時刻各視點之間也具有冗余性,也就是說,各視點圖像數(shù)據(jù)之間有強相似性,不僅同一視點相鄰幀之間存在時域相關(guān)性,而且同一時刻相鄰視點對應(yīng)幀之間還存在空域相關(guān)性。因而,在多視點視頻編碼(MVC)中,還采用了視點間預(yù)測。第一視點按照二維視頻編碼(H.264)的步驟進行編碼。非第一視點的第一幀采用幀內(nèi)預(yù)測的同時,以參考視點的第一幀為參考進行視差補償預(yù)測,并存儲視差矢量和殘差。非第一視點的非第一幀,以該視點已編碼幀為參考進行運動補償預(yù)測,遍歷所有模式,記錄最優(yōu)預(yù)測塊的運動矢量、殘差及開銷;然后以參考視點同一時間的圖像為參考進行視差補償預(yù)測,遍歷所有模式,記錄最優(yōu)塊的視差矢量、殘差及開銷;選擇開銷最小的模式為最佳編碼模式,記錄矢量和殘差。
多視點視頻時間域上的視頻幀數(shù)用t表示,視點數(shù)用s表示。設(shè)M(s,t)為第s視點的第t幀。對于幀M(s,t)(不包括第0視點和每個視點的第一幀),前一時刻的幀M(s,t-1)和前一視點的幀M(s-1,t)都作為參考幀。
在端到端編碼視頻傳輸系統(tǒng)中,有兩種主要的失真:一種是信源編碼時的量化失真,另一種是信道差錯造成的失真。方便起見,我們稱這兩種失真為編碼器引起的失真和信道引起的失真。由編碼器引起的誤差可在編碼端準確估計,所以,計算總失真量的挑戰(zhàn)性就在于計算信道引起的失真,即傳輸失真。
令Fi(s,t)表示第(s,t)幀第i像素的原始值,令(s,t)和(s,t)分別表示在編碼器和解碼器處重建的第M(s,t)幀第i像素的值,則傳輸失真可用下式表示:
此處E{}表示第(s,t)幀內(nèi)所有像素點上的期望。
在編碼端,我們假設(shè)這個宏塊中的每個像素Fi(s,t)都由相鄰視點的對應(yīng)幀M(s-1,t)中的一個或幾個相鄰像素的加權(quán)之和來預(yù)測,預(yù)測值為
那么接收端重建的值可表示為
設(shè)εi(s,t)=(s,t-1)-(s,t-1)。對于一定的Kp和ak,平均傳輸失真可由下式求得
總體來說,相鄰像素的傳輸失真是相關(guān)的,尤其是當(dāng)這些像素屬于同一個片組的時候。為使分析簡化,在推導(dǎo)(4)時假設(shè)相鄰像素傳輸失真的相關(guān)系數(shù)都相同,用ρ表示。ρ可視為信道失真的平均相關(guān)系數(shù)。
進而假設(shè)對于不同的幀,a可取相同的值,從而一個正確接收的宏塊的平均傳輸失真為
從式(5)中系數(shù)a的定義可知,相鄰像素的傳輸失真之間的相關(guān)系數(shù)可假設(shè)為一個常數(shù)。
對于一個采用視差估計,即由同一視點的前一幀M(s,t-1)中的幾個相鄰像素的加權(quán)之和預(yù)測的宏塊,可采用類似的方法計算其失真量。因此,這個宏塊的平均失真可表示為
為了研究丟包和數(shù)據(jù)包出錯對立體視頻播放效果的影響,對IP網(wǎng)絡(luò)中數(shù)據(jù)包丟失的過程進行了模擬仿真。對合成后的八視點視頻源文件進行256字節(jié)、512字節(jié)和768字節(jié)的拆包并按照一定梯度設(shè)置了丟包率,丟包率分別是0.1%和0.5%時視頻經(jīng)過處理后在立體播放器Simpleplay的播放效果如圖1所示。
由實驗結(jié)果可得到這樣的結(jié)論:拆包的大小對立體視頻播放的流暢性有一定的影響,拆包小的視頻文件在接收端播放時,流暢性沒有拆包大的好,有很明顯的停頓。而且網(wǎng)絡(luò)丟包率對立體視頻的播放效果也有很大的影響:丟包率越大,失真越嚴重。另外,通過肉眼觀察,可大致確定出當(dāng)網(wǎng)絡(luò)丟包率在0.1%以下時,人眼可忍受立體視頻由于網(wǎng)絡(luò)丟包而產(chǎn)生的失真。
圖1 丟包對立體視頻播放效果的影響Fig.1 The impact of packet loss on the 3D video
本節(jié)主要討論IP網(wǎng)絡(luò)傳輸中數(shù)據(jù)包出錯、損壞的情況并對其過程進行模擬仿真,在這個基礎(chǔ)上再討論它對接收端視頻的播放效果造成的影響。
與整個數(shù)據(jù)包都發(fā)生丟失的情況不同,這里的數(shù)據(jù)包出錯指的是包中的某個字節(jié)的某個比特位發(fā)生錯誤,即原比特位上的“0”變?yōu)椤?”或者原比特位上的“1”變?yōu)椤?”。一個字節(jié)對應(yīng)八個二進制位,即1 Byte=8 bits,因此在網(wǎng)絡(luò)傳輸過程中由于物理信道的失真或者外部條件對信道的干擾都有可能造成數(shù)據(jù)包的損壞或出錯。在視頻傳輸應(yīng)用中,物理信道的失真會使解碼端接收到的碼流遭到破壞,從而導(dǎo)致重建圖像失真。尤其是在最常用的編碼標準MPEG和H.26x中,都采用變長編碼(Variable length coding,VLC)以達到提高壓縮效率的目的,由于VLC的使用,使得視頻碼流對信道錯誤十分敏感,甚至單比特的錯誤都有可能帶來災(zāi)難性的后果。為此,有必要對IP網(wǎng)絡(luò)中數(shù)據(jù)包出錯的情況進行研究,探究某個字節(jié)中的比特位出錯后對接收端立體視頻的播放效果造成的影響和程度的大小。
圖2 數(shù)據(jù)包出錯對立體視頻播放效果的影響Fig.2 The im pact of bit-error on the 3D video
實驗分別對視頻源文件進行了512字節(jié)和768字節(jié)的拆包,并按一定的梯度設(shè)置了錯誤率。圖2是錯誤率不同時視頻經(jīng)過處理后在立體播放器Simpleplay上的播放效果。
由實驗結(jié)果可得到結(jié)論:立體視頻對數(shù)據(jù)包出錯非常敏感,即使一個數(shù)據(jù)包中僅有一個比特位出現(xiàn)錯誤也會造成很大的失真,這主要是由于在標準MPEG或H.26x中普遍采用變長編碼(Variable length coding,VLC)以達到提高壓縮效率的目的,由于VLC的使用,使得視頻碼流對信道錯誤十分敏感。另外,拆包大小對立體視頻播放的流暢性有一定的影響,拆包小時的播放流暢度沒有拆包大時的好。
多視點視頻的編碼方式雖然極大地降低了原始信號的時域和空域冗余度,使得高壓縮比編碼技術(shù)成為可能,但同時也降低了編碼碼流對抗網(wǎng)絡(luò)傳輸錯誤的魯棒性。在丟包網(wǎng)絡(luò)中,其誤差將向兩個方向傳播,傳播模式由一維變?yōu)槎S,因而對錯誤更加敏感。
在網(wǎng)絡(luò)信道環(huán)境相同的情況下,數(shù)據(jù)包出錯對接收端立體視頻播放效果的影響要比丟包的影響更大,這主要是因為丟包是將整個數(shù)據(jù)包都丟棄,而其它沒有發(fā)生丟包的數(shù)據(jù)包仍然保存有視頻的重要信息;而數(shù)據(jù)包出錯是數(shù)據(jù)包中某個字節(jié)隨機發(fā)生錯誤,當(dāng)網(wǎng)絡(luò)的信道環(huán)境很差時可能造成幾乎每個數(shù)據(jù)包都發(fā)生錯誤,因而數(shù)據(jù)包中某些關(guān)鍵信息(如相鄰幀之間的預(yù)測信息、運動補償信息、運動矢量信息等)發(fā)生錯誤的概率要比丟包更大。因此,數(shù)據(jù)包發(fā)生錯誤對立體視頻播放效果的影響要比丟包影響大。
[1]Thomos N,Argyropoulos S,Boulgouris N V,et al.Robust transmission of H.264/AVC streams using adaptive group slicing and unequal error protection[J]. EURASIP Journal on Applied Signal Processing,2006 (1):1-13.
[2]Fu C M,Huang W L,Huang C L.Efficient post-compression error-resilient 3D-scalable video transmission for packet erasure channels[C]∥IEEE Int Conf on A-coustics,Speech,and Signal Processing,Philadelphia,PA,USA,2005:305-308.
[3]Yip P Y,Malcolm J A,F(xiàn)ernando W A C,et al.Joint source and channel coding for H.264 compliant stereoscopic video transmission[C]∥Canadian Conf on Electrical and Computer Engineering,Saskatoon,Canada,2005:188-191.
[4]Kurutepe S,Sikora T.Feasibility of multi-view video streaming over P2P networks[C]∥3DTV Conference,Berlin,German,2008:157-160.
[5]Ozbek N.Inter-View rate allocation using efficient layer extraction for stereo video stream ing over IP[C]∥3DTV Conference,Berlin,German,2008: 153-156.
[6]Zhou Y,Hou C P,Xiang W.Modeling of transmission distortion formulti-view video in packet lossy networks[C]∥IEEEGlobal Communications Conference(GLOBECOM),Miami,USA,2010:1-5.
[7]Lou JG,Cai H,Li J.A real-time interactivemulti-view video system[C]∥Proc ACM Multimedia,2005:161-170.
[8]Matusik W,Pfister H.3DTV:A scalable system for realtime acquisition,transmission and autostereoscopic display of dynamic scenes[J].ACM Trans on Graphics,2004,23(3):814-824.
[9]Zhang Q,Zhu W,Zhang Y Q.End-to-end QoS for video delivery over wireless internet[J].Proc the IEEE,2005,93(1):123-134.
[10]Girod B,F(xiàn)arber N.Feedback-based error control formobile video transmission[J].Proc the IEEE,1999,87 (10):1707-1723.
[11]Zhou Y,Hou C P,Xiang W,et al.Channel distortion modeling formulti-view video transmission over packetswitched networks[J].IEEE Transactions on Circuits and System for Video Technology,2011,21(11):1679-1692.