周 圓,侯春萍,金志剛
面向IP網(wǎng)絡的多視點立體視頻的實時容錯傳輸
周 圓,侯春萍,金志剛
(天津大學電子信息工程學院,天津 300072)
提出了一種在IP網(wǎng)絡上實時傳輸多視點立體視頻的傳輸系統(tǒng).視頻流采用H.264/AVC格式編碼.由于多視點立體視頻龐大的數(shù)據(jù)量,系統(tǒng)通過2個IP信道分別進行傳輸.針對網(wǎng)絡中的丟包現(xiàn)象,該系統(tǒng)采用一種新的數(shù)據(jù)包處理方法,利用各個視點之間的相關性進行丟失數(shù)據(jù)恢復.提出了一種多視點立體視頻錯誤掩蓋的算法,用來解決IP網(wǎng)絡傳輸中的丟包問題.實驗結果表明了該多視點立體視頻傳輸系統(tǒng)的可行性.
多視點立體視頻;實時傳輸;IP網(wǎng)絡;H.264;錯誤掩蓋
多視點立體視頻技術在當前的圖像和視頻研究領域是最重要的發(fā)展趨勢之一.多視點視頻系統(tǒng)同時從多個角度獲取同一場景的視頻序列,并遠程傳輸這些視頻數(shù)據(jù)流.場景可以交互顯示,用戶可以從多個角度旋轉檢視,體驗身臨其境的感覺.然而,多視點立體視頻與基于平面顯示的業(yè)務不同,由于含有多個視點的視頻信息,其數(shù)據(jù)量更為龐大.由于巨大的數(shù)據(jù)量和復雜的處理要求,目前包括IPv6在內(nèi)的網(wǎng)絡環(huán)境和通信信道對傳輸立體視頻的能力十分有限,還遠不能滿足要求.因此,基于多視點立體顯示的業(yè)務給觀眾帶來更大的沖擊感和震撼感的同時,也對傳輸技術提出了更高的要求.
高比特率的多視點視頻處理對于內(nèi)容提供商和最終用戶來說是一個重要的挑戰(zhàn).即使經(jīng)過先進的壓縮技術處理后,多視點視頻仍然有很高的數(shù)據(jù)量.文獻[1]使用不等重要片組以適應FMO到MVC的轉換.文獻[2]提出了一種率失真算法,為每個質量層確定來源和通道.文獻[3]提到的數(shù)據(jù)分割系統(tǒng)使用Turbo碼來實現(xiàn)通道保護,但是由于RS碼和Turbo碼較高的計算成本,不適合在實時系統(tǒng)中應用.
在3DTV流通過IP網(wǎng)絡傳輸?shù)难芯恐?,文獻[4]提出利用NUEPMuT協(xié)議通過多樹點對點(P2P)網(wǎng)絡來傳輸多視點視頻流.文獻[5]提出了使用一個有效應用于可擴展的立體視頻編碼的層提取方法,以實現(xiàn)在任何給定的視頻數(shù)據(jù)包之間有效地分配比特率預算.文獻[6]提出了遞歸式的多視點視頻傳輸失真模型,根據(jù)網(wǎng)絡環(huán)境對多視點視頻進行了失真率的計算.文獻[7]提出面向IP網(wǎng)絡的多視點視頻失真估計模型,以遞歸公式的形式在幀水平(frame-level)上建立了以MSE為指標的、任意丟包模式下的多視點視頻失真估計模型,進而擴展到GGoP水平的失真估計模型.一些學術機構和企業(yè)也展示了應用在IP網(wǎng)絡上的多視點立體視頻服務的原型系統(tǒng).微軟亞洲研究院提出了一個可提供實時、互動和可靠的多視點視頻服務系統(tǒng)架構[8].MERL(三菱電子研究實驗室)提出了多視點3DTV原型系統(tǒng)與實時采集、傳輸和自動立體顯示[9].GIST(Gwangju Institute of Science and Technology)利用多對高清攝像機和基于軟件的視頻接收機,提出了一個符合成本效益的多視點高清視頻傳輸系統(tǒng).多視點視頻編碼(MVC模式)雖然提供了較高的壓縮比,但其編解碼的復雜度太高,因此尚未應用于實時傳輸系統(tǒng)[10].一般來說,這些實用系統(tǒng)同時傳輸和播放被分別進行獨立編碼的多視點視頻.
高分辨率多視點立體視頻涉及龐大的數(shù)據(jù)量并且在實時傳輸上具有更高的要求,筆者就此提出了一種在IP網(wǎng)絡上實時傳輸高分辨率多視點立體視頻的有效方法.
圖1 多視點立體視頻實時傳輸系統(tǒng)Fig.1 Real-time multiview 3D video transport system
由于立體視頻龐大的數(shù)據(jù)量和對高帶寬的要求,為了保證立體視頻流的流暢傳輸和播放,同時最大限度地節(jié)省系統(tǒng)的資源,就必須對編碼后的媒體信號進行多路復用的處理.一方面,與單視頻傳輸相比,多視點視頻信息的傳輸需要同時傳送以方便接收端能夠同時利用八路信息實時播放.以8視點為例:傳統(tǒng)的IP傳輸方式采用單線程傳送,那么服務器在傳送8視點視頻數(shù)據(jù)時,是采用挨個傳送的方式,即傳送完第1視點信息,再傳送第2視點,傳送完第2視點,再傳送第3視點,……,這樣客戶機就無法在前7個視點都傳送完之前同時搜集到八路視點信息,也就無法同時合成播放.這必然會從實時性角度影響立體視頻的解碼.另一方面,由于多視點立體視頻具有很大的數(shù)據(jù)量,多視點立體視頻以一個流進行傳輸在現(xiàn)有的網(wǎng)絡帶寬下很難實現(xiàn).為解決這一問題,這里將多視點視頻分成2個單獨的視頻流,分別在不同的IP網(wǎng)絡信道中進行傳輸.每個新組成的視頻流由若干路原多視點視頻流應用一定的多路復用技術生成.圖1為多視點立體視頻在IP網(wǎng)絡中實時傳輸系統(tǒng)的結構.所傳輸?shù)亩嘁朁c視頻有8個視點,從上到下為視點1到視點8.在多視點立體視頻中,當前已解碼的幀與相鄰視點的幀之間具有相關性.為了利用這種相關性,把相鄰視點放置在不同的傳輸信道.視點1、視點3、視點5、視點7的視頻流分為一組,視點2、視點4、視點6、視點8的視頻流分為另一組.每一組內(nèi)的各個視點流復用在一起并在不同的IP信道中進行傳輸.如果在其中一個信道中發(fā)生了丟包,丟失的數(shù)據(jù)可以利用在另外一個IP信道中傳輸?shù)木哂邢嚓P性的包而得到恢復(詳見第2節(jié)).
每個視點的視頻流采用H.264/AVS格式編碼.雖然可以使用MVC技術對多視點視頻進行更有效的壓縮,但是由于MVC的編碼復雜度,目前它仍不支持實時服務.因此本文提出的服務器采用H.264對每個視頻流進行獨立編碼,每個視頻流的分辨率720×480.H.264/AVC分為視頻編碼層(VCL)和網(wǎng)絡提取層(NAL).VCL層具有有效表示已編碼的視頻信號的特性,而NAL層定義了視頻編解碼器本身和傳輸層之間的接口.
采用H.264編碼的視頻流由NAL單元(NALU)組成.在“數(shù)據(jù)包合成處理”模塊中(見圖1),一個混合包(mixed packet,MixP)包含來自一個組中的各個視點的4個NAL單元(NALU),如圖2所示.MixPs在傳輸服務器中打包生成,其格式如圖3中所示.相應地,在“數(shù)據(jù)包拆分處理”模塊中(見圖1),NALUs從MixPs中分離出來并形成獨立的視頻流.
圖2 數(shù)據(jù)包合成處理Fig.2 Packet composition processing
圖3 MixP格式Fig.3 MixP format
目前的網(wǎng)絡環(huán)境尚不能完全保證立體視頻的可靠傳輸.網(wǎng)絡通道的不確定性和突發(fā)性,使得圖像/視頻傳輸過程中不可避免地發(fā)生錯誤乃至丟失.立體視頻的觀看質量很大程度上取決于人眼的立體視覺特征,人們獲得的立體感覺需要遵循人眼的視覺特征規(guī)律.符合人眼立體視覺特征的相關立體信息在傳輸中一旦丟失,就很難保證重現(xiàn)立體圖像的顯示效果.因此,立體視頻數(shù)據(jù)對這些傳輸錯誤非常敏感,前期的實驗表明,傳輸過程中,丟包率或丟幀率超過一定的閾值(如大于10%),接收圖像的立體感就會完全消失.對于接收端來說,盡可能有效地恢復這些多視點的立體視頻數(shù)據(jù)是一件必要的工作.錯誤掩蓋是在解碼端采用的一種后錯誤處理技術,利用視頻信號中的冗余信息和人類視覺的系統(tǒng)特性,尋找一些相關數(shù)據(jù)替代圖像中出錯或丟失的數(shù)據(jù),以提高圖像、視頻質量.錯誤掩蓋與編碼端無關,不會占用額外的傳輸帶寬,也不需要增加傳輸時延,非常適合多視點視頻的錯誤掩蓋[11].
多視點立體視頻具有龐大的數(shù)據(jù)量.一般來說,每個視點的視頻序列與普通視頻一樣具有時域、空域冗余性;不同之處是某一時刻各視點之間具有冗余性,也就是說,各視點圖像數(shù)據(jù)之間有強相似性,不僅同一視點相鄰幀之間存在時域相關性,而且同一時刻左右視點對應幀之間還存在空域相關性[12].在丟包網(wǎng)絡中,考慮到立體視頻序列的特點,當一個視點的某幀數(shù)據(jù)丟失后,充分利用相鄰幀圖像預測方式的時域相關性和空域相關性來確定丟失幀中每個宏塊的預測方式以恢復丟失幀.
本文提出了一種快速的時空域錯誤掩蓋方案,在判斷參考幀時充分考慮視點間相關性和時間域相關性,再以參考幀中的相應宏塊恢復損失塊的相應數(shù)據(jù).受損幀與參考幀之間的關系如圖4所示.在立體視頻序列中,運動模式、視差矢量存在著明顯的時間相關性.受損幀不僅可以用同一視點的前后幀恢復,也可以用相鄰視點的幀恢復.
圖4 受損幀與相鄰幀關系Fig.4 Relationships between a damaged frame and its adjacent frames
2.1 時域錯誤掩蓋
圖5是時域與視點間的錯誤掩蓋示意.F( m, n)表示第m視點的第n幀.假設當前幀F(xiàn)( m, n)中的某個宏塊丟失了,那么之前的幀F(xiàn)( m, n-1) 和之后的幀F(xiàn)( m, n+1)可以用來掩蓋錯誤.
由于在H.264編碼中使用了可變長編碼,即使只有一個比特發(fā)生了錯誤,也可能引起整個片組(slice)不能解碼.因此,當某個宏塊丟失時,它的運動矢量(motion vector,MV)通常也會丟失.假設丟失的宏塊
式中B表示丟失宏塊中像素坐標的集合.估計的運動矢量MV使得F( m, n-1)幀和F( m, n+1)幀中相應像素的平均差值最?。?/p>
當估測運動矢量MV后,丟失塊中的像素用相應像素的平均值掩蓋,計算式為
式中:i∈B;pi,est(m, n)表示幀F(xiàn)( m, n)丟失的宏塊中像素i的估計值.
2.2 視點間錯誤掩蓋
在多視點視頻中,由于多個攝像機同時獲取同一場景的視頻序列,因此視頻序列不同的視點間還具有空域相關性.映射到兩個攝像機的圖像之間的差別可以通過一個單一的視差矢量有效模擬[13].設丟失的宏塊從F( m-1,n)到F( m, n)的視差矢量為DV.假設拍攝視頻的多個攝像機具有平行結構,當攝像機平等間隔開時,基于極線平面圖像分析可以得到:同一物體在相鄰的視點之間具有相同的視差矢量,因此從F( m, n)至F( m+1,n)的視差矢量也為DV.
根據(jù)圖6所示的錯誤掩蓋方案,當前受損幀F(xiàn)( m, n)中丟失宏塊的的視差矢量DV可以用同一時刻相鄰視點的兩幀F(xiàn)( m, n-1)和F( m, n+1)的信息來估計.
圖6 宏塊運動模式的判斷Fig.6 Motion mode decision of macroblocks
根據(jù)式(3)求得的視差矢量,以相鄰視點的兩幀中對應像素的平均值作為丟失宏塊中像素值的估計值,即
2.3 多視點視頻的錯誤掩蓋流程
在多視點視頻的錯誤掩蓋中,同時考慮時間和視點間相關性,以判斷丟失宏塊的參考幀的選?。趧×易儎拥膱D像附近,宏塊處于運動中,視間相關性占主要方面,比同視點相鄰幀間相關性更強.對于快速運動的宏塊,采用時域錯誤掩蓋誤差較大,因而應選擇視點間錯誤掩蓋模式,以同一時刻的相鄰視點幀作為錯誤掩蓋的參考幀.對于運動速度較慢的宏塊,或其內(nèi)容在相鄰視點中不存在的宏塊,則應當選用時域錯誤掩蓋模式,即選擇同一視點的前后幀作參考幀.
錯誤掩蓋方案的流程如圖7所示.
由于視頻的連續(xù)性,可以認為丟失宏塊的運動模式與前后幀中同樣位置的宏塊的運動模式具有極高的相似性.因此可以采用如下方法判斷丟失宏塊選取的錯誤掩蓋方式.
步驟1 如圖6所示,設F( m, n)中損壞的宏塊為Bk(m, n),于是F( m, n-1)中與具有同一空間位置的宏塊定義為Bk(m, n-1).同理F( m, n-2)中的相應宏塊定義為Bk(m, n-2),F(xiàn)( m-1,n-1)中的相應宏塊為Bk(m-1,n-1).
圖7 錯誤掩蓋算法流程Fig.7 Flow chart of error concealment
步驟2 計算Bk( m, n-1)與Bk( m, n-2)之間對應像素之間的差值,計算差值的絕對值和,以SADt(sum of absolute difference,SAD)表示,其計算式為
步驟3 計算Bk( m, n-1)與Bk( m-1,n-1)之間對應像素之間的差值,計算差值的絕對值和,結果為SADv.相似地,可以得到
步驟4 比較SADt與SADv的值.如果SADt>SADv,宏塊Bk(m, n-1)為一個快速運動宏塊,這樣Bk(m, n)可以假設為一個快速運動宏塊,對Bk(m, n)采用視點間錯誤掩蓋模式.
相反,如果SADt≤SADv,則宏塊Bk(m, n-1)為一個非運動宏塊,根據(jù)視頻相鄰幀的連續(xù)性,可認為Bk(m, n)為非運動宏塊,對Bk(m, n)采用時域錯誤掩蓋模式.
本文在實驗中使用Lotus多視點序列驗證所提出的傳輸系統(tǒng)的性能.Lotus序列有8個視點,每個視點視頻有500幀,分辨率是720×480.實際的觀察結果表明:在沒有錯誤掩蓋處理的情況下,經(jīng)過丟包網(wǎng)絡的傳輸,Lotus多視點視頻的立體感被嚴重破壞.與此同時,在丟包率相同的情況下,多視點視頻在所提出的傳輸系統(tǒng)中進行傳輸就會得到更好的立體感覺.
采用峰值信噪比(PSNR)來評價立體視頻的質量.PSNR越大,立體視頻質量越好,立體感越強.對若干出現(xiàn)錯誤的幀進行錯誤掩蓋處理,求出圖像的PSNR,并將實驗結果進行比較,結果如表1所示.值得注意的是,表1中的PSNR是比較接收端的視頻與發(fā)送端編碼后的視頻得出的,而不與編碼前的原始圖像進行比較.
如表1所示,錯誤的圖像幀平均PSNR在25,dB以下,質量被破壞.經(jīng)過錯誤掩蓋算法,平均PSNR在40,dB以上,視頻幀得到有效恢復,具有較好的視頻質量.而且,隨著視頻幀錯誤塊的增加,平均PSNR下降,錯誤掩蓋效果較差.
表1 多幀圖像錯誤掩蓋前后的PSNR值比較Tab.1 Comparison of PSNR before and after error concealment for several frames
圖8將所提出的錯誤掩蓋方法與傳統(tǒng)的用于二維平面視頻的錯誤隱藏方法進行對比.這里將用于二維平面視頻的錯誤隱藏方法用于多視點立體視頻,即僅采用視點內(nèi)的相鄰幀作為參考幀進行運動估計,進而實現(xiàn)錯誤隱藏.圖8顯示了Lotus多視點序列在丟包網(wǎng)絡中的平均PSNR.由圖8可知,所提出的采用錯誤掩蓋處理能明顯提高視頻序列的質量,且明顯優(yōu)于未考慮視點間相關性的錯誤隱藏方法.該實驗結果證實了本文提出的多視點視頻傳輸系統(tǒng)的可行性.
圖8 Lotus序列在不同丟包率下的平均PSNRFig.8 Average PSNR of Lotus sequence in different packet loss network
本文提出了一個多視點立體視頻的實時容錯傳輸系統(tǒng).多視點視頻作為2個單獨的流,分別在不同IP信道中傳輸.傳輸系統(tǒng)中采用了錯誤掩蓋方案以解決IP網(wǎng)絡的丟包問題.所提出的快速錯誤掩蓋方案根據(jù)視點間相關性和同視點相鄰幀間的相關性對錯誤圖像幀進行恢復重建,能達到很好的視覺效果,顯著提高視頻質量.
[1] Thomos N,Argyropoulos S,Boulgouris N V,et al. Robust transmission of H.264/AVC streams using adaptive group slicing and unequal error protection[J]. Eurasip Journal on Applied Signal Processing,2006,2006:1-13.
[2] Fu Chih-Ming,Huang Wenliang,Huang Chung-Lin. Eff i cient post-compression error-resilient 3D-scalable video transmission for packet erasure channels [C]// IEEE International Conference on Acoustics,Speech,and Signal Processing. Philadel-phia,USA,2005:305-308.
[3] Yip P Y,Malcolm J A,F(xiàn)ernando W A C,et al. Joint source and channel coding for H.264 compliant stereoscopic video transmission[C]// Canadian Conference on Electrical and Computer Engineering. Saskatoon,Canada,2005:188-191.
[4] Kurutepe S,Sikora T. Feasibility of multi-view video streaming over P2P networks[C]// 3DTV Conference. Berlin,German,2008:157-160.
[5] Ozbek N. Inter-view rate allocation using efficient layer extraction for stereo video streaming over IP[C]// 3DTV Conference. Berlin,German,2008:153-156.
[6] Zhou Yuan,Hou Chunping,Xiang Wei. Modeling of transmission distortion for multi-view video in packet lossy networks[C]// IEEE Global Communications Conference (GLOBECOM). Miami,USA,2010:1-5.
[7] Zhou Yuan,Hou Chunping,Xiang Wei,et al.Channel distortion modeling for multi-view video transmission over packet-switched networks[J]. IEEE Transactions on Circuits and System for Video Technology,2011,21(11):1679-1692.
[8] Lou Jianguang,Cai Hua,Li Jiang. A real-time interactive multi-view video system[C]// Proc ACM Multimedia. New York,USA,2005:161-170.
[9] Matusik W,Pfister H. 3DTV:A scalable system for real-time acquisition,transmission and autostereoscopic display of dynamic scenes[J]. ACM Transaction on Graphics,2004,23(3):814-824.
[10] Kim J. Real-time synchronous multi-view video transport system over IP networks[J]. IEEE Transactions on Consumer Electronics,2008,54(2):460-467.
[11] Song K,Chung T Y,Oh Y,et al.Error concealment of multi-view video sequences using inter-view and intraview correlations[J]. Journal of Visual Communication and Image Representation,2009,20(4):281-292.
[12] Pang Linjuan,Yu Mei,Jiang Gangyi,et al. An approach to error concealment for entire right frame loss in stereoscopic video transmission[C]// Computational Intelligence and Security International Conference. Guangzhou,China,2006:1665-1670.
[13] Forsyth D A,Ponce J. Computer Vision:A Modern Approach[M]. New Jersey:Prentice Hall,2003.
Real-Time Error-Resistent Transmission of Multiview 3D Video over IP Networks
ZHOU Yuan,HOU Chun-ping,JIN Zhi-gang
(School of Electronic Information Engineering,Tianjin University,Tianjin 300072,China)
A real-time high-resolution multiview 3D video transmission system was proposed to deliver multiview video over IP network. Video streams were encoded with H.264/AVC. Owing to the massive amount of data involved,multiview 3D video was delivered on two separate IP channels. A novel packet processing method was employed in the proposed system to hold the correlations between views for loss data recovery. Additionally,since packet losses would always occur in IP networks,an error concealment scheme for multiview,3D video was exploited in this transport system in order to overcome the packet loss problem in IP networks. Experimental results demonstrate that the proposed transmission system is feasible for multiview video in IP networks.
multiview 3D video;real-time transmission;IP networks;H.264;error concealment
TK919.8
A
0493-2137(2012)07-0629-06
2011-06-13;
2012-01-14.
國家高技術研究發(fā)展計劃(863計劃)資助項目(2009AA01A336);國家自然科學基金資助項目(60932007,61002029).
周 圓(1983— ),女,博士,講師.
周 圓,zhouyuan@tju.edu.cn.