張 杰,馮 欣,劉 智
(重慶理工大學 a.電氣與電子工程學院; b.計算機科學與工程學院, 重慶 400054)
高速發(fā)展的寬帶與無線網(wǎng)絡技術使得網(wǎng)絡視頻成為人們進行遠程會議、獲取新聞資訊、電影、電視等數(shù)字信號的重要渠道之一。為用戶提供高質量的視頻在當前新的視頻壓縮技術和更寬的網(wǎng)絡帶寬環(huán)境下成為可能。然而,在無線網(wǎng)絡環(huán)境下傳輸?shù)囊曨l往往同時存在視頻編碼失真或因網(wǎng)絡擁塞或延遲造成各種丟包失真。與編碼失真相比,丟包失真具有明顯的局部性,即馬賽克現(xiàn)象、局部變形(圖像的某些區(qū)域不連續(xù)、不清晰)、屏幕局部頻繁閃爍等損傷,而這些局部失真往往會引起用戶明顯的視覺注意變化。因此,能夠有效地度量用戶對網(wǎng)絡視頻的評價方式,特別是針對存在多種丟包失真的網(wǎng)絡視頻,構建一種符合人眼視覺感知機理的、高效的客觀質量評估系統(tǒng),對于網(wǎng)絡視頻的高質量應用具有重要意義。
近年來,大多數(shù)圖像或視頻客觀質量評估方法都嘗試融入視覺的選擇性注意特性。這類方法通?;谶@樣的假設:如果失真發(fā)生在人眼敏感的頻率段[1-3]、空間上視覺的顯著注意區(qū)域、重要區(qū)域、感興趣區(qū)域[4-13],那么這部分的失真將容易被人眼察覺。實驗結果表明:這些方法都比沒有考慮視覺注意因素的方法有不同程度的改進。感知視覺包含2個重要的階段:基于自底向上視覺顯著特征驅動的預注意階段和自頂向下基于知識或任務驅動的主動注意階段。主動視覺是靈長類動物在一定任務或先驗知識驅動下的主動過程,因此主動視覺注意認知研究常常被抽象為自頂向下先驗知識驅動下的視覺顯著注意計算問題。目前,基于視覺顯著注意信息對失真加權的客觀評估方法[1-10]是以自底向上的方式驅動視覺對圖像顯著失真的預注意,其中典型的顯著區(qū)域檢測模型是Itti[13]提出的基于顯著視覺注意力的自底向上顯著區(qū)域檢測模型,該模型已廣泛應用于圖像/視頻壓縮、機器人視覺等領域。
采用視頻的空間-時間預測編碼技術,視頻在網(wǎng)絡傳輸環(huán)境下,一個數(shù)據(jù)包的丟失會使之后連續(xù)幀的相應預測信息丟失,從而造成圖像塊的錯誤匹配在空間和時間上蔓延。網(wǎng)絡丟包失真視頻在空間上具有局部的不連續(xù)、局部顯著的異常錯誤等特征,在時間上也表現(xiàn)為突然引入的異常事件;而錯誤可能發(fā)生在圖像的正中間或者一個運動對象上,給視覺效果帶來明顯的影響;也可能出現(xiàn)在背景、角落或相對靜止的區(qū)域而不易被人眼察覺。傳統(tǒng)的客觀質量評估方法(如:峰值信噪比 PSNR、平方差 MSE)是對所有失真像素進行平均考慮,忽略了不同區(qū)域的失真會給用戶帶來不同的視覺感受,尤其對于具有明顯局部性的受丟包損傷的網(wǎng)絡視頻,這類方法的不足更加明顯。研究表明:對于視頻而言,運動特征更容易吸引人們的注意,在視頻內容的感知中起重要作用,尤其是在對視頻時間域的失真捕捉上。不同于空間顯著性模型只考慮了空間位置信息[14-17],時間-空間顯著模型考慮了空間和時間兩方面特征。STAQ模型[18]通過計算中心-周圍之間的差異度測量其與相鄰體素的相似度,是一種計算自底向上顯著圖的時間-空間模型。文獻[19-20]建立了基于時間-空間顯著信息的評價模型。針對網(wǎng)絡視頻的實時性要求,并考慮丟包損傷視頻在空間-時間域的視覺注意力變化,本文提出了一種基于時間-空間的顯著信息的視覺注意檢測模型。
另一方面,無線網(wǎng)絡環(huán)境下的失真視頻往往遭受多丟包多失真因素(如失真位置、失真長度、失真程度、失真數(shù)量、寬恕效應等)的影響,且客觀質量評估方法需要滿足實際質量評估系統(tǒng)的實時性、高效性要求。本文研究包含多丟包多失真類型的視頻序列的空間-時間視覺特征,分析各種失真因素對視頻感知質量評估的影響,構建了“影響因素評估模型”。利用該評估模型中的空間-時間視覺注意變化的質量度量方法,構建符合不同丟包失真視頻質量感知機理的主動視覺注意的部分參考客觀質量評估方法,實現(xiàn)對整個視頻質量的綜合評估,并在無線網(wǎng)絡環(huán)境下視頻會議的數(shù)據(jù)中進行了實驗。
視頻的空間-時間中若存在明顯的局部突變,如空間中的馬賽克、時域上的突發(fā)刺激等都給人類視覺注意帶來明顯的改變。本文在前期研究的基礎上進一步探索提出了一種基于時-空域顯著事件的視頻顯著性檢測算法,其流程如圖1所示。
圖1 基于時-空域顯著事件的視頻顯著性檢測算法流程
顯著事件一般是指在視頻中,由于局部的突發(fā)刺激和場景的快速切換等而引起觀看者眼動的事件。在整個視頻中顯著事件能反映人眼關注的顯著區(qū)域在空間和時域上的變化。本文提出的時-空域顯著事件的視頻顯著性檢測算法基于自底向上顯著注意快速提取的空間模型,采用計算速度較快的盒濾波器(Boxfilter)代替高斯尺度空間。Boxfilter在給定的滑動窗口大小下,對每個窗口內的像素值進行快速相加求和,這種優(yōu)化方法可以使復雜度為O(MN)的求和、求方差等運算降低到O(1)或近似于O(1)的復雜度。在得到視頻幀的空間顯著圖之后,計算視頻中每幀圖像的平均顯著值(MeanSM)作為該幀的顯著值。選取5幀為滑動窗口(通過多次實驗測試發(fā)現(xiàn)以5幀為滑動窗口實驗效果最佳),從而選出顯著事件所屬的視頻段。利用式(1)計算第j個滑動窗口內幀圖像集合顯著值(MeanSM)的標準差(SM_σj)。
(1)
為了更好地了解滑動窗口內顯著值的頻率變化情況,通過傅里葉函數(shù)對滑動窗口內幀圖像的顯著值(MeanSM)進行變換,選取傅里葉變換后的頻域系數(shù)作為窗口內顯著值(MeanSM)頻率(ω)變化的依據(jù)。實驗表明:選取最大的頻域系數(shù)對顯著值變化的描述最好,故得到所有的滑動窗口的頻率值表示為:
(2)
其中:ω(·)表示對第j個窗口N幀的顯著值MeanSMi做傅里葉變換,并取得傅里葉頻譜除去DC系數(shù)后的最大系數(shù)。實驗結果表明:只通過窗口標準差SM_σ或頻率ω表征顯著事件不能充分反映在時間域上人類視覺系統(tǒng)注意焦點的變換,如圖2所示。
圖2中示例視頻“l(fā)ancaster”第2 894幀到2 994幀的顯著值在時間域上的分布情況被標注的區(qū)域依次是:場景s切換、字幕進入、手的運動和場景切換。在第2 904幀左右,空間域顯著值在時間域上幅值變化較大,但是其頻率變化很小,反映到真實的視頻中是一艘貨輪在江面上緩慢的運動,行駛經(jīng)過一個雕像。人眼在看這段視頻時不會注意到貨船的運動,而是注意了它的背景。在第2 924幀左右,空間域顯著值的幅值和頻率在時間域上變化劇烈,反映真實視頻中的場景切換,而觀測者的視覺也會隨場景切換而變動。
圖2 示例視頻“l(fā)ancaster”中的顯著事件標注
統(tǒng)計實驗結果表明,引起觀察者眼動的顯著事件體現(xiàn)在顯著值的3類情況:① 顯著值的幅值波動較大;② 滑動窗口內的顯著值頻率劇烈變化;③ 滑動窗口內顯著值的幅值和頻率都有較大變化?;诖?,本文提出利用窗口的顯著值標準差SM_σj和頻率變化SM_ωj的加權融合作為表征時域顯著事件顯著度的值:
(3)
其中:SM_σj表示第j個滑動窗口內顯著值的標準差;SM_ωj表示第j個滑動窗口內顯著值的頻率值;α為平衡加權系數(shù)(本文實驗中設置為1.5);M為視頻中包含的滑動窗口的數(shù)目。
圖3給出了示例視頻“l(fā)ancaster” 第2 894幀到2 994幀的顯著注意均值的時域分布。黑框為利用本文提出的時-空域視覺顯著事件檢測算法檢測出的顯著事件。其中,滑動窗口值為20。可以看出:檢測結果與圖2中手動標注的顯著事件基本一致,即該算法成功檢測出與人眼感知相符的顯著事件。
圖3 示例視頻“Lancaster”時-空域視覺顯著性事件檢測算法的檢測結果
本文提出一種基于時-空域主動視覺注意的部分參考信息的客觀質量評估方法,并在多丟包、多失真網(wǎng)絡視頻環(huán)境下構建了同時滿足視覺感知特性和無線網(wǎng)絡視頻實時性的客觀質量評估方法。該方法將發(fā)送端視頻作為參考視頻,為了實現(xiàn)視頻數(shù)據(jù)的實時評估,將原發(fā)送端視頻中的視頻幀的顯著注意信息(原圖1/16大小)作為視頻數(shù)據(jù)包的負載部分與視頻一起傳輸?shù)揭曨l終端,作為部分參考信息為主動視覺注意質量評估方法提供先驗視覺信息。
本文提出的空間視覺注意的網(wǎng)絡視頻質量評估方法(如圖4所示)將視頻按照壓縮參數(shù)劃分為若干個 GOP(group of pictures)段。首先對受損網(wǎng)絡視頻段的視頻幀應用圖1中的自底向上快速顯著注意提取算法提取視頻的空間顯著信息,然后構建結構差異度測量方法的空間域注意變化來表征失真的視覺可見性。
圖4 視覺空間域主動注意的網(wǎng)絡視頻客觀質量評估方法
基于結構差異度(saliency diviation difference structure similarity index,SDDSSIM)的顯著注意變化質量度量方法如式(4)所示。
(4)
(5)
丟包引起的錯誤不僅會在空間上擴散,而且會在時間序列上造成某些運動目標的改變或可見的異常錯誤,并在之后的一個GOP內的連續(xù)幀傳播。根據(jù)基于時-空域顯著事件的視頻顯著性檢測算法(如圖1所示),對每一視頻段(GOP)得到GOPi的時-空顯著注意度量Frame_SMGOPi(由式(3)得到),通過衡量視覺注意力在時間上的變化幅度來評估視頻時間域的感知質量。
對視頻進行客觀質量評估時,視頻空間域的失真評估應與時間域的評估信息有機結合。網(wǎng)絡視頻遭受的失真能改變視覺注意在空間上的轉移,同時丟包錯誤的發(fā)生也能造成視頻時間域上的異常事件。對于同時具有這種空間-時間視覺特征的網(wǎng)絡丟包視頻,丟包錯誤在空間上引起的視覺注意轉移量越大,其在時間上引起的注意變化的波動越大,則這些錯誤越影響視頻的視覺感知質量。因此,對于網(wǎng)絡丟包失真視頻的質量評估,本文進一步提出將視頻的空間域顯著性變化信息與時間域顯著變化信息進行加權融合,得到視覺注意的時-空聯(lián)合失真評估,如圖5所示。
圖5 時間-空間主動視覺注意的網(wǎng)絡視頻質量評估方法
由此聯(lián)合視覺注意空間-時域質量評估方法,得到一個視頻段GOPi的感知質量分數(shù):
QscoreGOPi=SDDSSIMGOPi+β·Frame_SMGOPi
(6)
其中β為時域質量度量融合的加權系數(shù),本文實驗設置為1.3。
在得到各GOP的評價結果后,進一步分析判斷整個視頻失真的綜合評估。通過考慮多錯誤、丟包失真的視頻數(shù)據(jù)的多種質量因素,包括計算失真程度、失真數(shù)量、錯誤密集度和視覺寬恕效應構建評估模型,實現(xiàn)對整個視頻質量的綜合評估。本文通過實施一系列主觀測試實驗,分別對影響質量分數(shù)的各種因素進行了定量分析,并由此得出了相應的客觀質量評估方法:
1) 單個丟包失真的失真程度度量。對于只有單個失真的視頻段,通過累加被檢測的感知失真視頻段的質量評估值:
(7)
其中:SMSSIMn=SDDSSIMn+β·Frame_SMn為提出的時-空視覺注意質量評估方法應用于視頻的第n幀,其中n=1表示檢測到的第1個錯誤幀。e-rD用于描述對失真隨著時間所發(fā)生的視覺寬恕效應;D為最后被檢測到有失真的視頻幀直到視頻結束的時延(s);EL為錯誤長度,即錯誤發(fā)生的第一幀到視頻段的最后一幀的長度;r為主觀等級的最小二乘擬合得到的常數(shù);L是視頻段的長度。φ()為對度量失真段的范圍度量:
2) 丟包失真分布類型度量。對于失真不均勻的分布,通過計算失真密集度來衡量不均勻分布對感知質量的影響:
CD=e-cLloss(1-e-kN)
(8)
其中:N是被檢測到失真視頻的數(shù)量;Lloss為失真時延,被定義為從第一個被檢測到失真的視頻幀開始到最后一個有失真的視頻幀起始的時間(s)。對于只有1個失真視頻幀的情況,Lloss被設置為0,c和k為超參數(shù)。在式(8)中,對于具有相同失真時延的視頻數(shù)據(jù),如果被檢測到失真的視頻幀數(shù)目越多,失真發(fā)生的越密集;對于具有相同失真視頻幀的視頻數(shù)據(jù),如果Lloss越大,則失真的分布越分散。
3) 多丟包失真的失真程度度量。結合以上單個失真度量和失真分布類型度量,定義含有多失真不均勻分布失真的視頻質量度量為:
(9)
其中:Di為每個被檢測到失真的視頻段之間的時延(s),W(Di)=e-rDi。
該質量評估方法可以對已接收的某一視頻段GOPi進行實時評估,在得到評估分數(shù)后,若分數(shù)低于相應的不能接收的級別,則向視頻發(fā)送端反饋評價結果,發(fā)送端可及時對質量較差的視頻段進行重傳。
本文選取工科類專業(yè)本科學生60名,對5個不同場景和復雜度的視頻,根據(jù)不同丟包失真創(chuàng)建了51個視頻序列(其中包括單個丟包和多丟包的不同失真長度、失真程度、失真可見性、失真位置及失真密集度的失真視頻序列),并結合視覺寬恕效應,做了一系列主觀測試實驗。根據(jù)主觀實驗結果分析,對單個丟包的各種失真因素(失真長度,失真程度、失真位置,失真可見性和視覺寬恕效應),提出了式(7)的客觀質量評估度量方法。通過最大化皮爾遜(Pearson)相關系數(shù),得到ELmin=2,r=0.01;通過對多丟包失真密集度的主觀測試實驗,得到式(8)中的參數(shù)值為c=0.002,k=0.8;結合單個失真度量和失真分布類型度量方法,通過主觀測試實驗,得到多丟包不均勻失真的視頻質量度量方法。
本文采用以上評估方法對實時性和質量要求較高的無線網(wǎng)絡環(huán)境下視頻會議的數(shù)據(jù)進行了實驗。如圖6、7所示,視頻數(shù)據(jù)在2個基于web的視頻會議終端上進行測試。由一臺終端向另一臺發(fā)送視頻源數(shù)據(jù),另一臺終端接受數(shù)據(jù)。實驗分別模擬了5種不同的網(wǎng)絡環(huán)境,即通過設置不同的隨機丟包率,模擬實現(xiàn)不同程度的終端畫面延遲。5組數(shù)據(jù)的視頻長度為3 min,幀率為30幀/s。將視頻按照壓縮參數(shù)劃分為若干個GOP(group of pictures)段,即每一幀內幀(I幀)開始為一個GOP。通過對視頻序列的劃分,可實現(xiàn)在終端視頻播放之前的緩沖階段對部分已解碼視頻段的質量評估。這樣,即使該視頻段的質量達到了人眼視覺不能接受的程度,也可以在用戶觀看之前重傳該GOP段的數(shù)據(jù)。為了檢測以上基于視頻GOP段評估方法的有效性,本文對該組實驗實施了一組主觀測試實驗。該實驗遵照ITU-R BT.500-11標準中的單刺激質量評估方法,即評估者只觀看待測視頻并對其進行評分,每名評估者觀看的視頻GOP段被隨機的給出。16名非視頻領域專家參與了此項實驗,每名評估者在連續(xù)觀看完一個待測視頻后,按照5級評分制標度給出質量分數(shù)。
圖6、7 反映了不同質量評估方法對兩組測試數(shù)據(jù)的評估結果。圖6為隨機丟包率設置在10%的視頻會議數(shù)據(jù);圖7為丟包率設置在10%,視頻前后加入5 s延時的視頻會議數(shù)據(jù)。其中,每幅子圖中的2幅圖像分別為發(fā)送端視頻幀對應的顯著信息圖和接收端視頻幀對應的顯著信息圖。圖下方第1組結果為用傳統(tǒng)的平均平方誤差(Mean Square Error)測量方法得到的質量失真;第2組結果為用本文提出的基于空間主動視覺注意的質量評估方法的評估結果;第3組結果為本文提出的基于時間-空間主動視覺注意的質量評估方法的評估結果。可以看出:在圖像本身由于延遲造成很大錯誤(由Pixel MSE衡量)的視頻段,實際上并不太被視覺注意感知,而本文提出的時間-空間視覺注意變化的評估方法(SMMOSL)能夠更好地反映人眼的感知質量;另一方面,在某些有較大視頻內容變化的視頻段,很小的延遲錯誤(由Pixel MSE衡量)就會引起視覺的注意,即得到較大的時間-空間視覺注意評估值。綜合實驗結果,本文提出的基于時間-空間主動視覺注意的質量評估方法能比傳統(tǒng)方法更好地反映人眼的視覺感知質量,且能夠滿足網(wǎng)絡視頻質量評估實時性的要求。
圖6 不同質量評估方法的檢測結果(實驗視頻的隨機丟包率為10%)
圖7 不同質量評估方法的檢測結果(實驗視頻隨機丟包率為10%,視頻前后加入5 s延遲)
本文針對無線網(wǎng)絡受丟包損傷的視頻序列提出了一種基于時-空域主動視覺注意變化的部分參考顯著注意信息的客觀質量評估方法。視覺顯著性檢測算法采用時-空域顯著事件的視頻顯著性檢測算法,充分考慮了由丟包帶來的視頻局部失真在時域和空域上對視覺注意的影響。其次,本文針對網(wǎng)絡視頻中包含的多丟包、多失真類型的質量因素進行了綜合評估,提出了一個基于時間-空間域的部分參考客觀質量評估方法。在無線網(wǎng)絡環(huán)境下視頻會議的數(shù)據(jù)中進行了對比實驗。實驗結果表明:提出的基于時-空域主動視覺注意的質量評估方法相比傳統(tǒng)方法能更好地反映人眼的視覺感知質量,且能滿足網(wǎng)絡視頻質量評估的實時性。