(北京工業(yè)大學 信號與信息處理研究室,北京 100124)
近年來,隨著網絡技術和多媒體技術的蓬勃發(fā)展,網絡視頻服務、可視電話、IPTV等應用越來越普及。這些應用系統(tǒng)需要對視頻質量進行實時監(jiān)控,以保證用戶的感受和體驗。視頻質量評價也由此成為各種網絡多媒體應用系統(tǒng)中不可或缺的重要組成部分。
視頻質量評價可以分為主觀質量評價和客觀質量評價兩種。主觀質量評價需要受測者在特定環(huán)境下,觀察一系列的被測視頻,按照事先規(guī)定的評分標準進行評分。主要的方法有:DSIS(Double Stimulus Impairment Scale)法,DSCQS (Double Stimulus Continuous Quality Scale)法,SSM(Single Stimulus Methods)法,SSCQE(Single Stimulus Continuous Quality Evaluation)法等。主觀質量評價方法最常用的打分標準是平均意見分數(shù)(Mean Opinion Score,MOS),如表1所示,其中“5”代表質量最好,“1”代表質量最差。主觀質量評價是能最直接反映人對視頻質量的感知程度的方法,但費時費力,且容易受到觀察者自身認知水平的影響,因此不適于大規(guī)模應用??陀^質量評價一般通過數(shù)學計算的方法來對視頻序列進行打分。根據對原始視頻的依賴程度不同,客觀質量評價又可分為3類:全參考(Full-Reference,FR)、部分參考(Reduced-Reference,RR)和無參考(No-Reference,NR)。全參考模型需要原始視頻作為參考,常用的方法有峰值信噪比(Peak Signal Noise Ratio,PSNR)[1]、結構相似性(Structural Similarity Index Measurement,SSIM)[2]、多尺度結構相似性(Multi-Scale Structural Similarity Index Measurement,MS-SSIM)[3]等。部分參考模型需要利用原始視頻的部分信息,通常會提取原始視頻的某些特征值來評價視頻質量。全參考和部分參考評價方法都需要額外的帶寬來傳輸原始視頻及相關特征信息,極大地影響了其實際應用。相比之下,無參考方法不需要依賴任何與原始視頻相關的信息,直接根據待評價視頻的信息計算視頻質量,具有更好的靈活性、適應性和更廣泛的應用價值,是目前主流的視頻質量評價方法[4-6]。
無參考質量評價方法可以進一步分為基于像素域(Pixel-based)、基于碼流(Bitstream-based)以及混合方法等3種?;谙袼赜虻姆椒ɡ媒獯a后的視頻進行質量評價;基于碼流的方法則不需解碼,直接從碼流中提取參數(shù)進行質量評價;混合方法則是將二者結合起來進行質量評價。文獻[7]利用解碼像素的變換系數(shù)來估計量化水平,從而評估視頻質量。文獻[8]從H.264壓縮碼流中提取QP、運動矢量在X、Y方向上的最大最小值、比特率等參數(shù),從像素域提取灰度共生矩陣的平方和、垂直灰度梯度、圖像熵、對比度等參數(shù),將這些參數(shù)結合起來形成特征參數(shù),使用線性回歸的方法建立特征參數(shù)與視頻感知質量之間的關系模型。
總的來說,基于像素域和混合的方法都需要對視頻進行解碼才能提取參數(shù),無法滿足對視頻質量進行實時評估的需求。因此,許多學者將研究重點放在了基于碼流的視頻質量評價上。文獻[9]從H.264碼流中提取QP平均值、中值、標準差、I幀4×4塊所占比、跳過宏塊所占比等作為特征參數(shù),使用最小二乘回歸方法來計算各自權重,最終給出視頻質量評價模型。文獻[10]從碼流中提取了QP、歸一化運動矢量、DCT系數(shù)、錯誤隱藏距離等參數(shù)作為特征參數(shù),來評估H.264視頻的編碼失真,使用數(shù)學擬合的方法建立視頻質量評價模型。
根據人眼視覺系統(tǒng)的掩蔽效應,人類對不同內容的視頻具有不同的敏感程度。視頻的紋理和運動特性也是影響視頻感知質量的重要因素。文獻[11]使用了像素域的特征信息,例如空間信息(Spatial Information,SI)和時間感知信息(Temporal Information,TI),并結合其他視頻參數(shù),通過數(shù)據擬合之后得出客觀分數(shù)計算公式。文獻[12]的研究工作表明,量化參數(shù)QP是影響視頻失真的最主要因素,而視頻內容,例如紋理豐富程度則次之。文獻[13]提出一種基于時間特征的比特流層模型,將運動的特征參數(shù)以及比特率用于質量評估,但尚未考慮利用視頻的空間特性。文獻[14]從碼流中提取DCT系數(shù)來描述視頻的紋理豐富程度,同時考慮幀類型、丟包率等作為特征參數(shù),進行視頻質量評價,但并未充分考慮利用視頻的運動劇烈程度。文獻[15]考慮了視頻的內容特征,提高了質量評估模型的精度。
本文提出了一種基于內容的無參考視頻質量評價模型,用于評估H.264碼流對應的質量,其流程圖如圖1所示。本文模型使用量化參數(shù)QP以及表征視頻內容的參數(shù):小尺寸預測塊所占比例SPM_Ratio、I幀中平均每個4×4塊所包含ICT非零個數(shù)Ave_Coef、運動矢量信息后綴平均長度Ave_Mvlen及其方差MV_var,作為特征參數(shù),并使用BP神經網絡方法建立其與主觀分數(shù)MOS之間的映射模型,用于對H.264碼流的質量進行預測。
圖1 視頻質量評價流程圖
人眼對于不同內容的視頻具有不同的主觀感受,在進行視頻質量評價時要充分考慮到視頻內容的具體特性。本文針對H.264的編碼結構,從H.264壓縮碼流中提取相關參數(shù),并對其進行統(tǒng)計分析,分別描述視頻的紋理豐富程度和運動劇烈程度。
H.264標準采用的是運動估計/補償+分塊變換的基本編碼框架,如圖2所示。
對于幀內預測編碼,H.264提供了9種4×4預測模式和4種16×16預測模式。研究結果表明,4×4預測模式往往對應于視頻幀中的紋理豐富區(qū)域,而16×16則對應于平坦區(qū)域。4×4塊數(shù)據經過預測、ICT(Integer Cosine Transform)變換、量化后的數(shù)據表現(xiàn)出如下特性:非零ICT系數(shù)主要集中在低頻部分,包括了圖像的大部分內容;而高頻ICT系數(shù)大部分是零。因此,ICT系數(shù)很大程度上反映了視頻的紋理豐富程度。
為此,本文定義了I幀小尺寸預測模式百分比SPM_Ratio和I幀中每個4×4塊包含的非零ICT個數(shù)平均值Ave_Coef來表征視頻的紋理程度。下面分別進行介紹。
(1)SPM_Ratio。
本文提取了H.264碼流中的編碼模式參數(shù),然后定義了SPM_Ratio表征視頻的紋理程度。其定義公式如下:
圖2 H.264編解碼流程圖
(1)
幀內4×4為小尺寸預測模式SPM(Small Prediction Mode)。式(1)中,小尺寸預測塊的個數(shù)總和記為SPM_total,所有預測塊的個數(shù)總和記為Prdmode_total??梢钥闯?,SPM_Ratio表示的是小尺寸預測塊占所有預測塊總數(shù)的比例,可以用于表征視頻序列包含的細節(jié)豐富程度。SPM_Ratio的值越大,則視頻的紋理越豐富。
(2)Ave_Coef。
在H.264標準中,4×4塊數(shù)據經過預測、變換、量化后,非零ICT系數(shù)主要集中在低頻部分,而高頻系數(shù)大部分是零。為此,本文定義了I幀中每個4×4塊包含的非零ICT個數(shù)平均值Ave_Coef來表示紋理的豐富程度,其定義公式如下:
(2)
式中,Coeff_Token為幀中所有4×4塊中非零ICT個數(shù)的總和;Inum為I幀的數(shù)目。從式(2)可以看出,Ave_Coef值越大,視頻序列所對應的紋理越豐富。
運動矢量可以直接表示運動的劇烈程度。H.264標準采用的是預測方式對運動矢量進行編碼,因此運動矢量殘差則可以在一定程度上表征視頻的運動劇烈程度。在H.264標準中,運動矢量殘差采用有符號指數(shù)哥倫布碼進行編碼,運動矢量殘差v與待編碼code_num之間的映射關系如下:
(3)
式中,code_num指數(shù)哥倫布碼的碼字由3部分組成,可以表示為[Mzeros] [1] [INFO],其中Mzeros稱為前綴(prefix),對應的INFO是一個M位的信息后綴(info_suffix)。每個碼字code_num的M和INFO值可以通過式(4)和式(5)計算得到:
M=floor(log2[code_num+1])
(4)
INFO=code_num+1-2M
(5)
可以看出,運動矢量殘差的幅值與碼字前綴的M值以及后綴的INFO值有著直接的關系,而運動矢量殘差的符號只由后綴INFO的最后一位比特決定。為此,本文定義運動矢量的信息后綴平均長度Ave_Mvlen來表征視頻的運動劇烈程度,計算公式如下:
(6)
式中,Infolen_tot表示信息后綴長度的總和;Infonum為運動矢量的總個數(shù)。Ave_Mvlen值越大,表明視頻的運動劇烈程度越高。
本文將量化參數(shù)QP與SPM_Ratio、Ave_Coef、Ave_Mvlen及其方差MV_var結合起來,作為輸入參數(shù),使用BP神經網絡方法建立其與主觀分數(shù)MOS之間的映射模型,用于對H.264碼流的質量進行預測。
下面介紹如何利用BP神經網絡建立視頻質量評價模型。
本文選取了常用的公開數(shù)據集中具有不同內容的9個CIF格式的視頻序列用于主觀實驗,具體視頻序列如圖3所示。主觀實驗采用DSIS(Double Stimulus Impairment Scale)的方法,由21個非專業(yè)人員嚴格按照ITU-T.P.910標準進行打分,使用MOS來表示主觀感知質量。
本文使用BP神經網絡來建立H.264碼流的特征參數(shù)與MOS打分之間的關系模型。BP網絡是神經網絡中使用最廣泛的一類,通常為3層前饋神經網絡:輸入層、隱含層和輸出層。層與層之間多采用全互連方式,同一層單元之間不存在相互連接。它能夠在事先不知道輸入輸出具體數(shù)學表達式的情況下,通過學習來建立這種復雜的映射關系模型。其網絡中參數(shù)的學習通常采用反向傳播的策略,借助最速梯度信息來尋找使網絡誤差最小化的參數(shù)組合。其中,各節(jié)點的傳遞函數(shù)f必須滿足處處可導的條件,最常用的為Sigmoid函數(shù)。
圖3 視頻測試序列
BP的誤差反向傳播思想可以概括為:利用輸出層的誤差來估計出其直接前導層的誤差,再借助于這個新的誤差來計算更前一層的誤差,按照這樣的方式逐層反傳下去便可以得到所有各層的誤差估計。
(7)
由于BP算法按照誤差函數(shù)E的負梯度修改權值,故權值的更新公式可表示為
(8)
式中,t為迭代次數(shù),對于輸出層神經元權值的更新公式為
(9)
式中,δk為輸出層第k個神經元的學習誤差。對隱含層神經元權值的更新公式為
(10)
式中,δj為作隱含層第j個神經元的學習誤差。
為了驗證本文所提出的視頻質量評價模型的準確性,本文選取了9個標準視頻序列進行實驗,每個視頻序列分別使用11個不同的QP值進行編碼。如表2所示,為具體的H.264編碼參數(shù)設置。主觀實驗針對編碼的99個碼流,由21個非專業(yè)人員打分,共得到2079組數(shù)據,其中1683組用于模型訓練,396組用于驗證模型的準確性。
表2 H.264編碼參數(shù)設置
皮爾遜系數(shù)(Pearson Linear Correlation Coefficient,PLCC)和斯皮爾曼系數(shù)(Spearman Rank-Order Correlation Coefficient,SROCC)常被用來衡量所建模型的性能。皮爾遜系數(shù)取值范圍是[-1,1],“-1”和“1”分別代表完全負相關和完全正相關。斯皮爾曼系數(shù)取值范圍是[-1,1],“-1”和“1”分別代表完全單調負相關和完全單調正相關。
本文使用BP神經網絡進行建模隱含層節(jié)點數(shù)為10,迭代次數(shù)為1000,BP網絡結構如圖4所示。為了驗證本文模型的性能,將模型預測結果與文獻[16]中的模型預測結果進行了對比,結果如表3所示。可以看出本文模型可以獲得更好的預測結果,PLCC達到0.9624,SROCC達到了0.9464。
圖4 BP網絡結構
模型PLCCSROCC本文模型0.96240.9464文獻[16]0.96000.9000
從表3可以看出,本文模型具有更高的MOS預測性能。
為了對比分析,本文還分別使用了支持向量回歸(Support Vector Regression,SVR)、RNN(Random Neural Network,RNN )、核偏最小二乘(Kernel Partial Least Square Regression,KPLSR)進行建模。表4給出了使用不同建模方法得到的性能對比。圖5的(a)、(b)、(c)、(d)分別是各種模型預測的平均客觀分數(shù)與主觀平均分數(shù)MOS的散點圖。散點圖表現(xiàn)了模型預測的客觀分數(shù)與主觀評價分數(shù)的線性關系。
從圖5和表4可以看出,采用BP神經網絡建立的模型可以得到更精確的預測結果,預測值與真實值更加吻合。
表4 采用SVR、KLPLSR、RNN和BP建模的性能對比
圖5 MOS-預測分數(shù)散點圖
本文提出了一種基于內容的無參考視頻質量評價模型,該模型從碼流中提取參數(shù)表征視頻內容的紋理和運動復雜度,通過BP網絡建立MOS與特征參數(shù)之間的映射模型。該模型能夠有效地利用H.264碼流,直接對不同內容的H.264視頻碼流進行實時的質量監(jiān)控。
在面對外界刺激時,人眼更加關注顯著區(qū)域,而非顯著區(qū)域的感知質量則會在一定程度上被削弱。因此,下一步的工作中,將考慮顯著性區(qū)域和非顯著性區(qū)域的區(qū)別,分別建立視頻感知質量評價模型。