張 艷 安 平 張秋聞 張兆楊
①(上海大學(xué)通信與信息工程學(xué)院 上海 200072)
②(安徽財(cái)經(jīng)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系 蚌埠 230030)
③(新型顯示技術(shù)及應(yīng)用集成教育部重點(diǎn)實(shí)驗(yàn)室 上海 200072)
為了滿足人們對(duì)場景真實(shí)和自然再現(xiàn)的需求,能顯示立體視頻的3維電視(3DTV)應(yīng)運(yùn)而生[1]。我們所看到的自然界的真實(shí)場景是具有深度信息的立體物體,但2DTV卻丟失了作為第3維的深度信息[2]。3DTV可分為兩大類。第1類3DTV指采用雙攝像機(jī)(雙視)拍攝3維場景的和基于立體對(duì)合成顯示的3DTV系統(tǒng)。第 2 類3DTV指采用多攝像機(jī)陣列拍攝3維場景的和基于多視(或深度加多視)自由視點(diǎn)顯示的3DTV系統(tǒng)。本文在以下章節(jié)中所說的3DTV主要指由兩路視頻組成的立體對(duì)。當(dāng)人們?cè)谟^看立體視頻時(shí),左右兩路視頻質(zhì)量的變化對(duì)合成的立體視頻是有影響的。對(duì)于每路的單視點(diǎn)視頻,當(dāng)視頻失真小于某一閾值時(shí),人們就難于感知到;而對(duì)于兩路視頻合成的立體視頻,當(dāng)兩路視頻或其中一路視頻失真到什么程度,立體視頻質(zhì)量的變化才會(huì)使人們所感知是有待進(jìn)一步研究的問題。
在對(duì)立體視頻評(píng)價(jià)過程中,為了反映人眼的主觀特性,要建立基于人類視覺系統(tǒng)(Human Visual System, HVS)模型的評(píng)價(jià)系統(tǒng)。最小可辨失真(Just Noticeable Distortion, JND)是指人眼對(duì)最小差別量的感知能力,也就是人類視覺系統(tǒng)能夠感覺到的最小失真變化量。JND模型較好地反映了人眼的視覺系統(tǒng),如亮度掩蓋、紋理掩蓋和時(shí)間掩蓋等HVS特征已應(yīng)用在JND模型中。JND模型在單視視頻編碼和評(píng)價(jià)中都有成功的應(yīng)用,許多文獻(xiàn)都對(duì)單視JND模型進(jìn)行了闡述。文獻(xiàn)[3]提出了基于圖像像素的JND模型,主要考慮了背景亮度和紋理掩蓋效應(yīng)兩個(gè)因素,亦提出以感知的峰值信噪比(Peak Signal to Perceptible Noise Ratio, PSPNR)進(jìn)行感知評(píng)價(jià)的方法。文獻(xiàn)[4]從空間和時(shí)間相關(guān)性以及感知特性建立帶有時(shí)空特性的JND模型。文獻(xiàn)[3, 4]的紋理掩蓋均用平均背景亮度和像素周圍的平均亮度差異來決定,認(rèn)為空間JND是紋理掩蓋或者亮度適應(yīng)的主要因素,用時(shí)間掩蓋(運(yùn)動(dòng)掩蓋)來評(píng)價(jià)平均幀內(nèi)亮度差異。利用視頻中連續(xù)幀的相似性,通過加權(quán)的亮度可適應(yīng)閾值和相對(duì)的時(shí)空運(yùn)動(dòng)幅度來計(jì)算JND。Kelly[5]在穩(wěn)定的條件下從可視閾值實(shí)驗(yàn)上建立了時(shí)空對(duì)比靈敏度函數(shù)(CSF)模型。Daly[6]改善了Kelly的模型以適應(yīng)考慮到眼睛運(yùn)動(dòng)的無約束的自然觀看條件。文獻(xiàn)[7]提出了一種基于離散余弦變換(DCT)的JND模型,考慮了空間對(duì)比靈敏度、亮度可適應(yīng)性和對(duì)比掩蓋效應(yīng)。文獻(xiàn)[8]建立了在DCT變換域的JND估計(jì)方法,綜合考慮了空間時(shí)間對(duì)比靈敏度、環(huán)境、亮度可適應(yīng)性、幀間及幀內(nèi)的對(duì)比掩蓋效應(yīng),適用于圖像和視頻。文獻(xiàn)[9]在文獻(xiàn)[3]基礎(chǔ)上提出了新的彩色視頻的JND估計(jì)模型,用掩蓋非線性相加模型來集成空間掩蓋效應(yīng),除了考慮文獻(xiàn)[3]中亮度掩蓋、紋理掩蓋和時(shí)間掩蓋這些影響JND的因素外,還引入了邊緣區(qū)域和非邊緣區(qū)域的差異等因素。文獻(xiàn)[10]將圖像拆分為結(jié)構(gòu)圖像和紋理圖像來進(jìn)行邊緣掩蓋和紋理掩蓋估計(jì)。然而,以上相關(guān)研究主要是針對(duì)單視點(diǎn)視頻或者圖像的JND。
由于立體視頻具有不同于單視點(diǎn)視頻的特性,例如視點(diǎn)融合等,使得傳統(tǒng)的JND模型并不能直接用于立體視頻編碼和評(píng)價(jià)。文獻(xiàn)[11]提出了基于自由視點(diǎn)顯示器的立體融合系數(shù)和聚焦加權(quán)模型,并且將其應(yīng)用到立體JND模型中,但此模型要依賴于顯示器的類型。文獻(xiàn)[12]提出基于心理的非對(duì)稱失真立體圖像的雙目JND模型,文中給出了兩個(gè)實(shí)驗(yàn),第1個(gè)實(shí)驗(yàn)根據(jù)亮度掩蓋和雙目噪聲組合設(shè)定了聯(lián)合的閾值;第2個(gè)實(shí)驗(yàn)對(duì)于立體圖像,測試了由于對(duì)比度掩蓋效應(yīng)而引起的在雙目視覺中可視敏感度的降低情況。然而,此方法主要建立在特定的實(shí)驗(yàn)?zāi)P秃蜅l件基礎(chǔ)上,對(duì)于實(shí)際應(yīng)用有一定的局限性;而且文獻(xiàn)[11]和文獻(xiàn)[12]沒有提出相關(guān)的基于所給出模型的立體視頻的評(píng)價(jià)方法。
本文針對(duì)雙視點(diǎn)視頻,建立了基于背景亮度掩蓋、紋理掩蓋、幀間掩蓋、空間時(shí)間對(duì)比靈敏度、眼睛運(yùn)動(dòng)等因素的雙目最小可辨失真模型(Binocular Just Noticeable Distortion, BJND),并將BJND模型引入到立體視頻的評(píng)價(jià)中,提出一種基于BJND模型的立體視頻評(píng)價(jià)方法。實(shí)驗(yàn)結(jié)果證明本文提出的評(píng)價(jià)方法更接近于主觀測試結(jié)果。
當(dāng)視頻失真小于某一范圍時(shí),人眼不能夠感覺到此種影響,基于此人們提出了JND模型。視覺生理、心理等方面的研究發(fā)現(xiàn)人類視覺系統(tǒng)特性和掩蓋效應(yīng)對(duì)視頻編碼起著非常重要的作用。常見的掩蓋效應(yīng)包括:(1)亮度掩蔽特性,人們對(duì)高亮區(qū)所附加的噪聲其敏感性較小。(2)紋理掩蔽特性,HVS對(duì)圖像的平滑區(qū)的敏感性遠(yuǎn)遠(yuǎn)高于紋理區(qū)。背景亮度和紋理掩蓋是影響JND的主要因素,此外視頻的空間時(shí)間對(duì)比靈敏度也起著非常重要的作用。單路視頻在融合成立體視頻時(shí),背景亮度和紋理掩蓋等這些因素與單路視頻之間的關(guān)系如何是本文要研究的內(nèi)容之一。由于評(píng)價(jià)視頻的基本元素是視頻中每幀中的像素亮度,因此本文首先分析單路視頻像素亮度與立體視頻像素亮度的關(guān)系,并將得到的立體視頻的像素亮度應(yīng)用到BJND模型中。本文以背景亮度、紋理掩蓋、幀間掩蓋效應(yīng)的JND模型和以空間時(shí)間對(duì)比靈敏度為主的基本可視閾值組合建立了BJND模型。主要流程圖如圖1所示。
由于圖像的亮度在失真圖像的評(píng)價(jià)中起著非常重要的作用,因此,人們?cè)诮ND模型時(shí),首要的是考慮圖像的亮度。立體視頻由左右兩路視頻融合而成,對(duì)于左右視點(diǎn)亮度對(duì)立體視頻亮度的影響,Curtis等人[13]提出了向量和模型。給出左右視點(diǎn)的亮度LL,LR與組合雙眼亮度LB的關(guān)系為經(jīng)實(shí)驗(yàn)得到:k≥ 0 .33, 90 ≤a≤ 1 20。這里我們?nèi)= 1 ,a=120。l為與顯示器有關(guān)的亮度校正系數(shù),0<l≤1,當(dāng)圖像的亮度與顯示器顯示亮度相一致時(shí)l=1。
圖1 本文方法流程圖
本文將式(1)作為立體JND模型的像素亮度,以pB(x,y)表示:
對(duì)于JND模型,首先研究基于背景亮度、紋理掩蓋的立體圖像的JND,我們稱為空間JND。然后通過研究立體視頻的時(shí)間掩蓋效應(yīng),建立立體視頻的JND,即:立體視頻的JND為立體圖像的JND與幀間掩蓋效應(yīng)的乘積。
當(dāng)僅僅考慮空間域上的無色圖像時(shí),主要有兩個(gè)因素影響每個(gè)像素的錯(cuò)誤可視閾值,一個(gè)是平均背景亮度,另一個(gè)是背景亮度的空間非均勻性即紋理掩蓋效應(yīng)。
考慮兩個(gè)決定因素即背景亮度和紋理掩蓋的立體圖像的JND模型表示式為
人眼對(duì)邊緣處像素的變化要比非邊緣處像素的變化更加靈敏,因此邊緣處的可視閾值更小一些。求圖像邊緣像素如下:
pB(x,y)代表由式(1)測得的像素亮度信號(hào),沿著每個(gè)水平方向的差分信號(hào)為
x∈ [ 1,M],y∈ [ 1 ,N- 1 ],M,N表示圖像的水平和垂直方向的最大像素個(gè)數(shù)。
對(duì)于水平零跨區(qū):
signdh(x,y)為水平方向的差分信號(hào)的特征符號(hào)。
與像素(x,y+1)沿水平方向左右相鄰像素差分信號(hào)的特征符號(hào)的乘積為
那么,對(duì)于y∈ [ 1 ,N- 2 ],判斷水平方向邊緣像素的因子為
同樣方法得到判斷垂直方向邊緣像素的因子為
那么,式(3)為
式(3)中的L(mg(x,y) )由式(10)表示:
b是線性函數(shù)L的斜率,經(jīng)主觀實(shí)驗(yàn)得到b=2/17。mg(x,y)代表亮度在像素(x,y)周圍的最大平均加權(quán)。
Gk(i,j)是計(jì)算因子[3],表示在(x,y)周圍4個(gè)方向的平均加權(quán),k=1,2,3,4,Gk(i,j)隨著離像素中心距離的增加而減少。
式(3)中的T(bg(x,y) )由式(13)表示:
bg(x,y)是平均背景亮度。T0和g分別代表當(dāng)背景灰度值為0時(shí)的可視閾值和在高背景亮度時(shí)的模型的線性斜率。bg(x,y)由加權(quán)的低通算子計(jì)算。
其中B(x,y) ,x,y= 1 ,2,3,4,5為平均背景亮度算子[3]。
建立立體視頻的 JND模型除了要考慮背景亮度、紋理掩蓋的立體圖像的JND外,還要考慮幀間的掩蓋效應(yīng)。用空間JND即立體圖像的JND模型和幀間亮度差異函數(shù) ILD(Interframe Luminance Difference)得到立體視頻時(shí)空域上的最小可視閾值JNDS-T。幀間亮度差異函數(shù)ILD用第n幀和n-1幀之間的平均亮度差異函數(shù)dal(x,y,n)表示。J N DS-T的表示式為
其中
ILD以曲線函數(shù)表示為[14]
雙目 JND模型除了考慮以上提到的背景亮度及紋理和幀間掩蓋效應(yīng)外,還要考慮基本的可視閾值?;镜目梢曢撝抵饕紤]靈敏度模型即空間時(shí)間對(duì)比靈敏度(ST-CSF)。另外還要考慮用亮度閾值表達(dá)的對(duì)比靈敏度函數(shù)需要延伸到數(shù)字圖像的灰度值。ST-CSF以CSF(x,y,n)表示,則其可視閾值表達(dá)式如下:
其中LMAX和LMIN分別代表與最大和最小灰度值相對(duì)應(yīng)的顯示器的亮度值,M是圖像系統(tǒng)的灰度級(jí)別數(shù)(大多數(shù)圖像系統(tǒng)是256),l為與顯示器有關(guān)的亮度校正系數(shù)。
ST-CSF是描述人眼視覺系統(tǒng)空間-時(shí)間特性的主要指標(biāo)之一,反映了不同條件下的對(duì)比靈敏度與空間-時(shí)間頻率之間的關(guān)系,也可指與圖像通過人眼視網(wǎng)膜速度相關(guān)的人類視覺系統(tǒng)的空間敏銳性,以視網(wǎng)膜上的圖像成像速度表示時(shí)間頻率。典型的ST-CSF函數(shù)曲線表示式如下[5]:
其中C0,C1,C3,k為常數(shù),這里我們?nèi)0=1,C1= 7 .3,C3=-2,k=1,v(degrees per second)是視網(wǎng)膜成像速度,a(cycles per degree)表示空間頻率。
空間頻率是反映圖像空間變化程度的一個(gè)量。設(shè)尺寸為M×N的立體圖像在(x,y)處的像素亮度為pB(x,y),則立體圖像的空間頻率定義如下:
aR為行頻率:
aC為列頻率:
圖像的空間頻率隨著圖像分辨率的不同而不同,圖像越清晰分辨率越高其空間頻率越大。于是,在第n幀上的點(diǎn)(x,y)的ST-CSF函數(shù)為
ST-CSF與觀察者眼睛的運(yùn)動(dòng)相關(guān),且要考慮運(yùn)動(dòng)圖像的運(yùn)動(dòng)特征。人們?cè)谟^看視頻的時(shí)候,人眼會(huì)追蹤視頻中的運(yùn)動(dòng)物體,而忽略靜止物體的微弱的失真。由于眼睛運(yùn)動(dòng),在視網(wǎng)膜上的感知速度與通過運(yùn)動(dòng)估計(jì)得到的圖像平面速度不同,在Daly[6]設(shè)計(jì)的眼睛運(yùn)動(dòng)的初級(jí)模型上,視網(wǎng)膜中圖像的速度可以表示為
vI(n)表示第n幀中如果沒有眼睛運(yùn)動(dòng)的視網(wǎng)膜中圖像平面物體的速度;vE(n)表示在第n幀中眼睛運(yùn)動(dòng)的速度。其中,
g表示跟蹤物體的效率,vMIN和vMAX分別指眼睛運(yùn)動(dòng)的最小和最大速度。而式(24)中的vI可近似表示為
f指幀率(frames per second),MVx(n)和MVy(n)指在第n幀中圖像的運(yùn)動(dòng)向量。
這里假設(shè)立體視頻的左右兩路視頻的運(yùn)動(dòng)速度保持一致。因此v(n)也可代表立體視頻的運(yùn)動(dòng)速度。
綜合2.1節(jié), 2.2節(jié)和2.3節(jié),本文提出了雙目最小可辨失真(BJND)模型,可表示為
本文將雙目最小可辨失真模型引入傳統(tǒng)的單視點(diǎn)感知質(zhì)量評(píng)價(jià)方法 PSPNR(Peak Signal to Perceptible Noise Ratio)[4]中,由式(28)可以得到我們提出的評(píng)價(jià)立體視頻質(zhì)量的表示式BPSPNR(Binocular Peak Signal to Perceptible Noise Ratio)。
其中pB(x,y,n)為原始視頻第n幀左右視點(diǎn)重構(gòu)后的像素亮度,B(x,y,n)代表失真視頻第n幀左右視點(diǎn)重構(gòu)后的像素亮度,JNDB(x,y,n)為雙目最小可辨失真模型。
用本文算法(BPSPNR)對(duì)MEPG提供的立體測試 序 列 “Book_arrival”, “Champagne_tower”,“Lovebird1”[15]和微軟研究所給出的“Ballet”[16]進(jìn)行了測試,并作了相關(guān)的主觀實(shí)驗(yàn)進(jìn)行驗(yàn)證。每個(gè)序列分別取其中相鄰的兩路視頻,以4個(gè)不同的QP(22,28, 34和40)進(jìn)行立體視頻的失真處理。
主觀實(shí)驗(yàn)參照國際標(biāo)準(zhǔn)ITU-R BT.500-11[17]。顯示器是 16:10 (寬為40.9 cm,高為25.5 cm)的SuperD自由立體顯示器,分辨率為1440×900。15個(gè)測試者參加了本次測試,包括專業(yè)測試者和非專業(yè)測試者。測試等級(jí)分為5級(jí),為了便于精確記錄結(jié)果,用百分制來代替5分制,即1[bad:0-20], 2[poor:20-40], 3[fair:40-60], 4[good:60-80], 5[excellent: 80-100],測試者在進(jìn)行測試時(shí)所在位置為其最佳觀測位置。
客觀實(shí)驗(yàn)結(jié)果與PSNR, PSPNR[4]進(jìn)行了比較。文中的PSNR和PSPNR方法,均由左右眼的平均值得到。BPSPNR是本文提出的方法。圖2顯示了PSNR, PSPNR, BPSPNR這3種客觀評(píng)價(jià)結(jié)果和主觀評(píng)價(jià)值MOS(Mean Opinion Score)的關(guān)聯(lián)曲線圖,圖中所得曲線由軟件Origin7.5提供的非線性函數(shù)中的Logistic函數(shù)擬合而成。
在建立非線性擬合之后,我們采用如下視頻質(zhì)量專家組(Video Quality Expert Group, VQEG)推薦的4個(gè)度量指標(biāo)來比較各種方法的優(yōu)劣[18,19]。(1)Pearson相關(guān)系數(shù)(Pearson Correlation Coefficient,PCC),反映預(yù)測的精確性,區(qū)間為[-1, 1]上的值,其絕對(duì)值越接近于1,表明主客觀評(píng)價(jià)間的相關(guān)性越好;(2)Spearman等級(jí)相關(guān)系數(shù)(Spearman Rank Order Correlation Coefficient, SROCC),表征了評(píng)價(jià)方法的單調(diào)性,也是區(qū)間[-1, 1]的值,同PCC一樣,其絕對(duì)值越接近于1,表明主客觀評(píng)價(jià)間的一致性越好;(3)離出率(Outlier Ratio, OR),反映客觀評(píng)價(jià)的一致性,數(shù)值越小則表明模型預(yù)測越好,由通過主客觀所得數(shù)據(jù)的非線性擬合后處于誤差大于標(biāo)準(zhǔn)差2倍的點(diǎn)的比例而得;(4)均方根誤差(Root Mean Square Error, RMSE),表征了數(shù)據(jù)的離散程度,是對(duì)主客觀所得數(shù)據(jù)的非線性擬合后所得誤差計(jì)算而得。表 1 為各方法的比較結(jié)果,可以看到,本文提出的BPSPNR評(píng)價(jià)方法其PCC和SROCC指標(biāo)較大,而OR和RMSE指標(biāo)較小。也就是說無論是從與主客觀評(píng)分的相關(guān)性還是從數(shù)據(jù)樣本的分散度來分析,本文所提出的BPSPNR方法均優(yōu)于其它兩種方法,更加接近于人類的視覺感知。
表1 客觀評(píng)價(jià)模型性能指標(biāo)比較
圖2 客觀質(zhì)量評(píng)價(jià)方法與主觀MOS值的關(guān)聯(lián)圖
本文針對(duì)于立體視頻不同于單路視頻的特性建立了基于背景亮度掩蓋、紋理掩蓋、幀間掩蓋效應(yīng)、空間時(shí)間對(duì)比靈敏度、眼睛運(yùn)動(dòng)等因素的雙目最小可辨失真模型(BJND),提出了基于BJND模型的立體視頻質(zhì)量評(píng)價(jià)方法。對(duì)提出的BPSPNR方法進(jìn)行了主觀驗(yàn)證,并和PSNR, PSPNR評(píng)價(jià)方法進(jìn)行了客觀評(píng)價(jià)與主觀評(píng)價(jià)一致性比較。實(shí)驗(yàn)結(jié)果驗(yàn)證了本文所提出的方法更加接近于人類的視覺感知。
[1]Müller K, Merkle P, and Wiegand T. 3-D video representation using depth maps[J].Proceedings of the IEEE,2011, 99(4): 643-656.
[2]Nicolas S H, Neil A D, Gregg E F,et al.. Three-dimensional displays: a review and applications analysis [J].IEEE Transactions on Broadcasting, 2011, 57(2): 372-383.
[3]Chou C H and Li Y C. A perceptually tuned subband image coder based on the measure of just-noticeable-distortion profile [J].IEEE Transactions on Circuits and Systems for Video Technology, 1995, 5(6): 467-476.
[4]Chou C H and Chen C W. A perceptually optimized 3-D subband codec for video communication over wireless channels[J].IEEE Transactions on Circuits and Systems for Video Technology, 1996, 6(2): 143-156.
[5]Kelly D H. Motion and vision II: stabilized spatiotemporal threshold surface[J].Optical Society of America, 1979, 69(10):1340-1349.
[6]Daly S. Engineering Observations from Spatiovelocity and Spatiotemporal Visual Models, Vision Models and Applications to Image and Video Processing [M]. Norwell,MA: Kluwer Academic Publishers, 2001, Chapter 9.
[7]Zhang X H, Lin W S, and Xue P. Improved estimation for just-noticeable visual distortion[J].Signal Processing, 2005,85(4): 795-808.
[8]Jia Y T, Lin W S, and Kassim A A. Estimating just-noticeable distortion for video[J].IEEE Transactions on Circuits and Systems for Video Technology, 2006, 16(7):820-829.
[9]Yang X K, Lin W S, Lu Z K,et al.. Just noticeable distortion model and its applications in video coding[J].Signal Processing:Image Communication, 2005, 20(7): 662-680.
[10]Liu A M, Lin W S, Paul M,et al.. Just noticeable difference for images with decomposition model for separating edge and textured regions[J].IEEE Transactions on Circuits and Systems for Video Technology, 2010, 20(11): 1648-1652.
[11]Zhang L, Peng Q, Wang Q H,et al.. Stereoscopic perceptual video coding based on just-noticeable-distortion profile[J].IEEE Transactions on Broadcasting, 2011, 57(2): 572-581.
[12]Zhao Y, Chen Z Z, Zhu C,et al.. Binocular just-noticeabledifference model for stereoscopic images[J].IEEE Signal Processing Letters, 2011, 18(1): 19-22.
[13]Curtis D W and Rule S J. Binocular processing of brightness information: a vector-sum model[J].Journal of Experimental Psychology:Human Perception and Performance, 1978, (4):132-143.
[14]Zhao Y and Yu L. Perceptual measurement for evaluating quality of view synthesis[S]. ISO/IEC JTC1/SC29/WG11/M16407, Maui, USA, April 2009.
[15]ISO/IEC JTC1/SC29/WG11. Draft call for proposals on 3D video coding technology[S]. MPEG2011/N11830, Daegu,Korea, January 2011.
[16]Zitnick C L, Kang S B, Uyttendaele M,et al.. High-quality video view interpolation using a layered representation[J].ACM Transactions on Graphics, 2004, 23(3): 600-608.
[17]ITU-R Recommendation BT.500-11. Methodology for the subjective assessment of the quality of television pictures[S].2002.
[18]Video Quality Experts Group (VQEG). Final report from the video quality experts group on the validation of objective models of video quality assessment, Phase II[R]. http://www.vqeg.org/, USA, August 25, 2003.
[19]Chikkerur S, Sundaram V, Reisslein M,et al.. Objective video quality assessment methods: a Classification, review,and performance comparison [J].IEEE Transactions on Broadcasting, 2011, 57(2): 165-182.