潘達(dá),史萍
(中國(guó)傳媒大學(xué) 理工學(xué)部,北京 100024)
在過(guò)去的幾年里,3D電影、電視等立體視覺(jué)內(nèi)容越來(lái)越多地出現(xiàn)在人們的日常生活當(dāng)中。立體圖像的質(zhì)量評(píng)價(jià)方法不僅在3D視頻的傳輸與接收中發(fā)揮重要作用,而且也是3D圖像壓縮的關(guān)鍵組成部分。在現(xiàn)有的立體視覺(jué)質(zhì)量評(píng)價(jià)數(shù)據(jù)庫(kù)中,根據(jù)左右視圖失真類(lèi)型和失真程度的不同,立體圖像可分為對(duì)稱(chēng)失真立體圖像和非對(duì)稱(chēng)失真立體圖像。其中對(duì)稱(chēng)失真立體圖像是指左右視圖的失真類(lèi)型和程度完全一致,他對(duì)應(yīng)的質(zhì)量評(píng)價(jià)是3D-IQA中首要解決的任務(wù),因此,如何構(gòu)建對(duì)稱(chēng)失真立體圖像的質(zhì)量評(píng)價(jià)模型是研究立體圖像質(zhì)量評(píng)價(jià)的關(guān)鍵。
在以往研究中,IQA可以分為全參考圖像質(zhì)量評(píng)價(jià)(FR-IQA)[1,2]和無(wú)參考圖像質(zhì)量評(píng)價(jià)(NR-IQA)[3,4]。文獻(xiàn)[1]改進(jìn)了SSIM在單視圖質(zhì)量評(píng)價(jià)的方法,并且基于雙目競(jìng)爭(zhēng)原理,建立了一種基于激勵(lì)模型的立體圖像質(zhì)量評(píng)價(jià)。文獻(xiàn)[2]引入了基于大型數(shù)據(jù)庫(kù)學(xué)習(xí)的多尺度字典,在前向評(píng)估階段,通過(guò)計(jì)算稀疏特征相似度和全局亮度相似度來(lái)估計(jì)圖像質(zhì)量。文獻(xiàn)[3]提出了一種立體無(wú)參考的圖像自然質(zhì)量指數(shù),他采用支持向量機(jī)訓(xùn)練相關(guān)的自然場(chǎng)景統(tǒng)計(jì)特征。文獻(xiàn)[4]提出了一種無(wú)參考的深度質(zhì)量評(píng)價(jià)策略,用于衡量單目和雙目之間的相互作用關(guān)系,結(jié)合左右眼分?jǐn)?shù)綜合給出立體視覺(jué)質(zhì)量分?jǐn)?shù)。
盡管傳統(tǒng)的3D-IQA方法表明,先利用優(yōu)異的2D-IQA模型計(jì)算出左右單視圖分?jǐn)?shù),再采用簡(jiǎn)單的平均策略也能較好地預(yù)測(cè)對(duì)稱(chēng)失真的立體圖像質(zhì)量,但左右視圖之間的相關(guān)性還沒(méi)有得到充分的考慮。根據(jù)實(shí)驗(yàn)分析,人在觀看視頻時(shí),存在一種叫雙眼競(jìng)爭(zhēng)的現(xiàn)象,即一只眼睛會(huì)比另一只具有明顯的主導(dǎo)優(yōu)勢(shì),這說(shuō)明3D圖像質(zhì)量感知不僅與左右眼之間的視差有關(guān),還與雙眼機(jī)制相關(guān)。受此啟發(fā),本文提出了一種端到端權(quán)重組合的無(wú)參考立體圖像質(zhì)量評(píng)價(jià)的深度學(xué)習(xí)網(wǎng)絡(luò)。該網(wǎng)絡(luò)的主要特點(diǎn)如下:1.深度網(wǎng)絡(luò)將立體視覺(jué)特征作為整體評(píng)估,融入了左右視圖的相關(guān)性特征;2.提出的加權(quán)集成網(wǎng)絡(luò)能夠根據(jù)圖像失真情況,自我優(yōu)化左右視圖的能量分布。
眾所周知,左右視圖之間的相關(guān)性在3D圖像感知中起著重要作用,單獨(dú)計(jì)算左右視圖的失真質(zhì)量就缺少了對(duì)左右眼相關(guān)性的度量。因此,本文著重討論并考慮如何將左視圖與右視圖結(jié)合起來(lái)進(jìn)行整體質(zhì)量評(píng)估。文獻(xiàn)[4]中的理論推導(dǎo)表明,立體圖像的質(zhì)量感知可以概括為:
(1)
其中IL,IR分別表示左視圖和右視圖,θ表示3D-IQA的主觀分?jǐn)?shù),P(θ)表示主觀分?jǐn)?shù)的先驗(yàn)概率分布,P(IL,IR|θ)表示在主觀得分θ下,關(guān)于左視圖和右視圖的條件概率分布,P(IL,IR)表示3D圖像的先驗(yàn)聯(lián)合概率分布。根據(jù)貝葉斯推理,方程(1)可重新表示為:
(2)
基于雙眼競(jìng)爭(zhēng)理論,人的左眼和右眼對(duì)相同光線(xiàn)刺激有不同的反應(yīng),這意味著在圖像質(zhì)量評(píng)價(jià)過(guò)程中有一只眼睛占主導(dǎo)地位。因此,本文改進(jìn)了公式(2):
(3)
w1和w2代表左右視圖的權(quán)重,本文設(shè)計(jì)了一種權(quán)重網(wǎng)絡(luò)用以表達(dá)左右眼在評(píng)價(jià)3D圖像質(zhì)量中的能量分布。整個(gè)權(quán)重網(wǎng)絡(luò)結(jié)構(gòu)共6層,第一層和第三層是核大小分別為7×7和5×5的卷積層,在每個(gè)卷積層之后是2×2的最大池化層,第五層和第六層分別是大小為1024和2048個(gè)節(jié)點(diǎn)的全連接層。為了將網(wǎng)絡(luò)輸出值約束在0到1之間,我們選擇sigmoid作為最后一層的激活函數(shù)。除最后一層外,其他層之后都選擇ReLU作為激活函數(shù)。實(shí)驗(yàn)部分可以證明,本文提出的權(quán)重組合網(wǎng)絡(luò)可以根據(jù)左右視圖的失真內(nèi)容學(xué)習(xí)自適應(yīng)的能量分布。
圖1 本文提出的深度網(wǎng)絡(luò)模型。C表示卷積層,P表示池化層,F(xiàn)表示全連接層
本章所有實(shí)驗(yàn)都在三個(gè)公開(kāi)的3D-IQA數(shù)據(jù)庫(kù)上進(jìn)行測(cè)試,這三個(gè)庫(kù)分別為L(zhǎng)IVE 3D Phase II,Waterloo-IVC Phase I和Waterloo-IVC Phase II。這些庫(kù)都包含參考圖和失真圖,并且圖像失真覆蓋不同的類(lèi)型和程度。本文采用皮爾遜線(xiàn)性相關(guān)系數(shù)(PLCC)和斯皮爾曼相關(guān)系數(shù)(SROCC)來(lái)計(jì)算主觀評(píng)分與客觀評(píng)分之間的相關(guān)性用以比較各個(gè)IQA方法的性能。具體來(lái)說(shuō),PLCC是用以評(píng)估質(zhì)量預(yù)測(cè)的準(zhǔn)確率,而SROCC表示質(zhì)量預(yù)測(cè)的單調(diào)性。IQA模型計(jì)算出的PLCC和SROCC的值越大,就表明該模型的性能越好。在本文所有實(shí)驗(yàn)中,我們將數(shù)據(jù)庫(kù)的80%用于訓(xùn)練,剩下的20%做測(cè)試。為了避免數(shù)據(jù)劃分帶來(lái)的性能偏差影響,我們做了5輪交叉驗(yàn)證實(shí)驗(yàn),整個(gè)數(shù)據(jù)庫(kù)隨機(jī)均分為5等份,我們將其中的一份用于測(cè)試,其余的四份用于訓(xùn)練,整個(gè)過(guò)程重復(fù)5次,以確保沒(méi)有劃分偏差。最終的質(zhì)量評(píng)價(jià)分?jǐn)?shù)是平均每次迭代計(jì)算的分?jǐn)?shù)。
圖像的最終質(zhì)量評(píng)價(jià)分?jǐn)?shù)是將原圖中裁剪的所有224×224圖像塊分?jǐn)?shù)取平均。為了測(cè)試圖像塊采樣策略對(duì)最終效果的影響。本實(shí)驗(yàn)允許圖像塊重疊采樣,將原始失真圖像按照水平和豎直方向劃分為不同數(shù)量的采樣塊。我們比較了三種圖像劃分的策略:5×5,16×10和25×15。例如,對(duì)于16×10,水平步長(zhǎng)為(w-224)/(16-1),w表示圖像寬度。表1展示了不同數(shù)量圖像塊的性能比較,從表1中我們可以看出,25×15的采樣組合方式性能最優(yōu)。
表1 在Waterloo-IVC Phase II數(shù)據(jù)庫(kù)上不同數(shù)量圖像塊的性能比較
表2展示了本文提出的深度質(zhì)量評(píng)價(jià)模型與其他方法的比較結(jié)果,其中,Mean-Net表示對(duì)左右兩個(gè)分支網(wǎng)絡(luò)預(yù)測(cè)結(jié)果直接求均值。從表2中可以看出,本文提出的方法很好地符合人的主觀感知特性,而且其性能明顯優(yōu)于其他基于2D-IQA的方法。其中的Mean-Net均值網(wǎng)絡(luò)比其他2D-IQA方法都高出了3%,這意味著立體質(zhì)量評(píng)估深度網(wǎng)絡(luò)能夠充分表達(dá)對(duì)稱(chēng)失真圖像的視覺(jué)感知。引入權(quán)重網(wǎng)絡(luò)后,本文提出的方法在PLCC和SROCC兩個(gè)方面都取得了最好的性能,主要是因?yàn)橥ㄟ^(guò)深度權(quán)重網(wǎng)絡(luò)計(jì)算出的能量分布,能夠很好地表現(xiàn)左右眼之間的相關(guān)性。這些結(jié)果也證明了我們提出的權(quán)重集成學(xué)習(xí)深度網(wǎng)絡(luò)可以很好地評(píng)估對(duì)齊失真在立體視覺(jué)圖像中的狀態(tài)。
表2 各方法在3D圖像數(shù)據(jù)庫(kù)中的性能比較
表3 數(shù)據(jù)集不同劃分下的性能比較
表3展示了在三種不同的數(shù)據(jù)劃分下,LIVE 3D Phase II和Waterloo-IVC Phase II兩個(gè)圖像庫(kù)的性能結(jié)果。本文將數(shù)據(jù)集劃分為80%的訓(xùn)練集和20%的測(cè)試集。另外兩種數(shù)據(jù)的劃分為70%和60%樣本用于訓(xùn)練深度網(wǎng)絡(luò),其余圖像用于測(cè)試。本文對(duì)每一種劃分類(lèi)型都隨機(jī)10次,以其均值作為最終結(jié)果。結(jié)果表明,隨著訓(xùn)練圖像數(shù)量的下降,所有方法的質(zhì)量評(píng)價(jià)性能都降低。但是本文提出的方法只輕微下降了0.8%,而其他方法都顯著下降了4%,這證明了本文提出的方法相比其他方法,對(duì)訓(xùn)練圖像數(shù)量的依賴(lài)性更小,在小型數(shù)據(jù)集上也能有較好的性能。
本文提出了一種無(wú)參考的對(duì)齊失真立體圖像的質(zhì)量評(píng)價(jià)深度網(wǎng)絡(luò)模型。該深度網(wǎng)絡(luò)不僅考慮了左右視圖之間的相關(guān)性,還設(shè)計(jì)了一種基于雙目競(jìng)爭(zhēng)理論的加權(quán)集成學(xué)習(xí)網(wǎng)絡(luò)。在各個(gè)數(shù)據(jù)庫(kù)上的結(jié)果表明,本文提出的方法優(yōu)于其他方法,取得了與主觀感知的高度一致性。
[1]Wang J,Rehman A,Zeng K,et al.Quality prediction of asymmetrically distorted stereoscopic 3D images[J].IEEE Transactions Image Processing,2015,24(11):3400-3414.
[2]Shao F,Li K,Lin W,et al.Full-reference quality assessment of stereoscopic images by learning binocular receptive field properties[J].IEEE Transactions Processing,2015,24(10):2971-2983.
[3]Su C C,Cormack L K,Bovik A C.Oriented correlation models of distorted natural images with application to natural stereo pair quality evaluation[J].IEEE Transactions Image Processing,2015,24(5):1685-1699.
[4]Shao F,Tian W,Lin W,et al.Toward a Blind Deep Quality Evaluator for Stereoscopic Images Based on Monocular and Binocular Interactions[J].IEEE Transactions on Image Processing,2016,25(5):2059-2074.
[5]Bianco S,Celona L,Napoletano P,et al.On the use of deep learning for blind image quality assessment[J].Signal Image & Video Processing,2016(3):1-8.
[6]Liu W,Anguelov D,Erhan D,et al.SSD:Single Shot MultiBox Detector[C].European Conference on Computer Vision,2016:21-37.
[7]Mittal A,Moorthy A K,Bovik A C.No-reference image quality assessment in the spatial domain[J].IEEE Transactions Image Processing,2012,21(12):4695-4708.
[8]Ye P,Kumar J,Kang L,et al.Unsupervised feature learning framework for no-reference image quality assessment[C].IEEE Conference on Computer Vision and Pattern Recognition,IEEE Computer Society,2012:1098-1105.
[9]Xue W,Mou X,Zhang L,et al.Blind image quality assessment using joint statistics of gradient magnitude and laplacian features[J].IEEE Transactions Image Processing,2014,23(11):4850-4862.
[10]Xue W,Zhang L,Mou X.Learning without human scores for blind image quality assessment[C].Computer Vision and Pattern Recognition,2013:995-1002.
[11]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[C].International Conference on Neural Information Processing Systems,2012:1097-1105.
[12]Mittal A,Moorthy A K,Bovik A C.No-reference image qualityassessment in the spatial domain[J].IEEE Transactions Image Processing,2012,21(12):4695-4708.
[13]Saad M A,Bovik A C,Charrier C.Blind image quality assessment:A natural scene statistics approach in the DCT domain[J].IEEE Transactions Image Processing,2012,21(8):3339-3352.