面向分類和深度損失的立體圖像重定向質(zhì)量評價

2023-11-10 15:11:08羅媛婷唐振華

小型微型計算機系統(tǒng) 2023年11期

羅媛婷,唐振華,2

1(廣西大學(xué) 計算機與電子信息學(xué)院,南寧 530004)

2(廣西多媒體通信與網(wǎng)絡(luò)技術(shù)重點實驗室,南寧 530004)

1 引言

隨著數(shù)字多媒體技術(shù)的迅猛發(fā)展,數(shù)字圖像/視頻已逐漸從平面走向了立體,立體圖像/視頻被應(yīng)用于諸多的行業(yè)和領(lǐng)域,比如影視業(yè)、游戲業(yè)、制造業(yè)和醫(yī)學(xué)生物領(lǐng)域等[1-3],給人們帶來更舒適真實、身臨其境的視覺體驗[4,5].然而,立體圖像/視頻在不同終端設(shè)備的顯示和播放仍然面臨著分辨率和寬高比需要自適應(yīng)調(diào)整的問題.立體圖像重定向(Stereoscopic Image Retargeting,SIR)就是解決該問題的有效方法之一[6,7],SIR旨在調(diào)整原始立體圖像的分辨率或?qū)捀弑纫赃m應(yīng)不同顯示設(shè)備的前提下,盡可能為用戶提供高質(zhì)量視覺體驗[8,9].在平面圖像重定向方法中,影響圖像重建質(zhì)量的主要有幾何變形、信息丟失和結(jié)構(gòu)失真等3個方面的因素[10-12];但是,對于SIR方法而言,除了考慮減少幾何失真、信息丟失、結(jié)構(gòu)失真等常見問題外,SIR還面臨著重定向過程中如何解決與立體感知相關(guān)的附加質(zhì)量問題,例如保持深度感不變、減少雙目競爭和降低立體視覺不適等[13,14].立體圖像重定向質(zhì)量評價(Stereoscopic Image Retargeting Quality Assessment,SIRQA)算法主要從以上幾個方面對立體重定向圖像的質(zhì)量進行評價.

然而,現(xiàn)有的SIRQA算法存在以下的問題:

1.現(xiàn)有的SIRQA算法[15-22]沒有考慮到不同類型的重定向圖像的失真模式存在明顯差異的特點,而采用統(tǒng)一的失真量度方法對所有的重定向圖像進行衡量,評價的結(jié)果與人眼主觀感知的吻合度較低.

2.現(xiàn)有SIRQA算法缺乏對立體重定向圖像的深度感的有效衡量.與平面重定向圖像不同的是,當(dāng)立體圖像的深度信息在重定向過程中丟失時,人眼對圖像中立體空間的感知會發(fā)生顯著的變化.然而,現(xiàn)有的客觀評價方法缺少針對深度感失真的衡量指標(biāo),從而降低了SIR質(zhì)量的客觀評價與主觀評價的吻合度.

針對上述問題,本文提出了一種基于顯著度和深度特征分類的SIRQA算法,不同類型的圖像采用不同的失真質(zhì)量評價策略.此外,還設(shè)計了更符合人眼感知的深度感損失衡量指標(biāo).實驗結(jié)果表明,本文的方法的性能優(yōu)于現(xiàn)有的主流方法.

本文工作的貢獻如下:

1.對不同特征的立體重定向圖像采用不同的客觀質(zhì)量評價策略.現(xiàn)有算法中沒有對重要物體的整體形變進行衡量,但在前期的研究中本文發(fā)現(xiàn),這一失真在主觀評價中也占據(jù)著重要因素.于是本文根據(jù)有無明顯前景對象的特征,將圖像分成了兩類,其中有明顯重要物體的一類注重對整體幾何形變的衡量.同時,圖像的深度復(fù)雜度不一樣時,人眼對于深度感受的關(guān)注點也不同.當(dāng)深度層次較為簡單時,更注重重定向圖像自身的深度質(zhì)量;當(dāng)深度層次較為復(fù)雜時,人眼更容易注意到與原圖的深度感受差異.因此,對于有明顯物體的一類,本文再次將圖像細(xì)分為深度感受簡單與深度感受復(fù)雜的兩類圖像,并用不同的失真指標(biāo)組合進行評價.

2.提出了一種基于逆向重建的深度信息丟失衡量指標(biāo).在前期研究中本文還發(fā)現(xiàn),當(dāng)丟失的信息深度差異較大時,會造成物體空間感受的損失.于是本文利用SIFT-flow[23]算法,統(tǒng)計重定向過程中被刪除像素點信息,同時結(jié)合深度邊緣信息使它能夠更準(zhǔn)確地對深度信息丟失進行衡量.首先將重定向與原始圖像的深度圖進行逆向匹配,得到逆向重建信息圖.再計算出深度信息丟失像素的占比,以此作為深度信息丟失的度量.

3.提出一種基于深度圖正向距離的絕對深度相似度衡量方法.在重定向圖像的評價中,本文側(cè)重關(guān)注的是最大限度地保留原始圖像的信息.在深度感受方面,本文認(rèn)為立體重定向圖像呈現(xiàn)出來的深度感受應(yīng)與原圖盡可能相似.與第2點不同的是,該指標(biāo)直接通過計算原圖與重定向圖像深度圖的距離來比較,更直觀地體現(xiàn)深度圖的相似度.首先將原始圖像與重定向圖像進行網(wǎng)格塊劃分,計算局部對應(yīng)塊的深度值距離,用于判斷重定向圖像與原始圖像的深度相似度.

2 相關(guān)工作

目前有關(guān)立體圖像重定向客觀質(zhì)量評價的研究工作較少.早期,Fu等人[24]構(gòu)造了一個SIRQA數(shù)據(jù)庫,并對Hand-Craft and Deep Learned Features (HCDL)[25]、Disparity Amplitude and Gradient(DAG)[26]和Bidirectional Similarity (BDS)[27]等幾種SIR質(zhì)量評價算法進行了性能分析后發(fā)現(xiàn),SIR質(zhì)量客觀評價方法的準(zhǔn)確性仍有較大的提升空間,需要綜合考慮幾何失真、內(nèi)容損失和立體感知質(zhì)量,以提高客觀評價與主觀評價的吻合程度.

SIR質(zhì)量的客觀評價算法[15-22]大都遵循以下模式來設(shè)計:首先進行視覺特征提取,人為地對圖像進行分析,并提取各類圖像特征,構(gòu)造衡量不同類型失真的指標(biāo);再采用基于機器學(xué)習(xí)的方法來對不同類型的失真指標(biāo)進行融合,得到立體重定向圖像的客觀評價分?jǐn)?shù).Liu等人[15]提出了一個基于學(xué)習(xí)的客觀立體圖像質(zhì)量評價指標(biāo),對過度視差深度相似性、圖片完整性、局部和全局的失真等方面提取特征進行訓(xùn)練.周等人[16]利用視差范圍、視差強度分布、邊界視差和圖像質(zhì)量等特征來評價三維重定向圖像的質(zhì)量.Muhan等人[17]提出了一種衡量圖像質(zhì)量、視覺舒適度、深度結(jié)構(gòu)相似的客觀評價指標(biāo).富等人[18]通過提取3D重定向圖像的深度感特征、視覺舒適度特征和左右視點的圖像質(zhì)量特征,使用支持向量回歸預(yù)測3D重定向圖像的視覺質(zhì)量.Jiang[19]等人通過將2D的高寬比相似度(ARS)指標(biāo)擴展到一個被稱為StereoARS的3D版本,用于對3D圖像重定向質(zhì)量評價的衡量.Wang[20]等人利用了SIR的3D感知和圖像退化機制,并且將圖像質(zhì)量特征和三維感知特征集成到一個表示中,使用列表排序方法進行整體感知質(zhì)量預(yù)測,優(yōu)先考慮從同一原始圖像生成的SIR結(jié)果圖像中的排序.同年,Wang[21]等人又提出了一種新的方法,通過衡量中間視圖的合成方法來描述幾何變形和信息丟失的立體圖像對,此外用一些深度感知特征用來表征人眼觀看3D圖像時的感受.Fu等人[22]從單目重定向變換和視點變換兩個方面來提取圖像特征,并使用隨機森林的方法對圖像特征及主觀評分進行訓(xùn)練,預(yù)測立體圖像重定向的評價分?jǐn)?shù).

3 面向分類和深度損失的立體圖像重定向質(zhì)量評價

3.1 算法框架

本文算法首先根據(jù)立體圖像左視圖的顯著度以及深度特征,對立體圖像進行自動分類,然后采用不同的評價策略對不同類型的重定向圖像予以評價.本文算法的框圖如圖1所示,具體步驟如下:

圖1 算法框架Fig.1 Algorithm framework

步驟1.提取圖像特征.利用Pica-net[28]的方法分別獲得原始圖像和重定向圖像的左圖對應(yīng)的顯著區(qū)域圖;利用GBVS[29]的方法,分別計算原始圖像左圖和右圖的顯著度圖.利用SIFT-flow[23]的方法分別得到重定向圖像與原始圖像左圖、重定向圖像與原始圖像右圖的SIFT-flow圖;利用文獻[30]的方法,分別獲得原始圖像和重定向圖像的視差圖;利用文獻[31]的方法,分別獲得原始圖像和重定向圖像的深度圖;利用文獻[32]的方法生成原始圖像深度邊緣圖.

步驟2.對立體圖像進行分類.根據(jù)步驟一得到的原始圖像左圖顯著區(qū)域信息圖和原始圖像深度邊緣信息圖,本文將立體圖像分為3類:有顯著物體且深度感受復(fù)雜類(Complex Depth Perception,CDP)、有顯著物體且深度感受簡單類(Simple Depth Perception,SDP)、無顯著物體類(Non-salient Object,NSO).具體的介紹詳見3.2節(jié).

步驟3.計算失真指標(biāo)評價分?jǐn)?shù).根據(jù)步驟一中得到的原始圖像左圖顯著度圖、SIFT-flow圖、重定向圖像左圖顯著區(qū)域圖、重定向圖像視差圖和重定向圖像深度圖,計算以下5種失真指標(biāo)評價分?jǐn)?shù),包括衡量幾何失真的基于圖像塊的寬高比相似度(Aspect Ratio Similarity Based on Block,BARS)指標(biāo)、基于顯著區(qū)域整體寬高比相似度指標(biāo)(Aspect Ratio Similarity Based on Salient Area,SARS),衡量深度信息丟失的深度感受損失(Depth Perception Loss,DPL),衡量深度感受的絕對深度距離(Absolute Depth Distance,ADD)、視點變換(Viewpoint Transformation,VPT).具體的介紹詳見3.3節(jié).

步驟4.分類評價機制.根據(jù)步驟2中的分類結(jié)果,選取步驟3中適于評價其失真的指標(biāo)組合進行融合,得到立體重定向圖像最終的客觀評價分?jǐn)?shù).具體的介紹詳見3.4.

3.2 圖像分類

現(xiàn)有的SIRQA沒有考慮特征各異的圖像在重定向失真模式上存在明顯差異的特點,僅采用單一且固定的失真衡量方法對不同類型的重定向圖像進行質(zhì)量評價,導(dǎo)致客觀評價的結(jié)果與人眼感知的吻合度較低.經(jīng)過實驗證明,采用分類評價策略后評價算法的性能更佳,與主觀的感知更吻合.

人眼通常對重要對象的整體幾何形變比較敏感.對于有明顯重要物體的圖像,應(yīng)重點衡量重定向圖像中的幾何形變.因此本文認(rèn)為有必要根據(jù)有無明顯重要對象對圖像進行分類.于是本文引入顯著度參數(shù)σ表示圖像的顯著信息,將其作為區(qū)分圖像有無重要對象的依據(jù).設(shè)p(i,j)為位置(i,j)的像素,簡寫為p,顯著度參數(shù)σ的表達式如式(1)所示:

(1)

其中,S為顯著信息圖,由前景檢測圖F經(jīng)過膨脹腐蝕等操作

去除噪聲點,再用大津法對圖像進行自適應(yīng)二值化操作得到.mS和nS分別為S的寬和高.S(p)等于1時,代表該像素點為顯著對象像素;S(p)等于0時,代表該像素點為背景區(qū)域像素.當(dāng)顯著度參數(shù)σ>0時,把該幅圖像判定為有明顯重要對象的圖像;σ=0時,把該幅圖像判定為無明顯重要對象的圖像,如圖2所示.

圖2 基于σ值的圖像分類Fig.2 Image classification based on σ value

另一方面,立體圖像的深度復(fù)雜程度影響人眼所關(guān)注的深度感受失真類型.當(dāng)圖像的深度層次較多、分布較廣時,人眼更關(guān)注重定向圖像全局的深度感受與原始圖像的對比;當(dāng)圖像的層次較少、分布較集中時,人眼更關(guān)注重定向圖像中重要對象成呈現(xiàn)出的深度感受.因此,本文還引入了深度復(fù)雜度參數(shù)d來描述圖中的深度分布情況.深度圖的邊緣通常表示兩個不同的深度層次,本文利用深度邊緣信息計算深度復(fù)雜度參數(shù)d,如圖3所示,具體的計算公式如式(2)所示:

圖3 基于d值的圖像分類Fig.3 Image classification based on d value

(2)

其中,D為深度圖,E為深度邊緣圖,mD和nD分別為深度圖D的寬和高.深度復(fù)雜度參數(shù)d值越大表示圖中的深度分布越復(fù)雜.設(shè)定閾值θ,當(dāng)深度復(fù)雜度d大于等于該θ時,把圖像歸為深度感受較為復(fù)雜的圖像;當(dāng)深度復(fù)雜度d小于該閾值時,把圖像歸為深度感受較為簡單的圖像.經(jīng)過實驗,閾值θ取0.4時,分類效果最符合人眼對于圖像的分類判斷.

算法1.基于顯著度和深度特征的圖像自適應(yīng)分類算法

輸入：原始圖像I左圖Il和右圖Ir

輸出：I的圖像類型CT

1.F← 用Pica-Net[28]方法檢測Il前景

2.S← 對F進行膨脹腐蝕處理,并進行二值化

3.D← 用文獻[30]方法求Il,Ir視差圖后,再利用文獻[31]方法獲得深度圖

4.E← 用方法[32]對深度圖D進行邊緣檢測,并進行二值化

6.ifσ=0then

7.CT= ′NSO′

8.else

10.ifd≥θthen

11.CT= ′CDP′

12.else

13.CT= ′SDP′

14.endif

15.endif

16.returnCT

分類算法根據(jù)原始圖像中的顯著度參數(shù)σ和深度復(fù)雜度參數(shù)d,將圖像分為3類:NSO、CDP、SDP.算法的具體步驟如算法1所示.

3.3 失真評價指標(biāo)

3.3.1 深度感受損失指標(biāo)(DPL)

對于立體圖像而言,深度變化較大區(qū)域的信息丟失,會對整幅圖像的立體空間感造成影響.如果丟失了深度圖像的邊緣信息,會降低兩個不同深度值區(qū)域的相對深度,導(dǎo)致深度對比感減弱,從而影響重定向圖像的立體感.因此,本文設(shè)計了深度感受損失(DPL)指標(biāo),利用深度信息丟失衡量深度感.如圖4所示,該指標(biāo)具體實現(xiàn)步驟如下:

第1步.提取深度邊緣特征.首先計算原始圖像和重定向圖像的視差圖[30],再根據(jù)文獻[31],將視差圖轉(zhuǎn)換為深度圖,最后用文獻[32]方法求出原始圖像深度邊緣圖,并進行二值化處理;

第2步.生成逆向重建SIFT-flow圖.用SIFT-Flow[23]方法計算出重定向圖像左圖的SIFT-Flow圖,如圖4所示,圖中連續(xù)的細(xì)縫表示在立體重定向過程中被刪除像素點集合.并將SIFT-flow圖進行二值化,像素值為0代表重定向過程中被保留下來的像素點,像素值為1代表重定向過程比中被刪除的像素點;

第3步.生成圖像網(wǎng)格.將SIFT-Flow圖均勻劃分為大小m×n的圖像塊;

第4步.計算邊緣像素點所在圖像塊中,被刪除像素點占圖像塊總像素點的比值ρ,如式(3)所示;

第5步.將所有邊緣像素點對應(yīng)的圖像塊的比值ρ進行平均,計算結(jié)果為每幅圖像的DPL指標(biāo),如式(4)所示:

(3)

(4)

其中,fi為二值化SIFT-flow圖中的第i個圖像塊,m、n分別為圖像塊的寬和高.ρi為第i個圖像塊的ρ值,a為包含深度邊緣像素點的圖像塊數(shù).DPL的值越小,丟失的深度變化信息越多,立體圖像的深度感受損失也就越大;反之,深度感受損失較少,更接近原始圖像呈現(xiàn)出的效果.

3.3.2 絕對深度距離指標(biāo)(ADD)

當(dāng)重定向圖像呈現(xiàn)出來的深度感受與原始圖像越接近,其主觀評價分?jǐn)?shù)往往會越高.受Liu等人[15]的文章中深度相似度(Depth Similarity,DS)指標(biāo)的啟發(fā),本文從深度圖出發(fā),對重定向圖像與原始圖像的深度值相似度進行衡量.與Liu[15]不同的是:本文去掉DS指標(biāo)中的顯著度圖,以減少算法中復(fù)雜的操作步驟;用更直觀地表達人眼對于圖像的深度感受深度圖代替視差圖進行計算;更重要的是,改進了圖像塊深度距離的計算方法,本文的指標(biāo)絕對深度距離(absolute depth distance,ADD)能更精確地反映深度感受的失真,具體實驗結(jié)果將在4.2小節(jié)中討論.

具體做法如下:

第1步.劃分圖像網(wǎng)格塊.將原始圖像深度圖與重定向圖像深度圖劃分為同樣數(shù)量的均勻矩形網(wǎng)格;

第2步.生成平均灰度向量.用每個網(wǎng)格塊的平均灰度值代表該網(wǎng)格,并把原始圖像與重定向圖像的網(wǎng)格代表值分別存放在兩個向量中,如式(5)、式(6)所示;

第3步.計算絕對深度距離.根據(jù)式(7)計算ADD值.

(5)

(6)

(7)

3.3.3 基于圖像塊的寬高比相似度指標(biāo)(BARS)

對于圖中幾何形變的衡量,本文采用文獻[33]的中的基于圖像塊的寬高比相似度(BARS)指標(biāo),用于衡量全局圖像塊的幾何失真.計算方法如式(8)所示:

(8)

其中,圖像塊的尺寸為16×16,i、j分別代表每行、列的圖像塊個數(shù).Vij代表第i行,第j列圖像塊顯著圖的平均值.Aij代表第i行,第j列圖像塊的寬高比相似度計算結(jié)果,具體計算方法如式(9)所示:

(9)

3.3.4 基于顯著區(qū)域的寬高比相似度指標(biāo)(SARS)

為更好地衡量重要物體的整體形變,借鑒yao[34]的方法,本文采用顯著區(qū)域整體寬高比相似度指標(biāo)(SARS)進行計算.首先,計算出原始圖像與重定向圖像的顯著區(qū)域圖[35],接著分別求出二者顯著區(qū)域的最大寬、高,計算公式如式(10)所示:

(10)

3.3.5 視點變換指標(biāo)(VPT)

采用Fu[22]中視點變換(VPT)的計算方法.該方法基于視點變換,從網(wǎng)格變形與遮擋信息丟失兩個角度對深度感受損失進行衡量.與ADD不同的是,VPT更側(cè)重衡量重定向圖像本身的深度感受失真,而前者更注重重定向圖像與原圖產(chǎn)生的深度感受是否相似.

3.4 分類質(zhì)量評價

根據(jù)每類圖像不同的失真類型和模式,本文選用不同的失真指標(biāo)組合進行質(zhì)量評價.本文都采用基于機器學(xué)習(xí)的訓(xùn)練方法對失真指標(biāo)組進行融合,獲得最終的評價分?jǐn)?shù).訓(xùn)練的方法如下:首先將圖像庫中的圖像根據(jù)是否為同一原始圖像分為若干組,然后在SDP、CDP、NSO類的子圖像集中用一組圖像作為測試集,剩余圖像作為訓(xùn)練集,用SVM方法進行訓(xùn)練,將具有徑向基函數(shù)核的支持向量回歸(SVR)[36]用于構(gòu)建回歸模型,并且采用libsvm包[37]實現(xiàn).訓(xùn)練的參數(shù)選取如下:s取3,表示用epsilon-SVR模型訓(xùn)練;t取2,表示用radial basic function作為核函數(shù);c為epsilon -SVR的損失函數(shù)相關(guān)參數(shù),取10時實驗效果最佳;g為核函數(shù)中的gamma函數(shù)相關(guān)參數(shù),取0.22時實驗效果最佳.

3.4.1 SDP類

對于有顯著物體且深度感受簡單(SDP)類,本文用BARS、SARS、深度信息丟失(DPL)、絕對深度距離(ADD)、VPT 5個指標(biāo)的組合進行評價.在2D質(zhì)量上,對于幾何形變而言,在基于塊狀的BARS的基礎(chǔ)上,還新增加了基于整體形變的SARS衡量,從整體和局部衡量圖像的幾何形變,更好地代表人眼較容易捕捉到的整體幾何形變.在3D質(zhì)量上,DPL注重衡量深度信息的丟失,更好地代表立體感受損失;此外,本文認(rèn)為重定向圖像呈現(xiàn)出的立體感受與原圖越相似,得到的主觀評價會更高,因此還用基于塊的ADD指標(biāo),對重定向圖像和原始圖像的深度圖差異進行計算;同時,還用Fu[22]中的VPT衡量左右圖網(wǎng)格差異和遮擋對立體感受的影響.SDP類的失真組合表示如式(11)所示:

FSDP=[BARSl;BARSr;SARS;DPL;ADD;VPTl;VPTr]

(11)

其中,BARSl、BARSr分別代表重定向圖像左圖、右圖的BARS評價分?jǐn)?shù),VPTl、VPTr分別代表重定向圖像左圖、右圖的VPT評價分?jǐn)?shù).

3.4.2 CDP類

對于有顯著物體且深度感受復(fù)雜(CDP)類,本文采用BARS、SARS、DPL、ADD這4個指標(biāo)進行評價.SDP類的圖像,深度圖邊緣像素較少,而深度圖的邊緣通常與物體邊緣一致.因此此類圖像被本文認(rèn)為是:整幅圖像中前景物體深度值較小,背景物體深度值較大,且背景深度層次較少較為簡單,即重要物體立體感較突出的一類圖像.而CDP則相反,這類圖像的深度分布較為復(fù)雜,深度層次分布較廣,用基于局部圖像塊的絕對深度指標(biāo),能夠很好的對這些較為分散的深度信息的相似度進行衡量.而在SDP中,只有重要對象的深度產(chǎn)生較大的影響,而只對深度從塊與塊之前的差異進行衡量,會引入其他一些人眼不太關(guān)注的區(qū)域而帶來誤差,因此加入VPT指標(biāo)進一步精確對SDP類圖像進行衡量,而在CDP類圖像中去掉該指標(biāo).CDP類的失真組合表示如式(12)所示:

FCDP=[BARSl;BARSr;SARS;DPL;ADD]

(12)

3.4.3 NSO類

對于無明顯重要物體(NSO)類,本文用BARS、ADD、VPT進行評價.由于此類圖像沒有明顯的重要物體,在幾何形變的衡量中,只用BARS指標(biāo)進行對局部圖像塊的幾何形變進行衡量.并且在深度感受這方面,用ADD與VPT進行衡量.NSO類的失真組合表達式如式(13)所示:

FNSO=[BARSl;BARSr;ADD;VPTl;VPTr]

(13)

4 實驗結(jié)果

目前關(guān)于SIRQA的基準(zhǔn)數(shù)據(jù)庫有兩個:NBU-SIRQA[22]數(shù)據(jù)庫和SIRD[16]數(shù)據(jù)庫.其中,NBU-SIRQA數(shù)據(jù)庫中包含45組立體圖像,每組圖像包含Monocular Seam Carving (MSC)[38]、Monocular scale and stretch (MSNS)[39]、Content Persistent Cropping (CPC)[40]、Stereoscopic scaling (SSCL)、Geometrically Consistent Stereoscopic Seam Carving (GCSSC)[41]、Visual attention guided seam carving (VASSC)[42]、QoE-guided warping (QOE)[31]、Single-layer warping (SLWAP)[43]共8種立體重定向方法產(chǎn)生的結(jié)果圖像.該數(shù)據(jù)庫利用平均意見得分(Mean Opinion Score,MOS)方法計算720幅立體重定向圖像的主觀分?jǐn)?shù).SIRD數(shù)據(jù)庫中包含了400幅重定向立體圖像.它們由立體剪裁法、立體細(xì)縫法、立體縮放法以及立體多算子法生成.與NBU-SIRQA數(shù)據(jù)庫不同,SIRD數(shù)據(jù)庫用平均主觀得分差(Differential Mean Opinion Score,DMOS)計算主觀分?jǐn)?shù).為了衡量算法的性能,本文采用NBU-SIRQA數(shù)據(jù)庫和SIRD數(shù)據(jù)庫進行實驗測試.

4.1 實驗結(jié)果對比

4.1.1 NBU-SIRQA數(shù)據(jù)庫

本文對寬度縮為75%和50%兩種情況進行了測試,用皮爾森線性相關(guān)系數(shù)(Pearson Linear Correlation Coefficient,PLCC)、斯皮爾曼秩相關(guān)系數(shù)(Spearman Rank-order Correlation Coefficient,SRCC)、均方根誤差(Root Mean Square Error,RMSE)3種指標(biāo)衡量立體重定向圖像評價方法的性能,并與11種現(xiàn)有評價方法的評價結(jié)果進行了對比,如表1所示.這11種方法包括:SIFT-flow[23]、BDS[27]、EMD[44]、HCDL[25]、ARS[33]5種用于2D圖像重定向的評價算法,以及Liu[15]、 Zhou[16]、Fu[22]、Wang1[20]、Wang2[21]、StereoARS[19]6種為3D圖像重定向設(shè)計的評價算法.

表1 NBU-SIRQA數(shù)據(jù)庫實驗結(jié)果Table 1 Experiment results on NBU-SIRQA database

從表1中可看出,本文算法的總體性能優(yōu)于其他評價算法.除了SRCC與Wang2的算法表現(xiàn)相當(dāng)外,PLCC、RMSE兩個指標(biāo)都明顯優(yōu)于其他現(xiàn)有算法.與現(xiàn)有性能最佳算法相比,PLCC上升了2.13%,SRCC與現(xiàn)存算法最佳值持平,說明本文算法評價的結(jié)果與主觀評價的吻合程度更高了.從RMSE指標(biāo)上看,比現(xiàn)有性能最佳算法的結(jié)果下降了75.45%,說明本文算法在評價的穩(wěn)定性上有了顯著提升.這主要得益于本文算法采用了分類評價機制,并且采用了DPL和ADD兩個衡量深度感的指標(biāo).

在寬度縮放比為25%和50%的單獨測試結(jié)果中,RMSE指標(biāo)則明顯優(yōu)于現(xiàn)有絕大部分方法,但PLCC與SRCC指標(biāo)略低于部分現(xiàn)有的方法.這是因為與總數(shù)據(jù)集相比,子數(shù)據(jù)集訓(xùn)練樣本明顯減少.縮放比為25%、50%時,子集圖像為總集數(shù)量的一半,共360幅重定向圖像,再將子集分成3類進行訓(xùn)練,其中在NBU-SIRQA數(shù)據(jù)庫上無明顯重要區(qū)域(NSO)類圖像的訓(xùn)練樣本只有48幅圖像,樣本數(shù)量較少對最終結(jié)果造成很大影響.對于其他方法而言,沒有在子集上再將圖像劃分為3類,在訓(xùn)練率為80%的情況下,訓(xùn)練樣本可以達到288幅圖像,比本文的方法更多.當(dāng)縮放比為50%,圖像已經(jīng)明顯丟失了圖中的大量信息,能夠用于訓(xùn)練的特征信息就更少,評價的準(zhǔn)確性會低于25%與總數(shù)據(jù)集的.所以本文更關(guān)注總數(shù)據(jù)集的結(jié)果.

4.1.2 SIRD數(shù)據(jù)庫

對于SIRD數(shù)據(jù)庫,本文同樣也用PLCC、SRCC、RMSE 3個指標(biāo)對算法的評價性能進行衡量.在表2中,與主流的13種方法對比,包含了5種用于2D圖像重定向的評價方法[23,33,44,45,46],以及8種用于3D圖像重定向質(zhì)量評價的方法[15,16,19-22,47,48].本文算法的整體性能優(yōu)于現(xiàn)有算法,特別是PLCC和RMSE兩個指標(biāo),性能明顯優(yōu)于其他算法,分別比目前最優(yōu)的指標(biāo)Wang2[21]上升了7.59%、下降了94.37%.但SRCC指標(biāo)略低于目前性能最佳的StereoARS[19],在現(xiàn)有算法中排名第3.經(jīng)過分析發(fā)現(xiàn),無明顯重要區(qū)域(NSO)類的SRCC值性能較差,經(jīng)過3類圖像平均,使得整體性能上SRCC較低.SIRD數(shù)據(jù)庫的分類評價性能如表3所示,其中無明顯重要區(qū)域(NSO)類占整體圖像的48%,有顯著物體且深度感受復(fù)雜(CDP)類占27%,有顯著物體且深度感受簡單(SDP)類占25%.占據(jù)較大比例的NSO圖像拉低了整體的SRCC值.而在NBU-SIRQA數(shù)據(jù)庫中,NSO類約占9%,因此對整體性能的影響較小.經(jīng)過分析發(fā)現(xiàn),NSO類性能較差的主要的原因在于:1)一些顯著區(qū)域較小的圖像在分類的過程中,被劃分到無明顯重要物體類,導(dǎo)致重要物體的整體形變沒有被有效衡量,影響最后的評價性能;2)對于無明顯重要物體的圖像,圖中相對深度的相似度也會影響圖中的深度感知,但目前沒有相應(yīng)的指標(biāo)進行衡量.以上兩點也是本文后續(xù)工作中要改進的地方.

表2 SIRD數(shù)據(jù)庫實驗結(jié)果Table 2 Experiment results on SIRD database

表3 SIRD數(shù)據(jù)庫分類結(jié)果Table 3 Classification results on SIRD database

4.2 驗證深度感衡量指標(biāo)有效性

為驗證本文提出的DPL、ADD指標(biāo)對整個評價算法的貢獻,本文在NBU-SIRQA數(shù)據(jù)庫做了消融實驗進行對比,實驗結(jié)果如表4所示.可見,去掉DPL之后PLCC與SRCC分別下降了1.35%、1.76%; 同樣ADD去掉之后PLCC與SRCC分別下降了0.90%、1.41%.而當(dāng)同時去掉兩個指標(biāo)時,PLCC與SRCC分別下降了1.58%、3.29%.因此兩個新指標(biāo)都對算法總體性能的提升有一定提升,尤其是當(dāng)兩個指標(biāo)同時作用時,對整體指標(biāo)的性能有明顯提高.

表4 消融實驗Table 4 Ablation experiment

這是因為與2D圖像重定向的評價不同,3D圖像重定向質(zhì)量評價注重對圖像立體感受的評價,現(xiàn)有算法所設(shè)計的指標(biāo)中,BARS、SARS屬于在2D層面上對圖像進行評價,VPT是對立體感進行評價,但這些指標(biāo)的評價并不全面.就立體感受的評價而言,VPT只是對重定向圖像的本身立體感受進行評價,側(cè)重視覺舒適度方面的衡量,缺少了與原始圖像質(zhì)量的對比,但這恰恰是圖像重定向過程中重點關(guān)注的地方.而本文提出的ADD、DPL這兩個指標(biāo)分別基于深度圖的絕對深度差異對比、基于逆向匹配的深度信息丟失,更注重3D重定向圖像在深度感受上的深度感受失真.在將BARS、SARS、VPT、ADD、DPL這5個指標(biāo)進行組合之后,從圖像質(zhì)量、深度感受、視覺舒適度等方面進行全面衡量,提升了主觀評價與客觀評價的吻合度.

5 總結(jié)

本文提出了一種基于分類和深度感損失的立體圖像重定向客觀評價算法,對不同類型的圖像采用不同的失真質(zhì)量評價策略.本文還提出了兩種用于衡量深度感損失的指標(biāo),分別利用重定向過程中深度信息的丟失以及絕對深度變化來衡量深度感的損失.結(jié)果表明,該方法的總體性能優(yōu)于現(xiàn)有的立體圖像重定向客觀評價算法.