于淼淼,鄭元林,廖開(kāi)陽(yáng),唐梽森
(1.西安理工大學(xué)印刷包裝與數(shù)字媒體學(xué)院,陜西西安710048;2.西安理工大學(xué)陜西省印刷包裝工程重點(diǎn)實(shí)驗(yàn)室,陜西西安710048)
數(shù)字信息時(shí)代拉近了人與人之間的距離,影響和改變著人們的生活方式。隨著多媒體通信系統(tǒng)的日益發(fā)展,圖像質(zhì)量評(píng)價(jià)(IQA)已然成為業(yè)界研究學(xué)者關(guān)注的焦點(diǎn),對(duì)于圖像處理、圖像壓縮編碼、視頻編碼技術(shù)等意義重大。IQA旨在量化人眼對(duì)圖像質(zhì)量的視覺(jué)感知,包括主觀評(píng)價(jià)法和客觀評(píng)價(jià)法。前者是評(píng)價(jià)者通過(guò)觀察待評(píng)估的失真圖像從而給出主觀感知得分,是最符合人眼視覺(jué)系統(tǒng)(Human Visual System, HVS)視覺(jué)感知的評(píng)價(jià)方法,但是由于該方法需要耗時(shí)耗力耗財(cái)?shù)娜斯ね瓿?,因此無(wú)法用于大規(guī)模實(shí)時(shí)系統(tǒng)?;诖?,客觀評(píng)價(jià)法應(yīng)運(yùn)而生,其基本思想是通過(guò)計(jì)算機(jī)建立數(shù)學(xué)模型從而模擬人眼對(duì)圖像的視覺(jué)判斷,目前被廣泛用于實(shí)時(shí)監(jiān)控設(shè)備、圖像處理算法中的參數(shù)優(yōu)化等。
依據(jù)對(duì)參考圖像的依賴程度,客觀圖像質(zhì)量評(píng)價(jià)方法可分為全參考型(FR)、部分參考型(RR)以及無(wú)參考型(NR)。近幾年,F(xiàn)R和NR受到廣泛關(guān)注,也是應(yīng)用最多的兩類方法,并且已有研究[1]將FR-IQA應(yīng)用到了NR-IQA中,旨在借助前者預(yù)測(cè)準(zhǔn)確率高的特性來(lái)增強(qiáng)NR-IQA算法性能。本文主要研究FR-IQA。
現(xiàn)有的FR-IQA依據(jù)算法設(shè)計(jì)原理的不同大致分為兩種類型,一類是傳統(tǒng)的基于計(jì)算引導(dǎo)的方法,另一類是基于機(jī)器學(xué)習(xí)的方法。早期的FR-IQA,如峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)和均方根誤差(Mean Squared Error, MSE),主要通過(guò)計(jì)算參考圖像及其失真版本在像素水平上的差異來(lái)評(píng)價(jià)失真圖像質(zhì)量,但這種方法假定圖像像素之間是獨(dú)立存在的,這顯然違背了HVS在觀察圖像時(shí)的視覺(jué)感知機(jī)制。隨后,SSIM(Structural Similarity Index Milarity)[2]作為里程碑式的方法,極大推動(dòng)了IQA的研究進(jìn)展,對(duì)于之后的很多研究成果意義重大。由于圖像的最終接收者是人,一個(gè)性能優(yōu)越的IQA方法必然是通過(guò)模擬人眼視覺(jué)特性來(lái)實(shí)現(xiàn)的,因此從SSIM提出后,便掀起了通過(guò)考慮人眼感知特性來(lái)設(shè)計(jì)評(píng)價(jià)算法的熱潮,即通過(guò)從不同角度模擬HVS的不同功能來(lái)提取低水平圖像特征。MS-SSIM[3]利用HVS的多尺度特性對(duì)SSIM進(jìn)行改進(jìn),評(píng)價(jià)準(zhǔn)確性也得到了進(jìn)一步提升。FSIMc[4]提取圖像的相位一致性特征以及梯度特征,并將相位一致性特征作為加權(quán)函數(shù)來(lái)強(qiáng)調(diào)其在全局圖像中的重要性。VSI[5]在提取梯度特征的同時(shí)也考慮到了圖像的視覺(jué)顯著性(VS)特征,并將其作為加權(quán)函數(shù),VS特征描述了一幅圖像中能夠引起人眼注意的局部區(qū)域,能夠與主觀感知有高度的相關(guān)性。VSM[6]在VSI的基礎(chǔ)上,將梯度及VS特征的提取方法進(jìn)行改進(jìn),表現(xiàn)出更高的預(yù)測(cè)結(jié)果。大部分方法均在空間域中提取圖像特征,Balanov等[7]嘗試提取圖像的變換域特征,并提出了一種基于DCT子帶相似性的IQA算法。HVS的不同功能決定了其具有可同時(shí)處理空域和變換域圖像特征的特性,因此SC-QI[8]將色度特征、對(duì)比敏感度函數(shù)(CSF)及結(jié)構(gòu)對(duì)比度指標(biāo)(SCI)進(jìn)行融合,同時(shí)提取空域和變換域圖像特征,充分模擬了HVS對(duì)局部圖像特征和各種失真類型的感知機(jī)制。
近年來(lái),隨著各領(lǐng)域?qū)C(jī)器學(xué)習(xí)的研究進(jìn)一步深入,基于機(jī)器學(xué)習(xí)的IQA方法變得越來(lái)越廣泛,也開(kāi)發(fā)出了很多較為成熟的回歸工具。Pei等[9]通過(guò)提取Gauss頻帶特征建立基于隨機(jī)森林(Random Forest, RF)的回歸模型,所提出的Gauss差分(DOG)模型可與現(xiàn)有其他方法相結(jié)合,極大提高了模型的預(yù)測(cè)性能。Ding等[10]和Narwaria等[11]分別通過(guò)基于支持向量回歸(Support Vector Regression, SVR)及奇異值分解(Singular Value Decomposition, SVD)的方法建立質(zhì)量回歸模型。
研究表明,基于機(jī)器學(xué)習(xí)的IQA方法在圖像質(zhì)量預(yù)測(cè)精度以及魯棒性等方面均顯示出絕對(duì)優(yōu)勢(shì),并且一個(gè)性能優(yōu)越的基于機(jī)器學(xué)習(xí)的IQA算法主要表現(xiàn)在兩個(gè)方面:一是通過(guò)模擬HVS對(duì)視覺(jué)場(chǎng)景的視覺(jué)感知來(lái)提取圖像特征,包括空域特征和變換域特征;二是通過(guò)模擬大腦機(jī)制建立質(zhì)量回歸模型。因此,本文提出了一種新的基于視覺(jué)感知高度相關(guān)的機(jī)器學(xué)習(xí)算法CGDR。
首先,為充分模擬HVS觀察視覺(jué)場(chǎng)景時(shí)的感知機(jī)制,在色度通道中提取參考圖像與失真圖像的顏色信息,在亮度通道中提取梯度特征、CSF特征以及5級(jí)DOG頻帶特征;然后計(jì)算兩幅圖像間的色度相似性、梯度相似性、對(duì)比敏感度相似性以及各級(jí)頻帶特征相似性。為降低特征空間維度、控制運(yùn)算成本,池化策略分別提取色度相似性圖、梯度相似性圖以及對(duì)比敏感度相似性圖的均值、標(biāo)準(zhǔn)偏差及熵;最后,通過(guò)隨機(jī)森林RF進(jìn)行多特征融合并訓(xùn)練回歸模型,得到質(zhì)量預(yù)測(cè)得分。CGDR的總體算法框架圖見(jiàn)圖1。
就彩色圖像而言,人眼對(duì)其顏色空間的感知特性是質(zhì)量評(píng)估的重要組成部分[12]。色度特征是其中一個(gè)重要特征之一,它直接影響了彩色圖像的視覺(jué)效果。當(dāng)圖像顏色發(fā)生飽和度失真時(shí),提取圖像的顏色特征就顯得尤為重要[13]。從另一個(gè)角度講,一幅彩色圖像是由色度與亮度組成的,而大部分圖像特征主要集中在亮度通道上,因此,提取色度特征的結(jié)果必然是將圖像的亮度通道與色度通道進(jìn)行分離。HVS在觀察真實(shí)場(chǎng)景時(shí)也總是將亮度和色度分開(kāi)處理的,為了模擬HVS的這種功能,本文首先將圖像由RGB顏色空間轉(zhuǎn)化為YIQ三個(gè)通道,實(shí)現(xiàn)亮度信息Y與兩個(gè)色度信息I、Q的分離。色彩轉(zhuǎn)換方式具體如下:
圖1 提出算法CGDR計(jì)算流程Fig.1 Computational process of the proposed IQA index CGDR
(1)
自SSIM結(jié)構(gòu)相似性指標(biāo)被提出后,之后的大部分IQA算法都采用一種特定的形式來(lái)計(jì)算特征之間的相似度,這種特定形式可表示為:(2ab+c)/(a2+b2+c),其中a、b表征待比較的兩個(gè)物理量,c為常量。這種計(jì)算方法具有很強(qiáng)的掩模效應(yīng),當(dāng)物理量(如:亮度和對(duì)比度)增強(qiáng)的同時(shí),這些物理量之間的感知差異會(huì)變小,即物理量之間的相似度會(huì)增大,這是符合HVS的視覺(jué)特性的?;诖耍疚耐瑯硬捎眠@種特定形式來(lái)計(jì)算兩幅圖像之間的色度相似性,將參考圖像(失真圖像)的I和Q通道分別定義為I1(I2)和Q1(Q2),則參考圖像及其失真圖像的色度相似性計(jì)算為:
(2)
式中:C1、C2均為正常量,根據(jù)經(jīng)驗(yàn)取C1=C2=130用于防止分母為零而造成C的不穩(wěn)定。X為I、Q通道中的像素點(diǎn)。
對(duì)于一幅空間圖像而言,邊緣附近像素點(diǎn)的灰度變化是最劇烈的,在邊緣附近的失真要比在紋理或者平滑區(qū)域的失真更容易引起人眼的注意。梯度作為描述圖像邊緣特征最常用的指標(biāo),可以有效地描述由于結(jié)構(gòu)和對(duì)比度失真而引起的圖像變化。傳統(tǒng)的梯度計(jì)算方法主要包括Sobel算子、Scharr算子、Prewitt算子等,它們的共同點(diǎn)是采用包含水平和垂直兩個(gè)方向的模板來(lái)計(jì)算圖像梯度,并且模板的最大尺寸為3×3,這會(huì)存在兩個(gè)問(wèn)題:首先,只考慮水平和垂直兩個(gè)方向的梯度特征是不準(zhǔn)確的,因?yàn)閳D像的邊緣分布是非常豐富的,很難用兩個(gè)方向來(lái)描述所有邊緣的變化情況;其次,模板太小則無(wú)法包含足夠多的相鄰信息。隨后,很多方法[6, 14] 在此基礎(chǔ)上進(jìn)行了改進(jìn),采用包含四個(gè)方向且尺寸更大的梯度模板對(duì)圖像做卷積,并選擇四個(gè)方向梯度分量的最大值作為最終提取的圖像梯度特征(記為最大分量法)。雖然使用這種方法的效果要比傳統(tǒng)方法好很多,但是選擇四個(gè)方向上的最大值并不是最佳的選擇,因?yàn)榱硗馊齻€(gè)方向的信息對(duì)于梯度的形成同樣至關(guān)重要。本文后面會(huì)對(duì)最大分量法與我們所提出的梯度方法進(jìn)行比較。
基于以上研究,本文采用一種新的計(jì)算方法來(lái)提取圖像的梯度特征,在使用多方向大尺寸卷積模板的基礎(chǔ)上,通過(guò)聯(lián)合四個(gè)方向上的梯度信息共同捕獲梯度特征,盡可能多的保留邊緣細(xì)節(jié)。圖2所示為四方向高通濾波模板,模板大小為5×5,包含 0°、 90°、 45°、135°四個(gè)方向。
圖2 四方向高通濾波模板 (a)0°;(b)90°;(c)45°;(d)135°Fig.2 High-pass filter templates in four directions (a) 0°; (b) 90°; (c) 45°; (d) 135°
具體計(jì)算方法如下:
(3)
式中:Gk(X,Y)(其中k分別代表x,y,u,v)表示分別使用Mk(k=x,y,u,v)模板所得到的四個(gè)梯度分量。(X,Y)表示梯度分量中各個(gè)像素點(diǎn)的橫縱坐標(biāo)值。
然后,定義G1(X,Y)為0°和90°兩個(gè)方向的梯度分量,定義G2(X,Y)為45°和135°兩個(gè)方向的梯度分量,并計(jì)算如下:
(4)
最終,將一幅圖像的全局梯度特征計(jì)算為兩個(gè)梯度分量的加和,即:
GMap(X,Y)=G1(X,Y)+G2(X,Y)
(5)
圖3是對(duì)使用最大分量法與所提出的梯度分量加和法進(jìn)行的比較。所使用的圖片來(lái)源于TID2013數(shù)據(jù)庫(kù),圖3(a)為原始圖像,圖3(b)和圖3(c)為圖3(a)對(duì)應(yīng)的兩種失真類型的失真圖像,圖3(d)~(f)分別為圖3(a)~(c)使用最大分量法得到的梯度圖,圖3(g)~(i)分別為圖3(a)~(c)使用梯度分量加和法得到的梯度圖。從圖中可以明顯的觀察到,無(wú)論哪種失真類型,使用所提出的方法計(jì)算得到的梯度特征要比使用最大分量法捕獲更豐富的邊緣信息,從而有效地反映出了圖像在邊緣處的特征變化。
通過(guò)采用這種新的梯度計(jì)算方法,分別得到參考圖像及其失真版本的梯度特征,記為GMap1(X,Y)和GMap2(X,Y)。與計(jì)算色度相似性的原理類似,這里使用相同的方法計(jì)算參考圖像及其失真版本之間的梯度相似性,過(guò)程如下:
(6)
式中:C3為一個(gè)正常量,根據(jù)經(jīng)驗(yàn)取C3=386用于防止分母為零而造成Gsim的不穩(wěn)定。
當(dāng)失真圖像產(chǎn)生多余邊緣時(shí),尤其是當(dāng)增加的多余邊緣顏色與參考圖像對(duì)應(yīng)像素點(diǎn)的顏色差異較大時(shí),那么獨(dú)立的計(jì)算參考圖像和失真圖像各自的梯度特征是有一定缺陷的,因?yàn)檫@種方法會(huì)誤認(rèn)為該邊緣是參考圖像經(jīng)失真后保留下來(lái)的正確的邊緣,造成誤判。為了彌補(bǔ)此類計(jì)算缺陷,將參考圖像與失真圖像的邊緣相關(guān)性融合到所提出的梯度相似性的計(jì)算過(guò)程中。具體做法是,首先將參考圖像與失真圖像的亮度通道進(jìn)行融合,見(jiàn)式(7),再通過(guò)式(3)~(5),計(jì)算融合亮度通道后的圖像梯度特征,記為GL。與SSIM中計(jì)算相似性類似,接下來(lái)通過(guò)式(8)~(9)分別計(jì)算GL與參考圖像的梯度特征GMap1以及失真圖像的梯度特征GMap2之間的相似性,分別用GRL和GDL表示。其中,C4為正常量,根據(jù)經(jīng)驗(yàn)取C4=55用于穩(wěn)定式(8)~(9),防止分母為零。
L=(L1+L2)/2
(7)
(8)
(9)
圖3 兩種梯度計(jì)算方法的比較Fig.3 Comparison of two gradient calculation methods
最后,改進(jìn)后的梯度相似性特征見(jiàn)式(10),與只采用梯度分量加和法得到的梯度相似性特征Gsim相比,該公式增加的部分(GDL-GRL)將突出強(qiáng)調(diào)參考圖像經(jīng)失真后所丟失的邊緣多于其失真版本所增加的邊緣,降低對(duì)平滑邊緣處的強(qiáng)調(diào)。
G=Gsim+[GDL-GRL]
(10)
由于梯度特征只強(qiáng)調(diào)了圖像中的少部分信息,而圖像大部分的能量主要集中在低頻區(qū)域,因此,只在空間域中提取特征不足以準(zhǔn)確描述整幅圖像。本文采用Gauss差分(DOG)模型,通過(guò)提取不同頻帶特征來(lái)模擬HVS可同時(shí)處理空域和頻域特征的特性。
DOG響應(yīng)用于描述具有不同標(biāo)準(zhǔn)偏差的兩個(gè)Gauss響應(yīng)之間的差值,見(jiàn)式(11),其中Gσ1(X)和Gσ2(X)分別代表標(biāo)準(zhǔn)偏差為σ1和σ2的兩個(gè)Gauss函數(shù)。一幅圖像的DOG響應(yīng)見(jiàn)式(12),即將一幅空間圖像轉(zhuǎn)化成帶通表示。
DOGσ1,σ2(X)=Gσ1(X)-Gσ2(X)
(11)
IDOGσ1,σ2(X)=I°(Gσ1(X)-Gσ2(X))
(12)
通過(guò)式(12),可將一幅圖像分解為多個(gè)頻帶表示:
(13)
式中:N代表圖像分解級(jí)數(shù),σi=ki-1(i=1,…,N-1),°是Hardamard乘積。
通過(guò)式(13),經(jīng)過(guò)N級(jí)分解后的圖像I可表示為:
(14)
利用上述方法將參考圖像I1與失真圖像I2分解為5級(jí)(N=5)子帶,并計(jì)算兩幅圖像在各級(jí)頻帶間的相似性,即:
(15)
式中:SSIM(·)表示相似性計(jì)算指標(biāo),i=0,1,2,3,4。
圖4所示為圖像5級(jí)(N=5)DOG分解示例。圖4(a)為TID2013數(shù)據(jù)庫(kù)中其中一幅原始圖像的L通道圖,圖4(b)~(f)分別為分解后的5個(gè)頻帶圖。
圖4 圖像5級(jí)DOG分解圖Fig.4 5-level DOG decomposition of an image
CSF特征有效反映了HVS與空間頻率之間的關(guān)系。實(shí)驗(yàn)表明,將DOG頻帶特征以及CSF兩種特征結(jié)合使用有助于增強(qiáng)模型對(duì)不同空間頻率的分辨能力,因此本文使用CSF與DOG頻帶特征共同反映人眼視覺(jué)系統(tǒng)的頻率響應(yīng)特性。這里使用SC-QI算法中提出的方法來(lái)提取與CSF相關(guān)的圖像特征,首先將參考圖像與失真圖像從空間域轉(zhuǎn)換為DCT系數(shù),然后將csfL1(csfL2),csfM1(csfM2)和csfH1(csfH2)分別定義為參考圖像(失真圖像)在低頻(LF)、中頻(MF)和高頻(HF)區(qū)域的分量。對(duì)于一幅參考圖像,其對(duì)比度能量值計(jì)算如下:
(16)
式中:K=L1,M1,H1,分別對(duì)應(yīng)參考圖像RK的LF,MF和HF三個(gè)區(qū)域,p(u,v)表示在(u,v)點(diǎn)處DCT系數(shù)的歸一化值。同理,對(duì)失真圖像用同樣方法計(jì)算這三個(gè)指標(biāo),計(jì)算結(jié)果記為:csfL2、csfM2以及csfH2。參考圖像與失真圖像在LF,MF和HF區(qū)域的相似性值分別計(jì)算如下:
(17)
(18)
(19)
式中:C5、C6、C7為正常量,根據(jù)SC-QI算法,取C5=20 001 111、C6=1.7、C7=0.006 3用于防止分母為零而造成csfLMap、csfMMap及csfHMap的不穩(wěn)定。X為L(zhǎng)F,MF和HF三個(gè)區(qū)域中像素點(diǎn)的坐標(biāo)值。最終,參考圖像與失真圖像的對(duì)比敏感度相似性特征表示為:
F=csfLMap(X)·csfMMap(X)·csfHMap(X)
(20)
經(jīng)上述特征提取過(guò)程,可得到參考圖像與失真圖像之間的色度相似性特征、梯度相似性特征、DOG頻帶特征以及對(duì)比敏感度相似性特征。池化策略的目的是將提取的圖像特征映射到低維空間中,通過(guò)低維空間保留下來(lái)的特征要最大程度地代表全局圖像。本文提取色度相似性圖的均值、標(biāo)準(zhǔn)偏差及熵,分別用Cm、Cs及Ce表示,提取梯度相似性圖的均值、標(biāo)準(zhǔn)偏差及熵,分別用Gm、Gs及Ge表示,提取對(duì)比敏感度似性圖的均值、標(biāo)準(zhǔn)偏差及熵,分別用Fm、Fs及Fe表示。DOG頻帶特征是一個(gè)5維的特征向量,記為[f0f1f2f3f4]。接下來(lái),將3維色度相似性特征、3維梯度相似性特征、3維對(duì)比敏感度相似性特征以及5維頻帶特征進(jìn)行多特征融合,融合后的特征空間用一個(gè)14維特征向量表示,即:
V=[CmCsCeGmGsGef0f1f2f3f4FmFsFe]
(21)
與傳統(tǒng)基于計(jì)算引導(dǎo)的方法不同,一旦得到代表每幅失真圖像質(zhì)量的特征向量與主觀分?jǐn)?shù)MOS后,基于機(jī)器學(xué)習(xí)的方法可自動(dòng)進(jìn)行特征學(xué)習(xí)并通過(guò)回歸工具建立回歸模型。在訓(xùn)練階段,提取訓(xùn)練集中所有圖像的14維特征向量,與主觀分?jǐn)?shù)一同輸入到回歸工具中,建立回歸模型。測(cè)試階段,將測(cè)試集中提取的圖像特征向量輸入到訓(xùn)練好的IQA回歸模型中,最終映射為圖像質(zhì)量預(yù)測(cè)得分。
目前已經(jīng)開(kāi)發(fā)出了很多回歸工具,其中RF和SVR兩種工具使用最為廣泛,也顯示出卓越的學(xué)習(xí)能力和回歸效果。Pei等[9]利用這兩種回歸技術(shù)訓(xùn)練了六個(gè)DOG模型,實(shí)驗(yàn)結(jié)果表明,RF的預(yù)測(cè)性能要優(yōu)于SVR,尤其是當(dāng)考慮到圖像色度特征時(shí)結(jié)果最為顯著。因此,本文采用隨機(jī)森林RF訓(xùn)練質(zhì)量回歸模型,并設(shè)置參數(shù)(ntree, mtry)=(500, 2)。
本實(shí)驗(yàn)在應(yīng)用最廣泛的四個(gè)圖像數(shù)據(jù)庫(kù)上進(jìn)行,包括TID2013[15]、TID2008[16]、LIVE[17]以及CSIQ[18],表1比較了這四個(gè)圖像數(shù)據(jù)庫(kù)的部分信息。其中,TID2013數(shù)據(jù)庫(kù)是四個(gè)數(shù)據(jù)庫(kù)中規(guī)模最大的,是TID2008數(shù)據(jù)庫(kù)的拓展版本,共有25幅原始圖像、24種失真類型,每種失真類型有5個(gè)失真等級(jí),該數(shù)據(jù)庫(kù)總共包含3 000幅失真圖像。另外,CSIQ數(shù)據(jù)庫(kù)中所包含的參考圖像的數(shù)量是最豐富的,LIVE數(shù)據(jù)庫(kù)中圖像的分辨率最高。
表1 四種圖像質(zhì)量評(píng)價(jià)數(shù)據(jù)庫(kù)各種信息比較
(22)
本文所提出的方法與八種主流的FR-IQA方法進(jìn)行了比較,這八種方法分別是SSIM, MS-SSIM, IW-SSIM[19], FSIMc, GMSD[20], VSI, SC-QI 以及DOG-SSIM[9],其中,前七種為基于計(jì)算引導(dǎo)的方法,最后一種為基于機(jī)器學(xué)習(xí)的方法。由于TID2013數(shù)據(jù)庫(kù)是TID2008數(shù)據(jù)庫(kù)的拓展版本,因此,本實(shí)驗(yàn)僅在TID2013、LIVE以及CSIQ三個(gè)數(shù)據(jù)庫(kù)中進(jìn)行測(cè)試,實(shí)驗(yàn)所得PLCC和SRCC性能指標(biāo)見(jiàn)表2。除包括在各數(shù)據(jù)庫(kù)中的評(píng)價(jià)結(jié)果外,表2右半部分還列出了每種方法在三個(gè)數(shù)據(jù)庫(kù)中的平均值及加權(quán)平均值評(píng)價(jià)結(jié)果,權(quán)重因子依賴于各個(gè)數(shù)據(jù)庫(kù)中失真圖像數(shù)量。表2中,加粗部分表示排名最高的圖像質(zhì)量評(píng)價(jià)方法所得結(jié)果。值得一提的是,為防止過(guò)擬合現(xiàn)象,保證訓(xùn)練集和測(cè)試集之間互不重疊,本文采用K-折交叉驗(yàn)證的方法避免此類問(wèn)題。具體做法是在TID2013數(shù)據(jù)庫(kù)中采用8-折交叉驗(yàn)證策略,在LIVE及CSIQ數(shù)據(jù)庫(kù)中采用10-折交叉驗(yàn)證策略,每次訓(xùn)練選擇其中1-折作為訓(xùn)練集,其余作為測(cè)試集,每次實(shí)驗(yàn)進(jìn)行1 000次迭代,并取中位數(shù)作為評(píng)價(jià)指標(biāo)的最終結(jié)果。
由表2可知,提出算法CGDR在各個(gè)數(shù)據(jù)庫(kù)中的預(yù)測(cè)性能遠(yuǎn)遠(yuǎn)優(yōu)于其他八種方法,平均結(jié)果和加權(quán)平均結(jié)果同樣顯示出其卓越的綜合表現(xiàn)能力。具體來(lái)看,CGDR算法的平均PLCC和SRCC結(jié)果分別高于排名第二位方法的2.98%和2.60%,加權(quán)平均結(jié)果分別高了3.21%和2.99%。
另外,圖5顯示了在TID2013數(shù)據(jù)庫(kù)上通過(guò)九種IQA方法獲得的預(yù)測(cè)得分與主觀分?jǐn)?shù)的散點(diǎn)圖以及通過(guò)式(22)得到的最佳擬合邏輯函數(shù),散點(diǎn)圖橫縱坐標(biāo)分別表示IQA算法的預(yù)測(cè)得分以及主觀MOS值,每個(gè)藍(lán)色加號(hào)表示數(shù)據(jù)庫(kù)中的一幅圖像。從圖5中可以看出,與其他八種方法相比,提出的CGDR算法的所有采樣點(diǎn)更接近于擬合曲線,這說(shuō)明與主觀得分有更高的一致性。
表2 九種FR-IQA方法總體性能比較
圖5 TID2013數(shù)據(jù)庫(kù)上通過(guò)IQA方法獲得的預(yù)測(cè)得分與主觀分?jǐn)?shù)的散點(diǎn)圖Fig.5 Scatter plots of subjective MOS and predicted scores obtained by several IQA methods on TID2013 database
基于機(jī)器學(xué)習(xí)的IQA方法的預(yù)測(cè)性能直接取決于訓(xùn)練數(shù)據(jù)集與測(cè)試數(shù)據(jù)集,有些方法在一個(gè)數(shù)據(jù)集上的性能非常好,但在其他數(shù)據(jù)集上卻表現(xiàn)平平。與K-折交叉驗(yàn)證不同,跨數(shù)據(jù)庫(kù)驗(yàn)證是在不同數(shù)據(jù)庫(kù)中分別訓(xùn)練和測(cè)試IQA模型,這對(duì)于評(píng)估模型的整體性能方面更有說(shuō)服力。
表3為所提出的CGDR算法與其他三種基于機(jī)器學(xué)方法的跨數(shù)據(jù)驗(yàn)證的PLCC結(jié)果。其中,前兩種方法分別使用SVR和SVD回歸技術(shù),后一種使用隨機(jī)森林RF回歸策略。值得一提的是,由于TID2013數(shù)據(jù)庫(kù)與TID2008數(shù)據(jù)庫(kù)中包含的原始圖像相同,因此本實(shí)驗(yàn)排除在這兩個(gè)數(shù)據(jù)庫(kù)間進(jìn)行驗(yàn)證。同理,LIVE 與TID2008和TID2013數(shù)據(jù)庫(kù)均有重疊內(nèi)容,因此,為保證實(shí)驗(yàn)的嚴(yán)謹(jǐn)和規(guī)范,跨數(shù)據(jù)庫(kù)驗(yàn)證實(shí)驗(yàn)僅在CSIQ/LIVE以及CSIQ/TID2008數(shù)據(jù)庫(kù)間進(jìn)行訓(xùn)練和測(cè)試。表3中用粗體標(biāo)出了每次交叉驗(yàn)證實(shí)驗(yàn)的最佳值,結(jié)果無(wú)疑證明了CGDR算法比其他三種方法有更強(qiáng)的魯棒性。
表3 跨數(shù)據(jù)庫(kù)驗(yàn)證的PLCC結(jié)果
將IQA算法運(yùn)用到實(shí)時(shí)系統(tǒng)中時(shí),設(shè)計(jì)者總是希望在算法的預(yù)測(cè)精度與運(yùn)算復(fù)雜度之間找到很好的平衡。表4列出了包括提出的CGDR算法在內(nèi)的九種FR-IQA方法在TID2013數(shù)據(jù)庫(kù)中每幅圖像的平均運(yùn)行時(shí)間,所有方法均使用Matlab 2016a在配有智能英特爾酷睿i7四核處理器的個(gè)人計(jì)算機(jī)上進(jìn)行計(jì)算,其余八種方法的代碼均來(lái)自原始作者。
由表4可知,SSIM的運(yùn)算速度是九種方法中最快的,平均每0.049 7 s運(yùn)行一對(duì)圖像,其次是GMSD,速度快的原因是這兩種方法無(wú)論在特征提取過(guò)程還是池化階段,其計(jì)算過(guò)程都比較簡(jiǎn)單,計(jì)算的復(fù)雜程度相對(duì)較低。CGDR算法的平均運(yùn)算時(shí)間與MS-SSIM大致相同,速度均落后于其他方法。CGDR算法運(yùn)行速度慢的原因可能是在特征提取的過(guò)程中,對(duì)特征空間的維度控制的不夠低,每一幅失真圖像要提取14維特征向量,并且不僅需要在空間域中提取圖像特征,還要將圖像轉(zhuǎn)變?yōu)镈CT系數(shù)以及分解為DOG子帶來(lái)反映其頻率特征,所以導(dǎo)致其運(yùn)算效率受到影響。雖然平均運(yùn)算時(shí)間相對(duì)較高,但CGDR算法與其他八種方法相比保持了最高的預(yù)測(cè)精度。
表4 TID2013數(shù)據(jù)庫(kù)上九種FR-IQA方法的平均運(yùn)行時(shí)間
Tab.4 Average running time of nine FR-IQA methodsin TID2013 database
FR-IQA算法平均運(yùn)行時(shí)間/sSSIM0.049 7MS-SSIM0.095 3IW-SSIM0.561 3FSIMc0.176 8GMSD0.052 5VSI0.257 6SC-QI0.092 7DOG-SSIM0.067 7CGDR0.561 4
本文提出了一種基于視覺(jué)感知高度相關(guān)圖像質(zhì)量評(píng)價(jià)模型CGDR。該模型在考慮圖像色度特征的同時(shí),使用改進(jìn)后的梯度計(jì)算方法提取圖像的空域梯度特征,并聯(lián)合DOG頻域特征以及CSF特征,從而充分模擬人眼對(duì)視覺(jué)場(chǎng)景的感知機(jī)制。在四個(gè)數(shù)據(jù)庫(kù)上進(jìn)行的實(shí)驗(yàn)表明,與主流FR-IQA方法相比,所提出的CGDR算法具有更高的預(yù)測(cè)精度和更強(qiáng)的魯棒性,能夠與人眼主觀感知保持高度一致性。