馬小雨,姜秀華
(中國(guó)傳媒大學(xué) 信息與通信工程學(xué)院,北京100024)
為了提高圖像質(zhì)量評(píng)價(jià)模型的預(yù)測(cè)準(zhǔn)確率,近年來(lái)越來(lái)越多的研究人員嘗試將機(jī)器學(xué)習(xí)及深度學(xué)習(xí)技術(shù)應(yīng)用到圖像質(zhì)量評(píng)價(jià)領(lǐng)域中并取得了非常好的效果[1-5]。但是這些質(zhì)量評(píng)價(jià)模型的準(zhǔn)確性僅在有限的幾個(gè)圖像數(shù)據(jù)庫(kù)中得到驗(yàn)證,如TID2013[6],CSIQ[7],LIVE[8]等。考慮到在實(shí)際應(yīng)用場(chǎng)景中,圖像質(zhì)量評(píng)價(jià)模型需要估計(jì)大量具有不同內(nèi)容、不同失真類型、不同失真程度的圖像的感知質(zhì)量,而由于機(jī)器學(xué)習(xí)中存在的過(guò)擬合,數(shù)據(jù)集效應(yīng)等問(wèn)題,這些基于機(jī)器學(xué)習(xí)的全參考圖像質(zhì)量評(píng)價(jià)模型(Full Reference Machine Learning based Image Quality Assessment,F(xiàn)RML-IQA)的準(zhǔn)確性必然會(huì)有一定程度下降。就我們所知,目前還沒(méi)有相關(guān)文獻(xiàn)闡述FRML-IQA模型在實(shí)際應(yīng)用場(chǎng)景中的準(zhǔn)確性具體降低了多少、是否顯著等問(wèn)題。
本文通過(guò)大量主觀實(shí)驗(yàn),建立一個(gè)包含多達(dá)60幅原始圖像的圖像數(shù)據(jù)庫(kù)CUC2018,由于其圖像內(nèi)容豐富程度遠(yuǎn)高于目前主流的圖像數(shù)據(jù)庫(kù)(TID2013包含25幅原始圖像,LIVE包含29幅原始圖像,CSIQ包含30幅原始圖像),CUC2018被用來(lái)模擬實(shí)際應(yīng)用場(chǎng)景中可能出現(xiàn)的圖像內(nèi)容。通過(guò)TID2013或CISQ訓(xùn)練得到的FRML-IQA模型,將在CUC2018圖像數(shù)據(jù)庫(kù)中進(jìn)一步測(cè)試其預(yù)測(cè)準(zhǔn)確性,從而估計(jì)各FRML-IQA模型的泛化能力。
后文的實(shí)驗(yàn)結(jié)果表明FRML-IQA模型的泛化能力較差,在CUC2018中的預(yù)測(cè)準(zhǔn)確性和傳統(tǒng)的圖像質(zhì)量評(píng)價(jià)模型(如MAD[6],F(xiàn)SIM[9]等)相比并沒(méi)有顯著性差別,并沒(méi)有被用于實(shí)際的圖像質(zhì)量評(píng)價(jià)場(chǎng)景中的價(jià)值。
本文的主要結(jié)構(gòu)如下,第一節(jié)主要介紹圖像數(shù)據(jù)庫(kù)CUC2018的建立方法;第二節(jié)主要對(duì)現(xiàn)存的FRML-IQA模型進(jìn)行總結(jié),設(shè)計(jì)了3種不同的FRML-IQA模型框架以及相應(yīng)的27種FRML-IQA方法;第三節(jié)則利用CUC2018來(lái)測(cè)試這27種FRML-IQA模型的泛化能力,并和傳統(tǒng)的全參考圖像質(zhì)量評(píng)價(jià)算法進(jìn)行比較;第四節(jié)為分析和結(jié)論。
為了分析基于機(jī)器學(xué)習(xí)的圖像質(zhì)量評(píng)價(jià)模型(ML-IQA)的泛化能力,探究ML-IQA在實(shí)際應(yīng)用場(chǎng)景中的預(yù)測(cè)準(zhǔn)確度,本文建立了CUC2018數(shù)據(jù)庫(kù)來(lái)模擬實(shí)際應(yīng)用場(chǎng)景中可能出現(xiàn)的各種各樣的圖片內(nèi)容。為了模擬實(shí)際應(yīng)用場(chǎng)景的特點(diǎn),CUC2018滿足以下要求:
(1)真實(shí)應(yīng)用場(chǎng)景中需要對(duì)大量不同內(nèi)容的圖像進(jìn)行質(zhì)量評(píng)價(jià),因此CUC2018數(shù)據(jù)庫(kù)包含的原始圖像數(shù)量要遠(yuǎn)大于目前主流圖像數(shù)據(jù)庫(kù)。
(2)CUC2018應(yīng)包含盡可能多的圖像類型,如人物,風(fēng)景,建筑,高/低飽和度圖像,高/低空間復(fù)雜度圖像等;盡可能多的拍攝方式,如特寫、中景等。
因此本文利用相機(jī)拍攝、互聯(lián)網(wǎng)下載等方式采集了60幅高清晰度原始圖像,這些圖像的部分縮略圖如圖1所示:
圖1 CUC2018數(shù)據(jù)庫(kù)中部分圖像內(nèi)容
我們用顏色飽和度均值(Saturation Mean)和空間復(fù)雜度(Spatial Information)兩個(gè)指標(biāo)來(lái)衡量數(shù)據(jù)庫(kù)所包含圖像的豐富程度,其中顏色飽和度均值通過(guò)將圖像轉(zhuǎn)換至HSV空間并計(jì)算S分量的均值得出;空間復(fù)雜度通過(guò)對(duì)圖像亮度分量進(jìn)行索貝爾濾波并計(jì)算濾波后圖像的平方和得到。CUC2018數(shù)據(jù)庫(kù)和TID2018數(shù)據(jù)庫(kù)各原始圖像的SM-SI分布情況如圖2所示,可以看到新建立的CUC2018數(shù)據(jù)庫(kù)的圖像內(nèi)容要比TID2013更加豐富。
圖2 CUC2018數(shù)據(jù)庫(kù)和TID2013數(shù)據(jù)庫(kù)的圖像內(nèi)容豐富程度比較
對(duì)采集的60幅原始圖像分別進(jìn)行四種失真程度,四種失真類型(JPEG壓縮、JPEG2000壓縮、高斯模糊、白噪聲)的失真處理,將得到960幅失真圖像。在符合ITU-R BT500[10]的主觀評(píng)價(jià)實(shí)驗(yàn)室中,我們組織20名打分人員利用單刺激質(zhì)量標(biāo)度法[10]對(duì)各失真圖像的質(zhì)量進(jìn)行估計(jì),最后利用文獻(xiàn)[11]設(shè)計(jì)的數(shù)據(jù)處理方法得到各失真圖像的主觀質(zhì)量分?jǐn)?shù)(Mean Opinion Score,MOS)。
由于目前并沒(méi)有一種全參考圖像質(zhì)量評(píng)價(jià)算法(Full Reference Image Quality Assessment,F(xiàn)R-IQA)能夠?qū)λ惺д骖愋偷馁|(zhì)量評(píng)價(jià)準(zhǔn)確度都優(yōu)于其它FR-IQA,因此研究人員嘗試?yán)脵C(jī)器學(xué)習(xí)的方法將若干預(yù)測(cè)性能較好的FR-IQA算法的輸出進(jìn)行綜合,從而得到更加準(zhǔn)確的質(zhì)量估計(jì)分?jǐn)?shù)。
我們對(duì)目前的基于機(jī)器學(xué)習(xí)的全參考圖像質(zhì)量評(píng)價(jià)方法(FRML-IQA)進(jìn)行總結(jié),設(shè)計(jì)了三種FRML-IQA框架,其中框架1(FRML1)類似文獻(xiàn)[2]設(shè)計(jì)的架構(gòu),利用機(jī)器學(xué)習(xí)將若干全參考算法的得分直接進(jìn)行綜合;框架2(FRML2)類似文獻(xiàn)[3]設(shè)計(jì)的架構(gòu),將原始圖像和失真圖像進(jìn)行多通道分解,在各個(gè)通道上分別利用某種全參考算法(如SSIM[12]或FSIM等)計(jì)算各通道的質(zhì)量差異,最后將各通道的質(zhì)量差異利用機(jī)器學(xué)習(xí)的方法綜合成最終得分;框架3(FRML3)則是FRML1和FRML2的綜合,即原始圖像和失真圖像進(jìn)行多通道分解后,對(duì)每個(gè)通道都利用若干個(gè)全參考質(zhì)量評(píng)價(jià)算法對(duì)其進(jìn)行多維度的質(zhì)量預(yù)測(cè),再將各通道的多維度質(zhì)量估計(jì)值綜合,最后得到質(zhì)量分?jǐn)?shù)。
由于每一個(gè)框架可以利用不同的機(jī)器學(xué)習(xí)方法和多通道分解方法,因此各FRML-IQA框架可以有不同的實(shí)現(xiàn)方式,本文對(duì)27種ML-IQA算法進(jìn)行測(cè)試,他們的具體實(shí)現(xiàn)方式如表1所示:其中機(jī)器學(xué)習(xí)方法可以有支持向量回歸[13](Support Vector Regression,SVR)、神經(jīng)網(wǎng)絡(luò)[14](Neural Network,NN)、隨機(jī)森林[15](Random Forest,RF)三種不同選擇;多通道分解方法可以有小波變換[16](Digital Wavelet Transform,DWT)、高斯差分[17](Difference of Gaussian,DoG)、Log-Gabor(LG)[18]、可控金字塔分解[19](steerable Pyramid,Pyr)四種不同選擇。
表1中的命名規(guī)則如下,以(18)FRML3-DoG-RF為例,其中FRML3表示采用框架3的整體結(jié)構(gòu),以高斯差分(DoG)作為多通道分解方法,并以隨機(jī)森林(RF)作為回歸工具。
為了定量地探究各FRML-IQA算法的泛化能力,本文設(shè)計(jì)了如圖3所示的泛化能力驗(yàn)證流程。
我們分兩個(gè)階段對(duì)各FRML-IQA模型的泛化能力進(jìn)行探究。在第一階段,被測(cè)試的FRML-IQA模型在現(xiàn)存的數(shù)據(jù)集(TID2013或CSIQ)中進(jìn)行訓(xùn)練和測(cè)試,數(shù)據(jù)集(TID2013或CSIQ)被分成訓(xùn)練集(80%)和測(cè)試集(20%),各FRML-IQA模型首先在測(cè)試集進(jìn)行多次訓(xùn)練,由于支持向量回歸和神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)算法的性能對(duì)一些參數(shù)的取值較為敏感(如支持向量回歸中的懲罰參數(shù)C和核函數(shù)參數(shù)g,以及神經(jīng)網(wǎng)絡(luò)權(quán)重的初始值),各FRML-IQA模型在第一階段中被重復(fù)多次進(jìn)行訓(xùn)練和測(cè)試,從中取測(cè)試性能最好的模型參數(shù)作為最終參數(shù)。具體的說(shuō),對(duì)于SVR模型,采用網(wǎng)格搜索的方法選擇最優(yōu)的懲罰參數(shù)C和核函數(shù)參數(shù)g;神經(jīng)網(wǎng)絡(luò)模型分別采用大小為10,15,20,25的隱藏層并分別重復(fù)訓(xùn)練25 次;隨機(jī)森林模型分別采用100,150,200,250個(gè)決策樹(shù)并分別重復(fù)訓(xùn)練25次。
表1 3種FRML-IQA框架的不同實(shí)現(xiàn)方法
圖3 FRML-IQA模型的訓(xùn)練-測(cè)試-驗(yàn)證流程
在第二階段,各FRML-IQA選取在第一階段中測(cè)試性能最好的模型參數(shù),對(duì)CUC2018中的失真圖像質(zhì)量進(jìn)行預(yù)測(cè)打分,并同CUC2018的主觀數(shù)據(jù)對(duì)比得到預(yù)測(cè)性能。
各FRML-IQA模型在訓(xùn)練-測(cè)試數(shù)據(jù)庫(kù)中的測(cè)試性能以及在CUC2018中的驗(yàn)證性能如圖4所示。本文共采用皮爾遜線性相關(guān)系數(shù)(Pearson Linear Correlation Coefficient,PLCC)、斯皮爾曼等級(jí)相關(guān)系數(shù)(Spearman Rand order Coefficient Correlation Coefficient,SRCC)、肯德?tīng)柕燃?jí)相關(guān)系數(shù)(Kendall Rand order Coefficient Correlation Coefficient,KRCC)、均方誤差(Root Mean Square Error,RMSE)四種指標(biāo)來(lái)衡量各模型的預(yù)測(cè)性能。圖4中橫坐標(biāo)為各FRML-IQA模型(橫坐標(biāo)數(shù)字對(duì)應(yīng)于表1中各FRML-IQA模型的序號(hào)),左上,右上,左下、右下四圖分別反應(yīng)各模型同主觀數(shù)據(jù)的SRCC,KRCC,PLCC,RMSE。藍(lán)色帶加號(hào)線條表示各FRML-IQA模型在TID2013數(shù)據(jù)集中測(cè)試-訓(xùn)練時(shí)取得的最優(yōu)測(cè)試性能;紅色帶圓圈線條表示各FRML-IQA模型在TID2013數(shù)據(jù)庫(kù)中訓(xùn)練-測(cè)試并選取到最優(yōu)模型參數(shù)后,在CUC2018數(shù)據(jù)庫(kù)中的驗(yàn)證性能;黃色帶圓點(diǎn)線條表示各FRML-IQA模型在CSIQ數(shù)據(jù)庫(kù)中訓(xùn)練-測(cè)試時(shí)取得的最優(yōu)測(cè)試性能;紫色帶星號(hào)線條表示各FRML-IQA模型在CSIQ數(shù)據(jù)庫(kù)中訓(xùn)練-測(cè)試并選取到最優(yōu)模型參數(shù)后,在CUC2018數(shù)據(jù)庫(kù)中的驗(yàn)證性能。
圖4 各FRML-IQA模型的測(cè)試性能和驗(yàn)證性能
由圖4可以看到,無(wú)論采用何種FRML-IQA模型結(jié)構(gòu),F(xiàn)RML-IQA模型在驗(yàn)證集CUC2018中的預(yù)測(cè)準(zhǔn)確度要遠(yuǎn)遠(yuǎn)低于其在訓(xùn)練-測(cè)試集TID2013或CSIQ中的表現(xiàn)。進(jìn)一步地,我們選取這27個(gè)算法中表現(xiàn)最好的算法FRML3-DoG-SVR,將其性能和未采用機(jī)器學(xué)習(xí)的全參考算法(如SSIM,VIF等)進(jìn)行比較。其性能比較結(jié)果如表2所示。
表2FRML3-DoG-SVR和其它全參考算法的性能比較
續(xù)表
由表2可以得知,從數(shù)據(jù)上看FRML3_DoG_SVR的預(yù)測(cè)性能要略由于傳統(tǒng)不采用機(jī)器學(xué)習(xí)的全參考圖像質(zhì)量評(píng)價(jià)算法。但進(jìn)一步分析表明,這種輕微的預(yù)測(cè)準(zhǔn)確度提升是沒(méi)有統(tǒng)計(jì)顯著性的。
我們對(duì)各算法同主觀分?jǐn)?shù)的RMSE為樣本進(jìn)行顯著性分析,根據(jù)文獻(xiàn)[10],構(gòu)建如(1)所示的統(tǒng)計(jì)量,如果ξij的絕對(duì)值大于F(0.05,n1,n2)即1.124,則兩個(gè)算法的RMSE值的差別具有統(tǒng)計(jì)顯著性。
(1)
表2所示的16種算法相互間的顯著性差別如圖5所示。
圖5 各算法的RMSE顯著性分析,其中橫、縱坐標(biāo)的1~16分別表示PSNR,VIF,SSIM,GMSD,F(xiàn)SIM,MAD,VSI,PSNR-HVS,UQI,SR-SSIM,VSNR,IFC,IW-SSIM,MS-SSIM,SFF,F(xiàn)RML3_DoG_SVR
由圖5可以看到,盡管基于機(jī)器學(xué)習(xí)的全參考圖像評(píng)價(jià)模型FRML3_DoG_SVR的RMSE要低于其它算法,但是其RMSE值同MAD算法的RMSE值并沒(méi)有顯著性差別。也就是說(shuō),盡管基于機(jī)器學(xué)習(xí)模型的將多種現(xiàn)存算法(包括MAD)進(jìn)行非線性綜合后可以在訓(xùn)練集取得非常好的性能提升,但這種性能提升在驗(yàn)證集中并不明顯,其預(yù)測(cè)結(jié)果和主觀值的RMSE甚至同MAD相比沒(méi)有顯著性差別。
通過(guò)以上實(shí)驗(yàn)可以發(fā)現(xiàn),基于機(jī)器學(xué)習(xí)的全參考圖像質(zhì)量評(píng)價(jià)模型確實(shí)可以在訓(xùn)練集和測(cè)試集上取得很高的預(yù)測(cè)準(zhǔn)確性,但如果利用在給定數(shù)據(jù)庫(kù)(TID2013或CSIQ)中訓(xùn)練好的FRML-IQA模型去預(yù)測(cè)新的數(shù)據(jù)庫(kù)(如CUC2018)中失真圖像的質(zhì)量分?jǐn)?shù),F(xiàn)RML-IQA模型的預(yù)測(cè)準(zhǔn)確度明顯下降,甚至同MAD算法沒(méi)有顯著性差別。
也就是說(shuō),現(xiàn)有的FRML-IQA模型的泛化能力有限,很難被應(yīng)用于實(shí)際的圖像質(zhì)量評(píng)價(jià)場(chǎng)景中。因?yàn)樵谡鎸?shí)的圖像質(zhì)量評(píng)價(jià)場(chǎng)景中,質(zhì)量評(píng)價(jià)模型需要對(duì)大量沒(méi)有出現(xiàn)在訓(xùn)練集中的失真圖像進(jìn)行質(zhì)量估計(jì),而從實(shí)驗(yàn)結(jié)果來(lái)看,同MAD,F(xiàn)SIM相比,F(xiàn)RML-IQA模型顯然不具有明顯的優(yōu)勢(shì)。
因此研究人員在設(shè)計(jì)圖像質(zhì)量評(píng)價(jià)模型時(shí),可以將機(jī)器學(xué)習(xí)技術(shù)用于質(zhì)量相關(guān)特征的提取等方面,而應(yīng)盡量避免將帶有主觀分?jǐn)?shù)的圖像數(shù)據(jù)庫(kù)直接作為訓(xùn)練集。另外,如果必須將圖像數(shù)據(jù)庫(kù)直接作為訓(xùn)練集,也可采用弱監(jiān)督或有噪學(xué)習(xí)的訓(xùn)練方法來(lái)保證模型的泛化能力,我們將在后續(xù)工作中對(duì)其進(jìn)行詳細(xì)介紹。