張 寅,呂向陽,閆鈞華,馬 越,侯 平,王高飛
(1.南京航空航天大學(xué)空間光電探測與感知工業(yè)和信息化部重點(diǎn)實(shí)驗(yàn)室,江蘇南京 211106;2.南京航空航天大學(xué)航天學(xué)院,江蘇南京 211106)
隨著科技的發(fā)展與時(shí)代的進(jìn)步,人們對于圖像質(zhì)量水平有著越來越高的需求,無論是在光學(xué)遙感領(lǐng)域、醫(yī)療衛(wèi)生領(lǐng)域還是生活?yuàn)蕵奉I(lǐng)域,高質(zhì)量的圖像都能給我們帶來極大的幫助與便利,因此,對圖像的質(zhì)量水平進(jìn)行評價(jià)已成為當(dāng)前科學(xué)研究的一個(gè)重要課題。
目前,無參考圖像質(zhì)量評價(jià)方法主要分為兩類[1],一類是基于特征提取的方法,如:胡義坦等人[2]針對彩色圖像,基于邊緣檢測算法和圖像亮度特征,評價(jià)圖像的失真程度。該算法對于壓縮失真的評價(jià)效果較差。賀勇潔等人[3]基于波前理論,建立像差模型,評價(jià)失真圖像質(zhì)量水平。閆鈞華等人[4]融合圖像的多元特征,對失真遙感圖像進(jìn)行有效評價(jià)。另一類為基于深度學(xué)習(xí)的方法[5],如:Yi 和Hua 等人提出了OGIQA 算法,基于圖像的梯度信息和AdaBoosting 神經(jīng)網(wǎng)絡(luò)來預(yù)測圖像分?jǐn)?shù)[6]。Kim Jongyoo 等人提出DIQA 算法,利用卷積神經(jīng)網(wǎng)絡(luò)對圖像質(zhì)量進(jìn)行評價(jià)[7]。Zhang Yin 等人提出FDSVIQA 算法,融合了圖像統(tǒng)計(jì)視覺特征和卷積神經(jīng)網(wǎng)絡(luò)深度特征,具有較高的主客觀一致性[8]。
基于深度學(xué)習(xí)的方法通常需要復(fù)雜的網(wǎng)絡(luò)設(shè)計(jì)和龐大的訓(xùn)練數(shù)據(jù)庫,且訓(xùn)練時(shí)間較長,因此,文中基于融合空域和頻域特征的方法對失真圖像進(jìn)行質(zhì)量評價(jià)。文中融合36 維空域特征向量和6 維頻域特征向量構(gòu)建了42 維的圖像特征向量,其中為4 維空域特征向量,為32 維空域特征向量。
文中提出的融合空域和頻域特征的SFIQA 方法框圖如圖1 所示。首先對失真圖像分別提取36 維空域特征向量和6維頻域特征向量。提 取的方法是對失真圖像進(jìn)行可操控金字塔分解,得到0.5 倍原始圖像;分別對原始圖像和0.5 倍原始圖像這兩個(gè)尺度的圖像進(jìn)行局部亮度歸一化處理,得到歸一化亮度MSCN(Mean Subtracted Contrast Normalized)系數(shù);基于廣義高斯模型對MSCN 系數(shù)進(jìn)行擬合,得到空域特征;基于非對稱的廣義高斯模型擬合4 個(gè)方向相鄰MSCN系數(shù)乘積,得到空域特征。提取的方法:對失真圖像進(jìn)行可操控金字塔分解,得到0.5 倍原始圖像和0.25 倍原始圖像;分別對原始圖像、0.5 倍原始圖像和0.25 倍原始圖像3 個(gè)尺度的圖像進(jìn)行分割操作,得到8×8 的圖像塊;做離散余弦變換,得到每個(gè)圖像塊的DCT 系數(shù);對DCT 系數(shù)進(jìn)行局部頻域熵計(jì)算,得到頻域特征。然后融合36 維空域特征向量和6 維頻域特征向量,構(gòu)建42 維的圖像特征向量。最后利用SVM 對42 維的圖像特征向量進(jìn)行訓(xùn)練與預(yù)測,輸出SFIQA 評分。
圖1 SFIQA方法框圖
失真圖像相較于未失真的參考圖像,其空間信息會發(fā)生明顯的改變,因此,利用圖像的空域特征,能夠?qū)D像的失真程度做出判定。文中算法分別在原始圖像和0.5 倍原始圖像兩個(gè)尺度的圖像上,提取4 維GGD 特征和32 維AGGD 特征[9],構(gòu)建36 維的空域特征向量
從LIVE 數(shù)據(jù)庫中,任意選取不同失真程度的圖像,計(jì)算其MSCN 系數(shù)分布,如圖2 所示。圖2 表明,隨機(jī)選取的6 幅圖像MSCN 系數(shù)分布形狀有著顯著的區(qū)別,因此,采用圖像的MSCN 系數(shù)可以反映其失真程度。
圖2 不同失真程度圖像的MSCN系數(shù)分布
廣義高斯模型GGD 的定義如下:
文中利用α和σ2來表征圖像的MSCN 系數(shù)分布,即空域GGD 特征,α和σ2的取值范圍都為(0,3)。在原始圖像和0.5 倍原始圖像這兩個(gè)尺度上分別提取圖像的空域GGD特征,記為=(f1,f2,???,f4)。GGD 特征內(nèi)每個(gè)元素的具體表達(dá)含義如表1 所示。
表1 GGD特征內(nèi)元素表達(dá)含義
用非對稱的廣義高斯模型AGGD 對4 個(gè)方向上相鄰MSCN 系數(shù)乘積進(jìn)行擬合,得到空域AGGD 特征。這4 個(gè)方向分別為水平方向H、豎直方向V、主對角線方向D1和次對角線方向D2,其具體表達(dá)式如式(3)~(6)所示:
從LIVE 數(shù)據(jù)庫中,任意選取不同失真程度圖像的H、V、D1、D2的直方圖分布如圖3 所示。圖3 表明,不同失真程度圖像的H、V、D1、D2和原始圖像的H、V、D1、D2,其分布形狀有著顯著的區(qū)別,并且產(chǎn)生了不同的左右不對稱現(xiàn)象,因此采用圖像的H、V、D1、D2可以反映其失真程度。
圖3 不同失真程度圖像的H、V、D1、D2的直方圖分布
利用非對稱性廣義高斯分布AGGD 對圖像的H、V、D1、D2進(jìn)行擬合,AGGD 分布的定義如下:
式(7)中,α是形狀參數(shù),是左方差,是右方差。μ是均值參數(shù),定義如下:
文中利用α、μ、來表征圖像的H、V、D1、D2分布,即空域AGGD 特征,α、μ、的取值范圍都為(0,3)。在原始圖像和0.5 倍原始圖像這兩個(gè)尺度上分別提取圖像的空域AGGD 特征,記為=(f5,f6,???,f36)。AGGD 特征內(nèi)每個(gè)元素具體表達(dá)含義如表2 所示。
表2 AGGD特征內(nèi)元素表達(dá)含義
圖像的頻域特征是從圖像的頻譜圖上提取的,頻譜圖包含了大量特征信息,圖像失真會造成頻譜圖特征信息的變化。因此,利用圖像的頻域特征對圖像的失真程度作出判定。文中算法分別對原始圖像、0.5 倍原始圖像和0.25 倍原始圖像3 個(gè)尺度的圖像進(jìn)行圖像分割操作,得到8×8 的圖像塊,然后做DCT 變換,得到各圖像塊的DCT 系數(shù),最后計(jì)算DCT系數(shù)的局部頻域熵[10],構(gòu)建6 維的頻域特征向量
為了減少變換系數(shù)的邊緣塊效應(yīng),對每個(gè)圖像塊的DCT 系數(shù)C作標(biāo)準(zhǔn)化處理,其概率分布表達(dá)式如式(11)所示:
則圖像塊的局部頻域熵為:
從LIVE 數(shù)據(jù)庫中,任意選取不同失真程度圖像頻域熵值的直方圖分布如圖4 所示。圖4 表明,不同失真程度圖像的頻域熵值和原始圖像的頻域熵值,其分布形狀有著顯著的區(qū)別,因此采用圖像的頻域熵值可以反映其失真程度。
圖4 原始圖像和不同失真程度圖像頻域熵值的直方圖分布
文中利用均值和偏度來表征圖像頻域熵值的直方圖分布,即頻域特征,均值和偏度的取值范圍為(-4,5)。在原始圖像、0.5 倍原始圖像和0.25 倍原始圖像3 個(gè)尺度上分別提取圖像的頻域特征,記為=(f37,f38,???,f42) 。頻域特征內(nèi)每個(gè)元素具體表達(dá)含義如表3 所示。
表3 頻域特征內(nèi)元素表達(dá)含義
文中基于SVM 實(shí)現(xiàn)無參考圖像質(zhì)量評分[11]。將36 維空域特征和6 維頻域特征線性融合,歸一化為(-1,1)后輸入到SVM 中進(jìn)行訓(xùn)練評分。
文中算法在訓(xùn)練過程中,首先從訓(xùn)練集圖像中提取得到歸一化后的42 維特征向量,然后將特征向量與對應(yīng)的失真類型標(biāo)簽label 和主觀分?jǐn)?shù)DMOS(Differential Mean Opinion Score)進(jìn)行組合,得到訓(xùn)練樣本數(shù)據(jù),將訓(xùn)練數(shù)據(jù)分別輸入SVM 分類器與SVM 評分器中進(jìn)行訓(xùn)練,最終通過多次訓(xùn)練得到最優(yōu)SVM 評分器。將測試集中的失真圖像輸入到最優(yōu)SVM 評分器中,得到待評價(jià)失真圖像的客觀評分SFIQA。
為驗(yàn)證文中提出的SFIQA 的主客觀一致性,分別在LIVEMD 數(shù)據(jù)庫[12]和RBORSID 數(shù)據(jù)庫[13]上進(jìn)行實(shí)驗(yàn)。將文中方法與其他無參考評價(jià)方法進(jìn)行對比,驗(yàn)證算法性能。實(shí)驗(yàn)中使用的算法性能驗(yàn)證指標(biāo)分別為均方誤差RMSE、線性皮爾斯系數(shù)LPCC、斯皮爾曼系數(shù)SROCC 和肯德爾系數(shù)KROCC。文中實(shí)驗(yàn)環(huán)境如下:E5-2620 處理器,操作系統(tǒng)為Win7,實(shí)驗(yàn)軟件為MATLAB。
文中算法對LIVEMD 數(shù)據(jù)庫圖像進(jìn)行測試,將SFIQA 評分與主觀分?jǐn)?shù)DMOS 進(jìn)行回歸擬合,得到SFIQA 方法的主客觀一致性評價(jià)值。
如圖5 所示,從LIVEMD 數(shù)據(jù)庫中任意選取3 幅參考圖像對應(yīng)的3 幅失真圖像,計(jì)算出每幅失真圖像的SFIQA 評分和主觀分?jǐn)?shù)DMOS。圖5 表明,對于LIVEMD 數(shù)據(jù)庫遙感圖像,SFIQA 評分和主觀分?jǐn)?shù)DMOS 相差不大,且基本保持一致的單調(diào)性,文中提出的SFIQA 方法具有較高的主客觀一致性。
圖5 SFIQA方法的主客觀一致性
文中選擇7 種不同的評價(jià)方法:SSEQ[10]、BRISQUE[14]、BLIINDS-II[15]、BIQA[16]、OGIQA[6]、DIQA[7]、FDSVDIQA[8]與該文SFIQA 方法進(jìn)行主客觀一致性對比,實(shí)驗(yàn)結(jié)果如表4 所示。
表4 在LIVEMD數(shù)據(jù)庫上不同評價(jià)方法的性能對比
表4 表明,在LIVEMD 數(shù)據(jù)庫上,F(xiàn)DSVDIQA 和DIQA 兩種基于深度學(xué)習(xí)的圖像質(zhì)量評價(jià)方法的評價(jià)指標(biāo)高于傳統(tǒng)基于特征提取的評價(jià)方法。但是,基于深度學(xué)習(xí)的方法需要更大量的樣本,訓(xùn)練時(shí)間更長,效率比傳統(tǒng)方法低。文中方法需要的訓(xùn)練樣本少,訓(xùn)練時(shí)間較短。在傳統(tǒng)的基于圖像特征的評價(jià)方法中,文中SFIQA 方法有3 項(xiàng)指標(biāo)處于第一的位置,只有LPCC 指標(biāo)略低于BRISQUE 方法,說明SFIQA 方法具有較高的主客觀一致性。
圖6 為8 種評價(jià)方法中性能較好的4 種評價(jià)方法的擬合散點(diǎn)圖。圖6 表明,文中提出的SFIQA 方法相較于其他方法,散點(diǎn)分布更為集中,且基本處于擬合曲線附近,SFIQA 方法的主客觀一致性較高。
圖6 在LIVEMD數(shù)據(jù)庫上不同評價(jià)方法的擬合散點(diǎn)圖
將文中的SFIQA 方法與6 種不同的評價(jià)方法在RBORSID 數(shù)據(jù)庫上進(jìn)行性能對比,結(jié)果如表5 所示。
表5 在RBORSID數(shù)據(jù)庫上不同評價(jià)方法的性能對比
表5 表明,在RBORSID 數(shù)據(jù)庫上,基于深度學(xué)習(xí)的評價(jià)方法FDSVDIQA 的評價(jià)指標(biāo)高于傳統(tǒng)的基于特征提取的評價(jià)方法。但是,基于深度學(xué)習(xí)的方法需要更大量的樣本,訓(xùn)練時(shí)間更長,效率比傳統(tǒng)方法低。文中方法需要的訓(xùn)練樣本少,訓(xùn)練時(shí)間較短。在這6 種傳統(tǒng)的評價(jià)方法中,文中SFIQA 方法有4 項(xiàng)指標(biāo)都處于第一的位置,說明SFIQA 方法具有較高的主客觀一致性。
圖7 為上述7 種評價(jià)方法中性能較好的4 種評價(jià)方法的擬合散點(diǎn)圖。圖7 表明,在4 種評價(jià)方法中,BLIINDS-II 方法的散點(diǎn)分布最分散,文中提出的SFIQA 方法散點(diǎn)分布最集中,且基本處于擬合曲線附近,SFIQA 方法的主客觀一致性較高。
圖7 在RBORSID數(shù)據(jù)庫上不同評價(jià)方法的擬合散點(diǎn)圖
文中提出的無參考圖像質(zhì)量評價(jià)SFIQA 方法融合了圖像的36 維空域特征和6 維頻域特征,為了確定這兩種特征的作用,分別在LIVEMD 數(shù)據(jù)庫和RBORSID 數(shù)據(jù)庫上進(jìn)行了消融實(shí)驗(yàn)。在消融實(shí)驗(yàn)中僅使用空域特征或僅使用頻域特征,其主客觀一致性評價(jià)結(jié)果如表6 所示。
表6 在LIVEMD和RBORSID數(shù)據(jù)庫上的消融實(shí)驗(yàn)結(jié)果
表6 表明,僅使用空域特征的評價(jià)方法性能優(yōu)于僅使用頻域特征的評價(jià)方法,在整體方法中空域相較于頻域特征發(fā)揮了更大的作用。融合了空域和頻域特征的SFIQA 方法,在整體上優(yōu)于僅使用空域特征和僅使用頻域特征的評價(jià)方法,擁有更高的主客觀一致性。
將文中提出的SFIQA 方法和基于深度學(xué)習(xí)的FDSVDIQA 方法在LIVEMD 數(shù)據(jù)庫和RBORSID 數(shù)據(jù)庫上進(jìn)行計(jì)算時(shí)間對比實(shí)驗(yàn)。SFIQA 方法的計(jì)算時(shí)間為提取特征和訓(xùn)練1 000 次再評價(jià)的總時(shí)間;FDSVDIQA 方法的計(jì)算時(shí)間為網(wǎng)絡(luò)訓(xùn)練1 000 次再評價(jià)的總時(shí)間。實(shí)驗(yàn)結(jié)果如表7 所示。
表7 計(jì)算時(shí)間實(shí)驗(yàn)結(jié)果
表7 表明在相同數(shù)據(jù)樣本庫下,文中提出的SFIQA 方法比FDSVDIQA 方法計(jì)算時(shí)間縮短一半以上,具有更高的計(jì)算效率[17-19]。
文中提出的SFIQA 方法融合了圖像的空域特征和頻域特征,既能發(fā)揮空域特征便于表征圖像全局紋理、邊緣細(xì)節(jié)和形狀輪廓的優(yōu)勢,又能發(fā)揮頻域特征易于表征圖像局部灰度梯度變化特點(diǎn)的優(yōu)勢,提高了無參考圖像質(zhì)量評分的精度。將文中SFIQA 方法與其他性能良好的無參考圖像質(zhì)量評價(jià)方法在LIVEMD 數(shù)據(jù)庫和RBORSID 數(shù)據(jù)庫上進(jìn)行了主客觀一致性比較實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明SFIQA 方法具有很高的主客觀一致性。