趙 月 王來花 王偉勝 喬麗娟 阮 泉
(曲阜師范大學(xué)軟件學(xué)院 山東 曲阜 273165)
文字作為傳輸信息最重要的載體,一直以來是人們獲取信息的重要途徑,但隨著數(shù)字圖像的出現(xiàn)和發(fā)展,平面圖像給人們帶來了文字無法直接展示的視覺信息,極大地豐富了人們的生活[1]。平面圖像可以給人們帶來更好的視覺體驗,可以更加真實地再現(xiàn)生活中的場景。圖像在電子商務(wù)、醫(yī)學(xué)診斷、智慧教育等各個領(lǐng)域都占有重要地位。它成為了人們獲取信息、表達(dá)信息和傳遞信息不可或缺的一部分。在圖像的采集、傳輸[2]、存儲和處理過程中,會出現(xiàn)模糊等一系列失真問題。高斯模糊會使得圖像中的對象不突出,嚴(yán)重的模糊失真無法辨別圖像中的細(xì)節(jié)。高斯模糊看起來像是通過半透明玻璃看圖像的效果,這將使圖像中的對象不夠突出,嚴(yán)重的模糊失真將使圖像中的細(xì)節(jié)變得難以辨認(rèn),因此圖像質(zhì)量評價已成為重要的研究課題。
在圖像信息工程領(lǐng)域,如何高效、系統(tǒng)地評價模糊畸變圖像,引起了越來越多學(xué)者的關(guān)注[3]。Ferzli等[4]將明顯模糊的概念集成到概率求和模型中。Narvekar等[5]利用概率模型來估計檢測圖像中每個邊緣模糊的概率。Mitta等[6]推導(dǎo)出了一個盲目的IQA模型,它只利用自然圖像中觀察到的統(tǒng)計規(guī)律的可測量偏差,而沒有對人評定的失真進(jìn)行培訓(xùn),而且確實沒有任何暴露于扭曲的圖像。Leclaire等[7]提出全局相位一致性,對清晰度指數(shù)及其簡化版本的了解更深入。Cao等[8]提出了高斯模糊圖像的無參考清晰度度量。Li等[9]和Yue等[10]利用改進(jìn)的局部二值模式(Local binary pattern,LBP)提取特征來構(gòu)建預(yù)測模型。Gu等[11]對模糊和噪聲混合失真圖像的質(zhì)量進(jìn)行評價。文獻(xiàn)[12]提出了一種新的靜止圖像無參考模糊指數(shù),該指數(shù)基于以下觀察結(jié)果:在不同程度模糊的圖像版本之間可能很難感知。Li等[13]提出了盲圖像模糊評估離散Tchebichef矩的快速算法。Marziliano等[14]利用Sobel算子檢測垂直邊緣,并采用垂直邊緣的寬度來表征圖像的清晰度。上述方法在圖像質(zhì)量評價方面取得了一定的成果,有的還成為了指導(dǎo)立體圖像[15-18]質(zhì)量評價的重要依據(jù)。但是大多數(shù)情況下獲取原始參考視圖具有一定難度,而且針對模糊圖像邊緣檢測算子Sobel無法準(zhǔn)確提取圖像中的邊緣。
本文通過對圖像上采樣和下采樣來度量圖像的自相似性,解決了無法獲得原始參考視圖這一問題。將所得的上采樣和下采樣圖片利用分水嶺算法標(biāo)記出連通域,從而計算連通域的密度差值。之后通過Tamura紋理特征模型和拉普拉斯算子分別度量圖像的粗糙度和清晰度。最后利用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練來預(yù)測高斯模糊圖像的質(zhì)量分?jǐn)?shù)。通過在LIVE II、TID2013數(shù)據(jù)庫上的實驗表明了本文算法表現(xiàn)優(yōu)于常用的評價方法。
本文建立了一個無參考的高斯模糊圖像的質(zhì)量評價模型,將失真圖像輸入模型,通過對高斯模糊失真圖像特征進(jìn)行提取,然后用建立的BP神經(jīng)網(wǎng)絡(luò)預(yù)測出圖像的質(zhì)量分?jǐn)?shù)。本文的具體結(jié)構(gòu)框圖如圖1所示,具體步驟如下。
圖1 本文方法框架圖
步驟一將失真圖像上采樣和下采樣,對所得的兩幅圖像分別提取連通域,對兩圖像的連通域進(jìn)行差值運算從而得到密度差值,并將其作為特征1。
步驟二特征2是Tamura紋理特征中的粗糙度。
步驟三利用拉普拉斯算子提取圖像的清晰度,作為特征3。
步驟四將特征1、特征2、特征3作為輸入進(jìn)行BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練和預(yù)測,最終輸出圖片的質(zhì)量分?jǐn)?shù)。
步驟五通過衡量標(biāo)準(zhǔn)對所得分?jǐn)?shù)以及模型的好壞進(jìn)行評價。
像素的灰度值可以很好地反映圖像中的信息,一幅清晰圖像中的顏色要比模糊圖像中顏色更加多樣化。圖2給出了6種不同模糊程度的圖片,圖3給出了這6種圖片對應(yīng)的灰度直方圖。由圖3不難發(fā)現(xiàn)圖像越模糊,圖像灰度直方圖中顏色變化范圍就越小。因此可以結(jié)合分水嶺算法根據(jù)灰度值的不同,將圖像按照區(qū)域進(jìn)行分割,標(biāo)記出連通域?;叶戎底兓秶蟮膱D像,單位區(qū)域內(nèi)顏色更加多樣化,連通域的數(shù)量更多。從而根據(jù)連通域的密度衡量圖像的模糊程度。
圖2 不同模糊等級的圖像
圖3 對應(yīng)的灰度直方圖
圖像的放大和縮小不會顯著改變像素分布。當(dāng)圖像尺寸增大時,構(gòu)成圖像的像素的可見性將變高[19]。受結(jié)構(gòu)相似算法原理的啟發(fā),本文對失真圖像2倍上采樣獲得放大圖像I,同時對其2倍下采樣獲得縮小圖像I′,利用兩幅圖中連通域[20]的密度來衡量圖片的失真情況。
(1) 通過模擬浸入過程,將I和I′中灰度值相同的區(qū)域進(jìn)行分割,從而在邊界處形成分水嶺,計算公式如下:
T[n]={(x,y)|I(x,y) (1) T′[n]={(x,y)|I′(x,y) (2) 式中:T[n]是I中位于平面I(x,y)=n下方的點的坐標(biāo)集;T′[n]是I′中位于平面I′(x,y)=n下方的點的坐標(biāo)集;根據(jù)實驗篩選設(shè)置n=1。 (2) 分別標(biāo)記T[n]和T′[n]中的連通域: Yk=(Yk-1⊕τ)∩T[n]k=1,2,… (3) (4) (3) 從圖4中可以觀察到標(biāo)記出的連通域,不難發(fā)現(xiàn)不同程度的模糊,圖片中連通域的密集程度是不同的,圖片越模糊,圖片中連通域的密集程度越小。因此,本文用圖像中連通域的密度來表示圖片的模糊程度: (5) (6) 式中:A是連通域的總數(shù);M和N分別代表圖像的長和寬;Ti代表了第i個連通域;B是上采樣圖片I中連通域的密度;B′是下采樣圖片I′中連通域的密度。 圖4 圖2中圖像的連通區(qū)域 (4) 將上采樣和下采樣后的連通域密度做差,用差值Q1衡量失真圖的模糊程度: Q1=B-B′ (7) 圖5給出了圖2中6幅圖片的DMOS值和Q1的柱狀圖。DMOS值越大代表圖片的質(zhì)量越好,可以看出兩者具有一致性,說明連通域的差值可以很好地反映圖片的質(zhì)量,與人的主觀打分具有很好的一致性。 圖5 DMOS和Q1比較圖 粗糙度影響人類視覺對于紋理的感知[21],本節(jié)利用粗糙度指標(biāo)衡量模糊失真圖像的失真程度。 j-2m-1:j+2m-1-1)) (8) 式中:mean()是平均灰度函數(shù);i和j分別是圖像中像素點的橫縱坐標(biāo)。 (2) 對每個像素點分別計算水平和垂直方向上不重疊窗口之間的平均灰度值的差Ex和Ey: (9) (10) (3) 根據(jù)每個像素點使Ex和Ey取得最大值時的m,計算每個像素點的最優(yōu)窗口υbest: υbest(i,j)=2m (11) (4) 將所有像素點的最優(yōu)窗口的均值作為整幅圖片的粗糙度Q2: (12) 圖6給出了圖2中模糊圖片的DMOS值和Q2的柱狀圖。DMOS值越大代表圖片的質(zhì)量越好,可以看出兩者具有一致性,說明粗糙度可以很好地反映圖片的質(zhì)量,與人的主觀打分具有很好的一致性。 圖6 DMOS和Q2比較圖 拉普拉斯算子具有旋轉(zhuǎn)不變性,是一種二階微分算子,常用來進(jìn)行邊界檢測。在一幅未失真的圖片中,由于邊界明顯,因此用拉普拉斯算子計算后,二階導(dǎo)數(shù)偏大。相反,一幅模糊圖片的二階導(dǎo)數(shù)就會偏小。本文根據(jù)這個原理,用拉普拉斯算子來度量圖片的清晰度。 Q3=-4I0(i,j)+[I0(i+1,j)+I0(i-1,j)+ I0(i,j+1)+I0(i,j-1)] (13) 式中:Q3是圖片清晰度的質(zhì)量分?jǐn)?shù)。圖片越清晰,二階導(dǎo)數(shù)就會越大,Q3就越大。 圖7是DMOS值和Q3的直方圖。DMOS值越大,圖片質(zhì)量越好??梢钥闯?,清晰度可以很好地反映圖像的質(zhì)量,并且與主觀評分具有良好的一致性。 圖7 DMOS和Q3的比較圖 根據(jù)對連通域、粗糙度和清晰度的分析和度量,本文利用BP神經(jīng)網(wǎng)絡(luò)建立高斯模糊圖像質(zhì)量評價模型,來預(yù)測最終圖像的質(zhì)量。 BP神經(jīng)網(wǎng)絡(luò)是一種監(jiān)督訓(xùn)練多層網(wǎng)絡(luò)的算法,通過學(xué)習(xí)能夠使輸出結(jié)果的誤差平方和達(dá)到最小值。其計算過程由正向和反向組成[22]。信號首先從輸入層正向傳播,在輸出層得到輸出結(jié)果,通過代價函數(shù)求得與期望值的誤差。再通過隱含層反向傳播,獲得各隱含層的誤差信號,并通過梯度下降法反向計算誤差信號從而不斷地修正各隱層的權(quán)值。 本文將數(shù)據(jù)分為訓(xùn)練、測試兩類,其中訓(xùn)練數(shù)據(jù)占80%,測試數(shù)據(jù)占20%。為了保證實驗的有效性,隨機(jī)對數(shù)據(jù)劃分,并將訓(xùn)練次數(shù)重復(fù)500次,最后將所得結(jié)果的中值作為該模型的輸出值。圖8給出了本文方法所采用的BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)圖。密度差、粗糙度和清晰度是輸入層輸入的3個特征(特征1、特征2和特征3),經(jīng)過隱含層,到達(dá)輸出層,經(jīng)過反復(fù)的訓(xùn)練,最終得出失真圖像對應(yīng)的質(zhì)量得分。 圖8 神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)圖 在實驗過程中選用LIVE II數(shù)據(jù)庫[23]和TID2013數(shù)據(jù)庫[24]兩個數(shù)據(jù)庫進(jìn)行測試。其中,LIVE II數(shù)據(jù)庫中包含29幅參考圖像,779幅失真圖像。此外,數(shù)據(jù)庫中還給出了失真圖像對應(yīng)的DMOS值。TID2013數(shù)據(jù)庫包含25幅參考圖像和3 000幅扭曲圖像(25幅參考圖像×24種扭曲類型×5種扭曲級別)。所有的圖像都以位圖格式保存在數(shù)據(jù)庫中,沒有任何壓縮。此外,為了驗證本文方法的有效性,本文采用了SRCC、PLCC和RMSE三個評價參數(shù)作為衡量標(biāo)準(zhǔn)。SRCC和PLCC的范圍是[0,1],值越大代表算法性能越好,RMSE范圍是[0,∞],值越小代表算法性能越好。 為了探究數(shù)據(jù)集的劃分對實驗結(jié)果的影響。將LIVE II數(shù)據(jù)庫和TID2013數(shù)據(jù)庫中的高斯模糊圖片按照10% ∶90%、20% ∶80%、30% ∶70%、40% ∶60%、50% ∶50%、60% ∶40%、70% ∶30%、80% ∶20%和90% ∶10%比例劃分,分別計算出SRCC的值。在圖9中,橫坐標(biāo)代表訓(xùn)練集的比例,縱坐標(biāo)代表500次SRCC實驗結(jié)果的中值,黑色線(圖中上方線)代表在LIVE II數(shù)據(jù)庫上的表現(xiàn),灰色線(圖中下方線)代表在TID2013數(shù)據(jù)庫上的表現(xiàn)??梢钥闯?,隨著訓(xùn)練集劃分比例的增加,SRCC的表現(xiàn)逐漸增強(qiáng)。在80% ∶20%和90% ∶10%比例劃分中實驗結(jié)果相差不大。因此在本次實驗中將失真圖像按照訓(xùn)練集80%,測試集20%的劃分比例,隨機(jī)劃分,重復(fù)500次,然后將結(jié)果的中值作為實驗的最終結(jié)果。 圖9 SRCC在訓(xùn)練集上的表現(xiàn)圖 為了進(jìn)一步證明結(jié)合密度差、粗糙度和清晰度這三個特征的必要性,本文給出了在LIVE II數(shù)據(jù)庫和TID2013數(shù)據(jù)庫上的散點圖,分別如圖10和圖11所示。數(shù)據(jù)分布越接近虛線,預(yù)測分?jǐn)?shù)與主觀分?jǐn)?shù)有更好的一致性,從而預(yù)測分?jǐn)?shù)越接近于人眼觀察分?jǐn)?shù)。 在圖10中,連通域特征相比于粗糙度和清晰度,與主觀分?jǐn)?shù)有更好的一致性。進(jìn)一步觀察圖10(d),將三個特征融合后,比通過單一特征預(yù)測的質(zhì)量分?jǐn)?shù)有更好的一致性。在圖11中,單一特征預(yù)測的分?jǐn)?shù)點較為零散地分布在虛線周圍,而融合三個特征后,圖中分?jǐn)?shù)點較為緊湊的分布在虛線周圍。綜上所述,融合三個特征的表現(xiàn)明顯優(yōu)于單一特征,而且與主觀評分的一致性更好。 (a) 連通域 (b) 粗糙度 (c) 清晰度 (b) 三部分圖10 在LIVE II數(shù)據(jù)集上的散點圖 (c) 清晰度 (b) 三部分圖11 在TID2013數(shù)據(jù)集上的散點圖 為了進(jìn)一步驗證本文方法的優(yōu)越性,在表1和表2中進(jìn)一步給出了不同度量在LIVE II數(shù)據(jù)庫和TID2013數(shù)據(jù)庫上的PLCC、SRCC、RMSE值。數(shù)據(jù)一致表明,通過BP神經(jīng)網(wǎng)絡(luò)預(yù)測出的質(zhì)量分?jǐn)?shù),遠(yuǎn)遠(yuǎn)超過簡單的線性組合三部分。 表1 在LIVE II數(shù)據(jù)庫上的結(jié)果 表2 在TID2013數(shù)據(jù)庫上的結(jié)果 為了充分驗證本文算法的有效性,本文進(jìn)一步將其與通用的質(zhì)量評價方法和新近主流無參考模糊圖像質(zhì)量評價算法進(jìn)行比較,包括SISBLIM[11]、IL-NIQE[25]、NIQE[26]、NFERM[27]、JNB[4]、FISHbb[28]、LPC-SI[29]、MLV[30]、CPBD[5]、BIBLE[31]、文獻(xiàn)[32]算法、VFDP[33]、BIECON[34]、NLDOGM[35]、DPPNNP[36]、HOSA[37]、文獻(xiàn)[38]算法、文獻(xiàn)[38]+FT算法。 從表3中可以看出通用型算法的表現(xiàn)整體不及專用型算法。值得一提的是本文方法和BIBLE的PLCC均超過0.97,SRCC值位列首位,RMSE值僅次于NFERM,綜合三種衡量標(biāo)準(zhǔn),本文方法可以有效評價LIVE II數(shù)據(jù)庫中高斯模糊圖像的質(zhì)量。從表4中可以看出,兩類評價方法在TID2013數(shù)據(jù)庫上均未取得較好的表現(xiàn),整體數(shù)值低于表3中的數(shù)值。本文方法的PLCC和SRCC值均超過0.85,整體表現(xiàn)僅次于文獻(xiàn)[32]提出的算法。然而文獻(xiàn)[32]是通過構(gòu)建VGG與Inception相結(jié)合的深度網(wǎng)絡(luò),算法復(fù)雜度遠(yuǎn)高于本文。并且訓(xùn)練過程消耗的資源遠(yuǎn)高于本文采用的BP神經(jīng)網(wǎng)絡(luò)。此外,通用型算法VFDP的表現(xiàn)雖優(yōu)于本文方法,但需融合參考圖像與對應(yīng)失真圖像的亮度通道,而實際應(yīng)用中常常缺乏參考圖像。因此綜合算法復(fù)雜度及在數(shù)據(jù)庫上的表現(xiàn),本文方法更具有優(yōu)勢,更適合實際應(yīng)用。 表3 在LIVE II數(shù)據(jù)庫上的對比結(jié)果 表4 在TID2013數(shù)據(jù)庫上的對比結(jié)果 本文提出了一種高斯模糊圖像的無參考質(zhì)量評價方法。通過失真圖像的上采樣和下采樣,克服了全參考算法不能獲得高質(zhì)量參考視圖的缺點,因此更適合實際應(yīng)用。另外,通過對連通區(qū)域的分析,發(fā)現(xiàn)其與高斯模糊圖像的模糊度具有一致性,并通過實驗分析驗證了該方法的有效性。下一步的重點是研究一種沒有參考質(zhì)量的通用方法。1.2 粗糙度特征的提取與度量
1.3 清晰度特征的提取與度量
1.4 模型建立
2 實 驗
3 結(jié) 語