楊文雅,宋廣樂,崔超然,尹義龍,2
(1.山東財(cái)經(jīng)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,濟(jì)南 250014; 2.山東大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,濟(jì)南 250014)(*通信作者電子郵箱crcui@sdufe.edu.cn)
傳統(tǒng)的客觀圖像質(zhì)量評估方法主要關(guān)注在圖像的獲取、傳輸和存儲等過程中引入的不同類型的失真(如噪聲、扭曲、壓縮等)以及由此帶來的圖像質(zhì)量下降問題。隨著圖像采集設(shè)備的不斷升級和編解碼技術(shù)的快速進(jìn)步,普通圖像的失真問題目前已經(jīng)得到一定程度的緩解, 因此,一些研究者開始嘗試從美學(xué)的角度對圖像質(zhì)量進(jìn)行客觀評估,并提出了圖像美學(xué)質(zhì)量評估的概念。
圖像美學(xué)質(zhì)量評估旨在模擬人類視覺及審美思維,進(jìn)而對圖像進(jìn)行美學(xué)建模,使計(jì)算機(jī)能夠自動地對圖像的美學(xué)價(jià)值進(jìn)行定量的評價(jià)。伴隨計(jì)算機(jī)視覺和模式識別等技術(shù)的快速發(fā)展,圖像美學(xué)質(zhì)量評估技術(shù)已經(jīng)被應(yīng)用到多個(gè)領(lǐng)域,例如: 在圖像檢索系統(tǒng)中,考慮返回圖像的美學(xué)質(zhì)量,為用戶提供準(zhǔn)確且更有吸引力的檢索結(jié)果[1];針對用戶拍攝的關(guān)于同一場景的多張候選照片,篩選最具美感的作品保存和展示,合理地降低數(shù)據(jù)的存儲開銷以便節(jié)省存儲空間的成本[2];圖像美學(xué)質(zhì)量評估算法也可以部署在攝像機(jī)上,在用戶拍照過程中實(shí)時(shí)地分析取景內(nèi)容的美學(xué)質(zhì)量[3]。
如圖1所示,伴隨計(jì)算機(jī)視覺和模式識別等技術(shù)的快速發(fā)展,圖像美學(xué)質(zhì)量評估通常被簡化為一個(gè)分類問題,從而達(dá)到區(qū)分高美感圖像和低美感圖像的目的。許多數(shù)據(jù)驅(qū)動的方法[4-6]被相繼提出,核心在于提取和構(gòu)造有效的圖像特征,進(jìn)而利用模式識別技術(shù)建立圖像內(nèi)容表達(dá)和圖像美學(xué)判定之間的關(guān)聯(lián)。
圖1 圖像美學(xué)質(zhì)量評估示例
早期的圖像美學(xué)質(zhì)量評估研究主要以攝影中的美學(xué)規(guī)則為先驗(yàn)知識,人為地設(shè)計(jì)提取圖像的視覺特征,利用這些特征對高美感和低美感圖像進(jìn)行分類; 但是,研究人員在設(shè)計(jì)這些特征時(shí),需要有一定的攝影經(jīng)驗(yàn), 同時(shí),這些特征也無法全面地覆蓋所有實(shí)用的攝影規(guī)則,而且為了抽取它們往往需要付出巨大的計(jì)算開銷。近年來,伴隨深度學(xué)習(xí)在模式識別領(lǐng)域的興起,一些研究者開始嘗試?yán)蒙顚由窠?jīng)網(wǎng)絡(luò)自動地抽取圖像特征用于圖像美學(xué)質(zhì)量評估。
值得注意的是,不論是早期人工提取特征的方法還是當(dāng)前比較熱門的深度學(xué)習(xí)方法,在對圖像進(jìn)行美學(xué)質(zhì)量評估時(shí)都只考慮圖像視覺特征這一方面的信息; 然而,在實(shí)際生活中,在感受圖像的視覺美感之前,人們首先要理解他們所看到的圖像內(nèi)容[5]?,F(xiàn)有的大多數(shù)方法在進(jìn)行圖像美學(xué)質(zhì)量評估時(shí)并沒有考慮圖像的語義信息,如圖像的物體類別、場景類別,從而可能導(dǎo)致評估結(jié)果不準(zhǔn)確。針對該問題,本文提出了一種新穎的基于語義感知的圖像美學(xué)質(zhì)量評估方法。對于每一幅圖像,首先設(shè)計(jì)了3個(gè)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)來分別提取圖像的物體類別特征、場景類別特征以及美學(xué)特征;然后,將這3種特征輸入到一個(gè)高層次的混合網(wǎng)絡(luò)中以實(shí)現(xiàn)有效的特征融合;最后,利用融合后的網(wǎng)絡(luò)對圖像進(jìn)行美學(xué)質(zhì)量評估。
本文的主要貢獻(xiàn)如下:
1)提出了一種基于語義感知的圖像美學(xué)質(zhì)量評估方法,在圖像美學(xué)質(zhì)量評價(jià)過程中有效地引入圖像的語義理解信息。
2)采用遷移學(xué)習(xí)的思想分別提取圖像的物體信息和場景信息,并設(shè)計(jì)了一個(gè)高層混合網(wǎng)絡(luò)將這些信息與圖像的美學(xué)信息進(jìn)行有效的融合。
3)在不同數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文方法相比現(xiàn)有方法在分類準(zhǔn)確率等測度上有明顯提高。
早期的圖像美學(xué)質(zhì)量評估研究主要以攝影中的美學(xué)規(guī)則為先驗(yàn)知識,人為地設(shè)計(jì)提取圖像的視覺特征。例如,Datta等[7]率先提取了包括亮度、色彩分布、三分構(gòu)圖、景深等在內(nèi)的56種圖像特征,并結(jié)合特征選擇篩選了最有效的15種特征,利用這些特征對高美感和低美感圖像進(jìn)行分類;Ke等[8]提出了幾種用簡單性、對比度、亮度等表示圖像的特征[9-11],從圖像的布局、內(nèi)容和照明等方面構(gòu)建了一些高層次的可描述屬性; 顧婷婷等[12]從圖像主題和布局兩方面出發(fā),提出結(jié)合深淺景與構(gòu)圖的圖像美學(xué)質(zhì)量評估方法。
農(nóng)村資金互助社的管理人員多數(shù)沒有較高的金融知識水平,對專業(yè)知識的了解少之又少,不熟悉業(yè)務(wù),操作失誤時(shí)有發(fā)生。對于貸款過程來說,手續(xù)也較為簡單,沒有嚴(yán)格的規(guī)定制度,雖然滿足了絕大部分農(nóng)戶的貸款需求,但給儲戶帶來了更多的信貸危機(jī),沒有做到有效的監(jiān)督和管理。
不同于上述工作從整幅圖像中抽取特征的做法,一些研究者關(guān)注從圖像局部區(qū)域中抽取有效的特征用于圖像美學(xué)質(zhì)量評估, 例如:文獻(xiàn)[13]中提出利用模糊感檢測技術(shù)估計(jì)圖像的聚焦主體區(qū)域,從分離出的主體區(qū)域中提取特征,有效改善圖像美學(xué)質(zhì)量分類的效果;隨后,該研究團(tuán)隊(duì)分析了專業(yè)攝影照片的相關(guān)特點(diǎn),發(fā)現(xiàn)不同類別的圖像對應(yīng)不同的美學(xué)評價(jià)標(biāo)準(zhǔn),因而提出將圖像分為7個(gè)類別,針對每一類別的圖像分別提取不同的區(qū)域特征[2,14]。國內(nèi)研究方面,王偉凝等[15]通過顯著區(qū)域檢測將圖像劃分為整體區(qū)域和關(guān)鍵區(qū)域,在進(jìn)行美學(xué)質(zhì)量評估時(shí)抽取并融合圖像的低層視覺特征、高層美學(xué)特征和區(qū)域特征。
為了提升特征的判別性和魯棒性,基于中間語義特征的美學(xué)建模方法逐漸得到廣泛關(guān)注, 例如,Dhar等[9]首先利用訓(xùn)練數(shù)據(jù)提取圖像在布局、內(nèi)容、光照方面的中間視覺屬性(visual attribute),進(jìn)而再利用這些屬性實(shí)現(xiàn)對圖像美學(xué)質(zhì)量的判定;類似地,Marchesotti等[16]提出利用與圖像相關(guān)的文本信息來挖掘有效的中間視覺屬性;Zhang等[17]通過融合多種低層視覺特征構(gòu)造圖基元(graphlet)來描述圖像的空間結(jié)構(gòu),采用高斯混合模型學(xué)習(xí)圖基元的分布,并基于此實(shí)現(xiàn)圖像美學(xué)質(zhì)量評估。
近年來,深度學(xué)習(xí)在模式識別領(lǐng)域興起,一些研究者開始嘗試?yán)蒙顚由窠?jīng)網(wǎng)絡(luò)自動地抽取圖像特征用于圖像美學(xué)質(zhì)量評估。例如,Lu等[18]采用CNN來分別抽取圖像的局部特征和全局特征,并利用圖像的風(fēng)格和語義標(biāo)簽進(jìn)一步提升圖像美學(xué)質(zhì)量評估的性能。國內(nèi)研究方面,中國科學(xué)技術(shù)大學(xué)的田新梅研究組利用在大規(guī)模圖像數(shù)據(jù)庫上預(yù)訓(xùn)練得到的卷積神經(jīng)網(wǎng)絡(luò)模型來提取圖像特征,并將其與人工設(shè)計(jì)的特征進(jìn)行融合,用于高低美感圖像分類,取得了較好的效果[19];Wang等[20]提出基于并行CNN的圖像美感分類方法,從同一圖像的不同視角出發(fā),利用多個(gè)卷積神經(jīng)網(wǎng)絡(luò)自動完成特征學(xué)習(xí)。
總體而言,現(xiàn)有方法純粹基于圖像視覺內(nèi)容提取美學(xué)特征,而忽略了對圖像語義信息的理解; 與之相反,本文結(jié)合圖像的物體類別信息以及場景類別信息,提出了一種基于語義感知的圖像美學(xué)質(zhì)量評估方法。
基于語義感知的圖像美學(xué)質(zhì)量評估方法的思想是通過構(gòu)建一個(gè)由三層神經(jīng)網(wǎng)絡(luò)組成的混合網(wǎng)絡(luò),將圖像的美學(xué)信息、物體類別信息以及場景類別信息進(jìn)行融合后再對圖像進(jìn)行美學(xué)質(zhì)量評估。它的輸入是對每幅圖像提取的3種特征:1)物體類別特征,2)場景類別特征,3)美學(xué)特征。3種特征的提取都基于卷積神經(jīng)網(wǎng)絡(luò),并最終通過混合網(wǎng)絡(luò)進(jìn)行融合。
張量Xi表示一幅輸入圖像,yi表示該圖像的美學(xué)類別標(biāo)簽,yi∈{0,1}。具體來說,當(dāng)yi=1時(shí),認(rèn)為這是一幅高美感圖像;當(dāng)yi=0時(shí),認(rèn)為這是一幅低美感圖像。
本文采用深度神經(jīng)網(wǎng)絡(luò)作為方法的主框架,將圖像美學(xué)質(zhì)量評估看作一個(gè)二分類問題,故網(wǎng)絡(luò)的最后一層有2個(gè)神經(jīng)節(jié)點(diǎn),a=Φ(Xi;θ)表示它們的激活值,其中θ為模型參數(shù),利用softmax函數(shù)將激活值轉(zhuǎn)化為概率分布值:
(1)
本文采用監(jiān)督學(xué)習(xí)的方法來確定權(quán)重θ。假定有一組訓(xùn)練樣本D={(x1,y1),(x2,y2),…,(xN,yN)},其中N表示訓(xùn)練樣本的個(gè)數(shù)。在訓(xùn)練過程中的目標(biāo)是優(yōu)化以下?lián)p失函數(shù):
(2)
在網(wǎng)絡(luò)訓(xùn)練過程中,使用隨機(jī)梯度下降(Stochastic Gradient Descent, SGD)算法來求解上述優(yōu)化問題,進(jìn)而得到模型參數(shù)θ。
本文認(rèn)為在進(jìn)行圖像美學(xué)質(zhì)量評估時(shí),應(yīng)該充分考慮圖像的語義信息。為此,對于每一幅輸入圖像,分別提取其物體類別特征、場景類別特征以及美學(xué)特征。在此,本文使用ResNet50[21]卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行特征提取。它的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,首先是若干連續(xù)卷積層,緊接著為全局平均池化層,最后為全連接層,該網(wǎng)絡(luò)已被證明在很多計(jì)算機(jī)視覺分類任務(wù)中都取得較好性能。接下來,將對每種特征的提取作簡單介紹。
圖2 ResNet50網(wǎng)絡(luò)圖像特征提取及分類示例圖
對于每一幅圖像,物體類別特征旨在提取其在圖像美學(xué)評估中相關(guān)的物體信息。采用遷移學(xué)習(xí)的思想,利用由120萬幅圖像組成的并且具有1 000個(gè)物體類別的ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的ResNet50網(wǎng)絡(luò)模型來抽取每幅輸入圖像的物體類別特征,并將該模型最后完全連接層的輸出作為混合網(wǎng)絡(luò)的輸入,這樣對于每一幅圖像就得到了一個(gè)1 000維的物體類別特征。
對于每一幅圖像,場景類別特征旨在提取其在圖像美學(xué)評估中相關(guān)的場景信息。類似地,采用遷移學(xué)習(xí)的思想,利用由180萬幅圖像組成的并且具有365個(gè)場景類別的Place365數(shù)據(jù)集上預(yù)訓(xùn)練的ResNet50網(wǎng)絡(luò)模型來抽取每幅圖像的場景類別特征,并將該模型最后完全連接層的輸出作為混合網(wǎng)絡(luò)的輸入,這樣對于每一幅圖像就得到了一個(gè)365維的物體類別特征。
對于每一幅圖像,美學(xué)特征旨在提取其在圖像美學(xué)評估中相關(guān)的美學(xué)信息。利用在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的ResNet50模型架構(gòu),將其最后一層改為由2個(gè)神經(jīng)節(jié)點(diǎn)組成的全連接層,在AVA數(shù)據(jù)集[22]上利用反向傳播的方法將其訓(xùn)練為一個(gè)專門用來進(jìn)行美學(xué)分類的網(wǎng)絡(luò)模型,并在訓(xùn)練過程中更新其權(quán)重,這樣就生成了一個(gè)專門用于美學(xué)分類的新的ResNet50網(wǎng)絡(luò)模型,并將此模型倒數(shù)第二層的輸出作為混合網(wǎng)絡(luò)的輸入,這樣對于每一幅圖像就得到了一個(gè)2 048維的美學(xué)特征。
本文構(gòu)建了一個(gè)混合網(wǎng)絡(luò),如圖3所示。該網(wǎng)絡(luò)包含2個(gè)隱藏層和1個(gè)輸出層,它被設(shè)計(jì)用來融合以上提取的3種特征。首先,對3種輸入特征作降維處理, 對于物體類別特征和美學(xué)特征,通過全連接的方式將其饋送到有128個(gè)神經(jīng)節(jié)點(diǎn)的第一隱藏層;考慮到場景類別特征維度相對其他兩者較低,故通過全連接的方式將其饋送到有64個(gè)神經(jīng)節(jié)點(diǎn)的第一隱藏層;第一個(gè)隱藏層有助于保留每個(gè)特征的關(guān)鍵信息,并減少后續(xù)的計(jì)算負(fù)擔(dān)。其次,對所有特征的第一隱藏層的輸出由共同的全連接層進(jìn)行融合,該層共包含128個(gè)神經(jīng)節(jié)點(diǎn)。它可以被看作是一個(gè)共享嵌入式空間,將來自不同特征的信息組合為統(tǒng)一表示。最后,將第二個(gè)隱藏層的輸出作為綜合特征輸入到具有2個(gè)神經(jīng)節(jié)點(diǎn)的全連接層中,產(chǎn)生最終的預(yù)測美學(xué)分布。
在構(gòu)建混合網(wǎng)絡(luò)時(shí),使用Keras(https://github.com/fchollet/keras)的深度學(xué)習(xí)庫實(shí)施網(wǎng)絡(luò)培訓(xùn)和測試,使用Xavier[23]來初始化網(wǎng)絡(luò)權(quán)重,即所有的偏差均被初始化為零。為了解決過度擬合問題,從每個(gè)圖像或其水平翻轉(zhuǎn)中隨機(jī)抽取224×224的裁剪子圖像,使其每個(gè)像素減去在訓(xùn)練集上計(jì)算的像素平均值來對其作處理。對于最小批量隨機(jī)梯度下降(SGD)算法,將批量大小設(shè)置為16,所有層的初始學(xué)習(xí)率均為0.001,并且每當(dāng)驗(yàn)證集的損失函數(shù)值在10個(gè)epoch內(nèi)不再下降時(shí),學(xué)習(xí)率就變?yōu)樵鹊?.1倍。使用10-6的學(xué)習(xí)率衰減因子和0.9的動量。當(dāng)學(xué)習(xí)率下降到10-7時(shí),訓(xùn)練階段會提前停止。在測試時(shí),對每個(gè)測試圖像中的10個(gè)224×224裁剪子圖像進(jìn)行預(yù)測,并將所得平均值作為最終預(yù)測結(jié)果。
圖3 基于語義感知的混合網(wǎng)絡(luò)
本文對圖像美學(xué)評估的實(shí)驗(yàn)是在兩個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行的,即AVA[22]和CUHKPQ[2]。AVA數(shù)據(jù)集包含大約255 530幅圖像,每幅圖像平均得到210個(gè)美學(xué)評分,評分范圍從1分到10分。按照與之前研究相同的程序[5-6, 22,24]為每幅圖像分配一個(gè)二值美學(xué)標(biāo)簽。具體來說,平均評分小于5-δ的圖像被標(biāo)記為低美感圖像,平均評分大于5+δ的圖像被標(biāo)記為高美感圖像,其他被認(rèn)為是高低美感分類不明確的,并將其丟棄。在本文的實(shí)驗(yàn)中,取δ=1,隨機(jī)選取70%的圖像進(jìn)行訓(xùn)練,10%用于驗(yàn)證,剩下的用于測試。
CUHKPQ數(shù)據(jù)集由17 690幅圖像組成,分為7類,即動物、建筑、人類、風(fēng)景、夜晚、植物和靜物。在CUHKPQ數(shù)據(jù)集上,每個(gè)圖像已被10個(gè)不同觀眾中的至少8個(gè)標(biāo)記為高美感或低美感兩種標(biāo)簽。為了驗(yàn)證不同方法的泛化能力,按照文獻(xiàn)[25]的建議進(jìn)行了交叉評估。換言之,在AVA數(shù)據(jù)集上訓(xùn)練了一個(gè)模型,但同時(shí)在AVA和CUHKPQ數(shù)據(jù)集上進(jìn)行了測試,即CUHKPQ數(shù)據(jù)集僅用于測試。
本文采用分類準(zhǔn)確率來評價(jià)本文方法在圖像美學(xué)質(zhì)量評估中的表現(xiàn), 通過將閾值設(shè)為0.5的二值化的輸出結(jié)果與圖像的ground-truth二值美學(xué)標(biāo)簽相比較來獲得分類準(zhǔn)確率; 此外,由于正例和負(fù)例測試圖像之間的不平衡,繪制了刻畫分類性能的接受者操作特征(Receiver Operating Characteristic, ROC)曲線。為了定量比較不同的方法,本文還計(jì)算了ROC曲線下的面積(Area Under Curve, AUC)。
在此比較了本文方法SAAN(Semantic-sensed image Aesthetics Assessment Network)與幾種最先進(jìn)的圖像美學(xué)質(zhì)量評估方法。具體而言,對比方法包含以下幾種:
Customized[8]該方法從簡單性、對比度、亮度等角度采用7種特征來對圖像進(jìn)行美學(xué)質(zhì)量評估。
Generic[3]該方法利用通用視覺描述符(包括視覺詞和Fisher矢量)來預(yù)測圖像的美學(xué)類別。
Efficiency[26]該方法使用了幾種可以高效計(jì)算的手工美學(xué)特征。
DMA-Net[24]該方法利用從一個(gè)圖像中提取的多個(gè)補(bǔ)丁提出了一個(gè)深度多方面匯集網(wǎng)絡(luò)。
圖4繪制了AVA上不同方法的ROC曲線,表1列出了不同方法的分類準(zhǔn)確率和AUC方面的表現(xiàn), 可以看出,SAAN在不同指標(biāo)上優(yōu)于其他方法, 例如,它在分類準(zhǔn)確率和AUC方面的平均改善分別為5.6%和19.9%。此外,傳統(tǒng)的提取圖像特征的方法,如Customized、Generic和Efficiency,大大落后于基于深度模型的方法DMA-Net和SAAN。分析結(jié)果表明深度學(xué)習(xí)方法在圖像美學(xué)質(zhì)量評估任務(wù)中的潛力, 在基于深度模型的方法中,SAAN比以上最好方法DMA-Net在分類準(zhǔn)確率提升了2.5個(gè)百分點(diǎn)。一個(gè)可能的原因是SAAN從語義感知的角度出發(fā)對圖像進(jìn)行美學(xué)質(zhì)量評估,這在圖像美學(xué)質(zhì)量評估過程中起著至關(guān)重要的作用。
圖4 AVA上不同方法的ROC曲線
方法分類準(zhǔn)確率AUC方法分類準(zhǔn)確率AUCCustomized[8]0.8660.669DMA-Net[24]0.8700.807Generic[3]0.8020.671SAAN0.8950.877Efficiency[26]0.8170.567
CUHKPQ的比較結(jié)果分別顯示在圖5和表2中。正如預(yù)期的那樣,SAAN仍然取得最佳表現(xiàn)。值得注意的是,所有方法都是在AVA上進(jìn)行訓(xùn)練,在CUHKPQ上進(jìn)行測試。在這種情況下,其他方法的分類準(zhǔn)確率急劇下降,而SAAN保持相對穩(wěn)定的表現(xiàn)。更確切地說,SAAN在CUHKPQ的分類準(zhǔn)確率上最小提升為19個(gè)百分點(diǎn)。結(jié)果表明本文提出的圖像美學(xué)評估方法具有優(yōu)越的泛化能力。對于表2中Customized和Generic方法性能較差的原因,簡要分析如下:首先,Customized和Generic是傳統(tǒng)的分類方法,并不是深度學(xué)習(xí)的方法;其次,在CUHKPQ數(shù)據(jù)集上驗(yàn)證的是模型的泛化能力,由于模型是在AVA數(shù)據(jù)上訓(xùn)練得到的,故其在CUHKPQ數(shù)據(jù)集上性能表現(xiàn)較其在AVA數(shù)據(jù)集上差些。
方法分類準(zhǔn)確率AUC方法分類準(zhǔn)確率AUCCustomized[8]0.2560.524DMA-Net[24]0.5070.815Generic[3]0.2650.507SAAN0.6970.875Efficiency[26]0.3340.418
圖像美學(xué)質(zhì)量評估在圖像處理和計(jì)算機(jī)視覺領(lǐng)域一直是一個(gè)長期存在的問題。本文提出了基于語義感知的圖像美學(xué)質(zhì)量評估方法,從一個(gè)新的視角對該問題進(jìn)行了研究。實(shí)驗(yàn)證明,基于語義感知的圖像美學(xué)質(zhì)量評估方法相較于現(xiàn)有的僅僅基于圖像的視覺信息的美學(xué)評估方法在分類準(zhǔn)確率上有了很大提升。未來,在對圖像進(jìn)行美學(xué)評估時(shí),也應(yīng)考慮人類認(rèn)知和行為的相互影響,可以從他們的社交行為中感知用戶對圖像的認(rèn)知,進(jìn)一步更好地完成圖像美學(xué)評估這項(xiàng)工作。此外,未來研究也可以從實(shí)現(xiàn)個(gè)性化圖像美學(xué)評估方面著手,針對具有不同審美偏好的用戶對同一圖像進(jìn)行不同評估。對于這個(gè)問題,如何理解個(gè)人用戶的審美偏好是一項(xiàng)艱巨的挑戰(zhàn)。