于國慶 楊東瀚 睢丙東 李宏哲
摘?要:本文研究基于SRGAN改進(jìn)的人臉超分辨率重構(gòu)算法,在生成器網(wǎng)絡(luò)的殘差單元中加入了自注意力卷積模塊,以提高網(wǎng)絡(luò)訓(xùn)練中高頻特征提取能力,在判別器網(wǎng)絡(luò)中引入PatchGAN思想,強(qiáng)化判別器網(wǎng)絡(luò)對高頻特征細(xì)節(jié)的判別能力,關(guān)注更多的局部紋理細(xì)節(jié),提高重構(gòu)人臉圖像質(zhì)量。同時將WN層替換原有GAN中的BN層,在保證網(wǎng)絡(luò)訓(xùn)練速度的前提下提高網(wǎng)絡(luò)模型的穩(wěn)定性并恢復(fù)出更高質(zhì)量的人臉圖像。
關(guān)鍵詞:SRGAN;自注意力卷積模塊;PatchGAN[3]
人臉信息因其具有唯一性、普遍性等特點(diǎn),在視頻偵查、行動路徑追蹤以及身份信息對比等方面有著重要的研究意義。但是對于一些特殊環(huán)境如天氣、光照等造成的人臉圖像模糊等現(xiàn)象,影響因素導(dǎo)致后期對人員信息確認(rèn)的影響,本文通過結(jié)合深度學(xué)習(xí)理論與方法,對低分辨率人臉圖像的超分辨率重構(gòu)提出一種新的優(yōu)化算法。
1?生成對抗網(wǎng)絡(luò)的人臉圖像超分辨率重構(gòu)
SRGAN的提出是基于殘差網(wǎng)絡(luò)的圖像超分辨率重構(gòu)(SRResnet)的基礎(chǔ)上加入了判別網(wǎng)絡(luò)D,SRGAN由生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)組成,將低分辨率圖像作為生成網(wǎng)絡(luò)的輸入,輸出虛假的超分辨率圖像,然后將虛假的超分辨率和原始高分辨率圖像作判別網(wǎng)絡(luò)的為輸入、輸出判別結(jié)果,生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)互相對抗,當(dāng)判別網(wǎng)絡(luò)無法區(qū)分高分辨率圖像和虛假超分辨率圖像時,SRGAN就完成了重構(gòu)超分辨圖像任務(wù)。
2?改進(jìn)的人臉超分辨率重構(gòu)模型
2.1?生成器網(wǎng)絡(luò)的改進(jìn)
將SA卷積模塊加入生成器網(wǎng)絡(luò)的殘差單元中,面對人臉重構(gòu)領(lǐng)域?qū)τ诔叩娜四槇D像細(xì)節(jié)紋理的特征學(xué)習(xí)要求,有選擇性地關(guān)注人臉局部區(qū)域的重點(diǎn)信息,改善重構(gòu)出人臉圖像在獲取高感知質(zhì)量的同時存在的局部失真和偽影問題。同時網(wǎng)絡(luò)模型中所有BN都由WN層代替,針對傳統(tǒng)SRGAN模型中BN層雖然能解決網(wǎng)絡(luò)訓(xùn)練過程中訓(xùn)練數(shù)據(jù)分布的標(biāo)準(zhǔn)化,但是,在執(zhí)行重構(gòu)人臉圖像的任務(wù)中,BN層則是一把雙刃劍,BN層操作會破壞提取的人臉圖像特征映射分布,發(fā)生人臉圖像色彩會被歸一化、原本的對比度信息改變等問題。改進(jìn)的生成網(wǎng)絡(luò)模型如圖1所示:
2.2?改進(jìn)的判別器網(wǎng)絡(luò)
在判別器網(wǎng)絡(luò)部分,隨著生成網(wǎng)絡(luò)的對人臉圖像細(xì)節(jié)紋理部分學(xué)習(xí)能力的提升,判別網(wǎng)絡(luò)也需要同時增強(qiáng)對細(xì)節(jié)差異的判別能力,進(jìn)一步改進(jìn)重構(gòu)效果。故引入的PatchGAN的思想,且仍然選擇用WN層替換BN層操作?;赑atchGAN算法改進(jìn)的判別器網(wǎng)絡(luò)與傳統(tǒng)GAN網(wǎng)絡(luò)的判別器相比,并不是將輸入映射為一個實(shí)數(shù),而是映射為一個矩陣X的形式,矩陣中的每個元素對應(yīng)輸入N×N大小的Patch樣本塊為真的概率值,最后通過對由概率值組成的概率矩陣求均值得到判別器的最終輸出。改進(jìn)的判別器網(wǎng)絡(luò)模型如圖2所示:
3?損失函數(shù)構(gòu)建
損失函數(shù)的定義對于GAN網(wǎng)絡(luò)的性能優(yōu)劣不言而喻,SRGAN的特點(diǎn)之一就是引進(jìn)了損失感知函數(shù),由此提升了超分辨率之后的細(xì)節(jié)信息。SRGAN將對抗損失作為優(yōu)化目標(biāo),并且用VGG特征圖譜的損失函數(shù)取代了以MSE為基礎(chǔ)的內(nèi)容損失,整體的感知損失公式如式1所示,為內(nèi)容損失和對抗損失成分的加權(quán)和。
lSR=lSRX內(nèi)容損失+10-3lSRGen對抗損失(1)
式中,lSRX為內(nèi)容損失,10-3lSRGen表示對抗損失。
4?仿真實(shí)驗(yàn)和結(jié)果分析
4.1?實(shí)驗(yàn)環(huán)境
本文的基于SRGAN改進(jìn)的人臉圖像超分辨率重構(gòu)算法的實(shí)驗(yàn)環(huán)境如表1所示:
4.2?實(shí)驗(yàn)數(shù)據(jù)集處理
本文實(shí)驗(yàn)的數(shù)據(jù)集選自擁有202599張人臉圖像的CelebA(CelebFacesAttributes)公開數(shù)據(jù)集。在全部數(shù)據(jù)集中選擇出20000張人臉圖像,前19500張做訓(xùn)練集使用(圖像編號00001~019500),剩下的500張做測試集使用(圖像編號?019501~020000)。
4.3?訓(xùn)練過程與參數(shù)設(shè)置
本文實(shí)驗(yàn)?zāi)P偷母叻直媛蕡D像采用128*128尺寸大小的圖像塊,低分辨率人臉圖像32*32尺寸大小的圖像塊,采用OpenCV的雙三次插值算法進(jìn)行下采樣預(yù)處理得到,采樣因子r=4,每批次送入模型中訓(xùn)練的人臉圖像為16張,生成網(wǎng)絡(luò)中殘差模塊的殘差單元的個數(shù)仍為16個,選用Adam優(yōu)化器最小化損失函數(shù),參數(shù)設(shè)置為β1=0.9。首先確定對SRResnet網(wǎng)絡(luò)的參數(shù),訓(xùn)練學(xué)習(xí)率為1e3,更新迭代次數(shù)為105。在訓(xùn)練SRGAN網(wǎng)絡(luò)模型時,將預(yù)訓(xùn)練基于MSE損失函數(shù)的SRResnet模型的權(quán)重初始化SRGAN生成器的權(quán)重,避免訓(xùn)練SRGAN時出現(xiàn)局部最優(yōu)的情況。對基于SRGAN改進(jìn)的人臉超分辨率重構(gòu)模型訓(xùn)練時,初始的學(xué)習(xí)率設(shè)置為1e3、1e4,更新迭代次數(shù)為205。重復(fù)訓(xùn)練生成器網(wǎng)絡(luò)和判別器網(wǎng)絡(luò),直至判別器無法判斷重構(gòu)出圖像是否為真?zhèn)危?xùn)練結(jié)束。
4.4?主客觀評價標(biāo)準(zhǔn)
主觀評價主要是通過人眼觀測來判斷圖像的質(zhì)量。評價人員使用五級損傷評分尺度,對給定的圖像進(jìn)行打分,然后取平均分(Mean?Opinion?Score,MOS)。主觀評價可以真實(shí)反映圖像的視覺效果,而且沒有技術(shù)障礙。
客觀評價是指利用一定的數(shù)學(xué)公式定量的分析重建圖像的質(zhì)量。雖然客觀評價計(jì)算過程復(fù)雜,但比主觀評價說服力更強(qiáng)。主要有峰值信噪比(Peak?Signal?to?Noise?Ratio,PSNR)、結(jié)構(gòu)相似性(Structural?Similarity?Index,SSIM)以及特征相似度(Feature?Similarity?Index,F(xiàn)SIM)等方法,其中PSNR和SSIM是超分辨率重構(gòu)中常用的兩種客觀評價指標(biāo)。
4.5?實(shí)驗(yàn)結(jié)果分析
本文的實(shí)驗(yàn)將基于SRGAN改進(jìn)的人臉超分辨率重構(gòu)模型重構(gòu)的圖像和5種不同的圖像重構(gòu)模型生成圖像進(jìn)行對比試驗(yàn),分別為雙立方差值法(Bicubic)、SRCNN、VDSR、SRResnet、SRGAN,為保證實(shí)驗(yàn)結(jié)果在客觀和主觀評價標(biāo)準(zhǔn)的公平和準(zhǔn)確性,在其余5種圖像重構(gòu)模型訓(xùn)練以及測試時均采用實(shí)驗(yàn)數(shù)據(jù)集CelebA中的訓(xùn)練集和測試集??陀^評價法選擇PSNR和SSIM兩種客觀評價標(biāo)準(zhǔn)。主觀評價法挑選了測試集圖片中兩男兩女的歐美人臉重構(gòu)效果圖直觀展示效果,并采用MOS評價法根據(jù)多個評估者對相同重構(gòu)后的人臉圖像的不同打分取均值進(jìn)行判別。
如圖3所示,是部分測試集圖像在不同模型中重構(gòu)后的圖像對比。表2為低分辨人臉圖像在經(jīng)4倍上采樣,并且對重構(gòu)后的超分辨率人臉計(jì)算其PSNR和SSIM以及MOS值。
從圖3、表2所展示的圖像和定量評價結(jié)果,根據(jù)AVGPSNR和AVGSSIM兩項(xiàng)客觀評價指標(biāo)來看,Bicubic法重構(gòu)的人臉圖像效果最差,兩項(xiàng)指標(biāo)均為最低,視覺效果模糊。SRCNN在重構(gòu)人臉圖像質(zhì)量上略有提升,但是效果微乎其微,仍然伴有視覺模糊,人臉輪廓邊緣模糊等問題存在。SRResnet、SRGAN和本文改進(jìn)的重構(gòu)算法,均在圖像重構(gòu)質(zhì)量上有了明顯的提升。且SRResnet的值最高,但基于SRResnet重構(gòu)的人臉圖像在擁有非常高的PSNR和SSIM的時候,其主觀評價標(biāo)準(zhǔn)的MOS值卻低于SRGAN和本文改進(jìn)算法。主要是因SRResnet算法雖能獲得高感知質(zhì)量,但是重構(gòu)是會丟失一些高頻部分細(xì)節(jié),人臉圖像比較平滑,而SRGAN的結(jié)果則有更好的視覺效果。而本文改進(jìn)的算法在實(shí)驗(yàn)結(jié)果中,對于SRGAN獲得高感知質(zhì)量人臉的同時仍然伴有局部失真等缺陷進(jìn)行優(yōu)化改進(jìn),在客觀PSNR和SSIM及主觀MOS評分中都得到了提高。綜合MOS值考慮本文算法優(yōu)于其他5種算法。
結(jié)語
本文介紹了傳統(tǒng)的生成對抗網(wǎng)絡(luò)模型,并在傳統(tǒng)的生成對抗網(wǎng)絡(luò)模型的基礎(chǔ)上進(jìn)行了改進(jìn),融入了自注意力機(jī)制模塊和PatchGAN思想,并將原有BN層替換為WN層,在保證人臉圖像在重構(gòu)過程中不失真的同時提高了最終重構(gòu)的圖像質(zhì)量,綜合主客觀評價標(biāo)準(zhǔn)表現(xiàn)出了最佳的效果。
參考文獻(xiàn):
[1]陳剛,續(xù)磊.視頻監(jiān)控圖像偵查方法研究[J].中國人民公安大學(xué)學(xué)報:社會科學(xué)版,2012,28(3):120125.
[2]賈潔.基于生成對抗網(wǎng)絡(luò)的人臉超分辨率重建及識別[D].電子科技大學(xué),2018.
[3]Isola?P,Zhu?J?Y,Zhou?T,et?al.Imagetoimage?translation?with?conditional?adversarial?networks[C]//Proceedings?of?the?IEEE?conference?on?computer?vision?and?pattern?recognition.2017:1121134.
[4]LedigC,TheisL,HuszarF,eta?l.PhotorealisticSingleimagesuperresolution?Using?a?generative?adversarial?network[C]//Proceedings?of?the?IEEE?COnferenCe?0n?Computer?vision?and?pattern?recognition.2017:46814690.
作者簡介:于國慶(1969—?),男,副教授,碩士研究生導(dǎo)師,研究方向:計(jì)算機(jī)測控、電子信息技術(shù)應(yīng)用。
*通訊作者:楊東瀚(1995—?),男,碩士,研究方向:圖像處理、人臉超分辨率重構(gòu);睢丙東(1963—?),男,教授,研究方向:智能儀器儀表、計(jì)算機(jī)測控;李宏哲(1994—?),男,碩士,研究方向:圖像處理、運(yùn)動人體目標(biāo)檢測。