摘要: 為有效解決復(fù)雜環(huán)境下人臉超分辨率特征恢復(fù)的問題, 提出一種全新的人臉超分辨率網(wǎng)絡(luò). 該網(wǎng)絡(luò)通過融合3D渲染先驗知識和雙重注意力機制, 增強了對人臉空間位置和整體結(jié)構(gòu)的理解, 同時提高了細節(jié)信息的恢復(fù)能力. 在數(shù)據(jù)集CelebAMask-HQ上的實驗結(jié)果表明: 對放大4倍下采樣的人臉, 該算法在峰值信噪比和結(jié)構(gòu)相似性上達到28.76 dB和0.827 5; 對放大8倍下采樣的人臉, 峰值信噪比和結(jié)構(gòu)相似性評價指標達到26.29 dB和0.754 9. 與同類的SAM3D算法相比, 該算法在處理放大4倍下采樣時的峰值信噪比和結(jié)構(gòu)相似性上分別提升了4.09,1.93個百分點, 在處理放大8倍下采樣時上述兩個指標分別提升了2.02,4.54個百分點. 從而證明該算法的優(yōu)越性, 也表明在實際應(yīng)用中人臉的超分辨率恢復(fù)能獲得更真實和清晰的視覺效果.
關(guān)鍵詞: 機器視覺; 人臉超分辨率; 3D先驗; 注意力機制
中圖分類號: TP391" 文獻標志碼: A" 文章編號: 1671-5489(2024)04-0895-10
Facial Super-resolution Reconstruction AlgorithmBased on 3D" Prior Features
YAO Hanqun1, LIU Guangwen1, WANG Chao2, YANG Yining3, CAI Hua1, FU Qiang4
(1. School of Electronic Information Engineer, Changchun University of Science and Technology, Changchun 130022, China;2. National and Local Joint Engineering
Research Center for Space Optoelectronics Technology,Changchun University of Science and Technology, Changchun 130022, China;3. National Key Laboratory of E
lectromagnetic Space Security, Tianjin 300308, China;4. School of Opto-Electronic Engineer, Changchun University of Science and Technology, Changchun 130022, China)
Abstract: In order to effectively solve" the problem of facial super-resolution feature recovery in complex environments, we proposed a novel facial super-resolution network. By integrating 3D rendering prior knowledge and a dual attention mechanism, the network enhanced the understanding of the facial spatial position and overall structure while improving the ability to recover detailed information. The experimental results on the CelebAMask-HQ dataset show that" the proposed algorithm achieves peak signal-to-noise ratio and" structural similarity
of 28.76 dB" and" 0.827 5 for" downsampled faces magnified by 4 times, and" 26.29 dB and 0.754 9 for downsampled faces magnified by 8 times."" Compared with the similar SAM3D algorithm, the proposed algorithm improves the peak signal-to-noise ratio and" structural similarity by" 4.09 and 1.93 percentage points when dealing with" 4 times" downsampling, and by 2.02 and 4.54 percentage points" when dealing with 8 times downsampling, respectively.
This proves the superiority of the proposed" algorithm and" also indicates that" facial super-resolution recovery can achieve more realistic and clear visual effects in practical applications.
Keywords: machine vision; facial super-resolution; 3D prior; attention mechanism
0 引 言
人臉超分辨率技術(shù)目前已被廣泛關(guān)注和應(yīng)用. 在生物識別技術(shù), 如人臉識別[1]中, 尤其是在處理低分辨率或質(zhì)量較差的圖像時, 超分辨率技術(shù)通過提高圖像質(zhì)量和增強細節(jié)顯著提高了識別精度. 此外, 該技術(shù)在視頻監(jiān)控[2]中也得到應(yīng)用, 常用于從低質(zhì)量的圖像或視頻中識別和提取面部信息. 人臉超分辨率技術(shù)在醫(yī)療診斷和治療領(lǐng)域[3], 例如皮膚病診斷和視網(wǎng)膜掃描等方面也發(fā)揮了重要作用. 但處理極度模糊或嚴重壓縮的圖像, 以及在復(fù)雜背景和不同光照條件下恢復(fù)面部細節(jié)等問題仍面臨技術(shù)的挑戰(zhàn). 因此, 研究改進現(xiàn)有的超分辨率算法, 可進一步提高人臉圖像的質(zhì)量和識別精度.
人臉超分辨率方法主要分為三類: 基于插值的人臉超分辨率[4-6]、 基于學(xué)習(xí)的人臉超分辨率[7-9]和深度學(xué)習(xí)的人臉超分辨率[10-11]. 基于插值的方法利用人臉圖像的空間冗余性進行超分辨率, 但難以復(fù)原高頻細節(jié); 基于學(xué)習(xí)的方法通過訓(xùn)練數(shù)據(jù)學(xué)習(xí)人臉的高頻信息, 以提高重建質(zhì)量; 深度學(xué)習(xí)的人臉超分辨率方法則通過卷積神經(jīng)網(wǎng)絡(luò)等復(fù)雜模型進一步提升人臉超分辨率的性能. 隨著深度學(xué)習(xí)方法的應(yīng)用, 人臉超分辨率技術(shù)已能通過神經(jīng)網(wǎng)絡(luò), 利用局部的外觀特性, 構(gòu)建出低分辨率和高分辨率人臉圖像之間的映射關(guān)系. 但大多數(shù)深度學(xué)習(xí)方法不能很好地利用面部結(jié)構(gòu)和身份信息. 作為一種特定領(lǐng)域的超分辨率技術(shù), 人臉超分辨率重建可用于恢復(fù)丟失的面部細節(jié). 其成功的關(guān)鍵是如何有效利用人臉的先驗知識, 從1D向量如身份和屬性, 到2D圖像如面部地標、 面部熱圖和解析圖, 再到3D模型. 因此, 發(fā)現(xiàn)新的人臉先驗知識, 如何建?;虮硎具@些先驗知識, 以及如何將這些信息有機地集成到訓(xùn)練框架中, 都值得進一步研究.
為解決上述問題, 本文提出一種結(jié)合3D人臉先驗知識的人臉超分辨率網(wǎng)絡(luò), 算法流程如圖1所示. 該網(wǎng)絡(luò)的核心是將3D人臉先驗與超分辨率重建網(wǎng)絡(luò)相融合, 并添加雙重注意力模塊, 以實現(xiàn)對人臉空間位置和整體結(jié)構(gòu)更準確地把握, 突出細節(jié)恢復(fù). 這樣的設(shè)計不僅在復(fù)雜環(huán)境中提高了面部特征恢復(fù)的精度, 也在多尺度上優(yōu)化了圖像質(zhì)量.
1 相關(guān)工作
人臉超分辨率技術(shù)旨在從低分辨率人臉圖像中恢復(fù)高分辨率細節(jié), 在現(xiàn)實生活中應(yīng)用廣泛, 如視頻監(jiān)控、 人臉識別、 虛擬現(xiàn)實等. 目前, 大部分研究工作集中在提高圖像質(zhì)量、 增強面部特征細節(jié)、 處理面部遮擋和姿態(tài)變化等問題上. Dong等[12]提出了一種端到端的深度學(xué)習(xí)單圖像超分辨率方法SRCNN, 其具有輕量級結(jié)構(gòu)、 卓越的恢復(fù)質(zhì)量, 并實現(xiàn)了快速在線應(yīng)用, 但在處理遮擋、 姿態(tài)變化等復(fù)雜場景時可能產(chǎn)生偽影和失真; Kim等[13]提出了一種高精度單圖像超分辨率方法, 采用類VGG-net深度卷積網(wǎng)絡(luò), 通過增加網(wǎng)絡(luò)深度顯著提高準確性, 但可能導(dǎo)致過擬合和計算量過大; 為解決面部超分辨率問題, Chen等[14]提出了一種可端到端訓(xùn)練的FSRNet和FSRGAN, 利用面部標記熱圖和解析圖作為幾何先驗, 并引入了新評估指標, 但對于遮擋和姿態(tài)變化圖像的處理仍有限; Zhang等[15-16]提出了殘差密集網(wǎng)絡(luò)RDN和深度殘差通道注意力網(wǎng)絡(luò)RCAN, 分別針對深度卷積神經(jīng)網(wǎng)絡(luò)的層次特征和訓(xùn)練難題進行了優(yōu)化, 并引入通道注意力機制, 通過考慮通道間的相互依賴自適應(yīng)地調(diào)整通道特征. 但在處理復(fù)雜場景時上述方法仍面臨局限性, 而且通道注意力可能無法充分捕獲空間信息; Wang等[17]提出了一種基于空間特征變換(spatial feature transform, SFT)的方法, 通過語義分割概率圖調(diào)整中間層特征, 以實現(xiàn)自然、 逼真紋理的恢復(fù); Hu等[18]提出了一種結(jié)合3D面部先驗的人臉超分辨率方法SAM3D, 首次將超分辨率與人臉3D先驗信息融合, 并嘗試利用空間注意力解決超分辨率問題, 推動了單圖像超分辨率領(lǐng)域的發(fā)展, 實現(xiàn)了更高的準確性和更逼真的紋理恢復(fù). 但現(xiàn)有的人臉超分辨率方法在處理遮擋、 姿態(tài)變化等復(fù)雜場景時仍存在一定的局限性, 例如可能產(chǎn)生模糊、 細節(jié)丟失、 結(jié)構(gòu)扭曲、 質(zhì)感不自然等問題. 因此, 本文提出一種結(jié)合高維先驗知識與雙重注意力的人臉超分辨率算法.
2 算法設(shè)計
本文提出一種新的人臉超分辨率重建算法, 該算法的核心是引入人臉的3D先驗信息, 系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示. 首先, 根據(jù)UNET解碼器對多尺度面部特征進行提取, 利用預(yù)訓(xùn)練的網(wǎng)絡(luò)權(quán)重預(yù)測低分辨率人臉圖像的Basel人臉模型(Basel face model, BFM)[19]系數(shù), 進而實現(xiàn)3D Morphable Model算法[20](3DMM)的三維重建. 本文將該三維重建的渲染模型與多尺度圖像一同輸入到空間特征變換模塊, 從而獲得各對應(yīng)尺度的3D面部先驗. 其次, 將這些3D先驗特征與先驗網(wǎng)絡(luò)相結(jié)合, 在不同的尺度上并入3D先驗信息. 最后, 在網(wǎng)絡(luò)的末端采用空間注意力和通道注意力機制, 以有效整合網(wǎng)絡(luò)的信息, 最終得到超分辨率人臉圖像.
2.1 3D人臉先驗
2.1.1 3D人臉重建算法
人臉的三維模型可通過從二維圖像中提取關(guān)鍵信息進行重建, 3DMM能根據(jù)特定的面部屬性, 如面部特征和身份紋理等參數(shù)獲得3D面部先驗. 這種方法充分利用了人臉的獨特屬性, 從而使重建過程更準確、 有效. 在3D面部重建過程中, 3DMM結(jié)合了從2D圖像中提取的關(guān)鍵信息, 以生成具有細致形狀和紋理特征的3D面部模型. 重建得到的三維面部模型可保留原始圖像中的面部特征, 呈現(xiàn)出清晰銳利的面部成分, 使其在視覺上更真實、 生動.為獲得精確的3D渲染人臉, 本文對3DMM模型進行改進, 通過訓(xùn)練ResNet-50網(wǎng)絡(luò)預(yù)測BFM中的形狀參數(shù)、 紋理參數(shù)和光照參數(shù), 然后利用這些參數(shù)回歸3DMM模型, 獲得3D系數(shù)向量,
構(gòu)建出精確的面部結(jié)構(gòu)定位的3D面部圖像. 3D系數(shù)向量表示為C=(α,β,δ,γ,t)∈
細節(jié)和準確定位的3D面部圖像.
α,β和δ是用于生成3D人臉的相應(yīng)系數(shù)向量, 將人臉系數(shù)向量轉(zhuǎn)換為人臉圖像的3D形狀S和紋理T:
S=S(α,β)=+Bidα+Bexpβ,(1)
T=T(δ)=+Bt,(2)
其中: 表示平均人臉形狀; 表示平均人臉紋理; Bid表示身份的主成分分析基, Bexp表示表情的主成分分析基, Bt
表示紋理的主成分分析基, 且Bid,Bexp,Bt均對基矩陣用標準差進行了縮放.
利用面部形狀S計算面部的法向量. 對每個頂點p, 計算與其相鄰的每個面f的法向量VNp:
VNp=∑f∈Pp((sf0-sf1)×(sf1-sf2))∑f∈Pp((sf0-sf1)×(sf1-sf2)),(3)
其中, sfi(i=0,1,2)表示面部形狀S的第fi個頂點, f={f0,f1,f2}表示三角形面的頂點索引, Pp表示與頂點p相鄰的面的集合.
根據(jù)角度θ=(θx,θy,θz)計算旋轉(zhuǎn)矩陣R, 對面部形狀S應(yīng)用旋轉(zhuǎn)矩陣R并加上姿態(tài)參數(shù)t, 得到旋轉(zhuǎn)后的面部形狀Sr, 并重新計算旋轉(zhuǎn)后的面部法向量VNr:
R=Rz(θz)Ry(θy)Rx(θx),(4)
Sr=S·R+t, VNr=VNp·R,(5)
其中Rx(θx),Ry(θy)和Rz(θz)分別是關(guān)于x,y,z軸的旋轉(zhuǎn)矩陣.使用球諧函數(shù)和照度系數(shù)γ對面部紋理T進行照明, 得到面部顏色FC和照明強度L:
FC=LrTrLgTgLbTb,(6)
L=∑8i=0γiYi(VNr),(7)
其中Lr,Lg,Lb分別為紅、 綠、 藍通道的照明強度, Tr,Tg,Tb分別為紅、 綠、 藍通道的面部紋理, Yi為球諧函數(shù).
最后, 返回旋轉(zhuǎn)后的面部形狀Sr、 旋轉(zhuǎn)后的面部法向量VNr、 面部顏色FC和面部三角形頂點索引tri.
本文將U-Net轉(zhuǎn)換得到的不同尺度的低分辨率圖像輸入到預(yù)訓(xùn)練好的3D渲染分支中, 然后通過該分支預(yù)測BFM模型中的身份、 紋理等參數(shù), 再將這些參數(shù)輸入到3DMM模型中, 生成渲染圖像. 在此過程中, 將照度參數(shù)與面部姿態(tài)參數(shù)進行級聯(lián), 以便與身份、 紋理等參數(shù)進行整合. 為使參數(shù)矩陣與低分辨率圖像大小相同, 本文采用零填充操作. 最后將處理后的參數(shù)矩陣與渲染圖像進行級聯(lián).
通過上述流程, 可實現(xiàn)將U-Net生成的低分辨率圖像與3D渲染分支預(yù)測的面部參數(shù)相結(jié)合, 從而生成具有更豐富細節(jié)和更精確定位的3D渲染人臉. 這種方法不僅能提高面部重建的質(zhì)量, 同時也有助于在處理復(fù)雜場景和不同尺度的圖像時保持穩(wěn)定性和準確性. 綜上, 3D人臉重建算法如下.
算法1 三維人臉重建.
步驟1) 程序: 三維人臉重建(C,人臉模型);
步驟2)""" 在BFM模型中訓(xùn)練N預(yù)測α,β,δ,γ,t;
步驟3)""" 獲得三維系數(shù)向量x=(α,β,δ,γ,t)∈瘙綆239, 通過3DMM回歸;
步驟4)""" S=S(α,β)=+Bidα+Bexpβ;
步驟5)""" T=T(δ)=+Bt;
步驟6)""" 使用S和式(3)計算VN;
步驟7)""" 使用θ和式(4)計算R;
步驟8)""" Sr=S·R+t;
步驟9)""" VNr=VNp·R;
步驟10)"" 使用T,V,γ和式(6),(7)計算FC和L;
步驟11)"" tri←來自BFM的面部緩沖區(qū);
步驟12)"" 返回Sr,VNr,F(xiàn)C,tri;
步驟13) 結(jié)束程序;
步驟14) 程序: 創(chuàng)建模型(v,f,c);
步驟15)""" 創(chuàng)建一個空的三維模型obj;
步驟16)""" 循環(huán): 在VN和FC中的每個頂點vi及對應(yīng)的顏色ci;
步驟17)"""""" 將頂點vi和顏色ci添加到三維模型obj;
步驟18)""" 結(jié)束循環(huán);
步驟19)""" 循環(huán): 在f中的每個三角形fi;
步驟20)"""""" 將三角形fi添加到obj;
步驟21)""" 結(jié)束循環(huán);
步驟22) 結(jié)束程序.
2.1.2 空間特征變換
SFT模塊[17]在超分辨率和人臉超分辨率領(lǐng)域具有自適應(yīng)性、 高表達能力、 性能良好和魯棒性的優(yōu)勢, 它根據(jù)輸入的先驗信息調(diào)整特征圖, 使網(wǎng)絡(luò)適應(yīng)各種場景. 利用3D先驗信息和人臉相關(guān)知識, SFT模塊更好地保留了面部細節(jié)和特征, 提高了模型的性能、 質(zhì)量和魯棒性, 實現(xiàn)了高質(zhì)量的人臉重建. 這里引入SFT層, 根據(jù)輸入的3D人臉先驗信息自適應(yīng)地調(diào)整特征圖, 從而使網(wǎng)絡(luò)能更適應(yīng)各種場景和不同的輸入數(shù)據(jù), 其結(jié)構(gòu)如圖3所示.
SFT模塊的主要功能是學(xué)習(xí)映射函數(shù)Θ, 根據(jù)3D先驗信息調(diào)制參數(shù)對(μ,ν). 參數(shù)對用于在空間上調(diào)節(jié)每個中間特征圖的仿射變換, 使SFT層的輸出可根據(jù)調(diào)制參數(shù)對進行自適應(yīng)控制. 首先利用3D臉部先驗信息提取出深層特征ψ:
(μ,ν)=Θ(ψ),(8)
其中μ和ν分別表示卷積得到的不同程度的深度特征. 然后, 利用這些調(diào)制參數(shù)對對中間特征圖F進行空間方向的轉(zhuǎn)換(如縮放和平移等操作):
SFT(Fμ,ν)=μF+ν,(9)
其中F表示特征圖, 表示逐元素相乘. 在執(zhí)行空間方向的轉(zhuǎn)換后, 獲得融合了3D先驗信息的高級特征.
通過上述流程可將重建的渲染模型與多尺度圖像一起傳入SFT模塊, 得到對應(yīng)尺度的3D面部先驗特征, 并為后續(xù)3D先驗特征與先驗網(wǎng)絡(luò)相結(jié)合, 在不同尺度上拼接先驗信息做準備.
2.2 面部先驗算法
在獲取到各尺度的3D先驗信息后, 在先驗網(wǎng)絡(luò)中將對應(yīng)尺度的3D先驗與生成先驗進行融合, 以得到一個更具豐富信息的人臉先驗.
2.2.1 先驗網(wǎng)絡(luò)
由一個預(yù)訓(xùn)練的面部生成對抗網(wǎng)絡(luò)(generative adversarial networks, GAN)通過其卷積層的權(quán)重捕獲了面部的分布, 即為生成先驗. 本文利用改進的StyleGAN2[21]
為任務(wù)提供多樣和豐富的面部細節(jié). StyleGAN2在訓(xùn)練過程中學(xué)習(xí)了人臉的潛在分布即潛在變量, 并將這種變量嵌入到其卷積層的權(quán)重中. 因此, 這些權(quán)重構(gòu)成了一種面部的生成先驗, 即在生成新的人臉圖像時, 網(wǎng)絡(luò)會根據(jù)這個先驗分布生成符合人臉特征分布的新樣本.
為生成豐富多樣的面部細節(jié)、 便于與多尺度3D先驗融合, 并減少迭代優(yōu)化所需的時間, 本文采用以下策略: 先利用調(diào)制過程將潛在變量映射到生成器的不同層次, 而非直接生成最終圖像; 再通過卷積上采樣, 保留多尺度深層特征; 最后將這些特征與帶有3D先驗信息的高級特征拼接, 并繼續(xù)執(zhí)行上采樣操作.
在上述過程中, 潛在變量通過嵌入到每個卷積層, 為每個分辨率尺度生成人臉特征. 這種方法能有效融合多尺度深層特征, 生成高質(zhì)量的超分辨率圖像, 同時保留豐富的面部細節(jié),并減少迭代優(yōu)化所需時間.
2.2.2 雙重注意力
DANetHead(dual attention network head)是一種自注意力機制的應(yīng)用, 用于捕獲圖像中的長距離依賴關(guān)系, 其結(jié)構(gòu)如圖4所示.
將DANetHead添加至先驗網(wǎng)絡(luò)后, 可幫助模型更好地捕獲全局上下文信息, 從而提升超分辨率圖像的質(zhì)量. DANetHead引入了兩個并行的自注意力模塊, 即位置注意力模塊(position attention module, PAM)和通道注意力模塊(channel attention module, CAM), 它們共同捕獲長距離上下文信息. 將PAM和CAM并行應(yīng)用于輸入特征圖, 并將它們的輸出加在一起, 得到最終的上下文特征.
本文選擇在先驗網(wǎng)絡(luò)的最后利用空間注意力與通道注意力聯(lián)系整個網(wǎng)絡(luò)的信息, 提升模型在處理復(fù)雜場景和多樣化表達時的性能.
2.3 損失函數(shù)
訓(xùn)練模型的學(xué)習(xí)目標包括: 限制輸出以接近真實的重建損失Lrec [22]、 恢復(fù)真實紋理的對抗性損失Ladv [21,23]、 與重建相關(guān)的皮膚光照強度損失Lper[24]、 進一步增強面部細節(jié)的面部成分損失Lcomp [21,25]以及身份保持損失Lid [22]. 通過這些學(xué)習(xí)目標的組合, 模型可在恢復(fù)圖像時有效提升質(zhì)量并保持身份一致性.
3 實 驗
實驗選擇數(shù)據(jù)集CelebAMask-HQ驗證算法性能. 數(shù)據(jù)集CelebAMask-HQ是一個大規(guī)模的人臉圖像數(shù)據(jù)集, 是從數(shù)據(jù)集CelebA(celebFaces attributes dataset)中選擇的30 000張高分辨率人臉圖像. 每個圖像都有對應(yīng)于CelebA的面部屬性的分割蒙版, 尺寸為512×512. 在數(shù)據(jù)集CelebA中, 將數(shù)據(jù)集分為訓(xùn)練集、 驗證集和測試集. 通過對數(shù)據(jù)集進行劃分, 可確保在訓(xùn)練、 驗證和測試過程中具有良好的數(shù)據(jù)分布和不同的人臉樣本, 從而有效地評估模型在各種場景下的性能. 本文按與官方相同的比例隨機劃分并處理數(shù)據(jù)集.
3.1 實驗數(shù)據(jù)及對比方法
訓(xùn)練階段使用24 000張來自數(shù)據(jù)集CelebAMask-HQ[26]中未遮擋、 帶有帽子和飾品等小范圍遮擋及非正面姿態(tài)等可識別出人臉關(guān)鍵點的圖像, 測試階段則使用同數(shù)據(jù)集中的3 000張圖像. 遵循現(xiàn)有人臉超分辨率方法的協(xié)議, 通過隨機雙三次下采樣方法生成低分辨率圖像LQ作為輸入. 低分辨率人臉圖像通過下采樣至128×128像素(×4尺度)和64×64像素(×8尺度)生成.
為評估本文人臉超分辨率網(wǎng)絡(luò)的性能, 將本文算法與6種目前最先進的超分辨率和人臉超分辨率重建算法進行定性和定量比較, 包括: 非常深的卷積網(wǎng)絡(luò)VDSR; 超分辨率的卷積神經(jīng)網(wǎng)絡(luò)SRCNN; 殘差密集網(wǎng)絡(luò)RDN; 非常深的殘差注意力通道網(wǎng)絡(luò)RCAN; 深度端到端的可訓(xùn)練的人臉超分辨網(wǎng)絡(luò)FSRNet以及使用人臉3D先驗的SAM3D算法.
3.2 數(shù)據(jù)分析
3.2.1 定量結(jié)果
利用峰值信噪比(peak signal-to-noise ratio, PSNR)和結(jié)構(gòu)相似性(structural similarity index measure, SSIM)兩個客觀評價指標分析對比各算法的性能.
表1列出了不同算法在人臉圖像放大4倍時的評價指標對比結(jié)果. 表2列出了不同算法在人臉圖像放大8倍時的評價指標對比結(jié)果.
由表1和表2可見:
在放大4倍時, BICUBIC算法重構(gòu)的人臉圖像效果最差, 兩個指標均為最低, 視覺效果模糊; VDSR,SRCNN和RDN算法在重構(gòu)人臉圖像質(zhì)量上略有提升, 但效果不明顯, 仍存在視覺模糊和人臉輪廓邊緣不清晰等問題; 相比之下, RCAN和FSRNET算法的性能稍好, 但仍無法達到令人滿意的效果; 而本文算法和SAM3D算法在重構(gòu)質(zhì)量上有顯著提升, 特別是本文算法, 不僅在放大4倍時的PSNR和SSIM指標超過了其他算法, 且在放大8倍時, 盡管所有算法的評價指標都有所下降, 但本文算法仍保持了相對較高的性能, 證明了其在處理高倍率放大時的優(yōu)越性. 盡管SAM3D算法在放大4倍和8倍時的性能也相對較好, 但在放大8倍時的PSNR和SSIM指標仍低于本文算法. 表明雖然SAM3D算法能在一定程度上提升重構(gòu)質(zhì)量, 但在處理放大更高倍率時, 其性能增幅有限. 本文算法在處理不同放大倍率的人臉圖像重構(gòu)任務(wù)時, 都表現(xiàn)了優(yōu)異性能, 無論是在客觀的PSNR和SSIM評價指標上, 還是在視覺效果上, 都超越了其他對比算法. 從而證明了本文算法在處理復(fù)雜的人臉圖像重構(gòu)任務(wù)時的有效性和魯棒性.
3.2.2 定性評價
本文算法在放大8倍下的定性結(jié)果如圖5所示. 由圖5可見, 本文算法成功地恢復(fù)了清晰且富有細節(jié)的面部特征, 例如鼻子、 眼睛和嘴巴.
對比其他算法, 本文算法在高頻特征的恢復(fù)上也展現(xiàn)了顯著優(yōu)勢, 而這些區(qū)域在其他算法中常表現(xiàn)模糊. 相反, 其他算法在恢復(fù)過程中會在面部特征區(qū)域(如眼睛和鼻子)產(chǎn)生一些偽影, 特別是當面部圖像被部分遮擋或顯示不完全時. 而本文引入3D人臉先驗后的方法展示出更清晰、 更銳利且無明顯重影偽像的人臉結(jié)構(gòu), 這表明引入的3D先驗在輔助網(wǎng)絡(luò)理解面部的空間位置和整體結(jié)構(gòu)上具有至關(guān)重要的作用, 極大減少了常見的人臉特征偽像和人臉屬性的顯著失真. 由于融合了高維先驗知識和雙重注意力機制, 這不僅使本文算法能更有效地捕捉空間和特征關(guān)系, 還使其在恢復(fù)過程中能專注于關(guān)鍵細節(jié). 這種策略有效地解決了早期研究中遇到的遮擋、 姿態(tài)變化、 過擬合和計算負荷等挑戰(zhàn). 尤其雙重注意力機制使本文算法能更有效地捕捉通道和空間信息, 從而克服了僅依賴通道注意力機制的限制. 因此, 無論是在圖像客觀評分還是綜合主觀評價上, 本文算法都能重構(gòu)出具有更佳重建效果的人臉圖像.
3.3 消融實驗
下面進行消融研究以證明每個模塊的有效性. 根據(jù)PSNR和SSIM在8倍尺度測試數(shù)據(jù)上比較使用和不使用渲染的3D人臉先驗和雙重注意力模塊的擬議網(wǎng)絡(luò). 表3列出了添加3D先驗和雙重注意力模塊前后的評價指標對比結(jié)果. 由表3可見, 不使用3D渲染人臉和注意力的方法通常無法捕獲清晰的人臉結(jié)構(gòu), 而添加3D渲染先驗后顯示了更清晰和更銳利的面部結(jié)構(gòu). 通過同時使用3D先驗和注意力模塊, 視覺質(zhì)量得到進一步改善. 表1和表2中的定量比較也說明了所添加的渲染先驗和注意力模塊的有效性.
綜上所述, 為解決現(xiàn)有方法在處理復(fù)雜場景時人臉圖像產(chǎn)生的偽影、 失真、 模糊、 細節(jié)丟失、 結(jié)構(gòu)扭曲、 質(zhì)感不自然等問題, 本文提出了一種基于3D渲染先驗和雙重注意力模塊的人臉超分辨率網(wǎng)絡(luò). 引入3D渲染先驗使網(wǎng)絡(luò)能更好地理解人臉的空間位置和整體結(jié)構(gòu), 有助于在復(fù)雜場景下恢復(fù)更精細的面部特征. 雙重注意力模塊允許本文模型關(guān)注重要的局部細節(jié)和全局上下文信息, 從而提高面部特征恢復(fù)的準確性和圖像質(zhì)量. 在數(shù)據(jù)集CelebAMask-HQ上進行實驗的結(jié)果表明, 本文算法在PSNR和SSIM指標上均優(yōu)于現(xiàn)有的先進算法, 證明了該算法在處理帶有帽子、 飾品等小范圍遮擋和非正面姿態(tài)場景時的優(yōu)越性.
參考文獻
[1] 王緒冬. 基于超分辨率重建的低分辨率人臉識別 [D]. 南京: 南京大學(xué), 2021. (WANG X D. Low-Resdution Face Rescognition Based on Face Hallucination Method [D]. Nanjing: Nanjing University, 2021.)
[2] 陳貴強, 何軍, 羅順茺. 基于改進CycleGAN的視頻監(jiān)控人臉超分辨率恢復(fù)算法 [J]. 計算機應(yīng)用研究, 2021, 38(10): 3172-3176. (CHEN G Q, HE J, LUO S C. Improved Video Surveillance Face Super-resolutiom Recovery Algorithm Based on CycleGAN [J]. Application Research of Computers, 2021, 38(10): 3172-3176.)
[3] CHOU E, TAN M, ZOU C, et al. Privacy-Preserving Action Recognition for Smart Hospitals Using Low-Resolution Depth Images [EB/OL]. (2018-11-25)[2023-01-10]. https://arxiv.org/abs/1811.09950.
[4] BTZ M, EICHENSEER A, SEILER J, et al. Hybrid Super-resolution Combining Example-Based Single-Image and Interpolation-Based Multi-image Reconstruction Approaches [C]//2015 IEEE International Conference on Image Processing (ICIP). Piscataway, NJ: IEEE, 2015: 58-62.
[5] ZHANG L Z, ZHANG W, LU G M, et al. Feature-Level Interpolation-Based GAN for Image Super-resolution [J]. Personal and Ubiquitous Computing, 2021, 26(4): 955-1010.
[6] SANCHEZ-BEATO A, PAJARES G. Noniterative Interpolation-Based Super-resolution Minimizing Aliasing in the Reconstructed Image [J]. IEEE Transactions on Image Processing, 2008, 17(10): 1817-1826.
[7] WU W, LIU Z, HE X H, et al. Learning-Based Super-resolution Using Kernel Partial Least Squares [J]. Image and Vision Computing, 2011, 29(6): 394-407.
[8] JIA K, GONG S G. Generalized Face Super-resolution [J]. IEEE Transactions on Image Processing, 2008, 17(6): 873-886.
[9] GAJJAR P P, JOSHI M V. New Learning Based Super-resolution: Use of DWT and IGMRF Prior [J]. IEEE Transactions on Image Processing, 2010, 19(5): 1201-1213.
[10] YANG Z Y, SHI P, PAN D, et al. A Survey of Super-resolution Based on Deep Learning [C]//2020 International Conference on Culture-Oriented Science amp; Technology (ICCST). Piscataway, NJ: IEEE, 2020: 514-518.
[11] JIANG J J, WANG C Y, LIU X M, et al. Deep Learning-Based Face Super-resolution: A Survey [J]. ACM Computing Surveys (CSUR), 2021, 55(1): 13-1-13-36.
[12] DONG C, LOY C C, HE K M, et al. Image Super-resolution Using Deep Convolutional Networks [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 38(2): 295-307.
[13] KIM J, LEE J K, LEE K M, et al. Accurate Image Super-resolution Using Very Deep Convolutional Networks [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 1646-1654.
[14] CHEN Y, TAI Y, LIU X M, et al. Fsrnet: End-to-End Learning Face Super-resolution with Facial Priors [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 2492-2501.
[15] ZHANG Y L, LI K P, LI K, et al. Image Super-resolution Using Very Deep Residual Channel Attention Networks [C]//Proceedings of the European Conference on Computer Vision (ECCV). New York: ACM, 2018: 286-301.
[16] ZHANG Y L, TIAN Y P, KONG Y, et al. Residual Dense Network for Image Super-resolution [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 2472-2481.
[17] WANG X T, YU K, DONG C, et al. Recovering Realistic Texture in Image Super-resolution by Deep Spatial Feature Transform [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 606-615.
[18] HU X B, REN W Q, LAMASTER J, et al. Face Super-resolution Guided by 3D Facial Priors [C]//16th European Conferenceon Computer Vision. Berlin: Springer, 2020: 763-780.
[19] PAYSAN P, KNOTHE R, AMBERG B, et al. A 3D Face Model for Pose and Illumination Invariant Face Recognition [C]//2009 Sixth IEEE International Conference on Advanced Video and Signal Based Surveillance. Piscataway, NJ: IEEE, 2009: 296-301.
[20] BLANZ V, VETTER T. A Morphable Model for the Synthesis of 3D Faces [C]//Proceedings of the 26th Annual Conference on Computer Graphics and Interactive Techniques. New York: ACM, 1999: 187-194.
[21] VIAZOVETSKYI Y, IVASHKIN V, KASHIN E, et al. Stylegan2 Distillation for Feed-Forward Image Manipulation [C]//16th European Conference on Computer Vision. Berlin: Springer, 2020: 170-186.
[22] WANG X T, LI Y, ZHANG H L, et al. Towards Real-World Blind Face Restoration with Generative Facial Prior [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. "Piscataway, NJ: IEEE, 2021: 9168-9178.
[23] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative Adversarial Networks [J]. Communications of the ACM, 2020, 63(11): 139-144.
[24] DENG Y, YANG J L, XU S C, et al. Accurate 3D Face Reconstruction with Weakly-Supervised Learning: From Single Image to Image Set [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Piscataway, NJ: IEEE, 2019: 285-295.
[25] WANG T C, LIU M Y, ZHU J Y, et al. High-Resolution Image Synthesis and Semantic Manipulation with Conditional Gans [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition." Piscataway, NJ: IEEE, 2018: 8798-8807.
[26] KARRAS T, AILA T, LAINE S, et al. Progressive Growing of Gans for Improved Quality, Stability, and Variation [EB/OL]. (2017-10-27)[2023-01-10]. https://arxiv.org/abs/1710.10196.
(責(zé)任編輯: 韓 嘯)