• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于自注意力機制和譜歸一化的GAN表情合成

      2022-04-28 14:10:10蘇夢晶劉本永
      智能計算機與應用 2022年4期
      關鍵詞:鑒別器注意力損失

      蘇夢晶,王 波,劉本永

      (1貴州大學 大數據與信息工程學院,貴陽 550025;2貴州大學 計算機科學與技術學院,貴陽 550025;3貴陽學院 數學與信息科學學院,貴陽 550005)

      0 引 言

      面部表情合成指在改變特定對象的面部表情的同時保留該對象的身份信息和面部特征。近年來,表情合成技術在電影特效、計算機動畫、交互界面、面部手術規(guī)劃等方面得到廣泛應用。此外,表情合成也可用于擴展表情識別訓練數據,進一步提升識別性能。由于人臉面部結構較為復雜,合成具有真實感的面部表情仍是一個難題。

      目前,實現表情合成的方法主要分為傳統方法和深度學習方法。傳統方法可分為基于映射的方法和基于建模學習的方法。前者利用不同表情的面部特征矢量差實現表情變化,僅考慮了圖像像素的差異,細節(jié)處理的能力較弱。如2001年,Liu等人提出的基于表情比率圖的合成方法能較好地合成表情的細節(jié),但對于光線、背景、圖像質量等因素魯棒性不足;2004年,姜大龍等人提出的基于局部表情比率圖的合成方法選擇額頭、嘴角等具有表情細節(jié)的區(qū)域進行合成計算,但僅考慮了圖像之間的像素差;2013年,王曉慧等人提出的基于小波圖像融合的合成方法擅長提取紋理特征,但提取時會產生非表情特征,合成結果不佳。

      基于建模學習的方法主要通過對人臉表情建立特定的模型進行表情合成,考慮的臉部變形因素較多,但搭建的模型較為復雜,難以在實際中運用。如1982年,Parke提出的參數化模型設計了一套用于人臉表情控制的參數。1996年,Lei等人提出的肌肉模型以人臉的解剖學為基礎,考慮了臉部肌肉活動的影響。2004年,Abboud等人提出的主動外觀模型方法能合成不同強度和類型的表情圖像。

      近年來,深度學習方法在計算機視覺、圖像處理、計算機圖形學等領域發(fā)展迅速,尤其是2014年Goodfellow等人提出的生成對抗網絡(generative adversarial network,GAN),極大地提高了合成圖像的 質 量。該網絡及其改進(pix2pix、CycleGAN、AttGAN、StarGAN)在人臉合成問題上取得了很大成功,這些方法都能改變人臉的面部表情,但在細節(jié)上還有待改進。

      為了改善表情合成圖像中的細節(jié),本文探討一種基于自注意力機制和譜歸一化的生成對抗網絡表情合成方法,該方法以StarGAN為基礎框架,在生成器中引入自注意力模塊,通過計算卷積層中像素塊位置的相互作用,捕捉圖像之間的依賴關系,利用圖像特征的位置線索生成細節(jié),使合成的面部細節(jié)更具真實感;另外,在鑒別器中添加譜歸一化來約束權重的Lipschitz常數,以穩(wěn)定鑒別器的訓練。本文模型與pix2pix和StarGAN的實驗結果相比更具真實感,紋理細節(jié)更加豐富,圖像質量得到了進一步提升。

      1 相關工作

      GAN是一種基于博弈論的深度學習框架。該框架基于隨機噪聲的輸入,讓生成模型和鑒別模型交替進行對抗學習:生成模型盡可能欺騙鑒別模型,生成接近于真實數據分布的圖像;鑒別模型相當于分類器,對生成的假樣本和真樣本進行區(qū)分和判斷,當訓練達到最優(yōu)時,鑒別模型將無法正確區(qū)別生成樣本和真樣本,達到納什平衡。

      以GAN為基礎進行改進并可用于表情合成的方法主要有以下幾種:

      (1)pix2pix:該模型的生成器使用U-Net結構,與原始的編解碼結構相比,更好地共享了網絡的輸入與輸出之間不同分辨率層次的信息;鑒別器采用patchGAN結構,將圖片按照規(guī)定大小切割之后進行判別,其輸出為所有切割塊判別結果的平均值。該模型要求采用成對的數據集進行訓練,即輸入和輸出有嚴格的對應關系。

      (2)CycleGAN:該模型不局限于pix2pix網絡中訓練集需要一對一的限制,其采用雙向循環(huán)生成的結構,包含2個映射函數,實驗時不需要成對的數據集,即可學習2個域之間的映射關系,但每次訓練只能對單一屬性進行改變。

      (3)AttGAN:該模型可實現人臉的多屬性編輯,其架構主要包括屬性分類約束、重構學習和對抗學習三個部分,其中引入屬性分類約束確保了生成圖片時對合適的屬性進行編輯;引入重構學習保證了生成圖像能夠保留原始圖像的身份特征。

      (4)StarGAN:該模型使用一個生成器同時訓練多個不同域的數據集,實現多域之間的圖像編輯。其鑒別器除了能判斷圖像真假之外,還能將生成圖像歸類到所屬表情域。該模型通過重建原始圖像,以保證生成圖像僅改變不同域之間存在差異的部分,其余特征保持不變,但表情細節(jié)存在一定程度上的缺失。

      2 相關原理

      2.1 自注意力機制

      自注意力(Self-Attention,SA)機制是一種將內部關聯性和外部信息結合從而提升局部區(qū)域的精細度的機制,能夠學習某一像素點和其他所有位置像素點之間的關系,可以使生成器和鑒別器對廣泛的空間區(qū)域進行建模,并將某個位置的注意力計算為局部區(qū)域內的像素特征加權求和,在保持全局依賴信息少量損失的前提下,大大降低計算量。

      自注意力機制的網絡框架如圖1所示,特征圖像通過線性映射轉換為、和,其中()=W x,()=W x,利用轉置后的和計算相似性和關注度:

      圖1 自注意力機制網絡框架Fig.1 The framework of self-attention mechanism

      其中,β表示在合成第個像素位置時,模型對第個位置的關注度。那么映射()的輸出是(,,…,o,…,o),這里的計算公式可寫為:

      其中,W、WW是學習區(qū)域內各像素特征的注意力權重,可通過11卷積來實現。由式(3)的結果乘以一個比例參數,并加上輸入的特征圖,最終輸出為:

      其中,是一個通過學習得到的標量,初值為0。通過引入使網絡先學習局部領域的線索,再轉向全局的線索,逐漸增加任務的復雜度。

      2.2 譜歸一化

      譜歸一化(Spectral Normalization,SN)通過限制訓練時函數變化的劇烈程度,使鑒別器更加穩(wěn)定。實現過程需要讓每層網絡的網絡參數除以該層參數矩陣的譜范數,達到歸一化的目的,即可滿足Lipschitz約束(限制函數的局部變動幅度不能超過某常量)。為獲得每層參數矩陣的譜范數,采用冪迭代法來近似求取參數矩陣的譜范數的最大奇異值以減少計算量。譜歸一化如下:

      其中,為網絡參數的權重,()為的最大奇異值。

      3 模型搭建

      3.1 網絡框架和結構

      本文探討的表情合成方法以StarGAN為基礎框架進行改進,在其生成器中引入2層自注意力機制模塊,豐富上下文聯系,使合成表情更具真實感。模型訓練時先向生成器提供從訓練數據中隨機抽取的表情圖像和目標表情標簽,使生成器能夠對表情圖像中的細節(jié)進行建模,調節(jié)表情細節(jié)變化,最終通過生成器得到生成圖像;下一步,將生成圖像輸入鑒別器進行判別,鑒別器輸出為圖像的真假鑒別結果以及圖像所屬表情域的類別。另外,生成圖像與輸入圖像的表情域標簽會再次送入生成器重構原始表情,目的是使生成器能夠保持原有圖像的身份信息。為穩(wěn)定鑒別器的訓練,在鑒別模型的每一層都引入譜歸一化,以確保其映射函數滿足Lipschitz約束。

      本文方法的網絡結構如圖2所示。圖2中,上半部分的生成器由輸入層、輸出層、下采樣層、瓶頸層、上采樣層以及2個自注意力機制模塊組成,虛線箭頭表示生成器重構輸入圖像的過程,實線表示箭頭對抗學習的過程。下半部分的鑒別器由輸入層、輸出層和隱藏層組成,每一層之間均有譜歸一化層和Leaky-ReLU激活函數,除輸出層以外卷積深度均為前一層的2倍,最終經過全連接層映射為2個輸出,分別用于判別輸入生成圖像真假和生成表情域。

      圖2 本文方法的網絡結構Fig.2 The framework of the proposed method

      3.2 損失函數

      本文模型的損失函數包括對抗損失函數、分類損失函數和重構損失函數。對此擬做分述如下。

      (1)對抗損失函數。為生成與真實圖像難以區(qū)分的面部表情圖像,引入對抗損失函數:

      其中,,分別為原始圖像和目標表情域標簽,(,)為生成圖像,該圖像的表情特征盡可能接近目標表情,鑒別器需要判斷生成圖像的真實性。

      (2)分類損失函數。為使生成器生成具有目標表情特征的假圖像,同時鑒別器能夠將合成的表情正確歸類,提出分類損失函數,分別對生成器和鑒別器進行優(yōu)化。分類鑒別器損失函數為:

      其中,'為輸入圖像原始表情域標簽;D(')為鑒別器將輸入圖像辨別為原始表情的概率,通過訓練使得鑒別器能夠將輸入圖像分類為對應的表情'。分類生成器損失函數為:

      其中,D((,))為生成器將生成圖像判別為目標表情的概率,通過訓練使生成器盡可能生成符合目標表情特征的表情圖像,讓鑒別器將表情圖像歸類到目標表情域。

      (3)重構損失函數。為保持人臉原有身份信息,引入重構損失函數,利用生成圖像重建原始圖像:

      最終鑒別器和生成器的目標函數分別為:

      其中,λλ是超參數,其值大于等于0,用于控制域分類和重構損失的比重。

      4 實驗及結果分析

      4.1 實驗結果

      選取RaFD數據集的1 608張正面表情圖像作為訓練數據,將圖片剪裁為128×128進行訓練,每更新5次生成器后更新1次鑒別器,共迭代200萬次。

      本文將pix2pix和StarGAN作為對比以驗證所提出模型的有效性,為保證實驗結果的公平性,將2種模型的圖像分辨率參數均調整至128×128進行實驗,實驗結果如圖3所示。

      圖3 原始圖像及不同方法生成的合成圖像Fig.3 Original images and composite images generated by different methods

      從圖3可看出,pix2pix合成的表情圖像五官較模糊,缺少表情細節(jié),嘴部缺失較為明顯,合成效果不理想;StarGAN合成的表情圖像五官較為清晰,但表情細節(jié)不夠豐富。本文的方法可增強上下文聯系,使合成圖像更具真實感、質量更高。圖4是對原始圖像、StarGAN以及本文方法實驗結果的局部細節(jié)進行比較。由圖4可看出本文方法所得的表情更接近原始圖像,細節(jié)更豐富、清晰度更高。

      圖4 目標表情原始圖像以及StarGAN和本文方法所生成圖像的細節(jié)Fig.4 Details of the original images of the target expression and the images generated by StarGAN and the proposed method

      4.2 定量分析

      本文采用作為合成圖像的評價指標,通過計算真實圖像和生成圖像的特征向量之間的距離,評價兩者之間的相似度,分數越低表示合成圖像越趨近于真實圖像。公式如下:

      本文分別計算了pix2pix、StarGAN和本文方法所合成的8種表情圖像的,評估結果見表1。

      根據表1可知,本文所提出的模型在憤怒、恐懼、幸福、悲傷、驚奇、蔑視和中立表情的分數相較于pix2pix和StarGAN均為最低的,合成圖像質量相比于其他2種算法更佳,生成圖像與原始圖像更接近。

      表1 pix2pix、StarGAN和本文方法的FIDTab.1 FID of pix2pix,StarGAN and the proposed method

      5 結束語

      本文提出一種基于自注意力機制和譜歸一化的生成對抗網絡表情合成方法,使用生成對抗網絡來實現多域之間的表情合成,并引入自注意力機制,使生成器輸出更具細節(jié)的表情圖像,引入譜歸一化來約束Lipschitz常數,使鑒別器的訓練更加穩(wěn)定。通過對比實驗表明,本文模型的合成圖像更具真實感,圖像質量明顯提高。

      由于不同的表情數據集之間存在差異,難以用一個模型去泛化所有人的表情,將來希望針對不同背景下的表情合成進行研究。

      猜你喜歡
      鑒別器注意力損失
      基于多鑒別器生成對抗網絡的時間序列生成模型
      通信學報(2022年10期)2023-01-09 12:33:40
      少問一句,損失千金
      讓注意力“飛”回來
      胖胖損失了多少元
      衛(wèi)星導航信號無模糊抗多徑碼相關參考波形設計技術*
      玉米抽穗前倒伏怎么辦?怎么減少損失?
      “揚眼”APP:讓注意力“變現”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      陣列天線DOA跟蹤環(huán)路鑒別器性能分析
      A Beautiful Way Of Looking At Things
      一般自由碰撞的最大動能損失
      会东县| 缙云县| 科技| 苍南县| 巢湖市| 中西区| 博乐市| 邹城市| 平顶山市| 体育| 武平县| 泽普县| 平和县| 日土县| 青浦区| 兰考县| 谢通门县| 泽州县| 响水县| 普宁市| 泸西县| 平乡县| 伊春市| 周宁县| 扶风县| 洮南市| 奉贤区| 逊克县| 罗源县| 云霄县| 驻马店市| 濮阳县| 烟台市| 东乡县| 珠海市| 太康县| 固镇县| 南皮县| 乐都县| 高要市| 宝山区|