基于卷積神經(jīng)網(wǎng)絡(luò)的視頻聊天中人眼自動矯正

2022-01-17 06:20:40沈曉倩

電子元器件與信息技術(shù) 2021年9期

沈曉倩

（吉林大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院，吉林長春 130012）

0 引言

日常生活中的很多內(nèi)容都需要改變眼睛的外觀，并以數(shù)字化的方式來控制人力對相機(jī)的凝視。比如說，在桌面視頻會議系統(tǒng)交流時，人眼的溝通非常關(guān)鍵，此時基于卷積神經(jīng)網(wǎng)絡(luò)加強(qiáng)人眼凝視，能進(jìn)一步提升人們的表達(dá)注意力和溝通需求。但從實踐應(yīng)用角度來看，大部分視頻會議系統(tǒng)都沒有眼神的交流和凝視意識，出現(xiàn)這現(xiàn)象的原因在于參與者看到的是顯示器，并沒有直接進(jìn)入攝像機(jī)中，此時人眼自動矯正在這一環(huán)節(jié)非常重要。因此，本文根據(jù)當(dāng)前技術(shù)理念提出了一種簡單且新穎的凝視矯正圖像修復(fù)模型，并利用定性與定量的方式評估了這一模型的科學(xué)性和有效性。

1 背景介紹

在大數(shù)據(jù)時代中，每天大約有三百萬張圖片出現(xiàn)在社交平臺，被各類平臺軟件所捕捉或共享，其中有超過一半的都是以人為中心的圖片。由此可見，在未來技術(shù)革新發(fā)展中，美化算法和逼真的面部修飾將成為計算機(jī)視覺和機(jī)器學(xué)習(xí)的主要研究方向，比如說合成化妝品、紅眼固定以及瑕疵去除等，這些都在市場中得到了認(rèn)可和支持。但從科研角度思考，現(xiàn)如今人類面部結(jié)構(gòu)及其特征操控依舊是科研人員很難跨越的難點。而在深卷積網(wǎng)絡(luò)也叫做DNNs在繪制顯示自然風(fēng)景的圖片缺失區(qū)域中取得了優(yōu)異成績，促使人們對人眼跟蹤有了更深認(rèn)識和理解[1]。

從本質(zhì)上講，卷積神經(jīng)網(wǎng)絡(luò)是指一種包含卷積計算和深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)，其屬于深度學(xué)習(xí)具有代表性的一種算法之一。這類算法具有機(jī)槍的表征學(xué)習(xí)能力，且可以按照階層結(jié)構(gòu)在平移的基礎(chǔ)上合理分類處理輸入信息，因此在現(xiàn)如今技術(shù)研究中也叫做平移不變的人工神經(jīng)網(wǎng)絡(luò)。這一算法最早出現(xiàn)在上世紀(jì)八九十年代，其中時間延遲網(wǎng)絡(luò)和LeNet-5是技術(shù)研發(fā)最早提出的卷積神經(jīng)網(wǎng)絡(luò)，直到二十一世紀(jì)，隨著深度學(xué)習(xí)理論及相關(guān)技術(shù)軟件的不斷優(yōu)化，這一內(nèi)容得到了進(jìn)一步優(yōu)化，并開始被大量引用到計算機(jī)視覺和自然語言等領(lǐng)域中。本文在研究時，將目光主要集中在眼睛繪畫這一特殊問題上，雖然利用卷積網(wǎng)絡(luò)（DNN）可以獲取語義上具有現(xiàn)實性和可信性的應(yīng)用結(jié)果，但大部分深層技術(shù)依舊無法保留照片中人的身份。比如說，在構(gòu)建模型沒有編碼作為基礎(chǔ)保障時，DNN可以學(xué)習(xí)如何打開一雙閉上的雙眼，換句話說新眼鏡可以與原本圖像中人的特定眼結(jié)構(gòu)一一相對。反之，DNNs可以插入一雙眼，與訓(xùn)練集當(dāng)中擁有的相似面孔進(jìn)行識別與判斷，假設(shè)一個人擁有過于明顯的特征，這一內(nèi)容將不會出現(xiàn)在生成部分中[2]。

2 實驗設(shè)計

在本文研究主要分析了所選數(shù)據(jù)集、網(wǎng)路培訓(xùn)以及基線模型，而后在驗證的基礎(chǔ)上利用定性和定量評估這一模型的合理性，而后對所提出的自監(jiān)督學(xué)習(xí)模塊進(jìn)行研究，這種方法可以簡稱為GazeGAN。具體結(jié)構(gòu)如圖1所示：

圖1 GazeGAN模型結(jié)構(gòu)圖

2.1 數(shù)據(jù)集

本文研究所選數(shù)據(jù)集分為兩部分，一種是新凝視數(shù)據(jù)集，其主要是為了評估所構(gòu)成的模型，可以叫做NewGaze數(shù)據(jù)集。這一內(nèi)容包含了3萬幅圖像，且主要分為兩個領(lǐng)域，域X是指人眼盯著相機(jī)有2萬5千張，域Y是指人眼盯著其他地方共有5千張。在對這一數(shù)據(jù)集進(jìn)行處理時，要先裁剪再運用人臉檢測算法計算眼罩區(qū)域，同時將域X看做是訓(xùn)練集，域Y看做是測試集。需要注意的是，這一數(shù)據(jù)集必須沒有標(biāo)記特定的頭部姿態(tài)或視角信息；另一種為哥倫比亞數(shù)據(jù)集，屬于是公開凝視數(shù)據(jù)集，其作為跟蹤調(diào)查的基準(zhǔn)，包含了5880張圖像，且有56個人有5個頭部姿勢，21個凝視方向。在收集這類數(shù)據(jù)信息時，必須要讓每位受試者都貼上三個信息標(biāo)簽，而在處理信息時也要和NewGaze數(shù)據(jù)集一致，先裁剪后再進(jìn)行培訓(xùn)和測試，得到的訓(xùn)練集可以用來進(jìn)行自我引導(dǎo)前的訓(xùn)練模型[3]。

2.2 培訓(xùn)內(nèi)容

根據(jù)提出的自引導(dǎo)預(yù)訓(xùn)練模型在1個大小的批次上實施訓(xùn)練，且學(xué)習(xí)率為0.01。主模型培訓(xùn)的λs、λr和λp都是1。要想保障整體訓(xùn)練過程的穩(wěn)定性，本文研究運用了光譜歸一化處理了鑒別器的所有層。而優(yōu)化器分別為Adam與β1=0.5和β2β1=0.999。此次培訓(xùn)共設(shè)計批次為16次，在第一次20000次迭代中，內(nèi)部繪制模型的學(xué)習(xí)概率達(dá)到了0.0001，且在后續(xù)的迭代中將線性衰減為0。

2.3 基線模型

將GazeGAN看成是一類畫模型，并利用常用的深度注入繪制模型GLGAN作為基線，而后在NewGaze數(shù)據(jù)集中實施訓(xùn)練。而圖像翻譯模型可以在NewGaze數(shù)據(jù)集中訓(xùn)練StarGAN，并合理轉(zhuǎn)換學(xué)習(xí)域X和域Y。在眼睛操作中，深度扭曲已經(jīng)達(dá)成了現(xiàn)如今較為先進(jìn)的注視操作結(jié)果，且主要是利用卷積神經(jīng)網(wǎng)絡(luò)來完成凝視方向的轉(zhuǎn)變。

另外，本文在研究時選用了GLGAN3和StarGAN4作為公共代碼，并輸入已經(jīng)標(biāo)記視角和頭部姿態(tài)信息的配對訓(xùn)練圖像。一方面，要利用哥倫比亞凝視數(shù)據(jù)集進(jìn)行訓(xùn)練，另一方面要在新Gaze和哥倫比亞數(shù)據(jù)集中進(jìn)行測試。具體過程如圖2所示。

圖2 模型測試流程圖

2.4 不變性

針對原有自動編碼器也要利用數(shù)據(jù)集進(jìn)行訓(xùn)練對比，由此觀察分析可以得到，學(xué)習(xí)者編碼大都是線性，將不同的眼睛角度輸入到模型中，其對不同人的相同視角可以得到相同的數(shù)值，而其他曲線則是不規(guī)律的，因此可以判斷自動編碼器難以處理潛在空間所呈現(xiàn)出的角度特征。要想進(jìn)一步驗證自引導(dǎo)預(yù)訓(xùn)練模型在學(xué)習(xí)角不變性特征中的科學(xué)性和有效性，本文在研究訓(xùn)練時將GazeGAN(W/O)與GazeGAN的結(jié)果進(jìn)行對比分析，由此發(fā)現(xiàn)后者的彩繪效果更佳，不僅能保留原始人臉的身份信息，而且可以增強(qiáng)人眼的形狀處理水平[4]。

2.5 結(jié)果分析

通過在實驗分析中掌握NewGaze數(shù)據(jù)集的比較實驗，并利用定量定性的評估方式進(jìn)行分析，能得到更為精準(zhǔn)的實驗結(jié)果。需要注意的是，此時并不需要對模型進(jìn)行任何算法的處理，尤其是對GazeGAN而言。其中，在定性評估中，GazeGAN能準(zhǔn)確糾正人眼，而且利用相機(jī)驗證了這一方法的合理性。而StarGAN能在風(fēng)格或紋理翻譯中獲取更多優(yōu)勢，但很難完成自然的幾何翻譯。由此可證，StarGAN是基于周期一致性損失的，換句話說需要兩個域之間的映射關(guān)系具有持續(xù)性和相反性。按照域定理所表現(xiàn)出的不變性，此時兩個域中的維數(shù)是一致的。但結(jié)合實際結(jié)果分析發(fā)現(xiàn)，域Y要遠(yuǎn)超域X。除此之外，對比GLGAN，GazeGAN在保留臉部結(jié)構(gòu)信息中具有更強(qiáng)優(yōu)勢[5]。

而在定量評估分析中，需要選用兩種方案進(jìn)行操作，一種為初始分?jǐn)?shù)，另一種是基于FID評價眼部區(qū)域生成的樣本質(zhì)量。相比IS，F(xiàn)rechet初始距離(FID)所獲取的樣本的有效性與人類評估更為相近，換句話說過低的FID代表輸入樣本質(zhì)量更高。相比GLGAN的2.87± 0.07，StarGAN實驗?zāi)Ｐ退@取的分?jǐn)?shù)為3.10±0.12，由此表明前者可以獲取更為真實的圖像信息。結(jié)合上文提出的定性評價分析結(jié)果探討可知，StarGAN雖然沒有較強(qiáng)的學(xué)習(xí)翻譯能力，但最終得到分值較高，因此在實際應(yīng)用時能得到高質(zhì)量的樣本，而GazeGAN主要用來學(xué)習(xí)重建，根據(jù)用戶調(diào)查顯示結(jié)果分析可知，這一模型的投票率達(dá)到了35.40%，遠(yuǎn)高于其他型號[6]。

3 結(jié)論

綜上所述，根據(jù)當(dāng)前技術(shù)研發(fā)提出的GazeGAN模型分析可知，其作為現(xiàn)如今最有效且簡單新穎的凝視矯正模型，主要用于處理野生圖像。結(jié)合本文設(shè)計實驗和結(jié)果分析可知，這一模型的新穎之處在于可以運用自監(jiān)督生成對抗性網(wǎng)絡(luò)的修復(fù)模型，在學(xué)習(xí)人臉圖像的同時，運用矯正之后的新內(nèi)容填充眼部區(qū)域存在缺陷的地方。這種方法并不需要對訓(xùn)練數(shù)據(jù)進(jìn)行特殊標(biāo)記，只需要輸入原始的身份信息，就能利用自導(dǎo)預(yù)訓(xùn)練模型進(jìn)行學(xué)習(xí)與翻譯。從實踐應(yīng)用角度來看，其對未來技術(shù)創(chuàng)新發(fā)展而言具有積極作用。