沈曉倩
(吉林大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,吉林 長春 130012)
日常生活中的很多內(nèi)容都需要改變眼睛的外觀,并以數(shù)字化的方式來控制人力對相機(jī)的凝視。比如說,在桌面視頻會議系統(tǒng)交流時,人眼的溝通非常關(guān)鍵,此時基于卷積神經(jīng)網(wǎng)絡(luò)加強(qiáng)人眼凝視,能進(jìn)一步提升人們的表達(dá)注意力和溝通需求。但從實踐應(yīng)用角度來看,大部分視頻會議系統(tǒng)都沒有眼神的交流和凝視意識,出現(xiàn)這現(xiàn)象的原因在于參與者看到的是顯示器,并沒有直接進(jìn)入攝像機(jī)中,此時人眼自動矯正在這一環(huán)節(jié)非常重要。因此,本文根據(jù)當(dāng)前技術(shù)理念提出了一種簡單且新穎的凝視矯正圖像修復(fù)模型,并利用定性與定量的方式評估了這一模型的科學(xué)性和有效性。
在大數(shù)據(jù)時代中,每天大約有三百萬張圖片出現(xiàn)在社交平臺,被各類平臺軟件所捕捉或共享,其中有超過一半的都是以人為中心的圖片。由此可見,在未來技術(shù)革新發(fā)展中,美化算法和逼真的面部修飾將成為計算機(jī)視覺和機(jī)器學(xué)習(xí)的主要研究方向,比如說合成化妝品、紅眼固定以及瑕疵去除等,這些都在市場中得到了認(rèn)可和支持。但從科研角度思考,現(xiàn)如今人類面部結(jié)構(gòu)及其特征操控依舊是科研人員很難跨越的難點。而在深卷積網(wǎng)絡(luò)也叫做DNNs在繪制顯示自然風(fēng)景的圖片缺失區(qū)域中取得了優(yōu)異成績,促使人們對人眼跟蹤有了更深認(rèn)識和理解[1]。
從本質(zhì)上講,卷積神經(jīng)網(wǎng)絡(luò)是指一種包含卷積計算和深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),其屬于深度學(xué)習(xí)具有代表性的一種算法之一。這類算法具有機(jī)槍的表征學(xué)習(xí)能力,且可以按照階層結(jié)構(gòu)在平移的基礎(chǔ)上合理分類處理輸入信息,因此在現(xiàn)如今技術(shù)研究中也叫做平移不變的人工神經(jīng)網(wǎng)絡(luò)。這一算法最早出現(xiàn)在上世紀(jì)八九十年代,其中時間延遲網(wǎng)絡(luò)和LeNet-5是技術(shù)研發(fā)最早提出的卷積神經(jīng)網(wǎng)絡(luò),直到二十一世紀(jì),隨著深度學(xué)習(xí)理論及相關(guān)技術(shù)軟件的不斷優(yōu)化,這一內(nèi)容得到了進(jìn)一步優(yōu)化,并開始被大量引用到計算機(jī)視覺和自然語言等領(lǐng)域中。本文在研究時,將目光主要集中在眼睛繪畫這一特殊問題上,雖然利用卷積網(wǎng)絡(luò)(DNN)可以獲取語義上具有現(xiàn)實性和可信性的應(yīng)用結(jié)果,但大部分深層技術(shù)依舊無法保留照片中人的身份。比如說,在構(gòu)建模型沒有編碼作為基礎(chǔ)保障時,DNN可以學(xué)習(xí)如何打開一雙閉上的雙眼,換句話說新眼鏡可以與原本圖像中人的特定眼結(jié)構(gòu)一一相對。反之,DNNs可以插入一雙眼,與訓(xùn)練集當(dāng)中擁有的相似面孔進(jìn)行識別與判斷,假設(shè)一個人擁有過于明顯的特征,這一內(nèi)容將不會出現(xiàn)在生成部分中[2]。
在本文研究主要分析了所選數(shù)據(jù)集、網(wǎng)路培訓(xùn)以及基線模型,而后在驗證的基礎(chǔ)上利用定性和定量評估這一模型的合理性,而后對所提出的自監(jiān)督學(xué)習(xí)模塊進(jìn)行研究,這種方法可以簡稱為GazeGAN。具體結(jié)構(gòu)如圖1所示:
圖1 GazeGAN模型結(jié)構(gòu)圖
本文研究所選數(shù)據(jù)集分為兩部分,一種是新凝視數(shù)據(jù)集,其主要是為了評估所構(gòu)成的模型,可以叫做NewGaze數(shù)據(jù)集。這一內(nèi)容包含了3萬幅圖像,且主要分為兩個領(lǐng)域,域X是指人眼盯著相機(jī)有2萬5千張,域Y是指人眼盯著其他地方共有5千張。在對這一數(shù)據(jù)集進(jìn)行處理時,要先裁剪再運用人臉檢測算法計算眼罩區(qū)域,同時將域X看做是訓(xùn)練集,域Y看做是測試集。需要注意的是,這一數(shù)據(jù)集必須沒有標(biāo)記特定的頭部姿態(tài)或視角信息;另一種為哥倫比亞數(shù)據(jù)集,屬于是公開凝視數(shù)據(jù)集,其作為跟蹤調(diào)查的基準(zhǔn),包含了5880張圖像,且有56個人有5個頭部姿勢,21個凝視方向。在收集這類數(shù)據(jù)信息時,必須要讓每位受試者都貼上三個信息標(biāo)簽,而在處理信息時也要和NewGaze數(shù)據(jù)集一致,先裁剪后再進(jìn)行培訓(xùn)和測試,得到的訓(xùn)練集可以用來進(jìn)行自我引導(dǎo)前的訓(xùn)練模型[3]。
根據(jù)提出的自引導(dǎo)預(yù)訓(xùn)練模型在1個大小的批次上實施訓(xùn)練,且學(xué)習(xí)率為0.01。主模型培訓(xùn)的λs、λr和λp都是1。要想保障整體訓(xùn)練過程的穩(wěn)定性,本文研究運用了光譜歸一化處理了鑒別器的所有層。而優(yōu)化器分別為Adam與β1=0.5和β2β1=0.999。此次培訓(xùn)共設(shè)計批次為16次,在第一次20000次迭代中,內(nèi)部繪制模型的學(xué)習(xí)概率達(dá)到了0.0001,且在后續(xù)的迭代中將線性衰減為0。
將GazeGAN看成是一類畫模型,并利用常用的深度注入繪制模型GLGAN作為基線,而后在NewGaze數(shù)據(jù)集中實施訓(xùn)練。而圖像翻譯模型可以在NewGaze數(shù)據(jù)集中訓(xùn)練StarGAN,并合理轉(zhuǎn)換學(xué)習(xí)域X和域Y。在眼睛操作中,深度扭曲已經(jīng)達(dá)成了現(xiàn)如今較為先進(jìn)的注視操作結(jié)果,且主要是利用卷積神經(jīng)網(wǎng)絡(luò)來完成凝視方向的轉(zhuǎn)變。
另外,本文在研究時選用了GLGAN3和StarGAN4作為公共代碼,并輸入已經(jīng)標(biāo)記視角和頭部姿態(tài)信息的配對訓(xùn)練圖像。一方面,要利用哥倫比亞凝視數(shù)據(jù)集進(jìn)行訓(xùn)練,另一方面要在新Gaze和哥倫比亞數(shù)據(jù)集中進(jìn)行測試。具體過程如圖2所示。
圖2 模型測試流程圖
針對原有自動編碼器也要利用數(shù)據(jù)集進(jìn)行訓(xùn)練對比,由此觀察分析可以得到,學(xué)習(xí)者編碼大都是線性,將不同的眼睛角度輸入到模型中,其對不同人的相同視角可以得到相同的數(shù)值,而其他曲線則是不規(guī)律的,因此可以判斷自動編碼器難以處理潛在空間所呈現(xiàn)出的角度特征。要想進(jìn)一步驗證自引導(dǎo)預(yù)訓(xùn)練模型在學(xué)習(xí)角不變性特征中的科學(xué)性和有效性,本文在研究訓(xùn)練時將GazeGAN(W/O)與GazeGAN的結(jié)果進(jìn)行對比分析,由此發(fā)現(xiàn)后者的彩繪效果更佳,不僅能保留原始人臉的身份信息,而且可以增強(qiáng)人眼的形狀處理水平[4]。
通過在實驗分析中掌握NewGaze數(shù)據(jù)集的比較實驗,并利用定量定性的評估方式進(jìn)行分析,能得到更為精準(zhǔn)的實驗結(jié)果。需要注意的是,此時并不需要對模型進(jìn)行任何算法的處理,尤其是對GazeGAN而言。其中,在定性評估中,GazeGAN能準(zhǔn)確糾正人眼,而且利用相機(jī)驗證了這一方法的合理性。而StarGAN能在風(fēng)格或紋理翻譯中獲取更多優(yōu)勢,但很難完成自然的幾何翻譯。由此可證,StarGAN是基于周期一致性損失的,換句話說需要兩個域之間的映射關(guān)系具有持續(xù)性和相反性。按照域定理所表現(xiàn)出的不變性,此時兩個域中的維數(shù)是一致的。但結(jié)合實際結(jié)果分析發(fā)現(xiàn),域Y要遠(yuǎn)超域X。除此之外,對比GLGAN,GazeGAN在保留臉部結(jié)構(gòu)信息中具有更強(qiáng)優(yōu)勢[5]。
而在定量評估分析中,需要選用兩種方案進(jìn)行操作,一種為初始分?jǐn)?shù),另一種是基于FID評價眼部區(qū)域生成的樣本質(zhì)量。相比IS,F(xiàn)rechet初始距離(FID)所獲取的樣本的有效性與人類評估更為相近,換句話說過低的FID代表輸入樣本質(zhì)量更高。相比GLGAN的2.87± 0.07,StarGAN實驗?zāi)P退@取的分?jǐn)?shù)為3.10±0.12,由此表明前者可以獲取更為真實的圖像信息。結(jié)合上文提出的定性評價分析結(jié)果探討可知,StarGAN雖然沒有較強(qiáng)的學(xué)習(xí)翻譯能力,但最終得到分值較高,因此在實際應(yīng)用時能得到高質(zhì)量的樣本,而GazeGAN主要用來學(xué)習(xí)重建,根據(jù)用戶調(diào)查顯示結(jié)果分析可知,這一模型的投票率達(dá)到了35.40%,遠(yuǎn)高于其他型號[6]。
綜上所述,根據(jù)當(dāng)前技術(shù)研發(fā)提出的GazeGAN模型分析可知,其作為現(xiàn)如今最有效且簡單新穎的凝視矯正模型,主要用于處理野生圖像。結(jié)合本文設(shè)計實驗和結(jié)果分析可知,這一模型的新穎之處在于可以運用自監(jiān)督生成對抗性網(wǎng)絡(luò)的修復(fù)模型,在學(xué)習(xí)人臉圖像的同時,運用矯正之后的新內(nèi)容填充眼部區(qū)域存在缺陷的地方。這種方法并不需要對訓(xùn)練數(shù)據(jù)進(jìn)行特殊標(biāo)記,只需要輸入原始的身份信息,就能利用自導(dǎo)預(yù)訓(xùn)練模型進(jìn)行學(xué)習(xí)與翻譯。從實踐應(yīng)用角度來看,其對未來技術(shù)創(chuàng)新發(fā)展而言具有積極作用。