• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于卷積神經(jīng)網(wǎng)絡(luò)的視頻聊天中人眼自動矯正

      2022-01-17 06:20:40沈曉倩
      電子元器件與信息技術(shù) 2021年9期
      關(guān)鍵詞:人眼卷積神經(jīng)網(wǎng)絡(luò)

      沈曉倩

      (吉林大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,吉林 長春 130012)

      0 引言

      日常生活中的很多內(nèi)容都需要改變眼睛的外觀,并以數(shù)字化的方式來控制人力對相機(jī)的凝視。比如說,在桌面視頻會議系統(tǒng)交流時,人眼的溝通非常關(guān)鍵,此時基于卷積神經(jīng)網(wǎng)絡(luò)加強(qiáng)人眼凝視,能進(jìn)一步提升人們的表達(dá)注意力和溝通需求。但從實踐應(yīng)用角度來看,大部分視頻會議系統(tǒng)都沒有眼神的交流和凝視意識,出現(xiàn)這現(xiàn)象的原因在于參與者看到的是顯示器,并沒有直接進(jìn)入攝像機(jī)中,此時人眼自動矯正在這一環(huán)節(jié)非常重要。因此,本文根據(jù)當(dāng)前技術(shù)理念提出了一種簡單且新穎的凝視矯正圖像修復(fù)模型,并利用定性與定量的方式評估了這一模型的科學(xué)性和有效性。

      1 背景介紹

      在大數(shù)據(jù)時代中,每天大約有三百萬張圖片出現(xiàn)在社交平臺,被各類平臺軟件所捕捉或共享,其中有超過一半的都是以人為中心的圖片。由此可見,在未來技術(shù)革新發(fā)展中,美化算法和逼真的面部修飾將成為計算機(jī)視覺和機(jī)器學(xué)習(xí)的主要研究方向,比如說合成化妝品、紅眼固定以及瑕疵去除等,這些都在市場中得到了認(rèn)可和支持。但從科研角度思考,現(xiàn)如今人類面部結(jié)構(gòu)及其特征操控依舊是科研人員很難跨越的難點。而在深卷積網(wǎng)絡(luò)也叫做DNNs在繪制顯示自然風(fēng)景的圖片缺失區(qū)域中取得了優(yōu)異成績,促使人們對人眼跟蹤有了更深認(rèn)識和理解[1]。

      從本質(zhì)上講,卷積神經(jīng)網(wǎng)絡(luò)是指一種包含卷積計算和深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),其屬于深度學(xué)習(xí)具有代表性的一種算法之一。這類算法具有機(jī)槍的表征學(xué)習(xí)能力,且可以按照階層結(jié)構(gòu)在平移的基礎(chǔ)上合理分類處理輸入信息,因此在現(xiàn)如今技術(shù)研究中也叫做平移不變的人工神經(jīng)網(wǎng)絡(luò)。這一算法最早出現(xiàn)在上世紀(jì)八九十年代,其中時間延遲網(wǎng)絡(luò)和LeNet-5是技術(shù)研發(fā)最早提出的卷積神經(jīng)網(wǎng)絡(luò),直到二十一世紀(jì),隨著深度學(xué)習(xí)理論及相關(guān)技術(shù)軟件的不斷優(yōu)化,這一內(nèi)容得到了進(jìn)一步優(yōu)化,并開始被大量引用到計算機(jī)視覺和自然語言等領(lǐng)域中。本文在研究時,將目光主要集中在眼睛繪畫這一特殊問題上,雖然利用卷積網(wǎng)絡(luò)(DNN)可以獲取語義上具有現(xiàn)實性和可信性的應(yīng)用結(jié)果,但大部分深層技術(shù)依舊無法保留照片中人的身份。比如說,在構(gòu)建模型沒有編碼作為基礎(chǔ)保障時,DNN可以學(xué)習(xí)如何打開一雙閉上的雙眼,換句話說新眼鏡可以與原本圖像中人的特定眼結(jié)構(gòu)一一相對。反之,DNNs可以插入一雙眼,與訓(xùn)練集當(dāng)中擁有的相似面孔進(jìn)行識別與判斷,假設(shè)一個人擁有過于明顯的特征,這一內(nèi)容將不會出現(xiàn)在生成部分中[2]。

      2 實驗設(shè)計

      在本文研究主要分析了所選數(shù)據(jù)集、網(wǎng)路培訓(xùn)以及基線模型,而后在驗證的基礎(chǔ)上利用定性和定量評估這一模型的合理性,而后對所提出的自監(jiān)督學(xué)習(xí)模塊進(jìn)行研究,這種方法可以簡稱為GazeGAN。具體結(jié)構(gòu)如圖1所示:

      圖1 GazeGAN模型結(jié)構(gòu)圖

      2.1 數(shù)據(jù)集

      本文研究所選數(shù)據(jù)集分為兩部分,一種是新凝視數(shù)據(jù)集,其主要是為了評估所構(gòu)成的模型,可以叫做NewGaze數(shù)據(jù)集。這一內(nèi)容包含了3萬幅圖像,且主要分為兩個領(lǐng)域,域X是指人眼盯著相機(jī)有2萬5千張,域Y是指人眼盯著其他地方共有5千張。在對這一數(shù)據(jù)集進(jìn)行處理時,要先裁剪再運用人臉檢測算法計算眼罩區(qū)域,同時將域X看做是訓(xùn)練集,域Y看做是測試集。需要注意的是,這一數(shù)據(jù)集必須沒有標(biāo)記特定的頭部姿態(tài)或視角信息;另一種為哥倫比亞數(shù)據(jù)集,屬于是公開凝視數(shù)據(jù)集,其作為跟蹤調(diào)查的基準(zhǔn),包含了5880張圖像,且有56個人有5個頭部姿勢,21個凝視方向。在收集這類數(shù)據(jù)信息時,必須要讓每位受試者都貼上三個信息標(biāo)簽,而在處理信息時也要和NewGaze數(shù)據(jù)集一致,先裁剪后再進(jìn)行培訓(xùn)和測試,得到的訓(xùn)練集可以用來進(jìn)行自我引導(dǎo)前的訓(xùn)練模型[3]。

      2.2 培訓(xùn)內(nèi)容

      根據(jù)提出的自引導(dǎo)預(yù)訓(xùn)練模型在1個大小的批次上實施訓(xùn)練,且學(xué)習(xí)率為0.01。主模型培訓(xùn)的λs、λr和λp都是1。要想保障整體訓(xùn)練過程的穩(wěn)定性,本文研究運用了光譜歸一化處理了鑒別器的所有層。而優(yōu)化器分別為Adam與β1=0.5和β2β1=0.999。此次培訓(xùn)共設(shè)計批次為16次,在第一次20000次迭代中,內(nèi)部繪制模型的學(xué)習(xí)概率達(dá)到了0.0001,且在后續(xù)的迭代中將線性衰減為0。

      2.3 基線模型

      將GazeGAN看成是一類畫模型,并利用常用的深度注入繪制模型GLGAN作為基線,而后在NewGaze數(shù)據(jù)集中實施訓(xùn)練。而圖像翻譯模型可以在NewGaze數(shù)據(jù)集中訓(xùn)練StarGAN,并合理轉(zhuǎn)換學(xué)習(xí)域X和域Y。在眼睛操作中,深度扭曲已經(jīng)達(dá)成了現(xiàn)如今較為先進(jìn)的注視操作結(jié)果,且主要是利用卷積神經(jīng)網(wǎng)絡(luò)來完成凝視方向的轉(zhuǎn)變。

      另外,本文在研究時選用了GLGAN3和StarGAN4作為公共代碼,并輸入已經(jīng)標(biāo)記視角和頭部姿態(tài)信息的配對訓(xùn)練圖像。一方面,要利用哥倫比亞凝視數(shù)據(jù)集進(jìn)行訓(xùn)練,另一方面要在新Gaze和哥倫比亞數(shù)據(jù)集中進(jìn)行測試。具體過程如圖2所示。

      圖2 模型測試流程圖

      2.4 不變性

      針對原有自動編碼器也要利用數(shù)據(jù)集進(jìn)行訓(xùn)練對比,由此觀察分析可以得到,學(xué)習(xí)者編碼大都是線性,將不同的眼睛角度輸入到模型中,其對不同人的相同視角可以得到相同的數(shù)值,而其他曲線則是不規(guī)律的,因此可以判斷自動編碼器難以處理潛在空間所呈現(xiàn)出的角度特征。要想進(jìn)一步驗證自引導(dǎo)預(yù)訓(xùn)練模型在學(xué)習(xí)角不變性特征中的科學(xué)性和有效性,本文在研究訓(xùn)練時將GazeGAN(W/O)與GazeGAN的結(jié)果進(jìn)行對比分析,由此發(fā)現(xiàn)后者的彩繪效果更佳,不僅能保留原始人臉的身份信息,而且可以增強(qiáng)人眼的形狀處理水平[4]。

      2.5 結(jié)果分析

      通過在實驗分析中掌握NewGaze數(shù)據(jù)集的比較實驗,并利用定量定性的評估方式進(jìn)行分析,能得到更為精準(zhǔn)的實驗結(jié)果。需要注意的是,此時并不需要對模型進(jìn)行任何算法的處理,尤其是對GazeGAN而言。其中,在定性評估中,GazeGAN能準(zhǔn)確糾正人眼,而且利用相機(jī)驗證了這一方法的合理性。而StarGAN能在風(fēng)格或紋理翻譯中獲取更多優(yōu)勢,但很難完成自然的幾何翻譯。由此可證,StarGAN是基于周期一致性損失的,換句話說需要兩個域之間的映射關(guān)系具有持續(xù)性和相反性。按照域定理所表現(xiàn)出的不變性,此時兩個域中的維數(shù)是一致的。但結(jié)合實際結(jié)果分析發(fā)現(xiàn),域Y要遠(yuǎn)超域X。除此之外,對比GLGAN,GazeGAN在保留臉部結(jié)構(gòu)信息中具有更強(qiáng)優(yōu)勢[5]。

      而在定量評估分析中,需要選用兩種方案進(jìn)行操作,一種為初始分?jǐn)?shù),另一種是基于FID評價眼部區(qū)域生成的樣本質(zhì)量。相比IS,F(xiàn)rechet初始距離(FID)所獲取的樣本的有效性與人類評估更為相近,換句話說過低的FID代表輸入樣本質(zhì)量更高。相比GLGAN的2.87± 0.07,StarGAN實驗?zāi)P退@取的分?jǐn)?shù)為3.10±0.12,由此表明前者可以獲取更為真實的圖像信息。結(jié)合上文提出的定性評價分析結(jié)果探討可知,StarGAN雖然沒有較強(qiáng)的學(xué)習(xí)翻譯能力,但最終得到分值較高,因此在實際應(yīng)用時能得到高質(zhì)量的樣本,而GazeGAN主要用來學(xué)習(xí)重建,根據(jù)用戶調(diào)查顯示結(jié)果分析可知,這一模型的投票率達(dá)到了35.40%,遠(yuǎn)高于其他型號[6]。

      3 結(jié)論

      綜上所述,根據(jù)當(dāng)前技術(shù)研發(fā)提出的GazeGAN模型分析可知,其作為現(xiàn)如今最有效且簡單新穎的凝視矯正模型,主要用于處理野生圖像。結(jié)合本文設(shè)計實驗和結(jié)果分析可知,這一模型的新穎之處在于可以運用自監(jiān)督生成對抗性網(wǎng)絡(luò)的修復(fù)模型,在學(xué)習(xí)人臉圖像的同時,運用矯正之后的新內(nèi)容填充眼部區(qū)域存在缺陷的地方。這種方法并不需要對訓(xùn)練數(shù)據(jù)進(jìn)行特殊標(biāo)記,只需要輸入原始的身份信息,就能利用自導(dǎo)預(yù)訓(xùn)練模型進(jìn)行學(xué)習(xí)與翻譯。從實踐應(yīng)用角度來看,其對未來技術(shù)創(chuàng)新發(fā)展而言具有積極作用。

      猜你喜歡
      人眼卷積神經(jīng)網(wǎng)絡(luò)
      基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
      神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      人眼X光
      快樂語文(2019年9期)2019-06-22 10:00:38
      人眼為什么能看到虛像
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      閃瞎人眼的,還有唇
      優(yōu)雅(2016年12期)2017-02-28 21:32:58
      看人,星光璀璨繚人眼
      電影故事(2016年5期)2016-06-15 20:27:30
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
      復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
      越西县| 富阳市| 策勒县| 图们市| 雷山县| 兰考县| 铁力市| 静海县| 鲁甸县| 井陉县| 蒲城县| 苍溪县| 雅江县| 祁门县| 阿荣旗| 肇源县| 林甸县| 商都县| 太仓市| 额尔古纳市| 富蕴县| 新化县| 云梦县| 上饶县| 锡林郭勒盟| 龙井市| 临高县| 广昌县| 新乐市| 南昌县| 崇礼县| 祥云县| 祁门县| 黄石市| 隆化县| 宜州市| 凉城县| 宝山区| 贵定县| 平定县| 上高县|