• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于混合Transformer模型的三維視線估計

      2024-01-16 01:13:02童立靖王清河馮金芝
      關鍵詞:視線特征提取注意力

      童立靖,王清河,馮金芝

      (北方工業(yè)大學 信息學院,北京 100144)

      在計算機視覺領域,三維視線估計是一個具有挑戰(zhàn)性的研究課題,它在人機交互[1]、教育[2]、醫(yī)學[3]、商業(yè)[4]等領域發(fā)揮著重要作用.三維視線估計方法主要分為兩大類:基于模型的方法和基于外觀的方法[5],基于模型的方法通常需要專用硬件,這使得它們在不受約束的環(huán)境中難以適用.而基于外觀的方法可以直接從獲取的圖像中估計出三維視線方向,表現(xiàn)出不錯的視線估計結(jié)果.

      近年來,隨著深度學習的發(fā)展,提出了許多新的基于外觀的三維視線估計方法.然而,個人和環(huán)境因素(如頭部姿勢、面部外觀和光線明暗等)的影響復雜多樣,這些因素分散并融合在整個外觀之中,讓基于外觀的視線估計問題變得更加復雜且具有挑戰(zhàn)性[6].這意味著深度學習模型所學習的映射函數(shù)應該是高度非線性的,并具有很好的處理整個外觀的能力,否則會導致視線估計的準確度不夠高.因此,更為有效的視線估計模型至關重要.

      由于深度學習方法可以對圖像和視線之間的高度非線性映射函數(shù)進行建模,相比傳統(tǒng)方法,可以取得更好的視線估計效果.ZHANG 等[7]首先提出了一個基于VGG 模型的卷積神經(jīng)網(wǎng)絡架構,使用單目圖像預測視線方向.此后,他們又設計了一個空間權重卷積神經(jīng)網(wǎng)絡[8],給那些與視線相關的面部區(qū)域賦予更多權重來提高視線估計精度.CHEN等[9]采用擴張卷積方法,在不降低空間分辨率的情況下,利用從圖像中提取的高級特征,捕捉人眼圖像的細微變化.SHA 等[10]提出了離散化視線網(wǎng)絡DGaze-Net(Discretization Gaze Network),通過將視線角度離散化為K個容器,將分類約束添加到視線預測器中,視線角度在使用真實視線角度回歸之前預先應用了分箱分類,以提高視線估計的準確性.但是,這些基于單個卷積神經(jīng)網(wǎng)絡模型進行視線估計的方法,相比目前的一些深度學習方法,網(wǎng)絡模型結(jié)構的復雜度不高,特征提取能力不強,因而視線估計的準確度不高,難以達到預期的精度.

      受到雙眼不對稱性的啟發(fā),CHENG等[11]提出了基于面部的非對稱回歸評估網(wǎng)絡FARE-Net(Facebased Asymmetric Regression Evaluation Network),采用非對稱方法,為每只眼睛的損失權重賦予非對稱權重,分別估計兩只眼睛的三維視線角度,來優(yōu)化視線估計結(jié)果.CHENG 等[12]提出了一種粗到細的自適應網(wǎng)絡CA-Net(Coarse-to-fine Adaptive Network),首先使用面部圖像預測主視線角度,然后利用眼部圖像估計的殘差進行自適應.LUO 等[13]提出了一種協(xié)作網(wǎng)絡模型CI-Net(Consistency estimation Network and Inconsistency estimation Network),通過兩個網(wǎng)絡協(xié)作,加入注意力機制,自適應分配眼睛和面部特征之間的權重來估計視線.這些通過多個卷積神經(jīng)網(wǎng)絡合作進行視線估計的方法,導致模型的參數(shù)量急劇上升.此外,這些方法對提取到的特征利用還不夠有效,提取到的特征和視線估計之間的建模效果還不夠理想.

      CHENG 等[14]首次提出了使用Transformer[15]模型GazeTR(Gaze estimation using Transformer)進行視線方向估計.其后LI 等人[16]使用卷積結(jié)構取代了SwinTransformer 的切片和映射機制,使得Transformer 可以進行多尺度特征學習.但是,原始Transformer 模型的特征提取能力較弱,無法準確有效地提取視線估計特征,致使視線估計的準確度相比使用多個卷積神經(jīng)網(wǎng)絡的模型并沒有太大提高.

      針對上述問題,本文提出一個基于混合Transformer 的視線估計模型,在模型參數(shù)量保持在較低水平的同時,能夠較為準確地估計出視線方向,主要步驟如下:

      (1)在MobileNet V3[17]網(wǎng)絡基礎上,將壓縮-激勵注意力機制SE(Squeeze-and-Excitation)替換為坐標注意力機制CA[18](Coordinate Attention),并修改MobileNet V3 網(wǎng)絡的輸出層,增加一個1 × 1 的卷積層,以充分有效地提取人臉圖像中的視線特征,并將其輸入到Transformer模型中;

      (2)在Transformer 模型的前向反饋神經(jīng)網(wǎng)絡層,加入一個卷積核大小為3 × 3 的深度卷積層,提高了模型的表達能力,以輸出較為準確的視線估計.

      1 本文模型

      本文模型包括特征提取模塊和視線估計模塊兩部分.首先將人臉圖像送入基于改進的MobileNet V3網(wǎng)絡特征提取模塊,然后將提取的特征輸入到改進后的Transformer 模型,并最終輸出視線方向的估計結(jié)果.本文模型的整體結(jié)構如圖1所示.

      圖1 混合Transformer模型網(wǎng)絡結(jié)構Fig.1 Network structure of hybrid Transformer model

      1.1 基于改進的MobileNet V3網(wǎng)絡的特征提取

      MobileNet V3 使用網(wǎng)絡架構搜索NAS(Network Architecture Search)技術,并結(jié)合NetAdapt算法[19]對卷積核和通道進行優(yōu)化組合.卷積操作上,使用深度可分離卷積(Depthwise Separable Convolution)替代了傳統(tǒng)的卷積,并引入線性瓶頸結(jié)構(Linear Bottlenecks)和倒殘差結(jié)構(Inverted Residual Blocks).此外,在原始MobileNet V3 中還使用了壓縮-激勵注意力機制,通過全局池化操作,將特征圖壓縮為一個全局特征向量,此全局特征向量包含了整個特征圖的全局信息;然后使用兩層全連接層,將全局特征向量映射為一個注意力向量,這個注意力向量可以根據(jù)特征的重要性來調(diào)整每個特征的權重.

      為了更好地提取圖像特征,并降低模型的整體復雜度,本文改進了MobileNet V3網(wǎng)絡,加入了多層坐標注意力機制,來替換壓縮-激勵注意力機制,提高特征提取的有效性,并新增一個1 × 1 的卷積層,替換原始輸出層的池化和全連接操作,最終輸出準確有效的人臉圖像視線特征圖.

      在本文的視線估計方法中,對于給定的人臉圖像I∈RH×W×C,使用改進的MobileNet V3 網(wǎng)絡進行特征提取,其中H、W分別為圖像的長度和寬度,C為通道數(shù).改進的MobileNet V3 網(wǎng)絡將原有網(wǎng)絡中的壓縮-激勵注意力機制替換為坐標注意力機制,壓縮-激勵注意力機制只使用全局特征向量,因而在特征圖中缺少位置信息,而坐標注意力機制通過編碼操作可以嵌入精確的位置信息,從而能夠更好地捕捉特征圖中的位置關系,提高了模型的特征提取能力;同時,坐標注意力機制與壓縮-激勵注意力機制相比,單層坐標注意力機制在特征提取時主要使用的是1 × 1 的卷積,而單層壓縮-激勵注意力機制在特征提取時主要使用的是兩層全連接層.1 × 1 卷積在計算時是對輸入通道的線性組合,而全連接層的計算則是輸入與權重相乘并相加,再加上偏置項,因此就單層的計算成本而言,這兩種方法變化不大.此外,在原始MobileNet V3 網(wǎng)絡中使用的是8 層的壓縮-激勵注意力機制,而在改進的MobileNet V3 網(wǎng)絡中,使用的是3層的坐標注意力機制,因此模型的總體復雜度有所降低.坐標注意力機制結(jié)構如圖2所示,它通過精確的位置信息對通道關系和遠程依賴進行編碼.

      圖2 坐標注意力模塊Fig.2 Coordinate attention module

      為了使注意力機制能夠具備捕捉遠程空間交互作用的精確位置信息,對全局池化進行了分解,將其轉(zhuǎn)換為一維的特征編碼操作.對于輸入的圖像特征X,每個通道首先使用大小為(H,1)或(1,W)的池化核沿水平和垂直坐標進行編碼.因此,高度為H的通道C的輸出如式(1)所示:

      寬度為W的通道C的輸出如式(2)所示:

      為了適應視線估計任務,去除了原始MobileNet V3 網(wǎng)絡輸出層,對于MobileNet V3 網(wǎng)絡輸出的7 × 7 × 960 特征數(shù)據(jù),新增了一個1 × 1 的卷積層,進行通道縮放,其新增卷積層結(jié)構如圖3所示.

      圖3 新增的卷積層Fig.3 New convolution layer

      1 × 1 卷積后的特征數(shù)據(jù),經(jīng)批量歸一化BN(Batch Normalization)操作和h-swish 激活函數(shù)處理后得到7 × 7 × 32 的特征圖,其中,h-swish 激活函數(shù)的計算如式(3)所示.與傳統(tǒng)的ReLU 等激活函數(shù)相比,h-swish 激活函數(shù)更加平滑且具有連續(xù)性,能夠提高模型的性能和精度.

      1.2 基于改進Transformer模型的視線估計

      MobileNet V3 網(wǎng)絡層輸出的特征圖經(jīng)過改進的Transformer模型處理,完成三維視線估計.改進后的Transformer網(wǎng)絡整體結(jié)構如圖4所示.

      圖4 改進后的Transformer模型結(jié)構Fig.4 Improved Transformer model structure

      它由多個并行編碼層組成,每個編碼層包含兩個子層:多頭自注意力層MSA(Multi-head Self-Attention)和前向反饋神經(jīng)網(wǎng)絡層FNN(Feedforward Neural Network).對于MobileNet V3 網(wǎng)絡提取的特征圖fimg∈Rh×w×c,首先在嵌入層中調(diào)整為2維的圖像塊fp∈Rl×c,其中l(wèi)=h·w,h、w分別為圖像塊的長度和寬度,l為特征矩陣的長度,c為特征矩陣的維度.此外,在嵌入層還向特征矩陣中添加了額外的標記ftoken,ftoken是一個可學習的嵌入向量,并且與特征向量具有相同的維數(shù),即ftoken∈R1×c.然后重新編碼每個圖像塊的位置信息,創(chuàng)建一個可學習位置編碼fpos∈R(l+1×c),并加入到圖像特征矩陣中,得到最終的特征矩陣如下:

      其中[]表示連接操作.

      在三維視線估計的多頭自注意力模塊中,自注意力機制將特征矩陣f∈R(l+1×c),經(jīng)過線性變換,得到查詢向量Q∈Rn×dk,鍵向量K∈Rn×dk和值向量V∈Rn×dv,其中n為輸入序列的長度,dk和dv為每個特征的維度.自注意力機制的計算如式(5)所示:

      多頭自注意力模塊將自注意力機制擴展到多個子空間,通過不同的線性變換對查詢、鍵和值進行N次線性投影,其中N為多頭頭數(shù).每個頭的輸出被拼接并經(jīng)過線性變換得到最終輸出.為了穩(wěn)定訓練、加速收斂,每個多頭自注意力層之后都進行了層歸一化LN(LayerNormalization)和殘差連接[20],然后輸入給前向反饋神經(jīng)網(wǎng)絡層.

      為了能夠準確估計出視線方向,提高模型的整體性能,本文對Transformer 模型的前向反饋神經(jīng)網(wǎng)絡層進行了改進.Transformer 模型的前向反饋神經(jīng)網(wǎng)絡層能夠?qū)⒍囝^注意力機制的輸出進行非線性變換和全局特征整合.傳統(tǒng)的前向反饋神經(jīng)網(wǎng)絡通常由兩個全連接層和一個非線性激活函數(shù)組成,能夠完成序列中不同位置間的關系捕捉.然而,傳統(tǒng)的前向反饋神經(jīng)網(wǎng)絡不足以應對三維視線估計任務中的復雜映射,導致其估計精度不高.本文對前向反饋神經(jīng)網(wǎng)絡層進行了改進,在兩個全連接層之間增加了一層卷積核大小為3 的深度卷積層.在卷積操作中,只對輸入的每個通道進行卷積計算,而不是像傳統(tǒng)卷積那樣對所有輸入通道進行計算,其卷積過程如圖5 所示.此深度卷積層能夠有效地捕捉序列中的局部空間關系和長期依賴關系,從而加強前向反饋神經(jīng)網(wǎng)絡的非線性表示能力和全局特征整合能力,提高了模型對三維視線特征的捕捉能力.

      圖5 深度卷積的過程Fig.5 Depthwise convolution process

      在改進后的Transformer 中,MSA 層輸出的特征矩陣x′由具有深度卷積層的前向反饋神經(jīng)網(wǎng)絡進行特征整合,實現(xiàn)非線性映射,如式(6)和式(7)所示:

      式中:X為輸入的嵌入層特征矩陣,MSA(·)為多頭自注意力處理函數(shù),LN(·)為層歸一化處理函數(shù),F(xiàn)NN(·)為前向反饋神經(jīng)網(wǎng)絡映射函數(shù),x與X具有相同的維度,即x∈Rn×d,因此模型可設計為N層Transformer的并行處理.

      改進后的Transformer 處理嵌入層輸入,并輸出視線估計特征矩陣.選擇第一個特征向量,即ftoken的對應位置,作為視線特征表達,并使用多層感知機MLP(Multi Layer Perception)從視線特征表達中回歸視線方向矢量,如式(8)所示:

      式中:[0,:]為選特征矩陣第一行,g為估計的視線方向矢量,MLP(·) 為多層感知機映射函數(shù),Transformer(·)的計算如式(6)和式(7)所示.

      2 實驗和分析

      2.1 數(shù)據(jù)集和評價指標

      本文使用MPIIFaceGaze 數(shù)據(jù)集進行模型的訓練和評估,并按照文獻[21]對其進行了預處理.經(jīng)過預處理后,MPIIFaceGaze 數(shù)據(jù)集包含15 個受試者的45000張圖像,使用留一評估法進行評估,角度誤差作為評價指標.

      2.2 實驗細節(jié)

      本文模型使用PyTorch 實現(xiàn),在NVIDIA Tesla V100 GPU 上進行訓練.訓練時,批量大?。˙atchsize)設置為512,迭代周期(Epoch)為120,學習率設置為0.0005,權重衰減為0.5,衰減步驟設置為60 個epoch.使用Adam 優(yōu)化器訓練模型,其中β1=0.9,β2=0.99;使用線性學習率進行預熱,設置為5個epoch.

      實驗圖像為224 × 224 × 3 的人臉圖像,視線估計結(jié)果為由垂直偏轉(zhuǎn)角(Pitch)和水平偏轉(zhuǎn)角(Yaw)構成的二維向量.訓練過程中的損失函數(shù)為L1-loss函數(shù),如式(9)所示:

      式中:yi為真實值為估計值|為真實值與估計值之間的絕對誤差,n為樣本個數(shù)為對所有樣本的誤差取均值,從而得到平均絕對誤差MAE(Mean Absolute Error),MAE 越小,估計結(jié)果與真實值越接近.

      改進后的Transformer 模型執(zhí)行8 頭自注意力機制,前向反饋神經(jīng)網(wǎng)絡層中神經(jīng)元個數(shù)為512,每層中的神經(jīng)元隨機失活率dropout為0.1.

      2.3 不同視線估計方法的對比分析

      為了評估視線估計的性能,將本文方法與CANet、AGE-Net[22]、GazeTR、L2CS-Net[23]等方法進行了對比實驗.本文提出的基于混合Transformer 模型的三維視線估計方法在視線估計精度上均高于其他方法,結(jié)果如表1所示.

      表1 實驗結(jié)果對比Tab.1 Comparison of experimental results

      此外,本文與使用Transformer 模型進行視線估計的GazeTR 方法,在MPIIFaceGaze 數(shù)據(jù)集上,對15 個不同對象的視線估計誤差進行了分析對比,本文方法在12 個對象中的視線角度誤差表現(xiàn)均優(yōu)于GazeTR,結(jié)果如圖6所示.

      圖6 MPIIFaceGaze數(shù)據(jù)集上15個不同對象的視線估計角度誤差結(jié)果Fig.6 Angle error results of gaze estimation for 15 different subjects on the MPIIFaceGaze dataset

      本文方法與GazeTR 方法的部分結(jié)果可視化圖像如圖7所示,綠色為視線的真實方向,紅色為本文方法的視線估計方向,紫色為GazeTR 的視線估計方向.

      圖7 結(jié)果可視化圖像Fig.7 Result visualization images

      最后,本文方法還與GazeTR、L2CS-NET 方法的模型參數(shù)量和視線估計角度誤差進行了綜合比較,實驗結(jié)果如圖8 所示,其中氣泡越大,參數(shù)量越大.本文方法在視線角度誤差較小時,仍能保持較低的模型參數(shù)量.

      圖8 模型大小與視線角度誤差的對比Fig.8 Comparison of model size and angle error of gaze estimation

      2.4 模型改進前后的性能對比分析

      為驗證對MobileNet V3 網(wǎng)絡和Transformer 模型的改進在三維視線估計任務中的有效性,在MPIIFaceGaze 數(shù)據(jù)集上,基于相同的實驗環(huán)境條件,對全部15 個不同人物的45000 張人臉圖像,在角度誤差、參數(shù)量、計算復雜度方面進行了模型改進前后的實驗對比,結(jié)果如表2所示.

      表2 模型改進前后性能對比Tab.2 Performance comparison before and after model improvement

      其中DW 表示在Transformer模型的前向反饋神經(jīng)網(wǎng)絡層加入的深度卷積,CA 表示在MobileNet V3網(wǎng)絡中引入的坐標注意力模塊.分析實驗結(jié)果可知,在Transformer 模型的前向反饋神經(jīng)網(wǎng)絡層加入一層深度卷積后,模型性能得到顯著提高,最后在MobileNet V3 網(wǎng)絡中引入坐標注意力模塊,視線估計的準確度達到最高.改進后的方法相比原始MobileNet V3+Transformer、MobileNet V3+Transformer+DW 方法準確率分別提高約0.72°和0.31°.另外,本文方法的參數(shù)量相比MobileNet V3+Transformer 和MobileNet V3+Transformer+DW 明顯降低,本文方法的計算復雜度也比具有壓縮-激勵注意力機制的MobileNet V3+Transformer+DW 方法略有降低,可見本文方法所做的改進是有效的.

      3 結(jié)語

      本文提出了一種基于混合Transformer 模型的視線估計方法,利用改進后的MobileNet V3 網(wǎng)絡構建特征提取器,在MobileNet V3 網(wǎng)絡中引入了坐標注意力模塊,充分有效地提取圖像中的特征,然后將特征輸入到改進后的Transformer 模型中,通過在Transformer模型的前向反饋神經(jīng)網(wǎng)絡層加入一層深度卷積,提升了模型在視線估計任務中的準確性.通過與其他方法的實驗對比,本文方法可以較為準確地進行三維視線估計,并且模型的參數(shù)量能維持在較低的水平.

      猜你喜歡
      視線特征提取注意力
      讓注意力“飛”回來
      要去就去視線盡頭的山
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      你吸引了我的視線
      “揚眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      Bagging RCSP腦電特征提取算法
      A Beautiful Way Of Looking At Things
      當代視線
      當代貴州(2015年19期)2015-06-13 09:42:32
      基于MED和循環(huán)域解調(diào)的多故障特征提取
      雨天戴偏光太陽鏡 視線更清晰
      紫阳县| 且末县| 万安县| 湘潭市| 治多县| 潞西市| 新巴尔虎右旗| 天台县| 淅川县| 望城县| 高雄县| 乌拉特中旗| 舒城县| 甘德县| 阜新市| 如东县| 宁海县| 扬中市| 如东县| 阿荣旗| 井冈山市| 上高县| 秭归县| 墨脱县| 永福县| 凤翔县| 鄂温| 成武县| 墨竹工卡县| 休宁县| 衡水市| 阜南县| 甘肃省| 上饶市| 开封县| 桦甸市| 揭阳市| 卫辉市| 阿克苏市| 集安市| 塔城市|