• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于卷積-反卷積網絡的正交人臉特征學習算法

      2020-09-16 14:35:20孫文赟陳昌盛
      深圳大學學報(理工版) 2020年5期
      關鍵詞:人臉身份損失

      孫文赟,宋 昱,陳昌盛

      深圳市媒體信息內容安全重點實驗室,廣東省智能信息處理重點實驗室,深圳大學電子與信息工程學院,廣東深圳518060

      深度神經網絡(deep neural networks, DNN)已在多種計算機視覺任務中獲得成功應用,尤其是人臉表情識別與人臉識別任務.從數(shù)據(jù)中學習深度人臉特征是一種常見的做法,研究者通過設計不同的網絡結構和訓練方法獲取具有不同性質的人臉特征.這些可學習的深度特征具有比傳統(tǒng)圖像特征更好的性質.例如,在人臉識別任務中,一個訓練良好的身份特征對人臉的姿態(tài)、人臉表情、年齡和配飾具有不變性.類似地,在人臉表情識別任務中,表情特征對人臉的姿態(tài)、身份具有不變性.而在最新的域自適應算法中,訓練良好的跨域特征可對域偏移具有不變性.

      基于深度特征學習理論,SUN等[1]使用一對卷積-反卷積神經網絡學習了身份特征與表情特征兩組正交的人臉特征.其中,身份特征對表情的變化不變,而表情特征對身份變化不變.但是,該方法在特征學習過程中需要一對含表情的人臉和中性人臉,后者作為監(jiān)督信息,用于定義同身份但不同表情的人臉圖像的統(tǒng)一錨點.此外,該方法還需對每個身份分別記錄7種表情(生氣、惡心、恐懼、高興、悲傷、驚訝和中性)的人臉圖像.然而,主流的人臉識別數(shù)據(jù)集僅包含身份特征,并無關于表情的標簽,少數(shù)的人臉表情識別數(shù)據(jù)集雖同時具有身份與表情標簽,卻并沒有為每個身份提供對應的中性人臉.本研究為解決以上在聯(lián)合學習過程中缺乏訓練數(shù)據(jù)的問題,擴寬人臉身份與表情正交特征聯(lián)合學習算法的應用范圍,基于文獻[1]方法,引入相關性最小化損失來緩解訓練時對中性人臉的依賴,通過構建一個卷積-反卷積神經網絡,在已對齊人臉圖像上提取身份與表情特征,并采用重構損失、分類損失和相關性最小化損失組合訓練目標.本研究首次使用了表情標簽學習身份特征,將新方法記為無監(jiān)督正交人臉特征學習(unsupervised orthogonal facial feature learning, UOFFL)算法,而將文獻[1]方法記為有監(jiān)督正交人臉特征學習(supervised orthogonal facial feature learning, SOFFL)算法.在大規(guī)模合成人臉表情數(shù)據(jù)集(large-scale synthesized facial expression dataset, LSFED)[1]與受限的Radboud人臉數(shù)據(jù)集(Radboud faces dataset, RaFD)[2]上的人臉特征學習結果表明,UOFFL算法的性能超越了一些無監(jiān)督算法,且接近SOFFL等有監(jiān)督算法.

      1 基于深度特征分解的人臉特征學習

      正交人臉特征學習方法將人臉特征分解為身份、姿態(tài)、表情和背景等部分,從任務角度來看,UOFFL算法與人臉特征分解[1,3-8]有關;從損失與優(yōu)化角度來看,UOFFL算法中的相關性最小化損失與基于協(xié)方差對齊和最小化的域自適應算法有關[9-12],因為它們均通過優(yōu)化來調整神經網絡特征的分布,實現(xiàn)了特征的二階統(tǒng)計量調節(jié).

      1.1 可分解深度特征學習

      將深度人臉特征分解為身份、姿態(tài)、表情和背景等屬性,一方面可從圖像數(shù)據(jù)中學習、提取并分解不同的深度特征;另一方面,圖像可從分解后的特征中重構和生成[1,3-8].現(xiàn)有的可分解深度特征學習方法大多采用卷積神經網絡提取特征,并使用反卷積神經網絡重構和生成圖像,也有采用基于對抗學習的生成模型[3-6].TRAN等[3]和ZHANG等[4]分別提出可分解特征學習生成對抗網絡和條件對抗自編碼器.這兩個網絡將人臉分解為身份特征與姿態(tài)或年齡特征,并根據(jù)給定特征生成新的人臉圖像.MA等[5]將行人圖像分解為前景特征、背景特征與姿態(tài)特征,并根據(jù)給定特征生成新的行人圖像.BERTHELOT等[6]提出一種對抗受限自編碼器插值的新型損失,可提高合成人臉的真實感和插值特征的語義連續(xù)性.還有一些基于判別模型的圖像重構方法[1, 7-8].ZHU等[7]使用非確定性神經元來采樣隨機的姿態(tài)特征,提出一種非確定性神經網絡用于建模人臉、身份與姿態(tài)的關系.DOSOVITSKIY等[8]用反卷積神經網絡學習屬性到圖像的函數(shù)映射.本課題組2018年提出的SOFFL算法[1]亦屬于可分解深度特征學習范疇.

      1.2 有監(jiān)督正交人臉特征學習

      SOFFL算法從已對齊的人臉圖像中提取身份特征與表情特征,訓練樣本為三元組(X,y,Z).其中,X為被提取特征的原始含表情人臉;y為真實表情標簽;Z為對應于原始含表情人臉的中性人臉,X和Z具有相同的身份和不同的表情.在一些任務中,中性臉Z很難獲取,因為主流的人臉識別數(shù)據(jù)集僅擁有身份標簽,即使有些人臉表情識別數(shù)據(jù)集同時具有身份和表情標簽,但也并非每個個體都有中性臉圖像,訓練數(shù)據(jù)要求過高是SOFFL算法的主要缺點.

      1.3 基于二階統(tǒng)計量調整的域自適應方法

      二階統(tǒng)計量調整是域自適應領域的主流方法之一[9-12].其中,協(xié)方差對齊算法定義為

      (1)

      其中,A為對齊源域和目標域特征的協(xié)方差的線性變換;xs與xt分別為源域和目標域的樣本域特征;函數(shù)cov()計算協(xié)方差矩陣.文獻[9]給出了式(1)的閉式解.

      在神經網絡網絡中,協(xié)方差對齊問題常轉化為

      (2)

      其中,神經網絡fθ受可訓練參數(shù)θ控制;fθ(xs)和fθ(xt)分別為待對齊的源域特征與目標特征的激活與目標激活,優(yōu)化可使它們的分布在源域和目標域中一致.式(2)常配合卷積神經網絡的主要目標進行聯(lián)合訓練[10-12],等價于最小化帶有二次多項式核的最大均值差異(maximum mean discrepancy, MMD)[11, 13-14].協(xié)方差對齊與核MMD均為用于神經網絡的域自適應的主流算法.

      另一種二階統(tǒng)計量對齊方法為協(xié)方差最小化.BOUSMALIS等[11]提出基于二階統(tǒng)計量的損失用于鼓勵神經網絡特征的各維度之間的分布差異:

      (3)

      其中,x為輸入樣本;fθc和fθp分別是計算公共特征集和私有特征集的神經網絡.若fθc(x)和fθp(x)均已中心化,則式(3)等價于最小化兩個特征集合之間的兩兩協(xié)方差

      (4)

      這些域自適應方法初步驗證了對神經網絡激活的二階統(tǒng)計量的調整的可行性.

      1.4 無監(jiān)督人臉驗證

      LIAO等[15]提出的無監(jiān)督特征學習算法,可從一組姿態(tài)連續(xù)變化的人臉視頻中學習人臉光照與姿態(tài)不變的特征.該方法將相同身份的人臉分組在同一視頻或集合中,分組被視為身份監(jiān)督的一種變形.UOFFEL算法則是從特征的互補性角度出發(fā),因并未使用任何形式的身份監(jiān)督,對訓練數(shù)據(jù)要求更低.

      2 無監(jiān)督正交人臉特征學習

      2.1 深度神經網絡結構

      圖1 SOFFL的網絡結構[1]

      圖2 UOFFL的網絡結構

      在圖2中,lrec為重構損失;lcls為分類損失;lcorr為相關性最小化損失.假設算法的已對齊人臉圖像中僅存在身份和表情兩種變化,則在前向傳播中,卷積層將人臉圖像編碼為身份和表情特征,而反卷積層從特征中重構輸入的人臉圖像.

      (5)

      則網絡的前向傳播為

      (6)

      (7)

      本研究參考VGG網絡的設計思路,采用若干3×3卷積層后附一個下采樣層組成的基礎結構,再由若干基礎結構構成網絡.表1展示了UOFFL網絡的層類型、層激活個數(shù)和層參數(shù)個數(shù)等細節(jié),整個網絡是由一個卷積部分和一個反卷積部分組成,其中卷積部分包含6個VGG基礎結構,將尺寸為64×64×1像素的輸入圖像變換為1×1×519像素的全局向量形式特征;而反卷積部分也包含6個VGG基礎結構,其中后置下采樣層替換為前置上采樣層.反卷積部分將1×1×519像素的特征變換為64×64×1像素的圖像.當輸入尺寸、中間特征個數(shù)和輸出尺寸確定時,表1中的細節(jié)可按VGG網絡的基本規(guī)則生成.

      表1 UOFFL的網絡細節(jié)

      使用批歸一化(batch normalization, BN)、激活函數(shù)tanh()和平均池化下采樣法來確保網絡激活的是標準正態(tài)分布.歸一化激活分布不僅可加速訓練還可簡化相關性最小化損失中的皮爾遜相關系數(shù)(Pearson correlation coefficient, PCC)的計算.每個卷積層使用BN歸一化和tanh()激活.整個網絡共包括了18個卷積層,不含任何全連接層,網絡共有約328萬個可訓練參數(shù),網絡的規(guī)模遠比一些常見網絡小,但已足夠達到提取正交特征、重構原始人臉的要求.

      2.2 損失函數(shù)

      (8)

      其中,E()和σ()分別為期望值與標準差函數(shù).因此,兩組隨機向量a=(a1,a2, …,am)T和b=(b1,b2, …,bn)T之間的皮爾遜相關矩陣可定義為

      ρ(a,b)=

      (9)

      PCC是一種歸一化的協(xié)方差,值域為[-1, 1],相比協(xié)方差矩陣,它對隨機變量的尺度具有不變性.基于皮爾遜相關矩陣的相關性最小化損失為

      (10)

      該損失在計算上等價于兩兩PCC的平方和,即

      (11)

      (12)

      (13)

      假設人臉空間中僅有身份和表情兩種變化,則分類損失lcls用于學習表情特征y;重構損失lrec用于確保信息完整性;相關性最小化損失lcorr提升兩組特征之間的獨立性.總體損失為三者的加權和

      ltotal=lrec+λ1lcls+λ2lcorr

      (14)

      其中,非負權重λ1和λ2用于平衡3個分量的重要性.

      3 實驗與結果分析

      3.1 數(shù)據(jù)集與預處理

      采用LSFED[1]與RaFD[2]數(shù)據(jù)庫驗證UOFFL算法的性能.由于LSFED數(shù)據(jù)庫中的圖像由軟件合成,不含噪聲且對齊精準,導致所有對比算法的性能都趨于飽和,無法區(qū)別算法優(yōu)劣,故提升難度以模擬復雜的真實世界環(huán)境,給數(shù)據(jù)集加入SNR=20 dB的高斯噪聲,并將加噪的數(shù)據(jù)集記為LSFED-G.根據(jù)文獻[15]方法構造包含高斯噪聲和隨機相似變換的數(shù)據(jù)集,記為LSFED-GS;構造包含高斯噪聲、隨機相似變換和隨機背景的數(shù)據(jù)集,記為LSFED-GSB.

      RaFD是一個在受限環(huán)境下采集的小規(guī)模人臉表情數(shù)據(jù)集,僅包含67個個體,每個個體有8種表情、5種姿態(tài)和3個眼睛注視方向信息.為保持數(shù)據(jù)集的一致性,本實驗僅使用眼睛直視的正面臉圖像,并丟棄輕蔑表情的圖像,最終剩下469張人臉圖像.在處理中,首先使用基于方向梯度直方圖(histogram of oriented gradient, HOG)特征與支持向量機(support vector machine, SVM)的人臉檢測器檢測人臉包圍盒;然后檢測68個人臉特征點[17],估計人臉形狀與姿態(tài)[18];最后將人臉圖像對齊到預定義的三維人臉幾何體上,再渲染和裁剪出尺寸為64×64像素的人臉圖像.圖3為部分預處理后的人臉.

      圖3 部分預處理后的LSFED與RaFD數(shù)據(jù)集人臉

      兩個數(shù)據(jù)集大致按照8∶2的比例劃分為訓練集和測試集,且其中的人臉所屬的身份不重合.

      3.2 訓練模型

      采用文獻[19]方法初始化網絡的卷積核,偏置被初始化為0,BN中的均值和標準差的滑動平均初始值分別設為0和1,采用自適應矩估計(adaptive moment estimation, ADAM)優(yōu)化器訓練網絡,優(yōu)化器參數(shù)設置為α=0.001、β1=0.9、β2=0.999,ε=1×10-8.使用隨機梯度下降方式最小化總體損失.訓練集先被隨機打亂順序,每次迭代依次送入100個訓練樣本,每個訓練樣本均參與訓練100次后終止訓練.為評價3個損失分量對識別結果的影響,采用不同的λ1和λ2值,當λ1=λ2=0時對應的損失分量不發(fā)揮作用.

      3.3 無監(jiān)督人臉驗證對照實驗結果分析

      基于已訓練的網絡,使用人臉驗證任務評價學得的身份特征h的性能.隨機抽取1 000個正樣本對(相同身份但不同表情)和1 000個負樣本對(不同身份但相同表情),計算樣本對在身份特征空間中的歐氏距離,并選取合適的閾值.若兩個人臉的距離大于閾值則判別為不同身份;若小于閾值則判別為相同身份.選取的接收者操作特征曲線上面積(area under the receiver operating characteristic curve, AUC)和等錯誤率(equal error rate, EER)評價指標與閾值無關,在應用中可選取訓練集上距離的中值作為人臉驗證的閾值.表2展示了不同數(shù)據(jù)集在不同空間歐氏距離中采用無監(jiān)督人臉識別所得AUC和EER值.由表2可見,UOFFL算法在LSFED、RaFD和加噪的數(shù)據(jù)集上工作良好,在相對干凈的LSFED、LSFED-G與RaFD數(shù)據(jù)集上,取λ1=1,λ2=1時可獲得較好的結果,而在有嚴重噪聲的LSFED-GS與LSFED-GSB數(shù)據(jù)集上,取λ1=1,λ2=10,適當提高相關性最小化損失的作用,提升身份特征與表情特征之間的獨立性,可獲得較好的身份特征,進而獲得更好的人臉驗證性能.

      表2 基于不同空間歐氏距離的無監(jiān)督人臉識別性能結果1)

      表2第2列X空間中的AUC和EER值是將原始圖像拉直為向量后,計算歐氏距離所得的AUC和EER指標結果.第3~7列為不同λ1和λ2取值下UOFFL算法的AUC和EER指標結果,使用特征學習可以獲得比原始圖像上更好的結果.對比第3~6列可以發(fā)現(xiàn),啟用相關性最小化損失,并選取合適的權重可分別在LSFED、LSFED-G、LSFED-GS、LSFED-GSB和RaFD數(shù)據(jù)集上獲得0.002 7、0.004 1、0.108 9、0.057 5與0.021 8的AUC指標提升,故UOFFL算法的相關性最小化是解決無監(jiān)督人臉驗證問題的關鍵.選擇合適的λ1和λ2可進一步提升性能,在大多數(shù)情況下,取λ1=λ2=1較好,當人臉圖像中噪聲交大時,可嘗試取λ1=1,λ2=10.

      3.4 有監(jiān)督和無監(jiān)督人臉驗證的對比

      表3對比了UOFFL算法與其他7種人臉驗證算法的AUC指標值.其中,LBP+PCA+LDA[20]、AlexNet預訓練+微調[21]、兩層神經網絡、LBP+PCA+聯(lián)合貝葉斯[22]和SOFFL算法[1]因訓練中使用身份標簽屬有監(jiān)督學習;UOFFL算法、原圖上的歐氏距離方法、PCA主成分上的歐氏距離方法和文獻[14]算法是未使用身份標簽的無監(jiān)督學習.UOFFL算法在相對干凈的LSFED、LSFED-G與RaFD數(shù)據(jù)集上的表現(xiàn)超過或接近有監(jiān)督學習方法;在噪聲較大的LSFED-GS數(shù)據(jù)集上,UOFFL算法在無監(jiān)督算法中的表現(xiàn)仍保持最好;而在含有隨機背景的LSFED-GSB數(shù)據(jù)集上,UOFFL算法的性能不佳,這是因為隨機背景作為表情特征的互補亦被編碼在身份特征中,影響人臉驗證效果.LSFED-GSB數(shù)據(jù)集違背了UOFFL算法人臉空間中僅有身份和表情兩種變化的假設,故需根據(jù)實際情況選擇算法.

      表3 有監(jiān)督和無監(jiān)督人臉驗證方法的性能對比1)

      UOFFL算法與SOFFL算法關系緊密,不同于主流的已在人臉基準上獲得較好的性能的人臉驗證算法,SOFFL算法需要包含表情人臉和同身份中性表情人臉圖像對作為訓練數(shù)據(jù),其訓練樣本為三元組(X,y,Z).由于對數(shù)據(jù)要求過高,SOFFL方法無法在野外標簽人臉(labeled faces in the wild, LFW)數(shù)據(jù)庫等主流數(shù)據(jù)集上訓練測試,本研究將其訓練數(shù)據(jù)簡化為二元組(X,y),導致UOFFL算法在LSFED-GS與LSFED-GSB數(shù)據(jù)集上的性能略低于SOFFL方法.然而,在小樣本RaFD數(shù)據(jù)集上,UOFFL算法的確比SOFFL算法略有提升(由0.962提升至0.974),這是因為SOFFL算法需要學習一個復雜的圖像到圖像雙向映射,這在小樣本數(shù)據(jù)上會比較困難,而UOFFL算法改為學習像素圖像到519維特征的雙向映射,避免了該問題.

      盡管有監(jiān)督方法比無監(jiān)督方法因使用更多的數(shù)據(jù)而獲得了更好的性能,但UOFFL算法提出的相關性最小化損失,能夠緩解標簽缺失的劣勢,縮小無監(jiān)督和有監(jiān)督方法的性能差距.總體上講,UOFFL算法性能優(yōu)于無監(jiān)督的文獻[14]和有監(jiān)督的SPFFL算法,接近有監(jiān)督的聯(lián)合貝葉斯人臉識別算法.

      結 語

      提出一種基于卷積-反卷積網絡的正交人臉特征學習UOFFL算法,使用3個損失訓練網絡:分類損失用于學習表情特征,重構損失用于確保特征中信息的完整性,相關性最小化損失用于提高身份特征與表情特征之間的獨立性,最后,在合成人臉和真實人臉數(shù)據(jù)集上進行實驗驗證.下一步,計劃將方法拓展到非受限人臉和跨庫或跨域問題中.例如,在野外靜態(tài)面部表情(static facial expressions in the wild, SFEW)數(shù)據(jù)集上訓練,并在LFW數(shù)據(jù)集上測試,或將LSFED數(shù)據(jù)集上學得的知識遷移到非受限人臉.

      猜你喜歡
      人臉身份損失
      少問一句,損失千金
      有特點的人臉
      胖胖損失了多少元
      玉米抽穗前倒伏怎么辦?怎么減少損失?
      三國漫——人臉解鎖
      動漫星空(2018年9期)2018-10-26 01:17:14
      跟蹤導練(三)(5)
      他們的另一個身份,你知道嗎
      一般自由碰撞的最大動能損失
      互換身份
      馬面部與人臉相似度驚人
      新化县| 呈贡县| 汶川县| 沙洋县| 颍上县| 宜川县| 应用必备| 翁牛特旗| 科尔| 德保县| 汽车| 靖远县| 通道| 海南省| 板桥市| 保亭| 集贤县| 加查县| 桃江县| 舟山市| 济源市| 丹凤县| 平阳县| 华阴市| 民勤县| 贞丰县| 边坝县| 洛扎县| 通渭县| 孙吴县| 天门市| 镇巴县| 筠连县| 大理市| 北宁市| 东源县| 和林格尔县| 廊坊市| 延吉市| 富民县| 新化县|