邵志文,周 勇,譚 鑫,馬利莊,4,劉 兵,姚 睿
(1.中國礦業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇徐州 221116;2.礦山數(shù)字化教育部工程研究中心,江蘇徐州 221116;3.上海交通大學(xué)計(jì)算機(jī)科學(xué)與工程系,上海 200240;4.華東師范大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,上海 200062)
近年來,“以人為本,服務(wù)于人”得到人工智能研究越來越廣泛的關(guān)注,面部表情是人類情感最自然和直接的表現(xiàn)方式,對其的分析和識別[1~3]是計(jì)算機(jī)視覺與情感計(jì)算領(lǐng)域的熱門研究方向,在醫(yī)療健康[4]、公共安全[5]等領(lǐng)域具有廣泛的應(yīng)用前景.由于人們在日常生活中較少表現(xiàn)大幅度的面部動(dòng)作,更多是通過局部細(xì)微表情來表達(dá)情感,如悲傷時(shí)眉毛下垂、驚訝時(shí)張開嘴,因此許多工作關(guān)注對局部表情動(dòng)作而不僅僅是整體表情的識別.
人臉動(dòng)作編碼系統(tǒng)(Facial Action Coding System,F(xiàn)ACS)[6,7]定義了幾十個(gè)表情動(dòng)作單元(Action Unit,AU),是目前描述人臉局部細(xì)微表情最全面和客觀的系統(tǒng)之一.如圖1 所示,快樂、悲傷、驚訝等整體表情被定量地解析為多個(gè)AU 的組合,每個(gè)AU 是一個(gè)基本面部動(dòng)作,與一或多個(gè)人臉局部肌肉動(dòng)作有關(guān).在一個(gè)人臉表情中,可能只出現(xiàn)一個(gè)AU,也可能同時(shí)出現(xiàn)多個(gè)AU.雖然FACS只定義了幾十個(gè)AU,但是每個(gè)AU具有從低到高的多個(gè)強(qiáng)度級別,因而AU的組合可表示7 000種以上真實(shí)存在的表情[8],滿足了精細(xì)刻畫表情的需要.
圖1 整體表情與AU的關(guān)系示例
深度學(xué)習(xí)在計(jì)算機(jī)視覺的各個(gè)領(lǐng)域都獲得了巨大成功,近些年越來越多的人臉表情識別工作采用深度神經(jīng)網(wǎng)絡(luò),基于其強(qiáng)大的特征提取能力,顯著提升了表情識別的精度.然而早期的人臉表情識別綜述[9~11]主要介紹傳統(tǒng)的非深度學(xué)習(xí)方法,由于這類方法采用人工設(shè)計(jì)的特征,限制了表情識別的性能.近年來,Corneanu 等人[12]總結(jié)了基于RGB 圖像、3D、熱成像或多模態(tài)數(shù)據(jù)的人臉表情識別工作,Li 等人[13]將討論范圍限定在基于深度學(xué)習(xí)的方法.然而,上述綜述僅關(guān)注識別整體表情的工作,忽視了表情AU識別.另外,賁晛燁等人[14]和徐峰等人[15]對微表情識別進(jìn)行了綜述,但也沒有關(guān)注AU 識別.Martinez 等人[16]和Zhi 等人[17]雖然詳細(xì)回顧了AU 識別工作,但其中大部分仍是基于傳統(tǒng)的非深度學(xué)習(xí)方法.
鑒于此,本文主要討論基于深度學(xué)習(xí)的表情AU識別工作,對這一領(lǐng)域的代表性方法進(jìn)行分類、評述和總結(jié),彌補(bǔ)現(xiàn)有人臉表情識別綜述的不足.本文接下來首先介紹AU 識別的問題定義、挑戰(zhàn)和評測數(shù)據(jù)集,然后從遷移學(xué)習(xí)、區(qū)域?qū)W習(xí)和關(guān)聯(lián)學(xué)習(xí)3個(gè)角度對已有工作進(jìn)行概述,之后將一些主流AU 識別方法的性能進(jìn)行了比較,最后探討了AU識別未來的研究趨勢.
人臉表情出現(xiàn)時(shí),一些局部區(qū)域會(huì)發(fā)生肌肉動(dòng)作.人臉動(dòng)作編碼系統(tǒng)(FACS)[6,7]基于人臉解剖學(xué)所劃分的局部肌肉,定義了一個(gè)基本面部動(dòng)作即動(dòng)作單元(AU)的集合.每個(gè)AU 涉及一個(gè)或多個(gè)局部肌肉,具有0,1,2,3,4,5這6個(gè)強(qiáng)度級別,其中0表示不出現(xiàn)而5則表示出現(xiàn)的強(qiáng)度最大,因而可以客觀且定量地描述人臉精細(xì)表情.圖2展示了常見的27個(gè)AU的示例圖片及定義,其中9 個(gè)AU 出現(xiàn)在上半臉,18 個(gè)AU 出現(xiàn)在下半臉.可以發(fā)現(xiàn),每個(gè)AU都是一種局部的面部動(dòng)作,刻畫了細(xì)微表情.形式化地,任一人臉表情可以由這些AU出現(xiàn)的強(qiáng)度所構(gòu)成的向量來表示,其中未出現(xiàn)的AU的強(qiáng)度即為0.
圖2 常見的27個(gè)AU的示例圖片及定義[6,18]
表1 列出了每類整體表情中可能出現(xiàn)的AU[16],這些AU 同時(shí)出現(xiàn)或部分同時(shí)出現(xiàn)于整體表情,例如快樂表情可以由AU 6,AU 12和AU 25 的組合來表示,悲傷表情可以由AU 1,AU 4,AU 6和AU 17 的組合來表示.值得注意的是,人們在意識到自身表露出一種可能不合適的表情時(shí)經(jīng)常會(huì)試圖抑制它來隱藏真實(shí)的情緒,而只要試圖掩蓋原來的表情其面部便會(huì)自發(fā)地出現(xiàn)微表情(Micro-Expression)[19].微表情的持續(xù)時(shí)間很短,一般的界定標(biāo)準(zhǔn)為持續(xù)時(shí)間不超過500 ms[20],這是其區(qū)別于宏表情(Macro-Expression)的主要特征[21].微表情也可以用AU 的組合進(jìn)行描述,表2 具體定義了每類微表情對應(yīng)的AU 組合[22],其中I,II,III,IV,V和VI 類分別與快樂、驚訝、憤怒、厭惡、悲傷和恐懼相關(guān),VII類與蔑視等其他微表情相關(guān).例如,微表情I 類可以由AU 6,AU 7和AU 12 的組合或單個(gè)AU 6 來表示.因此,研究AU 識別對微表情識別同樣具有重要意義.
表1 每類整體表情所關(guān)聯(lián)的AU[16]
表2 每類微表情對應(yīng)的AU組合[22]
經(jīng)過觀察,AU 的組合可以形成7 000 多種真實(shí)存在的表情[8].在某一人臉表情中,可能單獨(dú)出現(xiàn)一個(gè)AU,也可能同時(shí)出現(xiàn)多個(gè)AU.當(dāng)多個(gè)AU 同時(shí)出現(xiàn)時(shí),若它們是可加性的(Additive),則AU 的組合出現(xiàn)并不改變各AU 的外觀;若它們是不可加性的(Non-Additive),即它們的肌肉動(dòng)作存在交疊區(qū)域,會(huì)融合成新的肌肉動(dòng)作,則各AU 的外觀會(huì)被改變.此外,一些AU 組合如AU 1和AU 4 在悲傷和恐懼表情中都會(huì)出現(xiàn),比其他組合出現(xiàn)的頻率更高.另外,某些AU之間是相互排斥的,如AU 1和AU 7,兩者不會(huì)同時(shí)出現(xiàn)在任一表情中,若一個(gè)AU出現(xiàn)則另一個(gè)AU不會(huì)出現(xiàn).
基于深度學(xué)習(xí)的AU 識別主要包含3 個(gè)環(huán)節(jié),即人臉檢測、人臉對齊和AU 識別,如圖3 所示.人臉檢測指在輸入圖像上檢測人臉的位置;人臉對齊指基于人臉配準(zhǔn)所定位的面部特征點(diǎn)對人臉進(jìn)行變換,使得變換后人臉與參照人臉(一般為平均臉)的對應(yīng)特征點(diǎn)位置相同或相近;AU 識別是基于深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn),無須額外提取人工設(shè)計(jì)的特征,其從每張對齊后的人臉圖像所提取的特征都對應(yīng)于相同的面部語義位置,這有利于提升網(wǎng)絡(luò)的特征學(xué)習(xí)以及進(jìn)一步的分類或回歸能力.
圖3 基于深度學(xué)習(xí)的AU識別的定義
其中,pi為第i個(gè)AU 真實(shí)出現(xiàn)的概率,值為1表示出現(xiàn),值為0則表示不出現(xiàn).對于AU 強(qiáng)度估計(jì),需要將第i個(gè)AU被預(yù)測的概率轉(zhuǎn)換為強(qiáng)度:
其中,T=5為最大的強(qiáng)度級別.然后采用L2損失:
在測試時(shí),為了獲得精確值,對于第i個(gè)AU,需要將其被預(yù)測出現(xiàn)的概率和強(qiáng)度分別離散化為和,這里[·]表示四舍五入取整.
AU 作為出現(xiàn)在面部局部區(qū)域的細(xì)微表情動(dòng)作,較難被準(zhǔn)確捕捉,且人工地對其標(biāo)注也較困難,因此基于深度學(xué)習(xí)的AU 識別主要面臨如下3 個(gè)挑戰(zhàn)因素.
(1)標(biāo)簽稀缺性:AU 需要由經(jīng)過培訓(xùn)的專家來標(biāo)注,且標(biāo)注過程較耗時(shí),因而人工標(biāo)注的成本很高[6],使得目前大多數(shù)被標(biāo)注的數(shù)據(jù)集規(guī)模較小、樣本多樣性較低.由于深度學(xué)習(xí)方法通常需要大量的訓(xùn)練數(shù)據(jù),因此標(biāo)簽稀缺性是限制模型精度的重要因素.
(2)特征難捕捉性:AU 是非剛性的,其外觀隨人和表情的變化而變化,且每個(gè)AU 的形狀不規(guī)則、不同AU 的大小一般不相同.而且,人臉表情中時(shí)常會(huì)同時(shí)出現(xiàn)2 個(gè)以上具有交疊區(qū)域的AU,存在不可加性,例如AU 1和AU 4 在圖1 的悲傷表情中同時(shí)出現(xiàn),它們會(huì)改變各自原來的外觀,融合成新的面部肌肉動(dòng)作.這些都導(dǎo)致各AU 所關(guān)聯(lián)的局部表情細(xì)節(jié)難以被準(zhǔn)確地捕捉.
(3)標(biāo)簽不均衡性:在人們經(jīng)常表現(xiàn)的表情中,某些AU出現(xiàn)的頻率比其他AU更高,且每一AU出現(xiàn)的頻率時(shí)常低于不出現(xiàn)的頻率,即AU 的標(biāo)簽具有不均衡性,而當(dāng)前AU 數(shù)據(jù)集規(guī)模小、多樣性低的情況加劇了這種不均衡性.這些導(dǎo)致了AU 識別模型對多個(gè)AU 同時(shí)預(yù)測時(shí)容易偏向于提升出現(xiàn)頻率較高AU 的精度,而其他AU 的精度則受到抑制,且容易偏向于將AU 預(yù)測為不出現(xiàn).
盡管深度學(xué)習(xí)顯著提升了AU 識別的性能,上述挑戰(zhàn)仍是導(dǎo)致AU 識別精度較低、不同AU 精度差異較大的主要因素,如何克服這樣的挑戰(zhàn)是當(dāng)前AU 識別研究的熱門方向.
自FACS[6,7]被提出以來,學(xué)術(shù)界克服AU 數(shù)據(jù)采集、標(biāo)注的困難,發(fā)布了多個(gè)AU 數(shù)據(jù)集,促進(jìn)了AU 識別技術(shù)的發(fā)展.早期的數(shù)據(jù)集,如CK[25]和MMI[18],是在受控環(huán)境下采集的具有良好光照和簡單背景的正面或近似正面的人臉圖片,受試者被要求人為地顯露出指定的面部表情.最近十年,研究人員更多地關(guān)注受試者被誘發(fā)而自發(fā)產(chǎn)生的表情,代表性數(shù)據(jù)集包括受控環(huán)境下采集的BP4D[26]和DISFA[27]等.近年來,學(xué)術(shù)界發(fā)布了幾個(gè)非受控場景下采集的數(shù)據(jù)集,如EmotioNet[28]和Aff-Wild2(AU Set)[29],其包含的圖片來自互聯(lián)網(wǎng)等野外(Wild)場景,在光照、遮擋、姿態(tài)等方面變化多樣.
本文接下來對一些流行的AU 數(shù)據(jù)集進(jìn)行介紹,由于數(shù)據(jù)集的采集環(huán)境(受控、非受控)、表情激發(fā)方式(人為、自發(fā))、樣本多樣性(人臉身份數(shù)、圖片或視頻數(shù))、數(shù)據(jù)形式(2D,3D)都會(huì)影響模型的訓(xùn)練效果,表3對數(shù)據(jù)集的這些屬性進(jìn)行了總結(jié).此外,圖4 展示了這些數(shù)據(jù)集的示例圖片.
圖4 AU數(shù)據(jù)集的示例圖片(每張圖片所出現(xiàn)的AU被紅色或藍(lán)色框標(biāo)出)
表3 AU數(shù)據(jù)集的屬性
不難發(fā)現(xiàn),所有受控環(huán)境下采集的數(shù)據(jù)集只包含數(shù)十個(gè)或100 多個(gè)不同身份的人臉,雖然每個(gè)人臉可能被錄制一或多個(gè)場景,產(chǎn)生數(shù)千至數(shù)萬視頻幀,但整體上樣本多樣性仍較低.另外,非受控環(huán)境下采集的數(shù)據(jù)集EmotioNet和Aff-Wild2(AU Set)具有顯著更高的樣本多樣性,然而它們僅被標(biāo)注AU 的出現(xiàn)和不出現(xiàn)2 種狀態(tài),沒有被標(biāo)注AU 的由0 到5 的強(qiáng)度,限制了其適用范圍.這些都是由AU 的人工標(biāo)注成本很高所導(dǎo)致的.從數(shù)據(jù)集的演變趨勢也可以看出,研究人員由關(guān)注受控環(huán)境逐漸轉(zhuǎn)向非受控環(huán)境,由于非受控環(huán)境采集的圖片具有豐富的多樣性,所以訓(xùn)練深度學(xué)習(xí)模型需要更大規(guī)模的數(shù)據(jù),而對多樣性變化的樣本進(jìn)行標(biāo)注也會(huì)面臨更高的成本.因此標(biāo)簽稀缺性是當(dāng)前AU數(shù)據(jù)集存在的普遍問題,尤其是在非受控場景.
針對標(biāo)簽稀缺性,可以利用遷移學(xué)習(xí)將有用的知識遷移到當(dāng)前任務(wù);針對特征難捕捉性,可以從準(zhǔn)確捕捉AU 的關(guān)聯(lián)區(qū)域從而提取AU 特征來切入;針對標(biāo)簽不均衡性,可以考慮利用AU 間的關(guān)聯(lián)對不均衡的AU進(jìn)行平衡.本文接下來分別予以介紹.
遷移學(xué)習(xí)的目標(biāo)是彌補(bǔ)有人工標(biāo)簽的訓(xùn)練樣本的不足,將相關(guān)聯(lián)的樣本、標(biāo)簽、模型或先驗(yàn)知識等遷移過來,提升當(dāng)前任務(wù)的模型性能.
3.1.1 基于已有模型的遷移學(xué)習(xí)
最常見的遷移學(xué)習(xí)方法是在當(dāng)前數(shù)據(jù)集上微調(diào)其他圖像數(shù)據(jù)集上預(yù)訓(xùn)練的模型,由于不同類型的圖像時(shí)常具有相似的顏色分布和背景環(huán)境等屬性,預(yù)訓(xùn)練模型所攜帶的知識也有利于當(dāng)前模型的訓(xùn)練.Zhou 等人[40]基于一個(gè)在ImageNet[41]上預(yù)訓(xùn)練的VGG16[42]網(wǎng)絡(luò),實(shí)現(xiàn)AU 強(qiáng)度估計(jì)和頭部姿態(tài)估計(jì).Ji 等人[43]在整體表情識別和人臉識別這2個(gè)與AU相關(guān)聯(lián)任務(wù)的數(shù)據(jù)集上分別預(yù)訓(xùn)練ResNet-34 網(wǎng)絡(luò)[44],接著在AU 數(shù)據(jù)集上分別微調(diào)2 個(gè)網(wǎng)絡(luò),并將2 個(gè)網(wǎng)絡(luò)預(yù)測的AU 出現(xiàn)概率取平均作為最終的預(yù)測值.預(yù)訓(xùn)練的數(shù)據(jù)集與當(dāng)前數(shù)據(jù)集之間存在域(Domain)差異,且微調(diào)過程可能會(huì)丟失一些有用信息,因而限制了微調(diào)預(yù)訓(xùn)練模型的有效性.
另一個(gè)基于已有模型的思路是生成偽標(biāo)簽,即利用訓(xùn)練好的AU 識別模型對圖片自動(dòng)地標(biāo)注,這實(shí)質(zhì)上是利用了AU 識別模型中存儲的訓(xùn)練數(shù)據(jù)的知識.Benitez-Quiroz 等人[28]發(fā)布了一個(gè)從互聯(lián)網(wǎng)上抓取的非受控場景人臉圖片數(shù)據(jù)集EmotioNet,其中優(yōu)化集具有準(zhǔn)確的人工標(biāo)簽,而訓(xùn)練集只有受控場景圖片上訓(xùn)練的模型所標(biāo)注的偽標(biāo)簽.考慮到自動(dòng)標(biāo)注模型的訓(xùn)練數(shù)據(jù)與被標(biāo)注圖片之間存在域差異,自動(dòng)標(biāo)注的偽標(biāo)簽并不準(zhǔn)確.為改進(jìn)EmotioNet 的偽標(biāo)簽,Werner 等人[45]采用一個(gè)自訓(xùn)練方法,以多任務(wù)的形式同時(shí)在優(yōu)化集和訓(xùn)練集上訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Network,DCNN),其中優(yōu)化集對應(yīng)的分類器分支作為最終分類器,然后利用訓(xùn)練好的模型對訓(xùn)練集圖片重新標(biāo)注偽標(biāo)簽,再重新訓(xùn)練網(wǎng)絡(luò),重復(fù)這一過程直至性能已收斂或已滿足精度要求.然而,這一自訓(xùn)練方法依賴優(yōu)化集的人工標(biāo)簽.
3.1.2 基于已有標(biāo)簽的遷移學(xué)習(xí)
由于人工標(biāo)注AU 的成本高昂,很多情況下數(shù)據(jù)集中只有部分樣本擁有完整的AU 標(biāo)簽,而其余樣本沒有AU 標(biāo)簽或只有一部分AU 的標(biāo)簽.這里極端的情況是所有樣本都沒有AU 標(biāo)簽,而只有粗略的標(biāo)簽如整體表情標(biāo)簽是可用的,由于其對表情的描述沒有AU 精細(xì),因而標(biāo)注成本很低.
由表1 不難看出,AU 與整體表情之間存在條件依賴關(guān)系.Peng 等人[46]從多個(gè)AU 數(shù)據(jù)集中統(tǒng)計(jì)出給定整體表情下某一AU 出現(xiàn)的條件概率,并結(jié)合先驗(yàn)的AU 間關(guān)系,從表情標(biāo)簽生成AU 的偽標(biāo)簽.進(jìn)一步地,Peng 等人[47]基于全部樣本的表情標(biāo)簽和部分樣本的AU 標(biāo)簽,提出一個(gè)對偶半監(jiān)督的生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[48],聯(lián)合地學(xué)習(xí)AU 分類器和人臉圖片生成器.由于任務(wù)的對偶性,AU 分類器的輸入輸出聯(lián)合分布和人臉生成器應(yīng)該是一致的,該方法通過對抗學(xué)習(xí)迫使輸入輸出聯(lián)合分布收斂到AU-表情標(biāo)注數(shù)據(jù)的真實(shí)分布.Zhang 等人[49]將表情獨(dú)立的和表情依賴的AU 概率作為約束融入目標(biāo)函數(shù),促進(jìn)AU 分類器的訓(xùn)練.然而,將固定的先驗(yàn)知識應(yīng)用于所有樣本忽視了不同樣本間AU動(dòng)態(tài)變化的特性.
另一些方法在具有AU 標(biāo)簽的樣本基礎(chǔ)上,引入大量無標(biāo)簽的樣本.Wu等人[50]基于深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)人臉特征,并利用受限玻爾茲曼機(jī)(Restricted Boltzmann Machine,RBM)從部分樣本的完整AU 標(biāo)簽中學(xué)習(xí)標(biāo)簽分布,然后通過最大化AU 映射函數(shù)相對于所有無標(biāo)簽數(shù)據(jù)的標(biāo)簽分布的似然對數(shù),同時(shí)最小化有標(biāo)簽數(shù)據(jù)的AU預(yù)測值和真實(shí)值之間的誤差,來訓(xùn)練AU分類器.然而,從有限樣本學(xué)習(xí)的標(biāo)簽分布可能并不適用于其他樣本.Zhang 等人[51]利用4 種先驗(yàn)的AU 約束來額外地監(jiān)督訓(xùn)練過程:越臨近幀的特征越相似、一段AU 動(dòng)作中強(qiáng)度隨幀非遞減、面部對稱性、相對于中性表情外觀的差異性.該方法在訓(xùn)練時(shí)要求圖像序列中某一AU在一段動(dòng)作過程中峰值和谷值所在幀具有該AU 的標(biāo)簽,降低了適用性.
此外,相關(guān)聯(lián)任務(wù)的已有標(biāo)簽也可以被利用來促進(jìn)AU 識別.Shao 等人[52]采取多任務(wù)學(xué)習(xí),基于CNN 聯(lián)合地實(shí)現(xiàn)人臉AU 識別和人臉配準(zhǔn),利用任務(wù)間的關(guān)聯(lián)性使得彼此相互促進(jìn),且配準(zhǔn)分支學(xué)習(xí)的特征被傳入AU 識別任務(wù),有利于提升AU識別精度.Jyoti等人[53]將整體表情識別網(wǎng)絡(luò)所提取的特征傳入AU 識別網(wǎng)絡(luò),促進(jìn)AU識別.Tu等人[54]采用底部層共享的人臉識別網(wǎng)絡(luò)和AU識別網(wǎng)絡(luò),其中人臉識別網(wǎng)絡(luò)學(xué)習(xí)身份特征,然后AU識別網(wǎng)絡(luò)所提取的特征在減去身份特征后進(jìn)一步回歸AU預(yù)測值.這類方法的效果很大程度上依賴任務(wù)間的關(guān)聯(lián)性強(qiáng)弱以及所設(shè)計(jì)多任務(wù)結(jié)構(gòu)的有效性.
3.1.3 基于域映射的遷移學(xué)習(xí)
域映射指從一個(gè)域映射到另一個(gè)域,其中域包括圖像、特征、標(biāo)簽等.近年來,一些工作通過域適應(yīng)(Domain Adaptation)來提取源域知識,使其適應(yīng)目標(biāo)域,從而促進(jìn)目標(biāo)域任務(wù)的學(xué)習(xí).一個(gè)常見做法是將目標(biāo)圖片的表情編輯為源圖片的表情,從而將源圖片的AU標(biāo)簽遷移到新生成的目標(biāo)圖片上,實(shí)現(xiàn)數(shù)據(jù)擴(kuò)增.Liu等人[55]以源AU 標(biāo)簽為條件,基于條件GAN[56]生成源表情參數(shù),再與目標(biāo)圖片的其他人臉屬性參數(shù)組合,利用3D 可變模型(3D Morphable Model,3DMM)[57]生成具有源表情和目標(biāo)圖片紋理的新圖片.Wang 等人[58]在不依賴3DMM 的情況下同時(shí)訓(xùn)練GAN和AU 分類器,合成具有源圖片AU 屬性且保留目標(biāo)紋理的新圖片.然而這2 個(gè)工作針對的源圖片和目標(biāo)圖片都僅來自受控場景.
除了域適應(yīng)外,域映射的另一個(gè)應(yīng)用是自監(jiān)督學(xué)習(xí),其從數(shù)據(jù)本身的結(jié)構(gòu)推斷出監(jiān)督信號而不需要AU標(biāo)簽.Wiles 等人[59]提出一個(gè)人臉屬性網(wǎng)絡(luò),輸入為來自同一視頻的目標(biāo)幀和源幀,首先編碼器學(xué)習(xí)目標(biāo)幀和源幀的人臉屬性特征,兩者被串聯(lián)起來輸入到解碼器中生成具有源幀表情和目標(biāo)幀姿態(tài)的新圖像,其中解碼器對生成圖像上每一像素與源幀像素的位置對應(yīng)關(guān)系進(jìn)行預(yù)測,同時(shí)約束生成圖像與目標(biāo)幀相似,這里人臉屬性特征包含了表情信息,因而可以用于AU 識別.考慮到AU 是面部肌肉動(dòng)作,Li 等人[60]將視頻中2張不同幀之間的人臉變化視為動(dòng)作,并以此為自監(jiān)督信號來學(xué)習(xí)特征,具體采用一個(gè)雙循環(huán)自編碼器,將AU 相關(guān)的動(dòng)作和頭部姿態(tài)相關(guān)的動(dòng)作解耦出來,從而得到AU相關(guān)的特征.然而這些方法要求訓(xùn)練時(shí)輸入的一對圖像來自同一視頻且具有相同的人臉身份,限制了其適用性.
AU 為人臉局部肌肉動(dòng)作,因而提取其特征需要準(zhǔn)確定位關(guān)聯(lián)區(qū)域,每個(gè)AU 的關(guān)聯(lián)區(qū)域包括其所在部位以及存在一定關(guān)聯(lián)的其他部位.
3.2.1 特征點(diǎn)輔助的區(qū)域?qū)W習(xí)
FACS 基于客觀的人臉解剖學(xué)來定義AU,每個(gè)AU的中心與人臉特征點(diǎn)之間有先驗(yàn)的位置關(guān)系,圖5展示了一些常見AU 的位置定義規(guī)則[61,52],因此可以通過特征點(diǎn)來準(zhǔn)確確定AU 的中心位置,從而提取與AU 關(guān)聯(lián)的局部特征.Jaiswal等人[62]利用特征點(diǎn)為每個(gè)AU預(yù)定義方形的感興趣區(qū)域(Region of Interest,ROI)以及對應(yīng)的二進(jìn)制掩膜(Mask),其中掩膜上特征點(diǎn)形成的多邊形區(qū)域內(nèi)點(diǎn)的值為1 而其他點(diǎn)的值為0,然后基于CNN從裁剪的ROI和掩膜提取每個(gè)AU 的特征.Ali 等人[63]先利用一個(gè)卷積層提取低層特征,然后根據(jù)特征點(diǎn)位置在這一特征圖(Feature Map)上裁剪與AU 的ROI 對應(yīng)的方塊,并分別利用一個(gè)CNN 從每個(gè)方塊進(jìn)一步提取特征.Ma等人[64]利用特征點(diǎn)為AU定義邊界框(Bounding Box),將通用的物體檢測問題融入AU 識別,預(yù)測AU 在哪個(gè)邊界框出現(xiàn),若某一AU 不出現(xiàn)于當(dāng)前人臉,則對于所有邊界框都應(yīng)被預(yù)測為不出現(xiàn).這些方法將ROI 內(nèi)所有位置視為相等的重要性,沒有考慮到離AU中心越近的位置應(yīng)該與AU越相關(guān).
圖5 常見AU的中心位置及可視化
Li 等人[61,65]為每個(gè)AU 的ROI 定義注意力(Attention)分布,ROI 內(nèi)離中心越近的位置其注意力權(quán)重越大,然后在AU 識別網(wǎng)絡(luò)中利用注意力圖對特征圖中的AU 特征進(jìn)行增強(qiáng),并在網(wǎng)絡(luò)的末端從特征圖上裁剪每個(gè)AU 的ROI方塊.Sanchez 等人[66]依據(jù)AU 的標(biāo)簽將其注意力分布定義為高斯分布,特征點(diǎn)決定分布的中心位置而AU 強(qiáng)度決定分布的振幅和大小,然后利用CNN從輸入圖像回歸每個(gè)AU 的注意力圖來實(shí)現(xiàn)AU 強(qiáng)度估計(jì).考慮到AU會(huì)隨人和表情變化而非剛性變化且不可加性導(dǎo)致AU 的外觀改變,Shao 等人[52]在CNN 中利用配準(zhǔn)分支所預(yù)測的特征點(diǎn)定義初始注意力圖,然后利用AU 識別的監(jiān)督信號自適應(yīng)地優(yōu)化每個(gè)AU 的注意力圖,從而更準(zhǔn)確地捕捉AU關(guān)聯(lián)區(qū)域.然而,上述方法均被特征點(diǎn)先驗(yàn)知識所約束,每個(gè)AU 的注意力高亮區(qū)域集中在預(yù)定義ROI 的附近,難以準(zhǔn)確捕捉遠(yuǎn)離預(yù)定義ROI的關(guān)聯(lián)區(qū)域.
3.2.2 自適應(yīng)區(qū)域?qū)W習(xí)
當(dāng)利用AU 標(biāo)簽來有監(jiān)督地訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)時(shí),網(wǎng)絡(luò)在特征學(xué)習(xí)過程中會(huì)隱式地自適應(yīng)捕捉AU的關(guān)聯(lián)區(qū)域.Liu 等人[67]迭代地在CNN 學(xué)習(xí)的特征圖上選擇與目標(biāo)表情標(biāo)簽相關(guān)性最高的特征,這些特征所在區(qū)域被期望為與AU 關(guān)聯(lián)的感受野,然后將這些感受野內(nèi)的特征輸入到RBM 來實(shí)現(xiàn)表情分類.考慮到不同人臉區(qū)域的AU 具有不同的結(jié)構(gòu)和紋理屬性,對不同區(qū)域應(yīng)該采用獨(dú)立而不是共享的濾波器,Zhao等人[68]引入分塊卷積層,將特征圖劃分為相同大小的多個(gè)小塊,在每一小塊內(nèi)部采用獨(dú)立的卷積濾波器來提取特征,該特征圖能夠隱式地捕捉AU 的關(guān)聯(lián)區(qū)域.為了適應(yīng)不同大小的AU,Han 等人[69]提出自適應(yīng)大小的卷積濾波器,在訓(xùn)練CNN 時(shí)學(xué)習(xí)卷積層的濾波器大小和權(quán)重參數(shù).然而,這些方法沒有以顯式的方式來自適應(yīng)學(xué)習(xí)關(guān)聯(lián)區(qū)域,因此只能粗略地確定AU 的區(qū)域位置.
近年來,一些工作在網(wǎng)絡(luò)中加入注意力學(xué)習(xí)模塊,顯式地捕捉AU關(guān)聯(lián)區(qū)域.Shao等人[24]不依賴特征點(diǎn)的先驗(yàn)約束,直接通過AU 識別的監(jiān)督信號自適應(yīng)地學(xué)習(xí)通道級注意力和空間注意力,同時(shí)利用全連接條件隨機(jī)場(Conditional Random Field,CRF)捕捉像素級關(guān)系來優(yōu)化空間注意力,從而選擇和提取每個(gè)AU 的關(guān)聯(lián)特征.Ertugrul等人[70,71]分別采用一個(gè)CNN 從裁剪的人臉塊提取特征,接著利用注意力機(jī)制對各個(gè)塊所提取的特征進(jìn)行加權(quán),實(shí)現(xiàn)AU 識別.雖然上述工作能夠較好地捕捉AU 特征,但仍包含了一些不相關(guān)的信息,影響AU識別的精度.
人臉表情涉及多個(gè)局部位置的肌肉動(dòng)作,因而像素位置間的關(guān)系可以被利用起來.表情中會(huì)時(shí)常出現(xiàn)多個(gè)AU,但不會(huì)所有AU 都出現(xiàn),因而除部分AU 相互獨(dú)立(不相關(guān))外,多數(shù)AU 之間并不獨(dú)立,可能同時(shí)出現(xiàn)(正相關(guān)),也可能相互排斥(負(fù)相關(guān)).而且,在視頻中AU是動(dòng)態(tài)變化的,挖掘時(shí)域關(guān)聯(lián)可以促進(jìn)AU識別.
3.3.1 像素級關(guān)聯(lián)學(xué)習(xí)
Shao 等人[24]利用全連接CRF 捕捉像素級關(guān)聯(lián)關(guān)系,對每個(gè)AU 的空間注意力進(jìn)行優(yōu)化,從而捕捉更準(zhǔn)確的AU 特征.Niu 等人[72]首先利用CNN 提取人臉特征,這一特征的空間上每一點(diǎn)沿通道的特征向量被作為一個(gè)局部特征,接下來利用長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)學(xué)習(xí)局部特征間的關(guān)系,由于不同AU 涉及不同位置的肌肉動(dòng)作,該方法對每個(gè)AU分別采用一個(gè)LSTM 來學(xué)習(xí)不同局部特征的貢獻(xiàn).鑒于密集的人臉特征點(diǎn)可以描述人臉幾何結(jié)構(gòu),F(xiàn)an 等人[73]利用圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)從特征點(diǎn)空間位置形成的幾何圖結(jié)構(gòu)中學(xué)習(xí)一個(gè)隱向量,該隱向量包含人臉形狀模式以及特征點(diǎn)間的相互依賴關(guān)系,在特征學(xué)習(xí)過程中被用來增強(qiáng)表征能力.在這些工作中像素與AU 的對應(yīng)并不明確,使得像素級關(guān)系對AU識別的促進(jìn)作用較有限.
3.3.2 AU級關(guān)聯(lián)學(xué)習(xí)
考慮到AU 的強(qiáng)度級別從0 到5 是有序的(Ordinal),Tran 等人[74]引入變分有序高斯過程自編碼器(Variational Ordinal Gaussian Process Auto-Encoder,VOGPAE),在學(xué)習(xí)隱特征時(shí)施加AU 強(qiáng)度有序關(guān)系的約束.Benitez-Quiroz 等人[75]提出一個(gè)全局-局部損失,其中局部損失分別促進(jìn)每個(gè)AU 的預(yù)測,而全局損失對2個(gè)或2個(gè)以上AU真實(shí)值均為出現(xiàn)即正相關(guān)的情況進(jìn)行約束,促進(jìn)對正相關(guān)AU的預(yù)測.Walecki等人[76]將CNN和CRF 組合在一個(gè)端到端的框架中,其中CRF 的一元能量項(xiàng)捕捉AU 強(qiáng)度的有序結(jié)構(gòu),二元能量項(xiàng)捕捉AU間的依賴關(guān)系.Corneanu 等人[77]將CNN和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)組合成一個(gè)深度結(jié)構(gòu)推理網(wǎng)絡(luò)(Deep Structure Inference Network,DSIN),其中RNN 由許多結(jié)構(gòu)推理單元構(gòu)成,采用門控策略控制每2 個(gè)AU 結(jié)點(diǎn)間的信息傳遞,從而推理AU 之間的結(jié)構(gòu)關(guān)系.Jacob 等人[78]采用一個(gè)注意力網(wǎng)絡(luò)來回歸每個(gè)AU 由特征點(diǎn)所預(yù)定義的注意力圖,然后將注意力增強(qiáng)后的AU 特征輸入到一個(gè)變換器(Transformer)中,捕捉AU間的關(guān)系.
近年來,圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN)開始被應(yīng)用于AU 關(guān)聯(lián)學(xué)習(xí).Li 等人[79]從多個(gè)AU 數(shù)據(jù)集統(tǒng)計(jì)出AU 對的3 種依賴關(guān)系,基于此構(gòu)建有向的AU 關(guān)系圖,每個(gè)AU 是一個(gè)結(jié)點(diǎn),結(jié)點(diǎn)間的有向邊類型包括正相關(guān)和負(fù)相關(guān)2 種,AU 間不相關(guān)則沒有邊相連,然后利用門控GNN[80]對AU 關(guān)系建模.Liu 等人[81]和Niu 等人[82]首先基于數(shù)據(jù)集統(tǒng)計(jì)的依賴關(guān)系構(gòu)建AU 關(guān)系圖,然后利用GCN 建模AU 間的關(guān)系.由于AU間依賴可能隨人和表情的變化而變化,另一些工作采用動(dòng)態(tài)的關(guān)系圖結(jié)構(gòu).Fan 等人[83]提出一個(gè)語義對應(yīng)卷積(Semantic Correspondence Convolution,SCC)模塊,將前一層的每個(gè)特征圖通道作為一個(gè)結(jié)點(diǎn),構(gòu)建K-近鄰圖,動(dòng)態(tài)地計(jì)算通道間的語義對應(yīng),由于每個(gè)通道編碼了AU 的一個(gè)特定模式,這樣可以學(xué)習(xí)AU 間的關(guān)系.Song 等人[84]提出不確定圖卷積(Uncertain Graph Convolution),自適應(yīng)地學(xué)習(xí)基于概率的掩膜來捕捉個(gè)體樣本的AU 間依賴以及不確定性.Song 等人[85]提出一個(gè)混合信息傳遞神經(jīng)網(wǎng)絡(luò),利用性能驅(qū)動(dòng)的蒙特卡羅馬爾可夫鏈采樣方法來學(xué)習(xí)AU 關(guān)系圖,然后在信息傳遞過程中動(dòng)態(tài)地組合不同類型信息使它們相互補(bǔ)充.
此外,為了抑制標(biāo)簽不均衡導(dǎo)致的預(yù)測偏置,許多工作通過調(diào)整采樣率和權(quán)重來進(jìn)行平衡.Li 等人[61]在深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中對訓(xùn)練集中出現(xiàn)頻率較低的AU 采用更大的隨機(jī)采樣率,使得每個(gè)小批量(Mini-Batch)中不同AU 出現(xiàn)的頻率較均衡.另一些工作[24,52,77]在計(jì)算AU 識別損失時(shí),給每一AU 所賦的權(quán)重與該AU 出現(xiàn)的頻率成反比,從而加強(qiáng)了出現(xiàn)頻率較低的AU.此外,為了平衡每個(gè)AU 的出現(xiàn)頻率和不出現(xiàn)頻率,Li 等人[79]對交叉熵?fù)p失中出現(xiàn)頻率的熵項(xiàng)乘以訓(xùn)練集中該AU 的不出現(xiàn)頻率,而對不出現(xiàn)頻率的熵項(xiàng)乘以該AU 的出現(xiàn)頻率,這樣,若某一AU 的不出現(xiàn)頻率大于出現(xiàn)頻率,其對應(yīng)于出現(xiàn)的損失項(xiàng)被加強(qiáng).Song等人[84]提出自適應(yīng)加權(quán)損失函數(shù),通過自適應(yīng)地學(xué)習(xí)認(rèn)知不確定性(Epistemic Uncertainty)來計(jì)算小批量中每個(gè)樣本的權(quán)重,不確定性越高的樣本被賦以越大的權(quán)重,從而抵消數(shù)據(jù)不均衡.
上述方法所學(xué)習(xí)的AU 關(guān)聯(lián)依賴訓(xùn)練數(shù)據(jù)集的AU標(biāo)簽分布,使得訓(xùn)練的AU 識別模型難以適應(yīng)跨數(shù)據(jù)集測試,泛化能力較低.
3.3.3 時(shí)域關(guān)聯(lián)學(xué)習(xí)
當(dāng)前采用時(shí)域關(guān)聯(lián)學(xué)習(xí)的方法一般先提取視頻中每幀人臉圖像的空間特征,然后利用LSTM 等時(shí)間序列模型對時(shí)域上幀間關(guān)聯(lián)進(jìn)行建模.Chu 等人[86]采用CNN提取各幀空間特征,并用LSTM 對幀間的時(shí)域信息進(jìn)行建模,最后在CNN和LSTM的末端將時(shí)空特征進(jìn)行融合.Bishay 等人[87]設(shè)計(jì)一個(gè)三層級的框架:在第一層級利用CNN 學(xué)習(xí)人臉外觀特征,并利用多層感知機(jī)從人臉特征點(diǎn)學(xué)習(xí)幾何特征;在第二層級利用RNN 從連續(xù)幀學(xué)習(xí)時(shí)域上的關(guān)聯(lián);在第三層級將各網(wǎng)絡(luò)的預(yù)測結(jié)果進(jìn)行融合.He 等人[88]將雙向LSTM 與RNN 結(jié)合起來學(xué)習(xí)時(shí)域特征.Song 等人[89]利用多個(gè)LSTM 同時(shí)挖掘時(shí)域和空間域上的關(guān)聯(lián)信息.Yang等人[90]采用2D的CNN 對每幀圖像提取特征,同時(shí)采用3D 的CNN 捕捉圖像序列的時(shí)空信息,從而實(shí)現(xiàn)AU 識別.Yang 等人[91]利用單張圖像及一張錨定圖像來無監(jiān)督地學(xué)習(xí)光流,從而捕捉時(shí)域信息,再將光流輸入到AU 識別網(wǎng)絡(luò)進(jìn)行AU 預(yù)測,這里光流網(wǎng)絡(luò)和AU 識別網(wǎng)絡(luò)被聯(lián)合地訓(xùn)練,使得AU 標(biāo)簽可以提供語義信息從而促進(jìn)光流的學(xué)習(xí).Zhang 等人[92]利用注意力機(jī)制實(shí)現(xiàn)特征融合和標(biāo)簽融合,其中前者用于捕捉人臉局部塊間的空間關(guān)系,而后者用于捕捉時(shí)域動(dòng)態(tài)關(guān)系.
這些工作主要是將已有的時(shí)間序列模型應(yīng)用于AU 識別任務(wù),并未明確地對AU 在時(shí)域上動(dòng)態(tài)非剛性變化的過程進(jìn)行分析和處理,限制了時(shí)域關(guān)聯(lián)學(xué)習(xí)的有效性.
在這一節(jié),本文選取近年來最廣泛使用的AU 數(shù)據(jù)集BP4D[26]和DISFA[27],將相同實(shí)驗(yàn)設(shè)置下基于深度學(xué)習(xí)的AU 識別工作所報(bào)告的結(jié)果進(jìn)行展示.AU 識別包括AU 檢測和AU 強(qiáng)度估計(jì),下面分別介紹在2 個(gè)數(shù)據(jù)集上具體的實(shí)驗(yàn)設(shè)置.
4.1.1 AU檢測
在BP4D和DISFA 上按照文獻(xiàn)[68,61,52]的設(shè)置,采用3-折交叉驗(yàn)證(3-Fold Cross-Validation),每折包含的人臉身份無交疊,每次實(shí)驗(yàn)其中兩折用于訓(xùn)練而剩余的一折用于測試,BP4D 為在12 個(gè)AU(1,2,4,6,7,10,12,14,15,17,23和24)上評估,DISFA 為在8 個(gè)AU(1,2,4,6,9,12,25和26)上評估.評價(jià)指標(biāo)采用基于幀的F1分?jǐn)?shù)(Frame-Based F1-Score),其定義為
其中P指精確率(Precision),R指召回率(Recall),F(xiàn)1 分?jǐn)?shù)能夠可靠地度量AU 標(biāo)簽出現(xiàn)和不出現(xiàn)頻率不均衡情況下模型的性能.
4.1.2 AU強(qiáng)度估計(jì)
在BP4D和DISFA 上按照文獻(xiàn)[76,51,24]的設(shè)置,BP4D 的訓(xùn)練集包含21 個(gè)人臉身份,測試集包含20 個(gè)人臉身份,在5個(gè)AU(6,10,12,14和17)上評估,DISFA的訓(xùn)練集包含18 個(gè)人臉身份,測試集包含9 個(gè)人臉身份,在12 個(gè)AU(1,2,4,5,6,9,12,15,17,20,25和26)上評估.評價(jià)指標(biāo)采用組內(nèi)相關(guān)系數(shù)(Intra-Class Correlation,ICC(3,1))[93].
表4、表5 分別對代表性的基于深度學(xué)習(xí)的AU 檢測和AU 強(qiáng)度估計(jì)方法進(jìn)行了總結(jié)和對比,從中可以觀察到如下幾方面的現(xiàn)象.
表4 基于深度學(xué)習(xí)的AU檢測代表性方法總結(jié)
表5 基于深度學(xué)習(xí)的AU強(qiáng)度估計(jì)代表性方法總結(jié)
(1)目前研究AU 檢測的工作多于AU 強(qiáng)度估計(jì),這是因?yàn)閺?qiáng)度估計(jì)不僅需要判斷每個(gè)AU 是否出現(xiàn),還需識別AU的強(qiáng)度,更具挑戰(zhàn)性.
(2)大多數(shù)AU 識別工作將遷移學(xué)習(xí)、區(qū)域?qū)W習(xí)和關(guān)聯(lián)學(xué)習(xí)中多種策略進(jìn)行結(jié)合,而不是僅基于一種學(xué)習(xí)策略,這是因?yàn)閷?shí)現(xiàn)高精度的AU 識別需要同時(shí)解決標(biāo)簽稀缺性、特征難捕捉性和標(biāo)簽不均衡性的挑戰(zhàn).
(3)采用關(guān)聯(lián)學(xué)習(xí)的工作如R-T1[65],D-PAttNet[71]和DPG[89]取得相比于其他工作更高的精度,表明AU 間關(guān)聯(lián)以及時(shí)域關(guān)聯(lián)對AU識別具有重要意義.
(4)當(dāng)前基于遷移學(xué)習(xí)的工作如MLCR[82]和TAE[60]并未取得相比于其他工作明顯的性能優(yōu)勢,說明這類方法仍有較大的挖掘空間,需要進(jìn)一步從AU 的特性出發(fā),提出有效的模型來充分利用已有的樣本、標(biāo)簽、模型以及先驗(yàn)知識.
(5)與J?A-Net[52]和G2RL[73]相比,R-T1[65],AU RCNN[64],KBSS[51]和SCC[83]等工作無法在BP4D和DISFA上同時(shí)取得較高的精度,說明AU 識別模型的可靠性和泛化能力也是需要著重研究的地方.
目前,表情AU 識別技術(shù)已取得較大的發(fā)展,但其精度仍有很大的提升空間,無法很好地滿足實(shí)際應(yīng)用需求.未來可從以下幾方面進(jìn)一步進(jìn)行探索.
(1)已有基于遷移學(xué)習(xí)的工作尚無法有效地解決標(biāo)簽稀缺性挑戰(zhàn).未來可以采取融合多種策略的方式:①將具有AU標(biāo)簽的樣本作為源樣本,利用GAN將無標(biāo)簽?zāi)繕?biāo)樣本的表情編輯為源表情,則其具有源樣本的AU 標(biāo)簽,這些新生成的目標(biāo)樣本提高了訓(xùn)練數(shù)據(jù)的多樣性;②利用最新的人臉配準(zhǔn)開源庫對樣本標(biāo)注特征點(diǎn),同時(shí)結(jié)合具有整體表情標(biāo)簽的數(shù)據(jù)集,挖掘特征點(diǎn)、整體表情與AU 間關(guān)聯(lián)性,促進(jìn)AU 識別;③將自監(jiān)督學(xué)習(xí)、有監(jiān)督學(xué)習(xí)、域適應(yīng)多種方法綜合起來,利用自監(jiān)督學(xué)習(xí)從無標(biāo)簽樣本中學(xué)習(xí)AU 本質(zhì)屬性的特征表示,利用有監(jiān)督學(xué)習(xí)從具有AU 標(biāo)簽的樣本中學(xué)習(xí)AU 識別模型,利用域適應(yīng)使得其他域訓(xùn)練的模型可以被應(yīng)用于當(dāng)前域.
(2)當(dāng)前的AU 識別模型在對多個(gè)AU 同時(shí)預(yù)測時(shí)仍易于偏向提升出現(xiàn)頻率較高AU 的精度,以及偏向?qū)U預(yù)測為不出現(xiàn),標(biāo)簽不均衡性依然嚴(yán)重限制著AU識別的精度.可選的解決方案為:①利用GAN進(jìn)行數(shù)據(jù)擴(kuò)增,盡量使所生成的數(shù)據(jù)集在每個(gè)AU 的出現(xiàn)與不出現(xiàn)頻率、不同AU間的出現(xiàn)頻率方面保持均衡;②借鑒已有的處理長尾分布等不均衡數(shù)據(jù)的方法,對不均衡的AU標(biāo)簽分布進(jìn)行建模,充分挖掘不同AU間的關(guān)聯(lián)關(guān)系.
(3)現(xiàn)有的工作主要關(guān)注受控環(huán)境,更接近實(shí)際應(yīng)用場景的非受控AU識別的相關(guān)研究仍較少.未來可從以下角度切入非受控環(huán)境的研究:①研究受控域到非受控域的AU遷移方法,利用具有AU標(biāo)簽的受控域數(shù)據(jù)集生成新的非受控域樣本,擴(kuò)增非受控域訓(xùn)練數(shù)據(jù);②提高方法對不同頭部姿態(tài)的魯棒性,可以定位3D的人臉特征點(diǎn)、構(gòu)造UV 映射、計(jì)算3D人臉表面的測地距離,這些輔助信息都可以加到深度神經(jīng)網(wǎng)絡(luò)中,在輸入、中間的特征提取或者后置處理環(huán)節(jié)提升AU 識別的精度;③利用特征解耦方法將光照、姿態(tài)、遮擋等信息從AU 特征中分離,實(shí)現(xiàn)光照無關(guān)、姿態(tài)無關(guān)、遮擋無關(guān)的AU識別.
(4)當(dāng)前的AU 數(shù)據(jù)集具有樣本規(guī)模小且多樣性低、標(biāo)簽稀缺且不均衡、缺乏非受控樣本等不足.未來可以構(gòu)建一個(gè)規(guī)模大、樣本多樣性豐富、AU 標(biāo)注全面的非受控環(huán)境數(shù)據(jù)集.由于對AU進(jìn)行人工標(biāo)注的成本很高,在標(biāo)注的過程中,可以基于主動(dòng)學(xué)習(xí)(Active Learning)[94~96],從一個(gè)具有人工標(biāo)注的小訓(xùn)練集開始,訓(xùn)練模型并對未標(biāo)注樣本進(jìn)行預(yù)測,然后基于預(yù)測結(jié)果選擇信息最豐富、存在出現(xiàn)頻率較低AU 的未標(biāo)注樣本進(jìn)行人工標(biāo)注,再將新標(biāo)注的樣本加入訓(xùn)練集并更新模型,重復(fù)上述步驟直至被訓(xùn)練的模型在測試集上的性能已收斂或已滿足精度要求,這樣可以保證有限的標(biāo)注成本用在最需要的樣本上.