• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      采用深度學(xué)習(xí)方法的非正面表情識(shí)別綜述

      2021-04-23 04:29:12張秋聞張煥龍
      關(guān)鍵詞:人臉卷積神經(jīng)網(wǎng)絡(luò)

      蔣 斌,鐘 瑞,張秋聞,張煥龍

      1.鄭州輕工業(yè)大學(xué) 計(jì)算機(jī)與通信工程學(xué)院,鄭州450001

      2.鄭州輕工業(yè)大學(xué) 電氣信息工程學(xué)院,鄭州450002

      人的面部表情蘊(yùn)含著豐富的情感信息,在人們溝通交流的過(guò)程中起到了積極和重要的作用。1971年,心理學(xué)家Ekman 與Friesen[1]研究提出了人類的六種基本情感的概念,即:生氣(anger)、高興(happy)、悲傷(sad)、驚奇(surprise)、厭惡(disgust)和恐懼(fear)。基本情感有效地歸納了面部表情的種類,有利于一般表情類別的確定。1978年,二人又在前期研究的基礎(chǔ)上,創(chuàng)建了人臉運(yùn)動(dòng)編碼系統(tǒng)(Facial Action Coding System,F(xiàn)ACS)[2],該系統(tǒng)根據(jù)面部肌肉的類型和運(yùn)動(dòng)特征,定義了運(yùn)動(dòng)單元(Action Unit,AU),使得人臉面部存在的各種表情和動(dòng)作,最終能分解為不同的AU 或AU 組合。進(jìn)一步明確了對(duì)復(fù)雜表情類別的描述,為后續(xù)表情分析與識(shí)別的深入研究,奠定了堅(jiān)實(shí)的基礎(chǔ)。

      伴隨著人工智能領(lǐng)域的進(jìn)一步發(fā)展,人臉表情識(shí)別作為該領(lǐng)域的一項(xiàng)重要研究?jī)?nèi)容,吸引了研究者們的廣泛關(guān)注。目前,大多數(shù)人臉表情識(shí)別對(duì)象集中在正面或接近正面的人臉表情圖像上。但是在現(xiàn)實(shí)環(huán)境中,獲取正面人臉表情圖像或視頻的情況并不是一種常態(tài)。多數(shù)情況下,識(shí)別對(duì)象的頭部一直處于運(yùn)動(dòng)狀態(tài)。設(shè)備拍攝到的人臉圖像多處于非正面角度,甚至包括上下、前后等更復(fù)雜的運(yùn)動(dòng)形式。當(dāng)偏轉(zhuǎn)角度大于45°時(shí),還會(huì)造成人臉被大面積遮擋情況的發(fā)生。針對(duì)現(xiàn)實(shí)環(huán)境中人臉表情識(shí)別面臨的問(wèn)題,更符合實(shí)際需求的非正面人臉表情識(shí)別技術(shù)逐漸發(fā)展起來(lái)。非正面人臉表情識(shí)別就是針對(duì)在自然狀態(tài)下、人臉偏轉(zhuǎn)時(shí),如何識(shí)別面部表情類別的問(wèn)題而展開的。與正面人臉表情識(shí)別相比,非正面表情識(shí)別不但需要檢測(cè)非正面的人臉圖像,而且需要考慮頭部姿態(tài)估計(jì)的問(wèn)題。非正面表情識(shí)別的一般流程如圖1所示。

      圖1 非正面表情識(shí)別流程圖

      然而目前對(duì)非正面表情識(shí)別問(wèn)題進(jìn)行分析的綜述論文較少[3],而且經(jīng)常用于表情識(shí)別的經(jīng)典機(jī)器學(xué)習(xí)算法多屬于淺層學(xué)習(xí)模型,即只采用單層結(jié)構(gòu)將人臉圖像轉(zhuǎn)換到表情特征空間中。由于淺層模型的單一性限制了該類算法對(duì)復(fù)雜分類問(wèn)題的表達(dá)能力,所以在非正面表情識(shí)別上,經(jīng)典的機(jī)器學(xué)習(xí)方法往往不能達(dá)到令人滿意的結(jié)果。

      與淺層模型相比,深度學(xué)習(xí)方法可以通過(guò)學(xué)習(xí)深層非線性網(wǎng)絡(luò)結(jié)構(gòu),模擬更加復(fù)雜的函數(shù)。因而在分類識(shí)別問(wèn)題上有著顯著的優(yōu)勢(shì)。此外,深度學(xué)習(xí)方法還用監(jiān)督或半監(jiān)督式的特征學(xué)習(xí)和特征提取算法來(lái)替代手工方法,獲取人臉圖像特征,進(jìn)而很好地避免了人為獲取人臉圖像特征所帶來(lái)的誤差。研究者們發(fā)現(xiàn),深度學(xué)習(xí)的這些優(yōu)點(diǎn)在解決非正面表情識(shí)別問(wèn)題上,具有其他機(jī)器學(xué)習(xí)方法無(wú)法替代的優(yōu)勢(shì)。所以近幾年,表情識(shí)別的研究熱點(diǎn)已逐漸轉(zhuǎn)向了深度學(xué)習(xí)。

      如圖2所示,基于深度學(xué)習(xí)的表情識(shí)別系統(tǒng)主要包含三個(gè)步驟:首先,針對(duì)輸入樣本(圖像或視頻)進(jìn)行預(yù)處理;其次,將處理好的圖像輸送到深度學(xué)習(xí)模型中進(jìn)行特征提??;最后,將提取到的表情特征對(duì)分類器進(jìn)行訓(xùn)練,進(jìn)行依靠訓(xùn)練后的分類器正確地預(yù)測(cè)樣本的表情類別。然而,在深度學(xué)習(xí)方法中,特征提取和分類的過(guò)程均可由深度學(xué)習(xí)模型自行完成。所以上述過(guò)程又可分為兩步,即非正面表情樣本預(yù)處理,以及基于深度信息的非正面表情分類。

      圖2 基于深度學(xué)習(xí)的表情識(shí)別流程圖

      1 針對(duì)表情識(shí)別的人臉數(shù)據(jù)庫(kù)

      由于非正面表情樣本的特點(diǎn),使得預(yù)處理方式包括:人臉檢測(cè)與驗(yàn)證、頭部姿態(tài)估計(jì)、光照與尺度歸一化處理等。研究者可根據(jù)需要,針對(duì)不同的輸入樣本進(jìn)行選擇。與實(shí)時(shí)采集的數(shù)據(jù)相比,由專業(yè)機(jī)構(gòu)制作的人臉表情數(shù)據(jù)庫(kù)由于具有背景簡(jiǎn)單、噪聲干擾小等優(yōu)點(diǎn),更受到多數(shù)研究者的青睞。目前,國(guó)內(nèi)外的常用的標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)可根據(jù)頭部姿態(tài)的不同,分為正面表情數(shù)據(jù)庫(kù)和非正面表情數(shù)據(jù)庫(kù),本文將國(guó)內(nèi)外常用數(shù)據(jù)庫(kù)按照靜態(tài)表情數(shù)據(jù)庫(kù)(如表1所示)與動(dòng)態(tài)表情數(shù)據(jù)庫(kù)(如表2所示)進(jìn)行分類匯總。

      1.1 正面表情數(shù)據(jù)庫(kù)

      在正面表情數(shù)據(jù)庫(kù)中,日本ATR人類信息處理研究實(shí)驗(yàn)室和日本九州大學(xué)心理學(xué)系建立的日本女性人臉表情數(shù)據(jù)庫(kù)(Japan Female Facial Expression,JAFFE)[4],是最常用的一個(gè)靜態(tài)圖像數(shù)據(jù)庫(kù)。該庫(kù)包括10名日本女性共213 幅靜態(tài)圖像,每人有6 種基本表情和中性表情,每種表情有2~4幅圖像。

      而在動(dòng)態(tài)圖像數(shù)據(jù)庫(kù)方面,美國(guó)卡內(nèi)基梅隆大學(xué)發(fā)布于2010 年的CK+數(shù)據(jù)庫(kù)[5]則是其中的佼佼者。該庫(kù)在實(shí)驗(yàn)室環(huán)境下記錄了年齡在18至50歲之間的210名成年人的正面表情,具體包括123 個(gè)對(duì)象的593 個(gè)圖像序列。經(jīng)過(guò)篩選,其中的327 個(gè)圖像序列滿足8 類表情的分類標(biāo)準(zhǔn),即生氣(anger)、輕視(contempt)、厭惡(disgust)、恐懼(fear)、高興(happy)、中性(neutral)、悲傷(sadness)和驚奇(surprise)。

      表1 常用靜態(tài)數(shù)據(jù)庫(kù)

      表2 常用動(dòng)態(tài)視頻數(shù)據(jù)庫(kù)

      就視頻數(shù)據(jù)庫(kù)而言,奧盧大學(xué)和中國(guó)科學(xué)院模式識(shí)別實(shí)驗(yàn)室于2010 年發(fā)布的Oulu-CASIA 數(shù)據(jù)庫(kù)[6]從80名受試者中收集了2 880 個(gè)視頻,每個(gè)視頻在采集過(guò)程中都經(jīng)歷了3種不同程度的照明條件。在視頻中,每位受試者被要求展示6種基本的情感表達(dá),即生氣、厭惡、恐懼、高興、悲傷和驚奇。

      1.2 非正面表情數(shù)據(jù)庫(kù)

      在非正面表情數(shù)據(jù)庫(kù)中,荷蘭代爾夫特理工大學(xué)的MMI(Man Machine Interaction)數(shù)據(jù)庫(kù)[7],是一個(gè)參與者眾多、在線、開源的網(wǎng)絡(luò)數(shù)據(jù)庫(kù)。目前已經(jīng)采集了超過(guò)50個(gè)人的視頻和圖像,表情類別包含了FACS的各種動(dòng)作單元。

      Binghamton 大學(xué)的BU-3DFE 數(shù)據(jù)庫(kù)[8]將數(shù)據(jù)格式從二維圖像擴(kuò)展到三維模型。該庫(kù)包括了具有2 500個(gè)面部表情模型的對(duì)象。100名被采集者中,女性占56個(gè),男性44 個(gè),每個(gè)樣本執(zhí)行了7 個(gè)表情,分別是中性、高興、厭惡、恐懼、生氣、驚奇和悲傷。2008年,為了分析從靜態(tài)三維空間到動(dòng)態(tài)三維空間的面部行為,Binghamton大學(xué)又將該庫(kù)擴(kuò)展到四維(BU-4DFE[9]),即三維+時(shí)間維。該庫(kù)包含了亞裔、非裔、拉丁裔等多個(gè)人種,總計(jì)約60 600個(gè)框架模型。

      2008 年,Bogazici 大學(xué)發(fā)布的Bosphorus 數(shù)據(jù)庫(kù)[10]是依靠基于結(jié)構(gòu)光的三維系統(tǒng)采集而來(lái)。該庫(kù)由81個(gè)不同姿勢(shì)、表情和遮擋條件的被采集樣本組成。每個(gè)掃描樣本已手動(dòng)標(biāo)記了24 個(gè)面部關(guān)鍵點(diǎn),便于研究者實(shí)現(xiàn)對(duì)關(guān)鍵點(diǎn)的檢測(cè)及跟蹤。

      2010 年,卡內(nèi)基梅隆大學(xué)創(chuàng)建了Multi-PIE[11]數(shù)據(jù)庫(kù)。為了系統(tǒng)地捕捉具有不同姿勢(shì)和照明的圖像,在拍攝面部表情的過(guò)程中,337 個(gè)志愿者從15 個(gè)視角、19 種照明條件下,拍攝了超過(guò)750 000 張照片。具體表情包含厭惡(disgust)、中性(neutral)、尖叫(soream)、微笑(smile)、斜視(squint)以及驚奇(surprise)。

      2010年,奈梅亨拉德布德大學(xué)(Radboud University Nijmegen)建立的RaFD(Radboud Faces Database)數(shù)據(jù)庫(kù)[12]包含了67位表演者,同樣包括了不同的年齡、性別、膚色等。該數(shù)據(jù)庫(kù)共包含8種基本表情:高興、悲傷、厭惡、驚奇、恐懼、生氣、輕蔑以及中立表情。每種表情有5 種不同的姿態(tài),3 種不同的眼神方向,共有8 400 張人物圖像。

      Acted Facial Expressions in the Wild(AFEW)[13]數(shù)據(jù)庫(kù),包含從不同電影收集的視頻剪輯,其中具有自發(fā)的表情、不同頭部姿勢(shì)、遮擋和照明的多種表情。樣本標(biāo)有6 種基本表情標(biāo)簽加中性表情。此數(shù)據(jù)集在不斷更新中,2017年EmotiW最新的AFEW 7.0包含1 809個(gè)視頻。

      2013 年,在ICML2013 挑戰(zhàn)賽中引入FER2013[14]數(shù)據(jù)庫(kù),由Google圖像搜索API自動(dòng)收集的大規(guī)模且無(wú)約束的網(wǎng)絡(luò)數(shù)據(jù)集,包含28 709張訓(xùn)練圖像、3 589張驗(yàn)證圖像和3 589張測(cè)試圖像。

      2015年,由堪培拉大學(xué)視覺(jué)與傳感組截取的電影畫面構(gòu)成SFEW2.0[15]數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)圖像均處于自然場(chǎng)景下,而非理想實(shí)驗(yàn)室環(huán)境,包含7種表情(生氣、厭惡、恐懼、高興、中性、悲傷、驚奇),總共有1 766張樣本圖像。

      2016 年,俄亥俄州立大學(xué)發(fā)布了一個(gè)大型數(shù)據(jù)庫(kù)EmotioNet[16],具有從Internet收集的一百萬(wàn)個(gè)面部表情圖像。其中的自動(dòng)行動(dòng)單元(AU)檢測(cè)模型對(duì)總共950 000張圖像進(jìn)行了注釋,而其余的25 000 張圖像則由11 個(gè)AU進(jìn)行了人工注釋。

      2017 年,丹佛大學(xué)發(fā)布了包含超過(guò)一百萬(wàn)張來(lái)自Internet 的圖像數(shù)據(jù)庫(kù)AffectNet[17],這些圖像是通過(guò)使用與情感相關(guān)的標(biāo)簽查詢不同的搜索引擎而獲得的。它是迄今為止最大的數(shù)據(jù)庫(kù),它以兩種不同的情感模型(分類模型和維度模型)提供面部表情,其中450 000 張圖像具有手動(dòng)注釋的用于8種基本表情的標(biāo)簽。

      2018年,由倫敦帝國(guó)理工學(xué)院和倫敦米德?tīng)柸怂勾髮W(xué)發(fā)布的4D Facial Behaviour Analysis for Security(4DFAB)Database[18]數(shù)據(jù)庫(kù),具有超過(guò)1 800 000 張高分辨率3D面孔,記錄了在5年期間的4個(gè)不同會(huì)議中捕獲的180個(gè)主題。它包含對(duì)象的4D動(dòng)態(tài)視頻,顯示6個(gè)基本表情的自發(fā)性和姿勢(shì)性面部表情。

      相比之下,國(guó)內(nèi)的數(shù)據(jù)庫(kù)較少,隨著深度學(xué)習(xí)方法在圖像處理領(lǐng)域的廣泛應(yīng)用,研究人員對(duì)圖像數(shù)據(jù)庫(kù)的需求與日俱增,建立大規(guī)模的圖像數(shù)據(jù)庫(kù)是當(dāng)前急需解決的問(wèn)題。

      2004 年,清華大學(xué)建立的人臉表情視頻數(shù)據(jù)庫(kù)[19],包括了70個(gè)人的1 000段臉部表情視頻,涵蓋了常見(jiàn)的8類情感類表情和中文語(yǔ)音發(fā)音的說(shuō)話類表情。

      2007 年,北京航空航天大學(xué)建立的BHU(Beihang University)人臉表情數(shù)據(jù)庫(kù)[20]是一個(gè)較為全面的人臉表情數(shù)據(jù)庫(kù),包含3類人臉表情:?jiǎn)我槐砬?、混合表情和?fù)雜表情。

      2008 年,中國(guó)科學(xué)院發(fā)布的CAS-PEAL(Chinese Academy of Sciences-Pose Expression Accessory and Lighting)人臉數(shù)據(jù)庫(kù)[21]包含了1 040 個(gè)人的6 種面部表情和動(dòng)作,包括中性、閉眼、皺眉、微笑、驚奇和張嘴。

      2017年,北京郵電大學(xué)建立了Real-world Affective Face Database(RAF-DB)[22-23]數(shù)據(jù)庫(kù),其中包含從Internet下載的29 672 個(gè)高度多樣化的面部圖像。通過(guò)手動(dòng)眾包注釋和可靠的估計(jì),為樣本提供了7個(gè)基本和11個(gè)復(fù)合情感標(biāo)簽。具體而言,將來(lái)自基本情感集的15 339張圖像分為兩組(12 271個(gè)訓(xùn)練樣本和3 068個(gè)測(cè)試樣本)進(jìn)行評(píng)估。

      2018年,香港中文大學(xué)建立的The Expression in-the-Wild Database(ExpW[24]),包含使用Google 圖像搜索下載的91 793 張臉孔。每個(gè)面部圖像都被手動(dòng)注釋為7個(gè)基本表情類別之一。

      2 針對(duì)表情識(shí)別的深度學(xué)習(xí)方法

      深度學(xué)習(xí)是一種模擬人腦活動(dòng)的網(wǎng)絡(luò)結(jié)構(gòu)。該類方法可以將原始數(shù)據(jù)通過(guò)一些簡(jiǎn)單的、非線性的、多層次表征模型,轉(zhuǎn)變成為更高層次的、更加抽象的表達(dá)[25]。在處理人臉圖像數(shù)據(jù)時(shí),深度學(xué)習(xí)通過(guò)多層次的結(jié)構(gòu)來(lái)學(xué)習(xí)人臉表情特征,與傳統(tǒng)的機(jī)器學(xué)習(xí)相比,深度學(xué)習(xí)可以依靠自己的學(xué)習(xí)過(guò)程來(lái)進(jìn)行人臉表情特征的提取,將提取到的表情特征融合成更復(fù)雜抽象的特征,再輸入到表情分類器進(jìn)行表情分類。因此結(jié)構(gòu)模型的層數(shù)越多,學(xué)習(xí)到的表情特征更高級(jí),深度學(xué)習(xí)網(wǎng)絡(luò)的性能就會(huì)更強(qiáng)。目前基于深度學(xué)習(xí)的非正面表情識(shí)別方法,主要包括:基于卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別方法、基于深度置信網(wǎng)絡(luò)的方法、基于遞歸神經(jīng)網(wǎng)絡(luò)的方法、基于深度自動(dòng)編碼器的方法,以及基于生成對(duì)抗式網(wǎng)絡(luò)的方法,以上幾種算法比較如表3所示。

      2.1 基于卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別方法

      卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[28]是一個(gè)具有層次結(jié)構(gòu)的多層感知器。如圖3所示:一個(gè)基礎(chǔ)的CNN 是由輸入層(input)、卷積層(convolution)、激活層(activation)、池化層(pooling)、全連接層(fully connecter)以及輸出層(output)組成的。

      表3 用于表情識(shí)別的深度學(xué)習(xí)算法比較

      圖3 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖

      卷積層是網(wǎng)絡(luò)中最核心的模塊。主要作用是對(duì)圖像進(jìn)行特征提?。患せ詈瘮?shù)是用來(lái)模擬人的神經(jīng)系統(tǒng),只對(duì)部分神經(jīng)元的輸入做出反應(yīng)。對(duì)卷積層的輸出做一次非線性映射,不僅可以增加網(wǎng)絡(luò)的表示能力,還能使網(wǎng)絡(luò)具備良好的非線性建模能力;池化層主要作用是數(shù)據(jù)降維,從而減少計(jì)算量、內(nèi)存使用量以及參數(shù)的數(shù)量,在一定程度上降低過(guò)擬合的可能性和提高模型的容錯(cuò)性;全連接層一般是CNN 網(wǎng)絡(luò)中的最后一層。在經(jīng)過(guò)卷積層、激活層、池化層進(jìn)行特征提取之后,得到的結(jié)果作為全連接層的輸入。損失函數(shù)用來(lái)衡量錯(cuò)誤的程度以及用來(lái)指導(dǎo)網(wǎng)絡(luò)訓(xùn)練的大體方向。它表示了預(yù)測(cè)值與真實(shí)值的不一致程度,即通過(guò)損失函數(shù)來(lái)計(jì)算樣本預(yù)測(cè)分類的結(jié)果與真實(shí)類別的誤差,利用反向傳播算法將誤差向前傳播,從而指導(dǎo)網(wǎng)絡(luò)的參數(shù)訓(xùn)練。在表情識(shí)別中,該方法可以對(duì)圖像的相關(guān)特征和圖形的拓?fù)浣Y(jié)構(gòu)進(jìn)行自行提取。從CNN 提出至今,已出現(xiàn)了多種模型。2.1 節(jié)將對(duì)經(jīng)典的CNN 模型進(jìn)行詳細(xì)介紹,并對(duì)不同模型的性能進(jìn)行對(duì)比。

      2.1.1 LeNet

      LeNet 是LeCun 等[29]在1998 年設(shè)計(jì)的最早用于手寫數(shù)字識(shí)別的卷積神經(jīng)網(wǎng)絡(luò)。具體結(jié)構(gòu)如圖4[29]所示。

      經(jīng)典的LeNet-5 網(wǎng)絡(luò)模型由一個(gè)輸入層、兩個(gè)卷積層、兩個(gè)池化層、兩個(gè)全連接層和一個(gè)輸出層組成,每層都包含不同的訓(xùn)練參數(shù),是其他深度學(xué)習(xí)模型的基礎(chǔ)。

      文獻(xiàn)[30]在LeNet-5網(wǎng)絡(luò)的基礎(chǔ)上對(duì)網(wǎng)絡(luò)結(jié)構(gòu)和內(nèi)部結(jié)構(gòu)進(jìn)行了優(yōu)化和改進(jìn)。添加批量規(guī)范化,解決不同特征帶來(lái)的網(wǎng)絡(luò)模型過(guò)擬合問(wèn)題。選擇最大重疊池化和平均重疊池化減少數(shù)據(jù)量的同時(shí),充分提取表情特征,有效提高了識(shí)別的準(zhǔn)確率,增加了對(duì)光線、姿勢(shì)和遮擋物狀態(tài)下識(shí)別人臉表情的魯棒性。但是還需將網(wǎng)絡(luò)參數(shù)量大、運(yùn)算量大、對(duì)運(yùn)算設(shè)備要求高的問(wèn)題考慮進(jìn)去。文獻(xiàn)[31]針對(duì)局部遮擋問(wèn)題,提出改進(jìn)的交叉鏈接多層LeNet-5 卷積神經(jīng)網(wǎng)絡(luò)模型。在LeNet-5 的基礎(chǔ)上增加卷積層和池化層,從網(wǎng)絡(luò)結(jié)構(gòu)中提取的低級(jí)特征與高級(jí)特征相結(jié)合構(gòu)造分類器,最后,使用Softmax分類器進(jìn)行分類識(shí)別,在遮擋條件下具有較高的識(shí)別率。

      2.1.2 AlexNet

      2012 年,AlexNet[32]獲得ILSVRC2012 比賽冠軍,如圖5[32]所示,該網(wǎng)絡(luò)模型使用雙GPU 并行訓(xùn)練,在LeNet-5 的基礎(chǔ)上增加了激活函數(shù)ReLU,防止梯度消失,加速網(wǎng)絡(luò)訓(xùn)練速度;網(wǎng)絡(luò)使用數(shù)據(jù)增強(qiáng)并在全連接層使用Dropout,防止模型過(guò)擬合問(wèn)題;提出LRN層,提高模型精度。

      圖4 LeNet-5網(wǎng)絡(luò)結(jié)構(gòu)圖

      圖5 AlexNet網(wǎng)絡(luò)結(jié)構(gòu)圖

      文獻(xiàn)[33]提出了一種基于LBP 特征映射與CNN 相結(jié)合的人臉表情識(shí)別算法。首先,將原始圖像進(jìn)行LBP特征映射之后,再送入改進(jìn)后的AlexNet網(wǎng)絡(luò),最后,將LBP特征映射與CNN結(jié)合進(jìn)行特征融合。該方法對(duì)光照變化具有很好的魯棒性。

      2.1.3 VGGNet

      VGG 網(wǎng)絡(luò)[34]由牛津大學(xué)視覺(jué)組和Google Deep-Mind 公司的研究員于2014 年提出,獲得ILSVRC-2014中定位任務(wù)第一名和分類任務(wù)第二名。如表4 所示,VGGNet由5個(gè)卷積組、2個(gè)全連接特征層和1個(gè)全連接分類層組成。該網(wǎng)絡(luò)實(shí)驗(yàn)證明,AlexNet中LRN層對(duì)性能的提升并無(wú)作用且浪費(fèi)內(nèi)存計(jì)算的損耗,且在AlexNet的基礎(chǔ)上進(jìn)行改進(jìn),使用較小的卷積核,較深的網(wǎng)絡(luò)層次來(lái)提升深度學(xué)習(xí)的效果。

      表4 VGGNet網(wǎng)絡(luò)結(jié)構(gòu)

      文獻(xiàn)[35]提出了一種端到端可訓(xùn)練的補(bǔ)丁門控卷積神經(jīng)網(wǎng)絡(luò)(PG-CNN),它可以自動(dòng)感知人臉的遮擋區(qū)域,并聚焦于最具甄別性的未遮擋區(qū)域。該網(wǎng)絡(luò)以人臉圖像作為輸入,圖像被饋入VGG網(wǎng)絡(luò),并以某些特征圖的形式表示;然后,PG-CNN 將整個(gè)人臉的特征圖分解為24 個(gè)子特征圖,用于24 個(gè)局部patch,每個(gè)局部patch被編碼為一個(gè)加權(quán)的局部特征向量;最后,將加權(quán)后的局部特征進(jìn)行級(jí)聯(lián),作為被遮擋人臉的表征。文獻(xiàn)[36]使用改進(jìn)的VGGNet網(wǎng)絡(luò)對(duì)表情圖像進(jìn)行特征提取,以解決傳統(tǒng)方法在表情特征提取方面特征表現(xiàn)能力不足的缺點(diǎn),再將VGGNet 的最后一個(gè)全連接層去掉,設(shè)計(jì)一個(gè)4層神經(jīng)網(wǎng)絡(luò)模型對(duì)表情特征進(jìn)行訓(xùn)練,在全連接層中添加BN層,使得每一層之間不會(huì)發(fā)生偏移。添加Dropout層,使整個(gè)網(wǎng)絡(luò)變得稀疏,降低網(wǎng)絡(luò)參數(shù)量。

      2.1.4 GoogLeNet

      GoogLeNet[37]在2014 年的ImageNet 比賽中獲得第一名,該架構(gòu)吸收了網(wǎng)絡(luò)串聯(lián)網(wǎng)絡(luò)的思想,并在此基礎(chǔ)上做了很大改進(jìn),在AlexNet的基礎(chǔ)上,將多個(gè)不同尺寸的卷積核和池化層串聯(lián)形成Inception結(jié)構(gòu),以找出最優(yōu)的局部稀疏結(jié)構(gòu)并將其覆蓋為近似的稠密組件,大幅度減少參數(shù)數(shù)量,提升對(duì)網(wǎng)絡(luò)內(nèi)部計(jì)算資源的利用。

      如圖6 所示,Inception 網(wǎng)絡(luò)結(jié)構(gòu)里有4 個(gè)并行的分支,前3 個(gè)分支使用3 個(gè)不同尺寸的卷積核來(lái)提取不同空間尺寸下的信息,中間兩個(gè)分支用1×1 的卷積核減少輸入的通道數(shù),以降低模型復(fù)雜度,第4 個(gè)分支則使用3×3 最大池化層,后接1×1 卷積核來(lái)改變通道數(shù)。在經(jīng)過(guò)4個(gè)并行的分支對(duì)輸入圖像進(jìn)行處理后,再將每個(gè)分支的輸出在通道維度上連結(jié),最后輸入到下一層。

      圖6 Inception模塊

      文獻(xiàn)[38]在GoogLeNet深度神經(jīng)網(wǎng)絡(luò)中引入Dropout方法,有效地減少了過(guò)擬合給訓(xùn)練過(guò)程帶來(lái)的影響。文獻(xiàn)[39]提出了一種深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。網(wǎng)絡(luò)包括兩個(gè)卷積層,每個(gè)層后面是最大池化層,然后是4個(gè)Inception層,該架構(gòu)在7 個(gè)公開的面部表情數(shù)據(jù)庫(kù)(MultiPIE、MMI、CK+、DISFA、FERA、SFEW 和FER2013)上進(jìn)行了綜合實(shí)驗(yàn),其結(jié)果與最先進(jìn)的方法相當(dāng),甚至更好,并且在精度和訓(xùn)練時(shí)間方面優(yōu)于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)。

      2.1.5 ResNet

      針對(duì)深度學(xué)習(xí)的表情識(shí)別研究中,傳統(tǒng)的提高識(shí)別精度的直接方法往往依靠網(wǎng)絡(luò)深度的增加。然而簡(jiǎn)單通過(guò)疊加卷積層的方式來(lái)增加網(wǎng)絡(luò)深度,有時(shí)并不能改善識(shí)別效果,反而使梯度減緩和梯度消失的現(xiàn)象變得十分嚴(yán)重,從而導(dǎo)致識(shí)別性能的迅速惡化。針對(duì)這一問(wèn)題,何愷明等人[40]提出了殘差網(wǎng)絡(luò)(Residual Network,ResNet),在2015年的ImageNet比賽分類任務(wù)中獲得第一名。

      如圖7 所示,ResNet 網(wǎng)絡(luò)結(jié)構(gòu)借鑒了HighWay Network[41],添加了捷徑,相比于VGGNet,ResNet沒(méi)有使用全連接層,而是使用全局平均池化層減少訓(xùn)練參數(shù),并使用批量歸一化(Batch Normalization,BN)方法,以促進(jìn)深層網(wǎng)絡(luò)的訓(xùn)練。

      圖7 一個(gè)殘差模塊

      文獻(xiàn)[42]提出一種跨數(shù)據(jù)集適應(yīng)方案。設(shè)計(jì)了兩個(gè)組件:(1)一個(gè)特征提取器,使用ResNet 學(xué)習(xí)圖像特征,該網(wǎng)絡(luò)降低了不同數(shù)據(jù)集之間的差異性,同時(shí)提高了對(duì)情感類別的判別能力;(2)一個(gè)情感標(biāo)簽提取器,使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)來(lái)減少數(shù)據(jù)集之間的注釋不一致性。再結(jié)合多個(gè)野外數(shù)據(jù)集,來(lái)解決面部表情識(shí)別中的兩個(gè)主要問(wèn)題:(1)數(shù)據(jù)集偏差;(2)類別不平衡。文獻(xiàn)[43]針對(duì)自然狀態(tài)下的人臉存在多視角變化、臉部信息缺失等問(wèn)題,提出了一種基于MVFE-Light Net(Multi-View Facial Expression Lightweight Network)的多視角人臉表情識(shí)別方法。首先,引入了深度可分離卷積和ResNet 來(lái)減少網(wǎng)絡(luò)參數(shù),從而改善因網(wǎng)絡(luò)層數(shù)增加而導(dǎo)致識(shí)別率下降的問(wèn)題;其次,在該系統(tǒng)中嵌入壓縮和獎(jiǎng)懲網(wǎng)絡(luò)模塊來(lái)學(xué)習(xí)特征權(quán)重,通過(guò)加入空間金字塔池化的方式增強(qiáng)了網(wǎng)絡(luò)的魯棒性;最后,采用AdamW(Adam with Weight decay)優(yōu)化方法使網(wǎng)絡(luò)模型加速收斂來(lái)進(jìn)一步優(yōu)化識(shí)別結(jié)果。在RaFD、BU-3DFE和Fer2013表情庫(kù)上的實(shí)驗(yàn)表明,該方法具有較高的識(shí)別率,且減少了網(wǎng)絡(luò)計(jì)算時(shí)間。

      2.1.6 其他方法

      文獻(xiàn)[44]采用級(jí)聯(lián)網(wǎng)絡(luò)的方法。通過(guò)將從CNN 中獲得的強(qiáng)大感知視覺(jué)表示與長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)優(yōu)勢(shì)相結(jié)合,來(lái)實(shí)現(xiàn)可變長(zhǎng)度的輸入和輸出。提出了在空間和時(shí)間上都較深的模型,該模型將CNN 的輸出與LSTM 進(jìn)行級(jí)聯(lián),以處理涉及時(shí)變輸入和輸出的各種視覺(jué)任務(wù)。

      由于卷積神經(jīng)網(wǎng)絡(luò)具有權(quán)值共享、局部區(qū)域連接和降采樣的結(jié)構(gòu)特點(diǎn),使其在圖像處理領(lǐng)域表現(xiàn)較為出色。權(quán)值共享減少了網(wǎng)絡(luò)需要訓(xùn)練的參數(shù)個(gè)數(shù),同時(shí)降低了網(wǎng)絡(luò)模型的復(fù)雜度,而降采樣操作使其對(duì)于位移、縮放和扭曲,具有穩(wěn)定不變性。卷積神經(jīng)網(wǎng)絡(luò)使用反向傳播算法訓(xùn)練神經(jīng)網(wǎng)絡(luò)權(quán)值和閾值的調(diào)整,相比于其他網(wǎng)絡(luò)結(jié)構(gòu)更容易訓(xùn)練,CNN 的網(wǎng)絡(luò)結(jié)構(gòu)特點(diǎn)使其在各個(gè)領(lǐng)域已被廣泛使用,但是,因?yàn)槠渚W(wǎng)絡(luò)結(jié)構(gòu)的特殊性,使得網(wǎng)絡(luò)在訓(xùn)練時(shí)耗時(shí)過(guò)長(zhǎng),成本較高,并且,卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的泛化能力也有待提高。

      大規(guī)模視覺(jué)識(shí)別挑戰(zhàn)賽(ImageNet Large Scale Visual Recognition Challenge,ILSVRC)是近年來(lái)機(jī)器視覺(jué)領(lǐng)域最具權(quán)威的學(xué)術(shù)競(jìng)賽之一,CNN 模型在ILSVRC比賽中的性能對(duì)比如表5所示。

      2.2 基于深度置信網(wǎng)絡(luò)的方法

      深度置信網(wǎng)絡(luò)(Deep Belief Networks,DBN)[45]是Hinton 等人在2006 年提出的一種包含多層隱單元的概率生成模型。DBN生成模型通過(guò)訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)中的神經(jīng)元間的權(quán)重使得整個(gè)神經(jīng)網(wǎng)絡(luò)依據(jù)最大概率生成訓(xùn)練數(shù)據(jù),形成高層抽象特征,提升模型分類性能[46]。作為深度神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練部分,可以為網(wǎng)絡(luò)提供初始化權(quán)重,并通過(guò)反向傳播方法對(duì)網(wǎng)絡(luò)進(jìn)行參數(shù)優(yōu)化,從而提高網(wǎng)絡(luò)模型的特征學(xué)習(xí)能力。該模型的每一層都由受限玻爾茲曼機(jī)(Restricted Boltzmann Machine,RBM)[47]組成。

      網(wǎng)絡(luò)結(jié)構(gòu)如圖8 所示。其中每個(gè)圓形符號(hào)表示RBM,它的作用是經(jīng)過(guò)預(yù)訓(xùn)練初步完成整個(gè)深度置信網(wǎng)絡(luò)的訓(xùn)練之后,采用反向傳播的方法,從而提高深度置信網(wǎng)絡(luò)模型的特征學(xué)習(xí)能力。RBM可以視為一個(gè)二分圖模型,隱藏層與可見(jiàn)層之間雙向連接,其中H 表示隱藏層,目的是將輸入轉(zhuǎn)換成輸出層可以使用的東西,用于提取特征,V表示可見(jiàn)層(輸入層),目的是輸入數(shù)據(jù)。

      圖8 深度置信網(wǎng)絡(luò)結(jié)構(gòu)示意圖

      DBN 的優(yōu)點(diǎn)在于,該方法通過(guò)預(yù)訓(xùn)練得到的初始化權(quán)重非常重要,這是因?yàn)樵陬A(yù)訓(xùn)練這一階段的權(quán)重往往比隨機(jī)權(quán)重更接近最優(yōu)權(quán)重,從而提升了網(wǎng)絡(luò)的整體性能,讓收斂速度加快[48]。該方法具有較強(qiáng)的無(wú)監(jiān)督特征學(xué)習(xí)能力,在表情識(shí)別中,該方法主要用于特征提取和圖像降維。

      文獻(xiàn)[49]使用像素級(jí)生成模型作為DBN 的最低級(jí)。DBN 可以從被遮擋的人臉中重建出完整的人臉,然后根據(jù)完整的人臉預(yù)測(cè)表情類別。

      表5 ILSVRC比賽中CNN模型性能對(duì)比

      若干個(gè)RBM“串聯(lián)”起來(lái)構(gòu)成了DBN,DBN通過(guò)無(wú)監(jiān)督學(xué)習(xí)框架訓(xùn)練樣本,更加抽象地學(xué)習(xí)高層特征,適用于學(xué)習(xí)高維復(fù)雜的數(shù)據(jù)。DBN可以很好地將深層特征保留下來(lái),但是細(xì)節(jié)往往損失嚴(yán)重,為了盡可能地保留細(xì)節(jié)特征,研究人員還需對(duì)DBN進(jìn)行改進(jìn)。

      2.3 基于遞歸神經(jīng)網(wǎng)絡(luò)的方法

      遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)[50]是一種可以描述動(dòng)態(tài)時(shí)間行為的深度學(xué)習(xí)方法。和前向傳播的神經(jīng)網(wǎng)絡(luò)不同,RNN 是在自身網(wǎng)絡(luò)中循環(huán)傳遞,從而起到了權(quán)重共享的作用。在深度學(xué)習(xí)方法中,RNN 的優(yōu)點(diǎn)在于能夠處理序列數(shù)據(jù),其最大的特點(diǎn)就是神經(jīng)元在某時(shí)刻的輸出可以作為輸入再次輸入到神經(jīng)元,這種串聯(lián)的網(wǎng)絡(luò)結(jié)構(gòu)非常適合于時(shí)間序列數(shù)據(jù),可以保持?jǐn)?shù)據(jù)中的依賴關(guān)系[51]。

      如圖9所示,其中x代表RNN網(wǎng)絡(luò)的輸入,St表示時(shí)刻t的隱藏狀態(tài),Ot表示時(shí)刻t的輸出,U表示輸入層到隱藏層的權(quán)重矩陣,它能抽象原始輸入,作為隱藏層的輸入,V表示隱藏到輸出層的權(quán)重矩陣,可以調(diào)度RNN 網(wǎng)絡(luò)的記憶,W表示隱藏從到輸出層的權(quán)重矩陣,它能抽象隱藏層所學(xué)習(xí)到的東西,并作為最終輸出。在表情識(shí)別中,該方法主要用于來(lái)檢測(cè)圖像序列中的關(guān)鍵點(diǎn)以及行為識(shí)別等。

      圖9 遞歸神經(jīng)網(wǎng)絡(luò)展開圖

      但是簡(jiǎn)單的RNN模型在嚴(yán)格整合狀態(tài)信息的過(guò)程中有一個(gè)顯著的局限性,即所謂的“梯度消失”效應(yīng):在實(shí)踐中,通過(guò)長(zhǎng)期時(shí)間間隔反向傳播錯(cuò)誤信號(hào)的能力變得越來(lái)越困難[52]。為了解決這一問(wèn)題,Hochreiter等人[53]提出了一種基于長(zhǎng)短期記憶(LSTM)單元的遞歸神經(jīng)網(wǎng)絡(luò)。LSTM模塊中具有一個(gè)記憶單元和三個(gè)門控單元:輸入門、遺忘門和輸出門。

      如圖10 所示,xt表示網(wǎng)絡(luò)的輸入向量,ht是當(dāng)前隱藏層向量,ct表示記憶單元的輸出。在LSTM長(zhǎng)短期記憶模塊中,記憶單元負(fù)責(zé)跟蹤輸入序列中的元素之間的依賴性;輸入門it控制記憶單元的輸入;遺忘門ft控制輸入在記憶單元中保留程度;輸出門ot控制網(wǎng)絡(luò)的輸出。

      LSTM的控制流程與RNN相似,都是在前向傳播的過(guò)程中處理流經(jīng)細(xì)胞的數(shù)據(jù),不同之處在于LSTM細(xì)胞的結(jié)構(gòu)和運(yùn)算有所變化。該網(wǎng)絡(luò)通過(guò)門控制將短期記憶與長(zhǎng)期記憶相結(jié)合,解決傳統(tǒng)RNN 訓(xùn)練中出現(xiàn)的梯度消失現(xiàn)象和長(zhǎng)時(shí)依賴問(wèn)題。

      圖10 LSTM單元結(jié)構(gòu)

      文獻(xiàn)[54]和文獻(xiàn)[55]都采用了CNN 和RNN 級(jí)聯(lián)的方式,并且都利用了LSTM增強(qiáng)時(shí)間特征的學(xué)習(xí)。文獻(xiàn)[54]提出了一種利用LSTM遞歸神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)來(lái)捕獲視頻序列的時(shí)空特征的視頻分類方法。首先使用強(qiáng)大的CNN來(lái)檢測(cè)空間特征,然后使用RNN從這些空間特征的序列中學(xué)習(xí)時(shí)間特征,制作出CNN-RNN或CRNN系統(tǒng),效果顯著。文獻(xiàn)[55]提出了用重要幀替換視頻中不重要的幀的幀替換模塊,以此提高RNN 的性能,建立了3D-CNN 和LSTM-RNN 級(jí)聯(lián)的網(wǎng)絡(luò),在AFW、CK+、MMI 數(shù)據(jù)庫(kù)上得到了有效驗(yàn)證。文獻(xiàn)[56]提出一種基于圖像序列的雙通道加權(quán)混合深度CNN長(zhǎng)短期記憶網(wǎng)絡(luò)(Weighted Mixture Deep Convolution Neural Networks-Long Short-Term Memory,WMCNNLSTM)?;旌仙疃染矸e神經(jīng)網(wǎng)絡(luò)(Weighted Mixture Deep Convolution Neural Networks,WMDCNN)網(wǎng)絡(luò)能夠快速識(shí)別人臉表情,為WMCNN-LSTM 網(wǎng)絡(luò)提供靜態(tài)圖像特征。WMCNN-LSTM 網(wǎng)絡(luò)利用靜態(tài)圖像特征進(jìn)一步獲取圖像序列的時(shí)間特征,實(shí)現(xiàn)了對(duì)面部表情的準(zhǔn)確識(shí)別。

      循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)特點(diǎn)使其能記憶之前的信息,并利用記憶的信息影響后面節(jié)點(diǎn)的輸出,得到的結(jié)果會(huì)更加準(zhǔn)確,這種串聯(lián)的網(wǎng)絡(luò)結(jié)構(gòu)在處理時(shí)間序列數(shù)據(jù)時(shí)很有優(yōu)勢(shì)。然而,RNN在面對(duì)長(zhǎng)序列數(shù)據(jù)時(shí),容易出現(xiàn)梯度爆炸和梯度消失的現(xiàn)象,使得RNN 并不能很好地處理長(zhǎng)距離的依賴。LSTM是RNN的一種改進(jìn),LSTM通過(guò)引入記憶單元和門控制單元,在一定程度上解決了RNN 出現(xiàn)的梯度消失問(wèn)題。但是,相較于RNN,LSTM含有更多的參數(shù)需要學(xué)習(xí),從而導(dǎo)致LSTM的學(xué)習(xí)速率會(huì)大大降低。

      2.4 基于深度自動(dòng)編碼器的方法

      深度自動(dòng)編碼器(Deep Auto Encoders,DAE)[57]是一種利用神經(jīng)網(wǎng)絡(luò)對(duì)輸入樣本進(jìn)行映射,從而實(shí)現(xiàn)特征提取的方法。該方法的優(yōu)點(diǎn)在于自動(dòng)編碼器是從數(shù)據(jù)樣本中自動(dòng)學(xué)習(xí)的,這意味著很容易對(duì)指定類的輸入訓(xùn)練出一種特定的編碼器,而不需要完成任何新工作。如圖11 所示,圖像經(jīng)過(guò)輸入層進(jìn)入編碼器后得到的數(shù)據(jù)經(jīng)過(guò)解碼器到達(dá)輸出層。在表情識(shí)別中,該方法主要用于降維、去噪和圖像生成。

      圖11 深度自動(dòng)編碼器

      文獻(xiàn)[58]基于空間連貫特征的快速任意姿態(tài)人臉表情識(shí)別方法(Spatially Coherent Feature Learning For Pose-Invariant FER,Spatial-PFER)。首先,通過(guò)合成技術(shù)得到任意姿態(tài)人臉圖像對(duì)應(yīng)的正臉圖像;其次,基于合成的正臉圖像檢測(cè)51 個(gè)關(guān)鍵特征點(diǎn),并以此特征點(diǎn)為中心提取一定大小的關(guān)鍵區(qū)域,用來(lái)訓(xùn)練無(wú)監(jiān)督特征學(xué)習(xí)算法稀疏自動(dòng)編碼器,以得到具有高區(qū)分度的高層表情特征;最后進(jìn)行任意姿態(tài)的人臉表情識(shí)別。文獻(xiàn)[59]提出一種基于內(nèi)核的姿勢(shì)特定非線性映射(Kernelbased Pose Specific Non-linear Mapping,KPSNM)來(lái)識(shí)別各種頭部姿勢(shì)下的面部表情。首先,將提出的特征向量串聯(lián);其次,利用基于稀疏編碼器的方法將特征向量壓縮,減少計(jì)算量;最后,使用所提方法將所有非正面數(shù)據(jù)映射到正面視圖,再利用“正則化”數(shù)據(jù)進(jìn)行面部表情識(shí)別。文獻(xiàn)[60]提出將深度卷積網(wǎng)絡(luò)(CNN)作為深度堆疊卷積自編碼器(SCAE)在貪婪層無(wú)監(jiān)督的方式預(yù)先訓(xùn)練。通過(guò)預(yù)先訓(xùn)練一個(gè)深度CNN 模型作為SCAE模型,以學(xué)習(xí)調(diào)整圖像亮度并學(xué)習(xí)對(duì)照明不敏感的隱藏表示。

      深度自動(dòng)編碼器能夠在無(wú)監(jiān)督式的情況下學(xué)習(xí),僅關(guān)注最關(guān)鍵的特征,來(lái)產(chǎn)生輸入的近似值,從而使提取的特征盡可能不受原始數(shù)據(jù)的污染。但是該網(wǎng)絡(luò)需要訓(xùn)練的參數(shù)較多,花費(fèi)的時(shí)間較長(zhǎng),容易出現(xiàn)過(guò)擬合現(xiàn)象。

      2.5 基于生成對(duì)抗式網(wǎng)絡(luò)的方法

      生成式對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)[61]是一種無(wú)監(jiān)督的概率分布學(xué)習(xí)方法,該方法能夠在不依賴任何先驗(yàn)假設(shè)的情況下,學(xué)習(xí)到高維且復(fù)雜的真實(shí)數(shù)據(jù)分布,并生成具有較高相似性的新數(shù)據(jù)集。GAN 的核心思想來(lái)源于博弈論中二人零和博弈,即使用判別器和生成器兩個(gè)網(wǎng)絡(luò)的對(duì)抗和博弈來(lái)處理生成問(wèn)題。如圖12 所示,生成器利用滿足均勻分布或正態(tài)分布的隨機(jī)噪聲生成數(shù)據(jù),判別器分辨出生成器的輸出和真實(shí)數(shù)據(jù)之間的差異性,整個(gè)網(wǎng)絡(luò)的優(yōu)化過(guò)程就是尋找判別器和生成器網(wǎng)絡(luò)之間的納什均衡[62]。在表情識(shí)別中,該方法主要用于目標(biāo)檢測(cè)。

      圖12 生成對(duì)抗網(wǎng)絡(luò)的結(jié)構(gòu)圖

      文獻(xiàn)[63]提出一種雙通路生成對(duì)抗網(wǎng)絡(luò)(Two-Pathway Generative Adversarial Network,TP-GAN),通過(guò)同時(shí)感知全局結(jié)構(gòu)和局部細(xì)節(jié)來(lái)實(shí)現(xiàn)真實(shí)感正面圖像的合成。文獻(xiàn)[64]提出負(fù)載平衡生成對(duì)抗網(wǎng)絡(luò)(Load Balanced Generative Adversarial Networks,LB-GAN)來(lái)精確地將輸入人臉圖像的偏航角旋轉(zhuǎn)到任意指定的角度。LBGAN將具有挑戰(zhàn)性的綜合問(wèn)題分解為兩個(gè)約束良好的子任務(wù),分別對(duì)應(yīng)于一個(gè)面規(guī)范化器和一個(gè)面編輯器。歸一化器首先將輸入圖像正面化,然后編輯器將正面化圖像旋轉(zhuǎn)到由遠(yuǎn)程代碼引導(dǎo)的所需姿勢(shì)。文獻(xiàn)[65]提出一種基于生成對(duì)抗網(wǎng)絡(luò)(GAN)的多任務(wù)學(xué)習(xí)方法。模型在人臉正面化過(guò)程中學(xué)習(xí)情緒并保留表征,學(xué)習(xí)到的表征對(duì)頭部姿態(tài)變化較大的面部表情識(shí)別具有判別性,合成的正面人臉圖像保持了識(shí)別任務(wù)中有效的表情特征。文獻(xiàn)[66]提出一種新穎的基于Wasserstein 生成對(duì)抗網(wǎng)絡(luò)方法來(lái)執(zhí)行遮擋的面部表情識(shí)別。在用復(fù)雜的面部表情信息對(duì)面部遮擋圖像進(jìn)行補(bǔ)充之后,通過(guò)學(xué)習(xí)圖像的面部表情特征來(lái)實(shí)現(xiàn)識(shí)別。文獻(xiàn)[67]提出一種生成對(duì)抗網(wǎng)絡(luò)用于遮擋重建。該模型是一種適用于圖像轉(zhuǎn)換的條件GAN 模型,對(duì)于合理的尺寸遮擋,能夠消除遮擋的影響,并恢復(fù)基本模型的性能。文獻(xiàn)[68]提出一種對(duì)人臉局部遮擋圖像進(jìn)行用戶無(wú)關(guān)表情識(shí)別的方法。該方法能夠?yàn)閳D像中的遮擋區(qū)域生成上下文一致的補(bǔ)全圖像,緩解因局部表情信息缺失帶來(lái)的影響,提高識(shí)別算法的魯棒性。

      GAN 的生成器接收隨機(jī)變量同時(shí)生成“假”樣本,判別器根據(jù)輸入的樣本判斷其真假性,兩者相互對(duì)抗彼此提升。獨(dú)特的對(duì)抗思想使得GAN能生成更加真實(shí)的樣本,而且GAN 框架可以訓(xùn)練任何生成器網(wǎng)絡(luò)。盡管GAN已被廣泛應(yīng)用于圖像視覺(jué)領(lǐng)域,但GAN仍有很多待解決的問(wèn)題,生成器和接收器在訓(xùn)練過(guò)程中需要很好的同步,這使得網(wǎng)絡(luò)難以收斂,訓(xùn)練也變得較為困難,而且GAN在學(xué)習(xí)生成離散數(shù)據(jù)時(shí),效率很低。

      深度學(xué)習(xí)算法在正面表情識(shí)別中已實(shí)現(xiàn)了較高的識(shí)別率,但是在非正面表情識(shí)別中的研究仍處于起步階段。本文總結(jié)了近年來(lái)深度學(xué)習(xí)應(yīng)用于非正面表情識(shí)別的表現(xiàn),如表6所示。

      表6 非正面表情識(shí)別的深度學(xué)習(xí)主要方法的性能

      非正面人臉面部表情識(shí)別一直以來(lái)是計(jì)算機(jī)視覺(jué)、模式識(shí)別的研究熱點(diǎn)。傳統(tǒng)機(jī)器學(xué)習(xí)利用特征工程,人為對(duì)圖像數(shù)據(jù)進(jìn)行特征提取,其泛化能力較低,深度學(xué)習(xí)的出現(xiàn)打破了傳統(tǒng)的先特征提取,后模式識(shí)別的固定模式,并且可以同時(shí)進(jìn)行特征提取和表情分類。

      卷積神經(jīng)網(wǎng)絡(luò)具有層級(jí)抽象的能力,能夠利用全局信息進(jìn)行學(xué)習(xí),在圖像領(lǐng)域獲得了極大的成功,也不斷有新的發(fā)展。深度學(xué)習(xí)在非正面表情識(shí)別上的應(yīng)用,大多基于VGGNet、GoogLeNet 與ResNet 網(wǎng)絡(luò)模型,其核心結(jié)構(gòu)均為CNN。由于生成式對(duì)抗網(wǎng)絡(luò)在生成高質(zhì)量目標(biāo)樣本方面的優(yōu)勢(shì),逐漸在面部表情識(shí)別領(lǐng)域中被使用,以進(jìn)行姿勢(shì)不變面部表情識(shí)別或增加訓(xùn)練樣本的數(shù)量和多樣性。該模型從生成器中直接提取出該信息用于減輕人物無(wú)關(guān)信息帶來(lái)的干擾,從而提高表情識(shí)別率。RNN 及其擴(kuò)展模型LSTM 作為基本的時(shí)序網(wǎng)絡(luò)結(jié)構(gòu)廣泛運(yùn)用于視頻序列的學(xué)習(xí)。然而其網(wǎng)絡(luò)結(jié)構(gòu)使其難以捕捉到有效的圖像特征。針對(duì)該問(wèn)題,提出級(jí)聯(lián)網(wǎng)絡(luò),將多個(gè)不同網(wǎng)絡(luò)串聯(lián)構(gòu)成更深層次網(wǎng)絡(luò),首先提取出有表情判別能力的空間特征,然后將該信息依次輸入到時(shí)序網(wǎng)絡(luò)中進(jìn)行時(shí)序信息的編碼[70]。

      需要注意的是,在表6 中,多數(shù)算法是在實(shí)驗(yàn)室環(huán)境下,采用標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)進(jìn)行訓(xùn)練與識(shí)別的。然而在自然條件下,面部表情常常會(huì)受到像物體遮擋、光照變化、拍攝條件(設(shè)備、噪聲)造成的圖像分辨率低等不利因素的影響,而傳統(tǒng)的機(jī)器學(xué)習(xí)方法無(wú)法提取圖像的高級(jí)特征,需要深度神經(jīng)網(wǎng)絡(luò)更有效地學(xué)習(xí)特征。比如:(1)使用多網(wǎng)絡(luò)融合,集合多種不同網(wǎng)絡(luò)并結(jié)合各自優(yōu)勢(shì)以提取更深層的表情特征;(2)使用多任務(wù)網(wǎng)絡(luò),聯(lián)合多個(gè)網(wǎng)絡(luò),通過(guò)共享相關(guān)任務(wù)之間的表征,減少數(shù)據(jù)參數(shù)以及整體模型復(fù)雜度,使預(yù)測(cè)更加高效;(3)使用級(jí)聯(lián)網(wǎng)絡(luò),將兩個(gè)結(jié)構(gòu)不同的神經(jīng)網(wǎng)絡(luò)組合并設(shè)計(jì)更深的網(wǎng)絡(luò)模型,以分層方法有序地訓(xùn)練多個(gè)網(wǎng)絡(luò)以增強(qiáng)其特征學(xué)習(xí)能力。通過(guò)這些方法緩解網(wǎng)絡(luò)模型的過(guò)擬合問(wèn)題的同時(shí),可以消除與面部表情無(wú)關(guān)的干擾因素。

      3 總結(jié)和展望

      本文首先陳述了課題的背景,接著介紹了深度學(xué)習(xí)常用的人臉圖像數(shù)據(jù)庫(kù)后,詳細(xì)介紹了深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等算法結(jié)構(gòu)和原理以及優(yōu)缺點(diǎn),接著對(duì)非正面表情識(shí)別的深度學(xué)習(xí)解決方案進(jìn)行了詳細(xì)介紹。通過(guò)分析現(xiàn)有研究成果,認(rèn)為還有以下幾方面是非正面人臉表情識(shí)別面臨的挑戰(zhàn)和可能的研究方向,目前非正面表情識(shí)別存在的問(wèn)題進(jìn)行總結(jié)如下:

      (1)標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)不夠真實(shí)。由于采集條件的不同和標(biāo)注的主觀性,數(shù)據(jù)偏差和標(biāo)注不一致在不同的人臉表情數(shù)據(jù)集中非常普遍。最近的研究通常在特定的數(shù)據(jù)組內(nèi)評(píng)估他們的算法,并能達(dá)到令人滿意的性能[71]。然而,通過(guò)標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)訓(xùn)練的模型,往往在未知測(cè)試數(shù)據(jù)上不能取得令人滿意的效果?,F(xiàn)有的非正面表情數(shù)據(jù)庫(kù)包含的人物狀態(tài)與真實(shí)環(huán)境具有較大差異,因此導(dǎo)致從標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)中訓(xùn)練出來(lái)的算法,在推廣性方面差強(qiáng)人意,還達(dá)不到實(shí)用的要求。

      (2)訓(xùn)練成本過(guò)高。較傳統(tǒng)的特征提取和表情分類方法,很多深度學(xué)習(xí)模型已經(jīng)可以得到較好的準(zhǔn)確率,但在訓(xùn)練過(guò)程中,由于深度學(xué)習(xí)模型的復(fù)雜度較高,需要訓(xùn)練的模型參數(shù)較多,因而導(dǎo)致算法訓(xùn)練成本高、耗時(shí)長(zhǎng)。

      (3)數(shù)據(jù)類型單一。現(xiàn)有方法多針對(duì)靜態(tài)圖像,開展非正面表情識(shí)別研究;而在針對(duì)動(dòng)態(tài)圖像的非正面人臉表情識(shí)別中,由于受光照、遮擋物以及時(shí)間因素的影響,算法的識(shí)別性仍有待改進(jìn)。

      針對(duì)上述問(wèn)題,考慮可以從以下三個(gè)方面入手:

      (1)跨數(shù)據(jù)庫(kù)性能是面部表情識(shí)別系統(tǒng)通用性和實(shí)用性的重要評(píng)價(jià)標(biāo)準(zhǔn)[72-73]。針對(duì)數(shù)據(jù)庫(kù)問(wèn)題,構(gòu)造一個(gè)具有豐富自然環(huán)境下的人臉表情數(shù)據(jù)集,是解決真實(shí)環(huán)境下,保持算法識(shí)別率、提升算法推廣性與魯棒性的有效方法。目前出現(xiàn)的自然環(huán)境下的表情數(shù)據(jù)集有AFEW[14],然而由于數(shù)據(jù)集從電影中提取而來(lái),與自然環(huán)境下的人臉圖像存在一定差異,這使得該數(shù)據(jù)集的應(yīng)用非常小眾。但是這仍然是解決該問(wèn)題的有效方法。

      (2)非正面表情識(shí)別相對(duì)耗時(shí),近年來(lái),許多研究者在深度學(xué)習(xí)壓縮和加速方面,提出了可從以下三個(gè)角度進(jìn)行優(yōu)化:

      ①算法層壓縮加速。深度神經(jīng)網(wǎng)絡(luò)存在大量的參數(shù)冗余,網(wǎng)絡(luò)剪枝目的是移除冗余連接,減少網(wǎng)絡(luò)的計(jì)算量。文獻(xiàn)[74]提供了一種結(jié)合延遲、網(wǎng)絡(luò)條件和移動(dòng)設(shè)備的計(jì)算能力的上下文感知修剪算法,以獲得最佳的深度學(xué)習(xí)模型,但該方法只注重模型性能,模型訓(xùn)練速度有待提高;權(quán)值量化通過(guò)減少表示每個(gè)權(quán)重的比特?cái)?shù),來(lái)壓縮神經(jīng)網(wǎng)絡(luò)。文獻(xiàn)[75]對(duì)權(quán)重參數(shù)采取了k均值聚類后量化的方法,對(duì)網(wǎng)絡(luò)進(jìn)行壓縮,雖然該方法加快了網(wǎng)絡(luò)的速度,但在大規(guī)模數(shù)據(jù)集上表現(xiàn)較差;知識(shí)蒸餾[76]的本質(zhì)是學(xué)生對(duì)教師的擬合,用于將一個(gè)深且寬的網(wǎng)絡(luò)壓縮為一個(gè)小型網(wǎng)絡(luò),該方法雖然簡(jiǎn)單,但在多個(gè)圖像分類任務(wù)中取得了很好的效果。

      ②框架層加速。目前出現(xiàn)的DenseNet[77]在模型優(yōu)化方面,減少了訓(xùn)練參數(shù),且所需計(jì)算量少,與現(xiàn)有算法相比,具有更高的精確度。但該方法著重關(guān)注模型結(jié)構(gòu)的優(yōu)化,而忽略了模型運(yùn)算速度。Mobile[78]采用了深度可分離卷積,以達(dá)到減少網(wǎng)絡(luò)權(quán)值參數(shù)和提升模型運(yùn)算速度的目的。該方法在非正面表情識(shí)別的研究中,具有較大潛力。

      ③硬件層加速??梢酝ㄟ^(guò)優(yōu)化硬件配置,獲取性能提升。

      (3)深度學(xué)習(xí)模型在針對(duì)動(dòng)態(tài)圖像的非正面人臉表情識(shí)別中,仍無(wú)法取得較好的泛化能力以及算法魯棒性。針對(duì)該問(wèn)題,文獻(xiàn)[54]采用級(jí)聯(lián)網(wǎng)絡(luò),先提取圖像的空間特征,然后將其輸入到時(shí)序網(wǎng)絡(luò)并提取圖像的時(shí)序特征,以實(shí)現(xiàn)動(dòng)態(tài)圖像的表情識(shí)別。這種網(wǎng)絡(luò)級(jí)聯(lián)的形式可以較好地解決動(dòng)態(tài)圖像的表情識(shí)別,是處理動(dòng)態(tài)圖像中非正面表情識(shí)別研究的有效嘗試。

      在人工智能迅速發(fā)展的大環(huán)境下,對(duì)非正面人臉表情的實(shí)時(shí)識(shí)別與分析需要顯著,非正面人臉表情識(shí)別的研究前景也變得更為廣闊,非正面人臉表情識(shí)別未來(lái)的發(fā)展可以從以下方向探索:

      (1)實(shí)用性。目前針對(duì)非正面表情識(shí)別的研究方案計(jì)算量較大,訓(xùn)練時(shí)間也較長(zhǎng),對(duì)硬件設(shè)備要求較高,導(dǎo)致其難以使用到輕便設(shè)備中,隨著移動(dòng)終端的大面積普及,如何將深度學(xué)習(xí)模型運(yùn)用到移動(dòng)端與嵌入式設(shè)備中,增加表情識(shí)別實(shí)用性,有待進(jìn)一步研究。

      (2)微表情。微表情是一種自發(fā)性的表情,動(dòng)作幅度小、持續(xù)時(shí)間短,建立微表情數(shù)據(jù)庫(kù),將表情識(shí)別的方法用于微表情進(jìn)行識(shí)別將是未來(lái)研究的重點(diǎn)。

      (3)多模態(tài)表情識(shí)別。目前的多模態(tài)情感分析方法主要集中在深度神經(jīng)網(wǎng)絡(luò)[79]。人的情感表達(dá)方式有多種方式,面部表情只是其中的一種模態(tài),可以考慮與其他模態(tài)結(jié)合到一個(gè)高層的框架中,彼此提供互補(bǔ)信息,進(jìn)一步增強(qiáng)模型的魯棒性。例如:可以將音頻與圖像相融合進(jìn)行多模態(tài)的表情識(shí)別。

      猜你喜歡
      人臉卷積神經(jīng)網(wǎng)絡(luò)
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      有特點(diǎn)的人臉
      神經(jīng)網(wǎng)絡(luò)抑制無(wú)線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      三國(guó)漫——人臉解鎖
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
      復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
      基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
      馬面部與人臉相似度驚人
      邵东县| 衡南县| 高雄县| 浦江县| 那坡县| 娱乐| 海宁市| 搜索| 宣威市| 防城港市| 兴安盟| 莒南县| 丁青县| 洮南市| 胶南市| 弥勒县| 循化| 宜都市| 丹寨县| 喀什市| 裕民县| 新宾| 秦安县| 札达县| 台北市| 闻喜县| 满城县| 黔南| 山西省| 钟祥市| 资溪县| 泽库县| 通城县| 五河县| 北安市| 满城县| 拉孜县| 南乐县| 榆社县| 建平县| 岗巴县|