• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      網(wǎng)中網(wǎng)殘差網(wǎng)絡(luò)模型的表情圖像識(shí)別研究

      2019-01-24 08:26:46裴頌文楊保國顧春華
      關(guān)鍵詞:識(shí)別率殘差卷積

      裴頌文,楊保國,顧春華

      1(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)2(復(fù)旦大學(xué) 管理學(xué)院,上海 200433)

      1 引 言

      深度卷積神經(jīng)網(wǎng)絡(luò)是當(dāng)前最有前景的圖像分類技術(shù)之一.對(duì)人物照片和視頻的面部識(shí)別能有效處理視覺數(shù)據(jù)并構(gòu)建人類面部的通用識(shí)別模式,是目前深度卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用熱點(diǎn).表情圖像識(shí)別是人臉圖像識(shí)別的擴(kuò)展,表情識(shí)別過程不僅僅檢測(cè)人臉的固定特征,還要通過眉毛、嘴唇等的編排和形狀等臨時(shí)的顯著特征來預(yù)測(cè)面部表情,可以廣泛應(yīng)用到執(zhí)法監(jiān)視和行為分析領(lǐng)域,還可以應(yīng)用到數(shù)碼相機(jī)的自動(dòng)拍照功能[1,2].然而,最有前景的應(yīng)用涉及人工智能系統(tǒng)的人性化[3].如果計(jì)算機(jī)能夠跟蹤人物的心理狀態(tài),智能機(jī)器人可以據(jù)此反應(yīng)并產(chǎn)生相應(yīng)的行為反饋.表情識(shí)別在提高人機(jī)交互過程中起著關(guān)鍵的作用.

      表情分類識(shí)別過程是不同于人臉識(shí)別的.人臉識(shí)別是以不同人的臉部輪廓圖像作為識(shí)別研究的內(nèi)容,而臉部的肌肉變化等臨時(shí)性顯著特征被視為噪聲[4].表情識(shí)別過程通常將人臉表情分類為七種情緒:憤怒、厭惡、恐懼、高興、悲傷、驚訝、中性[5].此時(shí),研究人臉面部的肌肉變化等臨時(shí)性顯著特征在識(shí)別表情過程中就尤為關(guān)鍵.在表情識(shí)別研究領(lǐng)域,通過利主成分分析(PCA)、尺度不變特征轉(zhuǎn)換(SITF)等技術(shù)手段進(jìn)行預(yù)處理,進(jìn)行特征選擇、特征處理后通過分類器進(jìn)行表情分類[6].當(dāng)前深度學(xué)習(xí)在圖像處理、語音等領(lǐng)域的發(fā)展,推動(dòng)了表情識(shí)別的研究.深度神經(jīng)網(wǎng)絡(luò)模型可以通過訓(xùn)練來自動(dòng)學(xué)習(xí)表情圖像的特征,得到有效的特征后,就可以用訓(xùn)練好的模型進(jìn)行判別分類.隨著人臉表情數(shù)據(jù)量不斷增加,深度學(xué)習(xí)對(duì)表情的識(shí)別能力還會(huì)有明顯地提高[7].神經(jīng)網(wǎng)絡(luò)模型如GoogleNet[8],ResNet[2],網(wǎng)中網(wǎng)(NIN)模型[9,10],這些模型對(duì)神經(jīng)網(wǎng)絡(luò)有從結(jié)構(gòu)上的創(chuàng)新.不同的激活函數(shù)對(duì)整體模型架構(gòu)也有不同程度的影響,需要通過實(shí)驗(yàn)和經(jīng)驗(yàn)來選擇合適的函數(shù)來優(yōu)化模型.

      FER-2013和CK+數(shù)據(jù)集是研究表情識(shí)別的數(shù)據(jù)集,本文基于谷歌深度學(xué)習(xí)框架Tensorflow[11]提出網(wǎng)中網(wǎng)殘差網(wǎng)絡(luò)模型對(duì)該表情數(shù)據(jù)集進(jìn)行訓(xùn)練,以提高面部表情識(shí)別率和縮短模型執(zhí)行時(shí)間為目標(biāo)來進(jìn)行研究.

      2 相關(guān)工作

      傳統(tǒng)人臉表情的研究集中在人臉特征選擇、特征提取和分類的理論方法等方面.然而,基于人臉輪廓和特征的方法對(duì)人臉圖像的檢測(cè)與提取,難以自動(dòng)檢測(cè)面部肌肉等臨時(shí)性顯著特征;基于歐式距離的幾何檢測(cè)方法由于存在外界條件變化的干擾因素,存在識(shí)別性能下降較快的問題[12].對(duì)面部表情特征的提取,有整體分析法得到全局特征,局部特征分析和局部二值模式等方法得到局部特征.然后,利用主成分分析、線性判別分析等方法進(jìn)行特征選擇.最后建立一個(gè)分類器進(jìn)行表情分類.

      Fasel和Luettin[13]概述了人臉表情的特征提取和面部表情識(shí)別的神經(jīng)網(wǎng)絡(luò)方法,劃分了面部表情系統(tǒng)的一般框架為三個(gè)模塊:人臉獲取、特征特取和表情分類.近年來,在表情識(shí)別領(lǐng)域采用深度學(xué)習(xí)方法有較多顯著的研究成果.Lin等人提出了網(wǎng)中網(wǎng)(NIN)模型,用多層感知卷積(mlpconv)的微小網(wǎng)絡(luò)進(jìn)行分類,用非線性的感知器優(yōu)化改進(jìn)卷積操作[9].在跨通道情況下,mlpconv等價(jià)于卷積層和1x1卷積層的組合;Zhao等人提出基于mixout 單元的簡單模型和網(wǎng)中網(wǎng)模型分析多種池化函數(shù)對(duì)分類效果的影響[22];Krizhevsky和Hinton提出了AlexNet架構(gòu),其中卷積層、池化層和全連接層設(shè)計(jì)成為圖像分類的經(jīng)典模型[14].在FER-2013數(shù)據(jù)集上,Liu等人提出多個(gè)子卷積模型融合方式,避免單個(gè)模型訓(xùn)練的不充分性,識(shí)別率為65.03%[15];Minchul Shin等人提出基線CNN架構(gòu),訓(xùn)練了20個(gè)不同的CNN模型找出最好的模型,識(shí)別率為68.53%[16]; Zhou等人提出了多尺度輸入的方法,即不同的像素進(jìn)行模型的輸入,識(shí)別率為71.8%[17];Breuer和Kimmel在提出動(dòng)作單元結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)在該數(shù)據(jù)集的分類識(shí)別率為72.1%[18].

      本文通過殘差結(jié)構(gòu)方式在NIN模型基礎(chǔ)上進(jìn)行模型的改進(jìn),構(gòu)建深層級(jí)的結(jié)構(gòu),在FER-2013和CK+數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)測(cè)試,識(shí)別率達(dá)到89.99%和96.03%.

      3 模型設(shè)計(jì)與參數(shù)設(shè)置

      3.1 NIN_ResNet模型

      NIN_ResNet模型是在網(wǎng)中網(wǎng)(NIN)模型的基礎(chǔ)上通過增加兩層殘差結(jié)構(gòu)而構(gòu)成的改進(jìn)神經(jīng)網(wǎng)絡(luò)模型.NIN模型是Lin等人基于Caffe平臺(tái)設(shè)計(jì)的網(wǎng)絡(luò)模型[9].NIN_ResNet模型由卷積層、多層感知器層形成的微小網(wǎng)絡(luò)(mlpConv層,如圖2所示),以及最大降采樣池化層、Dropout層、全局均值池化層和殘差層構(gòu)成.在Dropout層與下一卷積層中間并行加入一個(gè)殘差層,與卷積層結(jié)果進(jìn)行參數(shù)疊加,進(jìn)入下一層網(wǎng)絡(luò),模型基本結(jié)構(gòu)如圖1所示.

      網(wǎng)絡(luò)模型結(jié)構(gòu)的輸入層是像素為48×48的灰度圖像數(shù)據(jù),連接多個(gè)mlpConv層和Max-pooling層,最后由一個(gè)全局均值池化層完成后flatten后進(jìn)行7類表情分類輸出.Dropout被應(yīng)用到最大降采樣池化層的下一層,并且所有卷積、感知、殘差層中均加入ELU函數(shù)[19].Max-pooling層減少了參數(shù)的數(shù)量,降低了神經(jīng)網(wǎng)絡(luò)的計(jì)算復(fù)雜度.此外,模型中常見的隨機(jī)梯度下降方式的學(xué)習(xí)率優(yōu)化器也被調(diào)整.模型代替Gudi等人實(shí)驗(yàn)中的線性下降學(xué)習(xí)率[20],使用Adam Optimizer優(yōu)化器來對(duì)學(xué)習(xí)率進(jìn)行處理,收斂速度更快.Adam Optimizer通過使用動(dòng)量(參數(shù)的移動(dòng)平均數(shù))來改善傳統(tǒng)梯度下降,促進(jìn)超參數(shù)動(dòng)態(tài)調(diào)整.

      圖1 NIN_ResNet模型結(jié)構(gòu)Fig.1 Structure of NIN_ResNet model

      圖2 多層感知卷積網(wǎng)絡(luò)[9]Fig.2 MlpConv network

      3.2 NIN_ResNet模型層級(jí)分析

      1)卷積層(Conv)

      卷積層是對(duì)輸入層的圖像進(jìn)行特征提取.圖像輸入是由寬(像素)×高(像素)×深(RGB通道)組成,而RGB通道可以為三通道(彩色圖像)和單通道(灰度圖像).輸入圖像是48×48像素的灰度圖像,即單通道為1,因此輸入圖像維度可表示為48×48×1.卷積層是一個(gè)5×5×1的濾波器(filter).感受野(receptive field)中的這個(gè)“深度”參數(shù)必須和輸入圖像的“深度”相同,即為1.通過一個(gè)filter與輸入圖像的卷積可以得到一個(gè)48×48×1的特征圖(feature map),連續(xù)用192個(gè)filter得到了192個(gè)特征圖;輸入圖像和濾波器的對(duì)應(yīng)位置元素相乘再求和,最后再加上誤差e,得到特征圖.卷積過后輸入圖像的像素位置再進(jìn)行滑動(dòng),滑動(dòng)步長stride等于1.

      卷積層由192個(gè)48×48×1的特征圖組成,即每個(gè)特征圖上有2304個(gè)神經(jīng)元.而每個(gè)神經(jīng)元對(duì)應(yīng)輸入圖像上一塊5×5×1的區(qū)域,即一個(gè)神經(jīng)元和輸入圖像區(qū)域有25個(gè)連接,即25個(gè)權(quán)值參數(shù),即25×2304×192=11059200個(gè)權(quán)值參數(shù).因此卷積神經(jīng)網(wǎng)絡(luò)引入“共享權(quán)值”原則,即一個(gè)特征圖上每個(gè)神經(jīng)元對(duì)應(yīng)的25個(gè)權(quán)值參數(shù)被每個(gè)神經(jīng)元共享,這樣則只需25×192=4800個(gè)權(quán)值參數(shù),而每個(gè)特征圖的閾值也共享,即需要192個(gè)閾值,則總共只需要訓(xùn)練4800+192=4992個(gè)參數(shù).

      2)感知器層(MLP)

      感知器層是將輸入矢量轉(zhuǎn)化成0或1的輸出.感知器中不斷調(diào)整權(quán)值和閾值的過程稱為訓(xùn)練;訓(xùn)練過程中,把輸入空間映射到輸出空間的能力,稱為學(xué)習(xí);調(diào)整權(quán)值和閾值的算法稱為學(xué)習(xí)規(guī)則.感知器學(xué)習(xí)規(guī)則稱為delta(δ)收斂規(guī)則,即求誤差e的梯度.

      e = t-a

      (1)

      其中,t表示目標(biāo)輸出值,a表示實(shí)際輸出值,e表示誤差.訓(xùn)練網(wǎng)絡(luò)的目的就是要使誤差e趨向于0.

      3)多層卷積感知層(微小網(wǎng)絡(luò))

      模型通過構(gòu)建多層感知器來替代了一些傳統(tǒng)的卷積過程.過去的卷積層只是將前一層的特征進(jìn)行了線性組合,然后經(jīng)過一個(gè)非線性激活.MLP神經(jīng)網(wǎng)絡(luò)也采用卷積神經(jīng)網(wǎng)絡(luò)的共享權(quán)值的方法,對(duì)相同特征層的權(quán)值進(jìn)行共享.傳統(tǒng)的卷積層只是一個(gè)線性的過程,而且深層次的網(wǎng)絡(luò)層只是整合淺層次網(wǎng)絡(luò)學(xué)習(xí)到特征.因此采用微小網(wǎng)絡(luò)(即多層感知卷積網(wǎng)絡(luò))做進(jìn)一步的抽象.

      (2)

      (3)

      公式(3)中n為感知器的層數(shù),i,j表示圖想像素點(diǎn)的位置索引,xi,j表示我們卷積窗口中的圖像區(qū)域,k則表示我們要提取的特征圖的索引.

      4)最大降采樣池化層(Max-pooling)

      降采樣池化層是對(duì)輸入的特征圖進(jìn)行壓縮.Max-pooling是取一小塊區(qū)域中像素的最大值.對(duì)每一個(gè)2x2的區(qū)域元素,取區(qū)域中像素最大的值做為主要特征,所以采用一個(gè)2×2的濾波器,此時(shí)特征圖大小被壓縮為原來的1/4.

      5) Dropout層

      Dropout層是把深度神經(jīng)網(wǎng)絡(luò)模型當(dāng)作一個(gè)集成模型來訓(xùn)練,訓(xùn)練后取所有值的平均值輸出到下一層.若網(wǎng)絡(luò)模型將Dropout值設(shè)置為 p,則一個(gè)神經(jīng)元被保留的概率是 1-p.當(dāng)一個(gè)神經(jīng)元被丟棄時(shí),無論輸入值或相關(guān)參數(shù)的值,它的輸出值都會(huì)被設(shè)置為0.Dropout 可以在模型中發(fā)揮很好的效果,它能防止神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中產(chǎn)生共適應(yīng).

      6) 殘差層(ResNet)

      神經(jīng)網(wǎng)絡(luò)模型中通過引入殘差網(wǎng)絡(luò)結(jié)構(gòu)函數(shù),可以將網(wǎng)絡(luò)層級(jí)搭建地很深[2].借鑒這一思想,在NIN的模型中引入殘差層構(gòu)建一個(gè)新的模型架構(gòu).殘差結(jié)構(gòu)采用不分解原問題方式,而是采取將神經(jīng)網(wǎng)絡(luò)進(jìn)行分解的方式來降低擬合函數(shù)的復(fù)雜度.ResNet的核心思想是在不改變網(wǎng)絡(luò)表達(dá)力和復(fù)雜度的情形下改變損失函數(shù)勢(shì)能面,從而順利優(yōu)化到最佳點(diǎn).損失函數(shù)L(Y,F(xiàn)(X))用于評(píng)估預(yù)測(cè)值F(X)與真實(shí)值Y的偏離程度,是一個(gè)非負(fù)實(shí)值的擬合函數(shù),因此降低擬合函數(shù)的復(fù)雜度也等同于降低損失函數(shù)的復(fù)雜度.損失函數(shù)越小,模型的魯棒性就越好.

      殘差結(jié)構(gòu)函數(shù):實(shí)現(xiàn)兩個(gè)張量相加,如果相同維度直接相加,不同維度,維度少的填充0之后再相加

      Input:orig_x,x//上一層張量,殘差分支張量

      Output:x

      Begin:

      1. in = orig_x.get_shape () [-1];//獲取上一層張量的維度

      2. out = x.get_shape () [-1];//獲取殘差分支張量的維度

      3. pad = (tf.cast((out -in),tf.int32))/2;//轉(zhuǎn)換數(shù)據(jù)格式

      4. pad = tf.cast (pad,dtype=tf.int32);

      5. if in! = out then

      6. orig_x = tf.pad(orig_x,[[0,0],[0,0],[0,0],[pad,pad]]);//維度少填充0,變成相同維度

      7. end if

      8. x = x + orig_x;//兩個(gè)張量相加

      9. x = tf.nn.elu (x,name=′elu′);//ELU函數(shù)優(yōu)化

      10. return x;

      End

      7) 全局均值池化層

      NIN模型中采用全局均值池化的方法,替代了自AlexNet之后網(wǎng)絡(luò)模型中存在的全連接層架構(gòu).與全連接層不同,模型對(duì)每個(gè)特征圖一整張圖像進(jìn)行全局均值池化,這樣每張?zhí)卣鲌D都可以得到一個(gè)輸出.通過均值池化,大大減小了網(wǎng)絡(luò),避免過擬合.在采用了微神經(jīng)網(wǎng)絡(luò)后,讓局部模型有更強(qiáng)的抽象能力,從而讓全局平均池化能具有特征圖與類別之間的一致性,同時(shí)相比全連接層,不易過擬合,因?yàn)槿制骄鼗旧砭褪且环N結(jié)構(gòu)性的規(guī)則項(xiàng).

      8) ELU函數(shù)

      ELU函數(shù)過在正值區(qū)間取輸入x,減輕了梯度彌散問題(x>0區(qū)間導(dǎo)數(shù)處處為1).ReLU的輸出值沒有負(fù)值,所以輸出的均值會(huì)大于0.當(dāng)激活值的均值非0時(shí),就會(huì)對(duì)下一層造成一個(gè)偏置(bias),如果激活值之間不會(huì)相互抵消(即均值非0),會(huì)導(dǎo)致下一層的激活單元有偏置變換(bias shift).如此疊加,單元越多時(shí)偏置變換就會(huì)越大.而相比ReLU,ELU可以取到負(fù)值,這讓單元激活均值可以更接近0,保證在不激活狀態(tài)下(就是在輸入為負(fù)的狀態(tài)下)對(duì)噪聲具有魯棒性.

      ELU的函數(shù)表達(dá)式如下:

      (4)

      (5)

      公式(4)表示在x>0處去輸入x本身,x<0處激活值為負(fù)值,而且導(dǎo)數(shù)不為0,(是一個(gè)可調(diào)整的參數(shù),它控制著ELU負(fù)值部分在何時(shí)飽和.公式(5)是公式(4)的導(dǎo)數(shù).ELU函數(shù)有兩個(gè)優(yōu)點(diǎn):(1)將前面單元輸入的激活值均值控制在0;(2)讓激活函數(shù)的負(fù)值部分也可以被使用.我們分別在卷積層、多層感知器層、殘差層中用ELU函數(shù)來對(duì)預(yù)激活的結(jié)果進(jìn)行優(yōu)化.

      3.3 參數(shù)設(shè)置

      如圖3所示,輸入為48×48的灰度圖像,設(shè)置寬和高為48.由于是灰度圖像,因此設(shè)置深度值為1.卷積層的卷積核大小為5×5,相比3×3可以獲取較大局部特征,卷積層要輸出192個(gè)maps,為48的整數(shù)倍,便于計(jì)算,故核函數(shù)的shape(形狀)設(shè)置為[5,5,1,192].Dropout層的p值設(shè)置為0.5,此時(shí)一半神經(jīng)元模型丟棄,一半神經(jīng)元更高效地訓(xùn)練.經(jīng)過兩層MLP層后,由于strides值為1,維度未發(fā)生變化,再重復(fù)2次上述過程.MLP層的核大小的shape有[1,1,192,160],[1,1,160,96],[1,1,192,192].最大降采樣層的核函數(shù)大小設(shè)為3×3,步長stride值設(shè)置為2,此時(shí)輸入圖像維度變?yōu)?4×24.再次經(jīng)過多層感知卷積層和最大降采樣層,參數(shù)設(shè)置不變,維度為12×12,但是最后的MLP3_2層核函數(shù)的shape為[1,1,192,7],其中7為特征圖個(gè)數(shù),也為表情的類別.最后一層全局均值池化層要求特征圖的個(gè)數(shù)要與表情分類的類別相同,這時(shí)7個(gè)特征圖對(duì)應(yīng)7種表情,而核函數(shù)大小設(shè)為8×8,步長stride為1.最后將global pool層輸出的特征進(jìn)行flatten返回函數(shù)輸出的logits,得出表情的整體識(shí)別概率和訓(xùn)練的loss,進(jìn)行不停的輸入迭代,設(shè)置所要訓(xùn)練的步驟,執(zhí)行完步驟,程序即終止.

      圖3 NIN_ResNet模型參數(shù)圖Fig.3 Parameter of NIN_ResNet model

      在訓(xùn)練模型時(shí),對(duì)不同的學(xué)習(xí)率參數(shù)進(jìn)行訓(xùn)練,分別為0.005,0.0005,0.00005,0.0001,結(jié)果發(fā)現(xiàn)學(xué)習(xí)率為0.0005時(shí),模型的迭代效果相對(duì)最好,且會(huì)逐漸趨于穩(wěn)定,因此設(shè)置learning rate的值為0.0005.其他幾種學(xué)習(xí)率參數(shù)會(huì)使得模型陷入欠擬合狀態(tài),從而模型的整體訓(xùn)練效果影響明顯.

      4 實(shí)驗(yàn)結(jié)果與分析

      本文的實(shí)驗(yàn)運(yùn)行在Python2.7支持的TensorFlow CPUr1.0.1版的平臺(tái)上.實(shí)驗(yàn)環(huán)境的搭建主要通過pip命令完成.

      4.1 數(shù)據(jù)集介紹

      實(shí)驗(yàn)所采用的數(shù)據(jù)集為FER-2013和CK+.FER-2013圖像大小為48×48像素,數(shù)據(jù)集中7種表情分別用0~6數(shù)字進(jìn)行標(biāo)注處理,分別為“0”表示angry,“1”表示disgust,“2”表示fear,“3”表示happy,“4”表示sad,“5”表示surprise,“6”表示neutral.數(shù)據(jù)集包含訓(xùn)練集和測(cè)試集,其中訓(xùn)練集共含有28709張圖像(其中angry圖像3995張、disgust圖像436張、fear圖像4097張、happy圖像7215張、sad圖像4830張、surprise圖像3171張、neutral圖像4965張),測(cè)試集含有3589張圖像(其中angry圖像467張、disgust圖像56張、fear圖像496張、happy圖像895張、sad圖像653張、surprise圖像415張、neutral圖像607張).CK+數(shù)據(jù)集包含219張圖像,屬于小樣本數(shù)據(jù)集(其中anger圖像45張、disgust圖像59張、fear圖像25張、happy圖像69張、sad圖像28張、surprise圖像83張).

      4.2 FER-2013數(shù)據(jù)集實(shí)驗(yàn)分析

      4.2.1 模型訓(xùn)練的識(shí)別率和執(zhí)行時(shí)間分析

      模型將在Tensorflow平臺(tái)上進(jìn)行60000次網(wǎng)絡(luò)迭代,每個(gè)batch為30,以確保精度收斂于最佳值.在試圖提高模型的性能的情況下,網(wǎng)絡(luò)將對(duì)FER-2013數(shù)據(jù)集的30000張圖像進(jìn)行訓(xùn)練.

      圖4 三種網(wǎng)絡(luò)模型的表情識(shí)別率Fig.4 Recognition rate of three model

      如表1所示,訓(xùn)練的ResNet結(jié)束迭代最快.NIN_ResNet在NIN基礎(chǔ)上添加了殘差結(jié)構(gòu),比NIN模型更快執(zhí)行結(jié)束.模型迭代初期,執(zhí)行速度提升不是太明顯,在40000步,運(yùn)行時(shí)間縮短了9.5%,最終60000步迭代結(jié)束,所需時(shí)間縮短了3%.因?yàn)闅埐罱Y(jié)構(gòu)模型更穩(wěn)定,振幅更小,Tensorflow的數(shù)據(jù)流圖執(zhí)行更順暢.但是模型在取得較高識(shí)別率的情況下,訓(xùn)練的時(shí)間仍較長,有待優(yōu)化.

      表1 三種網(wǎng)絡(luò)模型的執(zhí)行時(shí)間Table 1 Execute time of three model

      4.2.2 表情圖像單類別分類測(cè)試

      針對(duì)訓(xùn)練好的NIN_ResNet模型,模型學(xué)習(xí)到7種表情對(duì)應(yīng)的特征,這樣當(dāng)測(cè)試單張圖像時(shí),會(huì)根據(jù)學(xué)習(xí)到的特征識(shí)別出對(duì)應(yīng)的表情,雖然每次執(zhí)行得出的概率值有波動(dòng)(所以僅用作參考),但是給出的表情分類結(jié)果是基本正確的.圖5所示(b)圖表情給出識(shí)別的結(jié)果為中性,真實(shí)的情況為厭惡的表情.實(shí)際上經(jīng)過多次的表情測(cè)試,模型對(duì)厭惡的表情識(shí)別效果不是很好,總是以較大的概率識(shí)別成其他的表情,常見錯(cuò)誤表現(xiàn)為傷心和中性,這是因?yàn)閰拹旱挠?xùn)練數(shù)據(jù)樣本僅為436張,遠(yuǎn)少于其他六類表情的數(shù)據(jù),有待增添此類表情訓(xùn)練.但是其他六類表情經(jīng)過多次測(cè)試表現(xiàn)良好,均能夠以較高概率正確識(shí)別出來.

      如表2所示,與先進(jìn)模型對(duì)比了單類別表情圖像的識(shí)別效果,體現(xiàn)出模型在整體識(shí)別率高的情況下,單類別圖像分類識(shí)別率能達(dá)到90%以上,效果提升明顯.

      圖5 表情圖像的特征及分類結(jié)果Fig.5 Characteristic and classification result of expression image

      表2 各個(gè)模型的單類別表情圖像識(shí)別率Table 2 Recognition on single picture of expression of each model

      4.3 CK+數(shù)據(jù)集的實(shí)驗(yàn)分析

      CK+數(shù)據(jù)集所包含的圖片較少,包含7類表情,但其中輕蔑表情不屬于7種基本表情,故取其余6類表情,則模型輸出分類為6,設(shè)置執(zhí)行每個(gè)batch為8,迭代的步數(shù)為6000.在Tensorflow平臺(tái)上訓(xùn)練NIN和NIN_ResNet模型,同樣在TensorBoard可視化平滑度Smoothing為0.95的情況下,識(shí)別率為94.74%和96.03%,表示模型對(duì)CK+數(shù)據(jù)集訓(xùn)練充分,接近完全收斂,NIN_ResNet模型對(duì)識(shí)別率有一定提高.模型迭代時(shí)間分別為1h40min,2h11min,因?yàn)橛?xùn)練的數(shù)據(jù)每批次執(zhí)行8張圖片,比FER-2013數(shù)據(jù)集的30張少,因此執(zhí)行速度更快,更快收斂.

      4.4 整體識(shí)別率測(cè)試對(duì)比分析

      將網(wǎng)中網(wǎng)殘差網(wǎng)絡(luò)模型的識(shí)別率結(jié)果與業(yè)界先進(jìn)的其它表情識(shí)別模型進(jìn)行對(duì)比分析,如表3所示,本文提出的模型在識(shí)別率上具有顯著優(yōu)勢(shì).對(duì)FER-2013和CK+數(shù)據(jù)集的分類識(shí)別過程中,NIN_ResNet均取得良好的結(jié)果.Subnet3模型[15]是采用對(duì)FER-2013數(shù)據(jù)集構(gòu)建三種CNN子模型,在最后的輸出之前,將三個(gè)模型的結(jié)果疊加平均輸出,該方法本質(zhì)上是構(gòu)建不同層級(jí)的CNN網(wǎng)絡(luò)模型,無法從根本上避免層級(jí)不夠深,CNN訓(xùn)練不充分對(duì)分類識(shí)別結(jié)果造成的負(fù)面影響,僅取得62.4%的識(shí)別率.Multi-scale CNNs模型[17]是多個(gè)輸入多個(gè)尺度的圖像作為輸入并進(jìn)行融合輸出的結(jié)果,識(shí)別率為71.8%.Baseline CNN模型[16]在FER-2013和CK+數(shù)據(jù)集的模型結(jié)構(gòu)搭建不夠深,對(duì)過擬合情況的處理有待優(yōu)化,識(shí)別率為68.53%和66.49%.Breuer等人采用動(dòng)作單元結(jié)合長短時(shí)記憶網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)這兩種數(shù)據(jù)集進(jìn)行訓(xùn)練,不必要的動(dòng)作單元(AU)片段對(duì)結(jié)構(gòu)造成影響,識(shí)別率為72.1%和98.62%[18].因此,在同樣的數(shù)據(jù)集對(duì)比下,本文所提的網(wǎng)中網(wǎng)殘差模型對(duì)兩種表情數(shù)據(jù)集訓(xùn)練良好,識(shí)別分類顯著,F(xiàn)ER-2013識(shí)別率提高17%-27%,CK+數(shù)據(jù)集識(shí)別率提高30%.

      表3 表情數(shù)據(jù)集的整體識(shí)別率Table 3 Overall recognition rate of expression dataset

      5 結(jié)束語

      隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的研究發(fā)展,表情圖像分類識(shí)別也成為目前研究的熱點(diǎn)問題之一.深層模型對(duì)實(shí)現(xiàn)表情識(shí)別系統(tǒng)的準(zhǔn)確分類起著至關(guān)重要的作用.本文在網(wǎng)中網(wǎng)模型的基礎(chǔ)上結(jié)合深度網(wǎng)絡(luò),結(jié)合殘差層和新的激活函數(shù)ELU的特點(diǎn),提出了網(wǎng)中網(wǎng)殘差網(wǎng)絡(luò)模型.構(gòu)建了18層神經(jīng)網(wǎng)絡(luò)模型,在Tensorflow平臺(tái)上對(duì)FER-2013和CK+表情數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),減少梯度消失和提高對(duì)“噪聲”的魯棒性問題,并用實(shí)驗(yàn)證明了該模型方法的有效性,取得了較高的分類識(shí)別效果.然而該模型對(duì)非正面,厭惡和微小變化表情訓(xùn)練仍然不夠充分.因此,面向特大規(guī)模人臉表情自然數(shù)據(jù)集的分類識(shí)別的魯棒性和微表情的分類問題仍是一個(gè)新的挑戰(zhàn),是本文后續(xù)研究工作的重點(diǎn).

      猜你喜歡
      識(shí)別率殘差卷積
      基于雙向GRU與殘差擬合的車輛跟馳建模
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      基于殘差學(xué)習(xí)的自適應(yīng)無人機(jī)目標(biāo)跟蹤算法
      基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
      基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識(shí)別率的關(guān)系
      提升高速公路MTC二次抓拍車牌識(shí)別率方案研究
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      高速公路機(jī)電日常維護(hù)中車牌識(shí)別率分析系統(tǒng)的應(yīng)用
      阿合奇县| 大港区| 聊城市| 肇东市| 鄄城县| 宁晋县| 资中县| 武陟县| 崇阳县| 镇沅| 林西县| 石林| 大关县| 策勒县| 庄浪县| 永安市| 策勒县| 抚松县| 宜兴市| 邻水| 政和县| 凯里市| 清丰县| 枣强县| 福海县| 防城港市| 东兰县| 呈贡县| 清水河县| 无锡市| 新津县| 满洲里市| 红安县| 休宁县| 南京市| 罗平县| 鄂托克旗| 寿光市| 武鸣县| 青岛市| 保定市|