• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Mixer Layer的人臉表情識別①

      2022-08-04 09:58:30簡騰飛曹少中楊樹林
      關(guān)鍵詞:集上人臉準(zhǔn)確率

      簡騰飛,王 佳,曹少中,楊樹林,張 寒

      (北京印刷學(xué)院 信息工程學(xué)院,北京 102600)

      人臉表情是反映人類情感最普遍最重要的方式之一,面部表情傳達(dá)著人與人之間的社會和情感信息,面部基本表情可分為6 種(快樂,悲傷,驚訝,恐懼,憤怒和厭惡). 隨著人工智能和深度學(xué)習(xí)的興起,基于深度學(xué)習(xí)的人臉表情識別得到了廣泛的發(fā)展和應(yīng)用,基于傳統(tǒng)特征提取方法的人臉表情識別,需要大量專業(yè)知識來設(shè)計(jì)提取器,同時(shí)傳統(tǒng)方法的泛化能力和魯棒性相對于深度學(xué)習(xí)的方法略有不足. 神經(jīng)網(wǎng)絡(luò)可以獲得表情圖像中更抽象,更復(fù)雜的特征,使識別更加準(zhǔn)確.隨著深度學(xué)習(xí)的發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)的人臉表情識別,取得了巨大的進(jìn)步.

      Shi 等[1]基于ResNet 提出一種多分支交叉卷積神經(jīng)網(wǎng)絡(luò)(MBCC-CNN)提高了每個(gè)感受野的特征提取能力,在CK+數(shù)據(jù)集上的識別準(zhǔn)確率達(dá)到了98.48%.Li[2]利用ResNet-101 使用文獻(xiàn)[3]中的數(shù)據(jù)集識別準(zhǔn)確率達(dá)到了96.29%±0.78%. 魏赟等[4]提出了一種引入注意力機(jī)制的輕量級CNN 通道和卷積自編碼器預(yù)訓(xùn)練通道的雙通道模型,在減少模型參數(shù)量的同時(shí)也保證了識別準(zhǔn)確率. 江大鵬等[5]提出局部二值模式(LBP)圖像的卷積網(wǎng)絡(luò)對6 種面部表情識別,通過Viola-Jones 框架提取出面部表情感興趣區(qū)域,獲得感興趣區(qū)域的LBP 圖像,再輸入到卷積網(wǎng)絡(luò)進(jìn)行識別. 申毫等[6]基于殘差網(wǎng)絡(luò)提出一種輕量卷積網(wǎng)絡(luò)的多特征融合的人臉表情識別方法,使用改進(jìn)的倒置殘差網(wǎng)絡(luò)為基本單元,搭建輕量級卷積網(wǎng)絡(luò),用11 層的卷積篩選網(wǎng)絡(luò)中的淺層特征,該模型的參數(shù)量僅有0.2×106,但在RAD-DB 數(shù)據(jù)集上的識別準(zhǔn)確率達(dá)到了85.46%. 伊力哈木·亞爾買買提等[7]提出了一種融合局部特征與深度置信網(wǎng)絡(luò)(DBN)的人臉面部表情識別算法,融合表情局部敏感質(zhì)量分布圖(LSH)非均勻光照不變特征和人臉面部表情的邊緣局部細(xì)節(jié)紋理特征,把融合后特征用于訓(xùn)練深度置信網(wǎng)絡(luò)(DBN)模型,在JAFFE 數(shù)據(jù)集上達(dá)到了97.56% 的識別率. 崔子越等[8]通過改進(jìn)VGGNet 結(jié)合Focal loss 的方法來處理面部表情數(shù)據(jù)集樣本不均衡,防止網(wǎng)絡(luò)過擬合,在數(shù)據(jù)集 CK+,JAFFE,Fer2013 上相比于傳統(tǒng)的損失函數(shù),模型的準(zhǔn)確率提升了1%–2%,模型的分類能力更加均衡. 在保證識別準(zhǔn)確率的情況下,張宏麗等[9]通過優(yōu)化剪枝GoogLeNet識別人臉表情,以達(dá)到簡化網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)量,提高運(yùn)行效率,網(wǎng)絡(luò)運(yùn)行時(shí)間低于200 ms. Dhankhar[10]組合了ResNet-50 和VGG16 用于人臉表情識別,在數(shù)據(jù)集KDEF 上取得了較好的效果.

      可以看出,對于人臉表情識別的研究方法,目前大多數(shù)是基于卷積神經(jīng)網(wǎng)絡(luò),同時(shí)對數(shù)據(jù)進(jìn)行了一定預(yù)處理. 本文通過搭建無卷積結(jié)構(gòu)的淺層神經(jīng)網(wǎng)絡(luò)對人臉表情進(jìn)行識別,該模型結(jié)構(gòu)簡單,計(jì)算復(fù)雜度低.

      1 人臉表識別方法

      1.1 MLP-Mixer 網(wǎng)絡(luò)結(jié)構(gòu)

      2021年Google 提出來一種無卷積和注意力機(jī)制的網(wǎng)絡(luò)MLP-Mixer[11],網(wǎng)絡(luò)結(jié)構(gòu)如圖1[11]所示.

      圖1 MLP Mixer 網(wǎng)絡(luò)結(jié)構(gòu)

      圖1 展示了MLP-Mixer 的網(wǎng)絡(luò)結(jié)構(gòu),MLP-Mixer網(wǎng)絡(luò)的輸入是一串不重復(fù)的圖片塊序列S,把每一個(gè)圖片塊映射成指定的維度C,Mixer Layer 的輸入維度為X∈RS×C. 假設(shè)輸入的圖片的分辨率為(H,W),每個(gè)圖片塊的分辨率為(P,P),則S=(H×W)/P2. Mixer Layer接受一系列的線性投影的圖像塊,且輸入輸出形狀保持為X∈RS×C. Mixer Layer 由兩種MLP (多層感知機(jī))組成: token-mixing (MLP1)和channel-mixing (MLP2).

      每個(gè)MLP 包含兩個(gè)全連接層. channel-mixing 將不同的通道之間聯(lián)系起來,token-mixing 尋找圖片上不同空間位置的關(guān)系. MLP-Mixer 的整體結(jié)構(gòu)包括Perpatch Fully-connected,Mixer Layer 和Global Average Pooling. Per-patch Fully-connected 將分割的圖片塊映射為指定維度. 網(wǎng)絡(luò)包含GELU[12]非線性激活函數(shù),跨越連接和 Layer Normal 等結(jié)構(gòu). Mixer Layer 可表示為式(1).

      其中,σ表示GELU 激活函數(shù),W為感知機(jī)權(quán)重,?為Layer Normal. 分別用DC和DS表示感知機(jī)channelm ixing 和token-mixing 中全連接層的節(jié)點(diǎn)個(gè)數(shù).

      1.2 遷移學(xué)習(xí)

      遷移學(xué)習(xí)是從源域傳輸信息提高目標(biāo)域的學(xué)習(xí)訓(xùn)練效率,遷移學(xué)習(xí)的源域和目標(biāo)域擔(dān)任的任務(wù)要相同,在深度學(xué)習(xí)中,遷移學(xué)習(xí)多用于解決數(shù)據(jù)量少,訓(xùn)練樣本不充分這一問題,在圖像識別領(lǐng)域被廣泛運(yùn)用.

      用Mixer Layer 代替CNN ,使用ExpW 數(shù)據(jù)集預(yù)訓(xùn)練主干網(wǎng)絡(luò),將新的表情樣本輸入到網(wǎng)絡(luò)中進(jìn)行微調(diào). 實(shí)驗(yàn)證明,通過該方法訓(xùn)練完成的模型具有較好的表情識別效果,具體步驟如圖2 所示.

      圖2 人臉表情識別方法結(jié)構(gòu)圖

      2 實(shí)驗(yàn)過程

      實(shí)驗(yàn)運(yùn)行環(huán)境: Windows 10 (64 位)操作系統(tǒng),Intel(R)Xeon(R)Gold 6132 CPU,GPU 為NVIDIA GeForce RTX 2080 Ti 顯存大小為 11 GB,Python 版本為3.7.0.

      2.1 人臉表情數(shù)據(jù)集

      為了說明該方法的有效性,采用日本女性面部表情數(shù)據(jù)集(JAFFE),CK+ (Extended Cohn-Kanada)數(shù)據(jù)集和Fer2013 數(shù)據(jù)集進(jìn)行實(shí)驗(yàn). 實(shí)驗(yàn)采用的樣本數(shù)量分布如表1 所示.

      表1 CK+、JAFFE、Fer2013 數(shù)據(jù)集實(shí)驗(yàn)樣本選取數(shù)量分布表

      其中 JAFFE 數(shù)據(jù)集包含10 位日本女性,每個(gè)人做出7 種表情,一共包含213 張大小為256×256 的人臉正面圖像,共分為angry,disgust,fear,happy,sad,surprise,neutral (憤怒,厭惡,恐懼,高興,悲傷,驚訝,自然)7 種標(biāo)簽. 該數(shù)據(jù)集的樣本分布均勻,標(biāo)簽準(zhǔn)確,如圖3 所示.

      圖3 JAFFE 數(shù)據(jù)集樣例圖

      CK+ 數(shù)據(jù)集包含123 個(gè)對象的327 個(gè)被標(biāo)記的表情圖片序列,包含angry,disgust,fear,happy,sadness,surprise,contempt (憤怒,厭惡,恐懼,高興,悲傷,驚訝,蔑視)7 種標(biāo)簽. 每一個(gè)圖片序列的最后一幀被提供了表情標(biāo)簽,所以共有327 個(gè)圖像被標(biāo)記. 該數(shù)據(jù)集樣本分布較為不均勻,如圖4 所示.

      圖4 CK+ 數(shù)據(jù)集樣例圖

      Fer2013 數(shù)據(jù)集總共有35886 張人臉表情組成,分為angry,disgust,fear,happy,neutral,sad,surprise (憤怒,厭惡,恐懼,高興,自然,悲傷,驚訝)7 種表情,其中包含訓(xùn)練集28708 張,共有驗(yàn)證集和私有驗(yàn)證集各3589張,每張圖片的固定大小為48×48 的灰度圖,該樣本數(shù)據(jù)分布不均衡且樣本中包含了錯(cuò)誤樣本,較為混亂,分類難度大,如圖5,圖6 所示.

      圖5 Fer2013 數(shù)據(jù)集樣例圖

      圖6 Fer2013 數(shù)據(jù)集錯(cuò)誤樣本樣例圖

      2.2 數(shù)據(jù)增強(qiáng)

      由表1 可知CK+和JAFFE 數(shù)據(jù)集樣本數(shù)量較少,為了防止網(wǎng)絡(luò)過擬合,增加樣本的復(fù)雜度,在實(shí)驗(yàn)中使用了數(shù)據(jù)增強(qiáng)的方法,如圖7 所示.

      圖7 數(shù)據(jù)增強(qiáng)圖

      通過數(shù)據(jù)增強(qiáng)后JAFFE 數(shù)據(jù)集一共有907 張圖片,CK+數(shù)據(jù)集一共有4905 張圖片,隨機(jī)抽取數(shù)據(jù)集中80%作為訓(xùn)練集,其余部分為驗(yàn)證集. 針對Fer2013數(shù)據(jù)集的特點(diǎn),本文實(shí)驗(yàn)剔除了數(shù)據(jù)集中不包含人臉樣本,并將所有樣本混合,隨機(jī)抽取和原測試集樣本同等數(shù)量的圖片作為測試集,其余部分為訓(xùn)練集.

      2.3 預(yù)訓(xùn)練

      為了防止網(wǎng)絡(luò)過擬合,在Fully-connected 后加入了Dropout. 如圖8 所示.

      圖8 MLP 網(wǎng)絡(luò)結(jié)構(gòu)

      Expression in-the-Wild 數(shù)據(jù)庫 (ExpW)包含使用Google 圖片搜索下載的91793 張面孔. 每個(gè)人臉圖像都被手動注釋為7 個(gè)基本表情類別之一. 在注釋過程中去除了非人臉圖像. 如圖9 所示.

      圖9 ExpW 數(shù)據(jù)集樣例圖

      為保證預(yù)訓(xùn)練模型特征提取的正確性,先從圖片中提取出人臉,再對人臉進(jìn)行矯正,去除樣本中的錯(cuò)誤樣本,剩余87305 張圖片,隨機(jī)抽取80%作為訓(xùn)練集,將20%的圖片作為驗(yàn)證集,驗(yàn)證模型的有效性. 在預(yù)訓(xùn)練過程中,會將圖像縮放為48×48 大小的灰度圖,使用自適應(yīng)矩估計(jì)(Adam)的策略,設(shè)置學(xué)習(xí)率為0.001,Batch size 為64,Dropout 為0.2,使用交叉熵?fù)p失函數(shù)和cosine learning rate decay[13]學(xué)習(xí)率衰減策略,訓(xùn)練至損失不再下降. Mixer Layer 網(wǎng)絡(luò)參數(shù)如表2 所示.

      表2 Mixer 網(wǎng)絡(luò)參數(shù)表

      為了驗(yàn)證遷移學(xué)習(xí)的必要性,使用4 層Mixer 網(wǎng)絡(luò),對遷移前后準(zhǔn)確率進(jìn)行對比,如表3 所示.

      表3 數(shù)據(jù)集遷移學(xué)習(xí)前后準(zhǔn)確率對比 (%)

      由表3 可以看出在訓(xùn)練小樣本數(shù)據(jù)集時(shí)遷移學(xué)習(xí)的重要性. 通過遷移學(xué)習(xí)的方法將該模型在JAFFE 數(shù)據(jù)集上的準(zhǔn)確率提升了大約5%,在CK+數(shù)據(jù)集上的準(zhǔn)確率大約提升了1%. 通過遷移學(xué)習(xí),能提高模型的識別準(zhǔn)確率. 由于Fer2013 數(shù)據(jù)集樣本豐富,因此該數(shù)據(jù)集不采取遷移學(xué)習(xí)策略.

      3 實(shí)驗(yàn)設(shè)置與結(jié)果

      使用無卷積的Mixer 網(wǎng)絡(luò)結(jié)構(gòu),通過實(shí)驗(yàn)證明,該網(wǎng)絡(luò)同樣具有提取人臉表情特征提取的能力,在人臉表情識別達(dá)到了很好的識別效果. 同時(shí),在樣本充足的數(shù)據(jù)集上訓(xùn)練過的Mixer Layer 神經(jīng)網(wǎng)絡(luò)模型,再對其結(jié)果進(jìn)行調(diào)整和訓(xùn)練,能夠很好地遷移到其他小樣本的數(shù)據(jù)集上.

      3.1 訓(xùn)練過程

      嘗試了不同層數(shù)的Mixer Layer 網(wǎng)絡(luò)對3 個(gè)數(shù)據(jù)集識別率的影響. 微調(diào)和訓(xùn)練網(wǎng)絡(luò)時(shí),網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)與表2 保持一致,其余參數(shù)如表4 所示. 模型準(zhǔn)確率如表5 所示.

      表4 微調(diào)和訓(xùn)練參數(shù)表

      表5 不同網(wǎng)絡(luò)層數(shù)準(zhǔn)確率

      將增強(qiáng)后的目標(biāo)數(shù)據(jù)集微調(diào)預(yù)訓(xùn)練好的網(wǎng)絡(luò),綜合考慮訓(xùn)練代價(jià)和識別準(zhǔn)確率,對數(shù)據(jù)集CK+,JAFFE 采用含4 層Mixer Layer 網(wǎng)絡(luò). Fer2013 數(shù)據(jù)集采用含8 層Mixer Layer 網(wǎng)絡(luò). 訓(xùn)練精度和訓(xùn)練損失精度如圖10 所示.

      圖10 訓(xùn)練準(zhǔn)確率和損失曲線

      從圖中的準(zhǔn)確率可以看出,模型收斂快,訓(xùn)練過程沒有發(fā)生過擬合,且在CK+和JAFFE 數(shù)據(jù)集上表現(xiàn)能力良好,無卷積的Mixer Layer 網(wǎng)絡(luò)具有良好的學(xué)習(xí)能力和泛化能力. 將該方法與國內(nèi)外優(yōu)秀的人臉表情識別算法進(jìn)行對比,在CK+ 數(shù)據(jù)集上準(zhǔn)確率有1%–4%的提升,在JAFFE 數(shù)據(jù)集上有1%–2%的提升. Fer2013數(shù)據(jù)集人為識別準(zhǔn)確率為(65±5)%,8 層 Mixer Layer模型的識別準(zhǔn)確率達(dá)到了這一范圍,且準(zhǔn)確率有1%–2%的提升. 驗(yàn)證了Mixer Layer 結(jié)構(gòu)在人臉表情識別上的有效性,對比結(jié)果如表6–表8 所示.

      表6 不同方法在CK+數(shù)據(jù)集上識別準(zhǔn)確率

      表8 不同方法在Fer2013 數(shù)據(jù)集上識別準(zhǔn)確率

      為了進(jìn)一步驗(yàn)證該算法,根據(jù)CK+和JAFFE 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果繪制混淆矩陣,其中橫坐標(biāo)代表真實(shí)類別,對角線代表該類樣本預(yù)測正確的樣本數(shù),其余為該類樣本預(yù)測錯(cuò)誤類別數(shù),該方法對于數(shù)據(jù)集CK+和JAFFE 法分類結(jié)果均勻,各類表情樣本更傾向于所屬的類別,具有良好的分類表現(xiàn)能力. 如圖11 所示.

      圖11 數(shù)據(jù)集混淆矩陣

      4 結(jié)論與展望

      本文基于Mixer Layer 提出了一種結(jié)構(gòu)簡單的人臉表情識別方法. 針對數(shù)據(jù)集樣本不足問題,通過遷移學(xué)習(xí)和數(shù)據(jù)增強(qiáng)的方法提升了模型的識別準(zhǔn)確率和泛化能力. 本文分別在CK+,JAFFE 和Fer2013 數(shù)據(jù)集上做了對比實(shí)驗(yàn),最終實(shí)驗(yàn)結(jié)果表明,無卷積的Mixer Layer 網(wǎng)絡(luò)對人臉表情也有很好的識別性.

      雖然基于Mixer Layer 的網(wǎng)絡(luò)在人臉表情識別取得了很好的識別效果,但樣本差異大,有錯(cuò)誤標(biāo)注的數(shù)據(jù)集對網(wǎng)絡(luò)識別準(zhǔn)確率影響依然較大. 后續(xù)工作會在本文的基礎(chǔ)上,改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu),提升模型在復(fù)雜環(huán)境下的識別準(zhǔn)確率.

      表7 不同方法在JAFFE 數(shù)據(jù)集上識別準(zhǔn)確率

      猜你喜歡
      集上人臉準(zhǔn)確率
      有特點(diǎn)的人臉
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      Cookie-Cutter集上的Gibbs測度
      鏈完備偏序集上廣義向量均衡問題解映射的保序性
      三國漫——人臉解鎖
      動漫星空(2018年9期)2018-10-26 01:17:14
      高速公路車牌識別標(biāo)識站準(zhǔn)確率驗(yàn)證法
      復(fù)扇形指標(biāo)集上的分布混沌
      馬面部與人臉相似度驚人
      博罗县| 虎林市| 宝兴县| 航空| 明光市| 义马市| 左贡县| 平武县| 方城县| 蓬溪县| 镇安县| 和林格尔县| 郯城县| 丰都县| 博罗县| 城口县| 汝南县| 革吉县| 宜宾县| 琼结县| 平江县| 得荣县| 夹江县| 灵山县| 霍山县| 石嘴山市| 翁牛特旗| 长顺县| 响水县| 海丰县| 长丰县| 公安县| 民县| 临高县| 丘北县| 仪陇县| 珲春市| 驻马店市| 鄂托克前旗| 奉化市| 杭锦旗|