• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度可分離卷積的表情識別改進(jìn)方法

      2023-05-24 09:06:14李嘉乾
      關(guān)鍵詞:特征提取卷積深度

      李嘉乾,張 雷

      (江蘇理工學(xué)院 電氣工程學(xué)院,江蘇 常州 213001)

      0 引言

      人工智能在生活中扮演著愈發(fā)重要的角色,表情識別是人工智能的一個(gè)重要研究方向。Ekman等[1]把面部表情定義為:厭惡、憤怒、懼怕、愉快、悲傷和驚詫。隨著汽車智能化程度的提高,駕駛員面部表情檢測已成為比較熱門的研究方向[2]。目前,已有對駕駛員進(jìn)行疲勞駕駛監(jiān)測與提醒的相關(guān)算法[3]。但是,由于傳統(tǒng)算法對光照變化的魯棒性不強(qiáng),導(dǎo)致光線過亮或光線不充足時(shí),檢測不到表情的變化[4]。此外,由于人臉位姿的多變性,使用傳統(tǒng)方法檢測時(shí),人臉定位需要預(yù)先設(shè)計(jì)人臉提取框[5],并且由于人臉的照片存在不同的尺度,檢測圖像時(shí),如果輸入人臉的角度發(fā)生改變,對最后的精度影響極大[6~8]。

      傳統(tǒng)人臉表情識別算法是通過手工設(shè)計(jì)特征提取器進(jìn)行特征提取,如主成分分析法(Principal Component Analysis,PCA)[9],局部二值模式(Local Binary Patterns,LBP)[10]和梯度方向直方圖(Histogram of Oriented Gradient,HOG)[11]等等。然而,傳統(tǒng)算法在進(jìn)行特征提取時(shí),所用的手工特征提取器容易忽略對分類有較大影響的特征信息[12]。而深度學(xué)習(xí)則不需要人為設(shè)計(jì)特征提取器[13],而是通過訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu),用誤差反向傳播算法不斷優(yōu)化網(wǎng)絡(luò)參數(shù),使網(wǎng)絡(luò)自動(dòng)提取圖像特征信息。

      Treisman[14]提出一種模擬人腦注意力機(jī)制的模型,其通過計(jì)算得到注意力的概率分布結(jié)果,從而反應(yīng)某個(gè)輸入對于輸出的重要作用。目前,在人臉表情識別領(lǐng)域也受到眾多研究者的應(yīng)用。如:Hu等[15]提出了基于注意力模塊化機(jī)制的結(jié)合型網(wǎng)絡(luò)(Squeeze-and-Excitation Networks,SENet)。該網(wǎng)絡(luò)通過學(xué)習(xí)的方式,自動(dòng)獲取每個(gè)特征通道的重要程度,依照重要程度增強(qiáng)對當(dāng)前任務(wù)重要的特征,并抑制對當(dāng)前任務(wù)用處較小的特征。Li 等[16]提出一種基于注意力機(jī)制的自動(dòng)人臉表情識別網(wǎng)絡(luò),該網(wǎng)絡(luò)將LBP 特征與注意力機(jī)制相結(jié)合,增強(qiáng)了注意力模型,獲得了更好的效果。

      為了提高表情特征的提取能力,同時(shí)增強(qiáng)對相似表情的識別能力,提出一種雙通道殘差網(wǎng)絡(luò)模型,該模型由兩個(gè)不同的特征提取網(wǎng)絡(luò)組成,使之優(yōu)勢互補(bǔ)。對于通道一,本文對LBP 算子進(jìn)行改進(jìn),在保留其對微小特征敏感性的基礎(chǔ)上,進(jìn)一步提高提取面部紋理特征的能力。但是由于LBP 方法的定義決定了其關(guān)注點(diǎn)更多的是在圖像的紋理及輪廓等特征上,在特征提取中側(cè)重方向較為單一,導(dǎo)致提取到表情的微小特征能力強(qiáng),但相對忽略了與全局的聯(lián)系。通過增加壓縮激勵(lì)模塊,對特征先壓縮后進(jìn)行激發(fā),以提高圖像整體的表達(dá)能力。將兩個(gè)通道的特征輸入特征融合網(wǎng)絡(luò),通過交叉驗(yàn)證方式確定特征融合網(wǎng)絡(luò)的系數(shù),選擇最適合的融合系數(shù)以提高網(wǎng)絡(luò)的分類能力。最后使用Softmax 函數(shù)進(jìn)行分類,在公開數(shù)據(jù)集CK+[17]、Oulu-CASIA[18]和JAFEE數(shù)據(jù)集上進(jìn)行試驗(yàn),并與主流算法進(jìn)行了比較,驗(yàn)證了本文算法的優(yōu)越性。

      1 改進(jìn)的可分離卷積通道特征網(wǎng)絡(luò)模型

      深度可分離卷積其本質(zhì)上是將原來的卷積核進(jìn)行分解,從而實(shí)現(xiàn)降低參數(shù)量的目的。由于將卷積核拆分,實(shí)質(zhì)上是增加了網(wǎng)絡(luò)的層數(shù),即增加了網(wǎng)絡(luò)的深度,有利于網(wǎng)絡(luò)提取深層特征。以標(biāo)準(zhǔn)的一個(gè)深度可分離卷積為例,其總體結(jié)構(gòu)如圖1 所示。

      圖1 3×3 大小的深度可分離卷積結(jié)構(gòu)Fig.1 3×3 size structure of depth separable convolution

      對于卷積層來說,通常情況下一個(gè)卷積層內(nèi)使用的卷積核大小和卷積步長都是相同的,然而深度可分離卷積由于其卷積操作的不同,可以分為兩次卷積操作:首先對輸入對象進(jìn)行一次正常的卷積,以此獲得每個(gè)通道的特征,這也被稱為深度卷積;之后通過1×1 尺寸的卷積核去調(diào)整被卷積后的特征通道,并將這些特征融合起來,這也被稱為通道卷積。經(jīng)過兩次不同的卷積后,可以大量減少其中的操作量。通常,卷積是全部相乘做全卷積運(yùn)算,而深度可分離卷積本質(zhì)上是特征的部分相乘再相加,即深度卷積和通道卷積相加。

      1.1 改進(jìn)激活函數(shù)

      神經(jīng)網(wǎng)絡(luò)里激活函數(shù)的選擇是至關(guān)重要的,沒有激活函數(shù)的網(wǎng)絡(luò)模型,難以處理人臉表情網(wǎng)絡(luò)輸入與輸出之間的非線性關(guān)系。

      通常情況下,激活函數(shù)添加在卷積層之后,其作用是增加網(wǎng)絡(luò)的非線性,以提高網(wǎng)絡(luò)抗過擬合的能力。目前,使用最多的激活函數(shù)是ReLU,其原理見公式(1)。在正區(qū)間,其函數(shù)圖像是斜率等于1 的直線,代表輸入和輸出在正區(qū)間都是線性的,并且對函數(shù)求導(dǎo)后,其斜率也是不變的,使網(wǎng)絡(luò)模型保持一個(gè)固定的收斂速率,基本杜絕了梯度消失的問題;在負(fù)區(qū)間,是過原點(diǎn)斜率為0 的直線,代表此時(shí)負(fù)區(qū)間沒有輸出。正區(qū)間的線性輸出和負(fù)區(qū)間的無輸出,組合成了非線性關(guān)系。如式(1)

      式中x為來自于上一層神經(jīng)網(wǎng)絡(luò)的輸入向量。

      ReLU 激活函數(shù)的優(yōu)點(diǎn)是其結(jié)構(gòu)簡單,容易控制收斂速度,但其缺點(diǎn)也顯而易見。由于其非線性關(guān)系是由正負(fù)區(qū)間組合而成,對于負(fù)區(qū)間來說沒有輸出,與其對應(yīng)的神經(jīng)元不在更新參數(shù),相當(dāng)于這一部分的神經(jīng)元被舍棄掉了。

      本文在ReLU 激活函數(shù)的基礎(chǔ)上,提出另一種改進(jìn)的激活函數(shù),即指數(shù)線性單元(exponential linear units,ELR)[19],其通過對負(fù)區(qū)間部分進(jìn)行優(yōu)化,解決了其負(fù)區(qū)間神經(jīng)元不更新參數(shù)的問題,并且當(dāng)輸入為負(fù)區(qū)間時(shí),依然可以保持神經(jīng)單元的運(yùn)作性。如公式(2):

      其中,參數(shù)δ =1.673 263 242 354 377 284 817 042 991 671 7。

      1.2 引入壓縮激發(fā)模塊

      壓縮-激發(fā)模塊(Squeeze-Excitation)本質(zhì)上屬于注意力網(wǎng)絡(luò)的一種,通過壓縮操作和激發(fā)操作對通道賦予權(quán)重,并依此建立起通道相關(guān)的模型,而通道的權(quán)重比例依據(jù)的是各通道中特征信息的多少來分配的,通過分配權(quán)重的多少,判定當(dāng)前通道與其他通道的優(yōu)先級關(guān)系。而SE 模塊由于其結(jié)構(gòu)中存在池化和激活函數(shù)操作,將其放置在每個(gè)卷積層之后,可以增大網(wǎng)絡(luò)的有效感受野,使提取到的特征更能全面的表征圖像信息,SE 模塊結(jié)構(gòu)如圖2 所示。

      圖2 壓縮激勵(lì)模塊結(jié)構(gòu)Fig.2 Squeeze-and-Excitation module structure

      由上圖可以看到,SE 模塊主要有3 個(gè)部分組成:分別為Squeeze(壓縮)部分即圖中的Global pooling(全局池化)、Excitation(激發(fā))部分即圖中的sigmoid 激活函數(shù),和Scale(加權(quán))部分。SE 模塊的計(jì)算原理是:給其一個(gè)輸入為特征圖,其長寬和維度為H × W × C,經(jīng)過全局池化后,其維度變成1×1×C。接著,連接兩個(gè)FC 層和激活函數(shù)層,以增加輸出的非線性;之后通過sigmoid 激活函數(shù),生成一個(gè)特征更突出的強(qiáng)特征圖。

      本文方法的SE 模塊在壓縮激發(fā)中間使用兩個(gè)全連接層,其優(yōu)點(diǎn)在于:

      (1)單一的全連接層無法很好的擬合特征通道之間的相關(guān)性,對于網(wǎng)絡(luò)模型非線性的提升起到的作用很??;

      (2)由于引入了壓縮率,其實(shí)是變相降低了網(wǎng)絡(luò)模型的參數(shù),使得網(wǎng)絡(luò)可以更快的去判斷不同通道之間的重要性。

      在SE 模塊的激發(fā)部分得到每個(gè)特征通道的重要性后,通過輸出的強(qiáng)特征經(jīng)過Sigmoid 激活函數(shù)和原特征加權(quán)后,得到該通道的權(quán)重值,將其賦予在通道上,就可以實(shí)現(xiàn)給通道分配權(quán)重。最后,特征通道的增強(qiáng)即是通過加權(quán)后得到的每個(gè)權(quán)重分別乘在對應(yīng)的通道上來實(shí)現(xiàn)。

      1.3 交叉熵?fù)p失函數(shù)

      交叉熵?fù)p失函數(shù)主要刻畫的是實(shí)際輸出與期望輸出的距離,也就是交叉熵的值越小,兩個(gè)概率分布就越接近。假設(shè)概率分布p為期望輸出,概率分布q為實(shí)際輸出,則交叉熵定義如公式(3):

      式中:q(x)表示當(dāng)前實(shí)際的輸出概率值,p(x)表示當(dāng)前分類值是否是對應(yīng)對的標(biāo)簽,如果輸出值對應(yīng)標(biāo)簽,則p(x)為1,如果輸出值不對應(yīng)標(biāo)簽,則p(x)為0。其中,q(x)的值是通過對網(wǎng)絡(luò)輸出的概率分布取對數(shù)得到,為的是在不同的標(biāo)簽中更具有區(qū)分度,即使得不同樣本的樣本中心盡可能的互相遠(yuǎn)離,從而提高表情分類結(jié)果的精度。

      1.4 改進(jìn)網(wǎng)絡(luò)框架

      本章節(jié)提出了一種結(jié)合SE 模塊與可分離卷積的模塊以替代網(wǎng)絡(luò)中的一部分卷積核,并將其修改后嵌入殘差網(wǎng)絡(luò)結(jié)構(gòu)中,如圖3 所示。在圖3 中可以看到一個(gè)改進(jìn)的網(wǎng)絡(luò)框架,其在本質(zhì)上是一個(gè)輕量化網(wǎng)絡(luò),通過將其中一部分卷積核進(jìn)行分離,從而實(shí)現(xiàn)降低模型參數(shù)量的目的。表1 為本文基于深度可分離卷積搭建的網(wǎng)絡(luò)模型。

      表1 改進(jìn)的可分離卷積網(wǎng)絡(luò)結(jié)構(gòu)及參數(shù)Tab.1 Structure and parameters of improved separable convolution network

      表1 為改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)及詳細(xì)參數(shù)信息。其中,上表網(wǎng)絡(luò)中共有12 層卷積層,其中最開始的兩個(gè)卷積層使用尺寸為3×3,步長為1 的普通卷積;剩余的10 層為可分離卷積層,其卷積核尺寸有用于深度卷積的3×3 和1×1 用于調(diào)整通道的,以降低模型的參數(shù)量;之后通過最大池化降低特征的H和W以方便最后的分類;最后使用全局平均池化將輸出特征進(jìn)行相加求和然后取平均值,得出7 個(gè)特征值,將其傳入Softmax 損失函數(shù)分類器,對應(yīng)7 種表情預(yù)測的可能性大小。

      針對全卷積網(wǎng)絡(luò)模型參數(shù)量巨大的問題,本文通過使用可分離卷積替代傳統(tǒng)卷積的思路進(jìn)行優(yōu)化;本文考慮到雖然可分離卷積可以降低模型參數(shù)量,但是過多的堆疊可分離卷積違背了設(shè)計(jì)的初衷,并且在訓(xùn)練網(wǎng)絡(luò)的時(shí)候發(fā)現(xiàn)并不是堆疊可分離卷積就能使模型獲得更高的識別精度,過多的可分離卷積反而會(huì)使得模型難以訓(xùn)練。所以調(diào)節(jié)模型結(jié)構(gòu)并設(shè)定一個(gè)相對合適的網(wǎng)絡(luò)層數(shù)。

      2 實(shí)驗(yàn)驗(yàn)證與結(jié)果分析

      2.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)集介紹

      本文所使用環(huán)境及計(jì)算機(jī)配置為Intel Core i7 8700、32 G 內(nèi)存、NVIDIA 3060ti 顯卡8 G 顯存,軟件平臺(tái)為Python3.6、TensorFlow-gpu 1.3.1、NVIDIA CUDA 10.0、cuDNN 7.4.1 庫。

      為了更好的和其他主流算法比較,本文在對參數(shù)調(diào)優(yōu)后,選用Oulu-CASIA、CK+、JAFEE3 個(gè)公共的表情數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),各數(shù)據(jù)集及各表情數(shù)量見表2。

      表2 各數(shù)據(jù)集表情種類及數(shù)量Tab.2 Expression types and quantities of each data set

      3 個(gè)數(shù)據(jù)集及其中樣本數(shù)量如下:

      (1)Oulu-CASIA 表情數(shù)據(jù)集包含7 種表情,分別包含厭惡、憤怒、懼怕、愉快、悲傷和驚詫以及中性表情。其中一共包括10 880 個(gè)樣本。選取其他6種表情樣本共2 864 張,進(jìn)行數(shù)據(jù)增廣,一共生成了14 320 張數(shù)據(jù)集,增廣后的數(shù)據(jù)集樣本量為22 336 張。其中訓(xùn)練集20 886 張,驗(yàn)證集1 450 張。

      (2)CK+表情數(shù)據(jù)集同樣包含7 種表情,同樣包含厭惡、憤怒、懼怕、愉快、悲傷和驚詫以及中性表情。其中一共包括800 個(gè)樣本。進(jìn)行數(shù)據(jù)增廣,一共生成了12 000 個(gè)樣本,其中訓(xùn)練集10 800 張,驗(yàn)證集1 200 張;

      (3)JAFEE 表情數(shù)據(jù)集是由日本人和白種人面部情緒圖像構(gòu)成的數(shù)據(jù)集,包含厭惡、憤怒、懼怕、愉快、悲傷和驚詫以及中性表情。其中一共包括213個(gè)樣本。進(jìn)行數(shù)據(jù)增廣,一共生成了10 650 個(gè)樣本,其中訓(xùn)練集9 585 張,驗(yàn)證集1 065 張。

      2.2 網(wǎng)絡(luò)參數(shù)設(shè)置

      本文網(wǎng)絡(luò)的訓(xùn)練基本參數(shù)包含每一批次訓(xùn)練量(Batch-size)、基礎(chǔ)學(xué)習(xí)率(Base-learning rate)、學(xué)習(xí)率動(dòng)量(Momentum)、隨機(jī)失活(Dropout)。網(wǎng)絡(luò)采用帶動(dòng)量的學(xué)習(xí)率,將初始學(xué)習(xí)率設(shè)置為0.01,并采用自適應(yīng)學(xué)習(xí)率不斷進(jìn)行修正??紤]到顯卡性能及顯存,將Batch-size 設(shè)置為32。Momentum 設(shè)為0.9。為使得模型在訓(xùn)練中減少過擬合現(xiàn)象,并使輸出結(jié)果具有一定的稀疏性,將Dropout 設(shè)置為0.5。網(wǎng)絡(luò)參數(shù)設(shè)置見表3。

      表3 殘差網(wǎng)絡(luò)參數(shù)設(shè)置Tab.3 Parameters of residual network

      2.3 實(shí)驗(yàn)結(jié)果對比分析

      在公開數(shù)據(jù)集CK+、JAFEE 和Oulu-CASIA 數(shù)據(jù)集上用驗(yàn)證集進(jìn)行實(shí)驗(yàn),經(jīng)過30 個(gè)epochs,得到對應(yīng)的損失(loss)和識別率(accuracy),分別如圖4(a)、圖4(b)和圖4(c)所示。

      圖4 三個(gè)數(shù)據(jù)集的識別率和損失率Fig.4 Recognition rate and loss rate of three data sets

      其中,CK+數(shù)據(jù)集經(jīng)過26 個(gè)epochs 后收斂;JAFEE 數(shù)據(jù)集經(jīng)過21 個(gè)epochs 后收斂;Oulu-CASIA 數(shù)據(jù)集經(jīng)過28 個(gè)epochs 后收斂。迭代完30個(gè)epochs 后準(zhǔn)確率見表4。

      表4 本文方法識別準(zhǔn)確率Tab.4 Identification accuracy of this method

      為了驗(yàn)證網(wǎng)絡(luò)的有效性,本文分別對比了近年來的經(jīng)典算法和最新算法,其中包括:Alexnet、Inception、Xception、Parallel CNN、CNN、Attention Net、FaceNet2ExpNet、GAN 等,并復(fù)現(xiàn)了部分高精度識別網(wǎng)絡(luò),且對比了網(wǎng)絡(luò)之間的模型參數(shù)量,對比結(jié)果見表5。

      表5 在CK+數(shù)據(jù)集上識別率比較Tab.5 Comparison of recognition rate on CK+dataset

      由表5 可見,文獻(xiàn)[20]采用了單一的Inception結(jié)構(gòu),其網(wǎng)絡(luò)層數(shù)為19,參數(shù)量較少,但由于其并未對特征提取前端進(jìn)行預(yù)處理,使得特征提取和分類精度完全由網(wǎng)絡(luò)結(jié)構(gòu)決定,導(dǎo)致了其需要迭代較多次數(shù),才能將網(wǎng)絡(luò)訓(xùn)練擬合。文獻(xiàn)[21]在文獻(xiàn)[20]的基礎(chǔ)上改進(jìn)了網(wǎng)絡(luò)結(jié)構(gòu),使其分為多個(gè)通道進(jìn)行卷積操作,并將特征圖融合,較之前提高了較多的精度,但是由于過多的堆疊了卷積層,使得網(wǎng)絡(luò)參數(shù)巨量增長,模型訓(xùn)練困難,且難以在終端部署。文獻(xiàn)[22]在卷積神經(jīng)網(wǎng)絡(luò)的主干特征提取網(wǎng)絡(luò)中作出改進(jìn),提高了網(wǎng)絡(luò)特征提取能力的同時(shí)控制了參數(shù)量,但由于提取的特征較為單一,導(dǎo)致對于相似表情的識別度不高。文獻(xiàn)[23]在FaceNet 的基礎(chǔ)上結(jié)合ExpNet 進(jìn)行改進(jìn),引入濾波對圖像進(jìn)行降噪處理,并根據(jù)待檢測數(shù)據(jù)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),取得了較高的表情識別精度,但由于其完全使用卷積結(jié)構(gòu),參數(shù)量較大,依賴算力,難以在終端部署。本文引入深度可分離卷積,并在其網(wǎng)絡(luò)結(jié)構(gòu)上進(jìn)行優(yōu)化,使得在保證準(zhǔn)確率的情況下,網(wǎng)絡(luò)參數(shù)更少,與文獻(xiàn)[21]的基礎(chǔ)網(wǎng)絡(luò)Xception 相比,由于使用了可分離卷積,網(wǎng)絡(luò)不需要過多的堆疊卷積層,減少了其卷積層數(shù),使得參數(shù)減少了74%,網(wǎng)絡(luò)模型的計(jì)算復(fù)雜度大大降低,符合輕量化網(wǎng)絡(luò)設(shè)計(jì)思想。

      3 結(jié)束語

      為了解決傳統(tǒng)算法識別精度低且深度學(xué)習(xí)模型參數(shù)量龐大的問題,本文提出了基于深度可分離卷積的殘差網(wǎng)絡(luò)模型。從改進(jìn)深度可分離卷積中的激活函數(shù)入手,提高了模型抗擬合的能力;引入壓縮激勵(lì)模塊并設(shè)定壓縮率,使其提取的特征具有更強(qiáng)的魯棒性,同時(shí)使得提取的結(jié)果可以更全面的體現(xiàn)面部表情;在進(jìn)行表情分類時(shí),通過加入中心損失設(shè)計(jì)了聯(lián)合算法,提高了其對類內(nèi)差異較小的特征的區(qū)分能力,即進(jìn)一步提高了具有相似特征的表情之間的區(qū)分度,進(jìn)而提高了總體表情識別精度。在3 個(gè)數(shù)據(jù)集(CK+、JAFEE 和Oulu-CASIA)上分別到達(dá)97.57%,96.24%和94.09%的識別準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,本文提出的改進(jìn)方案在面部表情識別方面具有很大優(yōu)勢。

      猜你喜歡
      特征提取卷積深度
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      深度理解一元一次方程
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      深度觀察
      深度觀察
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      深度觀察
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      Bagging RCSP腦電特征提取算法
      基于MED和循環(huán)域解調(diào)的多故障特征提取
      广丰县| 安塞县| 达日县| 探索| 会宁县| 宜昌市| 靖州| 保靖县| 浑源县| 油尖旺区| 龙州县| 连山| 东丰县| 广丰县| 阿荣旗| 阿巴嘎旗| 酉阳| 都江堰市| 邓州市| 响水县| 包头市| 佛坪县| 象山县| 南涧| 小金县| 桂平市| 崇明县| 沅江市| 汾阳市| 长寿区| 平阴县| 乐亭县| 安顺市| 恭城| 三亚市| 安福县| 高雄县| 蓝山县| 星座| 营口市| 长岛县|