• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種基于光流雙輸入網(wǎng)絡(luò)的微表情頂點(diǎn)幀檢測方法

      2022-07-13 02:18:54鄭戍華陳夢心王向周弓雪雅
      關(guān)鍵詞:光流頂點(diǎn)分類

      鄭戍華,陳夢心,王向周,弓雪雅

      (北京理工大學(xué) 自動化學(xué)院,北京 100081)

      微表情是在人努力控制某種情緒時(shí)無意中做出的面部表情,能夠反映出人的真實(shí)情感. 在醫(yī)療領(lǐng)域、公共安全、市場調(diào)研等領(lǐng)域有著重要應(yīng)用[1]. 但微表情持續(xù)時(shí)間短,不超過500 ms[2],且強(qiáng)度低,很難通過肉眼檢測到. 經(jīng)過訓(xùn)練的人員,對微表情的檢測率也只有47%左右[3].

      針對微表情檢測問題,研究學(xué)者提出了很多檢測方法:LI 等[4]與DAVISON 等[5]分別利用定向光流直方圖 (histogram of oriented optical flow,HOOF)特征、3D 定向梯度直方圖(histograms of oriented gradients,HOG)特征實(shí)現(xiàn)微表情檢測,準(zhǔn)確度分別為:64.99%、72.39%. 為了更好地提取微表情特征,深度學(xué)習(xí)方法被應(yīng)用于微表情檢測. 其中,DING 等[6]利用長短期記憶(long-short term memory,LSTM)RNN 網(wǎng)絡(luò)提取微表情特征,準(zhǔn)確度提升到89.87%;TAKALKAR 等[7]利用雙輸入網(wǎng)絡(luò)結(jié)構(gòu),加強(qiáng)了局部與整體的特征聯(lián)系,準(zhǔn)確度達(dá)到了94.2%. 可見,空間、時(shí)間維度信息有利于微表情檢測,且雙輸入網(wǎng)絡(luò)結(jié)構(gòu)能夠有效融合不同特征,但以上方法的檢測結(jié)果中存在微表情冗余信息,增加了后續(xù)任務(wù)的計(jì)算成本. 為克服上述方法缺陷,微表情檢測逐漸由檢測整個(gè)微表情序列轉(zhuǎn)變?yōu)闄z測富含微表情的一幀(微表情頂點(diǎn)幀). ESMAEILI 等[8]利用改進(jìn)的LBP 特征,根據(jù)起始幀與結(jié)束幀檢測出頂點(diǎn)幀, 均方誤差(mean absolute error,MAE)指標(biāo)達(dá)到了1.76;TRAN 等[9]與ZHANG 等[10]分別利用LSTM、卷積神經(jīng)網(wǎng)絡(luò) (convolutional neural networks,CNN)增強(qiáng)了時(shí)間、時(shí)間維度的關(guān)聯(lián)信息,提高了微表情檢測準(zhǔn)確度,其中F1-score 指標(biāo)、ASR指標(biāo)分別達(dá)到了0.77、0.828;這些方法證實(shí)了增強(qiáng)時(shí)間、空間特征的有效性,但不同維度的特征融合程度較低. 在行為識別研究領(lǐng)域中,DONAHUE[11]與SUN等[12]分別提出了CNN 與LSTM 融合結(jié)構(gòu)、光流與圖像雙輸入結(jié)構(gòu),均實(shí)現(xiàn)了時(shí)空特征的提取,也再次驗(yàn)證了雙輸入結(jié)構(gòu)在特征融合方面的有效性. 且特征提取網(wǎng)絡(luò)也出現(xiàn)了很多有效的網(wǎng)絡(luò)結(jié)構(gòu),如:ResNet,DenseNet,SENet,Residual Attention Networks 等,更利于高水平的空間特征提取.

      針對上述問題,本文將光流雙輸入網(wǎng)絡(luò)提取時(shí)空特征應(yīng)用于微表情頂點(diǎn)幀檢測中,結(jié)合特征分類思想,對含時(shí)空信息的光流進(jìn)行處理,進(jìn)行微表情頂點(diǎn)幀的檢測.

      1 理論分析

      DAVISON 等[5]使用光流代替圖像作為輸入,提取出時(shí)空特征;SUN 等[12]利用光流實(shí)現(xiàn)時(shí)間、空間維度的信息融合,并實(shí)驗(yàn)證實(shí)了特征融合放在特征提取之后的合理性. 以上方法揭示了,光流蘊(yùn)含著豐富的時(shí)空信息,其中,全變分 (total variation,TV)-L1光流[13]具有噪聲魯棒性,且保留光流的流動不連續(xù)性,適用于微表情檢測. ZHANG 等[10]將視頻每一幀分成兩類,使用CNN 提取空間特征,并在視頻中一定存在微表情的前提下,使用每一幀的“特征距離”實(shí)現(xiàn)檢測. XIA 等[14]使用ResNet18 提取圖像空間特征,實(shí)現(xiàn)微表情識別,揭示了CNN 提取空間特征的有效性,也證實(shí)了ResNet18 具有足夠的深度,能夠?qū)崿F(xiàn)微表情特征的提取.

      本文使用TV-L1 光流作為輸入,將視頻的每一幀分成三類:非微表情序列幀、微表情序列幀(不包含頂點(diǎn)幀)以及微表情頂點(diǎn)幀,便于特征提取網(wǎng)絡(luò)的學(xué)習(xí)與后處理;使用具有殘差結(jié)構(gòu)的ResNet18 作為特征提取網(wǎng)絡(luò),使得蘊(yùn)含豐富時(shí)空信息的光流特征能夠被充分提?。粸榱吮苊鈫畏较蚬饬鬏斎霂淼男畔⑷笔б约皢屋斎刖W(wǎng)絡(luò)結(jié)構(gòu)無法針對性提取不同方向的光流特征,設(shè)計(jì)了雙輸入網(wǎng)絡(luò)結(jié)構(gòu),利用2 個(gè)殘差網(wǎng)絡(luò)分別提取x、y方向的光流特征,并在分類前進(jìn)行特征融合,從而構(gòu)成具有可判別性、強(qiáng)魯棒性的高階特征;雙輸入網(wǎng)絡(luò)結(jié)構(gòu)使2 個(gè)殘差網(wǎng)絡(luò)“各司其職”,更有針對性地學(xué)習(xí)、提取相應(yīng)方向光流的高階特征. 由于使用光流信息作為輸入、雙輸入網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行特征提取與融合,所構(gòu)成的特征具有豐富的時(shí)空信息. 在實(shí)際檢測時(shí),不存在視頻中一定含有微表情這一前提,故利用全連接層實(shí)現(xiàn)每一幀的分類,使檢測方法擺脫視頻中必須存在微表情的前提約束,但也使得檢測結(jié)果中誤檢數(shù)量的增多,降低了檢測準(zhǔn)確度. 為此,提出了具有取舍規(guī)則的后處理模塊,對分類結(jié)果進(jìn)一步處理;該模塊利用先驗(yàn)知識(微表情頂點(diǎn)幀周圍應(yīng)為微表情序列幀,以及兩幀頂點(diǎn)幀之間的時(shí)間距離應(yīng)在500 ms 以內(nèi))設(shè)計(jì)分類規(guī)則,對分類結(jié)果進(jìn)行取舍,一定程度上也增強(qiáng)了分類結(jié)果在時(shí)間維度上的關(guān)聯(lián),提高分類準(zhǔn)確度;由于該模塊是直接對分類結(jié)果進(jìn)行處理,相比于對特征進(jìn)行處理而言,該模塊并不會使用太多的計(jì)算資源.

      2 方 法

      提出的微表情關(guān)鍵幀的檢測方法如圖1 所示.

      圖1 總體流程框圖Fig. 1 Overall flow block diagram

      2.1 視頻預(yù)處理

      采用“滑窗處理”的方法,將一段長視頻切割成多個(gè)的視頻片段;并用R來代表著一個(gè)長視頻

      式中:ri為第i個(gè)視頻片段;fi,j為第i個(gè)視頻片段中第j幀圖像;li為第i個(gè)視頻片段的總幀數(shù).

      提取視頻片段中的人臉、人眼位置信息. 使用dlib 庫標(biāo)出視頻片段中的第一幀的人臉位置及特征點(diǎn)P(f1),計(jì)算出人眼的位置特征點(diǎn)Pl(f1)、Pr(f1)

      式中P(f1)k為68 個(gè)特征點(diǎn)P(f1)中編號為k的點(diǎn).

      利用雙眼特征點(diǎn)連線水平的原則,計(jì)算出變換矩陣T;利用變換矩陣T,對視頻中的每一幀做仿射變換,實(shí)現(xiàn)人臉對齊

      根據(jù)雙眼特征點(diǎn)連線的中心點(diǎn)位于圖像中間的原則,切割圖像. 以視頻的第一幀為參考幀,計(jì)算出每一幀的光流信息,作為后續(xù)卷積網(wǎng)絡(luò)的雙輸入,實(shí)現(xiàn)后續(xù)的特征提取與分類. 光流信息表示如式(5)所示

      式中:X為圖像的寬度;Y為圖像的高度;u(x,y),v(x,y)分別為對應(yīng)像素點(diǎn)(x,y)的水平與垂直方向的光流.

      總體的預(yù)處理框圖如圖2 所示. 經(jīng)過預(yù)處理后,可獲得每一幀人臉區(qū)域的光流信息.

      圖2 視頻預(yù)處理框圖Fig. 2 Video preprocessing block diagram

      2.2 光流雙輸入網(wǎng)絡(luò)分類

      光流雙輸入網(wǎng)絡(luò)的總體框架如圖3 所示.

      圖3 光流雙輸入網(wǎng)絡(luò)總體框架Fig. 3 Overall framework of optical-flow-dual-input network

      采用殘差網(wǎng)絡(luò)ResNet18 作為光流雙輸入網(wǎng)絡(luò)的主體架構(gòu),保證了網(wǎng)絡(luò)具有足夠的深度,也避免了網(wǎng)絡(luò)太深,數(shù)據(jù)集數(shù)據(jù)較少帶來的過擬合現(xiàn)象;同時(shí),在ResNet18 原有的基礎(chǔ)上增加一層卷積層,以適應(yīng)網(wǎng)絡(luò)的光流輸入與網(wǎng)絡(luò)的遷移學(xué)習(xí). 使用雙輸入網(wǎng)絡(luò)結(jié)構(gòu),將不同方向的光流信息分開提取特征,最后將特征向量進(jìn)行Concat 拼接操作,構(gòu)成具有可判別性、強(qiáng)魯棒性的特征向量,使用Softmax 實(shí)現(xiàn)特征分類.

      2.3 分類后處理

      利用A(ri)、M(ri)表示雙輸入卷積神經(jīng)網(wǎng)絡(luò)的預(yù)判頂點(diǎn)幀、序列幀判斷結(jié)果

      根據(jù)先驗(yàn)知識一:頂點(diǎn)幀附近為微表情序列幀.以頂點(diǎn)幀為中心,(2w+1)為窗口寬度,計(jì)算該頂點(diǎn)幀fi所在窗口的期望得分S(fi)

      式中S(fj)為視頻每一幀的標(biāo)簽值,根據(jù)每一頂點(diǎn)幀的期望得分,使用閾值進(jìn)行篩選,獲得頂點(diǎn)幀集AS(ri). 其中,閾值t計(jì)算如式(10)所示

      根據(jù)先驗(yàn)知識二:微表情持續(xù)時(shí)間不超過500 ms.若兩個(gè)頂點(diǎn)幀的間隔低于500 ms,則認(rèn)為這兩個(gè)頂點(diǎn)幀中,至少存在一幀不為頂點(diǎn)幀. 利用d(fi+1,fi)表示第i個(gè)頂點(diǎn)幀與第i+1個(gè)頂點(diǎn)幀之間的距離. 若d(fi+1,fi)大于500 ms 時(shí),則fi,fi+1均為頂點(diǎn)幀;若d(fi+1,fi)小于500 ms 時(shí),則認(rèn)為fi為頂點(diǎn)幀,fi+1不為頂點(diǎn)幀,由此獲得最終的頂點(diǎn)幀集合AO(ri).

      整個(gè)分類后處理模塊的處理過程如圖4 所示.

      圖4 后處理模塊處理過程示意圖Fig. 4 Processing process diagram of post processing module

      3 實(shí) 驗(yàn)

      使用CASMEⅡ數(shù)據(jù)集[15]對所提出的檢測方法進(jìn)行實(shí)驗(yàn),并采用“留一人交叉驗(yàn)證”(leave one subject out)對檢測效果進(jìn)行評估.

      3.1 數(shù)據(jù)集

      CASMEⅡ數(shù)據(jù)集是包含了26 位受試者,共255個(gè)含有微表情的視頻. 該數(shù)據(jù)集在實(shí)驗(yàn)室的環(huán)境下,使用了200 幀/s、分辨率為640×480 的高速攝像機(jī)進(jìn)行采集,提供了相應(yīng)的頂點(diǎn)幀標(biāo)簽,平均視頻幀數(shù)為251.82 幀.

      3.2 實(shí)驗(yàn)細(xì)節(jié)

      環(huán)境:整個(gè)實(shí)驗(yàn)使用Pytorch1.4.0 作為深度學(xué)習(xí)框架,并利用dlib 庫、opencv 庫完成訓(xùn)練前的視頻預(yù)處理. 實(shí)驗(yàn)平臺為配置了CUDA10.1 以及CuDNN9.0的筆記本電腦,GPU 為RTX2080,顯存為8 G.

      參數(shù)設(shè)置:考慮到數(shù)據(jù)集的平均幀數(shù),直接使用數(shù)據(jù)集中的完整視頻進(jìn)行實(shí)驗(yàn). 由于,無關(guān)幀數(shù)量過大,容易導(dǎo)致模型專注于該類,而忽略了其他類. 為此,使用Focal Loss 作為損失函數(shù),F(xiàn)ocal Loss 的計(jì)算公式如式(12)所示

      式中: γ取默認(rèn)值2; α則依據(jù)訓(xùn)練集中的所有視頻幀的不同標(biāo)簽數(shù)量比值,設(shè)置相應(yīng)的權(quán)重值;c為對應(yīng)的類別標(biāo)簽.

      優(yōu)化器使用Adam 優(yōu)化器,初始學(xué)習(xí)率為0.000 1.使用“留一人交叉驗(yàn)證”方法驗(yàn)證,即用一位受試者的視頻做測試,其他的視頻做訓(xùn)練. 使用人臉表情數(shù)據(jù)集CK+對網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,一定程度上解決數(shù)據(jù)偏少的問題.

      評估指標(biāo):為了便于比較,使用多種評價(jià)指標(biāo).

      ①平均絕對誤差(mean absolute error,MAE).

      式中:M為檢測到的微表情數(shù)量;ej為頂點(diǎn)幀與檢測結(jié)果的距離誤差.

      ②頂點(diǎn)幀標(biāo)識率(apex spotting rate,ASR).

      式中:f′為檢測出的頂點(diǎn)幀;fs與fe分別為微表情序列的起始幀與結(jié)束幀. 當(dāng)f′含有微表情時(shí),則認(rèn)為檢測是正確的.

      ③準(zhǔn)確度(P)、召回率(R)、F1分?jǐn)?shù)(F1-score).

      若檢測方法在一個(gè)視頻中,未檢測出頂點(diǎn)幀,則可看作一個(gè)假負(fù)(false-negative,F(xiàn)N);若檢測方法在一個(gè)視頻中,檢測出頂點(diǎn)幀,且該幀在微表情序列內(nèi),則將其算作一個(gè)真正(true-positive,TP);若該幀不在微表情序列內(nèi)則將其算作一個(gè)假正(false-positive,F(xiàn)P). 根據(jù)分類結(jié)果進(jìn)行準(zhǔn)確度、召回率等指標(biāo)的計(jì)算可以實(shí)現(xiàn)對檢測方法的評估,其中F1-score 兼顧了模型分類結(jié)果的準(zhǔn)確度和召回率

      3.3 實(shí)驗(yàn)結(jié)果與分析

      ①實(shí)驗(yàn)結(jié)果.

      該檢測方法的實(shí)驗(yàn)結(jié)果如圖5 所示.

      圖5 實(shí)驗(yàn)結(jié)果圖Fig. 5 Experimental results

      圖5F1-score 均在0.80 以上. 平均準(zhǔn)確度為94.5%,平均召回率為 91.0%, 平均F1-score 為 0.925.

      ②有效性證明.

      為了證實(shí)提取并融合x,y分別采用不同結(jié)構(gòu)網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)對比. 實(shí)驗(yàn)結(jié)果如表1、表2 所示.

      表1 網(wǎng)絡(luò)結(jié)構(gòu)檢測對比結(jié)果Tab. 1 Evaluation of network structure

      表2 后處理方法檢測對比結(jié)果Tab. 2 Evaluation of post-processing

      表1、表2 中,檢測結(jié)果數(shù)量表示平均一個(gè)視頻樣本中,檢測出的結(jié)果數(shù)量. 在表1 中,單輸入結(jié)構(gòu)方法將光流信息通過一個(gè)ResNet 實(shí)現(xiàn)檢測,平均在一個(gè)視頻樣本中,檢測出了100.32 幀;一段視頻中真實(shí)頂點(diǎn)幀只有1 幀,單輸入結(jié)構(gòu)方法造成了大量的誤檢;雙輸入結(jié)構(gòu)方法則根據(jù)2 個(gè)ResNet 提取出的不同方向的特征,融合構(gòu)成具有魯棒性的特征實(shí)現(xiàn)檢測,一定程度上減少誤檢、漏檢,但仍存在誤檢的情況. 由表2 可知,增加后處理模塊減少了誤檢的情況,可有效地保留正確的檢測結(jié)果.

      ③方法對比.

      利用相應(yīng)評價(jià)指標(biāo)與已有的檢測方法進(jìn)行比較.實(shí)驗(yàn)結(jié)果對比如表3、表4 所示.

      表3 MAE、ASR 指標(biāo)評估Tab. 3 MAE and ASR evaluation

      表4 F1-score 指標(biāo)評估Tab. 4 F1-score evaluation

      表3 給出了在數(shù)據(jù)集CASMEⅡ中,與其他已知方法比較的結(jié)果. 由于本文并沒有使用“每個(gè)視頻均有一個(gè)微表情”作為前提,故產(chǎn)生較多重復(fù)的TP;在通過后處理模塊,對這些TP 進(jìn)行合并、篩選的過程中,一定程度上造成了MAE 的增大. 但相應(yīng)地,本文直接使用分類結(jié)果進(jìn)行計(jì)算,計(jì)算成本更低. 且在ASR 指標(biāo)上,明顯高于單純的CNN 特征提取分類方法與傳統(tǒng)方法.

      表4 給出了在F1-score 指標(biāo)上,與其他方法的對比結(jié)果. 本文所提出方法的F1-score 達(dá)到了0.925,高于傳統(tǒng)特征檢測方法與使用LSTM 處理的方法;MesNet 方法并沒有檢測頂點(diǎn)幀,而是將所有幀進(jìn)行分類,一定程度上降低了分類的難度,與本文的方法相比,F(xiàn)1-score 指標(biāo)略高.

      4 結(jié) 論

      本文提出了一種光流雙輸入網(wǎng)絡(luò)提取時(shí)空特征并分類、取舍的檢測方法;利用雙輸入結(jié)構(gòu)網(wǎng)絡(luò)、先驗(yàn)知識對光流進(jìn)行特征提取分類與取舍,擺脫被檢測視頻必須含有微表情的約束,實(shí)現(xiàn)微表情頂點(diǎn)幀的檢測. 在Pytorch 框架及顯卡為RTX2080 的實(shí)驗(yàn)環(huán)境下利用CASMEⅡ數(shù)據(jù)集、“留一人交叉驗(yàn)證”方法進(jìn)行實(shí)驗(yàn),驗(yàn)證了雙輸入網(wǎng)絡(luò)結(jié)構(gòu)與后處理模塊的有效性,并與其他已知方法在F1-score、ASR、MAE指標(biāo)上進(jìn)行結(jié)果對比;其中,所提出的方法在ASR指標(biāo)上達(dá)到了0.945,在F1-score 指標(biāo)上達(dá)到了0.925.

      猜你喜歡
      光流頂點(diǎn)分類
      利用掩膜和單應(yīng)矩陣提高LK光流追蹤效果
      過非等腰銳角三角形頂點(diǎn)和垂心的圓的性質(zhì)及應(yīng)用(下)
      分類算一算
      分類討論求坐標(biāo)
      關(guān)于頂點(diǎn)染色的一個(gè)猜想
      基于物理學(xué)的改善粒子圖像測速穩(wěn)健光流方法研究
      數(shù)據(jù)分析中的分類討論
      教你一招:數(shù)的分類
      融合光流速度場與背景差分的自適應(yīng)背景更新方法
      利用PSO估算Lucas-Kanade光流模型的參數(shù)
      芦山县| 金门县| 屏东县| 调兵山市| 临夏市| 磴口县| 齐河县| 双桥区| 奎屯市| 拜泉县| 莱芜市| 盐山县| 铁力市| 余江县| 阳东县| 鄂托克旗| 稻城县| 瓦房店市| 罗平县| 扶余县| 黄冈市| 广饶县| 五河县| 乌鲁木齐市| 安化县| 吉安县| 沁水县| 乌审旗| 永春县| 虎林市| 蓬莱市| 桑日县| 岐山县| 九江县| 崇仁县| 忻州市| 嘉鱼县| 宁蒗| 时尚| 新巴尔虎左旗| 扶风县|