• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于人臉表情識別的駕駛狀態(tài)分析

      2024-05-03 05:41:46鑫,許
      信息記錄材料 2024年3期
      關(guān)鍵詞:集上人臉駕駛員

      黨 鑫,許 華

      (1 天津工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 天津 300387)

      (2 天津工業(yè)大學(xué)軟件學(xué)院 天津 300387)

      0 引言

      隨著我國經(jīng)濟(jì)的不斷發(fā)展,人們對于出行質(zhì)量的要求也越來越高,而越來越多的居民選擇機(jī)動(dòng)車出行。根據(jù)國家統(tǒng)計(jì)局的中國統(tǒng)計(jì)年鑒數(shù)據(jù)顯示[1],在2020 年,全國總共發(fā)生了244 674 次交通事故,由交通事故造成的直接財(cái)產(chǎn)損失高達(dá)131 360.6 萬元。究其原因,主要是因?yàn)轳{駛本身是一項(xiàng)極具壓力的活動(dòng),在復(fù)雜的路況中,駕駛員需要快速、同步完成多項(xiàng)決策任務(wù)。因此每位駕駛員應(yīng)當(dāng)時(shí)刻保持良好的生理和心理狀態(tài),然而隨著私家車普及,駕駛員因疾病、衰老或心理等問題導(dǎo)致情緒狀態(tài)變化,此時(shí)發(fā)生不當(dāng)駕駛行為的概率將會大大增加,盡管輔助駕駛技術(shù)在發(fā)展,但仍無法把控駕駛?cè)藸顟B(tài)這一最重要的因素,所以在交通安全技術(shù)研究中,對駕駛員的駕駛狀態(tài)進(jìn)行分析具有較高的研究價(jià)值和實(shí)用意義,不但會減少交通給人們帶來的生命和財(cái)產(chǎn)的威脅,還能降低交通事故的發(fā)生率,保證道路及公共交通的安全和穩(wěn)定運(yùn)行。

      1 研究現(xiàn)狀

      近年來基于人臉識別情緒進(jìn)行駕駛員狀態(tài)分析逐漸成為一個(gè)研究熱點(diǎn)。在駕駛過程中,駕駛員的情緒與駕駛狀態(tài)高度相關(guān):當(dāng)表現(xiàn)出高興的情緒時(shí),駕駛員將與外部環(huán)境進(jìn)行良好的正向反應(yīng);當(dāng)表現(xiàn)出驚訝、害怕、生氣、厭惡情緒時(shí),駕駛員將對外部刺激產(chǎn)生過激的可能性,需進(jìn)行及時(shí)的提醒與記錄;當(dāng)表現(xiàn)出悲傷狀態(tài)時(shí),駕駛員將減少與外部環(huán)境交互,可能對駕駛產(chǎn)生一定影響,需要進(jìn)行安全駕駛提醒;此外,當(dāng)駕駛員長期處于無表情等中性狀態(tài)時(shí),則表明其陷入一定程度的疲勞狀態(tài),可對駕駛員進(jìn)行相應(yīng)提示。這些狀態(tài)對應(yīng)關(guān)系,使基于AI 算法的駕駛員狀態(tài)分析成為可能。

      然而,在駕駛位這類特定場景下的人臉表情識別技術(shù)實(shí)際上依然面臨諸多挑戰(zhàn)[2],特征提取需最大程度消除抖動(dòng)、光照等干擾信息;分類器不但需要考慮不同類別表情間特征變化不明顯等影響,還需考慮對攝像角度、人臉差異等因素的泛化能力。此外,由于車載算法的低負(fù)載和實(shí)時(shí)計(jì)算需求,算法需盡可能縮小網(wǎng)絡(luò)規(guī)模,減少分類所需的時(shí)間[3-4]。

      為了解決上述挑戰(zhàn),需要在準(zhǔn)確率、輕量化上達(dá)到一個(gè)更好的平衡狀態(tài),本文將使用引入注意力機(jī)制改進(jìn)后的YOLOv5 作為人臉定位器,YOLOv5 對輸入圖片進(jìn)行人臉定位和裁剪工作,然后將定位裁剪后的圖片輸入到ConvNeXt的卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行分類工作,從而分類出不同的駕駛員表情[5]。本模型增強(qiáng)了對人像臉部特征的感知能力,實(shí)現(xiàn)通過駕駛員表情識別判斷分析駕駛員狀態(tài)的目的。

      2 駕駛員人臉表情識別算法

      2.1 改進(jìn)后的YOLOv5 網(wǎng)絡(luò)模型

      基于YOLOv5 深度學(xué)習(xí)的目標(biāo)檢測算法包含YOLOv5s、YOLOv5m、YOLOv5l 和YOLOv5x 4 個(gè)版本[6],其中YOLOv5s 權(quán)重最小。綜合考慮模型的權(quán)重文件大小、識別精度和檢測速度,選擇檢測速度最快、識別精度相對較高的YOLOv5s 展開研究。YOLOv5s 網(wǎng)絡(luò)主要包含3 個(gè)部分,即骨干網(wǎng)絡(luò)(Backbone)、特征檢測模塊層(Neck)和回歸預(yù)測部分(Head),網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。

      圖1 YOLOv5s 網(wǎng)絡(luò)結(jié)構(gòu)

      本文模型首先在輸入端采用了Mosaic 數(shù)據(jù)增強(qiáng),Mosaic 數(shù)據(jù)增強(qiáng)由原來的兩張圖像提高到四張圖像進(jìn)行拼接,并對圖像進(jìn)行隨機(jī)縮放、隨機(jī)裁剪和隨機(jī)排列。使用數(shù)據(jù)增強(qiáng)可以改善數(shù)據(jù)集中小、中、大目標(biāo)數(shù)據(jù)不均衡的問題。從而實(shí)現(xiàn)豐富數(shù)據(jù)集、提高網(wǎng)絡(luò)的魯棒性的目的,同時(shí)通過對識別物體的裁剪,使模型根據(jù)局部特征識別物體,有助于被遮擋物體的檢測,從而提升了模型的檢測能力。

      首先,算法基于骨干網(wǎng)絡(luò)對輸入的圖片進(jìn)行特征提取。骨干網(wǎng)絡(luò)中的SPPF(spatial pyramid pooling-fast)使用3 個(gè)5×5 的最大池化,代替原來的5×5、9×9、13×13 最大池化,多個(gè)小尺寸池化核級聯(lián)代替SPP 模塊中單個(gè)大尺寸池化核,從而在保留原有功能,即融合不同感受野的特征圖,豐富特征圖的表達(dá)能力的情況下,進(jìn)一步提高了運(yùn)行速度。隨后,提取到的特征將被輸入到特征檢測層Neck 模塊[7],PANet 結(jié)構(gòu)在FPN 的基礎(chǔ)上又引入了一個(gè)自底向上(Bottom-up)的路徑。經(jīng)過自頂向下(Top-down)的特征融合后,再進(jìn)行自底向上(Bottom-up)的特征融合,將輸出三組不同分辨率的融合特征。最后,三組融合特征被輸送到Head 部分中進(jìn)行卷積輸出最終的檢測結(jié)果,從而實(shí)現(xiàn)人臉區(qū)域的定位檢測。

      2.2 注意力機(jī)制

      為了增強(qiáng)人臉圖像特征提取,在減少網(wǎng)絡(luò)權(quán)重參數(shù)數(shù)量和模型體積的前提下,保證檢測精度,實(shí)現(xiàn)改進(jìn)的人臉定位檢測模型。在原特征提取網(wǎng)絡(luò)的Bottleneck 結(jié)構(gòu)后引入卷積注意力機(jī)制(convolutional block attention module,CBAM)模塊,CBAM[8]是輕量級的卷積注意力模塊,它結(jié)合了通道注意力模塊(channel attention module, CAM)和空間的注意力模塊(spatial attention module, SAM)。

      2.2.1 CAM 模塊

      該模塊關(guān)注輸入圖片中有意義的信息(分類任務(wù)就關(guān)注因?yàn)槭裁捶殖闪瞬煌悇e)。分別進(jìn)行通道和空間上的Attention,其通道維度不變,壓縮空間維度。通道注意力公式如式(1)所示:

      2.2.2 SAM 模塊

      該模塊關(guān)注的是目標(biāo)的位置信息,空間維度不變,壓縮通道維度。將通道注意力模塊的輸出結(jié)果通過最大池化和平均池化得到兩個(gè)1×H×W 的特征圖,然后經(jīng)過Concat 操作對兩個(gè)特征圖進(jìn)行拼接,通過7×7 卷積變?yōu)?通道的特征圖(實(shí)驗(yàn)證明7×7 效果比3×3 好),再經(jīng)過一個(gè)sigmoid 得到空間注意力(spatial attention)的特征圖,最后將輸出結(jié)果乘原圖變回C×H×W 大小。

      空間注意力公式如式(2)所示:

      包含空間注意力和通道注意力算法,不僅能夠更好地提取人臉的特征信息,提高模型表征能力,而且節(jié)約參數(shù)和計(jì)算力,同時(shí)新增參數(shù)的計(jì)算量對模型復(fù)雜度不會造成太大的影響。

      2.3 基于ConvNeXt 的情緒分類

      為了實(shí)現(xiàn)相對輕量化的計(jì)算,并且可以將模型在移動(dòng)端上實(shí)現(xiàn)部署,就要求網(wǎng)絡(luò)結(jié)構(gòu)的算法計(jì)算效率要更高,模型參數(shù)少。因此本文采用ConvNeXt 構(gòu)造了情緒分類模型。ConvNeXt 是來自KAIST、Meta、紐約大學(xué)的研究者Liu[9]等提出的卷積神經(jīng)網(wǎng)絡(luò)模型。這個(gè)模型以ResNet[10]為基礎(chǔ), 引用 Vision Transformer[11]、 Swin Transformer[12]、ResNeXt[13]等神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)思路,通過改變階段計(jì)算模塊數(shù)量、簡化網(wǎng)絡(luò)輸入層、使用深度可分離卷積、采用倒置Bottleneck 模塊結(jié)構(gòu)和大卷積核結(jié)構(gòu)實(shí)現(xiàn)計(jì)算量的減少和準(zhǔn)確率的提升。

      ConvNeXt 改變了傳統(tǒng)的ResNeXt 的結(jié)構(gòu)設(shè)計(jì)比例,將stage1 到stage4 堆疊block 的次數(shù)由(3,4,6,3)調(diào)整成(3,3,9,3),在保證精度的同時(shí)最大程度減少了所需要的參數(shù)量。并且block 更改下采樣模塊為一個(gè)卷積核大小為4×4以及stride 為4 的卷積層構(gòu)成patchify,最大化通道維度的信息。同時(shí)還使用了深度分離卷積(depthwise convolution),只是對空間維度進(jìn)行混合,將通道數(shù)從64 提升到96,實(shí)現(xiàn)深度可分離卷積,實(shí)現(xiàn)有效減少計(jì)算量的目的。

      ConvNeXt 將depthwise conv 模塊上移,原來是1×1 conv →depthwise conv →1×1 conv 現(xiàn)在變成depthwise conv→1×1 conv→1x1 conv,還將depthwise conv 的卷積核大小由3×3 改成了7×7,然后聚焦到一些更細(xì)小的差異,比如激活函數(shù)以及Normalization。將激活函數(shù)ReLU 替換成 GELU, 使用更少的激活函數(shù), 使用更少的Normalization,將BN 替換成LN,采用2×2,stride=2 卷積進(jìn)行下采樣。通過一系列對模型細(xì)節(jié)的調(diào)整,ConvNeXt 在相同F(xiàn)LOPs 下準(zhǔn)確率已經(jīng)超過了Swin Transformer。

      為了提高模型識別效率和準(zhǔn)確率,本文將使用引入注意力機(jī)制改進(jìn)后的YOLOv5 作為人臉定位器,將定位裁剪后的圖片輸入到ConvNeXt 的卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行分類的駕駛員狀態(tài)分析。本文提出的總體模型如圖2 所示。

      圖2 駕駛員狀態(tài)分析模型結(jié)構(gòu)圖

      3 實(shí)驗(yàn)與分析

      3.1 實(shí)驗(yàn)數(shù)據(jù)集

      為了評估本文提出的算法,本節(jié)將在兩個(gè)公開的面部表情數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),這兩個(gè)數(shù)據(jù)集分別是FER2013人臉表情數(shù)據(jù)集與KMU-FED 數(shù)據(jù)集。

      FER2013(Facial Expression Recognition 2013)[14]數(shù)據(jù)集是用于面部表情識別的一個(gè)公開數(shù)據(jù)集。該數(shù)據(jù)集由私人公司Affectiva 創(chuàng)建,包含35 887 張灰度圖像,分為7個(gè)不同的表情類別:憤怒、厭惡、恐懼、開心、中性、悲傷和驚訝。每個(gè)圖像的尺寸為48×48 像素。圖3 是FER2013數(shù)據(jù)集樣例圖片。

      圖3 FER2013 數(shù)據(jù)集樣例圖片

      KMU-FED 數(shù)據(jù)集[15]用于實(shí)際駕駛環(huán)境中的表情識別。為了構(gòu)建數(shù)據(jù)集,我們使用近紅外相機(jī)在真實(shí)的車輛駕駛環(huán)境中捕獲了基準(zhǔn)數(shù)據(jù)集序列。KMU-FED 數(shù)據(jù)庫包含來自12 個(gè)對象的55 個(gè)圖像序列,包括各種照明變化(前、左、右和后光)和頭發(fā)或太陽鏡引起的部分遮擋。非常有效地模擬了駕駛環(huán)境中駕駛員的表情。圖4 是KMUFED 數(shù)據(jù)庫樣例圖片。

      圖4 KMU-FED 數(shù)據(jù)庫樣例圖片

      3.2 實(shí)驗(yàn)環(huán)境

      實(shí)驗(yàn)所需的相關(guān)環(huán)境如下:GPU 為NVIDIA Tesla T4,以Python3.8 編程語言環(huán)境、PyTorch 2.1.0 作為深度學(xué)習(xí)框架搭建模型,并使用CUDA11.3 進(jìn)行實(shí)驗(yàn)加速,訓(xùn)練過程中使用交叉熵?fù)p失函數(shù),并采用AdamW 優(yōu)化器優(yōu)化模型。

      3.3 實(shí)驗(yàn)結(jié)果及分析

      3.3.1 FER2013 數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果及分析

      將本文模型在FER2013 數(shù)據(jù)集上進(jìn)行訓(xùn)練和測試,在訓(xùn)練過程中載入預(yù)訓(xùn)練權(quán)重,批量大小為8,迭代次數(shù)為300 次,初始學(xué)習(xí)率為0.005,先采用warmup 的方法進(jìn)行學(xué)習(xí)率預(yù)熱,然后再采用余弦退火來更新學(xué)習(xí)率的方法。AdamW 優(yōu)化器即在Adam 基礎(chǔ)上加入了weight decay正則化。模型訓(xùn)練過程中將FER2013 數(shù)據(jù)集分為訓(xùn)練集(27 327 幅)進(jìn)行訓(xùn)練,在測試集(6 828 幅)上進(jìn)行測試。在訓(xùn)練數(shù)據(jù)集上進(jìn)行參數(shù)訓(xùn)練前,對樣本進(jìn)行隨機(jī)翻轉(zhuǎn)等預(yù)處理。本文模型在FER2013 數(shù)據(jù)集上的混淆矩陣如圖5 所示。

      圖5 Fer2013 數(shù)據(jù)集上的混淆矩陣

      由圖5 可知,ConvNeXt 模型對FER2013 數(shù)據(jù)集的7種類別達(dá)到了73.65%的總體識別準(zhǔn)確率。其中高興、厭惡、驚喜類別的識別率分別達(dá)到了90.21%、82.80%和79.34%,而憤怒、恐懼、傷心、中性類別的識別率稍低,分別為68.07%、61.88%、65.26%和68.53%,可能因?yàn)檫@4種表情特征的區(qū)分性稍差,此外,F(xiàn)ER2013 數(shù)據(jù)集中的錯(cuò)誤標(biāo)簽對模型的準(zhǔn)確率也有一定影響。

      3.3.2 KMU-FED 數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果及分析

      將本文模型在KMU-FED 數(shù)據(jù)集上進(jìn)行訓(xùn)練和測試,因?yàn)閿?shù)據(jù)集較小,迭代次數(shù)為80 次,其他訓(xùn)練參數(shù)與FER2013 數(shù)據(jù)集上一致。本實(shí)驗(yàn)將KMU-FED 數(shù)據(jù)集分為訓(xùn)練集(898 幅)和測試集(221 幅)。在訓(xùn)練數(shù)據(jù)集上進(jìn)行參數(shù)訓(xùn)練前,對樣本進(jìn)行隨機(jī)翻轉(zhuǎn)等預(yù)處理。本文模型在KMU-FED 數(shù)據(jù)集上的混淆矩陣如圖6 所示。

      圖6 KMU-FED 數(shù)據(jù)集上的混淆矩陣

      由圖6 可知,在KMU-FED 數(shù)據(jù)集上總體正確識別率達(dá)到了97.73%,并且對憤怒、恐懼、快樂、傷心和驚喜這5種表情的識別率達(dá)到了100%,但由于厭惡表情與憤怒表情某些特征相似,導(dǎo)致網(wǎng)絡(luò)模型對其識別率較低,僅有81.48%。證明本文模型在模擬真實(shí)駕駛員駕駛環(huán)境下,對駕駛員的人臉表情識別達(dá)到了一定的準(zhǔn)確率,但是在區(qū)分厭惡與憤怒這種更細(xì)膩的表情時(shí)還有進(jìn)步的空間,并且因?yàn)閿?shù)據(jù)集較小的情況存在,所以在區(qū)分細(xì)膩差別時(shí),模型還有調(diào)整進(jìn)步的空間。

      3.4 消融實(shí)驗(yàn)

      為了驗(yàn)證本文所提出方法的有效性,為證明改進(jìn)算法的有效性和合理性,在ConvNeXt 的基礎(chǔ)上依次加入YOLOv5 、CBAM-YOLOv5 改進(jìn)策略,在兩個(gè)數(shù)據(jù)集上分別對每個(gè)模型進(jìn)行訓(xùn)練及測試。然后記錄準(zhǔn)確率。結(jié)果見表1。可以看出,本文模型在ConvNeXt 模型基礎(chǔ)上針對駕駛員人臉表情識別的場景相較基礎(chǔ)模型有所提高。由于FER2013 數(shù)據(jù)集本身圖像就很小,采用YOLOv5 對數(shù)據(jù)集圖像進(jìn)行人臉識別定位的精度提升不明顯,但是在KMUFED 數(shù)據(jù)集上,因?yàn)椴杉瘓D像較大,對臉部進(jìn)行定位裁剪后的方式對準(zhǔn)確率有一個(gè)相對更加明顯的提升,并且添加了注意力機(jī)制后可以幫助整個(gè)網(wǎng)絡(luò)更加專注于表情分類的效果從而對準(zhǔn)確率也有一定的提升。

      表1 消融對比實(shí)驗(yàn)

      4 結(jié)語

      本文使用引入注意力機(jī)制改進(jìn)后的YOLOv5 作為人臉定位器,將定位裁剪后的圖片輸入到ConvNeXt 的卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行分類的駕駛員狀態(tài)分析模型。其中YOLOv5 引入了卷積注意力機(jī)制,增強(qiáng)了網(wǎng)絡(luò)對復(fù)雜背景中目標(biāo)區(qū)域的感知能力,處理后的圖片實(shí)現(xiàn)了減少網(wǎng)絡(luò)參數(shù)量和計(jì)算復(fù)雜度的目標(biāo),ConvNeXt 的卷積神經(jīng)網(wǎng)絡(luò)改進(jìn)了模型性能,提高了模型特征提取能力,提高了模型預(yù)測的準(zhǔn)確率。在FER2013 數(shù)據(jù)集上可達(dá)到73.65%的準(zhǔn)確率,在KMU-FED 數(shù)據(jù)集上準(zhǔn)確率達(dá)到了97.73%,展現(xiàn)了本文模型具有較好的識別效果,能夠很好地完成在模擬駕駛員真實(shí)環(huán)境場景下的人臉表情識別,從而可以對駕駛員的駕駛狀態(tài)實(shí)現(xiàn)更好的輔助分析工作。

      猜你喜歡
      集上人臉駕駛員
      基于高速公路的駕駛員換道意圖識別
      駕駛員安全帶識別方法綜述
      有特點(diǎn)的人臉
      Cookie-Cutter集上的Gibbs測度
      鏈完備偏序集上廣義向量均衡問題解映射的保序性
      三國漫——人臉解鎖
      復(fù)扇形指標(biāo)集上的分布混沌
      起步前環(huán)顧四周是車輛駕駛員的義務(wù)
      公民與法治(2016年4期)2016-05-17 04:09:26
      馬面部與人臉相似度驚人
      長得象人臉的十種動(dòng)物
      奇聞怪事(2014年5期)2014-05-13 21:43:01
      大足县| 鄱阳县| 和硕县| 根河市| 乾安县| 永修县| 南岸区| 牡丹江市| 沂源县| 西华县| 河池市| 泽州县| 深州市| 乌拉特中旗| 桃江县| 山西省| 万全县| 河曲县| 武乡县| 都江堰市| 琼海市| 华池县| 宜君县| 遵化市| 华宁县| 稻城县| 通渭县| 锡林浩特市| 孟村| 纳雍县| 仙桃市| 衡阳县| 黔江区| 济南市| 航空| 中山市| 化州市| 玉山县| 樟树市| 岐山县| 禄丰县|