基于CNN和多尺度融合的駕駛員打電話行為檢測

2022-03-16 03:36:42許婷婷傅俊瓊

計(jì)算機(jī)技術(shù)與發(fā)展 2022年2期

許婷婷，傅俊瓊，羅昆

(1.東華理工大學(xué) 信息工程學(xué)院，江西南昌 330013；2.東華理工大學(xué) 江西省核地學(xué)數(shù)據(jù)科學(xué)與系統(tǒng)工程技術(shù)研究中心，江西南昌 330013；3.南昌市公安局交通管理局，江西南昌 330013)

0 引言

近年來，隨著智能信息化社會的發(fā)展，人們對手機(jī)的依賴性越來越強(qiáng)，智能手機(jī)也日漸成為人們的信息處理中心，隨之而來的是駕駛員在行車過程中使用手機(jī)違規(guī)接聽電話造成的交通事故率逐年上升，成為名副其實(shí)的“馬路隱形殺手”。因此，實(shí)時(shí)檢測駕駛員的違規(guī)接聽電話行為在交通安全方面具有現(xiàn)實(shí)的研究價(jià)值。

目前，眾多研究機(jī)構(gòu)和學(xué)者也對這一課題進(jìn)行了深入研究。例如，魏民國提出了通過提取F-B Error信息來獲取人臉的特征點(diǎn)，確定人臉大致區(qū)域以檢測手機(jī)，并判斷駕駛員是否在打電話；王丹將駕駛員打電話行為分解為一系列滿足一定時(shí)序關(guān)系的子動作，通過統(tǒng)計(jì)分析的方法在駕駛員的視頻中檢測打電話行為；王盡如提出了一種基于半監(jiān)督支持向量機(jī)的駕駛員打電話行為檢測方法，采用傳統(tǒng)機(jī)器學(xué)習(xí)方法進(jìn)行目標(biāo)圖像分類，從而檢測出打電話行為。然而這些方案過于理想，沒有充分考慮到現(xiàn)實(shí)環(huán)境的復(fù)雜性，考量的指標(biāo)和評判流程過于單一，且難以提取圖像的深層特征，使得檢測結(jié)果極易受外界因素干擾，從而造成誤判。

為此，該文從駕駛員的行為姿勢、檢測區(qū)域、違規(guī)接聽電話評判指標(biāo)等幾個(gè)層面綜合考慮，調(diào)整并優(yōu)化了檢測流程。結(jié)合CNN、ROI、YOLOv3等技術(shù)，將目標(biāo)檢測物體數(shù)學(xué)上的空間關(guān)系納入檢測系統(tǒng)，環(huán)環(huán)相扣，構(gòu)建了一個(gè)更加科學(xué)全面的違規(guī)接聽電話行為檢測體系。

1 模型構(gòu)建與數(shù)據(jù)預(yù)處理

1.1 構(gòu)建檢測模型

1.1.1 模型架構(gòu)

通過對目前駕駛員違規(guī)接聽電話評判模型的分析可知檢測的三個(gè)重點(diǎn)在于：確定目標(biāo)檢測區(qū)域、檢測目標(biāo)物體、檢測駕駛員行為姿勢。該文結(jié)合實(shí)際情況從這三個(gè)層面考慮，設(shè)計(jì)的駕駛員違章接聽電話檢測流程如圖1所示。

圖1 駕駛員違章接聽電話檢測流程

目標(biāo)檢測區(qū)域的確定往往依賴于特定的參照物，如利用人臉矩形標(biāo)識框的位置大小，手動地圈定目標(biāo)檢測區(qū)域，這種完全憑借先驗(yàn)知識的方式缺乏科學(xué)理論支撐，不僅存在手動圈定的檢測區(qū)域與實(shí)際情況不符的弊端，而且在行車大環(huán)境下參照物的檢測結(jié)果極易受到光照、拍攝角度等外界因素干擾，從而影響后續(xù)目標(biāo)檢測的流程。為此，該文提出的評判模型不框定檢測區(qū)域，人臉、人手、手機(jī)等目標(biāo)物體均采取全局檢測的方式。

1.1.2 接聽電話行為識別

如圖1所示，在檢測前，記錄下天眼攝像頭拍攝第一張圖像的時(shí)間點(diǎn)，圖像經(jīng)過一系列預(yù)處理后，輸入到模型中。首先利用Haar-Like特征訓(xùn)練的級聯(lián)分類器對輸入的圖像進(jìn)行全局的人臉檢測，并將檢測到的人臉標(biāo)識矩形框；基于成功檢測到的人臉目標(biāo)，繼而進(jìn)行手部檢測，手部特征是整個(gè)檢測流程中的重點(diǎn)，因?yàn)樗婕暗浇勇犽娫捵藙?手在耳邊)判別和接聽電話行為(手持手機(jī))判定兩個(gè)方面，因此這里采用了檢測精度高的卷積神經(jīng)網(wǎng)絡(luò)來提取手部特征，并結(jié)合感興趣區(qū)域(ROI)技術(shù)根據(jù)網(wǎng)絡(luò)提取的特征自動標(biāo)識手部矩形框；接聽電話時(shí)手部常規(guī)情況下是在耳邊的，即靠近臉部，因此，成功檢測到人臉和人手后，比對記錄的兩個(gè)矩形框的中心點(diǎn)坐標(biāo)空間距離是否在閾值范圍內(nèi)來判斷是否符合接聽電話姿勢。

考慮到現(xiàn)實(shí)中存在扶眼鏡、捋頭發(fā)等干擾姿勢，故在檢測到符合接聽電話姿勢的情況下，進(jìn)一步采用YOLOv3目標(biāo)檢測算法進(jìn)行手機(jī)檢測和定位，手機(jī)在待檢測圖像上所占比例小且極易受異物遮擋，檢測難度大，然而大多數(shù)檢測評判模型卻以手機(jī)的檢測結(jié)果作為最后的判斷依據(jù)。該文對這一檢測節(jié)點(diǎn)進(jìn)行了優(yōu)化，具體過程為：若YOLOv3算法檢測到手機(jī)，則依據(jù)手機(jī)區(qū)域和手部特征區(qū)域中心點(diǎn)在數(shù)學(xué)上的空間距離是否在閾值范圍內(nèi)來判定是否存在接聽電話行為，反之也不會直接判定不存在違規(guī)接聽電話行為，而是利用天眼攝像頭拍攝圖像時(shí)會記錄拍攝時(shí)間點(diǎn)這一特性，根據(jù)拍攝時(shí)間點(diǎn)獲取符合接聽電話姿勢的時(shí)長是否在閾值設(shè)定范圍內(nèi)來進(jìn)一步判定是否存在接聽電話行為。

1.2 樣本預(yù)處理

為了弱化背景物體對檢測的影響，在進(jìn)行檢測前需對圖片進(jìn)行預(yù)處理。樣本預(yù)處理步驟依次為橢圓膚色分割、全局閾值和中值濾波去噪等操作。

膚色分割技術(shù)常用于人像處理領(lǐng)域，提取待檢測圖像中膚色區(qū)域弱化背景，不僅可以降低無關(guān)背景的干擾、聚焦檢測區(qū)域，還能有效提高檢測算法的效率。通過查閱資料得知，將RGB圖像的三個(gè)聯(lián)通分量轉(zhuǎn)換到Y(jié)CRCB空間的三個(gè)分量后可得：

299

578

114

(1)

r=(0

511

-0

428

-0

083

)+128

(2)

Cb=(-0

172

-0

339

511

)+128

(3)

將三維圖像轉(zhuǎn)換到Y(jié)CRCB二維空間后，膚色像素點(diǎn)會聚集到一個(gè)橢圓區(qū)域。因此，可將膚色分割的實(shí)現(xiàn)思路概括為：定義一個(gè)橢圓模型，將RGB圖像轉(zhuǎn)換到Y(jié)CbCr空間并在CbCr平面進(jìn)行投影得到一個(gè)CbCr的橢圓區(qū)域；通過判斷當(dāng)前像素點(diǎn)的CbCr是否落在該橢圓區(qū)域內(nèi)(含邊界)，即可確定當(dāng)前像素點(diǎn)是否屬于膚色像素點(diǎn)。

為了將檢測區(qū)域和背景盡可能分離，在膚色分割的基礎(chǔ)上還需依次采用閾值分割和濾波進(jìn)行去噪處理，從而提高檢測識別的準(zhǔn)確率。

2 檢測模型算法

2.1 人臉的特征提取與檢測

Haar-Like特征通過模板方式將人臉特征量化以區(qū)分人臉和非人臉，在表示圖像方面靈活性大，計(jì)算速度快。Haar-Like特征主要分為四類：邊緣特征、線性特征、對角特征以及衍生出來的圓心環(huán)繞特征。

首先基于滑動窗口提取出子窗口的Haar-Like特征；再使用矩形模板進(jìn)行匹配，將匹配區(qū)域內(nèi)白色區(qū)域的像素之和減去黑色區(qū)域的像素之和，得到“人臉特征值”為：

(4)

對于Haar-Like特征來說，檢測人臉需要掃描大量的窗口并計(jì)算出每個(gè)窗口對應(yīng)的特征值，如此大的計(jì)算量會極大地降低檢測速度。為了滿足系統(tǒng)實(shí)時(shí)檢測的要求，使用積分圖來加速Haar-Like特征值的計(jì)算。

積分圖的構(gòu)造是圖像中位置(

)處的值ii(

)表示原圖像(

)左上角方向所有像素的和：

(5)

構(gòu)造好積分圖之后，圖像中任何矩陣區(qū)域的像素累加和都可以通過簡單運(yùn)算得到且可在常數(shù)時(shí)間內(nèi)完成。

在確定了窗口的特征值之后，需要對獲取的每一個(gè)特征

，訓(xùn)練出一個(gè)較弱分類器，單一弱分類器無法達(dá)到理想的效果，因此將訓(xùn)練出的若干分類器進(jìn)行多輪篩選級聯(lián)得到強(qiáng)分類器進(jìn)行人臉檢測并在人臉區(qū)域標(biāo)識矩形框，真實(shí)車載環(huán)境下的人臉檢測效果如圖2所示。

圖2 人臉檢測效果

2.2 基于CNN和ROI的手部檢測定位技術(shù)

行車過程中人手姿勢動態(tài)多變，固定特征模板的匹配檢測方式不適用。卷積神經(jīng)網(wǎng)絡(luò)CNN通過多個(gè)卷積核來提取局部關(guān)聯(lián)性的特征，再從更高層次對局部特征進(jìn)行整合，得到全局信息；憑借神經(jīng)元局部連接、權(quán)重共享、平移等優(yōu)點(diǎn)，在圖像動態(tài)特征提取檢測方面應(yīng)用十分廣泛。設(shè)計(jì)的模型對輸入的手部樣本圖進(jìn)行多次卷積和池化，充分提取手部特征，提取特征過程結(jié)束后，進(jìn)入特征整合階段，通過全連接實(shí)現(xiàn)特征的維度變換和分類，最后模型根據(jù)分類結(jié)果預(yù)測輸出。

在訓(xùn)練模型前，為了減少模型訓(xùn)練消耗的時(shí)間、內(nèi)存以及圖像顏色對特征提取的干擾，對手部數(shù)據(jù)集進(jìn)行了歸一化處理，將樣本圖像都處理為28×28像素的灰度圖像，如圖3所示。

圖3 28×28手部灰白像素樣本圖

使用CNN進(jìn)行手部特征提取的核心是卷積和池化，卷積是用不同尺寸的卷積核在圖像上以一定步長不停地移動，對應(yīng)位置相乘累加直至遍歷完整幅圖像，最終得到特征圖的過程。

池化(pooling),也稱欠采樣或下采樣，主要是通過函數(shù)的方式降低數(shù)據(jù)維度，壓縮數(shù)據(jù)和參數(shù)，減少過擬合，提高模型的容錯(cuò)度。池化分為最大池化(max-pooling)和平均池化(mean-pooling)兩種函數(shù)。平均池化更易保留背景信息，然而最大池化卻能較好地保留圖像特征紋理，因此其符合上述局部特征提取需求。最大池化通過取局部區(qū)域最大值的方式減少數(shù)據(jù)量。

卷積和池化操作“剝皮式”地提取核心特征，構(gòu)建了一個(gè)“特征工程”，繼而全連接層把網(wǎng)絡(luò)學(xué)習(xí)到的特征進(jìn)行整合得到預(yù)測輸出。

為了提高識別精度，減少圖像預(yù)處理成本，待CNN模型提取到手部特征之后，利用感興趣區(qū)域(ROI)技術(shù)根據(jù)模型提取的特征自動在手部區(qū)域繪制矩形框；檢測具體過程如圖4所示。

圖4 CNN網(wǎng)絡(luò)進(jìn)行手部識別的過程

接聽電話時(shí)手部和臉部靠的較近，因此手部、臉部邊界框中心點(diǎn)距離在數(shù)學(xué)空間上存在一定的距離閾值，經(jīng)過交警部門有關(guān)專家的調(diào)研，實(shí)際場景中人手和人臉區(qū)域中心點(diǎn)距離在15 cm到20 cm時(shí)吻合接聽電話姿勢，而檢測圖像樣本與實(shí)際場景檢測區(qū)域的中心距離是不同的，因此可利用數(shù)值比例尺來衡量它們之間的比例關(guān)系。通過多次實(shí)驗(yàn)驗(yàn)證，檢測圖像與實(shí)際場景檢測區(qū)域比例尺取1∶5時(shí)，即圖像上手臉區(qū)域中心點(diǎn)距離在3 cm至4 cm時(shí)滿足多數(shù)情況且檢測精度最高，可通過對比人臉、人手矩形邊界框的中心點(diǎn)距離和閾值范圍來判定是否吻合接聽電話場景。令

為臉部矩形框的中心點(diǎn)坐標(biāo)(

為手部矩形框的中心點(diǎn)坐標(biāo)(

),則中心點(diǎn)距離

為：

(6)

根據(jù)

來判斷人臉和手空間位置是否吻合接聽電話場景：(1)若

∈[3,4]，符合接聽電話場景，進(jìn)行下一步的流程判斷；(2)若

<3或

>4，判定不存在接聽電話行為，退出檢測流程。

2.3 多尺度融合手機(jī)檢測算法

手機(jī)在待檢測圖像中所占比例比較小，且檢測結(jié)果易受環(huán)境干擾，對于這類小目標(biāo)物體檢測難度較大。近些年，YOLOv3目標(biāo)檢測算法采用多尺度融合的方式顯著提高了小目標(biāo)物體的檢測精度。對比利用人臉位置來確定檢測區(qū)域進(jìn)行手機(jī)檢測的一般方法，在手臉空間位置距離判斷的基礎(chǔ)上，引入YOLOv3算法全局檢測手機(jī)，再通過比對手機(jī)和手部的空間距離關(guān)系，進(jìn)一步判定是否存在接聽電話行為。

檢測過程中，對輸入的樣本使用Darknet-53網(wǎng)絡(luò)提取特征，輸出檢測樣本三個(gè)不同尺寸的特征圖：

(13×13×255)，

(26×26×255),

(52×52×255)。使用多尺度特征圖實(shí)現(xiàn)由粗到細(xì)粒度的檢測，特征圖尺寸越大包含目標(biāo)物體的信息就越寬泛，尺寸越小包含的信息就越精細(xì)。提取特征后生成預(yù)測的手機(jī)邊界框，并使用多尺度特征圖融合預(yù)測來提高邊界框和預(yù)測類別的準(zhǔn)確性。

在圖2人臉檢測的基礎(chǔ)上進(jìn)行手部和手機(jī)檢測，成功檢測到人手和手機(jī)并用不同顏色邊框的矩形標(biāo)識，檢測結(jié)果如圖5所示。

圖5 違規(guī)接聽電話檢測圖

接聽電話時(shí)手部和手機(jī)在位置空間上存在一定的數(shù)學(xué)映射關(guān)系，據(jù)交通部門有關(guān)專家的調(diào)研結(jié)果可知，手部和手機(jī)邊界框中心點(diǎn)距離在5 cm內(nèi)符合接聽電話情況，同上文提到的利用數(shù)值比例尺1∶5來衡量檢測圖像樣本與實(shí)際場景檢測區(qū)域之間的比例關(guān)系，即手部、手機(jī)邊界框中心距離在1 cm內(nèi)視為符合接聽電話情況。此處有別于傳統(tǒng)方法的是，不以手機(jī)檢測結(jié)果作為最終的評判依據(jù)，而是根據(jù)YOLOv3檢測結(jié)果分為兩種情況討論：

情況一：成功檢測到手機(jī)，計(jì)算手部矩形框和手機(jī)邊界框的中心距離

：(1)若

≤1，判定存在接聽電話行為，違規(guī)記錄上報(bào)；(2)若

>1，判定不存在接聽電話行為。情況二：未檢測到手機(jī)，根據(jù)天眼攝像頭記錄的圖片拍攝時(shí)間連續(xù)檢測圖像，獲取手臉邊界框中心距離符合接聽電話姿勢(手在耳邊)的時(shí)長

，據(jù)交通權(quán)威專家判定，行車過程中，手在耳邊的時(shí)長

長達(dá)8秒，可判定存在接聽電話行為，即：(1)若

≥8，判定駕駛員存在接聽電話行為，違規(guī)記錄上報(bào)；(2)若

<8，判定不存在接聽電話行為。

3 實(shí)驗(yàn)結(jié)果及分析

實(shí)驗(yàn)采用Python3.7與OpenCV4.4圖像視覺庫作為開發(fā)環(huán)境，運(yùn)行環(huán)境為Centos 7.4，CPU為酷睿8核、2.5 GHz，內(nèi)存條DDR4 2800 16 GB，SSD固態(tài)硬盤512 G。樣本數(shù)據(jù)來自于Kaggle比賽的“state-farm-distracted-driver-detection”數(shù)據(jù)集，記錄了駕駛員行車時(shí)的多種狀態(tài)，比如左右手接聽電話、喝水、摸頭、玩手機(jī)等，且根據(jù)這些不同的狀態(tài)分為10個(gè)不同的類別。本次實(shí)驗(yàn)總共從中選取了45 000張不同狀態(tài)、不同拍攝角度和距離的正反例樣本，并根據(jù)是否接聽電話將樣本分為2個(gè)類別：接聽電話和正常行為(非接聽電話)。實(shí)驗(yàn)中，隨機(jī)抽取40%的樣本作為測試數(shù)據(jù)集，其余60%的樣本作為訓(xùn)練數(shù)據(jù)集。

由表1可知，人臉檢測在正常行為樣本測試下的準(zhǔn)確度為97.98%，接聽電話行為樣本檢測準(zhǔn)確度可達(dá)97.34%，表明算法在不同狀態(tài)下的人臉檢測均有良好的效果。

表1 人臉檢測結(jié)果

針對接聽電話行為檢測的實(shí)驗(yàn)結(jié)果如表2所示，可以看出正常行為樣本下檢測精度為96.67%，接聽電話樣本檢測精度可達(dá)96.98%，反映了算法對駕駛員接聽電話行為具有較好的檢測效果。

表2 接聽電話行為檢測精度

為了進(jìn)一步驗(yàn)證方案的檢測效果，將設(shè)計(jì)的CNN+ROI+YOLOv3檢測方案與已有文獻(xiàn)方法進(jìn)行對比。具體對比有褚晶輝等提出的多尺度注意力卷積神經(jīng)網(wǎng)絡(luò)模型(Multi-scale Attention CNN Model)、趙李坤等提出的LBP+SVM算法，以及卜慶志等提出的基于HOG+SVM_RBF這三種方案。分別對這三種方案和CNN+ROI+YOLOv3檢測方案進(jìn)行了五次實(shí)驗(yàn)，每次實(shí)驗(yàn)都在上一次實(shí)驗(yàn)基礎(chǔ)上增加300張測試圖片樣本；檢測效果如圖6所示，并對圖6數(shù)據(jù)進(jìn)行統(tǒng)計(jì)，求得的平均識別率如表3所示。

表3 四種方案的平均識別率

實(shí)驗(yàn)分別采用了不同數(shù)量的樣本依次對四種算法的識別率進(jìn)行驗(yàn)證，通過表3可知，CNN+ROI+YOLOv3方案的平均識別率為92.70%，顯著高于其他三種檢測模型，表明該方案識別率的變化趨勢較為集中，模型穩(wěn)定好。

為了更直觀地顯現(xiàn)效果，將五次實(shí)驗(yàn)的結(jié)果繪制到折線圖中。如圖6所示，顯然，該文提出的CNN+ROI+YOLOv3檢測模型在整體精確度和穩(wěn)定性等方面均顯著優(yōu)于其他方法，具有一定的可行性。

圖6 不同樣本量下四種方案的檢測識別率

4 結(jié)束語

通過CNN模型和多尺度融合檢測算法，并結(jié)合目標(biāo)檢測物體數(shù)學(xué)上的空間距離，實(shí)現(xiàn)了對駕駛員違規(guī)接聽電話行為實(shí)時(shí)檢測的目標(biāo)。對比其他檢測方案，該方法在精度、穩(wěn)定性方面均有顯著的提高，打破了傳統(tǒng)檢測的技術(shù)壁壘和單一檢測模式的局限性，并綜合考慮了檢測過程中的不確定因素，在檢測流程上合理地設(shè)定了涵蓋多種情況的綜合性評判指標(biāo)，使得檢測結(jié)果受外界環(huán)境因素干擾較小，且最終轉(zhuǎn)化到數(shù)學(xué)上的空間距離計(jì)算顯著減少了算法的計(jì)算量，因此在交通安全方面有較好的應(yīng)用前景。