許婷婷,傅俊瓊,羅 昆
(1.東華理工大學(xué) 信息工程學(xué)院,江西 南昌 330013;2.東華理工大學(xué) 江西省核地學(xué)數(shù)據(jù)科學(xué)與系統(tǒng)工程技術(shù)研究中心,江西 南昌 330013;3.南昌市公安局交通管理局,江西 南昌 330013)
近年來,隨著智能信息化社會的發(fā)展,人們對手機(jī)的依賴性越來越強(qiáng),智能手機(jī)也日漸成為人們的信息處理中心,隨之而來的是駕駛員在行車過程中使用手機(jī)違規(guī)接聽電話造成的交通事故率逐年上升,成為名副其實(shí)的“馬路隱形殺手”。因此,實(shí)時(shí)檢測駕駛員的違規(guī)接聽電話行為在交通安全方面具有現(xiàn)實(shí)的研究價(jià)值。
目前,眾多研究機(jī)構(gòu)和學(xué)者也對這一課題進(jìn)行了深入研究。例如,魏民國提出了通過提取F-B Error信息來獲取人臉的特征點(diǎn),確定人臉大致區(qū)域以檢測手機(jī),并判斷駕駛員是否在打電話;王丹將駕駛員打電話行為分解為一系列滿足一定時(shí)序關(guān)系的子動作,通過統(tǒng)計(jì)分析的方法在駕駛員的視頻中檢測打電話行為;王盡如提出了一種基于半監(jiān)督支持向量機(jī)的駕駛員打電話行為檢測方法,采用傳統(tǒng)機(jī)器學(xué)習(xí)方法進(jìn)行目標(biāo)圖像分類,從而檢測出打電話行為。然而這些方案過于理想,沒有充分考慮到現(xiàn)實(shí)環(huán)境的復(fù)雜性,考量的指標(biāo)和評判流程過于單一,且難以提取圖像的深層特征,使得檢測結(jié)果極易受外界因素干擾,從而造成誤判。
為此,該文從駕駛員的行為姿勢、檢測區(qū)域、違規(guī)接聽電話評判指標(biāo)等幾個(gè)層面綜合考慮,調(diào)整并優(yōu)化了檢測流程。結(jié)合CNN、ROI、YOLOv3等技術(shù),將目標(biāo)檢測物體數(shù)學(xué)上的空間關(guān)系納入檢測系統(tǒng),環(huán)環(huán)相扣,構(gòu)建了一個(gè)更加科學(xué)全面的違規(guī)接聽電話行為檢測體系。
1.1.1 模型架構(gòu)
通過對目前駕駛員違規(guī)接聽電話評判模型的分析可知檢測的三個(gè)重點(diǎn)在于:確定目標(biāo)檢測區(qū)域、檢測目標(biāo)物體、檢測駕駛員行為姿勢。該文結(jié)合實(shí)際情況從這三個(gè)層面考慮,設(shè)計(jì)的駕駛員違章接聽電話檢測流程如圖1所示。
圖1 駕駛員違章接聽電話檢測流程
目標(biāo)檢測區(qū)域的確定往往依賴于特定的參照物,如利用人臉矩形標(biāo)識框的位置大小,手動地圈定目標(biāo)檢測區(qū)域,這種完全憑借先驗(yàn)知識的方式缺乏科學(xué)理論支撐,不僅存在手動圈定的檢測區(qū)域與實(shí)際情況不符的弊端,而且在行車大環(huán)境下參照物的檢測結(jié)果極易受到光照、拍攝角度等外界因素干擾,從而影響后續(xù)目標(biāo)檢測的流程。為此,該文提出的評判模型不框定檢測區(qū)域,人臉、人手、手機(jī)等目標(biāo)物體均采取全局檢測的方式。
1.1.2 接聽電話行為識別
如圖1所示,在檢測前,記錄下天眼攝像頭拍攝第一張圖像的時(shí)間點(diǎn),圖像經(jīng)過一系列預(yù)處理后,輸入到模型中。首先利用Haar-Like特征訓(xùn)練的級聯(lián)分類器對輸入的圖像進(jìn)行全局的人臉檢測,并將檢測到的人臉標(biāo)識矩形框;基于成功檢測到的人臉目標(biāo),繼而進(jìn)行手部檢測,手部特征是整個(gè)檢測流程中的重點(diǎn),因?yàn)樗婕暗浇勇犽娫捵藙?手在耳邊)判別和接聽電話行為(手持手機(jī))判定兩個(gè)方面,因此這里采用了檢測精度高的卷積神經(jīng)網(wǎng)絡(luò)來提取手部特征,并結(jié)合感興趣區(qū)域(ROI)技術(shù)根據(jù)網(wǎng)絡(luò)提取的特征自動標(biāo)識手部矩形框;接聽電話時(shí)手部常規(guī)情況下是在耳邊的,即靠近臉部,因此,成功檢測到人臉和人手后,比對記錄的兩個(gè)矩形框的中心點(diǎn)坐標(biāo)空間距離是否在閾值范圍內(nèi)來判斷是否符合接聽電話姿勢。
考慮到現(xiàn)實(shí)中存在扶眼鏡、捋頭發(fā)等干擾姿勢,故在檢測到符合接聽電話姿勢的情況下,進(jìn)一步采用YOLOv3目標(biāo)檢測算法進(jìn)行手機(jī)檢測和定位,手機(jī)在待檢測圖像上所占比例小且極易受異物遮擋,檢測難度大,然而大多數(shù)檢測評判模型卻以手機(jī)的檢測結(jié)果作為最后的判斷依據(jù)。該文對這一檢測節(jié)點(diǎn)進(jìn)行了優(yōu)化,具體過程為:若YOLOv3算法檢測到手機(jī),則依據(jù)手機(jī)區(qū)域和手部特征區(qū)域中心點(diǎn)在數(shù)學(xué)上的空間距離是否在閾值范圍內(nèi)來判定是否存在接聽電話行為,反之也不會直接判定不存在違規(guī)接聽電話行為,而是利用天眼攝像頭拍攝圖像時(shí)會記錄拍攝時(shí)間點(diǎn)這一特性,根據(jù)拍攝時(shí)間點(diǎn)獲取符合接聽電話姿勢的時(shí)長是否在閾值設(shè)定范圍內(nèi)來進(jìn)一步判定是否存在接聽電話行為。
為了弱化背景物體對檢測的影響,在進(jìn)行檢測前需對圖片進(jìn)行預(yù)處理。樣本預(yù)處理步驟依次為橢圓膚色分割、全局閾值和中值濾波去噪等操作。
膚色分割技術(shù)常用于人像處理領(lǐng)域,提取待檢測圖像中膚色區(qū)域弱化背景,不僅可以降低無關(guān)背景的干擾、聚焦檢測區(qū)域,還能有效提高檢測算法的效率。通過查閱資料得知,將RGB圖像的三個(gè)聯(lián)通分量轉(zhuǎn)換到Y(jié)CRCB空間的三個(gè)分量后可得:
Y
=0.
299R
+0.
578G
+0.
114B
(1)
C
r=(0.
511R
-0.
428G
-0.
083B
)+128(2)
Cb=(-0.
172R
-0.
339G
+0.
511B
)+128(3)
將三維圖像轉(zhuǎn)換到Y(jié)CRCB二維空間后,膚色像素點(diǎn)會聚集到一個(gè)橢圓區(qū)域。因此,可將膚色分割的實(shí)現(xiàn)思路概括為:定義一個(gè)橢圓模型,將RGB圖像轉(zhuǎn)換到Y(jié)CbCr空間并在CbCr平面進(jìn)行投影得到一個(gè)CbCr的橢圓區(qū)域;通過判斷當(dāng)前像素點(diǎn)的CbCr是否落在該橢圓區(qū)域內(nèi)(含邊界),即可確定當(dāng)前像素點(diǎn)是否屬于膚色像素點(diǎn)。
為了將檢測區(qū)域和背景盡可能分離,在膚色分割的基礎(chǔ)上還需依次采用閾值分割和濾波進(jìn)行去噪處理,從而提高檢測識別的準(zhǔn)確率。
Haar-Like特征通過模板方式將人臉特征量化以區(qū)分人臉和非人臉,在表示圖像方面靈活性大,計(jì)算速度快。Haar-Like特征主要分為四類:邊緣特征、線性特征、對角特征以及衍生出來的圓心環(huán)繞特征。
首先基于滑動窗口提取出子窗口的Haar-Like特征;再使用矩形模板進(jìn)行匹配,將匹配區(qū)域內(nèi)白色區(qū)域的像素之和減去黑色區(qū)域的像素之和,得到“人臉特征值”為:
(4)
對于Haar-Like特征來說,檢測人臉需要掃描大量的窗口并計(jì)算出每個(gè)窗口對應(yīng)的特征值,如此大的計(jì)算量會極大地降低檢測速度。為了滿足系統(tǒng)實(shí)時(shí)檢測的要求,使用積分圖來加速Haar-Like特征值的計(jì)算。
積分圖的構(gòu)造是圖像中位置(i
,j
)處的值ii(i
,j
)表示原圖像(i
,j
)左上角方向所有像素的和:(5)
構(gòu)造好積分圖之后,圖像中任何矩陣區(qū)域的像素累加和都可以通過簡單運(yùn)算得到且可在常數(shù)時(shí)間內(nèi)完成。
在確定了窗口的特征值之后,需要對獲取的每一個(gè)特征f
,訓(xùn)練出一個(gè)較弱分類器,單一弱分類器無法達(dá)到理想的效果,因此將訓(xùn)練出的若干分類器進(jìn)行多輪篩選級聯(lián)得到強(qiáng)分類器進(jìn)行人臉檢測并在人臉區(qū)域標(biāo)識矩形框,真實(shí)車載環(huán)境下的人臉檢測效果如圖2所示。圖2 人臉檢測效果
行車過程中人手姿勢動態(tài)多變,固定特征模板的匹配檢測方式不適用。卷積神經(jīng)網(wǎng)絡(luò)CNN通過多個(gè)卷積核來提取局部關(guān)聯(lián)性的特征,再從更高層次對局部特征進(jìn)行整合,得到全局信息;憑借神經(jīng)元局部連接、權(quán)重共享、平移等優(yōu)點(diǎn),在圖像動態(tài)特征提取檢測方面應(yīng)用十分廣泛。設(shè)計(jì)的模型對輸入的手部樣本圖進(jìn)行多次卷積和池化,充分提取手部特征,提取特征過程結(jié)束后,進(jìn)入特征整合階段,通過全連接實(shí)現(xiàn)特征的維度變換和分類,最后模型根據(jù)分類結(jié)果預(yù)測輸出。
在訓(xùn)練模型前,為了減少模型訓(xùn)練消耗的時(shí)間、內(nèi)存以及圖像顏色對特征提取的干擾,對手部數(shù)據(jù)集進(jìn)行了歸一化處理,將樣本圖像都處理為28×28像素的灰度圖像,如圖3所示。
圖3 28×28手部灰白像素樣本圖
使用CNN進(jìn)行手部特征提取的核心是卷積和池化,卷積是用不同尺寸的卷積核在圖像上以一定步長不停地移動,對應(yīng)位置相乘累加直至遍歷完整幅圖像,最終得到特征圖的過程。
池化(pooling),也稱欠采樣或下采樣,主要是通過函數(shù)的方式降低數(shù)據(jù)維度,壓縮數(shù)據(jù)和參數(shù),減少過擬合,提高模型的容錯(cuò)度。池化分為最大池化(max-pooling)和平均池化(mean-pooling)兩種函數(shù)。平均池化更易保留背景信息,然而最大池化卻能較好地保留圖像特征紋理,因此其符合上述局部特征提取需求。最大池化通過取局部區(qū)域最大值的方式減少數(shù)據(jù)量。
卷積和池化操作“剝皮式”地提取核心特征,構(gòu)建了一個(gè)“特征工程”,繼而全連接層把網(wǎng)絡(luò)學(xué)習(xí)到的特征進(jìn)行整合得到預(yù)測輸出。
為了提高識別精度,減少圖像預(yù)處理成本,待CNN模型提取到手部特征之后,利用感興趣區(qū)域(ROI)技術(shù)根據(jù)模型提取的特征自動在手部區(qū)域繪制矩形框;檢測具體過程如圖4所示。
圖4 CNN網(wǎng)絡(luò)進(jìn)行手部識別的過程
接聽電話時(shí)手部和臉部靠的較近,因此手部、臉部邊界框中心點(diǎn)距離在數(shù)學(xué)空間上存在一定的距離閾值,經(jīng)過交警部門有關(guān)專家的調(diào)研,實(shí)際場景中人手和人臉區(qū)域中心點(diǎn)距離在15 cm到20 cm時(shí)吻合接聽電話姿勢,而檢測圖像樣本與實(shí)際場景檢測區(qū)域的中心距離是不同的,因此可利用數(shù)值比例尺來衡量它們之間的比例關(guān)系。通過多次實(shí)驗(yàn)驗(yàn)證,檢測圖像與實(shí)際場景檢測區(qū)域比例尺取1∶5時(shí),即圖像上手臉區(qū)域中心點(diǎn)距離在3 cm至4 cm時(shí)滿足多數(shù)情況且檢測精度最高,可通過對比人臉、人手矩形邊界框的中心點(diǎn)距離和閾值范圍來判定是否吻合接聽電話場景。令A
為臉部矩形框的中心點(diǎn)坐標(biāo)(X
,Y
),B
為手部矩形框的中心點(diǎn)坐標(biāo)(X
,Y
),則中心點(diǎn)距離d
為:(6)
根據(jù)d
來判斷人臉和手空間位置是否吻合接聽電話場景:(1)若d
∈[3,4],符合接聽電話場景,進(jìn)行下一步的流程判斷;(2)若d
<3或d
>4,判定不存在接聽電話行為,退出檢測流程。手機(jī)在待檢測圖像中所占比例比較小,且檢測結(jié)果易受環(huán)境干擾,對于這類小目標(biāo)物體檢測難度較大。近些年,YOLOv3目標(biāo)檢測算法采用多尺度融合的方式顯著提高了小目標(biāo)物體的檢測精度。對比利用人臉位置來確定檢測區(qū)域進(jìn)行手機(jī)檢測的一般方法,在手臉空間位置距離判斷的基礎(chǔ)上,引入YOLOv3算法全局檢測手機(jī),再通過比對手機(jī)和手部的空間距離關(guān)系,進(jìn)一步判定是否存在接聽電話行為。
檢測過程中,對輸入的樣本使用Darknet-53網(wǎng)絡(luò)提取特征,輸出檢測樣本三個(gè)不同尺寸的特征圖:y
(13×13×255),y
(26×26×255),y
(52×52×255)。使用多尺度特征圖實(shí)現(xiàn)由粗到細(xì)粒度的檢測,特征圖尺寸越大包含目標(biāo)物體的信息就越寬泛,尺寸越小包含的信息就越精細(xì)。提取特征后生成預(yù)測的手機(jī)邊界框,并使用多尺度特征圖融合預(yù)測來提高邊界框和預(yù)測類別的準(zhǔn)確性。在圖2人臉檢測的基礎(chǔ)上進(jìn)行手部和手機(jī)檢測,成功檢測到人手和手機(jī)并用不同顏色邊框的矩形標(biāo)識,檢測結(jié)果如圖5所示。
圖5 違規(guī)接聽電話檢測圖
接聽電話時(shí)手部和手機(jī)在位置空間上存在一定的數(shù)學(xué)映射關(guān)系,據(jù)交通部門有關(guān)專家的調(diào)研結(jié)果可知,手部和手機(jī)邊界框中心點(diǎn)距離在5 cm內(nèi)符合接聽電話情況,同上文提到的利用數(shù)值比例尺1∶5來衡量檢測圖像樣本與實(shí)際場景檢測區(qū)域之間的比例關(guān)系,即手部、手機(jī)邊界框中心距離在1 cm內(nèi)視為符合接聽電話情況。此處有別于傳統(tǒng)方法的是,不以手機(jī)檢測結(jié)果作為最終的評判依據(jù),而是根據(jù)YOLOv3檢測結(jié)果分為兩種情況討論:
情況一:成功檢測到手機(jī),計(jì)算手部矩形框和手機(jī)邊界框的中心距離d
:(1)若d
≤1,判定存在接聽電話行為,違規(guī)記錄上報(bào);(2)若d
>1,判定不存在接聽電話行為。情況二:未檢測到手機(jī),根據(jù)天眼攝像頭記錄的圖片拍攝時(shí)間連續(xù)檢測圖像,獲取手臉邊界框中心距離符合接聽電話姿勢(手在耳邊)的時(shí)長t
,據(jù)交通權(quán)威專家判定,行車過程中,手在耳邊的時(shí)長t
長達(dá)8秒,可判定存在接聽電話行為,即:(1)若t
≥8,判定駕駛員存在接聽電話行為,違規(guī)記錄上報(bào);(2)若t
<8,判定不存在接聽電話行為。實(shí)驗(yàn)采用Python3.7與OpenCV4.4圖像視覺庫作為開發(fā)環(huán)境,運(yùn)行環(huán)境為Centos 7.4,CPU為酷睿8核、2.5 GHz,內(nèi)存條DDR4 2800 16 GB,SSD固態(tài)硬盤512 G。樣本數(shù)據(jù)來自于Kaggle比賽的“state-farm-distracted-driver-detection”數(shù)據(jù)集,記錄了駕駛員行車時(shí)的多種狀態(tài),比如左右手接聽電話、喝水、摸頭、玩手機(jī)等,且根據(jù)這些不同的狀態(tài)分為10個(gè)不同的類別。本次實(shí)驗(yàn)總共從中選取了45 000張不同狀態(tài)、不同拍攝角度和距離的正反例樣本,并根據(jù)是否接聽電話將樣本分為2個(gè)類別:接聽電話和正常行為(非接聽電話)。實(shí)驗(yàn)中,隨機(jī)抽取40%的樣本作為測試數(shù)據(jù)集,其余60%的樣本作為訓(xùn)練數(shù)據(jù)集。
由表1可知,人臉檢測在正常行為樣本測試下的準(zhǔn)確度為97.98%,接聽電話行為樣本檢測準(zhǔn)確度可達(dá)97.34%,表明算法在不同狀態(tài)下的人臉檢測均有良好的效果。
表1 人臉檢測結(jié)果
針對接聽電話行為檢測的實(shí)驗(yàn)結(jié)果如表2所示,可以看出正常行為樣本下檢測精度為96.67%,接聽電話樣本檢測精度可達(dá)96.98%,反映了算法對駕駛員接聽電話行為具有較好的檢測效果。
表2 接聽電話行為檢測精度
為了進(jìn)一步驗(yàn)證方案的檢測效果,將設(shè)計(jì)的CNN+ROI+YOLOv3檢測方案與已有文獻(xiàn)方法進(jìn)行對比。具體對比有褚晶輝等提出的多尺度注意力卷積神經(jīng)網(wǎng)絡(luò)模型(Multi-scale Attention CNN Model)、趙李坤等提出的LBP+SVM算法,以及卜慶志等提出的基于HOG+SVM_RBF這三種方案。分別對這三種方案和CNN+ROI+YOLOv3檢測方案進(jìn)行了五次實(shí)驗(yàn),每次實(shí)驗(yàn)都在上一次實(shí)驗(yàn)基礎(chǔ)上增加300張測試圖片樣本;檢測效果如圖6所示,并對圖6數(shù)據(jù)進(jìn)行統(tǒng)計(jì),求得的平均識別率如表3所示。
表3 四種方案的平均識別率
實(shí)驗(yàn)分別采用了不同數(shù)量的樣本依次對四種算法的識別率進(jìn)行驗(yàn)證,通過表3可知,CNN+ROI+YOLOv3方案的平均識別率為92.70%,顯著高于其他三種檢測模型,表明該方案識別率的變化趨勢較為集中,模型穩(wěn)定好。
為了更直觀地顯現(xiàn)效果,將五次實(shí)驗(yàn)的結(jié)果繪制到折線圖中。如圖6所示,顯然,該文提出的CNN+ROI+YOLOv3檢測模型在整體精確度和穩(wěn)定性等方面均顯著優(yōu)于其他方法,具有一定的可行性。
圖6 不同樣本量下四種方案的檢測識別率
通過CNN模型和多尺度融合檢測算法,并結(jié)合目標(biāo)檢測物體數(shù)學(xué)上的空間距離,實(shí)現(xiàn)了對駕駛員違規(guī)接聽電話行為實(shí)時(shí)檢測的目標(biāo)。對比其他檢測方案,該方法在精度、穩(wěn)定性方面均有顯著的提高,打破了傳統(tǒng)檢測的技術(shù)壁壘和單一檢測模式的局限性,并綜合考慮了檢測過程中的不確定因素,在檢測流程上合理地設(shè)定了涵蓋多種情況的綜合性評判指標(biāo),使得檢測結(jié)果受外界環(huán)境因素干擾較小,且最終轉(zhuǎn)化到數(shù)學(xué)上的空間距離計(jì)算顯著減少了算法的計(jì)算量,因此在交通安全方面有較好的應(yīng)用前景。