梁海軍, 劉長炎, 陳寬明, 孔建國
(中國民用航空飛行學(xué)院空中交通管理學(xué)院, 廣漢 618300)
隨著民航業(yè)的迅猛發(fā)展,航線數(shù)量和飛機(jī)架次增多,扇區(qū)復(fù)雜度增大,空中交通管制員(簡稱管制員)的工作負(fù)荷越來越大,在崗疲勞也越來越成為影響民航安全的重大問題。2014年,東航MU2528航班在武漢進(jìn)近階段聯(lián)系塔臺時因管制員睡崗,被迫復(fù)飛。2016年,上海虹橋機(jī)場塔臺管制員由于疲勞導(dǎo)致前后管制指令沖突,致使起飛和穿越跑道的飛機(jī)同時使用跑道,造成A類跑道侵入事件。2019年,靳慧斌等[1]提出應(yīng)用支持向量機(jī)模型融合多生理參數(shù)和眼動指標(biāo)構(gòu)建疲勞檢測模型,識別正常組與剝奪睡眠組的準(zhǔn)確率為94.2%。Zhao等[2]提出了一種卷積神經(jīng)網(wǎng)絡(luò)EM-CNN(eyes and mouth-convolution neural network),從ROI(region of interest)圖像中檢測眼睛和嘴部狀態(tài),算法性能優(yōu)于基于VGG16、InceptionV3、AlexNet等算法,準(zhǔn)確率和靈敏率分別為93.623%和93.643%。馮文文等[3]提出將中心損失函數(shù)加入到softmax損失中,優(yōu)化了其在深度卷積網(wǎng)絡(luò)中類內(nèi)間距大的問題,提高了臉部疲勞狀態(tài)識別準(zhǔn)確率。鄭文倩[4]提出將MTCNN(multi-task cascaded convolutional networks)算法與改進(jìn)的基于判別式尺度空間跟蹤算法相結(jié)合的方法進(jìn)行面部檢測和關(guān)鍵點定位,采用基于MobileNet V2算法判定眼睛和嘴部狀態(tài),通過PERCLOS(percentage of eyelid closure over the pupil over time)值、眨眼頻率、閉眼時間和哈欠頻率等疲勞指標(biāo)綜合判斷駕駛員是否疲勞。徐蓮等[5]針對光照和頭部姿態(tài)影響檢測精度問題,提出將Gabor特征和LBP(local binary pattern)特征遷移到卷積神經(jīng)網(wǎng)絡(luò)中,并在實時檢測中加入眼睛篩選機(jī)制,提高了檢測準(zhǔn)確率和速率。Xiao等[6]提出了一種利用駕駛員眼睛的時空特征來檢測駕駛員疲勞狀態(tài)的方法,首先通過深度卷積層學(xué)習(xí)空間特征,然后通過長短期記憶單元分析相鄰幀之間的關(guān)系,最后,用搭建的模型對駕駛狀態(tài)進(jìn)行檢測,達(dá)到了96.12%的準(zhǔn)確率。胡習(xí)之等[7]通過優(yōu)化SSD(single shot multi box detector)人臉區(qū)域定位方法,提高了對光線變化,背景相似干擾的魯棒性。而隨著深度學(xué)習(xí)的快速發(fā)展,深度卷積神經(jīng)網(wǎng)絡(luò)被廣泛用于機(jī)器視覺領(lǐng)域,但目前針對管制員特定管制情景下的疲勞檢測還較少,而且檢測準(zhǔn)確率和模型大小矛盾仍然存在,檢測準(zhǔn)確率仍提高,為解決以上兩個問題,達(dá)到準(zhǔn)確及時的檢測管制員疲勞狀態(tài)的目的,在遷移學(xué)習(xí)的基礎(chǔ)上搭建了基于DCNN(deep convolutional neural network)的管制員疲勞檢測模型,更精確及時的提取眼睛小像素圖片特征,判定管制員疲勞狀態(tài)。
針對管制員在崗疲勞問題,目前研究大多選用在ImageNet的比賽上分類任務(wù)中表現(xiàn)出色的VGG16模型、Inception V3模型和ResNet50模型對眼部圖像進(jìn)行特征提取并分類,根據(jù)眼部狀態(tài)將圖像標(biāo)記為0(閉眼)和1(睜眼)兩類。王軍等[8]利用遷移學(xué)習(xí)的VGG16模型和ResNet50模型提取面部圖像中表情特征,最后對VGG16和ResNet50的輸出進(jìn)行加權(quán)融合進(jìn)行表情識別,與傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)模型相比,有效提高了面部遮擋情況下的表情識別精度。Cheng等[9]以VGG19模型為基礎(chǔ)對網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)進(jìn)行了優(yōu)化,采用遷移學(xué)習(xí)技術(shù)克服了圖像訓(xùn)練樣本不足,該網(wǎng)絡(luò)模型對人臉表情識別的準(zhǔn)確率達(dá)96%。本文中搭建DCNN模型用于眼部狀態(tài)的檢測。疲勞檢測流程如圖1所示。首先將視頻圖像通過MTCNN檢測出管制員的人臉,同時獲得左右眼睛的坐標(biāo),然后獲取待檢測的左右眼圖像,使用訓(xùn)練好的DCNN眼部狀態(tài)分類模型判斷眼部的睜閉合狀態(tài),最后通過PERCLOS標(biāo)準(zhǔn)判斷管制員是否疲勞。
圖1 疲勞檢測流程圖Fig.1 Flow chart of fatigue detection
人臉檢測和特征點定位是疲勞狀態(tài)識別的關(guān)鍵部分,在實際復(fù)雜的管制環(huán)境內(nèi),由于進(jìn)近和區(qū)域管制員需要實時關(guān)注雷達(dá)屏幕上的飛機(jī)動態(tài),而且管制室內(nèi)為保證管制員能看清雷達(dá)屏幕,故燈光較暗,目前傳統(tǒng)的基于統(tǒng)計學(xué)習(xí)分類器的人臉檢測方法和單一的CNN已經(jīng)不能很好地滿足人臉檢測和人臉關(guān)鍵點定位的要求。MTCNN能夠同時將人臉檢測和人臉關(guān)鍵點定位結(jié)合起來,而定位的人臉關(guān)鍵點又可以用來實現(xiàn)人臉校正[10]。
MTCNN算法由3個階段組成,如圖2所示。
圖2 MTCNN網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 MTCNN network structure chart
第一階段為P-Net卷積神經(jīng)網(wǎng)絡(luò),獲得候選窗體和邊界回歸向量。根據(jù)邊界框?qū)蜻x窗體進(jìn)行校準(zhǔn),利用非極大值抑制算法去除重疊窗口。
第二階段為R-Net卷積神經(jīng)網(wǎng)絡(luò),將經(jīng)過P-Net確定的包含候選窗體的圖片在R-Net網(wǎng)絡(luò)中訓(xùn)練,并使用全連接神經(jīng)網(wǎng)絡(luò)進(jìn)行分類。利用邊界框向量微調(diào)候選窗體和非極大值抑制算法去除重疊窗體。
第三階段為O-Net卷積神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)功能與R-Net類似,在去除重疊候選窗口的同時標(biāo)定5個人臉關(guān)鍵點的位置。
人臉檢測和關(guān)鍵點定位可表示為
(face,L-eye,R-eye)=MTCNN(image)
(1)
式(1)中:face為檢測的人臉邊界框坐標(biāo);L-eye、R-eye分別表示左眼和右眼的點坐標(biāo);image為待檢測的視頻圖像。
1.2.1 遷移學(xué)習(xí)
針對目前管制員面部數(shù)據(jù)較少,難以收集足夠的訓(xùn)練數(shù)據(jù)來重新建立模型的問題,遷移學(xué)習(xí)的目的是將知識從一個稱為源域的大數(shù)據(jù)集轉(zhuǎn)移到一個較小的目標(biāo)域的數(shù)據(jù)集,多用于源域和目標(biāo)域數(shù)據(jù)之間特征空間不同或者源任務(wù)和目標(biāo)任務(wù)關(guān)注的領(lǐng)域不同等情況來提高目標(biāo)任務(wù)的性能?;诰矸e神經(jīng)網(wǎng)絡(luò)的遷移學(xué)習(xí)可以被大量、廣泛地應(yīng)用在不同的領(lǐng)域,謝小紅等[11]利用ImageNet上訓(xùn)練完成的網(wǎng)絡(luò)模型微調(diào)后在DeepFashion數(shù)據(jù)集上進(jìn)行遷移學(xué)習(xí),有效提高了模型的分類精讀和時效性。在數(shù)據(jù)匱乏的醫(yī)學(xué)圖像領(lǐng)域,遷移學(xué)習(xí)是一種有效的方法,Atabansi等[12]利用大數(shù)據(jù)集的高分辨率圖像特征訓(xùn)練相對小的數(shù)據(jù)集模型,增強(qiáng)模型的泛化能力,驗證了采用遷移學(xué)習(xí)策略訓(xùn)練的VGG-16模型,得到了較高的準(zhǔn)確率。Khan等[13]利用公開的PCG數(shù)據(jù)集預(yù)訓(xùn)練簡而輕的CNN模型用于心血管疾病的檢測,獲得了較高的檢測準(zhǔn)確率。
用于遷移的數(shù)據(jù)可以分為與目標(biāo)域數(shù)據(jù)相關(guān)的數(shù)據(jù)和不相關(guān)的數(shù)據(jù)。本文中,首先收集大量的與目標(biāo)域數(shù)據(jù)相關(guān)和像素相近的人臉圖像作為訓(xùn)練數(shù)據(jù),其次采用遷移學(xué)習(xí)的方法對DCNN模型進(jìn)行預(yù)訓(xùn)練,最后,利用眼睛圖像對預(yù)訓(xùn)練的DCNN模型進(jìn)行微調(diào)得到眼睛狀態(tài)分類模型。
1.2.2 DCNN眼部狀態(tài)分類模型
深度卷積神經(jīng)網(wǎng)絡(luò)是由若干層“神經(jīng)元”組成的網(wǎng)絡(luò)模型,當(dāng)前層的每一個神經(jīng)元對前一層神經(jīng)元的輸出應(yīng)用線性濾波器,并在濾波器輸出中疊加一個偏置量,對其結(jié)果應(yīng)用非線性激活函數(shù)得到特征圖。
(1)卷積層是整個神經(jīng)網(wǎng)絡(luò)的核心,采用“局部感知”和“權(quán)值共享”兩種方式,進(jìn)行降維處理和提取特征。相對于所有神經(jīng)元應(yīng)用不同濾波器的神經(jīng)網(wǎng)絡(luò),卷積共享濾波器結(jié)構(gòu)的參數(shù)數(shù)量急劇減少,降低了其過度擬合的能力。公式為
Zl+1(i,j)=[Zl?wl+1](i,j)+b,
(i,j)∈{0,1,…,Ll+1}
(2)
(3)
式中:Zl和Zl+1分別是第l+1層的輸入和輸出;Zl+1(i,j)是l+1層特征圖的像素;w為卷積核;b為偏置量;s0、p和f分別是卷積步幅、填充層數(shù)以及卷積核大小;L是網(wǎng)絡(luò)層數(shù),其中卷積步幅是指卷積核每次移動的步幅。
(2)池化層又稱下采樣層,對特征圖進(jìn)行特征選擇和過濾。池化層采用最大池化,大小為2×2。
(3)全連接層對經(jīng)卷積層和池化層提取的特征進(jìn)行非線性組合,實現(xiàn)分類,可表示為
Al=f(WTAl-1+b)
(4)
式(4)中:Al-1和Al分別是第l層的輸入與輸出;f為激活函數(shù);W和b分別表示權(quán)重和偏置。
眼部狀態(tài)分類模型由6個卷積層、3個池化層和2個全連接層組成,如圖3所示。第一個卷積層的卷積核大小是32×3×3,第二個和第三個卷積層的卷積核大小是64×3×3,最后3個卷積層的卷積核大小是128×3×3。在所有卷積層中,卷積運算的邊界模式相同,即卷積運算中輸入和輸出特征映射的維數(shù)一致。池化層采用最大池化策略對特征映射進(jìn)行降維,所有池化層的降維比例均為2×2。全連接層中的單元數(shù)為512。最后,在頂層加入softmax分類器作為模型的輸出,在該模型中所有層的激活函數(shù)均為ReLU函數(shù)。
圖3 眼部狀態(tài)分類模型Fig.3 Eye state classification model
1.2.3 Dropout
Dropout是一種用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的算法[14]。神經(jīng)網(wǎng)絡(luò)前向傳播過程中,在Dropout所在位置,特征檢測器將會以p=0.5的概率刪除,剩余權(quán)重將會通過反向傳播進(jìn)行訓(xùn)練。該算法通過迫使神經(jīng)元依賴群體行為,而不是依賴于其他特定單元的活動,以防止特征檢測器的過度擬合,使模型的泛化性更強(qiáng)。本文中DCNN模型在全連接層后面加上Dropout正則化,參數(shù)設(shè)置為0.5,Dropout正則化示意圖如圖4所示,圖4(a)為標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)示意圖,圖4(b)為采用Dropout正則化策略后的神經(jīng)網(wǎng)絡(luò)示意圖,隱藏層神經(jīng)元以50%的概率隨機(jī)失活,以此來增強(qiáng)模型的泛化能力,防止模型過擬合。
圖4 Dropout正則化示意圖Fig.4 Schematic diagram of dropout regularization
考慮到管制員工作的現(xiàn)實場景中可能會受到個體差異和各種環(huán)境變化(包括光照、遮擋和模糊)引起的具有挑戰(zhàn)性的變化,收集ZJU、CEW、空中交通管制員眼部(air traffic controller eyes, ATCE)數(shù)據(jù)集,分別選取70%作為訓(xùn)練集,30%作為測試集,用于研究DCNN模型在上述條件下的性能、準(zhǔn)確率和損失率。
(1)ZJU數(shù)據(jù)集[15]是浙江大學(xué)公布的開源數(shù)據(jù)集,在20個人閃爍的視頻數(shù)據(jù)庫中,總共有80個視頻片段,每個人有4個片段:沒有戴眼鏡的正面觀看片段、戴薄邊眼鏡觀看片段、戴黑框眼鏡正面觀看片段、沒有戴眼鏡向上觀看的片段。在每個閃爍過程中手動選擇左右眼圖像,部分圖像模糊、分辨率較低或被眼鏡遮擋。該數(shù)據(jù)集的部分樣本如圖5所示,前面兩行為閉眼圖像,后面兩行為睜眼圖像。
圖5 ZJU數(shù)據(jù)集Fig.5 ZJU dataset
(2)CEW數(shù)據(jù)集[16]由南京航空航天大學(xué)發(fā)布,包括2 423張圖像,其中1 192張閉眼圖像為從互聯(lián)網(wǎng)上收集,1 231張睜眼圖像來自LFW(labeled faces in the wild)數(shù)據(jù)庫,部分眼睛圖像如圖6所示。
圖6 CEW數(shù)據(jù)集Fig.6 CEW dataset
(3)ATCE數(shù)據(jù)集,通過采集中國民航飛行學(xué)院管制員進(jìn)行雷達(dá)模擬機(jī)管制任務(wù)時的實時面部圖像,將采集到的面部圖像經(jīng)MTCNN模型進(jìn)行眼部的識別和提取,得到ATCE數(shù)據(jù)集。該數(shù)據(jù)集共4 326張,其中睜眼圖像為2 516張,閉眼圖像為1 810張。ATCE數(shù)據(jù)集包括管制員戴眼鏡分別從8個方向(上、下、左、右、左上、左下、右上、右下)注視雷達(dá)屏幕的眼部圖像,以及管制員不戴眼鏡分別從8個方向注視雷達(dá)屏幕的眼部圖像,部分圖像如圖7所示。
圖7 ATCE數(shù)據(jù)集Fig.7 ATCE dataset
驗證實驗在Windows操作系統(tǒng)上進(jìn)行,搭載Intel Xeon Silver 4110 CPU和兩張NVIDIA GTX1080Ti 11 G獨立圖形顯示卡,存儲硬件為128 GB 2 666 MHz ECC內(nèi)存,480 G SSB和4 TB SATA硬盤,采用Keras構(gòu)建神經(jīng)網(wǎng)絡(luò)模型。
3.2.1 ZJU數(shù)據(jù)集上的測試結(jié)果
將目前在ImageNet的比賽上分類任務(wù)中表現(xiàn)出色的VGG16模型、Inception V3模型、ResNet50模型與本文中提出的DCNN模型在ZJU數(shù)據(jù)集上進(jìn)行對比分析,其比較結(jié)果如表1和圖8所示。由圖8可以看出,DCNN模型在訓(xùn)練集和測試集上,30代的準(zhǔn)確率穩(wěn)定在97%左右,并且在20代開始收斂,損失率趨近于7%。
表1 VGG16、ResNet50、InceptionV3、DCNN在ZIU數(shù)據(jù)集上的評價指標(biāo)對比結(jié)果
圖8(a)中,DCNN模型訓(xùn)練集和測試集的準(zhǔn)確率最高,ResNet50模型的訓(xùn)練集準(zhǔn)確率約89%,測試集的準(zhǔn)確率在84%左右。VGG16模型的訓(xùn)練集和測試集準(zhǔn)確率約90%。InceptionV3模型的訓(xùn)練集準(zhǔn)確率約92%,測試集準(zhǔn)確率在90%左右。DCNN模型的識別精度較VGG16模型有約7%的提升,較InceptionV3模型有約5%的提升,較ResNet50模型有較7%的提升。圖8(b)中,ResNet50模型的效果最差,訓(xùn)練集損失率在35%左右,測試集的損失率在26%左右,VGG16模型的訓(xùn)練集和測試集損失率在22%附近,InceptionV3模型的訓(xùn)練集損失率約18%,測試集損失率在22%左右,DCNN模型的損失率較VGG16模型降低了19%,較InceptionV3降低了15%,較ResNet50降低了15%。
圖8 DCNN與其他3種模型在ZJU數(shù)據(jù)集上的損失率比較結(jié)果Fig.8 Comparison results of DCNN and other three models on ZJU dataset
F1分?jǐn)?shù)是召回率(recall)和精確率(precision)的調(diào)和平均數(shù)。由表1可知,DCNN模型F1分?jǐn)?shù)為97.63%,而其他3種模型F1分?jǐn)?shù)大致在90%左右,DCNN較其他3種模型有7%的提升。
3.2.2 CEW數(shù)據(jù)集上的測試結(jié)果
DCNN與其他3種模型在CEW數(shù)據(jù)集上對眼部圖像訓(xùn)練和測試的準(zhǔn)確率和損失率曲線圖對比分別如圖9所示,可以看出,DCNN模型在15代便開始收斂,模型訓(xùn)練集和測試集的準(zhǔn)確率趨近于97%,而模型訓(xùn)練和測試的損失率在7%附近。VGG16模型和InceptionV3模型較DCNN模型更早收斂,但是,DCNN模型的識別準(zhǔn)確率較VGG16模型有3%左右的提高。ResNet50模型在收斂速度、模型準(zhǔn)確率以及損失率等方面落后于DCNN。
圖9 DCNN與其他3種模型在CEW數(shù)據(jù)集上的損失率比較結(jié)果Fig.9 Loss comparison results of DCNN and other three models on CEW dataset
VGG16、ResNet50、InceptionV3、DCNN在CEW數(shù)據(jù)集上的評價指標(biāo)對比結(jié)果如表2所示,DCNN模型的F1分?jǐn)?shù)為97.03%,VGG16模型和InceptionV3模型的F1分?jǐn)?shù)在94%左右,ResNet50模型的F1分?jǐn)?shù)為89.60%,4種模型中,DCNN的F1分?jǐn)?shù)較其他3種提高3%~7%。
表2 VGG16、ResNet50、InceptionV3、DCNN在CEW數(shù)據(jù)集上的評價指標(biāo)對比結(jié)果
3.2.3 ATCE數(shù)據(jù)集上的測試結(jié)果
DCNN與其他3種模型在ATCE數(shù)據(jù)集上對眼部圖像訓(xùn)練和測試的準(zhǔn)確率和損失率曲線圖對比分別如圖10所示。由圖10可以看出,DCNN模型在區(qū)分眼睛狀態(tài)任務(wù)中,迭代次數(shù)到15次開始收斂,訓(xùn)練和測試的準(zhǔn)確率達(dá)到98.35%,損失率為5.23%。圖10(a)中,VGG16模型的訓(xùn)練集和測試集準(zhǔn)確率約為97%,InceptionV3模型的訓(xùn)練集和測試集準(zhǔn)確率約為96%,ResNet50模型的訓(xùn)練集準(zhǔn)確率約86%,測試集的準(zhǔn)確率在88%左右。DCNN模型準(zhǔn)確率較ResNet50模型提高了10%左右。圖10(b)中,ResNet50模型的效果最差,訓(xùn)練集損失率在27%左右,測試集的損失率在24%左右,VGG16模型的訓(xùn)練集和測試集損失率在9%附近,InceptionV3模型的訓(xùn)練集和測試集損失率約8%,DCNN模型的損失率較VGG16模型降低了4%,較InceptionV3降低了3%,較ResNet50降低了18%。
圖10 DCNN與其他3種模型在ATCE數(shù)據(jù)集上的損失率比較結(jié)果Fig.10 Loss comparison results of DCNN and other three models on ATCE dataset
VGG16、ResNet50、InceptionV3、DCNN在ATCE數(shù)據(jù)集上的評價指標(biāo)對比結(jié)果如表3所示,DCNN模型的F1分?jǐn)?shù)為98.06%,VGG16模型的F1分?jǐn)?shù)為97.33%,ResNet50模型的F1分?jǐn)?shù)為90.53%,InceptionV3模型的F1分?jǐn)?shù)為96.31%,DCNN模型的F1分?jǐn)?shù)較VGG16模型有0.73%的提高,較ResNet50模型提高了7.53%,較InceptionV3模型提高了1.75%。
表3 VGG16、ResNet50、InceptionV3、DCNN在ATCE數(shù)據(jù)集上的評價指標(biāo)對比結(jié)果Table 3 Comparison results of VGG16, ResNet50, InceptionV3 and DCNN on ATCE dataset
根據(jù)DCNN模型和其他3種模型的對比實驗結(jié)果可以看出,DCNN模型識別精度優(yōu)于其他3種大型網(wǎng)絡(luò)模型,由于DCNN網(wǎng)絡(luò)模型的輸入為64×64,卷積層的數(shù)量以及模型參數(shù)較其他3種網(wǎng)絡(luò)少,在訓(xùn)練性能方面,DCNN模型更適合管制員眼部圖像這種像素較小,特征較少的樣本的分類任務(wù);通過縱向?qū)Ρ菵CNN模型在3種數(shù)據(jù)集上的識別精度、召回率和F1分?jǐn)?shù)等指標(biāo),DCNN模型在ATCE數(shù)據(jù)集上具有更高的準(zhǔn)確率,能夠更準(zhǔn)確快速的檢測管制員疲勞狀態(tài)。
眼部狀態(tài)檢測是對管制員疲勞檢測的一類主要技術(shù),為提高疲勞狀態(tài)檢測的準(zhǔn)確率和檢測速率,提出了一種基于眼部小像素圖像分類任務(wù)的DCNN模型來實現(xiàn)管制員疲勞檢測的方法,得出以下結(jié)論。
(1)為提高疲勞檢測模型的魯棒性,采用MTCNN檢測算法,可以對一些非正面人臉圖像做到實時檢測。
(2)為提高檢測效率和準(zhǔn)確性,利用遷移學(xué)習(xí)預(yù)訓(xùn)練了自建的DCNN模型,該模型簡而輕,能更精確地提取眼部小尺寸圖像疲勞特征,DCNN模型在ZJU數(shù)據(jù)集上的準(zhǔn)確率提高了7%,在CEW數(shù)據(jù)集上提高了3%~7%。
(3)在ATCE數(shù)據(jù)集上,DCNN模型的測試準(zhǔn)確率較ZJU數(shù)據(jù)集和CEW數(shù)據(jù)集提升了2%,更適合判定管制員眼部疲勞狀態(tài)。
本模型對極端頭部姿態(tài)識別時,可能發(fā)生誤檢的情況,在未來工作中,將豐富極端頭部姿態(tài)下的眼部數(shù)據(jù)集,優(yōu)化面部檢測方法,提高檢測的多樣性,使其更符合實際管制情境。