摘要:機(jī)場(chǎng)行李箱分揀是機(jī)場(chǎng)安檢的重要環(huán)節(jié)之一。目前,在行李箱分揀過(guò)程中,普遍存在機(jī)場(chǎng)人員的暴力分揀行為。為杜絕此類(lèi)違規(guī)現(xiàn)象的發(fā)生,本文提出了一種基于SlowFast動(dòng)作行為識(shí)別算法的系統(tǒng),可以實(shí)時(shí)監(jiān)測(cè)機(jī)場(chǎng)分揀人員的暴力分揀行為。SlowFast神經(jīng)網(wǎng)絡(luò)算法通過(guò)慢速路徑(slow-pathway)捕獲靜態(tài)信息和全局動(dòng)態(tài)信息,快速路徑(fast-pathway)捕獲局部動(dòng)態(tài)信息。兩個(gè)路徑提取的特征經(jīng)過(guò)融合后,在存在暴力分揀行為的AVA格式訓(xùn)練集上進(jìn)行迭代訓(xùn)練,獲得最佳檢測(cè)模型。實(shí)際應(yīng)用表明,本系統(tǒng)在室內(nèi)場(chǎng)景中識(shí)別暴力分揀行為的準(zhǔn)確率達(dá)到了99.1%,能夠有效減少此類(lèi)違規(guī)行為的發(fā)生。
關(guān)鍵詞:SlowFast算法;神經(jīng)網(wǎng)絡(luò);機(jī)場(chǎng);行李分揀;行為識(shí)別
中圖分類(lèi)號(hào):TP399 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2024)24-0043-03
開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID)
0引言
近年來(lái),隨著世界民航事業(yè)的迅猛發(fā)展,機(jī)場(chǎng)客流量激增,行李箱總量給機(jī)場(chǎng)分揀系統(tǒng)造成了巨大壓力。截至2023年,國(guó)內(nèi)機(jī)場(chǎng)客流量激增至32.4億人次,遠(yuǎn)超行業(yè)專(zhuān)家的預(yù)測(cè)。預(yù)計(jì)在未來(lái)幾年,國(guó)內(nèi)機(jī)場(chǎng)客流量將繼續(xù)保持高增長(zhǎng)勢(shì)頭。然而,伴隨著客流量的激增,許多違規(guī)操作的暴力分揀行為出現(xiàn),持續(xù)引發(fā)廣泛關(guān)注。在機(jī)場(chǎng)分揀系統(tǒng)中,由于工作壓力和分揀人員的工作態(tài)度等原因,行李箱遭遇踢、拋、扔、摔等違規(guī)操作,導(dǎo)致行李箱受到嚴(yán)重的人為損壞,不僅造成一定的經(jīng)濟(jì)損失,同時(shí)也損害了機(jī)場(chǎng)的聲譽(yù),性質(zhì)極為惡劣。因此,識(shí)別機(jī)場(chǎng)中的暴力分揀行為已然成為機(jī)場(chǎng)行李箱分揀系統(tǒng)的重要組成部分。
傳統(tǒng)的暴力分揀行為識(shí)別方式包括人工檢查和視頻監(jiān)控。人工檢查通過(guò)人員觀(guān)察分揀過(guò)程,若發(fā)現(xiàn)分揀員在處理行李箱時(shí)存在踢、拋、扔、摔等明顯粗暴的違規(guī)動(dòng)作,則可判斷為暴力分揀。此方法需要投入大量人力資源,且存在主觀(guān)性和監(jiān)控盲區(qū)的問(wèn)題。視頻監(jiān)控通過(guò)在分揀區(qū)域安裝攝像頭,可實(shí)時(shí)監(jiān)控行李箱的分揀過(guò)程。工作人員通過(guò)查看監(jiān)控視頻,判斷是否存在暴力分揀行為。這種方式較為客觀(guān)但仍需人工參與,對(duì)大量視頻數(shù)據(jù)的處理和分析效率較低。
Yang等[1]提出了一種在時(shí)間和空間兩個(gè)維度進(jìn)行圖卷積的時(shí)空卷積網(wǎng)絡(luò)(ST-GCN),但該方法對(duì)多個(gè)識(shí)別目標(biāo)的識(shí)別不夠準(zhǔn)確,且檢測(cè)時(shí)間較長(zhǎng)。楊君等[2]基于OpenPose模型,通過(guò)人體關(guān)鍵點(diǎn)檢測(cè)的方法進(jìn)行人體動(dòng)作識(shí)別,但該算法相對(duì)復(fù)雜,需消耗大量計(jì)算資源。同時(shí),當(dāng)人體出現(xiàn)遮擋時(shí),可能無(wú)法準(zhǔn)確檢測(cè)到關(guān)鍵點(diǎn),而且對(duì)光照和背景也十分敏感。
1相關(guān)技術(shù)與理論
卷積神經(jīng)網(wǎng)絡(luò)[3]是深度學(xué)習(xí)領(lǐng)域的重要技術(shù)之一,在目標(biāo)檢測(cè)和行為識(shí)別任務(wù)中具有顯著優(yōu)勢(shì),遠(yuǎn)超其他技術(shù)。卷積神經(jīng)網(wǎng)絡(luò)具備局部特殊感知的特點(diǎn),可以共享權(quán)重參數(shù),大大降低網(wǎng)絡(luò)運(yùn)算的復(fù)雜度。本文采用的SlowFast算法[4]是一種典型的有監(jiān)督卷積神經(jīng)網(wǎng)絡(luò)算法。它采用雙分支結(jié)構(gòu),結(jié)合兩個(gè)不同速度的卷積神經(jīng)網(wǎng)絡(luò)(CNN)來(lái)處理視頻中的動(dòng)態(tài)和靜態(tài)信息。其中,慢速路徑(slow-pathway)捕獲靜態(tài)信息和全局動(dòng)態(tài)信息,快速路徑(fast-pathway)捕獲局部動(dòng)態(tài)信息。為了提取圖像特征,使用了3DResNet模型[5],捕獲若干幀后進(jìn)行3D卷積[6]操作。在Slow路徑中,ResNet層被用來(lái)處理低幀率、低時(shí)間分辨率的視頻幀。在Fast路徑中,ResNet層被用來(lái)處理高幀率、高時(shí)間分辨率的視頻幀,從而捕獲詳細(xì)的運(yùn)動(dòng)信息。最后,通過(guò)側(cè)向連接(lateral connect)進(jìn)行融合,使得兩個(gè)路徑可以相互借鑒信息,從而以不同的速率處理原始視頻。
本文使用的卷積核為3D卷積,它是一種在三維空間中進(jìn)行濾波操作的技術(shù),可以在深度、高度和寬度三個(gè)維度上同時(shí)提取特征。尺寸記作{T×S2, C},其中T、S和C分別表示時(shí)序Temporal(時(shí)間)、空間Spatial(寬度×高度)和頻道Channel(通道)的尺寸。3D卷積核是一個(gè)小型的三維矩陣,會(huì)在輸入的三維數(shù)據(jù)(如視頻幀序列)上滑動(dòng)。在滑動(dòng)的每個(gè)位置,卷積核都會(huì)與對(duì)應(yīng)位置的輸入數(shù)據(jù)進(jìn)行元素乘法并求和,從而生成一個(gè)輸出值。這個(gè)過(guò)程會(huì)在整個(gè)輸入數(shù)據(jù)上重復(fù)進(jìn)行,最終生成一個(gè)新的三維輸出數(shù)據(jù)塊。與二維卷積相比,3D卷積能夠更好地捕捉視頻數(shù)據(jù)中的時(shí)間維度信息,即幀與幀之間的動(dòng)態(tài)變化。這使得3D卷積在動(dòng)作識(shí)別、視頻分類(lèi)等任務(wù)中具有獨(dú)特的優(yōu)勢(shì)。
2技術(shù)路線(xiàn)
為了識(shí)別暴力分揀行為,基于SlowFast神經(jīng)網(wǎng)絡(luò)算法,本文對(duì)原始視頻序列進(jìn)行了分割,并標(biāo)注了人物回歸框的位置(x1,y1,x2,y2)和人物的行為標(biāo)簽,使其與動(dòng)作行為文件的標(biāo)號(hào)一一對(duì)應(yīng)。然后將原始視頻數(shù)據(jù)切分為一系列的幀序列,并對(duì)幀序列進(jìn)行尺寸調(diào)整、歸一化等與處理操作,從而適應(yīng)模型的要求。然后采用雙分支結(jié)構(gòu)的SlowFast算法進(jìn)行特征提取,在慢速路徑中,使用較深的網(wǎng)絡(luò)結(jié)構(gòu)作為主干,使用較低的頻率輸入幀序列,以獲取豐富的空間信息;在快速路徑中,使用較淺的網(wǎng)絡(luò)結(jié)構(gòu),以較高的頻率輸入幀序列,來(lái)捕獲更精細(xì)的時(shí)間動(dòng)態(tài),以補(bǔ)充慢速路徑中缺失的時(shí)間信息。特征提取完成后,在不同層級(jí)上,使用time-to-channel的方法,重塑并交換維度,將快速路徑提取的特征融入慢速路徑中,從而增強(qiáng)模型的時(shí)空表征能力。最后設(shè)定好超參數(shù)和優(yōu)化方法,反向傳播求解梯度,更新權(quán)重參數(shù),從而訓(xùn)練一個(gè)較好的模型,利用模型對(duì)視頻序列進(jìn)行預(yù)測(cè),識(shí)別其中存在的暴力分揀行為。
3網(wǎng)絡(luò)結(jié)構(gòu)介紹
本實(shí)驗(yàn)采用了動(dòng)作識(shí)別算法SlowFast作為實(shí)驗(yàn)算法,該算法能夠同時(shí)捕捉視頻中的空間語(yǔ)義信息和時(shí)間動(dòng)態(tài)信息。得益于快速路徑的輕量化設(shè)計(jì),通過(guò)減少通道容量和避免在時(shí)間維度上的降采樣,使快速路徑的計(jì)算量相對(duì)較小。同時(shí),快速路徑和慢速路徑的特征融合采用了更為高效的方式,進(jìn)一步提高了計(jì)算效率。在實(shí)際應(yīng)用中,該算法在多個(gè)驗(yàn)證數(shù)據(jù)集上均取得了卓越的性能,在準(zhǔn)確率和召回率上表現(xiàn)優(yōu)異。
SlowFast網(wǎng)絡(luò)由卷積層和池化層組成,并將ResNet殘差連接模塊作為特征提取模塊,從而保證新特征能夠不斷被學(xué)習(xí)。在特征提取前,還設(shè)置了不同大小的步長(zhǎng)以進(jìn)行間隔采樣。其中在慢速路徑中,步長(zhǎng)較大,而在快速路徑中,步長(zhǎng)較小。此外,快速路徑使用的3D卷積核的時(shí)間維度較大,表示關(guān)注的不再是靜止信息,而是通過(guò)卷積核提取每次多幀信息,從而不間斷地確定視頻幀序列中的動(dòng)作語(yǔ)義信息。慢速路徑中使用的3D卷積核的時(shí)間維度較小,這表示無(wú)須考慮視頻幀序列之間的連續(xù)關(guān)系,只需獲取靜態(tài)特征,即背景語(yǔ)義信息。
4實(shí)驗(yàn)方案
4.1數(shù)據(jù)集獲取與預(yù)處理
本次實(shí)驗(yàn)使用了符合AVA格式的視頻幀數(shù)據(jù),數(shù)據(jù)總量為430個(gè)視頻,其中235個(gè)用于訓(xùn)練,64個(gè)用于驗(yàn)證,131個(gè)用于測(cè)試。每個(gè)視頻的時(shí)長(zhǎng)為15分鐘,以1秒為間隔進(jìn)行標(biāo)注,標(biāo)注文件保存為CSV格式。此外,通過(guò)隨機(jī)裁剪和翻轉(zhuǎn)等數(shù)據(jù)增強(qiáng)操作提升模型的魯棒性。本次實(shí)驗(yàn)的標(biāo)注類(lèi)型包括四類(lèi)動(dòng)作:踢、拋、扔和摔。使用VIA工具標(biāo)注視頻幀序列中不同幀數(shù)下的動(dòng)作行為,并框選人物,勾選行為類(lèi)型,以構(gòu)建符合AVA格式的數(shù)據(jù)集。
為了提高模型的遷移和泛化能力,實(shí)驗(yàn)中Slow pathway和Fast pathway的輸入分別為T(mén)幀和αT幀。在空間域上,隨機(jī)從視頻或其水平翻轉(zhuǎn)中裁剪224×224的圖像,或在[256,320]像素范圍內(nèi)隨機(jī)采樣較短的邊。
4.2 SlowFast算法模型訓(xùn)練
在SlowFast算法模型訓(xùn)練方面,步驟如下:1)準(zhǔn)備用于訓(xùn)練的視頻幀序列和標(biāo)注文件,包含目標(biāo)動(dòng)作或行為以及人物位置。2)進(jìn)行視頻抽幀,將視頻轉(zhuǎn)為圖像序列,慢速路徑和快速路徑以不同幀率采集,以適應(yīng)不同時(shí)間尺度的動(dòng)作識(shí)別。3)設(shè)定學(xué)習(xí)率、訓(xùn)練批次等超參數(shù)。4)選擇合適的優(yōu)化方法。5)執(zhí)行梯度歸零,進(jìn)行反向傳播以求解梯度,更新權(quán)重參數(shù),尋找函數(shù)的極小值點(diǎn)。6)最終獲取訓(xùn)練好的模型。
在訓(xùn)練過(guò)程中通過(guò)SlowFast算法,網(wǎng)絡(luò)通過(guò)學(xué)習(xí)從輸入的視頻幀中提取特征,并基于標(biāo)注信息進(jìn)行預(yù)測(cè)。通過(guò)反向傳播算法和優(yōu)化器調(diào)整網(wǎng)絡(luò)的權(quán)重和參數(shù)(即權(quán)重和偏差),以最小化預(yù)測(cè)誤差,最終得到最佳的動(dòng)作識(shí)別模型。
5實(shí)驗(yàn)配置和結(jié)果分析
本實(shí)驗(yàn)的運(yùn)行環(huán)境如下:GPU為NVIDIA GeForce 1650(notebook);CPU為9th Intel i5-9300H@2.40Hz;內(nèi)存16GB。Cuda版本為12.1;cuDNN版本為8.5;操作系統(tǒng)為Window11;開(kāi)發(fā)語(yǔ)言為Python;開(kāi)發(fā)框架為PyTorch;優(yōu)化器采用自適應(yīng)的梯度下降A(chǔ)dam。超參數(shù)設(shè)置如下:動(dòng)量因子為0.94;最大迭代次數(shù)為300;初始學(xué)習(xí)率為0.001;權(quán)重衰退系數(shù)為0.0002。
5.1 評(píng)價(jià)指標(biāo)
本文采用F1-score[7]來(lái)衡量暴力分揀行為的識(shí)別效果。F1-score是精確率和召回率的調(diào)和平均數(shù),用于綜合評(píng)估模型的性能。在SlowFast算法中,F(xiàn)1-score可以提供一個(gè)平衡精確率和召回率的指標(biāo)。精確率表示模型預(yù)測(cè)為正例的樣本中真正為正例的比例,而召回率則表示在所有真正為正例的樣本中,模型正確識(shí)別出的比例。在某些情況下,精確率和召回率可能會(huì)出現(xiàn)矛盾,例如,當(dāng)模型預(yù)測(cè)的正例過(guò)多時(shí),精確率可能會(huì)下降而召回率上升;反之,當(dāng)模型預(yù)測(cè)的正例過(guò)少時(shí),精確率可能會(huì)上升而召回率下降。因此,單獨(dú)使用精確率或召回率作為評(píng)價(jià)指標(biāo)可能不夠全面。使用F1-score則能夠更全面地反映模型在分類(lèi)任務(wù)上的表現(xiàn)。其計(jì)算公式如下:
[F1-score=2Precision×RecallPrecision+Recall]
式中:Precision表示精確率,Recall表示召回率。
經(jīng)過(guò)對(duì)430個(gè)視頻幀序列進(jìn)行200次迭代訓(xùn)練后,獲得了最佳的權(quán)重模型。在測(cè)試集上驗(yàn)證的PR圖如圖1所示。
由圖1可知,動(dòng)作行為“踢”在較低召回率下的精確度相對(duì)較高,但隨著召回率的提高,精確度逐漸下降。這表明在檢測(cè)“踢”這一動(dòng)作時(shí),系統(tǒng)在嚴(yán)格條件下更容易準(zhǔn)確識(shí)別,然而在寬松條件下可能會(huì)引入更多誤檢。動(dòng)作行為“拋”的精確度曲線(xiàn)在整個(gè)召回率范圍內(nèi)波動(dòng)較大,且沒(méi)有明顯趨勢(shì),這可能說(shuō)明識(shí)別“拋”時(shí)受到多種因素影響,或數(shù)據(jù)集中“拋”樣本具有較高的多樣性。動(dòng)作行為“扔”的精確度曲線(xiàn)相對(duì)平穩(wěn),在大部分召回率下保持在中等水平,表明“扔”的分類(lèi)性能穩(wěn)定但非最佳。動(dòng)作行為“摔”在較高召回率下的精確度明顯較高,顯示出在寬松檢測(cè)條件下,系統(tǒng)能夠有效識(shí)別“摔”,同時(shí)保持較高精確度。實(shí)驗(yàn)結(jié)果顯示,本系統(tǒng)對(duì)暴力分揀中的違規(guī)行為識(shí)別準(zhǔn)確率較高,并且在測(cè)試集上依然可以準(zhǔn)確識(shí)別特定動(dòng)作行為,表現(xiàn)出強(qiáng)的魯棒性。
測(cè)試集的驗(yàn)證效果如圖2所示。實(shí)驗(yàn)檢測(cè)效果如圖3所示。網(wǎng)絡(luò)模型中的訓(xùn)練損失如圖4所示。
由圖4可知,隨著迭代次數(shù)的增加,損失函數(shù)逐漸呈現(xiàn)出減少的趨勢(shì)。特別是在引入動(dòng)量因子后,下降過(guò)程變得更加平滑,有效地避免了震蕩下降的現(xiàn)象,顯示出一條穩(wěn)定的下降曲線(xiàn)。當(dāng)?shù)M(jìn)行到第30次時(shí),梯度下降的速度開(kāi)始逐漸放緩,這表明損失已經(jīng)接近其最小值。與此同時(shí),mAP值也在逐步接近其最大值,這反映了模型的預(yù)測(cè)能力在不斷提升,模型的擬合程度日益增強(qiáng)。
6 實(shí)驗(yàn)總結(jié)
本文設(shè)計(jì)了一種基于SlowFast算法的暴力分揀行為識(shí)別系統(tǒng),該算法在視頻行為識(shí)別任務(wù)中表現(xiàn)出色,特別是在處理長(zhǎng)視頻和復(fù)雜動(dòng)作時(shí)。同時(shí),在某些動(dòng)作類(lèi)別上,該模型的性能不如其他動(dòng)作類(lèi)別,可能與動(dòng)作類(lèi)別間的樣本數(shù)量不平衡有關(guān)。但總體來(lái)看,模型在保持高準(zhǔn)確率的同時(shí)提供了較快的處理速度,可用于實(shí)時(shí)檢測(cè)任務(wù),并應(yīng)用于機(jī)場(chǎng)行李箱的分揀業(yè)務(wù)中。
參考文獻(xiàn):
[1] ZHU S Q,DING X L,YANG K,et al.A spatial attention-enhanced multi-timescale graph convolutional network for skeleton-based action recognition[C]//Proceedings of the 2020 3rd International Conference on Artificial Intelligence and Pattern Recognition.Xiamen China.ACM,2020.
[2] 楊君,張素君,張創(chuàng)豪,等.基于OpenPose的人體動(dòng)作識(shí)別對(duì)比研究[J].傳感器與微系統(tǒng),2021,40(1):5-8.
[3] 吳婷,劉瑞欣,劉明甫,等.基于深度學(xué)習(xí)的人體行為識(shí)別綜述[J].現(xiàn)代信息科技,2024,8(4):50-55.
[4] FEICHTENHOFER C,F(xiàn)AN H Q,MALIK J,et al.SlowFast networks for video recognition[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV).October 27 - November 2,2019,Seoul,Korea (South).IEEE,2019:6201-6210.
[5] HE K M,ZHANG X Y,REN S Q,et al.Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).June 27-30,2016,Las Vegas,NV,USA.IEEE,2016:770-778.
[6] 蔣可欣,謝雨含,李勉文,等.基于半月板MRI的3D卷積神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)膝骨關(guān)節(jié)炎發(fā)生的研究[J].磁共振成像,2024,15(2):103-107,121.
[7] 王照國(guó),張紅云,苗奪謙.基于F1值的非極大值抑制閾值自動(dòng)選取方法[J].智能系統(tǒng)學(xué)報(bào),2020,15(5):1006-1012.
【通聯(lián)編輯:唐一東】