任丹彤, 何赟澤,2*, 劉賢金, 易 輝, 王彥鑫, 譙靈俊
(1.湖南大學(xué) 電氣與信息工程學(xué)院,湖南 長(zhǎng)沙 410082;2.高性能智能傳感器及檢測(cè)系統(tǒng)湖南省重點(diǎn)實(shí)驗(yàn)室,湖南 長(zhǎng)沙 410082;3.湖南紅太陽(yáng)新能源科技有限公司,湖南 長(zhǎng)沙 410205)
在產(chǎn)業(yè)智能化升級(jí)的趨勢(shì)下,越來(lái)越多的企業(yè)正試圖通過(guò)機(jī)器人和人工智能等技術(shù),打造智慧工廠[1]。在智慧工廠中,工人的活動(dòng)范圍較廣且環(huán)境復(fù)雜,車(chē)間內(nèi)嚴(yán)禁使用明火、抽煙、打電話等易造成事故的行為發(fā)生。如果采用傳統(tǒng)的人工分析視頻的方法來(lái)監(jiān)控人員行為,耗時(shí)費(fèi)力且容易出現(xiàn)疏漏,因此迫切需要研究面向智慧工廠的車(chē)間人員行為識(shí)別方法,從而實(shí)現(xiàn)智能化的安防管控。
早期對(duì)行為識(shí)別的研究是將運(yùn)動(dòng)人體的輪廓、運(yùn)動(dòng)方向等作為特征信息進(jìn)行識(shí)別,主要包括時(shí)空興趣點(diǎn)法和運(yùn)動(dòng)軌跡法[2]等,改進(jìn)的密集軌跡(Improved Dense Trajectories,IDT)算法是其中最經(jīng)典的模型。隨著人體三維數(shù)據(jù)采集技術(shù)的發(fā)展,行為識(shí)別可大致分為兩類(lèi)。一類(lèi)是基于骨骼關(guān)鍵點(diǎn)的行為識(shí)別[3],利用視頻幀之間關(guān)鍵點(diǎn)的變化描述人體行為。Yan等[4]通過(guò)骨骼序列構(gòu)建時(shí)空?qǐng)D,提出了基于骨架的動(dòng)作識(shí)別時(shí)空?qǐng)D卷積網(wǎng)絡(luò)(Spatial Temporal Graph Convolutional Networks,ST-GCN)。Plizzari等[5]提出的時(shí)空轉(zhuǎn)換網(wǎng)絡(luò)(Spatial-Temporal Transformer Network,ST-TR)針對(duì)ST-GCN只能捕捉局部特征這一不足進(jìn)行了改進(jìn),提出了空間自注意力模塊(Spatial Self-Attention,SSA)和時(shí)間自注意力模塊(Temporal Self-Attention,TSA)來(lái)捕捉特征。另一類(lèi)是基于RGB的深度學(xué)習(xí)方法,根據(jù)要處理的輸入任務(wù)可分為基于視頻和基于圖像的行為識(shí)別?;谝曨l的行為識(shí)別方法是給定剪輯好的視頻行為片段,輸出視頻級(jí)的行為類(lèi)別,主流方法有TSN(Temporal Segment Networks)[6]、TSM(Temporal Shift Module)[7]、SlowFast、TimeSformer(Time-Space Transformer)等。TSN屬于雙流法(Two-Stream),將特征提取分為2路,一路分支使用RGB視頻幀提取空間特征,另一路對(duì)時(shí)間提取光流特征。Feichtenhofer等[8]提出的SlowFast與雙流法思路類(lèi)似,Slow分支用于學(xué)習(xí)空間語(yǔ)義信息,F(xiàn)ast分支學(xué)習(xí)運(yùn)動(dòng)信息。Facebook提出的TimeSformer[9]是一種無(wú)卷積的視頻分類(lèi)方法,基于Transformer模型的自注意力機(jī)制,對(duì)一系列視頻幀提取時(shí)空序列并單獨(dú)應(yīng)用時(shí)間注意力和空間注意力進(jìn)行學(xué)習(xí)?;趫D像的行為識(shí)別方法分為以殘差網(wǎng)絡(luò)(ResNet)為代表的行為分類(lèi)和以YOLO(You Only Look Once)為代表的行為檢測(cè)。ResNet輸出的是圖像級(jí)的分類(lèi)結(jié)果,YOLO是對(duì)輸入的視頻幀中的每個(gè)目標(biāo)進(jìn)行定位和類(lèi)別檢測(cè),是一種端到端的訓(xùn)練和推斷方法。
車(chē)間行為多為人和物的交互,基于骨骼關(guān)鍵點(diǎn)的行為識(shí)別方法僅輸入關(guān)鍵點(diǎn)的坐標(biāo)信息,丟棄了關(guān)鍵的物體和語(yǔ)義信息,難以區(qū)分相似動(dòng)作(如打電話和摸耳朵)?;赗GB的深度學(xué)習(xí)方法中,多數(shù)方法對(duì)輸入數(shù)據(jù)的處理要求嚴(yán)格,為保證充分的模型訓(xùn)練需要大量的數(shù)據(jù),對(duì)計(jì)算設(shè)備的要求高,推理速度也有所欠缺。其中,基于圖像的行為識(shí)別方法由于采用端到端的網(wǎng)絡(luò)結(jié)構(gòu),推理速度較快,模型體積較小且容易部署。
上述兩類(lèi)行為識(shí)別方法都是基于可見(jiàn)光的視頻輸入[10],可見(jiàn)光圖像雖然含有清晰豐富的紋理細(xì)節(jié),但在車(chē)間某些昏暗或隱蔽的環(huán)境下觀測(cè)效果差,容易遺漏目標(biāo)。相反紅外圖像能夠根據(jù)輻射差異將目標(biāo)與背景區(qū)分開(kāi),特征更為突出。常用的監(jiān)控視頻包括紅外和可見(jiàn)光2種,僅使用紅外識(shí)別的方法也存在分辨率較低和細(xì)節(jié)缺失的問(wèn)題,因此考慮將可見(jiàn)光圖像和紅外圖像進(jìn)行融合,彌補(bǔ)單一傳感器成像的不足,從而提高識(shí)別精度。融合方式包括像素級(jí)融合、特征級(jí)融合和決策級(jí)融合。像素級(jí)融合[11]和特征級(jí)融合[12]在對(duì)算力和時(shí)間的需求上都比決策級(jí)融合要高,而決策級(jí)融合[13]能夠吸取可見(jiàn)光和紅外的互補(bǔ)信息達(dá)到全局最優(yōu)。
為了有效地規(guī)范車(chē)間人員的行為,針對(duì)傳統(tǒng)監(jiān)控方式耗時(shí)費(fèi)力和單一數(shù)據(jù)源易受環(huán)境影響識(shí)別效果差的問(wèn)題,筆者提出一種面向智慧工廠的雙光融合車(chē)間行為的識(shí)別方法。主要工作為建立了包含9類(lèi)車(chē)間行為的可見(jiàn)光數(shù)據(jù)集和紅外數(shù)據(jù)集,用于重新訓(xùn)練YOLOv5網(wǎng)絡(luò);提出了決策級(jí)融合算法,用于同時(shí)識(shí)別可見(jiàn)光和紅外數(shù)據(jù)中的目標(biāo)并進(jìn)行融合,作為最終融合圖像中的檢測(cè)結(jié)果;通過(guò)實(shí)驗(yàn)將本文算法與其他算法的檢測(cè)結(jié)果進(jìn)行對(duì)比,能夠減少漏檢的情況,提高行為識(shí)別的效果和精度。
本文提出的雙光融合行為識(shí)別方法如圖1所示。首先獲取可見(jiàn)光數(shù)據(jù)與紅外數(shù)據(jù),建立車(chē)間可見(jiàn)光-紅外行為數(shù)據(jù)集,使用YOLOv5網(wǎng)絡(luò)分別訓(xùn)練可見(jiàn)光模型YOLO_VI和紅外模型YOLO_IR。從測(cè)試集中抽取數(shù)據(jù)制作可見(jiàn)光-紅外圖像對(duì),使用模型同時(shí)對(duì)可見(jiàn)光-紅外圖像對(duì)進(jìn)行推理預(yù)測(cè)。根據(jù)融合策略對(duì)2個(gè)模型預(yù)測(cè)的結(jié)果進(jìn)行決策融合,從而得到最終融合圖像的行為識(shí)別結(jié)果。
圖1 雙光融合行為識(shí)別方法
異常行為的定義[14]是在某場(chǎng)景下正常位置和正常時(shí)刻發(fā)生的不尋常的動(dòng)作、姿態(tài)或事件。以本項(xiàng)目智慧車(chē)間為例,雖然車(chē)間內(nèi)有一套嚴(yán)格的生產(chǎn)行為規(guī)范,但是仍有部分員工無(wú)法按照制定的操作規(guī)范進(jìn)行操作;且車(chē)間范圍大,內(nèi)有多個(gè)分區(qū)和通道,易產(chǎn)生視覺(jué)盲區(qū),如有員工突發(fā)不適會(huì)難以察覺(jué);另外,車(chē)間內(nèi)部嚴(yán)禁明火、吸煙和不規(guī)范操作的行為出現(xiàn)。在此基礎(chǔ)上經(jīng)過(guò)調(diào)研和走訪,設(shè)計(jì)了6類(lèi)異常行為和3類(lèi)工作行為,行為類(lèi)別如表1所示。
表1 行為類(lèi)別
YOLOv5的網(wǎng)絡(luò)結(jié)構(gòu)分為輸入端、主干網(wǎng)絡(luò)(Backbone)、中間層(Neck)和輸出端4個(gè)部分[15]。在輸入端使用自適應(yīng)錨框計(jì)算方式;對(duì)原始圖像自適應(yīng)地添加最少的黑邊,減少信息冗余;采用Mosaic數(shù)據(jù)增強(qiáng),隨機(jī)使用4張圖片隨機(jī)縮放再隨機(jī)分布拼接,豐富了數(shù)據(jù)集,使網(wǎng)絡(luò)的魯棒性更好。
主干網(wǎng)絡(luò)使用2種CSP模塊,如圖2所示。
圖2 CSP模塊
圖2中,CSP1_X結(jié)構(gòu)應(yīng)用于主干網(wǎng)絡(luò),在反向傳播時(shí)增強(qiáng)梯度值,可以有效防止網(wǎng)絡(luò)加深時(shí)引起的梯度消失,使特征粒度更細(xì)。CSP2_X結(jié)構(gòu)應(yīng)用于Neck中,保留了更豐富的特征信息,同時(shí)降低了計(jì)算瓶頸,減少了內(nèi)存成本。中間層引入了SPP模塊,如圖3所示,與單純使用k×k最大池化的方式相比,其能夠有效增加主干特征的接收范圍,更好地提取融合特征。
圖3 SPP模塊
1.4.1 融合前訓(xùn)練
紅外圖像與可見(jiàn)光圖像包含的細(xì)節(jié)信息不同,為保證融合前檢測(cè)的準(zhǔn)確性,分別使用可見(jiàn)光數(shù)據(jù)集和紅外數(shù)據(jù)集重新訓(xùn)練YOLOv5網(wǎng)絡(luò),得到權(quán)重模型。
1.4.2 圖像對(duì)匹配
融合應(yīng)對(duì)目標(biāo)的位置和行為類(lèi)別均進(jìn)行融合,由于可見(jiàn)光和紅外像素不同,在相同焦距拍攝的情況下存在廣度差異,需要對(duì)融合所需的數(shù)據(jù)進(jìn)行預(yù)處理,即制作匹配的圖像對(duì)。
1.4.3 融合策略
用訓(xùn)練好的權(quán)重模型對(duì)紅外-可見(jiàn)光圖像對(duì)預(yù)測(cè),下面以可見(jiàn)光圖像中某一目標(biāo)M的檢測(cè)結(jié)果為例進(jìn)行說(shuō)明。
(1)判定目標(biāo)僅在可見(jiàn)光圖像中被檢測(cè)到。
此時(shí)有如下關(guān)系:
scoreA≥a,IOU(A,B)
(1)
式中:scoreA為目標(biāo)M的可見(jiàn)光檢測(cè)框A的置信度;A、B分別為目標(biāo)M的可見(jiàn)光檢測(cè)框和對(duì)應(yīng)紅外圖像中與M類(lèi)別相同的紅外檢測(cè)框;a為置信度閾值,值為0.5;b為重疊度IOU閾值,值為0.6。
首先判斷可見(jiàn)光圖像中目標(biāo)M的檢測(cè)框是否正確,如果該檢測(cè)框置信度大于或等于閾值a,說(shuō)明預(yù)測(cè)正確并保留結(jié)果;如果小于閾值a,說(shuō)明預(yù)測(cè)結(jié)果不正確,舍棄結(jié)果。進(jìn)而遍歷對(duì)應(yīng)的紅外圖像中與目標(biāo)M類(lèi)別相同的檢測(cè)框,分別與目標(biāo)M的可見(jiàn)光檢測(cè)框做IOU計(jì)算,計(jì)算公式為
(2)
式中:area(A)為目標(biāo)M的可見(jiàn)光檢測(cè)框A的面積;area(B)為與目標(biāo)M同類(lèi)別的紅外檢測(cè)框B的面積。
如果IOU小于所設(shè)定的閾值b,說(shuō)明目標(biāo)M僅在可見(jiàn)光中被檢測(cè)到,將該檢測(cè)框的位置和類(lèi)別作為對(duì)應(yīng)融合目標(biāo)的檢測(cè)結(jié)果。
同樣地,該方法用于判定目標(biāo)僅在紅外圖像中被檢測(cè)到。
(2)判定目標(biāo)在可見(jiàn)光圖像和紅外圖像中同時(shí)被檢測(cè)到。
此時(shí)有如下關(guān)系:
scoreA≥a,scoreB≥a,IOU(A,B)≥b
(3)
式中:scoreA和scoreB分別為目標(biāo)M的可見(jiàn)光檢測(cè)框和紅外檢測(cè)框的置信度;在可見(jiàn)光圖像中目標(biāo)M檢測(cè)結(jié)果正確的前提下,從相應(yīng)的紅外圖像中選擇與目標(biāo)M類(lèi)別相同的檢測(cè)框,分別計(jì)算這些紅外檢測(cè)框與M檢測(cè)框的IOU。如果IOU大于或等于閾值b,說(shuō)明紅外檢測(cè)框檢測(cè)到的是目標(biāo)M。進(jìn)而從這些紅外檢測(cè)框中選擇置信度大于或等于閾值a的檢測(cè)框,則該檢測(cè)框?yàn)槟繕?biāo)M在對(duì)應(yīng)紅外圖像中的檢測(cè)框。
同樣地,該方法用于判定紅外圖像中被檢測(cè)到的目標(biāo)是否在對(duì)應(yīng)可見(jiàn)光圖像中被檢測(cè)到。
(3)融合檢測(cè)結(jié)果。
如果目標(biāo)M同時(shí)在紅外圖像和可見(jiàn)光圖像中被檢測(cè)到,對(duì)2個(gè)檢測(cè)框的位置和置信度進(jìn)行融合,可以得到融合檢測(cè)框的位置和置信度。
L=λVLVI+λILIR
(4)
式中:L為融合檢測(cè)框的位置;LVI為可見(jiàn)光檢測(cè)框的位置;LIR為紅外檢測(cè)框的位置;λV為L(zhǎng)VI對(duì)應(yīng)的權(quán)值;λI為L(zhǎng)IR對(duì)應(yīng)的權(quán)值。
融合檢測(cè)框的位置由紅外檢測(cè)框的位置和可見(jiàn)光檢測(cè)框的位置加權(quán)融合得到,λV和λI取0.5。
S=λ1SVI+λ2SIR
(5)
式中:S為融合檢測(cè)框的置信度;SVI為可見(jiàn)光檢測(cè)框的置信度;λ1為SVI對(duì)應(yīng)的權(quán)值;SIR為紅外檢測(cè)框的置信度;λ2為SIR對(duì)應(yīng)的權(quán)值。
對(duì)2個(gè)預(yù)測(cè)框的置信度進(jìn)行加權(quán)作為融合預(yù)測(cè)框的置信度。
雙光數(shù)據(jù)集制作分為2步:① 對(duì)原視頻進(jìn)行處理得到源數(shù)據(jù)集,用于訓(xùn)練雙光模型進(jìn)行融合前的預(yù)測(cè);② 從源數(shù)據(jù)集中抽取部分對(duì)應(yīng)的可見(jiàn)光與紅外圖像,制作圖像對(duì),用于驗(yàn)證融合算法的有效性。
本實(shí)驗(yàn)數(shù)據(jù)是在湖南紅太陽(yáng)新能源科技有限公司車(chē)間內(nèi)進(jìn)行采集,拍攝場(chǎng)景包括車(chē)間內(nèi)的隱蔽場(chǎng)景、無(wú)遮擋物的寬闊場(chǎng)景、不同工位所在的場(chǎng)景,對(duì)單人和多人行為均進(jìn)行采集。拍攝過(guò)程中將可見(jiàn)光相機(jī)和熱像儀放置于同一水平面并保持相對(duì)靜止,同時(shí)刻觸發(fā),同角度采集。可見(jiàn)光相機(jī)分辨率為1920像素×1080像素,幀率為30 f·s-1;熱像儀分辨率為640像素×512像素,幀率為30 f·s-1。
對(duì)采集到的視頻進(jìn)行標(biāo)準(zhǔn)化數(shù)據(jù)處理,經(jīng)過(guò)視頻抽幀和對(duì)高相似度圖片去重后,篩選得到原始圖片,再人工進(jìn)行標(biāo)注和多次審核,獲得可見(jiàn)光數(shù)據(jù)集10900張,紅外數(shù)據(jù)集10900張;行為類(lèi)別分為玩手機(jī)、打電話、躺倒、打架、吸煙、持刀危險(xiǎn)、工作行為1、工作行為2和工作行為3,共9個(gè)類(lèi)別。按照8∶2的比例隨機(jī)劃分訓(xùn)練集和測(cè)試集,其中可見(jiàn)光訓(xùn)練集有8720張、測(cè)試集有2180張,紅外訓(xùn)練集有8720張、測(cè)試集有2180張??梢?jiàn)光數(shù)據(jù)集組成和紅外數(shù)據(jù)集組成分別如表2和表3所示。
表2 可見(jiàn)光數(shù)據(jù)集組成
表3 紅外數(shù)據(jù)集組成
由于可見(jiàn)光相機(jī)和熱像儀的拍攝廣度和像素不同,直接融合會(huì)出現(xiàn)預(yù)測(cè)框的不匹配。因此需要以可見(jiàn)光圖像大小為基準(zhǔn),對(duì)紅外圖像進(jìn)行預(yù)處理。由于拍攝過(guò)程中2個(gè)設(shè)備保持相對(duì)靜止、相聚很近且均朝正前方拍攝,可近似認(rèn)為光軸幾乎平行,則在同一時(shí)刻觸發(fā)拍攝得到的可見(jiàn)光圖片與紅外圖片可以通過(guò)仿射變換關(guān)系實(shí)現(xiàn)匹配。匹配示例如圖4所示。
圖4 匹配示例
從測(cè)試集中抽取部分對(duì)應(yīng)圖片,制作342對(duì)可見(jiàn)光-紅外圖像對(duì),重新進(jìn)行標(biāo)注和審核,融合標(biāo)注規(guī)范要求包括所有的可見(jiàn)光目標(biāo)和紅外目標(biāo),標(biāo)注結(jié)果作為ground-truth進(jìn)行后續(xù)測(cè)試計(jì)算,為保證測(cè)試結(jié)果的有效性,該圖像對(duì)中各類(lèi)別行為所占比例應(yīng)盡可能相同。
本文實(shí)驗(yàn)所用CPU處理器為i9-10900X,GPU處理器為RTX3090,軟件環(huán)境為Python 3.8。為了驗(yàn)證融合算法的有效性,將通過(guò)3個(gè)方面進(jìn)行評(píng)估,其中檢測(cè)精度由平均精度mAP(Mean Average Precision)和召回率(Recall)評(píng)估,檢測(cè)速度由每秒推理的圖片數(shù)量(Frame Per Second,F(xiàn)PS)評(píng)估。
使用融合算法在服務(wù)器上對(duì)342對(duì)紅外-可見(jiàn)光圖像對(duì)進(jìn)行測(cè)試,其平均精度為93.04%,召回率為93%,推理速度達(dá)到61.3 f·s-1滿足實(shí)時(shí)檢測(cè)的要求。融合后各類(lèi)別數(shù)據(jù)檢測(cè)精度如圖5所示。
圖5 本文融合算法各類(lèi)測(cè)試結(jié)果
將融合算法檢測(cè)結(jié)果與YOLOv5網(wǎng)絡(luò)僅識(shí)別可見(jiàn)光圖像和僅識(shí)別紅外圖像的結(jié)果進(jìn)行比較,從圖6左圖可以看出,僅識(shí)別可見(jiàn)光圖像時(shí)檢出2個(gè)目標(biāo),僅識(shí)別紅外圖像時(shí)沒(méi)有檢出右側(cè)的目標(biāo),而本文算法在對(duì)應(yīng)的融合圖像中同時(shí)檢測(cè)出2個(gè)目標(biāo)“吸煙”;從圖6右圖可以看出,僅識(shí)別可見(jiàn)光圖像時(shí)沒(méi)有檢出目標(biāo)“持刀危險(xiǎn)”,本文融合算法在對(duì)應(yīng)的融合圖像中檢出了漏檢的“持刀危險(xiǎn)”,提高了識(shí)別精度。
圖6 檢測(cè)結(jié)果示例
為了驗(yàn)證融合算法的優(yōu)勢(shì),需要與其他算法的檢測(cè)結(jié)果比較。由于目前沒(méi)有通用的決策級(jí)融合算法,故采用特征級(jí)融合算法結(jié)果進(jìn)行比較。這里使用ADF[16]、GFCE[17]、IFEVIP[18]、TIF[19]和GFF[20]這5種融合算法進(jìn)行對(duì)比?;贏DF的融合檢測(cè)方法是通過(guò)各向異性擴(kuò)散對(duì)細(xì)節(jié)層和基礎(chǔ)層線性疊加得到融合圖像,再使用YOLOv5網(wǎng)絡(luò)對(duì)融合圖像檢測(cè)?;贕FCE的融合檢測(cè)方法是通過(guò)混合多尺度分解與融合得到融合圖像,再使用YOLOv5網(wǎng)絡(luò)對(duì)融合圖像檢測(cè)?;贗FEVIP的融合檢測(cè)方法是通過(guò)重建紅外背景進(jìn)行圖像融合,再使用YOLOv5網(wǎng)絡(luò)對(duì)融合圖像檢測(cè)?;赥IF的融合檢測(cè)方法是通過(guò)加權(quán)平均策略對(duì)基礎(chǔ)層和細(xì)節(jié)層進(jìn)行融合,再使用YOLOv5網(wǎng)絡(luò)對(duì)融合圖像檢測(cè)?;贕FF的融合檢測(cè)方法是使用多種濾波器進(jìn)行圖像融合,再使用YOLOv5網(wǎng)絡(luò)對(duì)融合圖像檢測(cè)。各融合算法檢測(cè)示例如圖7所示,在同一數(shù)據(jù)集上的算法性能對(duì)比結(jié)果如表4所示。
表4 算法性能對(duì)比
從圖7可以看出,本文融合算法檢測(cè)到了所有目標(biāo),其余算法均有漏檢的情況。本文融合算法的平均精度與YOLO_VI和YOLO_IR相比,分別提升了3.43%和0.84%;與ADF融合檢測(cè)、GFCE融合檢測(cè)、IFEVIP融合檢測(cè)、TIF融合檢測(cè)和GFF融合檢測(cè)相比,平均精度分別提升了8.17%、8.43%、7.73%、18.34%和8.43%。實(shí)驗(yàn)結(jié)果表明,本文提出的融合算法能夠利用紅外與可見(jiàn)光的互補(bǔ)性,有效地提升檢測(cè)精度,推理速度能夠滿足實(shí)時(shí)識(shí)別的要求。
圖7 各算法檢測(cè)示例
以工業(yè)車(chē)間為背景,針對(duì)傳統(tǒng)監(jiān)控采用單一成像的方式且難以規(guī)范人員行為的問(wèn)題,提出一種雙光融合行為識(shí)別算法。融合算法在使用YOLOv5網(wǎng)絡(luò)訓(xùn)練可見(jiàn)光與紅外數(shù)據(jù)的基礎(chǔ)上,用決策級(jí)融合方式對(duì)檢測(cè)結(jié)果進(jìn)行處理,從而獲得融合后的行為識(shí)別結(jié)果。與其他算法相比,該算法對(duì)漏檢問(wèn)題有明顯改善,識(shí)別精度均有提升。而且模型能夠部署在嵌入式平臺(tái)實(shí)現(xiàn)在線檢測(cè),可用于監(jiān)控車(chē)間的安全生產(chǎn),及時(shí)發(fā)現(xiàn)異常行為并進(jìn)行預(yù)警。
對(duì)未來(lái)的研究工作需要注意以下2點(diǎn)。
① 人-物交互行為的識(shí)別需要依靠檢測(cè)算法,如何提高對(duì)小目標(biāo)的檢測(cè)能力是研究的重點(diǎn)之一。一方面可以利用生成對(duì)抗網(wǎng)絡(luò)提高小目標(biāo)的分辨率實(shí)現(xiàn)圖像增強(qiáng);另一方面可增加小目標(biāo)的檢測(cè)層獲取更大的特征圖,同時(shí)要考慮由計(jì)算量增加引起的速度下降問(wèn)題。
② 考慮引入骨骼識(shí)別等構(gòu)建時(shí)間和空間信息的網(wǎng)絡(luò),這對(duì)于判別行為發(fā)生的始末實(shí)現(xiàn)在線檢測(cè)具有重要意義。