張 洋,姚登峰,,江銘虎,李凡姝
(1.北京聯(lián)合大學 北京市信息服務工程重點實驗室,北京 100101;2.清華大學 人文學院 計算語言學實驗室,北京 100084)
吸煙行為是目前全世界難以解決的公共衛(wèi)生問題,吸煙對健康的危害已是眾所周知,其會間接或直接導致很多疾病的發(fā)生甚至出現生命危險[1]。近年來,我國人民出現肺癌、心血管疾病的幾率隨著吸煙率的增加而迅速上漲。然而,僅通過人為管理吸煙行為,難以實現控煙目標。
吸煙行為識別的研究起源于上個世紀,涌現了不同的吸煙行為檢測方法,其中視頻圖像的吸煙行為檢測是主流研究方向[2]。吸煙行為檢測主要分為針對吸煙手勢識別、香煙煙霧識別、香煙識別3 種,但這些方法都存在著一定不足。文獻[3]設計一種將人體檢測與嵌入式設備相結合的模型,其對戶外的施工人員進行中距離吸煙檢測。文獻[4]結合吸煙行為手勢與香煙目標本身特征,提出一種識別吸煙行為的檢測模型,由于對吸煙行為手勢的識別存在吸煙手勢復雜、膚色多樣、相機角度等問題,使得識別的手勢具有差異,且易與吸煙行為類似的手勢相混淆,因此僅使用吸煙手勢來判斷吸煙行為,誤判率較大。文獻[5]通過對獲得香煙煙霧的HOG 特征以及紋理特征進行相關分析,再結合相關特征融合方法對香煙的煙霧進行識別。在香煙煙霧的檢測過程中,因香煙的煙霧濃度較低且易擴散、煙霧邊緣不夠明顯,導致香煙煙霧與室內的白色背景相融合,從而難以區(qū)分。此外,在室外受復雜背景干擾,香煙煙霧檢測更加難以實現。針對識別香煙自身目標,文獻[6]提出一種吸煙檢測系統(tǒng),利用Py Qt5 配置上位機界來調用訓練過的改進YOLOv3 模型,并對吸煙行為進行檢測。文獻[7]基于YOLOv3-tiny 模型提出一種針對室內吸煙行為的檢測算法。YOLOv3-tiny模型通過K-means 聚類算法得到整個香煙的預先目標框,在初始的YOLOv3-tiny 網絡架構上引入一個細微的目標檢測層,使得該模型能夠滿足實際場景的需求。文獻[8]結合近紅外監(jiān)視攝像機與目標檢測技術,提出一種新的吸煙行為檢測方法。該方法利用基于深度學習的目標檢測技術定位車輛前擋風玻璃和駕駛員的頭部范圍,通過執(zhí)行雙窗口異常檢測局部區(qū)域并確定NIR 圖像的高溫白色熱點,基于此確定駕駛員是否有吸煙行為。文獻[9]通過檢測人臉并將檢測到的人臉圖像作為煙支檢測區(qū)域,從而大幅縮小了目標檢測區(qū)域,并使用Faster RCNN 模型對香煙目標進行目標檢測,以降低檢測的誤檢率。文獻[10]利用多個卷積神經網絡任務算法級聯(lián)并結合RET 級聯(lián)回歸的方式來實現迅速定位嘴部敏感區(qū)域,在此基礎上,采用殘差網絡對ROI 內的目標進行檢測和狀態(tài)識別。文獻[11]將檢測到的人臉圖像作為煙支檢測區(qū)域,以縮小目標檢測區(qū)域,并過濾掉與煙支相似的目標。以上算法都是直接對香煙進行檢測,因香煙目標較小,其識別的準確性并不高,因此能否區(qū)分香煙與類煙物成為香煙識別的關鍵。
上述算法在一定程度上提升了吸煙行為的識別精度,但是其吸煙行為識別效果差。針對該問題,本文設計一種基于弱監(jiān)督細粒度結構與改進EfficientDet網絡的吸煙行為檢測算法,用于識別實際場景中細微的香煙目標。通過EdgeBox 算法[12]對邊緣進行篩選,形成候選區(qū)域塊,將改進的EfficientDet 網絡[13]作為細粒度兩級注意力模型[14]的物體級篩選器,并在細粒度兩級注意力模型的DomainNet網絡結構中融入通道注意力機制[15],利用特征多尺度以及局部感受區(qū)域融合空間信息和通道信息,提取包含局部和全局信息的特征,進一步提升網絡的識別精度。
為快速而精準地區(qū)分香煙與類煙物,本文算法分為2 個模塊:第1 個模塊是特征邊緣篩選,通過將收集到的圖片進行有效的邊緣篩選,以保存包含前景物體的候選區(qū)域,得到具有香煙目標和背景的像素塊;第2 個模塊是改進的弱監(jiān)督細粒度網絡模塊,通過兩級注意力模型與改進的EfficientDet 網絡相融合,使其能快速篩選出候選區(qū)域,且具有更優(yōu)的特征捕捉能力。其中細粒度模型主要分為2 個子模型:1)物體級模型,其通過對模型的預訓練進行對象級圖像分類,以濾除背景信息,保留包含待檢目標的候選區(qū)域;2)局部級模型,其篩選出得分最高的像素塊,最終通過檢測結果獲取吸煙特征,并判定是否存在吸煙行為。本文網絡結構如圖1 所示。
圖1 本文網絡結構Fig.1 Structure of the proposed network
以w×h像素的圖片作為模型的輸入,利用邊緣框的結構化邊緣檢測算子[16]提取圖像邊緣,并通過策略聚合得到的邊緣段,并用非極大值抑制處理以得到穩(wěn)定的目標邊緣。
相似度的計算如式(1)所示:
邊緣段的權值如式(2)所示:
其中:T為由t1=Sj∈Sb到t||T=Si的路徑;為滑動窗口的邊界上與邊緣段Si相似度最高的邊緣段Sk?;瑒哟翱诘梅秩缡剑?)所示:
其中:mi為邊緣段的邊緣強度;bw和bh分別為滑動窗口的寬和長;k為算法的平衡系數,以平衡不同窗口邊緣段數量的差異。本文k取值為1.5。
特征邊緣篩選過程通過上述公式得到每個滑動窗口的分數,設定閾值過濾最低值,則得到候選區(qū)域合集。
在細粒度分類領域中區(qū)分包含待檢測物體的前景區(qū)域和檢測物體,分為物體級篩選與分類和局部級選擇與分類兩個過程。圖2 表示細粒度模型的識別流程。
圖2 細粒度模型的識別流程Fig.2 Recognition procedure of fine-grained model
1.2.1 物體級篩選及分類
物體級篩選器使用EfficientDet-D0 網絡,對其在自建數據集上進行預訓練處理,并在候選區(qū)域內進行背景噪聲濾除,目的是刪除與對象無關的嘈雜音色。原算法雖然能夠濾除噪聲,但其在分類預訓練時使用的模型參數限制了位置回歸準確率的提高。噪聲的來源一般為環(huán)境、人物等未包含類煙物的候選區(qū)域,由于本文改進算法和原算法都使用特征金字塔網絡(Feature Pyramid Network,FPN)等結構,區(qū)分純背景與類煙物的準確率能達到98%以上,因此噪聲的濾除效果遠優(yōu)于卷積神經網絡(Convolutional Neural Network,CNN)。本文算法通過改進特征邊緣篩選,以保證在深層特征圖中依然可以提取香煙位置信息,由于特征邊緣篩選通過EdgeBox算法獲得眾多的候選區(qū)域以及高召回率,并且檢測網絡結合局部級的注意力特性,能夠完整地保留圖像中的目標信息。因此,物體級篩選器能夠有效地篩選出與香煙類別相近的候選區(qū)域和背景候選區(qū)域。EfficientDet-D0 網絡由3 個部分構成:第1 個部分是基于EfficientNet-B0 結構的骨干網絡;第2 個部分是模型的特征提取結構BiFPN,其作用是通過將骨干網絡EfficientNet-B0 結構中3~7 層的輸出特征不斷地做自頂向下和自底向上的特征融合;第3 個部分是分類和檢測框的預測網絡。改進的EfficientDet網絡結構如圖3 所示。
圖3 改進的EfficientDet 網絡結構Fig.3 Structure of improved EfficientDet network
在實際場景中,本文采集的吸煙圖像中香煙目標的相對尺寸為小于0.05 的細小目標對象(相對圖像的寬高),從而丟失了較多的空間信息,這種像素級特征的感受野不夠大,且物體存在多尺度問題,使得普通的特征提取方式效果較差。為提高特征提取網絡的提取能力,本文利用上下不同層級的語義關系和位置信息,增加淺層特征的語義信息,在特征提取時特征提取網絡具有足夠的上下文信息,同時也包括目標的細節(jié)信息。因此,本文在BiFPN 中增加了跨級的數據流,將下層節(jié)點特征融合到上層節(jié)點進行共同學習,其結構如圖4 所示。
圖4 特征融合網絡結構Fig.4 Structure of feature fusion network
本文利用雙向路徑(自頂向下和自底向上)進行特征融合,將融合得到的全局特征與原始特征圖連接起來,這種改進方法的目的是同時利用低層特征高分辨率和高層特征的高語義信息,通過融合這些不同層的特征使學習權重自動加權融合到輸入特征,實現多層次、多節(jié)點融合學習。該過程稱為融合目標的細節(jié)特征(淺層特征)和全局特征(深層特征也是上下文語義信息)的過程,由此得到最后的物體上下文特征表示。圖4 中Pi表示主干網絡中分辨率為輸入圖像(1/2i)的特征圖,從圖4 可以看出,高語義特征經過上采樣后,其長、寬與對應的淺層特征相同,而改進增加的BiFPN 跨級數據流通道是固定的,因此需要對底層特征進行卷積,使得底層特征輸出的通道數與BiFPN 跨級數據流通道相同,然后對兩者進行橫向連接,得到最終特征圖。BiFPN 能夠充分利用不同層級的特征圖信息,且收集不同尺度的語義信息并對其進行融合,以實現提取細微特征,這種方式得到的不同尺度的信息比全局池化所得的全局信息更具代表性。與特征未融合方法相比,檢測到包含香煙目標區(qū)域的精確度提升1.4%以上,而計算量僅增加0.25%。主要原因是在未融合之前,特征未融合方法未考慮到各級特征對融合后特征的共享度問題,即之前模型認為各級特征的貢獻度相同,而本文考慮到香煙目標的尺寸下降,導致它們分辨率不同。因此,不同香煙目標的分辨率對融合后特征的貢獻度不同,在特征融合階段引入了權重,同時通過雙向融合將上下不同層級的語義關系和位置信息進行整合,將上采樣后的高語義特征與淺層的定位細節(jié)特征進行融合,以達到對多個維度同時放大的目的。
改進的特征融合網絡結構BiFPN 通過將雙向的跨尺度連接與快速的歸一化相融合,并對圖像特征進行提取,即將EfficientNet-B0 骨干網絡中3~7 層的輸出特征結果不斷地將自頂向下和自底向上的特征進行融合。圖5 所示為單個BiFPN 的流程。
圖5 BiFPN 流程Fig.5 BiFPN procedure
對BiFPN 的每層輸出進行分析。特征融合網絡結構如式(4)所示:
整個特征提取網絡是自底向上的前向傳播過程,隨著下采樣次數不斷地增加,獲得的語義信息隨之增多,但位置信息不斷減少。雖然更深層次的特征圖具有較多的語義信息,但其分辨率較低,原始圖像中32×32 像素的物體經過5 次下采樣后大小僅1×1 像素,因此更深層次的特征圖對小尺寸目標進行檢測,其精確度較低。改進的EfficienDet 網絡在特征提取過程中充分利用不同層級的特征圖信息,并增加前一層級的位置信息,使得在實際場景中香煙目標的檢測結果較優(yōu)。改進的EfficienDet 網絡利用FocalLoss 解決正負樣本不均勻的問題,由于網絡內部具有較多的depthwise conv,因此通過將結果緩存在內存中以及逐點卷積完成后釋放內存這2 個步驟,使得EfficienDet 網絡準確性優(yōu)于未改進前的EfficienDet 網絡,且FLOPS 和參數量減少一個數量級。本文通過不固定BN 層來進一步提高檢測性能,與EfficienDet 網絡相比,改進的網絡增加了參數量,并且對收斂的速度影響甚微。
1.2.2 局部級檢測及分類
局部級模型通過選擇其第4 個卷積層融合通道注意力機制,并將物體級篩選出的候選區(qū)域聚類成2 類,同時利用聚類方式形成2 個部分檢測器。在檢測器進行聚類并選擇輸入的候選區(qū)域過程中主要分為4 個步驟:1)修改并整合輸入的圖片尺寸;2)通過一次前向的傳遞得到篩選器的激活分數;3)將相同類別篩選器的激活分數相加;4)在每個選擇器的相同類別中選擇獲得分數最高的候選區(qū)域,并把這塊當作重要塊。改進的模型具有更強的特征捕捉能力,在實際場景中能夠改進類煙物與香煙的區(qū)分效果。局部級檢測模型結構如圖6 所示。
圖6 局部級檢測模型結構Fig.6 Structure of local level detection model
改進的DomainNet 融合了注意力機制,利用通道注意力卷積塊(AC-Block)替換原模型的所有卷積層,學習各個通道間關系以得到不同通道的權重,最后乘以原來的特征圖得到最終特征。該方法使模型關注信息量最大的通道特征,而抑制不重要的通道特征。該方法主要分為:1)Squeeze 操作,其通過對特征進行全局平均池化來實現;2)Excitation 操作,池化輸出的1×1×C數據經過兩級全連接,使用sigmoid 函數將值限制在[0,1]范圍內,并將得到的值分別乘到C個通道上,作為下級的輸入數據。AC-Block 卷積塊結構如圖7所示。
圖7 AC-Block 結構Fig.7 AC-Block structure
由于物體級和局部級接受的塊不同,因此其功能和優(yōu)勢各不同。物體級篩選器為局部級檢測器提供了選擇的候選區(qū)域并進行前饋,為獲得圖像的預測標簽,通過計算所有候選區(qū)域輸出的平均分類分布以得到平均的預測標簽。局部級分類器僅對包含判別力的局部特征進行處理。盡管有的塊被兩個分類器同時使用,但是它們代表不同的特征,能夠潛在的互補。從圖6 可以看出,在局部檢測后得到的兩組區(qū)域,一組是香煙目標,另一組是背景噪聲。
物體級選擇器選擇關注整個對象的多個視圖,這些候選區(qū)域驅動了細粒度的局部級模塊——局部級檢測器。局部級檢測器通過選擇并處理包含區(qū)分特征和局部特征的候選區(qū)域,使Alex 網絡的第4 層卷積層形成2 個聚類檢測器,以生成候選區(qū)域塊的激活分數。此外,物體級選擇器通過對香煙目標進行定位,以完成前述算法的物體與局部區(qū)域檢測工作。局部級檢測器對檢測到的香煙目標位置進行特征提取。通過物體級選擇器和局部級檢測器相互協(xié)調,完成了對細粒度香煙目標分類過程中物體、局部區(qū)域的檢測與特征提取工作。以往文獻是將卷積網絡作為特征提取器,并未從整體上考慮效果,然而本文從整體上使用全局和局部信息對細粒度級別進行分類,在不借助數據集部分標注的情況下,完全依賴于物體級別和局部級別信息,具有較優(yōu)的局部信息捕捉能力。最后,本文將2 種注意力集中方法的預測結果進行合并,以結合兩者的優(yōu)勢。即使2 個分類器都接受了某些候選區(qū)域,但這些候選區(qū)域的特征在每個分類中都有不同的表示形式,但具有互補的信息。
本文將兩個模型的結果相結合,通過最終的分值來判定是香煙目標還是類煙物,如式(7)所示:
其中:Oobjectscore為多個patch 的均值;Ppartscore為局部分類產生的決策值;α為通過實驗確定取值,在本文中,經過實驗論證α過小會導致物體級分類影響過大,使得模型泛化能力差,難以區(qū)分香煙目標與類煙物,而α 過大則會導致局部檢測器權值過高,整個模型呈現過擬合狀態(tài),所以將其設置為0.5。
本文實驗的平臺系統(tǒng)是Ubuntu 18.04,圖形處理單元(GPU)是NVIDIA GTX 1080Ti,主要為python3.7+numpy1.18.1+torchvision0.5.0+pytorch1.4.0+pycocotools+opencv3.4.2,優(yōu)化器為Adam,其中衰減系數分別為0.9和0.999。模型訓練輸入圖像的像素為512×512,batch_size 都為12,模型迭代次數設為300,學習率設置為10-4。
本文算法雖然屬于弱監(jiān)督吸煙行為識別,所需的樣本無需目標級別的標注,但無論是在前期的特征分析還是之后的實驗論證都需要數據集支撐,由于吸煙行為識別的研究還不太成熟,沒有類似于其他動作識別的標準數據集。為此,本文構建了吸煙行為檢測數據集BUU-Smoke,并在該數據集上進行測試。BUU-Smoke 數據集(19 816 張圖片)是一個具有挑戰(zhàn)性的吸煙動作檢測數據集。本文數據集在辦公樓下、街邊等5 個攝像頭下采集數據,拍攝于白天,光照條件良好,數據集像素主要為512×512 和640×640,其中包含4 881 張通過網上獲得、視頻截圖的影視圖片以及14 935 張包含生活、工作、街頭等場景采集的真實圖像數據,實景采集的每張圖中至少有3 人存在吸煙行為。其中包括吸煙數據、手拿類煙物數據以及正常無目標數據片段,為確保數據與實際場景符合,數據集的比例根據統(tǒng)計的中國30%的吸煙率[17]來設計,吸煙∶非吸煙比例為3∶7,其非吸煙數據中,手拿類煙物與正常無目標的比例也為3∶7,為確保檢測算法的適用性,數據片段的背景涉及到各個生活場景。由于數據采集的環(huán)境不同,光照明暗以及設備的性能優(yōu)劣等,手動采集的數據存在對比度低、有噪聲等缺點。本文在模型訓練前,對數據集進行了圖像增強、灰度取值范圍相同、大小歸一化等預處理。數據集樣例如圖8 所示。基線方法在此數據集上的效果只有15.5%,表明本數據集具有一定的研究意義和學術價值。
圖8 數據集樣例Fig.8 Sample data set
本文通過對比實驗和消融實驗對算法的性能進行評估和分析,
本文實驗采用損失函數(Loss)、時間度、準確率(P)、召回率(R)和mmAP值作為主要評價指標,如式(8)所示:
其中:TTP表示對象為正例,識別為正例;FFP表示對象為負例,識別為正例;FFN表示對象為正例,識別為負例;QR為測試集個數;AAP為平均精度。
為評估本文算法在吸煙行為檢測中的性能,本文在香煙煙霧識別、吸煙手勢識別、香煙識別這3 種主要的吸煙行為識別方式中,分別選取最具代表性的算法進行對比。為保證結果公平,所選取的算法均在本實驗平臺進行重新訓練,除本文算法以外,其他算法均采用有預訓練模型的遷移學習進行訓練。為模擬真實吸煙場景,以保證實驗的可靠性,本文共進行10 次測驗,根據文獻[17]中研究的3∶7 的吸煙人數選取每次測驗數據量,隨機選取70 個非吸煙場景,30 個類似吸煙場景,其中類似吸煙場景包括25 個真實吸煙場景和5 個手拿類煙物場景,最終評判結果取每次測驗結果的平均值。
在BUU-Smoke 數據集上對不同模型的性能指標進行對比,從表1 可以看出,整個10 次測試實驗數據,文獻[4]、文獻[5]和文獻[8]模型的mmAP相對最低,都在83%以下,但其誤檢率達到12%以上,且測試結果不穩(wěn)定。文獻[7]、文獻[10]和文獻[11]模型的時間消耗均較短,誤檢率均在10%及以下,而且在所有算法中文獻[10]的召回率最優(yōu),表明文獻[10]在檢測吸煙行為上的性能較優(yōu),但是模型mmAP僅在88%左右。文獻[9]采用多模型級聯(lián)檢測來解決單特征檢測準確率低的問題,因此其mmAP達到91.6%,但是文獻[9]采用的模型參數較大,在所有算法中時間度上的表現最差,且誤檢率也不是很理想,難以在實際場景中有好的表現。與其他算法相比,本文模型在檢測過程中的mmAP和誤檢率均性能較優(yōu),其值分別為93.1%和3.6%,時間度和召回率方面雖然不是最優(yōu),但接近于最優(yōu)算法的指標。因此,本文模型能夠有效地識別吸煙行為,具有較優(yōu)的精確度和魯棒性。
表1 在BUU-Smoke 數據集上不同算法的指標對比Table 1 Indexs comparison among different algorithms on BUU-Smoke data set
不同算法的loss 值對比如圖9 所示,從圖9 可以看出,相比其他算法,本文算法的loss 不論是收斂值還是曲線平滑程度都具有明顯的優(yōu)勢。
圖9 不同算法的loss 值對比Fig.9 Comparison of loss values among different algorithms
對比實驗Ⅰ評估了算法在吸煙行為識別的性能,與其他吸煙算法相比,本文算法具有較優(yōu)的準確度和誤檢率。由于本文研究還涉及細粒度方向,對比實驗Ⅱ主要評估算法分辨類煙物與香煙的性能,采用測試集數據總數為100 張,其中香煙目標場景與類煙物場景比例為1∶1。細粒度與粗粒度算法的實驗結果對比如表2 所示。本文分別選取粗粒度與細粒度最具代表性的算法與本文所提算法進行對比,選 取Faster RCNN[18]、SSD[19]、RetinaNet[20]、EfficientDet-D4[13]作為粗粒度算法,選取MAMC[21]、MVC[22]、DFL-CNN[23]作為細粒度算法,所有算法均采用預訓練模型的遷移學習進行訓練,由于本文實驗受硬件性能限制,即使將訓練過程中的批大小降為最小的1,硬件性能仍然達不到訓練EfficientDet系列的最優(yōu)算法D7 的程度,所以采用EfficienDet-D4 進行對比實驗。
表2 粗粒度與細粒度算法的實驗結果對比Table 2 Experimental results comparison of coarse-grained and fine-grained algorithms
從表2 可以看出,Faster-RCNN 和SSD 兩個算法主要是評估特征金字塔網絡中受語義多尺度特征的影響。EfficientDet 作為目前性能較優(yōu)的目標檢測器,其D4 模型的mmAP為89.8%,雖然在粗粒度的模型中效果最好,但是相較于細粒度模型較差。主要原因可能是批大小只有1,在訓練過程中損失值下降不平滑且波動性大,而難以收斂。從綜合結果分析可知,粗粒度模型的準確度相較于細粒度較低,說明在識別類煙物與香煙目標時,使用細粒度的模型能夠識別并提取更細微的特征。雖然文獻[21-23]的模型準確度高于其他模型,但由于數據集的針對性,本文算法在這次試驗中mmAP達到93.9%,高于其他算法2.7%以上,并且本文算法在時間度上明顯快于這3 類細粒度算法。因此,本文算法在粗、細粒度的模型對比實驗中表現優(yōu)異,具有較優(yōu)的準確性與實時性。
本文設置了一組消融實驗,以全面評估本文所提算法的性能,將算法進行部分剝離,從而評判模型部分的缺失對整體效果的影響。
消融實驗描述如表3 所示,本文消融實驗分為5 個部分:1)算法1 僅使用網絡中的目標檢測網絡EfficientDet-D0;2)算法2 僅使用細粒度兩級注意力模型;3)算法3 使用整個網絡,但是將候選區(qū)域提取算法進行替換;4)算法4 是去除模型中添加的通道注意力卷積塊(AC-Block);5)本文算法。
表3 消融實驗描述Table 3 Description of ablation experiment
消融實驗結果如表4 所示,僅使用粗粒度或者細粒度模型的算法1 和算法2 的mmAP較低,本文算法相較于算法2 提高了3.3 個百分點。從實驗1 可知,細粒度兩級注意力模塊對mmAP影響最大,說明在吸煙行為上細粒度網絡比粗粒度網絡的識別性能更優(yōu)。本文對比5 個模型在速度上的差異,細粒度網絡模型由于參數多,速度較慢,而本文的算法雖然速度并不是最快的,但是經過縮減參數等輕量化設計,具有較好的實時性。實驗3、4 的對比也驗證了通道注意力機制能夠提高準確度。本次消融實驗深度剖析了算法內部結構對性能的影響,說明本文模型設計的合理性。
表4 消融實驗結果Table 4 Results of ablation experiment
本文提出一種基于弱監(jiān)督細粒度結構與改進EfficientDet 網絡的吸煙行為檢測算法,用于解決真實場景下吸煙行為識別過程中目標細小檢測效果差的問題。通過改進EfficientDet 網絡中的BiFPN 結構,將下層節(jié)點特征融合到上層節(jié)點并共同學習,利用上下不同層級的語義關系和位置信息增加跨級的數據流,實現多層次、多節(jié)點的融合學習。此外,在DomainNet 網絡結構中融入基于通道注意力機制的卷積塊(AC-Block),使模型提取到信息量最大的通道特征。實驗結果表明,本文算法的吸煙行為識別準確率為93.1%,并具有較優(yōu)的魯棒性和泛化能力。后續(xù)將擴展識別場景,使模型優(yōu)化為具有普適性的復雜動作識別架構,以適應更復雜的場景。