陳森楸,劉文波,張弓
1.南京航空航天大學自動化學院,南京 211106;2.高速載運設施的無損檢測監(jiān)控技術工業(yè)和信息化部重點實驗室,南京 211106;3.南京航空航天大學電子信息工程學院,南京 211106
人臉姿態(tài)估計是計算機視覺和智能分析領域的重要課題之一,是疲勞駕駛檢測(莊員和戚湧,2021)、人機交互和虛擬現實等領域的關鍵技術并有著廣泛應用。近年來,人臉姿態(tài)估計研究活躍,成果豐碩(盧洋 等,2015;董蘭芳 等,2016;Borghi等,2020;Dua等,2019)。新型冠狀病毒肺炎(corona virus disease 2019,COVID-19)的爆發(fā)嚴重影響了社會、經濟和生產生活等各個方面。在新冠疫情防控的新形勢下,佩戴口罩成為重要防控措施之一,實現口罩遮擋的人臉姿態(tài)估計具有重要的現實意義。
圍繞人臉姿態(tài)估計任務,提出了許多技術路線(Murphy-Chutorian和Trivedi,2009)。其中,基于特征回歸的方法具有突出的優(yōu)越性,其思路為構建人臉圖像的特征空間與姿態(tài)空間的映射關系。但由于口罩遮擋的人臉圖像信息大量損失,傳統(tǒng)方法不能獲取豐富且魯棒的特征,導致算法性能嚴重下降。隨著深度學習的發(fā)展,基于卷積神經網絡的人臉信息提取技術不斷進步(LeCun等,2015;吳從中 等,2021),卷積神經網絡成功用于人臉姿態(tài)估計研究(Byungtae等,2015;Patacchiola和Cangelosi,2017;Raza等2018;Ruiz等,2018;Khan等,2020)。卷積神經網絡較傳統(tǒng)方法具有更強的特征提取能力,研究者利用卷積神經網絡在低分辨率、遮擋干擾和復雜環(huán)境等條件下實現了人臉姿態(tài)估計。鑒于卷積神經網絡的特征提取能力及在人臉姿態(tài)分類中的成功應用,本文將其應用于口罩遮擋的人臉姿態(tài)分類。
卷積神經網絡通過堆疊的卷積層和池化層對圖像進行多重非線性映射,自動提取了淺層紋理、邊緣等細節(jié)信息及高層語義信息,但高效的性能也造成了卷積神經網絡結構的復雜。復雜的網絡結構使模型獲得高性能的同時在參數量和計算復雜度方面犧牲很多,導致實時性不佳,且計算、存儲資源消耗大。而人臉姿態(tài)估計通常是計算機視覺和智能分析技術的中間環(huán)節(jié)之一,姿態(tài)估計結果用于后續(xù)的分析決策。作為中間環(huán)節(jié)的人臉姿態(tài)估計技術,輕量高效的網絡模型能夠使其在有限的資源范圍內發(fā)揮高效的作用。因此,本文的研究重點為設計一個高效輕量的卷積神經網絡用于口罩遮擋的人臉姿態(tài)估計。
為提高卷積神經網絡的效率,針對輕量級卷積神經網絡開展了大量研究(Denton等,2014;Han等,2015;Zhou等,2020)。Iandola等人(2016)設計Fire模塊構建了SqueezeNet,顯著降低了參數量和計算復雜度。Howard等人(2017)提出深度可分離卷積代替?zhèn)鹘y(tǒng)卷積,構建了MobileNetV1,接著提出倒殘差結構改進可分離卷積,構建了MobileNetV2(Sandler等,2018)。Zhang等人(2018)采用shuffle模塊解決了組卷積引起的通道間信息流不通的問題,提出了性能高效且輕量的ShuffleNetV1及改進的ShuffleNetV2(Ma等,2018)。EfficientNet(Tan等,2019a)通過一個復合系數動態(tài)優(yōu)化卷積網絡的深度、寬度和分辨率,在降低參數量的同時優(yōu)化了網絡性能。然而,輕量化網絡模型會在一定程度上造成模型性能下降。因此,需要在綜合考慮模型的體量和準確率的基礎上,設計一個輕量且高效的網絡模型,以期較低的計算要求和較高的準確率。
本文采用深度可分離卷積分解傳統(tǒng)卷積運算,引入并改進卷積塊注意力模塊(convolutional block attention module,CBAM)及其嵌入方式,利用雙尺度卷積來優(yōu)化該注意力模塊的結構,形成雙尺度分離嵌入CBAM的卷積單元,在保證較高模型性能的前提下,采用較少的卷積單元構建了一個輕量且高效的網絡模型,同時利用卷積層替換全連接層,進一步輕量化模型。由于新冠疫情影響,暫時無法實現大規(guī)模的人臉數據采集。本文利用公開的人臉姿態(tài)圖像疊加口罩圖像制作半仿真口罩人臉姿態(tài)圖像數據,同時采集了少量的真實口罩人臉姿態(tài)數據。采用遷移學習的方法,在半仿真數據上訓練本文設計的模型,并將其遷移至真實數據集,在有限的真實口罩人臉姿態(tài)數據條件下有效地訓練了網絡模型,提高了模型泛化能力。
解耦卷積運算方式是降低計算量的重要措施之一。深度可分離卷積是一種將傳統(tǒng)卷積解耦為深度(depthwise,DW)卷積和點(pointwise,PW)卷積的特殊卷積方式,如圖1所示。
圖1 深度可分離卷積Fig.1 Depthwise separable convolution
傳統(tǒng)卷積的計算量T1=M×N×C×C×D×D。而1個深度卷積的計算量為M×C×C×D×D,1個點卷積的計算量為M×N×D×D,深度可分離卷積的計算量T2=M×C×C×D×D+M×N×D×D。深度可分離卷積與傳統(tǒng)卷積的計算量比例為
(1)
式中,M為輸入特征圖的通道數,N為卷積核個數,D為特征圖的尺寸,C為卷積核的尺寸。卷積核個數N越多,計算量下降越大,所以采用深度可分離卷積可以大幅降低卷積計算量。
CBAM注意力模塊(Woo等,2018)是一個低參數量、可靈活嵌入基礎網絡中即插即用的模塊,由通道注意力模塊(channel attention module,CAM)和空間注意力模塊(spatial attention module,SAM)級聯而成。
通道注意力模塊MC∈RC×1×1,如圖2所示,⊕表示元素相加。假設輸入特征圖F=[f1,f2,…,fC](fi∈RH×W),首先通過最大值池化和均值池化將F進行擠壓,結果為[q1,q2,…,qC](qi∈R),每個通道的2維特征圖由一個實數表示,代表該通道的整體信息。接著將這兩組描述符送入一個包含隱含層的共享網絡(shared multi-layer perceptron,shared MLP)學習得到不同通道間的注意力權值。CAM計算過程為
(2)
空間注意力模塊通過學習人臉圖像中不同空間位置的重要性,生成空間注意力圖。傳統(tǒng)的SAM通過對特征圖沿通道維度分別進行均值池化和最大值池化擠壓圖像空間信息,但這種擠壓方式對圖像的空間信息利用并不充分。
本文在利用均值池化和最大值池化擠壓圖像空間信息的基礎上,增加對特征通道的擠壓,豐富模塊擠壓的空間信息。具體操作為采用1 × 1的點卷積逐像素點地對各通道進行擠壓。通過補充1 × 1點卷積結果,擠壓操作能夠獲取更豐富的信息,形成更有效的注意力圖,從而更好地把握空間信息。如圖3所示,改進空間注意力模塊采用1 × 1的點卷積將輸入特征圖擠壓為1維,接著將3個特征描述符串聯并采用3 × 3的卷積核進行運算得到空間注意力圖。改進SAM模塊計算過程為
圖3 改進空間注意力模塊Fig.3 Improved spatial attention module
(3)
由于輕量化模型會導致模型性能受損,本文通過嵌入注意力模塊改善輕量化模型的性能。注意力模塊是一個即插即用的小參數量插件,能夠以增加較少參數量的代價提升模型性能。
本文采用深度可分離卷積結合CBAM構建了一個輕量高效的卷積結構。注意力模塊作為一個獨立的組件嵌入在主干網絡中,Woo等人(2018)研究了不同的CAM和SAM組合嵌入方式(串聯/并聯)且確立了先CAM后SAM的串聯組合方式。假設輸入特征圖為F∈RC×H×W,首先經過CAM對通道特征進行處理,然后經過SAM對空間特征進行處理。具體為
F′=MC(F)?F
F″=MS(F′)?F′
(4)
式中,F′為通道注意力的結果,MC∈RC×1×1為通道注意力模塊,F″為空間注意力的結果,MS∈R1×H×W為空間注意力模塊,?代表元素的乘法。
CBAM以標準方式(Woo等,2018)嵌入深度可分離卷積的效果是次優(yōu)的。深度可分離卷積由DW卷積和PW卷積組成。在一個DW卷積中,卷積核數與輸入特征通道數一致,單個卷積核僅對一個特征通道進行運算,所以各通道間的信息不流通。PW卷積以1 × 1的點卷積核逐點地對DW卷積結果進行處理,融合不同通道間的特征。特征圖經過DW卷積后僅能獲取各特征通道的空間信息,而經過PW卷積后才能獲取特征圖的空間及通道的混合信息。傳統(tǒng)卷積則是一步獲取空間及通道的混合信息,后接CBAM模塊對包含混合信息的特征圖進行處理。然而,按標準方式對深度可分離卷積嵌入CBAM模塊的效果并未能達到最佳。本文將CBAM模塊拆分,在DW卷積后嵌入SAM,對僅包含空間信息的特征圖進行空間注意力調整,而后將處理過的特征圖送入PW卷積獲取包含空間及通道特征的混合信息,且在其后嵌入CAM對特征圖進行調整。具體為
F′=MS(FDW)?FDW=MS(fDW(F))?fDW(F)F″=MC(FPW)?FPW=MC(fPW(F′))?fPW(F′)
(5)
式中,FDW為DW卷積結果,fDW為DW卷積,FPW為PW卷積結果,fPW為PW卷積。
本文將CBAM分離嵌入深度可分離卷積,所提卷積結構DW-SAM-PW-CAM如圖4所示(?表示元素相乘),其效果優(yōu)于CBAM以標準方式嵌入的結構DW-PW-CAM-SAM。該結構能夠更有效地將注意力模塊應用于卷積運算。
圖4 DW-SAM-PW-CAM結構Fig.4 The structure of DW-SAM-PW-CAM
卷積神經網絡通過不斷堆疊卷積層或者擴寬卷積通道數可以在一定程度上增強模型性能,但是這樣的操作會增大模型的參數量和計算復雜度。在Inception(Szegedy等,2015)結構啟發(fā)下,本文采用不同尺度的卷積核分擔單個卷積通道數,提取不同尺度的特征信息,豐富模型獲得的圖像特征(Tan和Le,2019b)。本文采用3 × 3和5 × 5兩種尺度的卷積核替換單一尺度的卷積核,以犧牲較少的模型參數量有效提升模型性能。結合DW-SAM-PW-CAM結構,首先分別采用3 × 3和5 × 5的DW卷積和SAM處理輸入特征圖,接著將結果送入PW卷積和CAM進行處理,最后將計算后不同尺度的特征圖連接起來作為整個卷積塊單元的輸出。本文將該單元稱為雙尺度分離注意力卷積(dual-scale separable attention convolution,DSAC)單元,如圖5所示。本文利用設計的DSAC單元搭建網絡模型,但簡單地堆疊卷積單元不僅造成模型參數量和計算復雜度激增,還容易導致模型過擬合,性能下降。因此在保證模型準確率的前提下,將每個DSAC單元以較少的通道數構建為一個僅包含5個DSAC單元的輕量級網絡模型。此外,模型參數大量集中在網絡的全連接層部分。因此本文丟棄全連接層,并在最后一個DSAC卷積單元添加新卷積層,其輸入通道數為最后一個輕量卷積塊單元提取的特征圖通道數,輸出則為n個特征映射,對應n個目標的高維特征,然后經過softmax得到最終輸出結果。本文設計的模型在保證準確率的前提下,大幅降低了參數量和計算復雜度,整體網絡結構如圖6所示。
圖5 DSAC卷積塊單元Fig.5 DSAC convolution block unit
圖6 本文所提卷積神經網絡模型Fig. 6 The overall structure of the lightweight convolution neural network proposed in this paper
受新冠疫情影響,本實驗暫時無法實現大規(guī)模人臉采集。在CAS-PEAL-R1(張曉華 等,2005)人臉姿態(tài)數據集基礎上,與經過縮放、旋轉和變形操作的口罩圖像疊加,制作了一個半仿真口罩人臉姿態(tài)數據集。同時采集少量真實口罩人臉姿態(tài)圖像,構建了一個真實口罩人臉姿態(tài)數據集。數據集樣例如圖7所示,第1行是半合成樣本,第2、3行是真實樣本,包含偏航(Yaw)方向±67°、±45°、±22°和0°共7種姿態(tài)類別。半合成數據集包括1 040個人在7種不同姿態(tài)下的口罩人臉姿態(tài)圖像7 280幅,其中隨機選取每個姿態(tài)740幅共5 180幅作為訓練樣本,剩余2 100幅作為測試樣本。真實數據集為57個人在相同7個姿態(tài)下的真實口罩人臉姿態(tài)圖像798幅,其中隨機選取每個姿態(tài)94幅共658幅作為訓練樣本,剩余140幅作為測試樣本。將圖像尺寸統(tǒng)一縮放為128 × 128像素以符合網絡輸入要求,同時為了增強模型的泛化能力,隨機對數據采取了亮度變換、加噪聲和模糊等數據增強,其中噪聲為椒鹽噪聲和均值為0、方差為0.002的高斯噪聲;亮度變換為原來的0.5倍和1倍;圖像模糊采用均值模糊濾波器處理。
圖7 半合成和真實口罩人臉姿態(tài)圖像Fig.7 Semisynthetic and real masked face poses images
本文采用遷移學習的訓練方法,將在半仿真數據集上預訓練的模型遷移至真實數據集中。因為源域和目標域具有類似的數據分布和相同的任務,所以本文采用微調的遷移方式,將遷移網絡在目標域中進行非凍結訓練(Yosinski等,2014)。實驗采用隨機梯度下降算法,其動量設置為0.9,權重衰減設置為0.000 5;采用變學習率的訓練方式,當迭代到訓練次數的2/3時,學習率降低為原來的1/10,以使誤差收斂更加平穩(wěn),設置批大小為16,損失函數選擇交叉熵函數。在模擬數據集上從頭訓練的迭代次數設置為50,初始學習率設置為0.005。在真實口罩人臉姿態(tài)數據集上遷移訓練的迭代次數設置為10,初始學習率設置為0.000 8。實驗的軟硬件平臺為PC端,Windows10操作系統(tǒng),8 GB內存的Core i7-9750H CPU處理器,4 GB顯存的NVIDIA GeForce GTX 1650GPU顯卡,Pytorch深度學習框架。
2.3.1 CBAM模塊嵌入方式對比實驗
為了分析本文所提嵌入方式的性能,將未引入注意力模塊的DW-PW方法與以標準CBAM嵌入方式的DW-PW-CAM-SAM、采用分離嵌入注意力模塊的DW-SAM-PW-CAM和改進了SAM模塊的DW-SAM(+)-PW-CAM方法通過可視化方法Grad-CAM(Selvaraju等,2017)進行對比,結果如圖8所示。Grad-CAM可以清楚地顯示網絡在學習中重點關注的區(qū)域,通過觀察網絡認為對預測類重要的區(qū)域,從而試圖去查看網絡如何充分利用圖像信息。從圖8可以看出,由于DW-PW方法未引入注意力模塊,網絡對圖像信息利用不充分。將CBAM模塊以標準方式嵌入深度可分離卷積的DW-PW-CAM-SAM方法覆蓋目標區(qū)域較基線增多,有效提升了網絡對圖像信息的利用程度。采用分離嵌入注意力模塊的DW-SAM-PW-CAM方法對目標覆蓋區(qū)域較DW-PW-CAM-SAM方法增大,說明采用DW-SAM-PW-CAM方法有效改進了CBAM注意力模塊的嵌入方式。本文所提DW-SAM(+)-PW-CAM方法的目標區(qū)域覆蓋程度在DW-SAM-PW-CAM方法的基礎上進一步增大,表明改進SAM模塊能進一步提升圖像利用程度。此外,從圖8可以清楚地看到網絡對未遮擋人臉部分的信息利用程度較大。實驗結果表明,采用DW-SAM(+)-PW-CAM方法構建的網絡對目標區(qū)域信息利用程度最高,模型能有效獲取圖像特征。
圖8 Grad-CAM可視化結果Fig.8 Grad-CAM visualization results((a)input images;(b)DW-PW;(c)DW-PW-CAM-SAM;(d)DW-SAM-PW-CAM;(e)DW-SAM(+)-PW-CAM)
為進一步驗證不同嵌入方法的性能,對上述4種方法進行定量對比分析。首先給定以下幾個評價參數??傮w準確率(overall accuracy,OA)代表著一種方法的總體性能,是所有類別中分類正確的樣本數占總樣本數的比例。模型體量評價指標采用常用的模型參數量和每秒浮點運算次數(floating-point operations per second,FLOPs)。此外,通過嵌入注意力模塊提升準確率會導致參數量和FLOPs的增加,本文希望在增加較少量參數量和FLOPs的前提下盡可能地提升準確率。通過與基準方法對比,提升的OA分別與增加的參數量和FLOPs做比值,將其定義為得分S。提升的OA與增加的參數量的比值為S1,提升的OA與增加的FLOPs的比值為S2。顯然,S越大表示該方法較基準方法而言,能夠犧牲較少參數量/計算復雜度以達到更高的準確率。S1和S2的具體計算為
(6)
(7)
式中,On和Ob分別代表當前方法和基準方法的總體準確率,pn和pb分別代表當前方法和基準方法的參數量,Rn和Rb分別代表當前方法和基準方法的FLOPs。
實驗結果如表1所示??梢钥闯觯?)嵌入注意力模塊可以有效提升OA。CBAM以標準方式嵌入網絡的DW-PW-CAM-SAM方法較未引入注意力模塊的方法(基線)提升了5.75%。將CBAM分離嵌入深度可分離卷積的DW-SAM-PW-CAM方法較基線提升了9.3%。在DW-SAM-PW-CAM方法上改進SAM模塊的DW-SAM(+)-PW-CAM方法較基線提升了12.16%。2)在不增加參數量和FLOPs的前提下,DW-SAM-PW-CAM方法的OA較DW-PW-CAM-SAM方法有明顯提升,表明分離CBAM的嵌入方式比標準嵌入的方式更具優(yōu)勢,合理地嵌入CBAM能有效提升模型性能。3)DW-SAM(+)-PW-CAM方法的OA較DW-SAM-PW-CA方法有明顯提升。DW-SAM(+)-PW-CAM方法將通過對SAM模塊增加1 × 1點卷積的結果作為補充信息,有效提升了OA,但同時也導致模型的參數量和FLOPs小幅增加。4)DW-SAM(+)-PW-CAM方法的S1和S2均為最高,表明該方法通過犧牲較少的模型參數量和計算復雜度獲得了較高的模型準確率。
表1 不同嵌入方法的性能對比Table 1 Performance comparison of different embedding methods
4種方法的網絡訓練收斂過程如圖9所示??梢钥闯觯珼W-SAM(+)-PW-CAM方法具有較快的收斂速度,并且最終能夠獲得較高的準確率。
圖9 網絡訓練收斂過程Fig.9 Convergence of networks training process
2.3.2 不同尺度卷積核對比實驗
為了驗證本文采用多尺度卷積核的效果,對不同尺寸的卷積核組合進行對比實驗。3×3卷積核已經廣泛應用于各種網絡模型,因此將僅包含3×3卷積核的網絡作為基準,采用5×5、7×7和9×9 這3種尺寸的卷積核組合方式分擔卷積通道進行對比實驗。不采用11×11及以上的卷積核的原因在于:1)除了AlexNet采用11×11卷積核作為前置特征提取層外,少有網絡采用大卷積核;2)大尺寸卷積核會造成模型參數量激增;3)過大尺寸的卷積核可能造成提取特征冗余并影響模型性能。
本文設置{3×3,5×5}、{3×3,7×7}、{3×3,9×9}、{3×3,5×5,7×7}、{3×3,5×5,9×9}、{3×3,7×7,9×9}和{3×3,5×5,7×7,9×9}等網絡結構作為對比實驗組。實驗結果如由表2所示。可以看出:1)多尺度卷積核構建的網絡的OA都高于單一尺度的網絡。在不增加卷積深度和寬度的前提下,采用多尺度卷積核能夠有效提升模型的準確率。2)采用三尺度及四尺度卷積核構建的網絡的OA高于采用雙尺度卷積核的網絡,但雙尺度卷積核構建的網絡的S1和S2普遍高于采用三尺度或四尺度卷積核的網絡。即采用多尺度卷積核能夠有效提升模型的OA,但會增加模型的參數量和計算復雜度。而雙尺度卷積核構建的網絡能夠通過增加較少參數量及計算復雜度有效提升OA。3)包含9×9卷積核的網絡的S均較低,表明采用過大尺寸的卷積核的網絡不能很好地在提升OA和犧牲參數量及計算復雜度之間取得平衡。網絡采用不同尺度的卷積核能夠獲得豐富的特征信息,但過大尺寸的卷積核會造成模型參數量和計算復雜度的大幅增加。4)采用{3×3,5×5}雙尺度卷積核的網絡的準確率為98.57%,較基準網絡僅增加了0.03 MB的參數量和3.68 MB的FLOPs,構建的模型具有最高的S1和S2,即在保持較少參數量和計算復雜度增加的前提下有效提升了網絡的準確率。
表2 不同尺寸卷積核組合的性能對比Table 2 Performance comparison of combinations with different kernel sizes
2.3.3 不同網絡模型對比實驗
為了驗證本文模型的性能,與AlexNet、VGGNet(Visual Geometry Group network)、ResNet(residual neural network)和GoogLeNet等經典卷積神經網絡模型以及SqueezeNet、MobileNet、ShuffleNet和EfficientNet等優(yōu)秀的輕量級卷積神經網絡進行比較,采用模型參數量、FLOPs和OA作為評價指標,實驗結果如表3所示。
表3 不同網絡模型的性能對比Table 3 Performance comparison of different models
2.3.4 不同訓練方法對比實驗
由于真實場景中的口罩人臉姿態(tài)數據較少,采取一種有效的小樣本學習方法是成功訓練模型的關鍵。本文設計了兩種方案解決數據缺乏問題,其一是通過混合制作的半仿真數據和真實數據,將模型在混合數據集中進行訓練;其二是根據半仿真數據具有與真實數據相似數據分布的特點,采用遷移學習的方法能夠有效地訓練模型。所以將在半仿真數據集上訓練的網絡模型遷移至真實數據集中,提升模型的準確率。
不同訓練方法的實驗結果如表4所示。可以看出:1)僅在半仿真數據集中訓練的模型缺乏在真實數據下的泛化能力,直接在真實數據集中測試則準確率不高。2)僅在真實數據集中訓練的網絡模型的準確率也較低,這是因為真實數據集過小,網絡容易過擬合,導致測試準確率下降。3)在真實數據和半仿真數據混合的數據集上訓練的模型的準確率能夠達到90.2%,通過遷移學習訓練的模型的準確率能夠達到98.57%。實驗表明,采用遷移學習方法能夠在有限的真實口罩人臉姿態(tài)數據條件下有效訓練網絡模型,且具有較高的模型準確率。
表4 不同訓練方法的OATable 4 OA of different training methods
本文設計了一個輕量級的卷積神經網絡模型用于口罩人臉姿態(tài)分類。將通過深度可分離卷積解耦傳統(tǒng)卷積、采用卷積層替代全連接層、縮減網絡深度及卷積通道數等作為網絡輕量化的主要手段,并引入注意力機制提升輕量化模型的性能。
首先,創(chuàng)新性地將CBAM注意力模塊分離嵌入DW卷積和PW卷積,針對性地對特征圖的空間信息和通道信息進行調整。其次,對SAM模塊補充1×1的點卷積特征圖,使SAM模塊能夠獲取更豐富的空間信息,更好地把握了感受域的信息。然后,采用雙尺度卷積核優(yōu)化DW-SAM(+)-PW-CAM卷積結構,構建了DSAC模塊,僅利用5個DSAC模塊搭建了本文輕量高效的卷積神經網絡模型。最后,將設計的網絡模型在構建的半仿真口罩人臉姿態(tài)數據集上進行預訓練后遷移至真實數據集中微調訓練。
本文設計的網絡模型具有緊湊輕盈的結構,大幅縮減了參數量和計算復雜度,具有較高的分類準確率。采用遷移學習的方法在缺乏真實口罩遮擋人臉姿態(tài)數據集的條件下成功訓練了模型,提高了模型的泛化能力和準確率。與經典卷積神經網絡對比,本文設計的模型僅有1.02 MB的參數量和24.18 MB的FLOPs,而準確率達到了98.57%。然而,本文研究受限于人臉姿態(tài)類別數量,未能實現較精細化的人臉姿態(tài)估計。未來的工作中,將構建更加完備的口罩人臉姿態(tài)數據集,考慮更多細分的人臉姿態(tài),設計能夠估計更加細分姿態(tài)類別的模型。