孫收余, 吳鳳嬌, 羅子江, 倪照風, 馬原東, 候紅濤, 劉寬, 趙凱, 徐斌
(1.貴州財經(jīng)大學信息學院, 貴陽 550025; 2. 北京盛開智聯(lián)科技有限公司, 北京 101300)
近年來,人臉屬性估計在計算機視覺、模式識別中引起廣泛關注,在人臉識別、表情識別、圖像生成等領域具有重要應用[1]。隨著卷積神經(jīng)網(wǎng)絡的發(fā)展,大量高精度的人臉屬性估計算法百花齊放。Liu等[2]設計LNets+ANets進行特征提取,使用支持向量機(support vector machine, SVM)分類器進行屬性估計,該類方法忽略屬性之間的關聯(lián)性;Zhang等[3]提出了PANDA,利用網(wǎng)絡深層特征進行屬性估計,該方法平等對待每個屬性,兼顧屬性內(nèi)部關聯(lián)性,在假定人臉未被遮擋的理想條件下取得不錯的估計效果;然而,實際應用環(huán)境復雜多變,Mahbub等[4]為提高屬性估計算法在復雜環(huán)境中的魯棒性,把人臉局部區(qū)域與其屬性進行一一對應,設計出NAS算法,NAS算法在人臉有遮擋的條件下依然能有效地進行人臉屬性估計。Mao等[5]提出了DMM-CNN方法,針對困難屬性和簡單屬性采用多種不同的卷積神經(jīng)網(wǎng)絡進行分類估計,此類高精度的人臉屬性分類算法需以巨大的算力和模型量為代價,嚴重阻礙算法的應用場景;孔英會等[6]針對情感化的智能家居應用這一需求,提出了一種基于深度學習模型的移動端屬性識別方法,此方法雖然模型大小為0.25 MB,但在CPU為麒麟960的華為P10手機上推理速度僅8 fps,不能有效地進行實時屬性估計。
為進一步提高算法在計算資源受限的移動設備、嵌入式設備上的推理速度,借鑒文獻[6]在表情屬性識別中主干網(wǎng)絡輕量化的思想,根據(jù)MobileFaceNet網(wǎng)絡[7]和人臉屬性估計任務特點進行分析,結合跨階段融合網(wǎng)絡 (cross stage partial network,CSPNet)[8]、空間金字塔網(wǎng)絡 (spatial pyramid pooling network,SPPNet)[9]設計適合于嵌入式設備硬件的人臉屬性估計共享特征提取網(wǎng)絡,采用剪枝、知識蒸餾等方法對網(wǎng)絡模型進行量化;在不同的屬性估計任務中引入不同的學習策略,通過動態(tài)類別抑制損失函數(shù)(adaptive class suppression loss,ACSL)[10]進行損失度量,均衡樣本數(shù)據(jù)、加快模型收斂。
基于嵌入式系統(tǒng)的多任務人臉屬性估計算法主要包括:①創(chuàng)建人臉數(shù)據(jù)集并進行數(shù)據(jù)預處理;②構建輕量級卷積神經(jīng)網(wǎng)絡;③采用剪枝、知識蒸餾等方法進行模型優(yōu)化;④采用動態(tài)類別抑制損失函數(shù)進行損失度量,人臉屬性估計算法模塊結構圖如圖1所示,在數(shù)據(jù)預處理階段需進行人臉對齊、數(shù)據(jù)增強等處理。人臉屬性估計算法隨著卷積神經(jīng)網(wǎng)絡深度的加深,特征表達能力增強,屬性估計效果顯著提升,同時也造成推理速度慢、計算成本高、網(wǎng)絡模型大等問題。目前輕量級卷積網(wǎng)絡的設計原理包括:①限制網(wǎng)絡深度和通道數(shù);②使用小尺度卷積核代替大尺度卷積核;③使用深度可分離卷積,優(yōu)化卷積運算,如MobileNet系列網(wǎng)絡;④在殘差塊中融合CSPNet,實現(xiàn)特征分流,降低算力,節(jié)約網(wǎng)絡推理時間。
深度可分離卷積(depthwise separable convolution,DwConv)是MobileNetV2[11]、MobileFaceNet[7]等輕量化卷積神經(jīng)網(wǎng)絡中都使用的卷積操作,深度可分離卷積在通道上對卷積操作進行拆分運算,大量縮減參數(shù)量和計算量的同時并不會造成性能的顯著下降。
跨階段融合網(wǎng)絡 (cross stage partial network,CSPNet)[8]是一種豐富梯度組合的特征融合方法,該模塊能有效節(jié)約算法推理時間和計算成本,CSP模塊可與多種骨干網(wǎng)絡中進行結合,跨階段進行特征組合,豐富特征結構,輕量化網(wǎng)絡結構的同時依然能保持足夠的精度。CSPNet能與ResNeXt[12]、DenseNet[13]網(wǎng)絡中的殘差模塊相結合節(jié)約算力、提升精度,在ResNet-10[14]中增加CSPNet相比ResNet-10縮減16%的算力,同時top-1的精度增加1.8%。
He等[9]提出了空間金字塔網(wǎng)絡 (spatial pyramid pooling network,SPPNet),SPPNet在一個特征圖上通過不同大小區(qū)域的池化產(chǎn)生固定尺寸的特征圖而不用關注輸入特征圖的尺寸大小,增加特征圖感受野。
通道注意力網(wǎng)絡(squeeze-and-excitation networks,SENet)[15]在通道上探究特征之間存在的關系,自適應抽取感興趣的特征,屏蔽權重貢獻較少且?guī)缀鯖]有貢獻的特征,進而形成一種極其類似人眼視覺注意力的機制,提高特征的表達能力。
輕量級卷積神經(jīng)網(wǎng)絡能有效縮減人臉屬性特征的計算量和參數(shù)量,加快算法推理速度、提高算法在嵌入式系統(tǒng)中的資源利用率,縮減響應時間。本文的人臉屬性估計屬于多標簽學習任務,使用共享網(wǎng)絡對眼鏡、性別、年齡屬性的共同特征進行提取,共享網(wǎng)絡結構設計如下。
表1為網(wǎng)絡結構的輸入尺寸、操作類型、重復次數(shù)、通道、步長等參數(shù),所提出的人臉屬性共享網(wǎng)絡借鑒MobileFaceNet網(wǎng)絡設計思想,為保證屬性估計算法在嵌入式設備上高效運行,僅采用MobileFaceNet網(wǎng)絡的前3個瓶頸結構塊(bk:bottleneck)進行設計,并在每個瓶頸結構塊中結合CSPNet、SPPNet設計跨階段融合空間金字塔瓶頸結構(cross stage partial and spatial pyramid pooling bottleneck,CSPSPP_bk),如圖2所示。
表1 主干共享網(wǎng)絡結構Table 1 The backbone shared network structure
Conv、C、pool、SPP、Concat分別為卷積層、通道數(shù)、池化層、圖像金字塔層、通道拼接層圖2 CSPSPPNet_bk結構Fig.2 Structure of CSPSPPNet_bk
F(A)=Concat[A1,fDW(A2),fSPP(A3)]
(1)
式(1)中:F(A)為輸出特征;Concat為通道融合;fDW為深度可分離卷積;A1、A2、A3分別為CSPSPP_bk結構塊中第1、2、3條支路的輸入特征;fSPP為經(jīng)過特征金字塔結構得到的輸出特征圖。
由于SPPNet結構中主要是池化結構,故可學習的參數(shù)幾乎為0,CSPSPP_bk結構塊中算力主要集中于fDW(A2)、fSPP(A3),參數(shù)量僅集中在fDW(A2),相比MobileFaceNet網(wǎng)絡的瓶頸結構特征全部參與運算,CSPSPP_bk降低約1/2的算力、3/4的參數(shù)量。
在卷積之后增加批次歸一化層(batch normalization,BN),對特征進行歸一化處理;避免特征損失和額外的運算操作,網(wǎng)絡設計時均采用步長為2代替池化操作。
由于眼鏡、性別、年齡3個屬性估計的難易程度不同,故在3個屬性分支中采用不同的策略進行估計,基于嵌入式系統(tǒng)的多任務人臉屬性估計網(wǎng)絡結構如圖3所示。眼鏡分支中,眼鏡作為一個人臉局部屬性,僅出現(xiàn)在人臉圖片的中間區(qū)域,且邊緣特征明顯,故在眼鏡分支選擇較淺層的特征進行屬性估計,并在眼鏡分支引入SENet,由于直接引入SENet會大量增加計算量,故在眼鏡分支首先通過一個1×1的卷積對CSPSPP_bk2的特征進行通道降維。SENet模塊在通道上對特征圖的重要性進行加權,有效屏蔽貢獻小或幾乎沒有貢獻的通道特征,SENet實現(xiàn)流程如圖4所示。
圖4中,對輸入通道為C1的特征圖B進行全局平均池化輸出一個1×1×C1的特征,之后連接兩個1×1的卷積分別進行升維和降維,得到通道注意力權重矩陣,將通道注意力系數(shù)矩陣的值利用Sigmoid激活函數(shù)限制到[0,1],Sigmoid表達式如式(2)所示,然后將輸入特征圖與得到的通道權重矩陣相乘
Image、SE、FC、ConvLiner、SoftmaxLoss、SoftmaxLoss-EuclideanLoss分別為輸入圖像層、通道注意力層、全連接層、在卷積層后使用線性激活函數(shù)(Conv后未標注Liner默認卷積之后使用非線性激活函數(shù))、Sofamax損失層、SoftmaxLoss與EuclidenanLoss的組合損失層圖3 人臉屬性估計網(wǎng)絡結構圖Fig.3 Lightweight attribute classification network structure diagram
Conv、Avepool、Sigmoid、Scale、C分別為卷積層、全局平均池化層、Sigmoid激活函數(shù)層、圖像縮放層、通道數(shù)圖4 通道注意力模塊建模圖Fig.4 Modeling diagram of channel attention module
得到經(jīng)過注意力激活的特征圖,其表達式如式(3)所示。
(2)
式(2)中:x為注意力系數(shù)矩陣的值;W為經(jīng)過Sigmoid函數(shù)激活后的輸出值。
(3)
經(jīng)過注意力激活后的特征圖能將非眼鏡區(qū)域的特征限制到一個較低的無響應狀態(tài),從而提升眼鏡屬性的估計性能。
性別和年齡作為全局的人臉屬性,深層特征具備更多語義信息,選擇CSPSPP_bk3的特征進行性別和年齡估計,采用96×112大小的圖片作為輸入,更貼合人臉長寬比例的同時降低特征輸入。
在模型訓練中采用模型蒸餾與模型剪枝進行網(wǎng)絡優(yōu)化。年齡的準確估計一直都是人臉屬性中難以攻破的研究問題,在以往的研究中通過更深的卷積網(wǎng)絡進行年齡估計,采用知識蒸餾[17]的方法進行年齡估計優(yōu)化,平衡困難屬性與簡單屬性的估計性能。
首先采用ResNet50[14]預訓練一個年齡估計精度較高的網(wǎng)絡作為Teacher模型,結合年齡的連續(xù)性特點,使用該網(wǎng)絡對訓練數(shù)據(jù)集的年齡屬性進行標簽軟化,相比硬標簽,軟標簽將年齡擬合到[0,100]之間的連續(xù)數(shù)值,體現(xiàn)不同年齡之間的內(nèi)在關聯(lián)性,所設計的基于嵌入式系統(tǒng)的多任務人臉屬性估計網(wǎng)絡作為Student模型,通過Teacher模型指導Student模型學習,同時使用硬標簽和軟標簽進行模型訓練。對知識蒸餾后的網(wǎng)絡模型采用最小輸出裁剪網(wǎng)絡對輸出特征重建誤差的評價標準對共享層網(wǎng)絡進行逐層剪枝,剪枝流程如圖5所示。
模型剪枝在模型訓練中需重復迭代進行,對網(wǎng)絡單層進行裁剪時,通過較少的迭代訓練進行網(wǎng)絡性能恢復,剪枝結束后使用較多的迭代訓練完成網(wǎng)絡性能的整體修復。
圖5 模型剪枝流程圖Fig.5 Model pruning flow chart
動態(tài)類別抑制損失函數(shù)(adaptive class suppression loss,ACSL)[10]根據(jù)不同類別樣本分布對每個類別的輸出損失進行二值加權,消除大量樣本類別對少量樣本類別的學習抑制,樣本數(shù)據(jù)達到均衡,動態(tài)類別抑制損失函數(shù)的表達式為
(4)
式(4)中:wj為權重值;pj為網(wǎng)絡的預測為第j個類別的概率值;C為類別總數(shù),wj的計算公式為
(5)
式(5)中:k為類別、ζ表示閾值、pj表示網(wǎng)絡的預測為第j個類別的概率值。當前樣本類別為k時損失權重被設置為1,對于其他類別的權重需由一個固定閾值來決定,當其他類別損失權重為1時表示該類別與當前樣本類別學習存在混淆,因此需要保留對混淆性高的類別的梯度損失,加強判別性學習,當預測概率小于閾值時表示網(wǎng)絡對該類別與樣本類別的判斷能力強,不需要繼續(xù)學習。
在基于嵌入式系統(tǒng)的多任務人臉屬性估計任務中必然存在樣本數(shù)據(jù)分布不均衡問題,引入ACSL損失函數(shù)重點均衡年齡屬性的樣本數(shù)據(jù)分布。
本次實驗中,以準確率Acc作為眼鏡、性別和年齡屬性估計的性能評價指標,Acc的計算公式為
(6)
式(6)中:N、i、Cattri、Acc分別為類別總數(shù)、所屬類別、預測類別、精度;當Cattri=1表示屬性估計正確,Cattri=0表示估計錯誤;眼鏡和性別使用精確的Acc進行評估,年齡屬性使用平均準確率±標準差的方法進行評估。
3.2.1 CelebA數(shù)據(jù)集
CelebA數(shù)據(jù)集[18]:CelebA包括202 599個人臉圖像,對每個人臉的標注包括5個關鍵點(雙眼、兩個嘴角、鼻尖),共10 177個身份,對40個屬性都有標注;CelebA數(shù)據(jù)集部分示例樣本如圖6所示。
3.2.2 Adience數(shù)據(jù)集
Adience數(shù)據(jù)集[19]:Adience數(shù)據(jù)集包括26 580張816×816大小的圖片,共2 284個對象,將年齡分為8個年齡組(分組1:0~2、分組2:4~6、分組3:8~13、分組4:15~20、分組5:25~32、分組6:38~43、分組7:48~53、分組8:≥60),各年齡組數(shù)據(jù)樣本分布情況如表2所示。
圖6 CelebA數(shù)據(jù)集部分示例Fig.6 Example of CelebA dataset
表2 Adience數(shù)據(jù)集年齡數(shù)據(jù)分布Table 2 Age data distribution of the Adience dataset
3.2.3 實驗環(huán)境配置
PC實驗環(huán)境為Win7系統(tǒng),硬件配置:CPU:Intel(R) Core(TM) i5-4590(3.3 GHz)嵌入式端選用RK3288開發(fā)板,硬件配置:CPU:Cortex-A17 1.8 GHz。
3.3.1 方法有效性結果分析
該實驗中,MF表示僅用MobileFaceNet網(wǎng)絡中3個瓶頸結構作為主干網(wǎng)絡的基于嵌入式系統(tǒng)的多任務人臉屬性估計網(wǎng)絡,MF_CSP、MF_CSPSSP表示在MF基礎上分別增加CSP模塊、CSPSPP模塊的網(wǎng)絡,MF_CSPSPP+SE表示在眼鏡分支增加注意力模塊,ACSL表示采用動態(tài)類別抑制損失函數(shù),方法MF、MF_CSP、MF_CSPSSP、MF_CSPSPP+SE都只采用Softmax損失進行損失度量,表3為在CelebA和Audience數(shù)據(jù)集上不同技巧消融實驗比較,在測試推理時對網(wǎng)絡中的BN和卷積進行合并處理,優(yōu)化網(wǎng)絡推理速度。
由表3可知,MF僅采用連接單一的瓶頸結構,MF_CSP對特征劃按通道拆分為平等的兩份,僅有一半通道特征參與瓶頸結構計算,MF_CSP的算力僅是MF的46.80%,平均精度降低1.23%,MF_CSPSSP在MF_CSP基礎上引入SPPNet結構,對特征劃按通道拆分為C/2、C/4、C/4,其中C/2的特征
表3 不同網(wǎng)絡在CelebA和Audience數(shù)據(jù)集上不同技巧消融實驗比較Table 3 Comparison of ablation experiments with different techniques on CelebA and Audience datasets
不參與計算、剩下特征的一半通過瓶頸結構,一半通過SPPNet結構,最終對通道進行合并,MF_CSPSSP相比MF_CSP算力降低10%,精度提升1.15%,其中年齡屬性精度提升1.58%,MF_CSPSPP+SE在眼鏡分支增加注意力模塊,算力提升5%,眼鏡估計精度提升1.13%;在多屬性估計任務中無法避免樣本分布不均衡問題,引入動態(tài)類別抑制損失函數(shù)有效解決樣本分布不均衡問題,尤其是在年齡屬性中,方法MF_CSPSPP+SE+ACSL在眼鏡、性別、年齡屬性的精度分別提升0.04%、0.07%、1.85%,其中年齡精度提升最大;通過實驗驗證,在基于嵌入式系統(tǒng)的多任務人臉屬性估計網(wǎng)絡中增加融合SPPNet的CSP特征提取模塊、在局部屬性中增加注意力模塊、引入動態(tài)類別抑制損失函數(shù)等方法有效節(jié)約算力、均衡樣本數(shù)據(jù)分布、提升人臉屬性估計性能。
僅對年齡屬性采用Resnet50[14]訓練的年齡估計網(wǎng)絡對其進行知識蒸餾,提升年齡估計性能,對人臉屬性估計網(wǎng)絡的各層模型參數(shù)通過迭代剪枝的方式進行模型壓縮,模型優(yōu)化前后的測試結果對比如表4所示。
表4 蒸餾和剪枝優(yōu)化后的網(wǎng)絡估計精度和模型大小Table 4 The network classification accuracy and model size after distillation and pruning were optimized
表4中,在PC上測試結果表明經(jīng)過模型蒸餾和剪枝后的人臉屬性估計網(wǎng)絡速度能達到779 fps,模型量降低10%,且平均精度僅損失0.16%,速度提升約30.92%。
3.3.2 不同算法性能對比分析
在CelebA數(shù)據(jù)集上與LNet+ANet[2]、NAS[4]、DMM-CNN[5]進行屬性估計精度、算力比較,具體結果如表5所示。本文算法對性別和眼鏡估計效果最優(yōu),其中眼鏡、性別估計精度相比DMM-CNN分別超過0.03%、0.60%,所提出的人臉屬性估計網(wǎng)絡的算力分別是LNet+ANet、NAS、DMM-CNN的0.62%、1.35%、0.39%,所提出的人臉屬性估計網(wǎng)絡在算法推理時間遠小于LNet+ANet、NAS、DMM-CNN,網(wǎng)絡前傳推理速度占據(jù)絕對優(yōu)勢。
在Adience數(shù)據(jù)集上與4c2f-CNN[20]、CNN2ELM[21]、EGroupNet[22]進行年齡估計實驗對比分析,具體對比數(shù)據(jù)如表6所示。
本文方法的年齡估計精度超過方法4c2f-CNN,與CNN2ELM、EGroupNet相比精度相差6.28%、9.57%,的方法的平均精度的標準差僅為3.01%,相比以上3種方法,本文算法的年齡估計穩(wěn)定性最好、網(wǎng)絡算力最低,方法4c2f-CNN、CNN2-ELM、EGroupNet需要的算力開銷過大均不適合在嵌入式設備上進行實時的屬性估計,為體現(xiàn)本文算法在速度和精度上的優(yōu)勢,在PC和RK3288開發(fā)板上與嵌入式年齡估計算法[23]進行前傳推理時間比較,測試結果如表7所示。
表5 在CelebA數(shù)據(jù)集上性別和眼鏡估計測試結果對比Table 5 Comparison of gender and eyewear classification test results on CelebA dataset
表6 在Adience數(shù)據(jù)集上年齡估計測試結果對比Table 6 Comparison of age classification test results on the Adience dataset
表7 在PC和RK3288處理器中網(wǎng)絡前傳推理時間測試Table 7 Network forward inference time test in PC and RK3288 processor
表7中DeepID和DeepID_best是文獻[23]中設計的面向嵌入式應用的性別與年齡識別卷積網(wǎng)絡,文獻[23]使用卷積網(wǎng)絡單獨對年齡和性別進行特征提取,所提出的人臉屬性估計算法屬于多任務學習網(wǎng)絡,通過共享網(wǎng)絡僅做一次特征提取就可以對眼鏡、性別、年齡3個屬性進行估計,表7中,為方便測試時間比較,對文獻[23]中的兩種方法的測試時間等比放大到3個屬性測試時間,所提出的基于嵌入式系統(tǒng)的多任務人臉屬性估計算法在PC和RK3288上的前傳推理時間分別是1.28、7.24 ms,相比4c2f-CNN、DeepID、DeepID_best推理時間最少且算力最低,在文獻[23]中已經(jīng)驗證4c2f-CNN的年齡估計精度高于DeepID和DeepID_best的方法,在表6中的實驗結果表明本文的年齡屬性估計精度優(yōu)于4c2f-CNN的年齡估計精度,故所提出的基于嵌入式系統(tǒng)的多任務人臉屬性估計算法在精度和速度上均優(yōu)于文獻[23]的方法。
在實際應用中,性別和眼鏡作為較開放的屬性,估計性能往往要求極高,而年齡因環(huán)境因素存在巨大差異,更趨向于表象估計值,估計存在一定的誤差是不能避免的,甚至在實際的應用中人們更希望估計的年齡相比真實年齡更年輕,所提出的基于輕量卷積網(wǎng)絡的人臉屬性估計算法對眼鏡、性別的估計具有較高的精度,難免會犧牲年齡估計的精度,折中后的人臉屬性估計算法均能滿足實際應用需求,可在移動、嵌入式設備上實現(xiàn)高效的人臉屬性估計。
3.3.3 實際應用測試結果分析
為驗證本文算法在實際應用場景中的有效性,在Android系統(tǒng)的移動手機和iOS系統(tǒng)的iphone 11上進行不同性別、是否佩戴眼鏡、單人臉和雙人臉等條件下的人臉屬性估計測試,效果如圖7所示。
圖7中性別、是否佩戴眼鏡均能準確估計,年齡估計誤差都在3歲范圍以內(nèi),對單張人臉圖片在安卓操作系統(tǒng)和iOS操作系統(tǒng)上進行屬性估計的平均測試速度分別為250、520 fps,對雙人臉圖片進行屬性估計的平均測試速度仍然可以分別保持在100、260 fps,完全滿足實際應用需求。
(1)針對人臉屬性估計算法存在模型量大、算力大、不利于算法在嵌入式設備、移動設備上使用等問題,提出基于嵌入式系統(tǒng)的多任務人臉屬性估計算法,主干網(wǎng)絡借鑒MobileFaceNet網(wǎng)絡中的前3個瓶頸結構,并在瓶頸結構中增加CSPNet和SPPNet結構,縮減網(wǎng)絡算力,針對不同屬性的難易程度,
圖7 移動設備實際應用效果Fig.7 Practical application effect diagram of mobile devices
在不同的屬性分支中增加不同的估計策略,采用動態(tài)類別抑制損失函數(shù)均衡樣本數(shù)據(jù),平均性能提升0.65個百分點;在年齡屬性中通過知識蒸餾方法對模型進行性能優(yōu)化,使用模型剪枝方法縮減模型量,經(jīng)過優(yōu)化后的模型量僅1.8 MB。
(2)所提出的人臉屬性估計算法在測試推理時將網(wǎng)絡中的卷積與BN進行合并,優(yōu)化推理速度。在CelebA數(shù)據(jù)集和Adience數(shù)據(jù)集上分別驗證了方法的有效性,眼鏡和性別屬性的平均精度分為99.72%、98.89%,年齡標準差為3.01%的年齡精度為60.21%,在PC和RK3288開發(fā)板上的推理速度分別是779 fps、138 fps,在Android操作系統(tǒng)和Ios操作系統(tǒng)的移動手機上對單人臉和雙人臉的平均測試速度分別為250 fps、520 fps。整體性能優(yōu)于現(xiàn)有的其他嵌入式人臉屬性估計算法。
(3)基于嵌入式系統(tǒng)的多任務人臉屬性估計算法在速度和精度上進行權衡,眼鏡和性別作為客觀屬性,在實際應用中的存在極高的精度需求,基于嵌入式系統(tǒng)的多任務人臉屬性估計算法需以保障眼鏡和性別估計性能的條件下對年齡估計性能進行折中,因此本文算法在年齡屬性的估計精度略低于CNN2ELM算法和EGroupNet算法,在接下來的研究中將對年齡估計性能做進一步優(yōu)化,減少年齡估計誤差,提高算法在不同應用場景的魯棒性。