肖 紅, 張瑤瑤, 原 野
(1. 東北石油大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院, 黑龍江 大慶 163318;2. 中國(guó)石油勘探開(kāi)發(fā)研究院 測(cè)井遙感所, 北京 100083)
人臉特征包含性別、 表情、 年齡等信息, 具有自然性、 方便性和非接觸性等優(yōu)點(diǎn), 在公共社會(huì)安全、 經(jīng)濟(jì)財(cái)產(chǎn)安全、 軍事、 反恐刑偵、 人機(jī)交互等電子信息安全領(lǐng)域應(yīng)用廣泛. 目前, 對(duì)人臉特征年齡、 性別識(shí)別的研究已取得許多成果. 在年齡估計(jì)方面, 傳統(tǒng)方法主要通過(guò)計(jì)算年齡特征[1]、 建模[2-3]、 采用Gabor特征[4]及分類(lèi)器[5-6]等方法估計(jì)人臉圖像的年齡, 但基于手工設(shè)計(jì)特征難以提取, 不能有效提升年齡跨度較大的圖像準(zhǔn)確識(shí)別. 因此, 越來(lái)越多的學(xué)者將機(jī)器學(xué)習(xí)應(yīng)用于年齡估計(jì)中, 主要有流形學(xué)習(xí)方法[7]和深度學(xué)習(xí)方法[8]. Rothe等[9]提出了一種深度期望模型, 采用卷積神經(jīng)網(wǎng)絡(luò)對(duì)單個(gè)人臉圖像進(jìn)行年齡估計(jì), 隨著樣本容量的增加, 性能提升明顯; Ng等[10]研究了皺紋對(duì)面部年齡估計(jì)的影響, 并提出混合老化模式(HAP)用于面部年齡估計(jì), 取得了較好的效果. 在性別識(shí)別方面, 性別分類(lèi)方法常與特征提取算法相結(jié)合. Sun等[11]通過(guò)獲取局部二值模式(LBP)直方圖, 應(yīng)用Adaboost分類(lèi)器進(jìn)行性別分類(lèi); 在此基礎(chǔ)上, Shan[12]在自然場(chǎng)景LFW數(shù)據(jù)庫(kù)下應(yīng)用Adaboost分類(lèi)器及支持向量機(jī)(SVM)和增強(qiáng)的LBP特征, 獲得了94.81%的識(shí)別性能; 隨著深度學(xué)習(xí)的發(fā)展, Levi等[13]首次使用了深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)人臉年齡與性別分類(lèi)進(jìn)行研究, 解決了傳統(tǒng)方法需人工提取特征的難題; Duan等[14]應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)和極限學(xué)習(xí)機(jī)的混合結(jié)構(gòu), 集成了兩個(gè)分類(lèi)器的協(xié)同作用進(jìn)行年齡和性別分類(lèi), 取得了較高的識(shí)別準(zhǔn)確率; Afifi等[15]根據(jù)面部及其上下文特征組合訓(xùn)練深卷積神經(jīng)網(wǎng)絡(luò), 應(yīng)用前景廣闊.
人臉特征的年齡分類(lèi)和性別檢測(cè)在真實(shí)場(chǎng)景下受很多因素影響. 一方面, 由于個(gè)體衰老程度不同, 且存在化妝、 生活環(huán)境等影響, 年齡的識(shí)別仍很難; 另一方面, 復(fù)雜光線(xiàn)環(huán)境、 姿態(tài)、 表情及圖片自身的質(zhì)量等因素都會(huì)導(dǎo)致識(shí)別困難. 采用深度學(xué)習(xí)方法雖然大幅度提高了識(shí)別準(zhǔn)確度, 但對(duì)圖像進(jìn)行多次特征提取后, 圖像分辨率不斷減小, 特征提取更困難, 且網(wǎng)絡(luò)計(jì)算復(fù)雜度較高, 資源消耗較多. 針對(duì)上述問(wèn)題, 本文基于高分辨率網(wǎng)絡(luò)[16]進(jìn)行改進(jìn), 改進(jìn)后網(wǎng)絡(luò)含有高低不同的4種圖像分辨率, 對(duì)不同尺度特征進(jìn)行信息交換, 融合MobileNetV3[17]結(jié)構(gòu), 減少了網(wǎng)絡(luò)參數(shù).
自提出深層卷積神經(jīng)網(wǎng)絡(luò)VGG[18]和Google Net[19]后, 由網(wǎng)絡(luò)深度增加而導(dǎo)致的梯度消失及網(wǎng)絡(luò)退化等問(wèn)題已引起人們廣泛關(guān)注. He等[20]提出了一種深度殘差網(wǎng)絡(luò)(ResNet), 通過(guò)加入捷徑鏈接構(gòu)成基本殘差塊, 連接淺層網(wǎng)絡(luò)和深層網(wǎng)絡(luò), 解決了梯度消失的問(wèn)題, 從而在很大程度上提升了網(wǎng)絡(luò)性能. 捷徑鏈接區(qū)別于一般網(wǎng)絡(luò)結(jié)構(gòu)中由輸入直接經(jīng)過(guò)卷積層得到輸出的結(jié)構(gòu), 而是將兩個(gè)卷積層所得到的輸出加上網(wǎng)絡(luò)的輸入.
深度卷積神經(jīng)網(wǎng)絡(luò)性能優(yōu)異, 現(xiàn)有的方法多數(shù)通過(guò)一個(gè)網(wǎng)絡(luò)(通常由高分辨率到低分辨率的子網(wǎng)串聯(lián)而成)傳遞輸入, 然后提高分辨率. 高分辨率網(wǎng)絡(luò)(HRNet)能在整個(gè)過(guò)程中保持高分辨率表示. 高分辨率子網(wǎng)作為第一階段, 逐步增加高分辨率到低分辨率的子網(wǎng), 并將多分辨率子網(wǎng)并行連接. 在整個(gè)過(guò)程中, 通過(guò)在并行的多分辨率子網(wǎng)上反復(fù)交換信息進(jìn)行多尺度特征的重復(fù)融合. 網(wǎng)絡(luò)有4個(gè)階段, 除第一階段的高分辨率子網(wǎng)外, 第二、 第三和第四階段通過(guò)重復(fù)模塊化的多分辨率塊形成. 多分辨率塊由多分辨率組卷積和多分辨率卷積組成, 如圖1所示. 多分辨率組卷積是組卷積的簡(jiǎn)單擴(kuò)展, 其將輸入通道劃分為若干通道子集, 并分別在不同空間分辨率上對(duì)每個(gè)子集執(zhí)行常規(guī)卷積, 如圖1(A)所示. 多分辨率卷積則以全連接方式連接不同卷積操作分支, 輸出通道的每個(gè)子集為輸入通道每個(gè)子集的卷積輸出之和, 如圖1(B)所示.
網(wǎng)絡(luò)使用重復(fù)的多尺度融合, 利用相同深度和相似級(jí)別的低分辨率表示提高高分辨率表示, 并提高結(jié)果準(zhǔn)確度. 但網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜, 參數(shù)量較大.
MobileNetV3是在MobileNetV1和MobileNetV2的基礎(chǔ)上構(gòu)建的. MobileNetV1[21]將空間濾波與特征生成機(jī)制分離, 引入深度可分離卷積將標(biāo)準(zhǔn)卷積分解成深度卷積和逐點(diǎn)卷積. MobileNetV2[22]引入了線(xiàn)性瓶頸和倒置殘差結(jié)構(gòu), 將輸入的低維壓縮表示首先擴(kuò)展到高維, 并用輕量級(jí)深度卷積進(jìn)行濾波, 隨后用逐點(diǎn)卷積將特征投影回低維表示. 普通殘差結(jié)構(gòu)先將通道數(shù)壓縮, 再進(jìn)行特征提取, 最后將通道數(shù)擴(kuò)張回初始狀態(tài). 而倒置殘差結(jié)構(gòu), 先對(duì)通道進(jìn)行提升, 獲得更多特征, 特征提取后再將通道壓縮回初始狀態(tài). 考慮到ReLU函數(shù)會(huì)對(duì)通道數(shù)較低的張量產(chǎn)生較大的信息損耗, 因此采用線(xiàn)性瓶頸, 即用線(xiàn)性層替換通道數(shù)較少層后的ReLU函數(shù). 當(dāng)且僅當(dāng)通道數(shù)量相同時(shí), 輸入和輸出由捷徑鏈接相連.
基于MobileNetV2結(jié)構(gòu), MobileNetV3將基于擠壓和激發(fā)的輕量級(jí)注意模塊(squeeze and excitation networks, SE)[23]引入瓶頸結(jié)構(gòu). SE模塊通過(guò)學(xué)習(xí)的方式先自動(dòng)獲取每個(gè)特征通道的重要程度, 然后根據(jù)該重要程度增強(qiáng)有用特征, 并抑制對(duì)當(dāng)前任務(wù)作用較小的特征. MobileNetV3使用這些層的組合作為構(gòu)建塊, 將最后一步的平均池化層前移并移除最后一個(gè)卷積層, 引入h_swish激活函數(shù). 網(wǎng)絡(luò)采用輕量級(jí)模塊, 參數(shù)量較小, 但由于對(duì)特征圖像的層層提取, 導(dǎo)致圖像分辨率較低, 信息融合受限.
為解決上述問(wèn)題, 本文通過(guò)在HRNet中融合MobileNetV3結(jié)構(gòu), 對(duì)高分辨率網(wǎng)絡(luò)進(jìn)行改進(jìn). 在改進(jìn)后的網(wǎng)絡(luò)(IHRNet)中, 采用具有線(xiàn)性瓶頸和倒置殘差結(jié)構(gòu)的可分離卷積, 并增加SE模塊, 同時(shí)修改部分非線(xiàn)性激活函數(shù)為h_swish, 使用Adam自適應(yīng)優(yōu)化函數(shù)等策略提升IHRNet的性能. 改進(jìn)的網(wǎng)絡(luò)不僅可通過(guò)執(zhí)行重復(fù)的多尺度融合提高性能, 而且參數(shù)量大幅度減小.
IHRNet網(wǎng)絡(luò)共有4個(gè)并行連接的高低分辨率子網(wǎng), 從上至下通過(guò)步長(zhǎng)為2的卷積進(jìn)行下采樣, 分辨率縮小為上一級(jí)的1/2, 通道數(shù)擴(kuò)大2倍. 網(wǎng)絡(luò)共包含4個(gè)階段: 階段1包含4個(gè)瓶頸殘差塊; 階段2、 階段3和階段4分別包含1,4,3個(gè)多分辨率塊, 每個(gè)多分辨率塊的多分辨率組卷積部分分別包含2,3,4個(gè)分支, 每個(gè)分支包含4個(gè)改進(jìn)后的IHRblock, 每個(gè)IHRblock包含2個(gè)具有倒置殘差和線(xiàn)性瓶頸結(jié)構(gòu)的可分離卷積, 激活函數(shù)為h_swish, 最后一個(gè)IHRblock前加入SE結(jié)構(gòu). 所有卷積層均使用批量歸一化層. 優(yōu)化器使用Adam自適應(yīng)優(yōu)化函數(shù). 通過(guò)上下采樣將4個(gè)不同分辨率的特征不斷進(jìn)行融合, 最后通過(guò)1×1卷積將1 024個(gè)通道轉(zhuǎn)換為2 048個(gè)通道, 然后進(jìn)行全局平均池操作. 輸出的2 048維表示被輸入到分類(lèi)器中. 網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示.
網(wǎng)絡(luò)采用SoftMax分類(lèi)器, 年齡分為8種類(lèi)別, 所以有8個(gè)輸出節(jié)點(diǎn), 性別識(shí)別只有2個(gè)輸出節(jié)點(diǎn). 全連接層到SoftMax層可表示為{(x(1),y(1)),(x(2),y(2)),…,(x(N),y(N))}, 其中:x(i)表示全連接層的輸出特征向量;y(i)為樣本的真實(shí)年齡或性別;N為標(biāo)簽數(shù)量. 前向傳播后, SoftMax分類(lèi)器的輸出可表示為
(1)
其中: 對(duì)于性別和年齡識(shí)別輸出,K取值分別為2和8;wi是全連接層中的神經(jīng)元與SoftMax分類(lèi)器第i個(gè)輸出神經(jīng)元相連接的權(quán)重參數(shù);hw(x(i))是一個(gè)概率向量, 向量中的各項(xiàng)之和為1, 每一項(xiàng)表示該標(biāo)簽屬于對(duì)應(yīng)類(lèi)別的概率值, 取概率最大的類(lèi)別作為SoftMax的分類(lèi)結(jié)果. 損失函數(shù)采用交叉熵, 即
(2)
其中, 1{y(i)=j}表示當(dāng)?shù)趇個(gè)標(biāo)簽的類(lèi)別屬于j類(lèi)時(shí)輸出為1.
改進(jìn)后的網(wǎng)絡(luò)將標(biāo)準(zhǔn)卷積替換為可分離卷積, 有效減少了網(wǎng)絡(luò)計(jì)算量. 標(biāo)準(zhǔn)卷積層的計(jì)算量為
C1=DK·DK·M·N·DF·DF,
(3)
其中:M為輸入通道數(shù);N為輸出通道數(shù);DK為卷積核大??;DF為輸出特征圖大小. 深度可分離卷積的計(jì)算量為
采用SPSS 18.0進(jìn)行統(tǒng)計(jì)分析,負(fù)性情緒、生活質(zhì)量及疾病不確定感得分均采用均數(shù)±標(biāo)準(zhǔn)差表示,組間比較采用t檢驗(yàn),以P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
C2=DK·DK·M·DF·DF+M·N·DF·DF,
(4)
即深度卷積與1×1的逐點(diǎn)卷積之和.
通過(guò)將卷積分為濾波和組合的過(guò)程得到計(jì)算量的縮減為
(5)
使用3×3的深度可分離卷積相對(duì)于標(biāo)準(zhǔn)卷積可減少8~9倍的計(jì)算量.
Swish[24]是Google提出的一種新型激活函數(shù), 其原始公式為
(6)
具有不飽和、 光滑、 非單調(diào)性的特征, 能有效提高網(wǎng)絡(luò)精度. 為減小計(jì)算量, 本文采用非線(xiàn)性激活函數(shù)h_swish[24]. 該函數(shù)使用ReLU6(x+3)/6代替sigmoid函數(shù), 公式如下:
(7)
h_swish函數(shù)具有很多優(yōu)勢(shì), ReLU6函數(shù)在眾多軟硬件框架中均可實(shí)現(xiàn), 不僅量化時(shí)避免了數(shù)值精度的損失, 且運(yùn)行速度更快.
SE模塊基于Squeeze和Excitation兩個(gè)關(guān)鍵步驟: Squeeze操作對(duì)空間維度進(jìn)行特征壓縮, 將每個(gè)二維的特征通道變?yōu)橐粋€(gè)實(shí)數(shù), 實(shí)數(shù)表示在特征通道上響應(yīng)全局分布, 使靠近輸入的層也可獲得全局的感受野; Excitation操作通過(guò)調(diào)節(jié)參數(shù)為每個(gè)特征通道生成權(quán)重, 參數(shù)被用于顯式地表示特征通道間的相關(guān)性. Reweight操作將Excitation輸出的權(quán)重作為特征選擇后的每個(gè)特征通道的重要性, 通過(guò)乘法逐通道加權(quán)到原來(lái)的特征上, 完成在通道維度上對(duì)原始特征的重標(biāo)定.
SE模塊在自適應(yīng)平均池化后連接兩個(gè)全連接層, 添加h_sigmoid函數(shù), 組成一個(gè)瓶頸結(jié)構(gòu), 對(duì)通道間的相關(guān)性建模, 并輸出與輸入特征相同數(shù)目的權(quán)重. SE模塊在網(wǎng)絡(luò)中的結(jié)構(gòu)如圖3所示.
圖3 SE模塊結(jié)構(gòu)Fig.3 Structure of SE module
網(wǎng)絡(luò)保持了高分辨率表示, 即可提取更多的有效特征; 構(gòu)建IHRblock輕量化結(jié)構(gòu), 極大減少了參數(shù)量和計(jì)算量; SE結(jié)構(gòu)具有更多的非線(xiàn)性, 可更好地?cái)M合通道間復(fù)雜的相關(guān)性; 非線(xiàn)性激活函數(shù)h_swish使網(wǎng)絡(luò)計(jì)算速度更快, 量化更友好.
Adience數(shù)據(jù)集專(zhuān)門(mén)用于人臉性別和年齡的識(shí)別研究. 該數(shù)據(jù)庫(kù)中的圖像由用戶(hù)在非限制性條件下使用手機(jī)拍攝, 上傳到Flickr平臺(tái)上, 且未經(jīng)過(guò)濾波操作. 數(shù)據(jù)庫(kù)中的人臉姿勢(shì)、 光照條件及背景都存在差異. Adience數(shù)據(jù)庫(kù)共包含2 284個(gè)不同個(gè)體, 26 580張人臉圖像, 如圖4(A)所示. 年齡標(biāo)簽共分為8個(gè)階段: 0~2,4~6,8~13,15~20,25~32,38~43,48~53,60~100. 對(duì)Adience數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗, 將年齡標(biāo)簽不在已劃分8個(gè)階段的圖像, 選擇相鄰較小年齡段作為其標(biāo)簽, 通過(guò)OpenCV進(jìn)行人臉檢測(cè), 刪除未檢測(cè)到的人臉及多個(gè)人臉的數(shù)據(jù), 對(duì)數(shù)據(jù)清洗后的數(shù)據(jù)集通過(guò)裁剪、 翻轉(zhuǎn)等方法進(jìn)行數(shù)據(jù)增強(qiáng).
IMDB-WIKI數(shù)據(jù)集是目前最大的非受限人臉年齡圖像數(shù)據(jù)集, 通過(guò)爬蟲(chóng)技術(shù)從互聯(lián)網(wǎng)電影資料庫(kù)(IMDB)及維基百科(Wikipedia)獲取共計(jì)523 051張人面部圖像, 其中IMDB包含460 723張圖像, Wikipedia包含62 328張圖像. 每張圖像具有性別和年齡標(biāo)注, 年齡范圍為0~100歲, 如圖4(B)所示. IMDB-WIKI數(shù)據(jù)集上含有許多低質(zhì)量圖片, 如濃妝、 遮擋、 人物素描、 一張圖片含有多個(gè)人臉以及標(biāo)簽?zāi)挲g與實(shí)際年齡不符等, 嚴(yán)重影響網(wǎng)絡(luò)學(xué)習(xí)能力. 因此對(duì)IMDB-WIKI數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗, 刪除標(biāo)簽為空的數(shù)據(jù), 通過(guò)OpenCV進(jìn)行人臉檢測(cè), 刪除未檢測(cè)到人臉及多個(gè)人臉的數(shù)據(jù).
圖4 Adience數(shù)據(jù)集(A)和IMDB-WIKI數(shù)據(jù)集(B)部分人臉圖像Fig.4 Part of face images of Adience data set (A) and IMDB-WIKI data set (B)
實(shí)驗(yàn)輸入圖片為3通道的彩色圖片, 通過(guò)等比例縮放調(diào)整大小為224×224, 網(wǎng)絡(luò)采用Pytorch框架, 在Win 10操作系統(tǒng)下進(jìn)行編譯, Linux操作系統(tǒng)下應(yīng)用Nvidia RTX 2070 GPU進(jìn)行訓(xùn)練及測(cè)試.
3.3.1 網(wǎng)絡(luò)預(yù)訓(xùn)練 Adience數(shù)據(jù)集數(shù)據(jù)量較小, 直接將網(wǎng)絡(luò)在其上訓(xùn)練易產(chǎn)生過(guò)擬合等問(wèn)題, 針對(duì)此問(wèn)題, 先使用數(shù)據(jù)量較大的IMDB-WIKI數(shù)據(jù)集對(duì)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練, 得到性別、 年齡識(shí)別模型; 再在Adience數(shù)據(jù)集上加載預(yù)訓(xùn)練模型進(jìn)行訓(xùn)練及測(cè)試. 由于顯存限制, IMDB-WIKI數(shù)據(jù)集預(yù)訓(xùn)練時(shí), 迭代次數(shù)(Epoch)和批量大小(Batch_size)分別設(shè)為50,16, 觀察到數(shù)據(jù)集中男女比例相差較大, 因此采用五折交叉驗(yàn)證方法. Adience數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí), 迭代次數(shù)(Epoch)和批量大小(Batch_size)分別設(shè)為100,16, 隨機(jī)選取80%作為訓(xùn)練集, 20%作為測(cè)試集. 在Adience數(shù)據(jù)集的訓(xùn)練集上, 性別、 年齡識(shí)別的損失函數(shù)下降曲線(xiàn)如圖5所示. 由圖5可見(jiàn), 未添加預(yù)訓(xùn)練的年齡識(shí)別損失函數(shù)值下降后又升高, 訓(xùn)練過(guò)程中出現(xiàn)了過(guò)擬合問(wèn)題, 添加了預(yù)訓(xùn)練的網(wǎng)絡(luò)損失函數(shù)始終保持下降趨勢(shì), 可見(jiàn)預(yù)訓(xùn)練過(guò)程有效減輕了數(shù)據(jù)量不足對(duì)網(wǎng)絡(luò)造成的過(guò)擬合影響. 而且添加預(yù)訓(xùn)練性別和年齡識(shí)別的損失函數(shù)值下降較快, 收斂效果較好.
圖5 性別、 年齡識(shí)別的損失函數(shù)下降曲線(xiàn)Fig.5 Decline curves of loss function of gender and age recognition
數(shù)據(jù)集隨機(jī)劃分的數(shù)據(jù)具有偶然性, 不能有效將識(shí)別難易程度不同的人臉圖像均勻劃分到訓(xùn)練集和測(cè)試集, 從而影響實(shí)驗(yàn)結(jié)果, 因此再次將Adience數(shù)據(jù)集的訓(xùn)練集和測(cè)試集依次按90%和10%,80%和20%,70%和30%的比例進(jìn)行劃分, 性別、 年齡識(shí)別準(zhǔn)確率列于表1. 由表1可見(jiàn), 數(shù)據(jù)集的劃分具有偶然性, 當(dāng)劃分?jǐn)?shù)據(jù)集的訓(xùn)練集和測(cè)試集比為9∶1時(shí), 網(wǎng)絡(luò)對(duì)性別和年齡的識(shí)別準(zhǔn)確率最高, 這是由于訓(xùn)練集訓(xùn)練數(shù)據(jù)較多時(shí), 網(wǎng)絡(luò)能提取到更多特征, 增強(qiáng)了學(xué)習(xí)能力.
表1 Adience數(shù)據(jù)集不同比例劃分下性別、 年齡的識(shí)別準(zhǔn)確率
3.3.2 網(wǎng)絡(luò)訓(xùn)練與測(cè)試 為得到網(wǎng)絡(luò)對(duì)人臉性別、 年齡識(shí)別的最佳方案, 確定網(wǎng)絡(luò)超參數(shù)的選取, 加載改進(jìn)的IHRNet預(yù)訓(xùn)練模型, 在Adience數(shù)據(jù)集上對(duì)性別、 年齡識(shí)別進(jìn)行以下實(shí)驗(yàn): 劃分訓(xùn)練集和測(cè)試集比為9∶1, 迭代次數(shù)(Epoch)、 批量大小(Batch_size)分別設(shè)為150,200和16,32; Adam自適應(yīng)優(yōu)化函數(shù)學(xué)習(xí)速率分別設(shè)為10-3和10-5, 實(shí)驗(yàn)結(jié)果列于表2. 由表2可見(jiàn), 當(dāng)網(wǎng)絡(luò)迭代次數(shù)為150, 批量大小為16, Adam自適應(yīng)學(xué)習(xí)優(yōu)化算法學(xué)習(xí)速率為10-3時(shí), 網(wǎng)絡(luò)較穩(wěn)定. 隨著迭代次數(shù)的增加, 易產(chǎn)生網(wǎng)絡(luò)退化問(wèn)題, 減緩網(wǎng)絡(luò)收斂速度, 網(wǎng)絡(luò)并未出現(xiàn)更好的效果. 較低的優(yōu)化算法初始學(xué)習(xí)率, 使網(wǎng)絡(luò)學(xué)習(xí)速度大幅度減小, 收斂緩慢. 因此, 網(wǎng)絡(luò)超參數(shù)的選取應(yīng)根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)、 數(shù)據(jù)集大小等進(jìn)行調(diào)整.
表2 不同參數(shù)下Adience數(shù)據(jù)集中性別、 年齡的識(shí)別準(zhǔn)確率
3.3.3 方法對(duì)比 為驗(yàn)證本文方法與現(xiàn)有方法相比的優(yōu)勢(shì), 將ResNet50,HRNet,MobileNetV3以及改進(jìn)后的IHRNet在Adience數(shù)據(jù)集上進(jìn)行訓(xùn)練及測(cè)試. ResNet50為50層的殘差網(wǎng)絡(luò), 優(yōu)化器為均方根傳播(RMSProp)優(yōu)化算法, 初始學(xué)習(xí)率為0.045, 每迭代2次后以0.94的指數(shù)速率衰減. HRNet初始學(xué)習(xí)率設(shè)為0.1, 并在迭代30,60,90次時(shí)減少10倍, 使用隨機(jī)梯度下降(SGD)優(yōu)化算法, 權(quán)重衰減為0.000 1, Nesterov動(dòng)量為0.9. MobileNetV3初始學(xué)習(xí)率設(shè)為0.1, 每迭代3次后學(xué)習(xí)率衰減為0.01, 使用均方根傳播(RMSProp)優(yōu)化算法, 動(dòng)量為0.9, 權(quán)重衰減為10-5, 卷積層后使用批量歸一化層. 經(jīng)試驗(yàn), ResNet50的迭代次數(shù)、 批量大小設(shè)為60,32, 其他3個(gè)網(wǎng)絡(luò)迭代次數(shù)和批量大小設(shè)為150,16時(shí), 可取得最高準(zhǔn)確率, 測(cè)試結(jié)果列于表3. 由表3可見(jiàn), 改進(jìn)后的網(wǎng)絡(luò)在年齡及性別識(shí)別上的準(zhǔn)確率分別高達(dá)82%,95%, 比同類(lèi)算法分別平均提升9%和3%.
表3 同類(lèi)方法在Adience數(shù)據(jù)集上性別、 年齡的識(shí)別準(zhǔn)確率
在模型的參數(shù)量方面, 未改進(jìn)的HRNet參數(shù)量為19.97 M, 改進(jìn)后的網(wǎng)絡(luò)采用輕量級(jí)網(wǎng)絡(luò)結(jié)構(gòu), 參數(shù)量為12.81 M, 參數(shù)量減少36%.
對(duì)于改進(jìn)網(wǎng)絡(luò)性能提升的原因, 本文從網(wǎng)絡(luò)內(nèi)部機(jī)理給出以下分析: 區(qū)別于其他網(wǎng)絡(luò)僅由高分辨率卷積的表示或從網(wǎng)絡(luò)輸出的低分辨率表示中恢復(fù)高分辨率表示, 改進(jìn)后的網(wǎng)絡(luò)通過(guò)聚合所有并行卷積增強(qiáng)高分辨率表示, 各尺度特征重復(fù)進(jìn)行信息交換, 聚合多種不同感受野上的特征獲得性能增益; 可分離卷積有效減少了參數(shù)量, SE模塊調(diào)整權(quán)重作為特征選擇后的每個(gè)特征通道的重要性, 根據(jù)該重要程度提升有用的特征, 并抑制對(duì)當(dāng)前任務(wù)影響較小的特征, 使靠近輸入的層也可獲得全局的感受野, 從而提高了人臉特征識(shí)別的準(zhǔn)確率.
綜上所述, 本文提出了一種基于改進(jìn)高分辨率網(wǎng)絡(luò)(IHRNet)的新方法. IHRNet融合具有線(xiàn)性瓶頸、 倒置殘差結(jié)構(gòu)的可分離卷積, 減少了網(wǎng)絡(luò)參數(shù); 通過(guò)擠壓和激發(fā)的輕量級(jí)注意模塊調(diào)整通道權(quán)重, 使靠近輸入的層也可獲得全局感受野; 同時(shí)網(wǎng)絡(luò)能使高、 低兩種分辨率模式并行, 保證了多尺度特征的融合, 從而使人臉特征識(shí)別準(zhǔn)確率明顯提升. 此外, 網(wǎng)絡(luò)通過(guò)預(yù)訓(xùn)練, 進(jìn)一步降低了過(guò)擬合風(fēng)險(xiǎn). 實(shí)驗(yàn)結(jié)果表明, 本文方法不僅具有較高的識(shí)別準(zhǔn)確率, 而且優(yōu)于同類(lèi)對(duì)比方法, 驗(yàn)證了本文改進(jìn)措施有效、 可行.