摘要:瞳孔中心是眼動(dòng)追蹤、人臉識(shí)別等計(jì)算機(jī)視覺(jué)領(lǐng)域中的精細(xì)參數(shù),實(shí)現(xiàn)瞳孔中心自動(dòng)檢測(cè)具有廣泛的應(yīng)用價(jià)值。論文結(jié)合Faster RCNN模型,提出一種細(xì)分虹膜形狀特征與圖像梯度法的人眼瞳孔定位算法。首先,對(duì)圖像進(jìn)行光照補(bǔ)償預(yù)處理,在此基礎(chǔ)上,利用改進(jìn)的ResNet50作為Faster RCNN模型的骨干網(wǎng)絡(luò)來(lái)檢測(cè)人臉和眼睛;其次,通過(guò)幾何約束對(duì)眼睛區(qū)域進(jìn)行選擇,采用積分圖像法實(shí)現(xiàn)虹膜區(qū)域檢測(cè);最后,通過(guò)圖像梯度算法進(jìn)行瞳孔中心定位。實(shí)驗(yàn)結(jié)果表明:該算法在GI4E數(shù)據(jù)集及自建的面部數(shù)據(jù)集上能夠較精確地實(shí)現(xiàn)瞳孔中心定位,并且在歸一化誤差0.2閾值內(nèi),分別達(dá)到了100%和99.46%的定位精度,具有較好的魯棒性和實(shí)時(shí)性。
關(guān)鍵詞:瞳孔中心定位;Faster RCNN;圖像梯度;ResNet50;積分圖像
中圖分類號(hào):TP391.4;TP183文獻(xiàn)標(biāo)志碼:A眼睛是面部特征歸一化的突出特征,瞳孔識(shí)別是計(jì)算機(jī)視覺(jué)應(yīng)用和眾多面部生物識(shí)別應(yīng)用的關(guān)鍵步驟。對(duì)于瞳孔中心定位,眼睛的檢測(cè)起著重要的作用。然而,由于眼睛外觀的高度差異性,眼中心定位仍然是一項(xiàng)艱巨的任務(wù)。所謂差異性是指眼睛結(jié)構(gòu)差異,以及外部環(huán)境因素引起的變化,特別是虹膜大小、顏色的變化、圖像質(zhì)量和遮擋等。為了解決此問(wèn)題,研究人員試圖將面部和眼睛作為感興趣區(qū)域(region of interest,ROI),以更好地定位眼中心。Voila-Jones和Boosted cascade人臉檢測(cè)器[1]是目前常用的基于淺結(jié)構(gòu)的人臉檢測(cè)技術(shù)。對(duì)于眼睛檢測(cè),多使用圖像梯度信息[2],也有實(shí)驗(yàn)使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行眼部檢測(cè),但性能在姿態(tài)和尺度變化下易下降。一般來(lái)說(shuō),瞳孔中心定位方法分為3類: 基于幾何特征的方法、基于外觀統(tǒng)計(jì)的方法以及混合方法。TIMM等[3]提出基于梯度向量和位移向量的點(diǎn)積進(jìn)行眼中心定位,但鏡面反射以及眼睛的反光會(huì)對(duì)梯度向量造成影響; 張婉琦等[4]通過(guò)改進(jìn)的支持向量機(jī)(support vector machine,SVM)對(duì)低分辨率眼部圖像進(jìn)行瞳孔識(shí)別,雖然魯棒性較好,但不滿足實(shí)時(shí)性; LEVINSHTEIN等[5]提出一種基于級(jí)聯(lián)回歸樹(shù)和梯度直方圖特征的兩階段瞳孔中心檢測(cè)方法,雖然精度較高,但計(jì)算量大; CHOI等[6]基于卷積神經(jīng)網(wǎng)絡(luò)定位出戴眼鏡用戶的瞳孔中心,但在姿勢(shì)變化和模糊的圖像中存在一定的局限性。
針對(duì)上述既有方法的不足之處,本文在Faster RCNN模型的基礎(chǔ)上,提出一種基于強(qiáng)度和梯度的瞳孔中心定位方法。該方法利用Faster RCNN進(jìn)行人臉檢測(cè)確定ROI,并在ROI中重新利用Faster RCNN檢測(cè)眼睛,加入高效通道注意力(efficient channel attention,ECA)的ResNet50作為其主干網(wǎng)絡(luò),完成眼部圖像預(yù)處理; 通過(guò)細(xì)分虹膜形狀特征并結(jié)合基于梯度的方法精確定位瞳孔中心。
1人臉和眼睛檢測(cè)
1.1預(yù)處理
在實(shí)際的人臉和眼睛檢測(cè)過(guò)程中,由于外界環(huán)境因素的影響,從而導(dǎo)致圖像退化和應(yīng)用價(jià)值減弱。為了確保目標(biāo)模型檢測(cè)的準(zhǔn)確性,本文進(jìn)行直方圖均衡化[7],通過(guò)減少?gòu)?qiáng)度差來(lái)改善圖像的光照變化。此外,由于深度學(xué)習(xí)的目標(biāo)檢測(cè)模型受到數(shù)據(jù)庫(kù)的限制,因此,有必要進(jìn)行數(shù)據(jù)增強(qiáng),本文通過(guò)旋轉(zhuǎn)、平移、翻轉(zhuǎn)等多種方式處理現(xiàn)有數(shù)據(jù)集,以提高模型泛化能力。
1.2基于Faster RCNN的人眼粗定位
Faster RCNN[8]由兩個(gè)模塊組成,深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural network,DCNN)作為區(qū)域建議網(wǎng)絡(luò)(region proposal network,RPN),隨后Faster RCNN檢測(cè)器基于建議區(qū)域進(jìn)行檢測(cè)。本文使用ResNet50[9]作為特征圖提取的基礎(chǔ)網(wǎng)絡(luò)。RPN模塊使用注意力機(jī)制,使得Faster RCNN模塊關(guān)注與目標(biāo)相關(guān)的區(qū)域。Faster RCNN基礎(chǔ)架構(gòu)如圖1所示。
RPN從基礎(chǔ)網(wǎng)絡(luò)的最后一層獲取卷積特征映射,生成區(qū)域建議并預(yù)測(cè)目標(biāo)的概率。非最大抑制(non-maximum suppression,NMS)刪除與其他框重疊的框,然后將特征送入分類層和回歸層,回歸層將細(xì)化對(duì)象上的邊界框,根據(jù)目標(biāo)實(shí)際的位置和尺寸調(diào)整初始中心點(diǎn)和錨框的大小。
眼睛檢測(cè)性能不僅取決于圖像標(biāo)注過(guò)程,同時(shí)受模型選擇的影響。ResNet50可以直接用于人臉和眼睛檢測(cè),但精度并不理想,通過(guò)引入注意力機(jī)制雖然可以提高性能,但也會(huì)增加整體計(jì)算負(fù)擔(dān)。殘差網(wǎng)絡(luò)可以在不使梯度消失的情況下幫助構(gòu)建更深的網(wǎng)絡(luò),其計(jì)算復(fù)雜度不受殘差網(wǎng)絡(luò)的影響。因此,本文在ResNet50的殘差塊中引入ECA[10]模塊,在提高識(shí)別精度的同時(shí),盡可能地降低其帶來(lái)的計(jì)算復(fù)雜度影響。圖2為加入ECA模塊前后的殘差塊結(jié)構(gòu)圖。
2瞳孔中心定位
虹膜區(qū)域的平均強(qiáng)度小于眼睛特征周圍區(qū)域,細(xì)分虹膜形狀特征主要對(duì)比區(qū)域的平均強(qiáng)度信息來(lái)區(qū)分虹膜和其它區(qū)域。在基于梯度的方法中,閉合的梯度向量朝目標(biāo)中心對(duì)齊,梯度向量和位移向量的點(diǎn)積最大值提供瞳孔中心的位置信息[11],并且?guī)в悬c(diǎn)積和位移向量的梯度向量角度分布可以更好地定位瞳孔中心,其中,角度分布是軸和位移向量間的夾角。
虹膜的原始形狀特征由1個(gè)中心單元和周圍8個(gè)相同大小的相鄰單元組成。圖3(a)為原始虹膜形狀特征,由于虹膜區(qū)域的強(qiáng)度與眉毛、遮擋在眼部周圍的頭發(fā)以及鏡片的強(qiáng)度相似,原始虹膜形狀特征提取技術(shù)受此影響往往無(wú)法精準(zhǔn)定位瞳孔中心,因此,本文提出了4種細(xì)分虹膜形狀特征,細(xì)分區(qū)域僅包含虹膜及其鄰近區(qū)域,如圖3(b)—(e)所示,將4種特征進(jìn)行組合以檢測(cè)眼睛中心。周邊區(qū)域(R1,R2,R3,R4)的平均強(qiáng)度大于虹膜區(qū)域(R0)的強(qiáng)度,如果R0的平均強(qiáng)度大于周圍區(qū)域,則該像素位置為非眼睛像素。虹膜大小為面部的7%,其計(jì)算公式為
對(duì)于虹膜檢測(cè),僅考慮細(xì)分虹膜形狀特征尋找虹膜區(qū)域,如果滿足細(xì)分虹膜特征約束條件,則計(jì)算梯度向量的對(duì)齊分?jǐn)?shù)。在瞳孔中心定位中,梯度向量對(duì)齊也是其中關(guān)鍵因素之一,大多數(shù)閉合的梯度向量向眼中心對(duì)齊[13],其更傾向于圖像中圓形和半圓形物體的中心。進(jìn)一步地,通過(guò)計(jì)算梯度與位移向量間的點(diǎn)積關(guān)系確定瞳孔中心,其目標(biāo)函數(shù)表達(dá)如下:
3實(shí)驗(yàn)結(jié)果與分析
3.1實(shí)驗(yàn)數(shù)據(jù)
3.2評(píng)價(jià)指標(biāo)
3.3結(jié)果與分析
為了證明所提出的方法在檢測(cè)面部和眼睛方面的有效性,在labelimg中標(biāo)記數(shù)據(jù)集用于訓(xùn)練Faster RCNN,eopch為100,批次為32,學(xué)習(xí)率為1×10-4,優(yōu)化器為Adam。通過(guò)手動(dòng)調(diào)整閾值獲得具有高置信度分?jǐn)?shù)的人臉和眼睛。表1展示了與現(xiàn)有人臉檢測(cè)方法的對(duì)比,表中Faster RCNN的特征提取網(wǎng)絡(luò)為原始ResNet50,“+”代表在其基礎(chǔ)上添加模塊。
從表1可以看出,Voila-jones和Boosted cascade人臉檢測(cè)器使用手工制作的特征,在受控環(huán)境下表現(xiàn)良好,而在復(fù)雜環(huán)境下,性能會(huì)出現(xiàn)下降。相較之下,在經(jīng)過(guò)數(shù)據(jù)增強(qiáng)和訓(xùn)練后的Faster RCNN模型中,準(zhǔn)確率得到顯著提升,在此基礎(chǔ)上加入ECA模塊改進(jìn)特征提取網(wǎng)絡(luò),模型的準(zhǔn)確率進(jìn)一步提升,在GI4E和自行收集的數(shù)據(jù)集上準(zhǔn)確率分別為97.42%和91.89%,計(jì)算時(shí)間分別為0.188 s和0.195 s。相比較基礎(chǔ)Faster RCNN,所加入的ECA模塊在提高性能的同時(shí)并沒(méi)有過(guò)多的增加計(jì)算復(fù)雜度。
表2展示了本文方法與現(xiàn)有技術(shù)檢測(cè)眼睛性能的對(duì)比,結(jié)果表明人臉檢測(cè)將面部識(shí)別為ROI,F(xiàn)aster RCNN只在面部上進(jìn)行眼睛檢測(cè),提高了精度和計(jì)算速度,在兩個(gè)數(shù)據(jù)集上準(zhǔn)確率分別為98.89%和93.07%,計(jì)算耗時(shí)分別為0.175 s和0.189 s。圖7顯示了在兩個(gè)數(shù)據(jù)集上的人臉和眼睛檢測(cè)結(jié)果,其中,第一行為GI4E數(shù)據(jù)集,第二行為自行收集的數(shù)據(jù)集的部分圖例。
圖8為本文在兩個(gè)數(shù)據(jù)集中的瞳孔中心定位結(jié)果,白色圓心點(diǎn)即為定位的瞳孔中心位置。表3給出了瞳孔中心定位在兩個(gè)數(shù)據(jù)集中的性能分析。實(shí)驗(yàn)結(jié)果表明本文方法在不同指標(biāo)下的定位精度是可靠的,甚至在佩戴眼睛的情況下也能正確定位瞳孔中心。特別地是,自行采集的數(shù)據(jù)集是由50個(gè)兒童連續(xù)20幀圖像組成,所獲得的精準(zhǔn)瞳孔中心定位對(duì)于實(shí)時(shí)性眼動(dòng)追蹤的研究具有代表性。
表4提供了在GI4E數(shù)據(jù)集上與現(xiàn)有先進(jìn)方法的準(zhǔn)確率比較。多數(shù)工作檢測(cè)到的眼睛較為粗糙,并且使用手工制作的特征訓(xùn)練模型,造成后續(xù)眼睛中心定位精度不佳。本文通過(guò)深層特征進(jìn)行眼睛檢測(cè),有效地提升了瞳孔中心定位性能。
表5展示了本文算法從檢測(cè)眼睛到定位瞳孔中心的處理時(shí)間與其他文獻(xiàn)的對(duì)比,可以看出,所提方法效率更高,速度更快,平均每張圖像處理時(shí)間為41.25 ms。
4結(jié)語(yǔ)
實(shí)現(xiàn)瞳孔中心的自動(dòng)檢測(cè),在疾病診斷、生物識(shí)別和駕駛員困意監(jiān)測(cè)等領(lǐng)域有著廣泛且重要的應(yīng)用價(jià)值。本文提出一種基于光照補(bǔ)償技術(shù)、Faster RCNN模型、虹膜形狀特征和圖像梯度的瞳孔中心定位方法。本文首先使用直方圖均衡化對(duì)圖像進(jìn)行光照補(bǔ)償,然后基于Faster RCNN模型定位人臉ROI,結(jié)合幾何約束再次運(yùn)用Faster RCNN模型提取眼部區(qū)域,通過(guò)積分圖像計(jì)算強(qiáng)度以檢測(cè)虹膜區(qū)域,最后基于虹膜形狀的梯度信息求解目標(biāo)函數(shù)的最大值獲取雙眼瞳孔中心位置。實(shí)驗(yàn)結(jié)果表明,本文所提算法較好地實(shí)現(xiàn)了瞳孔中心的精準(zhǔn)快速定位,具有一定的實(shí)用性,但在實(shí)際應(yīng)用中還需考慮閉眼、部分遮擋等情況下算法的優(yōu)化。參考文獻(xiàn):
[1]AHMED M, LASKAR R H. Eye detection and localization in a facial image based on partial geometric shape of iris and eyelid under practical scenarios[J]. Journal of Electronic Imaging, 2019, 28(3): 033009.1-033009.17.
[2] 王晶儀, 王艷霞, 朱原雨潤(rùn), 等. 一種基于ALO優(yōu)化和圖像梯度的瞳孔中心定位算法[J]. 電腦知識(shí)與技術(shù), 2022, 18(17): 86-88.
[3] TIMM F, BARTH E. Accurate eye centre localisation by means of gradients[C]//Proceedings of the Sixth International Conference on Computer Vision Theory and Applications. Vilamoura: SciTePress, 2011.
[4] 張婉綺, 王志永, 劉洪海. 基于改進(jìn)SVR的眼睛中心定位方法[J]. 模式識(shí)別與人工智能, 2019, 32(1): 17-23.
[5] LEVINSHTEIN A, PHUNG E, AARABI P. Hybrid eye center localization using cascaded regression and hand-crafted model fitting[J]. Image and Vision Computing, 2018, 71: 17-24.
[6] CHOI J H, LEE K I, KIM Y C, et al. Accurate eye pupil localization using heterogeneous CNN models[C]//Proceedings of 2019 IEEE International Conference on Image Processing (ICIP). Taipei: IEEE, 2019.
[7] 涂毅晗, 汪普慶. 基于多尺度局部直方圖均衡化的礦井圖像增強(qiáng)方法[J]. 工礦自動(dòng)化, 2023, 49(8): 94-99.
[8] 張杰. 基于改進(jìn)Faster-RCNN的小目標(biāo)檢測(cè)[J]. 現(xiàn)代計(jì)算機(jī), 2023, 29(14): 14-18.
[9] 張典范, 楊鎮(zhèn)豪, 程淑紅. 基于ResNet50與遷移學(xué)習(xí)的輪轂識(shí)別[J]. 計(jì)量學(xué)報(bào), 2022, 43(11): 1412-1417.
[10]李秉濤, 何勇, 袁琳琳. 基于ECA和YOLOv4的輕量級(jí)目標(biāo)檢測(cè)網(wǎng)絡(luò)設(shè)計(jì)[J]. 傳感器與微系統(tǒng), 2023, 42(9): 100-104.
[11]AHMED M, LASKAR R H. Evaluation of accurate iris center and eye corner localization method in a facial image for gaze estimation[J]. Multimedia Systems, 2021, 27(3): 429-448.
[12]蔣睿, 張素文, 汪創(chuàng). 基于智能手機(jī)平臺(tái)的積分圖像并行算法優(yōu)化與實(shí)現(xiàn)[J]. 電子技術(shù)與軟件工程, 2018(14): 61-62.
[13]王鵬, 苑碩, 董鑫, 等. 基于圖像梯度和改進(jìn)橢圓擬合算法的視線追蹤方法[J]. 揚(yáng)州大學(xué)學(xué)報(bào)(自然科學(xué)版), 2023, 26(4): 48-53,60.
[14]VILLANUEVA A, PONZ V, SESMA L, et al. Hybrid method based on topography for robust detection of iris center and eye corners[J]. ACM Trans Multim Comput Commun Appl, 2013, 9(4):1-20.
[15]JESORSKY O, KIRCHBERG K J, FRISCHHOLZ R W. Robust face detection using the hausdorff distance[C]//Proceedings of Audio-and Video-Based Biometric Person Authentication(AVBPA). Heidelberg: Springer, 2001.
[16]KIM H, KIM J, PARK R. Efficient and fast iris localization using binary radial gradient features for human-computer interaction[J]. Int J Pattern Recognit Artif Intell, 2017, 31(11): 1756015.1-1756015.19.
[17]AHMED M, LASKAR R H. Eye center localization in a facial image based on geometric shapes of iris and eyelid under natural variability[J]. Image and Vision Computing, 2019, 88: 52-66.
[18]王鵬, 溫宏韜, 王世龍. 基于近眼紅外圖像的高精度瞳孔中心定位方法[J]. 哈爾濱理工大學(xué)學(xué)報(bào), 2022, 27(5): 38-46.
[19]XIA Y, LOU J, DONG J, et al. Hybrid regression and isophote curvature for accurate eye center localization[J]. Multimedia Tools and Applications, 2020, 79(1): 805-824.
[20]AHMED N Y. Real-time accurate eye center localization for low-resolution grayscale images[J]. Journal of Real-Time Image Processing, 2021, 18(1): 193-220.
(責(zé)任編輯:于慧梅)
Pupil Center Localization Based on Intensity and Image Gradient
CHENG Zihao1, PEI Yuyao1, ZHOU Yixiang3, ZHANG Wendong1, WANG Changqing1,
ZHOU Xuan WANG Yanling WU Qian
(1.School of Biomedical Engineering, Anhui Medical University, Hefei 230012, China; 2.School of Humanistic
Medicine, Anhui Medical University, Hefei 230032, China; 3.School of Health Management, Anhui Medical
University, Hefei 230012, China; 4.The Third People's Hospital of Hefei, Hefei 230022, China)Abstract: Pupil center is a precise parameter in eye tracking, face recognition and other computer vision fields, and the realization of automatic pupil center detection has a wide range of application value. Combined with the Faster RCNN model, this study proposes a pupil localization algorithm for the human eye based on the segmented iris shape features and the image gradient method. First, the image is preprocessed with light compensation, and on this basis, the improved ResNet50 is used as the backbone network of the Faster RCNN model to detect the face and eyes. Then, the eye region is selected by geometric constraints, the iris region is detected by the integral image method, and finally the pupil center is localized by the image gradient algorithm. The experimental results show that the algorithm can achieve pupil center localization accurately on the GI4E dataset and the self-built facial dataset, and achieves 100% and 99.46% localization accuracies within the normalized error threshold of 0.2, respectively, with good robustness and real-time performance.
Key words: pupil center localization; Faster RCNN; image gradient; ResNet50; integral image