于林泉, 陸軍
(1.北京理工大學(xué) 自動化學(xué)院, 北京 100081; 2.哈爾濱工程大學(xué) 智能科學(xué)與工程學(xué)院, 黑龍江 哈爾濱 150001)
眼睛是人臉區(qū)域中傳遞信息最多的器官之一,從人眼中可以分析得到諸如情緒、視線、困倦程度等重要的人體狀態(tài)[1]。人眼特征在疲勞檢測、視線追蹤、拍照檢測等方向上都有重要的應(yīng)用價值[2]。一般而言,人臉眼部區(qū)域的檢測與應(yīng)用分為人臉檢測定位與人眼特征應(yīng)用2個主要過程,其中人臉定位是人眼特征應(yīng)用的基礎(chǔ)與前提[3]。
國內(nèi)外各種人臉定位的算法可以按照是否基于深度學(xué)習(xí)分為傳統(tǒng)人臉定位算法與基于深度學(xué)習(xí)的人臉定位算法[4]。傳統(tǒng)的人臉定位算法主要包括基于空間特征的定位算法、基于人臉自身特征的定位算法和基于統(tǒng)計模型的定位算法[5]?;谏疃葘W(xué)習(xí)的人眼定位算法主要通過對神經(jīng)網(wǎng)絡(luò)的訓(xùn)練來實現(xiàn)檢測[6]。目前精度較高的算法是在卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上發(fā)展的目標(biāo)檢測網(wǎng)絡(luò)[7],其分為以Yolo、SSD、RetinaNet等為代表的One-stage和以R-CNN、Faster R-CNN等為代表的Two-stage算法[8]。Redmon 等[9]提出的Yolo算法是目前較為流行的One-stage目標(biāo)檢測算法之一,之后出現(xiàn)的Yolov3、Yolov4[10]算法的性能也不斷提高。Tan等[11]的EfficientDet算法也是性能較為優(yōu)異的目標(biāo)檢測算法之一。Liu等[12]提出的SSD網(wǎng)絡(luò)和Fast R-CNN網(wǎng)絡(luò)等均是實驗效果較好的目標(biāo)檢測網(wǎng)絡(luò)。
人眼狀態(tài)檢測的方法主要包括基于人眼灰度信息的檢測方法、基于人眼幾何特征的檢測方法、基于模板匹配的檢測方法與基于特征點檢測的方法[13]。其中基于特征點檢測的方法通過對人臉圖像中人眼關(guān)鍵點的檢測與位置判斷實現(xiàn)人眼狀態(tài)的檢測,具有較為廣泛的應(yīng)用[14]。但上述算法只能應(yīng)用于圖像質(zhì)量較好的場景下,在圖像模糊、含有光照干擾與陰影等場景下的效果較差。
針對常見人眼狀態(tài)檢測算法在圖片較暗等情況下精度下降的問題,本文首先基于深度學(xué)習(xí)方法進(jìn)行人眼定位,并在此基礎(chǔ)上設(shè)計了基于直方圖規(guī)定化與形狀特征的人眼狀態(tài)檢測方法和基于魯棒自適應(yīng)的虹膜定位方法。通過控制模板圖像的直方圖分布規(guī)律,基于直方圖規(guī)定化的方法削弱圖像中陰影部分的干擾,并對人眼圖像中的關(guān)鍵部位進(jìn)行增強(qiáng),從而更準(zhǔn)確地檢測虹膜的位置。
常見的人臉數(shù)據(jù)集普遍存在亞洲人臉不足以及瞇眼、閉眼等狀態(tài)下人臉圖像較少的問題,使用這些數(shù)據(jù)集訓(xùn)練的網(wǎng)絡(luò)難以檢測不同狀態(tài)下的人眼。
針對該問題,本文設(shè)計了基于StyleGAN的定制化人臉生成網(wǎng)絡(luò)。在圖片生成器的內(nèi)部,通過特定維度上的特征替換,將黃種人臉的特征賦值生成人臉;并通過修改控制向量在生成域內(nèi)決定人眼開閉程度方向上的步幅大小,定制化生成人眼處于不同開閉程度下的亞洲人臉圖像。
基于上述定制化生成的人臉圖像與CAS-PEAL人臉數(shù)據(jù)集制作了實驗數(shù)據(jù)集,對下述3種人眼定位網(wǎng)絡(luò)進(jìn)行訓(xùn)練與測試,并且使用該數(shù)據(jù)集中人眼處于不同開閉程度下的人臉圖像對下述人眼狀態(tài)檢測方法與虹膜定位方法的精度進(jìn)行測試。
1.1.1 Stylegan網(wǎng)絡(luò)的結(jié)構(gòu)
StyleGAN網(wǎng)絡(luò)生成器的結(jié)構(gòu)如圖1所示,其主要由映射網(wǎng)絡(luò)(mapping network)、樣式模塊(AdaIN)和生成網(wǎng)絡(luò)(synthesis network)組成[15]。包含8個全連接層的映射網(wǎng)絡(luò)將512×1的輸入向量解耦為同樣大小的中間向量W′,樣式模塊將W′變換為18個控制向量,生成網(wǎng)絡(luò)在18個控制向量的基礎(chǔ)上通過9次上采樣與3×3卷積操作將4×4的初始圖像變換為1 024×1 024的高清圖像,并添加噪聲豐富圖像內(nèi)容。
圖1 特征碼對圖像特征的控制原理Fig.1 The control principle of feature codes on image features
1.1.2 黃種人臉的生成方法
StyleGAN生成圖片的特征受到AdaIN中18個控制向量的影響,這些向量分別作用于生成網(wǎng)絡(luò)里不同分辨率大小圖片的生成過程中,因此不同控制向量所影響的圖像特征也不同,具體過程如圖2所示,特征碼維度越高,所影響的圖像特征就越精細(xì)。
基于圖1所示原理,將生成圖像的部分特征碼替換為已生成黃種人臉圖像對應(yīng)的特征碼,可以讓其具有黃種人臉的特征,效果如圖2所示。圖2中將非黃種人臉的5~8維特征碼替換為黃種人臉的特征碼,得到一張具有黃種人面部特征的人臉圖像。替換的特征碼不同,新圖片的特征便不一樣,通過替換5~8維的特征碼可以較好地賦予圖像黃種人臉特征而不改變其他特征。
圖2 黃種人臉特征的生成原理Fig.2 The formation principle of yellow face features
1.1.3 人眼開閉程度的控制方法
StyleGAN網(wǎng)絡(luò)建立了(18, 512)維特征向量到(1 024, 1 024, 3)維生成圖像之間的映射關(guān)系,每一幅生成圖像都對應(yīng)于生成域R18×512中的一個特征向量,圖像屬性(如人眼開閉程度)的變化則表現(xiàn)為特征向量在生成域中的移動。因此只要確定人眼開閉程度變化在生成域中對應(yīng)的方向,就可以通過改變特征向量在該方向上的移動步幅控制人眼的開閉程度。
(1)
式中:pi與qi為變化前后的生成圖片在生成域中的特征向量;pi_lable與qi_lable為二者對應(yīng)的標(biāo)簽值,原理如圖3所示;ei為人眼不同的開閉程度在生成域中各自對應(yīng)的方向向量。
獲得代表人眼開閉程度變化的方向向量后,可以生成人眼處于不同開閉程度下的定制化人臉圖像:
E=E0+es
(2)
式中E0與E分別為人臉圖像調(diào)節(jié)前后在生成域內(nèi)的特征向量;s為調(diào)節(jié)步幅。
CAS-PEAL數(shù)據(jù)集是由中科院計算機(jī)研究所發(fā)布的亞洲人臉數(shù)據(jù)庫[16]。該數(shù)據(jù)庫共采集了包括595位男性與445位女性在內(nèi)的共1 040位人臉志愿者在各種情況下的人臉圖片共計99 450張。
考慮到常見人臉數(shù)據(jù)集的缺陷,在CAS-PEAL數(shù)據(jù)集與上述定制化生成圖片的基礎(chǔ)上建立本實驗的訓(xùn)練集與測試集,其中訓(xùn)練集包含有1 000張人臉圖片,測試集包含600張人臉圖片,均使用labelimg圖片標(biāo)注工具進(jìn)行了人眼單目標(biāo)標(biāo)注,標(biāo)注過程如圖4所示。后續(xù)分別基于該訓(xùn)練集與測試集進(jìn)行人眼檢測網(wǎng)絡(luò)的訓(xùn)練以及人眼定位、人眼狀態(tài)檢測和虹膜定位算法的精度測試。
圖4 人眼目標(biāo)的標(biāo)注結(jié)果Fig.4 The labeling result of human eye target
目前應(yīng)用較廣的人眼狀態(tài)檢測方法是通過對人眼區(qū)域局部特征點的檢測實現(xiàn)的,在圖像質(zhì)量較好的情況下可以根據(jù)特征點之間的位置關(guān)系判斷人眼狀態(tài)。但是在圖像較暗、對比度較差的情況下較難準(zhǔn)確定位人眼特征點,從而降低狀態(tài)檢測的精度。
針對該問題,采用先定位人眼后提取特征的策略進(jìn)行人眼狀態(tài)與虹膜位置的檢測。測試了3種目標(biāo)檢測網(wǎng)絡(luò)的精度,并基于精度最高的Yolov5m網(wǎng)絡(luò)設(shè)計了人眼檢測網(wǎng)絡(luò)。針對人眼分割區(qū)域中對比度較差等圖像質(zhì)量問題,采用直方圖規(guī)定化的方法進(jìn)行了圖像增強(qiáng),在增強(qiáng)后圖像的基礎(chǔ)上通過查找最小外接矩形提取人眼形狀特征,克服了特征點檢測等方法在圖片較暗等情況下失效的問題?;谥狈綀D規(guī)定化與Gamma變換對非閉眼的人眼圖像進(jìn)行增強(qiáng),提高算法的魯棒性,通過局部自適應(yīng)二值化與霍夫圓檢測對虹膜區(qū)域的輪廓特征與位置信息進(jìn)行提取,并對虹膜區(qū)域的位置進(jìn)行量化。
傳統(tǒng)人眼定位算法只適用于簡單場景下的人眼檢測,當(dāng)存在障礙物遮擋、圖像模糊以及頭部姿態(tài)變化等干擾時精度會明顯降低。由于對人眼區(qū)域的定位精度將直接影響后續(xù)人眼狀態(tài)檢測等方法的檢測精度,因此選用定位精度更高的深度學(xué)習(xí)方法實現(xiàn)人眼區(qū)域的檢測。
分別基于Efficientdet-D0模型、Yolov5s模型和Yolov5m模型搭建并訓(xùn)練了人眼檢測網(wǎng)絡(luò)。使用測試集對上述3種網(wǎng)絡(luò)進(jìn)行測試,具體測試數(shù)值在下面實驗結(jié)果分析中給出。結(jié)果表明基于Yolov5m的人眼檢測網(wǎng)絡(luò)擁有三者中最好的綜合性能,后續(xù)均使用該網(wǎng)絡(luò)進(jìn)行人眼區(qū)域的定位分割。
Yolov5m網(wǎng)絡(luò)主要由輸入網(wǎng)絡(luò)、主干征提取網(wǎng)絡(luò)(backbone)、特征融合網(wǎng)絡(luò)(neck)以及預(yù)測網(wǎng)絡(luò)(prediction)組成。主干網(wǎng)絡(luò)中的Focus模塊在保持原特征信息的基礎(chǔ)上,縮減了輸出圖像的寬高,增加了輸出圖像的特征通道,輸入圖片的大小為608×608×3,輸出圖像大小為304×304×12,通過3×3的卷積核對該特征圖處理后得到大小為304×304×32的最終輸出結(jié)果。
當(dāng)人眼圖像對比度較低或質(zhì)量較差時,基于特征點檢測的人眼狀態(tài)檢測方法由于無法準(zhǔn)確定位特征點而失效,此時的灰度圖及灰度直方圖如圖5所示,無論是睜眼圖片還是閉眼圖片的灰度直方圖均失去了原有的形狀特征而難以進(jìn)行狀態(tài)檢測。
圖5 含有陰影干擾時的灰度直方圖Fig.5 Grayscale histogram with shadow interference
通過深度學(xué)習(xí)方法進(jìn)行人眼區(qū)域的分割,在分割后人眼圖像的基礎(chǔ)上設(shè)計了基于直方圖規(guī)定化與形狀特征的人眼狀態(tài)檢測算法。該算法通過直方圖規(guī)定化對原始圖像進(jìn)行增強(qiáng),在進(jìn)行二值化與閉運算等預(yù)處理后,基于遞歸分治與旋轉(zhuǎn)卡尺方法查找人眼區(qū)域的最小包圍矩形,通過計算該矩形框的長寬比對人眼狀態(tài)進(jìn)行判斷,有效地解決了因圖像質(zhì)量所導(dǎo)致的特征點檢測失效的問題。
2.2.1 直方圖規(guī)定化
直方圖規(guī)定化主要由以下3個過程組成(其中待處理圖像的灰度等級為M,模板圖像的灰度級數(shù)為N,二者之間滿足N≤M的前提條件):
1)將原始灰度圖進(jìn)行平衡化為:
(3)
2)獲得目標(biāo)圖像的平衡化操作:
(4)
3)對第1)步中的灰度映射進(jìn)行反變換處理,將待處理圖像的灰度直方圖變換為模板圖像所規(guī)定的灰度直方圖,采用組映射的方式將式(3)中的ps(si)變換到式(4)中的pu(ui)上去:
(5)
假定存在滿足0≤I(0)≤…≤I(l)≤…≤I(N-1)≤M-1要求的整數(shù)函數(shù)I(l),其中,l=0,1,…,N-1尋找能夠令式(5)中結(jié)果最小的I(l)值。
若式(5)中的l為0,則pu(ui)中的數(shù)值由ps(si)(0≤i≤I(0))所組成的一組數(shù)據(jù)進(jìn)行映射;若式(3)中的l不為0,即為大于等于1的整數(shù),則將ps(si)(I(l-1)≤i≤I(l))所組成的一組數(shù)據(jù)按照pu(ui)進(jìn)行映射,組映射的原理如圖6所示。
圖6 組映射原理Fig.6 Group mapping schematic
2.2.2 直方圖規(guī)定化的模板圖像
為了解決對比度較低等圖片質(zhì)量問題,直方圖規(guī)定化的模板要以去除外界干擾、增強(qiáng)人眼特征為目標(biāo)。人眼特征較為明顯的、對比度較高的閉眼與睜眼圖像及其灰度分布直方圖如圖7所示。
圖7 2種模板圖像及其灰度直方圖Fig.7 Two template images and their grayscale histograms
分別以圖7中閉眼圖像與睜眼圖像為模板對質(zhì)量較差的人眼圖像進(jìn)行處理的結(jié)果如圖8所示。
其中圖8(a)是直方圖規(guī)定化前的人眼灰度圖,包含閉眼與睜眼2種狀態(tài)。圖8(b)是以圖7(b)中的理想閉眼圖像為模板對輸入圖像進(jìn)行增強(qiáng)后的人眼灰度圖,雖然較好的去除了陰影干擾,但是對虹膜等人眼特征區(qū)域的削弱作用較強(qiáng);圖8(c)是以圖7(d)中的理想睜眼圖像為模板對輸入圖像進(jìn)行增強(qiáng)后的人眼灰度圖,雖然較好地增強(qiáng)了人眼特征,但眼角部位的陰影干擾仍有存留。問題的原因在于圖7(b)中的低值區(qū)域占比過低而圖7(d)中的低值區(qū)域占比過高。因此將模板中的低值區(qū)域占比設(shè)定在二者之間,使其既不過高也不過低,如圖9所示。
圖9 新模板的生成原理Fig.9 Schematic of the new template
基于該模板對上文的原始圖像進(jìn)行直方圖規(guī)定化的結(jié)果如圖10所示。增強(qiáng)后圖像的灰度直方圖與模板圖像的灰度直方圖理論上擁有相同的分布規(guī)律,所以增強(qiáng)后圖像中不僅陰影較少,而且圖片的對比度獲得了提高,增強(qiáng)了眼部特征,便于后續(xù)對人眼狀態(tài)進(jìn)行判斷。
圖10 直方圖規(guī)定化的效果Fig.10 The rendering of the histogram specification
2.2.3 人眼狀態(tài)判斷
在直方圖規(guī)定化增強(qiáng)圖片質(zhì)量的基礎(chǔ)上,設(shè)計了人眼區(qū)域形狀特征的提取方法實現(xiàn)人眼狀態(tài)檢測,該過程主要分為3步:
1)圖像二值化
直方圖規(guī)定化后的人眼灰度圖具有明顯的雙峰特征,需要濾除高值背景區(qū)域而保留低值人眼輪廓。基于最大類間方差的大津法是專門應(yīng)用于雙峰圖像自動閾值的二值化算法,因此采用大津法對人眼區(qū)域進(jìn)行二值分割,效果如圖11所示。
圖11 大津法自動閾值效果Fig.11 Otsu method automatic threshold effect diagram
2)閉運算
二值化后圖片中的部分區(qū)域會出現(xiàn)空隙,為了避免對人眼形狀的提取造成干擾,加入運算核大小為5×5的閉運算進(jìn)行圖像缺口填充,效果如圖12。
圖12 閉運算效果Fig.12 Closed calculation renderings
3)尋找最小包圍矩形
通過邊緣檢測獲得二值圖像的輪廓曲線,基于遞歸分治的方法查找輪廓曲線的凸包,過程如下:
①尋找輪廓中橫坐標(biāo)最大與最小的點Pmax(x1,y1)與Pmin(x2,y2);
②遍歷輪廓中的每一個點,假設(shè)其坐標(biāo)為(x3,y3),計算其數(shù)值:
(6)
結(jié)果為正時,該點位于直線PmaxPmin左側(cè),反之則在右側(cè),據(jù)此將輪廓分為上包(左側(cè))與下包(右側(cè))2部分。
③式(6)的絕對值越大,則該點距離直線PmaxPmin越遠(yuǎn),據(jù)此尋找上包中距離直線PmaxPmin最遠(yuǎn)的點Pm;將上包中ΔPmaxPminPm內(nèi)的區(qū)域視為新的下包,將ΔPmaxPminPm外的區(qū)域視為新的上包;
④重復(fù)步驟(2)、(3),并以同樣的方法遍歷下包。
找到凸包后再基于旋轉(zhuǎn)卡尺的方法尋找人眼輪廓凸包的最小包圍矩形,過程如下:
①計算凸包中在x,y方向上的4個頂點Pxmax,Pxmin,Pymax,Pymin,過4個頂點做矩形;
②若矩形中某條邊與凸包重合,則視該矩形為凸包的一個外接矩形,計算其面積并與當(dāng)前最小面積比較,若小于當(dāng)前最小面積則視該外接矩形為新的最小外接矩形;
③以該矩形為旋轉(zhuǎn)卡尺,順時針旋轉(zhuǎn)四條邊并保持矩形形狀直至有一條邊與凸包發(fā)生重合,重復(fù)步驟2);
④重復(fù)步驟②、③直至矩形轉(zhuǎn)過90°。
由閉運算后的二值圖經(jīng)過輪廓提取、遞歸分治方法確定凸包、旋轉(zhuǎn)卡尺方法尋找最小包圍矩形的過程如圖13所示,其中虛線是提取的輪廓,實線是凸包,外圍框是最小包圍矩形,圖13(a)到圖13(f)的長寬比計算結(jié)果分別為5.69、4.68、5.75、1.07、1.06、1.01。
圖13 尋找最小包圍矩形過程示意Fig.13 Schematic diagram of the process of finding the smallest enclosing rectangle
由圖13可知睜眼圖片與閉眼圖片最小包圍矩形的長寬比存在明顯的不同,可據(jù)此進(jìn)行人眼狀態(tài)的判斷。設(shè)定2個閾值a=2,b=3.5。假設(shè)人眼區(qū)域最小矩形的實際長寬比為x,則睜眼、瞇眼與閉眼狀態(tài)對應(yīng)的變量關(guān)系分別為xb。
虹膜定位可以追蹤人眼視線的方向,在圖片拍攝過程中可以用于糾正被拍攝者的視線。此外,虹膜定位在活體檢測、身份識別等方向上都有重要的應(yīng)用價值。本文在人眼狀態(tài)檢測的基礎(chǔ)上設(shè)計了基于魯棒自適應(yīng)的虹膜定位方法,當(dāng)檢測到人眼狀態(tài)為睜眼或瞇眼時,基于直方圖規(guī)定化與自適應(yīng)濾波等操作對虹膜區(qū)域進(jìn)行檢測并量化該區(qū)域的位置。
2.3.1 虹膜定位
實際的人眼分割圖像往往因光照等不同因素的干擾而無法直接進(jìn)行虹膜區(qū)域的分割,因此本文首先基于直方圖規(guī)定化減弱干擾影響。
1)直方圖規(guī)定化。
進(jìn)行虹膜定位的前提是人眼狀態(tài)為睜眼或瞇眼,此時人眼灰度圖的低值部分由于虹膜區(qū)域的外露而占比較大。為了增強(qiáng)虹膜區(qū)域的形狀特征,在直方圖規(guī)定化中應(yīng)保留人眼圖像的低值部分,因此使用圖7(b)中的睜眼圖像作為模板。該模板的灰度直方圖存在低值部分的尖峰,如圖14所示。
圖14 直方圖規(guī)定化模Fig.14 Histogram specification template map
基于該模板進(jìn)行直方圖規(guī)定化的效果如圖15。
2)伽馬變換。
伽馬變換的計算過程為:
(7)
式(7)中Vin為歸一化后輸入圖像的像素值,范圍為0~1,輸出圖像像素值為Vout。當(dāng)γ>1時,伽馬變換主要針對輸入圖像中亮度值較高的區(qū)域進(jìn)行拉伸;γ<1時,伽馬變換主要針對輸入圖像中亮度值較低的區(qū)域進(jìn)行拉伸。
圖15中的結(jié)果表明,雖然直方圖規(guī)定化可以整體上增強(qiáng)人眼圖片的質(zhì)量,但會對虹膜區(qū)域的形狀造成略微的影響。為了保證虹膜區(qū)域形狀的完整性,此處使用γ值大于1的灰度映射(γ=3)來增強(qiáng)圖像中的低灰度值區(qū)域,其增強(qiáng)后的效果如圖16。
圖15 直方圖規(guī)定化效果Fig.15 Histogram specification rendering
圖16 Gamma變換效果Fig.16 Gamma transformation effect diagram
圖16說明直方圖規(guī)定化與Gamma增強(qiáng)結(jié)合后處理的圖片中虹膜區(qū)域的特征得到加強(qiáng),形狀更加完整,且眼睛周圍的陰影得到了很好的去除。
3)中值濾波。
使用模板大小為9×9的中值濾波去除圖像復(fù)雜的紋理信息而保留其中的主要輪廓線,以減少后續(xù)圖像邊緣檢測過程中的干擾,效果如圖17所示。
圖17 中值濾波效果Fig.17 Median filtering effect chart
4)自適應(yīng)二值化。
通過針對局部區(qū)域自動計算閾值的自適應(yīng)二值化方法來進(jìn)行圖像輪廓提取。將待處理的圖像分割為不同的局部小塊,針對每一個小塊計算其內(nèi)像素灰度值的特征并據(jù)此得到該區(qū)域的自動閾值。
將圖像視為行向量,如圖18所示,其中Pn代表圖像二值化之前當(dāng)前位置像素的灰度值大小,Tn代表該點像素在二值化后的灰度值大小。計算像素值為Pn的點附近s個像素的灰度值總和:
圖18 二維圖像一維化結(jié)果Fig.18 Two-dimensional image one-dimensional result map
(8)
按照式(9)計算該點在二值化后的灰度值大小。
(9)
該方法與大津法的區(qū)別在于后者是取雙峰圖像的自動閾值,目的在于獲取圖像低值或高值目標(biāo)區(qū)域,而此處采用的局部自適應(yīng)閾值由于只針對局部區(qū)域計算閾值,因此能夠更好的提取虹膜區(qū)域的局部特征,便于后續(xù)對虹膜形狀的檢測。對經(jīng)過中值濾波后的人眼圖像進(jìn)行局部自適應(yīng)二值化的結(jié)果如圖19所示。
圖19 自適應(yīng)二值化效果圖Fig.19 Adaptive binarization renderings
5)霍夫圓檢測。
對二值化后的人眼圖像進(jìn)行canny邊緣檢測,并基于檢測到的輪廓特征進(jìn)行霍夫圓檢測以定位虹膜區(qū)域,結(jié)果如圖20所示。
圖20 霍夫圓檢測結(jié)果Fig.20 Hough circle test result
2.3.2 虹膜位置的量化
在虹膜檢測的基礎(chǔ)上對虹膜的位置進(jìn)行量化。如圖21所示將虹膜在人眼區(qū)域中的位置量化為百分?jǐn)?shù)的形式,并在圖像的長邊方向上將其劃分為5個區(qū)域,通過判斷虹膜中心所在區(qū)域來量化虹膜偏移的程度。
圖21 虹膜位置量化原理Fig.21 Principle of quantification of iris position
定制化生成的亞洲人臉圖像如圖22所示,從左到右人眼的張開程度依次增加。
圖22 StyleGAN網(wǎng)絡(luò)生成結(jié)果圖Fig.22 StyleGAN network generated result graph
使用批量大小為64的小批量隨機(jī)梯度下降算法對網(wǎng)絡(luò)進(jìn)行訓(xùn)練以減少網(wǎng)絡(luò)訓(xùn)練的計算成本,并使用Adam優(yōu)化算法提高網(wǎng)絡(luò)的訓(xùn)練效果,Adam算法的超參數(shù)β1、β2、ε分別為0.9、0.999、10-8。在Batch_size為32、學(xué)習(xí)率為0.001的條件下使用訓(xùn)練集對Efficientdet-D0網(wǎng)絡(luò)、Yolov5s網(wǎng)絡(luò)和Yolov5m網(wǎng)絡(luò)進(jìn)行了300次迭代訓(xùn)練。訓(xùn)練使用的GPU為Tesla K80,顯存容量為24 GB,顯存位寬為384 bit,CUDA版本為11.2。
使用測試集分別測試訓(xùn)練后3種網(wǎng)絡(luò)的定位精度,測得Efficientdet-D0、Yolov5m和Yolov5s在測試集上的MAP@0.75大小分別為0.642 3、0.664 0、0.637。
在顯存2 GB 的Genforce MX150設(shè)備上對3種網(wǎng)絡(luò)的視頻檢測幀率進(jìn)行測試,測得Efficientdet-D0、Yolov5m和Yolov5s在測試集上的檢測幀率分別為1.97、12.27、19.28。
檢測結(jié)果說明,Yolov5m網(wǎng)絡(luò)的檢測幀率并非最高,但已經(jīng)可以滿足大多數(shù)場合下的需求,并且其檢測精度在三者中最高,因此本文中使用基于Yolov5m模型的檢測網(wǎng)絡(luò)進(jìn)行人眼區(qū)域的定位。
使用基于直方圖規(guī)定化與形狀特征的檢測方法對人眼狀態(tài)進(jìn)行檢測的過程如圖23所示。
圖23 人眼狀態(tài)檢測方法的工作過程Fig.23 The working process of the human eye state detection method
在包含600張人臉圖片的測試集上對人眼狀態(tài)檢測算法進(jìn)行測試,得到該算法在睜眼、瞇眼和閉眼狀態(tài)下的檢測精度分別為95%、85%、93%。
結(jié)果表明基于直方圖規(guī)定化與形狀特征的檢測方法對圖23(a)、圖24 (c)、圖24 (d)和圖24 (f)中人眼區(qū)域較暗或包含陰影等情況以及圖24(a)中曝光過強(qiáng)等情況下的圖像均能準(zhǔn)確判斷人眼狀態(tài),克服了基于特征點檢測等人眼狀態(tài)檢測方法在圖像對比度較低時精度下降的問題,具有較強(qiáng)的穩(wěn)定性,對3種不同的人眼狀態(tài)均具有較高的檢測精度。
圖24 人臉狀態(tài)檢測結(jié)果Fig.24 Figure of face state detection result method
基于魯棒自適應(yīng)的虹膜定位方法對不同視線方向下的人臉圖片進(jìn)行檢測的結(jié)果如圖25所示。在人眼處于正視以及不同程度斜視的情況下,該算法均能夠準(zhǔn)確地對人眼虹膜區(qū)域進(jìn)行檢測定位并顯示當(dāng)前虹膜的偏移程度。
圖25 虹膜檢測效果圖與原圖Fig.25 Iris detection effect picture and original picture
1)基于StyleGAN網(wǎng)絡(luò)的定制化人臉生成方法能夠通過對網(wǎng)絡(luò)特征碼的替換以及特征向量的移動生成包含不同人眼狀態(tài)的亞洲人臉圖像,彌補(bǔ)了常見人臉數(shù)據(jù)集缺乏亞洲人臉以及瞇眼、閉眼等不同狀態(tài)下的人臉圖像的缺點,為人眼檢測網(wǎng)絡(luò)的訓(xùn)練與測試提供了合適的數(shù)據(jù)集。
2)實驗結(jié)果證明基于Yolov5m的人眼檢測網(wǎng)絡(luò)能夠準(zhǔn)確定位人眼,基于直方圖規(guī)定化與形狀特征的人眼狀態(tài)檢測方法能夠有效增強(qiáng)圖像質(zhì)量,在睜眼、瞇眼與閉眼3種情況下的檢測精度分別為95%、89%、93%,在圖像較暗等情況下仍有較高的檢測精度,克服了基于特征點檢測的人眼狀態(tài)檢測方法在圖像較暗等情況下特征點定位困難以及精度下降的問題。
3)基于魯棒自適應(yīng)的虹膜定位方法能夠有效地提取圖像中的虹膜特征,并準(zhǔn)確地量化虹膜區(qū)域的位置,具有較高的魯棒性與準(zhǔn)確性,該研究成果在圖像質(zhì)量檢查、視線追蹤等方向上具有重要的應(yīng)用價值。