張俊杰,孫光民,鄭鯤,李煜,付曉輝,慈康怡,申俊杰,孟凡超,孔江萍,張玥
北京工業(yè)大學(xué),北京 100024
眼睛是心靈的窗戶,已有研究表明,瞳孔大小的變化可以反映用戶的健康狀態(tài)、心理狀態(tài)、情緒波動以及認(rèn)知水平的變化(Kawai等,2013)。在醫(yī)學(xué)領(lǐng)域,瞳孔狀態(tài)對疾病的預(yù)防和診斷具有重要意義。比如通過測量患者瞳孔位置可以判斷斜視程度??梢酝ㄟ^觀測瞳孔大小對出現(xiàn)中毒現(xiàn)象或患有某些疾病的患者進(jìn)行初步診斷(Wong等,2019)。但是當(dāng)前對于瞳孔狀態(tài)的判斷需要醫(yī)生通過經(jīng)驗(yàn)進(jìn)行自主診斷,主觀性較強(qiáng)。在教育領(lǐng)域,通過對學(xué)生學(xué)習(xí)時瞳孔變化的分析,可了解學(xué)生們的興趣點(diǎn)(Magill和Roy,2010)。近年來,隨著在線教育的發(fā)展,傳統(tǒng)課堂逐漸向線上教育發(fā)展。線上教育具有一對多的特點(diǎn),當(dāng)學(xué)生過多時,教師無法實(shí)時觀測到所有學(xué)生的學(xué)習(xí)狀態(tài)。通過采集學(xué)生上課時的視頻,對視頻進(jìn)行分析,從而判斷學(xué)生的上課狀態(tài)以及知識的掌握情況。表情可偽裝性較強(qiáng),即使學(xué)生不能理解所學(xué)內(nèi)容也可以做出具有迷惑性的表情,從而影響老師的判斷。相比于表情,瞳孔的可偽裝性較弱。因此,通過結(jié)合眼部信息,可以更加準(zhǔn)確地對學(xué)生的上課狀態(tài)進(jìn)行判斷(張俊杰 等,2020)。如何在無專業(yè)設(shè)備和附加光源輔助情況下對瞳孔變化進(jìn)行分析成為亟待解決的問題。
盡管對瞳孔狀態(tài)的研究已經(jīng)進(jìn)行了相當(dāng)長的一段時間,但是相關(guān)應(yīng)用卻一直難以實(shí)現(xiàn)。主要原因是瞳孔僅在臉部占有很小的一部分,在實(shí)際生活中佩戴眼鏡、反光以及睫毛的遮擋更增加了瞳孔觀測的困難。特別是瞳孔與虹膜顏色接近,更是增加了觀察的難度。已有的瞳孔數(shù)據(jù)集與實(shí)際生活中的圖像相差較大。大部分的數(shù)據(jù)是在理想條件下采集得到的。如CASIA.V1(Chinese Academy of Sciences Institute of Automation Iris Image Database version 1.0)(Ma等,2004)、CASIA.V2(Chinese Academy of Sciences Institute of Automation Iris Image Database version 2.0)(Sun和Tan,2009)。這些數(shù)據(jù)集中的圖像去除了影響圖像質(zhì)量的噪聲因素,虹膜均勻地分布在圖像中,瞳孔清晰,圖像質(zhì)量高。但是在真實(shí)環(huán)境下,影響圖像質(zhì)量的因素很多,該種類型的數(shù)據(jù)不能在實(shí)際中得到應(yīng)用。為了解決上述問題,出現(xiàn)了許多增加噪聲因素的數(shù)據(jù)集。
此外,瞳孔大小的變化可以為判斷情緒變化提供數(shù)據(jù)支持。但是,已有數(shù)據(jù)集無法提供瞳孔位置變化的信息。面部特征點(diǎn)的運(yùn)動可以用來表征面部表情的變化,從而反映用戶情緒的變化。研究機(jī)構(gòu)提出了不同的特征點(diǎn)檢測模型,如表1所示。通過表1可以發(fā)現(xiàn),已有特征點(diǎn)檢測模型僅對眼周區(qū)域進(jìn)行特征點(diǎn)的標(biāo)定,如PUT和HELEN數(shù)據(jù)集分別對每張圖片中左、右眼周圍標(biāo)定了20個特征點(diǎn)。少部分?jǐn)?shù)據(jù)集包含了對瞳孔的標(biāo)定,如BioID數(shù)據(jù)集對每只眼睛的內(nèi)眼角、外眼角以及瞳孔進(jìn)行了標(biāo)定。但是還沒有數(shù)據(jù)集對自然光下普通攝像頭采集到的眼睛部位的瞳孔周圍以及虹膜周圍進(jìn)行精細(xì)的特征點(diǎn)標(biāo)定。這在一定程度上制約了基于普通攝像頭對眼睛狀態(tài)分析的發(fā)展。
表1 特征點(diǎn)標(biāo)定數(shù)據(jù)集Table 1 Landmark detection datasets
根據(jù)對已有虹膜檢測數(shù)據(jù)集和特征點(diǎn)定位數(shù)據(jù)集分析可以發(fā)現(xiàn),當(dāng)前還沒有數(shù)據(jù)集可將眼睛結(jié)構(gòu)分割和眼部特征點(diǎn)的精細(xì)定位進(jìn)行統(tǒng)一。本文提出一個建立在自然光環(huán)境下利用普通攝像頭采集得到的眼部圖像分割和特征點(diǎn)定位數(shù)據(jù)集(eye segment and landmark detection dataset, ESLD)。該數(shù)據(jù)集包含用戶瀏覽網(wǎng)絡(luò)信息時的圖像、人工合成的眼部區(qū)域圖像以及篩選出的當(dāng)前已有數(shù)據(jù)集中滿足自然光和普通攝像頭兩個條件下的圖像。對所有滿足條件的圖像匯總后進(jìn)行處理,提取眼部區(qū)域。ESLD數(shù)據(jù)集包含真實(shí)眼部圖像以及合成眼部圖像,因此該數(shù)據(jù)集是一個可以進(jìn)行真、假圖像檢測的數(shù)據(jù)集。另外,該數(shù)據(jù)集中包含用戶實(shí)際使用電腦過程中的數(shù)據(jù),因此包含多種真實(shí)噪聲,如佩戴眼鏡、眼鏡反光、佩戴美瞳和光線暗淡等。這更符合實(shí)際應(yīng)用的需要,從而可以提高模型的泛化性和魯棒性。
數(shù)據(jù)集通過3種方式獲得。第1種方式為分別在白天和傍晚兩個時間段,采集6名學(xué)生使用電腦瀏覽屏幕內(nèi)容時的視頻,每段視頻時長為5 min,共計12段視頻。利用深度學(xué)習(xí)訓(xùn)練模型需要大量的數(shù)據(jù),由于隱私等原因,大量獲取到用戶的眼部數(shù)據(jù)比較困難。因此,Wood等人(2016)開發(fā)了UnityEye(Park等,2018),用于生成帶有標(biāo)簽信息的眼部結(jié)構(gòu)數(shù)據(jù)。第2種方式為利用UnityEye生成的模擬眼部結(jié)構(gòu)圖像。利用該種方式可以生成具有不同分辨率、不同光照強(qiáng)度、不同臉部朝向和不同瞳孔位置的圖像。第3種方式為在已有數(shù)據(jù)集中,選擇能夠滿足在自然光下使用普通攝像頭采集到的圖像。將以上3種方式獲取到的圖像進(jìn)行匯總,形成ESLD數(shù)據(jù)集。
通過以上3種方式可以獲得不同編碼方式的視頻與圖像兩種格式的原始數(shù)據(jù),因此需要對視頻進(jìn)行相關(guān)處理。首先利用opencv將視頻進(jìn)行分幀處理,將每個視頻幀保存為jpg格式的圖像。由于不同視頻在采集時幀率以及采集時間存在差異,因此將會得到不同數(shù)量的圖像。
不同方式獲取到的圖像之間存在一定的差異性。因此需要利用不同的方式提取圖像中的眼部區(qū)域。原始圖像包括以下4種類型,如圖1所示。
圖1 原始圖像類型Fig.1 Different original image type((a)type 1;(b) type 2;(c)type 3;(d)type 4)
圖2 眼部圖像分割結(jié)果Fig.2 Eye region segment results((a)segment result 1;(b) segment result 2;(c) segment result 3;(d) segment result 4)
第2種類型的圖像僅包含眼部區(qū)域。由于未提供眼部特征點(diǎn)標(biāo)定文件,因此不能根據(jù)特征點(diǎn)的位置去除周圍黑色背景信息。實(shí)驗(yàn)中發(fā)現(xiàn),圖像中黑色背景像素不為0,并且像素值會發(fā)生變化。因此在對圖像進(jìn)行遍歷時,通過設(shè)置閾值的方式篩選出眼部區(qū)域。對于Multi-view Gaze(Lian等,2019)數(shù)據(jù)集中的圖像,設(shè)置閾值為50,通過列表保存像素大于閾值時的坐標(biāo)。圖像是按照從左至右、從上至下的方式進(jìn)行遍歷,因此通過列表中記錄的第1個和最后1個坐標(biāo)可以確定眼部區(qū)域。此時眼部區(qū)域的長和寬分別為XB-XT和YT-YB,其中(XT,YT)為左上頂點(diǎn)坐標(biāo),(XB,YB)為右下頂點(diǎn)坐標(biāo)。得到眼部圖像后,以圖像寬度的一半為界,分別對左、右眼部區(qū)域進(jìn)行分割。分割結(jié)果如圖2(b)所示。
最后利用UnityEye自動生成圖像,可以通過修改參數(shù)生成具有不同亮度、姿態(tài)以及瞳孔位置的眼部圖像。在生成圖像的同時會生成對應(yīng)的參數(shù)文件,根據(jù)文件中的特征點(diǎn)坐標(biāo)分割圖像,分割結(jié)果如圖2(d)所示。不同分割方式得到的圖像大小不同,因此所有圖像被歸一化為256×128像素。
在圖像中分割出眼部區(qū)域后,使用labelme(Russell等,2008)對歸一化后的眼部圖像進(jìn)行特征點(diǎn)標(biāo)定。為了避免個人判斷帶來的標(biāo)定誤差,由實(shí)驗(yàn)室多人共同進(jìn)行標(biāo)定工作。進(jìn)行標(biāo)定的人員共有6名,為了減少由于個體差異造成的標(biāo)記差異問題,每名標(biāo)記者在4種類型的圖像中分別隨機(jī)選擇4幅進(jìn)行標(biāo)定,標(biāo)定完成后,由一名標(biāo)定經(jīng)驗(yàn)豐富的人員對標(biāo)定圖像的質(zhì)量進(jìn)行判斷。達(dá)到標(biāo)準(zhǔn)后,接著對剩余的圖像進(jìn)行人工標(biāo)定。特征點(diǎn)標(biāo)定位置如圖3所示。包括編號為1—16的眼周部位特征點(diǎn)(紅色點(diǎn)),編號為17—28的虹膜邊緣特征點(diǎn)(黃色點(diǎn))以及編號為29—40的瞳孔周圍特征點(diǎn)(天藍(lán)色點(diǎn))。每幅圖像標(biāo)記完成后,標(biāo)定結(jié)果保存成json文件。使用labelme根據(jù)json文件生成眼部分割結(jié)果,如圖3(c)所示,其中綠色為瞳孔,紅色為虹膜,黃色為鞏膜。
圖3 特征點(diǎn)標(biāo)定及分割結(jié)果Fig.3 Eye region labeled and segment results((a)landmarks location;(b) an example of landmarks location;(c)an example of eye segment)
圖4 ESLD數(shù)據(jù)集中每種類型的眼部圖像與已有數(shù)據(jù)集對比Fig.4 Comparison of each type of images in ESLD dataset with existing datasets((a)ESLD;(b)exiting datasets)
表2 每種類型圖像數(shù)量在訓(xùn)練集、測試集和驗(yàn)證集中的分布Table 2 Distribution of sample size of each type of images in the training set,testing set and validation set
表3 ESLD數(shù)據(jù)集屬性Table 3 ESLD dataset attributes
本文提出了ESLD數(shù)據(jù)集上的特征點(diǎn)定位和眼部結(jié)構(gòu)分割的基線方法。根據(jù)ESLD數(shù)據(jù)集中圖像種類的不同,將圖像進(jìn)行分類后可用于多種實(shí)際場景。
設(shè)計了3項具有實(shí)際應(yīng)用價值的基準(zhǔn)實(shí)驗(yàn):1)數(shù)據(jù)集包含有真實(shí)眼部以及合成眼部圖像,真實(shí)圖像具有隱私性,生成逼真的眼部圖像用于深度模型的訓(xùn)練,可以彌補(bǔ)訓(xùn)練數(shù)據(jù)不足的問題,給出了真假圖像識別的基線。2)眼部狀態(tài)的變化是多種因素共同作用的結(jié)果,利用眼部特征點(diǎn)的運(yùn)動來表征眼部的變化,進(jìn)行了特征點(diǎn)定位實(shí)驗(yàn)。3)眼部結(jié)構(gòu)分割實(shí)驗(yàn)可為研究瞳孔變化與情緒變化提供數(shù)據(jù)支持。
實(shí)驗(yàn)使用python語言對圖像進(jìn)行預(yù)處理和深度學(xué)習(xí)模型的搭建。硬件配置為Inter(R) Core(TM) i7-8750H CPU, 主頻2.21 GHz, NVIDIA GeForce GTX 2080顯卡,16 GB內(nèi)存,操作系統(tǒng)為Ubuntu, 集成環(huán)境為Anaconda Navigator,深度學(xué)習(xí)框架為Tensorflow。
利用精準(zhǔn)率(Eprecision)、召回率(Erecall)、準(zhǔn)確率(Eaccuracy)以及F1值(Ef1)測試模型的分類性能,計算為
(1)
(2)
(3)
(4)
式中,TP為被正確劃分為正例的個數(shù),F(xiàn)P為被錯誤劃分為正例的個數(shù),F(xiàn)N為被錯誤劃分為負(fù)例的個數(shù),TN為被正確劃分為負(fù)例的個數(shù)。
表4展示的是ESLD數(shù)據(jù)集真假眼部圖像分類的基線。通過表4可以發(fā)現(xiàn),模型的分類準(zhǔn)確率小于50%,由此表明,模型不能準(zhǔn)確地識別出生成眼部圖像以及真實(shí)眼部圖像。因此,僅通過準(zhǔn)確率不能證明合成圖像與真實(shí)圖像接近,有可能將真實(shí)眼部圖像識別為合成圖像。接下來,分別計算模型的精確率和召回率。精確率是指預(yù)測為真實(shí)的眼部圖像數(shù)量與所有預(yù)測結(jié)果為真實(shí)圖像的比值。召回率是指預(yù)測為真實(shí)的眼部圖像的數(shù)量占實(shí)際真實(shí)眼部圖像的比率。通過分析精確率和召回率可以發(fā)現(xiàn),模型將部分生成圖像預(yù)測為真實(shí)眼部圖像,結(jié)果表明生成圖像與真實(shí)眼部圖像在眼部結(jié)構(gòu)具有相似性,生成是有效的。因此可以在訓(xùn)練數(shù)據(jù)中補(bǔ)充一定的生成圖像解決訓(xùn)練數(shù)據(jù)不足的問題。
表4 真實(shí)與合成眼睛圖像分類結(jié)果Table 4 Classification results on real and synthesis image
Mask R-CNN(region convolutional neural network)是多任務(wù)網(wǎng)絡(luò)模型,可以實(shí)現(xiàn)目標(biāo)檢測、目標(biāo)分類、目標(biāo)分割和特征點(diǎn)定位任務(wù),具有很好的通用性。ESLD數(shù)據(jù)集包含有眼部結(jié)構(gòu)以及特征點(diǎn),因此可利用Mask R-CNN完成以上兩個任務(wù)。Mask R-CNN具有很強(qiáng)的靈活性,可以通過更換不同的特征提取網(wǎng)絡(luò)從而提取不同的特征信息。同時,網(wǎng)絡(luò)中融入了特征金字塔,使得網(wǎng)絡(luò)可以提取不同尺度的信息。在眼部結(jié)構(gòu)中,與虹膜和鞏膜相比,瞳孔較小,不易檢測。因此,包含有特征金字塔結(jié)構(gòu)的網(wǎng)絡(luò)模型適合于眼部結(jié)構(gòu)分割任務(wù)。在模型的訓(xùn)練過程中,網(wǎng)絡(luò)深度的增加會加大內(nèi)存的消耗,為了適應(yīng)不同的訓(xùn)練平臺,分別選擇ResNet34, ResNet50和ResNet101 3個模型作為特征提取網(wǎng)絡(luò),網(wǎng)絡(luò)層數(shù)分別為34,50和101層。通過均值平均精度EmAP、精準(zhǔn)率Eprecision、召回率Erecall、均值平均召回率(EmAR)、均值平均F1值(EmF1)以及單幅圖像的檢測時間(T)等指標(biāo)對模型的分割性能進(jìn)行評價,即
(5)
(6)
式中,AP為平均精確度,N為樣本總數(shù),QR為類別,recall(i)為第i類的召回率。
模型訓(xùn)練60輪(epochs)。為了研究圖像類型的差異對模型分割效果的影響,分別測試4種類型下模型的分割效果。將4種類型的數(shù)據(jù)進(jìn)行整合,對ESLD數(shù)據(jù)集中的所有數(shù)據(jù)進(jìn)行訓(xùn)練。為了驗(yàn)證生成眼部圖像對模型性能的影響,分別將生成的眼部圖像與其他3種類型的圖像進(jìn)行混合,在相同訓(xùn)練輪次下得到模型的分割結(jié)果。分割結(jié)果如表5所示。實(shí)驗(yàn)結(jié)果顯示,對于不同類型的圖像,隨著模型深度的增加,可以學(xué)習(xí)到不同類型圖像間的差異,基于單一類別的模型對該類別具有相似的性能?;旌项悇e可以提高模型的性能,特別是對淺層模型性能提升較大。進(jìn)一步表明了合成眼部圖像可以提升模型的性能。通過以上實(shí)驗(yàn)表明,增加數(shù)據(jù)的豐富性有助于提高模型的分類性能。對ESLD數(shù)據(jù)集中的所有數(shù)據(jù)進(jìn)行訓(xùn)練的分割基線如表6所示。
表5 不同類型下模型分割結(jié)果及合成圖像對模型性能的影響Table 5 Segmentation results on different type of images and the influence of synthetic images for model
表6 ESLD數(shù)據(jù)集分割結(jié)果Table 6 Segmentation results on ESLD dataset
通過表6可以發(fā)現(xiàn),隨著模型深度的增加,對眼部結(jié)構(gòu)的分割準(zhǔn)確率得到提升,模型的魯棒性更強(qiáng)。但是模型深度的增加使得單幅圖像預(yù)測的時間更長。分別對瞳孔、虹膜以及鞏膜的測試結(jié)果進(jìn)行分析,對于瞳孔的分割效果最好,在該分割精度情況下,可以滿足實(shí)際的需要。綜合分割準(zhǔn)確率、訓(xùn)練時間和預(yù)測時間3個因素,ResNet50為最優(yōu)的特征提取網(wǎng)絡(luò)。部分分割結(jié)果如圖5所示。其中,第1行為原始眼部圖像,第2行為標(biāo)定分割結(jié)果,第3—5行分別為基于不同特征提取網(wǎng)絡(luò)情況下Mask R-CNN的分割結(jié)果。采用ResNet101作為特征提取網(wǎng)絡(luò)得到的分割結(jié)果與標(biāo)注結(jié)果最接近,同時錯分割以及多分割的情況較少,而ResNet34作為特征提取網(wǎng)絡(luò)得到的分割結(jié)果中,出現(xiàn)錯分割以及多分割的情況較多。因此,在相同訓(xùn)練輪數(shù)情況下,特征提取網(wǎng)絡(luò)模型的深度越深,最終得到的loss值越小,圖像的分割效果越好。模型訓(xùn)練曲線如圖6所示。圖6(a)—(c)分別為ResNet101、ResNet50和ResNet34作為特征提取網(wǎng)絡(luò)情況下模型的損失曲線結(jié)果。
圖5 眼部結(jié)構(gòu)分割結(jié)果Fig.5 Sample results of eye region segment((a)original images;(b)ground truth;(c)Mask R-CNN(ResNet101);(d)Mask R-CNN(ResNet50);(e)Mask R-CNN(ResNet34))
圖6 分割模型訓(xùn)練曲線Fig.6 Training curves on segment model results((a)ResNet101;(b)ResNet50;(c)ResNet34)
已有特征點(diǎn)檢測數(shù)據(jù)集僅在眼周區(qū)域以及瞳孔中心進(jìn)行特征點(diǎn)的標(biāo)記,如LFPW(labeled face parts in the wild)和HELEN數(shù)據(jù)集。本文提出的ESLD數(shù)據(jù)集在眼部區(qū)域進(jìn)行了精細(xì)的特征點(diǎn)標(biāo)定。在眼部區(qū)域中包含有16個鞏膜特征點(diǎn),12個虹膜特征點(diǎn)以及12個瞳孔特征點(diǎn)。由于眼部區(qū)域很小,因此在小范圍內(nèi)對密集的特征點(diǎn)進(jìn)行定位更具挑戰(zhàn)性。
大數(shù)據(jù)是指規(guī)模巨大、結(jié)構(gòu)復(fù)雜的數(shù)據(jù)集合,技術(shù)特點(diǎn)一般被稱為“4V”,即體積大(Volume)、速度快(Velocity)、種類多(Variety)和實(shí)時性(Virtual)。大數(shù)據(jù)技術(shù)作為信息智能領(lǐng)域的核心技術(shù)之一,在城鄉(xiāng)規(guī)劃應(yīng)用中有著巨大的優(yōu)勢:
已有特征點(diǎn)檢測工作多基于深度學(xué)習(xí)方法。與傳統(tǒng)算法相比,深度學(xué)習(xí)算法對特征點(diǎn)檢測具有更準(zhǔn)確的定位結(jié)果。因此。在基準(zhǔn)實(shí)驗(yàn)中,使用深度學(xué)習(xí)的方法對特征點(diǎn)進(jìn)行檢測。利用Mask R-CNN可以在最小限度修改的情況下從實(shí)例分割任務(wù)轉(zhuǎn)化為特征點(diǎn)檢測任務(wù)。在2017年,Mask R-CNN在相同運(yùn)行速率(5 幀/s)的情況下,在COCO(Microsoft common objects in context)特征點(diǎn)檢測數(shù)據(jù)集上的準(zhǔn)確率超過了2016年的冠軍團(tuán)隊成果。通過提取每一個特征點(diǎn)的位置作為一個獨(dú)熱編碼(one-hot)的二元掩膜,使用Mask R-CNN預(yù)測K個掩膜,此時每一個特征點(diǎn)分別對應(yīng)于K個掩膜。特征點(diǎn)檢測任務(wù)分為兩種方式進(jìn)行,第1種方式為僅利用原始特征點(diǎn)的位置對模型進(jìn)行訓(xùn)練,第2種方式為結(jié)合特征點(diǎn)的掩膜對模型進(jìn)行訓(xùn)練。特征提取網(wǎng)絡(luò)為ResNet101和ResNet50。采用遷移學(xué)習(xí)的方式對模型進(jìn)行訓(xùn)練。首先保持特征提取網(wǎng)絡(luò)的其他結(jié)構(gòu)參數(shù)不變,對head結(jié)構(gòu)進(jìn)行訓(xùn)練,訓(xùn)練批次為15。然后,保持特征提取網(wǎng)絡(luò)stage 1到stage 3的結(jié)構(gòu)參數(shù)不變,對其他部分結(jié)構(gòu)進(jìn)行訓(xùn)練,訓(xùn)練批次為10。最后,對整個特征提取網(wǎng)絡(luò)進(jìn)行5批次的訓(xùn)練。使用平均誤差(mean error,EMD)對模型進(jìn)行評價,即
(7)
表7 不同圖像類型下特征點(diǎn)定位結(jié)果及合成圖像對模型性能的影響Table 7 Landmarks detection results on different type of images and the influence of synthetic images for model
實(shí)驗(yàn)結(jié)果顯示,基于單一類別圖像特征點(diǎn)的定位誤差較大,由于類型3中包含了較多姿態(tài)變化的眼部圖像,因此該種類型圖像的定位誤差最大。通過在單一類別眼部圖像數(shù)據(jù)集中增加合成眼部圖像,可以有效提高特征點(diǎn)定位的準(zhǔn)確性。
將4種類型圖像進(jìn)行混合,從而增加訓(xùn)練數(shù)據(jù)的豐富性,特征點(diǎn)定位結(jié)果如表8所示。
表8 ESLD數(shù)據(jù)集特征點(diǎn)定位結(jié)果Table 8 Landmarks detection results on ESLD dataset
通過對表8進(jìn)行分析可以發(fā)現(xiàn),特征提取網(wǎng)絡(luò)的層數(shù)越多,特征點(diǎn)的定位結(jié)果越好,增加圖像的類別可以有效地提高特征點(diǎn)的定位準(zhǔn)確率。另外,通過結(jié)合圖像的掩膜特征可以有效地提升特征點(diǎn)定位的準(zhǔn)確性。因此結(jié)合圖像的掩膜,采用更深的網(wǎng)絡(luò)模型,可以提升特征點(diǎn)定位的準(zhǔn)確性。眼部定位結(jié)果如圖7所示。通過模型訓(xùn)練結(jié)果曲線圖(圖8)可以發(fā)現(xiàn),結(jié)合圖像的掩膜信息,可以使網(wǎng)絡(luò)更容易收斂。在相同訓(xùn)練批次情況下,定位更加準(zhǔn)確。
圖7 眼部特征點(diǎn)定位結(jié)果Fig.7 Sample results of landmarks detection((a)original images;(b)ResNet101 mask;(c)ResNet50 mask;(d)ResNet101;(e)ResNet50)
圖8 關(guān)鍵點(diǎn)定位模型訓(xùn)練曲線Fig.8 Training curves of landmarks detection((a)training curve based on ResNet101;(b)training curve based on ResNet50;(c)training curve based on the combination of ResNet101 and mask;(d)training curve based on the combination of ResNet50 and mask)
與眼部結(jié)構(gòu)分割任務(wù)相比,特征點(diǎn)定位任務(wù)更加具有挑戰(zhàn)性。眼部區(qū)域較小,特征點(diǎn)分布集中,另外,瞳孔邊緣與虹膜邊緣不明顯,增加了特征點(diǎn)定位的難度。
眼部外觀變化對分析用戶的情感、心理等具有十分重要的現(xiàn)實(shí)意義。真實(shí)環(huán)境下的眼部圖像數(shù)據(jù)得到研究人員越來越多的關(guān)注。然而,當(dāng)前還沒有對普通攝像頭采集到的眼部圖像進(jìn)行精細(xì)的特征點(diǎn)標(biāo)記和分割的數(shù)據(jù)集。本文基于收集實(shí)際采集、合成的眼部圖像,以及現(xiàn)有數(shù)據(jù)集中的圖像,精細(xì)標(biāo)記了一個眼部特征點(diǎn)定位和分割數(shù)據(jù)集ESLD。ESLD是一個多類型眼部結(jié)構(gòu)數(shù)據(jù)集,包含自然光下普通攝像頭采集到的眼部圖像以及合成的眼部圖像,通過ESLD數(shù)據(jù)集可進(jìn)行多種實(shí)驗(yàn)。視頻以及圖像是在自然環(huán)境下采集得到的,因此包含多種眼部角度的變化、環(huán)境光照的變化、用戶與采集設(shè)備間距離的變化以及多種條件的遮擋。實(shí)驗(yàn)表明生成眼部數(shù)據(jù)可以有效地克服訓(xùn)練數(shù)據(jù)不足的問題,與眼部結(jié)構(gòu)分割相比,眼部特征點(diǎn)定位具有更大的難度。因此,在自然光下對普通攝像頭采集到的眼部圖像進(jìn)行情感分析、身份識別具有很大的困難。建立一個自然環(huán)境下的眼部圖像數(shù)據(jù)集是十分必要的。該數(shù)據(jù)集可為通過眼部狀態(tài)對用戶的身份進(jìn)行識別以及對情感以及心理狀態(tài)的研究提供數(shù)據(jù)支持。
ESLD數(shù)據(jù)集通過3種采集方式得到4種類型的面部圖像。通過多種方式得到眼部圖像,特別是選擇出在自然光下普通攝像機(jī)采集到的人臉數(shù)據(jù)集,可以在一定程度上彌補(bǔ)眼睛全面性有限的問題。但是,本文提出的數(shù)據(jù)集僅采集健康用戶眼部的圖像,缺乏對患有眼部疾病患者眼部圖像的采集,如眼顫和斜視,限制了模型的使用范圍。在以后的工作中,可以采集更多健康用戶不同眼部形態(tài)和不同光照等情況下的眼部圖像,以及增加對于患有眼部疾病患者眼部圖像的樣本收集。