摘 "要: 視線估計(jì)技術(shù)在人機(jī)交互、虛擬現(xiàn)實(shí)和醫(yī)學(xué)輔助診斷等領(lǐng)域有著廣泛應(yīng)用。然而,現(xiàn)有的公開(kāi)數(shù)據(jù)集主要針對(duì)成年人,導(dǎo)致基于這些數(shù)據(jù)集訓(xùn)練的視線估計(jì)算法在應(yīng)用于青少年群體時(shí)效果通常不盡如人意。為了解決這一問(wèn)題,收集了一個(gè)名為“Young?Gaze”的青少年視線數(shù)據(jù)集,涵蓋了107位青少年的視線數(shù)據(jù)。還提出了一種2D視線估計(jì)算法,該算法基于ViT并引入了一個(gè)名為上下文廣播的模塊,同時(shí)通過(guò)融合左眼和右眼的不同層次特征,顯著增強(qiáng)了網(wǎng)絡(luò)模型在特征表達(dá)上的能力。在實(shí)驗(yàn)中,該算法在Young?Gaze數(shù)據(jù)集上展現(xiàn)了出色的性能,達(dá)到了5.42 cm的誤差,性能優(yōu)于當(dāng)前其他同類2D視線估計(jì)算法。除了在Young?Gaze數(shù)據(jù)集上取得顯著性能外,該算法同樣在公開(kāi)的2D視線估計(jì)數(shù)據(jù)集如GazeCapture和MPIIFaceGaze上進(jìn)行了訓(xùn)練和測(cè)試,也展現(xiàn)了良好的性能,表明該算法不僅適用于青少年群體,也能夠在成人群體中得到有效應(yīng)用。
關(guān)鍵詞: 視線估計(jì); 頭部姿態(tài); CNN; 特征融合; ViT; 上下文廣播
中圖分類號(hào): TN911.73?34; TP391.41 " " " " " " " " 文獻(xiàn)標(biāo)識(shí)碼: A " " " " " " " " 文章編號(hào): 1004?373X(2024)15?0146?05
Research on adolescent gaze estimation algorithm based on CB?ViT
YAN Qingsong1, MAO Jianhua1, LIU Zhi1, 2, LU Xiaofeng1, 2
(1. School of Communication and Information Engineering, Shanghai University, Shanghai 200444, China;
2. Wenzhou Institute of Shanghai University, Wenzhou 325000, China)
Abstract: Gaze estimation technology is widely applied in the fields such as human?computer interaction (HCI), virtual reality, and medical diagnostic assistance. However, the existing public datasets are primarily adult?oriented, so the gaze estimation algorithms trained on these datasets show suboptimal performance when applied to adolescents. To address this issue, a youth?specific gaze dataset named ″Young?Gaze″, which encompasses gaze data from 107 adolescents, is collected. In addition, a novel 2D gaze estimation algorithm is proposed. This algorithm is on the basis of ViT (vision transformer) and incorporates a context broadcasting (CB) module, which significantly enhances the feature representation capability of the network model by integrating both eyes′ features at different levels. Experimentally, this algorithm demonstrates superior performance on the dataset Young?Gaze. Its error is kept within 5.42 cm, so it surpasses the other existing 2D gaze estimation methods. Besides its notable performance on Young?Gaze, it also shows good results when trained and tested on the public 2D gaze datasets GazeCapture and MPIIFaceGaze. The above "facts indicate that the proposed algorithm is not only suitable for the adolescent, but also applicable for the adults effectively.
Keywords: gaze estimation; head posture; CNN; feature fusion; ViT; CB
0 "引 "言
視線信息是分析人類心理活動(dòng)和行為特征非常重要的線索之一,它包含了豐富的人類意圖信息。隨著計(jì)算機(jī)視覺(jué)、人工智能等技術(shù)的飛速發(fā)展,視線估計(jì)技術(shù)引起了廣泛的關(guān)注并且已經(jīng)開(kāi)始應(yīng)用于人機(jī)交互[1]、虛擬現(xiàn)實(shí)[2]、醫(yī)學(xué)輔助診斷[3]等諸多領(lǐng)域中。過(guò)去的二十年中,大量的視線估計(jì)算法被提出,這些方法通常分為三類:基于3D眼球模型的算法、基于2D眼球特征回歸的算法和基于外觀的算法[4]。
神經(jīng)網(wǎng)絡(luò)技術(shù)是基于外觀的視線估計(jì)方法中最常見(jiàn)的方法。文獻(xiàn)[5]提出了第一種基于深度學(xué)習(xí)的視線估計(jì)方法,使用的是一個(gè)類似于LeNet的淺層架構(gòu),將頭部姿態(tài)信息與提取出的眼睛特征拼接,用于學(xué)習(xí)相機(jī)坐標(biāo)系下的視線,之后又進(jìn)一步擴(kuò)展了他們之前的工作,提出了GazeNet。文獻(xiàn)[6]提出了Dilated?Net網(wǎng)絡(luò),使用膨脹卷積來(lái)提取高層次的眼睛特征,這有效地增加了卷積核的感受野,但沒(méi)有降低空間分辨率。文獻(xiàn)[7]提出了一種基于自注意機(jī)制的視線估計(jì)算法AFF?Net,將兩只眼睛的特征圖連接起來(lái),并使用卷積層來(lái)生成特征圖的權(quán)重。
上述方法均提高了眼睛特征在總體特征中的權(quán)重,而忽視了面部圖像對(duì)于頭部姿態(tài)的影響,但頭部姿態(tài)在視線估計(jì)任務(wù)中也占有較大權(quán)重。此外,由于兒童的心理特點(diǎn)與行為特征,往往會(huì)出現(xiàn)注意力不集中的情況,通常表現(xiàn)為頭部姿態(tài)的大幅度變化,這也會(huì)導(dǎo)致2D視線估計(jì)的準(zhǔn)確率不佳。
為解決上述問(wèn)題,本文提出了一種基于CB?ViT和傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的視線估計(jì)算法。對(duì)于眼睛圖像使用傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò),對(duì)于頭部圖像采用融合了頭部姿態(tài)的CB?ViT網(wǎng)絡(luò)結(jié)構(gòu),利用其上下文廣播(Context Broadcasting)模塊,實(shí)現(xiàn)了額外的空間交互能力。在青少年視線數(shù)據(jù)集Young?Gaze上能夠獲得5.42 cm的誤差,在其他2D視線數(shù)據(jù)集上也具有較好的性能。
1 "相關(guān)工作
1.1 "Young?Gaze視線估計(jì)數(shù)據(jù)集構(gòu)建
2D視線估計(jì)即為通過(guò)視線估計(jì)算法預(yù)測(cè)人眼視線在二維平面上的落點(diǎn),典型的應(yīng)用場(chǎng)景包括預(yù)測(cè)在手機(jī)屏幕和電腦屏幕的視線落點(diǎn),與之相對(duì)應(yīng)的為3D視線估計(jì),預(yù)測(cè)的是人眼視線在三維坐標(biāo)系的方向向量。現(xiàn)有的2D視線估計(jì)數(shù)據(jù)集包括GazeCapture[8]、MPIIFaceGaze[5]等,但上述數(shù)據(jù)集的采集對(duì)象均為成年人。
Young?Gaze數(shù)據(jù)集的采集對(duì)象均為10~14歲的青少年,采集過(guò)程如下:使用1 920×1 080分辨率的屏幕,屏幕中預(yù)設(shè)7×5共35個(gè)目標(biāo)點(diǎn)隨機(jī)出現(xiàn),如圖1所示,每個(gè)目標(biāo)點(diǎn)出現(xiàn)的間隔為5 s。共采集107名青少年,其中包含78名男孩和29名女孩。
1.2 "數(shù)據(jù)集預(yù)處理
截取每個(gè)樣本的圖像,共525張圖像(35個(gè)目標(biāo)注視點(diǎn),每個(gè)注視點(diǎn)保留15張圖像),使用dlib庫(kù)分割出臉部圖像、左眼圖像、右眼圖像以及面部在原始圖像中的位置框作為模型的輸入,圖像的大小均為224×224。
1.3 "相關(guān)數(shù)據(jù)集對(duì)比
視線估計(jì)數(shù)據(jù)集分為3D注視方向估計(jì)數(shù)據(jù)集和2D注視點(diǎn)估計(jì)數(shù)據(jù)集,其中一些數(shù)據(jù)集同時(shí)具有3D注視方向注視點(diǎn)的標(biāo)簽。MPIIFaceGaze數(shù)據(jù)集使用RGB相機(jī)收集了15位志愿者在不同照明條件下的面部圖像;GazeCapture數(shù)據(jù)集使用眾包收集了1 474名參與者的圖像,推動(dòng)了移動(dòng)設(shè)備(智能手機(jī)、平板電腦)的商業(yè)應(yīng)用。表1展示了Young?Gaze數(shù)據(jù)集與GazeCapture數(shù)據(jù)集、MPIIFaceGaze數(shù)據(jù)集之間的比較。
2 "基于CB?ViT視線估計(jì)方法設(shè)計(jì)
本文設(shè)計(jì)了一種可以利用單一的面部和眼睛圖像的網(wǎng)絡(luò)結(jié)構(gòu),如圖2所示。
不借助其他模態(tài)的圖像如深度圖像或紅外圖像,即可預(yù)測(cè)2D視線落點(diǎn)。
該深度學(xué)習(xí)網(wǎng)絡(luò)一共包括4個(gè)輸入信息:左眼圖像、右眼圖像、面部圖像以及面部圖像位于整個(gè)圖像的位置信息,其中面部圖像位于整個(gè)圖像的位置信息是一個(gè)二進(jìn)制掩碼,其大小為15×15。該深度學(xué)習(xí)網(wǎng)絡(luò)最終的輸出信息[x,y]即為視線落點(diǎn)位于二維平面的坐標(biāo)信息。針對(duì)不同的圖像,本文方法采用不同的深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行處理。
2.1 "眼睛網(wǎng)絡(luò)
眼睛圖像在視線估計(jì)任務(wù)中起到了決定性的作用,眼球方向細(xì)微的變化就會(huì)導(dǎo)致視線落點(diǎn)在2D平面上非常大的移動(dòng),因此在處理眼睛圖像的過(guò)程中需要更加注重細(xì)節(jié)特征,而卷積神經(jīng)網(wǎng)絡(luò)CNNs通過(guò)一層一層卷積逐步擴(kuò)大卷積視窗的信息,這樣的網(wǎng)絡(luò)結(jié)構(gòu)有利于獲得更加細(xì)致的紋理信息。
一般情況下,左眼和右眼的視線方向是一致的,因此在處理眼睛圖像時(shí),使用全連接層疊加眼睛圖像的特征會(huì)削弱雙眼之間的關(guān)系。如圖3所示,左右眼特征融合網(wǎng)絡(luò)使用不同卷積層的眼睛特征圖并按通道來(lái)堆疊,同時(shí)高低卷積層的特征也可以保留更多的空間信息和表征能力。
對(duì)于眼睛網(wǎng)絡(luò),本文使用的是ResNet?18,該網(wǎng)絡(luò)是經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò),其殘差結(jié)構(gòu)能解決梯度消失問(wèn)題,在本文的實(shí)驗(yàn)過(guò)程中將會(huì)以此作為基準(zhǔn)。
2.2 "面部網(wǎng)絡(luò)
與眼睛圖像不同的是,面部圖像雖然也會(huì)影響2D視線落點(diǎn),但是面部的紋理特征并不會(huì)改變視線落點(diǎn),只有當(dāng)頭部姿態(tài)改變時(shí)視線落點(diǎn)才會(huì)有所變化。對(duì)于面部圖像的特征提取不應(yīng)該使用卷積神經(jīng)網(wǎng)絡(luò)CNNs,這會(huì)導(dǎo)致特征提取的過(guò)程中忽視全局特征而錯(cuò)誤聚焦于紋理特征。此處,本研究使用了能夠保留更多全局信息的Vision Transformer[9],其因強(qiáng)大的全局特征提取能力已經(jīng)被廣泛應(yīng)用在目標(biāo)檢測(cè)、圖像分類任務(wù)中。
ViT(Vision Transformer)將圖像分割成[N]個(gè)“patches”,由于patches本身是3D數(shù)據(jù)(高×寬×通道數(shù)),它們不能由處理語(yǔ)言(2D)的轉(zhuǎn)換器直接處理,因此需要將它們展平并進(jìn)行線性投影轉(zhuǎn)換為2D數(shù)據(jù),進(jìn)而送入Transformer Encoder進(jìn)行下一步的處理。
本文所使用的CB?Transformer Encoder結(jié)構(gòu)如圖4所示。
Attention計(jì)算公式如式(1)所示:
[AttentionQ,K,V=softmaxQKTd·V] (1)
在本研究中,為了增強(qiáng)模型對(duì)復(fù)雜視覺(jué)模式的理解,特別是在捕捉頭部姿態(tài)的微妙變化方面,在每個(gè)多層感知器(MLP)層中引入了一種創(chuàng)新的上下文廣播模塊,計(jì)算過(guò)程如式(2)所示:
[CBxi=xi+1Nj=1Nxj2] (2)
該模塊通過(guò)向每個(gè)中間層添加平均池化操作,實(shí)現(xiàn)了額外的空間交互功能。這種方法的設(shè)計(jì)旨在優(yōu)化傳統(tǒng)的Transformer Encoder結(jié)構(gòu),使其能夠更有效地處理上下文空間特征,從而提升整體模型性能。
2.3 "其他細(xì)節(jié)設(shè)計(jì)
面部位置信息為一個(gè)二進(jìn)制掩碼,在Young?Gaze數(shù)據(jù)集中其大小為15×15,在MPIIFaceGaze或GazeCapture數(shù)據(jù)集中會(huì)依據(jù)其具體大小進(jìn)行修改。通過(guò)特征提取網(wǎng)絡(luò)提取到的面部特征和眼臉特征將會(huì)進(jìn)行拼接操作,從而進(jìn)行下一步的2D視線落點(diǎn)預(yù)測(cè)。
3 "實(shí)驗(yàn)結(jié)果與評(píng)估
3.1 "實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)操作系統(tǒng)為Windows 11,CPU為Intel 12th i5?12400F,GPU為NVIDIA GeForce GTX 3090,采用的開(kāi)發(fā)環(huán)境為Python 3.9、Pytorch 1.8.0、CUDA 11.1。
3.2 "數(shù)據(jù)集劃分
本文在Young?Gaze數(shù)據(jù)集和兩個(gè)公共數(shù)據(jù)集(MPIIFaceGaze、GazeCapture)上評(píng)估本文的2D視線估計(jì)算法。
從Young?Gaze數(shù)據(jù)集選取91位青少年面部圖像(去除面部遮擋樣本),分出82位青少年的43 050張面部圖像作為訓(xùn)練集,9位青少年的4 725張面部圖像作為測(cè)試集。
從GazeCapture數(shù)據(jù)集的2 445 504幀中選擇了同時(shí)具備人臉和眼睛的1 490 959幀(共1 471個(gè)受試者)作為模型的輸入。然后,將數(shù)據(jù)集分為訓(xùn)練、驗(yàn)證和測(cè)試部分,分別由1 271、50和150個(gè)受試者樣本組成。
由于MPIIFaceGaze中的樣本很少,本節(jié)使用交叉驗(yàn)證的方法來(lái)驗(yàn)證模型的泛化能力,每次從15個(gè)樣本中選擇2個(gè)樣本進(jìn)行測(cè)試,其余樣本用于訓(xùn)練,重復(fù)8次以獲取平均值。
3.3 "實(shí)驗(yàn)細(xì)節(jié)
本文所提出模型在Young?Gaze、GazeCapture數(shù)據(jù)集上訓(xùn)練12個(gè)周期,學(xué)習(xí)率為0.001,在第8個(gè)周期后學(xué)習(xí)率降為0.000 1,批次大小設(shè)置為128。在MPIIFaceGaze數(shù)據(jù)集訓(xùn)練了17個(gè)周期,批次大小為32,學(xué)習(xí)率為0.001,在第10個(gè)周期后將學(xué)習(xí)率降為0.000 1。
本文使用的損失函數(shù)為均方差損失,計(jì)算過(guò)程如式(3)所示:
[l=1mi=1mxi-xpre2+yi-ypre2] (3)
式中:[x,y]為眼睛注視電腦屏幕的實(shí)際位置,[xpre,ypre]為模型預(yù)測(cè)的注視點(diǎn)位置,單位均為cm;[m]為訓(xùn)練過(guò)程中輸入神經(jīng)網(wǎng)絡(luò)的樣本數(shù)。
實(shí)驗(yàn)選擇Adam優(yōu)化方法,設(shè)置參數(shù)[β1=0.9],[β2=0.999],優(yōu)化過(guò)程如式(4)~式(7)所示:
[mt=β1mt-1+1-β1??JWt] (4)
[vt=β2mt-1+1-β2??JWt2] (5)
[mt=mt1-βt1, " "vt=vt1-βt2] (6)
[Wt+1=Wt-ηvt+εmt] (7)
式中:[mt]和[vt]為一階動(dòng)量項(xiàng)和二階動(dòng)量項(xiàng);[β1]和[β2]為動(dòng)量值大??;為了避免分母過(guò)小為0,[ε]為取值比較小的數(shù)。
3.4 "性能評(píng)估
本節(jié)將對(duì)本文提出的算法與其他2D視線估計(jì)算法進(jìn)行對(duì)比,在Young?Gaze、MPIIFaceGaze和GazeCapture數(shù)據(jù)集上進(jìn)行測(cè)試,相關(guān)實(shí)驗(yàn)數(shù)據(jù)如表2所示。表格中的數(shù)據(jù)表示模型預(yù)測(cè)的2D視線落點(diǎn)與真實(shí)視線落點(diǎn)的誤差,單位均為cm。
表格中加粗的數(shù)據(jù)為所有算法在當(dāng)前數(shù)據(jù)集下的最好性能,可以發(fā)現(xiàn),本文提出的視線估計(jì)算法在Young?Gaze、MPIIFaceGaze以及GazeCapture數(shù)據(jù)集的Tablet(平板)測(cè)試下均取得最小誤差,在GazeCapture數(shù)據(jù)集的Phone(手機(jī))測(cè)試下也取得了第三名的最小誤差。之所以在手機(jī)上的測(cè)試性能不及MFFC?Net,可能的原因是:被測(cè)試者的頭部姿態(tài)在使用手機(jī)的過(guò)程中并不會(huì)有過(guò)大的變化,而本文所提出的方法正是提高了頭部姿態(tài)在視線估計(jì)任務(wù)中的權(quán)重,因此會(huì)導(dǎo)致性能不及MFFC?Net。
3.5 "消融實(shí)驗(yàn)
為了證明各個(gè)模塊的有效性,本節(jié)針對(duì)各個(gè)模塊分別進(jìn)行消融實(shí)驗(yàn)。其中針對(duì)眼睛網(wǎng)絡(luò),分別使用部分特征堆疊與完全無(wú)堆疊即直接拼接眼睛網(wǎng)絡(luò)提取的特征進(jìn)行消融實(shí)驗(yàn);針對(duì)面部網(wǎng)絡(luò),會(huì)去除面部特征網(wǎng)絡(luò)中的上下文廣播模塊或直接使用ImageNet預(yù)訓(xùn)練的ResNet34進(jìn)行消融實(shí)驗(yàn)。消融實(shí)驗(yàn)數(shù)據(jù)如表3所示,其中加粗的數(shù)據(jù)為本文的完整模型。
可以發(fā)現(xiàn),去除上下文廣播模塊和換用ResNet34的面部特征提取網(wǎng)絡(luò)都會(huì)使視線估計(jì)的性能帶來(lái)不同程度的下降。類似地,如果只將部分眼睛特征進(jìn)行融合或使用特征拼接的方式處理眼睛特征也會(huì)使得網(wǎng)絡(luò)性能下降。由此可以得出結(jié)論,本文提出的2D視線估計(jì)網(wǎng)絡(luò)是有效的。
4 "結(jié) "語(yǔ)
本文提出了一種基于CB?ViT的青少年視線估計(jì)算法,彌補(bǔ)了現(xiàn)有視線估計(jì)任務(wù)對(duì)象均為成年人的不足。實(shí)驗(yàn)結(jié)果顯示,該模型在Young?Gaze數(shù)據(jù)集上性能優(yōu)異,并在公開(kāi)的視線數(shù)據(jù)集上表現(xiàn)良好。此研究的創(chuàng)新點(diǎn)在于其針對(duì)青少年特定需求的視線估計(jì)方法,以及在視線估計(jì)技術(shù)中應(yīng)用CB?ViT的新嘗試。此外,視線估計(jì)目前也被廣泛應(yīng)用在人機(jī)交互、醫(yī)學(xué)輔助診斷領(lǐng)域,本文所提出的青少年視線估計(jì)任務(wù)也可進(jìn)一步用于兒童與青少年相關(guān)疾病的醫(yī)學(xué)輔助診斷。
注:本文通訊作者為陸小鋒。
參考文獻(xiàn)
[1] 李少凡,高尚兵,張瑩瑩,等.基于輕量化網(wǎng)絡(luò)與嵌入式的分心行為協(xié)同檢測(cè)系統(tǒng)[J].南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版),2023,23(1):25?32.
[2] SELASKOWSKI B, ASCHé L M, WIEBE A, et al. Gaze?based attention refocusing training in virtual reality for adult attention?deficit/hyperactivity disorder [J]. BMC psychiatry, 2023, 23(1): 1?17.
[3] LI J, CHEN Z J, ZHONG Y H, et al. Appearance?based gaze estimation for ASD diagnosis [J]. IEEE transactions on cybernetics, 2022, 52(7): 6504?6517.
[4] 茍超,卓瑩,王康,等.眼動(dòng)跟蹤研究進(jìn)展與展望[J].自動(dòng)化學(xué)報(bào),2022,48(5):1173?1192.
[5] ZHANG X C, SUGANO Y, FRITZ M, et al. MPIIGaze: Real?world dataset and deep appearance?based gaze estimation [J]. IEEE transactions on pattern analysis and machine intelligence, 2019, 41(1): 162?175.
[6] CHEN Z K, SHI B E. Appearance?based gaze estimation using dilated?convolutions [C]// 14th Asian Conference on Computer Vision. Heidelberg, Germany: Springer, 2018: 309?324.
[7] BAO Y W, CHENG Y H, LIU Y F, et al. Adaptive feature fusion network for gaze tracking in mobile tablets [C]// 2020 25th International Conference on Pattern Recognition (ICPR). New York: IEEE, 2021: 9936?9943.
[8] KRAFKA K, KHOSLA A, KELLNHOFER P, et al. Eye tracking for everyone [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2016: 2176?2184.
[9] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: Transformers for image recognition at scale [EB/OL]. [2020?11?20]. https://arxiv.org/abs/2010.11929.
[10] HE J F, PHAM K, VALLIAPPAN N, et al. On?device few?shot personalization for real?time gaze estimation [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision Workshops. New York: IEEE, 2019: 1149?1158.
[11] FISCHER T, CHANG H J, DEMIRIS Y. RT?GENE: Real?time eye gaze estimation in natural environments [C]// Proceedings of the European Conference on Computer Vision (ECCV). Heidelberg, Germany: Springer, 2018: 339?357.
[12] GUO T C, LIU Y C, ZHANG H, et al. A generalized and robust method towards practical gaze estimation on smart phone [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision Workshops. New York: IEEE, 2019: 1131?1139.
[13] ZHAO Z C, KE W T, YAN Q S, et al. MFFC?Net: Multi?scale feature fusion?based coordination network for gaze estimation [C]// International Conference on Cyber Security, Artificial Intelligence, and Digital Economy (CSAIDE 2023). [S.l.]: SPIE, 2023: 570?574.
[14] 趙梓辰,衛(wèi)來(lái),陸小鋒.基于視線追蹤的青少年注意力快速評(píng)價(jià)篩查系統(tǒng)設(shè)計(jì)[J].電子技術(shù)與軟件工程,2022(15):156?159.
[15] GUDI A, LI X, VAN GEMERT J. Efficiency in real?time Webcam gaze tracking [C]// Proceedings of the ECCV 2020 Workshops on Computer Vision. Heidelberg, Germany: Springer, 2020: 529?543.
[16] ZHANG X C, PARK S, BEELER T, et al. ETH?XGaze: A large scale dataset for gaze estimation under extreme head pose and gaze variation [C]// Proceedings of the 16th European Conference on Computer Vision. Heidelberg, Germany: Springer, 2020: 365?381.
作者簡(jiǎn)介:嚴(yán)青松(1998—),男,江蘇南通人,碩士研究生,研究方向?yàn)橐暰€估計(jì)。
毛建華(1971—),男,江西吉安人,副教授,研究方向?yàn)榭臻g與語(yǔ)義信息智能分析。
劉 "志(1978—),男,天津人,研究員,研究方向?yàn)閳D像與視頻處理、計(jì)算機(jī)視覺(jué)。
陸小鋒(1981—),男,上海人,高級(jí)實(shí)驗(yàn)師,研究方向?yàn)橹悄苄畔⑻幚怼?/p>