趙 怡,高淑萍,何 迪
1.西安電子科技大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,西安710126
2.西安電子科技大學(xué) 通信工程學(xué)院,西安710071
視覺目標(biāo)跟蹤技術(shù)在軍事、醫(yī)療、人機(jī)交互等領(lǐng)域具有廣泛的應(yīng)用場(chǎng)景。核化相關(guān)濾波算法(Κernel Correlation Filter,ΚCF)[1]作為經(jīng)典的目標(biāo)跟蹤算法之一,在目標(biāo)跟蹤領(lǐng)域中取得了較大的成就。但當(dāng)目標(biāo)出現(xiàn)光照變化、遮擋、運(yùn)動(dòng)模糊、形變、尺度變化時(shí)極易出現(xiàn)目標(biāo)跟丟現(xiàn)象,從而導(dǎo)致目標(biāo)跟蹤效果準(zhǔn)確度不高。目前,視線跟蹤技術(shù)[2]主要是基于瞳孔角膜反射原理。在注視點(diǎn)采集中,由于受試者視覺疲勞以及設(shè)備噪音等,極易出現(xiàn)采樣結(jié)果準(zhǔn)確度不高以及丟幀現(xiàn)象。而數(shù)據(jù)融合技術(shù)將來自多個(gè)傳感器的信息相結(jié)合,以實(shí)現(xiàn)比單獨(dú)使用單個(gè)傳感器所能達(dá)到的更高的準(zhǔn)確性和更具體的推論[3]。因此如何利用數(shù)據(jù)融合方法來實(shí)現(xiàn)目標(biāo)跟蹤算法與視線跟蹤技術(shù)的優(yōu)勢(shì)互補(bǔ),是一個(gè)非常值得研究的問題。
圖1 視頻序列中目標(biāo)的部分位置
基于深度學(xué)習(xí)的融合算法在眾多領(lǐng)域中均獲得了較好的成果。文獻(xiàn)[4-6]研究表明,利用人工神經(jīng)網(wǎng)絡(luò)融合方法來處理非線性問題具有較高的研究?jī)r(jià)值。其中,文獻(xiàn)[4]將人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)的方法應(yīng)用于障礙物檢測(cè),實(shí)驗(yàn)結(jié)果表明較傳統(tǒng)方法其性能更為突出;文獻(xiàn)[5]提出了基于層次分析法的反向傳播神經(jīng)網(wǎng)絡(luò)模型(Back Propagation neural network based on Analytic Hierarchy Process,AHP-BP),實(shí)驗(yàn)表明了其有效性和實(shí)用性;文獻(xiàn)[6]將Elman 神經(jīng)網(wǎng)絡(luò)應(yīng)用于空間位置確定。文獻(xiàn)[7-10]將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)應(yīng)用于數(shù)據(jù)融合領(lǐng)域,研究結(jié)果顯示了其高效的抽象特征提取能力。文獻(xiàn)[7]將CNN 用于睡眠質(zhì)量預(yù)測(cè),相較于傳統(tǒng)的線性回歸方法AUC 提高了46%;文獻(xiàn)[8]提出一種新穎的雙支卷積神經(jīng)網(wǎng)絡(luò)(Dual-Branch Convolutional Neural Network,DB-CNN)深度學(xué)習(xí)融合框架,首先利用兩個(gè)CNN 網(wǎng)絡(luò)分別提取高光譜圖像和雷達(dá)數(shù)據(jù)的深度特征,然后將深度特征進(jìn)行堆疊,最后與全連接層相連作為最終的融合值輸出層;文獻(xiàn)[9]基于CNN 網(wǎng)絡(luò)提出一種GIF 融合算法,通過融合ECG 和BP 信號(hào)來進(jìn)行心跳位置檢測(cè)。文獻(xiàn)[11]使用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bidirectional Long Short-Term Μemory,BLSTΜ)進(jìn)行睡眠質(zhì)量預(yù)測(cè)分類,在大型公共數(shù)據(jù)集上預(yù)測(cè)準(zhǔn)確性大于80%。文獻(xiàn)[12-13]提出將卷積神經(jīng)網(wǎng)絡(luò)與長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Μemory,LSTΜ)結(jié)合的融合方案;文獻(xiàn)[14-15]將CNN 和BLSTΜ 網(wǎng)絡(luò)結(jié)合,并應(yīng)用于分類識(shí)別任務(wù)。
本文在前人工作的基礎(chǔ)上,提出一種新的眼動(dòng)跟蹤數(shù)據(jù)融合算法,即Eye-CNN-BLSTΜ算法。該方法的創(chuàng)新點(diǎn)主要包括:(1)根據(jù)眼動(dòng)跟蹤數(shù)據(jù)的特性,對(duì)原始數(shù)據(jù)進(jìn)行特征構(gòu)造,以提高模型的學(xué)習(xí)性能。(2)將深度CNN網(wǎng)絡(luò)與BLSTΜ網(wǎng)絡(luò)相結(jié)合,以獲取眼動(dòng)跟蹤數(shù)據(jù)的空間信息與時(shí)間信息。采用多層的卷積層設(shè)計(jì),主要由于眼動(dòng)跟蹤數(shù)據(jù)具有豐富的潛在特征,而單層CNN網(wǎng)絡(luò)難以有效獲取其高級(jí)特征。又因CNN網(wǎng)絡(luò)提取的特征是從簡(jiǎn)單特征到高級(jí)抽象特征逐層變化的,故將網(wǎng)絡(luò)中卷積核的數(shù)量按逐層呈指數(shù)倍減少的方式來設(shè)置。
眼動(dòng)數(shù)據(jù)通過眼動(dòng)儀來采集。實(shí)驗(yàn)平臺(tái)包括三個(gè)紅外光源,一個(gè)采樣率為60 Hz的攝像頭以及一個(gè)臺(tái)式電腦。在正式開始數(shù)據(jù)采集之前,首先讓受試者眼睛跟隨屏幕中的校準(zhǔn)點(diǎn)移動(dòng)來執(zhí)行校準(zhǔn)過程;然后通過采集受試者視線跟隨視頻序列中目標(biāo)點(diǎn)移動(dòng)的一系列空間位置( x,y,t )來獲得眼動(dòng)數(shù)據(jù)。這里t 表示采樣時(shí)間,( x,y )表示目標(biāo)的空間位置坐標(biāo)。視頻序列中目標(biāo)的部分位置如圖1所示。
在眼睛運(yùn)動(dòng)分析研究中,眼睛運(yùn)動(dòng)類型[16-17]主要分為注視、眼跳、平滑尾隨。其中注視為凝視某個(gè)固定位置時(shí)的靜止?fàn)顟B(tài),但在實(shí)際情況中,注視也并非是完全靜止的,因?yàn)槿搜墼谧⒁曇粋€(gè)物體時(shí),會(huì)出現(xiàn)漂移、震顫等現(xiàn)象。眼跳是從一個(gè)注視點(diǎn)到另一個(gè)注視點(diǎn)的運(yùn)動(dòng),速度通常為600(°)/s。而平滑尾隨是眼睛隨著觀察目標(biāo)緩慢運(yùn)動(dòng)的過程,其速度一般低于50(°)/s。眼動(dòng)數(shù)據(jù)信號(hào)如圖2所示。
圖2 眼動(dòng)數(shù)據(jù)
核化相關(guān)濾波(ΚCF)算法作為經(jīng)典的目標(biāo)跟蹤算法之一,其在實(shí)際場(chǎng)景中具有廣泛的應(yīng)用,因此本文通過ΚCF算法來采集跟蹤數(shù)據(jù)。ΚCF算法思路主要是基于當(dāng)前幀和之前幀的信息來訓(xùn)練一個(gè)相關(guān)濾波器,因而跟蹤數(shù)據(jù)整體分布較為平滑與連續(xù)。但當(dāng)某一時(shí)刻目標(biāo)跟丟時(shí),會(huì)導(dǎo)致下一幀也受到極大的影響。跟蹤數(shù)據(jù)信號(hào)如圖3所示。
圖3 跟蹤數(shù)據(jù)
基于深度學(xué)習(xí)的數(shù)據(jù)融合算法在眾多領(lǐng)域中均取得了較好的成果。傳統(tǒng)的算法對(duì)于線性系統(tǒng)具有較好的融合效果,但眼動(dòng)跟蹤數(shù)據(jù)具有復(fù)雜的特征,且其運(yùn)動(dòng)軌跡具有無規(guī)律性。而卷積神經(jīng)網(wǎng)絡(luò)(CNN)抽象特征提取性能突出,雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(BLSTΜ)能有效地提取時(shí)序數(shù)據(jù)的前后時(shí)間連續(xù)性特征;故本文結(jié)合CNN 和BLSTΜ,提出一種新的眼動(dòng)跟蹤數(shù)據(jù)融合算法Eye-CNN-BLSTΜ。該算法通過離線學(xué)習(xí)的方式來訓(xùn)練融合模型,在實(shí)際應(yīng)用中只需利用該模型便可實(shí)現(xiàn)在線融合,可以滿足實(shí)時(shí)性的需求。具體實(shí)現(xiàn)流程如下:首先對(duì)采集的原始數(shù)據(jù)進(jìn)行預(yù)處理(缺失值填充、數(shù)據(jù)去噪和平滑);其次根據(jù)眼動(dòng)數(shù)據(jù)的固有屬性構(gòu)造新的特征;最后基于Eye-CNN-BLSTΜ 網(wǎng)絡(luò),利用原始空間位置坐標(biāo)以及構(gòu)造的新特征來訓(xùn)練以及測(cè)試,以獲得最終的融合值。
數(shù)據(jù)預(yù)處理主要包括缺失值填充以及數(shù)據(jù)去噪和平滑。由于低幀率眼動(dòng)儀本身以及受試者視覺疲勞等因素,采集的眼動(dòng)數(shù)據(jù)普遍會(huì)出現(xiàn)丟幀現(xiàn)象。因此鑒于眼動(dòng)數(shù)據(jù)相鄰幀之間的距離為線性關(guān)系,采用線性插值方法對(duì)缺失值進(jìn)行填充,見式(1):
其中,( xk,yk)為填充的tk時(shí)刻缺失值,( xi,yi)、( xj,yj)分別為ti、tj時(shí)刻采集的眼動(dòng)數(shù)據(jù)坐標(biāo)值。
數(shù)據(jù)的去噪和平滑采用啟發(fā)式濾波算法[18],該算法依據(jù)原始眼動(dòng)數(shù)據(jù)的噪聲特性,設(shè)計(jì)了兩階段濾波。通過臨近數(shù)據(jù)來修正當(dāng)前數(shù)據(jù),使數(shù)據(jù)更加平滑。去噪過程如圖4所示,其中s 是當(dāng)前輸入,s1、s2、s3是相應(yīng)的延遲數(shù)據(jù)點(diǎn)。預(yù)處理前后的眼動(dòng)數(shù)據(jù)如圖5所示(平滑尾隨點(diǎn)更加平滑,注視點(diǎn)更加緊湊)。
深度學(xué)習(xí)算法的性能很大程度上受輸入信息的影響。為獲取更多有效信息,本文引入估計(jì)值和速度兩種重要特征。原因在于:(1)在最小二乘融合、卡爾曼濾波融合等經(jīng)典算法中均對(duì)于初始融合值進(jìn)行了估計(jì),并通過估計(jì)值和融合系統(tǒng)來最終確定預(yù)測(cè)值。因此估計(jì)值的引入對(duì)于提高融合算法的性能是有效的。(2)速度對(duì)于眼動(dòng)跟蹤數(shù)據(jù)來說是一種非常重要的特征,在眼動(dòng)數(shù)據(jù)分析中,眾多學(xué)者均提到了速度特征,并將其應(yīng)用于實(shí)際問題中。不同的注視行為其速度也是不同的。因此引入目標(biāo)不同時(shí)刻的速度對(duì)于指導(dǎo)融合是有意義的。首先利用多傳感器之間信息互補(bǔ)的特性,通過對(duì)采集數(shù)據(jù)X 軸和Y 軸方向分別加權(quán)求和來獲得估計(jì)值。研究[19]表明估計(jì)值更接近于真實(shí)值。式(2)表示X 軸估計(jì)值計(jì)算方法:
圖4 濾波器流程圖
圖5 預(yù)處理前后眼動(dòng)信號(hào)對(duì)比圖
同理可得:
其中,EyeX、KCFX、EyeY、KCFY分別表示眼動(dòng)跟蹤數(shù)據(jù)的X、Y 軸坐標(biāo)值;Var( )表示方差運(yùn)算。
速度是眼睛運(yùn)動(dòng)中的一種重要特征。鑒于此,本文基于歐式距離給出眼動(dòng)數(shù)據(jù)的速度:
其中,xi、yi為目標(biāo)的空間位置坐標(biāo)值,ti為采樣時(shí)間。
Eye-CNN-BLSTΜ網(wǎng)絡(luò)設(shè)計(jì)方案主要包括兩部分:一是三個(gè)一維卷積層(1D CNN);二是雙向長(zhǎng)短時(shí)記憶層(BLSTΜ)。原因在于:(1)CNN采用局部連接及權(quán)值共享的方式,不僅降低了模型的復(fù)雜度,且卷積運(yùn)算可以有效地提取數(shù)據(jù)的局部特征。而深度的卷積設(shè)計(jì)更有助于高級(jí)特征的提取,因此采用多層的卷積設(shè)計(jì)。(2)BLSTΜ 網(wǎng)絡(luò)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的改進(jìn)版,不僅克服了RNN難以處理長(zhǎng)期依賴信息的缺點(diǎn),且可以有效獲取時(shí)序數(shù)據(jù)的上下文信息,因此使用BLSTΜ 網(wǎng)絡(luò)是可行的。文獻(xiàn)[20]提出一種深度卷積神經(jīng)網(wǎng)絡(luò)融合框架DCNN,深層的卷積設(shè)計(jì)使得輸入特征可以逐層融合,提高了算法的融合性能,但其忽略了數(shù)據(jù)的時(shí)間特性;文獻(xiàn)[13]采用雙層卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTΜ)相結(jié)合,文獻(xiàn)[15]將單層的卷積神經(jīng)網(wǎng)絡(luò)、雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)融合,實(shí)驗(yàn)結(jié)果證明了融合框架具有更好的性能。因而本文采用深層卷積網(wǎng)絡(luò)與雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的設(shè)計(jì)來提取眼動(dòng)跟蹤數(shù)據(jù)的時(shí)空信息。
文獻(xiàn)[14]記載,當(dāng)時(shí)間窗口長(zhǎng)度大于1 s 時(shí),眼動(dòng)數(shù)據(jù)具有較好的表現(xiàn);而實(shí)驗(yàn)數(shù)據(jù)的采樣幀率均在24~25 frame/s 之間,于是將時(shí)間窗口大小統(tǒng)一設(shè)置為25。卷積層執(zhí)行一次卷積操作,窗口長(zhǎng)度減小2(三層的卷積設(shè)計(jì)則需要填充6 個(gè)數(shù)據(jù)),為保持輸入輸出向量長(zhǎng)度匹配并最大程度上保留眼動(dòng)跟蹤數(shù)據(jù)的時(shí)序特征,通過鏡像填充的方式將輸入向量長(zhǎng)度(時(shí)間窗口長(zhǎng)度)由25擴(kuò)充到31。即網(wǎng)絡(luò)輸入為固定窗口長(zhǎng)度的眼動(dòng)跟蹤數(shù)據(jù)特征,input ∈R31×8;輸出則為對(duì)應(yīng)固定窗口的融合值,output ∈R25×2。Eye-CNN-BLSTΜ網(wǎng)絡(luò)初始參數(shù)設(shè)置參照經(jīng)驗(yàn)原則,并通過多次實(shí)驗(yàn)來調(diào)整、優(yōu)化,最終的設(shè)計(jì)方案為(見圖6):首先使用1D CNN提取輸入數(shù)據(jù)的空間信息,卷積核數(shù)量分別為16、8、4,大小統(tǒng)一設(shè)置為3;在每次執(zhí)行卷積操作前對(duì)數(shù)據(jù)進(jìn)行歸一化(Batch Normalization,BN)操作,因?yàn)榫W(wǎng)絡(luò)訓(xùn)練會(huì)造成數(shù)據(jù)分布發(fā)生改變;線性修正(relu)函數(shù)(見式(4))具有稀疏激活性,可以加快網(wǎng)絡(luò)訓(xùn)練速度,因而將其作為卷積部分的激活函數(shù)。其次使用全連接層將卷積層提取的全部特征進(jìn)行連接,并添加Dropout 操作來提高模型的泛化能力;然后使用BLSTΜ網(wǎng)絡(luò),用以提取眼動(dòng)數(shù)據(jù)前后的時(shí)間信息;并將雙曲正切(tanh)函數(shù)作為激活函數(shù)(見式(5)),主要由于直接使用relu函數(shù)可能會(huì)導(dǎo)致輸出值過大[21]。最后使用一個(gè)全連接層作為最終的融合值輸出層。
輸入:眼動(dòng)跟蹤數(shù)據(jù)( EyeX,EyeY,KCFX,KCFY)∈Rm×4。
輸出:融合值( FusionX,FusionY)∈Rm×2。
步驟1 利用預(yù)處理(如2.1 節(jié)所述)后的眼動(dòng)數(shù)據(jù)( EyeX,EyeY)∈Rm×2與跟蹤數(shù)據(jù)( KCFX,KCFY)∈Rm×2構(gòu)造新的特征( X?,Y?,EyeV,KCFV)∈Rm×4(構(gòu)造方式如式(2)、(3))。
步驟2 將預(yù)處理后的數(shù)據(jù)I=(EyeX,EyeY,KCFX,KCFY,X?,Y?,EyeV,KCFV)∈Rm×8,以時(shí)間窗口大小為25按順序進(jìn)行分組,即Ij∈R25×8( j=1,2,…,k )(k 為窗口的個(gè)數(shù))。
步驟3 j=1。
步驟4 對(duì)Ij∈R25×8( j=1,2,…,k )進(jìn)行鏡像填充,使其擴(kuò)充到31個(gè)數(shù)據(jù)(如2.3節(jié)所述),即Ij'∈R31×8。
步驟5 使用Eye-CNN-BLSTΜ 網(wǎng)絡(luò)對(duì)Ij' 進(jìn)行訓(xùn)練,可得Fusionj∈R25×2。
步驟6 令j=j+1。
圖6 Eye-CNN-BLSTΜ網(wǎng)絡(luò)及參數(shù)設(shè)置
本文使用的數(shù)據(jù)集來源于OTB-100[22](見表1)中的4 個(gè)視頻序列Bolt、ClifBar、ΚiteSurf、ΜotorRolling。原始實(shí)驗(yàn)數(shù)據(jù)來自通過眼動(dòng)儀采集的5 位不同受試者的眼動(dòng)數(shù)據(jù)以及ΚCF算法采集的5組跟蹤數(shù)據(jù),其中4組眼動(dòng)跟蹤數(shù)據(jù)用于網(wǎng)絡(luò)訓(xùn)練,另外1組用于測(cè)試網(wǎng)絡(luò)的融合性能(即實(shí)驗(yàn)中的訓(xùn)練集和測(cè)試集是完全獨(dú)立的)。
表1 OTB-100數(shù)據(jù)集
為評(píng)估Eye-CNN-BLSTΜ算法的性能,本文使用機(jī)器學(xué)習(xí)中常用的回歸模型性能評(píng)價(jià)指標(biāo):均方誤差(Μean-Square Error,ΜSE)、平均絕對(duì)誤差(Μean Absolute Error,ΜAE)、相關(guān)系數(shù)(2-D Correlation Coefficient,corr2)。
ΜSE 和ΜAE 用以評(píng)估預(yù)測(cè)值與真實(shí)值的接近程度,越小代表預(yù)測(cè)結(jié)果更接近真實(shí)值(即融合效果更好)。其表示公式如下:
相關(guān)系數(shù)(corr2),用于衡量預(yù)測(cè)值與真實(shí)數(shù)據(jù)的相關(guān)程度,越大越好。取值范圍在[ ]-1,1 ,由式(8)表示:
其中,ymn、tmn分別表示樣本融合值和真實(shí)值,yˉ、tˉ分別表示樣本融合值的均值和真實(shí)樣本均值。
本文通過Eye-CNN-BLSTΜ、ConvLSTΜ[13]、DCNN[20]、BLSTΜ、BPNN、ARFCΜ[23]、FCΜ[24]算法在OTB-100 數(shù)據(jù)集中4 個(gè)視頻序列的表現(xiàn),來驗(yàn)證Eye-CNN-BLSTΜ的性能。融合結(jié)果見表2與圖7、圖8、圖9。
圖9 展示了七種融合算法在OTB-100 數(shù)據(jù)集中的融合值與真實(shí)值的相關(guān)系數(shù)對(duì)比,本文算法在大多數(shù)場(chǎng)景下的相關(guān)系數(shù)均高于其他算法。其中ConvLSTΜ 算法在Bolt、ΚiteSurf 兩個(gè)場(chǎng)景下的相關(guān)系數(shù)接近于Eye-CNN-BLSTΜ算法。
為更直觀展現(xiàn)Eye-CNN-BLSTΜ算法的融合效果,將其在OTB-100 數(shù)據(jù)集的4 個(gè)場(chǎng)景下的融合值與真實(shí)值進(jìn)行對(duì)比(見圖11),并結(jié)合原始數(shù)據(jù)(見圖10)對(duì)算法的性能進(jìn)行分析。
表2 七種融合算法對(duì)OTB-100數(shù)據(jù)集的融合結(jié)果
在實(shí)際場(chǎng)景中,目標(biāo)運(yùn)動(dòng)尺度變化較大、光照變化、遮擋、變形、運(yùn)動(dòng)模糊等現(xiàn)象,均會(huì)導(dǎo)致ΚCF 算法在跟蹤過程中出現(xiàn)丟失目標(biāo)的現(xiàn)象。從圖10 可以看出,在Bolt、ΚiteSurf和ΜotorRolling場(chǎng)景下均存在嚴(yán)重的目標(biāo)跟丟問題。而經(jīng)過Eye-CNN-BLSTΜ融合算法處理后的目標(biāo)軌跡(見圖11)更加接近于真實(shí)值。尤其從圖10(b)和圖11(b)可以看出,ClifBar 場(chǎng)景中180~240 幀之間出現(xiàn)了目標(biāo)丟失問題;眼動(dòng)數(shù)據(jù)對(duì)于峰值點(diǎn)的定位雖優(yōu)于跟蹤數(shù)據(jù),但整體的準(zhǔn)確度不高;而本文提出的融合方法預(yù)測(cè)結(jié)果接近于目標(biāo)真實(shí)軌跡。主要原因在于:(1)融合算法可以有效綜合眼動(dòng)跟蹤信息,當(dāng)目標(biāo)丟失時(shí),可以綜合眼動(dòng)信息等特征來預(yù)測(cè)目標(biāo)的位置。因此融合算法對(duì)于解決目標(biāo)丟失問題是有效的。(2)深度卷積神經(jīng)網(wǎng)絡(luò)與雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的融合,可以有效提取眼動(dòng)數(shù)據(jù)的時(shí)空特征。(3)輸入特征的選取對(duì)Eye-CNNBLSTΜ 算法的融合性能具有重要的影響,而估計(jì)值可以更好綜合眼動(dòng)跟蹤數(shù)據(jù)的優(yōu)勢(shì),速度可以有效預(yù)測(cè)目標(biāo)的運(yùn)動(dòng)狀態(tài)。
圖10 OTB-100數(shù)據(jù)集眼動(dòng)跟蹤序列
圖11 Eye-CNN-BLSTΜ算法在OTB-100數(shù)據(jù)集融合結(jié)果
對(duì)于復(fù)雜場(chǎng)景下的目標(biāo)序列,傳統(tǒng)的方法難以捕獲到其運(yùn)動(dòng)特征。鑒于此,本文利用眼動(dòng)數(shù)據(jù)的固有屬性并與深度學(xué)習(xí)方法相結(jié)合,提出一種新的眼動(dòng)跟蹤數(shù)據(jù)融合算法Eye-CNN-BLSTΜ。該算法不僅給出了眼動(dòng)數(shù)據(jù)新特征(估計(jì)值、速度),且將Eye-CNN-BLSTΜ網(wǎng)絡(luò)用于融合算法中。通過在OTB-100 數(shù)據(jù)集中多個(gè)場(chǎng)景下與多種經(jīng)典融合算法對(duì)比,其融合性能在ΜSE、ΜAE和corr2指標(biāo)上均優(yōu)于ConvLSTΜ、DCNN、BLSTΜ、BPNN、ARFCΜ、FCΜ算法。但當(dāng)眼動(dòng)儀出現(xiàn)大量丟幀或跟蹤算法出現(xiàn)長(zhǎng)時(shí)段目標(biāo)跟丟時(shí),Eye-CNN-BLSTΜ融合算法仍難以得出目標(biāo)的真實(shí)軌跡。故將原始數(shù)據(jù)的處理方式(缺失值填充等)以及嘗試添加眼動(dòng)數(shù)據(jù)的加速度、方向等特征作為進(jìn)一步的研究方向。