龔思宏
摘 要 人眼掃視路徑預測旨在利用計算模型模擬人眼在自由無約束的觀測條件下注意力移動的方式。在以前的研究工作中,人們利用了低層次特征、手工設計的高層次特征、掃視幅度和記憶因素,但這些并不能完美地詮釋人眼視覺系統(tǒng)的機制。在這篇論文中,我們提出了一個在預測人眼掃視路徑時考慮更多影響因素的綜合性方法,該方法包括四個特征:低層次特征,掃視幅度,通過深度卷積神經(jīng)網(wǎng)絡學習得到的語義特征,以及包括短時記憶和長時記憶兩個方面的記憶因素。通過計算一張圖像中所有候選區(qū)域的概率,下一個關注點的位置就可以由擁有最大概率值的區(qū)域所選定。并進行了實驗驗證我們提出的方法的優(yōu)越性。值得一提的是,在預測掃視路徑時,注視時長作為一個關鍵因素是首次被用來對記憶建模。
【關鍵詞】掃視路徑預測 高層次特征 記憶因素 注視時長
1 背景
視覺注意是我們視覺系統(tǒng)中的一個基本處理過程,它能幫助我們將有限的處理資源分配到視覺場景中最重要的部分。目前預測人眼掃視路徑的研究存在許多的缺陷。首先,各種各樣低層次特征的影響都有所討論,但高層次特征卻沒有提及。其次,記憶(包括短時記憶和長時記憶)因素也被忽略。[2]中張豹提到工作記憶會在視覺搜索過程中引導注意偏向到與之具有相同特征的項目。[3]中李姣婧由實驗得到由短時記憶輸入到工作記憶的內(nèi)容會自動捕獲注意,長時工作記憶內(nèi)容對注意的引導更加靈活。如何建模并將其融入?yún)s并未解決。
另外,注視時長是人們在觀看一幅圖像時專注于一個關注點所持續(xù)的時長,它和人們的記憶以及行為都有著密切的聯(lián)系。[4]中鄧丹提到注視時間對視覺選擇性注意有影響。而[5]中楊樂通過實驗得出工作記憶和注視時間交互作用顯著。因此通過注視時間對記憶效應建模是個較好的選擇。所以,我們提出一個結(jié)合低層次特征、語義特征、掃視幅度、長時記憶和短時記憶的綜合性辦法。
2 方法
給定第n-1個關注點,我們的目標是預測第nth個關注點最可能的位置。首先,我們用圖像的超像素取代像素作為最基本的處理單元,并用[6]的方法對超像素進行分割。然后我們計算出低層次特征、高層次特征、掃視幅度和記憶因素這四個特征對每個超像素候選區(qū)域的影響程度(用概率表示),最后,把所有的概率相乘,將得出最大結(jié)果的候選區(qū)域作為第nth個關注點。
給定一個圖像I,首先我們將它分割成M個超像素,然后選擇出第nth個關注點的目標函數(shù)就可以用以下公式表示:
R(n)=arg maxR({pln (R)×phn (R)×psn (R)×pmn (R,d1,…,dn) }RI), (1)
其中,pln (R),phn (R),psn (R)和pmn (R,d1,…,dn)分別是低層次特征、高層次特征、掃視幅度和記憶因素的概率,而dn是第nth個關注點的注視時長。R可以表示任一個超像素,記憶項pmn包括了返回抑制的影響。
得到每一種特征的概率很關鍵。我們將YUV顏色值和Gabor特征聯(lián)系起來作為一個特征向量,然后計算pln (R)。我們通過Wang等人[7]的方法獲得psn (R)。在本文中,我們專注于高層次特征的phn (R)和記憶因素的pmn (R,d1,…,dn)的計算。而注視時長dn是估計的,并用來為記憶因素建模。
2.1 高層次特征的概率phn(R)
我們用一個多層卷積神經(jīng)網(wǎng)絡(CNN)提取每個超像素中的高層次特征。每個超像素先被打包進一個范圍框,然后送去CNN進行高層次特征提取,就像[8]中做的一樣。從圖1中可以看到這個網(wǎng)絡結(jié)構(gòu)的細節(jié)。
得到學習好的特征和兩個全連接層,就得到了一個線性系統(tǒng),我們可以用它來表示高層次特征吸引人眼注意的概率,這種概率可近似地表示為:
其中(.)是R的提取的特征,l是特征的維度。M是超像素的總數(shù),線性系統(tǒng)的參數(shù)wi和bi通過特征學習同時獲得。
2.2 注視時長dn的估計
為了獲得一個可以估計任何一個數(shù)據(jù)集的注視時長的模型,我們用OSIE數(shù)據(jù)集建立了一個回歸模型,這個數(shù)據(jù)集包含了20種影響注視時長的特征,同時還提供了真實數(shù)據(jù)。
我們用支持向量回歸(SVR)來描述注視時長和這20種特征之間的關系。在SVR中,首先我們把所有的特征聯(lián)系起來作為一個向量x∈R20,然后用徑向基核函數(shù)(RBF)把這些特征映射到一個m維的特征空間。那么一個線性回歸模型f(x,w)表示如下:
其中g(shù)i(x),(i=1,…,m)表示RBF的一系列函數(shù),wi是在第ith個維度的特征相應的權(quán)重。y表示一個注視時長的真值,而d=f(x,w)表示注視時長的估計值。在訓練階段,SVR嘗試通過最小化||w||2來降低模型的復雜性。因此SVR用公式表示為以下函數(shù)的最小值:
其中ξi>=0和ξi*>=0是兩個松弛變量,用來測量訓練樣本在∈的不敏感空間以外的偏差。在訓練以后,只要提取了相應的特征x,學習好的回歸模型就可以用來估計任一個關注點的注視時長d。接下來,我們用注視時長為記憶建模。
2.3 記憶因素的概率pmn (R,d1,…,dn)
短時記憶和返回抑制密不可分。短時記憶阻止剛剛出現(xiàn)過的區(qū)域在短時間內(nèi)或者說在下一個關注點中再一次被觀看。所以,兩個相繼的關注點之間巨大的內(nèi)容差別使得后一個關注點更容易被記住。而長時間關注的區(qū)域會在我們的大腦中留下深刻的印象,所以短時記憶可建模為:
其中R(n-1)和dn-1是第(n-1)th個關注點的超像素和注視時長,N是要進行預測的掃視路徑的預定義長度。T是人類專注于一個點的最大時間值。Gσ(.)是標準化數(shù)據(jù)至0到1區(qū)間的高斯函數(shù)。
實驗中,為了使分母不為0,我們設定T=3sec,σ=0.004,s1=0,N=5,∈=0.5。(本文中僅僅只有一個之前的關注點在為下一個關注點進行短時記憶影響的建模時被考慮進來)
在選擇下一個關注點時,所有之前出現(xiàn)過的關注點所造成的影響稱為長時記憶。所有之前出現(xiàn)過的關注點在選擇下一個關注點時有著不同層次的影響,而這些影響可以以短時記憶所積累的影響計算出來。此外,每段短時記憶在長時記憶中所扮演的角色,通過標準化的注視時長
3 實驗結(jié)果
3.1 數(shù)據(jù)集和評估指標
我們用NUSEF和JUDD數(shù)據(jù)集評估我們的方法。NUSEF數(shù)據(jù)集由758幅不同大小的人像圖組成,每一幅都記錄了15名受試者在自由的觀測環(huán)境下觀察的真實數(shù)據(jù)。為了保證公平性,我們把數(shù)據(jù)集分成了人像和人臉兩個子集。JUDD數(shù)據(jù)集由1003幅圖像組成,其中包括風景圖和一些人像圖。
我們用Smith-Waterman算法評估我們預測路徑的準確性。預測結(jié)果和真實路徑的相似性得分高意味著預測路徑和真實路徑很接近。
3.2 和其他方法的比較
我們用Smith-Waterman對比我們的方法和前面提到的[1]、[7]、[9]。從圖2(a)中可以看到,在所有數(shù)據(jù)集中,我們的方法都表現(xiàn)得最好,并在JUDD上取得了非常出彩的結(jié)果,而JUDD比NUSEF更復雜。在NUSEF上,我們的方法和Liu[1]的方法得到的結(jié)果相當,是因為他們的方法是數(shù)據(jù)導向的,他們的參數(shù)是特地為這個數(shù)據(jù)集所訓練的。
3.3 記憶因素的影響
為了驗證預測掃視路徑時記憶因素的影響,我們在考慮記憶效應(簡寫為N+M-D)和不考慮記憶效應(簡寫為N-M-D)兩種情況下在這兩個數(shù)據(jù)集上進行了實驗。對比的結(jié)果如圖2(b)所示。由圖2可知,考慮了記憶因素的方法得到的結(jié)果更好。在NUSEF和JUDD上加入記憶效應的因素取得的結(jié)果分別得到8.6%和11.4%的提升。
3.4 注視時長的影響
我們在考慮和不考慮注視時長影響的兩種情況下進行實驗并對比結(jié)果,如圖2(b)所示。從圖中可以看出,在數(shù)據(jù)集MUSEF和JUDD中,我們的方法在同時考慮記憶效應和注視時長效應(簡寫為N+M+D)時所取得的結(jié)果最好,并且通過只考慮記憶效應(N+M-D)和同時考慮記憶效應和注視時長效應(N+M+D)的兩種方法所取得的結(jié)果的對比,進一步的驗證了注視時長在預測掃視路徑中是有幫助的。
4 結(jié)論
這篇論文提出了一個預測人眼掃視路徑的新方法。和其他方法相比,我們的方法結(jié)合了通過深度卷積神經(jīng)網(wǎng)絡學習到的語義特征和包括短時記憶、長時記憶的記憶因素。實驗證明我們的方法比現(xiàn)在最先進的方法都要表現(xiàn)的更好。更重要的是,我們建立了一個回歸模型并且探索了不同的特征和注視時長之間的關系。我們發(fā)現(xiàn)將注視時長融入到記憶建模中有利于預測人眼的掃視路徑。
參考文獻
[1]Liu,H.,Xu,D.,Huang,Q.,Li,W.,Xu,M.,Lin,S.:Semantically-basedhuman scanpathestimation with hmms,2013.
[2]張豹.工作記憶表征對早期視覺注意選擇的引導[D].華南師范大學,2011.
[3]李姣婧.長時和短時兩類工作記憶內(nèi)容對選擇性注意的影響[D].西南大學,2013.
[4]鄧丹.基于視覺選擇性注意的界面交互適老化設計研究[D].南京理工大學,2017.
[5]楊樂.工作記憶容量對圖形識別影響的眼動研究[D].青海師范大學,2015.
[6]宋熙煜,周利莉,李中國,陳健,曾磊,閆鑌.圖像分割中的超像素方法研究綜述[J].中國圖象圖形學報,2015(05).
[7]Wang,W.,Chen,C.,Wang,Y.,Jiang,T.,F(xiàn)ang,F(xiàn).,Yao,Y.:Simulatinghuman saccadic scanpaths on natural images.Computer Vision and Pattern Recognition,2011.
[8]羅靖遙,黃征.基于CNN分類器和卷積的目標檢測[J].信息技術(shù),2017(09).
[9]Itti,L.,Koch,C.:A model of saliency-based visual attention for rapid scene analysis.IEEE Transactions on Pattern Analysis Machine Intelligence,1998.
作者單位
同濟大學 上海市 201804