基于眼動實驗的顯著目標檢測圖像庫構建

2015-09-11 14:22:44楊開富堯德中李永杰

中國生物醫(yī)學工程學報 2015年4期

關鍵詞：注視點眼動顯著性

高鑫楊開富堯德中李永杰

(電子科技大學生命科學與技術學院，成都 610054)

基于眼動實驗的顯著目標檢測圖像庫構建

高鑫楊開富堯德中#李永杰*

(電子科技大學生命科學與技術學院，成都 610054)

構建一個合理的顯著目標檢測標準圖像庫，探討圖像分割對于顯著目標檢測的重要意義。首先以Berkeley的BSDS500圖像庫為基礎，通過使用眼動儀記錄10位被試觀看圖片時的眼動軌跡，并結合手工勾畫的標準分割圖像，構建了一個顯著目標檢測圖像庫(含500幅自然圖像)。其次，基于gPb-UCM圖像分割算法結果，同時引入中央偏置和圖像邊界先驗作為后處理，建立了一個簡單的顯著目標檢測方法。實驗結果顯示，與以往的二值顯著目標圖像庫不同，本研究為多目標圖像提供了每個目標的相對顯著水平，可作為更為符合人類感知經(jīng)驗的顯著目標檢測參考圖像。另外，研究發(fā)現(xiàn)，基于已有的圖像分割算法，并結合簡單的后處理就能有效地實現(xiàn)復雜圖像中的顯著性目標檢測(和標準圖像的相關系數(shù)為0.53)，其效果接近現(xiàn)有最優(yōu)算法的水平(相關系數(shù)為0.54)，證明了圖像分割在顯著目標檢測中的重要作用。

眼動；顯著目標；圖像分割；圖像庫

引言

視覺注意是視覺系統(tǒng)感知和處理外界信息的一個重要手段。通過選擇性注意機制，視覺系統(tǒng)能夠快速地從復雜的自然場景中提取重要信息，從而提高信息處理效率。目前，大量的研究致力于建立計算模型模擬視覺系統(tǒng)的選擇性注意過程，并建立類似于視覺系統(tǒng)的目標搜索模型。在圖像處理領域，選擇性注意模型對于高級的計算機視覺任務(例如目標識別[1]、圖像壓縮[2]等)具有重要意義。同時，顯著性計算模型也被廣泛用于醫(yī)學圖像處理[3]。

目前關于視覺顯著性的模型研究主要包括兩個方面。第一，預測人眼注視點分布。該類研究大多基于底層特征檢測和特征整合理論[4-6]，建立自底向上(bottom-up)的計算模型。通過提取低分辨率的顯著圖來預測圖像的顯著性區(qū)域，例如著名的ITTI模型[6]。第二，顯著性目標檢測。該類任務要求從圖像中精確地分割出顯著性目標。對于這些模型性能的評價，通常是將模型預測的結果和標準圖像庫做對比。盡管目前已經(jīng)有許多可用于測試顯著性計算和顯著目標檢測算法性能的圖像庫，然而，顯著性圖像庫只提供人眼注視點分布的數(shù)據(jù)，而沒有提供目標信息(如形狀)；相反，顯著性目標檢測數(shù)據(jù)庫一般是通過手工勾畫得到二值的目標模板作為參考標準，不能表達多個目標或多個區(qū)域之間的相對顯著性差別[7]。因此，構建一個多目標、多層次的標準圖像庫將對評價復雜場景的顯著性檢測算法有重要意義。

此外，目前大多顯著性目標檢測的方法都是基于局部區(qū)域對比。常規(guī)的計算方法是首先對圖像進行過度分割，然后計算各個小區(qū)域之間的特征對比[8]。這些方法強調顯著性計算過程，而弱化了圖像分割在顯著目標檢測中的重要性[9]。實際上，圖像分割作為一個基礎的研究領域，已經(jīng)提出大量性能優(yōu)越的分割算法，但這些方法卻很少被用到顯著性檢測中。因此，探討圖像分割在顯著目標檢測中的作用將為這一領域提供新的思路。

本研究主要包含兩方面的內容：一方面以Berkeley的BSDS500標準分割圖像庫[10]為基礎，同時使用眼動儀記錄人眼自由觀看自然場景時的注視點分布，構建一個同時包含各個目標(或區(qū)域)的精確信息以及相對顯著程度的標準顯著分割圖像庫，并提供了相關的評價方法。另一方面為證明圖像分割在顯著性檢測中的作用，設計了一個算法，與大多數(shù)復雜的顯著性檢測算法不同，使用效果較好的圖像分割算法并結合簡單的顯著性計算過程來實現(xiàn)顯著目標檢測的任務。

1 材料與方法

1.1 構建顯著目標檢測圖像庫

1.1.1 眼動實驗材料和裝置

采用Berkeley的BSDS500圖像庫中的500幅自然圖像作為實驗材料[10]。對于每幅圖像，BSDS500圖像庫提供了多人手工勾畫的圖像分割結果。在自行設計的眼動實驗中，實驗被試者為10名在校大學生，其中男6名，女4名，年齡為22～26歲。被試均簽署知情同意書。實驗采用Eyelink 2000型眼動儀(SR Research Ltd.，加拿大)記錄被試的左眼眼動軌跡。采樣頻率為1 000 Hz。顯示器的分辨率為1 024像素×768像素。實驗過程中，被試眼睛正對屏幕中心，離屏幕的距離為71 cm。為減少頭動引起的記錄誤差，被試的下顎和前額放在特制的支架上。實驗的刺激程序由Matlab的心理學工具箱編寫(Psychotoolbox)[11-12]，注視位置由眼動儀自帶軟件導出，并用Matlab做離線分析。

1.1.2 實驗流程

實驗一共呈現(xiàn)500幅圖片，對于每個被試，圖片呈現(xiàn)的順序是隨機的。每幅圖片呈現(xiàn)時間為5 s，在這期間，實驗者要求被試雙眼自由觀看圖片。在每張圖片呈現(xiàn)之前會出現(xiàn)一個“十”字目標，并要求被試注視這個目標。每呈現(xiàn)30幅圖片，被試可以有一定的休息時間，按任意鍵可以繼續(xù)進行隨后的實驗。在實驗開始和每次休息過后，會啟動標準九點矯正程序，以保證精確記錄。為了確保被試認真觀看每張圖片，在500幅圖片呈現(xiàn)之后，實驗者安排了一個對照實驗。具體內容為：實驗者從之前的500幅圖片中隨機選取150張圖片，并另外加入150張其它的圖片。被試需要識別每張圖片是否在之前呈現(xiàn)過，并做相應的按鍵反應。在被試按鍵后，當前的圖片會立即消失并呈現(xiàn)下一張圖片。正確率低于80%的被試數(shù)據(jù)將會被剔除。

1.1.3 眼動數(shù)據(jù)分析

通過實驗，獲得了10名被試自由觀看狀態(tài)下的注視點分布。所有被試在對照實驗中的正確率都高于80%，這說明被試在試驗中認真地觀看了圖片。為防止在圖片呈現(xiàn)前的中心注視行為對后續(xù)圖片注視點分析的影響，每張圖片的第一個注視點被剔除。利用BSDS500圖像庫提供的手工勾畫分割結果，統(tǒng)計每個分割區(qū)域中的注視點密度，注視點密度由所有被試(n=10)觀看某幅圖片的注視點統(tǒng)計得出。并以此作為該區(qū)域顯著性的指標。注視點密度較高的區(qū)域則認為具有較高的顯著性。在BSDS500圖像庫中，每幅圖像都有多人手工勾畫的分割圖像，本研究基于每個分割圖像得到的顯著圖的平均結果作為最終的分割顯著圖。這樣，可獲得500幅自然圖像的顯著分割圖并以此定為標準顯著圖(ground truth)。該圖像庫可用于評價顯著目標檢測算法的性能。

1.2 從圖像分割到顯著目標檢測

1.2.1 基于圖像分割的顯著目標檢測

為探討圖像分割在顯著目標檢測中的作用，設計了一個簡單的實驗。本實驗主要目的在于探討基于較好的圖像分割結果，加上簡單計算是否可以得到較好的顯著目標檢測結果。檢測效果用之前構建的顯著目標檢測圖像庫作為評價標準。首先利用效果較好的圖像分割算法對圖像進行區(qū)域分割，然后根據(jù)簡單的中央偏置先驗和圖像邊界先驗信息計算每個區(qū)域的顯著值，以此獲得顯著目標檢測結果。中央偏置先驗和圖像邊界先驗是兩個常用的顯著性算法后處理方法。中央偏置先驗認為圖像的顯著目標傾向于位于圖片中央位置，這是由于在圖片拍攝過程中，攝影師偏好于將重要目標放置于圖像中央[13]；圖像邊界先驗基于類似的思想，認為位于圖像邊界的像素可以被視為背景像素(非顯著目標)[14-15]。因此，簡化了顯著性計算過程，僅使用中央偏置先驗和圖像邊界先驗兩個后處理方法實現(xiàn)從分割圖像中提取顯著目標。

首先利用圖像分割算法(gPb-UCM[10])將圖像分為不同的區(qū)域。針對第i個區(qū)域，區(qū)域中心坐標為(xi,，yi)，記Ri=(xi/H,yi/W)為區(qū)域i歸一化后的中心點位置(其中H和W分別為圖像的高度和寬度)，M=(0.5,0.5)為歸一化后的圖像中心點位置；N=2(H+W)為圖像邊界像素數(shù)量，Ni為第i個區(qū)域中位于圖像邊界的像素數(shù)量。那么，第i個區(qū)域的顯著值可表示為

(1)

1.2.2 顯著目標檢測的定量評價

與其它的圖像庫不同，本研究所構建的顯著目標圖像庫里的標準圖像不再是二值的目標模板，而每個點都是范圍在[0,1]的實數(shù)值。所以目前常用的評價方式(如AUC和PR曲線[16])在這里無法使用。為了能利用該圖像庫對算法結果進行定量評價，我們使用相關系數(shù)作為算法性能的定量評價指標[17]。相關系數(shù)的計算方式為

(2)

式中，Sm(x,y)和Sh(x,y)分別為模型計算得到的顯著圖和實驗得到的標準顯著圖，μm和μh分別為Sm(x,y)和Sh(x,y)的均值，σm和σh分別為Sm(x,y)和Sh(x,y)的標準差。ρ為兩個圖像的相關系數(shù)，其值范圍為-1～1。ρ=0意味著兩個圖像之間不相關，即算法效果差；ρ越趨近于1，說明算法得到的結果圖與標準顯著圖越接近。

2 實驗結果

2.1 顯著目標圖像庫構建結果

圖1 展示了其中一幅圖像標準顯著圖的計算過程，即基于圖像庫提供的單個人手工分割圖和本研究眼動數(shù)據(jù)得到顯著圖示例。實驗中，將較小的分割區(qū)域融合到相鄰區(qū)域中，以避免產生過多碎片區(qū)域。

圖1 利用標準分割和注視點分布獲取標準顯著圖。(a)原始圖像；(b)手工勾畫的分割圖像[10]；(c)本文實驗獲取的注視點分布；(d)本研究所得到的標準顯著圖。其中，亮度越高，代表該區(qū)域越顯著Fig.1 Obtaining ground truth of saliency map based on the ground truth of segmentation and the human fixations. (a) Input image; (b) The ground truth of image segmentation; (c) Human fixations; (d) Our ground truth of saliency map, the higher brightness represents the more salient regions

圖2 所構建的圖像庫和其它圖像庫的對比(從上到下依次為：原始圖像，基于注視點的圖像庫參考標準，顯著目標圖像庫參考標準[9]，所構建的顯著目標檢測圖像庫參考標準)Fig.2 The comparison between the present dataset and other datasets (From top to bottom: the input image, the ground truth of human fixation, the ground truth of salient object, and the ground truth proposed in this paper)

正如前文所述，目前已有的顯著性圖像庫的參考標準(ground truth)主要有兩類：實驗記錄的眼動注視點分布和手工標注的顯著目標。如圖2所示，眼動注視點分布能夠反映局部位置的顯著性，但無法提供目標區(qū)域的形狀信息(見圖2中第2行)，因此無法用于評判顯著目標檢測算法的性能。另一方面，手工標注的顯著目標往往將圖像像素簡單地劃分為目標類和背景類，丟失了多個目標或區(qū)域之間的相對顯著性差異(見圖2中第3行)，無法滿足多目標場景的顯著性計算。

本研究同時利用手工勾畫的圖像分割和實驗記錄的眼動數(shù)據(jù)，構建了包含500幅圖像的顯著目標檢測圖像庫。從圖2中第4行可以清晰看出，所構建的顯著性目標檢測標準圖像具有以下優(yōu)點：(1)各個顯著區(qū)域之間邊界清晰；同時，各個區(qū)域內部的顯著程度一致；(2)提供了不同目標(或不同區(qū)域)之間的相對顯著性，可用于評價多目標場景的顯著目標檢測算法；(3)各個區(qū)域之間的相對顯著程度符合人類感知經(jīng)驗。例如，人臉、近距離目標等往往具有更高的顯著性。因此，相比以往的圖像庫，該圖像庫能夠為顯著目標檢測算法提供更客觀、合理的測試標準。

圖3 顯著目標檢測結果。(a)原始圖像；(b)FT方法結果[18]；(c)HC方法結果[8]；(d)RC方法結果[8]；(e)HS方法結果[9]；(f)我們的結果；(g)標準顯著圖Fig.3 The results of salient object detection. (a) Input images; (b) The results of FT; (c) The results of HC; (d) The results of RC; (e) The results of HS; (f) Our results; (g) Ground truth

2.2 顯著目標檢測結果

基于gPb-UCM分割算法[10]以及中央偏置先驗和圖像邊界先驗信息計算每個圖像的顯著性檢測結果，與目前典型的4個顯著目標檢測算法進行定性對比。從圖3中可以看出，所提出的方法效果明顯優(yōu)于經(jīng)典的FT[18]、HC[8]、RC[8]和HS[9]算法，更接近利用眼動數(shù)據(jù)得到的標準顯著圖像。具體表現(xiàn)為，本方法獲得的顯著目標更為完整，形狀邊緣更為精確。

基于相關系數(shù)，計算了圖3中4幅圖像在各個算法下的結果與標準顯著圖的相關系數(shù)。如表1所示。

表1 圖3中圖像的相關系數(shù)

Tab.1 The correlation coefficient of images listed in Fig.3

FT[18]HC[8]RC[8]HS[9]本方法第1行-0.349-0.2060.0100.7700.745第2行0.2240.3800.4580.6020.679第3行0.2030.3940.6470.8370.826第4行0.1850.3560.7360.8090.885

在整個圖像庫(n=500)上對算法結果進行統(tǒng)計分析。從圖4中可以看出，所提出的方法達到了和HS接近的結果，且明顯優(yōu)于其他幾個方法。這說明，基于高質量的圖像分割結果，復雜的顯著目標檢測可以通過十分簡單的方法來實現(xiàn)。因此，圖像分割在顯著目標檢測中有著十分重要的意義，不應被忽視。

圖4 整個圖像庫的平均相關系數(shù)，其中誤差條為95%置信區(qū)間Fig.4 The mean correlation coefficient over the whole dataset, the error bars represented the 95% confidence intervals

3 討論

現(xiàn)有的基于手工勾畫的顯著目標檢測圖像庫主要針對單目標場景設計，每幅圖像包含一個主要目標[9, 18]。相對于直接手工勾畫的顯著目標，本研究基于多個被試自由觀看狀態(tài)下的眼動數(shù)據(jù)構建的圖像庫提供了更合理的顯著目標檢測標準圖像。所給出的標準顯著圖能夠反映不同區(qū)域顯著性的相對關系，即該圖像庫可用于評價單目標和多目標檢測任務。同時基于圖像分割信息，圖像庫中每個顯著區(qū)域邊界清晰，區(qū)域內部顯著性一致。所以，本研究為顯著目標檢測領域提供了一個更可靠的標準顯著圖像庫。

實驗發(fā)現(xiàn)，基于圖像分割算法的分割結果，引入簡單的后處理就可以實現(xiàn)高質量的顯著目標檢測任務，說明為了實現(xiàn)高效的顯著目標檢測，可以借鑒圖像分割的研究成果，簡化顯著目標檢測問題，這也為顯著目標檢測算法的設計提供了新的思路。值得注意的是，所提出的顯著目標檢測算法的主要目的是證明圖像分割在顯著檢測中的重要作用。盡管其獲得了較好的顯著目標檢測結果，但對于部分復雜場景，由于中央偏置和圖像邊界先驗并不能完全有效地估計顯著區(qū)域，因此，顯著性的計算仍有待進一步提高。

4 結論

本研究以標準圖像分割庫(BSD500)為基礎，借助于眼動實驗數(shù)據(jù)，構建了一個含500幅自然圖像的顯著目標檢測圖像庫。該圖像庫為每幅圖像提供了符合人眼選擇性注意特性的標準顯著圖，可用于顯著目標檢測算法的性能評估。同時驗證了基于高質量的圖像分割結果，加入簡單的后處理(例如中央偏置，圖像邊界先驗)能夠獲取較好的顯著目標檢測結果。通過定性和定量的對比分析，所提出的方法可以接近現(xiàn)有最優(yōu)方法的效果。因此我們強調圖像分割在顯著目標檢測中的重要作用。

[1] Rutishauser U, Walther D, Koch Cetal. Is bottom-up attention useful for object recognition? [C] // IEEE Conference on Computer Vision and Pattern Recognition. Washington: CVPR, 2004: 37-44.

[2] Christopoulos C, Skodras A, Ebrahimi T. The JPEG2000 still image coding system: an overview [J]. IEEE Transactions on Consumer Electronics, 2000, 46(4):1103-1127.

[3] Liu W, Tong QY. Medical image retrieval using salient point detector [C] // IEEE Conference on Engineering in Medicine and Biology Society. Shanghai: IEEE, 2005: 6352-6355.

[4] Itti L, Koch C. Computational modeling of visual attention [J]. Nature Reviews Neuroscience, 2001, 2(3):194-203.

[5] Li Zhaoping. A neural model of contour integration in the primary visual cortex [J]. Neural Computation, 1998, 10(4):903-940.

[6] Itti L, Koch C, Niebur E. A model of saliency-based visual attention for rapid scene analysis [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(11):1254-1259.

[7] Li Yin, Hou Xiaodi, Koch Cetal. The secrets of salient object segmentation [C] // IEEE Conference on Computer Vision and Pattern Recognition. Columbus: CVPR, 2014: 280-287.

[8] Cheng Mingming, Zhang Guoxin, Mitra NJetal. Global contrast based salient region detection [C] // IEEE Conference on Computer Vision and Pattern Recognition. Colorado Springs: CVPR,2011: 409-416.

[9] Yan Qiong, Xu Li, Shi Jiangpingetal. Hierarchical saliency detection [C] // IEEE Conference on Computer Vision and Pattern Recognition. Portland: CVPR, 2013: 1155-1162.

[10] Arbelaez P, Maire M, Fowlkes Cetal. Contour detection and hierarchical image segmentation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011,33(5):898-916.

[11] Brainard DH. The psychophysics toolbox [J]. Spatial Vision, 1997, 10:433-436.

[12] Pelli DG. The VideoToolbox software for visual psychophysics: Transforming numbers into movies [J]. Spatial Vision, 1997, 10(4):437-442.

[13] Judd T, Ehinger K, Durand Fetal. Learning to predict where humans look [C] // IEEE International Cconference on Computer Vision. Kyoto: ICCV, 2009: 2106-2113.

[14] Zhu Wangjiang, Liang Shuang, Wei Yichenetal. Saliency optimization from robust background detection [C] // IEEE Conference on Computer Vision and Pattern Recognition. Columbus: CVPR, 2014: 2814-2821.

[15] Wei Yichen, Wen Fang, Zhu Wangjiangetal. Geodesic saliency using background priors[C] // Europea Conference on Computer Vision. Florence: Springer-Verlag, 2012: 29-42.

[16] Borji A, Sihite DN, Itti L. Salient object detection: A benchmark[C] // Europea Conference on Computer Vision. Florence: Springer-Verlag, 2012: 414-429.

[17] Kootstra G, Nederveen A, De Boer B. Paying attention to symmetry[C] // British Machine Vision Conference. Leeds: BMVC, 2008:1115-1125.

[18] Achanta R, Hemami S, Estrada Fetal. Frequency-tuned salient region detection [C] // IEEE Conference on Computer Vision and Pattern Recognition. Kyoto:CVPR, 2009: 1597-1604.

A Dataset for Salient Region Detection Based on Human Eye Movement

Gao Xin Yang Kaifu Yao Dezhong#Li Yongjie*

(SchoolofLifeScienceandTechnology,UniversityofElectronicScienceandTechnologyofChina,Chengdu610054,China)

eye movement; salient object; image segmentation; dataset

10.3969/j.issn.0258-8021. 2015. 04.014

2014-12-01，錄用日期:2015-03-10

國家重點基礎研究發(fā)展計劃(973計劃)(2013CB329401)；國家自然科學基金(91420105，61375115)

TP391

0258-8021(2015) 04-0487-05

# 中國生物醫(yī)學工程學會會員(Member, Chinese Society of Biomedical Engineering)

*通信作者(Corresponding author)， E-mail: liyj@uestc.edu.cn