李楚為,張志龍*,李樹新
1.國防科技大學(xué)電子科學(xué)學(xué)院自動目標(biāo)識別重點實驗室,長沙 410073;2.國防科技大學(xué)信息通信學(xué)院,西安 710106
視覺注意是人類視覺系統(tǒng)有選擇性地處理顯著視覺刺激的一種特殊機(jī)制。在計算機(jī)視覺領(lǐng)域,視覺顯著性的典型應(yīng)用包括目標(biāo)檢測識別、圖像和視頻壓縮、圖像分割以及視覺跟蹤等(Borji等,2015)。視覺顯著性算法大致可以分為3類,即啟發(fā)式的方法、基于超像素分割的方法和基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)或全卷積網(wǎng)絡(luò)(fully convolutional networks,FCN)的方法。啟發(fā)式的方法通常直接或間接利用心理學(xué)和視覺理論研究成果,此類方法的研究始于1998年左右,典型的有基于認(rèn)知的Itti模型(Itti等,1998)、基于信息論的AIM(attention based on information maximization)模型(Bruce和Tsotsos,2005)、基于圖的GBVS(graph-based visual saliency)模型(Harel等,2006)和基于布爾圖理論的BMS(Boolean map saliency)模型(Zhang和Sclaroff,2013)等?;诔袼胤指畹姆椒ㄊ紫壤贸袼胤指钏惴▽D像劃分為超像素,再計算顯著性。此類方法的研究始于2011年左右,典型的有RC(region-based contrast)模型(Cheng等,2011)和DRFI(discriminative regional feature integration)模型(Jiang等,2013b)等。在Borji等人(2015)的評估實驗中,表現(xiàn)最好的6個視覺顯著性模型中有5個是基于超像素分割的方法?;诰矸e神經(jīng)網(wǎng)絡(luò)(CNN)或全卷積網(wǎng)絡(luò)(FCN)(Shelhamer等,2017)的方法一般用預(yù)訓(xùn)練的VGGNet(Visual Geometry Group network)或ResNet(residual neural network)作為基礎(chǔ)網(wǎng)絡(luò)架構(gòu),然后構(gòu)建特定的卷積層或全連接層,再在MSRA-B(Microsoft Research Asia)(Liu等,2011)、MSRA10K(Cheng等,2015)等顯著性基準(zhǔn)數(shù)據(jù)集上進(jìn)行微調(diào)。此類方法的研究始于2015年左右,典型的有MDF(multiscale deep features)(Li和Yu,2016)、ELD(encoded low level distance)(Lee等,2016)和AFNet(attentive feedback network)(Feng等,2019)等。
在視覺顯著性模型發(fā)展過程中,基準(zhǔn)數(shù)據(jù)集起到了至關(guān)重要的作用。在基準(zhǔn)數(shù)據(jù)集上的測試可以使研究者對各種視覺顯著性模型進(jìn)行定量評估和分析,為模型改進(jìn)與發(fā)展提供助力;此外,基準(zhǔn)數(shù)據(jù)集可以訓(xùn)練基于CNN或FCN的視覺顯著性模型。
基準(zhǔn)數(shù)據(jù)集經(jīng)歷了從邊框標(biāo)注到像素級標(biāo)注、從單目標(biāo)到多目標(biāo)、從簡單背景到復(fù)雜背景以及從幾百幅圖像到上萬幅圖像的發(fā)展歷程,公開的基準(zhǔn)數(shù)據(jù)集也越來越多,如表1所示。然而,并非所有關(guān)于數(shù)據(jù)集的文獻(xiàn)都詳細(xì)介紹數(shù)據(jù)集的構(gòu)建方法和制備過程,對不同數(shù)據(jù)集的定量分析和對比也甚少,隨著基準(zhǔn)數(shù)據(jù)集的規(guī)模和種類不斷擴(kuò)大,這些問題不利于視覺顯著性模型的發(fā)展。
表1 顯著性檢測基準(zhǔn)數(shù)據(jù)集Table 1 Saliency detection benchmark dataset
現(xiàn)有的基準(zhǔn)數(shù)據(jù)集大多存在一些偏差,常見的有中心偏差、選擇偏差和類別偏差等。中心偏差指在拍攝過程中,拍攝者往往傾向于將目標(biāo)置于相機(jī)視野的中央,這類偏差也稱為相機(jī)拍攝偏差;選擇偏差指在數(shù)據(jù)集構(gòu)建過程中,設(shè)計者選擇圖像時帶有特定傾向,如只選擇背景簡單的或只選擇目標(biāo)較大的;類別偏差指數(shù)據(jù)集中的類別不均衡,此類問題在深度卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中經(jīng)常遇到。圖1是兩幅MSRA10K數(shù)據(jù)集的典型偏差圖像。圖1(a)具有嚴(yán)重的中心偏差;圖1(b)則選擇偏差過強(qiáng)(背景極其簡單)。
圖1 基準(zhǔn)數(shù)據(jù)集中的偏差問題Fig.1 Bias in benchmark datasets((a)center bias;(b)selection bias)
基準(zhǔn)數(shù)據(jù)集偏差問題很大程度上已將顯著性模型發(fā)展帶入歧途,使人們對顯著性的概念產(chǎn)生了只要目標(biāo)夠大且位于圖像中央就具有顯著性的固化印象。在消除數(shù)據(jù)集偏差方面,已有學(xué)者做了一些工作。Shi等人(2016)認(rèn)為前景和背景相似的圖像對顯著性檢測來說更具挑戰(zhàn)性,建立了ECSSD數(shù)據(jù)集(extended complex scene saliency dataset),包含語義上有意義、結(jié)構(gòu)上復(fù)雜的自然圖像,并與MSRA-1000數(shù)據(jù)集(Achanta等,2009)進(jìn)行對比,在CIELab(commission international eclairage)色彩空間的3個通道上比較前景和背景的差異。Li等人(2014)指出現(xiàn)有顯著性基準(zhǔn)數(shù)據(jù)集存在嚴(yán)重設(shè)計缺陷,將誤導(dǎo)模型發(fā)展,認(rèn)為數(shù)據(jù)集偏差來源于圖像采集和標(biāo)注過程,提出如果將圖像采集和圖像標(biāo)注分開就可以避免設(shè)計偏差,并基于這一思想建立了PASCAL-S(pattern analysis,statistical modeling and computational learning)數(shù)據(jù)集。另一方面,盡管現(xiàn)有數(shù)據(jù)集存在偏差,但并不意味要否定它們,而是應(yīng)該對數(shù)據(jù)集偏差進(jìn)行正確理解和分析,從而合理利用現(xiàn)有數(shù)據(jù)集,或避開既有偏差去創(chuàng)建新的數(shù)據(jù)集。Bylinskii等人(2019)指出需要研究特定任務(wù)的基準(zhǔn)數(shù)據(jù)集并妥善處理數(shù)據(jù)集偏差。以偵察和監(jiān)視任務(wù)為例,圖像中往往包含多個小目標(biāo)并且背景復(fù)雜。
此種情形下,目標(biāo)的顯著性通常體現(xiàn)為目標(biāo)和環(huán)境差異蘊含的顯著性,而不是目標(biāo)尺寸或位置帶來的顯著性(如圖1所示)。在缺少相應(yīng)數(shù)據(jù)集作為支撐的前提下,通用的視覺顯著性算法往往難以直接應(yīng)用于這類任務(wù)。
如上所述,現(xiàn)有基準(zhǔn)數(shù)據(jù)集普遍存在偏差,因此難以充分體現(xiàn)不同模型的性能,不能完全反映某些典型應(yīng)用(如偵察監(jiān)視)的技術(shù)特點。為此,本文通過定量分析目前常用的9個基準(zhǔn)數(shù)據(jù)集的統(tǒng)計學(xué)差異,提出兩個新的基準(zhǔn)數(shù)據(jù)集。本文的貢獻(xiàn)主要有3個方面:1)設(shè)計了一個能體現(xiàn)偵察監(jiān)視應(yīng)用特點的新基準(zhǔn)數(shù)據(jù)集MTMS300(multiple targets and multiple scales)。數(shù)據(jù)集包含300幅來自海陸空場景的彩色可見光圖像,具有中心偏差小、目標(biāo)面積比分布均衡、圖像尺寸多樣及圖像中包含多個目標(biāo)等特點;2)利用MTMS300數(shù)據(jù)集和公開基準(zhǔn)數(shù)據(jù)集對典型的視覺顯著性算法展開性能評估,從公開基準(zhǔn)數(shù)據(jù)集中找出對多數(shù)非深度學(xué)習(xí)算法而言都較為困難(指標(biāo)得分低)的圖像,構(gòu)成了一個新的基準(zhǔn)數(shù)據(jù)集DSC(difficult scenes in common);3)討論了基準(zhǔn)數(shù)據(jù)集的定量評估方法,從復(fù)雜度和中心偏差的角度對9個公開基準(zhǔn)數(shù)據(jù)集和本文提出的兩個數(shù)據(jù)集進(jìn)行分析和對比。
本文提出的兩個數(shù)據(jù)集的在線發(fā)布地址為:https://github.com/iammusili/MTMS300_SOD_dataset/。
MTMS300數(shù)據(jù)集包含600幅圖像,彩色可見光圖像和像素級標(biāo)注圖各300幅,可見光圖像與標(biāo)注圖一一對應(yīng)。圖像具體信息如下:1)圖像名稱從001開始遞增編號,最大為300;2)圖像分辨率不固定;3)可見光圖像以jpg格式保存,位深度為24位;標(biāo)注圖以bmp格式保存,位深度為8位。
DSC數(shù)據(jù)集包含638幅圖像,319幅彩色可見光圖像和319幅像素級標(biāo)注圖,可見光圖像與標(biāo)注圖一一對應(yīng)。圖像具體信息如下:1)圖像名稱為數(shù)據(jù)集名稱_數(shù)據(jù)集圖像編號,例如ImgSal數(shù)據(jù)集編號107的圖像在DSC數(shù)據(jù)集的名稱為ImgSal_107;2)圖像分辨率不固定;3)可見光圖像以jpg格式保存,位深度為24位;標(biāo)注圖以png格式保存,位深度為8位。
顯著性檢測基準(zhǔn)數(shù)據(jù)集的構(gòu)建通常包括圖像采集、圖像標(biāo)注和顯著物體篩選。圖像標(biāo)注和顯著物體篩選也可同時進(jìn)行。Li等人(2014)提出將圖像采集和圖像標(biāo)注分開以避免數(shù)據(jù)集的設(shè)計偏差,同時為確保顯著物體的標(biāo)注一致性,避免帶歧義的標(biāo)注,一種典型做法是多名參與者分別標(biāo)注,然后投票保留票數(shù)高的區(qū)域(Borji等,2013a)。也可以將參與者分為測試組和真值組,對測試組計算AUC(area under roc curve)值或F值,并用該值表征標(biāo)注的一致性(Li等,2014;Shi等,2016)。Borji等人(2012)和Fan等人(2018)利用交并比(intersection over union,IoU)定義圖像的標(biāo)注一致性,IoU越接近1,一致性越大。
為避免數(shù)據(jù)集設(shè)計偏差,提高標(biāo)注一致性,本文將圖像采集和圖像標(biāo)注分開,分兩步構(gòu)建數(shù)據(jù)集。首先6名參與者分別采集圖像,再進(jìn)行篩選和匯總;然后另外5名參與者對采集的圖像手工標(biāo)注。在標(biāo)注階段,使用IoU確保標(biāo)注的一致性。
圖像采集分兩階段進(jìn)行以保證圖像質(zhì)量。第1階段是圖像收集,首先明確需要收集的圖像為偵察和監(jiān)視場景下常見的多目標(biāo)、復(fù)雜背景圖像,然后6名參與者通過關(guān)鍵詞搜索、在相關(guān)網(wǎng)站瀏覽的方式,下載公開的可見光圖像,最終得到約400幅圖像。第2階段是圖像篩選,本文結(jié)合HSV(hue saturation value)色彩特征和LBP(local binary pattern)紋理特征,通過計算圖像特征直方圖的差異進(jìn)行相似度判斷,排除過于相似甚至重復(fù)的圖像,保留324幅圖像,然后選擇海陸空場景各100幅,最終確定300幅圖像用于標(biāo)注。
同時,本文對已有基準(zhǔn)數(shù)據(jù)集進(jìn)行相似度判斷,DUT-OMRON、ImgSal、MSRA10K和THUR15K數(shù)據(jù)集分別有42、28、26和106幅重復(fù)圖像,ECSSD、Judd-A、PASCAL-S、SED1和SED2數(shù)據(jù)集沒有重復(fù)圖像。
圖像標(biāo)注也分兩階段進(jìn)行,以保證標(biāo)注的一致性,第1階段是粗略的邊框式標(biāo)注,第2階段是精細(xì)的像素級標(biāo)注,如圖2所示。在第1階段,5名參與者先用矩形邊框標(biāo)注圖像的顯著物體,然后用IoU判定物體是否具有顯著性。本文參考Fan等人(2018)方法,僅考慮至少3個人標(biāo)注的區(qū)域,同時參考Borji等人(2012)的統(tǒng)計結(jié)果,將IoU閾值設(shè)為0.6。以圖2(b)為例,圖中有3個區(qū)域標(biāo)注框(紅色矩形框),但僅兩個區(qū)域滿足閾值條件,判定為顯著性區(qū)域,另一區(qū)域則丟棄。在第2階段,2名參與者對包含顯著物體的矩形邊框進(jìn)行精細(xì)的像素級標(biāo)注,如圖2(c)所示。最終,本文建立了一個包含海面、陸地和天空3種場景各100幅圖像的基準(zhǔn)數(shù)據(jù)集MTMS300,圖3給出了這個數(shù)據(jù)集中的一些圖像和對應(yīng)的標(biāo)注圖。像素級標(biāo)注的原則是:1)只標(biāo)注顯著物體未遮擋區(qū)域(圖3(a));2)盡可能地將物體獨立分割,但不強(qiáng)行分割具有重疊區(qū)域的物體(圖3(b));3)盡可能地使圖像使用者能僅通過輪廓就辨識出物體(圖3(c))。
圖2 從粗到細(xì)的圖像標(biāo)注過程Fig.2 Image annotation process from coarse to fine ((a)original image;(b)bounding-box annotation;(c)pixel-wise annotation)
圖3 MTMS300數(shù)據(jù)集中的例圖和對應(yīng)的標(biāo)注圖Fig.3 Examples from MTMS300 dataset and the corresponding annotation maps((a)occluded objects;(b)overlapped objects;(c)discernable contours;(d)multiple objects)
Borji和Itti(2013)和Borji(2015)詳細(xì)介紹了多種數(shù)據(jù)集的圖像數(shù)量和圖像分辨率。Borji和Itti(2013)介紹的主要是眼動(eye movement)數(shù)據(jù)集;Borji(2015)介紹的是顯著物體數(shù)據(jù)集,既有邊框級標(biāo)注,也有像素級標(biāo)注。
本文基于3個原則選擇公開基準(zhǔn)數(shù)據(jù)集:1)具有像素級標(biāo)注;2)廣泛使用;3)盡可能地包含多個目標(biāo)。最終確定9個公開數(shù)據(jù)集,如表1所示。由于圖像包含的目標(biāo)數(shù)量一定程度上代表了圖像的復(fù)雜度,本文通過計算標(biāo)注圖中連通區(qū)域數(shù)量的方式,統(tǒng)計數(shù)據(jù)集包含的最大目標(biāo)個數(shù)和多目標(biāo)圖像的比例,結(jié)果如表2所示??梢钥闯?,無論多目標(biāo)最大數(shù)量還是圖像比例,本文提出的MTMS300數(shù)據(jù)集都遠(yuǎn)超其他數(shù)據(jù)集,隨后是ImgSal、PASCAL-S、DUT-OMRON和ECSSD數(shù)據(jù)集。Judd-A、THUR15K、MSRA10K和DSC是單目標(biāo)圖像比例最大的4個數(shù)據(jù)集。
表2 基準(zhǔn)數(shù)據(jù)集中多目標(biāo)圖像比例Table 2 The percentage of multi-objects images in benchmark datasets
數(shù)據(jù)集的中心偏差和復(fù)雜度是設(shè)計和評價數(shù)據(jù)集時必須考慮的問題。Alpert等人(2007)、Achanta等人(2009)、Li等人(2011)、Yang等人(2013)和Cheng等人(2015)都提出了新的基準(zhǔn)數(shù)據(jù)集,但是缺乏對數(shù)據(jù)集的定量分析。
3.2.1 中心偏差
圖4 基準(zhǔn)數(shù)據(jù)集的NOD概率密度分布Fig.4 Distributions of normalized object distances of benchmark datasets
圖5 不同基準(zhǔn)數(shù)據(jù)集的AAM對比Fig.5 Comparison of AAM among different benchmark datasets
3.2.2 復(fù)雜度
Shi等人(2016)、Li等人(2014)和Fan等人(2018)用顏色直方圖對比方法分析數(shù)據(jù)集的復(fù)雜度。Shi等人(2016)通過在CIELab色彩空間的3個通道上計算前景和背景的直方圖卡方距離比較目標(biāo)和背景的差異,并用ECSSD和MSRA-1000作為對比數(shù)據(jù)集進(jìn)行評價實驗,認(rèn)為直方圖卡方距離小的圖像對顯著物體檢測更具挑戰(zhàn)性(因為背景和前景更相似)。Li等人(2014)通過局部顏色對比、全局顏色對比、局部gPB邊界強(qiáng)度和目標(biāo)尺寸4種方法分析數(shù)據(jù)集的復(fù)雜度。Cheng等人(2014)、Borji(2015)和Li等人(2017)用超像素判斷數(shù)據(jù)集的復(fù)雜度。Borji(2015)使用基于圖的超像素分割算法(Felzenszwalb和Huttenlocher,2004)計算圖像的超像素,認(rèn)為超像素越多,圖像越復(fù)雜,同時認(rèn)為Bruce-A數(shù)據(jù)集的超像素較少是由顯著物體小造成的。說明對顯著物體小的圖像,超像素數(shù)量不能完全代表其復(fù)雜度。Borji等人(2012)和Judd等人(2009)認(rèn)為熵值高的圖像包含更強(qiáng)的干擾,通常有不同的紋理細(xì)節(jié);Borji等人(2012)、Borji等人(2013a)、Borji(2015)和Li等人(2017)通過目標(biāo)占圖像比例(歸一化目標(biāo)尺寸)分析復(fù)雜度,認(rèn)為比例越小,圖像越復(fù)雜;Borji(2015)和Fan等人(2018)用圖像中目標(biāo)的數(shù)量判斷復(fù)雜度,認(rèn)為目標(biāo)越多,圖像越復(fù)雜。
本文采用歸一化目標(biāo)尺寸、前景/背景直方圖卡方距離、超像素數(shù)量和圖像熵等度量方式分析數(shù)據(jù)集的復(fù)雜度。
表3 基準(zhǔn)數(shù)據(jù)集歸一化目標(biāo)尺寸Table 3 Normalized object sizes of benchmark datasets
前景/背景直方圖卡方距離的計算方法為:根據(jù)標(biāo)注圖的真值掩膜將彩色圖像分為前景和背景,然后分別計算CIELab色彩空間中L、a、b等3個通道的前景/背景直方圖卡方距離,再取平均值。表4以0.2、0.4、0.6和0.8為分界線給出了前景/背景直方圖卡方距離的統(tǒng)計結(jié)果。圖像的直方圖卡方距離越小,說明前景和背景越接近,對顯著性檢測更具挑戰(zhàn)性。事實上,Li和Yu(2016)構(gòu)建數(shù)據(jù)集時,選擇的都是直方圖卡方距離小于0.7的圖像。
表4 前景/背景直方圖卡方距離統(tǒng)計結(jié)果Table 4 Statistical results of Chi-square distance of histograms
超像素數(shù)量的計算方法為:先將圖像縮放至400 × 400像素,再計算超像素數(shù)量。在此,使用基于圖的超像素分割算法(Felzenszwalb和Huttenlocher,2004),算法參數(shù)為σ=1,K=500,min =50。超像素數(shù)量統(tǒng)計結(jié)果如表5所示??梢钥闯?,MTMS300數(shù)據(jù)集的超像素數(shù)目最少,該結(jié)果與Borji(2015)的結(jié)論吻合,因為MTMS300數(shù)據(jù)集包含的主要是小目標(biāo)。SED1和SED2數(shù)據(jù)集的超像素也較少,DSC數(shù)據(jù)集的超像素數(shù)目最多,然后是ECSSD、DUT-OMRON、Judd-A和PASCAL-S數(shù)據(jù)集。
表5 超像素數(shù)量統(tǒng)計結(jié)果Table 5 Statistical results of the number of superpixels
圖像的熵值越大,圖像包含的信息越多,圖像越復(fù)雜。表6是5,7,7.5和7.8為分界線的圖像熵統(tǒng)計結(jié)果??梢钥闯?,DSC數(shù)據(jù)集的熵值最大,這也側(cè)面印證了圖像熵在一定程度上代表了數(shù)據(jù)集的復(fù)雜度(DSC數(shù)據(jù)集由多數(shù)模型得分都低的困難圖像組成)。此外,DUT-OMRON、ECSSD、ImgSal、Judd-A和PASCAL-S的熵值都較大,MTMS300數(shù)據(jù)集的熵值分布比較平均。綜合而言,SED2的熵最小,其次是MSRA10K和SED1。
表6 圖像熵的統(tǒng)計結(jié)果Table 6 Statistical results of the image entropy
3.2.3 小結(jié)
結(jié)合表1—表6、圖4和圖5可以得出以下結(jié)論:1)基準(zhǔn)數(shù)據(jù)集的側(cè)重點不同。例如,Judd-A的圖像場景較為雜亂且視野較大;MSRA10K通常只有1個無歧義的顯著目標(biāo);SED1和SED2分別只包含1個和2個目標(biāo)但類別多樣化;THUR15K只包含5種特定類別目標(biāo);ECSSD包含語義豐富但結(jié)構(gòu)復(fù)雜的自然圖像。2)通用數(shù)據(jù)集中,MSRA10K、SED1和SED2是最簡單的3個數(shù)據(jù)集,ImgSal、DSC、Judd-A和PASCAL-S是最復(fù)雜的4個數(shù)據(jù)集,DSC數(shù)據(jù)集在前景/背景差異、超像素數(shù)量和圖像熵上較為突出,暗示包含的圖像很復(fù)雜。3)與其他數(shù)據(jù)集相比,MTMS300數(shù)據(jù)集在目標(biāo)數(shù)量、中心偏差和目標(biāo)大小等方面比較突出,能夠較好地滿足偵察監(jiān)視場景的需求。4)不同度量指標(biāo)之間沒有必然的相關(guān)性。例如,ECSSD、DUT-OMRON和Judd-A等前景/背景差異較大的數(shù)據(jù)集,超像素數(shù)目都較多。但是同樣前景/背景差異較大的MTMS300數(shù)據(jù)集,卻因為包含了很多小目標(biāo),導(dǎo)致超像素數(shù)目不多。綜上所述,在用數(shù)據(jù)集進(jìn)行視覺顯著性模型的性能評估或訓(xùn)練時,需要綜合考慮數(shù)據(jù)集的特性。
實驗通過在數(shù)據(jù)集上定量測試多種算法模型,對數(shù)據(jù)集的復(fù)雜度和難度進(jìn)行定性對比分析。
3.3.1 實驗設(shè)計
視覺顯著性模型包括啟發(fā)式方法、基于超像素分割的方法和基于深度學(xué)習(xí)的方法3大類。實驗時每類模型選取6種共18種具有代表性的視覺顯著性模型進(jìn)行評估,如表7所示。
表7 視覺顯著性模型Table 7 Visual saliency models
3.3.2 性能評價指標(biāo)
(1)
(2)
TPR和FPR構(gòu)成受試者工作特征(receiver operating characteristic,ROC)曲線,對ROC曲線積分即求得AUC值。AUC值的取值范圍為[0,1],值越大,說明模型性能越好。
F值(也稱Fβ)的計算方法為
(3)
F值同時考慮了精度P和召回R,可以更全面地評價顯著圖的質(zhì)量。本文參照Achanta等人(2009)的方法,將β2設(shè)為0.3,以增加精度的權(quán)重,并只使用F值的最大值描述模型性能。
3.3.3 實驗結(jié)果
表8和表9分別是視覺顯著性模型在不同基準(zhǔn)數(shù)據(jù)集上的AUC值和F值。由表8和表9可以得出以下結(jié)論:1)經(jīng)過多年發(fā)展,視覺顯著性模型的性能在簡單數(shù)據(jù)集上已趨于飽和,但在復(fù)雜數(shù)據(jù)集上還遠(yuǎn)遠(yuǎn)不夠。以MSRA10K數(shù)據(jù)集為例,1998年Itti模型的AUC和F值僅為0.87和0.66;2013年MC模型的AUC和F值提高到0.95和0.90;2018年ASNet模型的AUC和F值達(dá)到0.99和0.96。然而,在Judd-A這樣的復(fù)雜數(shù)據(jù)集上,表現(xiàn)最好的ASNet算法的F值也僅為0.6,不能令人滿意。2)數(shù)據(jù)集質(zhì)量與模型性能有緊密聯(lián)系。以DUT-OMRON數(shù)據(jù)集為例,其圖像數(shù)量只有MSRA10K的一半,但用DUT-OMRON訓(xùn)練的ASNet模型與用MSRA10K訓(xùn)練的ELD和AMU模型相比,在多個復(fù)雜數(shù)據(jù)集上的指標(biāo)得分都更高。3)模型在數(shù)據(jù)集上的指標(biāo)得分與數(shù)據(jù)集復(fù)雜度成反比。MSRA10K、SED1和SED2數(shù)據(jù)集最為簡單,ImgSal、DSC、Judd-A、PASCAL-S和MTMS300數(shù)據(jù)集最為復(fù)雜,模型在這些數(shù)據(jù)集上的F值和AUC值印證了這一結(jié)論。4)在公開基準(zhǔn)數(shù)據(jù)集上訓(xùn)練的算法模型難以直接應(yīng)用到特定場景的視覺顯著性任務(wù)中。以DRFI和ASNet等模型為例,它們在公開數(shù)據(jù)集上的F值高達(dá)0.9,但是在MTMS300數(shù)據(jù)集上的F值僅為0.66,這也表明針對偵察監(jiān)視任務(wù)等特定場景,設(shè)計新的視覺顯著性算法很有必要。
表8 不同模型在不同數(shù)據(jù)集上的AUC值Table 8 AUC values of different models on different datasets
表9 不同模型在不同數(shù)據(jù)集上的F值Table 9 F values of different models on different datasets
基于3.3節(jié)的實驗,本文從9個公開數(shù)據(jù)集中找出“共同困難”圖像,構(gòu)建DSC數(shù)據(jù)集。“共同困難”圖像的定義為:如果12個非深度學(xué)習(xí)模型中有至少8個模型都在同一幅圖像上指標(biāo)得分低,就認(rèn)為這幅圖像是“共同困難”圖像。
具體來說,本文分3步構(gòu)建DSC數(shù)據(jù)集:第1步,找出AUC低于0.7的“共同困難”圖像;第2步,找出F值低于0.3的“共同困難”圖像;第3步,兩部分圖像取交集。將AUC閾值設(shè)為0.7的原因是:0.5是隨機(jī)猜測的得分,如果低于0.7,說明不比隨機(jī)猜測好多少,那么必然是困難的圖像;根據(jù)經(jīng)驗將F值的閾值設(shè)為0.3。從各公開基準(zhǔn)數(shù)據(jù)集中找出的“共同困難”圖像的數(shù)量如表10所示。
表10 來自公開基準(zhǔn)數(shù)據(jù)集的“共同困難”圖像數(shù)量Table 10 The number of difficult images in common from public benchmark datasets /幅
圖6給出了DSC數(shù)據(jù)集的例圖和模型的顯著圖??梢钥闯?,對傳統(tǒng)算法而言,“共同困難”的圖像對一些最新的算法模型仍具有挑戰(zhàn)性。
圖6 DSC數(shù)據(jù)集的例圖和對應(yīng)的顯著圖Fig.6 Examples from DSC dataset and the corresponding saliency maps((a)original images;(b)annotation maps;(c)ELD;(d)AMD;(e)UCF;(f)WSS)
數(shù)據(jù)集的推薦使用方法如下:1)使用者利用自己編寫的視覺顯著性算法或軟件讀取1幅或多幅彩色可見光圖像,根據(jù)算法進(jìn)行顯著性判別,輸出與可見光圖像尺寸一致的顯著圖。2)同時讀取顯著圖和相應(yīng)的標(biāo)注圖,計算顯著圖對應(yīng)的AUC值和F值等指標(biāo)得分;也可根據(jù)實際需求,自行設(shè)計新的評估指標(biāo)并計算。本文數(shù)據(jù)集提供上述評估指標(biāo)的程序代碼。
本文數(shù)據(jù)集適用于視覺顯著性模型的性能評測和模型訓(xùn)練。
圖7 低質(zhì)量標(biāo)注的例圖Fig.7 Examples of low-quality annotation((a)original images;(b)annotation maps)
MTMS300數(shù)據(jù)集制備過程中,將圖像采集和圖像標(biāo)注分開,用IoU判定標(biāo)注一致性,盡可能避免了數(shù)據(jù)集的設(shè)計偏差,提高了數(shù)據(jù)集的標(biāo)注一致性。因此,模型在MTMS300數(shù)據(jù)集上得分不高的原因,主要有:1)模型只突出主要目標(biāo),抑制了小目標(biāo)(圖8第1行),甚至完全無法檢測到圖像中的小目標(biāo)(圖8第2、3行)。2)對圖像存在多個目標(biāo)的情形,不能全部檢測出來(圖8第4、5行)。3)模型參數(shù)固定,難以自適應(yīng)圖像尺寸。以RBD模型為例,其超像素大小固定為600像素,對大圖像而言,該參數(shù)會使RBD模型容易檢測出所有目標(biāo),但這將導(dǎo)致小圖像只包含幾十個超像素。并且對于圖像中的小目標(biāo)(如10 × 10像素大小的目標(biāo))而言,其面積甚至不如一個超像素大,因而容易被漏檢。
圖8 模型在MTMS300數(shù)據(jù)集的失敗例子Fig.8 Failure cases of models over MTMS300 dataset((a)original images;(b)annotation maps;(c)UCF;(d)WSS;(e)ASNet;(f)AFNet)
本文提出一個面向偵察監(jiān)視應(yīng)用的顯著性檢測基準(zhǔn)數(shù)據(jù)集MTMS300,主要特點是:中心偏差小、目標(biāo)面積比分布均衡、圖像分辨率多樣以及場景中包含多個目標(biāo)。
本文利用6個度量指標(biāo)對基準(zhǔn)數(shù)據(jù)集展開定量分析,統(tǒng)計了數(shù)據(jù)集的中心偏差和復(fù)雜度等特性,并評估了數(shù)據(jù)集的難度系數(shù)。此外,通過18個模型在11個數(shù)據(jù)集上的實驗和評估,證明了模型的得分和數(shù)據(jù)集的難度系數(shù)是有相關(guān)性的。但是也有一些難度系數(shù)低的數(shù)據(jù)集(如THUR15K),模型的得分不高,本文認(rèn)為這主要與標(biāo)注質(zhì)量有關(guān)。
本文分析了模型在基準(zhǔn)數(shù)據(jù)集上失敗的原因,并找出了公開數(shù)據(jù)集中令多數(shù)傳統(tǒng)模型都覺得困難(指標(biāo)得分低)的圖像,構(gòu)成了一個“共同困難”數(shù)據(jù)集DSC。
結(jié)合實驗和分析,本文發(fā)現(xiàn)仍有一些值得關(guān)注的問題:1)構(gòu)建數(shù)據(jù)集時,必須嚴(yán)格把控數(shù)據(jù)集的質(zhì)量。例如,DUT-OMRON數(shù)據(jù)集的圖像數(shù)量只有MSRA10K的一半,但是用DUT-OMRON訓(xùn)練的模型比用MSRA10K訓(xùn)練的模型效果顯然要好,這表明數(shù)據(jù)集的質(zhì)量對模型有直接影響。2)本文使用 6種度量指標(biāo)對數(shù)據(jù)集展開了定量分析,如何在此基礎(chǔ)上充分利用數(shù)據(jù)集的特性,將不同的數(shù)據(jù)集融合,提升基于深度學(xué)習(xí)的視覺顯著性模型的性能,是一個值得研究的問題。3)現(xiàn)有顯著性檢測模型的評估指標(biāo)無法適用于特定任務(wù)下的數(shù)據(jù)集。例如,對于同時包含大、小目標(biāo)的圖像,如果模型只檢測出了大目標(biāo)(如圖8第1行)也能獲得不低的指標(biāo)得分,相當(dāng)于評估指標(biāo)忽視了小目標(biāo)漏檢,這顯然是不理想的。而且,現(xiàn)有評估指標(biāo)無法體現(xiàn)顯著圖中的目標(biāo)個數(shù)和實際目標(biāo)個數(shù)的差異。因此,如何設(shè)計一個指標(biāo)表征此類場景下顯著物體檢測模型的性能是一個值得考慮的方向。
致 謝MTMS300數(shù)據(jù)集的構(gòu)建得到了新浪軍事、中國軍事圖片中心和鐵血社區(qū)的支持,在此表示感謝。