張守東,楊 明,胡 太
南京師范大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,南京 210023
計(jì)算機(jī)視覺(jué)分析利用相關(guān)算法來(lái)模擬人類視覺(jué)系統(tǒng)中大腦感知的工作原理,對(duì)數(shù)字圖像進(jìn)行特定任務(wù)的處理。顯著性目標(biāo)檢測(cè)屬于計(jì)算機(jī)視覺(jué)領(lǐng)域下的一個(gè)重要分支,在這幾年已經(jīng)成為熱門的研究話題,它是指人類能夠通過(guò)視覺(jué)系統(tǒng)從場(chǎng)景中提取出與其他區(qū)域相比更為顯著的區(qū)域,這有助于剔除后續(xù)視覺(jué)任務(wù)中圖像內(nèi)無(wú)價(jià)值的區(qū)域。早期對(duì)這種情境感知和處理能力的研究主要來(lái)自認(rèn)知科學(xué)家,而在最近一段時(shí)間里,計(jì)算機(jī)視覺(jué)領(lǐng)域的研究者同樣對(duì)該領(lǐng)域產(chǎn)生極大的興趣,并通過(guò)研究提出了大量的顯著性目標(biāo)檢測(cè)算法。顯著性目標(biāo)檢測(cè)能夠從復(fù)雜的場(chǎng)景中快速準(zhǔn)確地定位圖像中最顯著的目標(biāo)或區(qū)域,識(shí)別后的顯著性結(jié)果在視頻目標(biāo)跟蹤[1]、交通控制[2]、圖像檢索[3]、圖像質(zhì)量評(píng)估[4-5]、場(chǎng)景理解[6]等諸多計(jì)算機(jī)視覺(jué)領(lǐng)域中都有著廣泛的應(yīng)用。
顯著性目標(biāo)檢測(cè)算法的性能在過(guò)去的一段時(shí)間里實(shí)現(xiàn)了較大的提升,特別是得益于近幾年興起的深度學(xué)習(xí),利用多層神經(jīng)網(wǎng)絡(luò)能夠模擬大腦皮層感知神經(jīng)元處理信息的特性,顯著性目標(biāo)檢測(cè)算法的性能得到了進(jìn)一步的提升。但是在復(fù)雜場(chǎng)景下檢測(cè)目標(biāo)的準(zhǔn)確性和完整性仍然存在著諸多問(wèn)題,本文針對(duì)提高復(fù)雜場(chǎng)景下顯著性目標(biāo)檢測(cè)算法的準(zhǔn)確性展開深入研究,挖掘與利用更具有辨別性的深度特征,提出了一種新的基于多特征融合的顯著性目標(biāo)檢測(cè)算法。
概括來(lái)說(shuō),本文有以下兩點(diǎn)貢獻(xiàn):
(1)提出了一個(gè)基于多特征融合的全卷積神經(jīng)網(wǎng)絡(luò)用于顯著性目標(biāo)檢測(cè)。在全卷積神經(jīng)網(wǎng)絡(luò)的深層,以預(yù)測(cè)顯著圖作為特征,融合圖像的全局深度特征和顯著性目標(biāo)的位置特征,得到更具判別力的特征表示。
(2)提出了利用顯著性提名獲取候選目標(biāo)的位置信息和置信值,并在各候選目標(biāo)中添加中心先驗(yàn)。為每個(gè)候選目標(biāo)添加中心先驗(yàn)可以有效地避免中心偏好,使得模型對(duì)位于圖像非中心區(qū)域的顯著性目標(biāo)同樣具有檢測(cè)作用。
顯著性目標(biāo)檢測(cè)是提取圖像在視覺(jué)上最顯著的目標(biāo)或區(qū)域?;谟?jì)算機(jī)視覺(jué)的顯著性目標(biāo)檢測(cè)研究起始于20世紀(jì)90年代[7],經(jīng)過(guò)多年的研究與發(fā)展,顯著性目標(biāo)檢測(cè)算法的性能有了極大的提升。與大多數(shù)基于對(duì)比差異的經(jīng)典模型[8]不同,基于CNN(convolutional neural network)的模型消除了對(duì)手工特征的高度依賴,避免人為地選擇合適的特征?;贑NN框架的模型通常包含數(shù)十萬(wàn)個(gè)可調(diào)參數(shù)和眾多感受野(receptive field)大小不同的神經(jīng)元,導(dǎo)致模型的復(fù)雜度比傳統(tǒng)方法更高,同時(shí)也帶來(lái)檢測(cè)效果的提升。因此,近幾年來(lái)眾多研究者更傾向于利用CNN框架研究和解決顯著性目標(biāo)檢測(cè)的問(wèn)題,基于CNN的顯著性目標(biāo)檢測(cè)模型逐漸成為當(dāng)前顯著性目標(biāo)檢測(cè)的主要趨勢(shì)。
SuperCNN是He等[9]提出用深度學(xué)習(xí)的方法學(xué)習(xí)超像素的特征表示,它是早期將CNN應(yīng)用于顯著性目標(biāo)檢測(cè)的嘗試。與基于像素級(jí)分類的卷積神經(jīng)網(wǎng)絡(luò)相比,He等提出的方法不僅提高了計(jì)算效率,還兼顧了全局上下文信息。然而該方法太過(guò)依賴超像素分割的結(jié)果,且具有內(nèi)部標(biāo)記一致性的超像素塊丟失了塊內(nèi)的一部分語(yǔ)義信息,導(dǎo)致提取不出足夠的信息,因此在復(fù)雜場(chǎng)景的數(shù)據(jù)集下,該方法將不再適用。Wang等[10]同時(shí)考慮了圖像的局部和全局信息,提出分別為局部對(duì)比和全局搜索設(shè)計(jì)兩個(gè)子網(wǎng)絡(luò)。與Wang等類似的思想,Zhao等[11]考慮局部和全局上下文,構(gòu)造了一個(gè)結(jié)合多種上下文的深度學(xué)習(xí)框架,整個(gè)圖像通過(guò)全局上下文模型提取全局對(duì)比信息,通過(guò)局部對(duì)比模型獲得局部信息。Lee等[12]提出利用兩個(gè)子網(wǎng)絡(luò)分別提取低級(jí)特征和高級(jí)特征的方法。Kim等[13]設(shè)計(jì)了一個(gè)雙通道的CNN網(wǎng)絡(luò),兩個(gè)通道的CNN分別用于獲取局部上下文和全局上下文信息。Wang等[14]提出利用Fast R-CNN[15]框架解決顯著性目標(biāo)檢測(cè)問(wèn)題,通過(guò)在ROI池化層之后設(shè)置多個(gè)全連接層獲得每個(gè)區(qū)域的顯著值。Kim等[16]訓(xùn)練CNN來(lái)預(yù)測(cè)顯著性目標(biāo)的形狀。Li等[17]利用CNN提取超像素的高級(jí)特征,利用基于對(duì)比的方法獲得區(qū)域的低級(jí)特征??紤]到復(fù)雜場(chǎng)景下的自然圖像中可能存在多個(gè)尺寸差別較大的顯著性目標(biāo),Li等[18]提出將圖像三個(gè)不同尺度分割的區(qū)域作為CNN的輸入,利用三個(gè)子網(wǎng)絡(luò)提取圖像每個(gè)區(qū)域不同尺度的深度特征,隨后將這三個(gè)深度特征進(jìn)行拼接,最后通過(guò)訓(xùn)練一個(gè)由兩個(gè)全連接層組成的多層感知器(multilayer perceptron,MLP),得到該區(qū)域的顯著性分布。
雖然CNN可以有效提取超像素的深度特征,但顯著性目標(biāo)的檢測(cè)效果過(guò)于依賴特征提取前的超像素分割結(jié)果和特征提取后的分類網(wǎng)絡(luò)??臻g信息無(wú)法在全連接層中傳播,導(dǎo)致CNN提取到深度特征丟失部分語(yǔ)義信息。為了解決該問(wèn)題,研究者提出了基于像素級(jí)分類的全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional networks,F(xiàn)CN)[19]。由于去除了全連接層,因此FCN具有保持空間信息的特性,大量基于FCN的顯著性目標(biāo)檢測(cè)模型被提出并獲得了更優(yōu)的檢測(cè)性能。
Li等[20]在提出基于CNN提取多尺度深度特征的模型之后,又提出了一種具有兩個(gè)互補(bǔ)分支的卷積網(wǎng)絡(luò)模型,模型最終通過(guò)一個(gè)平衡的交叉熵?fù)p失函數(shù)融合兩個(gè)分支的預(yù)測(cè)結(jié)果。Liu等[21]構(gòu)建一種由前后兩個(gè)子網(wǎng)絡(luò)連接而成的網(wǎng)絡(luò)模型。受Xie等[22]提出的全局嵌套邊緣檢測(cè)(holistically-nested edge detection,HED)方法的啟發(fā),Tang等[23]使用循環(huán)卷積層替換了HED中的原始卷積層,達(dá)到同時(shí)獲取局部和全局上下文信息的目的。從多特征融合的動(dòng)機(jī)出發(fā),Li等[24]考慮聯(lián)合語(yǔ)義分割和顯著性目標(biāo)檢測(cè),將VGGNet中的兩個(gè)原始全連接層替換為卷積層,實(shí)現(xiàn)類似全卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。隨著研究者對(duì)網(wǎng)絡(luò)架構(gòu)的研究不斷深入,Zhang等[25]提出使用Deeplab[26]提取的高級(jí)特征和采用多級(jí)融合機(jī)制來(lái)檢測(cè)顯著性目標(biāo)。Li等提出的MSRNet[27]考慮了實(shí)例級(jí)的顯著性目標(biāo)分割。Hou和Cheng等[28]設(shè)計(jì)一個(gè)基于HED架構(gòu)[22]的自上而下的模型,該算法提出通過(guò)在相鄰層之間建立強(qiáng)關(guān)系,有助于模型能夠更準(zhǔn)確地確定顯著性目標(biāo)的位置,從而提升了最終顯著圖的分割性能。這些基于神經(jīng)網(wǎng)絡(luò)的算法在一般場(chǎng)景下的單目標(biāo)顯著性檢測(cè)已經(jīng)達(dá)到了較高的檢測(cè)精度,但是在復(fù)雜的場(chǎng)景下,復(fù)雜背景中的噪聲區(qū)域依然會(huì)干擾顯著性目標(biāo)的檢測(cè),導(dǎo)致檢測(cè)精度的降低。
本文提出一種基于多特征融合的顯著性目標(biāo)檢測(cè)算法(salient object detection based on multi-feature fusion,SOD_MFF)。如圖1所示,該算法首先訓(xùn)練一個(gè)顯著性提名網(wǎng)絡(luò),網(wǎng)絡(luò)獲取圖像中包含顯著性目標(biāo)的多個(gè)候選區(qū)域。利用顯著性目標(biāo)候選區(qū)域的空間信息和類別置信值生成混合高斯分布圖作為顯著性目標(biāo)位置的先驗(yàn)分布。將通過(guò)該先驗(yàn)分布得到的顯著性目標(biāo)空間位置特征與深度神經(jīng)網(wǎng)絡(luò)較深層的特征相融合,同時(shí)融合初始顯著圖置信圖的特征表示,通過(guò)一個(gè)訓(xùn)練好的網(wǎng)絡(luò)最終預(yù)測(cè)得到像素級(jí)的顯著性目標(biāo)區(qū)域。
在一般場(chǎng)景下,卷積神經(jīng)網(wǎng)絡(luò)提供了具有較強(qiáng)判別性的深度語(yǔ)義特征,而深度語(yǔ)義特征在較復(fù)雜場(chǎng)景下依舊會(huì)出現(xiàn)判別性較弱的情況。當(dāng)顯著性目標(biāo)的部分區(qū)域或背景的部分區(qū)域包含強(qiáng)烈的語(yǔ)義信息時(shí),僅依賴深度特征的算法會(huì)錯(cuò)誤地標(biāo)記這些區(qū)域的顯著性,如圖2,第一、二列分別為原圖和真值圖(ground truth,GT),第三列為僅依賴深度特征的檢測(cè)算法(multiscale deep feature,MDF)[18]生成的顯著圖,第四列為在第三列方法的基礎(chǔ)上融合傳統(tǒng)手工特征的檢測(cè)算法(hybrid deep and handcrafted feature,HDHF)[29]生成的顯著圖??梢悦黠@看出,傳統(tǒng)的手工特征依然是顯著性目標(biāo)檢測(cè)的重要特征。在這種較復(fù)雜的場(chǎng)景下,傳統(tǒng)的特征提取方法能夠根據(jù)邊界、紋理等信息提取出有對(duì)比度、有判別力的手工特征。深度特征與傳統(tǒng)手工特征實(shí)現(xiàn)了特征表示上的互補(bǔ),融合這兩種特征有利于顯著性目標(biāo)的高效檢測(cè)。
Fig.1 Schematic map of network structure圖1 網(wǎng)絡(luò)結(jié)構(gòu)示意圖
Fig.2 Comparison of methods between deep features and fusing traditional features圖2 對(duì)比深度特征和融合傳統(tǒng)特征的方法
為了提高融合特征的辨別性,被添加的淺層特征需要通過(guò)實(shí)驗(yàn)反復(fù)調(diào)整。研究者通常需要思考以下兩個(gè)問(wèn)題:神經(jīng)網(wǎng)絡(luò)中哪一層的淺層特征是有效的?融合多少層淺層特征是最佳的?考慮到本文基準(zhǔn)算法的優(yōu)異性能,本文算法將Li等[29]2016年提出的基于超像素塊提取深度和手工特征的顯著性檢測(cè)算法(HDHF)生成的顯著圖作為初始化顯著性目標(biāo)特征,與網(wǎng)絡(luò)較深層的特征圖拼接在一起,得到更具有判別性的特征表示。這種思路受益于集成學(xué)習(xí)中堆疊做法,在訓(xùn)練時(shí)會(huì)通過(guò)合理劃分?jǐn)?shù)據(jù)集的方式避免模型過(guò)擬合。
為了進(jìn)一步提升算法性能,本文考慮添加中心先驗(yàn)信息。之前的研究者認(rèn)為圖像的中心更有可能存在顯著性目標(biāo),因此嘗試給圖像的中心特征加上較高的權(quán)重或者直接通過(guò)中心先驗(yàn)得到顯著性目標(biāo)的空間位置特征。然而,如圖3,左側(cè)為原圖,中間為中心先驗(yàn)圖,右側(cè)為中心先驗(yàn)作用下的圖像,相比于遠(yuǎn)離圖像中心的顯著性目標(biāo)仙人掌,此時(shí)靠近中心的山體被判別為顯著性目標(biāo)的概率更大,因此中心先驗(yàn)失效。
Fig.3 Central priori has no effect圖3 中心先驗(yàn)失去先驗(yàn)效果
本文提出使用顯著性提名的方法檢測(cè)出目標(biāo)候選區(qū)域,如圖4所示,分別以各目標(biāo)的中心作為二維高斯分布的均值,建立顯著性目標(biāo)先驗(yàn)分布圖,以此克服傳統(tǒng)中心先驗(yàn)的弱點(diǎn),達(dá)到提升顯著性檢測(cè)性能的目的。
Fig.4 Priori distribution map of salient objects圖4 顯著性目標(biāo)先驗(yàn)分布圖
不同于利用高斯分布直接添加中心先驗(yàn)的做法,本文采用的是類似于區(qū)域提名的做法,如圖5所示,在Faster R-CNN[30]的網(wǎng)絡(luò)上進(jìn)行修改,將原先分類層的20個(gè)目標(biāo)類別設(shè)置為顯著性目標(biāo)和非顯著性目標(biāo)這兩個(gè)目標(biāo)類別,而相應(yīng)訓(xùn)練集的類別標(biāo)簽也從原先的20種替換成顯著性二元標(biāo)簽,重新訓(xùn)練得到顯著性區(qū)域提名網(wǎng)絡(luò),修改后的網(wǎng)絡(luò)可以獲得顯著性目標(biāo)的候選區(qū)域以及對(duì)應(yīng)的置信值。顯著性區(qū)域提名算法通過(guò)檢測(cè)圖片中所有目標(biāo)的潛在位置,之后分別以各區(qū)域的中心作為高斯分布的中心,構(gòu)建目標(biāo)先驗(yàn)分布。通過(guò)先驗(yàn)分布得到顯著性目標(biāo)的空間位置特征,該特征將與全局像素從深度神經(jīng)網(wǎng)絡(luò)提取的深度特征融合,得到更具有判別性的特征表示。
Fig.5 Candidate regions for salient objects圖5 顯著性目標(biāo)的候選區(qū)域
Fig.6 Schematic map of network training圖6 網(wǎng)絡(luò)訓(xùn)練示意圖
如圖6所示,在模型的訓(xùn)練過(guò)程中,當(dāng)SOD_MFF和HDHF采用相同的訓(xùn)練集時(shí),會(huì)導(dǎo)致模型因過(guò)擬合而無(wú)法收斂到更好的結(jié)果,即通過(guò)神經(jīng)網(wǎng)絡(luò)生成的顯著圖和HDHF算法生成的顯著圖相似,沒(méi)有起到互補(bǔ)的作用。因此將訓(xùn)練集合理劃分成十等份,隨機(jī)挑選三份訓(xùn)練HDHF模型中的參數(shù),而SOD_MFF模型使用完整的訓(xùn)練集訓(xùn)練,提升模型的泛化性能。
顯著性目標(biāo)檢測(cè)過(guò)程中,特征來(lái)自于全卷積神經(jīng)網(wǎng)絡(luò)提取的深度特征、HDHF算法生成的顯著性置信圖、利用目標(biāo)檢測(cè)方法Faster R-CNN[30]獲得顯著性區(qū)域的空間位置特征,通過(guò)卷積網(wǎng)絡(luò)得到最終的顯著圖。
在本章中,首先簡(jiǎn)單介紹本次的數(shù)據(jù)集及實(shí)驗(yàn)平臺(tái);然后介紹評(píng)估模型使用的評(píng)價(jià)指標(biāo);接著對(duì)網(wǎng)絡(luò)參數(shù)設(shè)置和模型的訓(xùn)練過(guò)程進(jìn)行說(shuō)明,便于后續(xù)研究者復(fù)現(xiàn)論文的實(shí)驗(yàn);最后以定性和定量的方式將本文提出的算法與當(dāng)前主流的顯著性目標(biāo)檢測(cè)技術(shù)進(jìn)行比較并進(jìn)行結(jié)果分析。
在四個(gè)常用的公開數(shù)據(jù)集上評(píng)估了本文提出的方法,這些數(shù)據(jù)集分別是MSRA-B、ECSSD、PASCALS和HKU-IS。其中MSRA-B數(shù)據(jù)集包含5 000張具有各種顯著性目標(biāo)類別的圖像,雖然部分圖像的場(chǎng)景比較復(fù)雜,但大部分圖像都只有單個(gè)顯著性目標(biāo)。而ECSSD數(shù)據(jù)集是在CSSD數(shù)據(jù)集的基礎(chǔ)上擴(kuò)展而來(lái)的,該數(shù)據(jù)集包含1 000張場(chǎng)景復(fù)雜的圖像,其中部分圖像還存在顯著性目標(biāo)結(jié)構(gòu)復(fù)雜和背景目標(biāo)難以剔除的場(chǎng)景,需要提取圖像更豐富的語(yǔ)義特征才能有效地檢測(cè)顯著性目標(biāo)。PASCAL-S是在PASCALVOC 2010分割挑戰(zhàn)賽的驗(yàn)證集基礎(chǔ)上發(fā)展而來(lái),該數(shù)據(jù)集包含850張圖像,其中的真值圖是由12個(gè)人獨(dú)立標(biāo)注,最終取閾值為0.5而成,該數(shù)據(jù)集中的大部分圖像都具有較為復(fù)雜的場(chǎng)景。HKU-IS是一個(gè)包含4 447張極具挑戰(zhàn)性圖像的大型數(shù)據(jù)集,其中的絕大部分圖像中的目標(biāo)都具有較低的對(duì)比度且單張圖像中存在多個(gè)顯著性目標(biāo),該數(shù)據(jù)集的引入增加了顯著性目標(biāo)檢測(cè)算法的檢測(cè)難度。這些常用的數(shù)據(jù)集里都包含訓(xùn)練集、驗(yàn)證集、測(cè)試集和手工標(biāo)注的二元真值圖(GT)。為了便于與其他算法進(jìn)行公平的比較,按照慣例,本文使用MSRA-B數(shù)據(jù)集中的2 500張圖像訓(xùn)練SOD_MFF,該2 500張圖像被標(biāo)記為訓(xùn)練集,驗(yàn)證集為500張圖像,剩下的2 000張圖像作為模型性能評(píng)估的測(cè)試集。為了測(cè)試SOD_MFF對(duì)存在不同偏好的其他數(shù)據(jù)集的適用性,本文在MSRA-B的訓(xùn)練集上訓(xùn)練SOD_MFF,在MSRA-B中的測(cè)試集、HKU-IS、ECSSD和PASCAL-S上比較不同算法的性能。
本次實(shí)驗(yàn)平臺(tái)使用的操作系統(tǒng)是Ubuntu 14.04.5,CPU的型號(hào)為英特爾至強(qiáng)E5-2650,主頻為2.2 GHz,GPU的型號(hào)為Nvidia TITANX Pascal,單張顯卡內(nèi)存為12 GB,訓(xùn)練模型時(shí)同時(shí)使用了5塊該種型號(hào)的顯卡。
準(zhǔn)確率-召回率曲線被廣泛用來(lái)驗(yàn)證顯著性對(duì)象檢測(cè)算法。通過(guò)設(shè)置不同的閾值,將一個(gè)顯著圖S轉(zhuǎn)換為一個(gè)二元標(biāo)記M,然后將M與真值圖G進(jìn)行比較,分別計(jì)算出Precision和Recall的值。其中,Precision和Recall的計(jì)算公式見(jiàn)式(1)。
F-measure通常無(wú)論是精確率或召回率都不可以完全評(píng)價(jià)一個(gè)顯著圖的質(zhì)量。為此,提出了F-measure利用一個(gè)非負(fù)的權(quán)重β2作為精確率和召回率的加權(quán)調(diào)和平均,式(2)即為F-measure的計(jì)算公式:
正如許多顯著的物體檢測(cè)工作[31]所建議的那樣,β2通常被設(shè)置為0.3以更多地權(quán)衡精確率,因?yàn)檠芯空甙l(fā)現(xiàn)召回率并不像精確度那么重要。例如,通過(guò)將整張圖設(shè)置為前景,可以容易地實(shí)現(xiàn)100%的召回率。
平均絕對(duì)誤差(mean absolute error,MAE)對(duì)于某些特定的應(yīng)用,連續(xù)顯著圖的質(zhì)量可能比二元標(biāo)記更重要。為了進(jìn)行更加全面的比較,采用評(píng)估連續(xù)顯著圖S和二元真值G之間的平均絕對(duì)誤差,二者均在[0,1]范圍內(nèi)歸一化。MAE分值定義為式(3):
本文提出的算法基于caffe[32]深度學(xué)習(xí)框架實(shí)現(xiàn),本節(jié)將介紹在caffe環(huán)境下神經(jīng)網(wǎng)絡(luò)訓(xùn)練的參數(shù)設(shè)置及與網(wǎng)絡(luò)訓(xùn)練過(guò)程,其中網(wǎng)絡(luò)參數(shù)設(shè)置如表1所示。
Table 1 Parameter settings for SMR_GPF network表1 SMR_GPF網(wǎng)絡(luò)參數(shù)設(shè)置
SOD_MFF的網(wǎng)絡(luò)結(jié)構(gòu)主要是基于VGG16網(wǎng)絡(luò)而設(shè)計(jì)的,訓(xùn)練過(guò)程中,通過(guò)反向傳播算法統(tǒng)一優(yōu)化包括特征聯(lián)結(jié)前后的整個(gè)網(wǎng)絡(luò)中各層的參數(shù)。如圖7所示,本節(jié)將主要闡述網(wǎng)絡(luò)的訓(xùn)練過(guò)程。
Fig.7 Training diagram of neural network圖7 本文神經(jīng)網(wǎng)絡(luò)訓(xùn)練流程圖
(1)劃分?jǐn)?shù)據(jù)集:對(duì)于每個(gè)評(píng)估數(shù)據(jù)集,將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集三部分。
(2)制作顯著性邊界框檢測(cè)數(shù)據(jù)集:對(duì)于數(shù)據(jù)集中每個(gè)樣本的真實(shí)顯著圖(GT),利用洪水填充(flood fill)算法分割每個(gè)顯著性目標(biāo)(即標(biāo)記連通圖),并根據(jù)每個(gè)目標(biāo)得到每個(gè)顯著性目標(biāo)的邊界框,將該樣本下所有的顯著性目標(biāo)以邊界框的形式保存為xml文件。
(3)根據(jù)上一步制作的邊界框檢測(cè)數(shù)據(jù)集,在訓(xùn)練集上基于Faster R-CNN網(wǎng)絡(luò)訓(xùn)練顯著性邊界框檢測(cè)模型。
(4)獲得顯著性候選區(qū)域:根據(jù)上一步得到的顯著性邊界框檢測(cè)模型對(duì)所有訓(xùn)練集和驗(yàn)證集的樣本進(jìn)行顯著性邊界框檢測(cè),為了能夠?qū)⒃撔畔⑶度氲缴窠?jīng)網(wǎng)絡(luò)中,本文算法依據(jù)檢測(cè)得到的邊界框和置信值生成多元高斯分布圖,多元高斯分布圖中每一個(gè)峰值為顯著性區(qū)域的置信值,分布圖中大于0的區(qū)域即為顯著性的候選區(qū)域。
(5)獲得初始顯著圖:利用訓(xùn)練集數(shù)據(jù)對(duì)基于超像素塊提取深度和手工特征的顯著性檢測(cè)算法(HDHF)中的分類網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并通過(guò)驗(yàn)證集數(shù)據(jù)訓(xùn)練每個(gè)超像素粒度下模型結(jié)果的權(quán)重,最終得到完整的HDHF模型。
(6)根據(jù)上一步得到的HDHF模型對(duì)所有訓(xùn)練集和驗(yàn)證集的樣本進(jìn)行顯著性檢測(cè)得到初始顯著圖。
(7)為了能夠在預(yù)訓(xùn)練模型VGG16上進(jìn)行微調(diào),對(duì)訓(xùn)練集和驗(yàn)證集中所有樣本的圖像進(jìn)行預(yù)處理,數(shù)據(jù)預(yù)處理過(guò)程包括:圖像均值化、RGB圖像維度轉(zhuǎn)換為BGR圖像。
(8)利用訓(xùn)練集和驗(yàn)證集的樣本訓(xùn)練本文網(wǎng)絡(luò)的模型:對(duì)于網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì),以預(yù)處理后的原始圖像、第4步得到的顯著性多元高斯分布圖和第6步得到的初始顯著圖同時(shí)作為網(wǎng)絡(luò)的輸入,在經(jīng)過(guò)若干個(gè)卷積層之后得到圖像的深度特征圖,將尺度縮放后的多元高斯分布圖、初始顯著圖與深度特征圖按照相同坐標(biāo)不同通道的方式進(jìn)行拼接。然后繼續(xù)利用多層卷積網(wǎng)絡(luò)向前傳播。網(wǎng)絡(luò)參數(shù)進(jìn)行合理設(shè)置之后,對(duì)設(shè)計(jì)的網(wǎng)絡(luò)進(jìn)行訓(xùn)練得到最終的顯著性檢測(cè)SOD_MFF模型。
(9)對(duì)于測(cè)試集中的每一幅圖像,與第(7)步同樣的預(yù)處理方式對(duì)圖像進(jìn)行預(yù)處理,同時(shí)結(jié)合顯著性多元高斯分布圖和初始顯著圖作為網(wǎng)絡(luò)的輸入數(shù)據(jù),根據(jù)測(cè)試網(wǎng)絡(luò)的前向計(jì)算得到最終尺度較小的顯著圖,利用B樣條插值算法將其上采樣至原始圖像大小一致的顯著圖,這樣的顯著圖即為最終所需要的顯著性檢測(cè)結(jié)果。
雖然SOD_MFF使用MSRA-B中的2 500個(gè)訓(xùn)練樣本訓(xùn)練模型需要大約30 h,已經(jīng)訓(xùn)練好的模型(SOD_MFF)在400×300大小的測(cè)試圖像中僅需2.3 s就可以完成顯著性目標(biāo)檢測(cè)的任務(wù)。與當(dāng)前一些先進(jìn)的基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)算法相比,該方法都有較為明顯的優(yōu)勢(shì)。實(shí)驗(yàn)結(jié)果證明,SOD_MFF的性能已經(jīng)優(yōu)于現(xiàn)有的先進(jìn)方法。
將本文提出的基于多特征融合的顯著性目標(biāo)檢測(cè)算法(SOD_MFF)與當(dāng)前深度學(xué)習(xí)應(yīng)用于顯著性目標(biāo)檢測(cè)領(lǐng)域的先進(jìn)算法進(jìn)行比較。同時(shí),一些經(jīng)典的基于手工特征判別的顯著性目標(biāo)檢測(cè)算法也參與性能的比較。對(duì)比算法有:FT(frequency-tuned)、GC(global contrast)、HS(hierarchical saliency)、PISA(pixelwise image saliency by aggregating complementary appearance contrast measures)、LEGS(local estimation and global search)[10]、MC(multi-context)[11]、DCL(deep contrast learning)[20]、MDF(multiscale deep feature)[18]和HDHF[29]。本文使用提供的開源代碼復(fù)現(xiàn)實(shí)驗(yàn)結(jié)果或者提供的顯著圖進(jìn)行相關(guān)性能比較。
如圖8,給出了本文提出的方法在4個(gè)公開的數(shù)據(jù)集上對(duì)比當(dāng)前顯著性目標(biāo)檢測(cè)先進(jìn)算法的直觀展示。前兩行是顯著性目標(biāo)與圖像背景存在對(duì)比差異較小的情況,中間兩行是顯著圖中顯著性目標(biāo)內(nèi)部組成部分較為復(fù)雜的情況,后兩行是顯著性目標(biāo)與圖像邊緣相接觸的情況。第一列為測(cè)試集中的原圖,第二列為手工標(biāo)記的二元真值圖(GT),第三列為本文提出的SOD_MFF算法生成的顯著圖,后面的9列為當(dāng)前先進(jìn)的顯著性目標(biāo)檢測(cè)深度學(xué)習(xí)算法和經(jīng)典的基于傳統(tǒng)手工特征的顯著性目標(biāo)檢測(cè)算法生成的顯著圖。為了突出本文提出的SOD_MFF對(duì)于復(fù)雜場(chǎng)景下的顯著性目標(biāo)檢測(cè)依然非常高效,從4個(gè)公開數(shù)據(jù)集的近11 500張圖像中找到了極具代表性的6張圖像進(jìn)行對(duì)比展示。前兩行圖像選取的背景較為復(fù)雜且目標(biāo)區(qū)域與其相鄰的背景區(qū)域?qū)Ρ榷容^小,僅憑手工特征或淺層特征都無(wú)法得到令人滿意的結(jié)果。中間兩行圖像選取的圖像特點(diǎn)是目標(biāo)區(qū)域由多個(gè)對(duì)比度較大的小區(qū)域組成,如果不借助通過(guò)深度語(yǔ)義信息進(jìn)行判別,很難獲得完整的顯著性目標(biāo)。最后兩行圖像的顯著性目標(biāo)不再集中在圖像的中心區(qū)域,而都與圖像邊緣有接觸。通過(guò)觀察發(fā)現(xiàn),可以直觀地發(fā)現(xiàn)本文提出的SOD_MFF效果優(yōu)于與其進(jìn)行對(duì)比的其他9種算法。具體定量化的算法性能比較見(jiàn)表2所示。
Fig.8 Visual comparison of saliency maps generated by different algorithms圖8 不同算法生成顯著圖的視覺(jué)對(duì)比
如圖9所示為本文提出的SOD_MFF算法與其他顯著性目標(biāo)檢測(cè)算法在PR曲線上的比較。如圖10所示為SOD_MFF算法與其他對(duì)比算法在精確率、召回率和F值的量化比較。從兩張圖可以明顯看出,本文提出的SOD_MFF在上述公開數(shù)據(jù)集上的性能明顯優(yōu)于其他所有對(duì)比算法的性能。對(duì)比之前算法的maxF(maxF-measure,數(shù)值越大性能越好),SOD_MFF比HDHF、MDF和DCL在4個(gè)數(shù)據(jù)集上平均分別提高了3.45%、4.43%和2%,maxF-measure指標(biāo)上優(yōu)勢(shì)明顯;對(duì)于評(píng)價(jià)指標(biāo)MAE(數(shù)值越小性能越好),本文提出來(lái)的SOD_MFF比HDHF、MDF和DCL在4個(gè)數(shù)據(jù)集上平均分別減少了2.83%、3.6%和1.73%,使得最終的顯著圖更接近給定的真值圖(GT)。在檢測(cè)單幅圖像的顯著性目標(biāo)時(shí),本文提出的SOD_MFF算法與現(xiàn)有基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)算法相比,耗時(shí)差異不明顯,檢測(cè)結(jié)果的正確率卻有明顯的提升。
Table 2 Quantitative comparison of experimental results表2 實(shí)驗(yàn)結(jié)果的定量化比較
Fig.9 Comparison of PR curves between SOD_MFF and other algorithms圖9 SOD_MFF與對(duì)比算法的PR曲線之間的比較
Fig.10 Comparison of Precision,Recalland F-measure between SOD_MFF and other algorithms圖10 SOD_MFF與對(duì)比算法Precision,Recall和F值的比較
本文提出了一種新穎的顯著性目標(biāo)檢測(cè)算法:基于多特征融合的顯著性目標(biāo)檢測(cè)算法。它訓(xùn)練一個(gè)顯著性目標(biāo)檢測(cè)網(wǎng)絡(luò),并且以HDHF模型的預(yù)測(cè)顯著圖作為特征,此外通過(guò)顯著性提名網(wǎng)絡(luò)確定候選區(qū)域,在各候選區(qū)域添加中心先驗(yàn)作為特征。經(jīng)過(guò)10種算法在4個(gè)極具挑戰(zhàn)性的數(shù)據(jù)集上測(cè)試對(duì)比后發(fā)現(xiàn),在背景存在較多噪聲干擾的情況下,本文提出的SOD_MFF性能明顯比其他當(dāng)前主流算法更具有競(jìng)爭(zhēng)力。