• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于多任務(wù)深度卷積神經(jīng)網(wǎng)絡(luò)的顯著性對象檢測算法

      2018-03-20 00:43:02李建平陳雷霆
      計(jì)算機(jī)應(yīng)用 2018年1期
      關(guān)鍵詞:邊緣卷積顯著性

      楊 帆,李建平,李 鑫,陳雷霆

      (電子科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,成都 611731)(*通信作者電子郵箱fanyang_uestc@hotmail.com)

      0 引言

      視覺顯著性可以幫助人類快速地過濾掉不重要的信息,讓我們的注意力更加集中在有意義的區(qū)域,從而能更好地理解眼前的場景。隨著計(jì)算機(jī)視覺技術(shù)的發(fā)展,大家希望電腦也能擁有和人類相同的能力,即在分析和理解一個(gè)復(fù)雜的場景時(shí),電腦可以更加有針對性地處理有用的信息,從而能大幅度降低算法的復(fù)雜度,并且排除雜波的干擾。一般來說,視覺顯著性算法主要可以被分為兩大類:1)眼動估計(jì);2)顯著性對象檢測。本文的工作主要針對第2)類問題進(jìn)行研究。顯著性對象檢測算法的目標(biāo)是檢測圖像(輸入場景)中最能吸引人注意的整個(gè)對象區(qū)域。目前,顯著性對象檢測算法被廣泛運(yùn)用于計(jì)算機(jī)視覺和多媒體領(lǐng)域的任務(wù)中,包括對象追蹤[1]、對象發(fā)現(xiàn)[2]、對象識別[3]、稠密匹配[4]、圖像檢索[5]等。

      顯著性對象檢測不受限于對象的類別、尺寸大小、位置、個(gè)數(shù),這些不確定因素使得它成為目前計(jì)算機(jī)視覺和人工智能領(lǐng)域中的一個(gè)難題。在傳統(tǒng)做法中,研究人員根據(jù)觀察到的各種先驗(yàn)知識對顯著性對象檢測算法進(jìn)行建模,生成顯著性圖。這些先驗(yàn)知識包括:對比度、中心先驗(yàn)、邊緣先驗(yàn)、語義先驗(yàn)等,但在復(fù)雜的場景中,傳統(tǒng)方法往往不夠準(zhǔn)確。這是因?yàn)檫@些觀察往往限于低級別的特征(例如,顏色和對比度等),而不能準(zhǔn)確反映出顯著性對象本質(zhì)的共同點(diǎn)。

      近年來,深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)廣泛運(yùn)用于計(jì)算機(jī)視覺的各個(gè)領(lǐng)域,很多困難的視覺問題都獲得了重大的進(jìn)展。不同于傳統(tǒng)方法,深度卷積網(wǎng)絡(luò)可以從大量的樣本中建模并且自動地、端到端地學(xué)習(xí)到更為本質(zhì)的特征,從而有效地避免了傳統(tǒng)人工建模和設(shè)計(jì)特征的弊端。在顯著性對象檢測領(lǐng)域,深度卷積網(wǎng)絡(luò)也被廣泛地使用[6-8],并且大幅度地提高了顯著性對象檢測的準(zhǔn)確性和魯棒性,但是由于深度網(wǎng)絡(luò)需要大量運(yùn)用的池化操作(例如max-pooling和average-pooling)編碼上下文信息,這些方法總是不能很好地保存對象邊緣的信息,而事實(shí)上,對象的邊緣信息對于顯著性檢測非常重要。認(rèn)知科學(xué)的研究也表明:人的視覺注意力在對象中流動并且被對象邊緣所阻擋。忽略這些邊緣信息或者不能正確編碼這些邊緣信息,往往只能得到次優(yōu)的結(jié)果。

      針對邊緣信息被忽略的問題,本文提出一種全新的顯著性對象檢測模型,該模型基于一個(gè)新設(shè)計(jì)的多任務(wù)的卷積神經(jīng)網(wǎng)絡(luò),并且該模型同時(shí)訓(xùn)練和學(xué)習(xí)顯著性區(qū)域和邊緣信息。不同于現(xiàn)存單一任務(wù)的深度學(xué)習(xí)方法,本文檢測結(jié)果的生成同時(shí)依賴于顯著性對象邊緣和區(qū)域的信息。在三個(gè)廣泛使用的顯著性對象檢測公共數(shù)據(jù)庫上的實(shí)驗(yàn)結(jié)果表明,本文所提方法在準(zhǔn)確率、召回率以及均方誤差上均優(yōu)于傳統(tǒng)算法和單一任務(wù)的深度學(xué)習(xí)算法。

      1 相關(guān)工作

      顯著性對象檢測算法可以被歸納為兩個(gè)類別:傳統(tǒng)方法和基于深度學(xué)習(xí)的方法。傳統(tǒng)方法主要基于各種不同的先驗(yàn)知識,然后利用這些先驗(yàn)知識進(jìn)行數(shù)學(xué)建模,從而計(jì)算出每個(gè)像素的顯著性值。Cheng等[9]利用全局對比度計(jì)算對象的顯著性圖,該方法認(rèn)為人的注意力總是傾向于那些對比度(全局對比度或者局部對比度)比較強(qiáng)烈的區(qū)域,從而可以通過顏色直方圖的計(jì)算,快速找出圖像中那些對比度強(qiáng)烈的區(qū)域。除此之外,邊緣先驗(yàn)也廣泛地運(yùn)用在顯著性對象檢測算法中,并衍生出各種類型的算法。這類算法假設(shè)圖像邊緣的區(qū)域往往不是顯著性對象的區(qū)域,因?yàn)槿藗冊谌粘E恼盏倪^程中,總是將顯著性的對象置于相對中間的位置。其中基于流形排序的散射算法[10]、基于二值圖的顯著性檢測算法[11]、基于邊緣接觸的顯著性對象檢測算法[12]等都取得了不錯(cuò)的效果。除此之外,監(jiān)督學(xué)習(xí)的方法也運(yùn)用在顯著性對象檢測的任務(wù)中[13]。另外,Li等[14]提出構(gòu)建顯著性的特征,并且建立與已有樣本的稠密對應(yīng)關(guān)系,從而引導(dǎo)顯著性對象的檢測。傳統(tǒng)方法運(yùn)用各種觀察和先驗(yàn)知識進(jìn)行數(shù)學(xué)建模,從而檢測出圖像或者場景中的顯著性對象。因?yàn)檫@些方法總是缺少了足夠的語義信息,所以它們不可避免地會在應(yīng)對復(fù)雜場景和先驗(yàn)矛盾的情況下失效。

      由于深度卷積網(wǎng)絡(luò)強(qiáng)大的建模能力和自動的端到端的學(xué)習(xí)方式,很多近期的工作基于深度卷積網(wǎng)絡(luò)學(xué)習(xí)有效的特征,從而進(jìn)行顯著性對象檢測。例如:文獻(xiàn)[6]利用更加豐富的上下文信息學(xué)習(xí)顯著性對象區(qū)域等;文獻(xiàn)[7]基于一個(gè)多尺度編碼上下文的深度卷積網(wǎng)絡(luò)進(jìn)行顯著性對象檢測;文獻(xiàn)[8]同時(shí)編碼傳統(tǒng)特征向量和深度特征向量,利用它們的互補(bǔ)優(yōu)勢進(jìn)行顯著性對象檢測;文獻(xiàn)[15]基于一個(gè)多流卷積網(wǎng)絡(luò)學(xué)習(xí)顯著性對象的特征;文獻(xiàn)[16]通過兩個(gè)獨(dú)立的深度神經(jīng)網(wǎng)絡(luò)分別計(jì)算區(qū)域和邊界信息,并且利用條件隨機(jī)場進(jìn)行優(yōu)化。這些方法相對傳統(tǒng)顯著性對象檢測方法大幅度提高了檢測的準(zhǔn)確率,但是由于深度網(wǎng)絡(luò)的池化操作不能更好地保存對象的邊緣信息(也稱邊緣信息損失),因而導(dǎo)致整個(gè)對象區(qū)域的邊緣模糊。為了解決上述問題,稠密條件隨機(jī)場(Dense Conditional Random Field)被廣泛地運(yùn)用來優(yōu)化深度網(wǎng)絡(luò)檢測的結(jié)果,進(jìn)而得到完整的區(qū)域和清晰的邊緣;但是稠密條件隨機(jī)場的計(jì)算比較耗時(shí),而且由于稠密條件隨機(jī)場基于低級別的圖像特征(比如顏色),因而它在應(yīng)對復(fù)雜場景時(shí),也并不是特別有效。綜上所述,基于深度卷積網(wǎng)絡(luò)的顯著性對象檢測算法仍然有較大的提升空間。

      2 基于多任務(wù)深度CNN的顯著性對象檢測

      本文提出的顯著性對象檢測算法主要基于一個(gè)多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)。不同于現(xiàn)有基于卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行顯著性對象檢測的框架,本文提出的多任務(wù)深度卷積網(wǎng)絡(luò)同時(shí)進(jìn)行顯著性對象區(qū)域和邊緣兩種特征的學(xué)習(xí),并且它們共享同一個(gè)底層表達(dá)。該網(wǎng)絡(luò)的輸入為任意一張圖像,輸出為一個(gè)顯著性對象區(qū)域的檢測結(jié)果以及一個(gè)顯著性邊緣的檢測結(jié)果。根據(jù)邊緣的檢測結(jié)果,生成一系列候選區(qū)域,這些區(qū)域結(jié)合顯著性區(qū)域的檢測結(jié)果重新進(jìn)行排序并且加權(quán)求和,從而最后生成最終的顯著性圖。

      2.1 多任務(wù)深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

      多任務(wù)深度卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)是同時(shí)對圖像的邊緣和區(qū)域信息進(jìn)行編碼。如圖1所示,在編碼過程中(encode process),該網(wǎng)絡(luò)共享一個(gè)VGG- 16網(wǎng)絡(luò),在解碼過程(decode process)中,該網(wǎng)絡(luò)包括一個(gè)顯著性區(qū)域檢測分支以及一個(gè)顯著性邊緣檢測分支。其中顯著性對象區(qū)域檢測子網(wǎng)絡(luò)是一個(gè)整體嵌套網(wǎng)絡(luò)(holistically-nested network)[17],顯著性對象邊緣檢測是一個(gè)反卷積網(wǎng)絡(luò)(deconvnet)。在訓(xùn)練的過程中,采取交互的方式訓(xùn)練這個(gè)網(wǎng)絡(luò):先固定顯著性對象邊緣檢測子網(wǎng)絡(luò),訓(xùn)練顯著性對象區(qū)域子網(wǎng)絡(luò);然后固定顯著性對象區(qū)域檢測子網(wǎng)絡(luò),調(diào)整(fine-tune)顯著性對象邊緣檢測子網(wǎng)絡(luò)。上述過程交替執(zhí)行,直到損失函數(shù)(loss function)不再下降為止。在執(zhí)行的過程中,輸入一張圖像,深度卷積網(wǎng)絡(luò)自動同時(shí)生成顯著性對象區(qū)域圖和顯著性對象邊緣圖。值得注意的是,兩個(gè)子網(wǎng)絡(luò)共享同一個(gè)底層VGG- 16網(wǎng)絡(luò),因而它們可以保持一定的相關(guān)性,從而更加準(zhǔn)確。

      圖1 多任務(wù)深度卷積網(wǎng)絡(luò)整體框架結(jié)構(gòu)

      2.2 顯著性對象區(qū)域檢測子網(wǎng)絡(luò)

      顯著性對象檢測是一個(gè)相對復(fù)雜的任務(wù),它不僅需要高層次的語義信息,還需要低層次的局部信息,因而本文提出的顯著性對象區(qū)域檢測子網(wǎng)絡(luò)同時(shí)融合VGG- 16的淺層信息和深層信息。類似于整體嵌套網(wǎng)絡(luò),將VGG- 16每個(gè)組的最后一層作為邊緣特征輸出(side-output),另外在每個(gè)邊緣輸出中加入一個(gè)卷積層,從而更好地編碼上下文信息。

      顯著性對象區(qū)域檢測子網(wǎng)路的輸入為一張任意圖像I,輸出為顯著性區(qū)域概率圖ψ(I;θR),其中θR為顯著性對象區(qū)域檢測子網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)。該網(wǎng)絡(luò)學(xué)習(xí)多尺度顯著性對象區(qū)域特征,然后利用一個(gè)融合網(wǎng)絡(luò)整合各個(gè)尺度計(jì)算的顯著性對象的預(yù)測結(jié)果,并且得出最終的顯著性區(qū)域概率圖。VGG- 16有6個(gè)不同的尺度,其中最后一個(gè)尺度更多地整合全局信息,而顯著性對象檢測是一個(gè)像素級的分類問題,因而只利用VGG- 16的前5個(gè)尺度進(jìn)行顯著性對象區(qū)域的檢測,并且每個(gè)尺度對應(yīng)分類器的權(quán)重為ki,其中i=1,2,…,5。本文運(yùn)用標(biāo)準(zhǔn)交叉熵代價(jià)函數(shù)(cross-entropy loss)去訓(xùn)練整個(gè)網(wǎng)絡(luò),計(jì)算每個(gè)像素和標(biāo)注的差值。顯著性對象區(qū)域子網(wǎng)絡(luò)每個(gè)尺度的代價(jià)函數(shù)被定義為:

      (1)

      (2)

      通過上述代價(jià)函數(shù)訓(xùn)練,顯著性對象區(qū)域檢測子網(wǎng)絡(luò)可以有效地對圖像的顯著性區(qū)域進(jìn)行預(yù)測。然而正如前文討論,由于深度卷積網(wǎng)絡(luò)固有的信息損失的缺陷(如圖2所示),該網(wǎng)絡(luò)并不能完整地保存對象的邊緣信息,因此在該網(wǎng)絡(luò)基礎(chǔ)上,設(shè)計(jì)了另一個(gè)重要分支,對顯著性對象邊緣的特征進(jìn)行有效的學(xué)習(xí)和提取。

      2.3 顯著性對象邊緣檢測子網(wǎng)絡(luò)

      如圖1所示,顯著性對象邊緣檢測網(wǎng)絡(luò)分支是一個(gè)反卷積網(wǎng)絡(luò)。理論上,反卷積網(wǎng)絡(luò)可以看成是卷積網(wǎng)絡(luò)的逆過程,即將上層的卷積圖作為輸入,然后進(jìn)行反卷積操作,得到新的卷積圖。如表1所示,在本文的多任務(wù)深度卷積神經(jīng)網(wǎng)絡(luò)中設(shè)計(jì)了6個(gè)反卷積層,分別對應(yīng)了VGG- 16的6個(gè)尺度。顯著性對象邊緣子網(wǎng)絡(luò)的設(shè)計(jì)參考文獻(xiàn)[18],但是這里的任務(wù)是顯著性對象的檢測,而不是給定類別的對象邊緣檢測,因此,在訓(xùn)練的過程中,運(yùn)用大量顯著性圖的人工標(biāo)注,提取出邊緣,并且進(jìn)行自動的端到端的學(xué)習(xí),從而學(xué)習(xí)到每個(gè)反卷積網(wǎng)絡(luò)的參數(shù)。代價(jià)函數(shù)仍然為交叉熵代價(jià)函數(shù)計(jì)算顯著性對象邊緣:

      (1-Bp) lnP(Bp=0|I;θB)

      (3)

      其中:Bp表示坐標(biāo)p對應(yīng)的邊緣標(biāo)注,θB表示反卷積網(wǎng)絡(luò)的所有參數(shù)。因而,整個(gè)多任務(wù)深度卷積網(wǎng)絡(luò)的代價(jià)函數(shù)可以定義為:

      Lall(θ)=Lfuse(θ)+Lb(θ)

      (4)

      其中Lall(θ)為整個(gè)多任務(wù)深度卷積網(wǎng)絡(luò)的代價(jià)函數(shù)?;谏疃葘W(xué)習(xí)的框架,本文用隨機(jī)梯度下降的方式求解上述代價(jià)函數(shù)和訓(xùn)練模型,從而訓(xùn)練好整個(gè)模型。

      在測試時(shí),多任務(wù)深度卷積網(wǎng)絡(luò)的輸入為任意一張圖像,輸出為一個(gè)顯著性對象區(qū)域概率圖和一個(gè)顯著性對象邊緣概率圖。顯著性對象圖需要融合上述兩種輸出結(jié)果,從而得到一個(gè)更好的顯著性檢測結(jié)果。

      表1 顯著性對象邊緣檢測子網(wǎng)絡(luò)參數(shù)設(shè)置

      2.4 顯著性對象圖生成

      如圖2,為了融合顯著性對象區(qū)域和邊緣的所有信息,首先利用顯著性對象邊緣的概率圖,并且通過多尺度聯(lián)合分組算法[19],生成大量的候選區(qū)域,再結(jié)合多任務(wù)深度卷積網(wǎng)絡(luò)輸出的顯著性對象區(qū)域檢測的結(jié)果,并通過以下方式重新計(jì)算這些候選區(qū)域?yàn)轱@著性對象區(qū)域的概率:

      (5)

      (6)

      其中:Scorep(Ri)表示像素p由第i個(gè)候選區(qū)域決定的顯著性分?jǐn)?shù);Norm{·}表示歸一化操作,即最后需要將相加的值重新歸化到[0,1]。

      圖2 顯著性對象圖生成框架

      2.5 訓(xùn)練和測試細(xì)節(jié)

      本文運(yùn)用MSRA- 10000[9]作為訓(xùn)練數(shù)據(jù)。對于每個(gè)訓(xùn)練的樣本,首先將它們的尺度調(diào)整為224×224。邊緣標(biāo)注是通過對顯著性圖進(jìn)行梯度計(jì)算提取出來。本文運(yùn)用“poly”學(xué)習(xí)率衰減方式訓(xùn)練整個(gè)網(wǎng)絡(luò),并且學(xué)習(xí)衰減率被定義為(1-iter/maxiter)power;同時(shí)將初始的學(xué)習(xí)率設(shè)置為10-7,并且power=0.9,最大循環(huán)次數(shù)為60 000,運(yùn)用隨機(jī)梯度下降法,去優(yōu)化整個(gè)網(wǎng)絡(luò)。因?yàn)楸疚牡木W(wǎng)絡(luò)為一個(gè)多任務(wù)網(wǎng)絡(luò),因此在訓(xùn)練的過程中,需要先固定顯著性對象區(qū)域檢測子網(wǎng)絡(luò),學(xué)習(xí)顯著性對象邊緣檢測子網(wǎng)絡(luò)的參數(shù);之后再固定顯著性對象邊緣檢測子網(wǎng)絡(luò),學(xué)習(xí)顯著性對象區(qū)域檢測子網(wǎng)絡(luò)的參數(shù)。上述訓(xùn)練交替進(jìn)行直到代價(jià)函數(shù)收斂,整個(gè)訓(xùn)練過程耗時(shí)24 h左右。

      測試過程中,僅僅只需要輸入任意一張圖像,網(wǎng)絡(luò)會自動生成它對應(yīng)的顯著性區(qū)域圖和顯著性對象邊緣圖作為輸出。之后本文利用網(wǎng)絡(luò)輸出結(jié)果,根據(jù)2.4節(jié)描述,生成最終的顯著性對象圖。

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 數(shù)據(jù)庫和對比方法

      運(yùn)用3個(gè)廣泛使用的顯著性對象檢測數(shù)據(jù)庫,包括擴(kuò)展的復(fù)雜場景顯著性數(shù)據(jù)集(Extended Complex Scene Saliency Dataset, ECSSD)[20]、大連理工-歐姆龍顯著性數(shù)據(jù)集(DUT-OMRON)[10]以及帕斯卡數(shù)據(jù)集(PASCAL-S)[21],作為測試數(shù)據(jù),驗(yàn)證本文所提方法的有效性。其中ECSSD中有1 000幅圖像,這些圖像包含一個(gè)或者多個(gè)顯著性對象,并且具有非常復(fù)雜的場景;DUT-OMRON是另外一個(gè)最具有挑戰(zhàn)的顯著性對象檢測數(shù)據(jù)庫,含有5 168幅特別具有挑戰(zhàn)的圖像,這些圖像包含非常復(fù)雜的場景;PASCAL-S被認(rèn)為是目前最難的數(shù)據(jù)庫之一,它包含850幅圖像,這些圖像含有一個(gè)或者多個(gè)對象,并且這些對象具有不同的顯著值。上述三個(gè)數(shù)據(jù)庫被廣泛運(yùn)用于驗(yàn)證顯著性對象檢測算法的有效性。

      為了進(jìn)一步驗(yàn)證本文方法的優(yōu)越性,將本文提出的方法與目前常見的顯著性對象檢測算法進(jìn)行比較。這些方法分為兩類:第一類是公認(rèn)準(zhǔn)確度排名較高的傳統(tǒng)方法,包括顯著性區(qū)域融合(Discriminative Regional Feature Integration, DRFI)[13]算法、基于最小障礙(Minimum Barrier, MB+)[22]顯著性檢測算法、基于流排序(Manifold Ranking, MR)[10]顯著性檢測算法、基于魯棒背景檢測(Robust Background Detection, RBD)[12]顯著性優(yōu)化、基于高維顏色變換(High-Dimensional Color Transform, HDCT)[23]顯著性檢測、基于二值圖包圍方式(Boolean Map Saliency, BMS)[11]顯著性檢測。第二類為目前基于深度學(xué)習(xí)的顯著性對象檢測算法,包括:基于多信息深度學(xué)習(xí)(Multi-Context, MC)[6]顯著性檢測、基于多尺度深度紋理(Multi-scale Deep Feature, MDF)[24]顯著性檢測、基于距離圖深度(Encoded Low-level Distance, ELD)[8]顯著性檢測。

      3.2 準(zhǔn)確率-召回率曲線

      準(zhǔn)確率-召回率曲線被廣泛用來驗(yàn)證顯著性對象檢測算法。通過設(shè)置不同的閾值,從而計(jì)算各個(gè)方法檢測結(jié)果準(zhǔn)確率和召回率。如圖3所示,本文提出的方法在三個(gè)廣泛使用的數(shù)據(jù)集上都獲得最高的準(zhǔn)確率-召回率??偟膩碚f,基于深度卷積網(wǎng)絡(luò)的方法具有更高的準(zhǔn)確率。這是因?yàn)樯疃染矸e網(wǎng)絡(luò)在學(xué)習(xí)的過程中能更好地捕獲高級的語義信息,因而能更好地應(yīng)對復(fù)雜的場景。傳統(tǒng)方法(包括DRFI、MB+、MR、RBD、HDCT、BMS)在處理復(fù)雜場景時(shí)(例如DUT-OMRON和PASCAL-S數(shù)據(jù)庫中的圖像),由于它們基于觀察所得的線索進(jìn)行數(shù)學(xué)建模,而這些線索并不能完全覆蓋所有情形,因而不能很好地應(yīng)對復(fù)雜的場景。除此之外,本文方法由于克服了深度卷積神經(jīng)網(wǎng)絡(luò)邊緣信息損失缺陷,因而取得更準(zhǔn)確的顯著性圖。

      3.3 F-measure

      為了進(jìn)一步驗(yàn)證本文所提方法,除了準(zhǔn)確率-召回率曲線,本文還運(yùn)用F-measure(Fβ)對提出的方法進(jìn)行驗(yàn)證和比較。F-measure也一種驗(yàn)證顯著性對象檢測算法的方法,通過如下公式計(jì)算:

      (7)

      其中β為權(quán)重,參照文獻(xiàn)[11,13,22],本文設(shè)置β=0.3,強(qiáng)調(diào)precision的重要性。F-measure值越高表明算法檢測顯著性對象檢測的準(zhǔn)確度越高。表2總結(jié)了本文所提方法與常見的顯著性對象檢測算法在三個(gè)廣泛使用的標(biāo)準(zhǔn)數(shù)據(jù)庫上的檢測結(jié)果。

      圖3 不同方法的準(zhǔn)確率-召回率曲線

      Tab. 2 Detection results comparison of different methods on three widely-used benchmarks

      從表2可以得出:1)相比傳統(tǒng)顯著性對象檢測算法,基于深度學(xué)習(xí)的顯著性對象檢測算法能夠計(jì)算出準(zhǔn)確度高的結(jié)果;2)本文所提方法在三個(gè)具有挑戰(zhàn)性的數(shù)據(jù)庫上都獲得最高準(zhǔn)確率;3)本文所提方法魯棒性相對較高,在不同難度數(shù)據(jù)庫上都獲得較高的準(zhǔn)確率。

      3.4 平均絕對誤差

      平均絕對誤差(Mean Absolute Error, MAE)是指顯著性圖和人工標(biāo)注的均方誤差,常常作為驗(yàn)證顯著性對象檢測的重要指標(biāo)。MAE是計(jì)算檢測出的顯著性圖的每個(gè)像素和人工標(biāo)注顯著性圖的每個(gè)像素的平均絕對誤差:

      (8)

      其中:W和H分別表示顯著性圖的寬度和高度;S(x,y)和G(x,y)分別代表在坐標(biāo)為(x,y)處方法預(yù)測的顯著性值和人工標(biāo)注的顯著性值。

      如表2所示,本文提出的方法在三個(gè)廣泛使用的公共數(shù)據(jù)集上獲取了最低的方差錯(cuò)誤。這是因?yàn)楸疚奶岢龇椒軌蛏筛訙?zhǔn)確的結(jié)果,并且更好地保存了邊緣信息。同樣的,相比傳統(tǒng)方法,基于深度卷積網(wǎng)絡(luò)的方法取得更低的錯(cuò)誤率,而本文方法比現(xiàn)有基于深度學(xué)習(xí)的方法更能有效保存邊緣信息,防止邊緣信息丟失,因而取得準(zhǔn)確度高的結(jié)果。

      3.5 視覺比較

      視覺比較的結(jié)果如圖4中所示。和最后一列人工標(biāo)注(GroundTruth, GT)作對比,本文所提方法生成的最后結(jié)果更接近于人工標(biāo)注,本文所提方法即使在特別具有挑戰(zhàn)的場景中,仍然可以生成準(zhǔn)確的顯著性圖。相比傳統(tǒng)方法,基于深度卷積網(wǎng)絡(luò)的方法的檢測結(jié)果更加集中在正確的區(qū)域,這是因?yàn)檫@些方法能有效學(xué)習(xí)到高級的語義信息。本文所提方法由于整合了邊緣和區(qū)域的信息,因而能更有效地保存邊緣信息,在背景復(fù)雜的場景中,本文提出方法仍然具有較高的魯棒性。

      圖4 不同方法的視覺比較

      3.6 運(yùn)行效率比較

      各種方法的運(yùn)行效率比較如表3所示。

      表3 運(yùn)行效率比較 s

      由于基于深度學(xué)習(xí)的方法需要運(yùn)用GPU加速,因而本文用兩種不同的實(shí)驗(yàn)環(huán)境分別測試傳統(tǒng)方法和基于深度學(xué)習(xí)方法的運(yùn)行效率。具體來說,對于傳統(tǒng)顯著性對象檢測方法,本文的實(shí)驗(yàn)環(huán)境為Windows操作系統(tǒng),CPU為i7 2.50 GHz,內(nèi)存為8 GB;對于基于深度學(xué)習(xí)的方法,用GPU進(jìn)行加速,實(shí)驗(yàn)環(huán)境為Linux系統(tǒng),GPU為NVIDIA GTX 1080ti,顯存為11 GB。本文所提算法平均1.1 s完成一張圖像的檢測,運(yùn)行速率上低于一些高效率算法(比如MB+),但是本文所提算法卻獲得了最高的準(zhǔn)確度。另外,本文提出算法的運(yùn)行效率仍然大幅度高于現(xiàn)有的部分算法。

      4 結(jié)語

      本文提出一種基于深度卷積網(wǎng)絡(luò)的顯著性對象檢測算法。該算法能有效地整合邊緣信息和區(qū)域信息,從而獲得更高的準(zhǔn)確性。為了實(shí)現(xiàn)對象邊緣信息和區(qū)域信息的提取,本文提出了一個(gè)多任務(wù)的深度卷積網(wǎng)絡(luò),該網(wǎng)絡(luò)共享相同的底層結(jié)構(gòu),從而大幅度縮減了訓(xùn)練和運(yùn)行時(shí)間。在獲取顯著性對象邊緣和區(qū)域信息后,本文進(jìn)一步提出一個(gè)簡單、有效的整合算法,精確地過濾了錯(cuò)誤信息并且準(zhǔn)確地保存了對象邊緣信息。實(shí)驗(yàn)結(jié)果表明,本文所提的多任務(wù)深度學(xué)習(xí)框架能更好地整合顯著性對象邊緣信息和區(qū)域信息,從而能達(dá)到更好的效果。

      當(dāng)然,由于本文算法依賴于對象邊緣先驗(yàn)知識提取對象候選區(qū)域,因此對于非常復(fù)雜的場景或者對象與圖像邊緣過度接觸的情況,本文算法仍然存在不足。這些問題將在后續(xù)的研究中被逐步改善,進(jìn)一步提高算法效果。

      References)

      [1] BORJI A, FRINTROP S, SIHITE D et al. Adaptive object tracking by learning background context [C]// CVPR 2012: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2012: 23-30.

      [2] ZHU J, WU J, XU Y, et al. Unsupervised object class discovery via saliency-guided multiple class learning [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(4): 826-875.

      [3] RUTISHAUSER U, WALTHER D, KOCH C, et al. Is bottom-up attention useful for object recognition? [C]// CVPR 2004: Proceedings of the 2004 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2004: 37-44.

      [4] YANG F, LI X, CHENG H, et al. Object-aware dense semantic correspondence [C]// CVPR 2017: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2017: 2777-2785.

      [5] HE J, FENG J, LIU X, et al. Mobile product search with bag of Hash bits and boundary re-ranking [C]// CVPR 2012: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2012: 3005-3012.

      [6] ZHAO R, OUYANG W, LI H, et al. Saliency detection by multi-context deep learning [C]// CVPR 2015: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 1265-1274.

      [7] LI G B, YU Y Z. Visual saliency based on multi-scale deep features [C]// CVPR 2015: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 5455-5463.

      [8] LEE G, TAI Y W, KIM J. Deep saliency with encoded low level distance map and high level features [C]// CVPR 2016: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 660-668.

      [9] CHENG M, NILOY J, HUANG X, et al. Global contrast based salient region detection [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 569-582.

      [10] YANG C, ZHANG L, LU H, et al. Saliency detection via graph-based manifold ranking [C]// CVPR 2013: Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2013: 3166-3173.

      [11] ZHANG J, SCLAROFF S. Exploiting surroundedness for saliency detection: a Boolean map approach [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 38(5): 889-902.

      [12] ZHU W, LIANG S, WEI Y, et al. Saliency optimization from robust background detection [C]// CVPR 2014: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 2814-2821.

      [13] JIANG H, WANG J, YUAN Z, et al. Salient object detection: a discriminative regional feature integration approach [C]// CVPR 2013: Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2013: 2083-2090.

      [14] LI X, YANG F, CHEN L, et al. Saliency transfer: an example-based method for salient object detection [C]// IJCAI 2016: Proceedings of the 2016 International Joint Conference on Artificial Intelligence. Menlo Park: AAAI Press, 2016: 3411-3417.

      [15] LI X, ZHAO L, WEI L, et al. DeepSaliency: multi-task deep neural network model for salient object detection [J]. IEEE Transactions on Image Processing, 2016, 25(8): 3919-3930.

      [16] 李岳云,許悅雷,馬時(shí)平,等.深度卷積神經(jīng)網(wǎng)絡(luò)的顯著性檢測[J].中國圖象圖形學(xué)報(bào),2016,21(1):53-59.(LI Y Y, XU Y L, MA S P, et al. Saliency detection based on deep convolutional neural network [J]. Journal of Image and Graphics, 2016, 21(1): 53-59.)

      [17] XIE S, TU Z. Holistically-nested edge detection [C]// CVPR 2016: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 1395-1403.

      [18] YANG J, PRICE B, COHEN S, et al. Object contour detection with a fully convolutional encoder-decoder network [C]// CVPR 2016: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 193-202.

      [19] ARBELAEZ P, PONTTUSET J, BSRRO J, et al. Multiscale combinatorial grouping [C]// ICCV 2014: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 328-335.

      [20] XIE Y, LU H, YANG M. Bayesian saliency via low and mid level cues [J]. IEEE Transactions on Image Processing, 2013, 22(5): 1689-1698.

      [21] LI Y, HOU X, KOCH C, et al. The secrets of salient object segmentation [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 280-287.

      [22] ZHANG J, SCLAROFF S, LIN Z, et al. Minimum barrier salient object detection at 80 FPS [C]// ICCV 2015: Proceedings of the 2015 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2015: 1404-1412.

      [23] KIM J, HAN D, TAI Y W, et al. Salient region detection via high-dimensional color transform [C]// CVPR 2014: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 883-890.

      [24] LI G, YU Y. Visual saliency based on multiscale deep features [C]// CVPR 2015: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 5455-5463.

      This work is partially supported by the National Natural Science Foundation (6157021026), the National High Technology Research and Development Program (863 Program) of China (2015AA016010).

      YANGFan, born in 1987, Ph. D. candidate. His research interests include computer vision, deep learning, dense semantic correspondence.

      LIJianping, born in 1964, Ph. D., professor. His research interests include wavelet signal processing, pattern recognition, image processing.

      LIXin, born in 1986, Ph. D. candidate. His research interests include computer vision, deep learning, artificial intelligence.

      CHENLeiting, born in 1966, Ph. D., professor. His research interests include computer graphics, multimedia technology, image processing.

      猜你喜歡
      邊緣卷積顯著性
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于顯著性權(quán)重融合的圖像拼接算法
      電子制作(2019年24期)2019-02-23 13:22:26
      基于視覺顯著性的視頻差錯(cuò)掩蓋算法
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      一種基于顯著性邊緣的運(yùn)動模糊圖像復(fù)原方法
      一張圖看懂邊緣計(jì)算
      論商標(biāo)固有顯著性的認(rèn)定
      一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
      在邊緣尋找自我
      雕塑(1999年2期)1999-06-28 05:01:42
      敦煌市| 巧家县| 关岭| 攀枝花市| 津南区| 黔东| 吉木萨尔县| 隆安县| 翁牛特旗| 齐河县| 夏邑县| 连平县| 安龙县| 司法| 龙江县| 南投市| 高碑店市| 临沭县| 交城县| 云安县| 宁安市| 车险| 瓦房店市| 当雄县| 鹤壁市| 潜山县| 肥东县| 天台县| 普兰县| 阿克| 杭锦后旗| 益阳市| 临武县| 江永县| 盈江县| 长乐市| 新河县| 永顺县| 汾阳市| 康定县| 乌审旗|