何偉,潘晨
中國計(jì)量大學(xué)信息工程學(xué)院,杭州 310018
視覺注意是人類視覺系統(tǒng)的有效機(jī)制,可將有限的腦資源用于場(chǎng)景中最重要信息的處理,是人類視覺高效率、高精度與通用性的基礎(chǔ)。計(jì)算機(jī)視覺的目標(biāo)之一是通過建模模擬視覺注意,稱為視覺顯著性檢測(cè),主要有注視點(diǎn)預(yù)測(cè)(Huang等,2015)和顯著目標(biāo)檢測(cè)(Borji等,2015)兩個(gè)研究分支。注視點(diǎn)預(yù)測(cè)是預(yù)測(cè)人眼視線在自然圖像上的落點(diǎn);顯著目標(biāo)檢測(cè)則是定位場(chǎng)景中顯著目標(biāo)的位置,分割出顯著物體的形狀,已經(jīng)廣泛應(yīng)用于圖像編輯(Qin等,2018;Cheng等,2010)、圖像分割(Mechrez等,2018)、視覺跟蹤(Lee和Kim,2018;Ma等,2017)和機(jī)器人導(dǎo)航(Craye等,2016)等領(lǐng)域。視覺注意可以分為自底向上(bottom-up)的注意和自頂向下(top-down)的注意。其中自底向上的注意機(jī)制是數(shù)據(jù)驅(qū)動(dòng)的、快速而不依賴具體任務(wù)的;而自頂向下的注意常常是任務(wù)驅(qū)動(dòng)的,即在人的意識(shí)控制下對(duì)圖像目標(biāo)進(jìn)行關(guān)注。
傳統(tǒng)方法(Liu等,2011;Wang等,2017a;Yan等,2013)通常是bottom-up注意,依賴對(duì)物體的啟發(fā)性假設(shè),如對(duì)比度先驗(yàn)、邊界先驗(yàn)、中心先驗(yàn)(Aksac等,2017;Liang等,2018)和背景先驗(yàn)等,使用底層視覺特征如亮度、顏色和運(yùn)動(dòng)等檢測(cè)顯著物體,但由于缺乏高層語義信息,限制了傳統(tǒng)方法在復(fù)雜場(chǎng)景中檢測(cè)顯著物體的能力。
近年來,深度學(xué)習(xí)模型實(shí)現(xiàn)了top-down注意。其中,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的金字塔結(jié)構(gòu)能實(shí)現(xiàn)對(duì)淺層語義信息的提取,并可通過多次卷積和池化操作獲得高層語義信息。鑒于卷積神經(jīng)網(wǎng)絡(luò),特別是全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional neural network,FCN)展現(xiàn)的強(qiáng)大特征提取能力,學(xué)者們提出了多種顯著性檢測(cè)模型,極大促進(jìn)了顯著目標(biāo)檢測(cè)技術(shù)的發(fā)展。眾所周知,淺層網(wǎng)絡(luò)能保持較大空間尺寸的低層特征,其中包含了細(xì)節(jié)信息(Luo等,2017;Zhang等,2017),如紋理、邊界和空間結(jié)構(gòu)等,但同時(shí)也包含著更多的背景噪聲。而網(wǎng)絡(luò)深層產(chǎn)生的高級(jí)特征則包含更多抽象的語義信息,有利于定位顯著對(duì)象的準(zhǔn)確位置和抑制噪聲,但在下采樣過程中丟失了一些目標(biāo)的細(xì)節(jié)信息。所以在顯著性檢測(cè)任務(wù)中,高層特征往往用于顯著目標(biāo)在輸入圖像上的粗定位,而包含豐富細(xì)節(jié)信息的淺層特征則用來細(xì)化顯著目標(biāo)的邊界。Liu和Han(2016)以遞歸的方式細(xì)化特征映射,結(jié)合多尺度特征信息(Hou等,2019)或者在顯著性映射上添加額外的約束(如邊界損失項(xiàng)(Qin等,2019;Zhang等,2018b))。該模型與U-Net(Ronneberger等,2015)網(wǎng)絡(luò)類似,分為編碼與解碼兩個(gè)階段。編碼器部分通常使用遷移學(xué)習(xí)的方法,由一個(gè)預(yù)先訓(xùn)練好的分類模型如ResNet(residual neural network)(He等,2016)構(gòu)成,用于提取輸入圖像在不同語義層次和分辨率的多層特征;在解碼器階段,主要是將編碼部分提取出來的多層特征進(jìn)行適當(dāng)?shù)慕M合,生成相應(yīng)的顯著圖。
深度學(xué)習(xí)模型中具有注意力機(jī)制。通道注意力機(jī)制即學(xué)習(xí)單個(gè)像素點(diǎn)在各個(gè)通道維度上的權(quán)重關(guān)系,并應(yīng)用到所有像素區(qū)域;空間注意力機(jī)制則是學(xué)習(xí)特征在單通道空間尺寸上各個(gè)像素的權(quán)重關(guān)系,并應(yīng)用到不同通道的特征圖上。注意力機(jī)制可以通過對(duì)不同位置和通道的圖像特征加權(quán),自適應(yīng)地關(guān)注重要區(qū)域,并且應(yīng)用于不同的計(jì)算機(jī)視覺任務(wù)(Chu等,2017)。由于注意力機(jī)制的優(yōu)越性,一些學(xué)者將注意力機(jī)制運(yùn)用于顯著性檢測(cè)任務(wù)(陳凱和王永雄,2020;項(xiàng)圣凱 等,2020),但是通常只使用單種注意力機(jī)制。
盡管基于FCN的方法已經(jīng)取得了良好的性能,但仍然存在許多挑戰(zhàn)。1)沒有考慮不同特征對(duì)顯著目標(biāo)的貢獻(xiàn)差異。在編碼階段,不同層次的特征信息具有不同的特征分布,而在解碼階段需要將高層抽象的語義信息逐漸傳遞到較淺的層,在上采樣過程中,從較深層獲取的位置信息可能會(huì)逐漸稀釋。所以為了生成更精確的顯著圖,通常將不同層次的特征結(jié)合起來,但是如果不對(duì)結(jié)合的信息進(jìn)行合理的篩選控制,來自低層的噪聲以及高層的模糊邊界等冗余信息會(huì)導(dǎo)致精度下降。2)在顯著性檢測(cè)任務(wù)中,通常使用二元交叉熵(binary cross-entropy,BCE)損失作為損失函數(shù)訓(xùn)練監(jiān)督顯著圖與真實(shí)圖之間的關(guān)系,然而交叉熵?fù)p失是平等對(duì)待每一個(gè)像素,往往置信度比較低。3)忽略了上下文信息對(duì)提取顯著區(qū)域的重要性,導(dǎo)致生成的顯著圖會(huì)遺漏整個(gè)目標(biāo)的一部分。如圖1(c)(d)所示。
本文在特征金字塔網(wǎng)絡(luò)(feature pyramid network,FPN)(Lin等,2017)的基礎(chǔ)上提出了一個(gè)基于通道—空間注意力引導(dǎo)的聚合網(wǎng)絡(luò)AGNet(attention-guided network)用于顯著性目標(biāo)檢測(cè)。圖1展示了本文模型與同樣使用注意力機(jī)制的PAGR(progressive attention guided recurrent network)和RANet(recurrent attentional networks)模型的可視化對(duì)比。本文模型改進(jìn)措施如下:1)為了獲取更豐富的上下文信息和更大的感受野,在編碼器模塊之后引入特征提取模塊(feature extraction module,FEM),以不同采樣率的空洞卷積并行采樣,多比例捕捉圖像的上下文。如圖1(e)第1行所示,本文模型用大的卷積核獲取更大的感受野和上下文信息,很好地獲得了顯著目標(biāo)的全部信息,而參與對(duì)比的兩個(gè)注意力機(jī)制的模型PAGR和RANet存在目標(biāo)信息缺失的問題。2)高級(jí)語義可以提供顯著目標(biāo)的位置信息,而淺層特征提供紋理和邊界細(xì)節(jié)。為了實(shí)現(xiàn)不同層次結(jié)構(gòu)間特征的有效融合,設(shè)計(jì)了通道—空間注意力聚合模塊(channel-spatial attention aggregation module,C-SAAM)。在高級(jí)語義上使用通道注意力機(jī)制,以選擇顯著物體的特征;在較淺特征層使用空間注意力機(jī)制提取高級(jí)特征和淺層特征之間的共享部分,篩選圖像紋理細(xì)節(jié)。這種有選擇性的融合策略有助于抑制冗余信息,減少特征間的干擾,更突出重要特征,產(chǎn)生精細(xì)的邊界和自適應(yīng)語義信息。與Zhang等人(2018c)提出的PAGR(progressive attention guided recurrent network)和Chen等人(2018)提出的RANet(reverse attention network)相比,本文設(shè)計(jì)了新的結(jié)構(gòu),使用1 ×k和k× 1的卷積操作作為模塊中空間注意力機(jī)制的基底,可以給予特征左右和上下方向的注意,對(duì)背景噪聲的過濾更加有效。同時(shí)在此模塊的最后,將通道注意力引導(dǎo)的深層特征與空間注意力引導(dǎo)的淺層特征進(jìn)行結(jié)合,有助于避免空間注意力過濾掉目標(biāo)信息導(dǎo)致信息缺失。如圖1(e)第2行所示,本文模型將深層特征和淺層特征進(jìn)行聚合,檢測(cè)結(jié)果更加精確,而對(duì)比模型沒有過濾掉屬于背景的魚。3)為了獲取更精細(xì)的邊界,設(shè)計(jì)了注意力殘差細(xì)化模塊(attention residual refinement module,ARRM)對(duì)聚合的特征圖進(jìn)一步處理,使生成的顯著圖更清晰精確。如圖1(e)第3行所示,本文模型生成的目標(biāo)顯著圖邊界更清楚。
圖1 不同模型的可視化對(duì)比圖Fig.1 The visual comparison of different methods((a)original images;(b)ground truth;(c)PAGR;(d)RANet;(e)ours)
本文工作的貢獻(xiàn)可概括如下:1)為了實(shí)現(xiàn)顯著性目標(biāo)檢測(cè),提出了多重注意力機(jī)制引導(dǎo)的漸進(jìn)聚合細(xì)化網(wǎng)絡(luò)(AGNet),該網(wǎng)絡(luò)包括特征提取模塊(FEM)、通道—空間注意力聚合模塊(C-SAAM)和注意力殘差細(xì)化模塊(ARRM)。2)在特征提取模塊(FEM)引入多尺度空洞卷積,獲取更豐富的上下文信息和更大的感受野。3)設(shè)計(jì)了通道—空間注意力引導(dǎo)的特征聚合模塊(C-SAAM)提取高分辨率信息特征和高語義信息特征間的共享部分,利用高層特征指導(dǎo)淺層特征的選擇,實(shí)現(xiàn)了顯著目標(biāo)的位置信息和邊緣細(xì)節(jié)信息有效融合。4)AGNet模型在5個(gè)公開數(shù)據(jù)集上達(dá)到了最優(yōu)性能,證明了該方法的有效性和優(yōu)越性。
傳統(tǒng)的SOD(salient object detection)模型通常依賴于對(duì)物體的啟發(fā)假設(shè),如對(duì)比度先驗(yàn)(Cheng等,2015)、邊界先驗(yàn)、中心先驗(yàn)(Jiang和Davis,2013)和背景先驗(yàn)等。但因?yàn)檫@些方法缺少高層語義信息,所以在復(fù)雜場(chǎng)景中檢測(cè)顯著物體的能力有所欠缺。深度學(xué)習(xí)由于其強(qiáng)大的特征提取能力,在顯著性目標(biāo)檢測(cè)方面取得了優(yōu)異成績(jī),并且逐漸超越基于手工特征先驗(yàn)的傳統(tǒng)顯著性檢測(cè)模型。這得益于全卷積神經(jīng)網(wǎng)絡(luò)(FCN)應(yīng)用于顯著性檢測(cè)研究,學(xué)者們?cè)诖嘶A(chǔ)上通過聚合提取的局部特征和全局特征生成顯著圖。Liu和Han(2016)通過使用深度循環(huán)卷積神經(jīng)網(wǎng)絡(luò)逐漸組合較淺的特征細(xì)化顯著圖。Zhang等人(2017)提出一種無監(jiān)督顯著性檢測(cè)模型,將傳統(tǒng)的無監(jiān)督方法生成的噪聲顯著圖與深度模型產(chǎn)生的潛在顯著圖融合。Zhang等人(2018a)通過孿生體系結(jié)構(gòu)和結(jié)構(gòu)損失函數(shù)預(yù)測(cè)顯著圖,提出了新的雙向信息傳遞模型,自適應(yīng)地融合不同層的特征圖,以獲得準(zhǔn)確的預(yù)測(cè)圖。Wang等人(2018b)利用眼動(dòng)預(yù)測(cè)的結(jié)果圖確定并分割場(chǎng)景中的顯著性目標(biāo),并利用LSTM(long-short term memory)的層次結(jié)構(gòu)為分割圖的連續(xù)細(xì)化提供了有效的循環(huán)機(jī)制。Hu等人(2018)以循環(huán)方式將多層深度特征聚合到每個(gè)層的特征,相比簡(jiǎn)單集成多級(jí)特征,能夠更有效地利用在不同層中生成的特征中編碼的補(bǔ)充信息。Hou等人(2019)通過在跳躍層中引入短連接組合來自不同級(jí)別的特征,得到的體系結(jié)構(gòu)在每一層提供豐富的多尺度特征圖。Wang等人(2019)通過迭代修正預(yù)測(cè)誤差,設(shè)計(jì)了用于顯著性檢測(cè)的遞歸FCN網(wǎng)絡(luò)。
為了捕捉更精細(xì)的結(jié)構(gòu)和更精確的邊界,學(xué)者們提出了許多邊界細(xì)化策略。Wang等人(2017c)使用金字塔池化模塊和用于顯著性映射細(xì)化的多級(jí)細(xì)化機(jī)制捕獲全局上下文信息。Deng等人(2018)開發(fā)了一個(gè)用于顯著圖細(xì)化的遞歸剩余細(xì)化網(wǎng)絡(luò),通過構(gòu)建一系列殘差細(xì)化塊(residual refinement block,RRB)交替結(jié)合淺層和深層特征以逐步改進(jìn)顯著圖,可以在增強(qiáng)顯著目標(biāo)細(xì)節(jié)的同時(shí),抑制顯著圖中的非顯著區(qū)域,更精確地預(yù)測(cè)顯著目標(biāo)。Wang等人(2018a)提出全局定位顯著對(duì)象,然后通過局部邊界細(xì)化模塊進(jìn)行細(xì)化。Qin等人(2019)提出殘差細(xì)化模塊(residual refinement module,RRM)細(xì)化編碼—解碼結(jié)構(gòu)產(chǎn)生的粗糙顯著圖。這些方法雖然提高了顯著性目標(biāo)檢測(cè)的標(biāo)準(zhǔn),但在精細(xì)結(jié)構(gòu)和邊界恢復(fù)精度方面仍有提高空間。
在模型中引入注意力機(jī)制可以解決迭代過程中冗余信息無法得到有效過濾的問題,注意力機(jī)制與迭代法等結(jié)合能夠獲得更好的檢測(cè)結(jié)果。Liu等人(2018)利用全局和局部的像素級(jí)上下文注意力機(jī)制學(xué)習(xí)每個(gè)像素的信息性上下文特征,然后將其嵌入到U-Net結(jié)構(gòu)自上而下路徑中,從而分別關(guān)注全局和局部的情況,獲得豐富的上下文特征。Zhang等人(2018c)使用空間注意力,通過對(duì)不同的卷積層賦予不一樣的權(quán)重,有選擇地集成多路徑之間的連接,將全局信息從深層傳輸?shù)捷^淺層以生成強(qiáng)大的注意特征,增強(qiáng)網(wǎng)絡(luò)的特征提取能力。Chen等人(2018)在殘差學(xué)習(xí)的基礎(chǔ)上,進(jìn)一步提出反向注意以指導(dǎo)側(cè)輸出的殘差學(xué)習(xí),通過抹去當(dāng)前預(yù)測(cè),網(wǎng)絡(luò)可以有效且快速地發(fā)現(xiàn)丟失的對(duì)象部分和殘留的細(xì)節(jié),從而提高性能。Feng等人(2019)采用每個(gè)編碼塊與其相應(yīng)的解碼塊構(gòu)建注意力反饋模塊(attention feedback module,AFM)逐比例地細(xì)化顯著圖。
計(jì)算機(jī)視覺中的注意力機(jī)制的基本思想就是使機(jī)器學(xué)會(huì)注意——能夠忽略無關(guān)信息而關(guān)注重點(diǎn)信息,這也是顯著性檢測(cè)的目的。將不同層次的注意力機(jī)制融入到顯著性檢測(cè)模型中必定會(huì)有利于系統(tǒng)性能的提升。本文注意到上述多種方法依靠不同設(shè)計(jì)思路均提高了顯著性檢測(cè)性能。然而,如何綜合考慮不同層次的注意力機(jī)制,設(shè)計(jì)更加有效的特征聚合方法仍有研究空間。
本文提出了一種注意力引導(dǎo)網(wǎng)絡(luò)AGNet,如圖2所示。AGNet是類U型結(jié)構(gòu),分為編碼部分和解碼部分。編碼部分使用預(yù)訓(xùn)練好的ResNet-50分類網(wǎng)絡(luò)提取多層次特征,任務(wù)是輸入圖像后,通過卷積得到輸入圖像的特征圖f2,f3,f4,f5,這樣的結(jié)構(gòu)能夠同時(shí)得到淺層的細(xì)節(jié)信息和深層的語義信息。解碼器則在編碼器提供特征圖后,逐步融合多層特征信息,最終在有監(jiān)督的情況下生成像素級(jí)顯著圖。本文中的解碼部分由特征提取模塊(FEM)、通道—空間注意力聚合模塊(C-SAAM)和注意力殘差細(xì)化模塊(ARRM)組成。具體來說,首先使用FEM模塊通過對(duì)深層特征進(jìn)行多比例采樣擴(kuò)大感受野,并且豐富上下文信息;然后通過ARRM模塊對(duì)特征進(jìn)行細(xì)化和增強(qiáng),生成第1階段的高級(jí)特征;最后通過C-SAAM和ARRM有選擇地融合淺層和較深層特征,并且細(xì)化生成的聚合特征。如此重復(fù)3次逐漸生成精確的顯著圖。此外,在每個(gè)階段都使用雙線性插值策略將生成的顯著圖進(jìn)行上采樣,將其調(diào)整到輸入圖像的尺寸,并使用人工標(biāo)注圖GT(ground truth)對(duì)其進(jìn)行監(jiān)督訓(xùn)練。
圖2 AGNet的總體網(wǎng)絡(luò)架構(gòu)Fig.2 The overall network architecture of AGNet
卷積神經(jīng)網(wǎng)絡(luò)通過多次卷積和池化操作,可以得到抽象的語義特征,但是輸入圖像的多樣性意味著得到的顯著目標(biāo)的尺度和位置具有不確定性,而且理論上的感受野往往與實(shí)際的感受野有一定的差距,導(dǎo)致網(wǎng)絡(luò)無法有效融合全局特征信息。如果直接使用單尺度的深層特征,可能因語義信息的缺失導(dǎo)致無法獲得正確的顯著物體信息。對(duì)此,本文使用特征提取模塊(FEM),通過全局平均池化(global average pooling,GAP)操作獲取圖像的全局上下文信息,但是這樣直接簡(jiǎn)單地將信息壓縮,容易丟失有用的信息,因此采用多個(gè)空洞卷積擴(kuò)大感受野,并采取1×1,5×5,7×7,8×8采樣率的空洞卷積并行處理高層特征,相當(dāng)于以不同比例獲取上下文信息互補(bǔ)局部信息,獲得更加豐富的語義信息,增強(qiáng)特征的表達(dá)能力。
FCN網(wǎng)絡(luò)自提出以來,廣泛運(yùn)用于顯著性目標(biāo)檢測(cè)領(lǐng)域。眾所周知,淺層特征包含的主要是物體的細(xì)節(jié)信息,同時(shí)也存在噪聲信息,所以淺層特征對(duì)于細(xì)化顯著圖十分重要。由于多次下采樣操作,高層特征丟失了許多邊緣細(xì)節(jié)信息,但是提供了顯著物體的位置信息以及抽象的全局語義信息。因此現(xiàn)有的顯著性檢測(cè)網(wǎng)絡(luò)框架常常將淺層特征和高層特征簡(jiǎn)單相加或者結(jié)合生成特征圖。但其實(shí)不同層的特征表述的信息均不同,信息的重要程度也都不同,若無差別地處理不同特征,會(huì)導(dǎo)致生成次優(yōu)的結(jié)果。而注意力模型借鑒了人腦的注意力機(jī)制,旨在從眾多信息中選擇出對(duì)當(dāng)前任務(wù)更關(guān)鍵的信息,給予其較大的權(quán)重,正好可以解決對(duì)不同特征進(jìn)行無差別處理的問題。因此本文分層次地使用通道注意力模塊和空間注意力模塊聚合淺層特征和高層特征。
因?yàn)樯弦粋€(gè)階段的輸出是由不同通道信息的特征結(jié)合而成,因此本文首先對(duì)輸入的信息給予通道維度上的注意力,自適應(yīng)地提取有效高級(jí)語義信息。如圖3下半部分所示,本文先使用雙線性插值策略對(duì)輸入的特征圖上采樣至較淺層特征圖的大小。然后利用全局平均池化以及全局最大池化兩種全局池化操作分別將多通道特征圖進(jìn)行壓縮,使H×W×C的特征圖變成1×1×C的權(quán)重向量,這樣不僅使其具有全局的感受野,而且可以提取豐富的高層次特征。隨后利用共享MLP(multi-layer perceptron)建立通道之間的相關(guān)性,合并兩個(gè)輸出得到各個(gè)特征通道的權(quán)重。最后使用sigmoid函數(shù)得到每一個(gè)通道的權(quán)重值,其中的參數(shù)被學(xué)習(xí)用來顯性地表示特征通道間的相關(guān)性,并將其逐通道乘以上采樣后的特征以完成對(duì)原始特征在通道維度上的重標(biāo)定,選擇適合顯著性目標(biāo)的語義特征。
圖3 通道—空間注意力聚合模塊結(jié)構(gòu)Fig.3 Channel-spatial attention aggregation module structure
較淺層特征相對(duì)于高層特征含有更多細(xì)節(jié)信息,但同時(shí)也存在背景噪聲,此外,在復(fù)雜的場(chǎng)景和嘈雜的背景下,不顯著區(qū)域的干擾可能導(dǎo)致效果欠佳。因此,網(wǎng)絡(luò)最好不要在所有空間位置均等地對(duì)待特征向量,這也是在顯著性檢測(cè)任務(wù)中引入空間注意力的初衷。本文引入空間注意力強(qiáng)化顯著區(qū)域并且抑制屬于背景的目標(biāo),同時(shí)強(qiáng)調(diào)背景中的線索。具體來說,使用大小為1×k和k×1的卷積核分別執(zhí)行水平方向和垂直方向上的注意,使每個(gè)像素同時(shí)記憶水平和垂直方向的上下文,同時(shí)也擴(kuò)大了特征圖的感受野。然后將特征圖進(jìn)行并行卷積處理,再使用1×1大小的卷積核混合不同通道的信息,形成新的H×W×1的特征圖,通過sigmoid函數(shù)求得相應(yīng)的權(quán)重,并將得到的空間注意力權(quán)重與淺層特征圖逐像素相乘,從而更有效地增強(qiáng)較淺層特征中顯著目標(biāo)的響應(yīng),同時(shí)抑制冗余的背景噪聲。最后將通過通道注意的高層特征與經(jīng)過空間注意的淺層特征結(jié)合起來,作為此模塊的輸出。
綜上所述,本模塊采用分層次的處理引導(dǎo)高層特征和較淺層特征的融合。通道注意處理輸入特征的高級(jí)語義,空間注意處理細(xì)節(jié)信息,同時(shí)消除屬于背景的圖像噪聲。這種注意力機(jī)制設(shè)計(jì)可以自適應(yīng)地處理低層和高層特征,使一個(gè)更關(guān)注語義特征的選擇,另一個(gè)更關(guān)注背景噪聲的過濾,將它們聚合以產(chǎn)生更好的顯著圖。
在C-SAAM中,結(jié)合通道注意后的高層特征和空間注意后的淺層特征可以得到較全面的互補(bǔ)特征。此時(shí),也可以直接使用sigmoid函數(shù)訓(xùn)練生成顯著圖,但是生成的顯著圖存在不清晰且內(nèi)部殘缺現(xiàn)象,這是因?yàn)椴煌卣鲗釉谌诤线^程中存在矛盾。為了得到更加完善的顯著圖,本文提出了一個(gè)特定的注意力殘差細(xì)化模塊(ARRM),在FEM模塊和C-SAAM模塊后添加ARRM模塊,以進(jìn)一步細(xì)化和增強(qiáng)每個(gè)階段的特征圖。如圖4所示,ARRM同樣使用通道級(jí)的注意力機(jī)制,與C-SAAM中的通道注意不同,此處僅通過對(duì)輸入特征圖fin進(jìn)行全局平均池捕獲全局上下文,并計(jì)算一個(gè)注意力向量指導(dǎo)特征學(xué)習(xí),然后通過1×1卷積,將通道統(tǒng)一為256,用sigmoid函數(shù)計(jì)算相應(yīng)的通道權(quán)重。
圖4 注意力殘差細(xì)化模塊結(jié)構(gòu)Fig.4 Attention residual refinement module structure
但是對(duì)通道內(nèi)的信息直接全局平均池化是比較簡(jiǎn)單的做法,會(huì)忽略每個(gè)通道內(nèi)的局部信息,因此添加了一個(gè)殘差路。采用兩個(gè)3 × 3卷積核將輸入特征進(jìn)行壓縮混合,然后通過與經(jīng)過通道注意的特征進(jìn)行加法運(yùn)算填充有效信息,得到優(yōu)化后的特征輸出fout。這種設(shè)計(jì)可以方便地集成全局上下文信息,細(xì)化上下文路徑中每個(gè)階段的輸出特性。主要過程可以表示為
fα=δ(conv1(AvgPool(fin)))
(1)
fr=conv3(conv2(fin))
(2)
fout=γ(fin⊙fα+fr)
(3)
式中,δ表示sigmoid操作,γ表示ReLU函數(shù),conv1配備了BN (batch normalization)和ReLU激活函數(shù),conv2僅配備BN。
在顯著性檢測(cè)任務(wù)中,二元交叉熵(BCE)損失是應(yīng)用最廣泛的損失函數(shù)。然而,BCE損失有3個(gè)缺點(diǎn):1)獨(dú)立計(jì)算每個(gè)像素的損失值,忽略了圖像的全局結(jié)構(gòu);2)在背景占主導(dǎo)地位的圖像中,稀釋了前景像素的損失;3)平等對(duì)待所有像素。因此,本文使用像素位置感知(pixel position aware,PPA)損失(Wei等,2020)替換常用的二元交叉熵?fù)p失。PPA損失綜合考慮局部結(jié)構(gòu)信息,為所有像素生成不同的權(quán)值,同時(shí)引入加權(quán)交叉熵?fù)p失Lwbce和全局約束Lwiou,以更好地指導(dǎo)網(wǎng)絡(luò)的訓(xùn)練。即
Lppa=Lwbce+Lwiou
(4)
(5)
式中,1(·)是指示函數(shù);γ是超參數(shù),設(shè)置為5;l∈{0,1}表示兩種標(biāo)簽;Sij和Gij是圖像中(i,j)位置處像素的預(yù)測(cè)和真實(shí)性;ψ表示模型的所有參數(shù);Pr(Sij=l|ψ)表示預(yù)測(cè)的概率。
交并比(intersection over union,IOU)損失的目標(biāo)是優(yōu)化全局結(jié)構(gòu),而不是只關(guān)注單個(gè)像素,并且不受分布不平衡的影響。同樣加權(quán)的IOU損失為目標(biāo)像素分配了更多的權(quán)重以強(qiáng)調(diào)它們的重要性。具體為
(6)
在Lwbce和Lwiou中每一個(gè)像素都賦予了不同的權(quán)重值αij。αij通過中心像素與其周圍環(huán)境的差異計(jì)算得到,與目標(biāo)相關(guān)的重要像素的αij較大,反之較小。αij的具體計(jì)算為
(7)
式中,Aij表示像素(i,j)周圍的區(qū)域,對(duì)于所有像素點(diǎn)的αij∈[0.1]。如果αij很大,則(i,j)處的像素與周圍環(huán)境非常不同,因此可能是個(gè)重要的像素點(diǎn)(如邊緣),值得給予更多的關(guān)注。
在解碼模塊,對(duì)每個(gè)子解碼塊都給予輔助監(jiān)督,所以總損失由兩部分組成,即主損失和各子級(jí)的輔助損失,即
(8)
式中,λi表示不同子級(jí)損失的權(quán)重,分別設(shè)置為0.8、0.6和0.4。
實(shí)驗(yàn)的軟硬件環(huán)境為Ubuntu16.0.4操作系統(tǒng),Intel(R)Core(TM)i7-7800X @3.5 GHz CPU,16 GB內(nèi)存,GTX 2080ti GPU(11 GB內(nèi)存)顯卡,使用Pytorch 1.1.0框架訓(xùn)練和測(cè)試網(wǎng)絡(luò)。
本文采用ResNet-50作為編碼器的主干網(wǎng)絡(luò),并且將在ImageNet上訓(xùn)練好的參數(shù)載入并初始化網(wǎng)絡(luò)。與其他顯著模型一樣,使用DUTS-TR數(shù)據(jù)集訓(xùn)練網(wǎng)絡(luò)。在訓(xùn)練階段,首先將每個(gè)圖像調(diào)整到320 × 320像素,然后隨機(jī)裁剪成288 × 288像素進(jìn)行訓(xùn)練。采用小批量隨機(jī)梯度下降法(stochastic gradient descent,SGD)進(jìn)行優(yōu)化,學(xué)習(xí)率設(shè)置為0.05,動(dòng)量設(shè)置為0.9,權(quán)重衰減設(shè)置為5E-4,batch size設(shè)置為24。在不使用驗(yàn)證集的情況下,訓(xùn)練30個(gè)epoch,整個(gè)訓(xùn)練過程耗時(shí)3 h。在測(cè)試過程中,簡(jiǎn)單地將輸入圖像的大小調(diào)整為320 × 320像素,然后送入訓(xùn)練好的網(wǎng)絡(luò)中生成相應(yīng)的顯著圖,不需要進(jìn)行其他后處理。對(duì)于320 × 320像素的圖像,測(cè)試耗時(shí)為0.02 s(速度為50 幀/s),達(dá)到實(shí)時(shí)標(biāo)準(zhǔn)。
1)訓(xùn)練數(shù)據(jù)集。本文在DUTS-TR(Dalian University of Technology-train)上訓(xùn)練提出的網(wǎng)絡(luò)。DUTS-TR是DUTS數(shù)據(jù)集的一部分,包含10 553幅圖像,是用于顯著目標(biāo)檢測(cè)的最大和最常用的訓(xùn)練數(shù)據(jù)集。本文通過水平翻轉(zhuǎn)對(duì)其擴(kuò)充,最終獲得21 106幅訓(xùn)練圖像。
2)測(cè)試數(shù)據(jù)集。本文使用了5個(gè)常用的公開數(shù)據(jù)集評(píng)估提出的模型,包括DUT-OMRON(Dalian University of Technology-OMRON)(Yang等,2013)、DUTS-TE(test)(Wang等,2017b)、HKU-IS(Hong Kong University-image saliency)(Li和Yu,2016)、ECSSD(extended complex scene saliency dataset)(Yan等,2013)和PASCAL-S(pattern analysis,statistical modeling and computational learning)(Li等,2014)。
DUT-OMRON數(shù)據(jù)集包含5 168幅高質(zhì)量圖像,該數(shù)據(jù)集的圖像具有一個(gè)或多個(gè)突出對(duì)象和相對(duì)雜亂的背景,因此在該數(shù)據(jù)集上進(jìn)行顯著目標(biāo)檢測(cè)非常具有挑戰(zhàn)性。DUTS數(shù)據(jù)集是目前最大的顯著性檢測(cè)基準(zhǔn)數(shù)據(jù)集,由10 553幅訓(xùn)練圖像(DUTS-TR)和5 019幅測(cè)試圖像(DUTS-TE)組成。HKU-IS數(shù)據(jù)集包含4 447幅圖像,其中大多數(shù)圖像的對(duì)比度較低或有多個(gè)突出物體。ECSSD數(shù)據(jù)集包含1 000幅從互聯(lián)網(wǎng)上手動(dòng)收集的圖像。PASCAL-S數(shù)據(jù)集是從PASCAL VOC數(shù)據(jù)集(Everingham等,2010)中精心挑選出來的,共850幅自然圖像。
顯著性目標(biāo)檢測(cè)模型的輸出通常是與輸入圖像具有相同尺寸的概率圖。預(yù)測(cè)圖的每個(gè)像素值都在[0,1]或[0,255]范圍內(nèi)。人工標(biāo)注圖通常是二進(jìn)制掩碼,其中每個(gè)像素都是0或1(或0和255),其中0表示背景像素,1表示前景顯著目標(biāo)的像素。
為了綜合評(píng)估本文模型的性能,采用精確率—召回率(precision-recall,PR)曲線、F-measure(Fβ)的分?jǐn)?shù)和曲線、平均絕對(duì)誤差(mean absolute error,MAE)和E-measure(Em)作為模型的性能度量指標(biāo)。
1)PR曲線。對(duì)模型生成的顯著圖,通過比較不同閾值下的二值掩碼與真實(shí)掩碼計(jì)算其精度和召回率。通過將閾值從0變?yōu)?,可以得到一系列精確召回對(duì),由此繪制PR曲線。
2)F-measure。通過計(jì)算加權(quán)調(diào)和平均值綜合考慮精度和召回率,具體為
(9)
式中,P表示精確率,R表示召回率,β2設(shè)置為0.3。
3)平均絕對(duì)誤差(MAE)。用來計(jì)算二元真實(shí)值G和預(yù)測(cè)顯著圖S之間的平均誤差,具體計(jì)算為
(10)
式中,W和H是圖像的寬度和高度,S(i,j)表示(i,j)處的顯著值。
4)E-measure。同時(shí)考慮圖像和局部像素匹配的全局平均值,具體計(jì)算為
(11)
式中,φs是增強(qiáng)的對(duì)準(zhǔn)矩陣,其分別反映減去S和G的全局平均值之后的相關(guān)性。
本文將所提模型與現(xiàn)有的13種最先進(jìn)方法進(jìn)行比較,包括Amulet(aggregating multi-level convolutional features for salient object detection)(Zhang等,2017)、C2S(contour knowledge transfer for salient object detection)(Li等,2018)、RADF(recurrently aggregating deep features for salient object detection)(Hu等,2018)、RANet(Chen等,2018)、DGRL(detect globally,refine locally)(Wang等,2018a)、PAGR(Zhang等,2018c)、R3Net(recurrent residual refinement network)(Deng等,2018)、BMPM(a bi-directional message passing model)(Zhang等,2018a)、PiCANet-R(pixel-wise contextual attention network-ResNet50)(Liu等,2018)、CPD-R(cascaded partial decoder-ResNet50)(Wu等,2019)、BASNet(boundary-aware salient network)(Qin等,2019)、AFNet(attentive feedback network)(Feng等,2019)和CAGNet-R(content-aware guidance network-ResNet50)(Mohammadi等,2020)。為了公平比較,不同方法的顯著圖采用原方法提供的顯著圖或者在默認(rèn)參數(shù)下運(yùn)行發(fā)布的原方法代碼得到。表1給出了MAE、Fβ和Em得分的定量比較結(jié)果。很明顯,在不同的度量條件下,本文模型達(dá)到或者超過現(xiàn)有最新方法的性能。尤其在最大、最復(fù)雜的DUT-OMRON數(shù)據(jù)集上,F(xiàn)-measure指標(biāo)與性能第2的模型相比提高了1.9%,MAE降低了1.9%,這證明了所提出模型的有效性。
為了評(píng)估分割出的顯著對(duì)象的質(zhì)量,對(duì)各方法在5個(gè)數(shù)據(jù)集上的PR曲線和F-measure曲線進(jìn)行對(duì)比,如圖5和圖6所示??梢钥闯觯疚姆椒ǖ腜R曲線在各數(shù)據(jù)集上都有突出的部分,F(xiàn)-measure曲線在不同閾值下與其他方法相比在大多數(shù)情況下都是突出的,尤其在DUT-OMRON數(shù)據(jù)集上突出明顯,這與表1中的測(cè)量值是一致的。
圖5 不同方法在5個(gè)數(shù)據(jù)集上的PR曲線Fig.5 PR curves of different methods on 5 datasets((a)DUTS-TE;(b)ECSSD;(c)HKU-IS;(d)PASCAL-S;(e)DUT-OMRON)
圖6 不同方法在5個(gè)數(shù)據(jù)集上的F-measure曲線Fig.6 F-measure curves of different methods on 5 datasets((a)DUTS-TE;(b)ECSSD;(c)HKU-IS;(d)PASCAL-S;(e)DUT-OMRON)
表1 不同模型的性能比較Table 1 Performance comparison of different models
為了進(jìn)一步驗(yàn)證本文方法的性能,與一些對(duì)比方法進(jìn)行了可視化對(duì)比,結(jié)果如圖7所示。實(shí)驗(yàn)結(jié)果表明,本文方法能清晰地檢測(cè)目標(biāo)區(qū)域,很好地抑制背景噪聲,可以處理各種具有挑戰(zhàn)性的場(chǎng)景,包括細(xì)粒度結(jié)構(gòu)(圖7第1行)、低對(duì)比度圖像(圖7第2、3行)、背景干擾(圖7第4行)、相似對(duì)象干擾(圖7第5、6行)和前景干擾(圖7第7行)等,生成的顯著圖更清晰和準(zhǔn)確。值得注意的是,本文模型對(duì)前景/背景干擾(圖7第4、5、7行)更為魯棒,能夠充分過濾掉冗余信息。這說明了引入通道注意力和空間注意力來引導(dǎo)不同特征層之間信息融合的重要性。由于深層的特征具有目標(biāo)的空間方位信息,淺層的特征雖然有背景噪音,但包含目標(biāo)邊界細(xì)節(jié)信息,本文通過對(duì)深層特征進(jìn)行通道注意力機(jī)制處理,并且使用空間注意力機(jī)制引導(dǎo)與淺層特征的融合。通過深層特征確定淺層特征中目標(biāo)的位置,并由淺層特征補(bǔ)充目標(biāo)的邊界信息。這樣可以有效保留目標(biāo)的信息,過濾掉冗余的噪音信息。此外,多尺度特征提取豐富了特征信息,邊界細(xì)化操作使顯著圖更加清晰。更重要的是,本文方法不需要任何后處理就可以得到這些結(jié)果。
圖7 本文模型與其他最新方法的可視化對(duì)比Fig.7 Visual comparison the proposed model in this paper with other state-of-the-art methods((a)original images;(b)ground truth;(c)CAGNet-R;(d)AFNet;(e)BASNet;(f)CPD-R;(g)PiCANet-R;(h)PAGR;(i)RANet;(j)DGRL;(k)ours)
為驗(yàn)證各模塊的有效性,以ResNet-50為編碼主干,分別使用BCE函數(shù)和PPA函數(shù)作為訓(xùn)練網(wǎng)絡(luò)的損失函數(shù),在DUT-OMRON數(shù)據(jù)集上進(jìn)行主要模塊的消融實(shí)驗(yàn),采用在上采樣中簡(jiǎn)單連接高層次特征和低層次特征的U-Net模型作為基準(zhǔn)(Base)網(wǎng)絡(luò),然后逐步添加每個(gè)模塊。消融實(shí)驗(yàn)結(jié)果如表2所示。可以看出,在基準(zhǔn)網(wǎng)絡(luò)的基礎(chǔ)上添加C-SAAM模塊后,用BCE損失函數(shù)和PPA損失函數(shù)訓(xùn)練得到的顯著圖的Fβ值分別提升了11.7%和11.8%。分別添加FEM和ARRM模塊后,F(xiàn)β值均略有提高,但是同時(shí)添加FEM和ARRM兩個(gè)模塊后,顯著圖的Fβ值分別提升了11.4%和9.0%,證明了各個(gè)模塊的有效性。此外,使用PPA函數(shù)作為損失函數(shù)訓(xùn)練網(wǎng)絡(luò)得到的結(jié)果均優(yōu)于使用BCE函數(shù),顯著圖的Fβ值平均提升了約0.02,證明了PPA損失函數(shù)的優(yōu)勢(shì)。使用PPA作為損失函數(shù),添加C-SAAM、FEM和ARRM模塊的模型性能最好,表明各模塊對(duì)本文模型獲得最佳顯著性檢測(cè)結(jié)果都是必要的。
表2 DUT-OMRON數(shù)據(jù)集上本文各模塊的消融研究Table 2 Ablation study of each module in this paper on the DUT-OMRON dataset
為全面驗(yàn)證本文模型的性能,與BASNet、AFNet和CAGNet-R模型的速度進(jìn)行比較。對(duì)比算法使用原方法提供的模型和參數(shù)權(quán)重,并且在相同的實(shí)驗(yàn)環(huán)境中運(yùn)行測(cè)試。實(shí)驗(yàn)結(jié)果如表3所示。從表中可以得知,本文模型處理一幅320 × 320像素圖像的速度達(dá)到50幀/s,基本超過其他算法。表明本文模型在保證不錯(cuò)檢測(cè)效果的同時(shí),還保持著不錯(cuò)的速度表現(xiàn)。
表3 不同模型的速度對(duì)比Table 3 Speed comparison of different models
本文提出的AGNet通過通道—空間注意力引導(dǎo)的特征融合模塊(C-SAAM)和注意力殘差細(xì)化模塊(ARRM),探討了注意力機(jī)制在顯著目標(biāo)檢測(cè)中的應(yīng)用潛力。本文主要工作包括:1)通過多尺度特征提取模塊FEM獲得足夠豐富的特征。2)在FPN架構(gòu)中,使用通道注意提取適應(yīng)于顯著目標(biāo)的語義信息,使用空間注意過濾淺層的外觀線索。通過注意力機(jī)制引導(dǎo)深層特征與淺層特征之間的融合,可以有效捕捉顯著目標(biāo)在不同特征層之間的關(guān)系。3)在C-SAAM后對(duì)融合后特征進(jìn)行殘差注意,給予目標(biāo)更大的權(quán)重以細(xì)化背景和前景信息。實(shí)驗(yàn)結(jié)果表明,AGNet在5個(gè)廣泛使用的顯著目標(biāo)檢測(cè)數(shù)據(jù)集上表現(xiàn)出優(yōu)于其他13種模型的性能,并且在可視化實(shí)例中可以看到,在許多環(huán)境下,本文模型生成的顯著圖更清晰,很好地過濾了具有“類似顯著”外觀的非顯著區(qū)域,并且能在沒有任何后處理的情況下獲得高質(zhì)量顯著圖。同時(shí),本文模型在速度上也極具競(jìng)爭(zhēng)力。
雖然模型在實(shí)驗(yàn)中能得到較好的顯著圖結(jié)果,但仍有改進(jìn)的空間。由于上采樣操作存在信息的缺失,所以使用上采樣后的深層特征引導(dǎo)與淺層特征的融合可能會(huì)忽略掉細(xì)小的目標(biāo)特征。因此,接下來將繼續(xù)探索更有效的策略聚合高級(jí)語義和淺層細(xì)節(jié)信息,更好地提高顯著性檢測(cè)網(wǎng)絡(luò)的通用性和魯棒性。