• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    多信息輔助的U型輕量級顯著性目標檢測模型

    2023-09-06 04:29:58卞葉童
    小型微型計算機系統(tǒng) 2023年9期
    關(guān)鍵詞:骨架邊緣卷積

    卞葉童,孫 涵

    (南京航空航天大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,南京 211106)

    1 引 言

    近年來,顯著性目標檢測作為計算視覺領(lǐng)域的熱點研究方向之一,引起了世界各地學(xué)者的熱烈關(guān)注.其涉及很多其他計算機視覺任務(wù),比如目標檢測[1]、圖像檢索[2]、目標追蹤[3]等等.雖然顯著性目標檢測的發(fā)展離不開對人類視覺機制的模仿和利用,但是由于相比人類還是缺乏相當一部分先驗知識,在某些特殊場景下,前景和背景在顏色、紋理等低級信息較為相似時,傳統(tǒng)的顯著性目標檢測方法甚至是一些具有語義信息的深度模型仍易被迷惑.由于傳統(tǒng)模型只能夠關(guān)注局部,所以在具有強大表征能力的全卷積網(wǎng)絡(luò)被提出后,顯著性目標檢測領(lǐng)域就出現(xiàn)了一大批基于此的深度模型.伴隨著深度模型中一次又一次的下采樣,特征的感受野越來越大,蘊含的全局語義線索也越來越多,最終顯著圖的目標定位較傳統(tǒng)模型有了明顯的改善.

    基于深度學(xué)習(xí)的顯著性目標檢測方法在蓬勃發(fā)展的同時,也帶來了一些問題.常見的顯著性目標檢測方式是對像素進行二值化的分割[22].而深度模型中一層又一層的下采樣之后,分辨率降低,全局信息豐富的同時削弱了細節(jié)信息.這使得深度模型預(yù)測出的顯著圖呈現(xiàn)出的邊緣非常模糊,有的形狀或狹長或蜿蜒的顯著性目標區(qū)域甚至?xí)虼吮宦z.于是淺層細節(jié)信息開始被考慮進來,通過適宜的方式(比如U-Net[4])與深度特征進行融合互補,生成既具有細節(jié)又擁有完整結(jié)構(gòu)的顯著圖.除此之外,有的方法還使用了邊緣信息作為細節(jié)補充.充分利用淺層信息對顯著邊緣進行明確的建模,加入邊緣特征提高模型對邊界區(qū)域的敏感度和關(guān)注度.在融合方式上,若使用簡單直接的相加、通道級聯(lián)的方式,信息融合不充分,不僅沒有將各種信息的作用發(fā)揮到位,還白白增加了冗余的特征.所以,在融合方式的創(chuàng)新上,又涌現(xiàn)了一批優(yōu)秀的模型.

    當各種補充信息被利用,融合方式達到了令人滿意的效果,龐大的參數(shù)量、計算量以及內(nèi)存消耗也隨之而來.這顯然限制了顯著性目標檢測作為其他計算機視覺任務(wù)中一環(huán)的發(fā)展應(yīng)用.VGG[5]、ResNet[6]等優(yōu)秀的骨干網(wǎng)絡(luò),雖然能夠充分提取出原始輸入中的特征,但是其規(guī)模高達幾十兆、上百兆,加上其他部分的參數(shù),一個模型常常有一百兆以上甚至幾百兆.因此,現(xiàn)有的很多優(yōu)秀的顯著性目標檢測模型基本無法滿足在現(xiàn)實中生活中移動終端等設(shè)備上的投入使用.

    如果對顯著性目標檢測框架特征提取的部分引入輕量級神經(jīng)網(wǎng)絡(luò)MobileNet[7],能夠大大解放計算力,減少了小型設(shè)備中因為模型過大而導(dǎo)致的內(nèi)存限制,提升了訓(xùn)練速度和檢測速度.但是檢測精度也會隨之下降,邊界的清晰度也再次陷入了瓶頸.如何在保持模型輕量的條件下,盡量維持模型的檢測效果,是需要攻克的難點.

    基于以上問題,本文提出了一個基于多信息輔助的U型輕量級顯著性目標檢測模型.該模型創(chuàng)新性地使用輕量級模型作為整體框架的骨干網(wǎng)絡(luò),并且使用深度可分離卷積代替?zhèn)鹘y(tǒng)卷積.為了防止模型參數(shù)驟減引起的性能下降,本方法引入了顯著骨架特征和邊緣特征對骨干網(wǎng)絡(luò)提取出的特征進行補充,分別提高模型對邊緣區(qū)域以及目標中心區(qū)域的敏感度.利用下采樣平行融合模塊,將最深層的特征進行不同感受野的融合交互,加強模型對圖像整體結(jié)構(gòu)的把握.

    本文貢獻如下:

    1)設(shè)計了MUN模塊(Multi-task U-shape Network),并以此作為解碼器的模塊單元.MUN模塊能夠幫助每一層級的特征和顯著邊緣特征、骨架特征進行多尺度的融合交互,提升模型對于目標邊緣和定位的感知能力.

    2)提出了DPM模塊(Downsampling Parallel Module),可以幫助網(wǎng)絡(luò)進一步提取不同感受野的深層特征,遞進地掌握圖像的語義結(jié)構(gòu).

    3)在DPM和MUN模塊的基礎(chǔ)上,設(shè)計出了輕量級顯著性目標檢測模型LMUNet(Lightweight Multi-task U-shaped Network).該模型在規(guī)模和性能之間達到了一個良好的平衡.

    4)在不同的數(shù)據(jù)集上做了大量實驗,不僅驗證了所提出模塊的有效性,通過與其他模型的對比,也證明了LMUNet的優(yōu)越性.

    本文結(jié)構(gòu)安排如下:第2節(jié)介紹顯著性目標檢測領(lǐng)域的研究現(xiàn)狀,第3節(jié)著重介紹LMUNet和所提出模塊,第4節(jié)描述所做的大量實驗,并展示和分析實驗結(jié)果,第5節(jié)進行全文總結(jié).

    2 研究現(xiàn)狀

    目前,顯著性目標檢測領(lǐng)域內(nèi)主要有兩個問題需要改善:1)邊緣區(qū)域預(yù)測容易出現(xiàn)模糊不準確的情況;2)雖然深度神經(jīng)網(wǎng)絡(luò)可以提取到深度語義信息,但是當前景背景較為相似時,仍會出現(xiàn)目標定位不準確的情況.針對兩個問題,Pang等人利用U型結(jié)構(gòu)構(gòu)建了MINet[8],來對深層特征和淺層特征進行多層次多尺度的特征提取和特征融合.其中,聚合交互模塊可以通過相互學(xué)習(xí)有效地利用相鄰層的特征,而自交互模塊可以使網(wǎng)絡(luò)自適應(yīng)地從數(shù)據(jù)中提取多尺度信息,更好地處理尺度變化.除了結(jié)構(gòu)上的創(chuàng)新,還有部分模型引入了邊緣信息等幫助模型提高對邊緣區(qū)域的敏感性.比如,Zhao等人提出了EGNet模型[9],在網(wǎng)絡(luò)內(nèi)明確建立互補的顯著目標信息和顯著邊緣信息,以保持顯著目標邊界.同時,突出的邊緣特征也有助于定位.通過讓這兩個互補的任務(wù)相互幫助,共同優(yōu)化了這兩個任務(wù)分支的表現(xiàn),從而對顯著圖進行了明顯改善.

    多種信息的引入、融合方式的升級,導(dǎo)致了模型結(jié)構(gòu)復(fù)雜、規(guī)模龐大,限制了顯著性目標檢測在實際生活中的投入使用.于是,關(guān)于輕量級顯著性目標檢測的模型研究開始了.Liu等人提出了一種新的立體注意多尺度模塊,該模塊采用立體注意機制進行有效的多尺度學(xué)習(xí).以此模塊為基本單元,提出了一種用于顯著性目標檢測的輕量級編解碼器架構(gòu)SAMNet[10](Stereoscopically Attentive Multi-Scale Network).幾乎同時,Liu等人還提出了HVPNet[11](Hierarchical Visual Perception Network),其主要構(gòu)成模塊為層次視覺感知模塊.該模塊的設(shè)計靈感來源于靈長類的視覺系統(tǒng),使用密集連接的結(jié)構(gòu)來模擬視覺層次結(jié)構(gòu),并使用空洞卷積來模擬多尺度視覺信號在具有不同群體感受野的不同皮層中受到的分層處理.這些模型在達到輕量級的同時還保持了不錯的性能.

    3 LMUNet網(wǎng)絡(luò)模型

    3.1 總體結(jié)構(gòu)

    模型的主要框架分為解碼器部分和編碼器部分.編碼器部分主要是由一個骨干網(wǎng)絡(luò)和DPM模塊組成.骨干網(wǎng)絡(luò)用于從原始輸入進行特征提取,這里使用的是MobileNet.當然,此處可以被替代為任何一個輕量級的骨干網(wǎng)絡(luò).根據(jù)MobileNet中的輸出特征的大小,將其分成5個模塊.最接近輸入的模塊的輸出大小為112×112,輸出隨著模塊的加深逐級減小一倍,最后一個主干網(wǎng)絡(luò)模塊的輸出是7×7.其中,最淺層模塊的輸出和最深層模塊的輸出被共同送進多任務(wù)特征提取模塊進行骨架特征和邊緣特征的提取.如圖1右上角所示,4個3×3的卷積被用于生成顯著性的邊緣,然后用顯著性邊緣標簽對其進行監(jiān)督.顯著性邊緣標簽由原始標簽通過梯度計算得到.同樣地,顯著骨架圖也通過4個卷積層來獲取.經(jīng)過可行性分析,本文決定僅使用顯著性目標的骨架進行額外的信息補充.用于監(jiān)督骨架圖生成的標簽由原始的二值化顯著標簽得到.首先,對原始的顯著標簽使用matlab中operation為“skel”的 bwmorph函數(shù),作用是移除顯著目標的邊界,但是不允許目標隔開,由此保留下來的像素就是顯著目標的骨架.然后對得到的骨架進行腐蝕操作和膨脹操作,平滑骨架標簽.最終得到的骨架標簽就可以對骨架特征分支進行監(jiān)督.由于不需要特別精細的邊緣圖和骨架圖,也為了盡量減少模型的參數(shù),所以此處對邊緣特征和骨架特征的提取方式并沒有采用特別復(fù)雜的結(jié)構(gòu).

    骨干網(wǎng)絡(luò)的最后一個模塊的特征輸出,已經(jīng)是7×7大小的深層特征.從以往經(jīng)驗看來,7×7分辨率特征所具有的感受野仍然不能夠在前背景相似的情況下將顯著目標準確定位出來,所以此處,使用DPM模塊進行更進一步的全局語義線索推理.

    解碼器部分由5個MUN模塊來進行多任務(wù)特征融合以及分辨率還原.MUN的輸入除了上一級MUN模塊的輸出,還有骨干網(wǎng)絡(luò)中對應(yīng)尺度的側(cè)輸出以及來自多任務(wù)特征提取模塊的骨架特征和邊緣特征作為補充信息.注意圖1中,虛線表示對應(yīng)尺度的側(cè)輸出特征流,而實線表示其他特征流.其內(nèi)部結(jié)構(gòu)針對輸入的不同特點設(shè)計了一對一的融合方式,能夠在減少大跨度信息擾亂的同時將各種信息進行妥善的過渡統(tǒng)一.MUN的輸出除了被送進下一個MUN模塊,還會通過一個的卷積層側(cè)輸出一個顯著圖,由原始顯著標簽進行監(jiān)督.由于最底層的尺度過小,生成的顯著圖經(jīng)過線性插值還原分辨率之后,非常模糊,并且誤差會很大.對此顯著圖進行監(jiān)督的話,不僅不能正確清晰的幫助模型掌握目標定位,反而會帶來擾亂.所以參與監(jiān)督的實際上只有4個中間預(yù)測顯著圖,并且四個顯著圖損失的權(quán)重依據(jù)分辨率從高到低的順序依次削減.整個模型框架的最終輸出是由4個中間預(yù)測圖通道級聯(lián)再壓縮得到的單通道顯著圖.

    上述結(jié)構(gòu)看起來并不簡單,模型參數(shù)量卻只有2.70M,是因為在整體的結(jié)構(gòu)上使用了一些輕量級的設(shè)計.前文中提到的所有卷積操作,使用的都是深度可分離卷積.深度可分離卷積大大減少了參數(shù)量,但是卻幾乎維持了標準卷積的效果,非常適合輕量級模型.除了卷積,本文還將解碼器部分的通道數(shù)都通過3×3的深度可分離卷積壓縮到64,這樣有利于與補充信息進行融合,相較于使用128通道的模型也大大降低了整體規(guī)模.值得注意的是,MUN模塊的設(shè)計雖然和整體框架形成一個嵌套式的U型結(jié)構(gòu),但是由于大部分操作是在多重下采樣之后的特征上進行的,所以并沒有帶來大量的參數(shù)增加,在相對小的代價下,獲得了相對豐富的多尺度特征.

    3.2 多信息輔助U型模塊

    U型網(wǎng)絡(luò)的優(yōu)越性在于其深淺層信息的融合效力能夠在特征被逐漸稀釋的同時,為對應(yīng)尺寸的解碼層輸送包含相對豐富細節(jié)的特征補充.但是,嵌套式的U型結(jié)構(gòu)會導(dǎo)致參數(shù)規(guī)模指數(shù)級擴大,這就違背了最初的創(chuàng)新動機.為了能夠發(fā)揮U型結(jié)構(gòu)的特長,同時又能夠盡最大可能減少參數(shù)量的增長,本文重新設(shè)計了一個U型的多尺度多任務(wù)特征提取模塊.如圖2左邊部分所示,模塊的主要組成部分是深度可分離卷積.深度可分離卷積主要分成兩個部分,首先是對輸入的圖像進行分通道的卷積操作,每個通道對應(yīng)一個卷積核.在針對通道的卷積操作之后,跟著一層BN層以及一層ReLU層進行歸一化和激活.第2個部分針對像素進行的1×1卷積,這一步幾乎等同于傳統(tǒng)的1×1卷積,但是由于卷積核面積較小(面積為1),所以也沒有帶來很多額外的計算量.同樣地,在這層卷積層之后,也跟隨著BN層和ReLU層進行進一步的處理.編碼器部分仍是通過一步步的下采樣操作來獲得更具全局視角的深層特征,解碼器部分通過上采樣操作來還原分辨率.每個MUN模塊的輸入和輸出大小相同,通道數(shù)也被統(tǒng)一為64.

    圖2 不同版本MUN模塊結(jié)構(gòu)對比Fig.2 Comparison of different versions of MUN

    MUN模塊融合的信息種類包括邊緣特征和骨架特征.這兩種補充信息的特點各不相同,邊緣特征富含細節(jié),需要有較大的分辨率來承載;骨架信息偏向于結(jié)構(gòu)化,其生成較偏重于深度信息,比較粗糙.圖2左半部分所展示的第1種融合方式中,MUN將短連接從解碼器傳送過來的信息和骨架信息、邊緣信息在MUN模塊入口處就進行融合卷積.這種無差別對待的方式?jīng)]有考慮到兩種補充信息的特點.根據(jù)以往經(jīng)驗認為,骨架特征具有的語義線索更多,相對較深層的信息也是具有較多的語義信息,這兩種特征的分布可能更為相近,且特點相似跨度較小.所以設(shè)計了圖2右半部分的融合方式,在模塊入口僅將邊緣特征下采樣到與骨干網(wǎng)絡(luò)的側(cè)輸出特征相同大小,然后使用像素對齊相加的方式將該兩種特征和上一MUN模塊的輸出特征融合成一個新的64通道特征.經(jīng)過2~3次深度可分離卷積之后,將骨架特征加入.此時,MUN已經(jīng)逐漸加深,得到的特征也開始具有結(jié)構(gòu)性.加入的方式依舊使用像素對齊相加.在實驗部分,對兩種模塊的表現(xiàn)進行了對比,實驗結(jié)果表明第2版本的融合方式更加能夠適應(yīng)不同特征的不同特點.最終選用第2種融合方式作為最終網(wǎng)絡(luò)的解碼器模塊.

    3.3 下采樣平行模塊

    在骨干網(wǎng)絡(luò)中,特征的分辨率逐漸被下采樣操作減小,其中蘊含的信息也從豐富的細節(jié)信息轉(zhuǎn)換成了深度語義信息.如果將最淺層的特征和最深層的特征相融合形成新的特征,由于兩種特征的分布差距過大,這種不一致性會導(dǎo)致融合效果下降.所以為了避免這種特征間跨度過大引起的融合失敗,DPM模塊采用了相鄰特征平行融合的方式.

    如圖3所示,DPM模塊對輸入特征進行了不同的操作,生成了3個分支.首先,對輸入分別做一次深度可分離卷積和空洞率為2的空洞卷積,這就形成了3個分支中的兩個.兩個分支擁有不同的感受野,但由于空洞率僅為2,所以特征分布仍較為接近.然后再對輸入做下采樣,以獲得更具全局視野的特征,并對該特征進行一次卷積,形成了第3個分支.相鄰分支特征分別進行點對點相乘,用于增強兩個相鄰特征中都檢測為顯著性的部分,削弱有任何一方認為是非顯著區(qū)域的部分,并將該特征作為補充信息,加入第1階段的特征融合.第1階段的特征融合將相鄰分支特征相加,并加入該兩個特征的對齊相乘進行局部修正.至此,3個分支融合成了兩個分支,分別對其進行一次卷積操作.第2階段的融合將兩個分支的特征進行相加,再進行一次卷積操作.最終得到的特征作為DPM模塊的最終輸出,參與解碼器中的分辨率還原.

    圖3 DPM模塊結(jié)構(gòu)Fig.3 Structure of DPM

    3.4 損失函數(shù)

    LMUNet網(wǎng)絡(luò)總共涉及到需要監(jiān)督的有7處,其中,一處是邊緣特征提取部分,需要對顯著邊緣圖進行監(jiān)督,還有一處是骨架特征提取部分,也需要生成一個對應(yīng)的顯著骨架標簽來幫助建模.其余5處是作為網(wǎng)絡(luò)最終輸出的綜合顯著圖和解碼器4個MUN模塊的側(cè)輸出,這4個側(cè)輸出經(jīng)過線性插值和顯著標簽進行尺寸對齊,由原始顯著標簽進行監(jiān)督.在本章節(jié)中出現(xiàn)的模型皆是在數(shù)據(jù)集DUTS的訓(xùn)練集上進行的.該數(shù)據(jù)集提供顯著標簽,但是不提供顯著邊緣標簽和骨架標簽.為了減少擾亂,僅使用顯著性目標的邊緣作為邊緣標簽.出于同樣的考慮,骨架也僅使用顯著性目標的骨架.顯著性骨架標簽基于原顯著標簽,將顯著性目標的外圈像素逐漸腐蝕,但是必須保證連通的像素區(qū)域不增加,不改變圖像歐拉數(shù).由此得到的骨架圖會因為有些邊緣有些銳利而生成多余的骨架分支,不符合人類視覺機制對于目標骨架的定義.于是,在此基礎(chǔ)上,也如同在文獻[12]中的做法,對顯著骨架標簽通過腐蝕和膨脹函數(shù)進行平滑處理.最終效果圖如圖4第4列所示,其中第3列是基于顯著標簽得到的顯著邊緣標簽.

    圖4 顯著邊緣標簽(第3列)和骨架標簽(第4列)Fig.4 Salient edge ground truth and skeleton ground truth

    同文獻[13]使用的邊緣函數(shù)損失函數(shù)類似,使用的是針對邊界的Edge Loss:

    (1)

    en代表是的顯著邊緣預(yù)測圖中的像素值.W代表的是整個模型的參數(shù).logPr(en=0|W)代表的是像素值en被計算為1的顯著性像素的概率.E+表示的是顯著性像素集合,E-表示非顯著性像素集合.顯著圖的監(jiān)督還使用了常用的二值交叉熵損失(BCE Loss:Binary Cross Entropy Loss)和交并集之比損失(IoU Loss:Intersection over Union Loss).此處骨架的損失函數(shù)也參考了文獻[12],使用二值交叉熵損失.該損失函數(shù)可以被寫成:

    SkeletonLoss=-w(i,j)(p(i,j)log g(i,j)+(1-p(i,j))log(1-g(i,j)))

    (2)

    其中,w(i,j)是每個像素點的權(quán)重,默認是1.和p(i,j)和g(i,j)分別是位置(i,j)處的預(yù)測值和真值,即Ground Truth中對應(yīng)的值.整體損失函數(shù)的公式為:

    (3)

    4 實 驗

    4.1 數(shù)據(jù)集和實驗設(shè)置

    模型的訓(xùn)練過程使用的是DUTS-TR,該訓(xùn)練數(shù)據(jù)集包含了10553張圖片.使用的優(yōu)化算法是隨機梯度下降法,初始學(xué)習(xí)率為1e-2,沖量設(shè)置為0.9,權(quán)重衰減設(shè)置為5e-4,batchsize為16.由于MobileNet的參數(shù)已經(jīng)經(jīng)歷過預(yù)訓(xùn)練,而其他部分的參數(shù)是經(jīng)過隨機初始化方法進行初始化的.所以在訓(xùn)練過程中,對骨干網(wǎng)絡(luò)的參數(shù)和其他模塊的參數(shù)使用不同的學(xué)習(xí)率以適應(yīng)處于不同調(diào)整階段的迭代.具體實現(xiàn)上,對骨干網(wǎng)絡(luò)部分使用的學(xué)習(xí)率是其他部分的十分之一.訓(xùn)練完成之后,分別在5個數(shù)據(jù)集上進行了多項評估和比較.這5個數(shù)據(jù)集分別為,包含5019張圖像的DUTS-TE數(shù)據(jù)集[14]、包含1000張圖像的ECSSD數(shù)據(jù)集[15]、包含850張圖像的PASCAL-S數(shù)據(jù)集[16]以及包含4447張圖像的HKU-IS數(shù)據(jù)集[17].關(guān)于模型的評估,使用了4個評估指標從不同的角度去檢驗?zāi)P蛢?yōu)劣,分別是平均F值(mF:mean F-measure)[18]、平均絕對誤差(MAE:mean absolute error)[19],結(jié)構(gòu)度量值(Sm:structure-measure)[20]以及增強匹配指標(Em:enhanced-alignment measure)[21].

    4.2 消融實驗

    在本節(jié)中,將對前面提出的模塊進行消融實驗,以驗證所作出創(chuàng)新點的有效性.

    4.2.1 多任務(wù)U型網(wǎng)絡(luò)模塊

    MUN的設(shè)計目的是為了將顯著邊緣特征和骨架特征融合進解碼過程,對在編碼器中被稀釋的特征進行補充和修正.如表1所示,隨著MUN的信息逐漸豐富,模型的整體性能也逐步提升.UN是單純的U型網(wǎng)絡(luò),僅對編碼器和上一個UN模塊的輸出做提取融合,但是由于在結(jié)構(gòu)上對單層特征進行了多尺度的提取和交互,所以也展現(xiàn)出了不錯的效果.是在UN的基礎(chǔ)上,融合了邊緣特征.邊緣特征加入后,在DUTS-TE數(shù)據(jù)集上,mF提高了4.1%,MAE降低了1.3%.這說明邊緣信息的補充起到了相當?shù)木植績?yōu)化作用,并且設(shè)計的U型模型能夠正確地將邊緣信息融入,發(fā)揮其作用.同時,能夠反映結(jié)構(gòu)預(yù)測準確性的Sm和Em分別提高了1.3%和3.3%.整體來看,邊緣特征不僅幫助了邊緣局部區(qū)域的預(yù)測,還對整體結(jié)構(gòu)預(yù)測有改善.要注意的是MUN1和MUN2結(jié)構(gòu)的不同,對邊緣和骨架的融合方式區(qū)別在MUN的編碼器中加入骨架Skeleton的時機,圖2展示了這兩種結(jié)構(gòu)的具體區(qū)別.可以看到,當無差別地對待邊緣特征和骨架特征,由于加入了輔助信息,性能還是有一定的提升.但是提升幅度遜于MUN2,這是因為沒有考慮兩者的區(qū)別,用同一種方式融入兩種信息,導(dǎo)致骨架特征給淺層特征帶來了一定的噪聲和擾亂,從而影響模型的判斷.由實驗數(shù)據(jù)可以看出,MUN2由于考慮了不同特征分布的差距,將骨架特征的加入時機安排在較深層,所以在性能上表現(xiàn)更為優(yōu)秀.MUN2較MUN1在mF上提升了1%,MAE降低了0.6%,而Sm和Em分別提高了1.4%和0.9%.而加上skeleton的MUN2方式相比只加edge的方法,整體評價指標也有提高,這不僅說明skeleton的加入對模型有輔助作用,而且MUN2的融合方式也是有效的.最終的對比實驗中使用的是MUN2版本.

    表1 基于DUTS-TE數(shù)據(jù)集的MUN不同版本模塊消融對比Table 1 Comparison between different versions of MUN module on DUTS-TE

    4.2.2 各模塊消融實驗

    根據(jù)表1的結(jié)果確定使用MUN2作為解碼器的主要組成模塊,表2中展示了MUN2模塊和DPM模塊被逐漸加上之后模型的表現(xiàn).Base模型是僅使用UN模塊作為解碼器組成、MobileNet作為編碼器的模型.MUN2模塊被加入之后,在圖像局部預(yù)測與整體結(jié)構(gòu)預(yù)測上都有了很大的提升.DPM被加入后,在兩個數(shù)據(jù)集的各個指標上也都有進步,足以說明DPM的有效性.提升效果不如MUN2明顯,猜測是因為使用的是輕量級網(wǎng)絡(luò)MobileNet作為骨干網(wǎng)絡(luò)去進行深度特征的提取,由于體量較輕,在最深層的時候可能提取到的深度信息沒有其他非輕量級網(wǎng)絡(luò)那么豐富.而DPM的進一步提取恰好建立在第5個最深的模塊輸出上.若后續(xù)有一些更優(yōu)秀的輕量級模型被提出,可以靈活地應(yīng)用在LMUN網(wǎng)絡(luò)框架中,或許可以進一步發(fā)揮出DPM的優(yōu)勢.整體看來,網(wǎng)絡(luò)本身的結(jié)構(gòu)設(shè)計是高效的,MUN2模塊和DPM模塊的加入對模型的性能提升都有進一步的貢獻.

    表2 基于DUTS-TE數(shù)據(jù)集的各模塊消融對比Table 2 Ablation comparison of each module on DUTS-TE

    4.3 對比實驗

    4.3.1 數(shù)據(jù)對比

    為了驗證LMUNet的優(yōu)越性,本節(jié)中做了大量的對比實驗.為了體現(xiàn)對比的公平性,所有的評估結(jié)果均來源于各個模型論文中所提供的各大數(shù)據(jù)集上的顯著圖,并且使用同一套評估代碼.進行對比的SOTA(State of the Art)模型一共有9個.其中,非輕量級模型有7個,包括R3Net[23],PoolNet[24],EGNet[9],MINet[8],LDF[25],F3Net[26]和GCPANet[27].由于輕量級顯著性目標檢測的研究目前還比較少,所以用于輕量級模型對比的網(wǎng)絡(luò)只有兩個,即SAMNet[10]和HVPNet[11].

    表3中展示了LMUNet與其他兩個輕量級網(wǎng)絡(luò)在DUTS-TE測試數(shù)據(jù)集上的計算時間對比.采用的單位為每秒幀率(FPS:Frame Per Second).可以看出雖然LMUNet雖然規(guī)模略大于HVPNet和SAMNet,但是在檢測速度上明顯超越了兩者.

    表3 LMUNet與其它輕量級模型的速度對比Table 3 Speed comparison between LMUNet and other lightweight SOD models

    關(guān)于模型精度的對比在表4中給出,第2列展示了各個模型的參數(shù)量,單位為M.表4中結(jié)果顯示,本文所提出了方法在精度上已經(jīng)能夠超越大部分非輕量級模型,但是整體效果仍略遜于F3Net和LDF,但是LMUNet的模型參數(shù)量只有兩者的近十分之一.對比HVPNet,本文提出的模型在各個數(shù)據(jù)集上平均關(guān)于mF超過了4.98%,關(guān)于MAE下降了1.75%,而Sm和Em平均提升了2.38%和2.45%.雖然LMUNet的參數(shù)量為2.70M,略高于另外兩個輕量級模型,但是也滿足輕量級的要求,能夠很好地應(yīng)用在實際場景中.以上足以證明本文所提出模型在各個數(shù)據(jù)集上都達到了最優(yōu)的性能.

    表4 提出模型與9種模型在DUTS-TE、ECSSD、PASCAL-S和HKU-IS數(shù)據(jù)集上的對比Table 4 Comparison between LMUNet and other SOTA models

    4.3.2 可視化對比

    圖5中展示了LMUNet和一些SOTA模型的可視化結(jié)果對比.圖5中第1列是原圖,第2列是真值標簽.第3、4列是兩個輕量級模型SAMNet、HVPNet,最后一列是本文所提出的模型.其他是一些非輕量級模型.對比第1、3兩行,LMUNet的顯著圖相較其他輕量級模型更為清晰、準確,在大量縮減參數(shù)的同時,還能達到和其他非輕量級模型不相上下的預(yù)測水平.對比其他4列,本文所提出模型在人類視覺系統(tǒng)的評判標準下不僅超越了其他輕量級模型,甚至優(yōu)于一些非輕量級模型.綜上所述,LMUNet在邊緣區(qū)域和整體目標定位上都表現(xiàn)出了優(yōu)越的性能.

    圖5 所提出模型與其他優(yōu)秀模型的可視化結(jié)果對比Fig.5 Visualized comparison of the LMUNet and other SOTA models

    5 總 結(jié)

    本文提出了一種基于多任務(wù)信息補充的輕量級嵌套U型顯著性目標檢測網(wǎng)絡(luò),簡稱LMUNet.顯著性目標檢測作為一項涉及多種計算機視覺任務(wù)的研究,其速度和精度都需要達到較高水準.但是目前領(lǐng)域內(nèi)幾乎很少有輕量級模型的出現(xiàn),龐大的參數(shù)規(guī)模限制了顯著性目標檢測在移動設(shè)備上的應(yīng)用,也阻礙了和其他視覺任務(wù)的結(jié)合使用.所以LMUNet借鑒了目標檢測輕量級網(wǎng)絡(luò)MobileNet的部分結(jié)構(gòu)作為骨干網(wǎng)絡(luò),同時使用深度可分離卷積代替普通卷積,減少參數(shù)量.為了防止輕量化后的模型表現(xiàn)嚴重下降,分別設(shè)計了MUN模塊和DPM模塊.MUN模塊利用邊緣特征對模塊內(nèi)的淺層特征作細節(jié)補充和邊緣區(qū)域強調(diào),利用骨架特征對圖像特征的結(jié)構(gòu)進行進一步的強化和修正.DPM模塊中通過下采樣操作和空洞卷積操作獲得了不同感受野和全局性的特征,主要作用是為了對模型進行結(jié)構(gòu)信息補充,改善目標定位.考慮到尺度相差過大的特征無法相互適應(yīng)融合,DPM中使用平行結(jié)構(gòu)進行相鄰融合,逐漸將多個特征集成為一個特征.本文提出的方法在4個常用數(shù)據(jù)集上都獲得了不錯的性能,在模型大小和精度之間達到了進一步的平衡,與其他優(yōu)秀模型的對比闡述了本模型的有效性及優(yōu)越性.

    猜你喜歡
    骨架邊緣卷積
    淺談管狀骨架噴涂方法
    基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
    骨架密度對炭/炭多孔骨架壓力浸滲銅的影響
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    基于傅里葉域卷積表示的目標跟蹤算法
    一張圖看懂邊緣計算
    內(nèi)支撐骨架封抽技術(shù)在突出煤層瓦斯抽采中的應(yīng)用
    中國煤層氣(2014年3期)2014-08-07 03:07:45
    一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
    鐵骨架配合物凝膠的合成、表征及催化性能
    在邊緣尋找自我
    雕塑(1999年2期)1999-06-28 05:01:42
    务川| 临高县| 景宁| 常山县| 娱乐| 株洲县| 越西县| 久治县| 大化| 高碑店市| 大丰市| 桦南县| 镇平县| 奇台县| 大同市| 丰台区| 乾安县| 金阳县| 黎平县| 桑植县| 辛集市| 远安县| 和田县| 肃宁县| 桦南县| 长海县| 芮城县| 陇西县| 阿图什市| 沈丘县| 明水县| 日照市| 桓仁| 邢台县| 姜堰市| 永顺县| 龙州县| 博乐市| 乌审旗| 凉城县| 西昌市|