曹 立 春
(內(nèi)蒙古師范大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院 內(nèi)蒙古 呼和浩特 010022)
目標(biāo)檢測指的是在給定的圖像或視頻幀中找到被檢測目標(biāo)的位置并判斷目標(biāo)的相應(yīng)類別。目前,基于深度學(xué)習(xí)的目標(biāo)檢測日益成熟,其算法在各個(gè)大型數(shù)據(jù)集(如Image-Net、Pascal VOC、MS COCO等)上的準(zhǔn)確率突飛猛進(jìn),但“檢測框”位置不精確及“小物體”容易漏檢等問題依舊比較嚴(yán)重,相比于大物體,小物體由于像素較低,且相對于整幅圖片來說所占的比例較少,受圖像背景干擾大容易被遮擋等原因,使得小目標(biāo)檢測一直是圖像處理領(lǐng)域的一大難題。
傳統(tǒng)方法通過手工設(shè)計(jì)的特征來進(jìn)行目標(biāo)檢測,此類方法在性能上基本取決于人為設(shè)定的手工特征質(zhì)量,因此很難將其泛化到其他類別。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)的提出使得目標(biāo)檢測邁進(jìn)了一個(gè)新階段[1]。近年來,研究者們不斷在這個(gè)領(lǐng)域進(jìn)行探索創(chuàng)新,基于R-CNN系列[2-3,7]框架逐漸完善,是目標(biāo)檢測領(lǐng)域較成熟的框架之一,此外,U-Net[4]通過對稱式的結(jié)構(gòu)融合了網(wǎng)絡(luò)中低維和高維的特征,對特征的提取能力有了很大的提升。但是目前在針對小目標(biāo)的漏檢及計(jì)算機(jī)無法自主地調(diào)整搜索路徑等問題上仍然存在許多困難。
研究發(fā)現(xiàn)[5-6],算法提取的特征質(zhì)量越好,越有助于小目標(biāo)的檢測;檢測框?qū)δ繕?biāo)的包圍程度也會(huì)影響目標(biāo)檢測的精度?;诖?,本文提出將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相結(jié)合應(yīng)用于目標(biāo)檢測任務(wù),并主要對特征提取部分的網(wǎng)絡(luò)框架進(jìn)行改進(jìn)。本文的創(chuàng)新點(diǎn)如下:(1) 改進(jìn)U型網(wǎng)絡(luò)結(jié)構(gòu),加入注意力模塊,對特征進(jìn)行增強(qiáng);(2) 提取候選框結(jié)合深度強(qiáng)化學(xué)習(xí),利用強(qiáng)化學(xué)習(xí)技術(shù)對預(yù)測的檢測框調(diào)整以達(dá)到精確定位的目的。本文通過以上兩個(gè)方面達(dá)到改善小目標(biāo)檢測精度的目的。
目標(biāo)檢測方法分為一階段法與兩階段法兩種。一階段法[7]主要使用錨框?qū)φ麄€(gè)圖像的區(qū)域進(jìn)行預(yù)測,然后對預(yù)測進(jìn)行解碼,生成對象的最終邊界框。而兩階段法[8]使用第一部分,如區(qū)域生成網(wǎng)絡(luò)[9](Region Proposal Network,RPN),生成一個(gè)稀疏的候選對象提議集,第二部分進(jìn)行進(jìn)一步的分類和回歸,使用卷積網(wǎng)絡(luò)確定準(zhǔn)確的對象區(qū)域和相應(yīng)的類別標(biāo)簽。單級網(wǎng)絡(luò)雖然比兩級網(wǎng)絡(luò)快,但由于只使用了一階段的檢測,丟掉了許多的目標(biāo)信息,因此在檢測精度上通常落后于兩階段方法,特別是對于包含小目標(biāo)的場景。
強(qiáng)化學(xué)習(xí)是一種試錯(cuò)過程,其思想是通過agent不斷地與環(huán)境交互,利用獎(jiǎng)勵(lì)與懲罰的機(jī)制使agent學(xué)習(xí)到解決問題的最優(yōu)策略。其與深度學(xué)習(xí)結(jié)合的深度強(qiáng)化學(xué)習(xí)能夠讓agent通過數(shù)據(jù)來掌握運(yùn)動(dòng)感知的技能,從而達(dá)到獎(jiǎng)勵(lì)最大化。已經(jīng)成功應(yīng)用到了計(jì)算機(jī)視覺[10]、自然語言處理[11]等方面。
在目標(biāo)檢測領(lǐng)域,強(qiáng)化學(xué)習(xí)也有著很重要的作用,Caicedo等[12]將強(qiáng)化學(xué)習(xí)與CNN相結(jié)合,通過一系列簡單的動(dòng)作變換來定位候選區(qū)域中目標(biāo)的正確位置,完成了目標(biāo)定位的任務(wù)。接著,此種方法被用于美學(xué)的圖像裁剪問題[13]。Bellver等[14]采用嵌套層次搜索的手段滿足強(qiáng)化學(xué)習(xí)適用于序列性任務(wù)的要求,用IoU指標(biāo)制定相應(yīng)的reward方程,采用了事先規(guī)定的五點(diǎn)子窗口區(qū)域,大大減少了檢測的范圍。但是這種固定的搜索窗口限制了搜索范圍,導(dǎo)致目標(biāo)檢測的召回率低。Gao等[15]設(shè)計(jì)了包括兩部分的網(wǎng)絡(luò),深度學(xué)習(xí)部分分析區(qū)域的潛在精度增益,強(qiáng)化學(xué)習(xí)部分選擇區(qū)域放大,對放大的區(qū)域進(jìn)行檢測,類似于圖像分割。但是這種方法可能會(huì)使小的對象可能變得太小而無法在下采樣圖像中檢測到。
上述兩階段法針對小目標(biāo)檢測相對友好,但仍然存在對小目標(biāo)檢測不準(zhǔn)確、結(jié)果精度不高的問題,因此本文在兩階段模型的基礎(chǔ)上引入強(qiáng)化學(xué)習(xí)。本文創(chuàng)新在于通過將注意力機(jī)制嵌入到特征提取部分,并將U-Net的輸出改為多級輸出然后進(jìn)行合并,進(jìn)而達(dá)到對特征提取優(yōu)化的效果。
本文算法首先通過特征提取網(wǎng)絡(luò)提取特征,也就是改進(jìn)的U-Net與RPN結(jié)合得到初步的目標(biāo)包圍框,隨后通過ROI Align篩選出感興趣區(qū)域,再進(jìn)入強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)調(diào)整檢測框的包圍精度。本文的強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)由兩個(gè)全連接層組成,每層后面都接一個(gè)ReLU函數(shù)和一個(gè)dropout層,輸出為agent對檢測框調(diào)整的動(dòng)作,并對動(dòng)作設(shè)計(jì)了10種變形類別及1種終止類別。即采用馬爾可夫策略對檢測框進(jìn)行迭代調(diào)整,從而提升精度。本文算法主要包含特征提取和強(qiáng)化學(xué)習(xí)兩大步驟,本文框架如圖1所示。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)圖
2.1.1傳統(tǒng)U-Net
傳統(tǒng)U-Net網(wǎng)絡(luò)先用卷積不斷的下采樣,得到分辨率較低的高維特征圖,不斷下采樣的過程中形成一個(gè)維數(shù)由低到高的特征金字塔,再通過一系列反卷積層逆向進(jìn)行多次上采樣,在每次反卷積操作后,將特征圖維度減半,然后與對應(yīng)層級的特征圖通過矩陣級聯(lián)進(jìn)行融合,生成與原有特征金字塔逐級對應(yīng)的特征圖,最終輸出與輸入圖像分辨率一致的像素級預(yù)測結(jié)果。融合后的特征包含了金字塔頂層的抽象數(shù)據(jù)和低層的細(xì)節(jié)信息。由于這種對稱式的網(wǎng)絡(luò)結(jié)構(gòu)在形態(tài)上近似一個(gè)“U”型,因此命名為U-Net,其結(jié)構(gòu)如圖2所示。
圖2 傳統(tǒng)U-Net結(jié)構(gòu)圖
2.1.2多維注意力模塊
多維注意力模塊[16](MDA-Net)主要由像素注意力與通道注意力構(gòu)成,像素注意力網(wǎng)絡(luò)中,輸入特征通過具有不同比率卷積核的初始模塊進(jìn)行不同尺度的特征提取,然后通過卷積得到分別表示前景和背景分?jǐn)?shù)的雙通道顯著性特征圖。再用Softmax函數(shù)把顯著性特征圖的值限制在[0,1]之間,它可以降低噪聲,相對增強(qiáng)目標(biāo)信息。通道注意力使用經(jīng)典的SE-Net[17]結(jié)構(gòu),首先經(jīng)過全局平均池化(Global Average Pooling,GAP)輸出C個(gè)特征通道的數(shù)值分布,然后將特征降維,再經(jīng)過ReLU激活后通過一個(gè)全連接層將維度變?yōu)樵瓉淼木S度。通過Sigmoid獲得[0,1]之間歸一化的權(quán)重,也就是根據(jù)每個(gè)特征通道的重要程度去提升有用的特征并抑制用處不大的特征。最后由兩部分注意力與原特征相乘得到更具價(jià)值的特征圖。圖3所示為多維注意力模塊。
圖3 多維注意力模塊MDA-Net
2.1.3改進(jìn)的U-Net
在傳統(tǒng)U-Net模型中,最終的輸出結(jié)果由金字塔底層特征(即卷積過程與反卷積過程融合的特征)直接產(chǎn)生,這導(dǎo)致模型在訓(xùn)練時(shí)關(guān)注于低層的參數(shù)更新,而忽略了頂層的相關(guān)參數(shù)優(yōu)化。因此本文提出改進(jìn)的U-Net,與傳統(tǒng)U-Net結(jié)構(gòu)相似,其主要思想是利用Resnet的自然卷積下采樣特征層級結(jié)構(gòu)作為編碼器。但是由于Conv1的龐大內(nèi)存占用,本文不將其納入U(xiǎn)型網(wǎng)絡(luò)中,解碼器是通過對編碼器學(xué)習(xí)的特征逐步上采樣進(jìn)行空間分辨率的恢復(fù)操作。通過將解碼器與編碼器相應(yīng)空間分辨率的特征橫向鏈接達(dá)到特征利用的效果,但在特征的橫向鏈接處,本文嵌入上述多維注意力模塊MDA-Net,利用像素注意力與通道注意力,減弱下采樣圖像的噪聲影響,強(qiáng)化特征相關(guān)信息,弱化不相關(guān)信息,從而提高特征的利用能力。經(jīng)過MDA-Net處理過的下采樣特征與對應(yīng)的上采樣特征進(jìn)行逐像素的相加,得到每層的融合特征。改進(jìn)的U-Net與傳統(tǒng)U-Net不同,預(yù)測在每個(gè)級別上都獨(dú)立進(jìn)行,每一層級都輸入到單獨(dú)的RPN網(wǎng)絡(luò),生成一組帶有目標(biāo)框的特征圖,然后將每層RPN得到的目標(biāo)框進(jìn)行向量拼接輸出到下一網(wǎng)絡(luò)層。圖4所示為本文改進(jìn)的U-Net架構(gòu)。
圖4 改進(jìn)的U型網(wǎng)絡(luò)
為了提升檢測精度,需要對檢測框進(jìn)行調(diào)整,使其緊密地包圍目標(biāo)。對檢測框調(diào)整的過程可以看作是一系列有目標(biāo)導(dǎo)向的馬爾可夫搜索過程,因此在本文改進(jìn)的U-Net基礎(chǔ)上引入強(qiáng)化學(xué)習(xí),來進(jìn)一步調(diào)整檢測框的精確度。
強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)首先將ROI Align輸出的特征向量與歷史-動(dòng)作向量相結(jié)合作為強(qiáng)化學(xué)習(xí)的輸入,此時(shí)算法將整幅圖像看作是一個(gè)環(huán)境,定義當(dāng)前的檢測框?yàn)閍gent,agent通過獎(jiǎng)勵(lì)函數(shù)的引導(dǎo),選取動(dòng)作集合中的動(dòng)作來對檢測框進(jìn)行變形移位,其目標(biāo)是使檢測框?qū)⒛繕?biāo)緊緊包圍起來,最終達(dá)到目標(biāo)檢測的目的。為了構(gòu)建一個(gè)完整的強(qiáng)化學(xué)習(xí)系統(tǒng),下面進(jìn)行對馬爾可夫決策過程建模。
2.2.1馬爾可夫建模
(1) 狀態(tài)。狀態(tài)表示是一個(gè)二元組(o,h),其中:o表示網(wǎng)絡(luò)當(dāng)前產(chǎn)生的圖片特征向量,這個(gè)特征向量是由ROI Align生成的;h是一個(gè)固定大小的向量,用來表示agent曾采取的h個(gè)歷史動(dòng)作。
(2) 動(dòng)作。agent每次根據(jù)當(dāng)前的狀態(tài),從動(dòng)作集A中選擇動(dòng)作進(jìn)入下一個(gè)狀態(tài)。動(dòng)作集合定義:A={左移,右移,上移,下移,變大,變小,變寬,變窄,變高,變矮,終止},每個(gè)動(dòng)作根據(jù)當(dāng)前檢測框的大小,以比例0.2對檢測框進(jìn)行變形,變形動(dòng)作是一組離散的變化,終止動(dòng)作表示當(dāng)agent能夠確定當(dāng)前的檢測框已經(jīng)緊密地將目標(biāo)包圍住時(shí)執(zhí)行終止動(dòng)作,代表搜索截止。
(3) 獎(jiǎng)勵(lì)。當(dāng)agent執(zhí)行動(dòng)作a并由狀態(tài)s進(jìn)入下一狀態(tài)s′時(shí),環(huán)境都會(huì)反饋給agent一個(gè)獎(jiǎng)勵(lì)Ra,獎(jiǎng)勵(lì)的大小代表動(dòng)作的對錯(cuò),即算法計(jì)算當(dāng)前采取動(dòng)作后得到的候選區(qū)域b′與目標(biāo)的真實(shí)區(qū)域g的重疊率大于當(dāng)前候選區(qū)域b與g的重疊率,那么給予獎(jiǎng)勵(lì),否則給予懲罰,即sign函數(shù)給出+1與-1值。agent能夠根據(jù)當(dāng)前的獎(jiǎng)勵(lì)選擇后續(xù)的動(dòng)作序列方向。獎(jiǎng)勵(lì)函數(shù)定義如下:
Ra(s,s′)=sign(IoU(b′,g)-IoU(b,g))
(1)
式中:IoU(b,g)代表目標(biāo)區(qū)域g與候選區(qū)域b的交并比。
IoU(b,g)=area(b∩g)/area(b∪g)
(2)
對于終止動(dòng)作,獎(jiǎng)勵(lì)函數(shù)定義為:
(3)
τ是一個(gè)閾值,表示允許將參與區(qū)域看作為正確的檢測目標(biāo)的最小IoU。目標(biāo)檢測評估的標(biāo)準(zhǔn)閾值為0.5,即如果IoU>0.5,則認(rèn)為是真實(shí)的檢測,給予獎(jiǎng)勵(lì)η,否則為錯(cuò)誤的檢測,給予懲罰-η,在本實(shí)驗(yàn)中η=3。為了更好地實(shí)現(xiàn)定位,在訓(xùn)練時(shí)使用τ=0.6。如果τ的值較大,對性能有負(fù)面影響,因?yàn)閍gent認(rèn)為只有清晰可見的對象才值得觸發(fā)。
2.2.2Q學(xué)習(xí)
根據(jù)以上對行動(dòng)集合、狀態(tài)集合以及獎(jiǎng)賞函數(shù)的定義,通過應(yīng)用Q-學(xué)習(xí)算法學(xué)習(xí)最優(yōu)策略Q(s,a),agent根據(jù)Q函數(shù)選擇具有最高期望獎(jiǎng)勵(lì)的動(dòng)作,其中Q函數(shù)使用貝爾曼方程進(jìn)行更新,更新過程如下:
Q(s,a)=r+γmaxaQ(s′,a′)
(4)
式中:s為當(dāng)前狀態(tài);a為當(dāng)前選擇的行動(dòng);r為獎(jiǎng)勵(lì);γ代表折扣系數(shù);s′代表下一狀態(tài);a′代表接下來采取的行動(dòng)。
2.2.3模型訓(xùn)練
對于一幅圖像,首先將圖片的尺寸設(shè)置為224×224作為改進(jìn)U-Net的輸入,進(jìn)行特征提取,分別得到不同層具有不同尺度的特征圖,這些層分別進(jìn)入對應(yīng)的RPN網(wǎng)絡(luò),生成目標(biāo)可能的候選框,在此階段應(yīng)用非極大值抑制(Non-Maximum Suppression,NMS)算法消除冗余候選框,再進(jìn)入ROI Align,生成感興趣區(qū)域,隨后進(jìn)入強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò),設(shè)置當(dāng)前狀態(tài)為s,agent以概率ε從動(dòng)作集A中隨機(jī)選取一個(gè)動(dòng)作a進(jìn)行檢測框的移動(dòng)。執(zhí)行動(dòng)作a之后,得到新的候選區(qū)域b′,環(huán)境會(huì)根據(jù)上式賦予agent一個(gè)正的或者是負(fù)的獎(jiǎng)勵(lì)r,用于指導(dǎo)agent的下一步動(dòng)作,同時(shí)將動(dòng)作a并入到歷史動(dòng)作向量中,與當(dāng)前的圖像特征構(gòu)成狀態(tài)表示。隨后環(huán)境進(jìn)入下一狀態(tài)s′。重復(fù)上述過程,直至a為終止動(dòng)作或者已經(jīng)達(dá)到最大搜索步驟數(shù)時(shí),結(jié)束搜索過程,達(dá)到最終的定位結(jié)果。并將每一步得到的經(jīng)驗(yàn)信息元祖(s,a,r,s′)存入經(jīng)驗(yàn)池中,提供給整個(gè)模型訓(xùn)練。
模型的各部分設(shè)置如下:
(1) 探索-利用。在探索-利用過程中,使用ε-greedy訓(xùn)練強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò),在探索階段使用的隨機(jī)選擇策略,即agent每次以ε的概率隨機(jī)選擇動(dòng)作,利用階段以1-ε的概率利用已經(jīng)學(xué)習(xí)到的策略進(jìn)行決策。ε初始為1,ε-greedy策略分為15個(gè)周期,在前五個(gè)周期,通過agent與所有訓(xùn)練圖像交互,ε由1.0逐漸減小至0.1。以逐步讓agent使用其自己的學(xué)習(xí)模型。在第五周期之后ε被固定為0.1,因此agent根據(jù)自己決策產(chǎn)生的經(jīng)驗(yàn)調(diào)整模型參數(shù)。使用隨機(jī)梯度下降和反向傳播算法與丟棄正則化對參數(shù)進(jìn)行更新。雖然在探索階段隨機(jī)選擇動(dòng)作效果最好,但是隨機(jī)的選擇動(dòng)作可能會(huì)導(dǎo)致較難學(xué)習(xí)到agent的終止動(dòng)作,因此本文設(shè)置當(dāng)IoU大于0.6時(shí),算法強(qiáng)制agent選擇終止動(dòng)作。以便訓(xùn)練的速度更快。
(2) 經(jīng)驗(yàn)回放。在環(huán)境S下agent執(zhí)行動(dòng)作a后進(jìn)入的新狀態(tài)s′與得到的獎(jiǎng)勵(lì)都被作為agent的經(jīng)驗(yàn),存放入經(jīng)驗(yàn)池中,它是一個(gè)四元組(s,a,r,s′)。在算法的參數(shù)更新循環(huán)里,對經(jīng)驗(yàn)池里的樣本進(jìn)行隨機(jī)采樣或批量隨機(jī)采樣,通過Q-學(xué)習(xí)對模型進(jìn)行參數(shù)更新。本文使用了1 000個(gè)經(jīng)驗(yàn)回放和100個(gè)批量大小的經(jīng)驗(yàn)。
(3) 折現(xiàn)系數(shù)。由于當(dāng)前的agent只考慮到采取動(dòng)作a會(huì)得到的即時(shí)獎(jiǎng)勵(lì),沒有考慮到未來的獎(jiǎng)勵(lì),不利于算法的長期訓(xùn)練,因此在式(4)中設(shè)置了折現(xiàn)系數(shù)γ=0.9,用來平衡即時(shí)獎(jiǎng)勵(lì)與未來獎(jiǎng)勵(lì)。
(4) 訓(xùn)練參數(shù)。深度Q網(wǎng)絡(luò)的權(quán)值是從正態(tài)分布初始化的。對于學(xué)習(xí),本文使用Adam優(yōu)化器以1e-6的學(xué)習(xí)率來避免梯度爆炸。設(shè)置agent搜索每個(gè)目標(biāo)的最大步數(shù)為20步。
(5) 學(xué)習(xí)軌跡。由于不能在每次agent學(xué)習(xí)的時(shí)候都給出一個(gè)指定的目標(biāo)學(xué)習(xí),因此在每個(gè)時(shí)間步驟,如果有多個(gè)物體存在在當(dāng)前區(qū)域,下一個(gè)動(dòng)作往往會(huì)關(guān)注于與真實(shí)值重疊最大的物體,因此在這個(gè)自頂向下的過程學(xué)習(xí)的物體很可能會(huì)變化。
本文設(shè)計(jì)的實(shí)驗(yàn)硬件使用為:GPU為NVIDIA-GTX GPU,CPU為Intel i7-5500U,內(nèi)存為8 GB,主頻為2.4 GHz。操作系統(tǒng)是Windows 10,結(jié)合Tensorflow及PyCharm對目標(biāo)進(jìn)行檢測。
本文的數(shù)據(jù)集使用Pascal VOC數(shù)據(jù)集,它主要用于分類、檢測和分割,是目標(biāo)檢測技術(shù)的基準(zhǔn)之一。該數(shù)據(jù)集中有20個(gè)分類。VOC2007中包含9 963幅標(biāo)注過的圖片,共標(biāo)注出24 640個(gè)物體。VOC2012數(shù)據(jù)集是VOC2007數(shù)據(jù)集的升級版,一共有11 530幅圖片,共27 450個(gè)物體。本文在VOC 2007和VOC 2012的訓(xùn)練集上對系統(tǒng)進(jìn)行了訓(xùn)練,并在VOC 2007的測試集上進(jìn)行了測試,取得了較好的實(shí)驗(yàn)效果。
3.2.1目標(biāo)檢測可視化
本文展示出了agent在圖像上進(jìn)行馬爾可夫包圍的可視化過程,本文設(shè)置搜索的最大步數(shù)為20步。圖5為agent在簡單背景下的檢測過程可視化,圖6為agent在復(fù)雜背景下的檢測可視化過程。其中實(shí)線代表agent指導(dǎo)檢測框調(diào)整的過程,即除了終止動(dòng)作以外的動(dòng)作,虛線框代表終止動(dòng)作,即表示agent認(rèn)為緊密的包圍住了目標(biāo)物體,搜索結(jié)束??梢钥闯?,在簡單背景下,agent僅使用4步就可以成功定位到物體,并且在復(fù)雜背景下只使用7步就能夠達(dá)到檢測的目的。
(a) 原始 (b) 動(dòng)作1變小
(c) 動(dòng)作2下移 (d) 動(dòng)作3變小
(e) 動(dòng)作4終止圖5 簡單背景的目標(biāo)檢測
(a) 原始 (b) 動(dòng)作1變小
(c) 動(dòng)作2左移 (d) 動(dòng)作3上移
(e) 動(dòng)作4變小 (f) 動(dòng)作5變小
(g) 動(dòng)作6變小 (h) 動(dòng)作7終止圖6 復(fù)雜背景的目標(biāo)檢測
本文對agent定位單個(gè)目標(biāo)所需步數(shù)進(jìn)行了統(tǒng)計(jì),統(tǒng)計(jì)結(jié)果如圖7所示??梢钥闯?,對于絕大部分特征明顯的物體,本文算法在5步以內(nèi)就可以檢測成功,而對于一部分特征不明顯的物體,本文算法也在6至9步內(nèi)完成了檢測,其余的更難檢測的物體則需要更多的步數(shù)。
圖7 步數(shù)直方圖
3.2.2實(shí)驗(yàn)結(jié)果分析
本文對總框架進(jìn)行了消融實(shí)驗(yàn),如表1所示,其中U-Net表示傳統(tǒng)U-Net,mAP為76.5%。U-Net+Q表示為傳統(tǒng)U-Net結(jié)合強(qiáng)化學(xué)習(xí)的框架,實(shí)驗(yàn)的mAP結(jié)果提升至77.1%,表明利用強(qiáng)化學(xué)習(xí)對包圍框的調(diào)整可以有效提高檢測精度。U-Net+At表示本文對U-Net部分做出的改進(jìn),即通過加入注意力機(jī)制并采取分層預(yù)測的方式來提高特征質(zhì)量,實(shí)驗(yàn)的mAP提升至71.3%。證明了該方法的有效性。本文算法結(jié)合上述兩部分改進(jìn),將mAP提升至78.4%。可以看出本文算法對提升目標(biāo)檢測精度具有良好的促進(jìn)作用。
表1 算法各部分改進(jìn)的mAP對比(%)
此外,圖8顯示了本文框架與文獻(xiàn)[16]的算法框架實(shí)驗(yàn)結(jié)果對比圖,其中:較細(xì)框?yàn)闄z測成功,較粗框表示漏檢的目標(biāo)??梢钥闯?,相比文獻(xiàn)[16]算法,本文在檢測準(zhǔn)確率上有了大幅度的提升,原因?yàn)楸疚牡乃惴ㄔ谔卣魈崛》讲粌H融合了注意力機(jī)制,還利用了高低不同層的特征,使得提取的特征較為精細(xì)準(zhǔn)確,從而提升了檢測準(zhǔn)確率。但是在目標(biāo)大部分被遮擋時(shí),仍然無法有效地檢測出來。
(a) 本文算法 (c) 文獻(xiàn)[16]算法
(b) 本文算法 (d) 文獻(xiàn)[16]算法圖8 在VOC2007數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
最后,本文算法與現(xiàn)存算法在單一類別目標(biāo)數(shù)據(jù)中進(jìn)行了比較,使用的評價(jià)指標(biāo)為平均檢測精度(Average Precision,AP)和均值平均檢測精度(Mean Average Precision,mAP)。如表2所示,本文列舉出了幾種小目標(biāo)的檢測結(jié)果,可以看出,本文算法相較其他方法不論在單一目標(biāo)還是整體平均精度上都有相對的提高,表明本文算法對提升目標(biāo)檢測精度具有較強(qiáng)的能力。
表2 各算法在Pascal VOC 2007數(shù)據(jù)集上的檢測準(zhǔn)確率(%)
本文基于深度強(qiáng)化學(xué)習(xí),提出了一種針對小目標(biāo)的目標(biāo)檢測算法,改進(jìn)了傳統(tǒng)的U-Net,利用多層特征融合并輔以注意力機(jī)制達(dá)到對特征更好的提取,將融合后的特征分別送入RPN網(wǎng)絡(luò)生成檢測框,再利用強(qiáng)化學(xué)習(xí)調(diào)整目標(biāo)檢測框,使其緊密地包圍住目標(biāo),提升了檢測精度。該算法在精度上相比以往的兩階段目標(biāo)檢測具有一定提升,證明該方法是可靠的。但在目標(biāo)大部分被遮擋時(shí),該方法仍無法有效地檢測,考慮到可能是因?yàn)闆]有利用周邊信息與上下文信息的原因,因此后續(xù)工作將考慮在此基礎(chǔ)上添加上下文模塊,達(dá)到對目標(biāo)周邊信息的利用。