王長清,賀坤宇,蔣 帥
河南師范大學(xué) 電子與電氣工程學(xué)院,河南 新鄉(xiāng) 453007
狹小空間目標檢測是計算機視覺的特殊應(yīng)用任務(wù)之一,在禁入目標管控識別[1]、人流量智能統(tǒng)計[2]、異常行為檢測[3]等方面具有廣泛的應(yīng)用價值。狹小空間是受到光線、角度和內(nèi)部結(jié)構(gòu)等因素影響較小的單一背景場景,其難點在于面臨多目標之間相互遮擋和攝像頭取景不完整等因素影響時,傳統(tǒng)輕量級算法的檢測結(jié)果存在大量漏檢和虛檢,因此實現(xiàn)狹小空間遮擋目標輕量級檢測算法具有重要的研究意義。
傳統(tǒng)目標檢測依賴人工特征提取,并通過支持向量機(support vector machine,SVM)[4]等分類器完成檢測任務(wù)[5],其識別過程較為復(fù)雜且主觀性強,對遮擋顯著區(qū)域不敏感,在檢測精度與速度均衡性和魯棒性方面表現(xiàn)較差。現(xiàn)階段,隨著卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[6]的不斷發(fā)展,端對端的思路被應(yīng)用到目標檢測算法中,其中典型算法有SSD[7]和YOLO系列[8-9]等。這類算法將分類過程與回歸網(wǎng)絡(luò)合并為一個階段進行,在檢測精度與速度的均衡性方面有著明顯的提升,適合部署在移動端進行狹小空間目標檢測。王新國等[10]提出一種融合ECA注意力機制的YOLOv4-tiny網(wǎng)絡(luò),在狹小空間行人檢測數(shù)據(jù)集中準確率達到84.12%。李海濱等[11]將候選框融合網(wǎng)絡(luò)PRN(partial residual network)融入YOLOv4-tiny頸部位置,完成對狹小空間的四種粉塵檢測,準確率達到81.27%。華志超等[12]提出一種YOLO網(wǎng)絡(luò)與HOG特征結(jié)合的檢測方法,將狹小電梯場景中禁入目標的正確識別率提高至89.02%。王琳等[13]針對狹小場景中行人檢測,提出一種引入金字塔池化模型的YOLO_PPM網(wǎng)絡(luò),能夠充分融合上下文語義信息,檢測精度明顯提升。
現(xiàn)有的基于YOLOv4-tiny網(wǎng)絡(luò)的算法在狹小空間中取得良好的檢測性能,但也存在以下不足:(1)骨干網(wǎng)絡(luò)過于輕量化,特征圖在逐層傳遞過程中輪廓演化不足,無法在訓(xùn)練過程中有效地學(xué)習(xí)更多的遮擋目標特征。(2)頸部傳統(tǒng)特征融合網(wǎng)絡(luò)FPN(feature pyramid network)[14]過于簡單,不同尺度特征圖間融合效率低下,易丟失邊緣細節(jié)信息。(3)傳統(tǒng)IoU-NMS算法在后處理階段具有局限性,易將重疊預(yù)測框誤刪,導(dǎo)致漏檢。
針對存在的問題,以狹小場景中電梯轎廂、公共汽車車廂、客機機艙為主要研究場景,基于YOLOv4-tiny算法[15]提出一種自適應(yīng)NMS的多尺度檢測算法(YOLO adaptive-NMS based multi-scale feature fusion,YOLOAMF)。首先,通過骨干網(wǎng)絡(luò)引入大尺度特征圖優(yōu)化策略(large-scale optimization strategy),形成更加細粒化的三種尺度有效特征層,增加模型對遮擋目標顯著區(qū)域的關(guān)注度,學(xué)習(xí)更多遮擋細節(jié)特征,并引入改進的金字塔池化模型,聚合上下文信息擴增感受野;其次,頸部網(wǎng)絡(luò)設(shè)計內(nèi)嵌空間注意力的雙路金字塔特征融合網(wǎng)絡(luò)(coordinate attention based double feature pyramid network,CA-DFPN),在原始FPN結(jié)構(gòu)上增加自下而上和跳躍連接兩條融合通道,提升不同尺度間特征圖利用率,減少邊緣信息丟失問題;最后,在后處理階段提出將預(yù)測框中心因子融入自適應(yīng)NMS的判別方法,減少傳統(tǒng)IoU-NMS算法對重疊目標框的誤刪,提高網(wǎng)絡(luò)對遮擋目標的判別性。實驗結(jié)果表明,YOLO-AMF算法面對狹小空間遮擋目標時檢測精度與速度的均衡性優(yōu)于常用輕量級算法,滿足應(yīng)用需求。
基于YOLOv4-tiny算法,本文提出如圖1所示的YOLO-AMF網(wǎng)絡(luò)模型,由骨干網(wǎng)絡(luò)、特征融合網(wǎng)絡(luò)、檢測頭網(wǎng)絡(luò)三部分組成,輸入端為3通道RGB圖像。首先通過改進的骨干網(wǎng)絡(luò)中P3、P4、P5層將特征圖尺度擴增為76×76、38×38、19×19進行關(guān)鍵信息提??;然后將3個不同尺度的特征圖輸入雙路金字塔特征融合網(wǎng)絡(luò)進行低、高層語義信息的特征融合,再將含有豐富語義信息的特征圖輸入檢測頭網(wǎng)絡(luò);最終通過改進的自適應(yīng)NMS算法進行后處理階段,其中密度估計模塊(density subnet)[16]能夠使訓(xùn)練模型感知場景密集程度,并融入預(yù)測框中心距離因子,自適應(yīng)調(diào)整閾值對多余錨框進行篩選,得到目標預(yù)測框。
圖1 YOLO-AMF網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 YOLO-AMF network structure diagram
改進后的CSPDarknet53-tiny骨干網(wǎng)絡(luò)如圖2所示,由CBL卷積層(convolutional)、CSP Block、最大池化層、CSP_PPM池化金字塔四部分構(gòu)成,原始網(wǎng)絡(luò)的輸出層是32倍和16倍下采樣的兩個比例尺寸特征圖(P4、P5),感受野是作用于輸入圖像上的區(qū)域,網(wǎng)絡(luò)越深感受野越大,低分辨率的深層特征圖擁有更大的感受野檢測大、中目標,高分辨率淺層特征圖的感受野較小,邊緣信息豐富,更適用于檢測遮擋目標。
圖2 改進的骨干網(wǎng)絡(luò)Fig.2 Improved backbone network
針對遮擋目標具有顯著區(qū)域較小的特點,原始網(wǎng)絡(luò)只有P4、P5通道進行加強特征提取,易丟失大量邊緣細節(jié)信息。改進的骨干網(wǎng)絡(luò)中引入大尺度特征圖優(yōu)化策略和改進的金字塔池化模塊,使網(wǎng)絡(luò)捕捉更加細致的圖像信息,通過提升輸入圖像分辨率,將輸出特征尺寸由13×13、26×26改變?yōu)?9×19、38×38。而相對輸入圖像為8倍下采樣的第二個CSPNet結(jié)構(gòu)[17]中包含更多遮擋細節(jié)特征,因此添加P3(76×76)細粒化檢測分支,加強對淺層網(wǎng)絡(luò)的學(xué)習(xí)能力,減少訓(xùn)練過程中淺層信息丟失。
針對特征提取過程中網(wǎng)絡(luò)不斷加深,導(dǎo)致實際網(wǎng)絡(luò)感受野總有一定偏差,使網(wǎng)絡(luò)無法有效融合全局特征,丟失特征信息問題,將CSPNet結(jié)構(gòu)思想引入到金字塔池化模型(pyramid pooling module,PPM)[18],構(gòu)成如圖3所示的CSP_PPM池化網(wǎng)絡(luò),并加入骨干網(wǎng)絡(luò)末端。采用聚合策略將1×1、2×2、3×3、6×6四種不同尺度的平均池化窗口作用于傳入的高級語義信息,實現(xiàn)將豐富的高層次信息向低層次特征的映射,利用1×1卷積將池化后的4個特征圖進行通道壓縮,通過3×3卷積層的特征整合和跳躍連接通道,與未經(jīng)過池化的特征圖進行級聯(lián)融合。最后將聚合各個區(qū)域有效上下文信息的特征圖傳入骨干網(wǎng)絡(luò)的瓶頸層,網(wǎng)絡(luò)加深的同時聚合淺層細節(jié)信息與高層語義信息,增強弱小遮擋目標的表征能力且不會帶來性能損失。
圖3 CSP_PPM結(jié)構(gòu)Fig.3 CSP_PPM structure
原始YOLOv4-tiny使用傳統(tǒng)金字塔FPN結(jié)構(gòu)為特征融合網(wǎng)絡(luò),該結(jié)構(gòu)僅通過一條自上而下的融合路徑進行高、底層特征信息的融合,會出現(xiàn)冗余信息過多,傳遞過程中易丟失淺層邊緣信息的問題。
針對上述問題,提出如圖4所示的雙路金字塔特征融合網(wǎng)絡(luò)CA-DFPN結(jié)構(gòu)。在傳統(tǒng)FPN結(jié)構(gòu)基礎(chǔ)上,引入兩個融合節(jié)點,構(gòu)建自上而下、自下而上和加入空間注意力的跳躍連接三條特征融合通道,并引入深度可分離卷積(depthwise separable convolution,DS Conv)[19]為下采樣,改進模型在不增加額外計算量的同時擁有更有效的P3、P4、P5不同尺度間特征融合效果,融合后特征圖包含更加豐富的底層細節(jié)信息與高級語義信息。
圖4 CA-DFPN結(jié)構(gòu)圖Fig.4 CA-DFPN structure diagram
為防止遮擋目標信息在下采樣過程中被噪聲淹沒導(dǎo)致特征信息的丟失,同時保證輕量化,采用3×3深度可分離卷積層代替普通3×3卷積層作為下采樣。兩種卷積層結(jié)構(gòu)如圖5所示,假設(shè)利用普通3×3卷積層將大小為H×W、維度為x的特征圖像提取為維度y,計算量為9×x×y×H×W;深度可分離卷積將提取特征過程分解為深度卷積和逐點卷積,先使用C個3×3×1卷積核依次對H×W×C的圖像進行單通道特征提取,再通過N個1×1×C卷積核對經(jīng)過深度卷積的圖像進行通道堆疊,計算量為9×x×H×W+x×y×H×W,計算量只有普通卷積層的1/9。通過批量歸一化(batch normalization,BN)和LeakyReLU激活函數(shù)有效解決因DS Conv加深網(wǎng)絡(luò)帶來的梯度消失與爆炸現(xiàn)象。
圖5 標準卷積層和深度可分離卷積層Fig.5 Standard convolutional layer and depth separable convolutional layer
針對檢測過程中對遮擋目標顯著區(qū)域注意力不足問題,將CA(coordinate attention)空間注意力機制[20]加入特征融合網(wǎng)絡(luò),在通道注意力基礎(chǔ)上兼顧其位置關(guān)系,考慮跨緯度交互的重要性,使得網(wǎng)絡(luò)模型對感興趣目標的位置更加敏感和精準。注意力網(wǎng)絡(luò)提取顯著特征過程如圖6所示。分別對特征圖的水平、垂直方向進行全局平均池化,得到兩個方向的聚合特征,通過級聯(lián)融合和1×1卷積變換函數(shù)F進行特征變換;然后兩個1×1卷積通過F h和F w變換函數(shù),將整合在一起的特征圖分解為兩個通道數(shù)相等的特征圖,通過sigmoid激活函數(shù)輸出張量;最終經(jīng)過特征整合得到顯著性注意區(qū)域y c。
圖6 CA注意力機制結(jié)構(gòu)圖Fig.6 CA attention mechanism structure diagram
其中,f表示特征圖的中間映射,β表示非線性激活函數(shù),z h、zw是垂直和水平上的位置信息;g h和g w表示經(jīng)過sigmoid輸出的兩個通道數(shù)相同的特征圖;xc表示跳躍連接上的特征信息。
原始YOLOv4-tiny網(wǎng)絡(luò)后處理階段采用傳統(tǒng)IoUNMS算法,通過設(shè)置固定NMS閾值,對冗余錨框采用嚴格過濾方法,在遮擋嚴重的場景中因為不同目標框重疊面積(IoU)過大,易被視為同一目標,而將真實預(yù)測框去除,導(dǎo)致模型漏檢。
針對后處理階段存在問題,提出融合預(yù)測框中心距離因子的自適應(yīng)NMS算法,并代替?zhèn)鹘y(tǒng)IoU-NMS。在回歸網(wǎng)絡(luò)最后一層引入密度估算分支,該結(jié)構(gòu)由1×1、3×3卷積核與sigmoid激活函數(shù)組成,用來學(xué)習(xí)預(yù)測框中目標區(qū)域的密度,從而通過反饋的密度值自適應(yīng)地調(diào)整NMS閾值大小,減少在遮擋場景因NMS閾值不匹配而導(dǎo)致的漏檢。每個區(qū)域所映射的目標密集程度如式(4),首先計算真實框(ground true)M i與周圍真實框M j的最大IoU值,以此表示該區(qū)域密度d i。真實框之間IoU值越大表示該區(qū)域密集程度大,此時將使用較大NMS閾值處理冗余錨框。動態(tài)閾值定義如式(5)所示:
其中,d x表示置信度最高候選框周圍的密集程度,當(dāng)密度得分高于所預(yù)先設(shè)置的閾值Nt時,則使用更高的N x閾值進行監(jiān)督預(yù)測,否則使用預(yù)先設(shè)定的閾值。
經(jīng)過動態(tài)NMS閾值的改進,模型能夠自適應(yīng)地判別復(fù)雜場景與稀疏場景,但傳統(tǒng)IoU-NMS算法依賴固定的IoU值判斷目標框之間的重疊情況具有一定的局限性。例如當(dāng)目標框之間重疊面積相同時(IoU相等)或沒有相交時(IoU=0),無法區(qū)分目標框之間相交姿態(tài),此時傳統(tǒng)IoU-NMS失效,于是引入目標框中心距離因子,計算如式(6),使目標間發(fā)生重疊時得到目標框此時的位置情況,預(yù)測框回歸得更加準確,進一步降低漏檢情況。DIoU-NMS可視化如圖7所示。
圖7 DIoU-NMS示意圖Fig.7 Schematic diagram of DIoU-NMS
實驗平臺為Win10操作系統(tǒng),CPU為Intel?CoreTMi5-7500 CPU@3.40 GHz,GPU為NVIDA GeForce RTX 2080TI,使用Pytorch1.6.0框架。
為實現(xiàn)輕量級狹小空間遮擋目標識別算法,共設(shè)置PASCAL VOC07+12公開數(shù)據(jù)集(包含訓(xùn)練集16 551張圖片,測試集4 952張圖片)和自制數(shù)據(jù)集兩組數(shù)據(jù)集。
其中自制數(shù)據(jù)集共20 291張圖片,由11 296張電梯轎廂和8 995張公共汽車車廂、客機機艙與自然場景的真實圖片組成,包含四種不同場景,訓(xùn)練集和驗證集按照7∶3劃分,其中70%的圖片具有目標相互遮擋或攝像頭取景不完整的特點,能夠有效防止訓(xùn)練中因狹小空間背景過于單一造成過擬合現(xiàn)象,并提升模型在通用狹小場景的泛化能力。數(shù)據(jù)集定義人(person)、電動車(electric-bicycle)、自行車(bicycle)三種檢測類別,并設(shè)置嬰兒車(baby carriage)、手推車(trolley)、家具(furniture)、貨物(goods)、寵物(pet)等負樣本提升模型魯棒性。每張圖片的標注面積與圖片面積按照一定比例利用LabelImg軟件標注,且圖片長寬不超過3∶1,使得Kmeans++聚類算法可以計算出更加匹配的先驗框(anchors box)尺寸,使預(yù)測框更加貼合目標。數(shù)據(jù)集所含樣本見表1所示。
表1 數(shù)據(jù)集所含類別數(shù)量Table 1 Number of classes in dataset
由于狹小空間的大小具有不確定性,且攝像頭取景高度變化很大,導(dǎo)致目標在圖像中的占比大小具有差異性,使模型對不同尺寸目標的自適應(yīng)能力下降,故在預(yù)處理階段采用Mosaic數(shù)據(jù)增強[21]對數(shù)據(jù)集通過隨機縮放、隨機裁剪、隨機分布的方式隨機選取4張圖片進行拼接,使訓(xùn)練集中大、中、小目標更加均勻,故數(shù)據(jù)集得到更多遮擋和不完整目標樣本,模型訓(xùn)練更加魯棒。數(shù)據(jù)增強后的部分數(shù)據(jù)集如圖8所示。
圖8 部分數(shù)據(jù)集Fig.8 Part of dataset
自制數(shù)據(jù)集以7∶3隨機劃分訓(xùn)練集與測試集,并設(shè)置多組消融實驗,以驗證每個改進策略對模型的效果,進而得到最優(yōu)模型。同時為進一步驗證算法性能方面的說服力,在PASCAL VOC07+12公開數(shù)據(jù)集上設(shè)置與目前最常用的幾種輕量級算法的對比實驗,通過比較評估參數(shù)平均檢測精度(mAP)和檢測速度(FPS)來對比算法的有效性。
在評估過程中,目標是否被網(wǎng)絡(luò)正確分類表示為T(true)或者F(false),目標本身是正類或負類表示為P(positive)或者N(negative)。TP為被正確檢測的正類總數(shù)。TN表示被正確檢測的負類總數(shù)。FP表示被誤檢的正類總數(shù)。FN表示被誤檢的負類總數(shù)。
其中,精確率(precision)表示網(wǎng)絡(luò)檢測的所有目標中為正類個數(shù)的比例,召回率(recall)表示網(wǎng)絡(luò)檢測的所有正類占數(shù)據(jù)集所有正類的比例。對于最終的評估結(jié)果,AP代表某一類別的綜合評價,AP值越高代表單一類別精度越高。mAP是對整個網(wǎng)絡(luò)水準的評估,C表示數(shù)據(jù)集所包含類類別數(shù),c表示單個類別。
實驗均在以下參數(shù)設(shè)置中進行,輸入圖片為608×608;epoch為300輪;batch_size前70輪為128,后230輪為32,;learning_rate學(xué)習(xí)率前70輪為1E-3,后230輪為1E-4;momentum為隨機梯度下降(stochastic gradient descent,SGD),根據(jù)梯度下降的程度對初始學(xué)習(xí)率進行動量減少,以達到更好的收斂結(jié)果,設(shè)置為0.9。訓(xùn)練過程Loss曲線如圖9所示。
圖9 訓(xùn)練損失曲線Fig.9 Training loss curve
隨著epoch不斷增加,Loss損失值在不斷降低,訓(xùn)練進行到70輪后損失曲線趨于穩(wěn)定,沒有產(chǎn)生欠、過擬合現(xiàn)象,原始YOLOv4-tiny算法與改進算法的Loss值收斂于2.3和1.9左右,證明模型的識別精度在不斷提高,YOLO-AMF算法各項超參數(shù)設(shè)置合理。
消融實驗是以YOLOv4-tiny為基準結(jié)合不同創(chuàng)新策略,在包含四種場景的自制數(shù)據(jù)集下進行訓(xùn)練和性能評估,在保證實時性的前提下,提高算法的識別精度。不同算法模型測試結(jié)果見表2所示。
表2 消融實驗Table 2 Ablation experiment
表2對每項改進策略的有效性進行分析,從實驗2~6可以看出每項改進模塊均對模型有著不同程度的貢獻。其中實驗4引入CA-DFPN結(jié)構(gòu)對網(wǎng)絡(luò)貢獻最大,mAP提高1.61個百分點。初始YOLOv4-tiny(實驗1)的mAP值為94.23%,采用大尺度特征圖優(yōu)化策略后(實驗2)的mAP值為94.72%,召回率提升1.30個百分點,表明引入該優(yōu)化策略使模型加強對淺層細節(jié)信息的提取,使遮擋目標的訓(xùn)練更加深入;實驗7在實驗2的基礎(chǔ)上在骨干網(wǎng)絡(luò)瓶頸區(qū)加入CSP_PPM池化金字塔,mAP值和召回率比實驗1提升1.03個百分點和2.37個百分點,可以看出CSP_PPM結(jié)構(gòu)在擴大感受野的同時降低網(wǎng)絡(luò)過深帶來的感受野偏差,從而提高對特征圖輪廓信息的表達效果;實驗8在實驗7的基礎(chǔ)上引入雙路金字塔特征融合網(wǎng)絡(luò),mAP值和召回率達到了96.33%和91.93%,相比于實驗1提高了2.10個百分點和4.21個百分點,表明不同尺度間淺層細節(jié)信息和高級語義信息有著更優(yōu)的融合效果,使特征圖有更豐富的語義信息,從而提升對遮擋目標的檢測??紤]到傳統(tǒng)IoU-NMS算法的局限性,固定閾值法易將嚴重遮擋的目標刪除,實驗5引入動態(tài)NMS閾值法,mAP值和召回率均有提升,但僅根據(jù)傳統(tǒng)IoU值判斷相互重疊預(yù)測框位置,易導(dǎo)致回歸過程中產(chǎn)生誤差,故實驗5、實驗9檢測效果提升不明顯;實驗10在實驗9的自適應(yīng)NMS算法中引入目標框中心位置影響因子,使預(yù)測框回歸更加準確,mAP值和召回率比實驗9高0.69個百分點和1.69個百分點,比實驗1高3.06個百分點和6.17個百分點,進一步減少對遮擋重疊目標的漏檢、虛檢,且FPS保持87.9左右,表明模型仍有較高的檢測速度,滿足移動端實時檢測。
圖10展示了原始YOLOv4-tiny與消融實驗中最優(yōu)模型YOLO-AMF在真實電梯轎廂場景的檢測效果對比??梢钥闯龈倪M后的算法在面對目標較多且目標之間相互遮擋的情況下,能夠有效地將原始算法所漏檢的嚴重遮擋目標與圖像取景不完整目標識別出來,明顯提升對遮擋目標的檢測能力,而且對目標重疊產(chǎn)生的大量冗余信息也有較好的消除作用,使預(yù)測框更加貼合目標,減少虛檢現(xiàn)象。在第4張圖中目標被非目標物體嚴重遮擋時也有較好的檢測效果,進一步證明算法的魯棒性較優(yōu)。
圖10 電梯轎廂場景測試對比Fig.10 Comparison of elevator car scene detection
為進一步驗證最優(yōu)模型YOLO-AMF在其他狹小場景中的檢測能力,建立包含公共汽車車廂與客機機艙兩個場景的測試集,如圖11展示YOLOv4-tiny模型與YOLO-AMF模型在其他真實狹小場景的測試實驗結(jié)果。前兩行圖片為飛機客艙場景,其中多數(shù)目標被座椅、口罩等非目標物體所遮擋,導(dǎo)致YOLOv4-tiny模型出現(xiàn)大量漏檢現(xiàn)象,而改進后的模型能夠快速分辨真實目標與非目標物體,減少漏檢;后兩行圖片為公共汽車車廂場景,其中目標與目標之間的遮擋較為嚴重,導(dǎo)致YOLOv4-tiny模型產(chǎn)生虛檢、漏檢現(xiàn)象,而YOLO-AMF后處理階段的動態(tài)NMS閾值能夠降低目標框嚴重重疊被誤刪的情況,減少虛檢、漏檢現(xiàn)象。通過其他狹小場景測試實驗可知,YOLO-AMF模型在不同狹小場景中均有著良好的泛化能力。
圖11 其他狹小場景測試對比Fig.11 Comparison of other narrow scene detection
以上實驗表明,對于實際的狹小空間目標檢測而言,YOLO-AMF算法各項改進策略是有效的,能夠檢測到原算法的漏檢、虛檢目標且提高檢測的精準度,同時具備輕量級算法檢測速度快的特點,更高效地完成通用狹小場景遮擋目標檢測任務(wù)。
為進一步驗證算法的有效性,將YOLO-AMF算法與目前使用率最高的幾類經(jīng)典算法Faster RCNN、YOLOv4、MobileNet-SSD、YOLOv3-tiny、YOLOv4-tiny,在PASCAL VOC07+12公開數(shù)據(jù)集進行對比實驗,實驗結(jié)果見表3所示。
表3 對比實驗Table 3 Comparative experiment
從表2可以看出,大型網(wǎng)絡(luò)算法的優(yōu)勢在于檢測精度高,例如使用Resnet50為主干網(wǎng)絡(luò)的Faster RCNN二階段算法和YOLOv4一階段典型算法,平均檢測精度分別達到了81.16%和89.03%,但模型體積過大,分別為522.9 MB和244.7 MB,導(dǎo)致難以部署到算力有限的移動端。改進后的YOLO-AMF與大型網(wǎng)絡(luò)Faster RCNN在平均精度上相比也毫不遜色,僅落后0.39個百分點,模型體積只有其1/20。輕量級網(wǎng)絡(luò)的優(yōu)勢在于檢測速度和精度較為均衡,能夠在移動端進行實時檢測,但面對復(fù)雜場景時的檢測效果較差,YOLO-AMF相比于MobileNet-SSD、YOLOv3-tiny和YOLOv4-tiny三種最常用的輕量化網(wǎng)絡(luò)在mAP上分別提高了10.09個百分點、9.34個百分點和2.84個百分點,有著更高的檢測精度,且符合實時檢測的標準。YOLO-AMF與YOLOv4-tiny在PASCAL VOC數(shù)據(jù)集上mAP曲線對比圖如圖12所示??梢钥闯鰪母鱾€類別的不同尺度目標上mAP均有明顯提升,例如在小目標較多的pottedplant、boat、bird類別上分別提高了7個百分點、4個百分點、3個百分點,說明改進后的算法在面對遮擋目標和小目標較多的場景時有著更優(yōu)秀的檢測效果,進一步驗證了改進后算法的有效性。
圖12 YOLOv4-tiny和YOLO-AMF的mAP曲線對比Fig.12 Comparison of mAP curves of YOLOv4-tiny and YOLO-AMF
本文針對YOLOv4-tiny算法在狹小場景中遮擋目標檢測方面的不足,基于YOLOV4-tiny算法,提出YOLOAMF算法,共進行三種可行的改進:(1)在骨干網(wǎng)絡(luò)提出大尺度特征圖優(yōu)化策略和引入聚合策略的金字塔池化網(wǎng)絡(luò),使模型學(xué)習(xí)更多遮擋目標信息;(2)在特征融合網(wǎng)絡(luò)提出輕型雙路金字塔特征融合網(wǎng)絡(luò)CA-DFPN結(jié)構(gòu),提高不同尺度間特征圖的融合效率,增加豐富的邊緣細節(jié)信息;(3)在后處理階段提出動態(tài)NMS閾值結(jié)合目標中心位置信息的方法,使模型能夠根據(jù)場景的復(fù)雜情況自動調(diào)整NMS閾值,防止對真實預(yù)測框的過濾,進一步提高檢測精度。
實驗表明,YOLO-AMF算法在PASCAL VOC07+12數(shù)據(jù)集和自建數(shù)據(jù)集中的mAP值分別提高2.84個百分點和3.06個百分點,達到80.77%和97.29%,且FPS保持在87.9,能夠快速準確地檢測出遮擋目標,為狹小空間目標檢測的實際應(yīng)用提供一種高效的檢測方法。雖然算法精度有很大提升,但受限于主干網(wǎng)絡(luò)的輕量化,在通用場景目標檢測時,小目標檢測精度仍低于大型網(wǎng)絡(luò),下一步將繼續(xù)優(yōu)化主干網(wǎng)絡(luò),擴充數(shù)據(jù)集,以適應(yīng)通用場景的小目標檢測。