王 林, 范亞臣
(西安理工大學(xué) 自動化與信息工程學(xué)院, 西安 710048)
Logo 是指徽標(biāo)或商標(biāo), 通常由圖形、文字或者圖形和文字的組合構(gòu)成. Logo 被用于各種物體表面對物體進(jìn)行標(biāo)識. Logo 檢測的任務(wù)是定位和識別圖像中的logo, 它在知識產(chǎn)權(quán)保護(hù)、產(chǎn)品品牌識別、智能交通車輛標(biāo)識檢測、社交媒體產(chǎn)品品牌管理等領(lǐng)域有很多應(yīng)用. Logo 檢測雖然可以被視作目標(biāo)檢測的一種特殊類型, 但是由于大小、旋轉(zhuǎn)、光照、遮擋和形變等因素的影響, 檢測自然場景圖像中的logo 是具有挑戰(zhàn)性的.
自然圖像中的logo 檢測方法大致分為傳統(tǒng)方法和基于深度學(xué)習(xí)的方法. 傳統(tǒng)方法依賴于手工設(shè)計的特征和輪廓, 通過特征和輪廓匹配來識別和分類, 常見特征有尺度不變特征變換(scale invariant feature transform,SIFT)[1]特征、加速穩(wěn)健特征(speeded up robust feature,SURF)和方向梯度直方圖(histograms of oriented gradients,HoG)[2]特征. 在過去的2007-2014 年間, 手工設(shè)計的特征是大多數(shù)logo 檢測和識別方法的核心. Kleban 等人[3]提出了一種基于數(shù)據(jù)挖掘的方案, 將每幅圖像視為一個事務(wù), 在多分辨率下尋找關(guān)聯(lián)規(guī)則, 以找到與logo 對應(yīng)的局部SIFT 特征的頻繁空間配置. Gao 等人[4]提出通過空間光譜顯著性來發(fā)現(xiàn)logo 區(qū)域, 對查詢圖像中使用的這些區(qū)域提取SURF 特征, 然后根據(jù)提取的SURF 特征發(fā)現(xiàn)數(shù)據(jù)集圖像與查詢圖像之間的相似度.Zhang 等人[5]提出將圖像隨機(jī)分割并從中提取混合特征, 包括紋理特征、形狀特征、梯度方向直方圖特征、HoG 特征、SIFT特征和SURF 特征, 然后應(yīng)用隨機(jī)森林分類器進(jìn)行l(wèi)ogo 檢測.
近年來, 深度學(xué)習(xí)方法在計算機(jī)視覺的各個領(lǐng)域得到了廣泛的應(yīng)用, 隨著深度學(xué)習(xí)的發(fā)展, 很多使用CNNs 的logo 檢測模型被提出. Iandola 等人[6]首次將Faster R-CNN[7]應(yīng)用于logo 檢測, 在GoogLeNet結(jié)構(gòu)中每個初始化層之后添加全局平均池化來輔助分類. Pale?ek 等人[8]研究了優(yōu)化算法、批量大小和學(xué)習(xí)率調(diào)度的具體設(shè)計對最終檢測性能的影響. 同時, 對4 種不同主干網(wǎng)的3 種主要類型的探測器進(jìn)行了實證評價. 通過實驗觀察到Faster R-CNN 通常比Mask RCNN[9]和以RetinaNet[10]為代表的single shot 檢測器表現(xiàn)得更好. 黃明珠等人[11]考慮到logo 的低分辨率導(dǎo)致的檢測性能難以進(jìn)一步提升, 在Faster R-CNN 框架中結(jié)合了生成對抗模型, 利用網(wǎng)絡(luò)先將分辨率較低的logo 特征映射成高分辨率的表達(dá)能力更強(qiáng)的特征, 再送入完全連接層進(jìn)行分類和回歸, 從而提高檢測的性能. 2020 年, Alsheikhy 等人[12]將傳遞學(xué)習(xí)技術(shù)應(yīng)用于深度卷積神經(jīng)網(wǎng)絡(luò)模型DenseNet[13], 在較少的參數(shù)以及較小的計算開銷下進(jìn)行l(wèi)ogo 識別. Wang 等人[14]引入最大的全標(biāo)注logo 檢測數(shù)據(jù)集LogoDet-3K, 并提出了一個強(qiáng)大的基線方法Logo-Yolo, 它將focal loss 和CIoU 損失合并到最先進(jìn)的YOLOv3 (you only look once version 3)框架[15]中, 用于大規(guī)模的logo 檢測.
上述研究雖然在一定程度上提高了logo 檢測性能, 但仍存在一些不足. 目前存在的logo 檢測算法對小尺寸的logo 檢測不準(zhǔn), 并且對圖像中的logo 定位精度低, 無法在圖像中準(zhǔn)確地框出logo 的位置, 因此本文基于YOLOv4 算法[16]提出了一種融合坐標(biāo)注意力和自適應(yīng)殘差連接的logo 檢測方法, 可以提高logo 定位精度和小尺寸logo 的檢測性能. 主要的改進(jìn)包括兩個方面: 一是使用設(shè)計的自適應(yīng)殘差塊替換5 個連續(xù)卷積層, 增強(qiáng)特征利用, 同時優(yōu)化網(wǎng)絡(luò)訓(xùn)練. 二是引入坐標(biāo)注意力機(jī)制[17], 使用通道重要性和空間位置重要性來增強(qiáng)對于檢測更有用的信息, 剔除冗余信息. 對logo 檢測數(shù)據(jù)集使用聚類算法獲得最佳的先驗框尺寸. 通過FlickrLogos-32 數(shù)據(jù)集[18]和FlickrSportLogos-10 數(shù)據(jù)集進(jìn)行訓(xùn)練和驗證, 并在相同的環(huán)境下與YOLOv3、YOLOv4 等檢測算法進(jìn)行比較, 驗證改進(jìn)算法的性能.
YOLOv4 目標(biāo)檢測器的網(wǎng)絡(luò)架構(gòu)如圖1 所示, 主要包括輸入(input)、骨干網(wǎng)絡(luò)(backbone)、頸部(neck)和預(yù)測模塊(prediction) 4 個部分. 骨干網(wǎng)絡(luò)是在ImageNet 上進(jìn)行預(yù)訓(xùn)練, 而頸部用于收集各個階段的特征圖, 預(yù)測模塊用于預(yù)測物體的類別、置信度和邊界框. 圖1 中, CBM 單元包含卷積層(convolutional,CONV)、批歸一化層(BatchNormalization, BN) 和Mish 激活函數(shù); CBL 單元包含CONV 層、BN 層和LeakyReLU 激活函數(shù); Res_unit 單元由兩個CBL 單元進(jìn)行殘差操作, 通過引入BN 層和殘差單元可以加快網(wǎng)絡(luò)訓(xùn)練, 防止隨著網(wǎng)絡(luò)加深而出現(xiàn)的梯度消失以及網(wǎng)絡(luò)退化問題; 3 個CBL 單元和X個Res_unit 進(jìn)行殘差操作構(gòu)成CSPX 單元; SPP 單元由4 個尺寸分別為1×1、 5 ×5、 9 ×9和 1 3×13的卷積核對輸入進(jìn)行最大池化(MaxPool)操作, 然后拼接(concat) 4 個分支的結(jié)果;圖中的*代表連續(xù)多個模塊. YOLOv4 算法是一種端到端的目標(biāo)檢測算法, 相比于YOLOv3 算法, 主要有以下4 個方面的改進(jìn).
圖1 YOLOv4 網(wǎng)絡(luò)架構(gòu)圖
(1) Input: 對輸入數(shù)據(jù)進(jìn)行Mosaic 數(shù)據(jù)增強(qiáng). 通過隨機(jī)選取4 張輸入圖像進(jìn)行隨機(jī)裁剪、拼接和排布從而豐富數(shù)據(jù)集, 一方面多樣化目標(biāo)可能出現(xiàn)的背景, 另一方面增加了小目標(biāo)的數(shù)量. 這種數(shù)據(jù)增強(qiáng)方式擴(kuò)充了數(shù)據(jù)集, 提高了模型的魯棒性和對小目標(biāo)的檢測能力.
(2) Backbone: 使用更好的骨干網(wǎng)絡(luò)CSPDarknet53[19]來提取輸入的特征, 相比于YOLOv3 的Darknet53 多了5 個CSP 模塊, 在骨干網(wǎng)絡(luò)中使用Mish 激活函數(shù)[20],并使用Dropblock 正則化方式來防止網(wǎng)絡(luò)發(fā)生過擬合.
(3) Neck: 在Backbone 和最后的預(yù)測模塊之間添加了SPP 模塊和PANet 模塊[21], SPP 用于增大感受野,PANet 用于特征整合.
(4) Prediction: 訓(xùn)練時使用CIOU 損失[22]代替MSE 損失, 在邊界框回歸問題上有更好的回歸速度和準(zhǔn)確率, 在測試階段使用DIOU 非極大值抑制策略.
人類的視覺系統(tǒng)會將有限的注意力放在重點信息上, 自動忽略不重要的信息, 注意力機(jī)制(attention model, AM)類似于人類的視覺系統(tǒng), 它的核心思想是從關(guān)注全部到關(guān)注重點, 從而節(jié)約資源, 快速準(zhǔn)確地獲取最有效的信息. 注意力機(jī)制最初被應(yīng)用于機(jī)器翻譯任務(wù)中, 現(xiàn)在已被廣泛應(yīng)用在自然語言處理、統(tǒng)計學(xué)習(xí)、語音識別和計算機(jī)視覺任務(wù)中. 注意力模型能夠顯著提高神經(jīng)網(wǎng)絡(luò)性能和可解釋性. 計算機(jī)視覺任務(wù)中注意力機(jī)制通常分為空間注意力、通道注意力和混合注意力, 如SENet (squeeze-and-excitation network)[23]和CBAM (convolutional block attention module)[24]等.2021 年, Hou 等人[17]考慮到SENet 只考慮通道之間的信息而忽略了位置信息, 但是位置信息對于生成空間選擇性注意力圖非常重要, 因此作者引入了一種新的坐標(biāo)注意塊(coordinate attention, CA), 它不僅僅考慮了通道間的關(guān)系還考慮了特征空間的位置信息.
為了獲得更高的檢測精度, 對YOLOv4 網(wǎng)絡(luò)的特征增強(qiáng)部分進(jìn)行了改進(jìn), 提出了YOLOv4-RCA 網(wǎng)絡(luò).
(1)自適應(yīng)殘差塊代替連續(xù)卷積
在網(wǎng)絡(luò)中為了獲得更大的感受野和更豐富的上下文信息, 通常會使用卷積來進(jìn)行下采樣操作, 但是下采樣操作會導(dǎo)致原特征圖中細(xì)節(jié)信息丟失. 殘差單元[25]以跳層連接的形式實現(xiàn), 將單元的輸入直接與單元輸出加在一起, 然后再激活. 殘差連接可以將淺層特征送入深層網(wǎng)絡(luò), 在不增加過多成本的條件下融合了更多的特征信息, 增強(qiáng)了網(wǎng)絡(luò)的特征表達(dá)能力, 同時很好地解決了深度神經(jīng)網(wǎng)絡(luò)的退化問題. 殘差連接在一定程度上起到了細(xì)節(jié)補充的作用, 但是同時也帶來了很多冗余信息, 因此本文設(shè)計了一種自適應(yīng)殘差連接的方式, 在融合淺層和深層特征來減少原特征圖中細(xì)節(jié)信息丟失的同時能夠減少冗余信息.
本文中的自適應(yīng)殘差(adaptive residual)連接方式首先對輸入特征使用坐標(biāo)注意力進(jìn)行加權(quán), 進(jìn)一步提取出輸入中的有用特征, 然后再與輸出以通道相加的方式進(jìn)行融合. 如圖3 所示, 對于YOLOv4 網(wǎng)絡(luò)PANet中5 個連續(xù)卷積CBL 塊, 前兩個CBL 模塊進(jìn)行自適應(yīng)殘差連接, 第3 和第4 個CBL 模塊進(jìn)行自適應(yīng)殘差連接, 這樣構(gòu)成設(shè)計的殘差塊AR, 圖4 是AR 的結(jié)構(gòu),圖中的CA 代表對輸入特征圖通過坐標(biāo)注意力進(jìn)行加權(quán), and 代表輸入特征矩陣和輸出特征矩陣通過逐元素相加來進(jìn)行特征融合. 在圖2 中用Res2C 模塊替換了原網(wǎng)絡(luò)架構(gòu)中的5 個連續(xù)卷積, 這樣能有側(cè)重地將輸入的特征與輸出特征進(jìn)行融合, 增強(qiáng)淺層和深層的特征利用, 減少原特征圖的細(xì)節(jié)信息丟失.
圖2 YOLOv4-RCA 架構(gòu)
圖4 設(shè)計的自適應(yīng)殘差塊AR 的結(jié)構(gòu)圖
(2)引入坐標(biāo)注意力機(jī)制
坐標(biāo)注意塊給通道注意力中嵌入位置信息, 在重新權(quán)衡不同通道重要性的同時, 也考慮對空間信息進(jìn)行編碼. 這種編碼方式可以使坐標(biāo)注意力更準(zhǔn)確地定位感興趣對象的準(zhǔn)確位置, 從而幫助整個模型更好地定位和識別. 如圖2 所示, 在PANet 中4 處Res2C 模塊之后添加坐標(biāo)注意力CA 模塊. 這樣可以從融合的特征中過濾和增強(qiáng)有用的特征, 同時抑制無用的特征, 將增強(qiáng)的特征送給預(yù)測部分來進(jìn)行分類和定位. CA 模塊不添加在主干網(wǎng)絡(luò)中是為了不改變骨干網(wǎng)絡(luò)CSPDarknet53的結(jié)構(gòu), 以使用在ImageNet 上預(yù)訓(xùn)練的權(quán)重, 而無需從頭開始訓(xùn)練網(wǎng)絡(luò). 添加CA 模塊可以在基本不增加計算量的同時, 提高模型區(qū)分背景和前景的能力.
在通道注意力中通常使用全局池化來編碼全局空間信息, 這種方式將全局空間信息壓縮到單個通道描述符中, 因此很難保存通道中對象的空間位置信息.CA 注意力的核心思想是通過精確的位置信息對通道關(guān)系和長期依賴性進(jìn)行編碼, 如圖5 所示, 具體操作可分為坐標(biāo)信息嵌入和坐標(biāo)注意力生成兩個步驟.
圖5 坐標(biāo)注意力機(jī)制的操作過程
這兩種轉(zhuǎn)換保證注意力模塊捕捉到沿著一個空間方向特征的長期依賴關(guān)系, 并保存沿著另一個空間方向特征的精確位置信息, 這有助于網(wǎng)絡(luò)更準(zhǔn)確地定位感興趣的信息.
(2)坐標(biāo)注意力生成
將兩個方向的坐標(biāo)信息嵌入進(jìn)行拼接, 然后進(jìn)行卷積、批正則化和非線性激活的操作, 如式(4)所示.
從YOLOv2 開始, YOLO 系列算法引入了先驗框(anchor box)的概念, 根據(jù)標(biāo)注的真實框(ground truth)使用K-means 聚類算法[26]來獲得K個anchor box, 用來提高檢測的速度和準(zhǔn)確率. YOLOv4 算法中先驗框的尺寸是由COCO (common objects in context)數(shù)據(jù)集通過聚類算法得到的, 但是COCO 數(shù)據(jù)集中包含了80 個類別, 寬高比的差別較大, 檢測對象的尺寸也較大, 而對于logo 檢測任務(wù), 圖像中l(wèi)ogo 的尺寸偏小, 同時logo的寬高比變化相對較少, 因此, 對于logo 檢測任務(wù), 需要通過重新聚類來選取適合logo 數(shù)據(jù)集的先驗框尺寸.
本文選擇K-means++聚類算法對數(shù)據(jù)集中的標(biāo)注框進(jìn)行聚類獲得9 個先驗框, 并為每個特征檢測尺度分配3 個檢測框. 對FlickrLogos-32 和FLickrSportLogos-10數(shù)據(jù)集先驗框聚類和分配結(jié)果如表1 所示. 相比于YOLOv4 最初的先驗框, 根據(jù)logo 檢測數(shù)據(jù)集通過聚類得到的先驗框尺寸更符合訓(xùn)練集中l(wèi)ogo 的寬高比,使用重新聚類獲得的先驗框?qū)W(wǎng)絡(luò)進(jìn)行訓(xùn)練能夠使得檢測更加準(zhǔn)確高效.
表1 先驗框聚類和分配結(jié)果
總的損失包括類別損失、置信度損失和邊界框回歸損失3 部分, 類別損失和置信度損失用二元交叉熵?fù)p失來計算, 對于邊界框回歸使用CIOU 損失來代替MSE 損失, 總損失的計算方法如式(8)所示.
實驗在以下配置的計算機(jī)上進(jìn)行: 處理器: Inter(R)Xeon(R) CPU E5-2640 v4 @2.4 GHz; 顯卡: NVIDIA 1080Ti GPU, 顯存11 GB; 系統(tǒng)類型: 64 位CentOS Linux 7 操作系統(tǒng). 算法用深度學(xué)習(xí)框架PyTorch1.4.0實現(xiàn), Anaconda 集成開發(fā)環(huán)境, Python 3.7 編程語言.關(guān)于網(wǎng)絡(luò)參數(shù)設(shè)置, 設(shè)置批訓(xùn)練量batch_size 為8, 圖像在訓(xùn)練前尺寸調(diào)整為608×608, 對骨干網(wǎng)絡(luò)CSPDarknet53使用大型分類數(shù)據(jù)集ImageNet 進(jìn)行預(yù)訓(xùn)練, 獲得參數(shù)初始化, 除此之外, 網(wǎng)絡(luò)中其他結(jié)構(gòu)均采用normal 方法進(jìn)行參數(shù)初始化; 優(yōu)化算法使用Adam 算法; 學(xué)習(xí)率使用余弦退火學(xué)習(xí)率衰減方法; 總共訓(xùn)練100 個epoch,其中前50 個epoch 凍結(jié)骨干網(wǎng)絡(luò)部分的權(quán)重; 使用YOLOv4 系列算法時在訓(xùn)練階段使用Mosaic 數(shù)據(jù)增強(qiáng).
為了驗證我們提出的YOLOv4-RCA 算法的性能,我們在FlickrLogos-32 數(shù)據(jù)集和FlickrSportLogos-10 數(shù)據(jù)集上分別實驗. 數(shù)據(jù)集包含的logo 如圖6 所示.FlickrLogos-32 數(shù)據(jù)集包含了Adidas、Aldi、Apple、Becks、Bmw 等32 個logo 類別, 每個類別有70 張圖像, 將官方提供的數(shù)據(jù)集標(biāo)注的格式轉(zhuǎn)換成PASCAL VOC 數(shù)據(jù)集格式用來訓(xùn)練. FlickrSportLogos-10 數(shù)據(jù)集是一個包含361、Adidas、Anta、Erke 和Kappa 等10 種體育運動品牌的數(shù)據(jù)集, 共有2 038 張圖片.
圖6 FlickrLogos-32 和FlickrSportLogos-10 數(shù)據(jù)集
為了評估所提出的算法對logo 檢測的有效性, 本文使用COCO 評估指標(biāo),AP,AP50,AP75,APS,APM和APL, 其中,AP為 0.50-0.95 之間10 個不同IOU設(shè)置下平均準(zhǔn)確率的平均值, 該指標(biāo)能描述模型對感興趣對象的定位精度;AP50是IOU為0.5 時各個類別的平均準(zhǔn)確度;AP75更 嚴(yán)格一些, 是IOU為0.75 時各個類別的平均準(zhǔn)確度;APS,APM和APL分別描述的是小、中和大目標(biāo)的平均準(zhǔn)確度. 同時, 使用PASCAL 指標(biāo)來評估算法在每個logo 類別上的檢測精度, 即每個類別上的AP和所有類別的平均檢測精度mAP. 考慮在推理階段的FPS來衡量模型的推理速度, 本實驗中FPS是在單張NVIDIA GTX1080ti GPU 上計算的.
在FlickrLogos-32 數(shù)據(jù)集和FlickrSportLogos-10數(shù)據(jù)集上分別實驗, 使用COCO 和PASCAL 指標(biāo)來評估引入自適應(yīng)殘差塊Res2C 和坐標(biāo)注意力CA 的YOLOv4-RCA 算法的性能, 并將其與YOLOv3 算法和YOLOv4算法進(jìn)行比較.
在FlickrLogos-32 數(shù)據(jù)集上的COCO 評估結(jié)果如表2 所示. 根據(jù)表2 的結(jié)果, 可以發(fā)現(xiàn)相比于YOLOv3算法, YOLOv4-RCA 算法在每一項指標(biāo)上都有改進(jìn);而相比于YOLOv4 算法, YOLOv4-RCA 算法在犧牲1.78%FPS的情況下, 除了指標(biāo)AP75, 在其余所有指標(biāo)上都有不同程度的提高. 重點關(guān)注AP和APS這兩個指標(biāo), 發(fā)現(xiàn)相比于YOLOv4 算法, YOLOv4-RCA 算法的AP指標(biāo)提高了0.94, 說明YOLOv4-RCA 算法提高了logo 定位精度;APS指標(biāo)提高了7.76%, 表明YOLOv4-RCA 算法在小尺寸logo 的檢測性能有了顯著改善. 通過分析表3, 可以在FlickrSportLogos-10 數(shù)據(jù)集上得到類似的結(jié)論.
表2 FlickrLogos-32 數(shù)據(jù)集上的比較
在FlickrLogos-32 上的PASCAL 評估結(jié)果如表4所示, 表4 中展示了3 種算法在每個類別上的準(zhǔn)確度和在32 個類別上的平均準(zhǔn)確度. 從表3 可以看出, 提出的YOLOv4-RCA 算法在“Apple”“Dhl”和“Guiness”等15 個logo 類別上準(zhǔn)確度達(dá)到最高; 32 個類別上的平均準(zhǔn)確度mAP相比YOLOv3 算法提高了5.37%, 相比YOLOv4 算法提高了0.91. 通過分析表5 也可以在FlickrSportLogos-10 數(shù)據(jù)集上得到類似的結(jié)論.
表3 FlickrSportLogos-10 數(shù)據(jù)集上的比較
表4 3 種算法在FlickrSportLogos-10 數(shù)據(jù)集上的比較(PASCAL 評估) (%)
表5 3 種算法在FlickrSportLogos-10 數(shù)據(jù)集上的比較(PASCAL 評估) (%)
為了更直觀地分析3 種算法的檢測性能, 從Flickr-Logos-32 數(shù)據(jù)集中選取3 張具有代表性的圖片來對算法進(jìn)行測試, 檢測對比結(jié)果如圖7 所示. 圖7(a)中, 有很多小尺寸的logo, 僅有YOLOv4-RCA 算法可以檢測到所有小尺寸logo 目標(biāo). 圖7(b)中, logo 尺寸中等, 但目標(biāo)聚集, 多個logo 之間距離接近, 容易產(chǎn)生混淆,YOLOv4-RCA 算法可以避免混淆, 將每個logo 單獨檢測出來, 并用非常準(zhǔn)確的邊界框框住. 圖7(c)中, 大量logo 被遮擋, YOLOv4-RCA 算法可以檢測出圖中所有被嚴(yán)重遮擋的logo, 效果明顯好于YOLOv3 和YOLOv4.通過對比分析得出結(jié)論, 盡管仍然存在一些漏檢的情況, YOLOv4-RCA 在處理小目標(biāo)、目標(biāo)密集和遮擋等復(fù)雜場景時檢測性能更好.
圖7 3 種算法在FlickrLogos-32 數(shù)據(jù)集上的檢測結(jié)果
為了驗證每個改進(jìn)點對網(wǎng)絡(luò)性能的優(yōu)化作用, 本文進(jìn)行了消融實驗對比分析. 在FlickrLogos-32 數(shù)據(jù)集上的實驗統(tǒng)計結(jié)果如表6 所示, 其中改進(jìn)點1 和改進(jìn)點2 分別對應(yīng)用自適應(yīng)殘差塊替代連續(xù)卷積和引入坐標(biāo)注意力模塊. 從表中可以看到, 使用殘差塊代替連續(xù)卷積, 僅犧牲了4%的FPS, 將mAP從87.18%提高到87.96%. 坐標(biāo)注意力的引入僅犧牲了3%的FPS, 卻將平均檢測精度從87.18%提升到87.71%. 同時增加這兩個改進(jìn)在僅犧牲1.8% 速度的情況下, 將mAP從87.18%提高到88.09%, 取得了最好的效果, 這說明提出的方法在logo 檢測中相對可靠. 通過分析表7 也可以在FlickrSportLogos-10 數(shù)據(jù)集上得到類似的結(jié)論.
表6 FlickrLogos-32 數(shù)據(jù)集消融實驗
表7 FlickrSportLogos-10 數(shù)據(jù)集消融實驗
針對logo 檢測對小尺寸logo 檢測效果差和對logo定位精度低的問題, 本文基于YOLOv4 提出改進(jìn)的logo檢測算法YOLOv4-RCA, 在特征融合階段使用設(shè)計的自適應(yīng)殘差塊替換5 個連續(xù)卷積層來有側(cè)重地融合特征, 在增強(qiáng)淺層和深層特征利用的同時避免了特征的冗余, 增強(qiáng)了模型的特征融合和表達(dá)能力; 在自適應(yīng)殘差塊之后引入坐標(biāo)注意力機(jī)制通過精確的位置信息對通道關(guān)系和長期依賴性進(jìn)行編碼, 使用通道重要性和空間位置重要性來增強(qiáng)對于logo 檢測更有用的特征;最后使用K-means++聚類算法重新選取對于數(shù)據(jù)集效果最佳的先驗框. 實驗結(jié)果表明, 改進(jìn)的YOLOv4-RCA算法滿足實時logo 檢測的需求, 在FlickrLogos-32 和FlickrSportLogos-10 數(shù)據(jù)集上的平均精度分別提高了0.91%和1.40%, 同時提高了模型整體的定位精度和小尺度logo 的檢測精度.