陳建促,王 越,朱小飛,李章宇,林志航
重慶理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,重慶400054
生物資源是人類賴以生存和發(fā)展的自然基礎(chǔ),是生態(tài)系統(tǒng)平衡與穩(wěn)定的有力保障。野生動物資源是生物資源的重要組成部分,具有珍稀性和生命脆弱性,保護(hù)和合理利用野生動物資源對可持續(xù)發(fā)展有著重要意義[1]。然而,當(dāng)下對于野生動物的監(jiān)測保護(hù)是通過實(shí)地探查,或者使用昂貴的實(shí)時(shí)錄像機(jī)進(jìn)行不間斷的定點(diǎn)錄像,需要投入大量的人力物力。因此,將目標(biāo)檢測的研究成果運(yùn)用于野生動物視頻檢測領(lǐng)域,對輔助科學(xué)研究有重要意義。
近年來,國內(nèi)外研究學(xué)者在野生動物領(lǐng)域做了一系列的分類與檢測識別研究工作。謝素儀[2]通過結(jié)合Haar-like 特征提取器與Adaboost 分類器完成對貓臉的檢測;劉文定等人[3]結(jié)合感興趣區(qū)域ROI 與卷積神經(jīng)網(wǎng)絡(luò)對國家級自然保護(hù)區(qū)的陸生野生動物進(jìn)行自動識別;劉威[4]結(jié)合形狀、運(yùn)動特征以及Adaboost分類方法對運(yùn)動動物目標(biāo)進(jìn)行分類檢測。隨著深度卷積網(wǎng)絡(luò)的不斷發(fā)展,基于深度學(xué)習(xí)的目標(biāo)檢測方法憑借其強(qiáng)大的特征學(xué)習(xí)能力,表現(xiàn)出了巨大優(yōu)勢。在基于深度學(xué)習(xí)的目標(biāo)檢測領(lǐng)域,文獻(xiàn)[5]結(jié)合selective search 算法與SVM分類器,提出了基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)R-CNN,其提取出的特征魯棒性高、通用性好,但存在時(shí)間開銷大的缺點(diǎn);文獻(xiàn)[6]使用卷積神經(jīng)網(wǎng)絡(luò)直接產(chǎn)生候選框區(qū)域?qū)-CNN 進(jìn)行改進(jìn),提出的Faster R-CNN模型解決了R-CNN 模型的時(shí)空開銷大的問題;Facebook 人工智能實(shí)驗(yàn)室設(shè)計(jì)的基于回歸的YOLO[7]模型,使用端到端的訓(xùn)練方法,提升了目標(biāo)檢測的速度,但其檢測精度低;谷歌團(tuán)隊(duì)設(shè)計(jì)的SSD[8]模型對全圖各個(gè)位置的多尺度區(qū)域進(jìn)行回歸,目標(biāo)檢測精度高,但檢測速度不及YOLO模型;Redmon等人[9]通過Darknet-53卷積神經(jīng)網(wǎng)絡(luò)與金字塔網(wǎng)絡(luò),對全圖進(jìn)行三個(gè)不同尺度的特征圖檢測,得到檢測速度與檢測精度的平衡。在上述模型中,YOLOv3 模型的綜合性能最優(yōu),在保持YOLO 模型檢測速度的同時(shí),達(dá)到了SSD 模型的檢測精度。針對YOLOv3模型應(yīng)用于視頻目標(biāo)檢測時(shí),未考慮到連續(xù)視頻圖像間的相關(guān)性問題,本文提出了Context-aware YOLO 模型。該模型充分利用相鄰視頻幀中目標(biāo)間的強(qiáng)關(guān)聯(lián)性,將Darknet-53 殘差神經(jīng)網(wǎng)絡(luò)作為特征提取器,通過互信息熵對視頻相鄰幀的相似度進(jìn)行量化得到相關(guān)因子,再將相關(guān)因子應(yīng)用于視頻前后相鄰幀的特征圖融合,最終對融合后的特征圖進(jìn)行檢測;另外,采用直方圖均衡對視頻中的“鏡頭切換”進(jìn)行判斷,確定特征圖融合的臨界條件。本文的主要貢獻(xiàn)如下:
(1)使用線性迭代的方式對視頻前后幀三個(gè)不同尺度的特征圖分別進(jìn)行融合;
(2)通過圖像互信息熵?cái)M合出視頻相鄰幀融合的相關(guān)因子;
(3)引入直方圖均衡計(jì)算圖像相似度的方法,確定相鄰幀的融合條件。
目標(biāo)檢測是機(jī)器視覺的一個(gè)重要研究方向,而深度神經(jīng)卷積網(wǎng)絡(luò)憑借其提取目標(biāo)特征的抽象能力、抗平衡能力、抗尺度變化能力強(qiáng)的優(yōu)勢,使其成為機(jī)器視覺領(lǐng)域的研究熱點(diǎn)。
在深度學(xué)習(xí)圖像目標(biāo)檢測領(lǐng)域,Sermanet等人[10]提出的Overfeat 模型使用卷積網(wǎng)絡(luò)實(shí)現(xiàn)多尺度與滑動窗口方法,對圖像進(jìn)行集成識別、定位和檢測;文獻(xiàn)[5]提出的R-CNN模型結(jié)合Selective Search算法篩選出感興趣區(qū)域,并對圖像提取到的候選區(qū)域進(jìn)行特征提取,最終通過SVM 分類器進(jìn)行分類,但其存在時(shí)間開銷與空間開銷大的缺點(diǎn);He 等人[11]提出的SSPNet 網(wǎng)絡(luò)在卷積層與全連接層之間加入空間金字塔池化層,解決了候選區(qū)域計(jì)算的冗余問題,在保持精度的前提下,檢測速度相對于R-CNN 提升了38 倍;Ren 等人[6]提出的Faster R-CNN,通過RPN 將候選區(qū)域生成、特征提取、候選目標(biāo)確認(rèn)與包圍框回歸統(tǒng)一到同一個(gè)網(wǎng)絡(luò)框架中,提升了R-CNN的檢測精度與檢測速度;清華大學(xué)提出的Hyper net[12]通過網(wǎng)絡(luò)多層級特征提取、最大池化降維、逆卷積擴(kuò)增、LRN正則化堆疊[13],對形成的Hyper Feature Maps進(jìn)行預(yù)測與定位;Redmon等人[7]提出的YOLO算法直接將整張圖作為網(wǎng)絡(luò)的輸入,并通過一次前向傳播直接得到目標(biāo)包圍框的位置和目標(biāo)類別,其檢測速度快,但精度與定位準(zhǔn)確度低;由于YOLO未采用多窗口機(jī)制來處理多尺度窗口,Liu 等人[8]結(jié)合YOLO 算法速度快與RPN 中多參考窗口技術(shù)的優(yōu)點(diǎn),提出的SSD 算法在多個(gè)分辨率上的特征圖進(jìn)行檢測,在準(zhǔn)確率接近Faster R-CNN的同時(shí),保持了極快的檢測速度;Lin等人[14]提出的Retina-Net 提出Focal Loss 聚焦損失函數(shù),通過降低網(wǎng)絡(luò)訓(xùn)練過程中簡單背景樣本的學(xué)習(xí)權(quán)重,對難樣本的聚焦和網(wǎng)絡(luò)學(xué)習(xí)能力進(jìn)行重新分配,使得檢測精度和速度全面超越基于候選區(qū)域的模型;Redmon等人[9]提出的YOLOv3 模型,將Darknet-53 作為基礎(chǔ)特征提取網(wǎng)絡(luò),并使用金字塔網(wǎng)絡(luò)對圖像進(jìn)行多尺度檢測,實(shí)現(xiàn)了檢測精度與速度的融合。
考慮到將視頻拆分為連續(xù)的圖像幀進(jìn)行處理時(shí),會丟失幀間相關(guān)性,將YOLOv3 模型、圖像相似度與時(shí)間序列關(guān)系相結(jié)合,對Darknet-53網(wǎng)絡(luò)提取到的連續(xù)前后視頻幀的特征圖進(jìn)行線性迭代融合,以提升野生動物視頻目標(biāo)檢測的準(zhǔn)確率。
為了有效檢測視頻中的目標(biāo),借鑒文獻(xiàn)[9]中提出的實(shí)時(shí)目標(biāo)檢測YOLOv3(You Only Look Once)模型。YOLOv3模型是Redmond和Farhadi提出的一種基于回歸的實(shí)時(shí)目標(biāo)檢測模型,是一個(gè)可以一次性預(yù)測多個(gè)目標(biāo)框位置和類別的深度卷積網(wǎng)絡(luò)。其將Darknet-53 殘差神經(jīng)網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò),對輸入圖像進(jìn)行特征提取,得到三個(gè)不同尺度的特征圖;在Darknet-53 的基礎(chǔ)上,通過加入額外卷積層對圖片進(jìn)行多尺度預(yù)測,從而獲得更高的語義信息。如圖1 為YOLOv3 的模型結(jié)構(gòu)圖。
在對視頻進(jìn)行實(shí)時(shí)目標(biāo)檢測的過程中,對單張圖像進(jìn)行分析和處理在很大程度上限制了所能獲取的目標(biāo)特征,但視頻圖像序列卻包含了大量的信息,借助視頻圖像序列關(guān)系更有利于目標(biāo)的特征提取。Contextaware YOLO是基于深度學(xué)習(xí)的視頻目標(biāo)檢測方法,是對YOLOv3模型的改進(jìn),其模型結(jié)構(gòu)如圖2所示。
圖1 YOLOv3模型結(jié)構(gòu)圖
如圖2所示,Context-aware YOLO模型首先對輸入的視頻序列使用直方圖均衡計(jì)算相似度的方法,判斷幀融合的臨界條件;使用Darknet-53網(wǎng)絡(luò)對視頻幀進(jìn)行特征提取;并對不同視頻幀提取到的三個(gè)不同尺度特征圖分別進(jìn)行線性迭代融合;對融合之后的特征圖進(jìn)行類別與目標(biāo)框的預(yù)測,獲得具有目標(biāo)語義關(guān)聯(lián)信息的最終檢測結(jié)果。
在相鄰幀融合之前,引入直方圖均衡[15]計(jì)算圖像相似度的方法,對相鄰視頻圖像進(jìn)行相似度度量。若為視頻“鏡頭切換”,相鄰視頻幀則不存在時(shí)間序列關(guān)系,若仍對其進(jìn)行特征圖融合,會導(dǎo)致識別率降低。
在對圖像進(jìn)行直方圖均衡相似度度量時(shí),假設(shè)圖像某像素點(diǎn)的RGB值為(a,b,c),則直方圖:
對圖像中每個(gè)像素點(diǎn)分別進(jìn)行式(1)的計(jì)算,得到圖像的直方圖數(shù)據(jù);并對直方圖數(shù)據(jù)使用巴氏系數(shù)進(jìn)行計(jì)算:
式中,p、p′分別代表源圖像與候選圖像的直方圖數(shù)據(jù),P 為巴氏系數(shù)因子值,即相似度,P ∈[0,1]。若相似度P 小于閾值σ(σ=0.5),則視為視頻“鏡頭切換”,將不對相鄰視頻圖像的特征圖進(jìn)行融合;若相似度P 不小于閾值σ,則對相鄰視頻圖像進(jìn)行特征圖融合。
圖2 Context-aware YOLO模型結(jié)構(gòu)圖
為充分利用視頻序列所包含的目標(biāo)信息,本文對經(jīng)過Darknet-53提取到的視頻圖像特征圖進(jìn)行有效融合,以提升目標(biāo)檢測準(zhǔn)確率。在Context-aware YOLO模型中,相鄰特征圖融合結(jié)構(gòu)圖如圖3所示。
圖3 特征圖融合結(jié)構(gòu)圖
在圖3中,當(dāng)前幀在與其前后幀圖像進(jìn)行特征圖融合時(shí),采用線性迭代的方式,并將原特征圖更新為融合后的特征圖。
假設(shè)當(dāng)前特征圖為Fn,當(dāng)前幀的前一幀為Fn-1,當(dāng)前幀的后一幀為Fn+1,則融合后的特征圖F′n:
其中:
且ω 表示相鄰視頻幀的相關(guān)因子,ω ∈[0,1]。
在特征融合中,如何有效選取相關(guān)因子ω 是本節(jié)的重點(diǎn)。針對相關(guān)因子的選取,使用互信息熵計(jì)算圖像相似度,對得到的相似度進(jìn)行高斯變化,并與距離權(quán)重相乘。
相關(guān)因子ω:
其中σ=0.6;μ=0.6;x 為相鄰視頻幀圖像的相似度均值,取值為0.69;distance_weight為距離權(quán)重,取值為1。
圖像互信息熵:
假設(shè)有視頻圖像A、B,則A、B的互信息熵H(A)、H(B):
A、B 的聯(lián)合熵H(A,B):
A、B 的互信息熵I(A,B):
式中,H(A,B)表示A、B 共同包含的信息。若A、B 包含的共同信息越少,則H(A,B)越??;因此,I(A,B)越大。
為了得到式(5)中的參數(shù)x,將相鄰圖像與當(dāng)前幀的互信息熵進(jìn)行歸一化處理,即x:
其中,x ∈(0,1]。
本文實(shí)驗(yàn)環(huán)境與配置為:Ubuntu 14.04 操作系統(tǒng),Intel Xeon E5-2623 v3 處理器,64 GB 內(nèi)存,NVIDIA Tesla K80顯卡,以及Keras深度學(xué)習(xí)框架。
實(shí)驗(yàn)數(shù)據(jù)集采用基于視頻的野生動物檢測數(shù)據(jù)集WVDDS。WVDDS 數(shù)據(jù)集包含了12 個(gè)類別,253 段視頻片段,視頻按照每5 幀標(biāo)注一次的頻率進(jìn)行標(biāo)注,標(biāo)注采用PASCAL VOC格式,共6 601視頻圖像。
5.3.1 模型再訓(xùn)練參數(shù)
為了與YOLOv3 在同等條件下進(jìn)行檢測性能的比較,在原作者提供的權(quán)重文件基礎(chǔ)上,使用WVDDS 數(shù)據(jù)集進(jìn)行再訓(xùn)練,其再訓(xùn)練模型的參數(shù)如表1所示。
表1 模型再訓(xùn)練的參數(shù)表
5.3.2 相關(guān)因子
為了驗(yàn)證視頻序列圖像相似度的變化關(guān)系,選取視頻中的第一幀作為當(dāng)前幀,對視頻所有序列圖像與當(dāng)前幀使用互信息熵進(jìn)行相似度計(jì)算,并進(jìn)行歸一化。視頻序列中,當(dāng)前幀與視頻序列幀的相關(guān)因子變化曲線如圖4所示。
圖4 當(dāng)前幀與視頻序列幀的相關(guān)因子變化曲線
如圖4,距當(dāng)前幀越近,其相似度越大;據(jù)當(dāng)前幀越遠(yuǎn),其相似度越小。相似度呈下降趨勢,且保持在0.1上下。
表2 使用互信息熵對視頻的相鄰兩幀分別進(jìn)行相似度計(jì)算,相似度均值作為式(5)中x 的取值。如表2所示,x 的取值為0.69。
表2 視頻相鄰幀的互信息熵相似度
5.4.1 直方圖相似度判斷
在4.3 節(jié)中,使用直方圖均衡對視頻相鄰幀的相似度進(jìn)行判斷。圖5 展示了相鄰視頻幀相似度。若相鄰幀的相似度S 不小于0.5,則進(jìn)行相鄰特征圖融合;反之,則判斷為視頻“鏡頭切換”,不進(jìn)行融合。
如圖5所示,(a)、(c)的相似度不小于閾值,對進(jìn)行特征圖融合,但是(b)、(d)的相似度小于閾值,判斷為視頻“鏡頭切換”,不對其進(jìn)行特征圖融合。
5.4.2 目標(biāo)檢測結(jié)果
為了與YOLOv3算法進(jìn)行對比,本文算法將初始訓(xùn)練參數(shù)設(shè)定為與YOLOv3 原模型一致。在進(jìn)行檢測任務(wù)時(shí),閾值scores=0.5,IOU=0.5。圖6為YOLOv3模型與Context_aware YOLO模型的實(shí)驗(yàn)結(jié)果對比,其中,第1、3、5、7 行為YOLOv3 模型的檢測結(jié)果,第2、4、6、8行為Context_aware YOLO模型的檢測結(jié)果。
圖5 相鄰視頻幀的圖像相似度
如圖6 所示,第2、4、6、8 行相對于第1、3、5、7 行的目標(biāo)檢測率得到了提升。其中,第1、2行為背景遮擋的檢測結(jié)果對比,第3、4 行為自遮擋的檢測結(jié)果對比,第5、6行與7、8行組為形變的檢測結(jié)果對比。
5.4.3 平均準(zhǔn)確率
檢測性能使用平均準(zhǔn)確率AP 進(jìn)行評估,其通過數(shù)值積分對P-R 曲線進(jìn)行計(jì)算,P 代表Precision準(zhǔn)確率,R 代表Recall召回率。其中:
式中,TP 表示True Positives;TN 表示True Negatives;FP表示False Positives;FN 表示False Negatives。
F1 值為模型準(zhǔn)確率與召回率的加權(quán)平均,其反映了模型準(zhǔn)確率與召回率的綜合性能,它的取值在0~1之間。F1的計(jì)算公式如下,
表3為YOLOv3模型與Context-aware YOLO模型在IOU 為0.5 時(shí)的P-R變化結(jié)果,表3 說明Context-aware YOLO 模型相對于YOLOv3 模型的F1 值提升了2.4%,mAP提升了4.71%;
表3 YOLOv3模型與Context-aware YOLO模型的對比
圖6 YOLOv3與本文模型的檢測結(jié)果對比
表4 不同模型在WVDDS數(shù)據(jù)集上的類別平均準(zhǔn)確率
圖7 不同模型在WVDDS數(shù)據(jù)集上的類別P-R曲線對比
表4 為YOLOv3 模型與Context-aware YOLO 模型在WVDDS數(shù)據(jù)集上的類別平均準(zhǔn)確率對比實(shí)驗(yàn)結(jié)果;圖7為YOLOv3模型(第1、3行)與Context-aware YOLO模型(第2、4行)在WVDDS數(shù)據(jù)集上的P-R 變化曲線。
如表4,Context-aware YOLO模型中類別的準(zhǔn)確率均高于YOLOv3模型;參照圖7,由于融合前后幀特征圖信息的Context_aware YOLO 模型更能對遮擋、形變目標(biāo)進(jìn)行準(zhǔn)確檢測,檢測成功的目標(biāo)數(shù)量與檢測置信度得到了提升。因此,模型的整體檢測性能也得到了提升。
本文在YOLOv3目標(biāo)檢測算法的基礎(chǔ)上,對Darknet-53特征提取網(wǎng)絡(luò)提取到的視頻前后幀的三個(gè)尺度特征層進(jìn)行線性迭代融合,將融合后的特征圖通過額外卷積層,并使用NMS 非極大值抑制進(jìn)行最終檢測。實(shí)驗(yàn)表明,在手工標(biāo)注的同一野生動物視頻數(shù)據(jù)集下,Context-aware YOLO 算法相比于YOLOv3 算法,整體的目標(biāo)檢測識別率得到了提升。