張宸瑋
(中國石油大學(xué)(華東) 青島 266000)
本文的研究工作主要基于多目標(biāo)跟蹤領(lǐng)域(Multi-object Tracking,MOT),因?yàn)槟繕?biāo)跟蹤需要建立前后兩幀圖像之間目標(biāo)的聯(lián)系。多目標(biāo)需要實(shí)現(xiàn)鄰接兩幀之間相同目標(biāo)的數(shù)據(jù)聯(lián)系,還存在著遮擋、目標(biāo)較小、目標(biāo)相似度明顯、運(yùn)動軌跡起止時(shí)間未知等問題。多目標(biāo)跟蹤包括兩類,第一類為以檢測為核心的跟蹤,第二類則將初始框作為核心,進(jìn)而實(shí)現(xiàn)高效的智能化跟蹤[7]。DFT 與單目標(biāo)跟蹤有相似之處,它們都不能夠脫離于人工標(biāo)注的環(huán)節(jié)。如果采用人工初始化的方式,那么其往往難以標(biāo)記首幀中并未發(fā)現(xiàn)的目標(biāo),而多目標(biāo)跟蹤本身包含目標(biāo)不斷消失出現(xiàn)的場景,因此未被人工初始化的目標(biāo)將無法被跟蹤。人工標(biāo)注的不完整性影響跟蹤結(jié)果的穩(wěn)定性,因此TBD 比DFT 更常用,本文主要基于TBD進(jìn)行研究。
本文提出了一種基于Yolov4-tiny和Deepsort[8]的紅外人員目標(biāo)跟蹤方法,其重點(diǎn)涵蓋模型訓(xùn)練、跟蹤等多個(gè)環(huán)節(jié)。Deepsort 是基于TBD 策略的MOT 算法,通過設(shè)計(jì)檢測結(jié)果和跟蹤預(yù)測結(jié)果的關(guān)聯(lián)策略實(shí)現(xiàn)跟蹤。該方法具有較高的檢測精度及較快的檢查速度,可以滿足夜間紅外場景下人員實(shí)時(shí)跟蹤的要求。
本文提出了融合Yolov4-tiny 與Deepsort 的紅外人員目標(biāo)跟蹤方法,其流程如圖1 所示。首先利用AIIR 型號紅外成像儀器采集圖像作為訓(xùn)練集,訓(xùn)練Yolov4-tiny 模型。然后用訓(xùn)練好的模型對夜晚紅外場景進(jìn)行人員檢測。最后,利用Deepsort 算法對人員檢測結(jié)果進(jìn)行跟蹤,從而得到清晰而準(zhǔn)確的人員跟蹤結(jié)果。
圖1 紅外人員目標(biāo)跟蹤方法流程圖
本文采用Yolov4-tiny 算法對紅外人員目標(biāo)進(jìn)行實(shí)時(shí)檢測。Yolov4-tiny 是一類應(yīng)用較為廣泛的算法,它對于常規(guī)的嵌入式平臺具有良好的適用性。與Yolov4 相比,檢測精度在一定程度上下降,然而其能夠可靠地進(jìn)行模型壓縮,可以明顯優(yōu)化檢測效率。在確保檢測速率符合要求的條件下,為了有效增加算法精度,本文做出如下改進(jìn):1)在特征層后增加一個(gè)分支,將Yolov4-tiny 的輸出大小為26*26*128。13*13*256 的特征圖在經(jīng)過DBL(卷積+批量標(biāo)準(zhǔn)化+激活函數(shù)Relu)變換后,與另一個(gè)相同尺寸的特征圖疊加為有效特征層,其尺寸大小為26*26*128;2)在第一個(gè)有效特征層之后,添加三個(gè)空洞率分別為1、3、5 的平行深度可分離卷積層,以擴(kuò)大特征層的感受野。在經(jīng)過連接之后,通過1*1 卷積和DBL 變換作為第二個(gè)有效特征層;3)改進(jìn)特征融合網(wǎng)絡(luò)。在第二個(gè)有效特征層經(jīng)過DBL 變換后添加殘差網(wǎng)絡(luò),之后進(jìn)行卷積與上采樣,最后經(jīng)由Yolo_head輸出第一個(gè)預(yù)測結(jié)果。
2.1.1 改進(jìn)的特征提取網(wǎng)絡(luò)
本節(jié)解決了模型的特征提取網(wǎng)絡(luò)CSPDarknet53-tiny 不能充分利用各個(gè)尺度的信息的問題。對底層特征(128)進(jìn)行DBL 變換,并通過1*1 卷積調(diào)整大小,與前面的特征合并。融合結(jié)果結(jié)合中層特征(256)作為第一有效特征層,增強(qiáng)模型對小目標(biāo)的特征提取能力;同時(shí),在第一個(gè)有效特征層之后,引入三種不同空洞率的平行連接。融合結(jié)果通過卷積加標(biāo)準(zhǔn)化操作,再經(jīng)由DBL 變換進(jìn)行調(diào)整,作為第二有效特征層。改進(jìn)后的特征提取網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2 所示,其中SepConV_Bn 為包含深度可分離空洞卷積[10]的卷積塊。
圖2 改進(jìn)的特征網(wǎng)絡(luò)結(jié)構(gòu)圖
空洞卷積很大程度上表現(xiàn)出不規(guī)則的特點(diǎn),可根據(jù)實(shí)際需求對感受野進(jìn)行調(diào)節(jié),并有效減少計(jì)算量。其思想是擴(kuò)大每個(gè)卷積核像素之間的距離。相比正常卷積,其加入了空洞率參數(shù),下圖具體展示了空洞卷積的整體情況。
圖3(a)為正常卷積,圖3(b)為空洞率為2的空洞卷積。與前者相比,后者的感受野明顯增加。然而,在對感受野進(jìn)行拓展的過程中,某些像素值并未加入卷積操作,使卷積具有信息丟失的現(xiàn)象;為解決這一問題,本節(jié)在設(shè)計(jì)三個(gè)并行空洞卷積時(shí),將空洞率分別設(shè)為1、3、5,即小空洞率聚焦短距離信息,大空洞率聚焦長距離信息。同時(shí),通過深度可分空洞卷積替換傳統(tǒng)的空洞卷積,其大幅度縮減了計(jì)算量。
圖3 正常卷積與空洞卷積的比較
2.1.2 改進(jìn)的特征融合網(wǎng)絡(luò)
Yolov4-tiny中,采用FPN結(jié)構(gòu)對輸出的兩個(gè)有效特征層進(jìn)行簡單的特征融合。過程如下:最后一個(gè)有效特征層卷積后再上采樣,一方面通過yolo_head 處理第一個(gè)預(yù)測結(jié)果,另一方面與前一個(gè)輸出的有效特征層疊加,再由yolo_head 處理輸出第二個(gè)預(yù)測結(jié)果。本文引入一種改進(jìn)的反殘差網(wǎng)絡(luò)來增強(qiáng)FPN 的特征融合能力。圖4 為標(biāo)準(zhǔn)殘差網(wǎng)絡(luò)、反殘差網(wǎng)絡(luò)和改進(jìn)反殘差網(wǎng)絡(luò)的結(jié)構(gòu)比較圖,其中n 是輸入通道的數(shù)量、t 為輸出通道的數(shù)量、C為壓縮或擴(kuò)展通道的倍數(shù)。
圖4 標(biāo)準(zhǔn)殘差網(wǎng)絡(luò)、反殘差網(wǎng)絡(luò)、改進(jìn)反殘差網(wǎng)絡(luò)的比較
殘差網(wǎng)絡(luò)使用跳轉(zhuǎn)連接來解決神經(jīng)網(wǎng)絡(luò)中的退化問題,從圖4 的比較可以看出,標(biāo)準(zhǔn)殘差網(wǎng)絡(luò)圖4(a)首先通過1*1 的卷積壓縮通道數(shù),此后應(yīng)用3*3 卷積完成標(biāo)準(zhǔn)化的提取特征,最后通過1*1 卷積恢復(fù)特征映射的通道數(shù)。在對特征通道進(jìn)行壓縮和擴(kuò)展的過程中,會存在破壞特征表達(dá)并導(dǎo)致信息丟失的問題;而反殘差網(wǎng)絡(luò)圖4(b)則相反,先通過1*1 卷積擴(kuò)展通道,然后使用3*3 的卷積提取特征,最后使用1*1 的卷積映射到原始通道數(shù)量;為了加深網(wǎng)絡(luò)深度,降低計(jì)算復(fù)雜度,本節(jié)采用了改進(jìn)方法,對圖4(c)的后一塊反殘差塊進(jìn)行了改進(jìn),將圖4(b)中的3*3常規(guī)卷積替換為3*3深度卷積。
改進(jìn)后的算法總體結(jié)構(gòu)如圖5所示。
圖5 改進(jìn)的Yolo_v4-tiny網(wǎng)絡(luò)結(jié)構(gòu)圖
Deepsort 目標(biāo)跟蹤檢測算法是基于sort 目標(biāo)追蹤算法的改進(jìn),引入離線訓(xùn)練深度學(xué)習(xí)模型,在實(shí)時(shí)目標(biāo)跟蹤過程中,對待跟蹤目標(biāo)特征加以提取匹配。在遮擋的條件下其依然能夠體現(xiàn)出理想的跟蹤效果[11]。
Deepsort跟蹤框架結(jié)構(gòu)如圖6 所示。根據(jù)要求對ID 編號進(jìn)行初始化,此后結(jié)合預(yù)測公式對檢測框位置實(shí)現(xiàn)準(zhǔn)確預(yù)測,如此就能夠獲取后續(xù)的狀態(tài)參數(shù)。除此之外,我們可以通過匈牙利匹配算法對各目標(biāo)所涵蓋的特征展開比較,假如特征距離未超過限定的閾值,則判定兩幀內(nèi)的框與特定的ID 號相對應(yīng),如此就實(shí)現(xiàn)了高效的目標(biāo)關(guān)聯(lián),假如特征距離相對較大,則判定兩者的ID 號具有偏差,然后開始后續(xù)的匹配操作。
圖6 Deep sort 跟蹤框架結(jié)構(gòu)
單假設(shè)追蹤方法是Deepsort 目標(biāo)跟蹤算法的核心,主要采用卡爾曼濾波的遞歸方法完成所采集逐幀紅外圖像的數(shù)據(jù)關(guān)聯(lián)。Deepsort 算法需在匹配計(jì)算中加入目標(biāo)外觀信息,因此在目標(biāo)受遮擋情況下仍可實(shí)現(xiàn)圖像ID的精準(zhǔn)匹配。
Deepsort目標(biāo)跟蹤算法的流程如圖7所示。
圖7 Deepsort算法流程圖
從圖7 中可以看出,Deepsort 目標(biāo)跟蹤檢測算法包括狀態(tài)估計(jì)、軌跡處理以及級聯(lián)匹配等過程。
傳統(tǒng)sort算法需將跟蹤框以及檢測框的IoU 狀態(tài)作為算法輸入,跟蹤框以及檢測框匹配結(jié)果需利用匈牙利算法實(shí)現(xiàn),而Deepsort 算法需同時(shí)考慮目標(biāo)外觀信息以及運(yùn)動信息關(guān)聯(lián)[12],目標(biāo)檢測以及目標(biāo)軌跡跟蹤匹配通過融合度量方法實(shí)現(xiàn)。
通過馬氏距離表示運(yùn)動信息的關(guān)聯(lián)度,該種距離是跟蹤器預(yù)測框與檢測框間的距離,馬氏距離表達(dá)式如下:
利用馬氏距離對運(yùn)動數(shù)據(jù)的關(guān)聯(lián)度進(jìn)行具體表示,其對應(yīng)的表達(dá)式為
在上述式子中,lj與yi先后指代的是j的位點(diǎn)和i預(yù)測目標(biāo)的位置;Zi在此處指代的是平均跟蹤位置與檢測位置之間存在的協(xié)方差矩陣[13]。
由公式可知,Deepsort 算法可依據(jù)特定標(biāo)準(zhǔn)差分析目標(biāo)跟蹤過程中狀態(tài)測量的波動情況,該種標(biāo)準(zhǔn)差利用馬氏距離通過平均跟蹤位置與檢測位置運(yùn)算獲?。?4]。
根據(jù)要求對95%置信區(qū)間展開計(jì)算,此處可以結(jié)合逆χ2分布情況展開分析。
閾值化處理表達(dá)式如下:
當(dāng)所設(shè)置的閾值t(1) 高于其中某次所關(guān)聯(lián)的馬氏距離時(shí),表示跟蹤運(yùn)動狀態(tài)的目標(biāo)的運(yùn)動信息已成功關(guān)聯(lián)[15]。紅外成像監(jiān)控為測量空間,設(shè)置馬氏距離閾值為9.5988。
用lj表示紅外圖像檢測塊,用rj表示利用CNN(Convolutional Neural Networks)模型所獲取的特征向量,設(shè)定特征向量限制條件為‖rj‖=1。
當(dāng)前目標(biāo)圖像內(nèi)檢測結(jié)果j的特征向量與跟蹤器i所關(guān)聯(lián)特征集間最小余弦距離表達(dá)式如下:
當(dāng)所獲取結(jié)果低于已設(shè)置閾值時(shí),表明所關(guān)聯(lián)目標(biāo)外觀信息為成功狀態(tài)。
線性加權(quán)以上度量方式實(shí)現(xiàn)融合關(guān)聯(lián)方式的最終度量,關(guān)聯(lián)方式融合表達(dá)式如下:
其中,δ表示關(guān)聯(lián)系數(shù)。
當(dāng)運(yùn)動信息以及目標(biāo)外觀信息關(guān)聯(lián)均符合所設(shè)置閾值條件時(shí),融合關(guān)聯(lián)方式[16]。短期預(yù)測與匹配以及長時(shí)間遮擋情況下分別采用距離度量方法以及外觀特征度量方法獲取有效的跟蹤結(jié)果。
由于針對油田場景下的紅外圖像數(shù)據(jù)集很少,因此本文使用384*288 分辨率非制冷焦平面探測器,焦距25mm 的AIIR 型號紅外熱像儀拍攝的6 個(gè)夜間油田場景人員視頻,制作紅外圖像數(shù)據(jù)集。其中,特別采集了一定數(shù)量的存在快速運(yùn)動、障礙物遮擋的紅外人員圖像,以測試目標(biāo)識別模型的環(huán)境適應(yīng)性和魯棒性。數(shù)據(jù)集包括8000 張油田場景下人員紅外圖像,選取其中7000 幅作為訓(xùn)練集,1000幅作為測試集。此外,為檢測本文方法的跟蹤穩(wěn)定性與幀率,特選取一部分視頻用于測試。
由于本文使用的數(shù)據(jù)集與其他開源的數(shù)據(jù)集差異較大,因此采用監(jiān)督學(xué)習(xí)的方式訓(xùn)練改進(jìn)的Yolov4-tiny 網(wǎng)絡(luò)模型。在訓(xùn)練的過程中主要應(yīng)用Adam 算法,在此處momentum=0.957,初始學(xué)習(xí)率learing_rate=0.0013,steps=8000,subdivisions=16,每中輸入batch/subdivisions=2 張圖片,從而有效降低顯存壓力;除此之外,輸入圖像的規(guī)格一般情況下設(shè)置為416*416,此后在部署網(wǎng)絡(luò)中完成訓(xùn)練工作,此時(shí)的顯存為8.5G。在進(jìn)行訓(xùn)練的時(shí)候,各參數(shù)的的變化情況具體參考如圖8。
由圖8 可知,當(dāng)step=6400 時(shí),網(wǎng)絡(luò)模型趨于穩(wěn)定,在通過反復(fù)的訓(xùn)練之后成功收斂至0.1145,此時(shí)的mAP等于87.2%。
選取檢測準(zhǔn)確率P(precision)、召回率R(recall)作為檢測精度的評價(jià)指標(biāo):
式中:Tp為正確檢測出人員目標(biāo)的數(shù)量;Fp為將非人員目標(biāo)檢測為人員目標(biāo)的數(shù)量;Fn為未能檢測到人員目標(biāo)的數(shù)量。
本文還使用反投影誤差來體現(xiàn)目標(biāo)與圖像間變換精度。反投影誤差指不同幀圖像中匹配點(diǎn)對的匹配程度,反投影誤差可體現(xiàn)目標(biāo)與圖像間變換精度。用(di,si)表示匹配點(diǎn)對,其中si與di分別表示監(jiān)控視頻圖像以及目標(biāo)圖像中的點(diǎn),H表示投影距離,定義反投影誤差表達(dá)式如下:
目標(biāo)跟蹤成功率是成功跟蹤目標(biāo)的圖像幀數(shù)與系統(tǒng)所采集總視頻圖像幀數(shù)之比。反投影誤差低于所設(shè)置閾值的圖像即目標(biāo)跟蹤成功,設(shè)置反投影誤差門限為10 個(gè)像素,反投影誤差高于10 個(gè)像素時(shí),表示為目標(biāo)跟蹤失敗狀態(tài)。
選取處理視頻序列的平均幀率作為跟蹤速度的指標(biāo)。圍繞目標(biāo)檢測的精度、目標(biāo)跟蹤的成功率以及檢測跟蹤速度3 個(gè)方面,將本文提出的方法、融合YOLOv4-tiny 與Deepsort 方法、融合Yolov4 與Deepsort 方法、融合YOLOX 與Deepsort 方法進(jìn)行比較。
首先在紅外圖像測試集上選取不同數(shù)量的人員目標(biāo),使用以上四種算法進(jìn)行測試,結(jié)果如圖9所示。
圖9 不同跟蹤方法對紅外圖像人員目標(biāo)跟蹤結(jié)果
圖9 可見,在進(jìn)行測試的各部分圖像中,YoloV4網(wǎng)絡(luò)、YoloX 網(wǎng)絡(luò)和改進(jìn)的YoloV4-tiny網(wǎng)絡(luò)均能正確檢測出人員目標(biāo),原始的Yolov4-tiny網(wǎng)絡(luò)在第三幅圖中漏檢了一個(gè)目標(biāo),在準(zhǔn)確率相差較小的情況下,基于空洞卷積改進(jìn)的Yolov4-tiny網(wǎng)絡(luò)的幀率高出前兩個(gè)網(wǎng)絡(luò),說明改進(jìn)的YoloV4-tiny 網(wǎng)絡(luò)在針對實(shí)時(shí)的目標(biāo)檢測速度方面更具優(yōu)勢。表1給出了四種算法在紅外圖像測試集上跟蹤性能指標(biāo)。
根據(jù)表1 可知,YoloX+deepsort 在紅外測試集中檢測準(zhǔn)確率、跟蹤成功率最高,檢測時(shí)幀率最慢。改進(jìn)后的Yolov4-tiny+deepsort算法與原始Yolov4+deepsort 算法相比,檢測的準(zhǔn)確率和召回率分別下降了1.3%和0.8%,檢測精度下降不大,跟蹤成功率和平均幀率分別上漲了1.3%和23%,跟蹤速度大大提升。
本次研究充分利用了檢測算法準(zhǔn)確度高、跟蹤算法跟蹤效果出眾的特點(diǎn),設(shè)計(jì)了一類改良的目標(biāo)跟蹤方法,其很大程度上以空洞卷積為基礎(chǔ),并將輕量級Yolov4 與Deepsort 進(jìn)行銜接。除此之外,本文結(jié)合紅外圖像特征所表現(xiàn)出的特性進(jìn)行分析,根據(jù)預(yù)設(shè)目標(biāo)對Yolov4網(wǎng)絡(luò)展開優(yōu)化,最后利用檢測網(wǎng)絡(luò)對紅外視頻涵蓋的對象實(shí)現(xiàn)特征提取,給出目標(biāo)類型并確定目標(biāo)的檢測框;接著將檢測框中的目標(biāo)信息作為Deepsort 多目標(biāo)跟蹤算法的初始化信息,計(jì)算前后兩幀目標(biāo)之間的匹配程度,為每個(gè)對象分配ID,得到最終的識別結(jié)果。通過設(shè)計(jì)對比實(shí)驗(yàn)可知,本文探討的方法在各個(gè)方面都表現(xiàn)出明顯優(yōu)勢,比如其檢測精度符合要求,跟蹤成功率處于較高的水平,實(shí)時(shí)性均十分出眾,魯棒性也非常理想,可以將其用于解決夜晚追蹤困難、人力管控時(shí)效性差、管控內(nèi)容涵蓋多、現(xiàn)場巡檢監(jiān)督薄弱及投入人力成本高等問題。實(shí)現(xiàn)高效規(guī)范作業(yè)行為、節(jié)約人力資源、提高工作效能、為油田作業(yè)安全提供進(jìn)一步保障。