黃杰軍 呼 吁 周 斌 明德烈
(1.華中科技大學(xué)自動化學(xué)院 武漢 430074)(2.北京航天自動控制研究所 北京 100854)
可見光成像和紅外成像是目前最常用的兩種成像方式,它們不同的成像方式?jīng)Q定了它們對目標(biāo)具有不一樣的成像特性。充分利用和結(jié)合可見光、紅外成像的優(yōu)點(diǎn),揚(yáng)長避短,對提高自動目標(biāo)識別系統(tǒng)偵查能力具有重大意義。
與紅外相機(jī)相比,可見光相機(jī)成像分辨率高、目標(biāo)紋理信息豐富,成像尺寸也相對較大。然而,可見光的波長范圍是:0.38μm~0.78μm[1],當(dāng)探測環(huán)境出現(xiàn)大霧天氣或有煙霧彈等干擾時(shí),可見光成分被大幅甚至全部吸收。因此,僅憑可見光相機(jī)往往難以探測目標(biāo)。
相反,紅外成像具有不同的工作機(jī)理,它靠接受物體的紅外輻射而成像。紅外輻射,波長為0.78μm~1000μm。大氣、煙云等吸收可見光和近紅外線,但是對3μm~5μm和8μm~14μm的熱紅外線卻是透明的。利用這兩個(gè)“大氣窗口”[2~4],人們可以在完全無光的夜晚,或是在煙云密布的環(huán)境,清晰地觀察到前方的情況。但是,紅外相機(jī)成像分辨率較低,通常只能獲取目標(biāo)外輪廓,難以獲得目標(biāo)精細(xì)紋理信息,因此很難對目標(biāo)進(jìn)行細(xì)致的分析。
本文使用YOLO[5]來完成紅外、可見光目標(biāo)預(yù)測,并輸出目標(biāo)類型和后驗(yàn)概率,根據(jù)相機(jī)成像參數(shù)以及飛行器載體GPS航跡信息反算目標(biāo)地理位置,進(jìn)行進(jìn)一步的兩模目標(biāo)配對和決策級融合。本文所設(shè)計(jì)的紅外、可見光雙模目標(biāo)識別算法框架如圖1所示。
圖1 紅外、可見光雙模目標(biāo)識別算法框架
YOLO[5](You Only Look Once)實(shí)時(shí)目標(biāo)檢測算法由Joseph Redmon等于2016年5月提出。目標(biāo)檢測方法從 R-CNN[6]到 Fast R-CNN[7],再到 Faster R-CNN[8],四個(gè)基本步驟(候選區(qū)域生成,特征提取,分類,位置精修)被統(tǒng)一到一個(gè)深度網(wǎng)絡(luò)框架之內(nèi)。YOLO利用單一的卷積神經(jīng)網(wǎng)絡(luò),直接從像素到目標(biāo)包圍框和類概率輸出,實(shí)現(xiàn)了端到端的優(yōu)化,避免了冗長的處理流程。
YOLO將輸入圖像分為S×S的網(wǎng)格。每個(gè)包圍框包含5個(gè)預(yù)測值:x,y,w,h以及置信度,其中(x,y)是包圍框的中心坐標(biāo),(w,h)分別是包圍框的寬度和高度。置信度表示預(yù)測框與人工標(biāo)定的真實(shí)框的IOU(交集和并集的比值)。因此對于一幅圖像,神經(jīng)網(wǎng)絡(luò)共有S×S×(B×5+C)個(gè)輸出。YOLO使用一個(gè)卷積神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)上述的算法模型,該神經(jīng)網(wǎng)絡(luò)有24個(gè)卷積層以及2個(gè)全連接層。
為驗(yàn)證算法可行性,分別挑選了200張紅外和可見光某港口圖像序列作為樣本,并人工標(biāo)記出某個(gè)船舶目標(biāo)作為訓(xùn)練對象。
在測試階段,使用的紅外圖像尺寸為640*512,可見光圖像尺寸為2332*1752。YOLO算法進(jìn)入卷積層前會將圖像尺寸壓縮到448*448,紅外圖像原始尺寸與該尺寸相當(dāng),可以直接輸入到檢測器中。但可見光圖像尺寸與YOLO算法處理尺寸相去較遠(yuǎn),YOLO對小目標(biāo)的檢測與識別并不敏感。如果直接將原始可見光圖像輸入到檢測器中,在圖像壓縮過程中,較小目標(biāo)紋理信息會丟失,導(dǎo)致目標(biāo)難以檢測。本文提出將圖像交錯(cuò)分塊的方法,將原始圖像切割為四個(gè)小圖像來分別處理。如圖2所示,原始圖像W*H被分為ABCD四個(gè)部分,ABCD四個(gè)矩形框尺寸相同,矩形框大小計(jì)算公式如下:
其中x=A,B,C,D。h和w由目標(biāo)最大尺寸決定,設(shè)目標(biāo)在可見光圖像中的最大像素尺寸為Wm×Wm,則h和w的取值約束條件為
圖2 可見光圖像分塊處理示意圖
為了將紅外、可見光圖像中的目標(biāo)融合輸出,需要將兩模中的目標(biāo)進(jìn)行配對確認(rèn)是否為同一目標(biāo)。本文提出使用反算定位的方法,先根據(jù)飛行器GPS信息和相機(jī)參數(shù),分別反算出目標(biāo)的地理位置,然后利用紅外、可見光圖像目標(biāo)的地理位置進(jìn)行目標(biāo)配對,從而進(jìn)行融合。通過遍歷比較紅外圖像中目標(biāo)的位置與可見光圖像中目標(biāo)的位置,若兩者歐式距離小于一定值,認(rèn)為它們是同一個(gè)目標(biāo)。判斷準(zhǔn)則如下:
假定通過捕獲定位后,目標(biāo)在實(shí)時(shí)圖上的位置為(X2,Y2)。令ROW為實(shí)時(shí)圖行數(shù),COL為實(shí)時(shí)圖列數(shù),則實(shí)時(shí)圖中心的坐標(biāo)為(ROW/2,COL/2)。令?為縱向視場角,φ為橫向視場角,α為方位角,θ為俯仰角,h為視點(diǎn)P的高度。利用相機(jī)的內(nèi)部參數(shù)(相機(jī)張角、成像像素尺寸)、外部參數(shù)(相機(jī)空間位置、相機(jī)的光軸指向),通過三角關(guān)系可以結(jié)算出實(shí)時(shí)圖中心點(diǎn)的大地坐標(biāo):
其中(XM,YM)是實(shí)時(shí)圖中心點(diǎn)大地坐標(biāo),(X0,Y0)是觀測點(diǎn)(相機(jī)位置)大地坐標(biāo)。
反算定位的算法實(shí)現(xiàn)如下:
1)計(jì)算(X2,Y2)與光軸瞄準(zhǔn)點(diǎn)在大地坐標(biāo)系下沿進(jìn)入方向的偏移量(L1,L2)
(1)縱向距離L1
圖3 光軸瞄準(zhǔn)點(diǎn)T0與目標(biāo)在飛行方向縱軸上的投影M之間的位置關(guān)系圖
如圖3,令 MT0=L1,則
(2)橫向距離L2
圖4 光軸瞄準(zhǔn)點(diǎn)T0與目標(biāo)在飛行方向橫軸上的投影N之間的位置關(guān)系圖
如圖 4,令 T0N=L2,則
2)由 L1,L2計(jì)算在正北方向上的投影量dx2,dy2
圖5 正北方向與飛行方向示意圖
如圖 5,令 CD=L1,DE=L2,則 ∠EDG=α ,CF=dx2,F(xiàn)E=dy2,則
由于在大地坐標(biāo)系下,利用相機(jī)的內(nèi)部參數(shù),通過三角關(guān)系可以解算出實(shí)時(shí)圖中心點(diǎn)的大地坐標(biāo) (XM,YM),因此,由上述計(jì)算出的 dx2,dy2即可得到目標(biāo)在大地坐標(biāo)系中的位置(XT,YT)。
證據(jù)理論由Dempster于1967年提出,后由其學(xué)生Shafer進(jìn)行了完善,因此又稱Dempster-Shafer證據(jù)理論[9],簡稱為DS理論。在識別框架[10]Θ 中,設(shè)A表示Θ的任一子集,用m表示基本信任函數(shù),則m(A)是事件A的基本信任分配值,應(yīng)滿足以下條件:
其中,使得m(A)>0的A被稱作焦元。
根據(jù)Dempster-Shafer合成規(guī)則,識別框架Θ上的有限個(gè)mass函數(shù)[11]m1,m2,···,mn的合成規(guī)則為
其中K為歸一化常數(shù),
本文研究紅外、可見光目標(biāo)識別的兩模決策級融合問題,則mass函數(shù)個(gè)數(shù)為2,若只討論船舶目標(biāo)識別,則識別框架中有一個(gè)子集。
圖6 遠(yuǎn)景目標(biāo)識別實(shí)驗(yàn)
本文選取某港口船舶入港部分圖像序列進(jìn)行實(shí)驗(yàn),經(jīng)YOLO分類器進(jìn)行目標(biāo)識別,輸出目標(biāo)測外矩形框和后驗(yàn)概率。下面是部分實(shí)驗(yàn)結(jié)果。其中紅外圖像尺寸為640*512,可見光圖像尺寸為2332*1752。
表1 遠(yuǎn)景目標(biāo)識別DS證據(jù)理論融合
圖7 近景目標(biāo)識別實(shí)驗(yàn)
表2 近景目標(biāo)識別DS證據(jù)理論融合
本算法基于卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了紅外、可見光雙模目標(biāo)識別,并使用DS證據(jù)理論完成目標(biāo)識別概率的融合,揚(yáng)長避短,有效提高了系統(tǒng)綜合識別能力。本算法采用的卷積神經(jīng)網(wǎng)絡(luò)方法實(shí)現(xiàn)了端到端的目標(biāo)識別過程,只需要將數(shù)據(jù)增廣,再次訓(xùn)練,就可以應(yīng)用到新的場景中,具有適應(yīng)能力強(qiáng)、容易拓展等優(yōu)點(diǎn)。
[1]楊維,倪陶,黎昌金.可見光波長的另一種測量方法[J].內(nèi)江師范學(xué)院學(xué)報(bào),2013,28(8):35-37.YANG Wei,NI Tao,LI Changjin.Another Method for Mea?suring the Wavelength of Visible Light[J].Journal of Nei?jiang Normal University,2013,28(8):35-37.
[2]陳衡.常用紅外大氣窗口光譜通帶的平均透射率[J].激光與紅外,1979(1):3-5.Chen Heng.The Average Transmittance of Spectral Bands of Infrared Atmospheric Window[J].Laser&Infrared,1979(1):3-5.
[3]杜永成,楊立,孫豐瑞.細(xì)水霧在大氣窗口波段的光譜與譜帶輻射特性規(guī)律[J].紅外與激光工程,2014,43(4):1052-1056.DU Yongcheng,YANG Li,SUN Fengrui.Spectral And Spectral Characteristics of Water Mist in the Atmospheric Window Band[J].Infrared and Laser Engineering,2014,43(4):1052-1056.
[4]Zhao Bolin,Han Qingyuan,Zhu Yuanjing.A Study on Ab?sorption Characteristics of the Atmospheric Window in Mi?crowave Band[J].Advances in Atmospheric Sciences,1985,2(1):28-34.
[5]Redmon J,Divvala S,Girshick R,et al.You Only Look Once:Unified,Real-Time Object Detection[J].Comput?er Science,2016:779-788.
[6]Girshick R,Donahue J,Darrell T,et al.Rich Feature Hi?erarchies for Accurate Object Detection and Semantic Seg?mentation[J].2014:580-587.
[7]Girshick R.Fast R-CNN[C]//IEEE International Confer?ence on Computer Vision.IEEE,2015:1440-1448.
[8]Ren S,He K,Girshick R,et al.Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Net?works.[J].IEEE Transactions on Pattern Analysis&Ma?chine Intelligence,2016:1.
[9]Yager R R.On the Dempster-Shafer framework and new combination rules[J].Information Sciences,1987,41(2):93-137.
[10]Murphy C K.Combining belief functions when evidence conflicts[J].Decision Support Systems,2000,29(1):1-9.
[11]Yang Y,Han D,Han C.Discounted combination of un?reliable evidence using degree of disagreement[J].Inter?national Journal of Approximate Reasoning,2013,54(8):1197-1216.