基于航拍圖像的人員實(shí)時(shí)搜尋機(jī)制與分析

2020-06-18 07:04:08梁永春田立勤朱洪根

華北科技學(xué)院學(xué)報(bào) 2020年2期

梁永春，田立勤，陳楠，朱洪根

(華北科技學(xué)院計(jì)算機(jī)學(xué)院，北京東燕郊 065201)

0 引言

在突發(fā)性自然災(zāi)害或旅游、探險(xiǎn)等活動(dòng)中，經(jīng)常發(fā)生人員失蹤或被困需要救助的情況。野外人員搜救過(guò)程中，判斷被困人員的位置通常是困難和耗時(shí)的一項(xiàng)工作。傳統(tǒng)人工尋找的方法，需要大量的人員參與，效率低下。隨著無(wú)人機(jī)技術(shù)的發(fā)展和成熟，依托它具有的成本低，方便靈活和可以在空中懸停的優(yōu)勢(shì)，通過(guò)無(wú)人機(jī)進(jìn)行被困人員的位置確定成為一種高效可行的方法。但是，只是通過(guò)肉眼觀看視頻，進(jìn)行人員的搜索和查找，容易受人的注意力、情緒和經(jīng)驗(yàn)等因素的干擾，影響搜索效果。當(dāng)前，由于神經(jīng)網(wǎng)絡(luò)算法在圖像特征提取和相似度比較方面的突出表現(xiàn)，通過(guò)計(jì)算機(jī)輔助，進(jìn)行被困人員的搜索和查找已經(jīng)成為可能。通過(guò)計(jì)算機(jī)視覺(jué)技術(shù)進(jìn)行航拍圖像中人的查找，將減少人主觀因素引起的干擾，提高搜索效率和準(zhǔn)確性，對(duì)提升突發(fā)事件應(yīng)急處置能力有一定的幫助?？墒牵捎诤脚钠髋c目標(biāo)間觀測(cè)角度和距離變動(dòng)的影響，使得航拍圖像中目標(biāo)外觀和大小變化較大。正是因?yàn)楹脚膱D像的特殊性和重要性，使它成為計(jì)算機(jī)視覺(jué)領(lǐng)域中圖像識(shí)別方向的難點(diǎn)和熱點(diǎn)[1-4]。

計(jì)算機(jī)視覺(jué)中的目標(biāo)檢測(cè)主要由兩個(gè)相反的操作部分組成：“目標(biāo)到模型”和“模型到目標(biāo)”。目標(biāo)到模型是訓(xùn)練階段，通過(guò)已經(jīng)標(biāo)注過(guò)包含識(shí)別目標(biāo)的圖像訓(xùn)練獲得含有這些目標(biāo)特點(diǎn)的模型；模型到目標(biāo)是檢測(cè)階段，通過(guò)訓(xùn)練好的模型在沒(méi)有標(biāo)注的圖像中檢測(cè)是否含有與模型特征相似的區(qū)域。這兩部分操作都包含圖像中目標(biāo)的特征提取，因此它也是圖像識(shí)別的基礎(chǔ)和計(jì)算機(jī)視覺(jué)領(lǐng)域核心問(wèn)題。早期主要通過(guò)人工建模和半自動(dòng)化的方式尋找和收集圖像特征。這些方法包括顏色直方圖、紋理特征圖、比例特征等。例如，可以從多個(gè)視覺(jué)特征、LBP(local binary pattern)和方向梯度直方圖(Histogram of Oriented Gradient,HOG)結(jié)合起來(lái)，實(shí)現(xiàn)航拍圖像數(shù)據(jù)的目標(biāo)檢測(cè)[5]。還有人提出先使用SIFT(Scale Invariant Feature Transform)檢測(cè)圖像，先確定圖像中特定背景區(qū)域，再通過(guò)支持向量機(jī)(SVM)分類檢測(cè)特定背景中的目標(biāo)[6]。隨著計(jì)算機(jī)硬件性能大幅提升和以區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Region-CNN)算法為代表的機(jī)器學(xué)習(xí)算法研究的深入，使得計(jì)算機(jī)視覺(jué)快速發(fā)展和應(yīng)用領(lǐng)域不斷拓寬。其中，與傳統(tǒng)人工建模的方式相比，運(yùn)用神經(jīng)網(wǎng)絡(luò)可以從原始圖像中自動(dòng)提取特征、分離目標(biāo)和背景[10-12]。這些方法雖然實(shí)現(xiàn)了目標(biāo)識(shí)別，但準(zhǔn)確性和實(shí)時(shí)性方面還有提升的空間。Redmon等人提出的YOLO(You Only Look Once)目標(biāo)檢測(cè)算法是通過(guò)深度卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)快速、準(zhǔn)確的通用目標(biāo)檢測(cè)算法[13]。

綜上，本文針對(duì)在野外環(huán)境中，無(wú)人機(jī)航拍圖像與目標(biāo)檢測(cè)技術(shù)結(jié)合進(jìn)行人員搜尋任務(wù)中，由于航拍器的觀測(cè)角度、拍照環(huán)境中光照強(qiáng)度的影響和被困人員的服裝顏色和姿勢(shì)的差異等原因，導(dǎo)致航拍圖像中的目標(biāo)檢測(cè)識(shí)別率不高，通過(guò)擴(kuò)充訓(xùn)練數(shù)據(jù)集和對(duì)YOLO 算法中的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的調(diào)整和參數(shù)的優(yōu)化，提高了航拍圖像中特定目標(biāo)的檢出率。

1 卷積神經(jīng)網(wǎng)絡(luò)與目標(biāo)檢測(cè)

YOLO 系列目標(biāo)檢測(cè)算法包括V1、V2、V9000和V3等版本，它們的網(wǎng)絡(luò)結(jié)構(gòu)是通過(guò)卷積層(Convolutional)獲得特征，池化層(Maxpool)融合特征，多層、多次迭代生成特征圖模型，見圖1。它們都可以在多框架下實(shí)現(xiàn)，包括Darknet[15]，caffe[16]和PyTorch[17]等。

在YOLO算法體系中，V3公開測(cè)試結(jié)果顯示在小目標(biāo)識(shí)別的速度和識(shí)別率方面都優(yōu)于其它算法。因此本文在V3算法的基礎(chǔ)上，結(jié)合其它算法，提高航拍圖片中目標(biāo)被正確識(shí)別的準(zhǔn)確率。支持YOLO目標(biāo)檢測(cè)的框架都提供了樣本圖片通過(guò)特定網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練后，獲得特征模型文件,進(jìn)行目標(biāo)檢測(cè)。視頻在這些框架中是將視頻拆分成幀圖片進(jìn)行識(shí)別。

YOLO系列目標(biāo)檢測(cè)算法都是將圖片整體讀入，分批次取成特定等分尺寸的S×S個(gè)小區(qū)域。根據(jù)不同的算法對(duì)這些小區(qū)域進(jìn)行特征提取，將具有相同或相似特征小區(qū)域進(jìn)行連接形成具有某些共性的大區(qū)域。這些區(qū)域中的某些特征與權(quán)重文件中的特征進(jìn)行比對(duì)，給出這兩種特征的相似度。通過(guò)這個(gè)相似度，判斷某區(qū)域中，存在特定物體的概率。最后選擇含有某待檢測(cè)物體最高概率的區(qū)域進(jìn)行矩形標(biāo)注，輸出識(shí)別結(jié)果，見圖1。

圖1 YOLO目標(biāo)檢測(cè)方法

圖2 訓(xùn)練樣本旋轉(zhuǎn)擴(kuò)充和標(biāo)注框生成

2 訓(xùn)練樣本數(shù)據(jù)集的擴(kuò)充

卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行目標(biāo)檢測(cè)，檢出率是由訓(xùn)練樣本和網(wǎng)絡(luò)模型結(jié)構(gòu)決定。航拍圖像有兩個(gè)突出的特點(diǎn)：觀測(cè)角度多變和目標(biāo)較小。第一個(gè)特點(diǎn)要求訓(xùn)練數(shù)據(jù)集要足夠的全，第二個(gè)特點(diǎn)要求設(shè)計(jì)的卷積網(wǎng)絡(luò)模型對(duì)圖像特征提取更加準(zhǔn)確全面。

樣本的數(shù)據(jù)規(guī)模和質(zhì)量都直接影響機(jī)器學(xué)習(xí)算法最終識(shí)別的正確性和準(zhǔn)確性，通過(guò)卷積神經(jīng)網(wǎng)絡(luò)算法進(jìn)行目標(biāo)檢測(cè)也具有這樣的特點(diǎn)。航拍圖像通常是從上向下拍攝，航拍器束縛較小，拍攝角度更加靈活，因此圖像的表現(xiàn)形式也更豐富，也給識(shí)別增加了難度。其中，拍攝視角靈活多變是造成航拍圖像識(shí)別率較低的主要原因。擴(kuò)大旋轉(zhuǎn)樣本的數(shù)量，是解決這一問(wèn)題直接有效的方法。但大量的符合要求的樣本收集是非常困難的。傳統(tǒng)的通過(guò)圖像特點(diǎn)半自動(dòng)的方式建立模型，進(jìn)行目標(biāo)識(shí)別雖然通用性方面落后于卷積神經(jīng)網(wǎng)絡(luò)，但應(yīng)用它進(jìn)行訓(xùn)練樣本的擴(kuò)充還是非常實(shí)用和高效的。在本實(shí)驗(yàn)自建的數(shù)據(jù)集中，部分照片中的識(shí)別對(duì)象比較分散，并且周圍背景也比較單一，這樣的圖片可以通過(guò)旋轉(zhuǎn)生成新的訓(xùn)練樣本。

圖像的自動(dòng)標(biāo)注，主要由前景提取、計(jì)算輪廓和計(jì)算標(biāo)識(shí)框三個(gè)主要部分組成。數(shù)字圖像是由像素點(diǎn)構(gòu)成，像素點(diǎn)可以看作由代表RGB三色的數(shù)字組成。前景提取就是根據(jù)數(shù)字圖像的特征實(shí)現(xiàn)特定數(shù)值范圍內(nèi)的像素點(diǎn)與其它像素點(diǎn)進(jìn)行分離。為了輪廓計(jì)算的準(zhǔn)確性和排除異常像素點(diǎn)的干擾，需要對(duì)圖像進(jìn)行二值處理，即圖中的前景為轉(zhuǎn)換為一色，其它部分轉(zhuǎn)換為另一種顏色。輪廓計(jì)算是通過(guò)圖像中的前景與背景交接處兩邊像素的數(shù)值有跳變這一特點(diǎn)計(jì)算獲得。標(biāo)注框的計(jì)算是計(jì)算輪廓中的點(diǎn)在橫坐標(biāo)與縱坐標(biāo)方向的最大和最小值。因?yàn)樵谶@一系列的圖像像素?cái)?shù)值計(jì)算過(guò)程中，圖片中的前景位置沒(méi)有改變，所以得到的標(biāo)注框就是識(shí)別目標(biāo)的標(biāo)識(shí)框。圖3展示了從航拍圖片選取的部分含有檢測(cè)目標(biāo)的圖片進(jìn)行旋轉(zhuǎn)與標(biāo)注的過(guò)程。數(shù)字圖像可以看成矩陣數(shù)據(jù)，因此旋轉(zhuǎn)與矩陣變換綜合應(yīng)用對(duì)訓(xùn)練數(shù)據(jù)集擴(kuò)充效果會(huì)更好。

圖3 SR-YOLO 網(wǎng)絡(luò)超清部分的網(wǎng)絡(luò)結(jié)構(gòu)

對(duì)于人的目標(biāo)識(shí)別，通過(guò)旋轉(zhuǎn)進(jìn)行樣本集擴(kuò)充時(shí)不能違背人類活動(dòng)的特點(diǎn)。通過(guò)對(duì)航拍圖像中人各種姿勢(shì)和生活經(jīng)驗(yàn)的總結(jié)，臥姿時(shí)因?yàn)槿梭w和地面近似平行，所以可以360°旋轉(zhuǎn)，但其它姿勢(shì)人體大多與地面垂直，因此攝像機(jī)的拍攝角約等于90°時(shí)才有實(shí)際意義。

3 SR-YOLO網(wǎng)絡(luò)結(jié)構(gòu)

通常航拍成像設(shè)備離目標(biāo)較遠(yuǎn)，造成目標(biāo)較小，通過(guò)傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)提取到的特征信息也較少，降低了目標(biāo)被檢測(cè)到的可能性。因此，提高航拍圖像中目標(biāo)物體的檢出率，可以通過(guò)增加卷積神經(jīng)網(wǎng)絡(luò)提取到的特征信息實(shí)現(xiàn)。其中，圖像的超分辨率就是其中有效方法。本文提出的SR-YOLO(Super-Resolution You Only Look One)算法，將圖像先進(jìn)行超分辨率在進(jìn)行目標(biāo)檢測(cè)。

3.1 圖像的清晰度增強(qiáng)處理

圖像的超分辨率可以看成由低像素矩陣向高像素矩陣的函數(shù)對(duì)映問(wèn)題，因?yàn)樯窠?jīng)網(wǎng)絡(luò)在數(shù)據(jù)擬合方面有著非常優(yōu)異的表現(xiàn)，所以可以由神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)從低清晰度圖像數(shù)據(jù)向高清晰度圖像數(shù)據(jù)的對(duì)應(yīng)。圖像清晰化加強(qiáng)的建模訓(xùn)練時(shí)需要將生成的超清圖片與輸入圖片對(duì)應(yīng)的清晰度較高圖片進(jìn)行相似對(duì)比。本文判斷兩個(gè)圖片的相似性應(yīng)用結(jié)構(gòu)相似法。

(1)

圖像清晰度加強(qiáng)部分的網(wǎng)絡(luò)結(jié)構(gòu)主要功能包括特征提取、上采樣、特征融合、殘差修正和圖像輸出，網(wǎng)絡(luò)框架如圖4所示。Conv是卷積層，功能是特征提??；ReLu是激活函數(shù)，見公式(2)，小于0的值被設(shè)為0，其它值保持不變。Dropout層是為了防止過(guò)擬合，隨機(jī)對(duì)部分神經(jīng)元進(jìn)行刪除。 Up-Sampling層進(jìn)行上采樣，即按當(dāng)前的數(shù)據(jù)的結(jié)構(gòu)特征進(jìn)行數(shù)據(jù)擴(kuò)充。Merge層是融合層，將上采樣數(shù)據(jù)加入原數(shù)據(jù)特點(diǎn)。Residual Learning是殘差層，防止多層神經(jīng)網(wǎng)絡(luò)性能的衰退，進(jìn)行的計(jì)算方式的轉(zhuǎn)換。

ReLu(x)=max(0,x)

(2)

圖4 殘差塊

3.2 SP-YOLO算法的目標(biāo)檢測(cè)部分

SR-YOLO目標(biāo)檢測(cè)部分輸入圖像大小為608×608，此數(shù)值越大每次讀取的像素點(diǎn)越多對(duì)訓(xùn)練和識(shí)別越有利，但它受到顯存和其它硬件性能的制約，在工程實(shí)踐中通常需要根據(jù)具體情況進(jìn)行調(diào)整。在一定范圍內(nèi)更深的網(wǎng)絡(luò)結(jié)構(gòu)可以提升檢測(cè)效果，但隨著網(wǎng)絡(luò)層數(shù)的增加，效率也會(huì)隨之下降，同時(shí)，帶來(lái)的還有訓(xùn)練困難。為了網(wǎng)絡(luò)更好的收斂，通常在網(wǎng)絡(luò)結(jié)構(gòu)中加入批量歸一化層(Batch Normalization，BN)[18]和殘差層[19]。

在通過(guò)梯度下降思想訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型過(guò)程中，傳統(tǒng)的模型訓(xùn)練過(guò)程是將每層的卷積得到的特征結(jié)果直接提供給下一網(wǎng)絡(luò)運(yùn)算層，可是每次卷積的結(jié)果差異可能非常大，造成收斂速度慢。根據(jù)中心極限定理[20]的思想，卷積運(yùn)算得到的特征總體分布符合正態(tài)分布。在YOLO 算法中BN 層實(shí)現(xiàn)將正態(tài)分布的特性引入到卷積神經(jīng)網(wǎng)絡(luò)中，加速模型收斂。式(3)和式(4)中，γ為縮放因子，xconv為卷積層，μ為一組圖片卷積特征值的平均值，σ為一組圖片卷積特征值的方差，Δ為標(biāo)準(zhǔn)方差的微調(diào)(通常為10-6)，β為偏置值。式(3)是BN層數(shù)學(xué)表達(dá)式，式(4)為普通正態(tài)分布轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布的公式。對(duì)比這兩個(gè)公式可以發(fā)現(xiàn)，BN層的作用是實(shí)現(xiàn)卷積層提取到的特征轉(zhuǎn)化成標(biāo)準(zhǔn)正態(tài)分布。當(dāng)卷積提取到的圖像特征轉(zhuǎn)化成近似符合標(biāo)準(zhǔn)正態(tài)分布，實(shí)現(xiàn)數(shù)據(jù)的中心化和標(biāo)準(zhǔn)化，更有助于激活函數(shù)對(duì)其特征的處理，減小梯度消失或梯度爆炸發(fā)生的可能性。同時(shí)，一批數(shù)據(jù)的均值和方差并不能代表全體數(shù)據(jù)的均值和方差，如果BN層嚴(yán)格按照公式(4)對(duì)卷積提取到的特征進(jìn)行中心化和標(biāo)準(zhǔn)化將會(huì)消除真實(shí)分布的差異性，增加發(fā)生過(guò)擬合的風(fēng)險(xiǎn)。因此，在公式(3)中通過(guò)設(shè)置γ，β和Δ 參數(shù)，實(shí)現(xiàn)總體近似服從標(biāo)準(zhǔn)正態(tài)分布，但并不嚴(yán)格。

(3)

(4)

隨著神經(jīng)網(wǎng)絡(luò)層數(shù)的增多，梯度消失越明顯，而且某些隱藏層可能存在恒等映射，導(dǎo)致擬合效果不斷降低。這里引入殘差的概念，如圖4所示，將原始輸入x不做任何改變和輸出H(x)進(jìn)行相加處理，即H(x)=F(x)+x，其中x表示輸入，H(x)表示輸出，F(xiàn)(x)表示通過(guò)神經(jīng)網(wǎng)絡(luò)去擬合輸入與輸出之間的殘差。引入殘差后網(wǎng)絡(luò)產(chǎn)生了短連接(淺層網(wǎng)絡(luò))，網(wǎng)絡(luò)中數(shù)據(jù)的正向傳遞路徑更多樣和網(wǎng)絡(luò)參數(shù)的反向傳遞優(yōu)化能力更強(qiáng)。

通過(guò)上述討論可以發(fā)現(xiàn)，BN層通過(guò)將卷積后的特征轉(zhuǎn)換成標(biāo)準(zhǔn)正態(tài)分布，實(shí)現(xiàn)抑制損失函數(shù)值大幅波動(dòng),但這樣的方法對(duì)提取到的特征是有損失的.在小目標(biāo)檢測(cè)的任務(wù)中，損失的特征將給目標(biāo)的識(shí)別率帶來(lái)較大負(fù)面影響。因此，在SR-YOLO網(wǎng)絡(luò)結(jié)構(gòu)中，增加殘差塊的使用減少BN層的使用。

在目標(biāo)檢測(cè)訓(xùn)練階段，損失函數(shù)幫助實(shí)現(xiàn)目標(biāo)和非目標(biāo)相互分離。在航拍圖片“人”的識(shí)別中，選擇通過(guò)誤差損失的平方和為基礎(chǔ)實(shí)現(xiàn)目標(biāo)特有特征的提取。

(5)

(6)

4 實(shí)驗(yàn)過(guò)程和實(shí)驗(yàn)結(jié)果分析

4.1 實(shí)驗(yàn)過(guò)程

(1) 試驗(yàn)設(shè)備與檢測(cè)系統(tǒng)搭建

本實(shí)驗(yàn)前期模型訓(xùn)練和目標(biāo)檢測(cè)都是針對(duì) RGB圖像數(shù)據(jù)[21]，即算法處理的是圖片對(duì)應(yīng)的矩陣。但是圖像矩陣規(guī)模非常巨大，CPU緩存很小，如果用CPU進(jìn)行這樣的計(jì)算需要不斷從內(nèi)存讀入數(shù)據(jù)和將計(jì)算的中間結(jié)果保存到內(nèi)存，大量的時(shí)間被消耗在CPU對(duì)內(nèi)存的訪問(wèn)。因此，目前針對(duì)這樣大規(guī)模矩陣類數(shù)據(jù)的計(jì)算常通過(guò)顯卡(GPU)進(jìn)行。本實(shí)驗(yàn)，也選擇是在Ubuntu18.04系統(tǒng)配置GPU版的PyTorch神經(jīng)網(wǎng)絡(luò)框架，進(jìn)行模型的訓(xùn)練和檢測(cè)，選擇的顯卡處理芯片是NVIDIA品牌Tesla P40，顯存24G。

(2) 試驗(yàn)構(gòu)建

在本論文目標(biāo)檢測(cè)模型的選擇上采取相關(guān)因素比較法，檢測(cè)結(jié)果與訓(xùn)練階段使用數(shù)據(jù)集相關(guān)。由于公開的數(shù)據(jù)集較少有航拍圖片針對(duì)“人”作為檢測(cè)目標(biāo)的訓(xùn)練圖庫(kù)。本實(shí)驗(yàn)，采取將多段航拍視頻拆分成幀圖片，并從中挑選部分作為訓(xùn)練樣本。如果只應(yīng)用這些樣本進(jìn)行模型訓(xùn)練，數(shù)據(jù)量是不夠的，容易產(chǎn)生過(guò)擬合現(xiàn)象。本實(shí)驗(yàn)采取分步訓(xùn)練的方式解決這個(gè)問(wèn)題。先通過(guò)ImageNet圖片庫(kù)進(jìn)行訓(xùn)練[22]，得到第一步的訓(xùn)練模型。雖然不同的觀測(cè)角度會(huì)產(chǎn)生不同的物體外形特點(diǎn)，但同類目標(biāo)不同的觀測(cè)角度也有很多相似的特點(diǎn)。ImageNet圖片數(shù)據(jù)量巨大可以較為全面的獲取人的各種外形特征。第二步訓(xùn)練在自己標(biāo)注的數(shù)據(jù)集和通過(guò)旋轉(zhuǎn)生成的數(shù)據(jù)集上進(jìn)行，目的是通過(guò)航拍圖片數(shù)據(jù)，對(duì)第一步訓(xùn)練的模型加入更多航拍圖片特征，提高在航拍場(chǎng)景中的識(shí)別率。

實(shí)驗(yàn)?zāi)康氖球?yàn)證通過(guò)航拍圖片進(jìn)行人的識(shí)別，訓(xùn)練樣本選擇戶外地形復(fù)雜的地區(qū)。華山因其險(xiǎn)而聞名全國(guó)，選擇它作為本實(shí)驗(yàn)的樣本數(shù)據(jù)是有代表性的。但是，由于華山旅游視頻是冬天拍攝，游客穿深色衣服較多，訓(xùn)練樣本特征不夠多樣，將會(huì)影響訓(xùn)練模型對(duì)不同衣著顏色的人識(shí)別率差異增大。為了增加樣本的多樣性，又在樣本中增加了夏季貴州德江大龍阡景區(qū)旅游視頻。這個(gè)數(shù)據(jù)樣本的特點(diǎn)是人們服裝顏色更多樣，增加水面為背景的樣本。樣本標(biāo)注在Ubuntu系統(tǒng)下采用標(biāo)注工具labelImg軟件。所有樣本數(shù)據(jù)，按照訓(xùn)練樣本占80%，驗(yàn)證驗(yàn)證樣本占20%進(jìn)行隨機(jī)選擇。

4.2 實(shí)驗(yàn)結(jié)果分析

根據(jù)卷積神經(jīng)網(wǎng)絡(luò)的特點(diǎn)，訓(xùn)練集的擴(kuò)充和網(wǎng)絡(luò)結(jié)構(gòu)的調(diào)整都會(huì)改變目標(biāo)檢測(cè)的效果。圖5說(shuō)明的是通過(guò)訓(xùn)練集圖片進(jìn)行有選擇的旋轉(zhuǎn)數(shù)據(jù)擴(kuò)充對(duì)目標(biāo)識(shí)別效果的影響，圖中是學(xué)生在操場(chǎng)擺拍——學(xué)生在操場(chǎng)上圍成圓圈，人為創(chuàng)造一種航拍圖像下目標(biāo)可以多角度任意旋轉(zhuǎn)變換。

圖5 不同訓(xùn)練集獲得的模型目標(biāo)檢測(cè)結(jié)果對(duì)比

損失函數(shù)值的變化是對(duì)訓(xùn)練過(guò)程間接評(píng)價(jià)，訓(xùn)練得到的模型評(píng)價(jià)，通常由目標(biāo)檢測(cè)結(jié)果圖直觀展現(xiàn)。從識(shí)別結(jié)果可以看出，訓(xùn)練數(shù)據(jù)集中加入對(duì)已有部分樣本的旋轉(zhuǎn)擴(kuò)充數(shù)據(jù)，可以解決航拍視角下由拍攝角度多變和識(shí)別目標(biāo)人的姿態(tài)變化帶來(lái)的識(shí)別困難。圖6 是原YOLO算法與SR-YOLO在真實(shí)場(chǎng)景中人的識(shí)別對(duì)比。由于拍攝距離的影響，目標(biāo)(人)在航拍圖像中通常比較小，小目標(biāo)提供的特征信息也較少增加目標(biāo)檢測(cè)的難度。圖6 (a)是航拍直接獲得的圖片，圖6(b)為原圖在YOLO下的識(shí)別結(jié)果，圖6(c)為原圖經(jīng)過(guò)SR-YOLO超分辨率處理后的中間效果，圖6(d)為航拍圖在SR-YOLO下識(shí)別結(jié)果。實(shí)驗(yàn)結(jié)果顯示，圖6(c)只檢測(cè)到一個(gè)目標(biāo)；圖6(d)檢測(cè)到4個(gè)目標(biāo)。表1是SR-YOLO與YOLO v3目標(biāo)檢測(cè)性能對(duì)比數(shù)據(jù)，通過(guò)數(shù)據(jù)可以看出SR-YOLO目標(biāo)檢測(cè)算法對(duì)小目標(biāo)人的正確識(shí)別的性能相比YOLO 有提升。

圖6 SR-YOLO 與 YOLO 目標(biāo)檢測(cè)結(jié)果對(duì)比

表1 性能指標(biāo)對(duì)照表

5 結(jié)論

(1) 將目標(biāo)檢測(cè)引入到戶外環(huán)境下基于航拍圖像的人員搜尋任務(wù)中，發(fā)現(xiàn)與傳統(tǒng)的目標(biāo)檢測(cè)任務(wù)相比航拍圖像由于拍攝距離較遠(yuǎn)和拍攝角度多變，造成航拍圖像中的目標(biāo)較小，目標(biāo)外形變化較大，影響目標(biāo)的檢出率。

(2) 針對(duì)被檢測(cè)目標(biāo)人在航拍圖像中姿態(tài)多變，提出通過(guò)傳統(tǒng)數(shù)字圖像處理方法進(jìn)行照片旋轉(zhuǎn)、前景目標(biāo)分割、圖像二值化、輪廓計(jì)算和標(biāo)識(shí)框獲取的流程對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行擴(kuò)充。實(shí)驗(yàn)數(shù)據(jù)表明經(jīng)過(guò)旋轉(zhuǎn)擴(kuò)充后訓(xùn)練得到的識(shí)別模型對(duì)航拍圖像中人的姿勢(shì)多變識(shí)別效果更好。

(3) 針對(duì)航拍圖像中目標(biāo)小，不利于卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取，提出在原有YOLOL算法的基礎(chǔ)上加入超分辨率處理部分形成SR-YOLO算法，此算法通過(guò)對(duì)卷積獲得的特征進(jìn)行上采樣補(bǔ)充部分特征實(shí)現(xiàn)提升小目標(biāo)的檢出率。