孫劍明, 韓生權(quán), 沈子成, 吳金鵬
(哈爾濱商業(yè)大學(xué) 計(jì)算機(jī)與信息工程學(xué)院, 黑龍江 哈爾濱 150028)
近年來(lái),隨著人工智能技術(shù)的提高和互聯(lián)網(wǎng)時(shí)代的來(lái)臨,無(wú)人機(jī)(UAV)技術(shù)已經(jīng)慢慢進(jìn)入人們的生活,例如,軍事行動(dòng)、地質(zhì)勘察、搜索救援等。隨著無(wú)人機(jī)技術(shù)的不斷提升,無(wú)人機(jī)技術(shù)的應(yīng)用層面也將更加廣泛。對(duì)于無(wú)人機(jī)技術(shù)來(lái)說(shuō),人體姿態(tài)識(shí)別一直是研究熱點(diǎn)之一,計(jì)算機(jī)通過(guò)無(wú)人機(jī)遠(yuǎn)距離拍攝的圖片,識(shí)別人體姿態(tài)對(duì)人體的運(yùn)動(dòng)進(jìn)行分析,確定人的行為,必將對(duì)搜索救援等活動(dòng),帶來(lái)巨大的便利[1-3]。
人體姿態(tài)復(fù)雜多變,人們不斷的研究各種方法來(lái)識(shí)別人體姿態(tài)。目前,人體姿態(tài)識(shí)別的方法主要有兩種,一種是基于視覺(jué)的,就像人的眼睛看東西辨別是什么,通常通過(guò)人眼看到的物體的輪廓就可以估計(jì)出看到的是什么。Amir等進(jìn)行模型的建立時(shí),主要通過(guò)人體輪廓運(yùn)用非線性混合,構(gòu)建人體姿態(tài)圖,并利用隱馬爾科夫過(guò)程模型對(duì)人體姿態(tài)進(jìn)行了分類(lèi)識(shí)別[4]。而鄧甜甜等利用高斯混合背景建模和形態(tài)學(xué)方法建立人體姿態(tài)模型,穩(wěn)定性較好,但識(shí)別的過(guò)程比較繁瑣,而且實(shí)時(shí)性有待提高[5]。王玉坤等在人體姿態(tài)的識(shí)別上,采用基于擇近原則的模糊模式識(shí)別的方法,對(duì)人體姿態(tài)識(shí)別提供了一種新的有效的方法[6]。陳芙蓉等利用動(dòng)態(tài)時(shí)間規(guī)整算法高效穩(wěn)定的對(duì)人體姿態(tài)進(jìn)行識(shí)別[7]。周義凱等構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)(CNN)用于靜態(tài)的人體姿態(tài)識(shí)別的識(shí)別模型[8]。王巧真等用Mask RCNN(Region CNN)為基礎(chǔ)改進(jìn)區(qū)域建議網(wǎng)絡(luò)(RPN)錨框參數(shù)以及ROI Align層的特征選擇,利用改進(jìn)的Mask RCNN+MROI Aalign算法提取目標(biāo)輪廓特征,利用基于對(duì)應(yīng)點(diǎn)的輪廓比較算法對(duì)臥病的病人進(jìn)行姿態(tài)識(shí)別,該方法適用于特定場(chǎng)景[9]??紤]到無(wú)人機(jī)對(duì)姿態(tài)識(shí)別的實(shí)效性要求相對(duì)較高,上述方法并不能很好的完成。但基于視覺(jué)的人體姿態(tài)識(shí)別對(duì)識(shí)別的環(huán)境要求非常高。另一種是基于傳感器,在最近10年內(nèi),尤其是微軟公司的Kinect的推出,將利用傳感器識(shí)別人體姿態(tài)推到一個(gè)新的高度。蘇東利用一種基于多路徑梯度權(quán)重的動(dòng)態(tài)規(guī)劃的半全局匹配算法,將其用運(yùn)于雙目無(wú)人機(jī)上,已經(jīng)獲得很好的避障功能,但缺乏一種無(wú)人機(jī)目標(biāo)跟蹤功能[10]。彭欣然利用基于支持向量機(jī)與決策樹(shù)的多層人體姿態(tài)識(shí)別算法進(jìn)行構(gòu)建,考慮到無(wú)人機(jī)在空中的穩(wěn)定性,不能做到有效實(shí)時(shí)快速的識(shí)別[11]。林中豪等采用BM、SGBM匹配算法獲得深度圖,并通過(guò)與平行雙目相機(jī)構(gòu)建一個(gè)葡萄園機(jī)器人雙目測(cè)距系統(tǒng),通過(guò)試驗(yàn)測(cè)得葡萄枝葉到機(jī)器人間的距離,系統(tǒng)在 1 m 范圍內(nèi)較精確測(cè)得兩點(diǎn)間的實(shí)際距離,超出此范圍誤差會(huì)過(guò)大,不適用于無(wú)人機(jī)[12]。
當(dāng)下傳統(tǒng)二維圖像做模式識(shí)別還是有一定的局限性:即現(xiàn)實(shí)三維物體經(jīng)過(guò)二維投影后會(huì)損失大量必要信息。針對(duì)于這種局限性,參考陳偉海等發(fā)表的基于激光測(cè)距儀的景深圖像模式識(shí)別方法[13],為了在保證運(yùn)算效率及預(yù)測(cè)精度的同時(shí)盡可能的節(jié)省成本,采用了基于雙卷積鏈結(jié)合雙目視覺(jué)的模式識(shí)別方法。
針對(duì)現(xiàn)有用于無(wú)人機(jī)上人體姿態(tài)識(shí)別技術(shù)存在的問(wèn)題,本文對(duì)現(xiàn)有的人體姿態(tài)識(shí)別技術(shù)進(jìn)行了擴(kuò)展和優(yōu)化。主要貢獻(xiàn)在于:利用神經(jīng)網(wǎng)絡(luò),構(gòu)建模型,能有效地識(shí)別人體位置和類(lèi)別,并能比較準(zhǔn)確的測(cè)出將無(wú)人機(jī)與目標(biāo)位置的距離;提出一種基于雙卷積鏈的人體姿態(tài)識(shí)別算法,在測(cè)出無(wú)人機(jī)與目標(biāo)位置的距離的時(shí)間上大大縮減。
CNN和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)(NN)的區(qū)別就是相鄰神經(jīng)網(wǎng)絡(luò)層之間神經(jīng)節(jié)點(diǎn)的連接方式不同。后者采用全連接,而前者采用部分節(jié)點(diǎn)連接。前向傳播算法和反向傳播算法同樣適用于CNN。
一個(gè)CNN的結(jié)構(gòu)主要由以下3部分組成:
輸入層:整個(gè)神經(jīng)網(wǎng)絡(luò)的輸入由輸入層來(lái)完成,在處理圖像的CNN中,它通常表示圖像的像素矩陣。
卷積層:對(duì)上層輸入進(jìn)行卷積操作,獲得更加抽象的特征(如圖1所示)。
圖1 卷積核示意圖
池化層:在卷積特征上進(jìn)行池化采樣,進(jìn)一步縮小特征維度,從而減小整個(gè)網(wǎng)絡(luò)中參數(shù)數(shù)目。
CNN結(jié)構(gòu)中的輸入層已經(jīng)對(duì)原始圖像數(shù)據(jù)進(jìn)行了預(yù)處理,然后輸入卷積層。在卷積層中的每個(gè)神經(jīng)節(jié)點(diǎn)都看作一個(gè)濾波器(Filter),通過(guò)卷積步長(zhǎng)的設(shè)置來(lái)實(shí)現(xiàn)過(guò)濾器在圖像上進(jìn)行滑動(dòng),然后通過(guò)卷積計(jì)算得到新的圖像。也就是通過(guò)Filter來(lái)過(guò)濾圖像的各個(gè)小區(qū)域,以此來(lái)得到各個(gè)區(qū)域的特征值。卷積層中涉及到的名詞含義。深度就是卷積層有幾個(gè)神經(jīng)元。步長(zhǎng):就是濾波器每次在圖像上移動(dòng)的距離。全0填充為避免卷積計(jì)算得出的圖像越來(lái)越小,也為避免最左上角的圖像元素只被使用一次,就引入了全0填充操作,因?yàn)樗顢?shù)值為0,所以對(duì)結(jié)果并不會(huì)有改變,也避免了丟失像素信息。卷積層的前向傳播就是讓filter從當(dāng)前的神經(jīng)網(wǎng)絡(luò)層的左上角移動(dòng)至右下角,移動(dòng)的覆蓋范圍包含整個(gè)神經(jīng)網(wǎng)絡(luò)層,并計(jì)算得到每個(gè)單位矩陣的特征。
池化層可以理解為圖像的下采樣,或者上采樣,上采樣是增加圖像的參照值,從而獲得更多的圖片信息,類(lèi)似于放大圖片(像素和算法允許的情況下加或者減),下采樣是縮小圖像尺寸,有兩種忽略細(xì)微差距,提高訓(xùn)練速度與效率常用的池化處理:最大池化與均值池化[14]。
假設(shè)有一個(gè)3層神經(jīng)網(wǎng)絡(luò),第1層是輸入層,包含兩個(gè)神經(jīng)元i1、i2,和截距項(xiàng)b1;第2層是隱含層,包含兩個(gè)神經(jīng)元h1,h2和截距項(xiàng)b2,第3層是輸出o1、o2,每條線上標(biāo)的wi是層與層之間連接的權(quán)重,激活函數(shù)默認(rèn)為sigmoid函數(shù)。
其中,輸入數(shù)據(jù)i1、i2;輸出數(shù)據(jù)o1、o2;初始權(quán)重w1,w2,w3,w4;w5,w6,w7,w8。目標(biāo):給出輸入數(shù)據(jù)i1、i2,使輸出盡可能與原始輸出o1,o2接近。
第1步,前向傳播:
(1)輸入層→隱含層
計(jì)算神經(jīng)元h1的輸入加權(quán)和:
neth1=w1*i1+w2*i2+b1*1
(1)
神經(jīng)元h1的輸出o1:(此處用到激活函數(shù)為sigmoid函數(shù)):
(2)
同理,可計(jì)算出神經(jīng)元h2的輸出o2:outh2。
(2)隱含層→輸入層
計(jì)算輸出層神經(jīng)元o1和o2的值:
neto1=w5*outh1+w6*outh2+b2*1
(3)
(4)
同理,可以計(jì)算出outo1
第2步,反向傳播
(1)計(jì)算總誤差
總誤差(square error):
(5)
但是有兩個(gè)輸出,因此分別計(jì)算o1和o2的誤差,總誤差為二者之和:
(6)
(7)
Etotal=Eo1+Eo2
(8)
(2)隱含層→輸出層的權(quán)值更新
以權(quán)重參數(shù)w5為例,如果想知道w5對(duì)整體誤差產(chǎn)生的影響,則可以用整體誤差對(duì)w5求偏導(dǎo)求出(鏈?zhǔn)椒▌t):
(9)
最后更新w5的值(其中,η是學(xué)習(xí)速率):
(10)
同理,可更新w6,w7,w8。
(3)隱含層→隱含層的權(quán)值更新:
(11)
(12)
(13)
最后,更新w1的權(quán)值:
(14)
同理,額可更新w2、w3、w4的權(quán)值,這樣誤差反向傳播法就完成了,最后再把更新的權(quán)值重新計(jì)算,不停地迭代。
YOLOJoseph Redmon和Ali Farhadi等于2015年提出全新的目標(biāo)檢測(cè)系統(tǒng),是基于單個(gè)神經(jīng)網(wǎng)絡(luò)的[15]。在2017年CVPR上,Joseph Redmon和Ali Farhadi又在原有的YOLO-V1的基礎(chǔ)上進(jìn)行優(yōu)化,發(fā)表了YOLO-V2[16]。YOLO-V1在物體定位方面不夠準(zhǔn)確,且在檢測(cè)精度上不如R-CNN系檢測(cè)方法,并且召回率較低。而YOLO-V2改進(jìn)了這些方面,提升了原有的YOLO模型的定位準(zhǔn)確度和召回率,從而提高mAP,YOLO模型的一大優(yōu)勢(shì)就是保持檢測(cè)速度,這也是YOLO模型的一大優(yōu)勢(shì),當(dāng)然YOLO-V2在優(yōu)化過(guò)程也始終堅(jiān)持這一優(yōu)勢(shì)。YOLO-V2的改進(jìn)策略如圖2所示,可以看出,大部分的改進(jìn)方法都可以比較顯著提升模型的mAP。
圖2 YOLO-V2的改進(jìn)策略
本文利用雙攝像頭模擬人眼的定位以及測(cè)距分類(lèi)任務(wù),基于YOLO-V2算法來(lái)達(dá)到實(shí)時(shí)檢測(cè)。設(shè)計(jì)思路:
兩攝像頭上下平行放置,間距3~5 cm(實(shí)驗(yàn)采用5 cm),每一攝像頭單獨(dú)連接1個(gè)Darknet-53網(wǎng)絡(luò),將得出的兩套特征圖像在深度上進(jìn)行堆疊,輸入至RPN層,由RPN網(wǎng)絡(luò)得出3種結(jié)果:坐標(biāo)、距離、類(lèi)別,如圖3所示。
圖3 基于雙攝像頭雙卷積鏈的YOLO網(wǎng)絡(luò)結(jié)構(gòu)圖
本文在獲取數(shù)據(jù)集時(shí)有采用深度相機(jī)來(lái)提取目標(biāo)范圍的距離數(shù)據(jù),取得平均后即可作為標(biāo)簽供神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),然而后續(xù)預(yù)測(cè)則是使用雙目相機(jī)來(lái)預(yù)測(cè)深度相機(jī)的結(jié)果。設(shè)計(jì)思路如下:
兩攝像頭高度呈水平放置,相對(duì)角度成0.05~0.15°(場(chǎng)景檢測(cè)距離越大,則角度選擇應(yīng)越小),間距3~5 cm(本文實(shí)驗(yàn)采用3 cm),每一攝像頭單獨(dú)連接一個(gè)Darknet-53網(wǎng)絡(luò)(推薦攝像頭1的Darknet-53網(wǎng)絡(luò)的參數(shù)在其卷積深度上較攝像頭2中的深度少2/3左右,可提高本網(wǎng)絡(luò)的計(jì)算速度),將得出的兩套特征圖像在深度上進(jìn)行堆疊,輸入至RPN層,由RPN網(wǎng)絡(luò)得出想要的結(jié)果:坐標(biāo)、距離、類(lèi)別。
圖4為Region proposal networks設(shè)計(jì)細(xì)節(jié)[17]:
圖4 Region proposal networks論文中的引圖
雙目攝像頭的兩個(gè)圖像傳感器連接至兩個(gè)主干神經(jīng)網(wǎng)絡(luò)當(dāng)中,后經(jīng)過(guò)RPN層的通道整合得出類(lèi)別以及檢測(cè)目標(biāo)的坐標(biāo)。兩張圖像雖視野不同,但交給CNN進(jìn)行特征提取后會(huì)得到兩組Feature map,所謂的融合就是指將兩組feature map在通道上進(jìn)行堆疊即可,后交給RPN層來(lái)進(jìn)一步特征提取、尋找感興趣區(qū)域。
將堆疊后的Feature map交給RPN層后,通過(guò)卷積層來(lái)遍歷整張F(tuán)eature map來(lái)尋找置信度高的區(qū)域,并標(biāo)記錨點(diǎn)。嚴(yán)格意義上來(lái)講,RCNN之類(lèi)的目標(biāo)檢測(cè)模型為雙階段,而本文采用的YOLO屬于單階段,故僅有RPN就已足夠。
這一步可以理解為在三維坐標(biāo)系上,兩個(gè)相機(jī)在Z軸上為水平,但在X&Y軸上擁有夾角。兩個(gè)相機(jī)所采取到的圖像經(jīng)過(guò)卷積鏈特征提取后在特征圖的通道上進(jìn)行堆疊,交給RPN層來(lái)分析兩種特征圖所包含的目標(biāo)特征以及目標(biāo)偏移量,即可得到距離。
本文算法在此RPN層的基礎(chǔ)上額外添一1個(gè)全連接層(1*1卷積核,且不經(jīng)過(guò)Biase),最終輸出節(jié)點(diǎn)數(shù)量等同Anchor boxes的個(gè)數(shù),為1個(gè)組神經(jīng)元,即Metre(m)的[0,1]標(biāo)準(zhǔn)化形式,如圖5所示。
圖5 添加了距離識(shí)別的Region proposal networks
X、Y、W、H由Bounding Box進(jìn)行平移與縮放,最終得出目標(biāo)坐標(biāo),Classes由Softmax進(jìn)行回歸得出最終預(yù)測(cè)的類(lèi)別。Metre*10最終經(jīng)過(guò)Relu非線性激活函數(shù)得出距離,有效距離范圍為0~15 m。
Relu激活函數(shù)如圖6中紅色曲線所示。
圖6 Relu激活函數(shù)曲線
經(jīng)過(guò)Relu激活函數(shù)處理后,神經(jīng)網(wǎng)絡(luò)的反向傳播過(guò)程如下公式所示
(15)
(16)
損失計(jì)算:
坐標(biāo):均方誤差
距離:均方誤差
分類(lèi):交叉熵
(17)
式中:W為指特征圖的寬,H為特征圖的高;A為指先驗(yàn)框的數(shù)目;λ為每個(gè)loss部分的權(quán)重系數(shù)則是值。第1項(xiàng)loss是用來(lái)計(jì)算background的置信度誤差。第2項(xiàng)是計(jì)算先驗(yàn)框與預(yù)測(cè)寬的坐標(biāo)誤差,但是只在前12 800個(gè)iterations間計(jì)算。第3項(xiàng)計(jì)算與某個(gè)ground truth匹配的預(yù)測(cè)框各部分loss值,包括坐標(biāo)誤差、置信度誤差、距離誤差以及分類(lèi)誤差。第4項(xiàng)λmetre表示metre loss所占的權(quán)重,利用均方誤差計(jì)算最終的Loss并加入總體的Loss中。
無(wú)人機(jī)在搭載基本的雙目避障功能外,添加本論文的卷積模型,可做到飛行時(shí)自動(dòng)避障以及半自動(dòng)的目標(biāo)跟蹤。無(wú)人機(jī)可根據(jù)光流傳感器或氣壓傳感器得出機(jī)體所處的空間高度,根據(jù)勾股定理即可算出目標(biāo)與無(wú)人機(jī)的相對(duì)空間模型。采用文獻(xiàn)[9]與本文方法相結(jié)合,神經(jīng)網(wǎng)絡(luò)得出目標(biāo)框,在其目標(biāo)框中分別取出匹配算法與本文神經(jīng)網(wǎng)絡(luò)得出的距離參數(shù),按點(diǎn)對(duì)點(diǎn)的方式做歐式距離算法(為了提高運(yùn)算速度,可采用大小為2*2、步長(zhǎng)為2的滑窗方式去遍歷出每個(gè)區(qū)域中的平均值或最大值,類(lèi)似CNN中的池化層),同時(shí)在目標(biāo)框周?chē)?個(gè)像素點(diǎn)左右取出10個(gè)背景距離做平均(最小值)設(shè)為B,在目標(biāo)框內(nèi)部取出歐式距離最小的像素點(diǎn)的距離(最有可能為目標(biāo)的像素點(diǎn))設(shè)為V。
(18)
式中:M為YOLO中算出的距離;m(x,y)為文獻(xiàn)[9]中的距離。
在目標(biāo)框中得出的歐式距離上做softmax回歸,限制最大距離為V,最小距離為B。
即得出結(jié)果為目標(biāo)框中前景物體概率矩陣,采用閥值分割法,即概率大于0.5左右的像素點(diǎn)將被劃分至前景中,反之即是背景。
(19)
人體姿態(tài)的識(shí)別是在圖像中找到人體的位置,并進(jìn)行姿態(tài)類(lèi)別分類(lèi)。人體位置的5個(gè)指標(biāo)X、Y、W、H、Metre分別是橫軸坐標(biāo)、縱軸坐標(biāo)、寬度、高度、與攝像頭的相對(duì)距離(m)。本數(shù)據(jù)集中人體姿態(tài)分類(lèi)有站立、蹲坐、臥倒、行走、奔跑5種,如圖7所示。數(shù)據(jù)集中左攝像頭的數(shù)據(jù)為灰度圖像,即單色(見(jiàn)圖7(a1)、圖7(b1)),數(shù)據(jù)集中右攝像頭的數(shù)據(jù)為RGB三色(圖7:a2、b2)圖像。數(shù)據(jù)集共包含4 000張圖像,4∶1的形式劃分訓(xùn)練集與測(cè)試集。每對(duì)圖像至少包含1~10人。本文算法實(shí)現(xiàn)樣例如圖7(a3)、圖7(b3)所示。
圖7 數(shù)據(jù)集與本文算法結(jié)果樣例
最終使用Adam優(yōu)化函數(shù)進(jìn)行反向傳播。訓(xùn)練細(xì)節(jié)如下:使用ImageNet數(shù)據(jù)集對(duì)Darknet-53進(jìn)行預(yù)訓(xùn)練,迭代15 000輪,Batch size為64,基礎(chǔ)學(xué)習(xí)率為0.001,進(jìn)行指數(shù)衰減學(xué)習(xí),衰減率為0.999。后期對(duì)模型進(jìn)行拼接,直接訓(xùn)練整體網(wǎng)絡(luò)24 000輪,Batch size不變。
基于YOLO-V2的人體姿態(tài)識(shí)別精度結(jié)果如表1所示。
表1 單卷積鏈識(shí)別網(wǎng)絡(luò)的AP精度
基于雙卷積鏈下的YOLO-V2下的人體姿態(tài)識(shí)別精度結(jié)果如表2所示。
根據(jù)表1表2的數(shù)據(jù)不難得出,雙卷積鏈對(duì)目標(biāo)檢測(cè)的提升空間更大,識(shí)別精度更高。由于二維的圖像無(wú)法表示其深度,表1未給出距離識(shí)別精度。
表2 雙卷積鏈識(shí)別網(wǎng)絡(luò)的AP精度
實(shí)驗(yàn)結(jié)果如圖8所示,a為原圖,b為單卷積鏈YOLO-V2與視差算法結(jié)合檢測(cè)結(jié)果(從左至右分別為:走8.46、站7.72),實(shí)際距離應(yīng)為13M、10M,c為本文算法的計(jì)算結(jié)果(從左至右分別為:站12.38、站9.63),距離精度較視差檢測(cè)方式要精確很多,且分人體姿態(tài)分類(lèi)精度也要高很多。
圖8 單雙卷積鏈的實(shí)驗(yàn)比較
如圖9顯示了兩種雙目距離檢測(cè)法在不同距離上的精確度對(duì)比結(jié)果。圖10顯示了不同卷積方式下的數(shù)據(jù)集分類(lèi)精度情況。圖11顯示了單雙卷積鏈下不同距離上的目標(biāo)定位精度結(jié)果。圖12顯示了單雙卷積鏈下LOSS下降情況。圖13反映了雙通道神經(jīng)元整合層的權(quán)重分布情況。圖14展示了雙通道卷積神經(jīng)元整合層的偏置分布情況。圖15顯示了雙通道卷積神經(jīng)元整合層的神經(jīng)元激活情況。
圖9 兩種雙目距離檢測(cè)法在不同距離上的精確度對(duì)比
圖10 不同卷積方式下的數(shù)據(jù)集分類(lèi)精度情況
圖11 單雙卷積鏈下不同距離上的目標(biāo)定位精度
圖12 單雙卷積鏈下Loss下降情況
圖13 雙通道神經(jīng)元整合層的權(quán)重分布情況
圖14 雙通道卷積神經(jīng)元整合層的偏置分布情況
圖15 雙通道卷積神經(jīng)元整合層的神經(jīng)元激活情況
圖12展示了Loss下降趨勢(shì),從中可以看出本文方法在前期的收斂速度更快,且收斂曲線更加平滑。這是因?yàn)殡p卷積鏈所帶來(lái)的效果,雙卷積鏈在提取特征圖時(shí)往往更具有優(yōu)勢(shì),尤其是在高分辨率圖像中,雙卷積鏈可以有效地達(dá)到特征提取過(guò)長(zhǎng)中的分工作用。
從上述對(duì)比效果上可知本文方法具有明顯優(yōu)勢(shì)。
本文提出了基于雙卷積鏈的雙目遠(yuǎn)距離人體姿態(tài)識(shí)別算法,在原版YOLO-V2算法下,利用具有雙攝像頭的無(wú)人機(jī)來(lái)代替現(xiàn)在比較大眾的單攝像頭進(jìn)行圖像收集。所得主要結(jié)論如下:
1)本文算法在確保運(yùn)行效率的基礎(chǔ)上,有效預(yù)估與目標(biāo)的相對(duì)距離。
2)在測(cè)試階段,本文算法相較于單通道模型而言,人體姿態(tài)分類(lèi)精度得到了有效提高,較存在的算法提高了2.14%。
3)在速度方面,本文模型經(jīng)優(yōu)化后的單幀運(yùn)算速度足夠進(jìn)行實(shí)時(shí)預(yù)測(cè)。
本文算法相對(duì)于激光測(cè)距等硬件測(cè)距方法而言,硬件設(shè)備要求下限更低,且在15 m內(nèi)的實(shí)時(shí)檢測(cè)速度與精度依舊不弱于當(dāng)下主流的16線雷達(dá);還能有效用于無(wú)人機(jī)遠(yuǎn)距離識(shí)別人體姿態(tài)中,而且對(duì)于搜索救援,地質(zhì)勘探等活動(dòng)中定位人或物具有顯著的作用。對(duì)于開(kāi)發(fā)人員而言,降低了其功能實(shí)現(xiàn)的復(fù)雜性,使之像其他神經(jīng)網(wǎng)絡(luò)一樣應(yīng)用簡(jiǎn)便。