閆洪猛
(德州職業(yè)技術(shù)學(xué)院,山東德州 253034)
人機(jī)交互系統(tǒng)是人工智能技術(shù)下的重要分支,近年來無人機(jī)技術(shù)的不斷進(jìn)步使得人機(jī)交互系統(tǒng)受到了廣泛關(guān)注,越來越多的人機(jī)交互方案相繼提出。傳統(tǒng)的無人機(jī)操控模式包含遙控器或搖桿以及地面站設(shè)備儀器等,對(duì)操作者的技術(shù)要求較高,在無人機(jī)的交互與控制方面具有較高的門檻,對(duì)無人機(jī)技術(shù)的推廣有不利影響。近年來新型無人機(jī)控制模式被提出,只需要穿戴特殊的輔助設(shè)備便能實(shí)現(xiàn)便利的無人機(jī)控制,如基于視覺的無人機(jī)控制方法便獲得了廣闊的發(fā)展空間。但因?yàn)閭鞲衅鱾鬏斁嚯x限制,系統(tǒng)需要領(lǐng)航員RGB-D 傳感器保持一定距離之內(nèi),室外運(yùn)行受到此機(jī)制約束。為了進(jìn)一步拓展人機(jī)交互的功能性,克服現(xiàn)有的系統(tǒng)缺陷,通過深度學(xué)習(xí)分析手勢(shì)動(dòng)作,實(shí)現(xiàn)在室外進(jìn)行應(yīng)用,并且在響應(yīng)效率上有了進(jìn)一步提高。
本文所述的無人機(jī)人機(jī)交互系統(tǒng),在動(dòng)作識(shí)別功能方面具有3 個(gè)結(jié)構(gòu):①視覺中對(duì)于操作人員的辨識(shí)和跟蹤,在圖像獲取方面,跟蹤的結(jié)果提取將操作者作為中心,對(duì)包含操作者的所在位置進(jìn)行立體匹配,并生成深度圖;②結(jié)合深度視頻序列,形成包括操作者人物動(dòng)作特點(diǎn)和時(shí)間特點(diǎn)的彩色紋理圖;③通過卷積神經(jīng)網(wǎng)絡(luò),在嵌入式開發(fā)板中實(shí)現(xiàn)人物動(dòng)作的識(shí)別。
為了實(shí)現(xiàn)無人機(jī)手勢(shì)控制系統(tǒng)在戶外的應(yīng)用,在系統(tǒng)啟用設(shè)計(jì)方面,結(jié)合回傳視頻明確操作者的位置信息,結(jié)合位置信息利用快速視覺跟蹤算法來持續(xù)跟蹤操作者。結(jié)合跟蹤位置在雙目攝像機(jī)獲取的視頻序列,從中裁剪出一個(gè)只有人物內(nèi)容的視頻,按照裁剪的視頻經(jīng)過立體匹配算法形成深度圖。在系統(tǒng)啟動(dòng)階段結(jié)合攝像機(jī)顯示內(nèi)容,在地面站利用鼠標(biāo)點(diǎn)擊的方式將操作者面部范圍設(shè)定為跟蹤區(qū)域。跟蹤期間按照跟蹤位置,在高分辨率的視頻中裁剪一個(gè)小范圍視頻,經(jīng)過視頻預(yù)處理和視頻壓縮,不僅能解決相機(jī)漂移問題、清除操作者附近的其他外部影響因素,同時(shí)也降低了視頻運(yùn)算量,提高響應(yīng)效率。按照裁剪獲得的兩個(gè)圖像計(jì)算深度圖,可以選擇基于塊匹配的立體匹配算法,在匹配期間操作者會(huì)和地面深度信息差縮小,若地面深度信息抽取穩(wěn)定性不足,地面深度信息通常會(huì)影響到深度圖中的人物提??;可以設(shè)計(jì)紋理匹配閾值,將地面細(xì)微紋理過濾掉,得到一幅較為干凈完整的人物動(dòng)作畫面。
在獲取雙目深度圖之后,根據(jù)特征描述方法嘗試改進(jìn)深度圖,運(yùn)用彩色信息描述時(shí)間信息,將空間信息在同一張圖中疊加顯示。以雙目深度圖作為基準(zhǔn),視頻序列中的動(dòng)作空間信息與時(shí)間信息都在一張圖片中投射,生成彩色紋理圖。視頻序列中臨近的兩幀深度圖差分出的運(yùn)動(dòng)空間特征,都結(jié)合運(yùn)動(dòng)時(shí)間特點(diǎn)具有不同顏色,而且可以疊加,形成包括運(yùn)動(dòng)時(shí)間特征和空間特征的彩色紋理圖。再對(duì)圖片上的像素位置進(jìn)行操作處理,使視頻序列能夠壓縮為一張色彩較為飽滿的彩色紋理圖,以像素點(diǎn)值的空間位置描述動(dòng)作序列的空間特征,像素點(diǎn)相對(duì)的顏色值便是動(dòng)作序列的時(shí)間特征。
雖然卷積神經(jīng)網(wǎng)絡(luò)可以自動(dòng)提取圖片特征進(jìn)行分類處理,但分類功能過于完善導(dǎo)致在訓(xùn)練數(shù)據(jù)不充足的情況下出現(xiàn)過擬合的問題。為了改善這一問題,可以選擇旋轉(zhuǎn)圖片的方式拓展訓(xùn)練數(shù)據(jù)集,緩解過擬合現(xiàn)象。訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)在ImageNet 數(shù)據(jù)集中獲得顯著成績(jī)的AlexNet 網(wǎng)絡(luò)結(jié)構(gòu),這一網(wǎng)絡(luò)結(jié)構(gòu)通過5個(gè)卷積層以及3 個(gè)全鏈接層形成。后一卷積層的核與前一層中的全部核映射相連,全鏈接層的神經(jīng)元鏈接到前一層的所有神經(jīng)元中,響應(yīng)歸一化層和第1、2 卷積層之后。最大池化層與在響應(yīng)歸一化層和第5 個(gè)卷積層后,ReLU 非線性在所有卷積層和全鏈接層的輸出中應(yīng)用。這一網(wǎng)絡(luò)結(jié)構(gòu)讓多分類Logistic 回歸目標(biāo)最大化,能夠最大化預(yù)測(cè)分布下訓(xùn)練樣本中正確標(biāo)簽的對(duì)數(shù)概率均值。為保證卷積網(wǎng)絡(luò)的結(jié)果正確,AlexNet 網(wǎng)絡(luò)結(jié)構(gòu)在ImageNet 中完成訓(xùn)練的模型可以用作初始網(wǎng)絡(luò)參數(shù),網(wǎng)絡(luò)中各層權(quán)重利用梯度下降法進(jìn)行計(jì)算,其中的參數(shù)一般會(huì)使迭代次數(shù)和學(xué)習(xí)率產(chǎn)生變化,網(wǎng)絡(luò)一次迭代使用250 余張圖片,按照訓(xùn)練數(shù)據(jù)集的具體情況進(jìn)行訓(xùn)練循環(huán)。
通過深度學(xué)習(xí)來分類數(shù)據(jù)信息,這種方法需要明確很多位置的具體參數(shù),也要通過神經(jīng)網(wǎng)絡(luò)針對(duì)不同類型的數(shù)據(jù)信息進(jìn)行預(yù)先的學(xué)習(xí)過程。建立完善樣本數(shù)據(jù)集來實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,確保神經(jīng)網(wǎng)絡(luò)能夠獲得全面可靠的參數(shù)。為了達(dá)到預(yù)定的訓(xùn)練網(wǎng)絡(luò)目標(biāo),還要通過其他的分類數(shù)據(jù)實(shí)現(xiàn)所獲網(wǎng)絡(luò)參數(shù)的可靠性驗(yàn)證,以下便為數(shù)據(jù)集的構(gòu)建過程。
神經(jīng)網(wǎng)絡(luò)參數(shù)通常根據(jù)所用訓(xùn)練的數(shù)據(jù)集決定,訓(xùn)練結(jié)果的質(zhì)量水平也直接取決于數(shù)據(jù)集:①樣本越大的數(shù)據(jù)集效果越好,但若數(shù)據(jù)集過大則可能對(duì)訓(xùn)練的過程及其結(jié)果帶來不利影響,所以數(shù)據(jù)集的構(gòu)建需要明確合理的數(shù)據(jù)量,這是基本環(huán)節(jié);②用作訓(xùn)練的數(shù)據(jù)集需要盡量包括正確動(dòng)作的不同狀況,在各種光照和外部背景環(huán)境的條件下進(jìn)行采集;③用作訓(xùn)練的數(shù)據(jù)集要實(shí)現(xiàn)數(shù)據(jù)集中各類圖片的統(tǒng)一性,圖片內(nèi)容分類不能混亂。
無人機(jī)所獲得到的畫面信息與靜態(tài)相機(jī)能夠拍到的畫面對(duì)比可能會(huì)出現(xiàn)相機(jī)飄移,所以在系統(tǒng)設(shè)計(jì)方面,神經(jīng)網(wǎng)絡(luò)算法需要具備較強(qiáng)的適應(yīng)能力:選擇雙目攝像機(jī)和無人機(jī),在多種背景和光照條件下建立數(shù)據(jù)集;設(shè)計(jì)自控?zé)o人機(jī)的多種動(dòng)作。無人機(jī)的實(shí)際應(yīng)用會(huì)遇到環(huán)境光照不一致等問題,應(yīng)用環(huán)境通常比正常環(huán)境所知的數(shù)據(jù)集更具不確定性,為了規(guī)避誤差、誤判,在動(dòng)作設(shè)計(jì)方面需要盡量選擇特征差異較大的動(dòng)作,將其作為有效動(dòng)作,這在有關(guān)實(shí)驗(yàn)中已得到了證實(shí)。
為了辨識(shí)無關(guān)動(dòng)作,構(gòu)建的數(shù)據(jù)集要包括多種無關(guān)動(dòng)作,在系統(tǒng)數(shù)據(jù)集的構(gòu)建上選擇多個(gè)小動(dòng)作和個(gè)別的無關(guān)動(dòng)作,在畫面采集期間盡量讓多個(gè)不同的人在不同環(huán)境下分別完成采集工作,采集距離設(shè)定在4~10 m,采集時(shí)需要盡量確保任務(wù)在左右兩個(gè)攝像頭的公共區(qū)域內(nèi)。采集到的數(shù)據(jù)信息盡量包括不同的使用環(huán)境,如不同的光照環(huán)境和其他復(fù)雜環(huán)境等,無關(guān)動(dòng)作數(shù)據(jù)信息也可以利用采集數(shù)據(jù)集之外的視頻序列建立。
在視頻信息獲取完成后,按要求處理為彩色紋理圖,選擇出較為標(biāo)準(zhǔn)的動(dòng)作,刪除無關(guān)動(dòng)作,并把不同的動(dòng)作分類、建立列表,便于之后的訓(xùn)練過程。在一番篩選后,確保只有在動(dòng)作完畢后才能被判定為有效動(dòng)作,避免動(dòng)作誤判等問題。在生成的數(shù)據(jù)集中,各個(gè)類型的圖片可以達(dá)到幾千張,而每一類的彩色紋理圖片都要進(jìn)行標(biāo)注,確保所有彩色紋理圖在輸入神經(jīng)網(wǎng)絡(luò)時(shí)便于分類。無人機(jī)在運(yùn)作期間受到環(huán)境影響,如在刮風(fēng)的條件下運(yùn)作會(huì)傾斜,無人機(jī)運(yùn)行姿態(tài)判斷,結(jié)合姿態(tài)數(shù)據(jù)旋轉(zhuǎn)圖片的運(yùn)算,對(duì)無人機(jī)的嵌入式計(jì)算機(jī)帶來更高的壓力,對(duì)此可以通過數(shù)據(jù)拓展的方式擴(kuò)充數(shù)據(jù)集,避免無人機(jī)圖像采集期間受環(huán)境影響而傾斜的現(xiàn)象。在數(shù)據(jù)集中先隨機(jī)抽調(diào)一些圖像,將這一部分圖像以4°之內(nèi)的范圍進(jìn)行隨機(jī)方向旋轉(zhuǎn)以補(bǔ)充數(shù)據(jù)集,避免神經(jīng)網(wǎng)絡(luò)過擬合的同時(shí)也進(jìn)一步加強(qiáng)了神經(jīng)網(wǎng)絡(luò)的適應(yīng)能力。
深度學(xué)習(xí)下的無人機(jī)人機(jī)交互系統(tǒng),系統(tǒng)的構(gòu)成特征基本在于以下3 點(diǎn):①將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于實(shí)時(shí)人機(jī)交互系統(tǒng)中,通過生成彩色紋理圖描述視頻序列中時(shí)間特征和空間特征,根據(jù)這些描述對(duì)后續(xù)圖片進(jìn)行訓(xùn)練與分類,進(jìn)一步提高了圖片和視頻的辨識(shí)度;②以雙目視覺的方式生成深度圖,以新型的能夠適應(yīng)更復(fù)雜環(huán)境的手勢(shì)識(shí)別方法,根據(jù)動(dòng)作標(biāo)準(zhǔn)進(jìn)行手勢(shì)運(yùn)動(dòng)便可以識(shí)別,并不需要重新訓(xùn)練用作動(dòng)作識(shí)別的模型,相對(duì)其他傳感器的識(shí)別精準(zhǔn)性和范圍進(jìn)一步提高;③在無人機(jī)中搭載處理器實(shí)現(xiàn)人機(jī)交互,能夠有效提高信息傳輸效率,降低傳輸延遲。
無人機(jī)利用飛行控制器和GPS 模塊能夠做到自主懸停,搭載嵌入式平臺(tái)實(shí)現(xiàn)圖像與動(dòng)作的自動(dòng)識(shí)別。無人機(jī)平臺(tái)通過電壓22.2 V、容量5200 mA·h 的鋰離子電池作為電能來源。嵌入式平臺(tái)可以選擇Jetson TK1 平臺(tái),這一平臺(tái)所搭載的處理器具有多個(gè)CPU,可以保證圖像處理效率和性能。圖像采集處理與動(dòng)作識(shí)別一般在這一平臺(tái)中實(shí)現(xiàn),而且平臺(tái)是飛行控制和地面站信息傳輸?shù)闹匾?jié)點(diǎn),利用串口連接飛控,應(yīng)用WiFi與地面站連接;而地面站則可以實(shí)現(xiàn)飛行器狀態(tài)監(jiān)控,可以查看運(yùn)算結(jié)果。
基于雙目視覺和深度學(xué)習(xí)的無人機(jī)人機(jī)交互系統(tǒng),解決了深度相機(jī)傳輸范圍制約和光照制約的問題,能夠在室外的更多場(chǎng)景下應(yīng)用。當(dāng)前這一系統(tǒng)依然有很多地方需要繼續(xù)完善,以優(yōu)化動(dòng)作識(shí)別和識(shí)別響應(yīng)效率。