• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    智能人機交互中第一視角手勢表達的一次性學(xué)習(xí)分類識別

    2021-07-25 17:49:34秦世引李連偉張鼎豪
    自動化學(xué)報 2021年6期
    關(guān)鍵詞:手勢樣本圖像

    鹿 智 秦世引 , 李連偉 張鼎豪

    面向視覺感知與人機智能交互的工具已逐漸向可穿戴式相機轉(zhuǎn)變,如Google Glass、GoPro Hero和Narrative Clip 等逐漸成為大眾的新寵,并不斷地打入到消費者市場.這類頭戴式相機可用于拍攝運動愛好者的戶外探險活動、幫助患有間歇性失憶癥的病人記錄日?;顒?、收集用于研究人類行為的數(shù)據(jù)和研究以用戶為中心的智能人機交互等,并可以在短時間內(nèi)記錄大量的圖像或視頻數(shù)據(jù).例如,Narrative Clip 每天能從第一視角拍攝2 800 多張照片.因此,如何幫助人們高效地瀏覽、搜索和分析第一視角下采集的圖像數(shù)據(jù),更好地為人機交互服務(wù)變的尤為重要.隨著機器視覺技術(shù)的發(fā)展,為解決第一視角下處理圖像/視頻數(shù)據(jù)面臨的挑戰(zhàn)性問題,包括較差的光照條件和復(fù)雜的運動背景等,提供了新的研究方法.

    雖然第一視角下拍攝的視頻中包含大量的物體、場景和活動等,但幾乎每幀都包含手這一特定的對象.這是由于手是我們與物理世界進行交互的主要渠道,例如,操作物體、環(huán)境感知和人與人之間的肢體交互等.手總是不斷地出現(xiàn)在視野之內(nèi),它的外形和姿勢反映出人們正在做什么以及下一步打算做什么.因此,手勢目標(biāo)的存在性檢測、分割和手勢的識別是理解第一視角下人機交互和人人交互的關(guān)鍵性問題.隨著深度學(xué)習(xí)理論的發(fā)展,大量基于深度CNN (Convolutional neural network)的研究工作開始關(guān)注于第一視角下手的檢測[1]、跟蹤[2]、分割[3]和識別[4]等問題.然而網(wǎng)絡(luò)性能在不斷提升的同時,兩個挑戰(zhàn)性問題阻礙了深度神經(jīng)網(wǎng)絡(luò)在便攜式移動系統(tǒng)中的應(yīng)用.1)如何在一些特殊的應(yīng)用領(lǐng)域(醫(yī)療圖像、軍事衛(wèi)星圖像等)獲取到訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)所需的大規(guī)模數(shù)據(jù)集;2)計算資源的約束.通常情況下,更高的網(wǎng)絡(luò)性能依賴于大量有標(biāo)簽訓(xùn)練數(shù)據(jù)對千萬級網(wǎng)絡(luò)參數(shù)不斷地迭代優(yōu)化.而且在便攜式移動系統(tǒng)中部署新的網(wǎng)絡(luò)模型存在許多不可避免的問題,尤其是在計算資源受限的情況下,大量的可訓(xùn)練參數(shù)、較高的模型計算復(fù)雜度和較大的存儲空間占用等.因此,如何設(shè)計輕型高效的網(wǎng)絡(luò)和如何利用單樣本進行高效地分類識別是本文的研究重點.

    本文提出了一種基于深度神經(jīng)網(wǎng)絡(luò)級聯(lián)組合解決復(fù)雜應(yīng)用場景中第一視角下的一次性學(xué)習(xí)手勢識別 (One-shot learning hand gesture recognition,OSLHGR)的算法.首先,針對如何快速判定第一視角下手勢目標(biāo)是否出現(xiàn)在相機感受野內(nèi)的問題,借助采集的手勢目標(biāo)樣本對改進的輕量級SSD(Single shot multibox detector)[5]網(wǎng)絡(luò)進行遷移式強化訓(xùn)練,一方面可彌補手工制作數(shù)據(jù)集的不足,另一方面借助改進SSD 網(wǎng)絡(luò)的強實時性的性能優(yōu)勢實現(xiàn)對視頻圖像序列中手勢目標(biāo)的高效檢測.接著,在包含手勢目標(biāo)的圖像中,利用改進的U-Net[6]模型對復(fù)雜背景下的手勢目標(biāo)實施高效精準(zhǔn)分割,以降低無關(guān)目標(biāo)對手勢識別結(jié)果的影響.在此基礎(chǔ)上,為實現(xiàn)第一視角下的OSLHGR,本文借助于端到端2D 關(guān)系網(wǎng)絡(luò)(Relation network,RN)[7],并將其擴展為處理視頻序列輸入的3D 關(guān)系網(wǎng)絡(luò),同時采用3D 殘差卷積神經(jīng)網(wǎng)絡(luò)(Residual convolutional neural network)作為視頻數(shù)據(jù)的特征提取模塊.在對相關(guān)類別的大樣本數(shù)據(jù)集進行深度訓(xùn)練的基礎(chǔ)上,使用預(yù)訓(xùn)練模型初始化目標(biāo)網(wǎng)絡(luò)參數(shù),提升網(wǎng)絡(luò)的學(xué)習(xí)能力,減少過擬合的風(fēng)險并加速網(wǎng)絡(luò)收斂.在手勢目標(biāo)存在性檢測、分割和分類識別的各個階段,本文都充分考慮了實際應(yīng)用對模型高效性與實時性的需求.

    本文的主要貢獻如下:1)在SSD 目標(biāo)檢測模型的基礎(chǔ)上對其進行改進,以MobileNetV2[8]部分網(wǎng)絡(luò)結(jié)構(gòu)作為SSD 網(wǎng)絡(luò)的特征提取模塊,并結(jié)合編?解碼的思想融合上下文信息,提出了一種沙漏型的輕量級SSD 目標(biāo)檢測網(wǎng)絡(luò)架構(gòu).對比于幾種典型的輕量級目標(biāo)檢測模型,取得了較高的檢測性能.2)在U-Net 語義分割模型的基礎(chǔ)上,修改編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)對應(yīng)層的跳躍連接(Skip connection),并使用1×1 卷積對并置(Concatenate)后的特征圖進行融合.改進的U-Net 相比于輕量級M2UNet[9]在分割精度上有明顯的提升,訓(xùn)練時間略有增加,但比U-Net 和MultiResUNet[10]模型有明顯的速度優(yōu)勢.3)創(chuàng)新性地將用于少樣本圖像識別的2D 關(guān)系網(wǎng)絡(luò)模型擴展成3D 關(guān)系神經(jīng)網(wǎng)絡(luò)并應(yīng)用到第一視角下的手勢識別領(lǐng)域,通過深度神經(jīng)網(wǎng)絡(luò)的自主學(xué)習(xí)進行特征提取和相似性度量,降低了網(wǎng)絡(luò)模型對海量數(shù)據(jù)的依賴,首次實現(xiàn)了端到端的OSLHGR 算法.4)為了評估OSLHGR 算法的分類性能,使用SoftKinetic DS325 采集并構(gòu)建了第一視角下的手勢數(shù)據(jù)集.該數(shù)據(jù)集對驗證本文提出的第一視角下OSLHGR 算法的技術(shù)路線提供了一個很好的試驗基地.

    本文的組織結(jié)構(gòu)如下:第1 節(jié)對智能人機交互與手勢表達的優(yōu)勢進行了概述;第2 節(jié)簡要介紹了第一視角手勢人機交互的基本環(huán)境和約束條件;第3 節(jié)詳細闡述了改進的SSD 網(wǎng)絡(luò)結(jié)構(gòu)和基于該模型的手勢目標(biāo)快速檢測算法;第4 節(jié)提出了改進的U-Net 模型并實現(xiàn)對復(fù)雜背景圖像中手勢目標(biāo)的高效分割與提取;第5 節(jié)提出了3D 關(guān)系神經(jīng)網(wǎng)絡(luò)并實現(xiàn)了端到端的第一視角下OSLHGR 算法;第6節(jié)對數(shù)據(jù)集的構(gòu)建、網(wǎng)絡(luò)參數(shù)的設(shè)置和實驗結(jié)果的性能評價進行了詳細介紹;最后,對本文的研究工作進行了總結(jié)和展望.

    1 智能人機交互與手勢表達的優(yōu)勢

    人機交互 (Human-computer interaction,HCI)是指人和計算機之間通過某種對話語言,按照特定的交互方式為完成確定任務(wù)而進行的信息交換過程.在智能化時代,人與計算機間的交互模式發(fā)生了重大的變化,不再局限于傳統(tǒng)的鍵盤、鼠標(biāo)/觸控盤和顯示屏等交互媒介,而是逐漸轉(zhuǎn)向集傳統(tǒng)交互方式和手勢、腦電、眼動和語音等新興交互方式于一體的多模態(tài)交互.這些交互方式的轉(zhuǎn)變在增加了人機互動的同時,也獲得了更好的享受.

    1.1 智能人機交互的應(yīng)用領(lǐng)域和前沿研究動態(tài)

    隨著計算機、物聯(lián)網(wǎng)、云計算和人工智能等新興技術(shù)的迅猛發(fā)展,智能人機交互在自動駕駛、醫(yī)療、教育、智能機器人、居家和軍事等領(lǐng)域有著廣泛的應(yīng)用.彭玉青等[11]針對人機交互過程中復(fù)雜背景導(dǎo)致手勢識別率低、算法魯棒性差的問題,提出使用改進的YOLO[12]網(wǎng)絡(luò)完成復(fù)雜背景下手勢區(qū)域的提取并結(jié)合CNN 進行識別.在醫(yī)療領(lǐng)域,Yip 等[13]提出一種基于眼球追蹤眼鏡實現(xiàn)手術(shù)機械臂的眼動控制界面,該交互界面允許外科醫(yī)生通過眼睛觀察監(jiān)視器特定的邊緣或角落來控制手術(shù)機械臂的運動.在智能控制機器人方面,Wanluk 等[14]提出一種專為障礙人群設(shè)計的基于眼動跟蹤的智能輪椅,通過對眼球的運動情況進行分析進而控制輪椅的運動.楊觀賜等[15]提出改進的YOLO 特征提取算法解決特征提取過程中存在信息丟失的問題,在隱私情境數(shù)據(jù)集和服務(wù)機器人平臺上的實驗結(jié)果表明了該算法可以較好地識別智能家居環(huán)境中涉及隱私的情境.李昌嶺等[16]提出一種面向未來戰(zhàn)場指揮決策的多通道多智能體的人機交互模型,實現(xiàn)由機器為中心向以人為中心交互的轉(zhuǎn)變,使得指揮人員和機器間更加自然、無障礙地進行信息交互.隨著技術(shù)的不斷進步,未來還會出現(xiàn)更多類型的交互模式,應(yīng)用到更多的領(lǐng)域.

    1.2 面向人機交互的手勢表達的主要方式及人稱關(guān)系

    在人機交互過程中,手勢交互被認為是人與機器間最自然、最便捷的非接觸式交互模式.手勢是由人表演的特定姿勢或動作來定義,分為靜態(tài)和動態(tài)手勢.根據(jù)相機所處的位置不同,將基于手勢表達的交互方式分為第一視角、第二視角和第三視角下的人機交互[17].第一視角下的手勢交互由于計算機和表演者的視角是一致的,計算機看到的也是穿戴者見到的,可以讓計算機更直觀地理解操作者的意圖.第二視角下相機是信息接收者,操作者近距離的面對相機并和計算機進行交互.對于第三視角下的手勢交互,計算機與操作者的視角不同,計算機同第三人觀察操作者表演手勢的視角相同.操作者可以遠離并且背對著相機,多用于視頻監(jiān)控中.近年來,已存在大量的工作對傳統(tǒng)視角下的手勢識別進行了深入研究.而隨著虛擬現(xiàn)實(Virtual reality,VR)和增強現(xiàn)實(Augmenting reality,AR)技術(shù)的發(fā)展,尤其以Google Glass 等智能頭戴式虛擬現(xiàn)實設(shè)備的出現(xiàn),第一視角下的手勢識別技術(shù)也受到了學(xué)術(shù)界的廣泛關(guān)注.Hegde 等[18]為廉價頭戴式相機提出了一種可靠且直觀的手勢交互技術(shù).在他們的工作中,首先基于高斯混合模型的手部膚色建模進行前景區(qū)域提取,并利用Shi-Tomasi 算法計算圖像中的特征點,之后結(jié)合Lukas-Kanade 光流法跟蹤前景區(qū)域的特征點,最后對檢測到的前景中運動目標(biāo)進行分類.隨著深度學(xué)習(xí)理論的發(fā)展,基于深度神經(jīng)網(wǎng)絡(luò)的方法也廣泛應(yīng)用于解決第一視角下手勢目標(biāo)的檢測、識別等問題.Bambach 等[19]提出了一種在第一視角下采集的視頻中檢測和區(qū)分不同手勢目標(biāo)的算法,并在構(gòu)建的大規(guī)模數(shù)據(jù)集上驗證了方法的有效性.Pandey 等[20]提出使用MobileNet[21]作為特征提取的前置網(wǎng)絡(luò),并將SSD 目標(biāo)提取網(wǎng)絡(luò)接在其后,在移動頭戴式顯示系統(tǒng)上實現(xiàn)了可靠的手勢目標(biāo)檢測和定位.

    1.3 第一視角在人機交互中的特點和必要性

    隨著智能可穿戴設(shè)備(微軟 HoloLens、Magic Leap One 等)的出現(xiàn)并受到越來越多消費者的關(guān)注,第一視角下的人機交互在日常生活中更加普及.它可以使得人們不會受到任何時間、任何地點和任何環(huán)境背景的條件限制,使用簡單定義的手勢和頭戴式顯示系統(tǒng)進行友好交互.因此,識別第一視角下的手勢動作為我們提供了一種更加自然的與頭戴設(shè)備中虛擬元素進行交互的模式,并賦予了人們貼近現(xiàn)實生活的手勢導(dǎo)航和控制能力,建立了與計算機間最直接的交互方式.在未來智能化的社會中,第一視角下的手勢識別會遍布人們生活的各個角落,如無人駕駛、智能家居、全息投影、戶外運動、機器人控制和體感游戲等.因此,第一視角下的手勢交互技術(shù)需要更多的研究者投入更多的關(guān)注,以解決面臨的佩戴者相機抖動、運動模糊、光照變化和背景混雜等問題,提升人機交互系統(tǒng)在實際應(yīng)用中的魯棒性.

    1.4 第一視角條件下手勢人機交互的優(yōu)越性

    第一視角條件下的手勢交互不同于傳統(tǒng)視角,能夠感知穿戴者所感知的、看到穿戴者所看到的和理解穿戴者所理解的.第一視角下的視頻是由同一人在連續(xù)的時空下錄制的,不需要在環(huán)境中放置多個固定的相機,因此不會受到地理環(huán)境、空間和時間的限制,可以準(zhǔn)確記錄穿戴者看到的內(nèi)容,建立持續(xù)、自然的人機交互接口.此外,物體和手勢是直接呈現(xiàn)在第一視角下的,不易于被遮擋.該系統(tǒng)可以識別穿戴者周圍的人并了解危險狀況,還可為手術(shù)、運動和娛樂等活動提供幫助.在自主和可穿戴平臺上,對個人工作空間進行有效地監(jiān)控也是很多機器人系統(tǒng)的基本要求.對用戶鄰近空間內(nèi)的活動進行可靠、準(zhǔn)確和實時的感知也有助于及時做出有意義的決策.這些都是傳統(tǒng)視角條件下的人機交互無法企及的.因此,開展第一視角下的手勢人機交互具有重要的現(xiàn)實意義.

    2 第一視角手勢人機交互的基本環(huán)境和約束條件

    隨著智能可穿戴設(shè)備逐漸在消費者群體中流行起來,第一視角下的手勢人機交互給人們帶來了新的交互方式和交互體驗,擺脫了傳統(tǒng)人機交互模式對空間和時間的約束,拓寬了應(yīng)用空間.

    2.1 面向常規(guī)應(yīng)用的第一視角手勢人機交互的基本環(huán)境

    相比于傳統(tǒng)視角下基于手勢的智能人機交互,在第一視角下可以實現(xiàn)全天候的人機交互,很少會受到時間和空間的制約,這也促進了第一視角下基于手勢人機交互的廣泛應(yīng)用.如圖1 所示,展示了在不同光照條件和背景下的第一視角手勢人機交互的基本環(huán)境.實際應(yīng)用中,用戶所處的環(huán)境和攝像頭固定的位置等因素還是會對第一視角手勢人機交互的魯棒性產(chǎn)生一定程度的干擾.因此,如何對人機交互環(huán)境中的不利因素進行抑制或消除從而改善智能人機交互系統(tǒng)的整體性能,是提升良好人機交互體驗的關(guān)鍵.

    圖1 不同場景下第一視角手勢人機交互圖示Fig.1 HCI demonstration of gestures from the egocentric viewpoint in different scenarios

    2.2 實現(xiàn)高性能智能人機交互的第一視角手勢表達的約束條件

    本文針對第一視角下的OSLHGR 算法展開研究,目的是解決復(fù)雜背景下依靠單個手勢樣本的學(xué)習(xí)實現(xiàn)高性能的智能人機交互.借助于SoftKinetic DS325 完成手勢數(shù)據(jù)的采集和測試,采集示意圖如圖2 所示.深度相機固定在操作者頭部正前方的位置,右半部分由若干線條包圍的部分是用于人機交互的區(qū)域.操作者穿戴頭部相機的同時,在規(guī)定的區(qū)域內(nèi)執(zhí)行完預(yù)定義的手勢動作后,手離開交互區(qū)域并等待下一個動作的執(zhí)行.為了對每個動作進行有效地識別,本文只針對包含單個動作的視頻片段進行分類,并輸出相應(yīng)類別.計算機再根據(jù)輸出的類別信息做出相應(yīng)的響應(yīng),完成一次人機交互過程.為了使本文所提的算法具有較強的魯棒性,采集手勢時對表演者手部的配飾品無任何強制要求.整個手勢數(shù)據(jù)的采集過程是在自然環(huán)境中完成的.

    圖2 第一視角下智能人機交互的活動區(qū)域圖示Fig.2 Demonstration of active area of intelligent HCI from the egocentric viewpoint

    3 第一視角下的手勢目標(biāo)快速檢測

    針對頭戴式移動設(shè)備存在計算能力和存儲資源有限的約束問題,本節(jié)在權(quán)衡模型精度和計算效率的基礎(chǔ)上,提出一種端到端輕量級目標(biāo)檢測模型,實現(xiàn)對第一視角下手勢目標(biāo)的快速精準(zhǔn)檢測.本節(jié)中,首先對快速檢測的要求和工具選擇進行分析.然后對改進的SSD 網(wǎng)絡(luò)結(jié)構(gòu)、參數(shù)設(shè)置和離線監(jiān)督訓(xùn)練等進行詳細地闡述.最后通過與多種輕量級模型在基準(zhǔn)數(shù)據(jù)集上的檢測結(jié)果進行對比,驗證了本文提出的檢測模型的高效性.

    3.1 快速檢測的要求與工具選擇

    第一視角下手勢目標(biāo)的快速精準(zhǔn)檢測在降低系統(tǒng)響應(yīng)時間的同時,還可提升智能人機交互過程中的用戶體驗.因此,本節(jié)將針對如何設(shè)計高效的目標(biāo)檢測算法,實現(xiàn)手勢目標(biāo)的快速檢測進行研究.

    3.1.1 快速檢測的性能要求

    隨著以人為中心的智能交互技術(shù)的不斷發(fā)展,越來越多的交互設(shè)備更加注重用戶的體驗.因此,低延時、高效能的交互系統(tǒng)更受大眾青睞.對于第一視角下基于一次性學(xué)習(xí)的手勢識別算法而言,實現(xiàn)較快的手勢目標(biāo)檢測速度和較高的召回率有助于提升系統(tǒng)整體的響應(yīng)時間和分類性能.隨著深度學(xué)習(xí)理論取得了突破性進展,基于深度神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測算法在檢測性能上要明顯優(yōu)于傳統(tǒng)的檢測方法[22].然而這類算法是通過使用大量訓(xùn)練樣本對千萬級網(wǎng)絡(luò)參數(shù)不斷迭代優(yōu)化達到較高的檢測性能.因此,體量大、參數(shù)多和復(fù)雜性高制約著這些算法在便攜式移動系統(tǒng)中的應(yīng)用.針對上述問題,本文通過對SSD 網(wǎng)絡(luò)進行輕量化設(shè)計,在實現(xiàn)手勢目標(biāo)快速檢測的同時,大幅降低模型對計算資源的消耗,實現(xiàn)目標(biāo)的實時檢測.

    3.1.2 SSD 網(wǎng)絡(luò)的檢測效能與必要的改進

    SSD 是由Liu 等[5]提出的一種端到端的目標(biāo)檢測網(wǎng)絡(luò)模型,相比于兩階段的目標(biāo)檢測網(wǎng)絡(luò)(RCNN[23],Fast R-CNN[24]和Faster R-CNN[25])具有明顯的速度優(yōu)勢,而相比于一階段的YOLO 網(wǎng)絡(luò)具有更高的檢測精度.因此,基于SSD 在檢測速度和精度兩方面的性能優(yōu)勢,本文選取該模型進行輕量化設(shè)計.SSD 由兩部分組成:基礎(chǔ)網(wǎng)絡(luò)部分和附加的輔助網(wǎng)絡(luò)部分.其中,基礎(chǔ)網(wǎng)絡(luò)是在VGG-16[26]模型的基礎(chǔ)上,用計算量更小的卷積層替換全連接層,并去除了分類層.輔助網(wǎng)絡(luò)是在基礎(chǔ)網(wǎng)絡(luò)部分的基礎(chǔ)上新增的8 個卷積層,以進一步對基礎(chǔ)網(wǎng)絡(luò)輸出的特征圖(Feature map)進行卷積運算,并得到多種尺度的特征圖.因此,可以在多尺度特征圖上進行目標(biāo)類別和位置的預(yù)測,有利于提高目標(biāo)檢測的準(zhǔn)確率和增強對低分辨率圖像的魯棒性.在SSD 網(wǎng)絡(luò)中,輸入大小為300 像素×300 像素的圖像,經(jīng)過一系列的卷積運算,從基礎(chǔ)網(wǎng)絡(luò)和輔助網(wǎng)絡(luò)部分選擇部分卷積層來實現(xiàn)預(yù)測目標(biāo)邊界框的位置和類別.針對選擇的卷積層,以特征圖中每個細胞(Cell)單元為中心定義多個包圍框(Default box),同時用兩個卷積層并列的對特征圖進行卷積運算,分別輸出預(yù)測目標(biāo)的包圍框修正值(相對于原始包圍框的位置偏移量)和包圍框內(nèi)目標(biāo)的概率.基于預(yù)測的修正值和原始的包圍框,經(jīng)過適當(dāng)變換獲得最終的包圍框.訓(xùn)練階段,將最終包圍框和標(biāo)注框(Ground truth)進行匹配,計算包括位置誤差和置信度誤差在內(nèi)的損失函數(shù),并使用隨機梯度下降算法(Stochastic gradient descent,SGD)進行端到端的網(wǎng)絡(luò)訓(xùn)練.在預(yù)測階段,檢測模型會生成大量的預(yù)測框,故需使用非極大值抑制(Non-maximum suppression,NMS)方法保留具有極大置信度的預(yù)測窗口,即為最終的檢測結(jié)果.

    針對SSD 網(wǎng)絡(luò)以VGG-16 作為基礎(chǔ)網(wǎng)絡(luò)進行特征提取存在著參數(shù)多、計算復(fù)雜度高和存儲消耗大的問題,改進的SSD 以輕量級MobileNetV2 作為基礎(chǔ)網(wǎng)絡(luò),并將網(wǎng)絡(luò)中的標(biāo)準(zhǔn)卷積替換為深度可分離卷積.此外,對于SSD 中不同尺度特征圖之間相互獨立、低層特征幾何細節(jié)信息表征能力強而語義信息表征能力弱和高層特征語義表征能力強而幾何信息表征能力弱等問題,本文借鑒文獻[27]設(shè)計出了不對稱的沙漏型SSD 網(wǎng)絡(luò)結(jié)構(gòu),充分融合淺層和深層特征的語義信息,以此彌補低層次特征語義信息差的問題,而大多數(shù)小目標(biāo)的檢測是依賴于低層次特征圖實現(xiàn)的,因此可提高對小目標(biāo)的檢測和分類精度.同時將輔助網(wǎng)絡(luò)中的卷積層替換為Inception[28]單元和感受野區(qū)塊(Receptive fields block,RFB)[29]對特征圖進行降采樣,增加特征表達能力和魯棒性.最后,受文獻[30]中采用的基于SENet[31]注意力機制的啟發(fā),本文將門控(Gate)單元加入到網(wǎng)絡(luò)中的每個預(yù)測層,自適應(yīng)地選擇有用的特征,進一步增強模型的表達能力.改進的SSD 目標(biāo)檢測模型系統(tǒng)架構(gòu)如圖3 所示.圖中Depth-wise(DW)和Point-wise (PW)分別表示深度可分離卷積和逐點卷積.

    圖3 改進的SSD 目標(biāo)檢測網(wǎng)絡(luò)架構(gòu)Fig.3 The network architecture of improved SSD object detection

    3.1.3 改進SSD 網(wǎng)絡(luò)在基準(zhǔn)數(shù)據(jù)集上的性能評價

    在第3.1.2 節(jié)的基礎(chǔ)上,按照文獻[5]中關(guān)于目標(biāo)損失函數(shù)的定義,本文將沿用該損失函數(shù)來衡量目標(biāo)檢測的定位損失和目標(biāo)預(yù)測的分類損失,即

    其中,N表示和標(biāo)注框相匹配的默認框的數(shù)目.若N等于0,表示沒有匹配的默認框,則設(shè)置L為0.Lclass(x,c)表示分類損失,采用交叉熵損失函數(shù),如式(2)所示.Lloc(x,l,g),如式(4)所示.α表示權(quán)值系數(shù),默認為1.

    其中,

    其中,

    由于改進的SSD 檢測模型是一種新型網(wǎng)絡(luò)結(jié)構(gòu),為防止訓(xùn)練手勢目標(biāo)檢測網(wǎng)絡(luò)時模型過擬合,通常需使用大規(guī)模數(shù)據(jù)集上的預(yù)訓(xùn)練模型初始化目標(biāo)檢測網(wǎng)絡(luò)的參數(shù),增強模型的泛化性能.首先,在Pascal VOC 2012 基準(zhǔn)數(shù)據(jù)集上對新型目標(biāo)檢測網(wǎng)絡(luò)進行充分訓(xùn)練,并保存檢測結(jié)果最優(yōu)的網(wǎng)絡(luò)模型.然后,基于遷移學(xué)習(xí)[32?33]的方法使用預(yù)訓(xùn)練模型初始化訓(xùn)練手勢數(shù)據(jù)的目標(biāo)檢測網(wǎng)絡(luò),利用SGD 對損失函數(shù)進行優(yōu)化.初始學(xué)習(xí)率設(shè)為 10?3,200 到250 輪之間,學(xué)習(xí)率為 10?4,250 到300 輪之間為 10?5,動量因子為0.9.

    在上述參數(shù)設(shè)置的基礎(chǔ)上,為了公平地對改進SSD 模型的效能進行對比分析,本文以Pascal VOC 2007 (20 類,9 963 張圖片)和VOC 2012(20 類,17 125 張圖片)的trainval 作為訓(xùn)練集,從頭開始訓(xùn)練本文提出的目標(biāo)檢測網(wǎng)絡(luò),并在test 數(shù)據(jù)集上進行測試,實驗結(jié)果如表1 所示.可以看出,在相似的計算資源約束下,本文提出的目標(biāo)檢測模型在VOC 2007 測試數(shù)據(jù)集上取得了最高的均值平均精度(Mean average precision,mAP),達到73.6%.盡管相比于原始的SSD 網(wǎng)絡(luò)模型,在檢測精度上仍存在差距,然而改進的SSD 僅需較少的內(nèi)存消耗和較低的計算成本.對比實驗結(jié)果表明,改進的SSD 在計算資源(模型大小和計算復(fù)雜度)和目標(biāo)檢測精度之間實現(xiàn)了很好的平衡,更易于滿足便攜式移動系統(tǒng)的應(yīng)用需求.

    表1 輕量級目標(biāo)檢測模型在VOC 2007 測試集上的檢測結(jié)果對比 (? 表示引用文獻[34]中的實驗結(jié)果)Table 1 Comparison of detection results of lightweight target detection model on VOC 2007 test set(? represents the experimental results in [34])

    3.2 基于改進SSD 網(wǎng)絡(luò)的手勢目標(biāo)快速檢測算法

    借助上一節(jié)中提出的網(wǎng)絡(luò)結(jié)構(gòu)和在Pascal VOC 2012 大規(guī)模數(shù)據(jù)集上的離線監(jiān)督訓(xùn)練.本文改進的SSD 網(wǎng)絡(luò)在目標(biāo)檢測精度和效率上達到了同級別下的較高水平,基本能夠滿足對遷移模型的性能需求.為了充分利用改進SSD 網(wǎng)絡(luò)的性能優(yōu)勢,我們在搭建的實驗平臺上采集了數(shù)百幀第一視角下包含手勢目標(biāo)的圖像序列,并采用LabelImg開源標(biāo)注工具手工制作訓(xùn)練和測試樣本集.在此基礎(chǔ)上,利用遷移學(xué)習(xí)的策略使用訓(xùn)練集對改進的輕量級SSD 網(wǎng)絡(luò)進行微調(diào),從而實現(xiàn)對第一視角下手勢目標(biāo)的高效和精確檢測.

    3.2.1 樣本的采集與標(biāo)注

    首先,針對第一視角下手勢目標(biāo)存在性檢測的問題,我們在搭建的數(shù)據(jù)采集實驗平臺上采集了600 幀(共10 類手勢)含有手勢目標(biāo)的深度圖像,數(shù)據(jù)采集實驗平臺見第6 節(jié).然后,使用開源標(biāo)注工具LabelImg 對圖像中手的位置進行人工標(biāo)注,并自動生成對應(yīng)的XML 標(biāo)簽數(shù)據(jù)文件.標(biāo)注前后含有手勢目標(biāo)的樣本如圖4 所示.從原始圖像中可以看出,除手外還含有較為復(fù)雜的桌面背景,如顯示屏、鍵盤和鼠標(biāo)等,以及出現(xiàn)在第一視角下形狀、尺度各異的手勢目標(biāo)都會對手的精確檢測帶來一定的干擾.此外,在標(biāo)注框內(nèi)除了手之外,還有其他對象的干擾.這說明在檢測到手存在的基礎(chǔ)上,需進一步進行精細分割提高手勢分類的準(zhǔn)確率.

    圖4 第一視角下手勢樣本數(shù)據(jù)的標(biāo)注結(jié)果Fig.4 Annotation results of gesture samples from the egocentric viewpoint

    3.2.2 基于大樣本數(shù)據(jù)集的強化訓(xùn)練與功能遷移

    本節(jié)將使用手工標(biāo)注的600 幅包含手勢目標(biāo)的圖像數(shù)據(jù)對改進的SSD 目標(biāo)檢測網(wǎng)絡(luò)進行深度訓(xùn)練和測試,其中訓(xùn)練集和測試集按照5:1 進行隨機劃分.由于手工標(biāo)注的數(shù)據(jù)集無論是在數(shù)據(jù)規(guī)模和目標(biāo)類別上都無法和Pascal VOC 2012 相提并論,直接用于訓(xùn)練本文提出的目標(biāo)檢測網(wǎng)絡(luò)模型,存在過擬合的風(fēng)險.鑒于在大規(guī)模數(shù)據(jù)集上提取的淺層視覺特征,如邊緣、紋理、點和線等,與標(biāo)注的手勢目標(biāo)數(shù)據(jù)集之間存在較強的相似性.因此,利用第3.1.3 節(jié)在大規(guī)模數(shù)據(jù)集上離線監(jiān)督訓(xùn)練得到的預(yù)訓(xùn)練模型,并使用遷移學(xué)習(xí)的策略將預(yù)訓(xùn)練模型應(yīng)用到手勢目標(biāo)檢測的任務(wù)中,從而克服手工標(biāo)注數(shù)據(jù)的不足,實現(xiàn)第一視角下手勢目標(biāo)的高效檢測.如圖5 所示,對比了基于網(wǎng)絡(luò)模型遷移和He 等[38]正態(tài)分布兩種不同的網(wǎng)絡(luò)參數(shù)初始化策略下,目標(biāo)函數(shù)隨迭代輪次的變化曲線.從中可以看出,基于遷移學(xué)習(xí)的強化訓(xùn)練機制可以使網(wǎng)絡(luò)的損失函數(shù)以更快的速度收斂到較低的值,實現(xiàn)更高的目標(biāo)檢測和分類預(yù)測的性能.

    圖5 遷移強化訓(xùn)練和隨機初始化兩種方式下?lián)p失函數(shù)變化曲線對比Fig.5 Comparison of loss function change curves between transfer reinforcement training and random initialization

    3.2.3 第一視角下手勢目標(biāo)的快速檢測實驗結(jié)果和性能評價

    在本節(jié)中,首先運用第3.1.3 節(jié)中對改進SSD網(wǎng)絡(luò)進行遷移強化訓(xùn)練而獲得的檢測模型在100 幀測試圖像上進行手勢目標(biāo)檢測.我們從檢測結(jié)果中隨機選出5 幅圖像,如圖6 所示.從中可以看出,本文改進的輕量級SSD 對第一視角下采集的包含手的圖像,無論是剛進入到相機感受中尺寸較小的手勢目標(biāo),還是完全呈現(xiàn)在感受中形狀各異的手勢目標(biāo),均能精確地進行檢測和定位.這為第一視角下準(zhǔn)確高效的判斷手在感受野中的存在性提供了重要保障,也為后續(xù)高性能的手勢識別奠定了基礎(chǔ).

    圖6 第一視角下改進SSD 目標(biāo)檢測網(wǎng)絡(luò)的檢測結(jié)果Fig.6 The detection results of improved SSD target detection network from the egocentric viewpoint

    為了綜合衡量本文提出的目標(biāo)檢測算法在采集圖像數(shù)據(jù)集上的檢測性能,我們選擇精確率(Precision)和召回率(Recall)作為目標(biāo)檢測精度的評價指標(biāo).其中,精確率表示所有檢測到的目標(biāo)中真實手勢目標(biāo)正確檢測數(shù)所占的比例,而召回率則表示真實手勢目標(biāo)正確檢測數(shù)占所有手勢目標(biāo)總數(shù)目的比例.計算表達式分別為

    其中,Tp表示被正確檢測為手勢目標(biāo)的幀數(shù),Fp表示被錯誤檢測為手勢目標(biāo)的幀數(shù),Fn表示被錯誤檢測為背景的幀數(shù).

    將100 幅測試圖像輸入訓(xùn)練好的網(wǎng)絡(luò)模型,對圖像中的手勢目標(biāo)進行檢測并記錄結(jié)果.當(dāng)模型輸出的預(yù)測邊界框和測試集中標(biāo)注的手勢目標(biāo)邊界框的交并比(Intersection over union,IoU)大于設(shè)定閾值時,檢測結(jié)果有效.本文設(shè)定閾值為0.5,并給出了該閾值下使用預(yù)訓(xùn)練模型初始化和隨機初始化兩種情況下的精確率?召回率變化曲線,如圖7 所示.由于只有單類目標(biāo),故 mAP 和 AP 的值相同且均為曲線下方和橫縱坐標(biāo)軸包圍區(qū)域的面積.由圖中可以看出檢測模型在大樣本數(shù)據(jù)集的強化訓(xùn)練下取得了更高的檢測性能.本文在預(yù)訓(xùn)練模型初始化網(wǎng)絡(luò)參數(shù)和隨機初始化網(wǎng)絡(luò)參數(shù)兩種條件下計算mAP的值分別為96.3% 和94.9%,這表明改進的SSD 網(wǎng)絡(luò)對第一視角下手勢目標(biāo)的檢測取得了較高的精度.

    圖7 第一視角下手勢目標(biāo)檢測結(jié)果的召回率?精確率變化曲線Fig.7 Recall and precision curves of gesture target detection results from the egocentric viewpoint

    4 基于改進U-Net 網(wǎng)絡(luò)的手勢目標(biāo)快速分割與提取

    在第3 節(jié)中檢測到手勢目標(biāo)存在于相機感受野后,本節(jié)在U-Net 語義分割模型的基礎(chǔ)上提出了一種新的端到端的網(wǎng)絡(luò)架構(gòu),實現(xiàn)復(fù)雜背景下手勢目標(biāo)的高性能分割,濾除無關(guān)目標(biāo)對手勢識別結(jié)果的影響.改進U-Net 模型結(jié)構(gòu)的設(shè)計、參數(shù)設(shè)置以及深度網(wǎng)絡(luò)模型的訓(xùn)練在后續(xù)小節(jié)中分別被詳細闡述.最后對多個語義分割模型在采集圖像數(shù)據(jù)集上的分割結(jié)果進行對比,驗證了本文提出的分割模型的高效性.

    4.1 改進的輕量級U-Net 網(wǎng)絡(luò)模型

    隨著深度學(xué)習(xí)理論的發(fā)展,基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像分割方法,如FCN[39]、U-Net 和SegNet[40]等,相比于傳統(tǒng)的分割算法在分割精度上取得了顯著地提升.然而,這些網(wǎng)絡(luò)模型普遍存在著參數(shù)多、內(nèi)存消耗大的問題,無法應(yīng)用于頭戴式移動設(shè)備上.本文在結(jié)構(gòu)簡潔、性能更為突出的U-Net 模型基礎(chǔ)上,設(shè)計一種輕量級的全卷積U 型網(wǎng)絡(luò)結(jié)構(gòu)用于復(fù)雜場景下手勢目標(biāo)的高效分割與提取.針對U-Net存在的問題,本文提出了三點改進:1)將編碼端包含大量參數(shù)的特征提取網(wǎng)絡(luò)使用輕量級的Mobile-NetV2 替換;2)針對編碼端和解碼端對應(yīng)層級特征圖直接疊加的方式可能存在語義鴻溝的問題,本文借鑒MultiResUNet 中使用的Res path 的思想,在跳躍連接的支路上通過增加卷積模塊來加深低層次卷積層提取深層特征的能力;3)在解碼端,對直接疊加的特征圖使用1×1 卷積進行特征融合.改進后的U-Net 網(wǎng)絡(luò)結(jié)構(gòu)如圖8 所示,其中在編碼器部分考慮到模型參數(shù)和內(nèi)存占用等因素選擇使用MobileNetV2 的前14 層用于特征提取,同時去除解碼器網(wǎng)絡(luò)中接在雙線性插值上采樣(Bilinear interpolation upsampling)運算后的2×2 卷積層,并使用參數(shù)量更少的反向殘差模塊(Inverted residual block)將輸入通道數(shù)減半,以進一步對網(wǎng)絡(luò)進行壓縮.對于跳躍連接中使用殘差單元的數(shù)目是根據(jù)編碼網(wǎng)絡(luò)在第一層卷積運算之后進行了三次下采樣,因此在三條跳躍連接支路中從淺層到深層分別增加3、2 和1 個殘差單元.

    圖8 改進的輕量級U-Net 網(wǎng)絡(luò)結(jié)構(gòu)Fig.8 Improved lightweight U-Net network architecture

    改進的輕量級U-Net 網(wǎng)絡(luò)模型采用了端到端的對稱型網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計,所有標(biāo)準(zhǔn)卷積都用深度可分離和逐點卷積替代,極大地降低了網(wǎng)絡(luò)的參數(shù)量和內(nèi)存消耗.在采集的圖像數(shù)據(jù)集上對網(wǎng)絡(luò)模型進行充分訓(xùn)練后,輸入第一視角下采集的原始圖像即可快速輸出相應(yīng)大小的分割結(jié)果,因而具備簡單、高效的特性.下一節(jié)將對數(shù)據(jù)的標(biāo)注、網(wǎng)絡(luò)模型的深度訓(xùn)練和多種語義分割模型對手勢目標(biāo)的分割結(jié)果進行對比分析.

    4.2 手勢樣本數(shù)據(jù)的標(biāo)注和網(wǎng)絡(luò)模型的深度訓(xùn)練

    為了對改進的U-Net 網(wǎng)絡(luò)模型進行離線監(jiān)督訓(xùn)練,我們以第3 節(jié)中使用的600 幅圖像作為網(wǎng)絡(luò)輸入,并使用LabelMe 對這些原始圖像中的手勢目標(biāo)進行人工標(biāo)注.圖9 給出了部分在復(fù)雜背景下手勢目標(biāo)的人工標(biāo)注結(jié)果和生成的手勢目標(biāo)區(qū)域正樣本示例.圖 9(a)是采集的原始圖像,分別從前五類手勢中隨機選擇的一幅圖像.圖 9(b)是對圖像中手勢目標(biāo)人工標(biāo)注后的結(jié)果.圖 9(c)手輪廓以外的區(qū)域表示為背景,而輪廓以內(nèi)區(qū)域為手勢目標(biāo)的正樣本區(qū)域.對改進的U-Net 網(wǎng)絡(luò)進行訓(xùn)練之前,我們將人工標(biāo)注的600 幅圖像分為兩部分:500 幅圖像作為訓(xùn)練集,100 幅圖像用于測試和評估分割模型的性能.

    圖9 第一視角下手勢目標(biāo)輪廓的人工標(biāo)注結(jié)果Fig.9 Manual annotation results of gesture target contours from the egocentric viewpoint

    為了對網(wǎng)絡(luò)參數(shù)進行有效地更新和優(yōu)化,本文使用二元交叉熵(Binary cross entropy)作為損失函數(shù)用于度量模型預(yù)測輸出和期望輸出的近似程度.同時,使用自適應(yīng)矩估計(Adaptive moment estimation,Adam)算法對網(wǎng)絡(luò)參數(shù)進行更新,交叉熵的計算表達式為

    其中,Nn表示圖像中像素點數(shù),y(i)表示第i個像素的類別,h(·)使用Sigmoid 激活函數(shù).

    深度神經(jīng)網(wǎng)絡(luò)在線訓(xùn)練過程中,本文對圖像進行簡單數(shù)據(jù)增廣:水平翻轉(zhuǎn)、平移變換、旋轉(zhuǎn)變換和縮放變換等,在不改變訓(xùn)練樣本實際數(shù)目的同時增加數(shù)據(jù)的多樣性,使得訓(xùn)練得到的模型泛化性能更好.為了對不同網(wǎng)絡(luò)模型的分割結(jié)果進行公平地比較,每個模型都經(jīng)過500 輪的迭代訓(xùn)練,以充分優(yōu)化網(wǎng)絡(luò)參數(shù).

    4.3 基于改進U-Net 網(wǎng)絡(luò)的手勢目標(biāo)快速分割與提取算法

    在復(fù)雜場景中,第一視角下采集的手勢目標(biāo)圖像包含較多無關(guān)的背景干擾,這對于只通過一次性學(xué)習(xí)實現(xiàn)高性能手勢識別的算法而言會帶來較大的挑戰(zhàn).本文借助于深度學(xué)習(xí)理論,利用輕量級MobileNetV2 網(wǎng)絡(luò)作為編碼端的特征提取模塊,并引入反向殘差單元降低卷積層的輸入通道數(shù).此外,通過在跳躍連接支路上引入不同數(shù)目的殘差模塊,降低編解碼端對應(yīng)層級特征間的語義鴻溝.在此基礎(chǔ)上,我們設(shè)計出了性能更加優(yōu)越的目標(biāo)分割網(wǎng)絡(luò)模型,可以實現(xiàn)復(fù)雜背景下手勢目標(biāo)的高性能分割.本文提出的改進U-Net 網(wǎng)絡(luò)模型對圖像中手勢目標(biāo)分割算法的系統(tǒng)架構(gòu)如圖10 所示.

    圖10 基于改進U-Net 的手勢目標(biāo)快速分割和提取算法系統(tǒng)架構(gòu)Fig.10 Architecture of fast segmentation and extraction algorithm of gesture targets based on improved U-Net

    在圖10 中,首先利用建立的數(shù)據(jù)采集實驗平臺采集了訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)所需的手勢樣本,并使用LabelMe 開源標(biāo)注工具對采集的包含手勢目標(biāo)圖像序列進行人工標(biāo)注.將訓(xùn)練數(shù)據(jù)集和標(biāo)注后的圖像輸入網(wǎng)絡(luò),并利用二元交叉熵損失函數(shù)計算網(wǎng)絡(luò)輸出結(jié)果和人工標(biāo)注數(shù)據(jù)間的誤差值.然后使用Adam 算法對深度網(wǎng)絡(luò)的參數(shù)進行優(yōu)化,直至損失函數(shù)的值下降到不再變化為止.在完成對手勢目標(biāo)分割網(wǎng)絡(luò)模型的訓(xùn)練之后,實際測試時將獲取的手勢目標(biāo)圖像輸入到訓(xùn)練好的模型,便可預(yù)測輸出和輸入圖像同等大小的手勢目標(biāo)分割結(jié)果.

    4.4 實驗結(jié)果與對比分析

    為了對測試圖像的分割結(jié)果有直觀的認識,我們使用第4.2 節(jié)得到的預(yù)訓(xùn)練模型對100 幅測試圖像進行預(yù)測,并從分割結(jié)果中隨機挑選5 幅圖像,如圖11 所示.圖 11(a)是原始采集的圖像,圖 11(b)是使用改進的輕量級U-Net 網(wǎng)絡(luò)分割的結(jié)果.從中可以看出,本文提出分割網(wǎng)絡(luò)模型能夠從復(fù)雜的圖像背景中對手勢目標(biāo)進行有效地分割和提取.

    圖11 第一視角下改進U-Net 網(wǎng)絡(luò)模型的分割結(jié)果Fig.11 The segmentation results of improved U-Net network model from the egocentric viewpoint

    為了綜合評估本文提出的網(wǎng)絡(luò)模型的分割性能,我們分別對原始的U-Net 網(wǎng)絡(luò)、MultiResUNet 網(wǎng)絡(luò)和輕量級的M2U-Net 網(wǎng)絡(luò)在標(biāo)注的數(shù)據(jù)集上進行充分訓(xùn)練,并分別將測試圖像輸入到訓(xùn)練好的模型中.并根據(jù)式(9),計算100 幅測試圖像的平均交并比.

    其中,RoIT表示不同語義分割模型對原始圖像中手勢目標(biāo)的分割結(jié)果,RoIG表示人工標(biāo)注的手勢目標(biāo)正樣本區(qū)域.IoU 的值越大,說明模型的分割性能越好.由不同網(wǎng)絡(luò)模型的分割結(jié)果計算出得分如表2 所示.同時,我們還分別給出了各個模型的參數(shù)量、計算復(fù)雜度和單幀圖像的處理時間.從表2中可以看出,改進的輕量級U-Net 各項指標(biāo)均優(yōu)于原始的U-Net 網(wǎng)絡(luò).相比于輕量級的M2U-Net,本文提出的網(wǎng)絡(luò)模型以增加較少的計算代價換來模型分割精度的提升.此外,對比不同模型處理單幅圖像耗費的時間,可以發(fā)現(xiàn)模型的理論計算復(fù)雜度和實際的運算時間并不是嚴(yán)格的正相關(guān),還與網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計有很大的關(guān)系.

    表2 不同網(wǎng)絡(luò)模型分割結(jié)果和模型參數(shù)對比Table 2 Comparison of segmentation results and model parameters of different network models

    由式(6)和式(7),我們分別計算了不同網(wǎng)絡(luò)模型在100 幅測試圖像上手勢目標(biāo)分割結(jié)果的召回率和精確率變化曲線,如圖12 所示.圖12 中與主對角線交點為A的曲線是由本文提出的改進U-Net網(wǎng)絡(luò)模型分割結(jié)果計算得到的.從曲線與坐標(biāo)軸包圍區(qū)域的面積和圖中標(biāo)注的4 個均衡點位置可以看出本文提出的網(wǎng)絡(luò)結(jié)構(gòu)對第一視角下手勢目標(biāo)的分割結(jié)果要明顯優(yōu)于其他幾種網(wǎng)絡(luò)模型.

    圖12 第一視角下手勢目標(biāo)分割結(jié)果的召回率?精確率變化曲線Fig.12 Recall and precision curves of gesture target segmentation results from the egocentric viewpoint

    為了對比第3 節(jié)與本文提出的輕量級SSD+U-Net 組合架構(gòu)和經(jīng)典的Mask R-CNN v3[41]方法在手勢目標(biāo)檢測和分割方面的性能,本節(jié)將從定性和定量兩個方面闡述所提算法的優(yōu)越性.我們使用文獻[41] 中的方法對本文標(biāo)注的數(shù)據(jù)進行實驗.Mask R-CNN v3 是由He 等[41]在Faster RCNN[25]網(wǎng)絡(luò)模型的基礎(chǔ)上增加了目標(biāo)分割子網(wǎng)絡(luò),在實現(xiàn)有效檢測目標(biāo)的同時輸出高質(zhì)量的目標(biāo)分割結(jié)果.為了與本文提出的方法進行公平比較,實驗過程中仍使用500 幀圖像進行網(wǎng)絡(luò)訓(xùn)練和其余100幀圖像對模型的檢測和分割性能進行評價,測試結(jié)果如表3 所示.從表3 中可知,本文提出的手勢目標(biāo)檢測與分割算法相比于經(jīng)典的Mask R-CNN v3方法在保持檢測精度無明顯損失的情況下取得了較高的分割性能.此外,網(wǎng)絡(luò)參數(shù)量大幅度降低也使得模型的檢測速度得到了顯著提高,在滿足實時檢測任務(wù)需求的同時也提升了智能人機交互中的用戶體驗.

    表3 本文提出的目標(biāo)檢測和分割方法與Mask R-CNN v3 的性能對比Table 3 Performance comparison of the proposed object detection and segmentation method and Mask R-CNN v3

    此外,為了進一步定性地評估本文提出的方法和Mask R-CNN v3 在手勢目標(biāo)檢測與分割結(jié)果上的性能,圖13 中給出了兩種方法在本文采集圖像數(shù)據(jù)集上的檢測與分割的測試結(jié)果.從圖13 中可以看出,兩種方法均能對手勢目標(biāo)進行精確地檢測,而本文提出的方法在含有手勢目標(biāo)圖像上的分割效果要明顯優(yōu)于Mask R-CNN v3.因此,通過對實驗結(jié)果的定性和定量分析,可以看出本文提出的輕量級SSD+U-Net 方法在檢測和分割的速度與精度上都能保持在滿意的水平.

    圖13 本文提出的SSD+U-Net 組合方法與Mask R-CNN v3 檢測和分割結(jié)果對比Fig.13 Comparison of detection and segmentation results between SSD+U-Net and Mask R-CNN v3

    5 基于3D 深度神經(jīng)網(wǎng)絡(luò)的一次性學(xué)習(xí)手勢識別

    隨著手勢識別技術(shù)的應(yīng)用在人們?nèi)粘;顒又兄饾u增多,就會不斷地出現(xiàn)一些新的賦予不同含義的手勢,這就要求手勢識別系統(tǒng)能夠快速地對新出現(xiàn)手勢進行有效識別.然而,在許多實際應(yīng)用場景中獲取大量有標(biāo)簽的訓(xùn)練樣本是不切實際的,這是由于收集或標(biāo)注數(shù)據(jù)是非常昂貴和乏味的過程.本節(jié)提出一種新的端到端3D 關(guān)系卷積神經(jīng)網(wǎng)絡(luò)用于解決單樣本的手勢識別問題.該算法主要是使用SoftKinetic DS325 采集的第一視角下的深度手勢視頻數(shù)據(jù)進行實驗.

    5.1 3D 深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計

    人類能夠通過對單幅樣本圖像快速學(xué)習(xí)新類別的原因在于我們大腦中的視覺系統(tǒng)能夠非常迅速地提取到圖像中物體的顯著性特征,如顏色特征、紋理特征和形狀特征等,再通過比對圖像和圖像之間的特征差異來實現(xiàn)對目標(biāo)的識別.受此啟發(fā),Sung等[7]提出了一種新穎的關(guān)系網(wǎng)絡(luò),通過模擬人類的識別過程來實現(xiàn)對少樣本的有效分類.該網(wǎng)絡(luò)在訓(xùn)練過程中能夠?qū)W習(xí)一種特征度量方式,在測試階段通過計算查詢樣本和每個新類中單個支撐樣本之間的相似度實現(xiàn)對測試圖像的分類識別.

    在此基礎(chǔ)上,本文將處理圖像分類任務(wù)的2D關(guān)系網(wǎng)絡(luò)修改為解決單樣本動態(tài)手勢分類任務(wù)的3D 關(guān)系網(wǎng)絡(luò).本文提出的3D 關(guān)系神經(jīng)網(wǎng)絡(luò)系統(tǒng)架構(gòu)如圖14 所示,主要包括數(shù)據(jù)輸入單元、特征提取模塊、特征相似性度量模塊和預(yù)測分數(shù)輸出四個部分.其中,輸入網(wǎng)絡(luò)的測試數(shù)據(jù)集是在第一視角下采集并經(jīng)過第3 節(jié)和第4 節(jié)處理后的手勢視頻,而訓(xùn)練數(shù)據(jù)是采用文獻[42]中用于訓(xùn)練網(wǎng)絡(luò)的19 類手勢數(shù)據(jù)集,并確保和測試數(shù)據(jù)集之間沒有相互重疊的類.關(guān)于訓(xùn)練和測試網(wǎng)絡(luò)模型所用數(shù)據(jù)劃分的細節(jié)將在第5.2 節(jié)中詳細敘述.圖中特征提取模塊使用易于優(yōu)化和訓(xùn)練的殘差網(wǎng)絡(luò)結(jié)構(gòu),本文選擇ResNet9,并將每一層修改成處理視頻序列輸入的3D 卷積運算用于提取時空特征.特征相似性度量模塊是由特征圖級聯(lián)操作和特征度量子網(wǎng)絡(luò)(兩個3D 卷積層和全連接層)組成.網(wǎng)絡(luò)的輸出是一個值在[0,1]區(qū)間內(nèi)的數(shù),0 表示查詢樣本和支撐樣本對極不相似,1 則表示完全相同.

    圖14 5-way 1-shot 3D 關(guān)系神經(jīng)網(wǎng)絡(luò)系統(tǒng)架構(gòu)Fig.14 5-way 1-shot 3D relation neural network system architecture

    5.2 3D深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練策略和參數(shù)優(yōu)化

    為了便于敘述,本文首先對用于網(wǎng)絡(luò)訓(xùn)練和測試的數(shù)據(jù)進一步細分.總體上,我們有三部分數(shù)據(jù)集:訓(xùn)練集(Training set)、支撐集(Support set)和測試集(Testing set).其中支撐集作為對比學(xué)習(xí)的樣例,和測試集共享相同的標(biāo)簽.而訓(xùn)練集的標(biāo)簽則與其他數(shù)據(jù)集完全不同.根據(jù)測試時的數(shù)據(jù)結(jié)構(gòu)劃分,本文將具有大量樣本的訓(xùn)練集(Training set)劃分成樣本集(Sample set)和查詢集(Query set)兩部分來模擬測試時的支撐集和測試集.對包含C個不同的類,每類有K個帶標(biāo)簽樣本的支撐集,稱為C-wayK-shot (本文只考慮K=1 的情況)少樣本學(xué)習(xí)問題.本文在訓(xùn)練方式上采用和文獻[7]相同的基于 episode 的策略.在每次迭代訓(xùn)練網(wǎng)絡(luò)的過程中,隨機從訓(xùn)練集中選擇C類且每類包含K個帶標(biāo)簽的數(shù)據(jù)樣本組成樣本集(m=C×K),以及從被選出類別的剩余樣本中隨機選擇一部分樣本作為查詢集.在此基礎(chǔ)上對網(wǎng)絡(luò)反復(fù)進行訓(xùn)練,不斷優(yōu)化模型參數(shù).此外,每隔預(yù)先設(shè)定的迭代次數(shù),使用支撐集和測試集對當(dāng)前的網(wǎng)絡(luò)模型進行測試.如圖15 所示,實驗中使用的數(shù)據(jù)集遵循基于 episode 訓(xùn)練方式下的數(shù)據(jù)劃分模式.圖中,左半部分的元訓(xùn)練集通過多次的 episodes 迭代來模擬一次性學(xué)習(xí)任務(wù).在每次迭代過程中,每類僅含一個正樣本(Positive sample),用矩形框包圍的手勢序列表示.訓(xùn)練階段,通過不斷地優(yōu)化網(wǎng)絡(luò)模型實現(xiàn)對查詢樣本的最佳分類.測試階段,直接使用優(yōu)化后的網(wǎng)絡(luò)模型對測試episodes中的查詢樣本進行預(yù)測,并輸出分類結(jié)果.

    圖15 OSLHGR 任務(wù)的數(shù)據(jù)集劃分圖示Fig.15 Illustration of dataset partitioning for OSLHGR tasks

    對于單樣本學(xué)習(xí)的手勢識別 (K=1),首先將圖14 中的特征提取模塊和相似性度量模塊分別表示為fφ和gφ,并將樣本集S中的xi和查詢集Q中的xj輸入特征提取網(wǎng)絡(luò),并輸出特征圖fφ(xi)和fφ(xj).然后,經(jīng)過特征圖級聯(lián)運算輸出特征圖C[fφ(xi),fφ(xj)],并輸入特征度量模gφ.最終經(jīng)過Sigmoid 激活函數(shù)輸出一個值在[0,1]區(qū)間內(nèi)且表示xi和xj相似性程度的關(guān)系分數(shù).因此,對于C-way單樣本學(xué)習(xí)任務(wù)而言,網(wǎng)絡(luò)輸出的關(guān)系分數(shù)si,j為

    本文使用均方誤差(Mean square error,MSE)來衡量預(yù)測值和真實值的差異程度,并使用Adam優(yōu)化器不斷地對網(wǎng)絡(luò)參數(shù)進行優(yōu)化.其參數(shù)優(yōu)化的決策模型為

    其中,(φ?,φ?)為最優(yōu)參數(shù)集合.I(·)表示示性函數(shù),當(dāng)查詢集中樣本的標(biāo)簽yj和樣本集中樣本的預(yù)測標(biāo)簽yi相同時,則I(True)=1,否則為0.

    5.3 一次性學(xué)習(xí)手勢識別算法體系的綜合集成與優(yōu)化

    對于第一視角場景下采集的包含手勢目標(biāo)的圖像而言,存在背景復(fù)雜、光照變化和頭戴式相機抖動等問題.為了實現(xiàn)高效的OSLHGR 算法,首先對手勢目標(biāo)在相機感受野中的存在性進行快速判別,節(jié)省資源的消耗;其次需對圖像中的手勢目標(biāo)進行高效地分割和提取,從而去除復(fù)雜背景對動態(tài)手勢識別性能的干擾;最后對分割后的動作序列進行類別判定.因此,基于手勢目標(biāo)快速檢測、分割和識別的級聯(lián)組合對第一視角下基于單個手勢樣本的高效識別是很有必要的.

    在SSD 目標(biāo)檢測模型的基礎(chǔ)上進行輕量化設(shè)計,以期在檢測精度無明顯下降的條件下,降低模型的計算復(fù)雜度并提升目標(biāo)檢測的速度.此外,基于遷移學(xué)習(xí)的方法對改進的SSD 進行強化訓(xùn)練,并對第一視角下手勢目標(biāo)進行高效檢測.然后使用改進的U-Net 模型對圖像中的手勢目標(biāo)進行精準(zhǔn)分割.相比于其他圖像分割算法,本文提出的網(wǎng)絡(luò)模型在分割精度和速度上實現(xiàn)了很好的平衡.最終將檢測和分割處理后的圖像序列輸入到3D 關(guān)系神經(jīng)網(wǎng)絡(luò),并輸出動態(tài)手勢的預(yù)測結(jié)果.檢測、分割和識別相集成的級聯(lián)組合方案能夠滿足第一視角下單樣本動態(tài)手勢識別高效性的應(yīng)用需求,因此該方案是可行的.

    根據(jù)第3~5 節(jié)的研究結(jié)果,本節(jié)給出了智能人機交互中第一視角手勢表達的一次性學(xué)習(xí)分類識別算法,具體見算法1.

    6 綜合測試與性能評價

    本節(jié)利用DS325 采集的第一視角下手勢數(shù)據(jù)集對本文提出的OSLHGR 算法性能進行實驗驗證.首先,對用于評估算法性能的手勢數(shù)據(jù)集進行簡要介紹,包括采集環(huán)境設(shè)置和手勢種類.然后,對實驗方案和網(wǎng)絡(luò)參數(shù)的設(shè)置進行說明.最后,對實驗結(jié)果進行綜合分析并對算法性能進行評估.

    6.1 第一視角手勢人機交互的實驗測試平臺

    本文所有實驗均使用Python 作為開發(fā)語言,實驗硬件平臺是由Nvidia GTX 1 080 GPU 為手勢目標(biāo)的檢測和分割模型提供加速運算,而動態(tài)手勢分類網(wǎng)絡(luò)使用Nvidia Titan Xp 顯卡來加速網(wǎng)絡(luò)模型的訓(xùn)練.第一視角下手勢數(shù)據(jù)的采集和算法測試是使用DS325 深度相機完成的.此外,我們還基于TensorFlow 1.3 的Keras 2.1 和PyTorch 0.4 的深度學(xué)習(xí)框架進行深度神經(jīng)網(wǎng)絡(luò)模型的開發(fā)和應(yīng)用,并在Ubuntu 14.04 上對模型進行深度訓(xùn)練和測試.

    6.2 測試數(shù)據(jù)集的構(gòu)建

    為了評估本文提出的第一視角下基于3D 卷積神經(jīng)網(wǎng)絡(luò)OSLHGR 算法的性能,我們利用搭建的手勢數(shù)據(jù)采集實驗平臺進行了大規(guī)模的數(shù)據(jù)采集工作,數(shù)據(jù)采集環(huán)境如圖16(a)所示.手勢數(shù)據(jù)采集平臺搭建和數(shù)據(jù)采集過程如下:1)首先基于SoftKinetic DS325 (圖16(b))深度相機進行二次開發(fā),實現(xiàn)對捕獲大小為320 像素×240 像素的深度圖像以30 幀/s 的速率進行本地存儲;2)將深度相機固定在安全帽的正前方,并穿戴在數(shù)據(jù)采集者的頭部,同時對深度相機的角度進行微調(diào);3)啟動應(yīng)用程序,受試者在觀察實時顯示手勢電腦桌面的同時,使用單手或雙手進入深度相機的感受野內(nèi)表演預(yù)定義的手勢動作,執(zhí)行完單個動態(tài)手勢后雙手遠離相機感受野區(qū)域,并準(zhǔn)備表演第二個手勢動作.如此循環(huán),直至完成10 類測試數(shù)據(jù)的采集工作,并關(guān)閉應(yīng)用程序.實際采集的深度圖像如圖16(c)所示.

    圖16 數(shù)據(jù)采集實驗平臺Fig.16 Experimental platform for data collection

    不同于文獻[42]中以純凈的桌面作為表演手勢的背景,本文針對更加實用的應(yīng)用場景探索基于一次性學(xué)習(xí)進行手勢識別的高效算法.為此,在圖16實驗平臺的基礎(chǔ)上,采集了10 類共500 個第一視角下連續(xù)的手勢動作作為評估本文算法性能的數(shù)據(jù)集.圖17 展示了每一類手勢動作示意圖.這些手勢的種類和文獻[42]中選擇用于測試算法性能的10種手勢類別相同,區(qū)別在于數(shù)據(jù)采集時的環(huán)境背景不同.從圖中可以看出,本文采集的手勢數(shù)據(jù)背景較為復(fù)雜,這會對單樣本手勢識別算法的性能產(chǎn)生不利的影響.此外,按照第5.2 節(jié)中對訓(xùn)練3D 關(guān)系神經(jīng)網(wǎng)絡(luò)所使用數(shù)據(jù)的劃分方式,本文以文獻[42]中使用的19 類共1 995 個手勢樣本作為訓(xùn)練集,這19 種手勢的類別和本文采集的手勢類別無相互重疊的類.

    圖17 10 種用于驗證OSLHGR 算法性能的動態(tài)手勢數(shù)據(jù)集.每一列從上向下表示手勢核心階段從起始到結(jié)束的變化過程.圖中箭頭用于描述動態(tài)手勢運動的方向Fig.17 Ten dynamic gesture datasets to verify the classification performance of OSLHGR algorithm.From top to bottom,each column represents the change process from the beginning to the end of the core phase of gestures.The arrows are used to describe the motion direction of dynamic gestures

    6.3 測試方案與條件設(shè)置

    為了對本文提出的第一視角下OSLHGR 算法的分類性能進行綜合分析,實驗方案設(shè)計如下.在使用本文提出的目標(biāo)檢測網(wǎng)絡(luò)判定手勢目標(biāo)出現(xiàn)在人機交互區(qū)域之后,利用文獻[42?43]中提出的兩階段算法和本文提出的基于3D 關(guān)系神經(jīng)網(wǎng)絡(luò)的單階段分類算法對第一視角下采集的原始圖像序列以及手勢目標(biāo)分割處理后的圖像序列分別進行基于一次性學(xué)習(xí)的動態(tài)手勢分類實驗,并對比三種算法在手勢目標(biāo)分割前后OSLHGR 分類的準(zhǔn)確率,驗證在復(fù)雜背景下基于改進U-Net 網(wǎng)絡(luò)模型的手勢目標(biāo)分割與提取對單樣本手勢識別性能提升的有效性.同時對文獻[42?43]和本文算法的分類結(jié)果進行對比,以驗證本文提出的算法在模型復(fù)雜度、分類準(zhǔn)確率和實時性方面的優(yōu)勢.所有實驗輸入原始圖像的大小均為320 像素×240 像素.為了進行公平比較,改進的SSD 檢測網(wǎng)絡(luò)將原圖調(diào)整為300 像素×300 像素,手勢目標(biāo)分割網(wǎng)絡(luò)輸入為224 像素×224 像素.此外,由于計算機顯存的限制,3D 關(guān)系神經(jīng)網(wǎng)絡(luò)將原圖調(diào)整為112 像素×112 像素,并將連續(xù)16 幀圖像組成一個視頻片段用于訓(xùn)練網(wǎng)絡(luò)模型.在所有基于3D 關(guān)系神經(jīng)網(wǎng)絡(luò)的OSLHGR 實驗中,初始學(xué)習(xí)率均設(shè)為 10?3,每迭代5×104個episodes學(xué)習(xí)率衰減為原來十分之一,共迭代1×105次.

    6.4 測試結(jié)果與性能評價

    本節(jié)使用第6.2 節(jié)采集的第一視角下動態(tài)手勢數(shù)據(jù)集來驗證本文提出的OSLHGR 算法的性能.首先,基于第4 節(jié)提出的輕量級U-Net 網(wǎng)絡(luò)對復(fù)雜背景下的手勢目標(biāo)區(qū)域進行提取.在此基礎(chǔ)上,使用不同的OSLHGR 算法對預(yù)處理后的動態(tài)手勢進行分類識別,測試結(jié)果如表4 所示.同時,表4 中還給出了未經(jīng)分割處理的手勢分類結(jié)果.通過對比可以得知,手勢目標(biāo)的精確分割可以大幅降低復(fù)雜背景對分類結(jié)果的影響,提升分類準(zhǔn)確率,這對于只有單樣本的分類任務(wù)而言是至關(guān)重要的.此外,為了進一步說明本文方法在分類準(zhǔn)確率和實時性方面的性能優(yōu)勢,按照本文使用的測試策略對文獻[42?43]中的測試方法進行了修改.表4 中分別給出了在5-way 1-shot 和10-way 1-shot 下的分類結(jié)果.通過與文獻[42]的分類結(jié)果對比可以看出,本文方法在手勢目標(biāo)分割后數(shù)據(jù)集上的分類結(jié)果明顯優(yōu)于后者,而在原始圖像上10-way 1-shot 卻不及后者.這主要由于文獻[42]使用了連續(xù)微調(diào)的訓(xùn)練機制,每次都從新的手勢類中隨機選擇單個樣本微調(diào)網(wǎng)絡(luò)的分類層,故在元訓(xùn)練集和元測試集背景不同的情況下,表現(xiàn)出較好的分類性能.此外,該方法的網(wǎng)絡(luò)參數(shù)量、時間開銷和內(nèi)存占用遠超本文提出的分類算法.與文獻[43]的分類結(jié)果對比發(fā)現(xiàn),本文算法在手勢目標(biāo)分割提取后的數(shù)據(jù)樣本上10-way 1-shot 分類準(zhǔn)確率要低于前者.而在原始圖像上10-way 1-shot的分類準(zhǔn)確率同文獻[43]具有相當(dāng)?shù)姆诸愋阅?且5-way 1-shot 的分類準(zhǔn)確率89.44%遠高于80.70%.這是由于文獻[43]采用兩階段的分類策略,在訓(xùn)練網(wǎng)絡(luò)的基礎(chǔ)類數(shù)據(jù)和驗證模型性能的測試數(shù)據(jù)背景不一致時,無法對預(yù)訓(xùn)練模型參數(shù)進行調(diào)節(jié),導(dǎo)致分類性能大幅降低.而本文采用了單級式基于 episode 的訓(xùn)練策略,可有效地降低因數(shù)據(jù)差異對分類性能產(chǎn)生的影響.通過對三種分類算法的對比可知,本文提出的算法在保持較低參數(shù)量和較高實時性的同時,在分類準(zhǔn)確率上也保持在較為滿意的水平,本文算法的有效性得到了充分的驗證.

    表4 OSLHGR 算法的分類結(jié)果和模型性能對比Table 4 Comparison of classification results and model performance of OSLHGR algorithms

    7 總結(jié)與展望

    本文提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的級聯(lián)組合進行OSLHGR 的分類算法,以實現(xiàn)第一視角下手勢動作的快速和精確分類,提升智能人機交互中的用戶體驗.在該算法中,為了滿足在便攜式移動系統(tǒng)中的應(yīng)用和實現(xiàn)手勢目標(biāo)快速精準(zhǔn)檢測的需求,運用MobilenetV2 對端到端SSD 目標(biāo)檢測模型進行輕量化設(shè)計,并將編?解碼架構(gòu)、感受野區(qū)塊和門控單元加入到檢測網(wǎng)絡(luò),在Pascal VOC 2012數(shù)據(jù)集和SoftKinetic DS325 采集的手勢目標(biāo)檢測數(shù)據(jù)集上分別達到73.6%和96.3%的均值平均精度,實現(xiàn)了輕量級模型檢測性能的大幅提升.進而,為了有效降低復(fù)雜背景的干擾,提升OSLHGR 算法的性能,本文提出的輕量級U-Net 網(wǎng)絡(luò)在手勢目標(biāo)分割數(shù)據(jù)集上的交并比為94.53%且計算復(fù)雜度和處理速度等性能指標(biāo)均表現(xiàn)優(yōu)異.在精確分割手勢目標(biāo)的基礎(chǔ)上,本文提出的3D 關(guān)系深度神經(jīng)網(wǎng)絡(luò)實現(xiàn)了對第一視角下動態(tài)手勢的有效分類,取得了94.64%的5-way 1-shot 識別準(zhǔn)確率,這為復(fù)雜應(yīng)用環(huán)境下便捷式智能人機交互提供了可靠的技術(shù)保障.

    本文提出的基于深度神經(jīng)網(wǎng)絡(luò)級聯(lián)組合實現(xiàn)第一視角下一次性學(xué)習(xí)手勢識別的算法還可推廣到車載影音控制系統(tǒng)、垃圾分類的體感游戲等智能人機交互場景.此外,針對交互過程中在完成某個動作后手需離開相機感受野這一限制,在后續(xù)工作中,我們將針對復(fù)雜場景下連續(xù)動作的OSLHGR 展開研究,以降低手勢表達的約束條件,實現(xiàn)更加便捷自然的智能人機交互.

    猜你喜歡
    手勢樣本圖像
    改進的LapSRN遙感圖像超分辨重建
    用樣本估計總體復(fù)習(xí)點撥
    有趣的圖像詩
    挑戰(zhàn)!神秘手勢
    V字手勢的由來
    推動醫(yī)改的“直銷樣本”
    勝利的手勢
    隨機微分方程的樣本Lyapunov二次型估計
    村企共贏的樣本
    遙感圖像幾何糾正中GCP選取
    林西县| 广南县| 大理市| 阿荣旗| 师宗县| 舒城县| 澄迈县| 郎溪县| 海安县| 定安县| 九江县| 陆丰市| 邵武市| 腾冲县| 镇江市| 抚远县| 荆门市| 天镇县| 两当县| 沛县| 当涂县| 聊城市| 凌海市| 武义县| 巩留县| 西青区| 拉萨市| 东港市| 宜春市| 社旗县| 桐城市| 屯留县| 祁连县| 肥东县| 罗平县| 文登市| 安达市| 阆中市| 庄浪县| 佛坪县| 苏尼特左旗|