• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于ToF紅外圖像的手部輕量化檢測算法設計與優(yōu)化

    2024-02-18 11:17:06葛晨陽馬文彪屈渝立
    計算機應用研究 2024年1期
    關鍵詞:深度學習

    葛晨陽 馬文彪 屈渝立

    摘 要:嵌入式設備上實現(xiàn)快速精準的手部檢測主要面臨兩個挑戰(zhàn):一是復雜的深度學習網(wǎng)絡很難實現(xiàn)實時的手部檢測;二是場景復雜性導致基于RGB彩色圖像的手部檢測算法準確率下降。與主流基于RGB圖像的檢測技術不同,基于ToF紅外圖像的輕量化手部檢測算法實現(xiàn)了紅外圖像中手部的精準快速檢測。首先,通過自主研發(fā)設備采集了22 419張靜態(tài)紅外圖片,構建了用于手部檢測的紅外數(shù)據(jù)集;其次,通過對通用目標檢測算法進行輕量化改進,設計了RetinaHand輕量化手部檢測網(wǎng)絡,其中采用了MobileNetV1和ShuffleNetV2兩種不同的輕量化網(wǎng)絡作為模型骨干網(wǎng)絡,并提出了一種融合注意力機制的特征金字塔結構Attention-FPN;最后,在紅外數(shù)據(jù)集上與常規(guī)方法進行了對比實驗,驗證了該方法的有效性。

    關鍵詞:深度學習; 手部檢測; 紅外圖像; 嵌入式設備

    中圖分類號:TP391?? 文獻標志碼:A?? 文章編號:1001-3695(2024)01-047-0296-05

    doi:10.19734/j.issn.1001-3695.2023.07.0278

    Design and optimization of hand lightweight detection algorithm based on ToF infrared images

    Abstract:Implementing fast and accurate hand detection on embedded devices mainly face two challenges. Firstly, it is difficult for complex deep learning networks to achieve real-time hand detection. Secondly, the complexity of the scene leads to a decrease in the accuracy of hand detection algorithms based on RGB color images. Unlike mainstream RGB image based detection technologies, this paper adopted a lightweight hand detection algorithm based on ToF infrared images to attain precise and swift hand detection within the infrared images. Firstly, this paper gathered 22 419 static infrared images using this self-engineered equipment, thereby establishing an infrared dataset tailored for hand detection. Subsequently, it enhanced a gene-ral object detection algorithm to create a lightweight hand detection network known as RetinaHand, using two different lightweight networks, MobileNetV1 and ShuffleNetV2, as the backbone network of the model. Furthermore, this paper proposed an attention-enhanced feature pyramid structure called Attention-FPN. This structure integrated attention mechanisms to enhance the detection process. Ultimately, this paper conducted comparative experiments on the infrared dataset against conventional methods to validate the effectiveness of the method.

    Key words:deep learning; hand detection; infrared images; embedded devices

    0 引言

    動態(tài)手勢作為現(xiàn)代社會人機交互的一種重要方式,在智能車、智能手機、生物醫(yī)學、機器人等諸多應用領域均呈現(xiàn)了優(yōu)異的性能[1~4]。作為手勢識別的關鍵步驟,快速、準確的手部檢測則是手勢識別及分類的重要前提與保障。手部檢測是在靜態(tài)圖像或者視頻的單幀圖像中檢測出手部區(qū)域,并將其從原圖裁剪出來,以用于下一步手部關鍵點檢測[5]。目前基于視覺的手部檢測方法多基于RGB彩色圖進行分離,但它的弊端在于對光線敏感,例如在暗光環(huán)境下,基于RGB的手勢操作將會陷入不可用狀態(tài)或者面臨識別準確率下降的問題[6]。而近紅外攝像頭拍攝的紅外圖像則可以彌補這一缺陷,盡管通常情況下成像質量不如RGB攝像頭,但在各種極端場景下都具有較好的成像能力,非常有利于手部區(qū)域的識別和分離。因此研究紅外圖像的手部檢測算法具有十分重要的理論和實際意義。

    根據(jù)提取特征的方式不同,手部檢測可以分為傳統(tǒng)方法和基于深度學習的方法。早期的手部檢測方法可以分為基于幾何特征的方法、基于膚色分割和基于運動信息特征的方法。Utsumi等人[7]使用基于幾何結構的手部統(tǒng)計檢測方法來識別和跟蹤多攝像頭下的手部外觀,實現(xiàn)了手部的定位,取得了一定的效果。膚色分割的方法利用了手部皮膚顏色與背景顏色不同的原理,利用該顏色差異實現(xiàn)手部輪廓的提取。Wu等人[8]提出一種動態(tài)的手部檢測算法,利用自組織映射在HSV顏色空間上實現(xiàn)手部檢測與分割。Wang等人[9]提出一種不需要分割,并且可以直接基于膚色的手部檢測方法。Mittal等人[10]結合形狀、皮膚顏色和運動場景信息來構建多級手部檢測器,由于缺少強大的特征提取能力,該方法在無約束圖像上表現(xiàn)較差。傳統(tǒng)的手部檢測方法雖然在一定環(huán)境下可以實現(xiàn)手部檢測,但是精度不高,而且模型的泛化能力較差,無法提取圖像中的隱藏特征,無法滿足實際需求。

    近年來,得益于計算機硬件和人工智能的快速發(fā)展,基于深度學習的手勢識別算法及技術得到了長足發(fā)展?;谏疃葘W習的手部檢測技術既克服了傳統(tǒng)方法不能充分提取圖像特征的問題,又可以實現(xiàn)從端到端的訓練,顯著提升了手部檢測的正確率和速度。2017年,Victor[11]提出了一種基于SSD網(wǎng)絡[12]的實時手部檢測網(wǎng)絡,并在開源EgoHands數(shù)據(jù)集[13]上進行了測試,結果表明該方法能夠實現(xiàn)準確的實時手部檢測。2018年,Wang等人[14]提出了一種多尺度的Faster R-CNN方法,以Faster R-CNN[15]為基本框架對不同特征層進行特征融合,提取圖像綜合特征信息,實現(xiàn)手部的精準檢測。2019年,Gao等人[5]提出了一種用于手部檢測的深度CNN模型,將深度網(wǎng)絡與淺層網(wǎng)絡相結合,對SSD網(wǎng)絡進行改進,實現(xiàn)了空間中的人機交互。隨著MobileNetV1[16]、MobileNetV2[17]、ShuffleNetV2[18]等一系列輕量化網(wǎng)絡的提出,通用目標檢測網(wǎng)絡模型得到了輕量化改進,在保證正確率的情況下模型的計算量也大幅下降。但隨著處理數(shù)據(jù)的不斷增多和應用領域智能程度的逐步提高,上述輕量化深度網(wǎng)絡已遠遠不能滿足應用場景的性能需求,因此急需發(fā)展基于紅外圖像的輕量級深度學習算法,從而進一步提高手部檢測的性能。

    針對上述問題,首先采集并構建了用于手勢檢測的ToF紅外數(shù)據(jù)集,其次,借鑒人臉檢測的RetinaFace框架[19],對其中的模塊進行了改進和升級,設計實現(xiàn)了輕量化的RetinaHand手部檢測算法。

    1 輕量化紅外圖像手部檢測算法

    本章聚焦ToF相機的主動紅外數(shù)據(jù)采集及相應的深度學習數(shù)據(jù)集構建。具體地,包括利用自有設備采集紅外手部紅外圖像概況以及基于RetinaHand的手部檢測算法。

    1.1 ToF紅外數(shù)據(jù)采集

    紅外圖像相對于RGB圖像的一個主要優(yōu)勢在于其不受環(huán)境光的影響,在各種極端情況下均能清晰成像。另一方面,相比于常規(guī)的被動紅外圖像,基于主動紅外光源的圖像更清晰,更有利于手部檢測[20]。而目前開源的紅外數(shù)據(jù)集較少,因此采集并構建用于深度學習的紅外數(shù)據(jù)集勢在必行。圖1為所采用的高精度紅外相機采集裝置,由課題組自主研發(fā),主要包括投射器、紅外接收器和彩色攝像頭三個組成模塊。深度感知模塊由投射器和紅外接收器共同構成,將散斑圖像編碼后由投射器發(fā)出,紅外接收器對經(jīng)過反射的散斑圖接收后解碼測距,最終得到紅外圖和深度圖。由于手部檢測屬于2D目標檢測,不需要深度信息,所以只選取紅外圖來構造數(shù)據(jù)集。

    采集數(shù)據(jù)在室內和車內兩個環(huán)境下進行,包含15個不同的采集對象,年齡段分布在20~50歲??紤]多種因素:a)視野中是否有雜物,是否有多人干擾等;b)距離為30~120 cm均勻覆蓋;c)采集對象相對攝像頭的方位包括上、下、中、左、右;d)穿著短袖或長袖,手部是否佩戴手環(huán)、手表等飾物;e)除握拳、手掌、OK、打響指等規(guī)定的動作之外,額外加入了一些自由發(fā)揮的動作,如做數(shù)字六的動作;f)男和女、胖和瘦以及大小手。

    1.2 RetinaHand手部檢測算法

    考慮到移動端的設備計算能力受限,并且要在保證手部檢測準確率的情況下兼顧手部檢測的速度。針對這一問題,設計了一種單階段的基于錨框的輕量化手部檢測算法RetinaHand,其網(wǎng)絡結構如圖2所示。

    整個算法分為三步。第一步是先驗錨框(anchor)的生成及其與目標框(ground truth,gt)的匹配。所有單階段基于先驗錨框的目標檢測算法的基本原理可以概括為針對原圖的密集采樣后的分類和回歸,生成錨框是必不可少的一步。錨框的幾何意義是相對于原圖而言,具體生成需要結合特征圖來進行。RetinaHand模型保留三層特征圖,每層特征圖相對于原圖的下采樣比例分別是1/8、1/16和1/32??紤]到嵌入式手部檢測網(wǎng)絡模型計算規(guī)模的局限性,所有的輸入紅外原圖的大小設定為224×224,三層特征圖的尺度分別為28×28,14×14,7×7,每一層特征圖上的每一個像素點都分別對應了原圖上8×8,16×16,32×32的一塊區(qū)域。對于傳統(tǒng)的Faster R-CNN、SSD,以及RetinaNet等算法來說,將會以特征圖上的每一個像素點為基準,生成k個不同尺度和長寬比例的錨框,一般取k=9,表示3種不同尺度及寬高比例的錨框。由于構建的手部數(shù)據(jù)集本身就接近正方形,所以只考慮尺度而忽略寬高比,從而簡化錨框的設計,同時在處理數(shù)據(jù)集的時候,會采取將短邊補長的方式,將所有的標注都強制處理為正方形。

    錨框的生成是對原圖進行密集采樣,進一步的工作是為每個樣本構建用于監(jiān)督學習的目標,包括確定目標框相對于錨框的位置以及各個錨框的類別。判斷錨框是前景還是背景,若為前景,則需要確定其具體位置。位置是通過計算錨框相對于目標框的偏移來表示的。偏移分為目標框中心點相對于錨框中心點的偏移和目標框寬高相對于錨框寬高的比例轉換兩部分。需要注意的是,為了消除錨框本身尺度的影響,需要平等地對待所有的錨框。為此,對目標框相對于錨框的中心點位置和寬高進行歸一化處理。通過歸一化可以消除大錨框和小錨框對偏差的不同敏感度,從而有利于模型的訓練學習。另外重要的一步是將目標框的寬高轉換到對數(shù)空間,相對于錨框的寬高進行變換,目的是避免模型輸出的寬高僅限于正值,從而降低了模型的要求和優(yōu)化難度,通過轉換到對數(shù)空間可以解決這個問題。

    第二步是整個網(wǎng)絡從輸入到輸出的映射過程,輸入圖像1×224×224首先經(jīng)過一個由卷積層堆疊所構成的骨干網(wǎng)絡進行特征提取,將網(wǎng)絡中間各層的特征抽取出來送給接下來的FPN進行處理,這里總共抽取整個骨干網(wǎng)絡的后三層特征,對于MobileNetV1×0.25作為骨干網(wǎng)絡而言,三層特征圖的尺度分別為64×28×28、128×14×14、256×7×7。

    第三步是不同特征層的特征融合和最終回歸預測。經(jīng)過FPN特征融合后得到三層特征,每一層都會有大量的先驗錨框。為了提高特征的表達能力,此時的特征圖還會經(jīng)過大卷積核構成的特征精煉模塊進一步提取特征,擴大特征圖的感受野。最后這些特征圖分別經(jīng)過目標框回歸分支、置信度分類分支回歸出最終的坐標和前景背景的概率。對于本任務而言,如果錨框的總數(shù)量為N,模型的分類分支的最終輸出是2N,而坐標框回歸分支的最終輸出是4N,分別代表的是每一個錨框屬于前、背景的概率以及如果屬于前景,則目標框的中心點相對于錨框的偏置和目標框寬高相對于錨框的寬高的對數(shù)轉換值。

    具體地,在RetinaFace整體框架下,進一步考慮算法的輕量化以及在嵌入式設備中的運行,提出了如下改進:a)改用MobileNetV1-0.25和ShuffleNetV2-0.5兩種輕量級網(wǎng)絡作為骨干網(wǎng)絡;b)改進了特征金字塔結構,設計并實現(xiàn)了一種融合注意力機制的特征金字塔(Attention-FPN);c)使用了不同的損失函數(shù)。

    1.3 Attention-FPN

    特征金字塔作為當前目標檢測主流模型中的必備組件,可以有效地提高算法對不同尺度目標的定位能力。對于手部檢測任務而言,因為實際場景中被拍攝對象相對攝像頭的距離、方位不同而導致手部尺寸變化劇烈,離攝像頭近的目標的像素最大可以到400×400,最遠的目標大小只有20×20,這就要求目標檢測網(wǎng)絡對大小目標都有良好的檢出能力。而傳統(tǒng)FPN是通過將高層特征上采樣和底層特征直接相加實現(xiàn)的,本文重新審視了FPN的工作原理以及實現(xiàn)方式,提出了一種融合了Attention思想的改進FPN。

    受MobileViT[21]啟發(fā),擴展了自注意力機制并引入FPN模塊,設計實現(xiàn)了一種融合注意力機制的特征金字塔結構Attention-FPN。圖3展示了Attention-FPN的完整實現(xiàn)流程。

    其中,query、key和value不再來自同一輸入。query來自淺層特征圖的非線性變換,而key和value來自經(jīng)過上采樣線性變換的深層特征圖。使用注意力機制的融合代替了原始FPN中的逐元素加法操作,該操作可理解為使用深層特征圖的加權和來表達淺層特征圖中的每個像素,從而將全局信息引入淺層特征圖。融合后的特征圖同時保留了全局信息和局部信息,有利于模型學習。最后,再次使用自注意力機制對融合后的特征圖進行變換,以提高特征的表達能力。相比于傳統(tǒng)的逐元素加法操作,自注意力機制的融合更加靈活,適應性也更強,能夠更好地捕捉特征之間的關聯(lián)性,并提高模型的學習能力。

    具體操作如下:首先,對深層特征圖進行上采樣,將7×7的采樣變?yōu)?4×14;接著,使用1×1卷積將通道數(shù)與上一層對齊,將256通道映射為128,得到大小為128×14×14的特征圖;為了進行Attention操作,借鑒了MobileViT的方法,將特征圖進行切片操作,每個切片內的像素進行自注意力運算,然后將得到的結果進行反變換,使其與原始輸入特征圖具有相同的形狀。這樣就完成了一次注意力計算過程。

    在使用自注意力機制進行特征融合時,操作步驟如下:a)將淺層特征圖(query)和深層特征圖(key和value)輸入到自注意力計算中;b)計算淺層特征圖中每個像素與深層特征圖中所有像素的關聯(lián)程度,即權重;c)使用得到的關聯(lián)權重對深層特征圖中的每個像素進行加權求和,得到用深層特征圖表示的淺層特征圖。自注意力計算公式如式(1)所示。

    其中:Q、K、V分別是query、key和value的對應通道切片;dk為K的方差。

    1.4 損失函數(shù)制定

    為了衡量不同的損失函數(shù)對檢測效果的影響,使用兩種不同的損失函數(shù)進行訓練。網(wǎng)絡輸出包含預測框的位置信息和當前預測框的置信度兩個部分。對于置信度,統(tǒng)一使用focal loss[22];位置信息則分別使用IoU loss[23]和smooth L1 loss[24]。模型訓練的損失函數(shù)如式(2)所示。

    其中:N為所有先驗錨框的個數(shù);Lconf為置信度損失;Lloc為位置損失;Nepoch為當前訓練的迭代次數(shù);當位置損失使用IoU loss時,α為1/2,當位置損失使用smooth L1 loss時,α為1/3。

    2 數(shù)據(jù)測試與結果分析

    2.1 數(shù)據(jù)集構建

    基于1.1節(jié)中的采集設備共采集了22 419張原始分辨率為640×480的紅外手勢靜態(tài)圖片,且每張圖片均有檢測框標注,圖4展示了其中的一些典型樣本,包括握拳、手掌等動作。進一步,直接將所有關鍵點標注的外接矩形作為手部標注框,圖5中的黃色方框則為部分手部標注框(參見電子版)。另外,需要說明的是,對于過曝光、欠曝光,以及一些極端距離和方位情況,則需手工設置手部標注框。

    在實驗階段,將數(shù)據(jù)集按照8∶1∶1的比例隨機劃分為訓練集、驗證集、測試集,訓練、測試尺寸寬高統(tǒng)一設為224×224。需要說明的是,為了進一步提高RetinaHand模型的泛化能力,對訓練數(shù)據(jù)進行了進一步的數(shù)據(jù)增強,使用了隨機亮度和對比度、水平鏡像、mosaic[25]增強等數(shù)據(jù)增強手段。

    2.2 評價指標

    紅外圖像手部檢測的特點有:a)僅需檢測手這一類別;b)每幅圖里只需檢測出一只手,采用不同交并比閾值下的檢測正確率acc@IoU進行檢測結果評價。交并比(intersection over union,IoU)作為目標檢測領域通用的評價指標,是衡量真實目標框和預測目標框之間重疊部分的面積占兩者總面積大小的指標,如圖6所示,兩者重疊面積越大,表示預測框越接近真實框,交并比也就越大。IoU的計算如式(3)所示。

    其中:pre表示預測目標框;gt表示真實目標框。具體地,將評測指標定義為在0.5、0.55、0.60、0.65、0.70、0.75、0.80、0.85、0.90、0.95十個IoU閾值下的acc。十個閾值下的平均acc可表示為IoU@0.5:0.95,或者簡寫為IoU0.5:0.95。具體而言,對于測試集中的每一張待測圖片,如果模型預測框和真正框的IoU大于某一閾值,則認為這張圖片預測成功,否則預測失敗。最后計算測試集中所有預測成功的樣本占總樣本的比例,作為該閾值下的檢測正確率。具體的計算公式為

    其中:pre和target分別表示預測目標框和真實目標框;IoU為兩個目標框之間相交的面積和相并的面積之比,具體計算如式(3)所示;thresh為不同交并比下的閾值;N為驗證集圖片數(shù)。IoU表示模型預測結果和真實結果的重疊度,較大的IoU表示預測更準確。圖7展示了不同IoU下的預測框和真實框的重疊效果。當IoU<0.6時,預測框存在多余背景或漏掉前景;當IoU>0.8時,預測框和真實框的重疊度高,誤差較小。實際情況下,當IoU>0.5時,手部定位框已經(jīng)涵蓋整個手或大部分手部區(qū)域。手部檢測的評價指標最小閾值設為0.5,綜合考慮0.5:0.95閾值下的檢測表現(xiàn)。

    2.3 實驗結果

    本節(jié)在具體的RetinaHand手部檢測算法中,分別采用MobileNetV1×0.25和ShuffleNetV2×0.5作為骨干網(wǎng)絡進行實驗,并與已公開的YOLOv5n、YOLOv5s、YOLO-Fastest、CenterNet[26]網(wǎng)絡模型的測試結果進行了對比。從表1可以看出,在同一種檢測算法下,模型的表現(xiàn)和所用骨干網(wǎng)絡的參數(shù)量、計算量呈現(xiàn)出很強的相關性,參數(shù)量、計算量越大的網(wǎng)絡越能夠取得更好的表現(xiàn)。其次,三種檢測算法中,精度上表現(xiàn)最好的模型為YOLOv5s,參數(shù)量和計算量上表現(xiàn)最好的為YOLO-Fastest。從綜合衡量速度和精度來看,RetinaHand在速度和精度的均衡性方面優(yōu)于YOLO-Fastest和CenterNet。

    由于手部檢測是動態(tài)手勢識別系統(tǒng)中的第一階段,且檢測的精度和速度直接影響后續(xù)的關鍵點定位和手勢分類的準確率,所以將RetinaHand手部檢測算法和YOLOv5n、YOLOv5s分別應用到整個動態(tài)手勢識別的流程中,最終的手勢分類準確率結果如表2所示。實驗結果表明,手部檢測準確率的提高可以提升動態(tài)手勢識別分類效果。考慮到移動端嵌入式設備計算能力受限,且YOLOv5n的參數(shù)量和計算量均遠大于提出的RetinaHand網(wǎng)絡,本文方法比較適合面向移動端嵌入式設備的部署。紅外圖像手部檢測結果如圖8所示。

    圖9和10進一步展示了在不同的骨干網(wǎng)絡和損失函數(shù)下,RetinaHand在驗證集上的結果??梢园l(fā)現(xiàn),與ShuffleNetV2相比,MobileNetV1能更快地達到收斂點,并且穩(wěn)定后的波動較小。同時,相較于smooth L1 loss,IoU loss能更快地達到收斂點,并且在收斂后的準確率略優(yōu)。

    為了驗證Attention-FPN對結果的提升效果,分別在MobileNetV1-0.25框架中采用FPN和Attention-FPN模塊進行測試。如表3所示,對比acc@IoU 0.5和acc@IoU 0.5:0.95兩個指標可以看出,Attention-FPN模塊可以顯著提高檢測結果的準確度。這一方面也說明了自注意力機制的引入可以很好地彌補CNN模型所缺少的捕捉全局信息以及長距離依賴的能力,展示了Transformer模型在計算機視覺領域的應用價值。

    圖8展示了在不同環(huán)境、距離、方位、角度下的檢測結果??梢钥闯?,對于一些距離較近、特征更明顯的場景,置信度較高;而對于距離較遠、環(huán)境較暗的場景,預測結果的置信度數(shù)值普遍偏低。這說明遠距離、暗光背景下的難樣本是手部目標檢測研究面臨的主要挑戰(zhàn)之一。

    除了上述的遠距離、暗光背景,對極端距離及角度、運動模糊等復雜背景下的紅外圖像進行手部檢測,也面臨檢測精度低的問題,部分結果如圖11所示。本文手動篩選出測試集中的難樣本,構成了一個只包含上述背景下難樣本的測試集,并且在該困難樣本上驗證了各個模型的檢測能力,實驗結果如表4所示。從結果中可以看出,各個模型在困難樣本上的整體表現(xiàn)都有所下降,但是 RetinaHand 的相對下降幅度是最低的,在速度和精度均衡上的優(yōu)勢進一步得到了體現(xiàn)。

    3 結束語

    本文詳細描述了針對動態(tài)手勢識別中的輕量化手部檢測算法的研究。為了支持紅外手部檢測,創(chuàng)建了一個包含20 000多張靜態(tài)紅外圖像的專用數(shù)據(jù)集。通過對經(jīng)典通用目標檢測算法進行輕量化設計和改進,確保了算法在嵌入式設備上速度和精度的平衡。本文的重點是提出了一種名為RetinaHand的算法模型,該模型可在嵌入式設備上對手部進行實時檢測,并通過與四種經(jīng)典通用目標檢測輕量模型進行實驗對比,展示了該模型的出色性能。手部檢測模塊能夠在移動嵌入式設備上實現(xiàn)準確、快速和穩(wěn)定的手部檢測,為后續(xù)的關鍵點定位和手勢分類提供了基礎。

    參考文獻:

    [1]董連飛,馬志雄,朱西產(chǎn).基于車載毫米波雷達動態(tài)手勢識別網(wǎng)絡[J].北京理工大學學報,2023,43(5):493-498.(Dong Lianfei, Ma Zhixiong, Zhu Xichan. Dynamic gesture recognition network based on vehicular millimeter wave radar[J].Trans of Beijing Institute of Technology,2023,43(5):493-498.)

    [2]Lahiani H, Neji M. A survey on hand gesture recognition for mobile devices[J].International Journal of Intelligent Systems Techno-logies and Applications,2020,19(5):458.

    [3]Riedel A, Berhm N, Pfeiforth T. Hand gesture recognition of method time measurement-1 motions in manual assembly tasks using graph convolutional networks[J].Applied Artificial Intelligence,2022,36(1):2014191.

    [4]Yang Zhiwen, Jiang Diang, Sun Ying, et al. Dynamic gesture recognition using surface EMG signals based on multi-stream residual network[J].Frontiers in Bioengineering and Biotechnology,2021,9:779353.

    [5]Gao Qing, Liu Jinguo, Ju Zhaojie. Robust real-time hand detection and localization for space human-robot interaction based on deep learning[J].Neurocomputing,2019,390:198-206.

    [6]Sharma A, Mittal A, Singh S, et al. Hand gesture recognition using image processing and feature extraction techniques[J].Procedia Computer Science,2020,173:181-190.

    [7]Utsumi A, Tetsutani N, Igi S. Hand detection and tracking using pixel value distribution model for multiple-camera-based gesture interactions[C]//Proc of IEEE Workshop on Knowledge Media Networking.Piscataway,NJ:IEEE Press,2002:31-36.

    [8]Wu Xiaojuan, Xu Liqun, Zhang Boyang, et al. Hand detection based on self-organizing map and motion information[C]//Proc of International Conference on Neural Networks and Signal Processing.Piscata-way,NJ:IEEE Press,2003:253-256.

    [9]Wang Y R, Lin W H, Yang Ling. A novel real time hand detection based on skin-color[C]//Proc of IEEE International Symposium on Consumer Electronics.Piscataway,NJ:IEEE Press,2013:141-142.

    [10]Mittal A, Zisserman A, Torr P. Hand detection using multiple proposals[C]//Proc of British Machine Vision Conference.2011.

    [11]Victor D. Real-time hand tracking using SSD on TensorFlow[R].[S.l.]:GitHub Repository,2017.

    [12]Liu Wei, Anguelov D, Erhan D, et al. SSD: single shot multibox detector[C]//Proc of the 14th European Conference on Computer Vision.2016:21-37.

    [13]Betancourt A. EgoHands: a unified framework for hand-based methods in first person vision videos[C]//Proc of IEEE International Conference on Multimedia and Expo.Piscataway,NJ:IEEE Press,2017.

    [14]Wang Jinwei, Ye Zhongfu. An improved Faster R-CNN approach for robust hand detection and classification in sign language[C]//Proc of the 10th International Conference on Digital Image Processing.2018:352-357.

    [15]Ren Shaoqing, He Kaiming, Girshick R, et al. Faster R-CNN:towards real-time object detection with region proposal networks[J].IEEE Trans on Pattern Analysis and Machine Intelligence, 2017,39(6):1137-1149.

    [16]Howard A G, Zhu Menglong, Chen Bo, et al. MobileNets: efficient convolutional neural networks for mobile vision applications[EB/OL].(2017).https://arxiv.org/abs/1704.04861.

    [17]Sandler M, Howard A, Zhu Menglong, et al. MobileNetV2: inverted residuals and linear bottlenecks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:4510-4520.

    [18]Ma Ningning, Zhang Xiangyu, Zheng Haitao, et al. ShuffleNetV2: practical guidelines for efficient CNN architecture design[C]//Proc of European Conference on Computer Vision.2018:116-131.

    [19]Deng Jiankang, Guo Jia, Ververas E, et al. RetinaFace:single-shot multi-level face localisation in the wild[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2020:5203-5212.

    [20]史楊.基于近紅外視覺的動態(tài)手勢交互系統(tǒng)研究[D].合肥:中國科學院技術大學,2011.(Shi Yang. Hand gesture interface system based on near infrared computer vision[D].Hefei:University of Technology,Chinese Academy of Sciences,2011.)

    [21]Mehta S, Rastegari M. MobileViT:light-weight, general-purpose, and mobile-friendly vision transformer[EB/OL].(2021).https://arxiv.org/abs/2110.02178.

    [22]Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:2980-2988.

    [23]Yu Jiahui, Jiang Yuning, Wang Zhangyang, et al. UnitBox: an advanced object detection network[C]//Proc of the 24th ACM International Conference on Multimedia.New York:ACM Press,2016:516-520.

    [24]Girshick R. Fast R-CNN[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2015:1440-1448.

    [25]Bochkovskiy A, Wang C Y, Liao H Y M. YOLOv4:optimal speed and accuracy of object detection[EB/OL].(2020).https://arxiv.org/abs/2004.10934.

    [26]Zhou Xingyi, Wang Dequan, Krhenbühl P. Objects as points[EB/OL].(2019).https://arxiv.org/abs/1904.07850.

    猜你喜歡
    深度學習
    從合坐走向合學:淺議新學習模式的構建
    面向大數(shù)據(jù)遠程開放實驗平臺構建研究
    基于自動智能分類器的圖書館亂架圖書檢測
    搭建深度學習的三級階梯
    有體驗的學習才是有意義的學習
    電子商務中基于深度學習的虛假交易識別研究
    利用網(wǎng)絡技術促進學生深度學習的幾大策略
    考試周刊(2016年94期)2016-12-12 12:15:04
    MOOC與翻轉課堂融合的深度學習場域建構
    大數(shù)據(jù)技術在反恐怖主義中的應用展望
    深度學習算法應用于巖石圖像處理的可行性研究
    軟件導刊(2016年9期)2016-11-07 22:20:49
    县级市| 手机| 广饶县| 左权县| 棋牌| 井冈山市| 山丹县| 江源县| 双流县| 锡林郭勒盟| 石嘴山市| 繁昌县| 荔浦县| 贺州市| 三亚市| 镇江市| 洞口县| 鲁山县| 元朗区| 任丘市| 双城市| 京山县| 乳山市| 密山市| 龙游县| 大田县| 英山县| 张家港市| 南平市| 黄浦区| 五原县| 安图县| 晋州市| 和田市| 湖口县| 凤凰县| 定陶县| 侯马市| 佳木斯市| 黄龙县| 鄂伦春自治旗|