• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于YOLO算法的手勢識別

      2020-09-15 02:37:48王粉花黃超趙波張強(qiáng)
      北京理工大學(xué)學(xué)報 2020年8期
      關(guān)鍵詞:網(wǎng)絡(luò)結(jié)構(gòu)手勢識別率

      王粉花,黃超,趙波, 張強(qiáng)

      (1.北京科技大學(xué) 自動化學(xué)院,北京 100083; 2.北京科技大學(xué) 人工智能研究院,北京 100083;3.北京市工業(yè)波譜成像工程中心,北京 100083)

      手勢是聾啞人日常交流的主要方式. 據(jù)統(tǒng)計,在我國約有2 057萬的聾啞人,占全國總?cè)丝诘?.67%[1]. 手語是正常人與聾啞人交流的主要形式,手勢識別的研究對于促進(jìn)手語翻譯的發(fā)展具有重大意義. 同時手勢在人機(jī)交互方面也具有巨大的應(yīng)用前景,例如:Kinect3D體感攝影機(jī)、引入手勢識別功能的寶馬iDrive系統(tǒng)等.

      在早期的手勢識別方法中,主要基于數(shù)據(jù)手套和視覺的手勢識別方法. 基于數(shù)據(jù)手套的手勢識別[2]其優(yōu)點是識別率高,但不足之處是需要大量傳感器輔助,佩戴繁瑣,只借助計算機(jī)無法實現(xiàn). 基于視覺的手勢識別,主要通過手勢的特征提取,如利用膚色、形態(tài)等特征將手勢分割出來,然后通過支持向量機(jī)(SVM)等分類算法進(jìn)行識別. 該方法的關(guān)鍵之處在于手勢區(qū)域的提取,這是提高識別率的關(guān)鍵所在. Grobel等[3]使用基于隱馬爾可夫模型的手勢識別,對262個手語的識別達(dá)到了94 %的準(zhǔn)確率. 識別效果很好,但是需要在測試者的手上佩戴顏色手套,輔助手勢分割. 基于膚色的手勢提取方法,成功擺脫了數(shù)據(jù)手套和顏色手套的繁瑣,但是識別率不高,泛化能力不強(qiáng),依然存在很多問題. 楊紅玲等[4]使用骨架特征圖像和邊緣特征圖像進(jìn)行融合,實現(xiàn)石頭、剪刀、布的識別,準(zhǔn)確率達(dá)到98.57%. 其不足之處是識別的圖像手勢占主體,并不是一般的自然手勢圖像. Dominio等[5]提出的基于Kinect深度信息的手勢識別方法,最高可以達(dá)到99.5%的準(zhǔn)確率,其缺點是算法復(fù)雜,距離變換性差,設(shè)備裝置要求高. 張曉燕[6]使用了基于膚色和已有的模板進(jìn)行匹配的手勢識別技術(shù). 強(qiáng)彥等[7]提出基于棧式稀疏自編碼多特征融合的快速手勢識別方法.

      隨著目標(biāo)檢測的發(fā)展,使很多學(xué)者將手勢識別的分類問題轉(zhuǎn)換成目標(biāo)檢測問題. 2014年,Girshick等[8]在CVPR(computer vision and pattern recognition)大會上提出了R-CNN目標(biāo)檢測網(wǎng)絡(luò),隨后又提出了Fast R-CNN[9]、Faster R-CNN[10]等兩步檢測的算法,將識別速度和識別準(zhǔn)確度進(jìn)一步提升. 同時Redmon等[11]在2016年的CVPR大會提出了一步檢測的YOLO(you only look once)算法,其檢測速度相較以前的算法得到很大的提高,能達(dá)到45 FPS(frames per second),從而受到更多人的青睞. Liu等[12]在ECCV2016上提出了SSD(single shot multibox detector)目標(biāo)檢測算法,隨后張勛等[13]在SSD的基礎(chǔ)改進(jìn)上使用了輕量化的ASSD模型,實現(xiàn)手勢的實時檢測. Redmon等[14]在2017的CVPR大會上提出了YOLOv2算法,將識別率進(jìn)一步提升. 隨后在2018年提出了YOLOv3算法[15],對小目標(biāo)的識別率進(jìn)一步得到改善,同時也發(fā)布了YOLOv3的快速版本YOLOv3-tiny算法,檢測速度可達(dá)220 FPS. Ni等[16]在改進(jìn)YOLOv2算法,并且在此基礎(chǔ)上進(jìn)行了剪枝,提出了模型只有4 M的輕量化模型. 三維卷積的出現(xiàn),出現(xiàn)了很多基于3D -CNN的手勢識別方法,如Abavisani等[17]提出的多種模態(tài)的知識來訓(xùn)練單模3D -CNN. Nguyen等[18]利用手骨骼的3D坐標(biāo),實現(xiàn)手勢識別.

      1 YOLO算法模型

      本文提出的YOLOv3-tiny-T算法可以到達(dá)220 FPS識別速度. 相對于其他深度學(xué)習(xí)模型具有較高的速度,這對于將手勢識別應(yīng)用到嵌入設(shè)備中具有重大意義. 本文的主要工作有:①提出的YOLOv3-tiny-T網(wǎng)絡(luò),利用不同通道的信息融合,提高了網(wǎng)絡(luò)的識別率;②YOLOv3-tiny-T網(wǎng)絡(luò)保持了YOLOv3-tiny算法識別速度;③研究為手語識別以及行為識別提供了很好的研究價值.

      1.1 YOLO算法簡介

      YOLO算法模型有YOLOv1、YOLOv2和YOLOv3 3個系列的版本,同時還有一些快速版本. YOLOv1網(wǎng)絡(luò)結(jié)構(gòu)是在GoogleNet網(wǎng)絡(luò)20層的基礎(chǔ)上添加了4個卷積層和2個全連接層. YOLOv1算法將圖像分成7×7的網(wǎng)格(grid cell),當(dāng)物體中心落入某個網(wǎng)格中,這個網(wǎng)格就負(fù)責(zé)預(yù)測這個物體,每個網(wǎng)格分配2個邊界框,最終輸出的是7×7×30的張量. 其中30是通道數(shù),包含2個邊界框的5個坐標(biāo)信息:中心點坐標(biāo)x、y,預(yù)測框的長h,寬w和置信度cc,共10個通道. 中心點坐標(biāo)x和y是相對每一個網(wǎng)格而言的,用坐標(biāo)(0,0) 表示網(wǎng)格的左上角,用坐標(biāo)(1,1)表示網(wǎng)格的右下角,寬和高是相對于整個圖片而言的,取值在0到1之間. 置信度如式(1)所示

      (1)

      計算式為

      (2)

      剩下20個通道表示20類物體在網(wǎng)格中存在物體中心的情況下,是某個物體的概率,表示為P(ci|o). 預(yù)測物體的得分如式(3)所示

      式中P(ci)為20個物體中第i個物體的概率.

      YOLOv1將目標(biāo)檢測問題看成是回歸問題,損失函數(shù)采用均方誤差,如式(4)所示

      從著作權(quán)的角度看,對非物質(zhì)文化遺產(chǎn)的保護(hù)與知識產(chǎn)權(quán)制度的契合點存在于非物質(zhì)文化遺產(chǎn)的特點。非物質(zhì)文化遺產(chǎn)所具有的獨創(chuàng)性和可復(fù)制性正切合了著作權(quán)所保護(hù)的客體,比如我們民間剪紙藝術(shù)作品,它是民間剪紙藝術(shù)家通過繁瑣的體力和智力勞動所獨家制造出的具有可復(fù)制性的智力成果。根據(jù)我國《著作權(quán)法》的規(guī)定,作品是指“文學(xué)、藝術(shù)和科學(xué)領(lǐng)域內(nèi)具有獨創(chuàng)性并能以某種有形形式復(fù)制的智力創(chuàng)造成果?!庇纱?,作品應(yīng)當(dāng)是獨創(chuàng)性的、可復(fù)制性的,并且是存在于文學(xué)、藝術(shù)和科學(xué)領(lǐng)域內(nèi)的智力成果。民間剪紙藝術(shù)作品作為一種圖案,具備作品所必須具有的要素,是我國著作權(quán)法的保護(hù)客體。

      (4)

      YOLOv2算法模型在YOLOv1的基礎(chǔ)上進(jìn)行了一些改進(jìn). YOLOv2使用Darknet19為基本結(jié)構(gòu). Darknet19網(wǎng)絡(luò)結(jié)構(gòu)與VGG網(wǎng)絡(luò)結(jié)構(gòu)類似,效果相當(dāng),都是采用小卷積核操作. YOLOv2中借鑒了Faster R-CNN算法,引入了錨點框(anchor boxes),為每個網(wǎng)格生成更多的候選框. 同時在錨點框的選擇上,采用k-means聚類算法,選擇更接近對象的錨點框,使網(wǎng)絡(luò)收斂得更快,更容易學(xué)習(xí). 其中k-means聚類算法的距離使用交并比來衡量,距離計算如式(5)所示

      d(b,c)=1-U(b,c) ,

      (5)

      式中:c為聚類中心;U(b,c)為中心框和真實框的交并比.

      YOLOv2還使用批量規(guī)范化(batch normalization),對每一層的輸入進(jìn)行處理,大大提高了訓(xùn)練速度,并防止過擬合,取代了原來的Dorpout層. YOLOv2借鑒SSD中的細(xì)粒度特征,將淺層特征鏈接到深層特征中. YOLOv2在訓(xùn)練的過程中,每訓(xùn)練10步就會在320~608以32為間隔,在這10個尺寸里隨機(jī)更換一個尺寸,進(jìn)行變換尺寸訓(xùn)練,提高對不同大小圖片的泛化性能.

      YOLOv3算法模型是在YOLOv2模型的基礎(chǔ)上進(jìn)行了改進(jìn),使用更深的網(wǎng)絡(luò)結(jié)構(gòu)Darknet53. Darknet53網(wǎng)絡(luò)和ResNet101網(wǎng)絡(luò)的效果相近,但是Darknet53網(wǎng)絡(luò)的識別速度是RetinaNet101網(wǎng)絡(luò)的2倍. Darknet53網(wǎng)絡(luò)交替使用3×3、1×1的卷積和殘差結(jié)構(gòu)[19],同時使用FPN架構(gòu)(feature pyramid networks for object detection)[20]來實現(xiàn)多尺度檢測. YOLOv3使用9個錨點框,每個尺度對應(yīng)3個錨點框,小尺度使用大的錨點框,大尺度使用小的錨點框,有利于小目標(biāo)的檢測.

      1.2 YOLOv3-tiny算法簡介

      2 YOLO算法模型改進(jìn)

      本文對YOLOv3-tiny算法的主要改進(jìn)在于添加了1×1的卷積層. 1×1的卷積核可以將不同維度的特征融合,得到預(yù)設(shè)的通道數(shù). 當(dāng)?shù)玫降耐ǖ罃?shù)增加時,就起到了升維的作用;反之就起到了降維的作用. 本文使用1×1的卷積核的目的是進(jìn)行降維處理,以便減少參數(shù)、降低計算量,同時利用不同通道的信息融合提高網(wǎng)絡(luò)的識別率.

      在YOLOv3算法中使用了大量的3×3和1×1的卷積核,并且使用殘差網(wǎng)絡(luò). 3×3的卷積核負(fù)責(zé)尋找特征,1×1的卷積核負(fù)責(zé)壓縮通道數(shù). YOLOv3算法還使用步長為2,大小為3×3的卷積層,代替池化層,降低維度. 而在YOLOv3-tiny中除使用了少量的1×1的卷積核外,幾乎沒有使用其他比較好的網(wǎng)絡(luò)結(jié)構(gòu). 本實驗在YOLOv3-tiny網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上提出了YOLOv3-tiny-T網(wǎng)絡(luò),YOLOv3-tiny-T是在YOLOv3-tiny的6個最大池化層后依次添加1×1×8,1×1×16,1×1×32,1×1×64,1×1×128,1×1×256的卷積層,將最大池化后的通道數(shù)縮減為原來的1/2,減少了參數(shù)量和計算量,其結(jié)構(gòu)如圖3所示.

      3 實驗及結(jié)果分析

      3.1 實驗平臺

      實驗是在PC機(jī)上完成. PC的主要配置為Ubuntu16.04操作系統(tǒng),CPU為 E5-2660 v4,顯卡為TITAN Xp,內(nèi)存32 G. 實現(xiàn)框架為DarkNet,并使用OpenCV進(jìn)行圖像顯示.

      3.2 實驗數(shù)據(jù)

      提出的UST數(shù)據(jù)集是通過計算機(jī)攝像頭采集的1 203張圖片,包括5種手勢,分別定義為h0,h1,h2,h3和h4,如圖4所示. 同時每一種手勢中既有左手手勢又有右手手勢. 其中h0有231張,h1有249張,h2有240張,h3有234張,h4有249張. 利用圖像標(biāo)記軟件labelimg進(jìn)行人工標(biāo)記,其中80%用于訓(xùn)練,20%用于測試. 測試圖片一共有241張,為T1;另外又制作了122張圖片,為T2,其中h0和h1各有20張,h2有25張,h3有23張,h4有34張.

      3.3 評價標(biāo)準(zhǔn)

      實驗使用平均精度均值(mean average precision,mAP)作為評價標(biāo)準(zhǔn),他綜合考慮了查準(zhǔn)率和查全率. 平均精度均值首先需要計算每一個物體類別的平均精度(AP). 平均精度表示為

      (6)

      式中ρi為在這一類別的P-R曲線(查準(zhǔn)率-查全率曲線)上的點的縱坐標(biāo). 本文使用的是11點插值法,即在P-R曲線中取出11個數(shù)值,求解平均值.

      平均精度均值為每一個類別的平均精度的均值,如式(7)所示

      (7)

      式中n為目標(biāo)的類別數(shù).

      3.4 實驗結(jié)果

      實驗對YOLOv1,YOLOv2,YOLOv3以及YOLOv3-tiny和YOLOv3-tiny-T算法的mAP值以及圖片的檢測時間進(jìn)行對比,如表1所示. YOLOv1,YOLOv2和YOLOv3在Test2測試集上的漏檢和誤檢個數(shù)對比如表2所示. YOLOv3-tiny和YOLOv3-tiny-T 2種算法在每一種手勢的AP(average precision)值對比,如表3所示. 此外為了驗證YOLOv3-tiny-T算法的快速性,本文中與Light YOLO進(jìn)行了FPS(每秒傳輸幀數(shù))對比,如表4所示.

      表1 YOLO系列算法mAP對比Tab.1 Comparison of experimental mAP

      3.4.1平均精度均值對比

      從表1的對比中可以看出,YOLOv1算法在T1測試集中的mAP值最低,而在T2測試集中的mAP值最高.T1測試集是在1 203張圖片中隨機(jī)劃分的,與訓(xùn)練數(shù)據(jù)具有很高的相似性,而T2測試集與訓(xùn)練數(shù)據(jù)差異較大. 對比表明,YOLOv1的泛化能力較好. YOLOv1算法中使用2個邊界框,對于多目標(biāo)的識別定位誤差較大,而本數(shù)據(jù)集一張圖片中只有一個目標(biāo),具有較高的mAP值. 而YOLOv2和YOLOv3的很多改進(jìn)針對的是小目標(biāo)和一個網(wǎng)格中可能出現(xiàn)多目標(biāo)的情況進(jìn)行改進(jìn),但對于本數(shù)據(jù)集來說,可能會增加分類誤差. YOLOv2和YOLOv3的網(wǎng)絡(luò)較深,對于單一的目標(biāo)容易導(dǎo)致過擬合. 從表2中的誤檢和漏檢對比可以看出,YOLOv1算法存在漏檢,YOLOv2和YOLOv3不存在漏檢,但是有誤檢,證實了YOLOv1算法具有較大的定位誤差,而YOLOv2和YOLOv3具有較大的分類誤差.

      3.4.2檢測時間對比

      從表1的檢測時間對比表明,YOLOv1算法在本數(shù)據(jù)集上的檢測速度最慢,其次是YOLOv3算法,YOLOv3-tiny-T算法和YOLOv3-tiny算法檢測時間最快. YOLOv1算法的網(wǎng)絡(luò)結(jié)構(gòu)中使用了全連接層和大的卷積核,增加了網(wǎng)絡(luò)的計算代價. 而在YOLOv2算法和YOLOv3算法使用小卷積核,用卷積層替代全連接,使用批量規(guī)范化取代Dropout層,大大加快了運(yùn)算速度,降低了計算量. YOLOv3算法比YOLOv2慢,是由于YOLOv3使用Darknet53網(wǎng)絡(luò),具有更深的網(wǎng)絡(luò)結(jié)構(gòu). YOLOv3-tiny-T算法和YOLOv3-tiny算法識別速度最高是由于網(wǎng)絡(luò)結(jié)構(gòu)比YOLOv2簡單.

      3.4.3YOLOv3-tiny-T和YOLOv3-tiny對比

      從表3的對比可以看出,在T1測試集上YOLOv3-tiny-T算法和YOLOv3-tiny算法沒有差別,但在T2測試集上,除了在h2上前者的AP值比后者低以外,其他均高于后者. 綜合各項來看YOLOv3-tiny-T算法的mAP值為92.24%,YOLOv3-tiny的mAP值為87.24%. 從表2的對比可以看出,YOLOv3-tiny算法與YOLOv3-tiny-T算法的識別速度幾乎沒有什么差別. 圖5為YOLOv3-tiny-T算法在較暗、模糊圖以及近膚色背景下的檢測以及近膚色背景下的檢測效果圖. 圖6為YOLOv3-tiny-T算法檢測出現(xiàn)的重框和漏檢情況.

      3.4.4YOLOv3-tiny-T和Light YOLO對比

      Light YOLO模型是基于YOLOv2模型的改進(jìn),在結(jié)構(gòu)上去掉了YOLOv2模型第6個卷積塊,添加了空間增強(qiáng)模塊. Light YOLO模型對小目標(biāo)的識別率更高,并對模型進(jìn)行剪枝. Light YOLO模型的識別率較高,但是識別速度比本文的模型要慢. 而YOLOv3-tiny-T中添加的1×1的卷積旨在保持高速性,來提高性能. 表4中YOLOv3-tiny-T和Light YOLO的FPS對比可以發(fā)現(xiàn),YOLOv3-tiny-T的FPS在速度上相當(dāng)于Light YOLO模型的2倍. 在模型的實時性上具有比較大的優(yōu)勢.

      4 結(jié) 論

      將YOLO算法應(yīng)用到手勢識別中,取得了非常不錯的效果,在模糊圖像、背景近膚色和光線較暗等多種情況下,識別的準(zhǔn)確率都較高. 通過YOLO系列算法的對比實驗,得出了在目標(biāo)比較單一的情況下,YOLOv1算法具有較高的平均精度均值,但速度較慢,YOLOv3-tiny算法和YOLOv3-tiny-T算法具有較快的速度. 同時在YOLOv3-tiny算法的基礎(chǔ)上提出的YOLOv3-tiny-T算法在保證了識別速度的情況下,平均精度均值獲得了5%左右的提升. 實驗表明,YOLOv3-tiny-T具有較好的綜合性能. 此外,YOLOv3-tiny-T速度上雖然可以達(dá)到Light YOLO快2倍的速度,但是在精度和小目標(biāo)識別上還有研究的空間.

      猜你喜歡
      網(wǎng)絡(luò)結(jié)構(gòu)手勢識別率
      基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測
      挑戰(zhàn)!神秘手勢
      基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識別率的關(guān)系
      V字手勢的由來
      提升高速公路MTC二次抓拍車牌識別率方案研究
      勝利的手勢
      高速公路機(jī)電日常維護(hù)中車牌識別率分析系統(tǒng)的應(yīng)用
      基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
      知識網(wǎng)絡(luò)結(jié)構(gòu)維對于創(chuàng)新績效的作用機(jī)制——遠(yuǎn)程創(chuàng)新搜尋的中介作用
      滬港通下A+ H股票網(wǎng)絡(luò)結(jié)構(gòu)演化的實證分析
      嵊州市| 绍兴县| 宝山区| 昌黎县| 济南市| 赣榆县| 大关县| 白朗县| 太湖县| 吴堡县| 沧州市| 额尔古纳市| 祁阳县| 东宁县| 德安县| 古田县| 延川县| 琼海市| 宣威市| 延长县| 通辽市| 靖江市| 桃江县| 南阳市| 溆浦县| 延长县| 新兴县| 铅山县| 松原市| 乐昌市| 永平县| 桃江县| 健康| 教育| 岗巴县| 连城县| 麻城市| 科技| 普陀区| 永和县| 大厂|