• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于改進YOLOv3的手勢實時識別方法

    2020-03-19 12:24:56劉芝國周文軍劉佳慧
    計算機工程 2020年3期
    關鍵詞:圖像識別手勢像素

    張 強,張 勇,劉芝國,周文軍,劉佳慧

    (合肥工業(yè)大學 計算機與信息學院,合肥 230601)

    0 概述

    近年來,隨著人工智能技術的快速發(fā)展,人機交互的方式也發(fā)生了很大改變,從打字、觸屏到語音,交互方式的發(fā)展給人們的操作帶來了便利。然而,更為高效、舒適的交互方式是讓機器能夠直接理解人的肢體語言。手勢是一種包含了較多信息量的肢體語言,具有自然、友好、高效和直觀等優(yōu)點,因此,基于手勢的人機交互引起了人們的關注并得到廣泛應用[1]。

    在人機交互技術中,手勢識別技術是重要的組成部分[2]。傳統(tǒng)的基于人工建模方式的手勢識別技術有基于模板匹配、基于數(shù)據手套、基于隱馬爾科夫模型等。文獻[3]提出了一種基于多特征融合和模板匹配的手勢識別方法,其平均識別準確率(mean Average Precision,mAP)可以達到96.7%,識別速度為15 FPS。文獻[4]提出了一種基于數(shù)據手套的手勢識別方法,其mAP達到93.19%。文獻[5]設計一種基于隱馬爾科夫模型的同步手勢分割和識別方法,該方法的mAP達到92.22%。以上方法在準確率方面取得了較好的效果,但要滿足靜態(tài)手勢的實時識別要求,識別速度和準確率都需要進一步提高。除此之外,通過人工建模方式設計手勢描述特征的過程十分繁瑣,且無法深度挖掘更高層次、更多維度的特征信息,導致基于傳統(tǒng)方法的模型范性差,很難達到實時檢測的目的。

    近年來,深度學習、計算機視覺和計算機硬件的發(fā)展使得手勢實時檢測成為可能。文獻[6]提出一種基于人工神經網絡的方法,以進行印度手語識別,該方法的mAP為91.11%。文獻[7]借助Kinect設備提出一種基于深度信息的手勢識別方法,其mAP達到95%。文獻[8]提出一種將遷移學習應用于手勢識別的方法,其mAP提高到97.81%。文獻[9]提出一種基于SSD的靜態(tài)手勢實時識別方法,該方法的mAP達到93.3%,識別速度為30 FPS,在mAP和識別速度上有了較大的改進。

    文獻[10]在YOLOv2[11]的基礎上提出YOLOv3,YOLOv3是目前最優(yōu)秀的目標檢測算法之一,在檢測實時性方面表現(xiàn)突出。YOLOv2已經成功應用于行人檢測[12]、皮膚診斷[13]等領域,作為YOLOv2的改進版,YOLOv3檢測速度更快、檢測精度更高,因此,將該方法應用于靜態(tài)手勢實時識別時取得了較好的效果,其mAP達到95.9%,檢測速度高達48 FPS。但是,YOLOv3在識別精度和速度上仍然具有改進的空間,而且由于訓練集數(shù)量龐大,導致其訓練時間過長。為解決上述問題,本文對YOLOv3方法進行改進,借助Kinect設備,將實驗數(shù)據集由RGB圖像改為IR、Registration of RGB、RGB和Depth 4種類型的Kinect圖像,進一步提高mAP[14],采用k-means聚類算法對初始候選框參數(shù)進行優(yōu)化,以提高識別速度[15]。在此基礎上,加入遷移學習方法,對模型的基礎特征提取器進行改進,從而提高模型的效率[16]。

    1 靜態(tài)手勢實時識別方法

    本文提出一種基于YOLOv3的靜態(tài)手勢實時識別方法,該方法的總體流程如圖1所示,其包括訓練和測試2個部分。訓練部分為模塊Ⅰ~模塊Ⅲ,測試部分為模塊Ⅳ。

    圖1 方法總體流程Fig.1 Overall process of the method

    1.1 訓練集制作

    相比多數(shù)公共手勢數(shù)據集使用的RGB圖像,Kinect圖像可以挖掘手勢圖像的深度信息[17-19],原因是Kinect具有紅外線發(fā)射器和由紅外線CMOS(Complementary Metal-Oxide-Semiconductor)攝影機構成的3D結構光深度感應器,可以采集IR、Registration of RGB、RGB和Depth圖像。因此,本文借助Kinect設備自制手勢數(shù)據集,訓練集制作過程分為4步,如圖2所示,其中,圖片分辨率單位為像素。

    圖2 訓練集制作過程示意圖Fig.2 Schematic diagram of training set generation process

    訓練集制作過程具體如下:1)使用Kinect設備為每一個手勢場景都拍攝IR、Registration of RGB、RGB和Depth圖像各一張,圖片分辨率為600像素×450像素;2)將每張圖片進行復制,并分別按比例調整它們的分辨率大小為300 像素×225 像素、400 像素×300 像素、500 像素×375 像素,使用這種方法將數(shù)據集擴增為原來的4倍;3)將上一步中得到的每張圖片進行人工標記手勢區(qū)域,注釋手勢的類別信息和位置信息,生成手勢標簽文件;4)將每一張用于訓練的Kinect圖像和對應的手勢標簽文件組合在一起,作為訓練集。

    1.2 遷移Darknet-53模型生成

    本文模塊中使用的Darknet-53模型是YOLOv3的基礎特征提取器[10],其作用是提取訓練圖像的特征。Darknet-53網絡架構如圖3所示。

    圖3 Darknet-53網絡架構Fig.3 Network architecture of Darknet-53

    Darknet-53網絡模型結合了YOLOv2的基礎特征提取器Darknet-19[9]和深度殘差網絡[20],由連續(xù)的3×3卷積層和1×1殘差層組成。Darknet-53是模型訓練過程中最重要的部分,為解決模型訓練時間過長的問題,本文又結合了遷移學習方法使模型的訓練更加高效。

    根據文獻[21-22]對遷移學習的研究和實踐可以得出,將訓練好的模型參數(shù)遷移到新的模型來幫助新模型訓練,可以提高新模型的訓練效果。因此,將ASL數(shù)據集[23]下訓練好的Darknet-53網絡參數(shù)遷移到本文基礎網絡中并對其進行初始化,過程如下:

    1)從ASL數(shù)據集中選取A、B、C、D、E、F、G、H、I和K共10組字母手勢的樣本,每組包含100個樣本,來自不同的5個人,每個樣本由一張RGB圖片和一張Depth圖片組成,一共2 000張手勢圖片,部分樣本示例如圖4所示。

    圖4 ASL數(shù)據集部分樣本示例Fig.4 Some samples of ASL dataset

    2)將上一步中選取的2 000張手勢圖片進行復制,并分別按比例調整它們的分辨率大小為300像素×225像素、400 像素×300像素、500像素×375像素、600像素×450像素,使用這種方法將數(shù)據集擴增為原來的4倍,一共得到8 000張手勢圖片。

    3)將上一步中得到的8 000張手勢圖片經過Darknet-53進行預訓練,將訓練好的網絡參數(shù)遷移到基礎網絡中進行初始化,生成遷移Darknet-53模型。

    經過上述過程,訓練集不再經過Darknet-53進行特征提取,而是直接經過遷移Darknet-53模型來提取特征。

    1.3 初始候選框參數(shù)改進

    YOLOv3在訓練過程中將圖像劃分為S×S的網格(cell),每個cell預測B個檢測邊界框及其置信度PConf(O)[24]。

    PConf(O)=Pr(O)×I

    (1)

    (2)

    (3)

    YOLOv3在目標檢測過程中引入候選區(qū)域框(anchor box)[25]。候選區(qū)域框是一組固定尺寸和寬高比的初始候選框,其性能優(yōu)劣直接影響到目標檢測的速度和目標框位置的精度。為得到最優(yōu)的anchor參數(shù),本文采用k-means聚類算法對自制數(shù)據集中手工標記的目標框進行聚類分析,找到最優(yōu)的k值(anchor box個數(shù))和k個聚類中心的寬高維度,作為網絡配置文件中anchor的參數(shù)。

    本文使用手肘法確定k值,指標是誤差平方和(Sum of the Squared Errors,SSE)[26-27],SSE計算如下:

    (4)

    其中,Ci是第i個簇,p是Ci中的樣本點,mi是Ci的重心(Ci中所有樣本的均值),SSE是所有樣本的聚類誤差,代表了聚類效果的好壞。

    手肘法的核心思想是:隨著k值的增大,樣本劃分更加精細,SSE逐漸變小,當k值達到最優(yōu)聚類數(shù)時,繼續(xù)增加k值對聚類程度的提高會迅速變小,表現(xiàn)為SSE下降幅度驟減,SSE和k的關系圖呈現(xiàn)出一個手肘的形狀,肘部對應的k值就是所需的最優(yōu)聚類數(shù)。通常k-means聚類算法采用歐式距離代表樣本點和樣本均值之間的誤差,這里的樣本點是預測框,樣本均值是真實框,使用I反映預測框和真實框的誤差,I越大,表明誤差越小。用式(5)表示樣本的聚類誤差:

    (5)

    其中,Ip表示樣本p的I,用1-Ip表示樣本p的誤差。本文在自制數(shù)據集上使用手肘法,繪制SSE和k的關系曲線如圖5所示。

    圖5 SSE隨k值的變化趨勢Fig.5 SSE changing with k value

    1.4 四類Kinect圖像識別結果融合

    圖1中的模塊Ⅳ是整個方法流程的測試部分,測試圖像由4種類型的Kinect圖像構成,不同于只由單個測試圖像決定特定場景中某個手勢的分類方法,本文方法融合了4種類型的Kinect測試圖像對某個手勢的分類結果,用m表示4種類型的Kinect圖像,m∈{1,2,3,4},m=1,2,3,4分別代表IR、Registration of RGB、RGB和Depth圖像。用am表示第m種類型圖像的置信度??紤]到Registration of RGB圖像來源于RGB圖像,設定其置信度為RGB圖像的一半,IR圖像和Depth圖像由其獨立的傳感器生成,設定置信度與RGB圖像相同。由此設定四類圖像的置信度分別為:

    用n表示字母手勢,n∈{1,2,3,4,5,6,7,8,9,10},n=1,2,3,4,5,6,7,8,9,10 分別代表字母手勢A,B,C,D,E,F,G,H,I,K。Pm(n)代表該待測手勢被第m種類型圖像識別為字母手勢n的概率,Pm(n)∈{1,0},當且僅當該待測手勢被第m種類型圖像識別為字母手勢n時,Pm(n)=1;否則,Pm(n)=0。用p(n)表示融合四類Kinect圖像識別結果后,該待測手勢最終被識別為字母手勢n的概率。p(n)的計算公式如下:

    (6)

    在p(n)中選出概率最大的n所代表的字母,即為最終識別結果。

    圖6 4種類型的Kinect圖像原圖及其識別結果顯示圖Fig.6 Four types of Kinect original images and theirrecognition results

    上述判別方法對動態(tài)視頻同樣有效,原因是該方法的識別不僅針對靜態(tài)圖片,還可以是拍攝的一段包含4種類型Kinect圖像的視頻,或者調用Kinect攝像頭同時輸出4種類型的Kinect圖像來進行實時識別。測試部分是本文方法整個流程中的最后一個模塊,經過4個模塊,可以完成對自制靜態(tài)手勢數(shù)據集的實時識別,下文將通過實驗驗證本文方法的有效性。

    2 實驗結果與分析

    2.1 數(shù)據集

    為了充分地對比RGB圖像和Kinect圖像對識別結果的影響,本文的實驗數(shù)據集全部采用自制數(shù)據集,拍攝工具為網絡攝像頭mosengsm rqeso008和Microsoft Kinect 2.0。在26個字母手勢中選取10個字母手勢作為代表,分別為A、B、C、D、E、F、G、H、I、K。為驗證方法的魯棒性,在制作數(shù)據集時,圖像分辨率、單張圖片包含的手勢個數(shù)、光線強度、拍攝的距離遠近、背景、手勢重疊情況不盡相同。分別用網絡攝像頭和Kinect設備拍攝RGB圖像數(shù)據集和Kinect圖像數(shù)據集,部分圖像數(shù)據集示例如圖7所示。

    圖7 自制數(shù)據集的部分示例圖片F(xiàn)ig.7 Some sample pictures of self-made dataset

    在每種數(shù)據集中,都按照單張圖片包含的手勢個數(shù)小于等于3和大于3分別拍攝不同條件下的7組手勢圖片各400張。這7組不同條件分別指:正常情況(光照強度為200 lx),光線較暗(光照強度為5 lx),光線較亮(光照強度為10 000 lx),手勢離攝像頭距離較近(小于1 m,以下簡稱距離較近),手勢離攝像頭距離較遠(大于50 m,以下簡稱距離較遠),手勢重疊,背景復雜。除了距離較近和距離較遠2組條件外,其余組在拍攝過程中手勢離攝像頭的距離都在2 m~10 m之間。

    每組的手勢數(shù)量統(tǒng)計如表1所示,拍攝的RGB圖像和Kinect圖像數(shù)據集包含的手勢總數(shù)分別為16 871和16 892。從拍攝的每組圖片中隨機抽取100張作為測試圖片,剩下的300張作為訓練圖片并人工標記手勢標簽。本文的網絡攝像頭和Kinect設備拍攝的圖片分辨率為600 像素×450 像素,為了對數(shù)據集進行擴增,對每張圖片進行復制并按比例分別調整它們的分辨率大小為300像素×225像素、400像素×300像素、500像素×375像素,使用這種方法將數(shù)據集擴增為原來的4倍,總計16 800張RGB訓練圖片、5 600張RGB測試圖片、16 800張Kinect訓練圖片(IR、Registration of RGB、RGB和Depth圖片各4 200張)和5 600張Kinect測試圖片(IR、Registration of RGB、RGB和Depth圖片各1 400張),以作為下文的實驗數(shù)據集。

    表1 自制數(shù)據集手勢數(shù)量統(tǒng)計Table 1 Statistics of gestures in self-made dataset

    2.2 結果分析

    2.2.1 Kinect數(shù)據集與RGB數(shù)據集的mAP對比

    將自制的16 800張Kinect訓練圖片及其手勢標簽文件作為圖1中模塊Ⅰ的輸入,按照圖1所示的流程,在模塊Ⅳ中使用自制的5 600張Kinect測試圖片進行手勢識別得到識別結果,分別統(tǒng)計各類型圖片的mAP和融合四類Kinect圖像識別結果得出的mAP。然后將訓練集改為自制的16 800張RGB訓練圖片及其手勢標簽文件經過模塊Ⅰ進行訓練,按照同樣的流程,只是在模塊Ⅳ的識別部分,減少融合判別的方法,對5 600張RGB測試圖片進行手勢識別得到識別結果并計算mAP。經過上述過程得出的結果為:4種Kinect測試圖像的mAP分別為95.1%(IR圖像)、93.8%(Registration of RGB圖像)、95.0%(RGB圖像)、94.3%(Depth圖像);融合四類Kinect測試圖像識別結果的mAP為99.8%;RGB測試圖像的mAP為95.9%。從實驗結果可以看出,雖然使用Kinect單一類型圖像的mAP不及RGB圖像,但是融合四類Kinect圖像識別結果后,mAP提高到99.8%,比RGB圖像的95.9%高出3.9個百分點。為進一步研究Kinect 4種類型的圖像在不同條件下的性能表現(xiàn),另外進行一組對比實驗,分別將RGB圖像訓練集和Kinect圖像訓練集中的7組不同條件下的數(shù)據集單獨取出進行訓練和識別,結果如表2所示。由表2可以看出,當光線較暗或較亮時,RGB圖像和Registration of RGB圖像識別精度受到很大影響,而IR圖像和Depth圖像具有較高的識別精度,其中,IR圖像識別精度更高;當手勢離攝像頭較近或較遠時,各種類型的圖像識別精度并未受到影響;當手勢發(fā)生重疊時,Depth圖像可以提供很好的識別效果;在背景復雜的情況下,只有Registration of RGB圖像保持較高的識別精度。因此,IR圖像可以在光線較亮或較暗情況下提高識別精度,Registration of RGB圖像可以在背景復雜情況下提高識別精度,RGB圖像可以在正常情況下保持較高的識別精度,Depth圖像可以在手勢重疊的情況下提高識別精度,而不論在上述哪種情況下,使用融合四類Kinect圖像識別結果的方法取得的識別正確率總是最高。因此,融合四類Kinect圖像識別結果的方法可以有效降低光線強度變化、背景和重疊情況對手勢識別精度的影響。

    表2 不同條件下的數(shù)據集識別正確率對比Table 2 Comparison of dataset recognition accuracy under different conditions %

    2.2.2 遷移學習實驗與結果

    按照圖1模塊Ⅱ中遷移Darknet-53模型的生成方式,用同樣的方式生成遷移VGG-16模型、遷移Darknet-19模型、遷移Resnet101模型,然后按照圖1的流程,訓練集使用自制的16 800張Kinect訓練圖片及其手勢標簽文件,測試集使用自制的5 600張Kinect測試圖片,融合四類圖像的識別結果,分別使用無遷移的Darknet-53模型、遷移VGG-16模型、遷移Darknet-19模型、遷移Resnet101模型和遷移Darknet-53模型進行訓練,并統(tǒng)計隨著迭代次數(shù)的增加mAP的變化情況,結果如圖8所示。

    圖8 各遷移學習模型的mAP變化情況Fig.8 Change of mAP of different transfer learning models

    隨著迭代次數(shù)的增加,將各遷移學習模型mAP趨于穩(wěn)定的值作為平均識別正確率,從訓練開始到mAP值趨于穩(wěn)定所花費的時間作為訓練時間,各模型性能對比結果如表3所示。

    表3 5種遷移學習模型性能對比Table 3 Performance comparison of five transferlearning models

    從表3可以看出,使用無遷移的Darknet-53模型比遷移VGG-16模型、遷移Darknet-19模型和遷移Resnet101模型訓練時間更短,mAP更高,使用遷移Darknet-53模型取得了最短的訓練時間和最高的mAP,該結果表明,在基礎特征提取器的比較中,Darknet-53比VGG-16、Darknet-19、Resnet101效果更好。因此,本文方法沿用YOLOv3中的Darknet-53模型,并在其中加入遷移學習技術,將訓練時間從16 h減小到12 h,減小了25%,且mAP保持不變。

    2.2.3 初始候選框優(yōu)化實驗與結果

    原YOLOv3中設定anchor的個數(shù)為9[10],9組寬高維度分別為:(10×13),(16×30),(33×23),(30×61),(62×45),(59×119),(116×90),(156×198),(373×326),它們是在COCO數(shù)據集[28]上進行維度聚類的結果。本文使用圖1模塊Ⅲ中的k-means聚類算法在自制數(shù)據集上進行維度聚類,得到的最優(yōu)anchor個數(shù)為8,對應的8組寬高維度分別為:(19×29)、(32×36)、(30×56)、(41×78)、(50×56)、(53×99)、(68×67)、(104×178)。使用自制的16 800張Kinect訓練圖像作為訓練集,分別使用YOLOv3的候選框參數(shù)和本文方法的候選框參數(shù),調用Kinect攝像頭進行實時識別,測試這2種方案的平均重疊率和識別速度,結果如表4所示。

    表4 候選框生成方案性能對比結果Table 4 Results of performance comparison of candidateframe generation schemes

    從表4可以看出,YOLOv3的識別速度達到48 FPS,基本滿足實時識別的要求,但是本文通過圖1模塊Ⅲ的k-means聚類方法對初始候選框參數(shù)進行改進,得到了更高的平均重疊率,且識別速度達到了52 FPS。

    2.2.4 手勢識別方法對比實驗與結果

    本文對比其他一些先進的深度學習方法(Faster R-CNN[25]、SSD[9]、YOLOv2[11]和RetinaNet-101[20]),訓練集全部采用自制的16 800張Kinect訓練圖像,測試過程調用Kinect攝像頭同時輸出4種類型的Kinect圖像進行實時識別。實驗環(huán)境如下:硬件方面,采用的GPU為INVDIA GTX Titan X,CPU為Intel Core i7-7700K,主頻4.2 GHz,內存32 GB;軟件方面,采用的操作系統(tǒng)為Ubuntu 16.04,框架為tensorflow1.3。分別計算并統(tǒng)計上述方法的mAP和識別速度,結果如圖9所示。其中,網絡模型訓練參數(shù)部分依據經驗設定,學習率、策略、批尺寸、分步、最大批、分步系數(shù)、動量和衰減具體如表5所示。從圖9可以看出,在mAP方面,本文方法和RetinaNet-101方法相比其他方法效果更好;在識別速度方面,本文方法和YOLOv2方法優(yōu)于其他方法。相比Faster R-CNN、SSD、YOLOv2和RetinaNet-101方法,本文方法在mAP和識別速度上都具有明顯優(yōu)勢。

    圖9 不同方法的mAP和識別速度對比Fig.9 Comparison of mAP and recognition speedof different methods

    表5 各方法的網絡模型訓練參數(shù)設置Table 5 Parameter settings of network model training for each method

    3 結束語

    本文提出一種基于改進YOLOv3的靜態(tài)手勢實時識別方法,數(shù)據集為自制的4種類型的Kinect圖像,基礎特征提取器采用遷移Darknet-53模型,通過k-means聚類算法對初始候選框參數(shù)進行改進,識別過程中融合四類Kinect圖像的識別結果。實驗結果表明,該方法的mAP為99.8%,識別速度高達52 FPS,相比原YOLOv3方法訓練時間縮短25%。下一步將通過改進YOLOv3的網絡結構和參數(shù)以及擴充數(shù)據集的方式來解決識別過程中出現(xiàn)的識別錯誤問題。此外,本文方法僅針對靜態(tài)的手勢進行實時識別,對連續(xù)動態(tài)的手勢進行快速識別也是今后的研究方向。

    猜你喜歡
    圖像識別手勢像素
    趙運哲作品
    藝術家(2023年8期)2023-11-02 02:05:28
    像素前線之“幻影”2000
    挑戰(zhàn)!神秘手勢
    基于Resnet-50的貓狗圖像識別
    電子制作(2019年16期)2019-09-27 09:34:50
    “像素”仙人掌
    高速公路圖像識別技術應用探討
    V字手勢的由來
    圖像識別在物聯(lián)網上的應用
    電子制作(2018年19期)2018-11-14 02:37:04
    圖像識別在水質檢測中的應用
    電子制作(2018年14期)2018-08-21 01:38:16
    勝利的手勢
    嵩明县| 顺平县| 安福县| 崇义县| 普兰店市| 武清区| 洞口县| 嘉峪关市| 博罗县| 岳普湖县| 海安县| 九龙坡区| 郴州市| 德昌县| 天门市| 华池县| 托克托县| 车致| 香河县| 库尔勒市| 屏南县| 望奎县| 仙桃市| 垫江县| 赤水市| 封开县| 略阳县| 宣武区| 布尔津县| 句容市| 博爱县| 平安县| 纳雍县| 新乐市| 错那县| 安仁县| 峨眉山市| 安平县| 龙井市| 福建省| 伊金霍洛旗|