• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于卷積神經(jīng)網(wǎng)絡(luò)的手勢(shì)識(shí)別

    2018-07-25 12:05:30楊紅玲宣士斌莫愿斌
    關(guān)鍵詞:手勢(shì)識(shí)別率決策樹

    楊紅玲,宣士斌,莫愿斌

    (廣西民族大學(xué) 信息科學(xué)與工程學(xué)院,廣西 南寧 530006)

    0 引 言

    近年來(lái)隨著科學(xué)技術(shù)的高速發(fā)展,人機(jī)交互的方式得到了很大改變,各種新型的人機(jī)交互方式不斷出現(xiàn),鼠標(biāo)鍵盤的交互方式變?yōu)橛|摸屏與語(yǔ)音,交互形式變得多樣化、人性化。而更為高效的交互形式是讓機(jī)器能夠理解人的肢體語(yǔ)言,在各類肢體語(yǔ)言中手勢(shì)最為常見,可將它作為一種簡(jiǎn)單、自由的人機(jī)交互手段。

    基于手勢(shì)進(jìn)行人機(jī)交互時(shí),一個(gè)很重要的過程是對(duì)手勢(shì)進(jìn)行識(shí)別。手勢(shì)識(shí)別時(shí),首先提取手勢(shì)的特征,然后對(duì)所提取的特征根據(jù)有效的識(shí)別方法進(jìn)行手勢(shì)識(shí)別。常見的手勢(shì)識(shí)別方式有很多,例如基于神經(jīng)網(wǎng)絡(luò)的識(shí)別方法具有較強(qiáng)的識(shí)別分類能力,但是如果采用的神經(jīng)網(wǎng)絡(luò)層數(shù)較淺,很容易出現(xiàn)過擬合現(xiàn)象[1-2];基于幾何特征的識(shí)別方法通過提取手勢(shì)結(jié)構(gòu)、邊緣、輪廓等特征進(jìn)行手勢(shì)識(shí)別,具有良好的穩(wěn)定性,但是不能在提升樣本量的同時(shí)提升識(shí)別率[3-5];基于隱馬爾可夫模型的識(shí)別方法雖然具有描述手勢(shì)時(shí)空變化的能力,但識(shí)別速度卻不盡如人意[6]。隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)在計(jì)算機(jī)視覺的迅速發(fā)展,基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法得到了更多的關(guān)注。其中基于深度卷積神經(jīng)網(wǎng)絡(luò)具有局部連接、權(quán)值共享、深度層次化結(jié)果、自動(dòng)特征提取等特點(diǎn),給手勢(shì)識(shí)別[7-8]帶來(lái)了新的思路。

    因此針對(duì)手勢(shì)變化的復(fù)雜性,通過對(duì)比支持向量機(jī)、決策樹、隨機(jī)森林和鄰近算法在手勢(shì)識(shí)別中的特點(diǎn)和存在的問題,提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的手勢(shì)識(shí)別方法。該方法提取手勢(shì)的骨架與邊緣相融合的特征圖,將特征圖作為深度卷積神經(jīng)網(wǎng)絡(luò)的輸入,通過學(xué)習(xí)獲取分類手勢(shì)時(shí)的分類模型,實(shí)現(xiàn)手勢(shì)識(shí)別。

    1 基于機(jī)器學(xué)習(xí)的手勢(shì)識(shí)別

    利用計(jì)算機(jī)代替人學(xué)習(xí)提高自身的處理問題的能力就是機(jī)器學(xué)習(xí)。隨著計(jì)算機(jī)技術(shù)的高速發(fā)展,使用機(jī)器學(xué)習(xí)的領(lǐng)域逐漸擴(kuò)大,基于機(jī)器學(xué)習(xí)的方法已經(jīng)在語(yǔ)音、圖像、文本、金融等領(lǐng)域取得了突破性進(jìn)展。

    文中通過對(duì)比常見的有監(jiān)督學(xué)習(xí)算法,從中選擇最優(yōu)的學(xué)習(xí)算法進(jìn)行手勢(shì)識(shí)別。算法的輸入為采集得到的原始手勢(shì)圖像,將原始圖像通過濾波、去除噪聲等預(yù)處理后進(jìn)行骨架與邊緣特征提取,獲取這兩種特征相融合的特征圖,然后將融合后的特征作為輸入,訓(xùn)練支持向量機(jī)、決策樹、隨機(jī)森林和卷積神經(jīng)網(wǎng)絡(luò)的手勢(shì)識(shí)別模型,通過對(duì)比選取最優(yōu)的分類模型作為輸出來(lái)判斷手勢(shì)所代表的含義。具體算法流程如圖1所示。

    圖1 手勢(shì)識(shí)別算法流程

    1.1 特征提取

    由于手勢(shì)變化的復(fù)雜性,人們?cè)谶M(jìn)行手勢(shì)識(shí)別時(shí)更加關(guān)注手勢(shì)本身所代表的含義,而原始的手勢(shì)圖像中包含很多不必要的細(xì)節(jié)信息,從而增加了識(shí)別難度。為了增加手勢(shì)識(shí)別的準(zhǔn)確率,減少計(jì)算的復(fù)雜度,將手勢(shì)的骨架特征與邊緣特征相融合作為手勢(shì)識(shí)別的輸入,以減少不必要的細(xì)節(jié)信息對(duì)手勢(shì)識(shí)別的干擾。

    骨架作為手勢(shì)的一種表示形式,能夠保持手勢(shì)體的幾何、形狀、拓?fù)湫畔?,能夠有效地描述手?shì)。因此,骨架能夠很好地描述手勢(shì)所代表的物理含義,可以將手勢(shì)骨架信息作為一類手勢(shì)識(shí)別的特征描述,手勢(shì)骨架提取結(jié)果如圖2(b)所示。

    雖然單一的手勢(shì)骨架特征能夠很好地解釋手勢(shì)所代表的含義,但是在提取不準(zhǔn)確或者一定的條件下,骨架特征信息會(huì)有一定的缺失。對(duì)此,進(jìn)一步利用形態(tài)學(xué)算子提取手勢(shì)二值圖像的邊緣,獲取具有更好解釋效果的手勢(shì)邊緣圖像,然后將其手勢(shì)骨架圖像相結(jié)合作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,獲取更好的識(shí)別效果,融合結(jié)果如圖2(d)所示。

    圖2 多特征融合效果圖

    1.2 手勢(shì)識(shí)別

    1.2.1 基于支持向量機(jī)的手勢(shì)識(shí)別

    支持向量機(jī)是建立在VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的機(jī)器學(xué)習(xí)算法,能夠很好地解決非線性以及高維度識(shí)別的問題。由于手勢(shì)本身的復(fù)雜性,因此可以考慮將其引入到手勢(shì)識(shí)別,將融合后的特征圖像轉(zhuǎn)化為支持向量機(jī)訓(xùn)練時(shí)所需要的一維特征向量并作為輸入,訓(xùn)練獲取分類模型,進(jìn)行手勢(shì)識(shí)別。

    1.2.2 基于決策樹的手勢(shì)識(shí)別

    決策樹學(xué)習(xí)是以實(shí)例樣本為基礎(chǔ)的歸納學(xué)習(xí)算法,可以從一組無(wú)次序、無(wú)規(guī)則的事例樣本中推理出決策樹所表示形式的分類器和預(yù)測(cè)模型,從而實(shí)現(xiàn)對(duì)未知數(shù)據(jù)樣本的分類或預(yù)測(cè)。文中采用ID3學(xué)習(xí)算法生成決策樹并進(jìn)行剪枝,通過手勢(shì)融合特征圖像樣本訓(xùn)練生成決策樹模型進(jìn)行手勢(shì)預(yù)測(cè)。在利用決策樹生成算法對(duì)手勢(shì)進(jìn)行識(shí)別時(shí),由于獨(dú)特的樹形結(jié)構(gòu)在預(yù)測(cè)時(shí)能減少識(shí)別時(shí)間,并且能夠直接體現(xiàn)數(shù)據(jù)的特點(diǎn),因此具有一定的可信度,但是對(duì)于圖像數(shù)據(jù)來(lái)說(shuō),高維度的數(shù)據(jù)訓(xùn)練存在分類識(shí)別精度的問題。

    1.2.3 基于隨機(jī)森林的手勢(shì)識(shí)別

    在機(jī)器學(xué)習(xí)中,隨機(jī)森林是一個(gè)包含多個(gè)決策樹的分類器,其輸出的類別由個(gè)別樹輸出的類別的眾數(shù)而定。隨機(jī)森林學(xué)習(xí)算法中每棵樹的訓(xùn)練過程與決策樹類似,只是無(wú)需對(duì)決策樹進(jìn)行剪枝。并且數(shù)據(jù)樣本和特征選擇是一個(gè)隨機(jī)過程,每棵樹的具體構(gòu)造如下:

    (1)用N表示訓(xùn)練樣本的個(gè)數(shù),M表示圖像轉(zhuǎn)化為一維數(shù)據(jù)結(jié)構(gòu)作為訓(xùn)練的特征;

    (2)從N個(gè)訓(xùn)練樣本中采用又放回的抽樣方式,取樣N次,形成一組訓(xùn)練集;

    (3)對(duì)抽取的樣本,隨機(jī)選擇m個(gè)特征(m?M),計(jì)算其最佳的分割方式,訓(xùn)練生成一棵決策樹;

    (4)選取20個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練,每棵樹都會(huì)完整地成長(zhǎng)而不會(huì)剪枝。

    利用隨機(jī)森林算法對(duì)手勢(shì)進(jìn)行識(shí)別時(shí),由于結(jié)果需要根據(jù)多棵樹輸出的眾數(shù)而定,因此相對(duì)決策樹分類來(lái)說(shuō),精確度會(huì)有一定的提升,但是由于多棵樹的預(yù)測(cè),時(shí)間將會(huì)增加。

    1.2.4 基于卷積神經(jīng)網(wǎng)絡(luò)的手勢(shì)識(shí)別

    隨著深度學(xué)習(xí)的快速發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)在語(yǔ)音識(shí)別[9]、手寫字體識(shí)別[10]、車牌識(shí)別[11]、人臉識(shí)別[12]等領(lǐng)域得到了廣泛的應(yīng)用,其高效的識(shí)別精度和速度對(duì)手勢(shì)識(shí)別也具有一定的促進(jìn)作用。因此可以采用基于深度學(xué)習(xí)的方法來(lái)進(jìn)行手勢(shì)識(shí)別。

    卷積神經(jīng)網(wǎng)絡(luò)(CNN)具有三個(gè)最基本的特征[13]:局部連接、權(quán)值共享和下采樣。通過局部連接和權(quán)值共享減少訓(xùn)練參數(shù),通過下采樣提升模型的魯棒性,減少訓(xùn)練參數(shù)。因此根據(jù)卷積神經(jīng)網(wǎng)絡(luò)的特征,其一般包含兩個(gè)特殊的網(wǎng)絡(luò)神經(jīng)元層:卷積層和下采樣層。由于文中的分類任務(wù)較為簡(jiǎn)單,因此基于AlexNet的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行精簡(jiǎn),具體的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

    圖3 手勢(shì)識(shí)別的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

    該結(jié)構(gòu)共有6層,Input Layer為輸入層,具體為64×64的手勢(shì)特征融合圖像,Layer1-Layer3為卷積層,Layer4-Layer5為全連接層,Layer6 Output為輸出層,輸出層神經(jīng)元有3個(gè),分別代表手勢(shì)類別:石頭、剪刀、布。卷積核和各偏置等參數(shù)的初始值均隨機(jī)產(chǎn)生,輸入樣本后通過前向傳播和反向傳播算法對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練來(lái)更新參數(shù)。

    卷積濾波實(shí)質(zhì)就是用卷積核在圖像矩陣中滑動(dòng)遍歷,卷積核與圖像上相對(duì)位置的元素作乘積,將所得結(jié)果相加得到一個(gè)結(jié)果值,最后通過激活函數(shù)獲得卷積結(jié)果。當(dāng)卷積核滑動(dòng)遍歷整張圖像,結(jié)束特征提取,獲取一個(gè)新的圖像特征矩陣(feature map)。同時(shí)卷積核滑動(dòng)的步幅也和最后獲取的特征矩陣存在以下關(guān)系:

    (1)

    f(x)=max(0,x)

    (2)

    W2=(W1-F+2P)/S+1

    (3)

    H2=(H1-F+2P)/S+1

    (4)

    式1為卷積計(jì)算,式2為激活函數(shù),式3和式4為卷積變化。其中,xi,j為圖像的第i行第j列元素,wm,n為卷積核中第m行第n列權(quán)重,wb為卷積核的偏置項(xiàng);f為激活函數(shù),即relu函數(shù);W2為卷積后feature map的寬度,W1為卷積前圖像的寬度,F(xiàn)為filter的寬度,P為Zero Padding數(shù)量,Zero Padding是指在原始圖像周圍補(bǔ)幾圈0,如果值是1,那么就補(bǔ)1圈0,S為步幅;H2為卷積后Feature Map的高度,H1為卷積前圖像的寬度。

    卷積濾波后再通過下采樣圖像特征矩陣進(jìn)行降維,減少計(jì)算量,同時(shí)避免特征過多導(dǎo)致出現(xiàn)過擬合,增強(qiáng)網(wǎng)絡(luò)結(jié)構(gòu)對(duì)位移的魯棒性。具體的卷積和下采樣計(jì)算如下所示:

    (5)

    其中,ai,j為卷積后的第i行第j列元素;P為下采樣函數(shù),一般為MaxPoling或MeanPoling,文中采用MaxPoling。

    2 實(shí)驗(yàn)結(jié)果及分析

    2.1 實(shí)驗(yàn)結(jié)果

    對(duì)提出的方法在兩個(gè)數(shù)據(jù)庫(kù)上進(jìn)行驗(yàn)證,第一個(gè)數(shù)據(jù)庫(kù)是在室內(nèi)場(chǎng)景采集的手勢(shì)圖像數(shù)據(jù)庫(kù),通過普通的攝像頭拍攝不同環(huán)境、不同旋轉(zhuǎn)角度下的3種類別的手勢(shì)圖像各100張,用于算法性能的測(cè)試;第二個(gè)數(shù)據(jù)庫(kù)采用Thomas Moeslund’s Gesture Recognition Database。同時(shí)在兩個(gè)數(shù)據(jù)庫(kù)中對(duì)文中所涉及的手勢(shì)識(shí)別模型進(jìn)行驗(yàn)證,結(jié)果如表1所示。

    表1 識(shí)別性能的比較(1)

    可以看出,平均消耗時(shí)間上雖然隨機(jī)森林(RF)和決策樹(DT)比基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的消耗時(shí)間過短,這是因?yàn)槠洫?dú)特的樹形結(jié)構(gòu)在分類過程中會(huì)減少算法的時(shí)間復(fù)雜度,但是在平均識(shí)別率上,CNN卻有著天然的優(yōu)勢(shì),而且其消耗時(shí)間也在可接受范圍之內(nèi);而SVM無(wú)論在消耗時(shí)間還是速度上都遜色于CNN,因此采用深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行手勢(shì)識(shí)別可行。

    為了更好地驗(yàn)證卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練次數(shù)對(duì)手勢(shì)識(shí)別率和誤差的影響,從拍攝的各類手勢(shì)圖像中選取2 000個(gè)訓(xùn)練樣本和100個(gè)測(cè)試樣本進(jìn)行實(shí)驗(yàn),不同的訓(xùn)練次數(shù)與手勢(shì)識(shí)別率和誤差的關(guān)系如圖4所示。

    圖4 訓(xùn)練次數(shù)與手勢(shì)識(shí)別率和誤差的關(guān)系

    可以看出,訓(xùn)練次數(shù)較少時(shí),手勢(shì)的識(shí)別率較低,網(wǎng)絡(luò)需要訓(xùn)練較多的次數(shù)才可以達(dá)到較好的識(shí)別效果。因?yàn)樵谟?xùn)練次數(shù)較低時(shí),由于手勢(shì)的復(fù)雜性,并不能提取出具有高效分類的網(wǎng)絡(luò)參數(shù),使得訓(xùn)練誤差仍然很高,當(dāng)訓(xùn)練進(jìn)行到一定程度時(shí),網(wǎng)絡(luò)參數(shù)不會(huì)發(fā)生太大變化,誤差趨于穩(wěn)定,網(wǎng)絡(luò)識(shí)別率的提高趨于穩(wěn)定。

    2.2 實(shí)驗(yàn)對(duì)比分析

    為進(jìn)一步驗(yàn)證文中算法的性能,與國(guó)內(nèi)其他學(xué)者提出的算法進(jìn)行比較,表2顯示了手勢(shì)樣本在不同方法下的識(shí)別率和時(shí)間消耗對(duì)比。

    表2 識(shí)別性能的比較(2)

    通過對(duì)比發(fā)現(xiàn),文中算法獲取的識(shí)別率相對(duì)較高的原因在于將手勢(shì)圖像的骨架和邊緣的融合特征圖像作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,能夠描述手勢(shì)所代表的物理含義,從而獲得更好的識(shí)別效果。而且網(wǎng)絡(luò)結(jié)構(gòu)更為簡(jiǎn)單,從一定程度上減少了識(shí)別的消耗時(shí)間,從而實(shí)現(xiàn)快速準(zhǔn)確的手勢(shì)識(shí)別。

    3 結(jié)束語(yǔ)

    針對(duì)手勢(shì)的復(fù)雜性,通過融合手勢(shì)的邊緣與骨架特征作為識(shí)別算法的輸入,提出基于卷積神經(jīng)網(wǎng)絡(luò)的手勢(shì)識(shí)別方法。實(shí)驗(yàn)結(jié)果表明,基于卷積神經(jīng)網(wǎng)絡(luò)的手勢(shì)識(shí)別具有較高的準(zhǔn)確率,并且識(shí)別速度也在可接受范圍之內(nèi)。下一步將通過改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)一步提高手勢(shì)識(shí)別的速度,實(shí)現(xiàn)復(fù)雜環(huán)境下動(dòng)態(tài)的手勢(shì)識(shí)別。

    猜你喜歡
    手勢(shì)識(shí)別率決策樹
    基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
    挑戰(zhàn)!神秘手勢(shì)
    一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
    基于真耳分析的助聽器配戴者言語(yǔ)可懂度指數(shù)與言語(yǔ)識(shí)別率的關(guān)系
    V字手勢(shì)的由來(lái)
    決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
    電子制作(2018年16期)2018-09-26 03:27:06
    提升高速公路MTC二次抓拍車牌識(shí)別率方案研究
    勝利的手勢(shì)
    基于決策樹的出租車乘客出行目的識(shí)別
    高速公路機(jī)電日常維護(hù)中車牌識(shí)別率分析系統(tǒng)的應(yīng)用
    平果县| 渑池县| 延安市| 海伦市| 莲花县| 江达县| 东台市| 麻阳| 华阴市| 镇赉县| 普陀区| 张掖市| 舟山市| 那曲县| 宁蒗| 云和县| 华坪县| 万荣县| 朝阳县| 高州市| 聂拉木县| 沽源县| 抚州市| 耒阳市| 高要市| 汾阳市| 泰和县| 连平县| 沙洋县| 松阳县| 嘉荫县| 正镶白旗| 高平市| 宝丰县| 绥滨县| 翁牛特旗| 广灵县| 漾濞| 隆林| 嘉禾县| 奉贤区|