• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的彩色圖像三維手勢估計(jì)

      2020-05-12 09:09:44戴仕明楊文姬楊紅云錢文彬
      關(guān)鍵詞:掩膜彩色圖像級聯(lián)

      劉 瑋,戴仕明,楊文姬,楊紅云,3,錢文彬

      1(江西農(nóng)業(yè)大學(xué) 計(jì)算機(jī)與信息工程學(xué)院, 南昌330045)

      2(江西農(nóng)業(yè)大學(xué) 軟件學(xué)院, 南昌330045)

      3(江西省高等學(xué)校 農(nóng)業(yè)信息技術(shù)重點(diǎn)實(shí)驗(yàn)室, 南昌 330045)

      E-mail :ywenji614@163.com

      1 引 言

      基于視覺的三維手勢估計(jì)在人機(jī)交互和虛擬現(xiàn)實(shí)等眾多領(lǐng)域[1-3]中有著重要的應(yīng)用,隨著這些領(lǐng)域不斷發(fā)展,準(zhǔn)確的三維手勢估計(jì)越來越重要.但是由于手的靈活性,手指關(guān)節(jié)的多變性以及手部自我遮擋等原因,基于視覺的三維手勢估計(jì)仍是一個(gè)具有挑戰(zhàn)性的問題.

      近年來,基于深度圖像的三維手勢估計(jì)取得了巨大的成果[4-10],但深度相機(jī)在現(xiàn)實(shí)應(yīng)用中具有一定的局限性.相比于深度相機(jī),普通彩色相機(jī)的應(yīng)用更為廣泛,因此本文是基于彩色圖像進(jìn)行的.與深度圖像相比,彩色圖像缺少深度信息,這使得從單個(gè)彩色圖像估計(jì)三維手勢具有更大的挑戰(zhàn)性.

      為了解決從單個(gè)彩色圖像估計(jì)準(zhǔn)確的三維手勢困難這一問題,本文提出了一種基于級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的估計(jì)方法,該級聯(lián)網(wǎng)絡(luò)分為三階段,手部掩膜估計(jì)階段、二維手勢估計(jì)階段和三維手勢估計(jì)階段.首先,基于手的輪廓信息有助于更準(zhǔn)確的進(jìn)行手部定位與跟蹤[11],因此,在級聯(lián)網(wǎng)絡(luò)中設(shè)計(jì)了手部掩膜估計(jì)階段,用于產(chǎn)生手部的掩膜信息和特征信息,該信息有助于后續(xù)的手姿態(tài)估計(jì);二維手勢估計(jì)階段則利用生成的手掩膜和特征信息估計(jì)二維手勢,并利用多個(gè)子階段優(yōu)化估計(jì)的二維手勢;三維手勢估計(jì)階段在二維手勢估計(jì)的基礎(chǔ)上,通過三維提升網(wǎng)絡(luò),得到最終的三維手勢.

      該三階段級聯(lián)網(wǎng)絡(luò)采用端到端的訓(xùn)練,因此各階段可實(shí)現(xiàn)相互促進(jìn).一方面,第一階段手部掩膜估計(jì)階段生成的掩膜以及相應(yīng)的特征信息有助于第二階段的二維手勢估計(jì),從而進(jìn)一步優(yōu)化第三階段的三維手勢估計(jì)結(jié)果;另一方面,基于深度學(xué)習(xí)的反向傳播原理,二維手勢估計(jì)與三維手勢估計(jì)階段又會(huì)優(yōu)化掩膜估計(jì)階段,因此可實(shí)現(xiàn)各階段共同進(jìn)步,優(yōu)于各階段網(wǎng)絡(luò)單獨(dú)訓(xùn)練[12].

      本文的主要貢獻(xiàn)如下:1)新增手部掩膜估計(jì)階段,將生成的手部掩膜以及相應(yīng)特征信息加入到二維手勢估計(jì)中,手掩膜提供的軟約束可以使手勢估計(jì)更為準(zhǔn)確;2)提出了一種新穎的級聯(lián)卷積神經(jīng)網(wǎng)絡(luò),從單個(gè)彩色圖像估計(jì)三維手勢,三階段進(jìn)行端到端訓(xùn)練,實(shí)現(xiàn)三階段互相促進(jìn),最終優(yōu)化三維手勢估計(jì)的準(zhǔn)確性;3)在兩個(gè)公開數(shù)據(jù)集上進(jìn)行評估,實(shí)驗(yàn)結(jié)果表明該三階段級聯(lián)網(wǎng)絡(luò)產(chǎn)生了卓越的三維手勢估計(jì)精度,驗(yàn)證了其有效性.

      2 相關(guān)研究

      2.1 基于深度圖像的手勢估計(jì)

      隨著低成本的深度傳感器出現(xiàn),基于深度圖像的三維手勢估計(jì)研究迅速發(fā)展,因?yàn)樯疃葓D像提供了更加豐富的背景信息,降低了深度模糊度.隨著深度學(xué)習(xí)概念的普及[13],深度神經(jīng)網(wǎng)絡(luò)也被用于從深度圖像估計(jì)手勢,這些方法大致可以分成生成方法[14-16]、判別方法[17-19]和混合方法[20-22]三類.但深度相機(jī)在實(shí)際生活中的應(yīng)用還不夠廣泛,具有一定的局限性,目前大部分深度相機(jī)僅應(yīng)用于科學(xué)研究中,這使得基于深度圖像的手勢估計(jì)方法缺乏實(shí)際應(yīng)用性.

      2.2 基于彩色圖像的手勢估計(jì)

      彩色圖像在日常生活中應(yīng)用廣泛,所以目前也有很多學(xué)者進(jìn)行基于彩色圖像手勢估計(jì)方法的研究.早期基于彩色圖像的手勢估計(jì)方法[23,24]基于圖像序列估計(jì)手勢,其中Gorce等人[23]通過最小化目標(biāo)函數(shù)動(dòng)態(tài)估計(jì)三維手勢、手紋理和光源.隨著深度學(xué)習(xí)被應(yīng)用于深度圖像的手勢估計(jì)中,基于深度神經(jīng)網(wǎng)絡(luò)的彩色圖像手勢估計(jì)[25,26]也被提出.目前大多方法都是通過設(shè)計(jì)不同的深度神經(jīng)網(wǎng)絡(luò)來進(jìn)行手勢的估計(jì),例如Z&B[12]使用了兩個(gè)獨(dú)立的深度神經(jīng)網(wǎng)絡(luò)來估計(jì)三維手姿態(tài),兩個(gè)獨(dú)立的網(wǎng)絡(luò)包括二維手勢估計(jì)網(wǎng)絡(luò)和三維手勢估計(jì)網(wǎng)絡(luò),估計(jì)前對圖像進(jìn)行定位、裁剪和調(diào)整尺寸預(yù)處理操作,將裁剪圖像輸入二維估計(jì)網(wǎng)絡(luò)估計(jì)二維手熱圖,再輸入三維估計(jì)網(wǎng)絡(luò)估計(jì)三維手勢.然而該方法是兩個(gè)網(wǎng)絡(luò)單獨(dú)訓(xùn)練,不能達(dá)到全局最優(yōu).Wang等人[27]將手部掩膜估計(jì)和二維手勢估計(jì)級聯(lián)起來,用于提高單個(gè)彩色圖像的二維手勢估計(jì)精度.但是未能提升到三維手勢估計(jì),缺乏實(shí)際應(yīng)用性.Cai等人[28]提出了一個(gè)弱監(jiān)督網(wǎng)絡(luò),使用一個(gè)深度正則化器,將從彩色圖像估計(jì)的三維手勢轉(zhuǎn)換成深度圖,將三維坐標(biāo)估計(jì)損失轉(zhuǎn)化為深度圖損失,有效的解決了三維關(guān)鍵點(diǎn)標(biāo)記獲取困難這一問題.Ge等人[29]將手表面網(wǎng)格估計(jì)加入到網(wǎng)絡(luò)中,將彩色圖像估計(jì)的二維手熱圖通過圖形卷積網(wǎng)絡(luò),估計(jì)手表面網(wǎng)格,再通過手表面網(wǎng)格回歸三維手勢,該方法識(shí)別精度較高,但是手表面網(wǎng)格真實(shí)標(biāo)記缺乏,制作合成數(shù)據(jù)也較為困難,數(shù)據(jù)獲取代價(jià)較大.

      基于文獻(xiàn)[12]中各階段網(wǎng)絡(luò)單獨(dú)訓(xùn)練,不能達(dá)到全局最優(yōu),以及文獻(xiàn)[27]中手勢估計(jì)未能提升到三維,缺乏實(shí)際應(yīng)用性等問題,本文提出了一種基于級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的三維手勢估計(jì)方法.與Z&B[12]提出的方法不同點(diǎn)有兩個(gè),首先本文在估計(jì)二維手勢前新增了一個(gè)手的掩膜估計(jì),并將估計(jì)得到的掩膜和特征信息加入到二維手勢估計(jì)的卷積中去,這樣做能夠提高二維手勢估計(jì)的準(zhǔn)確性,其次本文將新增的手部掩膜估計(jì)、二維手勢估計(jì)和三維手勢估計(jì)級聯(lián)起來,進(jìn)行端到端的訓(xùn)練,發(fā)現(xiàn)三階段級聯(lián)進(jìn)行端到端的訓(xùn)練能夠互相促進(jìn)共同進(jìn)步.與Wang等人[27]方法的區(qū)別在于本文將三維手勢估計(jì)加入到級聯(lián)網(wǎng)絡(luò)中,進(jìn)行單個(gè)彩色圖像的三維手勢估計(jì),此外他們的方法沒有對原始彩色圖像進(jìn)行手部定位裁剪,對于手部比例較小的圖像識(shí)別效果不佳,而本文使用了裁剪網(wǎng)絡(luò)對原始彩色圖像手的位置進(jìn)行定位,并將手部裁剪出來,有助于提高手姿態(tài)估計(jì)的準(zhǔn)確度.

      3 基于級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的三維手勢估計(jì)方法

      3.1 概 述

      本文從單個(gè)彩色圖像估計(jì)三維手勢,如圖1所示,采用了三階段級聯(lián)架構(gòu),由手掩膜估計(jì)階段、二維手勢估計(jì)階段和三維手勢估計(jì)組成.

      圖1 三階段級聯(lián)網(wǎng)絡(luò)框架圖

      首先使用裁剪網(wǎng)絡(luò)對原始圖像進(jìn)行預(yù)處理,定位手的位置,將手部裁剪出來,得到以手為中心的單個(gè)彩色圖像作為級聯(lián)網(wǎng)絡(luò)的輸入,通過手掩膜估計(jì)網(wǎng)絡(luò)生成手部掩膜和特征信息,并將掩膜和特征信息輸入到二維估計(jì)網(wǎng)絡(luò)中估計(jì)手的二維關(guān)鍵點(diǎn)熱圖,再通過三維估計(jì)網(wǎng)絡(luò),學(xué)習(xí)多種可能的手部關(guān)節(jié)及其先驗(yàn)概率,在二維手熱圖的基礎(chǔ)上輸出最有可能的三維手勢.

      3.2 三維手勢表示

      (1)

      3.3 分割網(wǎng)絡(luò)

      手在每張圖像所占比例有大有小,而網(wǎng)絡(luò)通常對于手部明顯的圖像識(shí)別率較高,對于手部所占比例較小,手部不明顯的圖像識(shí)別效果較差.為了解決手部比例問題,本文簡化了卷積姿態(tài)機(jī)器(CPM)網(wǎng)絡(luò)[30]的網(wǎng)絡(luò)架構(gòu)作為分割網(wǎng)絡(luò),對原始彩色圖像進(jìn)行定位和裁剪的預(yù)處理,該網(wǎng)絡(luò)通過學(xué)習(xí)估計(jì)手部的掩膜,利用掩膜將手部定位并按比例分割出來,統(tǒng)一輸出分辨率為256×256的裁剪彩色圖像,定位和裁剪的預(yù)處理能夠使后續(xù)的姿態(tài)估計(jì)更為準(zhǔn)確.

      3.4 三階段級聯(lián)網(wǎng)絡(luò)

      為了解決從單個(gè)彩色圖像估計(jì)準(zhǔn)確的三維手勢困難這一問題,本文提出了一種基于級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的估計(jì)方法,網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示.

      圖2 三階段級聯(lián)網(wǎng)結(jié)構(gòu)圖

      第一階段對手部掩膜進(jìn)行估計(jì),該階段使用VGG-19網(wǎng)絡(luò)[31]的前部分,對輸入的裁剪彩色圖像進(jìn)行卷積得到128通道的特征F,對特征F再卷積得到2通道的手部掩膜M.估計(jì)得到的手部掩膜M就是對彩色圖像中手的空間布局進(jìn)行編碼,而這種空間布局可以通過卷積圖像得到.

      第二階段是進(jìn)行二維手勢的估計(jì),該階段利用了5個(gè)連續(xù)的子階段[32]估計(jì)手關(guān)鍵點(diǎn)熱圖,使用二維熱圖來描述二維手勢是因?yàn)镻fister等人[33]證明了回歸二維關(guān)鍵點(diǎn)熱圖要優(yōu)于二維坐標(biāo).該階段首先將128通道的特征F和2通道的手掩膜M連接,生成新的130通道的特征信息S,作為二維手勢估計(jì)第1個(gè)子階段的輸入,通過第1個(gè)子階段輸出手部21個(gè)關(guān)鍵點(diǎn)的手熱圖1(21通道),后4個(gè)子階段都將前一子階段估計(jì)的21通道熱圖和130通道特征信息S連接生成的151通道特征信息作為輸入,最后一子階段估計(jì)的手熱圖5作為第二階段二維手勢估計(jì)的結(jié)果.

      第三階段進(jìn)行三維手勢的估計(jì),其將第二階段估計(jì)的結(jié)果作為三維手勢估計(jì)的輸入,使用一個(gè)三維提升網(wǎng)絡(luò)來估計(jì)三維手勢.該網(wǎng)絡(luò)由兩個(gè)分支構(gòu)成,兩個(gè)分支分別估計(jì)三維手勢的規(guī)范坐標(biāo)xc旋轉(zhuǎn)矩陣R,結(jié)合規(guī)范坐標(biāo)和旋轉(zhuǎn)矩陣,可得到3.2節(jié)中的三維手勢的相對歸一化坐標(biāo)xrel.相對歸一化坐標(biāo)xrel可以通過相應(yīng)的規(guī)范坐標(biāo)xc旋轉(zhuǎn)得到,因此通過直接估計(jì)規(guī)范坐標(biāo)xc和旋轉(zhuǎn)矩陣R,可間接得到相對歸一化坐標(biāo)xrel:

      xrel=xc·RT

      (2)

      (3)

      再估計(jì)繞y軸旋轉(zhuǎn)的Ry:

      (4)

      最終結(jié)合兩部分得到旋轉(zhuǎn)矩陣R:

      R=Rxz·Ry

      (5)

      3.5 損失函數(shù)的設(shè)計(jì)

      掩膜估計(jì)使用了標(biāo)準(zhǔn)的softmax交叉熵?fù)p失來計(jì)算手部掩膜估計(jì)損失loss mask,其中y是標(biāo)記,su是掩膜預(yù)測階段第u個(gè)標(biāo)簽的輸出分?jǐn)?shù),而掩膜是二值圖,u∈{0,1}:

      (6)

      二維手勢估計(jì)使用了L2損失計(jì)算關(guān)鍵點(diǎn)的二維熱圖損失loss 2d,其中prej是估計(jì)的二維關(guān)鍵點(diǎn)熱圖,gtj是相應(yīng)標(biāo)記:

      (7)

      (8)

      以及對規(guī)范坐標(biāo)進(jìn)行旋轉(zhuǎn)的L2平方損失lossR,Rpre和Rgt分別是估計(jì)旋轉(zhuǎn)矩陣和對應(yīng)標(biāo)記:

      (9)

      三維手勢估計(jì)的損失loss 3d為兩部分之和:

      loss 3d=lossxc+lossR

      (10)

      4 手勢數(shù)據(jù)集

      4.1 渲染手姿態(tài)數(shù)據(jù)集

      該數(shù)據(jù)集簡稱RHD[12],是一個(gè)合成的手姿態(tài)數(shù)據(jù)集,每張彩色圖像都是通過軟件合成的,數(shù)據(jù)集分41258張訓(xùn)練圖像和2728張測試圖像,圖像的分辨率統(tǒng)一為320×320,數(shù)據(jù)集包含20個(gè)不同人物,在39種不同光照條件、背景和相機(jī)視點(diǎn)下采集,每張彩色圖像具有相應(yīng)的掩膜和深度圖,以及精確的手部21個(gè)關(guān)鍵點(diǎn)的二維和三維注釋.由于視點(diǎn)和手形的巨大變化,光照、背景和視點(diǎn)的變化,以及較低的分辨率,該數(shù)據(jù)集非常具有挑戰(zhàn)性.

      4.2 立體手姿態(tài)跟蹤數(shù)據(jù)集

      該數(shù)據(jù)集簡稱STB[34],是一個(gè)真實(shí)的手姿態(tài)數(shù)據(jù)集,為18000個(gè)手立體對(每個(gè)立體對表示同一左手在兩個(gè)不同視角下的三維手姿態(tài))提供21個(gè)關(guān)鍵點(diǎn)的二維和三維注釋,彩色圖像的分辨率統(tǒng)一為640×480,數(shù)據(jù)集是在6種不同背景和不同的光照條件下采集的單人左手姿態(tài).STB數(shù)據(jù)集分為12個(gè)部分,本文完全依照文獻(xiàn)的設(shè)置,將其中10個(gè)部分用作訓(xùn)練集,另外2個(gè)部分用作評估集.

      4.3 OneHand10K

      OneHand10K[27]是一個(gè)真實(shí)的手姿態(tài)數(shù)據(jù)集,以下簡稱OHK,包含10000張訓(xùn)練圖像和1703張測試圖像,數(shù)據(jù)集是在不同背景和不同光照條件下采集的單手姿態(tài),每張彩色圖像具有相應(yīng)的手部掩膜和二維注釋.本文使用OHK的掩膜標(biāo)記來訓(xùn)練分割網(wǎng)絡(luò),以提升定位網(wǎng)絡(luò)的準(zhǔn)確性.在使用該數(shù)據(jù)集前,由于該數(shù)據(jù)集圖像尺寸不統(tǒng)一,本文對圖像進(jìn)行了預(yù)處理,以便網(wǎng)絡(luò)的訓(xùn)練,使用調(diào)整比例m對彩色圖像和掩膜進(jìn)行尺寸調(diào)整,其中w和h是原圖像的寬和高,l是目標(biāo)尺寸:

      (11)

      令l=320,調(diào)整后輸出320×320大小的彩色圖像和掩膜,并且限制空白處在右下角,對彩色圖像的空白區(qū)域使用灰度值(128,128,128)進(jìn)行填充,對掩膜的空白區(qū)域使用零填充.

      5 實(shí) 驗(yàn)

      5.1 實(shí)驗(yàn)細(xì)節(jié)

      本文提出的方法是基于Tensorflow框架[35]實(shí)現(xiàn),使用Adam優(yōu)化器[36]訓(xùn)練網(wǎng)絡(luò),所有的實(shí)驗(yàn)都是在一臺(tái)Nvidia RTX2080Ti單GPU的服務(wù)器上完成的.

      5.1.1 分割網(wǎng)絡(luò)的訓(xùn)練過程

      分割網(wǎng)絡(luò)使用了真實(shí)數(shù)據(jù)集OHK訓(xùn)練,以增強(qiáng)分割網(wǎng)絡(luò)對于真實(shí)數(shù)據(jù)的效果,后續(xù)的實(shí)驗(yàn)將會(huì)對比使用RHD訓(xùn)練的分割網(wǎng)絡(luò)和使用OHK訓(xùn)練的分割網(wǎng)絡(luò)的性能.分割網(wǎng)絡(luò)訓(xùn)練的損失函數(shù)為手部掩膜估計(jì)損失loss mask.分割網(wǎng)絡(luò)的訓(xùn)練,批量大小為8,初始學(xué)習(xí)率設(shè)置為10-5,訓(xùn)練20K次后學(xué)習(xí)率衰減一次,往后每訓(xùn)練10K次學(xué)習(xí)率衰減一次,衰減比率為0.1,并且在40K次迭代后停止訓(xùn)練.

      5.1.2 三階段級聯(lián)網(wǎng)絡(luò)的訓(xùn)練過程

      由于不存在同時(shí)擁有手部掩膜、二維手勢標(biāo)記和三維手勢標(biāo)記三種標(biāo)記的真實(shí)數(shù)據(jù)集,本文先使用合成數(shù)據(jù)集RHD預(yù)訓(xùn)練網(wǎng)絡(luò),再通過真實(shí)數(shù)據(jù)集STB調(diào)整網(wǎng)絡(luò),讓網(wǎng)絡(luò)適應(yīng)真實(shí)世界.預(yù)訓(xùn)練階段批量大小為8,初始學(xué)習(xí)率5×10-5,每50K迭代學(xué)習(xí)率衰減一次,衰減比率為0.3,預(yù)訓(xùn)練階段在250K次迭代后停止訓(xùn)練.調(diào)整階段批量大小為8,初始學(xué)習(xí)率為5×10-5,每50K迭代學(xué)習(xí)率衰減一次,衰減比率為0.1在200K次迭代后停止訓(xùn)練.

      預(yù)訓(xùn)練階段的損失loss RHD為掩膜估計(jì)損失、二維手勢估計(jì)損失和三維手勢估計(jì)損失三部分之和,由于手部掩膜估計(jì)損失數(shù)值較大,所以為該項(xiàng)添加的權(quán)重比v以縮小其損失數(shù)值,經(jīng)過大量實(shí)驗(yàn),發(fā)現(xiàn)令v=0.05實(shí)現(xiàn)了最好的效果:

      loss RHD=v·loss mask+loss 2d+loss 3d

      (12)

      調(diào)整階段的訓(xùn)練損失loss STB為二維手勢估計(jì)損失和三維手勢估計(jì)損失兩部分之和:

      loss STB=loss 2d+loss 3d

      (13)

      5.2 評估數(shù)據(jù)集和評估指標(biāo)

      本文使用章節(jié)3中介紹的兩個(gè)公開可用的數(shù)據(jù)集評估提出的三階段級聯(lián)網(wǎng)絡(luò):合成數(shù)據(jù)集RHD和真實(shí)數(shù)據(jù)集STB.使用了兩個(gè)評估指標(biāo):1)端點(diǎn)誤差(EPE);2)正確關(guān)鍵點(diǎn)(PCK)百分比曲線下的面積(AUC).本文的實(shí)驗(yàn)完全遵守文獻(xiàn)[12]中的評估標(biāo)準(zhǔn).

      5.3 驗(yàn)證融合數(shù)據(jù)集訓(xùn)練有效性實(shí)驗(yàn)

      本文首先評估了不同的數(shù)據(jù)集訓(xùn)練對網(wǎng)絡(luò)的影響,對于相同的級聯(lián)網(wǎng)絡(luò),使用了三種不同數(shù)據(jù)集訓(xùn)練:1)只使用合成數(shù)據(jù)集RHD訓(xùn)練級聯(lián)網(wǎng)絡(luò);2)只使用真實(shí)數(shù)據(jù)集STB訓(xùn)練級聯(lián)網(wǎng)絡(luò);3)使用合成數(shù)據(jù)集RHD預(yù)訓(xùn)練網(wǎng)絡(luò),再使用真實(shí)數(shù)據(jù)集STB微調(diào)網(wǎng)絡(luò).三個(gè)實(shí)驗(yàn)所使用的級聯(lián)網(wǎng)絡(luò)保持一致,參數(shù)設(shè)置保持一致,分割網(wǎng)絡(luò)保持一致,分割網(wǎng)絡(luò)只使用RHD訓(xùn)練.

      在真實(shí)數(shù)據(jù)集STB上進(jìn)行評估,實(shí)驗(yàn)結(jié)果如圖3所示.

      圖3 評估不同訓(xùn)練數(shù)據(jù)集對級聯(lián)網(wǎng)絡(luò)的影響

      融合RHD和STB的訓(xùn)練得到了最好的結(jié)果,而直接使用合成數(shù)據(jù)集訓(xùn)練的模型得到了最差的結(jié)果.這是由于合成數(shù)據(jù)集和真實(shí)數(shù)據(jù)集相比,圖像特征具有很大的合成域轉(zhuǎn)移,合成圖像訓(xùn)練的網(wǎng)絡(luò)不能很好的直接推廣到真實(shí)世界中.而只用真實(shí)數(shù)據(jù)集STB訓(xùn)練的網(wǎng)絡(luò)效果并不好的原因有兩個(gè),一是由于真實(shí)數(shù)據(jù)訓(xùn)練樣本較少,二是真實(shí)數(shù)據(jù)集沒有手部掩膜標(biāo)記,只使用了二維標(biāo)記和三維標(biāo)記訓(xùn)練網(wǎng)絡(luò),并沒有發(fā)揮三階段級聯(lián)網(wǎng)絡(luò)的優(yōu)勢.

      5.4 驗(yàn)證級聯(lián)網(wǎng)絡(luò)模塊有效性實(shí)驗(yàn)

      本文對三階段級聯(lián)網(wǎng)絡(luò)進(jìn)行了模塊有效性實(shí)驗(yàn),通過去除或拆分三階段級聯(lián)網(wǎng)絡(luò)的某個(gè)級聯(lián)部位,以驗(yàn)證級聯(lián)的各個(gè)模塊的有效性.將三階段級聯(lián)網(wǎng)絡(luò)mask-2d-3d和3個(gè)拆分的網(wǎng)絡(luò)進(jìn)行比較:

      1)2d-3d網(wǎng)絡(luò),表示將三階段級聯(lián)網(wǎng)絡(luò)新增的手掩膜估計(jì)階段去除,二維估計(jì)和三維估計(jì)級聯(lián)訓(xùn)練;

      2)mask-2d網(wǎng)絡(luò),表示手掩膜估計(jì)階段和二維手勢估計(jì)階段級聯(lián)訓(xùn)練,而三維手勢估計(jì)階段單獨(dú)訓(xùn)練;

      3)2d網(wǎng)絡(luò),表示將三階段級聯(lián)網(wǎng)絡(luò)新增的手掩膜估計(jì)階段去除,并且二維手勢估計(jì)階段和三維手勢估計(jì)階段均單獨(dú)訓(xùn)練.

      注意該實(shí)驗(yàn)保持參數(shù)設(shè)置一致,均使用了RHD和STB融合訓(xùn)練,使用了相同的分割網(wǎng)絡(luò)對圖像進(jìn)行預(yù)處理,分割網(wǎng)絡(luò)只使用RHD訓(xùn)練.

      在真實(shí)數(shù)據(jù)集STB上進(jìn)行評估,實(shí)驗(yàn)結(jié)果如圖4和表1所示.圖4中,三階段級聯(lián)網(wǎng)絡(luò)mask-2d-3d在真實(shí)數(shù)據(jù)集STB上實(shí)現(xiàn)了最好的效果,AUC曲線明顯高于其他網(wǎng)絡(luò)結(jié)構(gòu)的結(jié)果,原因是三階段級聯(lián)網(wǎng)絡(luò)的手掩膜估計(jì)對二維手勢估計(jì)和三維手勢估計(jì)提供了軟約束,姿態(tài)估計(jì)部分又反向傳播,有利于手部掩膜估計(jì),三者級聯(lián)共同提升.該實(shí)驗(yàn)驗(yàn)證了三階段級聯(lián)網(wǎng)絡(luò)的有效性,三個(gè)階段缺一不可.

      圖4 驗(yàn)證級聯(lián)網(wǎng)絡(luò)模塊有效性的對比實(shí)驗(yàn)

      如表1所示,三階段級聯(lián)網(wǎng)絡(luò)mask-2d-3d實(shí)現(xiàn)了最小的誤差,平均端點(diǎn)誤差7.961(mm)和中值端點(diǎn)誤差10.496(mm)均實(shí)現(xiàn)最??;而掩膜和二維手勢估計(jì)級聯(lián)的網(wǎng)絡(luò)mask-2d相比于各階段單獨(dú)訓(xùn)練的網(wǎng)絡(luò)2d,減小了誤差,提升性能,驗(yàn)證了加入掩膜估計(jì)階段的有效性;二維手勢估計(jì)和三維手勢估計(jì)級聯(lián)的網(wǎng)絡(luò)2d-3d,相比于2d網(wǎng)絡(luò),也得到了提升,驗(yàn)證了將三維姿態(tài)估計(jì)加入級聯(lián)網(wǎng)絡(luò)的有效性.

      表1 模塊有效性對比實(shí)驗(yàn)的誤差分析

      Table 1 Comparative experiment to error analysis of module effectiveness

      網(wǎng)絡(luò)AUCEPE median(mm)EPE mean(mm)2d0.62310.09812.859mask-2d0.6329.77312.5062d-3d0.6389.86912.221mask-2d-3d0.6877.96110.496

      5.5 分割網(wǎng)絡(luò)比較

      以往的分割網(wǎng)絡(luò)[12,30]只使用合成數(shù)據(jù)訓(xùn)練,由于當(dāng)時(shí)不存在具有手部掩膜信息的真實(shí)彩色圖像數(shù)據(jù)集.本文使用真實(shí)手部數(shù)據(jù)集OHK,該數(shù)據(jù)集具有彩色圖像的手部掩膜信息,使用該數(shù)據(jù)集代替合成數(shù)據(jù)集RHD去訓(xùn)練網(wǎng)絡(luò),以提高分割網(wǎng)絡(luò)在真實(shí)世界的效果.該實(shí)驗(yàn)使用相同的三階段級聯(lián)網(wǎng)絡(luò),參數(shù)設(shè)置一致,使用兩個(gè)不同數(shù)據(jù)集訓(xùn)練的分割網(wǎng)絡(luò),一個(gè)使用合成數(shù)據(jù)集RHD訓(xùn)練,另一個(gè)使用真實(shí)數(shù)據(jù)集OHK訓(xùn)練.在真實(shí)數(shù)據(jù)集STB上進(jìn)行評估,實(shí)驗(yàn)結(jié)果如圖5所示,真實(shí)數(shù)據(jù)OHK的AUC達(dá)到0.706,要高于合成數(shù)據(jù)RHD的0.687,OHK訓(xùn)練的分割網(wǎng)絡(luò)在真實(shí)世界實(shí)現(xiàn)了更好的效果.

      5.6 與其他方法比較

      將本文提出的三階段級聯(lián)網(wǎng)絡(luò)與RHD以及STB數(shù)據(jù)集上最先進(jìn)三維手勢估計(jì)方法進(jìn)行比較.在RHD數(shù)據(jù)集上,如圖6所示,本文提出的方法優(yōu)于RHD上最先進(jìn)的方法[12],將AUC從0.675提升到0.742,性能提升了9.93%.

      在STB數(shù)據(jù)集上,三階段級聯(lián)網(wǎng)絡(luò)融合了合成數(shù)據(jù)集RHD和真實(shí)數(shù)據(jù)集STB的訓(xùn)練,其中Ours網(wǎng)絡(luò)使用了OHK訓(xùn)練的分割網(wǎng)絡(luò),而Ours(without OHK)網(wǎng)絡(luò)使用RHD訓(xùn)練分割網(wǎng)絡(luò),實(shí)驗(yàn)結(jié)果如圖7所示,本文提出的方法優(yōu)于在STB上最先進(jìn)的四個(gè)方法[12,26,34,37],AUC達(dá)到了0.977,驗(yàn)證了三階段級聯(lián)網(wǎng)絡(luò)對三維手勢估計(jì)的優(yōu)越性,同時(shí)未使用OHK數(shù)據(jù)集訓(xùn)練的級聯(lián)網(wǎng)絡(luò)也得到了較好的效果,AUC達(dá)到了0.958,進(jìn)一步驗(yàn)證了三階段級聯(lián)的有效性.

      圖5 不同數(shù)據(jù)集訓(xùn)練的分割網(wǎng)絡(luò)的對比實(shí)驗(yàn)

      圖6 在合成數(shù)據(jù)集RHD上和其他方法的對比實(shí)驗(yàn)

      圖7 在真實(shí)數(shù)據(jù)集STB上和其他方法的對比實(shí)驗(yàn)

      6 結(jié) 論

      本文提出了一種新穎的級聯(lián)卷積神經(jīng)網(wǎng)絡(luò),用于估計(jì)單個(gè)彩色圖像的三維手勢,級聯(lián)網(wǎng)絡(luò)分三階段,手部掩膜估計(jì)、二維手勢估計(jì)和三維手勢估計(jì).將第一階段估計(jì)的掩膜和提取的特征加入到二維手勢估計(jì)中,對后續(xù)的手勢估計(jì)提供軟約束,以提高手勢估計(jì)的準(zhǔn)確性,而手勢估計(jì)又會(huì)通過反向傳播對掩膜估計(jì)進(jìn)行優(yōu)化,三階段互相促進(jìn)實(shí)現(xiàn)共同優(yōu)化.在兩個(gè)公開數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),并與最先進(jìn)方法進(jìn)行了比較,通過實(shí)驗(yàn)驗(yàn)證了該級聯(lián)網(wǎng)絡(luò)的有效性與先進(jìn)性.

      猜你喜歡
      掩膜彩色圖像級聯(lián)
      利用掩膜和單應(yīng)矩陣提高LK光流追蹤效果
      一種結(jié)合圖像分割掩膜邊緣優(yōu)化的B-PointRend網(wǎng)絡(luò)方法
      基于FPGA的實(shí)時(shí)彩色圖像邊緣檢測
      電子制作(2019年16期)2019-09-27 09:34:46
      光纖激光掩膜微細(xì)電解復(fù)合加工裝置研發(fā)
      基于最大加權(quán)投影求解的彩色圖像灰度化對比度保留算法
      級聯(lián)LDPC碼的STBC-OFDM系統(tǒng)
      電子制作(2016年15期)2017-01-15 13:39:09
      多層陰影掩膜結(jié)構(gòu)及其制造和使用方法
      科技資訊(2016年21期)2016-05-30 18:49:07
      基于級聯(lián)MUSIC的面陣中的二維DOA估計(jì)算法
      基于顏色恒常性的彩色圖像分割方法
      LCL濾波器在6kV級聯(lián)STATCOM中的應(yīng)用
      電測與儀表(2014年1期)2014-04-04 12:00:34
      滁州市| 普洱| 凤城市| 什邡市| 色达县| 乌鲁木齐县| 香港 | 探索| 项城市| 沂水县| 佛山市| 永仁县| 金昌市| 荔波县| 时尚| 庄浪县| 沾益县| 孝昌县| 田东县| 佛山市| 保德县| 寿阳县| 枣强县| 旬邑县| 璧山县| 高青县| 大名县| 礼泉县| 牙克石市| 鲁甸县| 康平县| 绥江县| 成安县| 小金县| 亳州市| 芒康县| 呼玛县| 册亨县| 保德县| 嘉善县| 大竹县|