• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種基于神經(jīng)網(wǎng)絡(luò)手勢識別的演示控制系統(tǒng)

    2024-09-12 00:00:00盛濤唐亮
    物聯(lián)網(wǎng)技術(shù) 2024年4期
    關(guān)鍵詞:手勢識別圖像分類目標(biāo)檢測

    摘 要:傳統(tǒng)的PPT演示需要使用鼠標(biāo)、鍵盤等設(shè)備進(jìn)行控制,通過手勢識別技術(shù),演講者可以通過手勢控制PPT,從而可以更加專注于演示內(nèi)容,提高演示效果,增強(qiáng)演示的互動(dòng)性和創(chuàng)意性。本文提出了一種基于神經(jīng)網(wǎng)絡(luò)手勢識別的演示控制系統(tǒng),旨在解決傳統(tǒng)PPT演示中使用鼠標(biāo)、鍵盤等設(shè)備進(jìn)行控制不便的問題。文中制作了一個(gè)小規(guī)模圖像數(shù)據(jù)集,作為靜態(tài)圖像分類模型的訓(xùn)練數(shù)據(jù)集。系統(tǒng)基于YOLOv5目標(biāo)檢測模型實(shí)現(xiàn)的靜態(tài)手勢識別系統(tǒng),包括手部動(dòng)作識別模塊和演示控制模塊,實(shí)現(xiàn)了以手部動(dòng)作進(jìn)行控制的演示。本文研究表明,該演示控制系統(tǒng)具有極強(qiáng)的可行性和廣闊的發(fā)展前景。

    關(guān)鍵詞:手勢識別;神經(jīng)網(wǎng)絡(luò);演示控制;圖像分類;圖像處理;目標(biāo)檢測;圖像特征

    中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A 文章編號:2095-1302(2024)04-00-05

    DOI:10.16667/j.issn.2095-1302.2024.04.004

    0 引 言

    隨著互聯(lián)網(wǎng)的發(fā)展和普及,PPT演示的流行程度也越來越高,在企業(yè)、學(xué)校、政府、科研機(jī)構(gòu)等,PPT演示被廣泛用于產(chǎn)品推介、工作報(bào)告、學(xué)術(shù)研究、教學(xué)授課等方面。傳統(tǒng)的PPT演示需要使用鼠標(biāo)、鍵盤等設(shè)備進(jìn)行控制,這種方式會(huì)讓演講者分心,也會(huì)影響演示的連貫性和流暢度。通過手勢識別技術(shù),演講者可以通過手勢控制PPT,從而可以更加專注于演示內(nèi)容,增強(qiáng)演示的互動(dòng)性和創(chuàng)意性,為觀眾提供更加生動(dòng)、更具有吸引力的演示。

    早期的手勢識別方法中,主要基于數(shù)據(jù)手套和視覺的手勢識別方法[1],基于傳感器的手勢識別方法識別率高但佩戴繁瑣無法單獨(dú)在計(jì)算機(jī)上實(shí)現(xiàn)。基于視覺的手勢識別方法中,早年主要使用背景差分法[2-3]和模板匹配法[4]進(jìn)行手勢檢測,而近年來很多學(xué)者將手勢識別的分類問題轉(zhuǎn)換成了目標(biāo)檢測問題,基于視覺的手勢識別方法獲得了長足的發(fā)展。本文提出了一種基于視覺目標(biāo)檢測算法實(shí)現(xiàn)對手勢動(dòng)作的判斷及演示控制。

    1 神經(jīng)網(wǎng)絡(luò)模型概述

    1.1 目標(biāo)檢測算法選型

    手勢識別是一種通過對手部動(dòng)作和姿勢的分析來識別特定手勢的技術(shù),在實(shí)際應(yīng)用中,基于視覺的手勢識別往往需要同時(shí)進(jìn)行目標(biāo)檢測、分類和動(dòng)作判斷,以便更準(zhǔn)確地識別手勢并執(zhí)行相應(yīng)的操作。

    由于手勢識別通常需要同時(shí)進(jìn)行目標(biāo)檢測和分類,因此基于目標(biāo)檢測的方法也被廣泛應(yīng)用于手勢識別中。目標(biāo)檢測算法可以直接對手部動(dòng)作和姿勢進(jìn)行檢測和分類,同時(shí)可以提供目標(biāo)的坐標(biāo)和尺寸信息,便于進(jìn)一步進(jìn)行動(dòng)作判斷和操作執(zhí)行。

    當(dāng)前最主流的幾種目標(biāo)檢測算法有Faster R-CNN[5]、YOLOv4[6]、EfficientDet[7]、SSD[8]、YOLOv5等,經(jīng)過對比,本文選擇YOLOv5算法作為目標(biāo)檢測算法。各種算法的速度、精度和優(yōu)缺點(diǎn)信息[9-12]在表1中列出。

    1.2 目標(biāo)檢測網(wǎng)絡(luò)YOLOv5

    基于表1中的信息,本文選擇YOLOv5作為實(shí)驗(yàn)訓(xùn)練模型。YOLOv5是一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的目標(biāo)檢測模型,采用了一種單階段(single-stage)檢測器架構(gòu),能夠直接在輸入圖像上預(yù)測目標(biāo)的位置和類別,滿足基本的目標(biāo)檢測和分類需求??傮w來說,YOLOv5的模型結(jié)構(gòu)采用了多種技術(shù),如CSPNet、FPN、YOLOv3等,以實(shí)現(xiàn)更快、更精確的目標(biāo)檢測。

    同時(shí),YOLOv5還引入了自適應(yīng)訓(xùn)練策略,可以根據(jù)不同數(shù)據(jù)集的特點(diǎn)進(jìn)行調(diào)整和優(yōu)化,提高了模型的通用性和魯棒性。相比其他手勢識別算法,YOLOv5在手勢識別方面具有顯著優(yōu)勢。其骨干網(wǎng)絡(luò)和檢測頭的優(yōu)化使其在保持較高檢測精度的同時(shí),具有更快的檢測速度和較低的計(jì)算復(fù)雜度。

    此外,大量數(shù)據(jù)訓(xùn)練使得YOLOv5能夠更好地適應(yīng)不同的手勢和場景,提高了其實(shí)用性和適應(yīng)性。同時(shí),它具有多尺度檢測能力,能夠同時(shí)檢測不同尺度的手勢,進(jìn)一步提高了其識別精度和適應(yīng)性。相比之下,其他算法可能存在計(jì)算復(fù)雜度高、對數(shù)據(jù)訓(xùn)練依賴強(qiáng)、尺度適應(yīng)性有限等問題,影響其在實(shí)際場景中的應(yīng)用效果。因此,選擇YOLOv5作為本文實(shí)驗(yàn)訓(xùn)練模型是更加合理的選擇。

    2 手勢識別神經(jīng)網(wǎng)絡(luò)模型

    2.1 基本數(shù)據(jù)集準(zhǔn)備

    模型訓(xùn)練前需要制作和收集數(shù)據(jù)集,數(shù)據(jù)集是模型訓(xùn)練的重要組成部分,數(shù)據(jù)集的質(zhì)量和數(shù)量可以直接影響模型最終的性能。本文數(shù)據(jù)集包括兩部分,一部分采自RWTH數(shù)據(jù)集,另一部分為自制數(shù)據(jù)集。RWTH數(shù)據(jù)集是一個(gè)公共手勢識別數(shù)據(jù)集,訓(xùn)練集包含了15個(gè)手勢類別,實(shí)驗(yàn)中抽取了部分內(nèi)容重新組成4個(gè)靜態(tài)手勢分類。數(shù)據(jù)集組成如圖1所示,訓(xùn)練集3 000張,測試集375張。

    2.2 模型結(jié)構(gòu)設(shè)計(jì)

    本文在YOLOv5模型的基礎(chǔ)上搭建手勢識別的模型結(jié)構(gòu)。如圖2所示,本系統(tǒng)模型網(wǎng)絡(luò)結(jié)構(gòu)整體上包括輸入端(Input)、主干特征提取網(wǎng)絡(luò)(Backbone)、Neck與輸出層(Prediction)。

    輸入端主要對圖片進(jìn)行預(yù)處理,包括Mosaic數(shù)據(jù)增強(qiáng)、自適應(yīng)錨框計(jì)算和自適應(yīng)圖片縮放。主干網(wǎng)絡(luò)由Focus結(jié)構(gòu)和CSP結(jié)構(gòu)組成,相較于YOLOv4增加了Focus結(jié)構(gòu),并改進(jìn)了CSP結(jié)構(gòu)。Focus結(jié)構(gòu)主要對輸入圖片進(jìn)行切片操作。相較于YOLOv4只在主干網(wǎng)絡(luò)使用了CSP結(jié)構(gòu),YOLOv5中設(shè)計(jì)了2種CSP結(jié)構(gòu),CSP1_X結(jié)構(gòu)應(yīng)用于Backbone主干網(wǎng)絡(luò),CSP2_X結(jié)構(gòu)則應(yīng)用于Neck中。Neck部分采用FPN+PAN結(jié)構(gòu),YOLOv4中也使用了這樣的結(jié)構(gòu),不同點(diǎn)在于YOLOv5的Neck結(jié)構(gòu)中采用了借鑒CSPnet設(shè)計(jì)的CSP2結(jié)構(gòu),加強(qiáng)了網(wǎng)絡(luò)特征融合的能力。輸出層默認(rèn)使用CIOU_Loss+普通nms實(shí)現(xiàn)。

    2.3 參數(shù)設(shè)置及性能評估

    在YOLOv5中,除了模型結(jié)構(gòu)外,還有許多重要的訓(xùn)練參數(shù)需要注意。這些參數(shù)包括batch size、image size、learning rate等。batch size是指每次訓(xùn)練時(shí)送入神經(jīng)網(wǎng)絡(luò)的樣本數(shù),過大的batch size可能導(dǎo)致顯存不足而無法訓(xùn)練,而過小的batch size則會(huì)使訓(xùn)練過程變得不穩(wěn)定。因此,需要根據(jù)顯存大小和模型復(fù)雜度來選擇合適的batch size。image size是指圖像的輸入尺寸,過小的image size會(huì)丟失圖像的細(xì)節(jié)信息,而過大的image size則會(huì)導(dǎo)致計(jì)算量增加。因此,需要根據(jù)訓(xùn)練目標(biāo)和硬件資源來選擇適當(dāng)?shù)膇mage size。learning rate是指每次梯度下降時(shí)調(diào)整的步長,過大的learning rate會(huì)導(dǎo)致模型無法收斂,而過小的learning rate則會(huì)使模型訓(xùn)練時(shí)間過長。因此,需要根據(jù)數(shù)據(jù)集和模型的復(fù)雜度來選擇合適的learning rate。

    除了上述3個(gè)參數(shù),還有其他重要的訓(xùn)練參數(shù),如momentum、weight decay、scheduler等。momentum可以幫助優(yōu)化模型的收斂速度和穩(wěn)定性,weight decay可以防止過擬合,scheduler可以動(dòng)態(tài)調(diào)整learning rate,以提高模型的性能。在訓(xùn)練過程中,還需要對數(shù)據(jù)進(jìn)行增強(qiáng),如隨機(jī)裁剪、隨機(jī)旋轉(zhuǎn)、隨機(jī)翻轉(zhuǎn)等,以增加數(shù)據(jù)的多樣性,提高模型的泛化能力。此外,還需要在訓(xùn)練過程中,采用多尺度訓(xùn)練等策略,以提高模型的檢測精度。綜上所述,對于YOLOv5模型的訓(xùn)練過程,需要根據(jù)具體情況選擇適當(dāng)?shù)膮?shù)和策略,以達(dá)到最佳的訓(xùn)練效果。

    在YOLOv5中,通常使用mAP(mean Average Precision)作為主要評估指標(biāo)。mAP是一種綜合評估指標(biāo),可以同時(shí)考慮檢測結(jié)果的準(zhǔn)確性和召回率,能夠反映模型的整體表現(xiàn),其計(jì)算方法是將所有類別的AP(平均精度)取平均值。AP的計(jì)算方法是在每個(gè)類別下,首先按照置信度從高到低對檢測結(jié)果進(jìn)行排序,然后計(jì)算不同閾值下的精度和召回率,繪制出P-R曲線(精度-召回率曲線),再計(jì)算曲線下的面積即可得到AP值。在計(jì)算mAP時(shí),一般采用IoU(交并比)的不同閾值來衡量預(yù)測框和真實(shí)框之間的匹配程度。通常情況下,IoU閾值越高,要求的匹配度就越高,計(jì)算出的AP值越低,COCO數(shù)據(jù)中計(jì)算的AP是IOU(用于決定是否為TP)在[0.5∶0.05∶0.95]計(jì)算10次AP后求均值得到的。AP計(jì)算公式如下:

    mAP是評估模型性能的重要指標(biāo)之一,它綜合了所有類別的性能表現(xiàn),可以有效衡量模型的精度和泛化能力。mAP計(jì)算公式如下:

    本次實(shí)驗(yàn)?zāi)P陀?xùn)練Epoch設(shè)置為1 000,訓(xùn)練結(jié)果如圖3所示,mAP值約為70%。

    3 演示控制及系統(tǒng)設(shè)計(jì)

    3.1 演示控制動(dòng)作及功能

    本系統(tǒng)在目標(biāo)檢測階段將基礎(chǔ)靜態(tài)手勢分為4類,具體名稱等已在圖1標(biāo)示。設(shè)計(jì)的動(dòng)作有4類,分別為右手點(diǎn)擊、右手平移、雙手縮放和右手抓取,編號為1,2,3,4。

    右手點(diǎn)擊動(dòng)作,具體表現(xiàn)為右手握拳伸出食指呈點(diǎn)擊樣式并上下移動(dòng),對應(yīng)功能是控制演示進(jìn)入下一頁;右手平移動(dòng)作,具體表現(xiàn)為右手呈手掌狀態(tài)隨后手掌向另一側(cè)移動(dòng),最后五指并排面向攝像頭,對應(yīng)功能是下一頁;雙手縮放動(dòng)作,具體表現(xiàn)為雙手向合十靠近,對應(yīng)功能是退出放映并中止系統(tǒng);右手抓取具體表現(xiàn)為右手從手掌變?yōu)槲杖?,對?yīng)功能是演示開始放映。

    3.2 演示控制動(dòng)作判斷

    識別4類動(dòng)作時(shí),根據(jù)目標(biāo)檢測出的雙手分類組合進(jìn)行其中1個(gè)動(dòng)作的判斷。若右手單獨(dú)出現(xiàn)且分類為point,則循環(huán)判斷動(dòng)作是否為右手點(diǎn)擊動(dòng)作;若右手單獨(dú)出現(xiàn)且基礎(chǔ)分類為side,則循環(huán)判斷動(dòng)作是否為右手平移動(dòng)作;若雙手同時(shí)出現(xiàn)且基礎(chǔ)分類為side,則循環(huán)判斷動(dòng)作是否為雙手縮放;若右手單獨(dú)出現(xiàn)且分類為rock,則循環(huán)判斷動(dòng)作是否為抓取動(dòng)作。分類對應(yīng)關(guān)系見表2所列。

    表2中類別的劃分用于判斷作為目標(biāo)檢測結(jié)果的預(yù)處理結(jié)果,一張圖片上出現(xiàn)的雙手分類組合作為一個(gè)單元輸送到動(dòng)作判斷系統(tǒng)中,系統(tǒng)根據(jù)后續(xù)單元集合判斷出動(dòng)作后進(jìn)行演示控制。

    當(dāng)任意一個(gè)單元符合表2中的分類時(shí),系統(tǒng)將進(jìn)行對應(yīng)動(dòng)作的具體判斷,采用動(dòng)作識別算法[13]的簡化算法,具體判斷流程如圖4所示。

    3.3 系統(tǒng)實(shí)現(xiàn)結(jié)果

    本文對系統(tǒng)進(jìn)行了測試,測試結(jié)果如圖5所示。圖5(a)

    所示為靜態(tài)手勢paper,圖5(b)所示為靜態(tài)手勢rock,

    圖5(c)所示為靜態(tài)手勢point,圖5(d)所示為右手單獨(dú)檢測為side,圖5(e)所示為雙手識別為side分類。4個(gè)動(dòng)作對應(yīng)的關(guān)系:由圖5(a)變?yōu)閳D5(b)后判斷為抓取動(dòng)作,隨后將控制演示開始放映;以圖5(c)中的靜態(tài)手勢為基礎(chǔ)上下旋轉(zhuǎn)手腕,抬起時(shí)判斷為點(diǎn)擊動(dòng)作,隨后控制演示進(jìn)入下一頁;以圖5(d)中的靜態(tài)手勢為基礎(chǔ)向另一方揮手會(huì)被判斷為平移動(dòng)作,隨后控制演示返回上一頁;以圖5(e)中靜態(tài)手勢為基礎(chǔ),雙手從兩側(cè)向中間靠近被判斷為縮放動(dòng)作,隨后控制演示退出并中止系統(tǒng)。

    4 結(jié) 語

    本文提出了一種基于神經(jīng)網(wǎng)絡(luò)手勢識別的演示控制系統(tǒng),旨在解決傳統(tǒng)PPT演示中使用鼠標(biāo)、鍵盤等設(shè)備進(jìn)行控制不便的問題。通過實(shí)驗(yàn)驗(yàn)證,本文所提出的手勢識別模型在小規(guī)模數(shù)據(jù)集上的分類準(zhǔn)確率達(dá)到了70%,證明了本文所提出的演示控制系統(tǒng)具有極大可行性。

    本文對手部動(dòng)作的識別是基于靜態(tài)手勢分類實(shí)現(xiàn)的,另一種實(shí)現(xiàn)方法是基于手部關(guān)鍵點(diǎn)檢測識別手部動(dòng)作,以下是對兩種方式的對比。精度上,基于手部關(guān)鍵點(diǎn)檢測的手部動(dòng)作識別相對于基于靜態(tài)手勢分類的手部動(dòng)作識別更為準(zhǔn)確。因?yàn)榛谑植筷P(guān)鍵點(diǎn)檢測的手部動(dòng)作識別可以捕捉到手指關(guān)節(jié)的運(yùn)動(dòng)軌跡和細(xì)微變化,從而更準(zhǔn)確地識別手部動(dòng)作。在實(shí)時(shí)性方面,基于靜態(tài)手勢分類的手部動(dòng)作識別通常比基于手部關(guān)鍵點(diǎn)檢測的手部動(dòng)作識別更具實(shí)時(shí)性。因?yàn)榛陟o態(tài)手勢分類的方法只需要對手部圖像進(jìn)行分類,而基于手部關(guān)鍵點(diǎn)檢測的方法需要對手指關(guān)鍵點(diǎn)進(jìn)行跟蹤和分析,時(shí)間更長。穩(wěn)定性方面,基于手部關(guān)鍵點(diǎn)檢測的手部動(dòng)作識別相對于基于靜態(tài)手勢分類的手部動(dòng)作識別更為穩(wěn)定。因?yàn)榛谑植筷P(guān)鍵點(diǎn)檢測的方法可以通過跟蹤手指關(guān)鍵點(diǎn)的運(yùn)動(dòng)軌跡來消除手部姿態(tài)的變化和干擾,而基于靜態(tài)手勢分類的方法很容易受到手部姿態(tài)的變化和干擾。

    綜上所述,基于手部關(guān)鍵點(diǎn)檢測的手部動(dòng)作識別和基于靜態(tài)手勢分類的手部動(dòng)作識別各有優(yōu)缺點(diǎn),需要根據(jù)實(shí)際應(yīng)用場景進(jìn)行選擇。如果需要高精度的手部動(dòng)作識別,可以選擇基于手部關(guān)鍵點(diǎn)檢測的方法;如果需要更好的實(shí)時(shí)性和穩(wěn)定性,則可以選擇基于靜態(tài)手勢分類的方法。

    注:本文通訊作者為唐亮。

    參考文獻(xiàn)

    [1]王粉花,黃超,趙波,等.基于YOLO算法的手勢識別[J].北京理工大學(xué)學(xué)報(bào),2020,40(8):873-879.

    [2]孫靖,艾矯燕.基于視覺的實(shí)時(shí)手勢識別及其在演示控制中的應(yīng)用[J].計(jì)算技術(shù)與自動(dòng)化,2013,32(3):52-59.

    [3]張圓圓.基于視覺的手勢識別技術(shù)及其應(yīng)用研究[J].計(jì)算技術(shù)與自動(dòng)化,2015,34(1):131-135.

    [4]陳雅茜,吳非,張代瑋,等.手勢識別關(guān)鍵技術(shù)研究[J].西南民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,48(5):530-536.

    [5] REN S,HE K,GIRSHICK R,et al. Faster R-CNN:Towards real-time object detection with region proposal networks [J]. IEEE transactions on pattern analysis amp; machine intelligence,2017,39(6):1137-1149.

    [6] BOCHKOVSKIY A,WANG C Y,LIAO H. YOLOv4:Optimal speed and accuracy of object detection [Z]. arXiv.org 23 April,2020.

    [7] TAN M,LE Q V. EfficientNet:Rethinking model scaling for convolutional neural networks [J]. arXiv:1905.11946,2019.

    [8] LIU W,ANGUELOV D,ERHAN D,et al. SSD:single shot multibox detector [C]// Proceedings of European Conference on Computer Vision. Cham,Switzerland:Springer,2016:21-37.

    [9]周曉彥,王珂,李凌燕.基于深度學(xué)習(xí)的目標(biāo)檢測算法綜述[J].電子測量技術(shù),2017,40(11):89-93.

    [10]方路平,何杭江,周國民.目標(biāo)檢測算法研究綜述[J]. 計(jì)算機(jī)工程與應(yīng)用,2018,54(13):11-18.

    [11]許德剛,王露,李凡.深度學(xué)習(xí)的典型目標(biāo)檢測算法研究綜述

    [J].計(jì)算機(jī)工程與應(yīng)用,2021,57(8):10-25.

    [12]程旭,宋晨,史金鋼,等.基于深度學(xué)習(xí)的通用目標(biāo)檢測研究綜述[J].電子學(xué)報(bào),2021,49(7):1428-1438.

    [13]熊俊濤,劉梓健,孫寶霞,等.基于視覺技術(shù)的手勢跟蹤與動(dòng)作識別算法[J].計(jì)算機(jī)與現(xiàn)代化,2014,30(7):75-79.

    收稿日期:2023-04-10 修回日期:2023-05-11

    作者簡介:盛 濤(2002—),男,本科,研究方向?yàn)槿斯ぶ悄芘c物聯(lián)網(wǎng)技術(shù)。

    唐 亮(1981—),男,博士,高級工程師,研究方向?yàn)闄C(jī)器人控制與智能化儀器技術(shù)。

    猜你喜歡
    手勢識別圖像分類目標(biāo)檢測
    基于云計(jì)算的圖像分類算法
    視頻中目標(biāo)檢測算法研究
    軟件(2016年4期)2017-01-20 09:38:03
    基于手勢識別的工業(yè)機(jī)器人操作控制方法
    基于紅外的非接觸式手勢識別系統(tǒng)設(shè)計(jì)
    基于嵌入式的智能手表設(shè)計(jì)
    行為識別中的人體運(yùn)動(dòng)目標(biāo)檢測方法
    基于錨點(diǎn)建圖的半監(jiān)督分類在遙感圖像中的應(yīng)用
    復(fù)雜背景下的手勢識別方法
    一種基于引導(dǎo)濾波和MNF的高光譜遙感圖像分類方法
    移動(dòng)機(jī)器人圖像目標(biāo)識別
    达拉特旗| 辰溪县| 翁牛特旗| 吴桥县| 通许县| 静宁县| 宁河县| 乐东| 襄城县| 崇左市| 墨玉县| 肃北| 湖南省| 康乐县| 合川市| 客服| 宝应县| 汉寿县| 武山县| 乌拉特中旗| 屯门区| 湘潭县| 共和县| 汶川县| 葫芦岛市| 八宿县| 肇源县| 大英县| 沅江市| 兰溪市| 辽宁省| 连城县| 云南省| 贺州市| 古交市| 太白县| 乌海市| 正定县| 同江市| 萨迦县| 沈丘县|