• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      結(jié)合關(guān)鍵點和注意力機制的人員著裝檢測方法

      2023-03-14 03:50:40孔華永聶志勇隋立林張金祿
      關(guān)鍵詞:工裝姿態(tài)人體

      孔華永,聶志勇,隋立林,張金祿

      (1.國家能源集團(tuán)信息公司 綜合自動化部, 北京 100011;2.武漢大學(xué) 測繪遙感信息工程國家重點實驗室, 武漢 430072)

      0 引言

      大規(guī)模集中工業(yè)化生產(chǎn)線可以提高工業(yè)生產(chǎn)效率和質(zhì)量,在實際的工業(yè)生產(chǎn)環(huán)境中,工作人員的安全保障和監(jiān)管系統(tǒng)對構(gòu)建持續(xù)化高質(zhì)量的工業(yè)生產(chǎn)系統(tǒng)有著至關(guān)重要的作用。其中,對于工作人員的著裝規(guī)范性檢測對防范安全事故尤為重要——比如在礦場的工作人員,如果不按照要求進(jìn)行著裝,防護(hù)措施不到位將對工作人員生命安全和生產(chǎn)線造成不可挽回的損失。但是,目前關(guān)于工業(yè)生產(chǎn)場景下的安全監(jiān)管系統(tǒng)大多數(shù)依賴人工完成,消耗了大量人力成本,并缺乏統(tǒng)一的規(guī)范化管理和評判標(biāo)準(zhǔn)。并且,工作人員著裝的檢測和監(jiān)管具有出現(xiàn)頻率稀疏和持續(xù)時間短的特點,依賴人工的監(jiān)管系統(tǒng)往往存在較多漏報,且無法滿足從海量視頻大數(shù)據(jù)信息中快速檢測篩選有效信息的需求。因此,人員著裝規(guī)范性檢測方法的研究具有十分重要的現(xiàn)實意義和應(yīng)用價值。

      人員著裝檢測首先要對人體進(jìn)行檢測,目前的人員檢測方法往往依賴于現(xiàn)有的成熟的目標(biāo)檢測技術(shù),然后在目標(biāo)檢測方案的基礎(chǔ)上進(jìn)行細(xì)粒度的特征提取、分析和識別,使模型達(dá)到判斷人員是否規(guī)范著裝的目的。最初,傳統(tǒng)方法的監(jiān)控系統(tǒng)中的目標(biāo)檢測技術(shù)往往通過人工構(gòu)建的幾何特征或紋理特征[1-3]完成對圖像的分析,但這種方法由于缺少數(shù)據(jù)驅(qū)動的特性,往往只能在部分常規(guī)場景中保持較好的效果,但在異常環(huán)境(如黑暗的礦井,多人互遮擋的入口處等)中的檢測效果會有漏檢、誤檢等嚴(yán)重問題。之后,隨著深度學(xué)習(xí)的發(fā)展,出現(xiàn)了很多基于神經(jīng)網(wǎng)絡(luò)(neural network)的數(shù)據(jù)驅(qū)動方法,可以在大規(guī)模數(shù)據(jù)集中取得更好的效果。YOLO系列[4-7]方法作為一階段目標(biāo)檢測方法的代表,由于其在效率和檢測質(zhì)量上取得較好的平衡,因此在實際工業(yè)場景取得了廣泛的應(yīng)用和推廣。對人體的檢測往往傾向于使用更快速的YOLO系列方法高效地獲取人體區(qū)域,從而可以對后續(xù)的各區(qū)域著裝規(guī)范性判斷進(jìn)行更復(fù)雜、細(xì)致地處理,并保持實時性處理性能。此外,在人員著裝檢測任務(wù)中,主要面臨的問題是人體的互遮擋、人體姿態(tài)變化和尺度變化,精確的目標(biāo)定位(便于人體不同區(qū)域的定位),密集和遮擋的目標(biāo)檢測,加速檢測等問題,面對這些問題,需要魯棒性和針對性更強的設(shè)計方案。

      在現(xiàn)階段的研究中,對于人員的著裝檢測,現(xiàn)有的方法往往將其視為目標(biāo)檢測任務(wù)[8-11],即將畫面中的人體各部位(如頭部、腿部、軀干等)分別進(jìn)行定位、裁剪,然后送入對應(yīng)的神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行檢測與識別。但這些方法會帶來3個問題:

      首先,區(qū)域的定位操作往往是基于先驗知識和人體解剖結(jié)構(gòu)對圖片中的信息進(jìn)行的,雖然方式簡單,但無法有效處理下蹲、彎腰等復(fù)雜姿態(tài)情況,這會帶來人體區(qū)域定位準(zhǔn)確度較低的缺陷,進(jìn)而影響分類的精度。

      其次,對于不同人體部位服裝的識別在特征提取過程中往往相互獨立,只在最后的分類層進(jìn)行融合,或直接從整個人體區(qū)域進(jìn)行提取。這種做法雖然有利于提升計算效率,但有些部位具有像素低、特征區(qū)分較弱的特點,因此不同部位(如胸部、腿部、肘部等)特征提取的互不相關(guān)會導(dǎo)致最終不同區(qū)域的檢測與分類難度提升。

      最后,環(huán)境的復(fù)雜性和多變性(如光照、顏色等)對于人員著裝檢測的準(zhǔn)確性有很大的影響,但這方面很少被關(guān)注。

      針對上述人員著裝檢測領(lǐng)域存在的問題,對該任務(wù)進(jìn)行深入調(diào)研,提出以下解決思路:

      1)人體姿態(tài)估計算法可以從圖像或視頻當(dāng)中估計人體各個關(guān)節(jié)的關(guān)鍵點,相比基于圖像的算法,人體姿態(tài)估計算法具有魯棒性高、對先驗知識的依賴性較低的特點,基于這種特點,人體區(qū)域的定位可以基于人體姿態(tài)估計方法進(jìn)行,而不完全依賴先驗知識和人體解剖結(jié)構(gòu)。

      2)人體不同區(qū)域的特征提取應(yīng)該是全局-局部交互進(jìn)行的,而不只是從圖像的某一個區(qū)域或整幅圖像獲得特征,注意力機制具有對圖像全局建模的操作符(operator),并且具有出色的局部到全局的映射能力,因此本文考慮將注意力機制引入人員著裝檢測方法,優(yōu)化人體不同區(qū)域的特征提取過程和建立不同區(qū)域的特征之間的交互關(guān)系。

      3)由于人員著裝檢測方法落地的場景往往復(fù)雜度高、差異性大,但人員著裝具有高統(tǒng)一性的特點,因此對于圖像空間的預(yù)處理操作,將場景差異性和不同的背景語義信息進(jìn)行統(tǒng)一是至關(guān)重要的,觀察到RGB-HSV色彩空間的轉(zhuǎn)換可以有效解耦圖像空間中的色調(diào)(hue)、飽和度(saturation)和亮度(value),在HSV空間可以對背景信息進(jìn)行高效地過濾。

      1 相關(guān)工作

      1.1 目標(biāo)檢測方法

      近年來,隨著視頻監(jiān)控系統(tǒng)的普及和成熟應(yīng)用,海量的視頻數(shù)據(jù)被捕獲和分析。基于圖像處理的目標(biāo)檢測方法得到快速發(fā)展,如在傳統(tǒng)方法中,目標(biāo)檢測技術(shù)首先對圖像進(jìn)行人工特征提取,常見的特征提取手段包括Harr (harr-like features) 方法[1],SIFT(scale invariant feature transform)方法[12]等。然后將提取到的特征送入分類器中進(jìn)行分類,常見的分類器有SVM(support vector machine)[13]和AdaBoost[14]等。但傳統(tǒng)的目標(biāo)檢測方法存在魯棒性較差、泛化性弱、時間復(fù)雜度高等缺陷,缺少數(shù)據(jù)驅(qū)動特性,導(dǎo)致其在大規(guī)模數(shù)據(jù)場景下的效果遠(yuǎn)不如理論實驗效果。隨著深度學(xué)習(xí)的廣泛應(yīng)用和卷積神經(jīng)網(wǎng)絡(luò)(CNN)[15]的快速發(fā)展,自從深度神經(jīng)網(wǎng)絡(luò)推廣后,目標(biāo)檢測作為一項基礎(chǔ)視覺任務(wù)受到啟發(fā),開始結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行研究。根據(jù)檢測結(jié)果的回歸過程,目前主流的目標(biāo)檢測研究方法可以被分為兩階段和一階段2種方式,其中前者將檢測結(jié)果(檢測框)的獲取定義為一種從粗到細(xì)的精細(xì)化過程,而一階段方法將檢測任務(wù)結(jié)果定義為一步到位的流程,直接獲取檢測框。以R-CNN[16]為主的兩階段方法主張先提取候選框,然后再對候選框進(jìn)行篩選和分類。YOLO是第一個基于深度學(xué)習(xí)方法的一階段檢測器。本文中使用了一個完全不同的檢測方案,即將單個神經(jīng)網(wǎng)絡(luò)應(yīng)用于整個圖像的檢測,將圖像直接回歸得到候選框。從驗證結(jié)果上看,YOLO系列工作相比R-CNN系列工作的最大不同在于YOLO系列[4-6]更好地兼顧了效率和精度的平衡。本文中使用了最新的YOLO系列版本即YOLOv4作為檢測任務(wù)的基準(zhǔn)網(wǎng)絡(luò)。

      1.2 人體姿態(tài)估計方法

      人體姿態(tài)估計是一項從圖像或視頻中得到預(yù)先定義的人體關(guān)鍵點(如肘部、腿部、頭部等)的視覺任務(wù)。本文中僅考慮面向圖像的2D人體姿態(tài)估計算法。當(dāng)前的研究工作大多數(shù)集中于多人場景,根據(jù)高級語義特征或低級圖像像素(即先檢測人體還是先檢測關(guān)鍵點),2D人體姿態(tài)估計方法可以被分為自上而下(top-down)方法和自下而上(bottom-up)方法。

      自下而上(bottom-up)方法主張首先預(yù)測輸入圖像中每個人的身體部位,然后通過關(guān)鍵點匹配算法(如動態(tài)規(guī)劃、匈牙利算法、貪婪算法等)得到每個人的關(guān)鍵點姿態(tài),根據(jù)不同的方法,檢測的最小單位可以是關(guān)節(jié)或肢體模板區(qū)域。而自上而下(top-down)方法主張首先檢測人體,將人體檢測進(jìn)行裁剪、精細(xì)化等處理后,再對單個人體分別檢測關(guān)鍵點。AlphaPose[17]使用了檢測方法中常見的非極大值抑制(NMS)和沙漏網(wǎng)絡(luò)(hourglass network)[18]提高多人姿態(tài)估計的準(zhǔn)確性??偟膩碚f,自上而下方法通過將現(xiàn)有的檢測網(wǎng)絡(luò)和單個人體姿態(tài)估計網(wǎng)絡(luò)結(jié)合可以輕松實現(xiàn)自上而下的人體姿態(tài)估計方法,但是,這種方法的性能會受到人檢測結(jié)果的影響,并且實際推理速度(使用GPU設(shè)備)通常不是實時的。

      綜上所述,自上而下和自下而上方法分別都取得了較好的表現(xiàn)并保持了各自的特點。但隨著圖像中人數(shù)的增加,自上而下方法的計算成本顯著增加,而自下而上方法則保持穩(wěn)定。 但伴隨著人體互遮擋、低分辨率等問題,自下而上的方法將會有更大的精度損失。基于本任務(wù)中已有且必須具備的人體檢測功能,在本文方法中,將兩階段的自上而下方法(即檢測人體和單人姿態(tài)估計)進(jìn)行解耦,利用檢測出的人體進(jìn)行單人姿態(tài)估計得到每個人員的人體關(guān)鍵點,同時降低模型計算量,提高模型推理速度。在已有行人檢測結(jié)果的基礎(chǔ)上,本文的姿態(tài)估計方法可以接近自下而上方法的效率。

      1.3 注意力機制

      注意力機制(attention mechanism)目前已經(jīng)被廣泛應(yīng)用于計算機視覺領(lǐng)域的各項任務(wù)中(圖像分類、目標(biāo)檢測、姿態(tài)估計等)[1-3,19-20]。圖像任務(wù)中的注意力機制相關(guān)的研究工作大多數(shù)使用掩碼矩陣作為圖像中注意力的表征形式。自注意力機制(self-attention)屬于注意力機制的一種,也是在圖像任務(wù)中最廣泛應(yīng)用的注意力機制之一。在首先被ViT[1]應(yīng)用于圖像分類任務(wù)后,在取得亮眼表現(xiàn)的同時,也促進(jìn)了自注意力機制在視覺任務(wù)中的改進(jìn)。對于圖像分類任務(wù)和目標(biāo)檢測任務(wù)而言,注意力機制已經(jīng)取得了非常矚目的成績,但自注意力機制尚未被很好地應(yīng)用到人員著裝檢測任務(wù)當(dāng)中。因此,本文也是第一個嘗試將自注意力融入到人員著裝檢測任務(wù)的基準(zhǔn)方案中的,以使得網(wǎng)絡(luò)自適應(yīng)地關(guān)注人員著裝分類的重點區(qū)域,從而提高著裝分類的整體精度。

      2 算法設(shè)計與模型結(jié)構(gòu)

      2.1 任務(wù)定義與算法流程

      人員著裝檢測方法的輸入為待檢測的圖像序列,幀率為25幀/s,對于輸入的每幅圖像,算法需要檢測人員所在區(qū)域并準(zhǔn)確定位到人員的不同著裝部位(頭盔、工裝馬甲、工靴和除頭部以外的整體工裝),并對每個部位是否正確著裝進(jìn)行判別,輸出多分類概率結(jié)果,對于著裝違規(guī)的人員,記錄日志信息(時間、相機設(shè)備編號、人員坐標(biāo)、違規(guī)著裝圖片等)。人員著裝檢測算法是一個系統(tǒng)的,包含多個模型的多任務(wù)框架(人體檢測,2D人體姿態(tài)估計,局部圖像分類)。如圖1所示,本文的方法首先使用基于YOLOv4的人體檢測模型得到待檢測圖像序列中的人體區(qū)域,然后輸入到2D人體姿態(tài)估計算法中,得到每個人體區(qū)域的2D關(guān)鍵點,然后使用人體著裝定位得到每個人體要進(jìn)行識別的區(qū)域,最終使用一個簡單的圖像分類網(wǎng)絡(luò)對著裝區(qū)域進(jìn)行多分類,得到每個區(qū)域的分類結(jié)果。整個流程將人體著裝檢測任務(wù)解耦為多個子任務(wù),由于解耦后的每個子任務(wù)都屬于較為通用的任務(wù)場景,因此大規(guī)模數(shù)據(jù)集預(yù)訓(xùn)練模型的遷移學(xué)習(xí)效果很好,大大減少了算法的數(shù)據(jù)需求,同時可以保證數(shù)據(jù)驅(qū)動帶來的模型通用性和良好的泛化性。

      黑色框為程序步驟,藍(lán)色框為算法調(diào)用的網(wǎng)絡(luò)模型

      2.2 基于YOLOv4的人員檢測方法

      本文的方法基于YOLOv4作為baseline,并結(jié)合YOLOv5方案的優(yōu)點,在此基礎(chǔ)上根據(jù)實際情況進(jìn)行具體模型的選擇和模型的修改。借鑒了YOLOv5中的Focus操作,具體來說,在1張圖片中間隔像素進(jìn)行取值得到近鄰下采樣的結(jié)果,得到4張下采樣的圖片,4張圖片將輸入通道維度擴充了4倍,即由原始圖片的RGB三通道模式變成了12個通道,最后將得到的新圖片再經(jīng)過卷積操作,最終得到了沒有信息丟失情況下的二倍下采樣特征圖。此外,由于傳統(tǒng)的SPP(spatial pyramid pooling)的多級卷積過程依然是檢測任務(wù)推理過程中的瓶頸,通過統(tǒng)一卷積核尺寸,應(yīng)用一次卷積和分級池化的策略將SPP升級為SPPF(spatial pyramid pooling-fast),金字塔池化模塊可以進(jìn)一步提高推理速度,降低了卷積層的計算量,網(wǎng)絡(luò)在實際訓(xùn)練中的運算速度也得到提升。在訓(xùn)練時,首先加載預(yù)訓(xùn)練的YOLOv4權(quán)重,并修改最后一層的檢測結(jié)果,使其只檢測本文需要的結(jié)果,即行人類別,最后,在自己收集的小規(guī)模數(shù)據(jù)集上進(jìn)行遷移學(xué)習(xí),優(yōu)化行人檢測的效果。此外,本文還添加了部分后處理操作,對圖像中的非規(guī)則人體、缺失人體或極小目標(biāo)進(jìn)行篩選,此過程基于檢測框比例和人體結(jié)構(gòu)的先驗知識,無需占用計算量即可快速完成篩選。

      2.3 基于人體姿態(tài)估計的區(qū)域定位方法

      在基于人體姿態(tài)估計的區(qū)域定位方法部分,本文使用了基于AlphaPose的2D人體姿態(tài)估計網(wǎng)絡(luò)獲取每個人員的身體關(guān)鍵點,并基于獲得的人體關(guān)鍵點檢測結(jié)果和區(qū)域定位策略,準(zhǔn)確定位不同姿態(tài)下的人體局部區(qū)域,從原圖裁剪各區(qū)域并輸入后續(xù)多級特征自注意力機制和多分類模型,實現(xiàn)著裝特征提取和違規(guī)工裝的識別。

      圖2 2D人體姿態(tài)估計方法

      在得到人體姿態(tài)估計的結(jié)果后,對每個人體進(jìn)行切分定位。如圖3所示,具體的各部位定位策略為:頭和脖子均被檢測到時定位到頭部區(qū)域,高度為頭部到脖子的距離適當(dāng)擴增,寬度則根據(jù)左右肩部關(guān)節(jié)點與胸部關(guān)節(jié)點的中點進(jìn)行定位;馬甲(上衣)定位由左右肩部和左右臀部進(jìn)行確定;工靴定位則由左右膝蓋和左右腳部構(gòu)成的矩形區(qū)域完成。

      圖3 人體工裝定位示意圖

      2.4 RGB-HSV空間變換預(yù)處理

      使用RGB到HSV空間的變換對人體的整體區(qū)域進(jìn)行篩選,為工裝分類提供輔助參考,該操作無需神經(jīng)網(wǎng)絡(luò)參與,且操作簡單,計算量可以忽略不計。顏色空間又稱為彩色模型,以某些通??梢越邮艿姆绞綄υ摽臻g中的所有色彩加以表示和說明。在顏色空間中,通常由3個獨立的屬性來描述顏色,常見的有 RGB、HSV、CMY、YUV 等[4]。在 RGB 顏色空間中,各顏色分量的數(shù)值越小表示亮度越低,數(shù)值越大表示亮度最高,各顏色分量的強度范圍為 0~255。任意顏色的 RGB 顏色空間構(gòu)成的數(shù)學(xué)表達(dá)式為:

      F=r[R]+g[G]+b[B]

      (1)

      HSV顏色空間是一種亮分離顏色空間,分別為色相(hue)、飽和度(saturation)和明度(value)。色相是色彩的基本屬性,在六角錐體模型中通過從0°~360°的不同角度來度量顏色。飽和度按照顏色與光譜色的接近程度來度量,也就是色彩的純度。某種光譜色與白色混合得到一種顏色,其中光譜色所占的比例愈大,顏色接近光譜色的程度就愈高,顏色的飽和度也就愈高。明度用于衡量顏色明亮的程度,當(dāng)衡量光源的顏色時,發(fā)光物體的明亮程度決定了明度值的大小。

      通過RGB-HSV轉(zhuǎn)換后,可以輕易地利用色彩、亮度和飽和度對人員整體著裝區(qū)域進(jìn)行區(qū)分,以獲取第一步判別(即整體工裝是否穿戴正確)的結(jié)果(如圖4所示),該操作無需任何神經(jīng)網(wǎng)絡(luò)參與,基于現(xiàn)有工裝的先驗特征即可設(shè)定合適的色相、飽和度、明度的閾值進(jìn)行篩選,所需計算量可以忽略不計。通過RGB-HSV預(yù)處理篩選的結(jié)果可以輕易識別整體工裝是否正確,當(dāng)判別結(jié)果為不正確時,本文方法直接進(jìn)行報警記錄。這樣既可以實現(xiàn)不依賴神經(jīng)網(wǎng)絡(luò)模型的快速檢測,提高檢測效率,同時又可以一定程度上避免模型過擬合帶來的低泛化能力。

      圖4 RGB-HSV變換預(yù)處理效果

      2.5 基于注意力機制的多區(qū)域特征提取和分類

      在各區(qū)域工裝判別分類階段,在圖像分類模型之前引入自注意力機制,通過訓(xùn)練學(xué)習(xí)少量額外參數(shù),使分類模型將注意力集中于輸入工裝部位中的重要區(qū)域,從而提升違規(guī)著裝識別的準(zhǔn)確率。如圖5所示,對于自注意力模塊,基于ViT[21]的圖像任務(wù)處理模式,將輸入圖像的不同區(qū)域視為不同的切塊,使用padding填充和雙線性插值的方式將圖像上采樣到相同大小。經(jīng)過以上預(yù)處理步驟后,再將得到的4個切塊進(jìn)一步切分(每個切塊切分為4個小patch)得到16個patch,通過一個由全連接層構(gòu)成的線性嵌入層(linear embedding layer)映射到高維特征空間,輸入到多頭自注意力機制計算相互之間的注意力掩碼矩陣,賦給原始patch映射的高維特征。將添加過注意力的圖像維特征恢復(fù)到原始大小,輸入到一個簡單的 Resnet-50[22]網(wǎng)絡(luò)中,添加全連接分類層(共8類),得到最終的分類結(jié)果。

      圖5 工裝分類模型框架與網(wǎng)絡(luò)結(jié)構(gòu)

      3 實驗及結(jié)果分析

      3.1 數(shù)據(jù)集和實驗配置

      所有實驗均在單張NVIDIA RTX 2080Ti上進(jìn)行,代碼基于Pytorch構(gòu)建,系統(tǒng)環(huán)境為Ubuntu 18.04。公平起見,本文的實驗在公開數(shù)據(jù)集MSCOCO上測試人體檢測的效果,并在本文自定義的工裝數(shù)據(jù)集中驗證最終的工裝檢測效果。

      3.2 MSCOCO數(shù)據(jù)集

      使用MSCOCO2017 val set目標(biāo)檢測數(shù)據(jù)集驗證本文的人體檢測模型的精度。分別使用準(zhǔn)確率(AP,AP50,AP75)和推理速度(FPS)對模型進(jìn)行驗證,并將最好的結(jié)果進(jìn)行標(biāo)粗。如表1所示,實驗結(jié)果表明,相比通用的檢測方案,本文方法在人體檢測任務(wù)中表現(xiàn)優(yōu)異,在AP50和FPS推理速度上均達(dá)到了最優(yōu)結(jié)果,因此可以證明本文基于YOLOv4改進(jìn)的人體檢測方案可以實現(xiàn)快速推理的同時,保持幾乎和通用檢測方案相同的精度表現(xiàn)。

      表1 COCO2017人體檢測數(shù)據(jù)集實驗結(jié)果

      3.3 自定義煤礦場景人員著裝檢測數(shù)據(jù)集

      由于煤礦場地作業(yè)場景的特殊性,以及待檢測的安全帽和工裝馬甲,即工靴類別特征少見的特性,目前尚無統(tǒng)一的公開數(shù)據(jù)集支持任務(wù)驗證。為了推進(jìn)該任務(wù)在領(lǐng)域內(nèi)發(fā)展以及合理驗證本文方法的有效性,構(gòu)建了煤礦工作場景(安檢通道、礦井等)下的人員著裝數(shù)據(jù),針對煤礦作業(yè)構(gòu)建專用數(shù)據(jù)集。具體來說,對3 000張無序圖片分別進(jìn)行安全帽、工裝(藍(lán)色和橙色)、工裝馬甲和工靴進(jìn)行人工標(biāo)注,圖片分辨率為1 920 × 1 080,且其中2 030張圖像中均包含佩戴安全帽及防毒面具的工作人員。鑒于違規(guī)著裝的服裝多樣性,因此負(fù)樣本的搜集不能僅限于指定的工作場景中,從DeepFashion[23]篩選了1 000張站立全身著裝圖,分別進(jìn)行人工標(biāo)注和定位,添加到違規(guī)著裝的負(fù)樣本類別中。數(shù)據(jù)集樣本類別及數(shù)量見表2。

      表2 自定義煤礦場景數(shù)據(jù)集樣本類別與數(shù)量

      在自定義煤礦場景數(shù)據(jù)集中使用基于注意力機制的區(qū)域特征表示和多分類網(wǎng)絡(luò)進(jìn)行著裝分類實驗,得到結(jié)果如表3所示,實驗證明本文的方案在該工作場景中可以達(dá)到優(yōu)異的效果,在開放世界中的推理結(jié)果的可視化實驗見圖6。本文的方法在單張RTX 2080Ti上未經(jīng)任何推理加速方案(如Tensor RT等)即可達(dá)到29幀/s的檢測速度,完全可以滿足實時檢測任務(wù)的需求。

      表3 人員著裝檢測結(jié)果

      圖6 樣本可視化檢測場景

      3.4 消融實驗

      為了驗證各模塊對網(wǎng)絡(luò)模型整體結(jié)構(gòu)的貢獻(xiàn),在MSCOCO數(shù)據(jù)集上設(shè)計了系統(tǒng)的消融實驗,分別驗證提出方法中2D姿態(tài)估計模型對著裝檢測的影響和改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)對參數(shù)量及實時性的影響。首先,使用多種不同的2D姿態(tài)估計模型(OpenPose,AlphaPose以及本文的姿態(tài)估計模型)分別進(jìn)行著裝檢測任務(wù)的端到端訓(xùn)練,并在MSCOCO Keypoint Challenge數(shù)據(jù)集和自定義著裝檢測數(shù)據(jù)集上分別驗證姿態(tài)估計精度和著裝檢測精度,結(jié)果如表4所示,本文的方法在精度上大幅優(yōu)于之前的OpenPose和AlphaPose,且改進(jìn)后的姿態(tài)估計模型相比AlphaPose模型推理速度也得到大幅提升,完全可以滿足實時性能的要求。

      表4 COCO人體關(guān)鍵點數(shù)據(jù)集實驗結(jié)果及著裝檢測準(zhǔn)確度

      此外,為了驗證模型的泛化性,在MSCOCO數(shù)據(jù)集上訓(xùn)練人體檢測數(shù)據(jù)集后,直接在自定義數(shù)據(jù)集中進(jìn)行遷移學(xué)習(xí),檢測數(shù)據(jù)集中的工裝及類別,同時對比本文所提出的方法(在MSCOCO訓(xùn)練人體定位和姿態(tài)估計任務(wù)后,再遷移到自定義數(shù)據(jù)集中),結(jié)果如表5所示,直接使用檢測模型完成端到端的著裝檢測任務(wù)時,雖然推理速度略快于本文方法,但精確率和召回率方面均大幅落后于本文的方法。鑒于FPS指標(biāo)均可以達(dá)到實時性能,且由于去除了著裝部位的檢測回歸模塊,同時還可以一定程度上降低參數(shù)量,具有更好的泛化能力和遷移學(xué)習(xí)能力,因此本文方法是更適用于著裝檢測任務(wù)的解決方案。綜上所述,實驗可以證明將著裝檢測任務(wù)解耦為人體定位與著裝分類任務(wù)具備更好的通用性。

      表5 自定義數(shù)據(jù)集上本文方法與檢測任務(wù)模型精度

      3.5 本文方法的限制及未來工作

      不同于傳統(tǒng)的檢測方案,本文方法將著裝檢測任務(wù)解耦為人體區(qū)域定位和圖像分類任務(wù),有效提升了模型性能和效率。但同時本文方法存在小目標(biāo)著裝檢測能力較弱的問題,這主要是由于小目標(biāo)下的人體姿態(tài)難以準(zhǔn)確估計,從而造成區(qū)域分割不準(zhǔn),且對于小目標(biāo)人體,即使較小的姿態(tài)誤差也會造成分割區(qū)域的不準(zhǔn)確,從而導(dǎo)致著裝分類準(zhǔn)確率下降。并且由于現(xiàn)實場景中小目標(biāo)常出現(xiàn)在畫面邊緣處,因此常常伴隨著邊緣畸變問題,這也增加了區(qū)域定位和分類的難度。因此之后的工作會集中在矯正畸變和考慮超分辨率重建等數(shù)據(jù)增強方案提升小目標(biāo)情況下的著裝檢測效果。

      4 結(jié)論

      1) 提出一種新穎的人員著裝檢測算法,該方法基于改進(jìn)的人體檢測算法和2D人體姿態(tài)估計模型對人員進(jìn)行精準(zhǔn)檢測和著裝區(qū)域的精準(zhǔn)定位,結(jié)合注意力機制和一個簡單的多分類網(wǎng)絡(luò)完成最終的人員著裝檢測任務(wù)。

      2) 實驗證明,得益于精確的人體區(qū)域定位和RGB-HSV色彩空間變換預(yù)處理,算法的精度和效率可以得到保證,廣泛適用于多種工作場景,具有較好的魯棒性。

      3) 本文算法涉及的模型包括3個獨立模塊,并且在工靴檢測實驗中精度較低,因此,如何設(shè)計端到端優(yōu)化的人員著裝檢測模型和提升小目標(biāo)(工靴)檢測精度將是下一步的研究方向。

      猜你喜歡
      工裝姿態(tài)人體
      工裝靴
      人體“修補匠”
      人體冷知識(一)
      排便順暢,人體無毒一身輕
      軸鉆斜孔工裝設(shè)計
      防爆電機(2020年6期)2020-12-14 07:17:06
      攀爬的姿態(tài)
      一種取出塑件殘余量的輔助工裝
      模具制造(2019年4期)2019-06-24 03:36:46
      全新一代宋的新姿態(tài)
      汽車觀察(2018年9期)2018-10-23 05:46:40
      跑與走的姿態(tài)
      中國自行車(2018年8期)2018-09-26 06:53:44
      奇妙的人體止咳點
      特別健康(2018年3期)2018-07-04 00:40:10
      民权县| 临桂县| 牙克石市| 鄂尔多斯市| 砚山县| 盐源县| 涞水县| 界首市| 扬州市| 瑞金市| 左贡县| 新宁县| 全州县| 永宁县| 湖州市| 图片| 江门市| 唐河县| 于都县| 菏泽市| 平山县| 赫章县| 蕲春县| 连江县| 东宁县| 平谷区| 台江县| 新河县| 剑河县| 铁岭市| 弥勒县| 醴陵市| 迁安市| 茶陵县| 罗甸县| 台北市| 仙桃市| 奇台县| 东港市| 南召县| 浏阳市|