摘" 要: 針對關(guān)鍵點(diǎn)檢測中目標(biāo)尺度多變以及不同特征適應(yīng)性等難題,為進(jìn)一步提升現(xiàn)有的姿態(tài)估計(jì)方法在實(shí)現(xiàn)姿態(tài)估計(jì)任務(wù)時(shí)的性能,驗(yàn)證單階段和多階段姿態(tài)估計(jì)方法各自的有效性,提出一種基于改進(jìn)沙漏的攀巖運(yùn)動(dòng)關(guān)鍵點(diǎn)檢測算法。首先設(shè)計(jì)一個(gè)多路池化殘差結(jié)構(gòu),改善由于沙漏網(wǎng)絡(luò)多次上下采樣帶來的信息損失和上下文信息提取不足的局限性,提升淺層特征在關(guān)鍵點(diǎn)檢測中的表現(xiàn);其次在沙漏網(wǎng)絡(luò)中引入沙漏注意力結(jié)構(gòu),通過利用特征映射將輸入信息劃分為不同大小的特征塊序列,在特征編碼和特征解碼兩個(gè)過程中,充分挖掘圖像有效信息,使得在特征匹配過程中不僅考慮本身的擬合程度,更考慮到關(guān)節(jié)位置之間的關(guān)聯(lián)信息。實(shí)驗(yàn)表明,提出的算法在公開數(shù)據(jù)集MPII、COCO和針對攀巖運(yùn)動(dòng)的數(shù)據(jù)集上表現(xiàn)良好,且算法泛化能力較好,能夠應(yīng)用于多種運(yùn)動(dòng)場景中的人體關(guān)鍵點(diǎn)檢測任務(wù)。
關(guān)鍵詞: 沙漏注意力; 關(guān)鍵點(diǎn)檢測; 攀巖運(yùn)動(dòng); 多路池化; 關(guān)聯(lián)信息; 特征編碼; 特征映射
中圖分類號: TN911.73?34; TP391" " " " " " " " "文獻(xiàn)標(biāo)識(shí)碼: A" " " " " " " " " " 文章編號: 1004?373X(2024)17?0117?06
Rock climbing keypoint detection algorithm based on improved hourglass
TAN Guangxing, TANG Tiannan, YI Tong, CHEN Haifeng
(School of Automation, Guangxi University of Science and Technology, Liuzhou 545000, China)
Abstract: In view of the variable target scales and adaptability for different features in keypoint detection, a rock climbing keypoint detection algorithm based on improved hourglass is proposed in order to further improve the performance of the existing attitude estimation methods during the process of achieving attitude estimation tasks and verify the effectiveness of single?stage and multi?stage attitude estimation methods. A multi?channel pooling residual structure is designed to eliminate the information loss caused by multiple up?samplings and down?samplings of the hourglass network and the limitations of insufficient context information extraction, and improve the performance of shallow features in keypoint detection. An hourglass attention structure is introduced into the hourglass network. The input information is divided into feature block sequences of different sizes by feature maps. The effective information of the image is fully exploited in the two processes of feature encoding and feature decoding, so that not only the fitting degree of itself is considered, but also the correlation information between joint positions is considered in the process of feature matching. The experiments show that the proposed algorithm performs well on the public data sets MPII and COCO and the data sets for rock climbing, and the algorithm is of good generalization ability, so it can be applied to the tasks of human keypoint detection in a variety of sports scenes.
Keywords: hourglass attention; keypoint detection; rock climbing; multi?way pooling; association information; feature encoding; feature mapping
0" 引" 言
攀巖運(yùn)動(dòng)作為一項(xiàng)曾經(jīng)人類挑戰(zhàn)自身極限的戶外極限運(yùn)動(dòng),隨著愛好者的逐漸增多和競技攀巖運(yùn)動(dòng)的不斷發(fā)展,攀巖運(yùn)動(dòng)開始由室外運(yùn)動(dòng)轉(zhuǎn)為更為安全的室內(nèi)運(yùn)動(dòng)。與其他傳統(tǒng)的室內(nèi)運(yùn)動(dòng)不同,攀巖運(yùn)動(dòng)對運(yùn)動(dòng)者的全身素質(zhì)要求全面,由于其獨(dú)特的競技性和觀賞性,攀巖運(yùn)動(dòng)素有“空中芭蕾”的美譽(yù)。
隨著攀巖運(yùn)動(dòng)加入更多大型賽事,比賽項(xiàng)目的多樣性和多元性會(huì)逐步增加,數(shù)字技術(shù)和電子技術(shù)在攀巖運(yùn)動(dòng)中將發(fā)揮更重要的作用,如運(yùn)用計(jì)算機(jī)設(shè)備輔助運(yùn)動(dòng)員進(jìn)行訓(xùn)練和評估,通過電子虛擬設(shè)備幫助運(yùn)動(dòng)員進(jìn)行更安全、高難度訓(xùn)練[1?2]。這類通過數(shù)字圖像技術(shù)和電子通信技術(shù)幫助攀巖運(yùn)動(dòng)員提高自身運(yùn)動(dòng)水平的方法也存在許多挑戰(zhàn):一是針對不同運(yùn)動(dòng)員體態(tài)特征和攀巖運(yùn)動(dòng)的特殊性難以實(shí)現(xiàn)對運(yùn)動(dòng)員關(guān)鍵信息的精準(zhǔn)捕捉和針對性訓(xùn)練,在速度賽中通常更關(guān)注于速度而非技巧,而在攀石賽中通常更關(guān)注于技巧,難度賽往往需要兼?zhèn)涠鄠€(gè)方面[3];二是傳統(tǒng)的穿戴式設(shè)備和電子設(shè)備往往會(huì)對運(yùn)動(dòng)員帶來一定程度的束縛,從而使運(yùn)動(dòng)員產(chǎn)生一定的抵觸心理。針對上述挑戰(zhàn),非穿戴式設(shè)備和電子設(shè)備往往在舒適性和通用性上有很大的改善,對此許多研究員提出了結(jié)合深度卷積網(wǎng)絡(luò)的姿態(tài)估計(jì)方法[4?5]。
與早期方法使用基于手工特征的方法不同,結(jié)合深度卷積網(wǎng)絡(luò)的姿態(tài)估計(jì)方法,精度高且泛化能力強(qiáng),具有普適性。目前,應(yīng)用最廣泛的方法大多都是基于從圖像分類領(lǐng)域中遷移過來的深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu),這類方法按照目標(biāo)任務(wù)可分為單階段和多階段兩類。例如,2016年由何凱明等人提出的ResNet網(wǎng)絡(luò)結(jié)構(gòu)和2017年基于Res?Inception的COCO關(guān)鍵點(diǎn)挑戰(zhàn)的獲勝者均為單階段網(wǎng)絡(luò)結(jié)構(gòu),這類網(wǎng)絡(luò)結(jié)構(gòu)往往在骨干網(wǎng)絡(luò)后添加相應(yīng)上采樣或反卷積以獲得較高的空間分辨率,但隨著目標(biāo)任務(wù)的不斷變化,簡單增加網(wǎng)絡(luò)深度和容量很難帶來很好的性能提升[6]。
除單階段網(wǎng)絡(luò)結(jié)構(gòu)外,另一類姿態(tài)估計(jì)方法是多階段網(wǎng)絡(luò)結(jié)構(gòu)。每個(gè)階段都可以算作簡單小型網(wǎng)絡(luò),包括完整的下采樣和上采樣,且每種方法可以是自底向上方式,也可以是自頂向下方式,而對于單階段網(wǎng)絡(luò)結(jié)構(gòu)都是自頂向下方式進(jìn)行[7]。在這類方法中,每個(gè)階段之間的特征圖和熱力圖仍然可以保證不壓縮圖像質(zhì)量,各個(gè)階段之間同時(shí)監(jiān)督,進(jìn)而實(shí)現(xiàn)端到端的訓(xùn)練。這類方法中最具有典型性的是本文采用的堆疊沙漏網(wǎng)絡(luò)。
從現(xiàn)有的實(shí)驗(yàn)結(jié)果看,多級網(wǎng)絡(luò)結(jié)構(gòu)更適合于姿態(tài)估計(jì)任務(wù),它能最大程度地在保留高空間分辨率的同時(shí),使得訓(xùn)練過程更加可視化和靈活。事實(shí)上,多級網(wǎng)絡(luò)結(jié)構(gòu)在大中型數(shù)據(jù)集上能得到很好的結(jié)果,而在像MPII、COCO等數(shù)據(jù)量很大的數(shù)據(jù)集上,其精度要低于單級網(wǎng)絡(luò)結(jié)構(gòu)。
為解決上述問題,本文將采集的攀巖運(yùn)動(dòng)圖像制作為兩種不同標(biāo)注類型的數(shù)據(jù)集:一種類型更關(guān)注運(yùn)動(dòng)員上半身運(yùn)動(dòng)特征;另一種類型更關(guān)注運(yùn)動(dòng)員中軸線的運(yùn)動(dòng)特征。前者通過觀察運(yùn)動(dòng)員頭部注意力和四肢點(diǎn)位,捕捉到運(yùn)動(dòng)員在運(yùn)動(dòng)情境時(shí)完成相應(yīng)動(dòng)作的運(yùn)動(dòng)決策和視覺搜索情況,從而實(shí)現(xiàn)針對性技巧訓(xùn)練,這更適合于難度賽和攀石賽;后者通過觀察運(yùn)動(dòng)員中軸線的重心和四肢點(diǎn)位,捕捉到運(yùn)動(dòng)員在運(yùn)動(dòng)情境時(shí)完成全部動(dòng)作的身體規(guī)范和穩(wěn)定程度,從而實(shí)現(xiàn)針對性體能訓(xùn)練,更適合于速度賽。本文提出基于改進(jìn)沙漏的攀巖運(yùn)動(dòng)關(guān)鍵點(diǎn)檢測算法,通過提出的算法提升現(xiàn)有多階段姿態(tài)估計(jì)算法的性能,同時(shí)將算法應(yīng)用于所提出的針對攀巖運(yùn)動(dòng)的動(dòng)作數(shù)據(jù)集中,驗(yàn)證單階段和多階段姿態(tài)估計(jì)算法各自的有效性。
1" 基于改進(jìn)沙漏的人體關(guān)鍵點(diǎn)檢測網(wǎng)絡(luò)
1.1" 堆疊沙漏網(wǎng)絡(luò)
在多階段網(wǎng)絡(luò)結(jié)構(gòu)中,許多網(wǎng)絡(luò)結(jié)構(gòu)大多只使用最后一層輸出卷積特性作為網(wǎng)絡(luò)的輸出,這往往會(huì)造成多層信息在傳輸過程中的信息丟失,為更好捕獲人體關(guān)鍵點(diǎn)不同特征之間的位置和距離等關(guān)系,Newell等人提出了堆疊沙漏網(wǎng)絡(luò)。該網(wǎng)絡(luò)結(jié)構(gòu)以卷積姿態(tài)機(jī)(Convolutional Pose Machine, CPM)網(wǎng)絡(luò)為基礎(chǔ),借鑒ResNet殘差網(wǎng)絡(luò)的思想,設(shè)計(jì)了一個(gè)含有跳躍連接且結(jié)構(gòu)對稱的由多個(gè)沙漏網(wǎng)絡(luò)堆疊而成的網(wǎng)絡(luò)結(jié)構(gòu),因其網(wǎng)絡(luò)結(jié)構(gòu)外形似多個(gè)沙漏堆疊在一起稱為堆疊沙漏網(wǎng)絡(luò)。該網(wǎng)絡(luò)有多次反復(fù)的上下采樣過程,在計(jì)算損失函數(shù)時(shí)引入中繼監(jiān)督對單個(gè)沙漏模塊單獨(dú)進(jìn)行損失計(jì)算,使上一個(gè)沙漏模塊的損失對下一個(gè)沙漏模塊不構(gòu)成影響,最終生成包括多尺度特征信息的熱力圖,檢測結(jié)果更為準(zhǔn)確。但該網(wǎng)絡(luò)結(jié)構(gòu)也存在局限性,如由于多次上采樣采用的插值方法帶來的信息損失和上下文信息提取不足帶來的淺層特征表現(xiàn)較差,從而影響各關(guān)鍵點(diǎn)之間的特征提取結(jié)果。沙漏子網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
1.2" 改進(jìn)沙漏模塊
針對上述堆疊沙漏網(wǎng)絡(luò)存在的局限性,本文提出含有多路池化的改進(jìn)殘差模塊。改進(jìn)殘差模塊在保留原沙漏模塊殘差結(jié)構(gòu)的基礎(chǔ)上新增一條池化路并對原有的卷積路做出調(diào)整,有效地改善原沙漏模塊感受野較小,對淺層結(jié)構(gòu)信息挖掘不足的局限性。該模塊主要由卷積層、池化層、Batchnorm層、ReLU激活層等組成。由于單位映射可能會(huì)隨著網(wǎng)絡(luò)深度的加深導(dǎo)致優(yōu)化難度加大等問題的出現(xiàn),用一個(gè)1×1卷積層替換殘差結(jié)構(gòu)中由單位映射構(gòu)成的跳級路。新增一條池化路,即圖2中的下路,包括兩個(gè)3×3卷積層、一個(gè)2×2最大池化層和一個(gè)1×1卷積層。同時(shí)對中路進(jìn)行調(diào)整,在原殘差結(jié)構(gòu)的基礎(chǔ)上增加一個(gè)2×2最大池化層、一個(gè)3×3卷積層和一個(gè)1×1卷積層。三條分路分別有不同的任務(wù)分工,上路和中路通過深度卷積和1×1卷積層獲取高分辨率的圖像信息,同時(shí)較好地保留圖像原有信息,下路通過擴(kuò)張?zhí)崛D像時(shí)的感受野,捕獲圖像的全局信息,最后將三路輸出進(jìn)行特征融合后傳遞至下一個(gè)模塊,其中每一路的卷積層之間保留了原網(wǎng)絡(luò)的Batchnorm層和ReLU激活層,以防止特征提取過程中出現(xiàn)過擬合的現(xiàn)象。多路池化殘差結(jié)構(gòu)如圖2所示。
1.3" 沙漏注意力模塊
針對堆疊沙漏網(wǎng)絡(luò)存在特征提取不足的缺陷,本文設(shè)計(jì)一個(gè)沙漏注意力模塊,沙漏注意力結(jié)構(gòu)包括特征編碼和特征解碼兩個(gè)過程。特征編碼過程負(fù)責(zé)從輸入圖像中提取特征,特征解碼過程負(fù)責(zé)將處理完成的特征信息轉(zhuǎn)換為圖像輸出。具體來說,圖像信息經(jīng)過特征編碼后,捕獲到一個(gè)[H×W×M]的特征映射,將其劃分為[H×W]個(gè)塊,每個(gè)塊的大小為[1×1×M],然后將該塊的序列信息輸入到沙漏注意力模塊的第一個(gè)子層,記為[E1]階段。隨后,以不同的塊大小重復(fù)4次,分別記為[E2]階段、[E3]階段、[E4]階段和[E5]階段。換言之,在特征編碼的每個(gè)階段,首先將輸入特征映射記為[Y∈RH×W×M],依次將[Y]劃分為[H×Wqi]個(gè)塊,每個(gè)塊的大小為[qi×qi×M],其中[qi]依次為1、2、4、8、16;再將特征塊依次輸入到注意力塊后續(xù)子層中;最終輸出與[Y]大小一致的新特征圖。隨著網(wǎng)絡(luò)深度增加,特征塊數(shù)量減少,特征塊大小增大。
與特征編碼類似,特征解碼可以理解為特征編碼的逆過程,即在特征解碼的[D5]、[D4]、[D3]、[D2]和[D1]五個(gè)階段,依次將輸入特征[Y∈RH×W×M]劃分為[H×Wqi]個(gè)塊,每個(gè)塊大小為[qi×qi×M],其中[qi]依次為16、8、4、2、1。隨后將這些塊輸入到注意塊的后續(xù)子層,得到相應(yīng)的特征映射。同時(shí)隨著網(wǎng)絡(luò)深度的增加,特征塊的數(shù)量逐漸增加,特征塊的大小減少。最終按照由特征編碼到特征解碼排列,組合成如圖3所示的沙漏注意力結(jié)構(gòu)。
1.4" 網(wǎng)絡(luò)整體架構(gòu)
圖4為本文設(shè)計(jì)網(wǎng)絡(luò)的二階沙漏整體架構(gòu)。在圖像輸入網(wǎng)絡(luò)后,首先使用步長為2的7×7卷積對圖像進(jìn)行處理,隨后通過多路池化殘差塊和最大池化減小后續(xù)沙漏模塊的內(nèi)部計(jì)算量。本文選取8個(gè)沙漏級聯(lián)的方式,在保留了原沙漏網(wǎng)絡(luò),下一級沙漏的輸入由上一級沙漏的輸入的前向輸出、上一級沙漏經(jīng)過1×1卷積處理后的輸出和上一級沙漏生成預(yù)測熱圖經(jīng)過1×1卷積處理后的輸出,三者整合后的結(jié)果作為最終下一級沙漏的輸入的基礎(chǔ)上,在兩個(gè)沙漏之間引入沙漏注意力模塊,充分提取不同特征之間的關(guān)聯(lián)信息,減少信息損失。最終,輸入圖片經(jīng)過沙漏網(wǎng)絡(luò)后,由1×1卷積整合處理,得到輸出熱圖和預(yù)測結(jié)果。改進(jìn)堆疊沙漏網(wǎng)絡(luò)整體結(jié)構(gòu)如圖5所示。
1.5" 損失函數(shù)
本文使用損失函數(shù)由均方損失[Lmse]和[L1]損失兩項(xiàng)組成,其表達(dá)式如下:
[L=αLmse+βL1] (1)
式中:[α]、[β]為超參數(shù),設(shè)置[α=1],[β=1];均方損失[Lmse]是指預(yù)測值[yi]與目標(biāo)值[f(xi)]之差的平方和,這類損失函數(shù)具有穩(wěn)定的解,但魯棒性較差。[Lmse]的表達(dá)式如下:
[Lmse=1Ni=1N(yi-f(xi))2] (2)
式中[N]為訓(xùn)練樣本的數(shù)量。
[L1]損失是指預(yù)測值[yi]與目標(biāo)值[f(xi)]之差的絕對值,這類損失可以將預(yù)測值與目標(biāo)值絕對差值的總和最小化,魯棒性較好。[L1]的表達(dá)式如下:
[L1=i=1Nyi-f(xi)] (3)
2" 實(shí)驗(yàn)與分析
本節(jié)將從公開數(shù)據(jù)集和針對攀巖運(yùn)動(dòng)的數(shù)據(jù)集對本文算法進(jìn)行驗(yàn)證,并將本文算法與其他先進(jìn)算法在數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對比,同時(shí)提供算法實(shí)例展示結(jié)果。
2.1" 實(shí)驗(yàn)數(shù)據(jù)集
本文采用面對大規(guī)模姿態(tài)識(shí)別任務(wù)適用性良好的MPII數(shù)據(jù)集和面對大規(guī)模任務(wù)更具挑戰(zhàn)的COCO數(shù)據(jù)集對所提出的算法進(jìn)行驗(yàn)證,并在針對攀巖運(yùn)動(dòng)的數(shù)據(jù)集中進(jìn)行實(shí)例驗(yàn)證以評估網(wǎng)絡(luò)性能。其中,針對攀巖運(yùn)動(dòng)的數(shù)據(jù)集包含2 306張圖像,涵蓋難度賽、速度賽和攀石賽三種不同類型的比賽場景,按照MPII和COCO數(shù)據(jù)的標(biāo)注格式,定義16個(gè)人體關(guān)鍵點(diǎn)和17個(gè)人體關(guān)鍵點(diǎn)的兩種標(biāo)注類型的攀巖數(shù)據(jù)集,兩種標(biāo)注格式分別關(guān)注人體運(yùn)動(dòng)中不同部位的運(yùn)動(dòng)表現(xiàn)。本文將數(shù)據(jù)集劃分為兩部分,其中隨機(jī)取90%用于訓(xùn)練,剩余用于驗(yàn)證。
由于所使用數(shù)據(jù)集的不同,本文針對不同數(shù)據(jù)集采用適合的評價(jià)方法,對于MPII數(shù)據(jù)集采用PCK作為其評價(jià)方法,對于COCO數(shù)據(jù)集采用平均準(zhǔn)確率(AP)和平均召回率(AR)作為其評價(jià)方法。PCK表示人體關(guān)鍵點(diǎn)正確檢測的比例,AP表示網(wǎng)絡(luò)所檢測到的關(guān)鍵點(diǎn)之間的相似度,其中MPII數(shù)據(jù)集中以頭部長度作為歸一化的參考,COCO數(shù)據(jù)集中針對不同的圖像劃分了不同的歸一化因子,通過引入不同關(guān)鍵點(diǎn)的尺度信息,計(jì)算關(guān)鍵點(diǎn)之間的相似度。
2.2" 實(shí)驗(yàn)環(huán)境和參數(shù)設(shè)置
本文訓(xùn)練和測試實(shí)驗(yàn)環(huán)境均在由64位Windows 10系統(tǒng),處理器CPU型號為i7?13700F,顯卡為24 GB顯存的GTX 4090所搭建的實(shí)驗(yàn)平臺(tái)下完成,深度學(xué)習(xí)框架使用PyTorch。在訓(xùn)練過程中使用面對大數(shù)據(jù)量表現(xiàn)良好的Adam優(yōu)化算法作為網(wǎng)絡(luò)的優(yōu)化器以更新網(wǎng)絡(luò)參數(shù),初始學(xué)習(xí)率設(shè)為5×[10-4],定義warmup為線性方式預(yù)熱學(xué)習(xí)率,總訓(xùn)練輪數(shù)為210。
2.3" 性能比較
在使用相同數(shù)據(jù)集和實(shí)驗(yàn)環(huán)境條件下,將本文網(wǎng)絡(luò)與Mobilenetv2[8]、Scnet[9]、Litehrnet[10]、Shufflenetv2[11]、RLE[6]、Resnetv1d[12]、Swintransformer[13]、Hrformer網(wǎng)絡(luò)分別在MPII和COCO兩個(gè)數(shù)據(jù)集上進(jìn)行性能比較以驗(yàn)證其網(wǎng)絡(luò)的可行性和先進(jìn)性。如表1所示,本文算法在MPII數(shù)據(jù)集所測試的7個(gè)部位中,相較其他算法對于各部位的檢測精確度更高,性能表現(xiàn)更優(yōu)異。如表2所示,在COCO數(shù)據(jù)集中,可以看到本文算法在平均準(zhǔn)確率AP值上明顯優(yōu)于其他算法,平均召回率AR略低于其他算法。
2.4" 消融實(shí)驗(yàn)
本文算法在MPII數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示。
從實(shí)驗(yàn)結(jié)果可以看到沙漏網(wǎng)絡(luò)再加入兩個(gè)模塊后精度均有不同程度的提升,對于各部位的檢測精度提升明顯。兩個(gè)模塊的加入使得網(wǎng)絡(luò)能夠?qū)W習(xí)到充分的特征信息,并改善了沙漏塊之間信息傳遞時(shí)易出現(xiàn)的信息損失問題。由此可得出結(jié)論,本文所提出的兩個(gè)模塊對于原沙漏網(wǎng)絡(luò)中肘部、手腕、臀部、腳踝四個(gè)檢測較為困難的關(guān)節(jié)點(diǎn)有了針對性提升。
2.5" 實(shí)例展示
為了更好演示本文算法在各種場景中的性能,對單人場景、多人場景和攀巖運(yùn)動(dòng)場景下檢測結(jié)果進(jìn)行實(shí)例展示,如圖6所示。
在單人和多人場景中本文算法可以準(zhǔn)確檢測到場景中運(yùn)動(dòng)員的位置和關(guān)鍵點(diǎn)信息。在攀巖運(yùn)動(dòng)場景下,選取三種賽事對應(yīng)實(shí)例進(jìn)行展示,可以發(fā)現(xiàn)對于攀巖的三類賽事,在難度賽和攀石賽這兩類技巧性較強(qiáng)的比賽中,本文算法能較好地檢測到運(yùn)動(dòng)員的特征關(guān)鍵點(diǎn),通過對特征關(guān)鍵點(diǎn)的識(shí)別,可以供訓(xùn)練員更好地對運(yùn)動(dòng)員的運(yùn)動(dòng)決策和視覺搜索方面作針對性訓(xùn)練。在速度賽這類完成時(shí)間較短且容易出現(xiàn)圖像模糊的比賽中均能較好地完成該場景下的檢測任務(wù)。
3" 結(jié)" 語
本文分析了堆疊沙漏網(wǎng)絡(luò)存在的一些局限性,針對這些局限性設(shè)計(jì)改進(jìn)殘差結(jié)構(gòu)和關(guān)聯(lián)沙漏結(jié)構(gòu)。通過引入兩種結(jié)構(gòu),較好地改善原網(wǎng)絡(luò)對淺層信息提取不足和信息丟失的局限性。同時(shí),本文將改進(jìn)網(wǎng)絡(luò)與攀巖運(yùn)動(dòng)這項(xiàng)日漸火熱的競技體育運(yùn)動(dòng)相結(jié)合,通過與數(shù)字圖像技術(shù)結(jié)合,更好地推動(dòng)該運(yùn)動(dòng)的發(fā)展。實(shí)驗(yàn)結(jié)果表明:本文算法在MPII數(shù)據(jù)集中各部位關(guān)鍵點(diǎn)檢測效果優(yōu)于其他算法,并針對4個(gè)檢測較為困難的關(guān)鍵點(diǎn)檢測精度有所提升。在COCO這類大型數(shù)據(jù)集中檢測準(zhǔn)確率穩(wěn)定,同時(shí)在針對攀巖運(yùn)動(dòng)的數(shù)據(jù)集中能準(zhǔn)確識(shí)別運(yùn)動(dòng)員的位置和身體關(guān)鍵點(diǎn)信息。本研究為更多體育運(yùn)動(dòng)與數(shù)字圖像技術(shù)結(jié)合提供參考。
注:本文通訊作者為唐天南。
參考文獻(xiàn)
[1] 曹榮武.競技攀巖運(yùn)動(dòng)的發(fā)展與趨勢[J].健與美,2024(1):136?138.
[2] 楊坤宇,謝林,段田雨,等.國內(nèi)外攀巖運(yùn)動(dòng)現(xiàn)狀研究現(xiàn)狀、熱點(diǎn)與趨勢[C]//第十三屆全國體育科學(xué)大會(huì)論文摘要集——墻報(bào)交流(體育社會(huì)科學(xué)分會(huì)).北京:中國體育科學(xué)學(xué)會(huì),2023:971?973.
[3] 曹海輝.淺析競技攀巖運(yùn)動(dòng)線路分析誤區(qū)及原則[J].當(dāng)代體育科技,2020,10(31):240?242.
[4] SUN K, XIAO B, LIU D, et al. Deep high?resolution representation learning for human pose estimation [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2019: 5693?5703.
[5] KREISS S, BERTONI L, ALAHI A. PifPaf: Composite fields for human pose estimation [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2019: 11977?11986.
[6] LI J F, BIAN S Y, ZENG A L, et al. Human pose regression with residual log?likelihood estimation [C]// 2021 IEEE/CVF International Conference on Computer Vision (ICCV). New York: IEEE, 2021: 11005?11014.
[7] ZHANG H, WU C R, ZHANG Z Y, et al. ResNeSt: Split?attention networks [C]// 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). New York: IEEE, 2022: 2735?2745.
[8] SANDLER M, HOWARD A G, ZHU M L, et al. MobileNetV2: Inverted residuals and linear bottlenecks [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 4510?4520.
[9] LIU J J, HOU Q B, CHENG M M, et al. Improving convolutional networks with self?calibrated convolutions [C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2020: 10093?10102.
[10] YU C Q, XIAO B, GAO C X, et al. Lite?HRNet: A lightweight high?resolution network [C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2021: 10440?10450.
[11] ZHANG X Y, ZHOU X Y, LIN M X, et al. ShuffleNet: An extremely efficient convolutional neural network for mobile devices [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 6848?6856.
[12] HE T, ZHANG Z, ZHANG H, et al. Bag of tricks for image classification with convolutional neural networks [C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2019: 558?567.
[13] LIU Z, LIN Y T, CAO Y, et al. Swin Transformer: Hierarchical vision transformer using shifted windows [C]// 2021 IEEE/CVF International Conference on Computer Vision (ICCV). New York: IEEE, 2021: 9992?10002.