劉振旅 牛芳琳
摘要:針對(duì)傳統(tǒng)籃球場(chǎng)景分割方法魯棒性弱和分割精度不高的問(wèn)題,以籃球場(chǎng)景分割和運(yùn)動(dòng)員精確定位目的,提出了一種基于DeepLabv3+改進(jìn)的籃球場(chǎng)景語(yǔ)義分割模型。該模型在DeepLabv3+網(wǎng)絡(luò)的基礎(chǔ)上設(shè)計(jì)了一個(gè)相對(duì)復(fù)雜的解碼器,使用多次特征融合的方式來(lái)更好的還原圖像的語(yǔ)義信息,引入了卷積塊注意力機(jī)制,優(yōu)化了通道權(quán)重和位置信息,降低了模型的計(jì)算復(fù)雜度,提升了邊緣敏感度。實(shí)驗(yàn)結(jié)果表明,本文的模型要比FCN的全卷積模型提高21.8%,比DeepLabv3+提高1.9%。在分割速度上,可以達(dá)到每秒處理6張圖片。提高了對(duì)于籃球場(chǎng)景的語(yǔ)義分割精度。
關(guān)鍵詞:籃球場(chǎng)景;語(yǔ)義分割;DeepLabv3+;注意力機(jī)制;解碼器
Abstract: Aiming at the problems of weak robustness and low segmentation accuracy of traditional basketball scene segmentation methods, for the purpose of basketball scene segmentation and accurate positioning of players, a semantic segmentation model of basketball scene based on DeepLabv3+ is proposed. The model designs a relatively complex decoder based on the DeepLabv3+ network, uses multiple feature fusion methods to better restore the semantic information of the image, introduces the convolution block attention mechanism, and optimizes the channel weight and position information , Which reduces the computational complexity of the model and improves the edge sensitivity. The experimental results show that the model in this paper is 21.8% higher than the FCN full convolution model, and 1.9% higher than DeepLabv3+. In terms of segmentation speed, it can process 6 pictures per second. Improved the accuracy of semantic segmentation for basketball scenes.
Keywords: basketball scene; semantic segmentation; DeepLabv3+; attention mechanism; decoder
近年來(lái),籃球運(yùn)動(dòng)在國(guó)內(nèi)外風(fēng)靡,職業(yè)聯(lián)賽中,運(yùn)動(dòng)員的對(duì)抗非常激烈,比賽中難免出現(xiàn)漏判和誤判的現(xiàn)象。公平的判罰對(duì)于籃球比賽是至關(guān)重要的,裁判的判罰往往左右著比賽的走勢(shì)。那么如何改善這一情況成為一大難題,CBA中有前場(chǎng)裁判和后場(chǎng)裁判以及攝像回放,雖然攝像回放很清楚,但是如果每個(gè)鏡頭都通過(guò)回放來(lái)判斷,那么比賽會(huì)變得無(wú)比的復(fù)雜和費(fèi)時(shí),不具備時(shí)效性。所以對(duì)于運(yùn)動(dòng)員的行為判別研究非常有必要的。當(dāng)前運(yùn)動(dòng)員屬性的識(shí)別方法還是對(duì)于屬性的存在性進(jìn)行研究,而沒(méi)有獲取人和球?qū)傩缘奈恢眯畔ⅰP枰@取運(yùn)動(dòng)? ?和球的位置也就是精確定位,這是屬性判斷的前提,那么對(duì)于籃球場(chǎng)景的語(yǔ)義分割是非常有意義的。
深度學(xué)習(xí)因其對(duì)圖像特征的提取能力和對(duì)復(fù)雜問(wèn)題的擬合能力,廣泛應(yīng)用于各個(gè)領(lǐng)域,而語(yǔ)義分割是深度學(xué)習(xí)的關(guān)鍵任務(wù)之一。Long等人將全連接層替換成全卷積層,提出了FCN[1],第一次實(shí)現(xiàn)了端到端、像素到像素的圖像分割,從此打開(kāi)了語(yǔ)義分割的大門(mén)。同年Chen等人提出了Deeplabv1[3],將90年代的空洞卷積引入語(yǔ)義分割領(lǐng)域,在不增加參數(shù)的情況下增大了感受野。受到目標(biāo)檢測(cè)算法R-CNN中的SPP[4]成功的影響Zhao等人提出了結(jié)合空間金字塔的模型PSPNet[5], Chen等人也提出了Deeplabv2[6],將SPP和空洞卷積相結(jié)合,形成不同空洞率的空間金塔結(jié)構(gòu),實(shí)現(xiàn)了多尺度特征的提取。不久,Chen[4]等人又提出了Deeplabv3[7], v3采用了Xception作為特征提取網(wǎng)絡(luò),大大的減少了參數(shù)計(jì)算量,同時(shí)去掉了的條件隨機(jī)場(chǎng)后處理,實(shí)現(xiàn)了真正意義上的深度學(xué)習(xí)語(yǔ)義分割模型。Chen等人受到了SegNet[2]編碼解碼結(jié)構(gòu)的思想,提出了含有解碼器的模型Deeplabv3+[8]。該模型在多個(gè)數(shù)據(jù)集上取得了驚人的成績(jī),展現(xiàn)了極強(qiáng)的泛化能力。
對(duì)于傳統(tǒng)方法的研究,視頻鏡頭分割存在復(fù)雜程度高,耗資多,變化大,難以自動(dòng)提取等特點(diǎn),本文則是將深度學(xué)習(xí)語(yǔ)義分割引入籃球場(chǎng)景,結(jié)合卷積塊注意力機(jī)制,提出了一種基于DeepLabv3+改進(jìn)的籃球場(chǎng)景語(yǔ)義分割模型,對(duì)于運(yùn)動(dòng)員進(jìn)行實(shí)時(shí)分割和精確定位。
1傳統(tǒng)的Deeplabv3+模型
Deeplabv3+的原始模型如圖1所示。模型主要由編碼器和解碼器兩大結(jié)構(gòu)組成。其中編碼器分為DCNNS提取網(wǎng)絡(luò)和ASPP空間金字塔結(jié)構(gòu)兩部分。解碼器包括一次特征融合和兩次上采樣。模型訓(xùn)練時(shí),初始圖像首先進(jìn)入到編碼模塊中,經(jīng)過(guò)DCNNS提取網(wǎng)絡(luò)將圖片的分辨率減少到原來(lái)的1/16。再把提取到的特征張量導(dǎo)入到ASPP結(jié)構(gòu)中,該結(jié)構(gòu)是結(jié)合了不同空洞率的空間金字塔結(jié)構(gòu)。然后通過(guò)1×1卷積實(shí)現(xiàn)通道壓縮,防止預(yù)測(cè)結(jié)果向底層特征傾斜。在解碼器中,采用和四倍雙線性插值還原和特征提取網(wǎng)絡(luò)的圖片進(jìn)行一個(gè)拼接特征融合,再通過(guò)一個(gè)四倍雙線性插值來(lái)實(shí)現(xiàn)圖片輸出。構(gòu)建不同空洞率的空間金字塔結(jié)構(gòu)改善了多尺度特征的提取,實(shí)現(xiàn)了感受野和分辨率的平衡。