王 萍
(甘肅農(nóng)業(yè)大學 體育教學部,甘肅 蘭州 730070)
虛擬現(xiàn)實(Virtual Reality,VR)技術(shù)是計算機技術(shù)、計算機圖形學、計算機視覺、視覺生理學、視覺心理學、人機界面技術(shù)、網(wǎng)絡(luò)技術(shù)和人工智能技術(shù)等多種高科技的集成,它的保真度和實時交互性為系統(tǒng)仿真技術(shù)提供了有力的支持[1].目標檢測技術(shù)對于籃球、足球等體育運動場景具有重要意義,豐富的感官功能和3D顯示環(huán)境使VR成為理想的視頻成像工具[2].當目標檢測應(yīng)用于現(xiàn)代體育教學和運動訓(xùn)練中時,其利用從運動場景中提取的航拍圖像,可以很好地顯示和分析每個技術(shù)動作,同時可以使運動員模擬與真實場景相同的訓(xùn)練情況,并可以減少受傷[3].
然而,在目標檢測中,信息質(zhì)量標準主要由用戶決定,主觀特征難以自動提取.信息源通常是自主的、無組織的,并且缺乏有用的高質(zhì)量數(shù)據(jù),大規(guī)模數(shù)據(jù)使得在沒有抽樣技術(shù)的情況下無法評估整個信息集,因此降低了評估的準確性.故此,信息源的無組織性使信息容易受到內(nèi)容和質(zhì)量突然變化的影響,不利于信息質(zhì)量評估[4].由于信息與數(shù)據(jù)的不同,信息質(zhì)量與數(shù)據(jù)質(zhì)量研究的重點、層次、角度、手段都有所不同[5-6].Chen Li等[7]認為數(shù)據(jù)質(zhì)量和信息質(zhì)量是一個多維度的概念,根據(jù)研究者自己的觀點會呈現(xiàn)不同的特征.Ellis等[8]采用前一圖像中包含的所有關(guān)節(jié)之間的距離信息,和當前圖像中每個關(guān)節(jié)點與參考動作對應(yīng)關(guān)節(jié)點的距離信息,來描述運動員偏移特征、姿態(tài)特征和運動特征的信息.Xiong Huilin等[9]認為數(shù)據(jù)質(zhì)量的使用主要與數(shù)據(jù)庫等信息產(chǎn)品的準確性有關(guān).白永昕等[5]指出高質(zhì)量的數(shù)據(jù)不一定是高質(zhì)量的信息,信息用戶可能仍然無法獲得有價值的信息.隨后Liu Wu等[10]提出了盲/非參考圖像空間域質(zhì)量評估算法,該算法采用SVM + SVR模式,對這些信息和數(shù)據(jù)及其相關(guān)系數(shù)在不同方向上進行非對稱廣義高斯擬合,進一步精確檢測結(jié)果.因此,目標檢測首先要關(guān)注用戶的需求,使信息生產(chǎn)從信息用戶中形成一個完整的數(shù)據(jù)鏈才能達到精確的目標檢測.
本文的目標是開發(fā)一種基于圖像識別算法的籃球運動場景目標檢測系統(tǒng),可以識別不同的籃球動作.通過對文獻數(shù)據(jù)的整理發(fā)現(xiàn),目前學術(shù)界對運動目標檢測的研究正逐漸轉(zhuǎn)向多目標、復(fù)雜運動和復(fù)雜背景視頻人體運動的識別技術(shù)[11].研究結(jié)果也證明卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)非常適合于視頻中人的處理,尤其是復(fù)雜的動作識別技術(shù)更有價值[12].籃球技術(shù)動作本身就是在一些高困難、高強度、復(fù)雜的運動環(huán)境下進行的身體活動,對高難度籃球運動目標識別的研究,并對于提高高難度籃球運動的訓(xùn)練教學水平,預(yù)防運動損傷也具有重要的作用.該系統(tǒng)主要利用人體動作識別算法來識別不同的人體籃球動作,對于分析和建模高遠程情境下的人體動作具有重要意義.該系統(tǒng)能有效解決實際訓(xùn)練過程中出現(xiàn)的損傷問題,進而提升運動員成績.
籃球動作識別是面向體育場景的物體檢測系統(tǒng)的重要組成部分,我們結(jié)合了背景差分算法和時空特征提取來實現(xiàn)人體跟蹤和運動識別.具體地說,為了更好地從背景中提取目標對象,我們每七幀選取一幀視頻作為輸入圖像,部分視頻圖像示例如圖1所示.兩幀的差值為0表示該點在視頻中是靜態(tài)的,或其是背景中的點.因此,設(shè)Sj(x,y),1≤j≤M表示這些背景點,B(x,y)表示重建的背景.Mj(x,y)表示最長靜態(tài)視頻片段的中間幀,STj(x,y)、ENj(x,y)分別表示靜態(tài)視頻片段的開始和結(jié)束,可得:
Mj(x,y) = (STj(x,y) +ENj(x,y)),
(1)
B(x,y)=I(x,y,M(x,y)).
(2)
首先,通過計算背景與當前幀的差值,可以得到人體運動圖像.我們設(shè)置一個閾值來從圖像中選擇運動區(qū)域,通過對差分圖像選擇合適的閾值二值化,并濾除了大部分殘留的靜態(tài)背景,以獲得更準確的運動人體圖像.然后,利用形態(tài)學方法來進一步消除其他噪聲的影響,這樣就可以從視頻流中提取出人體動作圖像.本文利用基于骨骼檢測的算法來檢測人體的關(guān)鍵點,為了實現(xiàn)對人類行為的識別,選擇了一段時間內(nèi)連續(xù)的姿勢序列來代表人類行為.我們將運動員的行為定義為F=(G1,G2,…,Gn).其中Gi為運動員姿態(tài)描述向量.為了識別不同的人體動作F,我們定義了人體動作相似度指數(shù)(ASIM)來度量測試動作模板與參考動作模板之間的距離.具體來說,我們將引用的操作模板定義為:R=R(1),R(2),…,R(M).將測試動作模板定義為:T=T(1),T(2),…,T(N).其中R(M)與T(N)具有相同的特征維數(shù).同時,定義D[T(ni),R(mi)]為特征向量T(ni)和R(mi)的累積畸變,則D[T(ni),R(mi)]可以表示為:
D[T(ni),R(mi)] = [T(ni),R(mi)]s.t.1≤ni≤N, 1≤mi≤M.
(3)
其中:d[T(ni),R(mi)]為特征向量的失真度,T(ni)和R(mi)利用DTW算法求解可得[12]:
D[T(ni),R(mi)] =d[T(ni),R(mi)] +D[T(ni-1),R(mi-1)].
(4)
其中:
D[T(ni-1),R(mi-1)]=min(D[T(ni-1),R(mi)],D[T(ni-1),R(mi-1),D[T(ni-1),R(mi-2)]).
(5)
因此,本文的籃球運動行為相似性可以定義為:
(6)
其中,H1和H2表示本文中的24-D特征向量,在迭代的基礎(chǔ)上,可以計算出參考動作模板和測試動作模板之間的最小累積失真.如果測試模板與所有參考模板一一匹配,則該測試模板屬于累計失真最小的類別.為了準確提取與視頻相關(guān)的籃球動作識別的高級特征,對Seq2Seq模型進行了修改,以適應(yīng)視頻數(shù)據(jù).Seq2Seq模型的目的是將一種語言序列翻譯成另一種語言序列[10].整個過程就是利用RNN將一個輸入序列映射到另一個輸出序列,而對于時間序列數(shù)據(jù),RNN傾向于關(guān)注附近的數(shù)據(jù),而忽略距離較遠的數(shù)據(jù)[13].由于訓(xùn)練都連接到同一個輸出層,從而可以向輸出層提供輸入序列中的每個點來完成過去和未來的上下文信息.最后,利用Bi-LSTM模型,提出預(yù)測模型Bi-LSTM-S2S,如圖2所示.
序列數(shù)據(jù)(x1,x2,…,xn)包含附加特征的Bi-LSTM-S2S的編碼器部分作為輸入數(shù)據(jù)流動,然后被編碼成語義向量e,輸入到解碼器部分.解碼器采用前一個矩的輸出作為當前矩的附加輸入,然后完成預(yù)測.此外,在設(shè)計運動虛擬場景時,需要考慮四個問題:(1)為了使設(shè)計的運動虛擬場景適應(yīng)不同用戶的需求,必須動態(tài)生成模型的問題;(2)由于模型數(shù)量的增加,需要一種有效管理多個模型的機制的問題;(3)系統(tǒng)必須及時更新和補充新型號的問題;(4)根據(jù)用戶需求動態(tài)生成模型,需要一種將其應(yīng)用于教學軟件開發(fā)環(huán)境的方法的問題.在本文的方法中使用圖像處理算法來描述不同的人體運動,給定一個特定的人體動作,在目標檢測系統(tǒng)中基于人體關(guān)鍵點重構(gòu)相應(yīng)的動作,可以幫助運動員更好地適應(yīng)各種訓(xùn)練方法和戰(zhàn)術(shù)訓(xùn)練,快速提高運動員的成績.
在本文的實驗中,我們調(diào)查了50名籃球運動員在使用目標檢測系統(tǒng)前后的表現(xiàn),檢測的動作包括搶籃板、投籃、傳球、過人和搶斷.這些動作有可能會在平時的訓(xùn)練和比賽中對運動員造成傷害,利用目標檢測系統(tǒng)進行運動識別和分析有助于更好地解決這些問題.
圖2 Bi-LSTM-S2S體系結(jié)構(gòu)
表1顯示了這些籃球運動員在使用本文所提出的目標檢測前后的表現(xiàn),正如我們所看到的,這些參與者的表現(xiàn)得到了顯著的改善.使用目標檢測系統(tǒng),運動員可以演示各種技術(shù)動作,非常適合特定的戰(zhàn)術(shù),并讓運動員更加不容易受傷.
表1 使用目標檢測系統(tǒng)前后的對比結(jié)果
對比圖3可以更直觀地展示這一優(yōu)勢,與傳統(tǒng)的培訓(xùn)方法相比,目標檢測系統(tǒng)具有一定的優(yōu)勢,能夠帶來更好的教學效果.這種講解與演示的結(jié)合,可以更好地刺激運動員的感官,從而讓運動員對技術(shù)有更多的記憶和更深刻的理解.
傳統(tǒng)的模型一般無法恢復(fù)籃球運動的一些手臂姿勢特征,如嚴重遮擋、高移動速度、突然的方向變化和球員之間大量的身體對抗等.這些特征對個體球員和團隊的檢測效率的準確性提出了挑戰(zhàn).在實驗中,筆者結(jié)合了背景差分算法和骨架檢測算法來檢測人體關(guān)鍵點.這種組合可以有效地識別籃球運動員的行為動作,筆者比較了已有文獻中不同算法的性能,如表2所示.從中可以看到,筆者的方法在所有數(shù)據(jù)集中展示了非常好的性能,且無需在數(shù)據(jù)集構(gòu)建時進行額外標注,即可對籃球運動打法隸屬關(guān)系進行分類,從而可以更精確地識別出籃球運動員的技術(shù)動作.
此外,我們將本文的方法與CBIQ[13]、LBIQ[14]、BLIINDS-II[15]、DIIVINE[16]和BRIS-QUE[8]等幾種知名的無參考圖像質(zhì)量評估方法進行了比較.同時,本文使用了四種常用的指標來衡量客觀算法和主觀評價的相似性,指標包括斯皮爾曼秩序相關(guān)系數(shù)(Spearman Rank-Order Correlation Coefficient,SROCC)、肯德爾秩序相關(guān)系數(shù)(Kendall Rank-Order Correlation Coefficient, KROCC)、皮爾遜線性相關(guān)系數(shù)(Pearson Linear Correlation Coefficient, PLCC)和均方根誤差(Root Mean Squared Error, RMSE)[9].由于這些指標用于評價圖像質(zhì)量,因此在本文中,我們評估每一幀的圖像質(zhì)量時,每個實驗重復(fù)10次,并計算平均值作為最終的質(zhì)量分數(shù).表3列出了在數(shù)據(jù)集上測試的比較結(jié)果,對比發(fā)現(xiàn),本文提出的方法均方根誤差最小,可以有效地檢測視頻失真的原因,并利用相應(yīng)的方法對視頻建模進行質(zhì)量評估.同時,本文目標檢測結(jié)果在一定程度上可以彌補目標檢測器的漏檢等問題.此外,將檢測結(jié)果反饋給目標檢測器對檢測器進行在線微調(diào)還可以進一步提高目標檢測的性能[15].可以看出,聯(lián)合目標檢測與跟蹤算法的研究是進一步提升視頻目標跟蹤性能的關(guān)鍵,也是未來目標跟蹤領(lǐng)域的發(fā)展趨勢.
圖3 不同籃球動作在使用目標檢測系統(tǒng)前后的表現(xiàn)
表2 不同算法在識別人體動作時的性能
本文采用深度卷積神經(jīng)網(wǎng)絡(luò)的方法進行籃球運動的目標識別,并結(jié)合圖像提取和動作識別算法的特點,與各種經(jīng)典分類算法進行了對比.研究發(fā)現(xiàn),深度卷積神經(jīng)網(wǎng)絡(luò)的高難度動作識別可以提高籃球動作目標識別的準確性,并能充分發(fā)揮其作用.通過選取五組可能導(dǎo)致運動損傷的高難度動作進行實驗研究,包括搶籃板、投籃、傳球、過人和搶斷,然后利用骨骼識別算法對人體關(guān)鍵點進行檢測,開發(fā)了一個目標檢測和可視化系統(tǒng)來重建每個運動動作.這些特點促進了高難度技術(shù)動作的訓(xùn)練應(yīng)用,可以減少運動損傷,有助于提升籃球運動員的動作技巧.
表3 不同級別籃球比賽的評價結(jié)果對比