鄧海剛,王傳旭,李成偉,林曉萌
(1.哈爾濱工業(yè)大學(xué)儀器科學(xué)與工程學(xué)院,黑龍江哈爾濱 150006;2.青島科技大學(xué)信息科學(xué)技術(shù)學(xué)院,山東青島 266061)
群組行為包括“視頻中多個(gè)人做相同動(dòng)作”和“多數(shù)人協(xié)作完成某一復(fù)雜行為”兩種情況,而群組行為識(shí)別的任務(wù)則是通過(guò)對(duì)視頻序列中組群成員運(yùn)動(dòng)特征的感知、計(jì)算、提純,并歸納出穩(wěn)定的、鮮明的模式,進(jìn)而再通過(guò)分類歸納得出代表整個(gè)組群典型行為特征的群組行為類別以及每個(gè)成員的行為類別.近年來(lái),它已經(jīng)成為計(jì)算機(jī)視覺(jué)、人工智能等領(lǐng)域的熱點(diǎn)課題,其在體育賽事分析、異常行為檢測(cè)及預(yù)警、實(shí)時(shí)人群場(chǎng)景的視頻分類等方面具有重要價(jià)值.由于群組行為本身具有復(fù)雜性和多樣性,以及視頻據(jù)在采集過(guò)程中也會(huì)受到視角變化、成員彼此遮擋、復(fù)雜場(chǎng)景中無(wú)關(guān)人員干擾等因素的影響,如何設(shè)計(jì)高效的識(shí)別方法成為了該課題的難點(diǎn).
群組行為識(shí)別主要包含兩個(gè)過(guò)程,即群組時(shí)空特征描述和行為屬性分類,而群組時(shí)空特征描述是最關(guān)鍵的一步.鑒于群組行為是多人協(xié)同合作完成的復(fù)雜行為,其時(shí)空特征的核心應(yīng)該是成員之間的交互關(guān)系,因此,本文依據(jù)群組時(shí)空特征描述算法中是否包含“組群成員之間交互關(guān)系建?!边@一核心環(huán)節(jié),將群組行為識(shí)別方法分為“無(wú)交互關(guān)系建模的群組行為識(shí)別”和“基于交互關(guān)系建模的群組行為識(shí)別”兩大類.
“無(wú)交互關(guān)系建模的群組行為識(shí)別方法”的主要思想是把群組行為過(guò)程視為一個(gè)時(shí)序整體,這類算法主要聚焦于如何對(duì)該“視頻時(shí)序整體的時(shí)空特征進(jìn)行計(jì)算和提純”,本文將從“多流時(shí)空特征計(jì)算融合”“個(gè)人/群體多層級(jí)時(shí)空特征計(jì)算合并”“基于注意力機(jī)制的群組行為時(shí)空特征提純”3 類典型算法特點(diǎn)進(jìn)行歸納和概述.另外,對(duì)于“基于交互關(guān)系建模的群組行為識(shí)別”算法,依據(jù)交互關(guān)系建模方法的不同,將現(xiàn)有文獻(xiàn)歸納為“基于組群成員交互關(guān)系的全局化建模”“基于組群分組下的交互關(guān)系建?!焙汀盎陉P(guān)鍵人物為主的核心成員間交互關(guān)系建?!? 種類別分別概述.簡(jiǎn)明起見(jiàn),上述這些群組行為識(shí)別方法的歸納分類用圖1展示.
圖1 群組行為識(shí)別算法的總體分類
“無(wú)交互關(guān)系建模的群組行為識(shí)別”實(shí)際上是一種相對(duì)“粗放的方法”,表現(xiàn)在其缺少了對(duì)“群體成員之間細(xì)膩的彼此互動(dòng)”這一環(huán)節(jié)的描述,而僅僅是對(duì)整體場(chǎng)景的時(shí)空特征變化進(jìn)行了刻畫(huà).具體地,主要是對(duì)輸入圖像序列的場(chǎng)景外觀、組群成員的姿態(tài)、成員運(yùn)動(dòng)光流、幀間時(shí)間序列依存關(guān)系等信息進(jìn)行提取,并通過(guò)分類器對(duì)獲得的整個(gè)群組行為的時(shí)空特征進(jìn)行分類和識(shí)別.在深度學(xué)習(xí)框架下,這種群組行為識(shí)別方法主要是通過(guò)CNN,LSTM以及其變形體設(shè)計(jì)出不同的算法框架,旨在解決“整體組群的時(shí)空特征的計(jì)算和提純”.故本文將現(xiàn)有的對(duì)應(yīng)算法概括為“多流時(shí)空特征計(jì)算融合”“個(gè)人/群體多層級(jí)時(shí)空特征計(jì)算合并”“基于注意力機(jī)制的群組行為時(shí)空特征提純”3 個(gè)類別,現(xiàn)分述如下.
組群場(chǎng)景信息是多樣的,有些信息是相互補(bǔ)充的,因而,利用多種時(shí)空特征信息的組合可以達(dá)到全面對(duì)群組行為特征建模的效果.這種思路主要是應(yīng)用在早期的群組行為算法中,典型的就是多流架構(gòu)特征計(jì)算與聚合的識(shí)別方法.
為充分利用組群場(chǎng)景的外觀信息和運(yùn)動(dòng)信息,Simonyan 等[1]提出了一種雙流網(wǎng)絡(luò),其包含空間流支路和運(yùn)動(dòng)流支路,如圖2 所示,其中,空間流支路對(duì)RGB 圖像信息進(jìn)行處理,主要提取外觀特征,運(yùn)動(dòng)流對(duì)光流數(shù)據(jù)進(jìn)行學(xué)習(xí)和訓(xùn)練,從而提取到運(yùn)動(dòng)信息,再將得到的兩支路的信息進(jìn)行融合處理,由于其兩條支路提取的不同信息能夠互為補(bǔ)充,從而起到豐富組群時(shí)空特征的作用,進(jìn)而達(dá)到群組行為有效識(shí)別的目的.
圖2 基于雙流網(wǎng)絡(luò)框架的群組行為識(shí)別[1]
由于雙流網(wǎng)絡(luò)模型簡(jiǎn)單,便于訓(xùn)練,許多學(xué)者使用并發(fā)展了它,實(shí)現(xiàn)了更多不同特征類別的融合,并應(yīng)用于群組行為識(shí)別中.Borja-Borja 等[2]通過(guò)一種行為描述向量(Activity Description Vector)得到LRF(Left Right Frequency)圖像和UDF(Up Down Frequency)圖像的數(shù)據(jù),并分別輸入到ResNet 網(wǎng)絡(luò)中進(jìn)行深度特征的提取,最后,將兩種特征融合后通過(guò)分類器實(shí)現(xiàn)群組行為分類.Zalluhoglu 等[3]提出了一種利用多個(gè)區(qū)域提取信息的多流卷積神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu),首先將視頻序列分為帶有背景信息的RGB 圖像、只包含特定人員的RGB 圖像信息(Region)和光流序列3 種數(shù)據(jù);其次,將帶有背景信息的RGB 圖像輸入到空間CNN(Convolutional Neural Network)網(wǎng)絡(luò),將特定人員(Region)區(qū)域圖像輸入到空間局部CNN 網(wǎng)絡(luò)(Spatial Region Stream CNN)中;同時(shí)將光流信息輸入到時(shí)間局部CNN 網(wǎng)絡(luò)(Temporal Region CNN)和時(shí)間CNN網(wǎng)絡(luò)(Temporal CNN)中;再將Region 數(shù)據(jù)分別輸入到空間域CNN 網(wǎng)絡(luò)和時(shí)間域CNN 網(wǎng)絡(luò)中的池化層中,從而進(jìn)一步確定對(duì)應(yīng)的成員和幀;最后提取視頻序列的空間信息和時(shí)間信息,并將4種CNN網(wǎng)絡(luò)所提取的時(shí)空信息進(jìn)行融合后,由分類器得到群組行為類別.
鑒于組群外觀和光流運(yùn)動(dòng)信息易受到光照變化、相機(jī)運(yùn)動(dòng)等背景因素的影響,組群成員的姿態(tài)關(guān)節(jié)數(shù)據(jù)逐漸成為被推崇的魯棒特征選項(xiàng).這主要是因?yàn)槿梭w姿態(tài)可以利用關(guān)節(jié)點(diǎn)的位置進(jìn)行刻畫(huà),并通過(guò)坐標(biāo)的變化表示姿態(tài)的不同,不易受拍攝角度、特征尺度等外界因素的影響,顯示其魯棒性更強(qiáng)而被開(kāi)發(fā)利用.Azar 等[4]利用多流卷積網(wǎng)絡(luò)(Multi-Stream Convolutional Network)對(duì)姿態(tài)、RGB 空間、光流特征進(jìn)行融合,如圖3所示,首先利用CNN1,CNN2和CNN3 分別對(duì)場(chǎng)景圖、光流圖和姿態(tài)圖提取3 種特征,其次借助RoiAlign 對(duì)個(gè)體的外觀信息、運(yùn)動(dòng)信息和姿態(tài)信息進(jìn)行提取,同時(shí),利用全連接層提取整體場(chǎng)景語(yǔ)境表征、運(yùn)動(dòng)語(yǔ)境和姿態(tài)語(yǔ)境表征,最后對(duì)個(gè)體特征、整體語(yǔ)義特征分別進(jìn)行池化操作,實(shí)現(xiàn)了不同模態(tài)的多流特征融合的群組行為識(shí)別.
圖3 基于多流網(wǎng)絡(luò)的群組行為識(shí)別[4]
此外,為了更好地獲取群組行為的幀間時(shí)序依存信息,王傳旭等[5]提出了一種基于多流架構(gòu)與長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的模型,將全局RGB 數(shù)據(jù)和全局光流數(shù)據(jù)通過(guò)全局LSTM(Long Short-Term Memory)提取全局時(shí)空信息,將局部RGB數(shù)據(jù)和局部光流數(shù)據(jù)通過(guò)局部LSTM提取局部時(shí)空特征,并將兩種時(shí)空特征融合從而得到更加全面的群組特征.
概而言之,多流時(shí)空特征融合實(shí)現(xiàn)群組行為識(shí)別的算法,優(yōu)點(diǎn)是每個(gè)支路網(wǎng)絡(luò)簡(jiǎn)單,并且在內(nèi)容上能互為補(bǔ)充,可以全面地描述組群場(chǎng)景的時(shí)空特征.但每一支路常常要預(yù)先分開(kāi)訓(xùn)練,這樣會(huì)造成整體網(wǎng)絡(luò)架構(gòu)訓(xùn)練時(shí)間耗費(fèi)過(guò)長(zhǎng);此外,這種多支路網(wǎng)絡(luò)的訓(xùn)練對(duì)數(shù)據(jù)集規(guī)模有一定的要求,如果數(shù)據(jù)集有限,往往難以收斂或者造成過(guò)擬合,故這種多流架構(gòu)模型的泛化性較差.因此,為了既能提取不同的時(shí)空特征,又能方便網(wǎng)絡(luò)訓(xùn)練,研究者們提出了能提取個(gè)人/群體多層級(jí)特征的網(wǎng)絡(luò)結(jié)構(gòu),不僅可以獲得多語(yǔ)義群組信息,還可以提升模型的泛化能力.
這類算法的設(shè)計(jì)原理可以概括為如圖4 所示的邏輯結(jié)構(gòu)圖,鑒于群組行為是由多個(gè)成員個(gè)體協(xié)同完成的,于是,先將每個(gè)成員的信息輸入到個(gè)人級(jí)網(wǎng)絡(luò)中得到個(gè)人級(jí)特征,再將每幀中個(gè)人級(jí)特征聚合到組群級(jí)網(wǎng)絡(luò)中得到群組時(shí)空特征,最后利用分類器識(shí)別群組行為.
圖4 基于層級(jí)網(wǎng)絡(luò)結(jié)構(gòu)的群組行為識(shí)別
典型地,Ibrahim 等[6]通過(guò)兩階段分層深度時(shí)間模型(Hierarchial Deep Temporal Model)實(shí)現(xiàn)群組行為識(shí)別,首先在第一階段通過(guò)個(gè)人級(jí)LSTM 模擬每個(gè)個(gè)體的軌跡和動(dòng)作;然后在第二階段中通過(guò)小組級(jí)LSTM 將個(gè)體特征進(jìn)行結(jié)合,構(gòu)成群組特征,建立了人-人、人-群組兩種層次的模型,最后針對(duì)高層組群特征實(shí)現(xiàn)行為識(shí)別.Tsunoda 等[7]將分層LSTM 模型用于對(duì)足球運(yùn)動(dòng)群組行為的識(shí)別中,該模型由CNN 層和兩層LSTM(即LSTM1和LSTM2)組成,其中CNN 層提取單人特征,包括成員外觀特征和每個(gè)人位置信息以及足球位置信息的級(jí)聯(lián),LSTM1 層提取“球-人之間距離”以及“人-人之間距離”,LSTM2 負(fù)責(zé)集成場(chǎng)景中成員的時(shí)序特征;最后由分類器實(shí)現(xiàn)了五人制足球群組行為屬性的識(shí)別.鑒于LSTM 可以很好地捕捉序列的長(zhǎng)時(shí)間依賴,Kim等[8]提出了一種基于顯著子事件的判別組群上下文特征(Disentangled Graph Collaborative Filtering,DGCF)模型來(lái)識(shí)別群組行為,首先依據(jù)視頻序列(包含bounding box)得到每幀內(nèi)每個(gè)成員的位置信息,并計(jì)算成員速度和方向獲得個(gè)人和子組信息,從而得到每一幀的信息;然后為了提取整個(gè)視頻幀的特征,引入了GRU(Gate Recurrent Unit)網(wǎng)絡(luò)進(jìn)行逐層群組行為特征提取,從而實(shí)現(xiàn)群組行為的分類.
除了利用LSTM/GRU 網(wǎng)絡(luò),GAN(Generative Adversarial Networks)網(wǎng)絡(luò)也被用于層次結(jié)構(gòu)的群組行為識(shí)別.Gammulle等[9]提出了一種基于LSTM 結(jié)構(gòu)的多級(jí)順序生成對(duì)抗性網(wǎng)絡(luò),該算法首先利用LSTM 獲得“成員級(jí)”和“場(chǎng)景級(jí)”的時(shí)序特征,經(jīng)過(guò)門(mén)控融合單元將上述特征進(jìn)行聚合,并將其作為GAN 的生成器輸入,由生成器預(yù)測(cè)當(dāng)前時(shí)序過(guò)程的單人和群組行為屬性;另外,生成器的預(yù)測(cè)結(jié)果與“場(chǎng)景級(jí)”的時(shí)序特征經(jīng)過(guò)另一路門(mén)控融合單元聚合,由鑒別器對(duì)生成器的群組行為預(yù)判結(jié)果的真?zhèn)芜M(jìn)行甄別和反饋,最終達(dá)到平衡時(shí),得到當(dāng)前的群組行為判斷結(jié)果.
另外,由于語(yǔ)義信息對(duì)群組行為識(shí)別更具有指導(dǎo)性的作用,Li 等[10]提出了一種基于語(yǔ)義的兩層結(jié)構(gòu)的群組行為識(shí)別模型:第一層為標(biāo)題生成層,即利用CNN分別提取光流和RGB特征,并借助LSTM對(duì)其序列和光流、RGB 信息生成語(yǔ)意標(biāo)題;第二層為行為預(yù)測(cè)層,該層也是利用CNN和LSTM 對(duì)標(biāo)題進(jìn)行推理從而生成群組行為識(shí)別標(biāo)簽.
上述多層遞次的模型不斷迭代應(yīng)用,不僅可以逐層提純和融合每層的特征,還能夠進(jìn)一步剖析群組行為內(nèi)部潛在的高層次語(yǔ)義關(guān)系,達(dá)到提升群組行為識(shí)別精度的效果.但其相對(duì)于輕量級(jí)數(shù)據(jù)集(集體行為數(shù)據(jù)集[11]和排球數(shù)據(jù)集[6])由于樣本數(shù)據(jù)量不豐富,而無(wú)法保證訓(xùn)練過(guò)程中的魯棒性;再則,這種層次結(jié)構(gòu)越高意味著網(wǎng)絡(luò)深度越大,對(duì)設(shè)備的要求也就越高,因此,能夠設(shè)計(jì)一種高效輕量級(jí)的組群時(shí)序特征提純模型對(duì)群組行為的識(shí)別會(huì)更有意義,這樣就催生了注意力機(jī)制下的組群時(shí)空特征描述算法.
群組行為分為兩種,如圖5 所示,一種是大多數(shù)人做的相同的動(dòng)作(圖5(a)),另一種是多人協(xié)同完成一種行為(圖5(b)).針對(duì)后者,群組行為往往并不是由場(chǎng)景中的所有人都參與完成的,而是僅僅由少數(shù)的關(guān)鍵人參與并決定的,而那些與群組行為無(wú)關(guān)的人及動(dòng)作則會(huì)干擾對(duì)群組行為的推斷,即在圖5(b)中“扣球”行為中,并非雙方全體球員都參與了這次行為,相反,僅僅由“二傳手”和“扣球手”兩人來(lái)完成的.因此,剔除團(tuán)隊(duì)中無(wú)關(guān)的人物,確定團(tuán)隊(duì)中關(guān)鍵人物成了群組行為識(shí)別的重要方法,即群組行為中的關(guān)鍵人物注意力機(jī)制.
圖5 兩種群組行為類型比較
隨著深度學(xué)習(xí)的發(fā)展,注意力機(jī)制已在圖像識(shí)別、字幕識(shí)別[12]、機(jī)器翻譯[13]、人體行為識(shí)別[14,15]等領(lǐng)域取得了良好的效果,也為群組行為識(shí)別提供了新的思路.Ramanathan 等[16]引入注意力機(jī)制,通過(guò)BiLSTM 計(jì)算每個(gè)個(gè)體的行為對(duì)群組行為的影響和重要程度,從而區(qū)分不同的個(gè)體行為在群組行為中發(fā)揮的作用.Karpathy等[17]等通過(guò)RNN(Recurrent Neural Network)網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)視頻序列中人物的跟蹤及對(duì)時(shí)變權(quán)重的自動(dòng)學(xué)習(xí),提取每個(gè)BiLSTM和軌跡信息,通過(guò)注意力獲取關(guān)鍵人的信息.Lu 等[18]提出了一種基于時(shí)空注意力機(jī)制的GRU 模型,通過(guò)基于姿勢(shì)的注意力機(jī)制捕捉到每個(gè)成員重要的關(guān)節(jié)點(diǎn),并通過(guò)第一階段的GRU 網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)個(gè)人動(dòng)作的識(shí)別,然后借助群組級(jí)的池化策略找到空間中重要成員并提取時(shí)間序列信息,使用時(shí)間注意力機(jī)制找到關(guān)鍵幀,從而得到最終的群組行為類別.Tang等[19]通過(guò)CCG-LSTM 模型捕捉與群組行為相關(guān)人的運(yùn)動(dòng),并通過(guò)注意力機(jī)制量化個(gè)體行為對(duì)群組行為的貢獻(xiàn),通過(guò)聚合LSTM 聚合個(gè)人運(yùn)動(dòng)狀態(tài),從而實(shí)現(xiàn)對(duì)群組行為類別的判斷.王傳旭等[20]將注意力機(jī)制、CNN網(wǎng)絡(luò)和LSTM 網(wǎng)絡(luò)結(jié)合從而提取群組中關(guān)鍵成員的時(shí)空信息.
基于注意力機(jī)制的群組行為識(shí)別方法,不僅能夠考慮到所有人的特征,同時(shí)還可以依據(jù)每個(gè)成員在不同時(shí)間點(diǎn)上對(duì)群組行為的貢獻(xiàn)程度,進(jìn)行空間上和時(shí)間上的特征優(yōu)化,剔除了與群組行為無(wú)關(guān)的人和幀,有效提純了組群信息,提高了識(shí)別精度.
上述3 種架構(gòu)下的無(wú)交互關(guān)系建模群組行為識(shí)別算法主要是對(duì)場(chǎng)景中組群的整體特征進(jìn)行多線索/多層級(jí)的提取和融合,旨在獲得組群全面的、顯著的行為描述,實(shí)現(xiàn)較好的識(shí)別效果.但該類方法所提取的信息仍然局限于組群宏觀的整體底層特征描述及其融合,缺乏對(duì)群組內(nèi)部成員之間協(xié)同并存、彼此依存關(guān)系這一核心信息的挖掘,即缺少成員之間交互關(guān)系的建模,最終限制了其識(shí)別精度的提升.
與單人行為識(shí)別方法不同,群組行為是由多人共同參與完成的,因此,群組行為識(shí)別不僅要考慮個(gè)體行為、空間位置等信息,還要重點(diǎn)考慮群體中人與人的交互信息.本文定義群組的交互關(guān)系是指群體成員之間互動(dòng)關(guān)系總和,它表現(xiàn)為某一行為過(guò)程中的成員間彼此影響、相互制約,并通過(guò)該彼此關(guān)聯(lián)信息把整個(gè)組群交融成一個(gè)整體.上述無(wú)交互關(guān)系建模的群組行為識(shí)別算法只是從整體上對(duì)群組時(shí)空特征進(jìn)行描述,忽略了運(yùn)動(dòng)過(guò)程中人與人之間的互動(dòng)關(guān)系.因此,隨著群組行為識(shí)別研究的深入,建立并推理群組中的交互關(guān)系成了群組行為建模的核心任務(wù).本節(jié)依據(jù)交互關(guān)系建模方法的不同,將其歸納為“基于群組成員交互關(guān)系全局化建模的行為識(shí)別”“基于群組分組交互關(guān)系建模的行為識(shí)別”“基于群組關(guān)鍵成員間交互關(guān)系建模的行為識(shí)別”3種類別分別概述.
構(gòu)建群組行為交互關(guān)系的過(guò)程是具有挑戰(zhàn)性的,不僅要考慮到個(gè)體自身的信息,還要考慮如何量化人與人之間的關(guān)系及關(guān)系變化.典型代表是一些學(xué)者提出的全連接圖形化交互關(guān)系圖模型,以此刻畫(huà)場(chǎng)景中成員整體的交互關(guān)系,實(shí)現(xiàn)群組行為的“細(xì)膩化”描述,如圖6所示,每個(gè)“藍(lán)色圓點(diǎn)”代表“一個(gè)成員”,彼此“連線”代表“交互關(guān)系”,該“連線的粗細(xì)”表示交互關(guān)系的強(qiáng)弱,它是隨時(shí)間不斷更新的.
圖6 組群整體交互關(guān)系圖形化描述
典型地,Liu 等[21]提出基于全連接的條件隨機(jī)場(chǎng)模型(Full Connected Conditioned Random Field,F(xiàn)C-CRF)捕捉并推理群組成員間的交互關(guān)系,如圖7 所示.首先,輸入的視頻圖像經(jīng)過(guò)基于卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的時(shí)序模型,得到群組行為中每個(gè)人(圖中用i表示)的觀測(cè)信息xi,及每個(gè)人行為類別yi的初步預(yù)測(cè);然后,基于得到的單人行為信息,使用全連接條件隨機(jī)場(chǎng)分析人與人之間豐富的交互關(guān)系,對(duì)每個(gè)人的行為類別yi和群組行為的場(chǎng)景類別進(jìn)行重新判定.
圖7 全連接圖形化交互關(guān)系建??蚣軋D[21]
文獻(xiàn)[21]用條件隨機(jī)場(chǎng)中的二元?jiǎng)莺瘮?shù)ψp(yi,yj)描述了人與人之間的交互關(guān)系,即
其中,μ(yi,yj)是標(biāo)簽兼容函數(shù)(label compatibility function),由Potts 模型μ(yi,yj)=[yi≠yj]給出[22],對(duì)于相似度高但是分配了不同標(biāo)簽的人引入這種懲罰機(jī)制;而向量fi和fj分別表示第i和第j個(gè)人的特征向量,它們實(shí)際上是上一階段基于CNN 與LSTM 網(wǎng)絡(luò)的時(shí)空特征輸出;k(fi,fj)代表高斯核函數(shù),是根據(jù)位置信息向量pi,pj和特征向量fi,fj來(lái)定義的,即
可以看出,核函數(shù)被觀測(cè)信息所影響,即當(dāng)同一個(gè)群組中具有相近位置和相似特征信息的兩個(gè)人,他們擁有較強(qiáng)的勢(shì)函數(shù)值,表示此時(shí)兩者之間交互關(guān)系比較強(qiáng).最后群組行為的識(shí)別是通過(guò)由該二元?jiǎng)莺瘮?shù)參與計(jì)算的吉布斯能量概率值實(shí)現(xiàn)判別的.
此外,Cheng等[23]通過(guò)高斯過(guò)程來(lái)描述個(gè)體運(yùn)動(dòng)軌跡,并通過(guò)設(shè)計(jì)的個(gè)體行為模式、二元行為模式和分組行為模式3 種描述符來(lái)捕捉群體行為中人與人潛在的關(guān)系.Zhang 等[24]通過(guò)對(duì)群組構(gòu)造加權(quán)關(guān)系圖,并通過(guò)該加權(quán)圖捕捉每個(gè)人的運(yùn)動(dòng)和上下文信息,最后通過(guò)支持向量機(jī)對(duì)群組事件進(jìn)行分類.Lan等[25]提出了一種基于上下文的判別模型,在結(jié)構(gòu)、功能和混合模型3 種不同的方法來(lái)模擬整個(gè)群組中人與人之間的交互關(guān)系.Qi等[26]通過(guò)節(jié)點(diǎn)RNN和邊RNN構(gòu)建個(gè)體間交互的語(yǔ)義關(guān)系圖,從而推理得到每個(gè)子組行為和整個(gè)群組行為標(biāo)簽.
上述方法雖然能夠構(gòu)建交互關(guān)系,但提取的交互關(guān)系依然是淺層的、單層次的,這導(dǎo)致其關(guān)系表示不夠緊湊和深入.因此,為了獲取緊湊細(xì)致的交互關(guān)系表征,Ibrahim等[27]通過(guò)關(guān)系層來(lái)細(xì)化關(guān)系圖,并且關(guān)系層中的每對(duì)單獨(dú)的交互特征都映射成一個(gè)共享的新特征,并借助去噪自動(dòng)編碼器變體,推斷上下文交互信息實(shí)現(xiàn)對(duì)群組行為的識(shí)別.為了加強(qiáng)交互關(guān)系描述時(shí)的多信息集成,Xu 等[28]提出了一種時(shí)空注意力機(jī)制的多模態(tài)交互關(guān)系表示模型,首先,引入關(guān)系對(duì)象模型實(shí)現(xiàn)對(duì)幾何關(guān)系和運(yùn)動(dòng)特征的建模,再通過(guò)關(guān)系GRU和Opt-GRU 分別對(duì)個(gè)體間的關(guān)系和運(yùn)動(dòng)進(jìn)行編碼,從而實(shí)現(xiàn)對(duì)群組整體交互關(guān)系特征的補(bǔ)充.Shu等[29]提出了一種宿-寄結(jié)構(gòu)的基于圖LSTM-in-LSTM 的網(wǎng)絡(luò),首先通過(guò)殘差LSTM 提取每個(gè)人的CNN 特征,并作為Person-LSTM 的輸入,從而提取人與人之間的交互關(guān)系,然后利用組級(jí)記憶單元提取每幀的全局交互關(guān)系信息,最后實(shí)現(xiàn)群組行為識(shí)別.豐艷等[30]提出一種基于偽3D殘差網(wǎng)絡(luò)(Pseudo 3D CNN Network)的群組行為識(shí)別模型,一支路通過(guò)P3D 網(wǎng)絡(luò)與圖卷積網(wǎng)絡(luò)提取群組中的交互關(guān)系特征,另一支路則通過(guò)P3D 網(wǎng)絡(luò)本身提取全局時(shí)空特征,分別對(duì)兩支路信息進(jìn)行識(shí)別,最后通過(guò)決策融合得到對(duì)群組行為的識(shí)別.
總而言之,上述通過(guò)對(duì)整體成員之間的交互關(guān)系進(jìn)行提取和推理,提供了群組成員之間全面的交互關(guān)系,可為群組行為識(shí)別提供重要的線索.但是,如果場(chǎng)景中參與成員的數(shù)量過(guò)多,那么在建立群組關(guān)系時(shí),其參數(shù)量是巨大的,尤其是時(shí)空全連接的網(wǎng)絡(luò)架構(gòu)會(huì)導(dǎo)致網(wǎng)絡(luò)負(fù)荷過(guò)大,影響群組行為識(shí)別算法的訓(xùn)練,進(jìn)而影響識(shí)別精度.因此,構(gòu)建高效輕量級(jí)交互關(guān)系模型成為后續(xù)的研究重點(diǎn).
成員的數(shù)量可能會(huì)隨著數(shù)據(jù)集的不同產(chǎn)生差異,從而對(duì)群組參與者之間的交互關(guān)系圖的構(gòu)建、整體關(guān)系特征提取和推理造成影響,尤其是當(dāng)復(fù)雜組群成員眾多時(shí)的全局交互關(guān)系建模,常常會(huì)導(dǎo)致設(shè)計(jì)的網(wǎng)絡(luò)參數(shù)巨大.為了降低交互關(guān)系建模時(shí)的參數(shù)量,也為了更好地構(gòu)建群組交互關(guān)系,研究者通常會(huì)對(duì)成員進(jìn)行分組交互關(guān)系建模,而后再進(jìn)行組間交互關(guān)系融合,從而達(dá)到“分而治之”的精準(zhǔn)建模效果,這類算法的原理示意如圖8所示.場(chǎng)景中的成員可以按照諸如運(yùn)動(dòng)方向、行為屬性以及空間距離等特征,再借助聚類算法實(shí)現(xiàn)小組群的劃分,如圖8所示,該場(chǎng)景中的6個(gè)人聚合為紅、黃、藍(lán)3個(gè)小組;然后,對(duì)每個(gè)小組分別進(jìn)行交互關(guān)系建模;最后,再實(shí)現(xiàn)組間交互關(guān)系的高層次融合,達(dá)到對(duì)整個(gè)組群特征的多維度多層次描述,進(jìn)而實(shí)現(xiàn)其行為屬性判斷.
圖8 分組交互關(guān)系圖
典型地,Ehsanpour 等[31]認(rèn)為通常情況下,社會(huì)組群需要被分成若干子群體,每個(gè)子群體可能從事不同的社會(huì)活動(dòng).該算法的子組分割以及單人/群組行為識(shí)別原理如圖9 所示,主要包含以下4 個(gè)步驟:第一步通過(guò)I3D 網(wǎng)絡(luò)提取場(chǎng)景時(shí)空特征,并借助ROI Align 等模塊獲得單人特征;第二步從初始化的成員全鏈接關(guān)系圖經(jīng)過(guò)圖注意力模塊迭代,可以獲得交互關(guān)系強(qiáng)弱不同的交互關(guān)系圖;第三步則是利用光譜圖聚類算法將成員全鏈接關(guān)系圖分割聚類為多個(gè)子圖,這些子圖內(nèi)部成員交互關(guān)系相對(duì)密切,可以看作“自成一體”;最后則是根據(jù)單人特征預(yù)測(cè)出單人行為,由第一步中的場(chǎng)景特征和第三步中的組群特征合并構(gòu)成的整體場(chǎng)景特征,進(jìn)而分類得到組群的行為屬性.
圖9 組群分組以及子組交互關(guān)系建模下的群組行為識(shí)別算法框圖[31]
此外,Sun等[32]通過(guò)構(gòu)建潛在的圖模型來(lái)同時(shí)解決多目標(biāo)跟蹤、子群體檢測(cè)和行為識(shí)別問(wèn)題.該方法把多目標(biāo)跟蹤和群聚類相結(jié)合,即依據(jù)成員運(yùn)動(dòng)軌跡間的相似度進(jìn)行聚類實(shí)現(xiàn)群組成員的分組,再以星狀結(jié)構(gòu)刻畫(huà)整體組群的分組狀態(tài);然后再分別編碼組內(nèi)成員的交互關(guān)系和組間的交互關(guān)系特征,從而實(shí)現(xiàn)對(duì)群組行為的識(shí)別.Yin等[33]首先通過(guò)最小生成樹(shù)算法將個(gè)體聚類成幾個(gè)子組,然后借助社交網(wǎng)絡(luò)分析的特征描述提取全局和局部特征,最后采用高斯過(guò)程動(dòng)力學(xué)模型來(lái)分別建模不同子組的行為.類似地,Azorin-Lopez等[34]提出了一種群體行為描述向量(Group Activity Descriptor Vector,GADV)表示方法來(lái)分析和識(shí)別群體活動(dòng),該GADV包含3部分:小組行為描述符向量ADV、小組內(nèi)成員關(guān)系描述符IntraGD、組間關(guān)系描述符InterGD.其中的小組行為描述符向量ADV 的建立過(guò)程如下:先將場(chǎng)景空間等分為若干小單元,計(jì)算每個(gè)單元內(nèi)成員軌跡并將它們作為“小組群元”;再通過(guò)聚類算法把這些“小組群元”聚合為若干小組群,實(shí)現(xiàn)整個(gè)場(chǎng)景的組群分組;最后把該小組視為一個(gè)實(shí)體,計(jì)算其中心點(diǎn)的運(yùn)動(dòng)軌跡,并進(jìn)而構(gòu)建其時(shí)空描述符.而小組內(nèi)成員關(guān)系描述符IntraGD 主要是依據(jù)其內(nèi)部成員的運(yùn)動(dòng)軌跡計(jì)算彼此之間的4 種交互信息:關(guān)聯(lián)位移(Coherent Displacement)、非關(guān)聯(lián)上移(Incoherent Up)、非關(guān)聯(lián)下移(Incoherent down)、反向程度(Opposite).組間關(guān)系描述符InterGD 包括如下4 部分:組間相干性(Coherence of the group)、組間無(wú)關(guān)性(Incoherence of the group)、組間吸引度A(Attraction)、組間排斥度(Repulsion).最后該研究選擇了4 個(gè)自組織網(wǎng)絡(luò)分類器實(shí)現(xiàn)單人和組群的分類,這4 個(gè)分類器為自組織網(wǎng)絡(luò)(Self-Organizing Map)、Neural GAS 網(wǎng)絡(luò)、監(jiān)督自組織網(wǎng)絡(luò)(Supervised Self Organizizing Map)、自組織行為描述符網(wǎng)絡(luò)(Self Organizing Activity Description Map).
除了上述利用運(yùn)動(dòng)軌跡特征實(shí)現(xiàn)組群結(jié)構(gòu)分析外,Tran 等[35]通過(guò)社會(huì)信號(hào)線索來(lái)測(cè)量個(gè)體之間的交互程度,并利用圖聚類算法來(lái)發(fā)現(xiàn)場(chǎng)景中具有強(qiáng)相互作用的子群,并丟棄的弱交互作用的子群,從而提取不同子組間的交互關(guān)系,進(jìn)而實(shí)現(xiàn)群組行為識(shí)別.還有,Zhang 等[36]提出了一種結(jié)構(gòu)可變的金字塔層級(jí)模型來(lái)稀疏地表示組群結(jié)構(gòu).他們把組群結(jié)構(gòu)的建立看成一個(gè)NP-hard 優(yōu)化問(wèn)題,并通過(guò)二步迭代算法實(shí)現(xiàn)組群成員的結(jié)構(gòu)化分組;而對(duì)于成員之間的交互關(guān)系建模,提出了6 種類型的勢(shì)函數(shù),即成員-場(chǎng)景勢(shì)函數(shù)、成員-成員勢(shì)函數(shù)、群體-成員勢(shì)函數(shù)、群體-群體勢(shì)函數(shù)、行為-群體勢(shì)函數(shù)和群體-場(chǎng)景勢(shì)函數(shù);最后根據(jù)SVM 分類實(shí)現(xiàn)群組行為屬性識(shí)別.
上述方法能夠?qū)崿F(xiàn)組群自動(dòng)分組,實(shí)現(xiàn)組群的結(jié)構(gòu)化,進(jìn)而提取組內(nèi)、組間的交互關(guān)系,起到化整為零、降低模型復(fù)雜度、更好地應(yīng)對(duì)場(chǎng)景中復(fù)雜群組行為的分析的作用.但這類方法在提取的過(guò)程中需要的計(jì)算量大,其準(zhǔn)確度也有待提升,并且存在交互關(guān)系的信息冗余,構(gòu)建的交互關(guān)系網(wǎng)絡(luò)也會(huì)不夠簡(jiǎn)約,最終影響識(shí)別的精度.因此,如何進(jìn)一步精簡(jiǎn)場(chǎng)景交互關(guān)系建模仍是一個(gè)有待深入探討的問(wèn)題.
上述方法主要是借助對(duì)群組成員間交互關(guān)系的描述達(dá)到群組行為識(shí)別的目的,但在群組行為識(shí)別過(guò)程中,并非所有成員對(duì)群組的行為識(shí)別都是有用的,而通常僅僅是由某些少數(shù)成員的行為來(lái)決定,這些成員即被稱為“關(guān)鍵人物”.為了能抑制無(wú)關(guān)人員信息從而構(gòu)建更簡(jiǎn)約的組群交互關(guān)系,研究者們提出了一系列以關(guān)鍵人物為核心的交互關(guān)系建模的群組行為識(shí)別方法,其思想可以概括為如圖10所示的原理圖.
圖10(a)為排球數(shù)據(jù)集中防守方場(chǎng)景圖,其中帶星的為重要的群組成員;圖10(b)為構(gòu)建的初始全局交互關(guān)系圖,節(jié)點(diǎn)為各個(gè)成員,邊則為各個(gè)成員之間的交互關(guān)系;圖10(c)為通過(guò)對(duì)原始關(guān)系圖的推理得到關(guān)鍵人物及其交互關(guān)系,使得重要的節(jié)點(diǎn)和邊被加強(qiáng),不重要的節(jié)點(diǎn)和邊則被淡化刪除,從而得到核心成員的交互關(guān)系圖.
圖10 以關(guān)鍵人物為主的核心成員之間的交互關(guān)系圖
典型地,Yan等[37]認(rèn)為群組行為雖然是多人協(xié)同參與的復(fù)雜行為,但實(shí)際上僅僅由核心成員起主導(dǎo)作用,其他成員的作用可以忽略不計(jì).該算法根據(jù)成員的運(yùn)動(dòng)狀況將“核心成員”定義為如下兩種人:其一是在整個(gè)行為實(shí)施過(guò)程中保持穩(wěn)定且長(zhǎng)時(shí)間的運(yùn)動(dòng)的人;其二是在某個(gè)重要時(shí)刻有劇烈的運(yùn)動(dòng)產(chǎn)生的人.為此,其提出了一個(gè)基于參與貢獻(xiàn)度的群體行為時(shí)序動(dòng)態(tài)模型(Participation-Contributed Temporal Dynamic Model,PCTDM),如圖11 所示,其算法包含如下幾個(gè)步驟:首先,在上層的“one”Network 層的LSTM 模塊負(fù)責(zé)每個(gè)成員的時(shí)序運(yùn)動(dòng)特征提取,并統(tǒng)計(jì)每個(gè)人的穩(wěn)定長(zhǎng)時(shí)間運(yùn)動(dòng)程度和突發(fā)劇烈運(yùn)動(dòng)程度,確定成員的重要性順序;其次,按照成員重要性次序,利用Bi-LSTM模塊為成員之間的交互關(guān)系建模;然后,利用聚合LSTM 模塊,逐步聚合具有可訓(xùn)練注意力權(quán)重的Bi-LSTM 潛在輸出狀態(tài),即如果某個(gè)成員的行為與群體行為更為關(guān)聯(lián)一致,那么他相應(yīng)的習(xí)得注意系數(shù)就會(huì)更大,反之亦然;最后,針對(duì)圖中Volleyball 數(shù)據(jù)集場(chǎng)景,聚合LSTM 模塊將場(chǎng)景中的關(guān)鍵人物聚合為左右半場(chǎng)的多個(gè)子組,并將它們的Bi-LSTM潛在輸出狀態(tài)級(jí)聯(lián)作為分類器輸入,實(shí)現(xiàn)群組行為識(shí)別.
圖11 基于參與貢獻(xiàn)度的群體行為時(shí)序動(dòng)態(tài)模型[37]
此外,Deng 等[38]通過(guò)多層感知機(jī)實(shí)現(xiàn)個(gè)體間的互動(dòng)及其關(guān)系的建模,但這樣無(wú)法構(gòu)建其上下文交互關(guān)系.為此,他們進(jìn)一步提出一種結(jié)構(gòu)推理機(jī)(Structure Inference Machine,SIM)[39],利用循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建同一場(chǎng)景中個(gè)體之間的交互關(guān)系,并通過(guò)可訓(xùn)練的門(mén)控功能來(lái)抑制無(wú)關(guān)人員的影響,突顯其他重要成員的貢獻(xiàn).Wu 等[40]提出了一種基于學(xué)習(xí)的有向角色關(guān)系圖(Actor Relation Graph,ARG)對(duì)整體成員的交互關(guān)系進(jìn)行推理,通過(guò)圖卷積網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)角色關(guān)系圖中節(jié)點(diǎn)間信息的融合,得到信息量較多的節(jié)點(diǎn),即關(guān)鍵成員,通過(guò)關(guān)鍵成員節(jié)點(diǎn)信息得到群組行為的類別.為了能夠更高效地提取初始特征和推理交互關(guān)系,Kuang等[41]將骨干網(wǎng)絡(luò)改進(jìn)為輕量級(jí)的MobileNet 網(wǎng)絡(luò),從而更高效地提取初始特征,并使用歸一化互相關(guān)和絕對(duì)差異之和計(jì)算成對(duì)的外觀相似性來(lái)構(gòu)建角色關(guān)系,通過(guò)GCN網(wǎng)絡(luò)對(duì)關(guān)系圖進(jìn)行推理,得到關(guān)鍵人的信息,最后借助關(guān)鍵人的信息得到群組行為標(biāo)簽.Hu 等[42]提出了一種漸近交互關(guān)系模型,首先利用幀蒸餾代理網(wǎng)絡(luò)提取具有信息量的幀,然后通過(guò)關(guān)系代理網(wǎng)絡(luò)提取關(guān)鍵人之間的交互關(guān)系,實(shí)現(xiàn)了對(duì)群組行為的分類.
由于受到注意力機(jī)制的啟發(fā),不少研究人員開(kāi)始通過(guò)注意力機(jī)制抑制與群組活動(dòng)無(wú)關(guān)的人員和交互關(guān)系的干擾,突顯群組中重要的成員并進(jìn)行核心成員關(guān)系建模.Zhang等[43]在圖卷積中引入交互注意力機(jī)制構(gòu)成圖注意力網(wǎng)絡(luò),進(jìn)而提取群組中重要人物的交互信息.由于語(yǔ)義特征具有增強(qiáng)網(wǎng)絡(luò)表達(dá)和指導(dǎo)的作用,同時(shí)受到Zhang 等[44]的啟發(fā),Tang 等[45]提出了一種基于語(yǔ)義保留的注意力機(jī)制模型,該模型包含教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò),使用帶有注意力機(jī)制的GCN 分別對(duì)動(dòng)作標(biāo)簽和RGB 信息進(jìn)行關(guān)系推理,找出重要的標(biāo)簽和個(gè)體,并通過(guò)教師網(wǎng)絡(luò)對(duì)學(xué)生網(wǎng)絡(luò)進(jìn)行糾正,提高了識(shí)別的準(zhǔn)確率.另外,Yang 等[46]通過(guò)Agnet(Approach Group Net)和AGTransformer(Approach Group Transformer)提取關(guān)鍵人和關(guān)鍵幀的信息,以實(shí)現(xiàn)基于注意力的群組行為識(shí)別;同時(shí)借助MST-GCN(Multi-Spatial-Temporal Graph Convolutional Networks)提取每個(gè)成員和新來(lái)成員的關(guān)鍵關(guān)節(jié)點(diǎn)實(shí)現(xiàn)對(duì)人體動(dòng)作的識(shí)別,并利用GGCN(Group GCN)提取人與人之間的交互關(guān)系從而實(shí)現(xiàn)群組行為識(shí)別.
總而言之,組群核心成員的交互關(guān)系不僅包含關(guān)鍵成員的個(gè)人信息,還包括關(guān)鍵人物之間的互動(dòng)關(guān)系,這樣不僅可以抑制無(wú)關(guān)人員對(duì)群組活動(dòng)的影響,還可以提升組群特征描述的精準(zhǔn)性,進(jìn)而提高了群組行為識(shí)別精度.
隨著對(duì)群組行為識(shí)別技術(shù)不斷深入地研究,群組行為數(shù)據(jù)集也相繼推出.目前,用于群組行為識(shí)別的經(jīng)典數(shù)據(jù)集如表1所示.
表1 列出了群組行為識(shí)別的相關(guān)數(shù)據(jù)集.不難發(fā)現(xiàn),隨著群組行為數(shù)據(jù)集的規(guī)模不斷擴(kuò)大,數(shù)據(jù)集的種類也不斷更新,為群組行為識(shí)別未來(lái)的發(fā)展提供了可靠的數(shù)據(jù)支撐,下面將重點(diǎn)介紹其中幾個(gè)典型的數(shù)據(jù)集.
表1 群組行為識(shí)別數(shù)據(jù)集
CAD(Collective Activity Dataset)數(shù)據(jù)集包含由低分辨率手持相機(jī)收集的44個(gè)視頻剪輯,共有2 500個(gè)片段,如圖12 所示.其包含6 類個(gè)人動(dòng)作標(biāo)簽,即NA,Crossing,Queuing,Walking,Talking,Waiting,同樣包含5類群組行為標(biāo)簽,即Crossing,Queuing,Walking,Talk-ing,Waiting.由于相機(jī)在采集數(shù)據(jù)集時(shí)角度是固定的,背景是靜態(tài)的,動(dòng)作變化也是緩慢的,數(shù)據(jù)集相對(duì)較小,通常會(huì)使用早期的深度學(xué)習(xí)網(wǎng)絡(luò)來(lái)評(píng)估.在實(shí)驗(yàn)過(guò)程中,一般將70%作為訓(xùn)練集,其余作為驗(yàn)證集和測(cè)試集.
圖12 CAD數(shù)據(jù)集中的2個(gè)群組行為類別舉例
鑒于CAD 數(shù)據(jù)集規(guī)模較少,因此,提出CAED(Collective Activity Extended Dataset)數(shù)據(jù)集對(duì)其進(jìn)行了拓展.該數(shù)據(jù)集將Walking 動(dòng)作從CAD 中移除,并補(bǔ)充了兩個(gè)新的動(dòng)作類型,分別是Dancing和Jogging,因此,CAED數(shù)據(jù)集共有6種行為標(biāo)簽,分別是Crossing,Queuing,Dancing,Talking,Waiting,Jogging.每個(gè)人都分配有一個(gè)行為標(biāo)簽,每一幀圖像也包含一個(gè)群組行為標(biāo)簽.
同樣,nCAD(new Collective Activity Dataset)數(shù)據(jù)集依然是CAD 數(shù)據(jù)集的擴(kuò)展,包含了6 個(gè)集體行為類別(Crossing,Queuing,Dancing,Walking,Waiting,Jogging),8 種姿勢(shì)標(biāo)簽(right,right-front,…,right-back).除了上述標(biāo)簽外,增加了所有序列中的動(dòng)作標(biāo)簽、交互標(biāo)簽、以及每個(gè)人體目標(biāo)與這兩者標(biāo)簽的對(duì)應(yīng)關(guān)系標(biāo)注.8種交互標(biāo)簽為Approaching(AP),Leaving(LV),Passing-by(PB),F(xiàn)acing-each-other(FE),Walking-side-by-side(WS),Standing-in-a-row(SR),Standing-side-by-side(SS),No-interaction(NA).
在集體行為數(shù)據(jù)集中,集體行為的屬性主要是依據(jù)大多數(shù)人的行為來(lái)進(jìn)行判斷的,即大多數(shù)人的行為標(biāo)簽即為群組行為標(biāo)簽.
群組行為的定義并非僅僅是對(duì)大多數(shù)人做相同行為的描述,而更多的是對(duì)組群成員協(xié)同完成復(fù)雜行為的刻畫(huà).為此,為了評(píng)估深度學(xué)習(xí)模型的泛化性,許多學(xué)者對(duì)運(yùn)動(dòng)數(shù)據(jù)集進(jìn)行了提升,最常用的運(yùn)動(dòng)數(shù)據(jù)集為排球數(shù)據(jù)集(VD)[49~51].該數(shù)據(jù)集是基于公開(kāi)的Youtube排球比賽視頻收集而成的,如圖13所示,共有4 830幀,55 段視頻.對(duì)于每一幀,每個(gè)人都被賦予一個(gè)動(dòng)作類型(Waiting,Setting,Digging,F(xiàn)ailing,Spiking,Blocking,Jumping,Standing,Moving),同時(shí)包含每組的群組行為類型之一(right-pass,right-spike,right-set,rightwinpoint,left-pass,left-spike,left-set,left-winpoint).由于相機(jī)采集數(shù)據(jù)集時(shí)為可調(diào)的,故視頻中參與者的運(yùn)動(dòng)變化相對(duì)適中.通常該數(shù)據(jù)集的72%用于訓(xùn)練,28%用于驗(yàn)證和測(cè)試.
圖13 排球數(shù)據(jù)集中的4個(gè)群組行為類別舉例
圖13 為排球數(shù)據(jù)集,主要展示了數(shù)據(jù)集中的4 種群組行為類型:“左扣殺”“右贏球”“右扣殺”和“右發(fā)球”.而在排球數(shù)據(jù)集中,排球運(yùn)動(dòng)為所有人共同完成或關(guān)鍵人的動(dòng)作決定,因此,其群組行為的標(biāo)簽為關(guān)鍵人的行為標(biāo)簽.
大多數(shù)用于群組行為識(shí)別的數(shù)據(jù)集對(duì)個(gè)人和群組行為都進(jìn)行了標(biāo)注,但NBA 數(shù)據(jù)集則僅有視頻級(jí)標(biāo)注,并沒(méi)有單人級(jí)的標(biāo)注信息,其更適合于弱監(jiān)督下的群組行為識(shí)別[52].該數(shù)據(jù)集包含了9 172 個(gè)視頻剪輯,共包含了9種群組行為:2p-succ,2p-fail-off,2p-fail-def,2playup-succ,2p-layup-fail-off,2p-layup-fail-def,3p-succ,3p-fail-off,3p-fail-def.在實(shí)驗(yàn)過(guò)程中,通常將該數(shù)據(jù)集的83%作為訓(xùn)練集,17%則作為測(cè)試集.
現(xiàn)有體育運(yùn)動(dòng)數(shù)據(jù)集大多數(shù)是只針對(duì)一種運(yùn)動(dòng)進(jìn)行分類,其種類有限,缺乏多樣性,無(wú)法支持復(fù)雜和有代表性的模型的訓(xùn)練,為此,Zalluhoglu 等[53]提出了一種新的群組行為數(shù)據(jù)集——Collective-Sports數(shù)據(jù)集(簡(jiǎn)稱“C-Sports”),有效解決了現(xiàn)有數(shù)據(jù)集存在的局限性問(wèn)題,該數(shù)據(jù)集中包含11 個(gè)團(tuán)體體育運(yùn)動(dòng)標(biāo)簽(A.Football,Basketball,Dodgeball,F(xiàn)ootball,Handball,Hurling,IceHockey,Lacrosse,Rugby,Volleyball,Waterpolo)和5 種群組行為標(biāo)簽(Gather,Dismissal,Pass,Attack,Wander),其中數(shù)據(jù)集的80%作為訓(xùn)練集,20%則作為測(cè)試集,如圖14所示.
圖14 中,從左到右、從上到下,運(yùn)動(dòng)類別分別為美式足球、籃球、躲避球、足球、手球、投擲、冰球、長(zhǎng)曲棍球、橄欖球、排球、水球,其群組行為類型為“gather”“pass”“wander”“dismissal”“wander”“dismissal”“attack”“wander”“gather”“gather”“wander”.
圖14 C-sports 數(shù)據(jù)集中的不同群組行為類別舉例
本文分別從無(wú)交互關(guān)系建模的群組行為識(shí)別方法和基于交互關(guān)系建模的群組行為識(shí)別算法對(duì)群組行為進(jìn)行了闡述,并對(duì)相關(guān)數(shù)據(jù)集進(jìn)行了介紹.為了驗(yàn)證各種算法在不同數(shù)據(jù)集上的性能,表2和表3 對(duì)其進(jìn)行了展示.其中,OF 表示光流圖像,代表相鄰時(shí)間圖像之間的瞬時(shí)速度;Pose 代表姿態(tài)信息;“—”表示為沒(méi)有進(jìn)行實(shí)驗(yàn);其百分比表示每類算法在該數(shù)據(jù)集上的平均精確度MPCA.
表2所示的為基于無(wú)交互關(guān)系建模的方法,通過(guò)對(duì)場(chǎng)景信息、運(yùn)動(dòng)信息等組群整體信息的提取,實(shí)現(xiàn)群組行為的識(shí)別.不難發(fā)現(xiàn),大部分輸入仍舊為RGB 圖像,取得了一定的效果,但算法MCN[9]除了RGB 信息外,還引入了光流、姿態(tài)兩路視覺(jué)信息,這3 路特征信息最后經(jīng)過(guò)池化融合后作為場(chǎng)景組群的時(shí)空特征,在CAD 數(shù)據(jù)集上獲得了95.26%的高平均識(shí)別精度,同時(shí)在Volleyball 數(shù)據(jù)集也獲得了90.42%的較高平均識(shí)別精度.
另外,表2 中MLS-GAN[9]提出的基于LSTM 結(jié)構(gòu)的多級(jí)順序生成對(duì)抗性網(wǎng)絡(luò),利用兩個(gè)層次的“成員級(jí)”和“場(chǎng)景級(jí)”時(shí)序特征,經(jīng)過(guò)門(mén)控融合單元聚合后,再利用GAN 生成器對(duì)該融合特征進(jìn)行單人和群組行為屬性預(yù)判;另外鑒別器對(duì)生成器的群組行為預(yù)判結(jié)果的真?zhèn)芜M(jìn)行甄別和反饋,最終達(dá)到平衡時(shí),得到當(dāng)前的群組行為判斷結(jié)果,由于該算法經(jīng)過(guò)GAN 網(wǎng)絡(luò)的多次矯正優(yōu)化,在Volleyball 數(shù)據(jù)集獲得了92.40%的較高平均識(shí)別精度.
表2 無(wú)交互關(guān)系建模的群組行為識(shí)別方法在不同數(shù)據(jù)集下的性能比較
相比之下,表3中的算法通過(guò)對(duì)群組交互關(guān)系進(jìn)行了提取和分析,細(xì)化了群組行為特征,在相同的數(shù)據(jù)集上平均識(shí)別精度均有明顯提高.其中,算法XU[28]利用兩個(gè)層級(jí)模塊重點(diǎn)挖掘和充分利用了成員交互關(guān)系,具體地,將成員外觀特征和位置信息輸入到關(guān)系模塊(Relational model)獲得初始交互關(guān)系表達(dá),然后,該特征與光流特征分別輸入到Relation-GRU和Opt-GRU 模塊,兩者融合得到幀級(jí)交互關(guān)系描述,最后利用注意力機(jī)制進(jìn)行時(shí)序特征聚集,將不同權(quán)重的幀級(jí)特征整合視頻級(jí)表示,作為分類器輸入實(shí)現(xiàn)群組行為的識(shí)別.可見(jiàn)正是由于該算法對(duì)交互關(guān)系進(jìn)行多層次提取融合,才得到了組群時(shí)空特征的精準(zhǔn)表示,在Volleyball 實(shí)際上取得了93.49%的高平均識(shí)別精度.另外,GLIL[29]在CAD和Volleyball 數(shù)據(jù)集都取得了94.40%和93.04%較高平均識(shí)別精度,主要是得益于提出的GLIL(Graphical LSTM-In-LSTM)網(wǎng)絡(luò)架構(gòu),它被形象地比喻為“宿主-寄生”體系結(jié)構(gòu),“寄生”模塊是負(fù)責(zé)建立每個(gè)成員之間的交互關(guān)系建模,而“宿主”模塊負(fù)責(zé)群體級(jí)行為建模,即將多個(gè)成員運(yùn)動(dòng)信息根據(jù)其對(duì)群體行為的貢獻(xiàn),選擇性地整合并存儲(chǔ)到“宿主”中,實(shí)現(xiàn)對(duì)全局交互關(guān)系的關(guān)鍵時(shí)空特征的選擇和提純,保障了較高的識(shí)別精度.
表3 基于交互關(guān)系建模的方法在不同數(shù)據(jù)集下的性能比較
總的說(shuō)來(lái),通過(guò)對(duì)群組交互關(guān)系的提取和分析,可以達(dá)到細(xì)化群組行為特征的效果,使得在相同的數(shù)據(jù)集上相比較粗狂的無(wú)交互關(guān)系建模的方法,平均識(shí)別精確度都會(huì)有提高,因此,基于交互關(guān)系的群組行為識(shí)別的方法從整體上優(yōu)于無(wú)交互關(guān)系的群組行為識(shí)別.
除此之外,從兩個(gè)表格中發(fā)現(xiàn),大多數(shù)算法是基于CAD和Volleyball 數(shù)據(jù)集進(jìn)行研究的,其識(shí)別效果大多數(shù)在80%以上.但也能發(fā)現(xiàn),每種數(shù)據(jù)集僅能表示某一類的群組行為,缺乏多樣性.因此,研究者們不斷引入NBA,BFH[65]和C-Sports 等數(shù)據(jù)集以便應(yīng)用其他場(chǎng)景中.然而這些新數(shù)據(jù)集的引入并沒(méi)有達(dá)到經(jīng)典數(shù)據(jù)集的識(shí)別效果,在群組行為識(shí)別的效率和識(shí)別精度都有待提高.
本文首先對(duì)群組行為識(shí)別的研究背景和研究意義進(jìn)行了闡述,然后依據(jù)群組行為識(shí)別方法中是否包含“成員交互關(guān)系建模”,將其分為無(wú)交互關(guān)系建模的群組行為識(shí)別和基于交互關(guān)系建模的群組行為識(shí)別兩大類;最后,介紹了相關(guān)的數(shù)據(jù)集以及兩類群組行為識(shí)別方法在不同數(shù)據(jù)集下的性能比較.下面進(jìn)一步對(duì)這兩類算法的各自優(yōu)勢(shì)進(jìn)行總結(jié).
(1)無(wú)交互關(guān)系建模的群組行為識(shí)別方法可以從視頻序列提取場(chǎng)景特征并進(jìn)行識(shí)別.其中,基于多流網(wǎng)絡(luò)的群組行為識(shí)別,能夠通過(guò)不同信息的互相補(bǔ)充,從而豐富群組特征;基于層次結(jié)構(gòu)的群組行為識(shí)別,能夠通過(guò)逐層聚合獲得群組特征;而基于注意力機(jī)制的方法,能夠抑制場(chǎng)景中的冗余信息,從而提取群組中重要的時(shí)空特征.這3 類算法的先進(jìn)性總的說(shuō)來(lái)是逐步提升的.
(2)交互關(guān)系為群組行為的關(guān)鍵信息,因此,通過(guò)捕獲群組行為過(guò)程中的交互關(guān)系,能進(jìn)一步細(xì)化群組特征.其中,基于整體交互關(guān)系建模的群組行為識(shí)別能夠提取并推理成員整體的交互關(guān)系,從而為群組行為識(shí)別提供全面的關(guān)系特征;基于分組交互關(guān)系建模的群組行為識(shí)別通過(guò)對(duì)群組成員進(jìn)行分組關(guān)系建模并融合,能夠化整為零,從而達(dá)到“分而治之”的效果;基于以關(guān)鍵人物為核心的交互關(guān)系建模的群組行為識(shí)別方法,能夠捕獲群組中關(guān)鍵成員以及與其密切相關(guān)的其他成員的特征、以及他們的交互關(guān)系,抑制與群組行為無(wú)關(guān)成員的信息,從而降低了群組行為識(shí)別過(guò)程中的噪聲干擾,提高了群組行為識(shí)別效率.上述這3 類算法的先進(jìn)性總體上也是逐次進(jìn)步的.
綜上,無(wú)交互關(guān)系建模方法只是對(duì)場(chǎng)景整體信息進(jìn)行籠統(tǒng)地提取而實(shí)現(xiàn)群組行為識(shí)別,其缺陷就是忽視了群組成員間的交互關(guān)系,使得其組群時(shí)空特征更多地只關(guān)注了底層特征,缺少高層交互以及語(yǔ)義特征的刻畫(huà);而基于交互關(guān)系建模的群組行為識(shí)別則更加細(xì)化了成員之間的互動(dòng)以及語(yǔ)義表達(dá),因此,它優(yōu)于無(wú)交互關(guān)系建模的群組行為識(shí)別方法.
另外,基于交互關(guān)系建模實(shí)現(xiàn)群組行為識(shí)別的方法也有其不足,可以歸納為兩點(diǎn).其一是需要較多底層特征的支持,因?yàn)榻换リP(guān)系建模主要是兩兩成員間(pair-wise)的交互關(guān)系描述,除了基本的CNN/LSTM 時(shí)空特征外,還需要成員的位置信息、運(yùn)動(dòng)軌跡、鄰域上下文信息等信息,以便構(gòu)建成員彼此之間關(guān)系[21],但這些信息需要多目標(biāo)跟蹤算法作為底層特征提取的保障,但是這些底層算法的精度卻是有限的,因此,導(dǎo)致成員間交互關(guān)系的精度不高;其二表現(xiàn)為多層級(jí)交互關(guān)系的冗余,具體地,交互關(guān)系除了上面的兩兩之間交互關(guān)系外,往往還需要構(gòu)建不同子組群之間的交互關(guān)系,以及最后融合為整個(gè)組群的交互關(guān)系特征,上述多層級(jí)上的交互關(guān)系是有交集的、非正交的,而最后融合得到的不同特征間集合也難以保證彼此的獨(dú)立性,故這類交互關(guān)系信息不是最簡(jiǎn)潔的.上述這兩個(gè)缺點(diǎn)會(huì)一起制約交互關(guān)系組群特征的區(qū)別性和顯著性,進(jìn)而影響群組行為識(shí)別精度的提升.
雖然群組行為識(shí)別取得了顯著的效果,但仍然存在不少問(wèn)題,現(xiàn)總結(jié)如下.
(1)不同場(chǎng)景下群組行為類別定義與判別方式的差異性
現(xiàn)有的群組行為識(shí)別數(shù)據(jù)集大致概括為兩大類.其一為場(chǎng)景中的大部分人做相似的行為,如圖15 所示.在圖15(a)中近鏡頭處6 個(gè)女士在“Dancing”,則此場(chǎng)景的群組行為屬性即定義為“Dancing”;類似地,在CAD 數(shù)據(jù)集場(chǎng)景中,圖15(b)中近鏡頭處幾個(gè)人,除了有兩位在“Standing”外,其他成員在“Walking”,故該場(chǎng)景群組行為即定義為“Walking”.其二,群組行為的定義取決于場(chǎng)景中的“標(biāo)志性行為”,而忽略其他“大眾性平淡無(wú)奇的行為”,如圖16 所示.在圖16(a)場(chǎng)景中標(biāo)志性行為是“兩個(gè)人在打架”,而周圍有較多“站立圍觀者”.
圖15 群組行為屬性取決于場(chǎng)景中大部分人的相同行為的類別
從信息量的角度定義場(chǎng)景群組行為也應(yīng)該為“打架”,而非“站立”,因?yàn)椤按蚣堋毙袨槭菢?biāo)志性的,是高信息量的;類似地,在Volleyball 數(shù)據(jù)集場(chǎng)景中,如圖16(b)所示,左邊球員“扣球”行為是Volleyball場(chǎng)景中的“標(biāo)志性行為”,而其他球員大都在“Waiting”和“Standing”,同樣地,該高信息量的“Spiking”也應(yīng)該定義為此時(shí)的群組行為類別.
總而言之,目前群組行為類別根據(jù)不同場(chǎng)景可以分為如上兩類,在進(jìn)行算法驗(yàn)證時(shí)也是按照該標(biāo)準(zhǔn)進(jìn)行群組行為屬性的識(shí)別.需要注意的是,如果把諸如“CAD”和“Volleyball”兩種群組行為定義完全不同的數(shù)據(jù)集,同時(shí)用來(lái)測(cè)試某個(gè)算法性能時(shí),群組行為的判別方式也應(yīng)該區(qū)別對(duì)待.另外,針對(duì)第一類(圖15)的群組行為,由于組群的構(gòu)成有一定隨機(jī)性,組群成員之間基本不發(fā)生交互關(guān)系,因此,基于“無(wú)交互關(guān)系建模的群組行為識(shí)別方法”更適合對(duì)其識(shí)別,并且,還減少了對(duì)“交互關(guān)系建?!钡挠?jì)算負(fù)荷,提升了識(shí)別速度.而針對(duì)第二類(圖16)的群組行為識(shí)別,其顯著特征是組群的構(gòu)成不具有“隨機(jī)性的”,而是有“組織性的”,成員之間彼此有分工與合作,因此,“基于交互關(guān)系建模的群組行為識(shí)別方法”更適合該類情況下的群組行為識(shí)別任務(wù).
圖16 群組行為的屬性取決于場(chǎng)景中“標(biāo)志性行為”的類別
(2)成員之間交互關(guān)系強(qiáng)弱度量的不統(tǒng)一性以及交互關(guān)系屬性的多樣性
組群中成員交互關(guān)系建模包含兩層含義即屬性和強(qiáng)弱.目前的算法主要是針對(duì)交互關(guān)系強(qiáng)弱的定量分析較多,如文獻(xiàn)[59]認(rèn)為同一個(gè)群組中具有相近位置和相似特征信息的兩個(gè)人,擁有較強(qiáng)的交互關(guān)系;Ehsanpour 等[31]則是通過(guò)圖注意力模型衡量成員間交互關(guān)系的強(qiáng)弱.這些類似的算法各有不同的交互關(guān)系強(qiáng)弱衡量準(zhǔn)則,而度量方法差別也很大.
相比交互關(guān)系強(qiáng)弱的度量,對(duì)交互關(guān)系屬性的甄別更為重要.如林曉萌等[66]將組群成員的交互關(guān)系屬性分為“合作”與“競(jìng)爭(zhēng)”兩種類別,并借鑒情感識(shí)別模型Bert 網(wǎng)絡(luò),利用其能夠識(shí)別人臉表情類別中的“Positive”與“Negative”特性,用來(lái)判別成員的交互關(guān)系屬性是“合作”還是“競(jìng)爭(zhēng)”,并同時(shí)度量其強(qiáng)度.Azorin-Lopez 等[34]依據(jù)子組內(nèi)部成員的運(yùn)動(dòng)軌跡計(jì)算彼此之間的4 種交互信息即關(guān)聯(lián)位移(Coherent Displacement)、非關(guān)聯(lián)上移(Incoherent Up)、非關(guān)聯(lián)下移(Incoherent down)、反向程度(Opposite),并將組間交互關(guān)系分為4種屬性即組間相干性(Coherence of the group)、組間無(wú)關(guān)性(Incoherence of the group)、組間吸引度(Attraction)、組間排斥度(Repulsion).可見(jiàn)交互關(guān)系建模是一個(gè)“私人定制”過(guò)程,可以有不同的交互關(guān)系屬性定義,也有僅僅對(duì)交互關(guān)系強(qiáng)弱的不同度量準(zhǔn)則.總的說(shuō)來(lái),交互關(guān)系描述應(yīng)該先定義其屬性,再度量其相應(yīng)大小,這樣定性/定量同時(shí)描述出來(lái)的組群交互關(guān)系才是完備的.
(3)組群結(jié)構(gòu)的時(shí)變性
多個(gè)人體目標(biāo)或許本身就是一個(gè)整體;或許只有其中的若干成員產(chǎn)生交互關(guān)系構(gòu)成場(chǎng)景中的一個(gè)組群,而其他在場(chǎng)人體目標(biāo)僅僅是無(wú)關(guān)的過(guò)客.另外,組群成員的交互關(guān)系也具有一定的隨機(jī)性,會(huì)隨著時(shí)間的推移發(fā)生改變,導(dǎo)致組群結(jié)構(gòu)也隨之變化.這些問(wèn)題可以歸納為組群結(jié)構(gòu)化分組、組群結(jié)構(gòu)的動(dòng)態(tài)化維護(hù).
目前,組群結(jié)構(gòu)化分組的方法大都是聚類算法,其依據(jù)的信息主要是組群中個(gè)體的運(yùn)動(dòng)屬性、彼此空間距離進(jìn)行聚類,這些算法的分組精度相對(duì)較差.后期的分組方法多是依據(jù)圖模型,根據(jù)成員交互關(guān)系的強(qiáng)弱和交互關(guān)系屬性(如合作/競(jìng)爭(zhēng)關(guān)系屬性、關(guān)聯(lián)/非關(guān)聯(lián)、反向程度等)進(jìn)行分組,這類分組算法更符合場(chǎng)景中的實(shí)際情況.但這需要對(duì)組群交互關(guān)系實(shí)時(shí)性描述,進(jìn)而根據(jù)交互關(guān)系的密切程度增減子組群內(nèi)成員的數(shù)量.
(4)全監(jiān)督/弱監(jiān)督學(xué)習(xí)在群組行為識(shí)別應(yīng)用上的不平衡
雖然基于全監(jiān)督的群組行為識(shí)別已經(jīng)取得了顯著的效果,但全監(jiān)督算法最大的問(wèn)題是依賴數(shù)據(jù)集繁瑣的人工標(biāo)注.而群組行為數(shù)據(jù)集在采集和制作時(shí),其標(biāo)注代價(jià)相比較單人行為數(shù)據(jù)集要高出許多,主要是因?yàn)槿航M行為數(shù)據(jù)集標(biāo)簽的種類和數(shù)量都是繁多的,尤其是群組行為中由于參與的成員較多,并且所有成員均需要標(biāo)注,更甚者是同一成員在不同幀中需要進(jìn)行反復(fù)標(biāo)注,從而大大增加了工作量,嚴(yán)重阻礙了群組行為監(jiān)督學(xué)習(xí)算法的開(kāi)發(fā).為了解決上述問(wèn)題,許多學(xué)者轉(zhuǎn)向弱監(jiān)督算法進(jìn)行研究,并為群組行為識(shí)別方法提供了一種新的思路.
弱監(jiān)督方法能利用簡(jiǎn)單易用的視頻級(jí)標(biāo)注替代復(fù)雜多樣的全信息標(biāo)注,迂回實(shí)現(xiàn)群組行為的識(shí)別.Zhang 等[43]提出了一種快速弱監(jiān)督深度學(xué)習(xí)算法用于組群活動(dòng)識(shí)別,為了實(shí)現(xiàn)快速推理,其將成員目標(biāo)檢測(cè)和弱監(jiān)督群組行為推理通過(guò)共享卷積層的方式得以同步實(shí)現(xiàn),即通過(guò)損失函數(shù)聯(lián)合學(xué)習(xí)這兩個(gè)任務(wù),從而更有效地過(guò)濾掉無(wú)關(guān)的成員干擾;對(duì)于弱監(jiān)督學(xué)習(xí)的實(shí)現(xiàn),該算法提出了一種能直接挖掘成員與組群之間交互關(guān)系的潛在嵌入式方案,避免了繁瑣的需要成員行為標(biāo)簽信息才可建立的成員之間交互關(guān)系建模這一環(huán)節(jié),不僅實(shí)現(xiàn)了群組行為識(shí)別還提高了運(yùn)行速度,其處理幀率為22.65 fps,在很大程度上使群組行為識(shí)別更接近實(shí)時(shí)應(yīng)用.
另外,弱監(jiān)督算法還能夠利用部分已標(biāo)注的數(shù)據(jù)實(shí)現(xiàn)對(duì)數(shù)據(jù)集的擴(kuò)充.Gammulle 等[9]能夠利用GAN 網(wǎng)絡(luò)中的生成器產(chǎn)生與原有的已標(biāo)注的數(shù)據(jù)集相似的、無(wú)標(biāo)注的噪聲數(shù)據(jù),并利用判別器判別數(shù)據(jù)集是否為真,達(dá)到對(duì)數(shù)據(jù)集擴(kuò)充的目的,并實(shí)現(xiàn)了對(duì)大數(shù)據(jù)集的弱監(jiān)督方式的群組行為識(shí)別.
雖然弱監(jiān)督算法具有快速處理數(shù)據(jù)、節(jié)省人力資源等優(yōu)點(diǎn),但也產(chǎn)生了一定的問(wèn)題.例如上述算法[9]的多層次序列GAN 網(wǎng)絡(luò)對(duì)群組的行為識(shí)別時(shí),產(chǎn)生的噪聲樣本雖然擴(kuò)大了數(shù)據(jù)集,但對(duì)于硬件設(shè)備性能的要求更高,算力成本更大;更甚者是新樣本中的噪聲容易干擾分類器訓(xùn)練,降低識(shí)別效果.
因此,如果僅用弱監(jiān)督算法實(shí)現(xiàn)群組行為識(shí)別,往往導(dǎo)致精度不高.一種有效方法是將弱監(jiān)督學(xué)習(xí)與聚類算法、半監(jiān)督主動(dòng)學(xué)習(xí)結(jié)合使用,以滿足不同場(chǎng)景的需求.如Li[67]提出了一種無(wú)監(jiān)督訓(xùn)練和稀疏監(jiān)督指導(dǎo)相結(jié)合的行為識(shí)別方法,其包括兩個(gè)主要組件.第一個(gè)通過(guò)編碼-解碼器RNN 來(lái)學(xué)習(xí)獲得未標(biāo)記動(dòng)作序列的潛在表示;第二個(gè)組件根據(jù)聚類和半監(jiān)督分類,進(jìn)而主動(dòng)學(xué)習(xí)上一步中的未標(biāo)記序列.合并這兩步的習(xí)得數(shù)據(jù)完成模型訓(xùn)練,實(shí)現(xiàn)行為識(shí)別.
(5)視角變化以及場(chǎng)景因素對(duì)群組行為識(shí)別的影響
視角變化會(huì)導(dǎo)致人體姿態(tài)發(fā)生明顯變化,必然會(huì)影響成員行為識(shí)別,進(jìn)而影響群組行為判斷.針對(duì)該問(wèn)題的統(tǒng)一解決方法就是對(duì)多視角下同一行為的樣本序列進(jìn)行學(xué)習(xí),獲得所謂的“視角無(wú)關(guān)行描述符”,進(jìn)而達(dá)到對(duì)不同視角的包容和兼容.豐艷等[68]利用對(duì)視角變化不敏感的骨架信息作為輸入,首先通過(guò)特定視角子網(wǎng)學(xué)習(xí)每個(gè)視角序列的判別性特征,同時(shí)利用空域注意力和時(shí)域注意力模塊分別重點(diǎn)關(guān)注關(guān)鍵關(guān)節(jié)點(diǎn)和關(guān)鍵幀;然后特定視角子網(wǎng)的輸出特征作為公共子網(wǎng)的輸入,通過(guò)公共子網(wǎng)進(jìn)一步學(xué)習(xí)角度無(wú)關(guān)性特征;最后輸出行為分類結(jié)果.類似地,吳培良等[69]提出一種視角無(wú)關(guān)的時(shí)空關(guān)聯(lián)深度視頻行為識(shí)別方法,首先,運(yùn)用深度卷積神經(jīng)網(wǎng)絡(luò)的全連接層將不同視角下的人體姿態(tài)映射到與視角無(wú)關(guān)的高維空間,以構(gòu)建空間域下深度行為視頻的人體姿態(tài)模型;其次,考慮視頻序列幀之間的時(shí)空相關(guān)性,在每個(gè)神經(jīng)元激活的時(shí)間序列中分段應(yīng)用時(shí)間等級(jí)池化函數(shù),實(shí)現(xiàn)對(duì)視頻時(shí)間子序列的編碼;然后,將傅里葉時(shí)間金字塔算法作用于每一個(gè)池化后的時(shí)間序列,并加以連接產(chǎn)生最終的角度無(wú)關(guān)性時(shí)空特征表示.
此外,場(chǎng)景其他信息如背景、光照變化、遮擋、相機(jī)運(yùn)動(dòng)等因素,在識(shí)別群組行為時(shí)也會(huì)有一定的影響.針對(duì)場(chǎng)景信息的應(yīng)用,可以構(gòu)建場(chǎng)景時(shí)空結(jié)構(gòu)上下文描述符,進(jìn)而實(shí)現(xiàn)成員與場(chǎng)景之間的關(guān)系推理.Deng等[70]將場(chǎng)景作為一個(gè)結(jié)點(diǎn)D,與成員結(jié)點(diǎn)A,B,C 共同構(gòu)建組群交互關(guān)系網(wǎng)絡(luò),如圖17所示,其中成員A 與場(chǎng)景的交互關(guān)系由彼此的交互信息模塊AD和DA 計(jì)算,同理,其他成員與場(chǎng)景的交互關(guān)系也可以類似得到.這樣通過(guò)引入場(chǎng)景結(jié)點(diǎn),達(dá)到擴(kuò)展組群全局時(shí)空信息描述的維度,進(jìn)而提升對(duì)場(chǎng)景信息的融合利用.
圖17 構(gòu)建場(chǎng)景-成員交互關(guān)系提升對(duì)場(chǎng)景信息的利用[70]