毛雨昂 朱冰
(1.北京工業(yè)大學(xué)度柏林學(xué)院軟件工程 北京市 100124 2.北京理工大學(xué) 北京市 100081)
深度學(xué)習(xí)[1]由于能夠自主地從數(shù)據(jù)集上學(xué)到有效特征而廣受歡迎。視頻特征一直是研究的重點(diǎn)和難點(diǎn),在深度學(xué)習(xí)沒有得到廣泛應(yīng)用的時(shí)候,研究人員們通過大量的計(jì)算和驗(yàn)證去手工挖掘特征,例如SIFT-3D[2]、HOG-3D[3]和Idt[4]。iDT是一種對(duì)動(dòng)作描述能力很強(qiáng)的手工特征。深度學(xué)習(xí)在學(xué)術(shù)界流行之后,大量用來提取視頻特征的網(wǎng)絡(luò)被提出,其中3D卷積神經(jīng)網(wǎng)絡(luò)[5][6]就是很有效的一種。3D 卷積神經(jīng)網(wǎng)絡(luò)中3D卷積和3D池化操作是成功的關(guān)鍵。它們能有效的混合空間和時(shí)間域上大的信息,讓輸出不再局限于單張圖片,而是一個(gè)流。本實(shí)驗(yàn)采用3D卷積神經(jīng)網(wǎng)絡(luò)提取視頻特征。
不同于單幀圖像,視頻是多幀圖像的有序組合,幀與幀之間有時(shí)間和空間上的聯(lián)系。3D卷積神經(jīng)網(wǎng)絡(luò)提取到每16幀的特征,但相比于一段視頻,16幀仍然只是局部的,仍然需要將這些局部的特征聚合成全局特征。本文提出行為模式樹,這是一種樹型模型,將充分利用到空間和時(shí)間上的信息,更好的表示一段視頻。行為模式樹的靈感來源于數(shù)據(jù)挖掘。從J. Han提出的Frequent Pattern Tree[7]中受到啟發(fā),本文提出了行為模式樹(Action Pattern Tree)。行為模式樹基于數(shù)據(jù)挖掘領(lǐng)域,挖掘關(guān)聯(lián)規(guī)則的其中一種方法叫做頻繁模式增長(zhǎng)(Frequent-Pattern Growth, FP-growth),它可以挖掘全部頻繁項(xiàng)集而無須多次掃描數(shù)據(jù)庫,產(chǎn)生候選項(xiàng)集。
FP-Growth的核心是分治策略:第一步是構(gòu)造,將數(shù)據(jù)庫壓縮成一棵頻繁模式樹(簡(jiǎn)稱FP-Tree),并保留項(xiàng)集關(guān)聯(lián)信息,生成項(xiàng)頭表。第二步是挖掘,把壓縮后的數(shù)據(jù)庫重新劃分成一組條件數(shù)據(jù)庫,在這里也可以叫做條件模式基。條件模式基即包含F(xiàn)P-Tree中與后綴模式一起出現(xiàn)的前綴路徑的集合。每個(gè)數(shù)據(jù)庫都會(huì)關(guān)聯(lián)一個(gè)頻繁項(xiàng),又或者是一個(gè)模式段。
Action Pattern Tree在構(gòu)造時(shí)與Frequent Pattern Tree有一些不同之處。
首先是項(xiàng)集的構(gòu)造上,F(xiàn)P-Growth算法采用的是傳統(tǒng)的方式構(gòu)造數(shù)據(jù)庫的頻繁項(xiàng)集,即不管每一項(xiàng)在數(shù)據(jù)庫的一條數(shù)據(jù)中出現(xiàn)多少次,均視作出現(xiàn)一次,且不分先后順序,只關(guān)心是否出現(xiàn)。而本文提出的項(xiàng)集的構(gòu)造上,則是把一條標(biāo)簽向量中連續(xù)出現(xiàn)的相同標(biāo)簽視作一個(gè)標(biāo)簽,因此同一項(xiàng)集中可能出現(xiàn)多個(gè)相同的項(xiàng)。同一類別可能在一條數(shù)據(jù)中的不同位置出現(xiàn),本文認(rèn)為,這種不同類別之間的位置差異對(duì)挖掘關(guān)聯(lián)規(guī)則十分重要,因?yàn)槠渲袔в兄匾臅r(shí)間信息。
其次是在支持度和置信度的設(shè)置上,F(xiàn)P-tree一般的最小支持度與最小置信度的設(shè)置需要相關(guān)領(lǐng)域的專家設(shè)定,也可以經(jīng)過其他分析劃定。AP-Tree構(gòu)造的時(shí)候,采取了統(tǒng)計(jì)的方式設(shè)定閾值。本文在實(shí)際實(shí)驗(yàn)中對(duì)數(shù)據(jù)進(jìn)行了均勻采樣,發(fā)現(xiàn)經(jīng)過分類器分類后得到的序列會(huì)有一部分特別少的奇異點(diǎn),但是因?yàn)闊o法證明這些點(diǎn)在模式中起到關(guān)鍵的作用,因此在實(shí)驗(yàn)中把這些點(diǎn)作為噪聲處理掉。
另外,在樹的構(gòu)造方式上,本文充分考慮了時(shí)間上的先后順序。在構(gòu)造項(xiàng)集的時(shí)候可以發(fā)現(xiàn),本文所構(gòu)造的項(xiàng)集由于保留了不同位置的相同標(biāo)簽,天然具備時(shí)間屬性。因此在實(shí)驗(yàn)中,對(duì)訓(xùn)練集選擇出頻繁1項(xiàng)集,并將該標(biāo)簽元素確定為主模式,然后將數(shù)據(jù)集中的每一條數(shù)據(jù)再以主模式為界限劃分成更精細(xì)的項(xiàng)集,確保新產(chǎn)生的項(xiàng)集中每個(gè)項(xiàng)只出現(xiàn)一次。緊接著將先出現(xiàn)的標(biāo)簽保存在根節(jié)點(diǎn)的左支,后出現(xiàn)的標(biāo)簽保存在根節(jié)點(diǎn)的右支。
具體算法如下:
表1:與baseline的結(jié)果對(duì)比
本文提出行為模式樹的最終目的是用來計(jì)算動(dòng)作發(fā)生的概率,因此構(gòu)造出了行為模式樹和行為模式表之后,還需要計(jì)算行為模式表中每種模式出現(xiàn)的概率。計(jì)算公式設(shè)計(jì)如下:
設(shè)一棵行為模式樹節(jié)點(diǎn)權(quán)值參數(shù)為μ,路徑權(quán)值參數(shù)為ν。一段動(dòng)作標(biāo)簽序列中提取到的模式有N個(gè)節(jié)點(diǎn)和M個(gè)路徑,統(tǒng)稱為p。則一個(gè)待預(yù)測(cè)視頻的動(dòng)作序列經(jīng)過一棵行為模式樹的概率可以表示為:
其中v表示視頻的動(dòng)作標(biāo)簽序列,μ與ν是與p相對(duì)應(yīng)的權(quán)值參數(shù),α與β表示對(duì)權(quán)值參數(shù)的fine-tune,PN是懲罰項(xiàng),如果序列中出現(xiàn)了不在AP-Tree中的模式,則給予一定的懲罰。
本文的baseline是3D卷積神經(jīng)網(wǎng)絡(luò)分別進(jìn)行mean,max和BoW[8]之后的準(zhǔn)確率。實(shí)現(xiàn)BoW采用的是VLFeat庫。在實(shí)驗(yàn)時(shí),K值分別選擇了101,256,512。之后也考慮了目前最流行的一種編碼方式Fisher Vector[9][10],但是計(jì)算所需的內(nèi)存超過了當(dāng)前可用實(shí)驗(yàn)設(shè)備的承受范圍。最后將C3D經(jīng)過BoW模型之后得到的結(jié)果給出。實(shí)驗(yàn)結(jié)果如表1所示。
本文提出的算法結(jié)果優(yōu)于baseline,這證明了本文所提方法的有效性。
行為模式樹能夠充分考慮到動(dòng)作在空間域和時(shí)間域上的信息,并進(jìn)行有效建模。同時(shí),由于結(jié)構(gòu)的特性,它能夠很簡(jiǎn)單的解決一些對(duì)神經(jīng)網(wǎng)絡(luò)而言比較困擾的問題,比如輸入不統(tǒng)一的問題,在本文中即向量長(zhǎng)度不一致,又或者數(shù)據(jù)比例不平衡的問題,行為模式樹不要求每類動(dòng)作的數(shù)據(jù)大小基本相等。行為模式樹簡(jiǎn)單、緊湊而又高效,可以靈活地與現(xiàn)有的特征聚合方式搭配,讓它們具備更好的描述能力。