申小虎,安居白
(1. 大連海事大學(xué)信息科學(xué)與技術(shù)學(xué)院,遼寧 大連116026;2. 江蘇警官學(xué)院刑事科學(xué)技術(shù)系,江蘇 南京210031)
從視頻中判斷場景所處環(huán)境屬于圖像理解任務(wù),在機器人視覺領(lǐng)域被廣泛應(yīng)用[1]。在公安視聽技術(shù)領(lǐng)域,通過對治安監(jiān)控探頭、行車記錄儀、執(zhí)法記錄儀中所攝制的音視頻文件進行場景識別分類,可對海量非結(jié)構(gòu)化的音視頻信息進行結(jié)構(gòu)化分析、加注結(jié)構(gòu)化標簽,并可與其它關(guān)鍵信息進行數(shù)據(jù)碰撞后達成快速破案的目的。
特征數(shù)據(jù)與分類模型是場景識別系統(tǒng)(Scene Recognition System, SRS)的基礎(chǔ),視聽特征的準確抽取與良好的分類模型是提升系統(tǒng)分類精度與魯棒性的關(guān)鍵[2]。在音頻特征信息抽取上,由于受特定的聲音事件如人類說話聲、汽車引擎轟鳴聲等的影響,目前需要主要解決的問題是復(fù)雜的背景噪音以及弱化房間混響效果[3]。為解決此類問題,Vincent等人則提出深層去噪自編碼器[4],該方法的核心思想是通過訓(xùn)練一個棧式自編碼器用于修復(fù)受噪聲干擾的輸入信息,并重構(gòu)出純凈的音頻信息,使訓(xùn)練后的音頻特征具備魯棒性,但該方法只能抽取低維度特征。Sainath等人利用受限玻爾茲曼機(RBM)與深度信念網(wǎng)絡(luò)(DBN)對輸入的原始特征進行維度壓縮,并作為GMM-HMM系統(tǒng)的輸入[5]。利用視頻幀進行場景識別的研究主要集中在利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)尋找更完善的時空域特征描述符、嵌入全局信息以找到給定圖像的最合適表示。Ji S等人提出時空域卷積神經(jīng)網(wǎng)絡(luò)對視頻行為上的運動信息建模[6]。Simonyan等人則利用雙流卷積網(wǎng)絡(luò)分別將視頻幀和對應(yīng)的光流圖作為網(wǎng)絡(luò)輸入提取視頻的空域特征和時域特征[7]。Aalok Gangopadhya等人則通過對關(guān)鍵幀特征進行聚合的方法得到強魯棒性特征,并取得良好的場景識別效果[8]。但在實際應(yīng)用中,由于場景特征信息內(nèi)容豐富,且混雜著大量的無關(guān)、隨機的噪聲信息,使之存在多樣性、不確定性和模糊性,造成了環(huán)境聲與視頻視頻幀特征變化范圍較大,僅利用音頻或視頻幀特征很難進行精確匹配,難以達到較好的分類精度。為此,相關(guān)學(xué)者嘗試將音頻特征與視頻特征進行特征融合或模型融合獲得場景分類的描述符[9],但由于缺少帶場景標簽視頻的大型數(shù)據(jù)集,分類效果沒有達到期待效果。
針對上述問題,本文構(gòu)建了一種基于深度學(xué)習框架的半監(jiān)督特征融合CNN-DBN場景識別模型。該模型首先對視頻進行解碼生成視頻幀與音頻,分別進行預(yù)處理后輸入CNN抽取能夠良好表征視頻幀與音頻場景的高維度特征。然后利用視頻和音頻信息的同步性,將視頻幀特征與音頻特征進行有效融合后輸入DBN網(wǎng)絡(luò)進行無監(jiān)督訓(xùn)練,學(xué)習視聽特征間的依賴關(guān)系。最后通過加入相對熵正則化項的代價函數(shù)進行反向微調(diào)并收斂。本文使用TensorFlow進行了仿真實現(xiàn),并在相同模型結(jié)構(gòu)下,與單模態(tài)特征的場景識別性能進行了實驗比較。實驗結(jié)果表明,雙通道結(jié)構(gòu)的CNN-DBN模型能夠在在缺乏場景分類標簽的視頻數(shù)據(jù)集條件下,通過較少帶標簽監(jiān)控視頻集完成訓(xùn)練,并提升了場景識別的泛化能力與分類精度。
目前,卷積神經(jīng)網(wǎng)絡(luò)CNN以其良好的特征表述性與解決復(fù)雜問題的準確性,被廣泛應(yīng)用于語音與圖像領(lǐng)域,顯著改善了無監(jiān)督特征下學(xué)習性能。CNN通過稀疏交互、參數(shù)共享等變表示的思想構(gòu)建深度學(xué)習網(wǎng)絡(luò)模型,可處理可變維度的輸入。CNN核心思想為權(quán)值共享與池化,例如經(jīng)典的VGG(Visual Geometry Group)卷積神經(jīng)模型使用了3×3的卷積核大小和2×2最大池化,其結(jié)構(gòu)圖如圖1所示。權(quán)值共享使CNN模型中的多個函數(shù)使用相同的參數(shù),減少了訓(xùn)練參數(shù)并提升了學(xué)習效率,同時由于權(quán)值共享的特殊形式使CNN具有平移等變的性質(zhì),因此在處理圖像方面具有優(yōu)勢,其卷積公式如下
(1)
其中,Zl和Zl+1分別表示第l+1層的輸入特征圖和輸出特征圖,Z(i,j)表示特征圖像素,K為特征圖的通道數(shù),f為卷積核的大小,w為權(quán)值,s為步長,b為偏置。
假定卷積層輸入特征圖的大小為Ll,經(jīng)過卷積得到的輸出大小為Ll+1為
(2)
其中,p為填充層數(shù)。
圖1 VGGNet卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
如圖1所示,圖像特征經(jīng)過卷積操作后,會進一步利用池化進行特征降維和信息過濾。池化可對特征數(shù)量與參數(shù)個數(shù)進行壓縮,在保持特征不變條件下達到特征降維與避免過擬合的目的。常用的池化函數(shù)如下
(3)
其中,A(i,j)表示池化層輸出的像素,f為卷積核的大小,s為步長。p為池化函數(shù)的預(yù)設(shè)參數(shù),當p=1時稱為均值池化,表示在池化區(qū)域內(nèi)取均值;當p→∞時稱為最大池化,表示在池化區(qū)域內(nèi)取最大值。由于VGGNet在視覺分類任務(wù)中表現(xiàn)突出,被廣泛應(yīng)用于基于視頻幀圖像與環(huán)境聲的場景識別與目標分類中[10-11]。
RBM受限玻爾茲曼機以及堆疊生成的DBN深度信念網(wǎng)絡(luò)的概率性無監(jiān)督模型被廣泛應(yīng)用于高維度特征條件下的分類任務(wù)[12],RBM與DBN網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 DBN深度信念網(wǎng)絡(luò)結(jié)構(gòu)圖
其中無向概率圖模型RBM常被用于描述隨機變量與觀測數(shù)據(jù)之間的依賴關(guān)系,通過無監(jiān)督訓(xùn)練學(xué)習數(shù)據(jù)特征的內(nèi)在聯(lián)系,并以概率的形式輸出。RBM模型結(jié)構(gòu)由隨機可見單元v與隨機隱藏單元h相連接,可見單元v的概率密度p(v)、可見單元和隱藏單元的聯(lián)合分布概率p(v,h)均由能量函數(shù)E(v,h)得到
(4)
(5)
其中Z稱為歸一化因子,由退火重要性采樣(AIS)計算得到其近似值。歸一化因子Z與能量函數(shù)E(v,h)定義如下
(6)
(7)
其中v=[v1,v2,…,vi],vi∈[0,1];h=[h1,h2,…,hj],hj∈[0,1],vi,hj分別為可見單元與隱藏單元的狀態(tài)值,bi,cj分別為可見單元與隱藏單元的偏置,Wij為連接權(quán)重。由于RBM不存在層內(nèi)連接,可見單元與隱藏單元擁有獨立的激活條件,因此每個單元的激活條件概率p(vi|h)與p(hi|v)可用下面的公式簡化表示
(8)
(9)
sigmod(x)=1/(1+e-x)
(10)
如圖2所示,由多個限制玻爾茲曼機(RBM)層堆疊組成深度DBN信念網(wǎng)絡(luò)采用對比散度CD算法降低重構(gòu)誤差[13]。通過訓(xùn)練隱層單元去獲得在可視層中高階特征的相關(guān)性。同時作為一個概率生成模型,DBN與傳統(tǒng)判別模型神經(jīng)網(wǎng)絡(luò)相比,其生成模型是建立一個觀察數(shù)據(jù)和標簽之間的聯(lián)合分布,如式(11)所示
p(v,h1,h2,…,hl)=
p(v|h1)p(h1|h2)…p(hl-2|hl-1)p(hl-1,hl)
(11)
本文設(shè)計使用的半監(jiān)督視聽特征融合方法,主要分為視聽特征提取、特征融合與半監(jiān)督訓(xùn)練分類三個階段,如圖3所示。基于特征融合的半監(jiān)督場景識別模型,利用了視頻和音頻信息的同步性,可學(xué)習挖掘視頻幀特征與音頻特征之間的依賴結(jié)構(gòu)關(guān)系。
圖3 面向多模態(tài)特征輸入的半監(jiān)督CNN-DBN場景識別模型
由于視頻單幀圖像中攜帶著充分的場景信息和目標信息,因此場景分類中較少考慮視頻連續(xù)幀間的運動信息,且對各視頻幀的時序線性特征依賴性不強。為提升融合模型的訓(xùn)練與識別效率,有效的從監(jiān)控視頻中捕捉視覺特征信息,本文設(shè)計通過計算空間特征描述符并使用聚合策略的方法,針對原始視頻片段獲得其場景信息的聚合視頻幀特征描述符。
Places作為面向400多個不同類型場景、包含1000萬張圖片場景的大型圖像數(shù)據(jù)集,可用于以場景和環(huán)境為應(yīng)用內(nèi)容的視覺認知任務(wù)。本文采用在Places數(shù)據(jù)集上完成預(yù)訓(xùn)練的VGG16-places365模型,并提取這些幀的CNN激活特征。由于大多數(shù)監(jiān)控視頻只存在一個鏡頭,因此可將原始視頻按照指定時長切割成k個片段,每個片段包含m個圖像幀,其視頻幀特征提取過程如下:
1)對m個圖像幀進行時間維度的下采樣,得到具有相同時間間隔的n(n 2)對各幀后進行空間維度的下采樣,得到224×224的圖像幀作為CNN網(wǎng)絡(luò)的輸入; 3)對于作為輸入的每一個幀,取VGG16-places365模型的第6層(Fc6)完全連接層的輸出進行后路轉(zhuǎn)換,可得到一個4096維視頻幀特征描述矩陣F,如式(12)所示 (12) 其中i∈{1,2,…,n},j∈{1,2…,4096},Xi,j表示第i個圖像幀的第j維度的特征描述符。 4)由于場景分類中較少依賴空間特征的時間統(tǒng)計信息,因此對該特征矩陣使用靜態(tài)統(tǒng)計度量方法進行圖像幀聚合,來計算獲得最終的特征描述符。如式(13)所示,利用上述特征矩陣計算求均值方法并進行聚類。 (13) 5)將得到的每個視頻特征幀δi進行PCA降維,每個原始視頻片段對應(yīng)1個聚類特征。最終得到k個1024維的視頻幀級特征描述符向量。 本文使用VGGish作為音頻場景信息的特征提取模型。VGGish采用VGG11模型結(jié)構(gòu),使用AudioSet語音數(shù)據(jù)集進行訓(xùn)練。其中AudioSet語音庫是由200萬段10秒的語音片段組成,共包含600個音頻場景類標簽。圖像場景信息與音頻場景信息大都是由事件驅(qū)動的,因此上述k個聚類都可獨立對應(yīng)一個場景音頻片段。對解碼得到的音頻進行16kHz的重采樣,并通過快速傅里葉變換,經(jīng)過分幀、加窗計算每幀的對數(shù)Mel特征,并進行組幀作為VGGish網(wǎng)絡(luò)模型的輸入。其中設(shè)置幀長為25ms,幀移為10ms,加窗類型為漢寧窗。每個視頻聚類所對應(yīng)的音頻片段均可得到一個128維的音頻特征分布式表述。 與行為分類[14]、事件檢測[15]、目標分類[16]等不同,側(cè)重于視頻場景分類任務(wù)的視頻級特征不需要結(jié)合使用幀間時序信息,因此為提升融合運算效率,本文采用簡單的幀級特征拼接的方法,將128維音頻特征表示與1024維視頻幀特征描述符進行融合串聯(lián)輸出1152維的場景特征描述符向量。 由于場景特征描述符僅僅是視聽特征進行了最簡單的拼接,為進一步對上述融合特征進行降維并學(xué)習融合特征中的視頻幀特征與音頻特征間的非線性結(jié)構(gòu)關(guān)系,本文設(shè)計使用深度信念網(wǎng)絡(luò)模型構(gòu)建深度網(wǎng)絡(luò)模型。其中通過無標簽視頻的場景融合描述特征對各RBM進行無監(jiān)督訓(xùn)練,得到一個接近全局最優(yōu)的網(wǎng)絡(luò)初始權(quán)值,再利用帶標簽視頻進行有監(jiān)督學(xué)習,使用誤差反向傳遞算法進行網(wǎng)絡(luò)權(quán)值修正調(diào)優(yōu),并最終與一個Softmax回歸分類器進行級聯(lián)完成對視頻場景的分類,如圖2所示。 深度信念網(wǎng)絡(luò)的這種結(jié)構(gòu)對高維視頻場景特征向量進行了有效的非線性降維,得到一個富含場景結(jié)構(gòu)信息的低維表示,其中在與softmax級聯(lián)后的有監(jiān)督反向調(diào)優(yōu)階段,相似場景的結(jié)構(gòu)特征可導(dǎo)致隱層節(jié)點激活概率偏高,本文設(shè)計通過向代價函數(shù)中加入相對熵正則化項的方式,達到對隱層節(jié)點進行稀疏約束的目的。根據(jù)式(4)-(7),得到的最終對數(shù)似然代價函數(shù)為 (14) 其中,J(w,b)為傳統(tǒng)DBN采用的代價函數(shù),β為控制正則項的權(quán)重。相對熵正則項中的K為隱含層結(jié)點個數(shù),M為訓(xùn)練樣本總數(shù)。ρ被稱為為稀疏系數(shù),用來控制隱含層的稀疏度,這里取ρ為0.2。該DBN模型通過梯度下降的方法不斷迭代降低,達到最終收斂,輸出視頻場景分類目標數(shù)目相對應(yīng)的結(jié)果。 由于VGGish與VGG16-places365模型所抽取的場景分類特征與YouTube-8M是兼容的,因此這里直接YouTube-8M視頻數(shù)據(jù)集提供的feature_extractor得到幀級數(shù)據(jù)集進行DBN的無監(jiān)督訓(xùn)練。為進一步對深度置信網(wǎng)絡(luò)開展有監(jiān)督訓(xùn)練,通過公安視頻偵查技術(shù)平臺構(gòu)建了帶標簽的視頻監(jiān)控場景數(shù)據(jù)庫,共3901個視頻,8類。根據(jù)公安實戰(zhàn)業(yè)務(wù)應(yīng)用,提取的監(jiān)控視頻主要分布于街道、商店、公園、公共交通工具、隧道、超市、小區(qū)、室內(nèi)、商場共8類場景環(huán)境下,得到如圖4所示視頻集。 圖4 視頻監(jiān)控場景數(shù)據(jù)庫 本文將監(jiān)控場景數(shù)據(jù)庫中的2341份視頻作為訓(xùn)練集,750份作為驗證集,810份作為測試集(每類場景各10份視頻)。由于公安實戰(zhàn)業(yè)務(wù)中獲取的案件視頻,存在大量由于雨雪天氣造成的不清晰視頻,因此這里將測試視頻進行分幀后,分別利用OpenCV與cooledit向視頻每幀圖像中加入椒鹽噪點和粉紅噪聲,獲得810份含噪視頻測試集。其中預(yù)處理階段,視頻片段時長設(shè)定為300秒,實驗環(huán)境中訓(xùn)練用GPU為英偉達RTX 20180 8G顯卡。 在DBN網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計上,本文嘗試多種超參的組合后,選擇3層隱含層經(jīng)過堆疊的成深度信念網(wǎng)絡(luò)結(jié)構(gòu),通過反復(fù)調(diào)試后確定DBN的隱層網(wǎng)絡(luò)結(jié)構(gòu)為1024-512-512-128-8。同時設(shè)定模型的mini-batch=30,學(xué)習率為0.03,迭代次數(shù)epoch=150。 為研究場景融合特征的自組織形式,利用完成預(yù)訓(xùn)練后的CNN-DBN模型,生成測試視頻集的后驗概率集合。本文利用主成分分析(PCA)對DBN網(wǎng)絡(luò)輸出的128維特征進行處理,提取前三個主成分(貢獻率36.9%)并對獲得的特征空間進行可視化處理。 圖5顯示了8類場景所分別對應(yīng)的可視化特征空間,可以看出,CNN-DBN網(wǎng)絡(luò)模型進行無監(jiān)督預(yù)訓(xùn)練后得到的場景后驗概率可被用于多場景識別任務(wù)。為進一步驗證融合特征在場景分類性能上改善效果,實驗針對8類常用監(jiān)控視頻場景,分別對810份純凈視頻測試集與810份含噪視頻測試集的場景分類結(jié)果進行了統(tǒng)計分析。其中在純凈測試樣本條件下,融合特征的場景分類正確識別率達到了84.69%。同時為比較融合特征在性能提升上的效果,分別將CNN網(wǎng)絡(luò)輸出的1024維視頻幀特征與128幀音頻特征做掩碼處理,獨立測試音頻(VGGish)特征與視頻幀(VGG16-places365)單模態(tài)特征條件下的分類效果,正確識別率總結(jié)如表1所示。從測試結(jié)果中可以看出,在純凈測試集下視頻幀特征在融合音頻特征后分類效果改善不明顯,正確識別率提升了2.35%。而針對含噪視頻測試集,由于圖像噪聲與雜音干擾的加入,視頻幀特征與音頻特征下的正確識別率均出現(xiàn)了不同程度的下降,其中視頻幀特征受影響程度較大。在融合特征輸入條件下,場景分類的正確識別率增加了12.09%,取得較好的提升效果。 圖5 監(jiān)控視頻典型場景下的融合特征空間可視分布 表1 不同特征條件下場景分類正識率對比(%) 圖6、圖7分別顯示了純凈視頻測試集與810份含噪視頻測試集下融合特征分類測試結(jié)果的混淆矩陣。從圖5中的分類混淆矩陣可以看到,街道、公共交通、隧道、室內(nèi)場景分類效果較好,這是由于上述場景下的視覺與聽覺特征均具有較強的特定性,概率特征空間中不易與其它場景區(qū)域產(chǎn)生重疊。而超市與商場、小區(qū)與公園在視頻幀(視覺)特征或音頻(聽覺)特征上均存在較高的相似度,因此場景識別測試在兩種視頻集樣本條件下分類效果不佳。從圖6中的分類混淆矩陣可以看到,由于街道、公共交通和室內(nèi)場景下聽覺特征具有較強的特定性, CNN-DBN模型在訓(xùn)練時對音頻特征的置信度給予了更多的反饋。因此含噪測試條件下,上述場景的分類結(jié)果也能夠保持較好的正確識別率。 圖6 純凈視頻集融合特征識別性能(混淆矩陣) 圖7 含噪視頻集融合特征識別性能(混淆矩陣) 本文針對傳統(tǒng)監(jiān)控視頻場景分類中,獨立依賴視頻幀特征或音頻特征進行場景分類,導(dǎo)致在不特定外界因素條件下場景分類性能不穩(wěn)定的問題,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)與深度信念網(wǎng)絡(luò)的結(jié)構(gòu)優(yōu)勢,設(shè)計了一種端對端的雙通道特征融合模型CNN-DBN,并將該模型應(yīng)用于監(jiān)控視頻的場景分析中。通過構(gòu)建的公安監(jiān)控視頻數(shù)據(jù)集測試后發(fā)現(xiàn),該半監(jiān)督特征融合模型能夠在缺乏大規(guī)模帶標簽視頻數(shù)據(jù)集的限制條件下完成訓(xùn)練學(xué)習,很好的利用了信息互補,較好提升了含噪測試樣本的場景識別效果。實驗結(jié)果表明,本文方法針對外界環(huán)境復(fù)雜多變的監(jiān)控視頻下的場景分類,具有較高的魯棒性,面向公安實戰(zhàn)領(lǐng)域推廣與應(yīng)用價值較高。3.2 音頻特征的抽取
3.3 幀級特征融合
3.4 基于雙通道特征融合的DBN模型
4 對比實驗
4.1 實驗數(shù)據(jù)集構(gòu)建
4.2 超參數(shù)設(shè)置
4.3 識別性能評價
5 結(jié)論