文孟飛,胡超,劉偉榮
(1. 中南大學(xué) 信息科學(xué)與工程學(xué)院,湖南 長(zhǎng)沙,410083;2. 湖南省教育科學(xué)研究院,湖南 長(zhǎng)沙,410005;3. 中南大學(xué) 信息與網(wǎng)絡(luò)中心,湖南 長(zhǎng)沙,410083;4. 中南大學(xué) 醫(yī)學(xué)信息研究湖南省普通高等學(xué)校重點(diǎn)實(shí)驗(yàn)室,湖南 長(zhǎng)沙,410083)
一種基于深度學(xué)習(xí)的異構(gòu)多模態(tài)目標(biāo)識(shí)別方法
文孟飛1,2,胡超3,4,劉偉榮1
(1. 中南大學(xué) 信息科學(xué)與工程學(xué)院,湖南 長(zhǎng)沙,410083;2. 湖南省教育科學(xué)研究院,湖南 長(zhǎng)沙,410005;3. 中南大學(xué) 信息與網(wǎng)絡(luò)中心,湖南 長(zhǎng)沙,410083;4. 中南大學(xué) 醫(yī)學(xué)信息研究湖南省普通高等學(xué)校重點(diǎn)實(shí)驗(yàn)室,湖南 長(zhǎng)沙,410083)
提出一種基于深度學(xué)習(xí)的異構(gòu)多模態(tài)目標(biāo)識(shí)別方法。首先針對(duì)媒體流中同時(shí)存在音頻和視頻信息的特征,建立一種異構(gòu)多模態(tài)深度學(xué)習(xí)結(jié)構(gòu);結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和限制波爾茲曼機(jī)的算法優(yōu)點(diǎn),對(duì)音頻信息和視頻信息分別并行處理,生成基于典型關(guān)聯(lián)分析的共享特征表示,并進(jìn)一步利用時(shí)間相關(guān)特性進(jìn)行參數(shù)的優(yōu)化。分別使用標(biāo)準(zhǔn)語(yǔ)音人臉庫(kù)和截取的實(shí)際電影視頻對(duì)算法進(jìn)行實(shí)驗(yàn)。研究結(jié)果表明:對(duì)于這2種視頻來(lái)源,所提出方法在目標(biāo)識(shí)別的精度方面都有顯著提高。
目標(biāo)識(shí)別;深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);限制玻爾茲曼機(jī);典型關(guān)聯(lián)分析
網(wǎng)絡(luò)技術(shù)的發(fā)展使互聯(lián)網(wǎng)上各種非結(jié)構(gòu)化的海量媒體數(shù)據(jù)流業(yè)務(wù)迅速增長(zhǎng)[1]。如何建立起一種高效、準(zhǔn)確的媒體數(shù)據(jù)流目標(biāo)識(shí)別方法已成為國(guó)內(nèi)外學(xué)者的研究熱點(diǎn)[2]?,F(xiàn)今互聯(lián)網(wǎng)上 85%以上的數(shù)據(jù)業(yè)務(wù)包含了非結(jié)構(gòu)化的圖像、音頻和視頻等媒體數(shù)據(jù)[3]。迫切需要根據(jù)媒體數(shù)據(jù)流的特性和規(guī)律,進(jìn)行有效的特征提取和目標(biāo)識(shí)別[4]。機(jī)器學(xué)習(xí)是目標(biāo)識(shí)別的主要方法,目前已經(jīng)從淺層學(xué)習(xí)[5-9]發(fā)展到深度學(xué)習(xí)。淺層結(jié)構(gòu)需要依靠人工來(lái)抽取樣本的特征,難以將其擴(kuò)展到視頻的特征提?。?0]且自糾錯(cuò)能力比較有限[11]。而HINTON等[12]提出的深層學(xué)習(xí)結(jié)構(gòu),可表征復(fù)雜高維函數(shù)并提取多重水平的特征[13]。深度學(xué)習(xí)的2種典型結(jié)構(gòu)為限制波爾茲曼機(jī)(restricted boltzmann machines,RBM)和卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)。RBM在語(yǔ)音識(shí)別體現(xiàn)了較好優(yōu)勢(shì)[14]。而LECUN等[15]使用 CNN在處理識(shí)別圖像信息取得了比其他學(xué)習(xí)方法更好的結(jié)果。目前,隨著互聯(lián)網(wǎng)的發(fā)展以及視頻編解碼技術(shù)的成熟,視頻數(shù)據(jù)呈現(xiàn)出爆炸式的增長(zhǎng)[16]。目前已經(jīng)有將深度學(xué)習(xí)方法應(yīng)用到視頻數(shù)據(jù)目標(biāo)識(shí)別的若干研究成果[17-19]。但上述的研究成果往往針對(duì)視頻的視覺(jué)信號(hào)進(jìn)行單一模態(tài)的處理。而對(duì)于一段視頻來(lái)說(shuō),視覺(jué)和聽(tīng)覺(jué)信號(hào)都能夠?yàn)槟繕?biāo)識(shí)別提供重要的信息。因此,出現(xiàn)了結(jié)合各種不同的模態(tài)之間的有效信息的多模態(tài)學(xué)習(xí)方法。如LEONARDI等[20]使用底層的視覺(jué)和音頻特征來(lái)檢測(cè)足球視頻中的進(jìn)球鏡頭。NGIAM 等[21]使用多模態(tài)方法并行處理人物口型和所發(fā)出的音節(jié)。目前這2種多模態(tài)學(xué)習(xí)方法都采用同一中深層結(jié)構(gòu)處理音頻和視頻信號(hào)。但在多模態(tài)方法中使用不同深層結(jié)構(gòu)將會(huì)取得更好的效果。如RBM對(duì)聲音的識(shí)別具有較好的識(shí)別效果。而卷積神經(jīng)網(wǎng)絡(luò)對(duì)時(shí)間相關(guān)的動(dòng)態(tài)視覺(jué)信號(hào)有較強(qiáng)的魯棒性[22]。為此,本文作者提出一種基于深度學(xué)習(xí)的異構(gòu)多模態(tài)目標(biāo)識(shí)別方法,綜合RBM的語(yǔ)音識(shí)別能力和卷積神經(jīng)網(wǎng)絡(luò)的圖像處理能力,并建立RBM和卷積神經(jīng)網(wǎng)絡(luò)的共享關(guān)聯(lián)表示,以便更有效地識(shí)別視頻中的目標(biāo)。在對(duì)視覺(jué)信號(hào)進(jìn)行處理時(shí),進(jìn)一步利用視頻中相鄰兩幀的時(shí)間相關(guān)性,優(yōu)化神經(jīng)網(wǎng)絡(luò)多層結(jié)構(gòu)的參數(shù),提高目標(biāo)識(shí)別的準(zhǔn)確度。
多媒體數(shù)據(jù)中目標(biāo)識(shí)別的關(guān)鍵是能夠獲取數(shù)據(jù)的主要特征。網(wǎng)絡(luò)資源中的多媒體視頻數(shù)據(jù)具有較大的復(fù)雜性與多樣性。僅僅利用視頻數(shù)據(jù)中單一模態(tài)進(jìn)行處理往往難以得到較好的效果。使用多模態(tài)結(jié)合的方法提取數(shù)據(jù)特征能夠更有效應(yīng)用于媒體數(shù)據(jù)流的特征提?。簩⒁曈X(jué)圖像和音頻數(shù)據(jù)分別作為2種模態(tài)輸入,并行進(jìn)行處理,同時(shí)得到2種模態(tài)的高層特征,進(jìn)而通過(guò)最大化2種模態(tài)之間的關(guān)聯(lián)性建立模態(tài)間的共享表示??傻玫礁玫淖R(shí)別效果。
由于視頻信息中視覺(jué)信息和聽(tīng)覺(jué)信息的特點(diǎn)不同,本文建立了多模態(tài)的異構(gòu)深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),分別利用RBM和卷積神經(jīng)網(wǎng)絡(luò)CNN處理視頻數(shù)據(jù)流的音頻信號(hào)和視頻圖像信號(hào)。
1.1 基于RBM的深度學(xué)習(xí)模型
RBM是一種特殊形式的玻爾茲曼機(jī),可通過(guò)輸入數(shù)據(jù)集學(xué)習(xí)概率分布的隨機(jī)生成神經(jīng)網(wǎng)絡(luò),具有較好的泛化能力。而由多個(gè)RBM結(jié)構(gòu)堆疊而成的深度信念網(wǎng)絡(luò)能提取出多層抽象的特征,從而用于分類和目標(biāo)識(shí)別。
本文采用RBM模型進(jìn)行音頻處理,RBM的結(jié)構(gòu)如圖1所示,整體是一個(gè)二分圖的結(jié)構(gòu),分為2層:一層為可見(jiàn)層(visible units),也稱為輸入層;另一層為隱層(hidden units)。
圖1 RBM的結(jié)構(gòu)圖Fig.1 Structure of RBM
RBM的隱藏變量h和可見(jiàn)變量v之間存在對(duì)稱性的連接(Wi,j),但是隱藏變量之間或者可見(jiàn)變量之間沒(méi)有連接。該模型通過(guò)模擬熱力學(xué)能量定義了基于h和v的聯(lián)合概率分布(方程(1))。由于同層變量之間沒(méi)有連接,因此根據(jù)聯(lián)合概率分布可方便計(jì)算出每一個(gè)單元的激發(fā)概率。
根據(jù)方程(1),可定義隱層和可見(jiàn)層的概率分布:
每一個(gè)單元的激發(fā)概率為:
1.2 基于CNN的深度學(xué)習(xí)模型
CNN是多層感知機(jī)(MLP)的一個(gè)變種模型,是近幾年來(lái)快速發(fā)展并引起廣泛重視的一種高效識(shí)別方法。它是從生物學(xué)概念中演化而來(lái)的。20世紀(jì)60年代,HUBEL等[23]在研究貓腦皮層中用于局部敏感和方向選擇的神經(jīng)元時(shí)發(fā)現(xiàn)其獨(dú)特的網(wǎng)絡(luò)結(jié)構(gòu)可以有效地降低反饋神經(jīng)網(wǎng)絡(luò)的復(fù)雜性,繼而提出了CNN。
一般來(lái)說(shuō),CNN的基本結(jié)構(gòu)包括2層:一層為特征提取層,每個(gè)神經(jīng)元的輸入與前一層的局部接受域相連,并提取該局部的特征。一旦該局部特征被提取后,它與其他特征間的位置關(guān)系也隨之確定下來(lái);另一層為特征映射層,網(wǎng)絡(luò)的每個(gè)計(jì)算層由多個(gè)特征映射組成,每個(gè)特征映射是一個(gè)平面,平面上所有神經(jīng)元的權(quán)值相等。
特征映射結(jié)構(gòu)采用的 sigmoid函數(shù)作為卷積網(wǎng)絡(luò)的激活函數(shù),使得特征映射具有位移不變性。此外,由于一個(gè)映射面上的神經(jīng)元共享權(quán)值,因而減少了網(wǎng)絡(luò)自由參數(shù)的個(gè)數(shù)。卷積神經(jīng)網(wǎng)絡(luò)中的每一個(gè)卷積層都緊跟著一個(gè)用來(lái)求局部平均與二次提取的計(jì)算層,這種特有的兩次特征提取結(jié)構(gòu)減小了特征分辨率。其具體結(jié)構(gòu)圖如圖2所示。
1.3 基于深度編碼器和關(guān)聯(lián)分析的異構(gòu)學(xué)習(xí)
首先將視頻模型描述為視聽(tīng)雙模態(tài),其中該模型的輸入是視頻幀和與視頻幀同步的連續(xù)聲譜。本文采用基于稀疏理論的深度自動(dòng)編碼器異構(gòu)多模態(tài)的深度學(xué)習(xí)方法。
深度自動(dòng)編碼器是一種利用無(wú)監(jiān)督逐層貪心預(yù)訓(xùn)練和系統(tǒng)性參數(shù)優(yōu)化的多層非線性網(wǎng)絡(luò),能夠從無(wú)標(biāo)簽數(shù)據(jù)中提取高維復(fù)雜輸入數(shù)據(jù)的分層特征,并得到原始數(shù)據(jù)的分布式特征表示的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其由編碼器、解碼器和隱含層組成。
基于稀疏理論的深度自動(dòng)編碼器[10]對(duì)原始自動(dòng)編碼器的隱含層添加了約束條件并增加了隱含層數(shù)量,能提取高維數(shù)據(jù)變量的稀疏解釋性因子,保留原始輸入的非零特征,增加表示算法的魯棒性,增強(qiáng)數(shù)據(jù)的線性可分性,使物體邊界變得更加清晰。
該識(shí)別模型分為輸入層、共享表示層以及輸出層。
輸入層:為視頻資源的2個(gè)模態(tài),即聲譜和視頻幀,其中聲譜采用RBM訓(xùn)練,視頻幀采用CNN訓(xùn)練。
圖2 卷積神經(jīng)網(wǎng)絡(luò)多層卷積運(yùn)算和采樣過(guò)程圖Fig.2 Multilayer convolution operation and sampling process of convolution neural network
共享表示層:這一層的關(guān)鍵是找到特征模態(tài)的轉(zhuǎn)換表示從而最大化模態(tài)之間的關(guān)聯(lián)性。本文采用典型關(guān)聯(lián)分析(canonical correlation analysis, CCA,)的方法尋找聲譜波和視頻幀數(shù)據(jù)的線性轉(zhuǎn)換從而形成性能優(yōu)良的共享表示。
CCA是先將較多變量轉(zhuǎn)化為少數(shù)幾個(gè)典型變量,再通過(guò)其間的典型相關(guān)系數(shù)來(lái)綜合描述兩組多元隨機(jī)變量之間關(guān)系的統(tǒng)計(jì)方法,有助于綜合地描述兩組變量之間的典型相關(guān)關(guān)系。基本過(guò)程是從兩組變量各自的線性函數(shù)中各抽取一個(gè)組成一對(duì),它們應(yīng)是相關(guān)系數(shù)達(dá)到最大值的一對(duì),稱為第1對(duì)典型變量,類似地就可以求出第2對(duì)、第3對(duì)等,這些成對(duì)變量之間互不相關(guān),各對(duì)典型變量的相關(guān)系數(shù)稱為典型相關(guān)系數(shù)。所得到的典型相關(guān)系數(shù)的數(shù)目不超過(guò)原兩組變量中任何一組變量的數(shù)目。
輸出層:這一層為聲譜和視頻的重構(gòu)。還原視頻信息的同時(shí),識(shí)別視頻中的物體。
2.1 視頻相關(guān)性描述
視頻是由一系列圖像所組成,圖像中目標(biāo)識(shí)別的方法可以用來(lái)對(duì)視頻進(jìn)行識(shí)別,一段視頻可以分解成很多幀,同一視頻中連續(xù)的2個(gè)視頻幀很有可能表示同樣的內(nèi)容,視頻的這種特性稱之為相關(guān)特性。將這視頻的這種特性用于視頻的目標(biāo)識(shí)別,可以使識(shí)別效果得到很大程度的提高[22]。
利用視頻的時(shí)間相關(guān)性來(lái)提高識(shí)別準(zhǔn)確性已成功用于視頻的動(dòng)作識(shí)別[23]。實(shí)驗(yàn)表明具有時(shí)間相關(guān)性視頻卷積網(wǎng)絡(luò)的識(shí)別效果明顯比采用視頻單幀進(jìn)行訓(xùn)練的卷積網(wǎng)絡(luò)效果優(yōu)越。
2.2 利用視頻相關(guān)特性的優(yōu)化
CNN中在每個(gè)卷積層和子采樣層之后都運(yùn)用了一個(gè)非線性函數(shù)tanh(·),最后使用經(jīng)典的全連接層輸出識(shí)別標(biāo)簽向量,為了解釋這些向量的概率,引入“softmax”層,計(jì)算公式如下:
得到的新參數(shù)θ能使卷積神經(jīng)網(wǎng)絡(luò)對(duì)視頻中目標(biāo)識(shí)別的性能更準(zhǔn)確。其中λ是根據(jù)實(shí)驗(yàn)選擇的學(xué)習(xí)率。
為了使CNN更好地訓(xùn)練θ,以達(dá)到更好的識(shí)別正確率,利用視頻中存在的時(shí)間相關(guān)性進(jìn)一步對(duì)似然函數(shù)L(θ)進(jìn)行優(yōu)化。
δ為邊緣尺寸,是一個(gè)提前選取好的超參數(shù),例如δ=1。
圖3 利用相鄰幀的相關(guān)特性對(duì)深度學(xué)習(xí)參數(shù)進(jìn)行優(yōu)化Fig.3 Deep learning parameter optimization by using related characteristic of adjacent video frames
基于時(shí)間相關(guān)性的異構(gòu)多模態(tài)的結(jié)構(gòu)如圖4所示,將視頻中的 2個(gè)模態(tài)視頻和音頻分別采用 CCN和RBM進(jìn)行處理得到相應(yīng)的識(shí)別標(biāo)簽向量。
RBM 網(wǎng)絡(luò)的輸入為與視頻幀相對(duì)應(yīng)的同步連續(xù)聲譜,采用深度自動(dòng)編碼的學(xué)習(xí)模型對(duì)音頻進(jìn)行處理,該學(xué)習(xí)模型仍然與1.3節(jié)中類似,分為輸入層、共享表示層以及輸出層。
RBM的目標(biāo)是最大化訓(xùn)練樣本集V中的概率之積:
CNN的優(yōu)化目標(biāo)則是最大化式(9)中的概率,則基于時(shí)間相關(guān)的異構(gòu)多模態(tài)深度學(xué)習(xí)算法的目的就是對(duì)參數(shù)w, θ,優(yōu)化RBM和CNN的聯(lián)合概率:
圖4 基于時(shí)間相關(guān)的異構(gòu)多模態(tài)深度學(xué)習(xí)結(jié)構(gòu)Fig.4 Heterogeneous multimodal structure of deep learning based on time correlation
利用時(shí)間相關(guān)性的優(yōu)化算法如下:
Input:標(biāo)簽數(shù)據(jù)(an, xn, yn), n=1, 2, …, N,非標(biāo)簽視頻數(shù)據(jù)an, xn,n=N+1, …, N+U。Output: 神經(jīng)網(wǎng)絡(luò)的參數(shù)w, θ和識(shí)別標(biāo)簽label repeat:step1: 取1個(gè)隨機(jī)標(biāo)簽樣本(an, xn, yn);step2: 針對(duì)音頻輸入an,執(zhí)行1次梯度下降迭代優(yōu)化RBM的連接參數(shù)w。step3: 對(duì)視頻輸入幀中連續(xù)的 xn, yn和似然函數(shù)L(θ, xn, yn),執(zhí)行1次梯度下降迭代;step4: 對(duì)視頻輸入幀中不連續(xù)的 xn, xm和相關(guān)似然函數(shù)Lcoh(θ, xm, yn),執(zhí)行1次梯度下降迭代;step5: 針對(duì)音頻輸入an,再執(zhí)行1次梯度下降迭代優(yōu)化RBM的連接參數(shù)w。選擇參數(shù)w, θ最大化式(15)中的聯(lián)合概率。until:迭代誤差小于設(shè)置的閾值。
上述算法就是通過(guò)交替更新目標(biāo)識(shí)別任務(wù)的聲譜識(shí)別和視頻圖像幀識(shí)別的參數(shù)來(lái)實(shí)現(xiàn)優(yōu)化,在視頻圖像幀中同時(shí)利用了連續(xù)幀和非連續(xù)幀的特征進(jìn)行優(yōu)化。以達(dá)到提高識(shí)別效率的目的。
為了驗(yàn)證本文提出的異構(gòu)多模態(tài)深度學(xué)習(xí)的目標(biāo)識(shí)別方法的性能,利用如下圖像和聲音數(shù)據(jù)庫(kù)作為測(cè)試視頻的聲音和圖像幀信息。
1) Stanford Dataset:是來(lái)自于斯坦福大學(xué)的1個(gè)網(wǎng)絡(luò)數(shù)據(jù)庫(kù)。選用其中的語(yǔ)音數(shù)據(jù)部分,使用庫(kù)中23名志愿者朗讀從 0~9的數(shù)字,從 A~Z的字母和從TIMIT標(biāo)準(zhǔn)語(yǔ)音庫(kù)里挑選的語(yǔ)句,以作為聲音訓(xùn)練和測(cè)試數(shù)據(jù)。
2) Olivetti Faces:是紐約大學(xué)的1個(gè)人臉數(shù)據(jù)庫(kù),由40個(gè)人的400張圖片構(gòu)成,即每個(gè)人的人臉圖片為10張。每張圖片的灰度級(jí)為8位,每個(gè)像素的灰度位于0~255之間,每張圖片為64×64。使用圖片構(gòu)造被測(cè)視頻的圖像幀。采用人工設(shè)定視頻中的人臉視頻與語(yǔ)音數(shù)據(jù)的對(duì)應(yīng)關(guān)系。視頻幀中的1,4,5幀作為標(biāo)簽數(shù)據(jù),其余的圖像作為非標(biāo)簽數(shù)據(jù)。
此外,為了驗(yàn)證算法的有效性,將所提出異構(gòu)多模態(tài)深度學(xué)習(xí)方法同已有的近鄰取樣、支持向量機(jī)和傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)和玻爾茲曼機(jī)等目標(biāo)識(shí)別方法進(jìn)行比較。其中傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)和波爾茲曼機(jī)即采用同構(gòu)多模態(tài)的方式。將所用圖像和語(yǔ)音數(shù)據(jù)平均分成6組,分為訓(xùn)練組L和測(cè)試組T,進(jìn)行如下操作:1) L=1,T=5。2) L=2,T=4。3) L=5,T=1。實(shí)驗(yàn)將對(duì)這3種情況比較這些方法對(duì)被測(cè)對(duì)象的識(shí)別率。測(cè)試的識(shí)別結(jié)果如表1所示。
表1 基于Stanford Dataset和Olivetti Faces數(shù)據(jù)庫(kù)測(cè)試的算法識(shí)別率結(jié)果比較Table 1 Comparison of algorithm tests results based on Stanford Dataset and Olivetti Faces database %
由表1可以看出:隨著訓(xùn)練集的規(guī)模增大,所有目標(biāo)識(shí)別方法的識(shí)別率都得到了顯著提高。與傳統(tǒng)的4種目標(biāo)識(shí)別方法相比,由于本文提出的異構(gòu)多模態(tài)深度學(xué)習(xí)方法能夠抽象地學(xué)習(xí)目標(biāo)與時(shí)間相關(guān)的特性信息,能不依賴大量對(duì)象集進(jìn)行目標(biāo)識(shí)別訓(xùn)練,所以異構(gòu)多模態(tài)深度學(xué)習(xí)方法能始終獲得最高的識(shí)別率。在訓(xùn)練組較小L=1,T=5時(shí),異構(gòu)多模態(tài)深度學(xué)習(xí)方法的測(cè)試精度是90.35%,在訓(xùn)練組較多L=5,T=1時(shí),識(shí)別率提升了8.51%,誤差率只有1.14%。
此外,利用以下3種具有復(fù)雜場(chǎng)景和多種表情動(dòng)作的視頻數(shù)據(jù)集以驗(yàn)證本算法的有效性:UCF sport actions, Hollywood2和YouTube action。這些數(shù)據(jù)集提取自實(shí)際場(chǎng)景,具有場(chǎng)景復(fù)雜,待識(shí)別目標(biāo)具有移動(dòng)性,目標(biāo)捕捉困難,面對(duì)干擾較大等特性。在本次實(shí)驗(yàn)中利用較多訓(xùn)練組L=5,T=1來(lái)驗(yàn)證算法的性能,其指標(biāo)仍然是目標(biāo)識(shí)別率。比較結(jié)果如表2和圖5所示。
表2 基于UCF,Hollywood2和YouTube action視頻庫(kù)的算法識(shí)別率結(jié)果比較Table 2 Comparison of algorithm tests results based on video database coming from UCF, Hollywood2 and YouTube action %
圖5 標(biāo)準(zhǔn)視頻庫(kù)和電影視頻庫(kù)的結(jié)果對(duì)比Fig.5 Comparison of algorithm tests results between standard video database and movie fragment database
由表2和圖5可以看出:在更復(fù)雜的場(chǎng)景下,4種方法的目標(biāo)識(shí)別都更加困難。特別是針對(duì)高度復(fù)雜的好萊塢電影場(chǎng)景,目標(biāo)識(shí)別精度最高只有63.86%。由于4種數(shù)據(jù)集場(chǎng)景具有較大的干擾,所以具有濾波作用的玻爾茲曼機(jī)方法和異構(gòu)多模態(tài)深度學(xué)習(xí)方法具有更高的識(shí)別精度。此外本文提出的異構(gòu)多模態(tài)深度學(xué)習(xí)方法能夠抽象出目標(biāo)與時(shí)間相關(guān)的特性信息,特別適用于移動(dòng)場(chǎng)景目標(biāo)的識(shí)別,能獲得最高的目標(biāo)識(shí)別精度。
1) 針對(duì)網(wǎng)絡(luò)媒體數(shù)據(jù)中同時(shí)包含音頻信號(hào)和時(shí)間相關(guān)的視頻圖像信號(hào)的特點(diǎn),提出了一種異構(gòu)的多模態(tài)深度學(xué)習(xí)機(jī)制,結(jié)合RBM和CNN,通過(guò)共享特征建立關(guān)聯(lián)。比單模態(tài)的處理更能獲得有效信息。
2) 在異構(gòu)多模態(tài)的結(jié)構(gòu)中進(jìn)一步利用相鄰視頻幀之間的時(shí)間相關(guān)性提高識(shí)別率。通過(guò)引入了“softmax”層定義相鄰幀的極大似然函數(shù),通過(guò)迭代的梯度下降法求解優(yōu)化的深度學(xué)習(xí)參數(shù)。
3) 分別使用了標(biāo)準(zhǔn)語(yǔ)音人臉庫(kù)和截取的電影視頻對(duì)算法進(jìn)行實(shí)驗(yàn),對(duì)比了不同數(shù)量訓(xùn)練用例的分組。其中截取的電影視頻有更復(fù)雜的背景和表情動(dòng)作。對(duì)于這2種視頻來(lái)源,所提出方法相對(duì)于所比較的方法在目標(biāo)識(shí)別的精度方面都有顯著提高,顯示了本文算法的有效性與優(yōu)越性。
[1] 王元卓, 靳小龍, 程學(xué)旗. 網(wǎng)絡(luò)大數(shù)據(jù): 現(xiàn)狀與展望[J]. 計(jì)算機(jī)學(xué)報(bào), 2013, 36(6): 1125-1138. WANG Yuanzhuo, JIN Xiaolong, CHENG Xueqi. Network big data: present and future[J]. Chinese Journal of Computers, 2013,36(6): 1125-1138.
[2] CHEN X W, LIN X. Big data deep learning: challenges and pers pectives[J]. Access, IEEE, 2014(2): 514-525.
[3] 李國(guó)杰. 大數(shù)據(jù)研究的科學(xué)價(jià)值[J]. 中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊, 2012, 8(9): 8-15. LI Guojie. The scientific value in the study of the big data[J]. China Computer Federation, 2012, 8(9): 8-15.
[4] LOWE D G. Object recognition from local scale-invariant features[C]// Proceedings of the Seventh IEEE International Conference on Computer Vision. Kerkyra, Greece: IEEE, 1999:1150-1157.
[5] DENG L, YU D. Deep learning: methods and applications[J]. Foundations and Trends in Signal Processing, 2014, 7(3/4):197-387.
[6] ZIVKOVIC Z. Improved adaptive Gaussian mixture model for background subtraction[C]// Proceedings of the 17th International Conference on Pattern Recognition. Cambridge,UK: IEEE, 2004: 28-31.
[7] QUATTONI A, COLLINS M, DARRELL T. Conditional random fields for object recognition[C]// 18th Annual Conference on Neural Information Processing Systems. Vancouver, British Columbia, Canada, 2004: 1097-1104.
[8] SUYKENS J A K, VANDEWALLE J. Least squares support vector machine classifiers[J]. Neural Processing Letters, 1999,9(3): 293-300.
[9] MORGAN N, BOURLARD H. Continuous speech recognition using multilayer perceptrons with hidden Markov models[C]// International Conference on Acoustics, Speech, and Signal Processing. Albuquerque, New Mexico, USA: IEEE, 1990:413-416.
[10] LE Q V, ZOU W Y, YEUNG S Y, et al. Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysis[C]// Computer Vision and Pattern Recognition (CVPR). Providence, Rhode Island, USA: IEEE,2011: 3361-3368.
[11] AREL I, ROSE D C, KARNOWSKI T P. Deep machine learning-a new frontier in artificial intelligence research[research frontier][J]. Computational Intelligence Magazine,IEEE, 2010, 5(4): 13-18.
[12] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006,313(5786): 504-507.
[13] 劉建偉, 劉媛, 羅雄麟. 深度學(xué)習(xí)研究進(jìn)展[J]. 計(jì)算機(jī)應(yīng)用研究, 2014, 31(7): 1921-1930. LIU Jianwei, LIU Yuan, LUO Xionglin. The research and progress of deep learning[J]. Application Research of Computers,2014, 31(7): 1921-1930.
[14] HINTON G, DENG L, YU D, et al. Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups[J]. Signal Processing Magazine, IEEE,2012, 29(6): 82-97.
[15] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[16] 程?hào)|陽(yáng). 基于無(wú)監(jiān)督特征學(xué)習(xí)的多媒體內(nèi)容算法研究[D]. 上海: 上海交通大學(xué)信息安全工程學(xué)院, 2014: 1-93. CHEND Dongyang. Multimedia content analysis based on unsupervised feature learning[D]. Shanghai: Shanghai Jiao Tong University. School of Information Security Engineering, 2014:1-93.
[17] 由清圳. 基于深度學(xué)習(xí)的視頻人臉識(shí)別[D]. 哈爾濱: 哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 2012: 3-20. YOU Qingzhen. The radio face recognition method based on the deep learning[D]. Harbin: Harbin Institute of Technology. School of Computer Science and Technology, 2012: 3-20.
[18] WANG Y S, FU H, SORKINE O, et al. Motion-aware temporal c oherence for video resizing[J]. ACM Transactions on Graphics, 2009, 28(5): 89-97.
[19] ZOU W, ZHU S, YU K, et al. Deep learning of invariant features via simulated fixations in video[C]// 26th Annual Conference on Neural Information Processing Systems. Lake Tahoe, Nevada,USA, 2012: 3212-3220.
[20] LEONARDI R, MIGLIORATI P, PRANDINI M. Semantic indexing of soccer audio-visual sequences: a multimodal approach based on controlled Markov chains[J]. Transactions on Circuits and Systems for Video Technology, IEEE, 2004, 14(5):634-643.
[21] NGIAM J, KHOSLA A, KIM M, et al. Multimodal deep learning[C]// Proceedings of the 28th International Conference on Machine Learning (ICML-11). Bellevue, Washington, USA,2011: 689-696.
[22] MOBAHI H, COLLOBERT R, WESTON J. Deep learning from temporal coherence in video[C]// Proceedings of the 26th Annual International Conference on Machine Learning. Montreal,Quebec, Canada: ACM, 2009: 737-744.
[23] HUBEL D H, WIESEL T N. Receptive fields, binocular interaction and functional architecture in the cat's visual cortex[J]. Journal of Physiology, 1962, 160(1): 106-154.
[24] SIMONYAN K, ZISSERMAN A. Two-stream convolutional networks for action recognition in videos[C]// 28th Annual Conference on Neural Information Processing Systems. Montreal, Quebec, Canada, 2014: 568-576.
(編輯 楊幼平)
Heterogeneous multimodal object recognition method based on deep learning
WEN Mengfei1,2, HU Chao3,4, LIU Weirong1
(1. School of Information Science and Engineering, Central South University, Changsha 410075, China 2. Hunan Provincial Research Institute of Education, Changsha 410005, China;3. Information and Network Center, Central South University, Changsha 410083, China 4. Key Laboratory of Medical Information Research of Hunan Province, Central South University,Changsha 410083, China)
The heterogeneous multimodal object recognition method was proposed based on deep learning. Firstly, based on the video and audio co-existing feature of media data, a heterogeneous multimodal structure was constructed to incorporate the convolutional neural network(CNN) and the restricted boltzmann machine(RBM). The audio and video information were processed respectively, generating the share characteristic representation by using the canonical correlation analysis(CCA). Then the temporal coherence of video frame was utilized to improve the recognizing accuracy further. The experiments were implemented based on the standard audio & face library and the actual movie video fragments. The results show that for both the two kinds of video sources, the proposed method improves the accuracy of target recognition significantly.
object recognition; deep learning; restricted boltzmann machine; convolutional neural network; canonical co rrelation analysis
TP391.4
A
1672-7207(2016)05-1580-08
10.11817/j.issn.1672-7207.2016.05.018
2015-08-17;
2015-10-14
湖南省教育科學(xué)“十二五”規(guī)劃重點(diǎn)項(xiàng)目(XJK014AJC001);國(guó)家自然科學(xué)基金資助項(xiàng)目(61379111,61003233,61202342);教育部-中國(guó)移動(dòng)科研基金資助項(xiàng)目(MCM20121031) (Project(XJK014AJC001) supported by the Hunan Provincial Education Science Key Foundation during 12th Five-Year Plan; Projects(61379111, 61003233, 61202342) supported by the National Natural Science Foundation of China;Project(MCM20121031) supported by the Science Fund of Education Department-China Mobile)
胡超,博士,講師,從事網(wǎng)絡(luò)管理、機(jī)器學(xué)習(xí)、教育信息化研究;E-mail: huchao@csu.edu.cn