李彥冬,雷 航,郝宗波,唐雪飛
(電子科技大學(xué)信息與軟件工程學(xué)院 成都 610054)
基于多尺度顯著區(qū)域特征學(xué)習(xí)的場(chǎng)景識(shí)別
李彥冬,雷 航,郝宗波,唐雪飛
(電子科技大學(xué)信息與軟件工程學(xué)院 成都 610054)
場(chǎng)景識(shí)別是圖像高層語(yǔ)義信息理解的重點(diǎn)和難點(diǎn)領(lǐng)域。如何尋找場(chǎng)景中有效信息的位置是場(chǎng)景識(shí)別領(lǐng)域中非常困難的問(wèn)題。該文提出了一種基于多尺度顯著區(qū)域特征學(xué)習(xí)的場(chǎng)景識(shí)別方法。首先,提取一個(gè)場(chǎng)景中在多尺度下的顯著區(qū)域;然后,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)的遷移學(xué)習(xí),利用學(xué)習(xí)到的特征在多尺度的顯著區(qū)域內(nèi)對(duì)場(chǎng)景進(jìn)行識(shí)別。基于兩個(gè)公共場(chǎng)景識(shí)別數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)證明了該方法的有效性和良好的泛化能力。實(shí)驗(yàn)結(jié)果表明,該方法相對(duì)于傳統(tǒng)的場(chǎng)景識(shí)別方法能取得更好的場(chǎng)景識(shí)別準(zhǔn)確度。
深度學(xué)習(xí); 特征學(xué)習(xí); 場(chǎng)景分析; 場(chǎng)景識(shí)別; 遷移學(xué)習(xí)
場(chǎng)景識(shí)別的目標(biāo)是讓計(jì)算機(jī)能夠自動(dòng)提取出圖像的高層語(yǔ)義信息,從而對(duì)圖像所屬的場(chǎng)景進(jìn)行識(shí)別。場(chǎng)景識(shí)別是最終實(shí)現(xiàn)計(jì)算機(jī)能在高層語(yǔ)義層面“理解”一幅圖像的關(guān)鍵技術(shù),是計(jì)算機(jī)視覺(jué)領(lǐng)域中的一個(gè)重要而困難的研究課題[1]。
空間金字塔匹配[2](spatial pyramid matching, SPM)是一種典型的傳統(tǒng)場(chǎng)景識(shí)別方法。SPM將一幅場(chǎng)景圖像按照空間金字塔結(jié)構(gòu)劃分成固定的柵格區(qū)域,以柵格區(qū)域?yàn)閱挝惶崛√卣鳎缓髮⑦@些區(qū)域特征組合起來(lái)構(gòu)成整個(gè)場(chǎng)景的特征。SPM方法主要存在兩個(gè)缺陷:1) 空間金字塔的區(qū)域定義不夠靈活,影響了算法的泛化能力;2) SPM使用了傳統(tǒng)的人工設(shè)計(jì)特征,如GIST[3]、SIFT[4]等,這些特征的判別性能和泛化性能都有一定的局限性。
針對(duì)場(chǎng)景識(shí)別中的區(qū)域選擇問(wèn)題,文獻(xiàn)[5]提出了一種方向金字塔匹配(orientational pyramid matching, OPM)的方法。OPM利用場(chǎng)景中物體的3D方向特征構(gòu)建金字塔區(qū)域,彌補(bǔ)了SPM僅僅運(yùn)用場(chǎng)景空間信息的局限。文獻(xiàn)[6]運(yùn)用在目標(biāo)檢測(cè)領(lǐng)域取得了良好效果的DPM[7](deformable part-based model),通過(guò)定位場(chǎng)景中的物體對(duì)象來(lái)尋找場(chǎng)景中含有豐富信息的區(qū)域。文獻(xiàn)[8]利用了無(wú)監(jiān)督的聚類算法來(lái)評(píng)價(jià)場(chǎng)景中不同區(qū)域?qū)τ趫?chǎng)景類別判斷的貢獻(xiàn)。
針對(duì)場(chǎng)景識(shí)別中的特征提取問(wèn)題,文獻(xiàn)[9]對(duì)一些傳統(tǒng)的特征(GIST、SIFT、HOG、LBP等)在場(chǎng)景識(shí)別中的應(yīng)用進(jìn)行了分析,取得的效果并不理想。近年來(lái),深度學(xué)習(xí)[10]的興起使得“特征學(xué)習(xí)”逐漸取代了傳統(tǒng)的手工設(shè)計(jì)特征,成為計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)新的研究熱點(diǎn)。研究表明,學(xué)習(xí)特征的判別性能遠(yuǎn)遠(yuǎn)超過(guò)了傳統(tǒng)的人工設(shè)計(jì)特征[11-12]。并且,在特定領(lǐng)域?qū)W習(xí)到的特征可以通過(guò)遷移學(xué)習(xí)應(yīng)用到更為廣泛的領(lǐng)域中[13-14]。遷移學(xué)習(xí)的定義是[15]:運(yùn)用已存有的知識(shí)對(duì)不同但相關(guān)領(lǐng)域問(wèn)題進(jìn)行求解的一種機(jī)器學(xué)習(xí)方法。遷移學(xué)習(xí)的思想使得特征學(xué)習(xí)得以實(shí)現(xiàn)跨領(lǐng)域的應(yīng)用。
受到近期的相關(guān)研究成果啟發(fā),針對(duì)傳統(tǒng)場(chǎng)景識(shí)別方法中存在的缺陷,本文提出一種基于多尺度顯著區(qū)域特征學(xué)習(xí)的場(chǎng)景識(shí)別方法。相比于傳統(tǒng)的場(chǎng)景識(shí)別策略,該方法利用了相比于人工設(shè)計(jì)特征具有更好判別性能和泛化性能的深度學(xué)習(xí)特征。另外,本文提出了一種尋找多尺度顯著區(qū)域的方法。實(shí)驗(yàn)表明,基于多尺度顯著區(qū)域的特征提取相比于單一尺度的特征提取更有助于提高場(chǎng)景識(shí)別的準(zhǔn)確度。
顯著區(qū)域是指一個(gè)場(chǎng)景中含有豐富的語(yǔ)義信息,并且能夠在一定程度上代表場(chǎng)景特征的區(qū)域范圍。通過(guò)場(chǎng)景中的顯著區(qū)域,能夠提取出更加具有判別性的場(chǎng)景特征,從而提高場(chǎng)景識(shí)別準(zhǔn)確度。
1.1 場(chǎng)景中的區(qū)域劃分
針對(duì)場(chǎng)景中區(qū)域的劃分,有一些非常具有代表性的分割方法[16-18]。這些分割方法的基本思想是利用圖像的低層特征信息(如:色彩、紋理等),針對(duì)圖像的像素點(diǎn)進(jìn)行分割。這些傳統(tǒng)方法雖然能夠有效地將一幅圖像劃分為不同的區(qū)域,但是這些區(qū)域?qū)τ趫?chǎng)景的重要性程度,傳統(tǒng)的圖像分割方法并沒(méi)有給出評(píng)價(jià),因此對(duì)于場(chǎng)景識(shí)別并不十分適用。
本文的顯著區(qū)域提取方法在傳統(tǒng)的區(qū)域分割方法上,進(jìn)一步針對(duì)場(chǎng)景中能夠提供具有判別性的場(chǎng)景信息區(qū)域進(jìn)行提取,以適應(yīng)場(chǎng)景識(shí)別的應(yīng)用需求。與傳統(tǒng)的基于低層特征的區(qū)域劃分方法不同,本文針對(duì)場(chǎng)景識(shí)別應(yīng)用的需求,更加關(guān)注場(chǎng)景中物體的分布,如一個(gè)活動(dòng)室里面的人、臺(tái)球桌以及吊燈等,如圖1所示。對(duì)于一個(gè)場(chǎng)景中物體分布更為密集的區(qū)域,本文認(rèn)為這個(gè)區(qū)域?qū)τ趫?chǎng)景的特點(diǎn)能夠具有更好的代表性。
1.2 場(chǎng)景中的顯著區(qū)域提取
文獻(xiàn)[19]提出了一種基于圖像低層特征來(lái)提取一個(gè)場(chǎng)景中潛在物體框集合L的方法。目標(biāo)檢測(cè)實(shí)驗(yàn)表明,基于低層圖像特征而產(chǎn)生的潛在物體框集合L具有反映一個(gè)場(chǎng)景中目標(biāo)物體潛在分布的能力。因此,將這些潛在目標(biāo)物體的分布,作為本文場(chǎng)景顯著區(qū)域提取的一個(gè)基本因素。本文提取場(chǎng)景顯著區(qū)域的方法如圖1所示。
圖1 顯著區(qū)域提取方法
對(duì)于一幅場(chǎng)景圖像X,根據(jù)潛在物體框L的分布,計(jì)算出場(chǎng)景中每個(gè)位置的潛在物體密度為:
式中,i和j分別代表場(chǎng)景X中每個(gè)像素點(diǎn)的橫坐標(biāo)和縱坐標(biāo)的索引;t是關(guān)于場(chǎng)景中潛在物體框集合L的索引。g(X(i,j),L(t))的定義如下:
針對(duì)場(chǎng)景中的潛在物體密度,本文利用滑動(dòng)窗口B計(jì)算目標(biāo)場(chǎng)景中在窗口區(qū)域內(nèi)的物體密度。最終物體密度最高的區(qū)域被提取出來(lái)作為顯著區(qū)域:
式中,a是針對(duì)滑動(dòng)窗口的索引;Ψ(M, B(a))函數(shù)用于計(jì)算滑動(dòng)窗口內(nèi)的物體密度總和。潛在物體密度最高的滑動(dòng)窗口位置被選為最終的顯著區(qū)域位置B(amax)。
B(amax)反映了在以滑動(dòng)窗口大小為尺度的條件下,一個(gè)場(chǎng)景中包含物體信息最為豐富的區(qū)域。通過(guò)對(duì)劃分的顯著區(qū)域進(jìn)行特征提取,以達(dá)到提高場(chǎng)景識(shí)別準(zhǔn)確度的目的。
特征設(shè)計(jì)曾經(jīng)是一個(gè)研究熱點(diǎn),最初的計(jì)算機(jī)視覺(jué)技術(shù)都是基于一些特別設(shè)計(jì)的特征或者是一些特征的組合。但是,隨著研究的深入,傳統(tǒng)人工設(shè)計(jì)特征的缺陷逐漸顯現(xiàn)出來(lái),主要有以下兩點(diǎn):
1) 傳統(tǒng)設(shè)計(jì)特征對(duì)于應(yīng)用的針對(duì)性比較強(qiáng),往往針對(duì)不同的應(yīng)用需要設(shè)計(jì)不同的特征提取方式才能取得理想的結(jié)果,缺乏泛化能力;
2) 傳統(tǒng)設(shè)計(jì)特征的判別能力較弱,單一的特征很難取得良好的實(shí)驗(yàn)效果。因此,研究中采用多種特征結(jié)合的方式以獲取較為理想的結(jié)果。但是,多種特征結(jié)合的方式也隨之帶來(lái)如何選擇特征,選擇多少特征以及特征維度過(guò)高等一系列問(wèn)題。
近年來(lái)興起的深度學(xué)習(xí)技術(shù)在一定程度上解決了傳統(tǒng)人工設(shè)計(jì)特征的缺陷,逐漸取代了傳統(tǒng)設(shè)計(jì)特征成為了當(dāng)前的主流特征提取方法。另外,特征的遷移學(xué)習(xí)進(jìn)一步拓展了特征學(xué)習(xí)的應(yīng)用領(lǐng)域。
2.1 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)[20]是深度學(xué)習(xí)領(lǐng)域中的一個(gè)重要分支,特別是在圖像識(shí)別領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)成為一個(gè)重要的研究方向。
典型的卷積神經(jīng)網(wǎng)絡(luò)包含卷積層、下采樣層和全連接層3種基本結(jié)構(gòu)。卷積層的卷積核在輸入圖像(特征圖)上滑動(dòng),通過(guò)權(quán)值共享提取一幅圖像(特征圖)上各個(gè)區(qū)域的特征信息:
式中,Hm表示第m層的特征圖(H0為輸入圖像);W和b是可訓(xùn)練的參數(shù);f(?)是激勵(lì)函數(shù)(如:sigmoid、hyperbolic tangent、rectified linear unit等)。下采樣層的作用是對(duì)特征圖進(jìn)行降維,并且提供一定程度的尺度不變特性。全連接層通常在整個(gè)卷積神經(jīng)網(wǎng)絡(luò)的末端,并且通過(guò)一個(gè)softmax層輸出針對(duì)輸入圖像所屬類別的一個(gè)概率分布。卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練通常采用隨機(jī)梯度下降的方法(stochastic gradient descent, SGD),訓(xùn)練過(guò)程中W和b會(huì)被更新,更新的幅度由學(xué)習(xí)速率η控制。為了減輕網(wǎng)絡(luò)的過(guò)擬合,“weight decay”參數(shù)λ通常會(huì)被加入網(wǎng)絡(luò)的損失函數(shù)中以控制整個(gè)網(wǎng)絡(luò)的過(guò)擬合強(qiáng)度。
2.2 卷積神經(jīng)網(wǎng)絡(luò)的遷移學(xué)習(xí)
卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練對(duì)于訓(xùn)練數(shù)據(jù)集的數(shù)量要求很高,因此大型圖像分類數(shù)據(jù)集(如ImageNet[11])對(duì)卷積神經(jīng)網(wǎng)絡(luò)的成功起著非常重要的推動(dòng)作用。而本文希望將卷積神經(jīng)網(wǎng)絡(luò)在圖像分類領(lǐng)域的成功擴(kuò)展到場(chǎng)景識(shí)別領(lǐng)域,遷移學(xué)習(xí)是采用的一個(gè)主要思路。圖2是關(guān)于本文利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行遷移學(xué)習(xí)的模型,卷積神經(jīng)網(wǎng)絡(luò)將大型圖像分類數(shù)據(jù)集作為先驗(yàn)知識(shí)進(jìn)行預(yù)訓(xùn)練,訓(xùn)練好的模型作為通用的特征提取器應(yīng)用場(chǎng)景識(shí)別任務(wù)。
圖2 卷積神經(jīng)網(wǎng)絡(luò)的遷移學(xué)習(xí)模型
按照本文提出的場(chǎng)景識(shí)別方法的需求,將卷積神經(jīng)網(wǎng)絡(luò)的遷移學(xué)習(xí)過(guò)程分為以下4個(gè)步驟:
1) 在大型數(shù)據(jù)集(如:ImageNet[11])上完成卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,確定模型中的可訓(xùn)練參數(shù)(如:W和b);
2) 對(duì)于場(chǎng)景識(shí)別相關(guān)的實(shí)驗(yàn)數(shù)據(jù)集(如:MIT-67[21]),將數(shù)據(jù)集中的訓(xùn)練集和測(cè)試集都通過(guò)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行前向傳導(dǎo),獲取到各自的特征向量,而不對(duì)卷積神經(jīng)網(wǎng)絡(luò)中的訓(xùn)練參數(shù)進(jìn)行更新;
3) 利用場(chǎng)景識(shí)別訓(xùn)練集的特征向量訓(xùn)練多層感知機(jī)(MLP);
4) 將MLP用于場(chǎng)景識(shí)別測(cè)試集的分類,完成場(chǎng)景的識(shí)別任務(wù)。
通過(guò)卷積神經(jīng)網(wǎng)絡(luò)的遷移學(xué)習(xí),在特定數(shù)據(jù)集上完成訓(xùn)練的網(wǎng)絡(luò)模型成為了一個(gè)通用的特征提取器。
基于顯著區(qū)域提取和卷積神經(jīng)網(wǎng)絡(luò)的遷移學(xué)習(xí)方法,本文提出了一個(gè)優(yōu)化的場(chǎng)景識(shí)別策略,目標(biāo)是能夠準(zhǔn)確地完成場(chǎng)景識(shí)別任務(wù)。如圖3所示,本文提出的場(chǎng)景識(shí)別策略主要由多尺度的顯著區(qū)域提取和基于顯著區(qū)域的特征學(xué)習(xí)兩大部分組成。
圖3 優(yōu)化的場(chǎng)景識(shí)別策略
3.1 多尺度顯著區(qū)域的提取
由于視距的不確定性,一個(gè)未知場(chǎng)景中的物體大小也是無(wú)法確定的。不確定的物體大小會(huì)影響到目標(biāo)或者場(chǎng)景識(shí)別的準(zhǔn)確度。本文利用了多尺度的顯著區(qū)域提取策略來(lái)減輕這一問(wèn)題的影響。
針對(duì)一幅場(chǎng)景圖像X,除了場(chǎng)景本身(Q1=X)以外,利用1.2節(jié)中提出的方法分別提取兩個(gè)不同尺度的顯著區(qū)域Q2和Q3。Q1、Q2和Q3組合成為了原本場(chǎng)景的一個(gè)多尺度顯著區(qū)域的表達(dá)。實(shí)驗(yàn)表明,基于多尺度的顯著區(qū)域特征提取相比于單一的尺度顯著區(qū)域特征提取能取得更好的場(chǎng)景識(shí)別準(zhǔn)確度。
3.2 顯著區(qū)域的特征學(xué)習(xí)
對(duì)于提取得到的顯著區(qū)域Q1、Q2和Q3,本文利用了已經(jīng)在大型數(shù)據(jù)庫(kù)上完成訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)對(duì)其進(jìn)行前向傳導(dǎo),分別提取特征U1、U2和U3: g(Q(k);(W, b))表示對(duì)輸入Q(k)進(jìn)行前向傳導(dǎo),而不更新網(wǎng)絡(luò)的訓(xùn)練參數(shù)(W和b)。對(duì)3個(gè)尺度下顯著區(qū)域的特征進(jìn)行相加融合:
式中,W和b通過(guò)在大型圖像數(shù)據(jù)庫(kù)上訓(xùn)練得到;
基于融合后的特征U,本文訓(xùn)練了一個(gè)多層感知機(jī)(MLP)用于預(yù)測(cè)場(chǎng)景類別:,Z是 MLP的輸出,即為針對(duì)場(chǎng)景類別的一個(gè)概率分布。MLP的損失函數(shù)定義為:
式中,Wmlp是MLP的可訓(xùn)練參數(shù)。MLP的訓(xùn)練對(duì)象是場(chǎng)景識(shí)別訓(xùn)練集通過(guò)卷積神經(jīng)網(wǎng)絡(luò)前向傳導(dǎo)后得到的特征向量U。訓(xùn)練過(guò)程采用常用的隨機(jī)梯度下降方法,通過(guò)殘差的反向傳導(dǎo),更新Wmlp的值,以降低整個(gè)網(wǎng)絡(luò)的“損失”(E)。場(chǎng)景最終的類別由預(yù)測(cè)概率最大的類別確定:
為了驗(yàn)證本文提出的場(chǎng)景識(shí)別方法的有效性,選擇在場(chǎng)景識(shí)別領(lǐng)域的基準(zhǔn)測(cè)試數(shù)據(jù)庫(kù)MIT-67[21]和SUN397[1]作為本文的測(cè)試實(shí)驗(yàn)數(shù)據(jù)集。
4.1 實(shí)驗(yàn)配置
為了驗(yàn)證本文方法的泛化能力,本文在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)都使用了同樣的一套參數(shù)和模型:
1) 在顯著區(qū)域的尺度上,選擇原圖(Q1)以及原圖較短邊長(zhǎng)的90%(Q2)和80%(Q3)共3個(gè)尺度。并且,在實(shí)驗(yàn)中針對(duì)單一尺度和多尺度融合的場(chǎng)景識(shí)別效果進(jìn)行比較。
2) 運(yùn)用在ImageNet[11]和Places[22]兩個(gè)大型圖像數(shù)據(jù)庫(kù)上訓(xùn)練得到的卷積神經(jīng)網(wǎng)絡(luò):HBCNN (Hybrid-CNN)[22]。HBCNN采用了經(jīng)典的AlexNet[11]網(wǎng)絡(luò)結(jié)構(gòu),由5個(gè)卷積層和3個(gè)全連接層組成。與AlexNet在ImageNet上訓(xùn)練不同,HBCNN在訓(xùn)練集的選擇上,融合了ImageNet和Places兩個(gè)數(shù)據(jù)集的圖片。ImageNet屬于物體識(shí)別數(shù)據(jù)集,包含1 000種物體類別共150萬(wàn)張圖片。Places屬于場(chǎng)景識(shí)別數(shù)據(jù)集,包含476個(gè)場(chǎng)景類別和700萬(wàn)張圖片。在與場(chǎng)景相關(guān)的大型訓(xùn)練集上的訓(xùn)練保證了HBCNN在后續(xù)相關(guān)實(shí)驗(yàn)數(shù)據(jù)集(MIT-67、SUN397)的遷移學(xué)習(xí)能力。
3) 在特征提取過(guò)程中,輸入HBCNN的圖像均通過(guò)雙線性插值縮放到HBCNN的輸入大小(227×227×3)。輸出方面,采用了HBCNN的“fc8”層的輸出特征,特征的維度是1 183。
4) 多層感知機(jī)(MLP)總共3層,包含輸入層、隱含層和輸出層。輸入層的神經(jīng)元數(shù)量跟提取特征的維度相同,共1 183個(gè)。MLP的隱含層包含512個(gè)神經(jīng)元。MLP的輸出層維度與相應(yīng)測(cè)試數(shù)據(jù)集的場(chǎng)景類別數(shù)量一致,針對(duì)MIT-67數(shù)據(jù)集的MLP輸出層包含67個(gè)神經(jīng)元,而針對(duì)SUN397數(shù)據(jù)集的MLP輸出層包含397個(gè)神經(jīng)元。
5) 將學(xué)習(xí)速率(η)和weight decay(λ)的值分別設(shè)置為1×10?5和5×10?4。對(duì)于η,從1×10?1開(kāi)始進(jìn)行多次試驗(yàn),每次η的取值都是上一次的十分之一,最終選擇了實(shí)驗(yàn)結(jié)果最好的1×10?5。而λ則是基于經(jīng)驗(yàn)值,并未進(jìn)行特別的調(diào)試。
4.2 MIT-67室內(nèi)場(chǎng)景數(shù)據(jù)集測(cè)試
MIT-67數(shù)據(jù)集包含了67種室內(nèi)場(chǎng)景,每種場(chǎng)景100張圖片,共6 700張場(chǎng)景圖片的大小并不完全相同。實(shí)驗(yàn)采用MIT-67數(shù)據(jù)集提供的標(biāo)準(zhǔn)訓(xùn)練集和測(cè)試集劃分??偣舶? 700張圖片的數(shù)據(jù)集中,80%的圖片被劃分為訓(xùn)練集,而測(cè)試集包含了數(shù)據(jù)集中剩余20%的圖片。
如表1所示,本文提出的基于顯著區(qū)域特征學(xué)習(xí)的場(chǎng)景識(shí)別方法相比于傳統(tǒng)的場(chǎng)景識(shí)別算法在場(chǎng)景識(shí)別的準(zhǔn)確度上具有競(jìng)爭(zhēng)力。另外,相比于單一尺度的特征提取,多尺度的顯著區(qū)域的特征融合能夠有效地提高場(chǎng)景識(shí)別的準(zhǔn)確度。
表1 MIT-67場(chǎng)景識(shí)別數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果對(duì)比
4.3 SUN397大型場(chǎng)景識(shí)別數(shù)據(jù)庫(kù)基準(zhǔn)測(cè)試
相比于MIT-67,SUN397是一個(gè)更加大型和完善的場(chǎng)景識(shí)別數(shù)據(jù)集。SUN397總共包含了397種場(chǎng)景,場(chǎng)景類型涵蓋了室內(nèi)和室外的各種環(huán)境。每種場(chǎng)景的圖片數(shù)量與MIT-67一樣是100張圖片,總共39 700張圖片的大小也并不完全相同。實(shí)驗(yàn)依據(jù)SUN397提供的10組訓(xùn)練集和對(duì)應(yīng)測(cè)試集的劃分,每組訓(xùn)練集和測(cè)試集的圖片均是通過(guò)等分整個(gè)數(shù)據(jù)集的圖片而得到。最終的結(jié)果通過(guò)對(duì)10組測(cè)試集上的實(shí)驗(yàn)結(jié)果取平均值獲得。
SUN397數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如圖4所示。GIST、LBP、SIFT、Texton和HOG是基于單一傳統(tǒng)人工設(shè)計(jì)特征的場(chǎng)景識(shí)別準(zhǔn)確率?!癮ll”項(xiàng)表示的是包含了以上單一特征的一系列傳統(tǒng)特征疊加后取得的結(jié)果。從實(shí)驗(yàn)結(jié)果看,本文提出的基于顯著區(qū)域的特征學(xué)習(xí)方法相比于傳統(tǒng)的人工設(shè)計(jì)特征在場(chǎng)景識(shí)別的準(zhǔn)確度上有明顯的提高。另外,多尺度的顯著區(qū)域特征學(xué)習(xí)(Q1-Q3)相對(duì)于基于單一尺度的特征學(xué)習(xí)(Q1, Q2, Q3)在場(chǎng)景識(shí)別的準(zhǔn)確度上取得了更好結(jié)果。這一特點(diǎn)與本文在MIT-67數(shù)據(jù)集上獲得的實(shí)驗(yàn)結(jié)論一致。
圖4 SUN397數(shù)據(jù)集基準(zhǔn)測(cè)試結(jié)果
本文提出的方法雖然在MIT-67和SUN397兩個(gè)常用的場(chǎng)景識(shí)別數(shù)據(jù)集上均取得了良好的實(shí)驗(yàn)效果,證實(shí)了方法的有效性。但是,本文的方法仍然存在一定的改善空間,一些改善思路如下:
1) 采用更好的學(xué)習(xí)特征。近期,文獻(xiàn)[23]利用global average pooling方法[24]結(jié)合GoogLeNet[12]提取場(chǎng)景特征,在MIT-67和SUN397數(shù)據(jù)集上分別取得了66.6%和51.7%的場(chǎng)景識(shí)別準(zhǔn)確度,略高于本文中的65.6%和50.7%的實(shí)驗(yàn)結(jié)果。相比于本文中HBCNN使用的AlexNet結(jié)構(gòu),GoogLeNet的網(wǎng)絡(luò)結(jié)構(gòu)更加優(yōu)化,并且在ImageNet的數(shù)據(jù)集測(cè)試中,GoogLeNet的準(zhǔn)確度(93.3%)遠(yuǎn)高于AlexNet(83.6%),體現(xiàn)出更強(qiáng)的特征提取能力。另外,global average pooling的方法取消了卷積網(wǎng)絡(luò)中的全連接層,直接對(duì)特征圖進(jìn)行下采樣,有效地解決了全連接層的過(guò)擬合問(wèn)題,提高了提取特征的判別和泛化能力。利用判別性能更強(qiáng)的網(wǎng)絡(luò),或者針對(duì)HBCNN在目標(biāo)訓(xùn)練集上進(jìn)行fine-tuning,均有助于進(jìn)一步提高網(wǎng)絡(luò)提取特征的判別性能,是改進(jìn)本文方法的一個(gè)途徑。
2) 多個(gè)顯著區(qū)域特征提取。根據(jù)式(3),本文的方法只提取出一個(gè)尺度下最為顯著的單個(gè)區(qū)域B(amax)的特征。但是,針對(duì)一些較為復(fù)雜的場(chǎng)景條件,其顯著區(qū)域并不止一處。設(shè)計(jì)一種有效的方式來(lái)改進(jìn)顯著區(qū)域的評(píng)價(jià)標(biāo)準(zhǔn),提取場(chǎng)景中可能存在的多個(gè)顯著區(qū)域是改善本文方法的一個(gè)思路。
3) 特征融合方式的改進(jìn)。針對(duì)多尺度顯著區(qū)域的特征,本文采用了簡(jiǎn)單的相加融合方式。針對(duì)多特征的融合,對(duì)各種特征進(jìn)行帶權(quán)值的相加,或者通過(guò)特征拼接后降維,以獲得更具判別性能的特征,都是進(jìn)一步改善實(shí)驗(yàn)結(jié)果的潛在方法。
本文提出了一種基于多尺度顯著區(qū)域特征學(xué)習(xí)的場(chǎng)景識(shí)別方法。該方法通過(guò)在多尺度條件下提取一個(gè)場(chǎng)景的顯著區(qū)域,并且利用卷積神經(jīng)網(wǎng)絡(luò)的遷移學(xué)習(xí)來(lái)提取這些區(qū)域的特征信息,能夠有效地完成場(chǎng)景識(shí)別的任務(wù)?;趫?chǎng)景識(shí)別數(shù)據(jù)庫(kù)的基準(zhǔn)測(cè)試表明,本文提出的方法相比于現(xiàn)有的典型場(chǎng)景識(shí)別方法對(duì)于場(chǎng)景識(shí)別的準(zhǔn)確度有較為明顯的提高。
[1] XIAO J, HAYS J, EHINGER K A, et al. Sun database: Large-scale scene recognition from abbey to zoo[C]//CVPR. San Francisco, USA: IEEE, 2010: 3485-3492.
[2] LAZEBNIK S, SCHIMID C, PONCE J. Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories[C]//CVPR. New York, USA: IEEE, 2006: 2169-2178.
[3] OLIVA A, TORRALBA A. Modeling the shape of the scene: a holistic representation of the spatial envelope[J]. International Journal of Computer Vision, 2001, 42(3): 145-175.
[4] LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110.
[5] XIE L, WANG J, GUO B, et al. Orientational pyramid matching for recognizing indoor scenes[C]//CVPR. Columbus, USA: IEEE, 2014: 3734-3741.
[6] PANDY M, LAZEBNIK S. Scene recognition and weakly supervised object localization with deformable part-based models[C]//ICCV. Barcelona, Spain: IEEE, 2011: 1307-1314.
[7] FELZENSZWALB P F, GIRSHICK R B, MCALLESTER D, et al. Object detection with discriminatively trained part based models[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627-1645.
[8] SINGH S, GUPTA A, EFROS A. Unsupervised discovery of mid-level discriminative patches[C]//ECCV. Florence, Italy: Springer, 2012: 73-86.
[9] ZUO Z, WANG G, SHUAI B, et al. Learning discriminative and shareable features for scene classification[C]//ECCV. Zurich, Switzerland: Springer, 2014: 552-568.
[10] LECUN Y, BENGIO Y, HINTON G E. Deep learning[J]. Nature, 2015, 521: 436-444.
[11] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]//NIPS. Lake Tahoe, USA: MIT Press, 2012: 1106-1114.
[12] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]//CVPR. Boston, USA: IEEE, 2015:1-9.
[13] RAZAVIAN A S, AZIZPOUR H, SULLIVAN J, et al. CNN features off-the-shelf: an astounding baseline for recognition[C]//CVPR Workshops. Columbus, USA: IEEE, 2014: 512-519.
[14] ZEILER M D, FERGUS R. Visualizing and understanding convolutional networks[C]//ECCV. Zurich, Switzerland: Springer, 2014: 818-833.
[15] 莊福振, 羅平, 何清, 等. 遷移學(xué)習(xí)研究進(jìn)展[J]. 軟件學(xué)報(bào), 2015, 26(1): 26-39.
ZHUANG Fu-zhen, LUO Ping, HE Qing, et al. Survey on transfer learning research[J]. Journal of Software, 2015, 26(1): 26-39.
[16] ARBELAEZ P, MAIRE M, FOWLKES C, et al. Contour detection and hierarchical image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(5): 898-916.
[17] ACHANTA R, SHAJI A, SMITH K, et al. SLIC superpixels compared to state-of-the-art superpixel methods[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(11): 2274-2282.
[18] FELZENSZWALB P F, HUTTENLOCHER D P. Efficient graph based image segmentation[J]. International Journal of Computer Vision, 2004, 59: 167-181.
[19] UIJLINGS J, SANDE K, GEVERS T, et al. Selective search for object recognition[J]. International Journal of Computer Vision, 2013, 104(2): 154-171.
[20] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[21] QUATTONI A, TORRALBA A. Recognizing indoor scenes[C]//CVPR. Miami, USA: IEEE, 2009: 413-420.
[22] ZHOU B, LAPEDRIZA A, XIAO J, et al. Learning deep features for scene recognition using places database[C]// NIPS. Montreal, Canada: MIT Press, 2014: 487-495.
[23] ZHOU B, KHOSLA A, LAPEDRIZA A, et al. Learning deep features for discriminative localization[C]//CVPR. Las Vegas, USA: IEEE, 2016: 2921-2929.
[24] LIN M, CHEN Q, YAN S. Network in network[EB/OL]. [2016-12-14]. http://arxiv.org/pdf/1312.4400v3.pdf.
編 輯 稅 紅
Scene Recognition Based on Feature Learning from Multi-Scale Salient Regions
LI Yan-dong, LEI Hang, HAO Zong-bo, and TANG Xue-fei
(School of Information and Software Engineering, University of Electronic Science and Technology of China Chengdu 610054)
Scene recognition is an important and challenging topic in the research filed of high level image understanding. Traditional researches of scene recognition focused on handcrafted features, which result in limited discriminative and generalization ability. In addition, finding regions in a scene with rich information is always very challenging. This paper presents an effective method for scene recognition based on learned features from multi-scale salient regions. The method first finds multi-scale salient regions in a scene and then extracts the features from the regions via transfer learning using convolutional neural networks (ConvNets). Experiments on two popular scene recognition datasets show that our proposed method is effective and has good generalization ability for scene recognition, compared with the benchmarks on both of the datasets.
deep learning; feature learning; scene analysis; scene recognition; transfer learning
TP391.4
A
10.3969/j.issn.1001-0548.2017.03.020
2015 ? 12 ? 28;
2016 ? 05 ? 24
廣東省產(chǎn)學(xué)研項(xiàng)目(M17010601CXY2011057);國(guó)家科技支撐計(jì)劃(2012BAH44F02).
李彥冬(1984 ? ),男,博士生,主要從事機(jī)器學(xué)習(xí)及計(jì)算機(jī)視覺(jué)方面的研究.