劉 凱 汪興海 張 杰
(海軍航空大學(xué)航空基礎(chǔ)學(xué)院 煙臺(tái) 264001)
圖像處理過程中,對圖像特征的提取是最直接的問題,也是后續(xù)進(jìn)行圖像分類、識(shí)別等相關(guān)應(yīng)用的基石[1]。圖像特征提取的好壞,直接關(guān)系到后續(xù)處理的性能。理想的圖像特征應(yīng)包括圖像的全局特征,即顏色、亮度、紋理、形狀等,以及表征圖像細(xì)節(jié)的局部特征。單純依靠某一種特征進(jìn)行圖像分類,其準(zhǔn)確度并不高,原因在于單一的圖像特征只能描述圖像的部分屬性,往往傾向于片面的圖像內(nèi)容,不足以用于后續(xù)的區(qū)別信息處理[2]。同樣地,使用不同方法獲得的不同特征之間往往在圖像的描述上,存在互補(bǔ)關(guān)系。因此,通過一定的信息融合方法對基于不同物理特性獲取的圖像特征進(jìn)行融合、萃取,往往能使得后續(xù)圖像處理任務(wù)取得更優(yōu)異的性能;這已經(jīng)文獻(xiàn)[3~4]證明過了。
圖像的顏色特征是面向圖像最低級(jí)別、基礎(chǔ)的全局描述符,這是對圖像區(qū)域的表明性質(zhì)進(jìn)行衡量。相較于其他圖像特征,圖像的顏色特征對原始圖像中經(jīng)常存在的噪聲、圖像尺寸變化、旋轉(zhuǎn)以及平移等現(xiàn)象具有較強(qiáng)的健壯性,與此同時(shí),圖像的顏色特征計(jì)算方法簡便,也是圖像處理中被廣泛使用的一種視覺特征;但是鑒于顏色是對圖像全面特征的描述,因此對于圖像中顯著目標(biāo)的描述性不足,缺乏對圖像局部細(xì)節(jié)的刻畫。SIFT特征描述符是由Lowe于2004年完善總結(jié)的局部特征。相較于以往圖像特征,SIFT特征最大的優(yōu)點(diǎn)在于能夠有效克服圖像尺度、旋轉(zhuǎn)的變化,已經(jīng)被廣泛應(yīng)用于圖像拼接、檢索等領(lǐng)域;但SIFT依賴于圖像局部區(qū)域的像素極值特性,對全局特征明顯的圖像描述能力不強(qiáng),并且忽略了圖像的色彩信息。
2006年Hinton在[5]建立了第一個(gè)標(biāo)志性的深度學(xué)習(xí)機(jī)制,提出深度學(xué)習(xí)的概念。使用深度學(xué)習(xí)技術(shù)進(jìn)行知識(shí)推理相關(guān)的研究可以有效地解決構(gòu)建模型所需的難題。它已被廣泛應(yīng)用于各個(gè)領(lǐng)域,如數(shù)據(jù)降維[6]、語音識(shí)別[7]、3D物體識(shí)別[8]以及圖像轉(zhuǎn)換[9]等。尤其是 Salakhutdinov在[10]中設(shè)計(jì)了基于深度玻爾茲曼機(jī)(Deep Boltzmann Machine,DBM)的多模型特征提取方法,解決了文本信息與圖像信息聯(lián)合抽象概念的提取問題,為多源信息的融合提供了一種新的解決方案。
由于SIFT特征和顏色特征描述了不同角度下具有良好互補(bǔ)性的圖像性質(zhì),因此本文提出一種基于深度玻爾茲曼機(jī)的顏色特征與SIFT特征相融合的方法。首先提取圖像的SIFT特征,并使用詞袋模型獲得基于視覺詞匯統(tǒng)計(jì)頻率的直方圖;其次針對圖像RGB變化,提取圖像全局顏色特征直方圖;隨后利用不同的受限玻爾茲曼機(jī)得到相應(yīng)的中間特征,最后通過構(gòu)建深度學(xué)習(xí)模型DBM進(jìn)行高層特征融合,形成具有更強(qiáng)區(qū)分性的圖像新特征。經(jīng)過Corel圖像實(shí)驗(yàn)結(jié)果驗(yàn)證,所提出的深度學(xué)習(xí)圖像特征融合方法能夠有效結(jié)合單一特征的優(yōu)點(diǎn),克服其缺陷,最終可提高圖像分類準(zhǔn)確度。
SIFT是一種用于提取圖像的局部特征的方法。并將該向量作為特征點(diǎn)的SIFT特征。具體思路為,首先基于多尺度空間對圖像的極值點(diǎn)進(jìn)行檢測,其次在極值點(diǎn)中篩選特征點(diǎn),隨后依據(jù)臨近點(diǎn)圖像梯度變化,確定特征點(diǎn)方向,最后圍棋生成描述符。通常情況下,每一幅圖像將表示為N個(gè)128維的SIFT圖像特征矢量。
由于在不同圖像中提取的局部特征的數(shù)量趨于不同,并且高維局部特征向量不便于存儲(chǔ)和后續(xù)計(jì)算,因此,Li Fei Fe等學(xué)者提出了詞袋(BOW)的特征表達(dá)?;舅枷霝?,將圖像的SIFT局部特征映射到填充有視覺詞的單詞包中,以此實(shí)現(xiàn)將高維度局部特征向低維空間的映射,最終獲得對應(yīng)于圖像SIFT局部特征的編碼。該方法不僅可以解決圖像局部特征不均勻的問題,而且方便快捷,訓(xùn)練分類速度快,現(xiàn)在已廣泛用于圖像分類和檢索。
對于顏色特征的提取,通常采用顏色直方圖實(shí)現(xiàn)高維信息向低維顏色空間的映射。由于HSV顏色空間對圖像的亮度和彩色信息不敏感,并且與人感知彩色的方式相通,因此通常選擇在HSV顏色空間實(shí)現(xiàn)直方圖統(tǒng)計(jì)[11]。
如果使用真彩色直接提取圖像的顏色特征,將導(dǎo)致特征計(jì)算量和存儲(chǔ)空間太大,因此需要非等間隔量化HSV的三個(gè)分量(色調(diào)H、飽和度S、亮度V)。其中H量化為8份,S和V分別量化為3份,具體描述如下所示。
按照所設(shè)定的顏色量化等級(jí),圖像的色調(diào)H、飽和度S和亮度V三個(gè)變量被計(jì)算為一維特征向量,如式(1)所示。
由式(1)可知,Q的范圍為[ ]0,1,…,71。通過提取圖像顏色特征,將一幅圖像變?yōu)橐粋€(gè)72子區(qū)的顏色直方圖。
受限玻爾茲曼機(jī)(Restricted Boltzmann Ma?chines,RBMs)是一種層內(nèi)單元無連接、層間單元全連接的玻爾茲曼機(jī),也可稱為雙向馬爾科夫隨機(jī)場(MRF),其網(wǎng)絡(luò)連接如圖1所示。
圖1 RBM單元連接圖
對于包含N個(gè)二值可視單元和M個(gè)二值隱單元的RBM,其能量函數(shù)如式(2)所示。
式中:Wij表示可視單元i與隱單元 j間連接的權(quán)值,cj表示可視單元i偏移量,cj表示隱單元 j偏移量。
如果RBM模型的可見元素符合高斯分布,則稱該模型為高斯受限玻爾茲曼機(jī)(Gaussian RBM,GRBM),即 v∈?N同時(shí) h∈{0 ,1}M則GRBM處于狀態(tài)(v ,h)的概率如式(3)所示。
Salakhutdinov提出了 RSM(Replicated Soft Model),它基于RBM并通過將它們設(shè)置為多分布數(shù)據(jù)來提取隱單元信息,以實(shí)現(xiàn)了文本的有效表示。在RSM中,每個(gè)文本被設(shè)置為RBM的訓(xùn)練樣本,設(shè)定v∈{1 ,…,K}D,K是詞匯單詞的數(shù)量,D是文本大小,隱單元h∈{0 ,1}F代表文本潛在的語義。因此,可見層是K×D二值矩陣(vik=1表示出現(xiàn)在可見單元i位置的是第k個(gè)詞匯),其能量形式如式(4)所示。
深度學(xué)習(xí)是一種神經(jīng)網(wǎng)絡(luò),可以建立和模擬人腦進(jìn)行分析學(xué)習(xí)。該模型通過對低層特征進(jìn)行組合,從而形成屬性類別或特征的抽象高層表示,進(jìn)而發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。其表現(xiàn)形式為,模型往往具有包含多個(gè)隱藏層的感知器結(jié)構(gòu)。深度玻爾茲曼機(jī)由多層RBM疊加。以包含兩層隱單元的DBM為例,其能量形式如式(7)所示(為方便顯示,忽略掉模型中單元的偏置)。
通過對RBM及其派生模型的介紹和DBM構(gòu)造機(jī)制的分析,依據(jù)詞袋模型和對圖像提取出的顏色直方圖特征,構(gòu)造了一種能夠融合、提取多源特征的深度玻爾茲曼機(jī)模型,其結(jié)構(gòu)如圖2所示。其中vBOG
代表圖像的視覺詞匯表示,vHSV代表圖像的HSV顏色直方圖特征向量,兩種特征分別通過RSM和GRBM提取中間層隱單元特征,然后通過疊加一層二值隱單元實(shí)現(xiàn)兩種特征向量的融合。
圖2 融合多源特征的深度玻爾茲曼機(jī)結(jié)構(gòu)
深度玻爾茲曼機(jī)的訓(xùn)練主要分為兩部分。首先,深層網(wǎng)絡(luò)中的RBM模型由貪婪算法(Greedy Layerwise Pretraining)逐層訓(xùn)練,從模型結(jié)構(gòu)中可以看出中間層單元的激活概率受上層和下層單元的影響。因此,當(dāng)執(zhí)行RBM訓(xùn)練時(shí),在計(jì)算隱藏單元激活概率時(shí)候,應(yīng)當(dāng)將對應(yīng)于深層網(wǎng)絡(luò)中間層的隱藏單元激活概率加倍,以補(bǔ)償真實(shí)模型中其余層的缺失;然后利用平均場估計(jì)對整個(gè)模型進(jìn)行精調(diào)。
1)初始化CD算法
通過使用最大似然規(guī)則,最大化訓(xùn)練數(shù)據(jù)的發(fā)生概率來執(zhí)行RBM訓(xùn)練。
由于深度模型中間層單元與相鄰兩層是雙向連接的,因此在對RBM進(jìn)行訓(xùn)練時(shí)需要考慮到上層或者下層單元對隱單元的影響。對于基礎(chǔ)RBM訓(xùn)練,隱單元的后驗(yàn)激活概率如式(14)、(15)所示。
2)平均場估計(jì)
平均場估計(jì)的核心思想就是利用平均作用效果代替?zhèn)€體間相互作用的總效果。在Welling論文[12]中將平均場估計(jì)應(yīng)用到玻爾茲曼機(jī)的訓(xùn)練中,并將其推廣到了RBM,其流程如下所示。
(1)給定訓(xùn)練數(shù)據(jù),并依據(jù)式(14)、(15)計(jì)算中間層單元后驗(yàn)激活概率;
(2)根據(jù)(1)結(jié)果,依據(jù)式(13)計(jì)算頂層隱單元后驗(yàn)激活概率;
(3)根據(jù)(2)結(jié)果,依據(jù)式(16)、(17)重新計(jì)算中間層單元后驗(yàn)激活概率;
(4)重復(fù)(2)(3),直至前后兩次循環(huán)單元后驗(yàn)激活概率收斂,單元概率并作為式(17)中的posi?tive phase;
(5)隨機(jī)初始化訓(xùn)練數(shù)據(jù),執(zhí)行(1)~(4)操作,單元概率作為式(17)中的negative phase;
(6)執(zhí)行CD算法。
實(shí)驗(yàn)采用Corel圖像庫進(jìn)行模型驗(yàn)證。該數(shù)據(jù)庫由10種類型的圖像組成,每種圖像均包含100幅圖像,總共1000幅圖像作為實(shí)驗(yàn)數(shù)據(jù)。為了測試深度玻爾茲曼機(jī)在圖像多源特征融合中的性能,從每種圖像中隨機(jī)選取70幅圖像作為訓(xùn)練樣本,其余用作實(shí)驗(yàn)測試集。
在實(shí)驗(yàn)中,DBM由三級(jí)RBM組成,分別為:提取BOG特征的RSM、提取HSV特征的GRBM以及融合兩種底層特征的頂層RBM。設(shè)置BOG中視覺字典詞匯量K=1000,詞匯分配方式為K-means聚類。所有RBM的學(xué)習(xí)速率η=0.01,循環(huán)迭代次數(shù)不超過2000。
實(shí)驗(yàn)選用10個(gè)種類平均識(shí)別率作為模型衡量標(biāo)準(zhǔn),實(shí)驗(yàn)結(jié)果如圖3所示。
圖3 RSM與GRBM平均識(shí)別率
從圖3可以看出,對于GRBM,隱單元個(gè)數(shù)設(shè)置為180,RSM隱單元個(gè)數(shù)設(shè)置為200,融合隱單元個(gè)數(shù)為100效果最好。在完成圖像特征提取以后,徑向基函數(shù)(RBF)被用作核函數(shù)的支持向量機(jī)(SVM)為最終分類器。
為有效測試本文算法,分別進(jìn)行以下3種測試:
1)直接使用BOG特征作為圖像的特征描述向量進(jìn)行分類檢驗(yàn);
2)直接使用HSV特征作為圖像的特征描述向量進(jìn)行分類檢驗(yàn);
3)本文提出的DBM融合BOG特征和HSV特征后,使用DBM高層隱單元向量進(jìn)行分類檢驗(yàn)。
表1 Corel圖像庫識(shí)別準(zhǔn)確度
通過表1可以得出,對于細(xì)節(jié)特征較為相似的花、食物和公共汽車,BOG特征能夠達(dá)到較高的準(zhǔn)確度,但對于建筑和食物,其效果不如HSV,原因在于這兩種圖像同類之間的細(xì)節(jié)并不類似;對于同類顏色特征較為相似的人、海灘,HSV特征識(shí)別效果最好,但是由于花這類圖像顏色相差最大,因此對于花的識(shí)別準(zhǔn)確度最低。從表1的第三行數(shù)據(jù)可以看出,經(jīng)過DBM融合后的特征能夠較好地實(shí)現(xiàn)BOG特征和HSV特征的互補(bǔ),對圖像識(shí)別的影響優(yōu)于單獨(dú)使用上述任一特征。
本文提出了圖像領(lǐng)域中一種基于深度玻爾茲曼機(jī)的多源特征融合機(jī)制,并以SIFT和HSV兩種圖像不同層面特征為例進(jìn)行了融合實(shí)驗(yàn)。由于SIFT算法具有良好的局部關(guān)鍵點(diǎn)描述能力和顏色直方圖能夠有效表示的圖像全局表面性質(zhì),這保證了兩種圖像特征的互補(bǔ)性;該融合機(jī)制分別采用RSM和GRBM實(shí)現(xiàn)兩種不同數(shù)據(jù)概率分布的特征高層次提??;通過增加頂層RBM結(jié)構(gòu)構(gòu)建深度玻爾茲曼機(jī),實(shí)現(xiàn)了兩種特征的無監(jiān)督融合。對Corel圖像庫進(jìn)行的分類識(shí)別實(shí)驗(yàn)中,證明了經(jīng)過深度玻爾茲曼機(jī)融合的圖像特征其分類性能要優(yōu)于單純一種特征,而且由于訓(xùn)練過程是無監(jiān)督訓(xùn)練,因此更加適合于大規(guī)模的圖像識(shí)別任務(wù)。未來的工作應(yīng)當(dāng)繼續(xù)嘗試將更多的圖像特征與深度玻爾茲曼機(jī)相結(jié)合,將深度學(xué)習(xí)模型應(yīng)用到更多的方面。