融合語義與圖像的大規(guī)模圖像集檢索算法

2019-08-17 07:39:56解姍姍神顯豪

重慶理工大學學報(自然科學) 2019年7期

解姍姍,神顯豪

(1.閩南理工學院信息管理學院, 福建石獅 362700；2.桂林理工大學信息科學與工程學院，廣西桂林 541004)

隨著移動互聯(lián)網(wǎng)的飛速發(fā)展以及社交媒體的普及，社交媒體的用戶每天上傳數(shù)以億計的新圖片，導致從海量的圖像數(shù)據(jù)集中準確搜索出目標圖像成為了巨大的挑戰(zhàn)[1-2]。目前主流的圖像檢索技術(shù)主要分為基于文字檢索(text-based image retrieval,TBIR)[3]、基于圖像內(nèi)容檢索(content-based image retrieval,CBIR)[4]兩種方案。CBIR方案提取圖像的視覺特征，通過視覺特征匹配出相似的圖像。CBIR技術(shù)的檢索準確率較高，但是“語義鴻溝”是CBIR技術(shù)一個難以解決的問題[5]。TBIR技術(shù)基于圖像的標注信息匹配相似的圖像，但一般需要人工完成圖像的標注任務，而海量的社交圖像集難以通過人工實現(xiàn)對圖像的標注[6]。兩種圖像檢索技術(shù)均具有顯著的優(yōu)勢，同時也具有明顯的缺陷。

為了提高海量圖像數(shù)據(jù)庫的檢索效果，研究人員考慮融合CBIR與TBIR兩種技術(shù)以實現(xiàn)互補的效果[7-8]。文獻[9]設(shè)計了一種基于文本和視覺內(nèi)容的圖像檢索算法，該算法采用稠密的尺度不變特征轉(zhuǎn)換構(gòu)造視覺單詞的方式描述圖像的內(nèi)容，依據(jù)基于概率潛在語義分析模型的圖像自動標注方法獲取的視覺語義對圖像進行查詢。文獻[10]提出了一種新的混合圖像檢索技術(shù)，該算法主要分為2個階段：首先得到分類完成的圖庫、概率分配參數(shù)表和基本詞庫，然后在該類下搜索最相似圖片。該算法在檢索之前將圖片庫中所有圖片按其本身特征進行自動分類，取代人工標注圖像信息的過程。文獻[9-10]參考人工標注或者從Web提取相關(guān)的文字信息，限制了檢索算法的性能。文獻[11]提出一種混合的圖像檢索算法，該算法采用語義標注信息、Gabor小波特征以及顏色特征，有效地提高了圖像檢索算法的魯棒性，但是特征量較大，難以應用于海量數(shù)據(jù)集。

大多數(shù)圖像檢索算法采用人工標注或從Web提取相關(guān)的標注信息，降低了檢索算法的準確率。實際情況中社交媒體圖像的標注信息大多不完整，并且存在噪聲，導致圖像檢索的精度不足。為了解決上述問題，本文設(shè)計了一種混合的圖像檢索算法，該算法能夠自動關(guān)聯(lián)圖像的視覺內(nèi)容與文字標注，有效地提高了圖像檢索的效率。首先，將圖像建模為局部特征集，將特征量化為視覺詞匯集。然后，設(shè)計了基于概率的主題模型(probabilistic fusion topic model,PFTM)，根據(jù)共生的標注信息與視覺特征提取圖像的語義主題。本文的主題模型中基于視覺特征生成的最近主題能夠有效地增強圖像與文字標注之間的相關(guān)性，并構(gòu)建視覺特征中空間位置與顏色之間的關(guān)系。此外，主題模型能夠有效地補全缺失的文字標注信息，同時刪除噪聲標注。主題模型保證了圖像標注的完整性，有助于提高檢索結(jié)果的準確性。

1 基本結(jié)構(gòu)

本方法的基本架構(gòu)如圖1所示，主要由離線階段與線上階段兩部分組成。離線階段提取每個社交圖像的主題，補全缺失的文字標注，刪除噪聲標注。從訓練圖像集學習PFTM模型的模型參數(shù)，通過搜索圖像視覺特征與文字標注的共生模式，將主題建模為關(guān)于視覺特征與文字標注的兩個分布。如果圖像的視覺特征(空間位置與顏色特征)較為接近，那么將圖像分為相同的主題，因此學習的模型參數(shù)僅反映了標注與視覺特征之間的相關(guān)性。在線上階段，采用離線學習的PFTM模型來加速圖像搜索的過程。系統(tǒng)的查詢可以是圖像、關(guān)鍵詞或者兩者的組合。

圖1 本算法離線、線上階段的流程

1.1 特征提取與問題模型

1.1.1特征提取

1.1.2問題模型

1.2 特征相關(guān)的主題模型

PFTM模型是一種多實體數(shù)據(jù)的生成模型，社交圖像是視覺詞匯與文字詞匯的組合，屬于一種多實體數(shù)據(jù)。本文的主題模型表示為流程圖模型，如圖3所示。

圖3 主題模型的流程框圖

圖3顯示，給定一個包含D個圖像的集合，每個圖像Id由Nd個視覺詞匯與Md個文字標注詞匯組成。使用最近的變量(zdi)來表征主題，主題z表示與每個視覺特征語義相關(guān)的主題。將圖像表示為T個主題的組合，每個主題建模為視覺詞匯與標注詞匯的兩個分布，假設(shè)視覺詞匯與標注詞匯的大小分別為v與w。文字主題是主題z的一部分，PFTM模型直接使用最近的視覺詞匯主題生成文字詞匯。根據(jù)圖4的模型，vdi與wdj是兩個顯變量，引入新的顯變量fdi表示第i個patch的特征。圖像語料庫的PFTM模型主要流程如算法1描述。

算法1 圖像語料庫的PFTM模型foreach 主題t: 計算視覺分布?1,t～Dir(β1); 計算文字分布?2,t～Dir(β2);foreach圖像Id: 計算主題傳播概率θd～Dir(α);foreach 主題t;計算局部的特征分布:{μtd,Λtd} ～ NW(μ0,κ,v,Q);foreach 視覺詞匯vdi: 計算主題zdi～Multi(θd); 計算視覺詞匯vdi～Multi(?1,zdi); 計算局部向量fdi～N(μdzdi,Α-1dzdi);foreach 標注詞匯wdj 計算主題ydj～Unif(z1,…,zNd); 計算文字詞匯wdj～Multi(?2,ydj);

此處dir、multi、n與nw分別表示狄利克雷分布、多項式分布、正態(tài)分布以及正態(tài)-Wishart分布。優(yōu)先選擇多項式分布與正態(tài)-Wishart分布分別表示標注分布與位置分布，原因在于這兩個分布的計算簡單且效率高。本模型采用了視覺實體與文字標注實體。視覺詞匯與文字詞匯是離散隨機變量，因此服從多項式分布；區(qū)域特征是實數(shù)向量形式，因此服從正態(tài)分布。

PFTM模型支持先驗信息，由圖像視覺內(nèi)容的貝葉斯先驗與實體之間的關(guān)系實現(xiàn)。在PFTM處理步驟中，圖像d的每個主題t表示為1個區(qū)域特征分布p(μtd,Λtd)，以及1個視覺詞匯的概率分布Φt。設(shè)置每個圖像的區(qū)域特征分布p(μtd,Λtd)具有獨立性，而不同圖像之間共享視覺詞匯分布信息Φ1,t。不同圖像的目標形狀特征Φ1,t較為相似，目標的位置分布與顏色分布則相差較大，所以將不同圖像的p(μtd,Λtd)設(shè)為獨立信息。圖像中視覺詞匯的關(guān)系編碼為參數(shù)μtd與Λtd，主題t的視覺詞匯接近分布p(μtd,Λtd)的期望值。文字主題y通過均勻分布與1個視覺主題z相關(guān)聯(lián)，然后根據(jù)主題分布Multi(Φ2)生成文字詞匯。通過該方法加強了視覺詞匯與文字詞匯之間的相關(guān)性。

1.3 主題模型的學習方法

通過有效的學習方法實現(xiàn)對PFTM模型的參數(shù)估計。假設(shè)Π={α,β1,β2,μ,κ,v,Q}是超參數(shù)(hyper parameters)集合，給定一個共有D個圖像的訓練集B，模型參數(shù)包括視覺主題分布Φ1與文字主題分布Φ2，其估計方法為最大化式(1)的對數(shù)似然方程。

(1)

采用Monte Carlo EM算法對模型參數(shù)進行估計，算法流程如算法2描述。

算法2 主題模型的參數(shù)估計算法輸入:圖像數(shù)據(jù)語料庫{vd,fd,wd}Dd=1,由視覺詞袋、區(qū)域特征以及文字詞匯組成。輸出:估計的模型參數(shù)Φ1,Φ2。1.初始化參數(shù)集{Φ(0)1,Φ(0)2}2.foreach k=1,…,K do:3.給定Φ(k-1)1,每個圖像為Id,使用式(2)計算視覺主題 p(zd| vd,fd,yd,Π)后驗分布的采樣。4.給定Φ(k-1)2,每個圖像為Id,使用式(3)計算文字主題 p(yd| wd,zd,Π)后驗分布的采樣。5.使用式(5)(6)計算{Φ(k)1,Φ(k)2}6.endfor

算法2實現(xiàn)了模型參數(shù)的近似估計，然后通過檢查后驗樣本估計出模型的參數(shù)。具體采用Gibbs采樣算法分別采樣視覺詞匯v與文字詞匯w的最近變量z與y，定義為式(2)(3)。

(2)

(3)

在采樣迭代之后，使用最近變量的后驗樣本迭代地估計Φ1與Φ2兩個參數(shù)，直至達到收斂。主題-視覺詞匯的后驗多項式分布計算見式(4)。

(4)

(5)

與之相似，文字主題分布的估計方法如式(6)所示。

(6)

1.4 訓練數(shù)據(jù)集的標注完整性檢查

式(2)(3)中對標注完整性進行了處理，補全缺失的標注并刪除噪聲標注。式(2)的第1項是視覺詞匯v分配到主題t的概率，第2、3項分別是主題t關(guān)于區(qū)域特征與視覺詞匯的概率。因此，增強了同一圖像中共生的視覺詞匯，通過將區(qū)域特征分配至同一個主題實現(xiàn)兩者之間的關(guān)聯(lián)。式(2)的最后一項是文字詞匯的分配概率。最終，與主題t頻繁共同出現(xiàn)的人工標注優(yōu)先分配至該主題，根據(jù)各個圖像提取的主題可以有效地預測丟失的標注。式(3)度量了文字詞匯分配至主題t的概率，其中第1項是文字詞匯w分配至主題t在全部數(shù)據(jù)集中的概率，第2項表示主題t在圖像d中的比例。人工標注導致的噪聲詞匯極少出現(xiàn)在圖像數(shù)據(jù)庫中，因此將噪聲詞匯w分配至主題t的概率極低。如果主題t支配圖像d，此時文字詞匯分配至主題t的概率較高。綜上所述，因為噪聲詞匯的比重遠低于語義相關(guān)的詞匯，所以采用分配概率即可直接地解決標注完整性的問題。

1.5 未知圖像與標注預測

未知圖像預測的目標是推導未知圖像Id′的最近變量。未知圖像的預測過程與本文1.3小節(jié)的參數(shù)預測過程相似，修改式(2)(3)的第1項，單獨考慮每個未知圖像。未知圖像的預測方法如式(7)(8)所示。

(7)

(8)

基于feacorrlda模型以及估計的模型參數(shù)，提出了標注相關(guān)性的估計算法，如算法3所示。

算法3 主題模型的標注相關(guān)性輸入:未知圖像{vd′,fd′,wd′}Dd=1,由視覺詞袋、區(qū)域特征以及文字詞匯組成。算法1學習的參數(shù)Φ1,Φ2。輸出:標注相關(guān)性概率P(w|vd′, fd′,Φ1,Φ2)1.使用式(7)計算視覺主題p(zd′|vd′, fd′,yd′,Π)后驗分布的采樣。2.使用式(8)計算文字主題p(yd′|wd′,zd′,Π)后驗分布的采樣。3.使用式(9)計算P(w|vd′, fd′,Φ1,Φ2)。

標注w對圖像Id′的相關(guān)性計算為區(qū)域特征fd′、視覺詞匯vd′以及訓練集B估計所估計參數(shù)的條件概率。具體計算見下式：

P(w|Id′,B)=P(w|vd′,fd,Φ1,Φ2)=

(9)

1.6 基于標注與視覺特征的相似性度量

給定一個標注，之前基于文字的方法僅使用標注信息完成圖像的檢索任務。本文采用基于Fisher向量的視覺內(nèi)容信息，使用GMM將圖像的全部局部特征收集至一個全局向量中，該編碼技術(shù)顯示了較好的性能。

根據(jù)本文1.1小節(jié)的內(nèi)容，一個圖像由SFIT描述符與hue描述符兩種特征組成。文獻[10]顯示組合兩種特征能夠有效地提高圖像檢索的性能。Fisher向量u計算方法見式(10)～(12)。

(10)

(11)

(12)

(13)

給定一個查詢圖像Iq與數(shù)據(jù)庫圖像Id，假設(shè)兩個圖像的視覺特征分別為uq與ud。假設(shè)rq與rd是兩個W維度的向量，分別表示圖像Iq與Id的文字信息。查詢圖像與數(shù)據(jù)庫圖像的相似性度量方程為

S(q,d)=(1-ρ)uqud+ρrqrd

(14)

式中：第1項對應視覺相似性；第2項對應文字相似性；ρ控制兩者之間的重要性，如果查詢是關(guān)鍵字，那么將ρ設(shè)為1，如果查詢是圖像，那么將ρ設(shè)為0。將數(shù)據(jù)庫所有圖像按照相似性評分排序，選擇最相關(guān)的圖像返回給用戶。

2 仿真實驗與結(jié)果分析

2.1 數(shù)據(jù)集與參數(shù)設(shè)置

2.1.1實驗數(shù)據(jù)集

為了全面地評估算法的性能，采用3個不同規(guī)模的benchmark數(shù)據(jù)集。3個數(shù)據(jù)集的基本信息為：LABELME數(shù)據(jù)集是一個小規(guī)模數(shù)據(jù)集，樣本數(shù)量為2 920，標注詞匯量為490，標注量均值為11；IAPR TC12數(shù)據(jù)集是一個中等數(shù)據(jù)集，樣本數(shù)量為 19 805，標注詞匯量為291，標注量均值為5.7；NUS-WIDE數(shù)據(jù)集是一個大規(guī)模數(shù)據(jù)集，樣本數(shù)量為 237 131，標注詞匯量為1 000，標注量均值為6.5。表1所示是3個數(shù)據(jù)集的基本信息。

表1 3個數(shù)據(jù)集的基本信息

2.1.2實驗環(huán)境與參數(shù)設(shè)置

采用DoG(difference of gaussian)尋找圖像的顯著點。在計算每個圖像patch hue描述符的過程中，將hue直方圖的bin數(shù)量設(shè)為15，因此，HueSIFT描述符的維度為dimHS=128+15=143。Fisher向量的維度為dimFV=2×K×dimHS=18 304，K=64是高斯分量的數(shù)量。Fisher向量的維度過高，空間復雜度較高，因此采用PCA技術(shù)將描述符降為1 024維。所有數(shù)據(jù)集的視覺詞匯大小V設(shè)為2 000。

2.1.3主題學習實驗

模型的參數(shù)分別設(shè)置為：α=0.2，β1=0.01，β2=0.1。采用對數(shù)似然評估兩個模型的學習能力，該指標反映了主題模型的擬合效果。對數(shù)似然值越高，說明模型的學習能力越強。在本文 1.2節(jié)中，通過視覺特征產(chǎn)生了最近的主題，兩個模型視覺詞匯的邊緣似然P(v|z)可用下式計算：

(15)

可看出主題數(shù)量T對學習性能具有高度的影響力，因此在訓練階段需要估計最大化似然的理想T值。

在適量的預處理實驗之后，分別選擇120、140、180作為IAPR TC12、LABELME、NUS-WIDE三個數(shù)據(jù)集的最優(yōu)T值。這3個值使3個數(shù)據(jù)集分別實現(xiàn)了最佳的對數(shù)似然值。

2.1.4圖像標注與語義圖像檢索實驗

采用平均精度與平均召回率評估圖像標注的實驗結(jié)果，每個測試圖像的精度與召回率基于相關(guān)標注與正定值計算。然后，計算所有測試圖像的平均值，使用平均精度定量地評估各個檢索算法的檢索性能。首先，計算單個查詢的平均精度，即精度-召回率曲線的下方區(qū)域；然后，統(tǒng)計所有查詢的平均值作為檢索性能的最終結(jié)果。

為了綜合地評價本算法的性能，將本算法與其他同類型的算法進行對比實驗，對比算法分別為ROF[12]、NITCM[13]、PMFSVN[14]、ITARR[15]、ITRII[16]。

2.2 主題學習實驗

首先通過實驗評估主題模型學習的性能，在離線階段采用Gibbs采樣對訓練數(shù)據(jù)集采樣。觀察主題模型的收斂性，使用IAPR TC12數(shù)據(jù)集作為訓練集，該數(shù)據(jù)集共有100個主題，算法共運行100次迭代。圖4所示是收斂實驗的曲線圖，可看出模型大約在60次時完成收斂。

表2所示是本模型對NUS-WIDE數(shù)據(jù)集提取的一部分主題，每個主題列出了排名最高的標注。主題3對應“pet”，主題96對應“color”，主題57對應“season”。從表2中可看出：使用主題模型能夠緩解圖像標注的語義鴻溝，本模型有效地提高了標注詞匯的語義相關(guān)性，并且刪除了噪聲詞匯。

圖4 收斂實驗的曲線

主題3主題96主題57主題25主題88主題9DogYellowWinterArchitecturePeopleTree PetOrangeSnowBuildingMenGreen CatColorsIceTowerWomenNatureAnimalGoldColdWindowFriendBranchPuppyRedFrozenGlassAdultLeavesFriendBlueSkiingStructureBoyForest

2.3 圖像檢索實驗

圖像檢索實驗中，將每個數(shù)據(jù)集包括訓練與測試圖像作為數(shù)據(jù)庫圖像。為了模擬社交圖像檢索的實際情況，創(chuàng)建了一個查詢集合，包括關(guān)鍵詞查詢與圖像查詢兩種。

2.3.1關(guān)鍵詞查詢的圖像檢索實驗

本文測試了單一關(guān)鍵詞與復合關(guān)鍵詞兩種查詢的檢索性能。對于單一的關(guān)鍵詞查詢，對IAPR TC12、NUS-WIDE兩個數(shù)據(jù)集分別構(gòu)建了490、291個查詢測試例。對于復合關(guān)鍵詞查詢，對IAPR TC12、LABELME、NUS-WIDE三個數(shù)據(jù)集分別構(gòu)建了219、126、523個查詢測試例。對部分數(shù)據(jù)庫圖像進行圖像標注與標簽補全處理。

圖5所示是單一關(guān)鍵詞查詢的圖像檢索結(jié)果。受益于本文主題模型中結(jié)合了詞匯特征與視覺特征，本算法對于3個數(shù)據(jù)集的結(jié)果均優(yōu)于其他5種圖像檢索算法。

圖6所示是多個關(guān)鍵詞查詢的圖像檢索結(jié)果，5個算法的性能均低于單一關(guān)鍵詞查詢的結(jié)果。但是受益于本文主題模型中結(jié)合了詞匯特征與視覺特征，本算法對于3個數(shù)據(jù)集的結(jié)果依然優(yōu)于其他5種圖像檢索算法。

圖5 單一關(guān)鍵詞查詢的圖像檢索結(jié)果

圖6 多個關(guān)鍵詞查詢的圖像檢索結(jié)果

2.3.2圖像查詢的圖像檢索實驗

從每個benchmark數(shù)據(jù)集隨機地選擇一個圖像子集作為查詢圖像，其中從labelme數(shù)據(jù)集、IAPR TC12數(shù)據(jù)集、NUS-WIDE數(shù)據(jù)集分別選擇了100、200、500個查詢圖像。通過人工對每個查詢圖像進行標注。

對于已有的方法，程序檢索一個相關(guān)圖像的列表相似于圖像注釋的程序。尤其是給出一個圖像沒有標簽，本文預測一定量的標簽反映圖像的內(nèi)容。首先，測試式(14)的ρ參數(shù)對檢索性能的影響，通過3個數(shù)據(jù)集測試ρ在[0,1]區(qū)間的性能，結(jié)果如圖7所示。對于LABELME、IAPR TC12與NUS-WIDE三個數(shù)據(jù)集，ρ的最優(yōu)值分別為0.4、0.6、0.7。

圖8為6個檢索算法對3個數(shù)據(jù)集的檢索結(jié)果。圖8中，ROF與NITCM均表現(xiàn)出略低的性能，這兩種算法的視覺特征中并未考慮顏色特征與空間位置特征，因此檢索的準確率較低。PMFSVN、ITARR、ITRII與本算法的性能極為接近，這3種算法均考慮了全面的視覺特征，但是文字標注的噪聲部分未能實現(xiàn)較好的消除，影響了圖像檢索的準確性。本算法使用了不同類型的圖像表示，包括BoV詞袋、fisher向量。本算法對Fisher向量進行了有效的改進，使得本算法優(yōu)于基于大邊界的圖像標注方法(ITRII算法)。

圖7 ρ參數(shù)對于3個數(shù)據(jù)集平均檢索性能的影響

圖8 圖像查詢的實驗結(jié)果

采用關(guān)鍵詞與圖像聯(lián)合查詢評估圖像檢索系統(tǒng)的性能，結(jié)果如圖9所示。3個數(shù)據(jù)集的關(guān)鍵詞數(shù)量范圍為[2,5]，采用本文2.3.2小節(jié)隨機提取查詢圖像。從圖9可看出：關(guān)鍵詞與圖像聯(lián)合查詢的結(jié)果優(yōu)于單一關(guān)鍵詞或者單一圖像查詢。主要原因在于本算法對主題模型進行了有效的改進，文字主題與圖像視覺主題的相關(guān)性較高，有效地擴大了不同圖像的差異。綜上所述，本文的主題模型在視覺特征與標注之間實現(xiàn)了較好的語義相關(guān)性，提高了檢索算法的魯棒性。

圖9 圖像與關(guān)鍵詞聯(lián)合查詢的實驗結(jié)果

3 結(jié)束語

目前的大多數(shù)社交圖像檢索系統(tǒng)僅支持單一的圖像搜索或者關(guān)鍵詞搜索，本文提出了一種語義與圖像概率融合的社交媒體圖像檢索算法，該算法支持關(guān)鍵詞搜索、圖像搜索或者兩者的結(jié)合。本算法是基于概率的模型，對于弱標注的社交媒體圖像也具有較好的檢索效果，其中通過提取最近的圖像主題有效地減小了“語義鴻溝”，保證了標簽預測的準確率。此外，本文的主題模型能夠融合不同的先驗視覺信息，有助于解決主題提取問題。

未來將研究采用深度學習技術(shù)對智能圖像進行標注，提高檢索系統(tǒng)的魯棒性，并且計劃將圖像的時間信息加入主題模型中，實現(xiàn)對流數(shù)據(jù)與視頻數(shù)據(jù)的處理。