王 婧
(1.中國(guó)科學(xué)院 計(jì)算機(jī)網(wǎng)絡(luò)信息中心,北京 100190;2.北京電子科技職業(yè)學(xué)院 電信工程學(xué)院,北京 100176)
隨著Web2.0平臺(tái)的快速發(fā)展,許多社會(huì)網(wǎng)絡(luò)圖像(Social image)共享網(wǎng)站(例如Flickr,Photosig,以及Instagram)蓬勃發(fā)展,此類網(wǎng)站允許用戶上傳并分享自己拍攝的照片[1]。另一方面,由于移動(dòng)互聯(lián)網(wǎng)技術(shù),以及廉價(jià)存儲(chǔ)設(shè)備和智能手機(jī)的普及,人們可以便捷的訪問互聯(lián)網(wǎng)。因此,海量的由用戶提供的照片被迅速上傳到各圖像共享網(wǎng)站,并與其他用戶分享[2,3]。圖像共享網(wǎng)站不僅允許用戶上傳照片,還允許用戶為照片提供描述其語(yǔ)義信息的詞語(yǔ)(也稱“標(biāo)簽”)。
圖像分享網(wǎng)站鼓勵(lì)用戶為上傳的照片提供語(yǔ)義標(biāo)簽,標(biāo)簽可以看作索引關(guān)鍵字,為圖像賦予準(zhǔn)確的標(biāo)簽將顯著提高基于標(biāo)簽的圖像檢索系統(tǒng)的性能[4,5]。但是,用戶的標(biāo)注行為具有較高的主觀性和多樣性,部分用戶提供的標(biāo)簽準(zhǔn)確性和完整性都不高,甚至有些用戶會(huì)提供和圖像的語(yǔ)義信息毫無關(guān)聯(lián)的標(biāo)簽。因此,用戶提供的標(biāo)簽和圖像的視覺內(nèi)容之間存在語(yǔ)義鴻溝,這為社會(huì)網(wǎng)絡(luò)圖像搜索和挖掘帶來了很大的困難[6]。
基于上述分析,本文旨在通過對(duì)用戶提供的標(biāo)簽進(jìn)行重排序,進(jìn)而去除與圖像語(yǔ)義信息無關(guān)的噪聲標(biāo)簽,從而有效提高圖像標(biāo)簽的準(zhǔn)確性。本文的創(chuàng)新點(diǎn)主要表現(xiàn)在以下兩個(gè)方面:
(1)提出了一種融合圖像視覺相似度和標(biāo)簽語(yǔ)義相似度的加權(quán)投票方法,投票過程綜合了不同用戶的標(biāo)注行為和標(biāo)注習(xí)慣,使得標(biāo)簽排序結(jié)果更加客觀準(zhǔn)確。
(2)利用視覺近鄰圖像的標(biāo)簽集構(gòu)造標(biāo)簽圖模型,并充分利用近鄰?fù)镀苯Y(jié)果和圖模型中標(biāo)簽之間的關(guān)系,利用迭代計(jì)算進(jìn)行目標(biāo)圖像的標(biāo)簽排序。
圖像共享網(wǎng)站為提高圖像檢索系統(tǒng)的性能開辟了全新的研究思路,吸引了眾多學(xué)者的關(guān)注。許多學(xué)者致力于研究如何為圖像賦予準(zhǔn)確的語(yǔ)義標(biāo)簽。為圖像賦予準(zhǔn)確的語(yǔ)義描述信息(標(biāo)簽)是基于文本的圖像檢索(text-based image retrieval,TBIR)系統(tǒng)的關(guān)鍵環(huán)節(jié),李錫榮等對(duì)圖像標(biāo)簽指派,圖像標(biāo)簽優(yōu)化以及基于標(biāo)簽的圖像檢索進(jìn)行了綜述,全面介紹了Web 2.0時(shí)代TBIR系統(tǒng)遇到的新問題,以及涉及的新理論和新方法[7]。
Hu等提出一種基于魯棒多視圖半監(jiān)督學(xué)習(xí)模型的圖像標(biāo)注方法。該方法利用基于圖拉普拉斯矩陣的半監(jiān)督學(xué)習(xí)挖掘數(shù)據(jù)的內(nèi)在結(jié)構(gòu)信息[8]。Jiu等提出一種基于非線性深度核學(xué)習(xí)的圖像標(biāo)注方法,利用深度多層網(wǎng)絡(luò)重新定義了多核[9]。Li等提出了一種基于弱監(jiān)督深度矩陣分解算法的圖像標(biāo)注及優(yōu)化方法,通過對(duì)弱監(jiān)督標(biāo)注信息、視覺結(jié)構(gòu)和語(yǔ)義結(jié)構(gòu)的協(xié)同分析[10]。Verma等提出一種兩階段K最近鄰算法以及一個(gè)度量學(xué)習(xí)框架,并將其用于圖像標(biāo)注[11]。Feng等提出一種基于語(yǔ)義概念共現(xiàn)模式的圖像標(biāo)注和檢索方法[12]。
針對(duì)已有的社會(huì)網(wǎng)絡(luò)圖像標(biāo)簽進(jìn)行排序,提高圖像語(yǔ)義信息描述的準(zhǔn)確性,對(duì)于TBIR系統(tǒng)具有十分重要的意義。Li等提出基于近鄰?fù)镀?neighbor voting,NV)的標(biāo)簽排序方法[13],該方法利用目標(biāo)圖像的視覺近鄰為其標(biāo)簽進(jìn)行投票,并利用投票分值進(jìn)行標(biāo)簽排序。Liu等提出基于概率密度估計(jì)(probability density estimation,PDE)和隨機(jī)漫步(random walk,RW)的標(biāo)簽排序方法(簡(jiǎn)稱PDE-RW)[14],該方法利用概率密度估計(jì)得到標(biāo)簽的初始相關(guān)度,然后利用隨機(jī)漫步算法對(duì)標(biāo)簽相關(guān)度進(jìn)行優(yōu)化。Zhang等提出基于壓縮域視覺詞語(yǔ)(visual words in compressed domain,VWCD)的標(biāo)簽排序方法[15],該方法利用SIFT特征描述子從低分辨率圖像中抽取視覺詞語(yǔ),并在此基礎(chǔ)上利用近鄰?fù)镀辈呗赃M(jìn)行標(biāo)簽排序。Guo等提出基于顯著性檢測(cè)(saliency detection,SD)的標(biāo)簽排序方法[16],該方法充分利用圖像顯著性檢測(cè)結(jié)果進(jìn)行標(biāo)簽排序,從計(jì)算機(jī)視覺的角度為圖像標(biāo)簽排序提出了新的解決思路。
上述方法利用不同的機(jī)器學(xué)習(xí)模型和算法針對(duì)圖像的語(yǔ)義挖掘和語(yǔ)義標(biāo)注問題展開了研究,獲得了較好的實(shí)驗(yàn)結(jié)果。通過對(duì)上述研究工作的深入分析,對(duì)上述研究工作存在的不足之處總結(jié)如下:
不足之處1:上述方法主要采用人工設(shè)定的圖像特征描述方法(例如,SIFT特征描述子),雖然獲得了較好的性能,但是與利用深度學(xué)習(xí)得到的圖像特征尚有一定的差距。如果能利用深度學(xué)習(xí)框架得到更加準(zhǔn)確的圖像特征描述,對(duì)于提升圖像的語(yǔ)義挖掘準(zhǔn)確性具有積極意義。
不足之處2:社會(huì)網(wǎng)絡(luò)中的圖像標(biāo)簽是圖像上傳者人為設(shè)定的,存在較高的主觀性以及較高的噪聲。而利用上述方法進(jìn)行圖像的語(yǔ)義挖掘時(shí)對(duì)圖像的初始標(biāo)簽有較高的依賴性,這在一定程度上限制了圖像語(yǔ)義挖掘的準(zhǔn)確性。
本文針對(duì)已有研究工作的不足之處展開深入研究,針對(duì)不足之處1,將SIFT特征、卷積神經(jīng)網(wǎng)絡(luò)特征以及視覺詞袋模型相結(jié)合,提出了一種圖像視覺特征描述方法;針對(duì)不足之處2,采用近鄰?fù)镀辈呗砸约奥?lián)合多社會(huì)圖像的標(biāo)簽圖模型,將相關(guān)圖像的語(yǔ)義信息傳播至目標(biāo)圖像,可以較好地解決目標(biāo)圖像的初始語(yǔ)義標(biāo)簽不準(zhǔn)確的問題。
本文將通過研究標(biāo)簽排序算法解決兩個(gè)主要問題:①去除噪聲標(biāo)簽;②根據(jù)標(biāo)簽的語(yǔ)義信息與圖像的視覺特征之間的相關(guān)度進(jìn)行標(biāo)簽排序。
假設(shè)社會(huì)網(wǎng)絡(luò)圖像數(shù)據(jù)集表示為Θ,標(biāo)簽字典表示為T。對(duì)于社會(huì)網(wǎng)絡(luò)圖像I∈Θ以及標(biāo)簽t∈T,將計(jì)算標(biāo)簽相關(guān)度的函數(shù)定義為H(t,I), 該函數(shù)應(yīng)滿足如下兩個(gè)條件:
條件1:假設(shè)兩幅社會(huì)網(wǎng)絡(luò)圖像I1,I2∈Θ以及標(biāo)簽t∈T, 如果標(biāo)簽t與圖像I1的相關(guān)度高于圖像I2, 則滿足下述條件
H(t,I1)>H(t,I2)
(1)
條件2:假設(shè)兩幅社會(huì)網(wǎng)絡(luò)圖像的標(biāo)簽t1,t2∈T以及社會(huì)網(wǎng)絡(luò)圖像I∈Θ, 如果標(biāo)簽t1比標(biāo)簽t2更適合描述圖像I的語(yǔ)義信息,則滿足下述條件
H(t1,I)>H(t2,I)
(2)
圖1給出了社會(huì)圖像標(biāo)簽相關(guān)度計(jì)算流程。首先,構(gòu)建社會(huì)圖像數(shù)據(jù)集,從該數(shù)據(jù)集中獲取目標(biāo)圖像的視覺近鄰。然后,所有視覺近鄰都投票給目標(biāo)圖像的標(biāo)簽。此外,為了提高重要視覺近鄰的投票權(quán)值,投票分值由視覺相似度和標(biāo)簽相關(guān)性加權(quán)計(jì)算得到。接下來,利用近鄰?fù)镀苯Y(jié)果,在標(biāo)簽圖上進(jìn)行隨機(jī)漫步,從而計(jì)算出標(biāo)簽相關(guān)度。
圖1 社會(huì)圖像標(biāo)簽排序流程
本文將對(duì)兩種圖像特征描述方法進(jìn)行對(duì)比分析:①視覺詞袋模型(bag of visual words,BoVW)+尺度不變特征變換(scale-invariant feature transform,SIFT),②BoVW+SIFT+CNN(convolutional neural network)。
從圖像訓(xùn)練集中抽取SIFT特征描述子,并將其進(jìn)行聚類,從而學(xué)習(xí)出由256個(gè)視覺詞匯構(gòu)成的視覺詞典。利用視覺詞典,本文將一幅圖像表示為256維的特征向量(簡(jiǎn)稱BoVW+SIFT特征),該特征向量中的每一維對(duì)應(yīng)于一個(gè)視覺詞,其取值為該視覺詞出現(xiàn)在該幅圖像中的次數(shù)。本文將充分融合CNN特征與BoVW+SIFT特征,獲得更為有效的圖像視覺特征描述。
從圖像訓(xùn)練集中學(xué)習(xí)出的碼書(Codebook)表示為CB=(cb1,cb2,…cbk), 其中cbi表示碼書中的第i個(gè)視覺詞。本文將一組特征描述符表示為固定維度的向量,并將描述SIFT特征的向量s分配給與其距離最近的視覺詞 (cbi=Nb(s))
(3)
對(duì)于視覺詞cbi, 將其與距離最近的視覺詞之間的差異進(jìn)行累加,計(jì)算方法如下
(4)
式(4)的主要任務(wù)是計(jì)算視覺近鄰為視覺詞cbi的所有SIFT特征描述子與cbi的距離之和,并將其作為向量fv的第i個(gè)維度fvi。 在此基礎(chǔ)上,構(gòu)造128×k維向量fv
fv=[fv1,fv2,…,fvi,…,fvk],fvi∈R128
(5)
本文從GoogLeNet的pool5層中抽取1024維的CNN特征(表示為fp)。
利用式(6)對(duì)向量fv和fp進(jìn)行融合
f=[fv,fp]
(6)
特征向量f的維度為2048維,利用PCA白化進(jìn)行降維處理
(7)
其中,MPCA表示主成分分析(principal component analysis,PCA)變換矩陣,參數(shù)h表示降維處理后保留的特征維數(shù),svi表示第ith個(gè)奇異值。接下來,使用L2范數(shù)歸一化獲取1024維的稠密向量。
在上述過程基礎(chǔ)上,利用K-means算法學(xué)習(xí)出由1000個(gè)視覺詞語(yǔ)構(gòu)成的視覺詞典,利用該詞典,每幅圖像都可以表示為1000維的特征向量(稱為BoVW+SIFT+CNN)。
圖像Ii和Ij的視覺相似度計(jì)算方法如下
(8)
其中,fi,fj分別表示圖像Ii和Ij的特征向量。
標(biāo)簽相關(guān)度是指圖像的視覺特征與標(biāo)簽的語(yǔ)義信息之間的相關(guān)程度。對(duì)于目標(biāo)圖像Ij, 其視覺鄰居Ik對(duì)標(biāo)簽ti的投票分?jǐn)?shù)可以通過對(duì)圖像視覺相似度和標(biāo)簽語(yǔ)義相似度的線性加權(quán)計(jì)算而得
Vote(ti,Ij,Ik)=λ·Simv(Ij,Ik)+(1-λ)·Sims(ti,T(Ik))
(9)
其中,λ為權(quán)值參數(shù),Sims(ti,T(Ik)) 表示標(biāo)簽ti和圖像Ik的標(biāo)簽集合T(Ik)之間的語(yǔ)義相似度,計(jì)算方法如下
(10)
其中,Sims(ti,tj) 表示標(biāo)簽ti和tj之間的語(yǔ)義相似度。由式(10)可知,Sims(ti,T(Ik)) 計(jì)算標(biāo)簽ti與標(biāo)簽集合T(Ik) 中各標(biāo)簽的語(yǔ)義相似度的平均值。標(biāo)簽ti與標(biāo)簽tj之間的語(yǔ)義距離d(ti,tj) 定義為
(11)
其中,參數(shù)N(ti) 和N(tj) 分別表示被標(biāo)簽ti和tj所標(biāo)注的圖像的數(shù)量,參數(shù)N(ti,tj) 表示同時(shí)被標(biāo)簽ti和tj所標(biāo)注的圖像的數(shù)量。參數(shù)Γ表示Google圖像搜索引擎中所有圖像的數(shù)量,標(biāo)簽ti和tj之間的語(yǔ)義相似度Sims(ti,tj) 可以通過如下公式計(jì)算
(12)
參數(shù)σt表示經(jīng)驗(yàn)集。
文本構(gòu)造基于標(biāo)簽圖和隨機(jī)漫步的標(biāo)簽相關(guān)度挖掘模型。在標(biāo)簽圖中,標(biāo)簽從目標(biāo)圖像及其視覺鄰居中過去,并將用戶提供的標(biāo)簽視作圖的頂點(diǎn),標(biāo)簽相關(guān)性作為邊權(quán)值。為降低計(jì)算開銷,將低于閾值的邊從標(biāo)簽圖中去掉。有一幅目標(biāo)圖像及其兩個(gè)視覺鄰居的標(biāo)簽如圖2所示。
圖2 標(biāo)簽圖示例
假設(shè)標(biāo)簽圖表示為G=(V,E), 其中V,E分別表示標(biāo)簽圖的頂點(diǎn)和邊,并且滿足V=VS+VN。 其中,VS,VN分別表示目標(biāo)圖像及其視覺鄰居的標(biāo)簽。為了防止目標(biāo)圖像反向影響其視覺鄰居圖像,目標(biāo)圖像和其視覺鄰居之間的邊是有向的,其它邊是無向的。標(biāo)簽圖G的轉(zhuǎn)移概率矩陣表示為M, 該矩陣的元素mij表示由標(biāo)簽ti轉(zhuǎn)移至tj的概率,mij的計(jì)算方法如下
(13)
概率轉(zhuǎn)移矩陣M的定義如下
(14)
其中,MS和MN分別表示描述VS和VN轉(zhuǎn)移概率的方陣,MSN表示存儲(chǔ)由VN至VS的轉(zhuǎn)移概率的矩陣。
算法1:基于圖學(xué)習(xí)的標(biāo)簽排序
輸入:目標(biāo)圖像I以及用戶提供的標(biāo)簽集T={t1,t2,…,tN}, 視覺鄰居 {I1,I2,…,IK}。
輸出:標(biāo)簽排序結(jié)果T*。
(1)將用戶提供的標(biāo)簽輸入到維基百科,刪除沒有匹配項(xiàng)的標(biāo)簽,將剩余標(biāo)簽構(gòu)成的集合表示為 {t1,t2,…,tM}。
(2)將所有視覺鄰居圖像的投票分值求和
(15)
其中,Votei表示所有視覺鄰居對(duì)標(biāo)簽ti的投票權(quán)。
(3)構(gòu)建投票分值向量Vote=(Vote1,Vote2,…,VoteM)。
(4)標(biāo)簽相關(guān)度分值向量定義為R={r1,r2,…,rM}, 其中ri表示標(biāo)簽ti的相關(guān)度分值。
(5)標(biāo)簽相關(guān)度分值向量的初始狀態(tài)設(shè)置為R(0)=(1,1,…,1)。
(6)利用隨機(jī)漫步算法,標(biāo)簽相關(guān)度分值的第lth次迭代可以通過如下公式計(jì)算得到
R(l)=(φM)lR(0)+(1-φ)(I-φM)-1(I-(φM)l)Vote
(16)
(7)標(biāo)簽相關(guān)度分值向量的計(jì)算方法如下
(17)
(8)根據(jù)標(biāo)簽相關(guān)度分值向量R對(duì)標(biāo)簽集{t1,t2,…,tM} 進(jìn)行降序排序,排序后的標(biāo)簽序列表示為T*。
算法1中的參數(shù)φ(參見式(16))表示投票分?jǐn)?shù)的初始狀態(tài)和轉(zhuǎn)移矩陣對(duì)標(biāo)簽相關(guān)度計(jì)算產(chǎn)生的影響,該算法的時(shí)間復(fù)雜度為O(n3)。
為驗(yàn)證算法的有效性,本文利用MIRFlickr25k數(shù)據(jù)集[17]進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)集包括25 000幅Flickr圖像。本文選取MIRFlickr25k數(shù)據(jù)集中常用的10個(gè)圖像標(biāo)簽,根據(jù)這10個(gè)標(biāo)簽進(jìn)行圖像的分類和標(biāo)簽排序的性能評(píng)測(cè)。這10個(gè)標(biāo)簽為:①sky,②flower,③dog,④sea,⑤girl,⑥bird,⑦snow,⑧l(xiāng)ake,⑨beach,⑩street。
本實(shí)驗(yàn)采用均值平均精度(mean average precision,MAP)以及歸一化折損累積增益(normalized discounted cumulative gain,NDCG)作為性能度量方法。MAP的定義中使用了平均準(zhǔn)確性(average precision,AP),MAP表示查詢集中所有查詢?cè)~檢索結(jié)果的平均準(zhǔn)確性。假設(shè)q和Q分別表示查詢?cè)~以及查詢?cè)~集合,MAP的計(jì)算方法如下
(18)
本文實(shí)驗(yàn)為每個(gè)社會(huì)網(wǎng)絡(luò)圖像標(biāo)簽設(shè)置5個(gè)相關(guān)度等級(jí):①非常相關(guān)(5分),②相關(guān)(4分),③一般相關(guān)(3分),④弱相關(guān)(2分)以及⑤不相關(guān)(1分)。假設(shè)一幅社會(huì)網(wǎng)絡(luò)圖像排序后的標(biāo)簽集為 {t1,t2,…,tn}, 則其NDCG值計(jì)算方法如下
(19)
其中,r(i) 表示標(biāo)簽ti的相關(guān)度,τn表示歸一化常數(shù)。
本小節(jié)實(shí)驗(yàn)中視覺特征統(tǒng)一采用BoVW+SIFT特征。
4.2.1 近鄰數(shù)量的選取
近鄰?fù)镀笔潜疚姆椒ǖ年P(guān)鍵問題,而近鄰數(shù)量的選取對(duì)投票結(jié)果有著至關(guān)重要的影響。因此,本文將討論如何選取合適的近鄰數(shù)量。由式(9)的投票權(quán)值計(jì)算方法可知,投票分值有兩種類型的因素構(gòu)成:①視覺相似度;②標(biāo)簽相關(guān)度。接下來,將本文方法與其它3種投票方法利用MAP值進(jìn)行性能對(duì)比,具體包括:①只使用視覺相似度的加權(quán)投票;②只使用標(biāo)簽相關(guān)度的加權(quán)投票;③無加權(quán)投票(作為性能評(píng)測(cè)的基準(zhǔn))。實(shí)驗(yàn)結(jié)果如圖3所示。
圖3 不同方法的MAP值對(duì)比
如圖4所示,利用本文提出的圖像標(biāo)簽相關(guān)度計(jì)算方法,可以顯著提高圖像標(biāo)簽排序的準(zhǔn)確性,從而有效提高M(jìn)AP值。原因在于,本文提出的方法充分利用了圖像的視覺特征和標(biāo)簽的語(yǔ)義信息進(jìn)行加權(quán)投票,使得與目標(biāo)圖像具有較高相關(guān)度的近鄰圖像具有更高的投票權(quán)。此外,還可觀察出,相比標(biāo)簽相關(guān)度,視覺相似度對(duì)近鄰?fù)镀边^程更加重要。從圖4還可以看出本文提出的方法在近鄰數(shù)量取6000時(shí),MAP達(dá)到最大值。因此,在接下來的實(shí)驗(yàn)中,將本文方法的近鄰數(shù)量設(shè)置為6000。通過分析可知,視覺近鄰數(shù)量太少和太多都無法獲得最優(yōu)的MAP值。原因在于,視覺近鄰數(shù)量過少將導(dǎo)致投票過程對(duì)標(biāo)簽語(yǔ)義信息的覆蓋度降低;而視覺近鄰數(shù)量過多將使得投票過程包含過多的噪聲信息,從而降低投票的有效性。
與性能評(píng)測(cè)基準(zhǔn)相比,包括本文方法在內(nèi)的3種不同方法獲得的性能提升如圖4所示。
圖4 MAP性能提升分析
從圖4可以看出,本文提出的方法與其它加權(quán)投票策略相比,能夠獲得更高的MAP性能提升。當(dāng)近鄰數(shù)量高于9000時(shí),基本上可以保證約20%以上的MAP性能提升。
綜上,本文方法可以得到比其它方法更高的MAP值,并且對(duì)近鄰數(shù)量的變化并不敏感,具有較高的魯棒性。
4.2.2 參數(shù)λ的選取
如式(9)所示,通過對(duì)圖像視覺相似度和標(biāo)簽語(yǔ)義相似度的線性加權(quán)可以計(jì)算出目標(biāo)圖像的投票分?jǐn)?shù)。參數(shù)λ決定著圖像視覺相似度和標(biāo)簽語(yǔ)義相似度對(duì)投票分值計(jì)算產(chǎn)生的影響。因此,λ的選取直接影響著標(biāo)簽相關(guān)度計(jì)算的準(zhǔn)確性。圖5中給出了近鄰數(shù)量以及參數(shù)λ的取值對(duì)MAP值的影響。
圖5 參數(shù)λ的選取
由圖5可知,當(dāng)參數(shù)λ取0.7,近鄰數(shù)量取6000時(shí),本文方法能夠得到最大MAP值。這也說明,相比標(biāo)簽的語(yǔ)義信息,圖像的視覺特征對(duì)加權(quán)投票過程更加重要。
4.2.3 參數(shù)φ的選取
如式(16)所示,參數(shù)φ表示投票分?jǐn)?shù)的初始狀態(tài)和轉(zhuǎn)移矩陣對(duì)標(biāo)簽相關(guān)度計(jì)算產(chǎn)生的影響,該參數(shù)的選取也是本文方法的關(guān)鍵問題之一。根據(jù)上述實(shí)驗(yàn)結(jié)果,將λ設(shè)置為0.7,近鄰數(shù)量設(shè)置為6000,測(cè)試φ的不同取值對(duì)MAP的影響,實(shí)驗(yàn)結(jié)果如圖6所示。
圖6 參數(shù)φ的選取
由圖6可知參數(shù)φ取0.6時(shí)MAP取得最大值,并且投票分?jǐn)?shù)的初始狀態(tài)比轉(zhuǎn)移矩陣對(duì)標(biāo)簽相關(guān)度的影響更大。
4.3.1 標(biāo)簽排序
圖像標(biāo)簽相似度計(jì)算常用于標(biāo)簽排序,因此本部分通過標(biāo)簽排序結(jié)果對(duì)標(biāo)簽相關(guān)度計(jì)算的準(zhǔn)確性進(jìn)行評(píng)價(jià)。為了使得性能評(píng)價(jià)結(jié)果更加準(zhǔn)確、客觀,使用NDCG將本文方法與經(jīng)典的標(biāo)簽排序方法進(jìn)行性能對(duì)比,標(biāo)簽排序性能對(duì)比分析所選用的方法包括:NV[13],PDE-RW[14],VWCD[15],SD[16],SR[18],MMRIM[19],以及TW-TV[20]。
接下來,利用NDCG對(duì)上述方法與本文方法進(jìn)行性能對(duì)比,為了驗(yàn)證兩種視覺特征BoVW+SIFT以及BoVW+SIFT+CNN的有效性,本文分別采用這兩種視覺特征進(jìn)行各種排序方法的性能評(píng)測(cè)(如圖7所示)。
圖7 平均NDCG值
由圖7可知,本文方法的平均NDCG值高于其它方法;并且BoVW+SIFT+CNN特征比BoVW+SIFT特征具有更好的圖像語(yǔ)義描述能力,從而能夠有效提高標(biāo)簽排序的準(zhǔn)確性。下面的實(shí)驗(yàn)中都將采用BoVW+SIFT+CNN視覺特征。
為進(jìn)一步說明本文方法在不同圖像類別上的標(biāo)簽排序性能,分別給出各排序方法在不同圖像類別上的平均 NDCG 值,實(shí)驗(yàn)結(jié)果如圖8所示。
圖8 不同類別圖像的標(biāo)簽排序結(jié)果
由圖8可知,本文方法在所有類別的圖像標(biāo)簽排序上都獲得了優(yōu)于其它方法的性能,而其它方法在不同圖像類別上的標(biāo)簽排序性能不夠穩(wěn)定。
本文方法的標(biāo)簽排序性能優(yōu)于其它方法的主要原因在于:①本文方法充分挖掘圖像的視覺相似度以及標(biāo)簽的語(yǔ)義相似度,從而進(jìn)行近鄰加權(quán)投票;此外,本文方法通過構(gòu)建標(biāo)簽圖模型,將近鄰圖像標(biāo)簽的語(yǔ)義信息傳播給目標(biāo)圖像,能夠有效提高標(biāo)簽相關(guān)度計(jì)算的準(zhǔn)確性。②本文方法利用對(duì)視覺近鄰圖像及其標(biāo)簽進(jìn)行加權(quán)投票,通過對(duì)圖像低層視覺特征和標(biāo)簽高層語(yǔ)義信息的充分融合,有利于跨越“語(yǔ)義鴻溝”。③NV采用近鄰?fù)镀辈呗赃M(jìn)行標(biāo)簽排序,但是未對(duì)不同的視覺近鄰和不同的標(biāo)簽進(jìn)行加權(quán)處理,導(dǎo)致最終排序結(jié)果不夠準(zhǔn)確。④PDE-RW通過對(duì)標(biāo)簽圖的隨機(jī)漫步進(jìn)行標(biāo)簽排序,但是該方法需要具有準(zhǔn)確語(yǔ)義標(biāo)簽的訓(xùn)練圖像集,當(dāng)訓(xùn)練圖像集的語(yǔ)義標(biāo)簽不夠準(zhǔn)確時(shí),該方法的性能會(huì)大幅下降。⑤VWCD利用近鄰?fù)镀辈呗赃M(jìn)行標(biāo)簽排序,投票過程并未對(duì)視覺鄰居進(jìn)行加權(quán)處理,也沒有充分考慮標(biāo)簽間的關(guān)系。⑥SD采用計(jì)算機(jī)視覺的方法通過顯著性檢測(cè)進(jìn)行標(biāo)簽排序,該方法能夠有效檢測(cè)圖像中的顯著物體,但是,對(duì)于顯著物體以外的其它語(yǔ)義概念的排序性能不夠理想。⑦SR使用線性SVM分類器將圖像分為有顯著物體和沒有顯著物體兩類,然后對(duì)這兩類圖像分別進(jìn)行處理從而得到標(biāo)簽排序結(jié)果。但是該方法對(duì)于有顯著物體的圖像標(biāo)簽排序結(jié)果較好(例如:Flower,Dog,Girl,Bird),而且其它類別圖像標(biāo)簽排序的結(jié)果都不夠理想。⑧MMRIM模型和TW-TV模型雖然都考慮了圖像與標(biāo)簽之間的關(guān)系,并對(duì)模型進(jìn)行了優(yōu)化,但是沒有充分考慮同類別圖像之間的語(yǔ)義關(guān)聯(lián),當(dāng)初始標(biāo)簽噪聲較大時(shí),排序結(jié)果不夠理想。
為了更加清晰地描述本文方法的標(biāo)簽排序性能,表1中給出了本文方法對(duì)MIRFlickr25k數(shù)據(jù)集中的5幅圖像的標(biāo)簽排序結(jié)果。
表1 社會(huì)網(wǎng)絡(luò)圖像標(biāo)簽排序?qū)嵗?/p>
由表1可知,本文方法可以有效地進(jìn)行圖像標(biāo)簽排序,排在前五位的標(biāo)簽都與圖像的視覺特征有較高的語(yǔ)義相關(guān)度。
4.3.2 基于標(biāo)簽的圖像檢索
為了更加全面評(píng)價(jià)本文方法的有效性,本文利用基于標(biāo)簽的圖像檢索系統(tǒng)進(jìn)一步驗(yàn)證提出的標(biāo)簽排序方法的有效性。本文將基于標(biāo)簽排序方法的圖像檢索與其它3種圖像檢索策略進(jìn)行對(duì)比分析:①基于興趣度的圖像檢索(策略1);②基于上傳時(shí)間的圖像檢索(策略2);③基于初始標(biāo)簽順序的圖像檢索(策略3)。其中,策略1和策略2是Flickr為用戶提供的兩種圖像檢索策略。使用本文方法進(jìn)行圖像檢索時(shí),檢索詞在圖像標(biāo)簽序列中排序越高,則該圖像在檢索結(jié)果中的排序也越高。
由圖9可知,基于本文標(biāo)簽排序方法的圖像檢索系統(tǒng)能夠獲得比其它圖像檢索策略更好的性能,這也從側(cè)面說明本文提出的標(biāo)簽排序方法對(duì)于提高圖像檢索系統(tǒng)的性能具有重要意義。
圖9 圖像檢索性能對(duì)比
本文提出了一種社會(huì)網(wǎng)絡(luò)圖像標(biāo)簽排序算法。利用目標(biāo)圖像的視覺近鄰圖像為其進(jìn)行標(biāo)簽加權(quán)投票,并在投票過程中充分考慮圖像間的視覺相似度和標(biāo)簽間的語(yǔ)義相似度。此外,利用目標(biāo)圖像及其視覺近鄰圖像的標(biāo)簽構(gòu)造標(biāo)簽圖,在標(biāo)簽圖上進(jìn)行隨機(jī)漫步計(jì)算出標(biāo)簽與圖像的相關(guān)度,從而完成標(biāo)簽排序。實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法的有效性。
在下一步研究工作中,我們將對(duì)本文尚未解決的問題展開深入研究,主要包括:①如何在標(biāo)簽排序時(shí)充分考慮用戶的興趣偏好,進(jìn)行個(gè)性化標(biāo)簽排序;②如何在標(biāo)簽排序時(shí)充分考慮標(biāo)簽的語(yǔ)義多樣性,從而為圖像檢索結(jié)果的多樣化表示提供思路。