楊凱婷,張素蘭,張繼福,胡立華,楊海峰
(太原科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,太原 030024)
目前,很多社會化媒體主要依賴于用戶提供的標(biāo)簽來檢索存儲在社交網(wǎng)站中的大量圖像.而網(wǎng)絡(luò)用戶提供的初始標(biāo)簽往往是不完整和有噪聲的,圖像標(biāo)簽的缺失使得用戶不能快速地檢索出其關(guān)心的圖像;有噪聲的標(biāo)簽則會導(dǎo)致用戶檢索出與標(biāo)簽無關(guān)的圖像,從而影響了檢索效率.圖像標(biāo)簽的完備標(biāo)注因非常有助于提高圖像檢索效率,目前仍是圖像語義自動標(biāo)注一個研究熱點(diǎn)[1].
近年來,具有代表性的標(biāo)簽完備標(biāo)注方法主要有基于矩陣完備[2]、基于線性空間重建[3,4]和基于低秩矩陣分解的方法[5,6].基于矩陣完備的方法主要將標(biāo)簽完備問題轉(zhuǎn)化為矩陣完備問題,如Wu L 等提出的較為經(jīng)典的標(biāo)簽矩陣完備(tag matrix completion,TMC)模型[2].該模型將標(biāo)簽和圖像之間的關(guān)系描述為一個標(biāo)簽矩陣,通過最小化基于標(biāo)簽的相似性和基于視覺內(nèi)容的相似性之間的差異來搜索最優(yōu)標(biāo)簽矩陣.但TMC 模型沒有充分利用初始標(biāo)簽,缺少對標(biāo)簽自身相關(guān)度的分析,影響標(biāo)注效果.Lin Z 等[3]提出的一種線性稀疏重建(linear sparse reconstructions,LSR)模型,該模型利用圖像之間的視覺和語義相似性重構(gòu)每幅圖像,利用標(biāo)簽之間的一致性重建每個標(biāo)簽,并對其重建值進(jìn)行歸一化合并,以選擇缺失的相關(guān)標(biāo)簽.為降低計(jì)算復(fù)雜度,Lin Z 等對LSR 模型進(jìn)一步擴(kuò)展和改進(jìn),得到雙視圖線性稀疏重構(gòu)(dual-view linear sparse reconstructions,DLSR)模型[4].孟磊等[5]提出了一種基于低秩稀疏分解優(yōu)化(low-rank sparse decomposition and optimization,LRSDO)的圖像標(biāo)簽完備方法.該方法主要通過構(gòu)造低秩稀疏分解模型獲得待完備圖像視覺特征和標(biāo)簽語義之間的映射關(guān)系,并使用標(biāo)簽共現(xiàn)頻率方法對候選標(biāo)簽進(jìn)行去噪優(yōu)化.但是該方法沒有考慮標(biāo)簽的語義相關(guān)性,因此完備標(biāo)注性能仍有提升.為了充分利用標(biāo)簽之間的信息,提高圖像標(biāo)注和檢索性能,有學(xué)者開始深入挖掘標(biāo)簽之間的關(guān)系[7-9].顧廣華等人[10]利用關(guān)聯(lián)規(guī)則算法挖掘數(shù)據(jù)集中語義之間的關(guān)聯(lián)規(guī)則,對圖像標(biāo)注進(jìn)行語義豐富和標(biāo)簽補(bǔ)充.崔超然等人[11]討論了如何平衡標(biāo)簽的相關(guān)性和多樣性,李雯莉等人利用概念格進(jìn)行標(biāo)簽本身潛在的語義分析,有效地改善了標(biāo)注效果.
雖然這些標(biāo)簽完備標(biāo)注方法取得了較好的性能,但在考慮標(biāo)簽關(guān)系時仍存在一些問題.大多數(shù)方法[2,5,12,13]不考慮數(shù)據(jù)集中與標(biāo)簽關(guān)聯(lián)的圖像的視覺信息,使得在圖像標(biāo)注過程中出現(xiàn)多義詞和同義詞.而且,目前考慮標(biāo)簽視覺內(nèi)容的工作相對較少.因此,為有效提高圖像標(biāo)簽完備標(biāo)注的精度,本文提出了一種基于視覺和語義互學(xué)習(xí)(mutual learning using visual and semantic,MLVS)的標(biāo)簽完備標(biāo)注方法.首先,綜合考慮待完備圖像的視覺特征和初始語義計(jì)算圖像之間相似度,獲取待完備圖像的近鄰圖像集和候選標(biāo)簽集;然后,取候選標(biāo)簽與初始標(biāo)簽最大的視覺內(nèi)容相似性和語義相關(guān)性作為其與待完備圖像的視覺內(nèi)容相關(guān)度、語義相關(guān)度;最后,結(jié)合標(biāo)簽頻率優(yōu)化候選標(biāo)簽與待完備圖像的相關(guān)性,確認(rèn)最優(yōu)的候選標(biāo)簽進(jìn)行標(biāo)簽完備.
信息的互學(xué)習(xí)可以幫助我們更好地認(rèn)識事物之間的相關(guān)關(guān)系.圖像標(biāo)簽完備標(biāo)注方法一般是用相關(guān)語義標(biāo)簽補(bǔ)全待完備圖像,主要涉及到圖像和標(biāo)簽之間的3種關(guān)系,即圖像-圖像、標(biāo)簽-標(biāo)簽、圖像-標(biāo)簽.本文通過視覺和語義互學(xué)習(xí)考慮這3種關(guān)系,給出相關(guān)定義.
僅依據(jù)視覺特征搜索近鄰圖像的標(biāo)簽完備方法[3,6,14]忽略了圖像高層語義的相關(guān)性,尋找的近鄰圖像代表性不高.為提高圖像完備標(biāo)注的精度,本文綜合考慮圖像之間的視覺相似度和圖像語義相關(guān)度以更精確地度量圖像間的相似度.
定義1.圖像視覺相似度Sv(Xi,Xj).SIFT特征是圖像標(biāo)簽完備方法常用的圖像視覺特征.在度量圖像視覺相似性時,為更好地計(jì)算圖像視覺相似性和便于實(shí)驗(yàn)對比,本文采用文獻(xiàn)[3]的1000維SIFT詞包特征,使用歐氏距離來計(jì)算圖像的視覺相似性.距離越小,說明兩幅圖像越相似.圖像之間的視覺距離定義如式(1)所示:
dist(Xi,Xj)=‖Di-Dj‖2
(1)
式中,Di和Dj分別是圖像Xi和Xj歸一化的SIFT 視覺特征向量.根據(jù)上述視覺距離,兩幅圖像之間的視覺相似性定義如式(2)所示:
Sv(Xi,Xj)=exp(-dist(Xi,Xj))
(2)
定義2.圖像語義相關(guān)度St(Xi,Xj).圖像的內(nèi)容越接近,圖像共有的標(biāo)簽越多.用戶提供的初始標(biāo)簽在一定程度上可以反映一幅圖像的語義內(nèi)容.因此,通過考慮圖像之間標(biāo)簽的語義相關(guān)度來考慮圖像之間的語義相關(guān)度.但以往的文獻(xiàn)很少充分地利用現(xiàn)有有效的概念相似度方法度量圖像的標(biāo)簽語義距離.本文基于初始標(biāo)簽向量,采用文獻(xiàn)[15]中的規(guī)范化Google 距離來度量標(biāo)簽之間的語義距離.標(biāo)簽之間的語義距離定義如式(3)所示:
(3)
式中,f(t1)、f(t2)和f(t1,t2)分別表示包含標(biāo)簽t1、t2、t1和t2的圖像數(shù),G表示數(shù)據(jù)集中的圖像總數(shù).根據(jù)兩個標(biāo)簽之間的語義距離,兩幅圖像之間的語義相關(guān)度定義見式(4):
(4)
式中,TXi和TXj分別表示圖像Xi和Xj對應(yīng)的初始標(biāo)簽集合.
在考慮標(biāo)簽與標(biāo)簽之間的關(guān)系時,傳統(tǒng)的方法有WordNet[16]和歸一化的Google距離[17].但是,這兩種方法只是基于文本描述建立標(biāo)簽相關(guān)性,沒有考慮包含該標(biāo)簽圖像的視覺信息,導(dǎo)致在圖像標(biāo)簽完備過程中出現(xiàn)多義詞和同義詞.因此,利用包含標(biāo)簽的圖像的視覺信息可以更好地度量標(biāo)簽與標(biāo)簽之間的關(guān)系.
定義3.標(biāo)簽視覺內(nèi)容相似性rel_v(t,t′).在待完備圖像x的近鄰圖像集合中,將含有標(biāo)簽t和t′的近鄰圖像作為標(biāo)簽t和t′的樣本,考慮樣本圖像之間的平均視覺相似性,作為標(biāo)簽t和t′的視覺內(nèi)容相似性.標(biāo)簽之間的視覺內(nèi)容相似性定義如式(5)所示:
(5)
式中,Xt和Xt′分別表示含有標(biāo)簽t和t′的近鄰圖像集合,|Xt|和|Xt′|是它們集合的大小,xt和xt′分別表示含有標(biāo)簽t和t′的圖像,dist(xt,xt′)是通過公式(1)得到的圖像xt和xt′視覺特征的歐氏距離.
標(biāo)簽之間是相互依賴存在的.例如,標(biāo)簽“beach”和“sea”,這對標(biāo)簽同時用來描述一幅圖像視覺內(nèi)容的概率很高.如果某幅圖像存在標(biāo)簽“sea”,則可以根據(jù)標(biāo)簽之間的相關(guān)性,將標(biāo)簽“beach”補(bǔ)給這幅圖像,進(jìn)而達(dá)到完備圖像標(biāo)簽的目的.
定義4.標(biāo)簽語義相關(guān)性rel_s(t,t′).利用標(biāo)簽共現(xiàn)頻率可以更加準(zhǔn)確地挖掘標(biāo)簽之間的關(guān)聯(lián)性.標(biāo)簽的共現(xiàn)頻率定義如式(6)所示:
(6)
式中,count(t,t′)表示在整個數(shù)據(jù)集中,同時含有標(biāo)簽t和t′的圖像數(shù),count(t)表示在整個數(shù)據(jù)集中含有標(biāo)簽t的圖像數(shù).
構(gòu)建候選標(biāo)簽與待完備圖像之間的關(guān)聯(lián)關(guān)系是篩選候選標(biāo)簽的關(guān)鍵,影響著標(biāo)簽完備的結(jié)果.本文給出的MLVS方法通過考慮候選標(biāo)簽與初始標(biāo)簽關(guān)系來考慮候選標(biāo)簽與待完備圖像的關(guān)系.
定義5.標(biāo)簽-圖像視覺內(nèi)容相關(guān)度rel1(x,t).根據(jù)定義3,取候選標(biāo)簽與待完備圖像初始標(biāo)簽最大的視覺內(nèi)容相似性,作為候選標(biāo)簽與待完備圖像的視覺內(nèi)容相關(guān)度.相關(guān)定義如式(7)所示:
rel1(x,t)=max(rel_v(ti,t))
(7)
式中,ti是待完備圖像x含有的初始標(biāo)簽;t是待完備圖像x的候選標(biāo)簽,rel_v(ti,t)是表示標(biāo)簽ti和標(biāo)簽t的視覺內(nèi)容相似性.
定義6.標(biāo)簽-圖像語義相關(guān)度rel2(x,t).同定義5,本文取候選標(biāo)簽與待完備圖像的初始標(biāo)簽最大的語義相關(guān)性,作為候選標(biāo)簽與待完備圖像的語義相關(guān)度.相關(guān)定義見式(8):
rel2(x,t)=max(rel_s(ti,t))
(8)
式中,ti是待完備圖像x含有的初始標(biāo)簽;t是x的候選標(biāo)簽,rel_s(ti,t)是表示標(biāo)簽ti和標(biāo)簽t的語義相關(guān)性,根據(jù)定義4,依據(jù)式(6)計(jì)算得出.
基于MLVS的標(biāo)簽完備方法通過待完備圖像的視覺和初始標(biāo)簽語義相互學(xué)習(xí),得到候選標(biāo)簽,然后從候選標(biāo)簽和初始標(biāo)簽的視覺和語義出發(fā),豐富待完備圖像的標(biāo)簽,框架如圖1所示.
圖1 基于MLVS的標(biāo)簽完備方法Fig.1 Tag completion annotation based on mutual learning using visual and semantic
為有效度量待完備圖像與其近鄰圖像的相似度,以尋找待完備圖像的高質(zhì)量近鄰圖像,我們?nèi)诤蠄D像視覺相似度和語義相關(guān)度,兩幅圖像的相似度如式(9)所示:
S(Xi,Xj)=α×Sv(Xi,Xj)+(1-α)×St(Xi,Xj)
(9)
式中,Sv(Xi,Xj)是根據(jù)定義1得到的圖像Xi和Xj的視覺相似度;St(Xi,Xj)是根據(jù)定義2得出的Xi和Xj的語義相關(guān)度;S(Xi,Xj)是兩幅圖像最終的相似度,其值越大,兩幅圖像越相似;α是權(quán)重系數(shù),其值依據(jù)實(shí)驗(yàn)分析設(shè)定.
根據(jù)公式(9),我們度量待完備圖像與數(shù)據(jù)集中每幅圖像的相似度,搜索其β近鄰,獲取候選標(biāo)簽集.β是近鄰圖像個數(shù),其值依據(jù)實(shí)驗(yàn)分析設(shè)定.
在圖像標(biāo)注過程中,綜合考慮候選標(biāo)簽與待完備圖像初始標(biāo)簽之間的視覺內(nèi)容相似性以及語義相關(guān)性,可以避免多義詞和同義詞現(xiàn)象.MLVS方法依據(jù)定義5和定義6,由候選標(biāo)簽與初始標(biāo)簽的視覺內(nèi)容相似性和語義相關(guān)性得到候選標(biāo)簽與待完備圖像的視覺內(nèi)容相關(guān)度和語義相關(guān)度.因此,為更好地豐富圖像的語義內(nèi)容,將候選標(biāo)簽與待完備圖像的視覺內(nèi)容相關(guān)度和語義相關(guān)度進(jìn)行融合.候選標(biāo)簽與待完備圖像的關(guān)聯(lián)度定義如式(10)所示:
rel(Xi,Tj)=γ×rel1(Xi,Tj)+
(1-γ)×rel2(Xi,Tj)
(10)
式中,T是待完備圖像Xi的候選標(biāo)簽集;rel1(Xi,Tj)是候選標(biāo)簽Tj與Xi的視覺內(nèi)容相關(guān)度,根據(jù)定義5得出;rel2(Xi,Tj)是Tj與Xi的語義相關(guān)度,由定義6得出;γ是權(quán)重系數(shù),其值依據(jù)實(shí)驗(yàn)分析設(shè)定.
根據(jù)定義3、定義4、定義5和定義6,依據(jù)公式(10),計(jì)算3.1節(jié)中得到的每個候選標(biāo)簽與待完備圖像的關(guān)聯(lián)度.
候選標(biāo)簽在待完備圖像的近鄰集中出現(xiàn)頻率越高,越有可能是待完備圖像的缺失標(biāo)簽.因此,候選標(biāo)簽頻率也是計(jì)算候選標(biāo)簽與待完備圖像相關(guān)性的指標(biāo)之一.每個候選標(biāo)簽與待完備圖像最終的相關(guān)性分?jǐn)?shù)如式(11)所示:
(11)
其中,rel(Xi,Tj)是候選標(biāo)簽Tj與待完備圖像Xi的關(guān)聯(lián)度;count(Tj)是Xi的近鄰圖像集中包含Tj的近鄰圖像數(shù);β是指Xi的近鄰集合大小,由3.1節(jié)給出.
結(jié)合標(biāo)簽頻率,依據(jù)公式(11),計(jì)算每個候選標(biāo)簽與待完備圖像的相關(guān)性分?jǐn)?shù).之后,將所有候選標(biāo)簽的相關(guān)性概率值降序排序,保留前幾個排名高的候選標(biāo)簽作為待完備圖像的缺少標(biāo)簽.
輸入:圖像集合I={I1,I2,…,In},初始標(biāo)簽集合T={T1,T2,…,Tn},特征矩陣X以及參數(shù)α、β和γ.
輸出:待完備圖像Ii的缺失標(biāo)簽.
Step 1.搜索圖像近鄰.基于視覺特征和初始標(biāo)簽語義,經(jīng)式(9)融合視覺相似度Sv(Ii,Ij)和語義相關(guān)度St(Ii,Ij),獲取Ii的β近鄰圖像集合NS和候選標(biāo)簽集.
Step 2.度量候選標(biāo)簽與待完備圖像關(guān)聯(lián)度.在NS中,對每一個候選標(biāo)簽t,通過式(7)計(jì)算t與Ii的視覺內(nèi)容相關(guān)度rel1(Ii,t);根據(jù)式(8)計(jì)算t與Ii的語義相關(guān)度rel2(Ii,t),利用式(10)計(jì)算候選標(biāo)簽與待完備圖像關(guān)聯(lián)度.
Step 3.關(guān)聯(lián)度優(yōu)化及標(biāo)簽預(yù)測.通過式(11)優(yōu)化候選標(biāo)簽與待完備圖像的關(guān)聯(lián)度,對優(yōu)化后的關(guān)聯(lián)度排序并將高排名相應(yīng)的候選標(biāo)簽作為Ii的缺失標(biāo)簽進(jìn)行完備.
本文在Corel5K以及Flickr30Concepts數(shù)據(jù)集上分別進(jìn)行了對比實(shí)驗(yàn).
為構(gòu)造一個不完備的數(shù)據(jù)環(huán)境并便于對比,我們對數(shù)據(jù)集Corel5K和Flickr30Concepts進(jìn)行與文獻(xiàn)[5]相同的處理,隨機(jī)刪除每幅圖像40%的標(biāo)簽.同時,為確保每幅圖像至少刪除一個標(biāo)簽并保留一個標(biāo)簽,本文刪除數(shù)據(jù)集中只有一個標(biāo)簽的圖像.進(jìn)行了8次實(shí)驗(yàn),計(jì)算8次實(shí)驗(yàn)結(jié)果的平均值,作為最終的實(shí)驗(yàn)結(jié)果.實(shí)驗(yàn)相關(guān)數(shù)據(jù)集的具體介紹如表1所示.
表1 數(shù)據(jù)集信息Table 1 Dataset information
實(shí)驗(yàn)中,本文采用3個評估指標(biāo),即平均準(zhǔn)確率(average precision@N,AP@N),平均召回率(average recall@N,AR@N)以及覆蓋率(coverage@N,C@N).其中,AP@N 是指每幅測試圖像準(zhǔn)確找回的缺失標(biāo)簽數(shù)量與實(shí)際找回的缺失標(biāo)簽數(shù)量的比值;AR@N是指每幅圖像準(zhǔn)確找回的缺失標(biāo)簽數(shù)量與圖像本身缺失標(biāo)簽數(shù)量的比值;C@N 是指測試集中至少有一個標(biāo)簽被正確找回的圖像數(shù)量與整個測試集圖像數(shù)量的比值.所有評估指標(biāo)的定義如下:
式中,m為待完備圖像的數(shù)量;NL為找回的缺失標(biāo)簽數(shù)量;Ncl(i)為第i幅圖像正確找回的缺失標(biāo)簽數(shù)量;Ntm為第i幅圖像真正缺失的標(biāo)簽數(shù)量;f(·)為一個條件函數(shù),當(dāng)條件滿足時返回1,否則,返回0.
本文方法中用到了3個參數(shù)α、β和γ,α和γ是權(quán)重系數(shù),為區(qū)間[0,1]之間的數(shù),β是近鄰圖像數(shù).本節(jié),在Corel5K數(shù)據(jù)集上,通過實(shí)驗(yàn)法對它們進(jìn)行分析設(shè)置.
參數(shù)α是融合圖像視覺特征相似度和初始語義相關(guān)度的權(quán)重,我們通過尋找其最佳值,來提高待完備圖像的近鄰圖像質(zhì)量,圖2對參數(shù)α進(jìn)行了分析.從圖2可知,隨著α的逐漸增大,所提出方法的性能越來越好,并在α=0.9時達(dá)到峰值,之后,它的性能開始下降.因此,本文設(shè)置參數(shù)α=0.9.
圖2 評估指標(biāo)隨參數(shù)α的變化Fig.2 Change of evaluation index with parameter α
參數(shù)β是待完備圖像的近鄰圖像數(shù)量,尋找待完備圖像合適的近鄰數(shù),可以更好地完備圖像的缺失標(biāo)簽.圖3展示了評估指標(biāo)隨β的變化,從中可以看到,3個評估指標(biāo)曲線大體上均是先上升,后下降,最后趨于平穩(wěn)的趨勢.并且,評估指標(biāo)在β=50的時候,達(dá)到峰值,因此,β設(shè)置為50.
圖3 評估指標(biāo)隨參數(shù)β的變化Fig.3 Change of evaluation index with parameter β
參數(shù)γ是在度量候選標(biāo)簽與待完備圖像之間的關(guān)系時,用于平衡標(biāo)簽與圖像的視覺內(nèi)容相關(guān)度和語義相關(guān)度的權(quán)重.同樣,我們通過尋找其最優(yōu)值,來提升候選標(biāo)簽的精確度.由圖4可見,隨著γ的增加,評估指標(biāo)曲線有著程度較小的波動,雖然變化不太顯著,但是大體上呈現(xiàn)先上升后下降的趨勢,并在γ=0.1時,3個評估指標(biāo)均達(dá)到最大值.因此,通過觀察實(shí)驗(yàn)結(jié)果,γ設(shè)置為0.1.
圖4 評估指標(biāo)隨參數(shù)γ的變化Fig.4 Change of evaluation index with parameter γ
綜上分析,本文方法中用到的3個參數(shù)α、β和γ,分別設(shè)置為0.9、50和0.1.
為證明本文方法的有效性,將其與一些最具代表性的自動圖像標(biāo)注方法和傳統(tǒng)的標(biāo)簽完備方法在Corel5K以及Flickr30Concepts上分別進(jìn)行了比較.實(shí)驗(yàn)對比結(jié)果如圖5和圖6所示.
圖5 基準(zhǔn)數(shù)據(jù)集Corel5K上的對比實(shí)驗(yàn)結(jié)果Fig.5 Comparative experimental results on Corel5k
圖6 真實(shí)數(shù)據(jù)集Flickr30Concepts上的對比實(shí)驗(yàn)結(jié)果Fig.6 Comparative experimental results on Flickr30Concepts
從兩幅對比結(jié)果圖可以看出,與傳統(tǒng)AIA(automatic image annotation)方法JEC[18]和2PKNN[19]相比,TagProp[20]的總體性能最好.在最近的標(biāo)簽完備方法中,比如TMC[2]和LSR[3],這些方法能夠利用初始標(biāo)簽的信息,因此其標(biāo)注性能又優(yōu)于大多數(shù)AIA方法.由圖5可以看出,在Corel5K數(shù)據(jù)集上,本文方法明顯優(yōu)于其他方法.本文方法在AP@N、AR@N和C@N上分別達(dá)到30%、44%和54%,與標(biāo)簽完備方法TMC[2]相比,本文方法通過候選標(biāo)簽與初始標(biāo)簽的視覺和語義互學(xué)習(xí)構(gòu)建候選標(biāo)簽與待完備圖像的關(guān)系,有效去除噪聲標(biāo)簽,AP@N提高了7%,AR@N提高了11%,C@N提高了14%.相比于標(biāo)簽完備性能較好的線性稀疏重建方法LSR[3]和DLSR[4]以及LRSDO方法[5],本文方法利用有效的概念相似度方法Google距離,而不是僅基于待完備圖像與近鄰圖像的標(biāo)簽一致[5]考慮圖像語義相關(guān)度,更好地提升了近鄰圖像的質(zhì)量;同時,根據(jù)標(biāo)簽之間視覺內(nèi)容和語義互學(xué)習(xí),優(yōu)化了候選標(biāo)簽.與LRSDO方法[5]相比,AP@N提高了5%,AR@N提高了13%,C@N提高了10%.與LSR方法[3]和DLSR方法[4]相比,AP@N均提高了2%,AR@N均提高了2%,C@N均提高了4%.而由圖6可知,在Flickr30Concepts數(shù)據(jù)集上,本文方法與TMC方法[2]相比,3個指標(biāo)都有所提升;與使用歐氏距離考慮圖像初始標(biāo)簽的LRSDO方法[5]相比,本文方法的平均準(zhǔn)確率和平均召回率有所提升,覆蓋率一致;本文方法與標(biāo)簽完備效果較優(yōu)的DLSR方法[4]相比較,雖然平均準(zhǔn)確率和覆蓋率相差不大,但基于視覺和語義互學(xué)習(xí)更好地構(gòu)建了圖像與標(biāo)簽之間的關(guān)系比DLSR模型的平均召回率提高了5%,有一定的改進(jìn)效果.
最后,從以上分析可見,對于基準(zhǔn)數(shù)據(jù)集Corel5K和真實(shí)數(shù)據(jù)集Flickr30Concepts,本文所提出的標(biāo)簽完備方法都優(yōu)于以前的方法,這表明了我們方法的有效性.同時,從這兩個數(shù)據(jù)集的標(biāo)注性能結(jié)果來看,本文方法在這兩個數(shù)據(jù)集上的準(zhǔn)確率相同,Corel5K數(shù)據(jù)集上的召回率稍微高于Flickr30Concepts數(shù)據(jù)集,而Flickr30Concepts數(shù)據(jù)集上的覆蓋率較高于Corel5K數(shù)據(jù)集.因此,本文方法既適用于真實(shí)圖像數(shù)據(jù)又適用于基準(zhǔn)圖像數(shù)據(jù).
圖7 有無噪聲標(biāo)簽的Corel5K數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果Fig.7 Experimental results on Corel5k dataset with or without noise labels
為驗(yàn)證本文方法的魯棒性,我們把注意力從標(biāo)注良好的專家標(biāo)簽轉(zhuǎn)向了有噪聲的用戶標(biāo)簽.由于本文方法最初便在基準(zhǔn)數(shù)據(jù)集Corel5K以及真實(shí)數(shù)據(jù)集Flickr30Concepts進(jìn)行了對比實(shí)驗(yàn),因此進(jìn)行魯棒性檢測實(shí)驗(yàn)時,只需對Corel5K數(shù)據(jù)集進(jìn)行噪聲處理并重復(fù)3.4節(jié)的算法實(shí)驗(yàn).我們認(rèn)為當(dāng)在經(jīng)過噪聲處理的數(shù)據(jù)集實(shí)驗(yàn)結(jié)果與無噪聲數(shù)據(jù)集實(shí)驗(yàn)結(jié)果一致或相差較小時,本文方法具有很強(qiáng)的魯棒性.為此,隨機(jī)選取10%、20%、30%、40%、50%的Corel5K數(shù)據(jù)集圖像,并對其中每幅圖像,隨機(jī)刪除一個已有標(biāo)簽和補(bǔ)全一個錯誤標(biāo)簽.為避免實(shí)驗(yàn)結(jié)果的偶然性,進(jìn)行8次實(shí)驗(yàn),取8次實(shí)驗(yàn)的平均值作為最終的實(shí)驗(yàn)結(jié)果.為說明本文方法的有效性,將在含有噪聲標(biāo)簽的Corel5K數(shù)據(jù)集上的本文方法結(jié)果和在不含有噪聲標(biāo)簽的Corel5K數(shù)據(jù)集上的其他標(biāo)簽完備方法結(jié)果進(jìn)行對比.圖7展示了本文方法在有噪聲和無噪聲的Corel5K數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果.圖8展示了在無噪聲標(biāo)簽的Corel5K數(shù)據(jù)集中,其他標(biāo)簽完備方法實(shí)驗(yàn)結(jié)果和有噪聲標(biāo)簽的Corel5K數(shù)據(jù)集中,本文方法實(shí)驗(yàn)結(jié)果.
圖8 有噪聲標(biāo)簽的Corel5K數(shù)據(jù)集的對比實(shí)驗(yàn)結(jié)果Fig.8 Comparative experiment results on the Corel5K dataset with noisy labels
從圖7中可以看到,隨著Corel5K數(shù)據(jù)集噪聲數(shù)據(jù)的增加,3個評估指標(biāo)曲線均出現(xiàn)緩慢下降的趨勢,這是合乎常理的.本文方法在尋找待完備圖像的近鄰圖像時,考慮了初始語義.因此,初始語義的質(zhì)量對待完備圖像的近鄰圖像質(zhì)量有一定的影響,進(jìn)而影響到后續(xù)的標(biāo)簽完備結(jié)果.在圖7中,可以看出這種影響并不大.3個指標(biāo)中,平均準(zhǔn)確率和覆蓋率變化都相對平緩,平均召回率變化相對明顯.
圖8中,LSR 方法[3]、DLSR 方法[4]以及LRSDO方法[5]是近年來,標(biāo)注完備性能較好的標(biāo)簽完備方法.圖中顯示的LSR方法[3]、DLSR 方法[4]、LRSDO 方法[5]以及本文方法實(shí)驗(yàn)結(jié)果是在沒有進(jìn)行噪聲處理的Corel5K數(shù)據(jù)集上獲取的.10%數(shù)據(jù)噪聲柱、20%數(shù)據(jù)噪聲柱以及30%數(shù)據(jù)噪聲柱對應(yīng)的結(jié)果分別是本文方法在10%含有噪聲標(biāo)簽的Corel5K數(shù)據(jù)集、20%含有噪聲標(biāo)簽的Corel5K數(shù)據(jù)集和30%含有噪聲標(biāo)簽的Corel5K數(shù)據(jù)集上獲取的.從圖8中可以看出,在10%含有噪聲標(biāo)簽的Corel5K數(shù)據(jù)集上,本文方法依舊優(yōu)于其他標(biāo)簽完備方法;在20%含有噪聲標(biāo)簽的Corel5K數(shù)據(jù)集上,本文方法的平均準(zhǔn)確率和覆蓋率優(yōu)于其他標(biāo)簽完備方法,而平均召回率略低于它們;而在30%含有噪聲標(biāo)簽的Corel5K數(shù)據(jù)集上,本文方法的平均準(zhǔn)確率和較好的DLSR方法一致,平均召回率低于DLSR方法6%,覆蓋率低于DLSR方法2%.可見,當(dāng)Corel5K數(shù)據(jù)集上含有20%的噪聲數(shù)據(jù)時,本文方法依舊有一定的優(yōu)越性.
本文提出了一種基于視覺和語義互學(xué)習(xí)的標(biāo)簽完備標(biāo)注方法,通過基于視覺和語義的兩次互相學(xué)習(xí),有效地實(shí)現(xiàn)了圖像標(biāo)簽完備標(biāo)注.第1次融合待完備圖像視覺特征和初始語義搜索其近鄰圖像集,提升了近鄰圖像集的質(zhì)量;第2次依據(jù)候選標(biāo)簽與初始標(biāo)簽的視覺內(nèi)容和語義,并結(jié)合標(biāo)簽頻率進(jìn)一步考慮候選標(biāo)簽與待完備圖像之間的關(guān)聯(lián)關(guān)系,有效地對候選標(biāo)簽進(jìn)行了去噪優(yōu)化.在基準(zhǔn)數(shù)據(jù)集Corel5K以及真實(shí)數(shù)據(jù)集Flickr30Concepts上進(jìn)行實(shí)驗(yàn),證明了本文方法標(biāo)簽完備標(biāo)注的性能.下一步的研究工作主要是利用視覺特征聚類劃分待完備圖像初始標(biāo)簽語義優(yōu)先級,去除初始噪聲標(biāo)簽,更好地提高近鄰圖像質(zhì)量,進(jìn)一步提升圖像標(biāo)簽完備標(biāo)注精度.