熊 威,王展青,王曉雨
(武漢理工大學(xué) 理學(xué)院,武漢 430070)
隨著互聯(lián)網(wǎng)信息和科學(xué)技術(shù)的高速發(fā)展,多媒體數(shù)據(jù)呈現(xiàn)爆炸式增長(zhǎng).為滿足人們對(duì)多樣化數(shù)據(jù)的需求,跨模態(tài)數(shù)據(jù)的檢索技術(shù)成為人工智能領(lǐng)域的研究熱點(diǎn).例如,給定一個(gè)查詢圖像,可能需要檢索一組最能描述該圖像的文本,或者將給定的文本匹配一組在視覺上關(guān)聯(lián)的圖像.跨模態(tài)檢索任務(wù)能夠高效地分析多模態(tài)數(shù)據(jù)的語義關(guān)聯(lián)性,實(shí)現(xiàn)不同模態(tài)之間的相互匹配.在信息檢索[1,2]、圖像分類[3,4]和目標(biāo)檢測(cè)[5]等計(jì)算機(jī)視覺應(yīng)用中,最近鄰(NN)[6,7]搜索是一種應(yīng)用廣泛的檢索技術(shù),能根據(jù)特定的距離測(cè)量方法從數(shù)據(jù)庫中找到最接近查詢樣本的數(shù)據(jù).對(duì)于大規(guī)模數(shù)據(jù)或類型復(fù)雜的樣本,在數(shù)據(jù)庫中計(jì)算查詢樣本與檢索樣本之間的距離需要大量的計(jì)算.為了降低查找最近鄰的代價(jià),近似最近鄰(ANN)[8]成為跨模態(tài)檢索任務(wù)中最常用的檢索方式.近年來,由于數(shù)據(jù)的哈希特征表示具有存儲(chǔ)空間小和檢索速度快、通訊開銷低等優(yōu)點(diǎn),因此在大規(guī)模信息檢索領(lǐng)域得到廣泛的關(guān)注和重視[9].
跨模態(tài)檢索的關(guān)鍵問題是如何學(xué)習(xí)不同模態(tài)數(shù)據(jù)之間的內(nèi)在相關(guān)性[10].早期基于哈希的跨模態(tài)檢索方法[11-13]通常將手工特征(SIFT、GIST等)投影到漢明空間,并在哈希碼的學(xué)習(xí)過程中保持?jǐn)?shù)據(jù)特征的關(guān)聯(lián)性.然而這些哈希方法將特征提取和哈希學(xué)習(xí)視為兩個(gè)獨(dú)立的過程,不能在同一框架內(nèi)進(jìn)行特征學(xué)習(xí)和哈希學(xué)習(xí)[14].
隨著深度學(xué)習(xí)的迅速發(fā)展,許多基于深度學(xué)習(xí)的哈希方法被提出.然而,這些方法大多采用由標(biāo)簽信息構(gòu)成的傳統(tǒng)相似性度量,簡(jiǎn)單的將數(shù)據(jù)間的關(guān)聯(lián)性分為相似與不相似.一些深度學(xué)習(xí)方法提出了相似性度量上的改進(jìn)(如余弦相似度[15]和杰卡德相似系數(shù)(Jaccard coefficient)[16]),取得了檢索性能上的提升.由于來自不同模態(tài)的數(shù)據(jù)具有特定的表示形式,因此進(jìn)一步挖掘數(shù)據(jù)內(nèi)容的潛在關(guān)聯(lián)性能夠提高跨模態(tài)檢索模型的性能.
為了深入挖掘潛在多模態(tài)數(shù)據(jù)的深度特征信息和空間結(jié)構(gòu)信息,本文提出一種新的深度聯(lián)合語義模型(DJSH)如圖1所示.算法的主要貢獻(xiàn)總結(jié)如下:
1)提出一種端對(duì)端的深度聯(lián)合語義框架,能夠充分挖掘跨模態(tài)數(shù)據(jù)的深度特征關(guān)聯(lián)性和原始數(shù)據(jù)的近鄰關(guān)系.
2)構(gòu)造能夠平衡數(shù)據(jù)分布的特征學(xué)習(xí)損失,不僅能判別數(shù)據(jù)是否相似,還保留了數(shù)據(jù)內(nèi)容的相似性.
3)引入基于拉普拉斯約束(Laplace Constrain)的圖近鄰結(jié)構(gòu),使學(xué)習(xí)到的哈希碼不僅能夠保持原始數(shù)據(jù)的近鄰關(guān)系,還可以保留原始數(shù)據(jù)的相似度排序.
4)為學(xué)習(xí)到具有高效鑒別能力的哈希碼,通過標(biāo)簽預(yù)測(cè)和標(biāo)簽對(duì)齊技術(shù),使生成的哈希碼有不同類別的判別信息.
根據(jù)在訓(xùn)練過程中是否使用標(biāo)簽等先驗(yàn)知識(shí),跨模態(tài)哈希方法大致可以分為無監(jiān)督方法[17-21]和監(jiān)督方法[11-14,22-36].
無監(jiān)督跨模態(tài)哈希方法通常從未標(biāo)記的多模態(tài)數(shù)據(jù)中挖掘模態(tài)內(nèi)和模態(tài)間的相關(guān)性,并學(xué)習(xí)原始數(shù)據(jù)到公共子空間的映射.跨媒體哈希(Inter-Media Hashing,IMH)[17]利用線性回歸模型學(xué)習(xí)哈希函數(shù),將來自異構(gòu)數(shù)據(jù)源的未標(biāo)記數(shù)據(jù)映射到一個(gè)公共的特征子空間.無監(jiān)督深度跨模態(tài)哈希(Unsupervised Deep Cross-Modal Hashing,UDCMH)[18]利用深度神經(jīng)網(wǎng)絡(luò)和矩陣分解建立二元潛在因子模型,并在哈希學(xué)習(xí)過程中引入Laplace約束.基于字典學(xué)習(xí)的跨模態(tài)哈希(Dictionary Learning Cross-Modal Hashing,DLCMH)[19]通過字典學(xué)習(xí)生成數(shù)據(jù)的稀疏表示,再投影到潛在的公共子空間中進(jìn)行哈希學(xué)習(xí).深度聯(lián)合語義重構(gòu)哈希(Deep Joint-Semantics Reconstructing Hashing,DJSRH)[20]計(jì)算原始數(shù)據(jù)特征的余弦相似性并構(gòu)造聯(lián)合語義一致性矩陣,較好地捕捉未標(biāo)記實(shí)例潛在的語義相關(guān)性.循環(huán)一致性深度生成哈希(Cycle-consistent deep generative hashing,CYC-DGH)[21]設(shè)計(jì)生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò),其中生成網(wǎng)絡(luò)通過數(shù)據(jù)的概率分布,將任意模態(tài)的數(shù)據(jù)生成另一模態(tài)的數(shù)據(jù),而判別網(wǎng)絡(luò)用于判別數(shù)據(jù)的真假,生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)通過對(duì)抗博弈的訓(xùn)練方式提高各自的學(xué)習(xí)能力.
監(jiān)督跨模態(tài)哈希方法通常利用訓(xùn)練數(shù)據(jù)標(biāo)簽或標(biāo)簽的語義相關(guān)性等監(jiān)督信息來挖掘多模態(tài)數(shù)據(jù)之間的關(guān)聯(lián).跨視圖哈希(Cross-View Hashing,CVH)[22]擴(kuò)展了單模態(tài)視圖哈希,針對(duì)不同的模態(tài)數(shù)據(jù)學(xué)習(xí)各自的哈希函數(shù),同時(shí)在訓(xùn)練過程中保留了視圖內(nèi)和視圖間的關(guān)聯(lián)性.判別式跨模態(tài)哈希(Discriminant Cross-modal Hashing,DCH)[23]構(gòu)造一個(gè)具有二進(jìn)制約束的線性分類器,最小化哈希碼與標(biāo)簽之間的線性映射誤差.語義最相關(guān)性最大化(Semantic Correlation Maximization,SCM)[24]通過構(gòu)造成對(duì)相似度矩陣最大化多模態(tài)數(shù)據(jù)的語義相關(guān)性.語義保留哈希(Semantics-Preserving Hashing,SePH)[25]利用原始數(shù)據(jù)的概率分布構(gòu)造關(guān)聯(lián)性矩陣,并最小化KL 散度(Kullback-Leibler Divergence)進(jìn)行哈希學(xué)習(xí).深度跨模態(tài)哈希(Deep Cross-Modal Hashing,DCMH)[26]結(jié)合端對(duì)端的學(xué)習(xí)思想,首次提出特征提取和哈希學(xué)習(xí)并行的深度框架.自監(jiān)督對(duì)抗哈希(Self-Supervised Adversarial Hashing,SSAH)[27]利用標(biāo)簽信息訓(xùn)練標(biāo)簽語義網(wǎng)絡(luò),作為其他網(wǎng)絡(luò)的監(jiān)督網(wǎng)絡(luò)進(jìn)行哈希學(xué)習(xí).基于三元組的深度哈希(Triplet-based Deep Hashing,TDH)[28]引入基于三元組的相似度損失函數(shù),既能保留成對(duì)數(shù)據(jù)間的相似性,同時(shí)也能捕捉到實(shí)例間的差異性.注意力感知的深度對(duì)抗哈希(Attention-aware Deep Adversarial Hashing,ADAH)[29]引入注意機(jī)制,用于區(qū)分注意區(qū)域(前景)與非注意區(qū)域(背景),提取到數(shù)據(jù)的顯著特征.
(1)
其中θx和θy分別表示圖像網(wǎng)絡(luò)和文本網(wǎng)絡(luò)的參數(shù),f(xi;θx)表示圖像網(wǎng)絡(luò)中哈希層的輸出,g(yj;θy)表示文本網(wǎng)絡(luò)中哈希層的輸出.圖像和文本的跨模態(tài)檢索模型的主要任務(wù)是學(xué)習(xí)高質(zhì)量的哈希函數(shù)f(xi;θx)和g(yj;θy),使得當(dāng)Sij=1時(shí)圖像哈希特征Fi*和文本哈希特征Gj*有盡可能一致的表達(dá); 而當(dāng)Sij=0時(shí)圖像哈希特征Fi*和文本哈希特征Gj*的相似性盡可能低.
本文提出的深度聯(lián)合語義框架如圖1所示,該框架由兩個(gè)部分組成: 特征學(xué)習(xí)模塊,通過圖像和文本網(wǎng)絡(luò)分別學(xué)習(xí)具有強(qiáng)關(guān)聯(lián)性的深度圖像特征和深度文本特征,并構(gòu)造圖像模態(tài)和文本模態(tài)的鄰接矩陣保留原始數(shù)據(jù)特征的相似度排序;標(biāo)簽預(yù)測(cè)與對(duì)齊模塊,能夠生成與真實(shí)標(biāo)簽維度相同的預(yù)測(cè)標(biāo)簽,并將富含語義信息的標(biāo)簽矩陣對(duì)齊到哈希碼矩陣中,提高不同類別實(shí)例生成的哈希碼的區(qū)分能力.
圖1 本文的算法框架Fig.1 Framework of deep joint-semantic hash(DJSH)
在圖像模態(tài)數(shù)據(jù)的特征學(xué)習(xí)中,使用的深度神經(jīng)網(wǎng)絡(luò)由8個(gè)層次組成,包括5個(gè)卷積層(conv1-conv5)和3個(gè)全連接層(fc6-fc8).網(wǎng)絡(luò)的前7層與CNN-F完全相同,均使用relu作為激活函,在第7層之后添加一個(gè)具有r+c個(gè)隱藏節(jié)點(diǎn)的全連接層.其中包含哈希層和標(biāo)簽層,哈希層具有r個(gè)隱藏節(jié)點(diǎn),并使用tanh激活函數(shù)生成r位的哈希特征; 標(biāo)簽層則有c個(gè)隱藏節(jié)點(diǎn),并使用sigmoid作為激活函數(shù)生成c類的預(yù)測(cè)標(biāo)簽.具體的圖像網(wǎng)絡(luò)設(shè)置如表1所示.
表1 圖像網(wǎng)絡(luò)設(shè)置Table 1 Configuration of image modality
對(duì)于文本模態(tài)的特征學(xué)習(xí),使用的深度神經(jīng)網(wǎng)絡(luò)是由3個(gè)全連接層組成的深度前饋神經(jīng)網(wǎng)絡(luò).文本網(wǎng)絡(luò)的輸入是由詞袋(Bag of Words,BoW)模型提取到的文本表示,經(jīng)過3個(gè)全連接層,輸出深度文本特征和預(yù)測(cè)標(biāo)簽.其中fc1層的長(zhǎng)度等于詞向量的長(zhǎng)度,fc2層有512個(gè)隱藏節(jié)點(diǎn),fc3層是一個(gè)具有r+c個(gè)隱藏節(jié)點(diǎn)的全連接層.網(wǎng)絡(luò)的前兩層(fc1、fc2)均使用relu作為激活函數(shù),最后一層(fc3)的哈希層和標(biāo)簽層分別使用tanh和sigmoid作為激活函數(shù),分別生成哈希特征和預(yù)測(cè)標(biāo)簽.具體的文本網(wǎng)絡(luò)設(shè)置如表2所示.
表2 文本網(wǎng)絡(luò)設(shè)置Table 2 Configuration of textual modality
4.2.1 哈希特征學(xué)習(xí)
深度跨模態(tài)哈希算法通常利用標(biāo)簽信息構(gòu)造數(shù)據(jù)間的相似度度量,并在高層空間保持特征的關(guān)聯(lián)性,從而學(xué)習(xí)不同模態(tài)的哈希函數(shù).標(biāo)簽語義相似度通常將樣本間的關(guān)聯(lián)性描述為相似或不相似,其似然函數(shù)的定義如式(2)所示:
(2)
(3)
對(duì)于存在相同類標(biāo)的樣本,標(biāo)簽語義相似度難以區(qū)分其相似程度,因此當(dāng)訓(xùn)練數(shù)據(jù)集中相似樣本對(duì)的比例較高時(shí),該特征學(xué)習(xí)損失無法有效地勝任特征匹配任務(wù).受文獻(xiàn)[16]的啟發(fā),杰卡德系數(shù)能夠有效地反映樣本數(shù)據(jù)內(nèi)容的相似性,計(jì)算方式如式(4)所示:
(4)
其中l(wèi)i(lj)是標(biāo)簽矩陣的第i(j)行,li(lj)={0,1}∈c*1.Nli(Nlj) 表示li(lj)中元素1的個(gè)數(shù),Nli,lj表示li和lj對(duì)應(yīng)位置上都有1的個(gè)數(shù).
(5)
(6)
(7)
Jinter僅考慮了不同模態(tài)樣本對(duì)的相似性,可能導(dǎo)致模型難以衡量相同模態(tài)樣本之間的關(guān)聯(lián)性.為使生成的哈希特征在公共空間保持相同模態(tài)樣本的關(guān)聯(lián)性,增強(qiáng)數(shù)據(jù)模態(tài)內(nèi)的成對(duì)相似性,模態(tài)內(nèi)成對(duì)的相似性損失如式(8)所示:
(8)
4.2.2 相似度排序?qū)W習(xí)
監(jiān)督哈希方法大多利用基于多標(biāo)簽信息的語義相似度來度量?jī)蓚€(gè)實(shí)例之間的關(guān)聯(lián)性,而不同模態(tài)數(shù)據(jù)都有特定的表示形式,因此跨模態(tài)數(shù)據(jù)的關(guān)聯(lián)信息可能不只存在于抽象形式.為深入挖掘多模態(tài)數(shù)據(jù)的近鄰結(jié)構(gòu),分別用I和T表示原始圖像和原始文本的近鄰矩陣,其矩陣元素通過式(9)進(jìn)行計(jì)算:
(9)
式(9)中ui和uj分別表示第i個(gè)圖像與第j個(gè)圖像的SIFT特征,vi和vj分別表示第i個(gè)文本與第j個(gè)文本由詞袋模型提取到的文本特征.為克服神經(jīng)網(wǎng)絡(luò)特征與原始數(shù)據(jù)特征的不兼容問題,分別為圖像模態(tài)和文本模態(tài)構(gòu)造特定的拉普拉斯約束(Laplace Constrain) ∑ijIij‖F(xiàn)i*-Fj*‖2和∑ijTij‖Gi*-Gj*‖2,確保生成的哈希碼保留原始數(shù)據(jù)的相似度排序.以圖像模態(tài)為例,如果I12>I13,則在訓(xùn)練過程中F1*與F2*的相似程度比F1*與F3*的相似程度更高.因此拉普拉斯約束能夠在哈希學(xué)習(xí)中保留原始數(shù)據(jù)的近鄰結(jié)構(gòu),同時(shí)保留了原始數(shù)據(jù)的相似性排序.然而優(yōu)化拉普拉斯約束項(xiàng)是個(gè)離散問題,需要逐一計(jì)算批量訓(xùn)練數(shù)據(jù)的特征距離,因此將拉普拉斯約束改寫成式(10):
(10)
其中LI=diag(I1)-I,LI=diag(T1)-T.因此相似度排序損失如式(11)所示:
Jrank=β(Tr(FTLIF)+Tr(GTLTG))
(11)
其中β是參數(shù).
4.2.3 聯(lián)合語義特征損失
聯(lián)合語義特征損失通過基于內(nèi)容的相似度度量深度挖掘圖像、文本數(shù)據(jù)內(nèi)容的關(guān)聯(lián)性,并引入基于拉普拉斯約束的圖近鄰結(jié)構(gòu)保留原始數(shù)據(jù)特征的相似度排序.因此聯(lián)合語義特征損失包含圖像、文本網(wǎng)絡(luò)特征的模態(tài)間損失、模態(tài)內(nèi)損失和原始數(shù)據(jù)的相似度排序損失,其能夠表示為式(12):
Jjoint=Jinter+Jintra+Jrank
(12)
受SSAH[26]的啟發(fā),DJSH還為每個(gè)模態(tài)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練一個(gè)標(biāo)簽層,能夠生成與真實(shí)標(biāo)簽維度相同的預(yù)測(cè)標(biāo)簽.跨模態(tài)數(shù)據(jù)生成的預(yù)測(cè)標(biāo)簽與真實(shí)標(biāo)簽盡可能保持一致,因此預(yù)測(cè)標(biāo)簽損失定義如式(13)所示:
(13)
大多數(shù)深度哈希方法在學(xué)習(xí)哈希碼的過程中僅關(guān)注實(shí)例間的相似性度量,因而不能保證學(xué)習(xí)到具有高效鑒別能力的哈希碼.為了使不同類別實(shí)例生成的哈希碼有更好的區(qū)分能力,受一些自編碼方法[30-32]的啟發(fā),DJSH引入標(biāo)簽對(duì)齊技術(shù),將標(biāo)簽中不同類別的判別信息嵌入到哈希碼中.具體來說,DJSH額外學(xué)習(xí)到一個(gè)標(biāo)簽矩陣L到哈希矩陣B的穩(wěn)定線性映射P,使得LP≈B.因此標(biāo)簽對(duì)齊損失如式(14)所示:
(14)
標(biāo)簽對(duì)齊技術(shù)通過學(xué)習(xí)標(biāo)簽矩陣到哈希碼的映射,能夠保證哈希碼的每一位都具有豐富的類別信息.
為了進(jìn)一步提高模型的性能,在訓(xùn)練階段保證圖像和文本數(shù)據(jù)學(xué)習(xí)到相同的哈希碼,因此量化損失如式(15)所示:
(15)
本文的算法模型包含特征學(xué)習(xí)模塊和標(biāo)簽預(yù)測(cè)、對(duì)齊模塊,綜合兩個(gè)組成成分,本文的目標(biāo)函數(shù)如式(16)所示:
J=Jjoint+λJ4+μJ5+ηJ6
(16)
其中η、λ和μ是平衡參數(shù).
對(duì)于含有2個(gè)矩陣變量P,B和兩個(gè)網(wǎng)絡(luò)參數(shù)θx,θy來說,目標(biāo)函數(shù)式(16)是非凸的,采用交替迭代策略更新各參數(shù).
(17)
(18)
(19)
(20)
固定其他參數(shù)B,θx和θy,式(16)可簡(jiǎn)化為式(21):
(21)
通過計(jì)算式(21)的跡,可以得到式(22):
(22)
式(22)對(duì)P的導(dǎo)數(shù)可表示為式(23):
(23)
令其導(dǎo)數(shù)的值等于0,得到P的表達(dá)式如式(24)所示:
P=μ(LTL+I)-1LTB
(24)
固定其他參數(shù)P,θx和θy,式(16)可以簡(jiǎn)化為式(25):
(25)
式(25)能夠轉(zhuǎn)化為基于跡的問題,如式(26)所示:
(26)
其中H=ηF+ηG+μLP,哈希碼矩陣通過式(27)進(jìn)行更新:
B=sign(ηF+ηG+μLP)
(27)
在檢索過程中,對(duì)于一個(gè)不在訓(xùn)練集里的圖像數(shù)據(jù)xquery,能夠通過圖像模態(tài)網(wǎng)絡(luò)生成哈希碼如式(28)所示:
(28)
同樣地,對(duì)于需要檢索的文本數(shù)據(jù)yquery,能夠通過文本模態(tài)網(wǎng)絡(luò)生成哈希碼如式(29)所示:
(29)
深度聯(lián)合語義算法的具體過程如算法1所示.
算法1.深度聯(lián)合語義跨模態(tài)哈希算法
輸入:圖像集X,文本集Y,標(biāo)簽矩陣L.
輸出:網(wǎng)絡(luò)參數(shù)θx和θy,線性投影矩陣P和哈希碼矩陣B.
1.初始化參數(shù)α,β,η,λ,μ,矩陣P和B,設(shè)置圖像和文本的批量值nx和ny,最大迭代數(shù)Tmax,圖像網(wǎng)絡(luò)和文本網(wǎng)絡(luò)迭代次數(shù)Tx和Ty
2.for i=1 toTxdo
4.通過鏈?zhǔn)椒▌t和反向傳播更新圖像網(wǎng)絡(luò)參數(shù)θx
5.end for
6.fori=1 toTydo
8.通過鏈?zhǔn)椒▌t和反向傳播更新文本網(wǎng)絡(luò)參數(shù)θy
9.end for
10.通過式(24更新)P;
11.用式(27)更新B;
12.重復(fù)步驟2-步驟11直到目標(biāo)函數(shù)達(dá)到收斂閾值或達(dá)到最大迭代數(shù)Tmax.
本文在MIRFLICKR25K[34]、NUS-WIDE[35]以及IAPR-TC12[36]基準(zhǔn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,并與最先進(jìn)的跨模態(tài)哈希方法進(jìn)行檢索性能的比較和分析.
MIRFLICKR25K[34]:該數(shù)據(jù)集包含從flickr網(wǎng)站收集的25015張圖片.實(shí)驗(yàn)中只保留那些至少有20個(gè)文本標(biāo)記的實(shí)例,形成20015個(gè)圖像-文本對(duì).其中文本數(shù)據(jù)描述為1386維的單詞包向量,且每個(gè)樣本對(duì)都用一個(gè)或多個(gè)標(biāo)簽進(jìn)行注釋,總共有24個(gè)語義標(biāo)簽.
NUS-WIDE[35]:該數(shù)據(jù)集包含195834幅網(wǎng)絡(luò)圖像和相關(guān)的文本標(biāo)簽.每個(gè)樣本對(duì)都帶有21個(gè)概念標(biāo)簽,文本被表示為一個(gè)1000維的詞向量,而手工制作的圖像特征是一個(gè)500維的視覺單詞包(bag-of-visual words,BOVW)向量.
IAPR-TC12[36]:該數(shù)據(jù)集由20000幅圖像組成,這些圖像來自廣泛的領(lǐng)域,如運(yùn)動(dòng)和行動(dòng)、人、動(dòng)物、城市、景觀等.每張圖像至少提供一個(gè)句子注釋,且每個(gè)樣本對(duì)使用275個(gè)標(biāo)簽進(jìn)行注釋.為了評(píng)估,使用12個(gè)最常見概念標(biāo)簽的18715幅圖像,然后生成33447個(gè)圖像句子對(duì).
實(shí)驗(yàn)環(huán)境為Ubuntu18.04,CPU為E5-2670,內(nèi)存64G,顯卡型號(hào)為1080Ti 11G.在實(shí)驗(yàn)中設(shè)置參數(shù)α=β=η=λ=μ=1,圖像模態(tài)網(wǎng)絡(luò)的學(xué)習(xí)率為[10-9,10-5.5],文本模態(tài)網(wǎng)絡(luò)的學(xué)習(xí)率為[10-9,10-4.5],并從每個(gè)數(shù)據(jù)集中隨機(jī)取樣12000個(gè)實(shí)例進(jìn)行實(shí)驗(yàn),其中10000個(gè)實(shí)例用于訓(xùn)練,2000個(gè)實(shí)例用于測(cè)試.模型的性能評(píng)估指標(biāo)采用平均精度均值(Mean Average Precision)[37]和精度-召回率(Precision-Recall)[38].所有的實(shí)驗(yàn)都是在pytorch框架下進(jìn)行,并取3次實(shí)驗(yàn)結(jié)果的平均值進(jìn)行展示.
平均精度均值(mAP)是信息檢索中常用的評(píng)估指標(biāo),是查詢平均精度(AP)的平均值,能夠反映檢索精度的平均水平,計(jì)算方式如式(30)所示:
(30)
其中,M是查詢數(shù)據(jù)集,AP(qi)是查詢數(shù)據(jù)qi的平均精度.精確度的平均值計(jì)算如式(31)所示:
(31)
其中N是檢索數(shù)據(jù)集里與qi相關(guān)的實(shí)例數(shù)量,R表示數(shù)據(jù)總量.p(r)為前r個(gè)被檢索實(shí)例的精度.d(r)為指標(biāo)函數(shù),d(r)=1表示檢索實(shí)例與查詢實(shí)例相關(guān);d(r)=0表示兩者不相關(guān).
精度-召回率(Precision-Recall,P-R)是哈希查詢中常用的重要評(píng)估指標(biāo),能反映模型在不同召回率下的精度.精度和召回率計(jì)算如式(32)所示:
(32)
其中TP表示檢索的相關(guān)數(shù)據(jù),F(xiàn)P表示檢索的不相關(guān)數(shù)據(jù),F(xiàn)N表示未檢索的不相關(guān)數(shù)據(jù).
本文與7種先進(jìn)的跨模態(tài)哈希算法CVH[22]、STMH[11]、SCM[24]、SePH[25]、DCMH[26]、SSAH[27]、ADAH[29]進(jìn)行比較.其中,CVH、STMH、SCM、SePH算法均采用手工特征,其它算法通過深度神經(jīng)網(wǎng)絡(luò)提取數(shù)據(jù)特征.
表3展示了不同方法在3個(gè)數(shù)據(jù)集上的圖像檢索文本和文本檢索圖像兩種任務(wù)下的mAP,其中I→T和T→I分別表示圖像檢索文本和文本檢索圖像任務(wù).從表中容易看出,深度哈希方法要比非深度哈希方法性能更好.
表3 本文算法與其他跨模態(tài)檢索算法的mAP對(duì)比Table 3 mAP comparison of different methods
在數(shù)據(jù)集MIRFLICKR25K上,很容易發(fā)現(xiàn)與其他方法相比,DJSH的mAP有明顯的提升.具體而言,該算法與非深度框架比較,mAP提高了15%~25%;而對(duì)于深度框架(DCMH、SSAH和ADAH)而言,也同樣有4%~10%的提升.特別的是,該算法在64位碼長(zhǎng)下的mAP高達(dá)0.851(I→T)和0.855(T→I).在數(shù)據(jù)集NUS-WIDE和IAPR-TC12下的實(shí)驗(yàn)結(jié)果顯示,DJSH的mAP平均高出其它深度框架0.1左右,由于DJSH較其它算法融入更加豐富的數(shù)據(jù)內(nèi)容信息,基于拉普拉斯約束的特征相似度排序能夠克服原始數(shù)據(jù)特征和神經(jīng)網(wǎng)絡(luò)特征的不兼容問題,因此學(xué)習(xí)到的哈希碼有更好的語義判別性,更能適應(yīng)多模態(tài)數(shù)據(jù)的相互檢索任務(wù).
圖2給出了所有比較方法在不同數(shù)據(jù)集下碼長(zhǎng)為16的精度-召回率曲線(precision-recall curves).從圖2(a)-圖2(c)容易看出,DJSH在圖像檢索文本任務(wù)上有明顯的優(yōu)勢(shì),在不同召回率下的mAP普遍高于其它方法; 從圖2(d)-圖2(f)同樣能夠看出,DJSH在文本檢索圖像任務(wù)上具有更高的檢索效果,在不同召回率下的mAP普遍高于其它方法.DJSH算法提出的聯(lián)合語義特征損失同時(shí)考慮了模態(tài)間數(shù)據(jù)特征的關(guān)聯(lián)性損失和模態(tài)內(nèi)數(shù)據(jù)特征的關(guān)聯(lián)性損失,不僅能夠保持多模態(tài)數(shù)據(jù)內(nèi)容的相似性,而且能夠平衡相似樣本對(duì)與非相似樣本對(duì)的分布,因此DJSH的精度-召回率曲線更加平滑.
圖2 各算法的P-R曲線對(duì)比(16bit)Fig.2 Precision-recall curves of different methods(16bit)
圖3展示了5個(gè)參數(shù)在MIRFLICKR25K數(shù)據(jù)集上的敏感性分析.在實(shí)驗(yàn)中,將哈希碼長(zhǎng)度為16,設(shè)置參數(shù)的取值范圍設(shè)置為{0.01,0.1,1,10,100},通過改變其中一個(gè)參數(shù)值,同時(shí)固定其他參數(shù)值為1,研究該參數(shù)對(duì)mAP的影響.通過圖3(a)-圖3(f)容易看到DJSH算法模型的mAP對(duì)參數(shù)α,β,η,λ的敏感性較高,其中α和λ在1附近達(dá)到mAP的最大值,β和η在區(qū)間[0.1,1]達(dá)到mAP的最大值.通過圖3(e)可以發(fā)現(xiàn)DJSH算法模型的mAP對(duì)參數(shù)μ的敏感性較低,當(dāng)μ∈[1,10]時(shí)mAP最大.
圖3 各參數(shù)的敏感度分析(MIRFLICKR25K,16bit)Fig.3 Sensitivity analysis of five hyper-parameters (MIRFLICKR25K,16bit)
為進(jìn)一步研究樣本數(shù)據(jù)對(duì)模型檢索性能的影響,本章節(jié)針對(duì)不同數(shù)量訓(xùn)練樣本對(duì)mAP的影響進(jìn)行了研究.在MIRFLICKR25K和NUS-WIDE數(shù)據(jù)集下碼長(zhǎng)為16的實(shí)驗(yàn)中,分別設(shè)置訓(xùn)練樣本數(shù)據(jù)大小為2500、5000、7500和10000.圖4給出了MIRFLICKR25K數(shù)據(jù)集和NUS-WIDE下mAP隨樣本大小的變化曲線,容易看出DJSH算法模型能夠在少量訓(xùn)練樣本的情況下,也同樣能夠獲取到較高性能的哈希函數(shù).
圖4 MAP在不同樣本大小下的變化Fig.4 MAP of different sample size
為進(jìn)一步研究深度聯(lián)合語義算法的有效性,在實(shí)驗(yàn)中設(shè)計(jì)一些DJSH算法的變體: DJSH-1、DJSH-2、DJSH-3、DJSH-4.其中DJSH-1不考慮相同模態(tài)數(shù)據(jù)的關(guān)聯(lián)性,DJSH-2不考慮原始數(shù)據(jù)的相似性排序,DJSH-3不考慮0-1標(biāo)簽相似度損失,DJSH-4不考慮跨模態(tài)數(shù)據(jù)的內(nèi)容損失.表4給出了4種變體在兩個(gè)數(shù)據(jù)集上的圖像檢索文本和文本檢索圖像兩種檢索任務(wù)下的mAP.實(shí)驗(yàn)結(jié)果表明,相同模態(tài)數(shù)據(jù)的關(guān)聯(lián)性、原始數(shù)據(jù)的相似性排序、標(biāo)簽相似度損失和基于杰卡德系數(shù)的內(nèi)容損失都對(duì)DJSH算法模型的檢索性能有顯著影響,驗(yàn)證了深度聯(lián)合語義算法的可行性.
表4 各變體的MAP對(duì)比(16bit)Table 4 MAP comparison of DJSH variants(16bit)
本文提出了一種深度聯(lián)合語義跨模態(tài)哈希算法,通過構(gòu)造聯(lián)合語義特征損失保持跨模態(tài)數(shù)據(jù)的特征關(guān)聯(lián)性和相似性排序,既增強(qiáng)多模態(tài)數(shù)據(jù)內(nèi)容的相似性,同時(shí)有效地解決了原始數(shù)據(jù)特征和神經(jīng)網(wǎng)絡(luò)特征的兼容性問題.此外,通過標(biāo)簽預(yù)測(cè)與對(duì)齊技術(shù),把標(biāo)簽語義信息嵌入到網(wǎng)絡(luò)特征的學(xué)習(xí)過程中,生成富含類別信息的哈希碼.在MIRFLICKR25K、NUS-WIDE以及IAPR-TC12數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文提出的算法模型在檢索精度上有明顯的優(yōu)勢(shì).然而本文的算法在模型訓(xùn)練中需要不同模態(tài)的成對(duì)樣本學(xué)習(xí)相同的哈希碼,這可能導(dǎo)致原始數(shù)據(jù)的部分信息流失.我們將在下一步的工作中研究非對(duì)稱哈希方法,在每個(gè)模態(tài)的深度網(wǎng)絡(luò)中不要求樣本對(duì)學(xué)習(xí)到相同的哈希碼.非對(duì)稱哈希方法僅通過深度哈希函數(shù)學(xué)習(xí)查詢實(shí)例的哈希碼,而單獨(dú)學(xué)習(xí)數(shù)據(jù)庫實(shí)例的哈希碼,不僅避免哈希學(xué)習(xí)過程中的信息流失,還能減少訓(xùn)練時(shí)間.