梁美玉 王笑笑 杜軍平
在線社交網(wǎng)絡(luò)和互聯(lián)網(wǎng)的迅猛發(fā)展,如Flickr、Twitter、Facebook、新浪微博等,網(wǎng)絡(luò)中積累大量的用戶數(shù)據(jù),包括文本、圖像、視頻等不同媒體類型的跨媒體數(shù)據(jù).這些海量的跨媒體數(shù)據(jù)中蘊(yùn)含有價(jià)值的信息,而且不同媒體數(shù)據(jù)對(duì)于信息的描述是互補(bǔ)性的,因此,通過(guò)跨媒體數(shù)據(jù)搜索(如基于文本搜索圖像,或基于圖像搜索文本)可實(shí)現(xiàn)從社交網(wǎng)絡(luò)和互聯(lián)網(wǎng)中獲取更全面、豐富的話題或事件信息[1-2].
由于語(yǔ)義上的差距,不同媒體類型的數(shù)據(jù)之間無(wú)法直接進(jìn)行相似性對(duì)比.為了衡量不同媒體數(shù)據(jù)之間的相似性,需要學(xué)習(xí)跨媒體數(shù)據(jù)間的語(yǔ)義相關(guān)性,將不同的媒體數(shù)據(jù)映射到一個(gè)統(tǒng)一的語(yǔ)義表示空間,再進(jìn)行跨媒體相似性匹配和搜索[3-4].
深度學(xué)習(xí)技術(shù)具有較優(yōu)的非線性特征學(xué)習(xí)能力,近年來(lái)基于深度學(xué)習(xí)的跨媒體語(yǔ)義表示學(xué)習(xí)方法吸引學(xué)者們的廣泛關(guān)注.現(xiàn)有方法主要包括兩類:基于連續(xù)的深度特征空間的方法[5-9]和跨媒體哈希方法[10-12].由于較低的存儲(chǔ)成本和快速的搜索速度,跨媒體哈希方法已成為跨媒體搜索領(lǐng)域的研究熱點(diǎn).通過(guò)跨媒體哈希技術(shù),將原始空間中高維度特征表示映射為短小的二進(jìn)制哈希編碼,然后在獲取的二進(jìn)制哈希表示空間,通過(guò)海明距離快速計(jì)算,進(jìn)行跨媒體匹配[13].
目前的跨媒體哈希方法主要包括傳統(tǒng)淺層學(xué)習(xí)方法和基于深度學(xué)習(xí)的方法.根據(jù)是否利用語(yǔ)義標(biāo)簽作為指導(dǎo)信息以學(xué)習(xí)跨媒體語(yǔ)義關(guān)聯(lián),跨媒體哈希方法主要分為無(wú)監(jiān)督的跨媒體哈希方法和有監(jiān)督的跨媒體哈希方法.無(wú)監(jiān)督的跨媒體哈希方法學(xué)習(xí)跨媒體相關(guān)性和媒體內(nèi)相似性,最大化不同模態(tài)數(shù)據(jù)間的語(yǔ)義關(guān)聯(lián),將來(lái)自不同模態(tài)的數(shù)據(jù)映射至一個(gè)統(tǒng)一的哈希語(yǔ)義空間,如UGACH(Unsupervised Generative Adversarial Cross-Modal Hashing Approa-ch)[12]和UCH(Unsupervised Coupled Cycle Genera-tive Adversarial Hashing Networks)[14]等.有監(jiān)督的跨媒體哈希方法利用語(yǔ)義標(biāo)簽信息指導(dǎo)跨媒體關(guān)聯(lián)學(xué)習(xí)過(guò)程,獲取統(tǒng)一的哈希表示,如CDQ(Collective Deep Quantization)[15]、SSAH(Self-Supervised Adver-sarial Hashing)[16]、SePH(Semantics-Preserving Hashing Method)[17]、SCM(Semantic Correlation Maximiza-tion)[18]、CMSSH(Cross-Modality Similarity Sensitive Hashing)[19]等.
近年來(lái),受到深度學(xué)習(xí)特征學(xué)習(xí)能力的激勵(lì),基于深度神經(jīng)網(wǎng)絡(luò)的跨媒體哈希方法廣泛應(yīng)用于跨模態(tài)搜索領(lǐng)域[20-23].Peng等[20]提出MCSM(Modality-Specific Cross-Modal Similarity Measurement),采用基于聯(lián)合嵌入損失和注意力機(jī)制的循環(huán)注意力網(wǎng)絡(luò),為不同模態(tài)構(gòu)建獨(dú)立語(yǔ)義空間,并進(jìn)行跨模態(tài)關(guān)聯(lián)學(xué)習(xí).Zhuang等[21]提出CMNNH(Cross-Media Neural Network Hashing),保持模態(tài)間的判別能力和模態(tài)內(nèi)部數(shù)據(jù)的聯(lián)系,學(xué)習(xí)跨模態(tài)哈希函數(shù).Jiang等[22]提出DCMH(Deep Cross-Modal Hashing),將跨模態(tài)特征學(xué)習(xí)和哈希函數(shù)學(xué)習(xí)集成在一個(gè)端到端的框架下聯(lián)合學(xué)習(xí).Shi等[23]提出EGDH(Equally-Guided Discriminative Hashing),聯(lián)合語(yǔ)義結(jié)構(gòu)和判別性,實(shí)現(xiàn)哈希編碼學(xué)習(xí).
然而,現(xiàn)有的跨媒體哈希方法往往基于跨媒體數(shù)據(jù)的全局特征表示建立語(yǔ)義關(guān)聯(lián),未考慮數(shù)據(jù)的局部顯著性特征,因此無(wú)法有效捕捉不同模態(tài)數(shù)據(jù)間的細(xì)粒度語(yǔ)義關(guān)聯(lián),而實(shí)際上,圖像中的顯著性區(qū)域和文本中的關(guān)鍵性單詞具有較強(qiáng)的語(yǔ)義相關(guān)性.通過(guò)人眼視覺(jué)注意力機(jī)制[24-27],充分捕捉顯著性圖像區(qū)域和關(guān)鍵性的文本單詞,可發(fā)現(xiàn)更多潛在的細(xì)粒度跨媒體語(yǔ)義關(guān)聯(lián),提升跨媒體搜索的性能[28-31].
生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network, GAN)現(xiàn)已應(yīng)用在跨模態(tài)搜索領(lǐng)域,如CM-GANs(Cross-Modal GANs)[7]、ACMR(Adversarial Cross-Modal Retrieval)[8]、AGAH(Adversary Guided Asymmetric Ha-shing)[13]、SSAH(Self-Supervised Adversarial Ha-shing)[16]等.Wang等[8]提出ACMR,在實(shí)值特征空間將對(duì)抗學(xué)習(xí)技術(shù)應(yīng)用于跨模態(tài)檢索.Li等[16]提出SSAH,將對(duì)抗學(xué)習(xí)應(yīng)用于跨模態(tài)哈希,構(gòu)建兩個(gè)對(duì)抗網(wǎng)絡(luò),聯(lián)合學(xué)習(xí)不同模態(tài)數(shù)據(jù)的高維特征和統(tǒng)一哈希編碼.
但是,現(xiàn)有的跨模態(tài)對(duì)抗哈希方法未考慮圖像和文本之間的局部顯著性細(xì)粒度特征之間的互相指導(dǎo)和協(xié)同學(xué)習(xí),無(wú)法實(shí)現(xiàn)細(xì)粒度的跨媒體關(guān)聯(lián)學(xué)習(xí)[32-34].而且,社交網(wǎng)絡(luò)中的多媒體數(shù)據(jù)通常表現(xiàn)出語(yǔ)義稀疏性和多樣性,并包含很多噪音,導(dǎo)致現(xiàn)有的跨媒體表示學(xué)習(xí)方法不能有效應(yīng)用于此類數(shù)據(jù).
為了解決上述問(wèn)題,本文提出基于多模態(tài)圖和對(duì)抗哈希注意力網(wǎng)絡(luò)的跨媒體細(xì)粒度表示學(xué)習(xí)模型(Cross-Media Fine-Grained Representation Learning Model Based on Multi-modal Graph and Adversarial Hash Attention Network, CMFAH).為了獲得高質(zhì)量和緊湊的跨媒體統(tǒng)一哈希語(yǔ)義表示,將基于跨媒體注意力的細(xì)粒度特征學(xué)習(xí)、跨媒體關(guān)聯(lián)學(xué)習(xí)、對(duì)抗哈希學(xué)習(xí)集成在一個(gè)統(tǒng)一的對(duì)抗哈希注意力網(wǎng)絡(luò)下,聯(lián)合學(xué)習(xí)跨媒體統(tǒng)一語(yǔ)義表示.為了捕獲更多潛在的細(xì)粒度跨媒體語(yǔ)義關(guān)聯(lián),構(gòu)建基于跨媒體注意力的圖像和文本細(xì)粒度特征學(xué)習(xí)網(wǎng)絡(luò),實(shí)現(xiàn)跨媒體顯著性特征學(xué)習(xí),通過(guò)圖像和文本顯著性特征之間的互相指導(dǎo)和協(xié)同注意力學(xué)習(xí),實(shí)現(xiàn)不同模態(tài)間的細(xì)粒度語(yǔ)義關(guān)聯(lián)學(xué)習(xí).為了進(jìn)一步最大化跨媒體數(shù)據(jù)的語(yǔ)義關(guān)聯(lián)和特征分布一致性,縮小跨媒體語(yǔ)義鴻溝,構(gòu)建跨媒體GAN,通過(guò)聯(lián)合跨媒體細(xì)粒度關(guān)聯(lián)學(xué)習(xí)和對(duì)抗哈希學(xué)習(xí),獲取不同模態(tài)數(shù)據(jù)的統(tǒng)一哈希語(yǔ)義表示.此外,為了解決社交網(wǎng)絡(luò)數(shù)據(jù)的語(yǔ)義稀疏性、多樣性問(wèn)題,構(gòu)建圖像-單詞關(guān)聯(lián)圖,并在圖上通過(guò)隨機(jī)游走實(shí)現(xiàn)語(yǔ)義關(guān)系擴(kuò)展,發(fā)現(xiàn)更多潛在的圖像和單詞之間的語(yǔ)義關(guān)聯(lián).實(shí)驗(yàn)表明,CMFAH在2個(gè)公開標(biāo)準(zhǔn)跨媒體數(shù)據(jù)集上均取得較優(yōu)的跨媒體搜索性能.
本文解決文本和圖像之間的跨媒體搜索問(wèn)題,提出基于多模態(tài)圖和對(duì)抗哈希注意力網(wǎng)絡(luò)的跨媒體細(xì)粒度表示學(xué)習(xí)模型(CMFAH),用于社交網(wǎng)絡(luò)跨媒體搜索,模型框架如圖1所示.
圖1 CMFAH模型框圖Fig.1 Framework of CMFAH
CMFAH主要包括3部分:基于圖像-單詞關(guān)聯(lián)圖的語(yǔ)義擴(kuò)展、跨媒體細(xì)粒度特征學(xué)習(xí)、跨媒體對(duì)抗哈希.首先,構(gòu)建圖像-單詞關(guān)聯(lián)圖,學(xué)習(xí)圖像和文本單詞間的直接語(yǔ)義關(guān)聯(lián)和隱含語(yǔ)義關(guān)聯(lián),實(shí)現(xiàn)跨媒體語(yǔ)義關(guān)系擴(kuò)展.然后,基于構(gòu)建的圖像和文本細(xì)粒度特征學(xué)習(xí)網(wǎng)絡(luò),實(shí)現(xiàn)跨媒體細(xì)粒度顯著性特征學(xué)習(xí).基于深度卷積神經(jīng)網(wǎng)絡(luò)提取圖像的區(qū)域特征及文本的單詞特征,并結(jié)合跨媒體注意力機(jī)制學(xué)習(xí)圖像和文本的細(xì)粒度語(yǔ)義關(guān)聯(lián),分別獲取圖像和文本的細(xì)粒度特征表示,并通過(guò)長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)學(xué)習(xí)圖像和文本特征的細(xì)粒度上下文特征關(guān)聯(lián),獲取語(yǔ)義增強(qiáng)后的文本和圖像特征表示.最后,構(gòu)建對(duì)抗哈希網(wǎng)絡(luò),在語(yǔ)義標(biāo)簽數(shù)據(jù)的指導(dǎo)下,通過(guò)對(duì)學(xué)習(xí)的圖像和文本統(tǒng)一特征表示進(jìn)行對(duì)抗學(xué)習(xí),通過(guò)媒體內(nèi)語(yǔ)義相似性損失、跨媒體語(yǔ)義相似性損失、跨媒體判別損失的聯(lián)合優(yōu)化,獲取高效緊湊的跨媒體統(tǒng)一哈希表示.
Hv=fv(Fv,θv),Ht=ft(Ft,θt),
其中Fv、Ft表示圖像和文本統(tǒng)一特征表示,θv、θt表示網(wǎng)絡(luò)參數(shù),進(jìn)而通過(guò)
Bv=sgn(Hv),Bt=sgn(Ht)
實(shí)現(xiàn)圖像和文本特征空間到哈??臻g的映射.
1.3.1 基于圖像-單詞關(guān)聯(lián)圖的跨媒體語(yǔ)義擴(kuò)展
N表示擴(kuò)展后的單詞個(gè)數(shù).結(jié)合Wikipedia知識(shí)Twk進(jìn)一步擴(kuò)充數(shù)據(jù),獲取最終的內(nèi)外部聯(lián)合擴(kuò)展后的圖像關(guān)聯(lián)文本:
Tio=Trs+Twk.
在此基礎(chǔ)上,基于SkipGram構(gòu)造語(yǔ)義嵌入學(xué)習(xí)模型.在該過(guò)程中,最大化上下文情境中的單詞tu和tv之間的相似度,獲取語(yǔ)義嵌入表示,目標(biāo)函數(shù)為:
并采用分層softmax實(shí)現(xiàn)目標(biāo)函數(shù)的優(yōu)化.
1.3.2 跨媒體細(xì)粒度特征學(xué)習(xí)
首先,基于跨媒體協(xié)同注意力機(jī)制構(gòu)建跨媒體細(xì)粒度特征學(xué)習(xí)網(wǎng)絡(luò),實(shí)現(xiàn)圖像和文本的細(xì)粒度特征聯(lián)合學(xué)習(xí),包括圖像特征學(xué)習(xí)和文本特征學(xué)習(xí)兩個(gè)子網(wǎng)絡(luò).
對(duì)于圖像特征學(xué)習(xí)網(wǎng)絡(luò),構(gòu)建深度卷積神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)圖像的深度語(yǔ)義特征學(xué)習(xí)(本文采用VGG 19深度網(wǎng)絡(luò)),并提取VGG 19網(wǎng)絡(luò)的最后一個(gè)池化層的特征圖作為圖像的局部區(qū)域特征,定義為
V={v1,v2,…,vm1},
其中,m1表示圖像區(qū)域的總數(shù),vi表示第i個(gè)區(qū)域的視覺(jué)特征表示.
在文本特征學(xué)習(xí)網(wǎng)絡(luò),首先基于語(yǔ)義嵌入模型word2vec,學(xué)習(xí)由圖像-單詞關(guān)聯(lián)圖進(jìn)行語(yǔ)義擴(kuò)展后的嵌入表示,并聯(lián)合TextCNN學(xué)習(xí)文本的深度語(yǔ)義特征.利用word2vec處理文本,獲得詞向量矩陣,每個(gè)單詞的詞向量維度為k,因此包含n個(gè)詞的一個(gè)句子可表示為一個(gè)n×k的矩陣,作為TextCNN的輸入.此外,TextCNN后接一個(gè)全連接層,其輸出作為每個(gè)句子的文本表示,即T={t1,t2,…,tm2},其中,m2表示文本單詞的總數(shù),tk表示第k個(gè)單詞的特征表示.
在提取的圖像特征和文本特征的基礎(chǔ)上,基于圖像和文本不同模態(tài)之間的細(xì)粒度語(yǔ)義相關(guān)性,以及不同模態(tài)數(shù)據(jù)之間的互相指導(dǎo)學(xué)習(xí),通過(guò)跨媒體協(xié)同注意力機(jī)制學(xué)習(xí)圖像和文本的細(xì)粒度注意力特征表示.
首先,基于余弦距離函數(shù)計(jì)算所有區(qū)域-單詞對(duì)之間的語(yǔ)義相似度,第i個(gè)圖像區(qū)域與第k個(gè)單詞之間的相似度表示為:
其中,m1表示圖像區(qū)域的總數(shù),m2表示文本單詞的總數(shù).
對(duì)于圖像模態(tài)的每個(gè)圖像區(qū)域vi,利用文本中的所有單詞學(xué)習(xí)圖像區(qū)域的注意力權(quán)值:
(1)
其中
最終獲取到整個(gè)圖像細(xì)粒度注意力特征表示
對(duì)于文本模態(tài)的每個(gè)文本單詞tk,利用圖像模態(tài)的所有圖像區(qū)域?qū)W習(xí)文本單詞的注意力權(quán)值:
(2)
其中
最終獲取到整個(gè)文本細(xì)粒度注意力特征表示
獲取圖像和文本的細(xì)粒度注意力特征表示之后,基于LSTM學(xué)習(xí)圖像特征和文本特征的細(xì)粒度上下文特征關(guān)聯(lián),得到語(yǔ)義增強(qiáng)后的圖像特征表示Fv={f1,f2,…,fm1}和文本特征表示Ft={f1,f2,…,fm2},其中fi、fk分別表示語(yǔ)義增強(qiáng)后的第i個(gè)圖像區(qū)域特征和第k個(gè)文本單詞特征.
為了解決不同模態(tài)數(shù)據(jù)之間的異構(gòu)間隙問(wèn)題,本文構(gòu)建對(duì)抗哈希模型,學(xué)習(xí)跨媒體數(shù)據(jù)的語(yǔ)義關(guān)聯(lián),將不同媒體的異構(gòu)數(shù)據(jù)映射至統(tǒng)一的哈希語(yǔ)義空間.利用生成對(duì)抗學(xué)習(xí)策略,將跨媒體細(xì)粒度特征學(xué)習(xí)網(wǎng)絡(luò)作為跨媒體GAN中的“生成模型”,聯(lián)合學(xué)習(xí)媒體內(nèi)語(yǔ)義相似性損失函數(shù)和跨媒體語(yǔ)義相似性損失函數(shù),獲取跨媒體統(tǒng)一語(yǔ)義表示,盡可能保持模態(tài)內(nèi)語(yǔ)義相似性和模態(tài)間語(yǔ)義相似性.通過(guò)跨媒體對(duì)抗損失,對(duì)生成模型得到的跨媒體統(tǒng)一表示進(jìn)行模態(tài)判別,作為“判別模型”.聯(lián)合學(xué)習(xí)和優(yōu)化生成模型和判別模型,利用兩者之間的動(dòng)態(tài)博弈過(guò)程,最大化不同模態(tài)數(shù)據(jù)間的語(yǔ)義相關(guān)性和特征分布一致性,進(jìn)一步縮小跨媒體語(yǔ)義鴻溝.
令跨媒體細(xì)粒度特征學(xué)習(xí)網(wǎng)絡(luò)作為跨媒體生成對(duì)抗網(wǎng)絡(luò)中的“生成模型”,構(gòu)建生成損失函數(shù)Lgen,函數(shù)包含2個(gè)部分:媒體內(nèi)語(yǔ)義相似性損失Lintra和跨媒體語(yǔ)義相似性損失Linter.
在盡可能地保持同模態(tài)內(nèi)部的語(yǔ)義相似性的前提下,構(gòu)建和優(yōu)化媒體內(nèi)語(yǔ)義相似性損失函數(shù):
其中,J1和J2為2個(gè)triplet-margin loss函數(shù),J1表示添加在同一模態(tài)如圖像/文本特征級(jí)別的約束,J2表示添加在同一模態(tài)如圖像/文本哈希級(jí)別的約束,J3表示哈希量化誤差,通過(guò)實(shí)值哈希碼和二進(jìn)制哈希碼之間的均方差(Mean Square Error, MSE)計(jì)算.
J1(F*,F+,F-)=
勃列日涅夫執(zhí)政時(shí)期的第一個(gè)五年計(jì)劃(1966—1970年)經(jīng)濟(jì)情況較好,社會(huì)總產(chǎn)值比上個(gè)五年計(jì)劃增長(zhǎng)7.4%(1961—1965年增長(zhǎng)6.5%)。這一時(shí)期,勃列日涅夫?qū)Ω母锍址e極態(tài)度,力圖通過(guò)改革扭轉(zhuǎn)經(jīng)濟(jì)下滑趨勢(shì)。也是在這一時(shí)期,勃列日涅夫也站穩(wěn)了腳跟。但從70年代上半期開始,保守、僵化與停止改革趨勢(shì)日益明顯,后來(lái)實(shí)際上取消了改革。在1971年的蘇共二十四大后,就不準(zhǔn)用“改革”一詞了,而改用“完善”一詞。俄羅斯學(xué)者說(shuō)得好,這一改變是向“停滯”過(guò)渡的標(biāo)志。
J2(H*,H+,H-)=
Fv、Ft為學(xué)習(xí)的模態(tài)特征表示,Hv、Ht為學(xué)習(xí)的實(shí)值哈希碼,Bv、Bt為學(xué)習(xí)到的二進(jìn)制哈希碼.α、β、γ、margin為超參數(shù),sim為相似度函數(shù),通過(guò)cosine距離進(jìn)行計(jì)算.
在不同模態(tài)之間添加模態(tài)間語(yǔ)義相似性約束,學(xué)習(xí)不同模態(tài)數(shù)據(jù)之間的語(yǔ)義關(guān)聯(lián)關(guān)系.構(gòu)建跨媒體語(yǔ)義相似性損失函數(shù):
其中,J4和J5為2個(gè)Triplet-Margin loss函數(shù),分別表示添加在不同模態(tài)即圖像和文本特征級(jí)別和哈希級(jí)別的約束.
J4(Fv,Ft,+,Ft,-)=
J5(Hv,Ht,+,Ht,-)=
其余參數(shù)含義與Linter一樣.
最后,聯(lián)合媒體內(nèi)語(yǔ)義相似性損失函數(shù)和跨媒體語(yǔ)義相似性損失函數(shù),構(gòu)建跨媒體生成對(duì)抗網(wǎng)絡(luò)生成模型的總體目標(biāo)函數(shù):
Lgen=Lintra+Linter
.
分別為文本和圖像模態(tài)構(gòu)建跨媒體生成對(duì)抗網(wǎng)絡(luò)中的“判別模型”.對(duì)于圖像模態(tài)判別器Dv,采用文本特征學(xué)習(xí)網(wǎng)絡(luò)作為圖像特征的生成器,將學(xué)習(xí)的圖像特征作為真實(shí)的圖像特征,而文本特征學(xué)習(xí)網(wǎng)絡(luò)學(xué)習(xí)的特征作為生成的圖像特征.圖像模態(tài)判別器的目的在于區(qū)分輸入的圖像特征是真是假.對(duì)于文本模態(tài)判別器的構(gòu)建也是類似的.圖像模態(tài)和文本模態(tài)的判別器均是基于三層的多層感知網(wǎng)絡(luò)(Multilayer Perceptron, MLP)實(shí)現(xiàn),網(wǎng)絡(luò)參數(shù)分別為θDv和θDt.構(gòu)建的判別器類似于以交叉熵為損失的一個(gè)二分類器,將輸入的特征進(jìn)行模態(tài)分類為0或1,1表示輸入與輸出來(lái)自同一模態(tài),0表示輸入與輸出來(lái)自不同模態(tài).定義跨媒體對(duì)抗損失函數(shù):
學(xué)習(xí)和優(yōu)化模型,最終可生成圖像和文本的統(tǒng)一哈希語(yǔ)義表示
Bv=sgn(Hv),Bt=sgn(Ht).
在訓(xùn)練學(xué)習(xí)過(guò)程中,令
B=sgn(Hv+Ht),
使語(yǔ)義上相似的圖像和文本實(shí)例生成相似的哈希碼.整體的跨媒體語(yǔ)義表示學(xué)習(xí)目標(biāo)函數(shù)如下:
基于隨機(jī)梯度下降(Stochastic Gradient Descent, SGD)的反向傳播(Back Propagation, BP)算法學(xué)習(xí)所有的網(wǎng)絡(luò)參數(shù).首先,初始化所有超參數(shù)及生成模型與判別模型.再訓(xùn)練GAN:固定生成器的參數(shù),訓(xùn)練判別器;固定判別器的參數(shù),訓(xùn)練生成器.不斷迭代,直到模型收斂或達(dá)到最大迭代次數(shù).CMFAH優(yōu)化學(xué)習(xí)算法如算法1所示.
算法 1CMFAH優(yōu)化學(xué)習(xí)算法
輸入圖像集V,文本集T
輸出哈希碼矩陣B
批大小bs,最大迭代值Tmax
Repeat
Fortiteration do:
根據(jù)BP算法更新參數(shù)θ:
End For
更新B,B=sgn(Hv+Ht)
直到收斂
基于CMFAH獲取跨媒體統(tǒng)一語(yǔ)義表示之后,采用基于內(nèi)積距離的近似最近鄰方法實(shí)現(xiàn)跨媒體相似性搜索.對(duì)于大規(guī)??缑襟w數(shù)據(jù)搜索而言,原始實(shí)值特征空間上的相似度匹配效率較低.為了在保證搜索準(zhǔn)確性的同時(shí)進(jìn)一步提高面向大規(guī)模數(shù)據(jù)量的搜索效率,本文將非對(duì)稱量化距離函數(shù)作為相似度函數(shù),計(jì)算給定查詢q(圖像或文本)和待搜索的數(shù)據(jù)點(diǎn)x(文本或圖像)之間的語(yǔ)義相似度.近似誤差分析驗(yàn)證發(fā)現(xiàn),非對(duì)稱量化距離函數(shù)可逼近實(shí)值特征空間的距離,并可在跨媒體搜索精度和時(shí)間效率之間取得平衡.基于非對(duì)稱量化距離的跨媒體語(yǔ)義相似度計(jì)算方法表示如下:
其中,zq表示查詢q的深度特征表示,Bx表示待搜索數(shù)據(jù)點(diǎn)的哈希編碼表示.
實(shí)驗(yàn)數(shù)據(jù)集選取國(guó)際標(biāo)準(zhǔn)的NUS-WIDE社交跨媒體數(shù)據(jù)集和MIR-Flickr 25k社交跨媒體數(shù)據(jù)集,具體信息如表1所示.
表1 數(shù)據(jù)集信息Table 1 Information of datasets
NUS-WIDE數(shù)據(jù)集包含269 648個(gè)圖像-文本對(duì),含81個(gè)語(yǔ)義類別標(biāo)簽.在實(shí)驗(yàn)中選取出現(xiàn)頻率最高的前21個(gè)語(yǔ)義類別作為數(shù)據(jù)集,合計(jì)195 834個(gè)圖像-文本對(duì).隨機(jī)選取10 500個(gè)圖像-文本對(duì)作為訓(xùn)練集,2 100個(gè)圖像-文本對(duì)作為查詢集,剩余的圖像-文本對(duì)作為待檢索數(shù)據(jù)集.
MIR-Flickr25k數(shù)據(jù)集包含25 000個(gè)圖像-文本對(duì),含38個(gè)語(yǔ)義類別標(biāo)簽.在實(shí)驗(yàn)中選擇包含24個(gè)語(yǔ)義類別的實(shí)例,總共20 015個(gè)實(shí)例.隨機(jī)選取10 000個(gè)圖像-文本對(duì)作為訓(xùn)練集,2 000個(gè)圖像-文本對(duì)作為查詢集,剩余的圖像-文本對(duì)作為待檢索數(shù)據(jù)集.
采用的性能評(píng)價(jià)指標(biāo)為MAP(MeanAveragePrecision)和Top-k準(zhǔn)確率(P@k)曲線.
根據(jù)所有查詢的平均準(zhǔn)確率(AveragePrecision,AP)的均值計(jì)算MAP:
其中:Q 表示查詢次數(shù),AP(q)表示第q次查詢的平均準(zhǔn)確率.MAP值越大,說(shuō)明跨媒體搜索性能越優(yōu).
P@k計(jì)算公式如下:
其中,tr表示相關(guān)的搜索結(jié)果數(shù), fr表示不相關(guān)的搜索結(jié)果數(shù),tr+fr表示所有的搜索結(jié)果數(shù).
本文選擇如下對(duì)比算法.
1)CMSSH[19].構(gòu)建二進(jìn)制分類模型和Boosting算法,實(shí)現(xiàn)哈希學(xué)習(xí).
2)SCM[18].構(gòu)建和最大化保持跨模態(tài)語(yǔ)義相似性矩陣,學(xué)習(xí)哈希函數(shù).
3)UGACH[12].充分利用GAN無(wú)監(jiān)督下表示學(xué)習(xí)的能力,挖掘跨模態(tài)數(shù)據(jù)的基本流形結(jié)構(gòu).
4)SSAH[16].構(gòu)建2個(gè)對(duì)抗網(wǎng)絡(luò),聯(lián)合學(xué)習(xí)高維特征和不同模態(tài)下的哈希編碼.
5)AGAH[13].提出對(duì)抗學(xué)習(xí)指導(dǎo)下的多標(biāo)簽注意力機(jī)制,加強(qiáng)特征學(xué)習(xí),生成較高層級(jí)關(guān)聯(lián)和保留多標(biāo)簽語(yǔ)義的二進(jìn)制哈希碼.
CMSSH和SCM為傳統(tǒng)的跨模態(tài)哈希算法,UGACH、SSAH和AGAH為基于對(duì)抗學(xué)習(xí)的深度跨模態(tài)哈希算法,AGAH為聯(lián)合對(duì)抗學(xué)習(xí)和注意力機(jī)制的跨模態(tài)哈希算法.
此外,為了驗(yàn)證CMFAH的有效性,設(shè)計(jì)3種不同的變種:1)CMFAH-ca.從整個(gè)模型中刪除跨媒體注意力模塊.2)CMFAH-ia.僅添加文本對(duì)圖像的注意力.3)CMFAH-ta.僅添加圖像對(duì)文本的注意力.
實(shí)驗(yàn)環(huán)境為NVIDIATitanXGPU.在語(yǔ)義擴(kuò)展過(guò)程中,設(shè)置圖像-單詞關(guān)聯(lián)圖中的隨機(jī)游走步長(zhǎng)為5.語(yǔ)義嵌入word2vec詞向量長(zhǎng)度為1 000維.跨媒體統(tǒng)一特征表示的維度為512維.統(tǒng)一哈希表示長(zhǎng)度分別設(shè)置為16位、32位、64位、128位.批尺寸大小為128,文本和圖像的初始學(xué)習(xí)率為0.000 7.實(shí)驗(yàn)中超參數(shù)α=β=γ=δ=φ=1.另外,針對(duì)目標(biāo)損失函數(shù)中超參數(shù)margin、對(duì)抗網(wǎng)絡(luò)學(xué)習(xí)率gan_lr及epoch,設(shè)計(jì)參數(shù)敏感性分析實(shí)驗(yàn),最終確定margin=0.5,gan_lr=0.000 8,epoch=150.
基于跨媒體搜索任務(wù),驗(yàn)證CMFAH的性能,本組實(shí)驗(yàn)將各算法在NUS-WIDE、MIR-Flickr25k數(shù)據(jù)集上對(duì)比跨媒體搜索任務(wù)(圖像搜索文本I→T和文本搜索圖像T→I)的性能.實(shí)驗(yàn)中哈希編碼的長(zhǎng)度分別取16位、32位、64位和128位.
在NUS-WIDE、MIR-Flickr25k數(shù)據(jù)集上,不同算法針對(duì)不同哈希編碼長(zhǎng)度下的MAP值對(duì)比如表2和表3所示.圖2給出不同哈希編碼長(zhǎng)度下,各算法在NUS-WIDE、MIR-Flickr25k數(shù)據(jù)集上的MAP平均值曲線.
觀察表2和表3可看出,相比其它算法,CMFAH在I→T和T→I兩個(gè)跨媒體搜索任務(wù)上均取得較高的MAP值,并且哈希碼位數(shù)較短的結(jié)果優(yōu)于其它算法哈希碼位數(shù)較長(zhǎng)時(shí)的結(jié)果,說(shuō)明CMFAH性能更優(yōu).這是因?yàn)?CMFAH充分學(xué)習(xí)不同模態(tài)數(shù)據(jù)之間的語(yǔ)義關(guān)聯(lián),生成更具有判別性、高質(zhì)量的哈希碼.并且隨著哈希編碼長(zhǎng)度的增加,CMFAH的MAP值越來(lái)越高,這是因?yàn)檩^長(zhǎng)的哈希編碼能保留足夠多的語(yǔ)義信息,因此可提升跨模態(tài)搜索性能.此外,通過(guò)實(shí)驗(yàn)可發(fā)現(xiàn),一味增加哈希編碼的長(zhǎng)度,一方面并不能保證MAP值越來(lái)越高,這是因?yàn)?較長(zhǎng)的哈希編碼可能會(huì)造成模型訓(xùn)練過(guò)擬合,影響MAP值.觀察實(shí)驗(yàn)結(jié)果可看出,CMFAH在64位哈希編碼時(shí)取得最優(yōu)的MAP值.另一方面,隨著哈希編碼位數(shù)的增加,搜索時(shí)間開銷也越大.因此,為了在搜索精度和時(shí)間效率方面取得較好折衷,本文將哈希編碼位數(shù)設(shè)置為64位.
表2 各算法在NUS-WIDE數(shù)據(jù)集上的MAP值對(duì)比Table 2 MAP comparison of different algorithms on NUS-WIDE
表3 各算法在MIR-Flickr 25k數(shù)據(jù)集上的MAP值對(duì)比Table 3 MAP comparison of different algorithms on MIR-Flickr 25k
(a)I→T (b)T→I
此外,從時(shí)間效率上看,CMFAH和AGAH訓(xùn)練時(shí)長(zhǎng)類似,平均每個(gè)epoch訓(xùn)練時(shí)長(zhǎng)分別為26 s和24 s.相比AGAH,CMFAH取得更高的MAP值,在I→T搜索任務(wù)上平均提升3%,在T→I搜索任務(wù)上平均提升2%.主要原因是CMFAH基于不同模態(tài)數(shù)據(jù)間的協(xié)同注意力機(jī)制,可學(xué)習(xí)到更具顯著性的細(xì)粒度特征,并通過(guò)構(gòu)建圖像-單詞關(guān)聯(lián)圖進(jìn)行語(yǔ)義關(guān)系擴(kuò)展,發(fā)現(xiàn)更多細(xì)粒度和潛在的跨媒體語(yǔ)義關(guān)聯(lián),獲取更有判別力和精確的跨媒體統(tǒng)一哈希表示,因此跨媒體搜索的整體性能更優(yōu).
在NUS-WIDE、MIR-Flickr 25k數(shù)據(jù)集上,各算法在I→T和T→I兩個(gè)跨媒體搜索任務(wù)上的Top-k準(zhǔn)確率曲線如圖3所示.
Top-k準(zhǔn)確率曲線反映前k個(gè)返回的搜索結(jié)果中,正確的搜索結(jié)果所占的比例.由圖可看出,CMFAH在任何Top-k值下均取得最優(yōu)性能,并且隨著k的增大,準(zhǔn)確率有輕微下降.當(dāng)k取較大值時(shí),如k=1 000時(shí),CMFAH也取得較高的準(zhǔn)確率,這說(shuō)明當(dāng)用戶需要較多的候選結(jié)果時(shí),CMFAH也有較優(yōu)的搜索性能.
(a1)I→T (a2)T→I
(b1)I→T (b2)T→I
為了驗(yàn)證CMFAH的有效性,在MIR-Flickr 25k數(shù)據(jù)集上,對(duì)CMFAH的3種不同變種CMFAH-ca、CMFAH-ia和CMFAH-ta進(jìn)行對(duì)比分析.實(shí)驗(yàn)中哈希編碼位數(shù)取64位.CMFAH的不同變種的MAP值對(duì)比如表4所示.由表可看出,相比CMFAH,不添加跨媒體注意力的CMFAH-ca的MAP值平均降低0.06.僅添加任一模態(tài)的注意力的CMFAH-ia和CMFAH-ta的性能均具有顯著提升.綜合對(duì)比發(fā)現(xiàn),添加跨媒體注意力機(jī)制的CMFAH取得更高性能.由此說(shuō)明,相比單一模態(tài)的注意力機(jī)制,跨媒體注意力機(jī)制對(duì)于跨媒體搜索性能具有顯著提升作用.這主要得益于通過(guò)添加跨媒體注意力,CMFAH可充分學(xué)習(xí)不同模態(tài)數(shù)據(jù)之間的細(xì)粒度語(yǔ)義關(guān)聯(lián),取得更優(yōu)的跨媒體搜索性能.
表4 CMFAH不同變種的MAP值對(duì)比Table 4 MAP comparison of different variants of CMFAH
本組實(shí)驗(yàn)分析目標(biāo)函數(shù)中超參數(shù)margin對(duì)于模型的影響.margin值表示在一個(gè)triplet三元組中,不相似的數(shù)據(jù)對(duì)的cosine相似度相比相似對(duì)的cosine相似度之間的間隔.在64位哈希碼時(shí),不同margin值對(duì)于MAP值的影響如圖4所示.由圖可看出,MAP值隨著margin的增大而增大,當(dāng)margin>0.5時(shí)又開始下降.當(dāng)margin值較小時(shí),模型較難區(qū)分相似對(duì)和不相似對(duì),因此MAP值相對(duì)較小.當(dāng)margin=0.5時(shí),MAP在I→T和T→I搜索任務(wù)中取得更高值.因此,本文中設(shè)置margin=0.5,用于所有實(shí)驗(yàn).
圖4 margin對(duì)MAP值的影響Fig.4 Influence of margin on MAP
本組實(shí)驗(yàn)分析對(duì)抗哈希網(wǎng)絡(luò)學(xué)習(xí)率gan_lr對(duì)模型性能的影響.在碼長(zhǎng)為64位時(shí),gan_lr對(duì)于MAP值的影響如圖5所示.由圖可看出,當(dāng)gan_lr=0.000 8時(shí),在I→T和T→I搜索任務(wù)中取得的MAP值最高.因此,本文實(shí)驗(yàn)中設(shè)置gan_lr=0.000 8.
圖5 gan_lr對(duì)MAP值的影響Fig.5 Influence of gan_lr on MAP
本組實(shí)驗(yàn)分析epoch值對(duì)跨媒體搜索性能的影響.在MIR-Flickr 25k數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果如圖6所示.由圖可看出,隨著epoch的增大,模型逐步實(shí)現(xiàn)收斂,大約在epoch=150時(shí),模型收斂趨于穩(wěn)定.
圖6 epoch對(duì)MAP值的影響Fig.6 Influence of epoch on MAP
為了解決跨媒體數(shù)據(jù)間的特征異構(gòu)和語(yǔ)義鴻溝,以及社交網(wǎng)絡(luò)數(shù)據(jù)的語(yǔ)義稀疏性、多樣性問(wèn)題,實(shí)現(xiàn)高效的大規(guī)模社交網(wǎng)絡(luò)數(shù)據(jù)跨媒體檢索,本文提出基于多模態(tài)圖和對(duì)抗哈希注意力網(wǎng)絡(luò)的跨媒體細(xì)粒度表示學(xué)習(xí)模型(CMFAH),將不同媒體類型的數(shù)據(jù)映射至高效的統(tǒng)一哈希語(yǔ)義空間內(nèi).構(gòu)建基于跨媒體注意力機(jī)制的跨媒體細(xì)粒度特征學(xué)習(xí)網(wǎng)絡(luò)及對(duì)抗哈希學(xué)習(xí)網(wǎng)絡(luò),將細(xì)粒度的跨媒體語(yǔ)義關(guān)聯(lián)學(xué)習(xí)和對(duì)抗哈希學(xué)習(xí)集成在一個(gè)統(tǒng)一的框架下進(jìn)行協(xié)同學(xué)習(xí)和優(yōu)化,進(jìn)一步增強(qiáng)跨媒體統(tǒng)一表示的語(yǔ)義一致性,獲取更緊湊高效的統(tǒng)一哈希表示.此外,通過(guò)構(gòu)建圖像-單詞關(guān)聯(lián)圖,充分挖掘圖像和單詞間的直接語(yǔ)義關(guān)聯(lián)和隱含語(yǔ)義關(guān)聯(lián),實(shí)現(xiàn)語(yǔ)義關(guān)系擴(kuò)展,進(jìn)一步增強(qiáng)面向社交網(wǎng)絡(luò)數(shù)據(jù)的跨媒體語(yǔ)義關(guān)聯(lián)的學(xué)習(xí)能力,克服社交網(wǎng)絡(luò)數(shù)據(jù)的稀疏性、多樣性等問(wèn)題.今后將結(jié)合圖神經(jīng)網(wǎng)絡(luò)、對(duì)比學(xué)習(xí)等技術(shù),進(jìn)一步增強(qiáng)不同模態(tài)的深層次高階語(yǔ)義關(guān)聯(lián)學(xué)習(xí)能力.