張 璐 曹 峰 梁新彥 錢宇華
1(山西大學大數(shù)據(jù)科學與產(chǎn)業(yè)研究院 太原 030006)
2(計算智能與中文信息處理教育部重點實驗室(山西大學) 太原 030006)
3(山西大學計算機與信息技術學院 太原 030006)
(moon_lu123@163.com)
隨著信息大數(shù)據(jù)的快速發(fā)展和增長,圖片、文本和音頻等不同模態(tài)的數(shù)據(jù)大量產(chǎn)生,且對數(shù)據(jù)的加工、處理和利用越來越普遍,因此促進了信息技術的發(fā)展,尤其是推動了信息檢索技術的進展.在進行信息檢索時,我們通常會使用一種模態(tài)的數(shù)據(jù)去檢索另一種不同模態(tài)的數(shù)據(jù),而這些不同模態(tài)的數(shù)據(jù)盡管數(shù)據(jù)的存在形式不同,但描述的是同一物體或同一事件,即它們的語義是相同的,這種檢索方式稱為跨模態(tài)檢索.例如:利用有關“放風箏”的文本檢索相關的“放風箏”圖片,或者利用有關“蝴蝶”的圖片檢索相關的“蝴蝶”文本等.跨模態(tài)檢索就是尋找不同模態(tài)數(shù)據(jù)之間的相關關系,最終實現(xiàn)利用某一種模態(tài)數(shù)據(jù)檢索語義近似的另一種模態(tài)數(shù)據(jù),本文研究的是圖片與文本之間的跨模態(tài)檢索.傳統(tǒng)模態(tài)檢索與跨模態(tài)檢索對比如圖1所示:
Fig. 1 Comparison between traditional-modal retrievaland cross-modal retrieval圖1 傳統(tǒng)模態(tài)檢索與跨模態(tài)檢索對比
不同模態(tài)的數(shù)據(jù)具有各自不同的底層特征,如圖片具有紋路、色彩等,文本具有字、詞、句等以及音頻具有音調(diào)、頻率等.顯而易見,不同模態(tài)數(shù)據(jù)的底層特征之間存在異構問題,但有時不同模態(tài)數(shù)據(jù)之間的高層語義具有相關性,都是描述同一個語義主題.由此可見,跨模態(tài)檢索的研究目的是找到使2種不同模態(tài)數(shù)據(jù)具有關聯(lián)性的特征子空間來解決底層特征上的異構問題,并且在該特征子空間中進行檢索.
近年來,為消除不同模態(tài)數(shù)據(jù)之間的底層特征異構問題,大量的跨模態(tài)檢索方法被提出,其中大多數(shù)的研究方法主要是特征子空間的學習[1-3],即利用不同模態(tài)數(shù)據(jù)對的共有信息學習投影矩陣,通過學習得到的投影矩陣將不同模態(tài)數(shù)據(jù)的底層異構特征投影到1個特征子空間中,然后可以在該子空間中度量不同模態(tài)數(shù)據(jù)的相似性,從而實現(xiàn)跨模態(tài)檢索.在這些方法中,常用的經(jīng)典方法是典型相關分析(canonical correlation analysis, CCA)算法[4],該算法是用來學習1個子空間,使2種模態(tài)數(shù)據(jù)的投影向量之間的相關性最大化.由于其簡單有效,出現(xiàn)了很多基于CCA算法的擴展方法[5-6].另一個經(jīng)典方法是偏最小二乘(partial least squares, PLS)算法[7],該算法是利用潛在變量對觀測變量集之間的關系進行建模的一般方法.上述CCA和PLS兩種算法學習到的特征子空間雖然具有一定的關聯(lián)性,但是該特征子空間缺乏語義解釋.為解決該問題,Rasiwasia等人[8]進行了不同模態(tài)數(shù)據(jù)的語義映射,該方法采用多元邏輯回歸來生成相應圖片和文本的語義特征子空間.還有一些其他的方法也可以用于處理跨模態(tài)檢索問題,如基于散列變換的檢索方法[9-11],是將不同模態(tài)數(shù)據(jù)的特征映射到1個漢明(Hamming)二值空間中,然后在該空間實現(xiàn)快速的跨模態(tài)檢索.
上述有關特征子空間與語義映射的相關方法都已取得不錯的結果,然而,其中現(xiàn)有的典型相關分析學習方法[12]主要只通過單個相關性約束將不同模態(tài)數(shù)據(jù)的特征映射到具有一定相關性的特征空間中.表征學習表明,不同層次的特征在幫助模型最終性能的提升上都會起作用.所以,利用這種方法學習到的特征空間的關聯(lián)性可能是較弱的.為解決這些缺點,提出了基于關聯(lián)特征傳播的跨模態(tài)檢索模型.
本文為找到使2種模態(tài)數(shù)據(jù)關聯(lián)性更強的特征子空間,將深度學習和關聯(lián)學習技術進一步展開了研究,創(chuàng)新性地提出關聯(lián)特征傳播的模型.
本節(jié)簡單回顧了關聯(lián)學習和深度學習的基本概念及應用.
關聯(lián)學習是研究數(shù)據(jù)對之間的關聯(lián)關系,從給定的數(shù)據(jù)對中學習關聯(lián)模型,使其能對新的輸入數(shù)據(jù)進行關聯(lián)關系識別.錢宇華等人[13]定義的關聯(lián)學習問題,數(shù)據(jù)集T={(u1,g1),(u2,g2),…,(uN,gN)},其中ui=xi,yi是輸入空間中的觀測值,gi是輸出空間中的觀測值,由輸入空間到輸出空間的映射過程稱為關聯(lián)學習.
關聯(lián)學習在跨模態(tài)檢索中通常是指找出基于不同模態(tài)數(shù)據(jù)之間的對應關聯(lián)關系.不同模態(tài)的數(shù)據(jù)存在底層特征異構問題,需要通過關聯(lián)學習的相關方法找到它們之間的關聯(lián)關系.如通過典型關聯(lián)分析CCA算法或者共享表示層等類似的方法,可以將不同模態(tài)的數(shù)據(jù)映射到一個共享的特征子空間中,從而在該子空間中進一步利用某種距離度量函數(shù)測出不同模態(tài)數(shù)據(jù)之間的相似性.
Rasiwasia等人[8]提出將典型相關分析CCA算法應用到文本與圖片間的跨模態(tài)檢索中,即將文本特征和圖片特征分別作為不同的特征空間,通過最大化投影向量的相關性,最后學習得到投影后的共享子空間;之后,Galen等人[12]對該方法進行了擴展,提出深度典型相關分析(deep canonical correlation analysis, DCCA)算法,該算法將深度網(wǎng)絡和典型相關分析CCA算法進行結合,先用深度神經(jīng)網(wǎng)絡分別求出2個視圖經(jīng)過線性變化后的向量,然后再求出2個投影向量的最大相關性,最后得到具有最大相關性的特征子空間;Hwang等人[14]提出核典型相關分析(kernel canonical correlation analysis, KCCA)算法,KCCA是常用的非線性CCA算法,把核函數(shù)引入到CCA算法中,其基本思想是把低維的數(shù)據(jù)映射到高維的特征空間中,并在高維的特征空間中利用CCA算法進行關聯(lián)分析;Yu等人[15]提出基于類別的深度典型相關分析,不僅考慮了基于實例的相關性,還學習了基于類別的相關性.目前依然有許多跨模態(tài)檢索領域的研究者一直在研究關聯(lián)學習的相關方法及擴展,并且都取得了不錯的檢索效果.
由于深度學習強大的特征表示能力,它在跨模態(tài)檢索研究中也取得了很好的成果.利用深度學習,在跨模態(tài)檢索中不僅可以在底層提取出不同模態(tài)數(shù)據(jù)的有效特征表示,而且還可以在高層建立不同模態(tài)數(shù)據(jù)的語義關聯(lián).
Ngiam等人[16]提出采用深度學習的方法來處理多模態(tài)任務,特別地進行了跨模態(tài)特征表示學習和不同模態(tài)數(shù)據(jù)之間的共享表示學習;之后,Wang等人[17]提出基于監(jiān)督的多模態(tài)深度神經(jīng)網(wǎng)絡,該網(wǎng)絡由處理圖片的卷積神經(jīng)網(wǎng)絡和處理文本的語言神經(jīng)網(wǎng)絡構成,并通過5層神經(jīng)網(wǎng)絡將不同模態(tài)數(shù)據(jù)映射到共同的語義空間,然后在語義空間中進行不同模態(tài)數(shù)據(jù)的相似性度量;Wei等人[18]提出深度語義匹配(deep semantic mapping, DeepSM)方法來解決帶有1個或多個標簽樣本的跨模態(tài)檢索問題,該方法通過利用卷積神經(jīng)網(wǎng)絡和全連通網(wǎng)絡將圖片和文本映射到標簽向量中來學習不同模態(tài)數(shù)據(jù)間的相關性;Hua等人[19]提出基于生成對抗網(wǎng)絡的深度語義關聯(lián)學習方法.深度學習的相關方法在跨模態(tài)檢索領域中得到了廣泛的應用,也取得了很好的成果.
目前,基于典型相關分析的擴展方法已取得不錯的結果,但這些方法主要只通過單層的關聯(lián)約束生成關聯(lián)空間.顯然忽略了不同層特征間的相關性,這可能帶來一個問題,雖然模型學習了大量豐富的層次特征,然而只有單個層次是與檢索任務相關的特征,進而浪費了其他層次特征中的信息,只能學習關聯(lián)性較弱的關聯(lián)空間.為解決該問題,得到使2種模態(tài)數(shù)據(jù)關聯(lián)性更強的關聯(lián)空間,本文主要對深度網(wǎng)絡和關聯(lián)關系進行研究,創(chuàng)新性地提出基于關聯(lián)特征傳播的跨模態(tài)檢索模型.
本節(jié)將對提出的基于關聯(lián)特征傳播的跨模態(tài)檢索模型進行詳細的介紹,包括模型的結構和相關性計算.
本文提出的基于關聯(lián)特征傳播的跨模態(tài)檢索模型的結構如圖2所示.該模型主要由關聯(lián)特征傳播(correlation feature propagation, CFP)模型和語義映射(semantic mapping, SM)模型2部分組成.
Fig. 2 Cross-modal retrieval models with correlation feature propagation圖2 基于關聯(lián)特征傳播的跨模態(tài)檢索模型
圖2的CFP模型結構包含2個不同模態(tài)數(shù)據(jù)的分支網(wǎng)絡,每個分支都包含1個輸入層和若干個隱藏層,且2分支之間的各個網(wǎng)絡層特征都進行了CCA算法的關聯(lián)約束.
CCA算法[20]被廣泛應用于表示2組數(shù)據(jù)間的相關關系,它的基本思想是:尋找2組數(shù)據(jù)X,Y(2組數(shù)據(jù)的個數(shù)和所表示的內(nèi)容可以是不同的)對應的2個線性變換對a,b,使得通過線性變換后的2個線性組合(也稱1對典型變量)aTX,bTY(即X′=aTX,Y′=bTY)之間的相關系數(shù)ρ(X′,Y′)最大:
(1)
式(1)中,Cov(X′,Y′)是X′和Y′的協(xié)方差,2組數(shù)據(jù)間的協(xié)方差為
Cov(X′,Y′)=
E[(aTX-aTE(X))(bTY-bTE(Y))]=
aTCov(X,Y)b.
(2)
式(1)中,Var(X′)和Var(Y′)分別是X′和Y′的方差,每組數(shù)據(jù)的方差為
Var(X′)=E[(aTX-aTE(X))2]=aTCov(X,X)a,
Var(Y′)=E[(bTY-bTE(Y))2]=bTCov(Y,Y)b.
(3)
因此,最終的相關系數(shù)為
(4)
在本文的跨模態(tài)檢索任務下,在式(4)中,X表示圖片特征數(shù)據(jù),Y表示文本特征數(shù)據(jù),a,b表示線性變換對.式(4)中ρ的結果在[-1,1]范圍內(nèi),當結果越接近-1時,表示圖片特征數(shù)據(jù)X和文本特征數(shù)據(jù)Y的相關性越低;相反越接近1,表示兩者相關性越高.通過CCA算法學習得到d對典型變量對,表示分別將圖片和文本特征數(shù)據(jù)映射為關聯(lián)空間中的d維特征向量.
為驗證網(wǎng)絡的不同層次特征信息對跨模態(tài)檢索的性能具有提升作用.本文將圖片、文本2種模態(tài)數(shù)據(jù)的底層特征向量經(jīng)過不同網(wǎng)絡逐層遞增關聯(lián)約束(共4層),在得到的4個不同關聯(lián)子空間中分別進行跨模態(tài)檢索實驗,包括圖片檢索文本、文本檢索圖片2種跨模態(tài)檢索任務.在Wikipedia特征數(shù)據(jù)集中實驗結果的平均精度均值(mean average precision,MAP)如圖3所示:
Fig. 3 Layer by layer constraint MAP value圖3 逐層約束的MAP值
圖3展示隨著逐漸增加網(wǎng)絡的約束層數(shù),MAP值也逐漸增加,表明本文提出的CFP模型的可行性.
CFP模型提出在深度網(wǎng)絡各層間增加約束來強化不同特征間的關聯(lián)性,且前一層具有一定關聯(lián)性的特征經(jīng)過非線性變化傳到后一層.這樣的好處是特征的關聯(lián)性從底層開始積累,充分利用了各個層特征中的信息,更有利于找到使2種模態(tài)數(shù)據(jù)關聯(lián)性更強的特征空間.
在深度網(wǎng)絡結構中,該方法實現(xiàn)了逐層、逐漸加強2種模態(tài)數(shù)據(jù)(圖片和文本)的關聯(lián)性.得到圖片關聯(lián)子空間Cimg和文本關聯(lián)子空間Ctxt,可以在該關聯(lián)子空間C中進行跨模態(tài)檢索.
在進行跨模態(tài)檢索時,具有語義相關的圖片和文本對應屬于同一組語義概念,CFP模型得到的檢索特征表示,雖然具有較強的相關性,但缺乏語義關系.進而為了得到不同模態(tài)數(shù)據(jù)的語義空間,可以進行語義映射,即通過將CFP模型最后得到的關聯(lián)特征經(jīng)過分類器進行語義映射,生成相應的圖片語義子空間Simg和文本語義子空間Stxt.圖片和文本的2個語義子空間S中特征向量都代表了對應圖片和文本屬于同一組語義概念的概率分布.
相比傳統(tǒng)分類器多元邏輯回歸、支持向量機等,深度學習強大的特征表示能力使得神經(jīng)網(wǎng)絡發(fā)展迅速,并且解決多分類問題效果也很好.因此嘗試利用神經(jīng)網(wǎng)絡進行語義映射.
本文采用2支相同的含3層隱藏層的神經(jīng)網(wǎng)絡進行語義映射,該神經(jīng)網(wǎng)絡實際上是用Softmax函數(shù)做多分類任務,樣本c被分為第j類的概率為
(5)
其中,zci表示第i個神經(jīng)元的輸出值.
由于式(5)中數(shù)據(jù)的輸出為概率值,因此使用交叉熵作為損失函數(shù)L來訓練模型:
(6)
其中,oi表示各個輸出點的目標分類結果,p(ci)表示經(jīng)過Softmax函數(shù)后的輸出結果,k表示類別的數(shù)量.
通過語義映射得到圖片和文本的概率分布特征空間,即圖片和文本的語義子空間.在該空間中圖片和文本屬于概率最大值的分類.因此首先利用CFP模型得到不同模態(tài)數(shù)據(jù)的關聯(lián)子空間,之后采用SM模型得到不同模態(tài)數(shù)據(jù)的語義子空間,最后在得到的語義子空間中對不同模態(tài)數(shù)據(jù)進行跨模態(tài)檢索,稱這種模型為基于關聯(lián)特征傳播的跨模態(tài)檢索(CFP+SM)模型.
CFP+SM模型的整體訓練過程如過程1所示.
過程1.CFP+SM模型的訓練過程.
輸入:訓練集中圖片和文本特征數(shù)據(jù)X,Y;
輸出:Xinp,Yinp.
/*第1部分:CFP模型*/
① 初始化參數(shù);
② 特征數(shù)據(jù)X,Y在網(wǎng)絡前向訓練得到:
第1層關聯(lián)約束為X1,Y1←ρ(X′,Y′);
第2層關聯(lián)約束同第1層,關聯(lián)得到X2,Y2;
第3層關聯(lián)約束同第1層,關聯(lián)得到X3,Y3;
第4層關聯(lián)約束同第1層,關聯(lián)得到X4,Y4;
/*第2部分:SM模型*/
③ 利用Softmax函數(shù)對特征數(shù)據(jù)X4,Y4做多分類得到:
p(Xinp)←X4,p(Yinp)←Y4;
④ 計算損失函數(shù)(交叉熵損失函數(shù))得到:
Limg←p(Xinp),Ltxt←p(Yinp);
⑤ 反向更新模型參數(shù),對模型進行微調(diào).
輸入圖片和文本特征數(shù)據(jù)的訓練集,對CFP+SM模型進行訓練,最后可以利用該模型進行跨模態(tài)檢索實驗.
無論是在關聯(lián)空間C中還是在語義空間S中進行跨模態(tài)檢索,都需要進行圖片-文本對的相關性計算.如在語義空間中(關聯(lián)空間同理),本文通過CFP+SM模型可以得到d維的文本語義子空間Stxt和d維的圖片語義子空間Simg.在d維子空間S中的圖片和文本都是一一對應的,設定向量pimg和ptxt分別是圖片和文本在d維同構語義子空間S中的坐標,則在子空間S中圖片、文本對的相關性計算為
D=d(pimg,ptxt),
(7)
其中,距離函數(shù)d(,)使用歸一化相關(normalised correlation, NC)距離[21]來計算圖片和文本2個向量之間的相似性,NC距離為
(8)
目前用于距離度量的方法較多,主流方法包括Normalised Correlation距離函數(shù)、Ridge Regression距離函數(shù)和Lasso Regression距離函數(shù)等.
本文采用提出的基于關聯(lián)特征傳播的跨模態(tài)檢索模型進行實驗,并在Wikipedia和Pascal特征數(shù)據(jù)集上進行測試.
跨模態(tài)檢索的實驗數(shù)據(jù)由多種模態(tài)的數(shù)據(jù)構成,如圖片、文本、音頻等.本文以圖片和文本為實驗的數(shù)據(jù)對象.本次實驗利用了Wikipedia特征數(shù)據(jù)集和Pascal特征數(shù)據(jù)集,如表1所示:
Table 1 Data Sets表1 數(shù)據(jù)集
2個數(shù)據(jù)集都包含了圖片和文本的特征表示集.Wikipedia數(shù)據(jù)集中圖片表示為128維的特征,文本表示為10維的特征;Pascal數(shù)據(jù)集中圖片表示為4 096維的特征,文本表示為300維的特征.數(shù)據(jù)集的每個文檔中文本都附有若干張語義相關的圖片.
1) Wikipedia數(shù)據(jù)集選取了原數(shù)據(jù)集中10個最受歡迎的主題,包括art,biology,geography,history,literature,media,music,royalty,sport,warfare.該數(shù)據(jù)集共包含2 866個文檔,隨機分割成1個包含2 173個文檔的訓練集和1個包含693個文檔的測試集,且每個文檔都由1個“文本-圖片”對組成,且屬于某一主題.圖4顯示了Wikipedia中關于“克賴斯特徹奇”大教堂和“威斯康辛號”戰(zhàn)列艦的文檔一部分以及相關的圖片.
2) Pascal數(shù)據(jù)集有20個主題,包括person,bird,cat,cow,dog,horse,sheep,aeroplane,bicycle,boat,bus,car,motorbike,train,bottle,chair,dining table,potted plant,sofa,monitor.該數(shù)據(jù)集共包含900個文檔,隨機分割成1個包含800個文檔的訓練集和1個包含100個文檔的測試集.
Fig. 4 Wikipedia documents圖4 維基百科文檔
為了評估跨模態(tài)檢索的性能,我們進行圖片檢索相關文本以及文本檢索相關圖片2個任務.采用MAP作為評價指標.
首先要計算每個檢索的平均精度(average precision,AP):
(9)
其中,T表示在檢索集中與檢索相關的數(shù)據(jù)數(shù)量,P(r)表示排名為第r個數(shù)據(jù)的檢索精度,δ(r)∈{0,1}表示指示函數(shù)(若第r個數(shù)據(jù)和檢索數(shù)據(jù)相關則其值為1,否則為0).
然后計算所有檢索的平均AP,即MAP值:
(10)
MAP值數(shù)值越大,表明檢索模型的性能越好.
本文提出的CFP+SM模型采用神經(jīng)網(wǎng)絡相關的參數(shù)值,下面具體介紹.
3.3.1 CFP模型參數(shù)
CFP模型的2個分支神經(jīng)網(wǎng)絡都具有1個輸入層、4個隱藏層和1個輸出層,具體層次節(jié)點數(shù)如表2所示:
Table 2 Number of Nodes in CFP Model表2 CFP模型的節(jié)點數(shù)
3.3.2 SM模型參數(shù)
SM模型采用2支相同的神經(jīng)網(wǎng)絡作為分類器進行映射,該神經(jīng)網(wǎng)絡采用Softmax函數(shù)做多分類,具有1個輸入層、3個隱藏層和1個輸出層,具體層次節(jié)點數(shù)如表3所示:
Table 3 Number of Nodes in SM Model表3 SM模型的節(jié)點數(shù)
以圖片特征和文本特征為實驗的數(shù)據(jù)對象,一共進行了4組對比實驗來驗證所提出方法的有效性.
3.4.1 不同關聯(lián)學習方法比較
將提出的CFP模型與CCA模型[8]、DCCA模型[12]等關聯(lián)學習方法進行比較.在Wikipedia,Pascal特征數(shù)據(jù)集上的MAP值如表4、表5所示.
從表4、表5可以看出,本文提出的CFP模型在圖片檢索相關文本和文本檢索相關圖片任務上都取得了最好的MAP值,這表明對深度網(wǎng)絡的每層特征進行關聯(lián)約束是有效的.
Table 4 MAP Values of Different Correlation LearningMethods in the Wikipedia Data Set表4 Wikipedia數(shù)據(jù)集中不同關聯(lián)學習方法的MAP值
Table 5 MAP Values of Different Correlation LearningMethods in the Pascal Data Set表5 Pascal數(shù)據(jù)集中不同關聯(lián)學習方法的MAP值
3.4.2 與共享隱藏層參數(shù)方法比較
將提出的CFP模型,即深度網(wǎng)絡各層之間增加CCA約束來強化不同模態(tài)特征間關聯(lián)性的方法與讓不同模態(tài)的數(shù)據(jù)直接共享深度網(wǎng)絡中隱藏層參數(shù)(shared hidden layer parameter, SHLP)的方法進行比較.在Wikipedia,Pascal特征數(shù)據(jù)集上的MAP值如表6、表7所示:
Table 6 MAP Values of Shared Hidden Layer ParameterMethods in the Wikipedia Data Set表6 Wikipedia數(shù)據(jù)集中與共享隱藏層參數(shù)方法的MAP值
Table 7 MAP Values of Shared Hidden Layer ParameterMethods in the Pascal Data Set表7 Pascal數(shù)據(jù)集中與共享隱藏層參數(shù)方法的MAP值
從表6、表7可以看出,本文提出的CFP模型在圖片檢索相關文本和文本檢索相關圖片任務上都取得了最好的MAP值,這表明對深度網(wǎng)絡的每層特征進行關聯(lián)約束是有效的.
3.4.3 不同語義映射方法比較
將提出的SM模型與多元邏輯回歸(multiple logistic regression, MLR)、支持向量機(support vector machine, SVM)等語義映射方法進行比較.在Wikipedia,Pascal特征數(shù)據(jù)集上的MAP值如表8、表9所示:
Table 8 MAP Values of Different Semantic MappingMethods in the Wikipedia Data Set表8 Wikipedia數(shù)據(jù)集中不同語義映射方法的MAP值
Table 9 MAP Values of Different Semantic MappingMethods in the Pascal Data Set表9 Pascal數(shù)據(jù)集中不同語義映射方法的MAP值
從表8、表9可以看出,本文提出的SM模型在圖片檢索相關文本和文本檢索相關圖片任務上都取得了最好的MAP值,這表明深度學習具有強大的特征表示能力.
3.4.4 與其他跨模態(tài)檢索方法比較
比較了CFP+SM模型與語義關聯(lián)匹配(semantic correlation matching, SCM)模型[8]、對應自編碼器(correspondence autoencoder, Corr AE)模型[22]、雙重動態(tài)貝葉斯網(wǎng)絡(bimodal dynamic Bayesian network, Bimodal DBN)模型[23]、深度監(jiān)督跨模態(tài)檢索(deep supervised cross-modal retrieval, DSCMR)模型[24]和對抗性跨模態(tài)檢索(adversarial cross-modal retrieval, ACMR)模型[25]等其他跨模態(tài)檢索方法.在Wikipedia,Pascal特征數(shù)據(jù)集上的MAP值如表10、表11所示.
從表10、表11可以看出,本文提出的CFP+SM模型在圖片檢索相關文本和文本檢索相關圖片任務上都取得了最好的MAP值,這表明本文方法的有效性.
通過圖5中的MAP值對比可以看出,在提到的CFP模型、SM模型和CFP+SM模型3種模型中,跨模態(tài)檢索關聯(lián)學習之后再加入語義映射得到的跨模態(tài)檢索方法效果最佳,即CFP+SM模型得到更好的檢索性能.
Table 10 MAP Values of Other Cross-Modal RetrievalMethods in the Wikipedia Data Set表10 Wikipedia數(shù)據(jù)集中其他跨模態(tài)檢索方法的MAP值
Table 11 MAP Values of Other Cross-Modal RetrievalMethods in the Pascal Data Set表11 Pascal數(shù)據(jù)集中其他跨模態(tài)檢索方法的MAP值
Fig. 5 Comparison of MAP values of three models on two data sets圖5 3種模型在2個數(shù)據(jù)集上的MAP值比較
通過大量對比實驗可以得到,提出的CFP+SM模型的基本思想是強化深度網(wǎng)絡各層之間的關聯(lián)性,即前一層具有一定關聯(lián)的特征經(jīng)過非線性變化傳到后一層,之后再進行語義映射,得到圖片和文本屬于同一組語義概念的概率分布.這種模型更有利于找到使2種模態(tài)關聯(lián)性更強的特征空間,可以得到更好的檢索性能.
本文提出了新的跨模態(tài)檢索模型,即關聯(lián)特征傳播的跨模態(tài)檢索(CFP+SM)模型.為了充分利用深度網(wǎng)絡各層特征中的信息,得到使2種模態(tài)數(shù)據(jù)關聯(lián)性更強的特征空間,本文主要是先采用關聯(lián)特征傳播(CFP),強化了深度網(wǎng)絡各層之間的關聯(lián)性,使特征的關聯(lián)性從底層就開始積累;之后,本文還對2種模態(tài)數(shù)據(jù)進行語義映射(SM),生成語義空間進行跨模態(tài)檢索.在常用的Wikipedia,Pascal特征數(shù)據(jù)集上的實驗結果表明,本文提出的基于關聯(lián)特征傳播的跨模態(tài)檢索模型是有效的.
作者貢獻聲明:張璐負責提出算法思路,完成實驗并撰寫論文;曹峰提出指導意見;梁新彥參與論文校對和實驗方案指導;錢宇華提出方法的指導意見和審核論文.