徐文婉,周小平,王 佳
北京建筑大學(xué) 電氣與信息工程學(xué)院,北京 100044
進(jìn)入大數(shù)據(jù)時(shí)代,數(shù)據(jù)化的信息涉及到電子商務(wù)、健康醫(yī)療、社交網(wǎng)絡(luò)、工業(yè)機(jī)械等多個(gè)領(lǐng)域。這些信息以不同的數(shù)據(jù)類(lèi)型存儲(chǔ),模態(tài)指的就是數(shù)據(jù)類(lèi)型。現(xiàn)有研究的模態(tài)可以分為圖像[1-2]、文本[3-4]、語(yǔ)音[5]、3D圖像[6]、3D模型[7]、視頻[8]、時(shí)間[9]、空間位置[10]這幾種。以電子商務(wù)領(lǐng)域?yàn)槔?,多采用以輸入關(guān)鍵詞檢索商品標(biāo)題的單模態(tài)檢索方式,該方法所得到的信息有限,而同一商品有文本和視頻等不同模態(tài)的信息,如圖1所示,這些信息并沒(méi)有充分利用??缒B(tài)這一概念來(lái)源于人類(lèi)的多器官感知[11]:多個(gè)器官感知通道提供對(duì)感知實(shí)物的不同特征印象并傳遞給大腦,以加深對(duì)實(shí)物的特征感知??缒B(tài)檢索是指輸入的查詢數(shù)據(jù)和輸出的被查詢數(shù)據(jù)屬于不同模態(tài)的檢索方式。它比普通檢索得到的信息更為全面準(zhǔn)確且真實(shí),在海量數(shù)據(jù)中應(yīng)用能提高信息利用率和檢索效率,具有十分重要的研究意義。
圖1 商品的文本視頻模態(tài)信息(來(lái)源:https://zhongpai.jd.com)Fig.1 Text-video modal information for commodity
由于不同特征空間的數(shù)據(jù)存在語(yǔ)義理解的差距,各個(gè)模態(tài)的數(shù)據(jù)具有多樣性[12],如何減小語(yǔ)義差距并保留數(shù)據(jù)的有效對(duì)比特征是跨模態(tài)檢索的關(guān)鍵問(wèn)題。目前,跨模態(tài)檢索實(shí)現(xiàn)[13]的主要思路是:利用表示同一語(yǔ)義的異構(gòu)數(shù)據(jù)構(gòu)建不同模態(tài)間的對(duì)應(yīng)關(guān)系,構(gòu)建數(shù)學(xué)模型并進(jìn)行優(yōu)化求解,然后對(duì)各個(gè)模態(tài)的數(shù)據(jù)進(jìn)行相似性對(duì)比,從而檢索到同一語(yǔ)義的不同模態(tài)信息。研究者主要采用不同的建模方法和相似性對(duì)比方法解決問(wèn)題。本文系統(tǒng)整理了現(xiàn)有的跨模態(tài)檢索技術(shù),對(duì)不同的跨模態(tài)相關(guān)技術(shù)研究概括分析。首先對(duì)跨模態(tài)檢索研究進(jìn)行簡(jiǎn)要概述;然后按照數(shù)據(jù)編碼類(lèi)型分為實(shí)值表示和二進(jìn)制表示,再根據(jù)技術(shù)不同分為:基于子空間學(xué)習(xí)、基于主題統(tǒng)計(jì)模型、基于深度學(xué)習(xí)、基于傳統(tǒng)哈希和基于深度哈希五種方法,并進(jìn)行分析對(duì)比各類(lèi)技術(shù)的特點(diǎn);也為相關(guān)研究人員評(píng)估各類(lèi)方法整理了最新的多模態(tài)相關(guān)數(shù)據(jù)集;最后總結(jié)了跨模態(tài)領(lǐng)域研究遇到的挑戰(zhàn)并指出未來(lái)的研究方向。
跨模態(tài)研究開(kāi)展以來(lái),其他研究者們也曾提供了各種分析思路:Chen等人[14]主要對(duì)圖像和文本兩種模態(tài)和基于深度學(xué)習(xí)的方法進(jìn)行綜述。陳寧等人[15]圍繞公共子空間建模技術(shù)進(jìn)行了分類(lèi)及詳細(xì)介紹,具體分為基于傳統(tǒng)統(tǒng)計(jì)分析、基于深度學(xué)習(xí)和基于哈希學(xué)習(xí)三類(lèi)技術(shù)。上述綜述研究針對(duì)跨模態(tài)檢索工作做了較好的總結(jié)和探討,圍繞不同的主要研究方法展開(kāi)調(diào)研,而本研究的創(chuàng)新點(diǎn)可以概括為以下三個(gè)方面:(1)全面整理已有的研究工作,將以圖像文本為主流的模態(tài)擴(kuò)展到其他更多模態(tài)的文獻(xiàn)研究;(2)在前人基礎(chǔ)上分析實(shí)值和二進(jìn)制兩種表示下的跨模態(tài)檢索技術(shù),包含以建模技術(shù)和相似性對(duì)比為主線的最新相關(guān)文獻(xiàn)研究;(3)總結(jié)最新的多模態(tài)數(shù)據(jù)集和面臨的挑戰(zhàn),為相關(guān)的研究提供參考資料并為工程人員指出研究方向。
本章首先對(duì)跨模態(tài)檢索問(wèn)題進(jìn)行定義,然后采用文獻(xiàn)分析工具對(duì)跨模態(tài)檢索領(lǐng)域的相關(guān)文獻(xiàn)進(jìn)行分析并總結(jié)概括研究現(xiàn)狀。
跨模態(tài)檢索問(wèn)題主要圍繞不同模態(tài)間的語(yǔ)義如何減小相似度差距,增大非相似度差距進(jìn)行研究。用數(shù)學(xué)公式表示跨模態(tài)檢索問(wèn)題的定義可使其更加清晰,問(wèn)題符號(hào)定義如表1所示。假設(shè)以X與Y表示文本和圖像兩種模態(tài),其數(shù)據(jù)集定義為公式(1),包含該模態(tài)下n個(gè)數(shù)量的特征向量。由于不同模態(tài)之間數(shù)據(jù)無(wú)法直接比較,需要定義兩個(gè)模態(tài)X與Y的轉(zhuǎn)換函數(shù)如公式(2);數(shù)據(jù)轉(zhuǎn)換成相互對(duì)應(yīng)的特征值后,將不同特征值的數(shù)據(jù)放在同一個(gè)空間Z;最后利用相似度函數(shù)計(jì)算特征數(shù)據(jù)之間相似度,例如X模態(tài)的數(shù)據(jù)映射到公共空間Z,相似度函數(shù)計(jì)算如公式(3)。
表1 問(wèn)題符號(hào)定義Table 1 Question symbol definition
研究者們當(dāng)前解決跨模態(tài)檢索問(wèn)題有著各種各樣的技術(shù)方案。早期研究中主要是通過(guò)建立模型表示數(shù)據(jù)的對(duì)應(yīng)關(guān)系。2003年Jeon等人[16]提出了跨媒體關(guān)聯(lián)模型(cross-media relevance models,CMRM)。它實(shí)際上利用圖像自動(dòng)注釋來(lái)檢索圖像的方法,也屬于檢索內(nèi)容直接關(guān)聯(lián)的跨模態(tài)檢索。2008年張鴻等人[17]提出跨模態(tài)關(guān)聯(lián)圖的概念,將不同模態(tài)的關(guān)系用關(guān)聯(lián)圖的概念表示,這種方法后來(lái)也被稱為圖正則化的方法。近年來(lái),國(guó)內(nèi)外跨模態(tài)檢索發(fā)表文獻(xiàn)數(shù)量逐年遞增,這表明越來(lái)越多的研究人員開(kāi)始關(guān)注這一領(lǐng)域。
本研究重點(diǎn)對(duì)近五年的研究成果進(jìn)行分析,采用Citespace軟件工具對(duì)跨模態(tài)領(lǐng)域的研究熱點(diǎn)進(jìn)行可視化的系統(tǒng)分析。對(duì)該領(lǐng)域近5年發(fā)表數(shù)量較多的中英文文獻(xiàn)高頻關(guān)鍵詞進(jìn)行聚類(lèi)分析如圖2所示,總結(jié)分析了以下幾點(diǎn):(1)哈希二進(jìn)制編碼出現(xiàn)頻率排名第一,表明哈希編碼用于檢索的方法是目前研究熱點(diǎn);(2)利用深度學(xué)習(xí)嵌入空間進(jìn)行檢索的方法取得了顯著進(jìn)展;(3)聯(lián)系上下文內(nèi)容加深對(duì)模態(tài)場(chǎng)景的理解,說(shuō)明基于主題場(chǎng)景分析的方法也占據(jù)了一席之地;(4)跨模態(tài)檢索研究的模態(tài)由圖像文本擴(kuò)展到音頻等更多模態(tài)。
圖2 近年高頻關(guān)鍵詞聚類(lèi)圖Fig.2 High frequency keyword clustering map in recent years
通過(guò)文獻(xiàn)調(diào)研與科學(xué)分析,系統(tǒng)梳理現(xiàn)有的重點(diǎn)文獻(xiàn),緊緊結(jié)合研究熱點(diǎn)進(jìn)行歸納分類(lèi)。本研究按照數(shù)據(jù)表示編碼方式將跨模態(tài)檢索技術(shù)分為實(shí)值表示與二進(jìn)制表示兩類(lèi),跨模態(tài)檢索技術(shù)分類(lèi)如圖3所示。
圖3 跨模態(tài)檢索技術(shù)分類(lèi)Fig.3 Classification of cross-modal retrieval techniques
本章對(duì)跨模態(tài)檢索技術(shù)進(jìn)行分類(lèi)及詳細(xì)介紹,其中實(shí)值表示學(xué)習(xí)中各種模態(tài)特征的共同表示都是沒(méi)有經(jīng)過(guò)哈希轉(zhuǎn)換的值,具有相對(duì)方便的優(yōu)點(diǎn)。二進(jìn)制表示學(xué)習(xí)中各種模態(tài)特征表示為二進(jìn)制,與實(shí)值表示相比具有存儲(chǔ)空間小、易于計(jì)算的優(yōu)點(diǎn),但二進(jìn)制碼可能會(huì)產(chǎn)生信息丟失的問(wèn)題,檢索精度相對(duì)較低。
在實(shí)值表示學(xué)習(xí)中,為了解決不同模態(tài)數(shù)據(jù)無(wú)法直接比較的問(wèn)題,本文主要將其分為三種方法:基于子空間學(xué)習(xí)的方法、基于主題統(tǒng)計(jì)模型的方法和基于深度學(xué)習(xí)方法。
2.1.1 基于子空間學(xué)習(xí)的方法
子空間學(xué)習(xí)法是跨模態(tài)檢索中一種直觀的方法,圖4以狗的檢索特征為例,說(shuō)明了子空間特征學(xué)習(xí)框架圖。該方法從不同模態(tài)提取特征中后,利用一個(gè)公共的子空間將不同模態(tài)數(shù)據(jù)映射到同一空間,從而進(jìn)行相似性度量。本小節(jié)介紹特征映射到公共子空間時(shí)所采用的不同算法,分為典型相關(guān)分析(canonical correlation analysis,CCA)及其相關(guān)方法、語(yǔ)義標(biāo)簽方法和其他方法三類(lèi)。
圖4 子空間特征學(xué)習(xí)框架Fig.4 Subspace feature learning framework
最經(jīng)典的是Rasiwasia等人[18]提出的CCA算法,它根據(jù)空間向量關(guān)系模型計(jì)算子空間距離以解決線性問(wèn)題。但它是一對(duì)一的兩層模型,沒(méi)有利用類(lèi)信息,也找不到原變量之間的直接映射關(guān)系,不適用于學(xué)習(xí)非線性特征。為了適用于學(xué)習(xí)非線性特征,Hwang等人[19]提出核典型相關(guān)分析方法(kernel canonical correlation analysis,KCCA),它可以表示更復(fù)雜的相關(guān)性,提高算法性能,但它訓(xùn)練速度慢,測(cè)試時(shí)要求成對(duì)數(shù)據(jù)且需要提前存儲(chǔ)訓(xùn)練集。為解除所有數(shù)據(jù)必須成對(duì)的要求,Rasiwasia等人提出基于聚類(lèi)[20](Cluster-CCA)的方法,但是它應(yīng)用于大型數(shù)據(jù)集時(shí)計(jì)算量比較大,處理效率低,后續(xù)可結(jié)合深度學(xué)習(xí)方法不斷改進(jìn)。為了得到更高級(jí)的語(yǔ)義信息,Shao等人[21]提出融合線性投影和非線性隱藏層的雙向訓(xùn)練的ICCA(Improved-CCA),改善了控制傳統(tǒng)雙視圖的CCA,使得在有類(lèi)似原始數(shù)據(jù)輸入時(shí)也有精細(xì)輸出。為了同時(shí)保證檢索效率和精度,Shu等人對(duì)ml-CCA[22]方法做出改進(jìn),提出可擴(kuò)展多標(biāo)簽典型相關(guān)分析[23](scalable multi-label-CCA)方法,不僅可以學(xué)習(xí)共同語(yǔ)義之間的相關(guān)性,還可以同時(shí)學(xué)習(xí)特征相關(guān)性以提高跨模態(tài)檢索精度。
除CCA外還有其他的方法,Tenenbaum等人[24]提出雙線性模型(bilinear model,BLM)方法,它具有廣泛的適用性但不能準(zhǔn)確描述內(nèi)在幾何關(guān)系或物理現(xiàn)象。Chen等人[25]提出偏最小二乘法(partial least squares,PLS),這種數(shù)學(xué)計(jì)算的回歸分析模型需要很大的計(jì)算量。后來(lái)這兩種方法研究得較少,另外一種重要的方法叫語(yǔ)義標(biāo)簽法。Pereira等人[26]針對(duì)跨模態(tài)圖像文本檢索問(wèn)題提出三種匹配方法:其中CM是一種基于無(wú)監(jiān)督的跨模態(tài)關(guān)聯(lián)建模方法,SM是一種依賴于語(yǔ)義表示的監(jiān)督方法,而語(yǔ)義相關(guān)匹配(semantic correlation matching,SCM)則綜合了它們的優(yōu)點(diǎn),同時(shí)考慮了相關(guān)特征向量與語(yǔ)義空間以改善檢索效果。2020年Xu等人[27]提出基于半監(jiān)督圖正則化的語(yǔ)義一致性跨模態(tài)檢索方法(semantic consistency cross-modal retrieval,SCCMR),它將標(biāo)簽的預(yù)測(cè)和投影矩陣的優(yōu)化整合到統(tǒng)一的框架中,可以確保得到全局最優(yōu)解。Zhang等人[28]提出廣義半監(jiān)督結(jié)構(gòu)化子空間學(xué)習(xí)方法(generalized semi-supervised structured subspace learning,GSS-SL),主要利用標(biāo)簽空間作為鏈接對(duì)無(wú)標(biāo)簽信息進(jìn)行預(yù)測(cè)補(bǔ)充,從而保證檢索的準(zhǔn)確度。Xu等人[29]提出共享子空間分離方法(private-shared subspaces separation,P3S),可排除不相關(guān)的背景圖像或文本中的錯(cuò)句以提高標(biāo)簽的質(zhì)量,使得子空間學(xué)習(xí)可獲得更有效的公共表示。
在子空間學(xué)習(xí)方法中,CCA及其改進(jìn)方法是最基礎(chǔ)的方法,現(xiàn)在常常被用作對(duì)比實(shí)驗(yàn)方法。它是將不同模態(tài)的特征映射到特征空間,建立投影矩陣從而直接度量特征相似度,但該方法需要找到對(duì)應(yīng)的特征關(guān)系,會(huì)有特征分辨力不足的問(wèn)題,需要結(jié)合深度學(xué)習(xí)等技術(shù)進(jìn)行改善。另一種語(yǔ)義標(biāo)簽的方法主要是通過(guò)補(bǔ)充預(yù)測(cè)處理標(biāo)簽,完善不同模態(tài)之間的信息相關(guān)性,提高同類(lèi)不同模態(tài)間的信息不相關(guān)性。標(biāo)簽信息越豐富它們的分辨力就會(huì)越強(qiáng)大,只是標(biāo)簽的大量補(bǔ)充是一個(gè)費(fèi)時(shí)費(fèi)力的工作,因此標(biāo)簽的補(bǔ)充預(yù)測(cè)會(huì)是未來(lái)研究的難點(diǎn)。
2.1.2 基于主題統(tǒng)計(jì)模型學(xué)習(xí)的方法
基于主題統(tǒng)計(jì)模型學(xué)習(xí)是另外一種通過(guò)建模來(lái)實(shí)現(xiàn)跨模態(tài)檢索的方法。主題指的是具有同一特征的抽象空間維度,主題模型是統(tǒng)計(jì)模型學(xué)習(xí)中最重要的一種。該方法利用隱藏的語(yǔ)義空間來(lái)發(fā)現(xiàn)數(shù)據(jù)中出現(xiàn)的抽象空間維度。將這些特征映射到一個(gè)公共語(yǔ)義空間來(lái)統(tǒng)計(jì)相關(guān)性,用于在一種模態(tài)中查找結(jié)果的條件概率,同時(shí)在另一種模態(tài)中查詢結(jié)果。主題模型的核心就是可以用公式(4)求解X和Y兩模態(tài)的主題聯(lián)合分布概率。
最初的主題模型方法是將隱狄利克雷分配(linear discriminant analysis,LDA)應(yīng)用于多模態(tài)的聯(lián)合分布模型[30]。Wang等人[31]提出有監(jiān)督的多模態(tài)相互主題強(qiáng)化建模技術(shù)(multi-modal mutual topic reinforcement modeling,M3R),利用一個(gè)聯(lián)合跨模態(tài)概率圖形模型,對(duì)各模態(tài)數(shù)據(jù)相關(guān)性進(jìn)行分析,從而找到相同語(yǔ)義主題。Wu等人[32]提出具有主題約束的區(qū)域強(qiáng)化網(wǎng)絡(luò)模型(region reinforcement network with topic constraint,RRTC)來(lái)概括圖像的中心主題,從而約束原始圖像的偏差,然后考慮區(qū)域間關(guān)系和重新分配區(qū)域詞的相似性來(lái)推斷圖像和文本細(xì)粒度的對(duì)應(yīng)關(guān)系。該方法彌補(bǔ)了主題概率法檢索不夠準(zhǔn)確的缺點(diǎn)。
除了主題統(tǒng)計(jì)模型外,統(tǒng)計(jì)模型還包括馬爾可夫模型、馬爾可夫隨機(jī)場(chǎng)等。Jia等人[33]提出多模態(tài)文檔隨機(jī)場(chǎng)(Markov random field,MRF),通過(guò)定義馬爾可夫隨機(jī)變量之間的相似性對(duì)文本進(jìn)行建模,找到內(nèi)容相關(guān)概率,最終確定最接近的檢索結(jié)果。為了避免出現(xiàn)主題沖突的情況,Wu等人[34]提出一種跨模態(tài)在線低秩相似函數(shù)學(xué)習(xí)法(cross-modal online low-rank similarity,CMOLRS)。通過(guò)訓(xùn)練數(shù)據(jù)三元組的相對(duì)相似性對(duì)跨模態(tài)關(guān)系進(jìn)行建模,并將相對(duì)關(guān)系表述為凸鉸鏈損失,利用多級(jí)語(yǔ)義相關(guān)性減小了跨模態(tài)數(shù)據(jù)之間的內(nèi)容分歧,保證檢索結(jié)果可靠性。
基于主題統(tǒng)計(jì)模型學(xué)習(xí)的方法能夠保留它特有的主題特征,保證檢索內(nèi)容上最大的概率相關(guān)性,而且有可能發(fā)現(xiàn)有意義的潛在新情景。相較于子空間學(xué)習(xí)方法,基于概率的聯(lián)合特征學(xué)習(xí)可以消除原始空間中的冗余和噪聲問(wèn)題,從而得到更完整、客觀的描述。概率估計(jì)的方法雖然對(duì)于一些整體主題的判別有著不錯(cuò)的效果,但是它的準(zhǔn)確度可能會(huì)不理想,而且該方法對(duì)存儲(chǔ)空間要求較大,處理龐大的數(shù)據(jù)要付出昂貴的計(jì)算成本。
2.1.3 基于深度學(xué)習(xí)的方法
上述兩種方法主要考慮的是模態(tài)之間的建模方法,從而得到特征的有效映射。然而深度學(xué)習(xí)網(wǎng)絡(luò)主要考慮的是對(duì)有效特征的提取,并加入一些新的訓(xùn)練機(jī)制,提高模態(tài)間的不相關(guān)性和模態(tài)內(nèi)的相關(guān)性,再進(jìn)行相似性對(duì)比。對(duì)于提高高階語(yǔ)義的相關(guān)性,深度學(xué)習(xí)的跨模態(tài)檢索方法能夠處理更為龐大的真實(shí)數(shù)據(jù)集,得到了廣泛的應(yīng)用。本小節(jié)介紹了具有代表性的深度網(wǎng)絡(luò)模型與相關(guān)算法、對(duì)抗性學(xué)習(xí)合成特征方法、知識(shí)遷移學(xué)習(xí)方法和多模態(tài)通用的跨模態(tài)檢索的方法。
從深度學(xué)習(xí)所采用神經(jīng)網(wǎng)絡(luò)模型與相關(guān)算法的不同總結(jié)出以下幾種代表類(lèi)方法。Xia等人[35]提出基于深度學(xué)習(xí)的深度典型相關(guān)分析方法(deep-CCA)訓(xùn)練大規(guī)模數(shù)據(jù),先求出兩個(gè)具有最大相關(guān)性視圖的投影向量,再通過(guò)多層堆疊的非線性變換來(lái)計(jì)算相似度,其效果明顯優(yōu)于CCA方法。Feng等人[36]提出對(duì)應(yīng)自動(dòng)編碼器模型(correspondence autoencoder,Corr AE),關(guān)聯(lián)兩個(gè)相互對(duì)應(yīng)的單峰自動(dòng)編碼器來(lái)表示隱藏信息。隨后他又提出通信受限玻爾茲曼機(jī)[37],通過(guò)不同模態(tài)學(xué)習(xí)自編碼表示并最小化模態(tài)間相關(guān)學(xué)習(xí)誤差,不斷訓(xùn)練使得模型不斷優(yōu)化。經(jīng)實(shí)驗(yàn)驗(yàn)證,這種兩兩對(duì)應(yīng)的方法能夠發(fā)現(xiàn)新的屬性,對(duì)于跨模態(tài)檢索研究有著較大促進(jìn)作用。Jiang等人[38]基于相似度理論對(duì)圖文進(jìn)行檢索,使用局部二值模式(local binary pattern,LBP)作為圖像描述符,深度信念網(wǎng)絡(luò)(deep belief network,DBN)作為深度學(xué)習(xí)算法。該方法為跨模態(tài)檢索提供了新思路,但由于理論分析的難度較大,該方法較難實(shí)際應(yīng)用。還有一種圖卷積神經(jīng)網(wǎng)絡(luò),可同時(shí)學(xué)習(xí)各個(gè)節(jié)點(diǎn)的特征與結(jié)構(gòu)信息,比卷積神經(jīng)網(wǎng)絡(luò)適應(yīng)性更廣。Dong等人[39]提出基于圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN),利用樣本與其鄰域之間的鄰接關(guān)系重構(gòu)樣本表示并基于局部圖重構(gòu)節(jié)點(diǎn)特征,將兩種模態(tài)的特征映射到公共空間中,從而獲取隱藏的高級(jí)語(yǔ)義信息并增強(qiáng)具有相同語(yǔ)義的樣本相似信息。但圖卷積網(wǎng)絡(luò)計(jì)算量比較大,難以處理新加入節(jié)點(diǎn)信息,這些問(wèn)題還有待解決。
對(duì)抗性學(xué)習(xí)方法有著強(qiáng)大的區(qū)分能力,能夠很好地彌補(bǔ)異質(zhì)差距以提高跨模態(tài)檢索效率,是深度學(xué)習(xí)中重要的方法之一。Peng等人[40]提出跨模態(tài)生成對(duì)抗網(wǎng)絡(luò)(cross-modal generative adversarial networks,CM-GAN),使用兩對(duì)生成器和鑒別器共同工作對(duì)模態(tài)內(nèi)和模態(tài)間進(jìn)行判別,最終生成具有高分辨性的通用表示。然而CM-GAN方法傾向于全局特征的描述,為此Kou等人[41]提出結(jié)合對(duì)象注意和對(duì)抗性學(xué)習(xí)的方法。其中對(duì)象注意模型用來(lái)生成高質(zhì)量的圖像文本特征,反映更為豐富的語(yǔ)義,再加上生成對(duì)抗網(wǎng)絡(luò)用來(lái)生成高質(zhì)量的特征,使得檢索效果有所改善。Shi等人[42]基于互補(bǔ)注意機(jī)制的特征提取來(lái)提高語(yǔ)義表示相關(guān)性,并在對(duì)抗式學(xué)習(xí)框架中訓(xùn)練公共特征映射和模態(tài)分類(lèi),獲得了通用語(yǔ)義表示以減小模態(tài)間語(yǔ)義差距,其效果優(yōu)于傳統(tǒng)的深度學(xué)習(xí)算法。CM-GAN方法在各個(gè)模態(tài)生成特征時(shí)具有不穩(wěn)定性,可能會(huì)有錯(cuò)誤的數(shù)據(jù)影響檢索效果。為此Xu等人[43]提出聯(lián)合特征合成與嵌入方法(joint feature synthesis and embedding,JFSE),采用了兩個(gè)改進(jìn)的耦合GAN用于多模態(tài)特征合成,并將類(lèi)嵌入作為特征級(jí)跨模態(tài)數(shù)據(jù)合成的輔助信息,有效地關(guān)聯(lián)每個(gè)模態(tài)的特征合成。
遷移學(xué)習(xí)是深度學(xué)習(xí)中的一種重要方法,常常會(huì)與對(duì)抗學(xué)習(xí)結(jié)合來(lái)解決跨模態(tài)檢索中的未知類(lèi)問(wèn)題。Huang等人[44]提出端到端兩個(gè)網(wǎng)絡(luò)結(jié)構(gòu)的跨模態(tài)對(duì)抗混合傳輸網(wǎng)絡(luò)(modal-adversarial hybrid transfer network,MHTN),一端利用遷移學(xué)習(xí)將相關(guān)表示從單模態(tài)源域遷移到多模態(tài)目標(biāo)域;另一端在公共表示空間構(gòu)建對(duì)抗訓(xùn)練機(jī)制進(jìn)行語(yǔ)義學(xué)習(xí),實(shí)現(xiàn)了多模態(tài)數(shù)據(jù)的有效檢索。為了保留原始數(shù)據(jù)的潛在結(jié)構(gòu)以獲取更好的檢索效果,Zhen等人[45]提出深度多模態(tài)遷移學(xué)習(xí)方法(deep multimodal transfer learning,DMTL),由兩個(gè)多模態(tài)特定的神經(jīng)網(wǎng)絡(luò)和一個(gè)聯(lián)合學(xué)習(xí)模塊組成,并采用映射到公共子空間的思想實(shí)現(xiàn)跨模態(tài)檢索。遷移學(xué)習(xí)方法從先前標(biāo)記的類(lèi)別源域中遷移知識(shí),可以提高未標(biāo)記的新類(lèi)別目標(biāo)域的檢索性能,然而不能有效處理新增加的模態(tài),需要重復(fù)地訓(xùn)練數(shù)據(jù)。
由于跨模態(tài)檢索的模態(tài)不斷增加,固定模態(tài)如圖像文本模態(tài)的研究并不能完全應(yīng)用于其他模態(tài),總需要重復(fù)訓(xùn)練或重新設(shè)計(jì)網(wǎng)絡(luò)模型,無(wú)用工作較多且設(shè)計(jì)復(fù)雜,因此學(xué)者提出通用的跨模態(tài)檢索方法。Cao等人[46]提出混合表示學(xué)習(xí)(hybrid representation learning,HRL),由堆疊受限玻爾茲曼機(jī)(SRBM)提取每種模態(tài)表示,多模態(tài)深度信念網(wǎng)絡(luò)(DBN)提取模態(tài)互表示,以及使用包含聯(lián)合自動(dòng)編碼器和三層前饋神經(jīng)網(wǎng)絡(luò)的雙層網(wǎng)絡(luò)。該方法通過(guò)多模態(tài)推斷圖像的缺失信息以挖掘潛在圖像表示,而且采用堆疊雙峰自動(dòng)編碼器可以獲得多種模態(tài)的最終共享表示。Hu等人[47]提出可擴(kuò)展的深度多模態(tài)學(xué)習(xí)(scalable deep multi-modal learning,SDML)檢索方法,在預(yù)定義公共子空間分別為n個(gè)模態(tài)訓(xùn)練獲得n個(gè)網(wǎng)絡(luò),這是第一個(gè)提出將多模態(tài)數(shù)據(jù)分別投影到預(yù)定義的公共子空間的技術(shù)。
綜上所述,深度學(xué)習(xí)方法已經(jīng)是大數(shù)據(jù)時(shí)代跨模態(tài)檢索的重要方法,在信息數(shù)量越多時(shí)檢索效果越好,且適用于圖像文本等更多模態(tài)的檢索。隨著深度學(xué)習(xí)網(wǎng)絡(luò)模型的不斷改進(jìn)并與其他建模方法結(jié)合,能不斷地優(yōu)化處理多模態(tài)數(shù)據(jù)和特征提取問(wèn)題。對(duì)抗遷移學(xué)習(xí)方法可以檢索未知類(lèi)數(shù)據(jù),尤其是使用對(duì)抗學(xué)習(xí)可以生成相關(guān)特征以提高分辨能力,而且沒(méi)有對(duì)于模態(tài)的限制。另外,通用多模態(tài)表示技術(shù)如混合表示、多層表示的方法,能夠綜合不同技術(shù)的特點(diǎn),只要設(shè)計(jì)好合理的網(wǎng)絡(luò)結(jié)構(gòu),就能在多種模態(tài)應(yīng)用中取得很好的效果。本文認(rèn)為,在未來(lái)研究中可以將深度學(xué)習(xí)的思想與各種建模方法融合,也可以利用GAN及其改進(jìn)方法生成多模態(tài)特征以減小語(yǔ)義差距,還可以設(shè)計(jì)混合的多模態(tài)學(xué)習(xí)框架以適應(yīng)多種模態(tài)的跨模態(tài)檢索。
2.1.4 實(shí)值表示技術(shù)總結(jié)分析
實(shí)值表示方式可以包含不同的數(shù)據(jù)類(lèi)型,能夠保留原始數(shù)據(jù)且滿足多種模態(tài)的檢索需求,但它需要大量的存儲(chǔ)空間,不能滿足高效的檢索要求。其中子空間模型與主題統(tǒng)計(jì)模型都是為實(shí)現(xiàn)跨模態(tài)檢索提供一個(gè)數(shù)據(jù)比較的模型,基于深度學(xué)習(xí)的方法是提供一種特征提取的有效手段。本研究選取了幾種實(shí)值表示技術(shù),比較它們?cè)赪ikipedia數(shù)據(jù)集上應(yīng)用的MAP值。如表2所示,可以看出P3S在基于子空間學(xué)習(xí)的方法中效果最好,CMOLRS在基于主題概率模型的方法中效果最好,DMTL方法的MAP值遠(yuǎn)高于其他方法。
表2 實(shí)值表示方法數(shù)據(jù)集及評(píng)價(jià)指標(biāo)對(duì)比Table 2 Comparison of real value representation method datasets and evaluation indexes
實(shí)值表示方法還可以在檢索精度和效率、多模態(tài)的相互表示上進(jìn)一步優(yōu)化。對(duì)于檢索精度的提升,上面提到了補(bǔ)充語(yǔ)義標(biāo)簽等方法;對(duì)于檢索效率的提高,融合神經(jīng)網(wǎng)絡(luò)模型與聯(lián)合學(xué)習(xí)的機(jī)制是可行的,該方法所呈現(xiàn)的檢索效果往往優(yōu)于單一模型的檢索機(jī)制,不過(guò)融合模型太多會(huì)將簡(jiǎn)單問(wèn)題復(fù)雜化,在實(shí)際應(yīng)用中需要衡量實(shí)用價(jià)值選擇適合的方法。
不同于實(shí)值表示的數(shù)據(jù)直接表示,二進(jìn)制表示將數(shù)據(jù)轉(zhuǎn)換成另一種更短的存儲(chǔ)方式,能夠降低存儲(chǔ)成本。利用哈希算法學(xué)習(xí)轉(zhuǎn)換數(shù)據(jù)可以提高檢索效率,跨模態(tài)哈希有二進(jìn)制碼和哈希函數(shù)兩大重點(diǎn)內(nèi)容??缒B(tài)哈希函數(shù)通常是在目標(biāo)函數(shù)中使用額外的二進(jìn)制約束,并利用迭代量化或離散優(yōu)化算法來(lái)學(xué)習(xí)二進(jìn)制代碼。本節(jié)按照二進(jìn)制實(shí)現(xiàn)算法分為基于傳統(tǒng)哈希的方法和基于深度哈希的方法。傳統(tǒng)的哈希算法是針對(duì)任意長(zhǎng)度的二進(jìn)制值,映射為較短的固定長(zhǎng)度的二進(jìn)制值以節(jié)省存儲(chǔ)空間。深度的哈希算法不再限制二進(jìn)制碼的長(zhǎng)度,只要滿足在一定范圍就可進(jìn)行計(jì)算。
2.2.1 基于傳統(tǒng)哈希的方法
傳統(tǒng)的哈希算法本質(zhì)上是近似最近鄰搜索的優(yōu)化問(wèn)題,求解哈希函數(shù)最優(yōu)解以更好地實(shí)現(xiàn)模態(tài)的相關(guān)表示。大部分哈希函數(shù)學(xué)習(xí)分為降維和量化兩個(gè)階段:降維是將信息從原始空間映射到低維空間表示,量化是將實(shí)際特征線性或非線性轉(zhuǎn)換為二進(jìn)制的特征空間。
Yu等人[48]通過(guò)結(jié)合圖正則化學(xué)習(xí)哈希函數(shù)的無(wú)監(jiān)督級(jí)聯(lián)哈希技術(shù)(unsupervised concatenation hash,UCH)進(jìn)行降維,將原始特征投影到哈希碼中建模求解,該方法的MAP值遠(yuǎn)高于CCA等傳統(tǒng)的方法。Yu等人[49]之后又提出利用多個(gè)視圖之間的互補(bǔ)信息來(lái)更好地學(xué)習(xí)哈希碼的學(xué)習(xí)框架(multi-view hash,MVH),為3D模型的跨模態(tài)檢索提供一種新思路。Shen等人[50]提出采用語(yǔ)義標(biāo)簽關(guān)系來(lái)縮小模態(tài)差距的跨模態(tài)哈希監(jiān)督子空間關(guān)系學(xué)習(xí)技術(shù)(subspace relation learning for cross-modal hash,SRLCH),將兩種模態(tài)的語(yǔ)義標(biāo)簽映射到具有變換矩陣的子空間來(lái)減小相似度計(jì)算距離。Liu等人[51]提出矩陣三因子分解哈希框架(matrix trifactorization hash,MTFH),首次采用不同的哈希長(zhǎng)度對(duì)異構(gòu)數(shù)據(jù)進(jìn)行編碼的方法,能在不完全成對(duì)關(guān)系的多模態(tài)數(shù)據(jù)以及任意的哈希長(zhǎng)度編碼的場(chǎng)景下工作。它利用哈希函數(shù)學(xué)習(xí)特定于模態(tài)的哈希碼,同時(shí)學(xué)習(xí)兩個(gè)語(yǔ)義相關(guān)矩陣,以便對(duì)異構(gòu)數(shù)據(jù)的不同哈希表示進(jìn)行語(yǔ)義關(guān)聯(lián),提升了檢索效果。
傳統(tǒng)哈希方法往往會(huì)放松離散約束,導(dǎo)致相對(duì)較高的計(jì)算成本和量化損失,故研究者們提出了各種離散優(yōu)化的方法。Zheng等人[52]提出快速離散協(xié)作多模態(tài)哈希方法(fast discrete collaborative multi-modal hash,F(xiàn)DCMH)同時(shí)具有高效計(jì)算和存儲(chǔ)的性能。首先采用高效的協(xié)作多模態(tài)映射模塊,保證多模態(tài)特征的互補(bǔ)性和語(yǔ)義相關(guān)性,此外還有一個(gè)非對(duì)稱哈希學(xué)習(xí)模塊,在公共潛在空間和哈希碼之間建立連接,將更多的標(biāo)簽信息嵌入到二進(jìn)制代碼中以增強(qiáng)對(duì)語(yǔ)義哈希碼的識(shí)別能力。Wang等人[53]提出有監(jiān)督的跨模態(tài)哈希(scalable asymmetric discrete cross-modal hash,BATCH)方法也采用了非對(duì)稱哈希模塊。和FDCMH的區(qū)別在于:它利用矩陣分解來(lái)學(xué)習(xí)標(biāo)簽和不同模態(tài)的公共潛在空間以便于關(guān)聯(lián)不同模態(tài)二進(jìn)制碼。在離散優(yōu)化模塊,它引入了量化最小化項(xiàng)和正交約束大大減少了量化誤差和冗余。Liu等人[54]提出一種有監(jiān)督的潛在語(yǔ)義增強(qiáng)離散哈希,也是利用矩陣分解獲得不同模態(tài)的個(gè)體潛在語(yǔ)義表示,采用離散優(yōu)化策略以減少量化損失。該方法是目前處理圖像到文本檢索任務(wù)時(shí)準(zhǔn)確性最高的跨模態(tài)哈希方法。
基于傳統(tǒng)哈希的跨模態(tài)檢索方法依據(jù)樣本的二進(jìn)制編碼,能夠優(yōu)化復(fù)雜計(jì)算和減小存儲(chǔ)空間,已成為目前較為熱門(mén)的方法。但由于哈希算法會(huì)產(chǎn)生量化損失影響信息準(zhǔn)確度,離散優(yōu)化問(wèn)題會(huì)成為未來(lái)研究的關(guān)鍵。本文總結(jié)了提高效率的協(xié)作多模態(tài)映射模塊、提高識(shí)別能力的非對(duì)稱哈希模塊來(lái)減小量化損失,為哈希算法的探索提供了新思路。
2.2.2 基于深度哈希的方法
基于深度哈希的方法融合了深度學(xué)習(xí)和哈希算法的優(yōu)點(diǎn),不僅具有強(qiáng)大的特征學(xué)習(xí)能力,其高效的檢索性能遠(yuǎn)遠(yuǎn)超過(guò)傳統(tǒng)哈希算法,近年來(lái)已成為跨模態(tài)檢索研究的熱門(mén)方法。本小節(jié)對(duì)近年來(lái)主要的深度哈希算法進(jìn)行分析,最后對(duì)現(xiàn)有的方法進(jìn)行總結(jié)。
為提高檢索效率,Cao等人[55]提出深度視覺(jué)語(yǔ)義哈希模型(deep visual semantic hash,DVSH),文中第一次提出端到端網(wǎng)絡(luò)框架,融合了多模態(tài)嵌入和跨模態(tài)哈希。多模態(tài)嵌入的一端是視覺(jué)語(yǔ)義融合網(wǎng)絡(luò),以圖像卷積神經(jīng)網(wǎng)絡(luò)和學(xué)習(xí)文本的遞歸神經(jīng)網(wǎng)絡(luò)(long shortterm memory,LSTM)緊密關(guān)聯(lián)組成;另一端是兩個(gè)特定模態(tài)的哈希網(wǎng)絡(luò),用于學(xué)習(xí)特定哈希函數(shù)便于對(duì)未知的數(shù)據(jù)編碼。另外,Deng等人[56]提出基于三元組的深度哈希網(wǎng)絡(luò)(triplet-based deep hash,TDH),使用三元組標(biāo)簽?zāi)莒`活捕捉更高級(jí)的語(yǔ)義信息并容易生成各種約束,再由圖正則化和模態(tài)內(nèi)外間雙重視圖生成三重?fù)p失函數(shù),保持哈希編碼之間原始語(yǔ)義的相似性,從而提升檢索精度。
基于注意力機(jī)制方法能夠準(zhǔn)確定位到主要信息,減小無(wú)用信息的干擾,在深度哈希方法里廣泛應(yīng)用。Zhang等人[57]提出具有注意力機(jī)制的深度對(duì)抗性哈希(attention-aware deep adversarial hash,AADAH)用于增加內(nèi)容特征相似性的測(cè)量,證明了注意力機(jī)制針對(duì)多媒體的信息片段有強(qiáng)大的識(shí)別能力。吳吉祥等人[58]提出加入多模態(tài)注意力機(jī)制的跨模態(tài)哈希網(wǎng)絡(luò)(hash network based on multi-modal attention mechanism,HX-MAN),將注意力機(jī)制引入到端到端的深度跨模態(tài)哈希技術(shù)[59](deep cross-model hash,DCMH)方法中來(lái)提取不同模態(tài)的關(guān)鍵信息,能夠準(zhǔn)確地檢索圖像和文本模態(tài)的局部細(xì)粒度特征,明顯改善了檢索精度。Wang等人[60]提出自約束和基于注意力的哈希網(wǎng)絡(luò)(selfconstraining and attention-based hash,SCAHN),將早期和后期的標(biāo)簽約束及其融合特征集成到哈希表示和哈希函數(shù)學(xué)習(xí)中,提升了跨模態(tài)檢索的精度。
離散優(yōu)化是解決深度哈希和傳統(tǒng)哈希中量化損失問(wèn)題的有效方法。Xu等人[61]首先提出離散跨模態(tài)哈希(discrete cross-modal hash,DCH),它學(xué)習(xí)特定模態(tài)的哈希函數(shù)以生成統(tǒng)一的二進(jìn)制代碼,然后采用離散約束求二進(jìn)制解。之后他又提出離散潛在語(yǔ)義哈希[62](discrete latent semantic hash,DLSH),使用離散優(yōu)化算法直接學(xué)習(xí)二進(jìn)制碼,再次減小量化損失。為了解決同時(shí)學(xué)習(xí)二進(jìn)制代碼和哈希函數(shù)優(yōu)化的復(fù)雜性問(wèn)題,Zhang等人[63]提出了一種兩階段監(jiān)督離散哈希(two-stage supervised discrete hash,TSDH)方法。它將各模態(tài)生成潛在標(biāo)簽后直接學(xué)習(xí)哈希函數(shù),以增強(qiáng)二進(jìn)制碼的可辨別性,分為兩階段處理可以更快進(jìn)行優(yōu)化從而提升檢索效率。
零樣本的跨模態(tài)檢索具備可擴(kuò)展性,它可以檢索出不同模態(tài)的新類(lèi)且不需要每次對(duì)新類(lèi)重復(fù)訓(xùn)練。Liu等人[64]提出跨模態(tài)零樣本哈希方法(cross-modal zeroshot hash,CZSH),零樣本哈希學(xué)習(xí)使用類(lèi)別屬性來(lái)尋找語(yǔ)義嵌入空間,使用已知類(lèi)中的樣本訓(xùn)練的哈希模型對(duì)未知類(lèi)的樣本進(jìn)行擴(kuò)展,然而要在大量標(biāo)記數(shù)據(jù)的情況下才會(huì)有好的檢索效果。Xu等人[65]提出具有自我監(jiān)督的三元對(duì)抗網(wǎng)絡(luò)(ternary adversarial networks with self-supervision,TANSS)。它由兩個(gè)特定模態(tài)形成端到端的網(wǎng)絡(luò)結(jié)構(gòu),分別是兩個(gè)語(yǔ)義學(xué)習(xí)子網(wǎng)絡(luò)和自監(jiān)督語(yǔ)義學(xué)習(xí)子網(wǎng)絡(luò),并在整個(gè)網(wǎng)絡(luò)上應(yīng)用對(duì)抗式學(xué)習(xí)。與之前語(yǔ)義標(biāo)簽方法不同,該方法提出新的自監(jiān)督機(jī)制學(xué)習(xí)新類(lèi)標(biāo)簽,有助于有效地迭代參數(shù)優(yōu)化。
另外,跨模態(tài)深度哈希學(xué)習(xí)中還有些其他的方法。Zhang等人[66]提出混合跨模態(tài)相似性學(xué)習(xí)模型(hybrid cross-modal similarity learning,HCMSL),首先從標(biāo)記和未標(biāo)記的跨模態(tài)對(duì)中捕獲足夠的語(yǔ)義信息,在具有相同分類(lèi)標(biāo)簽的模態(tài)內(nèi)配對(duì);然后將兩個(gè)連體CNN模型用于相同模態(tài)的樣本中學(xué)習(xí)模態(tài)內(nèi)相似性。該方法可以融合模態(tài)內(nèi)外相似性,從而減小模態(tài)差距。Li等人[67]提出多層表示學(xué)習(xí)方法(multi-level similarity learning,MLSL),首先采用多標(biāo)簽卷積神經(jīng)網(wǎng)絡(luò)框架對(duì)語(yǔ)義層信息進(jìn)行編碼,再應(yīng)用圖形匹配建模結(jié)構(gòu)層對(duì)應(yīng)關(guān)系,最后結(jié)合上下文對(duì)應(yīng)不同模態(tài)細(xì)節(jié)并采用三元組損失來(lái)減少跨模態(tài)差異,最終改善圖像文本檢索任務(wù)。Li等人[68]提出圖像文本雙向?qū)W習(xí)網(wǎng)絡(luò)(bidirectional learning network,BLN),用一種多層監(jiān)督網(wǎng)絡(luò)來(lái)學(xué)習(xí)生成表示的跨模態(tài)相關(guān)性,其雙向?qū)W習(xí)中的雙向交叉損失函數(shù)能有效減少高級(jí)語(yǔ)義信息的丟失。這些混合模型、多層表示、雙向?qū)W習(xí)方法的思想可以應(yīng)用于多模態(tài),能有效減小模態(tài)差異。
本小節(jié)總結(jié)分析了不同的網(wǎng)絡(luò)模型以提高檢索效率和精度,如端到端網(wǎng)絡(luò)模型、三元組標(biāo)簽哈希模型、基于注意力機(jī)制的哈希網(wǎng)絡(luò),還有解決量化損失問(wèn)題的離散優(yōu)化方法,解決未知類(lèi)問(wèn)題的具有可擴(kuò)展性的零樣本跨模態(tài)檢索方法和其他綜合類(lèi)方法?;谏疃裙7椒ǖ难芯恐饕峭ㄟ^(guò)改善模型和優(yōu)化算法來(lái)尋找更佳的跨模態(tài)檢索技術(shù),目前仍然具有很大的發(fā)展空間。隨著深度學(xué)習(xí)技術(shù)的不斷優(yōu)化和哈希算法的不斷改進(jìn),在未來(lái)的研究中可以選擇更適合的模型與算法融合以提高信息利用率和檢索效率。
2.2.3 二進(jìn)制表示技術(shù)總結(jié)分析
二進(jìn)制表示技術(shù)的跨模態(tài)檢索本質(zhì)上是一種降維量化的方法。它的優(yōu)勢(shì)在于能夠節(jié)省存儲(chǔ)空間,提高檢索效率,得到了廣泛應(yīng)用。注意力機(jī)制與對(duì)抗性學(xué)習(xí)的方法也大大提高了采用二進(jìn)制方法的效率和精度。另外多模態(tài)的擴(kuò)展問(wèn)題也因零樣本跨模態(tài)檢索有了新突破。但降維會(huì)破壞數(shù)據(jù)原始結(jié)構(gòu),且哈希算法是不可逆的,可能會(huì)產(chǎn)生過(guò)擬合問(wèn)題。它還存在離散約束問(wèn)題,對(duì)此在傳統(tǒng)哈希和深度哈希中都提到了從算法和哈希函數(shù)學(xué)習(xí)進(jìn)行離散優(yōu)化的方法。如表3所示,本文整理了各種二進(jìn)制表示技術(shù)的數(shù)據(jù)集和評(píng)價(jià)指標(biāo),并分析了方法的特點(diǎn),以便于后續(xù)研究者使用。
表3 二進(jìn)制表示方法數(shù)據(jù)集及評(píng)價(jià)指標(biāo)對(duì)比Table 3 Comparison of binary representation method datasets and evaluation indexes
表4總結(jié)了所有的跨模態(tài)檢索技術(shù)并將其分為兩類(lèi)表示技術(shù)的不同類(lèi)型方法,從具體思路、優(yōu)勢(shì)、局限性和適用場(chǎng)景展開(kāi)對(duì)比分析。實(shí)值表示保留原始數(shù)據(jù)的結(jié)構(gòu),二進(jìn)制表示對(duì)數(shù)據(jù)進(jìn)行哈希轉(zhuǎn)換,可以提高檢索效率,但同時(shí)會(huì)破壞數(shù)據(jù)結(jié)構(gòu)。其中子空間學(xué)習(xí)與主題概率學(xué)習(xí)模型在處理特定場(chǎng)景問(wèn)題時(shí)具有一定優(yōu)勢(shì)。深度哈希方法或許是未來(lái)跨模態(tài)檢索技術(shù)的研究熱點(diǎn),它可以融合新的深度網(wǎng)絡(luò)模型和先進(jìn)的哈希算法,能夠處理復(fù)雜的問(wèn)題。其他的方法也同樣重要,深度哈希技術(shù)的發(fā)展也離不開(kāi)對(duì)于深度學(xué)習(xí)方法與哈希算法的進(jìn)一步深入研究。
表4 跨模態(tài)檢索不同表示方法分析Table 4 Analysis of different representation methods for cross-modal retrieval
本節(jié)對(duì)常用的多模態(tài)數(shù)據(jù)集進(jìn)行總結(jié)并分析,如表5所示。
表5 數(shù)據(jù)集統(tǒng)計(jì)表Table 5 Dataset statistics table
(1)Wikipedia[18]:由一個(gè)文檔語(yǔ)料庫(kù)和相關(guān)的文本和圖像對(duì)組成,分為10個(gè)語(yǔ)義類(lèi)。維基百科將每篇文章分為29個(gè)概念,最終的語(yǔ)料庫(kù)有2 866份文件。
(2)WIKI-CMR[69]:數(shù)據(jù)主要集中在地理、人文、自然、文化和歷史領(lǐng)域,包含圖像、段落、超鏈接類(lèi)別標(biāo)簽共74 961個(gè)文檔。文檔分為11個(gè)不同的語(yǔ)義類(lèi)。圖像使用8種類(lèi)型的特征表示,包括密集篩選、Gist、PHOG、LBP和其他特征,文本使用TF-IDF表示。
(3)NUS-WIDE[70]:數(shù)據(jù)類(lèi)似于真實(shí)世界的網(wǎng)絡(luò)圖像。包括81個(gè)類(lèi)別的約27萬(wàn)幅圖像以及5 018個(gè)相關(guān)標(biāo)簽,共6種類(lèi)型的低層圖像特征。
(4)Pascal VOC[71]:其名稱概念為模式分析、統(tǒng)計(jì)建模、計(jì)算學(xué)習(xí)和視覺(jué)對(duì)象。它包含帶注釋的消費(fèi)者圖片,由9 963幅圖像和24 640個(gè)注釋對(duì)象組成,分為20個(gè)不同類(lèi)別。注釋中提到的實(shí)體包括類(lèi)、邊界框、視圖、截?cái)鄬?shí)體和困難實(shí)體。
(5)Flickr 30k[72]:Flickr 30k是Flickr 8k數(shù)據(jù)集的擴(kuò)展,其包含31 783張日常圖像與158 915個(gè)相關(guān)字幕。這兩個(gè)數(shù)據(jù)集都來(lái)自Flickr網(wǎng)站,數(shù)據(jù)主要在某些動(dòng)作的人或動(dòng)物(以狗為主),可用于圖像和長(zhǎng)文本。
(6)MS COCO[73]:由總計(jì)328 000張圖像和250 000個(gè)標(biāo)記實(shí)例的日常場(chǎng)景圖片組成,共91個(gè)不同的類(lèi)別,每個(gè)圖片有5句對(duì)應(yīng)的注釋,注釋分為標(biāo)記圖像中存在的概念、定位和標(biāo)記概念的所有實(shí)例、每個(gè)對(duì)象實(shí)例的分割共三種。
(7)PKU XMedia[74]:數(shù)據(jù)由5 000個(gè)文本、5 000個(gè)圖像、500個(gè)視頻、1 000個(gè)音頻片段和500個(gè)3D模型組成,共20個(gè)類(lèi)別,每個(gè)類(lèi)別有600個(gè)媒體實(shí)例。數(shù)據(jù)集被隨機(jī)分成包含9 600個(gè)對(duì)象的訓(xùn)練集和包含2 400個(gè)媒體對(duì)象的測(cè)試集。
(8)PKU XMedia Net[13]:數(shù)據(jù)有200個(gè)類(lèi)別,分為5種模態(tài)類(lèi)型,文件格式分別為txt、jpg、avi、wav和obj,其數(shù)據(jù)量依次為40 000、40 000、10 000、10 000、2 000。數(shù)據(jù)集分成81 600個(gè)媒體對(duì)象的訓(xùn)練集和2個(gè)測(cè)試集,以4∶1切分?jǐn)?shù)據(jù)集與訓(xùn)練集。
(9)M5Product[75]:該數(shù)據(jù)集包含600萬(wàn)個(gè)多模態(tài)樣本、分為5種模態(tài)類(lèi)型。具有100萬(wàn)家商戶針對(duì)電子商品的粗粒度和細(xì)粒度注釋,600萬(wàn)個(gè)類(lèi)別注釋,包含6 000多個(gè)類(lèi)別、5 000個(gè)屬性和2 400萬(wàn)個(gè)值,比具有相似模態(tài)數(shù)量的最大公開(kāi)可用數(shù)據(jù)集大500個(gè)。
本研究的評(píng)價(jià)指標(biāo)采用廣泛使用的性能評(píng)估標(biāo)準(zhǔn)平均精度(mean average precision,MAP)。MAP度量綜合考慮了排序信息和精確率。精確率往往反映檢索的整體效果,即所有返回樣本中正確相關(guān)的樣本所占的比例。理想的情況是檢索結(jié)果排序越靠前的樣本與查詢樣本的相關(guān)性越好,平均準(zhǔn)確率(AP)可以更好地反映檢索的效果,定義如公式(5),其中N是檢索集中相關(guān)實(shí)例的數(shù)量,P(r)表示前r個(gè)檢索實(shí)例的精度。平均準(zhǔn)確率平均值定義如公式(6):
另外,采用其他評(píng)價(jià)指標(biāo),如精度召回(precisionrecall,PR)曲線表示精度和召回之間的關(guān)系,精度是結(jié)果相關(guān)性的度量,而召回是實(shí)際返回多少相關(guān)性結(jié)果的度量;采用前N個(gè)精度曲線(TopN-precision)反映精度隨檢索實(shí)例數(shù)量變化的狀態(tài)。它們的值越大表明性能越好。對(duì)于跨模態(tài)檢索中的圖像文本模態(tài)檢索,Wikipedia數(shù)據(jù)集通常用MAP來(lái)評(píng)估算法性能,而MSCOCO、Flickr30k數(shù)據(jù)集還會(huì)用在前K個(gè)結(jié)果中檢索到的正確圖像或文本的百分比(Recall@K,R@K)來(lái)評(píng)估算法性能。
本文對(duì)跨模態(tài)檢索技術(shù)進(jìn)行綜述,針對(duì)如何減小語(yǔ)義差距并進(jìn)行有效相似度對(duì)比的問(wèn)題給出了解決方案。文中對(duì)實(shí)值和二進(jìn)制表示中具有代表性的技術(shù)方法進(jìn)行分類(lèi)研究討論,包括子空間學(xué)習(xí)、主題統(tǒng)計(jì)模型、深度學(xué)習(xí)、傳統(tǒng)哈希和深度哈希的五類(lèi)方法。這些跨模態(tài)檢索技術(shù)可以從海量信息中快速準(zhǔn)確地找到最有價(jià)值的數(shù)據(jù)類(lèi)型,從而提高信息利用率和檢索效率,具有重要的實(shí)際意義。
本文根據(jù)跨模態(tài)檢索技術(shù)發(fā)展現(xiàn)狀,列出以下幾點(diǎn)跨模態(tài)檢索面臨的挑戰(zhàn),也是未來(lái)研究的重要方向。
(1)擴(kuò)展模態(tài)范圍。不同的應(yīng)用場(chǎng)景需要選擇不同的模態(tài)數(shù)據(jù),而固定的模態(tài)數(shù)據(jù)并不能完全應(yīng)用于其他模態(tài)。未來(lái)可以利用混合表示模型、多模態(tài)學(xué)習(xí)模型等方法擴(kuò)展各模態(tài)范圍,提高跨模態(tài)方法的通用性。
(2)精細(xì)化模態(tài)細(xì)粒度。當(dāng)前基于子空間和主題概率模型的方法可以提取顯性特征進(jìn)行相似性比較,但仍存在隱藏語(yǔ)義特征提取不完整的問(wèn)題。通過(guò)對(duì)語(yǔ)義標(biāo)簽的進(jìn)一步補(bǔ)充預(yù)測(cè)或借鑒零樣本檢索探尋未知類(lèi)可以找到更精確的語(yǔ)義特征,從而精細(xì)化模態(tài)細(xì)粒度的分類(lèi)。
(3)提升檢索效率。檢索效率的提升包含了檢索準(zhǔn)確度和檢索速度兩部分。目前的跨模態(tài)哈希方法已經(jīng)在檢索速度上取得了一定進(jìn)展,但對(duì)哈希檢索算法的信息丟失問(wèn)題,還要繼續(xù)進(jìn)行離散優(yōu)化。對(duì)于檢索精度的提升,為滿足更高準(zhǔn)確度的檢索要求還可以繼續(xù)改進(jìn)損失函數(shù)與哈希函數(shù)。