徐鳳平
多模態(tài)特征學(xué)習(xí)的關(guān)鍵在于如何挖掘不同模態(tài)之間的關(guān)聯(lián)性.目前有許多基于傳統(tǒng)統(tǒng)計(jì)機(jī)器學(xué)習(xí)的多模態(tài)數(shù)據(jù)分析方法,如支持向量機(jī)SVM、Latent Dirichlet Allocation(LDA)、Independent Component Analysis(ICA)等.這些方法都屬于淺層模型,對高維關(guān)聯(lián)的挖掘存在困難,很難獲得準(zhǔn)確的多模態(tài)特征表示.目前主流的基于深度學(xué)習(xí)的多模態(tài)特征融合模型往往采用單融合點(diǎn)結(jié)構(gòu),它們在最頂層空間僅僅進(jìn)行了一次模態(tài)交互.
早期的研究人員主要是采用基于淺層模型來挖掘模態(tài)間的關(guān)聯(lián)性.BLEI等人針對多模態(tài)檢索問題的特點(diǎn)提出了面向“文本-圖像”多模態(tài)數(shù)據(jù)的相關(guān)LDA模型[1].XING等 人提出了一種基于特殊的無向圖模型的雙翼式模 型(Dual Wing Model)[2].RASIWASIA等 人 提出了一種基于典型關(guān)聯(lián)分析(Canonical Corre?lation Analysis,CCA)的多模態(tài)特征融合模型以進(jìn)行跨模態(tài)檢索[3].這些多模態(tài)特征學(xué)習(xí)方式可以歸類為由一到兩層結(jié)構(gòu)組成的淺層模型.由于來自于不同模態(tài)的數(shù)據(jù)之間的數(shù)值形式及統(tǒng)計(jì)特性相差巨大,所以在淺層模型結(jié)構(gòu)定義的低維空間中,不同模態(tài)數(shù)據(jù)特征之間關(guān)聯(lián)性的耦合度不高.
隨著深度學(xué)習(xí)的不斷發(fā)展,神經(jīng)網(wǎng)絡(luò)在挖掘文本、圖像等模態(tài)高維特征上的優(yōu)越性充分得到了體現(xiàn).SU等人使用LSTM和CNN搭建了一套基于音頻和圖像特征的多模態(tài)深度學(xué)習(xí)系統(tǒng)(audio-visual speech recognition sys?tems,ASVR),學(xué)習(xí)音頻和圖像間的跨模態(tài)關(guān)聯(lián)[4].HU等 人借鑒循環(huán) 神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的思想,對傳統(tǒng)的多模態(tài)受限玻爾茲曼機(jī)進(jìn)行改進(jìn),提出了循環(huán)多模態(tài)受限玻爾茲曼機(jī)(Recurrent Temporal Multimodal Restricted Boltzmann Machine,RTMRBM),解決圖像語音識別問題[5].HOU等人提出了基于CNN的多模態(tài)深度卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)化學(xué)習(xí),提高了語音和圖像識別的準(zhǔn)確率[6].
筆者認(rèn)為,不同模態(tài)之間的關(guān)聯(lián)性是立體的,不只是存在于頂層的高維空間.因此目前的方法存在對模態(tài)間關(guān)聯(lián)性及其交互作用挖掘不充分的問題.目前的多模態(tài)特征學(xué)習(xí)方法采用的都是傳統(tǒng)特征,如圖像的sift和cedd及文本的lda和one-hot-representation等,這些特征包含的語義信息較少且不同模態(tài)的數(shù)據(jù)在數(shù)值形式、特征分布等方面相差巨大,影響了最終特征的性能.
為了解決上述問題,本文提出了一種基于多融合點(diǎn)深度神經(jīng)網(wǎng)絡(luò)的多模態(tài)特征學(xué)習(xí).主要內(nèi)容有:提出一種基于自編碼器的多模態(tài)特征學(xué)習(xí)模型,在特征學(xué)習(xí)階段,設(shè)計(jì)一種基于多融合點(diǎn)的特征學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu);在訓(xùn)練階段,設(shè)計(jì)了一種多通路解碼網(wǎng)絡(luò)結(jié)構(gòu),用輸入自適應(yīng)的交替式網(wǎng)絡(luò)訓(xùn)練策略指導(dǎo)網(wǎng)絡(luò)的訓(xùn)練;最后本文在多模態(tài)特征學(xué)習(xí)領(lǐng)域常用的多個數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),將模型輸出的多模態(tài)特征應(yīng)用于檢索場景,用數(shù)據(jù)檢索方面的性能指標(biāo)作為評價指標(biāo),驗(yàn)證論文工作的有效性.
多模態(tài)特征學(xué)習(xí)過程可以分為三個階段:第一階段為特征提取及標(biāo)準(zhǔn)化階段,首先通過基于大規(guī)模數(shù)據(jù)集訓(xùn)練出的CNN模型和Word2vec模型抽取圖像和文本特征,然后通過一系列標(biāo)準(zhǔn)化措施使得兩個模態(tài)的數(shù)據(jù)特征空間擁有相近的數(shù)值形式及統(tǒng)計(jì)特性,作為第二階段的輸入.第二階段為多模態(tài)特征學(xué)習(xí)階段,將不同模態(tài)的數(shù)據(jù)特征輸入文中提出的基于多融合點(diǎn)結(jié)構(gòu)的多模態(tài)特征學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行特征學(xué)習(xí).第三階段為網(wǎng)絡(luò)訓(xùn)練階段,通過相關(guān)的目標(biāo)函數(shù)指導(dǎo)模態(tài)內(nèi)的數(shù)據(jù)關(guān)聯(lián)性,以及模態(tài)間的數(shù)據(jù)關(guān)聯(lián)性的挖掘.具體如圖1所示.
圖1 多模態(tài)特征學(xué)習(xí)模型總框架
多模態(tài)特征學(xué)習(xí)的關(guān)鍵在于如何有效地挖掘不同模態(tài)之間的關(guān)聯(lián)性.目前有共享融合層自動編碼器和獨(dú)立通道自動編碼器兩大類結(jié)構(gòu),但它們僅僅在中間編碼層中進(jìn)行了一次跨模態(tài)交互.筆者提出一種基于多融合點(diǎn)的多模態(tài)特征學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu),以單融合點(diǎn)多模態(tài)自動編碼器模型為基礎(chǔ),在網(wǎng)絡(luò)的不同層次設(shè)置多個融合點(diǎn)用來學(xué)習(xí)模態(tài)間的關(guān)聯(lián)關(guān)系,并將這種關(guān)聯(lián)關(guān)系從低維到高維遞進(jìn)地傳遞下去,使得不同層次特征空間中的數(shù)據(jù)都參與模態(tài)內(nèi)及模態(tài)間語義關(guān)聯(lián)挖掘.
多模態(tài)特征學(xué)習(xí)網(wǎng)絡(luò)具體結(jié)構(gòu)如圖2所示.在網(wǎng)絡(luò)層前采用了深度特征引入分布標(biāo)準(zhǔn)化措施,網(wǎng)絡(luò)層包含了全連接層和多融合點(diǎn)交互層.深度特征使用Caffe深度學(xué)習(xí)框架中提供的基于ImageNet訓(xùn)練CNN模型提取圖像特征;使用Wikipedia提供的開源語料集訓(xùn)練Word2vec模型提取文本特征,將特征提取模型的輸出維度設(shè)置為相同值[7-8];采取Mean Cancellation、KL Expansion和Covariance Equalization等一系列分布標(biāo)準(zhǔn)化措施.全連接層先將兩個不同模態(tài)的數(shù)據(jù)特征映射到相近的高維空間,然后在相對高維的特征空間中進(jìn)行跨模態(tài)關(guān)聯(lián)挖掘,減小了由于引入多融合點(diǎn)結(jié)構(gòu)而帶來的額外噪音,提高了跨模態(tài)語義關(guān)聯(lián)挖掘的效果.多融合點(diǎn)交互層包含兩種數(shù)據(jù)通路,分別是模態(tài)內(nèi)數(shù)據(jù)通路(In?tra-modal channel)、模 態(tài) 間 數(shù) 據(jù) 通 路(Intermodal channel),其中模態(tài)內(nèi)數(shù)據(jù)通路接受單個模態(tài)數(shù)據(jù)輸入,負(fù)責(zé)將單個模態(tài)數(shù)據(jù)特征從低維向高維逐層映射,獲得單個模態(tài)在多個特征空間中的特征表示.對于每個模態(tài)p,其第l個隱層的模態(tài)內(nèi)數(shù)據(jù)通路特征計(jì)算方式為:
其中:f為激 活 函 數(shù),w為連接權(quán)重,b為偏置參數(shù).
圖2 改進(jìn)的多融合點(diǎn)特征學(xué)習(xí)網(wǎng)絡(luò)
模態(tài)間數(shù)據(jù)通路即設(shè)置的多個融合點(diǎn),通路中的每一層同時與兩個單模態(tài)內(nèi)通路的輸出,以及前一層模態(tài)間通路的輸出相連(第一層除外),其作用是在網(wǎng)絡(luò)的各個層次挖掘兩個模態(tài)數(shù)據(jù)特征的語義關(guān)聯(lián)性,并將這種跨模態(tài)語義關(guān)聯(lián)性逐層傳遞下去.在頂部的輸出層形成編碼階段的最終輸出.基于多融合點(diǎn)結(jié)構(gòu)形成的模態(tài)間數(shù)據(jù)通路,可以讓網(wǎng)絡(luò)的多個層次參與到多模態(tài)特征的學(xué)習(xí)過程,強(qiáng)化了模態(tài)間數(shù)據(jù)的交互作用,豐富了最終生成的多模態(tài)特征包含的語義信息.對于模態(tài)p及模態(tài)q,網(wǎng)絡(luò)第l個隱層的模態(tài)間數(shù)據(jù)通路特征計(jì)算方式為:
對于多模態(tài)特征學(xué)習(xí)這一實(shí)際應(yīng)用場景,定義了相應(yīng)的模態(tài)內(nèi)、跨模態(tài)相關(guān)損失函數(shù)并提出輸入自適應(yīng)的交替式訓(xùn)練策略指導(dǎo)模型的訓(xùn)練,確保了論文提出網(wǎng)絡(luò)結(jié)構(gòu)的合理性及可行性.
定義模態(tài)內(nèi)相關(guān)性(intra-modal correlation)和跨模態(tài)相關(guān)性(cross-modal correlation)兩個目標(biāo)函數(shù).
模態(tài)內(nèi)相關(guān)性.借助解碼的訓(xùn)練方式,以輸出層為起點(diǎn)進(jìn)行解碼,重構(gòu)兩個模態(tài)原始的輸入特征,通過計(jì)算原始特征與重構(gòu)特征之間的損失來衡量輸出特征的模態(tài)內(nèi)關(guān)聯(lián)性.
給定雙模態(tài)數(shù)據(jù)對(xinz,xtnz),其中圖像和文本特征都非空,記重構(gòu)后的特征輸出為(x′i,x′t),則模態(tài)內(nèi)相關(guān)性定義為:
跨模態(tài)相關(guān)性.進(jìn)一步挖掘不同跨模態(tài)的關(guān)聯(lián)性,給定一個模態(tài)的數(shù)據(jù)輸入,由模型還原得到模態(tài)的特征輸出,將模態(tài)的重構(gòu)特征與期望特征之間的距離定義為模態(tài)間關(guān)聯(lián)性.
對于雙模態(tài)數(shù)據(jù)對(xinz,xtnz),其中圖像和文本特征都非空,固定一個模態(tài)特征,將另一個模態(tài)特征置為0,得到(xinz,xtz)和(xiz,xtnz)兩個單模態(tài)數(shù)據(jù)對.以(xinz,xtz)為例,此時圖像模態(tài)數(shù)據(jù)非空,文本模態(tài)數(shù)據(jù)為空,在僅有圖像模態(tài)輸入的前提下,重構(gòu)后的文本特征輸出為,計(jì)算重構(gòu)特征與原始特征xtnz的距離作為跨模態(tài)相關(guān)性.
對于上文提出的兩個目標(biāo)函數(shù)而言,模態(tài)內(nèi)相關(guān)性旨在訓(xùn)練網(wǎng)絡(luò)的重構(gòu)輸出準(zhǔn)確還原輸入的數(shù)據(jù)特征,而模態(tài)間相關(guān)性則是訓(xùn)練網(wǎng)絡(luò)由一個模態(tài)數(shù)據(jù)發(fā)散推出另一個模態(tài)的數(shù)據(jù).為了解決兩個目標(biāo)函數(shù)不兼容導(dǎo)致單通路解碼網(wǎng)絡(luò)訓(xùn)練震蕩的問題,本文提出了一種多模態(tài)特征學(xué)習(xí)場景下的解碼網(wǎng)絡(luò)模型,以堆自動編碼器為基礎(chǔ),對兩個目標(biāo)函數(shù)采取了多解碼通路的設(shè)計(jì).為每個模態(tài)數(shù)據(jù)設(shè)計(jì)兩條解碼通路,分別負(fù)責(zé)計(jì)算模態(tài)內(nèi)相關(guān)性和模態(tài)間相關(guān)性,如圖3所示,以“圖像-文本”多模態(tài)數(shù)據(jù)為例,解碼網(wǎng)絡(luò)包含四條通路,分別記為模態(tài)內(nèi)圖像通路(intra-image channel)、模態(tài)間圖像通路(inter-image channel)、模態(tài)內(nèi)文本通路(intra-text channel)和模態(tài)間文本通路(inter-text channel).
圖3 多通路解碼網(wǎng)絡(luò)結(jié)構(gòu)
多通路解碼網(wǎng)絡(luò)結(jié)構(gòu)可以根據(jù)不同的輸入場景選擇對應(yīng)的解碼通路和目標(biāo)函數(shù)進(jìn)行參數(shù)的調(diào)整.具體而言,給定一對雙模態(tài)數(shù)據(jù)(xinz,xtnz),為了訓(xùn)練網(wǎng)絡(luò)的跨模態(tài)發(fā)散性,將其拆分為兩組單模態(tài)數(shù)據(jù)(xinz,xtz)與(xiz,xtnz).以(xinz,xtz)為例,此時輸入圖像模態(tài)的數(shù)據(jù)為原始數(shù)據(jù),而文本模態(tài)的輸入置為0,重構(gòu)層的期望輸出仍為已知的雙模態(tài)數(shù)據(jù)(xinz,xtnz).對應(yīng)于模態(tài)間關(guān)聯(lián)性的場景,此時選擇“模態(tài)內(nèi)圖像數(shù)據(jù)通路”和“模態(tài)間文本數(shù)據(jù)通路”,計(jì)算兩條通路的重構(gòu)輸出與原始雙模態(tài)數(shù)據(jù)(xinz,xtnz)之間的距離作為損失進(jìn)行網(wǎng)絡(luò)的訓(xùn)練及參數(shù)的更新,選擇的數(shù)據(jù)通路情況如圖4所示.
圖4 跨模態(tài)發(fā)散性訓(xùn)練
輸入為圖像空文本非空(xiz,xtnz)的通路選擇情況同理可得.
為了訓(xùn)練模態(tài)內(nèi)數(shù)據(jù)關(guān)聯(lián)性,此時輸入為(xinz,xtnz),表示兩個模態(tài)數(shù)據(jù)都非空,解碼網(wǎng)絡(luò)旨在還原兩個模態(tài)的原始輸入,對應(yīng)于模態(tài)內(nèi)關(guān)聯(lián)性的場景.因此選擇“模態(tài)內(nèi)圖像數(shù)據(jù)通路”和“模態(tài)內(nèi)文本數(shù)據(jù)通路”,計(jì)算兩條通路的重構(gòu)輸出與原始輸入之間的距離進(jìn)行網(wǎng)絡(luò)的訓(xùn)練及參數(shù)的更新,對應(yīng)的數(shù)據(jù)通路如圖5所示.
圖5 模態(tài)內(nèi)關(guān)聯(lián)性訓(xùn)練
基于以上分析,多通路解碼網(wǎng)絡(luò)為每個模態(tài)設(shè)計(jì)了兩條通路,分別用于計(jì)算模態(tài)內(nèi)關(guān)聯(lián)性和跨模態(tài)發(fā)散性.為了進(jìn)行有效訓(xùn)練,需要擴(kuò)充原始的雙模態(tài)數(shù)據(jù)集,將雙模態(tài)數(shù)據(jù)集進(jìn)行拆分,從每一對多模態(tài)數(shù)據(jù)集中拆出兩組單模態(tài)數(shù)據(jù)對加入到原始訓(xùn)練數(shù)據(jù)集,生成新的訓(xùn)練數(shù)據(jù)集X′.在網(wǎng)絡(luò)訓(xùn)練階段,網(wǎng)絡(luò)的輸入數(shù)據(jù)有可能是雙模態(tài)數(shù)據(jù)對(兩個模態(tài)的數(shù)據(jù)都為非空值),也有可能是單模態(tài)數(shù)據(jù)對(其中一個模態(tài)非空,另一個模態(tài)為空).在迭代訓(xùn)練過程中,以mini-batch為最小單位,在每一次迭代開始時,隨機(jī)打亂數(shù)據(jù)對的分布(保證每一個mini-batch內(nèi)的數(shù)據(jù)都是同類型的).首先判斷這一批數(shù)據(jù)的輸入形式,自適應(yīng)地選擇對應(yīng)的解碼通路及目標(biāo)函數(shù)計(jì)算相關(guān)損失,然后將誤差反向傳播,從而進(jìn)行神經(jīng)網(wǎng)絡(luò)的參數(shù)調(diào)整.兼顧模態(tài)內(nèi)關(guān)聯(lián)性和跨模態(tài)發(fā)散性的同時,達(dá)到根據(jù)不同輸入自適應(yīng)地選擇合適通路的目的.
訓(xùn)練策略算法如下:
主要有三個數(shù)據(jù)集,分別是Mir Flickr、Nus-wide和Pascal Sentence.
Mir Flickr一共包含1 000 000張從社交圖像網(wǎng)站Flickr上爬取下來的圖像,以及對應(yīng)的用戶附屬的標(biāo)簽信息,每張圖像的平均標(biāo)簽數(shù)是6個.在這1 000 000張圖像中,有25 000張圖像被人工標(biāo)注到24個類別.對于有標(biāo)簽的25 000對數(shù)據(jù),有4 551張圖像沒有對應(yīng)的文本數(shù)據(jù),20 449對數(shù)據(jù)是雙模態(tài)都齊全的.在實(shí)驗(yàn)中,對無標(biāo)簽數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)的訓(xùn)練,從這20 449對數(shù)據(jù)對中隨機(jī)選取了5 000張圖像作為測試集進(jìn)行相關(guān)測試.
Nus-wide是一個網(wǎng)絡(luò)圖像數(shù)據(jù)集,共包含269 648張圖像及其對應(yīng)的文本標(biāo)簽.這些數(shù)據(jù)對一共被分成了81個類,每對數(shù)據(jù)至少屬于其中的一個類.在實(shí)驗(yàn)中,篩選出至少包含5個文本標(biāo)簽的數(shù)據(jù)對,對每個類按照其類內(nèi)數(shù)據(jù)對的個數(shù)進(jìn)行排序,并選取了數(shù)量最多的前20個類作為測試集.
Pascal Sentence數(shù)據(jù)集包含20個類,共1 000對圖像/文本數(shù)據(jù),每個類包含50個數(shù)據(jù)樣例.這些圖像是從PASCAL 2008 development kit中隨機(jī)選擇的,每張圖像都有5個描述性的句子描述圖像內(nèi)容.由于數(shù)據(jù)集規(guī)模較小,在實(shí)驗(yàn)過程中,將每張圖像的每個描述性句子與該圖像組成一對多模態(tài)數(shù)據(jù)對,將數(shù)據(jù)集規(guī)模由原始的1 000擴(kuò)充為5 000.在實(shí)驗(yàn)中從每個類中隨機(jī)選擇了200對數(shù)據(jù)組成訓(xùn)練集,剩下的1 000對數(shù)據(jù)作為測試集.
由于模型的性能無法直接度量,將模型學(xué)到的多模態(tài)特征的檢索性能作為模型性能的評價指標(biāo),包括準(zhǔn)確率(Precision)、召回率(Recall)、MAP(Mean Average Precision).
準(zhǔn)確率(Precision):在進(jìn)行檢索請求時,返回的結(jié)果中與query屬于同一類別的樣例數(shù)目與總返回樣例數(shù)目的比值:
召回率(Recall):在進(jìn)行檢索請求時,返回的結(jié)果中與query屬于同一類別的樣例數(shù)目與庫中該類別樣例總數(shù)的比值:
MAP:多次檢索的平均準(zhǔn)確率的均值.MAP能夠結(jié)合準(zhǔn)確率與召回率綜合評估檢索系統(tǒng)的檢索性能.
2.2.1 實(shí)驗(yàn)設(shè)置
為了驗(yàn)證論文提出的多融合點(diǎn)交互層在強(qiáng)化模態(tài)間語義信息挖掘方面的有效性,以單融合點(diǎn)網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ),保持整個網(wǎng)絡(luò)的層數(shù)固定不變,改變多融合點(diǎn)交互層的起始位置得到多個模型,通過實(shí)驗(yàn)對比這些模型的性能,進(jìn)而驗(yàn)證多融合點(diǎn)結(jié)構(gòu)設(shè)計(jì)的有效性.
進(jìn)一步地,為了確保實(shí)驗(yàn)的全面性,對同一的實(shí)驗(yàn)數(shù)據(jù)集提取多種不同類型的特征,分別在單融合點(diǎn)模型及多融合點(diǎn)模型上進(jìn)行了多組實(shí)驗(yàn),通過模型輸出的多模態(tài)特征的檢索準(zhǔn)確率及召回率比較現(xiàn)有單融合點(diǎn)特征學(xué)習(xí)網(wǎng)絡(luò)與論文提出的多融合點(diǎn)特征學(xué)習(xí)網(wǎng)絡(luò)的性能差異.
在實(shí)驗(yàn)中,固定網(wǎng)絡(luò)層數(shù)為五層,各層節(jié)點(diǎn)數(shù)設(shè)置如表1所示.
表1 網(wǎng)絡(luò)節(jié)點(diǎn)設(shè)置信息
2.2.2 結(jié)果與討論
圖6給出的是以固定層數(shù)的單融合點(diǎn)網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ),改變多融合點(diǎn)交互層的起始位置得到的各個模型的性能.其中橫坐標(biāo)表示的是多融合點(diǎn)結(jié)構(gòu)開始的層數(shù).從圖6中可以看出,對于5層的多模態(tài)特征學(xué)習(xí)網(wǎng)絡(luò),融合點(diǎn)結(jié)構(gòu)的起始位置對網(wǎng)絡(luò)性能的影響是先升后降,在橫坐標(biāo)為3處達(dá)到最大值.從1到3性能提升說明在低層特征空間進(jìn)行跨模態(tài)挖掘帶來了更多的噪音累積向后傳播影響了模型性能,與特征分布標(biāo)準(zhǔn)化的結(jié)論相呼應(yīng).從3到5性能下降說明減少融合點(diǎn)結(jié)構(gòu)設(shè)計(jì)會減少跨模態(tài)語義信息的挖掘,降低了輸出特征的信息量,影響了學(xué)習(xí)網(wǎng)絡(luò)性能.實(shí)驗(yàn)數(shù)據(jù)證明了本文提出的多融合點(diǎn)結(jié)構(gòu)設(shè)計(jì)對多模態(tài)特征學(xué)習(xí)有正向影響.
圖6 多融合點(diǎn)起始位置對模型性能的影響
圖7給出了不同輸入場景下,單融合點(diǎn)特征學(xué)習(xí)網(wǎng)絡(luò)與多融合點(diǎn)特征學(xué)習(xí)網(wǎng)絡(luò)輸出的多模態(tài)特征的檢索性能差異.
圖7 單融合點(diǎn)與多融合點(diǎn)模型性能
當(dāng)使用深度學(xué)習(xí)特征時,單融合點(diǎn)特征學(xué)習(xí)網(wǎng)絡(luò)與多融合點(diǎn)特征學(xué)習(xí)網(wǎng)絡(luò)的性能分別達(dá)到了各自的最優(yōu)值,且多融合點(diǎn)模型的性能與單融合點(diǎn)相比具有明顯的優(yōu)勢.
融合后的多模態(tài)特征比單模態(tài)特征性能更佳,且多融合點(diǎn)結(jié)構(gòu)強(qiáng)于單融合點(diǎn)結(jié)構(gòu).說明多融合點(diǎn)的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)對多模態(tài)特征學(xué)習(xí)有正向影響.
當(dāng)使用傳統(tǒng)特征時,單融合點(diǎn)網(wǎng)絡(luò)性能>兩個單模態(tài)特征性能>多融合點(diǎn)網(wǎng)絡(luò)性能.說明了傳統(tǒng)特征模態(tài)間差異較大,多融合點(diǎn)網(wǎng)絡(luò)結(jié)構(gòu)由于進(jìn)行了多次跨模態(tài)關(guān)聯(lián)引入了額外的誤差.
2.3.1 實(shí)驗(yàn)設(shè)置
在本實(shí)驗(yàn)中分別使用自動編碼器經(jīng)典的單解碼通路訓(xùn)練策略與論文提出的基于多解碼通路網(wǎng)絡(luò)學(xué)習(xí)策略訓(xùn)練整個網(wǎng)絡(luò),對比各模型輸出多模態(tài)特征的檢索表現(xiàn).多解碼通路網(wǎng)絡(luò)能夠根據(jù)輸入自適應(yīng)選擇對應(yīng)的目標(biāo)函數(shù),而對于單解碼通路的網(wǎng)絡(luò),為了將這兩個相關(guān)性綜合起來使用,將其組合起來作為網(wǎng)絡(luò)總的目標(biāo)函數(shù).
2.3.2 結(jié)果與討論
比較多解碼通路模型輸出特征與單解碼通路模型輸出特征的檢索性能,從圖8中可以看出多解碼通路模型輸出特征的檢索性能與單解碼通路相比有顯著提升,說明多解碼通路能夠有效地指導(dǎo)多模態(tài)特征學(xué)習(xí)場景下的網(wǎng)絡(luò)訓(xùn)練,提升模型輸出多模態(tài)特征的性能.
圖8 模型性能對比
2.4.1 實(shí)驗(yàn)設(shè)置
在本實(shí)驗(yàn)中將多融合點(diǎn)的多模態(tài)特征學(xué)習(xí)網(wǎng)絡(luò)模型與多模態(tài)特征學(xué)習(xí)場景下的網(wǎng)絡(luò)學(xué)習(xí)策略結(jié)合起來,衡量整體模型的性能.將MFMDL(Multi-fusion Multimodal Deep Learning)與目前多模態(tài)特征領(lǐng)域的現(xiàn)有算法進(jìn)行對比,包括DBM、DBN、Bi-AE(Bimodal-Autoencoder)和Cor-AE(Correspondence-Autoencoder).
實(shí)驗(yàn)中,為了減少隨機(jī)性,采取多次獨(dú)立實(shí)驗(yàn)去平均值的方式匯報(bào)實(shí)驗(yàn)結(jié)果.對于Mir?Flickr和Nus-wide數(shù)據(jù)集,采用一個8層網(wǎng)絡(luò)模型:包含2層全連接層、3層多融合點(diǎn)交互層,以及3層多通路解碼層.而Pascal Sentence由于數(shù)據(jù)集較小,采用了一個5層網(wǎng)絡(luò)模型:包含1層全連接層、2層多融合點(diǎn)交互層及2層多通路解碼層.
各網(wǎng)絡(luò)每一層的神經(jīng)元數(shù)目設(shè)置如表2所示.
表2 各數(shù)據(jù)集對應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)
2.4.2 結(jié)果與討論
從圖9中可以看出,在相同的實(shí)驗(yàn)設(shè)置下,本論文提出的MFMDL算法在三個數(shù)據(jù)集上都有比較明顯的優(yōu)勢.論文方法能提升多模態(tài)特征檢索性能的原因主要有兩個方面:一方面,提出了基于多融合點(diǎn)的特征學(xué)習(xí)網(wǎng)絡(luò),多融合點(diǎn)的結(jié)構(gòu)設(shè)計(jì)在生成中間層特征表達(dá)過程中能夠強(qiáng)化模態(tài)間關(guān)聯(lián)關(guān)系,達(dá)到充分挖掘模態(tài)間語義信息的目的;另一方面,針對多模態(tài)特征學(xué)習(xí)這一具體場景對網(wǎng)絡(luò)的訓(xùn)練及優(yōu)化策略加以改進(jìn),提出了多通路的解碼網(wǎng)絡(luò)及配套的輸入自適應(yīng)交替式訓(xùn)練策略,在訓(xùn)練過程中能夠兼顧模態(tài)內(nèi)固有信息的挖掘與模態(tài)間語義信息的挖掘,兩方面共同作用促成了性能更優(yōu)的多模態(tài)特征學(xué)習(xí)模型.
圖9 檢索準(zhǔn)確率與召回率
本文提出了一種基于多融合點(diǎn)的多模態(tài)特征學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu),能夠加強(qiáng)不同模態(tài)數(shù)據(jù)間交互作用,充分挖掘模態(tài)間語義關(guān)聯(lián).引入了深度特征并進(jìn)行了一系列標(biāo)準(zhǔn)化措施平衡不同模態(tài)的特征分布上的差異,消除多融合點(diǎn)結(jié)構(gòu)帶來的關(guān)聯(lián)誤差.在訓(xùn)練階段,文本針對多模態(tài)特征學(xué)習(xí)具體場景定義了網(wǎng)絡(luò)訓(xùn)練的目標(biāo)函數(shù);提出了一種多模態(tài)特征學(xué)習(xí)場景下的多通路解碼網(wǎng)絡(luò),對兩個目標(biāo)函數(shù)采取了多解碼通路的設(shè)計(jì);提出了一種基于多解碼通路的輸入自適應(yīng)交替式訓(xùn)練策略,根據(jù)輸入數(shù)據(jù)的具體情況選擇相對應(yīng)的通路進(jìn)行訓(xùn)練和優(yōu)化.
在實(shí)驗(yàn)階段,選擇了三個領(lǐng)域內(nèi)常用的多模態(tài)數(shù)據(jù)集,采取控制變量法從多角度對本文提出的各算法實(shí)施有效評測.最終的實(shí)驗(yàn)結(jié)果證實(shí)了本文工作的有效性.