• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于語義融合和多重相似性學習的跨模態(tài)檢索

      2022-08-18 09:15:14曾奕斌
      計算機與現代化 2022年8期
      關鍵詞:相似性檢索語義

      曾奕斌,葛 紅

      (華南師范大學計算機學院,廣東 廣州 510631)

      0 引 言

      跨模態(tài)檢索(Cross-Modal Retrieval)旨在解決將一種模態(tài)數據作為查詢去檢索另一種相關模態(tài)數據的問題。例如,對于一個給定的圖像(文本),查詢與其相關文本(圖像)。目前,跨模態(tài)檢索的挑戰(zhàn)主要集中在如何處理不同模態(tài)空間中的數據,對其內容進行相似性度量,即如何解決“異構鴻溝”。為此,許多論文提出基于公共子空間的表示學習方法,試圖尋求一個函數,將不同模態(tài)空間中的數據映射到公共子空間中進行模態(tài)對齊,再通過歐氏距離、余弦距離等度量方式比較特征之間的相似性,最終按相似性大小排序得到檢索結果[1]。

      根據特征表示進行劃分,現有的公共子空間方法主要可以劃分為2大類:1)基于實值表示學習的方法;2)基于二進制值表示學習的方法,也稱哈希方法,該方法更多考慮的是計算效率,但由于使用二進制編碼,部分信息在編碼過程中丟失,導致檢索精度有所下降[2-3]。

      本文探究的是基于實值表示學習的方法,該方法主要可以劃分為無監(jiān)督學習方法和有監(jiān)督學習方法。無監(jiān)督學習方法主要代表是典型相關分析(CCA)[4]和基于核函數方法的KCCA模型[5]。隨著深度神經網絡的發(fā)展,學者們通過神經網絡捕獲相關語義信息進行特征提取,如Andrew等人[6]結合深度神經網絡提出DCCA模型,提高了網絡的學習能力。

      相比有監(jiān)督學習方法,無監(jiān)督方法在學習跨模態(tài)數據的公共表示時,僅僅利用了模態(tài)數據間共存的信息,而沒有充分利用多媒體內容中豐富的標簽信息。文獻[7-11]提出有監(jiān)督學習方法充分利用類別信息,通過區(qū)分不同樣本的語義類別,使得相同類別的樣本特征盡可能相互靠近,不同類別的樣本特征盡可能相互遠離,進而增強公共子空間特征表示的語義可區(qū)分性。除了公共子空間方法,Wang等人[7]首次引入深度關系網絡進行相似性學習,通過融合特征得到相似性打分矩陣,取得了不錯的性能,表明深度關系網絡和特征融合在提取模態(tài)信息中有一定的作用。

      值得注意的是,這些方法或缺少對不同模態(tài)空間的特征進行交互,不能充分挖掘模態(tài)特征間的關聯信息;或在進行特征融合時,缺少考慮融合特征和單模態(tài)特征間的關系。為此,本文提出一種基于語義融合和多重相似性學習的方法(Context Fusion and Multi-Similarity Learning, CFMSL),利用樣本對的標簽學習不同模態(tài)數據的相似性信息,同時通過混合融合方法提升跨模態(tài)檢索的性能。本文的主要工作如下:1)構建模型將不同的模態(tài)特征進行融合,并投影到公共子空間中,然后在計算樣本對的相似性時,除了考慮不同模態(tài)特征在公共子空間的相似性外,還考慮單模態(tài)特征與融合特征在公共子空間的相似性,進一步挖掘不同模態(tài)間的相似性信息;2)提出基于單模態(tài)特征和融合模態(tài)特征的多重相似性判別損失函數,同時考慮正負樣本對,使得不同模態(tài)樣本在公共子空間中具有明顯的類內相似性和類間差異性;3)通過決策融合的方式,同時考慮單模態(tài)特征和融合模態(tài)特征的相似性,對相似性列表進行重排序,進一步提升跨模態(tài)檢索的性能;4)在Pascal Sentences、Wikipedia、NUS-WIDE-10K這3個廣泛使用的跨模態(tài)圖文數據集進行實驗,驗證該算法的有效性。

      1 相關研究

      1.1 基于公共子空間的跨模態(tài)檢索

      早期利用公共子空間方法的代表是基于無監(jiān)督學習的CCA模型和KCCA模型,但由于缺乏對標簽信息的利用,檢索性能有所限制。為了充分利用標簽信息,Zhai等人[8]提出JRL模型,同時結合不同模態(tài)的相互關系和類別信息,進行半監(jiān)督表示學習,將不同模態(tài)的特征投影到公共子空間中,但由于只是利用線性組合挖掘相關信息,模型表達能力受到一定的限制。Peng等人[9]提出一種基于卷積神經網絡和自然語言模型的兩階段多模態(tài)深度神經網絡CMDN,先通過聯合模態(tài)內和模態(tài)間的信息得到模態(tài)特征表示,然后通過堆疊網絡得到不同模態(tài)特征的公共表示,但只考慮了相關樣本,缺少對不相關樣本距離的考慮。Wang等人[10]提出了ACMR模型,將對抗式學習與監(jiān)督式表示學習相結合,使用三元組損失函數[11]同時考慮公共子空間中相關樣本和不相關樣本的距離,以最大程度地減少不同模態(tài)特征之間的差異。Zhen等人[12]提出的DSCMR模型則充分利用類別信息同時對公共子空間和類別空間的特征進行約束,以及通過網絡參數共享的方式學習得到具有可區(qū)分性和模態(tài)不變性的公共空間特征表示,在多個數據集上達到了優(yōu)異的表現。

      為了充分挖掘模態(tài)間的關聯信息,本文除了將不同的單模態(tài)特征投影到公共子空間進行模態(tài)對齊外,還利用模態(tài)融合方法生成融合特征投影到公共子空間中,利用標簽信息進行相似性度量學習,使得模型生成更具判別性的特征,提升跨模態(tài)檢索的性能。

      1.2 模態(tài)融合方法

      為了提升跨模態(tài)檢索的性能,部分基于深度學習的模型采用模態(tài)融合方法[7-8],從多種模態(tài)中提取信息進行融合。按照融合的時機,可以分為早期融合方法、晚期融合方法和混合融合方法。早期融合也稱特征融合,可以用于捕獲特征之間的關系,緩解不同模態(tài)中數據不一致的問題;晚期融合也稱決策融合,該方法主要是通過融合多個不同的訓練模型輸出結果,緩解過擬合問題;混合融合方法則結合了早期融合方法和晚期融合方法的優(yōu)點,但也帶來了一定的復雜性[13-14]。

      本文采取的是混合融合方法,在公共子空間生成器中利用特征融合生成更具判別性的投影特征,同時在相似性打分階段,通過決策融合綜合考慮單模態(tài)特征和融合模態(tài)特征,使得模型能夠更加充分地挖掘模態(tài)間的關聯信息。

      1.3 相似性度量學習

      在對公共子空間特征進行度量時,往往涉及到各種樣本對相似性損失函數,如三元組損失函數[10-11]、余弦嵌入損失函數[15]等。Wang等人[16]通過研究不同的相似性損失函數,提出GPW框架為樣本對相似性損失函數提供一個統(tǒng)一的視角,即大多數基于樣本對相似性優(yōu)化的損失函數都可以通過GPW框架轉化為樣本對加權問題,并發(fā)現相似性學習的關鍵在于自相似性和相對相似性,但現有方法只關注了自相似性或相對相似性中的一部分因素,于是提出多重相似性損失函數(MS Loss)。除了考慮樣本對的自相似性外,MS Loss還同時考慮周圍正例樣本的相對相似性和負例樣本的相對相似性,在圖像單模態(tài)檢索領域取得可觀的效果。

      本文受MS Loss啟發(fā),在關注公共子空間多種特征對的自相似性和相對相似性的同時,嘗試得到改進的跨模態(tài)多重相似性損失函數,充分利用語義融合特征進一步挖掘圖文數據的關聯信息,使得模型能夠更好地判別樣本對的相似性。

      2 語義融合相似性學習方法

      2.1 問題描述

      2.2 模型設計

      如圖1所示,CFMSL的網絡模型主要由2個部分構成,前半部分是一個雙分支子網絡,用于提取原始圖像和原始文本的特征,后半部分由線性生成器和樣本對相似性打分模塊組成,線性生成器將不同模態(tài)數據映射到公共子空間進行特征的相似性學習。線性生成器使用網絡參數共享策略[12]來消除不同模態(tài)間的差異性。不同于一般的公共子空間方法只將多個單模態(tài)特征分別投射到公共子空間中,本文還引入融合網絡,對不同模態(tài)特征進行融合,得到語義融合特征投射到公共子空間中,進行單模態(tài)和融合模態(tài)之間相似性的學習。最后,基于決策融合策略,通過樣本對相似性打分模塊,綜合考慮單模態(tài)特征和融合模態(tài)特征的相似性關系,計算得到不同模態(tài)樣本對的相似性得分,用于后續(xù)檢索結果的排序。

      圖1 CFMSL網絡模型

      2.3 基于語義融合的多重相似性學習

      在公共子空間中,利用余弦距離來度量樣本對之間的相似性,通過最小化相關樣本對的余弦距離來減少同類別樣本模態(tài)間的差異。同時,對查詢模態(tài)特征和融合特征間的相似性進行計算,進一步利用不同模態(tài)特征間的交互,使得生成器生成更具有判別性的公共子空間特征。

      受MS Loss[16]啟發(fā),本文提出公共子空間中圖像特征到文本特征的模態(tài)間多重相似性損失函數如下:

      (1)

      類似地,引入文本特征到圖像特征的模態(tài)間多重相似性損失函數如下:

      (2)

      為了確保公共子空間中的圖像特征具有模態(tài)內可判別性,即通過線性生成器的映射后,模態(tài)內同類的圖像特征相似性應該越大,異類的圖像特征圖像相似性應該越小,引入如下圖像特征的模態(tài)內多重相似性損失函數:

      (3)

      類似地,引入公共子空間中文本特征的模態(tài)內相似性損失函數,提升文本特征的模態(tài)內可判別性:

      (4)

      為了充分利用語義融合信息,需要對公共子空間中圖像特征與融合特征的相似性關系進行度量學習,引入如下圖像特征到融合特征的模態(tài)間多重相似性損失函數:

      (5)

      類似地,對公共子空間中文本特征與融合特征的相似性關系進行度量學習,引入文本特征到融合特征的模態(tài)間多重相似性損失函數:

      (6)

      綜上所述,結合公式(1)~公式(6),基于語義融合和跨模態(tài)多重相似性學習的損失函數定義如下:

      L=Lvt+Ltv+Lvv+Ltt+Lvu+Ltu

      (7)

      該損失函數充分學習特征對的自相似性和相對相似性信息,不僅考慮了單模態(tài)之間和模態(tài)內的相似性信息,還進一步通過語義融合充分挖掘模態(tài)之間的關聯信息。

      2.4 基于決策融合的相似性打分算法

      為了充分利用單模態(tài)特征和融合模態(tài)特征在公共子空間的特征投影,本文利用決策融合方法,不僅考慮單模態(tài)特征之間的相似性得分Svt,還進一步考慮單模態(tài)查詢特征到融合模態(tài)目標特征的相似性得分Svu和融合模態(tài)查詢特征到單模態(tài)目標特征的相似性得分Sut的貢獻,通過求和得到圖像特征到文本特征的打分矩陣Svt計算如下:

      Svt=Svt+Svu+Sut

      (8)

      顯然,文本特征到圖像特征的打分矩陣Stv可以通過打分矩陣Svt的轉置得到,因此通過公式(8)即可以求出任意樣本對之間的相似性得分,最終根據得分矩陣進行重排序得到檢索結果列表。

      2.5 訓練過程

      結合上述基于語義融合的多重相似性學習模塊與基于決策融合相似性打分算法,可以得到CFMSL算法,如CFMSL算法偽代碼所示。

      CFMSL算法偽代碼:

      輸出:訓練好的網絡參數θv、θt、θu和θc。

      1.隨機初始化網絡參數:θv、θt、θu和θc

      2.更新直到收斂

      3.forkstep

      4.從訓練集隨機選取大小為nb的樣本對構建小批量數據集[(vi,ti,yi)]nb

      7.利用公式(7)計算梯度,通過隨機梯度下降算法,分別更新θv、θt、θu和θc:

      8.θv?θv-ηθvL

      9.θt?θt-ηθtL

      10.θu?θu-ηθuL

      11.θc?θc-ηθcL

      12.更新學習率η

      13.end for

      3 實驗結果與分析

      3.1 實現細節(jié)

      3.2 數據集

      本文使用跨模態(tài)檢索中廣泛使用的數據集進行有效性驗證,即:Wikipedia數據集[4],Pascal Sentences數據集[23]和NUS-WIDE-10K數據集[24]。在訓練集和測試集的劃分中,本文采用了與文獻[25-26]相同的劃分方法,具體劃分方式如表1所示,其中Ntrain是訓練集大小,Nval是驗證集大小,Ntest是測試集大小,C是類別數。

      表1 數據集的統(tǒng)計信息

      3.3 實驗對比與分析

      本文選取了3種近年來的跨模態(tài)檢索模型作為基準方法進行比較,分別為:1)ACMR方法[10];2)DSCMR方法[12];3)DRSL方法[7]。表2顯示在相同環(huán)境下,Wikipedia、Pascal Sentences和NUS-WIDE-10K這3個數據集上不同實驗方法的結果對比,包括2類跨模態(tài)檢索任務Img2Text(輸入查詢圖像,檢索得到相似的文本列表)和Text2Img(輸入文本查詢,檢索得到相似的圖像列表)的mAP指標,以及它們的平均值(Average)??梢杂^察到,mAP指標平均值相比最佳基準模型分別提高了2.02%、0.54%和1.12%,表明在綜合性能指標上,本文方法具有一定的優(yōu)越性。ACMR方法使用生成對抗方法消除模態(tài)間差異,利用三元損失生成具有類別判別性的特征,但缺少了對相對相似性信息的利用;DSCMR方法使用網絡參數共享策略消除模態(tài)間差異,進一步考慮模態(tài)內和模態(tài)間特征的相似性,利用3種損失函數生成更具類別判別性的特征,跨模態(tài)檢索性能得到提升,但仍不能充分挖掘模態(tài)間信息。相比這2種方法,本文增加了特征融合和多重相似性優(yōu)化的方法,說明進行語義融合能夠更好地捕獲不同模態(tài)的相關性信息;相比DRSL模型使用特征融合的方式和全連接網絡來學習相似性得分矩陣,本文利用樣本對的自相似性和相對相似性信息進行優(yōu)化,能夠更加有效地針對不同模態(tài)特征的相似性進行判別。

      表2 實驗結果對比

      近年來,隨著BERT[27]和GPT-2[28]等基于Transformer預訓練模型的出現,模型對于自然語言的分析和理解能力得到充分提升。在上述CFMSL模型中,對文本特征提取網絡(即Sentence CNN網絡)所使用的是word2vec詞向量,本文進一步進行實驗,嘗試將word2vec詞向量替換為BERT或GPT-2模型所使用的上下文預訓練詞向量。如表3所示,在Wikipedia數據集上的實驗結果表明,直接使用BERT或GPT-2的上下文預訓練詞向量替換word2vec詞向量并不能提升實驗結果,這是它們所適用的模型不同導致的,BERT或GPT-2模型更適合大量訓練樣本的場景。同時,在替換上下文預訓練詞向量的情況下,本文方法仍優(yōu)于其他方法,這也表明本文提出的方法具有魯棒性。另外,如表4所示,與BERT或GPT-2模型參數相比,CFMSL模型的文本特征提取部分用到的模型參數明顯更少。綜上所述,本文提出的CFMSL模型具有一定的優(yōu)越性。

      表3 Wikipedia數據集上不同詞向量實驗結果對比

      表4 模型參數量對比

      3.4 超參選取

      公式(7)的計算包含超參數縮放因子γ,本文通過大量實驗在驗證集上確定超參數γ的最優(yōu)取值,實驗設置γ的取值范圍為{1,8,16,32,64,128,256}。如圖2所示,顯示了Wikipedia數據集上不同γ取值對應的mAP平均值,不難看出當γ=32時,mAP平均值在驗證集和測試集上都取得最高的mAP值,此時模型達到最優(yōu)。

      圖2 Wikipedia數據集上超參數γ的實驗結果

      3.5 消融實驗

      為了分析本文方法中不同模塊的有效性,設置如下6組消融實驗:

      1)CFMSL-F表示移除語義融合模塊,驗證進行語義融合的必要性。如表5所示,與移除語義融合模塊前相比,CFMSL-F平均mAP下降2.05%,表明語義融合有助于優(yōu)化跨模態(tài)特征的相似性比較。

      2)CFMSL-I表示移除單模態(tài)特征的模態(tài)內多重相似性判別,驗證對單模態(tài)特征相似性進行約束的重要性;如表5所示,與移除單模態(tài)特征的模態(tài)內多重相似性判別前相比,CFMSL-I平均mAP下降1.15%,表明進行單模態(tài)特征的模態(tài)內多重相似性判別有助于公共子空間生成器生成更具相似判別性的特征。

      3)為了驗證決策融合策略的有效性,設置實驗Dxyz(如表5中的D011、D101、D110和D100)分別表示只計算公式(8)中的一部分來進行相似性打分,即使用如下公式計算相似性得分:

      表5 在Wikipedia數據集上的消融實驗mAP

      (9)

      4 結束語

      本文提出了一種基于語義融合和多重相似性優(yōu)化的跨模態(tài)檢索方法CFMSL,用于解決有監(jiān)督學習方式下的跨模態(tài)檢索問題。該方法利用基于語義融合的相似性學習模塊生成公共子空間中更具判別性的特征,同時基于決策融合方法充分利用單模態(tài)特征和融合模態(tài)特征信息進行相似性打分,對檢索結果進行重排序。最終,通過在3個廣泛使用的跨模態(tài)檢索基準數據集上進行實驗,評估本文提出方法的有效性,實驗結果顯示,CFMSL方法能夠有效提升跨模態(tài)檢索的性能。

      然而,本文在對原始樣本進行特征提取時,尚未進一步考慮對細粒度特征信息的利用,比如針對圖像的顯著區(qū)域、文本的顯著詞匯等進行信息提取和交互。在未來的研究中,筆者可能會進一步考慮細粒度層面上的跨模態(tài)信息交互,從而提高跨模態(tài)檢索性能。

      猜你喜歡
      相似性檢索語義
      一類上三角算子矩陣的相似性與酉相似性
      淺析當代中西方繪畫的相似性
      河北畫報(2020年8期)2020-10-27 02:54:20
      語言與語義
      2019年第4-6期便捷檢索目錄
      低滲透黏土中氯離子彌散作用離心模擬相似性
      “上”與“下”語義的不對稱性及其認知闡釋
      現代語文(2016年21期)2016-05-25 13:13:44
      專利檢索中“語義”的表現
      專利代理(2016年1期)2016-05-17 06:14:36
      認知范疇模糊與語義模糊
      V4國家經濟的相似性與差異性
      語義分析與漢俄副名組合
      外語學刊(2011年1期)2011-01-22 03:38:33
      临泉县| 喀喇| 桐庐县| 教育| 尼勒克县| 大田县| 庄浪县| 上饶县| 会宁县| 五家渠市| 乐平市| 左贡县| 万荣县| 清新县| 平湖市| 平远县| 金沙县| 富蕴县| 门源| 博客| 双江| 宝坻区| 康平县| 甘南县| 安丘市| 武汉市| 临沧市| 绥德县| 大同市| 林周县| 湘潭市| 遵义市| 鄂温| 绍兴县| 峡江县| 建瓯市| 长汀县| 湖南省| 朝阳市| 马山县| 视频|