• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      深度非對(duì)稱離散跨模態(tài)哈希方法

      2022-08-24 06:30:16王曉雨王展青熊威
      計(jì)算機(jī)應(yīng)用 2022年8期
      關(guān)鍵詞:哈希非對(duì)稱實(shí)例

      王曉雨,王展青,熊威

      (武漢理工大學(xué)理學(xué)院,武漢 430070)

      0 引言

      隨著大數(shù)據(jù)時(shí)代的到來,互聯(lián)網(wǎng)出現(xiàn)了越來越多不同的模態(tài)數(shù)據(jù),如圖像、文本、視頻和音頻等;同時(shí),人們對(duì)信息檢索的需求也越來越多元化,不再局限于單一模態(tài)的數(shù)據(jù)檢索[1-2]。跨模態(tài)檢索[3-4]憑借可以使用一種模態(tài)數(shù)據(jù)作為查詢對(duì)象來獲取另一模態(tài)中與之語(yǔ)義相似數(shù)據(jù)的優(yōu)勢(shì),引起了人們的廣泛關(guān)注。然而,不同模態(tài)數(shù)據(jù)的表示方式存在差異,導(dǎo)致它們之間存在異構(gòu)鴻溝,使得跨模態(tài)檢索難以返回正確的結(jié)果[5]。如何縮小異構(gòu)鴻溝,挖掘跨模態(tài)數(shù)據(jù)之間的語(yǔ)義關(guān)聯(lián),是一個(gè)極具挑戰(zhàn)性的問題。

      現(xiàn)實(shí)世界的多媒體數(shù)據(jù)體量大且復(fù)雜,給人們帶來高品質(zhì)視聽體驗(yàn)的同時(shí),也給跨模態(tài)檢索帶來很大的困難。由于哈希技術(shù)在存儲(chǔ)和搜索大規(guī)模數(shù)據(jù)時(shí)的優(yōu)越性,跨模態(tài)哈希方法[6-9]隨之產(chǎn)生,該方法可以在保留原始數(shù)據(jù)的語(yǔ)義相似性信息和語(yǔ)義相關(guān)結(jié)構(gòu)的情況下,將實(shí)值數(shù)據(jù)編碼成緊湊的二進(jìn)制碼。然而,基于哈希方法的手工特征與哈希碼學(xué)習(xí)是相互獨(dú)立的,導(dǎo)致檢索性能不佳。隨著深度學(xué)習(xí)的發(fā)展,深度神經(jīng)網(wǎng)絡(luò)被廣泛用于特征學(xué)習(xí)。與早期的哈希方法相比,深度跨模態(tài)哈希方法[10-12]把模態(tài)特征和哈希函數(shù)放在端對(duì)端框架中共同學(xué)習(xí),解決了手工特征和哈希碼學(xué)習(xí)不兼容的問題,使學(xué)習(xí)的哈希碼更加高效。

      大多數(shù)深度跨模態(tài)哈希方法以對(duì)稱的方式學(xué)習(xí)哈希碼,即查詢實(shí)例和數(shù)據(jù)庫(kù)實(shí)例的哈希碼用同一種方式學(xué)習(xí),訓(xùn)練過程非常耗時(shí)。為便于訓(xùn)練,它們一般選擇小數(shù)據(jù)集或從整個(gè)數(shù)據(jù)集中抽取部分?jǐn)?shù)據(jù)作為訓(xùn)練集學(xué)習(xí)哈希碼,使得數(shù)據(jù)中的監(jiān)督信息在訓(xùn)練過程中難以充分利用,學(xué)習(xí)的哈希碼泛化能力不強(qiáng)。為實(shí)現(xiàn)快速檢索,Jiang 等[13]提出了一個(gè)適用于圖像檢索的非對(duì)稱深度監(jiān)督哈希(Asymmetric Deep Supervised Hashing,ADSH),以非對(duì)稱的方式學(xué)習(xí)查詢圖像和數(shù)據(jù)庫(kù)圖像的哈希碼,利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)查詢圖像的哈希碼,而數(shù)據(jù)庫(kù)圖像的哈希碼則通過求解目標(biāo)函數(shù)直接學(xué)習(xí),在3 個(gè)自然圖像數(shù)據(jù)集上均取得了較高的檢索精度。受單模態(tài)非對(duì)稱哈希的啟發(fā),研究者開展了基于非對(duì)稱哈希的跨模態(tài)檢索研究[14-15]。哈希碼學(xué)習(xí)本質(zhì)上是一個(gè)離散學(xué)習(xí)問題,一種常見的優(yōu)化策略是將離散問題放松為連續(xù)問題,但該方法不僅量化誤差大且導(dǎo)致哈希碼次優(yōu)[16]。

      鑒于上述問題,本文提出了深度非對(duì)稱離散跨模態(tài)哈希(Deep Asymmetric Discrete Cross-modal Hashing,DADCH)方法。

      本文主要工作如下:

      1)DADCH 利用深度神經(jīng)網(wǎng)絡(luò)與字典學(xué)習(xí),構(gòu)造了非對(duì)稱學(xué)習(xí)框架,采取不同的方式學(xué)習(xí)查詢實(shí)例和數(shù)據(jù)庫(kù)實(shí)例的哈希碼。對(duì)于查詢實(shí)例,通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)哈希碼;對(duì)于數(shù)據(jù)庫(kù)實(shí)例,利用字典學(xué)習(xí)為每個(gè)實(shí)例生成相應(yīng)的稀疏表示,并將其映射為哈希碼。通過構(gòu)造二者的非對(duì)稱內(nèi)積來保留原始數(shù)據(jù)的語(yǔ)義相似信息。

      2)采用離散優(yōu)化策略。所提出的損失函數(shù)可以在不放松哈希碼離散約束的情況下進(jìn)行優(yōu)化,有效降低哈希碼二值化的量化誤差。

      3)為充分挖掘數(shù)據(jù)的語(yǔ)義信息,通過標(biāo)簽預(yù)測(cè)及語(yǔ)義信息嵌入,使學(xué)習(xí)到的哈希碼更具判別性。

      1 相關(guān)工作

      現(xiàn)有的跨模態(tài)哈希方法可根據(jù)訓(xùn)練過程中有無標(biāo)簽信息的參與,大致分為無監(jiān)督跨模態(tài)哈希和監(jiān)督跨模態(tài)哈希兩類。

      無監(jiān)督跨模態(tài)哈希方法在訓(xùn)練過程中不使用任何數(shù)據(jù)標(biāo)簽,通過學(xué)習(xí)不同模態(tài)數(shù)據(jù)從特征空間到漢明空間的映射得到哈希函數(shù)。集體矩陣分解哈希(Collective Matrix Factorization Hashing,CMFH)[17]采用集體矩陣分解技術(shù)從原始數(shù)據(jù)中學(xué)習(xí)不同模態(tài)的共同潛在語(yǔ)義表示,以學(xué)習(xí)哈希碼。融合相似性哈希(Fusion Similarity Hashing,F(xiàn)SH)[18]提出將多模態(tài)的融合相似性保存到公共的漢明空間中?;谧值鋵W(xué)習(xí)的跨模態(tài)哈希(Dictionary Learning Cross-Modal Hashing,DLCMH)[19]利用字典學(xué)習(xí)生成每個(gè)實(shí)例的稀疏表示,然后將其投影到共同的潛在空間中進(jìn)行哈希碼學(xué)習(xí)。深度二進(jìn)制重構(gòu)跨模態(tài)哈希(Deep Binary Reconstruction for Cross-modal Hashing,DBRC)[20]使用了一個(gè)新的激活函數(shù)ATanh,可以在無監(jiān)督的方式下直接學(xué)習(xí)二進(jìn)制哈希碼。深度語(yǔ)義對(duì)齊哈希(Deep Semantic-Alignment Hashing,DSAH)[21]設(shè)計(jì)了一個(gè)語(yǔ)義對(duì)齊損失函數(shù),將特征相似性與哈希碼相似性對(duì)齊,并通過自編碼器實(shí)現(xiàn)不同模態(tài)特征與哈希碼之間的重構(gòu)。

      監(jiān)督跨模態(tài)哈希方法通常將數(shù)據(jù)標(biāo)簽作為監(jiān)督信息,以挖掘不同模態(tài)數(shù)據(jù)之間的語(yǔ)義關(guān)聯(lián),學(xué)習(xí)更具語(yǔ)義信息的哈希碼。語(yǔ)義相關(guān)最大化(Semantic Correlation Maximization,SCM)[8]將標(biāo)簽信息集成到哈希學(xué)習(xí)過程中,避免了成對(duì)相似性矩陣的復(fù)雜計(jì)算。監(jiān)督矩陣分解哈希(Supervised Matrix Factorization Hashing,SMFH)[22]通過基于矩陣分解的圖拉普拉斯正則項(xiàng)引入監(jiān)督信息,以保留模態(tài)內(nèi)和模態(tài)間的相似性。離散潛在因子哈希(Discrete Latent Factor Hashing,DLFH)[23]提出了一個(gè)離散潛在因子模型,可以無需放松約束條件直接學(xué)習(xí)二進(jìn)制哈希碼,有效地保持了哈希碼之間的成對(duì)相似性?;谧值鋵W(xué)習(xí)的監(jiān)督離散哈希(Dictionary Learning based Supervised Discrete Hashing,DLSDH)[24]利用字典學(xué)習(xí)為實(shí)例生成稀疏表示,然后學(xué)習(xí)實(shí)例從字典空間到低維漢明空間的投影,采用兩步哈希方法學(xué)習(xí)哈希碼。深度跨模態(tài)哈希(Deep Cross-Modal Hashing,DCMH)[25]設(shè)計(jì)了一個(gè)端對(duì)端的深度神經(jīng)網(wǎng)絡(luò)框架,首次將特征學(xué)習(xí)和哈希碼學(xué)習(xí)結(jié)合在一起。自監(jiān)督對(duì)抗哈希(Self-Supervised Adversarial Hashing,SSAH)[26]以自監(jiān)督的方式,利用對(duì)抗網(wǎng)絡(luò)來學(xué)習(xí)不同模態(tài)的哈希碼,并構(gòu)造語(yǔ)義網(wǎng)絡(luò),以多標(biāo)簽標(biāo)注的形式挖掘數(shù)據(jù)的高級(jí)語(yǔ)義信息。深度語(yǔ)義保留序數(shù)哈希(Deep Semantic-Preserving Ordinal Hashing,DSPOH)[27]通過保持模態(tài)間相似性和模態(tài)內(nèi)標(biāo)簽信息來學(xué)習(xí)基于排序的哈希函數(shù)。

      2 深度非對(duì)稱離散跨模態(tài)哈希

      2.1 符號(hào)和問題定義

      本文使用粗體大寫字母表示矩陣,粗體小寫字母表示向量。Wij表示矩陣W的第i行第j列的元素,Wi*表示矩陣W的第i行,W*j表示矩陣W的第j列;WT表示矩陣W的轉(zhuǎn)置;I表示單位矩陣。

      本文主要研究圖像模態(tài)和文本模態(tài)之間的跨模態(tài)檢索。訓(xùn)練集O由N個(gè)樣本組成,且每個(gè)樣本都有兩個(gè)模態(tài)的特征和標(biāo)簽信息,記為。其中,表示圖像模態(tài),表示文本模態(tài)。從訓(xùn)練集O中隨機(jī)抽取m個(gè)實(shí)例,作為查詢實(shí)例Φ=OΩ(Ω={i1,i2,…,im},m?N)。Ψ=OΓ表示數(shù)據(jù)庫(kù)實(shí)例,其中,Γ={j1,j2,…,jn}(n=N-m)。令L∈{0,1}N×c表示標(biāo)簽矩陣,c是標(biāo)簽類別的個(gè)數(shù)。S∈{0,1}N×N是語(yǔ)義相似度矩陣:若xi與yj存在相同的類別標(biāo)簽,則Sij=1;否則,Sij=0??缒B(tài)哈希主要任務(wù)是學(xué)習(xí)兩個(gè)模態(tài)的二進(jìn)制哈希碼:Bx∈{-1,+1}r,By∈{-1,+1}r,r是哈希碼的長(zhǎng)度。當(dāng)Sij=1時(shí),相似實(shí)例的哈希碼之間的漢明距離盡可能小;當(dāng)Sij=0時(shí),不相似實(shí)例的哈希碼之間的漢明距離盡可能大。

      2.2 模型框架

      DADCH 的模型框架如圖1 所示,包括兩個(gè)深度神經(jīng)網(wǎng)絡(luò)分支和兩個(gè)字典學(xué)習(xí)分支,分別用于提取數(shù)據(jù)的高級(jí)語(yǔ)義特征和稀疏表示。

      圖1 深度非對(duì)稱離散跨模態(tài)哈??蚣蹻ig.1 Framework of deep asymmetric discrete cross-modal hashing

      圖1 中圖像網(wǎng)絡(luò)采用ImageNet 數(shù)據(jù)集上預(yù)訓(xùn)練的CNNF(Convolutional Neural Network-Fast)[28]。原始的CNN-F 由5個(gè)卷積層(conv1~conv5)和3 個(gè)全連接層(fc6~fc8)組成。網(wǎng)絡(luò)的前7 層與CNN-F 完全相同,均使用線性整流函數(shù)(Rectified Linear Unit,ReLU)作為激活函數(shù)。本文將fc8 層替換為含有r+c個(gè)隱藏節(jié)點(diǎn)的全連接層,并將其分成兩部分:一個(gè)是含有r個(gè)隱藏節(jié)點(diǎn)的哈希層,使用tanh 函數(shù)作為激活函數(shù),生成標(biāo)簽;另一個(gè)是含有c個(gè)隱藏節(jié)點(diǎn)的標(biāo)簽層,使用sigmoid 函數(shù)作為激活函數(shù),生成哈希碼。具體的圖像網(wǎng)絡(luò)參數(shù)配置如表1 所示。

      表1 圖像網(wǎng)絡(luò)的參數(shù)配置Tab.1 Parameter configuration of image network

      其中,k表示卷積核大?。╧ernel);s表示步長(zhǎng)(stride);pad 表示是否填充,0 表示對(duì)圖像矩陣零填充,1 表示在圖像矩陣外填充1 圈,2 表示在圖像矩陣外填充2 圈;LRN 表示局部響應(yīng)歸一化(Local Response Normalization);pool 表示池化過程,×2 pool 表示步長(zhǎng)為2 的最大池化;Max pooling 表示最大池化;4 096 和512 表示全連接層的節(jié)點(diǎn)數(shù)量。

      圖1 中文本網(wǎng)絡(luò)采用一個(gè)3 層全連接層的神經(jīng)網(wǎng)絡(luò)。文本網(wǎng)絡(luò)的輸入是由詞袋(Bag of Words,BoW)模型提取到的文本特征。網(wǎng)絡(luò)的前2 層(fc1、fc2)均使用ReLU 作為激活函數(shù),最后1 層(fc3)與圖像網(wǎng)絡(luò)的fc8 層相同,哈希層和標(biāo)簽層分別使用tanh 函數(shù)和sigmoid 函數(shù)作為激活函數(shù)。具體的文本網(wǎng)絡(luò)參數(shù)配置如表2 所示。

      表2 文本網(wǎng)絡(luò)的參數(shù)配置Tab.2 Parameter configuration of text network

      2.3 深度非對(duì)稱跨模態(tài)哈希

      1)非對(duì)稱學(xué)習(xí)框架。

      DADCH 將神經(jīng)網(wǎng)絡(luò)與字典學(xué)習(xí)相結(jié)合,構(gòu)造了非對(duì)稱學(xué)習(xí)框架。該框架可以通過不同方式學(xué)習(xí)查詢實(shí)例和數(shù)據(jù)庫(kù)實(shí)例的哈希碼,有效保留了模態(tài)內(nèi)和模態(tài)間的語(yǔ)義相關(guān)性。由于查詢實(shí)例的數(shù)量遠(yuǎn)遠(yuǎn)小于數(shù)據(jù)庫(kù)實(shí)例的數(shù)量,可以使更多的數(shù)據(jù)參與訓(xùn)練,數(shù)據(jù)集中的監(jiān)督信息得以充分利用。

      字典學(xué)習(xí)本質(zhì)上是一種對(duì)高維數(shù)據(jù)降維的方法[29]。字典學(xué)習(xí)為原始高維數(shù)據(jù)學(xué)習(xí)合適的字典,以及相應(yīng)的稀疏表示。一般可表示為:

      在跨模態(tài)檢索任務(wù)中,字典學(xué)習(xí)為數(shù)據(jù)庫(kù)實(shí)例Ψ中的圖像模態(tài)和文本模態(tài)的手工特征矩陣學(xué)習(xí)相應(yīng)的字典及稀疏表示,生成的稀疏表示在低維空間中依然能夠保持原始數(shù)據(jù)之間的相似性。然后利用線性映射將稀疏表示映射為哈希碼,確保語(yǔ)義相似的數(shù)據(jù)學(xué)習(xí)到的哈希碼是相同的。因此,損失可取為:

      在圖像網(wǎng)絡(luò)和文本網(wǎng)絡(luò)中,對(duì)于第i個(gè)實(shí)例,圖像模態(tài)和文本模態(tài)的哈希碼為:

      其中:F和G分別表示圖像網(wǎng)絡(luò)和文本網(wǎng)絡(luò);U∈[-1,+1]m×r和V∈[-1,+1]m×r是由神經(jīng)網(wǎng)絡(luò)生成的關(guān)于查詢實(shí)例Φ中圖像模態(tài)和文本模態(tài)的哈希碼;θx和θy分別是圖像網(wǎng)絡(luò)和文本網(wǎng)絡(luò)的參數(shù)。

      2)非對(duì)稱損失。

      為了使學(xué)習(xí)到的哈希碼能夠最大限度保留查詢實(shí)例和數(shù)據(jù)庫(kù)實(shí)例之間相似性,應(yīng)該盡量減少查詢實(shí)例和數(shù)據(jù)庫(kù)實(shí)例哈希碼的內(nèi)積與語(yǔ)義相似度矩陣之間的損失。通過構(gòu)造查詢實(shí)例與數(shù)據(jù)庫(kù)實(shí)例哈希碼之間的非對(duì)稱內(nèi)積,將監(jiān)督信息和哈希碼學(xué)習(xí)集成到統(tǒng)一的學(xué)習(xí)框架中,有效保留了原始數(shù)據(jù)中的相似信息。當(dāng)使用查詢實(shí)例Φ中的圖像模態(tài)檢索數(shù)據(jù)庫(kù)實(shí)例Ψ中的文本模態(tài)時(shí),圖像模態(tài)的哈希碼不僅要保留與Ψ中文本模態(tài)的哈希碼相似性,也要與Φ中文本模態(tài)的哈希碼保持相似。因此,損失可取為:

      同樣地,當(dāng)使用Φ中的文本模態(tài)查詢?chǔ)分袌D像模態(tài)時(shí),損失可取為:

      其中:α是超參數(shù)。

      因此,非對(duì)稱損失為:

      3)量化損失。

      跨模態(tài)哈希的目的是將多模態(tài)數(shù)據(jù)的特征向量編碼成二進(jìn)制哈希碼,以減少存儲(chǔ)空間,實(shí)現(xiàn)模態(tài)間的快速檢索。由于哈希碼U和V是由圖像網(wǎng)絡(luò)和文本網(wǎng)絡(luò)生成的連續(xù)實(shí)值,在計(jì)算過程中需要將其轉(zhuǎn)化為二進(jìn)制碼。為降低量化誤差,使神經(jīng)網(wǎng)絡(luò)的輸出與查詢實(shí)例的二進(jìn)制碼BΩ盡可能一致,其損失可取為:

      4)標(biāo)簽預(yù)測(cè)與語(yǔ)義信息嵌入。

      學(xué)習(xí)具有判別性的哈希碼對(duì)檢索性能的提升十分重要。為充分挖掘數(shù)據(jù)的語(yǔ)義信息,使生成的哈希碼更具判別性,DADCH 在圖像網(wǎng)絡(luò)和文本網(wǎng)絡(luò)的最后一層增加了標(biāo)簽層,使之能夠生成與真實(shí)標(biāo)簽維度相同的預(yù)測(cè)標(biāo)簽。標(biāo)簽預(yù)測(cè)損失可取為:

      其中:LΩ是查詢實(shí)例的標(biāo)簽矩陣;Lx和Ly是圖像網(wǎng)絡(luò)和文本網(wǎng)絡(luò)的預(yù)測(cè)標(biāo)簽。

      為進(jìn)一步增強(qiáng)哈希碼的判別性,受一些自編碼方法[30-31]的啟發(fā),本文通過線性映射將標(biāo)簽信息嵌入到哈希碼中。具體地,將語(yǔ)義標(biāo)簽矩陣L投影到二進(jìn)制碼矩陣B中,使得LP≈B。其中:P是投影矩陣。因此,損失可取為:

      由此可得DADCH 的目標(biāo)函數(shù)為:

      其中:β、γ、η是超參數(shù)。

      3 模型優(yōu)化算法

      本章將詳細(xì)介紹DADCH 的優(yōu)化算法。雖然目標(biāo)函數(shù)式(10)是非凸函數(shù),但是當(dāng)其他參數(shù)固定時(shí),對(duì)于每個(gè)參數(shù)又是凸函數(shù)。因此,本文采用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)算法[32]和交替學(xué)習(xí)策略學(xué)習(xí)參數(shù)θx、θy、Dx、Dy、Ax、Ay、Wx、Wy、B、P。即在每次迭代中,只學(xué)習(xí)一個(gè)參數(shù),其他參數(shù)固定。

      3.1 參數(shù)學(xué)習(xí)

      1)θ的學(xué)習(xí)。

      當(dāng)θy、Dx、Dy、Ax、Ay、Wx、Wy、B、P固定時(shí),式(10)可簡(jiǎn)化為:

      利用隨機(jī)梯度下降和反向傳播(Back Propagation,BP)算法來學(xué)習(xí)θx。

      當(dāng)θx、Dx、Dy、Ax、Ay、Wx、Wy、B、P固定時(shí),式(10)可簡(jiǎn)化為:

      同樣地,利用隨機(jī)梯度下降和反向傳播算法來學(xué)習(xí)θy。

      2)D的學(xué)習(xí)。

      當(dāng)θx、θy、Dy、Ax、Ay、Wx、Wy、B、P固定時(shí),式(10)可簡(jiǎn)化為:

      顯然,式(13)是一個(gè)關(guān)于Dx的二次約束二次規(guī)劃問題(Quadratically Constrained Quadratic Program,QCQP),可利用拉格朗日對(duì)偶性進(jìn)行求解。

      當(dāng)θx、θy、Dx、Ax、Ay、Wx、Wy、B、P固定時(shí),式(10)可簡(jiǎn)化為:

      同樣地,利用拉格朗日對(duì)偶性學(xué)習(xí)Dy。

      3)A的學(xué)習(xí)。

      當(dāng)θx、θy、Dx、Dy、Ay、Wx、Wy、B、P固定時(shí),式(10)可簡(jiǎn)化為:

      5)B的學(xué)習(xí)。

      本文采用離散循環(huán)坐標(biāo)下降(Discrete Cyclic Coordinate descent,DCC)法[33]學(xué)習(xí)B,此過程無需松弛哈希碼的離散約束,可避免較大的量化誤差。

      當(dāng)θx、θy、Dx、Dy、Ax、Ay、Wx、Wy、P固定時(shí),式(10)可簡(jiǎn)化為:

      由于BΩ和BΓ是查詢實(shí)例和數(shù)據(jù)庫(kù)實(shí)例的二進(jìn)制碼,對(duì)式(23)的求解可轉(zhuǎn)化為對(duì)式(24)和式(25)的求解:

      3.2 樣本外擴(kuò)展

      在檢索過程中,對(duì)于不在查詢實(shí)例中的圖像數(shù)據(jù)xq,可通過正向傳播來學(xué)習(xí)哈希碼:

      同樣地,對(duì)于不在查詢實(shí)例中的文本數(shù)據(jù)yq,其哈希碼為:

      4 實(shí)驗(yàn)與結(jié)果分析

      為驗(yàn)證DADCH 的有效性,本文在3 個(gè)廣泛使用的跨模態(tài)數(shù)據(jù)集IAPR-TC12[34]、MIRFLICKR-25K[35]和NUS-WIDE[36]上進(jìn)行了實(shí)驗(yàn),并將其與近年來先進(jìn)的跨模態(tài)檢索方法進(jìn)行比較與分析。

      4.1 實(shí)驗(yàn)設(shè)置

      1)參數(shù)設(shè)置。

      實(shí)驗(yàn)設(shè)置超參數(shù)α=100,β=200,γ=300,η=100,λ1=λ2=0.01。由于圖像和文本是成對(duì)出現(xiàn)的,設(shè)置字典Dx、Dy的大小K1=K2=128。此外,不同大小的字典也同樣適用于本方法。圖像模態(tài)網(wǎng)絡(luò)的學(xué)習(xí)率為[10-9,10-5.5],文本模態(tài)網(wǎng)絡(luò)的學(xué)習(xí)率為[10-9,10-4.5]。本文實(shí)驗(yàn)數(shù)據(jù)取3 次實(shí)驗(yàn)結(jié)果的平均值。

      2)數(shù)據(jù)集。

      IAPR-TC12:該數(shù)據(jù)集由20 000 個(gè)圖像文本對(duì)組成。每對(duì)樣本使用255 個(gè)標(biāo)簽進(jìn)行注釋。該數(shù)據(jù)集與DCMH[25]中一致,對(duì)于每個(gè)實(shí)例,圖像數(shù)據(jù)是512 維的手工特征向量,文本數(shù)據(jù)是2 912 維的詞袋向量。

      MIRFLICKR-25K:該數(shù)據(jù)集由從Flickr 網(wǎng)站收集的25 000 個(gè)圖像組成。本文選擇至少包含20 個(gè)標(biāo)簽的圖像文本對(duì)進(jìn)行實(shí)驗(yàn)。對(duì)于每個(gè)實(shí)例,圖像數(shù)據(jù)是一個(gè)512 維的手工特征向量,文本數(shù)據(jù)是一個(gè)1 386 維的詞袋向量。

      NUS-WIDE:該數(shù)據(jù)集由包含269 648 張圖像的公共網(wǎng)絡(luò)圖像組成。數(shù)據(jù)集中有81 個(gè)概念標(biāo)簽,每個(gè)實(shí)例有一個(gè)或多個(gè)標(biāo)簽。本文使用21 個(gè)最常見概念的195 834 個(gè)圖像文本對(duì)進(jìn)行實(shí)驗(yàn)。對(duì)于每個(gè)實(shí)例,圖像數(shù)據(jù)是一個(gè)500 維視覺詞袋(Bag of View Word,BoVW)向量,文本數(shù)據(jù)是一個(gè)1 000維的詞袋向量。

      對(duì)于上述3 個(gè)數(shù)據(jù)集,本文隨機(jī)抽取2 000 個(gè)實(shí)例作為測(cè)試集,剩余實(shí)例作為訓(xùn)練集和檢索集,并從訓(xùn)練集中隨機(jī)抽取3 000 個(gè)實(shí)例作為查詢實(shí)例,剩余的訓(xùn)練集實(shí)例作為數(shù)據(jù)庫(kù)實(shí)例。

      4.2 評(píng)估標(biāo)準(zhǔn)

      為驗(yàn)證本文方法在跨模態(tài)檢索任務(wù)中的性能,采用兩種廣泛使用的檢索評(píng)估標(biāo)準(zhǔn):漢明排序和哈希查找。漢明排序根據(jù)檢索集中的數(shù)據(jù)與給定查詢數(shù)據(jù)之間的漢明距離按遞增順序排序;哈希查找是返回查詢數(shù)據(jù)的某個(gè)漢明半徑內(nèi)的所有數(shù)據(jù)。

      平均精度均值(mean Average Precision,mAP)[37]是平均精度的平均值,是漢明排序中廣泛使用的度量指標(biāo)。定義如下:

      其中:m是查詢數(shù)據(jù)的個(gè)數(shù);AP(xi)是查詢數(shù)據(jù)xi的平均精度。

      精度召回率曲線(PR-curve)[38]是廣泛用于評(píng)估哈希查找準(zhǔn)確性的指標(biāo)。PR 曲線以召回率(recall)為自變量,精度(precision)為因變量。精度和召回率的定義如下:

      其中:TP(True Positives)表示檢索的相關(guān)數(shù)據(jù)個(gè)數(shù);FP(False Positives)表示檢索的不相關(guān)數(shù)據(jù)個(gè)數(shù);FN(False Negatives)表示未檢索的不相關(guān)數(shù)據(jù)個(gè)數(shù)。

      4.3 實(shí)驗(yàn)結(jié)果對(duì)比分析

      本文選取7 個(gè)先進(jìn)的跨模態(tài)檢索方法與DADCH 進(jìn)行對(duì)比,分別為:跨視圖哈希(Cross-View Hashing,CVH)[7]、語(yǔ)義主題多模態(tài)哈希STMH(Semantic Topic Multimodal Hashing for cross-media retrieval)[6]、SCM[8]、語(yǔ)義保留哈希(Semantics-Preserving Hashing,SePH)[9]、DCMH[25]、注意力感知深度對(duì)抗哈希(Attention-aware Deep Adversarial Hashing,ADAH)[11]和SSAH[26]。其中,前4 個(gè)方法是基于淺層框架的,后3 個(gè)是基于深度學(xué)習(xí)的。

      4.3.1 mAP及PR曲線對(duì)比

      表3 是所有方法在不同數(shù)據(jù)集上的mAP 結(jié)果,其中I→T表示圖像檢索文本,T→I 表示文本檢索圖像,哈希碼長(zhǎng)度分別設(shè)置為16、32 和64 bit,粗體字表示最優(yōu)結(jié)果。

      從表3 可看出:在所有檢索任務(wù)中,深度方法都顯著優(yōu)于非深度方法。在MIRFLICKR-25K 數(shù)據(jù)集上,圖像檢索文本時(shí),DADCH 與非深度方法(SePH)相比,mAP 提高17%~18%,表明神經(jīng)網(wǎng)絡(luò)提取的深度特征包含更豐富的語(yǔ)義信息,使學(xué)習(xí)的哈希碼更高效;與深度監(jiān)督哈希方法(SSAH)相比,mAP 提高6%~7%,說明非對(duì)稱學(xué)習(xí)框架能充分利用數(shù)據(jù)的監(jiān)督信息,在跨模態(tài)檢索中有一定的優(yōu)越性。具體地,在IAPR-TC12、MIRFLICKR-25K 和NUS-WIDE 數(shù)據(jù)集上,哈希碼長(zhǎng)度為64 bit 時(shí),DADCH 的mAP(I→T)比SSAH 分別提高了11.6、5.2、14.7 個(gè)百分點(diǎn),這是因?yàn)镈ADCH 以離散的非對(duì)稱框架學(xué)習(xí)查詢實(shí)例和數(shù)據(jù)庫(kù)實(shí)例的哈希碼,可以更深入地挖掘數(shù)據(jù)的語(yǔ)義信息,降低量化誤差,從而獲得出色的檢索性能。與IAPR-TC12 和NUS-WIDE 數(shù)據(jù)集相比,DADCH在MIRFLICKR-25K 數(shù)據(jù)集上的效果更顯著。當(dāng)哈希碼長(zhǎng)度為64 bit 時(shí),DADCH 的mAP 分別為0.852(I→T)和0.857(T→I),這是因?yàn)镸IRFLICKR-25K 數(shù)據(jù)集更復(fù)雜,每個(gè)圖像包含的對(duì)象更多,標(biāo)簽也更多。此外,大多數(shù)方法在文本檢索圖像任務(wù)中的mAP 比圖像檢索文本任務(wù)中的結(jié)果好,說明文本模態(tài)能更好地描述圖像文本對(duì)的內(nèi)容。

      表3 不同方法的mAP對(duì)比Tab.3 mAP comparison of different methods

      圖2 展示了上述方法在不同數(shù)據(jù)集上哈希碼長(zhǎng)度為32 bit 的精度-召回率曲線。結(jié)果顯示,在所有跨模態(tài)檢索任務(wù)中,本文方法PR 曲線下方的面積始終大于近年來的先進(jìn)方法,進(jìn)一步驗(yàn)證了DADCH 的檢索性能優(yōu)于其他方法。

      圖2 各方法的PR曲線對(duì)比(哈希碼長(zhǎng)度=32 bit)Fig.2 Comparison of PR curves of different methods(length of Hash code=32 bit)

      4.3.2 參數(shù)敏感度分析

      為研究超參數(shù)對(duì)方法檢索精度的影響,本文設(shè)計(jì)了參數(shù)敏感度分析實(shí)驗(yàn)。實(shí)驗(yàn)設(shè)置參數(shù)α,β,γ,η∈[1,1 000],λ1,λ2∈[0.01,100],在實(shí)驗(yàn)過程中固定其他參數(shù)不變,只改變其中一個(gè)參數(shù)值。圖3 展示了不同參數(shù)值在MIRFLICKR-25K 數(shù)據(jù)集上哈希碼長(zhǎng)度為32 bit 的mAP 變化曲線。從圖3可看出各參數(shù)對(duì)本文方法是不敏感的。當(dāng)參數(shù)α和β∈[1,100]時(shí),mAP 略有波動(dòng);但在[100,1 000]范圍內(nèi),對(duì)其影響并不大。并且參數(shù)γ、η和λ1、λ2分別在[1,1 000]和[0.01,100]檢索性能最優(yōu)。因此,在實(shí)驗(yàn)中設(shè)置參數(shù)α=100,β=200,γ=300,η=100,λ1=λ2=0.01。

      圖3 各參數(shù)的敏感度分析(哈希碼長(zhǎng)度=32 bit)Fig.3 Sensitivity analysis of parameters(length of Hash code=32 bit)

      4.3.3 時(shí)間復(fù)雜度分析

      為評(píng)估本文方法的效率,實(shí)驗(yàn)選取深度監(jiān)督對(duì)稱哈希方法DCMH 和SSAH 作為比較對(duì)象,比較了3 種方法在MIRFLICKR-25K 數(shù)據(jù)集上哈希碼長(zhǎng)度為16 bit 的訓(xùn)練時(shí)間。實(shí)驗(yàn)中,DCMH 和SSAH 使用整個(gè)數(shù)據(jù)集用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練。圖4 展示了它們的訓(xùn)練時(shí)間曲線,x軸為訓(xùn)練時(shí)間,y軸為mAP。觀察結(jié)果顯示,當(dāng)使用整個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí),DCMH 和SSAH 收斂時(shí)間需要超過6 h。當(dāng)訓(xùn)練時(shí)間相同時(shí),DADCH 的mAP 比DCMH、SSAH 都要高。DADCH 的訓(xùn)練時(shí)間短的原因主要有:首先,由于深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練比較耗時(shí),當(dāng)數(shù)據(jù)集全部用于訓(xùn)練時(shí),傳統(tǒng)的深度監(jiān)督對(duì)稱哈希方法的時(shí)間復(fù)雜度至少為O(n2)。其次,DADCH 采用非對(duì)稱學(xué)習(xí)框架,僅使用一小部分?jǐn)?shù)據(jù)進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練,而剩余數(shù)據(jù)利用字典學(xué)習(xí)學(xué)習(xí),使其在較短時(shí)間內(nèi)也能達(dá)到比較高的精度。

      圖4 MIRFLICKR-25K數(shù)據(jù)集上的訓(xùn)練時(shí)間對(duì)比(哈希碼長(zhǎng)度=16 bit)Fig.4 Training time comparison on MIRFLICKR-25K dataset(length of Hash code=16 bit)

      4.3.4 樣本適應(yīng)度分析

      本文在MIRFLICKR-25K 和NUS-WIDE 數(shù)據(jù)集上,研究了訓(xùn)練樣本大小對(duì)方法檢索性能的影響。實(shí)驗(yàn)設(shè)置哈希碼長(zhǎng)度為32 bit,樣本大小為2 500、5 000、7 500 和10 000,并記錄DADCH 的mAP 值。特別地,當(dāng)樣本大小為2 500 時(shí),設(shè)置查詢實(shí)例大小為800,測(cè)試集大小為500。圖5 展示了在兩個(gè)數(shù)據(jù)集下mAP 隨樣本大小變化的曲線,易知DADCH 在樣本數(shù)量較少的情況下,也能取得較高的mAP,并且隨著訓(xùn)練樣本數(shù)據(jù)的增加,mAP 呈上升趨勢(shì)。

      圖5 mAP在不同樣本大小下的變化(哈希碼長(zhǎng)度=32 bit)Fig.5 mAP varying with sample size(length of Hash code=32 bit)

      4.3.5 變體實(shí)驗(yàn)分析

      為進(jìn)一步驗(yàn)證本文方法的有效性,實(shí)驗(yàn)設(shè)計(jì)了DADCH的一些變體。DADCH-Ⅰ采用對(duì)稱框架來代替非對(duì)稱學(xué)習(xí)框架;DADCH-Ⅱ去掉標(biāo)簽層,不考慮標(biāo)簽預(yù)測(cè);DADCH-Ⅲ去掉數(shù)據(jù)標(biāo)簽到哈希碼的線性映射,不考慮語(yǔ)義信息嵌入。實(shí)驗(yàn)在MIRFLICKR-25K 和NUS-WIDE 數(shù)據(jù)集上進(jìn)行,設(shè)置哈希碼長(zhǎng)度為32 bit,表4 記錄了每個(gè)變體的mAP。實(shí)驗(yàn)結(jié)果表明,DADCH 的3 個(gè)變體對(duì)其mAP 都有影響。其中,DADCH-Ⅰ對(duì)mAP 的影響最大,說明了非對(duì)稱學(xué)習(xí)框架對(duì)DADCH 檢索性能的提升有顯著作用。

      表4 DADCH變體的mAP對(duì)比Tab.4 mAP comparison of DADCH variants

      5 結(jié)語(yǔ)

      本文提出了深度非對(duì)稱離散跨模態(tài)哈希方法DADCH。該方法利用神經(jīng)網(wǎng)絡(luò)和字典學(xué)習(xí)相結(jié)合的非對(duì)稱學(xué)習(xí)框架,采用不同的方式學(xué)習(xí)查詢實(shí)例和數(shù)據(jù)庫(kù)實(shí)例的哈希碼,不僅縮短了訓(xùn)練時(shí)間,而且能有效利用數(shù)據(jù)的監(jiān)督信息,使學(xué)習(xí)的哈希碼能最大限度保留來自不同模態(tài)數(shù)據(jù)的語(yǔ)義相關(guān)性;并利用離散優(yōu)化算法對(duì)哈希碼矩陣進(jìn)行逐列優(yōu)化,有效降低了哈希碼的量化誤差。為增強(qiáng)哈希碼的判別性,采用標(biāo)簽預(yù)測(cè)與語(yǔ)義信息嵌入來挖掘語(yǔ)義信息。在IAPR-TC12、MIRFLICKR-25K 和NUS-WIDE 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與近年來7 個(gè)先進(jìn)的跨模態(tài)哈希方法相比,本文方法的檢索性能更好。其中,在MIRFLICKR-25K 數(shù)據(jù)集上,文本檢索圖像任務(wù)的mAP 可達(dá)0.857。然而,本文在利用標(biāo)簽度量不同模態(tài)樣本之間的相似度時(shí),忽略了多標(biāo)簽數(shù)據(jù)之間的語(yǔ)義信息,導(dǎo)致部分語(yǔ)義相似性信息丟失。在未來的工作中,將更深入地挖掘多標(biāo)簽數(shù)據(jù)的語(yǔ)義信息,使相似度的度量更加精確。

      猜你喜歡
      哈希非對(duì)稱實(shí)例
      非對(duì)稱Orlicz差體
      點(diǎn)數(shù)不超過20的旗傳遞非對(duì)稱2-設(shè)計(jì)
      基于OpenCV與均值哈希算法的人臉相似識(shí)別系統(tǒng)
      基于維度分解的哈希多維快速流分類算法
      非對(duì)稱負(fù)載下矩陣變換器改進(jìn)型PI重復(fù)控制
      完形填空Ⅱ
      完形填空Ⅰ
      基于同態(tài)哈希函數(shù)的云數(shù)據(jù)完整性驗(yàn)證算法
      一種基于Bigram二級(jí)哈希的中文索引結(jié)構(gòu)
      “非對(duì)稱作戰(zhàn)”的提出及其啟示
      軍事歷史(1999年1期)1999-08-20 08:36:14
      双峰县| 富裕县| 淮滨县| 磐石市| 莱西市| 平度市| 临清市| 山阳县| 乌鲁木齐市| 囊谦县| 琼海市| 小金县| 聂荣县| 鄂托克前旗| 进贤县| 海丰县| 江安县| 鄯善县| 青铜峡市| 六枝特区| 东阳市| 洛阳市| 三穗县| 怀仁县| 伊春市| 资中县| 桃园市| 平山县| 遂宁市| 长春市| 江阴市| 台北县| 旬邑县| 潜山县| 岳西县| 鹿泉市| 宜兰市| 青河县| 安乡县| 邵武市| 蓬安县|