• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于卷積神經(jīng)網(wǎng)絡(luò)約束編碼的圖像檢索方法

      2020-07-13 05:27:24楊紅菊陳庚峰
      關(guān)鍵詞:哈希約束檢索

      楊紅菊,陳庚峰

      (1.山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;2.山西大學(xué) 計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,山西 太原 030006)

      0 引言

      近幾年來,基于內(nèi)容的圖像檢索方法被廣泛應(yīng)用,并得到深入研究[1-5],更是將這一成果應(yīng)用到人們的生活。圖像檢索是基于給定一個(gè)實(shí)例,在候選數(shù)據(jù)庫中尋找與之特征相似的圖像,其主要包括特征提取和相似度計(jì)算。特征的表達(dá)能力對(duì)檢索性能至關(guān)重要,并且其占用的磁盤存儲(chǔ)空間和相似度計(jì)算消耗的硬件資源也會(huì)影響圖像檢索的效率。提取一種既具有較強(qiáng)區(qū)分度的圖像特征向量,又能減少存儲(chǔ)空間及相似度計(jì)算所消耗的時(shí)間,一直以來是研究者們關(guān)注的重點(diǎn)。

      傳統(tǒng)的圖像特征提取方法在過去取得了較好的結(jié)果,例如局部二進(jìn)制模式(Local Binary Pattern,LBP)[6],方向梯度直方圖(Histograms of Oriented Gradients,HOG)[7],尺度不變特征轉(zhuǎn)換(Scale-Invariant Feature Transform,SIFT)[8]等,由于受到設(shè)備的限制,這些方法不能夠很好的捕獲到圖像特征和語義信息。

      基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)在圖像特征提取上更加高效。一些相關(guān)研究表明,基于多個(gè)非線性映射層的卷積神經(jīng)網(wǎng)絡(luò)在圖像檢索[1-5],分類[9-10],檢測[11]等相關(guān)領(lǐng)域取得了巨大突破。卷積網(wǎng)絡(luò)旨在構(gòu)建輸入數(shù)據(jù)和標(biāo)簽之間的映射關(guān)系抽取圖像的整體語義信息。不僅如此,基于深度模型的循環(huán)網(wǎng)絡(luò)在語音識(shí)別[12-13]和自然語言領(lǐng)域[14-15]也被深入研究。這些突破性的進(jìn)展均歸功于深度學(xué)習(xí)模型強(qiáng)大的非線性擬合能力。而基于深度學(xué)習(xí)的卷積網(wǎng)絡(luò)在圖像檢索領(lǐng)域也有著廣泛的研究和應(yīng)用。Krizhevsk等人[9]利用神經(jīng)網(wǎng)絡(luò)中全連接層得到的特征進(jìn)行圖像檢索,效果有所提升。Babenko等人[16]通過主成分分析將全連接層特征從高維映射到低維,提高了效率,但其采用的兩段式特征提取方法丟失了某些潛在的語義信息,從而削弱了網(wǎng)絡(luò)的特征編碼能力。Xia等人[17]提出了CNNH的圖像檢索方法,首先構(gòu)造圖像的相似矩陣,然后將其分解得到的向量作為標(biāo)簽,把圖像編碼為維度較低的二進(jìn)制向量。但是構(gòu)造相似度矩陣需要消耗巨大的計(jì)算機(jī)資源。Lin等人[18]通過添加編碼層更有效的學(xué)習(xí)到圖像的二進(jìn)制特征,設(shè)定閾值來獲得輸出,以此提高效率。Yang 等人[19]對(duì)編碼層進(jìn)行約束,提高特征編碼能力。Zhu等人[20]提出DSTH方法,通過探索輔助上下文模態(tài)來直接擴(kuò)充離散圖像哈希碼的語義,對(duì)哈希碼施加離散約束,比特不相關(guān)約束和比特平衡約束,保證了語義轉(zhuǎn)移并避免信息丟失。Zhong等人[21]提出AgNet不僅可以進(jìn)行基于圖像的圖像檢索還可以進(jìn)行基于文本的圖像檢索,使得圖像檢索可以跨模態(tài)。不同于文獻(xiàn)[16-21]的網(wǎng)絡(luò)模型, Lai等人[22]使用NIN (Network in Network) 架構(gòu)提取編碼特征,同時(shí)使用三元損失函數(shù)將相同標(biāo)簽的圖像映射到距離較近的空間,提取圖像的編碼特征,取得了較好的效果。文獻(xiàn)[16-22]提出的方法雖然提高了圖像特征的編碼能力,但并沒有考慮到閾值操作產(chǎn)生的特征損失。

      本文提出基于卷積神經(jīng)網(wǎng)絡(luò)的約束哈希編碼的圖像檢索方法(Deep Constraint Binary Code,DCBC),在 fc1層的后面添加一個(gè)分類層fc5解決由于sigmoid操作所導(dǎo)致的特征損失,同時(shí)添加約束到編碼層以提升編碼特征的區(qū)分度。

      1 約束編碼哈希網(wǎng)絡(luò)架構(gòu)

      本節(jié)介紹約束編碼網(wǎng)絡(luò)架構(gòu)及對(duì)應(yīng)的損失函數(shù),使用二進(jìn)制向量替換全連接層高維圖像特征向量來表示圖像潛在的語義特征,并且在分類誤差的基礎(chǔ)上添加了兩種損失函數(shù)更新網(wǎng)絡(luò)權(quán)重,以便更好地提取圖像的語義信息。

      1.1 網(wǎng)絡(luò)架構(gòu)

      卷積網(wǎng)絡(luò)由若干個(gè)非線性映射層組成,主要包括卷積層、池化層和全連接層。輸入圖像經(jīng)過卷積層和池化層之后得到相應(yīng)的特征圖。卷積層[23](Convolution layer,conv)通過卷積核提取圖像的局部特征,例如紋理、顏色等。池化層(Pooling layer,pool)對(duì)卷積層的特征圖進(jìn)行下采樣操作。全連接層(Fully Connection layer,fc)將卷積層的特征圖扁平化處理,由三維的特征圖轉(zhuǎn)化為一維的向量,實(shí)現(xiàn)局部語義信息到全局特征的轉(zhuǎn)換。

      圖1 約束編碼網(wǎng)絡(luò)架構(gòu)圖

      約束編碼網(wǎng)絡(luò)架構(gòu)如圖1所示,主要包含卷積層和全連接層。卷積層的網(wǎng)絡(luò)架構(gòu)和AlexNet網(wǎng)絡(luò)相同,卷積核提取圖像的三維局部紋理特征,將輸入圖像通過最大池化層進(jìn)行下采樣操作。最后一個(gè)卷積層和第一個(gè)全連接層fc1連接,該層有4 096個(gè)神經(jīng)元,使用一維向量刻畫圖像的全局語義信息。fc1后包含兩個(gè)分支,一個(gè)將圖像編碼為維度較低的哈希特征,稱之為fc2層。fc2層將高維的全連接層編碼為低維的特征向量。fc3層使用非線性sigmoid將fc2層的神經(jīng)元編碼為0到1之間,fc3層也稱之為編碼層。fc4的神經(jīng)元個(gè)數(shù)和圖像的類別相同,用于圖像分類。另一個(gè)分支直接在fc1后添加一個(gè)分類層fc5,該層的神經(jīng)元個(gè)數(shù)和fc4相同,防止由編碼層的級(jí)聯(lián)低維映射和sigmoid函數(shù)造成的編碼特征損失。

      約束編碼網(wǎng)絡(luò)在編碼層fc3的基礎(chǔ)上添加相應(yīng)的約束條件提升編碼特征之間的區(qū)分度。同時(shí)在fc1層后又添加一個(gè)fc5層,解決編碼層的低維映射和非線性映射產(chǎn)生的分類誤差。在測試階段,給定輸入圖像I,對(duì)應(yīng)的編碼特征如式(1)所示。

      (1)

      1.2 損失函數(shù)

      約束編碼網(wǎng)絡(luò)的損失函數(shù)主要由分類損失、編碼約束和編碼損失組成。編碼約束對(duì)編碼層的特征向量添加相應(yīng)的約束條件,提升編碼層向量和其他類別特征的區(qū)分度。編碼損失是指由編碼層產(chǎn)生的分類誤差,本質(zhì)上是一個(gè)分類損失。

      1) 分類損失:分類損失就是預(yù)測標(biāo)簽和真實(shí)值之間的誤差。如表達(dá)式(2)所示:

      (2)

      其中zj表示分類層中第j個(gè)神經(jīng)元的激活值,m代表神經(jīng)元的個(gè)數(shù),即圖像類別。

      2) 編碼約束: 編碼層的特征由fc2層經(jīng)過非線性映射sigmoid計(jì)算得到,神經(jīng)元的數(shù)值分布在0到1之間。每個(gè)神經(jīng)元的數(shù)值表示對(duì)某個(gè)潛在語義特征的刻畫程度。數(shù)值越大,表示該圖像對(duì)應(yīng)的特征表現(xiàn)能力越強(qiáng)。例如,當(dāng)前的神經(jīng)元數(shù)值為0.01,表示該圖像不具備該特征,對(duì)應(yīng)的0.9則反之。由于神經(jīng)元的變化范圍較小,不同類別圖像特征之間的區(qū)分度較低,導(dǎo)致特征編碼能力較弱。為了提高特征的編碼能力,需要盡可能地提高不同類別圖像特征之間的區(qū)分度。

      編碼約束旨在增強(qiáng)圖像特征的區(qū)分度,如果該圖像并不具備某個(gè)語義信息,則強(qiáng)制其神經(jīng)元的編碼數(shù)值趨近于0,而不是在保持在0.5這種中立的狀態(tài)。本文通過最大化編碼層特征和0.5之間的歐式距離解決該問題。如式(3)所示:i表示圖像的索引,N表示批處理的大小,w表示網(wǎng)絡(luò)的訓(xùn)練參數(shù)。

      (3)

      公式(3)雖然能夠增強(qiáng)編碼特征的區(qū)分度,但是卻會(huì)出現(xiàn)每個(gè)神經(jīng)元的數(shù)值全部都趨向于0或者1這種特殊情況,削弱網(wǎng)絡(luò)特征的編碼能力。本文通過最小化編碼層的特征均值與0.5之間的歐式距離以解決該問題。如表達(dá)式(4)所示,其中mean表示求均值操作。

      (4)

      綜合式(3)和(4)得到最終編碼約束,如公式(5)所示。由于公式(3)和公式(4)的優(yōu)化方向不一致,因此在目標(biāo)函數(shù)的優(yōu)化過程中,將公式(3)取反和公式(4)相加得到編碼約束的損失函數(shù)。可以認(rèn)為公式(4)是公式(3)的約束條件。

      (5)

      3) 編碼損失:編碼損失是指由編碼層產(chǎn)生的分類誤差。從sigmoid曲線圖可以發(fā)現(xiàn)這種非線性映射會(huì)導(dǎo)致梯度消失,如果將這些低維映射進(jìn)行級(jí)聯(lián)則會(huì)損失分類精度。本文通過建立分支網(wǎng)絡(luò),在第一個(gè)全連接層fc1后添加一個(gè)分類層fc5,并計(jì)算分類誤差來解決問題。

      L(w;α)=L(cls-fc4)+L(cls-fc5)+αL(constraint)

      (6)

      綜上所述,網(wǎng)絡(luò)的總損失由分類誤差L(cls-fc4),編碼約束L(constraint)和編碼損失L(cls-fc5)三部分組成。如公式式6所示,其中α表示編碼約束對(duì)應(yīng)的損失權(quán)重。本文將在第2節(jié)研究該參數(shù)的選定對(duì)網(wǎng)絡(luò)分類的影響情況。

      2 實(shí)驗(yàn)

      本文實(shí)驗(yàn)基于開源的深度學(xué)習(xí)框架Caffe[24]實(shí)現(xiàn),采用隨機(jī)梯度下降優(yōu)化目標(biāo)函數(shù)。其中每個(gè)批處理大小為64,學(xué)習(xí)率0.001,momentum為0.9,權(quán)重衰減因子設(shè)定為0.000 5, 全連接層中dropout因子設(shè)定為0.5,使用ImageNet數(shù)據(jù)集訓(xùn)練得到的權(quán)重[9]初始化網(wǎng)絡(luò)的卷積參數(shù),超參數(shù)α設(shè)置為0.8。對(duì)于深度哈希的方法,訓(xùn)練網(wǎng)絡(luò)時(shí)統(tǒng)一把圖像放縮為256×256,直接使用原圖像提取特征,對(duì)于非監(jiān)督學(xué)習(xí)方法均采用512維的GIST[25]特征學(xué)習(xí)哈希編碼特征。

      2.1 實(shí)驗(yàn)數(shù)據(jù)

      CIFAR-10:常用的分類數(shù)據(jù)集之一,該數(shù)據(jù)集共包括6萬張圖像,分為10個(gè)類,每個(gè)類有6 000張圖像,其中50 000張訓(xùn)練樣本和10 000張測試樣本,大小為32×32。數(shù)據(jù)集總共有6個(gè)批次,其中5個(gè)為訓(xùn)練批次,剩余1個(gè)為測試批次,每個(gè)批次下有10 000個(gè)圖像。從每個(gè)類別下隨機(jī)選取1 000張圖像作為測試集。把每個(gè)類別下剩余的5 000張圖像隨機(jī)分配到5個(gè)訓(xùn)練集上,可以不等份的進(jìn)行分配但保持每個(gè)批次下的總數(shù)不變。5個(gè)訓(xùn)練集之和包含來自每個(gè)類的正好5 000張圖像。

      Caltech-256:是一個(gè)物體識(shí)別數(shù)據(jù)集也用作分類,該數(shù)據(jù)集是加利福尼亞理工學(xué)院收集整理的數(shù)據(jù)集,該數(shù)據(jù)集選自Google Image 數(shù)據(jù)集,并手工去除了不符合其類別的圖片。數(shù)據(jù)集包含257個(gè)類別,總計(jì)圖像個(gè)數(shù)30 607張,從每個(gè)類別中選出10張圖像作為測試集,其他的作為訓(xùn)練集。在檢索過程中,使用測試集合的數(shù)據(jù)作為待查詢樣本,訓(xùn)練集的數(shù)據(jù)作為候選樣本。

      2.2 性能評(píng)估

      本文使用查準(zhǔn)率和平均查準(zhǔn)率(mean Average Precision,mAP) 作為網(wǎng)絡(luò)性能的評(píng)估指標(biāo),如公式(7),(8)所示,分別為查準(zhǔn)率和平均查準(zhǔn)率。通過和DH(Deep Hashing)[18],SSDH(Supervised Semantics-preserving Deep Hashing,SSDH)[19],ITQ(Iterative Quantization,ITQ)[26],LSH(Locality-Sensitive Hashing,LSH)[27]編碼方法的比較。LSH深度哈希編碼方法在網(wǎng)絡(luò)的后端插入一個(gè)全連接層,SSDH僅對(duì)編碼特征進(jìn)行了條件約束,學(xué)習(xí)圖像的哈希編碼。

      precision=(a/b)×100%

      (7)

      a表示檢索屬于同一類別的個(gè)數(shù),b表示檢索圖像總數(shù)。

      (8)

      |Q|代表查詢個(gè)數(shù),j代表查詢索引,mj表示檢索圖像個(gè)數(shù),k表示相似度排序的圖像索引,count(k)代表索引k之前的實(shí)例中,標(biāo)簽正確的圖像個(gè)數(shù)。平均準(zhǔn)確率可以理解為精確度曲線和召回率曲線所形成的面積。精確率表示檢索返回的樣本中正樣本的個(gè)數(shù)返回圖像個(gè)數(shù)的比例,召回率表示檢索返回的樣本中正樣本的個(gè)數(shù)和數(shù)據(jù)庫中總的正樣本個(gè)數(shù)的比例。理想情況下精確率隨著召回率的增長而變大,但實(shí)際情況下兩者往往成反比。

      2.3 CIFAR-10

      本小節(jié)使用CIFAR-10數(shù)據(jù)集評(píng)估約束編碼網(wǎng)絡(luò)的分類和檢索性能。分別采用24、32、64位的編碼特征表示圖像潛在的語義信息。

      如圖2a所示,表示檢索返回的圖像個(gè)數(shù)和檢索精確度,從圖中可以看出,本文的DCBC編碼方法在檢索精確度上明顯高于SSDH和DH方法。對(duì)于編碼位數(shù)是否會(huì)影響檢索精確度,本文分別測試了24、32、64位編碼特征下的精確度。如圖2b所示,發(fā)現(xiàn)檢索精度隨著編碼位數(shù)的提升而增加,并且在其他方法上也有相同的效果。

      表1表示不同方法在CIFAR-10上的平均查準(zhǔn)率。通過數(shù)值數(shù)據(jù)表明相比于傳統(tǒng)LSH和ITQ哈希方法,本文DCBC編碼方法具有很大的優(yōu)勢。通過與DH和SSDH深度哈希方法的比較,DCBC編碼也具有更好的查準(zhǔn)率。對(duì)于SSDH,高出0.32個(gè)百分點(diǎn),這是因?yàn)樵趯?duì)編碼進(jìn)行特征約束的同時(shí)也考慮到所產(chǎn)生的特征損失。

      表1 CIFAR-10數(shù)據(jù)集上的平均準(zhǔn)確率

      為了明確參數(shù)α對(duì)網(wǎng)絡(luò)分類性能的影響,選取64位編碼特征進(jìn)行實(shí)驗(yàn)。由于編碼約束兩部分的損失權(quán)重和為1,所以本文將僅僅對(duì)一部分進(jìn)行分析驗(yàn)證。

      如表2所示:表示編碼約束權(quán)重α對(duì)網(wǎng)絡(luò)分類性能的影響, 本文分別設(shè)定α為0.2,0.5,0.8和1.0??梢园l(fā)現(xiàn)在α=0.5時(shí),網(wǎng)絡(luò)的分類性能最好,當(dāng)α=0.8時(shí),分類性能稍微比0.5下降一點(diǎn),但也有一個(gè)相對(duì)較好的分類性。但是當(dāng)α=1時(shí),分類性能有所下降,這是因?yàn)棣恋淖饔檬窃黾犹崛√卣鞯膮^(qū)分度,使得編碼層的神經(jīng)元激活值距離0.5越遠(yuǎn)越好。當(dāng)α=1時(shí),神經(jīng)元的激活值幾乎全為0或1,導(dǎo)致梯度消失從而降低了網(wǎng)絡(luò)的特征編碼能力。當(dāng)a=0.2時(shí),神經(jīng)元的激活值又幾乎全為0.5,這樣使得網(wǎng)絡(luò)喪失區(qū)分特征能力。實(shí)驗(yàn)表明通過對(duì)哈希編碼進(jìn)行約束,可以增加特征區(qū)分度以及提高特征提取能力。

      圖2 CIFAR-10的檢索精度示意圖

      表2 CIFAR-10分類精度

      2.4 Caltech-256

      如圖3a和3b所示,在Caltech-256數(shù)據(jù)集上進(jìn)行相同的實(shí)驗(yàn),發(fā)現(xiàn)SSDH在相似圖像的個(gè)數(shù)上的平均查準(zhǔn)率和在不同特征長度的精確度高于DH和SSDH。

      本文對(duì)不同長度的編碼特征在平均查準(zhǔn)率上進(jìn)行評(píng)估,從表3可以看出在數(shù)據(jù)集Caltech-256上,SSDH的平均查準(zhǔn)率低于DH,而DCBC約束編碼的平均查準(zhǔn)率依然高于另外的兩個(gè)方法,表明本文提出的編碼方法學(xué)習(xí)到的圖像特征表達(dá)能力要優(yōu)于SSDH和DH。

      表3 Caltech-256平均查準(zhǔn)率

      2.5 DCBC編碼特征數(shù)值分布直方圖

      為了可視化DCBC編碼網(wǎng)絡(luò)中編碼層的神經(jīng)元數(shù)值分布,本文從Caletch-256三個(gè)類別下隨機(jī)選出三張圖像分別在DH,SSDH,DCBC方法下實(shí)驗(yàn)得到他們的編碼層的特征值直方圖,如圖4所示。第一列代表原圖,二三四列分別表示的是DH,SS-DH,DCBC模型分布圖。從圖中可以發(fā)現(xiàn)DCBC方法在0和1兩端有一個(gè)較均勻的分布,而SSDH和DH則都集中于兩端。從第一張圖AK47的直方圖中,可以發(fā)現(xiàn)DCBC學(xué)習(xí)到的特征分布在0.1~0.3和0.7~0.9之間,而其他的兩種方法學(xué)習(xí)到特征都偏向于0.1和0.9。無論是圖3的檢索精確度還是圖4中的特征值分布,直觀地顯示了本文DCBC編碼方法能夠更好地學(xué)習(xí)到圖像的語義特征。

      圖3 Caltech-256的檢索精度示意圖

      圖4 不同編碼方法產(chǎn)生的二進(jìn)制特征的數(shù)值分布直方圖

      以上在數(shù)據(jù)集CIFAR-10和Caletch-256上的實(shí)驗(yàn)表明,本文的基于卷積神經(jīng)網(wǎng)絡(luò)約束哈希編碼的檢索方法有一個(gè)更好的處理效果。同時(shí)將閾值操作和編碼約束產(chǎn)生的損失用于更新網(wǎng)絡(luò)權(quán)重,有利于網(wǎng)絡(luò)學(xué)習(xí)到更加有效的特征。

      3 小結(jié)

      本文在傳統(tǒng)的深度哈希編碼網(wǎng)絡(luò)中添加了兩個(gè)全連接層提取圖像的二進(jìn)制特征:在使用編碼約束提升特征之間的區(qū)分度的同時(shí)使用編碼損失防止產(chǎn)生梯度消失的風(fēng)險(xiǎn)。下一步,我們將尋找一種更為合適的損失函數(shù),并且引入attention 模型[28-29]對(duì)于不同的圖像區(qū)域賦予不同的權(quán)重進(jìn)行特征編碼,進(jìn)一步提升圖像的特征表達(dá)能力。

      猜你喜歡
      哈希約束檢索
      “碳中和”約束下的路徑選擇
      約束離散KP方程族的完全Virasoro對(duì)稱
      2019年第4-6期便捷檢索目錄
      專利檢索中“語義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      基于OpenCV與均值哈希算法的人臉相似識(shí)別系統(tǒng)
      基于維度分解的哈希多維快速流分類算法
      適當(dāng)放手能讓孩子更好地自我約束
      人生十六七(2015年6期)2015-02-28 13:08:38
      基于同態(tài)哈希函數(shù)的云數(shù)據(jù)完整性驗(yàn)證算法
      一種基于Bigram二級(jí)哈希的中文索引結(jié)構(gòu)
      不等式約束下AXA*=B的Hermite最小二乘解
      沙河市| 响水县| 株洲市| 松潘县| 红河县| 中西区| 那曲县| 收藏| 清镇市| 册亨县| 九寨沟县| 织金县| 眉山市| 潮安县| 巴南区| 濮阳市| 平乐县| 长垣县| 巨野县| 周宁县| 晋江市| 洮南市| 北辰区| 台东市| 宝鸡市| 泸西县| 塘沽区| 罗甸县| 商河县| 临江市| 十堰市| 新巴尔虎右旗| 乌什县| 麻城市| 靖江市| 镇宁| 河池市| 昆山市| 石棉县| 城市| 定兴县|