• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度殘差網(wǎng)絡(luò)的迭代量化哈希圖像檢索方法

      2022-09-25 08:42:54廖列法李志明張賽賽
      計算機(jī)應(yīng)用 2022年9期
      關(guān)鍵詞:二進(jìn)制哈希特征向量

      廖列法,李志明,張賽賽

      (江西理工大學(xué)信息工程學(xué)院,江西贛州 341000)

      0 引言

      近年來,隨著互聯(lián)網(wǎng)的興起,信息大量過載,圖像、文字、視頻等數(shù)據(jù)大量涌現(xiàn)。如何在龐大的圖像庫中方便、快速、準(zhǔn)確地查詢和檢索用戶所需的圖像,成為圖像檢索領(lǐng)域的研究熱點,圖像檢索技術(shù)可以應(yīng)對大數(shù)據(jù)時代不斷增長的圖像數(shù)據(jù)要求。經(jīng)過幾十年的發(fā)展,基于內(nèi)容的圖像檢索技術(shù)已經(jīng)廣泛應(yīng)用于人臉檢索[1]、商品圖像檢索[2]、服裝檢索[3]、醫(yī)學(xué)圖像檢索[4]等生活領(lǐng)域。

      大規(guī)模圖像檢索問題存在緯度高、數(shù)據(jù)量大、計算耗時等問題。為了實現(xiàn)高效檢索,提出了一種近似最近鄰(Approximate Nearest Neighbor,ANN)算法[5],根據(jù)特征向量的相似性,從圖像數(shù)據(jù)集中找到與目標(biāo)最近的圖像。哈希算法被廣泛應(yīng)用于圖像檢索[6]等相關(guān)領(lǐng)域,將圖像的高維特征映射為壓縮的二值哈希碼。由于漢明距離[7]的計算效率和存儲空間的優(yōu)勢,可以解決大規(guī)模圖像檢索中存儲空間和計算復(fù)雜度等問題。

      由于哈希算法需要對數(shù)據(jù)進(jìn)行特征提取,再將特征向量映射為哈希碼,而深度學(xué)習(xí)[8]具有強(qiáng)大的特征學(xué)習(xí)能力,因此哈希算法逐漸開始利用深度學(xué)習(xí)進(jìn)行特征提取,于是衍生出一種新的方法——深度哈希學(xué)習(xí)[9]。深度哈希學(xué)習(xí)融合了哈希算法與深度學(xué)習(xí)技術(shù),本質(zhì)是同時學(xué)習(xí)深度語義特征和哈希碼,通過利用深度學(xué)習(xí)的方法,不斷減小損失來訓(xùn)練神經(jīng)網(wǎng)絡(luò),對輸入數(shù)據(jù)提取出高維特征,然后生成為緊湊的二進(jìn)制哈希碼。深度哈希方法的性能優(yōu)于傳統(tǒng)哈希方法[10]。卷積神經(jīng)網(wǎng)絡(luò)哈 希(Convolutional Neural Network Hashing,CNNH)[11]首個將卷積神經(jīng)網(wǎng)絡(luò)運用到哈希算法中,但無法同時進(jìn)行特征學(xué)習(xí)和哈希碼學(xué)習(xí);深度神經(jīng)網(wǎng)絡(luò)哈希(Deep Neural Network Hashing,DNNH)[12]是基于深度神經(jīng)網(wǎng)絡(luò)同時學(xué)習(xí)特征模塊和哈希編碼模塊,但特征學(xué)習(xí)的準(zhǔn)確性不夠高;雙線性卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)[13]使用集成網(wǎng)絡(luò)模型來獲得高維語義信息,學(xué)習(xí)了深度語義信息。為了解決特征學(xué)習(xí)不可避免地提高計算機(jī)的存儲容量,提出了深度殘差網(wǎng)絡(luò)哈希圖像檢索架構(gòu)[14],以降低計算機(jī)的存儲容量,提高檢索效率。

      在深度哈希算法的研究中,有效的語義信息提取非常重要。DeepBit[15]是哈希技術(shù)中的一種經(jīng)典方法,通過在哈希層添加損失函數(shù)訓(xùn)練深度哈希模型,以學(xué)習(xí)緊湊的二進(jìn)制哈希碼。在此基礎(chǔ)上,還提出了具有量化誤差約束的無監(jiān)督方法[16],增加重構(gòu)損失以確保語義相似性。基于端到端的無監(jiān)督哈希算法[17]通過使用典型關(guān)聯(lián)分析-迭代量化(Canonical Correlation Analysis Iterative Quantization,CCA ITQ)方法生成偽標(biāo)記,將無監(jiān)督算法轉(zhuǎn)變?yōu)楸O(jiān)督算法。最小化量化誤差是學(xué)習(xí)哈希的另一個重要挑戰(zhàn),迭代量化(Iterative Quantization,ITQ)[18]通過找到最佳旋轉(zhuǎn)矩陣將量化誤差最小化,離散監(jiān)督哈希(Discrete Supervised Hashing,SDH)[19]優(yōu)化了二進(jìn)制哈希碼,減小了量化誤差,深度監(jiān)督哈希(Deep Supervised Hashing,DSH)[20]通過施加一個正則化器來控制量化誤差,雙線性迭代量化(Bilinear Iterative Quantization,BITQ)[21]使用緊湊的雙線性投影將高維數(shù)據(jù)映射到兩個較小的投影矩陣中,分布式快速監(jiān)督離散哈希(Distributed Fast Supervised Discrete Hashing,DFSDH)[22]引入分布式框架共享集中式哈希學(xué)習(xí)模型,改進(jìn)深度哈希網(wǎng)絡(luò)(Improved Deep Hashing Network,IDHN)[23]引入了歸一化語義標(biāo)簽計算的成對量化相似度。

      目前,哈希算法仍然存在以下問題:1)基于傳統(tǒng)的哈希算法研究主要基于手工標(biāo)記,制約了檢索的準(zhǔn)確性;2)雖然當(dāng)前的深度哈希算法能夠獲得更好的表示圖像特征向量,但算法的訓(xùn)練時間急劇增加;3)目前大多數(shù)哈希方法難以適應(yīng)大規(guī)模的圖像檢索要求。

      基于上述考慮,為了提高圖像檢索的檢索準(zhǔn)確性和學(xué)習(xí)更優(yōu)的哈希碼,提出了基于深度殘差網(wǎng)絡(luò)的迭代量化哈希圖像檢索方法(Deep Residual Network and Iterative Quantization Hashing,DRITQH)。首先,使用深度殘差網(wǎng)絡(luò)提取圖像數(shù)據(jù)特征,獲得具有語義特征的高維特征向量;然后,使用主成分分析(Principal Component Analysis,PCA)對高維圖像特征進(jìn)行降維,運用迭代量化對生成的特征向量進(jìn)行二值化處理,更新旋轉(zhuǎn)矩陣,將數(shù)據(jù)映射到零中心二進(jìn)制超立方體進(jìn)行最小量化誤差,得到最佳的投影矩陣;最后,進(jìn)行哈希學(xué)習(xí),得到最優(yōu)的二進(jìn)制哈希碼。DRITQH 使用深度殘差網(wǎng)絡(luò),無需傳統(tǒng)手工標(biāo)注,提升了訓(xùn)練速度,縮短了訓(xùn)練時間,優(yōu)化了訓(xùn)練過程,解決了圖像表達(dá)能力較弱、大規(guī)模圖像檢索效率較低、難以適應(yīng)大規(guī)模圖像檢索的要求等問題。

      因此,本文的主要內(nèi)容有以下3 點:

      1)使用殘差網(wǎng)絡(luò)學(xué)習(xí)圖像特征,通過跳躍連接直接將輸入信息連接到后面的層,保證信息的完整性,加快訓(xùn)練的速度,提高檢索精度。

      2)使用迭代量化算法通過逼近真實數(shù)據(jù)與哈希碼之間最小的誤差,得到更好的投影矩陣,從而學(xué)習(xí)最優(yōu)的二進(jìn)制哈希碼,檢索效率高。

      3)在CIFAR-10、NUS-WIDE 和ImageNet 三個基準(zhǔn)數(shù)據(jù)集進(jìn)行了實驗,實驗結(jié)果表明DRITQH 方法的準(zhǔn)確性和有效性均較高,能更好地適應(yīng)大規(guī)模圖像檢索的要求。

      1 基于深度殘差網(wǎng)絡(luò)的迭代量化哈希圖像檢索模型的構(gòu)建

      1.1 深度殘差網(wǎng)絡(luò)

      從深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)開始,受到了He 等[24]提出的用于圖像分類的殘差網(wǎng)絡(luò)(Residual Network,ResNet)架構(gòu)的啟發(fā),該網(wǎng)絡(luò)結(jié)構(gòu)由卷積層、殘差層、全連接層和迭代量化哈希層組成,用于生成哈希碼。殘差網(wǎng)絡(luò)可以訓(xùn)練更深入的網(wǎng)絡(luò)架構(gòu),包括用跳躍連接來替換直接堆疊的層,直接將輸入信息跳躍連接到后面的層,保證了信息的完整性。圖1 顯示了該體系結(jié)構(gòu)的基本構(gòu)件,可以假設(shè)F(x) +x的等式具有跳躍連接[25]的前饋神經(jīng)網(wǎng)絡(luò),可以跳躍多個圖層,執(zhí)行恒等映射。恒等映射方式連接既不添加額外的參數(shù),也不增加計算復(fù)雜性,從而更好地實現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)整體架構(gòu)的性能。即使是在極深的網(wǎng)絡(luò)中,整個網(wǎng)絡(luò)仍然可以通過隨機(jī)梯度下降進(jìn)行端到端的反向傳播訓(xùn)練,恒等映射方式能有效緩解了梯度消失和梯度爆炸問題,并優(yōu)化了訓(xùn)練過程。

      圖1 殘差網(wǎng)絡(luò)基本構(gòu)件Fig.1 Basic component of residual network

      1.2 殘差網(wǎng)絡(luò)訓(xùn)練過程

      深度殘差網(wǎng)絡(luò)可以有效地提高神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度,描述符逐層發(fā)送,保證了輸出特征向量的表達(dá)能力,使用批歸一化和全局池化可以得到更好的泛化網(wǎng)絡(luò)。通過在輸入和輸出之間殘差學(xué)習(xí),保護(hù)信息的完整性,并簡化了學(xué)習(xí)目標(biāo)。如圖2 所示,ResNet-50 的網(wǎng)絡(luò)模型主要由16 個殘差塊組成,每個殘差塊包含3 個卷積層。首先是獨立的卷積層,然后是池化層,最后是不同的卷積殘差塊,每個卷積殘差塊包括多個卷積層與交叉層連接。

      圖2 ResNet-50的網(wǎng)絡(luò)架構(gòu)Fig.2 Network architectures for ResNet-50

      為了簡化訓(xùn)練的過程,本文的工作過程如下。首先,使用了遷移學(xué)習(xí)技術(shù),在大型ImageNet 數(shù)據(jù)集上保留預(yù)先訓(xùn)練的ResNet-50 并執(zhí)行微調(diào)階段。然后進(jìn)行微調(diào)階段,主要集中在數(shù)據(jù)的特征提取,訓(xùn)練網(wǎng)絡(luò)來表征數(shù)據(jù)并生成與檢索任務(wù)相關(guān)的特征向量。訓(xùn)練最后一個殘差塊來微調(diào)網(wǎng)絡(luò),利用微調(diào)網(wǎng)絡(luò)來提取深度映射。全局平均池層的輸出被認(rèn)為是每個輸入的相關(guān)判別特征,從數(shù)據(jù)集的每個圖像中提取特征向量,每張圖像都用一個特征向量表示。

      1.3 迭代量化算法

      ITQ 通過尋找最優(yōu)的正交矩陣Q,對這些樣本進(jìn)行量化,將漢明距離較小的樣本量化為不同的二值哈希碼。通過將樣本與隨機(jī)正交矩陣相乘,可以發(fā)現(xiàn)樣本被旋轉(zhuǎn)以找到最合適的正交矩陣,以一個小的漢明距離得到近似的哈希碼。為了使量化誤差損失最小,就是使真實樣本數(shù)據(jù)與哈希碼之間的誤差最小。

      首先輸入特征向量,為了找到具有最大方差且成對不相關(guān)的哈希碼,輸入數(shù)據(jù)X∈Rn×d,其中n是特征向量的個數(shù),d是特征向量的長度。在構(gòu)建目標(biāo)函數(shù)之前,首先減少特征的維度,提取主信息并減少訓(xùn)練時間。采用PCA 對提取的特征Kn進(jìn)行降維處理,設(shè)降維特征向量矩陣X∈Rn×d在維度之后被降低為KnX,使用PCA 的數(shù)據(jù)嵌入進(jìn)行投影。PCA 算法適用于數(shù)據(jù)點上,以最小化投影數(shù)據(jù)的量化誤差,提出了在多維數(shù)據(jù)集上學(xué)習(xí)到更優(yōu)的二進(jìn)制哈希碼的方法。如果W∈Rd×q為PCA 的系數(shù)矩陣,則

      整個編碼過程是:

      如果W是最優(yōu)解,那么WQ也是最優(yōu)解,其中Q是q×q的正交矩陣,因此投影數(shù)據(jù)XQ也轉(zhuǎn)換為正交矩陣。對投影矩陣進(jìn)行ITQ 正交變換,以減小量化誤差。

      假設(shè)v∈Xq是投影空間中的一個向量,sign(v)是超立方體{-1,1}q的一個頂點,對該頂點進(jìn)行二值化處理,q在漢明距離上接近v,量化損失是v與實際投影到二進(jìn)制超立方體{-1,1}q之間的差異。

      當(dāng)量化損失‖sign(v) -v‖2的數(shù)值越小,意味著二值化代碼矢量與以前越相似,所產(chǎn)生的二進(jìn)制代碼就更好,因此ITQ 旨在最大限度地減小以下量化損失,需要尋找正交旋轉(zhuǎn)矩陣,使得投影點最接近其二進(jìn)制量化。

      在這個迭代過程中,首先從式(3)中尋找給定的隨機(jī)初始化矩陣Q的最優(yōu)Y。一旦更新Y,就會更新Q正交矩陣,使得式(4)最小化。最小化目標(biāo)函數(shù)屬于正交普魯克問題,可以試圖找到一個最佳的旋轉(zhuǎn)來對其兩組點。固定Y,對Q進(jìn)行更新,旋轉(zhuǎn)一個矩陣來對齊矩陣Y和XWQ。通過奇異值分解(Singular Value Decomposition,SVD)找到解決方案,得到Y(jié)TXW=UΣVT,然后直接將Q更新為VUT,重復(fù)以上步驟可以找到最終的二進(jìn)制代碼Y。

      2 DRITQH圖像檢索過程

      基于深度殘差網(wǎng)絡(luò)的迭代量化哈希圖像檢索方法從深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)開始,采用ResNet-50 模型,如圖3 所示,由卷積層、殘差塊、全連接層用于特征提取,PCA 和ITQ用于生成哈希碼。這種設(shè)計選擇的主要是由于深度殘差網(wǎng)絡(luò)具有跳躍連接,從某一網(wǎng)絡(luò)層獲得激活信號,可以迅速反饋給另外一層或者好幾層,從而將信號傳遞到神經(jīng)網(wǎng)絡(luò)的更深層。深層的殘差網(wǎng)絡(luò)比普通卷積網(wǎng)絡(luò)更容易優(yōu)化,圖像的表示能力隨著網(wǎng)絡(luò)的深度不斷提高。在原有的ResNet-50 中引入了一種新的ITQ 的全連接哈希層來代替Softmax 分類層。全連接哈希層將從ResNet-50 提取的高維特征轉(zhuǎn)換為低維二進(jìn)制編碼。為了實現(xiàn)哈希編碼,引入了一個雙曲正切tanh(x)激活函數(shù),它將哈希層的輸出限制為[-1,1]。本文使用ResNet-50 提取圖像的特征向量,使用PCA 對特征向量進(jìn)行降維,然后使用迭代量化來最小化投影樣本和二值化樣本之間的量化損失。

      圖3 DRITQH的網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Network structure for DRITQH

      DRITQH 的檢索過程如圖4 所示,主要由3 部分組成:首先,使用深度殘差網(wǎng)絡(luò)的深層結(jié)構(gòu)對圖像數(shù)據(jù)進(jìn)行特征提取,獲得具有語義特征的高維向量;其次,使用PCA 進(jìn)行降維,運用迭代量化ITQ 的哈希學(xué)習(xí)方法對生成的特征向量進(jìn)行二值化處理,通過逼近真實數(shù)據(jù)與哈希碼之間的最小量化誤差,得到更好的投影矩陣;最后,進(jìn)行哈希學(xué)習(xí),生成有效的二進(jìn)制哈希碼。

      圖4 DRITQH圖像檢索過程Fig.4 DRITQH image retrieval process

      算法1 基于深度殘差網(wǎng)絡(luò)的迭代量化哈希圖像檢索方法。

      輸入n張圖像I={I1,I2,…,In},ResNet-50 測試樣本Z,迭代t,比特b。

      輸出 訓(xùn)練樣本和測試樣本的相似度。

      步驟1 生成n個d維特征向量X∈Rn×d。

      步驟2 PCA 降維為KnX。

      步驟3 使用Y=sign(XWQ)進(jìn)行編碼。

      步驟4 執(zhí)行迭代量化L(Y,Q)=‖Y-XWQ。

      步驟5 使用P=YQ測試樣本Z。

      步驟6 按照哈希碼測試樣本T=sign(P)。

      步驟7 生成緊湊的二進(jìn)制哈希碼,并計算漢明距離S=Dist(T,Z′)。

      3 實驗結(jié)果與分析

      在本章中,首先描述3 個基準(zhǔn)圖像數(shù)據(jù)集CIFAR-10[26]、NUS-WIDE[27]和ImageNet[28]的實驗設(shè)置;然后與10 種經(jīng)典的圖像檢索方法進(jìn)行了全面比較;最后對所提出的DRITQH 方法進(jìn)一步分析。為了全面評估本文方法和比較方法的檢索準(zhǔn)確性,使用了平均精度均值(mean Average Precision,mAP)和準(zhǔn)確率-召回率(Precision Recall,P-R)曲線作為實驗的度量標(biāo)準(zhǔn),使用漢明距離度量圖像之間的相似性。

      3.1 實驗數(shù)據(jù)集

      CIFAR-10[26]數(shù)據(jù)集包含來自10種類別的60 000 幅圖像,每類6 000 幅圖像,每個圖像僅屬于一個類別。在實驗中將50 000 幅圖像用做訓(xùn)練集,每類5 000 幅圖像,將10 000 幅圖像用于測試集。

      NUS-WIDE[27]包含從Flickr 收集的269 648 幅圖像,其中每幅圖像均由來自81 個語義類的一個或多個標(biāo)簽進(jìn)行注釋。在實驗中使用從21 個最常出現(xiàn)的語義標(biāo)簽中隨機(jī)選擇2 100 幅圖像作為測試集,其余圖像作為訓(xùn)練集。

      ImageNet[28]共包含約120萬幅圖像,實驗使用2012 年ISLVRC 公開的ImageNet 子集,隨機(jī)選擇其中100 個不同的類別,訓(xùn)練集為120 000 幅圖像,驗證集為50 000 幅圖像,用于測試集為10 000 幅圖像。

      3.2 評價指標(biāo)

      為了全面評估本文方法和比較方法的檢索準(zhǔn)確性,使用mAP 和P-R 曲線的標(biāo)準(zhǔn)度量指標(biāo)。準(zhǔn)確率(Precision)是指返回結(jié)果中相關(guān)圖像的數(shù)量與檢索的圖像總數(shù)的比率,反映檢索的準(zhǔn)確性;召回率(Recall)是指檢索到數(shù)據(jù)庫中相關(guān)圖像數(shù)量占總的相關(guān)圖像的比率,反映檢索的全面性;mAP 表示每個圖像檢索的平均精度得分的平均值,檢索得到的所有訓(xùn)練樣本的平均準(zhǔn)確率。首先計算每個查詢的平均精度(Average Precision,AP),并將AP 定義為:

      其中數(shù)據(jù)庫有n張圖像,與圖像xi相近的圖像有k個,rj是檢索到的前j個圖像中匹配的數(shù)量。對于P-R 曲線,顯示了每個測試圖像在一定召回率下的精度,繪制了所有測試圖像的所有檢索結(jié)果的總體P-R 曲線。

      3.3 相似性度量

      由于漢明距離的計算速度快,廣泛用于度量兩個二進(jìn)制碼之間的相似性。將漢明距離引入哈希學(xué)習(xí)中,通過異或操作和位計數(shù)指令,可以快速地執(zhí)行計算。在執(zhí)行二進(jìn)制量化后保留良好的配對相似性,從而進(jìn)一步減少了量化誤差。通過計算相同位數(shù)的哈希碼不同值的個數(shù),相似圖像的漢明距離越小,不同圖像的漢明距離越大。對于數(shù)據(jù)P=(p1,p2,…,pn),其中表示為k維的列向量,漢明距離定義公式如下:

      3.4 對比方法

      為了測試本文方法的有效性,在兩種廣泛使用的基準(zhǔn)數(shù)據(jù)集上驗證了DRITQH 方法的性能,與10 種經(jīng)典的哈希方法進(jìn)行了比較,大致將這些方法分為兩組:傳統(tǒng)的哈希方法和基于深度學(xué)習(xí)的哈希方法。傳統(tǒng)的哈希方法包括無監(jiān)督的哈希方法:譜哈希(Spectral Hashing,SH)[29]、ITQ[18]、局部敏感哈希(Locality Sensitive Hashing,LSH)[30]和監(jiān)督哈希方法:SDH[19]、核函數(shù)的監(jiān)督哈希(Supervised Hashing with Kernels,KSH)[31]?;谏疃葘W(xué)習(xí)的哈希方法包括深度平衡離散哈希(Deep Balanced Discrete Hashing,DBDH)[32]、DFH(Deep Fisher Hashing)[33]、CNNH[11]、IDHN[23]、DPN(Deep Polarized Network)[34]。

      1)SH[29]:譜哈希將圖分割問題聯(lián)系起來,通過對相似圖的拉普拉斯矩陣特征向量的子集設(shè)定閾值來計算二進(jìn)制代碼。

      2)ITQ[18]:迭代量化方法使用交替最小化方法,找到旋轉(zhuǎn)零中心數(shù)據(jù)的最佳方式,將映射的量化誤差最小化。

      3)LSH[30]:使用局部敏感哈希函數(shù)映射變換,隨機(jī)生成嵌入數(shù)據(jù)集合。

      4)SDH[19]:離散監(jiān)督哈希通過找到類標(biāo)簽與哈希碼的關(guān)系,采用非線性核函數(shù)構(gòu)建哈希模型,求得每個類的哈希碼,用離散法提升檢索精確度。

      5)KSH[31]:核函數(shù)監(jiān)督哈希利用漢明距離與哈希碼內(nèi)積之間的對應(yīng)關(guān)系來學(xué)習(xí)哈希函數(shù)。

      6)DBDH[32]:深度平衡離散哈希使用監(jiān)督信息直接指導(dǎo)離散編碼和深度特征學(xué)習(xí)過程。

      7)DFH[33]:采用線性判別分析最大化類之間的二進(jìn)制距離,同時最小化同一類內(nèi)圖像的二進(jìn)制距離。

      8)CNNH[11]:卷積神經(jīng)網(wǎng)絡(luò)哈希是首次將深度神經(jīng)網(wǎng)絡(luò)引入到哈希中的方法,在得到圖像特征向量的同時進(jìn)行哈希學(xué)習(xí)。

      9)IDHN[23]:改進(jìn)的深度哈希方法來增強(qiáng)多標(biāo)簽圖像檢索的能力,使用一對多標(biāo)簽圖像之間的細(xì)粒度相似性以進(jìn)行哈希學(xué)習(xí)。

      10)DPN[35]:用于學(xué)習(xí)哈希的新型深度極化網(wǎng)絡(luò),最小化偏振損失相當(dāng)于同時最小化內(nèi)部方差和最大化類間方差的漢明距離。

      3.5 實驗設(shè)置

      在實驗中,首先對基礎(chǔ)網(wǎng)絡(luò)進(jìn)行對比實驗,本文采用AlexNet、VGG、GoogleNet、ResNet-50 和ResNet-101 作為基準(zhǔn)方法,分別得到平均準(zhǔn)確率。實驗結(jié)果如圖5 所示,采用簡單的網(wǎng)絡(luò)(AlexNet、VGG 和GoogleNet)表現(xiàn)的檢索性能較低,ResNet-50 在圖像檢索算法中表現(xiàn)較好的性能,因此本文采用了性能較好的ResNet-50 網(wǎng)絡(luò)結(jié)構(gòu)作為特征提取框架。

      圖5 網(wǎng)絡(luò)模型在三個數(shù)據(jù)集上的mAP值Fig.5 mAP values of network models on three datasets

      實驗是通過Pytorch 框架實現(xiàn)的,ResNet-50 被用作本文的網(wǎng)絡(luò)骨干。在訓(xùn)練過程中,將批次大小設(shè)置為256,動量設(shè)置為0.9,重量衰減設(shè)置為5E-4,學(xué)習(xí)率為0.001,總共訓(xùn)練了150 個周期。

      3.6 實驗結(jié)果分析

      本文表示了DRITQH 方法和10 種不同哈希對比方法在CIFAR10、NUS-WIDE 和ImageNet 數(shù)據(jù)集上 具有不同長度(12 bit、24 bit、32 bit 和48 bit)的哈希碼圖像檢索性能的結(jié)果。如表1 所示,可以看到,與具有不同長度的哈希碼與其他方法相比,DRITQH 方法的精度具有一定的提高。CIFAR-10 數(shù)據(jù)集的結(jié)果表明,所提出的DRITQH 方法的性能顯著優(yōu)于其他所有方法。與傳統(tǒng)的哈希方法相比,DRITQH 使用殘差網(wǎng)絡(luò)提取圖像深層語義信息,對應(yīng)不同長度的哈希碼的檢索性能達(dá)到了78.9%、80.1%、82.2%和82.7%。此外,深度學(xué)習(xí)的哈希方法都比傳統(tǒng)的哈希方法的性能更好,特別是IDHN 基于深度學(xué)習(xí)的哈希方法,實現(xiàn)了所有基于深度學(xué)習(xí)的哈希方法中的較高檢索性能。與IDHN 相比,本文的DRITQH 方法對應(yīng)于不同長度的哈希代碼分別實現(xiàn)絕對提高4.5%、5.5%、5.4%和4.6%的平均精度。

      類似于其他哈希方法,本文對大規(guī)模圖像檢索進(jìn)行了實驗,對于NUS-WIDE 數(shù)據(jù)集,如果兩個圖像共享至少一個標(biāo)簽,則認(rèn)為它們屬于相同的類別。表1 實驗結(jié)果表明,所提出的DRITQH 方法優(yōu)于現(xiàn)有的傳統(tǒng)哈希方法,與經(jīng)典的基于深度學(xué)習(xí)的哈希方法相比,DRITQH 方法表現(xiàn)的性能略有提高。這些結(jié)果表明,本文的方法可以提高檢索性能。

      本文還對更具挑戰(zhàn)性的大規(guī)模ImageNet 數(shù)據(jù)集進(jìn)行實驗,將本文方法與其他方法進(jìn)行比較,結(jié)果顯示在表1 中,觀察到DRITQH 在除了12 bit 之外的其他所有比特位獲得了最佳性能,因為較短的代碼在大規(guī)模數(shù)據(jù)集中的圖像語義相似性差異較小,隨著代碼長度的增加,所提出的DRITQH 的性能提高比其他方法更明顯,檢索精度達(dá)到71.1%、76.3%、77.6%和78.1%,進(jìn)一步展示了本文所提出的方法的優(yōu)越性,也說明該方法適用于大規(guī)模的圖像檢索任務(wù)。

      表1 在三個數(shù)據(jù)集上不同哈希碼長度的mAP值Tab.1 mAP values of hash code with different lengths on three datasets

      在深度哈希方法中,本文的DRITQH 方法在大多數(shù)情況下都在3 個數(shù)據(jù)集上實現(xiàn)了最佳的檢索精度。如圖6 所示,本文的DRITQH 方法的性能通常隨著哈希碼長度的增加而提高,這是因為隨著哈希碼長度的增加,學(xué)習(xí)的圖像特征更加豐富,進(jìn)而提高了檢索精度。

      為了進(jìn)一步將DRITQH 與所有方法進(jìn)行比較,在3 個數(shù)據(jù)集哈希碼為32 bits 繪制了P-R 曲線。如圖7 所示,本文發(fā)現(xiàn)DRITQH 的P-R 曲線下的面積大于大多數(shù)情況下的比較方法,表明DRITQH 優(yōu)于比較方法,可以返回更多的語義相似得到圖像,主要原因是通過殘差網(wǎng)絡(luò)可以更好地挖掘圖像深層語義信息,具有更好的表示能力。由于傳統(tǒng)的哈希算法是通過低級語義信息生成哈希碼,而深度語義特征可以獲得更多的圖像信息。因此,由深層語義信息生成的哈希碼比低級語義信息的哈希碼更好,驗證了在深度學(xué)習(xí)中學(xué)習(xí)圖像表示的優(yōu)勢比使用手工圖像特征更有益于學(xué)習(xí)有效的二進(jìn)制哈希碼。

      圖7 三個數(shù)據(jù)集上在32 bit編碼下的查準(zhǔn)率、查全率和P-R曲線Fig.7 Precision,recall and P-R curves under 32 bit encoding on three datasets

      通過圖6(a)和6(b)可以觀察到,NUS-WIDE 數(shù)據(jù)集檢索性能比CIFAR-10 更好,因為圖像越復(fù)雜,網(wǎng)絡(luò)模型學(xué)習(xí)到的特征信息就越多,檢索的性能就更好;但I(xiàn)mageNet 數(shù)據(jù)集檢索性能卻有所偏低,主要是由于ImageNet 數(shù)據(jù)集數(shù)據(jù)量龐大,類別多,大規(guī)模數(shù)據(jù)集中的圖像語義相似性差異較小。結(jié)果表明兩點:1)驗證了深度學(xué)習(xí)中圖像特征表示比傳統(tǒng)手工提取的圖像特征能學(xué)習(xí)更有效的二進(jìn)制哈希碼,CNNH 比使用深度學(xué)習(xí)網(wǎng)絡(luò)提取特征的方法精度有所偏低,主要是由于CNNH 無法同時進(jìn)行圖像特征和哈希碼的學(xué)習(xí),但CNNH比傳統(tǒng)手工提取特征的哈希方法的性能又更好。2)DRITQH方法在3 個數(shù)據(jù)集的大多數(shù)情況下實現(xiàn)了最佳的檢索精度,檢索性能通常隨著長度的增加,每一種方法的檢索效果都有提高。在本文的方法中,利用了ResNet-50 模型的優(yōu)勢,提高了訓(xùn)練速度和生成了高質(zhì)量的特征向量,使用ITQ 算法將高維特征向量映射到低維空間并生成最優(yōu)的二進(jìn)制哈希碼,從而提高了圖像檢索的準(zhǔn)確率。

      圖6 DRITQH方法在三個數(shù)據(jù)集上對不同長度哈希碼的檢索精度Fig.6 Retrieval precision of DRITQH method for hash codes with different lengths on three datasets

      3.7 編碼時間分析

      除了檢索性能之外,本文還將所提出的DRITQH 方法在NUS-WIDE 數(shù)據(jù)集上的計算時間成本與其他方法進(jìn)行了比較?;诠5膱D像檢索過程通常由三部分組成:特征提取、哈希碼的生成和數(shù)據(jù)庫檢索。

      圖8 顯示了哈希方法的編碼時間,其結(jié)果是在整個測試集上訓(xùn)練得到的平均編碼時間。通常,當(dāng)僅考慮從模型輸入產(chǎn)生二進(jìn)制代碼,基于深度學(xué)習(xí)的方法比傳統(tǒng)方法較慢至少一個級別,然而考慮到特征提取時間,基于深度學(xué)習(xí)的方法比傳統(tǒng)的哈希方法快很多。此外,傳統(tǒng)的哈希方法通常需要幾種類型的特征來實現(xiàn)基于深度學(xué)習(xí)的方法的檢索性能,這進(jìn)一步減慢了整個編碼過程。DRITQH 方法和其他方法的時間成本比較可知,當(dāng)學(xué)習(xí)哈希函數(shù)時,哈希碼生成的時間成本和數(shù)據(jù)庫檢索時間成本是一個非??斓某朔ň仃嚕⑶沂褂脻h明距離可以通過異或操作快速地實現(xiàn),這表明哈希編碼時間主要取決于特征提取階段,包括網(wǎng)絡(luò)的大小,其中較大的網(wǎng)絡(luò)包含更多參數(shù),這需要更多時間完成特征提取。與IDHN 方法相比,DRITQH 平均編碼時間少1 717 μs。DRITQH 方法時間成本較低,使用殘差網(wǎng)絡(luò)學(xué)習(xí)圖像特征,通過跳躍連接直接將輸入信息連接到后面的層,保護(hù)信息的完整性,進(jìn)一步說明DRITQH 能有效加快訓(xùn)練速度。

      圖8 在NUS-WIDE數(shù)據(jù)集上編碼一個圖像的時間成本Fig.8 Time cost to encode one image on NUS-WIDE dataset

      4 結(jié)語

      針對圖像數(shù)據(jù)呈指數(shù)級增長,傳統(tǒng)的圖像檢索算法已無法滿足用戶精準(zhǔn)檢索圖像的要求。本文通過設(shè)計深度框架改進(jìn)哈希算法提高二進(jìn)制哈希碼,提出了基于深度殘差網(wǎng)絡(luò)的迭代量化哈希圖像檢索方法,通過ResNet-50 提取的特征向量作為ITQ 的輸入,進(jìn)行哈希學(xué)習(xí)并編碼。殘差網(wǎng)絡(luò)可以提高神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度,更好地提取圖像的深層語義特征,從而提高了ITQ 的性能,在較小的數(shù)據(jù)規(guī)模下實現(xiàn)更高的檢索準(zhǔn)確率。在3 個基準(zhǔn)數(shù)據(jù)集上的實驗結(jié)果表明,采用殘差網(wǎng)絡(luò)提取的特征向量作為ITQ 的輸入,可以學(xué)習(xí)更好的哈希碼,不僅提高了訓(xùn)練速度,還提高了檢索的準(zhǔn)確率,且可通過較小的碼長實現(xiàn)更高的檢索準(zhǔn)確性。本文方法與經(jīng)典的方法相比,提高了檢索精度和訓(xùn)練速度。由于DRITQH 是一種相對通用的哈希方法,它在信息檢索等其他任務(wù)中具有廣泛的潛在應(yīng)用,在未來,將致力于圖像檢索領(lǐng)域?qū)W習(xí)更好的量化圖像檢索方法。

      猜你喜歡
      二進(jìn)制哈希特征向量
      二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計——以特征值和特征向量為例
      克羅內(nèi)克積的特征向量
      用二進(jìn)制解一道高中數(shù)學(xué)聯(lián)賽數(shù)論題
      有趣的進(jìn)度
      二進(jìn)制在競賽題中的應(yīng)用
      一類特殊矩陣特征向量的求法
      EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗上的應(yīng)用
      基于OpenCV與均值哈希算法的人臉相似識別系統(tǒng)
      基于維度分解的哈希多維快速流分類算法
      基于同態(tài)哈希函數(shù)的云數(shù)據(jù)完整性驗證算法
      迁西县| 科技| 梁河县| 黄龙县| 中牟县| 余姚市| 弋阳县| 四川省| 宜宾县| 中宁县| 洛阳市| 区。| 太和县| 潜山县| 江陵县| 山阳县| 古田县| 威宁| 邳州市| 台湾省| 辰溪县| 安阳市| 通榆县| 神木县| 遂川县| 江津市| 四平市| 道真| 漳州市| 舒兰市| 安新县| 静安区| 乌鲁木齐市| 阿克陶县| 敦化市| 墨竹工卡县| 和静县| 萝北县| 盐边县| 西贡区| 香港|