基于深度殘差網(wǎng)絡(luò)的迭代量化哈希圖像檢索方法

2022-09-25 08:42:54廖列法李志明張賽賽

計算機(jī)應(yīng)用 2022年9期

廖列法，李志明，張賽賽

（江西理工大學(xué)信息工程學(xué)院，江西贛州 341000）

0 引言

近年來，隨著互聯(lián)網(wǎng)的興起，信息大量過載，圖像、文字、視頻等數(shù)據(jù)大量涌現(xiàn)。如何在龐大的圖像庫中方便、快速、準(zhǔn)確地查詢和檢索用戶所需的圖像，成為圖像檢索領(lǐng)域的研究熱點，圖像檢索技術(shù)可以應(yīng)對大數(shù)據(jù)時代不斷增長的圖像數(shù)據(jù)要求。經(jīng)過幾十年的發(fā)展，基于內(nèi)容的圖像檢索技術(shù)已經(jīng)廣泛應(yīng)用于人臉檢索［1］、商品圖像檢索［2］、服裝檢索［3］、醫(yī)學(xué)圖像檢索［4］等生活領(lǐng)域。

大規(guī)模圖像檢索問題存在緯度高、數(shù)據(jù)量大、計算耗時等問題。為了實現(xiàn)高效檢索，提出了一種近似最近鄰（Approximate Nearest Neighbor，ANN）算法［5］，根據(jù)特征向量的相似性，從圖像數(shù)據(jù)集中找到與目標(biāo)最近的圖像。哈希算法被廣泛應(yīng)用于圖像檢索［6］等相關(guān)領(lǐng)域，將圖像的高維特征映射為壓縮的二值哈希碼。由于漢明距離［7］的計算效率和存儲空間的優(yōu)勢，可以解決大規(guī)模圖像檢索中存儲空間和計算復(fù)雜度等問題。

由于哈希算法需要對數(shù)據(jù)進(jìn)行特征提取，再將特征向量映射為哈希碼，而深度學(xué)習(xí)［8］具有強(qiáng)大的特征學(xué)習(xí)能力，因此哈希算法逐漸開始利用深度學(xué)習(xí)進(jìn)行特征提取，于是衍生出一種新的方法——深度哈希學(xué)習(xí)［9］。深度哈希學(xué)習(xí)融合了哈希算法與深度學(xué)習(xí)技術(shù)，本質(zhì)是同時學(xué)習(xí)深度語義特征和哈希碼，通過利用深度學(xué)習(xí)的方法，不斷減小損失來訓(xùn)練神經(jīng)網(wǎng)絡(luò)，對輸入數(shù)據(jù)提取出高維特征，然后生成為緊湊的二進(jìn)制哈希碼。深度哈希方法的性能優(yōu)于傳統(tǒng)哈希方法［10］。卷積神經(jīng)網(wǎng)絡(luò)哈希（Convolutional Neural Network Hashing，CNNH）［11］首個將卷積神經(jīng)網(wǎng)絡(luò)運用到哈希算法中，但無法同時進(jìn)行特征學(xué)習(xí)和哈希碼學(xué)習(xí)；深度神經(jīng)網(wǎng)絡(luò)哈希（Deep Neural Network Hashing，DNNH）［12］是基于深度神經(jīng)網(wǎng)絡(luò)同時學(xué)習(xí)特征模塊和哈希編碼模塊，但特征學(xué)習(xí)的準(zhǔn)確性不夠高；雙線性卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)［13］使用集成網(wǎng)絡(luò)模型來獲得高維語義信息，學(xué)習(xí)了深度語義信息。為了解決特征學(xué)習(xí)不可避免地提高計算機(jī)的存儲容量，提出了深度殘差網(wǎng)絡(luò)哈希圖像檢索架構(gòu)［14］，以降低計算機(jī)的存儲容量，提高檢索效率。

在深度哈希算法的研究中，有效的語義信息提取非常重要。DeepBit［15］是哈希技術(shù)中的一種經(jīng)典方法，通過在哈希層添加損失函數(shù)訓(xùn)練深度哈希模型，以學(xué)習(xí)緊湊的二進(jìn)制哈希碼。在此基礎(chǔ)上，還提出了具有量化誤差約束的無監(jiān)督方法［16］，增加重構(gòu)損失以確保語義相似性。基于端到端的無監(jiān)督哈希算法［17］通過使用典型關(guān)聯(lián)分析-迭代量化（Canonical Correlation Analysis Iterative Quantization，CCA ITQ）方法生成偽標(biāo)記，將無監(jiān)督算法轉(zhuǎn)變?yōu)楸O(jiān)督算法。最小化量化誤差是學(xué)習(xí)哈希的另一個重要挑戰(zhàn)，迭代量化（Iterative Quantization，ITQ）［18］通過找到最佳旋轉(zhuǎn)矩陣將量化誤差最小化，離散監(jiān)督哈希（Discrete Supervised Hashing，SDH）［19］優(yōu)化了二進(jìn)制哈希碼，減小了量化誤差，深度監(jiān)督哈希（Deep Supervised Hashing，DSH）［20］通過施加一個正則化器來控制量化誤差，雙線性迭代量化（Bilinear Iterative Quantization，BITQ）［21］使用緊湊的雙線性投影將高維數(shù)據(jù)映射到兩個較小的投影矩陣中，分布式快速監(jiān)督離散哈希（Distributed Fast Supervised Discrete Hashing，DFSDH）［22］引入分布式框架共享集中式哈希學(xué)習(xí)模型，改進(jìn)深度哈希網(wǎng)絡(luò)（Improved Deep Hashing Network，IDHN）［23］引入了歸一化語義標(biāo)簽計算的成對量化相似度。

目前，哈希算法仍然存在以下問題：1）基于傳統(tǒng)的哈希算法研究主要基于手工標(biāo)記，制約了檢索的準(zhǔn)確性；2）雖然當(dāng)前的深度哈希算法能夠獲得更好的表示圖像特征向量，但算法的訓(xùn)練時間急劇增加；3）目前大多數(shù)哈希方法難以適應(yīng)大規(guī)模的圖像檢索要求。

基于上述考慮，為了提高圖像檢索的檢索準(zhǔn)確性和學(xué)習(xí)更優(yōu)的哈希碼，提出了基于深度殘差網(wǎng)絡(luò)的迭代量化哈希圖像檢索方法（Deep Residual Network and Iterative Quantization Hashing，DRITQH）。首先，使用深度殘差網(wǎng)絡(luò)提取圖像數(shù)據(jù)特征，獲得具有語義特征的高維特征向量；然后，使用主成分分析（Principal Component Analysis，PCA）對高維圖像特征進(jìn)行降維，運用迭代量化對生成的特征向量進(jìn)行二值化處理，更新旋轉(zhuǎn)矩陣，將數(shù)據(jù)映射到零中心二進(jìn)制超立方體進(jìn)行最小量化誤差，得到最佳的投影矩陣；最后，進(jìn)行哈希學(xué)習(xí)，得到最優(yōu)的二進(jìn)制哈希碼。DRITQH 使用深度殘差網(wǎng)絡(luò)，無需傳統(tǒng)手工標(biāo)注，提升了訓(xùn)練速度，縮短了訓(xùn)練時間，優(yōu)化了訓(xùn)練過程，解決了圖像表達(dá)能力較弱、大規(guī)模圖像檢索效率較低、難以適應(yīng)大規(guī)模圖像檢索的要求等問題。

因此，本文的主要內(nèi)容有以下3 點：

1）使用殘差網(wǎng)絡(luò)學(xué)習(xí)圖像特征，通過跳躍連接直接將輸入信息連接到后面的層，保證信息的完整性，加快訓(xùn)練的速度，提高檢索精度。

2）使用迭代量化算法通過逼近真實數(shù)據(jù)與哈希碼之間最小的誤差，得到更好的投影矩陣，從而學(xué)習(xí)最優(yōu)的二進(jìn)制哈希碼，檢索效率高。

3）在CIFAR-10、NUS-WIDE 和ImageNet 三個基準(zhǔn)數(shù)據(jù)集進(jìn)行了實驗，實驗結(jié)果表明DRITQH 方法的準(zhǔn)確性和有效性均較高，能更好地適應(yīng)大規(guī)模圖像檢索的要求。

1 基于深度殘差網(wǎng)絡(luò)的迭代量化哈希圖像檢索模型的構(gòu)建

1.1 深度殘差網(wǎng)絡(luò)

從深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)開始，受到了He 等［24］提出的用于圖像分類的殘差網(wǎng)絡(luò)（Residual Network，ResNet）架構(gòu)的啟發(fā)，該網(wǎng)絡(luò)結(jié)構(gòu)由卷積層、殘差層、全連接層和迭代量化哈希層組成，用于生成哈希碼。殘差網(wǎng)絡(luò)可以訓(xùn)練更深入的網(wǎng)絡(luò)架構(gòu)，包括用跳躍連接來替換直接堆疊的層，直接將輸入信息跳躍連接到后面的層，保證了信息的完整性。圖1 顯示了該體系結(jié)構(gòu)的基本構(gòu)件，可以假設(shè)F(x) +x的等式具有跳躍連接［25］的前饋神經(jīng)網(wǎng)絡(luò)，可以跳躍多個圖層，執(zhí)行恒等映射。恒等映射方式連接既不添加額外的參數(shù)，也不增加計算復(fù)雜性，從而更好地實現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)整體架構(gòu)的性能。即使是在極深的網(wǎng)絡(luò)中，整個網(wǎng)絡(luò)仍然可以通過隨機(jī)梯度下降進(jìn)行端到端的反向傳播訓(xùn)練，恒等映射方式能有效緩解了梯度消失和梯度爆炸問題，并優(yōu)化了訓(xùn)練過程。

圖1 殘差網(wǎng)絡(luò)基本構(gòu)件Fig.1 Basic component of residual network

1.2 殘差網(wǎng)絡(luò)訓(xùn)練過程

深度殘差網(wǎng)絡(luò)可以有效地提高神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度，描述符逐層發(fā)送，保證了輸出特征向量的表達(dá)能力，使用批歸一化和全局池化可以得到更好的泛化網(wǎng)絡(luò)。通過在輸入和輸出之間殘差學(xué)習(xí)，保護(hù)信息的完整性，并簡化了學(xué)習(xí)目標(biāo)。如圖2 所示，ResNet-50 的網(wǎng)絡(luò)模型主要由16 個殘差塊組成，每個殘差塊包含3 個卷積層。首先是獨立的卷積層，然后是池化層，最后是不同的卷積殘差塊，每個卷積殘差塊包括多個卷積層與交叉層連接。

圖2 ResNet-50的網(wǎng)絡(luò)架構(gòu)Fig.2 Network architectures for ResNet-50

為了簡化訓(xùn)練的過程，本文的工作過程如下。首先，使用了遷移學(xué)習(xí)技術(shù)，在大型ImageNet 數(shù)據(jù)集上保留預(yù)先訓(xùn)練的ResNet-50 并執(zhí)行微調(diào)階段。然后進(jìn)行微調(diào)階段，主要集中在數(shù)據(jù)的特征提取，訓(xùn)練網(wǎng)絡(luò)來表征數(shù)據(jù)并生成與檢索任務(wù)相關(guān)的特征向量。訓(xùn)練最后一個殘差塊來微調(diào)網(wǎng)絡(luò)，利用微調(diào)網(wǎng)絡(luò)來提取深度映射。全局平均池層的輸出被認(rèn)為是每個輸入的相關(guān)判別特征，從數(shù)據(jù)集的每個圖像中提取特征向量，每張圖像都用一個特征向量表示。

1.3 迭代量化算法

ITQ 通過尋找最優(yōu)的正交矩陣Q，對這些樣本進(jìn)行量化，將漢明距離較小的樣本量化為不同的二值哈希碼。通過將樣本與隨機(jī)正交矩陣相乘，可以發(fā)現(xiàn)樣本被旋轉(zhuǎn)以找到最合適的正交矩陣，以一個小的漢明距離得到近似的哈希碼。為了使量化誤差損失最小，就是使真實樣本數(shù)據(jù)與哈希碼之間的誤差最小。

首先輸入特征向量，為了找到具有最大方差且成對不相關(guān)的哈希碼，輸入數(shù)據(jù)X∈Rn×d，其中n是特征向量的個數(shù)，d是特征向量的長度。在構(gòu)建目標(biāo)函數(shù)之前，首先減少特征的維度，提取主信息并減少訓(xùn)練時間。采用PCA 對提取的特征Kn進(jìn)行降維處理，設(shè)降維特征向量矩陣X∈Rn×d在維度之后被降低為KnX，使用PCA 的數(shù)據(jù)嵌入進(jìn)行投影。PCA 算法適用于數(shù)據(jù)點上，以最小化投影數(shù)據(jù)的量化誤差，提出了在多維數(shù)據(jù)集上學(xué)習(xí)到更優(yōu)的二進(jìn)制哈希碼的方法。如果W∈Rd×q為PCA 的系數(shù)矩陣，則

整個編碼過程是：

如果W是最優(yōu)解，那么WQ也是最優(yōu)解，其中Q是q×q的正交矩陣，因此投影數(shù)據(jù)XQ也轉(zhuǎn)換為正交矩陣。對投影矩陣進(jìn)行ITQ 正交變換，以減小量化誤差。

假設(shè)v∈Xq是投影空間中的一個向量，sign(v)是超立方體{-1，1}q的一個頂點，對該頂點進(jìn)行二值化處理，q在漢明距離上接近v，量化損失是v與實際投影到二進(jìn)制超立方體{-1，1}q之間的差異。

當(dāng)量化損失‖sign(v) -v‖2的數(shù)值越小，意味著二值化代碼矢量與以前越相似，所產(chǎn)生的二進(jìn)制代碼就更好，因此ITQ 旨在最大限度地減小以下量化損失，需要尋找正交旋轉(zhuǎn)矩陣，使得投影點最接近其二進(jìn)制量化。

在這個迭代過程中，首先從式（3）中尋找給定的隨機(jī)初始化矩陣Q的最優(yōu)Y。一旦更新Y，就會更新Q正交矩陣，使得式（4）最小化。最小化目標(biāo)函數(shù)屬于正交普魯克問題，可以試圖找到一個最佳的旋轉(zhuǎn)來對其兩組點。固定Y，對Q進(jìn)行更新，旋轉(zhuǎn)一個矩陣來對齊矩陣Y和XWQ。通過奇異值分解（Singular Value Decomposition，SVD）找到解決方案，得到Y(jié)TXW=UΣVT，然后直接將Q更新為VUT，重復(fù)以上步驟可以找到最終的二進(jìn)制代碼Y。

2 DRITQH圖像檢索過程

基于深度殘差網(wǎng)絡(luò)的迭代量化哈希圖像檢索方法從深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)開始，采用ResNet-50 模型，如圖3 所示，由卷積層、殘差塊、全連接層用于特征提取，PCA 和ITQ用于生成哈希碼。這種設(shè)計選擇的主要是由于深度殘差網(wǎng)絡(luò)具有跳躍連接，從某一網(wǎng)絡(luò)層獲得激活信號，可以迅速反饋給另外一層或者好幾層，從而將信號傳遞到神經(jīng)網(wǎng)絡(luò)的更深層。深層的殘差網(wǎng)絡(luò)比普通卷積網(wǎng)絡(luò)更容易優(yōu)化，圖像的表示能力隨著網(wǎng)絡(luò)的深度不斷提高。在原有的ResNet-50 中引入了一種新的ITQ 的全連接哈希層來代替Softmax 分類層。全連接哈希層將從ResNet-50 提取的高維特征轉(zhuǎn)換為低維二進(jìn)制編碼。為了實現(xiàn)哈希編碼，引入了一個雙曲正切tanh(x)激活函數(shù)，它將哈希層的輸出限制為[-1，1]。本文使用ResNet-50 提取圖像的特征向量，使用PCA 對特征向量進(jìn)行降維，然后使用迭代量化來最小化投影樣本和二值化樣本之間的量化損失。

圖3 DRITQH的網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Network structure for DRITQH

DRITQH 的檢索過程如圖4 所示，主要由3 部分組成：首先，使用深度殘差網(wǎng)絡(luò)的深層結(jié)構(gòu)對圖像數(shù)據(jù)進(jìn)行特征提取，獲得具有語義特征的高維向量；其次，使用PCA 進(jìn)行降維，運用迭代量化ITQ 的哈希學(xué)習(xí)方法對生成的特征向量進(jìn)行二值化處理，通過逼近真實數(shù)據(jù)與哈希碼之間的最小量化誤差，得到更好的投影矩陣；最后，進(jìn)行哈希學(xué)習(xí)，生成有效的二進(jìn)制哈希碼。

圖4 DRITQH圖像檢索過程Fig.4 DRITQH image retrieval process

算法1 基于深度殘差網(wǎng)絡(luò)的迭代量化哈希圖像檢索方法。

輸入n張圖像I={I1，I2，…，In}，ResNet-50 測試樣本Z，迭代t，比特b。

輸出訓(xùn)練樣本和測試樣本的相似度。

步驟1 生成n個d維特征向量X∈Rn×d。

步驟2 PCA 降維為KnX。

步驟3 使用Y=sign(XWQ)進(jìn)行編碼。

步驟4 執(zhí)行迭代量化L(Y，Q)=‖Y-XWQ。

步驟5 使用P=YQ測試樣本Z。

步驟6 按照哈希碼測試樣本T=sign(P)。

步驟7 生成緊湊的二進(jìn)制哈希碼，并計算漢明距離S=Dist(T，Z′)。

3 實驗結(jié)果與分析

在本章中，首先描述3 個基準(zhǔn)圖像數(shù)據(jù)集CIFAR-10［26］、NUS-WIDE［27］和ImageNet［28］的實驗設(shè)置；然后與10 種經(jīng)典的圖像檢索方法進(jìn)行了全面比較；最后對所提出的DRITQH 方法進(jìn)一步分析。為了全面評估本文方法和比較方法的檢索準(zhǔn)確性，使用了平均精度均值（mean Average Precision，mAP）和準(zhǔn)確率-召回率（Precision Recall，P-R）曲線作為實驗的度量標(biāo)準(zhǔn)，使用漢明距離度量圖像之間的相似性。

3.1 實驗數(shù)據(jù)集

CIFAR-10［26］數(shù)據(jù)集包含來自10種類別的60 000 幅圖像，每類6 000 幅圖像，每個圖像僅屬于一個類別。在實驗中將50 000 幅圖像用做訓(xùn)練集，每類5 000 幅圖像，將10 000 幅圖像用于測試集。

NUS-WIDE［27］包含從Flickr 收集的269 648 幅圖像，其中每幅圖像均由來自81 個語義類的一個或多個標(biāo)簽進(jìn)行注釋。在實驗中使用從21 個最常出現(xiàn)的語義標(biāo)簽中隨機(jī)選擇2 100 幅圖像作為測試集，其余圖像作為訓(xùn)練集。

ImageNet［28］共包含約120萬幅圖像，實驗使用2012 年ISLVRC 公開的ImageNet 子集，隨機(jī)選擇其中100 個不同的類別，訓(xùn)練集為120 000 幅圖像，驗證集為50 000 幅圖像，用于測試集為10 000 幅圖像。

3.2 評價指標(biāo)

為了全面評估本文方法和比較方法的檢索準(zhǔn)確性，使用mAP 和P-R 曲線的標(biāo)準(zhǔn)度量指標(biāo)。準(zhǔn)確率（Precision）是指返回結(jié)果中相關(guān)圖像的數(shù)量與檢索的圖像總數(shù)的比率，反映檢索的準(zhǔn)確性；召回率（Recall）是指檢索到數(shù)據(jù)庫中相關(guān)圖像數(shù)量占總的相關(guān)圖像的比率，反映檢索的全面性；mAP 表示每個圖像檢索的平均精度得分的平均值，檢索得到的所有訓(xùn)練樣本的平均準(zhǔn)確率。首先計算每個查詢的平均精度（Average Precision，AP），并將AP 定義為：

其中數(shù)據(jù)庫有n張圖像，與圖像xi相近的圖像有k個，rj是檢索到的前j個圖像中匹配的數(shù)量。對于P-R 曲線，顯示了每個測試圖像在一定召回率下的精度，繪制了所有測試圖像的所有檢索結(jié)果的總體P-R 曲線。

3.3 相似性度量

由于漢明距離的計算速度快，廣泛用于度量兩個二進(jìn)制碼之間的相似性。將漢明距離引入哈希學(xué)習(xí)中，通過異或操作和位計數(shù)指令，可以快速地執(zhí)行計算。在執(zhí)行二進(jìn)制量化后保留良好的配對相似性，從而進(jìn)一步減少了量化誤差。通過計算相同位數(shù)的哈希碼不同值的個數(shù)，相似圖像的漢明距離越小，不同圖像的漢明距離越大。對于數(shù)據(jù)P=(p1，p2，…，pn)，其中表示為k維的列向量，漢明距離定義公式如下：

3.4 對比方法

為了測試本文方法的有效性，在兩種廣泛使用的基準(zhǔn)數(shù)據(jù)集上驗證了DRITQH 方法的性能，與10 種經(jīng)典的哈希方法進(jìn)行了比較，大致將這些方法分為兩組：傳統(tǒng)的哈希方法和基于深度學(xué)習(xí)的哈希方法。傳統(tǒng)的哈希方法包括無監(jiān)督的哈希方法：譜哈希（Spectral Hashing，SH）［29］、ITQ［18］、局部敏感哈希（Locality Sensitive Hashing，LSH）［30］和監(jiān)督哈希方法：SDH［19］、核函數(shù)的監(jiān)督哈希（Supervised Hashing with Kernels，KSH）［31］?；谏疃葘W(xué)習(xí)的哈希方法包括深度平衡離散哈希（Deep Balanced Discrete Hashing，DBDH）［32］、DFH（Deep Fisher Hashing）［33］、CNNH［11］、IDHN［23］、DPN（Deep Polarized Network）［34］。

1）SH［29］：譜哈希將圖分割問題聯(lián)系起來，通過對相似圖的拉普拉斯矩陣特征向量的子集設(shè)定閾值來計算二進(jìn)制代碼。

2）ITQ［18］：迭代量化方法使用交替最小化方法，找到旋轉(zhuǎn)零中心數(shù)據(jù)的最佳方式，將映射的量化誤差最小化。

3）LSH［30］：使用局部敏感哈希函數(shù)映射變換，隨機(jī)生成嵌入數(shù)據(jù)集合。

4）SDH［19］：離散監(jiān)督哈希通過找到類標(biāo)簽與哈希碼的關(guān)系，采用非線性核函數(shù)構(gòu)建哈希模型，求得每個類的哈希碼，用離散法提升檢索精確度。

5）KSH［31］：核函數(shù)監(jiān)督哈希利用漢明距離與哈希碼內(nèi)積之間的對應(yīng)關(guān)系來學(xué)習(xí)哈希函數(shù)。

6）DBDH［32］：深度平衡離散哈希使用監(jiān)督信息直接指導(dǎo)離散編碼和深度特征學(xué)習(xí)過程。

7）DFH［33］：采用線性判別分析最大化類之間的二進(jìn)制距離，同時最小化同一類內(nèi)圖像的二進(jìn)制距離。

8）CNNH［11］：卷積神經(jīng)網(wǎng)絡(luò)哈希是首次將深度神經(jīng)網(wǎng)絡(luò)引入到哈希中的方法，在得到圖像特征向量的同時進(jìn)行哈希學(xué)習(xí)。

9）IDHN［23］：改進(jìn)的深度哈希方法來增強(qiáng)多標(biāo)簽圖像檢索的能力，使用一對多標(biāo)簽圖像之間的細(xì)粒度相似性以進(jìn)行哈希學(xué)習(xí)。

10）DPN［35］：用于學(xué)習(xí)哈希的新型深度極化網(wǎng)絡(luò)，最小化偏振損失相當(dāng)于同時最小化內(nèi)部方差和最大化類間方差的漢明距離。

3.5 實驗設(shè)置

在實驗中，首先對基礎(chǔ)網(wǎng)絡(luò)進(jìn)行對比實驗，本文采用AlexNet、VGG、GoogleNet、ResNet-50 和ResNet-101 作為基準(zhǔn)方法，分別得到平均準(zhǔn)確率。實驗結(jié)果如圖5 所示，采用簡單的網(wǎng)絡(luò)（AlexNet、VGG 和GoogleNet）表現(xiàn)的檢索性能較低，ResNet-50 在圖像檢索算法中表現(xiàn)較好的性能，因此本文采用了性能較好的ResNet-50 網(wǎng)絡(luò)結(jié)構(gòu)作為特征提取框架。

圖5 網(wǎng)絡(luò)模型在三個數(shù)據(jù)集上的mAP值Fig.5 mAP values of network models on three datasets

實驗是通過Pytorch 框架實現(xiàn)的，ResNet-50 被用作本文的網(wǎng)絡(luò)骨干。在訓(xùn)練過程中，將批次大小設(shè)置為256，動量設(shè)置為0.9，重量衰減設(shè)置為5E-4，學(xué)習(xí)率為0.001，總共訓(xùn)練了150 個周期。

3.6 實驗結(jié)果分析

本文表示了DRITQH 方法和10 種不同哈希對比方法在CIFAR10、NUS-WIDE 和ImageNet 數(shù)據(jù)集上具有不同長度（12 bit、24 bit、32 bit 和48 bit）的哈希碼圖像檢索性能的結(jié)果。如表1 所示，可以看到，與具有不同長度的哈希碼與其他方法相比，DRITQH 方法的精度具有一定的提高。CIFAR-10 數(shù)據(jù)集的結(jié)果表明，所提出的DRITQH 方法的性能顯著優(yōu)于其他所有方法。與傳統(tǒng)的哈希方法相比，DRITQH 使用殘差網(wǎng)絡(luò)提取圖像深層語義信息，對應(yīng)不同長度的哈希碼的檢索性能達(dá)到了78.9%、80.1%、82.2%和82.7%。此外，深度學(xué)習(xí)的哈希方法都比傳統(tǒng)的哈希方法的性能更好，特別是IDHN 基于深度學(xué)習(xí)的哈希方法，實現(xiàn)了所有基于深度學(xué)習(xí)的哈希方法中的較高檢索性能。與IDHN 相比，本文的DRITQH 方法對應(yīng)于不同長度的哈希代碼分別實現(xiàn)絕對提高4.5%、5.5%、5.4%和4.6%的平均精度。

類似于其他哈希方法，本文對大規(guī)模圖像檢索進(jìn)行了實驗，對于NUS-WIDE 數(shù)據(jù)集，如果兩個圖像共享至少一個標(biāo)簽，則認(rèn)為它們屬于相同的類別。表1 實驗結(jié)果表明，所提出的DRITQH 方法優(yōu)于現(xiàn)有的傳統(tǒng)哈希方法，與經(jīng)典的基于深度學(xué)習(xí)的哈希方法相比，DRITQH 方法表現(xiàn)的性能略有提高。這些結(jié)果表明，本文的方法可以提高檢索性能。

本文還對更具挑戰(zhàn)性的大規(guī)模ImageNet 數(shù)據(jù)集進(jìn)行實驗，將本文方法與其他方法進(jìn)行比較，結(jié)果顯示在表1 中，觀察到DRITQH 在除了12 bit 之外的其他所有比特位獲得了最佳性能，因為較短的代碼在大規(guī)模數(shù)據(jù)集中的圖像語義相似性差異較小，隨著代碼長度的增加，所提出的DRITQH 的性能提高比其他方法更明顯，檢索精度達(dá)到71.1%、76.3%、77.6%和78.1%，進(jìn)一步展示了本文所提出的方法的優(yōu)越性，也說明該方法適用于大規(guī)模的圖像檢索任務(wù)。

表1 在三個數(shù)據(jù)集上不同哈希碼長度的mAP值Tab.1 mAP values of hash code with different lengths on three datasets

在深度哈希方法中，本文的DRITQH 方法在大多數(shù)情況下都在3 個數(shù)據(jù)集上實現(xiàn)了最佳的檢索精度。如圖6 所示，本文的DRITQH 方法的性能通常隨著哈希碼長度的增加而提高，這是因為隨著哈希碼長度的增加，學(xué)習(xí)的圖像特征更加豐富，進(jìn)而提高了檢索精度。

為了進(jìn)一步將DRITQH 與所有方法進(jìn)行比較，在3 個數(shù)據(jù)集哈希碼為32 bits 繪制了P-R 曲線。如圖7 所示，本文發(fā)現(xiàn)DRITQH 的P-R 曲線下的面積大于大多數(shù)情況下的比較方法，表明DRITQH 優(yōu)于比較方法，可以返回更多的語義相似得到圖像，主要原因是通過殘差網(wǎng)絡(luò)可以更好地挖掘圖像深層語義信息，具有更好的表示能力。由于傳統(tǒng)的哈希算法是通過低級語義信息生成哈希碼，而深度語義特征可以獲得更多的圖像信息。因此，由深層語義信息生成的哈希碼比低級語義信息的哈希碼更好，驗證了在深度學(xué)習(xí)中學(xué)習(xí)圖像表示的優(yōu)勢比使用手工圖像特征更有益于學(xué)習(xí)有效的二進(jìn)制哈希碼。

圖7 三個數(shù)據(jù)集上在32 bit編碼下的查準(zhǔn)率、查全率和P-R曲線Fig.7 Precision，recall and P-R curves under 32 bit encoding on three datasets

通過圖6（a）和6（b）可以觀察到，NUS-WIDE 數(shù)據(jù)集檢索性能比CIFAR-10 更好，因為圖像越復(fù)雜，網(wǎng)絡(luò)模型學(xué)習(xí)到的特征信息就越多，檢索的性能就更好；但I(xiàn)mageNet 數(shù)據(jù)集檢索性能卻有所偏低，主要是由于ImageNet 數(shù)據(jù)集數(shù)據(jù)量龐大，類別多，大規(guī)模數(shù)據(jù)集中的圖像語義相似性差異較小。結(jié)果表明兩點：1）驗證了深度學(xué)習(xí)中圖像特征表示比傳統(tǒng)手工提取的圖像特征能學(xué)習(xí)更有效的二進(jìn)制哈希碼，CNNH 比使用深度學(xué)習(xí)網(wǎng)絡(luò)提取特征的方法精度有所偏低，主要是由于CNNH 無法同時進(jìn)行圖像特征和哈希碼的學(xué)習(xí)，但CNNH比傳統(tǒng)手工提取特征的哈希方法的性能又更好。2）DRITQH方法在3 個數(shù)據(jù)集的大多數(shù)情況下實現(xiàn)了最佳的檢索精度，檢索性能通常隨著長度的增加，每一種方法的檢索效果都有提高。在本文的方法中，利用了ResNet-50 模型的優(yōu)勢，提高了訓(xùn)練速度和生成了高質(zhì)量的特征向量，使用ITQ 算法將高維特征向量映射到低維空間并生成最優(yōu)的二進(jìn)制哈希碼，從而提高了圖像檢索的準(zhǔn)確率。

圖6 DRITQH方法在三個數(shù)據(jù)集上對不同長度哈希碼的檢索精度Fig.6 Retrieval precision of DRITQH method for hash codes with different lengths on three datasets

3.7 編碼時間分析

除了檢索性能之外，本文還將所提出的DRITQH 方法在NUS-WIDE 數(shù)據(jù)集上的計算時間成本與其他方法進(jìn)行了比較?；诠５膱D像檢索過程通常由三部分組成：特征提取、哈希碼的生成和數(shù)據(jù)庫檢索。

圖8 顯示了哈希方法的編碼時間，其結(jié)果是在整個測試集上訓(xùn)練得到的平均編碼時間。通常，當(dāng)僅考慮從模型輸入產(chǎn)生二進(jìn)制代碼，基于深度學(xué)習(xí)的方法比傳統(tǒng)方法較慢至少一個級別，然而考慮到特征提取時間，基于深度學(xué)習(xí)的方法比傳統(tǒng)的哈希方法快很多。此外，傳統(tǒng)的哈希方法通常需要幾種類型的特征來實現(xiàn)基于深度學(xué)習(xí)的方法的檢索性能，這進(jìn)一步減慢了整個編碼過程。DRITQH 方法和其他方法的時間成本比較可知，當(dāng)學(xué)習(xí)哈希函數(shù)時，哈希碼生成的時間成本和數(shù)據(jù)庫檢索時間成本是一個非?？斓某朔ň仃嚕⑶沂褂脻h明距離可以通過異或操作快速地實現(xiàn)，這表明哈希編碼時間主要取決于特征提取階段，包括網(wǎng)絡(luò)的大小，其中較大的網(wǎng)絡(luò)包含更多參數(shù)，這需要更多時間完成特征提取。與IDHN 方法相比，DRITQH 平均編碼時間少1 717 μs。DRITQH 方法時間成本較低，使用殘差網(wǎng)絡(luò)學(xué)習(xí)圖像特征，通過跳躍連接直接將輸入信息連接到后面的層，保護(hù)信息的完整性，進(jìn)一步說明DRITQH 能有效加快訓(xùn)練速度。

圖8 在NUS-WIDE數(shù)據(jù)集上編碼一個圖像的時間成本Fig.8 Time cost to encode one image on NUS-WIDE dataset

4 結(jié)語

針對圖像數(shù)據(jù)呈指數(shù)級增長，傳統(tǒng)的圖像檢索算法已無法滿足用戶精準(zhǔn)檢索圖像的要求。本文通過設(shè)計深度框架改進(jìn)哈希算法提高二進(jìn)制哈希碼，提出了基于深度殘差網(wǎng)絡(luò)的迭代量化哈希圖像檢索方法，通過ResNet-50 提取的特征向量作為ITQ 的輸入，進(jìn)行哈希學(xué)習(xí)并編碼。殘差網(wǎng)絡(luò)可以提高神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度，更好地提取圖像的深層語義特征，從而提高了ITQ 的性能，在較小的數(shù)據(jù)規(guī)模下實現(xiàn)更高的檢索準(zhǔn)確率。在3 個基準(zhǔn)數(shù)據(jù)集上的實驗結(jié)果表明，采用殘差網(wǎng)絡(luò)提取的特征向量作為ITQ 的輸入，可以學(xué)習(xí)更好的哈希碼，不僅提高了訓(xùn)練速度，還提高了檢索的準(zhǔn)確率，且可通過較小的碼長實現(xiàn)更高的檢索準(zhǔn)確性。本文方法與經(jīng)典的方法相比，提高了檢索精度和訓(xùn)練速度。由于DRITQH 是一種相對通用的哈希方法，它在信息檢索等其他任務(wù)中具有廣泛的潛在應(yīng)用，在未來，將致力于圖像檢索領(lǐng)域?qū)W習(xí)更好的量化圖像檢索方法。