李 雪,于 炯,李梓楊,陳嘉穎,蒲勇霖
(1.新疆大學(xué) 軟件學(xué)院,新疆 烏魯木齊 830008;2.新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046;3.新疆大學(xué) 軟件工程技術(shù)重點(diǎn)實(shí)驗(yàn)室,新疆 烏魯木齊 830008)
隨著基于內(nèi)容的圖像檢索技術(shù)逐步替代早期基于文本的圖像檢索技術(shù),有限的時(shí)間和計(jì)算資源將挑戰(zhàn)也轉(zhuǎn)向優(yōu)化存儲(chǔ)消耗和檢索速度這兩方面[1,2]。近似最近鄰檢索作為數(shù)據(jù)檢索中使用最為廣泛的技術(shù),其中最受歡迎的一類方法是哈希方法,該方法將高維圖像映射成固定長度的散列值并保持原始空間中的相似性,在內(nèi)存消耗和檢索速度方面有著明顯優(yōu)勢(shì),因此被廣泛應(yīng)用于公安系統(tǒng)、數(shù)字圖書館、搜索引擎等相關(guān)工業(yè)中[3]。目前的哈希檢索方法存在標(biāo)簽語義利用不充分、哈希碼離散優(yōu)化松弛、卷積神經(jīng)網(wǎng)絡(luò)模型照搬套用等缺點(diǎn),這些制約因素限制了大規(guī)模圖像檢索的發(fā)展的腳步。為了解決上述問題,本文提出基于成對(duì)標(biāo)簽的深度哈希圖像檢索方法(deep pairwise hashing with binary restricted,DPHB),與之前單純采用相似或不相似的標(biāo)簽的方法相比,能夠深度挖掘豐富的圖像間的內(nèi)在聯(lián)系,生成具有強(qiáng)判別力的哈希碼,有效解決了二值碼離散優(yōu)化問題,使得標(biāo)簽所表達(dá)的語義更豐富,特征學(xué)習(xí)過程中語義損失更明顯。
由于早期的媒體圖像數(shù)量有限,哈希方法的發(fā)展受到圖像數(shù)量的制約,如局部敏感哈希[4](locality sensitive hashing,LSH),采用隨機(jī)投影對(duì)特征空間進(jìn)行劃分,增大原始空間中相鄰的點(diǎn)被劃分到相同桶內(nèi)的概率,實(shí)驗(yàn)結(jié)果表明這類不依賴數(shù)據(jù)的方法的有效性與哈希碼的長度正相關(guān)。學(xué)者們提出了一系列依賴數(shù)據(jù)的哈希算法來生成更加緊湊的哈希碼,按照訓(xùn)練數(shù)據(jù)是否帶有人工標(biāo)簽分為有監(jiān)督方法和無監(jiān)督方法兩大類。
譜哈希[5](spectral hashing,SH)和迭代量化哈希[6](iterative quantization,ITQ)是兩種較為經(jīng)典的無監(jiān)督方法,前者通過學(xué)習(xí)原始空間中樣本對(duì)之間的相似度得到哈希函數(shù),后者采用主成分分析方法,將投影后的二進(jìn)制碼進(jìn)行正交變換,以最終得到的主成分作為哈希函數(shù)。
監(jiān)督離散哈希[7](supervised discrete hashing,SDH)和核監(jiān)督哈希[8](kernel supervised hashing,KSH)是有監(jiān)督方法中較為經(jīng)典的兩種方法,前者使用最小二乘回歸和傳統(tǒng)的類標(biāo)簽信息固定回歸目標(biāo),后者提出在核空間處理數(shù)據(jù)線性不可分問題,學(xué)習(xí)非線性的哈希函數(shù)。
盡管上述方法在圖像檢索精度上有一定提升,但是文本標(biāo)注無法描述圖像的深層語義信息且存在主觀性,為了突破這個(gè)困境,研究者們提出使用深度卷積神經(jīng)網(wǎng)絡(luò),同時(shí)學(xué)習(xí)圖像特征表示和哈希函數(shù)。2012年文獻(xiàn)[9]提出的AlexNet模型,2014年提出的NIN(network in network)模型和深層VGG模型都成功地驗(yàn)證了基于深度卷積神經(jīng)網(wǎng)絡(luò)的方法在學(xué)習(xí)圖像特征表示上的非凡能力。最早的有監(jiān)督的深度哈希方法是卷積神經(jīng)網(wǎng)絡(luò)哈希[9](convolutional neural network hashing,CNNH),成功結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)和數(shù)據(jù)相似矩陣實(shí)現(xiàn)圖像檢索,但是這個(gè)方法不是端到端的方法,且矩陣分解消耗大量存儲(chǔ)內(nèi)存,該方法并不適用于大規(guī)模圖像數(shù)據(jù)集。針對(duì)該問題,學(xué)者們提出網(wǎng)絡(luò)哈希[10](network in network hashing,NINH)方法,該方法以端到端的方式將輸入的圖像從像素映射到標(biāo)簽,實(shí)現(xiàn)了用深度神經(jīng)網(wǎng)絡(luò)同時(shí)進(jìn)行特征學(xué)習(xí)和哈希編碼學(xué)習(xí)。
為了進(jìn)一步提升圖像檢索精度,研究者們提出了多種基于深度卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)化方案,深度快速二進(jìn)制哈希[11](deep binary fast hash,F(xiàn)astH)通過使用一個(gè)隱藏層來表示類標(biāo)簽的潛在概念來學(xué)習(xí)特征,深度語義排序哈希[12](deep semantic ranking hashing,DSRH)通過保留多標(biāo)簽圖像間的相似語義信息來學(xué)習(xí)哈希函數(shù),監(jiān)督語義保留深度散列[13](supervised semantics-preserving hashing via deep neural networks,SSHD)實(shí)現(xiàn)了基于排序的深度哈希算法,深度哈希網(wǎng)絡(luò)[14](deep hashing network,DHN)通過構(gòu)造成對(duì)標(biāo)簽來學(xué)習(xí)樣本之間的聯(lián)系。文獻(xiàn)[15,16]是神經(jīng)網(wǎng)絡(luò)和PCA算法、多尺度平衡算法的結(jié)合,解決了低效耗時(shí)的問題,深度監(jiān)督哈希[17](deep supervised hashing,DSH)使用兩層循環(huán)不重復(fù)的生成圖像對(duì)來學(xué)習(xí)深層特征。為了更好減小量化損失的負(fù)面影響,深度樣本對(duì)哈希[18](deep pairwise-supervised hashing,DPSH),哈希網(wǎng)絡(luò)[19](HashNet:Deep learning to hash by continuation,HashNet)通過不同策略表示樣本對(duì)在漢明空間上的原始關(guān)系,通過正則化項(xiàng)顯式地懲罰松弛后的量化損失。
上述哈希方法目前存在兩個(gè)問題:①無法打破松弛-量化所帶來的局限性,無法保證松弛后的實(shí)數(shù)值再量化的結(jié)果仍是最佳的;②使用的損失函數(shù)大多是把離散優(yōu)化過程的損失直接轉(zhuǎn)化為正則化向,使得損失被迫接近區(qū)間的邊界值,導(dǎo)致網(wǎng)絡(luò)下降梯度小、結(jié)果收斂慢。為了解決上述問題,本文提出基于成對(duì)標(biāo)簽的深度哈希圖像檢索方法(deep pairwise hashing with binary restricted,DPHB),該方法直接在漢明空間中設(shè)置一些錨點(diǎn),并約束與錨點(diǎn)越相似的圖片到錨點(diǎn)的距離越近,與錨點(diǎn)越不相似的圖片距離錨點(diǎn)越遠(yuǎn)。通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型來擬合最優(yōu)哈希碼,避免松弛-量化的固有缺點(diǎn)。
實(shí)驗(yàn)在兩個(gè)公開的數(shù)據(jù)集CIFOR-10和ImageNet-100上與7種具有代表性的方法進(jìn)行對(duì)比,結(jié)果表明較當(dāng)今先進(jìn)方法檢索精度分別提高了2.37%和3.94%,驗(yàn)證了該方法能有效提高圖像檢索精度。
為了有效克服松弛-量化模式的缺點(diǎn),提出了一種基于成對(duì)標(biāo)簽的深度哈希方法,引入錨點(diǎn)的概念,在漢明空間優(yōu)化哈希碼,并設(shè)計(jì)了一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò),同時(shí)學(xué)習(xí)樣本特征和哈希函數(shù),通過不斷迭代擬合提升哈希碼的質(zhì)量。整個(gè)檢索工作流程如圖1所示,首先通過貪心算法,得到代表錨點(diǎn)的哈希碼。然后,通過訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)將表示圖片的二值碼擬合至各錨點(diǎn)附近。網(wǎng)絡(luò)采用AlexNet框架,并引入哈希層,通過利用圖像標(biāo)簽信息學(xué)習(xí)圖像特征,網(wǎng)絡(luò)在擬合過程中,以漢明空間中的錨點(diǎn)作為監(jiān)督信息,使用成對(duì)損失和均方誤差損失計(jì)算分類誤差和錨點(diǎn)誤差,對(duì)網(wǎng)絡(luò)模型進(jìn)行參數(shù)微調(diào)。最后,訓(xùn)練好的網(wǎng)絡(luò)即是本方法中的哈希函數(shù)。以小批量圖像集作為DPHB模型的輸入,對(duì)模型的輸出采用上述方法量化就得到了表示圖像的哈希碼,然后采用常見的漢明距離排序或哈希表查詢等方法進(jìn)行快速檢索。提出的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,基本組件使用AlexNet八層網(wǎng)絡(luò)結(jié)構(gòu),AlexNet網(wǎng)絡(luò)第八層是SoftMax分類層,根據(jù)sgn函數(shù)分為零一兩種結(jié)果,現(xiàn)將第八層改為哈希層,用于輸出神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的哈希碼。AlexNet中使用ReLU作為CNN的激活函數(shù),驗(yàn)證效果遠(yuǎn)遠(yuǎn)好于sigmoid,解決了網(wǎng)絡(luò)較深時(shí)的梯度彌散問題,并且加快了訓(xùn)練速度。網(wǎng)絡(luò)詳細(xì)配置見表1。它包含了5個(gè)卷積層(Conv1-5)、3個(gè)池化層(Maxpool1-3)、2個(gè)全連接層(Full6-7),最后一層是哈希層(Hash layer)。本節(jié)將詳細(xì)介紹DPHB方法的3個(gè)關(guān)鍵步驟,分別是生成錨點(diǎn)哈希碼、損失函數(shù)優(yōu)化、哈希函數(shù)學(xué)習(xí)。
圖1 基于成對(duì)標(biāo)簽的監(jiān)督哈希圖像檢索的工作流程
圖2 DPHB的網(wǎng)絡(luò)結(jié)構(gòu)
表1 DPBH中特征學(xué)習(xí)部分的配置
根據(jù)最后一步中留下的二進(jìn)制編碼不同,可以得到不同的解,且都是最優(yōu)解。經(jīng)算法求證,當(dāng)k等于10類時(shí),c等于12比特,H等于6時(shí),M集合中共有16個(gè)二進(jìn)制編碼,可隨機(jī)留下其中10個(gè)編碼組成錨點(diǎn)哈希碼;當(dāng)k等于10類,c等于12比特,H等于7時(shí),M集合中共有4個(gè)二進(jìn)制編碼,數(shù)量小于k,不能滿足解的要求。綜上所述,可以很高效地得到錨點(diǎn)哈希碼集,給后續(xù)神經(jīng)網(wǎng)絡(luò)哈希層輸出的結(jié)果提供參照點(diǎn),在漢明空間內(nèi)優(yōu)化二進(jìn)制碼。
在訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)時(shí),錨點(diǎn)哈希碼的作用是監(jiān)督網(wǎng)絡(luò)生成具有強(qiáng)判別力的哈希碼,那么如何讓神經(jīng)網(wǎng)絡(luò)在訓(xùn)練中變得越來越智能,則需要一個(gè)優(yōu)秀的損失函數(shù)及時(shí)識(shí)別出誤差,讓神經(jīng)網(wǎng)絡(luò)各部分在誤差反饋下促進(jìn)工作達(dá)到理想狀態(tài)。于是設(shè)計(jì)出能夠減小相似實(shí)例哈希碼的漢明距離,增大不相似實(shí)例哈希碼的漢明距離的損失函數(shù)至關(guān)重要。
(1)
(2)
其中,λ表示權(quán)重。
該損失函數(shù)由兩部分組成,其中第一項(xiàng)表示成對(duì)損失,利用標(biāo)簽信息衡量樣本對(duì)之間的漢明距離表示誤差,第二項(xiàng)表示均方誤差損失,衡量神經(jīng)網(wǎng)絡(luò)輸出的哈希碼到錨點(diǎn)間漢明距離表示誤差。用成對(duì)損失與均方誤差損失的加權(quán)求和的方式同時(shí)考慮兩種損失的約束,使得損失盡可能接近最小,神經(jīng)網(wǎng)絡(luò)輸出的結(jié)果盡可能接近錨點(diǎn)哈希碼并保持原始空間相似性,最終生成具有高判別能力的哈希碼。將函數(shù)(2)推導(dǎo)如下
(3)
不難發(fā)現(xiàn),當(dāng)xi和xj越相似,πij值越大,相似可能性越大,與錨點(diǎn)間損失越小,二者之和越大,反之亦然。由此看來,式(3)能夠滿足使得相似圖片變換得到的哈希碼之間依舊保持相似性,相似性在漢明空間中使用漢明距離度量,相似的哈希碼在漢明空間中越接近則漢明距離越小。較好地達(dá)到成對(duì)損失函數(shù)的優(yōu)化目標(biāo),對(duì)預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)調(diào)整參數(shù)起到了理想的效果。損失函數(shù)最終形式整理如下
(4)
其中,λ是權(quán)重,這里等于1。
現(xiàn)有工作中,損失函數(shù)的優(yōu)化策略是通過松弛為實(shí)值矩陣將二進(jìn)制代碼從離散狀態(tài)轉(zhuǎn)換成連續(xù)狀態(tài),嚴(yán)重影響了算法性能。但是式(4)中利用錨點(diǎn)哈希碼,很好規(guī)避了離散優(yōu)化問題,可以直接在漢明空間中計(jì)算出損失。相比之下,本文提出的損失函數(shù)更有利于哈希函數(shù)的學(xué)習(xí),最終得到的哈希碼更具有判別能力。
上述的損失函數(shù)僅在樣本訓(xùn)練過程中發(fā)揮作用,使得神經(jīng)網(wǎng)絡(luò)輸出令人滿意的結(jié)果,但是圖像檢索過程不同于繁瑣的訓(xùn)練過程,檢索的目的是高效完成以圖搜圖的用戶任務(wù)。因此需要讓訓(xùn)練后的深度卷積神經(jīng)網(wǎng)絡(luò)能夠達(dá)到哈希函數(shù)的作用,能夠使得圖像經(jīng)過函數(shù)變換成具有高判別能力的哈希碼。為了得到用于編碼的哈希函數(shù),用θ表示特征學(xué)習(xí)部分7層的所有參數(shù),xi表示網(wǎng)絡(luò)的輸入,bi表示網(wǎng)絡(luò)的輸出,φ(xi;θ) 表示full 7層輸出的圖像特征,w∈R4096×c表示權(quán)重矩陣,v∈Rc是一個(gè)偏執(zhí)向量,通過一個(gè)全連接層將這兩部分連接到一個(gè)框架中,用包含權(quán)重矩陣W和偏執(zhí)向量V的一個(gè)公式實(shí)現(xiàn)數(shù)據(jù)傳輸
bi=wTφ(xi;θ)+v
(5)
于是,將式(5)代入式(4)可以寫成如下形式
(6)
(7)
然后,根據(jù)鏈?zhǔn)椒▌t,利用bi更新參數(shù)w、v、θ
(8)
(9)
(10)
最后,該神經(jīng)網(wǎng)絡(luò)中各參數(shù)可以通過標(biāo)準(zhǔn)的反向傳播算法進(jìn)行優(yōu)化,神經(jīng)網(wǎng)絡(luò)訓(xùn)練結(jié)束后,即作為DPHB方法的哈希函數(shù)。在圖像檢索過程中,優(yōu)化后的哈希函數(shù)可以高效的將樣本圖像生成具有判別力的哈希碼,與訓(xùn)練圖像哈希碼數(shù)據(jù)庫中哈希碼進(jìn)行相似查找操作,最后根據(jù)漢明距離排序輸出結(jié)果。
在本小節(jié),利用兩個(gè)基準(zhǔn)數(shù)據(jù)集CIFAR-10和ImageNet-100,基于平均準(zhǔn)確率均值mAP指標(biāo)驗(yàn)證DPHB方法在圖像檢索方面優(yōu)秀的性能。此外,基于其它3項(xiàng)常用評(píng)價(jià)指標(biāo),與7個(gè)典型的圖像檢索方法做了對(duì)比實(shí)驗(yàn),所有實(shí)驗(yàn)結(jié)果均表明了本文提出的DPHB方法優(yōu)于當(dāng)前主流方法。
實(shí)驗(yàn)采用預(yù)訓(xùn)練模型,使用Pytouch作為模型調(diào)參環(huán)境,每次初始輸入128張訓(xùn)練圖像,再以結(jié)對(duì)的方式兩兩組合成成對(duì)圖像作為輸入神經(jīng)網(wǎng)絡(luò),采用隨機(jī)梯度下降(SGD)優(yōu)化。SGD的學(xué)習(xí)率為0.05,學(xué)習(xí)率衰減值為10-7。實(shí)驗(yàn)過程使用一塊GPU加速,詳細(xì)的實(shí)驗(yàn)機(jī)器配置信息見表2。
表2 實(shí)驗(yàn)機(jī)器配置信息
為了讓實(shí)驗(yàn)公平進(jìn)行,選取了兩個(gè)圖像檢索領(lǐng)域最常用數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。CIFAR-10:CIFAR-10圖像數(shù)據(jù)庫共有80 000張小型圖像數(shù)據(jù)集,從10個(gè)類中隨機(jī)挑選6000張圖像組成一個(gè)60 000張32×32的彩色圖像數(shù)據(jù)集,且每張圖像只屬于一個(gè)類。在實(shí)驗(yàn)中,隨機(jī)在每個(gè)類別中選擇100張圖片(總共1000張圖片)作為測(cè)試集,每個(gè)類別中選擇500張圖片(總共5000張圖片)作為訓(xùn)練集,本文使用一個(gè)512維的GIST描述符來表示CIFAR-10數(shù)據(jù)集的圖像;ImageNet-100[20]:ImageNet-100是一個(gè)廣泛使用的單標(biāo)簽大數(shù)據(jù)集,它是從ImageNet-1000中提取的100個(gè)類別的圖像,包含128 503張圖像且每張圖像只屬于一個(gè)類別,其中500張作為測(cè)試集,128 000張作為訓(xùn)練集。為了減小復(fù)現(xiàn)過程中潛在錯(cuò)誤導(dǎo)致的不利影響,所有方法僅使用這兩個(gè)數(shù)據(jù)集做對(duì)比。
本文采用常用的4個(gè)指標(biāo)作為度量標(biāo)準(zhǔn)來評(píng)估DPHB的檢索性能:平均準(zhǔn)確率均值(mean average precision,mAP);查準(zhǔn)率-召回率曲線(precision-recall curves,PR);前n個(gè)檢索結(jié)果精度(precision curves with different number of top returned samples,P@N);查詢樣本和數(shù)據(jù)集之間的漢明距離小于2的精度(precision curves with hamming radius2,P@H=2)。
根據(jù)特征提取方法,以下方法分為兩類,分別是傳統(tǒng)的手工制作方法和基于神經(jīng)網(wǎng)絡(luò)的方法,可以分為4個(gè)子類:
(1)傳統(tǒng)的無監(jiān)督哈希方法:ITQ[6];
(2)傳統(tǒng)的有監(jiān)督哈希方法:SDH[7];
(3)提取深度特征的深度哈希方法:FastH[11]、DHN[14]和DSH[17];
(4)成對(duì)標(biāo)簽的深度哈希方法:DPSH[18]、HashNet[19]。
實(shí)驗(yàn)選取的每種方法都是該類中優(yōu)秀的方法,沿用所對(duì)比得方法使用的網(wǎng)絡(luò)結(jié)構(gòu),在同一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上比較方法的性能,實(shí)驗(yàn)均在優(yōu)化的AlexNet網(wǎng)絡(luò)和兩個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行,所有結(jié)果均是復(fù)現(xiàn)已有研究成果,復(fù)現(xiàn)的方法性能略有不同,但性能優(yōu)次順序與已有成果的結(jié)論是一致的。
具體來說,首先將所有圖像的大小調(diào)整為224×224像素,然后使用原始圖像像素和目標(biāo)哈希碼作為模型輸入。為了降低過擬合的風(fēng)險(xiǎn),在模型初始化方面,與文獻(xiàn)[18]的工作是一致的。采用預(yù)訓(xùn)練的AlexNet初始化DPHB框架的前7層進(jìn)行哈希學(xué)習(xí)。表3列出了8種圖像檢索方法在CIFAR-10和ImageNet上的mAP結(jié)果。
在CIFAR-10數(shù)據(jù)集上的結(jié)果表明,提出的DPHB方法在本質(zhì)上優(yōu)于表3中的所有方法。傳統(tǒng)的無監(jiān)督哈希方法ITQ的性能排在最后。SDH是最具代表性的傳統(tǒng)監(jiān)督方法,但其性能僅略好于ITQ方法。DSH、FastH和DNH等基于深度學(xué)習(xí)的哈希方法在圖像檢索性能上與傳統(tǒng)方法完全拉開了距離。DPHB與主流的基于深度學(xué)習(xí)的哈希方法相比,在不同長度哈希碼的mAP中,與HashNet相比,絕對(duì)提升8.65%、4.09%、4.05%、6.09%,與DPSH相比,絕對(duì)提升5.98%、5.64%、4.74%、5.16%,DSH方法碼長48位時(shí)mAP在7種被比較的方法中達(dá)到最高,與之相比,DPHB絕對(duì)提升2.37%,檢索性能優(yōu)于DSH。對(duì)于大規(guī)模圖像數(shù)據(jù)集ImageNet-100,表3中的ImageNet-100數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,所提出的DPHB方法優(yōu)于現(xiàn)有的傳統(tǒng)哈希圖像檢索方法。與基于學(xué)習(xí)的哈希方法(如FastH、DNH和DPSH)相比,DPHB的性能有了顯著的提高。與HashNet相比,DPHB在不同哈希碼長度的平均mAP中絕對(duì)提升41.01%、21.45%、11.95%、3.94%。結(jié)果表明,該方法可以生成信息豐富、判別力強(qiáng)的哈希碼,從而提高大規(guī)模圖像檢索性能。
表3 8種圖像檢索方法在CIFAR-10和ImageNet上的mAP結(jié)果
為了進(jìn)一步驗(yàn)證DPHB的有效性,實(shí)驗(yàn)基于其它評(píng)價(jià)指標(biāo)做了對(duì)比實(shí)驗(yàn)。圖3表示在CIFAR-10上的結(jié)果,圖4表示在imagenet-100上的結(jié)果,圖5表示不同算法模型調(diào)參和檢索效率。
如圖3(a)、圖4(a)所示,精度召回曲線(PR)是評(píng)價(jià)圖像檢索性能的一個(gè)重要指標(biāo)。DPHB的性能優(yōu)于與之相比較的模型。圖3(b)、圖4(b)表示在漢明半徑2(P@H=2)范圍內(nèi)的精度,圖3(c)和圖4(c)分別表示在CIFAR-10上map@ALL的結(jié)果和在imagenet-100上前1000個(gè)搜索結(jié)果的精度曲線(P@N)。DPHB模型在所有被比較的檢索方法中取得最佳結(jié)果。
圖3 CIFAR-10數(shù)據(jù)集上的結(jié)果
圖4 imagenet-100數(shù)據(jù)集上的結(jié)果
如圖5所示,分別對(duì)6種加入卷積神經(jīng)網(wǎng)絡(luò)的哈希模型,統(tǒng)計(jì)了調(diào)參時(shí)間和檢索時(shí)間,每種方法取5次實(shí)驗(yàn)所得結(jié)果的均值作為對(duì)比結(jié)果,避免外部因素影響。圖5(a)表示DPHB方法在imagenet-100上不同哈希碼位數(shù)上的表現(xiàn),生成24 bit哈希碼時(shí),神經(jīng)網(wǎng)絡(luò)調(diào)參和檢索用時(shí)最少,效率最佳。圖5(b)和圖5(c)分別表示采用24 bit在CIFAR-10 數(shù)據(jù)集和imagenet-100數(shù)據(jù)集上調(diào)參時(shí)間和檢索時(shí)間的表現(xiàn)。通常響應(yīng)時(shí)間小于30 s不會(huì)影響用戶體驗(yàn)感,由圖(5)可知,DPHB算法在CIFAR-10上與其它5種算法效率上無明顯差別,但是在大規(guī)模圖像數(shù)據(jù)集imagenet-100上,DPHB算法的調(diào)參時(shí)間明顯優(yōu)于其它方法,檢索時(shí)間明顯優(yōu)于HashNet、DSH和DHN算法,在實(shí)際的圖像檢索應(yīng)用中快速響應(yīng)用戶指令,且返回的結(jié)果準(zhǔn)確率更高。
圖5 不同算法模型調(diào)參和檢索效率
實(shí)驗(yàn)結(jié)果表明,DPHB相對(duì)于以往的哈希算法,在各項(xiàng)評(píng)價(jià)指標(biāo)方面都具有理想的檢索效果,尤其在高位編碼上有明顯的優(yōu)勢(shì),在CIFOR_10數(shù)據(jù)集和ImageNet_100數(shù)據(jù)集上,DPHB方法48 bit的mAP較其它方法最高結(jié)果分別提高了2.37%和3.94%。另一方面,實(shí)驗(yàn)驗(yàn)證了DPHB方法所采用的優(yōu)化策略,有效規(guī)避了傳統(tǒng)的松弛-量化步驟所帶來的負(fù)面影響,驗(yàn)證了在漢明空間中以錨點(diǎn)為監(jiān)督信息的方法能有效減小相似實(shí)例哈希碼的漢明距離,增大不相似實(shí)例哈希碼的漢明距離,所提出的損失函數(shù)能夠使得神經(jīng)網(wǎng)絡(luò)的輸出更接近錨點(diǎn)哈希碼,經(jīng)過訓(xùn)練的哈希函數(shù)能夠生成判別力更高的哈希碼。通過對(duì)DPHB方法檢索效率的對(duì)比實(shí)驗(yàn)分析發(fā)現(xiàn),本文提出的方法較其它主流方法更適用于在十萬級(jí)數(shù)量以上的圖片集中進(jìn)行高精度檢索的場(chǎng)景,DPHB在大規(guī)模數(shù)據(jù)集上具有檢索結(jié)果正確率更高,性能更穩(wěn)定、檢索效率更快等優(yōu)點(diǎn),能夠高效完成圖像數(shù)據(jù)量日益增長趨勢(shì)下的圖像檢索任務(wù)。綜上所述,DPHB方法能更好地滿足當(dāng)下大規(guī)模圖像檢索的實(shí)際需求。
本文提出了一種基于成對(duì)標(biāo)簽的端到端的圖像檢索算法。該算法巧妙的規(guī)避了哈希碼量化損失的問題,生成的哈希碼具有強(qiáng)判別力,使得檢索性能有大幅提升。與其它相關(guān)方法相比,DPHB的優(yōu)勢(shì)主要體現(xiàn)在3個(gè)方面:
(1)打破了原有松弛-量化的固定優(yōu)化模式,引入了錨點(diǎn)信息,直接在漢明空間中度量相似樣本間距離,而非松弛到歐氏空間中計(jì)算,避免了二次量化造成的語義缺失;
(2)DPHB方法是一個(gè)端到端的可以同時(shí)進(jìn)行特征學(xué)習(xí)和哈希碼學(xué)習(xí)的方法,這個(gè)過程極大保留了圖像間的語義相似度;
(3)使用成對(duì)損失和均方誤差損失計(jì)算分類誤差和錨點(diǎn)誤差,同時(shí)考慮兩種損失,使得圖像語義損失更明顯,網(wǎng)絡(luò)輸出結(jié)果更逼近錨點(diǎn)哈希碼,與單純只考慮一種損失,這樣得到的哈希碼更具有判別力。
在實(shí)際數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,DPHB在圖像檢索應(yīng)用方面的性能優(yōu)于其它方法。此外,下一步工作將DPHB方法用于特定領(lǐng)域的數(shù)據(jù)集上進(jìn)行測(cè)試,如醫(yī)學(xué)圖像,提供機(jī)器輔助診斷,來檢驗(yàn)DPHB方法的通用性。