謝亦才 易云
摘要:隨著數(shù)字技術(shù)的發(fā)展,各領(lǐng)域產(chǎn)生并共享了大量的視覺內(nèi)容。如何搜索到所需要的圖像成為一個(gè)挑戰(zhàn),特別是在數(shù)據(jù)庫(kù)中搜索相似的內(nèi)容,即基于內(nèi)容的圖像檢索(CBIR) ,是一個(gè)由來已久的研究領(lǐng)域,實(shí)時(shí)檢索需要更高效、更準(zhǔn)確的方法。人工智能在基于內(nèi)容的檢索方面取得了進(jìn)展,極大地促進(jìn)了智能搜索的進(jìn)程。文中,回顧了最近基于深度學(xué)習(xí)算法和技術(shù)開發(fā)的CBIR工作;介紹了常用基準(zhǔn)和評(píng)估方法;指出面臨的挑戰(zhàn),并提出有希望的未來方向。文中關(guān)注使用深度學(xué)習(xí)進(jìn)行圖像檢索,并根據(jù)深度網(wǎng)絡(luò)結(jié)構(gòu)、深度特征、特征增強(qiáng)方法和網(wǎng)絡(luò)微調(diào)策略的類型組織最先進(jìn)的方法。文中調(diào)查考慮了各種最新方法,旨在展示基于實(shí)例的CBIR領(lǐng)域的全局視圖。
關(guān)鍵詞:Transformer;架構(gòu)修改;預(yù)訓(xùn)練
中圖分類號(hào):TP311? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2022)10-0084-03
1 引言
基于內(nèi)容的圖像檢索(CBIR) 是通過分析圖像的視覺內(nèi)容,在一個(gè)大型圖像庫(kù)中搜索語義匹配或相似的圖像,給定一個(gè)描述用戶需求的查詢圖像。CBIR一直是計(jì)算機(jī)視覺和多媒體領(lǐng)域的一個(gè)長(zhǎng)期研究課題[1]。隨著目前圖像和視頻數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng),圖像搜索是最不可或缺的技術(shù)之一。因此,基于內(nèi)容的圖像檢索(CBIR) 的應(yīng)用幾乎有無限的潛力,如人員重新識(shí)別、遙感、醫(yī)學(xué)圖像搜索[2]、在線市場(chǎng)購(gòu)物推薦等。
要準(zhǔn)確檢索到相應(yīng)圖像,必須準(zhǔn)確提取圖像特征,而提取特征的方法有傳統(tǒng)的手工特征和現(xiàn)在廣泛使用的深度特征學(xué)習(xí)方法。
自2012年,深度學(xué)習(xí)已經(jīng)在各研究領(lǐng)域有了廣泛應(yīng)用,因?yàn)樯疃壬窠?jīng)網(wǎng)絡(luò)可以直接從數(shù)據(jù)中進(jìn)行多級(jí)抽象,提取深度特征。深度學(xué)習(xí)在圖像檢索[3]等計(jì)算機(jī)視覺領(lǐng)域取得了重大突破。在圖像檢索中有四種主要用作特征提取的深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN) 模型,分別是AlexNet、VGG、GoogLeNet和ResNet。關(guān)于圖像檢索的主要綜述與比較主要如表1所示。
2 基于深度學(xué)習(xí)圖像檢索分類
基于深度學(xué)習(xí)圖像檢索的基本框架如圖1所示,首先通過深度神經(jīng)網(wǎng)絡(luò)(例如VGG) 提取圖像特征,再通過全連接層映射到所設(shè)定維度特征空間,然后通過損失函數(shù)訓(xùn)練網(wǎng)絡(luò),最終訓(xùn)練好的網(wǎng)絡(luò)把圖像映射到低維特征空間,并進(jìn)行相似度計(jì)算、排序,從而檢索出最相似的圖像。
基于深度學(xué)習(xí)圖像檢索方法可以分為基于已訓(xùn)練好的深度預(yù)訓(xùn)練模型和基于深度表征學(xué)習(xí)兩大類。
2.1 基于預(yù)訓(xùn)練模型圖像檢索方法
這種方法有一些局限性,比如深度特征可能無法超越經(jīng)典手工制作的特征。最基本的是,存在模型轉(zhuǎn)移或域轉(zhuǎn)移任務(wù)之間的問題,這意味著模型經(jīng)過了訓(xùn)練對(duì)于分類,不一定要提取適合的特征進(jìn)行圖像檢索。特別是,分類決策可以是只要特征仍在分類范圍內(nèi),就可以進(jìn)行分類邊界,因此此類模型中的層可能會(huì)顯示在特征匹配比最終分類概率更重要的情況下,在檢索任務(wù)中能力不足。
此類方法可以進(jìn)一步分為基于深度特征提取和基于深度特征融合的方法。
2.1.1 基于深度特征提取方法
(1) 前饋預(yù)訓(xùn)練模型。單前饋傳遞神經(jīng)網(wǎng)絡(luò)將整個(gè)圖像送入現(xiàn)成的模型中提取特征。該方法相對(duì)有效,因?yàn)檩斎雸D像只饋送一次。對(duì)于這些方法,全連接層和最后一個(gè)卷積層都可以用作特征提取器。全連接層有一個(gè)全局感受野。經(jīng)過歸一化和降維后,這些特征是用于直接相似性度量,無須進(jìn)一步處理,也不需要有效的搜索策略。但使用全連接層缺乏幾何不變性和空間信息。
與單前饋傳遞神經(jīng)網(wǎng)絡(luò)相比,多前饋傳遞神經(jīng)網(wǎng)絡(luò)更耗時(shí),因?yàn)閺妮斎雸D像生成多個(gè)面片,并在編碼為最終全局特征之前將兩個(gè)面片送入網(wǎng)絡(luò)。由于特征表示分為兩個(gè)階段:圖像塊檢測(cè)和圖像塊描述,因此多通道策略可以提高檢索精度??梢允褂没瑒?dòng)窗口或空間金字塔模型獲得多尺度圖像塊。
(2) 深度特征選擇
深度特征提取可以從全連接層和卷積層提取。
選擇一個(gè)全連接層作為特征提取器非常簡(jiǎn)單。通過PCA降維和歸一化,可以測(cè)量圖像的相似性。只有全連接層可能會(huì)限制整體檢索精度,Jun等人[5]將多個(gè)全連接層的特征連接起來,Song等人[6]指出,在第一個(gè)完全連接的層和最后一個(gè)層之間直接連接可以實(shí)現(xiàn)從粗到精的改進(jìn)。
來自卷積層(通常是最后一層) 的特征保留更多特別有益的結(jié)構(gòu)細(xì)節(jié)。卷積神經(jīng)元圖層僅連接到輸入要素地圖的局部區(qū)域。較小的感受野確保生成的特征保留更多的局部結(jié)構(gòu)信息,并且對(duì)圖像變換(如截?cái)嗪驼趽酰?更為魯棒。通常,池化卷積特征后的魯棒性會(huì)得到提高。
(3) 特征融合
不同網(wǎng)絡(luò)層之間的融合。融合不同層的特征的目的是在特征提取器中組合不同的特征屬性。在深度網(wǎng)絡(luò)中融合多個(gè)全連接層是可能的:例如,Yu等人[7]探索了融合網(wǎng)絡(luò)的不同方法從不同的全連接層激活并引入性能最佳的Pi-融合策略,使用不同的權(quán)重用于聚合特征,Jun等人[5]構(gòu)造多個(gè)全連接層串聯(lián)在ResNet頂部,然后連接這些層的全局特征,以獲得組合的全局特征。
在測(cè)量語義相似度時(shí),來自全連接層(全局特征) 和來自卷積層(局部特征) 的特征可以相互補(bǔ)充,并在一定程度上保證檢索性能。
模型之間的融合。可以將不同網(wǎng)絡(luò)模型的功能組合在一起;這樣的融合側(cè)重于模型互補(bǔ),以實(shí)現(xiàn)更好的性能,分為模型內(nèi)和模型間。
通常,模型內(nèi)融合指的是具有相似或高度兼容結(jié)構(gòu)的多個(gè)深層模型,而模型間融合指的是具有更多不同結(jié)構(gòu)的模型。例如,AlexNet中廣泛使用的退出策略可以被視為模型內(nèi)融合:在兩個(gè)全連接的層之間,不同神經(jīng)元的隨機(jī)連接,每個(gè)訓(xùn)練階段可以被視為不同模型的組合。作為第二個(gè)例子,Simonyan等人[4]介紹了一種ConvNet融合策略,以提高VGG的特征學(xué)習(xí)能力,其中VGG-16和VGG-19被融合。與單個(gè)對(duì)等網(wǎng)絡(luò)相比,該模型內(nèi)融合策略將圖像分類中的前5位誤差降低了2.7%。類似地,Liu等人[8]混合了不同的VGG變體,以加強(qiáng)對(duì)細(xì)粒度車輛檢索的學(xué)習(xí)。Ding等人[13]提出了一個(gè)選擇性深度集成框架,將ResNet-26和ResNet-50結(jié)合起來,以提高細(xì)粒度實(shí)例檢索的準(zhǔn)確性。為了關(guān)注圖像中物體的不同部分,Kim等人[9]訓(xùn)練了三個(gè)注意力模塊的集合,以學(xué)習(xí)具有不同多樣性的特征。每個(gè)模塊都基于GoogLeNet中的不同初始?jí)K。
2.1.2 基于深度特征增強(qiáng)的檢索方法
(1) 特征聚合
特征增強(qiáng)方法將特征聚合或嵌入到提高深層特征的識(shí)別能力。在特征聚合方面,和/平均池化和最大池化是兩種常用的卷積特征聚合方法地圖。特別是,和/平均池化的區(qū)分性較低,因?yàn)樗紤]了來自卷積層的所有激活輸出,因此削弱了高度激活特征的影響。相反,最大池化特別適合概率較低的稀疏特征積極主動(dòng)。如果輸出特征映射不再稀疏,最大池化可能劣于和/平均值池化。
(2) 特征嵌入
除了直接池化或區(qū)域池化外,還可以將卷積特征映射嵌入到高維圖像中空間,以獲得緊湊的特征。廣泛使用的嵌入方法包括BoW、VLAD和FV。使用PCA可以降低“嵌入式特征”的維數(shù)。注意,BoW和VLAD可以通過使用其他度量來擴(kuò)展,如漢明距離。
(3) 注意力機(jī)制
注意力機(jī)制的核心思想是突出最重要的部分相關(guān)特征和避免無關(guān)激活函數(shù)的影響,通過計(jì)算注意力圖來實(shí)現(xiàn)。獲得注意力圖的方法可分為兩組:非參數(shù)和基于參數(shù)的,這兩種方法的主要區(qū)別在于重要性權(quán)重是否可以學(xué)習(xí)獲得。
(4) 深度哈希嵌入
由深度網(wǎng)絡(luò)提取的實(shí)值特征通常是高維,因此檢索效率不太滿意。因此,很有必要將深層特征轉(zhuǎn)換為更緊湊的編碼。哈希算法由于其計(jì)算和存儲(chǔ)效率高而被廣泛用于大規(guī)模圖像搜索。哈希碼由哈希函數(shù)生成,而哈希函數(shù)可以作為一個(gè)層插入到深度網(wǎng)絡(luò)中,這樣可以同時(shí)使用深度網(wǎng)絡(luò)訓(xùn)練和優(yōu)化哈希碼。在哈希函數(shù)訓(xùn)練過程中,將原始相似圖像的哈希碼嵌入到盡可能接近的位置,將不相似圖像的哈希碼盡可能分離。
2.2 基于深度特征學(xué)習(xí)的圖像檢索方法
在2.1節(jié)中,介紹了特征融合和增強(qiáng)現(xiàn)成的DCNN,僅作為獲取特征的提取器。然而,在大多數(shù)情況下特征可能不足以進(jìn)行高精度檢索。為了模型具有更高的可擴(kuò)展性和更有效的檢索,常見的做法是網(wǎng)絡(luò)微調(diào),即更新預(yù)先存儲(chǔ)的參數(shù)[10]。然而,微調(diào)并不是否定第2.1節(jié)中特征處理方法;事實(shí)上,這些策略是互補(bǔ)的,可以相互補(bǔ)充作為網(wǎng)絡(luò)微調(diào)的一部分進(jìn)行合作。
本節(jié)重點(diǎn)介紹更新網(wǎng)絡(luò)參數(shù)的有監(jiān)督和無監(jiān)督微調(diào)方法。
2.2.1 有監(jiān)督微調(diào)方法
(1) 基于分類的微調(diào)方法
如果新數(shù)據(jù)集的類標(biāo)簽可用,則可首先取在單獨(dú)的數(shù)據(jù)集上先前訓(xùn)練好的諸如AlexNet、VGG、GoogLeNet或ResNet等主干網(wǎng)絡(luò)的特征。然后,通過基于交叉熵?fù)p失優(yōu)化其參數(shù),可以對(duì)DCNN進(jìn)行微調(diào)。交叉熵?fù)p失如公式1所示:
[LCE(pi,yi)=-i,j=1cyilogpi] (1)
其中,yi和pi分別是真實(shí)標(biāo)簽和預(yù)測(cè)概率值,c是類別總數(shù)。這種微調(diào)的里程碑工作是文獻(xiàn)[11],其中AlexNet在具有672個(gè)預(yù)定義類別的Landmarks數(shù)據(jù)集上重新訓(xùn)練。經(jīng)過微調(diào)的網(wǎng)絡(luò)在與真實(shí)相關(guān)的數(shù)據(jù)集(如Holidays、Oxford-5k和Oxford-105k) 上生成了卓越的特征。新更新的圖層用作圖像檢索的全局或局部特征檢測(cè)器。
(2) 基于驗(yàn)證的微調(diào)方法
利用表示相似和不相似對(duì)的相似性信息,基于驗(yàn)證的微調(diào)方法學(xué)習(xí)一個(gè)最佳度量,該度量最小化或最大化數(shù)據(jù)對(duì)的距離,以驗(yàn)證和保持它們的相似性。與基于分類的學(xué)習(xí)相比,基于驗(yàn)證的學(xué)習(xí)側(cè)重于類間和類內(nèi)樣本。
2.2.2 無監(jiān)督微調(diào)方法
因?yàn)榇祟愋畔⒌氖占杀竞芨呋虿豢捎?,有監(jiān)督網(wǎng)絡(luò)微調(diào)的方法可行性變得較差。鑒于這些局限性,使用無監(jiān)督的圖像檢索微調(diào)方法非常必要,但研究較少。
對(duì)于無監(jiān)督微調(diào),兩個(gè)廣泛的方向是通過流形學(xué)習(xí)挖掘特征之間的相關(guān)性以獲得排名信息,以及設(shè)計(jì)新穎的無監(jiān)督框架(例如自動(dòng)編碼器) ,每個(gè)框架將在下文中討論。
(1) 基于流形學(xué)習(xí)的樣本挖掘
流形學(xué)習(xí)側(cè)重于捕捉數(shù)據(jù)集內(nèi)在關(guān)聯(lián)或推斷。與原始的流形相似之處是提取的特征用于構(gòu)造關(guān)聯(lián)矩陣,然后使用流形學(xué)習(xí)對(duì)其進(jìn)行重新評(píng)估和更新[12]。根據(jù)更新的關(guān)聯(lián)矩陣中的流形相似性,基于驗(yàn)證的損失函數(shù)(如對(duì)損失、三重態(tài)損失或N對(duì)損失) ,選擇正樣本和硬負(fù)樣本進(jìn)行度量學(xué)習(xí)。這不同于上述基于驗(yàn)證的微調(diào)方法,其中硬正樣本和負(fù)樣本根據(jù)給定的關(guān)聯(lián)信息從有序數(shù)據(jù)集中顯式選擇。
(2) 基于自動(dòng)編碼器的框架
自動(dòng)編碼器是一種神經(jīng)網(wǎng)絡(luò),其目的是重建其輸出盡可能接近其輸入。原則上,將輸入圖像作為特征編碼輸入到潛在空間中,然后使用解碼器將這些特征重構(gòu)為原始輸入圖像。編碼器和解碼器都可以是卷積神經(jīng)網(wǎng)絡(luò)。
在自動(dòng)編碼器中,存在不同的重建級(jí)別(例如像素級(jí)別或?qū)嵗?jí)別) 。這些不同的重建會(huì)影響自動(dòng)編碼器的有效性,因?yàn)橄袼丶?jí)重建可能會(huì)通過關(guān)注重建圖像中的微小變化來降低編碼器的學(xué)習(xí)特征,因?yàn)樽匀粓D像通常包含許多位置、顏色和姿勢(shì)的細(xì)節(jié)因素。
3 結(jié)論和未來展望
在這篇綜述中,回顧了圖像檢索的深度學(xué)習(xí)方法,并根據(jù)深度神經(jīng)網(wǎng)絡(luò)的參數(shù)更新方式將其分為預(yù)訓(xùn)練模型的深度圖像檢索和微調(diào)模型。具體地說,基于預(yù)訓(xùn)練模型方法涉及通過凍結(jié)預(yù)先存儲(chǔ)的參數(shù)來獲得高質(zhì)量的特征,其中提出了網(wǎng)絡(luò)前饋方案、層選擇和特征融合方法。而基于微調(diào)的方法在有監(jiān)督和無監(jiān)督兩種方法中都具有用于特征學(xué)習(xí)的網(wǎng)絡(luò)參數(shù)更新操作。
基于深度學(xué)習(xí)圖像檢索方法未來發(fā)展方向主要有如下幾個(gè)方面:
(1) 圖像檢索中的零樣本學(xué)習(xí);
(2) 端到端無監(jiān)督圖像檢索;
(3) 增量圖像檢索。
參考文獻(xiàn):
[1] Smeulders A W M,Worring M,Santini S,et al.Content-based image retrieval at the end of the early years[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2000,22(12):1349-1380.
[2] Nair L R,Subramaniam K,Prasannavenkatesan G K D.A review on multiple approaches to medical image retrieval system[C]//Intelligent Computing in Engineering,2020:501-509.
[3] Kalantidis Y,Mellina C,Osindero S.Cross-dimensional weighting for aggregated deep convolutional features[C]//Computer Vision-ECCV 2016 Workshops,2016:685-701.
[4] K. Simonyan and A. Zisserman.Very deep convolutional networks for large-scale image recognition[J].arXiv preprint arXiv:1409.1556, 2014.
[5] H. Jun, B. Ko, Kim I. Kim, Kim J.Combination of multiple global descriptors for image retrieval[J].arXiv preprint arXiv:1903.10663, 2019.
[6] Song J F,Yu Q,Song Y Z,et al.Deep spatial-semantic attention for fine-grained sketch-based image retrieval[C]//2017 IEEE International Conference on Computer Vision.October 22-29,2017,Venice,Italy.IEEE,2017:5552-5561.
[7] Yu D,Liu Y J,Pang Y P,et al.A multi-layer deep fusion convolutional neural network for sketch based image retrieval[J].Neurocomputing,2018,296:23-32.
[8] Liu H Y,Tian Y H,Wang Y W,et al.Deep relative distance learning:tell the difference between similar vehicles[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition.June 27-30,2016,Las Vegas,NV,USA.IEEE,2016:2167-2175.
[9] Kim W,Goyal B,Chawla K,et al.Attention-based ensemble for deep metric learning[C]//Computer Vision – ECCV 2018,2018:736-751.
[10] Oquab M,Bottou L,Laptev I,et al.Learning and transferring mid-level image representations using convolutional neural networks[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition.June 23-28,2014,Columbus,OH,USA.IEEE,2014:1717-1724.
[11] A. Babenko, A. Slesarev, A. Chigorin, and V. Lempitsky.Neural codes for image retrieval[C]//in ECCV,2014:584–599.
[12] Donoser M,Bischof H.Diffusion processes for retrieval revisited[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition.June 23-28,2013,Portland,OR,USA.IEEE,2013:1320-1327.
[13] Ding Z Y,Song L,Zhang X T,et al.Selective deep ensemble for instance retrieval[J].Multimedia Tools and Applications,2019,78(5):5751-5767.
【通聯(lián)編輯:梁書】
收稿日期:2021-12-06
基金項(xiàng)目:本文受江西省自然科學(xué)基金(面上項(xiàng)目,20202BAB202017,面向監(jiān)控視頻的高效行為檢測(cè)方法研究) 資助
作者簡(jiǎn)介:謝亦才(1981—) ,男,碩士研究生,主要研究方向?yàn)樯疃葘W(xué)習(xí)、圖像分析與檢索。