王新龍
(長(zhǎng)治學(xué)院計(jì)算機(jī)系,山西長(zhǎng)治046011)
基于深度學(xué)習(xí)的圖像檢索研究
王新龍
(長(zhǎng)治學(xué)院計(jì)算機(jī)系,山西長(zhǎng)治046011)
文章針對(duì)魯棒和具有區(qū)分能力的局部描述子等圖像檢索算法的不足,使用多層深度網(wǎng)絡(luò)模型中不同層的響應(yīng)值作為圖像的特征表達(dá),利用深度學(xué)習(xí)模型進(jìn)行圖像檢索研究。并針對(duì)基于局部描述子檢索方法中提出的改進(jìn)算法進(jìn)行研究。
圖像檢索;深度學(xué)習(xí);魯棒;局部描述子
基于內(nèi)容的圖像檢索任務(wù)指的是給定一張查詢圖像,算法自動(dòng)從圖像中抽取有表達(dá)能力的圖像的特征表達(dá),如顏色、紋理等[1],并依據(jù)該特征表達(dá)計(jì)算與數(shù)據(jù)庫(kù)中的圖像的特征的相似性,并將相似的圖像返回給用戶的任務(wù)。圖像檢索是計(jì)算機(jī)視覺(jué)和多媒體領(lǐng)域一個(gè)非常重要的研究問(wèn)題,因?yàn)樗呛芏鄬?shí)際應(yīng)用的算法基礎(chǔ),比如購(gòu)物網(wǎng)站中基于照片的商品檢索[1]、公安部門基于照片的罪犯定位以及在增強(qiáng)現(xiàn)實(shí)眼鏡中需要的檢索系統(tǒng)等。
圖像檢索依據(jù)其提取的圖像特征的類型將其分為兩類。第一類工作從圖像中提取全局的特征來(lái)表達(dá)一張圖像,如用于描述顏色的顏色直方圖特征、用于描述紋理的小波特征和用于描述形狀的形狀上下文特征等。這類方法因?yàn)椴东@的是顏色、紋理或形狀在整張圖像中的分布特性,因此對(duì)于局部位移等變換比較魯棒。然而因?yàn)檫@種表達(dá)喪失了特征之間的空間位置關(guān)系,因此喪失了一定的區(qū)分能力,從而導(dǎo)致這類方法在現(xiàn)有的較大規(guī)模的數(shù)據(jù)集上表現(xiàn)較差。
另外一類方法[2][3]從圖像中提取局部特征,如SIFT[4],用以捕獲局部區(qū)域的顏色或梯度等外觀信息作為圖像表達(dá)。該類方法首先在圖像中檢測(cè)一組關(guān)鍵點(diǎn),關(guān)鍵點(diǎn)的個(gè)數(shù)從幾百到幾千個(gè)不等。然后算法在每一個(gè)關(guān)鍵點(diǎn)周圍的一個(gè)小區(qū)域內(nèi)(區(qū)域的大小可能和物體的尺度相關(guān))提取顏色或梯度分布等特征描述子。因此一張圖像被表達(dá)成一組局部特征描述子的集合。在圖像檢索階段,該類方法或者通過(guò)將該組局部描述子編碼成一個(gè)全局描述子或者通過(guò)圖像對(duì)之間的兩組局部描述子的匹配完成相似性計(jì)算。局部描述子通常具有較強(qiáng)的判別能力,但是在面對(duì)圖像間存在較大的類內(nèi)差異時(shí)不夠魯棒。
此外,上面討論的方法大都缺乏高層語(yǔ)義信息,僅僅通過(guò)計(jì)算圖像底層特征的相似性來(lái)完成圖像檢索,從而使其適用性受到限制,比如相似的圖像存在較大的類內(nèi)變化時(shí)。
深度學(xué)習(xí)[5][6][7]近十年來(lái)在計(jì)算機(jī)視覺(jué)領(lǐng)域取得了重要的成功,尤其在圖像分類[5]、物體識(shí)別和超分辨率等領(lǐng)域。深度學(xué)習(xí)的關(guān)鍵在于利用大規(guī)模的訓(xùn)練數(shù)據(jù)集學(xué)習(xí)區(qū)分不同類別的底層和高層特征。研究人員通常認(rèn)為深度學(xué)習(xí)網(wǎng)絡(luò)的前面若干層(底層)通常捕獲了圖像的底層特征,如梯度、顏色和紋理等;而后面若干層(高層)則捕獲了圖像的語(yǔ)義信息,而忽略了圖像中對(duì)于分類不重要的細(xì)節(jié)信息。這有利于解決類內(nèi)變化較大情況下的圖像檢索問(wèn)題。
雖然當(dāng)前已經(jīng)有大量的工作采用深度學(xué)習(xí)的框架解決圖像分類和物體識(shí)別任務(wù),但是在圖像檢索領(lǐng)域,這種類似的探討還比較少。文章主要研究不同層次的深度網(wǎng)絡(luò)特征在圖像檢索任務(wù)上的適用性。具體包括①通過(guò)實(shí)驗(yàn)來(lái)研究深度網(wǎng)絡(luò)的不同層的特征在圖像檢索任務(wù)中的性能;②對(duì)比當(dāng)前較為成功的三個(gè)深度網(wǎng)絡(luò)模型,并給出實(shí)際使用經(jīng)驗(yàn);③通過(guò)實(shí)驗(yàn)探討將這些經(jīng)驗(yàn)轉(zhuǎn)移到基于深度學(xué)習(xí)的圖像檢索時(shí)的性能。
依據(jù)圖像檢索中使用的圖像特征表達(dá),將現(xiàn)有的工作分成兩個(gè)主要類別,分別是基于底層的局部和全局描述子的方法和基于深度學(xué)習(xí)的高層特征的方法。
2.1基于局部和全局描述子的特征表達(dá)
Sivic和Zisserman等人[2]從圖像中提取局部的興趣點(diǎn)并計(jì)算SIFT描述子[4],然后利用單詞袋模型(bag-of-words model)將每張圖像中的SIFT描述子編碼成一個(gè)統(tǒng)計(jì)直方圖作為圖像最終的特征表達(dá)。他們采用在文檔檢索領(lǐng)域經(jīng)常使用的倒排索引表方法完成圖像的快速檢索。Perronnin等人[8]從圖像的一組SIFT描述子中計(jì)算一個(gè)Fisher Vector特征,然后基于最近鄰的檢索方法完成圖像檢索。類似的,Jegou等人[9]提出了VLAD描述子,該描述子和Fisher Vector類似,都是由一組SIFT描述子推導(dǎo)得到,同樣能夠捕獲SIFT描述子的統(tǒng)計(jì)特性。他們同樣采用最近鄰的檢索方法完成圖像檢索。Chen等人[1]從圖像中提取全局的顏色、紋理和形狀特征,并依據(jù)單詞袋模型計(jì)算一個(gè)顏色、紋理和形狀的直方圖特征進(jìn)行圖像檢索。
2.2基于深度學(xué)習(xí)的高層特征表達(dá)
利用深度學(xué)習(xí)的方法為圖像學(xué)習(xí)提供一種包含語(yǔ)義信息的高層特征表達(dá)。深度學(xué)習(xí)指的是一類算法,該類算法通過(guò)有監(jiān)督或無(wú)監(jiān)督地學(xué)習(xí)很多層次的非線性變換從而使得同類數(shù)據(jù)間的距離變小,而不同類別數(shù)據(jù)間的距離加大。換句話說(shuō),深度學(xué)習(xí)通過(guò)多個(gè)層次的抽象使得差異較大的同類數(shù)據(jù)具有相似的高層表達(dá),從而做到對(duì)于較大類內(nèi)差異的魯棒性。
Krizhevsky和Hinton等人[10]通過(guò)學(xué)習(xí)多層的深度自編碼模型(auto-encoder)得到圖像的二值表達(dá)(Binarized representation),從而進(jìn)行高效的圖像檢索。通過(guò)實(shí)驗(yàn)表明該自編碼模型能夠捕獲圖像中的抽象信息,從而對(duì)存在變化的同類圖像得到相似的表達(dá)。該方法在比較簡(jiǎn)單的數(shù)據(jù)集上得到了比直接基于像素的匹配更好的結(jié)果,但是在較復(fù)雜的數(shù)據(jù)集上,該表達(dá)方式還未得到較令人滿意的結(jié)果。
最近的一些工作[11]通過(guò)實(shí)驗(yàn)證明采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network)中的某些層的特征(比如全連接層的第6-8層)作為圖像的表達(dá)可以和傳統(tǒng)的分類方法相結(jié)合進(jìn)行諸如分類、分割等操作。受到這些成功應(yīng)用的啟發(fā),Lin,Yang, Hsiao和Chen等人[12]在卷積神經(jīng)網(wǎng)絡(luò)的全連接層的倒數(shù)第二層加入一個(gè)二值化層對(duì)網(wǎng)絡(luò)進(jìn)行重新訓(xùn)練,并將此二值化層的響應(yīng)值作為圖像的表達(dá)進(jìn)行圖像檢索。該方法在衣服等商品數(shù)據(jù)集上取得了不錯(cuò)的結(jié)果。
文章主要通過(guò)實(shí)驗(yàn)來(lái)回答如下幾個(gè)問(wèn)題:①不同的網(wǎng)絡(luò)模型對(duì)檢索性能的影響。討論不同的卷積神經(jīng)網(wǎng)絡(luò),比如AlexNet[5],OxfordNet[6]和GoogleNet[7],在圖像檢索數(shù)據(jù)集上的性能。②使用網(wǎng)絡(luò)模型中的不同層(比如全連接層的第6到8層以及不同的卷積層等)對(duì)結(jié)果的影響。③在基于底層特征的圖像檢索存在很多提升檢索性能的技術(shù),比如對(duì)特征進(jìn)行開平方再歸一化操作等,那么將這些技術(shù)應(yīng)用到基于深度特征時(shí)會(huì)對(duì)性能有何影響?
3.1不同網(wǎng)絡(luò)的結(jié)構(gòu)
AlexNet網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)如表1所示。
表1 AlexNet網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)
OxfordNet也叫VggNet[6],網(wǎng)絡(luò)結(jié)構(gòu)與AlexNet非常相似,同樣包含若干層(8-16)的卷積層,然后連接3層的全連接層。與AlexNet不同的是卷積層的模板更?。ǘ紴?),但是網(wǎng)絡(luò)深度更深,模型的參數(shù)個(gè)數(shù)更少,這對(duì)于避免過(guò)適問(wèn)題具有一定作用。GoogleNet是由Szegedy,Liu,Jia等人[7]在2014年設(shè)計(jì)的包含22層的卷積神經(jīng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)最大的特點(diǎn)就是通過(guò)優(yōu)化計(jì)算資源的利用率,在不增加網(wǎng)絡(luò)參數(shù)的前提下將網(wǎng)絡(luò)的寬度和深度增加,從而增強(qiáng)了其表達(dá)能力。
3.2實(shí)驗(yàn)數(shù)據(jù)集
在常用的Oxford Buildings數(shù)據(jù)集[4]上對(duì)所提出的方法進(jìn)行實(shí)驗(yàn)驗(yàn)證。該數(shù)據(jù)集包含了牛津大學(xué)的11個(gè)地標(biāo)建筑一共5062個(gè)圖像,這些圖像是由牛津大學(xué)的研究人員在Flickr網(wǎng)站上收集的。每個(gè)地標(biāo)建筑包含5個(gè)查詢圖像,因此一共55個(gè)查詢圖像。通過(guò)計(jì)算查詢圖像的平均準(zhǔn)確率來(lái)對(duì)所提出的方法進(jìn)行量化評(píng)價(jià)。
3.3網(wǎng)絡(luò)不同層之間的檢索性能比較
針對(duì)三種不同的網(wǎng)絡(luò)結(jié)構(gòu)(AlexNet,OxfordNet和GoogleNet),分別分析使用網(wǎng)絡(luò)的不同層作為圖像的特征表達(dá)時(shí)對(duì)圖像檢索精度的影響。
圖1 OxfordNet不同層的檢索結(jié)果
圖1顯示了OxfordNet的不同層在Oxford Buildings數(shù)據(jù)集上的檢索結(jié)果。可以看到fc6層(全連接層6)的檢索精度是最高的。而fc7,fc8和prob層的檢索精度逐漸下降,這主要是因?yàn)檫@三層逐漸捕獲到越來(lái)越抽象的圖像特征,比如圖像中物體的類別信息,而抽象的表達(dá)會(huì)忽略圖像中包含的細(xì)節(jié),從而喪失了檢索精度。Pool5層表示在第五層卷基層后進(jìn)行特征各維最大匯總(max pooling)操作后得到的特征,該層能夠捕獲圖像的細(xì)節(jié),但是因?yàn)槿狈σ欢ǖ聂敯粜裕虼私Y(jié)果相比較于fc6差一些。
圖2 AlexNet不同層的檢索結(jié)果
圖2顯示了AlexNet的不同層在Oxford Buildings數(shù)據(jù)集上的檢索結(jié)果??梢钥吹讲煌瑢又g的趨勢(shì)和OxfordNet上的不同層之間的結(jié)果類似,其中fc6取得了最好的結(jié)果,而fc7,fc8和prob層的檢索準(zhǔn)確度逐漸下降。
圖3 GoogleNet不同層的檢索結(jié)果
圖3顯示了GoogleNet的不同層在Oxford Buildings數(shù)據(jù)集上的檢索結(jié)果。和OxfordNet和AlexNet不同,GoogleNet的匯總層(pooling)的結(jié)果比全連接層(fc)的結(jié)果要好。特別地,在pool5層的結(jié)果最好,準(zhǔn)確率在46%左右。
3.4不同網(wǎng)絡(luò)結(jié)構(gòu)對(duì)結(jié)果的影響
AlexNet,OxfordNet和GoogleNet是當(dāng)前最常使用的網(wǎng)絡(luò)結(jié)構(gòu),其網(wǎng)絡(luò)深度也逐漸加深,分別是8層、19層和22層。對(duì)比圖1、圖2和圖3,可以看到檢索的精度隨著網(wǎng)絡(luò)深度的增加也在逐漸提高,分別是40%,45%和46%。這說(shuō)明了網(wǎng)絡(luò)深度對(duì)于檢索性能的影響是比較顯著的。
3.5特征的預(yù)處理和后處理對(duì)結(jié)果的影響
在基于底層特征的圖像檢索中,研究人員為了避免某維特征的量級(jí)(magnitude)過(guò)大從而控制了整體的距離度量,通常會(huì)采用首先對(duì)特征進(jìn)行開方,然后再對(duì)特征進(jìn)行歸一化的操作?;谠摬僮鲗?duì)于深度特征的影響進(jìn)行評(píng)價(jià)。圖1、圖2和圖3中的紅色曲線表示對(duì)相應(yīng)的特征進(jìn)行開方操作后得到的檢索準(zhǔn)確率,可以看到,該操作在大多數(shù)情況下能夠比較顯著的提高檢索準(zhǔn)確率。
以AlexNet、OxfordNet和GoogleNet為研究對(duì)象,研究深度學(xué)習(xí)得到的圖像特征在圖像檢索任務(wù)中的性能。具體地,對(duì)比了深度學(xué)習(xí)網(wǎng)絡(luò)中不同層的結(jié)果,通過(guò)實(shí)驗(yàn)證明fc6層對(duì)于類內(nèi)差異具有一定的魯棒性,并且又能捕獲一定的圖像細(xì)節(jié),因此比較適用于圖像檢索。此外,還對(duì)比了不同的網(wǎng)絡(luò)的性能,并通過(guò)實(shí)驗(yàn)表明隨著網(wǎng)絡(luò)層數(shù)的增加,檢索性能也逐漸得到提升。最后,通過(guò)實(shí)驗(yàn)驗(yàn)證了對(duì)特征進(jìn)行開方操作能夠進(jìn)一步提升檢索的性能。
[1]ZhangChen,Lingyu-Duan,ChunyuWang, Tiejun Huang,Wen Gao.Generating vocabulary forglobalfeaturerepresentationtowards commerce image retrieval[C].IEEE ICIP 2011: 105-108.
[2]Josef Sivic,Andrew Zisserman.Video Google:A text retrieval approach to object matching in videos[C].IEEE ICCV,2003:1470-1477.
[3]James Philbin,Ondrej Chum,Michael Isard,Josef Sivic,Andrew Zisserman.Object retrieval with large vocabularies and fast spatial matching[C]. IEEE CVPR,2007:1-8.
[4]DavidLowe.Objectrecognitionfromlocal scale-invariant features[C].IEEE ICCV,1999: 1150-1157.
[5]Alex Krizhevsky,Ilya Sutskever,Geoffrey Hinton. Imagenet classification with deep convolutional neural networks[C].NIPS,2012:1097-1105.
[6]Karen Simonyan,Andrew Zisserman.Very deep convolutionalnetworksforlarge-scaleimage recognition[C].Arxiv:1409.1556,2014.
[7]Christian Szegedy,Liu Wei,Jia Yangqing,Pierre Sermanet,ScottReed,DragomirAnguelov, Dumitru Erhan,Vincent Vanhoucke,Andrew Rabinovich.Going deeper with convolutions[C]. Arxiv:1409.4842 2014.
[8]Florent Perronnin,Jorge Sanchez,Thomas Mensink. Improving the fisher kernel for large-scale image classification[C].IEEE ECCV,2010:143-156.
[9]Herve Jegou,Matthijs Douze,Cordelia Schmid, Patrick Perez.Aggregating local descriptors into a compact image representation[C].IEEE CVPR, 2010:3304-3311.
[10]Alex Krizhevsky,Geoffrey Hinton.Using very deepautoencodersforcontent-basedimage retrieval[C].ESANN,2011.
[11]Jeff Donahue,Jia Yangqing,Oriol Vinyals,Judy Hoffman,ZhangNing,EricTzeng,Trevor Darrel.Decaf:A deep convolutional activation feature for generic visual recognition[C].Arixv: 1310.1531 2013.
[12]Lin Kevin,Yang Huei-Fang,Hsiao Jen-Hao, Chen Chu-Song.Deep learning of binary codes for fast image retrieval[C].CVPRW,2015: 27-35.
(責(zé)任編輯張劍妹)
TB553
A
1673-2014(2016)05-0033-04
2016—04—21
王新龍(1964—),男,山西沁水人,副教授,主要從事數(shù)據(jù)庫(kù)技術(shù)、信息技術(shù)教學(xué)研究。
長(zhǎng)治學(xué)院學(xué)報(bào)2016年5期