盧 健,馬成賢,周嫣然,李 哲
(西安工程大學(xué)電子信息學(xué)報(bào),陜西 西安 710048)
圖像相似度學(xué)習(xí)作為計(jì)算機(jī)視覺(jué)基礎(chǔ)研究問(wèn)題,被廣泛應(yīng)用于圖像質(zhì)量評(píng)估、圖像檢索、行人再識(shí)別、人臉識(shí)別任務(wù)研究中。由于不同場(chǎng)景下圖像特征信息量和復(fù)雜度差異較大,并且圖像易受光線變化、局部遮擋等外部因素影響,如何準(zhǔn)確、快速地判別兩幅圖像是否相似極具挑戰(zhàn)性[1]。
傳統(tǒng)機(jī)器學(xué)習(xí)方法主要基于人為設(shè)定的特征描述子來(lái)判別圖像相似度。例如,在不變特征提取中SIFT(scale-invariant feature transform)[2]占據(jù)著重要地位,但對(duì)于邊緣光滑的目標(biāo)特征提取,特征點(diǎn)捕捉準(zhǔn)確率較低,實(shí)時(shí)性差。SURF(speed up robust features)[3]通過(guò)檢測(cè)特征興趣點(diǎn)和關(guān)鍵點(diǎn)描述兩步進(jìn)行相似度判別。近年來(lái)為了符合人類視覺(jué)判斷機(jī)制,通過(guò)一種感知距離(perceptual distance)來(lái)衡量?jī)蓮垐D像的相似性[4],如SSIM(structural similarity index)[5]、FSIM(feature similarity index)[6]、MSSIM(mean structural similarity)[7]和GSSIM(grid scheduling simulator)[8]等方法研究取得了很好的效果,但是由于過(guò)于依賴人工提取特征和參數(shù)設(shè)定,沒(méi)有直接利用圖像特征信息,實(shí)現(xiàn)過(guò)程復(fù)雜、耗時(shí);提取特征少,容易導(dǎo)致圖像匹配不足[9]。
隨著深度學(xué)習(xí)方法的不斷應(yīng)用,圖像相似度學(xué)習(xí)的主要研究方向有:①采用深度學(xué)習(xí)網(wǎng)絡(luò)以驅(qū)動(dòng)迭代優(yōu)化估計(jì)圖像對(duì)的相似性;②直接利用深度回歸網(wǎng)絡(luò)預(yù)測(cè)轉(zhuǎn)換參數(shù)[10]。如文獻(xiàn)[11]將AlexNet第1層卷積核作為特征描述符計(jì)算圖像數(shù)據(jù)集的局部特征,相比人工提取的描述符效果更佳;文獻(xiàn)[12]針對(duì)不同任務(wù)研究和數(shù)據(jù)集,設(shè)計(jì)和訓(xùn)練了不同卷積神經(jīng)網(wǎng)絡(luò)模型,以學(xué)習(xí)圖像塊之間的相似度,取得了很好效果,但網(wǎng)絡(luò)訓(xùn)練比較耗時(shí);文獻(xiàn)[13]提出一種歸一化的連體網(wǎng)絡(luò),測(cè)試階段將特征提取網(wǎng)絡(luò)和度量網(wǎng)絡(luò)分開(kāi)進(jìn)行,以避免圖像匹配時(shí)特征提取的重復(fù)計(jì)算;文獻(xiàn)[14]設(shè)計(jì)的連體網(wǎng)絡(luò),用歐氏距離計(jì)算相似度,采用快速近似最近鄰算法使得匹配過(guò)程更快;文獻(xiàn)[15—16]中提出的一種基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)結(jié)構(gòu)的孿生網(wǎng)絡(luò)(siamese net),利用權(quán)值共享的左右分支網(wǎng)絡(luò)來(lái)提取圖像特征,通過(guò)計(jì)算歐氏距離度量圖像相似度,但由于提取特征信息單一,準(zhǔn)確率較低;文獻(xiàn)[17]利用多種局部特征描述子進(jìn)行相似度判別,在KITTI數(shù)據(jù)集上取得了很好的效果,但僅局限于窄基線變化范圍較小的場(chǎng)景下;2015年提出的基于Siamese網(wǎng)絡(luò)改進(jìn)的雙通道(two-channel)網(wǎng)絡(luò)[18],通過(guò)將雙分支合并,將合并后的雙通道圖像由CNN提取融合特征來(lái)提升準(zhǔn)確率。此外,為了有效挖掘圖像內(nèi)容信息來(lái)表征圖像間的相似性,基于CNN結(jié)構(gòu)基礎(chǔ)上進(jìn)行不斷改進(jìn)的模型還有SimNet(stepwise image-topic merging network)[19]、NCC-Net(normalized cross correlation-net)[20]等。
綜上所述,圖像相似度學(xué)習(xí)研究的關(guān)鍵在于提取特征。本文采用深度學(xué)習(xí)網(wǎng)絡(luò)以驅(qū)動(dòng)迭代優(yōu)化估計(jì)圖像對(duì)的相似度,在Siamese網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上借鑒雙通道網(wǎng)絡(luò)的雙通道圖像輸入,設(shè)計(jì)了一種雙分支(two-branch)網(wǎng)絡(luò)。網(wǎng)絡(luò)輸入采用Central-surround方法將雙通道圖像數(shù)據(jù)進(jìn)行裁剪,由權(quán)值不共享的左右分支網(wǎng)絡(luò)提取單通道圖像特征,經(jīng)過(guò)特征融合后直接輸入全連接層進(jìn)行相似度學(xué)習(xí)。該網(wǎng)絡(luò)具有以下優(yōu)點(diǎn):①可以直接從圖像數(shù)據(jù)中學(xué)習(xí)圖像的相似性(即沒(méi)有人為設(shè)計(jì)的特征描述子);②雙分支網(wǎng)絡(luò)結(jié)構(gòu)提取的單通道特征改善了網(wǎng)絡(luò)提取特征多樣性,在全連接層直接學(xué)習(xí)圖像相似度加快了網(wǎng)絡(luò)訓(xùn)練速度。
圖像相似度學(xué)習(xí)被認(rèn)為是判斷兩張圖片是否匹配,而不是計(jì)算相似度數(shù)值。因此在網(wǎng)絡(luò)訓(xùn)練時(shí),數(shù)據(jù)標(biāo)注方式為:如果兩張圖片相似,對(duì)應(yīng)輸出為1;不相似則對(duì)應(yīng)輸出為-1。
Siamese網(wǎng)絡(luò)原理類似于提取圖像的描述子[14,21],網(wǎng)絡(luò)結(jié)構(gòu)為左右分支結(jié)構(gòu)相同且權(quán)值共享。該網(wǎng)絡(luò)首先將圖片對(duì)(X1,X2)作為網(wǎng)絡(luò)輸入數(shù)據(jù),然后X1和X2分別通過(guò)左右分支網(wǎng)絡(luò)提取特征向量,以歐氏距離作為損失函數(shù)來(lái)判斷圖像對(duì)是否相似。圖1所示為Siamese網(wǎng)絡(luò)結(jié)構(gòu)。
圖1中,GW(X1)為網(wǎng)絡(luò)左分支提取的特征向量;GW(X2)為網(wǎng)絡(luò)右分支提取的特征向量;EW(X1,X2)表示網(wǎng)絡(luò)輸出結(jié)果。當(dāng)輸入圖片對(duì)相似時(shí),EW(X1,X2)值接近1;否則接近0。損失函數(shù)如下
EW(X1,X2)=‖GW(X1)-GW(X2)‖
(1)
相比傳統(tǒng)CNN模型[22-23],Siamese網(wǎng)絡(luò)的主要優(yōu)勢(shì)在于:①淡化了標(biāo)簽,使得網(wǎng)絡(luò)擴(kuò)展性強(qiáng),可以對(duì)未訓(xùn)練數(shù)據(jù)直接進(jìn)行分類任務(wù);②采用網(wǎng)絡(luò)多輸入方法,變相地增加了整個(gè)數(shù)據(jù)集大小,可適用于小樣本數(shù)據(jù)。由于該網(wǎng)絡(luò)左右分支網(wǎng)絡(luò)權(quán)值共享,導(dǎo)致提取圖像特征信息單一,對(duì)圖像局部差異較小的圖像識(shí)別效果較差。
與Siamese網(wǎng)絡(luò)結(jié)構(gòu)不同,雙通道網(wǎng)絡(luò)輸入為雙通道圖像輸入,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)來(lái)提取雙通道圖像融合特征后,直接輸入全連接層進(jìn)行相似度學(xué)習(xí)。圖2所示為雙通道網(wǎng)絡(luò)結(jié)構(gòu)。
圖2中,網(wǎng)絡(luò)輸入為直接將雙通道圖像(圖像對(duì)),通過(guò)CNN提取雙通道圖像融合特征后,直接由全連接層進(jìn)行圖像相似度學(xué)習(xí),最后決策層采用Softmax分類器。同時(shí)該網(wǎng)絡(luò)直接處理圖片對(duì)數(shù)據(jù),網(wǎng)絡(luò)靈活性強(qiáng),模型訓(xùn)練及測(cè)試速度比較快,但由于提取的融合特征信息單一,一定程度上影響了圖像相似度學(xué)習(xí),導(dǎo)致準(zhǔn)確率受到影響。
本文基于Siamese網(wǎng)絡(luò)結(jié)構(gòu),借鑒雙通道網(wǎng)絡(luò)提取雙通道圖像融合特征后,直接在全連接層進(jìn)行相似度學(xué)習(xí)的過(guò)程,提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的雙分支網(wǎng)絡(luò)。左右分支網(wǎng)絡(luò)結(jié)構(gòu)為相同的淺層CNN網(wǎng)絡(luò),用于提取淺層特征來(lái)提高相似度學(xué)習(xí)準(zhǔn)確率[24],與Siamese網(wǎng)絡(luò)不同的是該網(wǎng)絡(luò)左右分支網(wǎng)絡(luò)權(quán)值不共享,由融合層對(duì)提取單通道圖像特征進(jìn)行融合后直接輸入全連接層進(jìn)行相似度學(xué)習(xí),如圖3所示。
圖3中雙分支網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)為:權(quán)值不共享的雙分支結(jié)構(gòu)+融合層(merge layer)+全連接+Softmax分類器。首先將網(wǎng)絡(luò)輸入圖像對(duì)(X1,X2),采用Central-surround方法將圖像對(duì)(2,32,32)進(jìn)行中心裁剪;然后并行輸入左右分支CNN網(wǎng)絡(luò),分別提取單通道圖像特征;最后直接輸入全連接層進(jìn)行相似度學(xué)習(xí)。
在監(jiān)督學(xué)習(xí)模式下,為了量化模型性能和優(yōu)化模型,目標(biāo)函數(shù)采用L2正則化和鉸鏈(hinge-based)損失函數(shù)
(2)
試驗(yàn)數(shù)據(jù)集由實(shí)驗(yàn)室工業(yè)相機(jī)拍攝的芯片卡槽圖像構(gòu)成,圖像大小為32×32,圖像共計(jì)16 800張。根據(jù)圖像相似度數(shù)據(jù)標(biāo)注方式,將圖像分別按相似與不相似組成圖片對(duì),如圖4所示。網(wǎng)絡(luò)訓(xùn)練時(shí),訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集劃分見(jiàn)表1。
數(shù)據(jù)集相似/對(duì)不相似/對(duì)訓(xùn)練集41803820測(cè)試集235165
為了評(píng)估數(shù)據(jù)圖像對(duì)組合的合理性,本文采用哈希算法分別評(píng)估數(shù)據(jù)集相似對(duì)和不相似對(duì)中2個(gè)圖像的相似度。圖5為對(duì)應(yīng)圖4的數(shù)據(jù)圖像對(duì)評(píng)估樣例圖(即2個(gè)圖像每一行像素值平均值的對(duì)比曲線圖)。
圖5(a)為對(duì)應(yīng)圖4(a)隨機(jī)圖像對(duì)的2張圖像(X1,X2)相似度評(píng)估樣例圖,其2張圖像積間的方差差值為10.69;圖5(b)為對(duì)應(yīng)圖4(b)不相似圖像對(duì)的2張圖像(X1,X2)的相似度評(píng)估樣例圖,其2張圖像間的方差差值為326.54。方差差值越小,說(shuō)明2張圖像越相似,也驗(yàn)證了組合圖像對(duì)的可靠性。
試驗(yàn)環(huán)境:Windows10系統(tǒng),內(nèi)存4 GB,顯卡為1060 ti;API為Keras;后端深度學(xué)習(xí)框架為Tensorflow;編程語(yǔ)言為Python。
Siamese、雙通道、雙分支3種網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)設(shè)置:卷積核大小設(shè)定為3×3;采用最大值池化(max-pooling),其核大小為2×2;網(wǎng)絡(luò)對(duì)應(yīng)每層輸出的特征圖大小分別為16、16、32、32;全連接層參數(shù)分別為1024、512、2。
為了保證數(shù)據(jù)評(píng)估效果與在真實(shí)場(chǎng)景下模型對(duì)未知數(shù)據(jù)預(yù)判的結(jié)果相近,在模型訓(xùn)練時(shí),數(shù)據(jù)集劃分了訓(xùn)練集和測(cè)試集[26]。如圖6所示,網(wǎng)絡(luò)訓(xùn)練批次周期為10,圖6(a)、(b)、(c)分別為Siamese、雙通道、雙分支模型訓(xùn)練時(shí),訓(xùn)練集和驗(yàn)證集的損失(loss)和準(zhǔn)確率(accuracy)隨批次周期(epoch)的變化曲線。3種模型相似度學(xué)習(xí)性能對(duì)比見(jiàn)表2。
模型訓(xùn)練時(shí)間/s測(cè)試時(shí)間/s訓(xùn)練準(zhǔn)確率/(%)測(cè)試準(zhǔn)確率/(%)孿生網(wǎng)絡(luò)1540.1769.0953.08雙通道網(wǎng)絡(luò)1000.1199.8892.19雙分支網(wǎng)絡(luò)1500.1599.8097.96
圖6中,3種模型在訓(xùn)練過(guò)程中,損失函數(shù)收斂所需批次周期分別為8、6、4。由Siamese、雙通道和雙分支3種網(wǎng)絡(luò)的預(yù)測(cè)準(zhǔn)確率與訓(xùn)練準(zhǔn)確率變化曲線可以看出,Siamese網(wǎng)絡(luò)loss值較大,且loss曲線變化值較??;雙通道網(wǎng)絡(luò)loss值變化范圍較小,波動(dòng)較大;因此,二者模型收斂所需批次周期較大。相比之下,在批次周期為4時(shí),本文雙分支網(wǎng)絡(luò)loss值快速下降,并逐漸趨于0,而準(zhǔn)確率變化曲線平滑程度較為明顯。由此證明,雙分支模型的網(wǎng)絡(luò)學(xué)習(xí)能力(準(zhǔn)確率達(dá)97.96%)和模型的范化能力(訓(xùn)練準(zhǔn)確率曲線和預(yù)測(cè)準(zhǔn)確率曲線基本持平)明顯占據(jù)優(yōu)勢(shì)。
由表2可以看出,由于Siamese網(wǎng)絡(luò)權(quán)值共享,模型提取圖像特征單一,導(dǎo)致識(shí)別率較低;雙通道網(wǎng)絡(luò)通過(guò)CNN直接處理雙通道圖像,減少了網(wǎng)絡(luò)訓(xùn)練時(shí)間,由于網(wǎng)絡(luò)提取雙通道圖像融合特征單一,導(dǎo)致準(zhǔn)確率較低;雙分支網(wǎng)絡(luò)將左右分支提取的單通道圖像特征融合后,直接輸入全連接層進(jìn)行相似度學(xué)習(xí),改善了網(wǎng)絡(luò)提取特征多樣性,相對(duì)雙通道網(wǎng)絡(luò)準(zhǔn)確率提升了5個(gè)百分點(diǎn)。但由于權(quán)值不共享,依賴參數(shù)較多,相比雙通道網(wǎng)絡(luò)訓(xùn)練時(shí)間較長(zhǎng)。
本文提出了一種權(quán)值不共享的雙分支(Two-branch)網(wǎng)絡(luò)。試驗(yàn)結(jié)果表明,該網(wǎng)絡(luò)在提取圖像特征信息時(shí),由左右分支網(wǎng)絡(luò)提取單一圖像特征向量后,對(duì)單一圖像特征向量進(jìn)行融合,然后直接學(xué)習(xí)圖片對(duì)的相似度,從而一方面改善了提取的圖像特征多樣性,有效提升了準(zhǔn)確率;另一方面加快了模型訓(xùn)練速度,增強(qiáng)了網(wǎng)絡(luò)學(xué)習(xí)能力和模型泛化能力。其網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)對(duì)計(jì)算機(jī)視覺(jué)任務(wù)研究具有重要的應(yīng)用推廣價(jià)值。但是,在試驗(yàn)過(guò)程中發(fā)現(xiàn)由于左右分支網(wǎng)絡(luò)權(quán)值不共享,網(wǎng)絡(luò)訓(xùn)練受限于數(shù)據(jù)量,在數(shù)據(jù)不足時(shí),易產(chǎn)生過(guò)擬合,從而影響圖像相似度學(xué)習(xí)準(zhǔn)確率。因此以后工作中有待研究的問(wèn)題如下:①以數(shù)據(jù)增強(qiáng)和特征提取多樣性為研究點(diǎn),改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu),不斷優(yōu)化相似度學(xué)習(xí)效率;②對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行推廣應(yīng)用,進(jìn)一步驗(yàn)證網(wǎng)絡(luò)的有效性,并挖掘其可能的改進(jìn)方案。