雙分支網(wǎng)絡(luò)架構(gòu)下的圖像相似度學(xué)習(xí)

2020-01-03 06:49:10馬成賢周嫣然

測(cè)繪通報(bào) 2019年12期

關(guān)鍵詞：雙通道網(wǎng)絡(luò)結(jié)構(gòu)權(quán)值

盧健，馬成賢，周嫣然，李哲

(西安工程大學(xué)電子信息學(xué)報(bào)，陜西西安 710048)

圖像相似度學(xué)習(xí)作為計(jì)算機(jī)視覺(jué)基礎(chǔ)研究問(wèn)題，被廣泛應(yīng)用于圖像質(zhì)量評(píng)估、圖像檢索、行人再識(shí)別、人臉識(shí)別任務(wù)研究中。由于不同場(chǎng)景下圖像特征信息量和復(fù)雜度差異較大，并且圖像易受光線變化、局部遮擋等外部因素影響，如何準(zhǔn)確、快速地判別兩幅圖像是否相似極具挑戰(zhàn)性[1]。

傳統(tǒng)機(jī)器學(xué)習(xí)方法主要基于人為設(shè)定的特征描述子來(lái)判別圖像相似度。例如，在不變特征提取中SIFT(scale-invariant feature transform)[2]占據(jù)著重要地位，但對(duì)于邊緣光滑的目標(biāo)特征提取，特征點(diǎn)捕捉準(zhǔn)確率較低，實(shí)時(shí)性差。SURF(speed up robust features)[3]通過(guò)檢測(cè)特征興趣點(diǎn)和關(guān)鍵點(diǎn)描述兩步進(jìn)行相似度判別。近年來(lái)為了符合人類視覺(jué)判斷機(jī)制，通過(guò)一種感知距離(perceptual distance)來(lái)衡量?jī)蓮垐D像的相似性[4]，如SSIM(structural similarity index)[5]、FSIM(feature similarity index)[6]、MSSIM(mean structural similarity)[7]和GSSIM(grid scheduling simulator)[8]等方法研究取得了很好的效果，但是由于過(guò)于依賴人工提取特征和參數(shù)設(shè)定，沒(méi)有直接利用圖像特征信息，實(shí)現(xiàn)過(guò)程復(fù)雜、耗時(shí)；提取特征少，容易導(dǎo)致圖像匹配不足[9]。

隨著深度學(xué)習(xí)方法的不斷應(yīng)用，圖像相似度學(xué)習(xí)的主要研究方向有：①采用深度學(xué)習(xí)網(wǎng)絡(luò)以驅(qū)動(dòng)迭代優(yōu)化估計(jì)圖像對(duì)的相似性；②直接利用深度回歸網(wǎng)絡(luò)預(yù)測(cè)轉(zhuǎn)換參數(shù)[10]。如文獻(xiàn)[11]將AlexNet第1層卷積核作為特征描述符計(jì)算圖像數(shù)據(jù)集的局部特征，相比人工提取的描述符效果更佳；文獻(xiàn)[12]針對(duì)不同任務(wù)研究和數(shù)據(jù)集，設(shè)計(jì)和訓(xùn)練了不同卷積神經(jīng)網(wǎng)絡(luò)模型，以學(xué)習(xí)圖像塊之間的相似度，取得了很好效果，但網(wǎng)絡(luò)訓(xùn)練比較耗時(shí)；文獻(xiàn)[13]提出一種歸一化的連體網(wǎng)絡(luò)，測(cè)試階段將特征提取網(wǎng)絡(luò)和度量網(wǎng)絡(luò)分開(kāi)進(jìn)行，以避免圖像匹配時(shí)特征提取的重復(fù)計(jì)算；文獻(xiàn)[14]設(shè)計(jì)的連體網(wǎng)絡(luò)，用歐氏距離計(jì)算相似度，采用快速近似最近鄰算法使得匹配過(guò)程更快；文獻(xiàn)[15—16]中提出的一種基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)結(jié)構(gòu)的孿生網(wǎng)絡(luò)(siamese net)，利用權(quán)值共享的左右分支網(wǎng)絡(luò)來(lái)提取圖像特征，通過(guò)計(jì)算歐氏距離度量圖像相似度，但由于提取特征信息單一，準(zhǔn)確率較低；文獻(xiàn)[17]利用多種局部特征描述子進(jìn)行相似度判別，在KITTI數(shù)據(jù)集上取得了很好的效果，但僅局限于窄基線變化范圍較小的場(chǎng)景下；2015年提出的基于Siamese網(wǎng)絡(luò)改進(jìn)的雙通道(two-channel)網(wǎng)絡(luò)[18]，通過(guò)將雙分支合并，將合并后的雙通道圖像由CNN提取融合特征來(lái)提升準(zhǔn)確率。此外，為了有效挖掘圖像內(nèi)容信息來(lái)表征圖像間的相似性，基于CNN結(jié)構(gòu)基礎(chǔ)上進(jìn)行不斷改進(jìn)的模型還有SimNet(stepwise image-topic merging network)[19]、NCC-Net(normalized cross correlation-net)[20]等。

綜上所述，圖像相似度學(xué)習(xí)研究的關(guān)鍵在于提取特征。本文采用深度學(xué)習(xí)網(wǎng)絡(luò)以驅(qū)動(dòng)迭代優(yōu)化估計(jì)圖像對(duì)的相似度，在Siamese網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上借鑒雙通道網(wǎng)絡(luò)的雙通道圖像輸入，設(shè)計(jì)了一種雙分支(two-branch)網(wǎng)絡(luò)。網(wǎng)絡(luò)輸入采用Central-surround方法將雙通道圖像數(shù)據(jù)進(jìn)行裁剪，由權(quán)值不共享的左右分支網(wǎng)絡(luò)提取單通道圖像特征，經(jīng)過(guò)特征融合后直接輸入全連接層進(jìn)行相似度學(xué)習(xí)。該網(wǎng)絡(luò)具有以下優(yōu)點(diǎn)：①可以直接從圖像數(shù)據(jù)中學(xué)習(xí)圖像的相似性(即沒(méi)有人為設(shè)計(jì)的特征描述子)；②雙分支網(wǎng)絡(luò)結(jié)構(gòu)提取的單通道特征改善了網(wǎng)絡(luò)提取特征多樣性，在全連接層直接學(xué)習(xí)圖像相似度加快了網(wǎng)絡(luò)訓(xùn)練速度。

1 相關(guān)工作

圖像相似度學(xué)習(xí)被認(rèn)為是判斷兩張圖片是否匹配，而不是計(jì)算相似度數(shù)值。因此在網(wǎng)絡(luò)訓(xùn)練時(shí)，數(shù)據(jù)標(biāo)注方式為：如果兩張圖片相似，對(duì)應(yīng)輸出為1；不相似則對(duì)應(yīng)輸出為-1。

1.1 Siamese網(wǎng)絡(luò)

Siamese網(wǎng)絡(luò)原理類似于提取圖像的描述子[14，21]，網(wǎng)絡(luò)結(jié)構(gòu)為左右分支結(jié)構(gòu)相同且權(quán)值共享。該網(wǎng)絡(luò)首先將圖片對(duì)(X1,X2)作為網(wǎng)絡(luò)輸入數(shù)據(jù)，然后X1和X2分別通過(guò)左右分支網(wǎng)絡(luò)提取特征向量，以歐氏距離作為損失函數(shù)來(lái)判斷圖像對(duì)是否相似。圖1所示為Siamese網(wǎng)絡(luò)結(jié)構(gòu)。

圖1中，GW(X1)為網(wǎng)絡(luò)左分支提取的特征向量；GW(X2)為網(wǎng)絡(luò)右分支提取的特征向量；EW(X1,X2)表示網(wǎng)絡(luò)輸出結(jié)果。當(dāng)輸入圖片對(duì)相似時(shí)，EW(X1,X2)值接近1；否則接近0。損失函數(shù)如下

EW(X1,X2)=‖GW(X1)-GW(X2)‖

(1)

相比傳統(tǒng)CNN模型[22-23]，Siamese網(wǎng)絡(luò)的主要優(yōu)勢(shì)在于：①淡化了標(biāo)簽，使得網(wǎng)絡(luò)擴(kuò)展性強(qiáng)，可以對(duì)未訓(xùn)練數(shù)據(jù)直接進(jìn)行分類任務(wù)；②采用網(wǎng)絡(luò)多輸入方法，變相地增加了整個(gè)數(shù)據(jù)集大小，可適用于小樣本數(shù)據(jù)。由于該網(wǎng)絡(luò)左右分支網(wǎng)絡(luò)權(quán)值共享，導(dǎo)致提取圖像特征信息單一，對(duì)圖像局部差異較小的圖像識(shí)別效果較差。

1.2 雙通道網(wǎng)絡(luò)

與Siamese網(wǎng)絡(luò)結(jié)構(gòu)不同，雙通道網(wǎng)絡(luò)輸入為雙通道圖像輸入，通過(guò)卷積神經(jīng)網(wǎng)絡(luò)來(lái)提取雙通道圖像融合特征后，直接輸入全連接層進(jìn)行相似度學(xué)習(xí)。圖2所示為雙通道網(wǎng)絡(luò)結(jié)構(gòu)。

圖2中，網(wǎng)絡(luò)輸入為直接將雙通道圖像(圖像對(duì))，通過(guò)CNN提取雙通道圖像融合特征后，直接由全連接層進(jìn)行圖像相似度學(xué)習(xí)，最后決策層采用Softmax分類器。同時(shí)該網(wǎng)絡(luò)直接處理圖片對(duì)數(shù)據(jù)，網(wǎng)絡(luò)靈活性強(qiáng)，模型訓(xùn)練及測(cè)試速度比較快，但由于提取的融合特征信息單一，一定程度上影響了圖像相似度學(xué)習(xí)，導(dǎo)致準(zhǔn)確率受到影響。

2 雙分支網(wǎng)絡(luò)

2.1 網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)

本文基于Siamese網(wǎng)絡(luò)結(jié)構(gòu)，借鑒雙通道網(wǎng)絡(luò)提取雙通道圖像融合特征后，直接在全連接層進(jìn)行相似度學(xué)習(xí)的過(guò)程，提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的雙分支網(wǎng)絡(luò)。左右分支網(wǎng)絡(luò)結(jié)構(gòu)為相同的淺層CNN網(wǎng)絡(luò)，用于提取淺層特征來(lái)提高相似度學(xué)習(xí)準(zhǔn)確率[24]，與Siamese網(wǎng)絡(luò)不同的是該網(wǎng)絡(luò)左右分支網(wǎng)絡(luò)權(quán)值不共享，由融合層對(duì)提取單通道圖像特征進(jìn)行融合后直接輸入全連接層進(jìn)行相似度學(xué)習(xí)，如圖3所示。

圖3中雙分支網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)為：權(quán)值不共享的雙分支結(jié)構(gòu)+融合層(merge layer)+全連接+Softmax分類器。首先將網(wǎng)絡(luò)輸入圖像對(duì)(X1,X2)，采用Central-surround方法將圖像對(duì)(2，32，32)進(jìn)行中心裁剪；然后并行輸入左右分支CNN網(wǎng)絡(luò)，分別提取單通道圖像特征；最后直接輸入全連接層進(jìn)行相似度學(xué)習(xí)。

2.2 模型訓(xùn)練

在監(jiān)督學(xué)習(xí)模式下，為了量化模型性能和優(yōu)化模型，目標(biāo)函數(shù)采用L2正則化和鉸鏈(hinge-based)損失函數(shù)

(2)

3 試驗(yàn)設(shè)計(jì)與結(jié)果分析

3.1 試驗(yàn)數(shù)據(jù)集

試驗(yàn)數(shù)據(jù)集由實(shí)驗(yàn)室工業(yè)相機(jī)拍攝的芯片卡槽圖像構(gòu)成，圖像大小為32×32，圖像共計(jì)16 800張。根據(jù)圖像相似度數(shù)據(jù)標(biāo)注方式，將圖像分別按相似與不相似組成圖片對(duì)，如圖4所示。網(wǎng)絡(luò)訓(xùn)練時(shí)，訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集劃分見(jiàn)表1。

數(shù)據(jù)集相似/對(duì)不相似/對(duì)訓(xùn)練集41803820測(cè)試集235165

為了評(píng)估數(shù)據(jù)圖像對(duì)組合的合理性，本文采用哈希算法分別評(píng)估數(shù)據(jù)集相似對(duì)和不相似對(duì)中2個(gè)圖像的相似度。圖5為對(duì)應(yīng)圖4的數(shù)據(jù)圖像對(duì)評(píng)估樣例圖(即2個(gè)圖像每一行像素值平均值的對(duì)比曲線圖)。

圖5(a)為對(duì)應(yīng)圖4(a)隨機(jī)圖像對(duì)的2張圖像(X1，X2)相似度評(píng)估樣例圖，其2張圖像積間的方差差值為10.69；圖5(b)為對(duì)應(yīng)圖4(b)不相似圖像對(duì)的2張圖像(X1，X2)的相似度評(píng)估樣例圖，其2張圖像間的方差差值為326.54。方差差值越小，說(shuō)明2張圖像越相似，也驗(yàn)證了組合圖像對(duì)的可靠性。

3.2 試驗(yàn)環(huán)境及參數(shù)設(shè)置

試驗(yàn)環(huán)境：Windows10系統(tǒng)，內(nèi)存4 GB，顯卡為1060 ti；API為Keras；后端深度學(xué)習(xí)框架為Tensorflow；編程語(yǔ)言為Python。

Siamese、雙通道、雙分支3種網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)設(shè)置：卷積核大小設(shè)定為3×3；采用最大值池化(max-pooling)，其核大小為2×2；網(wǎng)絡(luò)對(duì)應(yīng)每層輸出的特征圖大小分別為16、16、32、32；全連接層參數(shù)分別為1024、512、2。

3.3 試驗(yàn)結(jié)果分析

為了保證數(shù)據(jù)評(píng)估效果與在真實(shí)場(chǎng)景下模型對(duì)未知數(shù)據(jù)預(yù)判的結(jié)果相近，在模型訓(xùn)練時(shí)，數(shù)據(jù)集劃分了訓(xùn)練集和測(cè)試集[26]。如圖6所示，網(wǎng)絡(luò)訓(xùn)練批次周期為10，圖6(a)、(b)、(c)分別為Siamese、雙通道、雙分支模型訓(xùn)練時(shí)，訓(xùn)練集和驗(yàn)證集的損失(loss)和準(zhǔn)確率(accuracy)隨批次周期(epoch)的變化曲線。3種模型相似度學(xué)習(xí)性能對(duì)比見(jiàn)表2。

模型訓(xùn)練時(shí)間/s測(cè)試時(shí)間/s訓(xùn)練準(zhǔn)確率/(%)測(cè)試準(zhǔn)確率/(%)孿生網(wǎng)絡(luò)1540.1769.0953.08雙通道網(wǎng)絡(luò)1000.1199.8892.19雙分支網(wǎng)絡(luò)1500.1599.8097.96

圖6中，3種模型在訓(xùn)練過(guò)程中，損失函數(shù)收斂所需批次周期分別為8、6、4。由Siamese、雙通道和雙分支3種網(wǎng)絡(luò)的預(yù)測(cè)準(zhǔn)確率與訓(xùn)練準(zhǔn)確率變化曲線可以看出，Siamese網(wǎng)絡(luò)loss值較大，且loss曲線變化值較??；雙通道網(wǎng)絡(luò)loss值變化范圍較小，波動(dòng)較大；因此，二者模型收斂所需批次周期較大。相比之下，在批次周期為4時(shí)，本文雙分支網(wǎng)絡(luò)loss值快速下降，并逐漸趨于0，而準(zhǔn)確率變化曲線平滑程度較為明顯。由此證明，雙分支模型的網(wǎng)絡(luò)學(xué)習(xí)能力(準(zhǔn)確率達(dá)97.96%)和模型的范化能力(訓(xùn)練準(zhǔn)確率曲線和預(yù)測(cè)準(zhǔn)確率曲線基本持平)明顯占據(jù)優(yōu)勢(shì)。

由表2可以看出，由于Siamese網(wǎng)絡(luò)權(quán)值共享，模型提取圖像特征單一，導(dǎo)致識(shí)別率較低；雙通道網(wǎng)絡(luò)通過(guò)CNN直接處理雙通道圖像，減少了網(wǎng)絡(luò)訓(xùn)練時(shí)間，由于網(wǎng)絡(luò)提取雙通道圖像融合特征單一，導(dǎo)致準(zhǔn)確率較低；雙分支網(wǎng)絡(luò)將左右分支提取的單通道圖像特征融合后，直接輸入全連接層進(jìn)行相似度學(xué)習(xí)，改善了網(wǎng)絡(luò)提取特征多樣性，相對(duì)雙通道網(wǎng)絡(luò)準(zhǔn)確率提升了5個(gè)百分點(diǎn)。但由于權(quán)值不共享，依賴參數(shù)較多，相比雙通道網(wǎng)絡(luò)訓(xùn)練時(shí)間較長(zhǎng)。

4 結(jié) 語(yǔ)

本文提出了一種權(quán)值不共享的雙分支(Two-branch)網(wǎng)絡(luò)。試驗(yàn)結(jié)果表明，該網(wǎng)絡(luò)在提取圖像特征信息時(shí)，由左右分支網(wǎng)絡(luò)提取單一圖像特征向量后，對(duì)單一圖像特征向量進(jìn)行融合，然后直接學(xué)習(xí)圖片對(duì)的相似度，從而一方面改善了提取的圖像特征多樣性，有效提升了準(zhǔn)確率；另一方面加快了模型訓(xùn)練速度，增強(qiáng)了網(wǎng)絡(luò)學(xué)習(xí)能力和模型泛化能力。其網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)對(duì)計(jì)算機(jī)視覺(jué)任務(wù)研究具有重要的應(yīng)用推廣價(jià)值。但是，在試驗(yàn)過(guò)程中發(fā)現(xiàn)由于左右分支網(wǎng)絡(luò)權(quán)值不共享，網(wǎng)絡(luò)訓(xùn)練受限于數(shù)據(jù)量，在數(shù)據(jù)不足時(shí)，易產(chǎn)生過(guò)擬合，從而影響圖像相似度學(xué)習(xí)準(zhǔn)確率。因此以后工作中有待研究的問(wèn)題如下：①以數(shù)據(jù)增強(qiáng)和特征提取多樣性為研究點(diǎn)，改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)，不斷優(yōu)化相似度學(xué)習(xí)效率；②對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行推廣應(yīng)用，進(jìn)一步驗(yàn)證網(wǎng)絡(luò)的有效性，并挖掘其可能的改進(jìn)方案。