劉 富
(西華大學(xué),四川 成都 610039)
給出查詢語(yǔ)句,查詢圖像分割(Referring Image Segmentation)要求分割出符合語(yǔ)句描述的目標(biāo)。 如對(duì)于查詢語(yǔ)句“Person sitting on the chair”,該方法僅會(huì)分割出坐在椅子上的人,而將其余目標(biāo)視為背景。 由于語(yǔ)言具有良好的交互性,該方法在監(jiān)控、機(jī)器人等領(lǐng)域具有較大的潛在應(yīng)用價(jià)值。
Hu 等[1]分別使用VGG,LSTM 網(wǎng)絡(luò)提取視覺(jué)與語(yǔ)言信息[2-3],并通過(guò)級(jí)聯(lián)完成跨模態(tài)信息融合后直接預(yù)測(cè)分割區(qū)域。 針對(duì)Hu 等[1]提出的不足,后續(xù)的研究大多從視覺(jué)、語(yǔ)言特征的提取以及二者的結(jié)合策略這三個(gè)角度探索更為準(zhǔn)確的分割方法。 Liu 等[4]認(rèn)為當(dāng)查詢語(yǔ)句過(guò)長(zhǎng)時(shí),語(yǔ)言特征無(wú)法保留各個(gè)詞的信息,因此采用了逐詞的級(jí)聯(lián)策略。 在上述方法中,網(wǎng)絡(luò)為提取視覺(jué)信息會(huì)進(jìn)行大尺度的下采樣,這會(huì)導(dǎo)致圖像中細(xì)節(jié)信息的丟失,因此Ye 等[5]在改進(jìn)視覺(jué)、語(yǔ)言結(jié)合策略的同時(shí)提出了多級(jí)的方法。 不同于上述單階段的分割方法,Yu 等[6]使用注意力機(jī)制提取語(yǔ)句中的關(guān)鍵信息并將其與視覺(jué)信息級(jí)聯(lián)以進(jìn)行對(duì)語(yǔ)言所描述目標(biāo)的檢測(cè)。 檢測(cè)到目標(biāo)后,便可在檢測(cè)框內(nèi)分割出語(yǔ)言所描述目標(biāo)。
為了學(xué)習(xí)目標(biāo)與語(yǔ)句的對(duì)應(yīng)關(guān)系,查詢圖像分割需要大量的訓(xùn)練數(shù)據(jù),然而像素級(jí)標(biāo)簽的制作極為煩瑣。 為了解決該問(wèn)題,本文提出了一種僅使用語(yǔ)言所描述目標(biāo)中心點(diǎn)的分割方法。
在強(qiáng)監(jiān)督情形下,語(yǔ)言所描述目標(biāo)區(qū)域與背景像素?cái)?shù)量相當(dāng),因此可直接使用交叉熵?fù)p失。 然而在中心點(diǎn)監(jiān)督下,由于中心點(diǎn)所占像素過(guò)少,若直接使用交叉熵?fù)p失,網(wǎng)絡(luò)會(huì)將所有像素預(yù)測(cè)為背景,因此需考慮平衡前后景損失。 考慮到目標(biāo)中心點(diǎn)與其周圍像素具有較高的特征相似性,那么網(wǎng)絡(luò)將周圍像素預(yù)測(cè)為前景的可能性較大,然而標(biāo)簽卻將它們視為背景,因此,若是能降低周圍像素的損失,便能引導(dǎo)網(wǎng)絡(luò)分割出覆蓋整個(gè)目標(biāo)的區(qū)域。 基于此,本文設(shè)計(jì)了自適應(yīng)目標(biāo)損失衰減項(xiàng),該項(xiàng)通過(guò)計(jì)算中心點(diǎn)與其周圍像素的余弦相似性以降低周圍像素?fù)p失。
引入自適應(yīng)目標(biāo)損失衰減項(xiàng)后,網(wǎng)絡(luò)能夠預(yù)測(cè)出語(yǔ)言所描述目標(biāo)的大致位置及形狀,然而對(duì)于彼此靠近的同類物體,所得分割區(qū)域趨向于覆蓋多個(gè)目標(biāo)。為劃分毗鄰的目標(biāo),本文在圖像中語(yǔ)言所描述的不同目標(biāo)間構(gòu)造了成對(duì)損失,其核心思想在于不同目標(biāo)的分割區(qū)域不應(yīng)當(dāng)重疊,網(wǎng)絡(luò)框架圖如圖1 所示,圖中Concat表示視覺(jué)特征X、語(yǔ)言特征ht及空間位置信息S的級(jí)聯(lián),L1表示含自適應(yīng)目標(biāo)損失衰減項(xiàng)的分割損失,L2表示針對(duì)不同查詢目標(biāo)的成對(duì)損失,用以阻止網(wǎng)絡(luò)將單一像素分配給多個(gè)目標(biāo)。
圖1 網(wǎng)絡(luò)框架
查詢圖像分割須同時(shí)處理視覺(jué)信息與語(yǔ)言信息。視覺(jué)部分,使用卷積神經(jīng)網(wǎng)絡(luò),如ResNet,提取特征X,X =Wθ(I),X∈?Cl×H×W,其中I表示輸入圖片,Wθ表示卷積網(wǎng)絡(luò)參數(shù),Cl,H,W分別表示特征通道數(shù)、高以及寬。 語(yǔ)言部分,對(duì)于語(yǔ)句S,使用LSTM 提取隱狀態(tài)(hidden state)H ={h1,h2,...,ht}[3],其中hi,i∈{1,2,...,t} 表示處理第i個(gè)詞后的隱狀態(tài),t表示詞的數(shù)量。 整條語(yǔ)句信息選擇LSTM 最終隱狀態(tài)ht,ht∈?Cl。 此外,查詢語(yǔ)句中的方位詞,如“l(fā)eft”“bottom”等為待分割目標(biāo)提供了準(zhǔn)確的位置信息,因此網(wǎng)絡(luò)需增加空間位置信息E,E∈?8×H×W,用以準(zhǔn)確匹配語(yǔ)言。其以圖像中心為原點(diǎn)構(gòu)建坐標(biāo)系并分配坐標(biāo),之后便可構(gòu)建分割損失。
式(1)中,yi^表示中心點(diǎn)標(biāo)簽,yi表示網(wǎng)絡(luò)預(yù)測(cè)像素,i是語(yǔ)言查詢目標(biāo)的概率。 (1- ai) 為自適應(yīng)目標(biāo)損失衰減項(xiàng),表示像素i與中心點(diǎn)像素視覺(jué)特征的余弦相似性,引入該項(xiàng)的原因是,對(duì)于中心點(diǎn)周圍像素,與中心點(diǎn)屬于同一個(gè)目標(biāo)且位置相近,則其對(duì)應(yīng)視覺(jué)特征與中心點(diǎn)應(yīng)當(dāng)具有較高的相似性,而對(duì)應(yīng)級(jí)聯(lián)的語(yǔ)言特征又完全相同。 在該條件下,網(wǎng)絡(luò)會(huì)將中心點(diǎn)周圍像素同樣預(yù)測(cè)為前景,但所給標(biāo)簽卻將之視為背景,這不利于網(wǎng)絡(luò)的收斂同時(shí)也將導(dǎo)致預(yù)測(cè)區(qū)域僅覆蓋目標(biāo)中心點(diǎn)。 引入該項(xiàng)后,對(duì)于中心點(diǎn),分割損失保持不變,而對(duì)于非中心點(diǎn),其分割損失為交叉熵?fù)p失與(1-ai) 的積。 該情況下,對(duì)于中心點(diǎn)周圍像素,與中心點(diǎn)的余弦相似性ai較大,則(1- ai) 值較小,即使網(wǎng)絡(luò)將這些像素預(yù)測(cè)為前景也不會(huì)產(chǎn)生較大的損失,有利于分割區(qū)域向中心點(diǎn)周圍擴(kuò)散。 對(duì)于遠(yuǎn)離中心點(diǎn)的像素,(1- ai) 值較大,不會(huì)影響背景的準(zhǔn)確識(shí)別。 在中心點(diǎn)監(jiān)督下,背景像素遠(yuǎn)遠(yuǎn)多于中心點(diǎn),會(huì)導(dǎo)致網(wǎng)絡(luò)將所有像素預(yù)測(cè)為背景。 因此,本文增加超參數(shù)λ用以降低背景損失在總體損失中的比重。 式(2) 中Xc,Xi分別表示目標(biāo)中心點(diǎn)及第i個(gè)像素的視覺(jué)特征。 式(3)表示預(yù)測(cè)層,其中‖表示視覺(jué)特征X、語(yǔ)言特征ht及位置信息E的級(jí)聯(lián),Wc表示預(yù)測(cè)層參數(shù),σ表示sigmoid激活函數(shù),y表示分割區(qū)域,y∈?H×W。
自適應(yīng)目標(biāo)損失衰減有利于預(yù)測(cè)區(qū)域由目標(biāo)中心點(diǎn)向目標(biāo)周圍擴(kuò)散,然而,當(dāng)多個(gè)同類別目標(biāo)彼此靠近時(shí),這樣的擴(kuò)散會(huì)導(dǎo)致預(yù)測(cè)區(qū)域覆蓋其他目標(biāo)。 因此,本文設(shè)計(jì)了成對(duì)損失用以輔助臨近目標(biāo)的劃分,核心思想是針對(duì)不同目標(biāo)的查詢分割區(qū)域不應(yīng)當(dāng)產(chǎn)生重疊。
記同一幅圖像中針對(duì)不同目標(biāo)的查詢語(yǔ)句分別為Sa,Sb,其對(duì)應(yīng)的分割結(jié)果為ya,yb;記ya,yb中大于0.5(表示前景) 且重疊的區(qū)域?yàn)镺,則成對(duì)損失可表述為:
式(4)中,| O|表示重疊前景區(qū)域的像素總數(shù);m表示成對(duì)損失懲罰系數(shù),用于控制成對(duì)損失比重。 該成對(duì)損失將迫使網(wǎng)絡(luò)僅能將單個(gè)像素視為某一個(gè)目標(biāo)的區(qū)域,緩解區(qū)域不正常擴(kuò)散的問(wèn)題。
結(jié)合分割損失L1,成對(duì)損失L2便可構(gòu)造網(wǎng)絡(luò)總損失:
本文在UNC 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),共包含19 994 幅圖片,對(duì)應(yīng)142 090 條查詢語(yǔ)句;其中120 624 條用于訓(xùn)練,10 834 條用于驗(yàn)證(val),5 657 條用于測(cè)試集A(testA),5 059 條用于測(cè)試集B(testB)。 兩測(cè)試集的差別在于testB 中查詢語(yǔ)句不包含人,而testA 包含。 這樣的切分策略有助于準(zhǔn)確評(píng)估查詢圖像分割方法在不同場(chǎng)景下的性能。 度量指標(biāo)選擇IoU,該值越高表示分割性能越好。
本方法視覺(jué)特征提取網(wǎng)絡(luò)選擇ResNet,并且使用經(jīng)ImageNet 預(yù)訓(xùn)練后的參數(shù)。 語(yǔ)言特征提取選擇LSTM 并隨機(jī)初始化。 背景像素比重λ設(shè)置為0.05,該值由中心點(diǎn)像素在圖像中的比例所決定。 成對(duì)損失懲罰系數(shù)m設(shè)置為1。 優(yōu)化器選擇Adam Optimizer 并設(shè)置初始學(xué)習(xí)率為0.000 4,batch_size 設(shè)置為8。 網(wǎng)絡(luò)在訓(xùn)練集上共迭代10 次,并且每迭代3 次學(xué)習(xí)率降低為當(dāng)前值的10%。 圖像在輸入網(wǎng)絡(luò)前調(diào)整為“320×320”大小并保留原圖像縱橫比。 測(cè)試時(shí),與強(qiáng)監(jiān)督方法相同,使用條件隨機(jī)細(xì)化分割區(qū)域[4]。 特別注明的是本方法在測(cè)試時(shí)僅需要圖像及對(duì)應(yīng)查詢語(yǔ)句。
2.2.1 定量分析
UNC 數(shù)據(jù)集下的實(shí)驗(yàn)結(jié)果如表1 所示,其中C 表示僅使用交叉熵?fù)p失及前后景平衡項(xiàng)λ;“C+S”表示在算法C 的基礎(chǔ)上引入自適應(yīng)目標(biāo)損失衰減項(xiàng),即公式(1);“C+S+P”則表示引入衰減項(xiàng)及成對(duì)損失,即公式(5)。 可以看出,相較于算法C,“C+S”在三個(gè)子集下的測(cè)試精度分割分別提高了2.17%,1.57%,2.34%,表明目標(biāo)損失衰減能夠引導(dǎo)預(yù)測(cè)區(qū)域由目標(biāo)中心點(diǎn)向整體擴(kuò)散。 引入成對(duì)損失“C+S+P”,網(wǎng)絡(luò)能夠更為準(zhǔn)確地劃分臨近目標(biāo),測(cè)試精度得到進(jìn)一步提升。
表1 各方法在UNC 數(shù)據(jù)集下的分割性能(IoU)
2.2.2 定性分析
實(shí)驗(yàn)主觀結(jié)果如圖2 所示, 圖像下方文字表示查詢語(yǔ)句,其中(b)(c)中白色區(qū)域分別表示算法C 及本文所提方法“C+S+P”所得分割區(qū)域;(d)表示測(cè)試標(biāo)簽,分割區(qū)域與測(cè)試標(biāo)簽的重合度越高表示分割性能越好。 可以看出,算法C 未分割出左側(cè)大象的嘴部,僅得到目標(biāo)的大致方位。 而“C+S+P”通過(guò)自適應(yīng)地降低中心點(diǎn)周圍像素?fù)p失,有效地?cái)U(kuò)散了分割區(qū)域,因此覆蓋程度更高。 這表明本文所提方法能夠僅在語(yǔ)言所描述目標(biāo)中心的監(jiān)督下得到較為準(zhǔn)確的結(jié)果。
圖2 UNC 驗(yàn)證集下測(cè)試結(jié)果
本文提出了一種僅使用語(yǔ)言所描述目標(biāo)中心點(diǎn)的弱監(jiān)督查詢圖像分割方法,通過(guò)引入自適應(yīng)目標(biāo)損失衰減項(xiàng)及成對(duì)損失,能夠引導(dǎo)網(wǎng)絡(luò)分割區(qū)域由中心點(diǎn)至目標(biāo)整體正確擴(kuò)散,進(jìn)而得到覆蓋度更高的預(yù)測(cè)區(qū)域。 考慮到視覺(jué)特征、語(yǔ)言特征直接級(jí)聯(lián)的方式無(wú)法充分評(píng)估二者關(guān)聯(lián),未來(lái)將在多模態(tài)信息的結(jié)合策略上做進(jìn)一步改進(jìn)。