花 瑋,顧梅花,李立瑤,崔 琳
(西安工程大學(xué) 電子信息學(xué)院,陜西 西安 710048)
服裝圖像分割[1]作為圖像分割[2]在服裝領(lǐng)域的具體應(yīng)用,旨在通過濾除圖像中的無用信息,保留服裝圖像的特征信息。常常應(yīng)用于目標(biāo)識別[3]、服裝檢索[4]、服裝特征提取[5]、服裝解析與分割[6]中。然而,服裝圖像大多來源于網(wǎng)絡(luò)、廣告片段、實(shí)景拍攝等,會因拍攝角度、光線與著裝人體姿態(tài)的不同,產(chǎn)生小目標(biāo)與遮擋等問題,同時(shí)服裝的款式與風(fēng)格繁多,視覺特征豐富多變,都會對檢測與分割結(jié)果造成很大的影響。
傳統(tǒng)的服裝前景提取通常以閾值[7]、邊界[8]、區(qū)域[9]等作為分割依據(jù),適用于背景復(fù)雜度較低的情況;針對背景略微復(fù)雜的服裝圖像常采用超像素分割[10]、GrabCut[11]、聚類分割[12]等算法。超像素分割與GrabCut屬于交互類分割技術(shù),容易受到主觀因素的影響導(dǎo)致分割效果不佳。文獻(xiàn)[13]結(jié)合輪廓檢測算法與全自動化GrabCut算法,解決了目標(biāo)服裝提取時(shí)因人體膚色干擾產(chǎn)生的欠分割問題,但其分割效果易受背景復(fù)雜性影響;文獻(xiàn)[14]整理了一個(gè)大規(guī)模、含有類別與豐富標(biāo)注的服裝數(shù)據(jù)集DeepFashion,提出了一種FashionNet模型,融合多種監(jiān)督信息提高服裝圖像的提取精度,但由于DeepFashion數(shù)據(jù)集標(biāo)注的稀疏性以及沒有像素級掩膜,無法進(jìn)行服裝圖像的精準(zhǔn)分割;文獻(xiàn)[15]選擇DeepFashion2數(shù)據(jù)集訓(xùn)練Mask R-CNN模型,經(jīng)ResNet網(wǎng)絡(luò)獲取服裝圖像信息,結(jié)合RPN與RoIAlign將特征輸入不同的預(yù)測分支,解決不同場景下的服裝識別與分割問題,但并未對小目標(biāo)服裝以及遮擋服裝的分割提出有效解決方案; 文獻(xiàn)[16]提出的SOLOv1模型,摒棄檢測框的同時(shí)采用位置分割目標(biāo)物體,并預(yù)測目標(biāo)物體的類別,使得分割速度得到大幅提升,但圖片目標(biāo)的稀疏分布會使輸出過程中產(chǎn)生冗余現(xiàn)象,影響分割效果;隨后,文獻(xiàn)[17]提出的SOLOv2模型,以動態(tài)學(xué)習(xí)掩膜分支的方式,結(jié)合矩陣非極大值抑制(Matrix NMS)實(shí)現(xiàn)了高效分割,但這些方法并未解決服裝圖像分割中小目標(biāo)與遮擋等問題。本文選用時(shí)效性較好的SOLOv2模型為基礎(chǔ)網(wǎng)絡(luò),優(yōu)化掩膜特征(mask feature,MF)分支中對多層特征的融合方式,上采樣過程中選用Mish激活函數(shù),在損失函數(shù)中引入影響因子,提升了模型對小目標(biāo)與遮擋服裝圖像的分割精度。
SOLOv2模型構(gòu)架主要包括全卷積網(wǎng)絡(luò)(fully convolutional network,FCN)[18]特征提取、掩膜內(nèi)核分支、掩膜特征分支3個(gè)部分,SOLOv2的模型原理如圖1所示。圖1中,G為MF分支預(yù)測的卷積內(nèi)核矩陣,F(xiàn)為MF給出的掩膜特征矩陣。
圖 1 SOLOv2模型原理圖Fig.1 SOLOv2 model schematic diagram
MF分支預(yù)測目標(biāo)的掩膜特征矩陣時(shí),通過引入特征金字塔網(wǎng)絡(luò)[19](feature pyramid network,FPN)融合學(xué)習(xí)統(tǒng)一的高分辨率掩膜特征表示。MF分支的結(jié)構(gòu)如圖2所示。圖2左側(cè)為FCN提取的C2~C5層特征信息。對不同層級的FPN經(jīng)過3個(gè)上采樣階段生成1/4比例的特征圖像,并統(tǒng)一映射至原圖的1/4尺寸作為單個(gè)輸出;再經(jīng)逐個(gè)元素求和,對最后一層使用一個(gè)1×1卷積、組歸一化、ReLU激活函數(shù)處理,生成目標(biāo)掩膜的特征圖(feature map,F(xiàn)M),即圖1中所示的F。同時(shí),在FPN的最高層級引入了CoordConv處理,通過在輸入特征中串入2個(gè)坐標(biāo)通道,分別存放這2個(gè)坐標(biāo)值; 并將坐標(biāo)值歸一化至[-1,1]之間,將空間位置信息引入掩膜內(nèi)核分支。解決位置對應(yīng)過程中坐標(biāo)變換問題的同時(shí),也能提供更準(zhǔn)確的位置信息與實(shí)例特征。
圖 2 MF分支結(jié)構(gòu)Fig.2 MF branch structure
在訓(xùn)練過程中,由于SOLOv2消除了預(yù)測邊界框的部分,在后期的掩膜特征生成過程中只引入位置的空間信息,對于小目標(biāo)而言,難以提取到充分的特征信息生成適合的掩膜預(yù)測,常出現(xiàn)漏判、漏分割現(xiàn)象,導(dǎo)致生成的模型對服裝圖像中的小目標(biāo)檢測效率低下。所以,本文在MF的特征融合基礎(chǔ)上,將特征信息從深到淺逐層引入,融合多尺度特征信息,增強(qiáng)網(wǎng)絡(luò)對深層特征的提取能力。改進(jìn)后的MF分支結(jié)構(gòu)如圖3所示。圖3左側(cè)為FCN提取的{C2,C3,C4,C5}層特征信息。從最深層級C5(比例1/32)開始,經(jīng)過一個(gè)上采樣階段生成P5特征層;然后對次特征層經(jīng)過一個(gè)1×1卷積降低特征維度,并與P5層信息逐元素相加,再經(jīng)過一個(gè)上采樣獲取P4層特征。以此類推,對后續(xù)特征層執(zhí)行相同操作,獲得最終融合多層特征的P2特征層。與放大至同一比例再對逐個(gè)元素疊加的方式相比,這種方法能夠更好地保留不同尺寸服裝圖像的特征信息,改善因消除邊界框所帶來的小目標(biāo)難以檢測的問題,提高模型對多尺寸服裝的檢測與分割能力。
圖 3 改進(jìn)的MF分支結(jié)構(gòu)Fig.3 Improved MF branch structure
激勵函數(shù)的引入增添了模型的非線性預(yù)測能力。SOLOv2的MF分支采用線性整流函數(shù)(rectified linear unit, ReLU)作為激活函數(shù),它是一種基于線性修正的分段激活函數(shù),如式(1)所示:
R(x)=max(0,x)
(1)
與傳統(tǒng)的激活函數(shù)相比,ReLU函數(shù)的收斂速度相對較快,且在自變量大于0的情況下不會出現(xiàn)梯度飽和與消失等問題。但在訓(xùn)練過程中,ReLU曲線的“硬零邊界”特性易導(dǎo)致神經(jīng)元失活,相應(yīng)參數(shù)得不到更新,函數(shù)整體趨勢缺乏對數(shù)據(jù)幅度壓縮的能力,因此,數(shù)據(jù)的幅度很容易隨著模型層數(shù)的增加而不斷擴(kuò)張。為解決ReLU函數(shù)存在的上述問題,本文采用Mish函數(shù)M(x)作為激勵函數(shù),如式(2)所示,函數(shù)特征曲線如圖4所示。
圖 4 Mish函數(shù)特征曲線Fig.4 Mish function characteristic Curve
M(x)=x·tanh(ln(1+ex))
(2)
從圖4中可以看出:Mish函數(shù)的值域無上界,避免了因值域封頂導(dǎo)致的飽和問題;在(-∞,0]的取值范圍內(nèi)允許較小的負(fù)梯度流入,保留更好的梯度信息。解決了ReLU函數(shù)的“硬零邊界”問題,特征曲線更平滑,允許更完整的信息輸入神經(jīng)網(wǎng)絡(luò),從而提高模型的檢測準(zhǔn)確性與泛化能力,增強(qiáng)模型的特征學(xué)習(xí)能力,加快收斂速度。
SOLOv2采用了一種Matrix NMS的并行處理方式,以矩陣形式對預(yù)測結(jié)果進(jìn)行非極大值抑制(non maximum suppression,NMS)處理,能夠在同一時(shí)間以并行的方式對不同預(yù)測結(jié)果進(jìn)行判斷,解決了NMS[20]中因順序操作問題帶來的時(shí)間損耗。SOLOv2的損失函數(shù)L定義為
L=LC+λLM
(3)
式中:LC為模型的類別損失函數(shù),采用焦點(diǎn)損失[21](focal loss,FL)進(jìn)行計(jì)算,定義為式(4),解決在訓(xùn)練過程中出現(xiàn)的正負(fù)樣本不均衡的問題;LM為掩膜損失函數(shù),采用Dice Loss[22]進(jìn)行計(jì)算,定義為式(5)。
LC=-α(1-pi)γlgpi
(4)
(5)
式中:pi為待分類實(shí)例屬于正樣本的概率;αi為平衡因子,應(yīng)對訓(xùn)練過程中出現(xiàn)的正負(fù)樣本間比例不均的問題;D是一種相似度度量函數(shù),用于計(jì)算2個(gè)樣本間的相似度,定義為式(6);px,y和qx,y為Mask預(yù)測結(jié)果p以及對應(yīng)的Mask真實(shí)標(biāo)記q位于(x,y)處的像素值。
(6)
式中:X、Y為不同集合,分別代表Mask預(yù)測結(jié)果與真實(shí)標(biāo)注;|·|為集合中各元素(像素值)相加之和;X∩Y為X和Y對應(yīng)位置上各元素(像素值)相乘所得的集合,近似地表示預(yù)測Mask與真實(shí)標(biāo)注的點(diǎn)積。
為了解決SOLOv2因服裝間存在遮擋帶來的分割問題,分析了原Mask損失函數(shù)LC的收斂特性。通過在LM函數(shù)中引入影響因子?,使優(yōu)化后的Mask損失函數(shù)能夠依據(jù)服裝間的遮擋程度計(jì)算出影響因子?,獲得影響因子?的動態(tài)值,從而自適應(yīng)調(diào)整預(yù)測Mask的權(quán)重信息,改善服裝間因遮擋所帶來的分割問題。改進(jìn)后的Mask損失函數(shù)表示為
(7)
式中:P(x,y)和q(x,y)分別為Mask預(yù)測結(jié)果P以及對應(yīng)的Mask真實(shí)標(biāo)記q中位于(x,y)處的像素值;?為影響因子,定義為
(8)
式中:CM、CG分別表示預(yù)測Mask及真實(shí)標(biāo)注的中心點(diǎn)位置;d2(CM,CG)表示兩者歐氏距離的平方。
實(shí)驗(yàn)在Intel(R) Core(TM) CPU 2.90 GHz、Nvidia GeForece RTX 2070 Super顯卡,16 GiB RAM的硬件環(huán)境下進(jìn)行,編譯環(huán)境為Python3.7,工具為Microsoft Visual Studio 2018。實(shí)驗(yàn)采用Deep Fashion2數(shù)據(jù)集(共49.1 萬張圖片),其中訓(xùn)練數(shù)據(jù)集包含39.1 萬張圖片,驗(yàn)證數(shù)據(jù)集包含3.4萬張圖片,測試數(shù)據(jù)集包含6.7萬張圖片。數(shù)據(jù)集包含13個(gè)服裝類別,對不同程度遮擋、多尺度服裝圖像都進(jìn)行了詳細(xì)標(biāo)注。
3.1.1 小目標(biāo)服裝圖像分割 為評估本文算法對于圖像中小目標(biāo)服裝的分割效果,將本文算法與Mask R-CNN[15]、SOLOv1[16]、SOLOv2[17]進(jìn)行對比,分割結(jié)果如圖5所示。觀察圖5第1、2行得知:SOLOv1與SOLOv2未能檢測到圖中人物上衣的右側(cè)衣袖,而Mask R-CNN與本文算法都能夠有效識別圖中的小目標(biāo)服裝區(qū)域,獲取到較為豐富的服裝圖像信息。從圖5第3、4行可以看出:SOLOv1僅檢測到上衣的部分區(qū)域,丟失了衣袖與長褲部分,Mask R-CNN、SOLOv2模型與本文算法都能檢測到圖中右側(cè)人物的上衣與長褲區(qū)域。在對小目標(biāo)服裝進(jìn)行分割時(shí),Mask R-CNN對邊緣信息的獲取能力較差,丟失上衣的衣領(lǐng)及衣袖部分,SOLOv2在檢測過程中丟失上衣的衣袖部分。總體來看,本文算法能獲取到較為豐富的服裝圖像特征,對小目標(biāo)服裝圖像的分割準(zhǔn)確度較高。
(a) Mask R-CNN (b) SOLOv1 (c) SOLOv2 (d) 本文算法
3.1.2 遮擋服裝圖像分割 為檢驗(yàn)本文算法對圖像中遮擋服裝的分割效果,將本文算法與Mask R-CNN[15]、SOLOv1[16]、SOLOv2[17]進(jìn)行對比,分割結(jié)果如圖6所示。觀察圖6第1、2行可見:SOLOv1在預(yù)測過程中受圖中的短褲區(qū)域與手持挎包間存在的遮擋影響,提取到的短褲圖像信息較少;SOLOv2能夠在遮擋區(qū)域上根據(jù)服裝圖像特征信息預(yù)測目標(biāo)服裝的所在位置與區(qū)域范圍,保留相對豐富的圖像特征。相比之下,Mask R-CNN是在邊界框中完成服裝圖像的實(shí)例分割任務(wù),也能夠處理遮擋所產(chǎn)生的服裝圖像形變問題;本文算法雖不包含邊界框定位過程,但模型的卷積核預(yù)測分支通過引入更多位置信息,并結(jié)合優(yōu)化后的特征融合方式,能夠?qū)Ρ徽趽醯姆b圖像進(jìn)行預(yù)測,獲取到更為全面的服裝圖像信息。圖6中第3、4行對比了不同模型在多人服裝遮擋的圖像分割任務(wù)中的實(shí)驗(yàn)效果??梢钥闯觯罕疚乃惴▽τ谂块L褲整體區(qū)域的分割效果較好,在女士上衣部分能夠根據(jù)輸入特征對上衣在圖像中的占用范圍進(jìn)行預(yù)測,保留更豐富的服裝圖像特征,而其他對比模型在女士長褲的掩膜預(yù)測中均存在不同程度的欠分割現(xiàn)象,丟失了較多的服裝圖像信息。
(a) Mask R-CNN (b) SOLOv1 (c) SOLOv2 (d) 本文算法
選用DeepFashion 2數(shù)據(jù)集訓(xùn)練模型,采用交并比(intersection over union, IOU)、精確率(accuracy precision, AP)、平均精確度(mean average precision, mAP)以及預(yù)測時(shí)間等4種常用的評價(jià)指標(biāo)。在評價(jià)模型的檢測性能時(shí),通常以IOU作為評價(jià)指標(biāo)。IOU是指該模型對于目標(biāo)的預(yù)測框與真實(shí)標(biāo)注框之間的交集面積同兩者并集面積的比值。預(yù)先設(shè)置判定閾值:當(dāng)IOU大于判定閾值時(shí),認(rèn)為模型對該目標(biāo)的檢測結(jié)果相對準(zhǔn)確;否則判別為無效。本文選取的判定閾值為0.5和0.75,所得到的精度分別表示為AP50和AP75。平均預(yù)測精度mAP用于衡量多類別目標(biāo)檢測與分割的整體效果,表示該模型對數(shù)據(jù)集中所有類別標(biāo)簽的預(yù)測精確度。APS、APM、APL依據(jù)服裝圖像中目標(biāo)服裝的面積(Ar)大小進(jìn)行劃分,分別為小目標(biāo)(Ar<32×32)、中目標(biāo)(32×32
為了評估優(yōu)化的特征融合、激活函數(shù)以及損失函數(shù)對SOLOv2模型分割性能的影響,進(jìn)行了消融實(shí)驗(yàn),結(jié)果如表1所示。從表1可以看出:通過對SOLOv2進(jìn)行特征融合優(yōu)化,平均預(yù)測精度mAP提升了2.1%,但由于改進(jìn)的MF分支融合了不同尺度的特征信息,會使得對每幀圖像的處理時(shí)間增加。加入Mish激活函數(shù)后,模型的收斂速度也得到了顯著提升。通過優(yōu)化損失函數(shù),改善了服裝遮擋帶來分割問題,強(qiáng)化了模型的學(xué)習(xí)能力。平均預(yù)測精度mAP進(jìn)一步提升了0.9%,收斂速度提高了0.5 ms,驗(yàn)證了本文所提方法的有效性。
表 1 消融優(yōu)化實(shí)驗(yàn)結(jié)果
為了評估改進(jìn)后SOLOv2模型的分割精度,將本文算法與Mask R-CNN、SOLOv1、SOLOv2等算法進(jìn)行對比,實(shí)驗(yàn)結(jié)果如表2所示。從表2可以看出:本文算法的各項(xiàng)評價(jià)指標(biāo)均明顯優(yōu)于其他比較算法。由于SOLOv2在小目標(biāo)檢測任務(wù)中分割效果較弱,重點(diǎn)觀察表2中小目標(biāo)檢測平均精度APS的對比情況,本文算法的APS由SOLOv2的15.6%增長至16.9%??梢?,本文方法對小目標(biāo)服裝圖像具有較好的分割能力。
表 2 服裝圖像實(shí)例分割精度比較
結(jié)合分割精度與速度,將本文算法與Mask R-CNN、SOLOv1、SOLOv2的分割性能進(jìn)行對比,實(shí)驗(yàn)結(jié)果如表3所示。從表3可以看出:本文算法分割精度明顯高于SOLOv2算法,其中平均預(yù)測精度mAP達(dá)到36.2%,與SOLOv2模型相比提高了3.2%;對每幀圖像的處理只需43.6 ms,速度比Mask R-CNN快約1倍。不過,與SOLOv2相比速度略有降低,主要原因在于為改善SOLOv2算法,本文對小目標(biāo)服裝圖像的特征提取能力,通過多尺度特征逐級疊加方式優(yōu)化模型的特征理解能力,增加了計(jì)算復(fù)雜度與運(yùn)算時(shí)間,但提高了模型對服裝圖像的分割精度??傮w來說,本文方法在服裝圖像的分割精度和速度方面都具有較好的性能。
表 3 不同算法分割性能比較
本文通過改進(jìn)SOLOv2的特征融合分支,強(qiáng)化模型對小目標(biāo)服裝圖像特征的分割能力,解決了SOLOv2以目標(biāo)中心位置為判斷依據(jù),消除邊界框預(yù)測而導(dǎo)致的對小目標(biāo)服裝漏檢、分割不完全問題。上采樣過程中選用Mish函數(shù)激活,提高模型的泛化能力與收斂速度。針對服裝間存在的遮擋問題,在Mask的損失函數(shù)中添加影響因子,能夠在模型的訓(xùn)練過程中根據(jù)不同服裝之間的遮擋程度自適應(yīng)調(diào)整函數(shù)的權(quán)重信息,弱化遮擋問題對服裝圖像分割效果帶來的影響。實(shí)驗(yàn)結(jié)果表明:本文方法能夠有效提升小目標(biāo)、遮擋服裝目標(biāo)圖像的分割效果,在分割精度和速度方面都具有較好的性能。