楊志鋼,李輝洋
(哈爾濱工程大學(xué) 信息與通信工程學(xué)院,哈爾濱 150001 )
圖像背景替換是指僅替換圖像的背景,指定的前景區(qū)域基本不變.傳統(tǒng)的圖像背景替換以圖像分割與替換的直接組合方式實(shí)現(xiàn).雖然閾值分割[1]、背景建模[2]、深度學(xué)習(xí)模型[3]等圖像分割算法較為成熟,良好的背景替換效果的實(shí)現(xiàn)仍需要一些先驗(yàn)知識和人工交互式操作.而目前生成式對抗網(wǎng)絡(luò)GAN已在圖像屬性編輯領(lǐng)域開展應(yīng)用[4],可更加簡潔且高效地實(shí)現(xiàn)圖像背景替換.
GAN能夠自發(fā)地學(xué)習(xí)圖像的概率分布,獲得具備生成相似圖像的能力[5].在此基礎(chǔ)上,Isola等[6]提出的Pix2Pix將GAN的輸入換成指定風(fēng)格的圖像,生成了高度相似于原圖的不同風(fēng)格圖像,開創(chuàng)了GAN在圖像到圖像的翻譯領(lǐng)域的應(yīng)用.隨后,Zhu等[7]提出的CycleGAN利用循環(huán)一致結(jié)構(gòu),進(jìn)一步地提升了生成的風(fēng)格圖像質(zhì)量,并實(shí)現(xiàn)了非配對圖像下的圖像到圖像的翻譯.He等[8]提出的AttGAN在CelebA人臉數(shù)據(jù)集上,實(shí)現(xiàn)了屬性編輯,可以更改原圖人臉的具體屬性.目前,GAN已能夠較為成熟的實(shí)現(xiàn)圖像屬性編輯[9].
GAN生成的圖像主要取決于模型結(jié)構(gòu)和樣本集質(zhì)量.模型結(jié)構(gòu)的深度決定GAN對圖像紋理細(xì)節(jié)的學(xué)習(xí)能力,復(fù)雜且合理的結(jié)構(gòu)使GAN具備圖像語義信息的學(xué)習(xí)能力[10].但樣本集的質(zhì)量也至關(guān)重要.一方面,樣本集質(zhì)量決定各種GAN所能生成的圖像質(zhì)量水平,且結(jié)構(gòu)越復(fù)雜的模型對樣本集的要求越高,如具備生成高分辨率、高質(zhì)量且任意圖像屬性的StyleGAN[11],需要配套的FFHQ數(shù)據(jù)集.另一方面,樣本集與期望生成的目的圖像集之間的距離盡量小,以免生成出的后者圖像失真.
本文提出了一種基于改進(jìn)GeneGAN的圖像背景替換方法,能在兩類背景圖像存在較大偏差的情況下,實(shí)現(xiàn)圖像背景替換.以空中無人機(jī)圖像的背景替換為例,在主干網(wǎng)絡(luò)GeneGAN下,通過背景減除方法獲得的差值圖像,解決目的圖像與真實(shí)圖像之間偏差過大的問題,生成良好效果的無人機(jī)背景替換圖像;通過基于背景先驗(yàn)知識的強(qiáng)約束項(xiàng),解決生成的背景圖像的無人機(jī)“殘影”問題,改善了生成的圖像效果.在各類復(fù)雜背景下,本文方法能夠魯棒地生成良好的背景替換圖像.
生成式對抗網(wǎng)絡(luò)(Generative Adversarial Networks, GAN),主要由生成器G與判別器D組成,通過循環(huán)不斷地依次訓(xùn)練G與D,使D難以辨別G生成數(shù)據(jù)的真假.可以認(rèn)為,由于判別器D的輔助和引導(dǎo),生成器G才能學(xué)習(xí)到真實(shí)數(shù)據(jù)的分布[12].
2014年Goodfellow提出最初GAN理論與模型,獲得了比其他生成式模型更好的圖像生成質(zhì)量,但GAN存在模型收斂慢、模式崩潰易發(fā)生、模型性能較差等問題.Radford等[13]提出的DCGAN提升了模型性能,使GAN能夠生成更復(fù)雜的圖像.Arjovsky等[14]提出了WGAN,以EM距離代替原GAN的JS散度,解決了模式崩潰和梯度消失問題,并加速了模型的收斂,具備更好的模型性能.
WGAN以真實(shí)分布Pr與生成分布Pg的EM距離來定義目標(biāo)函數(shù)W(Pr,Pg):
(1)
其中:xr、xg分別是從Pr和Pg中采樣得到的數(shù)據(jù).進(jìn)行推導(dǎo)后獲得具體實(shí)施時優(yōu)化的損失函數(shù)LGAN:
LGAN=Exr~Pr[fw(xr)]-Exg~Pg[fw(xg)]
(2)
其中:fw(·)代表WGAN的判別器.
使用WGAN進(jìn)行圖像生成時,模型縮小了生成圖像分布與原真實(shí)圖像分布的EM距離,因而,生成的目的圖像xr相似于原圖像xg,即兩者之間偏差很小.
然而,當(dāng)期望生成的圖像不相似于原圖像,即兩者偏差較大時,WGAN并不能認(rèn)識到這點(diǎn),仍會生成與原圖像相似的生成圖像.對于該問題,可通過精心設(shè)計的復(fù)雜結(jié)構(gòu)來解決,而本文提出的背景減除方法,是一種低成本、易實(shí)現(xiàn)的解決方案.
Zhou[15]等提出的GeneGAN是較出色的圖像屬性編輯網(wǎng)絡(luò),其先用編碼器分離圖像的屬性,再通過解碼器交換并生成不同屬性組合的新圖像.GeneGAN的網(wǎng)絡(luò)細(xì)節(jié)采用類似DCGAN的深度卷積網(wǎng)絡(luò)模塊實(shí)現(xiàn),滿足了對復(fù)雜圖像的基本學(xué)習(xí)能力.模型結(jié)構(gòu)上,采用了WGAN結(jié)構(gòu),能夠快速的收斂模型,且避免了模式崩潰等模型訓(xùn)練問題的出現(xiàn);應(yīng)用CycleGAN的循環(huán)一致方法,維持生成圖像的相似性,并提出了parallelogram損失,使得生成圖像的屬性更加可控.
由GAN的損失值約束項(xiàng)可知,要想實(shí)現(xiàn)生成的圖像足夠真實(shí),需使得生成的目的圖像與真實(shí)圖像之間的偏差較小.以空中無人機(jī)圖像替換為例,如圖1(A)所示為在同一顏色天空的無人機(jī)圖像背景替換示意圖,以訓(xùn)練集中灰白天空的無人機(jī)圖像AX與該天空的純背景圖像B0作為輸入,通過基于GeneGAN的圖像背景替換模型,生成兩幅背景已交換的無人機(jī)圖像BX'與純背景圖像A0′,其中,A、B指代背景屬性,X、0分布指代“有”和“無”無人機(jī)屬性.可以看出,生成的目的圖像BX′、A0′與對應(yīng)的真實(shí)原圖像AX、B0極為相似,相減得到的差值圖數(shù)值很小,表現(xiàn)為圖中所有元素均為黑色,GAN能夠較好地將生成圖像擬合為真實(shí)圖像.
圖1 圖像間偏差與GAN背景替換效果的關(guān)系示意圖
可以通過背景減除方法對GAN的輸入圖像進(jìn)行處理,獲得差值圖像,從而使得原來偏差較大的目的圖像和原圖像,重新滿足GAN的損失值約束條件.如圖2所示,目的圖像BX′、A0′與對應(yīng)的原圖像AX、B0,將圖像分別減去各自的純背景圖像,獲得相應(yīng)的差值圖像X′、0′、X和0.代表無人機(jī)圖像的差值圖像X′和X表現(xiàn)出很高的相似性,相比原來的BX′和AX圖像,更適合作為GAN的判別器的兩個輸入數(shù)據(jù).相應(yīng)地,代表背景圖像的差值圖像0′和0也表現(xiàn)出很高的相似性,也更適合作為GAN的判別器的兩個輸入數(shù)據(jù).
圖2 背景減除解決偏差大問題示意圖
此時,WGAN作為GeneGAN所用的GAN結(jié)構(gòu),其損失值LGAN如式(3)所示:
(3)
進(jìn)行如圖3所示的分析后可知,生成圖像出現(xiàn)殘影,是由于原GeneGAN的Lparallelogram損失值約束導(dǎo)致,如式(4)所示:
(4)
其中:‖·‖1表示L1范數(shù).該式表示兩幅生成圖像與兩幅真實(shí)圖像的各點(diǎn)像素值的差值應(yīng)最小,用于規(guī)范生成圖像不至于失真太大.而兩幅背景圖像中無人機(jī)所在區(qū)域范圍的像素點(diǎn)數(shù)值有較大的不同,因而造成背景圖像中存在無人機(jī)“殘影”.
圖3 Lparallelogram約束導(dǎo)致殘影示意圖
針對上述現(xiàn)象,可以利用背景圖像的先驗(yàn)知識設(shè)計強(qiáng)約束項(xiàng),使生成圖像消除“殘影”.由于背景圖像較為平滑,噪聲較少,本文提出純背景圖像A0′的各通道方差損失值強(qiáng)約束項(xiàng)LA0′,如式(5)所示:
(5)
其中:C為圖像顏色通道數(shù)量,W、H分別為圖像的寬和高.該強(qiáng)約束項(xiàng)的作用,為對生成圖像A0′各顏色通道圖的像素值進(jìn)行統(tǒng)一化,從而消除無人機(jī)“殘影”的噪聲干擾.
本文方法總體框架如圖4所示,采用GeneGAN為模型主體結(jié)構(gòu),結(jié)合背景減除方法和強(qiáng)約束項(xiàng),實(shí)現(xiàn)無人機(jī)圖像的背景替換.
圖4 本文方法總體框架示意圖
總體損失值由本文提出的2個損失值個原GeneGAN的3個損失值組成,具體為:1)WGAN的損失值LGAN,以生成圖像與真實(shí)圖像的差值為輸入,使模型具備生成圖像的能力;2)強(qiáng)約束項(xiàng)LA0′,消除“殘影”噪聲干擾;3)GeneGAN的重建損失Lreconstruct,使生成圖像更符合原圖像特征;4)GeneGAN的屬性空值損失約束L0,衡量無人機(jī)與背景的分離程度;5)GeneGAN的約束Lparallelogram,進(jìn)一步強(qiáng)化遷移圖像與原圖像的相似性.其中,Lreconstruct、L0的值具體如式(6)~(8)所示.
(6)
因而,生成器的總損失值為:
LG=LGAN+LA0′+Lreconstruct+L0+Lparallelogram
(7)
判別器的總損失值為:
LD=LGAN
(8)
實(shí)驗(yàn)環(huán)境配置為Ubuntu系統(tǒng)、主頻3.40 GHz的Intel Xeon Gold 6128 CPU、16GB的Tesla P100 GPU.
以無人機(jī)圖像背景替換為例,通過實(shí)驗(yàn)對比,驗(yàn)證方法的有效性.目的是將無人機(jī)圖像背景替換為其他背景.數(shù)據(jù)集分為少量的灰白天空背景無人機(jī)圖像、灰白天空純背景圖像和數(shù)量與種類均豐富的其他純背景圖像.其中,灰白天空背景無人機(jī)圖像集中圖像樣式相似且背景基本一致;灰白天空純背景圖像與無人機(jī)圖像背景一致,作用是充當(dāng)背景減除方法中的灰白天空無人機(jī)圖像所對應(yīng)的灰白天空純背景圖像;其他純背景圖像為各種途徑獲得空中背景圖像,均為無人機(jī)可能出現(xiàn)的環(huán)境.
為了體現(xiàn)本文方法在無人機(jī)圖像背景替換上的有效性,對無人機(jī)可能出現(xiàn)的四類場景進(jìn)行豐富的背景替換效果展示.如圖5所示,第一列和第一行分別為輸入的無人機(jī)圖像和4類場景背景圖像,分別為天空、云彩、小干擾物、大干擾物,實(shí)驗(yàn)結(jié)果依次對應(yīng)于剩下的3行8列中的圖像.
圖5 本文方法的4類場景下無人機(jī)背景替換效果圖
通過對比原GeneGAN模型在無人機(jī)圖像的背景替換實(shí)驗(yàn)結(jié)果,來驗(yàn)證本文方法的有效性.如圖6所示為兩種方法實(shí)驗(yàn)結(jié)果,其中,第一、二列為原圖像,分別為灰白天空無人機(jī)圖像AX與其他純背景圖像B0;以A0′指灰白天空純背景圖像和BX'指其他背景的無人機(jī)圖像,那么,第三、四列分別為原GeneGAN生成的A0′和BX′,第五、六列分別為本文方法生成的A0′和BX′.
圖6 無人機(jī)背景替換結(jié)果對比圖
可以看出,原GeneGAN無法替換無人機(jī)圖像的背景,相比之下,本文方法能夠很好地生成替換為其他背景的無人機(jī)圖像.
本文針對兩類背景圖像存在較大偏差的問題,提出了一種基于改進(jìn)GeneGAN的圖像背景替換方法,以無人機(jī)圖像為例,實(shí)現(xiàn)將無人機(jī)圖像的單一背景替換為豐富復(fù)雜背景,獲得高質(zhì)量的背景替換效果.通過背景減除方法獲得的差值圖像,解決了無人機(jī)圖像與背景圖像的偏差問題,使模型能夠正確地生成指定背景的無人機(jī)圖像;通過強(qiáng)約束項(xiàng),解決了生成的背景圖像中無人機(jī)“殘影”現(xiàn)象,使模型能夠獲得正確的原圖像純背景.實(shí)驗(yàn)表明,本文方法能將圖像的背景替換為其他豐富背景,生成圖像具備高質(zhì)量且高真實(shí)性的特點(diǎn);與原GeneGAN相比,本文方法能成功實(shí)現(xiàn)背景偏差大的圖像背景替換.
本文證明了兩類背景圖像存在較大偏差時的GAN圖像屬性編輯方案的可行性,擴(kuò)展了GAN相關(guān)技術(shù)的應(yīng)用范圍,如少樣本學(xué)習(xí)、遷移學(xué)習(xí)等需求虛擬樣本的技術(shù)領(lǐng)域.但要使模型更準(zhǔn)確地學(xué)習(xí)不同圖像的分布,需要設(shè)計相應(yīng)地的指向性約束,以應(yīng)對不同屬性的圖像編輯任務(wù).