衛(wèi) 星 李 佳 孫 曉 劉邵凡 陸 陽
多視角圖像生成指的是基于某個視角的圖像生成其他視角的圖像,該問題在實際生活中具有很多應(yīng)用,例如:電商網(wǎng)站上商品的多視角展示、虛擬現(xiàn)實中的目標(biāo)建模和和數(shù)據(jù)集擴(kuò)充等.目前多視角圖像生成已經(jīng)吸引了來自計算機(jī)視覺、虛擬現(xiàn)實等眾多領(lǐng)域研究人員的興趣,并取得了一定的進(jìn)展[1?5].
早期工作中,研究人員嘗試使用變分自編碼器(Variational autoencoder,VAE)[6]生成多視角圖像.變分自編碼器采用變分推斷和深度表示學(xué)習(xí)來得到一個復(fù)雜的生成模型,從而擺脫了傳統(tǒng)耗時的采樣過程.但變分自編碼器并不能很好地補(bǔ)充生成圖像中的細(xì)節(jié).此外,研究人員[7?8]還嘗試先建立目標(biāo)的3D 模型,再生成目標(biāo)視角的圖像,但這種方法的靈活性較弱,只適合于合成椅子、杯子等簡單物體的圖像.
近年來,有研究人員提出使用生成對抗網(wǎng)絡(luò)(Generative adversarial network,GAN)[9]來生成多視角圖像.在文獻(xiàn)[4]中,研究人員將變分自編碼器與生成對抗網(wǎng)絡(luò)相結(jié)合,提出了一種面向服裝的多視角圖像生成模型VariGANs.VariGAN 模型將圖像生成分為兩步,采用由粗到精的方式生成高分辨率的多視角圖像,本文模型也參考了這種由粗到精的生成方式.但VariGAN 模型局限于服裝的多視角圖像生成,并不能有效遷移至其他領(lǐng)域.
在文獻(xiàn)[2]中,研究人員嘗試在圖像生成中引入語義指導(dǎo),提出了兩種多視角圖像生成模型X-Fork和X-Seq.這兩個模型將已知視角的圖像與目標(biāo)視角的語義分割圖共同輸入模型,填補(bǔ)了生成圖像中的語義結(jié)構(gòu),使得生成的圖像更加真實.受到文獻(xiàn)[2]中工作的啟發(fā),文獻(xiàn)[5]中的研究人員提出了一種基于多通道注意力機(jī)制的SelectionGAN 模型.SelectionGAN 模型將語義生成空間進(jìn)一步擴(kuò)大,模型通過參考生成的中間結(jié)果,進(jìn)一步完善了圖像中的語義細(xì)節(jié),在衛(wèi)星圖與地面圖的翻譯任務(wù)中取得了很好的成績.但以上的工作對于多視角生成任務(wù)中其他場景的兼容性較差,因為并不是所有場景下都有充足的語義分割圖來進(jìn)行訓(xùn)練模型.
為解決上述問題,本文提出了一種基于混合生成對抗網(wǎng)絡(luò)的多視角圖像生成模型ViewGAN,該模型可以靈活遷移至多視角生成任務(wù)中的各個場景.ViewGAN 包含多個生成器和一個多類別判別器,每一個生成器負(fù)責(zé)生成某一視角的圖像.如圖1 所示,模型分兩步生成圖像:1) 模型運(yùn)用粗粒度模塊(Coarse image module) 生成低分辨率(Low resolution,LR)下的目標(biāo)圖像;2) 在低分辨率目標(biāo)圖像的基礎(chǔ)上,模型運(yùn)用細(xì)粒度模塊(Fine image module)完善圖像的語義結(jié)構(gòu),生成高分辨率(high resolution,HR)下的目標(biāo)圖像.
圖1 本文模型ViewGAN 在DeepFashion、Dayton 和ICG Lab6 數(shù)據(jù)集上的測試樣例Fig.1 Examples of ViewGAN on three datasets,i.e.,DeepFashion,Dayton and ICG Lab6
本文的ViewGAN 模型與以往工作的不同之處在于:1) ViewGAN 包含多個生成器和一個判別器,每一個生成器負(fù)責(zé)生成某一視角的圖像,這保證了ViewGAN 模型可以靈活遷移至各種多視角生成任務(wù)中,甚至還可以運(yùn)用到圖像翻譯的其他領(lǐng)域,例如風(fēng)格轉(zhuǎn)換等;2) 為了加強(qiáng)圖像生成過程中的語義約束,本文使用蒙塔卡羅搜索方法(Monte Carlo search,MCS)[10]對低分辨率目標(biāo)圖像進(jìn)行多次采樣,并根據(jù)采樣結(jié)果計算相應(yīng)的懲罰值,懲罰機(jī)制可以迫使每個生成器生成語義更加豐富的圖像,避免出現(xiàn)模式崩塌(Mode collapse)[11];3) 模型中的多類別判別器使每個生成器更加專注于生成它們指定視角的圖像,避免生成與其他視角相似的圖像,從而進(jìn)一步完善了圖像的語義結(jié)構(gòu);4) 本文將ViewGAN模型與目前主流的圖像生成模型(例如:Pix2Pix[12],VariGAN[4],X-Fork 和X-Seq[2],SelectionGAN[5])進(jìn)行了對比,并在3 個公開數(shù)據(jù)集上進(jìn)行了大量的實驗,實驗結(jié)果表明:本文模型在3 個數(shù)據(jù)集上都取得了最好成績,這表明了本文模型的靈活性和生成圖像的高質(zhì)量.
綜上所述,本文的主要貢獻(xiàn)總結(jié)如下:
1) 提出了一種基于混合生成對抗網(wǎng)絡(luò)的多視角圖像生成模型ViewGAN,該模型包括多個生成器和一個判別器,采用由粗到精的方式生成不同視角下的高質(zhì)量圖像.
2) 提出了一種基于蒙特卡洛搜索的懲罰機(jī)制來加強(qiáng)圖像生成過程中的約束,這使得每個生成器能夠獲得更充足的語義指導(dǎo),在對應(yīng)視角的圖像中增加更多的語義細(xì)節(jié).
3) 在3 個數(shù)據(jù)集上與目前的主流模型進(jìn)行了大量的對比實驗,實驗結(jié)果證明了ViewGAN 在各種場景下的有效性與靈活性.
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,圖像生成已經(jīng)變成了一個熱門的話題.變分自編碼器(VAE)[6]是一種基于概率圖模型的生成模型.在文獻(xiàn)[13]中,研究人員提出了一種可由視覺特征生成圖像的Attribute2Image 模型,該模型通過合成前景和背景來建模圖像.之后研究人員[14]嘗試在VAE 中引入注意力機(jī)制,提出了一種DRAW 模型,該模型在一定程度上提升了圖像的質(zhì)量.
近年來,研究人員在采用生成對抗網(wǎng)絡(luò)[9]在圖像生成方向取得了不錯的成績,生成器被訓(xùn)練生成圖像來欺騙判別器,判別器被訓(xùn)練區(qū)分真實圖像和虛假圖像.之后大量基于GAN 的變體相繼提出,例如條件生成對抗網(wǎng)絡(luò)(Conditional GANs)[15]、Bi-GANs[16]、InfoGANs[17]等.GANs 還可以基于標(biāo)簽[15],文本[18?19]或者圖[12,20?22]來生成圖像.
但上述模型生成的圖像普遍存在模糊、失真等問題,模型并沒有學(xué)會如何生成圖像,而是簡單地重復(fù)訓(xùn)練集中圖像的內(nèi)容.本文模型也是一種基于輸入圖像的條件生成對抗網(wǎng)絡(luò),但本文模型憑借新穎的懲罰機(jī)制引入了更充足的語義指導(dǎo),進(jìn)一步完善了圖像的語義結(jié)構(gòu),在一定程度上克服了圖像失真的問題.
早期的研究人員通過對物體進(jìn)行3D 建模來合成不同視角的圖像[7?8,23].在文獻(xiàn)[8]中,研究人員提出一種3D?2D 映射機(jī)制,從而使模型可以從2D 數(shù)據(jù)中學(xué)習(xí)到3D 特征.之后有研究人員[23]提出一種3D-GAN 模型,該模型可以依據(jù)復(fù)雜的概率空間生成3D 物體.
在文獻(xiàn)[2]中,研究人員嘗試使用圖像翻譯的方法進(jìn)行多視角生成,使用條件生成對抗網(wǎng)絡(luò)在衛(wèi)星圖-街景圖轉(zhuǎn)換任務(wù)中取得了不錯的成績.之后在文獻(xiàn)[4]中,研究人提出了一種面向服裝的多視角圖像生成模型VariGANs.VariGAN 模型將圖像生成分為兩步,采用由粗到精的方式生成高分辨率的多視角圖像.受到上述工作的啟發(fā),文獻(xiàn)[5]中的研究人員提出了一種基于多通道注意力機(jī)制的SelectionGAN 模型.SelectionGAN 模型將語義生成空間進(jìn)一步擴(kuò)大,模型通過充分參考生成的中間結(jié)果,進(jìn)一步完善了圖像中的語義細(xì)節(jié),在衛(wèi)星圖與街景圖的翻譯任務(wù)中取得了很好的成績.
但上述模型對于數(shù)據(jù)的要求極為嚴(yán)格,模型需要大量的數(shù)據(jù)或者輔助的語義分割圖進(jìn)行訓(xùn)練,這大大限制了模型的靈活性和兼容性.為解決這個問題,本文提出了一種基于混合生成對抗網(wǎng)絡(luò)的多視角圖像生成模型,本文模型包括多個生成器和一個判別器,這使得模型可以同時訓(xùn)練生成多個視角的圖像.大量實驗結(jié)果證明,在不需要大量的數(shù)據(jù)或者語義分割圖輔助訓(xùn)練的前提下,本文模型在3 個數(shù)據(jù)集上都取得了不錯的成績.
生成對抗網(wǎng)絡(luò)(GAN)[9]包括兩個對抗學(xué)習(xí)的子網(wǎng)絡(luò):一個生成器和一個判別器,它們基于最大?最小博弈理論同時進(jìn)行訓(xùn)練.生成器G的目的在于將一個d維的噪聲向量映射成一幅圖像,并盡可能地使生成的圖像接近真實圖像;另一方面,判別器D用來鑒別圖像是來自于生成器的虛假圖像還是來自真實數(shù)據(jù)的真實圖像.整個生成對抗網(wǎng)絡(luò)的目標(biāo)函數(shù)可表示為
其中,x表示由真實數(shù)據(jù)pdata采樣得到的真實數(shù)據(jù),z表示從高斯分布pz采樣得到的d維噪聲向量.
條件生成對抗網(wǎng)絡(luò)(Conditional GANs)[15]通過引入輔助變量來控制模型的生成結(jié)果.在條件生成對抗網(wǎng)絡(luò)中,生成器基于輔助信息生成圖像,判別器基于輔助信息和圖像(虛假圖像或者真實圖像)做出判斷.整個網(wǎng)絡(luò)的目標(biāo)函數(shù)可表示為
其中,c表示引入的輔助變量,x′=G(z,c) 表示生成器生成的圖像.
除對抗損失外,以往的工作[20?21]還嘗試最小化真實圖像和虛假圖像之間的L1 或者L2 距離,這能夠幫助生成器合成與真實圖像更加相似的圖像.以往工作證明:相比于最小化L2 距離,最小化L1 距離更能夠幫助模型減少圖像中的模糊和失真,因此我們在本文模型中也使用了L1 距離.最小化L1 距離可表示為
因此這類條件生成對抗網(wǎng)絡(luò)的目標(biāo)函數(shù)就是式(2)和式(3)之和.
這里首先對多視角生成任務(wù)進(jìn)行簡短的定義.假設(shè)有一個多視角集合其中vi對應(yīng)某一具體視角,例如正面或者側(cè)面.一個物體在視角vi下的圖像定義為給定某個視角的圖像,多視角圖像生成任務(wù)是指生成其他不同視角的圖像,其中vj ∈V,ji.
本文提出的ViewGAN 模型的整體框架如圖2所示.假設(shè)我們要生成k種不同視角的圖像(例如:正面、側(cè)面和背面三種視角),我們使用k個生成器和一個判別器,其中分別表示第i個生成器和判別器的網(wǎng)絡(luò)參數(shù).表示從真實數(shù)據(jù)分布中采樣得到的某一視角的圖像,表示第i個生成器Gi生成的圖像.
圖2 ViewGAN 模型的整體框架Fig.2 The framework of ViewGAN
整個模型的訓(xùn)練可以分為兩個對抗學(xué)習(xí)過程:生成器的學(xué)習(xí)和判別器的學(xué)習(xí).第i個生成器Gi的目標(biāo)是生成視角vi下的圖像,并使得生成的圖像能夠欺騙判別器.換句話說,生成器的目標(biāo)在于最小化合成圖像與真實圖像之間的距離.與之相反,判別器的目的在于盡可能的區(qū)分k種視角下的虛假圖像和真實圖像,并針對虛假圖像計算出準(zhǔn)確的懲罰值.
生成器的整體框架如圖3 所示,圖中展示的是第j個生成器.訓(xùn)練時中生成圖像的過程分為3 步:1) 輸入已知視角vi下的圖像和目標(biāo)視角vj下的圖像,生成器首先使用粗粒度生成模塊生成低分辨率的目標(biāo)圖像2)采用蒙特卡洛搜索策略對低分辨率目標(biāo)圖像進(jìn)行N次采樣,從而得到N幅中間結(jié)果圖像;3) 引入注意力機(jī)制提取N幅中間結(jié)果圖像的特征,并將注意力機(jī)制的輸出與已知視角vi下的圖像輸入到細(xì)粒度生成模塊中,細(xì)粒度生成模塊生成最終結(jié)果,即高分辨率的目標(biāo)圖像.
圖3 生成器 ( Gj) 的整體框架Fig.3 The framework of the generator Gj
3.3.1 懲罰機(jī)制
為加強(qiáng)圖像生成過程中的語義約束,進(jìn)一步完善圖像中的語義細(xì)節(jié),我們提出了一種基于蒙特卡洛搜索策略的懲罰值機(jī)制.它使混合生成對抗網(wǎng)絡(luò)中每個生成器更加專注于生成相應(yīng)視角的圖像.
之后,我們將N張中間結(jié)果圖像和已知視角的圖像送入判別器,根據(jù)判別器的輸出結(jié)果計算懲罰值.計算過程可表示為
3.3.2 注意力機(jī)制
通過采樣得到N幅中間結(jié)果圖像后,我們希望參考中間結(jié)果圖像為下一步的生成提供充足的語義指導(dǎo).因此我們提出一種基于多通道的注意力機(jī)制,區(qū)別于以往工作中合成圖像僅從RGB 三通道空間中生成的方法,我們將采樣得到的N幅中間結(jié)果作為特征集來構(gòu)建更大的語義生成空間,模型通過參考不同通道的信息來提取更加細(xì)粒度的信息.并將計算結(jié)果輸入到細(xì)粒度生成模塊中,從而得到高分辨率目標(biāo)圖像.
3.3.3 目標(biāo)函數(shù)
綜上所述,生成器通過最小化以下目標(biāo)函數(shù)來不斷優(yōu)化
參考文獻(xiàn)[24]中有關(guān)半監(jiān)督學(xué)習(xí)的工作,我們使用了一種多類別判別器用來區(qū)分不同視角下的真實圖像和虛假圖像,判別器的輸入包括已知視角的圖像和目標(biāo)視角的圖像.
3.4.1 目標(biāo)函數(shù)
模型中包含k個生成器,每個生成器負(fù)責(zé)生成某一視角下的圖像,所以判別器要輸出k+1 種類的概率分布.前k個類別的概率值Di(i ∈1,···k)分別表示輸入圖像屬于第i種視角的概率,第k+1個類別的概率值表示輸入圖像是虛假圖像的概率.判別器通過最小化以下目標(biāo)來進(jìn)行優(yōu)化
其中,Pg表示生成器生成的圖像,Pdata表示真實數(shù)據(jù)分布.Iv表示任一視角的真實圖像,Ig表示以Iv作為輸入時生成器生成的圖像,表示視角vi下的真實圖像,Di(·) 表示判別器輸出結(jié)果中第i個類別的概率值,Lc表示類內(nèi)損失.下面詳細(xì)闡述類內(nèi)損失的含義,參數(shù)λ用于控制兩種損失的平衡.
下面詳細(xì)論述多類別判別器是如何協(xié)助每個生成器更專注于生成指定視角的圖像,避免出現(xiàn)圖像模糊或者模式崩塌現(xiàn)象.為了便于描述,這里使用X表示采樣得到的圖像對,例如虛假圖像對(Iv,Ig)或者真實圖像對
首先,理想情況下第i個生成器可以學(xué)習(xí)到視角vi下圖像的真實分布.判別器的目標(biāo)函數(shù)如式(9)所示,且=1,Di ∈[0,1],?i.由此可以得到判別器學(xué)習(xí)到的最優(yōu)分布:
基于式(5),生成器的目標(biāo)是最小化以下等式:
3.4.2 類內(nèi)損失
判別器要對多個生成器生成的視角圖像進(jìn)行判斷,而每個視角的圖像之間具有一定的重合部分,僅采用GAN 網(wǎng)絡(luò)對抗損失進(jìn)行監(jiān)督學(xué)習(xí)容易導(dǎo)致圖像的視角類別預(yù)測錯誤,因此我們在對抗損失的基礎(chǔ)上引入了類內(nèi)損失用于減小類內(nèi)特征差異,并增加類間差異.類內(nèi)損失可表示為
其中,δ(·) 是條件表達(dá)式,當(dāng)vi=vj即當(dāng)前圖像屬于視角vj時,條件δ(vi=vj) 為1,其他情況下條件δ(vi=vj)為0.
訓(xùn)練時將k個生成器與多類別判別器進(jìn)行對抗學(xué)習(xí),并交替訓(xùn)練它們,優(yōu)化算法如算法1 所示.
算法1.ViewGAN 的對抗學(xué)習(xí)過程
對于多視角生成問題,輸入和輸出之間存在大量底層特征共享,應(yīng)該直接將特征在網(wǎng)絡(luò)之間傳遞.為了解決網(wǎng)絡(luò)特征傳遞問題,我們采用U-Net[25]作為生成器和判別器的基礎(chǔ)結(jié)構(gòu)并使用Conv-BNReLu 模塊作為中間結(jié)構(gòu),網(wǎng)絡(luò)結(jié)構(gòu)如表1 和表2所示.其中CONV BLOCK 卷積塊由3 個串聯(lián)的卷積核大小為3 的卷積層和濾波器大小為2 的平均池化層組成,其中卷積層的步長等于1 并采用1 個像素填充;DECONVBLOCK 由2 個串聯(lián)的卷積核大小為3 的卷積層和濾波器大小為2 的上采樣層組成,卷積層的設(shè)置與CONV BLOCK 相同;HIDDEN LAYER 由1 個大小為3 的卷積核的卷積層組成.
表1 生成器網(wǎng)絡(luò)結(jié)構(gòu)Table 1 Generator network architecture
表2 判別器網(wǎng)絡(luò)結(jié)構(gòu)Table 2 Discriminator network architecture
U-Net 是一種在編碼器和解碼器之間具有跳躍連接的網(wǎng)絡(luò),這種網(wǎng)絡(luò)結(jié)構(gòu)允許更多的原圖像紋理的信息在高層特征層中進(jìn)行傳播.對于每個生成器Gi,編碼器第一層卷積層濾波器大小為64,解碼器最后一層卷積層用于將通道數(shù)映射為輸出圖片通道數(shù)(彩色圖片為3 通道,黑白圖片為2 通道).除了編碼器的第一層卷積層,其余所有卷積層后都連接BatchNorm 層進(jìn)行特征歸一化.
1) DeepFashion[26].該數(shù)據(jù)集包含8697 幅服飾的多視角圖像,每件服飾具有三個視角:正面、側(cè)面和背面.從中挑選出6000 幅圖像作為訓(xùn)練集,2000幅圖像作為測試集,圖像尺寸為256×256 像素.
2) Dayton[27].該數(shù)據(jù)集包含超過13 萬幅街道視角?鳥瞰視角的圖像,從中挑選出55000 幅圖像作為訓(xùn)練集,5000 幅圖像作為測試集.圖像的原始尺寸為354×354 像素,我們將圖像尺寸調(diào)整為256×256 像素.
3) ICG Lab6[28].該數(shù)據(jù)集包含6 名人員的室內(nèi)場景活動圖,共使用4 個不同方位的靜態(tài)攝像頭進(jìn)行拍攝.從中挑選6000 幅圖像作為訓(xùn)練集,1500幅圖像作為測試集.圖像的原始尺寸為1024×768像素,我們將圖像尺寸調(diào)整為256×256 像素.
我們將本文模型與目前主流的多視角圖像生成、圖像翻譯模型進(jìn)行對比.
1) Pix2Pix[12].采用對抗損失學(xué)習(xí)從x∈X到y(tǒng) ∈Y的映射,其中,x和y分別表示不同域X和Y中的圖像,在圖像翻譯任務(wù)上取得了較好成績.
2) X-Fork[2].與Pix2Pix 結(jié)構(gòu)類似,生成器通過學(xué)習(xí)映射:G:{Ia}→{Ib,Sb}來生成多視角圖像.其中Ia,Ib分別表示視角a和視角b下的圖像,Sa表示視角b下的語義分割圖.
3) X-Seq[2].兩個CGAN(G1,G2)的組合模型,其中G1 合成目標(biāo)視角的圖像,G2 基于G1 的輸出圖像合成目標(biāo)視角的語義分割圖.兩個生成器之間的輸入?輸出依賴約束了生成的圖像和語義分割圖,有效地提升了圖像的質(zhì)量.
4) VariGAN[4].變分自編碼器和GAN 網(wǎng)絡(luò)的組合模型,采用由粗到精的方法生成高分辨率的多視角圖像,在DeepFashion 等服飾數(shù)據(jù)集上取得了較好的結(jié)果.
5) SelectionGAN[5].在X-Seq 模型的基礎(chǔ)上引入了一種多通道注意力機(jī)制來選擇性地學(xué)習(xí)模型的中間結(jié)果,從而實現(xiàn)了一種由粗到精的級聯(lián)式語義指導(dǎo),使合成圖像具有更豐富的語義細(xì)節(jié).
在定量實驗中,我們采用Inception score[24],Top-k預(yù)測準(zhǔn)確率指標(biāo)從高層特征空間的角度來評估合成圖像.此外,我們還采用一些像素級別的相似度指標(biāo)來衡量生成的圖像,包括:結(jié)構(gòu)相似性(Structural similarity,SSIM)、峰值信噪比(Peak signal-to-noise ratio,PSNR)和SD (Sharpness difference).
4.3.1 Inception score 和Top-k 預(yù)測準(zhǔn)確率
1) Inception score 指標(biāo).Inception score (IS)是一種面向生成模型的常見定量指標(biāo),它可以衡量模型生成的圖像是否清晰、生成的圖像是否多樣.其計算式為
其中,G表示生成器,x表示生成的圖像,y表示合成圖像的預(yù)測標(biāo)簽.
因為Dayton 數(shù)據(jù)集和DeepFashion 數(shù)據(jù)集中包含了ImageNet 數(shù)據(jù)集[29]中未標(biāo)注的戶外物體類別和服裝類別,所以不能直接使用預(yù)訓(xùn)練的Inception 模型.對于Dayton 數(shù)據(jù)集,使用在Places數(shù)據(jù)集[30]上訓(xùn)練的AlexNet 模型[31]進(jìn)行評分;對于DeepFashion 數(shù)據(jù)集,使用預(yù)訓(xùn)練的PaperDoll[32]模型進(jìn)行評分;對于ICG Lab6 數(shù)據(jù)集,采用在ImageNet 數(shù)據(jù)集上訓(xùn)練的Inception 模型進(jìn)行評分.
同時我們注意到:這些預(yù)訓(xùn)練模型針對合成圖像輸出的置信度分?jǐn)?shù)較為分散,合成圖像并沒有包含所有類別的目標(biāo).因此我們只在Top-1 和Top-5類別上計算Inception score,其中 “Top-1”表示每幅圖像的預(yù)測標(biāo)簽中概率最大的k個標(biāo)簽不變,其余標(biāo)簽的概率進(jìn)行平滑處理.
2) Inception score 評估結(jié)果.基于Inception score 的實驗結(jié)果如表3 所示.從實驗結(jié)果可以看出:本文模型ViewGAN在DeepFashion 數(shù)據(jù)集和ICG Lab6 數(shù)據(jù)集上均優(yōu)于基線模型.其中Deep-Fashion 數(shù)據(jù)集的圖像風(fēng)格、服裝樣式等變化較大,以往模型很難生成這種多樣性較強(qiáng)的圖像,而本文模型通過采用分布式生成的方法,使模型有足夠的內(nèi)存來學(xué)習(xí)如何生成各種樣式的服裝以及同一服裝不同視角下的變化.ICG Lab6 數(shù)據(jù)集的圖像取自復(fù)雜的室內(nèi)環(huán)境,對圖像分辨率的要求較高.以往模型缺乏對圖像細(xì)節(jié)的補(bǔ)充,導(dǎo)致生成模糊、失真的圖像,而本文模型采用懲罰機(jī)制加強(qiáng)了對圖像語義細(xì)節(jié)的約束,能夠生成更加清晰的高質(zhì)量圖像.
表3 各模型Inception score 統(tǒng)計表,該指標(biāo)越高表明模型性能越好Table 3 Inception score of different models (For this metric,higher is better)
同時我們注意到ViewGAN 在Dayton 數(shù)據(jù)集下Top-1 類別的得分僅次于SelectionGAN.這主要是因為Dayton 數(shù)據(jù)集中的多視角圖像是區(qū)別較大的戶外圖像,這種多視角圖像生成任務(wù)具有較大的難度,SelectionGAN 中引入了目標(biāo)圖像的語義分割圖來輔助生成,本文模型卻沒有引入外部知識.因此本文模型生成的圖像具有一定的不確定性,從而導(dǎo)致圖像中存在模糊的區(qū)域,但ViewGAN 的得分與SelectionGAN 的得分很接近,這也表明了本文模型的潛力.
3) Top-k指標(biāo).此外,我們還計算了真實圖像和合成圖像的Top-k預(yù)測準(zhǔn)確率.我們使用與Inception score 同樣的與訓(xùn)練模型來獲得真實圖像的標(biāo)注和合成圖像的預(yù)測標(biāo)簽.實驗計算了Top-1 預(yù)測準(zhǔn)確率和Top-5 預(yù)測準(zhǔn)確率.每種準(zhǔn)確率的計算方法有兩種方法:a)考慮所有的測試圖像;b)只考慮那些預(yù)測標(biāo)簽概率值超過0.5 的測試圖像.
4) Top-k評估結(jié)果.基于Top-k的實驗結(jié)果如表4 所示.由實驗結(jié)果可知:本文模型在3 個數(shù)據(jù)集上的性能均優(yōu)于基線模型,顯著提升了預(yù)測準(zhǔn)確率.這說明本文模型生成圖像具有較高的清晰度、豐富的語義細(xì)節(jié),在復(fù)雜多變的DeepFashion 數(shù)據(jù)集和Dayton數(shù)據(jù)集上表現(xiàn)出了較強(qiáng)的魯棒性.
表4 各模型Top-k 預(yù)測準(zhǔn)確率統(tǒng)計表,該指標(biāo)越高表明模型性能越好Table 4 Accuracies of different models (For this metric,higher is better)
值得注意的是,本文模型在ICG Lab6 數(shù)據(jù)集上的準(zhǔn)確率要略低于在其他兩個數(shù)據(jù)集的準(zhǔn)確率.這主要是因為ICG Lab6 數(shù)據(jù)集中的圖像包含較多小目標(biāo)物體,這對合成清晰圖像來說本身就是一個很大的挑戰(zhàn),因此以往模型最高只達(dá)到了76.44%的準(zhǔn)確率.而本文模型引入基于蒙特卡洛搜索的懲罰機(jī)制,充分利用了模型的中間結(jié)果,保證了圖像具有更細(xì)致的語義細(xì)節(jié),最高達(dá)到了93.25%的準(zhǔn)確率.
4.3.2 結(jié)構(gòu)相似性、峰值信噪比和Sharpness difference
1) 指標(biāo).參考文獻(xiàn)[33?34]中的工作,我們利用結(jié)構(gòu)相似性、峰值信噪比和SD (Sharpness difference)指標(biāo)來衡量合成圖像與真實圖像之間的像素級相似度.
2) 結(jié)構(gòu)相似性(SSIM).基于圖像的亮度、對比度等屬性評估圖像之間的相似度,其取值范圍為[?1,1],值越大則圖像之間的相似度越高.結(jié)構(gòu)相似性的計算式為
其中,μIg,μIv分別表示合成圖像Ig和真實圖像Iv的均值,,分別表示圖像Ig和的標(biāo)準(zhǔn)差.c1,c2是為了避免分母為0 而引入的常數(shù).
3) 峰值信噪比(PSNR).通過測量到達(dá)噪音比率的頂點信號來評估合成圖像相對于真實圖像的質(zhì)量.峰值信號比越大,合成圖像的質(zhì)量越高.峰值信噪比的計算式為
4) SD (Sharpness difference)測量圖像生成過程中清晰度的損失,為了計算合成圖像和真實圖像之間的清晰度差異,我們參考文獻(xiàn)[35]中的思路,計算圖像之間的梯度變化
中的SharpDiff可看作是梯度的倒數(shù),我們希望圖像之間的梯度盡量小,所以SharpDiff就應(yīng)該盡量大.
5) 結(jié)果.基于SSIM,PSNR,SD 的實驗結(jié)果如表5所示.由實驗結(jié)果可以看出:本文模型ViewGAN在3 個數(shù)據(jù)集上的得分均高于基線模型的得分.相比于目前主流的SelectionGAN 模型,本文模型ViewGAN 在ICG Lab6 數(shù)據(jù)集上的SSIM 分?jǐn)?shù)提升了32.29%,SD 分?jǐn)?shù)提升了10.18%,在DeepFashion數(shù)據(jù)集上的PSNR 得分提升了14.32%.
表5 各模型SSIM,PSNR,SD 和速度統(tǒng)計表,其中FPS 表示測試時每秒處理的圖像數(shù)量,所有指標(biāo)得分越高表明模型性能越好Table 5 SSIM,PSNR,SD of different models.FPS is the number of images processed per second during testing(For all metrics,higher is better)
上述定量實驗結(jié)果證明:面向室內(nèi)、室外等復(fù)雜環(huán)境,本文模型能夠?qū)W會如何生成高質(zhì)量多視角圖像,而不是簡單地重復(fù)訓(xùn)練集中的圖像.這種分布式的生成方式使每個生成器專注于學(xué)習(xí)固定視角的圖像,提出的懲罰機(jī)制能夠進(jìn)一步完善圖像的語義細(xì)節(jié),使得生成的圖像更加逼真,顯著地化解了圖像中的人工痕跡.
6) 速度對比實驗.為驗證各個模型在速度上的差異,我們在Dayton 數(shù)據(jù)集上對各個模型測試時的速度進(jìn)行了對比實驗.實驗結(jié)果如表5 所示,從實驗結(jié)果看出:ViewGAN 的測試速度低于所有基線模型,這要是因為采用由粗到精的兩階段生成方法勢必會造成計算量的增加,此外蒙特卡洛搜索耗時較多.但事實上,ViewGAN 和SelectionGAN 的速度差距不大,且62 幀/s 可以滿足實際應(yīng)用中的需要.
7) 最小數(shù)據(jù)量實驗.為了驗證訓(xùn)練集規(guī)模對于模型性能的影響,我們在DeepFashion 數(shù)據(jù)集上對ViewGAN 的最小訓(xùn)練樣本量進(jìn)行了探究實驗.實驗結(jié)果如表6 所示,從實驗結(jié)果可以看出:隨著訓(xùn)練集規(guī)模的縮小,ViewGAN 的性能下降較為緩慢.直至訓(xùn)練集規(guī)??s小至60%時,ViewGAN 在各指標(biāo)上的得分才低于基線模型SelectionGAN 在完整數(shù)據(jù)集上的得分,這表明ViewGAN 具有較強(qiáng)的魯棒性,即使在小規(guī)模數(shù)據(jù)集上仍能學(xué)習(xí)到關(guān)鍵的特征信息,在一定程度上克服了以往模型泛化能力不強(qiáng)的缺點.
表6 最小數(shù)據(jù)量實驗結(jié)果Table 6 Minimum training data experimental results
在3 個數(shù)據(jù)集上的定性評估結(jié)果如圖4~ 6 所示,測試圖像的分辨率均為256×256 像素.從實驗結(jié)果可以看出:本文模型ViewGAN 生成的圖像更加清晰,有關(guān)物體或場景的細(xì)節(jié)更豐富.在Deep-Fashion 數(shù)據(jù)集中,以往模型易生成模糊失真的圖像,ViewGAN 學(xué)會了如何生成多樣性強(qiáng)的服飾圖像,在服飾的圖案、人物的姿態(tài)上具有更多的語義細(xì)節(jié).在Dayton 數(shù)據(jù)集中,ViewGAN 能夠生成更加自然的圖像,圖像中的房屋、草木和汽車都更符合實際,減輕了圖像中的人工痕跡.在ICG Lab6數(shù)據(jù)集中,ViewGAN 在面對復(fù)雜環(huán)境時仍表現(xiàn)出較好的性能,圖像中的桌椅、電腦等小目標(biāo)都十分逼真,在清晰度方面非常接近真實圖像.
圖4 各模型在DeepFashion 數(shù)據(jù)集上的測試樣例Fig.4 Results generated by different models on DeepFashion dataset
為了分析本文模型中不同組件的功能,我們在DeepFashion 數(shù)據(jù)集上進(jìn)行了消融分析實驗.實驗結(jié)果如表7 所示.由實驗結(jié)果可知:相比于模型A,模型B 的性能更好,這表明由粗到精的兩階段生成方法能夠更好地提升圖像的清晰度.模型C 的性能得到進(jìn)一步的提升,這是因為本文模型采用的混合生成對抗網(wǎng)絡(luò)有效地擴(kuò)充模型的內(nèi)存容量,使得每個生成器更擅長生成指定視角的圖像.模型D 通過引入類內(nèi)損失促進(jìn)了每個生成器的學(xué)習(xí),在提升系統(tǒng)穩(wěn)定性的同時提升了圖像的質(zhì)量.而模型E 的得分表明:而本文提出的懲罰機(jī)制顯著提升了模型的性能,使模型在生成過程中得到了充足的語義約束,這大大增強(qiáng)了合成圖像的清晰度和真實感.
表7 消融分析實驗結(jié)果Table 7 Ablations study of the proposed ViewGAN
圖5 各模型在Dayton 數(shù)據(jù)集上的測試樣例Fig.5 Results generated by different models on Dayton dataset
為進(jìn)一步探索本文提出的基于蒙特卡洛搜索的懲罰機(jī)制,我們將ViewGAN 生成圖像的過程進(jìn)行了可視化,如圖7 所示.從圖中可以看出,低分辨率目標(biāo)圖像僅僅畫出了人物的基本輪廓,缺乏服飾的細(xì)節(jié).而利用蒙特卡洛搜索進(jìn)行多次挖掘后,提取出了不同層次的語義信息,如服飾的蕾絲邊、手臂的輪廓等,之后調(diào)用細(xì)粒度模塊將這些語義信息填補(bǔ)到目標(biāo)圖像中,從而得到最終逼真的高分辨率目標(biāo)圖像.
圖6 各模型在ICG Lab6 數(shù)據(jù)集上的測試樣例Fig.6 Results generated by different models on ICG Lab6 dataset
圖7 ViewGAN 生成圖像的可視化過程((a)輸入圖像;(b)粗粒度模塊合成的低分辨率目標(biāo)圖像;(c)蒙特卡洛搜索的結(jié)果;(d)細(xì)粒度模塊合成的高分辨率目標(biāo)圖像)Fig.7 Visualization of the process of ViewGAN generating images ((a) The input image;(b) The LR image generated by coarse image module;(c) Intermediate results generated by Monte Carlo search module;(d) The HR image generated by fine image module)
本文提出了一種多視角圖像生成模型ViewGAN,它可基于不同視角的圖像合成新視角的圖像.模型首先利用粗粒度模塊生成低分辨率目標(biāo)圖像,之后利用蒙特卡洛搜索挖掘中間結(jié)果的語義信息,細(xì)粒度模塊基于搜索結(jié)果合成高分辨率目標(biāo)圖像.在3個公開數(shù)據(jù)集DeepFashion,Dayton 和ICG Lab6上的定量實驗與定性實驗證明:相比于目前的主流模型,本文模型能夠生成更加清晰的、多樣性的目標(biāo)圖像.其中消融分析實驗證明了本文提出的基于蒙塔卡羅搜索的懲罰機(jī)制顯著提升了圖像的質(zhì)量.此外,本文模型可靈活遷移至多視角生成的各個場景,未來我們將進(jìn)一步探索該方法在圖像風(fēng)格遷移、圖像翻譯等領(lǐng)域的應(yīng)用.