林振峰,尹夢曉,2,楊 鋒,2,鐘 誠,2
1(廣西大學(xué) 計算機與電子信息學(xué)院,南寧 530004) 2(廣西多媒體通信與網(wǎng)絡(luò)技術(shù)重點實驗室,南寧 530004)
圖像生成是計算機視覺中常見的任務(wù),目標(biāo)是生成與真實圖像無差別的圖像.在深度學(xué)習(xí)中,GAN[1]以獨特的結(jié)構(gòu)和學(xué)習(xí)方式成為生成圖像常用的方法.GAN由生成器G和判別器D構(gòu)成,其結(jié)構(gòu)如圖1所示,其中生成器負(fù)責(zé)將輸入的噪聲生成圖像,而判別器需要判斷生成圖像的真假.生成器和判別器通過對抗學(xué)習(xí)優(yōu)化模型參數(shù),即生成器試圖混淆判別器,使其無法區(qū)分生成圖像和真實圖像,判別器則依次接收生成圖像和真實圖像,以“0”和“1”的形式判斷真假,以此調(diào)節(jié)生成器.當(dāng)生成圖像無限接近真實圖像時,判別器無法區(qū)分真假,此時生成器和判別器的對抗達到平衡.
圖1 GAN的結(jié)構(gòu),z和y分別為隨機噪聲和真實圖像Fig.1 Structure of GAN,z and y stand for random noise and real image respectively
訓(xùn)練時生成器和判別器交替訓(xùn)練,更新生成器(判別器)時固定判別器(生成器),此過程的優(yōu)化目標(biāo)為:
(1)
隨著訓(xùn)練次數(shù)的增加,生成數(shù)據(jù)越來越接近真實數(shù)據(jù),當(dāng)生成器和判別器達到平衡時,判別器輸出0.5,即無法區(qū)分真實數(shù)據(jù)和生成數(shù)據(jù),此時生成器和判別器獲得最優(yōu)模型.
無條件GAN以噪聲作為輸入,無法控制目標(biāo)圖像的生成,因此Mirza等[2]提出條件生成式對抗網(wǎng)絡(luò)CGAN,圖像轉(zhuǎn)換以該形式將源域圖像作為條件指導(dǎo)生成過程.CGAN增加了額外條件,生成器和判別器同時接收條件信息,其結(jié)構(gòu)如圖2,訓(xùn)練過程仍以交替方式進行,優(yōu)化目標(biāo)為:
(2)
圖2 CGAN的結(jié)構(gòu),c表示條件輸入Fig.2 Structure of CGAN,c stands for conditional input
雖然生成式對抗模型能夠生成逼真的圖像,但仍存在訓(xùn)練不穩(wěn)定和模式崩潰等問題.后續(xù)研究者針對這些問題分別提出了LSGAN[5]、WGAN[6]和WGAN-GP[7]等改進模型.在圖像轉(zhuǎn)換領(lǐng)域,這些改進方法也被廣泛應(yīng)用.在生成式對抗模型的綜述文獻[3,4]中常以該模型的應(yīng)用描述圖像轉(zhuǎn)換,缺乏詳細(xì)討論,本文綜述近年來的圖像轉(zhuǎn)換方法,分析該領(lǐng)域最新研究成果并嘗試探討未來可能的發(fā)展趨勢.
圖像轉(zhuǎn)換模型通常以編碼-解碼的形式實現(xiàn),一些文獻將該形式統(tǒng)稱為生成器,但在基于特征分離的轉(zhuǎn)換模型中將編碼過程描述為編碼器,解碼過程描述為生成器,為了統(tǒng)一描述,本文以編碼器和生成器表示轉(zhuǎn)換模型,其結(jié)構(gòu)如圖3所示,編碼器下采樣輸入圖像,生成器解碼下采樣的圖像特征生成目標(biāo)圖像.此外,在基于循環(huán)一致性約束的轉(zhuǎn)換模型中只采用少量下采樣和上采樣,主要依賴殘差塊完成轉(zhuǎn)換,本文將該模型記為殘差生成器.通常采用改進生成過程或增加優(yōu)化目標(biāo)來提高模型效果,但改進生成過程會使網(wǎng)絡(luò)結(jié)構(gòu)更復(fù)雜,訓(xùn)練時消耗更多計算資源和時間.
圖3 圖像轉(zhuǎn)換模型Fig.3 Image translation model
圖像轉(zhuǎn)換可分為一對一映射和一對多映射,其中一對多映射包括多模態(tài)映射和多域映射.多模態(tài)映射指生成圖像和源域圖像仍在同一個圖像域,但顏色或紋理等樣式發(fā)生了變化;多域映射指源域圖像能夠映射成多個不同域的目標(biāo)圖像,具體變化如圖4所示.
圖4 多模態(tài)(左)和多域(右)映射Fig.4 Multi-modal(left)and multi-domain(right)mappings
監(jiān)督學(xué)習(xí)的轉(zhuǎn)換模型數(shù)據(jù)依賴性強,形式較少,2.1節(jié)將從一對一映射和多模態(tài)映射論述該類模型.無監(jiān)督學(xué)習(xí)的轉(zhuǎn)換模型為了擺脫標(biāo)簽依賴和增強模型處理能力,形式復(fù)雜多樣,2.2節(jié)將對該類模型進行更細(xì)致的劃分,主要包括基于循環(huán)一致性約束的轉(zhuǎn)換模型、實例級圖像轉(zhuǎn)換模型、基于潛在編碼的轉(zhuǎn)換模型、基于共享潛在空間的轉(zhuǎn)換模型以及基于特征分離的轉(zhuǎn)換模型,其中基于循環(huán)一致性約束的轉(zhuǎn)換模型屬于一對一映射,實例級圖像轉(zhuǎn)換和基于潛在編碼的轉(zhuǎn)換模型包含一對一映射和一對多映射,基于共享潛在空間的轉(zhuǎn)換模型和基于特征分離的轉(zhuǎn)換模型屬于一對多映射.
監(jiān)督學(xué)習(xí)的訓(xùn)練需要成對數(shù)據(jù),源域圖像和目標(biāo)域圖像要求嚴(yán)格的一一對應(yīng).本節(jié)將從一對一映射和多模態(tài)映射論述監(jiān)督學(xué)習(xí)模型.
2.1.1 一對一映射模型
一對一映射模型指源域圖像對應(yīng)唯一的轉(zhuǎn)換結(jié)果,包含通用轉(zhuǎn)換模型和針對特定任務(wù)的轉(zhuǎn)換模型,如表1所示.Isola 等[8]提出通用圖像轉(zhuǎn)換框架pix2pix,該框架同時兼容圖像著色、邊緣圖像合成真實感圖像等多種圖像轉(zhuǎn)換任務(wù).Pix2pix基于DCGAN[9],借助UNet[10]結(jié)構(gòu)將編碼器的特征直接傳遞至生成器,該方式繞過編碼器的瓶頸層,使低頻特征能夠完整傳遞.此外,Isola 等[8]還提出判別器patchGAN,該判別器利用感受野對生成圖像的局部區(qū)域進行判斷.相比直接判斷整個圖像區(qū)域的傳統(tǒng)做法,patchGAN的局部區(qū)域判斷提高了判別器的魯棒性和性能.但是,pix2pix中L1損失會造成高頻信息丟失,導(dǎo)致生成圖像模糊.PAN[11]利用網(wǎng)絡(luò)模型模擬人類的感知過程,用感知損失替代L1損失.感知損失借助網(wǎng)絡(luò)模型提取圖像特征,優(yōu)化深層次抽象特征.傳統(tǒng)感知損失以VGG[12]等預(yù)訓(xùn)練模型作為特征提取器,這樣的特征提取效果依賴預(yù)訓(xùn)練模型的數(shù)據(jù)集,不能泛化其他數(shù)據(jù).PAN以判別器作為特征提取器構(gòu)造對抗感知損失,脫離了預(yù)訓(xùn)練模型并能夠針對對應(yīng)的數(shù)據(jù)集提取感知特征,進一步提高了感知損失的作用,但該感知損失直接計算每層特征之間的距離,生成圖像仍存在一定的模糊.IPAN[13]使用感知相似網(wǎng)絡(luò)[14]構(gòu)造區(qū)分真假圖像對的判別器,其中真圖像對包含兩張真實圖像,假圖像對包含生成圖像和真實圖像.不同于PAN,IPAN借助感知相似網(wǎng)絡(luò)在真實圖像和生成圖像的特征之間建立感知損失,先對每層特征進行歸一化和縮放,再計算真假圖像對的特征距離,避免了直接計算特征距離造成的圖像模糊.
表1 一對一映射模型總結(jié)Table 1 Summary of one-to-one mapping models
無論直接或間接計算感知損失,圖像的模糊問題都無法完全解決.DRPAN[15]和He 等[16]等從另一個角度考慮,通過優(yōu)化生成過程改善生成圖像質(zhì)量.DRPAN利用patchGAN輸出的評分映射尋找生成圖像中評分最低的區(qū)域,同時構(gòu)建修正器對該區(qū)域進行修正.訓(xùn)練時修正器不斷修復(fù)評分最低的區(qū)域,同時修復(fù)受該區(qū)域影響的其他區(qū)域,以此迭代修復(fù)整個圖像.相對于patchGAN,DRPAN對局部區(qū)域的判斷和修復(fù)更直接有效.He 等[16]假設(shè)單次轉(zhuǎn)換過程并不能完全捕獲轉(zhuǎn)換目標(biāo),因此需要對生成圖像進行審查.為了實現(xiàn)審查過程,He 等[16]在編碼-解碼結(jié)構(gòu)中增加審查器.訓(xùn)練過程中源域圖像經(jīng)過編碼器編碼后由生成器解碼生成目標(biāo)圖像,該目標(biāo)圖像需要重新輸入編碼器并結(jié)合源域圖像特征由審查器完成最后的輸出.DRPAN和He等[16]通過增加額外結(jié)構(gòu)調(diào)整生成圖像來優(yōu)化生成器,其中DRPAN針對局部區(qū)域優(yōu)化忽略了全局結(jié)構(gòu),He等[16]針對全局結(jié)構(gòu)優(yōu)化忽略了局部區(qū)域.
在一些特定任務(wù)中,利用針對性的機制或結(jié)構(gòu)能夠有效提升生成圖像的質(zhì)量.Chen等[17]提出草圖轉(zhuǎn)換模型SketchyGAN,將草圖轉(zhuǎn)換為真實感圖像.由于缺乏成對的草圖數(shù)據(jù),Chen等[17]基于GRU(Gated Recurrent Unit)[18]構(gòu)建MRU(Masked Residual Unit),該模塊利用原始圖像對模型中的特征反復(fù)調(diào)整,最大程度利用了訓(xùn)練數(shù)據(jù).此外,Chen等[17]利用邊緣圖作為補充數(shù)據(jù)提出針對性的訓(xùn)練方法,該方法在單批次數(shù)據(jù)中將草圖和邊緣圖混合,草圖的比重隨訓(xùn)練次數(shù)的增加而增加,進一步提高了模型的泛化能力.在人臉屬性轉(zhuǎn)換領(lǐng)域,STGAN[19]基于GRU構(gòu)建STU(Selective Transfer Units),該模塊將源域圖像和目標(biāo)域圖像之間的差異屬性作為輸入,能夠自適應(yīng)選擇轉(zhuǎn)換屬性.Park等[20]提出SPADE(Spatially-Adaptive Denormalization)模塊,解決語義圖像中的語義信息被正則層過濾的問題.SPADE模塊中原始語義圖像被編碼成正則參數(shù)并以條件正則的方式恢復(fù)語義信息,該方式改善了語義圖像合成的真實感圖像.此外,跨物種轉(zhuǎn)換[21]、圖像去雨[22]以及藝術(shù)圖像合成真實感圖像[23]等方法中針對各自的任務(wù)都提出了相應(yīng)的結(jié)構(gòu)或處理機制,但這些方法難以應(yīng)用到其他領(lǐng)域.
2.1.2 多模態(tài)映射模型
多模態(tài)圖像轉(zhuǎn)換增加了生成圖像的樣式,在源域圖像保持不變的情況下獲得多個不同樣式的生成圖像,現(xiàn)有方法分別從目標(biāo)域圖像和參考圖像獲取模態(tài)信息,如表2所示.
表2 多模態(tài)映射模型總結(jié)Table 2 Summary of multi-modal mapping models
Zhu 等[24]增加條件,拓展VAE-GAN[25]和LR-GAN[26],并以此構(gòu)建BicycleGAN.該模型將源域圖像和潛在編碼映射至目標(biāo)域,通過改變潛在編碼以獲得不同模態(tài)的目標(biāo)圖像.條件VAE-GAN提取目標(biāo)域圖像的潛在編碼,并在訓(xùn)練階段將潛在編碼映射至正態(tài)分布,而條件LR-GAN重構(gòu)潛在編碼確保其對應(yīng)唯一的模態(tài).由于正態(tài)分布采樣的隨機性,BicycleGAN無法指定生成圖像的模態(tài)信息.TextureGAN[27]將參考圖像的樣式信息作為模態(tài)來源,利用文獻[28]的樣式損失和內(nèi)容損失將該信息遷移至生成圖像,使生成圖像獲得不同模態(tài),該方式能夠有效控制目標(biāo)圖像的模態(tài).為了保證生成圖像質(zhì)量,TextureGAN還構(gòu)建了局部損失和全局損失,在多個損失的作用下,該模型不僅能保持生成圖像的結(jié)構(gòu),還能遷移參考圖像更多細(xì)節(jié)的樣式信息.由于內(nèi)容損失和風(fēng)格損失基于預(yù)訓(xùn)練模型,當(dāng)預(yù)訓(xùn)練模型的數(shù)據(jù)和參考圖像差距較大時,該模型無法提取有效的樣式特征,同時多個損失的平衡需要人工設(shè)置超參數(shù),增加了訓(xùn)練難度.AlBahar等[29]減少轉(zhuǎn)換模型的損失數(shù)量,僅用對抗損失和L1損失優(yōu)化轉(zhuǎn)換模型,同時構(gòu)建參考圖像的額外編碼器,避免預(yù)訓(xùn)練模型降低轉(zhuǎn)換模型的性能.為了遷移參考圖像特征,AlBahar 等[29]定義參數(shù)生成器和特征遷移層,在源域圖像編碼器和參考圖像編碼器之間雙向傳遞遷移特征.參數(shù)生成器將編碼器中每層輸出的特征映射成遷移參數(shù),特征遷移層利用這些參數(shù)將特征遷移至對方編碼器對應(yīng)的層.雙向特征傳遞提高了特征遷移效率,但參考圖像的編碼器缺乏對特征提取的優(yōu)化,容易導(dǎo)致提取特征的質(zhì)量不可控.多模態(tài)映射更多應(yīng)用于無監(jiān)督的轉(zhuǎn)換模型,有關(guān)多模態(tài)映射的其他方法將在無監(jiān)督學(xué)習(xí)中討論.
無監(jiān)督圖像轉(zhuǎn)換模型使用非成對數(shù)據(jù),該數(shù)據(jù)源域和目標(biāo)域不需要嚴(yán)格對應(yīng),相對于成對數(shù)據(jù)更容易獲取,因此無監(jiān)督圖像轉(zhuǎn)換領(lǐng)域產(chǎn)生了多樣化的轉(zhuǎn)換模型.
根據(jù)轉(zhuǎn)換目的的不同,無監(jiān)督圖像轉(zhuǎn)換模型可分為基于循環(huán)一致性約束的轉(zhuǎn)換模型、實例級圖像轉(zhuǎn)換模型、基于潛在編碼的轉(zhuǎn)換模型、基于共享潛在空間的轉(zhuǎn)換模型和基于特征分離的轉(zhuǎn)換模型.基于循環(huán)一致性約束的轉(zhuǎn)換模型和基于共享潛在空間的轉(zhuǎn)換模型針對如何有效使用非成對數(shù)據(jù),實例級圖像轉(zhuǎn)換以圖像中的具體實例優(yōu)化轉(zhuǎn)換模型,基于潛在編碼的轉(zhuǎn)換模型利用潛在編碼獲取額外信息,基于特征分離的轉(zhuǎn)換模型利用特征重組實現(xiàn)多域或多模態(tài)映射.
2.2.1 基于循環(huán)一致性約束的轉(zhuǎn)換模型
Zhu 等[30]針對監(jiān)督學(xué)習(xí)的局限提出了非成對數(shù)據(jù)的無監(jiān)督圖像轉(zhuǎn)換模型CycleGAN,該模型利用目標(biāo)域中任意圖像作為源域?qū)?yīng)的標(biāo)簽,降低了數(shù)據(jù)獲取難度.為了利用非成對數(shù)據(jù),Zhu 等[30]提出針對圖像重構(gòu)的循環(huán)一致性約束,重構(gòu)源域和目標(biāo)域的生成路徑分別為源域-目標(biāo)域-源域以及目標(biāo)域-源域-目標(biāo)域,結(jié)構(gòu)見圖5.除了對抗損失,CycleGAN通過重構(gòu)損失間接優(yōu)化中間的生成結(jié)果,該損失定義為:
Lcyc(G,F)=Ex~Pdata(x)[[[F(G(x))-x]]1]+Ey~Pdata(y)[[[G(F(y))-y]]1]
(3)
其中G和F表示生成器,x和y表示兩個域的圖像.DiscoGAN[31]和DualGAN[32]使用類似思想,在一定程度上降低了對數(shù)據(jù)的要求.G和F在兩個圖像域之間實現(xiàn)雙向轉(zhuǎn)換,但由于圖像域之間的映射過于自由,該方式無法獲得確定的目標(biāo)域圖像,同時像素級L1重構(gòu)損失存在生成圖像模糊和信息丟失等問題.
圖5 循環(huán)一致性約束結(jié)構(gòu),F(xiàn)和G表示殘差生成器Fig.5 Structure of cyclic consistency constraint, F and G stand for residual generator
后續(xù)研究分別從增加約束、改善結(jié)構(gòu)或機制等措施改進CycleGAN,本節(jié)將從這兩方面對這些方法進行論述,每個方法的構(gòu)成和優(yōu)勢見表3.
表3 基于CycleGAN改進的模型總結(jié)Table 3 Summary of improved models based on CycleGAN
2.2.1.1 增加約束的CycleGAN轉(zhuǎn)換模型
增加約束是為了使生成圖像更接近目標(biāo)域圖像,從而改善生成圖像質(zhì)量.QGAN[33]利用圖像質(zhì)量度量方法構(gòu)造質(zhì)量感知框架,優(yōu)化原始圖像和重構(gòu)圖像,減少生成圖像的偽影,提高生成圖像的清晰度.質(zhì)量感知框架包括兩種損失,一種是基于經(jīng)典圖像質(zhì)量度量方法定義的質(zhì)量感知損失,該損失逼近原始圖像和重構(gòu)圖像之間的質(zhì)量評分以優(yōu)化重構(gòu)圖像.另一種是基于深度網(wǎng)絡(luò)定義的自適應(yīng)內(nèi)容損失,該損失從深層抽象的特征內(nèi)容優(yōu)化重構(gòu)圖像.這兩種損失模擬了人類感知圖像的過程,分別從像素級和特征級對重構(gòu)圖像進行優(yōu)化,使生成圖像能夠獲得更多細(xì)節(jié).Zhang等[34]指出CycleGAN缺乏有效的約束,導(dǎo)致生成圖像丟失部分信息或產(chǎn)生一些不必要的變化,如在醫(yī)學(xué)圖像轉(zhuǎn)換中,患有腫瘤的圖像在轉(zhuǎn)換過程中丟失了腫瘤部分.為了克服上述缺陷,Zhang 等[34]引入額外平滑項優(yōu)化圖像相鄰區(qū)域,確保源域中相鄰的內(nèi)容在轉(zhuǎn)換過程中保持相似的變化.OT-CycleGAN[35]借助最優(yōu)傳輸(Optimal Transport,OT)[36]增加額外約束實現(xiàn)可控的一對一映射,滿足特定任務(wù)的屬性轉(zhuǎn)換.OT通過成本函數(shù)計算不同分布之間轉(zhuǎn)換的最小成本,OT-CycleGAN以該方式計算屬性轉(zhuǎn)換的成本,并在優(yōu)化目標(biāo)中實現(xiàn)轉(zhuǎn)換.除上述方法外,監(jiān)督學(xué)習(xí)中CSGAN[37]和CDGAN[38]在CycleGAN結(jié)構(gòu)中的不同圖像之間構(gòu)建優(yōu)化函數(shù),其中CSGAN在重構(gòu)圖像和合成圖像之間增加一致性損失,而CDGAN以原始圖像為標(biāo)簽,在重構(gòu)圖像上增加對抗損失.
2.2.1.2 改進結(jié)構(gòu)或生成機制的CycleGAN轉(zhuǎn)換模型
針對結(jié)構(gòu)或機制的改進包括改變生成機制、改進判別器以及生成器等.Lin 等[39]在CycleGAN模型中增加介于源域和目標(biāo)域之間的輔助域,如棕色頭發(fā)轉(zhuǎn)化成金色頭發(fā)時,輔助域可表示為黑色頭發(fā),其轉(zhuǎn)換過程為棕色頭發(fā)-黑色頭發(fā)-金色頭發(fā).借助輔助域,Lin 等[39]構(gòu)造多路徑一致性約束,以源域圖像和輔助域圖像約束生成圖像,減少轉(zhuǎn)換目標(biāo)的隨機性,同時生成圖像能夠從輔助域中獲取信息,提高了生成圖像的質(zhì)量.由于輔助域和目標(biāo)域的一致性約束增加了多個生成器,該方式增加了大量參數(shù)和訓(xùn)練難度.Kim 等[40]借助輔助分類器獲取注意力映射,該映射以向量的形式表示,在特征通道之間進行自適應(yīng)選擇.源域圖像和參考圖像被同時編碼,注意力映射能夠?qū)W習(xí)區(qū)分源域圖像和參考圖像的特征,使網(wǎng)絡(luò)集中學(xué)習(xí)轉(zhuǎn)換部分.由于輔助域和目標(biāo)域之間的映射仍屬于隨機映射,該方式相對Lin等[39]對轉(zhuǎn)換目標(biāo)更具有針對性,同時還避免了引入額外的生成器.針對轉(zhuǎn)換過程中形狀和紋理的控制,Kim等[40]還提出IN(Instance Normalization)[41]和LN(Layer Normalizaiton)[42]的自適應(yīng)選擇機制,該機制使網(wǎng)絡(luò)靈活的調(diào)整形狀和紋理的變化量,進一步增強對轉(zhuǎn)換目標(biāo)的控制.SCAN[43]將多階段學(xué)習(xí)與CycleGAN結(jié)合,把圖像生成過程分解為多個階段.每個階段生成不同分辨率的圖像,當(dāng)前階段的輸出結(jié)合上一階段的輸出傳遞到下一階段,以此達到逐次優(yōu)化的目的.相對CycleGAN,SCAN不僅在同一分辨率的轉(zhuǎn)換過程中提高了生成圖像質(zhì)量,同時能夠獲得更高分辨率的生成圖像.SCAN以基礎(chǔ)CycleGAN構(gòu)建多階段生成過程,因此仍存在隨機映射和信息丟失等問題.除了提高生成圖像質(zhì)量,改進結(jié)構(gòu)或生成機制也用于降低模型訓(xùn)練復(fù)雜度和參數(shù).CycleGAN++[44]移除雙向一致性約束并保留單向重構(gòu)損失,同時增加域信息和分類損失保證生成圖像質(zhì)量,該方式取消CycleGAN的環(huán)形結(jié)構(gòu),降低了訓(xùn)練時的計算復(fù)雜度,提高了訓(xùn)練速率.Van der Ouderaa等[45]利用可逆神經(jīng)網(wǎng)絡(luò)構(gòu)造生成器實現(xiàn)可逆轉(zhuǎn)換,該方式僅依賴單生成器完成源域和目標(biāo)域的雙向轉(zhuǎn)換,同時保證了模型的處理能力和生成圖像的質(zhì)量.可逆網(wǎng)絡(luò)通過訪問最后一層激活層的輸出逆向計算每個中間激活層對應(yīng)的輸出,因此訓(xùn)練時不必存儲每個激活層的輸出,降低了模型的空間復(fù)雜度.
2.2.2 實例級圖像轉(zhuǎn)換模型
實例級圖像轉(zhuǎn)換包括對象轉(zhuǎn)換以及域級圖像轉(zhuǎn)換中的實例級優(yōu)化,該轉(zhuǎn)換模型多數(shù)仍基于CycleGAN或循環(huán)一致性約束,但更具體的針對圖像中的實例.本節(jié)將從對象轉(zhuǎn)換和實例級優(yōu)化論述實例級圖像轉(zhuǎn)換模型.
2.2.2.1 對象轉(zhuǎn)換
對象轉(zhuǎn)換旨在轉(zhuǎn)換圖像中的實例對象,而圖像整體的布局和背景保持不變.為了獲取實例對象,常見的方法包括注意力機制、使用對象掩碼或?qū)傩詷?biāo)簽等,每個模型的組成結(jié)構(gòu)和優(yōu)勢見表4.
表4 實例級對象轉(zhuǎn)換模型總結(jié)Table 4 Summary of instance-level object translation models
Mejjati 等[46]為CycleGAN中每個生成器增加注意力生成網(wǎng)絡(luò),該網(wǎng)絡(luò)學(xué)習(xí)圖像的注意力映射以區(qū)分轉(zhuǎn)換部分和非轉(zhuǎn)換部分,其中非轉(zhuǎn)換部分在生成過程中和輸入圖像對應(yīng)部分保持一致.訓(xùn)練時生成器和判別器針對轉(zhuǎn)換部分進行優(yōu)化,避免非轉(zhuǎn)換部分的影響.Mejjati 等[47]與AttentionGAN[48]在結(jié)構(gòu)和方法上相似.Mejjati 等[47]在訓(xùn)練前階段將完整的圖像輸入判別器,后階段只輸入經(jīng)過注意力映射處理的圖像,讓判別器針對轉(zhuǎn)換部分進行優(yōu)化;注意力生成網(wǎng)絡(luò)只進行少量訓(xùn)練,避免學(xué)習(xí)非轉(zhuǎn)換部分.而孔等[48]在轉(zhuǎn)換模型中引入多尺度特征表示,生成器同時生成單通道注意力蒙板和抽象特征,其中抽象特征包含轉(zhuǎn)換內(nèi)容,兩者與源域圖像結(jié)合生成目標(biāo)圖像,該方式不僅有利于識別不同尺度的圖像特征,而且減少了注意力生成網(wǎng)絡(luò)增加的參數(shù).為了更好的區(qū)分轉(zhuǎn)換部分和非轉(zhuǎn)換部分,Tang 等[49]增加非轉(zhuǎn)換部分的注意力映射,且兩部分注意力映射各用一組掩碼表示,生成器同時生成內(nèi)容映射、轉(zhuǎn)換部分的注意力映射與非轉(zhuǎn)換部分的注意力映射,其中內(nèi)容映射包含轉(zhuǎn)換內(nèi)容,3種映射與源域圖像結(jié)合生成目標(biāo)圖像.相對于單通道掩碼的注意力映射,Tang 等[49]更有利于處理包含復(fù)雜內(nèi)容的圖像.除了CycleGAN結(jié)構(gòu),Yang等[50]在單生成器結(jié)構(gòu)中增加注意力生成網(wǎng)絡(luò)并結(jié)合感知損失實現(xiàn)無監(jiān)督圖像轉(zhuǎn)換.單生成器結(jié)構(gòu)無法在無監(jiān)督的情況下處理域差大的轉(zhuǎn)換,同時注意力生成網(wǎng)絡(luò)和感知損失都依賴預(yù)訓(xùn)練模型,降低了轉(zhuǎn)換模型的處理能力.
除了注意力機制,借助數(shù)據(jù)標(biāo)簽也能分離出實例對象.注意力機制需要網(wǎng)絡(luò)學(xué)習(xí)對象標(biāo)記,該標(biāo)記越具體或圖像背景越復(fù)雜則需要越復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)和優(yōu)化函數(shù),增加了模型訓(xùn)練的難度和成本.數(shù)據(jù)標(biāo)簽需要人工標(biāo)記,但能夠更具體和細(xì)致的分離出對象,同時減輕模型負(fù)擔(dān).ContrastGAN[51]利用對象掩碼分離源域圖像中的對象和背景,轉(zhuǎn)換后的對象與背景融合生成目標(biāo)圖像.由于背景不參與轉(zhuǎn)換,ContrastGAN簡化了轉(zhuǎn)換過程,但該方法無法融合差異較大的對象.InstaGAN[52]將多個分離對象依次加入轉(zhuǎn)換過程,同時構(gòu)造上下文保留損失確保轉(zhuǎn)換前后背景的一致性,該方式不僅考慮了單個對象的局部信息融合,又能對所有對象進行全局優(yōu)化.不同于ContrastGAN,InstaGAN優(yōu)化了對象和背景的融合,實現(xiàn)了差異較大的對象轉(zhuǎn)換.包等[53]在模型中增加掩碼生成網(wǎng)絡(luò),提出掩碼選擇模塊選擇轉(zhuǎn)換對象和不變區(qū)域,通過區(qū)域不變損失和局部對抗損失優(yōu)化生成圖像.InstaGAN中逐對象優(yōu)化會隨著圖像對象增多變得越來越復(fù)雜,而自適應(yīng)轉(zhuǎn)換對象選擇機制用網(wǎng)絡(luò)自動學(xué)習(xí)轉(zhuǎn)換對象,以降低訓(xùn)練復(fù)雜度.
利用對象掩碼能夠分離出具體實例對象,但無法針對對象進行編輯.StarGAN[54]以二進制或one-hot形式的屬性向量表示人臉圖像所包含的屬性或狀態(tài),生成器根據(jù)目標(biāo)域圖像的屬性向量轉(zhuǎn)換源域圖像中相應(yīng)的屬性,實現(xiàn)細(xì)粒度對象編輯.此外,StarGAN使用單生成器構(gòu)建循環(huán)一致性約束,減少了模型參數(shù)并降低了訓(xùn)練難度,但單生成器結(jié)構(gòu)需要源域和目標(biāo)域盡可能相似,這導(dǎo)致模型的處理能力下降.Siddiquee 等[55]將StarGAN應(yīng)用至醫(yī)學(xué)領(lǐng)域,旨在移除醫(yī)學(xué)圖像中病變的對象,該方法增加了同一個域之間的轉(zhuǎn)換,確保健康的醫(yī)學(xué)圖像轉(zhuǎn)換時不會發(fā)生病變.G2GAN[56]以參數(shù)共享的方式構(gòu)造兩個生成器,源域和目標(biāo)域越相似共享程度越高,該方式不僅保留了相似域間的單生成器轉(zhuǎn)換,還兼容了域差異較大的轉(zhuǎn)換任務(wù).此外,G2GAN 使用多尺度SSIM[57]分別從每個通道優(yōu)化生成圖像,避免了“通道污染”[58],提高了生成圖像質(zhì)量.StarGAN和G2GAN以整個目標(biāo)域的屬性標(biāo)簽指導(dǎo)源域圖像轉(zhuǎn)換,無法保持非轉(zhuǎn)換部分的一致性.RelGAN[59]計算源域和目標(biāo)域之間的相對屬性差異,避免了非轉(zhuǎn)換屬性的變化,并通過插值控制變化的強度.
上述方法借助屬性標(biāo)簽在人臉轉(zhuǎn)換的屬性控制方面實現(xiàn)了多域映射,其域信息由屬性標(biāo)簽控制,但單個域中生成的模態(tài)單一,使得生成圖像在視覺上展現(xiàn)出一樣的風(fēng)格.
StarGANv2[60]使用樣式編碼替換屬性標(biāo)簽實現(xiàn)多域和多模態(tài)映射.樣式編碼來自編碼器編碼的噪聲或參考圖像,對此描述進行調(diào)整:編碼器包含多個輸出分支,每個分支表示當(dāng)前樣式編碼對應(yīng)的圖像域.生成器接收源域圖像和樣式編碼,通過不同的樣式編碼控制生成圖像的模態(tài)或圖像域.雖然樣式編碼能夠控制模態(tài)和圖像域,但卻降低了圖像的細(xì)粒度編輯.SMIT[61]保留域標(biāo)簽指導(dǎo)跨域映射,同時使用噪聲建模目標(biāo)域的模態(tài).訓(xùn)練時生成器接收目標(biāo)域標(biāo)簽、源域圖像以及噪聲向量,生成目標(biāo)域圖像以及對應(yīng)的注意力掩碼,該掩碼用于保持非轉(zhuǎn)換屬性的一致性.相比StarGANv2,SMIT不僅實現(xiàn)多模態(tài)映射,且保留了屬性轉(zhuǎn)換的細(xì)粒度控制,但以目標(biāo)域控制轉(zhuǎn)換屬性的框架仍無法對轉(zhuǎn)換屬性插值.
2.2.2.2 域級轉(zhuǎn)換中的實例級優(yōu)化
實例級優(yōu)化針對圖像中的實例進行優(yōu)化并以此優(yōu)化整個圖像,優(yōu)化方式包括建立優(yōu)化目標(biāo)或?qū)嵗度朕D(zhuǎn)換過程等,詳細(xì)內(nèi)容見表5.
Li等[62]指出CycleGAN生成的圖像風(fēng)格平均,無法突出實例對象的特點.為了區(qū)分不同的實例特征,Li 等[62]借助語義掩碼分離人臉的膚色、眼影和唇色等實例特征,并在源域圖像和參考圖像對應(yīng)的實例之間建立約束,將參考圖像中對應(yīng)實例的妝容遷移至源域,該方式避免了全局一致的風(fēng)格,使每個實例都能體現(xiàn)出各自的特點,但忽略了生成圖像的可控性和多樣性.Gu等[63]分解更多面部實例,并在目標(biāo)掩碼中重組這些實例合成目標(biāo)圖像.每個實例對象與目標(biāo)掩碼相結(jié)合并由目標(biāo)掩碼對應(yīng)的生成器生成目標(biāo)圖像,轉(zhuǎn)換過程中由語義掩碼和源域圖像分別控制生成圖像的布局和樣式,不同語義掩碼和源域圖像間的組合實現(xiàn)多樣性的轉(zhuǎn)換.語義掩碼能夠獲取圖像中的實例及對應(yīng)的位置,但需要人為標(biāo)記,這使得數(shù)據(jù)獲取的成本增加.DAGAN[64]利用注意力機制檢測實例對象并將這些實例編碼重組合成目標(biāo)圖像.為了確保實例檢測的有效性,訓(xùn)練時生成器重構(gòu)實例編碼對應(yīng)的圖像,若能完全重構(gòu)則表示注意力機制檢測的實例有效,測試時則使用不同的實例編碼生成圖像.DAGAN在單個目標(biāo)上檢測實例對象,如鳥的頭部和軀干等,當(dāng)存在多個目標(biāo)時,該方法分解的實例將會大量增加,導(dǎo)致模型訓(xùn)練更困難和復(fù)雜.Shen 等[65]在圖像中檢測多個目標(biāo),并以背景和檢測目標(biāo)表示該圖像.轉(zhuǎn)換時提取參考圖像中對應(yīng)的目標(biāo)樣式編碼、背景樣式編碼及全局樣式編碼(整個參考圖像的樣式),這些樣式編碼結(jié)合源域圖像中對應(yīng)的內(nèi)容編碼生成目標(biāo)圖像,該方式更適合處理多目標(biāo)的復(fù)雜圖像轉(zhuǎn)換.Shen 等[65]基于特征分離的轉(zhuǎn)換框架,通過實例級樣式轉(zhuǎn)換避免了生成統(tǒng)一樣式的目標(biāo)圖像.
表5 域級轉(zhuǎn)換中的實例級優(yōu)化模型總結(jié)Table 5 Summary of instance-level optimization models in domain-level translation
2.2.3 基于潛在編碼的轉(zhuǎn)換模型
潛在編碼通常來自編碼器編碼的圖像或噪聲采樣,分別表示圖像內(nèi)容、屬性和模態(tài)等信息.基于潛在編碼的模型通常針對潛在編碼獲取網(wǎng)絡(luò)學(xué)習(xí)需要的信息,具體模型對比見表6.
表6 基于潛在編碼的無監(jiān)督模型總結(jié)Table 6 Summary of unsupervised models based on latent code
Chen等[66]定義內(nèi)插器獲取源域和目標(biāo)域的潛在編碼之間的插值,該插值描述了轉(zhuǎn)換過程中出現(xiàn)的狀態(tài)以及轉(zhuǎn)換路徑.圖像轉(zhuǎn)換過程包含多個路徑,這些路徑無法在單一生成圖像中體現(xiàn),利用插值特征可以將轉(zhuǎn)換的中間狀態(tài)生成對應(yīng)的圖像,該方式不僅描述了轉(zhuǎn)換過程,還實現(xiàn)了多域和多模態(tài)映射.但是,以插值實現(xiàn)多域和多模態(tài)映射無法針對具體的屬性進行編輯,Xiao等[67]將源域圖像和參考圖像的潛在編碼描述為多個屬性的組合,這些潛在編碼被分成多個部分,其中每個部分對應(yīng)不同的屬性,通過交換源域圖像和參考圖像的屬性實現(xiàn)細(xì)粒度圖像轉(zhuǎn)換.此外,SingleGAN[68]和InjectionGAN[69]利用潛在編碼建模目標(biāo)域的模態(tài),在域編碼的指導(dǎo)下實現(xiàn)多域和多模態(tài)映射,兩者都利用單生成器構(gòu)造循環(huán)約束,限制了圖像域的差異程度且無法針對具體的屬性編輯.在基于循環(huán)一致性約束的轉(zhuǎn)換模型中,Li 等[70]將圖像域之間的信息差異描述為域信息不平衡,圖像內(nèi)容豐富表示信息豐富域,反之為信息貧乏域.為了平衡信息差異,Li 等[70]在CycleGAN中引入輔助變量構(gòu)建AsymGAN.輔助變量表示信息豐富的圖像域?qū)?yīng)的潛在編碼,訓(xùn)練時將信息貧乏的圖像域結(jié)合該編碼映射至目標(biāo)域.輔助變量彌補了源域和目標(biāo)域之間的信息差異,提高了生成質(zhì)量,增強了模型的抗干擾能力.Almahairi等[71]以輔助變量表示轉(zhuǎn)換過程中缺失的信息,不同于AsymGAN,該模型考慮任意圖像域之間的轉(zhuǎn)換,增強了模型的數(shù)據(jù)處理能力.傳統(tǒng)無監(jiān)督圖像轉(zhuǎn)換中,復(fù)雜的跨域映射通?;诙鄠€生成器和優(yōu)化目標(biāo),該方式使模型訓(xùn)練復(fù)雜且難以收斂.為了簡化訓(xùn)練過程,Alharbi 等[72]基于基礎(chǔ)生成網(wǎng)絡(luò)和優(yōu)化目標(biāo),使用噪聲建模潛在編碼并以此控制網(wǎng)絡(luò)層中每個特征的轉(zhuǎn)換程度.潛在編碼以全連接的方式嵌入網(wǎng)絡(luò)層,這避免了復(fù)雜的轉(zhuǎn)換過程和優(yōu)化目標(biāo),實現(xiàn)了多模態(tài)映射,但缺乏對圖像域的控制,無法完成多域映射.
2.2.4 基于共享潛在空間的轉(zhuǎn)換模型
共享潛在空間[73]基于不同圖像域能夠映射到同一空間的假設(shè),利用共享信息建立域之間的關(guān)系并實現(xiàn)跨域映射,常用結(jié)構(gòu)如圖6所示.基于共享潛在空間的轉(zhuǎn)換模型需要建立多個優(yōu)化目標(biāo)保證共享部分高度一致,每個模型的優(yōu)化目標(biāo)數(shù)量及優(yōu)勢見表7.與基于循環(huán)一致性約束的轉(zhuǎn)換模型相似,基于共享潛在空間的轉(zhuǎn)換模型旨在探索如何有效的利用非成對數(shù)據(jù),其中基于循環(huán)一致性約束的轉(zhuǎn)換模型以簡單的域間雙向轉(zhuǎn)換優(yōu)化生成目標(biāo),而基于共享潛在空間的轉(zhuǎn)換模型以潛在的共享信息建立域間關(guān)系,該方式不僅能夠有效利用非成對數(shù)據(jù),并且能夠通過不同的圖像控制目標(biāo)圖像生成,實現(xiàn)了生成圖像的多樣性和確定性.
圖6 基于共享潛在空間的模型結(jié)構(gòu),X1和X2表示 不同的圖像域Fig.6 Model structure of based on shared latent space,X1 and X2 stand for different image domains respectively
Liu 等[73]指出在沒有任何假設(shè)的情況下無法通過圖像域的邊緣分布獲取不同域的聯(lián)合分布,即無法完成圖像轉(zhuǎn)換,同時提出共享潛在空間的假設(shè)解決該問題.在訓(xùn)練階段,源域圖像和目標(biāo)域圖像的潛在編碼被映射至共享潛在空間的分布,確保兩者的潛在編碼能夠一致反映共享信息,避免了非共享部分的影響,但當(dāng)兩個域的語義信息差異較大時,該方法無法解決域間語義偏差.Taigman 等[74]、Royer 等[75]以及Murez 等[76]同樣基于信息共享的假設(shè)實現(xiàn)圖像轉(zhuǎn)換,其中Taigman 等[74]在訓(xùn)練過程中固定編碼器的參數(shù),無法實現(xiàn)逆向轉(zhuǎn)換;Royer 等[75]和Murez 等[76]增加對潛在編碼的約束,進一步提高了信息共享程度,降低了域間差異的影響.Liu 等[75]雖然實現(xiàn)了同類圖像間不同域的映射,但無法兼容不同種類的多域映射.Anoosheh 等[77]構(gòu)建多編碼-解碼模型ComboGAN,該模型由多個編碼器和生成器構(gòu)成,每個編碼器和生成器對應(yīng)不同的圖像域.編碼器將不同域的圖像映射至共享潛在空間,而生成器利用共享潛在空間的編碼生成對應(yīng)域的圖像,該方式不僅實現(xiàn)了不同種類間的跨域映射,還能滿足多個不同域的輸入.Lin 等[78]簡化ComboGAN,使用單編碼-多解碼結(jié)構(gòu),該結(jié)構(gòu)減少了對輸入域的判斷以及編碼器的參數(shù).當(dāng)域的數(shù)量增大時,Lin 等[78]和ComboGAN需要大量生成器,增加了訓(xùn)練難度和存儲空間.
表7 基于共享潛在空間的無監(jiān)督模型總結(jié)Table 7 Summary of unsupervised models based on shared latent space
2.2.5 基于特征分離的轉(zhuǎn)換模型
特征分離指圖像能分解成不同的特征表示,轉(zhuǎn)換模型將不同圖像的特征表示重組生成目標(biāo)圖像,常用結(jié)構(gòu)如圖7所示.基于特征分離的無監(jiān)督模型能實現(xiàn)多模態(tài)映射、多域映射或同時實現(xiàn)多域和多模態(tài)映射,每個方法的對比見表8.
Lin等[79]將圖像分解為獨立域特征和特定域特征,特定域特征來自條件圖像,轉(zhuǎn)換過程中保留獨立域特征,通過替換特定域特征控制目標(biāo)圖像的生成,該方式通過改變條件圖像實現(xiàn)多模態(tài)映射.Huang等[80]使用內(nèi)容空間和樣式空間表示圖像并以樣式空間控制目標(biāo)圖像的模態(tài),同時增加噪聲分布擬合模態(tài)信息,與條件圖像相比,該方式不僅實現(xiàn)了模態(tài)的可控性,還能利用噪聲分布獲取更多模態(tài).Kazemi等[81]和DRIT[82]同樣以變化的特征空間和噪聲建模目標(biāo)圖像的模態(tài),但在模態(tài)分布中增加KL散度約束噪聲,使測試階段采樣的模態(tài)更有效.上述方法雖然實現(xiàn)了多模態(tài)映射,但仍屬于單一的跨域映射.Lee等[83]和Yu等[84]通過在轉(zhuǎn)換模型中增加域編碼實現(xiàn)多域映射.Yu等[84]采用內(nèi)容空間和樣式空間的假設(shè),而Lee等[83]基于DRIT,測試時通過改變域編碼實現(xiàn)跨域映射.
圖7 基于特征分離的模型結(jié)構(gòu),E(*)為編碼器Fig.7 Model structure of based on feature disentanglement, E(*)stands for encoder
表8 基于特征分離的無監(jiān)督模型總結(jié)Table 8 Summary of unsupervised models based on feature disentanglement
特征分離假設(shè)包含用于表示共享信息的特征空間,當(dāng)不同域的差異較大時,該空間無法準(zhǔn)確獲取共享信息.為了解決上述問題,Ma等[85]使用語義掩碼指導(dǎo)編碼器編碼源域圖像和目標(biāo)域圖像之間共享的內(nèi)容,該掩碼使共享內(nèi)容集中在語義布局上,減少了其他特征的影響.Wu等[86]摒棄特征分離中共享信息的特征空間,以幾何空間和外觀空間表示圖像并在特征空間中轉(zhuǎn)換目標(biāo)域和源域的特征,在訓(xùn)練階段重構(gòu)對應(yīng)的圖像域以優(yōu)化特征分離過程,而測試階段利用不同的幾何空間特征和外觀空間特征組合生成目標(biāo)圖像.相對傳統(tǒng)像素空間轉(zhuǎn)換,特征空間轉(zhuǎn)換避免了非轉(zhuǎn)換因素的影響,對分離特征更具有針對性.幾何空間和外觀空間能夠處理復(fù)雜域之間的轉(zhuǎn)換,但僅限于多域映射,無法在同一個域中實現(xiàn)多模態(tài)映射.
圖像轉(zhuǎn)換模型與條件生成式對抗網(wǎng)絡(luò)使用同樣的度量方法,這些方法通?;谏疃葘W(xué)習(xí)中其他圖像處理模型,如圖像分類模型,這些模型被用于提取圖像特征或測試生成圖像在該任務(wù)中和真實圖像的差距.此外,一些傳統(tǒng)的圖像質(zhì)量度量方法也用于評估生成圖像和真實圖像的相似性,本節(jié)將從傳統(tǒng)圖像質(zhì)量度量和基于深度學(xué)習(xí)的模型評估介紹圖像轉(zhuǎn)換中常用的度量方法.
傳統(tǒng)圖像質(zhì)量度量針對像素級的生成圖像和真實圖像,通過對比兩者的相似度評價轉(zhuǎn)換模型,相似度越高表示該模型生成效果越好.
3.1.1 峰值信噪比(PSNR)
峰值信噪比是一種基于像素誤差的圖像質(zhì)量度量方法,其中像素誤差由兩張圖像的均方誤差定義:
(4)
而峰值信噪比的定義為:
(5)
其中X、Y分別表示不同的圖像,H、W分別表示圖像的高和寬,MAXI表示圖像中最大的像素值.X和Y越相似,兩者均方誤差越小,而峰值信噪比則越高,用于評估生成圖像時表示生成圖像的質(zhì)量越高.
3.1.2 結(jié)構(gòu)相似性(SSIM)
結(jié)構(gòu)相似性考慮人類視覺系統(tǒng)對圖像的理解,從圖像的結(jié)構(gòu)信息度量圖像質(zhì)量.圖像結(jié)構(gòu)信息包含亮度、對比度和結(jié)構(gòu),度量方式分別定義為:
(6)
(7)
(8)
而結(jié)構(gòu)相似性的定義為:
SSIM(X,Y)=[l(X,Y)]α*[c(X,Y)]β*[s(X,Y)]γ
(9)
其中X、Y分別表示不同的圖像,μ(*)、δ(*)和δXY分別表示圖像的均值、方差以及X和Y的協(xié)方差,C1、C2和C3為常數(shù).實際應(yīng)用中α=β=γ=1,且C3=0.5*C2,則:
(10)
X和Y越相似,結(jié)構(gòu)相似性越高,用于評估生成圖像時表示生成圖像的質(zhì)量越高.
基于深度學(xué)習(xí)的模型評估方法不僅度量圖像質(zhì)量,還對生成圖像的多樣性進行度量,判斷生成模型是否陷入模式崩潰.
3.2.1 Inception Score和FCN Score
IS(Inception Score)[87]以Inception模型[88]分類生成圖像,若生成圖像能被正確分類則表示生成圖像質(zhì)量接近真實圖像,此時分類標(biāo)簽的條件概率表示為p(y|x),其中x表示生成圖像,y表示Inception預(yù)測的標(biāo)簽.為了度量生成圖像的多樣性,IS以標(biāo)簽分布p(y)表示生成圖像的類別分布,該分布越接近均勻分布表示生成圖像越多樣化.IS的定義為:
IS(g)=eEx~pgDKL(p(y|x)||p(y))
(11)
其中g(shù)表示生成圖像,DKL(*)表示KL散度.正確分類生成圖像時p(y|x)屬于非均勻分布,理論上與p(y)存在很大距離,因此IS評分越高表示生成模型越好.IS基于ImageNet[89]數(shù)據(jù)集對生成圖像分類,以生成圖像的標(biāo)簽作為度量依據(jù),忽略了真實圖像,因此IS無法反映生成樣本和真實樣本之間的差距.FCNS(FCN Score)[8]與IS類似,該方式基于cityscapes[90]數(shù)據(jù)集利用FCN-8s[91]分割生成圖像,通過分割精度反映生成圖像質(zhì)量.
3.2.2 Fréchet Inception Distance
FID(Fréchet Inception Distance)[92]以Inception模型作為特征提取器分別提取生成圖像和真實圖像特征,然后利用高斯分布對特征建模,在特征空間計算兩個分布的距離.FID的定義為:
(12)
其中x和g分別表示真實圖像和生成圖像,μ(*)和Σ(*)分別表示均值和協(xié)方差.均值和協(xié)方差能確定特征分布,當(dāng)生成圖像特征和真實圖像特征的均值和協(xié)方差相似時,兩者的分布相似,此時生成圖像的質(zhì)量和多樣性接近真實圖像,即FID越小表示生成模型越好.相對于IS,F(xiàn)ID對模式崩潰更敏感且對噪聲有更好的魯棒性,因此FID的應(yīng)用更為廣泛.
3.2.3 Learned Perceptual Image Patch Similarity
LPIPS(Learned Perceptual Image Patch Similarity)[14]構(gòu)造感知相似性數(shù)據(jù)集并利用該數(shù)據(jù)集訓(xùn)練感知網(wǎng)絡(luò),分別從不同層次特征計算生成圖像和真實圖像的差距.感知相似數(shù)據(jù)集中包含真實圖像和失真圖像,因此LPIPS對真實感程度不同的生成圖像評估更魯棒.LPIPS的定義為:
(13)
圖像轉(zhuǎn)換涉及計算機視覺的眾多任務(wù),包括圖像補全、風(fēng)格轉(zhuǎn)換、圖像編輯和圖像著色等,該領(lǐng)域的發(fā)展有利于簡化圖像處理操作,提高處理圖像質(zhì)量.此外,圖像轉(zhuǎn)換模型還能為其他深度學(xué)習(xí)任務(wù)生成訓(xùn)練樣本,進一步促進其他領(lǐng)域的發(fā)展,如圖像分類和醫(yī)學(xué)圖像分割等.在監(jiān)督學(xué)習(xí)中,圖像轉(zhuǎn)換研究傾向于通用型轉(zhuǎn)換框架,以減少不同任務(wù)的模型設(shè)計成本;而無監(jiān)督學(xué)習(xí)則更傾向細(xì)粒度圖像編輯和多樣性的圖像生成,本節(jié)將從以下方面討論圖像轉(zhuǎn)換模型的可能發(fā)展趨勢和存在的問題:
1)模型優(yōu)化.生成式對抗網(wǎng)絡(luò)是目前主流的圖像生成模型之一,該網(wǎng)絡(luò)的提升有利于現(xiàn)有轉(zhuǎn)換模型的改善,但普遍存在模式崩潰和訓(xùn)練不穩(wěn)定等問題.模式崩潰降低生成圖像的多樣性,導(dǎo)致生成圖像模式單一;訓(xùn)練不穩(wěn)定則導(dǎo)致模型難以達到平衡,無法確定最優(yōu)模型參數(shù).設(shè)計損失函數(shù)[93]和改進判別器[94]是常見的解決這些問題的方式,但現(xiàn)有方法無法兼容更多類型的數(shù)據(jù)集或更高分辨率的圖像,因此從數(shù)據(jù)集的兼容性解決這些問題仍是模型優(yōu)化面臨的挑戰(zhàn).
2)通用轉(zhuǎn)換模型.在特定任務(wù)的轉(zhuǎn)換模型中,由于對應(yīng)數(shù)據(jù)集的處理機制有利于發(fā)掘圖像的潛在信息或指導(dǎo)具體的轉(zhuǎn)換目標(biāo),通常這些模型都優(yōu)于通用圖像轉(zhuǎn)換模型.通用轉(zhuǎn)換模型能夠兼容不同類型的轉(zhuǎn)換任務(wù),減少不同任務(wù)的結(jié)構(gòu)設(shè)計成本,在實際應(yīng)用中更具研究意義.現(xiàn)有通用轉(zhuǎn)換模型中缺乏有效的提升生成圖像質(zhì)量的轉(zhuǎn)換機制或模塊,即使在一些優(yōu)化目標(biāo)的改進中仍存在圖像模糊和信息丟失等問題,因此對生成結(jié)構(gòu)的研究并結(jié)合這些優(yōu)化目標(biāo)更有利提高通用圖像轉(zhuǎn)換模型的處理能力.
3)注意力機制.注意力機制能實現(xiàn)細(xì)粒度圖像編輯,同時避免人工標(biāo)簽,降低數(shù)據(jù)成本.現(xiàn)有注意力機制多數(shù)使用在無監(jiān)督圖像轉(zhuǎn)換模型且僅包含像素級自適應(yīng)映射,忽略了特征通道間的關(guān)系.Kim等[40]利用分類網(wǎng)絡(luò)學(xué)習(xí)注意力向量,以特征通道間的自適應(yīng)選擇改善轉(zhuǎn)換模型,但該方式依賴預(yù)訓(xùn)練的分類模型,不能兼容更多數(shù)據(jù)集,因此對與數(shù)據(jù)集無關(guān)的特征通道級注意力選擇機制的研究不僅能夠改善轉(zhuǎn)換模型,也有助于提升轉(zhuǎn)換模型的通用性.
4)特征分離.特征分離是實現(xiàn)多樣性圖像轉(zhuǎn)換的重要方式,通過分離特征的重組可生成多域或多模態(tài)的目標(biāo)圖像.現(xiàn)有基于特征分離的轉(zhuǎn)換模型中缺乏統(tǒng)一的分離表示[79-81]且無法直觀理解分離特征表示的具體內(nèi)容.如何通過特征可視化等手段理解和分析分離特征是進一步研究該模型的方式之一.此外,基于域間信息共享的分離特征表示容易受到非共享部分的影響,降低生成圖像的質(zhì)量,Wu等[86]提出的分離假設(shè)和特征級轉(zhuǎn)換有效解決了該問題且能夠處理復(fù)雜的跨域映射,但該方式無法實現(xiàn)多模態(tài)映射,將潛在編碼建模模態(tài)信息與該方式結(jié)合有助于生成更多樣化的目標(biāo)圖像.
5)結(jié)構(gòu)簡化.無監(jiān)督轉(zhuǎn)換模型中需要多個生成器合作完成轉(zhuǎn)換目標(biāo),這使得訓(xùn)練變得復(fù)雜且較難收斂,簡化生成結(jié)構(gòu)是解決這些問題的重要方式.雖然單生成器結(jié)構(gòu)能夠處理相似域間的圖像轉(zhuǎn)換,但卻無法處理差異大的圖像域.Alharbi等[72]用潛在編碼和簡單的生成框架實現(xiàn)多模態(tài)轉(zhuǎn)換,該方式為結(jié)構(gòu)簡化提供了新思路,但還存在無法實現(xiàn)多域映射和指定模態(tài)信息等問題,因此對結(jié)構(gòu)簡化的研究還應(yīng)關(guān)注如何保持轉(zhuǎn)換模型的性能.
6)少樣本或零樣本學(xué)習(xí).圖像轉(zhuǎn)換領(lǐng)域?qū)ι贅颖净蛄銟颖緦W(xué)習(xí)的研究較少,雖然多數(shù)數(shù)據(jù)能夠輕易獲取,但稀有物種或新物種的數(shù)據(jù)量卻很難滿足模型訓(xùn)練的需求,因此在圖像轉(zhuǎn)換領(lǐng)域?qū)ι贅颖緦W(xué)習(xí)或零樣本學(xué)習(xí)的研究具有重要意義.基于先驗知識的少樣本轉(zhuǎn)換模型[95]和基于共享語義空間的零樣本轉(zhuǎn)換模型[96]是目前該領(lǐng)域研究的最新進展,這些方法還存在域泛化能力差和生成圖像質(zhì)量低等問題.Wu 等[86]提出的特征分離假設(shè)和特征級轉(zhuǎn)換在多樣本模型中提高了域泛化能力和圖像質(zhì)量,與該方式結(jié)合有助于改善少樣本或零樣本轉(zhuǎn)換模型.