張穎 劉成霞
摘要: 生成對抗網(wǎng)絡(luò)(GAN)的出色性能,使得深度學(xué)習(xí)在虛擬試衣中的應(yīng)用得到新的發(fā)展,可以應(yīng)對虛擬試衣中諸多問題和需求。GAN能夠產(chǎn)生高度真實(shí)的輸出,與原始訓(xùn)練分布非常接近,成為當(dāng)下實(shí)現(xiàn)虛擬試衣不容忽視的工具。文章圍繞這一研究前沿與熱點(diǎn)問題,對GAN及其在虛擬試衣中的發(fā)展進(jìn)行了簡單的回顧;其次從GAN生成虛擬試衣結(jié)果的特征類別出發(fā),先后介紹了在2D圖像、3D模型及視頻的虛擬試衣上的應(yīng)用,總結(jié)分析了它們的運(yùn)作機(jī)制、優(yōu)點(diǎn)、局限性及適用場景;最后,討論了GAN在虛擬試衣領(lǐng)域未來的研究方向。研究認(rèn)為,未來可在增加試穿服裝件數(shù)、提高試穿圖像分辨率和準(zhǔn)確性、提高視頻試穿速度3個(gè)方向開展研究。
關(guān)鍵詞: 虛擬試衣;生成對抗網(wǎng)絡(luò);深度學(xué)習(xí);圖像翻譯網(wǎng)絡(luò);自我監(jiān)督
中圖分類號: TS941.19
文獻(xiàn)標(biāo)志碼: A
文章編號: 1001-7003(2021)12-0063-10
引用頁碼: 121111
DOI: 10.3969/j.issn.1001-7003.2021.12.011(篇序)
Abstract: The excellent performance of Generative Adversarial Network (GAN) has facilitated the new development and application of deep learning in virtual fitting, which could deal with many problems and needs in virtual fitting. GAN is able to produce highly real output and is very close to the original training distribution, thus becoming a tool that can’t be ignored in the current virtual fitting. Firstly, focusing on this research frontier and hot issue, this paper briefly reviewed GAN and its development in virtual fitting; then, starting from the feature categories of virtual fitting results generated by GAN, the paper introduced its application in virtual fitting based on 2D image, 3D model and video, summarized and analyzed the operation mechanism, advantages, limitations and applicable scenarios; finally, it prospected the future development direction of GAN in virtual fitting. It is believed that future research can be carried out in three directions: increasing the number of fitting clothing, raising the resolution and accuracy of fitting image, and improving the speed of video fitting speed.
Key words: virtual fitting; generative adversarial network; deep learning; image-to-image translation network; self-supervision
生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)是Goodfellow等[1]在2014年提出的深度學(xué)習(xí)模型,可以產(chǎn)生高度真實(shí)的輸出,非常接近原始訓(xùn)練分布,甚至能達(dá)到肉眼無法區(qū)分的程度[2],這種動態(tài)生成高質(zhì)量圖像的能力為計(jì)算機(jī)圖形學(xué)[3-4]及虛擬[5-6]、增強(qiáng)[7-8]和混合現(xiàn)實(shí)[9-10]應(yīng)用開辟了新的研究途徑。GAN是計(jì)算機(jī)視覺領(lǐng)域中最接近人眼判別水平的模型,其關(guān)鍵優(yōu)勢是可以從圖像或視頻中重建目標(biāo)對象的3D模型[11-12],對實(shí)現(xiàn)服裝虛擬試衣具有重要的現(xiàn)實(shí)意義。基于圖像的視覺試穿技術(shù)[13-17],根據(jù)參考人體的姿勢對服裝圖像進(jìn)行變形處理將目標(biāo)服裝轉(zhuǎn)移到人體上,輸出圖像可以很好地保持目標(biāo)圖像的特征[18-19],如紋理、刺繡、Logo等,因此在視覺圖像領(lǐng)域引起廣泛關(guān)注。與此同時(shí),基于三維模型[20-25]和視頻[26-28]的虛擬試穿也迅速發(fā)展,可以多角度、動態(tài)地展示服裝試穿效果,建立真實(shí)場景的虛擬試穿系統(tǒng)成為可能。
在全球,電子商務(wù)占服裝銷售額的1/3[29]。然而,網(wǎng)購者在購買前無法準(zhǔn)確預(yù)測其穿著效果,可能會因未達(dá)到期望效果而退貨,增加了制造、包裝和運(yùn)輸環(huán)節(jié)的成本,產(chǎn)生了巨大浪費(fèi)。虛擬試穿通過模擬人體真實(shí)的著裝效果,讓顧客沉浸式地感受服裝款式,可大幅降低退貨率,有效減少浪費(fèi)。除此之外,試穿效果圖在服裝生產(chǎn)中也起著重要作用,既可以減少部門之間的重復(fù)溝通,又能降低生產(chǎn)環(huán)節(jié)所需樣衣的成本。本文將虛擬試穿的試用效果進(jìn)行對比,對這幾種試穿方法進(jìn)行了系統(tǒng)的分析比較,并對生成對抗網(wǎng)絡(luò)在虛擬試穿方面的研究發(fā)展方向做出了展望。
1?生成對抗網(wǎng)絡(luò)(GAN)
1.1?GAN結(jié)構(gòu)
GAN[1],也稱原始GAN(Vanilla GAN),是一種機(jī)器學(xué)習(xí)模型,由生成器(Generator,G)和鑒別器(Discriminator,D)兩個(gè)神經(jīng)網(wǎng)絡(luò)組成,如圖1所示。使用GAN時(shí)需要為生成器提供輸入、確定輸出,生成器學(xué)習(xí)輸入圖像后生成假圖像,并欺騙鑒別器讓其信以為真,鑒別器負(fù)責(zé)判斷圖像的真假,訓(xùn)練會不斷進(jìn)行,直到兩者都達(dá)到平衡,這種雙組件的持續(xù)對抗使GAN產(chǎn)生了高質(zhì)量的輸出圖像,因此被稱為生成對抗網(wǎng)絡(luò)。
生成器的目標(biāo)是最小化函數(shù),而鑒別器的目標(biāo)是最大化函數(shù)。GAN的優(yōu)化目標(biāo)函數(shù)如下式所示:
式中:G是生成器,D是鑒別器,x是真實(shí)數(shù)據(jù),Pdata是真實(shí)數(shù)據(jù)概率密度分布,z是隨機(jī)輸入的高斯噪聲。
1.2?CGAN結(jié)構(gòu)
原始GAN在實(shí)際的訓(xùn)練中會產(chǎn)生崩潰,不足以持續(xù)穩(wěn)定地產(chǎn)生高質(zhì)量輸出圖像。對此Mirza等[30]引入條件生成對抗網(wǎng)絡(luò)(Contradiction GAN,CGAN),用輸入條件來控制生成器和鑒別器,兩者的兩個(gè)輸入數(shù)據(jù)集和輸出數(shù)據(jù)集都是以y為條件的條件概率。例如,可以通過調(diào)整輸入條件(如服裝類別)來改變生成的圖像。CGAN的優(yōu)化目標(biāo)函數(shù)如下式所示:
式中:生成器和鑒別器都加入了約束項(xiàng)y。
Isola等[31]在CGAN的基礎(chǔ)上對GAN做出了根本性的修改,提出了基于條件對抗的圖像到圖像翻譯網(wǎng)絡(luò)(Image-to-Image Translation GAN),也稱為“Pix2Pix”,Pix2Pix在建立CGAN框架的基礎(chǔ)上,可以將引入的條件輸入圖像(如衛(wèi)衣草圖)轉(zhuǎn)換為另一種表示形式(如全紋理衛(wèi)衣圖像)。Pix2Pix為生成深度圖像奠定了基礎(chǔ),如利用街道地圖生成衛(wèi)星圖像;將黑白照片轉(zhuǎn)換成彩色照片;對3D網(wǎng)格進(jìn)行完整渲染等。若輸入圖像是人體和服裝,則可以生成輸出是人體著裝的圖像,從而運(yùn)用到虛擬試衣領(lǐng)域[32-33]。
Pix2Pix的第一個(gè)基本組件是U-Net架構(gòu)生成器[34],該組件在可視化時(shí)看起來類似于字母U,是一個(gè)卷積神經(jīng)網(wǎng)絡(luò)模型。U-Net的架構(gòu)如圖2所示,可視為由編碼器和解碼器組成。編碼器是架構(gòu)圖中的左半部分,將輸入圖像編碼為多個(gè)不同級別的特征;解碼器是右半部分,目的是將編碼器學(xué)習(xí)到的低分辨率區(qū)分特征投影到高分辨率像素空間。
U-Net中的輸入和輸出圖像擁有相同的底層結(jié)構(gòu),即彼此共享底層信息,因此生成器的編碼器和解碼器之間可以實(shí)現(xiàn)對稱跳躍連接,使早期層的信息能有效地到達(dá)后期層,從而允許來自損失函數(shù)的梯度有效地反向傳播,避免梯度消失問題。
1.3?損失函數(shù)構(gòu)建
L1和L2是機(jī)器學(xué)習(xí)中的兩個(gè)損失函數(shù),用于最小化誤差。L1損失代表最小絕對偏差,也稱為LAD。L2損失函數(shù)代表最小二乘誤差,也稱為LS。
在大多數(shù)情況下應(yīng)使用L2損失,但如果數(shù)據(jù)存在異常值,由于L2考慮了平方差,將導(dǎo)致更大的誤差,會使生成的輸出與真實(shí)目標(biāo)更加偏離,而L1損失函數(shù)會刪除異常值,免受其影響。因此,在L2損失的基礎(chǔ)上,Pix2Pix提供了額外的L1損失,其目標(biāo)函數(shù)如下式所示:
式中:y是預(yù)測值,G(x,z)是真實(shí)值。
L1損失能克服L2損失的缺點(diǎn),使生成的輸出圖像與真實(shí)目標(biāo)的整體結(jié)構(gòu)和位置保持一致。在虛擬試衣中,L1損失用于保存用戶生成圖像的姿勢與狀態(tài),沒有L1損失來維持結(jié)構(gòu),生成的圖像可能會被錯(cuò)誤地縮放、旋轉(zhuǎn)或移動,無法實(shí)現(xiàn)所需圖像到圖像的直接轉(zhuǎn)換。不過,L1損失只能傳輸?shù)蛯咏Y(jié)構(gòu),不能傳輸高層結(jié)構(gòu),而虛擬試穿需要轉(zhuǎn)移的布料圖案、紋理、文字等均屬于高層結(jié)構(gòu),感知損失是解決這一問題的重要途徑。為解決這一問題,Gatys等[35]引入了樣式損失(Style Loss)來實(shí)現(xiàn)從草圖到照片(或反之)轉(zhuǎn)移過程中的細(xì)節(jié)保存。在樣式損失的基礎(chǔ)上,Johnson等[36]進(jìn)一步引入了特征損失(Feature Loss),并將兩者一同歸類為感知損失,感知損失常被用于虛擬試衣網(wǎng)絡(luò)的目標(biāo)圖像生成中。
1.4?引入監(jiān)督學(xué)習(xí)的CGAN
引入監(jiān)督信息可以增強(qiáng)鑒別器的魯棒性,由于原始GAN是一種無監(jiān)督學(xué)習(xí)的生成式模型[37],通常使用梯度下降法進(jìn)行訓(xùn)練,該訓(xùn)練方法非常不穩(wěn)定,在循環(huán)訓(xùn)練中會發(fā)生分叉和崩潰。這是因?yàn)镚AN訓(xùn)練時(shí)生成器和鑒別器在非平穩(wěn)環(huán)境中學(xué)習(xí),隨著樣本分布的變化,鑒別器會發(fā)生遺忘,數(shù)據(jù)集復(fù)雜時(shí)這些問題尤為突出,自我監(jiān)督[38]的作用就是阻止鑒別器發(fā)生遺忘。CGAN中引入了監(jiān)督信息,但其缺點(diǎn)是必須要有標(biāo)簽數(shù)據(jù),生成標(biāo)簽數(shù)據(jù)集成本又很高,無標(biāo)簽的數(shù)據(jù)卻時(shí)刻在產(chǎn)生,而自我監(jiān)督能從數(shù)據(jù)本身產(chǎn)生標(biāo)簽,并用其創(chuàng)建監(jiān)督損失函數(shù)來指導(dǎo)訓(xùn)練過程,從而確保鑒別器學(xué)習(xí)到更有用的語義表征。
2?GAN在虛擬試衣上的應(yīng)用
2.1?基于2D圖像的虛擬試衣
2.1.1?GAN在虛擬試衣的早期應(yīng)用
早期的虛擬試穿系統(tǒng)主要應(yīng)用三維人體掃描或計(jì)算機(jī)軟件建模[39]。前者數(shù)據(jù)量龐大、處理煩瑣,掃描過程中還會出現(xiàn)噪點(diǎn),需要后期修復(fù);后者主要依靠專業(yè)人員來進(jìn)行模型構(gòu)建,人工成本昂貴,且模型對象特定,局限性較大。為此,Lassner等[40]提出了ClothNet模型,應(yīng)用GAN學(xué)習(xí)2D圖像來生成人體和服裝語義分割的圖像,且引入Pix2Pix[31]將服裝分割圖像轉(zhuǎn)換為高分辨率的全彩色圖像。這一技術(shù)后來經(jīng)常被用于服裝虛擬試衣。
雖然ClothNet可以在指定的分割蒙版區(qū)域生成服裝,但是其外觀準(zhǔn)確性無法控制。其次,ClothNet須使用分割的人體區(qū)域作為條件圖像,但圖像標(biāo)注和分割都會產(chǎn)額外的成本,因此時(shí)裝公司很少會收集此類數(shù)據(jù)。針對以上問題,Jetchev等[41]提出條件類比生成對抗網(wǎng)絡(luò)(Condition Analogy Generative Adversarial Network,CA-GAN),使服裝模特可以自由換裝。CA-GAN的原理是把人體著裝模型看作圖像類比問題:生成器將穿著A服裝的圖像yi自動轉(zhuǎn)換成身著B服裝的圖像yj,且生成Alpha蒙版來合成原始圖像和生成圖像,使用蒙版還可以保持穿著者的原始特征(如面部表情),且只轉(zhuǎn)移目標(biāo)服裝不會對其他物體造成影響。此外,CA-GAN是一種端到端的可訓(xùn)練架構(gòu),可以使鑒別器掌握學(xué)習(xí)損失函數(shù)的能力,并以自我監(jiān)督[38]的方式判斷結(jié)果,無需標(biāo)簽數(shù)據(jù)監(jiān)督,在服裝公司具有良好的應(yīng)用前景。
2.1.2?虛擬試衣網(wǎng)絡(luò)
理論上CA-GAN模型可以將對抗性損失降到最低,從而使輸出圖像達(dá)到以假亂真的程度,但在實(shí)際應(yīng)用中,該模型只能粗略變換服裝,生成的服裝圖像也無法適應(yīng)姿勢變化,大幅限制了該模型在服裝虛擬試衣中的應(yīng)用,因此還需經(jīng)過細(xì)節(jié)轉(zhuǎn)移和真實(shí)變形的處理。為解決這些問題,Han等[13]提出了虛擬試穿系統(tǒng)VITON(Virtual Try On)。VITON是虛擬試衣研究領(lǐng)域的里程碑,隨后的許多方法都以其為基準(zhǔn)。與CA-GAN相比,VITON采用了兩階段系統(tǒng)來解決服裝變形問題,如圖3所示。第一階段是多任務(wù)編碼-解碼生成器(Multi-task Encoder-decoder Generator),以人體模型和目標(biāo)服裝為輸入條件進(jìn)行圖像轉(zhuǎn)換,以過程結(jié)果和服裝蒙版為輸出,用靜態(tài)形狀-上下文匹配算法(Shape-context Matching Algorithm)[42]對服裝蒙版進(jìn)行變形,將變形后的服裝蒙版?zhèn)鬟f給全卷積細(xì)化網(wǎng)絡(luò),從而產(chǎn)生Alpha蒙版。第二階段是細(xì)化網(wǎng)絡(luò),利用Alpha蒙版將變形后的服裝與粗糙的人體圖像合成參考圖像,并根據(jù)參考圖像計(jì)算感知損失[43]。
CA-GAN的Alpha蒙版經(jīng)常將原始服裝和目標(biāo)服裝混為一談,有時(shí)還會偏離用戶的中心,出現(xiàn)人體和服裝錯(cuò)位的現(xiàn)象,VITON通過靜態(tài)變形算法和優(yōu)化神經(jīng)網(wǎng)絡(luò)解決了這個(gè)問題。此外,Han等[13]首次證明了感知損失可以用于服裝試穿中的紋理增強(qiáng)和細(xì)節(jié)轉(zhuǎn)移,相比僅靠一個(gè)對抗損失來生成服裝細(xì)節(jié)的CA-GAN更具優(yōu)勢。
盡管VITON可以傳輸服裝整體變形,但在服裝細(xì)節(jié)傳遞上仍有很大的改進(jìn)空間。Wang等[14]提出了可保留特征的虛擬試衣網(wǎng)絡(luò)CP-VTON,通過進(jìn)一步改善紋理細(xì)節(jié)傳輸來擴(kuò)展VITON。該網(wǎng)絡(luò)由幾何匹配模塊和試穿模塊組成:幾何匹配模塊學(xué)習(xí)衣服的變形,試穿模塊將渲染后的人物與扭曲后的布料融合在一起,使用合成蒙版生成最終效果,因此CP-VTON比VITON在細(xì)節(jié)保存方面質(zhì)量更好。例如,在VITON中,Logo和文字會出現(xiàn)傳遞模糊的現(xiàn)象,而CP-VTON則可以更好地保存這些細(xì)節(jié),形狀、顏色和文字也更加清晰。
2.1.3?不同監(jiān)督機(jī)制的虛擬試衣
引入監(jiān)督機(jī)制可以使訓(xùn)練網(wǎng)絡(luò)更加穩(wěn)定,從而克服模型訓(xùn)練時(shí),生成器遺忘導(dǎo)致的網(wǎng)絡(luò)崩潰。Raj等[32]采用了新型弱監(jiān)督訓(xùn)練模型SwapNet,在沒有監(jiān)督信息的情況下,可對不同姿勢下的同一服裝進(jìn)行變形和紋理模塊訓(xùn)練。Roy等[15]提出了基于自我監(jiān)督機(jī)制的虛擬試衣網(wǎng)絡(luò)LGVTON,解決了虛擬試衣場景中缺乏標(biāo)簽數(shù)據(jù)集的問題。LGVTON能根據(jù)人體的形態(tài)和姿勢,采用人體和服裝兩種標(biāo)志物對布料模型進(jìn)行變形處理。Wu等[16]則應(yīng)用非監(jiān)督和自我監(jiān)督的混合學(xué)習(xí)框架,引入非配對-配對聯(lián)合訓(xùn)練的方法來完成這一任務(wù),有效解決了缺乏成對訓(xùn)練圖像(即目標(biāo)人體和所需服裝模型)的問題。
2.1.4?多姿態(tài)引導(dǎo)的虛擬試衣
目前的許多虛擬試衣算法在人體姿勢變化較大時(shí),會出現(xiàn)生成圖像欠擬合的問題,特別是在參考圖像的朝向和目標(biāo)衣服相反時(shí),合成圖像的偏差就更加明顯。針對這一問題,Dong等[17]試圖通過解決姿態(tài)變形和錯(cuò)位問題來改進(jìn)CP-VTON,提出了一種多姿態(tài)引導(dǎo)的虛擬試衣網(wǎng)絡(luò)MG-VTON(Multi-pose Guided Virtual Try-on Network),如圖4所示。這種對抗網(wǎng)絡(luò)分為三個(gè)階段:條件解析網(wǎng)絡(luò)用來同時(shí)匹配目標(biāo)人體姿勢和服裝形態(tài);Warp-GAN將期望的服裝變形合成到人體解析圖像中去,緩解輸入的人體姿勢和期望姿勢之間的錯(cuò)位問題,減少不同姿態(tài)引起的失調(diào),最終合成具有真實(shí)感的服裝圖像;細(xì)化渲染網(wǎng)絡(luò)恢復(fù)服裝的紋理細(xì)節(jié),并去除人工痕跡。MG-VTON可以更好地?cái)M合參考圖像與人體姿勢變形,同時(shí)保留目標(biāo)服裝紋理,即使參考圖像的姿勢和人體朝向相反也不例外。
2.1.5?可選擇服裝的虛擬試衣
現(xiàn)有的服裝虛擬試衣模型大多只能轉(zhuǎn)移整體服裝,Li等[44]首次提出了可選擇服裝的虛擬試衣系統(tǒng)I-VTON,可根據(jù)用戶意愿有選擇地試穿上裝或下裝,還引入了皮膚損失來保持用戶膚色,提高了實(shí)用性和逼真程度。
在I-VTON的基礎(chǔ)上,Neuberger等[45]提出了Outfit-VTON,該方法可以從參考圖像中選取服裝組合與目標(biāo)人體相融合,形成可視化的合成圖像,使用戶能實(shí)時(shí)控制最終呈現(xiàn)的服裝效果。此外,Outfit-VTON還引入了精確合成紋理、標(biāo)志和文字等服裝特征的在線優(yōu)化功能。
2.1.6?可保存服裝的虛擬試衣
在虛擬試衣網(wǎng)絡(luò)中,當(dāng)人體軀干和四肢發(fā)生姿勢變化時(shí),會導(dǎo)致服裝區(qū)域和人體部位間產(chǎn)生如遮擋、干擾和變形等相互作用。因此,需要算法能理解參考圖像中前景物體和背景的空間布局,并在試穿過程中自適應(yīng)地保留這種關(guān)系。為此,Yu等[18]提出了可以保存人體和服裝特征的虛擬試衣網(wǎng)絡(luò)VTNFP(Virtual Try on Network with Feature Preservation),這種新的分割圖生成模塊可用于預(yù)測人體著裝部位,并將預(yù)測的人體部位分割圖像、服裝變形圖像和其他輔助人體信息融合在一起,且保存服裝和人體部位的細(xì)節(jié)信息。Yang等[19]繼續(xù)對VTNFP做出改進(jìn),提出了一種新的自適應(yīng)內(nèi)容生成和保存網(wǎng)絡(luò)(Adaptive Content Generation and Preservation Network,ACGPN)。首先預(yù)測參考圖像的語義布局,然后自適應(yīng)地確定生成和保存內(nèi)容,并且引入新的二階差分約束使訓(xùn)練過程更加穩(wěn)定,大幅提高了復(fù)雜服裝模型的處理能力。
2.2?3D模型的深度重建
除了利用2D圖像進(jìn)行虛擬試衣外,GAN在3D模型的深度重建上也有廣泛應(yīng)用。Lahner等[20]提出深度模型DeepWrinkles的試衣效果,如圖5所示。圖6為在法線圖上使用GAN對3D模型表面進(jìn)行幾何變形優(yōu)化的結(jié)果。能在分辨率較低的法線貼圖上生成精細(xì)的細(xì)節(jié),增強(qiáng)了現(xiàn)實(shí)性和時(shí)間一致性。由于DeepWrinkles模型的整體形狀和細(xì)節(jié)褶皺可以完全由數(shù)據(jù)驅(qū)動進(jìn)行控制,因此可以獲得前所未有的高質(zhì)量服裝褶皺渲染效果。
Minar等[21]利用服裝與人體形狀的對應(yīng)關(guān)系,提出了基于單個(gè)服裝圖像的三維服裝模型重建方法Cloth-VTON,使用SMPL人體姿勢和形狀參數(shù)將三維服裝模型轉(zhuǎn)移到目標(biāo)人體模型,然后對轉(zhuǎn)移后的三維服裝模型進(jìn)行渲染,合成目標(biāo)圖像。Mir等[22]提出了一個(gè)簡單有效的模型Pix2surf,將電商網(wǎng)站上的服裝圖像映射到3D虛擬服裝模型表面,實(shí)現(xiàn)實(shí)時(shí)的虛擬試衣。利用這一模型可以自動地從網(wǎng)站上在線搜集到無數(shù)服裝圖像,繪制出紋理貼圖。此外,Pix2surf還支持VR/AR、游戲和3D內(nèi)容生產(chǎn)等應(yīng)用程序,具有良好的拓展性。Zhu等[23]建立了迄今為止最大的3D服裝模型數(shù)據(jù)集,從真實(shí)服裝重建了2 078個(gè)服裝模型,涵蓋10個(gè)不同類別和563個(gè)服裝實(shí)例,并且提供了豐富的注釋,包括三維特征線、三維身體姿勢和對應(yīng)的多視圖圖像。
然而,上述模型均需要以真實(shí)服裝的照片或深度圖像為輸入,針對這一不足,Shen等[24]提出了可以應(yīng)用GAN直接由服裝樣板和尺寸參數(shù)生成3D服裝模型的方法,且支持大多數(shù)服裝拓?fù)浣Y(jié)構(gòu)和人體尺寸,這意味著可以直接將服裝樣板轉(zhuǎn)換成人體試衣圖像,在服裝生產(chǎn)環(huán)節(jié)具有重要的現(xiàn)實(shí)意義,但該方法無法生成服裝細(xì)節(jié)。對此,Qian等[25]提出了Mesh-VAE-GAN模型,利用3D掃描中不同姿勢的SMPL著裝模型來學(xué)習(xí)生成服裝變形,使服裝成為SMPL中的附加項(xiàng)。為了保留褶皺細(xì)節(jié),Mesh-VAE-GAN將補(bǔ)丁式分解器擴(kuò)展到3D模型,再現(xiàn)服裝的全局形狀和局部細(xì)節(jié),并能根據(jù)人體姿勢和服裝類型進(jìn)行可控調(diào)節(jié),使其可以在不同的人體體形和姿勢下試穿各種風(fēng)格的服裝。
在實(shí)際應(yīng)用中,GAN在3D模型的深度重建相比于2D圖像更加具有真實(shí)感,可以展示多維的試穿服裝試穿角度,表達(dá)出二維圖像中缺乏的復(fù)雜效果,與人類的視覺感知更匹配。但也存在不足,大多數(shù)GAN在3D模型深度重建研究仍然需要掃描人體姿勢和衣服來學(xué)習(xí)生成人體試穿服裝的網(wǎng)絡(luò)模型,這就增加了其獲取輸入信息的難度,因此沒有2D圖像在虛擬試穿領(lǐng)域的研究來得更加廣泛。
2.3?視頻呈現(xiàn)的虛擬試衣
視頻試穿可以讓用戶從多個(gè)角度方便地觀察服裝呈現(xiàn)在自身上的外觀效果,相比于借助單個(gè)圖像,這種方法取得了很大進(jìn)步。視頻虛擬試衣面臨的最大挑戰(zhàn)是如何處理視頻幀之間的時(shí)間一致性。對此,Dong等[26]提出了一種基于流動導(dǎo)航的對抗網(wǎng)絡(luò)模型(Flow-Warping GAN),率先實(shí)現(xiàn)了包括服裝變形和紋理映射的全程視頻試穿處理。而FW-GAN加入了光流損失解決時(shí)間一致性問題,通過合成連貫自然的視頻,同時(shí)操縱人體姿勢和服裝變形,精確地將服裝轉(zhuǎn)移到人體上,如圖7所示。由圖7可以看出,F(xiàn)W-GAN能以任意角度和姿勢生成具有真實(shí)感的試穿視頻。由于視頻信息的存在,F(xiàn)W-GAN能夠合成比以往VITON和CP-VTON等生成的靜止試穿圖像更高質(zhì)量的服裝變形。
為解決視頻虛擬試衣實(shí)時(shí)性受限的問題,Pumarola等[27]增加了一個(gè)物理存儲器,可以根據(jù)遮擋位置填充特定區(qū)域,以適應(yīng)人體姿勢來合成新的服裝圖像,開啟了快速虛擬試衣階段。在人體模型合成的細(xì)節(jié)上,Kuppa等[28]提出了ShineOn算法,首先,應(yīng)用Dense-Pose標(biāo)注增強(qiáng)了人臉細(xì)節(jié),且減少了占用內(nèi)存和訓(xùn)練時(shí)間;其次,引入了自注意力層改善人體面部和頸部質(zhì)量,該方法可以在一定程度上改善人體輪廓的清晰度。ShineOn成為視頻虛擬試衣的關(guān)鍵技術(shù),在試穿領(lǐng)域有很好的發(fā)展前景,但是在轉(zhuǎn)移速度上仍有改善空間,以便獲得更好的試穿效果。
3?典型虛擬試衣模型的效果對比分析
在GAN誕生以后,已經(jīng)出現(xiàn)了很多虛擬試衣網(wǎng)絡(luò)模型。表1選取上述典型的GAN在虛擬試衣網(wǎng)絡(luò)上的應(yīng)用效果作對照比較,總結(jié)分析了它們的運(yùn)作機(jī)制、優(yōu)點(diǎn)、局限性及適用場景,以便更好地理解并運(yùn)用它們。
4?結(jié)?論
GAN在虛擬試衣領(lǐng)域的廣泛應(yīng)用,使得無需傳統(tǒng)的人體掃描和計(jì)算機(jī)建模就可以生成服裝試穿圖像,從第一個(gè)應(yīng)用于虛擬試衣的生成對抗網(wǎng)絡(luò)到實(shí)時(shí)視頻的虛擬試衣網(wǎng)絡(luò),雖然生成的試穿圖像效果和質(zhì)量已大幅提高,目前還存在許多問題,未來可從以下三個(gè)方向進(jìn)行改進(jìn)。
1)多層服裝的虛擬試衣。人們在實(shí)際試穿服裝時(shí)通常會多件著裝,但目前基于GAN的虛擬試衣研究主要集中在單件服裝,多層服裝的相互作用和復(fù)雜性使得GAN不能很好地生成試衣圖像。如果可以嘗試將每件服裝封裝在一個(gè)圖層中作為蒙版,在試穿模塊中進(jìn)行融合,將會有助于促進(jìn)多層服裝虛擬試穿的實(shí)現(xiàn)。
2)高精度的試穿圖像。目前的虛擬試衣生成圖像大多分辨率較低(128 dpi×128 dpi),僅約為人類習(xí)慣分辨率的1/10,試穿效果、質(zhì)量和參考價(jià)值并不很高,可以考慮研發(fā)高分辨率圖像翻譯網(wǎng)絡(luò),將其應(yīng)用到虛擬試衣中,提高試穿效果,從而縮小虛擬試衣和實(shí)際著裝之間的差距。此外,目前的研究在提高傳遞服裝質(zhì)量方面雖已取得了一定的進(jìn)展,但距離實(shí)現(xiàn)消費(fèi)者準(zhǔn)確地從生成圖像感受服裝紋理與材質(zhì)這一目標(biāo)還有較大空間,可以考慮引入局部紋理損失來合成深度圖像網(wǎng)絡(luò),有望生成更加真實(shí)的紋理材質(zhì)圖像。
3)高速度實(shí)時(shí)視頻試穿。目前視頻虛擬試穿所生成的服裝主要依賴于人體姿勢,可以適應(yīng)于大多數(shù)的慢運(yùn)動,但還無法推廣到快運(yùn)動,亟需引入更高效的架構(gòu)來實(shí)現(xiàn)高速度的視頻試穿。
參考文獻(xiàn):
[1]GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial networks[J]. Advances in Neural Information Processing Systems, 2014, 3: 2672-2680.
[2]BRANDON J. Terrifying high-tech porn: Creepy "deepfake" videos are on the rise[N/OL]. Fox News, 2018-02-16. https://www.foxnews.com/tech/terrifying-high-tech-porn-creepy-deepfake-videos-are-on-the-rise.
[3]YU J, LIN Z, YANG J, et al. Generative image inpainting with contextual attention[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 5505-5514.
[4]VONDRICK C, PIRSIAVASH H, TORRALBA A. Generating videos with scene dynamics[C]//NIPS Proceedings of the 30th International Conference on Neural Information Processing System. Barcelona: NIPS, 2016: 613-621.
[5]WONG C. The rise of AI supermodels[N/OL]. CDO Trends, 2019-05-27. https://www.cdotrends.com/story/14300/rise-ai-supermodels.
[6]ELGAMMAL A, LIU B, ELHOSEINY M, et al. CAN: Creative Adversarial Networks, generating "Art" by learning about styles and deviating from style norms[C]//ICCC 8th International Conference on Computational Creativity. Atlanta: ICCC, 2017: 96-103.
[7]WANG X, YU K, WU S, et al. ESRGAN: Enhanced super-resolution generative adversarial networks[C]//ECCV 15th European Conference on Computer Vision. Munich: ECCV, 2018: 63-79.
[8]SAJJADI M S M, SCHOLKOPF B, HIRSCH M. EnhanceNet: Single image super-resolution through automated texture synthesis[C]//IEEE International Conference on Computer Vision (ICCV). Venice: IEEE, 2017: 4501-4510.
[9]WEI J. Generating shoe designs with machine learning[N/OL]. Medium, 2019-11-06. https://towardsdatascience.com/generating-shoe-designs-with-deep-learning-5dde432a23b8.
[10]ANTIPOV G, BACCOUCHE M, DUGELAY J L. Face aging with conditional generative adversarial networks[C]//IEEE International Conference on Image Processing (ICIP). Beijing: IEEE, 2017: 2089-2093.
[11]WU J, ZHANG C, XUE T, et al. Learning a probabilistic latent space of object shapes via 3D generative adversarial modeling[C]//NIPS Proceedings of the 30th International Conference on Neural Information Processing System. Barcelona: NIPS, 2016: 82-90.
[12]VONDRICK C, PIRSIAVASH H, TORRALBA A. Generating videos with scene dynamics[C]//NIPS Proceedings of the 30th International Conference on Neural Information Processing. Barcelona: NIPS, 2016: 613-621.
[13]HAN X, WU Z, WU Z, et al. VITON: An image-based Virtual Try-On network[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE/CVF, 2018: 7543-7552.
[14]WANG B, ZHENG H, LIANG X, et al. Toward characteristic-preserving image-based Virtual Try-On network[C]//Proceedings of the European Conference on Computer Vision (ECCV). Munich: ECCV, 2018: 589-604.
[15]ROY D, SANTRA S, CHANDA B. LGVTON: A landmark guided approach to Virtual Try-On[J/OL]. Computer Science, 2020-04-18. https://arxiv.org/abs/2004.00562.
[16]WU Z, TAO Q, LIN G, et al. M2E-try on NET: Fashion from model to everyone[C]//Proceedings of the 27th ACM International Conference on Multimedia. Cornell: ACM, 2019: 293-301.
[17]DONG H, LIANG X, SHEN X, et al. Towards multi-pose guided virtual try-on network[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). Seoul: IEEE/CVF, 2019: 9026-9035.
[18]YU R, WANG X, XIE X. VTNFP: An Image-Based Virtual Try-On network with body and clothing feature preservation[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). Seoul: IEEE/CVF, 2019: 10510-10519.
[19]YANG H, ZHANG R, GUO X, et al. Towards photo-realistic virtual try-on by adaptively generating preserving image content[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle: IEEE/CVF, 2020: 7850-7859.
[20]LANER Z, CREMERS D, TUNG T. DeepWrinkles: Accurate and Realistic Clothing Modeling[C]//European Conference on Computer Vision (ECCV). Munich: IEEE/CVF, 2018: 698-715.
[21]MINAR R, THAI T, AHN H, et al. 3D reconstruction of clothes using a human body model and its application to image-based virtual try-On[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle: IEEE/CVF, 2020: 853-862.
[22]MIR A, ALLDIECK T, PONS G. Learning to transfer texture from clothing images to 3D humans[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle: IEEE/CVF, 2020: 7023-7034.
[23]ZHU H, CAO Y, JIN H, et al. Deep fashion 3D: A dataset and benchmark for 3D garment rconstruction from single images[C]//European Conference on Computer Vision (ECCV). Glasgow: IEEE/CVF, 2020: 512-530.
[24]SHEN Y, LIANG J, LIN M C. Gan-based garment generation using sewing pattern images[C]//European Conference on Computer Vision (ECCV). Glasgow: IEEE/CVF, 2020: 225-247.
[25]MA Q, YANG J, RANJAN A, et al. Learning to dress 3D people in generative clothing[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle: IEEE/CVF, 2020: 6469-6478.
[26]DONG H, LIANG X, SHEN X, et al. FW-GAN: Flow-navigated warping GAN for video Virtual Try-On[C]//IEEE/CVF International Conference on Computer Vision (ICCV). Seoul: IEEE/CVF, 2019: 1161-1170.
[27]PUNAROLA A, GOSWAMIV, VICENTE F, et al. Unsupervised image-to-video clothing transfer[C]//IEEE/CVF International Conference on Computer Vision (ICCV). Seoul: IEEE/CVF, 2019: 3181-3184.
[28]KUPPA G, JONG A, LIU V, et al. Shine on: illuminating design choices for practical video-based virtual clothing try-on[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV) Workshops. Waikola: IEEE/CVF, 2021: 191-200.
[29]JONG A, MOH M, MOH T. Virtual Try-On with Generative Adversarial Networks: A Taxonomical Survey[M]//Advancements in Computer Vision Applications in Intelligent Systems and Multimedia Technologies. IGI Global: San Jose, 2020: 76-100.
[30]MIRZAM, OSINDEROSIMON. Conditional generative adversarial nets[C]//NIPS Proceedings of advances in Neural Information Processing Systems. Montreal: NIPS, 2014: 5767-5777.
[31]ZHU J Y, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proceedings of the IEEE International Conference on Computer Vision (ICCV). Venice: IEEE, 2017: 2223-2232.
[32]RAJ A, SANGKLOY P, CHANG H, et al. SwapNet: image based garment transfer[C]//ECCV 15th European Conference on Computer Vision. Munich: ECCV, 2018: 679-695.
[33]楊佑國, 徐平華, 徐明慧, 等. 基于虛擬試衣的著裝應(yīng)力分布效應(yīng)評價(jià)[J]. 現(xiàn)代紡織技術(shù), 2021, 29(6): 106-112.
YANG Youguo, XU Pinghua, XU Minghui, et al[J]. Evaluation of garment stress distribution based on virtual fitting[J]. Advanced Textile Technology, 2021, 29(6): 106-112.
[34]RONNEBERGER O, FISCHER P, BROX T. U-Net: Convolutional networks for biomedical image Segmentation[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer, 2015: 234-241.
[35]GATYS L A, ECKER A S, BETHGE M. Image style transfer using convolutional neural networks[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas: IEEE, 2016: 2414-2423.
[36]JOHNSON J, ALAHI A. Perceptual losses for real time style transfer and Super-Resolution[M]. Berlin: Springer International Publishing, 2016: 694-711.
[37]王晉宇, 楊海濤, 李高源, 等. 生成對抗網(wǎng)絡(luò)及其圖像處理應(yīng)用研究進(jìn)展[J]. 計(jì)算機(jī)工程與應(yīng)用, 2021, 57(8): 26-35.
WANG Jinyu, YANG Haitao, LI Gaoyuan, et al. Research progress of generative adversarial network and its application in image processing[J]. Computer Engineering and Applications, 2021, 57(8): 26-35.
[38]CHEN T, ZHAI X, RITTER M, et al. Self-Supervised GAN via auxiliary rotation loss[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach: IEEE/CVF, 2019: 12146-12155.
[39]吳義山, 徐增波. 虛擬試衣系統(tǒng)關(guān)鍵技術(shù)[J]. 絲綢, 2014, 51(12): 24-29.
WU Yishan, XU Zengbo. Key technologies of virtual fitting system[J]. Journal of Silk, 2014, 51(12): 24-29.
[40]LASSNER C, PONS-MOLL G, GEHLER P V. A generative model of people in clothing[C]//IEEE International Conference on Computer Vision (ICCV). Venice: IEEE, 2017: 853-862.
[41]JETCHEV N, BERGMANN U. The Conditional Analogy GAN: swapping fashion articles on people images[C]//IEEE International Conference on Computer Vision Workshops (ICCVW). Venice: IEEE, 2017: 2287-2292.
[42]BELONGIE S J, MALIK J M, PUZICHA J. Shape matching and object recognition using shape contexts[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(4): 509-522.
[43]WANG T Y, CEYLAN D, POPOVIC J, et al. Learning a shared shape space for multimodal garment design[J]. ACM Transactions on Graphics, 2017, 36(4): 1-13.
[44]YU L, ZHONG Y, WANG X. Inpainting-based Virtual Try-on network for selective garment transfer[J]. IEEE Access, 2019, 7: 134125-134136.
[45]NEUBERGER A, BORENSTEIN E, HILLELI B, et al. Image based Virtual Try-On Network from unpaired data[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle: IEEE/CVF, 2020: 5184-5193.