趙娟 魏雪霞 徐增波
摘要: 虛擬試衣是一種能夠使用戶不用進行真實試穿,就可查看到試衣后視覺效果的技術。研究者多關注于3D虛擬試衣,該方法雖然可以精準地控制人體與服裝變形,但是存在使用成本高、建模復雜度高、專業(yè)技術性強等不足和局限,無法真正用于網(wǎng)上服裝銷售。最新研究旨在利用深度學習來解決虛擬試衣問題,其中基于深度學習的2D虛擬試衣是目前主要的研究熱點,其關鍵技術主要涉及人體解析、服裝變形、圖像合成三個方面。文章通過技術分析,指出現(xiàn)有技術存在的問題并展望未來。
關鍵詞: 虛擬試衣;深度學習;人體解析;服裝變形;圖像合成
中圖分類號: TS941.17
文獻標志碼: A
文章編號: 1001-7003(2021)09-0048-05
引用頁碼: 091108
DOI: 10.3969/j.issn.1001-7003.2021.09.008(篇序)
Research progress of 2D virtual fitting technology based on deep learning
ZHAO Juan, WEI Xuexia, XU Zengbo
(Fashion College, Shanghai University of Engineering and Technology, Shanghai 201620, China)
Abstract:Virtual fitting refers to a type of technology that allows users to try on items virtually and see the visual effect afterwards. In the past, 3D virtual fitting received more focus among researchers. Despite its advantages of accurately controlling the human body and clothing warping, it cannot be truly adopted for online clothing sales due to its deficiencies and limitations, such as high cost, high modeling complexity, strong professional and technical requirements. The latest research aims to address virtual fitting issues by virtue of deep learning, which mainly focuses on 2D virtual fitting at present. Its core technologies mainly involve human parsing, clothing warping and image synthesis. This paper points out the existing technical problems and proposes the future development prospects through technical analysis.
Key words:virtual fitting; deep learning; human parsing; clothing warping; image synthesis
收稿日期: 20210103
修回日期: 20210821
作者簡介: 趙娟(1997),女,碩士研究生,研究方向為服裝數(shù)字化。通信作者:徐增波,教授,xuzengbo@aliyun.com。
網(wǎng)絡環(huán)境為人們的生活提供了便捷,網(wǎng)上購衣已成為現(xiàn)階段人們日常生活消費的主要方式之一。但是,服裝的自身特點決定了其無法用規(guī)格、文字及照片等方式準確地將特征信息描述清楚,導致消費者根據(jù)網(wǎng)上提供的有限信息難以判斷想要購買服裝的合體性及舒適性等[1]。隨著基于互聯(lián)網(wǎng)的虛擬現(xiàn)實技術的發(fā)展,虛擬試衣已經(jīng)成為服裝電商平臺推出的核心特色。它順應了網(wǎng)絡營銷的發(fā)展趨勢,拓寬了電子商務的銷售渠道,促進了服裝行業(yè)的發(fā)展[2]。
受此啟發(fā),TriMirror等不同公司開發(fā)了各種虛擬試衣間/鏡子。然而,他們背后的關鍵使能因素是使用身體形狀的3D測量,或者由深度相機直接捕獲[3],或者使用訓練數(shù)據(jù)從2D圖像推斷[4-5]。雖然這些三維建模技術能夠在人身上實現(xiàn)逼真的服裝模擬,但安裝硬件和收集三維標注數(shù)據(jù)的高成本抑制了它們的大規(guī)模應用。而利用圖像合成技術則可以降低零售商的成本。在計算機視覺中,條件生成對抗網(wǎng)絡在圖像生成[6-7]和圖像到圖像翻譯[8]方面顯示了令人印象深刻的結果。特別是,它們使對抗損失最小化,使得由生成器產(chǎn)生的樣本與由鑒別器根據(jù)輸入信號確定的真實樣本不可區(qū)分[9-14]。例如,F(xiàn)ashionGAN[15]以描述不同服裝的句子為條件在給定人像上生成新服裝。CAGAN[16]提出了一個條件類比生成對抗網(wǎng)絡,以成對的服裝為條件合成來人像。然而,這些網(wǎng)絡只能粗略地轉換對象類和屬性等信息,無法處理圖形細節(jié)和適應較大的幾何變化。這限制了他們在虛擬試衣等任務中的能力。為了解決這些限制,Han等[17]提出了一個基于圖像的虛擬試衣網(wǎng)絡VITON,關注服裝區(qū)域,并處理虛擬試穿服裝變形。
為了生成照片般逼真的試穿效果和豐富的服裝細節(jié),研究者在VITON基礎上不斷進行了深入研究,但目前尚缺少對該技術的總結工作。本文將從人體解析、服裝變形和圖像合成三方面對其進行分析,分析現(xiàn)有技術存在的共性問題,并比較已有方法在各方面的優(yōu)劣表現(xiàn),旨在為2D虛擬試衣技術的發(fā)展提供理論指導。
1人體解析
根據(jù)人體(各部位)、頭發(fā)、人臉、服裝和目標姿態(tài)的近似形狀進行人體分析,可以有效地指導人體各部位精確區(qū)域的合成。人體解析可以被用于人體各部位的精細分割[18]。CHEN等[19]使用整體模型和人體部位檢測和表示對象,將對象分割擴展到對象零件級分割,并發(fā)布了人體像素級零件注釋數(shù)據(jù)集PASCALPersonPart。后來,GONG等[20-21]引入了一個新的基準LIP(Look into Person)來進行人體解析和服裝分割。利用LIP可以提取覆蓋人體圖像中服裝部分的感興趣區(qū)域。為了達到更好的分割精度,還需要充分利用人體結構信息。目前,最常見的理解人體結構信息方法是人體姿態(tài)估計,將它與人體解析模型有效結合到一起,能夠有效地提升人體四肢相關部件的分割性能[22]。
1.1人體分割
服裝的外觀很大程度上取決于體型(高矮胖瘦),因此如何轉移目標服裝取決于不同身體部位的位置和體型。VITON&CPVTON[23]提出了一個服裝不可知人體表征,以姿勢、體型、面部和頭發(fā)作為約束合成的先決條件。使用人體解析器計算人體分割圖,其中不同的區(qū)域代表人體的不同部分,如手臂、腿等。進一步將分割圖轉換成一個單通道的二進制掩碼,其中1表示人體(不包含面部和頭發(fā)),0表示其他區(qū)域。使用同一個人體解析器提取人臉和頭發(fā)區(qū)域的RGB通道,在生成新圖像時注入身份信息。直接從用戶圖像得到的二進制掩碼被下采樣到較低的分辨率(16×12),以避免當身體形狀和目標服裝沖突時出現(xiàn)偽影。為了在處理服裝和姿勢時保持人的結構一致性,MGVTON[24]以期望姿勢、目標服裝、體型、臉和頭發(fā)的掩碼為條件設計了一個姿勢引導的人體解析網(wǎng)絡。由于基線方法(VITON&CPVTON)直接將用戶圖像和目標服裝圖像輸入網(wǎng)絡未能保留人的某些部分(例如褲子的顏色和頭發(fā)的樣式被替換)。MGVTON利用人體解析圖來解決這些問題,可以幫助生成器在零件級別上合成高質量圖像。ClothFlow[25]是一種基于外觀流的人物服裝圖像生成模型,該模型能夠合成特定姿態(tài)的人物服裝圖像,以用于基于姿態(tài)引導的人物圖像生成和虛擬試衣。為了合成用戶圖像,一個好的實踐方法是先預測一個語義布局,它為外觀的生成提供結構約束[26-28]。使用姿態(tài)估計器和人體解析器可以獲得用于訓練目標布局生成器的人體姿態(tài)和布局表示。條件式人體布局生成器以目標姿態(tài)為條件預測目標人體的分割布局信息,可以把形狀和外觀的生成分離,使得ClothFlow生成的結果在空間上更具一致性。
1.2姿勢表示
人體姿勢的變化會導致服裝的不同變形。VITON&CPVTON使用了基于關鍵點的人體姿態(tài)估計器[29]顯式地建模姿勢信息,通過計算18個關鍵點的坐標表示人體姿勢。為了利用它們的空間布局,每個關鍵點被進一步轉換為熱圖,關鍵點周圍的11×11鄰域在其他地方用1和0填充。來自所有關鍵點的熱圖被進一步疊加成18通道姿態(tài)熱圖(圖1)。然而,稀疏的關鍵點不能為人像生成提供足夠的姿勢信息。為了實現(xiàn)更準確的姿態(tài)估計,M2ETON[30]使用稠密的人體姿態(tài)估計方法DensePose將每個像素映射到一個稠密的姿態(tài)點上,建立2D圖像到人體3D表面的對應關系。該方法預測有24個部分的劃分,對于每個部分它都有人體表面的UV參數(shù)化,它的網(wǎng)格坐標提供了密集的偽3D信息,可以用來表示豐富的姿勢細節(jié)(圖2[31])。
2服裝變形
服裝變形的目的是根據(jù)人體姿勢,使服裝圖像在視覺上自然變形,以適應用戶圖像中服裝區(qū)域的形狀,并保持服裝的特征。研究者使用了兩種不同范式的方法考慮幾何變形來獲得更好的外觀效果,即基于形變的方法和基于DensePose的方法。
其中,基于形變的方法通過估計薄板樣條插值TPS(Thin Plate Spline)或仿射的變換進行服裝變形。例如,TPS插值:給定兩張圖片中一些相互對應的控制點,TPS可以將其中一個圖片進行特定的形變,使得其控制點可以與另一張圖片的控制點重合。它通過扭曲圖片來保證有多個點能夠同時被映射,同時最小化彎曲能量,可以對表面進行柔性的變形(圖3[32])。空間變換網(wǎng)絡STN(Spatial Transformer Network):STN分為參數(shù)預測、坐標映射、像素采集三部分,作為一個特殊的網(wǎng)絡模塊可嵌入到網(wǎng)絡的任意層中進行空間變換,增強模型的空間不變性[33]。幾何匹配模塊GMM(Geometric Matching Module):經(jīng)典的相似度估計方法,雖然效果不錯但是無法應對場景變換較大及復雜的幾何形變的情況。為應對這兩點不足,Rocco等[34]提出使用CNN(Convolutional Neural Network)提取特征以應對這兩點不足。受其啟發(fā),CPVTON設計了GMM來變形目標服裝,使它與人體大致對齊。該模塊由四個部分組成:1)兩個分別提取人體和目標服裝高級特征的網(wǎng)絡;2)相關層將兩個特征組合成單個張量,作為回歸器網(wǎng)絡的輸入;3)預測空間變換參數(shù)θ的回歸網(wǎng)絡;4)一個TPS變換模塊,用于將服裝變形到輸出。在多姿態(tài)引導的服裝變形中,MGVTON通過服裝圖像的掩碼和身體形狀的掩碼作為輸入進行特征提取。簡單地訓練STN和應用TPS不能確保精確的變換,特別是在處理紋理復雜和顏色豐富的衣服時,容易導致錯位和模糊的結果。然而,盡管這兩種幾何建模技術取得了很大的進展,但它們的自由度有限(例如仿射為6,TPS為2×5×5),這導致當發(fā)生大的幾何變化時,變換估計不準確且不自然。
基于DensePose的方法是以人體的DensePose描述符代替?zhèn)鹘y(tǒng)2D關鍵點作為姿態(tài)引導人物生成網(wǎng)絡的輸入。DensePose可以表征人體的3D幾何信息,這就使得即使空間形變較大,也容易獲得源圖像和目標服裝圖像之間的紋理對應。然而,將2D圖像紋理扭曲到預定義的基于表面的坐標系會進一步引入偽影。例如,可能在源圖像中不可見的位置產(chǎn)生孔洞,這需要通過復雜的紋理修復算法來解決。此外,由于估計DensePose極具挑戰(zhàn)性,最終的生成結果通常會受到DensePose估計結果好壞的影響。因此,與基于形變的方法相比,DensePose的遷移結果看起來真實感較差。為了解決這兩種方法中存在的問題,ClothFlow提出了基于外觀流的方法,該方法可以看作是一種基于變形的方法。然而,與大多數(shù)利用少自由度幾何變換的基于變形的方法相比,ClothFlow估計源圖像至目標圖像的密集流場(例如2×256×256),在捕捉空間變形時具有高靈活性和準確性。
3圖像合成
現(xiàn)有方法通過使用變形策略將目標服裝轉移到人身上合成虛擬試穿人像。VITON使用形狀上下文匹配估計TPS變換參數(shù)直接計算變換映射。CPVTON引入了一種學習方法來估計轉換參數(shù)。CPVTON輸入人體表征和變形后的衣服圖片,輸出一個合成掩碼和粗糙人像圖片。再用合成掩碼引導粗糙人像圖片和變形后的服裝圖片融合在一起生成虛擬試衣圖像。由于像素錯位會導致產(chǎn)生模糊的結果,MGVTON設計了一個深度扭曲生成對抗網(wǎng)絡,將目標服裝外觀扭曲到合成的人體解析圖中,緩解了輸入人體姿態(tài)和目標人體姿態(tài)之間的錯位問題。通過使用仿射和TPS變換從扭曲瓶頸層的特征圖,而不是僅使用仿射直接處理像素。由于用于幾何匹配的卷積神經(jīng)網(wǎng)絡結構的泛化能力,該方法直接使用其預訓練模型來估計參考解析和合成解析之間的轉換映射[34]。然后,通過使用這個變換映射來扭曲移除服裝的用戶圖像,大多數(shù)現(xiàn)有的虛擬試穿應用程序都需要干凈的服裝圖像。相反,M2ETON提出了將用戶圖像的身體部分與改變姿勢的模特的服裝部分結合進行試衣,而不需要任何干凈的服裝圖像。為了獲得擬合過程的感興趣區(qū)域,首先通過使用LIPSSL預處理網(wǎng)絡來生成服裝掩碼,再使用DensePose估計模型來生成上身區(qū)域掩碼,然后將這兩個區(qū)域合并成一個聯(lián)合掩碼。為了提高感興趣區(qū)域的平滑度,把聯(lián)合掩碼作為ground truth來訓練感興趣區(qū)域生成網(wǎng)絡。
然而,大多數(shù)方法[35-38]都依賴于人體分割來實現(xiàn)虛擬試穿的學習過程。訓練試穿模型通常需要高質量的人體解析,因為稍微錯誤的分割會導致非常不現(xiàn)實的試衣圖像,為了減少使用精確的掩碼來指導試穿模型的依賴性,ISSENHUTH等[39-40]提出了第一個無需解析器的網(wǎng)絡WUTON。不足的是,其模型設計中有一個不可避免的弱點,WUTON采用了傳統(tǒng)的知識提取方案,讓無解析器“學生”直接模仿基于解析器的“教師”的試穿能力。然而,基于解析器的“教師”生成的圖像具有大的偽影,因此使用它們作為“教師”知識來監(jiān)督學生模型會產(chǎn)生不令人滿意的結果,因為“學生”的圖像質量受到基于解析器的模型的限制。為了解決上述問題,GE等[41]提出了PFAFN,將偽人物圖像(導師知識)作為無解析器學生模型的輸入,由原始真實人物圖像(教師知識)監(jiān)督,使“學生”模仿原始真實圖像。
4結語
近年來,基于圖像的虛擬試衣得到了廣泛的關注。隨著深度學習的發(fā)展,該技術取得了一定的成果。本文綜述了現(xiàn)有的基于深度學習的2D虛擬試衣技術,從關鍵技術著手對各項虛擬試衣進行了分析和總結,它們各有特點,但還存在一些問題,未來研究可以從以下方面改進。
1) 目標衣服掩碼不正確。當衣服區(qū)域完全可見時,由于11像素對應百分比很高,因此可以找到良好的映射。然而,當衣服被頭發(fā)和手臂遮擋時,對于許多像素不存在11映射,這導致了TPS轉換無法學習忽略遮擋的服裝區(qū)域。除了上述由頭發(fā)和手臂引起的遮擋外,過多的視野和褶皺也會導致服裝不真實變形,可以訓練一種修復服裝模型,通過空氣和手臂填充被遮擋的區(qū)域。
2) 當受試者將手臂放在腹部前時,長袖襯衫就會出現(xiàn)自相交的情況。在這種情況下,TPS變形無法正確處理袖子,可以使用其他圖像變形,例如有界雙諧波變形。但是,問題在于選擇的變形方法需要能夠整合到訓練過程中?,F(xiàn)在,由于雙諧波變形需要對衣服輪廓進行三角剖分,并且對三角剖分可能會因輪廓而異,因此這似乎非常具有挑戰(zhàn)性。另一種方法是將TPS分別應用于每個衣服部件,例如上袖、下袖和軀干。但是,若某種服裝沒有袖子,那么如何將這些知識整合到訓練神經(jīng)網(wǎng)絡中呢?這一問題亟待解決。
參考文獻:
[1]徐雪麗. 基于Android平臺的虛擬試衣關鍵技術研究[D]. 西安: 陜西科技大學, 2014.
XU Xueli. Research on Key Technologies of Virtual Fitting Based on Android Platform[D]. Xian: Shaanxi University of Science and Technology, 2014.
[2]林子琴, 黃弘揚. 虛擬試衣技術在服裝網(wǎng)購平臺中的應用研究[J]. 投資與合作, 2020(5): 146148.
LIN Ziqin, HUANG Hongyang. Research on application of virtual fitting technology in clothing online shopping platform[J]. Investment and Cooperation, 2020(5): 146-148.
[3]SEKINE M, SUGITA K, PERBET F, et al. Virtual fitting by singleshot body shape estimation[C]//International Conference on 3d Body Scanning Technologies. 3DBST, 2014: 406-413.
[4]YANG S, AMBERT T, PAN Z, et al. Detailed garment recovery from a singleview image[DB/OL]. (20160908)[20210715]. https://arxiv.org/abs/1608.01250v4.
[5]BOGO F, KANAZAWA A, LASSER C, et al. Keep it SMPL: automatic estimation of 3D human pose and shape from a single image[DB/OL]. (20160727)[20210715]. https://arxiv.org/abs/1607.08128.
[6]REED S, AKATA Z, YAN X C, et al. Generative adversarial text to image synthesis[DB/OL]. (20160605)[20201228]. http://export.arxiv.org/abs/1605.05396.
[7]LASSNER C, PONSMOLL G, GEHLER P, et al. A generative model of people in clothing[DB/OL]. (20170731)[20201228]. http://arxiv.org/abs/1705.04098.
[8]ISOLA P, ZHU J Y, ZHOU T H, et al. Imagetoimage translation with conditional adversarial networks[DB/OL]. (20161121)[20201228]. http://arxiv.org/abs/1611.07004.
[9]ODENA A, OLAH C, SHLENS J. Conditional image synthesis with auxiliary classifier GANs[DB/OL]. (20170720)[20201228]. http://arxiv.org/abs/1610.09585.
[10]LI M J, HUANG H Z, MA L, et al. Unsupervised imagetoimage translation with stacked cycleconsistent adversarial networks[DB/OL]. (20180728)[20201228]. http://arxiv.org/abs/1807.08536.
[11]CHOI Y, CHOI M, KIM M, et al. StarGAN: unified generative adversarial networks for multidomain imagetoimage translation[DB/OL]. (20180921)[20201228]. http://arxiv.org/pdf/1711.09020.
[12]PERARNAU G, WEIJER J V D, RADUCANU B, et al. Invertible conditional GANs for image editing[DB/OL]. (20161119)[20201228]. http://arxiv.org/pdf/1611.06355.
[13]WANG T C, LIU M Y, ZHU J Y, et al. Highresolution image synthesis and semantic manipulation with conditional GANs[DB/OL]. (20171130)[20201228]. http://arxiv.org/abs/1711.11585.
[14]REGMI K, BORJI A. Crossview image synthesis using conditional GANs[DB/OL]. (20180329)[20201228]. http://arxiv.org/abs/1803.03396.
[15]ZHU S Z, FIDLER S, URTASUN R, et al. Be your own Prada: fashion synthesis with structural coherence[DB/OL]. (20171019)[20210531]. https://arxiv.org/abs/1710.07346.
[16]JETCHEV N, BERGMANN U. The conditional analogy GAN: swapping fashion articles on people images[C]//2017 IEEE International Conference on Computer Vision Workshop(ICCVW). IEEE, 2017: 2287-2292.
[17]HAN X T, WU Z X, WU Z, et al. VITON: an imagebased virtual tryon network[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2018: 7543-7552.
[18]WU Z H, LIN G S, CAI J F. Keypoint based weakly supervised human parsing[J]. Image and Vision Computing, 2019, 91: 110.
[19]CHEN X J, MOTTAGHI R, LIU X B, et al. Detect what you can: detecting and representing objects using holistic models and body parts[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2014: 1979-1986.
[20]GONG K, LIANG X D, ZHANG D Y, et al. Look into person: selfsupervised structuresensitive learning and a new benchmark for human parsing[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). IEEE, 2017: 6757-6765.
[21]LIANG X D, GONG K, SHEN X H, et al. Look into person: joint body parsing & pose estimation network and a new benchmark[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(4): 871-885.
[22]ZHOU T, WANG W, LIU S, et al. Differentiable multigranularity human representation learning for instanceaware human semantic parsing[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). IEEE, 2021: 1622-1631.
[23]WANG B C, ZHENG H B, LIANG X D, et al. Toward characteristicpreserving imagebased virtual tryon network[DB/OL]. (20180912)[20201216]. http://arxiv.org/pdf/1807.07688.
[24]DONG H Y, LIANG X D, SHEN X H, et al. Towards multi pose guided virtual tryon network[C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV). IEEE, 2019: 9025-9034.
[25]HAN X, HUANG W, HU X, et al. ClothFlow: a flowbased model for clothed person generation[C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV). IEEE, 2019: 10470-10479.
[26]HAN X, WU Z, HUANG W, et al. FiNet: compatible and diverse fashion image inpainting[C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV). IEEE, 2019: 4480-4490.
[27]LASSNER C, PONSMOLL G, GEHLER P V. A generative model of people in clothing[C]//IEEE Computer Society. IEEE, 2017: 853-862.
[28]DONG H, LIANG X, KE G, et al. Softgated warpingGAN for poseguided person image synthesis[DB/OL]. (20190111)[20200715]. https://arxiv.org/abs/1810.11610.
[29]ZHE C, SIMON T, WEI S E, et al. Realtime multiperson 2D pose estimation using part affinity fields[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). IEEE, 2017: 1302-1310.
[30]WU Z, LIN G, TAO Q, et al. M2Etry on net: fashion from model to everyone[DB/OL]. (20190111)[20200715]. https://arxiv.org/abs/1810.11610.
[31]GLER, RZA Alp, NEVEROVA N, et al. Dense pose: dense human pose estimation in the wild[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2018: 7297-7306.
[32]FESIANXU. Thin plate spline[EB/OL]. (20200909)[20210125]. https://blog.csdn.net/LoseInVain/article/details/108483736.
[33]JADERBERG M, SIMONYAN K, ZISSERMAN A, et al. Spatial transformer networks[DB/OL]. (20160204)[20210125]. https://arxiv.org/pdf/1506.02025. pdf.
[34]IGNACIO R, RELJA A, JOSEF S. Convolutional neural network architecture for geometric matching[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(11): 2553-2567.
[35]LEE H J, LEE R, KANG M, et al. LAVITON: a network for lookingattractive virtual tryon[C]//2019 IEEE/CVF International Conference on Computer Vision Workshop(ICCVW). IEEE, 2019: 3129-3132.
[36]JANDIAL S, CHOPRA A, AYUSH K, et al. SieveNet: a unified framework for robust imagebased virtual tryon[C]//2020 IEEE Winter Conference on Applications of Computer Vision(WACV). IEEE, 2020: 2171-2179.
[37]YU R Y, WANG X Q, XIE X H. VTNFP: an imagebased virtual tryon network with body and clothing feature preservation[C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV). IEEE, 2019: 10510-10519.
[38]YANG H, ZHANG R M, GUO X B, et al. Towards photorealistic virtual tryon by adaptively generating preserving image content[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). IEEE, 2020: 7847-7856.
[39]ISSENHUTH T, MARY J, CALAUZNES C. Do not mask what you do not need to mask: a parserfree virtual tryon[DB/OL]. (20190111)[20200715]. https://arxiv.org/abs/2007.02721.
[40]ISSENHUTH T, MARY J, CALAUZNES C. Endtoend learning of geometric deformations of feature maps for virtual tryon[DB/OL]. (20200729)[20210715]. https://arxiv.org/abs/1906.01347v2.
[41]GE Y, SONG Y, ZHANG R, et al. Parserfree virtual tryon via distilling appearance flows[DB/OL]. (20210309)[20210715]. https://arxiv.org/abs/2103.04559.