• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    融合CoT Block的人物圖像生成算法

    2023-06-25 07:42:18姚星月
    現(xiàn)代信息科技 2023年7期

    摘? 要:目前,學(xué)者們對(duì)人物圖像生成技術(shù)的研究主要集中在對(duì)人物姿勢(shì)的編輯方面,忽略了身體的外觀特征,導(dǎo)致所生成人物圖像的質(zhì)量不夠理想。鑒于此,提出一種融合CoT Block的人物圖像生成方法,即在已有PG2模型的基礎(chǔ)上,將改進(jìn)后的CoT Block引入到生成對(duì)抗網(wǎng)絡(luò)中,通過對(duì)上下文語義信息的挖掘以及結(jié)合自注意力學(xué)習(xí)機(jī)制,更好地捕獲人體姿態(tài)特征;然后利用PGGAN中的鑒別器進(jìn)一步增強(qiáng)對(duì)圖像真?zhèn)蔚蔫b別能力。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的算法有效提高了人物圖像的生成質(zhì)量。

    關(guān)鍵詞:圖像生成;生成網(wǎng)絡(luò);CoT Block;PGGAN

    中圖分類號(hào):TP391? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? 文章編號(hào):2096-4706(2023)07-0090-04

    Abstract: At present, scholars' research on the generation technology of character image mainly focuses on the editing of character posture, ignoring the appearance characteristics of the body, resulting in the quality of the generated character image is not ideal. In view of this, a character image generation method fused with CoT Block is proposed, that is, based on the existing PG2 model, the improved CoT Block is introduced into the generative adversarial network, and the human posture features are better captured through the mining of context semantic information and the combination of self-attention learning mechanism; Then the discriminator in PGGAN is used to further enhance the ability to identify the authenticity of the image. Experimental results show that the improved algorithm can effectively improve the generation quality of character image.

    Keywords: image generation; generative network; CoT Block; PGGAN

    0? 引? 言

    人物圖像生成的目的是在保留源圖像外觀細(xì)節(jié)的同時(shí),傳輸具有任意姿勢(shì)的人物圖像。這項(xiàng)任務(wù)現(xiàn)如今已成為計(jì)算機(jī)視覺中的一個(gè)新興熱門話題。它在許多任務(wù)中都有巨大的潛在應(yīng)用,如視頻生成、虛擬服裝試衣、個(gè)人相關(guān)視覺人物的數(shù)據(jù)增強(qiáng)等。

    深度學(xué)習(xí)在人物姿勢(shì)轉(zhuǎn)換方面取得了顯著成果,其中生成對(duì)抗網(wǎng)絡(luò)[1]是比較常用的方法。早期研究直接采用全局預(yù)測(cè)策略并通過U-Net結(jié)構(gòu)傳播低級(jí)特征,然而基于U-Net結(jié)構(gòu)的全局方法往往無法解決源姿勢(shì)與目標(biāo)姿勢(shì)之間的空間錯(cuò)位問題,這導(dǎo)致生成的圖像存在各方面的細(xì)節(jié)缺陷。文獻(xiàn)[2]提出兩階段姿勢(shì)引導(dǎo)圖像合成的方法(PG2),能夠達(dá)到任意姿勢(shì)的轉(zhuǎn)換效果,并且首次提出了掩碼損失,但是在生成圖像的細(xì)節(jié)處理方面還存在不足。文獻(xiàn)[3]將變分自動(dòng)編碼器(VAE)和U-Net相結(jié)合對(duì)人體姿態(tài)展開研究,通過跳躍連接和最近鄰損失來優(yōu)化GAN模型,但是U-Net中的跳躍連接容易引起空間位置上的特征錯(cuò)位,從而影響生成圖像結(jié)果。文獻(xiàn)[4]為了解決U-Net中跳躍連接所產(chǎn)生的特征錯(cuò)位現(xiàn)象,將其改為變形的跳躍連接,但可變形的跳躍連接需要提前進(jìn)行預(yù)處理工作,在許多方面存在一定的局限性。文獻(xiàn)[5]使用姿勢(shì)注意力轉(zhuǎn)換模塊,將源姿勢(shì)和目標(biāo)姿勢(shì)進(jìn)行深度連接,然后再經(jīng)過一系列級(jí)聯(lián)更新操作,使網(wǎng)絡(luò)能夠關(guān)注這些姿態(tài)特征,之后在無監(jiān)督的情況下生成帶有姿態(tài)特征的人物圖像。但是該方法僅僅關(guān)注了人體姿態(tài),忽略了人物的外觀、衣服的紋理細(xì)節(jié)等方面。文獻(xiàn)[6]為了提供對(duì)各個(gè)區(qū)域中樣式的詳細(xì)控制,提出聯(lián)合全局和局部的區(qū)域編碼,空間感知規(guī)范化,達(dá)到解耦樣式和形狀,以及保留空間上下文信息,并且使用門控卷積,將源解析圖重組,動(dòng)態(tài)選擇學(xué)習(xí)每個(gè)空間位置。但是所提出的門控卷積生成的目標(biāo)解析圖效果往往不穩(wěn)定,這就會(huì)影響最終生成的圖像質(zhì)量。雖然上述的方法在一定情況下都取得了不錯(cuò)的效果,但在生成圖像屬性,包括紋理和風(fēng)格方面仍然存在一系列的困難。

    基于以上的討論,在已有的兩階段姿勢(shì)引導(dǎo)圖像合成方法PG2模型上提出了一種融合上下文轉(zhuǎn)換模塊(CoT Block)[7]的人物圖像生成算法。通過在Market-1501數(shù)據(jù)集和DeepFashion數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證,并與之前存在的方法相比較,進(jìn)一步驗(yàn)證了提出的方法在圖像生成方面有較高的魯棒性和較低的耦合性。

    1? 模型分析

    模型在已有的兩階段姿勢(shì)引導(dǎo)圖像合成方法PG2的基礎(chǔ)上,將改進(jìn)后的CoT模塊引入生成對(duì)抗網(wǎng)絡(luò)中,提出了一種融合CoT Block的人物圖像生成算法。

    1.1? 兩階段姿勢(shì)引導(dǎo)圖像生成模型

    PG2模型首次提出了兩階段姿勢(shì)引導(dǎo)圖像合成方法來解決姿勢(shì)轉(zhuǎn)移問題。在第一階段,利用變體U-Net生成一幅學(xué)習(xí)了目標(biāo)姿勢(shì)的粗糙人物圖像,該圖像僅含有少量紋理細(xì)節(jié)特征,然后在第二階段通過生成網(wǎng)絡(luò)PG2對(duì)源圖像和上一步生成的粗糙人物圖像進(jìn)行融合細(xì)化,生成了帶有紋理細(xì)節(jié)特征的目標(biāo)圖像,最后在鑒別網(wǎng)絡(luò)D的作用下對(duì)生成圖像的真假進(jìn)行判斷。PG2具體結(jié)構(gòu)如圖1所示。

    1.2? 改進(jìn)的上下文轉(zhuǎn)換模塊

    傳統(tǒng)的自注意力僅在空域進(jìn)行信息交互,依賴于輸入自身,忽視了近鄰間豐富的上下文語義信息,嚴(yán)重限制了二維特征圖的自注意力學(xué)習(xí)能力。并且由于圖像中相鄰像素之間具有很強(qiáng)的關(guān)聯(lián)性,引入自注意力訓(xùn)練圖像時(shí),可能會(huì)造成圖像輸入信息冗余,影響生成圖像的質(zhì)量。為緩解該問題,在生成網(wǎng)絡(luò)G2中引入改進(jìn)后的CoT模塊來降低相鄰像素之間的冗余,如圖2所示,進(jìn)一步提升輸出特征的表達(dá)能力,為了獲取圖像中相鄰像素之間的強(qiáng)關(guān)聯(lián)性,降低其輸入冗余造成的影響,對(duì)特征圖進(jìn)行白化操作,得到圖像的靜態(tài)上下文信息,對(duì)捕捉到的圖像進(jìn)行白化計(jì)算為:

    其中,f (xi)為i像素的特征值,μf為普遍像素特征的平均數(shù),g(xj)為j像素的特征值,μg為全局像素特征的平均數(shù),σ為像素的協(xié)方差矩陣歸一化,αj,i為像素i、j之間的成對(duì)關(guān)系。

    為保證生成圖像具有更多的紋理細(xì)節(jié)特征,對(duì)其增加一個(gè)像素顯著性操作,并與其他分支的特征圖進(jìn)行跨維度特征融合,得到圖像的動(dòng)態(tài)上下文信息。該相似度計(jì)算為:

    其中? 是非剛性的注意力計(jì)算公式解耦后αj,i后余下的單項(xiàng),以Wg xj計(jì)算g(xj)得到像素j的特征值,采用獨(dú)立線性變換Wm替代Wg,將? 近似于mj,代表新提取的像素j的顯著特征信息。

    將經(jīng)過白化操作得到的靜態(tài)上下文語義信息與上述生成的動(dòng)態(tài)上下文語義信息進(jìn)行相加融合,得到一個(gè)新的CoT模塊。

    1.3? 引入上下文轉(zhuǎn)換模塊的生成對(duì)抗網(wǎng)絡(luò)

    1.3.1? 生成網(wǎng)絡(luò)G2

    G1生成的圖像中包含了目標(biāo)圖像的大量姿態(tài)信息,但在人物姿態(tài)方面的特征信息學(xué)習(xí)不足,因此要進(jìn)一步加強(qiáng)對(duì)源圖像的細(xì)節(jié)特征提取。與PG2方法相比,第二階段的生成網(wǎng)絡(luò)仍采取U-Net結(jié)構(gòu),但是將網(wǎng)絡(luò)中3×3的卷積替換成1.2中改進(jìn)的CoT Block,可以降低模型復(fù)雜度,減少計(jì)算量。為了將源圖像的更多紋理細(xì)節(jié)特征保留下來,去掉U-Net的全連接層,在上下采樣層之間通過跳躍連接的空間位置增加感受野。具體結(jié)構(gòu)如圖3所示。

    1.3.2? 鑒別網(wǎng)絡(luò)D

    為更好地增強(qiáng)生成圖像的外觀、紋理等細(xì)節(jié)特征,鑒別器結(jié)構(gòu)采取了PGGAN設(shè)計(jì),加快訓(xùn)練網(wǎng)絡(luò)的收斂性,確保模型的穩(wěn)定性。PGGAN鑒別器是將傳統(tǒng)鑒別器和PatchGAN鑒別器相結(jié)合,一個(gè)分支用于判斷生成圖像是真圖還是假圖,另一個(gè)用來確定圖像局部紋理特征的相似度,這樣就可以讓鑒別器在區(qū)分生成圖像和真實(shí)圖像的同時(shí)更加關(guān)注圖像的全局和局部特征信息。

    1.4? 損失函數(shù)

    為了比較生成圖像y*和目標(biāo)圖像y,采用L1距離作為第一階段G1的生成損失。L1原始的圖像重建損失為:

    為了降低條件圖像背景不同造成的損失,在L1損失中添加了姿勢(shì)掩碼My,所以生成器G1階段的損失函數(shù)為:

    其中,G2(x, y1)為第二階段生成的圖像,D(x, y)為源圖像和目標(biāo)圖像經(jīng)過真假判斷的結(jié)果,D(x,G2(x, y1)為源圖像和生成器G2生成的圖像經(jīng)過真假判斷的結(jié)果,Lbce為二元交叉熵?fù)p失。

    其中是損失的權(quán)重,它控制生成在低頻下與目標(biāo)圖像的相似程度。

    2? 實(shí)驗(yàn)分析

    實(shí)驗(yàn)?zāi)P涂蚣懿捎肞yTorch編寫,GPU為NVIDIA Quadro P4800。實(shí)驗(yàn)在DeepFashion和Market-1501數(shù)據(jù)集上均采用了Adam優(yōu)化器,設(shè)置β1為0.5,β2為0.999,初始學(xué)習(xí)率均為2exp(-5)。

    2.1? 數(shù)據(jù)集

    實(shí)驗(yàn)在DeepFashion數(shù)據(jù)集和Market-1501數(shù)據(jù)集上進(jìn)行驗(yàn)證。DeepFashion包含52 712張分辨率為256×256的高清圖片,其中含有大量帶有各種姿勢(shì)和外觀的服裝圖像特征;Market-1501數(shù)據(jù)集包含32 668張分辨率為128×64的圖像,其中有豐富的背景、姿勢(shì)、視角和照明的變化。實(shí)驗(yàn)在預(yù)訓(xùn)練中使用人體姿態(tài)估計(jì)器來獲取每張圖像的人體關(guān)鍵點(diǎn)數(shù)據(jù),并且為了更好地表征網(wǎng)絡(luò)通用化能力,對(duì)訓(xùn)練集和測(cè)試集進(jìn)行了身份識(shí)別不重疊。

    2.2? 評(píng)價(jià)指標(biāo)

    實(shí)驗(yàn)采用Inception Score(IS)和Structural Similarity(SSIM)對(duì)生成圖像的性能和生成圖像的質(zhì)量進(jìn)行評(píng)估。值得注意的是,在Market-1501數(shù)據(jù)集中,由于源圖像和生成圖像的背景可能存在差異,所以采用另一組mask-SSIM和mask-IS掩碼評(píng)價(jià)指標(biāo)來減少M(fèi)arket-1501數(shù)據(jù)集對(duì)背景的影響,掩碼評(píng)價(jià)指標(biāo)是在計(jì)算SSIM和IS之前,將姿勢(shì)掩碼添加到源圖像和目標(biāo)圖像中,進(jìn)一步對(duì)生成圖像的質(zhì)量進(jìn)行評(píng)估。

    2.3? 消融實(shí)驗(yàn)

    為了驗(yàn)證提出模型的有效性,分別使用基礎(chǔ)模型(baseline:PG2)、改進(jìn)鑒別器模型(baseline+D)、融入CoT Block的完整模型(all)在Market-1501數(shù)據(jù)集和DeepFashion數(shù)據(jù)集上進(jìn)行定性和定量測(cè)試。定性測(cè)試結(jié)果如圖4所示,定量測(cè)試結(jié)果如表1所示。

    從圖4可以看出,雖然基礎(chǔ)模型生成了較完整的圖像,但是在圖像的清晰度和細(xì)節(jié)特征方面存在很多不足,而在改進(jìn)判別器的模型中,生成的圖像明顯比基礎(chǔ)模型的輪廓更清晰,但是在外觀、衣服紋理方面仍然不完整,而引入改進(jìn)CoT Block的完整模型,生成了較為真實(shí)的服裝結(jié)構(gòu),在局部和全局特征都表現(xiàn)出較好的效果,證明了改進(jìn)后模型的可行性。

    從表1中可以看出,改進(jìn)鑒別器D和融入CoT模塊的完整模型在性能上都有了明顯提升,各項(xiàng)評(píng)價(jià)指標(biāo)均優(yōu)于基礎(chǔ)模型PG2,從另一角度證明了改進(jìn)模型在圖像生成方面的魯棒性。DeepFashion數(shù)據(jù)集上圖像的SSIM和IS取得了最好的結(jié)果,證明了(all)模型在圖像生成方面更優(yōu)越,而Market-1501數(shù)據(jù)集上圖像的SSIM和mask-SSIM的值較PG2模型分別有了0.043和0.095的提升,雖然在IS和mask-IS上卻沒有取得最佳效果,但相比較基礎(chǔ)模型PG2也有了0.018和0.002的提升。

    3? 結(jié)? 論

    在兩階段姿勢(shì)引導(dǎo)人物圖像合成PG2的基礎(chǔ)上,提出了一種融合CoT Block的人物圖像生成算法。在生成網(wǎng)絡(luò)G2中引入改進(jìn)后的CoT模塊,通過把上下文信息挖掘與自注意力學(xué)習(xí)集成到統(tǒng)一架構(gòu)中,使得近鄰間的上下文信息以一種高效方式提升自注意力學(xué)習(xí),最終提升輸出特征的表達(dá)能力;同時(shí),在判別網(wǎng)絡(luò)中使用PGGAN判別器,使得圖像真假判斷的準(zhǔn)確性得到提升。在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)表明,該模型較PG2方法在定性和定量結(jié)果上都有了明顯的提升。

    參考文獻(xiàn):

    [1] GOODFELLOW I J,POUGET-ABADIE J,MIRZA M,et al. Generative Adversarial Nets [EB/OL].[2022-10-29].https://arxiv.org/pdf/1406.2661v1.pdf.

    [2] MA L Q,JIA X,SUN Q R,et al. Pose guided person image generation [J/OL].arXiv:1705.09368 [cs.CV].[2022-10-29].https://arxiv.org/abs/1705.09368v3.

    [3] ESSER P,SUTTER E. A Variational U-Net for Conditional Appearance and Shape Generation [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:8857-8866.

    [4] SIAROHIN A,SANGINETO E,LATHUILIERE S,et al. Deformable GANs for Pose- Based Human Image Generation [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:3408-3416.

    [5] ZHU Z,HUANG T T,SHI B G,et al. Progressive pose attention transfer for person image generation [C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach:IEEE,2019:2342-2351.

    [6] ZHANG J S,LI K,LAI Y K,et al. PISE: Person Image Synthesis and Editing with Decoupled GAN [C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Nashville:IEEE,2021:7978-7986.

    [7] LI Y H,YAO T,PAN Y W,et al. Contextual Transformer Networks for Visual Recognition [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2023,45(2):1489-1500.

    作者簡(jiǎn)介:姚星月(1998—),女,漢族,安徽蚌埠人,碩士在讀,研究方向:圖像處理。

    正定县| 长乐市| 三河市| 酒泉市| 安陆市| 汕头市| 惠来县| 刚察县| 师宗县| 尉氏县| 黄平县| 天水市| 安国市| 汝城县| 台江县| 萝北县| 昭平县| 柏乡县| 六枝特区| 永丰县| 商都县| 海盐县| 读书| 丰原市| 遂溪县| 临泽县| 偏关县| 邢台县| 宣武区| 布尔津县| 南皮县| 林芝县| 石家庄市| 桓仁| 普兰县| 苏尼特右旗| 绥中县| 湘乡市| 宝兴县| 炎陵县| 九龙城区|