• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度學(xué)習(xí)的文本到圖像生成方法綜述

      2022-05-19 13:25:54王宇昊
      關(guān)鍵詞:語(yǔ)義評(píng)估文本

      王宇昊,何 彧,王 鑄

      1.貴州天衍炬恒科技有限公司,貴陽(yáng) 550081 2.北京大學(xué) 地球與空間科學(xué)學(xué)院,北京 100871 3.貴州師范大學(xué) 地理與環(huán)境科學(xué)學(xué)院,貴陽(yáng) 550025

      目標(biāo)視覺(jué)信息的傳統(tǒng)描述方法是根據(jù)目標(biāo)屬性進(jìn)行表達(dá),目標(biāo)特征的區(qū)別需要從對(duì)象類(lèi)型編碼到向量表達(dá)實(shí)現(xiàn)[1-2],2014年具有代表性的方法被提出,包括零樣本識(shí)別方法[3]和有條件圖像生成方法[4]。這類(lèi)方法的特點(diǎn)是具有較強(qiáng)的屬性表達(dá)辨別力和泛化力,但需要特定領(lǐng)域的知識(shí)信息表達(dá)支撐,從而導(dǎo)致屬性獲取過(guò)程較為復(fù)雜。相比之下,自然語(yǔ)言提供了較為通用、靈活、直觀的方式來(lái)描述時(shí)空視覺(jué)對(duì)象,文本生成圖像方法主要采用自然語(yǔ)言與圖像集特征的映射方式,根據(jù)自然語(yǔ)言描述生成對(duì)應(yīng)并具有足夠視覺(jué)細(xì)節(jié)的圖像,且在語(yǔ)義上與文本的描述保持一致,利用語(yǔ)言屬性智能化實(shí)現(xiàn)視覺(jué)圖像的通用性表達(dá)。

      近些年,隨著深度學(xué)習(xí)理論技術(shù)的蓬勃發(fā)展,計(jì)算機(jī)視覺(jué)和圖像自動(dòng)化處理技術(shù)的研究已獲得顯著的創(chuàng)新和應(yīng)用的突破。2014年,由Goodfellow等人[5]首次提出生成式對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN),作為一種深度學(xué)習(xí)模型,是近年來(lái)復(fù)雜分布上無(wú)監(jiān)督學(xué)習(xí)最具前景的方法之一。2017年后,基于生成對(duì)抗網(wǎng)絡(luò)的深度機(jī)器學(xué)習(xí)方法,已經(jīng)被廣泛地使用在文本描述到圖像生成的技術(shù)中,并形成目標(biāo)屬性描述的高度區(qū)分和可泛化特點(diǎn)[6]。通過(guò)使用文本描述生成一個(gè)直觀的可視化圖像,可以引用與當(dāng)前對(duì)象、屬性信息、空間位置和關(guān)聯(lián)關(guān)系等密集語(yǔ)義信息,為支持復(fù)雜多樣的場(chǎng)景實(shí)現(xiàn)奠定良好基礎(chǔ),例如文本建模[7-8]、智能人機(jī)交互[9]、視覺(jué)障礙者協(xié)助、智能問(wèn)答[10-11]、機(jī)器翻譯[12-13]等方面。

      在該綜述中,將深入到圖像合成中的定向研究領(lǐng)域,聚焦到機(jī)器學(xué)習(xí)技術(shù)在文本到圖像生成(text-to-image,T2I)技術(shù)中的應(yīng)用。主要目的是描述基于深度學(xué)習(xí)技術(shù)的文本到圖像生成的基本原理方法,從文本生成圖像方法的主流技術(shù)開(kāi)展分析討論,主要包括直接方法、分層體系結(jié)構(gòu)法、注意力機(jī)制法、周期一致法、自適應(yīng)非條件模型法和附加監(jiān)督法。同時(shí),總結(jié)歸納圖像生成的各項(xiàng)質(zhì)量評(píng)估指標(biāo),并綜合討論圖像生成方法和評(píng)估方法的特點(diǎn)、優(yōu)勢(shì)及局限性。最后討論該研究領(lǐng)域面臨的挑戰(zhàn)和未來(lái)的發(fā)展方向,為該領(lǐng)域的基礎(chǔ)研究和場(chǎng)景應(yīng)用提供輔助參考。

      本文的主要貢獻(xiàn)如下:

      (1)綜述了關(guān)于深度學(xué)習(xí)文本到圖像生成研究的最新進(jìn)展,包含許多已有綜述中沒(méi)有出現(xiàn)的最新的重要參考文獻(xiàn),該綜述有利于研究者快速熟悉和掌握文本到圖像生成領(lǐng)域。

      (2)對(duì)深度學(xué)習(xí)文本到圖像生成方法分類(lèi)總結(jié),介紹各類(lèi)型具有代表性的方法,并討論這些方法的構(gòu)建思路、模型特點(diǎn)、優(yōu)勢(shì)及局限性,有助于該領(lǐng)域研究者更好理解文本到圖像生成領(lǐng)域的相關(guān)技術(shù)。

      (3)對(duì)生成圖像的質(zhì)量評(píng)估指標(biāo)進(jìn)行總結(jié)歸納,分析各類(lèi)評(píng)估方法的技術(shù)原理及特點(diǎn),討論未來(lái)的發(fā)展方向。

      (4)對(duì)文本到圖像生成領(lǐng)域面臨的各項(xiàng)機(jī)遇和挑戰(zhàn)總結(jié)討論,并論述在模型方法、評(píng)價(jià)指標(biāo)、技術(shù)改進(jìn)及方法拓展等方面的挑戰(zhàn)和未來(lái)的發(fā)展方向,有助于啟發(fā)并開(kāi)展更有價(jià)值的研究工作。

      1 生成式對(duì)抗網(wǎng)絡(luò)

      掌握生成式對(duì)抗網(wǎng)絡(luò)(GAN)運(yùn)行機(jī)制是實(shí)現(xiàn)基于深度學(xué)習(xí)的文本到生成圖像技術(shù)的基礎(chǔ),GAN是在卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上拓展的一種深度學(xué)習(xí)模型,也是近年來(lái)復(fù)雜分布上無(wú)監(jiān)督學(xué)習(xí)最具前景的方法之一。作為全新的非監(jiān)督式架構(gòu)模型,框架通過(guò)主要的兩個(gè)模塊,即生成模型(generative model,GM)和判別模型(discriminative model,DM)的互相博弈學(xué)習(xí)過(guò)程中達(dá)到納什平衡,最終實(shí)現(xiàn)逼近真實(shí)的最佳輸出結(jié)果。生成模型是根據(jù)目標(biāo)預(yù)測(cè)的隱含信息,隨機(jī)產(chǎn)生觀測(cè)數(shù)據(jù);判別模型需要輸入相關(guān)變量,通過(guò)特定應(yīng)用模型實(shí)施目標(biāo)預(yù)測(cè)。圖1描述了GAN網(wǎng)絡(luò)的主要結(jié)構(gòu)。

      圖1 生成對(duì)抗網(wǎng)絡(luò)(GAN)結(jié)構(gòu)圖Fig.1 Structure diagram of GAN

      在原始GAN中,無(wú)法控制要生成的內(nèi)容,因?yàn)檩敵鰞H依賴(lài)于隨機(jī)噪聲??梢詫l件輸入c添加到隨機(jī)噪聲z中,將生成圖像由G(c,z)定義,稱(chēng)為條件GAN(conditional generative adversarial networks,CGAN)[14],通常條件輸入矢量c與噪聲矢量z直接連接,并且將得到的矢量原樣本作為發(fā)生器的輸入,與原始GAN一樣。條件包括圖像類(lèi)、對(duì)象屬性以及嵌入圖像的文本描述或圖片。與其他的生成模型開(kāi)展比較,例如PixelRNN(pixel recurrent neural network)[15]、AVB(auto-encoding variational Bayes)[16]、GSNs(generative stochastic networks)[17]、BM(Boltzmann machines)[18]等,GAN的優(yōu)勢(shì)在于:(1)應(yīng)用方向傳播,替代傳統(tǒng)的馬爾科夫鏈預(yù)測(cè);(2)模型訓(xùn)練采用權(quán)值糾正,不用做隱變量推斷;(3)模型支持偏微分運(yùn)算,構(gòu)建生成網(wǎng)絡(luò)G和判別網(wǎng)絡(luò)D與神經(jīng)網(wǎng)絡(luò)相結(jié)合做深度生成模型;(4)模型參數(shù)更新通過(guò)判別網(wǎng)絡(luò)反向傳播實(shí)現(xiàn),代替?zhèn)鹘y(tǒng)的樣本數(shù)據(jù)糾正方式。

      2 文本到圖像生成方法

      文本到圖像生成方法旨在通過(guò)機(jī)器學(xué)習(xí)或深度學(xué)習(xí)的方法,根據(jù)文本描述的信息自動(dòng)生成滿足用戶(hù)所需的虛擬圖像。這類(lèi)算法在簡(jiǎn)單的語(yǔ)義結(jié)構(gòu)下能夠表現(xiàn)較好的成果,但當(dāng)文本描述的目標(biāo)信息或場(chǎng)景相對(duì)復(fù)雜時(shí),圖像生成的過(guò)程將受到不同程度的影響,最終導(dǎo)致圖像結(jié)果不理想,包括分辨率低、目標(biāo)錯(cuò)誤、邊界混淆、布局錯(cuò)亂等情況。這使得文本到圖像生成技術(shù)成為具有挑戰(zhàn)性的研究課題,同時(shí)具備較高的研究?jī)r(jià)值。因此研究者們?yōu)橥黄圃械姆椒ň窒?,從不同?chǎng)景、適應(yīng)條件、模型結(jié)構(gòu)、處理算法等方面開(kāi)展創(chuàng)新研究。目前將具有代表性的基于深度學(xué)習(xí)的文本到圖像生成方法總結(jié)歸納如圖2所示。

      圖2 文本到圖像生成方法歸納Fig.2 Method induction of text-to-image generation

      2.1 直接圖像法

      早期圖像生成方法主要以變分自編碼器(variational autoencoders,VAEs)[16]為主,考慮概率統(tǒng)計(jì)分布,是基于最大化數(shù)據(jù)的最小可能性實(shí)現(xiàn)圖像生成的方法。直接圖像法都遵循在模型中使用一個(gè)生成器和一個(gè)判別器的原理,并且其結(jié)構(gòu)是直接的構(gòu)成,沒(méi)有分支結(jié)果組成,許多最早的GAN模型屬于這類(lèi)型。

      生成式對(duì)抗網(wǎng)絡(luò)可以擴(kuò)展為條件模型,成為條件生成對(duì)抗網(wǎng)絡(luò)(CGAN)[14],即生成器和鑒別器將以一些額外信息為條件,y可以作為任何一種輔助信息,如類(lèi)別標(biāo)簽或其他模式數(shù)據(jù)??梢酝ㄟ^(guò)將y作為額外的輸入層同時(shí)輸入鑒別器和生成器執(zhí)行調(diào)節(jié)。在生成器中,先驗(yàn)輸入噪聲p z(z)和y能夠在隱藏表示中組合,并且對(duì)抗訓(xùn)練框架對(duì)隱藏組合的表達(dá)具有較高靈活性。在鑒別器中,x和y分別作為輸入和鑒別函數(shù),目標(biāo)函數(shù)表達(dá)如下:

      為了提供更多的輔助信息并允許半監(jiān)督學(xué)習(xí),可以向判別器添加額外的輔助分類(lèi)器,以便在原始任務(wù)以及附加任務(wù)上優(yōu)化模型。添加輔助分類(lèi)器允許使用預(yù)先訓(xùn)練的模型,并且在ACGAN(auxiliary classifier GANs)[19]中的實(shí)驗(yàn)證明,這種方法可以幫助生成更清晰的圖像以及減輕模式崩潰問(wèn)題,輔助分類(lèi)器能夠應(yīng)用在文本到圖像合成技術(shù)中。采用跨模態(tài)方式實(shí)現(xiàn)信息域轉(zhuǎn)換,以StackGAN(stacked generative adversarial networks)為基礎(chǔ)增加條件自編碼模塊[20],共用生成器實(shí)現(xiàn)特征增強(qiáng),緩解直接圖像法易出現(xiàn)的模式崩塌情況。

      為解決圖像生成細(xì)粒度的屬性識(shí)別問(wèn)題,Reed等人[6]提出文本生成圖像方法,圖像生成將來(lái)自整個(gè)句子預(yù)先訓(xùn)練的編碼器所嵌入的內(nèi)容,實(shí)現(xiàn)端到端與屬性細(xì)粒度和類(lèi)別特定的圖像相結(jié)合,應(yīng)用的模型是對(duì)CGAN的改進(jìn),用文本內(nèi)嵌的φ代替類(lèi)標(biāo)簽y。在GAN-INTCLS[21]方法中,構(gòu)建匹配感知鑒別器如圖3所示,將三種不同的圖像對(duì)作為鑒別器的輸入。該方法不僅讓生成器和鑒別器關(guān)注真實(shí)的圖像,而且將其與輸入文本匹配鑒別。對(duì)比之前采用的GAN方法,其首次提出利用GAN來(lái)實(shí)現(xiàn)句子描述合成圖像,替代了利用類(lèi)標(biāo)簽作為條件合成圖像的方式,并且通過(guò)簡(jiǎn)單的插值方法來(lái)生成大量新文本描述數(shù)據(jù),解決由于文本數(shù)量較少所限制合成效果的問(wèn)題。

      圖3 GAN-INT-CLS模型結(jié)構(gòu)圖Fig.3 Architecture diagram of GAN-INT-CLS

      Dash等人提出了分類(lèi)器生成對(duì)抗網(wǎng)絡(luò)(text conditioned auxiliary classifier GAN,TAC-GAN)[22],該網(wǎng)絡(luò)建立在ACGAN基礎(chǔ)上,通過(guò)將生成的圖像設(shè)置在文本描述上代替類(lèi)標(biāo)簽。該模型在生成網(wǎng)絡(luò)中輸入的向量為噪聲向量和包含文本描述的嵌入式表達(dá)向量,鑒別器在ACGAN的基礎(chǔ)上將分類(lèi)前接收的文本信息作為模型輸入,使用Skip-Thought向量從圖像標(biāo)題中生成文本嵌入,并結(jié)合該模型的特點(diǎn)引入額外的輔助分類(lèi)損失函數(shù),達(dá)到與ACGAN模型相似的風(fēng)格效果,即生成圖像具有可鑒別性和多樣性特征,通過(guò)文本描述之間插入,可以相同的風(fēng)格合成內(nèi)容不同的圖像。

      綜上所述,直接圖像法引入了條件模型,提供了更多的輔助信息,支持半監(jiān)督學(xué)習(xí),并不斷改進(jìn)圖像生成細(xì)粒度的相關(guān)問(wèn)題。該類(lèi)方法的另一個(gè)特點(diǎn)是引入額外信息作為向量,通常包括噪聲信息、文本補(bǔ)充信息、輔助分類(lèi)信息等內(nèi)容。但該方法缺點(diǎn)是依賴(lài)監(jiān)督輔助條件的選擇,依賴(lài)條件與應(yīng)用場(chǎng)景的符合程度將決定圖像生成的質(zhì)量及布局等信息表達(dá)。此外,該模型主要學(xué)習(xí)數(shù)據(jù)分布模式,存在易于崩潰的缺陷,例如生成器對(duì)相似但不同的描述會(huì)生成相同的圖像。另一個(gè)挑戰(zhàn)是模型將重點(diǎn)關(guān)注全局句子向量,有用的細(xì)粒度圖像特征和單詞級(jí)文本信息將容易被忽視。

      2.2 分層體系結(jié)構(gòu)法

      分層體系結(jié)構(gòu)法與直接法相反,算法在其模型中分別由兩個(gè)生成器和兩個(gè)鑒別器構(gòu)成,不同的生成器具有不同的功能。核心思想是將圖像分成“樣式和結(jié)構(gòu)”和“前景和背景”兩部分,兩個(gè)生成器之間的關(guān)系支持并聯(lián)或串聯(lián),目的是相互結(jié)合逐步生成精細(xì)圖像,能夠更好地識(shí)別異構(gòu)上下文的模式。

      考慮到簡(jiǎn)單地增加更多的采樣層來(lái)提高分辨率,會(huì)導(dǎo)致模型不穩(wěn)定或者生成真實(shí)度低的圖片,其主要問(wèn)題在于生成器的生成圖像分布和真實(shí)圖片的分布沒(méi)有交叉重疊提取特征。Zhang等人[23]提出了StackGAN方法,StackGAN文本特征處理架構(gòu)如圖4所示。該模型對(duì)CGAN進(jìn)行改進(jìn),主要解決CGAN不能生成高清圖的問(wèn)題。該方法提出構(gòu)建兩個(gè)GAN的結(jié)構(gòu),分別解決目標(biāo)物體的形狀和顏色以及分辨率增強(qiáng)問(wèn)題。該方法采用條件增強(qiáng)技術(shù),即從獨(dú)立的高斯分布N(μ(Φt)Σ(Φt))中隨機(jī)采樣得到隱含變量并放入生成器,通過(guò)產(chǎn)生更多的條件變量提高生成圖片的多樣性和模型穩(wěn)定性。

      圖4 StackGAN文本特征處理架構(gòu)Fig.4 Architecture of StackGAN text feature processing

      現(xiàn)有的文本到圖像生成方法采用的樣本可以大致反映文字描述的含義,但沒(méi)有包含必要的細(xì)節(jié)描述和形象的目標(biāo)對(duì)象內(nèi)在關(guān)系。為解決該問(wèn)題,Zhang等人提出StackGAN++(stacked generative adversarial networks++)方法[24],主要采用樹(shù)狀結(jié)構(gòu),框架如圖5所示。通過(guò)多個(gè)生成器生成不同尺度的圖像,每個(gè)尺度對(duì)應(yīng)一個(gè)鑒別器,生成了多尺度圖像分布。其特點(diǎn)是構(gòu)建一個(gè)兩階段生成對(duì)抗網(wǎng)絡(luò)體系結(jié)構(gòu),不同于StackGAN采用兩階段獨(dú)立訓(xùn)練模式,StackGAN++可以采用端到端(end-toend,E2E)的訓(xùn)練方式。該方法引入顏色一致性正則化(color regulation,CR),對(duì)生成模擬圖像的色彩信息進(jìn)行限制,其目的是盡量減少不同尺度像素的均值和協(xié)方差之間的差異,整體效果是提高訓(xùn)練的穩(wěn)定性,且提升生成的圖像質(zhì)量。為解決低分辨率特征圖卷積時(shí)依賴(lài)局部特征,不利于捕獲文本向量遠(yuǎn)距離信息的問(wèn)題,通過(guò)文本描述生成圖像任務(wù)和解耦表征并分層生成圖像[25],利用單詞級(jí)注意力模塊細(xì)化圖像并微調(diào)嵌入詞,能夠很好地表達(dá)形狀和顏色特征。

      圖5 StackGAN++條件合成模型架構(gòu)圖Fig.5 Architecture diagram of StackGAN++model with conditional composite

      在此基礎(chǔ)上,為了進(jìn)一步滿足對(duì)多個(gè)生成網(wǎng)絡(luò)的構(gòu)建需求,HDGAN(hierarchical-nested GAN)[26]伴隨層次嵌套對(duì)抗性目標(biāo),在多尺度中間層上采用了分層嵌套的判別器來(lái)生成512×512圖像。模型架構(gòu)如圖6所示,并對(duì)比其他不同結(jié)構(gòu)模型,HDGAN通過(guò)采用一種可擴(kuò)展的單流生成器架構(gòu)(extensile single-stream generator architecture,ESGA)使聯(lián)合判別器更好地開(kāi)展訓(xùn)練,生成高分辨率圖像。并使用多用途的對(duì)抗性損失(multipurpose adversarial loss,MAL)使低分辨率層的判別器關(guān)注全局特征,高分辨率的判別器聚焦于局部的細(xì)粒度特征,更有效地使用圖像和文本信息提升生成圖像保真度。

      圖6 HDGAN模型架構(gòu)圖Fig.6 Architecture diagram of HDGAN

      為減少圖像卷積過(guò)程中導(dǎo)致的特征信息損失,并增強(qiáng)語(yǔ)義一致性、圖像保真度和類(lèi)不變性,可以讓生成器采用感知損失來(lái)增強(qiáng)語(yǔ)義相似度信息,在生成器上定義感知損失可獲得不同的圖像,通過(guò)多用途鑒別器以提升語(yǔ)義保真度和完整性。Gao等人[27]提出了感知金字塔對(duì)抗網(wǎng)絡(luò)(perceptual pyramid adversarial networks,PPAN),通過(guò)金字塔框架[28]以對(duì)抗的方式直接合成文本條件下的多尺度圖像。通過(guò)設(shè)計(jì)一個(gè)金字塔發(fā)生器和三個(gè)獨(dú)立的鑒別器代替多階段GAN,在前饋過(guò)程中合成和正則化多尺度的真實(shí)感圖像。在每個(gè)金字塔層,PPAN以粗分辨率特征作為輸入,合成高分辨率圖像,并使用卷積向上采樣到更精細(xì)的層次。

      目前文本到圖像生成的GAN都采用堆疊結(jié)構(gòu)作為主干,通常利用跨模態(tài)注意機(jī)制來(lái)融合文本和圖像特征,并引入額外的卷積神經(jīng)網(wǎng)絡(luò)來(lái)確保文本和圖像的語(yǔ)義一致性。為實(shí)現(xiàn)一個(gè)簡(jiǎn)單且有效的文本圖像模型,DFGAN(deep fusion GAN)[29]作為一種創(chuàng)新的文本圖像融合模塊被提出,多尺度全局特征根據(jù)多個(gè)步驟自適應(yīng)的融合提取,以滿足低空間分辨率的特征圖像獲取,并包含生成圖像的整體語(yǔ)義結(jié)構(gòu)。受ResNet(residual network)[30]的啟發(fā),采用身份和權(quán)重加法及快捷連接作為融合方法,總體有效提升細(xì)節(jié)構(gòu)成,可以使生成器在不引入額外網(wǎng)絡(luò)的情況下合成更真實(shí)且文本圖像語(yǔ)義一致的圖像。與現(xiàn)有的文本圖像模型相比,該方法更簡(jiǎn)單且有效地合成與真實(shí)文本描述相匹配的圖像。在研究中通常以動(dòng)物或花卉作為對(duì)象,以人物圖像為研究對(duì)象值得深入探索。充分結(jié)合人物姿勢(shì)、體態(tài)、外貌、紋理特征,構(gòu)建人物畫(huà)像,通過(guò)自適應(yīng)歸一化方式實(shí)現(xiàn)像素級(jí)映射,并構(gòu)建多模式操作網(wǎng)絡(luò)生成顏色和細(xì)節(jié)更細(xì)膩的人物圖像[31]。構(gòu)建譜歸一化的SN-StackGAN(spectrum normalization StackGAN)[32]模型約束判別器各層網(wǎng)絡(luò),并結(jié)合感知損失函數(shù),加快判別器收斂速度并增強(qiáng)網(wǎng)絡(luò)穩(wěn)定性,并提高圖像分辨率。

      綜上所述,分成體系結(jié)構(gòu)法采用多個(gè)聯(lián)級(jí)的生成器和鑒別器結(jié)構(gòu),能夠有效地實(shí)現(xiàn)關(guān)鍵信息分離,實(shí)現(xiàn)針對(duì)性的精細(xì)化處理,增強(qiáng)語(yǔ)義一致性?xún)?yōu)勢(shì)。并且在模型構(gòu)建中會(huì)包含必要的細(xì)節(jié)描述和形象目標(biāo)對(duì)象的內(nèi)在關(guān)系等信息,可有效增強(qiáng)圖像信息的表達(dá)能力。但該類(lèi)方法會(huì)采用交叉重疊的網(wǎng)絡(luò)模型,導(dǎo)致特征信息被重復(fù)提取,使信息處理量增大,計(jì)算資源和時(shí)間占用過(guò)大。并且存在對(duì)多任務(wù)處理或多尺度小目標(biāo)處理難度較大等不同程度的問(wèn)題,將會(huì)導(dǎo)致生成圖像的質(zhì)量下降,減少所生成圖像的多樣性。當(dāng)文本描述的場(chǎng)景或?qū)ο笙鄬?duì)復(fù)雜時(shí),該問(wèn)題會(huì)更加嚴(yán)重。

      2.3 注意力機(jī)制法

      注意力機(jī)制可以利用人類(lèi)視覺(jué)機(jī)制進(jìn)行直觀解釋?zhuān)缛祟?lèi)的視覺(jué)系統(tǒng)傾向于關(guān)注圖像中輔助判斷的部分信息,并忽略掉不相關(guān)的信息[33]。注意力模型現(xiàn)在是解決多任務(wù)最先進(jìn)的模型[34],能夠在主要任務(wù)上提高性能,并且被廣泛用于提高神經(jīng)網(wǎng)絡(luò)的可解釋性。注意力機(jī)制模塊如圖7所示,該機(jī)制能夠通過(guò)加權(quán)重要的部分而忽略不重要的部分,使網(wǎng)絡(luò)重點(diǎn)關(guān)注輸入層,并且在提升語(yǔ)言分析和計(jì)算機(jī)視覺(jué)上擁有舉足輕重的意義。該技術(shù)除了構(gòu)建全局句子向量外,還支持卷積神經(jīng)網(wǎng)絡(luò)根據(jù)相關(guān)單詞合成的細(xì)粒度。

      圖7 注意力機(jī)制模塊示意圖Fig.7 Schematic diagram of attention mechanism module

      注意力機(jī)制允許網(wǎng)絡(luò)根據(jù)相關(guān)單詞合成細(xì)粒度的細(xì)節(jié)以及全局句子向量,在生成過(guò)程中使網(wǎng)絡(luò)關(guān)注圖像子區(qū)域最相關(guān)的單詞。AttnGAN(attentional GAN)[35]建立在StackGAN++[24]的基礎(chǔ)上,將注意力納入多級(jí)精煉管道,通過(guò)深度注意力多尺度相似模型(deep attentional multimodal similarity model,DAMSM)的損失計(jì)算,評(píng)估基于句子和單詞級(jí)信息計(jì)算生成的圖像與輸入文本之間的相似度。Huang等人[36]擴(kuò)展了基于網(wǎng)格的注意力機(jī)制算法,簡(jiǎn)稱(chēng)為RIG(realistic image generation)方法,在對(duì)象網(wǎng)格區(qū)域和詞短語(yǔ)之間增加了一種機(jī)制,其中對(duì)象網(wǎng)格區(qū)域由輔助包圍框定義。在句子和單詞特征的基礎(chǔ)上,應(yīng)用部分詞性標(biāo)注技術(shù)提取短語(yǔ)特征。若構(gòu)建標(biāo)題匹配模型,根據(jù)先驗(yàn)知識(shí)確定候選標(biāo)題,可利用多標(biāo)題注意力的特點(diǎn)構(gòu)建GAN生成特征圖像,突顯文本描述的主要圖像特征[37]。

      由于訓(xùn)練數(shù)據(jù)集受限,存在難以涵蓋所有領(lǐng)域的圖像信息,描述語(yǔ)句存在詞語(yǔ)缺失以及語(yǔ)義信息不足等問(wèn)題,使生成圖像無(wú)法得到較好效果。并且關(guān)鍵詞與非關(guān)鍵詞的分離問(wèn)題將很大程度影響模型的穩(wěn)定性與準(zhǔn)確性。語(yǔ)義增強(qiáng)生成對(duì)抗網(wǎng)絡(luò)(semantics-enhanced GAN,SEGAN)[38]模型能用于高細(xì)粒度的文本到圖像的生成技術(shù)中,很好地解決以上問(wèn)題,其模型結(jié)構(gòu)如圖8所示。相對(duì)于傳統(tǒng)的基于端到端并加入注意力機(jī)制的圖像描述生成方法,該模型解決了圖像描述生成語(yǔ)句語(yǔ)義信息不足的問(wèn)題,并針對(duì)生成語(yǔ)句詞匯不足的情況進(jìn)行了補(bǔ)充,從而能夠更準(zhǔn)確地描述圖像數(shù)據(jù)的語(yǔ)義含義。注意力競(jìng)爭(zhēng)模塊(attention competition module,ACM)和注意力生成網(wǎng)絡(luò)(attention generation network,AGN)用于提取文本特性和圖像特性,ACM包括一個(gè)新的注意正則化術(shù)語(yǔ)和DAMSM損失,能夠使文本編碼器提取AGN的可視化重要關(guān)鍵字。該算法將圖像級(jí)的語(yǔ)義一致性融入生成對(duì)抗網(wǎng)絡(luò)(GAN)的訓(xùn)練中,可以使生成的圖像信息和特征多樣化。在AGN中,由ACM預(yù)先訓(xùn)練的文本編碼器提供語(yǔ)義向量對(duì)視覺(jué)上重要的詞進(jìn)行編碼,構(gòu)建了自適應(yīng)注意權(quán)重來(lái)區(qū)分關(guān)鍵字和不重要的詞,然后SEGAN生成器根據(jù)這些關(guān)鍵字合成圖像子區(qū)域,該算法總體提升了模型的穩(wěn)定性和準(zhǔn)確性。

      圖8 SEGAN模型架構(gòu)圖Fig.8 Architecture diagram of SEGAN

      在圖像生成中由于文字的修改可能會(huì)使模型重新調(diào)整參數(shù)或訓(xùn)練,創(chuàng)建一個(gè)能夠支持文字描述修改的監(jiān)督反饋模型有助于模型改進(jìn),一種可控的文本生成圖像的對(duì)抗生成網(wǎng)絡(luò)(control GAN)[39]能夠支持模型的動(dòng)態(tài)反饋,通過(guò)自然語(yǔ)言描述控制圖片生成的過(guò)程,合成高質(zhì)量圖片。該方法整合空間注意力模塊能夠分離不同的視覺(jué)屬性,如類(lèi)別、紋理和顏色等信息,并且讓模型專(zhuān)注于最相關(guān)的單詞所對(duì)應(yīng)的子區(qū)域,結(jié)合細(xì)粒度的監(jiān)督梯度反饋,提供精細(xì)的紋理訓(xùn)練信息,并利用單詞和圖像子區(qū)域之間的相關(guān)性來(lái)分解不同的視覺(jué)屬性。

      跨模態(tài)網(wǎng)絡(luò)是帶有對(duì)比損失的級(jí)聯(lián)結(jié)構(gòu),這個(gè)損失是建立在判別器端兩個(gè)樹(shù)狀的結(jié)構(gòu)之間的對(duì)比損失,該結(jié)構(gòu)有利于提取文本描述中的語(yǔ)義共同點(diǎn),當(dāng)網(wǎng)絡(luò)的各個(gè)分支處理不同的文本輸入生成圖像時(shí),模型參數(shù)采用共享模式。在文本描述中出現(xiàn)的同義詞會(huì)導(dǎo)致圖像生成差異,為能夠?qū)崿F(xiàn)同語(yǔ)義不同詞的高層次表達(dá)以及文字表達(dá)的多樣性特點(diǎn),語(yǔ)義解糾纏生成對(duì)抗網(wǎng)絡(luò)模型(semantics disentangling GAN,SDGAN)[40]如圖9所示。整個(gè)模型是跨模態(tài)生成網(wǎng)絡(luò),可以看作主要由Siamese注意力機(jī)制和語(yǔ)義條件下的批度歸一化(semantic conditions batch normalization,SCBN)[41]相結(jié)合,其中使用Siamese注意力機(jī)制在判別器中學(xué)習(xí)高層次的語(yǔ)義一致性,使用SCBN來(lái)發(fā)現(xiàn)不同形式的底層語(yǔ)義。該方法采用基于對(duì)比損失的方法來(lái)最小化或最大化每個(gè)分支中計(jì)算的特征之間的距離,從而學(xué)習(xí)語(yǔ)義上有意義的特征表達(dá)。該方法從文本中提取出語(yǔ)義的通用性表達(dá),但存在忽略細(xì)粒度的語(yǔ)義多樣性問(wèn)題。在此基礎(chǔ)上,通過(guò)SEGAN訓(xùn)練了一個(gè)復(fù)式架構(gòu)并利用地面真實(shí)圖像進(jìn)行語(yǔ)義對(duì)齊,最小化生成的圖像和對(duì)應(yīng)的地面真實(shí)圖像之間的特征距離。為了有效解決簡(jiǎn)單樣本和難度樣本的平衡問(wèn)題,基于滑動(dòng)損失[42]提出了聚焦損失,以適應(yīng)具備相對(duì)重要性的簡(jiǎn)單樣本和難度樣本對(duì)。Text-SeGAN[43](text-semantics-enhanced GAN)模型以條件GAN為基礎(chǔ),改進(jìn)了鑒別器的一個(gè)輔助功能,使模型生成的圖片不受特定種類(lèi)的限制,并結(jié)合小批量(mini-batch)特征技術(shù),在語(yǔ)義上匹配文本輸入時(shí)解決了模式崩潰(mode collapse,MC)問(wèn)題。為彌補(bǔ)細(xì)節(jié)信息表達(dá)的不足,采用跨模態(tài)數(shù)據(jù),通過(guò)多尺度特征融合算法[44],構(gòu)建目標(biāo)對(duì)象驅(qū)動(dòng)細(xì)粒度語(yǔ)義,結(jié)合布局特點(diǎn)生成逼真圖像,充分考慮細(xì)粒度信息,包括結(jié)構(gòu)、位置、輪廓、紋理等。

      圖9 SDGAN模型架構(gòu)圖Fig.9 Architecture diagram of SDGAN

      綜上所述,注意力機(jī)制法具備減少外部信息依賴(lài),關(guān)注特征內(nèi)部固有信息的特點(diǎn),并考慮不同維度信息如通道、空間、時(shí)間、類(lèi)別等,充分解決卷積神經(jīng)網(wǎng)絡(luò)多任務(wù)和單詞合成的細(xì)粒度問(wèn)題,擁有少參數(shù)并行處理方式的高效性及支持文字描述動(dòng)態(tài)修改的靈活性。但該方法難以捕捉位置信息,即沒(méi)法學(xué)習(xí)序列中的順序關(guān)系,需要通過(guò)引入位置向量解決這類(lèi)問(wèn)題。由于目標(biāo)圖像中的像元都需要捕捉全局的上下文信息,這導(dǎo)致了自注意力機(jī)制模塊會(huì)有較大的計(jì)算復(fù)雜度和存儲(chǔ)量,并且存在信息捕捉的高效稀疏化問(wèn)題有待解決。

      2.4 周期一致性法

      通常從給定的文本描述中合成圖像包含在文本中明確描述的信息(例如顏色和構(gòu)圖等)以及風(fēng)格,但在文本描述中一般很難精確地描述圖像構(gòu)建信息,例如位置、數(shù)量、大小等。之前的相關(guān)研究?jī)H關(guān)注于從內(nèi)容生成圖像的過(guò)程,未著重考慮學(xué)習(xí)圖像的風(fēng)格表示。

      為使模型能夠使用文本描述內(nèi)容信息,在生成圖像時(shí)使用所需的樣式風(fēng)格,并生成與文本源密切相關(guān)的信息圖像,同時(shí)達(dá)到通過(guò)推斷文本源信息來(lái)控制樣式的目的,相關(guān)課題已開(kāi)展研究。例如Lao等人[45]受到對(duì)抗推理方法啟發(fā),提出雙重對(duì)抗網(wǎng)絡(luò)(dual adversarial inference GAN,DAI-GAN),通過(guò)無(wú)監(jiān)督方式分離圖像信息。該方法主要的目標(biāo)是學(xué)習(xí)潛在的空間和風(fēng)格的表達(dá),空間中被分離的兩個(gè)變量分別代表內(nèi)容和風(fēng)格。風(fēng)格在模型中的整合信息最終取決于它的模式表現(xiàn),例如文本中高頻出現(xiàn)的風(fēng)格信息擁有共享文本之間的共性,而低頻出現(xiàn)的風(fēng)格不作為內(nèi)容描述,其風(fēng)格由圖像形態(tài)表示。周期一致性法解決了兩個(gè)重要的問(wèn)題:第一是在隱變量上加入先驗(yàn)知識(shí),能夠產(chǎn)生更高采樣質(zhì)量和更高采樣多樣性的圖像,并充分考慮文本描述信息表達(dá)。第二是實(shí)現(xiàn)不同反饋網(wǎng)絡(luò)模型的靈活接入,增強(qiáng)網(wǎng)絡(luò)的動(dòng)態(tài)處理能力。一些相關(guān)研究已經(jīng)開(kāi)展,例如PPGN(plug&play generative networks)[46]模型算法提出了基于條件網(wǎng)絡(luò)的反饋,可以作為條件圖像合成的分類(lèi)器。該方法提出了一個(gè)統(tǒng)一的概率解釋AM(activation maximization)理論,構(gòu)建生成模型(即插即用生成模型)。其主要思想是迭代地找到潛在代碼,讓生成器產(chǎn)生一個(gè)圖像,使反饋網(wǎng)絡(luò)中的特定特征激活最大化(例如分類(lèi)評(píng)分或RNN的隱藏向量)。在該框架中,通過(guò)插入不同的反饋網(wǎng)絡(luò),可以重新使用預(yù)先訓(xùn)練的生成器,從而提高模型接入的靈活性并提升結(jié)果質(zhì)量。

      為靈活接入附件網(wǎng)絡(luò)實(shí)現(xiàn)圖像的精準(zhǔn)表達(dá),受到CycleGAN(cycle-consistent GAN)[47]模型的啟發(fā),通過(guò)重新定義圖像生成的循環(huán)網(wǎng)絡(luò)架構(gòu),使模型具備文本到圖像的精準(zhǔn)語(yǔ)義表達(dá)能力,并通過(guò)附加語(yǔ)義網(wǎng)絡(luò),使訓(xùn)練該網(wǎng)絡(luò)從合成圖像中生成語(yǔ)義相似的文本描述。MirrorGAN[48]作為一個(gè)新的模型結(jié)構(gòu)被提出,屬于監(jiān)督學(xué)習(xí),并引入注意力機(jī)制。該模型結(jié)合了“全局到局部”的注意力機(jī)制和保留語(yǔ)義的Text-to-Image-to-Text框架,能夠產(chǎn)生文本或句子層次的嵌入信息;平衡局部文字注意力和全局句子注意力以增強(qiáng)生成圖像的多樣性和語(yǔ)義連續(xù)性;對(duì)生成的圖像再次描述生成對(duì)應(yīng)文本描述信息。該方法通過(guò)一個(gè)“全局—局部”協(xié)作注意模型,無(wú)縫嵌入級(jí)聯(lián)生成器中,以保持跨域語(yǔ)義一致性并平滑生成過(guò)程。此外,還提出了一種基于交叉熵(cross entropy,CE)的文本語(yǔ)義重建損失來(lái)監(jiān)督生成器,以生成視覺(jué)真實(shí)和語(yǔ)義一致的圖像。

      在文本到圖像的生成方法中,普遍存在由粗到細(xì)(coarse-to-fine,C2F)的研究思路,即先生成低分辨率的初始圖像,再優(yōu)化得到高分辨率的精確圖像。為了解決普遍存在的兩個(gè)問(wèn)題:(1)生成的圖像結(jié)果嚴(yán)重依賴(lài)于初始圖像的質(zhì)量;(2)文本句子的詞語(yǔ)描述起決定作用,優(yōu)化過(guò)程效果受限,圖像信息未被充分利用到單詞的重要性權(quán)重。動(dòng)態(tài)記憶生成對(duì)抗網(wǎng)絡(luò)(dynamic memory GAN,DM-GAN)[49]用于文本到圖像的生成技術(shù)中,基于動(dòng)態(tài)記憶的圖像細(xì)化階段通過(guò)動(dòng)態(tài)存儲(chǔ)、鍵尋址、值讀取和響應(yīng),實(shí)現(xiàn)模糊圖像細(xì)化、信息檢索、尋址和特征讀取,以細(xì)化低質(zhì)量圖像的視覺(jué)特征,其模型架構(gòu)如圖10所示。采用響應(yīng)操作控制圖像特征的融合和內(nèi)存讀取,通過(guò)記憶門(mén)內(nèi)容突出重要的詞語(yǔ)信息,并利用響應(yīng)門(mén)自適應(yīng)地融合從記憶門(mén)中讀取的信息和響應(yīng)步驟中的圖像特征,進(jìn)而從文本描述中準(zhǔn)確生成輸出圖像。

      圖10 DM-GAN模型架構(gòu)圖Fig.10 Architecture diagram of DM-GAN

      綜上所述,周期一致性法具有改善數(shù)字生態(tài)系統(tǒng)的潛力,它們能夠?qū)⑿畔囊环N表示形式轉(zhuǎn)換為另一種表示形式,信息表現(xiàn)具備靈活轉(zhuǎn)換能力,支持明確風(fēng)格表達(dá)描述,且擁有模型接入動(dòng)態(tài)靈活的特點(diǎn),同時(shí)支持更高采樣質(zhì)量和采樣多樣性的圖像輸出。但該類(lèi)方法在處理訓(xùn)練源數(shù)據(jù)時(shí),會(huì)出現(xiàn)獨(dú)立目標(biāo)的任意變化現(xiàn)象,導(dǎo)致風(fēng)格混淆問(wèn)題出現(xiàn),需要使用更廣泛和更多樣化的數(shù)據(jù)集緩解該問(wèn)題發(fā)生;另外非色彩信息的幾何更改會(huì)導(dǎo)致圖像的幾何信息的異常變化。

      2.5 自適應(yīng)非條件模型法

      隨著無(wú)條件圖像生成技術(shù)的研究發(fā)展,該技術(shù)已經(jīng)被成功應(yīng)用到文本到圖像生成方法中,通過(guò)自適應(yīng)方式靈活構(gòu)建文本描述,能夠通過(guò)無(wú)附加條件的方式增強(qiáng)各環(huán)境下的模型適應(yīng)性表達(dá)。通過(guò)權(quán)重加權(quán)語(yǔ)義方式結(jié)合噪聲向量,去除信息干擾并增強(qiáng)核心信息表達(dá),同時(shí)采用跨模態(tài)形式豐富信息表達(dá)是增強(qiáng)圖像高質(zhì)量合成的方式。文本到圖像的模型Text-Style-GAN[50]方法在StyleGAN基礎(chǔ)上進(jìn)行擴(kuò)展,能夠獲得比其他文本生成圖像模型更高分辨率的圖像,并支持語(yǔ)音分析。該模型架構(gòu)如圖11所示,其類(lèi)似于AttnGAN[35]使用的預(yù)先訓(xùn)練的文本到圖像匹配網(wǎng)絡(luò)來(lái)計(jì)算文本和單詞嵌入,在執(zhí)行線性映射產(chǎn)生中間隱藏空間之前,先將嵌入句子與噪聲向量相互連接。采用注意力機(jī)制引導(dǎo)在生成器中使用文字和圖像特征,除了鑒別器中的有條件和無(wú)條件損失外,還使用跨模態(tài)投影匹配(cross-modal projection matching,CMPM)和跨模態(tài)投影分類(lèi)(cross-modal projection classification,CMPC)的損失估計(jì),將輸入的文字標(biāo)記與生成圖像相匹配。由于文字屬性堆疊生成缺乏真實(shí)性的圖像,通過(guò)殘差結(jié)構(gòu)設(shè)計(jì)創(chuàng)新的注意力機(jī)制網(wǎng)絡(luò)[51],并采用鉸鏈損失穩(wěn)定訓(xùn)練過(guò)程,結(jié)合跨模態(tài)投影機(jī)制通過(guò)細(xì)粒度辨別信息,增強(qiáng)圖像分辨率。在該方法中會(huì)出現(xiàn)不自然的局部細(xì)節(jié)扭曲現(xiàn)象和生成缺陷圖像,通過(guò)嵌入殘差塊特征金字塔引入多尺度特征融合[52],通過(guò)自適應(yīng)融合方式生成高質(zhì)量圖像。

      圖11 Text Style GAN模型架構(gòu)圖Fig.11 Architecture diagram of Text Style GAN

      構(gòu)造過(guò)渡映射空間和共享信息的額外損失估計(jì)是解決文本描述與圖像一致性問(wèn)題的重要手段。利用中間網(wǎng)絡(luò)將文本嵌入和噪聲映射到一個(gè)過(guò)渡映射空間,同時(shí)構(gòu)造的第一損失估計(jì)將計(jì)算中間的隱藏空間與輸入文本嵌入之間的相互信息差,以保證文本信息存在于過(guò)渡空間。第二種損失估計(jì)將計(jì)算生成的圖像與輸入文本之間的相互信息差,以提高圖像與輸入文本之間的一致性。獲得制約文本描述的潛在因素,為進(jìn)一步的可解釋表示學(xué)習(xí)提供依據(jù),Bridge-GAN[53]在訓(xùn)練過(guò)程中采用了類(lèi)似PGGAN(progressive growing GAN)[54]的生成器和鑒別器的方案,建立了一個(gè)過(guò)渡空間作為提高內(nèi)容一致性的橋梁,通過(guò)關(guān)鍵視覺(jué)信息來(lái)學(xué)習(xí)可解釋性表達(dá);并設(shè)計(jì)了三元互信息目標(biāo)優(yōu)化過(guò)渡空間,增強(qiáng)視覺(jué)真實(shí)感和內(nèi)容一致性。在解決合成圖像與文本描述的一致性方面,Wang等人[55]提出了兩個(gè)語(yǔ)義增強(qiáng)模塊和一個(gè)新的文本視覺(jué)雙向生成對(duì)抗網(wǎng)絡(luò)(textual-visual bidirectional GAN,TVBi-GAN),通過(guò)語(yǔ)義增強(qiáng)的注意模塊和語(yǔ)義增強(qiáng)的批處理歸一化模塊,注入隨機(jī)噪聲來(lái)穩(wěn)定基于語(yǔ)言線索的尺度及變化操作,引入精確的語(yǔ)義特征來(lái)提高合成圖像的一致性。

      通過(guò)無(wú)條件作用實(shí)現(xiàn)多樣性控制在文本到圖像生成的方法中具有重要意義,能夠增強(qiáng)表達(dá)的豐富性,對(duì)于文本描述的形容性詞語(yǔ)或定語(yǔ)等語(yǔ)言表達(dá)具備更準(zhǔn)確的圖像生成能力。BigGAN[56]采用了數(shù)據(jù)截?cái)嗪驼徽齽t化技術(shù),將正交正則化應(yīng)用于生成器。該模型采用截?cái)嗉夹g(shù),通過(guò)一種簡(jiǎn)單的采樣方法,能夠在樣本的逼真性和多樣性之間做顯性的細(xì)粒度控制。另外,通過(guò)減少生成器輸入的方差,允許對(duì)樣本保真度和多樣性之間的權(quán)衡進(jìn)行精細(xì)控制,保障了大型生成對(duì)抗網(wǎng)絡(luò)訓(xùn)練過(guò)程的穩(wěn)定性,采用矩陣的奇異值分析生成對(duì)抗網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性?;贒M-GAN[49]創(chuàng)建了類(lèi)似記憶門(mén)的機(jī)制,在應(yīng)用注意力機(jī)制之前計(jì)算單詞特征和語(yǔ)義特征之間的量化權(quán)重。進(jìn)一步構(gòu)建從圖像中提取語(yǔ)義特征的編碼網(wǎng)絡(luò),在對(duì)抗性過(guò)程中,編碼器可以引導(dǎo)生成器探索描述深層的相應(yīng)特性,提升模型目標(biāo)生成過(guò)程的表達(dá)性。

      綜上所述,自適應(yīng)非條件模型法具備多樣性表達(dá)特點(diǎn),能夠構(gòu)造過(guò)渡映射空間并提供共享信息的額外損失估計(jì),無(wú)需附加監(jiān)督條件而自適應(yīng)地開(kāi)展模型訓(xùn)練,提供可解釋性表示的學(xué)習(xí)依據(jù),模型具有魯棒性和適用性。但該類(lèi)方法的圖像生成的輸入信息大多是句子向量,缺少風(fēng)格層信息,生成圖像缺少實(shí)例級(jí)別的紋理特征;在圖像生成過(guò)程中,生成器容易忽視同場(chǎng)景之間的空間交互關(guān)系,整體圖像存在移位、重疊和遮擋等問(wèn)題。此外,判別器難以提供細(xì)粒度的訓(xùn)練反饋信息,對(duì)詞級(jí)的實(shí)例視覺(jué)屬性判別難度大。模型生成的描述對(duì)象的屬性特征存在不同程度誤差,圖像生成的綜合準(zhǔn)確度和真實(shí)性有待提升。

      2.6 附加監(jiān)督法

      上文討論的文字到圖像生成方法,其核心內(nèi)容是圍繞文字描述的信息生成與之相關(guān)圖像。然而,存在一些方法將標(biāo)題、對(duì)話、場(chǎng)景圖和語(yǔ)義掩模等內(nèi)容作為監(jiān)督條件構(gòu)建的模型,在模型的訓(xùn)練中會(huì)增加額外的標(biāo)注信息,通過(guò)附加監(jiān)督信息生成圖像。

      通常數(shù)據(jù)集中的單幅圖像包含多個(gè)標(biāo)題,通過(guò)多個(gè)標(biāo)題能夠提供更豐富的信息描述整個(gè)場(chǎng)景。在附加監(jiān)督法的基礎(chǔ)上結(jié)合注意力機(jī)制可將兩種方法的優(yōu)勢(shì)充分結(jié)合,使模型既能實(shí)現(xiàn)多場(chǎng)景的I2T應(yīng)用,又能減少外部依賴(lài),突出內(nèi)部固有特征,增強(qiáng)有效的細(xì)粒度表達(dá)。例如C4Synth方法[57]研究了多個(gè)標(biāo)題生成圖像,該方法使用混合標(biāo)題描述的形式,通過(guò)跨標(biāo)題循環(huán)保證了生成的圖片和語(yǔ)義描述信息的一致性,并引入一個(gè)循環(huán)結(jié)構(gòu)消除體系結(jié)構(gòu)中標(biāo)題數(shù)量的限制,能夠合并多個(gè)標(biāo)題內(nèi)容的描述信息以生成單個(gè)圖像。類(lèi)似地,RiFeGAN(rich feature GAN)方法[58]作為一種具備豐富特征從文本到圖像合成技術(shù),利用了基于注意力機(jī)制的標(biāo)簽匹配模型,能夠從先驗(yàn)知識(shí)中選擇并提煉出兼容的候選標(biāo)題,并利用多組注意力算法提取豐富的特征,合成高質(zhì)量的圖像。

      一個(gè)句子難以提供足夠的信息來(lái)描述包含多個(gè)關(guān)聯(lián)物體的場(chǎng)景,通過(guò)場(chǎng)景對(duì)話產(chǎn)生的信息數(shù)據(jù)能夠生動(dòng)地生成圖像。VQA-GAN(visual question answering GAN)[59]在本地構(gòu)建的文字集合中,通過(guò)使用VQA2.0(visual question answering 2.0)中的問(wèn)題和回答文字對(duì)話內(nèi)容訓(xùn)練圖像生成器。該方法在AttnGAN-OP(attentional GAN object pathways)[60]的基礎(chǔ)上擴(kuò)展了三個(gè)關(guān)鍵組成:第一是問(wèn)題對(duì)話的編碼器,把對(duì)話文字內(nèi)容當(dāng)作輸入;第二是構(gòu)建具備問(wèn)題和回答條件的GAN網(wǎng)絡(luò),把之前輸出的內(nèi)容作為文字描述生成一個(gè)圖片;第三是采用外部VQA損失增強(qiáng)問(wèn)題對(duì)話和生成圖片之間的關(guān)聯(lián)。典型的VQA模型以圖像和問(wèn)題為輸入,并開(kāi)展模型訓(xùn)練,通過(guò)使負(fù)對(duì)數(shù)似然損失最小化來(lái)提升正確答案概率。

      從布局到圖像生成任務(wù)中每個(gè)對(duì)象都由邊界框和類(lèi)標(biāo)簽定義,能夠?yàn)樯善魈峁└嗟慕Y(jié)構(gòu),有助于在圖像中準(zhǔn)確地定位對(duì)象,并且具有允許研究者通過(guò)更改布局控制生成的優(yōu)點(diǎn),結(jié)合布局信息的文本可實(shí)現(xiàn)更好的生成圖像。例如OP-GAN(object pathways GAN)[61]通過(guò)在物體的位置添加生成器和鑒別器通道在重要的文字標(biāo)記點(diǎn)位置上生成獨(dú)立圖片,一個(gè)全局通道生成一個(gè)能夠適應(yīng)整個(gè)圖片描述和布局的位置。OC-GAN(object-centric GAN)[62]類(lèi)似于AttnGAN中的DAMSM的場(chǎng)景圖相似模型(scene graph similarity module,SGSM)來(lái)處理合并對(duì)象,構(gòu)建一個(gè)能夠理解單個(gè)對(duì)象和對(duì)象之間的關(guān)系生成復(fù)雜場(chǎng)景的模型,其模型架構(gòu)如圖12所示。該方法以對(duì)象為中心的生成對(duì)抗網(wǎng)絡(luò)(OCGAN),根據(jù)SGSM,該模型能夠?qū)W習(xí)場(chǎng)景中物體之間的空間關(guān)系的表示,使得該模型的布局保真度得到提升。同時(shí),還提出對(duì)生成器的調(diào)節(jié)機(jī)制進(jìn)行改變,以增強(qiáng)其對(duì)象實(shí)例感知能力,并取得顯著效果。

      圖12 OC-GAN模型架構(gòu)圖Fig.12 Architecture diagram of OC-GAN

      針對(duì)生成圖像算法中常出現(xiàn)的對(duì)象重疊和缺失問(wèn)題,可有效利用掩模生成網(wǎng)絡(luò)對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,為數(shù)據(jù)對(duì)象提供分割掩模向量解決。將分割掩模向量作為約束條件,訓(xùn)練布局預(yù)測(cè)網(wǎng)絡(luò)得到場(chǎng)景布局中對(duì)象的具體位置和尺寸,通過(guò)網(wǎng)絡(luò)模型完成圖像的生成。例如Hong等[63]通過(guò)兩個(gè)步驟獲取語(yǔ)義掩碼,模型架構(gòu)如圖13所示,分別預(yù)測(cè)物體形狀和其他信息。若直接完成輸入文本空間到生成圖像像素空間映射,數(shù)據(jù)具有高維度特性,難以找到合適的映射方式,因此從文字到圖像像素直接增加了多個(gè)任務(wù)分解,實(shí)現(xiàn)生成匹配復(fù)雜文本描述的復(fù)雜圖像。通過(guò)修改生成的場(chǎng)景布局,允許標(biāo)注生成的圖像、用戶(hù)控制生成的過(guò)程,具備更好的靈活性。

      圖13 語(yǔ)義掩碼模型架構(gòu)圖Fig.13 Architecture diagram of semantic mask model

      為利用網(wǎng)絡(luò)對(duì)抗性學(xué)習(xí)來(lái)加強(qiáng)語(yǔ)義一致性和視覺(jué)效果,LeicaGAN(learn,imagine and create GAN)[64]方法將多先驗(yàn)學(xué)習(xí)階段描述為文本-視覺(jué)共嵌入(textual-visual co-embedding,TVE)。該TVE包括用于學(xué)習(xí)語(yǔ)義、紋理和顏色先驗(yàn)的文本圖像編碼器以及用于學(xué)習(xí)形狀和布局先驗(yàn)的文本掩碼編碼器。然后通過(guò)組合這些互補(bǔ)的先驗(yàn)并為多樣性添加噪聲,將想象階段表示為多先驗(yàn)聚集(multiple priors aggregation,MPA)。最后使用級(jí)聯(lián)注意力生成器(cascaded attentive generator,CAG)從粗略到精細(xì)逐步繪制一幅圖畫(huà)。GAN-CL(GAN contextual loss)[65]由一個(gè)網(wǎng)絡(luò)組成,該網(wǎng)絡(luò)經(jīng)過(guò)訓(xùn)練可以生成掩碼,從而提供細(xì)粒度信息,如物體的數(shù)量、位置、大小和形狀。作者采用了真實(shí)和生成掩模之間的多尺度損失方法,并采用額外的感知損失和全局一致性損失,計(jì)劃將圖像掩模作為循環(huán)自動(dòng)編碼器的輸入,以生成真實(shí)逼真的圖像。

      文本到圖像的生成方法在特定對(duì)象,如動(dòng)物或花卉的描述中可表現(xiàn)出較好的實(shí)驗(yàn)結(jié)果,但對(duì)于具有許多對(duì)象和關(guān)系的復(fù)雜句子的理解及圖像生成的效果較差。通過(guò)基于場(chǎng)景圖的文本到圖像的生成方法,能夠有效地突破對(duì)象的限制以及對(duì)復(fù)雜句式的理解,同樣能夠明確地推理對(duì)象及其關(guān)系,通過(guò)預(yù)測(cè)對(duì)象的邊界框和分割掩模設(shè)計(jì)場(chǎng)景布局,將其轉(zhuǎn)換為具有級(jí)聯(lián)精化網(wǎng)絡(luò)的圖像。Pavllo等人[66]提出了一種用于復(fù)雜場(chǎng)景條件圖像生成的弱監(jiān)督方法(weakly-supervised approach,WSA),利用稀疏語(yǔ)義映射來(lái)控制對(duì)象形狀和類(lèi),以及通過(guò)文本描述或?qū)傩詠?lái)控制局部和全局樣式,能夠很好地控制場(chǎng)景中出現(xiàn)的物體。為了使該模型以文本描述為條件,引入了一個(gè)語(yǔ)義注意模塊,該模塊的計(jì)算代價(jià)與圖像分辨率無(wú)關(guān)。為了進(jìn)一步增強(qiáng)場(chǎng)景的可控性,提出了兩步生成方案,將背景和前景分解,用于訓(xùn)練模型的標(biāo)簽映射是由一個(gè)大詞匯量對(duì)象檢測(cè)器生成的,它允許訪問(wèn)未標(biāo)記的數(shù)據(jù)并提供結(jié)構(gòu)化的實(shí)例信息。

      在附加監(jiān)督法的研究中,需要重點(diǎn)突破關(guān)鍵問(wèn)題區(qū)別于其他方法,這類(lèi)方法可以從生成圖像控制、場(chǎng)景圖精準(zhǔn)匹配、語(yǔ)義結(jié)構(gòu)及邊界問(wèn)題分離等方面著手,充分引用可視化關(guān)系布局、生成過(guò)程動(dòng)態(tài)調(diào)整及對(duì)象關(guān)系融合等附加手段實(shí)現(xiàn)高質(zhì)量圖像的生成。例如SGGAN(scene graphs GAN)方法[67]使用了分割掩碼技術(shù),模型架構(gòu)如圖14所示。它將布局嵌入與外觀嵌入分離開(kāi)來(lái),使研究者能夠更好地控制和生成圖像,從而更好地匹配輸入場(chǎng)景圖,外觀屬性支持從預(yù)定義的集合中選擇或者來(lái)自另一個(gè)圖像的復(fù)制。Stacking-GANs方法[68]中場(chǎng)景圖被用來(lái)預(yù)測(cè)物體的初始邊界,該邊界框中每個(gè)獨(dú)立的主語(yǔ)、謂語(yǔ)和賓語(yǔ)關(guān)系都由邊界框的關(guān)系單位預(yù)先定義。由于每個(gè)實(shí)體可以參與多個(gè)關(guān)系,所有關(guān)系單元都被統(tǒng)一,并使用卷積LSTM(long short-term memory)[69]轉(zhuǎn)換成可視化的關(guān)系布局。視覺(jué)關(guān)系布局反映了對(duì)象和關(guān)系的結(jié)構(gòu)信息,在有條件的、堆疊的GAN架構(gòu)中使用可視化的關(guān)系布局來(lái)渲染最終的圖像。PasteGAN[70]使用場(chǎng)景圖和對(duì)象來(lái)指導(dǎo)圖像生成過(guò)程。當(dāng)場(chǎng)景圖編碼空間排列和交互時(shí),每個(gè)對(duì)象的外觀由給定的對(duì)象物提供。對(duì)象物和關(guān)系表達(dá)融合在一起,最后輸入到圖像解碼器生成輸出圖像。

      圖14 SGGAN模型架構(gòu)Fig.14 Architecture diagram of SGGAN

      綜上所述,附加監(jiān)督法構(gòu)建模型時(shí)充分將標(biāo)題、對(duì)話、場(chǎng)景圖和語(yǔ)義掩模等內(nèi)容作為監(jiān)督條件,增加了豐富的附加額外標(biāo)注信息來(lái)生成圖像。具備多標(biāo)題表達(dá)、多模型結(jié)構(gòu)、分割掩模向量約束、多階段先驗(yàn)學(xué)習(xí)等特點(diǎn),擁有生成圖像的目標(biāo)定位、布局控制、復(fù)雜句式理解、對(duì)象關(guān)系推理等優(yōu)點(diǎn)。減少句子的復(fù)雜性和歧義性表達(dá),使生成器能學(xué)習(xí)到實(shí)例的細(xì)粒度特征,判別器能提供準(zhǔn)確的屬性反饋信息,滿足生成圖像的高分辨率、實(shí)例形狀約束、屬性特征與描述的一致性體現(xiàn)等。但該類(lèi)方法的缺點(diǎn)在于多結(jié)構(gòu)模型的適應(yīng)性以及附加監(jiān)督信息的依賴(lài)性問(wèn)題,例如針對(duì)不同類(lèi)型目標(biāo)生成應(yīng)用,附加信息需要根據(jù)目標(biāo)特點(diǎn)重新調(diào)整嵌入;對(duì)于同類(lèi)不同物的目標(biāo)描述存在不穩(wěn)定現(xiàn)象,存在特征屬性像元混疊或錯(cuò)誤融合的情況;由于該方法涵蓋的模型對(duì)象屬性具有特殊針對(duì)性(如布局、對(duì)話、場(chǎng)景等),單模型缺乏多樣性表達(dá)能力。

      3 評(píng)價(jià)指標(biāo)

      對(duì)合成圖像的質(zhì)量開(kāi)展量化評(píng)估工作存在較大的挑戰(zhàn),早期RMSE(root mean square error)等類(lèi)似的評(píng)估指標(biāo)并不十分精準(zhǔn),因?yàn)楹铣蓤D像和真實(shí)圖像之間并沒(méi)有絕對(duì)的一對(duì)一的對(duì)應(yīng)關(guān)系。AMT(Amazon mechanical turk)是常用的主觀指標(biāo),它根據(jù)觀察主觀認(rèn)知判定圖像的逼真程度,對(duì)合成圖像和真實(shí)圖像進(jìn)行評(píng)分。然而不同觀察者對(duì)主觀評(píng)價(jià)結(jié)論存在差異,因此也需要結(jié)合客觀的指標(biāo)來(lái)評(píng)估圖像的質(zhì)量。

      在圖像分類(lèi)中,將數(shù)據(jù)放入預(yù)先訓(xùn)練的圖像分類(lèi)器模型,IS(inception score)根據(jù)分類(lèi)概率分布的信息墑評(píng)估圖像質(zhì)量,Inception評(píng)分準(zhǔn)則是圖像x越好,條件分布p(y|x)的信息熵越低,意味著分類(lèi)器對(duì)圖像的內(nèi)容有很高的評(píng)價(jià)。邊際分布p(y)=∫p(y|x=G(z))dz應(yīng)該具有較高的信息熵,代表模型可生成更多類(lèi)別的圖像。IS由exp(E x~G(z)DKL(p(y|x)||p(y)))計(jì)算得到,Lucic等人[71]在研究中討論了Inception評(píng)分的缺點(diǎn),指出它對(duì)標(biāo)簽的先驗(yàn)分布不敏銳,難以檢測(cè)過(guò)擬合現(xiàn)象,并且初始得分還會(huì)受到類(lèi)內(nèi)模式崩潰的影響,不能夠測(cè)量類(lèi)內(nèi)的變化情況。因?yàn)槟P椭恍枰獮槊總€(gè)類(lèi)別生成一個(gè)完整的樣本就可以獲得較高的初始得分,所以它不太適合評(píng)估更復(fù)雜的數(shù)據(jù)集,尤其是數(shù)據(jù)集圖像中包含多種對(duì)象的數(shù)據(jù)。

      表1 各文本到圖像生成方法的優(yōu)缺點(diǎn)總結(jié)Table 1 Summary of advantages and disadvantages of each text-to-image method

      與Inception評(píng)分類(lèi)似,F(xiàn)CN-score[72(]fully convolutional network score)采用的思想是若合成圖像是真實(shí)的,在真實(shí)圖像上訓(xùn)練的分類(lèi)器就能夠正確地對(duì)合成圖像進(jìn)行分類(lèi)。然而,圖像分類(lèi)器并不對(duì)輸入圖像的清晰度做要求,這意味著基于圖像分類(lèi)器的度量指標(biāo)可能無(wú)法準(zhǔn)確區(qū)分存在微小細(xì)節(jié)差異的兩幅圖像。另外,對(duì)抗性例子的研究[73]表明,分類(lèi)器會(huì)受到人眼不可見(jiàn)的噪聲影響,使該度量的準(zhǔn)確度下降。

      FID(Fréchet inception distance)[74]提供了一種不同的評(píng)估技術(shù),主要是測(cè)量評(píng)估真實(shí)圖像與生成圖像之間的特征距離分布。首先生成的圖像被嵌入到Inception網(wǎng)絡(luò)所選層的潛在特征空間中,將生成的圖像和真實(shí)圖像的嵌入處理為兩個(gè)連續(xù)的多元高斯樣本,以方便計(jì)算其均值和協(xié)方差。生成圖像的質(zhì)量可以通過(guò)兩個(gè)高斯函數(shù)之間的Fréchet距離來(lái)確定:

      式中,(μx,μg)和(Σx,Σg)分別為真實(shí)數(shù)據(jù)分布和生成器學(xué)習(xí)分布中樣本的均值和協(xié)方差。

      除了IS、FCN和FID之外,還有GPW(Gaussian Parzen window)[75],GAM(generative adversarial metric)[76]和MS(mode score)[77]等指標(biāo)。但I(xiàn)nception評(píng)分是定量評(píng)估合成圖像研究中應(yīng)用最廣泛的一項(xiàng)指標(biāo)。Heusel等[74]研究發(fā)現(xiàn)FID與人的判斷較為一致,且FID與生成圖像的質(zhì)量之間存在很強(qiáng)的負(fù)相關(guān)關(guān)系。此外,F(xiàn)ID對(duì)噪聲的敏感度低于IS,能夠檢測(cè)類(lèi)模式崩潰,且能更好地限制對(duì)各種干擾因素的評(píng)估[71]。

      以下分類(lèi)歸納了文本到圖像生成的六種方法中具有代表性的模型評(píng)估指標(biāo),這些方法主要采用CUB、Oxford-102和COCO數(shù)據(jù)集開(kāi)展研究和評(píng)價(jià)。直接圖像法結(jié)果評(píng)估如表2所示,相比而言,在Oxford-102數(shù)據(jù)集中TAC-GAN較GAN-INT-CLS的IS評(píng)估結(jié)果更高,而FID評(píng)估具有相同的水平,對(duì)于其他數(shù)據(jù)集TACGAN缺少實(shí)驗(yàn)結(jié)果。分層體系結(jié)構(gòu)法評(píng)估如表3所示,對(duì)于主流的數(shù)據(jù)集,HFGAN相比其他方法,在IS和FID指標(biāo)評(píng)估中均表現(xiàn)出明顯的優(yōu)勢(shì);HDGAN在Oxford-102數(shù)據(jù)中的FID評(píng)估結(jié)果最好,為40.02±0.55。注意力機(jī)制法評(píng)估如表4所示,這類(lèi)方法的研究者們均采用IS開(kāi)展評(píng)估,SDGAN表現(xiàn)出了最好的效果,對(duì)于CUB數(shù)據(jù)集,SEGAN與其表現(xiàn)一致,均達(dá)到了4.67。周期一致性法結(jié)果評(píng)估如表5所示,這類(lèi)方法也主要采用IS評(píng)估,DM-GAN在CUB和COCO數(shù)據(jù)集中的評(píng)估值分別為4.75和30.49,表現(xiàn)出了最好的效果,而DAI-GAN的評(píng)估結(jié)果最差。自適應(yīng)非條件模型法結(jié)果評(píng)估如表6所示,對(duì)于CUB數(shù)據(jù)集TVBi-GAN的IS評(píng)價(jià)結(jié)果最佳,為5.03;而COCO數(shù)據(jù)集中Text-Style-GAN表現(xiàn)最好,達(dá)到33.00±0.31。附加監(jiān)督法結(jié)果評(píng)估如表7所示,因?yàn)樯婕暗饺缍鄻?biāo)題、布局、語(yǔ)義掩碼、場(chǎng)景圖等特點(diǎn),這類(lèi)方法的數(shù)量最多,但仍缺少某些數(shù)據(jù)集的評(píng)估實(shí)驗(yàn)。根據(jù)IS評(píng)估得知,Oxford-102數(shù)據(jù)集中LeicaGAN效果最好,為3.92±0.02,CUB和COCO數(shù)據(jù)集中RiFeGAN表現(xiàn)最佳,評(píng)估值分別為5.23和31.70;FID評(píng)估主要在COCO數(shù)據(jù)集中開(kāi)展,WSA的生成圖像具有最高質(zhì)量,達(dá)到19.65。

      表2 各直接圖像法結(jié)果評(píng)估Table 2 Evaluations of direct text-to-image methods

      表3 各分層體系結(jié)構(gòu)法結(jié)果評(píng)估Table 3 Evaluations of stacked architecture methods

      表4 各注意力機(jī)制法結(jié)果評(píng)估Table 4 Evaluations of attention mechanism methods

      表5 各周期一致性法結(jié)果評(píng)估Table 5 Evaluations of cycle consistency methods

      表6 各自適應(yīng)非條件模型法結(jié)果評(píng)估Table 6 Evaluations of adapting unconditional model methods

      表7 各附加監(jiān)督法結(jié)果評(píng)估Table 7 Evaluations of additional supervision methods

      4 研究展望

      4.1 模型方法

      從文本到圖像生成的方法已經(jīng)歷了長(zhǎng)時(shí)間的發(fā)展和進(jìn)步,與2016年提出的基于深度學(xué)習(xí)的初期體系結(jié)構(gòu)相比,當(dāng)前主流的方法是采用多個(gè)階段式通道和損失評(píng)估函數(shù)構(gòu)成的模型,如由生成器和鑒別器組成的GAN模型的損失評(píng)估。并且在低分辨率的圖像生成到高分辨率的多種類(lèi)型目標(biāo)生成方面,已得到尤為突出的發(fā)展,但生成的目標(biāo)圖像的細(xì)粒度和清晰度仍然具有較大的挑戰(zhàn)。例如采用句子級(jí)的描述來(lái)表達(dá)圖像信息,則生成圖像將缺乏細(xì)粒度表現(xiàn),為生成高質(zhì)量圖像,模型及數(shù)據(jù)集對(duì)句子和詞語(yǔ)的混合多層次映射關(guān)系具有較高要求。

      模型對(duì)場(chǎng)景和對(duì)象的理解非常重要,目前的研究大多是基于單一目標(biāo)圖像開(kāi)展,能夠根據(jù)文字描述獲得高質(zhì)量的生成圖像,但針對(duì)多個(gè)目標(biāo)的復(fù)雜場(chǎng)景的圖像生成難度較大。單句描述不能夠滿足模型對(duì)復(fù)雜場(chǎng)景的理解,尤其涉及到生成多對(duì)象、相互關(guān)聯(lián)、復(fù)雜的場(chǎng)景圖像等情況,未對(duì)場(chǎng)景的目標(biāo)對(duì)象合理分解并準(zhǔn)確理解。盡管已有部分研究開(kāi)始注重多目標(biāo)對(duì)象和融合場(chǎng)景的分析,但仍處于初期研究階段,因此在多語(yǔ)句關(guān)聯(lián)句式描述、豐富標(biāo)簽樣本、場(chǎng)景對(duì)象生成等方面的研究工作值得進(jìn)一步深入和拓展。

      盡管目前使用的數(shù)據(jù)集提供了多文本的圖像描述,但針對(duì)實(shí)際應(yīng)用中存在的復(fù)雜場(chǎng)景的圖像生成,標(biāo)簽樣本數(shù)據(jù)難以支撐其模型生成。例如自然語(yǔ)言描述的句子或詞語(yǔ)在模型中將被標(biāo)注成向量,而向量與圖像之間的映射關(guān)系可能存在多對(duì)一或一對(duì)多的情況,因此數(shù)據(jù)集中的文本描述與圖像屬性的信息豐富度,將決定模型的泛化性、復(fù)用性、精準(zhǔn)性及適用性。

      近些年文本到圖像的生成方法大量集中到GAN模型的研究,盡管已經(jīng)取得顯著進(jìn)展,但該模型仍然存在自身應(yīng)用的局限,例如模型準(zhǔn)確度問(wèn)題,深度卷積神經(jīng)網(wǎng)絡(luò)模型本身所具備的特點(diǎn)導(dǎo)致模型的可解釋性差,模型權(quán)重值的偏差分布沒(méi)有顯式表達(dá),模型訓(xùn)練過(guò)程中捕捉到的重要視覺(jué)細(xì)節(jié)的文本特征表示會(huì)對(duì)模型準(zhǔn)確性造成影響,并存在生成圖像與真實(shí)性之間的偏差。因此鼓勵(lì)拓展其他模型及研究方法,例如變分自動(dòng)編碼模型[16,78]、自回歸模型[79-81]、流轉(zhuǎn)模型[82-83]、分?jǐn)?shù)匹配網(wǎng)絡(luò)[84-86]和基于變壓器模型[87-89]。

      4.2 評(píng)價(jià)方法

      評(píng)價(jià)生成圖像的質(zhì)量、多樣性和語(yǔ)義準(zhǔn)確度等標(biāo)準(zhǔn)是具有較大挑戰(zhàn)的難題,也是一個(gè)開(kāi)放性問(wèn)題[90]。對(duì)公開(kāi)數(shù)據(jù)集中的真實(shí)圖像進(jìn)行IS、FID、FCN-score等指標(biāo)評(píng)估,這些指標(biāo)均存在不同程度的缺陷。IS可能存在過(guò)擬合的情況,需要通過(guò)設(shè)置更大的Batch-size來(lái)改進(jìn)[91]。Zhang等人[92]已經(jīng)觀察到模型生成的圖像要比真實(shí)圖像的FID評(píng)估分?jǐn)?shù)高,原因是目前的訓(xùn)練模型與評(píng)估方法存在相同的文本編碼器,模型在訓(xùn)練期間就已經(jīng)過(guò)度擬合了該度量。IS和FID都使用了在ImageNet上預(yù)先訓(xùn)練過(guò)的Inception-v3網(wǎng)絡(luò),這在應(yīng)用到多個(gè)目標(biāo)對(duì)象的復(fù)雜場(chǎng)景圖像時(shí)會(huì)存在問(wèn)題。Hinz等人發(fā)現(xiàn)[60]IS對(duì)擁有多個(gè)目標(biāo)的圖像評(píng)估時(shí)其多樣性和客觀性較差,例如該方法會(huì)將同一類(lèi)目標(biāo)分配給不同圖像和場(chǎng)景,并且其輸出層具有較高的熵,解決該問(wèn)題的一種方法是分別對(duì)單一場(chǎng)景開(kāi)展評(píng)估。Sylvain等人[62]訓(xùn)練了一個(gè)從布局到圖像的生成器,并提出了SceneFID(scene Fréchet inception distance,SceneFID)方法,它與FID類(lèi)似,將應(yīng)用參數(shù)輸入邊界框識(shí)別的目標(biāo)中,且適用于未將布局作為條件輸入的模型,其特點(diǎn)是能夠使用預(yù)先訓(xùn)練的目標(biāo)檢測(cè)器來(lái)定位目標(biāo)。

      目前的許多文獻(xiàn)表明了相同的模型可能會(huì)存在不同的評(píng)估分?jǐn)?shù),經(jīng)過(guò)統(tǒng)計(jì)多篇論文中的模型評(píng)估結(jié)果,分析發(fā)現(xiàn)即使采用同樣的方法評(píng)估同樣的模型,不同的實(shí)驗(yàn)也將導(dǎo)致指標(biāo)結(jié)果不一致。分?jǐn)?shù)的變化取決于實(shí)現(xiàn)方式、圖像分辨率、樣本數(shù)量等因素。常見(jiàn)的問(wèn)題是評(píng)估過(guò)程沒(méi)有得到準(zhǔn)確的解釋?zhuān)⑶议_(kāi)源代碼未包含評(píng)估代碼。另外,部分研究在不斷更新研究方法的源代碼,存在評(píng)估結(jié)論與論文結(jié)果不一致的情況,為了保障論文方法的可重現(xiàn)性,本研究同樣鼓勵(lì)研究人員開(kāi)源評(píng)估方法所用的代碼,并提供精確描述。

      發(fā)展具有較好適應(yīng)性的度量指標(biāo)存在一定困難,且生成模型會(huì)展開(kāi)各方面的配置優(yōu)化,難以獲得具備普遍良好共識(shí)的評(píng)估效果。在未來(lái)的研究中,可以考慮研究能夠?qū)⒏黜?xiàng)指標(biāo)綜合對(duì)比的評(píng)估方法,將充分考慮其圖像高保真度及多樣性、解耦表達(dá)、明確界限、尺度轉(zhuǎn)化不變性、與人類(lèi)主觀評(píng)價(jià)的高一致性、計(jì)算簡(jiǎn)化性等特點(diǎn)。

      綜合以上討論,創(chuàng)建一種新穎的、全面的且精準(zhǔn)的評(píng)估方法存在很大的挑戰(zhàn),如何更好地使用現(xiàn)有的評(píng)估指標(biāo)開(kāi)展文字到圖像生成的質(zhì)量評(píng)估工作,給出以下建議:

      (1)建議使用FID評(píng)估圖像視覺(jué)質(zhì)量并測(cè)量真實(shí)圖像的距離分布;

      (2)若圖像中的目標(biāo)位置已知,建議使用SceneFID進(jìn)行目標(biāo)評(píng)估;

      (3)建議提供關(guān)于研究模型參數(shù)設(shè)置的詳細(xì)描述,包括樣本、模型、默認(rèn)參數(shù)的數(shù)量等具體說(shuō)明;

      (4)建議研究人員不僅開(kāi)放模型的源代碼,并且開(kāi)放生產(chǎn)結(jié)果的評(píng)估代碼,并附上實(shí)現(xiàn)方式及版本號(hào)。

      5 總結(jié)與展望

      本綜述介紹了當(dāng)前基于深度學(xué)習(xí)的文字合成圖像的方法及核心特點(diǎn),并討論這些技術(shù)所面臨的挑戰(zhàn)。本文將現(xiàn)有的文字生成圖像方法分為直接圖像法、多層體系結(jié)構(gòu)法、注意力機(jī)制法、周期一致性法、自適應(yīng)非條件模型法和附加監(jiān)督法,并對(duì)這些方法進(jìn)行了總結(jié)歸納,舉例了已有方法的構(gòu)建思路、模型特點(diǎn)、優(yōu)勢(shì)及局限性,突出基于深度學(xué)習(xí)的方法在文本到圖像生成方面的重要性和先進(jìn)性。

      盡管近些年在基于深度學(xué)習(xí)的文本到圖像的生成方法研究中已取得重大進(jìn)展,但技術(shù)研究仍然存在進(jìn)一步突破和改進(jìn)的潛力,包括生成高分辨率圖像、生成圖像與文本描述的一致性、多場(chǎng)景適應(yīng)性應(yīng)用、生成圖像質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)及評(píng)估技術(shù)精準(zhǔn)度的突破等。在模型架構(gòu)方面,建議開(kāi)展文本嵌入的重要性和結(jié)果質(zhì)量分析,并探索文本到圖像的生成模型對(duì)不同場(chǎng)景的理解與應(yīng)用。另外,為實(shí)現(xiàn)文字到圖像生成的場(chǎng)景應(yīng)用,對(duì)圖像生成過(guò)程進(jìn)行細(xì)粒度控制尤為重要。因此,在采用模型實(shí)現(xiàn)圖像生成的基礎(chǔ)上,未來(lái)研究工作還應(yīng)側(cè)重于成果迭代及智能交互的實(shí)現(xiàn)。

      本研究參考了當(dāng)前主流的圖像生成評(píng)估技術(shù)評(píng)價(jià)文字到圖像的生成質(zhì)量,隨著IS、FID、FCN-score等評(píng)估指標(biāo)技術(shù)的提出,能夠更有效地采用定量指標(biāo)評(píng)估圖像生成的模型質(zhì)量。除了客觀指標(biāo)評(píng)價(jià),研究者的主觀評(píng)價(jià)也尤為重要,但沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)存在,同樣面臨進(jìn)一步的突破。期望本綜述有助于研究者了解當(dāng)前文本到圖像生成技術(shù)所面臨的挑戰(zhàn),并為該領(lǐng)域未來(lái)的研究發(fā)展提供參考。

      猜你喜歡
      語(yǔ)義評(píng)估文本
      語(yǔ)言與語(yǔ)義
      在808DA上文本顯示的改善
      基于doc2vec和TF-IDF的相似文本識(shí)別
      電子制作(2018年18期)2018-11-14 01:48:06
      “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
      文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
      評(píng)估依據(jù)
      認(rèn)知范疇模糊與語(yǔ)義模糊
      立法后評(píng)估:且行且盡善
      浙江人大(2014年5期)2014-03-20 16:20:25
      如何快速走進(jìn)文本
      最終評(píng)估
      达孜县| 黔南| 永春县| 蓝山县| 方城县| 盐边县| 金湖县| 都匀市| 乐昌市| 大厂| 六枝特区| 定远县| 太仓市| 镇康县| 辛集市| 赣州市| 宝鸡市| 昌宁县| 石楼县| 长治市| 扶风县| 秀山| 大安市| 青浦区| 信宜市| 安国市| 凉城县| 平谷区| 静海县| 西平县| 澄江县| 乌拉特后旗| 梓潼县| 淅川县| 桐柏县| 邳州市| 金昌市| 南康市| 英超| 普兰店市| 贡觉县|