• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于知識(shí)元模型的跨模態(tài)聊天卡通表情圖像合成

    2022-01-22 03:12:42李小瑞胡健龍
    圖學(xué)學(xué)報(bào) 2021年6期
    關(guān)鍵詞:聊天語(yǔ)義模態(tài)

    李小瑞,謝 誠(chéng),李 賓,柳 青,胡健龍

    基于知識(shí)元模型的跨模態(tài)聊天卡通表情圖像合成

    李小瑞,謝 誠(chéng),李 賓,柳 青,胡健龍

    (云南大學(xué)軟件學(xué)院,云南 昆明 650500)

    傳統(tǒng)的聊天卡通表情圖像生成技術(shù)主要基于預(yù)定義的聊天卡通表情圖像庫(kù),通過(guò)用戶的語(yǔ)義描述,進(jìn)行“語(yǔ)義-視覺(jué)”跨模態(tài)檢索,匹配合適的表情圖像。但是,預(yù)定義表情圖像庫(kù)樣本數(shù)量有限且是固定形式的,在實(shí)際的聊天場(chǎng)景中常常出現(xiàn)表情圖像的錯(cuò)誤匹配或無(wú)合適匹配。針對(duì)此問(wèn)題,聚焦于合成新的聊天卡通表情圖像而非檢索,設(shè)計(jì)了一種基于知識(shí)元模型的跨模態(tài)聊天卡通表情圖像合成方法,根據(jù)用戶的語(yǔ)義描述,即時(shí)合成對(duì)應(yīng)的聊天卡通表情圖像。通過(guò)表情知識(shí)元模型建立聊天卡通表情圖像的內(nèi)在語(yǔ)義邏輯關(guān)系,增強(qiáng)聊天卡通表情圖像合成的語(yǔ)義一致性。通過(guò)多生成器模型,從每個(gè)元知識(shí)點(diǎn)合成對(duì)應(yīng)的局部圖像,再經(jīng)過(guò)聯(lián)合生成器整合為完整的卡通表情圖像,極大地減少了訓(xùn)練樣本需求。在公開的聊天卡通表情圖像合成數(shù)據(jù)集的測(cè)試中,該方法在語(yǔ)義一致性上取得了更好的結(jié)果,同時(shí)在圖像質(zhì)量上與現(xiàn)有的方法具有可比性。

    圖像生成;跨模態(tài)學(xué)習(xí);文本合成圖像(T2I);知識(shí)元模型;圖像表情包

    互聯(lián)網(wǎng)聊天表情圖像合成是“語(yǔ)義-視覺(jué)”跨模態(tài)圖像生成[1]領(lǐng)域的一種典型應(yīng)用,即用戶可以通過(guò)語(yǔ)音或文字表達(dá)一個(gè)自己所期望的動(dòng)畫表情,模型可以根據(jù)語(yǔ)音或描述中的語(yǔ)義信息,針對(duì)性地合成出與所表達(dá)語(yǔ)義高度契合的卡通圖像表情。這種合成而非搜索式的“語(yǔ)義-視覺(jué)”映射方法,能夠顯著地提高聊天表情圖像合成的即時(shí)性、準(zhǔn)確性和上下文符合性,在計(jì)算機(jī)語(yǔ)義-視覺(jué)融合領(lǐng)域具有重要的研究意義和應(yīng)用價(jià)值。

    現(xiàn)有的聊天表情圖像主要通過(guò)“語(yǔ)義-視覺(jué)”匹配的方式生成,如百度輸入法表情、搜狗輸入法表情、facemoji等,在預(yù)定義的表情庫(kù)中,匹配最符合語(yǔ)義描述的表情圖像,并嵌入文字描述。但由于預(yù)定義表情庫(kù)中的圖像是靜態(tài)且有限的,難以完全符合聊天場(chǎng)景中的上下文語(yǔ)義,無(wú)法滿足當(dāng)今社交聊天[2]的需求。隨著圖像合成技術(shù)[3]的不斷發(fā)展,目前已有研究采用生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN)[4]進(jìn)行“語(yǔ)義-視覺(jué)”的圖像合成,能夠合成高質(zhì)量的、符合一定語(yǔ)義上下文的圖像,是目前聊天表情圖像合成的一種可行技術(shù)方向。

    然而,改進(jìn)后的GAN進(jìn)行“語(yǔ)義-視覺(jué)”的跨模態(tài)圖像合成,在語(yǔ)義一致性、訓(xùn)練樣本需求上仍具挑戰(zhàn),無(wú)法直接運(yùn)用于需要高度語(yǔ)義一致的表情圖像合成任務(wù)中。近期的研究中,StackGAN[5],StackGAN++[6],AttnGAN[7],MirrorGAN[8]擴(kuò)展了傳統(tǒng)的GAN,能夠?qū)崿F(xiàn)“語(yǔ)義-視覺(jué)”的圖像合成。雖然此類方法能夠合成較高紋理質(zhì)量的圖像,但圖像的語(yǔ)義一致性并不理想,難以應(yīng)用在注重語(yǔ)義一致性的表情圖像合成任務(wù)中。此外,現(xiàn)有的GAN對(duì)每個(gè)類都需求大量的訓(xùn)練樣本,而表情圖像主要以卡通線條為主,每種類別并沒(méi)有足夠的訓(xùn)練樣本,現(xiàn)有的方法難以直接運(yùn)用。

    針對(duì)此問(wèn)題,本文設(shè)計(jì)了一種基于知識(shí)元模型的跨模態(tài)表情圖像合成模型。通過(guò)表情知識(shí)元模型建立表情圖像的內(nèi)在語(yǔ)義邏輯關(guān)系,增強(qiáng)表情圖像合成的語(yǔ)義一致性。通過(guò)多生成器模型,從每個(gè)元知識(shí)點(diǎn)合成對(duì)應(yīng)的局部圖像,再經(jīng)過(guò)聯(lián)合生成器整合為完整的表情圖像,極大地減少了訓(xùn)練樣本需求。在公開的表情圖像合成數(shù)據(jù)集的測(cè)試中,本文提出的基于知識(shí)元模型的跨模態(tài)表情圖像合成模型在語(yǔ)義一致性上取得了更好的結(jié)果,且在圖像質(zhì)量上與現(xiàn)有的方法具有可比性。

    1 相關(guān)工作

    根據(jù)自然語(yǔ)言描述自動(dòng)生成圖像(text to image)是藝術(shù)生成和計(jì)算機(jī)輔助設(shè)計(jì)等多種應(yīng)用中的一個(gè)基本問(wèn)題。隨著深度學(xué)習(xí)技術(shù)的出現(xiàn),該方面的研究已取得了顯著的進(jìn)展[5-15]。本文的表情圖像合成是圖像生成任務(wù)中文本到圖像生成的一大應(yīng)用。

    1.1 圖像生成任務(wù)研究進(jìn)展

    圖像生成任務(wù)包括圖像到圖像、文本到圖像。在2016年以前,主流的圖像生成方法有變分自編碼器(variational auto encoder,VAE)[16]和深度遞歸注意力生成模型(deep recurrent attention writer,DRAW)[17]。VAE通過(guò)統(tǒng)計(jì)的方法進(jìn)行建模最大化數(shù)據(jù)的最小可能性來(lái)生成圖像,并直接對(duì)比原始圖像和重建圖像的差異,但缺乏類似GAN模型[4]中生成器和判別器的博弈,會(huì)趨向于生成模糊的圖像。DRAW使用循環(huán)神經(jīng)網(wǎng)絡(luò),利用注意力機(jī)制,每一步關(guān)注一個(gè)生成對(duì)象,依次生成一個(gè)批量以疊加出最終結(jié)果。MANSIMOV等[18]提出的AlignDRAW在傳統(tǒng)DRAW的基礎(chǔ)上加入了文本對(duì)齊,同時(shí)生成新的圖像,其不完全是訓(xùn)練集中出現(xiàn)過(guò)的圖像,圖像質(zhì)量不可信且精度低。隨著2014年GAN被提出,其在圖像生成任務(wù)上表現(xiàn)出良好的性能,成為圖像生成模型的首選之一。

    另一方面,圖像到圖像的生成任務(wù)被定義為將一個(gè)場(chǎng)景表示轉(zhuǎn)換成另一個(gè)場(chǎng)景表示的問(wèn)題,其目標(biāo)是通過(guò)一組對(duì)齊圖像對(duì)的訓(xùn)練集來(lái)學(xué)習(xí)輸入圖像和輸出圖像之間的映射關(guān)系。但對(duì)于其他許多任務(wù),成對(duì)的訓(xùn)練數(shù)據(jù)較難獲得。2017年ZHU等[19]提出的CycleGAN實(shí)現(xiàn)了無(wú)監(jiān)督的圖像到圖像的轉(zhuǎn)換,該模型在沒(méi)有成對(duì)例子的情況下學(xué)習(xí)將圖像從源域轉(zhuǎn)換到目標(biāo)域的方法。而相較圖像到圖像的合成,文本到圖像合成任務(wù)要困難得多,因?yàn)槲谋竞蛨D像之間的跨域和跨模態(tài)差異比具有不同屬性(如風(fēng)格)的圖像之間的差異要大得多。

    1.2 視覺(jué)語(yǔ)義合成圖像研究進(jìn)展

    2016年文獻(xiàn)[9]提出了GAN-INT-CLS網(wǎng)絡(luò),并首次用GAN的思想完成文本到圖像的合成任務(wù)。GAN-INT-CLS模型的主干為GAN,在輸入中加入文本特征作為生成器和判別器的輸入,解決了文本信息的稀疏問(wèn)題,另在文本特征中使用插值,使得生成的圖像更加多樣,但最終只能生成64×64的圖像。2016年文獻(xiàn)[5]擴(kuò)展了GAN-INT-CLS網(wǎng)絡(luò),提出了堆疊生成式對(duì)抗網(wǎng)絡(luò)StackGAN,該模型能基于文本描述生成較真實(shí)的圖像,使用2個(gè)GAN模型分步生成圖像。因僅在網(wǎng)絡(luò)中增加上采樣層并不能提升生成圖片的質(zhì)量,所以文獻(xiàn)[5]提出了一個(gè)分兩階段的GAN網(wǎng)絡(luò):第一階段用于生成低精度(64×64)的圖像;第二階段將第一階段結(jié)果和文本描述作為輸入,最終生成了較高分辨率的圖像,但該模型不是端到端的訓(xùn)練。2017年文獻(xiàn)[6]進(jìn)一步提出了StackGAN++,將GAN擴(kuò)充成一個(gè)樹狀的結(jié)構(gòu),采用了多個(gè)生成器和多個(gè)鑒別器并行訓(xùn)練,得到不同精度(64×64,128×128,256×256)的圖像,低精度生成器輸出的隱藏信息,一方面生成低精度圖,另一方面作為更高精度生成器的輸入;該模型雖能生成比之前精度更高的圖像,但該模型輸入為整個(gè)句子特征,遺漏了更多細(xì)粒度的信息,而阻礙了更高精度、更高語(yǔ)義信息的圖像生成。2018年,文獻(xiàn)[7]提出了一種注意力模型AttnGAN,其相比于StackGAN++[6]增加了注意力機(jī)制,不僅提取文本句子特征作為全局約束,同時(shí)也將注意力精確到詞級(jí)提取了詞級(jí)特征作為局部約束,生成器和鑒別器每次針對(duì)詞級(jí)特征進(jìn)行部分精準(zhǔn)優(yōu)化,在生成圖像不同的子區(qū)域時(shí),引導(dǎo)生成器關(guān)注不同的單詞,從而使得生成圖像更突出文本中的細(xì)節(jié)。其已能生成高質(zhì)量的圖像,也首次評(píng)估了圖像的語(yǔ)義一致性。2019年,文獻(xiàn)[8]提出MirrorGAN,其結(jié)合了“全局到局部”的注意力機(jī)制和保留語(yǔ)義的文本到圖像再到文本的框架,保證文本描述和視覺(jué)內(nèi)容之間的語(yǔ)義一致性。同年,文獻(xiàn)[13]提出故事可視化任務(wù),并提出了一個(gè)基于序列條件GAN的故事圖像序列生成模型StoryGAN,其能根據(jù)輸入故事中每一個(gè)句子生成一張對(duì)應(yīng)的圖片;文獻(xiàn)[14]提出ReSTGAN,能逐步生成可能的圖像,以補(bǔ)充查詢中服裝的細(xì)粒度風(fēng)格和顏色,旨在幫助顧客可視化服飾的風(fēng)格和顏色,匹配其“搜索查詢關(guān)鍵字”,幫助顧客購(gòu)買其喜歡的產(chǎn)品。以上2個(gè)為文本到圖像生成[5-15]任務(wù)的應(yīng)用。

    自2016年使用GAN完成圖像生成任務(wù)以來(lái),生成圖像的質(zhì)量和圖像語(yǔ)義性均有很大進(jìn)展,提出的模型在各大數(shù)據(jù)集上都表現(xiàn)良好,但極度缺乏應(yīng)用,且各模型要在大數(shù)據(jù)集上訓(xùn)練,每個(gè)數(shù)據(jù)集少則幾萬(wàn)張,多則幾十萬(wàn)張,極大限制了文本生成圖像技術(shù)在其他方向或領(lǐng)域的拓展應(yīng)用。

    1.3 表情圖像合成進(jìn)展

    文本到表情圖像合成任務(wù)還有待研究。斯坦福大學(xué)的PEIRSON和TOLUNAY[20]提出了一個(gè)模因生成系統(tǒng),該系統(tǒng)能為任何圖片生成幽默且相關(guān)的標(biāo)題;系統(tǒng)可依賴圖片,還可依賴與模因模板相關(guān)的用戶自定義標(biāo)簽,為用戶提供對(duì)模因內(nèi)容的處理。共收集了大約40萬(wàn)張帶標(biāo)簽圖片或圖說(shuō)圖片,其中有2 600個(gè)獨(dú)特的圖像-標(biāo)簽對(duì)。但該系統(tǒng)僅為表情圖片生成標(biāo)題,類似于圖像理解[21-26],并不是真正意義的文本合成表情圖像;且目前還沒(méi)有國(guó)內(nèi)社交用戶喜歡的專門的表情圖像數(shù)據(jù)集。因此,提供一個(gè)表情圖像合成的數(shù)據(jù)集,實(shí)現(xiàn)真正意義的文本合成表情圖像,構(gòu)建一個(gè)符合當(dāng)代社交用戶需求的表情圖像合成系統(tǒng)勢(shì)在必行。

    2 基于知識(shí)元模型的跨模態(tài)圖像合成

    圖1為本文設(shè)計(jì)的基于知識(shí)元模型的跨模態(tài)表情圖像合成模型。第一部分為表情多元知識(shí)元模型,以建立表情圖像的內(nèi)在語(yǔ)義邏輯關(guān)系;第二部分為基于知識(shí)元模型的多生成器,從每個(gè)元知識(shí)點(diǎn)合成對(duì)應(yīng)的局部圖像;第三部分為多生成器聯(lián)合模型,把多生成器生成的局部圖像整合為完整的表情圖像。

    2.1 表情多元知識(shí)元模型

    表情知識(shí)元模型如圖2所示。每張表情圖像都被定義為包含13個(gè)特征的多元知識(shí)圖譜,即頭型、五官、臉部、頭部、嘴巴、衣服、褲子、左手、左拿、右手、右拿、左腳、右腳。

    圖1 基于知識(shí)元模型的跨模態(tài)圖像合成模型

    Fig. 1 Cross-modal image synthesis model based on knowledge meta-model

    圖2 表情圖像多元知識(shí)圖譜

    其中,為第個(gè)特征的增廣向量,本文為128維。

    2.2 基于知識(shí)元模型的多生成器

    基于知識(shí)元模型的多生成器,從每個(gè)元知識(shí)點(diǎn)合成對(duì)應(yīng)的局部圖像,如圖1的右上角所示。本文考慮到頭型、五官和上半身足夠表示一張表情圖像,也為了簡(jiǎn)化模型,采用了三元生成器對(duì)表情圖像的頭型、五官和上半身局部圖像進(jìn)行生成。且每個(gè)知識(shí)元模型生成器結(jié)構(gòu)相同。

    2.3 多生成器聯(lián)合模型

    最后經(jīng)過(guò)多生成器聯(lián)合模型的生成器生成一張128×128的表情圖像。

    其中,為真實(shí)樣本圖像;為文本標(biāo)簽數(shù)據(jù)0和f,在式(5)和(6)中給出。

    基于知識(shí)元模型的跨模態(tài)圖像合成模型生成一張完整的表情圖像,其是多階段的,最終的目標(biāo)函數(shù)定義為

    3 實(shí)驗(yàn)及性能評(píng)估

    3.1 數(shù)據(jù)設(shè)置

    本文基于目前的表情圖像合成任務(wù)公開了專用數(shù)據(jù)集(表情圖像合成數(shù)據(jù)集:https://github.com/ fefa/MemeGAN)。該數(shù)據(jù)集包含了熊貓頭和蘑菇頭2類用戶常用表情圖像。從互聯(lián)網(wǎng)上爬取了14 000張表情圖像,去除了模糊和不符合的圖像及圖中文本,最后獲得512張表情圖像。其中,每張圖片分為6個(gè)部分:頭型、五官、上半身、下半身、左手和右手,每個(gè)部分都有對(duì)應(yīng)的文本標(biāo)簽。為了評(píng)估提出的模型,本文還指定了測(cè)試集,其包含了70張2類表情圖像,每張圖片包括5條文本標(biāo)簽,其中只有一條與圖片相對(duì)應(yīng)。

    3.2 評(píng)估指標(biāo)

    本文使用了2個(gè)指標(biāo)評(píng)估該模型:首先,F(xiàn)ID (Fréchet inception distance)[27]評(píng)估生成圖像的質(zhì)量和多樣性,分?jǐn)?shù)越低表示生成的圖像質(zhì)量更高和多樣性更好。另外,還用R-precision[7]評(píng)估生成的圖像與對(duì)應(yīng)的文本描述之間的視覺(jué)語(yǔ)義相似度。

    為了獲得R-precision得分,本文專門訓(xùn)練了一個(gè)文本語(yǔ)義相似度模型,包括圖像編碼器和文本編碼器2個(gè)部分。該模型將文本和圖像映射到共同的語(yǔ)義空間,并從文本角度評(píng)測(cè)生成圖像和輸入文本的相似度。文本編碼器是目前開源的中文詞向量模型,以提取語(yǔ)義特征;圖像編碼器為卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN),將圖像映射到語(yǔ)義向量空間,CNN中間層學(xué)習(xí)圖像塊特征,后面層學(xué)習(xí)圖像的全局特征。即圖像編碼器是在表情圖像合成數(shù)據(jù)集上訓(xùn)練的inception-v3網(wǎng)絡(luò)[28]。最后,通過(guò)添加全連接層將圖像特征轉(zhuǎn)到文本特征的公共語(yǔ)義空間。

    對(duì)于每一張生成的圖像,均包含1條真實(shí)文本描述和4條從測(cè)試集中隨機(jī)選擇的不匹配文本描述的文本描述池。然后計(jì)算池中每1條文本特征和生成圖像特征的余弦相似度;因測(cè)試集只是5條文本描述,所以最后只計(jì)算top-1設(shè)置下的平均精度,即只有=1時(shí)為正確。分?jǐn)?shù)越高,則表示生成的圖像與輸入文本描述的視覺(jué)語(yǔ)義相似性越高。

    3.3 結(jié)果分析

    3.3.1 定量結(jié)果分析

    將本文提出的表情圖像合成模型與傳統(tǒng)的文本合成圖像模型進(jìn)行定性和定量的比較,以驗(yàn)證本文模型的有效性。為公平評(píng)估,將傳統(tǒng)的文本生成圖像模型在本文數(shù)據(jù)集上訓(xùn)練。因數(shù)據(jù)集中的圖像分辨率為130×130,對(duì)StackGAN,AttnGAN和MirrorGAN[8]模型的參數(shù)進(jìn)行了調(diào)整:StackGAN各階段生成圖像的分辨率依次為64×64,128×128;AttnGAN和MirrorGAN生成圖像的分辨率依次為32×32,64×64和128×128。StackGAN1表示StackGAN模型第一階段,以此類推?;谥R(shí)元模型的跨模態(tài)表情圖像合成模型與其他方法獲得的FID分?jǐn)?shù)見(jiàn)表1,分?jǐn)?shù)越低表示生成的圖像質(zhì)量越好,所有模型FID分?jǐn)?shù)取分均值。與傳統(tǒng)的文本合成圖像模型StackGAN,AttnGAN和MirrorGAN相比,本文模型均取得最好的FID分?jǐn)?shù)177.01分。結(jié)果表明,與傳統(tǒng)的文本合成圖像的模型相比,本文模型更能生成多樣化、質(zhì)量更好的表情圖像。

    表1 表情圖像合成模型與傳統(tǒng)的文本合成圖像模型在表情圖像數(shù)據(jù)集上的FID分?jǐn)?shù)

    注:↓表示越低越好

    表2展示了表情圖像合成模型與傳統(tǒng)的文本合成圖像模型在本文數(shù)據(jù)集上的R-precision[7]的得分。分?jǐn)?shù)越高表示生成的圖像與輸入的文本有更高的語(yǔ)義相似度。所有得分都取top-1分?jǐn)?shù)均值。

    表2 表情圖像合成模型與傳統(tǒng)的文本合成圖像模型在表情圖像數(shù)據(jù)集上的R-precision(↑)top-1分?jǐn)?shù)(%)

    注:↑表示越高越好

    可以看出,與傳統(tǒng)的文本合成圖像相比,本文模型生成的圖像有更強(qiáng)的語(yǔ)義性。特別說(shuō)明,AttnGAN3雖然也獲得了較高分?jǐn)?shù),但生成的表情圖像各個(gè)部分不清晰,不可用。

    另外,本文還評(píng)估了不同的Learning rate()和多生成器聯(lián)合模型不同的對(duì)整體損失的影響,取值為0.000 1~0.000 5,設(shè)置1,2,3,5和10,計(jì)算不同和設(shè)置下的FID分?jǐn)?shù),結(jié)果如圖3所示,展示了500輪結(jié)果的均值、最大值和最小值,在為0.000 3、為3的設(shè)置下,獲得最好的FID(↓)分?jǐn)?shù)。

    3.3.2 定性結(jié)果分析

    基于知識(shí)元模型的多生成器生成的局部表情圖像如圖4所示,可以看出多生成器能準(zhǔn)確地生成表情局部圖像。表情圖像合成模型與StackGAN,AttnGAN和MirrorGAN的主觀視覺(jué)比較如圖5所示,第1行為GroundTruth真實(shí)樣本,包括文字描述和對(duì)應(yīng)的表情圖像。接下來(lái)是各模型以真實(shí)的樣本文字描述為輸入,連續(xù)生成的5張表情圖像。

    在實(shí)際訓(xùn)練中,隨著階段增加分辨率提高,AttnGAN,MirrorGAN模型生成的圖像模糊不清,表明其難以對(duì)多個(gè)對(duì)象和關(guān)系進(jìn)行建模,因此合成包含多個(gè)對(duì)象的圖像比較困難。同3.3.1節(jié)所述,因訓(xùn)練集圖像分辨率為130×130,為了公平的比較,對(duì)StackGAN,AttnGAN和MirrorGAN模型參數(shù)進(jìn)行了調(diào)整。本文僅與各模型的最后階段生成的圖像進(jìn)行比較??梢钥闯觯琒tackGAN生成的圖像比AttnGAN和MirrorGAN視覺(jué)效果更好,但生成圖片偏離了輸入的文本描述。而本文模型生成的圖像相比于其他模型,圖像質(zhì)量和語(yǔ)義更接近于真實(shí)樣本。

    圖3 模型超參結(jié)果分析((a)表情圖像合成模型不同的learning rate獲得的FID分?jǐn)?shù);(b)表情圖像合成模型不同l獲得的R-precision分?jǐn)?shù))

    圖4 多生成器生成的局部圖像

    3.4 實(shí)例分析

    基于知識(shí)元模型的跨模態(tài)表情圖像合成模型的手機(jī)APP原型程序(https://github.com/fesfa/ memeApp)已經(jīng)設(shè)計(jì)并開發(fā)。該應(yīng)用程序一共包括表情圖像4個(gè)模塊:語(yǔ)義合成、人臉定制、風(fēng)格遷移和智能推薦。本文模型運(yùn)用到表情圖像語(yǔ)義合成模塊。表情圖像語(yǔ)義合成模塊用戶可以自由輸入、提示輸入合成表情圖片,如圖6(a)所示;表情圖像人臉定制模塊用戶需上傳個(gè)人照片和場(chǎng)景照片,可獲得個(gè)性化的表情圖像,如圖6(b)所示;表情圖像風(fēng)格遷移模塊用戶需上傳照片,選擇遷移風(fēng)格,得到風(fēng)格遷移的表情圖像,目前可得到9種類型的表情圖像,如圖6(c)所示;表情圖像智能推薦如圖6(d)所示。

    圖6 原型應(yīng)用程序((a)語(yǔ)義合成表情圖像,文本描述合成表情圖像;(b)個(gè)性化定制表情圖像,定制任意風(fēng)格的表情圖像;(c)風(fēng)格遷移表情圖像;(d)智能推薦表情圖像)

    4 總結(jié)與展望

    本文設(shè)計(jì)了一種基于知識(shí)元模型的跨模態(tài)表情圖像合成方法,即根據(jù)用戶語(yǔ)義描述,即時(shí)合成對(duì)應(yīng)的表情圖像。提出通過(guò)表情知識(shí)元模型建立表情圖像的內(nèi)在語(yǔ)義邏輯關(guān)系,有效地提高了合成圖像的語(yǔ)義一致性;提出多生成器模型,從元知識(shí)點(diǎn)合成局部表情圖像,最后經(jīng)過(guò)聯(lián)合生成器整合局部表情圖像為完整的表情圖像,整個(gè)架構(gòu)極大地減少了訓(xùn)練樣本需求。通過(guò)該方法,用戶可在復(fù)雜的聊天場(chǎng)景中快速獲得符合語(yǔ)義的表情圖像。解決了以往只能“語(yǔ)義-視覺(jué)”跨模態(tài)檢索獲得表情圖像的問(wèn)題。并基于該方法開發(fā)了原型應(yīng)用程序,基于目前的表情圖像合成任務(wù)公開了專用數(shù)據(jù)集,為后續(xù)的表情圖像研究提供了數(shù)據(jù)支撐。

    在后續(xù)工作中,將首先拓展生成的表情圖像類型,合成多種類的高質(zhì)量和高語(yǔ)義的表情圖像;然后融合圖像理解,即在應(yīng)用程序中,理解用戶上下文語(yǔ)義,自動(dòng)生成下一個(gè)符合場(chǎng)景語(yǔ)義的表情圖像,這將是一項(xiàng)有趣又有挑戰(zhàn)性的工作。

    [1] TAIGMAN Y, POLYAK A, WOLF L. Unsupervised cross-domain image generation[EB/OL]. [2021-01-19]. https://arxiv.org/abs/1611.02200.

    [2] 王月. 淺析“表情包”興起的特點(diǎn)及其影響[J]. 傳播與版權(quán), 2016(9): 116-117, 124.

    WANG Y. Analysis of the characteristics and influence of the rise of emoticons[J].Communication and Copyright , 2016(9): 116-117, 124 (in Chinese).

    [3] HUANG H, YU P S, WANG C H. An introduction to image synthesis with generative adversarial nets[EB/OL]. [2021-02-03]. https://arxiv.org/abs/1803.04469v2.

    [4] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial networks[J]. Communications of the ACM, 2020, 63(11): 139-144.

    [5] ZHANG H, XU T, LI H S, et al. StackGAN: text to photo-realistic image synthesis with stacked generative adversarial networks[C]//2017 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2017: 5908-5916.

    [6] ZHANG H, XU T, LI H S, et al. StackGAN++: realistic image synthesis with stacked generative adversarial networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(8): 1947-1962.

    [7] XU T, ZHANG P C, HUANG Q Y, et al. AttnGAN: fine-grained text to image generation with attentional generative adversarial networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 1316-1324.

    [8] QIAO T T, ZHANG J, XU D Q, et al. MirrorGAN: learning text-to-image generation by redescription[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 1505-1514.

    [9] REED S, AKATA Z, YAN X Y, et al. Generative adversarial text to image synthesis[C]//The 33rd International Conference on Machine Learning. New York ACM Press, 2016: 1060-1069.

    [10] ZHANG Z Z, XIE Y P, YANG L. Photographic text-to-image synthesis with a hierarchically-nested adversarial network[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 6199-6208.

    [11] LI Y T, GAN Z, SHEN Y L, et al. StoryGAN: a sequential conditional GAN for story visualization[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 6322-6331.

    [12] SURYA S, SETLUR A, BISWAS A, et al. ReStGAN: a step towards visually guided shopper experience via text-to-image synthesis[C]//2020 IEEE Winter Conference on Applications of Computer Vision (WACV). New York: IEEE Press, 2020: 1189-1197.

    [13] HAN F D, GUERRERO R, PAVLOVIC V. CookGAN: meal image synthesis from ingredients[C]//2020 IEEE Winter Conference on Applications of Computer Vision (WACV). New York: IEEE Press, 2020: 1439-1447.

    [14] 孫鈺, 李林燕, 葉子寒, 等. 多層次結(jié)構(gòu)生成對(duì)抗網(wǎng)絡(luò)的文本生成圖像方法[J]. 計(jì)算機(jī)應(yīng)用, 2019, 39(11): 3204-3209.

    SUN Y, LI L Y, YE Z H, et al. Text-to-image synthesis method based on multi-level structure generative adversarial networks[J]. Journal of Computer Applications, 2019, 39(11): 3204-3209 (in Chinese).

    [15] LI W B, ZHANG P C, ZHANG L, et al. Object-driven text-to-image synthesis via adversarial training[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 12166-12174.

    [16] KINGMA D P, WELLING M. Auto-encoding variational bayes[EB/OL]. [2021-01-23]. https://arxiv.org/abs/1312.6114.

    [17] GREGOR K, DANIHELKA I, GRAVES A, et al. DRAW: a recurrent neural network for image generation[C]//The 32nd International Conference on Machine Learning. New York: ACM Press, 2015:1462-1471.

    [18] MANSIMOV E, PARISOTTO E, BA J L, et al. Generating images from captions with attention[EB/OL]. [2021-03-01]. https://arxiv.org/abs/1511.02793.

    [19] ZHU J Y, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]// 2017 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2017: 2242-2251.

    [20] PEIRSON V A L, TOLUNAY E M. Dank learning: generating memes using deep neural networks[EB/OL]. [2021-03-10]. . https://arxiv.org/abs/1806.04510.

    [21] 李學(xué)明, 岳貢, 陳光偉. 基于多模態(tài)注意力機(jī)制的圖像理解描述新方法[J]. 電子科技大學(xué)學(xué)報(bào), 2020, 49(6): 867-874.

    LI X M, YUE G, CHEN G W. A novel end-to-end image caption based on multimodal attention[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(6): 867-874 (in Chinese).

    [22] 胡丹, 袁東芝, 余衛(wèi)宇, 等. 一種基于深度殘差網(wǎng)絡(luò)和LSTM的圖像理解方法: CN106650813B[P]. 2019-11-15.

    HU D, YUAN D Z, YU W Y, et al. Image understanding method based on depth residual error network and LSTM: CN106650813B[P]. 2019-11-15 (in Chinese).

    [23] HE X D, DENG L. Deep learning for image-to-text generation: a technical overview[J]. IEEE Signal Processing Magazine, 2017, 34(6): 109-116.

    [24] 魏忠鈺, 范智昊, 王瑞澤, 等. 從視覺(jué)到文本: 圖像描述生成的研究進(jìn)展綜述[J]. 中文信息學(xué)報(bào), 2020, 34(7): 19-29.

    WEI Z Y, FAN Z H, WANG R Z, et al. From vision to text: a brief survey for image captioning[J]. Journal of Chinese Information Processing, 2020, 34(7): 19-29 (in Chinese).

    [25] DONG H, ZHANG J Q, MCILWRAITH D, et al. I2T2I: learning text to image synthesis with textual data augmentation[C]//2017 IEEE International Conference on Image Processing (ICIP). New York: IEEE Press, 2017: 2015-2019.

    [26] LI S, ZHAO Z, HU R F, et al. Analogical reasoning on Chinese morphological and semantic relations[EB/OL]. [2021-02-19]. https://arxiv.org/abs/1805.06504.

    [27] HEUSEL M, RAMSAUER H, UNTERTHINER T, et al. GANs trained by a two time-scale update rule converge to a Nash equilibrium[EB/OL]. [2021-01-16]. https://arxiv.org/abs/1706. 08500

    [28] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 2818-2826.

    Cross-modal chat cartoon emoticon image synthesis based on knowledge meta-model

    LI Xiao-rui, XIE Cheng, LI Bin, LIU Qing, HU Jian-long

    (School of Software, Yunnan University, Kunming Yunnan 650500, China)

    The traditional chatcartoon emoticon technologies are mainly based on the predefined chatcartoon emoticon library. Through the semantic description of users, the “semantic-to-visual” cross-modal retrieval is carried out to match the appropriate emoticon. However, the number of predefined emoticon samples in the library is limited and fixed. In the actual chat scenarios, the emoticon is often mismatched or there is no match at all. In view of this problem, this research focused on synthesizing new chat cartoon emoticon rather than retrieval. A new method of cross-modal chat cartoon emoticon synthesis based on knowledge meta-model was designed. According to the semantic description of users, the corresponding chat cartoon emoticons were synthesized immediately. The method established the inner semantic logic relation of chat cartoon emoticon through the knowledge meta-model, and enhanced the semantic consistency of chat cartoon emoticon synthesis. Through the multi-generator model, the corresponding partial chat cartoon emoticons were synthesized from each meta-knowledge point, and then integrated into a complete cartoon emoticon by the joint generator, which greatly reduced the training sample demand. In the test of public chat cartoon emoticon synthesis data set, the method has achieved better semantic consistency, and it is comparable with the existing methods in the quality of synthesized image.

    image synthesis; cross-modal learning; text to image (T2I); knowledge meta-model; emoticon pack

    TP 391

    10.11996/JG.j.2095-302X.2021060908

    A

    2095-302X(2021)06-0908-09

    2021-03-16;

    2021-06-11

    云南省科技廳面上項(xiàng)目(202001BB050035,202001BB05003);中國(guó)科協(xié)“青年人才托舉工程”項(xiàng)目(W8193209)

    李小瑞(1997-),女,云南紅河人,碩士研究生。主要研究方向?yàn)橹R(shí)圖譜、圖像理解、圖像生成。E-mail:lxr136242@163.com

    謝 誠(chéng)(1987-),男,云南普洱人,副教授,博士。主要研究方向?yàn)橹R(shí)圖譜、圖像識(shí)別、零次學(xué)習(xí)。E-mail:xiecheng@ynu.edu.cn

    16 March,2021;

    11 June,2021

    General Project of Yunnan Provincial Department of Science and Technology (202001BB050035, 202001BB05003); China Association for Science and Technology “Young Talents Support Project” (W8193209)

    LI Xiao-rui (1997-), female, master student. Her main research interests cover knowledge graph, image understanding and image generation. E-mail:lxr136242@163.com

    XIE Cheng (1987-), male, associate professor, Ph.D. His main research interests cover knowledge graph,image recognition, zero-shot learning. E-mail:xiecheng@ynu.edu.cn

    猜你喜歡
    聊天語(yǔ)義模態(tài)
    語(yǔ)言與語(yǔ)義
    我就是不想跟你聊天了
    意林(2017年9期)2017-06-06 10:26:12
    敞開門聊天
    “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
    國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
    基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
    認(rèn)知范疇模糊與語(yǔ)義模糊
    由單個(gè)模態(tài)構(gòu)造對(duì)稱簡(jiǎn)支梁的抗彎剛度
    語(yǔ)義分析與漢俄副名組合
    多模態(tài)話語(yǔ)模態(tài)的協(xié)同及在外語(yǔ)教學(xué)中的體現(xiàn)
    噶尔县| 武义县| 农安县| 西青区| 柳林县| 北票市| 山西省| 怀化市| 白山市| 南召县| 玉环县| 水富县| 伊春市| 留坝县| 东明县| 龙州县| 黑河市| 白河县| 夏河县| 扬中市| 阿尔山市| 弋阳县| 东平县| 云梦县| 湘阴县| 晋州市| 沙洋县| 东阿县| 茌平县| 崇州市| 克什克腾旗| 大洼县| 荥经县| 盐源县| 合川市| 镇原县| 亚东县| 金塔县| 通州市| 云林县| 阿拉尔市|