徐術(shù)珂,吳倩
風(fēng)格遷移算法在藝術(shù)文創(chuàng)產(chǎn)品設(shè)計(jì)中的應(yīng)用
徐術(shù)珂1,吳倩2
(1.西南民族大學(xué),成都 610000;2.四川工商學(xué)院,成都 610000)
針對(duì)圖像智能生成中圖像風(fēng)格的多元性問題,探索能夠生成特定風(fēng)格圖像的智能生成方法。以抽象和具象圖像結(jié)合為研究對(duì)象,通過計(jì)算機(jī)將兩種風(fēng)格遷移,重構(gòu)出保留特定風(fēng)格的圖像,得到其中捕捉畫面特定風(fēng)格的圖像。生成的圖像質(zhì)量較高,具備抽象圖案和具象圖案相互結(jié)合的特點(diǎn)。生成對(duì)抗網(wǎng)絡(luò)對(duì)繪畫藝術(shù)作品的特定風(fēng)格的學(xué)習(xí),用風(fēng)格遷移智能生成圖像,取得了較好效果,能減少創(chuàng)意圖像制作的重復(fù)性操作,提高圖像利用的藝術(shù)性和豐富性,為智能賦能圖像的再創(chuàng)造提供了新思路。
風(fēng)格遷移算法;藝術(shù);文創(chuàng)產(chǎn)品
在國(guó)際和國(guó)內(nèi)的藝術(shù)品市場(chǎng)發(fā)展中,藝術(shù)IP得到了廣泛的發(fā)展,并獲得了市場(chǎng)的認(rèn)可。藝術(shù)家個(gè)人IP推動(dòng)了藝術(shù)衍生產(chǎn)業(yè)不斷發(fā)展。藝術(shù)家在創(chuàng)建個(gè)人IP的同時(shí),藝術(shù)作品的版權(quán)保護(hù)問題也被提上日程,這是藝術(shù)品衍生開發(fā)的最重要問題,風(fēng)格遷移算法可以在藝術(shù)家個(gè)人IP的打造中提供快速、便捷的繪畫元素風(fēng)格改變,為其文創(chuàng)產(chǎn)品的設(shè)計(jì)提供保障。本文利用GAN來進(jìn)行特定抽象與具象融合圖片風(fēng)格的智能生成,探索繪畫元素的人工智能生成的方法,并且將其運(yùn)用于文創(chuàng)產(chǎn)品的設(shè)計(jì)領(lǐng)域。
文化創(chuàng)意產(chǎn)品的構(gòu)成要素包括形式、色彩、功能和文化。繪畫元素的文創(chuàng)產(chǎn)品主要運(yùn)用于藝術(shù)家個(gè)人IP的塑造中,既強(qiáng)調(diào)繪畫藝術(shù)形式中對(duì)具象藝術(shù)和抽象藝術(shù)的表達(dá),也蘊(yùn)藏著藝術(shù)家個(gè)人的知識(shí)產(chǎn)權(quán),傳達(dá)藝術(shù)家個(gè)人思想的象征。目前,國(guó)內(nèi)學(xué)者針對(duì)文創(chuàng)產(chǎn)品設(shè)計(jì)方法的研究眾多,如情境故事法、層次分析法(APA)、因子分析法、聚類分析法、KANO模型、QFD理論、TRIZ發(fā)明理論等方法,每種文創(chuàng)產(chǎn)品的設(shè)計(jì)方法都有優(yōu)缺點(diǎn),可以根據(jù)設(shè)計(jì)師的不同需求進(jìn)行篩選,并且通過文獻(xiàn)資料發(fā)現(xiàn),設(shè)計(jì)學(xué)科在該領(lǐng)域中與其他學(xué)科的協(xié)作增多,偏工科的設(shè)計(jì)方法成為趨勢(shì),本文探討的風(fēng)格遷移算法是在計(jì)算機(jī)圖像領(lǐng)域的一次跨界合作。
在繪畫藝術(shù)的發(fā)展中,圖像的風(fēng)格受到當(dāng)時(shí)諸多因素的影響,如傳統(tǒng)的繼承,科技發(fā)展、文化、宗教、政治等因素,這使各個(gè)時(shí)期繪畫的圖像具有鮮明的時(shí)代特征,同時(shí)也受限于時(shí)代,文藝復(fù)興時(shí)期的藝術(shù)建立在對(duì)透視學(xué)、解剖學(xué)的研究基礎(chǔ)上,發(fā)展了寫實(shí)傳真的繪畫技巧,畫面的圖像與前一時(shí)期中世紀(jì)的對(duì)比起來就顯得格外真實(shí),光與影的技巧運(yùn)用也使作品更加立體,并在17世紀(jì)達(dá)到頂峰。19世紀(jì)初,隨著實(shí)用性照相機(jī)的發(fā)明和色彩科學(xué)的研究及藝術(shù)世界雇傭關(guān)系的改變,繪畫逐漸不再以記錄客觀對(duì)象制造幻覺、追求古典主義時(shí)期完美的繪畫性作為主要任務(wù),而是追求感覺上的真實(shí),主干是形式主義,核心是抽象化,并且伴隨管狀顏料的誕生和對(duì)色彩科學(xué)的研究普及,藝術(shù)家開始走出戶外進(jìn)行寫生,開始探索繪畫語言豐富的可能性,由此塞尚探索的法則為后世藝術(shù)家創(chuàng)作圖像提供了思路;到20世紀(jì)創(chuàng)作的圖像逐漸轉(zhuǎn)化為抽象藝術(shù),其中康定斯基對(duì)抽象藝術(shù)的貢獻(xiàn)是巨大的,他對(duì)形式的研究和實(shí)踐,為后人開辟了廣闊的道路,并使抽象藝術(shù)在短時(shí)間內(nèi),就席卷了整個(gè)西方藝術(shù)界,成為近一百年來最頑強(qiáng)的藝術(shù)。后現(xiàn)代主義時(shí)期,部分延續(xù)著現(xiàn)代主義的美學(xué)觀點(diǎn),在抽象藝術(shù)的形式也走向了極端。因此,結(jié)合當(dāng)前以人工智能為代表的技術(shù)進(jìn)行圖像的轉(zhuǎn)化是拓展圖像的有效途徑。
目前,人工智能在圖像生成上實(shí)現(xiàn)了質(zhì)的突破,基于神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的預(yù)訓(xùn)練語言模型,為自然語言處理技術(shù)帶來了突破性發(fā)展。特別是生成對(duì)抗網(wǎng)絡(luò),能夠把隱藏的大數(shù)據(jù)挖掘出來,生成符合類似數(shù)據(jù)的圖案。因此,可以使用計(jì)算機(jī)中數(shù)據(jù)的表達(dá)形式,來結(jié)合具象和抽象圖案學(xué)習(xí)一種圖像風(fēng)格,提取圖案的具象與抽象特點(diǎn),進(jìn)行計(jì)算機(jī)生成新圖像,為更適合當(dāng)代的圖像運(yùn)用提供新的思路。計(jì)算機(jī)的快速反應(yīng)使其在視覺領(lǐng)域的重要性與日俱增。在視覺領(lǐng)域這種想法的實(shí)施需要使用一個(gè)比較簡(jiǎn)單又特別的GAN結(jié)構(gòu)來完成任務(wù),在兩個(gè)高清圖片之間進(jìn)行風(fēng)格轉(zhuǎn)化,此外,還會(huì)將一張普通的風(fēng)景圖片編輯成抽象與具象相融合的風(fēng)格,近幾年在計(jì)算機(jī)視覺領(lǐng)域,風(fēng)格轉(zhuǎn)化是主流方向。
《藝術(shù)化的神經(jīng)網(wǎng)絡(luò)算法》引領(lǐng)了這股潮流,該論文在事先測(cè)試好的卷積網(wǎng)絡(luò)中對(duì)圖片進(jìn)行內(nèi)容和風(fēng)格上的調(diào)整。雖然這種方法能處理高清圖片,但它只能用一張圖像作為參照,例如,它只能用《星夜》作為梵高整體繪畫風(fēng)格的參照,這不是大家想要的結(jié)果。為此,本文在實(shí)踐基礎(chǔ)上為生成對(duì)抗網(wǎng)絡(luò)技術(shù)(GAN)輸入所需要的大量抽象與具象畫面結(jié)合的作品圖片,試圖捕捉抽象與具象相結(jié)合的個(gè)體案例的風(fēng)格,再把這種風(fēng)格運(yùn)用在普通圖像上,進(jìn)行風(fēng)格遷移的實(shí)驗(yàn)。這樣就創(chuàng)造出一種利用GAN自動(dòng)生成抽象與具象相融合風(fēng)格的辦法。從實(shí)驗(yàn)數(shù)據(jù)來看,這種辦法能將訓(xùn)練數(shù)據(jù)的風(fēng)格特征把握住,從而能有效地為這種風(fēng)格的圖像提供數(shù)據(jù),具有拓展第一視覺(即肉眼所見的常規(guī)視覺)的作用,生成的圖像經(jīng)計(jì)算機(jī)算法生成后帶有創(chuàng)意性、發(fā)散性、藝術(shù)性,能夠運(yùn)用在生產(chǎn)生活中的諸多視覺領(lǐng)域。
目前,圖像在設(shè)計(jì)領(lǐng)域的大部分應(yīng)用還是挪用和重新組合不同視覺資料重新產(chǎn)生新的信息階段,圖像的來源簡(jiǎn)單直接,體現(xiàn)不出比較獨(dú)特的藝術(shù)性,就會(huì)造成圖像的運(yùn)用沒有新意。鑒于此,研究人員進(jìn)行了大量研究,試圖通過類似Photoshop等圖形處理軟件來處理圖形和顏色,這種處理方式具有修飾圖片功能和調(diào)色功能,在一定程度上豐富了原始圖像的創(chuàng)意變化,不過在軟件里修飾的圖片都是在一致的口令下生成,缺少圖片相互對(duì)比的差異性。例如,對(duì)一張照片的調(diào)整只能做到顏色調(diào)整亮一點(diǎn)或暗一點(diǎn),拼貼一些其他圖像或拿掉多余畫面元素,但讓自拍照在形式和顏色上轉(zhuǎn)變?yōu)樘囟ɡL畫風(fēng)格的人像卻無能為力,無法帶來更多藝術(shù)中的可能風(fēng)格。大部分圖像都是以具象的繪畫風(fēng)格樣式來智能生成圖像,還有就是以設(shè)計(jì)類的抽象紋樣為藍(lán)本來智能生成圖像風(fēng)格,在圖像拓展領(lǐng)域千篇一律。其研究較具代表性的有:呂沛在研究計(jì)算機(jī)算法前提下去研究圖像智能生成藝術(shù)的特性通過自己的創(chuàng)作實(shí)驗(yàn)運(yùn)用計(jì)算機(jī)的圖像生成作為研究對(duì)象,探析智能生成藝術(shù)的表達(dá)形式,研究計(jì)算機(jī)語境下圖像生成藝術(shù)的方式方法[4]。因此,將特定的繪畫風(fēng)格資源融入智能設(shè)計(jì),使常規(guī)圖像也能賦予設(shè)計(jì)感及藝術(shù)性,提高創(chuàng)意設(shè)計(jì)圖案的效率和質(zhì)量,是智能輔助設(shè)計(jì)發(fā)展圖像可能性的新思路。探索融合二者相輔相成的方法,是本文探究的核心。
GAN自面世以來就吸引了廣泛研究群體的關(guān)注,對(duì)比其他圖像處理軟件,GAN在創(chuàng)建新圖像方面展示出了巨大的靈活性,GAN包括生成器(Generator,簡(jiǎn)稱G)和鑒別器(Discriminator,簡(jiǎn)稱D),其中生成器用來學(xué)習(xí)源數(shù)據(jù)的潛在數(shù)據(jù)分布,而鑒別器用以判斷給出樣本是否為真實(shí)數(shù)據(jù)。生成器和鑒別器在一個(gè)動(dòng)態(tài)的學(xué)習(xí)過程中相互競(jìng)爭(zhēng)。生成器嘗試生成越來越逼真的數(shù)據(jù),而鑒別器努力更準(zhǔn)確地識(shí)別真假數(shù)據(jù)。理想情況下,生成器和鑒別器會(huì)達(dá)到一種平衡,其中生成器產(chǎn)生的數(shù)據(jù)足夠逼真,以至于鑒別器難以區(qū)分真?zhèn)巍?/p>
GAN 的應(yīng)用有著廣闊的空間。例如,GAN通過訓(xùn)練能隱式表示數(shù)據(jù)分布,生成具有目標(biāo)風(fēng)格的圖像。通過鑒別器和生成器的博弈過程,得到從隨機(jī)向量到真實(shí)圖像數(shù)據(jù)的映射,所得圖像的質(zhì)量能顯著提高。
本文采用的是基于循環(huán)生成對(duì)抗網(wǎng)絡(luò)(CycleGAN)改進(jìn)的模型結(jié)構(gòu),如圖1所示,通過在下采樣層添加新的殘差模塊來進(jìn)行多維度的特征提取,提高圖像的生成質(zhì)量。如圖2所示,該網(wǎng)絡(luò)結(jié)構(gòu)包含兩個(gè)生成器,其目的都是通過一個(gè)域的樣式輸入圖像來生成另一種域的樣式圖像。生成器是一個(gè)全卷積連接形式,它的總體結(jié)構(gòu)可以看作是由三部分所構(gòu)成,分別是編碼部分(Encoder),轉(zhuǎn)換部分(transformer)以及解碼部分(Decoder)。其中編碼部分由三個(gè)卷積層和一個(gè)新型殘差模塊組成,該部分主要用于進(jìn)行圖像的下采樣操作,目的是縮小特征圖尺寸,降低參數(shù)計(jì)算量。編碼部分的結(jié)構(gòu)如圖3所示,第一層采用卷積核尺寸為7×7的卷積核,通道數(shù)64,步長(zhǎng)為1的卷積層。接著經(jīng)過歸一化層,在原網(wǎng)絡(luò)模型中采用的是批量歸一化(BatchNormalization, BN),該方法的計(jì)算方式就是把樣本沿著通道方向進(jìn)行歸一化處理。然而網(wǎng)絡(luò)每次輸入的批量大小為1,當(dāng)批量大小越小時(shí),在計(jì)算過程中所得到的均值和方差并不能代表全局,導(dǎo)致批量歸一化的效果不是很理想。本文選擇的是實(shí)例歸一化層(InstanceNormalizetion, IN),該歸一化過程是所有樣本的各個(gè)通道的獨(dú)立計(jì)算,不受通道和批量大小的影響,常用于風(fēng)格遷移中的歸一化處理。最后再經(jīng)過激活函數(shù),本文選擇使用LeakyReLU來代替原網(wǎng)絡(luò)模型中的ReLU,以此來減少網(wǎng)絡(luò)梯度的稀疏程度。第二個(gè)和第三個(gè)卷積層使用的卷積核尺寸為3×3,步長(zhǎng)為2,通道數(shù)分別為128和256,其中歸一化層和激活函數(shù)與上述第一個(gè)卷積層相同。第四層則是采用一個(gè)Res2Net殘差模塊,首先經(jīng)過1×1卷積后,通過對(duì)通道特征圖進(jìn)行平均分割,得到特征圖子集;然后每個(gè)子集的通道特征圖都會(huì)通過一個(gè)3×3的卷積層,通過其他分組通道的卷積操作疊加,相應(yīng)的輸出特征圖對(duì)應(yīng)原輸入特征圖子集的感受也會(huì)變大;最后對(duì)所有的特征圖子集進(jìn)行通道級(jí)聯(lián)并通過一個(gè)1×1卷積層將特征圖傳入轉(zhuǎn)換器部分。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)
圖2 生成器網(wǎng)絡(luò)結(jié)構(gòu)
轉(zhuǎn)換部分的網(wǎng)絡(luò)結(jié)構(gòu)如圖所示,該部分使用的是6個(gè)原始的殘差模塊(ResNetBlock),結(jié)構(gòu)如圖4所示。首先通過一個(gè)卷積核個(gè)數(shù)為256,大小為3×3,步長(zhǎng)設(shè)置為1的卷積層,接著依次通過實(shí)例歸一化層和激活函數(shù)LeakyReLU;其次再經(jīng)過一次上述的卷積和歸一化操作;最后將輸出殘差值和經(jīng)過恒等映射的輸入特征圖相加。其目的是組合編碼部分所提取的抽象特征,通過對(duì)這些抽象特征的組合來將圖像的特征從源域轉(zhuǎn)換到目標(biāo)域。
解碼部分對(duì)轉(zhuǎn)換部分的輸出特征圖進(jìn)行解碼,通過兩個(gè)卷積核個(gè)數(shù)分別為128和64,卷積核大小為3×3,步長(zhǎng)為2的反卷積層和一個(gè)卷積核個(gè)數(shù)為3,大小為7×7的卷積層將特征圖還原,變成目標(biāo)域中的圖像。
圖3 編碼器網(wǎng)絡(luò)結(jié)構(gòu)
圖4 殘差模塊
判別器采用的是PatchGAN,其結(jié)構(gòu)如圖5所示。判別網(wǎng)絡(luò)由四層Conv+SN+LReLU和最后一層卷積層Conv組成,其中代表卷積核尺寸,代表卷積核個(gè)數(shù),即輸出通道數(shù),代表卷積步長(zhǎng)。原始的生成對(duì)抗網(wǎng)絡(luò)判別器的輸出僅是一個(gè)評(píng)價(jià)值(True/ False),表示的是對(duì)生成器所生成的一整幅圖像的評(píng)價(jià)。PatchGAN設(shè)計(jì)成全卷積的形式,圖像經(jīng)過多個(gè)卷積層后并不會(huì)直接輸入到全連接層或者激活函數(shù)中,而是利用最后一層卷積將輸入映射為一個(gè)×的矩陣。該輸出矩陣中的每個(gè)點(diǎn)即代表了原圖像中的一個(gè)感受野,對(duì)應(yīng)了原圖的一塊區(qū)域(patch),取最后輸出矩陣的均值來評(píng)價(jià)整體圖像。由于該結(jié)構(gòu)能夠關(guān)注更多的圖像區(qū)域,PatchGAN在圖像轉(zhuǎn)換等任務(wù)中具有一定的高分辨率、高細(xì)節(jié)保持的優(yōu)勢(shì)。本文采用譜范數(shù)歸一化的權(quán)重歸一化技術(shù)來對(duì)PatchGAN中原有的批量歸一化層進(jìn)行替換,Patch塊的大小為的70×70。
圖5 判別器網(wǎng)絡(luò)結(jié)構(gòu)
通過GAN來智能生成特定的抽象與具象融合的圖像風(fēng)格,需要?jiǎng)?chuàng)造一個(gè)有類似風(fēng)格的圖像數(shù)據(jù)庫作為具象集。此數(shù)據(jù)庫選擇了由藝術(shù)工作者創(chuàng)作的,大量帶有抽象與具象風(fēng)格相結(jié)合的,特定繪畫風(fēng)格的作品圖例,圖例多為兩個(gè)層次構(gòu)成,底層由風(fēng)景、場(chǎng)景、植物構(gòu)成,頂層由造型優(yōu)美、線條流暢的抽象圖像構(gòu)成,兩種層面互為表里,相輔相成,融合得松動(dòng)自然。再利用深度學(xué)習(xí)方法對(duì)此風(fēng)格類型的特征進(jìn)行訓(xùn)練,為以后利用GAN轉(zhuǎn)換此類型特征的圖像做好準(zhǔn)備。其次,創(chuàng)建一個(gè)相機(jī)直接獲得的圖片庫作為具象集,包括風(fēng)景、場(chǎng)景、建筑、人物等內(nèi)容,作為計(jì)算機(jī)生成風(fēng)格遷移的圖像庫,為后期利用生成對(duì)抗網(wǎng)絡(luò)模型建立類似風(fēng)格類型的圖像提供準(zhǔn)備,如圖6所示。
在抽象與具象相融合圖像智能輔助生成的提取過程中,如何延續(xù)與保持抽象與具象融合的藝術(shù)特色豐富生成圖像的風(fēng)格,使其符合現(xiàn)代審美是需要重點(diǎn)探討的問題,本文試圖在提取數(shù)據(jù)庫圖片過程中,對(duì)所呈現(xiàn)的抽象與具象相融合的美學(xué)特點(diǎn)進(jìn)行最大化的保留。在形式美的層面上,選擇了類似流動(dòng)的線條和色帶作為抽象的基本形式,在這種較透明的線條和色帶下能夠隱約看出底層的具象形象。兩個(gè)層次在圖像中的對(duì)比和結(jié)合,既提供了一些熟悉的視覺,又通過抽象化干擾形成了基于圖像的特殊美感,造成一種既熟悉又陌生的感受,既保留了圖像本身的可辨識(shí)性,又通過處理使圖像增加了抽象構(gòu)成的美感。在轉(zhuǎn)化美的層面上,將這種經(jīng)過處理的抽象與具象的融合作為智能生成的基本單位元素,以風(fēng)格遷移作為圖像生成的流程依據(jù),轉(zhuǎn)換圖像特征賦予新的信息。經(jīng)過計(jì)算機(jī)深度學(xué)習(xí)并風(fēng)格遷移后的圖片,把抽象與具象風(fēng)格相融合的生成圖像風(fēng)格化遷移,生成新的風(fēng)格化圖像。
圖6 數(shù)據(jù)集
本文實(shí)驗(yàn)是在操作系統(tǒng)版本為Ubuntu16.04,處理器為Intel Core i9-10940X,內(nèi)存為64 GB,顯卡型號(hào)為NVIDIA GeForce RTX 3080 Ti的服務(wù)器上進(jìn)行網(wǎng)絡(luò)模型訓(xùn)練。所有實(shí)驗(yàn)(除對(duì)比實(shí)驗(yàn)外)使用的Python版本均為3.8.5,使用的深度學(xué)習(xí)框架及版本號(hào)為PyTorch1.7.0,CUDA及CUDNN的版本分別為10.1和7.6。
本文實(shí)驗(yàn)使用的是自適應(yīng)矩估計(jì)優(yōu)化算法Adam對(duì)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,共訓(xùn)練300個(gè)周期,訓(xùn)練過程中的批次大小設(shè)置為1,初始學(xué)習(xí)率為0.000 2。實(shí)驗(yàn)中的卷積層全部使用激活函數(shù)LeakyReLU,斜率設(shè)置為0.2。將總損失函數(shù)中的循環(huán)一致性損失的權(quán)重設(shè)置為10。前150個(gè)訓(xùn)練周期保持初始學(xué)習(xí)率不變,并在接下來的150個(gè)訓(xùn)練周期學(xué)習(xí)率線性衰減至0。
在圖像風(fēng)格轉(zhuǎn)換的圖像質(zhì)量評(píng)價(jià)方面,除直接通過人眼主觀感受來評(píng)判風(fēng)格轉(zhuǎn)換后圖像的質(zhì)量以外,還應(yīng)該有客觀的評(píng)價(jià)指標(biāo)。本文實(shí)驗(yàn)主要使用了包括峰值信噪比(PS NR)、結(jié)構(gòu)相似度()、Frechet Inception距離分?jǐn)?shù)(FID)、Kernel Inception距離分?jǐn)?shù)(KID)這4種評(píng)價(jià)指標(biāo)來對(duì)風(fēng)格轉(zhuǎn)換結(jié)果進(jìn)行分析。其中PSNR和SSIM對(duì)生成圖像本身質(zhì)量進(jìn)行量化,F(xiàn)ID和KID則通常用來評(píng)價(jià)生成圖像的總體質(zhì)量和多樣性。
結(jié)構(gòu)相似度(),這是一種通過亮度、對(duì)比度、結(jié)構(gòu)三個(gè)方面來衡量圖像間相似性的評(píng)價(jià)方法。均值可用作對(duì)圖像亮度的估計(jì),標(biāo)準(zhǔn)差用于圖像對(duì)比度的估計(jì),協(xié)方差作為結(jié)構(gòu)相似程度的計(jì)算。結(jié)構(gòu)相似程度()的值越大,就代表生成圖像和原圖像的相似程度高,圖像質(zhì)量就越好,其計(jì)算見式(3)。
Frechet Inception Distance()常被用于評(píng)估生成對(duì)抗網(wǎng)絡(luò)模型生成圖像的質(zhì)量,它是計(jì)算真實(shí)圖像和生成圖像的特征向量之間距離的一種度量。通過Inception V3網(wǎng)絡(luò)模型提取真實(shí)圖像和生成圖像的特征,再利用高斯模型進(jìn)行特征空間上的建模,計(jì)算圖像的均值和協(xié)方差來將輸出歸納為一個(gè)多變量高斯分布,最后由Frechet距離(又稱Wasserstein-2距離)來計(jì)算這兩個(gè)高斯分布間的差異。分?jǐn)?shù)越低表明兩組圖像越相似。計(jì)算見式(4)。
Kernel Inception Distance(KID),與FID指標(biāo)相似,但是KID通過計(jì)算Inception表征之間的最大均值差異的MMD2來度量?jī)山M樣本之間的差異。若MMD距離越小,則表示真實(shí)圖像和生成圖像的數(shù)據(jù)分布越接近,兩組圖像越相似。計(jì)算MMD距離時(shí),首先要選擇一個(gè)核函數(shù)(,),它將真實(shí)圖像和生成圖像這兩個(gè)樣本映射為一個(gè)實(shí)數(shù),則MMD距離見式(5)。
本實(shí)驗(yàn)是在原CycleGAN的網(wǎng)絡(luò)結(jié)構(gòu)下進(jìn)行了兩處改動(dòng),首先在判別器中加入了譜范數(shù)歸一化層來對(duì)原本的批量歸一化層進(jìn)行替換,穩(wěn)定判別器性能,進(jìn)而加強(qiáng)生成器網(wǎng)絡(luò)的性能,從而提升圖像轉(zhuǎn)換的質(zhì)量;其次是對(duì)下采樣特征提取時(shí)添加了新型殘差模塊(Res2Net),該模塊通過分組卷積的方式來提取更豐富的特征,更好地實(shí)現(xiàn)風(fēng)格上的轉(zhuǎn)換,進(jìn)一步促進(jìn)風(fēng)格轉(zhuǎn)換圖像的質(zhì)量。
為了驗(yàn)證網(wǎng)絡(luò)結(jié)構(gòu)改動(dòng)的有效性,本實(shí)驗(yàn)基于改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu),在抽象數(shù)據(jù)集和具象數(shù)據(jù)集上進(jìn)行了四組消融實(shí)驗(yàn)。第一組消融實(shí)驗(yàn)是對(duì)傳統(tǒng)的CycleGAN不作任何的改動(dòng);第二組實(shí)驗(yàn)是在判別器中添加了譜范數(shù)歸一化;第三組實(shí)驗(yàn)是在網(wǎng)絡(luò)模型下采樣的最后一層加上新的殘差模塊,除此之外,相較于第一組無任何改動(dòng);第四組消融實(shí)驗(yàn)則是使用改進(jìn)后的模型。利用四組消融實(shí)驗(yàn)的結(jié)果及上文所提出的評(píng)價(jià)指標(biāo)進(jìn)行定量和定性分析,以此驗(yàn)證對(duì)于網(wǎng)絡(luò)的改動(dòng)是否有效,消融實(shí)驗(yàn)結(jié)果如圖7所示。
圖7 消融實(shí)驗(yàn)對(duì)比結(jié)果
從消融實(shí)驗(yàn)結(jié)果圖(見圖7)中可以看出輸入圖像(Input),都是選用的測(cè)試集中圖片,通過四組不同的實(shí)驗(yàn)來對(duì)其進(jìn)行轉(zhuǎn)換,轉(zhuǎn)換后的圖像通過定性和定量分析來證明本實(shí)驗(yàn)的有效性。圖7第二列所示的是原版CycleGAN風(fēng)格轉(zhuǎn)換后的圖像(Original),4張圖像有明顯風(fēng)格上的轉(zhuǎn)換,保留了相應(yīng)原圖像域中的結(jié)構(gòu),并且也學(xué)習(xí)到了抽象圖片的紋理和色彩。然而此時(shí)的網(wǎng)絡(luò)模型學(xué)習(xí)還不夠穩(wěn)定,導(dǎo)致了一定程度上的圖像崩壞。為了驗(yàn)證實(shí)驗(yàn)結(jié)果是否由網(wǎng)絡(luò)訓(xùn)練時(shí)的不穩(wěn)定所導(dǎo)致,本實(shí)驗(yàn)在原版網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上添加了頻譜歸一化(Original+SN),以此來穩(wěn)定網(wǎng)絡(luò)模型的訓(xùn)練,其實(shí)驗(yàn)結(jié)果如圖7第三列所顯示。由圖7第三列所示的4張風(fēng)格圖像可以看出,一些模糊像素塊已經(jīng)有了一定程度的緩解,網(wǎng)絡(luò)模型的過度學(xué)習(xí)現(xiàn)象得到緩解,第3張和第4張依舊很好地學(xué)習(xí)到了原圖像域中的色彩結(jié)構(gòu)。說明判別器中增加了頻譜歸一化層后對(duì)網(wǎng)絡(luò)模型起到了穩(wěn)定訓(xùn)練的作用。為了網(wǎng)絡(luò)模型能保留更多原圖像域中的色彩,本實(shí)驗(yàn)在原版生成器的下采樣層的最后一層加入了Res2Net殘差模塊,通過多層次的特征提取來更好地保留原圖像域的特征。雖然加入的Res2Net讓圖像質(zhì)量得到了提升,但還是會(huì)由于網(wǎng)絡(luò)模型的穩(wěn)定性不夠而導(dǎo)致圖像出現(xiàn)局部失真的現(xiàn)象。針對(duì)這個(gè)問題,本實(shí)驗(yàn)最后在判別器中加入了頻譜歸一化,實(shí)驗(yàn)結(jié)果如圖第五列所示,風(fēng)格轉(zhuǎn)換圖像沒有由于訓(xùn)練不穩(wěn)定導(dǎo)致圖像質(zhì)量差的情況,而且也很好地學(xué)習(xí)到了目標(biāo)域的風(fēng)格。
本實(shí)驗(yàn)采用上文提到過的4種評(píng)價(jià)指標(biāo)PS NR、SSIM、FID及KID來對(duì)上述消融實(shí)驗(yàn)結(jié)果進(jìn)行定量分析。圖7消融實(shí)驗(yàn)結(jié)果圖的各類評(píng)價(jià)指標(biāo)值如表1~4所示。
表1 消融實(shí)驗(yàn)中生成圖像的PSNR對(duì)比
Tab.1 PSNR contrast of the generated images in the ablation experiment
注:a為抽象集,b為具象集。
表2 消融實(shí)驗(yàn)中生成圖像的對(duì)比
Tab.2 SSIM contrast of images generated in ablation experiments
注:a為抽象集,b為具象集。
根據(jù)表1~2中的兩項(xiàng)指標(biāo)PSNR和SSIM的值可知,判別器網(wǎng)絡(luò)中添加了頻譜歸一化后的實(shí)驗(yàn)結(jié)果要優(yōu)于傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)。這說明頻譜歸一化的使用能夠在一定程度上提升網(wǎng)絡(luò)的性能。使用了新型殘差模塊的Res2Net在指標(biāo)性能上更加優(yōu)于僅加入了頻譜歸一化的原網(wǎng)絡(luò)結(jié)構(gòu)模型,這說明Res2Net的加入更好地保留了原圖像域的色彩信息和紋理、結(jié)構(gòu)等特征,對(duì)網(wǎng)絡(luò)模型起到了一定的優(yōu)化作用。為了進(jìn)一步提高生成圖像質(zhì)量、保留有效信息和穩(wěn)定網(wǎng)絡(luò)的性能,在Res2Net的基礎(chǔ)上再加入頻譜歸一化,最后實(shí)驗(yàn)結(jié)果也證明了這種結(jié)構(gòu)搭配的有效性。為了能使實(shí)驗(yàn)更加具有說服力,在消融實(shí)驗(yàn)每種網(wǎng)絡(luò)結(jié)構(gòu)的真實(shí)圖像集合及相應(yīng)的生成圖像集合上進(jìn)行了FID和KID兩種指標(biāo)的評(píng)價(jià)。評(píng)價(jià)結(jié)果再次驗(yàn)證了改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)性能,評(píng)價(jià)結(jié)果如表3~4所示。
表3 消融實(shí)驗(yàn)中生成圖像的FID對(duì)比
Tab.3 FID contrast of images generated in ablation experiments
注:a為抽象集,b為具象集。
表4 消融實(shí)驗(yàn)中生成圖像的KID×100對(duì)比
Tab.4 KID×100 contrast of the images in the ablation experiments
注:a為抽象集,b為具象集。
基于如圖7所示的消融實(shí)驗(yàn)對(duì)比圖,實(shí)驗(yàn)出一組由GAN生成的圖像,通過對(duì)藝術(shù)家個(gè)人IP的分析,確定以下文創(chuàng)設(shè)計(jì)載體:海報(bào)設(shè)計(jì)、卡片設(shè)計(jì)及包裝設(shè)計(jì)。海報(bào)設(shè)計(jì)作為藝術(shù)家畫展的重要宣傳媒介,可將在抽象數(shù)據(jù)集和具象數(shù)據(jù)集上進(jìn)行了四組消融實(shí)驗(yàn)的圖像作為海報(bào)的視覺形象,是藝術(shù)家個(gè)性化海報(bào)定制的一個(gè)新選擇,如圖8所示;文創(chuàng)系列產(chǎn)品中的卡片設(shè)計(jì)可運(yùn)用于藝術(shù)家的作品介紹,還可成為明信片或書簽便于觀眾攜帶,是個(gè)性化繪畫元素文創(chuàng)產(chǎn)品設(shè)計(jì)的一個(gè)大眾紙媒,如圖9所示;包裝設(shè)計(jì)作為藝術(shù)家畫展衍生品與受眾的溝通媒介,在藝術(shù)家個(gè)人IP打造中提升繪畫元素的原創(chuàng)性。綜上所述,個(gè)性化繪畫元素文創(chuàng)產(chǎn)品生成系統(tǒng)設(shè)計(jì)既提高圖像利用的藝術(shù)性和豐富性,又對(duì)藝術(shù)家作品知識(shí)產(chǎn)權(quán)起到一定保護(hù)作用,如圖10所示。
圖10 包裝設(shè)計(jì)中的應(yīng)用
由消融實(shí)驗(yàn)可以看出,將具象圖案進(jìn)行特定風(fēng)格抽象化的圖像風(fēng)格遷移方法,能夠有效地生成新的風(fēng)格圖像,并運(yùn)用于產(chǎn)品生成系統(tǒng)設(shè)計(jì)中,不過在產(chǎn)品設(shè)計(jì)中,為了避免大量圖像風(fēng)格的雷同,與具象圖像相關(guān)聯(lián)的抽象符號(hào)形式的多樣性成為必須考慮的問題,其解決辦法的方向一方面是讓計(jì)算機(jī)學(xué)習(xí)大量藝術(shù)史中每一個(gè)階段的美術(shù)作品中的信息,如文藝復(fù)興階段作品中莊嚴(yán)永恒的特點(diǎn),印象主義中作品的豐富色彩變化、主觀的形色搭配;超現(xiàn)實(shí)主義作品里的奇異荒誕等信息;另一方面,根據(jù)設(shè)計(jì)圖像的產(chǎn)品所需傳達(dá)的信息和美術(shù)史中的各個(gè)階段所傳遞的視覺信息特征進(jìn)行匹配,例如,如果產(chǎn)品宣傳的是高端、穩(wěn)重、豪華等信息,那么可以將古典主義的風(fēng)格所生成的抽象圖案運(yùn)用于包裝設(shè)計(jì)中;如果產(chǎn)品需要傳達(dá)的是年輕化、時(shí)尚等信息,那么可以運(yùn)用美術(shù)史中未來主義、印象主義、超現(xiàn)實(shí)主義的熱情洋溢、五彩繽紛夸張且具個(gè)性的圖像特點(diǎn)進(jìn)行圖像的綜合生成,可以靈活運(yùn)用,由此可以豐富由具象圖像和抽象圖案生成新圖案的種類,并有針對(duì)性地運(yùn)用于設(shè)計(jì)中。
通過對(duì)風(fēng)格遷移算法在藝術(shù)文創(chuàng)產(chǎn)品設(shè)計(jì)的開發(fā),提供了個(gè)性化繪畫元素文創(chuàng)產(chǎn)品生成系統(tǒng)設(shè)計(jì),提升了藝術(shù)文創(chuàng)產(chǎn)品附加值。設(shè)計(jì)的評(píng)價(jià)是指依據(jù)一定的原則, 采取一定的方法和手段,對(duì)設(shè)計(jì)所涉及的過程及結(jié)果進(jìn)行事實(shí)判斷和價(jià)值認(rèn)定的活動(dòng)。評(píng)價(jià)作為一種具有客觀性、可量化、可比性、層次性的評(píng)估工具,對(duì)其文創(chuàng)產(chǎn)品的開發(fā)發(fā)揮著重要作用,對(duì)藝術(shù)文創(chuàng)產(chǎn)品的評(píng)價(jià),不僅需要考慮產(chǎn)品本身的設(shè)計(jì)內(nèi)容,還需要考慮產(chǎn)品的實(shí)用價(jià)值與文化價(jià)值。
另外,風(fēng)格遷移算法可將不同的藝術(shù)風(fēng)格應(yīng)用于產(chǎn)品設(shè)計(jì)中,評(píng)價(jià)體系應(yīng)根據(jù)文創(chuàng)產(chǎn)品設(shè)計(jì)中風(fēng)格遷移的程度和效果,以及是否較好地傳達(dá)了特定藝術(shù)風(fēng)格或主題。確定適合產(chǎn)品的藝術(shù)風(fēng)格和主題,確保與產(chǎn)品的目標(biāo)和受眾相契合,不同的藝術(shù)風(fēng)格可能適用于不同類型的文創(chuàng)產(chǎn)品,分析風(fēng)格遷移算法對(duì)產(chǎn)品設(shè)計(jì)與特定品牌、文化或藝術(shù)風(fēng)格的關(guān)聯(lián)程度,以及這種關(guān)聯(lián)是否對(duì)產(chǎn)品的品牌形象和價(jià)值產(chǎn)生積極的影響。例如,在藝術(shù)文創(chuàng)產(chǎn)品專家評(píng)估系統(tǒng)平臺(tái)中,平臺(tái)有展示設(shè)計(jì)作品與評(píng)價(jià)的功能,可以通過文創(chuàng)效果圖的展示來降低此文創(chuàng)產(chǎn)品的開發(fā)成本、市場(chǎng)和用戶滿意度的調(diào)查成本。綜上所述,目前評(píng)價(jià)體系還明確需要這些方面的評(píng)估標(biāo)準(zhǔn),從而有助于評(píng)估設(shè)計(jì)方案的質(zhì)量、實(shí)用性、藝術(shù)性與美學(xué)評(píng)價(jià)和市場(chǎng)預(yù)期等綜合效果。
本文提出了一種特定的圖像風(fēng)格遷移的方法,以特定的繪畫語言風(fēng)格結(jié)合生成對(duì)抗網(wǎng)絡(luò)賦能了圖像多元化、藝術(shù)化的重構(gòu),為圖像在設(shè)計(jì)中的變化和方法體系開創(chuàng)了廣闊的可能性,使人工智能助力文化的創(chuàng)造和衍生產(chǎn)生了新態(tài)勢(shì)。本文將一種特定的抽象與具象相融合的繪畫風(fēng)格應(yīng)用于風(fēng)格遷移選擇的圖像中,用計(jì)算機(jī)深度歸納整理了抽象符號(hào)的美學(xué)特點(diǎn),基于這種風(fēng)格特點(diǎn)提出了智能輔助進(jìn)行風(fēng)格轉(zhuǎn)化的方法,提出了圖像風(fēng)格提取、圖像生成技術(shù)的可行辦法,并用生成對(duì)抗網(wǎng)絡(luò)對(duì)原始數(shù)據(jù)實(shí)現(xiàn)了具有特定風(fēng)格并且質(zhì)量較好的圖像的智能生成,彰顯了生成對(duì)抗網(wǎng)絡(luò)的時(shí)效性。同時(shí),由于智能生成仍然具有一些局限性,如更創(chuàng)造性的再生成與具象圖像相關(guān)聯(lián)的抽象符號(hào)形式的多樣性,并未涉及,如果能調(diào)控生成的結(jié)果,通過修改特定的方式和參數(shù)生成特定的形狀或可以解決,這涉及GAN潛在方式的探索研究,可作為進(jìn)一步研究的方向?;谏蓪?duì)抗網(wǎng)絡(luò)對(duì)特定風(fēng)格圖像的研究,能輔助設(shè)計(jì)師進(jìn)行圖像風(fēng)格創(chuàng)造,減少創(chuàng)意圖像制作的重復(fù)性操作,提高圖像利用的藝術(shù)性和豐富性,為智能賦能圖像的再創(chuàng)造提供了新方向。
[1] 王海寧. 自然語言處理技術(shù)發(fā)展[J]. 中興通訊技術(shù), 2022, 28(2): 59-64. WANG H N. Development of Natural Language Processing Technology[J]. ZTE Technology Journal, 2022, 28(2): 59-64.
[2] 劉霞. 2022年計(jì)算機(jī)視覺領(lǐng)域五大發(fā)展趨勢(shì)[N]. 科技日?qǐng)?bào), 2022-03-28(4). LIU X. Five Development Trends in Computer Vision Field in 2022[N]. Science and Technology Daily, 2022- 03-28(4).
[3] 萬露. 強(qiáng)PUF抗機(jī)器學(xué)習(xí)攻擊方法研究[D]. 長(zhǎng)沙: 湖南大學(xué), 2019. WAN L. Research on Strong PUF Resisting Machine Learning Attack Method[D]. Changsha: Hunan University, 2019.
[4] 呂沛.機(jī)器學(xué)習(xí)語境下的圖像生成藝術(shù)研究[D]. 中央美術(shù)學(xué)院, 2019. LYU P. Research on Image Generation Art in the Context of Machine Learning[D]. Central Academy of Fine Arts, 2019.
[5] 張晶, 祝子怡. 藝術(shù)與技術(shù)的交響——本雅明機(jī)械復(fù)制時(shí)代藝術(shù)理論研究[J]. 淮北師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版), 2020, 41(1): 92-97. ZHANG J, ZHU Z Y. Symphony of Art and Technology—Research on Art Theory in the Age of Benjamin's Mechanical Reproduction[J]. Journal of Huaibei Normal University (Philosophy and Social Sciences), 2020, 41(1): 92-97.
[6] 李開復(fù), 王詠剛. 人工智能[M]. 北京: 文化發(fā)展出版社, 2017. LI K F, WANG Y G. Artificial Intelligence[M]. Beijing: Cultural Development Press, 2017.
[7] 魯?shù)婪颉じダ锪值咸貭枴さつ釥査咕? 媒體藝術(shù)網(wǎng)絡(luò): Medienkunst im uberblick[M]. 潘自意, 陳韻, 譯. 上海: 上海人民出版社, 2014. RUDOLF F, DIETER D. Medien Kunst Netz.1. Medienkunst im Uberblick[M]. PAN Z Y, CHEN Y, Translated. Shanghai: Shanghai People's Publishing House, 2014.
[8] 史蒂文·約翰遜. 我們?nèi)绾巫叩浇裉靃M]. 中信出版社, 2016. JOHNSON S. How We Got to Now: Six Innovations That Made the Modern World[M]. CITIC Press, 2016.
[9] 王帆. 人工智能作為創(chuàng)造性媒介重塑視覺藝術(shù)[J]. 中國(guó)藝術(shù), 2020(6): 69-76. WANG F. Artificial Intelligence Can Rebuild the Visual Art as a Crea-Tive Medium[J]. Chinese Art, 2020(6): 69- 76.
[10] PARK J G. Envirommental Color for Pediatric Patient Room Design[D]. Texas: A&M University, 2007, 31(1): 34-35.
[11] 田萱, 王亮, 丁琪. 基于深度學(xué)習(xí)的圖像語義分割方法綜述[N]. 軟件學(xué)報(bào), 2019, 40(2): 256-262. TIAN X, WANG L, DING Q. Review of Image Semantic Segmentation Methods Based on Deep Learning[N]Journal of Software 2019. 40(2): 256-262.
[12] 趙飛鴻. 基于金融類客戶畫像的二分K均值算法分析研究與應(yīng)用[J]. 中國(guó)科學(xué)院大學(xué)(工程管理與信息技術(shù)學(xué)院), 2016, 2019(5): 81-87. ZHAO F H. Research and Application of Binary K- Means Algorithm Based on Financial Customer Portrait[J]. University of Chinese Academy of Sciences (School of Engineering Management and Information Technology), 2016, 2019(5): 81-8.
[13] 蘇常保, 龔世才. 基于深度學(xué)習(xí)的人物肖像全自動(dòng)摳圖算法[J]. 圖學(xué)學(xué)報(bào), 2022, 43(2): 247-253. SU C B, GONG S C. Fully Automatic Matting Algorithm for Portraits Based on Deep Learning[J]. Journal of Graphics, 2022, 43(2): 247-253.
[14] 王文韻, 黃根春, 田猛, 等. 基于上下文學(xué)習(xí)的輕量級(jí)自動(dòng)摳圖算法[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2022, 43(1): 94-100. WANG W Y, HUANG G C, TIAN M, et al. Lightweight Automatic Matting Algorithm Based on Context Learning[J]. Computer Engineering and Design, 2022, 43(1): 94-100.
[15] 周宏偉. 藝術(shù)設(shè)計(jì)與人工智能的關(guān)系研究[J]. 藝術(shù)與設(shè)計(jì)(理論), 2019(S1): 26-27. ZHOU H W. Research on the Relationship between Art Design and Artificial Intelligence[J]. Art and Design, 2019(S1): 26-27.
[16] 照. 人工智能作畫盛行[J]. 機(jī)器人技術(shù)與應(yīng)用, 2022(6): 7. ZHAO. Artificial Intelligence Painting is Popular[J]. Robot Technique and Application, 2022(6): 7.
Application of Style Transfer Algorithm in Design of Artistic Cultural and Creative Products
XU Shuke1, WU Qian2
(1.Southwest Minzu University, Chengdu 610000, China; 2.Sichuan Technology and Business University, Chengdu 610000, China)
The work aims to explore the intelligent generation method that can generate images of specific styles in view of the problem of plurality of image styles in intelligent image generation. Taking abstract and figurative images as the research object, the computer was used to transfer the two styles, reconstruct the image retaining a specific style, and obtain an image that captured a specific style of the picture. The resulting image was in high quality and had the characteristics of both abstract pattern and figurative image. For learning the specific style of painting artwork by generative adversarial network and intelligently generating images with style transfer, good results have been achieved, which can reduce the repetitive operation of creative image production, improve the artistry and richness of image utilization, and provide a new idea for the re-creation of intelligently empowered images.
style transfer algorithm; artistic; cultural and creative product
TB472
A
1001-3563(2024)02-0365-09
10.19554/j.cnki.1001-3563.2024.02.040
2023-08-11
中央高校課題(2023SYB29)