黃真赟 陳家琦
摘要
在這篇文章當中,我們創(chuàng)新性的提出了一種對杭生成架構,可以將真實世界的圖片進行圖像風格的遷移,這是計算機視覺領域非常激動人心的問題。以往對于風格遷移的探索大多為對卷積神經網絡中風格與內容信息的分離重組,而我們的工作則直接用生成對抗網絡進行遷移。相較于傳統(tǒng)方法使用成對的樣本進行訓練,我們的方法訓練起來更加容易.本文的貢獻點如下:(1)在GAN的框架下,統(tǒng)一了內容與風格的對抗損失函數。(2)針對特定的繪畫風格,進行了不同損失函數的微調,以生成更加符合遷移風格的圖像。
【關鍵詞】生成對杭網絡 圖像風格遷移 卷積神經網絡
1 介紹
隨著電影《摯愛梵高》的上映,如何將真實場景的圖像變?yōu)樗囆g化的圖片,又變成了一個令人關注的問題。和很多藝術形式相同,許多漫畫的形象都是基于真實世界的場景制作的,如圖1電影龍貓中這棟房子的圖畫。為了獲得高質量的漫畫,藝術家必須花費大量的時間與精力重繪這些場景。如何幫助藝術家快速地創(chuàng)造大量的藝術作品,是我們一直關心的問題。
在這篇文章當中,我們將GAN與圖像遷移任務進行了有機的結合,提出了用于特定風格圖像的STG(Style Transfer GAN)結構,并且設計了新穎的損失函數,以實現更佳的生成效果,主要貢獻為:
(1)我們提出了一種新穎的STG結構,可以學習真實圖片到動漫圖片的映射。所生成的效果,達到了目前的最佳效果。
(2)我們從網上采集了大量藝術家的作品,以作為我們訓練網絡的材料。與傳統(tǒng)方法所不同的是,我們并不需要成對的訓練樣本,這大大降低了訓練的難度與實現的成本
(3)我們設計了針對特定風格的對抗損失函數,以衡量圖像風格與內容,并且對于風格的細微差異,進行了微調。
2 相關工作
對于圖像的風格遷移,傳統(tǒng)方法多為利用濾波與數學的方法,進行細節(jié)的捕捉,但因圖像風格的千變萬化,采用簡單的濾波設計,并不能夠取得很好的效果。隨著神經網絡的發(fā)展,Gayts等人創(chuàng)新性的提出了一種基于VGG網絡的神經樣式遷移方法,取得了視覺上十分不錯的效果。DCGAN等模型的提出,也是我們看到了利用生成對抗網絡結構生成風格畫作的可能性。
3 STG結構
通常,GAN結構包含兩部分,即判別器與生成器。生成器將隨機分布映射到目標域,生成與真實數據盡可能接近的數據分布。而判別器則盡力將生成器生成的數據與真實數據區(qū)別開來。最后達到納什均衡即判別器無法正確分辨數據是來自于生成器生成還是真實樣本。我們的STG結構,是一種GAN框架下的風格遷移網絡,其定義如下。
首先,判別器將隨機生成的SS={pi|i=1…N}映射到SS={pi|i=1…N},而判別器則需要盡力將SS={pi|i=1…N}與SC={pi|i=1…M}分別開來。N與M分別代表的是目標圖像的數量與風格訓練數據的數量。ζ代表損失函數,類似于標準的GAN訓練過程,我們的目標是解決一個極小極大問題。
(G*,D*)=argminmaxxζ(G,D)
在生成器當中,我們采用了瓶頸層的設計,類似于一個編碼器與解碼器的結構,編碼器用于提取圖片的全局信息,而解碼器則用于將特定的風格進行融合。整體的網絡架構類似于FCN,如圖2所示。
而判別器的網絡則相對而言比較簡單,因為我們需要的是對圖片全局的判斷,因此只使用了類AlexNet的網絡架構進行分類。如圖3所示。
3.1 損失函數
損失函數包含兩部分,即對抗損失部分以及內容損失部分。對抗損失部分保證來自源圖片域的分布可以映射至風格域,而內容損失函數則保證生成的過程當中,圖片所代表的內容風格保持一致。
ζ(G,D)=wζadv(G,D)+ζcon(G,D)
其中w用來平衡兩個損失。在我們的實驗當中,w取值為5時,取得了最佳的效果。
3.2 時杭損失
與傳統(tǒng)的gan結構類似,對抗損失為一組極大與極小對抗,生成器與判別器所需要優(yōu)化的目標恰好相反。在我們的假設當中,對抗的損失的表達式如下:
3.3 內容損失
為了使得在生成的過程中圖片的風格保持盡可能的一致,我們還需要內容損失函數的約束。在STG結構當中,內容損失函數被定義成為VGG預訓練模型特定層輸出的L2差值,與傳統(tǒng)NST當中的定義相同,我們將內容損失函數定義如下:
VGG特征層的選取極有技巧性,關于這方面詳細的結果,我們將會在實驗部分詳細表述。
4 訓練過程
我們使用mxnet實現了STG結構,所有的相關實驗都在NVIDIA1080tiGPU上進行。
不同的藝術家有不同的藝術風格,而他們的藝術風格則很容易由藝術畫作與視頻當中得到,因為我們方法的第一步即從動畫視頻當中采集相關的訓練數據,這一部分將在4.1中提到。在4.2節(jié)中,我們展現了STG風格遷移的一些成果,而在4.3節(jié)中,我們對比了我們不同組件之間的作用。
4.1 數據
用于我們訓練的數據為網絡上采集的大量漫畫電影的截圖,這樣獲取數據的手段無疑是非常廉價的,也使得我們的應用推廣變得更加容易。所有的照片最后都被重新調整大小為224*224。在這篇文章當中,用于訓練的截圖均來自于《灌籃高手》,而用于遷移的圖像則自于現實生活當中籃球比賽的圖像
4.2 STC結果
我們生成了大量風格遷移的結果,可以看到,結果是十分令人滿意的。除此之外,因為使用了相對而言較為輕量的網絡,因此我們可以在一秒鐘之內,完成約100張內容的遷移,對比傳統(tǒng)方法的速度,有非常明顯的提升。如圖4所示。
4.3 損失函數所扮演的作用
如圖5所示,我們對比了很多種損失函數的設定,包括是否引入內容損失函數,以及內容損失函數設定在第幾層,以L1約束還是以L2進行約束,通過大量實驗對比,我們的得出了在3節(jié)當中提到的結構設定方式。
5 結論
在這篇文章當中,我們提出了一種新穎的STG結構,以解決特定風格圖片的遷移問題。我們沿襲了GAN框架,采用對抗損失與內容損失加權的形式監(jiān)督訓練過程。采集了大量用于訓練的風格樣本,最后實現了非常不錯的效果,相信對圖像風格遷移研究將會有大幅的促進。
參考文獻
[1]L.Gatys,A.Ecker,and M.Bethge.Image style transfer usingconvolutional neural networks.In IEEE Conference on ComputerVision and Pattern Recognition(CVPR),2016,2414-2423.
[2]H.Winnemo"ller,S.C.Olsen,and B.Gooch.Real-time videoabstraction. ACM Transactions onGraphics,2006,25(3):1221-1226.
[3]L.Xu,C.Lu,Y.Xu,and J.Jia.Image smoothing via LO gradientminimization. ACM Transactions onGraphics,2011,30(6):174.