程季康
人類文明出現以來,無數精美的名畫和優(yōu)秀的畫家脫穎而出。例如梵高的《星夜》與莫奈的《日出》等,每幅傳世的佳作都有自己別具一格的風格,畫家也有屬于自己的畫風。而模仿和學習名作名畫的風格,千百年來人們趨之若鶩,也花費極大的時間和精力。上世紀九十年代開始,合成具有藝術風格的自然圖片引起了計算機科學家的興趣。把自然圖片轉化為風格化的藝術圖片,被稱為風格遷移,提供風格紋理和筆觸的圖片(如油畫)被稱作風格圖,而提供大致內容結構的圖片(如照片)則被稱作內容圖。風格遷移的目標就是以風格圖的紋理筆觸與內容圖的內容結構合成一張新的風格化圖片。最初研究者們嘗試用算法來仿真不同的藝術繪畫風格,并利用這些算法模仿名作名家的用色和筆觸,這些方法在一些軟件中得到了一定的應用,例如一些圖像軟件中的濾鏡,就可以把照片轉化為簡筆畫或者油畫。但是這些算法仿真的方案只能針對單一的簡單風格,同時這些仿真算法大多是對于像素細節(jié)的改動,所以無法把握圖像整體的內容結構,照片風格化的效果并不那么理想。
一、神經風格遷移的提出
如何提取圖像的語義和紋理信息,這是計算機視覺研究者一直致力于解決的問題。在如今硬件(CPU,GPU)強大算力的支持下,卷積神經網絡(CNN)的提出深刻地影響了計算機視覺行業(yè)。在圖像復原領域,CNN可以通過深度學習,幫助預測復原細節(jié)像素點。而在圖像識別領域,可以利用CNN迭代監(jiān)督訓練以提取圖像的語義信息,然后將這些語義信息作為識別時的特征,大大提高了圖像識別的準確率。例如由海量的帶特征的標簽樣本訓練出來的VGG網絡,可以在訓練完成后將輸入的圖片分離出不同層次的圖像語義信息,作為圖像識別的特征。利用這一網絡,Gatys等人首先提出了利用語義信息作為約束,進行迭代優(yōu)化,學習生成風格化圖片的方法,其通過格拉姆矩陣將VGG提取的層次轉換為可用作迭代優(yōu)化的變量。這實現了對任意風格和內容的結合,只需要一定次數的圖像優(yōu)化迭代即可,并且輸出的風格化圖片基于語義細節(jié),效果非常理想。
另外還有利用生成對抗網絡(GAN)來實現學習轉換的諸多風格遷移方法,但不是基于提取語義的優(yōu)化,在此不做詳細的闡述。
基于神經網絡的圖像語義提取,啟發(fā)了風格遷移的研究者,提出了大量的方法和針對不同場景的解決方案。遷移方法大體有在線、離線單風格、離線多風格和離線任意風格四種,而針對于有關應用場景,則提出了顏色保留、高分辨率風格遷移、多風格遷移和視頻遷移等多種場景的解決方案。這些方法都不需要風格化的結果作為訓練的依據,大大提高了可用性和靈活性。一些應用軟件也應運而生,例如網站應用Ostagram和蘋果手機應用Pictory,這些軟件都提供了豐富的風格遷移接口。
二、神經風格遷移的分類
基于神經網絡的風格遷移有4種類型。
Gatys等人率先提出了基于神經網絡的風格遷移方法。這種方法利用VGG網絡提取出風格圖的紋理特征和內容圖的結構特征。
為了解決耗時問題,研究者們希望構建可復用的模型來實現實時的風格遷移,形成了三類方法,分別是單模型單風格,單模型多風格和單模型任意風格。
Johnson首先提出了一個利用感知損失(PerceptualLoss)取代Gatys的風格損失(Style Loss)實現的風格遷移網絡模型。該方法的實現思路很簡單,就是通過預訓練,獲得一個針對單個風格的前向反饋遷移網絡。利用這個預訓練好的模型,就可以將輸入的內容圖實時轉換為該風格的圖片?;趩文P蛦物L格的思路,還有多種方法對風格遷移的視覺質量實現了進一步的優(yōu)化,比如在前饋網絡中進行紋理合成與風格化,使用自注意力機制進行多種筆畫模式的風格遷移。
由于單風格模型使用了大量的變量,所以在該模型上繼續(xù)訓練其他風格以實現單模型多風格是不合適的。此外單風格模型本身也是針對于單個風格的參數進行更新,并沒有對多個風格訓練做相應的調整。Dumoulin基于單風格的方法,發(fā)現縮放和移動參數,即可實現類似的遷移效果,這樣可以省下大量的模型參數,減少了模型過于擬合單個風格的風險,使該模型可以在訓練后應用于多個具有相似紋理的風格,也就是單模型多風格。
然而單模型多風格的方法不僅非常局限于風格的紋理,也并不能提供較好的遷移效果,因此研究人員接著提出了任意風格的遷移模型。這種模型利用深度學習,更新模型變量,使該模型學習到的是風格的轉換過程而非風格本身,所以可以實時應用于任意風格與內容的遷移。最初的任意風格模型是由Chen等人提出的風格交換(StyleSwap),這種方法顧名思義,就是匹配風格圖和內容圖中相似的部分,然后將他們交換,將交換的結果再利用VGG各層進行重構,獲得最終的結果。這種方法大大提高了風格遷移的靈活性。但是它并沒有完全做到實時生成結果。另外由于做法較為生硬,沒有適當地結合圖片的語義信息,所以遷移結果的視覺質量并不是很好。在這種算法之后研究者們又提出了一系列的方法,比較典型的、效果較好的任意風格模型則是Huang等人提出的自適應實例標準化(AdaIN)。這種模型結合了風格交換等一些前人的做法,利用海量的風格和內容圖對模型進行訓練,最終實現了實時生成任意風格的風格化圖片,并且在大部分的風格上有較好的表現。不過多風格的模型受到訓練集所包含的風格數量的約束,無法很好地處理不在訓練樣本中的風格,同時這種模型也不能很好地識別較為復雜的風格紋理模式,只能做到一定程度的風格轉換。
總的來說,Gatys的方法生成的風格化圖片效果是最優(yōu)的,但耗時問題使其不方便操作于一些實時應用的場景。三種離線方法的提出在一定程度上滿足了實時應用的需求,極大地提高了風格遷移的速度。盡管遷移結果的視覺質量稍顯遜色,但是其速度上的優(yōu)勢和靈活性使其有著更廣泛的應用和研究前景。在這里我們給出目前較為主流的一種在線方法和兩種離線方法的遷移效果圖,分別是Gatys等人的經典在線方法,Johnson等人的利用感知損失的單風格離線方法,以及Huang等人的任意風格離線方法。
三、風格遷移的延伸控制和優(yōu)化
針對不同的應用場景和遷移算法本身的缺陷,研究人員提出了許多的優(yōu)化策略,也使風格遷移的效果和因素更加地可控。我們介紹幾種簡單的,但是效果較為吸引人的優(yōu)化和延伸方法。
一是色彩保留。在常規(guī)的風格遷移中,風格圖中的用色將會映射到最終的風格化結果中,使其在紋理和色彩上都靠近于風格圖。而有的時候我們希望只改變紋理,保留內容圖的色彩。為了實現這一目標,研究者提出了一些解決的方案,例如將迭代優(yōu)化的圖像矩陣從RGB通道轉換為亮度、灰度與對比度,并僅對亮度通道進行優(yōu)化處理,這樣就避免了對顏色造成影響,只改變圖像的紋理。還可以先將內容圖的顏色遷移到風格圖中,再將風格和紋理遷移回內容。其效果已經非常令人滿意。
二是視頻風格遷移。視頻的風格遷移并不能簡單地看作對逐幀照片分別進行風格遷移,因為視頻的每一幀是連續(xù)的,故而要求每一幀之間的遷移紋理具有連續(xù)性。同時因為幀間的相似性,風格遷移的過程也可以利用這些相似性,提高運行的效率。最先被提出的方法是利用時間一致性來“懲罰”幀間映射的偏差,這種做法很好地實現了平滑的視頻風格遷移,但是每一幀的耗時達到了數分鐘,這在實際的應用場景中是不能接受的。但是將這種思想結合到利用模型實現的離線方法中,就可以很好的滿足應用的需求,因為模型訓練的時間增加是可以接受的。
三是多風格的遷移。這種方法實現了對單個內容圖到多種風格圖的遷移。各個風格圖所占的權重也可以人為的調整。多風格遷移利用引導通道來協調各風格進行渲染。這種延伸方法實現的視覺效果非常驚艷。
有關風格遷移的優(yōu)化和擴展方法還有很多。例如對于高分辨率的圖像,風格遷移的效果并不理想,只能對細粒度的紋理做到轉換,對粗粒度的風格卻無法有效的處理。研究者們提出了先在低分辨率遷移,后在高分辨率遷移的方法,較為有效的提高了遷移質量。對于真實圖像之間的風格遷移,例如將蘋果轉換為草莓。研究者提出了照片規(guī)范化的方式實現了這種場景的遷移,而更多的優(yōu)化辦法也被廣泛的應用。對于一些非常細致的應用場景,例如書法遷移、肖像遷移、時尚設計遷移等等,都有相應的更優(yōu)的解決方案被提出,針對特殊場景的細節(jié)做出了調整。筆者也正在嘗試一種算法,能夠將在線風格遷移的耗時縮小一半以上。
四、風格遷移的應用和研究前景
如今社交平臺蓬勃發(fā)展,視頻直播風生水起,風格遷移很好地滿足了人們追求個性的需求。人們可以利用軟件輕松生成高視覺質量、獨一無二的藝術化圖片。由于如今該領域發(fā)展迅速,無論是大方向的研究,還是細節(jié)上的改進都做得非常細致,成果也非常豐富。在大多數的場景下都有較好的算法來實現令人滿意的視覺效果,同時在耗時和效果之間尚有很大的調整余地。雖然幾個較為主流的風格遷移應用軟件在國外已經獲得了很好的口碑,但是這些網站或軟件在國內并沒有得到太多的關注。而且這些應用的操作并不算簡單,還會根據速度和分辨率收取一定的費用。基于目前國內商業(yè)市場在這一領域的空缺,相信圖像風格遷移在國內將會有不錯的應用前景。
這一領域的研究涵蓋廣泛,無論是對現有方法的縫縫補補、進一步優(yōu)化,還是另辟蹊徑、獲得開創(chuàng)性的成果,都大有作為的空間。譬如提高模型對于任意風格圖片的廣泛適應性,提高遷移映射的穩(wěn)定性以及提高細粒度紋理遷移的準確性等等問題,都有待研究者提供新穎的方案,進一步提高風格遷移的質量。