李錦峰,裴 偉,朱永英,魯明羽,宋 琳
(1.大連海事大學信息科學技術學院,遼寧 大連 116026) (2.大連海事大學環(huán)境科學與工程學院,遼寧 大連 116026) (3.大連海洋大學海洋與土木工程學院,遼寧 大連 116023)
中國傳統(tǒng)文化悠遠綿長,包羅萬象,是世界文明最優(yōu)秀成分之一. 千百年來,斗轉星移,滄海桑田,中華民族以服飾、器物、建筑等為載體,續(xù)寫、傳承著中國傳統(tǒng)文化的精髓. 但由于時空、文化變遷,古人對服飾的色彩運用技法已散漫難尋. 在世界多元文化融合發(fā)展的大背景下,人工智能引領古老智慧與東方審美融合的潮流,固本清源,助力中國傳統(tǒng)色走向更加繽紛多彩的空間.
圖像上色算法為中國傳統(tǒng)色的傳承打開了一扇門. 圖像上色一般分為自動上色[1-6]和交互上色[7-9]. Zhang等[2]將U-net集成到帶有輔助分類器的生成對抗網(wǎng)絡AC-GAN中,實現(xiàn)漫畫草圖的上色;Yoo等[4]提出了一種新穎的存儲記憶網(wǎng)絡MemoPainter,可在無類標簽的條件下,實現(xiàn)高質(zhì)量的圖像上色. 以上基于深度神經(jīng)網(wǎng)絡的自動上色方法,在各自領域都展現(xiàn)出了出色的效果,但在人和服飾并存的場景中,上色不準確,人的皮膚易上錯顏色(見圖1(a)、(b)、(c)). 交互上色指的是在上色過程中有人為干預,例如基于涂鴉的交互上色需用戶先提供大量的涂鴉才能完成圖像上色[7]. 這對于非專業(yè)用戶來說較困難. 基于主題色板的圖像上色是另一種可靠的交互上色,其需要從圖像中獲取主題,然后再根據(jù)用戶提供的目標色板完成圖像上色,圖像的最終顏色和目標色板的顏色一致. 目前有很多研究方法是基于主題色板來進行圖像上色,例如Chang等[8]提出了一種改進的 K-means 算法提取圖像的主題,允許用戶編輯主色板來實現(xiàn)圖像的重新上色;Tan等[9]計算圖像像素在5D RGBXY顏色空間中的凸包頂點,將其作為圖像的主題色板,根據(jù)優(yōu)化后的圖層分解算法完成圖像上色.
在眾多的圖像上色算法中,基于主題色板的圖像上色較符合中華傳統(tǒng)服飾的傳承上色要求,既還原原有色彩,又符合當代人的審美. 但現(xiàn)有的基于主題色板的圖像上色,大多采用無監(jiān)督的方式提取圖像主題,提取的圖像主題不準確、色彩不和諧、上色目標不明確,易出現(xiàn)張冠李戴的情況(見圖1(d)).
圖1 圖像上色結果Fig.1 Image coloring result
本文針對上述問題,提出一種將圖像分割、主題色自動提取、主題色擴增及圖像視覺評價有機結合的自動上色方案,實現(xiàn)中華傳統(tǒng)服飾在新時代的傳承上色.
圖2 基于圖像主題的圖像上色模型結構Fig.2 Structure of image coloring model based on image theme
針對基于主題色板的圖像上色方法存在著主題不準確、色彩不和諧、美感評價不客觀等問題,本文提出的自動上色方案如圖2所示,用Lasso回歸模型對Mask R-CNN分割的前景目標提取主題色、WGAN_gp對主題色擴展、NIMA對主題上色方案評價,得分最高的作為圖像上色輸出.
隨著人們審美意識的不斷提高,人們對于圖像上色有了更高的要求,例如單獨修改圖像中服裝顏色,實現(xiàn)多重變裝;或者改變環(huán)境顏色,呈現(xiàn)不同的情境. 現(xiàn)有的基于主題色板的圖像上色,只能對整張圖像進行上色,存在上色不準、局部難把控的問題.
Mask R-CNN[10]是通用的實例分割網(wǎng)絡,分為2個分支,第1個分支為原始Faster R-CNN的結構[11],用于對候選窗口進行分類和窗口坐標回歸;第2個分支為全卷積網(wǎng)絡FCN[12],用于對每一個實例的掩膜進行預測. 本文根據(jù)用戶的需求及現(xiàn)實的語義環(huán)境,用Mask R-CNN進行圖像分割,識別出圖像中需要上色的區(qū)域. 識別出來的區(qū)域?qū)⒆鳛閳D像主題的提色區(qū)域及圖像最終的上色區(qū)域.
目前,基于主題色板的圖像上色方法[8-9]大多采用無監(jiān)督的方式提取圖像主題,在復雜場景下無監(jiān)督的提色效果并不理想. 為了解決這一問題,本文采用了2013年Lin等提出的Lasso回歸模型[13]. 其主要步驟如下:
Step 1 從候選顏色中隨機選取5個顏色作為該圖像的初始主題色板,并基于圖像的顯著性、像素覆蓋、分割、顏色多樣性、顏色純度及聚類統(tǒng)計這6大特征對初始主題色板進行評分.
Step 2 從初始主題色板的第1個顏色開始使用候選顏色中的顏色替換,重復此操作,到更換初始主題色板第1個顏色不能再增加該初始主題色板的評分為止. 對初始主題色板的第2、3、4、5個顏色執(zhí)行相同的操作.
Step 3 重復Step 2的操作,到替換初始主題色板中任意位置顏色不再增加初始主題色板的評分為止. 此時獲得的主題色板即為該圖像的主題.
一直以來圖像上色都缺乏適當?shù)脑u估指標[14],導致上色之后的圖像不能進行精準的評估. 為此,本文引入NIMA模型[15]. NIMA使用預訓練的VGG16網(wǎng)絡作為基準網(wǎng)絡,在VGG16網(wǎng)絡的基礎上,使用隨機初始化的全連接層替換掉VGG16網(wǎng)絡的最后一層,作為Softmax激活的輸入,輸出圖像的評價分布. 網(wǎng)絡結構如圖3所示.
圖3 NIMA模型網(wǎng)絡結構Fig.3 NIMA model network structure
現(xiàn)有基于主題色板的圖像上色方法需要用戶自己提供目標色板,對于非專業(yè)用戶而言提供一個色彩和諧的目標色板是非常困難的.
相比于原始GAN,WGAN_gp[16]使用Wasserstein距離和梯度懲罰策略,解決了原始GAN中梯度消失、模式崩塌等問題,改善了網(wǎng)絡的穩(wěn)定性和圖像的生成質(zhì)量. 因此,本文使用WGAN_gp增強Lasso回歸模型提取的圖像主題質(zhì)量,生成配色更加符合視覺審美的目標色板. 基于WGAN_gp設計的圖像主題加強網(wǎng)絡結構如圖4所示,該網(wǎng)絡由生成器和判別器構成,生成器和判別器以對抗學習的方式來訓練,最終生成色彩和諧的目標色板.
在獲得圖像重新上色的主題色板及目標色板之后,本文采用2015年Chang等提出的色彩轉換方法[8],實現(xiàn)圖像中需要上色區(qū)域的上色. 該色彩轉換方式將單個色彩轉換分為了2個部分:(1)在L通道上的轉換;(2)在A、B通道上的轉換. 其中,在L通道的變化由對色板亮度線性插值得到;在A、B通道的變化由顏色在LAB空間內(nèi)平移得到. 一組色彩的變換可以看作是若干個單獨色彩變換的組合,具體的表現(xiàn)形式如式(1)所示.
(1)
式中,權重wi(x)由徑向基函數(shù)得到;fi(x)為單個色彩變換的結果.
每個目標色板可以生成120張不同上色效果的圖像,為了選出最優(yōu)的上色圖像,本文使用NIMA評分模型對這120張圖像進行評分,評分最高的圖像將作為圖像最終的上色結果. 本文的圖像上色流程如圖5所示.
圖5 圖像上色流程Fig.5 Image coloring process
首先運用Mask R-CNN模型獲得分割圖像,再用Lasso回歸模型提取圖像的主題. 圖像分割和圖像主題的提取結果如圖6所示. 提取的結果將作為圖像上色的主題色板.
圖6 圖像分割和圖像主題的提取結果Fig.6 Image segmentation and image subject extraction results
表1 KM、CM、Rand和Lasso結果對比Table 1 Comparison of KM,CM,Rand and Lasso results
為了驗證Lasso回歸模型的提色準確性,本文加入了KM(K-Means)、CM(C-Means)、Rand 3組對照實驗. KM、CM采用無監(jiān)督的方式提取圖像主題;Rand采用隨機生成的方式提取圖像主題. 表1為實驗結果,表中的數(shù)值為同一數(shù)據(jù)集下各個方法提取的圖像主題與專家提取的圖像主題之間的平均距離. 通過對比可以發(fā)現(xiàn)Lasso回歸模型提取的圖像主題更接近專家提取的結果.
圖7 測試集的真實評分分布與預測評分分布直方圖Fig.7 Histogram of the true score distribution and the predicted score distribution of the test set
圖8 圖像上色的目標色板Fig.8 The target palette for coloring the image
圖像的主題色板在經(jīng)過WGAN_gp優(yōu)化后,可以獲得31種不同的色板. 為了選擇最優(yōu)的色板,本文以colourlovers網(wǎng)站上收集到的1.1萬張帶有評分的五色色板為依托,重新訓練了NIMA評分模型.
表2 測試集的混淆矩陣Table 2 Confusion matrix of the test set
為了驗證模型的準確度,以用戶評分均值2.95作為評價的閾值,計算測試集的混淆矩陣(如表2所示),訓練后模型的準確度為75.9%. 圖7為測試集的預測評分分布及真實評分分布,可以看出模型預測的評分分布和真實評分分布十分接近,表明重新訓練好的NIMA模型可以為五色色板打一個接近人類感知水平的可靠分數(shù).
使用重新訓練好的NIMA模型對31種不同的主題色板進行評分,最終選擇評分最高的主題色板作為圖像重新上色的目標色板. 目標色板的提取結果如圖8所示. 同時本文對比了主色板和目標色板的NIMA評分,二者的NIMA評分均值分別為2.88、3.23,相比于主色板,目標色板的NIMA評分均值提高了12%,表明目標色板更能得到人們的認可.
用本文的圖像上色方案進行圖像上色,實驗結果如圖9、10所示,其中圖9為原始的圖像,圖10為重新上色之后的圖像. 同時本文對比了圖像上色前后的NIMA評分,結果顯示,重新上色之后,圖像NIMA評分均值提高了3%,表明重新上色之后的圖像更能得到人們的認可.
圖9 原始圖像Fig.9 The original image
圖10 重新上色之后的圖片F(xiàn)ig.10 Image after recoloring
表3 4種模型的上色效果指標比較Table 3 Comparison of the coloring effect indicators of the four models
另外,將本文的圖像上色方案與Su等[5]提出的基于實例感知的圖像上色模型、Antic[3]提出的基于NOGAN的圖像上色模型、Chang等[8]提出的基于主題色板的圖像上色模型進行對比. 相比于PSNR、SSIM等傳統(tǒng)評估指標,LPIPS[17]和NIMA更符合人們的審美觀,因此使用NIMA和LPIPS作為評估指標,驗證本文圖像上色方案的有效性. 由結果(表3)可知,相比于性能第一的基于實例感知的圖像上色模型[5],采用本文方案上色后LPIPS降低了37.5%,NIMA提高了6.6%,表明該方案可行有效.
現(xiàn)有基于主題色板的圖像上色方法存在著主題不準確、色彩不和諧、上色目標不明確、美感評價不客觀等問題. 針對這些問題,本文以中華傳統(tǒng)服飾上色作為切入點,以Mask R-CNN、Lasso回歸、WGAN_gp和NIMA為傳承方法,將古老的智慧與新時代東方審美相融合,實現(xiàn)傳統(tǒng)服飾在新時代中的傳承上色. 其中,Mask R-CNN用來分割圖像,識別出圖像中需要上色的傳統(tǒng)服飾,解決上色目標不明確的問題;Lasso回歸代替原先無監(jiān)督的提色方式,使得圖像主題色板的顏色代表性得到增強;WGAN_gp用來強化主題色板,生成色彩和諧的目標色板;NIMA能夠為傳統(tǒng)服飾打一個接近人類感知水平的可靠分數(shù),解決美感評價不客觀的問題. 在圖像上色實驗中,本文模型的LPIPS指標和NIMA指標都優(yōu)于其他模型,表明本方案主題提取準確、色彩和諧、評價客觀,更符合人們的審美觀. 但是使用Mask R-CNN從圖像中分割出的傳統(tǒng)服飾邊緣不準確. 以后將嘗試利用圖像的不連續(xù)信息及方向場信息,優(yōu)化Mask R-CNN實例分割的結果,提高圖像細粒度的上色效果.