• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于記憶網(wǎng)絡(luò)的視頻著色方法

      2022-09-05 13:30:40李赟紅孫澤龍邵峰晶孫仁誠
      關(guān)鍵詞:著色顏色記憶

      李赟紅孫澤龍邵峰晶孫仁誠

      (青島大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,青島 266071)

      利用黑白視頻上色處理技術(shù),可以對(duì)早期的黑白影像色彩化處理,使人們更好的了解當(dāng)年的真實(shí)情況,黑白影像的彩色化也能為視覺理解和對(duì)象跟蹤等計(jì)算機(jī)視覺應(yīng)用提供輔助支撐。隨著卷積神經(jīng)網(wǎng)絡(luò)(CNN)在計(jì)算機(jī)視覺領(lǐng)域的發(fā)展,出現(xiàn)許多圖像、視頻處理技術(shù),如,圖像超分辨率[1],圖像修復(fù)[2],圖像著色[3-4],視頻著色等。視頻上色時(shí),可以通過圖像增強(qiáng)算法處理生成的視頻幀而實(shí)現(xiàn),但該方法并沒有解決相鄰幀的顏色傳播問題,幀與幀之間顏色跳變明顯[5]。此后出現(xiàn)一種多樣性的視頻上色方法,可生成多個(gè)不同顏色的視頻,并人工挑選出最終結(jié)果,但訓(xùn)練過程中,模型往往只學(xué)習(xí)主流顏色,當(dāng)待上色視頻與訓(xùn)練集中的主流顏色差異很大時(shí),導(dǎo)致上色后視頻嚴(yán)重失真[6]?;趥鞑サ囊曨l上色方法通過深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)從給定的參考幀中復(fù)制顏色,用參考幀來指導(dǎo)灰度視頻著色,這些方法對(duì)于和參考幀場景相同的上色質(zhì)量較好,若后續(xù)幀與參考幀顏色差異很大,視頻上色質(zhì)量會(huì)迅速下降,并且如果顏色在特定幀上傳播失敗,后續(xù)傳播都會(huì)出現(xiàn)問題[7-8]。隨著記憶模塊[9]的提出,人們將其與深度學(xué)習(xí)模型相結(jié)合來解決實(shí)際應(yīng)用問題。Yoo等[10]首次將記憶模塊應(yīng)用于圖像著色任務(wù)中,實(shí)現(xiàn)罕見動(dòng)畫的彩色化,但該方法無法解決相鄰幀的顏色傳播問題以及多場景轉(zhuǎn)換問題。

      1 視頻著色方法

      視頻著色時(shí)首先分解輸入的視頻,然后對(duì)分解后的幀著色處理,最后合成視頻。如果視頻中有語音,則再合入語音信息。本文的著色網(wǎng)絡(luò)采用生成對(duì)抗網(wǎng)絡(luò)[11-12],該網(wǎng)絡(luò)著色成功的關(guān)鍵在于其對(duì)抗性損失,即判別器區(qū)分真實(shí)圖像和假圖像,而生成器生成更逼真的假圖像來欺騙判別器。但若將其單獨(dú)應(yīng)用到視頻著色任務(wù)中,則無法解決相鄰幀的顏色跳變問題。因此,本文借鑒了文獻(xiàn)[10]的圖像著色思想,將記憶模塊與生成對(duì)抗網(wǎng)絡(luò)相結(jié)合,提出了基于記憶網(wǎng)絡(luò)的視頻著色方法。一方面利用記憶網(wǎng)絡(luò)的存儲(chǔ)以及可提取優(yōu)勢(shì),針對(duì)視頻中不同的場景,提取不同參考特征指導(dǎo)上色,鑒于同一場景參考特征的唯一性,保證了相鄰幀的色彩連續(xù)性,解決了相鄰幀的顏色跳變問題。另一方面利用生成對(duì)抗網(wǎng)絡(luò)的對(duì)抗性損失優(yōu)勢(shì),生成與真實(shí)圖像難以區(qū)分的彩色圖像。

      如圖1所示,該方法由兩個(gè)網(wǎng)絡(luò)組成:記憶網(wǎng)絡(luò)和著色網(wǎng)絡(luò)。在訓(xùn)練過程中,記憶網(wǎng)絡(luò)學(xué)習(xí)存儲(chǔ)訓(xùn)練集中彩色圖像的顏色特征、空間特征等,著色網(wǎng)絡(luò)學(xué)習(xí)如何有效地將顏色特征注入灰度視頻幀中。在測(cè)試過程中,從記憶網(wǎng)絡(luò)中檢索與輸入視頻幀最接近的顏色特征,將其作為參考特征注入到著色網(wǎng)絡(luò)中,以確保相鄰視頻幀的顏色一致性。為了應(yīng)對(duì)多變的場景,本文增加了場景檢測(cè)功能,當(dāng)檢測(cè)到場景變化時(shí)切換參考特征。著色過程如圖2所示。

      圖1 視頻著色方法訓(xùn)練過程

      圖2 視頻著色過程

      1.1 記憶網(wǎng)絡(luò)

      本文的記憶網(wǎng)絡(luò)借鑒了記憶模塊[9]的一些機(jī)制,結(jié)構(gòu)用二元組表示

      其中,K∈Rn×m表示鍵矩陣,n是記憶模塊大小,m是維數(shù)。K提取于訓(xùn)練集中,訓(xùn)練過程中用于存儲(chǔ)輸入圖像的空間信息,著色過程中用于計(jì)算參考樣本與輸入視頻幀的相似性。V表示值向量,提取于訓(xùn)練集中,用于存儲(chǔ)訓(xùn)練圖像的參考特征,這是后期視頻著色的必備條件。實(shí)驗(yàn)中,將輸入視頻幀統(tǒng)一轉(zhuǎn)化成Lab顏色空間的值信息,然后存儲(chǔ),這種轉(zhuǎn)化使模型更適用于具有不同顏色和復(fù)雜繪圖的圖像。

      1.1.1 參考特征提取 參考特征,即訓(xùn)練集中彩色圖像的顏色信息。在訓(xùn)練過程中,參考特征主要通過記憶網(wǎng)絡(luò)的V向量進(jìn)行存儲(chǔ),在著色過程中通過記憶網(wǎng)絡(luò)的記憶查詢功能查找與輸入視頻幀最匹配的參考特征,利用該參考特征指導(dǎo)灰度視頻幀的著色。

      記憶網(wǎng)絡(luò)中的記憶查詢用向量q表示,查詢時(shí),首先將視頻幀X i輸入預(yù)訓(xùn)練好的殘差網(wǎng)絡(luò)Res-Net101,以總結(jié)視頻幀的空間信息。鑒于ResNet本身參數(shù)少、訓(xùn)練效率高以及在特征提取方面應(yīng)用廣泛等優(yōu)勢(shì),選擇在查詢q之前先通過其池化層提取一個(gè)特征,將提取到的特征通過全連接層的線性函數(shù)進(jìn)行處理,最后,進(jìn)行正則化處理以構(gòu)建查詢向量q,q的大小同鍵矩陣K維度相同

      并返回最近的值,即參考顏色,該值是著色網(wǎng)絡(luò)著色的必備條件。

      1.1.2 記憶損失 記憶網(wǎng)絡(luò)的損失函數(shù)是決定記憶網(wǎng)絡(luò)好壞的關(guān)鍵因素。2015年,Schroff等[13]首次提出三重?fù)p失函數(shù),并應(yīng)用在人臉識(shí)別系統(tǒng)中,通過嵌入該損失函數(shù),系統(tǒng)人臉識(shí)別的準(zhǔn)確率顯著提高。三重?fù)p失函數(shù)對(duì)處理一些差異性較小的樣本效果顯著,前提是需要引入類標(biāo)簽,是有監(jiān)督的訓(xùn)練。

      記憶網(wǎng)絡(luò)的損失函數(shù)借鑒了三重?fù)p失的方法,不同的是視頻上色任務(wù)是無監(jiān)督性質(zhì)的,無標(biāo)簽的,因此,引入了超參數(shù)β作為閾值,只需要閾值化輸入幀與查詢q之間的距離即可。假設(shè)兩個(gè)圖像具有極大的空間相似性,那么圖像的顏色特征之間的距離一定在β內(nèi),相反則距離大于β。計(jì)算k個(gè)最近鄰(n1,n2,n3,…,n k-1,n k),假設(shè)圖像i與輸入幀是同一類別,n i為正鄰居,則輸入幀與查詢q的顏色特征之間的距離,即KL差異在閾值β內(nèi)

      其中,V ni為查詢圖像的顏色特征,v為預(yù)期值。同理,假設(shè)圖像j與輸入幀非同一類別,即n j為負(fù)鄰居,則輸入幀與查詢q的顏色特征之間的距離,即KL差異大于顏色閾值β

      最終,記憶損失定義為

      即最大化查詢q與正樣本的相似性,同時(shí)最小化查詢q與負(fù)樣本的相似性,α為常數(shù)。

      1.2 著色子網(wǎng)

      相比于基于CNN 的圖像上色,GAN 的對(duì)抗性損失是可以自動(dòng)學(xué)習(xí)的損失函數(shù),從而減輕了人為設(shè)計(jì)損失函數(shù)的負(fù)擔(dān),有條件的生成對(duì)抗網(wǎng)絡(luò)可以生成更為多樣化的著色效果,因此本文利用其在圖像生成方面的優(yōu)勢(shì),將其作為著色子網(wǎng)。若將色彩視為一種風(fēng)格,那么對(duì)于圖像著色,亦可以看作是一種樣式的遷移,即將彩色顏色特征轉(zhuǎn)移到灰度圖像中。因此,在本文著色網(wǎng)絡(luò)中,使用了AdaIN 來實(shí)現(xiàn)將參考圖像的特征轉(zhuǎn)移到到灰度視頻幀中,強(qiáng)化了視頻幀的著色效果。

      1.2.1 目標(biāo)函數(shù) 訓(xùn)練期間生成器G 主要負(fù)責(zé)捕獲圖像的數(shù)據(jù)分布,判別器D 主要負(fù)責(zé)判斷輸入的圖像是生成的還是真實(shí)的。訓(xùn)練過程中,模型不斷優(yōu)化,即生成器生成圖像來欺騙判別器,然后判別器檢測(cè)這張圖片的真實(shí)性,整個(gè)網(wǎng)絡(luò)不斷進(jìn)行生成器和判別器的對(duì)抗訓(xùn)練和迭代過程。隨著迭代次數(shù)的增加,生成器和判別器各自的能力不斷增強(qiáng),模型最終達(dá)到穩(wěn)態(tài)。測(cè)試期間,將視頻幀和記憶查詢的顏色特征C輸入給生成器,以生成更為逼真的彩色視頻幀G(F x,C)來欺騙判別器,判別器則試圖通過輸入的視頻幀和F x記憶查詢的顏色特征C來區(qū)分真實(shí)的圖像。判別器的目標(biāo)函數(shù)

      即判別器盡可能的區(qū)分出生成的視頻幀和參考幀。

      生成器目標(biāo)函數(shù)

      即生成器生成的樣本被判別器盡可能的判別為真。

      1.2.2 場景檢測(cè) 針對(duì)長視頻,當(dāng)前后幀為不同場景時(shí),若還采用同一參考特征,則生成的結(jié)果會(huì)脫離實(shí)際。因此,為了應(yīng)對(duì)多變的場景,增加了對(duì)前后幀F(xiàn)1,F2的處理。引入閾值超參數(shù)a,模型在上色過程會(huì)檢測(cè)相鄰幀的顏色分布,若在該閾值內(nèi),則該相鄰幀為同一場景,否則切換場景

      當(dāng)檢測(cè)到切換場景以后,重新從記憶網(wǎng)中檢索與視頻幀最接近的顏色特征,指導(dǎo)后續(xù)幀上色,以解決多場景的視頻上色問題。

      2 實(shí)驗(yàn)

      2.1 數(shù)據(jù)處理

      訓(xùn)練過程中,記憶網(wǎng)絡(luò)存儲(chǔ)訓(xùn)練集中圖像的顏色特征和空間特征等信息,著色網(wǎng)絡(luò)從記憶網(wǎng)中尋找參考特征來指導(dǎo)整個(gè)視頻上色,因此應(yīng)盡可能保證訓(xùn)練集中圖像場景的多樣化。實(shí)驗(yàn)中并沒有采用視頻集作為訓(xùn)練集,因?yàn)橐曨l集相對(duì)較大,與同規(guī)模圖片集相比,視頻集涵蓋的場景更少。實(shí)驗(yàn)數(shù)據(jù)集來源于ImageNet數(shù)據(jù)集,測(cè)試集從Videvo視頻集以及DAVIS數(shù)據(jù)集中挑選不同場景以及清晰度較高的部分視頻,實(shí)驗(yàn)中包含100多個(gè)視頻,每個(gè)視頻幀數(shù)不等。

      2.2 消融實(shí)驗(yàn)

      為了測(cè)試記憶模塊在整個(gè)上色過程中的重要作用,本文對(duì)比了全模型與消融模型視頻上色的效果,如圖3。雖然兩種方式都具有較為優(yōu)秀的著色效果,但是從連續(xù)幀數(shù)來看,有記憶網(wǎng)的效果明顯比無記憶網(wǎng)的更穩(wěn)定,無記憶網(wǎng)的生成的視頻幀存在某幾幀同其他幀顏色差別顯著的現(xiàn)象。而全模型的方法可以緩解相鄰幀之間的顏色跳變問題,有效的保證了視頻的幀與幀之間的時(shí)間一致性。

      圖3 消融實(shí)驗(yàn)

      為驗(yàn)證實(shí)驗(yàn)結(jié)果的可靠性,本文進(jìn)行了用戶感知評(píng)價(jià)。取20個(gè)視頻對(duì),每個(gè)視頻對(duì)包含有記憶網(wǎng)和無記憶網(wǎng)各自生成的視頻,視頻順序隨機(jī),讓10位參與者分別觀看這20組視頻,并挑選出各組內(nèi)質(zhì)量最好的視頻,統(tǒng)計(jì)結(jié)果見表1。其中的16組視頻,用戶一致認(rèn)為全模型生成的視頻無論是在流暢性還是顏色上效果更好,但是其中4組存在爭議,用戶認(rèn)為無記憶網(wǎng)生成的視頻色彩更鮮亮。

      表1 消融實(shí)驗(yàn)用戶感知評(píng)價(jià)結(jié)果(%)

      2.3 實(shí)驗(yàn)對(duì)比

      為使實(shí)驗(yàn)結(jié)果更具說服力,在上色質(zhì)量方面,將本文方法與最近較為流行的全自動(dòng)圖像著色方法進(jìn)行比較。實(shí)驗(yàn)中,首先采用文獻(xiàn)[3]、文獻(xiàn)[4]的方法對(duì)視頻幀上色,然后再應(yīng)用文獻(xiàn)[5]的盲視頻時(shí)間一致性方法來提升著色視頻的顏色一致性。如圖4,對(duì)比了本文方法和文獻(xiàn)[3]、文獻(xiàn)[4]方法生成的彩色視頻中的幾個(gè)彩色幀。

      圖4 與全自圖像著色方法對(duì)比

      對(duì)比本文方法與文獻(xiàn)[6]的全自動(dòng)視頻著色方法,文獻(xiàn)[6]的方法雖然可以生成多個(gè)不同顏色的視頻,但是容易受訓(xùn)練集中主流色彩的影響,導(dǎo)致某些視頻上色后跟原視頻風(fēng)格差異很大。如圖5,本文生成的視頻色彩更加真實(shí),文獻(xiàn)[6]生成的視頻顏色由黃色主導(dǎo)。

      圖5 與全自動(dòng)視頻著色方法對(duì)比

      為了更好評(píng)價(jià)生成視頻顏色的真實(shí)感,將本文的方法與基線方法進(jìn)行對(duì)比,結(jié)果見表2。實(shí)驗(yàn)中隨機(jī)選取Videvo視頻集生成的20個(gè)視頻。每組包含各個(gè)方法生成的視頻,順序隨機(jī),參與者可反復(fù)觀看,并在評(píng)價(jià)表中填寫閃爍較少、色彩更真實(shí)、總體效果更優(yōu)的視頻的編號(hào)。共有10位用戶參與評(píng)價(jià),可知,本文的方法無論是在總體效果上還是其他評(píng)價(jià)方面都優(yōu)于基線方法。

      表2 對(duì)比實(shí)驗(yàn)用戶評(píng)價(jià)結(jié)果(%)

      3 結(jié)論

      本文結(jié)合深度學(xué)習(xí)和視頻處理技術(shù)實(shí)現(xiàn)了自動(dòng)視頻上色。擁有記憶網(wǎng)絡(luò)的著色方法在視頻著色任務(wù)中效果較好,緩解了視頻上色存在的閃爍問題,使生成的視頻色彩更真實(shí),并且支持多場景檢測(cè)。但是該方法也存在局限性,針對(duì)場景多變的視頻,檢測(cè)方式比較單一,對(duì)于一些微弱場景變化可能識(shí)別為切換場景,所以下一步研究重點(diǎn)是優(yōu)化場景檢測(cè)功能。

      猜你喜歡
      著色顏色記憶
      蔬菜著色不良 這樣預(yù)防最好
      蘋果膨大著色期 管理細(xì)致別大意
      10位畫家為美術(shù)片著色
      電影(2018年10期)2018-10-26 01:55:48
      記憶中的他們
      認(rèn)識(shí)顏色
      兒時(shí)的記憶(四)
      兒時(shí)的記憶(四)
      記憶翻新
      海外文摘(2016年4期)2016-04-15 22:28:55
      特殊顏色的水
      和顏色捉迷藏
      兒童繪本(2015年8期)2015-05-25 17:55:54
      大新县| 永丰县| 革吉县| 潜山县| 定州市| 惠水县| 广南县| 津南区| 会泽县| 布拖县| 仁化县| 大冶市| 禄丰县| 大悟县| 儋州市| 富顺县| 开阳县| 巴林左旗| 重庆市| 襄樊市| 习水县| 饶阳县| 图片| 且末县| 延吉市| 图片| 黎城县| 德钦县| 广水市| 蒙自县| 宁海县| 英德市| 攀枝花市| 武穴市| 梓潼县| 合江县| 临沭县| 汤阴县| 伊川县| 德清县| 洞头县|