王玉潔,樊慶楠,李坤,陳冬冬,楊敬鈺,盧健智,Dani Lischinski,陳寶權(quán)
1. 山東大學(xué), 青島 266237; 2. 騰訊AI Lab, 深圳 518057; 3.天津大學(xué), 天津 300072;4. 微軟云人工智能,華盛頓 98052,美國; 5. 廣東三維家信息科技有限公司, 廣州 510000;6. 耶路撒冷希伯來大學(xué),耶路撒冷 91904,以色列; 7.北京大學(xué), 北京 100091
圖像的物理成分,如反照率和陰影,對于許多計算機視覺和圖形應(yīng)用來說十分關(guān)鍵。提取這些關(guān)鍵成分是一個重要的中級視覺問題,稱為本征圖像分解,該問題由Barrow和Tenebaum(1978)首次定義。在理想的漫反射環(huán)境中,一幅輸入圖像的每個像素可以分解為反照率和亮度的乘積。
由于未知量的數(shù)目是已知量的兩倍,從單個輸入圖像恢復(fù)場景的反照率成分和亮度成分是高度不適定的。但由于其巨大的應(yīng)用潛力,這項任務(wù)一直受到學(xué)者們的廣泛關(guān)注。之前的工作提出了各種基于先驗和統(tǒng)計的模型,包括Retinex模型(Land和McCann,1971)、非局部紋理線索(Zhao等,2012)和全局稀疏先驗(Gehler等,2011;Shen和Yeo,2011)。
與許多其他具有挑戰(zhàn)性的問題一樣,基于深度學(xué)習(xí)的方法逐漸被用以克服本征圖像分解任務(wù)的不適定性。在基于深度學(xué)習(xí)的本征圖像分解方法中,通常使用一個編碼器—解碼器的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)從輸入的圖像中恢復(fù)場景的本征成分 (Fan等,2018;Li和Snavely,2018a,b; Narihira和Gehler,2015b;Shi等,2017)。為了實現(xiàn)反照率圖像的局部平滑性質(zhì),這些方法通常引入后處理的濾波模塊(Fan等,2018;Li和Snavely,2018a;Nestmeyer和Gehler,2017)或在目標(biāo)函數(shù)中加入正則化項(Li和Snavely,2018a,b)來實現(xiàn)平滑先驗。然而,一般的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)較為擅長保持濾波器的空間局部性,從而由于其感受野大小的限制,可能會影響本征圖像分解任務(wù)的性能,因為從圖像中分解本征成分需要利用整幅圖像的信息。
受到圖卷積神經(jīng)網(wǎng)絡(luò)在形狀和語義理解任務(wù)中的成功應(yīng)用,以及經(jīng)典的本征圖像分解算法(Bi等,2015;Chen和Koltun,2013;Shen等,2008;Shen和Yeo,2011;Sinha和Adelson,1993;Zhao等,2012)中所采用的非局部稀疏性先驗的啟發(fā),本文提出了一種適合于本征圖像分解任務(wù)的非局部圖卷積網(wǎng)絡(luò)。提出的非局部圖卷積運算的設(shè)計借鑒了用于形狀分類的圖卷積網(wǎng)絡(luò)(graph convolutional neural network, GCN)(Simonovsky和Komodakis,2017),但針對2D圖像結(jié)構(gòu)進行了修改。提出的圖卷積網(wǎng)絡(luò)將特征圖中的點視為圖中的一個頂點,對特征圖像中的每個點,與在整幅特征圖上定義的非局部鄰域點之間建立連接,進行特征融合,從而使得圖卷積層學(xué)習(xí)更多的全局知識。
另一方面,數(shù)據(jù)集對基于深度學(xué)習(xí)網(wǎng)絡(luò)的方法非常重要(沙浩和劉越,2021)。一旦訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)之間存在較大的差別,基于學(xué)習(xí)的方法往往泛化能力較差。并且,目前現(xiàn)有的本征圖像數(shù)據(jù)集均存在缺陷,例如數(shù)據(jù)量不足(MIT (Grosse等,2009))、場景不夠逼真(MPI-Sintel (Butler等,2012))、僅包含單個物體的簡單場景(ShapeNet (Shi等,2017)), 或只用于弱監(jiān)督的稀疏注釋(IIW(intrinsic images in the wild)(Bell等,2014),SAW(shading annotations in the wild)(Kovacs等,2017))。這些缺點使得深度學(xué)習(xí)技術(shù)在本征圖像分解這個任務(wù)上無法充分發(fā)揮其性能。Li和Snavely(2018a)提出了一個基于SUNCG室內(nèi)場景數(shù)據(jù)集(Song等,2017)渲染的逼真的本征圖像數(shù)據(jù)集。盡管該方法提出的數(shù)據(jù)集在場景的逼真度和渲染圖片的質(zhì)量上均有明顯提升,但是該數(shù)據(jù)集中的圖片中仍然具有明顯的噪聲,以及該數(shù)據(jù)集中并未提供逐像素的亮度圖標(biāo)簽,并在使用時默認亮度圖中光照是白光。
為了克服上述局限性,提出了一個新的基于真實感繪制的本征圖像數(shù)據(jù)集,該數(shù)據(jù)集中的渲染數(shù)據(jù)來自大規(guī)模設(shè)計精細的3維室內(nèi)場景模型,并結(jié)合高質(zhì)量的紋理和光照來模擬真實環(huán)境。提出的本征圖像數(shù)據(jù)集提供了逐像素的亮度圖標(biāo)簽,且亮度圖中沒有使用白光光照。實驗結(jié)果表明,所提出的數(shù)據(jù)集比現(xiàn)有的本征分解數(shù)據(jù)集具有更好的圖像質(zhì)量,有效地緩解了基于學(xué)習(xí)的方法在真實圖像上的泛化能力。
此外,對所提出的方法與前沿的本征圖像分解方法進行了綜合比較,不僅在主流的本征圖像評價基準(zhǔn)(IIW/SAW測試集)上進行了比較,而且在各種圖像編輯應(yīng)用場景中更加直觀地對比了不同方法產(chǎn)生的本征分解結(jié)果的質(zhì)量。
本文的貢獻可總結(jié)如下:
1)提出了第一個針對本征圖像分解問題的圖卷積網(wǎng)絡(luò),在網(wǎng)絡(luò)設(shè)計中顯示利用了非局部圖像信息。
2)通過大規(guī)模真實感渲染,提出了一個新的場景級本征圖像數(shù)據(jù)集, 并在亮度圖像標(biāo)簽中提供了非白光光照,使亮度圖像分量更加逼真,從而使得在本文數(shù)據(jù)集上訓(xùn)練的深度學(xué)習(xí)網(wǎng)絡(luò)具有更好的泛化能力。
3)對提出的方法及數(shù)據(jù)集在基準(zhǔn)評價指標(biāo)上進行了測試和對比,并在一系列應(yīng)用任務(wù)上對比分析了本文方法所產(chǎn)生的分解結(jié)果的質(zhì)量。
20世紀70年代,從圖像中分解場景的物理屬性就開始引起學(xué)術(shù)界的關(guān)注(Barrow和Tenenbaum,1978;Land和McCann,1971)。Barrow和Tenenbaum(1978)介紹了本征圖像的定義,此后眾多的本征圖像分解算法相繼提出,包括一系列經(jīng)典算法(Chen和Koltum,2013;Shen和Yeo,2011;Shi等,2015;Zhao等,2012)和最近的深度學(xué)習(xí)方法(Fan等,2018;Li等,2018a;Li等,2018b;Ma等,2018)。由于對單幅圖像進行本征分解的不適定性,一部分方法探索使用額外的信息來緩解這種困難,例如使用同一場景下的圖像序列、深度信息(Chen和Koltum,2013;Wang等2017) 和用戶涂鴉等。本文主要研究基于單幅圖像的本征圖像估計,適用于最常見的沒有提供額外信息的真實場景。
1.1.1 傳統(tǒng)方法
在傳統(tǒng)方法中,Retinex理論(Land和McCann,1971)影響深遠,它假設(shè)反照率圖像是分塊平滑的,亮度圖像內(nèi)整體變化比較平緩,成為之后許多基于先驗的本征圖像分解模型的基石。為了進一步減少問題的不適定性,此前的方法引入了許多其他先驗,其中最常用的是非局部先驗(Chen和Koltum,2013;Shen等,2008;Zhao等,2012)和稀疏性約束(Gehler等,2011;Shen和Yeo,2011)。例如,Shen等人(2008)結(jié)合了非局部相關(guān)性——不相鄰的兩點,如果它們具有相似的紋理,那么它們?nèi)匀粯O有可能具有相同的反照率值。Shen和Yeo(2011)基于自然圖像中通常只包含幾種顏色的假設(shè),提出了一種全局稀疏性約束。一些方法通過聚類的算法實現(xiàn)稀疏先驗:Garces等人(2012)使用K-means算法在CIELab色彩空間內(nèi)將像素聚類為一些像素組,Meka等人(2016)在構(gòu)建本征圖像分解模型時使用了較為簡單的直方圖聚類。此外,一些方法(Bell等,2014;Chen和Koltum,2013)在整個圖像內(nèi)構(gòu)建點對之間的連接,以利用非局部先驗。綜上,非局部先驗在傳統(tǒng)的本征圖像分解模型中得到廣泛使用,并被驗證是有效的。
1.1.2 基于深度學(xué)習(xí)的方法
如Barron和Malik(2015)所述,對真實世界中的光照和幾何分布的統(tǒng)計,對于解決本征圖像分解中的歧義性是有效的。2009年以來,隨著本征圖像數(shù)據(jù)集,包括MIT、MPI-Sintel、IIW、SAW等的發(fā)布,以及深度學(xué)習(xí)技術(shù)在計算機視覺任務(wù)中取得的進展,越來越多的工作使用深度學(xué)習(xí)技術(shù)來構(gòu)建本征圖像分解模型(Fan等,2018;Ma等,2018;Narihira等,2015a,b;Shi等,2017;Zhou等,2015)。為了提高反照率分量的分塊平滑性,一些方法探索將傳統(tǒng)方法與深度學(xué)習(xí)方法結(jié)合,如后處理濾波操作(Li和Snavely,2018a;Nestmeyer和Gehler,2017)、聯(lián)合學(xué)習(xí)的引導(dǎo)濾波器(Fan等,2018)和平滑度損失函數(shù)(Li和Snavely,2018a,b)。這些方法大多只考慮反照率圖像的局部平滑性,而沒有顯式地考慮反照率圖像的全局信息。
1.1.3 圖卷積網(wǎng)絡(luò)
圖卷積網(wǎng)絡(luò)(GCN)在需要處理非規(guī)則結(jié)構(gòu)數(shù)據(jù)的任務(wù)中,取得了明顯的提升,如點云上的任務(wù)(Yi等,2017;Wang等,2018)。基于譜圖論,Bruna等人(2013)設(shè)計圖卷積的變體,該工作是GCN領(lǐng)域的先驅(qū)工作。之后,GCN被其他工作提升或擴展,包括基于譜圖卷積的工作(Henaff等,2015;Li等,2018a),以及一些基于空域的圖卷積工作(Hamilton等,2017;Monti等,2017)。Simonovsky和Komodakis(2017)提出了基于邊的圖卷積,它在每個點周圍的鄰域上進行加權(quán)聚合,并根據(jù)邊上標(biāo)簽確定連接權(quán)重。對于本征圖像分解任務(wù),本文方法將特征圖中的每一個點視為一個節(jié)點,通過將空間距離相近的點以及距離較遠但局部特征近似的點選取為鄰域,在節(jié)點(特征)間建立非規(guī)則的圖。然后,本文方法將圖卷積擴展到建立的圖結(jié)構(gòu)上。
當(dāng)給定足夠多樣的訓(xùn)練數(shù)據(jù)時,深度學(xué)習(xí)方法能夠從數(shù)據(jù)中學(xué)習(xí)到比手工先驗更復(fù)雜的先驗知識。然而,由于現(xiàn)有的本征分解數(shù)據(jù)集均存在不足,使得深度學(xué)習(xí)技術(shù)無法充分發(fā)揮出優(yōu)勢。例如,MIT數(shù)據(jù)集(Grosse等,2009)是通過拍攝幾百個物體級的場景構(gòu)建的,獲得的圖像沒有背景,而且樣例較少。Bell等人(2014)在亞馬遜平臺上讓用戶在真實圖像的稀疏點對上標(biāo)注相對的反照率關(guān)系,從而構(gòu)建了IIW本征數(shù)據(jù)集。Kovacs等人(2017)通過眾包形式收集了多種形式的亮度圖標(biāo)注,該數(shù)據(jù)集命名為SAW。最近,一些大規(guī)模渲染的本征圖像數(shù)據(jù)集相繼提出,包括從開源的3D動畫電影中提取的數(shù)據(jù)集(Butler等,2012)、室外環(huán)境的渲染數(shù)據(jù)集(Baslamisli等,2018)和在一些3D形狀上渲染的數(shù)據(jù)集(Shi等人,2017)。與本文所提數(shù)據(jù)集最相近的本征分解數(shù)據(jù)集是CGIntrinsics(Li和Snavely,2018a),它是基于3D室內(nèi)模型數(shù)據(jù)集SUNCG(Song等,2017)進行渲染的,包含約20 K幅圖像。此外,Li等人(2018b)提出了一個大規(guī)模渲染數(shù)據(jù)集InteriorNet,它包含了更多(20 M)的圖像。但是,在該數(shù)據(jù)集中,為每個場景渲染了約1 000幅圖像,因此該數(shù)據(jù)集在圖像多樣性上和CGIntrinsics數(shù)據(jù)集、本文數(shù)據(jù)集接近。同時,以上兩個數(shù)據(jù)集中都不提供渲染的亮度標(biāo)簽圖像,而是通過使用輸入圖像與反照率圖像計算而來,從而造成亮度圖像中的偽影,且圖像中有明顯的噪聲。
首先描述如何在圖像中構(gòu)建和進行圖卷積、提出的整個本征分解網(wǎng)絡(luò)框架以及本文算法中設(shè)計的損失函數(shù)。
圖1 非局部圖卷積層Fig.1 Non-local graph convolutional layer
(1)
式中,M=h×w,是特征圖中點的總數(shù),V表示Fin中所有點的集合,N(pi)是pi的鄰域點的集合,E表示建立的所有連接的集合,ei,j表示點pi與點pj建立的連接。gnl分支計算為
(2)
(3)
式中,⊙表示將兩個向量的對應(yīng)元素進行相乘,權(quán)重向量wi,j是根據(jù)pi與pj之間的特征差異和位置上的距離進行計算,即
(4)
式中,⊕表示將兩個向量連接,gnl是通過一個多層感知機實現(xiàn)的,di,j是pi與pj之間的距離,計算為
(5)
式中,(xi,yi)和(xj,yj)是pi與pj在特征圖Fin中的2維坐標(biāo)。得到3個分支的輸出后,圖卷積層的最終輸出計算為
(6)
在編碼器和解碼器中,每個卷積層或反卷積層之后均使用批標(biāo)準(zhǔn)化層(batch normalization)和ReLU激活層。并且,由于編碼器和每個解碼器之間的結(jié)構(gòu)是對稱的,在編碼器和解碼器的對應(yīng)特征尺度間,分別建立對應(yīng)的跳過連接(skip connections)。
圖2 本文所提本征分解網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Structure of the proposed intrinsic decomposition network
從圖像中推理場景中的本征屬性需要對整個圖像的整體理解。例如,圖3中左側(cè)的例子中,地磚上呈現(xiàn)的粉色(圖3中藍色圈中的區(qū)域)是由較遠的粉色櫥柜間接反射而來的(圖3中綠色圈中的區(qū)域)。為了正確地恢復(fù)地板區(qū)域的本征信息,深度神經(jīng)網(wǎng)絡(luò)需要利用整幅圖的全局信息。對于圖3中右面的例子,藍色圈中的區(qū)域和綠色圈中的區(qū)域都屬于地板區(qū)域,是由相同的材質(zhì)制成的,因此它們具有相同的反照率信息。然而,由于陰影的存在,使得它們在輸入圖中的像素信息相差較大。因此,為了正確地估計綠色圈中區(qū)域的反照率信息,需要利用圖片中相隔較遠的區(qū)域的信息,如藍色圈中的區(qū)域的信息。
圖3 全局理解對本征屬性感知的必要性Fig.3 Requirement for global understanding of intrinsic property perception
然而,通常的卷積網(wǎng)絡(luò)所產(chǎn)生的感受野大小是有限的,因此只能學(xué)習(xí)較為局部的特征,并且沒有顯式地考慮圖像中距離較遠的點之間的聯(lián)系。為了克服這個限制,在編碼器—解碼器結(jié)構(gòu)中引入了由4個連續(xù)的圖卷積層構(gòu)成的非局部注意力模塊hnlm,從而使得網(wǎng)絡(luò)框架可以顯式地利用圖中的非局部信息。因此,3個編碼器接收到的是經(jīng)過hnlm處理的特征,由于它們所預(yù)測成分的不同,其輸出層的通道數(shù)分別被設(shè)置為3、3、1。
此外,所提的本征分解框架還包括一個反照率圖像優(yōu)化模塊hr,該網(wǎng)絡(luò)由20層卷積核為3×3、步長為1的卷積層構(gòu)成。每一層卷積層之后使用實例規(guī)范化層(instance normalization)和ReLU激活層。第1層的輸入通道數(shù)為4 (由輸入圖像和引導(dǎo)邊緣圖像構(gòu)成), 最后一層的輸出通道數(shù)為3,中間層的輸入/輸出通道數(shù)均為64。此前,一些基于學(xué)習(xí)的方法均利用了后處理的濾波模塊對神經(jīng)網(wǎng)絡(luò)預(yù)測得到的反照率圖像albedo進行優(yōu)化(Fan等,2018;Li和Snavely,2018a;Nestmeyer和Gehler,2017);另一些工作在損失函數(shù)中引入了稀疏先驗以生成干凈平整的反照率圖像。受這些工作的啟發(fā),所提的網(wǎng)絡(luò)框架引入一個優(yōu)化模塊對解碼器預(yù)測的反照率圖像進行優(yōu)化。與之前工作不同的是,所提框架中引入的優(yōu)化模塊是基于神經(jīng)網(wǎng)絡(luò)的優(yōu)化模塊。
由于本文所提網(wǎng)絡(luò)框架中的反照率圖像優(yōu)化模塊是由一個深度學(xué)習(xí)網(wǎng)絡(luò)實現(xiàn)的,相比于一個固定的傳統(tǒng)濾波算法,它支持更加復(fù)雜的圖像操作,從而實現(xiàn)了更好的優(yōu)化效果,其作用在本文的消融實驗中得到了驗證。
對本文網(wǎng)絡(luò)框架中所設(shè)計的損失函數(shù)進行描述。為了訓(xùn)練所提出的網(wǎng)絡(luò)框架,建立一個具有照片真實感的本征分解數(shù)據(jù)集。在該數(shù)據(jù)集中,為了減小合成圖像與自然圖像之間的差異,除了逐像素的反照率標(biāo)簽(A)和亮度標(biāo)簽(S),也渲染了4個其他的光照成分,包括:高光成分(SP)、反射成分(RE)、折射成分(RA)和自發(fā)光成分(SI)。這些其他成分的渲染使得輸入圖像更接近自然圖像,但是在訓(xùn)練本文網(wǎng)絡(luò)框架時,由于這些其他成分不包含在反照率圖像和亮度圖像中,在損失函數(shù)中需要將這些區(qū)域排除。首先計算一個蒙版圖像
(7)
式中,i表示像素索引,Mi是該像素的蒙版值。對于蒙版值為1的區(qū)域,損失函數(shù)定義為
(8)
(9)
(10)
(11)
(12)
(13)
為了實現(xiàn)更高質(zhì)量的本征分解效果,提出一個具有照片真實感的渲染數(shù)據(jù)集,提供逐像素的反照率和亮度標(biāo)簽。該數(shù)據(jù)集中包含21 478組由輸入圖像、反照率圖像和亮度圖像組成的數(shù)據(jù)樣例。在訓(xùn)練所提出的本征分解網(wǎng)絡(luò)時,數(shù)據(jù)集中18 256組數(shù)據(jù)用于訓(xùn)練,其他數(shù)據(jù)用于測試。如圖4和圖5所示,提出的數(shù)據(jù)集具有更高的逼真度,主要來源于以下因素:
1)場景布局。為了建立該數(shù)據(jù)集,從其室內(nèi)設(shè)計平臺收集了5 730個合成的3維室內(nèi)場景模型,類型包括客廳、臥室、廚房和浴室等。它們由數(shù)百名專業(yè)設(shè)計師/藝術(shù)家設(shè)計,場景內(nèi)物體的擺放與真實室內(nèi)場景高度吻合。
2)光照設(shè)置。在渲染數(shù)據(jù)集中的圖像時,本文數(shù)據(jù)集中使用了來自多種光源的光照,以模擬真實世界的視覺效果。除了常見的全局光照和相互反射之外,本文數(shù)據(jù)集中的圖像還包含由透明物體、鏡子和自反光物體引起的折射、鏡面反射和燈光等效果。如圖4所示,這些其他的光照成分,使得渲染后的圖像更接近日常室內(nèi)場景拍攝的圖像。
圖4 其他光照成分對圖像渲染的影響Fig.4 Comparison between rendered images with and without the extra illumination effects((a) specular; (b) self-illumination;(c) refraction; (d) reflection; (e) input image; (f) input image (without other illuminations); (g) enlarged regions)
圖5 本文所提數(shù)據(jù)集與CGIntrinsics數(shù)據(jù)集的比較Fig.5 Comparison between the proposed dataset and CGIntrinsics dataset((a) the proposed dataset;(b) CGIntrinsics))
3)紋理多樣性。為了使得渲染得到的數(shù)據(jù)包含豐富的紋理,數(shù)據(jù)集中所包含的場景中的物體表面的紋理是從約80萬張材質(zhì)貼圖中隨機采樣得到的。如圖4所示,本文數(shù)據(jù)集所渲染的圖像具有較高的紋理多樣性。
4)渲染設(shè)置。本文數(shù)據(jù)集中的圖像是采用Embree4渲染引擎,使用確定性蒙特卡羅(deterministic Monte carlo, DMC)算法渲染得到的。圖像的分辨率是1 280×960像素,每個像素的采樣數(shù)為3 228。使用普通臺式機渲染一張具有照片級真實感的圖像需要數(shù)小時的計算,十分耗時。為了加速渲染過程,本文通過32臺服務(wù)器進行分布式渲染,平均每張圖的渲染時間為90 s。
對此前提出的本征圖像分解數(shù)據(jù)集和本文數(shù)據(jù)集進行了對比,比較結(jié)果總結(jié)于表1中。
如表1所示,MIT(Grosse等,2009)和ShapeNet intrinsics (Shi等,2017)這兩個數(shù)據(jù)集,僅提供了物體級別的圖像及對應(yīng)的逐像素標(biāo)簽,與真實環(huán)境中的場景有較大的差距。MIT數(shù)據(jù)集受限于數(shù)據(jù)集的大小, Shi等人(2017)數(shù)據(jù)集中的圖像與真實圖像差別較大。IIW(Bell等,2014)數(shù)據(jù)集和SAW數(shù)據(jù)集(Kovacs等,2017)是建立在真實場景拍攝得到的照片上的,但是兩者均只提供基于人類判斷的稀疏標(biāo)注。此外,MPI-Sintel(Butler等,2012)數(shù)據(jù)集提供了場景級的圖像及逐像素的本征屬性標(biāo)簽,但是其中的場景均來自于與現(xiàn)實環(huán)境差別很大的動畫場景。與本文數(shù)據(jù)集最相關(guān)的數(shù)據(jù)集是CGIntrinsics數(shù)據(jù)集(Li和Snavely,2018a)。與該數(shù)據(jù)集相比,本文數(shù)據(jù)集提供了更高分辨率和帶有非白光光照的亮度圖像標(biāo)簽,而CGIntrinsics數(shù)據(jù)集只提供反照率標(biāo)簽圖像,亮度圖像通過使用輸入圖像除以反照率圖像計算得到。由于該公式只對漫反射的區(qū)域滿足,那么在非漫反射的區(qū)域,計算得到的亮度圖像會引起誤差。為了直觀地體現(xiàn)本文數(shù)據(jù)集與CGIntrinsics數(shù)據(jù)集的差別,圖5 (a) 中提供了來自本文數(shù)據(jù)集的4組樣例,圖5 (b)中展示了來自CGIntrinsics數(shù)據(jù)集的3組樣例,從上到下依次展示了輸入圖、反照率標(biāo)簽圖像、亮度標(biāo)簽圖像和放大的局部區(qū)域。如圖5所示,相較于CGIntrinsics數(shù)據(jù)集,本文數(shù)據(jù)集展現(xiàn)了更逼真的視覺效果,具有更豐富的紋理,在場景布局上更加復(fù)雜,并且圖像中噪聲更少。本文數(shù)據(jù)集中的亮度圖像中的光照是非白光的,更加符合真實室內(nèi)場景的光照。
表1 不同本征分解數(shù)據(jù)集的對比Table 1 Comparison between different intrinsic datasets
IIW/SAW數(shù)據(jù)集中只提供了人工標(biāo)注的一些稀疏標(biāo)簽,并未提供逐像素的反照率圖、亮度圖標(biāo)簽,因而無法計算如MSE(mean squared error)、PSNR(peak signal-to-noise ratio)、SSIM(structure similarity index measure) 等圖像質(zhì)量評價指標(biāo)上的數(shù)值結(jié)果。因此,本文使用了基于IIW、SAW數(shù)據(jù)集的標(biāo)簽類型而設(shè)計的評價指標(biāo)WHDR (weighted human disagreement rate),該指標(biāo)越低越好,AP (average precision),該指標(biāo)越高越好。
本文本征圖像分解網(wǎng)絡(luò)模型使用PyTorch框架實現(xiàn),批大小為6,使用Adam算法進行優(yōu)化。在訓(xùn)練過程中,初始學(xué)習(xí)率設(shè)置為0.01,在IIW/SAW數(shù)據(jù)集上進行微調(diào)時更改為0.000 5。優(yōu)化網(wǎng)絡(luò)模塊單獨訓(xùn)練,學(xué)習(xí)率設(shè)置為0.01,批大小設(shè)置為4。
通過將所提數(shù)據(jù)集與該數(shù)據(jù)集進行詳細比較,來驗證本文數(shù)據(jù)集對提升本征分解結(jié)果的有效性。首先,在所提出的數(shù)據(jù)集和CGIntrinsics數(shù)據(jù)集上分別訓(xùn)練了3種目前效果領(lǐng)先的本征分解深度學(xué)習(xí)網(wǎng)絡(luò),然后在IIW/SAW數(shù)據(jù)集的測試集上對訓(xùn)練之后的網(wǎng)絡(luò)的分解結(jié)果進行測試,得到的測試結(jié)果匯總在表2中。
為了公平比較不同數(shù)據(jù)集的質(zhì)量,在測試時,對所有方法均去掉了其中的后處理優(yōu)化模塊,在訓(xùn)練時均使用作者提供的開源代碼和參數(shù)設(shè)置。如表2中所示,與使用CGIntrinsics訓(xùn)練相比,使用本文數(shù)據(jù)集訓(xùn)練的3種方法的平均測試結(jié)果取得了更高的性能。具體表現(xiàn)為:對于3種方法上的平均結(jié)果, 使用本文數(shù)據(jù)集,WHDR降低了8.87%,在SAW測試集上的準(zhǔn)確率AP提升了2.74%。這表明在不同的網(wǎng)絡(luò)框架和損失函數(shù)設(shè)置的情況下,使用本文數(shù)據(jù)集進行訓(xùn)練,均可以獲得更高的分解質(zhì)量。同時,IIW/SAW數(shù)據(jù)集中的輸入圖片是真實拍攝的圖像,表明在本文數(shù)據(jù)集上訓(xùn)練的網(wǎng)絡(luò)具有更好的泛化能力。
在使用Shi等人(2017)的方法和Li和Snavely(2018a)的方法提出的網(wǎng)絡(luò)結(jié)構(gòu)進行訓(xùn)練時,本文數(shù)據(jù)集使得網(wǎng)絡(luò)在IIW測試集、SAW測試集上產(chǎn)生的結(jié)果,相較于使用CGIntrinsics數(shù)據(jù)集訓(xùn)練的結(jié)果,均有顯著提升。在使用Fan等人(2018)的方法進行訓(xùn)練時,本文數(shù)據(jù)集使得網(wǎng)絡(luò)在IIW測試指標(biāo)WHDR有顯著提升,但是在SAW測試集上與使用CGIntrinsics數(shù)據(jù)集訓(xùn)練的版本有較小的差距(0.9%)。這是由于本文數(shù)據(jù)集提供的亮度圖標(biāo)簽圖像為三通道的彩色圖像,與使用CGIntrinsics的單通道亮度標(biāo)簽圖像相比,神經(jīng)網(wǎng)絡(luò)預(yù)測得到的亮度圖在局部區(qū)域內(nèi)相鄰像素的數(shù)值之間存在一些差異的可能性增大,該現(xiàn)象可以通過簡單引入現(xiàn)有的圖像濾波模塊進行解決。
表2 不同本征分解數(shù)據(jù)集的有效性對比Table 2 Comparison of the effectiveness of different datasets
對本文本征分解網(wǎng)絡(luò)框架與之前最優(yōu)的本征分解算法進行了對比。沿用Li和Snavely(2018a)中的做法,對所提出的網(wǎng)絡(luò)框架在IIW/SAW訓(xùn)練集上進行了微調(diào)。在微調(diào)階段中,使用了Fan等人(2018)和Li和Snavely(2018a)方法中使用的訓(xùn)練/測試集劃分,并使用了在Li和Snavely(2018a)方法中提出的順序反射損失和基于SAW數(shù)據(jù)集標(biāo)注形式設(shè)計的亮度損失。此外,為了充分利用IIW數(shù)據(jù)集中的標(biāo)注,使用了由Li和Snavely(2018a)方法提供的數(shù)據(jù)增強之后的標(biāo)簽。最后,IIW/SAW測試集上的測試結(jié)果匯總在表3中。
如表3所示,在僅使用本文數(shù)據(jù)集訓(xùn)練的情況下,本文方法在IIW測試集上的WHDR為17.92%,在SAW測試集上的準(zhǔn)確率為96.17%,即取得了優(yōu)于之前所有傳統(tǒng)方法的結(jié)果,并且超越了大部分的基于深度學(xué)習(xí)的方法。特別地,在沒有微調(diào)的情況下,本文方法在SAW測試集上的結(jié)果接近于Li和Snavely(2018a)方法在微調(diào)后的結(jié)果,這表明本文方法具有較好的泛化能力。通過在IIW和SAW數(shù)據(jù)集中的訓(xùn)練數(shù)據(jù)上微調(diào),本文方法最終取得了較好的數(shù)值結(jié)果。不同于Li和Snavely(2018a)方法及Fan等人(2018a)方法,本文方法僅在IIW和SAW數(shù)據(jù)集上微調(diào),沒有在整個訓(xùn)練階段中使用IIW和SAW數(shù)據(jù)。這可能使得本文方法的WHDR誤差略高于以上兩種方法。
表3 在IIW/SAW測試集上的定量結(jié)果Table 3 Quantitative comparison on IIW/SAW test sets
在圖6中,展示了本文方法和另外兩種方法(Fan等,2018;Li和Snavely,2018a)在IIW和SAW測試集上的分解結(jié)果。如圖6所示,本文方法的本征分解性能優(yōu)于其他方法。不同于Li和Snavely(2018a)方法、Fan等人(2018)方法與Nestmeyer和Gehler(2017)方法,本文方法產(chǎn)生的亮度圖的結(jié)果是具有彩色光照的。對于預(yù)測的反照率圖像,如圖6所示,本文方法的結(jié)果顏色更自然。相較于本文方法產(chǎn)生的結(jié)果,其他方法的結(jié)果沒有將光照的顏色和物體表面的材質(zhì)顏色分開。因此,本文方法產(chǎn)生的分解結(jié)果質(zhì)量更高。
在Fan等人(2018)方法及Nestmeyer和Gehler(2017)方法中,深度學(xué)習(xí)網(wǎng)絡(luò)只預(yù)測反照率圖像,亮度圖像由輸入圖像除以預(yù)測的反照率圖像得到。
圖6 不同方法在 IIW/SAW 測試集上的分解結(jié)果Fig.6 Intrinsic decomposition results on images from IIW/SAW test sets for different methods((a) input image; (b) Nestmeyer and Gehler(2017);(c) Fan et al. (2018);(d) Li and Snavely(2018a);(e) ours;(f) ours (finetuned))
因此,反照率圖像結(jié)果中不準(zhǔn)確的區(qū)域,會影響以上兩種方法產(chǎn)生的亮度圖像結(jié)果。由于Li和Snavely(2018a)方法在損失函數(shù)中施加了平滑約束項,使得該方法產(chǎn)生的結(jié)果十分平滑,甚至無法體現(xiàn)場景中的很多幾何信息。但是,在本文方法產(chǎn)生的結(jié)果中,以上問題都未出現(xiàn)。
此外,Nestmeyer和Gehler(2017)以及Zhou等人(2015)指出,在IIW數(shù)據(jù)集中的相對反照率標(biāo)注中,由于標(biāo)注為具有相同反照率關(guān)系的點對占據(jù)了所有標(biāo)注的2/3,使得該數(shù)據(jù)集中的標(biāo)注向具有相同反照率的點對傾斜。例如,在不對輸入圖像進行本征分解的情況下,簡單地將輸入圖像的數(shù)值從[0,1]范圍縮放到[0.55,1]之間,即簡單地將輸入圖像的像素之間的對比度降低,在IIW測試集上得到的WHDR誤差值為25.7%,甚至優(yōu)于很多本征分解方法產(chǎn)生的結(jié)果。這個觀察進一步表明了IIW測試集的標(biāo)注中相等反照率的點對所占比例更高,如Nestmeyer和Gehler(2017)所述。因此,直接在IIW和SAW數(shù)據(jù)集上訓(xùn)練可能會導(dǎo)致深度學(xué)習(xí)網(wǎng)絡(luò)過擬合到其數(shù)據(jù)集所體現(xiàn)的數(shù)據(jù)分布,即傾向于預(yù)測更平滑的反照率圖像。
由于上述原因,本文方法首先在本文提出的合成數(shù)據(jù)集上訓(xùn)練,然后在IIW和SAW數(shù)據(jù)集上進行微調(diào),從而避免在IIW和SAW數(shù)據(jù)上的過度擬合。使用本文的訓(xùn)練策略,提升了本征圖像分解的視覺結(jié)果,但可能使得本文方法在數(shù)值結(jié)果上的提升不如在視覺結(jié)果上的提升顯著。
基于深度學(xué)習(xí)的算法,在訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)的分布相差較大時,性能極可能顯著下降。由于本文方法使用合成數(shù)據(jù)集訓(xùn)練,驗證它在一般自然圖像上的本征分解結(jié)果是十分必要的。因此,本文在圖7中提供了3組不同方法在一般自然圖像上的分解結(jié)果。圖7中顯示,本文方法產(chǎn)生的結(jié)果明顯優(yōu)于其他3種方法產(chǎn)生的分解結(jié)果。
圖7 不同方法在其他圖片數(shù)據(jù)上的分解結(jié)果Fig.7 Intrinsic decomposition results on unseen images for different methods ((a) input; (b) Nestmeyer and Gehter(2017);(c) Fan et al.(2018);(d) Li and Snavely(2018a); (e) ours))
如圖7第1行所示,由對比方法(Fan等,2018;Li和Snavely,2018a;Nestmeyer和Gehter,2017)所產(chǎn)生的反照率圖像,被場景中光照顏色嚴重影響,并且丟失了瓷器表面的花紋細節(jié)。相反,本文方法產(chǎn)生的結(jié)果將光照顏色從反照率圖像中分離出去,并且保留了瓷器表面的紋理細節(jié)。在圖7中第2個例子中,場景中有較強的相互反射,其他3種方法都沒有將這些彩色的相互反射分解到亮度圖中,但本文方法成功地將這些成分分解到亮度圖結(jié)果中。圖7中最后一個示例展示了室外場景的情況,這種類型的數(shù)據(jù)是沒有出現(xiàn)在訓(xùn)練數(shù)據(jù)中的。本文方法產(chǎn)生的結(jié)果可以正確地將船體上的字母分解到反照率圖像中,避免它出現(xiàn)在亮度圖中,而其他方法的結(jié)果均將這些紋理錯誤地引入到對應(yīng)的亮度圖結(jié)果中。綜上,本文方法產(chǎn)生的本征圖像分解結(jié)果體現(xiàn)出較高的質(zhì)量。
作為一個中級視覺任務(wù),本征圖像分解的結(jié)果只有在用于下游應(yīng)用時才更有價值。將在幾個基于本征圖像分解結(jié)果的應(yīng)用場景上,進一步驗證本文方法產(chǎn)生的本征分解結(jié)果的質(zhì)量。
在進行紋理編輯任務(wù)時,首先利用本征分解算法將輸入圖像分解為反照率圖像和亮度圖像,然后在反照率圖像中將需要修改的紋理進行編輯,之后用編輯后的反照率圖像和原始的亮度圖像一起合成新的編輯過的圖像。這個任務(wù)的最終效果十分依賴分解得到的亮度圖,因此可以直觀地比較不同方法分解得到的亮度圖的質(zhì)量。
在圖8的第1個示例中,在3種方法分解得到的反照率圖像中,3只小豬的眉毛分別被修改,然后使用修改過的反照率的圖像乘以對應(yīng)的亮度圖像,得到對應(yīng)的編輯結(jié)果。如圖8所示,F(xiàn)an等人(2018)方法由于錯誤地將眉毛的紋理引入到亮度圖像中,使得對應(yīng)的編輯結(jié)果中存在原始眉毛圖案的偽影。Li和Snavely(2018a)方法所產(chǎn)生的編輯結(jié)果中在原來圖案的附近也存在偽影,是由該方法產(chǎn)生的亮度圖中存在的紋理復(fù)制現(xiàn)象引起的。對于圖8中第2個示例,墻上兩幅畫的位置在對應(yīng)的反照率圖像中分別被交換,然后與對應(yīng)的亮度圖結(jié)果相乘得到輸出圖像。圖8中顯示,第2個示例產(chǎn)生了與第1個示例類似的現(xiàn)象:利用Fan等人(2018)方法和Li和Snavely(2018a)方法產(chǎn)生的分解結(jié)果得到的編輯結(jié)果中,兩幅畫中原始內(nèi)容依然存在于原來的位置,這是由殘留在亮度圖像中的紋理造成的。此外,Li和Snavely(2018a)方法產(chǎn)生的反照率結(jié)果過度平滑,因此第2個示例中,基于該方法的分解結(jié)果得到的編輯結(jié)果中缺少畫中的細節(jié)。
圖8 基于不同方法的本征分解的材質(zhì)編輯結(jié)果對比Fig.8 Comparison between results for texture editing using intrinsic components from different methods ((a) input; (b) Fan et al.(2018); (c) Li and Snavely(2018a); (d) ours)
光照編輯是通過修改本征分解結(jié)果中的亮度圖像,然后與未經(jīng)修改的反照率圖像相乘得到輸出結(jié)果來進行,它可以用來體現(xiàn)反照率圖像的質(zhì)量。
圖9中展示了光照編輯任務(wù)的兩個示例。在第1個示例中,不同方法預(yù)測得到的亮度圖中,由臺燈照亮的區(qū)域被平滑。由于Fan等人(2018)方法以及Li和Snavely(2018a)方法均未能去除其預(yù)測的反照率圖像中的光照,因此這兩種方法產(chǎn)生的編輯結(jié)果中仍然存在臺燈照亮的區(qū)域。相反,本文方法產(chǎn)生的編輯結(jié)果中,該區(qū)域的光照已被去除。在第2個示例中,通過將產(chǎn)生的亮度圖變?yōu)榛叶葓D,再與原始的反照率圖像相乘得到輸出結(jié)果,達到去除場景中光照顏色的目的。顯然,基于其他方法產(chǎn)生的結(jié)果中仍然保留著原始輸入圖像中的整體光照顏色。
然而,基于本文方法產(chǎn)生得到的編輯結(jié)果中,原始場景中的整體光照顏色則被全部去除。這是由于其他兩種方法估計的亮度圖本身是灰度圖,默認亮度圖中的光照為白光,導(dǎo)致輸入圖中的彩色光照信息都被錯誤地分解到了反照率圖像中。
此外,按照Zhou等人(2015)方法中的實驗設(shè)置,從Boyadzhiev等人(2013)以及Li和Snavely(2018a)方法提供的數(shù)據(jù)集中選取了特殊的圖像序列數(shù)據(jù),序列中的每幅圖像中的紋理是嚴格一致的,只有光照不同。對于提取到的圖像序列,基于不同的本征分解方法,進行了重光照任務(wù),將序列中的兩幅圖像首先進行本征分解,然后對兩幅圖的亮度圖像進行交換,再與兩幅圖像對應(yīng)的原始反照率圖像進行相乘,得到最終的光照編輯結(jié)果。由圖10中的兩個示例顯示,在視覺上,基于本文方法的分解結(jié)果所得到的重光照結(jié)果,最接近與交換后的亮度圖所對應(yīng)的原始輸入圖像。而對于其他兩種方法,重光照的結(jié)果總是存在顏色偏差,這是由于以上兩種方法沒有將光照顏色從反照率圖像去除。
圖9 基于不同方法的本征分解結(jié)果的光照編輯結(jié)果對比Fig.9 Comparison between results for light editing using intrinsic components from different methods ((a) input;(b) Fan et al. (2018);(c) Li and Snavely (2018a);(d) ours
圖10 基于不同方法的本征分解結(jié)果的光照交換結(jié)果對比Fig.10 Comparison between results for light exchange using intrinsic components from different methods ((a) input;(b) Fan et al. (2018);(c) Li and Snavely (2018a);(d) ours
通過消融實驗對本文方法的各個模塊的作用進行分析。在消融實驗中,所有的變體都在不經(jīng)過微調(diào)的情況下,在IIW/SAW測試集上進行測試,數(shù)值結(jié)果匯總在表4中。
為了驗證本文方法中圖卷積模塊hnlm的有效性,將hnlm從本文設(shè)計的圖卷積神經(jīng)網(wǎng)絡(luò)中去掉后進行訓(xùn)練,該變體表示為表4中的“本文(去掉hnlm)”。
如表4所示,與本文方法的完整模型相比,去掉hnlm之后,在反照率圖像和亮度圖像上的定量結(jié)果均顯著下降,驗證了圖卷積模塊hnlm的有效性。
表4中第2行展示了變體“本文(去掉hr)”的測試結(jié)果,該變體是通過將反照率圖像優(yōu)化模塊hr從本文方法的框架中去掉得到的。如表4所示,去掉hr之后,WHDR誤差增加至20.89%,即反照率圖像的預(yù)測結(jié)果顯著下降,這體現(xiàn)了本文網(wǎng)絡(luò)框架中反照率優(yōu)化模塊hr對提升反照率圖像結(jié)果的貢獻。
表4 消融實驗結(jié)果Table 4 Ablation study results of the proposed method
如第3節(jié)中所述,本文數(shù)據(jù)集在輸入圖像中渲染了多種光照成分,以增加輸入圖像的逼真度。為了驗證渲染這些成分對提升本征分解結(jié)果的作用,此處設(shè)計了一個變體——“本文(無其他光照成分)”:即使用標(biāo)簽圖像的反照率圖像和亮度圖像進行相乘合成出只有漫反射成分的輸入圖像,然后對本文方法在這些數(shù)據(jù)上進行訓(xùn)練。該變體的測試結(jié)果匯總于表4,其中SAW測試集上的結(jié)果明顯下降。這表明,在輸入圖像中渲染非漫反射光照成分對亮度圖的預(yù)測的有效性。
為了探究本文數(shù)據(jù)集對本文方法的貢獻,變體“本文(CGIntrinsics)”被訓(xùn)練和測試,即在Li和Snavely(2018a)提出的數(shù)據(jù)集CGIntrinsics上訓(xùn)練本文提出的圖卷積神經(jīng)網(wǎng)絡(luò)。如表4所示,相較于使用本文提出的數(shù)據(jù)集訓(xùn)練相比,該變體在反照率圖像和亮度圖像的數(shù)值結(jié)果上均變差,這進一步表明了本文所提數(shù)據(jù)集對提升本征圖像分解質(zhì)量的的有效性。
提出了一個基于非局部圖卷積神經(jīng)網(wǎng)絡(luò)的本征分解算法,引入的圖卷積模塊以顯式的方式利用特征圖中的非局部線索。為了克服現(xiàn)有數(shù)據(jù)集的 局限性,提出了一個新的高質(zhì)量的本征圖像數(shù)據(jù)集,其中提供了反照率圖像和亮度圖像的逐像素 標(biāo)簽。并且,本文數(shù)據(jù)集中在亮度圖中考慮 了非白光光照,使得本文本征分解模型可以 更好地將輸入圖像中的材質(zhì)顏色和光照成分分開, 特別是由漫反射表面之間相互反射所引入的光照效果。通過將不同方法在本文數(shù)據(jù)集與之前的數(shù)據(jù)集上分別訓(xùn)練并進行測試與對比,驗證了本文數(shù)據(jù)集對提升本征圖像分解質(zhì)量的有效性。此外,通過將本文本征圖像分解網(wǎng)絡(luò)與之前的方法比較,在定量結(jié)果上實現(xiàn)了較好的結(jié)果,在視覺效果上有較大的提升。此外,通過將本文方法和其他兩種前沿的本征分解方法的分解結(jié)果應(yīng)用于一系列圖像編輯任務(wù)中,進一步直觀地展示了每種方法產(chǎn)生的分解結(jié)果的質(zhì)量及其應(yīng)用價值。
在場景中有大面積的顏色變化劇烈的復(fù)雜紋理時,本文方法所產(chǎn)生的亮度圖結(jié)果中仍存在紋理信息。這是由于在不利用幾何信息的情況下,網(wǎng)絡(luò)對由紋理產(chǎn)生的邊緣和由陰影產(chǎn)生的邊緣的區(qū)分能力有限。同時,由于將圖像分解成為反照率圖像和亮度圖像所能支持的編輯任務(wù)有限,未來的工作中考慮將場景的幾何信息、光照信息和材質(zhì)信息進行聯(lián)合估計或優(yōu)化,提升分解的質(zhì)量并支持更豐富的應(yīng)用。