基于字典學(xué)習(xí)的稠密光場重建算法*

2020-04-03 08:42:58夏正德宋娜劉賓潘晉孝閆文敏邵子惠

物理學(xué)報 2020年6期

關(guān)鍵詞：冗余度光場字典

夏正德宋娜劉賓潘晉孝閆文敏邵子惠

1) (中北大學(xué)理學(xué)院, 信息探測與處理山西省重點實驗室, 太原030051)

2) (中北大學(xué)信息與通信工程學(xué)院, 信息探測與處理山西省重點實驗室, 太原030051)

3) (瞬態(tài)沖擊技術(shù)重點實驗室, 北京102202)

4) (32178部隊, 北京100220)

(2019 年 10 月 23日收到; 2019 年 12 月 16日收到修改稿)

相機陣列是獲取空間中目標光場信息的重要手段, 采用大規(guī)模密集相機陣列獲取高角度分辨率光場的方法增加了采樣難度和設(shè)備成本, 同時產(chǎn)生的大量數(shù)據(jù)的同步和傳輸需求也限制了光場采樣規(guī)模. 為了實現(xiàn)稀疏光場采樣的稠密重建, 本文基于稀疏光場數(shù)據(jù), 分析同一場景多視角圖像的空間、角度信息的關(guān)聯(lián)性和冗余性, 建立有效的光場字典學(xué)習(xí)和稀疏編碼數(shù)學(xué)模型, 并根據(jù)稀疏編碼元素間的約束關(guān)系, 建立虛擬角度圖像稀疏編碼恢復(fù)模型, 提出變換域稀疏編碼恢復(fù)方法, 并結(jié)合多場景稠密重建實驗, 驗證提出方法的有效性. 實驗結(jié)果表明, 本文方法能夠?qū)鼍爸械恼趽?、陰影以及?fù)雜的光影變化信息進行高質(zhì)量恢復(fù), 可以用于復(fù)雜場景的稀疏光場稠密重建. 本研究實現(xiàn)了線性采集稀疏光場的稠密重建, 未來將針對非線性采集稀疏光場的稠密重建進行研究, 以推進光場成像在實際工程中的應(yīng)用.

1 引言

稠密光場對場景光線的離散化程度高, 視差連續(xù)性好, 獲取的場景信息更加豐富, 但是光場的稠密程度與相機陣列的規(guī)模成正比, 限制了光場成像技術(shù)在工程中的應(yīng)用, 因此有必要設(shè)計新的光場稠密重建算法, 提高光場的角度分辨率, 在相機陣列規(guī)模有限的條件下, 獲取滿足應(yīng)用條件的多角度光場.

目前, 光場稠密重建主要包括基于壓縮感知[1,2]、視角合成[3?5]和深度學(xué)習(xí)[6]的稠密重建方案. 基于壓縮感知的稀疏光場重建方案, 提供了一種比奈奎斯特采樣定理更有效的稀疏信號采集框架[7], 減少了光場采集所需的相機數(shù)量, 但是該方案由于編碼掩膜對光線的阻礙作用損失了部分光信號的強度信息, 導(dǎo)致重建的圖像信噪比較低, 光場質(zhì)量下降.基于視角合成的方案包括基于模型的視角合成(mode-based rendering, MBR)和基于圖像的視角合成 (image-based rendering, IBR)方法. 由于復(fù)雜場景建模困難, MBR僅適應(yīng)于簡單場景. 對于IBR, 由于存在平移、遮擋等因素, 使得部分場景信息丟失, 深度圖求取不準確, 從而產(chǎn)生“空洞”[8]和裂紋[9,10], 由于無法獲取被遮擋目標的顏色信息使得合成圖像產(chǎn)生失真. 基于深度學(xué)習(xí)的稠密重建方法利用光度立體技術(shù)進行虛擬視角表面重建取得了很好的效果, 但是需要大規(guī)模稠密采樣的數(shù)據(jù)集, 網(wǎng)絡(luò)泛化能力差, 而且該技術(shù)在光場稠密重建中應(yīng)用困難[6]. 雖然現(xiàn)有方法都能完成光場稠密重建, 但是由于自身算法限制均不能很好地適用實際應(yīng)用的需求.

鑒于此, 本文從壓縮感知的基本原理出發(fā), 分析光場圖像數(shù)據(jù)間的冗余特性[11], 自然場景在本質(zhì)上存在的稀疏結(jié)構(gòu)特性, 充分利用光場全局與局部的空間-角度約束關(guān)系, 提出一種基于過完備字典學(xué)習(xí)的稀疏光場稠密重建算法. 將本文算法應(yīng)用到各種場景的稠密重建中, 結(jié)果表明算法能夠有效地對虛擬視角進行恢復(fù), 提高光場角度分辨率.

2 基本原理

2.1 稀疏采樣光場的稠密重建原理

根據(jù)光場成像的基本原理可知空間場景光場是對目標光輻射的方向、強度和光譜等信息的參數(shù)化表示, 反映了光輻射在三維空間中的位置分布與傳播方向之間的映射關(guān)系, 是三維空間中光線集合的完備表示[12,13]. 特定場景光場信號具有完備性,在空間和角度上又具有冗余性, 根據(jù)壓縮感知的基本原理[14], 可以將其投影到一個低維稀疏空間中,稀疏編碼的低維數(shù)據(jù)能更好地反映原始數(shù)據(jù)的本質(zhì)特征. 同一場景目標多視角信息在空間和角度信息的關(guān)聯(lián)性和冗余性, 表現(xiàn)為稀疏表示域中各向量的稀疏性、非零元素位置及其值之間的相互約束關(guān)系. 這樣, 就可以將圖像及其字典學(xué)習(xí)和稀疏編碼過程限制在比待恢復(fù)的光場維度低得多的空間中[15],再通過域間變換的稀疏系數(shù)重構(gòu)就可以合成虛擬視角圖像[16].

圖1 算法架構(gòu)圖Fig. 1. Algorithm workflow.

算法流程如圖1所示. 由線性相機陣列獲取特定場景的稀疏4D光場后, 通過固定窗口逐像素遍歷光場圖像的方法將其在所有通道上分解為互有重疊的圖像碎片, 這些圖像碎片按順序構(gòu)成初始二維觀測值矩陣, 以此訓(xùn)練光場字典并進行稀疏編碼. 經(jīng)光場字典編碼的觀測值各元素之間具有稀疏性約束關(guān)系, 在該約束關(guān)系下計算虛擬角度稀疏表示矩陣, 再通過稀疏逆變換就可以構(gòu)建出虛擬角度圖像, 完成光場稠密重建.

2.2 稠密光場重建算法

其中,A為稀疏表示系數(shù)矩陣,D為基矩陣.

光場字典訓(xùn)練與稀疏編碼問題是光場圖像稀疏逼近的逆問題, 將光場的線性稀疏性約束轉(zhuǎn)化到約束函數(shù)中, 則光場的稀疏表示模型可以表示為

這是一個針對D和A的聯(lián)合優(yōu)化問題. 但是(2)式是非凸的, 難以在D與A均未知的情況下求得最優(yōu)解. 但是, 如果其中一個變量一旦確定,問題就轉(zhuǎn)化為一個凸優(yōu)化問題. 因此, 可以通過對數(shù)據(jù)預(yù)處理, 初始化一個適合條件的字典, 然后通過逐步迭代求得最優(yōu)基元素和稀疏編碼矩陣.

不同角度的光場圖像之間形成了嚴格的全局約束, 鄰近的互有重疊的光場碎片采樣之間形成了強有力的局部約束, 這些空間-角度約束關(guān)系都經(jīng)由過完備字典線性映射到了圖像的稀疏表示域. 光場圖像碎片化觀測值可以表示為

通過上述學(xué)習(xí)的方法可以構(gòu)造出對特定場景特征自適應(yīng)的字典, 字典中的低維光場原子能夠稀疏地表示自然光場的基礎(chǔ)元素結(jié)構(gòu), 其線性組合能夠高效地表達復(fù)雜的光照陰影、紋理、遮擋等自然場景信息[18,19], 并且能夠?qū)鈭龅木植靠臻g-角度一致性進行稀疏表達, 因此以探測器的一個像素為中心的2D局部圖像就可以對4D光場塊進行重建, 并最終融合成4D光場[18]. 光場字典如圖2所示,光場原子在視覺上表現(xiàn)為光場中包含的基本特征.

圖2 光場過完備字典Fig. 2. Light field overcomplete dictionary.

在低維稀疏變換空間中將高維信號重建問題轉(zhuǎn)換為低維特征向量的表達問題[20], 可以更加簡潔、有效地恢復(fù)虛擬視角. 假設(shè)光場的虛擬角度圖像為Iv, 相應(yīng)的稀疏域中系數(shù)矩陣為, 該角度下圖像的構(gòu)建問題可以轉(zhuǎn)化為-范數(shù)優(yōu)化求解問題, 即:

3 實驗與結(jié)果分析

本文以康斯坦茨大學(xué)和海德堡大學(xué)的HCI提供的4D光場數(shù)據(jù)集[21]作為實驗對象, 選取數(shù)據(jù)集中的 6個場景 (table, rosemary, bicycle, town,boardgames, vinyl)分別進行重建實驗. 選取其中的1 × 9光場, 并以某個視角為待建虛擬視角進行實驗. 實際應(yīng)用中, 只需要適當調(diào)整角度參數(shù), 就可以重建出多個虛擬角度圖像, 提高光場角度分辨率.

1)實驗1稀疏編碼矩陣的稀疏度是一個重要的參數(shù), 決定了在重構(gòu)圖像時對基矩陣中基礎(chǔ)結(jié)構(gòu)元素的選擇, 直接影響重構(gòu)圖像的質(zhì)量以及字典訓(xùn)練時間. 字典的冗余度決定了基矩陣的規(guī)模, 也就決定了字典中含有的自然場景中基礎(chǔ)元素的數(shù)量. 圖像碎片的尺寸與字典的特征維度直接相關(guān),而原子的尺寸與字典的冗余度成正比, 能夠影響光場的局部一致性, 同時, 重建時間隨著探測器分辨率和原子尺寸的增加而線性增加, 最終會影響到重構(gòu)圖像的精細程度. 因此在設(shè)計算法時采用稀疏度、冗余度、原子尺寸3個參數(shù)來優(yōu)化設(shè)置相關(guān)參數(shù).

圖3 重建圖像質(zhì)量曲線圖(a) pixels為 256 × 256, 不同稀疏度重建性能曲線圖; (b) pixels 為 512 × 512, 不同稀疏度重建性能曲線圖; (c) 不同分辨率重建圖像的 PSNR 曲線圖; (d) pixels為 256 × 256, 不同冗余度重建性能曲線圖Fig. 3. Performance of reconstructed image: (a) Performance in sparsity, pixels = 256 × 256; (b) performance in sparsity, pixels =512 × 512; (c) PSNR in different resolution; (d) performance in redundancy, pixels = 256 × 256.

選擇數(shù)據(jù)集中相對簡單的場景table作為實驗對象進行初始參數(shù)選擇. 為了有效縮短程序運行時間, 將圖像轉(zhuǎn)換為灰度圖像后進行實驗. 如圖3(a)和圖3(b)所示, 首先設(shè)定字典規(guī)模為N= 256, 在不同分辨率的訓(xùn)練集上構(gòu)建虛擬視角圖像. 在稀疏度K= 34時, 均方誤差 (mean squared error, MSE)都達到極值, 而結(jié)構(gòu)相似度(structural similarity index measure, SSIM)也都達到了相對較大值. 從圖3(c)可以看出, 峰值信噪比(peak signal-to-noise ratio, PSNR)在不同分辨率、相同稀疏度的實驗中變化趨勢差異不明顯, 在K= 16時達到極值. 由于稀疏編碼是由篩選出的少量的字典原子對原信號進行線性表示, 因此, 本文算法可以在一定的稀疏度范圍內(nèi)快速構(gòu)建出高質(zhì)量圖像. 固定稀疏度參數(shù)K= 34, 再次進行實驗, 隨著字典冗余度的增加, 構(gòu)建的圖像的質(zhì)量逐漸提高, 冗余度在N=896時達到平穩(wěn)狀態(tài). 如圖3(d), 當N= 256時,3個定量評價指標都達到總體指標的70%以上, 綜合考慮計算能力及重建時間, 冗余度N= 256為理想的重建參數(shù)值. 同時, 實驗中發(fā)現(xiàn)能夠在冗余度、稀疏度和計算時間之間取得較好的平衡.

為了驗證所選參數(shù)對于不同的復(fù)雜場景的適應(yīng)性, 選擇數(shù)據(jù)集中bicycle場景進一步進行實驗,該場景在不同的深度上表現(xiàn)出復(fù)雜的光照陰影變化信息. 圖4(a)和4(b)分別為選取不同稀疏度、冗余度參數(shù)時, 虛擬視角圖像的重建結(jié)果. 如表1所列, 稀疏度與冗余度的提高會極大地增加計算時間, 對硬件設(shè)備的計算能力要求也較高, 因此我們最終實驗時選擇稀疏度為K= 16, 冗余度為N= 256.

圖4 不同稀疏度、冗余度參數(shù)重建圖像(a) K = 16, N =256; (b) K = 34, N = 1024Fig. 4. Image reconstruction in different sparsity and redundancy: (a) K = 16, N = 256; (b) K = 34, N = 1024.

表1 不同稀疏度、冗余度重建圖像質(zhì)量指標Table 1. Performance of image reconstruction in different sparsity and redundancy.

2)實驗2為了驗證算法對遮擋、視差信息恢復(fù)的有效性, 選取數(shù)據(jù)集中包含明顯遮擋區(qū)域的場景table進行重建.

圖5(a)給出了包含兩個恢復(fù)的虛擬視角圖像的1 × 9光場, 光場的空間和角度連續(xù)性得以保持. 圖5(b)和圖5(e)分別為光場的最左、最右側(cè)視角的圖像, 作為參考視圖. 場景中臺燈燈罩為前景目標, 其對后景抽屜上的空洞處造成了明顯遮擋, 圖5(c)和圖5(d)為恢復(fù)的兩個虛擬視角圖像.從圖中的紅色方框區(qū)域放大圖可以清晰地看到算法精確地恢復(fù)了場景中局部被遮擋目標的信息,有效地保持了圖像局部顏色一致性. 恢復(fù)圖像與參考圖像之間, 恢復(fù)的兩個角度圖像之間視差明顯, 算法有效地恢復(fù)了場景光場圖像的視差信息.圖5(g)和圖5(h)為目標圖像, 圖5(f)和圖5(i)為殘差圖, 兩個虛擬視角的殘差總體水平都較低, 可見重建虛擬視角圖像在不同深度上對目標的恢復(fù)質(zhì)量較高.

3)實驗3選取數(shù)據(jù)集中包含自遮擋目標、高低頻信息豐富的場景rosemary進行實驗, 并與基于深度的圖像繪制算法 (depth image based rendering, DIBR)重建結(jié)果進行對比. 如圖6(a)所示為本文算法恢復(fù)的虛擬角度圖像, 樹葉的自遮擋區(qū)域中恢復(fù)的邊緣信息較為明顯, 低頻信息較為一致, 算法能夠?qū)μ卣飨嗨?、深度不同的目標進行高質(zhì)量重建, 并能對場景中的光照陰影進行恢復(fù),殘差也處于較低水平. 圖6(b)為DIBR算法恢復(fù)的圖像, 圖中可以看到存在明顯的裂紋, 放大區(qū)域可以觀察到明顯的空洞, 零值像素為無效像素,恢復(fù)圖像的局部顏色一致性較差, 所示的定量評價指標為去除恢復(fù)圖像右側(cè)無效像素后計算所得,由于空洞和裂縫的存在, 重建圖像的峰值信噪比較低.

將本文算法應(yīng)用于多種不同場景進行重建實驗, 選擇稀疏度K= 16, 冗余度N= 256, 重建結(jié)果如表2所列, 結(jié)果表明本文提出的方法對不同場景的適應(yīng)性較好, 能夠?qū)ο∈韫鈭鲞M行高質(zhì)量的稠密重建.

圖5 包含遮擋目標的稠密光場恢復(fù)(a) 稠密光場; (b), (e) 參考圖像; (c), (d) 恢復(fù)的 view 2, view 5虛擬角度圖像; (g), (h)目標圖像; (f), (i) 殘差圖Fig. 5. Dense reconstruction of light field with occluded targets: (a) Dense light field; (b), (e) reference images; (c), (d) reconstructed virtual images of view 2 and view 5; (g), (h) target images; (f), (i) residual images.

圖6 稠密光場恢復(fù)(a) 本文算法恢復(fù)圖像; (b) DIBR 算法恢復(fù)圖像; (c) 目標圖像; (d) 殘差圖; (e) 稠密光場Fig. 6. Dense reconstruction of light field: (a) Reconstructed image for proposed algorithm; (b) reconstructed image for DIBR;(c) target image; (d) residual image; (e) dense light field.

表2 不同場景光場稠密重建結(jié)果Table 2. Dense reconstruction of light field in different scenes.

4 討論

相機陣列獲取的光場空間分辨率較高, 使得待訓(xùn)練數(shù)據(jù)規(guī)模極其龐大, 傳統(tǒng)的字典訓(xùn)練算法變得難以實現(xiàn)[22], 因此, 本文算法實現(xiàn)時采用批量在線字典學(xué)習(xí)方法[23], 以損失一定重構(gòu)精度為代價提高算法運算效率.

實驗結(jié)果表明DIBR重建方法有一定的局限性, 由于遮擋、平移等因素的存在, 在深度圖的求取過程中, 被遮擋目標的深度信息無法獲取, 使得視角合成過程中會產(chǎn)生“空洞”; 又由于像素滲透,在邊緣處往往會產(chǎn)生裂縫, 使合成圖像質(zhì)量大幅下降. 而基于深度學(xué)習(xí)的方法中, 自遮擋目標由于遮擋物與被遮擋物特征相似度極高, 使得算法無法對目標進行有效區(qū)分從而導(dǎo)致局部重建失敗[24].

本文方法應(yīng)用于稠密光場重建取得了較好的結(jié)果. 重建的虛擬角度光場圖像中的紋理信息清晰, 表明有限的四維光場數(shù)據(jù)也存在較高的冗余性, 可以在一定場景范圍內(nèi)構(gòu)建近似完備的光場數(shù)據(jù)集, 通過訓(xùn)練得到的小規(guī)模全局光場字典包含了該場景中幾乎全部的特征, 稀疏編碼僅通過幾個訓(xùn)練得到光場原子的線性組合就能夠恢復(fù)光場中的復(fù)雜結(jié)構(gòu)信息, 這正是利用了自然場景光場在結(jié)構(gòu)上存在稀疏性, 在特征上存在冗余性; 重建圖像中的遮擋、視差以及復(fù)雜的光照陰影變化信息的恢復(fù), 說明四維光場的空間-角度約束關(guān)系得到保持,碎片化降維構(gòu)建光場訓(xùn)練集的方法對于特征選擇和變換域數(shù)據(jù)間相關(guān)性保持是有利的.

本文方法目前僅適應(yīng)于對線性相機陣列獲取的光場進行稠密重建, 而實際應(yīng)用中相機陣列的排布方式是多樣的, 這就使得變換域編碼構(gòu)建模型的構(gòu)建變得困難. 后續(xù)研究將圍繞非線性相機陣列光場稠密重建展開.

5 結(jié)論

本文基于稀疏表示理論, 由線性相機陣列采集場景的稀疏光場, 通過建立有效的光場字典學(xué)習(xí)和稀疏編碼模型, 對稀疏光場進行字典訓(xùn)練和稀疏表征. 采用變換域稀疏編碼插值方法構(gòu)建虛擬角度稀疏表征矩陣, 再由稀疏逆變換重建圖像碎片后, 經(jīng)圖像融合實現(xiàn)虛擬角度圖像重構(gòu), 進而達到稀疏光場稠密重建的目的. 實驗結(jié)果表明, 本文采用的稀疏編碼構(gòu)建方法能夠有效地對虛擬角度圖像進行恢復(fù). 從重建圖像中能夠觀察到明顯的視差; 遮擋、復(fù)雜光照陰影變化信息也得到有效的恢復(fù). 本文方法相比于傳統(tǒng)的DIBR視角恢復(fù)方法, 不需要場景深度信息的復(fù)雜求取和填充過程, 避免了失真像素的產(chǎn)生; 相比于基于深度學(xué)習(xí)的方法, 本文方法能夠?qū)植孔哉趽鯀^(qū)域中具有相似特征的目標進行有效的區(qū)分、重建. 同時本文提出的方法避免了復(fù)雜的場景建模與大規(guī)模的數(shù)據(jù)集采集過程, 具有較高的重建效率和可行性.