周玉,汪一,李雷達,高陳強,盧兆林
1. 中國礦業(yè)大學信息與控制工程學院,徐州 221116; 2. 徐州市第一人民醫(yī)院,徐州 221116; 3. 江蘇師范大學科文學院,徐州 221132; 4. 西安電子科技大學人工智能學院,西安 710071; 5. 重慶郵電大學通信與信息工程學院,重慶 400065
隨著社會生產(chǎn)力和信息技術(shù)的持續(xù)發(fā)展,虛擬現(xiàn)實(virtual reality, VR)技術(shù)作為一種能夠模擬360°真實世界場景,為人們提供仿佛置身現(xiàn)實生活中的真實感、沉浸感和互動感的技術(shù),其發(fā)展速度相當迅猛(曹凡,2019;周忠 等,2015)。尤其是隨著5G時代的到來,VR相關(guān)產(chǎn)業(yè)迎來了全新的發(fā)展機遇。VR應(yīng)用已經(jīng)成為新一代信息技術(shù)中的重要前沿性研究方向,具有廣闊的應(yīng)用前景和不可估量的市場價值(鄭菲,2020)。
VR應(yīng)用的最終目標是為用戶提供逼真的、身臨其境的體驗。用戶在頭部佩戴一定硬件設(shè)備后,只需要旋轉(zhuǎn)頭部即可看到360°內(nèi)的場景,從而獲得沉浸式體驗,如圖1所示(Lim等,2018)。顯然,VR應(yīng)用開發(fā)過程中最關(guān)注的問題是用戶體驗質(zhì)量的高低,其主要受VR內(nèi)容視覺質(zhì)量的影響,原因在于視覺是人類感覺中最重要的一種。VR圖像是VR內(nèi)容在視覺方面最基礎(chǔ)也是最重要的信息載體。在實際應(yīng)用中,VR圖像的獲取往往需要經(jīng)過圖像采集、拼接、投影映射、編碼、傳輸、存儲和顯示等多個過程。其中的每個過程均可能在VR圖像中引入失真,如采集過程的模糊和噪聲、投影失真、編碼過程的壓縮失真和拼接過程的重影失真等等。這些失真均會影響用戶對VR應(yīng)用的視覺體驗質(zhì)量。因此,研究VR圖像的質(zhì)量評價(VR image quality assessment, VR IQA)具有重要意義。其研究成果能夠用于指導VR相關(guān)技術(shù)的設(shè)計和優(yōu)化,進而提高VR應(yīng)用的用戶視覺體驗質(zhì)量。
圖1 用戶進行VR體驗時的情景展示(Lim等,2018)Fig.1 The scene presentation of users’ VR experience(Lim et al.,2018)
目前,圖像質(zhì)量評價的研究眾多。從被評價圖像的內(nèi)容角度,現(xiàn)有研究可以分為針對自然圖像的質(zhì)量評價和非自然圖像的質(zhì)量評價,如屏幕圖像和色調(diào)映射圖像的質(zhì)量評價(Wang等, 2016;Fang等,2017,2020)。從研究方法來劃分,圖像質(zhì)量評價分為主觀質(zhì)量評價和客觀質(zhì)量評價兩大類(顧錁,2015;吳金建,2014;周玉,2019)。其中,主觀質(zhì)量評價是指通過人眼觀看對圖像質(zhì)量進行打分,而客觀質(zhì)量評價是指通過設(shè)計數(shù)學模型來模擬人眼對圖像質(zhì)量的感知,以盡可能實現(xiàn)和主觀評價一致的評價結(jié)果。相比主觀質(zhì)量評價,客觀質(zhì)量評價具有明顯的成本低、穩(wěn)定性高和實用性強等優(yōu)點(Zhou等,2018,2019)。因此,客觀圖像質(zhì)量評價受到更廣泛的關(guān)注。盡管目前的研究已經(jīng)在自然圖像和部分非自然圖像的客觀質(zhì)量評價方面取得重要進展,并已經(jīng)在一些領(lǐng)域得到初步應(yīng)用,但是這些方法在評價VR圖像質(zhì)量時卻有較大的性能局限性。造成這種結(jié)果的原因是多方面的:其一,實際VR系統(tǒng)中的圖像為3維球面形式,而傳統(tǒng)質(zhì)量評價方法主要針對2維平面圖像進行設(shè)計。雖然為了方便圖像傳輸和存儲,3維球面VR圖像通常被非線性投影到2維空間,但是投影過程往往會在生成的2維全景圖像中引入失真(Jiang等,2021a),而這種失真并不真實存在于原始VR圖像中。例如,最常用的等矩形投影(equirectangular projection,ERP)方法會在圖像兩極區(qū)域帶來嚴重的幾何形變,如圖2(b)所示。此外,投影后圖像和原始VR圖像的像素分布呈非線性關(guān)系,這較大程度地改變了圖像中原本的失真分布特性和結(jié)構(gòu),造成了難以對投影后全景圖像和原始VR圖像進行質(zhì)量關(guān)系建模的問題。其二,傳統(tǒng)質(zhì)量評價模型主要針對模糊、壓縮失真和噪聲等傳統(tǒng)類型失真進行評價,而VR圖像中特有的失真(如拼接失真)與這些失真的特性大不相同(Chen等,2020;Madhusudana和Soundararajan,2019;Li等,2020a)?;谝陨戏治觯叫栌嗅槍π缘卦O(shè)計VR圖像的客觀質(zhì)量評價模型。
圖2 一幅球面VR圖像及相應(yīng)的ERP形式圖像Fig.2 A spherical VR image and the corresponding ERP form image((a)spherical VR image;(b)ERP form image)
越來越多的科研機構(gòu)和科研院校加入到該項研究工作中,例如上海交通大學、江西財經(jīng)大學、寧波大學、中國科學技術(shù)大學、浙江大學、北京航空航天大學、西安電子科技大學、武漢大學、遼寧大學、美國斯坦福大學、美國德克薩斯大學、韓國科學技術(shù)院、印度科技學院等。目前的研究工作主要包括VR圖像主觀質(zhì)量評價和客觀質(zhì)量評價兩方面的研究。如前所述,后者比前者具有更廣泛的實際應(yīng)用價值,因此本文主要對VR圖像客觀質(zhì)量評價的相關(guān)研究進行綜述,內(nèi)容框架如圖3所示。圖中ERP格式圖像中的紅色邊框圖像塊及位于右上角的放大圖是為了突出失真和無失真圖像之間的差異。
根據(jù)模型中是否需要無失真的高質(zhì)量VR圖像信息作為參考,本文將現(xiàn)有客觀質(zhì)量評價模型劃分為全參考(full-reference, FR)型和無參考(no-reference, NR)型,并對各模型的具體實現(xiàn)方法進行梳理,對各類模型的優(yōu)缺點進行分析。其中,F(xiàn)R模型是指需要整幅無失真VR圖像作為參照,而NR模型則無需任何參考信息即可實現(xiàn)對失真VR圖像的質(zhì)量預(yù)測(Fang等,2018;Zhang等,2015; Min等,2020)。更具體地,將FR型VR圖像質(zhì)量評價模型進一步劃分為基于峰值信噪比/結(jié)構(gòu)相似度(peak-signal-to-noise ratio/structural similarity, PSNR/SSIM)的方法和基于傳統(tǒng)機器學習的方法;根據(jù)特征表達空間的不同,將NR型VR圖像質(zhì)量評價模型劃分為3類:基于ERP表達空間的方法、基于其他投影表達空間的方法和基于實際觀看空間的方法。除此之外,本文還對VR圖像質(zhì)量評價數(shù)據(jù)庫、性能評價指標和模型應(yīng)用進行總結(jié),同時指出該方向研究可能的發(fā)展趨勢。
盡管國內(nèi)外已經(jīng)有多篇關(guān)于圖像質(zhì)量評價的綜述文獻,但是并沒有專門針對VR圖像客觀質(zhì)量評價的綜述。具體地,在現(xiàn)有的圖像質(zhì)量評價綜述文獻中,王志明(2015)、Niu等人(2019)、Yang等人(2019)、Athar和Wang(2019)僅針對傳統(tǒng)圖像的質(zhì)量評價模型或相關(guān)數(shù)據(jù)庫進行介紹,并未提及VR圖像質(zhì)量評價的相關(guān)信息。Zhai和Min(2020)、方玉明等人(2021)雖然在對圖像質(zhì)量評價方向研究進行綜述的同時,簡單介紹了VR圖像質(zhì)量評價,但是由于相應(yīng)工作并不是專門針對VR 圖像質(zhì)量評價進行研究,相關(guān)介紹較為籠統(tǒng),不夠詳細全面和有針對性,其中缺少針對VR 圖像客觀質(zhì)量評價模型的詳細介紹、深入分析和總結(jié)。因此,本文是對現(xiàn)有圖像質(zhì)量評價綜述的擴展與補充,更是對VR圖像客觀質(zhì)量評價綜述的補缺。
圖3 VR圖像客觀質(zhì)量評價整體框架圖Fig.3 The overall framework of objective quality assessment of VR images
類似于傳統(tǒng)質(zhì)量評價,根據(jù)模型中是否需要使用無失真VR圖像的信息作為參考,現(xiàn)有的VR圖像客觀質(zhì)量評價模型可以分為FR和NR兩種類型。下面分別對兩種類型中的各個模型進行詳細介紹,并對各類型方法的優(yōu)缺點進行分析與總結(jié)。
該類方法的設(shè)計思路主要分為兩類。第1類是直接借助目前發(fā)展較為成熟的傳統(tǒng)2維圖像質(zhì)量評價方法,即PSNR/SSIM(Wang等,2004)進行VR圖像質(zhì)量評價。更具體地,該類方法首先將原始球面VR圖像投影到ERP表達空間,然后在表達空間中通過PSNR/SSIM方法實現(xiàn)VR圖像質(zhì)量評價。例如,Yu等人(2015)首先在球面VR圖像上進行均勻采樣,然后將失真和無失真球面圖像投影到ERP表達空間并確定每個采樣點分別在原始無失真ERP圖像和失真ERP圖像中的對應(yīng)點,然后利用PSNR方法計算各對應(yīng)點之間的距離。最后,將所有采樣點對應(yīng)的PSNR均值作為VR圖像的質(zhì)量分數(shù)。該方法命名為球面PSNR(spherical PSNR, S-PSNR)方法。Zakharchenko等人(2016)提出一種基于卡斯特拋物線投影(craster parabolic projection)空間的PSNR方法(CPP-PSNR)。作者將圖像映射到該空間進行表達的原因是他們通過研究發(fā)現(xiàn)該空間的像素分布和球面域分布更相近,因此使用該空間能夠避免位置變動帶來的計算誤差。將圖像映射到CPP空間后,通過在該空間計算PSNR值來預(yù)測VR圖像的質(zhì)量分數(shù)。Sun等人(2017b)以ERP空間和立方體面片投影(cubemap projection, CMP)空間為例,提出首先借助PSNR方法在表達空間中計算像素級誤差,然后利用各個位置像素在真實球面空間中的映射面積計算各像素權(quán)重,并將加權(quán)平均結(jié)果作為VR圖像的質(zhì)量分數(shù)。類似地,Chen等人(2018)提出了一種利用球面空間映射面積計算各位置像素結(jié)構(gòu)相似性權(quán)重的VR圖像質(zhì)量評價方法。
第2類是采用傳統(tǒng)機器學習的方法。該類方法首先進行手工特征提取,然后訓練質(zhì)量評價模型。例如,Madhusudana和Soundararajan(2019)提出了一種針對拼接失真的VR圖像質(zhì)量評價模型。該模型采用特征提取—質(zhì)量評價模型訓練的思路,首先設(shè)計了兩組特征來描述拼接失真(模糊、重影和幾何失真)在VR圖像中引起的結(jié)構(gòu)和空間一致性的變化,并分別從失真VR圖像和原始無失真VR圖像中進行提取。然后,計算失真和無失真圖像之間的特征差值,并將它們作為支持向量回歸器的輸入訓練質(zhì)量評價模型。鄭珂珂(2017)重點介紹了VR全景視頻拼接技術(shù),研究了影響全景視頻質(zhì)量的關(guān)鍵因素,并提出了一種VR全景視頻拼接質(zhì)量評估模型。該模型從拼接后圖像與原始子圖像在亮度/色彩上的不一致性、模糊和錯位等方面分別進行特征提取,然后采用反向傳播算法進行質(zhì)量評價模型的訓練。
以上模型設(shè)計思路清晰,易于理解,但是在實際應(yīng)用中具有較大局限性,主要原因在于:1)與傳統(tǒng)FR型質(zhì)量評價模型類似,它們均需要原始無失真VR圖像作為參考,而實際應(yīng)用中的無失真VR圖像難以獲得(Yue等,2019;Wu等,2020)。2)FR型方法要求失真圖像與原始無失真圖像之間具有相同的分辨率,且像素之間具有相同的位置關(guān)系。而360°VR圖像一般是由多幅具有重疊區(qū)域的子圖像拼接而成,因此VR圖像和原始子圖像分辨率不同,這極大地限制了該類型方法在現(xiàn)實中的應(yīng)用。
根據(jù)特征表達空間的不同,NR型VR圖像質(zhì)量評價模型可以劃分為3類:第1類是基于ERP表達空間的模型;第2類是基于其他投影表達空間的模型;第3類是基于實際觀看空間的模型。其中,將ERP表達空間的模型單獨劃分為一類的原因是ERP是目前默認使用的、最常用的VR圖像投影映射方法(Yang等,2018)。接下來,對3類NR型VR圖像質(zhì)量評價模型分別進行詳細介紹和分析。
1.2.1 基于ERP表達空間的方法
該類VR圖像質(zhì)量評價方法的主要思想是直接通過對ERP表達形式圖像進行特征提取和特征融合得到質(zhì)量分數(shù)。如Kim等人(2020)提出了一種基于分塊的VR圖像質(zhì)量預(yù)測網(wǎng)絡(luò)模型。該模型首先將ERP形式圖像劃分為大小均勻且不相互重疊的圖像塊,然后采用深度學習的方法對每個塊進行特征編碼和空間位置編碼,并將位置特征和空間特征融合作為空間特征權(quán)重,最后通過計算所有圖像塊的加權(quán)和得到質(zhì)量分數(shù)。在模型訓練階段,該方法采用敵對學習策略通過原始無失真ERP圖像對分數(shù)預(yù)測網(wǎng)絡(luò)的學習進行監(jiān)督,以獲得更好的分數(shù)預(yù)測模型。Liu等人(2021)提出了一種基于結(jié)構(gòu)和自然性特征的VR圖像質(zhì)量評價模型。對于ERP形式全景圖像,首先在梯度域提取空間和局部特征進行結(jié)構(gòu)失真描述,同時直接從圖像中提取亮度、顏色和熵特征進行自然性描述。最后將所有特征輸入隨機森林回歸器訓練質(zhì)量評價模型。
由于ERP空間圖像為2維平面形式,所以該類方法也較為簡單和易于理解。然而,ERP表達空間中的圖像存在明顯的拉伸形變,尤其是越靠近圖像的兩極區(qū)域,拉伸形變越明顯,如圖2(b)所示。這種拉伸效應(yīng)不僅造成圖像結(jié)構(gòu)上的改變,也使圖像中的失真特性發(fā)生變化。圖像在表達空間和實際觀看空間中的差異會造成客觀評價結(jié)果與主觀評價結(jié)果的不一致,從而降低該類方法的評價準確性。
1.2.2 基于其他投影表達空間的方法
該類模型主要是為了克服ERP形式圖像在兩極處會產(chǎn)生明顯拉伸形變的問題,它們首先將VR圖像投影映射到其他表達空間,例如分段球面投影空間(segmented spherical projection,SSP)或CMP空間等,然后在新的表達空間進行質(zhì)量評價。Zheng等人(2020)提出了一種基于SSP的VR圖像質(zhì)量評價模型。投影到SSP空間的圖像分成了3部分,包括兩個兩極區(qū)域和一個赤道區(qū)域,然后分別對各區(qū)域進行特征提取。在特征提取過程中,分別利用兩類區(qū)域的熱力圖作為相應(yīng)區(qū)域的權(quán)重進行特征表達,以模擬人類視覺特性。最后將所有特征輸入隨機森林回歸器訓練最終的質(zhì)量評價模型。Jiang等人(2021a)提出了3種基于CMP空間的VR圖像質(zhì)量評價模型。首先,將待評價圖像投影到CMP空間得到6個面圖像。第1種模型是直接對6個面圖像進行特征提取和特征融合得到質(zhì)量分數(shù);第2種模型是利用注意力機制作為特征權(quán)重計算質(zhì)量分數(shù);第3種模型是將熱點圖同樣進行CMP投影得到熱點圖的6個面圖像,然后根據(jù)注意力強弱,從VR圖像6個面中提取4種不同注意力級別的特征,并通過特征融合獲得質(zhì)量分數(shù)。
相比ERP表達空間,這些空間解決了ERP映射在兩極區(qū)域引入拉伸形變失真的問題。然而,它們同樣存在一些其他的映射失真,仍然無法等同于實際中用戶體驗的球面VR圖像。綜上,第1類和第2類基于投影表達空間的模型均依賴于表達空間的優(yōu)劣。對于該問題,如何尋找表達空間圖像和實際觀看空間圖像之間的對應(yīng)關(guān)系并進行合理建模是解決問題的關(guān)鍵。
1.2.3 基于實際觀看空間的方法
該類模型主要是通過模擬人類在現(xiàn)實中觀看VR內(nèi)容時的真實過程或特性,以獲得與人類主觀評價更接近的客觀質(zhì)量評價結(jié)果。目前,該類方法均是基于視窗(viewport)的方法,其目的是模擬人眼在某一時刻視角范圍有限這一特性,即用戶在觀看360° VR內(nèi)容時的某一時刻,只能一次性看到viewport范圍內(nèi)的內(nèi)容,只有通過旋轉(zhuǎn)頭部才能觀看整個360° 的內(nèi)容。此外,用戶視覺感知到的內(nèi)容實際為球面內(nèi)容的切面圖,如圖4所示。當位于中心O處的用戶朝著OO′方向觀看時(O′為視線方向與球面交點),用戶視覺捕捉到的圖像內(nèi)容為以O(shè)′為中心的視窗范圍內(nèi)的球體切面圖ABCD。該圖稱為用戶實際觀看到的viewport圖。基于此,該類方法首先從ERP形式圖像中恢復(fù)出實際觀看空間中的viewport圖,然后通過度量viewport圖的質(zhì)量來計算整個VR圖像的質(zhì)量分數(shù)。如Xu等人(2021)提出一種基于局部和全局評價的VR圖像質(zhì)量評價模型。其中,局部評價分支首先借助關(guān)鍵點檢測以及熱力圖獲取若干關(guān)鍵viewport圖,再借助ResNet18進行特征提取,最后利用圖卷積網(wǎng)絡(luò)進行局部質(zhì)量分數(shù)預(yù)測。全局分支采用Zhang等人(2020)提出的深度雙線性卷積神經(jīng)網(wǎng)絡(luò)進行。最后融合局部和全局特征得到最終質(zhì)量分數(shù)。Sun等人(2020)提出了一種多通道卷積神經(jīng)網(wǎng)絡(luò)的VR圖像質(zhì)量評價模型。該模型通過從ERP圖像中獲得前、后、左、右、上、下6個方向的viewport圖來模擬用戶的真實觀看過程。獲取viewport圖像后,構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)分別對每個圖像進行特征提取,最后將多方向特征融合進行質(zhì)量分數(shù)預(yù)測。類似地,Zhou等人(2021)同樣從ERP形式圖像中獲取6個方向viewport圖,然后借助多任務(wù)學習思想,設(shè)計了使用失真鑒別網(wǎng)絡(luò)輔助質(zhì)量預(yù)測網(wǎng)絡(luò)的多流網(wǎng)絡(luò)模型。Sui等人(2021)提出了一種新穎的思路來進行VR圖像客觀質(zhì)量評價。作者將用戶旋轉(zhuǎn)頭部來觀看360° VR內(nèi)容的真實觀看過程想象為用戶不動,VR內(nèi)容自行旋轉(zhuǎn)的過程。另外,結(jié)合viewport的概念的連續(xù)性,作者進一步將該過程想象為一段viewport大小的2D視頻在用戶面前進行播放。因此該方法首先將ERP圖像轉(zhuǎn)化為由大量viewport圖像構(gòu)成的2D視頻,最后采用現(xiàn)有2D視頻質(zhì)量評估方法計算質(zhì)量分數(shù)。
圖4 在中心點O處的用戶沿OO′方向觀看內(nèi)容的展示Fig.4 Illustration of the viewport image received by the viewers at center O in the OO′ direction
該類模型相比前兩類更加符合用戶實際觀看特性,但是仍然存在以下問題,具體為:1)模型中選取的viewport圖像與真實觀看情況下用戶選取的viewport圖像不一致問題?,F(xiàn)有文獻中,并未針對用戶在真實觀看過程中如何選取viewport以及不同用戶對于viewport的選取是否具有統(tǒng)計規(guī)律等問題進行研究。盡管Xu等人(2021)借助關(guān)鍵點檢測和熱力圖來確定viewport圖像,但是ERP空間中檢測的關(guān)鍵點和熱力圖未必與原始球面空間中的關(guān)鍵點和熱力圖一致。如果不一致,將會造成viewport提取的誤差和最終評價結(jié)果的不準確。2)以上模型并沒有考慮各個viewport之間的關(guān)聯(lián)性。實際觀看時,用戶不斷移動視線獲取不同viewport內(nèi)容之后,會將各個viewport內(nèi)容整合進行質(zhì)量評價。綜上,研究人類選取viewport以及大腦整合處理viewport信息的機理是該類模型取得突破的關(guān)鍵。
表1中對各類主流VR圖像質(zhì)量評價方法進行了總結(jié)概括和分析,主要包括每種類型方法的主要特性、優(yōu)點和缺點等信息。從表中可以看到,F(xiàn)R型VR圖像質(zhì)量評價方法的優(yōu)點是設(shè)計思路同傳統(tǒng)FR方法類似,所以易于理解,且計算速度快。但其存在的主要問題是:1)依賴PSNR/SSIM方法和手工特征性能的優(yōu)劣;2)依賴原始參考信息,但實際應(yīng)用中參考信息難以獲得,所以這極大限制了這類方法應(yīng)用。相比之下,NR類型方法則克服了FR方法依賴原始參考信息這一缺點,在實際場景中具有更加廣泛的應(yīng)用,因此具有更大的研究價值和更重要的研究意義。由于ERP表達空間圖像與傳統(tǒng)圖像類似,均是2維平面圖像,所以基于ERP表達空間的方法同樣具有易于理解的優(yōu)點。但是該表達空間的圖像在兩極區(qū)域具有明顯的拉伸形變,這與實際觀看空間中圖像的特性相差甚遠,因此這限制了該類方法的性能。鑒于ERP表達空間的這一問題,多種其他的表達空間陸續(xù)提出。這些表達空間與實際觀看空間特性更加接近,但是仍然不可避免地存在一些特有的投影映射失真。為了解決上述問題,研究者們致力于研究基于實際觀看空間的VR圖像質(zhì)量評價方法。如前文所述,目前這類方法主要是基于viewport的方法。該類方法更好地模擬了人類在單一時刻視覺范圍有限的特點,即用戶在觀看360°VR內(nèi)容時的某一時刻,只能觀看到視窗范圍內(nèi)的圖像內(nèi)容。然而,如何通過建立數(shù)學模型來更科學地模擬人類選取vewport的原則以及各viewport之間的關(guān)聯(lián)性卻是影響該類方法性能的關(guān)鍵因素。
表1 各類VR圖像質(zhì)量評價方法的主要特性和優(yōu)缺點總結(jié)Table 1 Summarization of the characteristics, advantages, and shortcomings of each kind of VR image quality metrics
綜上所述,各類方法均有一定的優(yōu)缺點。相比而言,NR類型方法比FR方法具有更大的發(fā)展前景和空間。對于前兩類NR類型方法,如何探索表達空間與真實空間的關(guān)系并合理建模是關(guān)鍵問題。對于第3類方法,探索實際觀看空間特性或用戶觀看VR內(nèi)容時的視覺特性是性能進一步提升的重要突破口。
VR IQA的評價指標采用最常用的皮爾森線性相關(guān)系數(shù)(Pearson linear correlation coefficient, PLCC)、斯皮爾曼秩相關(guān)系數(shù)(Spearman rank order correlation coefficient, SRCC)和均方根誤差(root mean square error, RMSE)。其中,PLCC與RMSE指標用來評價客觀質(zhì)量評價模型預(yù)測分數(shù)的準確性,SRCC指標用來評價客觀質(zhì)量評價算法預(yù)測的分數(shù)與主觀評價分數(shù)在單調(diào)性方面的一致性(Jiang等,2021b;Jiang,2018)。PLCC和SRCC的取值范圍均是 [0,1]。PLCC和SRCC數(shù)值越大,RMSE數(shù)值越小,代表相應(yīng)模型的性能越好。下面給出3個性能評價指標的詳細計算方法,即
(1)
(2)
式中,di表示主觀分數(shù)和客觀分數(shù)的排序差異
di=Xi-Yi
(3)
Xi和Yi分別表示第i幅圖像的主觀分數(shù)和客觀分數(shù)在數(shù)據(jù)庫所有圖像中的排序序號。
(4)
需要說明的是,在計算PLCC和RMSE兩個指標之前,需要完成五參數(shù)的非線性邏輯映射,目的是將所有的客觀質(zhì)量評價方法的質(zhì)量評價分數(shù)統(tǒng)一到同一范圍內(nèi)(Zhan等,2017;Li等,2021)。五參數(shù)邏輯映射的計算方式為(Shao等,2021;Wu等,2018)
(5)
式中,x表示客觀質(zhì)量評價算法預(yù)測的客觀分數(shù),f(x)表示邏輯映射后的客觀分數(shù),τi(i=1,2,3,4,5)是擬合參數(shù)。其中,擬合參數(shù)的計算是利用MATLAB中提供的非線性最小二乘法函數(shù)nlinfit實現(xiàn)(Li等,2020b)。最終的擬合參數(shù)實質(zhì)上是能夠使映射后的客觀分數(shù)和主觀分數(shù)之間的誤差平方和最小的參數(shù)組合。對于函數(shù)nlinfit,其輸入包括主觀分數(shù)、相應(yīng)的客觀分數(shù)、非線性函數(shù)和初始參數(shù),而輸出包括擬合參數(shù)、殘差和雅克比(Jacobian)矩陣。關(guān)于邏輯映射的更多信息可以從Video Quality Experts Group (VQEG)(2000)獲得。
除以上3個評價指標外,還有一些學者設(shè)計了D-test、L-test和P-test實驗分別用來驗證模型區(qū)分失真圖像和無失真圖像的能力、判別失真程度的能力以及從圖像對中判別質(zhì)量好壞的能力。關(guān)于這3種測試的更多信息可從方玉明等人(2021)的論文中獲得。
目前已經(jīng)有多個針對VR圖像質(zhì)量評價的數(shù)據(jù)庫,包括壓縮VR圖像質(zhì)量數(shù)據(jù)庫(compressed VR image quality database,CVIQD)(Sun等,2017a)、全方位圖像質(zhì)量評價數(shù)據(jù)庫(omnidirectional image quality assessment database,OIQA)(Duan等,2018)、壓縮VR圖像質(zhì)量數(shù)據(jù)擴展版(compressed VR image quality database,CVIQ)(Sun等,2020)、圖像和視頻工程實驗室3維VR圖像質(zhì)量評價數(shù)據(jù)庫(Laboratory for Image Video Engineering Three-Dimensional VR Image Quality Assessment database,LIVE 3D VR IQA)(Chen等,2020)、多失真視覺顯著性質(zhì)量庫(multi-distortions visual attention quality dataset,MVAQD)(Jiang等,2021a)、印度科學研究院拼接圖像質(zhì)量評價數(shù)據(jù)庫(Indian Institute of Science Stitched Image Quality Assessment database,ISIQA)(Madhusudana和Soundararajan,2019)、VR IQA(Sui等,2021)和寧波大學高動態(tài)范圍全方位圖像庫(Ningbo University high dynamic range omnidirectional image database, NBU-HOID)(Cao等,2021)。下面分別對各個數(shù)據(jù)庫進行詳細介紹。
1)CVIQD 數(shù)據(jù)庫是由上海交通大學圖像通信與信息處理研究所于2017年建立,共提供了5幅原始無失真VR圖像和由3種編碼方法壓縮生成的165幅壓縮圖像,3種編碼方法為JPEG,H.264/AVC 和H.265/HEVC。所有原始圖像均是采用Insta360 4 K球形VR視頻攝像機獲得,分辨率均為4 096×2 048像素,場景包含教學樓、操場、湖泊、雕塑和廣場。主觀實驗采用單激勵(single-stimulus,SS)法,主觀分數(shù)以平均意見分數(shù)(mean opinion scores, MOS)形式給出,MOS值越高代表圖像質(zhì)量越好。
2)OIQA數(shù)據(jù)庫是由上海交通大學圖像通信與網(wǎng)絡(luò)工程研究所于2018年構(gòu)建。該數(shù)據(jù)集共包含16幅原始無失真VR圖像和320幅對應(yīng)的失真圖像,失真類型包括JPEG壓縮失真、JPEG2000壓縮失真、高斯模糊和高斯噪聲4種類型,每種類型又包含5種失真等級。庫中所有圖像均采用ERP形式,分辨率范圍為11 332×5 666像素到13 320×6 660像素不等。主觀實驗同樣采用SS法。測試人員觀看圖像后,采用10分離散制打分法,分數(shù)越高代表圖像質(zhì)量越好。此外,主觀實驗過程中還記錄了測試人員的頭動和眼動數(shù)據(jù),并在數(shù)據(jù)庫中提供了相關(guān)數(shù)據(jù)。該數(shù)據(jù)庫已經(jīng)公開,下載鏈接為:https://mega.nz/#!FqxxRQRR!4Ju2qcmmo6Ced_7nRBXXqA aDcjqxjH2uUFnXIeyE2ts。
3)CVIQ數(shù)據(jù)庫是CVIQD數(shù)據(jù)庫的擴展版本,由同一研究所于2019年建立,共提供了16幅原始圖像和3種編碼方法處理生成的528幅壓縮圖像。壓縮編碼方法和建立CVIQD庫時使用的相同。16幅原始圖像中有12幅是采用Insta360 4 K球形VR視頻攝像機獲得,剩余4幅來自于JVET的測試視頻。庫中圖像的分辨率均為4 096×2 048像素,相比CVIQD數(shù)據(jù)庫,該庫包含的圖像內(nèi)容更多樣化,包含城鎮(zhèn)、風景、人物和物體等。主觀實驗同樣采用SS方法,主觀分數(shù)采用MOS值形式。該數(shù)據(jù)庫獲取鏈接為:https://github.com/sunwei925/CVIQDatabase。
5)MVAQD數(shù)據(jù)庫是由寧波大學信息科學與工程學院于2019年建立。數(shù)據(jù)庫共包含315幅360°圖像,其中,15幅為原始無失真圖像,300幅為失真圖像。失真圖像是通過將5種類型失真分別加入各原始無失真圖像獲得,包括JPEG壓縮失真、JP2K壓縮失真、HEVC幀內(nèi)編碼失真、白噪聲和高斯模糊。每種類型又包含4種失真等級,形成20種組合。主觀實驗采用5分制法。需要注意的是,盡管該數(shù)據(jù)庫稱為多失真數(shù)據(jù)庫,但是每一幅圖像中僅僅包含一類失真,命名為多失真的原因是數(shù)據(jù)庫中一共包含5類失真。數(shù)據(jù)庫獲取鏈接:https://github.com/Jianghao2019/MVAQD。
圖5 拼接技術(shù)流程Fig.5 The process of the stitched technology
8)NBU-HOID數(shù)據(jù)庫是由寧波大學信息科學與工程學院于2021年建立。該數(shù)據(jù)庫是第1個研究高動態(tài)范圍VR圖像質(zhì)量評價的數(shù)據(jù)庫。相比其他數(shù)據(jù)庫里的圖像,高動態(tài)范圍圖像具有更寬的動態(tài)范圍、更高的對比度和更多的圖像細節(jié)。庫中一共提供了16組原始無失真VR圖像和320幅失真的多曝光VR圖像。其中的失真是由JPEG XT編碼和色調(diào)映射引入。主觀實驗過程中采用9分制評分法,主觀分數(shù)采用MOS值形式。該數(shù)據(jù)集可以從以下鏈接獲得:https://github.com/caoliuyan/NBU-HOID。
9)除以上VR圖像質(zhì)量評價數(shù)據(jù)庫外,一些科研機構(gòu)和院校也相繼建立了一些VR視頻質(zhì)量評價數(shù)據(jù)庫,例如上海交通大學圖像通信與網(wǎng)絡(luò)工程研究所建立的沉浸式視頻質(zhì)量評價(immersive video quality assessment database, IVQAD)數(shù)據(jù)庫(Duan等,2017)、北京航空航天大學電子信息工程學院建立的全方位視頻視覺質(zhì)量評價數(shù)據(jù)庫(visual quality assessment dataset of omnidirectional video, VQA-OV)(Li等,2018)和全景視頻數(shù)據(jù)庫(Xu等,2017)等。本文僅針對靜態(tài)VR圖像的客觀質(zhì)量評價進行綜述,所以不對動態(tài)VR視頻質(zhì)量評價數(shù)據(jù)庫進行介紹和總結(jié)。
表2中對8個公開的VR圖像質(zhì)量評價數(shù)據(jù)庫的主要信息進行了詳細總結(jié)。
表2 8個公開的VR圖像質(zhì)量評價數(shù)據(jù)庫的主要信息總結(jié)Table 2 Summary of the main information of eight public databases for VR IQA
本文測試了現(xiàn)有主流的FR型和NR型圖像質(zhì)量評價方法在各個VR數(shù)據(jù)集上的性能。其中,F(xiàn)R型方法包括PSNR、SSIM、S-PSNR和CPP-PSNR,NR型方法包括盲圖像質(zhì)量評價方法(blind image quality index, BIQI)(Moorthy和Bovik,2010)、基于失真類型鑒別的圖像真實性和完整性評價方法(distortion identification-based image verity and integrity evaluation,DIIVINE)(Moorthy和Bovik,2011)、綜合局部自然圖像質(zhì)量評價器的方法(integrated local natural image quality evaluator, IL-NIQE)(Zhang等,2015)、基于多幅偽參考圖像的盲評價(blind multiple pseudo reference images,BMPRI)方法(Min等,2018)、基于質(zhì)量鑒別圖像對推斷的質(zhì)量評價方法(quality-discriminable image pairs inferred quality index,dipIQ)(Ma等,2017)和多任務(wù)端到端優(yōu)化的深度神經(jīng)網(wǎng)絡(luò)(multi-task end-to-end optimized deep neural network,MEON)(Ma等,2018)。
表3展示了相應(yīng)的實驗結(jié)果,并對各個庫上的最優(yōu)性能進行了加粗顯示。其中,PLCC和SRCC數(shù)值越高,代表相應(yīng)算法的預(yù)測準確性越高,單調(diào)性與主觀結(jié)果更符合。需要注意的是,由于ISIQA數(shù)據(jù)庫中未提供與失真圖像相同分辨率的原始無失真圖像,這使得FR型方法的性能無法測試,因此表中相應(yīng)位置處用“-”表示。從表中的實驗結(jié)果可以得出以下結(jié)論:1)各個方法在不同數(shù)據(jù)庫上的性能表現(xiàn)有所差異,沒有一種方法能夠在所有數(shù)據(jù)集上都能獲取比較理想的性能,這說明算法的魯棒性有待提高;2)FR型方法普遍比NR型方法性能好,主要原因是該類型方法使用了原始信息作為參考。但是該類型方法在實際應(yīng)用中相比NR方法具有更大局限性。3)現(xiàn)有主流質(zhì)量評價方法在VR IQA數(shù)據(jù)集上的性能普遍較差,最高的PLCC和SRCC數(shù)值僅為0.3左右。其主要原因是數(shù)據(jù)集中的拼接失真與傳統(tǒng)類型失真特性相差甚遠,現(xiàn)有方法無法很好地進行評價。
表3 現(xiàn)有主流的全參考和無參考質(zhì)量評價方法在各VR數(shù)據(jù)集上的性能Table 3 Performance of existing state-of-the-art FR and NR quality assessment metrics on seven VR databases
VR IQA模型的應(yīng)用主要包括VR相關(guān)技術(shù)的參數(shù)優(yōu)化、評價與選擇。其中,VR相關(guān)技術(shù)是指從圖像采集、處理、傳輸和存儲到用戶端的投影和顯示整個環(huán)節(jié)中的各項技術(shù)。參數(shù)優(yōu)化是指尋找某一技術(shù)中參數(shù)的最佳值,具體方法為:將參數(shù)進行迭代遍歷生成不同參數(shù)設(shè)置下的圖像,然后將VR IQA模型作為“裁判”,裁決出最高質(zhì)量的圖像,則其對應(yīng)的參數(shù)被認為是最優(yōu)參數(shù)。例如,圖像拼接技術(shù)是生成VR圖像的關(guān)鍵技術(shù),該技術(shù)中往往包含多個參數(shù),且不同參數(shù)下拼接的圖像效果大不相同。在這種情況下,如何來評價哪種參數(shù)設(shè)置下拼接效果好則是關(guān)鍵問題。顯然,通過人眼來判斷最可靠。但是,參數(shù)的可選擇范圍通常較大,所以這種方法成本太高,費時費力,實用性較差。而一個優(yōu)秀的VR IQA模型則能夠充當“人眼”,對不同參數(shù)設(shè)置下拼接圖像的質(zhì)量進行評價,從而判斷出哪組參數(shù)下拼接效果最好,則該參數(shù)被認為是最優(yōu)參數(shù)。另外,對于同一種需求,不同的學者會研究出不同的技術(shù)方法。同樣以拼接技術(shù)為例,目前的方法多種多樣(Xu和Mulligan,2010;Chang等,2014;Nie等,2021;Yuan等,2021),且每個方法可能都有各自的適用場景。在實際應(yīng)用中,面對待處理的圖像,如何選擇最適合的方法是另一個關(guān)鍵問題。類似地,對于一組待拼接圖像,可以采用現(xiàn)有拼接算法依次對圖像進行拼接,然后采用VR IQA模型來裁斷出哪種算法拼接效果最好,從而確定最終選擇的拼接技術(shù)。
VR技術(shù)憑借在醫(yī)療、軍事、娛樂和教育等眾多領(lǐng)域的廣闊應(yīng)用前景引起了各界密切關(guān)注。其中對于VR圖像客觀質(zhì)量評價的研究已經(jīng)成為圖像處理領(lǐng)域熱門的前沿性研究方向。本文主要對目前的VR圖像客觀質(zhì)量評價相關(guān)研究進行綜述?,F(xiàn)有模型包含F(xiàn)R型和NR型兩類。對于FR型的方法,它們依賴于原始無失真的高清VR圖像,這極大限制了在實際場景中的應(yīng)用。對于NR類型方法,本文根據(jù)特征表達空間的不同,將其劃分為3類,包括基于ERP表達空間的模型、基于其他投影表達空間的模型和基于實際觀看空間的模型。前兩類模型在將原始球面VR圖像投影到其他空間進行表達時,會在圖像中引入一定的投影失真,從而改變圖像結(jié)構(gòu)和圖像中失真的分布特性,造成評價的不準確性。對于第3類模型,其相對于前面兩類模型是個更好的思路,具有更大的發(fā)展空間,因為客觀質(zhì)量評價模型的最終目標是代替人眼來進行質(zhì)量評估,所以研究用戶在實際觀看空間的特性是解決問題的突破口。目前該類型的方法均是基于viewport的方法,它們對于viewport的選取與融合等處理并沒有真正地模擬人類的視覺信息處理特性,這造成了質(zhì)量預(yù)測性能方面的“天花板”。綜上,對于VR圖像客觀質(zhì)量評價的研究仍然具有相當大的發(fā)展空間。
雖然VR IQA的研究已經(jīng)逐漸成為IQA領(lǐng)域的研究熱點,但是相比該領(lǐng)域其他較為成熟的研究方向,它仍處于起步階段,未來仍然有許多亟需發(fā)展的方向,主要包括以下幾點:
1)研究基于小樣本學習的VR IQA模型。數(shù)據(jù)量不足一直是IQA領(lǐng)域中各個研究方向普遍存在的問題。尤其對于VR圖像質(zhì)量評價,其主觀評價相比傳統(tǒng)IQA的主觀評價難度更大、成本更高,因而數(shù)據(jù)量問題在VR圖像的客觀圖像質(zhì)量評價中顯得更為突出。目前,最大的VR圖像數(shù)據(jù)庫(CVIQ數(shù)據(jù)庫)也僅僅包含528幅圖像,這對于深度學習而言遠遠不夠。面對該問題,除了盡可能擴大數(shù)據(jù)庫之外,研究如何在小樣本情況下進行有效的質(zhì)量評估更是關(guān)鍵問題,這也是未來研究中的重中之重。
2)研究用戶實際觀看特性并建模。佩戴了頭戴設(shè)備的用戶在實際觀看360° VR內(nèi)容時的觀看特性與觀看2維平面圖的特性具有巨大差異。目前的研究中對觀看特性的研究與建模嚴重不足。盡管Sui等人(2021)研究了不同觀看起始點、觀看路徑和觀看時間對質(zhì)量評價的影響,但是缺少對用戶觀看特性的統(tǒng)計性研究和更深入分析。例如面對一個新的VR內(nèi)容,用戶選擇起始點和觀看路徑的依據(jù)、不同用戶的觀看特性是否具有一定的統(tǒng)計規(guī)律以及如何對相關(guān)特性進行合理建模等問題都極大影響VR圖像客觀質(zhì)量評價的研究,因此這也是重要研究方向之一。
3)研究面向視覺體驗舒適度的VR IQA模型。失真是造成視覺質(zhì)量下降的重要因素,因此量化圖像失真程度對于傳統(tǒng)2維圖像質(zhì)量評價具有重要意義。然而,用戶在體驗VR應(yīng)用時更注重的是體驗舒適度而不僅僅是失真的多少。圖像中的失真是造成用戶在生理和心理方面不舒適的重要原因之一,從而降低用戶對視覺質(zhì)量的感知,這與傳統(tǒng)2維圖像大不相同。因此,研究失真與體驗舒適度的關(guān)系并進行合理建模是另一關(guān)鍵問題。目前,關(guān)于圖像舒適度的研究主要集中于普通立體3D圖像,而對于360° VR圖像舒適度評價的相對較少。
4)構(gòu)建多維復(fù)合失真的VR圖像數(shù)據(jù)集。在現(xiàn)實環(huán)境中,VR圖像在復(fù)雜的采集、拼接、編碼和傳輸?shù)冗^程中引入的失真往往呈現(xiàn)多維復(fù)合特性?,F(xiàn)有的VR圖像客觀質(zhì)量評價模型并沒有考慮多種失真對質(zhì)量的共同作用,而阻礙該方向發(fā)展的一個重要原因是缺少相應(yīng)的模型測試數(shù)據(jù)集?,F(xiàn)有數(shù)據(jù)集存在以下問題:(1)單幅圖像中只含有一類失真,而現(xiàn)實中的圖像往往同時包含多類失真;(2)大多數(shù)數(shù)據(jù)集僅包含模糊、壓縮失真、噪聲等傳統(tǒng)類型失真。僅有少數(shù)數(shù)據(jù)庫中包含VR圖像中特有的拼接失真和投影失真等,而它們的特性與傳統(tǒng)失真特性大不相同,所以需要在數(shù)據(jù)集中加入這些特有失真。(3)現(xiàn)有數(shù)據(jù)集中加入的傳統(tǒng)類型失真均是通過計算機模擬生成的失真,而真實失真往往比模擬失真更加復(fù)雜,且兩者特性差異較大,這會間接限制相應(yīng)質(zhì)量評價模型的可擴展性和實際應(yīng)用。