卓 力,楊 碩,張 菁,李嘉鋒
(北京工業(yè)大學(xué)信息學(xué)部,北京 100124)
視頻質(zhì)量評(píng)價(jià)是計(jì)算機(jī)視覺(jué)、圖像處理等領(lǐng)域的經(jīng)典問(wèn)題.視頻在壓縮、傳輸?shù)拳h(huán)節(jié)中會(huì)引入各種失真,導(dǎo)致視頻質(zhì)量的下降,影響用戶(hù)的觀看體驗(yàn)質(zhì)量(quality of experience,QoE).為了評(píng)估視頻壓縮處理算法的性能,優(yōu)化系統(tǒng)資源的配置,需要對(duì)視頻質(zhì)量進(jìn)行準(zhǔn)確的評(píng)價(jià).
視頻質(zhì)量評(píng)價(jià)可分為主觀評(píng)價(jià)和客觀評(píng)價(jià)[1].其中主觀評(píng)價(jià)方法依靠人觀看待測(cè)視頻的打分去評(píng)估視頻質(zhì)量,是最為準(zhǔn)確、可靠的質(zhì)量評(píng)價(jià)方法,但是,該方法通常受測(cè)試環(huán)境和實(shí)驗(yàn)人員數(shù)量等客觀因素影響,具有很大的局限性,不能滿(mǎn)足實(shí)際應(yīng)用需求.客觀評(píng)價(jià)則是通過(guò)建立數(shù)學(xué)模型對(duì)待測(cè)視頻進(jìn)行打分,但是常常無(wú)法準(zhǔn)確反映出用戶(hù)觀看視頻的主觀體驗(yàn).近年來(lái),能夠與主觀評(píng)價(jià)保持一致的客觀質(zhì)量評(píng)價(jià)方法受到了工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注,成為現(xiàn)階段視頻質(zhì)量評(píng)價(jià)的研究熱點(diǎn).
視頻多方法評(píng)估融合(video multimethod assessment fusion,VMAF)是美國(guó)Netflix公司于2016年推出的一種視頻質(zhì)量客觀評(píng)價(jià)指標(biāo)[2].VMAF采集了大量的主觀打分?jǐn)?shù)據(jù)作為訓(xùn)練集,采用不同的質(zhì)量評(píng)估方法對(duì)視頻質(zhì)量進(jìn)行度量,然后采用支持向量回歸(support vector regression,SVR)進(jìn)行融合,使得VMAF可以保留每種質(zhì)量評(píng)估方法的優(yōu)勢(shì).相比于峰值信噪比(peak signal to noise ratio,PSNR)和結(jié)構(gòu)相似性(structural similarity,SSIM)[3]等視頻質(zhì)量客觀評(píng)價(jià)準(zhǔn)則,VMAF指標(biāo)更加接近于主觀感受,可以與用戶(hù)的主觀評(píng)價(jià)保持一致.實(shí)驗(yàn)結(jié)果表明,與PSNR相比,采用VMAF作為視頻質(zhì)量評(píng)價(jià)指標(biāo),在人眼感知質(zhì)量相當(dāng)?shù)那闆r下,視頻編碼碼率可以節(jié)約30%左右.因此,VMAF自推出以來(lái)就受到了工業(yè)界的廣泛關(guān)注.
雖然VMAF指標(biāo)比較符合用戶(hù)的主觀感知,但是現(xiàn)在的VMAF指標(biāo)是一種全參考的評(píng)價(jià)方法.在實(shí)際應(yīng)用中,人們往往很難獲取到原始視頻的信息.為此,本文提出了一種無(wú)參考的VMAF預(yù)測(cè)模型.該模型采用“幀級(jí)得分預(yù)測(cè)+時(shí)間池化聚合”的方式,分為兩階段進(jìn)行建模:1) 利用自建的數(shù)據(jù)集,建立了一種基于多模雙線(xiàn)性池化[4]的失真視頻幀級(jí)VMAF預(yù)測(cè)模型,用于對(duì)視頻幀的VMAF分?jǐn)?shù)進(jìn)行預(yù)測(cè);2) 采用3種時(shí)間池化方法對(duì)預(yù)測(cè)的視頻幀VMAF分?jǐn)?shù)分別進(jìn)行聚合,構(gòu)成質(zhì)量特征向量,采用nu-支持向量回歸(nu support vector regression,NuSVR)的方法建立質(zhì)量特征向量與VMAF預(yù)測(cè)分?jǐn)?shù)之間的映射模型,用于對(duì)失真視頻的VMAF分?jǐn)?shù)進(jìn)行預(yù)測(cè).實(shí)驗(yàn)結(jié)果表明,采用本文提出的無(wú)參考VMAF評(píng)價(jià)指標(biāo),無(wú)需原始視頻參考信息就可以對(duì)視頻質(zhì)量進(jìn)行準(zhǔn)確的評(píng)價(jià).
目前視頻質(zhì)量評(píng)價(jià)建模普遍采用2種思路:
第1種是采用“時(shí)空特征提取+回歸”的思路.該類(lèi)方法首先提取視頻的時(shí)空特征,然后采用SVR、深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)等方式建立特征參數(shù)與視頻得分之間的映射關(guān)系.文獻(xiàn)[5]在碼流域采用整數(shù)余弦變換(integer cosine transform,ICT)系數(shù)的統(tǒng)計(jì)信息表示視頻的空間紋理信息,采用運(yùn)動(dòng)向量的統(tǒng)計(jì)信息表示視頻的時(shí)間復(fù)雜度,結(jié)合量化參數(shù)(quantization parameter,QP)形成特征向量,最后采用DNN的方法對(duì)特征向量進(jìn)行回歸,得到視頻打分預(yù)測(cè)模型.文獻(xiàn)[6]將相鄰幀的幀差圖在離散余弦變換(discrete cosine transform,DCT)域進(jìn)行統(tǒng)計(jì)分析,提取運(yùn)動(dòng)一致性度量、全局運(yùn)動(dòng)度量和視頻抖動(dòng)特征,并采用自然圖像質(zhì)量評(píng)估(natural image quality evaluator,NIQE)[7]方法對(duì)圖像質(zhì)量進(jìn)行評(píng)估,作為對(duì)空間信息的一種補(bǔ)充特征,最后采用SVR的方法對(duì)特征進(jìn)行回歸.文獻(xiàn)[8]采用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)提取視頻的深度特征,設(shè)計(jì)了手工特征來(lái)表示視頻的清晰度變化,作為視頻的時(shí)間特征,最后采用DNN的方法進(jìn)行特征回歸.
第2種是采用“幀級(jí)得分預(yù)測(cè)+時(shí)間池化”的思路.該類(lèi)方法通常采用圖像質(zhì)量評(píng)價(jià)(image quality assessment,IQA)方法預(yù)測(cè)每個(gè)視頻幀的打分,然后在時(shí)間維度上進(jìn)行池化聚合,得到視頻質(zhì)量打分模型.文獻(xiàn)[9]利用現(xiàn)有的深度無(wú)參考圖像質(zhì)量評(píng)估(deep blind image quality assessment,DeepBIQA)模型[10]學(xué)習(xí)視頻幀的時(shí)空視覺(jué)感知特征,得到視頻的單幀打分;然后利用卷積神經(jīng)聚合網(wǎng)絡(luò)(convolutional neural aggregation network,CNAN)學(xué)習(xí)每個(gè)視頻幀得分的權(quán)重,通過(guò)各幀得分的加權(quán)平均得到視頻的質(zhì)量打分.文獻(xiàn)[11]采用預(yù)訓(xùn)練的CNN模型提取視頻幀的空間特征,然后利用門(mén)控循環(huán)單元(gate recurrent unit,GRU)網(wǎng)絡(luò)學(xué)習(xí)視頻的長(zhǎng)時(shí)間特征,進(jìn)而獲得視頻的各幀打分,最后采用時(shí)間池化[12]將視頻各幀分?jǐn)?shù)聚合為視頻質(zhì)量打分.
為了將視頻的幀級(jí)得分合并,得到視頻級(jí)得分,目前研究人員已經(jīng)提出多種時(shí)間池化策略.總的來(lái)說(shuō),目前的池化策略可以分為以下3種不同的類(lèi)型:
1) 基于數(shù)值統(tǒng)計(jì)的時(shí)間池化方法.此類(lèi)方法是最簡(jiǎn)單有效的時(shí)間合并算法,在多個(gè)無(wú)參考VQA模型中得到廣泛使用.常見(jiàn)的有簡(jiǎn)單平均池化(mean pooling,Mpooling)[13]、諧波均值池化[14]等等.以Q表示視頻級(jí)得分,N表示視頻的總幀數(shù),qn表示第n幀的幀分?jǐn)?shù),其中Mpooling的公式為
(1)
2) 考慮質(zhì)量較差的幀對(duì)視頻感知質(zhì)量的影響.此類(lèi)方法以公認(rèn)的觀念為基礎(chǔ),著重強(qiáng)調(diào)時(shí)間維度質(zhì)量差的幀的影響.常見(jiàn)的有百分?jǐn)?shù)池化[15]和視頻質(zhì)量池化(video quality pooling,VQpooling)[16].其中VQpooling是一種自適應(yīng)的空間和時(shí)間池化策略.對(duì)于時(shí)間池化策略而言,其根據(jù)分?jǐn)?shù)采用k均值聚類(lèi)將視頻幀分為高質(zhì)量GH和低質(zhì)量GL兩組,然后采用
(2)
合并得到視頻最終分?jǐn)?shù).式中:|GL|和|GH|分別是GL和GH的基數(shù);權(quán)重占比ω=(1-ML/MH)2,ML和MH分別是集合GL和GH中分?jǐn)?shù)的平均值.
3) 考慮記憶效應(yīng)對(duì)視頻感知質(zhì)量的影響.由于視頻的最終接受者是用戶(hù),對(duì)于用戶(hù)記憶效應(yīng)的考慮也是感知質(zhì)量度量的重要方面.常見(jiàn)的有時(shí)間磁滯池化(temporal hysteresis pooling,THpooling)[12]、首因效應(yīng)和近因效應(yīng)[17].其中THpooling是受用戶(hù)對(duì)時(shí)變視頻質(zhì)量的判斷中觀察到的磁滯效應(yīng)啟發(fā)而來(lái).將用戶(hù)在第n幀對(duì)過(guò)去的質(zhì)量的記憶ln表示為過(guò)去視頻幀分?jǐn)?shù)的最小值,即
(3)
式中κprev={max(1,n-τ),…,n-2,n-1}表示要考慮的視頻幀的索引,τ是一個(gè)超參數(shù).對(duì)于當(dāng)前的質(zhì)量記憶mn表示為
(4)
式中:κnext={n,n+1,…,min(n+τ,N)}表示要考慮的視頻幀索引;ωj表示高斯加權(quán)函數(shù)的下降部分;vj表示v=sort({qk},k∈Knext)的第j幀.最后,將記憶質(zhì)量與當(dāng)前質(zhì)量合并,得到包含磁滯效應(yīng)的實(shí)際質(zhì)量,并采用簡(jiǎn)單平均池化得到視頻最終分?jǐn)?shù).
q′n=αmn+(1-α)ln
(5)
(6)
式中:q′n為包含磁滯效應(yīng)的第n幀的幀分?jǐn)?shù);α為超參數(shù),用于平衡當(dāng)前質(zhì)量和記憶質(zhì)量的權(quán)重.
時(shí)間池化策略可以有效地將視頻幀分?jǐn)?shù)聚合為視頻分?jǐn)?shù),但是現(xiàn)在常用的時(shí)間池化方法都只是針對(duì)某一種時(shí)間感知效應(yīng)所設(shè)計(jì)的.文獻(xiàn)[18]將多種池化方式結(jié)合起來(lái)使用,充分發(fā)揮各種池化方法的優(yōu)勢(shì),取得了比單一時(shí)間池化方式更好的結(jié)果.
本文采用“幀級(jí)得分預(yù)測(cè)+時(shí)間池化聚合”的方式建立無(wú)參考VMAF模型,整體結(jié)構(gòu)如圖1所示.建模過(guò)程包括2個(gè)核心部分:首先,采用一種基于多模雙線(xiàn)性池化的CNN結(jié)構(gòu),用于建立幀級(jí)的無(wú)參考VMAF評(píng)價(jià)模型,在無(wú)參考視頻信息的情況下,可以對(duì)失真視頻幀的VMAF分?jǐn)?shù)進(jìn)行預(yù)測(cè);然后,采用3種不同的時(shí)間池化方法對(duì)失真視頻幀的VMAF預(yù)測(cè)分?jǐn)?shù)進(jìn)行聚合,得到視頻的質(zhì)量特征向量;最后,采用NuSVR對(duì)質(zhì)量特征向量進(jìn)行回歸,得到失真視頻的VMAF預(yù)測(cè)模型.下面將分別介紹2個(gè)部分的實(shí)現(xiàn)細(xì)節(jié).
圖1 提出的無(wú)參考VMAF預(yù)測(cè)模型整體框架Fig.1 Overall framework of proposed no-reference VMAF prediction model
本文采用一種基于多模雙線(xiàn)性池化的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)建立幀級(jí)VMAF分?jǐn)?shù)預(yù)測(cè)模型,如圖1中步驟1所示.網(wǎng)絡(luò)的輸入是失真視頻幀,輸出則是該視頻幀的VMAF預(yù)測(cè)分?jǐn)?shù).通過(guò)訓(xùn)練該網(wǎng)絡(luò)可以建立失真視頻幀與該幀VMAF預(yù)測(cè)分?jǐn)?shù)之間的映射模型,從而在無(wú)需參考視頻信息的情況下,對(duì)失真視頻幀的VMAF分?jǐn)?shù)進(jìn)行預(yù)測(cè).其中整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)包括VGG-16[19]和SCNN兩個(gè)CNN,2個(gè)網(wǎng)絡(luò)的層數(shù)分別是16層和14層.失真視頻幀分別被送入2個(gè)網(wǎng)絡(luò)中,將每個(gè)網(wǎng)絡(luò)最后一個(gè)卷積層的輸出特征提取出來(lái),并將SCNN的輸出進(jìn)行上采樣到與VGG-16的輸出具有相同的尺寸,然后采用多模雙線(xiàn)性池化將2個(gè)特征進(jìn)行融合,作為失真視頻幀的深度特征.
假設(shè)采用VGG-16和SCNN提取的失真視頻幀I在位置l處的2個(gè)特征分別為fA(l,I)和fB(l,I),雙線(xiàn)性池化過(guò)程就是先把同一位置l處的2個(gè)特征進(jìn)行雙線(xiàn)性融合(相乘)后,得到矩陣
(7)
對(duì)所有位置的b(l,I)進(jìn)行Sum pooling操作,得到矩陣
(8)
最后把矩陣ξ(I)張成一個(gè)向量,表示為
x=vec(ξ(I))
(9)
對(duì)x進(jìn)行矩歸一化和L2歸一化操作,得到融合后的特征
(10)
z=y/‖y‖2
(11)
眾所周知,在處理復(fù)雜任務(wù)時(shí),DNN的層數(shù)越多,則往往性能越好,但這是以大規(guī)模的訓(xùn)練樣本數(shù)據(jù)作為支撐的.如果訓(xùn)練數(shù)據(jù)集的規(guī)模不足,在訓(xùn)練層數(shù)較多的DNN時(shí)常會(huì)出現(xiàn)過(guò)擬合現(xiàn)象,導(dǎo)致網(wǎng)絡(luò)性能難以令人滿(mǎn)意,而輕型CNN的結(jié)構(gòu)簡(jiǎn)單,但是特征提取表達(dá)能力往往不足.
考慮到本文自建的數(shù)據(jù)集規(guī)模有限,本文采用一種基于多模雙線(xiàn)性池化的CNN結(jié)構(gòu),可以充分利用2個(gè)輕型CNN提取的特征,獲得更具表達(dá)能力的深度特征.雙線(xiàn)性池化融合后的特征z進(jìn)一步用于回歸操作,建立無(wú)參考VMAF模型.
本文采用“預(yù)訓(xùn)練+微調(diào)”的方式對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練.其中,VGG-16在ImageNet數(shù)據(jù)集[20]上進(jìn)行預(yù)訓(xùn)練,SCNN則采用Waterloo Exploration數(shù)據(jù)集[21]和PASCAL VOC數(shù)據(jù)集[22]合并的數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練.SCNN的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示.整個(gè)網(wǎng)絡(luò)共有14層,包括9個(gè)卷積層、1個(gè)池化層、3個(gè)全連接層和1個(gè)Softmax層,并且9個(gè)卷積層均使用了3×3的卷積核尺寸.
圖2 SCNN網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure of SCNN network
為了對(duì)模型參數(shù)進(jìn)行微調(diào),本文采集了大量的數(shù)據(jù),自行建立了VMAF數(shù)據(jù)集.首先,利用失真視頻和相應(yīng)的原始參考視頻獲得各個(gè)失真視頻幀以及整個(gè)視頻的VMAF真實(shí)分?jǐn)?shù).然后,將失真視頻幀和相應(yīng)的VMAF真實(shí)分?jǐn)?shù)一一對(duì)應(yīng),作為一個(gè)訓(xùn)練樣本對(duì),構(gòu)成訓(xùn)練數(shù)據(jù)集.利用該數(shù)據(jù)集對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行微調(diào),得到優(yōu)化后的網(wǎng)絡(luò)模型.
在對(duì)失真視頻幀進(jìn)行預(yù)測(cè)時(shí),將失真視頻幀輸入到訓(xùn)練好的網(wǎng)絡(luò)中,輸出即為該幀的VMAF預(yù)測(cè)分?jǐn)?shù).這樣,在無(wú)需參考視頻信息的情況下,就可以對(duì)失真視頻幀的VMAF分?jǐn)?shù)進(jìn)行預(yù)測(cè),得到一種無(wú)參考的VMAF打分模型.
現(xiàn)有的一些對(duì)于視頻幀分?jǐn)?shù)進(jìn)行時(shí)間池化的方法都是通過(guò)統(tǒng)計(jì)數(shù)據(jù)或先驗(yàn)知識(shí)驅(qū)動(dòng)的,有多種實(shí)現(xiàn)方式,并且不同的方法可能會(huì)捕獲到視頻中包含的不同信息.比如:Mpooling用于對(duì)視頻幀的質(zhì)量進(jìn)行平均;VQpooling考慮了質(zhì)量比較差的視頻幀對(duì)視頻整體分?jǐn)?shù)的影響;THpooling則考慮的是用戶(hù)在觀看視頻時(shí)出現(xiàn)的磁滯效應(yīng)等.可以預(yù)期的是不同的池化方法具有不同的性能,在不同的數(shù)據(jù)集上的表現(xiàn)也會(huì)有所差異,不同的池化結(jié)果之間具有一定的互補(bǔ)性.因此,如圖1中步驟2所示,本文將各個(gè)失真視頻幀的VMAF預(yù)測(cè)分?jǐn)?shù)分別采用3種時(shí)間池化方法進(jìn)行聚合,將結(jié)果合并后形成一個(gè)質(zhì)量特征向量,然后利用NuSVR建立該特征向量與視頻VMAF分?jǐn)?shù)之間的回歸模型,用于對(duì)視頻的VMAF分?jǐn)?shù)進(jìn)行預(yù)測(cè).
質(zhì)量特征向量的構(gòu)建可以表示為
F=C(q1,q2,q3)
(12)
式中:C表示concat級(jí)聯(lián)操作;q1、q2、q3分別表示采用不同時(shí)間池化方法對(duì)失真視頻幀進(jìn)行處理得到的結(jié)果.
Mpooling、VQpooling和THpooling分別針對(duì)視頻幀質(zhì)量的波動(dòng)程度、較差的視頻幀對(duì)整體質(zhì)量的影響和用戶(hù)觀看視頻時(shí)出現(xiàn)的磁滯效應(yīng)等因素進(jìn)行表征,因此,F(xiàn)可以看作是對(duì)失真視頻的質(zhì)量進(jìn)行表達(dá).接下來(lái),本文采用NuSVR建立質(zhì)量特征向量F和視頻VMAF預(yù)測(cè)分?jǐn)?shù)之間的回歸模型,用于對(duì)失真視頻的VMAF分?jǐn)?shù)進(jìn)行預(yù)測(cè).
NuSVR[23]是支持向量機(jī)(support vector machines,SVM)中的一種回歸模型.對(duì)于給定的失真視頻集合{(xi,yi),i=1,2,…,n},其中:n為失真視頻的數(shù)量;xi表示輸入的每個(gè)失真視頻的質(zhì)量特征向量;yi表示每個(gè)視頻的真實(shí)的VMAF分?jǐn)?shù).在實(shí)際操作中,NuSVR的優(yōu)化問(wèn)題可以轉(zhuǎn)變?yōu)橐粋€(gè)拉格朗日函數(shù)的鞍點(diǎn)求解問(wèn)題,具體表述為
(13)
式中:k(xi,xj)為徑向基核函數(shù);c為懲罰變量;v用于控制支持向量數(shù)量和訓(xùn)練誤差.上述問(wèn)題的最優(yōu)解α、α*和相應(yīng)的偏置項(xiàng)b,可以用于預(yù)測(cè)視頻的VMAF分?jǐn)?shù).對(duì)于輸入的視頻質(zhì)量特征X,VMAF的預(yù)測(cè)分?jǐn)?shù)可以由
(14)
計(jì)算獲得.
為了驗(yàn)證所提出的無(wú)參考VMAF視頻質(zhì)量評(píng)價(jià)模型的有效性,本文在2個(gè)公開(kāi)的視頻數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),即WaterlooSQoE-Ⅲ數(shù)據(jù)集[24]和LIVE-NFLX-Ⅱ數(shù)據(jù)集[25].WaterlooSQoE-Ⅲ數(shù)據(jù)集包含20個(gè)原始高質(zhì)量視頻,其內(nèi)容包括人物、植物、自然風(fēng)光等不同類(lèi)型.這些視頻以11個(gè)固定碼率進(jìn)行編碼,在6種自適應(yīng)碼率算法和13種具有代表性的網(wǎng)絡(luò)環(huán)境下生成了450個(gè)失真視頻.LIVE-NFLX-Ⅱ數(shù)據(jù)集則包含紀(jì)錄片、動(dòng)畫(huà)、游戲等15個(gè)不同類(lèi)型的原始視頻.原始視頻根據(jù)內(nèi)容驅(qū)動(dòng)的動(dòng)態(tài)優(yōu)化器進(jìn)行碼率編碼,在4種客戶(hù)端碼率自適應(yīng)算法和7種不同移動(dòng)網(wǎng)絡(luò)條件下生成了420個(gè)失真視頻.利用數(shù)據(jù)集中的失真視頻和原始參考視頻,分別計(jì)算各個(gè)視頻幀和視頻的VMAF真實(shí)分?jǐn)?shù),構(gòu)建VMAF數(shù)據(jù)集,用于進(jìn)行模型性能的驗(yàn)證.
為了評(píng)估模型的性能,采用2個(gè)評(píng)估指標(biāo):皮爾森線(xiàn)性相關(guān)系數(shù)(Pearson’s linear correlation coefficient,PLCC)和斯皮爾曼秩相關(guān)系數(shù)(Spearman rank-order correlation coefficient,SROCC).采用PLCC表示預(yù)測(cè)精度,采用SROCC評(píng)估預(yù)測(cè)單調(diào)性.2個(gè)指標(biāo)的數(shù)值越高,則表示模型的預(yù)測(cè)性能越好,具體的計(jì)算公式分別為
(15)
(16)
本文方法包括失真視頻幀級(jí)VMAF分?jǐn)?shù)預(yù)測(cè)和視頻級(jí)VMAF分?jǐn)?shù)預(yù)測(cè)2個(gè)部分.2個(gè)部分訓(xùn)練時(shí)采用的參數(shù)如下:1) 在失真視頻幀級(jí)VMAF分?jǐn)?shù)預(yù)測(cè)階段,為了獲取更優(yōu)越的性能,本文采用自建的VMAF數(shù)據(jù)集對(duì)網(wǎng)絡(luò)進(jìn)行了微調(diào).在微調(diào)過(guò)程中,初始學(xué)習(xí)率設(shè)置為1×10-3,訓(xùn)練批次為64,迭代次數(shù)為50.2) 在視頻級(jí)VAMF分?jǐn)?shù)預(yù)測(cè)階段,為了訓(xùn)練NuSVR回歸模型,將失真視頻數(shù)據(jù)集隨機(jī)切分為2個(gè)子集,其中,80%用于訓(xùn)練,20%用于測(cè)試.采用了Mpooling、VQpooling和THpooling三種池化方法獲取視頻的質(zhì)量特征向量,用于建立無(wú)參考VMAF模型.
為了研究不同的時(shí)間池化方法對(duì)建模精度的影響,本文分別對(duì)Mpooling、VQpooling和THpooling三種時(shí)間池化方法進(jìn)行了對(duì)比實(shí)驗(yàn),如表1所示,可以看出:
1) 對(duì)于3種時(shí)間池化方法來(lái)說(shuō),在2個(gè)數(shù)據(jù)集上,Mpooling均可以獲得最優(yōu)的性能,這與數(shù)據(jù)集中大多數(shù)視頻的質(zhì)量波動(dòng)不太劇烈有關(guān).
2) 與采用單一的時(shí)間池化方法相比,采用3種時(shí)間池化方法相結(jié)合的方式可以獲得更優(yōu)的性能,這也說(shuō)明3種池化方法結(jié)合起來(lái)可以實(shí)現(xiàn)信息互補(bǔ).
3) 3種池化方法的結(jié)果在WaterlooSQoE-Ⅲ數(shù)據(jù)集上的準(zhǔn)確度低于在LIVE-NFLX-Ⅱ數(shù)據(jù)集上的結(jié)果,其原因是WaterlooSQoE-Ⅲ數(shù)據(jù)集中視頻的失真模式更加復(fù)雜.
4) 首先,不同的時(shí)間池化方法會(huì)捕獲到視頻中包含的不同信息;其次,VSROCC衡量的是預(yù)測(cè)分?jǐn)?shù)和真實(shí)分?jǐn)?shù)的秩序相關(guān)性,并不表示預(yù)測(cè)的準(zhǔn)確度.在WaterlooSQoE-Ⅲ數(shù)據(jù)集上之所以采用Mpooling獲得的VSROCC略?xún)?yōu)于合并模型,原因在于該數(shù)據(jù)集中的視頻失真模式復(fù)雜,視頻分?jǐn)?shù)分布范圍大,更容易預(yù)測(cè)視頻的秩序相關(guān)性,因此,可以獲得最高的VSROCC,此時(shí),在合并的模型中VQpooling和THpooling補(bǔ)充的信息不足以繼續(xù)提升預(yù)測(cè)結(jié)果的VSROCC,更多地是提升預(yù)測(cè)結(jié)果的準(zhǔn)確度VPLCC.可以看到,在2個(gè)數(shù)據(jù)集上合并模型的VSROCC相比于Mpooling分別提升了-0.01%和0.01%,而準(zhǔn)確度指標(biāo)VPLCC分別提升了2.01%和0.75%.
由表1可知,在3種池化方法中Mpooling可以獲得最優(yōu)的性能,這表明Mpooling適用于大多數(shù)情況.為了證明在合并模型中VQpooling和THpooling會(huì)對(duì)Mpooling方法有補(bǔ)充作用,給出了單獨(dú)采用3種時(shí)間池化方法在2個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,如圖3、4所示.可以看出,在失真視頻的真實(shí)VMAF分?jǐn)?shù)低于40時(shí),VQpooling或THpooling可以獲得比Mpooling更好的性能.這是由于在視頻質(zhì)量較差時(shí),VQpooling僅考慮了質(zhì)量較差的幀的影響,THpooling僅考慮了用戶(hù)觀看視頻時(shí)的記憶效應(yīng),而Mpooling則沒(méi)有對(duì)視頻中質(zhì)量較差幀的影響予以考慮.
表1 不同時(shí)間池化方法的性能比較Table 1 Performance comparison of different temporal pooling methods
圖3 3種池化方法在WaterlooSQoE-Ⅲ數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Fig.3 Experimental results of three pooling methods on the WaterlooSQoE-Ⅲ dataset
圖4 3種池化方法在LIVE-NFLX-Ⅱ數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Fig.4 Experimental results of three pooling methods on the LIVE-NFLX-Ⅱ dataset
為了驗(yàn)證不同建模方法對(duì)模型精度的影響,本文分別采用決策樹(shù)、NuSVR等8種淺層機(jī)器學(xué)習(xí)方法進(jìn)行建模,其中質(zhì)量特征向量是通過(guò)采用3種時(shí)間池化方法相結(jié)合的方式得到的.實(shí)驗(yàn)對(duì)比結(jié)果如表2所示.
由表2可以看出,在WaterlooSQoE-Ⅲ數(shù)據(jù)集上,采用NuSVR可以得到更優(yōu)的性能,而在LIVE-NFLX-Ⅱ數(shù)據(jù)集上,采用隨機(jī)森林進(jìn)行建??梢缘玫礁鼉?yōu)的性能,這在一定程度上與2個(gè)數(shù)據(jù)集包含不同的失真模式相關(guān).折中考慮,本文選擇NuSVR作為建模方法.在WaterlooSQoE-Ⅲ數(shù)據(jù)集上VPLCC和VSROCC分別達(dá)到了91.11%、93.33%,在LIVE-NFLX-Ⅱ數(shù)據(jù)集上分別達(dá)到92.64%、91.33%.實(shí)驗(yàn)結(jié)果充分說(shuō)明,本文提出的無(wú)參考VMAF模型可以獲得較高的預(yù)測(cè)精度.
表2 不同建模方法的模型精度對(duì)比Table 2 Comparison of model accuracy of different modeling methods
1) 提出了一種基于“幀級(jí)得分預(yù)測(cè)+視頻級(jí)時(shí)間池化聚合”的無(wú)參考VMAF預(yù)測(cè)模型.首先,采用一種基于多模雙線(xiàn)性池化的CNN結(jié)構(gòu),用于對(duì)視頻幀的無(wú)參考VMAF得分進(jìn)行預(yù)測(cè);然后,分別采用3種時(shí)間池化方法對(duì)視頻幀分?jǐn)?shù)進(jìn)行聚合,得到視頻的質(zhì)量特征向量;最后,采用NuSVR對(duì)質(zhì)量特征向量進(jìn)行回歸.
2) 在實(shí)際應(yīng)用中,由于很難獲取原始視頻的信息,而提出的模型不需要原始視頻信息就可以預(yù)測(cè)出視頻的VMAF分?jǐn)?shù),因此,具有重要的應(yīng)用價(jià)值.實(shí)驗(yàn)結(jié)果表明,本文提出的模型可以獲得較高的預(yù)測(cè)精度.
3) 在QoE建模過(guò)程中,視頻的質(zhì)量是一個(gè)重要的影響因素.因此,在下一步的工作中,將嘗試把無(wú)參考的VMAF模型應(yīng)用于QoE建模,進(jìn)而評(píng)估用戶(hù)觀看視頻的主觀感受體驗(yàn).
北京工業(yè)大學(xué)學(xué)報(bào)2022年7期