多特征融合的視頻鏡頭分割*

2018-07-26 10:08:40辛可嘉

電訊技術 2018年7期

來毅**,2，辛可嘉，劉穎

(1.西安郵電大學通信與信息工程學院,西安 710121；2.中國科學院光譜成像技術重點實驗室,西安 710119)

1 引言

隨著視頻采集設備的廣泛應用，視頻數(shù)量呈爆炸性增長，如何快速有效地從海量視頻數(shù)據中找到用戶感興趣的視頻內容，是視頻深度應用中急需解決的主要難題之一[1]。鏡頭是指視頻中兩個剪接點之間的片段，即沒有場景變化的一段連續(xù)畫面，其內容通常具有很高的相似性。鏡頭變換有突變和漸變兩種類型。突變時，鏡頭直接切換到下一個鏡頭，視頻內容差異明顯，易于檢測。漸變則是前一個鏡頭的尾幀緩慢地被下一個鏡頭的首幀所代替，是一個持續(xù)多幀的變化過程。漸變時幀間差異變化緩慢，致使?jié)u變鏡頭難以準確檢出，導致漸變鏡頭漏檢。鏡頭分割，又稱鏡頭邊界檢測，其目的是準確找出視頻序列中相鄰兩個鏡頭的邊界。鏡頭分割對于視頻檢索、快速瀏覽和高效壓縮等多種應用具有重要研究意義和實際應用價值[2]。

國內外許多學者對鏡頭分割技術進行了大量探索和研究，在這方面已取得了不錯的成績，提出了不少關于視頻鏡頭分割的算法[3-14]。Gao等[8]實現(xiàn)了一種新聞視頻解析系統(tǒng)，該系統(tǒng)包含兩個重要內容：一是通過無人值守的模糊c均值聚類算法來檢測鏡頭邊界，實現(xiàn)新聞視頻的鏡頭分割；二是利用Graph-Theoretical聚類分析算法，將新聞視頻鏡頭劃分為新聞消息鏡頭和節(jié)目主持人預告鏡頭。Biswas等[9]聯(lián)合局部相似度和全局特征，采用矩陣余弦相似度的方法檢測鏡頭邊界。Grana等[10]提出了一種基于線性模型的兩步法實現(xiàn)鏡頭分割，即第一步搜索鏡頭中心位置，第二步則確定鏡頭長度。Mohanta等[11]利用基于局部特征的幀過渡參數(shù)和幀估計錯誤，實現(xiàn)鏡頭分割，該算法較少依賴于用戶設置的參數(shù)，具有較好的魯棒性。熊偉等[12]使用線性遍歷的方法對視頻內容進行粗鏡頭劃分，通過比對每一個邊界序列相鄰碎片序列內容的相似度，對粗劃分的內容進行合并，從而實現(xiàn)了用線性方法同時解決突變類鏡頭切換和漸變類鏡頭切換的鏡頭分割問題。王娟等[13]把鏡頭邊界作為候選故事邊界，采用鏡頭分割和鏡頭標定對原始視頻進行劃分。于俊清等[14]通過構造回放因子特征，改進了情感激勵模型的事件檢測性能，實現(xiàn)了足球視頻精彩鏡頭的邊界檢測。唐劍琪等[15]根據相鄰圖像幀之間ORB(Oriented Fast and Rotated BRIEF)描述子的匹配程度來實現(xiàn)鏡頭分割，如果相鄰幀ORB描述子匹配程度很小，則此相鄰兩幀所在處即為鏡頭邊界。

雖然上述算法在鏡頭分割方面取得了較大進步，但在實際應用時，效果往往并不理想，比如會引起鏡頭邊界漏檢等問題，主要原因有兩方面：一方面，閃光會造成視頻底層特征的變化，引起幀間差異度產生巨變，容易造成與鏡頭切變的混淆；另一方面，對于持續(xù)時間長的漸變，會因為幀間差異變化緩慢而造成漏檢。為此，本文提出了多特征融合的視頻鏡頭分割算法。算法的主要思想是通過建立一種優(yōu)化模型，融合空間差異度量和感知哈希度量兩種重要視頻特征，形成一種更加有效的鏡頭分割特征——像素差異度量；然后結合直方圖差異度量，可有效判斷是否發(fā)生鏡頭切換。實驗結果表明，與兩種傳統(tǒng)鏡頭邊界檢測法相比較，本文方法取得了較好的檢測效果，且具有較強的魯棒性。

2 鏡頭分割相關特征

2.1 直方圖差異度量

圖像直方圖是對一副圖像所有灰度值的整體描述，可提供原圖的灰度值分布情況。本文采用相鄰兩幀圖像直方圖的相似度作為兩幀圖像間的差異度，以此來判斷是否發(fā)生鏡頭切換。直方圖差異度量(Histogram Difference Metric,HDM)是一種衡量直方圖相似度的常用方法。視頻第t幀的HDM定義如下：

(1)

(2)

式中：ft是輸入序列的第t幀，ft+1是輸入序列的第t+1幀；Ht(k)是輸入序列第t幀的直方圖，Ht+1(k)是第t+1幀的直方圖；L是視頻圖像直方圖中顏色等級的數(shù)目。dHDM值介于0和1之間，越接近于1，兩幀圖像的直方圖相似度越大，相似度越高；越接近0，相似度越低。

通過HDM可衡量視頻兩幀間的相似度。圖1(a)給出了一段電影視頻的HDM曲線圖，其中橫坐標表示視頻幀數(shù)，縱坐標是該視頻對應的幀間HDM。從圖1(a)可以清晰看出，在整個序列中共有4個谷值，其他地方基本趨近于1。HDM表示直方圖的相似度，該值越趨近于1，相似度越高。4個谷值是相似度比較低的部分，可能是鏡頭邊界。采用HDM來度量兩幀圖像間的相似度，基本可滿足鏡頭變換的判斷。但對于結構不同而直方圖相似的情況，這種僅僅依靠HDM分割的效果不佳，因此在下節(jié)介紹另外一種鏡頭分割特征。

(a)直方圖差異度量HDM

(b)空間差異度量SDM

(c)感知哈希度量PHM圖1 一段電影視頻序列鏡頭分割相關特征Fig.1 Related features for shot segmentation of a movie video sequence

2.2 空間差異度量

空間差異度量(Spatial Difference Metric，SDM)最初應用于視頻鏡頭分割[8]，該特征可準確刻畫視頻相鄰兩幀間像素強度變化情況。具體而言，就是通過統(tǒng)計當前幀與參考幀間對應像素點差值不為零像素點的個數(shù)，以描述視頻相鄰兩幀內容的相似程度。此值越小，說明這兩幀圖像越相似。視頻第t幀的SDM定義如下：

(3)

(4)

式中：Ii,j(ft)和Ii,j(ft+1)分別是視頻第ft幀和第ft+1幀在位置(i,j)處的像素值，W和H分別為視頻的寬和高。dSDM可用來衡量兩幀圖像的相似度。通過將兩幀圖像相等時差異置0，而不等時置1，得到1的個數(shù)就是兩幀圖像像素值不相等的個數(shù)，最后進行歸一化，得到兩幀圖像的空間相似度。dSDM值介于0和1之間，越接近于1，兩幀視頻內容相似度越小，差異度越大；越接近0，相似度越大，差異度越小。

圖1(b)給出了一段電影視頻的SDM曲線圖，其中橫坐標表示視頻幀數(shù)，縱坐標是該視頻對應的幀間SDM。從圖1(b)可以看出，大部分地方兩幀之間相似度集中在某個值附近，而在某些地方兩幀圖像間的dSDM突然變高。由鏡頭的定義可知，同一鏡頭的內容有高度的相似性，而如果差異度明顯升高，則該時刻有可能就是鏡頭邊界。另外在序列的第300～500幀之間沒有陡然的變化，但其dSDM的值也居高不下。這就說明僅僅依靠dSDM來判斷鏡頭邊界，可能會有比較大的誤差，因此將在下節(jié)介紹本文所采用的第三種鏡頭分割特征。

2.3 感知哈希度量

SDM通常會受到光線影響，因此單純采用SDM進行鏡頭分割，通常會產生較大誤差。本文采用感知哈希度量(Perceptual Hashing Metric,PHM)，即先利用感知哈希算法[16]對圖像進行編碼，然后通過計算漢明距離(Hamming Distance,HMD)，以比較相鄰兩幀圖像的編碼字符串，結果越接近，則圖像內容就越相似。具體步驟如下：

Step1 縮小圖像尺寸為M×N。對于圖像進行縮放處理，以去除圖像的細節(jié)信息，只保留結構明暗等信息。

Step2 簡化圖像的色彩度。將縮小的圖像轉化為灰度值，以此減小色度對于圖像匹配的影響。

Step3 計算圖像像素的平均值。遍歷縮放后的整幅圖像，計算其像素的平均值，即

(5)

式中：Gi,j(ft)是Step 2得到的灰度視頻第ft幀在位置(i,j)處的像素值，M和N分別為Step 1中視頻縮小后所得到塊的寬和高。

Step4 對圖像進行編碼。將每個像素點的值和整幅圖像的像素平均值進行逐一比較，大于平均值則置1，否則置0，即

(6)

Step5 計算漢明距離。將編碼的數(shù)值按照相同次序進行排列，利用漢明距離來比較兩幅圖像的相似度，即

(7)

式中：⊕表示異或運算，hi,j(ft)和hi,j(ft+1)分別表示第ft幀和第ft+1幀圖像特征碼在位置(i,j)處的碼字。當hi,j(ft)和hi,j(ft+1)對應的比特位不同時，則計算結果為1；當hi,j(ft)和hi,j(ft+1)對應的比特位相同時，則計算結果為0。

該特征計算方法原理簡單，易于實現(xiàn)，可快速判斷兩幀圖像的相似度。圖1(c)給出了一段電影視頻的PHM曲線圖，橫坐標表示視頻幀數(shù)，縱坐標是視頻的幀間PHM值。PHM可衡量兩幀視頻內容的相似度，當PHM大于某個值時，則認為兩幅圖不相似而發(fā)生了鏡頭切換。

3 多特征融合的視頻鏡頭分割算法

SDM只考慮了像素強度的相似性，因此容易受到運動光線等因素影響，從而導致鏡頭分割錯誤。而PHM則是通過對感知哈希編碼后的特征碼計算其漢明距離，這在一定程度上可減少外界因素對其影響。因此，為了有效提高鏡頭分割的準確率，增強鏡頭分割特征對于鏡頭邊界的區(qū)分能力，本文結合這兩種鏡頭分割特征的優(yōu)點，通過將SDM和PHM兩種鏡頭分割特征進行線性優(yōu)化融合，提出一種新的鏡頭分割綜合衡量指標——像素差異度量(Pixel Difference Metric,PDM)。通過大量試驗觀察分析發(fā)現(xiàn)，SDM和PHM分別單獨進行邊界檢測的結果只要進行線性加強，則基本能反映出視頻鏡頭邊界的真實位置。因此，本文建立如下PDM特征模型：

dPDM(ft,ft+1)=dSDM(ft,ft+1)+dPHM(ft,ft+1) 。

(8)

dPDM值介于0和1之間，越接近于1，說明兩幀視頻內容差異度越大；越接近0，則差異度越小。

圖2給出了一段電影視頻的PDM曲線圖，其中橫坐標表示視頻幀數(shù)，縱坐標是視頻的幀間PDM值，而該值則是根據式(8)所計算出來的。

圖2 一段電影視頻的PDMFig.2 PDM of a movie video sequence

由圖2可知，雖然PDM在很多地方有密集不明顯的陡變，但波動較小，在其大于某個值時，幾乎和HDM對于鏡頭邊界有相同的判斷。然而，如果只利用PDM進行視頻邊界檢測，仍然會出現(xiàn)檢測效果不理想的情況。因此，為了更加有效地檢測鏡頭邊界，本文綜合利用PDM和HDM兩種視頻特征，提出了如下的鏡頭邊界檢測模型：

(9)

式中：dPDM(ft,ft+1)是由式(8)所得到的像素差異度量，dHDM(ft,ft+1)是由式(1)所得到的直方圖差異度量。T和K是固定閾值，實驗中通過統(tǒng)計得到，取T=1.0，K=0.98。由式(9)可知，當HDM小于某個值，且PDM大于某個值時，即可認為發(fā)生了鏡頭切換。

4 實驗結果與分析

為了驗證所提出鏡頭分割算法的有效性，本文采用多種不同性質的視頻序列分別對算法進行測試。實驗中所采用的測試視頻來自于電影片段、新聞視頻和宣傳視頻。其中電影視頻共41 400幀，分辨率是1 280 pixel×720 pixel，幀率是23 frame/s；新聞視頻共37 500幀，分辨率是1 024 pixel×576 pixel，幀率是25 frame/s；宣傳視頻共18 000幀，分辨率是672 pixel×378 pixel，幀率是25 frame/s。

為了評估算法檢測鏡頭邊界結果的好壞，分別采用查全率Rrecall、查準率Rprecision和綜合指標F等指標[17]進行評價，以衡量算法在鏡頭檢測上的優(yōu)劣。其定義分別如下：

(10)

(11)

(12)

式中：Nc是正確檢測的鏡頭數(shù)，Nm是漏檢的鏡頭數(shù)，Nf是誤檢的鏡頭數(shù)?；赗recall、Rprecision和F等性能指標，將所提出的算法與文獻[10]、文獻[12]和文獻[13]進行比較。

表1給出了本文算法及其他3種對比算法在電影片段、新聞視頻和宣傳視頻的測試結果。由表1中對電影視頻的測試結果可以看出，本文算法的查全率和查準率分別為78.9%和92.3%，高于其他3種對比算法。這是由于文獻[10]中搜索鏡頭中心位置的準確性較大地影響了鏡頭分割結果，因此其鏡頭分割結果不能令人滿意;文獻[12]在計算雙向幀距離模型時，只簡單采用了歐氏距離進行度量，無法適應視頻內容和結構的復雜化，因此鏡頭邊界檢測準確率不高;文獻[13]只考慮了視頻幀全局特征，采用直方圖比較法和模板匹配法進行鏡頭分割，導致分割算法性能不甚理想。本文提出通過融合直方圖差異度量、空間差異度量和感知哈希度量等3種視頻特征進行鏡頭有效分割，實現(xiàn)了視頻幀間相似度的準確度量，從而可比較正確地判斷是否發(fā)生鏡頭切換。新聞和宣傳也有類似的實驗結果。從表1的查全率和查準率等指標可知，在對3種不同性質的視頻進行鏡頭分割中，本文算法的鏡頭邊界檢測性能都優(yōu)于其他3種傳統(tǒng)算法，可更加有效檢測鏡頭邊界。

表1 電影、新聞、宣傳視頻鏡頭分割結果比較Tab.1 Comparison of shot segmentation results for a movie,news,campaign video sequence

5 結束語

鏡頭分割是計算機視覺研究領域的一個熱點和難點問題,傳統(tǒng)視頻鏡頭分割技術存在鏡頭易漏檢或過檢、分割效果較差等不足。為此，本文提出一種多特征融合的視頻鏡頭分割算法。算法主要思想是通過建立一種優(yōu)化模型，融合空間差異度量和感知哈希度量兩種重要特征，形成像素差異度量，然后結合直方圖差異度量，構建高效的鏡頭邊界檢測策略，實現(xiàn)鏡頭邊界的有效檢測。在3種不同性質序列上的對比實驗結果證明了本文算法的有效性和可靠性。在后續(xù)工作中，將進一步研究更加有效的鏡頭分割特征。此外，本文是對非壓縮的視頻序列進行鏡頭分割，如何針對壓縮視頻進行鏡頭邊界檢測也將是需要進一步探索的問題之一。