【摘 要】本文在建立HSV模型的直方圖的基礎(chǔ)上,通過量化來表示視頻幀的特征,并計算幀間相似度。提出了一種結(jié)合滑動窗口的自適應(yīng)雙閾值法,來檢測視頻的鏡頭分割。實驗證明該方法能夠充分適應(yīng)視頻幀變化,在進(jìn)行視頻分割時取得了較好的效果。
【關(guān)鍵詞】鏡頭分割、自適應(yīng)雙閾值、Hsv模型
1引言
隨著信息技術(shù)的飛速發(fā)展,媒體技術(shù)得到廣泛應(yīng)用,視頻數(shù)據(jù)大量涌現(xiàn)。如何對這些海量信息進(jìn)行有效的管理和檢索已成為一項重要的研究課題。 鏡頭分割是基于內(nèi)容的視頻摘要技術(shù)、視頻檢索的的關(guān)鍵技術(shù)。
視頻是是一個具有超強時間結(jié)構(gòu)性的特點的圖像序列的集合。一般我們以鏡頭作為視頻的基本單位,它由攝像機(jī)不間斷拍攝的一組幀序列組成,幀就是視頻中的一副圖像。由于視頻剪輯手法的多樣性,這樣產(chǎn)生了多種鏡頭切換方式,突變和漸變便是鏡頭切換的兩種基本類型。突變是指一個鏡頭與下一個鏡頭之間沒有過渡,直接切換;漸變則加入了一些視頻編輯特效,由一個鏡頭漸漸轉(zhuǎn)變?yōu)楹罄m(xù)鏡頭。漸變包括淡入淡出、溶解、劃變等。鏡頭分割的基本任務(wù)就是要檢測出采用了各種編輯技巧的視頻中鏡頭切換的位置,并分解視頻。
一般來說,鏡頭切換時,相鄰的圖像幀之間背景、人物、運動等等都會有較為明顯的變化,而在一個鏡頭內(nèi)各幀之間的變化不明顯、差異較小。鏡頭分割就是通過相鄰幀差異的比較來探測鏡頭邊界的,當(dāng)這個差異超過給定的閾值時,則判定為一個新的鏡頭。
2基于自適應(yīng)雙閾值的鏡頭分割算法
如何準(zhǔn)確地區(qū)分出子視頻的臨界點,即鏡頭邊界檢測就成為了我們研究的重點。其關(guān)鍵在于選擇合適的特征描述符和設(shè)置閾值。本文在借鑒主流的視頻分割技術(shù)的基礎(chǔ)上,通過建立HSV模型顏色直方圖來表示視頻幀的特征,并在此基礎(chǔ)上進(jìn)行鏡頭邊界檢測。
2.1 基于HSV顏色模型的直方圖
從圖像中一般都能得到RGB三色值,通過以下公式可以將RGB的值計算HSV三個分量的值:
在得出HSV直方圖后,我們便可以由此來比較兩幅圖像的相似性。對于某一幀圖像P,其直方圖的特征矢量為P(p1,p2,…,pL),其中pi為歸一化的比例值,取值范圍為0到由上式可知,兩幅圖像相似度Sim的取值范圍為0到1,兩幅圖像的差異越小值越大,如果兩幅圖像的顏色分布相同,那么它們的相似度為1。
相鄰兩幀圖像之間相似度的計算是視頻鏡頭分割的基礎(chǔ)。在進(jìn)行鏡頭分割時,從視頻文件的第一幀開始逐一計算相鄰幀的相似度,將其與閾值進(jìn)行比較,從而檢測出鏡頭邊界,將原來的視頻分割成若干個鏡頭。
2.2鏡頭邊界檢測
鏡頭邊界檢測就是根據(jù)鏡頭之間的切換所帶來的特征差異來實現(xiàn)視頻分割的,其方法是計算相鄰兩幀的距離,將其與閾值進(jìn)行比較,如果距離超過一定閾值則認(rèn)為是一個新鏡頭,否則就屬于同一個鏡頭。當(dāng)視頻鏡頭突變時,相鄰兩幀間差異較大,容易判斷;當(dāng)發(fā)生漸變時由于鏡頭之間的切換經(jīng)過了多幀的變化,相鄰幀之間變化不明顯,因而較難判斷。漸變檢測則成為鏡頭檢測中的難點,閾值的確定顯得尤為重要。
2.2.1 閾值的選擇
閾值主要有全局閾值[1]、局部閾值[2]等。全局閾值由于它在整個視頻內(nèi)采用固定的閾值分割視頻,當(dāng)視頻幀前后變化較小時,往往在檢測漸變鏡頭時漏檢或是誤判。而局部閾值設(shè)定跟視頻幀本身的圖像信息相關(guān),能更好地適應(yīng)不同的視頻文件和同一視頻文件中的局部特征,在檢測鏡頭漸變時效果明顯優(yōu)于全局閾值。
為了能夠同時檢測突變和漸變的鏡頭邊界檢測,本文將采用雙閾值法,同時結(jié)合滑動窗口計算自適應(yīng)局部閾值。自適應(yīng)閾值通過考察某一局部的特征信息,其取值與視頻流的局部分段的特征息息相關(guān),并計算過程中自動調(diào)整取值,因此自適應(yīng)閾值比全局閾值和局部閾值對視頻信息的適應(yīng)能力更好。
2.2.2自適應(yīng)局部雙閾值法
雙閡值法是通過設(shè)置TH和TL兩個閾值(其中TH>TL),突變鏡頭可以直接用TH檢測,而漸變鏡頭則需要TH和TL共同檢測。我們定義幀fi和fi+1的顏色直方圖差異即兩幀相似度為Di,利用公式(9)計算。兩幀的直方圖差異大小直接影響值的大小,兩者成正比。鏡頭突變檢測時,如果兩幀相似度大于TH,即Di>TH,那么我們可以認(rèn)為突變是從第i幀后發(fā)生的,前面鏡頭的最后一幀為fi,而突變后鏡頭的第一幀為fi+1。而當(dāng)Di大于TL小于TH時,那么我們可以認(rèn)為漸變鏡頭的第一幀為幀fi+1,隨后計算后序相鄰幀的幀差Di+1和fi+1幀與其后第k幀(k=i+1,i +2,i +3,…)的直方圖差異值,由于沒有兩個幀完全相同,每兩個幀都有或多或少的幀差,導(dǎo)致最后的幀差異值會越來越大,我們將這個差異值稱為累計直方圖差異SumD,如果往后碰到第fn幀與fn+1兩幀的幀差Dn
自適應(yīng)局部雙閾值的計算方法為: 設(shè)計一個滑動窗口,滑動窗口的寬度 W 初始化為 1 幀,步長為 1。根據(jù)公式(9)逐個計算滑動窗口內(nèi)相鄰兩幀間的顏色直方圖差異為Di。
然后根據(jù)式(10)和式(11) 計算滑動窗口內(nèi)的相鄰幀間的顏色直方圖差異的平均值G和標(biāo)準(zhǔn)方差R。
為了檢測本文算法的有效性,隨機(jī)抽取了不同類型的4個視頻片段,并分別用本文算法、局部單閾值和全局閾值算法進(jìn)行檢測,得到統(tǒng)計數(shù)據(jù)如表1和表2所示,反映了使用本文算法檢測出的鏡頭數(shù)查全率和查準(zhǔn)率均高于局部單閾值和全局閾值算法,尤其比全局閾值法高出很多。其中,實際鏡頭數(shù)為人工目測分析得出的鏡頭數(shù)目。實驗結(jié)果表明,本文算法在檢測不同類型不同長度的視頻片段時,其查全率和查準(zhǔn)率相對較高,而且具有廣泛的適應(yīng)性。當(dāng)檢測的視頻片段較長時,局部單閾值雖能自動計算閾值,具有一定的自適應(yīng)性,但由于只有一個閾值,在檢測漸變鏡頭時效果不明顯,因而漏檢和誤檢情況較明顯。當(dāng)采用全局閾值算法檢測較長的視頻片段時,其查全率和查準(zhǔn)率則明顯偏低,效果與本文算法相差較大。
4小結(jié)
本文在建立HSV模型顏色直方圖的基礎(chǔ)上,經(jīng)過量化來表示視頻幀的特征,計算幀間相似度。通過幀間相似度與雙閾值的比較,能夠同時檢測突變和漸變。自適應(yīng)閾值結(jié)合動態(tài)滑動窗口能夠通過計算機(jī)的計算得到,能充分適應(yīng)局部幀變化,經(jīng)過實驗證明,這種方法在進(jìn)行鏡頭分割時取得了很好的效果。
參考文獻(xiàn):
[1] 曹建榮. 一種基于語義的視頻場景分割算法[J]. 中國圖像圖形學(xué)報,2006,11(11)
[2]付彥偉,多視點視頻內(nèi)容分析與摘要技術(shù)研究, (D),碩士學(xué)位論文,南京大學(xué),2011
[3] 陳春雨,姚秋香,喬玉龍.基于幀差法和邊緣檢測法的視頻分割算法[J].濟(jì)南大學(xué)學(xué)報(自然科學(xué)版),2012,26(1)
基金項目:湖南省教育廳科學(xué)研究項目(編號:12C0955)資助