陳成星
【摘 要】 本論文主要討論了鏡頭分割、關(guān)鍵幀提取的算法,是一篇基于內(nèi)容的視頻檢索技術(shù)研究,著重研究了視頻分層結(jié)構(gòu)的有關(guān)步驟及算法以及視頻內(nèi)容特征的提取。
【關(guān)鍵詞】 關(guān)鍵幀 信息檢索 近似匹配 特征提取
1 視頻檢索概念及特點(diǎn)
1.1視頻檢索的概念
基于內(nèi)容的視頻檢索(CBVR)是指根據(jù)媒體的內(nèi)容語(yǔ)義及上下文聯(lián)系進(jìn)行檢索。CBVR需要利用圖像處理、模式識(shí)別、計(jì)算機(jī)視覺(jué)、圖像理解等學(xué)科中的一些方法作為基礎(chǔ)技術(shù)。CBVR不僅是基于內(nèi)容的,而且是一種信息檢索技術(shù)。
1.2視頻檢索的特點(diǎn)
1、從視頻數(shù)據(jù)中提取信息索引
基于內(nèi)容的檢索突破了傳統(tǒng)的基于關(guān)鍵詞檢索的局限,它直接對(duì)視頻內(nèi)容進(jìn)行分析,抽取特征和語(yǔ)義,利用這些內(nèi)容特征建立索引,并進(jìn)行檢索。
2、 基于內(nèi)容的視頻檢索是一種近似匹配
對(duì)內(nèi)容的描述不是一種準(zhǔn)確的描述,因此,CBVR采用相似性匹配的方法逐步求精,以獲得查詢(xún)結(jié)果,即不斷減小查詢(xún)結(jié)果的范圍,直到定位于要求的目標(biāo)。這一點(diǎn)與常規(guī)數(shù)據(jù)庫(kù)檢索中的精確匹配方法不同。
2 傳統(tǒng)的視頻檢索體系結(jié)構(gòu)
我們知道傳統(tǒng)的視頻檢索技術(shù)主要包括鏡頭檢測(cè)、關(guān)鍵幀提取或鏡頭集類(lèi)、特征庫(kù)的建立以及匹配算法等,主要提取視頻特征。傳統(tǒng)的方法是先對(duì)視頻完全解碼,再分割鏡頭并提取關(guān)鍵幀,最后提取特征,這樣就會(huì)產(chǎn)生計(jì)算量比較大,影響視頻檢索效率,而對(duì)特征的描述也是使用比較直觀抽象的語(yǔ)言,交互性較差。
3 視頻內(nèi)容的分層結(jié)構(gòu)
視頻包含著豐富的內(nèi)容。一般對(duì)視頻采用分層的表達(dá)方式表示視頻。一個(gè)視頻可以表示為場(chǎng)景、鏡頭、幀幾個(gè)層次,視頻分層結(jié)構(gòu)如下圖。視頻可以先分為場(chǎng)景,場(chǎng)景可以分為鏡頭,幀是視頻最基本組成單元。將視頻分為場(chǎng)景的處理叫做場(chǎng)景檢測(cè),將場(chǎng)景分為鏡頭的操作叫鏡頭分割,鏡頭分割是視頻層次化的基礎(chǔ)。
4 提取鏡頭的有關(guān)步驟及算法
視頻數(shù)據(jù)可以按照由粗到細(xì)的順序劃分為四個(gè)層次結(jié)構(gòu):視頻(Video)、場(chǎng)景( Scene)、鏡頭(Shot)和圖像幀(Frame)。整個(gè)視頻結(jié)構(gòu)構(gòu)造過(guò)程分以下三個(gè)步驟:從視頻流中提取鏡頭、從鏡頭中選擇關(guān)鍵幀和從視頻流中構(gòu)造場(chǎng)景或組。
4.1從視頻流中提取鏡頭
鏡頭是視頻數(shù)據(jù)的基本單元,視頻處理首先就需要把視頻自動(dòng)地分割為鏡頭,以作為基本的索引單元,這一過(guò)程就稱(chēng)為鏡頭邊界的檢測(cè)。它是實(shí)現(xiàn)基于內(nèi)容的視頻檢索的第一步,其核心處理是鏡頭切變檢測(cè)。
1、基于顏色的特征方法
(1)模板匹配法
模板匹配法又稱(chēng)對(duì)應(yīng)像素法,模板匹配法是將兩幀對(duì)應(yīng)像素差的絕對(duì)值之和作為幀間差,當(dāng)幀間差大于某個(gè)閾值t時(shí),則認(rèn)為有鏡頭的切換。模板匹配法的缺點(diǎn)是,由于與像素的位置密切相關(guān),因此對(duì)噪聲和物體運(yùn)動(dòng)十分敏感,容易造成誤識(shí)別。也有人提出將各幀劃分為8×8像素的子塊,并對(duì)每個(gè)塊取平均,再用這個(gè)平均值對(duì)前后幀的對(duì)應(yīng)子塊進(jìn)行比較,這種方法對(duì)小的噪聲和運(yùn)動(dòng)不敏感。
(2)直方圖法
直方圖法是使用得最多的計(jì)算幀間差的方法,它丟失了顏色的位置信息,因而抗噪聲能力要比模板匹配強(qiáng)。顏色直方圖法的缺點(diǎn)是,兩幅圖像可能內(nèi)容完全不同但直方圖相似,也容易造成誤識(shí)別。一種改進(jìn)的方法是將圖像劃分成若干子塊分別對(duì)各子塊進(jìn)行匹配。
(3)基于邊緣的方法
由于在鏡頭切變時(shí)新舊邊緣應(yīng)在不同的位置,所以可先提取兩幅圖像的邊緣,計(jì)算新邊緣在舊邊緣的基礎(chǔ)上增加和減少像素比例,當(dāng)大于某一個(gè)閾值時(shí)便認(rèn)為發(fā)生鏡頭切換。缺點(diǎn)是計(jì)算量大,當(dāng)邊緣不明顯時(shí)效果差。
2、光流檢測(cè)法
另外還有一種光流檢測(cè)法,該方法的原理是鏡頭切換時(shí)無(wú)光流,而鏡頭運(yùn)動(dòng)應(yīng)適合某種特定的光流類(lèi)型。它能將漸變切換與鏡頭的運(yùn)動(dòng)區(qū)分開(kāi)來(lái),但計(jì)算復(fù)雜且在光照變化很大情況下檢測(cè)失敗。
3、基于模型的方法
Hampapur等人通過(guò)對(duì)視頻制作過(guò)程的研究,提出了一種可用于鏡頭邊界檢測(cè)的視頻編輯模型。它的缺點(diǎn)是,建模過(guò)程比較復(fù)雜,需要對(duì)每種切換類(lèi)型建立模型。這種方法適用于專(zhuān)業(yè)領(lǐng)域。
4、幾種改進(jìn)的算法
雙閾值比較法:當(dāng)兩幀間差在閾值d1和d2之間時(shí),便認(rèn)為潛在漸變開(kāi)始,將差值開(kāi)始累加,直到累加和大于d2時(shí)認(rèn)為有漸變,當(dāng)幀間差小于d1時(shí)認(rèn)為漸變結(jié)束。這種方法對(duì)漸變檢測(cè)有較好的效果,但對(duì)鏡頭的緩慢運(yùn)動(dòng)仍可能會(huì)造成誤識(shí)別。
滑動(dòng)窗口檢測(cè)法:先以待檢的幀作為中心開(kāi)一個(gè)窗,計(jì)算各幀與鄰幀的幀間差,若該幀的差值大于窗口內(nèi)的其它所有幀的差值,且大于第二大差值的某倍數(shù),則認(rèn)為是發(fā)生切換。
用雙重窗口法可進(jìn)一步改進(jìn)以減小搜索量,先選取一個(gè)大的窗口,取平均值,將大于均值一定倍數(shù)的差值作為候選切變幀,再以候選切變幀為中心取小窗口,檢測(cè)具體位置。大窗口可避免誤檢并減小搜索量;小窗口可避免大運(yùn)動(dòng)造成的漏檢。
由于在很多情況下,人們僅對(duì)圖像中的某一區(qū)域感興趣。因此,先進(jìn)行圖像分割,僅利用某一區(qū)域的信息進(jìn)行檢索。近幾年來(lái)這一領(lǐng)域的研究逐漸引起了人們的興趣。
4.2從鏡頭中選擇關(guān)鍵幀
關(guān)鍵幀(也稱(chēng)代表幀)是用于描述一個(gè)鏡頭的關(guān)鍵圖像幀,它通常會(huì)反映一個(gè)鏡頭的主要內(nèi)容。關(guān)鍵幀的使用大大減少了視頻索引的數(shù)據(jù)量,同時(shí)也為檢索和瀏覽視頻提供了一個(gè)組織框架。關(guān)鍵幀的提取原則是“寧濫勿缺”。關(guān)鍵幀選取的方法有以下幾類(lèi):
1、基于鏡頭的方法
一段視頻分割成鏡頭后,將每個(gè)鏡頭的首幀(或首幀與末幀)作為鏡頭的關(guān)鍵幀。該方法實(shí)現(xiàn)起來(lái)比較簡(jiǎn)單,無(wú)論鏡頭的內(nèi)容如何,關(guān)鍵幀的數(shù)量都是一定的(1幀或2幀),但效果不是很穩(wěn)定,因?yàn)槊總€(gè)鏡頭的首幀或末幀不一定總是能夠反映鏡頭的主要內(nèi)容。
2、基于內(nèi)容分析的方法
這種方法基于每一幀的顏色、紋理等視覺(jué)信息的改變來(lái)提取關(guān)鍵幀,當(dāng)這些信息有顯著變化時(shí),當(dāng)前的幀即可作為關(guān)鍵幀。張宏江等人依據(jù)幀間的顯著變化來(lái)選擇多個(gè)關(guān)鍵幀,首先把鏡頭的第一幀作為關(guān)鍵幀,然后計(jì)算前一個(gè)關(guān)鍵幀與剩余幀之差,如果差值大于某一閾值,則再選取一個(gè)關(guān)鍵幀。這種方法可以根據(jù)鏡頭內(nèi)容的變化程度選擇相應(yīng)數(shù)目的關(guān)鍵幀,但所選取的幀不一定具有代表意義,而且在有鏡頭運(yùn)動(dòng)時(shí),容易選取過(guò)多的關(guān)鍵幀。
幀平均法和直方圖平均法統(tǒng)計(jì)所有幀的像素值或直方圖平均,取最接近平均值的幀作為代表幀。
3、基于運(yùn)動(dòng)分析的方法
Wolf通過(guò)光流分析來(lái)計(jì)算鏡頭中的運(yùn)動(dòng)量,在運(yùn)動(dòng)量取局部最小值處來(lái)選取關(guān)鍵幀,它反映了視頻數(shù)據(jù)中的靜止,視頻中通過(guò)攝像機(jī)在一個(gè)新的位置上停留或通過(guò)人物的某一動(dòng)作的短暫停留來(lái)強(qiáng)調(diào)其本身的重要性。Wolf的這種基于運(yùn)動(dòng)分析的方法可以根據(jù)鏡頭的結(jié)構(gòu)選擇相應(yīng)數(shù)目的關(guān)鍵幀。如果先把圖像中的運(yùn)動(dòng)對(duì)象從背景中取出,再計(jì)算對(duì)象所在位置的光流,可以取得更好的效果。
合成法將鏡頭中的所有運(yùn)動(dòng)轉(zhuǎn)換拼接成一個(gè)合成幀作為關(guān)鍵幀。
4、基于聚類(lèi)的方法
聚類(lèi)提取的方法首先要確定一個(gè)初始類(lèi)心,然后根據(jù)當(dāng)前幀與類(lèi)心的距離來(lái)判斷是歸為該類(lèi)還是作為新的類(lèi)心,再將鏡頭中幀分類(lèi)后取各類(lèi)中離類(lèi)心最近的幀作為關(guān)鍵幀。另外,Zhao提出了一種基于最近特征線(Nearest Feature Line,NFL) 的端點(diǎn)檢測(cè)算法用于選取關(guān)鍵幀。該方法的主要原理是用某些特征點(diǎn)的連線(特征線)近似并代表某個(gè)類(lèi)的所有特征樣本軌跡,而這些特征點(diǎn)就是關(guān)鍵幀。
4.3從視頻流中構(gòu)造場(chǎng)景或組
計(jì)算鏡頭間的相似性(實(shí)際是關(guān)鍵幀間的比較),選擇合適的聚類(lèi)算法進(jìn)行分析。按時(shí)間順序和關(guān)鍵幀的相似程度可分為場(chǎng)景,也可以只按關(guān)鍵幀的相似程度進(jìn)行分組。
結(jié)束語(yǔ)
本文主要討論了鏡頭分割、關(guān)鍵幀提取的算法,但還有許多的問(wèn)題有待解決和面對(duì),如應(yīng)選取更為有效的視頻特征,現(xiàn)有的顏色、紋理等特征還不能有效表示視頻的內(nèi)容,為了提高鏡頭和場(chǎng)景檢索中的查全率和準(zhǔn)確率,應(yīng)該選取更為有效的視頻特征,這就給我們未來(lái)的研究提出了方向。
【參考文獻(xiàn)】
[1] 陳堯,張青榮.基于內(nèi)容的視頻檢索技術(shù)研究[J].產(chǎn)業(yè)與科技論壇,2017,16(14):46-48.
[2] 李向偉,康毓秀.基于內(nèi)容的視頻檢索與挖掘關(guān)鍵技術(shù)研究[J].軟件,2014,35(08):26-31.
[3] 陳秀新.基于內(nèi)容的視頻檢索技術(shù)淺析[J].信息技術(shù)與信息化,2011(02):56-58+75.