楊春蓉
(新余學院數(shù)學與計算機科學學院 江西 新余 338004)
基于內容的視頻檢索從視頻中進行是比較困難的,因此,通過對視頻的顏色、物體形狀、紋理、物體運動和輪廓等特征進行分析,再借助其他的先進成熟技術來進行。
鏡頭檢測是基于內容視頻檢索的第一步,視頻檢索的有效性在一定程度上由鏡頭分割的準確度決定。因此,在基于內容的視頻檢索中,鏡頭邊界檢測是關鍵的技術。確定從鏡頭到鏡頭的轉換位置是鏡頭檢測的關鍵。鏡頭間的轉變主要包括兩種類型:突變和漸變。突變是指沒有借助視頻編輯工具的情況下從一個鏡頭直接轉換為下一個鏡頭,沒有時間的延遲。漸變是指由前一個鏡頭慢慢轉換為下一個鏡頭時加入了一些空間或時間上的編輯效果,包括淡出淡入、溶解、擦變等,在鏡頭轉換的過程中有一個持續(xù)多幀的變化過程。其實漸變也可稱為軟切換,其實現(xiàn)是要借助視頻編輯工具中的功能。轉換方式不同,一般情況下,檢測算法也不同。其中最為成熟的就是突變檢測的算法,而漸變檢測算法都需要先驗假設的,還需進一步完善相關技術。現(xiàn)在,常用鏡頭檢測方法主要有基于壓縮特征的檢測法、數(shù)據(jù)驅動和模型驅動法。
近年來出現(xiàn)了一種新的鏡頭檢測算法,這種算法被廣泛應用,即基于壓縮域特征的檢測。目前對壓縮域的研究基本上在MPEG壓縮域上。大多都是利用DCT系數(shù)、運動補償宏塊等信息來對壓縮內對鏡頭突變進行檢測。日本的Yasuyuki進行切換檢測主要是利用Ⅰ幀的DC序列,在切換鏡頭時,一般都具有很大的色度變化,此時通過對兩個Ⅰ幀DC圖的色度相似度來進行,由此才能對切換點進行確定;另一種方法是切變的檢測,主要是利用進行運動補償?shù)暮陦K的數(shù)量來進行。其實在壓縮域內對鏡頭漸變檢測的方法也是比較多的,Yeo等檢測閃光、淡入和淡出可借助從MPEG壓縮碼流中提取出的DC系數(shù)來進行,同時此方法也可以對疊化和切變進行區(qū)分。B幀的預測方法的獲得可以利用MPEG壓縮碼流中宏塊種類的信息來進行,檢測到各幀場景發(fā)生變化的區(qū)域。通過分析這些變化區(qū)域,可以將比較復雜的擦除轉換檢測出來,還可以將其擦除的種類確定下來。
數(shù)據(jù)驅動法分割鏡頭主要是根據(jù)鏡頭在發(fā)生轉換時其視頻數(shù)據(jù)所發(fā)生的變化來進行。由于同一鏡頭的相鄰兩幀間的特征差值總會在某一閾值內活動,因此可以根據(jù)這點來判斷是否為同一個鏡頭。如果相鄰兩幀間的特征差值超過了這個閾值,那么說明這兩個鏡頭不是同一種。尋找鏡頭邊界采用這種方法來進行,雖然對突變的鏡頭效果較好,但對漸變的鏡頭效果不是很好。
模型驅動法首先研究視頻鏡頭間切換的生成過程,從中尋找一些可用于分割處理的約束關系,再根據(jù)這些對各種鏡頭切換建立對應的數(shù)學模型,然后檢測鏡頭切換,并且要自頂向下來進行。只要能夠建立準確的模型,那么檢測鏡頭往往能夠得到較好的效果。但是這種方式的建模過程是非常復雜,它需要對每種切換類型建立模型。
在鏡頭分割后,一般都需要進行鏡頭關鍵幀的提取工作,這樣才能提供給用戶讓其進行瀏覽。關鍵幀反映的是鏡頭的主要內容,是從原始視頻中提取的用于描述一個鏡頭的一幅或若干幅關鍵圖像。一方面,關鍵幀集合對整個視頻內容的快速瀏覽進行著支持,另一方面,關鍵幀可以實現(xiàn)對視頻內容的檢索,其主要是通過提取每個關鍵幀的視覺特征并建立索引。代表幀的選取能夠將鏡頭中的主要事件反映出來,因此在描述時應盡可能完全準確,而且其數(shù)據(jù)量應盡量小,管理起來比較方便,不宜太復雜的計算。提取鏡頭固定位置上的幀可作為最簡單的關鍵幀。這種提取關鍵幀的方法的運算量較小,比較適合用于內容活動性小的鏡頭,其缺點就是不能靈活使用,它對鏡頭內容不能有效地反映出來。平均法是比較經典的關鍵幀提取方法。平均法是通過計算整個鏡頭,將具有一定平均意義的視頻幀作為鏡頭關鍵幀。一般情況,平均法分為兩種,一種是幀平均法,另一種是直方圖平均法。(1)幀平均法。該方法就是將一個鏡頭中所有幀的某個目標位置上的像素值取出,并計算其平均值,與平均值的幀最相近的像素值作為關鍵幀。這種方法的難點在于選定目標位置。由于鏡頭中任意兩相鄰幀的差異所體現(xiàn)的位置并不是固定的,所以,幀平均法所選取的關鍵幀就不是非常準確了。(2)直方圖平均法。該方法是將鏡頭中所有幀的統(tǒng)計直方圖取平均,其所選取的關鍵幀就是與該平均直方圖最接近的幀。視頻中的圖像可以選擇圖像處理中常用的低級視覺特征,這是由于視頻中的幀已經由三維的視頻流轉換為二維的圖像。選擇顏色特征是諸多可視特征中較直接且有效的方法。在各顏色特征中,顏色直方圖是最常用的,因為它能夠將圖像幀顏色的統(tǒng)計分布和基本色調反映出來。這兩種方法不能將運動變化的鏡頭的全部內容反映出來。
選取關鍵幀最有效的方法就是隨著時間的變化通過對視頻視覺內容進行分析來確定所需關鍵幀的數(shù)目,抽取關鍵幀并按一定的規(guī)則來進行。在檢測到一個鏡頭后,首先要先確定其狀態(tài),如果是平穩(wěn)鏡頭,取值較穩(wěn)定;如果鏡頭是大運動變化的,取值差別是非常大的。在選取關鍵幀時可以根據(jù)鏡頭的這些特征來進行:(1)針對平穩(wěn)鏡頭而言,可以選取其中的一個幀作為關鍵幀;(2)針對大運動的鏡頭,其關鍵幀就是變化前和變化后的兩幀;(3)鏡頭內變化較多,需要選取多個代表幀,然后根據(jù)幀之間的顯著變化來進行選擇。
相似性檢索是當前視頻檢索的主要方式。相似性檢索要求用戶提供比較感興趣的視頻片段,將樣本片段和視頻庫中的其他片段進行相似性對比,然后返回檢索結果,這就是相似性檢索的過程。視頻相似性檢索主要圍繞如何提取反映視頻內容的特征和如何量度特征間的相似性這兩個問題進行解決。(1)特征提取。在特征提取方面,目前主要從傳統(tǒng)的圖像檢索技術直接或者間接地繼承過來視頻檢索技術。在圖像檢索中,顏色、紋理和物體形狀是普遍使用的底層特征,也是視頻檢索中非常重要的特征。(2)相似性度量。通過計算查詢和候選圖像間在視覺特征上的相似度來進行基于內容的圖像檢索。因此對于檢索效果而言,定義一個合適的視覺特征相似度量方法對其的影響是非常大的。一般來說,視覺特征都可以用向量的形式來表示,所以,采用向量空間模型 (vectorspacemodel)是視頻檢索時常用的一種相似性度量方法,也就是將視覺特征看作是向量空間中的點,對圖像特征間的相似度的衡量主要通過計算兩個點之間的接近程度來進行。
一般情況下,用戶希望檢索和瀏覽視頻在高層語義中進行,而實際上大多數(shù)的檢索系統(tǒng)都是在低級特征上來提取。一直以來,視頻語義提取是視頻分析中的難點和重點,這是因為視頻的結構復雜、語義信息豐富并且多歧義導致。隨著計算機技術的不斷更新,視頻語義信息的提取逐漸成為現(xiàn)代視頻檢索的關鍵。傳統(tǒng)的視頻檢索方式是需要人主動地尋找自己所需的視頻內容,是一種被動式的信息獲取方式。此時低層視頻特征和高層內容描述間存在較大的差異就是一個重要問題,視頻語義分析的核心問題就是如何在兩者間架設聯(lián)系的橋梁。
視頻語義分析可分為通用語義分析和特定語義分析兩種。通用語義分析面向不受限的視頻目標,通常在特定視頻語義定義條件下進行研究。提取的事件表達語義結構但不能提供真正的語義概念是這種方法的最根本的局限性。由于語義信息非常龐大,通用的視頻語義分析無法將先驗知識導入其中,因此識別的語義往往是比較簡單的。但實際上,大多數(shù)的工作都是哎特定視頻類型中開展,也就是特定語義分析。由于視頻內容被預先確定了,視頻信息才能夠被預先地分析和特定地建模。在這種情況下,識別系統(tǒng)中就能夠導入相關領域的先驗知識,并能以模型的方式來進行,所以,特定語義分析所獲得的語義信息一般都是比較準確和充分的。目前的特定語義分析主要局限在新聞視頻、電影視頻、體育視頻和監(jiān)視視頻中,這主要是由于視頻語義的多義性和復雜性決定。
以上對基于內容的流媒體視頻檢索的關鍵技術進行了分析,這些技術是基于內容的流媒體視頻檢索系統(tǒng)設計和實現(xiàn)不可或缺的技術?;趦热莸牧髅襟w視頻檢索系統(tǒng)設計和實現(xiàn)所涉及的范圍較廣,其是一個較為復雜的系統(tǒng)工程,本文所提出的這些關鍵技術雖然是不可或缺的,但是也不是全部,因此,對基于內容的流媒視頻檢索系統(tǒng)還必須進行更深入的研究和探索。
[1]吳杰.P2P流媒體內容分發(fā)與服務關鍵技術研究[D].復旦大學,2008.
[2]尹浩,林闖,文浩,陳治佳,吳大鵬.大規(guī)模流媒體應用中關鍵技術的研究[J].計算機學報,2008(05).
[3]陳榮華.實時流媒體內容分發(fā)系統(tǒng)優(yōu)化研究[D].復旦大學,2010(12).
[4]智英建.基于新型分布式視頻點播架構的流媒體調度技術研究[D].解放軍信息工程大學,2008.