葛 菲,史 萍
(中國傳媒大學(xué) 信息工程學(xué)院,北京 100024)
對(duì)于電視節(jié)目中的廣告,商家需要知道其投放的廣告是否正常播放,而國家為了嚴(yán)格控制廣告的播放時(shí)間需要知道廣告在一天中所占比例,普通電視觀眾為了觀看或收藏完整的節(jié)目視頻,希望將其中的廣告部分去除。因此,對(duì)電視節(jié)目的廣告進(jìn)行自動(dòng)檢測(cè)成為不同用戶的共同追求。筆者在分析廣告特有的視頻特征的基礎(chǔ)上,提出了一種以鏡頭為檢測(cè)單位,利用統(tǒng)計(jì)分析的方法實(shí)現(xiàn)廣告視頻段落自動(dòng)分割的方法。實(shí)驗(yàn)證明,該算法有較高的正確率。
廣告視頻有區(qū)別于其他類型視頻的特征,如聲畫合一,圖像顏色鮮艷,鏡頭切換快,運(yùn)動(dòng)較多,對(duì)象繁雜,關(guān)鍵幀極難抽取,廣告段與電視節(jié)目之間音頻變化較大等。為將廣告片段從視頻節(jié)目中分離出來,可以檢測(cè)廣告片段中特有的特征,也可綜合利用切變檢測(cè)、靜止場(chǎng)景檢測(cè)、相似幀檢測(cè)、黑屏檢測(cè)和文字檢測(cè)等將廣告片段與正常節(jié)目區(qū)分開來。依據(jù)廣告特有的視頻特征,本系統(tǒng)分為以下幾個(gè)模塊實(shí)現(xiàn)廣告段落的分割,如圖1所示。
面對(duì)數(shù)據(jù)量巨大的廣告視頻,準(zhǔn)確的鏡頭邊界檢測(cè)算法至關(guān)重要。目前已有的鏡頭邊界檢測(cè)算法有:直方圖特征值法、邊緣(輪廓)特征值法、運(yùn)動(dòng)特征值法等[1]。Yu等人采用信息熵確定幀間直方圖差的自適應(yīng)閾值,對(duì)候選的漸變采用了熵閾值法來檢測(cè)分析[2]。但是針對(duì)廣告視頻的鏡頭邊界檢測(cè)來說其難點(diǎn)主要有以下幾方面:首先,與其他視頻相比,廣告段落鏡頭切換節(jié)奏快,而且涵蓋淡入淡出、切變等方式;其次,視頻中包含了大量的閃光處理,特別在廣告拍攝中更是常用的手法。按照一般的檢測(cè)算法,閃光出現(xiàn)時(shí)都會(huì)被認(rèn)為是切變。對(duì)此,Zhang Dong等人提出通過建立切變模型和閃光模型來進(jìn)行識(shí)別[3],如圖2所示。
由圖2可以看出,切變模型和閃光模型的視頻幀特征值都出現(xiàn)了較大的變化,但不同的是切變模型變化后視頻幀特征值穩(wěn)定在另一個(gè)水平上,而閃光模型變化后,視頻幀特征值經(jīng)過一幀或幾幀之后又回到原來的水平。本文以幀間直方圖差和幀間直方圖平均強(qiáng)度差為特征,采用雙閾值幀間差檢測(cè)算法進(jìn)行鏡頭邊界檢測(cè)。雙閾值檢測(cè)算法流程如圖3所示。
定義抽取的特征為:
為了進(jìn)一步討論如何判定該幀是切變模型還是閃光模型,定義參數(shù)如下:H1為當(dāng)前幀和前一幀之間的強(qiáng)度差;H2為當(dāng)前幀的后續(xù)n幀和前n幀之間的強(qiáng)度差,取 n=3~5。
在理想的模型下,很容易看出R=H2/H1在閃光模型中等于0,對(duì)應(yīng)切變模型中的為1。因?yàn)榫唧w的視頻與理想模型之間的差異,引入閾值T1=0.5。
為實(shí)現(xiàn)自適應(yīng)閾值,本系統(tǒng)使用僅包含部分幀的基于時(shí)間軸的滑動(dòng)窗W1來決定閾值的選取。考慮到在廣告中一個(gè)鏡頭可能持續(xù)不到1 s,以及閃光的持續(xù)實(shí)際上一般不會(huì)超過10幀,定義滑動(dòng)窗口大小n=11,此處的幀為偶數(shù)幀或奇數(shù)幀,Tb與Ts的選取建立在對(duì)滑動(dòng)窗口內(nèi)幀間差的歸一化,可將幀間直方圖差的噪聲看成是高斯分布噪聲,那么令σ為幀與幀間差序列的標(biāo)準(zhǔn)方差,μ為差序列的均值。由高斯分布的特性可知:Tb=μ+ασ。 由實(shí)驗(yàn)結(jié)果得知,當(dāng) α=5時(shí),非鏡頭幀間差落在[0,μ+ασ]范圍外的概率為0。所以,計(jì)算Tb時(shí)的 α=3~5,計(jì)算 Ts時(shí)的 α=2~3。
一般的電視節(jié)目大致是由一系列的正片、片頭、片尾和廣告簡(jiǎn)單連接而成,而且部分廣告段落是與片頭和片尾緊密相連的,片頭片尾部分包含大量的字幕信息,因此可以利用字幕特性確定片頭和片尾片段。此外,在電視劇、新聞、綜藝等節(jié)目播出時(shí),在屏幕的左下角或右下角都會(huì)出現(xiàn)標(biāo)志該節(jié)目名稱的字幕區(qū)域。因此,字幕段落的出現(xiàn)往往表示一個(gè)廣告段落的結(jié)束和新的電視節(jié)目的開始,或者一個(gè)電視節(jié)目的結(jié)束和新的廣告段落的開始,它可以作為廣告段落分割的邊界。
本文選擇經(jīng)Sobel邊緣檢測(cè)[4]圖像的總邊緣像素點(diǎn)作為字幕檢測(cè)的特征值,具體實(shí)現(xiàn)流程如圖4所示。
其中
判決條件如下:
式中:Gx′和 Gx′′分別為 Z2和 Z8在水平方向的一階偏導(dǎo),Gy′和 Gy′′分別為Z4和Z8在垂直方向的一階偏導(dǎo)。 滿足式(5)和式(6)或式(5)和式(7),則當(dāng)前像素點(diǎn)屬于水平邊緣部分或者垂直邊緣部分,即該像素點(diǎn)屬于邊緣像素點(diǎn)。最后對(duì)屬于邊緣部分的像素點(diǎn)進(jìn)行統(tǒng)計(jì)累加,得到值A(chǔ),即為字幕特征值。
對(duì)于片頭片尾字幕片段的檢測(cè)來說,主要有以下幾方面難點(diǎn):首先廣告中紋理?xiàng)l紋較多造成圖像邊緣點(diǎn)增加;其次,廣告片段中也可能出現(xiàn)字幕片段。經(jīng)過試驗(yàn)觀察,字幕占據(jù)的區(qū)域文字排列較緊密。根據(jù)這一特性,可用字幕的塊密度[5]來判定該幀是否為字幕幀,這樣可避免因不必要的紋理及條紋而造成圖像邊緣點(diǎn)的增加。另外廣告中字幕片段持續(xù)時(shí)間遠(yuǎn)小于電視劇中字幕片段的持續(xù)時(shí)間,因此可設(shè)定一個(gè)持續(xù)幀數(shù)閾值Fth來判斷是否為電視劇中的字幕片段。
對(duì)于特定區(qū)域節(jié)目標(biāo)志的字幕檢測(cè)來說,由于一般節(jié)目都附帶當(dāng)前正在播出節(jié)目的節(jié)目標(biāo)志,而這些節(jié)目標(biāo)志往往放置在電視節(jié)目的左下角或右下角,所以這里對(duì)這2個(gè)敏感區(qū)域進(jìn)行研究。如圖5所示,以352×288的視頻圖像為例,將左下角和右下角區(qū)域設(shè)為敏感區(qū)域,并根據(jù)統(tǒng)計(jì)經(jīng)驗(yàn)設(shè)定該區(qū)域的寬高值,單位為像素。
根據(jù)上述片頭片尾字幕檢測(cè)的算法,分別計(jì)算兩區(qū)域的字幕像素?cái)?shù)。由于節(jié)目標(biāo)志僅為左下角或右下角中的一側(cè),所以將檢測(cè)出的字幕像素?cái)?shù)多的一側(cè)作為節(jié)目標(biāo)志出現(xiàn)區(qū)域。對(duì)分解出的鏡頭進(jìn)行分析,當(dāng)鏡頭中的每一幀的字幕像素?cái)?shù)大于某一閾值th1時(shí),判定該幀為字幕幀,當(dāng)字幕幀比率Ratio超過另一個(gè)閾值th2時(shí),則判定該鏡頭為字幕鏡頭,進(jìn)而判定該鏡頭為非廣告鏡頭。
其中,Ratio=鏡頭中字幕幀數(shù)/整個(gè)鏡頭總幀數(shù)。
與視頻特征類似,音頻特征[6]的提取用于表征音頻信息。音頻信號(hào)具有短時(shí)性,即在一段短時(shí)間隔里音頻信號(hào)可以保持相對(duì)穩(wěn)定的特征。實(shí)驗(yàn)證明,廣告視頻段落的短時(shí)能量均值要比其他視頻的短時(shí)能量均值要高,所以短時(shí)能量均值也成為廣告視頻段落分割的一個(gè)重要特征。
筆者介紹的視頻廣告段落的檢測(cè)方法以“判斷-統(tǒng)計(jì)-分組-修正”這4個(gè)步驟為核心,如圖6所示。“判斷”就是要判斷是否符合一定的判決條件;“統(tǒng)計(jì)”就是統(tǒng)計(jì)有多少鏡頭滿足條件;“分組”就是將相同條件的鏡頭分成一組進(jìn)而實(shí)現(xiàn)鏡頭的分類,最終分為字幕鏡頭(即非廣告鏡頭)、非字幕的廣告鏡頭和非字幕的非廣告鏡頭;“修正”就是將不滿足條件的鏡頭進(jìn)行修正。
現(xiàn)有的廣告視頻檢測(cè)方法,一般是從廣告具有的圖像特征來進(jìn)行識(shí)別。這種方法因?yàn)閮H僅利用了圖像特征,因此存在檢測(cè)錯(cuò)誤或檢測(cè)不全的問題。針對(duì)現(xiàn)有技術(shù)的不足,筆者提出了同時(shí)利用廣告視頻具有的圖像和音頻特征綜合進(jìn)行檢測(cè)的方法。首先標(biāo)志鏡頭類型,由分割出的鏡頭強(qiáng)度來初步判斷是否為廣告鏡頭,當(dāng)鏡頭幀數(shù)小于某個(gè)閾值時(shí),則初步判斷其為廣告鏡頭,反之為非廣告鏡頭。針對(duì)非廣告中字幕鏡頭、廣告中非字幕鏡頭和非廣告鏡頭這三種情況,對(duì)其做如下的判決與修正(見表1),進(jìn)而檢測(cè)出廣告段落。
表1 電視廣告段落分割算法中的判決/修正表
試驗(yàn)發(fā)現(xiàn),這種統(tǒng)計(jì)分析的方法仍然存在問題,其中的某些廣告段落可能因?yàn)殚撝颠x擇而出現(xiàn)一個(gè)段落被分割成多個(gè)廣告片段的情況。同時(shí)發(fā)現(xiàn)一普遍規(guī)律:每次插播的廣告時(shí)間一般不超過5 min。為了彌補(bǔ)上述問題,可以將標(biāo)記為廣告的廣告段落從頭到尾搜索一遍,從第一個(gè)廣告段落的起始時(shí)間算起,將后續(xù)段落與第一個(gè)廣告段落的時(shí)間差小于5 min的段落合并為一個(gè)廣告段落,而超過5 min的段落作為下一廣告段落的起始點(diǎn)。
對(duì)中央電視臺(tái)播出的部分節(jié)目進(jìn)行試驗(yàn),經(jīng)過計(jì)算統(tǒng)計(jì),電視廣告部分被正確地檢測(cè)出來,檢測(cè)結(jié)果如表2所示。
表2 中央臺(tái)某播出視頻節(jié)目廣告段落檢測(cè)結(jié)果
從試驗(yàn)數(shù)據(jù)可以看出廣告段落檢測(cè)存在漏檢和誤檢的情況,原因如下:
1)閾值的選取是廣告段落檢測(cè)算法的關(guān)鍵。本文選取的閾值是經(jīng)過對(duì)大量視頻節(jié)目特征進(jìn)行分析統(tǒng)計(jì)得到的值,雖然在大部分情況下能夠正確檢測(cè),但仍會(huì)出現(xiàn)漏檢和誤檢的情況,因此對(duì)閾值的選擇還需要進(jìn)一步優(yōu)化。
2)廣告段落檢測(cè)算法是在提取節(jié)目視頻的音視頻特征基礎(chǔ)上進(jìn)行的,通過鏡頭邊界檢測(cè)得到鏡頭強(qiáng)度,通過字幕檢測(cè)得到視頻的字幕特征,通過比較平均短時(shí)能量均值,來區(qū)分廣告和一般視頻。由于電視廣告視頻圖像復(fù)雜多變,目前還做不到完全準(zhǔn)確,所以廣告段落檢測(cè)時(shí)存在誤檢和漏檢的情況。
筆者提出了基于內(nèi)容的電視廣告段落分割算法,首先對(duì)視頻節(jié)目進(jìn)行音頻和視頻特征分析,提取視音頻特征作為廣告段落分割算法的分析特征,最終根據(jù)統(tǒng)計(jì)分析的方法,利用“判斷-統(tǒng)計(jì)-分組-修正”的核心思想,最終分割出廣告段落。后續(xù)將對(duì)閾值的選取及特征提取的精準(zhǔn)度等進(jìn)行優(yōu)化,以達(dá)到更好的實(shí)用效果。
[1]XIN Ru,ZHANG Xiaotong,LI Hanzhang,et al.An area optimized directdigitalfrequency synthesizerbased on improved hybrid CORDIC algorithm[C]//IEEE 3rd International Workshop on Signal Design and Its Application in Communication.[S.l.]:IEEE Press,2007:243-246.
[2]VOLDER J E.The CORDIC trigonometric computing technique[J].IEEE Trans.Electronic Computer,1959,8(3):330-334.
[3]WANG S,PIURI V,WARTZLANDER E E.Hybrid CORDIC algorithms[J].IEEE Trans.Computer,1997,46(11):1202-1207.
[4]WANG Han,ZHENG Yousi,LIN Xiaokang.A parallel double-step CORDIC algorithm for digital down converter[C]//Proc.the 2009 Seventh Communication Networks and Services Research Conference.Washington DC,USA:IEEE Press,2009:257-261.
[5]吳芝路,楊水旺,任廣輝.基于MVR CORDIC算法的DDC設(shè)計(jì)與實(shí)現(xiàn)[J].電視技術(shù),2007,31(1):27-30.