視頻字幕提取技術(shù)在廣電監(jiān)測(cè)中的應(yīng)用

2014-03-13 06:10:32李春朋齊忠文王翾

中國傳媒大學(xué)學(xué)報(bào)(自然科學(xué)版) 2014年2期

李春朋，齊忠文，王翾

(1.中國傳媒大學(xué)廣播電視數(shù)字化教育部工程研究中心，北京 100024;2.國家新聞出版廣電總局哈爾濱監(jiān)測(cè)臺(tái)，哈爾濱 150089)

1 引言

隨著現(xiàn)代廣播電視數(shù)字化技術(shù)的迅猛發(fā)展，全國各地市都已經(jīng)或者正在建立自己的數(shù)字系統(tǒng)。監(jiān)測(cè)工作的重心已有過去的播出質(zhì)量效果監(jiān)測(cè)為主逐漸向著兼顧內(nèi)容監(jiān)測(cè)發(fā)展，不僅要確保節(jié)目的正常播出，還需要了解和掌控各套節(jié)目的內(nèi)容。字幕是視頻內(nèi)容的高度概括，如果能被自動(dòng)的檢測(cè)、分割、識(shí)別出來，可以很容易的實(shí)現(xiàn)對(duì)播出內(nèi)容的掌控。所以，視頻字幕提取技術(shù)被看做當(dāng)前廣電實(shí)現(xiàn)內(nèi)容監(jiān)測(cè)的主要技術(shù)之一，引起了大家的關(guān)注與研究。

本文對(duì)于字幕提取各個(gè)相關(guān)技術(shù)的研究現(xiàn)狀及其有關(guān)方法進(jìn)行了綜述分析，針對(duì)廣電監(jiān)測(cè)，以新聞視頻為例，設(shè)計(jì)視頻字幕提取的有關(guān)算法，進(jìn)行了實(shí)驗(yàn)仿真分析。針對(duì)網(wǎng)絡(luò)傳輸易造成圖像質(zhì)量下降的因素，選取不同分辨率的視頻進(jìn)行了測(cè)試，驗(yàn)證了字幕提取技術(shù)在廣電內(nèi)容監(jiān)測(cè)中的應(yīng)用。

2 新聞視頻的字幕特點(diǎn)分析

新聞視頻是日常生活中接受外界信息的重要途徑之一，其字幕有很多固定的特點(diǎn)。本文選取新聞視頻進(jìn)行實(shí)驗(yàn)仿真，必須分析新聞視頻字幕的有關(guān)特點(diǎn)，以便在后續(xù)的實(shí)驗(yàn)分析中結(jié)合其特點(diǎn)選取行之有效的方法。

新聞視頻的字幕可以分為兩類，場(chǎng)景字幕和標(biāo)注字幕。場(chǎng)景字幕是攝像機(jī)拍攝到的，是圖像的一部分，如新聞視頻中所拍攝的文字，車牌號(hào)等，如圖1所示，字幕出現(xiàn)的時(shí)間、位置大小都不固定，并且與背景對(duì)比不大，此種字幕比較復(fù)雜，難以識(shí)別檢測(cè)，并且沒有實(shí)際意義，一般我們不會(huì)提取此字幕。標(biāo)注字幕是通過后期合成加入視頻中的，包含了對(duì)當(dāng)前新聞視頻內(nèi)容的高級(jí)語義的信息描述。此類字幕包括:新聞視頻的片頭片尾字幕，采訪中的人物對(duì)話，和概括新聞事件人物時(shí)間地點(diǎn)的標(biāo)題字幕，其中標(biāo)題字幕是我們需要的一類，如圖2所示。

視頻中字幕所包含的特征十分豐富，尤其是標(biāo)注字幕，因?yàn)樗际呛笃诩由先サ?，一般都?huì)遵循一定的規(guī)則。對(duì)于新聞中標(biāo)題字幕的特征［1］，主要有以下幾點(diǎn):

(1)新聞視頻中的字幕都有一定的尺寸，同一個(gè)新聞節(jié)目，字幕的尺寸是固定的，寬和高有一定的比例，字與字之間的空隙也是一定的，并且采用通用而且規(guī)范化的粗筆畫字體如黑體和宋體。

(2)字幕與背景之間有較強(qiáng)的邊緣，字幕都有一個(gè)單一顏色的矩形框作為背景，此背景的顏色與視頻中大背景有較強(qiáng)的對(duì)比，并且字的顏色與字幕背景的顏色也有一定的對(duì)比度。

(3)字幕的位置在同一套新聞視頻中是固定的。

(4)字幕的顯示都有一定的持續(xù)時(shí)間，根據(jù)統(tǒng)計(jì)，字幕的持續(xù)時(shí)間最少為5秒，一般在5秒到20秒不等。

以中央電視臺(tái)新聞聯(lián)播為例，從圖2中可以看到，文字以白底為主，到文字末尾會(huì)有漸進(jìn)的背景顏色摻入，文字顏色為藍(lán)色，與背景有較大差別，有很強(qiáng)的識(shí)別度。

圖1 場(chǎng)景字幕

圖2 標(biāo)準(zhǔn)字幕

3 視頻字幕提取中關(guān)鍵技術(shù)的綜述分析

視頻字幕提取主要包括字幕事件檢測(cè)，字幕區(qū)域定位和提取，字幕分割，字幕識(shí)別等相關(guān)技術(shù)。國內(nèi)外很多學(xué)者對(duì)字幕提取進(jìn)行了研究，對(duì)于其相關(guān)技術(shù)提出了很多方法。

3.1 字幕事件檢測(cè)

在一個(gè)視頻序列中，許多圖像中不含有字幕并且很多圖像中的字幕是重復(fù)的，如果對(duì)每一幀圖像都進(jìn)行字幕的定位和提取，必然會(huì)浪費(fèi)很多時(shí)間。字幕檢測(cè)作為視頻字幕提取技術(shù)的第一步，可以避免對(duì)每一幀圖像都進(jìn)行耗時(shí)的字幕區(qū)域的定位和提取，以及后續(xù)的字幕識(shí)別，從而提高算法的效率。

對(duì)于字幕事件檢測(cè)，Kim［7］等人提出一種算法:用場(chǎng)景轉(zhuǎn)換檢測(cè)方法從視頻中選擇一幀作為包含文本的候選幀，在場(chǎng)景圖像中每隔2秒選取一幀作為含有字幕的候選圖像，然后對(duì)比兩幀圖像，判斷是否含有字幕。蔡波［4］等人提出用相鄰兩幀圖像之間的局部歐式直方圖的差值來檢測(cè)字幕事件。

總結(jié)現(xiàn)有的字幕檢測(cè)算法，大部分都是根據(jù)字幕像素在時(shí)間域的變化來檢測(cè)圖像中是否含有字幕，但是這種算法受限于字幕的位置、形狀和大小，極易受到場(chǎng)景轉(zhuǎn)換的影響。

3.2 字幕區(qū)域的定位和提取

字幕區(qū)域的定位及提取是字幕提取技術(shù)的關(guān)鍵環(huán)節(jié)，其正確性直接影響最終的識(shí)別效果。但由于字幕在字體、大小、對(duì)齊方式和排列方式方面具有很大的變化，以及有時(shí)受背景與標(biāo)題對(duì)比不明顯，圖像分辨率低下的影響，到目前為止，很難找到一個(gè)最優(yōu)算法來定位字幕區(qū)域。許多研究工作者做了很多研究工作，如Smith等人提出了一種在視頻幀中檢測(cè)文本的算法［2］。該算法將文本看作是具有聚類邊的水平矩形結(jié)構(gòu)并利用這個(gè)特征識(shí)別幀中文本，并且利用在連續(xù)多幀中出現(xiàn)的相同文本來增強(qiáng)檢測(cè)性能。T.Sato等人提出如下算法［3］:首先用一個(gè)3×3水平差分濾波器對(duì)整個(gè)圖像進(jìn)行處理，再用合適的二值化門限提取垂直邊緣特征，通過檢測(cè)聚合部分和計(jì)算它周圍的矩形指定出獨(dú)立的字幕區(qū)域。蔡波等人提出一種算法［4］:該方法首先進(jìn)行邊緣檢測(cè)、閾值計(jì)算和邊緣尺寸限制，最依據(jù)文字象素密度范圍進(jìn)一步濾去非文字區(qū)域的視頻字幕。

對(duì)比分析現(xiàn)有的幾種方法，我們可得:(1)利用紋理特征的方法，能夠檢測(cè)出復(fù)雜背景下的文字，但計(jì)算量大，穩(wěn)定性不好。(2)基于模糊C－均值聚類算法，很難找到合適的C—均值聚類算法的初始聚類中心，并且需要利用到新聞字幕條的顏色特征。然而不同節(jié)目的新聞字幕條顏色差異很大，如新聞聯(lián)播是白底藍(lán)字，北京新聞是紅底白字，很難找到統(tǒng)一的標(biāo)準(zhǔn)，因此需要根據(jù)節(jié)目不同選取不同的初始聚類中心。(3)基于機(jī)器學(xué)習(xí)的方法，其檢測(cè)效果較好，但算法復(fù)雜，需事先有樣本進(jìn)行學(xué)習(xí)分類器的訓(xùn)練。(4)基于邊緣檢測(cè)的方法，簡(jiǎn)單易行，但需要參數(shù)的約束設(shè)置，錯(cuò)檢和漏檢率比較高。

3.3 字幕分割和字幕識(shí)別

字幕分割也是圖像分割的一部分，就是把字幕區(qū)域圖像分成若干個(gè)特定的、具有獨(dú)特性質(zhì)的區(qū)域。現(xiàn)有的圖像分割方法主要分以下幾類:基于閾值的分割方法、基于區(qū)域的分割方法、基于邊緣的分割方法以及基于特定理論的分割方法等。其中閾值分割是一種簡(jiǎn)單高效的圖像分割技術(shù)，閾值分割［6］有很多種方法:最大類間方差法，基于熵的閾值分割法、最小誤差法，共生矩陣法，矩量保持法，簡(jiǎn)單統(tǒng)計(jì)法，概率松弛法，模糊集法以及與其他方法相結(jié)合的閾值分割法。

字幕識(shí)別是整個(gè)提取技術(shù)的最后一步，這一技術(shù)的識(shí)別效果直接關(guān)系到整個(gè)提取方法的優(yōu)劣性的評(píng)價(jià)。現(xiàn)有的關(guān)于OCR識(shí)別的方法錯(cuò)綜復(fù)雜，一定時(shí)間內(nèi)很難研究和改進(jìn)出最優(yōu)的算法，同時(shí)現(xiàn)有的OCR識(shí)別軟件效果已經(jīng)很不錯(cuò)。所以，我們暫且沒有對(duì)于這一部分進(jìn)行研究，而是選在現(xiàn)有的OCR識(shí)別軟件完成字幕識(shí)別。

4 廣電內(nèi)容監(jiān)測(cè)中視頻字幕提取的實(shí)現(xiàn)

視頻字幕提取包括很多步驟，每一個(gè)步驟又有很多算法。一個(gè)算法在視頻類型、大小、分辨率等方面不同時(shí)，所展現(xiàn)出的效果往往是不同的。對(duì)于廣電內(nèi)容監(jiān)測(cè)，必須考慮準(zhǔn)確性，時(shí)效性等多方面的因素。所以需要結(jié)合視頻的類型，分析現(xiàn)有的算法，綜合考慮其對(duì)于整個(gè)過程的影響，最終確定各個(gè)環(huán)節(jié)的算法。該實(shí)現(xiàn)主要包括兩方面的內(nèi)容:算法設(shè)計(jì)和仿真實(shí)現(xiàn)。

4.1 廣電內(nèi)容監(jiān)測(cè)中視頻字幕提取算法的設(shè)計(jì)

4.1.1 字幕事件檢測(cè)的算法

本文的實(shí)現(xiàn)過程以新聞視頻為例，通過上面的新聞視頻的特點(diǎn)分析，我們得出:新聞標(biāo)題字幕幀中的字幕和背景對(duì)比明顯，標(biāo)題字幕周圍會(huì)有一個(gè)單一顏色的矩形框與背景分別開，經(jīng)邊緣檢測(cè)［5］后會(huì)出現(xiàn)邊框，通過邊框可以完成字幕幀的初步檢測(cè)，如圖3所示。

圖3 邊緣檢測(cè)效果圖

首先對(duì)幾種邊緣檢測(cè)算子檢測(cè)字幕邊框的效果進(jìn)行了分析對(duì)比，得出:Roberts算子檢測(cè)出來的字較為清晰，但字幕邊框有斷裂現(xiàn)象。Sobel算子和Prewitt算子檢測(cè)邊框效果較好，但相比于Roberts算子，有的文字有缺筆畫現(xiàn)象。canny算子檢測(cè)出的文字不清晰，字幕邊框效果也不好。綜合考慮，進(jìn)行字幕邊框檢測(cè)使用Prewitt算子。在提取字幕幀后，選擇Roberts算子來進(jìn)行字幕間幀差，剔除重復(fù)字幕幀。

經(jīng)過Prewitt邊緣檢測(cè)后，圖像中帶有邊緣框的字幕有兩種，一種是本文主要檢測(cè)的主題字幕，另一種是我們現(xiàn)在暫不考慮的人物采訪時(shí)的對(duì)話字幕，這種字幕幀是需要去除。繼續(xù)分析新聞視頻的主題字幕，以中央電視臺(tái)新聞節(jié)目為例，標(biāo)題字幕和對(duì)話框字幕存在最大的區(qū)別是:標(biāo)題字幕的字幕區(qū)域背景顏色是白色，字是藍(lán)色。對(duì)話字幕的字幕區(qū)域背景顏色是白色，字也是白色。所以在邊緣檢測(cè)后，采用顏色統(tǒng)計(jì)的方法去除人物對(duì)話字幕幀，完成字幕幀進(jìn)一步檢測(cè)。

我們還要考慮另外一點(diǎn)，在新聞視頻中，同一字幕會(huì)在連續(xù)幾幀的固定位置出現(xiàn)，大約持續(xù)5到20秒不等。經(jīng)過上面兩步操作保留下來的幀圖像會(huì)包含大量相同的字幕幀，為了減少后面的計(jì)算量，保證每一個(gè)字幕幀只被進(jìn)行一次操作。本文每5秒抽取一幀，同時(shí)利用幀差法，將相同的字幕幀去除。

結(jié)合以上分析，字幕事件檢測(cè)的大致流程是:利用FFMPEG將視頻流轉(zhuǎn)化為幀圖像，每隔五秒抽取一幀，灰度化處理，分別用Prewitt算子和Roberts算子處理灰度圖像，統(tǒng)計(jì)經(jīng)過Prewitt算子邊緣檢測(cè)后圖像中各行連續(xù)邊緣像素的數(shù)量，設(shè)置閾值，判斷是否有邊框。在確定存在邊框的前提下，統(tǒng)計(jì)原彩色圖像大致字幕區(qū)域的字體顏色的數(shù)量，以中央電視臺(tái)為例，統(tǒng)計(jì)藍(lán)色的數(shù)量，設(shè)置閾值范圍，判斷是否為主題字幕幀。在確定為主題字幕幀后，就是將Roberts算子處理的邊緣檢測(cè)圖像與前一幀的同樣的圖像相減，去除重復(fù)的字幕幀。最后將含有主題字幕的圖像編號(hào)保存。大致步驟如圖4所示:

4.1.2 字幕區(qū)域定位、提取的算法

結(jié)合前面的字幕事件檢測(cè)的有關(guān)操作，本文選擇采用邊緣檢測(cè)的方法完成字幕區(qū)域的初步定位，然后考慮標(biāo)題文字的位置及區(qū)域大小、文字自身大小、文字區(qū)域像素密度等特征來完成字幕區(qū)域的定位。

由于新聞視頻中的標(biāo)題字幕都出現(xiàn)在圖像的最下面的四分之一區(qū)域，所以定位和提取只考慮圖像的最下面的四分之一區(qū)域。具體做法是:

圖4 字幕事件檢測(cè)步驟

步驟1:將標(biāo)記好的帶有主題字幕的圖像進(jìn)行灰度化，然后用Prewitt算子進(jìn)行邊緣檢測(cè)。

步驟2:定位字幕行

·計(jì)算圖像中各行邊緣像素值，同時(shí)求行均值，記為t1。

·尋找出邊緣圖像中行邊緣像素值大于t1的行，繼續(xù)計(jì)算這些行邊緣像素的均值，做為行區(qū)域定位的閾值，記為T。

·遍歷圖像的下四分之一區(qū)域，找出區(qū)域中滿足大于T的行，標(biāo)記好其位置。

·根據(jù)字幕區(qū)域大小限制以及字幕漢字高度一般要大于5個(gè)像素值且小于48個(gè)像素值，去除不相鄰的行并合并間隔小于三的行區(qū)域，然后去除高度小于5和大于48的行區(qū)域，最后標(biāo)記好滿足上述條件的字幕行的位置。

步驟3:定位字幕列

將已標(biāo)記好的各個(gè)字幕行區(qū)域在原字幕幀圖像中提取出來，然后針對(duì)列向量，對(duì)這些圖像重復(fù)步驟2的操作。標(biāo)記好各個(gè)行區(qū)域中滿足條件的列位置，從而完成字幕區(qū)域的定位。

步驟4:字幕區(qū)域提取

為了保證字幕的完整性，將字幕行區(qū)域上下增加兩行，字幕列區(qū)域左右增加兩列，并將其從原圖像中提取出來，保存。如圖5所示:

圖5 提取出來的字幕區(qū)域

4.1.3 字幕分割和識(shí)別的算法

本文使用現(xiàn)有的OCR軟件進(jìn)行識(shí)別，只需把背景和目標(biāo)區(qū)分開，所以選擇基于閾值的分割法。在有關(guān)閾值的分割算法中，最常用并且效果比較好的是最大類間方差法，即Otsu算法，通過最大化類間方差選擇一個(gè)全局最優(yōu)的閾值，使得背景和目標(biāo)之間分離性最好，實(shí)現(xiàn)圖像的二值化。為了能夠簡(jiǎn)單實(shí)現(xiàn)，在兼顧效果的同時(shí)提高運(yùn)算速度，本文將類間距離公式做了簡(jiǎn)化，即

在完成字幕區(qū)域的圖像二值化后，選取現(xiàn)有的比較成熟的OCR識(shí)別軟件，將二值化圖像送入OCR軟件完成識(shí)別。

4.2 仿真實(shí)現(xiàn)

根據(jù)上文各個(gè)環(huán)節(jié)選擇的有關(guān)算法，利用matlab及漢王OCR識(shí)別軟件完成仿真實(shí)驗(yàn)。首先利用邊緣檢測(cè)技術(shù)及新聞視頻字幕的特點(diǎn)進(jìn)行關(guān)鍵幀的提取，即字幕事件檢測(cè)，接下來就是對(duì)提取到字幕幀進(jìn)行字幕區(qū)域的定位、提取，然后選擇合適的閾值對(duì)提取出來的字幕區(qū)域進(jìn)行二值化，完成字幕的分割，最后將二值化的字幕送入OCR軟件，完成識(shí)別。實(shí)驗(yàn)流程如圖6所示:

圖6 字幕提取流程

5 實(shí)驗(yàn)結(jié)果分析

選取幾段不同的新聞聯(lián)播視頻進(jìn)行仿真測(cè)試，對(duì)于實(shí)現(xiàn)過程的各個(gè)部分的優(yōu)劣性進(jìn)行評(píng)價(jià)，由于本文并未對(duì)OCR識(shí)別進(jìn)行研究，所以我們著重考慮字幕事件檢測(cè)和字幕區(qū)域的定位和提取兩個(gè)方面。

對(duì)于字幕事件檢測(cè)，我們用查準(zhǔn)率和查全率來衡量，查準(zhǔn)率指正確檢測(cè)出的字幕幀占檢測(cè)出的字幕幀的比率，查全率指正確檢測(cè)出的字幕幀數(shù)占實(shí)際的字幕幀總數(shù)的比率。實(shí)驗(yàn)結(jié)果如表1所示:

表1 字幕幀檢測(cè)結(jié)果

通過上表我們可以得出，對(duì)于各段視頻基本上都能將全部的字幕幀檢測(cè)出來，即查全率幾乎能達(dá)到100%，但檢測(cè)出來的圖像中含有很多重復(fù)的字幕幀和沒有字幕的圖像幀，即查準(zhǔn)率不高。因此，我們選取的字幕幀檢測(cè)算法不會(huì)發(fā)生漏檢的情況，可以滿足內(nèi)容監(jiān)測(cè)的全面性的需要，但是會(huì)發(fā)生錯(cuò)檢的情況，把沒有字幕的圖像幀保存下來，這樣會(huì)加大系統(tǒng)的存儲(chǔ)量和運(yùn)算量，這樣會(huì)給系統(tǒng)的實(shí)時(shí)性帶來很大的麻煩，需要我們?cè)谝院蟮难芯恐懈倪M(jìn)現(xiàn)有的算法，提高其準(zhǔn)確率。

對(duì)于字幕區(qū)域的定位和提取，我們用正確檢測(cè)出來的字幕幀進(jìn)行實(shí)驗(yàn)，定位和提取字幕區(qū)域準(zhǔn)確率在80%以上，錯(cuò)誤主要是區(qū)域提取不完整。同時(shí)考慮網(wǎng)絡(luò)環(huán)境對(duì)于該部分的影響，選取一段視頻進(jìn)行不同分辨率的變換，得到各種尺寸大小的圖像，進(jìn)行定位和提取。分辨率過高，定位和提取的效果不好，分辨率過低，分割的效果不好。當(dāng)分辨率滿足要求時(shí)，總體的定位和分割效果比較理想，錯(cuò)誤主要集中在字幕的結(jié)尾處，字幕區(qū)域的底色漸漸融入背景，使字幕與背景對(duì)比度變差。

6 結(jié)論

對(duì)于字幕提取，有很多專家學(xué)者在研究，也提出了很多不同的算法。本文對(duì)其相關(guān)技術(shù)進(jìn)行了綜述分析，又以新聞視頻為例，選取合適的算法進(jìn)行了仿真實(shí)驗(yàn)。選取了不同分辨率的新聞視頻進(jìn)行了測(cè)試，指出了分辨率對(duì)字幕識(shí)別的影響。

但是本文選取的視頻還比較單一，尤其是字幕事件檢測(cè)算法對(duì)于視頻的類型要求比較嚴(yán)格，算法的魯棒性比較差。在以后的工作中，擴(kuò)大視頻的選材范圍，對(duì)于字幕提取的相關(guān)算法進(jìn)行改進(jìn)，著手研究OCR識(shí)別部分。爭(zhēng)取早日完成系統(tǒng)實(shí)現(xiàn)，進(jìn)行實(shí)時(shí)的內(nèi)容監(jiān)測(cè)試驗(yàn)。

［1］李默，李弼程，蘇大偉.新聞視頻中標(biāo)題條檢測(cè)及文字內(nèi)容提取算法［J］.電視技術(shù)，1002－8692(2005)08－0147－03.

［2］M A Smith，T Kanade.Video skimming for quick browsing based on audio and image Characterization Camegie Mellonniv.Pittsburgh PA，Tech ReP，CMU －CS－95 －186，1995，6.

［3］T Sato，T Kanade，E K Jughes，M A Smith and S Satoh.Video OCR:indexing digital news libraries by recognition of superimposed captions.ACM Multimedia Systems:Special Issue on Video Libraries.1999，7(5):385 －395.

［4］蔡波，周洞汝，胡宏斌.數(shù)字視頻中字幕檢測(cè)及提取的研究和實(shí)現(xiàn)［J］.計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào)，2003，15(7):898 －903.

［5］孫慧，周紅霞，李朝暉.圖像處理中邊緣檢測(cè)技術(shù)的研究［J］.電腦開發(fā)與應(yīng)用，2002，15(10):7－9.

［6］齊麗娜，張博，王戰(zhàn)凱.最大類間方差法在圖像處理中的應(yīng)用［J］.無線電工程，2006，36(7).

［7］Kim E Y，Kim K I，Jung K aIld Kim H J.A video indexing system using character ecognition.International C0nference on ConsIlⅡ ler Electronics，2000:358－359.