李春朋,齊忠文,王翾
(1.中國傳媒大學(xué)廣播電視數(shù)字化教育部工程研究中心,北京 100024;2.國家新聞出版廣電總局哈爾濱監(jiān)測(cè)臺(tái),哈爾濱 150089)
隨著現(xiàn)代廣播電視數(shù)字化技術(shù)的迅猛發(fā)展,全國各地市都已經(jīng)或者正在建立自己的數(shù)字系統(tǒng)。監(jiān)測(cè)工作的重心已有過去的播出質(zhì)量效果監(jiān)測(cè)為主逐漸向著兼顧內(nèi)容監(jiān)測(cè)發(fā)展,不僅要確保節(jié)目的正常播出,還需要了解和掌控各套節(jié)目的內(nèi)容。字幕是視頻內(nèi)容的高度概括,如果能被自動(dòng)的檢測(cè)、分割、識(shí)別出來,可以很容易的實(shí)現(xiàn)對(duì)播出內(nèi)容的掌控。所以,視頻字幕提取技術(shù)被看做當(dāng)前廣電實(shí)現(xiàn)內(nèi)容監(jiān)測(cè)的主要技術(shù)之一,引起了大家的關(guān)注與研究。
本文對(duì)于字幕提取各個(gè)相關(guān)技術(shù)的研究現(xiàn)狀及其有關(guān)方法進(jìn)行了綜述分析,針對(duì)廣電監(jiān)測(cè),以新聞視頻為例,設(shè)計(jì)視頻字幕提取的有關(guān)算法,進(jìn)行了實(shí)驗(yàn)仿真分析。針對(duì)網(wǎng)絡(luò)傳輸易造成圖像質(zhì)量下降的因素,選取不同分辨率的視頻進(jìn)行了測(cè)試,驗(yàn)證了字幕提取技術(shù)在廣電內(nèi)容監(jiān)測(cè)中的應(yīng)用。
新聞視頻是日常生活中接受外界信息的重要途徑之一,其字幕有很多固定的特點(diǎn)。本文選取新聞視頻進(jìn)行實(shí)驗(yàn)仿真,必須分析新聞視頻字幕的有關(guān)特點(diǎn),以便在后續(xù)的實(shí)驗(yàn)分析中結(jié)合其特點(diǎn)選取行之有效的方法。
新聞視頻的字幕可以分為兩類,場(chǎng)景字幕和標(biāo)注字幕。場(chǎng)景字幕是攝像機(jī)拍攝到的,是圖像的一部分,如新聞視頻中所拍攝的文字,車牌號(hào)等,如圖1所示,字幕出現(xiàn)的時(shí)間、位置大小都不固定,并且與背景對(duì)比不大,此種字幕比較復(fù)雜,難以識(shí)別檢測(cè),并且沒有實(shí)際意義,一般我們不會(huì)提取此字幕。標(biāo)注字幕是通過后期合成加入視頻中的,包含了對(duì)當(dāng)前新聞視頻內(nèi)容的高級(jí)語義的信息描述。此類字幕包括:新聞視頻的片頭片尾字幕,采訪中的人物對(duì)話,和概括新聞事件人物時(shí)間地點(diǎn)的標(biāo)題字幕,其中標(biāo)題字幕是我們需要的一類,如圖2所示。
視頻中字幕所包含的特征十分豐富,尤其是標(biāo)注字幕,因?yàn)樗际呛笃诩由先サ?,一般都?huì)遵循一定的規(guī)則。對(duì)于新聞中標(biāo)題字幕的特征[1],主要有以下幾點(diǎn):
(1)新聞視頻中的字幕都有一定的尺寸,同一個(gè)新聞節(jié)目,字幕的尺寸是固定的,寬和高有一定的比例,字與字之間的空隙也是一定的,并且采用通用而且規(guī)范化的粗筆畫字體如黑體和宋體。
(2)字幕與背景之間有較強(qiáng)的邊緣,字幕都有一個(gè)單一顏色的矩形框作為背景,此背景的顏色與視頻中大背景有較強(qiáng)的對(duì)比,并且字的顏色與字幕背景的顏色也有一定的對(duì)比度。
(3)字幕的位置在同一套新聞視頻中是固定的。
(4)字幕的顯示都有一定的持續(xù)時(shí)間,根據(jù)統(tǒng)計(jì),字幕的持續(xù)時(shí)間最少為5秒,一般在5秒到20秒不等。
以中央電視臺(tái)新聞聯(lián)播為例,從圖2中可以看到,文字以白底為主,到文字末尾會(huì)有漸進(jìn)的背景顏色摻入,文字顏色為藍(lán)色,與背景有較大差別,有很強(qiáng)的識(shí)別度。
圖1 場(chǎng)景字幕
圖2 標(biāo)準(zhǔn)字幕
視頻字幕提取主要包括字幕事件檢測(cè),字幕區(qū)域定位和提取,字幕分割,字幕識(shí)別等相關(guān)技術(shù)。國內(nèi)外很多學(xué)者對(duì)字幕提取進(jìn)行了研究,對(duì)于其相關(guān)技術(shù)提出了很多方法。
在一個(gè)視頻序列中,許多圖像中不含有字幕并且很多圖像中的字幕是重復(fù)的,如果對(duì)每一幀圖像都進(jìn)行字幕的定位和提取,必然會(huì)浪費(fèi)很多時(shí)間。字幕檢測(cè)作為視頻字幕提取技術(shù)的第一步,可以避免對(duì)每一幀圖像都進(jìn)行耗時(shí)的字幕區(qū)域的定位和提取,以及后續(xù)的字幕識(shí)別,從而提高算法的效率。
對(duì)于字幕事件檢測(cè),Kim[7]等人提出一種算法:用場(chǎng)景轉(zhuǎn)換檢測(cè)方法從視頻中選擇一幀作為包含文本的候選幀,在場(chǎng)景圖像中每隔2秒選取一幀作為含有字幕的候選圖像,然后對(duì)比兩幀圖像,判斷是否含有字幕。蔡波[4]等人提出用相鄰兩幀圖像之間的局部歐式直方圖的差值來檢測(cè)字幕事件。
總結(jié)現(xiàn)有的字幕檢測(cè)算法,大部分都是根據(jù)字幕像素在時(shí)間域的變化來檢測(cè)圖像中是否含有字幕,但是這種算法受限于字幕的位置、形狀和大小,極易受到場(chǎng)景轉(zhuǎn)換的影響。
字幕區(qū)域的定位及提取是字幕提取技術(shù)的關(guān)鍵環(huán)節(jié),其正確性直接影響最終的識(shí)別效果。但由于字幕在字體、大小、對(duì)齊方式和排列方式方面具有很大的變化,以及有時(shí)受背景與標(biāo)題對(duì)比不明顯,圖像分辨率低下的影響,到目前為止,很難找到一個(gè)最優(yōu)算法來定位字幕區(qū)域。許多研究工作者做了很多研究工作,如Smith等人提出了一種在視頻幀中檢測(cè)文本的算法[2]。該算法將文本看作是具有聚類邊的水平矩形結(jié)構(gòu)并利用這個(gè)特征識(shí)別幀中文本,并且利用在連續(xù)多幀中出現(xiàn)的相同文本來增強(qiáng)檢測(cè)性能。T.Sato等人提出如下算法[3]:首先用一個(gè)3×3水平差分濾波器對(duì)整個(gè)圖像進(jìn)行處理,再用合適的二值化門限提取垂直邊緣特征,通過檢測(cè)聚合部分和計(jì)算它周圍的矩形指定出獨(dú)立的字幕區(qū)域。蔡波等人提出一種算法[4]:該方法首先進(jìn)行邊緣檢測(cè)、閾值計(jì)算和邊緣尺寸限制,最依據(jù)文字象素密度范圍進(jìn)一步濾去非文字區(qū)域的視頻字幕。
對(duì)比分析現(xiàn)有的幾種方法,我們可得:(1)利用紋理特征的方法,能夠檢測(cè)出復(fù)雜背景下的文字,但計(jì)算量大,穩(wěn)定性不好。(2)基于模糊C-均值聚類算法,很難找到合適的C—均值聚類算法的初始聚類中心,并且需要利用到新聞字幕條的顏色特征。然而不同節(jié)目的新聞字幕條顏色差異很大,如新聞聯(lián)播是白底藍(lán)字,北京新聞是紅底白字,很難找到統(tǒng)一的標(biāo)準(zhǔn),因此需要根據(jù)節(jié)目不同選取不同的初始聚類中心。(3)基于機(jī)器學(xué)習(xí)的方法,其檢測(cè)效果較好,但算法復(fù)雜,需事先有樣本進(jìn)行學(xué)習(xí)分類器的訓(xùn)練。(4)基于邊緣檢測(cè)的方法,簡(jiǎn)單易行,但需要參數(shù)的約束設(shè)置,錯(cuò)檢和漏檢率比較高。
字幕分割也是圖像分割的一部分,就是把字幕區(qū)域圖像分成若干個(gè)特定的、具有獨(dú)特性質(zhì)的區(qū)域。現(xiàn)有的圖像分割方法主要分以下幾類:基于閾值的分割方法、基于區(qū)域的分割方法、基于邊緣的分割方法以及基于特定理論的分割方法等。其中閾值分割是一種簡(jiǎn)單高效的圖像分割技術(shù),閾值分割[6]有很多種方法:最大類間方差法,基于熵的閾值分割法、最小誤差法,共生矩陣法,矩量保持法,簡(jiǎn)單統(tǒng)計(jì)法,概率松弛法,模糊集法以及與其他方法相結(jié)合的閾值分割法。
字幕識(shí)別是整個(gè)提取技術(shù)的最后一步,這一技術(shù)的識(shí)別效果直接關(guān)系到整個(gè)提取方法的優(yōu)劣性的評(píng)價(jià)。現(xiàn)有的關(guān)于OCR識(shí)別的方法錯(cuò)綜復(fù)雜,一定時(shí)間內(nèi)很難研究和改進(jìn)出最優(yōu)的算法,同時(shí)現(xiàn)有的OCR識(shí)別軟件效果已經(jīng)很不錯(cuò)。所以,我們暫且沒有對(duì)于這一部分進(jìn)行研究,而是選在現(xiàn)有的OCR識(shí)別軟件完成字幕識(shí)別。
視頻字幕提取包括很多步驟,每一個(gè)步驟又有很多算法。一個(gè)算法在視頻類型、大小、分辨率等方面不同時(shí),所展現(xiàn)出的效果往往是不同的。對(duì)于廣電內(nèi)容監(jiān)測(cè),必須考慮準(zhǔn)確性,時(shí)效性等多方面的因素。所以需要結(jié)合視頻的類型,分析現(xiàn)有的算法,綜合考慮其對(duì)于整個(gè)過程的影響,最終確定各個(gè)環(huán)節(jié)的算法。該實(shí)現(xiàn)主要包括兩方面的內(nèi)容:算法設(shè)計(jì)和仿真實(shí)現(xiàn)。
4.1.1 字幕事件檢測(cè)的算法
本文的實(shí)現(xiàn)過程以新聞視頻為例,通過上面的新聞視頻的特點(diǎn)分析,我們得出:新聞標(biāo)題字幕幀中的字幕和背景對(duì)比明顯,標(biāo)題字幕周圍會(huì)有一個(gè)單一顏色的矩形框與背景分別開,經(jīng)邊緣檢測(cè)[5]后會(huì)出現(xiàn)邊框,通過邊框可以完成字幕幀的初步檢測(cè),如圖3所示。
圖3 邊緣檢測(cè)效果圖
首先對(duì)幾種邊緣檢測(cè)算子檢測(cè)字幕邊框的效果進(jìn)行了分析對(duì)比,得出:Roberts算子檢測(cè)出來的字較為清晰,但字幕邊框有斷裂現(xiàn)象。Sobel算子和Prewitt算子檢測(cè)邊框效果較好,但相比于Roberts算子,有的文字有缺筆畫現(xiàn)象。canny算子檢測(cè)出的文字不清晰,字幕邊框效果也不好。綜合考慮,進(jìn)行字幕邊框檢測(cè)使用Prewitt算子。在提取字幕幀后,選擇Roberts算子來進(jìn)行字幕間幀差,剔除重復(fù)字幕幀。
經(jīng)過Prewitt邊緣檢測(cè)后,圖像中帶有邊緣框的字幕有兩種,一種是本文主要檢測(cè)的主題字幕,另一種是我們現(xiàn)在暫不考慮的人物采訪時(shí)的對(duì)話字幕,這種字幕幀是需要去除。繼續(xù)分析新聞視頻的主題字幕,以中央電視臺(tái)新聞節(jié)目為例,標(biāo)題字幕和對(duì)話框字幕存在最大的區(qū)別是:標(biāo)題字幕的字幕區(qū)域背景顏色是白色,字是藍(lán)色。對(duì)話字幕的字幕區(qū)域背景顏色是白色,字也是白色。所以在邊緣檢測(cè)后,采用顏色統(tǒng)計(jì)的方法去除人物對(duì)話字幕幀,完成字幕幀進(jìn)一步檢測(cè)。
我們還要考慮另外一點(diǎn),在新聞視頻中,同一字幕會(huì)在連續(xù)幾幀的固定位置出現(xiàn),大約持續(xù)5到20秒不等。經(jīng)過上面兩步操作保留下來的幀圖像會(huì)包含大量相同的字幕幀,為了減少后面的計(jì)算量,保證每一個(gè)字幕幀只被進(jìn)行一次操作。本文每5秒抽取一幀,同時(shí)利用幀差法,將相同的字幕幀去除。
結(jié)合以上分析,字幕事件檢測(cè)的大致流程是:利用FFMPEG將視頻流轉(zhuǎn)化為幀圖像,每隔五秒抽取一幀,灰度化處理,分別用Prewitt算子和Roberts算子處理灰度圖像,統(tǒng)計(jì)經(jīng)過Prewitt算子邊緣檢測(cè)后圖像中各行連續(xù)邊緣像素的數(shù)量,設(shè)置閾值,判斷是否有邊框。在確定存在邊框的前提下,統(tǒng)計(jì)原彩色圖像大致字幕區(qū)域的字體顏色的數(shù)量,以中央電視臺(tái)為例,統(tǒng)計(jì)藍(lán)色的數(shù)量,設(shè)置閾值范圍,判斷是否為主題字幕幀。在確定為主題字幕幀后,就是將Roberts算子處理的邊緣檢測(cè)圖像與前一幀的同樣的圖像相減,去除重復(fù)的字幕幀。最后將含有主題字幕的圖像編號(hào)保存。大致步驟如圖4所示:
4.1.2 字幕區(qū)域定位、提取的算法
結(jié)合前面的字幕事件檢測(cè)的有關(guān)操作,本文選擇采用邊緣檢測(cè)的方法完成字幕區(qū)域的初步定位,然后考慮標(biāo)題文字的位置及區(qū)域大小、文字自身大小、文字區(qū)域像素密度等特征來完成字幕區(qū)域的定位。
由于新聞視頻中的標(biāo)題字幕都出現(xiàn)在圖像的最下面的四分之一區(qū)域,所以定位和提取只考慮圖像的最下面的四分之一區(qū)域。具體做法是:
圖4 字幕事件檢測(cè)步驟
步驟1:將標(biāo)記好的帶有主題字幕的圖像進(jìn)行灰度化,然后用Prewitt算子進(jìn)行邊緣檢測(cè)。
步驟2:定位字幕行
·計(jì)算圖像中各行邊緣像素值,同時(shí)求行均值,記為t1。
·尋找出邊緣圖像中行邊緣像素值大于t1的行,繼續(xù)計(jì)算這些行邊緣像素的均值,做為行區(qū)域定位的閾值,記為T。
·遍歷圖像的下四分之一區(qū)域,找出區(qū)域中滿足大于T的行,標(biāo)記好其位置。
·根據(jù)字幕區(qū)域大小限制以及字幕漢字高度一般要大于5個(gè)像素值且小于48個(gè)像素值,去除不相鄰的行并合并間隔小于三的行區(qū)域,然后去除高度小于5和大于48的行區(qū)域,最后標(biāo)記好滿足上述條件的字幕行的位置。
步驟3:定位字幕列
將已標(biāo)記好的各個(gè)字幕行區(qū)域在原字幕幀圖像中提取出來,然后針對(duì)列向量,對(duì)這些圖像重復(fù)步驟2的操作。標(biāo)記好各個(gè)行區(qū)域中滿足條件的列位置,從而完成字幕區(qū)域的定位。
步驟4:字幕區(qū)域提取
為了保證字幕的完整性,將字幕行區(qū)域上下增加兩行,字幕列區(qū)域左右增加兩列,并將其從原圖像中提取出來,保存。如圖5所示:
圖5 提取出來的字幕區(qū)域
4.1.3 字幕分割和識(shí)別的算法
本文使用現(xiàn)有的OCR軟件進(jìn)行識(shí)別,只需把背景和目標(biāo)區(qū)分開,所以選擇基于閾值的分割法。在有關(guān)閾值的分割算法中,最常用并且效果比較好的是最大類間方差法,即Otsu算法,通過最大化類間方差選擇一個(gè)全局最優(yōu)的閾值,使得背景和目標(biāo)之間分離性最好,實(shí)現(xiàn)圖像的二值化。為了能夠簡(jiǎn)單實(shí)現(xiàn),在兼顧效果的同時(shí)提高運(yùn)算速度,本文將類間距離公式做了簡(jiǎn)化,即
在完成字幕區(qū)域的圖像二值化后,選取現(xiàn)有的比較成熟的OCR識(shí)別軟件,將二值化圖像送入OCR軟件完成識(shí)別。
根據(jù)上文各個(gè)環(huán)節(jié)選擇的有關(guān)算法,利用matlab及漢王OCR識(shí)別軟件完成仿真實(shí)驗(yàn)。首先利用邊緣檢測(cè)技術(shù)及新聞視頻字幕的特點(diǎn)進(jìn)行關(guān)鍵幀的提取,即字幕事件檢測(cè),接下來就是對(duì)提取到字幕幀進(jìn)行字幕區(qū)域的定位、提取,然后選擇合適的閾值對(duì)提取出來的字幕區(qū)域進(jìn)行二值化,完成字幕的分割,最后將二值化的字幕送入OCR軟件,完成識(shí)別。實(shí)驗(yàn)流程如圖6所示:
圖6 字幕提取流程
選取幾段不同的新聞聯(lián)播視頻進(jìn)行仿真測(cè)試,對(duì)于實(shí)現(xiàn)過程的各個(gè)部分的優(yōu)劣性進(jìn)行評(píng)價(jià),由于本文并未對(duì)OCR識(shí)別進(jìn)行研究,所以我們著重考慮字幕事件檢測(cè)和字幕區(qū)域的定位和提取兩個(gè)方面。
對(duì)于字幕事件檢測(cè),我們用查準(zhǔn)率和查全率來衡量,查準(zhǔn)率指正確檢測(cè)出的字幕幀占檢測(cè)出的字幕幀的比率,查全率指正確檢測(cè)出的字幕幀數(shù)占實(shí)際的字幕幀總數(shù)的比率。實(shí)驗(yàn)結(jié)果如表1所示:
表1 字幕幀檢測(cè)結(jié)果
通過上表我們可以得出,對(duì)于各段視頻基本上都能將全部的字幕幀檢測(cè)出來,即查全率幾乎能達(dá)到100%,但檢測(cè)出來的圖像中含有很多重復(fù)的字幕幀和沒有字幕的圖像幀,即查準(zhǔn)率不高。因此,我們選取的字幕幀檢測(cè)算法不會(huì)發(fā)生漏檢的情況,可以滿足內(nèi)容監(jiān)測(cè)的全面性的需要,但是會(huì)發(fā)生錯(cuò)檢的情況,把沒有字幕的圖像幀保存下來,這樣會(huì)加大系統(tǒng)的存儲(chǔ)量和運(yùn)算量,這樣會(huì)給系統(tǒng)的實(shí)時(shí)性帶來很大的麻煩,需要我們?cè)谝院蟮难芯恐懈倪M(jìn)現(xiàn)有的算法,提高其準(zhǔn)確率。
對(duì)于字幕區(qū)域的定位和提取,我們用正確檢測(cè)出來的字幕幀進(jìn)行實(shí)驗(yàn),定位和提取字幕區(qū)域準(zhǔn)確率在80%以上,錯(cuò)誤主要是區(qū)域提取不完整。同時(shí)考慮網(wǎng)絡(luò)環(huán)境對(duì)于該部分的影響,選取一段視頻進(jìn)行不同分辨率的變換,得到各種尺寸大小的圖像,進(jìn)行定位和提取。分辨率過高,定位和提取的效果不好,分辨率過低,分割的效果不好。當(dāng)分辨率滿足要求時(shí),總體的定位和分割效果比較理想,錯(cuò)誤主要集中在字幕的結(jié)尾處,字幕區(qū)域的底色漸漸融入背景,使字幕與背景對(duì)比度變差。
對(duì)于字幕提取,有很多專家學(xué)者在研究,也提出了很多不同的算法。本文對(duì)其相關(guān)技術(shù)進(jìn)行了綜述分析,又以新聞視頻為例,選取合適的算法進(jìn)行了仿真實(shí)驗(yàn)。選取了不同分辨率的新聞視頻進(jìn)行了測(cè)試,指出了分辨率對(duì)字幕識(shí)別的影響。
但是本文選取的視頻還比較單一,尤其是字幕事件檢測(cè)算法對(duì)于視頻的類型要求比較嚴(yán)格,算法的魯棒性比較差。在以后的工作中,擴(kuò)大視頻的選材范圍,對(duì)于字幕提取的相關(guān)算法進(jìn)行改進(jìn),著手研究OCR識(shí)別部分。爭(zhēng)取早日完成系統(tǒng)實(shí)現(xiàn),進(jìn)行實(shí)時(shí)的內(nèi)容監(jiān)測(cè)試驗(yàn)。
[1]李默,李弼程,蘇大偉.新聞視頻中標(biāo)題條檢測(cè)及文字內(nèi)容提取算法[J].電視技術(shù),1002-8692(2005)08-0147-03.
[2]M A Smith,T Kanade.Video skimming for quick browsing based on audio and image Characterization Camegie Mellonniv.Pittsburgh PA,Tech ReP,CMU -CS-95 -186,1995,6.
[3]T Sato,T Kanade,E K Jughes,M A Smith and S Satoh.Video OCR:indexing digital news libraries by recognition of superimposed captions.ACM Multimedia Systems:Special Issue on Video Libraries.1999,7(5):385 -395.
[4]蔡波,周洞汝,胡宏斌.數(shù)字視頻中字幕檢測(cè)及提取的研究和實(shí)現(xiàn)[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2003,15(7):898 -903.
[5]孫慧,周紅霞,李朝暉.圖像處理中邊緣檢測(cè)技術(shù)的研究[J].電腦開發(fā)與應(yīng)用,2002,15(10):7-9.
[6]齊麗娜,張博,王戰(zhàn)凱.最大類間方差法在圖像處理中的應(yīng)用[J].無線電工程,2006,36(7).
[7]Kim E Y,Kim K I,Jung K aIld Kim H J.A video indexing system using character ecognition.International C0nference on ConsIlⅡ ler Electronics,2000:358-359.