張 赟, 沈兵虎, 練益群
(浙江傳媒學(xué)院 浙江廣播電視技術(shù)研究所,浙江 杭州 310018)
媒資管理系統(tǒng)中新聞節(jié)目高效檢索的研究
張赟, 沈兵虎, 練益群
(浙江傳媒學(xué)院 浙江廣播電視技術(shù)研究所,浙江 杭州 310018)
摘要:提出了一種基于多特征融合的新聞節(jié)目高效檢索方法。該方法充分利用媒資管理系統(tǒng)中新聞視頻的文字描述和關(guān)鍵幀的圖像特征,能夠?qū)崿F(xiàn)視頻節(jié)目快速、準(zhǔn)確的檢索,提升新聞檢索的性能。將文字描述、人臉和場(chǎng)景圖像作為搜索項(xiàng),通過Fisherfaces和LBP算子相結(jié)合的人臉識(shí)別算法,以及基于重要性加權(quán)的局部直方圖匹配算法,實(shí)現(xiàn)樣例圖像與關(guān)鍵幀的匹配。實(shí)驗(yàn)結(jié)果表明,該方法能夠提升媒資管理系統(tǒng)中新聞節(jié)目檢索的準(zhǔn)確度和效率,滿足新媒體時(shí)代節(jié)目快速制作和發(fā)布的要求。
關(guān)鍵詞:媒資管理系統(tǒng);多特征;人臉識(shí)別;關(guān)鍵幀;新媒體
電視臺(tái)是以內(nèi)容生產(chǎn)為主的機(jī)構(gòu),以浙江廣電集團(tuán)為例,每年生產(chǎn)的節(jié)目總時(shí)長(zhǎng)約為1萬小時(shí),其中,新聞?lì)惞?jié)目約占20%。如何高效地管理和利用電視臺(tái)內(nèi)海量?jī)?yōu)質(zhì)的新聞資訊已經(jīng)成為當(dāng)前重要的研究課題。近年來,國內(nèi)大多數(shù)電視臺(tái)開始利用媒資管理系統(tǒng)[1](以下簡(jiǎn)稱“媒資系統(tǒng)”)實(shí)現(xiàn)海量視頻節(jié)目的數(shù)字化保存,其主要目標(biāo)是便于媒體信息的再利用、檢索和共享,并逐步實(shí)現(xiàn)傳統(tǒng)媒體向新媒體的融合。當(dāng)前,媒資系統(tǒng)主要采用基于文本的內(nèi)容組織和檢索方式[2]。該方法實(shí)現(xiàn)簡(jiǎn)單,效率較高,其檢索性能主要取決于編目?jī)?nèi)容的詳盡程度。然而,在新媒體平臺(tái)上,新聞節(jié)目大多以粗編目為主,其內(nèi)容描述比較簡(jiǎn)單,因此難以通過文字描述檢索到節(jié)目的具體內(nèi)容。例如,如果沒有把領(lǐng)導(dǎo)人的名字列入內(nèi)容描述,就無法檢索到某領(lǐng)導(dǎo)人曾經(jīng)參加過會(huì)議的重要鏡頭。此外,如果內(nèi)容描述過于復(fù)雜,會(huì)增加編目的時(shí)間和成本,也會(huì)造成檢索結(jié)果過多和準(zhǔn)確性的降低。
為了解決基于文字檢索方法的不足,近年來許多學(xué)者研究了大量基于特征匹配的檢索方式。張志偉[3]提出了基于人臉識(shí)別的媒資視頻檢索技術(shù)。王瑤[4]等人提出了基于多尺度訓(xùn)練庫與多特征融合的人臉識(shí)別。然而以上方法僅解決了人臉識(shí)別的關(guān)鍵問題,沒有能夠很好地與媒資系統(tǒng)相結(jié)合,且效率不高,難以實(shí)用。史云靜[5]等人提出了基于HSV空間的直方圖相似性度量方法檢索目標(biāo)圖像,利用局部二值模式作為檢索特征,然而該方法僅考慮顏色這一底層的特征,難以檢索具有語義的內(nèi)容,如人物、場(chǎng)景等。
在傳統(tǒng)的媒資系統(tǒng)中,新聞節(jié)目大多具有固定的結(jié)構(gòu)(主持人口播+新聞故事),能夠根據(jù)故事單元分割成多個(gè)片段,其中節(jié)目層和片段層包含了表示其重要信息的關(guān)鍵幀圖像?!耙粓D勝千言”,關(guān)鍵幀圖像包含了大量信息,如人物、場(chǎng)景、重要標(biāo)識(shí)等。因此,通過對(duì)關(guān)鍵幀圖像的分析和匹配,能夠獲取文字描述以外更豐富的信息,是文字描述的有效補(bǔ)充。為了提升當(dāng)前媒資系統(tǒng)的檢索性能,本文針對(duì)新聞節(jié)目提出了基于多特征融合的高效檢索方法。
1多特征融合的新聞檢索
圖1 新聞節(jié)目檢索系統(tǒng)流程圖
1.1人臉檢測(cè)
在新聞節(jié)目中,人物是非常重要的線索,如重要領(lǐng)導(dǎo)人、名人、主持人等,這些人物通常會(huì)出現(xiàn)在媒資系統(tǒng)的關(guān)鍵幀中。在媒資系統(tǒng)中,新聞視頻大多以低碼保存,分辨率和清晰度不高,且人臉姿勢(shì)和方向多變,這些都增加了人臉檢測(cè)的難度。首先針對(duì)新聞視頻的人物特征,建立人臉檢測(cè)分類器。本文采用基于不變特征量的Adaboost算法[6],通過多個(gè)級(jí)聯(lián)的基于Haar特征的弱分類器構(gòu)建出強(qiáng)分類器,實(shí)現(xiàn)人臉的準(zhǔn)確、實(shí)時(shí)檢測(cè)。如圖2所示,首先從媒資系統(tǒng)中采集包含人臉的樣本圖像,其中正樣本5 000個(gè),負(fù)樣本5 000個(gè),然后采通過Haar特征訓(xùn)練得到新聞節(jié)目中的人臉分類器,其中級(jí)聯(lián)分類器共22層,每層最低正確率為99.5%,錯(cuò)誤接受率為50%。最后將待檢測(cè)的圖像進(jìn)行灰度化和直方圖均衡化處理,利用訓(xùn)練得到的人臉分類器進(jìn)行多尺度的人臉檢測(cè)。
圖2 人臉檢測(cè)的流程圖
圖3給出了部分人臉檢測(cè)的結(jié)果??梢钥闯?,在非正臉和包含多張人臉的復(fù)雜場(chǎng)景下,也能取得較好的檢測(cè)效果。大量實(shí)驗(yàn)結(jié)果表明,人臉檢測(cè)的準(zhǔn)確率大于95%。為了更好地實(shí)現(xiàn)人臉識(shí)別,在包含多張人臉的圖像中,根據(jù)檢測(cè)區(qū)域的大小和位置,選取尺寸最大且位置顯著的人臉作為當(dāng)前的檢測(cè)結(jié)果。
圖3 人臉檢測(cè)的結(jié)果
1.2人臉識(shí)別
為了實(shí)現(xiàn)新聞中重要人物的識(shí)別,如領(lǐng)導(dǎo)人、名人、主持人等,建立重要人臉特征庫。如圖4如示,對(duì)每個(gè)待識(shí)別的人物,首先從新聞圖片中選取3~6個(gè)包含其人臉的圖像,然后檢測(cè)出人臉區(qū)域,并歸一化成大小為50×50的圖像塊,最后根據(jù)人物的類別賦予對(duì)應(yīng)的標(biāo)簽。Fisherfaces[7]和LBP[8]是當(dāng)前廣泛使用的人臉識(shí)別算法。Fisherfaces結(jié)合了Fisher線性判別和PCA,將高維空間的樣本投影到低維空間,然后采用Fisher線性判別得到人臉的最佳分類特征集合。該方法要求每個(gè)人至少8~10張樣本圖像作為訓(xùn)練集才能達(dá)到較好的識(shí)別率,然而在新聞節(jié)目中很難為每個(gè)人物找到大量不同角度的圖像進(jìn)行人臉特征訓(xùn)練。為了在樣本數(shù)量少的情況下實(shí)現(xiàn)人臉識(shí)別,引入局部二值模式(LBP)算子實(shí)現(xiàn)少量樣本甚至單樣本的人臉特征訓(xùn)練和識(shí)別。為了提高人臉識(shí)別的準(zhǔn)確性和穩(wěn)定性,提出了Fisherfaces和LBP相結(jié)合的算法實(shí)現(xiàn)人臉特征的訓(xùn)練和識(shí)別。各算法準(zhǔn)確率比較如表1所示。
圖4 人臉識(shí)別訓(xùn)練庫
表1 人臉識(shí)別的準(zhǔn)確率比較 %
分別采用Fisherfaces和LBP算子對(duì)每個(gè)人的人臉樣本數(shù)據(jù)進(jìn)行訓(xùn)練,得到人臉識(shí)別模型Model_F和Model_L。給定一個(gè)檢測(cè)到的樣本人臉,其識(shí)別結(jié)果為兩者的加權(quán)平均,如式(1)所示。為了確定a的值,本文選取了200個(gè)人臉數(shù)據(jù)進(jìn)行訓(xùn)練,通過最小二乘的方法擬合出a的權(quán)值為0.39,即LBP對(duì)人臉識(shí)別的權(quán)重略大。實(shí)驗(yàn)表明,在檢索樣本少的情況下,LBP算法能夠起到更大的作用。
Model(I)=a×Model_F(I)+(1-a)×Model_L
綜上所述,落葉松林降雨再分配過程中水化學(xué)特性與降雨相比,pH值、Mg2+含量在各分配過程中下降;Ca2+、Mn2+含量升高;Zn2+含量在穿透雨及坡面徑流中下降,其它過程升高;Fe2+含量在穿透雨及樹干徑流中下降,其它過程升高;含量在穿透雨中升高,其它過程下降。
(1)
1.3圖像特征匹配
一般說來,新聞節(jié)目中經(jīng)常會(huì)出現(xiàn)標(biāo)志性的背景畫面,如會(huì)議、演播室、外景、采訪等。為了實(shí)現(xiàn)新聞節(jié)目中基于場(chǎng)景畫面的準(zhǔn)確檢索,提出一種基于顏色直方圖和紋理特征相結(jié)合的圖像檢索方法。與傳統(tǒng)的基于全局直方圖匹配的算法不同,本文提出了基于重要性加權(quán)的局部直方圖匹配的方法,能夠避免顏色相似但空間分布差異較大的情況。重要性加權(quán)的局部直方圖匹配算法描述(偽代碼)如下:
輸入:樣例圖像S,目標(biāo)圖像T;
輸出:相似度Dh(0-1);
初始化:
Diff_sum= 0
i= 0;N=100
重復(fù):
if(min(HDist(Si+Δt,Ti))>AvgHDist)
Diff_sum+=λ;
i++;
直到:i=N
Dh=Diff_sum/N
首先將源圖像S和目標(biāo)圖像T均勻劃分為10×10的方格,然后對(duì)每個(gè)方格內(nèi)的圖像與S對(duì)應(yīng)位置的八鄰域方格分別計(jì)算直方圖距離,并取最小值作為該方格的局部直方圖距離,如圖5所示,再將T中每個(gè)方格的直方圖距離與所有方格的平均直方圖距離相比較,若大于其閾值,則進(jìn)行計(jì)數(shù)。為了體現(xiàn)圖像不同位置的重要性,進(jìn)行加權(quán)計(jì)數(shù),對(duì)于最外部?jī)扇Ψ礁瘢?0.5,其余位置的方格λ=1.0。最后,若計(jì)數(shù)值小于方塊總數(shù)的45%,則說明相似。樣例圖像S和目標(biāo)圖像T平均直方圖距離的計(jì)算,如式(2)所示
(2)
圖5 基于重要性加權(quán)的局部直方圖匹配示意圖
為了進(jìn)一步提升基于直方圖匹配的檢索的性能,采用分塊LBP算法提取樣本圖像S和目標(biāo)圖像T的紋理特征。并通過χ2距離度量?jī)蓚€(gè)紋理之間的距離De(i),具體細(xì)節(jié)請(qǐng)見文獻(xiàn)[9]。為了融合直方圖和紋理特征,需要對(duì)特征量進(jìn)行歸一化,表1中的算法已經(jīng)對(duì)直方圖距離Dh進(jìn)行了歸一化。對(duì)于紋理特征距離,首先計(jì)算出樣本圖像S與所有待匹配的關(guān)鍵幀Ki(i=1,2,…,N)之間紋理相似性距離De(i) (i=1,2,…,N)的均值E和標(biāo)準(zhǔn)差σ,然后對(duì)所有距離進(jìn)行歸一化,如式(3)所示
(3)
最后通過對(duì)所有特征距離進(jìn)行加權(quán)處理得到總的特征距離D(i) (i=1,2,…,N),如式(4)如示
D(i)=αDh(i)+(1-α)De(i)
(4)
為了讓顏色特征在圖像檢索中占據(jù)更大的權(quán)重,設(shè)置α為0.68。最后對(duì)特征距離D(i)按照從小到大進(jìn)行排序,并將排序前50的檢索結(jié)果返回。
2實(shí)驗(yàn)結(jié)果及分析
本文以浙江傳媒學(xué)院的媒資管理系統(tǒng)中近兩年的地方電視臺(tái)新聞編目數(shù)據(jù)為基礎(chǔ),開發(fā)了如圖6所示的軟件系統(tǒng),用戶能夠以關(guān)鍵詞、樣例圖像作為輸入,根據(jù)人臉、顏色、紋理等多特征融合,從媒資數(shù)據(jù)庫中方便、快速地搜索出感興趣的新聞內(nèi)容。
圖6 新聞檢索系統(tǒng)軟件主界面(截圖)
采用查準(zhǔn)率和查全率來測(cè)試檢索系統(tǒng)的性能。針對(duì)人臉特征和圖像特征分別選取200個(gè)樣例圖像進(jìn)行測(cè)試,將新聞節(jié)目的起始時(shí)間作為過濾條件,統(tǒng)計(jì)時(shí)間區(qū)間內(nèi)所有符合要求的節(jié)目數(shù)量。從而計(jì)算出對(duì)應(yīng)的查準(zhǔn)率和查全率。表2給出了基于人臉特征和圖像特征的所有樣例圖像的查準(zhǔn)率和查全率的平均值。統(tǒng)計(jì)數(shù)據(jù)表明,本文提出的檢索方法具有較高的準(zhǔn)確率和查全率。
表2人臉特征和圖像特征檢索的準(zhǔn)確率和查全率%
比較項(xiàng)人臉特征圖像特征準(zhǔn)確率9591查全率9290
圖7、8給出了基于人臉特征的檢索結(jié)果,其中左側(cè)是樣例圖像,右側(cè)列出了與樣例圖像相匹配節(jié)目的關(guān)鍵幀。如圖7所示,由于在編目中通常不會(huì)著錄主持人姓名,此時(shí)只能以樣例圖像為輸入進(jìn)行搜索。本文的方法對(duì)于這類比較規(guī)范的人臉圖像能夠達(dá)到99%以上的準(zhǔn)確率。圖8以地方領(lǐng)導(dǎo)人圖像為輸入進(jìn)行檢索,從檢索結(jié)果可以看出,本文的方法能夠準(zhǔn)確檢索出領(lǐng)導(dǎo)在不同姿勢(shì)和背景下的關(guān)鍵幀圖像,具有一定的準(zhǔn)確性和自適應(yīng)性。在編目系統(tǒng)中若某領(lǐng)導(dǎo)的姓名已經(jīng)著錄,基于樣例圖像的檢索可以進(jìn)一步過濾文字檢索的結(jié)果,得到該領(lǐng)導(dǎo)出鏡的所有新聞場(chǎng)景。
圖7 基于人臉識(shí)別的主持人搜索結(jié)果(截圖)
圖8 基于人臉識(shí)別的地方領(lǐng)導(dǎo)人搜索結(jié)果(截圖)
圖9、10給出了基于直方圖和紋理特征的檢索結(jié)果。其中圖9的樣例圖像是某個(gè)固定背景的會(huì)議場(chǎng)景??梢钥闯霰疚牡姆椒軌驒z索出拍攝角度發(fā)生變化時(shí)的場(chǎng)景,具有一定的穩(wěn)定性。圖10的樣例圖像是有關(guān)農(nóng)田的場(chǎng)景,通過直方圖和紋理相結(jié)合的方式,能夠檢索出與樣例圖像相似的天空和農(nóng)田場(chǎng)景。實(shí)驗(yàn)表明本文的方法優(yōu)于全局直方圖的方式,能夠綜合考慮顏色和空間信息。
圖9 基于顏色特征匹配的搜索結(jié)果(截圖)
圖10 基于顏色和紋理特征匹配的搜索結(jié)果(截圖)
3小結(jié)
結(jié)合現(xiàn)有媒資系統(tǒng),提出了基于文字、人臉、圖像等多種特征相結(jié)合的新聞節(jié)目檢索方法。實(shí)驗(yàn)結(jié)果表明,本文的方法具有準(zhǔn)確性和實(shí)用性,能夠顯著提高媒資系統(tǒng)的檢索性能,適應(yīng)新媒體發(fā)展的需要。主要局限性在于提出的方法主要適用于新聞,今后將進(jìn)一步研究更具一般性的特征用于更多類型節(jié)目的檢索,如綜藝,電視劇等,采用基于多核加速和GPU的特征匹配算法來進(jìn)一步提高海量視頻節(jié)目的檢索速度。
參考文獻(xiàn):
[1]侯佳佳. 媒體資產(chǎn)管理系統(tǒng)中編目和關(guān)鍵幀提取的研究與實(shí)現(xiàn)[D]. 北京:北京郵電大學(xué), 2012.
[2]楊強(qiáng), 馬森. 基于語義的新聞視頻檢索系統(tǒng)設(shè)計(jì)[J]. 電視技術(shù), 2010, 34(4): 90-92.
[3]張志偉. 基于人臉識(shí)別的媒資視頻檢索技術(shù)的研究與實(shí)踐[D]. 北京:北京郵電大學(xué), 2013.
[4]王瑤, 王正勇, 何小海, 等. 基于多尺度訓(xùn)練庫與多特征融合的人臉識(shí)別[J]. 電視技術(shù), 2015, 39(1):121-126.
[5]史云靜, 鄭海波, 韓小萱, 等. HSV下的基于圖像內(nèi)容的監(jiān)控視頻檢索方法[J]. 電視技術(shù), 2015, 39(4): 16-20.
[6]VIOLA P A ,MICHAEL J. Rapid object detection using a boosted cascade of simple features[C]//Proc. CVPR 2001.[S.l.]:IEEE Press,2001:511-518.
[7]BELHUMEUR P, KRIEGMAN D. Eigenfaces vs. fisherfaces: recognition using class specific linear projection[J]. IEEE transactions on pattern analysis and machine intelligence,1997,19(7):711-720.
[8]AHONEN T, PIETIKAINEN M. Face recognition with local binary patterns[C]//Proc. European Conference on Computer Vision. Berlin,Germany:Springer,2004:469-481.
[9]殷珍珍. 基于顏色和紋理特征的圖像檢索算法研究[D]. 鄭州:河南工業(yè)大學(xué), 2013.
張赟(1984— ),助理研究員,主要研究視頻、圖像編輯與處理,計(jì)算機(jī)視覺;
沈兵虎(1953— )研究員,主要研究廣播電視技術(shù)、媒資管理;
練益群(1955— )女,教授,主要研究廣播電視技術(shù)、媒資管理。
責(zé)任編輯:時(shí)雯
Research on efficient retrieval of news videos in media asset management system
ZHANG Yun, SHEN Binghu, LIAN Yiqun
(InstituteofZhejiangRadioandTVTechnology,ZhejiangUniversityofMediaandCommunications,Hangzhou310018,China)
Abstract:In this paper, an efficient news retrieval method is proposed based on multiple features, which makes full use of word description and features of keyframes in MAM (Media Asset Management System), achieves fast and accurate retrieval, and improves the performance of news retrieval in MAM. We take the text description and images which contain important faces and scenes as input for video retrieval, and then match the input image with keyframes in MAM by applying the algorithm for face recognition based on Fisherfaces and LBP operators, and the local histogram match algorithm based on the weighted importance. Experimental results show that the proposed method can enhance the accuracy and efficiency of news retrieval in MAM, and meet the requirements for rapid production and release in new media age.
Key words:media asset management system;multiple features;face recognition;keyframes;new media
中圖分類號(hào):TP391
文獻(xiàn)標(biāo)志碼:B
DOI:10.16280/j.videoe.2016.02.017
基金項(xiàng)目:浙江省自然科學(xué)基金項(xiàng)目(LY14F020050);浙江省公益技術(shù)應(yīng)用研究計(jì)劃項(xiàng)目(2014C33091);浙江廣播電視技術(shù)研究所2015年度科研項(xiàng)目(2015004)
作者簡(jiǎn)介:
收稿日期:2015-08-05
文獻(xiàn)引用格式:張赟, 沈兵虎, 練益群.媒資管理系統(tǒng)中新聞節(jié)目高效檢索的研究[J].電視技術(shù),2016,40(2):88-92.
ZHANG Y, SHEN B H, LIAN Y Q.Research on efficient retrieval of news videos in media asset management system[J].Video engineering,2016,40(2):88-92.