楊繼臣,李艷雄
(1.仲愷農(nóng)業(yè)工程學(xué)院 計(jì)算機(jī)科學(xué)與工程學(xué)院,廣東 廣州510225;2.華南理工大學(xué) 電子與信息學(xué)院,廣東 廣州510640)
在視頻檢索中,人們使用關(guān)鍵幀進(jìn)行檢索;在文本檢索中,人們使用關(guān)鍵詞進(jìn)行檢索[1];另外,蘆烈等人提出在音頻中使用類似于詞頻-逆文檔頻率的方法在音頻中檢測(cè)音頻關(guān)鍵詞[2-3]。受關(guān)鍵幀和關(guān)鍵詞的啟發(fā),本文提出在電視新聞中使用關(guān)鍵說(shuō)話人進(jìn)行檢索。一般情況下,關(guān)鍵說(shuō)話人是多媒體記錄中角色最重要的那個(gè)人,相對(duì)于其他人而言,他(她)可能出現(xiàn)的次數(shù)比較多和出現(xiàn)的時(shí)間比較長(zhǎng);但有些情況下,并不一定出現(xiàn)次數(shù)多和時(shí)間長(zhǎng)的人就是角色最重要的。
在以前的說(shuō)話人檢索研究中,很少有人考慮關(guān)鍵說(shuō)話人的問題,都是把所有的人物一樣對(duì)待,只標(biāo)注誰(shuí)在何時(shí)說(shuō)(who spoke when)[4-6]。在新聞故事中,為了節(jié)省時(shí)間,有時(shí)人們只需要觀看或聽下主要角色的講解就可以了解故事的主要內(nèi)容,因此在這種情況下,需要把新聞故事的主要角色找出來(lái),把他(她)作為該故事的關(guān)鍵人物。另外對(duì)于用戶而言,他(她)可能只對(duì)某一位人物有興趣,如果把他(她)感興趣的人物作為關(guān)鍵說(shuō)話人。在檢索時(shí),可以有效快速地檢索到說(shuō)話人。受文獻(xiàn) [1-3]算法思想的啟發(fā),為了能在電視新聞中找到關(guān)鍵說(shuō)話人,我們提出使用說(shuō)話人關(guān)鍵度的方法發(fā)現(xiàn)關(guān)鍵說(shuō)話人,我們首先介紹了我們使用的數(shù)據(jù)庫(kù),然后詳細(xì)我們的算法,最后用實(shí)驗(yàn)進(jìn)行驗(yàn)證我們的算法。
由于多媒體處理的實(shí)驗(yàn)數(shù)據(jù)庫(kù)方面,沒有統(tǒng)一的數(shù)據(jù)庫(kù),比如,文獻(xiàn) [7]采用NIST數(shù)據(jù),文獻(xiàn) [8]采用日語(yǔ)電視新聞數(shù)據(jù),文獻(xiàn) [9]采用GALE普通話數(shù)據(jù)庫(kù)。在本文中,我們選用中央電視臺(tái)的新聞聯(lián)播。
我們選用新聞聯(lián)播的原因主要有以下3方面[10]:①?gòu)难芯康慕嵌?,它有最?jiǎn)單的場(chǎng)景(新聞提要部分完全靜音),也有最復(fù)雜的場(chǎng)景(戰(zhàn)事報(bào)道,暴風(fēng)雨報(bào)道)。②從影響的范圍來(lái)看,它是全國(guó)收視率最高的新聞節(jié)目,也是世界上觀眾最多的新聞節(jié)目,影響范圍甚廣。③從存檔的角度看,因它是國(guó)內(nèi)外大事的真實(shí)記錄者,內(nèi)容涵蓋政治、經(jīng)濟(jì)、科技、社會(huì)、軍事、外交、文化、體育等方面,因此它是最有可能存檔的新聞節(jié)目。
由于我們主要研究如何發(fā)現(xiàn)每個(gè)故事中的關(guān)鍵說(shuō)話人,又因?yàn)殛P(guān)鍵說(shuō)話人發(fā)現(xiàn)是在新聞故事分割和說(shuō)話人索引完成之后才能進(jìn)行的,由于篇幅有限,本文中我們主要介紹如何在前面兩步都已完成的基礎(chǔ)上,研究如何發(fā)現(xiàn)關(guān)鍵說(shuō)話人。
首先我們先介紹下新聞故事中出現(xiàn)的說(shuō)話人涉及到的說(shuō)話人參數(shù)。圖1是某段新聞故事中出現(xiàn)的說(shuō)話人記錄。
圖1 某段新聞故事中出現(xiàn)的說(shuō)話人記錄
由圖1可以看出,此段新聞故事中總共有5個(gè)說(shuō)話人:SP1、SP2、SP3、SP4和SP5。其中SP1出現(xiàn)了2次,SP2、SP3、SP4和SP5各出現(xiàn)了1次,他們每個(gè)人持續(xù)時(shí)間和每次出現(xiàn)的時(shí)長(zhǎng)多數(shù)情況下不相等,另外他們每個(gè)人的位置也不一樣。
在新聞故事中,說(shuō)話人出現(xiàn)的次數(shù)作為一個(gè)重要指標(biāo),但并不是出現(xiàn)的次數(shù)越多就越重要。像在文本中,有些詞是停詞(比如 ‘的’字),雖然出現(xiàn)的次數(shù)比較多,但未必重要。在本文中,要處理的對(duì)象是分割好的單個(gè)新聞故事,和文本中出現(xiàn)的詞不同的是,在新聞故事中,說(shuō)話人每次出現(xiàn),都會(huì)有一段持續(xù)過(guò)程,因此我們引入了說(shuō)話人持續(xù)時(shí)間和平均每次說(shuō)話人時(shí)長(zhǎng)這兩個(gè)參數(shù)。在新聞故事里,因?yàn)椴煌娜顺霈F(xiàn)的位置不一樣,所以我們還引入說(shuō)話人位置因子這個(gè)參數(shù)。
為了能發(fā)現(xiàn)關(guān)鍵說(shuō)話人,我們認(rèn)為在故事中每個(gè)人的重要性是由說(shuō)話人關(guān)鍵度(speaker key,SK)決定,SK的大小決定了說(shuō)話人在故事中的重要程度。SK越大,相應(yīng)的說(shuō)話人越重要,最大的SK對(duì)應(yīng)的說(shuō)話人是關(guān)鍵說(shuō)話人。在新聞故事中,我們認(rèn)為SK是由說(shuō)話人頻率、說(shuō)話人持續(xù)時(shí)間、平均每次說(shuō)話人時(shí)長(zhǎng)和說(shuō)話人位置因子共同決定的,下面對(duì)它們一一進(jìn)行介紹。
說(shuō)話人頻率(speaker frequency,SF)表示說(shuō)話人在新聞故事(news story,NS)中出現(xiàn)的頻度,相當(dāng)于文本中的詞條頻率一樣,但和一般意義上的頻率不同的是,我們使用e指數(shù)函數(shù)的倒數(shù)計(jì)算它,這樣做的好處是使每個(gè)值都小于1;在某種程度上相當(dāng)于對(duì)它進(jìn)行了歸一化,其余的兩個(gè)參數(shù)(說(shuō)話人持續(xù)時(shí)間和平均每次說(shuō)話人時(shí)長(zhǎng))也采取同樣的處理方法。計(jì)算公式如下
式中:Si——新聞故事出現(xiàn)的第i個(gè)說(shuō)話人,ni——Si出現(xiàn)的次數(shù),navg,nstd——所有說(shuō)話人出現(xiàn)次數(shù)的平均值和標(biāo)準(zhǔn)方差。
說(shuō)話人持續(xù)時(shí)間(speaker duration,SD)是計(jì)算說(shuō)話人在新聞故事中出現(xiàn)的全部時(shí)間,它的計(jì)算公式如下
式中:di——Si的全部持續(xù)時(shí)間,davg,dstd——所有說(shuō)話人相應(yīng)的時(shí)長(zhǎng)的平均值和標(biāo)準(zhǔn)方差。
平 均 每 次 說(shuō) 話 人 時(shí) 長(zhǎng)(average every time speaker length,AETSL)考慮到了說(shuō)話人每次在新聞故事中出現(xiàn)的時(shí)間平均長(zhǎng)度,計(jì)算公式如下
式中:li——Si在新聞故事中的平均每次出現(xiàn)時(shí)長(zhǎng),lavg,lstd——所有說(shuō)話人相應(yīng)的平均每次出現(xiàn)時(shí)長(zhǎng)的平均值和標(biāo)準(zhǔn)方差。說(shuō)話人位置因子(speaker position factor,SPF)考慮到了在新聞故事中每個(gè)說(shuō)話人起的作用不同,出現(xiàn)的順序不同。
在新聞聯(lián)播的故事中,最完整的人物結(jié)構(gòu)應(yīng)該是:
主持人+講解員+(記者,國(guó)家領(lǐng)導(dǎo)人或一般的被訪問者)+講解員+訪問者+…。
其中,第一個(gè)出現(xiàn)的人物一般是主持人,主持人一般起介紹整個(gè)故事的作用;第二個(gè)出現(xiàn)的人物是講解員,講解員負(fù)責(zé)介紹整個(gè)故事;第三個(gè)出現(xiàn)的人物一般是記者或國(guó)家領(lǐng)導(dǎo)人或一般被訪問者,記者一般負(fù)責(zé)報(bào)道故事發(fā)生的地點(diǎn),國(guó)家領(lǐng)導(dǎo)人一般就某件事發(fā)表談話,被訪問者一般是對(duì)某件事情發(fā)表看法。因?yàn)樾侣劰适乱话愣际歉爬ㄐ偷?,通常情況下前面出現(xiàn)的人物的SPF要大于后面出現(xiàn)的人物的SPF。因?yàn)槊總€(gè)說(shuō)話人之間是相互獨(dú)立的,最終的SK的計(jì)算公式為
式中:SK(Si,NS)——最終計(jì)算得到的說(shuō)話人Si在新聞故事中的說(shuō)話人關(guān)鍵度,把SK最大的那個(gè)說(shuō)話人作為關(guān)鍵說(shuō)話人;α——說(shuō)話人Si的說(shuō)話人位置因子。但要說(shuō)明的是如果不考慮說(shuō)話人位置因子的作用,即把每個(gè)人的位置因子都設(shè)置為一樣,假設(shè)在某段新聞故事里總共有n個(gè)說(shuō)話人,那么式(4)可以寫為
在一個(gè)故事中,如果所有說(shuō)話人的說(shuō)話人頻率都相等,那么在計(jì)算SK時(shí),SF(Si,NS)可以不用考慮,這種情況下式(4)可以寫為
同理,若所有說(shuō)話人的SD或AETSL都相等,則式(4)可以分別寫為式(7)和(8)
若所有說(shuō)話人的SF、SD和AETSL都相等時(shí),這種情況下,SK只是由說(shuō)話人位置因子α決定。
在上面介紹說(shuō)話人關(guān)鍵度的基礎(chǔ)上,我們提出基于說(shuō)話人關(guān)鍵度的關(guān)鍵說(shuō)話人發(fā)現(xiàn)方法如下:①在說(shuō)話人索引的基礎(chǔ)上,為要處理的新聞故事里出現(xiàn)的每個(gè)人物計(jì)算說(shuō)話人關(guān)鍵度。②按照說(shuō)話人關(guān)鍵度的大小,把故事里出現(xiàn)的人物進(jìn)行排序,把說(shuō)話人關(guān)鍵度最大的那個(gè)人作為關(guān)鍵說(shuō)話人。
我們收集了2009年將近200天的新聞聯(lián)播數(shù)據(jù),我們首先對(duì)新聞聯(lián)播進(jìn)行內(nèi)容分析,總結(jié)出新聞聯(lián)播的規(guī)律,把新聞聯(lián)播的故事分成兩大類:有主持人的和無(wú)主持人的。然后取出20天的數(shù)據(jù),使用音視頻特征聯(lián)合的方法,對(duì)這20天的新聞故事進(jìn)行分割,最后我們得到新聞故事分割的準(zhǔn)確率為93.12%。
在新聞故事分割的基礎(chǔ)上,我們使用說(shuō)話人模型自舉法和說(shuō)話人超級(jí)矢量相結(jié)合的方法對(duì)說(shuō)話人進(jìn)行索引,我們從上面的20天已分割好的新聞中取出5天的數(shù)據(jù)進(jìn)行訓(xùn)練和10天的數(shù)據(jù)進(jìn)行索引。在這10天的數(shù)據(jù)中,平均每天的新聞故事數(shù)目為19個(gè),最少的為16個(gè),最多的為21個(gè)。在新聞故事中,出現(xiàn)人物最少的為1個(gè),最多的為10個(gè)。最終我們得到的說(shuō)話人索引準(zhǔn)確率為88.24%和說(shuō)話人數(shù)量準(zhǔn)確率為90.17% 。
在說(shuō)話人索引的基礎(chǔ)上,我們這10天的數(shù)據(jù)進(jìn)行關(guān)鍵說(shuō)話人發(fā)現(xiàn)。
我們對(duì)10天的新聞故事分別進(jìn)行基于說(shuō)話人關(guān)鍵度的關(guān)鍵說(shuō)話人發(fā)現(xiàn),因?yàn)閷?shí)驗(yàn)數(shù)據(jù)太多,在這里,只詳細(xì)寫出其中8個(gè)故事的計(jì)算過(guò)程。其他的故事的計(jì)算過(guò)程和它們都一樣。
(1)對(duì)每個(gè)新聞故事統(tǒng)計(jì)以下數(shù)據(jù):人物數(shù)目、最大時(shí)長(zhǎng)、最小時(shí)長(zhǎng)、故事中人物出現(xiàn)的最多次數(shù)和最少次數(shù)、SF平均值和方差、SD平均值和方差、AETSL平均值和方差。
(2)對(duì)新聞故事里面出現(xiàn)的每個(gè)人物分別計(jì)算SF、SD和AETSL。
(3)在不考慮說(shuō)話人位置因子的情況下得到的說(shuō)話人關(guān)鍵度值。
(4)在考慮說(shuō)話人位置因子的情況下得到的說(shuō)話人關(guān)鍵度值。
表1是這8個(gè)新聞故事的統(tǒng)計(jì)結(jié)果。
表1 新聞故事的統(tǒng)計(jì)結(jié)果(時(shí)長(zhǎng)的單位為S)
從表2可以看出:
在第一個(gè)新聞故事中,因?yàn)橹v解員和被訪問者的出現(xiàn)的次數(shù)一樣,都是一次,結(jié)果他們的SF都是無(wú)窮大,最終的SK無(wú)法計(jì)算出來(lái),這也是式(5)~(12)在計(jì)算SK為什么不考慮SF的原因。
在第一個(gè)和第二個(gè)新聞故事中,因?yàn)檎f(shuō)話人的數(shù)量為2,他們計(jì)算出的說(shuō)話人參數(shù)值相等,這就說(shuō)明在只有2個(gè)人的新聞故事中,無(wú)論他們出現(xiàn)的次數(shù)是多少,只使用SF、SD和AETSL無(wú)法發(fā)現(xiàn)關(guān)鍵說(shuō)話人。
表3是不考慮說(shuō)話人位置因子得到的說(shuō)話人關(guān)鍵度值。
表2 新聞故事中出現(xiàn)人物的說(shuō)話人3個(gè)參數(shù)值
表3 不考慮說(shuō)話人位置因子得到的說(shuō)話人關(guān)鍵度值
從表3可以得出,如果新聞故事中只有兩個(gè)人,他們最終的SK是一樣的。如果新聞故事中的人物多于兩個(gè),計(jì)算得到的最大的SK多數(shù)情況下是故事中的被訪問者,但在新聞故事中,被訪問者一般只是對(duì)某件事發(fā)表看法,一般情況下,都不把他們作為關(guān)鍵說(shuō)話人。為了找到關(guān)鍵說(shuō)話人,在計(jì)算說(shuō)話人關(guān)鍵度值需要考慮說(shuō)話人位置因子。
因?yàn)樾侣劰适乱话愣际歉爬ㄐ偷模丛皆谇懊娉霈F(xiàn)的人越重要,所以通常情況下前面出現(xiàn)的人物的SPF要大于后面出現(xiàn)的人物的SPF,在這里,我們把第一個(gè)說(shuō)話人的SPF設(shè)置為0.5且后面的出現(xiàn)的SPF是前面一個(gè)SPF的一半(0.5,0.25,0.125,0.00625,…)。要說(shuō)明的是這樣設(shè)置SPF可能不一定完全正確。
表4是考慮說(shuō)話人位置因子得到的說(shuō)話人關(guān)鍵度值。
從表4可以看出,考慮說(shuō)話人位置因子后,說(shuō)話人關(guān)鍵度最大的絕大部分都是前面出現(xiàn)的人物(講解員或主持人),這與新聞故事中的關(guān)鍵說(shuō)話人相符合。我們對(duì)這10天的新聞故事使用基于說(shuō)話人關(guān)鍵度的關(guān)鍵說(shuō)話人發(fā)現(xiàn)實(shí)驗(yàn)結(jié)果如下:若不考慮說(shuō)話人位置因子得到的結(jié)果75%,若考慮說(shuō)話人位置因子得到的結(jié)果為95%;這也說(shuō)明在新聞故事中我們提出使用說(shuō)話人位置因子的正確性。
表4 考慮說(shuō)話人位置因子得到的說(shuō)話人關(guān)鍵度值
借簽關(guān)鍵幀和關(guān)鍵詞的發(fā)現(xiàn)方法,在說(shuō)話人索引的基礎(chǔ)上,為了發(fā)現(xiàn)電視新聞中的關(guān)鍵說(shuō)話人,基于說(shuō)話人頻率、說(shuō)話人持續(xù)時(shí)間、平均每次說(shuō)話人時(shí)長(zhǎng)和說(shuō)話人位置因子4個(gè)因素綜合定義了說(shuō)話人關(guān)鍵度 ,用以判斷說(shuō)話人的重要性,把每個(gè)故事中說(shuō)話人關(guān)鍵度最大的人作為關(guān)鍵說(shuō)話人。實(shí)驗(yàn)結(jié)果表明這種算法可以找到新聞故事中絕大部分的關(guān)鍵說(shuō)話人。但是這種算法也存在一定的不足:影響說(shuō)話人關(guān)鍵度的4個(gè)因素設(shè)計(jì)的有點(diǎn)簡(jiǎn)單,它們嚴(yán)重依賴均值的大小,另外有時(shí)候可能會(huì)難符合實(shí)際情況,最后關(guān)鍵說(shuō)話人是一種很主觀的判斷,在不同的媒體類型中,關(guān)鍵說(shuō)話人會(huì)有不同的特性,因此這應(yīng)該與多媒體類型有關(guān),所以在后續(xù)的工作中,我們打算再引入其他的因素進(jìn)來(lái),讓說(shuō)話人關(guān)鍵度可以符合更多的實(shí)際情況,另外我們還要使用其他的數(shù)據(jù)庫(kù)進(jìn)行實(shí)驗(yàn),以使這種算法應(yīng)用的范圍更廣。
[1]CHEN Yulin.Keyword search method application research on science and technology novelty check [J].Journal of Henan Normal University(Natural Science Edition),2010,39(3):171-173(in Chinese).[陳予琳,關(guān)鍵詞檢索方法在科技查新中的應(yīng)用研究 [J].河南師范大學(xué)學(xué)報(bào)(自然科學(xué)),2010,39(3):171-173.]
[2]LU L,Hanjalic.Towards optimal audio keywords detection for audio content analysis and discovery [C].14th Annual ACM International Conference on Multimedia,2006:825-834.
[3]LU L,Hanjalic A.Audio keywords discovery for text-like audio content analysis andretrieval[J].IEEE Transactions on Multimedia,2008,10(1):74-85.
[4]Vijayasenan D,Valente F.An inforamtion theoretic approach to speaker diarization of meeting data [J].IEEE Transactions on Audio Speech and Language Processing,2009,17(7):1382-1393.
[5]Barras C.ZHU Xuan.Multistage speaker diarization of broadcast news [J].IEEE Transactions on Audio Speech and Language Processing,2006,14(5):1505-1512.
[6]HAN K J,KIM S.Strategies to improve the robustness of agglomerative hierchical clustering under data source variation for speaker diarization [J].IEEE Transactions on Audio Speech and Language Processing,2008,16(8):1590-1601.
[7]Friedlan G,Vinyals O.Prosodic and other long-term features for speaker diarization [J].IEEE Transactions on Audio Speech and Language Processing,2009,17(5):985-993.
[8]Nishida M,Kawahara T.Speaker model selection based on the Bayessian information criterion applied to unsupervised speaker indexing [J].IEEE Transactions on Speech and Audio processing,2005,13(4):583-592.
[9]CHOU S M,TANG Hao,HUANG Thomas.Fishervoice and semi-supervised speaker clustering [C].IEEE International Conference on Acoustics Speech and Signal Processing,2009:4089-4092.
[10]YANG Jichen,HE Qianhua.A two-step criterion algorithm of speaker segmentation [J].Joernal of Electronic &Information Technology,2010,32(8):2006-2009(in Chinese).[楊繼臣,賀前華.一種兩步判決的說(shuō)話人分割算法 [J].電子與信息學(xué)報(bào),2010,32(8):2006-2009.]