王繼紅
摘 要:隨著廣播電視節(jié)目對內(nèi)容監(jiān)管需求的逐漸增長,如何使用先進(jìn)技術(shù)建立識別系統(tǒng),提升內(nèi)容監(jiān)管工作的準(zhǔn)確度和效率,成為廣電工作的重點內(nèi)容。本文主要是介紹了幾種關(guān)鍵的語音識別技術(shù)和語音識別技術(shù)的具體應(yīng)用情況。
關(guān)鍵詞:語音識別技術(shù);內(nèi)容監(jiān)管;應(yīng)用
中圖分類號:TN912.34 文獻(xiàn)標(biāo)識碼:A 文章編號:1671-2064(2017)08-0020-01
隨著廣播電視管理的不斷完善,對電視節(jié)目內(nèi)容的監(jiān)管也越來越嚴(yán)格,對音頻搜索等技術(shù)的需求也在逐漸增加。但是,音頻搜索技術(shù)還有很多難題尚未解決,如中文分詞瓶頸、第三方數(shù)據(jù)存儲量限制、數(shù)據(jù)處理分析瓶頸和音頻識別準(zhǔn)確度等等,這樣在應(yīng)用時會出現(xiàn)很多問題,相關(guān)部門需加大研發(fā)力度,讓音頻識別技術(shù)更加完善和規(guī)范。
1 語音識別關(guān)鍵技術(shù)介紹
1.1 語音模型自適應(yīng)技術(shù)
因為環(huán)境、人的性別和口音等因素的干擾,語音數(shù)據(jù)會產(chǎn)生較大變化,在特殊條件下的訓(xùn)練無法推廣應(yīng)用,而自適應(yīng)就可以根據(jù)測試數(shù)據(jù)進(jìn)行調(diào)整避免誤判。在變換的自適應(yīng)中,采用相同的變換更新參數(shù),當(dāng)自適應(yīng)模型參數(shù)確定后,就可以用少量自適應(yīng)數(shù)據(jù)變換方程,利用變換方程來重新估計模型參數(shù)[1]。一般來說,變換方程的數(shù)目小于目標(biāo)模型參數(shù),所以使用少量自適應(yīng)數(shù)據(jù)就可以估計出變換方程。但是變換方程并不能探測出單個模型的特征,其漸進(jìn)性較差,無法估計特征相近人模型。
1.2 說話人識別技術(shù)
說話人識別也被稱為聲紋識別,通過語音信號來識別說話人的身份。說話人識別主要分為兩類,即開集識別和閉集識別,兩者主要通過是否需要拒識來區(qū)別。開集識別更具普遍性,相比閉集識別技術(shù)更難。比如說,我們同時監(jiān)聽多個人說話,開集識別需要在多個說話人中找到指定的說話人。開集說話有兩大缺陷:虛警錯誤和漏報錯誤,兩者之間互相制約互相影響。在應(yīng)用過程中,可調(diào)整識別模塊更傾向于少虛警錯誤或漏報錯誤。研究中會通過等錯誤率去判斷說話人識別系統(tǒng)的性能是否達(dá)標(biāo),如果虛警錯誤率和漏報錯誤率相等就是等錯誤率[2]。等錯誤率會受到測試語音長短、樣本語音信道匹配度和說話人語音長短等因素的影響,如果說話人語音越長,測試語音也就越長,兩者的差異也就越小,等錯誤率也會相應(yīng)降低。
1.3 關(guān)鍵詞識別技術(shù)
關(guān)鍵詞識別技術(shù)分為單階段系統(tǒng)和兩階段系統(tǒng)兩大類,單階段系統(tǒng)識別主要是在關(guān)鍵詞系統(tǒng)中進(jìn)行識別,當(dāng)關(guān)鍵詞出現(xiàn)變化,系統(tǒng)就要重新識別。兩階段系統(tǒng)是將一般意義的連續(xù)語音轉(zhuǎn)換為文本,然后借助文本匹配途徑找到關(guān)鍵詞。這種系統(tǒng)比較靈活,可以隨時變換關(guān)鍵詞,是目前使用最多的關(guān)鍵詞識別技術(shù)。通過語音關(guān)鍵詞檢測特定內(nèi)容具有兩個優(yōu)勢:首先是準(zhǔn)確率更高,其次是關(guān)鍵詞會多次出現(xiàn)。這樣在內(nèi)容監(jiān)管中就可以允許出現(xiàn)漏檢錯誤,不必每次都準(zhǔn)確地識別關(guān)鍵詞。
2 語音識別技術(shù)的具體應(yīng)用
2.1 音頻模板匹配技術(shù)
在已知節(jié)目片頭曲的條件下,可以使用音頻模板匹配技術(shù)進(jìn)行自動打點和分割。因為受到音頻壓縮和信號傳輸?shù)挠绊?,?dǎo)致模板之間存在差異,就可以通過提取多頻帶能量相對比率,利用各個頻帶能量分布趨勢穩(wěn)定的特點,就可以解決音頻信號扭曲造成的不穩(wěn)定問題。
2.2 音頻切分和分類技術(shù)
在處理廣播電視音頻信息的時候,例如語音識別和檢測關(guān)鍵詞,需要先對廣播電視的音頻進(jìn)行切分,一般都會采用靜音檢測法來切分,這樣可以準(zhǔn)確定位,為音頻分類工作奠定了基礎(chǔ)。對切分的音頻片段進(jìn)行分類,需要根據(jù)音頻類型采取不同的處理方法。非靜音主要分為語音和非語音兩類,而語音又分為純語音和非純語音,非語音分為音樂和環(huán)境音。
2.3 自動發(fā)現(xiàn)技術(shù)
將廣告識別作為案例,利用音頻檢測獲取新廣告:首先是針對未知節(jié)目和廣告而設(shè)計,因此需要去除已知模板,這樣可以減少計算量。接著是利用音頻向量的快速搜索算法確定重復(fù)片段的預(yù)留位置,因為音頻向量都是通過音頻段的信息展開檢索,就會出現(xiàn)音頻字分布相同、但排列不同的音頻片段,也會有一些錯誤片段,所以需要篩選過濾一遍。最后是利用音頻指紋搜索找出音頻向量模型的重復(fù)片段。因為音頻指紋檢索技術(shù)是利用音頻幀的排列信息開展工作,所以準(zhǔn)確度更高,可以檢測出誤報片段。完成上述步驟以后,就可以通過圖像幀變化率來區(qū)分非廣告的重復(fù)部分。因為廣告的播出費用是按照播放時間來定的,所以廣告商需要在有限的時間內(nèi)向觀眾傳遞更多的信息,所以視頻幀的變化率就比較大,而電視劇的變化率較小,這樣就可以去除重播的非廣告類節(jié)目[3]。
3 結(jié)語
隨著科學(xué)技術(shù)的不斷發(fā)展,語音識別技術(shù)的應(yīng)用范圍也越來越廣,識別的準(zhǔn)確度也在不斷提高。廣播電視對語音監(jiān)管的要求也在提高,語音識別技術(shù)必須達(dá)到要求,這樣不僅可以提高節(jié)目的搜索速度,對關(guān)鍵內(nèi)容進(jìn)行快速定位,還可以減輕工作人員的工作壓力,提升監(jiān)管水平。
參考文獻(xiàn)
[1]陳彪,丁鵬.一種基于語音關(guān)鍵詞識別的廣播電視內(nèi)容監(jiān)測系統(tǒng)[J].廣播與電視技術(shù),2015,26(12):31-32.
[2]郭利剛,方土富.智能聲音識別技術(shù)在廣播電視廣告監(jiān)測中的應(yīng)用[J].廣播與電視技術(shù),2016,35(12):28-29.
[3]王婧.基于電視自動編目技術(shù)的廣告監(jiān)管自動化系統(tǒng)[J].廣播與電視技術(shù),2014,13(02):16-17.