基于內(nèi)容的音頻檢索關(guān)鍵技術(shù)分析

2017-09-30 02:58:24華北理工大學(xué)

電子世界 2017年18期

華北理工大學(xué) 李爽劉盈

華北理工大學(xué) 李爽劉盈

在我國社會經(jīng)濟發(fā)展的過程中，網(wǎng)絡(luò)技術(shù)及多媒體技術(shù)也在不斷的發(fā)展，網(wǎng)絡(luò)信息資源不斷的增加，信息檢索技術(shù)也有了相應(yīng)的創(chuàng)新及改革，人們已經(jīng)不滿足傳統(tǒng)基于文本的檢索，而是要求能夠?qū)σ纛l、圖像及視頻等媒體進行快速檢索，在此背景下就產(chǎn)生了基于內(nèi)容的音頻檢索技術(shù)?；趦?nèi)容的音頻檢索技術(shù)主要是在音頻中將語義線索直接提取出來，從而能夠根據(jù)語義線索實現(xiàn)檢索，將檢索的過程和媒體語義相互連接，有效提高檢錯工作的有效性及適應(yīng)性?；趦?nèi)容的音頻檢索技術(shù)目前被廣泛應(yīng)用到各個領(lǐng)域中，比如數(shù)字圖書館、遠程教育、新聞節(jié)目檢錯、環(huán)境監(jiān)測及廣告娛樂節(jié)目的編輯和制作?；诖?，本文就以廣告檢索為背景，研究基于內(nèi)容的音頻檢索關(guān)鍵技術(shù)。

內(nèi)容；音頻檢索；關(guān)鍵技術(shù)

人們一直使用最多的檢索方式為文本信息檢索，其不管是理論、技術(shù)還是實際使用，目前都較為完善及成熟。所在現(xiàn)代信息化的社會中，人們嘗試著將目標(biāo)投向了更加廣闊的空間中，那就是多媒體檢索，音頻信息檢索占據(jù)重要的比重，受到了現(xiàn)代人們的廣泛關(guān)注。之前對于音頻信息檢索使用的都是人工標(biāo)注的方式，也就是使用文本實現(xiàn)音頻、視頻及圖像等媒體的標(biāo)注，其能夠概述多媒體語義信息。此種方式在某種背景下是可行的，但是在多媒體信息數(shù)量不斷提高的背景下，人工標(biāo)注的方式不僅提高了人工成本，并且浪費了人力資源，降低了工作效率，也無法滿足人們的需求。并且由于人工標(biāo)注存在主觀的歧義性，導(dǎo)致檢索結(jié)果失真[1-2]。本文所研究的基于內(nèi)容的音頻檢索為全新的檢索技術(shù)，其能夠結(jié)合音頻語義信息及檢索過程，在短時間從大量的音頻中檢索出自己所需求的內(nèi)容。此種檢索方式是通過音頻數(shù)據(jù)自身的特點作為檢索的條件，從而能夠有效提高檢索結(jié)果的準(zhǔn)確性及客觀性。所以，基于內(nèi)容的音頻檢索技術(shù)算法要通過計算機完成，從而實現(xiàn)低成本及高效率的目的。

1 音頻的處理及特征提取技術(shù)

音頻信號具有多種信息，人們在不同場合中的感興趣信息也是不同的。對于聲音來說，判斷語音要通過提取人類語音信號的特點實現(xiàn)。為了能夠滿足音頻管理及檢索的需求，就要提取音頻底層特征表示，音頻特征的提取主要使用數(shù)字信號處理技術(shù)，一般其分為時域、頻域及時頻三種分析方式[3]，以下分別介紹特征音頻特征的提?。?/p>

1.1 時域特征

假如連續(xù)音頻信號x通過采樣之后得到k各采樣點，在提取音頻時域特征過程中，拜師每個采樣點都具有此時間段音頻信號中的全部信息，那么直接通過采樣點實現(xiàn)音頻特征的提取，不需要對其進行處理。使用此種方法，將采樣點序列作為二維數(shù)軸，將橫坐標(biāo)作為時間，縱坐標(biāo)作為采樣點值。本節(jié)通過音頻中短時平均能量時域特征進行說明。

短時平均能量指的是在短時間內(nèi)音頻窗口中采樣點信號的平均能量，假如短時幀大小表示為N，x（n）表示采樣之后的離散音頻信號，那么在m個短時幀的短時平均能量可以通過下式進行計算：

E(m)=(1/n)(x(n)w(n-m))2

其中x(n)表示長度N，也就是N個采樣點的窗函數(shù)。

短時平均能量能夠?qū)㈦x散時間音頻信號充分的表示出現(xiàn)，能夠?qū)⑵涮攸c表示為以下：

首先，短時平均能量能夠?qū)冋Z音信號中的濁音及清音清楚的區(qū)分，因為清音中的短時平均能量比濁音??；

另外，在音頻信號信噪比較高的時候，短時平均能量能夠?qū)⑵渲械撵o音部分有效區(qū)分；

最后，短時平均能量能夠在時間變化過程中，將音頻周期及節(jié)奏等屬性充分的表現(xiàn)出來，短時平均能量能夠直接在靜音檢測中使用，如果音頻中的某幀平均能量比預(yù)先設(shè)置的閾值低，那么表示此幀為靜音，否則不是靜音。如果音頻中靜音幀數(shù)目較多，表示此音頻為靜音音頻[3-4]。

1.2 頻域特征

音頻理論表示，每個音頻信號都包括不同時間、能量幅度及頻率的聲波，人們是由于人耳對音頻信號進行感受。音頻是不同頻率在不同時間中的不同能量構(gòu)成的，每個時間的采樣信號都只表示一部分內(nèi)容，音頻信號中的其他信息要通過頻域信息得到。將原始的音頻信號時域轉(zhuǎn)換為頻域，可以通過傅里葉變換實現(xiàn)，之后將音頻信號通過不同幅度及頻率諧波表示，提取諧波中的特征系數(shù)。音頻信號頻域特征包括多種，比如頻率中心、Mel頻率倒譜及帶寬等。傳統(tǒng)的音頻數(shù)據(jù)是一種時空信號，具有較大的分辨率，并且能夠通過時空中的相關(guān)性實現(xiàn)數(shù)據(jù)壓縮。傅里葉變換能夠?qū)r空域中的音頻信號映射到頻率域中，從而滿足人們的聽覺特征，并且還能夠通過信號實現(xiàn)頻率域冗余的數(shù)據(jù)壓縮[5]。

頻率中心表示頻譜的分布，其在壓縮域中是絕對頻譜平衡頻率，可以通過下式進行計算：

帶寬表示頻率中心及頻譜成分兩者的平方差能量權(quán)重的平均值平方根，通過下式進行計算：

1.3 視頻特征

在處理信號過程中，傳統(tǒng)傅立葉分析在分析平衡性消耗及確定性的時候具有重要的作用，但是在現(xiàn)實生活中部分信號的時變性較長，比如在某段時間中具有周期信號特點，但是在某段時間中卻具有噪聲特點。對于此種時變較為劇烈的音頻信號，只是在頻譜空間中實現(xiàn)傅里葉分析具有較強的局限性，那么就要實現(xiàn)信號的時頻分析。由于傅里葉變換不具有時空定位信息，所以就提出了短時傅里葉變換，從而實現(xiàn)時頻分析，但是窗口的大小是不變的，那么之后就提出了具有可變窗口自適應(yīng)時頻分析，小波變換，其被廣泛應(yīng)用到信號時頻過程中。

小波分析是現(xiàn)代發(fā)展的視頻分析技術(shù)，其存在多分辨分析的作用，被稱為數(shù)學(xué)顯微鏡，和三角級數(shù)、冪級數(shù)及傅里葉級數(shù)相同，小波分析是使用簡單的函數(shù)能夠表示任何函數(shù)[6]，比如三角級數(shù)通過下式表示：

被表示的全部函數(shù)為函數(shù)空間，但是函數(shù)族就是函數(shù)空間基底，在函數(shù)展開式中系數(shù)就是此函數(shù)在函數(shù)空間的坐標(biāo)，對應(yīng)函數(shù)空間的點，這就如同函數(shù)從傳統(tǒng)域到全新域中，比如講三角級數(shù)的時空域函數(shù)變?yōu)轭l率域中。

2 基于內(nèi)容的音頻分割及識別算法

不同框架和模型的音頻信息算法檢索都是不同的，本節(jié)對隱馬爾可夫模型算法進行了分析。隱馬爾可夫模型是馬爾科夫模型的擴充，被廣泛應(yīng)用到計算機語言學(xué)方面，并且也在音頻識別方面使用，還具有較大的成果。但是隱馬爾可夫模型在音頻檢索方面使用具有較大的問題，首先是估算問題，其次是解碼問題，最后是學(xué)習(xí)問題。將這三種問題換一種說法就是向前-向后算法、Viterbi算法和Baum-welch算法，這三種算法有效解決了隱馬爾可夫模型中的三個問題[7-8]。比如向前-向后算法：

向前-向后算法的主要目的就是計算觀察值序列和模型的，加入觀察值序列為0=O1,O2,...,OT,模型為λ=（π，A,B），通過模型計算得到O的概率P（O∣λ），概率通過以下得到：

λ的給定得到S概率為：

所以得到的概率為：

通過上式可以看出來，以上運算量較大，如果在音頻檢索重視使用是不能夠被接受的，那么向前-向后算法就被提出，其定義為：

以此可以看出來，有效降低了算法的計算量，使用VC程序?qū)崿F(xiàn)計算結(jié)果，詳見圖1：

圖1 向前算法的計算結(jié)果

3 基于內(nèi)容的音頻檢索系統(tǒng)

傳統(tǒng)音樂檢索使用的都是文件標(biāo)注方式，但是在語音處理技術(shù)不斷發(fā)展的過程中，人們開始逐漸使用語音及音頻的方式實現(xiàn)音頻檢索，此方面是基于內(nèi)容的音頻檢索技術(shù)發(fā)展最具前景的研究方面。本節(jié)以音頻檢索案例說明音頻檢索算法的使用。

音頻檢索指的是從檢索數(shù)據(jù)源中尋找和指定檢索內(nèi)容相同的音頻信息，其主要是通過一般是聲學(xué)特性實現(xiàn)分析和檢索，除了音樂文件，其還能夠?qū)崿F(xiàn)雨聲、飛機聲及鳥叫聲的檢索，其包括了多種語音形式[9]。音頻檢索案例中的SoundSpotter系統(tǒng)具有一定的參考價值，其檢索示意圖為：

圖2 SoundSpotter檢索示意圖

圖2中是將MFCC特點為基礎(chǔ)，對比五種檢索方式：第一種為通過MFCC特征實現(xiàn)直接軌跡匹配；第二種為MFCC通過映射實現(xiàn)軌跡匹配；第三種為直接使用DTW及MFCC特征實現(xiàn)匹配；第四種為使用功能MFCC通過聚類實現(xiàn)的直方圖匹配。但是軌跡匹配是在檢索目標(biāo)向量序列和長度相同輸入特征向量序列中實現(xiàn)計算，兩者的相似度數(shù)值為兩序列向量的均值。第一種和第三種的檢索率最高。

3.1 動態(tài)直方圖檢索

圖3為動態(tài)直方圖檢索的過程：

圖3 動態(tài)直方圖檢索的過程

首先，將特征向量從參考信號及輸入信號中進行提取，分別得到參考特征向量技術(shù)輸入特征向量；其次，將特征向量使用直方窗從輸入特征向量序列及特征向量序列中進行提取，之后生成輸入直方圖及參考直方圖，其長度和參考信號時長一樣。因為直方窗不能夠表示音頻時序，那么可以實現(xiàn)字窗的劃分，使用相同序列等長并且相鄰的字窗表示。另外對輸入直方圖及參考直方圖的相似度進行計算，如果相似度比閾值高，那么表示兩者的位置相互匹配。之后使直方窗位置向前移動，重復(fù)以上過程。

將音頻信號通過二階時域濾波器，假如j個濾波器的輸出表示為yj(k)，頻帶j的短時能量表示為：

M為短時幀的長度，i表示幀的序號。

某幀信號的頻帶能量特征通過向量可以使用下式表示：

E(i)=(e1(i),e2(i),...,en(i))

如果將頻帶能量值域分為不同的區(qū)間，每個區(qū)間都和一個直方相互對應(yīng)，之后統(tǒng)計頻帶能量的直方比率，從而得到直方圖。在動態(tài)檢索過程中，最簡單的方法就是將音頻幀作為單位，直方圖在音頻流中緩慢的超前移動，其子窗也逐漸的超前移動，每次移動都具有一個直方圖，并且計算相似度。因為直方圖交集相似度在相鄰移動區(qū)間中的相似性導(dǎo)致移動過程中能夠?qū)崿F(xiàn)動態(tài)移動步長的改變，從而能夠減少移動的次數(shù)，降低計算量，提高檢索的速度[10]。圖4為使用直方圖算法的動態(tài)檢索。

圖4 使用直方圖算法的動態(tài)檢索

3.2 有噪聲的音頻檢索案例

在音頻檢索過程中，不可避免會出現(xiàn)造成干擾，所以就要對其進行特殊處理，使用基于響度主分量模糊直方圖的音頻檢索對其進行處理。平均入耳的曲線表現(xiàn)了響度不同的純音頻率及聲壓等級的聯(lián)系，那么k次濾波的聲壓級SPL、響度級LL及衰減量C的關(guān)系為：

那么k次諧波響度表示為：

K次諧波歸一化響度為：

通過上式可以看出來，歸一化響度能夠有效避免音量調(diào)節(jié)的問題，降低了計算過程。音頻真諧波的響度值大部分都不大，較大的響度值只占據(jù)了小部分，一般響度主分量指的就是比平均水平高的信度分量，在計算直方圖過程中，響度主分量的比例較小，所以極易被淡化，其值及分布能夠充分表現(xiàn)出音頻特點，所以只是使用響度主分量，能夠有效提高直方圖性能。在直方圖計算過程中只重視非靜音數(shù)據(jù)，頻率分量包括強度主分量集合及其他諧波，兩者在元素響度平均值中具有較大的差異。使用歸一化響度音頻特征檢索過程中，不僅能夠使檢索結(jié)果更加接近人類的聽覺特點，還能夠有效提高抗干擾能力，提高魯棒性[11]。

4 結(jié)束語

現(xiàn)代音頻信息檢索還處于理論算法研究及初步使用階段，在全面進入到人們生活之前還要對其更加深入的研究。本文對于基于內(nèi)容的音頻檢索技術(shù)進行了分析，使用此些技術(shù)能夠有效減少數(shù)據(jù)的計算量，提高實時性能。在音頻檢索今后的工作中，還要創(chuàng)新出更多的技術(shù)，比如音樂自動標(biāo)注及分析等，以此有效提高音頻檢索的能力及有效性。

[1]李恒峰,李國輝．基于內(nèi)容的音頻檢索與分類[J]．計算機工程與應(yīng)用, 2000,36(7):54-56．

[2]蘇啟院．基于內(nèi)容的音樂檢索關(guān)鍵技術(shù)研究[D]．華南理工大學(xué),2011．

[3]俞鵬飛．基于內(nèi)容的音頻檢索系統(tǒng)關(guān)鍵技術(shù)及其實現(xiàn)[D]．復(fù)旦大學(xué),2013．

[4]張新彩．基于內(nèi)容的音樂檢索技術(shù)研究與實現(xiàn)[D]．西北大學(xué),2009．

[5]楊會云．基于HMM-SVM的音頻分類與檢索索算法研究[D]．重慶郵電大學(xué), 2010．

[6]楊波．基于內(nèi)容的多音音樂檢索系統(tǒng)設(shè)計[D]．武漢理工大學(xué),2012．

[7]鄧慧麗,何華．音頻數(shù)據(jù)檢索專利技術(shù)綜述[J]．科技創(chuàng)新與應(yīng)用,2016(25):72．

[8]周姣．基于內(nèi)容的音頻信息檢索技術(shù)[J]．大科技,2017(8)．

[9]王公友．基于內(nèi)容的音頻分析與場景識別[D]．南京大學(xué),2013．

[10]張建華,汪鑫．基于內(nèi)容音頻檢索綜述[J]．商情,2012(2):215-217．

[11]尹文慧．基于哼唱內(nèi)容的音樂檢索技術(shù)研究[D]．天津財經(jīng)大學(xué),2013．

課題項目：河北省高等學(xué)?？茖W(xué)技術(shù)研究項目《基于內(nèi)容的音頻檢索關(guān)鍵技術(shù)研究及應(yīng)用》（編號Z2015102）。