吳海霞,李艷玲,劉潞鋒
(1.長(zhǎng)治學(xué)院計(jì)算機(jī)系; 2.長(zhǎng)治市郊區(qū)廣電中心,山西 長(zhǎng)治046011)
基于內(nèi)容和旋律的音頻片段識(shí)別與檢索
吳海霞1,李艷玲1,劉潞鋒2
(1.長(zhǎng)治學(xué)院計(jì)算機(jī)系; 2.長(zhǎng)治市郊區(qū)廣電中心,山西 長(zhǎng)治046011)
介紹了音頻信號(hào)的主要特征和處理技術(shù),給出音頻檢索系統(tǒng)的處理框架和主流產(chǎn)品,并列出典型檢索引擎及應(yīng)用行業(yè);詳細(xì)闡述了音頻識(shí)別和檢索的主要方法、基于旋律和內(nèi)容的音頻片段檢索的原理和特點(diǎn);最后結(jié)合實(shí)驗(yàn)和測(cè)試中的實(shí)際問(wèn)題對(duì)音頻檢索進(jìn)行展望.
信息檢索;音頻識(shí)別;音頻片段;聲紋
信息檢索技術(shù)從人工檢索和計(jì)算機(jī)輔助檢索發(fā)展到當(dāng)前網(wǎng)絡(luò)檢索和智能檢索,檢索對(duì)象涵蓋文本、圖像、視頻、聲音、樂(lè)譜、DNA序列等[1]結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù).原先的數(shù)據(jù)對(duì)象基本穩(wěn)定而封閉,由獨(dú)立數(shù)據(jù)庫(kù)集中管理,而現(xiàn)在的數(shù)據(jù)呈現(xiàn)出基于web、海量的、復(fù)雜的結(jié)構(gòu),且具有極強(qiáng)的開(kāi)放性、動(dòng)態(tài)性和分布式特點(diǎn).移動(dòng)互聯(lián)網(wǎng)和社交網(wǎng)絡(luò)的發(fā)展大大推動(dòng)了數(shù)字化媒體技術(shù)的應(yīng)用,從海量信息資源中獲取有用音頻成為人們的基本需求.在線音樂(lè)和語(yǔ)音數(shù)據(jù)呈爆炸式增長(zhǎng),給用戶提供了豐富而靈活的選擇空間.人們對(duì)娛樂(lè)文化的個(gè)性化便捷化追求,也使移動(dòng)音頻檢索成為信息處理、多媒體和音樂(lè)藝術(shù)等領(lǐng)域的研究熱點(diǎn).
音頻識(shí)別涉及信號(hào)處理、語(yǔ)言學(xué)、聲學(xué)、音樂(lè)學(xué)、機(jī)器學(xué)習(xí)、人工智能、模式識(shí)別、計(jì)算機(jī)算法等學(xué)科,語(yǔ)音識(shí)別應(yīng)用于語(yǔ)音撥號(hào)、語(yǔ)音導(dǎo)航、設(shè)備控制、語(yǔ)音文檔檢索、聽(tīng)寫(xiě)錄入等[2].與自然語(yǔ)言處理相結(jié)合可衍生出更復(fù)雜的應(yīng)用,如機(jī)器翻譯和語(yǔ)音合成技術(shù)結(jié)合實(shí)現(xiàn)語(yǔ)音到語(yǔ)音的翻譯.隨著語(yǔ)音處理技術(shù)日趨成熟,國(guó)內(nèi)外專(zhuān)業(yè)人士和研究機(jī)構(gòu)做出大量貢獻(xiàn),成功研發(fā)出各具特色的音頻識(shí)別檢索系統(tǒng).midomi.com網(wǎng)站、手機(jī)微信的搖歌搖電視等都成為廣受歡迎的檢索工具,對(duì)音頻片段進(jìn)行快速檢索和精確識(shí)別.
聲音是物體振動(dòng)產(chǎn)生的一種波,具有振幅、頻率、相位等物理特性,傳播到電子設(shè)備形成音頻信號(hào).音頻包括靜音、語(yǔ)音、音樂(lè)、歌聲、環(huán)境音等,音頻信息是時(shí)間序列數(shù)據(jù)流,廣泛用于媒體行業(yè)信息處理、檢索和分類(lèi).音頻幀具有短時(shí)穩(wěn)定、長(zhǎng)時(shí)可變的特性,但由于時(shí)間粒度太小很難提取出有意義的特征,所以需要定義粒度更大的結(jié)構(gòu)單元,即音頻片段,如過(guò)門(mén)、間奏、首句、高峰句、結(jié)束句、念唱、簡(jiǎn)譜等.
1.1 音頻的三類(lèi)特征
根據(jù)不同的特征空間,音頻分為時(shí)域、頻域和時(shí)頻特征[3].時(shí)域特征包括短時(shí)平均能量、靜音比、過(guò)零率和線性預(yù)測(cè)系數(shù)等,可從原始音頻信號(hào)上直接提取.頻域特征是將原始信號(hào)傅立葉變換到頻域后提取的一系列特征,如帶寬、頻譜中心、諧音、音調(diào)、倒譜系數(shù)等.時(shí)頻特征反映時(shí)間域和頻率域的聯(lián)合分布,描述信號(hào)在不同時(shí)間和頻率的能量密度或強(qiáng)度.
1.2 音樂(lè)的特征與類(lèi)別
音樂(lè)具有物理屬性和文本屬性,物理屬性如韻律、幅度、頻率等,文本屬性如歌名、歌詞、演唱者、作詞、作曲、專(zhuān)輯等.每個(gè)音樂(lè)都有音高、音長(zhǎng)、速度、音量等基本特征.音樂(lè)包括無(wú)歌詞純樂(lè)器音樂(lè)、民族歌曲、流行歌曲、搖滾樂(lè)、戲曲等類(lèi)別,其中樂(lè)器音樂(lè)分打擊樂(lè)、彈奏樂(lè)、管弦樂(lè)等,我國(guó)戲曲包括京劇、豫劇、晉劇、川劇、越劇、黃梅戲、昆曲等種類(lèi).音樂(lè)的存取格式主要有wav,wma,avi,mp3,mid等.
1.3 語(yǔ)音識(shí)別技術(shù)
語(yǔ)音信號(hào)處理廣泛用于便攜式和嵌入式智能化設(shè)備語(yǔ)音模塊,一些非實(shí)時(shí)和實(shí)時(shí)的識(shí)別系統(tǒng)已被開(kāi)發(fā)和使用,改變著人機(jī)界面和交互方式,如PC機(jī)聽(tīng)寫(xiě)輸入、語(yǔ)言對(duì)比學(xué)習(xí)軟件、數(shù)碼設(shè)備、聲控玩具和智能儀器等[4].語(yǔ)音識(shí)別利用數(shù)字信號(hào)處理技術(shù)自動(dòng)提取人類(lèi)語(yǔ)音中的詞匯內(nèi)容并轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,如按鍵、二進(jìn)制編碼或字符序列[5].
語(yǔ)音識(shí)別分為語(yǔ)音訓(xùn)練、特征識(shí)別、失真測(cè)度三個(gè)階段.1)語(yǔ)音訓(xùn)練:預(yù)先分析語(yǔ)音的特征參數(shù),制作語(yǔ)音模板并存放在語(yǔ)音參數(shù)庫(kù)中;2)特征識(shí)別:語(yǔ)音經(jīng)訓(xùn)練分析得到語(yǔ)音參數(shù),與庫(kù)中參考模板逐個(gè)比較,找出最接近的模板作為識(shí)別結(jié)果;3)失真測(cè)度:進(jìn)行語(yǔ)音比較時(shí)需遵循特定的標(biāo)準(zhǔn),即計(jì)量語(yǔ)音特征參數(shù)矢量之間的失真測(cè)度.
當(dāng)前語(yǔ)音識(shí)別的研究熱點(diǎn)有大詞匯量、非特定人連續(xù)語(yǔ)音識(shí)別,研究策略由傳統(tǒng)的基于標(biāo)準(zhǔn)模板匹配轉(zhuǎn)向基于統(tǒng)計(jì)概率模型研究,技術(shù)日趨成熟.語(yǔ)音識(shí)別的最大突破是HMM和人工神經(jīng)網(wǎng)絡(luò)的應(yīng)用.
多媒體檢索是ECIR、ACM SIGIR和ICMR國(guó)際會(huì)議的重要內(nèi)容,專(zhuān)業(yè)研究機(jī)構(gòu)已推出一些音樂(lè)檢索系統(tǒng),使用戶通過(guò)清唱、哼唱、彈奏、播放等方式輸入音頻片段進(jìn)行識(shí)別和檢索[6].
音頻檢索系統(tǒng)由檢索界面、音調(diào)跟蹤、特征庫(kù)生成和檢索引擎模塊構(gòu)成.每個(gè)系統(tǒng)都有各自的資源庫(kù),數(shù)量上百萬(wàn)且規(guī)模不斷擴(kuò)展.與指紋識(shí)別相似,不同歌曲聲紋各異,搜索算法從茫茫歌海中即時(shí)搜索和比對(duì),最終與相似度高的音樂(lè)成功匹配.音頻檢索系統(tǒng)處理框架如圖1所示.
圖1 音頻檢索系統(tǒng)的處理框架
2.1 音頻搜索的關(guān)鍵問(wèn)題
建立完整有效的音頻檢索系統(tǒng)需要考慮:如何表現(xiàn)旋律,即音頻信號(hào)的預(yù)處理;如何構(gòu)造音樂(lè)數(shù)據(jù)庫(kù)并建立音頻索引;如何提取旋律特征形成查詢索引;如何構(gòu)造用戶查詢實(shí)施匹配,根據(jù)查詢索引和庫(kù)中索引間的相似性對(duì)音頻片段檢索.
2.2 音頻檢索系統(tǒng)產(chǎn)品
音頻檢索研究和發(fā)展更加成熟,產(chǎn)品應(yīng)用日趨豐富,創(chuàng)新和突破仍在繼續(xù).表1列出幾種音頻檢索系統(tǒng),其中我國(guó)的ARS系統(tǒng)擁有龐大的原始音頻庫(kù),包含語(yǔ)音、音樂(lè)、笑聲、鈴聲、動(dòng)物聲等不同類(lèi)別[7].
表1 幾種成熟的音頻檢索系統(tǒng)
2.3 音頻檢索引擎
文本檢索根據(jù)關(guān)鍵字列表組成的查詢對(duì)文檔進(jìn)行定位和匹配,把相關(guān)度高的文檔反饋給用戶.傳統(tǒng)的音樂(lè)搜索通過(guò)匹配歌名、歌詞、專(zhuān)輯、作者、歌手、流派等文本內(nèi)容而返回查詢結(jié)果,其本質(zhì)也是文本搜索,如Google、百度MP3、酷我音樂(lè)盒等音樂(lè)搜索引擎,pandora.com和last.fm等音樂(lè)共享網(wǎng)站.亦歌(1g1g)等在線播放器甚至能根據(jù)用戶歷史記錄、行為反應(yīng)和變化分析其偏好與口味,進(jìn)行個(gè)性化音樂(lè)推薦.但這些產(chǎn)品對(duì)媒體設(shè)備播放或演奏的音樂(lè)、哼唱的歌曲或戲曲片段難以識(shí)別.
真正的音樂(lè)搜索引擎是用音樂(lè)片段來(lái)搜索音樂(lè),對(duì)于不知名稱和出處的音樂(lè)或旋律,過(guò)播放、哼唱、吹口哨,或借助麥克風(fēng)、鍵盤(pán)和樂(lè)器操作獲得相應(yīng)曲目,支持原唱和翻唱識(shí)別,即使音調(diào)不準(zhǔn)、五音不全、不擅唱歌的用戶,系統(tǒng)也可在一定時(shí)間內(nèi)有效識(shí)別.表2對(duì)幾種典型商業(yè)化音頻檢索引擎進(jìn)行對(duì)比.
表2 典型的商業(yè)化音頻檢索引擎
2.4 音頻檢索系統(tǒng)的應(yīng)用
音頻檢索技術(shù)的發(fā)展和成熟催生了移動(dòng)終端、廣電傳媒、文化生活等方面的應(yīng)用和服務(wù).
2.4.1 移動(dòng)音樂(lè)檢索
移動(dòng)通信和無(wú)線網(wǎng)絡(luò)的普及推動(dòng)了音樂(lè)檢索的發(fā)展和應(yīng)用.如手機(jī)微信的“搖歌曲”就是一款典型的新興應(yīng)用,操作簡(jiǎn)單便捷.1)打開(kāi)微信:微信4.5以上版本具有此項(xiàng)功能;2)開(kāi)啟應(yīng)用:在“搖一搖”功能中選擇“歌曲”項(xiàng);3)播放音樂(lè):用電腦、電視、手機(jī)、播放器或收音機(jī)等設(shè)備播放待識(shí)別音樂(lè);4)搜索和識(shí)別:應(yīng)用程序自動(dòng)調(diào)用接收的信號(hào),搖動(dòng)手機(jī)時(shí)觸動(dòng)傳感器,聲音信號(hào)發(fā)給微信程序,與服務(wù)器中龐大的歌曲數(shù)據(jù)庫(kù)進(jìn)行比較和匹配;5)識(shí)別成功:應(yīng)用程序?qū)⑺阉鞯降南嗨贫茸罡叩母枨答佒劣脩羰謾C(jī),實(shí)時(shí)顯示歌名、歌詞、作者等信息并后臺(tái)同步播放.用戶核對(duì)無(wú)誤后可繼續(xù)進(jìn)行收藏或分享操作.
2.4.2 廣電行業(yè)
音頻檢索是多媒體檢索的熱點(diǎn),也是廣電行業(yè)應(yīng)用研究的熱點(diǎn).音頻檢索系統(tǒng)在各級(jí)廣播電臺(tái)開(kāi)始嘗試和推廣,市場(chǎng)空間較大.構(gòu)建音頻資料存儲(chǔ)系統(tǒng)并實(shí)現(xiàn)高效管理成為重要工作和關(guān)鍵技術(shù).音頻可用文本標(biāo)注,語(yǔ)音可轉(zhuǎn)換為相應(yīng)文本,電視臺(tái)和廣播電臺(tái)利用語(yǔ)音識(shí)別能快速得到新聞和記錄片等相關(guān)語(yǔ)言節(jié)目的文本稿件,高效快捷.
電視直播第二屏互動(dòng)技術(shù)也已成熟和推廣,像微信搖一搖電視功能可在三四米距離用手機(jī)錄制電視直播,實(shí)時(shí)識(shí)別當(dāng)前頻道.其原理也是基于音頻識(shí)別和匹配,服務(wù)器實(shí)時(shí)將電視直播流的聲音轉(zhuǎn)換成音頻指紋,當(dāng)用戶搖動(dòng)時(shí)把手機(jī)麥克風(fēng)收到的聲音與直播流的聲紋進(jìn)行匹配.Syntec TV、Shazam及MusicRadar音樂(lè)雷達(dá)都在應(yīng)用這一技術(shù).
2.4.3 娛樂(lè)服務(wù)
以前的KTV點(diǎn)歌系統(tǒng)只可通過(guò)歌名、歌手等文本信息查詢,而增加音頻檢索功能后,用戶通過(guò)手機(jī)播放或隨機(jī)哼唱片段都可自動(dòng)選歌.此外,利用音頻檢索系統(tǒng),音樂(lè)培訓(xùn)教育機(jī)構(gòu)的視唱教學(xué)模式也將發(fā)生改變,比如通過(guò)多次試唱和跟唱來(lái)校驗(yàn)音準(zhǔn)、核對(duì)詞曲.在學(xué)校和社區(qū)還可開(kāi)展點(diǎn)歌、猜歌、影視配音、娛樂(lè)競(jìng)賽多種形式的綜藝活動(dòng).
2.4.4 聲紋鑒定
聲紋是電聲學(xué)儀器顯示的帶有語(yǔ)言信息的聲波頻譜,與指紋和虹膜一樣是每個(gè)人相對(duì)穩(wěn)定的特征.故意模擬或改變聲音、語(yǔ)氣和音量,其聲紋也基本不變.在刑事案件中通過(guò)聲紋鑒定技術(shù)進(jìn)行對(duì)比檢驗(yàn),可有效分辨嫌疑人年齡、性別、方言、情緒,審查錄音等證據(jù)的真?zhèn)危岣甙讣善菩?
國(guó)內(nèi)外專(zhuān)業(yè)機(jī)構(gòu)對(duì)音頻檢索尤其是音樂(lè)檢索進(jìn)行深入研究,提出不同的建庫(kù)方式、旋律表示、查詢方式和匹配方式.在檢索時(shí)利用音調(diào)、音強(qiáng)、過(guò)零率等特征,基于不同算法將音頻文件聚類(lèi)形成參數(shù)庫(kù).系統(tǒng)對(duì)原始音頻庫(kù)進(jìn)行特征處理,形成特征數(shù)據(jù)庫(kù),利用基本屬性、特征值、例子視頻[8]等進(jìn)行檢索.
3.1 音頻檢索過(guò)程
音頻檢索的基本步驟為預(yù)處理、特征提取、音頻分割、識(shí)別匹配、音頻檢索.
3.1.1 音頻預(yù)處理
音頻檢索的對(duì)象是語(yǔ)音、音樂(lè)及風(fēng)雨聲、笑聲、掌聲、爆炸等豐富的聲音數(shù)據(jù).預(yù)處理即先獲取原始信號(hào),加強(qiáng)或減弱不同部分,檢測(cè)音符序列和語(yǔ)音信號(hào),進(jìn)行濾波、去噪、預(yù)加重、加窗、分幀等處理,為特征提取、識(shí)別匹配和音頻檢索做準(zhǔn)備.
3.1.2 音頻特征提取
特征提取是音頻檢索的關(guān)鍵任務(wù),是音頻分割、識(shí)別和分類(lèi)的基礎(chǔ).首先對(duì)待識(shí)別音頻數(shù)據(jù)加窗處理形成幀,加窗大約數(shù)微秒,重疊移動(dòng)形成多幀,鄰幀疊加30-50%;再對(duì)每幀作快速傅里葉變換得到傅里葉系數(shù)和頻域能量;然后計(jì)算幀特征和標(biāo)準(zhǔn)偏差、數(shù)學(xué)期望、方差;最后將幀特征推廣為片段特征.
1)基音檢測(cè)與提取 基音檢測(cè)即基于基音的聲學(xué)特征進(jìn)行識(shí)別.目前主流技術(shù)包括時(shí)域自相關(guān)法、頻域倒譜法、時(shí)頻結(jié)合的小波變換分析法及相關(guān)衍生算法,對(duì)加窗分幀后查詢片段中的每幀數(shù)據(jù)提取基音,即得到代表音調(diào)變化的基音序列[9].
2)音高提取算法 音高是音樂(lè)的重要屬性.提取算法主要有最大似然、自相關(guān)算法及基于生理聲學(xué)的音高檢測(cè)[9].
3.1.3 音頻識(shí)別匹配
根據(jù)音樂(lè)特征,利用最鄰近準(zhǔn)則和Mahalanobis距離設(shè)計(jì)音頻分類(lèi)器,將數(shù)據(jù)劃分為樂(lè)器聲、男聲、女聲、掌聲、噪音等類(lèi)別.主要的匹配算法有HMM和DTW,主要運(yùn)算有遞歸、求最短編輯距離、計(jì)算最長(zhǎng)公共子序列、統(tǒng)計(jì)子串在長(zhǎng)串中的頻次等.通過(guò)音樂(lè)相似度計(jì)算和優(yōu)先級(jí)排序?qū)崿F(xiàn)音樂(lè)查詢.利用Cool Editor、GoldWave等軟件進(jìn)行音頻錄制、片段截取、語(yǔ)音分析、格式轉(zhuǎn)換,便于仿真讀取、檢索和調(diào)用音頻數(shù)據(jù),用Matlab分幀和編制濾波函數(shù),檢測(cè)語(yǔ)音端點(diǎn)平均能量和過(guò)零率,驗(yàn)證檢測(cè)準(zhǔn)確度.
3.1.4 音頻檢索
自動(dòng)語(yǔ)音識(shí)別技術(shù)可以識(shí)別音頻流中的詞語(yǔ),甚至自動(dòng)定位到人,使檢索達(dá)到語(yǔ)義級(jí);音樂(lè)檢索利用音符和旋律特性,計(jì)算特征矢量間的歐幾里德距離或Manhattan距離作為近似度指標(biāo)以返回最優(yōu)檢索結(jié)果.
3.2 音樂(lè)檢索方法
主要有基于符號(hào)注釋、基于內(nèi)容、基于旋律、基于情感分析等方法,大部分基于音樂(lè)基本屬性進(jìn)行特征匹配,當(dāng)前研究較多的是情感分析.
3.2.1 基于符號(hào)注釋的音樂(lè)檢索
最原始的音頻檢索是基于人工輸入的音樂(lè)符號(hào)和標(biāo)注的屬性描述,缺點(diǎn)是當(dāng)數(shù)據(jù)規(guī)模很大時(shí)人工注釋強(qiáng)度增加,且標(biāo)注符號(hào)無(wú)法表達(dá)清楚用戶對(duì)音頻旋律、音調(diào)和音質(zhì)等感知.這恰是基于內(nèi)容音頻檢索需解決的問(wèn)題.
3.2.2 基于旋律的音樂(lè)檢索
包括基于絕對(duì)音高序列和相對(duì)音高序列[10]兩種方法,表3對(duì)二者做簡(jiǎn)單對(duì)照.UDS方法中的U表示音調(diào)較之前升高,D表示音調(diào)降低,S代表音調(diào)不變.
表3 基于音樂(lè)旋律的檢索方法
3.2.3 基于內(nèi)容的音頻檢索
音頻的內(nèi)容分為物理樣本級(jí)、聲學(xué)特征級(jí)和語(yǔ)義級(jí)三個(gè)級(jí)別[11].如表4所示.
表4 音頻內(nèi)容的三個(gè)等級(jí)
基于內(nèi)容的音頻檢索常在聲學(xué)特征級(jí)和語(yǔ)義級(jí)進(jìn)行,基于內(nèi)容本身認(rèn)定樂(lè)曲,不依賴于標(biāo)注信息.原始音頻數(shù)據(jù)除采樣頻率、量化比特、編碼方法等信息外,僅僅是一種非語(yǔ)義表示的非結(jié)構(gòu)化二進(jìn)制碼流,缺乏對(duì)內(nèi)容語(yǔ)義的描述,音頻檢索受限,同時(shí)它是一種相似性檢索,無(wú)法實(shí)現(xiàn)精確匹配檢索.
3.2.4 基于情感分析的音頻檢索
語(yǔ)義信息作為音頻內(nèi)容的最高級(jí)抽象形式,可被人們直接理解和交流,其中情感語(yǔ)義是表達(dá)音樂(lè)最本質(zhì)的特性,基于情感的音樂(lè)內(nèi)容分析和合成研究是計(jì)算機(jī)音樂(lè)研究的重要部分.通過(guò)音樂(lè)情感分析和情感建模對(duì)數(shù)據(jù)集中音樂(lè)情感信息進(jìn)行人工標(biāo)注,但音樂(lè)語(yǔ)料往往短小、稀疏、含蓄,需用聚類(lèi)方法建立情感分類(lèi)器對(duì)音樂(lè)進(jìn)行識(shí)別[12].
3.3 音頻識(shí)別方法
音頻識(shí)別的典型方法有高斯混合模型(GMM)、隱馬爾可夫模型(HMM)、支持向量機(jī)(SVM)、動(dòng)態(tài)時(shí)間歸整(DTW)等.下面介紹孤立詞、連續(xù)多句和帶噪音的片段識(shí)別方法.
3.3.1 孤立詞語(yǔ)音識(shí)別
孤立詞的語(yǔ)音識(shí)別方法很種,各具優(yōu)缺點(diǎn)和應(yīng)用場(chǎng)景.
1)動(dòng)態(tài)規(guī)劃法 其原理和算法簡(jiǎn)單,易于實(shí)現(xiàn),識(shí)別率較高,但運(yùn)算量很大.失真測(cè)度用歐氏距離或?qū)?shù)似然比距離,決策方法可用最近鄰域準(zhǔn)則.
2)矢量量化法 既可用于語(yǔ)音通信中波形或參數(shù)壓縮,也可用于語(yǔ)音識(shí)別.經(jīng)典的有限狀態(tài)矢量量化方法對(duì)語(yǔ)音識(shí)別更有效,決策方法可用最小平均失真準(zhǔn)則.
3)HMM法 這是一種用參數(shù)表示描述隨機(jī)過(guò)程統(tǒng)計(jì)特性的概率模型,參數(shù)可用離散概率分布函數(shù)或連續(xù)概率密度函數(shù),決策方法用最大后驗(yàn)概率準(zhǔn)則.HMM模型可視為有限狀態(tài)自動(dòng)機(jī),僅各時(shí)刻的輸出值對(duì)外界可見(jiàn),其內(nèi)部狀態(tài)對(duì)外不可見(jiàn),音頻識(shí)別系統(tǒng)的輸出值是計(jì)算各幀所得的聲學(xué)特征.離散HMM對(duì)特征空間的描述誤差較大不夠精確,因此在連續(xù)語(yǔ)音識(shí)別中使用連續(xù)HMM.相同條件下HMM與DTW識(shí)別效果相近,但訓(xùn)練階段需提供大量語(yǔ)音數(shù)據(jù),經(jīng)反復(fù)計(jì)算得到參數(shù)模型,因此稍復(fù)雜一些.
4)DTW算法 基于動(dòng)態(tài)規(guī)劃解決發(fā)音長(zhǎng)短不一的模板匹配,是典型的優(yōu)化問(wèn)題.用滿足一定條件的時(shí)間規(guī)整函數(shù)描述輸入模板和參考模板時(shí)間的對(duì)應(yīng)關(guān)系,計(jì)算兩矢量匹配時(shí)累積距離最小所對(duì)應(yīng)的規(guī)整函數(shù),以尋求最優(yōu)匹配路徑.此算法簡(jiǎn)單有效,訓(xùn)練過(guò)程不需額外計(jì)算,應(yīng)用廣泛,但在解決大詞匯量、連續(xù)語(yǔ)音、非特定人語(yǔ)音識(shí)別問(wèn)題時(shí)比HMM差一些.
5)混合方法 將上面多種技術(shù)恰當(dāng)結(jié)合形成混合方法進(jìn)行應(yīng)用,比如首先用矢量量化作為第一級(jí)識(shí)別,通過(guò)預(yù)處理得出候選結(jié)果,然后用DTW或HMM進(jìn)一步識(shí)別.
3.3.2 連續(xù)多句音頻識(shí)別
音頻數(shù)據(jù)庫(kù)中的特征提取以句為單位,所以當(dāng)連續(xù)播放或哼唱多句時(shí),特征之間應(yīng)增加獨(dú)立的特征值,通過(guò)檢測(cè)前后音符的音樂(lè)差來(lái)識(shí)別片段輪廓.但哼唱不準(zhǔn)時(shí)可能出現(xiàn)多個(gè)不同的特征值,檢測(cè)質(zhì)量受到影響.在這種出現(xiàn)插入刪除錯(cuò)誤的情形下,用DTW進(jìn)行位置匹配和相似度計(jì)算,可得最合適的匹配子序列和最大相似度,實(shí)現(xiàn)多句哼唱的目標(biāo)檢索[13].
3.3.3 帶噪音片段的語(yǔ)音識(shí)別
帶噪音音頻片段的特征點(diǎn)個(gè)數(shù)比無(wú)噪音的原始片段少,在強(qiáng)噪音環(huán)境下產(chǎn)生的特征也會(huì)導(dǎo)致片段的特征數(shù)增加,檢索速度隨平均特征數(shù)的增加而減慢.對(duì)在辦公室、臥室等無(wú)噪音環(huán)境錄制音頻片段的識(shí)別率可達(dá)100%,而在有說(shuō)話、鳥(niǎo)鳴、喇叭、空調(diào)、電視等噪音較大的環(huán)境下識(shí)別率偏低,且噪音特征的數(shù)量還直接影響檢索速度.噪音環(huán)境下的語(yǔ)音識(shí)別方法有線性預(yù)測(cè)誤差法、單邊自相關(guān)線性預(yù)測(cè)法、語(yǔ)音前端聲學(xué)處理法、特征綜合法等[14].
3.4 音頻檢索中的問(wèn)題
影響音頻檢索質(zhì)量的因素較多,比如聲源離識(shí)別設(shè)備的距離、環(huán)境噪音和“野點(diǎn)”、冗余片段、發(fā)聲障礙、單調(diào)不準(zhǔn)、旋律誤差、片段間隔、二次匹配等問(wèn)題.
1)噪音片段識(shí)別.有較大噪音干擾時(shí),檢測(cè)效果不佳,有時(shí)會(huì)出現(xiàn)誤檢.因此在噪音環(huán)境中如何實(shí)時(shí)獲取相對(duì)準(zhǔn)確的音符是一個(gè)關(guān)鍵問(wèn)題.
2)端點(diǎn)檢測(cè)和基音提取.音頻片段中包括由濁音或過(guò)渡段構(gòu)成的語(yǔ)音部分、清音或噪聲構(gòu)成的無(wú)聲部分.基音檢測(cè)包括聲音信號(hào)預(yù)處理、濁音段端點(diǎn)檢測(cè)和基音提取[15].通過(guò)預(yù)處理濾掉高頻部分噪音,將隨機(jī)語(yǔ)音信號(hào)分幀為短時(shí)平穩(wěn)信號(hào),然后進(jìn)行端點(diǎn)檢測(cè),提取出濁音段.端點(diǎn)檢測(cè)通過(guò)短時(shí)能量檢測(cè)和過(guò)零率進(jìn)行.
3)識(shí)別誤差處理.旋律和節(jié)奏相似的片段在噪音環(huán)境或信號(hào)不清晰時(shí)會(huì)造成特征識(shí)別與匹配誤差導(dǎo)致出錯(cuò).存在相似度的歌曲對(duì)如生日快樂(lè)歌-新年快樂(lè)歌、字母歌-幼兒歌曲小星星、月亮之上-自由飛翔、國(guó)歌-國(guó)際歌起始部分.用k近鄰法對(duì)音樂(lè)家或流派分類(lèi),在訓(xùn)練集中找出與待檢對(duì)象相似度最高的k個(gè)鄰居,根據(jù)屬性投票,獲得最多投票的屬性賦予該對(duì)象.
音頻檢索性能的檢測(cè)需要數(shù)量龐大資源豐富的音頻數(shù)據(jù)庫(kù),分布合理的受測(cè)人員和曲目,對(duì)不同風(fēng)格和流派、不同距離和環(huán)境、不同長(zhǎng)度和片段進(jìn)行測(cè)試,分析檢索效率和精度.
4.1 音頻檢索數(shù)據(jù)及環(huán)境
音頻數(shù)據(jù)庫(kù):從光盤(pán)和網(wǎng)站獲取500首不同風(fēng)格、語(yǔ)言、歌手的wav格式歌曲;
測(cè)試數(shù)據(jù)源:一組歌曲20首,每首選取5段5~20 s長(zhǎng)的不同片段;另一組歌曲10首,對(duì)純音效和帶不同程度噪音效果的片段進(jìn)行測(cè)試.
實(shí)驗(yàn)配置:編程平臺(tái)Matlab7,輔助軟件GUITAR PRO,采樣頻率8000 Hz,幀長(zhǎng)30ms,幀移25ms.為驗(yàn)證哼唱旋律提取算法的性能,可用GUITAR PRO軟件制作音樂(lè)片段,模擬樂(lè)器輸入音符,生成MIDI序列.其生成標(biāo)準(zhǔn)的7個(gè)基本音階的音樂(lè)旋律wav文件,對(duì)干凈音樂(lè)波形文件采用傳統(tǒng)自相關(guān)法進(jìn)行基音提取,得到平滑的基音軌跡.
4.2 哼唱片段識(shí)別測(cè)試
選擇測(cè)試對(duì)象:一定數(shù)量的曲目和哼唱測(cè)試者,如50名志愿者和50首歌曲;
測(cè)試方法:合理設(shè)置男女比例和成人兒童比例,每人每次隨機(jī)哼唱音頻數(shù)據(jù)庫(kù)中的一首歌曲,允許反復(fù),可用La,Da或Di單音哼唱.系統(tǒng)提取基音輪廓,根據(jù)頻率和音高轉(zhuǎn)換方法把基音值轉(zhuǎn)化為MIDI格式音高.
測(cè)試目標(biāo):把所得哼唱旋律音高結(jié)果與歌曲數(shù)據(jù)庫(kù)中MIDI格式音高的序列進(jìn)行音高差匹配計(jì)算,統(tǒng)計(jì)出命中率最高的前3個(gè)或5個(gè).
4.3 音樂(lè)檢索效果評(píng)測(cè)
數(shù)據(jù)統(tǒng)計(jì):歌曲總時(shí)長(zhǎng)、純音樂(lè)片段總時(shí)長(zhǎng)、語(yǔ)音-音樂(lè)混合片段總時(shí)長(zhǎng);
計(jì)算指標(biāo):正確率=檢測(cè)正確的音頻片段數(shù)/待識(shí)別音頻片段總數(shù).
對(duì)音樂(lè)信號(hào)分幀,提取短時(shí)能量和過(guò)零率,以1或2秒為一個(gè)音頻段,提取音樂(lè)片段中的平均短時(shí)能量和過(guò)零率標(biāo)準(zhǔn)差特征進(jìn)行識(shí)別,對(duì)結(jié)果進(jìn)行平滑處理,對(duì)比識(shí)別結(jié)果會(huì)發(fā)現(xiàn),總體正確率獲得10%左右的提升.可見(jiàn)平滑處理顯著提高音頻識(shí)別正確率.
實(shí)驗(yàn)檢測(cè)顯示,專(zhuān)業(yè)歌手比業(yè)余人員演唱的歌曲容易識(shí)別,打擊類(lèi)音樂(lè)節(jié)奏明顯故檢測(cè)效果較好,噪音較小的環(huán)境中音頻識(shí)別率高,過(guò)短和過(guò)長(zhǎng)片段的識(shí)別都不佳,因?yàn)檫^(guò)短不利于提取旋律特征,太長(zhǎng)又會(huì)造成特征匹配度不高.
音頻識(shí)別和檢索發(fā)展迅速,應(yīng)用廣泛.在音樂(lè)學(xué)中可用于樂(lè)器鑒定、音樂(lè)摘要、音樂(lè)標(biāo)注、錄音旋律提取,在醫(yī)療上根據(jù)音頻相似性匹配技術(shù)辨別心音,及早發(fā)現(xiàn)心臟病變,在刑事案件中通過(guò)辨別嫌疑人的聲音來(lái)幫助偵破,提高工作效率.但是,由于音樂(lè)信號(hào)的復(fù)雜性和多變性,識(shí)別精度、性能和效果仍有待提高.
主要問(wèn)題和瓶頸有:機(jī)器識(shí)別率低于人耳聽(tīng)覺(jué)敏感度,音樂(lè)中單音符識(shí)別精度有時(shí)不高;一些檢索系統(tǒng)所占時(shí)空資源消耗大,需提高算法效率;語(yǔ)音-音樂(lè)混合片段辨識(shí)度低;數(shù)據(jù)資源越來(lái)越多,識(shí)別率有時(shí)反趨下降;對(duì)變調(diào)和配樂(lè)哼唱等特殊音頻不能較好識(shí)別.在今后的研究中還要考慮檢索精度、用戶接口、系統(tǒng)的自適應(yīng)性和魯棒性等問(wèn)題.
此外,將神經(jīng)網(wǎng)絡(luò)引入語(yǔ)音識(shí)別,并將音頻、文本和視頻檢索等多媒體技術(shù)相結(jié)合,利用標(biāo)簽云、標(biāo)簽超圖、標(biāo)簽聚類(lèi)等方式分類(lèi),可提高檢索效率與檢索能力,并應(yīng)用于更多的領(lǐng)域和場(chǎng)景.
[1] David A.Grossman,Ophir Frieder.信息檢索:算法與啟發(fā)式方法[M].北京:人民郵電出版社,2010
[2] 郝志偉.漢語(yǔ)大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)的聲學(xué)建模[D].長(zhǎng)春:吉林大學(xué),2009
[3] 唐 峰,劉玉貴.廣播電臺(tái)音頻檢索技術(shù)研究[J].計(jì)算機(jī)應(yīng)用,2007(6):364-366
[4] 史水平,李世作.線性預(yù)測(cè)編碼(LPC)技術(shù)及其在音頻文件上的應(yīng)用[J].現(xiàn)代電子技術(shù),2004(4):21-23
[5] 胡 優(yōu).語(yǔ)音識(shí)別算法及其在嵌入式中的應(yīng)用[D].北京:電子科技大學(xué),2010
[6] 承江紅.基于MATLAB的語(yǔ)音信號(hào)識(shí)別及矢量模式匹配[J].微計(jì)算機(jī)信息,2012,28(10):443-445
[7] 王小鳳,耿國(guó)華,孫 霞,等.一個(gè)以句為單位的音樂(lè)哼唱檢索算法[J].西安:第五屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議,2009
[8] 白云暉.基于內(nèi)容的音頻檢索[J].廣播與電視技術(shù),2007(6):30-36
[9] 莊越挺.通過(guò)例子視頻進(jìn)行視頻檢索的新方法[J].計(jì)算機(jī)學(xué)報(bào),2000,23(3):300-305
[10] 劉 林.自動(dòng)音樂(lè)識(shí)譜系統(tǒng)中的音符檢測(cè)與流派分類(lèi)[D].北京:電子科技大學(xué),2008
[11] 李 晨,周明全.音頻檢索技術(shù)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2008,18(8):215-218
[12] 莊越挺,潘云鶴.網(wǎng)上等多媒體信息分析與檢索[M].北京:清華大學(xué)出版社,2002
[13] 王小鳳,耿國(guó)華.基于相對(duì)特征的音樂(lè)哼唱多句檢索算法研究[J].計(jì)算機(jī)應(yīng)用研究,2011,28(3):918-920
[14] 吳淑珍,馮成林.噪聲環(huán)境下語(yǔ)音識(shí)別方法研究[J].北京大學(xué)學(xué)報(bào),2001,37(3):365-369
[15] 蔣永平,盧傳澤.有效的哼唱旋律基音提取方法研究與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(3):215-220
Audio-clip Recognition and Retrieval Based on Content and Melody
Wu Haixia1,Li Yanling1,Liu Lufeng2
(1.Department of Computer Science,Changzhi University;2.Changzhi Suburban Radio and Television Center, Changzhi 046011, China)
It introduces the fundamentals such as main features and technologies of the audio signals, gives the frame and productions of the audio retrieval systems, and also lists the typical retrieval engines and application fields. The main audio-clip recognition retrieval methods based on contents and rhythms are analyzed in detail. At last it prospects the development and applications of audio retrieval according to the problems in testing.
information retrieval;audio recognition; audio-clip; voiceprint
2015-02-01
山西省高??萍紕?chuàng)新項(xiàng)目(2013160); 長(zhǎng)治學(xué)院校級(jí)科研課題(201223).
吳海霞(1978-),女,山西晉城人,碩士,長(zhǎng)治學(xué)院講師,主要從事數(shù)據(jù)挖掘和信息處理研究.
1672-2027(2015)02-0033-07
TP391
A