• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于動(dòng)態(tài)匹配詞格檢索的關(guān)鍵詞檢測(cè)

    2014-02-21 11:47:42鄭永軍張連海
    關(guān)鍵詞:音素后驗(yàn)檢索

    鄭永軍, 張連海

    信息工程大學(xué)信息系統(tǒng)工程學(xué)院,鄭州450002

    關(guān)鍵詞識(shí)別(keyword recognition,KWR)又稱為關(guān)鍵詞檢測(cè)(keyword spotting,KWS),是一種特殊的語音識(shí)別技術(shù),指在連續(xù)的無限制的自然語音流中識(shí)別出給定的詞即關(guān)鍵詞的過程[1].語音關(guān)鍵詞檢測(cè)技術(shù)被看作是處理口語、跨越人機(jī)交流障礙最有效的解決方案之一[2],已成為語音識(shí)別研究領(lǐng)域的一個(gè)熱點(diǎn),在語音文檔檢索、信息查詢、語音實(shí)時(shí)監(jiān)聽、命令控制以及口語對(duì)話系統(tǒng)等現(xiàn)實(shí)領(lǐng)域中都發(fā)揮著非常重要的作用.

    隨著信息技術(shù)的發(fā)展,語音數(shù)據(jù)呈爆炸式增長(zhǎng),迫切需要能夠高效索引和檢索這些數(shù)據(jù)的技術(shù).目前,解決此問題的一種方法是應(yīng)用語音轉(zhuǎn)寫機(jī)(speech-to-text transcription,STT)創(chuàng)建文本形式的索引,然后應(yīng)用傳統(tǒng)的文本檢索引擎進(jìn)行快速檢索,但該方法受關(guān)鍵詞表的限制,不適用于集外詞(out-of-vocabulary,OOV)的檢測(cè)領(lǐng)域,如新聞廣播索引、語音文檔檢索、實(shí)時(shí)監(jiān)聽等.這些領(lǐng)域通常采用與關(guān)鍵詞表、任務(wù)無關(guān)的檢測(cè)方法,目前基于子詞Lattice(如音素Lattice)的關(guān)鍵詞檢測(cè)[3-4]已成為一種主流的解決方法,因?yàn)長(zhǎng)attice能夠保存多候選識(shí)別結(jié)果來補(bǔ)償識(shí)別錯(cuò)誤帶來的影響,并取得了不錯(cuò)的檢測(cè)效果,但仍存在子詞識(shí)別錯(cuò)誤和Lattice結(jié)構(gòu)復(fù)雜等不足.

    文獻(xiàn)[5]充分考慮音素識(shí)別結(jié)果的錯(cuò)誤規(guī)律和模糊發(fā)音現(xiàn)象,提出了一種基于動(dòng)態(tài)匹配詞格檢索(dynamic match lattice spotting,DMLS)的方法,將基于Lattice的快速檢測(cè)和動(dòng)態(tài)序列匹配技術(shù)融合在一起,實(shí)現(xiàn)了快速而準(zhǔn)確的關(guān)鍵詞檢測(cè).文獻(xiàn)[6]提出了音素誤判懲罰矩陣的方法,綜合考慮替換、插入和刪除3種識(shí)別錯(cuò)誤,通過訓(xùn)練語料來估計(jì)代價(jià)函數(shù),其性能相對(duì)更好.文獻(xiàn)[7]在DMLS中融合了維特比得分和Jaro-Winkler距離兩種關(guān)鍵詞置信度,提升了系統(tǒng)的性能.但在DMLS中,動(dòng)態(tài)匹配并不能完全補(bǔ)償音素識(shí)別錯(cuò)誤,這是因?yàn)橐羲豅attice的精度直接影響了關(guān)鍵詞檢測(cè)的性能.因此,如何進(jìn)一步提高前端識(shí)別結(jié)果的性能是解決問題的關(guān)鍵.TRAP(temporal pattern)特征是一種長(zhǎng)時(shí)性特征,能有效利用語音信號(hào)的幀間相關(guān)性信息,不僅提高了聲學(xué)特征的噪聲魯棒性,而且有助于解決音素的協(xié)同發(fā)音問題.鑒于此,本文采用基于TRAP特征的音素Lattice識(shí)別器作為前端,利用DMLS方法搭建了一個(gè)關(guān)鍵詞檢測(cè)系統(tǒng),與傳統(tǒng)的前端基于MFCC和PLP特征的識(shí)別器相比,該關(guān)鍵詞檢測(cè)系統(tǒng)的召回率提升顯著.本文首先研究了基于TRAP特征的音素Lattice生成方法,然后研究了DMLS算法,最后搭建了語音關(guān)鍵詞檢測(cè)系統(tǒng),并分析了實(shí)驗(yàn)結(jié)果.

    1 基于TRAP特征的Lattice生成

    1.1 Lattice結(jié)構(gòu)

    Lattice是由連續(xù)語音識(shí)別器一遍解碼直接生成的中間結(jié)果,是一個(gè)有向無環(huán)圖,代表識(shí)別中間過程的解碼信息.在生成的Lattice結(jié)構(gòu)中,基本元素包括節(jié)點(diǎn)信息和弧信息,如圖1所示.每個(gè)節(jié)點(diǎn)包含識(shí)別單元信息、時(shí)間信息、以此節(jié)點(diǎn)為起點(diǎn)的弧及以此節(jié)點(diǎn)為終點(diǎn)的弧.每條弧包含識(shí)別單元的聲學(xué)模型得分、語言模型得分、同起點(diǎn)的鄰弧和同終點(diǎn)的鄰弧[8].解碼生成的Lattice提供了每個(gè)語音片段詳細(xì)的音素表示形式,構(gòu)成了后續(xù)索引和檢索操作的基礎(chǔ).

    圖1 “start”的音素Lattice結(jié)構(gòu)Figure 1 Phone Lattice structure of“start”

    本文采用基于TRAP特征的音素Lattice生成方法.首先提取TRAP特征,然后將TRAP特征分割組合后輸入高低兩層多層感知器(multilayer perceptron,MLP)得到音素狀態(tài)的后驗(yàn)概率,并以得到的音素狀態(tài)的后驗(yàn)概率作為新的觀測(cè)特征應(yīng)用HMM建模,解碼得到更精準(zhǔn)的音素Lattice.

    1.2 TRAP特征

    目前,梅爾頻域倒譜系數(shù)(mel frequency cepstrum coefficient,MFCC)和感知線性預(yù)測(cè)系數(shù)(perceptual linear predictive,PLP)是應(yīng)用最廣泛的特征參數(shù),是語音識(shí)別領(lǐng)域特征提取技術(shù)的基礎(chǔ).這些特征描述的是語音信號(hào)一個(gè)短時(shí)間幀(通常為20-30ms)內(nèi)的頻譜包絡(luò)特性,容易受到通信信道和窄帶噪聲等因素的影響而變得不穩(wěn)定,從而導(dǎo)致音素識(shí)別器性能的下降[9-10].另外,語音學(xué)理論和相關(guān)實(shí)驗(yàn)分析表明,音素的一些重要信息分布在數(shù)百毫秒的時(shí)間跨度內(nèi),而不只是音素本身的持續(xù)時(shí)間.由于協(xié)同發(fā)音現(xiàn)象的存在,音素發(fā)音在時(shí)間上并不是完全獨(dú)立存在的,相鄰音素發(fā)音部分重疊且互相影響.這些都表明語音識(shí)別中需要應(yīng)用能夠捕捉長(zhǎng)時(shí)信息的特征或模型[11].

    圖2 傳統(tǒng)頻譜特征和TRAP特征比較Figure 2 Comparison between conventional spectral feature and TPAP feature

    針對(duì)上述問題,文獻(xiàn)[9]提出把頻譜特征進(jìn)行時(shí)域擴(kuò)展,即在幀長(zhǎng)25ms幀移10ms的條件下,將當(dāng)前幀的Mel子帶能量和其前后各50幀的子帶能量進(jìn)行組合,得到1s長(zhǎng)的時(shí)域擴(kuò)展特征,這種時(shí)域子帶特征被稱為TRAP特征.TRAP特征主要是基于具有長(zhǎng)時(shí)上下文信息的窄帶頻譜,其特征矢量描述的是各個(gè)Mel子帶在長(zhǎng)時(shí)間內(nèi)的能量變化軌跡.該方法能有效利用語音信號(hào)的幀間相關(guān)性信息,不僅提高了聲學(xué)特征的噪聲魯棒性,而且有助于解決音素的協(xié)同發(fā)音現(xiàn)象.文獻(xiàn)[12]研究TRAP結(jié)構(gòu),通過實(shí)驗(yàn)得出音素識(shí)別最優(yōu)的TRAP特征長(zhǎng)度約為310ms,如圖2所示.從此以后,基于TRAP特征及其改進(jìn)方法獲得了廣泛應(yīng)用[13].

    1.3 多層感知器

    多層感知器(MLP)是一種典型的多層前饋神經(jīng)網(wǎng)絡(luò),能把輸入的多個(gè)數(shù)據(jù)集映射到單一的輸出數(shù)據(jù)集上,因具有較強(qiáng)的非線性映射能力而成為神經(jīng)網(wǎng)絡(luò)研究的熱點(diǎn)之一.如圖3所示,MLP是一個(gè)3層的神經(jīng)網(wǎng)絡(luò),通常由3部分構(gòu)成:一組感知單元(源節(jié)點(diǎn))組成的輸入層、一層或多層計(jì)算節(jié)點(diǎn)的隱含層、一層計(jì)算節(jié)點(diǎn)的輸出層.同層神經(jīng)元節(jié)點(diǎn)之間沒有連接,相鄰層的神經(jīng)元節(jié)點(diǎn)間相互連接,前層節(jié)點(diǎn)的輸出即為后層節(jié)點(diǎn)的輸入.在隱含層上,通常采用sigmoid非線性激活函數(shù)(logistic函數(shù)和雙曲正切函數(shù))將輸入映射到非線性空間.MLP具有良好的區(qū)分性,廣泛應(yīng)用于語音識(shí)別領(lǐng)域.它可以完成聲學(xué)層特征與識(shí)別單元之間的非線性變換,將聲學(xué)層特征映射為識(shí)別單元后驗(yàn)概率的同時(shí),能夠有效抑制聲學(xué)層特征中的冗余信息及噪聲,從而將區(qū)分性信息保留在識(shí)別單元的后驗(yàn)概率中[14].

    圖3 3層MLP結(jié)構(gòu)Figure 3 MLP structure with three layers

    1.4 Lattice生成

    本文將TRAP特征和MLP應(yīng)用于音素Lattice的生成,可以得到比傳統(tǒng)的頻譜特征更精準(zhǔn)的音素Lattice,進(jìn)而提高后端關(guān)鍵詞檢測(cè)的性能,具體流程如圖4所示.

    1)提取TRAP特征,選擇幀長(zhǎng)和幀移分別為25ms和10ms.語音信號(hào)經(jīng)過漢明窗后變?yōu)槎虝r(shí)信號(hào),進(jìn)行FFT變換后計(jì)算短時(shí)能量譜;將頻譜轉(zhuǎn)化為Mel域后通過三角帶通濾波器,使每幀語音信號(hào)的輸出為23個(gè)Mel子帶能量的一維向量;接著將當(dāng)前幀的子帶能量和其前后各15幀進(jìn)行組合,得到每幀語音信號(hào)所對(duì)應(yīng)的時(shí)域擴(kuò)展特征,即TRAP特征.

    2)分割TRAP特征為左右兩個(gè)部分,即中心幀及其左邊15幀的子帶能量稱作左子帶特征(left context,LC),中心幀及其右邊15幀的子帶能量稱作右子帶特征(right context,RC).LC和RC相應(yīng)地加漢明窗的左右半窗,可以起到對(duì)中心幀及其附近幀加權(quán)的作用,更好地促進(jìn)分類.對(duì)特征進(jìn)行離散余弦變換(discrete cosine transform,DCT),可以降低特征的維數(shù)和幀間的相關(guān)性.然后對(duì)DCT變換后的特征進(jìn)行均值和方差歸一化,并將各個(gè)子帶的特征拼接起來,得到了輸入MLP的特征矢量.

    3)應(yīng)用兩層MLP將前期得到的特征矢量映射為識(shí)別單元的后驗(yàn)概率,識(shí)別單元為音素或是音素狀態(tài),本文選擇音素狀態(tài).高、低兩層MLP的識(shí)別目標(biāo)一致,均為識(shí)別單元的后驗(yàn)概率.將兩個(gè)低層MLP的輸出進(jìn)行取對(duì)數(shù)、均值和方差歸一化后拼接成新的向量作為高層MLP的觀測(cè)特征,則高層MLP的輸出為最終的映射結(jié)果.最后將這些后驗(yàn)概率作為特征應(yīng)用HMM建模,使用HTK工具包中的Hvite解碼得到音素Lattice.

    圖4 基于TRAP特征的Lattice生成框架Figure 4 Architecture of Lattice generation based on TRAP features

    2 動(dòng)態(tài)匹配詞格檢索

    2.1 索引建立

    語音解碼生成的Lattice可以直接被檢索,但需要對(duì)每一個(gè)新的關(guān)鍵詞進(jìn)行密集的Lattice遍歷,嚴(yán)重限制了檢索的速度.取而代之的Lattice遍歷和處理是在索引階段離線完成的,通過執(zhí)行一個(gè)改進(jìn)的維特比算法遍歷Lattice來創(chuàng)建一個(gè)固定長(zhǎng)度的音素序列數(shù)據(jù)庫(sequence database,SDB).假設(shè)目標(biāo)音素序列的最大長(zhǎng)度已知,并且小于索引音素序列的長(zhǎng)度,索引音素序列長(zhǎng)度[15]通常設(shè)為N=10.DMLS的檢索就可以限制在SDB中近似匹配音素序列,簡(jiǎn)化了近似匹配的過程,過程如下:

    步驟1 Θ={θ(1),θ(2),···}表示Lattice中所有為N的節(jié)點(diǎn)序列的集合,其中θ(i)={θ1,θ2,···,θN}是一個(gè)節(jié)點(diǎn)序列,每個(gè)θk對(duì)應(yīng)一個(gè)單獨(dú)的節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)存儲(chǔ)一個(gè)識(shí)別出的音素.

    步驟2 節(jié)點(diǎn)序列所對(duì)應(yīng)的音素標(biāo)簽序列Φ(θ)=(φ(θ1),φ(θ2),···,φ(θN))也能從Lattice中得到,同時(shí)節(jié)點(diǎn)序列的起始時(shí)間由Y(θ)給出.

    步驟3 對(duì)于每一個(gè)音素Lattice中的節(jié)點(diǎn)n,所有以其為終止節(jié)點(diǎn)的序列集合被稱為觀察序列集,定義為Q(Θ,n)={θ∈Θ|θN=n}.

    步驟4 Q′(Θ,n)定義為Q(Θ,n)的子集,包含K個(gè)路徑得分最高的音素序列.節(jié)點(diǎn)序列θ的路徑得分從Lattice中計(jì)算得到,為累加θ回溯得到的路徑上全部聲學(xué)和語言模型得分,也為每條弧的似然得分SArclike的累加.Lattice中每條弧的似然得分SArclike為

    式中,Saclike為聲學(xué)模型得分,Slmlike為語言模型得分,τlmscale為語言模型比例因子,ηwdpenalty為詞插入懲罰.在通常情況下,假設(shè)K=10.應(yīng)用子集Q′(Θ,n)而不是Q(Θ,n)是為了以最小的信息損失代價(jià)來降低SDB的存儲(chǔ)要求.

    在音素Lattice中的所有節(jié)點(diǎn)上重復(fù)以上過程,得到一個(gè)節(jié)點(diǎn)序列的集合,A=∪nQ′(Θ,n).這一階段的最終輸出是節(jié)點(diǎn)序列的集合θ∈A,共同構(gòu)成SDB.相應(yīng)的音素序列和時(shí)間邊界信息分別由Φ(θ)和Y(θ)給出.

    2.2 動(dòng)態(tài)匹配檢索

    在檢索階段,當(dāng)一個(gè)關(guān)鍵詞提交給系統(tǒng)時(shí),首先利用發(fā)音字典將其轉(zhuǎn)化為音素的表示形式,如果關(guān)鍵詞在字典中不存在,則應(yīng)用letter-to-sound的規(guī)則估計(jì)其相應(yīng)的音素發(fā)音[16].關(guān)鍵詞的發(fā)音,即一個(gè)音素序列,被稱為目標(biāo)序列,記作ρ.檢索涉及到將目標(biāo)音素序列ρ和SDB中存儲(chǔ)的每一個(gè)索引音素序列Φ(θ)進(jìn)行比較,需要計(jì)算目標(biāo)音素序列ρ和索引音素序列Φ(θ)之間的距離Δ(Φ(θ),ρ).所得結(jié)果的集合R僅僅包含距離小于某一特定閾值δ的節(jié)點(diǎn)序列,即

    定義Δ(Φ,ρ)為這樣的距離,當(dāng)Φ表示正確的檢出結(jié)果時(shí)其取值較小,當(dāng)Φ表示虛警錯(cuò)誤時(shí)其取值較大.本文Δ(Φ,ρ)定義每一個(gè)觀察音素序列Φ和目標(biāo)序列ρ之間的最小編輯距離(minimum edit distance,MED).MED包含匹配、替換、插入、刪除等4種操作.由于音素解碼過程中出現(xiàn)的常見錯(cuò)誤主要是替換錯(cuò)誤,故本文MED的計(jì)算僅僅考慮音素的替換錯(cuò)誤代價(jià),令Ci=Cd=∞,可將MED的計(jì)算認(rèn)為是音素序列對(duì)中每個(gè)音素替換代價(jià)的總和,即

    式中,M為目標(biāo)音素序列的長(zhǎng)度.替換代價(jià)Cs(φi,ρi)表示和一個(gè)后驗(yàn)概率相關(guān)聯(lián)的懲罰,這個(gè)后驗(yàn)概率則是觀察到的音素為φi而實(shí)際目標(biāo)音素為ρi的概率.一些先驗(yàn)信息可以用來估計(jì)音素替換錯(cuò)誤的概率.可以直接觀察音素識(shí)別器的輸出,即通過觀察音素識(shí)別器實(shí)際產(chǎn)生的音素識(shí)別錯(cuò)誤訓(xùn)練得到改進(jìn)的音素混淆度估計(jì).實(shí)現(xiàn)此方法的一種途徑是:首先在訓(xùn)練語料庫中解碼得到一個(gè)音素識(shí)別結(jié)果,然后比較音素識(shí)別結(jié)果和參考的音素標(biāo)注.此比較主要基于一個(gè)動(dòng)態(tài)規(guī)劃的字符串對(duì)齊過程,而沒有應(yīng)用音素邊界的時(shí)間位置信息.HTK工具包中的HResults被用于對(duì)齊音素識(shí)別結(jié)果和參考的音素標(biāo)注,生成一個(gè)音素混淆矩陣,此矩陣編碼如下:在給定對(duì)齊結(jié)果的條件下,音素識(shí)別結(jié)果中音素x和參考標(biāo)注中的音素y對(duì)齊的次數(shù)為s(x,y),插入音素x的次數(shù)為i(x),每個(gè)音素的刪除次數(shù)為d(y).

    給定混淆矩陣的統(tǒng)計(jì)量,音素識(shí)別器輸出音素x作為實(shí)際語音音素y的識(shí)別結(jié)果的概率定義為P(Ex|Ry),于是從混淆矩陣中估計(jì)得到

    在關(guān)鍵詞檢索中,替換代價(jià)和索引中音素x作為實(shí)際語音音素y的識(shí)別結(jié)果的后驗(yàn)概率是相關(guān)的,即

    式(6)中的音素先驗(yàn)概率同樣可以從混淆矩陣中統(tǒng)計(jì)得到

    因此,音素的替換代價(jià)被定義為在給定觀察值音素x的條件下,出現(xiàn)目標(biāo)音素y的后驗(yàn)概率的相關(guān)信息,即

    3 實(shí)驗(yàn)配置及結(jié)果

    3.1 實(shí)驗(yàn)配置

    本文實(shí)驗(yàn)采用TIMIT語料庫,該語料庫是由DARPA支持贊助,MIT、SRI、TI等幾家機(jī)構(gòu)共同完成的. 它包含來自美國8個(gè)不同方言區(qū)的共630人的語音文件,每人10句總共6300個(gè)語句,分為TRAIN和TEST兩個(gè)文件集合.本文實(shí)驗(yàn)選擇TRAIN中3696個(gè)語句作為訓(xùn)練集,選擇TEST中1344個(gè)語句作為測(cè)試集,未采用其中適合于說話人實(shí)驗(yàn)的SA1和SA2中的語句.TIMIT語料庫中總共含有61個(gè)音素單元,按照BUT的劃分標(biāo)準(zhǔn)將TIMIT中61個(gè)音素映射為39個(gè)音素,如將塞音的成阻(closure)和除阻(burst)部分合并(bcl b→b),這種劃分較為精細(xì).

    實(shí)驗(yàn)采用的關(guān)鍵詞詞表規(guī)模為150個(gè),各關(guān)鍵詞在測(cè)試集TEST中共出現(xiàn)725次,關(guān)鍵詞包含的音素?cái)?shù)目為3~10個(gè),平均關(guān)鍵詞的音素?cái)?shù)目為6個(gè).實(shí)驗(yàn)使用3層的MLP,應(yīng)用QuickNet工具按照經(jīng)典的反向傳播算法訓(xùn)練MLP.TRAP特征提取時(shí)使用了Mel域的23個(gè)頻帶(頻帶間互有交疊),時(shí)域擴(kuò)展時(shí)向前向后各擴(kuò)展了15幀,相當(dāng)于每幀特征使用了310ms的信息.每個(gè)頻帶上的TRAP特征分割并作DCT變換后變?yōu)?1維,最終得到的LC和RC特征維數(shù)為253維,作為低層MLP的輸入特征.此外,需要音素state-level標(biāo)注來訓(xùn)練MLP,因此先用一個(gè)應(yīng)用MFCC特征的GMM/HMM音素識(shí)別器進(jìn)行強(qiáng)制對(duì)齊,得到state-level標(biāo)注信息.每個(gè)音素均勻切分為3狀態(tài),因此低層MLP的輸出維數(shù)為117維.最后將這兩個(gè)MLP的輸出合并為234維作為高層MLP的輸入,輸出維數(shù)為117維.高低兩層MLP的隱含層神經(jīng)元的數(shù)量均為500.

    3.2 評(píng)價(jià)標(biāo)準(zhǔn)

    召回率(recall)和虛警率(false alarm rate)是衡量關(guān)鍵詞檢測(cè)性能的兩項(xiàng)重要指標(biāo).召回率PRecall又稱查全率,表示正確的關(guān)鍵詞檢測(cè)結(jié)果數(shù)量Ncorrect占實(shí)際出現(xiàn)的關(guān)鍵詞數(shù)量Ntrue的百分比.虛警率PFA定義為虛警數(shù)目NFA被分母歸一化后的結(jié)果,本文虛警率的分母定義為語音文檔長(zhǎng)度H與關(guān)鍵詞詞表大小S的乘積,物理含義為每個(gè)關(guān)鍵詞每小時(shí)的虛警數(shù)目,如式(11)和(12)所示.另外,本文以接收機(jī)工作特性(receiver operating characteristics,ROC)曲線和品質(zhì)因數(shù)(f igure of merit,FOM)作為評(píng)價(jià)指標(biāo)來綜合衡量虛警率和召回率的關(guān)系.根據(jù)NIST的定義可知,ROC曲線的橫軸為虛警率,縱軸為召回率,F(xiàn)OM定義為虛警率在0~10范圍內(nèi)的平均召回率,如式(13)所示:

    3.3 M ED代價(jià)閾值對(duì)系統(tǒng)性能的影響

    MED的代價(jià)閾值δ是關(guān)鍵詞檢測(cè)的關(guān)鍵參數(shù)之一,直接影響關(guān)鍵詞檢測(cè)的性能.圖5和6分別給出了召回率PRecall和虛警率PFA隨δ的變化曲線,從圖中可以看出,隨著δ的增大,關(guān)鍵詞檢出數(shù)量增多,但虛警錯(cuò)誤的數(shù)量也增加得很快.一般而言,兩個(gè)指標(biāo)是互相對(duì)立的.在應(yīng)用過程中,一般尋找兩者的平衡點(diǎn),能使召回率與虛警率均滿足實(shí)際的需求,通常取PFA=10時(shí)接收機(jī)工作點(diǎn)附近的召回率作為比較.經(jīng)過實(shí)驗(yàn)驗(yàn)證,δ最優(yōu)的取值為所有可能出現(xiàn)的替換代價(jià)的均值

    式中,Mphn為所有可能出現(xiàn)替換錯(cuò)誤的音素對(duì)的總數(shù),可以通過在音素混淆矩陣中統(tǒng)計(jì)得到,Pphn為BUT的39個(gè)音素集,G(ρ)是與目標(biāo)音素序列ρ的長(zhǎng)度相關(guān)的一個(gè)偏移量.當(dāng)調(diào)整最優(yōu)系統(tǒng)性能時(shí),對(duì)于音素發(fā)音較長(zhǎng)的關(guān)鍵詞,閾值δ可以通過G(ρ)調(diào)整設(shè)置稍大一點(diǎn),即取值偏離代價(jià)均值右邊一些;對(duì)于較短的關(guān)鍵詞,閾值δ可以通過G(ρ)調(diào)整設(shè)置小一點(diǎn),取值偏離代價(jià)均值左邊一些.

    圖5 不同代價(jià)閾值下的召回率曲線Figur e 5 Recall curve for different cost thresholds

    圖6 不同代價(jià)閾值下的虛警率曲線Figure 6 False alarm rate curve for different cost thresholds

    3.4 系統(tǒng)性能比較

    本文中系統(tǒng)性能對(duì)比實(shí)驗(yàn)采用的是傳統(tǒng)的頻譜特征MFCC和PLP的關(guān)鍵詞檢測(cè)系統(tǒng).以MFCC特征參數(shù)為例,包括語音歸一化對(duì)數(shù)能量、12維MFCC參數(shù)及其一階、二階差分系數(shù),共計(jì)39維特征參數(shù).實(shí)驗(yàn)應(yīng)用HTK工具包對(duì)39個(gè)音素單元進(jìn)行HMM建模,聲學(xué)模型分別采用16個(gè)高斯混元的單音子模型(monophone)和8個(gè)高斯混元的三音子模型(triphone).表1和2分別給出了各系統(tǒng)的音素識(shí)別準(zhǔn)確率和關(guān)鍵詞檢測(cè)性能,圖7給出了相應(yīng)的ROC曲線.可以看出,應(yīng)用基于TRAP特征和DMLS的關(guān)鍵詞檢測(cè)方法在PFA=10的工作點(diǎn)附近時(shí),召回率比基線系統(tǒng)約提升了5%,綜合指標(biāo)FOM提升了0.038.系統(tǒng)性能提升的主要原因是:TRAP特征有效利用了語音信號(hào)的幀間相關(guān)性信息;MLP良好的區(qū)分性抑制了聲學(xué)特征中的冗余信息和噪聲;DMLS中的動(dòng)態(tài)序列匹配技術(shù)補(bǔ)償了音素識(shí)別錯(cuò)誤.

    表1 不同系統(tǒng)音素識(shí)別準(zhǔn)確率的比較Table 1 Accuracy rate comparison of different phone recognition systems %

    表2 不同系統(tǒng)檢測(cè)性能的比較Table 2 Detection performance comparison of different systems

    4 結(jié)語

    圖7 不同關(guān)鍵詞檢測(cè)系統(tǒng)的ROC曲線Figure 7 ROC curves of various keyword spotting systems

    本文將TRAP特征和多層感知器引入到動(dòng)態(tài)匹配詞格檢索中.實(shí)驗(yàn)結(jié)果表明,TRAP特征作為一種長(zhǎng)時(shí)性特征,能夠有效利用語音信號(hào)的幀間相關(guān)性信息.應(yīng)用TRAP特征和具有良好區(qū)分能力的MLP在關(guān)鍵詞檢測(cè)的前端能夠得到更精準(zhǔn)的Lattice,在后端則根據(jù)動(dòng)態(tài)匹配補(bǔ)償音素識(shí)別錯(cuò)誤,從而提升關(guān)鍵詞檢測(cè)的性能,相比應(yīng)用傳統(tǒng)MFCC和PLP頻譜特征的基線系統(tǒng)具有一定的優(yōu)勢(shì).下一步的研究工作是MED計(jì)算時(shí)綜合考慮音素識(shí)別的插入和刪除錯(cuò)誤,更好地補(bǔ)償音素識(shí)別錯(cuò)誤,另外可以融合基于Lattice后驗(yàn)概率的置信度方法,尋求多種置信度之間的互補(bǔ)性,進(jìn)一步提升系統(tǒng)的性能.

    [1]王炳錫,屈丹,彭煊.實(shí)用語音識(shí)別基礎(chǔ)[M].北京:國防工業(yè)出版社,2005:287-291.

    [2]孫成立.語音關(guān)鍵詞識(shí)別技術(shù)的研究[D].北京:北京郵電大學(xué),2008:1-2.

    SUNChengli.A study of speech keyword recognition technology[D].Beijing:Beijing University of Posts and Telecommunications,2008:1-2.(in Chinese)

    [3]NGK,ZUEV W.Subword-based approaches for spoken document retrieval[J].Speech Communication,2000,32:157-186.

    [4]AKBACAK M,BURGET L,WANG W,VAN H J.Rich system combination for keyword spotting in noisy and acoustically heterogeneous audio streams[C]//IEEE International Conference on Acoustic,Speech and Signal Processing,2013:8267-8271.

    [5]THAMBIRATNAM K,SRIDHARAN S.Rapid yet accurate speech indexing using dynamic match lattice spotting[J].IEEE Transactions on Audio,Speech,and Language Processing,2007,15(1):346-357.

    [6]HAN C,KANG S,LEE C.Phone mismatch penalty matrices for two-stage keyword spotting via multipass phone recognizer[C]//The 11th Annual Conference of the International Speech Communication Association,2010:202-205.

    [7]RAJABZADEH M,TABIBIAN S,AKBARI A.Improved dynamic match phone lattice search using viterbi scores and jaro winkler distance for keyword spotting system[C]//International Symposium on Artif icial Intelligence and Signal Processing,2012:423-427.

    [8]李文昕,屈丹,李弼程,王炳錫.語音關(guān)鍵詞檢測(cè)系統(tǒng)中基于時(shí)長(zhǎng)和邊界信息的置信度[J].應(yīng)用科學(xué)學(xué)報(bào),2012,30(6):588-594.

    LIWenxin,QUDan,LIBicheng,WANGBingxi.Conf idence measure based on time and boundary features for speech keyword spotting system[J].Journal of Applied Sciences,2012,30(6):588-594.(in Chinese)

    [9]HERMANSKY H,SHARMA S.TRAPs-classif iers of temporal patterns[C]//International Conference on Spoken Language Processing,1998:1003-1006.

    [10]SHARMA S,ELLIS D,KAJAREKAR S,JAIN P,HERMANSKY H.Feature extraction using non-linear transformation for robust speech recognition on the aurora database[C]//IEEE International Conference on Acoustic,Speech and Signal Processing,2000:1117-1120.

    [11]SCHwARZP.Phonemerecognition based on long temporal context[D].Brno:Brno University of Technology,2008:7-40.

    [12]MATEJKA P,SCHwARZ P,CERNOCKY J.Recognition of phoneme strings using TRAP technique[C]//European Conference on Speech Communication and Technology,2003:1-4.

    [13]GREZL F,KARAFIAT M.Integrating recent MLP feature extraction techniques into TRAP architecture[C]//The 12th Annual Conference of the International Speech Communication Association,2011:1229-1232.

    [14]TUSKEZ,PLAHLC,SCHLUTERR.A study on speaker normalized MLP features in LVCSR[C]//The 12th Annual Conference of the International Speech Communication Association,2011:1089-1092.

    [15]WALLACER.Fast and accurate phonetic spoken term detection[D].Queensland:Queensland University of Technology,2010:51-90.

    [16]WANG D,KING S,FRANKEL J.Stochastic pronunciation modeling for out-of-vocabulary spoken term detection[J].IEEE Transactions on Audio,Speech,and Language Processing,2011,19(4):688-698.

    [17]LIN H,SYUPAKOV A,BILMES J.Improving multilattice alignment based spoken keyword spotting[C]//IEEE International Conference on Acoustic,Speech and Signal Processing,2009:4877-4880.

    猜你喜歡
    音素后驗(yàn)檢索
    新目標(biāo)英語七年級(jí)(上)Starter Units 1-3 STEP BY STEP 隨堂通
    依托繪本課程,培養(yǎng)學(xué)生英語音素意識(shí)
    基于對(duì)偶理論的橢圓變分不等式的后驗(yàn)誤差分析(英)
    小學(xué)英語課堂中音素意識(shí)與自然拼讀整合訓(xùn)練的探索
    貝葉斯統(tǒng)計(jì)中單參數(shù)后驗(yàn)分布的精確計(jì)算方法
    2019年第4-6期便捷檢索目錄
    ?不定冠詞a與an
    一種基于最大后驗(yàn)框架的聚類分析多基線干涉SAR高度重建算法
    專利檢索中“語義”的表現(xiàn)
    專利代理(2016年1期)2016-05-17 06:14:36
    基于貝葉斯后驗(yàn)?zāi)P偷木植可鐖F(tuán)發(fā)現(xiàn)
    佳木斯市| 类乌齐县| 章丘市| 呼和浩特市| 宝清县| 新干县| 紫金县| 太白县| 庆阳市| 安康市| 宜兰县| 海城市| 南汇区| 宜春市| 和静县| 敦煌市| 阳山县| 开封市| 长沙市| 蓬莱市| 崇仁县| 岳西县| 梅州市| 贵溪市| 孝昌县| 东港市| 宣化县| 临洮县| 卢氏县| 洮南市| 礼泉县| 偏关县| 丽江市| 建始县| 林西县| 昆明市| 滕州市| 嵩明县| 肇州县| 田东县| 道真|