• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于LSTM的關(guān)鍵詞識(shí)別系統(tǒng)設(shè)計(jì)

    2022-03-17 22:48:16何蕊伽夏秀渝

    何蕊伽 夏秀渝

    摘要:為快速、準(zhǔn)確地判斷語(yǔ)音流中是否含有關(guān)鍵詞,提出一種基于LSTM兩步檢索的關(guān)鍵詞識(shí)別系統(tǒng)。將連續(xù)語(yǔ)音流分割成獨(dú)立音節(jié),然后采用過(guò)零率直方圖進(jìn)行初步檢索,基于過(guò)零率直方圖的相似度比較的計(jì)算量小,可快速排除非關(guān)鍵詞。對(duì)初檢時(shí)判斷為關(guān)鍵詞的音頻片段進(jìn)行精檢,使用基于LSTM的分級(jí)系統(tǒng)進(jìn)行音素識(shí)別,通過(guò)貪心搜索算法解碼以確認(rèn)是否為目標(biāo)關(guān)鍵詞。仿真結(jié)果表明,基于LSTM的網(wǎng)絡(luò)能更有效提取音素特征,基于兩步檢索LSTM的關(guān)鍵詞識(shí)別系統(tǒng)計(jì)算量小、速度快、識(shí)別率較高,且易于動(dòng)態(tài)擴(kuò)展目標(biāo)關(guān)鍵詞,具有較好的實(shí)時(shí)性。

    關(guān)鍵詞:關(guān)鍵詞識(shí)別;語(yǔ)音分割;音素識(shí)別;循環(huán)神經(jīng)網(wǎng)絡(luò);過(guò)零率直方圖

    中圖分類(lèi)號(hào):TP391.4文獻(xiàn)標(biāo)志碼:A文章編號(hào):1008-1739(2022)02-64-6

    0引言

    隨著信息化時(shí)代的到來(lái),人機(jī)交互的需求越來(lái)越大,語(yǔ)音識(shí)別是人機(jī)交互的熱點(diǎn)研究方向,關(guān)鍵詞識(shí)別作為語(yǔ)音識(shí)別的重要領(lǐng)域,逐步應(yīng)用于語(yǔ)音檢索、人機(jī)交互、語(yǔ)音監(jiān)聽(tīng)等領(lǐng)域[1]。關(guān)鍵詞識(shí)別不同于語(yǔ)音識(shí)別,不需要將語(yǔ)音流準(zhǔn)確無(wú)誤地把整段語(yǔ)音逐詞逐句地翻譯出來(lái),只需要檢測(cè)出語(yǔ)音流是否含有特定關(guān)鍵詞即可。

    目前關(guān)鍵詞識(shí)別方法主要分為3類(lèi):①基于模板匹配的關(guān)鍵詞識(shí)別:直接將待檢音頻的特征與模板音頻特征進(jìn)行匹配計(jì)算和判斷,不需要先驗(yàn)知識(shí),總運(yùn)算量少、識(shí)別速度快,但是識(shí)別率不高[2]。②基于HMM的關(guān)鍵詞-垃圾模型的關(guān)鍵詞識(shí)別:難點(diǎn)在于垃圾模型的建立,一旦變換應(yīng)用場(chǎng)景,需要重新建模,實(shí)時(shí)性有待提高。且集外詞數(shù)量巨大,導(dǎo)致模型訓(xùn)練以及匹配計(jì)算量大。③基于大詞匯量連續(xù)語(yǔ)音識(shí)別的關(guān)鍵詞識(shí)別:可以克服前2種方法的缺點(diǎn),不需要構(gòu)建垃圾模型,且識(shí)別率較高,但是需要大量的訓(xùn)練數(shù)據(jù),在測(cè)試階段對(duì)于非關(guān)鍵詞部分也進(jìn)行了識(shí)別,解碼空間大,造成資源浪費(fèi)。

    傳統(tǒng)關(guān)鍵詞識(shí)別方法,難以同時(shí)在準(zhǔn)確率、識(shí)別速度、實(shí)時(shí)性等方面均取得較好效果,針對(duì)傳統(tǒng)方法的不足,本文提出基于音節(jié)過(guò)零率直方圖和音素識(shí)別的兩步檢索關(guān)鍵詞識(shí)別方法,該網(wǎng)絡(luò)考慮了語(yǔ)音的時(shí)序性,有利于提高識(shí)別率。由于初檢與精檢均操作簡(jiǎn)單,利于動(dòng)態(tài)擴(kuò)展目標(biāo)關(guān)鍵詞,提出的關(guān)鍵詞識(shí)別系統(tǒng)從識(shí)別速度、精度以及實(shí)時(shí)性上對(duì)關(guān)鍵詞系統(tǒng)進(jìn)行了優(yōu)化。

    1系統(tǒng)設(shè)計(jì)原理及方案

    1.1系統(tǒng)總體框架

    關(guān)鍵詞識(shí)別系統(tǒng)總體框架如圖1所示。

    系統(tǒng)流程分為2個(gè)階段:

    ①初檢階段:作為關(guān)鍵詞識(shí)別的第一步,目標(biāo)是從連續(xù)語(yǔ)音流中快速篩選出與目標(biāo)關(guān)鍵詞相似度高的音頻片段。使用基于短時(shí)能量的語(yǔ)音分割法,將語(yǔ)音流大致分割為獨(dú)立的音節(jié)片段,統(tǒng)計(jì)每個(gè)音節(jié)片段的過(guò)零率,得到其過(guò)零率直方圖,然后計(jì)算目標(biāo)關(guān)鍵詞音節(jié)和待檢音頻片段之間直方圖的相似度,當(dāng)相似度大于給定的門(mén)限值時(shí),則認(rèn)為搜索到可能的目標(biāo)關(guān)鍵詞音節(jié)。

    ②精檢階段:初檢的虛警率比較高,進(jìn)行精檢以完成最終的關(guān)鍵詞確認(rèn)。首先對(duì)初檢判斷為關(guān)鍵詞音節(jié)片段的語(yǔ)音進(jìn)行音素劃分,使用LSTM網(wǎng)絡(luò)進(jìn)行音素識(shí)別,最后通過(guò)貪心搜索得到待測(cè)語(yǔ)音片段所包含的音素序列,當(dāng)音素序列與目標(biāo)關(guān)鍵詞音素序列一致時(shí),確認(rèn)該語(yǔ)音片段為關(guān)鍵詞音節(jié)。

    1.2音節(jié)分割

    音節(jié)是表音語(yǔ)系中元音音素和輔音音素組合發(fā)音的最小語(yǔ)音單位,單個(gè)元音音素也可自成音節(jié)。英語(yǔ)的單詞有單音節(jié)、雙音節(jié)以及多音節(jié)單詞。音節(jié)分割的目的是將連續(xù)語(yǔ)音流分割為若干獨(dú)立音節(jié),語(yǔ)音流中單詞若為單音節(jié)單詞,則一個(gè)音節(jié)為一個(gè)單詞,若為多音節(jié)單詞,則一個(gè)單詞切割為若干個(gè)音節(jié)。本文提出一種基于短時(shí)能量峰谷點(diǎn)的語(yǔ)音切割方法進(jìn)行語(yǔ)音端點(diǎn)檢測(cè)和音節(jié)分割。因?yàn)槊總€(gè)音節(jié)具有元音能量大,輔音以及音節(jié)間隙能量小的特點(diǎn),[3]所以將信號(hào)的短時(shí)能量與閾值進(jìn)行比較,把每個(gè)音節(jié)片段分割開(kāi)。主要包括以下步驟:

    ①對(duì)音頻信號(hào)進(jìn)行預(yù)處理,包括提升信號(hào)高頻成分和分幀,信號(hào)采樣率為8 000 Hz,幀長(zhǎng)取25 ms,幀移為10 ms。

    ④語(yǔ)音二次分割:語(yǔ)音語(yǔ)速較快時(shí),無(wú)法有效分割一些緊鄰的音節(jié),需要進(jìn)行二次分割。對(duì)音頻短時(shí)能量波形進(jìn)行平滑處理,若當(dāng)前音頻片段包含不止一個(gè)峰,相鄰峰的幅值相差較大且相隔較遠(yuǎn),找到2個(gè)局部最大值之間的局部最小值,以此為分割點(diǎn)再次分割。

    通過(guò)以上步驟,可以切分出以元音為中心的單個(gè)音節(jié)。若目標(biāo)關(guān)鍵詞為單音節(jié)單詞,針對(duì)切分出的每個(gè)音節(jié)片段進(jìn)行關(guān)鍵詞識(shí)別即可,若目標(biāo)關(guān)鍵詞為多音節(jié)單詞,需要分別分析分割后相鄰的音節(jié)與關(guān)鍵詞各個(gè)音節(jié)的相似度。

    基于短時(shí)能量的端點(diǎn)檢測(cè)及音節(jié)分割算法,使用短時(shí)能量作為聲學(xué)特征,與MFCC、小波系數(shù)等特征相比,不需要進(jìn)行復(fù)雜的變換,僅需少量的乘加運(yùn)算,計(jì)算復(fù)雜度低,有利于提高語(yǔ)音分割速度。

    1.3基于音節(jié)過(guò)零率直方圖的關(guān)鍵詞初檢

    關(guān)鍵詞初檢的目標(biāo)是快速排除與目標(biāo)關(guān)鍵詞相似度低的音節(jié)。不同音節(jié)特征參數(shù)的概率分布不同,可以利用各音節(jié)特征參數(shù)概率分布與目標(biāo)關(guān)鍵詞音節(jié)特征參數(shù)概率分布的相似性篩選出候選音節(jié)[5]。常用音頻特征有:短時(shí)過(guò)零率、MFCC、LPC等,過(guò)零率計(jì)算簡(jiǎn)單、便于統(tǒng)計(jì),能較好表現(xiàn)音頻變化特征,本文采用短時(shí)過(guò)零率進(jìn)行關(guān)鍵詞音節(jié)初檢索。具體步驟如下。

    設(shè)定閾值,當(dāng)相似度大于閾值,認(rèn)為其可能是目標(biāo)關(guān)鍵詞的音節(jié),送入精檢網(wǎng)絡(luò)進(jìn)行識(shí)別。當(dāng)相似度低于閾值,則判定為非關(guān)鍵詞。

    過(guò)零率與短時(shí)能量一樣,不需要復(fù)雜的變換,甚至不需要相乘運(yùn)算,只需要比較大小、相加相減等簡(jiǎn)單計(jì)算即可獲得,直方圖的統(tǒng)計(jì)計(jì)算類(lèi)似,所以基于音節(jié)過(guò)零率直方圖的關(guān)鍵詞初檢計(jì)算復(fù)雜度低。由于此階段可以排除大量非關(guān)鍵詞,減少了精檢階段的識(shí)別量,避免了對(duì)這些非關(guān)鍵詞進(jìn)行識(shí)別的復(fù)雜運(yùn)算。

    1.4基于音素識(shí)別的關(guān)鍵詞精檢

    基于音節(jié)過(guò)零率直方圖的初檢僅采用了簡(jiǎn)單的過(guò)零率特征,且沒(méi)考慮語(yǔ)音時(shí)序信息,虛警率較高。為降低虛警率,進(jìn)行精檢以完成最終關(guān)鍵詞確認(rèn)。關(guān)鍵詞由音節(jié)構(gòu)成,音節(jié)由音素構(gòu)成。使用LSTM網(wǎng)絡(luò)進(jìn)行音素識(shí)別,分析每個(gè)待檢音節(jié)的音素序列,比較其與目標(biāo)關(guān)鍵詞的音素序列是否一致,判斷待檢音頻片段是否為關(guān)鍵詞或關(guān)鍵詞的音節(jié)。

    1.4.1 LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)

    循環(huán)神經(jīng)網(wǎng)絡(luò)是一種內(nèi)部為遞歸結(jié)構(gòu)、具有記憶功能的一種神經(jīng)網(wǎng)絡(luò)。因?yàn)樘荻缺ɑ蛱荻认?wèn)題,普通RNN無(wú)法長(zhǎng)時(shí)間保留上下文信息。長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)LSTM是在RNN基礎(chǔ)上進(jìn)行改進(jìn)的一種可以有效記憶長(zhǎng)期信息循環(huán)神經(jīng)網(wǎng)絡(luò)。長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

    LSTM模型在循環(huán)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,增加了一個(gè)細(xì)胞狀態(tài)儲(chǔ)存網(wǎng)絡(luò)長(zhǎng)期狀態(tài),用以實(shí)現(xiàn)對(duì)長(zhǎng)距離信息的記憶。時(shí)刻的狀態(tài)由3個(gè)部分決定,分別是:當(dāng)前時(shí)刻網(wǎng)絡(luò)輸入值、上一時(shí)刻隱藏層輸出值-1、上一時(shí)刻細(xì)胞狀態(tài)-1。時(shí)刻有2個(gè)輸出,分別是當(dāng)前時(shí)刻的隱藏層輸出值,當(dāng)前時(shí)刻細(xì)胞狀態(tài),其中記憶短期特征,記憶長(zhǎng)期特征。LSTM可以通過(guò)3個(gè)結(jié)構(gòu)門(mén)來(lái)實(shí)現(xiàn)對(duì)3個(gè)輸入部分接收信息的控制,分別是遺忘門(mén)、輸入門(mén)和輸出門(mén)。

    遺忘門(mén)保留上一存儲(chǔ)單元的記憶信息更新單元狀態(tài),計(jì)算公式如下:

    通過(guò)3個(gè)門(mén)的控制,LSTM實(shí)現(xiàn)長(zhǎng)短時(shí)記憶的功能。LSTM適合用于處理與時(shí)間序列高度相關(guān)的問(wèn)題,使用LSTM進(jìn)行音素識(shí)別,可以充分考慮音素序列的時(shí)序關(guān)系,提高音素識(shí)別準(zhǔn)確率。

    1.4.2分級(jí)音素識(shí)別系統(tǒng)設(shè)計(jì)

    音素種類(lèi)多,在英語(yǔ)國(guó)際英標(biāo)中,英語(yǔ)音素可以分為元音與輔音2類(lèi)。元音能量較大,過(guò)零率較低,輔音則剛好相反。元音持續(xù)時(shí)間較長(zhǎng),輔音持續(xù)時(shí)間較短。考慮了元音輔音的這些特性差異,設(shè)計(jì)出一種分級(jí)識(shí)別的音素識(shí)別系統(tǒng),如圖3所示。

    模型共包括3個(gè)神經(jīng)網(wǎng)絡(luò)。分別為元輔音區(qū)分網(wǎng)絡(luò)、元音識(shí)別網(wǎng)絡(luò)以及輔音識(shí)別網(wǎng)絡(luò)。3個(gè)網(wǎng)絡(luò)均為雙層LSTM網(wǎng)絡(luò),元音輔音區(qū)分網(wǎng)絡(luò)循環(huán)核時(shí)間展開(kāi)步數(shù)為1,判斷每一幀為元音還是輔音。元音識(shí)別網(wǎng)絡(luò)循環(huán)核時(shí)間展開(kāi)步數(shù)為5,對(duì)元輔音區(qū)分網(wǎng)絡(luò)識(shí)別為元音的部分進(jìn)行元音識(shí)別;輔音識(shí)別網(wǎng)絡(luò)循環(huán)核時(shí)間展開(kāi)步數(shù)為3,對(duì)元輔音區(qū)分網(wǎng)絡(luò)識(shí)別為輔音的部分進(jìn)行輔音識(shí)別。按以下步驟進(jìn)行音素識(shí)別訓(xùn)練和音節(jié)片段的音素識(shí)別。

    ①將TIMIT庫(kù)中訓(xùn)練集句子進(jìn)行分幀,計(jì)算MFCC,作為神經(jīng)網(wǎng)絡(luò)的輸入,利用TIMIT庫(kù)中的音素切分文件,確定樣本的標(biāo)簽。

    ②根據(jù)①得到的訓(xùn)練樣本及標(biāo)簽,通過(guò)反向傳播算法訓(xùn)練網(wǎng)絡(luò)。

    ③將初檢判斷為關(guān)鍵詞的音頻片段送入元音輔音區(qū)分網(wǎng)絡(luò)進(jìn)行識(shí)別,識(shí)別為元音的部分送入元音識(shí)別網(wǎng)絡(luò)進(jìn)行識(shí)別,識(shí)別為輔音的部分送入輔音識(shí)別網(wǎng)絡(luò)進(jìn)行識(shí)別。

    ④3個(gè)網(wǎng)絡(luò)識(shí)別結(jié)果均是逐幀給出的,采用貪心搜索[7]算法逐幀給出識(shí)別結(jié)果。根據(jù)元音輔音區(qū)分網(wǎng)絡(luò)的幀識(shí)別結(jié)果進(jìn)行音素段劃分,連續(xù)識(shí)別為元音的幀為元音段,連續(xù)識(shí)別為輔音的幀為輔音段。由于劃分出的元音或輔音段可能包含不止一個(gè)音素,采用如下方法確定每個(gè)音素段的音素組成。若該段識(shí)別為某個(gè)音素的幀數(shù)超過(guò)該段總幀數(shù)的80%,判定該音素段只包含一個(gè)音素;若該音素段識(shí)別出多個(gè)音素,則判定該段由頻率較高的幾個(gè)音素(保留幀數(shù)超過(guò)該音素段總幀數(shù)30%的音素)組成。然后考察各音素的時(shí)序關(guān)系是否與關(guān)鍵詞音節(jié)的音素時(shí)序一致,若一致,則確認(rèn)為關(guān)鍵詞音節(jié)。

    2實(shí)驗(yàn)結(jié)果及分析

    2.1實(shí)驗(yàn)條件及評(píng)價(jià)指標(biāo)

    2.1.1 TIMIT庫(kù)

    實(shí)驗(yàn)采用的語(yǔ)音數(shù)據(jù)均來(lái)自TIMIT語(yǔ)音數(shù)據(jù)庫(kù)。一共包含6 300個(gè)句子,來(lái)自美國(guó)8個(gè)主要方言地區(qū)的630個(gè)人每人說(shuō)出給定的10個(gè)句子,其中每個(gè)句子均進(jìn)行了音節(jié)切割以及音素切割。TIMIT庫(kù)包含兩部分,即訓(xùn)練集和測(cè)試集[8]。

    2.1.2評(píng)價(jià)指標(biāo)

    關(guān)鍵詞識(shí)別是從連續(xù)語(yǔ)音流中檢測(cè)出目標(biāo)關(guān)鍵詞,而不關(guān)心其余單詞的具體內(nèi)容。本文采用有以下2種指標(biāo)評(píng)價(jià)關(guān)鍵詞識(shí)別系統(tǒng)的性能[9]。

    2.2端點(diǎn)檢測(cè)及音節(jié)切分實(shí)驗(yàn)

    對(duì)基于短時(shí)能量峰谷點(diǎn)的音節(jié)切割方法進(jìn)行實(shí)驗(yàn),以TIMIT庫(kù)中SA1句子為例,其內(nèi)容為“She had your dark suit in greasywash water all year”,切分結(jié)果如圖4所示。

    圖4中(a)表示語(yǔ)音波形圖,(b)為語(yǔ)音短時(shí)能量波形圖,(c)為平滑后的短時(shí)能量波形圖。句子的短時(shí)能量呈“山峰”狀,每隔一段時(shí)間后到達(dá)局部最大值然后逐漸下降,對(duì)應(yīng)句子中元音部分能量大,輔音部分能量小。若單詞為單音節(jié)單詞,一個(gè)峰即可表示一個(gè)單詞,若單詞為多音節(jié)單詞,若干峰表示一個(gè)單詞。對(duì)于第1個(gè)音頻片段,第1次切分時(shí)沒(méi)有把相鄰音節(jié)分開(kāi),但第2次切分完成了有效切割。

    2.3基于過(guò)零率直方圖的關(guān)鍵詞初檢

    2.3.1目標(biāo)關(guān)鍵詞音節(jié)直方圖模板生成

    選擇TIMIT庫(kù)出現(xiàn)次數(shù)較多的單詞“she”“year”作為目標(biāo)關(guān)鍵詞進(jìn)行關(guān)鍵詞粗檢實(shí)驗(yàn)。每個(gè)單詞提取32個(gè)樣本,幀長(zhǎng)為50 ms,幀移為20 ms,每個(gè)樣本統(tǒng)計(jì)一個(gè)直方圖,取所有樣本的直方圖平均作為模板。關(guān)鍵詞“year”的過(guò)零率直方圖模板使用同樣的方法得到。關(guān)鍵詞“she”“year”過(guò)零率直方圖模板如圖5所示,對(duì)比可知不同單詞過(guò)零率直方圖模板差異較大。

    2.3.2基于過(guò)零率直方圖的關(guān)鍵詞粗檢

    隨機(jī)選取單詞“she”“year”“l(fā)ike”“dark”各自一個(gè)樣本,計(jì)算其過(guò)零率直方圖以及與目標(biāo)關(guān)鍵詞的相似度。不同待檢單詞過(guò)零率直方圖對(duì)比如圖6所示。

    “she”“year”“dark”“suit”4個(gè)單詞相對(duì)于目標(biāo)關(guān)鍵詞“she”模板的相似度分別為0.85、0.22、0.35、0.68;相對(duì)于目標(biāo)關(guān)鍵詞“year”模板的相似度分別為0.11,0.81,0.49,0.26。因此,待檢音頻為關(guān)鍵詞時(shí),它們與各自目標(biāo)模板的相似度較高,若待檢音頻為非關(guān)鍵詞,則它們與模板相似度低。將目標(biāo)模板與待檢音頻片段的相似度與閾值進(jìn)行比較,可以排除大量非關(guān)鍵詞,但是一些與目標(biāo)關(guān)鍵詞相似的單詞無(wú)法排除,如“suit”和“she”相似,和“she”模板的相似度也較高,需要進(jìn)一步精檢以確認(rèn)其是否為目標(biāo)關(guān)鍵詞。

    2.4關(guān)鍵詞音素識(shí)別實(shí)驗(yàn) 2.4.1元輔音區(qū)分、元音識(shí)別、輔音識(shí)別實(shí)驗(yàn)

    根據(jù)本文提出的分級(jí)音素識(shí)別方法訓(xùn)練音素識(shí)別模型。庫(kù)中音素共有61種,有些音素發(fā)音相近甚至不發(fā)音,為減小模型規(guī)模,將音素合并,合并后音素有31類(lèi),其中元音11類(lèi),輔音20類(lèi)。音素種類(lèi)如表1所示,其中前20類(lèi)為輔音音素,后面的類(lèi)別為元音音素。

    訓(xùn)練樣本由TIMIT庫(kù)整個(gè)訓(xùn)練集構(gòu)成,包含元音樣本約40000個(gè),輔音樣本約8 0000個(gè)。測(cè)試集從TIMIT庫(kù)測(cè)試集隨機(jī)提取得到。包含元音樣本8 000個(gè),輔音測(cè)試樣本16 000個(gè)。元輔音區(qū)分網(wǎng)絡(luò)、元音識(shí)別網(wǎng)絡(luò)、輔音識(shí)別網(wǎng)絡(luò)均為雙層LSTM,元音輔音區(qū)分網(wǎng)絡(luò)第一層節(jié)點(diǎn)數(shù)為80,第二層節(jié)點(diǎn)數(shù)為100,另外2個(gè)網(wǎng)絡(luò)第一層節(jié)點(diǎn)數(shù)為200,第二層節(jié)點(diǎn)數(shù)為250。循環(huán)核時(shí)間展開(kāi)步數(shù)分別為1,5,3。為防止模型過(guò)擬合,將Dropout值設(shè)為0.2。采用Adam方法進(jìn)行模型的訓(xùn)練,batch_size設(shè)置為128。音素識(shí)別結(jié)果如表2所示。

    與不分級(jí)的LSTM音素識(shí)別網(wǎng)絡(luò)進(jìn)行對(duì)比,同樣采用雙層LSTM,第一層節(jié)點(diǎn)數(shù)200,第二層節(jié)點(diǎn)數(shù)為250的規(guī)模,循環(huán)核時(shí)間展開(kāi)步數(shù)取3,其識(shí)別率約72%。由表3可知本文提出的分級(jí)音素識(shí)別網(wǎng)絡(luò)音素識(shí)別率大約提高了8%。

    2.4.2待檢單詞音素識(shí)別概率圖

    選取關(guān)鍵詞“she”,使用訓(xùn)練好的分級(jí)識(shí)別網(wǎng)絡(luò)分析其音素分布,識(shí)別結(jié)果如圖7所示。

    由圖7可知,前半段第32類(lèi)(輔音)概率高,第33類(lèi)(元音)概率低,后半段則相反,由此可將該單詞劃分為輔音和元音2個(gè)音素段2個(gè)音素段;前半段識(shí)別為第18類(lèi),對(duì)應(yīng)音素“sh”,后半段時(shí)間識(shí)別為第27類(lèi),對(duì)應(yīng)音素“iy”,“she”由“sh”以及”iy”構(gòu)成,該關(guān)鍵詞音素識(shí)別成功。

    2.5關(guān)鍵詞識(shí)別實(shí)驗(yàn)

    選取庫(kù)中出現(xiàn)較多的單詞she,like,dark,good,year,以及多音節(jié)詞doctor作為目標(biāo)關(guān)鍵詞。選取包含關(guān)鍵詞的100個(gè)句子進(jìn)行實(shí)驗(yàn),其中關(guān)鍵詞數(shù)量為100,非關(guān)鍵詞數(shù)量大約為1 000。dotor由2個(gè)音節(jié)組成,分別為:d aa kcl,t er。

    選擇合適的閾值對(duì)于關(guān)鍵詞初檢很重要。相似度閾值設(shè)置得過(guò)高,檢出率會(huì)變低。相似度閾值設(shè)定過(guò)低,檢出率高,但是虛警率也高。本文通過(guò)大量實(shí)驗(yàn)發(fā)現(xiàn),不同單詞設(shè)置不同的閾值可以得到較好的效果,最終將關(guān)鍵詞“good”“l(fā)ike”相似度閾值設(shè)為0.5,其他關(guān)鍵詞相似度閾值設(shè)為0.55,可以獲得較高的檢出率和合適的虛警率。

    首先基于過(guò)零率直方圖進(jìn)行初檢,對(duì)初檢識(shí)別為關(guān)鍵詞的單詞,使用訓(xùn)練好的音素識(shí)別系統(tǒng)進(jìn)行識(shí)別,關(guān)鍵詞識(shí)別結(jié)果如表4所示。

    觀察結(jié)果可得,在初檢階段虛警率較高,很多非關(guān)鍵詞被識(shí)別為關(guān)鍵詞,但是經(jīng)過(guò)精檢階段的檢測(cè),可以使檢出率、虛警率均得到較理想的結(jié)果。對(duì)語(yǔ)音識(shí)別的運(yùn)行時(shí)間進(jìn)行了粗略統(tǒng)計(jì),仿真實(shí)驗(yàn)在Windows10操作系統(tǒng),使用Python作為編程語(yǔ)言,在Tensorflow2.0環(huán)境下進(jìn)行,若不采用本文提出的初檢方法,直接對(duì)句子進(jìn)行精檢,一個(gè)句子的識(shí)別時(shí)間平均超過(guò)20 s,而采用本文提出的兩步檢索法,一個(gè)句子的識(shí)別時(shí)間平均約為5 s,運(yùn)行時(shí)間大為縮減,為下一步嵌入式應(yīng)用系統(tǒng)提供了可能的參考。

    3結(jié)束語(yǔ)

    本文提出了基于LSTM的關(guān)鍵詞識(shí)別系統(tǒng)。在初檢階段,提出了一種快速篩選方法,利用基于過(guò)零率的直方圖法可以快速排除與目標(biāo)關(guān)鍵詞區(qū)別很大的詞語(yǔ),過(guò)零率計(jì)算簡(jiǎn)單、統(tǒng)計(jì)簡(jiǎn)便、時(shí)間花費(fèi)少。精檢階段使用分級(jí)LSTM網(wǎng)絡(luò),最大程度提取音素特征,且考慮了語(yǔ)音時(shí)序性,得到更好的識(shí)別結(jié)果。實(shí)驗(yàn)結(jié)果表明,本文提出的關(guān)鍵詞識(shí)別系統(tǒng)識(shí)別率檢出率高、虛警率低、計(jì)算復(fù)雜度低、速度較快。關(guān)鍵詞直方圖模板構(gòu)建簡(jiǎn)單,音素識(shí)別系統(tǒng)一經(jīng)建立,便對(duì)所有音節(jié)有效,故系統(tǒng)易于動(dòng)態(tài)擴(kuò)展目標(biāo)關(guān)鍵詞。下一步研究可針對(duì)音素識(shí)別系統(tǒng)或是所使用特征進(jìn)行改進(jìn),以達(dá)到更好的識(shí)別率以及更小的時(shí)間開(kāi)銷(xiāo)。

    參考文獻(xiàn)

    [1]孫彥楠,夏秀渝.基于深度神經(jīng)網(wǎng)絡(luò)的關(guān)鍵詞識(shí)別系統(tǒng)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2018,27(5):41-48.

    [2]劉鑫.按例查詢型關(guān)鍵詞識(shí)別系統(tǒng)的研究[D].北京:北京郵電大學(xué),2018.

    [3]王琳,陰桂梅,陳國(guó)梅.基于端點(diǎn)檢測(cè)的語(yǔ)音分割方法[J].電腦編程技巧與維護(hù),2020(10):151-153.

    [4]宋知用.MATLAB在語(yǔ)音信號(hào)分析與合成中的應(yīng)用[M].北京:北京航空航天大學(xué)出版社,2013.

    [5]喬立能,夏秀渝,葉于林.基于音頻指紋的兩步固定音頻檢索[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(5):266-271.

    [6] CHAI Shuzhou,ZHANG WeiQiang,LV Changsheng,et al. An End-to-end Model Based on Multiple Neural Networks with Data Augmentation for Keyword Spotting[J]. International Journal of Asian Language Processing,2020,30(2) 2050006.

    [7]羅敏娜,侍嘯.貪心優(yōu)化的搜索算法在RGV動(dòng)態(tài)調(diào)度中的應(yīng)用[J].沈陽(yáng)師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,37(4): 315-320.

    [8]鄭鑫.基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)特征學(xué)習(xí)及音素識(shí)別的研究[D].北京:清華大學(xué),2014.

    [9]湯志遠(yuǎn),李藍(lán)天,王東.語(yǔ)音識(shí)別基本法:Kaldi實(shí)踐與探索[M].北京:電子工業(yè)出版社,2021.

    3281501908222

    梁河县| 凭祥市| 克拉玛依市| 商水县| 都匀市| 唐山市| 商丘市| 长春市| 淳化县| 崇阳县| 凌海市| 吴堡县| 封丘县| 永德县| 南康市| 和平县| 临江市| 桐乡市| 乐至县| 南京市| 万宁市| 理塘县| 湖州市| 龙门县| 丽水市| 泗阳县| 湟源县| 千阳县| 成武县| 高密市| 车险| 璧山县| 沙河市| 嘉峪关市| 三江| 平武县| 贵南县| 左权县| 江津市| 鄂尔多斯市| 水富县|