• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于聲韻拼接的中文孤立詞語音識(shí)別方法的研究

      2013-09-30 06:39:40張志楠李琳琳賈玉輝
      關(guān)鍵詞:語音識(shí)別

      張志楠 李琳琳 賈玉輝

      [摘要]本文提出了一種基于HTK搭建的中文孤立詞語音識(shí)別系統(tǒng)的方法,系統(tǒng)采用中文特有的聲韻拼接結(jié)構(gòu)作為建?;?,通過頻譜歸一化處理(Cepstral Mean Normalization,CMN)之后一定程度上提升了識(shí)別準(zhǔn)確度,并且結(jié)合三音素(Triphones)的狀態(tài)綁定(Tied-State)策略又給出一種詞表的自動(dòng)更新過程,可以針對(duì)任意給定的詞表做識(shí)別,在一定程度上實(shí)現(xiàn)了識(shí)別詞表的可定制性。

      [關(guān)鍵詞]語音識(shí)別;頻譜歸一化;三音素;狀態(tài)綁定;

      [中圖分類號(hào)]G71 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1672-5158(2013)06-0325-02

      目前,現(xiàn)已發(fā)行的HTK穩(wěn)定版是3.4。本系統(tǒng)即是在其基礎(chǔ)上來搭建??梢苑奖阌行У慕⒓安僮鱄MM。HMM已經(jīng)被廣泛地應(yīng)用在了諸多的科研領(lǐng)域,比如AI(Artificial Intelligence,人工智能)和生物工程,HTK也主要針對(duì)智能語音技術(shù)的應(yīng)用及研究而設(shè)計(jì)。

      本系統(tǒng)是針對(duì)所有的中文詞匯能夠做識(shí)別,這種識(shí)別過程是基于三音素(Triphone)的自動(dòng)拼接過程,因此,我們?cè)O(shè)計(jì)了一個(gè)詞庫,包含403個(gè)中文詞匯,覆蓋了所有的聲韻拼接,并且我們借助HTK的輔助錄音工具來采集足夠的語音數(shù)據(jù)用于模型訓(xùn)練。此外,為能夠使得識(shí)別系統(tǒng)能夠針對(duì)不同的采樣率做識(shí)別,又特別加入了一種采用率下采樣(Downsampling)自動(dòng)轉(zhuǎn)換機(jī)制,以使得系統(tǒng)能夠針對(duì)待識(shí)別語音做采用率自動(dòng)轉(zhuǎn)換識(shí)別的功能。

      1 聲韻母基元

      1.1 模型基元定義

      模型識(shí)別基元的選擇對(duì)于語音識(shí)別率以及訓(xùn)練數(shù)據(jù)量的大小都有較大的影響。音素(Phoneme)、聲韻母(Initial/Final)、音節(jié)(Syllable)、整詞(Word)都是中文語音識(shí)別中常用到的建模單元,漢語中有409個(gè)無調(diào)音節(jié)和1300多個(gè)有調(diào)音節(jié)。

      采用聲韻母建立聲學(xué)模型是相對(duì)比較合適的,特別說明本文中使用的問題集是基于語音學(xué)知識(shí)的?;谝羲兀≒honeme)的語音識(shí)別已經(jīng)被廣泛地應(yīng)用在英文識(shí)別中并且取得了很好的識(shí)別性能。本文所采用的基元集是由37個(gè)韻母,24個(gè)聲母和1個(gè)靜音模型共同組成,參見(表1):

      2 基于Triphones模型的自動(dòng)拼詞識(shí)別機(jī)制實(shí)現(xiàn)

      2.1 原理介紹

      首先解碼原始音頻數(shù)據(jù)進(jìn)行識(shí)別,得到初步的單音素以及前后階音素的關(guān)系,然后依據(jù)得到的這種上下文依賴關(guān)系,查找其對(duì)應(yīng)的映射文件,進(jìn)而確定相應(yīng)的三音素模型。再根據(jù)這種聲韻拼接信息,通過查找Triphone模型的上下文相關(guān)模型映射文件生成了最終的全詞匹配結(jié)果。

      2.2 實(shí)現(xiàn)過程

      該模塊旨在實(shí)現(xiàn)待識(shí)別詞匯表的自動(dòng)更新識(shí)別功能。整個(gè)識(shí)別過程是不需要重新訓(xùn)練的。之前已經(jīng)完成了漢字轉(zhuǎn)拼音的轉(zhuǎn)換程序,在此基礎(chǔ)之上又進(jìn)—步實(shí)現(xiàn)了系統(tǒng)自動(dòng)拼詞的機(jī)制。其目的在于允許用戶傳送詞匯表(并不在訓(xùn)練集當(dāng)中),自動(dòng)做拼接識(shí)別。

      處理結(jié)束后,還要調(diào)用自動(dòng)映射處理模塊將用戶傳過來的新詞匯表映射到已存在的詞表當(dāng)中,并相應(yīng)的標(biāo)出漢語,以便于在反饋用戶結(jié)果的時(shí)候?qū)⑵匆魧?duì)應(yīng)的漢語一并反饋給用戶(圖1)。

      3 HTK上實(shí)現(xiàn)Downsampling自動(dòng)轉(zhuǎn)換機(jī)制

      3.1 原理介紹

      通過修改功能模塊,我們將SSRC自動(dòng)采樣率的轉(zhuǎn)換功能嵌套在HTK當(dāng)中,實(shí)現(xiàn)了下采樣的自動(dòng)轉(zhuǎn)換功能,前端采樣自動(dòng)檢測(cè)準(zhǔn)確與否,直接影響到語音識(shí)別系統(tǒng)的識(shí)別性能。

      3.2 實(shí)現(xiàn)方法

      該模塊提供一種采樣速率自動(dòng)轉(zhuǎn)換機(jī)制,用于提高最終的語音識(shí)別率。首先,我們需要引入一個(gè)新的開源工具包SSRC,其功能是實(shí)現(xiàn)采樣率的自動(dòng)轉(zhuǎn)換。通過做SSRC使測(cè)試語音與訓(xùn)練時(shí)語音采樣速率保持一致,也是優(yōu)化識(shí)別系統(tǒng)整體識(shí)別性能的一種方法,進(jìn)一步減少因?yàn)椴蓸勇什灰恢露鴮?dǎo)致的誤識(shí)率(圖2)。

      整體的采樣率自動(dòng)轉(zhuǎn)換功能模塊參照下面步驟運(yùn)行:

      對(duì)從客戶端采集到的聲音文件進(jìn)行初步的判斷,采樣率是否滿足系統(tǒng)的要求,如果上圖第一次判斷走了“NO”分支,要接著進(jìn)行SSRC的采樣率自動(dòng)轉(zhuǎn)換,統(tǒng)一將從客戶端采集到的聲音文件的采樣率標(biāo)準(zhǔn)化;然后,抽取相應(yīng)的Mel頻譜參數(shù)(MFCC),再將特征參數(shù)傳人識(shí)別系統(tǒng)的核心模塊Recognizer,得到識(shí)別結(jié)果。

      4 實(shí)驗(yàn)結(jié)果

      本實(shí)驗(yàn)采用的訓(xùn)練數(shù)據(jù)是由12個(gè)人借助HTK錄音工具共同錄制的包含4200個(gè)詞條的語音庫。測(cè)試數(shù)據(jù)集是由三個(gè)人采用平板電腦錄制的30個(gè)連續(xù)發(fā)音詞條(每人10條)。然后又通過CoolEdit工具[9]將其手工切分為彼此分離開來的詞條,即每一個(gè)單獨(dú)的詞匯保存與一個(gè)獨(dú)立的WAV文件中,然后對(duì)所有這些WAV片段做識(shí)別(表2)。

      由上面結(jié)果容易看出,CMN可以大大提升識(shí)別系統(tǒng)的識(shí)別性能。倒譜均值歸一化算法(CMN)對(duì)于語音識(shí)別系統(tǒng)抗噪聲性能的提高十分有效。接下來,我們將測(cè)試語音經(jīng)過SSRC做采樣率自動(dòng)轉(zhuǎn)換,都同一轉(zhuǎn)換為16KHz,然后將錄音測(cè)試詞(2/3)加入訓(xùn)練集。剩余1/3做集外測(cè)試,并重估參數(shù),得出的實(shí)驗(yàn)結(jié)果如(表3):

      ①在未將測(cè)試詞加入訓(xùn)練集,并作CMN,SSRC:識(shí)別結(jié)果18/28=68%

      ②將測(cè)試詞加入訓(xùn)練集,并作CMN,SSRC處理:識(shí)別結(jié)果20/28=71%

      ③將測(cè)試詞加入訓(xùn)練集,并作CMN處理,采樣率按照初始(44100HZ),未作SSRc處理:識(shí)別結(jié)果很低,基本不能識(shí)別。另外,以上是針對(duì)原始音頻格式wAV所做的識(shí)別結(jié)果。而對(duì)于3GPP音頻文件的識(shí)別結(jié)果準(zhǔn)確度卻比較低(圖4):

      由以上實(shí)驗(yàn)結(jié)果可以看出,本識(shí)別系統(tǒng)對(duì)于3gpp格式的媒體文件尚不能夠有很好的識(shí)別率,因此,綜上所述本系統(tǒng)目前對(duì)3GPP格式的識(shí)別相對(duì)較低(39%),而對(duì)WAV格式的音頻支持相對(duì)較好(71%)。

      5 結(jié)束語

      本文依照中文發(fā)音的特性,選取了擴(kuò)展的聲韻母基元XIF作為識(shí)別基元,問題集的設(shè)計(jì)也建立在當(dāng)今中文語音學(xué)知識(shí)體系架構(gòu)之上,再結(jié)合基于Triphones的模型訓(xùn)練,得到了一個(gè)可以自動(dòng)按照中文聲韻拼接規(guī)則對(duì)任意詞匯做識(shí)別,與其它識(shí)別基元作對(duì)比。借助決策樹以Triphones模型來共同搭建語音識(shí)別系統(tǒng),能夠有效地降低其對(duì)于識(shí)別階段所帶來的負(fù)面影響,并且提升了識(shí)別器對(duì)于識(shí)別環(huán)境的魯棒性。

      猜你喜歡
      語音識(shí)別
      空管陸空通話英語發(fā)音模板設(shè)計(jì)與應(yīng)用
      通話中的語音識(shí)別技術(shù)
      面向移動(dòng)終端的語音簽到系統(tǒng)
      淺析智能語音技術(shù)及其應(yīng)用
      語音識(shí)別的SVM模型選擇分析
      農(nóng)業(yè)物聯(lián)網(wǎng)平臺(tái)手機(jī)秘書功能分析與實(shí)現(xiàn)
      基于LD3320的非特定人識(shí)別聲控?zé)粝到y(tǒng)設(shè)計(jì)
      航天三維可視化系統(tǒng)中語音控制技術(shù)的研究與應(yīng)用
      基于語音識(shí)別的萬能遙控器的設(shè)計(jì)
      基于語音技術(shù)的商務(wù)英語移動(dòng)學(xué)習(xí)平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)
      平陆县| 饶平县| 灌阳县| 普宁市| 大名县| 长武县| 抚顺市| 安乡县| 宁河县| 宝鸡市| 镇江市| 辉南县| 沛县| 乐都县| 太康县| 普安县| 天镇县| 克拉玛依市| 上杭县| 永新县| 米泉市| 依兰县| 溆浦县| 呼玛县| 舟山市| 隆子县| 板桥市| 拜泉县| 郧西县| 金平| 崇阳县| 寿光市| 肇州县| 桐柏县| 天津市| 余干县| 池州市| 阿图什市| 隆子县| 赞皇县| 铁力市|