基于HTK的電臺粵語敏感詞檢測系統(tǒng)方法研究

2016-05-30 13:43:23楊俊

中小企業(yè)管理與科技·下旬刊 2016年1期

楊俊

摘要：粵語是中國七大方言之一，在全球有近1.2億使用人口。本文根據(jù)粵語的特點，針對電臺節(jié)目中出現(xiàn)的粵語敏感詞設計一套基于HTK的語音識別監(jiān)控系統(tǒng)，提出基于LMS自適應降噪的語音預處理方案，并驗證該語音識別系統(tǒng)的識別率。通過實驗證明該系統(tǒng)對粵語具有較高的識別率。

關鍵詞：HTK；語音識別；粵語

1 概述

語音識別發(fā)展到現(xiàn)如今，在很多領域已經得到了應用，語音識別通過幾十年的發(fā)展，已經從孤立詞識別到連續(xù)語音識別，從小詞匯量到大詞匯量，但是，粵語連續(xù)語音識別還處在初始階段，粵語通行于兩廣、港澳地區(qū)，是唯一除了普通話外擁有完善文字系統(tǒng)的漢語，并且國內廣播電臺很少有用語音識別技術來對關鍵詞進行檢測，因此，如何設計一個能降低背景噪聲，識別率高的基于關鍵詞的語音識別軟件，是目前廣播電臺監(jiān)播系統(tǒng)面臨的技術挑戰(zhàn)之一。

本文結合粵語的語音特點，使用現(xiàn)在流行的隱馬爾科夫建模工具HTK工具來設計一個電臺粵語敏感詞檢測系統(tǒng)。

2 電臺粵語敏感詞檢測系統(tǒng)的基本原理

基于HMM的粵語敏感詞檢測系統(tǒng)主要由語料庫，語音預處理模塊，特征提取模塊和語音標準模版等部分組成。具體的語音識別框圖如下圖1所示：

語音預處理模塊就是對輸入的原始語音信號進行處理，濾掉其中的不重要信息及背景噪聲等，并進行語音信號的端點檢測，即判定語音有效范圍的開始和結束位置，并進行分幀和預加重等處理工作。

在經過語音預處理模塊后，接下來的就是提取語音的特征參數(shù)。特征參數(shù)就是從語音信號中提取出有效的語音特征，去除語音信號的其他信息。在識別階段，將輸入語音的特征矢量參數(shù)和語音標準模版進行相似性度量比較，最后輸出識別結果。

3 建立語音材料庫

在進行語音識別前，建立語音材料庫，確定識別基本元。確定基本元后，標記識別基本元。標記基本元的工作，我使用的是WaveSurfer1.8的工具，用WaveSurfer1.8的工具打開用Adobe Audition CS6錄好的錄音材料，然后使用Label標記好每個字的起始和結束位，就完成了一個詞的標記工作。27個電臺敏感詞由15個男主持人和15個女主持人錄制，每個敏感詞錄制3遍。

4 基于HTK電臺新聞敏感詞檢測系統(tǒng)聲學建模

聲學建模是連續(xù)語音識別的關鍵步驟，其目的就是計算語音的特征矢量系列，為聲學單元建立一套聲學模型參數(shù)。HTK工具建立聲學模型步驟如圖2所示：

本系統(tǒng)識別用的是HTK中的HCopy模塊對語音進行特征的提取，然后用到Hinit模塊對HMM模型進行初始化，隨后用HRest和HERest庫模塊對HMM模型進行重估，形成準確的HMM模型，通過Hvite識別工具來對HMM模型進行解碼，其中使用HTK中的HParse使其由識別語法變成識別網絡，最后輸出識別的結果。

5 粵語連續(xù)語音識別實驗

5.1 更換訓練集實驗

實驗中的語料庫共有27個詞匯，由30位會說粵語的人，其中男15人，女15人，用標準的粵語朗讀一遍，其中語音信息是已知的，并且用WaveSurfer1.8的工具進行標注。其中從語料庫中選擇前20組語音作為訓練集，后10組語音作為測試集作為一個第一組實驗，然后用30組語音作為訓練集，后10組語音作為測試集來作為第二組實驗，識別結果用HTK中的HResults模塊進行輸出識別結果，第一組識別結果如圖3，第二組識別結果如圖4：

實驗結果表明，第二組正確率（82.51%）高于第一組的正確率（75.31%），證明訓練集的增加可以對非特定人識別的識別率有顯著的提高。

5.2 對大詞匯量連續(xù)語音的處理

對于大詞匯量連續(xù)語音的處理，可以采用深度學習的方法來代替GMM-HMM中的GMM，因為GMM模擬任意函數(shù)的功能取決于混合高斯函數(shù)的個數(shù)，所以具有一定的局限性，屬于淺層模型。而深度網絡可以模擬任意的函數(shù)，因而表達能力更強。所以使用深度學習的基于統(tǒng)計語音模型作為粵語的非特定人大詞匯量連續(xù)語音識別系統(tǒng)的語言模型，來實現(xiàn)大詞匯量的連續(xù)語音識別。

6 總結

為了提高廣播監(jiān)播系統(tǒng)的智能化、高效性，減輕管理控制人員的工作壓力，將語音識別技術嵌入到廣播電臺監(jiān)播系統(tǒng)當中。針對影響到安全播出的節(jié)目中出現(xiàn)的禁忌詞匯，或因播出信號受敵對勢力攻擊而出現(xiàn)的一些敏感詞匯，可利用語音識別技術，設計一套電臺廣播新聞敏感詞檢測系統(tǒng)，對播出信號進行實時監(jiān)播。其最終研究成果和優(yōu)化的系統(tǒng)對廣播電臺的安全播出具有典型的指導意義，并且具有在全國各大廣播電臺推廣的價值。

參考文獻：

[1]王海濤.廣播電視監(jiān)播系統(tǒng)中音頻及語音數(shù)據(jù)處理技術研究[D].西北工業(yè)大學，2007：35-37.

[2]陳杰.基于語音識別的警報系統(tǒng)的設計及其在廣播中的應用[J].2014.04：121.

[3]孔婷.基于語音識別的廣告監(jiān)播技術研究[D].南京理工大學，2013.7：1-2.

[4]張秋野，王力劭，丁鵬.連續(xù)語音識別網格技術在新聞制播平臺的應用[J].電視技術，2010.02：58.

[5]陳蓉.語音識別技術在廣播電臺的應用探討[J].廣播與電視技術，2008.10：134.

[6]劉洪斌.廣播電臺網絡音頻搜索系統(tǒng)初探[J].中國廣播，2011.06：47.

[7]布合力齊姑麗·瓦斯力.用MATLAB實現(xiàn)維吾爾語廣播新聞敏感詞檢索系統(tǒng)[J].計算機系統(tǒng)應用，2014.06：69.