• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種改進的DNN瓶頸特征提取方法*

      2019-05-31 03:19:14張玉來李良榮
      通信技術 2019年3期
      關鍵詞:套索范數(shù)瓶頸

      張玉來,李良榮

      (貴州大學 大數(shù)據(jù)與信息工程學院,貴州 貴陽 550025)

      0 引 言

      語音識別技術已經(jīng)被廣泛應用到社會很多的領域中(智能查閱、自動控制、文化、教育等),但傳統(tǒng)語音識別系統(tǒng)越來越難以滿足對海量數(shù)據(jù)建模的需求,自然語音對話識別的泛化能力差等缺點逐漸暴露,因此重點研究大詞匯量連續(xù)語音識別技術,進而提出更有效的語音識別方法,對推動人工智能語音產(chǎn)業(yè)的發(fā)展具有重要意義。

      當前大詞匯量連續(xù)語音識別系統(tǒng)主要由三部分組成:特征提取、聲學模型建立、解碼[1]。其中在特征提取部分,主要是從原始語音中提取出有利于分類識別的語音特征,并對這些特征降維和后續(xù)運算處理。而當前很多算法都可以應用在語音特征參數(shù)提取中,其中梅爾頻率倒譜系數(shù)(MFCC)是應用最為廣泛的一種特征提取方式。以MFCC為代表的語音特征一般被稱為短時靜態(tài)特征,MFCC特征語音時長較短,一般每幀語音信號大約20~30 ms,因此導致其易受到噪聲干擾,而且特征之間相關性不高。另外一種特征提取方法——Mel標度濾波器組(Fbank)特征提取,與MFCC相比,F(xiàn)bank不經(jīng)過離散余弦變換的去相關操作,保留了更多的原始語音信息,特征之間相關性更高,并且減少了運算量。相關實驗表明:Fbank特征更有利于深度學習神經(jīng)網(wǎng)絡(DNN)的訓練,但是冗余信息較多,說話人特征信息表征能力還是不夠強。

      針對上述語音特征提取算法的不足,本文提出了使用L2,1范數(shù)懲罰函數(shù)和重疊組套索算法來改進深度神經(jīng)網(wǎng)絡的語音瓶頸特征提取方法[2-4],將其用于解決冗余信息過多、表征能力不足的問題,能夠有效提高語音相關性信息的特征。

      1 基于DNN的瓶頸聲學特征提取

      近年來,深度學習廣泛應用語音識別,尤其是Grézl等提出了瓶頸深度置信網(wǎng)絡(BN-DBN)并應用于連續(xù)語音識別中[5],取得了很好的效果。瓶頸特征中的“瓶頸”就是指多層感知器(MLP)中位于最中間層的神經(jīng)元(即瓶頸層),其個數(shù)相對于其它層要少得多,整個神經(jīng)網(wǎng)絡酷似一個瓶頸[6]。瓶頸深度置信網(wǎng)絡通過引入瓶頸層,減少了輸出特征的維度、降低了后續(xù)的運算復雜度。

      DNN模型有輸入層、隱含層、輸出層。同一層中節(jié)點間不能連接,相鄰層間的節(jié)點則采用全連接的方式;隱含層權值要通過當前網(wǎng)絡層以及前一層權值加權計算得到。

      深度神經(jīng)網(wǎng)絡瓶頸特征模型(BN-DNN)是在DNN模型的基礎上,在隱藏層之間引入瓶頸層來減少輸出特征的維度[7]。其模型結(jié)構(gòu)如圖1所示。

      圖1 BN-DNN模型結(jié)構(gòu)

      由于瓶頸層中的節(jié)點數(shù)量小于其他隱藏層,因此通過DNN的連續(xù)訓練盡可能地將后續(xù)分類信息壓縮為瓶頸單元的激勵信號。DNN中的每個隱藏層都可以視為多輸入特征的非線性變換。隱藏層的輸出是原始輸入的新表達形式。越深層的生成特征就越具有不變性和辨別性。通過DNN學到的特征表示在不同人和環(huán)境變化方面比原始特征更具有魯棒性。由于BN-DNN模型引入了瓶頸層,可以有效減少輸出特征的維度,以降低計算的復雜度。

      訓練方法:以MFCC聲學特征作為輸入數(shù)據(jù),首先,將BN-DNN當作深度置信網(wǎng)絡進行無監(jiān)督預訓練調(diào)整網(wǎng)絡合適的初值,同時將MFCC未標注的數(shù)據(jù)輸入BN-DNN訓練,全面有效地提取語音特征;其次, BN-DNN進行微調(diào)優(yōu)化,采用標注數(shù)據(jù)進行網(wǎng)絡的監(jiān)督訓練,對網(wǎng)絡模型更加精細的調(diào)整;最后,BN-DNN模型提取出語音瓶頸特征[8-12]。語音瓶頸特征提取過程與原始語音特征提取過程不同,它是在原始語音特征的基礎上從BN-DNN中得到更具有說話人特性的語音瓶頸特征,該特征消除了冗余信息,其結(jié)構(gòu)先驗信息更加突出。特征提取流程如圖2所示。

      圖2 基于DNN的語音瓶頸特征提取流程

      2 基于改進的DNN模型語音瓶頸特征提取方法

      針對大詞匯量連續(xù)語音識別,目前基于DNN模型語音瓶頸特征提取方法在識別準確率的表現(xiàn)仍達不到期望目標,需要去掉大量的冗余信息,突出容易分類的說話人特性信息以至于特征數(shù)據(jù)不會過于龐大而增加不必要的計算量。此外,連續(xù)語音中前后幀信息之間具有一定的相關性,這些前后幀相關信息也是提高語音識別率的關鍵。

      科學研究表明,人類大腦皮層中的神經(jīng)元在處理信息的過程中是稀疏的,神經(jīng)元在大多數(shù)情況下都處于非激活狀態(tài)。因此模仿人類神經(jīng)系統(tǒng),將DNN中不工作的神經(jīng)元設置為非激活狀態(tài),即對其進行稀疏化,并從中提取更有效的特征信息[13-15]。此外,對DNN進行稀疏正則化處理,在一定程度上提高了網(wǎng)絡的泛化能力。

      套索模型是Tibshirani提出的基于正則化的能夠同時實現(xiàn)稀疏特征選擇和模型參數(shù)估計的方法。BN-DNN中重疊組套索算法是在將每層神經(jīng)元分成幾個兩兩相互重疊,之后把組間的重疊結(jié)構(gòu)作為先驗信息引入到懲罰函數(shù)中,對整個神經(jīng)網(wǎng)絡進行稀疏化處理。

      已知線性模型為:

      其中,y=RN為響應向量,X∈RN×P為設計矩陣,β∈RP為回歸系數(shù)向量,b∈RN為誤差向量且全部誤差變量獨立同分布bn~N(0,σ2),n∈ (1,2,…,N),N為樣本數(shù),P為變量數(shù)。

      重疊組套索模型,將P個輸入特征分為J個組G={gj|j=1,2,…,J},其中gj∈ {1,2,…,P}表示組的索引集,且但不同的是重疊組套索模型允許相鄰組之間的特征出現(xiàn)重疊。則重疊組套索模型為:

      本文采用損失函數(shù)為交叉熵,即對目標概率p(x)和sigmoid函數(shù)的輸出q(x)進行交叉熵運算。DNN網(wǎng)絡參數(shù)訓練采用反向傳播算法,其目標函數(shù)表示為:

      加入L2,1懲罰函數(shù)λ||p(h=1|v)||2,1。得到最終的目標函數(shù):

      其中,||·||2,1為L2,1范數(shù),p(h=1|v)表示隱含層神經(jīng)元h的激活概率。對回歸系數(shù)進行懲罰來壓縮回歸系數(shù)的大小,較小的回歸系數(shù)自動被壓縮為0,從而使目標函數(shù)學習的結(jié)果具有重疊組稀疏的特征。選擇L2,1范數(shù)的原因有兩方面:在組間,L1范數(shù)可以促進部分隱含層單元組的范數(shù)為0;在組內(nèi),L2范數(shù)具有組內(nèi)相關性特征選擇的作用。在語音瓶頸特征提取的過程中,BN-DNN參數(shù)訓練時不僅受到組間稀疏化影響,還受到組內(nèi)不同語音幀之間相關性信息的影響,因此提取到的語音瓶頸特征具有前后幀相關性優(yōu)點。

      對于式(4)中的重疊組套索L2,1范數(shù)稀疏正則項分解得到:

      其中,Gm表示M個重疊組中的第m組神經(jīng)元,n為Gm中對應的第n個隱層神經(jīng)元,p(hn=1|vl)表示第l層隱含層中第n個隱層神經(jīng)元的激活概率。

      確定目標函數(shù)后,利用梯度下降算法計算目標函數(shù)的對數(shù)似然概率,從而推導出針對重疊組稀疏正則項的更新公式:

      因此可得到BN-DNN訓練的權值和偏置的更新公式:

      其中,λ≥0,L表示BN-DNN的目標函數(shù),Δwi,j表示從節(jié)點i到節(jié)點j的更新權值,Δbi表示節(jié)點i的更新偏置。改進后的語音瓶頸特征提取方法如圖3所示,在BN-DNN預訓練之后加入重疊組套索算法、L2,1范數(shù)稀疏正則化,在BN-DNN訓練的過程中進行稀疏化處理和參數(shù)調(diào)優(yōu)。

      訓練方法:第一步仍然是初始化初值;第二步在BN-DNN目標函數(shù)后加入L2,1范數(shù)懲罰函數(shù),使目標函數(shù)學習的結(jié)果具有重疊組稀疏的特性;第三步將原始聲學特征MFCC作為BN-DNN的輸入數(shù)據(jù),使用BP算法對BN-DNN的參數(shù)進行調(diào)優(yōu)。在訓練的過程中,重疊組套索算法對回歸系數(shù)進行懲罰來壓縮回歸系數(shù),當回歸系數(shù)較小時自動被壓縮為0,這樣在訓練參數(shù)的同時對系數(shù)進行稀疏化處理,逐層更新網(wǎng)絡權重集,獲得訓練好的稀疏BN-DNN模型;最后輸出瓶頸層的語音瓶頸特征。

      圖3 改進的DNN語音瓶頸特征提取流程

      3 實驗與結(jié)果分析

      本文使用Kaldi語音識別開源工具箱進行實驗驗證分析,其部署在Linux系統(tǒng)上,本實驗選用500名說話人約5小時的Switchboard語音數(shù)據(jù);測試集選用約1小時的語料庫。實驗中BN-DNN模型設置5個隱含層,將第3個隱含層設置為瓶頸層,其余各隱含層的神經(jīng)元個數(shù)均為1 024;輸入數(shù)據(jù)為連續(xù)11幀的40維MFCC瓶頸特征,因此,輸入層的神經(jīng)元均設為440(40×11)。本文將DNN網(wǎng)絡結(jié)構(gòu)設置為:440-[1024-1024 -1024-1024-1024]-440。

      首先確定最優(yōu)參數(shù)每組神經(jīng)元個數(shù)Q和稀疏組重疊系數(shù)α。實驗設置Q為64、128、256,重疊系數(shù)α為0%、20%、30%、40%。利用神經(jīng)元中激活概率hi等于0的比例來度量網(wǎng)絡的稀疏性,稀疏度定義為:

      其中,D表示一層神經(jīng)元個數(shù),hi(i=1,2,…,D)表示神經(jīng)元,由式(9)可知稀疏度的區(qū)間為[0,1],稀疏度越大表示該隱含層中神經(jīng)元越稀疏,即權值為0的神經(jīng)元個數(shù)越多。對于每個模型,首先使用訓練集對模型進行訓練,得出每一層神經(jīng)元中的激活概率,然后將其代入式(9)中即可計算出該層的稀疏度,最后,計算出所有隱含層稀疏度的平均值作為整個神經(jīng)網(wǎng)絡的稀疏度[16]。重疊組套索稀疏DNN中不同Q和α情況稀疏度及詞錯誤率(Word Error Rate,WER)的變化如表1所示。

      表1 不同Q和α情況稀疏度及WER的變化

      從表1可以看出改進的重疊組套索稀疏BNDNN模型提取到的瓶頸特征比沒有稀疏的BNDNN(α=0%)模型識別效果更好,隨著稀疏度的增加,WER也會有一定程度的減小,但并不是稀疏度越大WER的值越小,當WER達到最小值16.29%后,其并不隨著稀疏度的增加而繼續(xù)減小,反而增加。所以稀疏度對WER有一定程度的影響,但并不是稀疏度越大越好,效果最好的參數(shù)選擇是每組神經(jīng)元個數(shù)Q=128,稀疏組重疊系數(shù)α=30%。

      在表1中重疊系數(shù)α=30%與α=0%相比,其WER平均降低了0.29%,這說明改進后的重疊組套索算法BN-DNN模型提取到的語音瓶頸特征能降低一定程度的錯誤率。其原因是將L2,1范數(shù)稀疏正則項作為目標函數(shù)的懲罰函數(shù),提高了目標函數(shù)的泛化能力,從而識別率也相應提高。

      本文為驗證改進語音瓶頸特征提取方法的有效性,設置Q=128,α=30%,網(wǎng)絡結(jié)構(gòu)設置為440-[1024-1024 -39-1024-1024]-440,將其提取到的語音特征與MFCC、Fbank語音特征進行了對比實驗。實驗結(jié)果如表2所示。

      表2 不同語音特征的WER

      從表2中可看出與其它語音特征相比,改進的瓶頸特征的語音識別效果最佳,使用瓶頸特征均比其它聲學特征(MFCC、Fbank)的詞錯誤率低。其原因是瓶頸特征比一般特征更具有前后幀相關信息表達能力,能很好地利用結(jié)構(gòu)先驗信息,同時利用重疊組套索算法對BN-DNN網(wǎng)絡中的目標函數(shù)進行稀疏正則化處理,有效控制了深度神經(jīng)網(wǎng)絡的泛化能力,從而進一步提高了語音識別效率。

      4 結(jié) 語

      本文研究了聯(lián)合L2,1范數(shù)懲罰函數(shù)和重疊組套組稀疏改進BN-DNN的語音瓶頸特征提取方法,該方法將L2,1范數(shù)懲罰函數(shù)、重疊組套索模型與BNDNN相結(jié)合,目的是提取出低維、更具有表征能力的語音特征,該網(wǎng)絡架構(gòu)是將兩個BN-DNN串聯(lián),其中第1個BN-DNN主要用來對特征進行后驗概率估計初始化,減少外界干擾對特征的影響;第2個DNN將監(jiān)督性信息嵌入到提取的特征當中,同時實現(xiàn)稀疏降維。最后通過實驗將該語音瓶頸特征與原始聲學特征進行實驗對比分析,驗證了該方法的有效性,為后續(xù)語音識別聲學模型環(huán)節(jié)提供較好的語音特征信息。

      猜你喜歡
      套索范數(shù)瓶頸
      套索肽替代抗生素應用的研究進展
      飼料博覽(2020年10期)2020-11-20 09:52:48
      套索肽
      ——一種可供多肽類藥物設計和改造的多功能載體
      藥學進展(2019年10期)2019-12-23 04:03:16
      數(shù)字化圖像的簡單合成教學分析
      新一代(2019年7期)2019-06-25 10:36:04
      淺議常見PS摳圖方法
      卷宗(2018年17期)2018-07-09 09:47:18
      基于加權核范數(shù)與范數(shù)的魯棒主成分分析
      矩陣酉不變范數(shù)H?lder不等式及其應用
      突破霧霾治理的瓶頸
      突破瓶頸 實現(xiàn)多贏
      如何渡過初創(chuàng)瓶頸期
      一類具有準齊次核的Hilbert型奇異重積分算子的范數(shù)及應用
      宜都市| 长葛市| 鹤山市| 福安市| 拜城县| 郁南县| 灌云县| 隆德县| 连城县| 平舆县| 南木林县| 白城市| 金门县| 巴彦淖尔市| 江陵县| 保靖县| 婺源县| 大宁县| 桐梓县| 昌图县| 德江县| 新余市| 宁都县| 蓬莱市| 罗田县| 颍上县| 金乡县| 景东| 东阳市| 商丘市| 凯里市| 辽宁省| 边坝县| 八宿县| 淅川县| 灵川县| 健康| 麦盖提县| 西华县| 宽城| 浏阳市|