• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度學(xué)習(xí)的多聲源并行化聲紋辨別方法

      2018-04-11 01:32:36范遠(yuǎn)超
      關(guān)鍵詞:聲紋伯努利頻點(diǎn)

      劉 鎮(zhèn), 呂 超, 范遠(yuǎn)超

      (江蘇科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院, 鎮(zhèn)江 212003)

      隨著智能感知和機(jī)器學(xué)習(xí)的快速發(fā)展,聲紋辨別技術(shù)在實(shí)時(shí)人機(jī)交互中占有重要地位,被廣泛應(yīng)用于民用和軍事領(lǐng)域,具有良好的發(fā)展前景.當(dāng)前人們對(duì)機(jī)器智能性、實(shí)時(shí)性和魯棒性的要求越來(lái)越高,隨著數(shù)據(jù)量的不斷增加,如何在大數(shù)據(jù)量的樣本中快速提取特征,簡(jiǎn)單而有效地辨別聲紋已經(jīng)成為了語(yǔ)音領(lǐng)域的研究熱點(diǎn)之一.

      目前聲紋辨別的常用方法有模式匹配與動(dòng)態(tài)時(shí)間規(guī)整[1]、矢量量化[2]、高斯混合模型[3]、支持向量機(jī)[4]、人工神經(jīng)網(wǎng)絡(luò)等.近年來(lái),隨著深度學(xué)習(xí)技術(shù)的發(fā)展,深度神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別、聲紋辨別等多類應(yīng)用中取得突破性進(jìn)展,在國(guó)內(nèi)外引起了廣泛關(guān)注[5].

      傳統(tǒng)聲紋識(shí)別技術(shù)存在一定的不足:一方面單拾音器無(wú)法用于多聲源環(huán)境,其在抗噪聲方面效果較差,對(duì)語(yǔ)音信號(hào)的特征提取具有片面性[6];另一方面語(yǔ)音信號(hào)處理的計(jì)算量大、運(yùn)算過(guò)程復(fù)雜,傳統(tǒng)的PC機(jī)或DSP等設(shè)備都采用串行計(jì)算模式,其運(yùn)算速度嚴(yán)重制約了系統(tǒng)實(shí)時(shí)性[7].

      為此,文中提出一種基于深度學(xué)習(xí)的多聲源并行化聲紋辨別方法,整體流程如圖1.首先利用拾音陣列獲取目標(biāo)聲源的位置和時(shí)頻域信息,構(gòu)造掩蔽函數(shù)進(jìn)行信號(hào)的數(shù)據(jù)級(jí)融合,然后將各通道信號(hào)的MFCC(mel-frequency cepstral coefficients)參數(shù)進(jìn)行特征級(jí)融合,形成高維的聲紋向量輸入深度信念網(wǎng)絡(luò)(deep belief network,DBN)進(jìn)行訓(xùn)練和識(shí)別.針對(duì)樣本數(shù)據(jù)量大的特點(diǎn),文中基于NVIDIA Jetson TK1的GPU嵌入式平臺(tái),利用CUDA(compute unified device architecture)[8]分別對(duì)目標(biāo)聲紋提取和DBN的訓(xùn)練方法進(jìn)行了并行優(yōu)化.

      圖1 并行化聲紋辨別流程

      1 基于拾音陣列的聲紋提取與融合

      1.1 多通道聲紋提取與融合原理

      在實(shí)際應(yīng)用的多聲源環(huán)境中,存在著混響、噪聲等各種干擾源,文中設(shè)計(jì)了一種平面四元拾音陣列模型,使用基于目標(biāo)聲源位置和時(shí)頻域信息的掩蔽方法[9],從而提取目標(biāo)語(yǔ)音的聲紋,如圖2,以拾音器陣列y軸上的兩個(gè)陣元P1和P2為例來(lái)說(shuō)明提取融合目標(biāo)聲紋的方法.

      假設(shè)環(huán)境中有3個(gè)聲源X、Y、Z,其中X為目標(biāo)語(yǔ)音聲源,其余為干擾噪聲源.此時(shí),拾音器P1和P2接收到的信號(hào)經(jīng)過(guò)預(yù)處理后分別為:

      p1(t)=x1(t)+y1(t)+z1(t)

      (1)

      p2(t)=x2(t)+y2(t)+z2(t)

      (2)

      假設(shè):

      p2(t)=p1(t)×Δp(t)

      (3)

      圖2 拾音陣列模型

      式中,Δp(t)為差異濾波器[10],代表了兩通道信號(hào)之間的相關(guān)性和差異性,其中包含了聲源的位置和聲紋信息,Δp(t)的頻響為ΔP(ω).根據(jù)傅里葉變換的卷積特性,在某一時(shí)頻點(diǎn)(ωk,tτ)上可具體表示為:

      (4)

      ΔP(ωk,tτ)反映了混合聲源在時(shí)頻點(diǎn)(ωk,tτ)上的方位信息.由于目標(biāo)聲源與拾音陣列的位置相對(duì)固定,可以根據(jù)兩信號(hào)每個(gè)時(shí)頻點(diǎn)的相對(duì)時(shí)延,由聚類算法[11]得到目標(biāo)語(yǔ)音的方位信息ΔX(ω).而獨(dú)立信號(hào)在時(shí)頻域上具有近似稀疏性,混合信號(hào)中的某個(gè)時(shí)頻點(diǎn)僅屬于某個(gè)聲源[10],所以可以通過(guò)掃描混合聲源各時(shí)頻點(diǎn)ΔP(ωk,tτ)和目標(biāo)聲源對(duì)應(yīng)頻率點(diǎn)ΔX(ωk)的差異大小,判斷該時(shí)頻點(diǎn)是否屬于目標(biāo)語(yǔ)音的聲紋.

      將該時(shí)頻點(diǎn)ΔP(ωk,tτ)和目標(biāo)聲源某頻率點(diǎn)ΔX(ωk)之間差異記為α:

      (5)

      式中,α反映了該時(shí)頻點(diǎn)與目標(biāo)語(yǔ)音聲紋的差異大小,α越大說(shuō)明差異越大,此時(shí)需要加大對(duì)該時(shí)頻點(diǎn)的衰減抑制.采用式(6)的非線性函數(shù)計(jì)算每個(gè)α對(duì)應(yīng)的衰減系數(shù),從而構(gòu)成掩蔽矩陣M(ω,t),最后由式(7)即可通過(guò)掩蔽矩陣求出兩通道融合后的目標(biāo)聲源頻譜:

      M(ω,t)(α)=(1+(2α)10)-1

      (6)

      (7)

      用一組按Mel頻率分布的三角窗濾波器對(duì)上式信號(hào)的頻譜進(jìn)行濾波,得到Mel頻率上的頻譜,然后對(duì)Mel頻譜求其對(duì)數(shù)頻譜,再通過(guò)離散余弦變換將對(duì)數(shù)頻譜轉(zhuǎn)變?yōu)榈棺V系數(shù),從而得到MFCC參數(shù).為了進(jìn)一步減小語(yǔ)音幀與幀之間的相關(guān)性,根據(jù)人耳感知能力對(duì)聲音動(dòng)態(tài)特性更為敏感的特點(diǎn),文中采用MFCC及其1階、2階差分系數(shù)各12維的組合作為特征參數(shù)來(lái)描述目標(biāo)聲紋,即每個(gè)通道取36維MFCC特征向量.

      同理,以拾音陣列x軸上的陣元P3和P4為一組,按照上述方法可提取出P3、P4通道中的目標(biāo)聲紋.最后將4個(gè)通道中對(duì)同一目標(biāo)聲源提取的4組MFCC組合,進(jìn)行特征級(jí)融合,便得到多通道融合后的高維聲紋向量.使用上述方法亦可以提取其他目標(biāo)聲源的聲紋.

      1.2 聲紋提取與融合的并行化實(shí)現(xiàn)

      在CUDA平臺(tái)上利用GPU并行計(jì)算時(shí),各個(gè)線程所執(zhí)行的計(jì)算任務(wù)之間需要具有很高的獨(dú)立性,線程之間的通訊盡量避免.每個(gè)線程所執(zhí)行計(jì)算的數(shù)據(jù)被稱為單位數(shù)據(jù),這種單位數(shù)據(jù)間能夠被并行處理的性質(zhì)被稱為數(shù)據(jù)并行性.

      由以上分析可知,整個(gè)模型在聲紋提取與融合階段有大量的數(shù)據(jù)計(jì)算,存在并行性,文中主要研究了基于CUDA的線程級(jí)并行計(jì)算:

      (1) 由公式(5)可知,在基于拾音陣列提取目標(biāo)聲源頻譜時(shí),要對(duì)每個(gè)時(shí)頻點(diǎn)逐一掃描計(jì)算,而各時(shí)頻點(diǎn)的差異參數(shù)α相互獨(dú)立,互不干擾;

      (2) 由公式(7)可知,在聲紋信號(hào)融合時(shí),該步驟為兩個(gè)矩陣相乘,矩陣乘法作為CUDA并行計(jì)算的典型操作之一,可直接調(diào)用CUDA平臺(tái)CUBLAS庫(kù)中的相關(guān)函數(shù)完成.

      假設(shè)某一通道信號(hào)經(jīng)過(guò)預(yù)處理后的時(shí)域范圍為0≤t≤T,頻域范圍為0≤ω≤K,時(shí)頻掩蔽函數(shù)M(ω,t)為一個(gè)K×T維的矩陣.CUDA調(diào)用GPU資源并行處理時(shí),核函數(shù)一次啟動(dòng)K個(gè)線程塊,一個(gè)線程塊內(nèi)又劃分為T個(gè)線程,每個(gè)線程完成某一時(shí)頻點(diǎn)(ωk,tτ)下α及其衰減系數(shù)的計(jì)算,每個(gè)線程塊完成某頻率點(diǎn)ωk中所有時(shí)頻點(diǎn)的計(jì)算.當(dāng)本次任務(wù)完成后,再調(diào)用cublasSgemm庫(kù)函數(shù)完成掩蔽矩陣與原始矩陣的乘法,從而得到目標(biāo)聲紋的頻譜,以便提取MFCC參數(shù)進(jìn)行特征級(jí)融合.提取聲紋頻譜的GPU并行化實(shí)現(xiàn)算法描述如下:

      輸入:ΔP(ω,t),ΔX(ω)

      輸出:X′(ω,t)

      (1) MemcpySync(ΔP(ω,t), host->device);

      (2) MemcpySync(ΔX(ω), host->device);

      (3)M(ω,t)(α)←MaskMatrixKernel <<>>(ΔP(ω,t),ΔX(ω));

      (4) _syncthreads();

      (5) cublasSgemm(′n′, ′n′,T,K,T, 1,M(ω,t)(α),K, ΔP(ω,t),T, 0,X′(ω,t),T);

      (6) _syncthreads();

      (7) MemcpySync(X′(ω,t),device->host);

      2 基于深度神經(jīng)網(wǎng)絡(luò)的并行化聲紋辨別

      2.1 聲紋辨別模型

      DBN是深度神經(jīng)網(wǎng)絡(luò)的一種代表模型,是深度學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)不斷發(fā)展并結(jié)合的產(chǎn)物[12].DBN由多層受限玻爾茲曼機(jī)(restricted Boltzmann machines,RBM)堆疊組成,逐層訓(xùn)練,其中每層都是捕捉底層隱藏特征的一個(gè)高階相關(guān)過(guò)程,然后對(duì)權(quán)重和偏置等參數(shù)進(jìn)行反向傳播調(diào)整.

      其中,RBM是一類具有兩層結(jié)構(gòu)的隨機(jī)神經(jīng)網(wǎng)絡(luò)模型,主要由可視層(v層)和隱藏層(h層)所組成,其層與層之間通過(guò)權(quán)值全連接,而層內(nèi)無(wú)連接,其結(jié)構(gòu)如圖3.RBM中的h層結(jié)點(diǎn)均為二值單元,v層可以是二值單元也可以不是;當(dāng)v層和h層均為二值單元時(shí),稱為伯努利-伯努利RBM模型,當(dāng)v層是高斯型數(shù)據(jù)時(shí),稱為高斯-伯努利RBM模型.文中所提取的MFCC聲紋向量是服從高斯分布的連續(xù)實(shí)數(shù),因此顯層和第一隱層之間是高斯-伯努利RBM模型;隱層與隱層之間則是伯努利-伯努利RBM模型.

      圖3 受限玻爾茲曼機(jī)結(jié)構(gòu)

      以伯努利-伯努利RBM模型為例,其能量函數(shù)為:

      (8)

      式中:I為可視層單元個(gè)數(shù);J為隱藏層單元個(gè)數(shù);θ={W,a,b}為參數(shù)模型集合;Wji為可視層與隱藏層之間的權(quán)重系數(shù);ai,bj分別為可視層和隱藏層的偏置項(xiàng).

      由于RBM是一個(gè)二部圖,層內(nèi)無(wú)鏈接,在給定其中一層各單元狀態(tài)時(shí),另一層各單元的激活條件是獨(dú)立的.所以,在己知v層的情況下,h層的概率分布可以表示為:

      (9)

      同理,在己知h層的情況下,v層的概率分布為:

      (10)

      式中,g(x)為sigmoid函數(shù).

      高斯-伯努利RBM的能量模型與條件概率的計(jì)算方法與伯努利-伯努利RBM類似.

      RBM通過(guò)梯度下降法進(jìn)行極大似然學(xué)習(xí)來(lái)更新參數(shù),通常采用對(duì)比散度(contrastive divergence,CD)的方法來(lái)近似完成.首先將v層輸入矢量通過(guò)網(wǎng)絡(luò)權(quán)重映射到h層輸出矢量,之后對(duì)h層輸出矢量進(jìn)行Gibbs采樣,并利用所得到的采樣結(jié)果重建v層目標(biāo)矢量,最后將這些新的v層矢量再次進(jìn)行映射,得到新的h層輸出矢量,反復(fù)執(zhí)行以上過(guò)程,進(jìn)行k步交替采樣完成對(duì)模型分布數(shù)學(xué)期望的近似,從而得到RBM網(wǎng)絡(luò)權(quán)重更新準(zhǔn)則:

      ΔWij=γ(0-k)

      (11)

      Δai=γ(0-k)

      (12)

      Δbj=γ(0-k)

      (13)

      式中:γ為CD-k算法的學(xué)習(xí)率;<·>0為樣本數(shù)據(jù)集上的期望;<·>k為k步重構(gòu)后模型分布上的期望.

      DBN的訓(xùn)練過(guò)程分為兩個(gè)階段:① 無(wú)監(jiān)督預(yù)訓(xùn)練,根據(jù)CD-k算法,由低到高逐層訓(xùn)練每個(gè)RBM,使模型得到一個(gè)較優(yōu)的初始參數(shù)值;② 有監(jiān)督微調(diào),利用帶標(biāo)簽的訓(xùn)練樣本通過(guò)誤差反向傳播算法對(duì)DBN性能進(jìn)行優(yōu)化調(diào)整.

      如圖4,在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),按照上文介紹的聲紋提取方法,將融合后的聲紋向量作為輸入層送入DBN模型中,經(jīng)過(guò)上述訓(xùn)練流程迭代得到DBN模型的逐層參數(shù),完成訓(xùn)練過(guò)程.

      圖4 基于DBN的聲紋辨別流程

      在辨別測(cè)試時(shí),按照同樣的方法對(duì)測(cè)試樣本進(jìn)行特征提取,得到聲紋輸入數(shù)據(jù),然后通過(guò)已訓(xùn)練好的DBN模型,得到測(cè)試樣本的預(yù)測(cè)結(jié)果.將預(yù)測(cè)結(jié)果與已知的樣本標(biāo)簽進(jìn)行對(duì)比,如果相同則辨別的結(jié)果正確,反之則辨別錯(cuò)誤,通過(guò)批量測(cè)試即可得到聲紋辨別系統(tǒng)的準(zhǔn)確率.

      2.2 基于CUDA的DBN并行化實(shí)現(xiàn)

      DBN采用分層訓(xùn)練的方法,同一層的神經(jīng)元之間無(wú)連接,不存在相互依賴的關(guān)系,本層神經(jīng)元只與上一層神經(jīng)元傳遞過(guò)來(lái)的輸入有關(guān),即本層各神經(jīng)元的計(jì)算相互獨(dú)立,可以并行執(zhí)行.

      DBN聲紋辨別模型在CUDA上實(shí)現(xiàn)的整體流程如下:① 在CPU主機(jī)端初始化參數(shù),在GPU設(shè)備端分配顯存空間;② 把訓(xùn)練樣本和網(wǎng)絡(luò)初始參數(shù)等數(shù)據(jù)從主機(jī)端傳入到設(shè)備端;③ 在設(shè)備端調(diào)用CUDA平臺(tái)上的kernel函數(shù)分別完成對(duì)各層神經(jīng)元的計(jì)算,同時(shí)更新權(quán)值和偏置值;④ 根據(jù)設(shè)置的迭代次數(shù)或誤差大小反復(fù)調(diào)用相關(guān)kernel函數(shù),直至訓(xùn)練結(jié)束,得到DBN模型;⑤ 將DBN的模型參數(shù)由設(shè)備端傳遞回主機(jī)端.

      基于CUDA優(yōu)化的DBN分層訓(xùn)練方法可以使得在GPU上的并行部分盡量最大化,減少并行和串行反復(fù)交替執(zhí)行的次數(shù),節(jié)約了數(shù)據(jù)在CPU內(nèi)存與GPU顯存之間傳遞的時(shí)間.

      圖5 計(jì)算隱藏層狀態(tài)的GPU資源劃分

      以上具體分析了RBM中計(jì)算隱藏層節(jié)點(diǎn)狀態(tài)的并行化方法,同理可得計(jì)算可視層節(jié)點(diǎn)狀態(tài)、修正權(quán)值和偏置值等步驟的并行化方法.由此可總結(jié)出基于CUDA的并行RBM訓(xùn)練算法(CD-k)如下:

      輸入:訓(xùn)練樣本集S

      輸出:受限玻爾茲曼機(jī)參數(shù)θ={ΔWji,Δai,Δbj}

      (1) random init ΔWji=0, Δai=0, Δbj=0;

      (2) forx∈Sdo

      (3)v(0)←x;

      (4) MemcpySync(θ={ΔWji, Δai, Δbj},v(0),host->device);

      (5) fort=1,2,…,kparallel do

      (6)hj(t)←ComputeHiddenKernel<<>>(v(t));/*hj(t)~p(hj|v(t)) */

      (7) _syncthreads();

      (8)vi(t+1)←ComputeVisibleKernel<<>>(j(t));/*vi(t+1)~p(vi|j(t)) */

      (9) _syncthreads();

      (10) ΔWji←ΔWji+p(hj=1|v(0))·vi(0)-p(hj=1|v(k))·vi(k)

      (11) Δai←Δai+vi(0)-vi(k)

      (12) Δbj←Δbj+p(hj=1|v(0))-p(hj=1|v(k))

      (13) end for

      (14) MemcpySync(θ={ΔWji, Δai, Δbj},

      device->host);

      (15) end for

      3 實(shí)驗(yàn)與分析

      3.1 實(shí)驗(yàn)環(huán)境

      使用NVIDIA公司的Jetson TK1嵌入式開(kāi)發(fā)組件作為實(shí)驗(yàn)平臺(tái).該設(shè)備具有四核ARM(Cortex-A15 CPU,包含192個(gè)CUDA核心的Kepler GPU)、2GB內(nèi)存、8路信號(hào)輸入接口.系統(tǒng)環(huán)境為Ubuntu14.04和CUDA6.5開(kāi)發(fā)平臺(tái).

      實(shí)驗(yàn)的語(yǔ)音樣本選自Timit國(guó)際語(yǔ)音庫(kù),按照?qǐng)D2建立拾音陣列,在含有干擾噪聲源的環(huán)境下分別播放Timit庫(kù)中100個(gè)目標(biāo)說(shuō)話人的語(yǔ)音,并同步采集.所有樣本均為16 kHz采樣頻率,單聲道.經(jīng)過(guò)加窗分幀后,每人即每類標(biāo)簽約有2 000幀聲紋樣本,其中一半作為訓(xùn)練樣本,另一半作為測(cè)試樣本.

      為了將神經(jīng)網(wǎng)絡(luò)的規(guī)??刂圃诤侠矸秶鷥?nèi),文中將10個(gè)說(shuō)話人分為一組,共10組并行訓(xùn)練;先分別訓(xùn)練并測(cè)試每組的辨別準(zhǔn)確率,再將各組DBN模型聯(lián)合起來(lái)進(jìn)行測(cè)試.由于DBN根據(jù)測(cè)試樣本的最大似然估計(jì)概率選定辨別結(jié)果,故聯(lián)合模型的辨別結(jié)果就是所有組中估計(jì)概率最大值對(duì)應(yīng)的標(biāo)簽類別.

      3.2 實(shí)驗(yàn)結(jié)果與分析

      每段語(yǔ)音首先通過(guò)傳遞函數(shù)為H=1-0.95z-1的預(yù)加重濾波器,隨后采用漢明窗進(jìn)行加窗分幀處理,接著使用雙門限法進(jìn)行端點(diǎn)檢測(cè),去除靜音段;然后使用文中提出的目標(biāo)聲紋提取融合的方法,將各通道的36維特征參數(shù)融合形成144維的高維聲紋向量,作為深度神經(jīng)網(wǎng)絡(luò)的輸入層單元進(jìn)行訓(xùn)練.

      測(cè)試經(jīng)過(guò)信號(hào)融合后高維MFCC聲紋的辨別準(zhǔn)確率,并將其與單通道提取的MFCC特征作了對(duì)比,實(shí)驗(yàn)結(jié)果如圖6.可知,通過(guò)掩蔽融合的方法將聲源頻譜中的干擾時(shí)頻點(diǎn)濾除,并將多通道的MFCC參數(shù)融合形成高維特征,使得聲紋辨別的準(zhǔn)確率有了明顯提高.

      圖6 聲紋融合前后的性能對(duì)比

      使用不同數(shù)量的訓(xùn)練樣本分別對(duì)傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)DBN進(jìn)行測(cè)試,分析其對(duì)聲紋辨別系統(tǒng)準(zhǔn)確率的影響,實(shí)驗(yàn)結(jié)果如圖7.可見(jiàn)深度神經(jīng)網(wǎng)絡(luò)DBN的識(shí)別性能優(yōu)于傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò),但需要更多的樣本來(lái)訓(xùn)練模型.因此,DBN模型更加需要并行化的方法加快訓(xùn)練速度,提高效率.

      圖7 兩種神經(jīng)網(wǎng)絡(luò)的性能對(duì)比

      表1對(duì)比了在不同樣本人數(shù)下,串行傳統(tǒng)DBN算法與并行優(yōu)化DBN算法的訓(xùn)練時(shí)間,以及GPU并行加速比和辨別準(zhǔn)確率.可知,在GPU并行模式下的訓(xùn)練時(shí)間遠(yuǎn)小于CPU串行模式,并行化加速效果明顯,加速比在5倍左右;而且隨著訓(xùn)練樣本數(shù)量的增加,GPU并行化的加速優(yōu)勢(shì)越明顯;而聲紋辨別準(zhǔn)確率基本保持在90%左右.

      表1 DBN串行訓(xùn)練時(shí)間與并行訓(xùn)練時(shí)間比較

      4 結(jié)論

      (1) 在大數(shù)據(jù)語(yǔ)音處理的背景下,提出了一種基于深度學(xué)習(xí)的多聲源并行化聲紋辨別方法.通過(guò)拾音陣列分析目標(biāo)聲源的位置和時(shí)頻域信息,提取目標(biāo)聲紋,實(shí)現(xiàn)信號(hào)的數(shù)據(jù)級(jí)融合,然后將各通道中提取的MFCC聲紋參數(shù)進(jìn)行特征級(jí)融合,形成高維的聲紋向量,輸入DBN進(jìn)行訓(xùn)練和辨別;

      (2) 使用CUDA平臺(tái)分別對(duì)聲紋融合和DBN的訓(xùn)練方法進(jìn)行了并行優(yōu)化.實(shí)驗(yàn)證明,該方法在多聲源環(huán)境下能全面地提取目標(biāo)聲紋,有效提高聲紋辨別準(zhǔn)確率,減少數(shù)據(jù)處理時(shí)間,提高了系統(tǒng)實(shí)時(shí)性.

      References)

      [1] 宋大杰. 基于DTW的說(shuō)話人識(shí)別及其在DSP上的實(shí)現(xiàn)[D]. 南昌: 東華理工大學(xué), 2012.

      [2] WANG Y, TANG F, ZHENG J. Robust text-independent speaker identification in a time-varying noisy environment[J]. Journal of Software, 2012, 7(9). DOI:10.4304/jsw.7.9.1975-1980.

      [3] HANIL?I C, ERTAF. Comparison of the impact of some Minkowski metrics on VQ/GMM based speaker recognition[J]. Computers & Electrical Engineering, 2011, 37(1): 41-56. DOI:10.1016/j.compeleceng.2010.08.001.

      [4] MAK M W, RAO W. Utterance partitioning with acoustic vector resampling for GMM-SVM speaker verification[J]. Speech Communication, 2011, 53(1): 119-130. DOI:10.1016/j.specom.2010.06.011.

      [5] YU D, DENG L. Deep learning and its applications to signal and information processing [exploratory DSP][J]. IEEE Signal Processing Magazine, 2011, 28(1): 145-154. DOI:10.1109/msp.2010.939038.

      [6] 何朝霞, 潘平. 說(shuō)話人識(shí)別中改進(jìn)的MFCC參數(shù)提取方法[J]. 科學(xué)技術(shù)與工程, 2011, 18(18): 4215-4218,4227. DOI:10.3969/j.issn.1671-1815.2011.18.022.

      HE Zhaoxia, PAN Ping. An improved method of MFCC parameter extraction in speaker recognition[J]. Science Technology and Engineering, 2011, 18(18): 4215-4218,4227. DOI:10.3969/j.issn.1671-1815.2011.18.022.(in Chinese)

      [7] 陳麗萍, 王爾玉, 戴禮榮, 等. 基于深層置信網(wǎng)絡(luò)的說(shuō)話人信息提取方法[J]. 模式識(shí)別與人工智能, 2013, 26(12): 1089-1095. DOI:10.3969/j.issn.1003-6059.2013.12.001.

      CHEN Liping, WANG Eryu, DAI Lirong, et al. Deep belief network based speaker information extraction method[J]. Pattern Recognition and Artificial Intelligence, 2013, 26(12): 1089-1095. DOI:10.3969/j.issn.1003-6059.2013.12.001.(in Chinese)

      [8] 張慶科, 楊波, 王琳, 等. 基于GPU的現(xiàn)代并行優(yōu)化算法[J]. 計(jì)算機(jī)科學(xué), 2012, 39(4): 304-310. DOI:10.3969/j.issn.1002-137X.2012.04.071.

      ZHANG Qingke, YANG Bo, WANG Lin, et al. Research on parallel modern optimization algorithms using GPU[J]. Computer Science, 2012, 39(4): 304-310. DOI:10.3969/j.issn.1002-137X.2012.04.071.(in Chinese)

      [9] YILMAZ O, RICKARD S. Blind separation of speech mixtures via time-frequency masking[J]. IEEE Transactions on Signal Processing, 2004, 52(7): 1830-1847. DOI:10.1109/tsp.2004.828896.

      [10] 夏秀渝, 何培宇. 基于聲源方位信息和非線性時(shí)頻掩蔽的語(yǔ)音盲提取算法[J]. 聲學(xué)學(xué)報(bào), 2013, 38(2): 224-230.

      XIA Xiuyu,HE Peiyu. Speech blind extraction algorithm based on sound source azimuth information and nonlinear time-frequency masking[J]. Acta Acustica, 2013,38(2):224-230. (in Chinese)

      [11] 徐舜, 陳紹榮, 劉郁林. 基于非線性時(shí)頻掩蔽的語(yǔ)音盲分離方法[J]. 聲學(xué)學(xué)報(bào), 2007, 32(4): 375-381. DOI:10.3321/j.issn:0371-0025.2007.04.015.

      XU Shun, CHEN Shaorong, LIU Yulin. Blind speech source separation via nonlinear time-frequency masking[J]. Acta Acustica, 2007, 32(4): 375-381. DOI:10.3321/j.issn:0371-0025.2007.04.015.(in Chinese)

      [12] SCHMIDHUBER J. Deep learning in neural networks: an overview[J]. Neural Netw, 2014, 61: 85-117. DOI:10.1016/j.neunet.2014.09.003.

      猜你喜歡
      聲紋伯努利頻點(diǎn)
      基于4G MR的大數(shù)據(jù)分析優(yōu)化EPSFB語(yǔ)音時(shí)延
      屏幕即指紋識(shí)別
      一種伯努利原理研究的實(shí)驗(yàn)裝置
      淺談關(guān)于n重伯努利試驗(yàn)概率計(jì)算問(wèn)題
      基于測(cè)量報(bào)告數(shù)據(jù)優(yōu)化CSFB頻點(diǎn)配置的方法
      基于數(shù)字水印的人臉與聲紋融合識(shí)別算法
      三個(gè)高階伯努利多項(xiàng)式與等冪和多項(xiàng)式的對(duì)稱等式
      流體力學(xué)中的總流伯努利方程
      物理與工程(2014年4期)2014-02-27 11:23:09
      載帶壓縮11頻點(diǎn)創(chuàng)新方案
      GSM網(wǎng)絡(luò)跳躍式頻率優(yōu)化方案
      桐柏县| 晋江市| 泸定县| 都江堰市| 贵德县| 开远市| 绥芬河市| 文昌市| 廊坊市| 前郭尔| 综艺| 阿克| 边坝县| 榆林市| 金昌市| 个旧市| 临沭县| 乃东县| 句容市| 舒兰市| 沙河市| 石柱| 日土县| 云安县| 会东县| 安新县| 廊坊市| 衡东县| 资兴市| 庆云县| 喜德县| 高雄市| 洪雅县| 尤溪县| 景东| 义马市| 鄂托克旗| 永昌县| 和田县| 望江县| 邻水|